CN117058525A - 一种模型的训练方法、装置、存储介质及电子设备 - Google Patents
一种模型的训练方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN117058525A CN117058525A CN202311293164.3A CN202311293164A CN117058525A CN 117058525 A CN117058525 A CN 117058525A CN 202311293164 A CN202311293164 A CN 202311293164A CN 117058525 A CN117058525 A CN 117058525A
- Authority
- CN
- China
- Prior art keywords
- image processing
- trained
- weight
- processing model
- connection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 130
- 238000000034 method Methods 0.000 title claims abstract description 109
- 238000003860 storage Methods 0.000 title claims abstract description 24
- 238000012545 processing Methods 0.000 claims abstract description 269
- 238000013138 pruning Methods 0.000 claims abstract description 46
- 239000011159 matrix material Substances 0.000 claims description 76
- 230000008569 process Effects 0.000 claims description 29
- 238000004590 computer program Methods 0.000 claims description 17
- 230000008014 freezing Effects 0.000 claims description 17
- 238000007710 freezing Methods 0.000 claims description 17
- 230000006835 compression Effects 0.000 abstract description 7
- 238000007906 compression Methods 0.000 abstract description 7
- 238000010586 diagram Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 13
- 238000005516 engineering process Methods 0.000 description 11
- 230000006872 improvement Effects 0.000 description 8
- 210000002569 neuron Anatomy 0.000 description 7
- 238000013527 convolutional neural network Methods 0.000 description 5
- 230000002028 premature Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 239000007787 solid Substances 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 229920001296 polysiloxane Polymers 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 239000010979 ruby Substances 0.000 description 1
- 229910001750 ruby Inorganic materials 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本说明书公开了一种模型的训练方法、装置、存储介质及电子设备,首先可获取待训练的图像处理模型中网络层的连接权重,并根据连接权重,确定所述待训练的图像处理模型中的成熟连接权重以及非成熟连接权重。然后,获取样本图像以及样本图像对应的标注,并根据样本图像以及样本图像对应的标注,分别调整成熟连接权重以及非成熟连接权重,得到训练完成的图像处理模型。最后,根据得到的训练完成的图像处理模型中的各连接权重,确定训练完成的图像处理模型中的非成熟连接权重并剪枝,得到最终的图像处理模型。该方法在实现模型压缩的同时,兼顾了非成熟连接权重对模型性能造成的影响,进一步提高了模型的性能。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种模型的训练方法、装置、存储介质及电子设备。
背景技术
随着科技的发展,人工智能技术飞速发展。目前深度学习技术被广泛应用于各业务领域,如图像识别、视觉定位等,基于深度学习技术训练得到的神经网络模型也越来越多。其中,卷积神经网络在目标检测与识别、图像分类、语义分割等任务上展示出了其强大的能力。
然而,训练完成的模型往往复杂度较高、数据量较大,尤其是基于深度学习技术训练得到的模型,尽管复杂的模型能够带来更好的性能,但是高额存储空间的占据以及大量计算资源的消耗,致使训练完成的模型难以有效应用于各硬件平台中,因此在模型训练的过程中,在保证模型性能的同时,如何对模型进行压缩处理即减少模型的参数数量以及降低模型大小,使得训练完成的模型可以应用至各硬件平台中是至关重要的问题。
基于此,本申请说明书提供了一种模型的训练方法。
发明内容
本说明书提供一种模型的训练方法、装置、存储介质及电子设备,以至少部分的解决现有技术存在的上述问题。
本说明书采用下述技术方案:
本说明书提供了一种模型的训练方法,所述方法包括:
获取待训练的图像处理模型中网络层的各连接权重;
根据所述连接权重,确定所述待训练的图像处理模型中的成熟连接权重以及非成熟连接权重;
获取样本图像以及所述样本图像对应的标注;
根据所述样本图像以及所述样本图像对应的标注,分别调整所述成熟连接权重以及所述非成熟连接权重,得到训练完成的图像处理模型;
根据得到的训练完成的图像处理模型中的各连接权重,确定所述训练完成的图像处理模型中的非成熟连接权重并剪枝,得到最终的图像处理模型。
可选地,根据所述连接权重,确定所述待训练的图像处理模型中的成熟连接权重以及非成熟连接权重,具体包括:
针对所述待训练的图像处理模型中的每个网络层,确定该网络层对应的连接权重的权重矩阵;
根据确定出的该网络层对应的权重矩阵以及所述待训练的图像处理模型的网络层总数量,确定该网络层对应的权重阈值;
根据确定出的所述待训练的图像处理模型中的各网络层对应的权重阈值,确定所述待训练的图像处理模型中的成熟连接权重以及非成熟连接权重。
可选地,确定所述待训练的图像处理模型中的成熟连接权重以及非成熟连接权重,具体包括:
针对该网络层中的每个连接权重,若该连接权重大于该网络层对应的权重阈值,则确定该连接权重为成熟连接权重;
若该连接权重对应的连接权重不大于该网络层对应的权重阈值,则确定该连接权重为非成熟连接权重。
可选地,根据所述样本图像以及所述样本图像对应的标注,调整所述非成熟连接权重,具体包括:
将所述样本图像输入所述待训练的图像处理模型,得到所述待训练的图像处理模型输出的第一处理结果;
以所述第一处理结果与所述标注之间的差异最小为目标,调整所述待训练的图像处理模型中的所述非成熟连接权重。
可选地,根据所述样本图像以及所述样本图像对应的标注,调整所述成熟连接权重以及所述非成熟连接权重,具体包括:
根据所述样本图像以及所述样本图像对应的标注,对待训练的图像处理模型进行迭代训练,以在每轮迭代训练中分别调整所述成熟连接权重以及所述非成熟连接权重;
在得到所述待训练的图像处理模型输出的第一处理结果之前,所述方法还包括:
恢复上一轮迭代训练过程中剪枝或者冻结的非成熟连接权重;
在调整所述待训练的图像处理模型中的所述非成熟连接权重之前,所述方法还包括:
对本轮迭代训练过程中的所述成熟连接权重进行剪枝或者冻结。
可选地,在调整所述非成熟连接权重之后,所述方法还包括:
针对所述待训练的图像处理模型中的每个网络层,确定该网络层对应的连接权重的权重矩阵;
以该网络层对应的权重矩阵与调整后的该网络层中的非成熟连接权重对应的权重矩阵之间的差异最小为目标,对该网络层中调整后的非成熟连接权重进行微调。
可选地,根据所述样本图像以及所述样本图像对应的标注,调整所述成熟连接权重,具体包括:
将所述样本图像输入所述待训练的图像处理模型,得到所述待训练的图像处理模型输出的第二处理结果;
以所述第二处理结果与所述标注之间的差异最小为目标,调整所述待训练的图像处理模型中的所述成熟连接权重。
可选地,根据所述样本图像以及所述样本图像对应的标注,分别调整所述成熟连接权重以及所述非成熟连接权重,具体包括:
根据所述样本图像以及所述样本图像对应的标注,对待训练的图像处理模型进行迭代训练,以在每轮迭代训练中分别调整所述成熟连接权重以及所述非成熟连接权重;
在得到所述待训练的图像处理模型输出的第二处理结果之前,所述方法还包括:
恢复上一轮迭代训练过程中剪枝或者冻结的成熟连接权重;
在调整所述待训练的图像处理模型中的所述成熟连接权重之前,所述方法还包括:
对本轮迭代训练过程中的所述非成熟连接权重进行剪枝或者冻结。
可选地,在调整所述成熟连接权重之后,所述方法还包括:
针对所述待训练的图像处理模型中的每个网络层,确定该网络层对应的连接权重的权重矩阵;
以该网络层对应的权重矩阵与调整后的该网络层中的成熟连接权重对应的权重矩阵之间的差异最小为目标,对该网络层中调整后的成熟连接权重进行微调。
可选地,在分别调整所述成熟连接权重以及所述非成熟连接权重之后,在确定所述训练完成的图像处理模型中的非成熟连接权重并剪枝之前,所述方法还包括:
根据调整后的成熟连接权重以及非成熟连接权重,确定调整后的图像处理模型中的成熟连接权重以及非成熟连接权重对应的第一权重矩阵;以及确定所述待训练的图像处理模型中的连接权重对应的第二权重矩阵;
以所述第一权重矩阵与所述第二权重矩阵之间的差异最小为目标,对所述调整后的成熟连接权重和非成熟连接权重进行微调。
本说明书提供了一种模型的训练装置,包括:
第一获取模块,用于获取待训练的图像处理模型中网络层的连接权重;
确定模块,用于根据所述连接权重,确定所述待训练的图像处理模型中的成熟连接权重以及非成熟连接权重;
第二获取模块,用于获取样本图像以及所述样本图像对应的标注;
训练模块,用于根据所述样本图像以及所述样本图像对应的标注,分别调整所述成熟连接权重以及所述非成熟连接权重,得到训练完成的图像处理模型;
剪枝模块,用于根据得到的训练完成的图像处理模型中的各连接权重,确定所述训练完成的图像处理模型中的非成熟连接权重并剪枝,得到最终的图像处理模型。
可选地,所述确定模块具体用于,针对所述待训练的图像处理模型中的每个网络层,确定该网络层对应的连接权重的权重矩阵;根据确定出的该网络层对应的权重矩阵以及所述待训练的图像处理模型的网络层总数量,确定该网络层对应的权重阈值;根据确定出的所述待训练的图像处理模型中的各网络层对应的权重阈值,确定所述待训练的图像处理模型中的成熟连接权重以及非成熟连接权重。
可选地,所述确定模块具体用于,针对该网络层中的每个连接权重,若该连接权重大于该网络层对应的权重阈值,则确定该连接权重为成熟连接权重;若该连接权重对应的连接权重不大于该网络层对应的权重阈值,则确定该连接权重为非成熟连接权重。
可选地,所述训练模块具体用于,将所述样本图像输入所述待训练的图像处理模型,得到所述待训练的图像处理模型输出的第一处理结果;以所述第一处理结果与所述标注之间的差异最小为目标,调整所述待训练的图像处理模型中的所述非成熟连接权重。
可选地,所述训练模块具体用于,根据所述样本图像以及所述样本图像对应的标注,对待训练的图像处理模型进行迭代训练,以在每轮迭代训练中分别调整所述成熟连接权重以及所述非成熟连接权重;
所述训练模块还用于,恢复上一轮迭代训练过程中剪枝或者冻结的非成熟连接权重;
所述训练模块还用于,对本轮迭代训练过程中的所述成熟连接权重进行剪枝或者冻结。
可选地,所述训练模块还用于,针对所述待训练的图像处理模型中的每个网络层,确定该网络层对应的连接权重的权重矩阵;以该网络层对应的权重矩阵与调整后的该网络层中的非成熟连接权重对应的权重矩阵之间的差异最小为目标,对该网络层中调整后的非成熟连接权重进行微调。
可选地,所述训练模块具体用于,将所述样本图像输入所述待训练的图像处理模型,得到所述待训练的图像处理模型输出的第二处理结果;以所述第二处理结果与所述标注之间的差异最小为目标,调整所述待训练的图像处理模型中的所述成熟连接权重。
可选地,所述训练模块具体用于,根据所述样本图像以及所述样本图像对应的标注,对待训练的图像处理模型进行迭代训练,以在每轮迭代训练中分别调整所述成熟连接权重以及所述非成熟连接权重;
所述训练模块还用于,恢复上一轮迭代训练过程中剪枝或者冻结的成熟连接权重;
所述训练模块还用于,对本轮迭代训练过程中的所述非成熟连接权重进行剪枝或者冻结。
可选地,所述训练模块还用于,针对所述待训练的图像处理模型中的每个网络层,确定该网络层对应的连接权重的权重矩阵;以该网络层对应的权重矩阵与调整后的该网络层中的成熟连接权重对应的权重矩阵之间的差异最小为目标,对该网络层中调整后的成熟连接权重进行微调。
可选地,所述训练模块还用于,根据调整后的成熟连接权重以及非成熟连接权重,确定调整后的图像处理模型中的成熟连接权重以及非成熟连接权重对应的第一权重矩阵;以及确定所述待训练的图像处理模型中的连接权重对应的第二权重矩阵;以所述第一权重矩阵与所述第二权重矩阵之间的差异最小为目标,对所述调整后的成熟连接权重和非成熟连接权重进行微调。
本说明书提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述模型的训练方法。
本说明书提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述模型的训练方法。
本说明书采用的上述至少一个技术方案能够达到以下有益效果:
在本说明书提供的模型的训练方法中可以看出,通过确定待训练的图像处理模型的各连接权重中的成熟连接权重以及非成熟连接权重,并基于样本图像以及样本图像对应的标注,分别对成熟连接权重以及非成熟连接权重进行调整,以得到训练完成的图像处理模型,并对训练完成的图像处理模型中的非成熟连接权重剪枝,得到最终的图像处理模型。在该方法的模型训练过程中,由于模型中网络层对应的各连接权重会随着模型的迭代训练而发生变化,那么非成熟连接权重随着模型的迭代训练可能转变为成熟连接权重,也即对模型的预测性能贡献变大,因此在对模型进行压缩时,区别于目前模型训练时直接对非成熟连接权重进行剪枝的方法,本方法对模型中的非成熟连接权重以及成熟连接权重分别进行调整,直至得到训练完成的模型,并基于训练完成的模型中的各连接权重,确定非成熟连接权重并剪枝,以得到完成压缩的最终模型。显然,该方法在实现模型压缩的同时,兼顾了非成熟连接权重对模型性能造成的影响,进一步提高了模型的性能。
附图说明
此处所说明的附图用来提供对本说明书的进一步理解,构成本说明书的一部分,本说明书的示意性实施例及其说明用于解释本说明书,并不构成对本说明书的不当限定。在附图中:
图1为本说明书中一种模型的训练方法的流程示意图;
图2为本说明书提供的一种模型结构示意图;
图3为本说明书提供的一种模型的训练方法的框架示意图;
图4为本说明书提供的一种模型的训练装置示意图;
图5为本说明书提供的对应于图1的电子设备示意图。
具体实施方式
模型压缩算法可以将复杂度高、数据量大的模型转化为相对精简、复杂度低的模型,以减少模型对硬件设备的存储需求、带宽需求以及计算需求,实现终端中的模型部署以及加速模型推理的目标。其中,模型剪枝(也即模型稀疏化)是模型压缩方法中的一种,且被广泛应用,模型剪枝可以直接减少模型中的参数量。
为使本说明书的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于说明书保护的范围。
以下结合附图,详细说明本说明书各实施例提供的技术方案。
图1为本说明书提供的一种模型的训练方法的流程示意图,具体可包括以下步骤:
S100:获取待训练的图像处理模型中网络层的连接权重。
S102:根据所述连接权重,确定所述待训练的图像处理模型中的成熟连接权重以及非成熟连接权重。
目前由于基于深度学习技术得到的图像处理模型的复杂度较高,往往难以直接部署至各终端平台中,且由于在不同场景下对图像处理模型的精确性以及实时性要求不同,例如:在海关、机场以及车站等地点的通关进站安检中,要对行李物品等进行严格的检查,以确保站内外流动的行李物品符合规定要求,然而海量的行李物品以及对行李物品的即时查验放行的目标,要求对行李物品的图像进行检测处理的图像处理模型具备极高的精确性以及实时性,在本说明书的一个或多个实施例中,该图像处理模型可为基于卷积神经网络的目标检测模型、图像分类模型等等。因此,本申请说明书提供了一种模型的训练方法,使得训练完成的模型既得到了压缩又兼顾了模型的性能,使得模型可以实时地运行在移动设备、嵌入式平台上。
执行本说明书技术方案的执行主体可为任意具备计算能力的计算设备(如:服务器、终端)。
在本说明书中,该计算设备首先可获取待训练的图像处理模型中网络层的连接权重。如图2所示,圆圈表示图像处理模型中的神经元,连接权重为神经元之间传递特征向量时的传播权重,如图2中的实线箭头。并根据获取到的网络层的连接权重,确定待训练的图像处理模型中的成熟连接权重以及非成熟连接权重。在本说明书中的一个或多个实施例中,该图像处理模型可为卷积神经网络模型,对于该待训练的图像处理模型而言,可获取该待训练的图像处理模型中网络层的神经元的连接权重,进而将该待训练的图像处理模型中的连接权重划分为成熟连接权重以及非成熟连接权重,其中,成熟连接权重大于非成熟连接权重。
需要说明的是,该待训练的图像处理模型可以为预训练的图像处理模型,也即可为根据通用样本数据集,训练得到的预训练的图像处理模型,则待训练的图像处理模型中网络层的连接权重可为该预训练的图像处理模型中网络层的连接权重,该待训练的图像处理模型也可以为未经过训练的图像处理模型,则可初始化该未训练的图像处理模型中的参数,则待训练的图像处理模型中网络层的连接权重可为初始化的该未训练的图像处理模型中网络层的连接权重。
具体的,该计算设备在确定待训练的图像处理模型中的成熟连接权重以及非成熟连接权重时,可先针对待训练的图像处理模型中的每个网络层,确定该网络层对应的连接权重的权重矩阵,然后根据确定出的该网络层对应的权重矩阵以及待训练的图像处理模型的网络层总数量,确定该网络层对应的权重阈值,最后根据确定出的待训练的图像处理模型中的各网络层对应的权重阈值,确定待训练的图像处理模型中的成熟连接权重以及非成熟连接权重,也即针对该网络层中的每个连接权重,若该连接权重大于该网络层对应的权重阈值,则确定该连接权重为成熟连接权重,若该连接权重对应的连接权重不大于该网络层对应的权重阈值,则确定该连接权重为非成熟连接权重。
在本说明书的一个或多个实施例中,为了将待训练的图像处理模型中的连接权重划分为成熟连接权重以及非成熟连接权,可使用下述公式确定各网络层对应的权重阈值:
。
其中,k表示待训练的图像处理模型中网络层的第k层,且1<=k<=N,N表示待训练的图像处理模型中网络层总数量,与/>分别表示待训练的图像处理模型中第k层网络层对应的连接权重的均值与方差,/>和/>为系数,该系数可通过先验数据测试获取,还可根据不同的图像数据类别及任务需求进行微调,/>表示待训练的图像处理模型中第k层网络层对应的连接权重阈值。
S104:获取样本图像以及所述样本图像对应的标注。
S106:根据所述样本图像以及所述样本图像对应的标注,分别调整所述成熟连接权重以及所述非成熟连接权重,得到训练完成的图像处理模型。
进而,该计算设备可获取样本图像以及样本图像对应的标注,并根据样本图像以及样本图像对应的标注,分别调整成熟连接权重以及非成熟连接权重,得到训练完成的图像处理模型。在本说明书中,根据样本图像以及样本图像对应的标注,对待训练的图像处理模型进行迭代训练,以在每轮迭代训练过程中分别调整成熟连接权重以及非成熟连接权重。也就是说,待训练的图像处理模型的每轮训练至少包括:调整成熟连接权重以及调整非成熟连接权重。
需要说明的是,对成熟连接权重以及非成熟连接权重进行调整时,顺序不分先后,也即在每轮迭代训练过程中,可先调整该轮的成熟连接权重,再调整该轮的非成熟连接权重,或者,可先调整该轮的非成熟连接权重,再调整该轮的成熟连接权重,具体不做限制。并且,针对每轮训练,在调整该轮的成熟连接权重时,恢复上一轮迭代训练过程中剪枝或者冻结的成熟连接权重,并对该轮的非成熟连接权重进行剪枝或者固定,在调整非成熟连接权重时,恢复上一轮迭代训练过程中剪枝或者冻结的非成熟连接权重,并对该轮的成熟连接权重进行剪枝或者固定。
下面以先调整成熟连接权重,再调整非成熟连接权重为例进行说明。
具体的,在对非成熟连接权重进行剪枝以调整确定出的成熟连接权重时,该计算设备可将样本图像输入待训练的图像处理模型,得到待训练的图像处理模型输出的第二处理结果,并以第二处理结果与样本图像对应的标注之间的差异最小为目标,调整待训练的图像处理模型中的成熟连接权重。
在本说明书中,在调整成熟连接权重时,该计算设备可先针对待训练的图像处理模型中的每个网络层,设置该网络层对应的矩阵P,矩阵P可采用下述公式表示:
。
其中,表示待训练的图像处理模型中第k层网络层对应的连接权重矩阵,为与/>维数相同的矩阵,S包含所有的连接权重的索引位置。根据公式可知,若P矩阵中的元素为0,则为待训练的图像处理模型中的非成熟连接权重,若P矩阵中的元素为1,则为待训练的图像处理模型中的成熟连接权重。
并且,该计算设备可使用下述公式对待训练的图像处理模型中的连接权重进行稀疏,以对非成熟连接权重进行剪枝,以实现对成熟连接权重的调整。
。
其中,表示哈达玛积运算。
需要说明的是,由于在本说明书中待训练的图像处理模型的每轮训练至少包括:调整成熟连接权重以及调整非成熟连接权重,因此在得到所述待训练的图像处理模型输出的第二处理结果之前,该计算设备需要恢复上一轮迭代训练过程中剪枝或者冻结的成熟连接权重,并且在调整待训练的图像处理模型中的成熟连接权重之前,该计算设备要对本轮迭代训练过程中的非成熟连接权重进行剪枝或者冻结。
相对应的,在对成熟连接权重进行剪枝以调整确定出的非成熟连接权重时,该计算设备同样可将样本图像输入待训练的图像处理模型,得到待训练的图像处理模型输出的第一处理结果,并以第一处理结果与样本图像对应的标注之间的差异最小为目标,调整待训练的图像处理模型中的非成熟连接权重。
具体可使用下述公式对成熟连接权重以及非成熟连接权重的标识符(即0与1)进行置换,以实现对待训练的图像处理模型中的成熟连接权重进行剪枝,并对剩余的非成熟连接权重进行调整:
。
。
其中,与/>的维度相同,/>表示待训练的图像处理模型中第k层网络层对应的连接权重矩阵,/>为与/>维数相同的矩阵,S包含所有的连接权重的索引位置,表示哈达玛积运算。根据公式可知,若P矩阵中的元素为0,则为待训练的图像处理模型中的非成熟连接权重,若P矩阵中的元素为1,则为待训练的图像处理模型中的成熟连接权重。
需要说明的是,由于在本说明书中待训练的图像处理模型的每轮训练至少包括:调整成熟连接权重以及调整非成熟连接权重,因此在得到所述待训练的图像处理模型输出的第一处理结果之前,该计算设备需要恢复上一轮迭代训练过程中剪枝或者冻结的非成熟连接权重,并且在调整待训练的图像处理模型中的非成熟连接权重之前,该计算设备要对本轮迭代训练过程中的成熟连接权重进行剪枝或者冻结。
如图3所示,为本说明书提供的一种模型的训练方法的框架示意图。在图3中,圆圈代表模型中的神经元,位于一列的神经元为一个网络层,向前传播时神经元之间的箭头连线对应连接权重,其中,虚线箭头表示待训练的图像处理模型中的非成熟连接权重,实线箭头表示待训练的图像处理模型中的成熟连接权重,加粗虚线箭头表示调整后的非成熟连接权重,实线箭头表示调整后的成熟连接权重,对连接权重进行剪枝或者固定用符号叉表示。
也就是说,在本申请说明书提供的模型训练的方法中,先获取待训练的图像处理模型中网络层的连接权重,以及获取样本图像以及所述样本图像对应的标注,并根据连接权重,确定待训练的图像处理模型中的成熟连接权重以及非成熟连接权重。
然后,对待训练的图像处理模型中的非成熟连接权重进行剪枝或者冻结,得到第一图像处理模型,并将样本图像输入第一图像处理模型,得到第一处理结果,以第一处理结果与标注之间的差异最小为目标,调整第一图像处理模型中的成熟连接权重,得到调整后的第一图像处理模型。
进而,在调整后的第一图像处理模型中恢复非成熟连接权重,并对调整后的第一图像处理模型中的成熟连接权重进行剪枝或者冻结,得到第二图像处理模型。将样本图像输入第二图像处理模型,得到第二处理结果,并以第二处理结果与标注之间的差异最小为目标,调整第二图像处理模型中的成熟连接权重,得到调整后的第二图像处理模型。并且在调整后的第二图像处理模型中恢复调整后的第一图像处理模型中的非成熟连接权重,得到调整后的图像处理模型。
最后,将调整后的图像处理模型重新作为待训练的图像处理模型,并继续确定重新得到的待训练的图像处理模型中的成熟连接权重以及非成熟连接权重,以及继续调整成熟连接权重以及非成熟连接权重,直至满足预设条件为止,得到训练完成的图像处理模型。根据得到的训练完成的图像处理模型中的各连接权重,确定训练完成的图像处理模型中的非成熟连接权重并剪枝,得到最终的图像处理模型。
其中,预设条件可为训练迭代次数达到预设阈值,或者连接权重达到预设阈值,或者确定出的损失小于预设阈值。
由于待训练的图像处理模型在迭代训练中,该待训练的图像处理模型中的神经元之间的连接权重会动态发生变化,即连接权重对模型的重要性会动态改变,如:在对待训练的图像处理模型进行训练之前,某连接权重被判断为非成熟连接权重并剪枝,而经过后续迭代训练后,该非成熟连接权重对于该待训练的图像处理模型的预测性能有较大贡献,因此在后续迭代训练之前对该非成熟连接权重进行剪枝,再对剪枝后的该待训练的图像处理模型进行训练会带来一定的信息丢失,从而导致预测结果不准确,影响该模型的预测性能,因此本说明书中对待训练的图像处理模型的连接权重进行恢复的操作,能降低错误剪枝操作发生的概率,提高剪枝后的模型的准确性。
S108:根据得到的训练完成的图像处理模型中的各连接权重,确定所述训练完成的图像处理模型中的非成熟连接权重并剪枝,得到最终的图像处理模型。
最后,该计算设备可根据得到的训练完成的图像处理模型中的各连接权重,确定训练完成的图像处理模型中的非成熟连接权重并剪枝,得到最终的图像处理模型。其中,确定训练完成的图像处理模型中的非成熟连接权重的方法与上述步骤S106中所述的确定待训练的图像处理模型中的成熟连接权重以及非成熟连接权重的方法一致,可针对训练完成的图像处理模型中的每个网络层,确定该网络层对应的连接权重的权重矩阵,并根据确定出的该网络层对应的权重矩阵以及训练完成的图像处理模型的网络层总数量,确定该网络层对应的权重阈值,进而根据训练完成的图像处理模型中的各网络层对应的权重阈值,确定训练完成的图像处理模型中的非成熟连接权重。并可对确定出的非成熟连接权重进行剪枝,得到最终的图像处理模型。
基于图1所示本说明书提供的上述模型的训练方法中,区别于目前模型训练时直接对非成熟连接权重进行剪枝的方法,该方法通过确定待训练的图像处理模型的各连接权重中的成熟连接权重以及非成熟连接权重,并基于样本图像以及样本图像对应的标注,分别对成熟连接权重以及非成熟连接权重进行调整,以得到训练完成的图像处理模型,并对训练完成的图像处理模型中的非成熟连接权重剪枝,得到最终的图像处理模型。在该方法的模型训练过程中,由于模型中网络层对应的各连接权重会随着模型的迭代训练而发生变化,那么非成熟连接权重随着模型的迭代训练可能转变为成熟连接权重,也即对模型的预测性能贡献变大,因此该方法在实现模型压缩的同时,兼顾了非成熟连接权重对模型性能造成的影响,进一步提高了模型的性能。
由于目前的模型权重剪枝方法是根据设置的标准评估连接权重的重要性,对被评估的“不重要连接权重”即非成熟连接权重直接进行剪枝,在实际应用中只训练“重要的连接”即成熟连接权重,而忽略对“不重要的连接”即非成熟连接权重的训练。且由于在模型的训练过程中,通过迭代训练“不重要的连接”即非成熟连接权重,其可能发生变化,从而导致其对训练完成的模型的重要性发生改变,因此本方法进行模型权重剪枝时,针对模型的每轮训练,分别对由成熟连接权重构成的模型进行训练,以及对由非成熟连接权重构成的模型进行训练,且为了提高训练完成的模型的性能,在训练过程中可对模型进行微调,最终经过多轮训练后,得到训练完成的模型,并评估训练完成的模型中的非成熟连接权重并剪枝,以得到剪枝后最终的模型。经实验证明,该方法对模型的压缩尤其是对卷积神经网络模型的压缩,或者说对卷积神经网络模型的权重的稀疏表示展示出高效地性能。
进一步的,为了提高模型的性能,在上述步骤S106中,在调整所述非成熟连接权重以及在调整成熟连接权重之后,该计算设备还可分别对调整后的成熟连接权重以及非成熟连接权重进行微调。具体的,在对非成熟连接权重进行微调时,可针对待训练的图像处理模型中的每个网络层,确定该网络层对应的连接权重的权重矩阵,并以该网络层对应的权重矩阵与调整后的该网络层中的非成熟连接权重对应的权重矩阵之间的差异最小为目标,对该网络层中调整后的非成熟连接权重进行微调。同样的,在对成熟连接权重进行微调时,可针对待训练的图像处理模型中的每个网络层,确定该网络层对应的连接权重的权重矩阵,并以该网络层对应的权重矩阵与调整后的该网络层中的成熟连接权重对应的权重矩阵之间的差异最小为目标,对该网络层中调整后的成熟连接权重进行微调。
此外,在分别调整成熟连接权重以及非成熟连接权重之后,在确定训练完成的图像处理模型中的非成熟连接权重并剪枝之前,可根据调整后的成熟连接权重以及非成熟连接权重,确定调整后的图像处理模型中的成熟连接权重以及非成熟连接权重对应的第一权重矩阵,以及确定待训练的图像处理模型中的连接权重对应的第二权重矩阵,并以第一权重矩阵与第二权重矩阵之间的差异最小为目标,对调整后的成熟连接权重和非成熟连接权重进行微调。
简单的来说,在本说明书中,对模型进行训练时,可对模型中的连接权重进行微调,微调包括三部分:对成熟连接权重的微调,对非成熟连接权重的微调,对每次迭代训练后的全部连接权重进行微调。
显然,对全部连接权重进行微调时,由于之前已经分别对成熟连接权重与非成熟连接权重进行微调,模型的损失函数已经达到较为收敛的状态,因此对全部连接权重进行微调时所使用的学习率较小,对模型中的连接权重进行微调,能够提升模型性能。
在本说明书的一个或多个实施例中,对模型中的连接权重进行微调时,可采用下述公式:
。
。
其中,L表示待训练的图像处理模型的损失函数,表示约束条件,/>表示待训练的图像处理模型中第k层网络层的权重矩阵,/>为对权重矩阵/>进行判断的判别函数,且用以约束限制优化区域矩阵/>,/>为对成熟连接权重进行调整时的与/>维数相同的矩阵,/>表示对非成熟连接权重进行调整时的与/>维数相同的矩阵,/>表示全1矩阵。
因此在微调过程中,可求解的最小化损失函数L/>,其中,当对成熟连接权重进行微调时,I取值为1,/>取值为/>,当对非成熟连接权重进行微调时,I取值为2,/>取值为/>,当对全部连接权重进行微调时,I取值为3,/>取值为/>,以恢复所有的成熟连接权重和非成熟连接权重,并进行微调。
基于上述内容所述的模型的训练方法,本说明书实施例还对应的提供一种用于模型的训练装置示意图,如图4所示。
图4为本说明书实施例提供的一种用于模型的训练装置的示意图,所述装置包括:
第一获取模块400,用于获取待训练的图像处理模型中网络层的连接权重;
确定模块402,用于根据所述连接权重,确定所述待训练的图像处理模型中的成熟连接权重以及非成熟连接权重;
第二获取模块404,用于获取样本图像以及所述样本图像对应的标注;
训练模块406,用于根据所述样本图像以及所述样本图像对应的标注,分别调整所述成熟连接权重以及所述非成熟连接权重,得到训练完成的图像处理模型;
剪枝模块408,用于根据得到的训练完成的图像处理模型中的各连接权重,确定所述训练完成的图像处理模型中的非成熟连接权重并剪枝,得到最终的图像处理模型。
可选地,所述确定模块402具体用于,针对所述待训练的图像处理模型中的每个网络层,确定该网络层对应的连接权重的权重矩阵;根据确定出的该网络层对应的权重矩阵以及所述待训练的图像处理模型的网络层总数量,确定该网络层对应的权重阈值;根据确定出的所述待训练的图像处理模型中的各网络层对应的权重阈值,确定所述待训练的图像处理模型中的成熟连接权重以及非成熟连接权重。
可选地,所述确定模块402具体用于,针对该网络层中的每个连接权重,若该连接权重大于该网络层对应的权重阈值,则确定该连接权重为成熟连接权重;若该连接权重对应的连接权重不大于该网络层对应的权重阈值,则确定该连接权重为非成熟连接权重。
可选地,所述训练模块406具体用于,将所述样本图像输入所述待训练的图像处理模型,得到所述待训练的图像处理模型输出的第一处理结果;以所述第一处理结果与所述标注之间的差异最小为目标,调整所述待训练的图像处理模型中的所述非成熟连接权重。
可选地,所述训练模块406具体用于,根据所述样本图像以及所述样本图像对应的标注,对待训练的图像处理模型进行迭代训练,以在每轮迭代训练中分别调整所述成熟连接权重以及所述非成熟连接权重;
所述训练模块406还用于,恢复上一轮迭代训练过程中剪枝或者冻结的非成熟连接权重;
所述训练模块406还用于,对本轮迭代训练过程中的所述成熟连接权重进行剪枝或者冻结。
可选地,所述训练模块406还用于,针对所述待训练的图像处理模型中的每个网络层,确定该网络层对应的连接权重的权重矩阵;以该网络层对应的权重矩阵与调整后的该网络层中的非成熟连接权重对应的权重矩阵之间的差异最小为目标,对该网络层中调整后的非成熟连接权重进行微调。
可选地,所述训练模块406具体用于,将所述样本图像输入所述待训练的图像处理模型,得到所述待训练的图像处理模型输出的第二处理结果;以所述第二处理结果与所述标注之间的差异最小为目标,调整所述待训练的图像处理模型中的所述成熟连接权重。
可选地,所述训练模块406具体用于,根据所述样本图像以及所述样本图像对应的标注,对待训练的图像处理模型进行迭代训练,以在每轮迭代训练中分别调整所述成熟连接权重以及所述非成熟连接权重;
所述训练模块406还用于,恢复上一轮迭代训练过程中剪枝或者冻结的成熟连接权重;
所述训练模块406还用于,对本轮迭代训练过程中的所述非成熟连接权重进行剪枝或者冻结。
可选地,所述训练模块406还用于,针对所述待训练的图像处理模型中的每个网络层,确定该网络层对应的连接权重的权重矩阵;以该网络层对应的权重矩阵与调整后的该网络层中的成熟连接权重对应的权重矩阵之间的差异最小为目标,对该网络层中调整后的成熟连接权重进行微调。
可选地,所述训练模块406还用于,根据调整后的成熟连接权重以及非成熟连接权重,确定调整后的图像处理模型中的成熟连接权重以及非成熟连接权重对应的第一权重矩阵;以及确定所述待训练的图像处理模型中的连接权重对应的第二权重矩阵;以所述第一权重矩阵与所述第二权重矩阵之间的差异最小为目标,对所述调整后的成熟连接权重和非成熟连接权重进行微调。
本说明书实施例还提供了一种计算机可读存储介质,该存储介质存储有计算机程序,计算机程序可用于执行上述内容所述的模型的训练方法。
基于上述内容所述的模型的训练方法,本说明书实施例还提出了图5所示的电子设备的示意结构图。如图5,在硬件层面,该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器,当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,以实现上述内容所述的模型的训练方法。
当然,除了软件实现方式之外,本说明书并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device, PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20 以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本说明书的实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (13)
1.一种模型的训练方法,其特征在于,所述方法包括:
获取待训练的图像处理模型中网络层的连接权重;
根据所述连接权重,确定所述待训练的图像处理模型中的成熟连接权重以及非成熟连接权重;
获取样本图像以及所述样本图像对应的标注;
根据所述样本图像以及所述样本图像对应的标注,分别调整所述成熟连接权重以及所述非成熟连接权重,得到训练完成的图像处理模型;
根据得到的训练完成的图像处理模型中的各连接权重,确定所述训练完成的图像处理模型中的非成熟连接权重并剪枝,得到最终的图像处理模型。
2.如权利要求1所述的方法,其特征在于,根据所述连接权重,确定所述待训练的图像处理模型中的成熟连接权重以及非成熟连接权重,具体包括:
针对所述待训练的图像处理模型中的每个网络层,确定该网络层对应的连接权重的权重矩阵;
根据确定出的该网络层对应的权重矩阵以及所述待训练的图像处理模型的网络层总数量,确定该网络层对应的权重阈值;
根据确定出的所述待训练的图像处理模型中的各网络层对应的权重阈值,确定所述待训练的图像处理模型中的成熟连接权重以及非成熟连接权重。
3.如权利要求2所述的方法,其特征在于,确定所述待训练的图像处理模型中的成熟连接权重以及非成熟连接权重,具体包括:
针对该网络层中的每个连接权重,若该连接权重大于该网络层对应的权重阈值,则确定该连接权重为成熟连接权重;
若该连接权重对应的连接权重不大于该网络层对应的权重阈值,则确定该连接权重为非成熟连接权重。
4.如权利要求1所述的方法,其特征在于,根据所述样本图像以及所述样本图像对应的标注,调整所述非成熟连接权重,具体包括:
将所述样本图像输入所述待训练的图像处理模型,得到所述待训练的图像处理模型输出的第一处理结果;
以所述第一处理结果与所述标注之间的差异最小为目标,调整所述待训练的图像处理模型中的所述非成熟连接权重。
5.如权利要求4所述的方法,其特征在于,根据所述样本图像以及所述样本图像对应的标注,调整所述成熟连接权重以及所述非成熟连接权重,具体包括:
根据所述样本图像以及所述样本图像对应的标注,对待训练的图像处理模型进行迭代训练,以在每轮迭代训练中分别调整所述成熟连接权重以及所述非成熟连接权重;
在得到所述待训练的图像处理模型输出的第一处理结果之前,所述方法还包括:
恢复上一轮迭代训练过程中剪枝或者冻结的非成熟连接权重;
在调整所述待训练的图像处理模型中的所述非成熟连接权重之前,所述方法还包括:
对本轮迭代训练过程中的所述成熟连接权重进行剪枝或者冻结。
6.如权利要求1所述的方法,其特征在于,在调整所述非成熟连接权重之后,所述方法还包括:
针对所述待训练的图像处理模型中的每个网络层,确定该网络层对应的连接权重的权重矩阵;
以该网络层对应的权重矩阵与调整后的该网络层中的非成熟连接权重对应的权重矩阵之间的差异最小为目标,对该网络层中调整后的非成熟连接权重进行微调。
7.如权利要求1所述的方法,其特征在于,根据所述样本图像以及所述样本图像对应的标注,调整所述成熟连接权重,具体包括:
将所述样本图像输入所述待训练的图像处理模型,得到所述待训练的图像处理模型输出的第二处理结果;
以所述第二处理结果与所述标注之间的差异最小为目标,调整所述待训练的图像处理模型中的所述成熟连接权重。
8.如权利要求7所述的方法,其特征在于,根据所述样本图像以及所述样本图像对应的标注,分别调整所述成熟连接权重以及所述非成熟连接权重,具体包括:
根据所述样本图像以及所述样本图像对应的标注,对待训练的图像处理模型进行迭代训练,以在每轮迭代训练中分别调整所述成熟连接权重以及所述非成熟连接权重;
在得到所述待训练的图像处理模型输出的第二处理结果之前,所述方法还包括:
恢复上一轮迭代训练过程中剪枝或者冻结的成熟连接权重;
在调整所述待训练的图像处理模型中的所述成熟连接权重之前,所述方法还包括:
对本轮迭代训练过程中的所述非成熟连接权重进行剪枝或者冻结。
9.如权利要求1所述的方法,其特征在于,在调整所述成熟连接权重之后,所述方法还包括:
针对所述待训练的图像处理模型中的每个网络层,确定该网络层对应的连接权重的权重矩阵;
以该网络层对应的权重矩阵与调整后的该网络层中的成熟连接权重对应的权重矩阵之间的差异最小为目标,对该网络层中调整后的成熟连接权重进行微调。
10.如权利要求1所述的方法,其特征在于,在分别调整所述成熟连接权重以及所述非成熟连接权重之后,在确定所述训练完成的图像处理模型中的非成熟连接权重并剪枝之前,所述方法还包括:
根据调整后的成熟连接权重以及非成熟连接权重,确定调整后的图像处理模型中的成熟连接权重以及非成熟连接权重对应的第一权重矩阵;以及确定所述待训练的图像处理模型中的连接权重对应的第二权重矩阵;
以所述第一权重矩阵与所述第二权重矩阵之间的差异最小为目标,对所述调整后的成熟连接权重和非成熟连接权重进行微调。
11.一种模型的训练装置,其特征在于,所述装置具体包括:
第一获取模块,用于获取待训练的图像处理模型中网络层的连接权重;
确定模块,用于根据所述连接权重,确定所述待训练的图像处理模型中的成熟连接权重以及非成熟连接权重;
第二获取模块,用于获取样本图像以及所述样本图像对应的标注;
训练模块,用于根据所述样本图像以及所述样本图像对应的标注,分别调整所述成熟连接权重以及所述非成熟连接权重,得到训练完成的图像处理模型;
剪枝模块,用于根据得到的训练完成的图像处理模型中的各连接权重,确定所述训练完成的图像处理模型中的非成熟连接权重并剪枝,得到最终的图像处理模型。
12.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述权利要求1-10任一所述的方法。
13.一种电子设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述权利要求1-10任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311293164.3A CN117058525B (zh) | 2023-10-08 | 2023-10-08 | 一种模型的训练方法、装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311293164.3A CN117058525B (zh) | 2023-10-08 | 2023-10-08 | 一种模型的训练方法、装置、存储介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117058525A true CN117058525A (zh) | 2023-11-14 |
CN117058525B CN117058525B (zh) | 2024-02-06 |
Family
ID=88657506
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311293164.3A Active CN117058525B (zh) | 2023-10-08 | 2023-10-08 | 一种模型的训练方法、装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117058525B (zh) |
Citations (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018058509A1 (en) * | 2016-09-30 | 2018-04-05 | Intel Corporation | Dynamic neural network surgery |
CN112101313A (zh) * | 2020-11-17 | 2020-12-18 | 北京蒙帕信创科技有限公司 | 一种机房机器人巡检方法及系统 |
CN112396181A (zh) * | 2020-12-31 | 2021-02-23 | 之江实验室 | 一种卷积神经网络通用压缩架构的自动剪枝方法及平台 |
CN113011588A (zh) * | 2021-04-21 | 2021-06-22 | 华侨大学 | 一种卷积神经网络的剪枝方法、装置、设备和介质 |
WO2021128293A1 (zh) * | 2019-12-27 | 2021-07-01 | 华为技术有限公司 | 模型训练方法、装置、存储介质和程序产品 |
CN113469073A (zh) * | 2021-07-06 | 2021-10-01 | 西安电子科技大学 | 一种基于轻量级深度学习的sar图像舰船检测方法及系统 |
CN113688832A (zh) * | 2021-08-27 | 2021-11-23 | 北京三快在线科技有限公司 | 一种模型训练及图像处理方法、装置 |
CN114998649A (zh) * | 2022-05-17 | 2022-09-02 | 北京百度网讯科技有限公司 | 图像分类模型的训练方法、图像分类方法及装置 |
CN115170902A (zh) * | 2022-06-20 | 2022-10-11 | 美的集团(上海)有限公司 | 图像处理模型的训练方法 |
CN115222042A (zh) * | 2022-07-08 | 2022-10-21 | 中国科学院计算技术研究所 | 一种结构化剪枝的方法以及系统 |
CN115564043A (zh) * | 2022-10-18 | 2023-01-03 | 上海计算机软件技术开发中心 | 一种图像分类模型剪枝方法、装置、电子设备及存储介质 |
WO2023029824A1 (zh) * | 2021-08-30 | 2023-03-09 | 京东方科技集团股份有限公司 | 一种目标检测的优化方法及设备 |
CN115829024A (zh) * | 2023-02-14 | 2023-03-21 | 山东浪潮科学研究院有限公司 | 一种模型训练方法、装置、设备及存储介质 |
CN115936099A (zh) * | 2022-12-12 | 2023-04-07 | 南京邮电大学 | 一种神经网络的权重压缩和集成标准的剪枝方法 |
CN116128044A (zh) * | 2022-12-13 | 2023-05-16 | 际络科技(上海)有限公司 | 一种模型剪枝方法、图像处理方法及相关装置 |
CN116188878A (zh) * | 2023-04-25 | 2023-05-30 | 之江实验室 | 基于神经网络结构微调的图像分类方法、装置和存储介质 |
CN116187416A (zh) * | 2023-02-28 | 2023-05-30 | 电子科技大学重庆微电子产业技术研究院 | 一种基于层剪枝灵敏度的迭代式重训练方法及一种图像处理器 |
CN116306888A (zh) * | 2023-05-16 | 2023-06-23 | 北京爱芯科技有限公司 | 神经网络剪枝方法、装置、设备及存储介质 |
CN116402117A (zh) * | 2023-06-07 | 2023-07-07 | 中诚华隆计算机技术有限公司 | 图像分类卷积神经网络剪枝方法及芯粒器件数据分配方法 |
CN116468102A (zh) * | 2023-05-04 | 2023-07-21 | 杭州鄂达精密机电科技有限公司 | 刀具图像分类模型剪枝方法、装置、计算机设备 |
CN116702858A (zh) * | 2023-05-08 | 2023-09-05 | 华为技术有限公司 | 一种模型处理方法、电子设备及介质 |
-
2023
- 2023-10-08 CN CN202311293164.3A patent/CN117058525B/zh active Active
Patent Citations (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018058509A1 (en) * | 2016-09-30 | 2018-04-05 | Intel Corporation | Dynamic neural network surgery |
WO2021128293A1 (zh) * | 2019-12-27 | 2021-07-01 | 华为技术有限公司 | 模型训练方法、装置、存储介质和程序产品 |
CN112101313A (zh) * | 2020-11-17 | 2020-12-18 | 北京蒙帕信创科技有限公司 | 一种机房机器人巡检方法及系统 |
CN112396181A (zh) * | 2020-12-31 | 2021-02-23 | 之江实验室 | 一种卷积神经网络通用压缩架构的自动剪枝方法及平台 |
CN113011588A (zh) * | 2021-04-21 | 2021-06-22 | 华侨大学 | 一种卷积神经网络的剪枝方法、装置、设备和介质 |
CN113469073A (zh) * | 2021-07-06 | 2021-10-01 | 西安电子科技大学 | 一种基于轻量级深度学习的sar图像舰船检测方法及系统 |
CN113688832A (zh) * | 2021-08-27 | 2021-11-23 | 北京三快在线科技有限公司 | 一种模型训练及图像处理方法、装置 |
WO2023029824A1 (zh) * | 2021-08-30 | 2023-03-09 | 京东方科技集团股份有限公司 | 一种目标检测的优化方法及设备 |
CN114998649A (zh) * | 2022-05-17 | 2022-09-02 | 北京百度网讯科技有限公司 | 图像分类模型的训练方法、图像分类方法及装置 |
CN115170902A (zh) * | 2022-06-20 | 2022-10-11 | 美的集团(上海)有限公司 | 图像处理模型的训练方法 |
CN115222042A (zh) * | 2022-07-08 | 2022-10-21 | 中国科学院计算技术研究所 | 一种结构化剪枝的方法以及系统 |
CN115564043A (zh) * | 2022-10-18 | 2023-01-03 | 上海计算机软件技术开发中心 | 一种图像分类模型剪枝方法、装置、电子设备及存储介质 |
CN115936099A (zh) * | 2022-12-12 | 2023-04-07 | 南京邮电大学 | 一种神经网络的权重压缩和集成标准的剪枝方法 |
CN116128044A (zh) * | 2022-12-13 | 2023-05-16 | 际络科技(上海)有限公司 | 一种模型剪枝方法、图像处理方法及相关装置 |
CN115829024A (zh) * | 2023-02-14 | 2023-03-21 | 山东浪潮科学研究院有限公司 | 一种模型训练方法、装置、设备及存储介质 |
CN116187416A (zh) * | 2023-02-28 | 2023-05-30 | 电子科技大学重庆微电子产业技术研究院 | 一种基于层剪枝灵敏度的迭代式重训练方法及一种图像处理器 |
CN116188878A (zh) * | 2023-04-25 | 2023-05-30 | 之江实验室 | 基于神经网络结构微调的图像分类方法、装置和存储介质 |
CN116468102A (zh) * | 2023-05-04 | 2023-07-21 | 杭州鄂达精密机电科技有限公司 | 刀具图像分类模型剪枝方法、装置、计算机设备 |
CN116702858A (zh) * | 2023-05-08 | 2023-09-05 | 华为技术有限公司 | 一种模型处理方法、电子设备及介质 |
CN116306888A (zh) * | 2023-05-16 | 2023-06-23 | 北京爱芯科技有限公司 | 神经网络剪枝方法、装置、设备及存储介质 |
CN116402117A (zh) * | 2023-06-07 | 2023-07-07 | 中诚华隆计算机技术有限公司 | 图像分类卷积神经网络剪枝方法及芯粒器件数据分配方法 |
Non-Patent Citations (4)
Title |
---|
ALEX RENDA等: "Comparing Rewinding and Fine-tuning in Neural Network Pruning", 《ARXIV》, pages 1 - 31 * |
SHIWEI LIU等: "Sparse Training via Boosting Pruning Plasticity with Neuroregeneration", 《35TH CONFERENCE ON NEURAL INFORMATION PROCESSING SYSTEMS (NEURIPS 2021)》, pages 1 - 15 * |
凌象政: "循环神经网络压缩方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, vol. 2022, no. 1, pages 140 - 576 * |
缪及: "卷积神经网络剪枝和量化方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, vol. 2020, no. 2, pages 140 - 216 * |
Also Published As
Publication number | Publication date |
---|---|
CN117058525B (zh) | 2024-02-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR20210129031A (ko) | 모델 압축 방법, 이미지 처리 방법 및 장치 | |
CN116502176A (zh) | 一种语言模型的预训练方法、装置、介质及电子设备 | |
CN116304720B (zh) | 一种代价模型训练的方法、装置、存储介质及电子设备 | |
CN115828162B (zh) | 一种分类模型训练的方法、装置、存储介质及电子设备 | |
CN115600157B (zh) | 一种数据处理的方法、装置、存储介质及电子设备 | |
CN111639684B (zh) | 一种数据处理模型的训练方法及装置 | |
CN110348453B (zh) | 一种基于级联的物体检测方法及系统、存储介质及终端 | |
CN116805393A (zh) | 一种基于3DUnet光谱-空间信息融合的高光谱图像分类方法和系统 | |
CN117635822A (zh) | 一种模型训练的方法、装置、存储介质及电子设备 | |
CN118172832A (zh) | 动作识别方法和动作识别模型的训练方法、装置、设备及介质 | |
CN115019148A (zh) | 一种目标检测方法 | |
CN117197781B (zh) | 一种交通标志识别的方法、装置、存储介质及电子设备 | |
CN113988162A (zh) | 模型训练及图像识别方法、装置、存储介质及电子设备 | |
CN115543945B (zh) | 一种模型压缩的方法、装置、存储介质及电子设备 | |
CN117058525B (zh) | 一种模型的训练方法、装置、存储介质及电子设备 | |
CN117036829A (zh) | 一种基于原型学习实现标签增强的叶片细粒度识别方法和系统 | |
CN116434787B (zh) | 一种语音情感识别的方法、装置、存储介质及电子设备 | |
CN117113174A (zh) | 一种模型训练的方法、装置、存储介质及电子设备 | |
CN111476291B (zh) | 数据处理方法,装置及存储介质 | |
CN116363418A (zh) | 一种训练分类模型的方法、装置、存储介质及电子设备 | |
CN116403097A (zh) | 一种目标检测方法、装置、存储介质及电子设备 | |
CN117649568B (zh) | 一种用于图像分类卷积神经网络的网络压缩方法及装置 | |
CN114268965B (zh) | 一种基于深度学习的移动通信网络覆盖率计算方法及装置 | |
CN114972909B (zh) | 一种模型训练的方法、构建地图的方法及装置 | |
CN117934858B (zh) | 一种点云的处理方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |