CN111753954A - 一种稀疏化损失函数的超参数优化方法 - Google Patents
一种稀疏化损失函数的超参数优化方法 Download PDFInfo
- Publication number
- CN111753954A CN111753954A CN202010505268.6A CN202010505268A CN111753954A CN 111753954 A CN111753954 A CN 111753954A CN 202010505268 A CN202010505268 A CN 202010505268A CN 111753954 A CN111753954 A CN 111753954A
- Authority
- CN
- China
- Prior art keywords
- network
- training
- proxy
- hyper
- loss
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000005457 optimization Methods 0.000 title claims abstract description 26
- 238000012549 training Methods 0.000 claims abstract description 141
- 230000006870 function Effects 0.000 claims description 59
- 230000002779 inactivation Effects 0.000 claims description 25
- 230000008569 process Effects 0.000 claims description 24
- 238000004891 communication Methods 0.000 claims description 11
- 238000013459 approach Methods 0.000 abstract description 5
- 230000009849 deactivation Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 238000002604 ultrasonography Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种稀疏化损失函数的超参数优化方法,所述方法包括:基于训练样本集中的训练图像对预设网络模型进行训练;获取第一代理网络的模型参数,并将模型参数迁移至若干第二代理网络;基于训练样本集中的训练图像分别对各第二代理网络进行训练,并根据训练后的各第二代理网络模型确定目标超参数;将所述目标超参数配置于原始网络以及第一代理网络。本申请实施例通过第一代理网络与原始网络联合训练,使得第一代理网络可以很好的逼近原始网络,然后在通过若干第二代理网络对超参数进行训练,使得超参数可以适应于不同数据库,从而降低了采用稀疏策略的网络模型的时间复杂度。
Description
技术领域
本申请涉及深度学习技术领域,特别涉及一种稀疏化损失函数的超参数优化方法。
背景技术
深度网络稀疏化度量方法已经广泛地应用于深度识别网络中,以提升网络的泛化能力,并减小网络的规模。但是,不同的稀疏策略可能仅适用于特定的数据库,尽管多稀疏策略的融合可以平衡不同数据库的性能,然而在网络于各个数据库上进行训练之前,需要给定每个数据库对应的稀疏项正则化系数。不仅如此,每种稀疏策略都会引入多个超参数,而网络每次训练都往往需要大量的计算资源,因此多稀疏策略的融合方法很容易导致较大的时间复杂度。
发明内容
本申请要解决的技术问题在于,针对现有技术的不足,提供一种稀疏化损失函数的超参数优化方法。
为了解决上述技术问题,本申请实施例第一方面提供一种稀疏化损失函数的超参数优化方法,所述方法包括:
基于训练样本集中的训练图像对预设网络模型进行训练,其中,所述预设网络模型包括原始网络以及原始网络对应的第一代理网络;
获取所述第一代理网络的模型参数,并将所述模型参数迁移至若干第二代理网络,其中,各第二代理网络均为原始网络的代理网络;
基于训练样本集中的训练图像分别对各第二代理网络进行训练,并根据训练后的各第二代理网络模型确定目标超参数;
将所述目标超参数配置于原始网络以及第一代理网络,并继续执行基于预设的训练样本集中的训练图像对预设网络模型进行训练的步骤,直至所述预设网络模型的训练情况满足预设条件。
在一个实施例中,所述原始网络的输入项以及输出项均与目标代理网络的输入项和输出项相同,且原始网络的最后卷积层输出的特征图的图像尺度与目标代理网络的最后卷积层输出的特征图的图像尺度相同,其中,所述目标代理网络包括第一代理网络以及若干第二代理网络。
在一个实施例中,所述预设网络模型的训练过程包括原始网络训练过程和第一代理网络训练过程,其中,所述原始网络训练过程具体包括:
基于原始网络确定训练样本集中训练样本对应的第一预测概率集,并基于第一预设概率集确定原始网络对应的第一损失函数,其中,所述第一损失函数包括概率集损失项、特征稀疏化损失项、权重稀疏化损失项、特征失活损失项以及权重失活损失项;
基于所述第一损失函数对所述原始网络进行训练。
在一个实施例中,所述原始网络包括第一全连接层和第二全连接层;所述第一代理网络包括第三全连接层和第四全连接模块;所述第一代理网络训练过程具体包括:
将训练样本集中的训练样本输入第一代理网络,输出所述训练样本对应的第一特征图,第二特征图以及第二预测概率集,其中,所述第一特征图为第三全连接层的输入项,第二特征图为第四全连接层的输入项;
基于所述第一特征图和第三特征图确定第一损失项,其中,所述第三特征图为第一全连接层的输入项;
基于所述第二特征图和第四特征图确定第二损失项,其中,所述第四特征图为第二全连接层的输入项;
基于所述第一全连接层的权重系数以及第三全连接层的权重系数确定第三损失项,以及基于所述第二全连接层的权重系数以及第四全连接层的权重系数确定第四损失项;
根据所述第二预测概率集、第一损失项、第二损失项、第三损失项以及第四损失项确定第二损失函数,并基于第二损失函数对所述第一代理网络模型进行训练。
在一个实施例中,所述第一网络包括第一全连接层和第二全连接层;所述超参数包括:第一全连接层的特征稀疏系数、第一全连接层的权重稀疏系数、第二全连接层的特征稀疏系数、第二全连接层的权重稀疏系数、第一全连接层的特征失活概率、第二全连接层的权重失活概率、第一全连接层的特征失活概率以及第二全连接层络的权重失活概率。
在一个实施例中,所述目标代理网络对应的超参数与原始网络配置的超参数相对应,其中,所述目标代理网络包括第一代理网络和若干第二代理网络。
在一个实施例中,所述基于训练样本集中的训练图像分别对各第二代理网络进行训练具体包括:
固定各第二代理网络的模型参数,并基于训练样本集中的训练图像分别对各第二代理网络的超参数进行训练。
本申请实施例第二方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上任一所述的稀疏化损失函数的超参数优化方法中的步骤。
本申请实施例第三方面提供了一种终端设备,其包括:处理器、存储器及通信总线;所述存储器上存储有可被所述处理器执行的计算机可读程序;
所述通信总线实现处理器和存储器之间的连接通信;
所述处理器执行所述计算机可读程序时实现如上任一所述的稀疏化损失函数的超参数优化方法中的步骤。
有益效果:与现有技术相比,本申请提供了一种稀疏化损失函数的超参数优化方法,所述方法包括:基于训练样本集中的训练图像对预设网络模型进行训练;获取所述第一代理网络的模型参数,并将所述模型参数迁移至若干第二代理网络;基于训练样本集中的训练图像分别对各第二代理网络进行训练,并根据训练后的各第二代理网络模型确定目标超参数;将所述目标超参数配置于原始网络以及第一代理网络,并继续执行基于预设的训练样本集中的训练图像对预设网络模型进行训练的步骤,直至所述预设网络模型的训练情况满足预设条件。本申请实施例通过第一代理网络与原始网络联合训练,使得第一代理网络可以很好的逼近原始网络,然后在通过若干第二代理网络对超参数进行训练,使得超参数可以适应于不同数据库,从而降低了采用稀疏策略的网络模型的时间复杂度。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员而言,在不符创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请提供的稀疏化损失函数的超参数优化方法的流程图。
图2为本申请提供的稀疏化损失函数的超参数优化方法的流程原理图。
图3为本申请提供的稀疏化损失函数的超参数优化方法中原始网络的一个结构框图。
图4为本申请提供的稀疏化损失函数的超参数优化方法中原始网络与第一代理网络的网络模型示例图。
图5为本申请提供的终端设备的结构原理图。
具体实施方式
本申请提供一种稀疏化损失函数的超参数优化方法,为使本申请的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本申请进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
具体实现中,本申请实施例中描述的终端设备包括但不限于诸如具有触摸敏感表面(例如,触摸显示屏和/或触摸板)的移动电话,膝上形计算机或平板计算机之类的其他便携式设备。还应该理解的是,在某些实施例中,所述设备并非便携式通讯设备,而是具有触摸敏感表面(例如,触摸显示屏和/或触摸板)的台式计算机。
在接下来的讨论中,描述了包括显示器和触摸敏感表面的终端设备。然而,应当理解的是,终端设备还可以包括诸如物理键盘、鼠标和/或控制杆的一个或多个其他物理用户接口设备。
终端设备支持各种应用程序,例如以下中的一个或多个:绘图应用程序、演示应用程序、文字处理应用程序、视频会议应用程序、盘刻录应用程序、电子表格应用程序、游戏应用程序、电话应用程序、视频会议应用程序、电子邮件由于程序、即时消息收发应用程序、锻炼支持应用程序、照片管理应用程序、数据相机应用程序、数字摄像机应用程序、web浏览应用程序、数字音乐播放器应用程序和/或数字视频播放应用程序等。
可以在终端设备上执行的各种应用程序可以使用诸如触摸敏感表面的至少一个公共物理用户接口设备。可以在应用程序之间和/或相应应用程序内调整和/或改变触摸敏感表面的第一或多个功能以及终端上显示的相应信息。这样,终端的公共物理框架(例如,触摸敏感表面)可以支持具有对用户而言直观且透明的用户界面的各种应用程序。
应理解,本实施例中各步骤的序号和大小并不意味着执行顺序的先后,各过程的执行顺序以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
下面结合附图,通过对实施例的描述,对申请内容作进一步说明。
本实施提供了一种稀疏化损失函数的超参数优化方法,如图1和2所示,所述方法包括:
S10、基于训练样本集中的训练图像对预设网络模型进行训练,其中,所述预设网络模型包括原始网络以及原始网络对应的第一代理网络。
S20、获取所述第一代理网络的模型参数,并将所述模型参数迁移至若干第二代理网络,其中,各第二代理网络均为原始网络的代理网络;
S30、基于训练样本集中的训练图像分别对各第二代理网络进行训练,并根据训练后的各第二代理网络模型确定目标超参数;
S40、将所述目标超参数配置于原始网络以及第一代理网络,并继续执行基于预设的训练样本集中的训练图像对预设网络模型进行训练的步骤,直至所述预设网络模型的训练情况满足预设条件。
具体地,所述原始网络为深度学习网络模型,并且所述原始网络模型采用稀疏化策略,例如,正则化等。所述第一代理网络为所述原始网络的代理模型,所述第一代理网络的输入项以及输出项均与原始网络的输入项相同,可以理解的是,如图4所示,所述第一代理网络和原始网络的网络类型相同,所述网络类型指的是原始网络的用途,例如,所述原始网络为分类网络模型,第一代理网络也为分类网络模型。此外,所述第一代理网络的最后卷积层输出的特征图的图像尺度与所述原始网络的最后卷积层输出的特征图的图像尺度相同,所述第一代理网络的最后卷积层用于输出输入第一代理网络的输入项对应的特征图;所述原始网络的最后卷积用于输出输入原始网络的输入项对应的特征图,这样简化的第一代理网络具有与原网络相同的高层结构与度量尺度,从而可以通过代理网络对超参数集进行优化。
进一步,在实施例的一个实现方式中,所述第一代理网络的模型结构可以比原始网络的模型结构简单,例如,所述第一代理网络的网络结构为原始网络中的部分网络结构等。此外,如图3所示,所述第一代理网络和所述原始网络均包括连接模块,并且第一代理网络的连接模块的模型结构与原始网络的连接模块的模型结构相同,例如,第一代理网络的连接模块A包括两个全连接层,原始网络的连接模型B包括两个全连接层,并且连接模型A的两个全连接层与连接模块B的两个全连接层一一对应,如,连接模块A包括连接层A和连接层B,那么连接模块B包括连接层A和连接层B。
进一步,所述原始网络配置有稀疏化策略,并且该稀疏化策略配置有若干超参数;所述稀疏化策略包括特征稀疏、权重稀疏、特征失活以及权重失活,相应的,所述超参数包括稀疏项正则化系数以及失活概率,即所述超参数包括特征稀疏系数、权重稀疏系数、特征失活概率以及权重失活概率。此外,所述第一代理网络配置的稀疏化策略与原始网络配置的稀疏化策略相同,并且所述第一代理网络包括的超参数与原始网络包括的超参数相同。由此,在基于训练图像对预设网络模型进行训练时,基于训练图像输入分别对原始网络和第一代理网络,并且在对第一代理网络进行训练时,基于原始网络的获取到的特征图以及输出项,以及第一代理网络获取到的特征图以及输出项联合对第一代理网络进行反向学习。
基于此,所述预设网络模型的训练过程包括原始网络训练过程和第一代理网络训练过程,其中,所述原始网络训练过程具体包括:
A10、基于原始网络确定训练样本集中训练样本对应的第一预测概率集,并基于第一预设概率集确定原始网络对应的第一损失函数;
A20、基于所述第一损失函数对所述原始网络进行训练。
具体地,原始网络包括全连接模块,所述全连接模块包括第一全连接层和第二全连接层,相应的,所述超参数包括:第一全连接层的特征稀疏系数、第一全连接层的权重稀疏系数、第二全连接层的特征稀疏系数、第二全连接层的权重稀疏系数、第一全连接层的特征失活概率、第二全连接层的权重失活概率、第一全连接层的特征失活概率以及第二全连接层络的权重失活概率。由此,所述第一损失函数包括概率集损失项、特征稀疏化损失项、权重稀疏化损失项、特征失活损失项以及权重失活损失项,其中,所述特征稀疏化损失项包括第一全连接层的特征稀疏化损失项和第二权全连接层的特征稀疏化损失项;所述权重稀疏化损失项包括第一全连接层的权重稀疏化损失项以及第二全连接层的权重稀疏化损失项;所述特征失活损失项包括第一全连接层的特征失活损失项以及第二全连接层的特征失活损失项;所述权重失活损失项包括第一全连接层的权重失活损失项以及第二全连接层的权重失活损失项。
在本实施例的一个实现方式中,特征稀疏化损失项可以为L1范数,即第一全连接层的特征稀疏化损失项和第二全连接层的特征稀疏化损失项均为L1范数,其中,所述第一全连接层的特征稀疏化损失项和第二全连接层的特征稀疏化损失项的计算公式可以为:
其中,z为第一全连接层的输入项;x为第二全连接层的输入项;Lz为第一全连接层的特征稀疏化损失项,Lx为第二全连接层的特征稀疏化损失项,||·||1为L1范数,i为第i个元素。
进一步,所述权重稀疏化损失项可以为L1范数,即第一全连接层的权重稀疏化损失项和第二全连接层的权重稀疏化损失项均为L1范数,其中,所述第一全连接层的权重稀疏化损失项和第二全连接层的权重稀疏化损失项的计算公式可以为:
其中,W为第一全连接层的权重参数,V为第二全连接层的权重参数,LW为第一全连接层的权重稀疏化损失项,LV为第二全连接层的权重稀疏化损失项,||·||1为L1范数,i为矩阵的第i行,j为矩阵的第j行。
进一步,在本实施例的一个实现方式中,除了采用稀疏损失函数用于提升网络的泛化识别性能,还采用Softmax损失函数以提升网络整体识别准确率。由此,该第一损失函数中的概率集损失项中嵌入了稀疏约束,相应的,所述第一损失函数的计算公式可以为:
其中,所述Ls为Softmax损失函数的计算公式可以为:
进一步,对于稀疏化策略中的失活算法,网络特征与权重的失活策略可以表示为:
其中,pz为第一全连接层的特征失活概率,pV为第一全连接层的权重失活概率,px为第二全连接层的特征失活概率,pW为第二全连接层的权重失活概率。
基于此,本实施例中的超参数集合表示为如下公式:
HypParaSet=(λz,λV,λx,λW,pz,pV,px,pW)
进一步,所述原始网络包括第一全连接层和第二全连接层;所述第一代理网络包括第三全连接层和第四全连接模块;所述第一代理网络训练过程具体包括:
B10、将训练样本集中的训练样本输入第一代理网络,输出所述训练样本对应的第一特征图,第二特征图以及第二预测概率集,其中,所述第一特征图为第三全连接层的输入项,第二特征图为第四全连接层的输入项;
B20、基于所述第一特征图和第三特征图确定第一损失项,其中,所述第三特征图为第一全连接层的输入项;
B30、基于所述第二特征图和第四特征图确定第二损失项,其中,所述第四特征图为第二全连接层的输入项;
B40、基于所述第一全连接层的权重系数以及第三全连接层的权重系数确定第三损失项,以及基于所述第二全连接层的权重系数以及第四全连接层的权重系数确定第四损失项;
B50、根据所述第二预测概率集、第一损失项、第二损失项、第三损失项以及第四损失项确定第二损失函数,并基于第二损失函数对所述第一代理网络模型进行训练。
具体地,为了使代理网络较好地拟合原网络的参数,我们构建了四个欧几里得损失函数,以在训练过程中匹配原始网络的特征与权重,设S为代理网络,O为原始网络,那么第二损失函数的表达式可以为:
进一步,因为第一代理网络需要在原始网络优化过程中进行更新,并且其更新过程不能影响原始网络的训练。由此,所述第二损失函数为单边的,第二损失函数的梯度回传的信息不作用于第一代理网络,仅用于对第一代理网络的网络模型进行训练,而原始网络的模型参数不受第二损失函数的影响。在本实施例的一个具体实现方式中,基于第二损失函数进行反向学习的梯度回传公式可以表示为:
基于此,原始网络在混合稀疏度量条件下可以基于第一损失函数对原始网络的模型参数进行训练,第一代理网络可以基于第二损失函数对第一代理网络模型的模型参数进行训练,这样在使得第一代理网络逼近原始网络的同时,可以避免第一代理网络对原始网络的影响。
进一步,所述第一代理网络的模型参数为基于训练样本集中的训练图像进行训练,并且所述第一代理网络的训练情况满足预设条件,其中,所述预设条件为第一代理网络的训练次数达到预设次数阈值。可以理解的是,所述预设网络模型与若干第二代理网络交替训练,交替训练过程可以为:预设网络模型训练预设次数阈值次数后,将第一代理网络的模型参数共享给各第二代理网络,并且将原始网络的超参数共享各第二代理网络。也就是说,各第二代理网络均配置第一代理网络的模型参数以及原始网络的超参数。
进一步,在本实施例的一个实现方式中,若干第二代理网络中各第二代理网络的模型结构相同,并且各第二代理网络的模型结构均与第一代理网络的模型结构相同。可以理解的是,若干第二代理网络和第一代理网模型为相同的网络模型,进而第一代理网络用于与原始网络进行联合训练,以使得第一代理网络逼近原始网络,若干第二代理网络用于在模型参数固定不动的情况,超参数进行训练。基于此,所述基于训练样本集中的训练图像分别对各第二代理网络进行训练具体包括:
固定各第二代理网络的模型参数,并基于训练样本集中的训练图像分别对各第二代理网络的超参数进行训练。
具体地,所述固定各第二代理网络的模型参数指的是对于若干第二代理网络中的每个代理网络,固定该第二代理网络的模型参数。可以理解的是,在基于训练样本集对第二代理网络进行训练时,第二代理网络的模型参数不变,对第二代理网络的稀疏化策略对应的超参数进行训练。当然,值得说明的,各第二代理网络配置有稀疏化策略,并且各第二代理网络配置的稀疏化策略与原始网络配置的稀疏化策略相同。
此外,在对各第二代理网络的超参数进行优化时,如果采用基于梯度的优化器对整个超参数的优化空间进行搜索,则需要大规模的时间复杂度。由此,本实施例的一个具体实现方式中,对各第二代理网络的超参数进行优化时,采用无梯度的优化器对这些超参数进行优化,其优化的目标函数可以为:
进一步,若干第二代理网络模型为同步训练,同步训练过程可以为:对于训练样本集中的训练图像,将该训练图像分别输入至各第二代理网络,各第二代理网络基于该训练图像确定各自对应的第三损失函数,并基于各自对应的第三损失函数对各第二代理网络各自配置的超参数进行训练。可以理解的是,对于训练样本集中的训练图像,当基于该训练图像训练若干第二代理网络中的一个第二代理网络时,需要基于该训练图像对若干第二代理网络中的每个第二代理网络进行训练,以使得若干第二代理网络中的每个第二代理网络基于的训练图像以及训练次数均相同。
进一步,根据训练后的各第二代理网络模型确定目标超参数的过程可以包括:获取测试图像,将所述测试图像分别输入各第二代理网络,获各第二代理网络各自输出的第三概率集,基于各第三概率集确定各自对应的第二代理网络对应的准确率;根据各第二代理网络各自对应的准确率,确定超参数。例如,将准确率最高的第二代理网络对应的超参数作为目标超参数,或在准确率满足预设条件的第二代理网络中选取一个目标第二代理网络,将目标第二代理网络对应的超参数作为目标超参数等。
进一步,在确定目标超参数后,分别对配置有目标超参数的原始网络(记为原始网络A),以及未替换目标超参数的原始网络(记为原始网络B)进行测试,以确定原始网络A的准确率A和原始网络B的准确率B,并将准确率A和准确率B中较大值对应的原始网络对应的超参数作为目标超声参数。例如,若准确率A大于准确率B,则保持目标超参数不变;若准确率B大于准确率A,则将原始网络B配置的超参数作为目标超参数。
进一步,在确定得到目标超参数后,将目标超声参数配置于原始网络和第一代理网络,并重复续执行基于预设的训练样本集中的训练图像对预设网络模型进行训练的步骤,直至所述预设网络模型的训练情况满足预设条件。其中,所述预设条件为预测网络模型的总训练次数与第二代理网络的总训练次数之和达到预设阈值,例如,5000次等。
综上所述,本实施例提供了一种稀疏化损失函数的超参数优化方法,所述方法包括:基于训练样本集中的训练图像对预设网络模型进行训练;获取所述第一代理网络的模型参数,并将所述模型参数迁移至若干第二代理网络;基于训练样本集中的训练图像分别对各第二代理网络进行训练,并根据训练后的各第二代理网络模型确定目标超参数;将所述目标超参数配置于原始网络以及第一代理网络,并继续执行基于预设的训练样本集中的训练图像对预设网络模型进行训练的步骤,直至所述预设网络模型的训练情况满足预设条件。本申请实施例通过第一代理网络与原始网络联合训练,使得第一代理网络可以很好的逼近原始网络,然后在通过若干第二代理网络对超参数进行训练,使得超参数可以适应于不同数据库,从而降低了采用稀疏策略的网络模型的时间复杂度。
基于上述稀疏化损失函数的超参数优化方法,本实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上述实施例所述的稀疏化损失函数的超参数优化方法中的步骤。
基于上述稀疏化损失函数的超参数优化方法,本申请还提供了一种终端设备,如图5所示,其包括至少一个处理器(processor)20;显示屏21;以及存储器(memory)22,还可以包括通信接口(Communications Interface)23和总线24。其中,处理器20、显示屏21、存储器22和通信接口23可以通过总线24完成相互间的通信。显示屏21设置为显示初始设置模式中预设的用户引导界面。通信接口23可以传输信息。处理器20可以调用存储器22中的逻辑指令,以执行上述实施例中的方法。
此外,上述的存储器22中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
存储器22作为一种计算机可读存储介质,可设置为存储软件程序、计算机可执行程序,如本公开实施例中的方法对应的程序指令或模块。处理器20通过运行存储在存储器22中的软件程序、指令或模块,从而执行功能应用以及数据处理,即实现上述实施例中的方法。
存储器22可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端设备的使用所创建的数据等。此外,存储器22可以包括高速随机存取存储器,还可以包括非易失性存储器。例如,U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等多种可以存储程序代码的介质,也可以是暂态存储介质。
此外,上述存储介质以及终端设备中的多条指令处理器加载并执行的具体过程在上述方法中已经详细说明,在这里就不再一一陈述。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (9)
1.一种稀疏化损失函数的超参数优化方法,其特征在于,所述方法包括:
基于训练样本集中的训练图像对预设网络模型进行训练,其中,所述预设网络模型包括原始网络以及原始网络对应的第一代理网络;
获取所述第一代理网络的模型参数,并将所述模型参数迁移至若干第二代理网络,其中,各第二代理网络均为原始网络的代理网络;
基于训练样本集中的训练图像分别对各第二代理网络进行训练,并根据训练后的各第二代理网络模型确定目标超参数;
将所述目标超参数配置于原始网络以及第一代理网络,并继续执行基于预设的训练样本集中的训练图像对预设网络模型进行训练的步骤,直至所述预设网络模型的训练情况满足预设条件。
2.根据权利要求1所述稀疏化损失函数的超参数优化方法,其特征在于,所述原始网络的输入项以及输出项均与目标代理网络的输入项和输出项相同,且原始网络的最后卷积层输出的特征图的图像尺度与目标代理网络的最后卷积层输出的特征图的图像尺度相同,其中,所述目标代理网络包括第一代理网络以及若干第二代理网络。
3.根据权利要求1或2所述稀疏化损失函数的超参数优化方法,其特征在于,所述预设网络模型的训练过程包括原始网络训练过程和第一代理网络训练过程,其中,所述原始网络训练过程具体包括:
基于原始网络确定训练样本集中训练样本对应的第一预测概率集,并基于第一预设概率集确定原始网络对应的第一损失函数,其中,所述第一损失函数包括概率集损失项、特征稀疏化损失项、权重稀疏化损失项、特征失活损失项以及权重失活损失项;
基于所述第一损失函数对所述原始网络进行训练。
4.根据权利要求3所述稀疏化损失函数的超参数优化方法,其特征在于,所述原始网络包括第一全连接层和第二全连接层;所述第一代理网络包括第三全连接层和第四全连接模块;所述第一代理网络训练过程具体包括:
将训练样本集中的训练样本输入第一代理网络,输出所述训练样本对应的第一特征图,第二特征图以及第二预测概率集,其中,所述第一特征图为第三全连接层的输入项,第二特征图为第四全连接层的输入项;
基于所述第一特征图和第三特征图确定第一损失项,其中,所述第三特征图为第一全连接层的输入项;
基于所述第二特征图和第四特征图确定第二损失项,其中,所述第四特征图为第二全连接层的输入项;
基于所述第一全连接层的权重系数以及第三全连接层的权重系数确定第三损失项,以及基于所述第二全连接层的权重系数以及第四全连接层的权重系数确定第四损失项;
根据所述第二预测概率集、第一损失项、第二损失项、第三损失项以及第四损失项确定第二损失函数,并基于第二损失函数对所述第一代理网络模型进行训练。
5.根据权利要求1所述稀疏化损失函数的超参数优化方法,其特征在于,所述第一网络包括第一全连接层和第二全连接层;所述超参数包括:第一全连接层的特征稀疏系数、第一全连接层的权重稀疏系数、第二全连接层的特征稀疏系数、第二全连接层的权重稀疏系数、第一全连接层的特征失活概率、第二全连接层的权重失活概率、第一全连接层的特征失活概率以及第二全连接层络的权重失活概率。
6.根据权利要求5所述稀疏化损失函数的超参数优化方法,其特征在于,所述目标代理网络对应的超参数与原始网络配置的超参数相对应,其中,所述目标代理网络包括第一代理网络和若干第二代理网络。
7.根据权利要求1所述稀疏化损失函数的超参数优化方法,其特征在于,所述基于训练样本集中的训练图像分别对各第二代理网络进行训练具体包括:
固定各第二代理网络的模型参数,并基于训练样本集中的训练图像分别对各第二代理网络的超参数进行训练。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1~7任意一项所述的稀疏化损失函数的超参数优化方法中的步骤。
9.一种终端设备,其特征在于,包括:处理器、存储器及通信总线;所述存储器上存储有可被所述处理器执行的计算机可读程序;
所述通信总线实现处理器和存储器之间的连接通信;
所述处理器执行所述计算机可读程序时实现如权利要求1-7任意一项所述的稀疏化损失函数的超参数优化方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010505268.6A CN111753954A (zh) | 2020-06-05 | 2020-06-05 | 一种稀疏化损失函数的超参数优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010505268.6A CN111753954A (zh) | 2020-06-05 | 2020-06-05 | 一种稀疏化损失函数的超参数优化方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111753954A true CN111753954A (zh) | 2020-10-09 |
Family
ID=72676147
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010505268.6A Pending CN111753954A (zh) | 2020-06-05 | 2020-06-05 | 一种稀疏化损失函数的超参数优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111753954A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112465042A (zh) * | 2020-12-02 | 2021-03-09 | 中国联合网络通信集团有限公司 | 一种分类网络模型的生成方法及装置 |
CN113720320A (zh) * | 2021-08-03 | 2021-11-30 | 哈尔滨工程大学 | 一种基于高斯过程回归的信息更新频率提升方法 |
CN117058536A (zh) * | 2023-07-19 | 2023-11-14 | 中公高科养护科技股份有限公司 | 一种基于双分支网络的路面病害识别方法、装置及介质 |
-
2020
- 2020-06-05 CN CN202010505268.6A patent/CN111753954A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112465042A (zh) * | 2020-12-02 | 2021-03-09 | 中国联合网络通信集团有限公司 | 一种分类网络模型的生成方法及装置 |
CN112465042B (zh) * | 2020-12-02 | 2023-10-24 | 中国联合网络通信集团有限公司 | 一种分类网络模型的生成方法及装置 |
CN113720320A (zh) * | 2021-08-03 | 2021-11-30 | 哈尔滨工程大学 | 一种基于高斯过程回归的信息更新频率提升方法 |
CN113720320B (zh) * | 2021-08-03 | 2022-11-18 | 哈尔滨工程大学 | 一种基于高斯过程回归的信息更新频率提升方法 |
CN117058536A (zh) * | 2023-07-19 | 2023-11-14 | 中公高科养护科技股份有限公司 | 一种基于双分支网络的路面病害识别方法、装置及介质 |
CN117058536B (zh) * | 2023-07-19 | 2024-04-30 | 中公高科养护科技股份有限公司 | 一种基于双分支网络的路面病害识别方法、装置及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021047593A1 (zh) | 推荐模型的训练方法、预测选择概率的方法及装置 | |
CN112613581B (zh) | 一种图像识别方法、系统、计算机设备和存储介质 | |
JP7009614B2 (ja) | ディープニューラルネットワークの正規化方法および装置、機器、ならびに記憶媒体 | |
WO2022057658A1 (zh) | 推荐模型训练方法、装置、计算机设备及存储介质 | |
US20180150744A1 (en) | Neural network data entry system | |
CN111753954A (zh) | 一种稀疏化损失函数的超参数优化方法 | |
CN110532571A (zh) | 文本处理方法及相关装置 | |
CN106250464B (zh) | 排序模型的训练方法及装置 | |
WO2024011814A1 (zh) | 一种图文互检方法、系统、设备及非易失性可读存储介质 | |
WO2019019926A1 (zh) | 系统参数的优化方法、装置及设备、可读介质 | |
US11681913B2 (en) | Method and system with neural network model updating | |
CN108460454B (zh) | 卷积神经网络和用于其的处理方法、装置、系统 | |
CN112906865B (zh) | 神经网络架构搜索方法、装置、电子设备及存储介质 | |
TW202029074A (zh) | 圖像處理方法、裝置、電腦設備和電腦儲存介質 | |
US20240086737A1 (en) | Systems and methods of generating datasets from heterogeneous sources for machine learning | |
US20220114644A1 (en) | Recommendation system with sparse feature encoding | |
WO2022111002A1 (zh) | 用于训练神经网络的方法、设备和计算机可读存储介质 | |
EP4295277A2 (en) | Full-stack hardware accelerator search | |
CN118036649A (zh) | 通过改进图神经网络模型的嵌入生成来使推荐多样化 | |
CN111198905A (zh) | 用于理解二分网络中的缺失链路的视觉分析框架 | |
TWI758223B (zh) | 具有動態最小批次尺寸之運算方法,以及用於執行該方法之運算系統及電腦可讀儲存媒體 | |
CN111563159B (zh) | 文本排序方法及装置 | |
CN116501993B (zh) | 房源数据推荐方法及装置 | |
US20230410181A1 (en) | Information processing method, information processing system, and program | |
WO2023220892A1 (en) | Expanded neural network training layers for convolution |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201009 |