CN110046694A - 一种集成模型的自适应多样性增强训练方法及装置 - Google Patents

一种集成模型的自适应多样性增强训练方法及装置 Download PDF

Info

Publication number
CN110046694A
CN110046694A CN201910247718.3A CN201910247718A CN110046694A CN 110046694 A CN110046694 A CN 110046694A CN 201910247718 A CN201910247718 A CN 201910247718A CN 110046694 A CN110046694 A CN 110046694A
Authority
CN
China
Prior art keywords
target
submodel
integrated model
model
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910247718.3A
Other languages
English (en)
Inventor
朱军
庞天宇
许堃
杜超
陈宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201910247718.3A priority Critical patent/CN110046694A/zh
Publication of CN110046694A publication Critical patent/CN110046694A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例提供一种集成模型的自适应多样性增强训练方法及装置,将待训练的集成模型作为目标集成模型,根据目标集成模型中各个子模型的输出获得目标正则项,并将目标正则项加入到目标集成模型的每个子模型的迭代训练过程中,当且仅当目标集成模型中的所有子模型均训练至收敛状态时,则确定目标集成模型训练完成。该方法及装置所引入的目标正则项中充分考虑了目标集成模型中的各个子模型之间的相互作用,将目标正则项加入到目标集成模型的每个子模型的迭代训练中,有利于提高目标集成模型的鲁棒性和可靠性。

Description

一种集成模型的自适应多样性增强训练方法及装置
技术领域
本发明实施例涉及机器学习技术领域,更具体地,涉及一种集成模型的自适应多样性增强训练方法及装置。
背景技术
目前,神经网络在各个领域上都取得了巨大的成功,包括图像识别、语音识别以及自然语言处理等领域。然而,神经网络模型在对抗环境中往往很容易受到攻击,在对抗环境中,神经网络模型会被输入一些基于正常样本精心计算得到的对抗样本,例如图片或者语音信息,这些对抗样本很容易被神经网络模型错误分类。有鉴于此,提高神经网络模型的鲁棒性和可靠性已成为现今研究的热点。
目前已有一些学者提出了提高神经网络模型的鲁棒性和可靠性的训练策略。例如,Szegedy C以及Matry等人提出的对抗训练策略是随着训练过程动态地利用对抗样本扩充训练集。然而,现有的训练策略均是聚焦于提高单个神经网络模型的鲁棒性和可靠性,在实际应用中,各领域中所使用的神经网络模型往往是由多个子模型组成的集成模型,由于集成模型中各个子模型之间存在相互作用,因此现有的训练策略难以有效提高集成模型的鲁棒性和可靠性。
有鉴于此,亟需提供一种集成模型的训练方法及装置,以能够有效提高集成模型的鲁棒性和可靠性。
发明内容
本发明实施例为了克服现有的训练策略难以有效提高集成模型的鲁棒性和可靠性的问题,提供一种集成模型的自适应多样性增强训练方法及装置。
第一方面,本发明实施例提供一种集成模型的自适应多样性增强训练方法,包括:
将待训练的集成模型作为目标集成模型,根据所述目标集成模型中各个子模型的输出获得目标正则项,根据所述目标集成模型中所有子模型各自对应的交叉熵损失函数和所述目标正则项构造所述目标集成模型对应的目标函数;
对于所述目标集成模型中的任意一个子模型,根据预设训练集对所述子模型进行迭代训练,对于任意一个当前迭代过程,基于梯度下降算法根据所述子模型在上一次迭代过程中的网络参数和所述目标集成模型对应的目标函数更新获得所述子模型在当前迭代过程中的网络参数;
若所述子模型在当前迭代过程中的网络参数与所述子模型在上一次迭代过程中的网络参数的差值不大于预设阈值,则所述子模型为收敛状态,当且仅当所述目标集成模型中的所有子模型均为收敛状态时,确定所述目标集成模型训练完成。
第二方面,本发明实施例提供一种集成模型的自适应多样性增强训练装置,包括:
目标函数构造模块,用于将待训练的集成模型作为目标集成模型,根据所述目标集成模型中各个子模型的输出之间的相互作用获得目标正则项,根据所述目标集成模型中所有子模型各自对应的交叉熵损失函数和所述目标正则项构造所述目标集成模型对应的目标函数;
子模型训练模块,用于对于所述目标集成模型中的任意一个子模型,根据预设训练集对所述子模型进行迭代训练,对于任意一个当前迭代过程,基于梯度下降算法根据所述子模型在上一次迭代过程中的网络参数和所述目标集成模型对应的目标函数更新获得所述子模型在当前迭代过程中的网络参数;
集成模型训练模块,用于若所述子模型在当前迭代过程中的网络参数与所述子模型在上一次迭代过程中的网络参数的差值不大于预设阈值,则所述子模型为收敛状态,当且仅当所述目标集成模型中的所有子模型均为收敛状态时,确定所述目标集成模型训练完成。
第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所提供的方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。
本发明实施例提供的集成模型的自适应多样性增强训练方法及装置,将待训练的集成模型作为目标集成模型,根据目标集成模型中各个子模型的输出获得目标正则项,并将目标正则项加入到目标集成模型的每个子模型的迭代训练过程中,当且仅当目标集成模型中的所有子模型均训练至收敛状态时,则确定目标集成模型训练完成。该方法及装置所引入的目标正则项中充分考虑了目标集成模型中的各个子模型之间的相互作用,将目标正则项加入到目标集成模型的每个子模型的迭代训练中,有利于提高目标集成模型的鲁棒性和可靠性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的集成模型的自适应多样性增强训练方法的流程示意图;
图2为本发明实施例提供的集成模型的自适应多样性增强训练装置的结构示意图;
图3为本发明实施例提供的电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的集成模型的自适应多样性增强训练方法的流程示意图,如图1所示,本发明实施例提供一种集成模型的自适应多样性增强训练方法,包括:
S1,将待训练的集成模型作为目标集成模型,根据目标集成模型中各个子模型的输出获得目标正则项,根据目标集成模型中所有子模型各自对应的交叉熵损失函数和目标正则项构造目标集成模型对应的目标函数;
具体地,将待训练的集成模型作为目标集成模型。其中,集成模型指的是由至少两个神经网络模型集成的模型,构成集成模型的每个神经网络模型则为集成模型的子模型。在此基础上,根据目标集成模型中各个子模型的输出获得正则项,作为目标正则项。其中,每个子模型的输出包含每个子模型针对不同识别结果的输出概率。举例而言,若目标集成模型用于对输入图像X进行图像分类,且图像分类的类别总数目为L,则目标集成模型中的每个子模型的输出包含输入图像X为各个类别的概率,即每个子模型的输出中包含L个概率值,每个概率值的取值范围为[0,1]。
进一步地,在获得目标正则项之后,获取目标集成模型中每个子模型对应的交叉熵损失函数,每个子模型对应的交叉熵损失函数用于表征每个子模型的实际输出和目标输出之间的差异。在此基础上,根据目标集成模型中所有子模型各自对应的交叉熵损失函数和目标正则项构造目标集成模型对应的目标函数。
需要说明的是,本发明实施例中,根据目标集成模型中各个子模型的输出获得目标正则项,由此获得的目标正则项中充分考虑了目标集成模型中各个子模型之间的相互作用。此外,相较于现有技术中针对单个神经网络模型构建目标函数,本发明实施例中,根据目标集成模型中所有子模型各自对应的交叉熵损失函数和目标正则项构建目标集成模型对应的目标函数,由此获得的目标函数中同样也充分考虑了目标集成模型中各个子模型之间的相互作用。
S2,对于目标集成模型中的任意一个子模型,根据预设训练集对子模型进行迭代训练,对于任意一个当前迭代过程,基于梯度下降算法根据子模型在上一次迭代过程中的网络参数和目标集成模型对应的目标函数更新获得子模型在当前迭代过程中的网络参数;
具体地,在上述技术方案的基础上,对于目标集成模型中的任意一个子模型,根据预设训练集对子模型进行迭代训练。可以理解的是,预设训练集中包含了多个训练样本,通过将多个训练样本逐个输入至子模型中,以对子模型进行迭代训练。其中,预设训练集中的训练样本的类型和训练样本的总数量可以根据实际需求进行设置,此处不做具体限定。
在子模型的迭代训练过程中,对于任意一个当前迭代过程,由于上一次迭代过程已经完成,因此子模型在上一次迭代过程中的网络参数也已经确定。在此基础上,首先,获取子模型在上一次迭代过程中的网络参数,然后,基于梯度下降算法根据子模型在上一次迭代过程中的网络参数和目标集成模型对应的目标函数更新获得子模型在当前迭代过程中的网络参数。可以理解的是,在获得子模型在当前迭代过程中的网络参数之后,即可对子模型进行参数更新,再将下一个训练样本输入至参数更新后的子模型中,以完成子模型的当前迭代过程。
需要说明的是,本发明实施例中,在每个子模型的迭代训练过程中,结合集成模型的目标函数对每个子模型的网络参数进行更新,由于集成模型的目标函数中充分考虑了各个子模型之间的相互作用,因此,每个子模型的迭代训练过程中也充分考虑了子模型之间的相互作用。
S3,若子模型在当前迭代过程中的网络参数与子模型在上一次迭代过程中的网络参数的差值不大于预设阈值,则子模型为收敛状态,当且仅当目标集成模型中的所有子模型均为收敛状态时,确定目标集成模型训练完成。
具体地,在子模型的迭代训练过程中,对于任意一个当前迭代过程,通过上述方法步骤更新获得子模型在当前迭代过程中的网络参数之后,将子模型在当前迭代过程中的网络参数与子模型在上一次迭代过程中的网络参数继续比对,若子模型在当前迭代过程中的网络参数与子模型在上一次迭代过程中的网络参数的差值不大于预设阈值,则可以确定子模型为收敛状态。其中,预设阈值可以根据实际需求进行设置,此处不做具体限定。
在上述技术方案的基础上,目标集成模型中的每个子模型均可通过上述方法步骤达到收敛状态,当且仅当目标集成模型中的所有子模型均为收敛状态时,则可确定目标集成模型训练完成。
本发明实施例提供的集成模型的自适应多样性增强训练方法,将待训练的集成模型作为目标集成模型,根据目标集成模型中各个子模型的输出获得目标正则项,并将目标正则项加入到目标集成模型的每个子模型的迭代训练过程中,当且仅当目标集成模型中的所有子模型均训练至收敛状态时,则确定目标集成模型训练完成。该方法所引入的目标正则项中充分考虑了目标集成模型中的各个子模型之间的相互作用,将目标正则项加入到目标集成模型的每个子模型的迭代训练中,有利于提高目标集成模型的鲁棒性和可靠性。
基于上述任一实施例,提供一种集成模型的自适应多样性增强训练方法,根据目标集成模型中各个子模型的输出获得目标正则项,具体为:根据目标集成模型中各个子模型的输出获得目标信息熵;根据目标集成模型中各个子模型的非最大输出获得目标度量;根据目标信息熵和目标度量获得目标正则项。
具体地,本发明实施例中,根据目标集成模型中各个子模型的输出获得目标正则项,具体实现过程如下:
根据目标集成模型中各个子模型的输出获得信息熵,作为目标信息熵。也就是说,目标信息熵中包含了各个子模型的输出。本发明实施例中,目标信息熵越大,各个子模型的整体输出越趋于均衡和平滑。与此同时,根据目标集成模型中各个子模型的非最大输出获得一个度量值,作为目标度量。也就是说,目标度量中包含了各个子模型的非最大输出。其中,每个子模型的非最大输出指的是每个子模型输出的所有概率中除了最大概率之外的所有概率。本发明实施例中,目标度量越大,各个子模型的非最大输出之间就越正交。在获得目标信息熵和目标度量之后,根据目标信息熵和目标度量获得目标正则项,由此获得的目标正则项中充分考虑了各个子模型的整体输出的平滑性和各个子模型的非最大输出之间的正交性。在此基础上,将目标正则项加入到目标集成模型的每个子模型的迭代训练中,可以使得集成模型中的不同子模型返回趋于正交的非最大输出,并且保证每个子模型返回的最大输出对应的类别和真实类别相一致。
本发明实施例提供的集成模型的自适应多样性增强训练方法,根据目标集成模型中各个子模型的输出获得目标信息熵;根据目标集成模型中各个子模型的非最大输出获得目标度量;根据目标信息熵和目标度量获得目标正则项。该方法所引入的目标正则项中充分考虑了各个子模型的整体输出的平滑性和各个子模型的非最大输出之间的正交性,将目标正则项加入到目标集成模型的每个子模型的迭代训练中,可使得集成模型中的不同子模型返回趋于正交的非最大输出,并可确保每个子模型返回的最大输出对应的类别和真实类别相一致,有利于提高目标集成模型的鲁棒性和可靠性。
基于上述任一实施例,提供一种集成模型的自适应多样性增强训练方法,根据目标集成模型中各个子模型的输出获得目标信息熵,具体为:计算目标集成模型中所有子模型的输出的均值,作为目标输出;获取目标输出的香农信息熵,作为目标信息熵。
具体地,本发明实施例中,根据目标集成模型中各个子模型的输出获得目标信息熵,具体步骤如下:
计算目标集成模型中所有子模型的输出的均值,作为目标输出。在此基础上,获取目标输出的香农信息熵,作为目标信息熵。举例而言,若目标集成模型中总共包括K个子模型,第k个子模型的输出为Fk,则目标集成模型中所有子模型的输出的均值,即目标输出,可表示为:进一步地,目标输出的香农信息熵,即目标信息熵,可表示为:
需要说明的是,根据上述方法步骤获得的目标信息熵中包含了各个子模型的输出,目标信息熵越大,各个子模型的整体输出越趋于均衡和平滑,有利于确保每个子模型返回的最大输出对应的类别和真实类别相一致。
基于上述任一实施例,提供一种集成模型的自适应多样性增强训练方法,根据目标集成模型中各个子模型的非最大输出获得目标度量,具体为:将目标集成模型中所有子模型的非最大输出组成非最大输出矩阵;获取非最大输出矩阵的置换矩阵,将非最大输出矩阵和置换矩阵组成的行列式作为目标度量。
具体地,本发明实施例中,根据目标集成模型中各个子模型的非最大输出获得目标度量,具体步骤如下:
将目标集成模型中所有子模型的非最大输出组成非最大输出矩阵,其中,非最大输出矩阵中的每一列为每个子模型的非最大输出,每个子模型的非最大输出指的是每个子模型输出的所有概率中除了最大概率之外的所有概率。在此基础上,获取非最大输出矩阵的置换矩阵,将非最大输出矩阵和置换矩阵组成的行列式作为目标度量。
举例而言,若目标集成模型用于对输入图像X进行图像分类,且目标集成模型中总共包括K个子模型,图像分类的类别总数目为L,类别y对应的输出为最大输出,则可用表示第k个子模型输出的不对应于类别y的所有输出,即第k个子模型的非最大输出。可以看出,是一个L-1维的向量。在此基础上,由所有子模型的非最大输出组成的非最大输出矩阵可表示为可以看出,是一个(L-1)×K维的矩阵。此时,非最大输出矩阵的置换矩阵可表示为最终,由非最大输出矩阵和置换矩阵组成的行列式,即目标度量,可表示为其中,det()函数用于求一个方阵的行列式。
需要说明的是,根据上述方法步骤获得的目标度量中包含了各个子模型的非最大输出,目标度量越大,各个子模型的非最大输出之间就越正交,可使得集成模型中的不同子模型返回趋于正交的非最大输出。
基于上述任一实施例,提供一种集成模型的自适应多样性增强训练方法,根据目标信息熵和目标度量获得目标正则项,具体计算公式为:
其中,ADPα,β(x,y)为目标正则项;为目标信息熵;为目标度量;α、β为不小于零的常数,α、β的具体取值可以根据实际需求进行设置,此处不做具体限定。
需要说明的是,本发明实施例的目标正则项中包含了目标信息熵和目标度量,其中目标信息熵中包含了各个子模型的输出,目标信息熵越大,各个子模型的整体输出越趋于均衡和平滑;目标度量中包含了各个子模型的非最大输出,目标度量越大,各个子模型的非最大输出之间就越正交。因此,目标正则项中充分考虑了各个子模型的整体输出的平滑性和各个子模型的非最大输出之间的正交性,将目标正则项加入到目标集成模型的每个子模型的迭代训练中,可使得集成模型中的不同子模型返回趋于正交的非最大输出,并可确保每个子模型返回的最大输出对应的类别和真实类别相一致,有利于提高目标集成模型的鲁棒性和可靠性。
基于上述任一实施例,提供一种集成模型的自适应多样性增强训练方法,根据目标集成模型中所有子模型各自对应的交叉熵损失函数和目标正则项构造目标集成模型对应的目标函数,具体计算公式为:
其中,为目标集成模型对应的目标函数;为第k个子模型对应的交叉熵损失函数;K为目标集成模型中所有子模型的总数量;ADPα,β(x,y)为目标正则项;(xi,yi)为预设训练集中的第i个训练样本,其中,xi表示样本内容,yi表示样本类别;Dm为从所述预设训练集中随机选取的m个训练样本组成的集合。
需要说明的是,相较于现有技术中针对单个神经网络模型构建目标函数,本发明实施例中,根据目标集成模型中所有子模型各自对应的交叉熵损失函数和目标正则项构建目标集成模型对应的目标函数,由此获得的目标函数中充分考虑了目标集成模型中各个子模型之间的相互作用,有利于提高目标集成模型的鲁棒性和可靠性。
基于上述任一实施例,提供一种集成模型的自适应多样性增强训练方法,基于梯度下降算法根据子模型在上一次迭代过程中的网络参数和目标集成模型对应的目标函数更新获得子模型在当前迭代过程中的网络参数,具体计算公式为:
其中,为第k′个子模型在第c次迭代过程中的网络参数;为第k′个子模型在第c+1次迭代过程中的网络参数;εk′为第k′个子模型的学习速率;为目标集成模型对应的目标函数;K为目标集成模型中所有子模型的总数量。
需要说明的是,本发明实施例中,在每个子模型的迭代训练过程中,结合集成模型的目标函数对每个子模型的网络参数进行更新,由于集成模型的目标函数中充分考虑了各个子模型之间的相互作用,因此,每个子模型的迭代训练过程中也充分考虑了子模型之间的相互作用,有利于提高目标集成模型的鲁棒性和可靠性。
图2为本发明实施例提供的集成模型的自适应多样性增强训练装置的结构示意图,如图2所示,该训练装置包括:目标函数构造模块21、子模型训练模块22和集成模型训练模块23,其中:
目标函数构造模块21用于将待训练的集成模型作为目标集成模型,根据目标集成模型中各个子模型的输出获得目标正则项,根据目标集成模型中所有子模型各自对应的交叉熵损失函数和目标正则项构造目标集成模型对应的目标函数。
具体地,目标函数构造模块21将待训练的集成模型作为目标集成模型。其中,集成模型指的是由至少两个神经网络模型集成的模型,构成集成模型的每个神经网络模型则为集成模型的子模型。在此基础上,目标函数构造模块21根据目标集成模型中各个子模型的输出获得正则项,作为目标正则项。其中,每个子模型的输出包含每个子模型针对不同识别结果的输出概率。举例而言,若目标集成模型用于对输入图像X进行图像分类,且图像分类的类别总数目为L,则目标集成模型中的每个子模型的输出包含输入图像X为各个类别的概率,即每个子模型的输出中包含L个概率值,每个概率值的取值范围为[0,1]。
进一步地,在获得目标正则项之后,目标函数构造模块21获取目标集成模型中每个子模型对应的交叉熵损失函数,每个子模型对应的交叉熵损失函数用于表征每个子模型的实际输出和目标输出之间的差异。在此基础上,目标函数构造模块21根据目标集成模型中所有子模型各自对应的交叉熵损失函数和目标正则项构造目标集成模型对应的目标函数。
需要说明的是,本发明实施例中,根据目标集成模型中各个子模型的输出获得目标正则项,由此获得的目标正则项中充分考虑了目标集成模型中各个子模型之间的相互作用。此外,相较于现有技术中针对单个神经网络模型构建目标函数,本发明实施例中,根据目标集成模型中所有子模型各自对应的交叉熵损失函数和目标正则项构建目标集成模型对应的目标函数,由此获得的目标函数中同样也充分考虑了目标集成模型中各个子模型之间的相互作用。
子模型训练模块22用于对于目标集成模型中的任意一个子模型,根据预设训练集对子模型进行迭代训练,对于任意一个当前迭代过程,基于梯度下降算法根据子模型在上一次迭代过程中的网络参数和目标集成模型对应的目标函数更新获得子模型在当前迭代过程中的网络参数。
具体地,在上述技术方案的基础上,对于目标集成模型中的任意一个子模型,子模型训练模块22根据预设训练集对子模型进行迭代训练。可以理解的是,预设训练集中包含了多个训练样本,通过将多个训练样本逐个输入至子模型中,以对子模型进行迭代训练。其中,预设训练集中的训练样本的类型和训练样本的总数量可以根据实际需求进行设置,此处不做具体限定。
在子模型的迭代训练过程中,对于任意一个当前迭代过程,由于上一次迭代过程已经完成,因此子模型在上一次迭代过程中的网络参数也已经确定。在此基础上,首先,子模型训练模块22获取子模型在上一次迭代过程中的网络参数,然后,基于梯度下降算法根据子模型在上一次迭代过程中的网络参数和目标集成模型对应的目标函数更新获得子模型在当前迭代过程中的网络参数。可以理解的是,在获得子模型在当前迭代过程中的网络参数之后,即可对子模型进行参数更新,再将下一个训练样本输入至参数更新后的子模型中,以完成子模型的当前迭代过程。
需要说明的是,本发明实施例中,在每个子模型的迭代训练过程中,结合集成模型的目标函数对每个子模型的网络参数进行更新,由于集成模型的目标函数中充分考虑了各个子模型之间的相互作用,因此,每个子模型的迭代训练过程中也充分考虑了子模型之间的相互作用。
集成模型训练模块23用于若子模型在当前迭代过程中的网络参数与子模型在上一次迭代过程中的网络参数的差值不大于预设阈值,则子模型为收敛状态,当且仅当目标集成模型中的所有子模型均为收敛状态时,确定目标集成模型训练完成。
具体地,在子模型的迭代训练过程中,对于任意一个当前迭代过程,通过子模型训练模块22更新获得子模型在当前迭代过程中的网络参数之后,集成模型训练模块23将子模型在当前迭代过程中的网络参数与子模型在上一次迭代过程中的网络参数继续比对,若子模型在当前迭代过程中的网络参数与子模型在上一次迭代过程中的网络参数的差值不大于预设阈值,则可以确定子模型为收敛状态。其中,预设阈值可以根据实际需求进行设置,此处不做具体限定。
在上述技术方案的基础上,目标集成模型中的每个子模型均可通过上述方法步骤达到收敛状态,当且仅当目标集成模型中的所有子模型均为收敛状态时,则可确定目标集成模型训练完成。
本发明实施例提供的集成模型的自适应多样性增强训练装置,具体执行上述各训练方法实施例流程,具体请详见上述各训练方法实施例的内容,在此不再赘述。
本发明实施例提供的集成模型的自适应多样性增强训练装置,将待训练的集成模型作为目标集成模型,根据目标集成模型中各个子模型的输出获得目标正则项,并将目标正则项加入到目标集成模型的每个子模型的迭代训练过程中,当且仅当目标集成模型中的所有子模型均训练至收敛状态时,则确定目标集成模型训练完成。该装置所引入的目标正则项中充分考虑了目标集成模型中的各个子模型之间的相互作用,将目标正则项加入到目标集成模型的每个子模型的迭代训练中,有利于提高目标集成模型的鲁棒性和可靠性。
图3为本发明实施例提供的电子设备的实体结构示意图。参照图3,所述电子设备,包括:处理器(processor)31、存储器(memory)32和总线33;其中,所述处理器31和存储器32通过所述总线33完成相互间的通信;所述处理器31用于调用所述存储器32中的程序指令,以执行上述各方法实施例所提供的方法,例如包括:将待训练的集成模型作为目标集成模型,根据目标集成模型中各个子模型的输出获得目标正则项,根据目标集成模型中所有子模型各自对应的交叉熵损失函数和目标正则项构造目标集成模型对应的目标函数;对于目标集成模型中的任意一个子模型,根据预设训练集对子模型进行迭代训练,对于任意一个当前迭代过程,基于梯度下降算法根据子模型在上一次迭代过程中的网络参数和目标集成模型对应的目标函数更新获得子模型在当前迭代过程中的网络参数;若子模型在当前迭代过程中的网络参数与子模型在上一次迭代过程中的网络参数的差值不大于预设阈值,则子模型为收敛状态,当且仅当目标集成模型中的所有子模型均为收敛状态时,确定目标集成模型训练完成。
此外,上述的存储器32中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的训练方法,例如包括:将待训练的集成模型作为目标集成模型,根据目标集成模型中各个子模型的输出获得目标正则项,根据目标集成模型中所有子模型各自对应的交叉熵损失函数和目标正则项构造目标集成模型对应的目标函数;对于目标集成模型中的任意一个子模型,根据预设训练集对子模型进行迭代训练,对于任意一个当前迭代过程,基于梯度下降算法根据子模型在上一次迭代过程中的网络参数和目标集成模型对应的目标函数更新获得子模型在当前迭代过程中的网络参数;若子模型在当前迭代过程中的网络参数与子模型在上一次迭代过程中的网络参数的差值不大于预设阈值,则子模型为收敛状态,当且仅当目标集成模型中的所有子模型均为收敛状态时,确定目标集成模型训练完成。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种集成模型的自适应多样性增强训练方法,其特征在于,包括:
将待训练的集成模型作为目标集成模型,根据所述目标集成模型中各个子模型的输出获得目标正则项,根据所述目标集成模型中所有子模型各自对应的交叉熵损失函数和所述目标正则项构造所述目标集成模型对应的目标函数;
对于所述目标集成模型中的任意一个子模型,根据预设训练集对所述子模型进行迭代训练,对于任意一个当前迭代过程,基于梯度下降算法根据所述子模型在上一次迭代过程中的网络参数和所述目标集成模型对应的目标函数更新获得所述子模型在当前迭代过程中的网络参数;
若所述子模型在当前迭代过程中的网络参数与所述子模型在上一次迭代过程中的网络参数的差值不大于预设阈值,则所述子模型为收敛状态,当且仅当所述目标集成模型中的所有子模型均为收敛状态时,确定所述目标集成模型训练完成。
2.根据权利要求1所述的方法,其特征在于,根据所述目标集成模型中各个子模型的输出获得目标正则项,具体为:
根据所述目标集成模型中各个子模型的输出获得目标信息熵;
根据所述目标集成模型中各个子模型的非最大输出获得目标度量;
根据所述目标信息熵和所述目标度量获得所述目标正则项。
3.根据权利要求2所述的方法,其特征在于,根据所述目标集成模型中各个子模型的输出获得目标信息熵,具体为:
计算所述目标集成模型中所有子模型的输出的均值,作为目标输出;
获取所述目标输出的香农信息熵,作为所述目标信息熵。
4.根据权利要求2所述的方法,其特征在于,根据所述目标集成模型中各个子模型的非最大输出获得目标度量,具体为:
将所述目标集成模型中所有子模型的非最大输出组成非最大输出矩阵;
获取所述非最大输出矩阵的置换矩阵,将所述非最大输出矩阵和所述置换矩阵组成的行列式作为所述目标度量。
5.根据权利要求2所述的方法,其特征在于,根据所述目标信息熵和所述目标度量获得所述目标正则项,具体计算公式为:
其中,ADPα,β(x,y)为所述目标正则项;为所述目标信息熵;为所述目标度量;α、β为不小于零的常数。
6.根据权利要求1所述的方法,其特征在于,根据所述目标集成模型中所有子模型各自对应的交叉熵损失函数和所述目标正则项构造所述目标集成模型对应的目标函数,具体计算公式为:
其中,为所述目标集成模型对应的目标函数;为第k个子模型对应的交叉熵损失函数;K为所述目标集成模型中所有子模型的总数量;ADPα,β(x,y)为所述目标正则项;(xi,yi)为所述预设训练集中的第i个训练样本;Dm为从所述预设训练集中随机选取的m个训练样本组成的集合。
7.根据权利要求1所述的方法,其特征在于,基于梯度下降算法根据所述子模型在上一次迭代过程中的网络参数和所述目标集成模型对应的目标函数更新获得所述子模型在当前迭代过程中的网络参数,具体计算公式为:
其中,为第k′个子模型在第c次迭代过程中的网络参数;为第k′个子模型在第c+1次迭代过程中的网络参数;εk′为第k′个子模型的学习速率;为所述目标集成模型对应的目标函数;K为所述目标集成模型中所有子模型的总数量。
8.一种集成模型的自适应多样性增强训练装置,其特征在于,包括:
目标函数构造模块,用于将待训练的集成模型作为目标集成模型,根据所述目标集成模型中各个子模型的输出之间的相互作用获得目标正则项,根据所述目标集成模型中所有子模型各自对应的交叉熵损失函数和所述目标正则项构造所述目标集成模型对应的目标函数;
子模型训练模块,用于对于所述目标集成模型中的任意一个子模型,根据预设训练集对所述子模型进行迭代训练,对于任意一个当前迭代过程,基于梯度下降算法根据所述子模型在上一次迭代过程中的网络参数和所述目标集成模型对应的目标函数更新获得所述子模型在当前迭代过程中的网络参数;
集成模型训练模块,用于若所述子模型在当前迭代过程中的网络参数与所述子模型在上一次迭代过程中的网络参数的差值不大于预设阈值,则所述子模型为收敛状态,当且仅当所述目标集成模型中的所有子模型均为收敛状态时,确定所述目标集成模型训练完成。
9.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述处理器通信连接的至少一个存储器,其中:
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1至7任一所述的方法。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1至7任一所述的方法。
CN201910247718.3A 2019-03-29 2019-03-29 一种集成模型的自适应多样性增强训练方法及装置 Pending CN110046694A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910247718.3A CN110046694A (zh) 2019-03-29 2019-03-29 一种集成模型的自适应多样性增强训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910247718.3A CN110046694A (zh) 2019-03-29 2019-03-29 一种集成模型的自适应多样性增强训练方法及装置

Publications (1)

Publication Number Publication Date
CN110046694A true CN110046694A (zh) 2019-07-23

Family

ID=67275513

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910247718.3A Pending CN110046694A (zh) 2019-03-29 2019-03-29 一种集成模型的自适应多样性增强训练方法及装置

Country Status (1)

Country Link
CN (1) CN110046694A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113228062A (zh) * 2021-02-25 2021-08-06 东莞理工学院 基于特征多样性学习的深度集成模型训练方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
TIANYU PANG 等: "《Improving Adversarial Robustness via Promoting Ensemble Diversity》", 《ARXIV:1901.08846V1》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113228062A (zh) * 2021-02-25 2021-08-06 东莞理工学院 基于特征多样性学习的深度集成模型训练方法
WO2022178775A1 (zh) * 2021-02-25 2022-09-01 东莞理工学院 基于特征多样性学习的深度集成模型训练方法
CN113228062B (zh) * 2021-02-25 2024-07-12 东莞理工学院 基于特征多样性学习的深度集成模型训练方法

Similar Documents

Publication Publication Date Title
US20210365782A1 (en) Method and apparatus for generating neural network model, and computer-readable storage medium
CN105260776B (zh) 神经网络处理器和卷积神经网络处理器
CN105488528B (zh) 基于改进自适应遗传算法的神经网络图像分类方法
CN108491765A (zh) 一种蔬菜图像的分类识别方法及系统
CN112949678A (zh) 深度学习模型对抗样本生成方法、系统、设备及存储介质
CN109767000A (zh) 基于Winograd算法的神经网络卷积方法及装置
CN111291165B (zh) 训练词向量嵌入模型的方法及装置
CN111259738A (zh) 人脸识别模型构建方法、人脸识别方法及相关装置
CN107003834B (zh) 行人检测设备和方法
CN109934330A (zh) 基于多样化种群的果蝇优化算法来构建预测模型的方法
CN108647571A (zh) 视频动作分类模型训练方法、装置及视频动作分类方法
CN110135681A (zh) 风险用户识别方法、装置、可读存储介质及终端设备
CN107423306A (zh) 一种图像检索方法及装置
CN110059677A (zh) 基于深度学习的数字表识别方法及设备
CN108229536A (zh) 分类预测模型的优化方法、装置及终端设备
CN113599798A (zh) 基于深度强化学习方法的中国象棋博弈学习方法及系统
CN111767992A (zh) 一种基于卷积神经网络的双目标增量学习方法
CN109840413A (zh) 一种钓鱼网站检测方法及装置
CN108320019B (zh) 用于深度卷积神经网络的卷积计算方法及装置
CN115239760B (zh) 一种目标跟踪方法、系统、设备及存储介质
CN109583586A (zh) 一种卷积核处理方法及装置
CN113420289B (zh) 面向深度学习模型的隐蔽中毒攻击防御方法及其装置
CN110046694A (zh) 一种集成模型的自适应多样性增强训练方法及装置
CN110210419A (zh) 高分辨率遥感图像的场景识别系统及模型生成方法
Bujok Three steps to improve jellyfish search optimiser

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190723