CN113228062B - 基于特征多样性学习的深度集成模型训练方法 - Google Patents
基于特征多样性学习的深度集成模型训练方法 Download PDFInfo
- Publication number
- CN113228062B CN113228062B CN202180000322.4A CN202180000322A CN113228062B CN 113228062 B CN113228062 B CN 113228062B CN 202180000322 A CN202180000322 A CN 202180000322A CN 113228062 B CN113228062 B CN 113228062B
- Authority
- CN
- China
- Prior art keywords
- model
- target
- image
- base
- integrated model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 108
- 238000012549 training Methods 0.000 title claims abstract description 100
- 230000010354 integration Effects 0.000 title claims abstract description 60
- 210000002569 neuron Anatomy 0.000 claims abstract description 179
- 230000004913 activation Effects 0.000 claims abstract description 156
- 230000006870 function Effects 0.000 claims abstract description 78
- 230000014759 maintenance of location Effects 0.000 claims abstract description 78
- 239000013598 vector Substances 0.000 claims abstract description 56
- 238000004891 communication Methods 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000003062 neural network model Methods 0.000 claims description 5
- 238000013135 deep learning Methods 0.000 abstract description 4
- 238000010801 machine learning Methods 0.000 abstract description 2
- 230000009286 beneficial effect Effects 0.000 abstract 1
- 230000008569 process Effects 0.000 description 15
- 238000012545 processing Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 230000004069 differentiation Effects 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000013145 classification model Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 230000002779 inactivation Effects 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/094—Adversarial learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例涉及机器学习技术领域,公开了一种基于特征多样性学习的深度集成模型训练方法,该方法包括:获取样本数据(110);将样本数据输入当前集成模型,得到每个基模型的高层特征向量(120);根据高层特征向量中各个神经元的激活值,确定激活强度区间(130);根据各个子区间内激活值的统计特征确定各个基模型在各个子区间中的神经元的保留概率,根据保留概率调整各个所述神经元的激活值,得到当前集成模型更新的高层特征多样性表示;其中,M大于等于K(140);根据当前集成模型更新的高层特征多样性表示,输出样本数据对应的输出结果(150);根据样本数据及输出结果计算当前集成模型的目标损失函数,调整当前集成模型的参数值,将样本数据输入调整后的当前集成模型继续训练,直至目标损失函数收敛,得到目标深度集成模型(160)。通过上述方式,本发明实施例实现了提高深度学习集成模型的鲁棒性的有益效果。
Description
技术领域
本发明实施例涉及机器学习技术领域,具体涉及一种基于特征多样性学习的深度集成模型训练方法、图像识别方法、基于特征多样性学习的深度集成模型训练装置、图像识别装置、电子设备及计算机可读存储介质。
背景技术
目前,深度学习作为一种重要的数据分析方法已被广泛应用于生物特征识别、汽车自动驾驶等多个应用领域中。但最近的研究表明,深度学习模型很容易遭受到对抗样本的攻击。这里对抗样本指的是对原始样本加入微小的、人类察觉不到的扰动,以改变分类模型对该样本的预测标签。比如,针对面部识别模型的特点,通过对原始面部图片添加人为精心制造的微小扰动便可使面部识别模型做出错误的分类。还有针对自动汽车驾驶、语音控制系统的恶意控制等,攻击者对原始样本添加微小的扰动,生成对抗样本,使得对抗样本被智能系统错误识别,从而对其造成恶意破坏。对抗样本的存在给深度学习落地于真实应用系统带来了巨大的安全隐患,因此,提高深度学习模型本身对恶意对抗样本的防御能力(即模型鲁棒性)是一个重要的研究方向。
然而以往的方法主要针对于提高单个深度分类模型的鲁棒性,如采用对抗训练,即在模型每一轮训练过程中,生成特定的对抗样本,将这些对抗样本加入到原始样本中共同训练,从而提高模型鲁棒性。这种方法虽然能够提升深度模型的鲁棒性,但也会在一定程度上降低模型对于正常样本的泛化能力;并且该方法十分耗费计算机系统资源,在复杂数据集上难以应用。
发明内容
鉴于上述问题,本发明实施例提供了一种基于特征多样性学习的集成深度神经网络模型训练方法,用于解决现有技术中存在的集成模型的鲁棒性差的技术问题。
根据本发明实施例的一个方面,提供了一种基于特征多样性学习的深度集成模型训练方法,所述方法包括:
获取样本数据;
将样本数据输入当前集成模型,得到每个基模型的高层特征向量;其中,所述当前集成模型包括K个所述基模型,K大于1;
根据所述K个基模型的高层特征向量中各个神经元的激活值,确定所述当前集成模型的激活强度区间;
将所述激活强度区间划分为M个子区间,根据各个子区间内神经元的激活值的统计特征确定各个基模型在各个子区间中的神经元的保留概率,根据所述保留概率调整各个所述神经元的激活值,得到所述当前集成模型更新的高层特征多样性表示;其中,M大于等于K;
根据得到当前集成模型的高层特征多样性表示,输出所述样本数据对应的输出结果;
根据所述样本数据及所述输出结果计算所述当前集成模型的目标损失函数,调整所述初始集成模型的参数值,将所述样本数据输入调整后的当前集成模型继续训练,直至所述目标损失函数收敛,得到目标深度集成模型。
在一种可选的方式中,所述各个子区间内神经元的激活值的统计特征为所述各个子区间内神经元的个数;所述根据各个子区间内神经元的激活值的统计特征确定各个基模型在各个子区间中的神经元的保留概率,根据所述保留概率调整各个所述神经元的激活值,得到所述当前集成模型更新后的高层特征多样性表示,包括:确定神经元个数最多的前K个子区间为优先级区间;根据目标神经元的激活值是否位于目标优先级区间确定所述目标神经元的保留概率;根据所述保留概率调整所述目标神经元的激活值;根据调整后的目标神经元的激活值,得到当前集成模型更新的高层特征多样性表示;所述目标神经元为目标基模型中的所述神经元;所述目标基模型为任意一个所述基模型,所述目标优先级区间为所述目标基模型对应的优先级区间。
在一种可选的方式中,所述根据目标神经元的激活值是否位于目标优先级区间调整所述目标神经元的保留概率,包括:通过保留概率调整公式调整所述目标神经元的保留概率;
所述保留概率调整公式为:
其中,表示第k个目标基模型中位于第m个子区间的目标神经元调整后的保留概率,tk表示第k个目标基模型所对应的第tk个目标优先级区间;m表示目标神经元的激活值所处的子区间;表示第k个基模型中位于第m个优先级区间的神经元个数;Ck为第k个基模型的所述神经元总数;α为第一保留权重;β为第二保留权重;k∈K。
在一种可选的方式中,所述根据所述样本数据及所述输出结果计算所述当前集成模型的目标损失函数,调整所述当前集成模型的参数值,将所述样本数据输入调整后的当前集成模型继续训练,直至所述目标损失函数收敛,得到目标深度集成模型,包括:
根据所述样本数据及所述输出结果通过预设损失函数分别计算各个所述基模型的分类损失;
根据各个所述基模型的分类损失关于样本数据的梯度,通过梯度正则项损失公式计算梯度正则项损失;
所述梯度正则项损失公式为:
其中,为梯度正则项损失;i为第i个基模型的序号,j为第k个基模型的序号;gi为第i个所述基模型相对于所述样本数据的梯度;gj为第j个所述基模型相对于所述样本数据的梯度;
根据所述分类损失及所述梯度正则项损失确定所述目标损失函数;
根据所述目标损失函数调整所述当前集成模型的参数值,将所述样本数据输入调整后的当前集成模型继续训练,直至所述目标损失函数收敛,得到目标深度集成模型。
在一种可选的方式中,所述根据所述样本数据及所述输出结果计算所述当前集成模型的目标损失函数,调整所述当前集成模型的参数值,将所述样本数据输入调整后的当前集成模型继续训练,直至所述目标损失函数收敛,得到目标深度集成模型之后,所述方法进一步包括:
确定所述目标深度集成模型中各个基模型高层特征层的激活向量;
计算所有所述基模型高层特征层的激活向量的均值和方差,并通过辨别分数公式计算总辨别分数;
所述辨别分数公式为:
其中,为目标深度集成模型的总辨别分数;μi为第i个基模型高层特征层激活向量的均值,μj第j个基模型高层特征层激活向量的均值,σi第i个基模型高层特征层激活向量的方差,σj第j个基模型高层特征层激活向量的方差。
根据本发明实施例的另一方面,提供了一种图像识别方法,所述方法包括以下步骤:
获取待识别图像;
将所述待识别图像输入目标深度集成模型中;所述目标深度集成模型包括K个基模型,所述目标深度集成模型通过上述的基于特征多样性学习的深度集成模型训练方法训练得到;
输出所述待识别图像的识别结果。
根据本发明实施例的另一方面,提供了一种基于特征多样性的集成模型训练装置,包括:
第一获取模块,用于获取样本数据;
第一输入模块,用于将样本数据输入当前集成模型,得到每个基模型的高层特征向量;其中,所述当前集成模型包括K个所述基模型,K大于1;
确定模块,用于根据所述K个基模型的高层特征向量中各个神经元的激活值,确定所述当前集成模型的激活强度区间;
调整模块,用于根据各个子区间内神经元的激活值的统计特征确定各个基模型在各个子区间中的神经元的保留概率,根据所述保留概率调整各个所述神经元的激活值,得到所述当前集成模型更新的高层特征多样性表示;其中,M大于等于K;
第一输出模块,用于根据所述当前集成模型更新的高层特征多样性表示,输出所述样本数据对应的输出结果;
损失函数计算模块,用于根据所述样本数据及所述输出结果计算所述当前集成模型的目标损失函数,调整所述当前集成模型的参数值,将所述样本数据输入调整后的当前集成模型继续训练,直至所述目标损失函数收敛,得到目标深度集成模型。
根据本发明实施例的另一方面,提供了一种图像识别装置,包括:
第二获取模块,用于获取待识别图像;
第二输入模块,用于将所述待识别图像输入目标深度集成模型中;所述目标深度集成模型包括K个基模型,所述目标深度集成模型通过所述的基于特征多样性学习的深度集成模型训练方法或所述的基于特征多样性的集成模型训练装置训练得到;
第二输出模块,用于输出所述待识别图像的识别结果。
根据本发明实施例的另一方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述的基于特征多样性学习的深度集成模型训练方法或上述的图像识别方法的操作。
根据本发明实施例的又一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一可执行指令,所述可执行指令在电子设备上运行时,使得电子设备执行上述的基于特征多样性学习的深度集成模型训练方法或上述的图像识别方法的操作。
本发明实施例在集成模型的训练过程中,通过调整各个基模型的高层特征层中各个神经元的保留概率,从而调整对应的激活值,从而使得各个基模型的特征多样化,以提高集成模型的鲁棒性。
进一步地,通过结合损失梯度的差异化处理,使得能够在保证对正常样本的泛化能力的同时,显著提高集成模型的鲁棒性,能够有效处理复杂数据集及防御对抗样本攻击。
上述说明仅是本发明实施例技术方案的概述,为了能够更清楚了解本发明实施例的技术手段,而可依照说明书的内容予以实施,并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
附图仅用于示出实施方式,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了标准神经网络和带Dropout的神经网络的示意图;
图2示出了本发明实施例提供的基于特征多样性学习的深度集成模型训练方法的流程示意图;
图3示出了本发明实施例提供的采用不同的训练方法对应的辨别率对比示意图;
图4示出了本发明另一实施例提供的图像识别方法的流程示意图;
图5示出了本发明实施例提供的基于特征多样性的集成模型训练装置的结构示意图;
图6示出了本发明另一实施例提供的图像识别装置的结构示意图;
图7示出了本发明实施例提供的电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。
首先,对本发明实施例中的技术术语进行解释:
ADP(Adaptive Diversity Promoting):自适应多样性促进,一种针对深度集成模型的输出多样性学习方法。
Dropout:神经元失活算法,一种训练深度神经网络时普遍会用到的方法,可以有效防止过拟合。如图1所示,图1中(a)示出了现有未采用Dropout的神经网络结构,图1中的(b)示出了采用Dropout的神经网络结构。
PDD(Priority Diversified Dropouts):基于优先级差异化的神经元失活算法。本发明实施例中,在深度集成模型中对各基模型采取同时训练策略。在每一批次训练迭代中,根据总体激活神经元的个数,来分配各基模型优先保留的激活值区间,从而差异化各基模型中神经元的激活强度。
DEG:Dispersed Ensemble Gradients的缩写,弥散集成梯度。本发明实施例中促进深度集成模型中各基模型的损失梯度夹角尽可能最大化的一种惩罚项。
Discrimination Score:辨别分数,在测试阶段衡量深度集成模型的某一特定层的多样化程度。
图2示出了本发明基于特征多样性学习的深度集成模型训练方法实施例的流程图,该方法由电子设备执行。该电子设备具体可以是计算机设备或其他终端设备,如计算机、平板电脑、手机、智能机器人或穿戴式智能设备等。如图2所示,该方法包括以下步骤:
步骤110:获取样本数据。
其中,样本数据为预先标注好的样本标签的样本数据。该标签为样本数据对应的输出结果。如对于用于分类的集成模型,该标签为样本数据对应的分类结果。所述样本数据可以是带标签的图像数据,标签为图像分类结果。该样本数据可以是图像数据、文本数据、音频数据或视频数据等多媒体数据。
步骤120:将样本数据输入当前集成模型,得到每个基模型的高层特征向量;其中,所述当前集成模型包括K个所述基模型,K大于1。
其中,当前集成模型为由多个基模型组成的深度集成模型,可通过如下函数表示:
其中,为当前集成模型的输出,如预测分数;F(x;θk)为第k个基模型;y是x的真值标签的一热编码。本发明实施例中,每一次训练的当前集成模型为上一次训练后的得到的集成模型。深度集成模型可以是用于分类的集成深度分类模型。集成深度分类模型中的每一个基模型可以是深度学习网络。
本发明实施例中,在每一轮训练中,将样本数据中的所有训练数据的顺序打乱,并连同训练数据对应的标签输入当前集成模型中。通过前向传播得到每个基模型的高层特征向量以及输出结果。该高层特征向量一般为神经网络的全连接层,该输出结果为预测向量。
步骤130:根据所述K个基模型的高层特征向量中各个神经元的激活值,确定所述当前集成模型的激活强度区间。
本发明实施例中,获取各个基模型的高层特征向量中的神经元的激活值;对各个神经元的激活值进行统计,按照激活值的大小从小到大排序,从而确定当前集成模型的激活强度区间[u,v],其中,u为最小的激活值,v为最大的激活值。各个神经元的激活值表示各个神经元在输入一次训练数据后被激活的概率,本发明实施例中,由于激活深度网络特征提取层的响应不同,使得各个神经元的激活值存在差异性。因此,各个被激活的神经元的激活值从小到大排列,得到激活强度区间。其中,激活强度通过激活值来衡量。
步骤140:将所述激活强度区间划分为M个子区间,根据各个子区间内所述神经元的激活值的统计特征确定各个基模型在各个子区间中的神经元的保留概率,根据所述保留概率调整各个所述神经元的激活值,得到所述当前集成模型更新的高层特征多样性表示;其中,M大于等于K。本发明实施例中,将激活强度区间均匀划分为M个子区间,每个子区间的区间长度相同。例如对于具有3个基模型的集成模型,激活强度区间为0.1-0.9的区间,可将其划分为4个子区间,则每个子区间的范围分别为0.1-0.3,0.3-0.5,0.5-0.7,0.7-0.9。
其中,各个子区间内所述神经元的激活值的统计特征可以是子区间内神经元的个数;还可以是子区间内所有激活值的期望;也可以是子区间内激活值的总辨别分数。本发明实施例中并不具体限定,本领域的技术人员可根据具体场景进行相应地设置。
在本发明的一个实施例中,所述各个子区间内神经元的激活值的统计特征为所述各个子区间内神经元的个数。则所述根据各个子区间内神经元的激活值的统计特征确定各个基模型在各个子区间中的神经元的保留概率,根据所述保留概率调整各个所述神经元的激活值,得到所述当前集成模型更新后的高层特征多样性表示,包括以下步骤:
步骤1401:确定所述神经元个数最多的前K个子区间为优先级区间。本发明实施例中,对激活强度区间进行均匀划分后,根据各个子区间内神经元的个数(也即激活值的个数),对子区间进行排序,从而筛选出神经元的个数最大的前k个子区间。由于每个子区间的长度范围相同,因此仅仅需要考虑每个区间内神经元的个数即可。具体地,在得到M个子区间后,对该M个子区间按照各个区间内神经元激活值的个数进行排序,从而得到神经元的激活值个数最多的前K个子区间为优先级区间。
其中,本发明实施例将K个基模型按照预设的分配规则分别对应分配给K个优先级区间。该分配规则可以是人为预先设定的,按照分配规则中的分配顺序,将每一个目标基模型对应分配至一个目标优先级区间;如,总是将第一个基模型分配给优先级最高(也即神经元个数最多)的优先级区间,将第二个基模型分配给优先级次之的优先级区间,以此类推将对应的基模型分配至对应的优先级区间,在后续的训练过程中一直采用该分配规则进行分配。所述目标神经元为目标基模型中的所述神经元;所述目标基模型为任意一个所述基模型。
步骤1402:根据目标神经元的激活值是否位于目标优先级区间确定所述目标神经元的保留概率。
其中,对于每个基模型而言,根据目标神经元的激活值是否位于目标优先级区间确定所述目标神经元的保留概率,在目标神经元的激活值位于目标优先级区间时,调整其具有较高的保留概率;在目标神经元的激活值不位于目标优先级区间时,调整其具有较低的保留概率。其中,所述目标神经元为目标基模型中的所述神经元;所述目标基模型为任意一个所述基模型,所述目标优先级区间为所述目标基模型对应的优先级区间。本发明实施例中,通过保留概率调整公式调整所述目标神经元的保留概率。其中,预设目标神经元保留概率公式为:
其中,表示第k个目标基模型中位于第m个子区间的目标神经元调整后的保留概率,tk表示第k个目标基模型所对应的第tk个目标优先级区间;m表示目标神经元的激活值所处的子区间;表示第k个基模型中位于第m个优先级区间的神经元个数,该值根据每次训练过程而变化,为上一次训练得到的结果;Ck为第k个基模型的所述神经元的总数,该值是固定值;α为第一保留系数;β为第二保留系数;k∈K。其中,α、及β均为超参,α和β是介于0-1之间的系数,α可以为0.9,β可以为0.1。其中,第k个基模型的所述神经元总数指的是第k个基模型中目标全连接层上的神经元总数。该目标全连接层指的是第k个基模型中PDD所作用的全连接层,也即PDD作用的高层特征向量对应的全连接层。
也即,当第k个目标基模型的目标神经元位于其对应的第tk个目标优先级区间时,m=tk,该目标神经元的保留概率为α;第k个目标基模型的目标神经元不位于位于其对应的第tk个目标优先级区间时,m≠tk,保留概率为
步骤1403:根据所述保留概率调整各个所述目标神经元的激活值。
其中,在确定了各个目标神经元的保留概率后,根据0-1离散型随机变量分布律对每一个目标神经元进行采样,随机决定各个目标神经元的激活随机变量的单个样本值。其中,单个样本值为1时,保留该神经元的原激活值;单个样本值为0时,置零该神经元的激活值。
在本发明的一个实例中,所述0-1分布律为贝努利分布,记为Bernoulli(p),其采样公式为:
P{X=x}=px(1-p)1-x,x=0,1
即,给定第k个基模型全连接层的第j个神经元的保留概率及原激活值则该神经元的激活随机变量X=1的概率为X=0的概率为其调整后的激活值为其中
步骤1404:根据调整后的目标神经元的激活值,得到当前集成模型更新的高层特征多样性表示。
此时,当前集成模型的高层特征多样性表示发生了变化,但其并未进行训练,因此该当前集成模型的参数值并未调整。通过这样的方式,使得各个基模型的激活值分布在不同的区间上,各个神经元的激活值差异化增大,从而增加了输入特征的多样化。
步骤150:根据所述当前集成模型更新的高层特征多样性表示,输出所述样本数据对应的输出结果。
其中,将样本数据重新输入当前集成模型,从而得到样本数据对应的数据结果,该输出结果为多个预测向量。
步骤160:根据所述样本数据及所述输出结果计算所述当前集成模型的目标损失函数,调整所述当前集成模型的参数值,将所述调整后的当前集成模型作为当前集成模型,重新将样本数据输入调整后的当前集成模型继续训练,直至所述目标损失函数收敛,得到目标深度集成模型。
本发明的一个实施例中,当前集成模型的各个基模型为联合训练的,目标损失函数为各个基模型的损失函数之和。可以是现有的分类损失函数。因此,可以通过现有的分类损失的计算方法对当前集成模型进行损失计算,在目标损失函数过大时调整该当前集成模型的参数,并重新采用上述步骤110-步骤160的训练方法进行训练,直至所得到的损失函数收敛,从而得到目标深度集成模型。
本发明的另一个实施例中,还可以对损失函数进行改进,将梯度正则项损失的因子加入损失函数中,得到各个基模型联合的目标损失函数,对当前集成模型进行损失计算,在损失函数过大时调整该当前集成模型的参数,并重新采用上述步骤110-步骤160的训练方法进行训练,直至所得到的损失函数收敛,从而得到目标深度集成模型。具体地,包括以下步骤:
步骤1601:根据所述样本数据及所述输出结果通过预设损失函数分别计算各个所述基模型的分类损失并相加得到总分类损失。本发明实施例中,采用分类交叉熵的损失函数计算方法,分别计算各个基模型输出的预测向量与样本数据中样本对应的样本标签之间的分类损失。
步骤1602:根据样本数据中样本关于各个所述基模型的分类损失的梯度,通过梯度正则项损失公式计算梯度正则项损失;
所述正则项公式为:
其中,为梯度正则项损失;i为第i个基模型的序号,j为第k个基模型的序号;gi为第i个所述基模型相对于所述样本数据的梯度;gj为第j个所述基模型相对于所述样本数据的梯度。
本发明实施例中,通过正则项公式计算K个基模型中两两之间的梯度的夹角。
步骤1603:根据所述总分类损失及所述梯度正则项损失确定目标损失函数。
其中,目标损失函数为:
Lours=LECE+λ·Lg
本发明实施例中,λ为惩罚项。
步骤1604:根据所述目标损失函数调整所述当前集成模型的参数值,将所述样本数据输入调整后的当前集成模型继续训练,直至所述目标损失函数收敛,得到目标深度集成模型。
其中,通过反向传播算法分别求解分类损失和DEG梯度正则项损失关于模型参数的梯度值,然后根据每一项损失对应的系数大小对梯度值进行加权叠加,用叠加后的梯度对模型参数进行更新,从而得到调整后的当前集成模型,完成一次的模型训练。在下一次训练时,将本次调整参数后的当前集成模型作为当前集成模型,将样本数据的数据打乱输入该集成模型中,按照上述同样的方式对调整后的当前集成模型进行训练,直至该模型近乎收敛,从而得到目标深度集成模型。
通过这样的方式,使得模型的训练结合了前期输入PDD算法对各个基模型的特征进行特征多样化处理,同时在计算损失函数时,结合梯度正则项损失,使得各个基模型之间的多样化特征进一步拉大,通过这样各个基模型联合训练的方法,从而使得训练得到的集成模型鲁棒性更高。
本发明实施例中,还包括步骤170:根据辨别分数确定目标深度集成模型中各个基模型的高层特征层的特征多样化程度。具体包括:
步骤1701:确定所述目标深度集成模型中各个基模型高层特征层的激活向量。
步骤1702:根据各个所述基模型高层特征层的激活向量的均值和方差,通过辨别分数公式计算总辨别分数;
所述辨别分数公式为:
其中,为目标深度集成模型的总辨别分数;μi为第i个基模型高层特征层激活向量的均值,μj第j个基模型高层特征层激活向量的均值,σi第i个基模型高层特征层激活向量的方差,σj第j个基模型高层特征层激活向量的方差。
通过上述方式,能够有效度量模型的高层特征层的特征多样化程度。
如图3所示,示出了采用现有的方式,单独采用本发明实施例的PDD方式、单独采用本发明实施例的DEG的方式以及采用本发明实施例PDD+DEG的方式,所得到的总辨别分数情况。从图中可以看出,本发明实施例采用PDD+DEG的方式可以明显增强特征之间的差异度。
本发明实施例在集成模型的训练过程中,通过调整各个基模型的高层特征层中各个神经元对应的激活值,从而使得各个基模型的特征多样化,以提高集成模型的鲁棒性。
进一步地,通过结合损失梯度的差异化处理,使得能够在保证对正常样本的泛化能力的同时,显著提高集成模型的鲁棒性,能够有效处理复杂数据集及防御对抗样本攻击。
图4示出了本发明图像识别方法另一个实施例的流程图,该方法由电子设备设备执行。该电子设备可以是计算机设备。如图4所示,该方法包括以下步骤:
步骤210:获取待识别图像。
步骤220:将所述待识别图像输入目标深度集成模型中;所述目标深度集成模型包括K个基模型,所述目标深度集成模型通过上述的基于特征多样性学习的深度集成模型训练方法训练得到。本发明实施例中基于特征多样性学习的深度集成模型训练方法与上述方法实施例中的具体训练步骤相同,此处不再赘述。
步骤230:输出所述待识别图像的识别结果。
本发明实施例在集成模型的训练过程中,通过调整各个基模型的高层特征层中各个神经元对应的激活值,从而使得各个基模型的特征多样化,以提高集成模型的鲁棒性。
进一步地,通过结合损失梯度的差异化处理,使得能够在保证对正常样本的泛化能力的同时,显著提高集成模型的鲁棒性,能够有效处理复杂数据集及防御对抗样本攻击。
本发明实施例的图像识别方法,能够有效克服对抗样本的问题,使得模型预测得到的图像识别结果更加准确。
图5示出了本发明基于特征多样性的集成模型训练装置实施例的结构示意图。如图5所示,该装置300包括:第一获取模块310、第一输入模块320、第一确定模块330、第二确定模块340、调整模块350、第一输出模块360和损失函数计算模块370。
第一获取模块310,用于获取样本数据;
第一输入模块320,用于将样本数据输入当前集成模型,得到每个基模型的高层特征向量;其中,所述当前集成模型包括K个所述基模型,K大于1;
确定模块330,用于根据所述K个基模型的高层特征向量中各个神经元的激活值,确定所述当前集成模型的激活强度区间;
调整模块340,用于根据各个子区间内神经元的激活值的统计特征确定各个基模型在各个子区间中的神经元的保留概率,根据所述保留概率调整各个所述神经元的激活值,得到所述当前集成模型更新的高层特征多样性表示;其中,M大于等于K;
第一输出模块350,用于根据所述当前集成模型更新的高层特征多样性表示,输出所述样本数据对应的输出结果;
损失函数计算模块360,用于根据所述样本数据及所述输出结果计算所述当前集成模型的目标损失函数,调整所述当前集成模型的参数值,将所述样本数据输入调整后的当前集成模型继续训练,直至所述目标损失函数收敛,得到目标深度集成模型。
本发明实施例的基于特征多样性的集成模型训练装置的具体工作过程与上述方法实施例的具体方法步骤一致,此处不再赘述。
本发明实施例在集成模型的训练过程中,通过调整各个基模型的高层特征层中各个神经元对应的激活值,从而使得各个基模型的特征多样化,以提高集成模型的鲁棒性。
进一步地,通过结合损失梯度的差异化处理,使得能够在保证对正常样本的泛化能力的同时,显著提高集成模型的鲁棒性,能够有效处理复杂数据集及防御对抗样本攻击。
图6示出了本发明图像识别装置实施例的结构示意图。如图6所示,该装置400包括:第二获取模块410、第二输入模420和第二输出模块430。
第二获取模块410,用于获取待识别图像。
第二输入模块420,用于将所述待识别图像输入目标深度集成模型中;所述目标深度集成模型包括K个基模型,所述目标深度集成模型通过上述的基于特征多样性学习的深度集成模型训练方法或上述的基于特征多样性的集成模型训练装置训练得到。
第二输出模块430,用于输出所述待识别图像的识别结果。
本发明实施例的图像识别装置的具体工作过程与上述方法实施例的具体方法步骤一致,此处不再赘述。
本发明实施例在集成模型的训练过程中,通过调整各个基模型的高层特征层中各个神经元对应的激活值,从而使得各个基模型的特征多样化,以提高集成模型的鲁棒性。
进一步地,通过结合损失梯度的差异化处理,使得能够在保证对正常样本的泛化能力的同时,显著提高集成模型的鲁棒性,能够有效处理复杂数据集及防御对抗样本攻击。
图7示出了本发明电子设备实施例的结构示意图,本发明具体实施例并不对电子设备的具体实现做限定。
如图7所示,该电子设备可以包括:处理器(processor)502、通信接口(CommunicationsInterface)504、存储器(memory)506、以及通信总线508。
其中:处理器502、通信接口504、以及存储器506通过通信总线508完成相互间的通信。通信接口504,用于与其它设备比如客户端或其它服务器等的网元通信。处理器502,用于执行程序510,具体可以执行上述用于基于特征多样性学习的深度集成模型训练方法或图像识别方法实施例中的相关步骤。
具体地,程序510可以包括程序代码,该程序代码包括计算机可执行指令。
处理器502可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。电子设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器506,用于存放程序510。存储器506可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
程序510具体可以被处理器502调用使电子设备执行以下操作:
获取样本数据;
将样本数据输入当前集成模型,得到每个基模型的高层特征向量;其中,所述当前集成模型包括K个所述基模型,K大于1;
根据所述K个基模型的高层特征向量中各个神经元的激活值,确定所述当前集成模型的激活强度区间;
将所述激活强度区间划分为M个子区间,根据各个子区间内神经元的激活值的统计特征确定各个基模型在各个子区间中的神经元的保留概率,根据所述保留概率调整各个所述神经元的激活值,得到所述当前集成模型更新的高层特征多样性表示;其中,M大于等于K;
根据得到当前集成模型的高层特征多样性表示,输出所述样本数据对应的输出结果;
根据所述样本数据及所述输出结果计算所述当前集成模型的目标损失函数,调整所述初始集成模型的参数值,将所述样本数据输入调整后的当前集成模型继续训练,直至所述目标损失函数收敛,得到目标深度集成模型;或者,
获取待识别图像;
将所述待识别图像输入目标深度集成模型中;所述目标深度集成模型包括K个基模型,所述目标深度集成模型通过所述的基于特征多样性学习的深度集成模型训练方法训练得到;
输出所述待识别图像的识别结果。
在一种可选的方式中,所述各个子区间内神经元的激活值的统计特征为所述各个子区间内神经元的个数;所述根据各个子区间内神经元的激活值的统计特征确定各个基模型在各个子区间中的神经元的保留概率,根据所述保留概率调整各个所述神经元的激活值,得到所述当前集成模型更新后的高层特征多样性表示,包括:确定神经元个数最多的前K个子区间为优先级区间;根据目标神经元的激活值是否位于目标优先级区间确定所述目标神经元的保留概率;根据所述保留概率调整所述目标神经元的激活值;根据调整后的目标神经元的激活值,得到当前集成模型更新的高层特征多样性表示;所述目标神经元为目标基模型中的所述神经元;所述目标基模型为任意一个所述基模型,所述目标优先级区间为所述目标基模型对应的优先级区间。
在一种可选的方式中,所述根据目标神经元的激活值是否位于目标优先级区间调整所述目标神经元的保留概率,包括:通过保留概率调整公式调整所述目标神经元的保留概率;
所述保留概率调整公式为:
其中,表示第k个目标基模型中位于第m个子区间的目标神经元调整后的保留概率,tk表示第k个目标基模型所对应的第tk个目标优先级区间;m表示目标神经元的激活值所处的子区间;表示第k个基模型中位于第m个优先级区间的神经元个数;Ck为第k个基模型的所述神经元的总数;α为第一保留权重;β为第二保留权重;k∈K。
在一种可选的方式中,所述根据所述样本数据及所述输出结果计算所述当前集成模型的目标损失函数,调整所述当前集成模型的参数值,将所述样本数据输入调整后的当前集成模型继续训练,直至所述目标损失函数收敛,得到目标深度集成模型,包括:
根据所述样本数据及所述输出结果通过预设损失函数分别计算各个所述基模型的分类损失;
根据各个所述基模型的分类损失关于样本数据的梯度,通过梯度正则项损失公式计算梯度正则项损失;
所述梯度正则项损失公式为:
其中,为梯度正则项损失;i为第i个基模型的序号,j为第k个基模型的序号;gi为第i个所述基模型相对于所述样本数据的梯度;gj为第j个所述基模型相对于所述样本数据的梯度;
根据所述分类损失及所述梯度正则项损失确定所述目标损失函数;
根据所述目标损失函数调整所述当前集成模型的参数值,将所述样本数据输入调整后的当前集成模型继续训练,直至所述目标损失函数收敛,得到目标深度集成模型。
在一种可选的方式中,所述根据所述样本数据及所述输出结果计算所述当前集成模型的目标损失函数,调整所述当前集成模型的参数值,将所述样本数据输入调整后的当前集成模型继续训练,直至所述目标损失函数收敛,得到目标深度集成模型之后,所述方法进一步包括:
确定所述目标深度集成模型中各个基模型高层特征层的激活向量;
计算所有所述基模型高层特征层的激活向量的均值和方差,并通过辨别分数公式计算总辨别分数;
所述辨别分数公式为:
其中,为目标深度集成模型的总辨别分数;μi为第i个基模型高层特征层激活向量的均值,μj第j个基模型高层特征层激活向量的均值,σi第i个基模型高层特征层激活向量的方差,σj第j个基模型高层特征层激活向量的方差。
本发明实施例的电子设备的具体工作过程与上述方法实施例的具体方法步骤一致,此处不再赘述。
本发明实施例在集成模型的训练过程中,通过调整各个基模型的高层特征层中各个神经元对应的激活值,从而使得各个基模型的特征多样化,以提高集成模型的鲁棒性。
进一步地,通过结合损失梯度的差异化处理,使得能够在保证对正常样本的泛化能力的同时,显著提高集成模型的鲁棒性,能够有效处理复杂数据集及防御对抗样本攻击。
本发明实施例提供了一种计算机可读存储介质,所述存储介质存储有至少一可执行指令,该可执行指令在电子设备上运行时,使得所述电子设备执行上述任意方法实施例中的基于特征多样性学习的深度集成模型训练方法或图像识别方法。
可执行指令具体可以用于使得电子设备执行以下操作:
获取样本数据;
将样本数据输入当前集成模型,得到每个基模型的高层特征向量;其中,所述当前集成模型包括K个所述基模型,K大于1;
根据所述K个基模型的高层特征向量中各个神经元的激活值,确定所述当前集成模型的激活强度区间;
将所述激活强度区间划分为M个子区间,根据各个子区间内神经元的激活值的统计特征确定各个基模型在各个子区间中的神经元的保留概率,根据所述保留概率调整各个所述神经元的激活值,得到所述当前集成模型更新的高层特征多样性表示;其中,M大于等于K;
根据得到当前集成模型的高层特征多样性表示,输出所述样本数据对应的输出结果;
根据所述样本数据及所述输出结果计算所述当前集成模型的目标损失函数,调整所述初始集成模型的参数值,将所述样本数据输入调整后的当前集成模型继续训练,直至所述目标损失函数收敛,得到目标深度集成模型;或者,
获取待识别图像;
将所述待识别图像输入目标深度集成模型中;所述目标深度集成模型包括K个基模型,所述目标深度集成模型通过所述的基于特征多样性学习的深度集成模型训练方法训练得到;
输出所述待识别图像的识别结果。
在一种可选的方式中,所述各个子区间内神经元的激活值的统计特征为所述各个子区间内神经元的个数;所述根据各个子区间内神经元的激活值的统计特征确定各个基模型在各个子区间中的神经元的保留概率,根据所述保留概率调整各个所述神经元的激活值,得到所述当前集成模型更新后的高层特征多样性表示,包括:确定神经元个数最多的前K个子区间为优先级区间;根据目标神经元的激活值是否位于目标优先级区间确定所述目标神经元的保留概率;根据所述保留概率调整所述目标神经元的激活值;根据调整后的目标神经元的激活值,得到当前集成模型更新的高层特征多样性表示;所述目标神经元为目标基模型中的所述神经元;所述目标基模型为任意一个所述基模型,所述目标优先级区间为所述目标基模型对应的优先级区间。
在一种可选的方式中,所述根据目标神经元的激活值是否位于目标优先级区间调整所述目标神经元的保留概率,包括:通过保留概率调整公式调整所述目标神经元的保留概率;
所述保留概率调整公式为:
其中,表示第k个目标基模型中位于第m个子区间的目标神经元调整后的保留概率,tk表示第k个目标基模型所对应的第tk个目标优先级区间;m表示目标神经元的激活值所处的子区间;表示第k个基模型中位于第m个优先级区间的神经元个数;Ck为第k个基模型的所述神经元的总数;α为第一保留权重;β为第二保留权重;k∈K。
在一种可选的方式中,所述根据所述样本数据及所述输出结果计算所述当前集成模型的目标损失函数,调整所述当前集成模型的参数值,将所述样本数据输入调整后的当前集成模型继续训练,直至所述目标损失函数收敛,得到目标深度集成模型,包括:
根据所述样本数据及所述输出结果通过预设损失函数分别计算各个所述基模型的分类损失;
根据各个所述基模型的分类损失关于样本数据的梯度,通过梯度正则项损失公式计算梯度正则项损失;
所述梯度正则项损失公式为:
其中,为梯度正则项损失;i为第i个基模型的序号,j为第k个基模型的序号;gi为第i个所述基模型相对于所述样本数据的梯度;gj为第j个所述基模型相对于所述样本数据的梯度;
根据所述分类损失及所述梯度正则项损失确定所述目标损失函数;
根据所述目标损失函数调整所述当前集成模型的参数值,将所述样本数据输入调整后的当前集成模型继续训练,直至所述目标损失函数收敛,得到目标深度集成模型。
在一种可选的方式中,所述根据所述样本数据及所述输出结果计算所述当前集成模型的目标损失函数,调整所述当前集成模型的参数值,将所述样本数据输入调整后的当前集成模型继续训练,直至所述目标损失函数收敛,得到目标深度集成模型之后,所述方法进一步包括:
确定所述目标深度集成模型中各个基模型高层特征层的激活向量;
计算所有所述基模型高层特征层的激活向量的均值和方差,并通过辨别分数公式计算总辨别分数;
所述辨别分数公式为:
其中,为目标深度集成模型的总辨别分数;μi为第i个基模型高层特征层激活向量的均值,μj第j个基模型高层特征层激活向量的均值,σi第i个基模型高层特征层激活向量的方差,σj第j个基模型高层特征层激活向量的方差。
本发明实施例的计算机可读存储介质在电子设备上运行时的具体工作过程与上述方法实施例的具体方法步骤一致,此处不再赘述。
本发明实施例在集成模型的训练过程中,通过调整各个基模型的高层特征层中各个神经元对应的激活值,从而使得各个基模型的特征多样化,以提高集成模型的鲁棒性。
进一步地,通过结合损失梯度的差异化处理,使得能够在保证对正常样本的泛化能力的同时,显著提高集成模型的鲁棒性,能够有效处理复杂数据集及防御对抗样本攻击。
本发明实施例提供一种基于特征多样性的集成模型训练装置,用于执行上述基于特征多样性学习的深度集成模型训练方法。
本发明实施例提供一种图像识别装置,用于执行上述图像识别方法。
本发明实施例提供了一种计算机程序,所述计算机程序可被处理器调用使电子设备执行上述任意方法实施例中的基于特征多样性学习的深度集成模型训练方法或图像识别方法。
本发明实施例提供了一种计算机程序产品,计算机程序产品包括存储在计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令在计算机上运行时,使得所述计算机执行上述任意方法实施例中的基于特征多样性学习的深度集成模型训练方法。
在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。
本领域技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤,除有特殊说明外,不应理解为对执行顺序的限定。
Claims (9)
1.一种用于受到对抗图像样本攻击的基于图像高层特征多样性学习的图像分类深度集成模型训练方法,其特征在于,所述深度集成模型用于受到对抗图像样本攻击的图像分类,所述深度集成模型为集成的深度神经网络模型,所述方法包括:
获取样本数据,所述样本数据是带标签的正常样本图像数据,标签为用于正常样本图像分类的人工标注,所述正常样本为未遭遇对抗噪声攻击的原始图像样本;
将样本数据输入用于受到对抗图像样本攻击的图像分类的当前集成模型,得到每个基模型的图像高层特征向量;其中,所述当前集成模型包括K个所述基模型,K大于1;
根据所述K个基模型的图像高层特征向量中各个神经元的激活值,确定所述当前集成模型的激活强度区间;
将所述激活强度区间划分为M个子区间,根据各个子区间内激活值的统计特征确定各个基模型在各个子区间中的所述神经元的保留概率,根据所述保留概率调整各个所述神经元的激活值,得到所述当前集成模型更新的图像高层特征多样性表示;其中,M大于或等于K,所述多样性为各个基模型提取的图像高层分类特征的多样性;
根据所述当前集成模型更新的所述多样性表示,输出所述样本数据对应的输出结果,所述输出结果为对抗图像样本攻击下的图像分类的预测结果;
根据所述样本数据及所述输出结果计算所述当前集成模型的目标损失函数,调整所述当前集成模型的参数值,将所述样本数据输入调整后的当前集成模型继续训练,直至所述目标损失函数收敛,得到目标深度集成模型,其中所述目标损失函数包括集成模型的图像分类损失以及梯度正则项损失,所述目标损失函数在集成图像分类损失函数上添加了有助于防御生成图像对抗扰动的惩罚项,所述惩罚项为所述梯度正则项损失;
所述各个子区间内所述神经元的激活值的统计特征为所述各个子区间内所有基模型的所述神经元的汇总个数;所述根据各个子区间内所述神经元的激活值的统计特征确定各个基模型在各个子区间中的所述神经元的保留概率,根据所述保留概率调整各个所述神经元的激活值,得到所述当前集成模型更新后的所述多样性表示,包括:
确定神经元个数最多的前K个子区间为优先级区间;根据目标神经元的激活值是否位于目标优先级区间确定所述目标神经元的保留概率;
根据所述保留概率调整所述目标神经元的激活值;
根据调整后的目标神经元的激活值,得到当前集成模型更新的所述多样性表示;
所述目标神经元为目标基模型中的所述神经元;所述目标基模型为任意一个所述基模型,所述目标优先级区间为所述目标基模型对应的优先级区间。
2.根据权利要求1所述的方法,其特征在于,所述根据目标神经元的激活值是否位于目标优先级区间调整所述目标神经元的保留概率,包括:
通过保留概率调整公式调整所述目标神经元的保留概率;
所述保留概率调整公式为:
其中,表示第k个目标基模型中位于第m个子区间的目标神经元调整后的保留概率,tk表示第k个目标基模型所对应的目标优先级区间;m表示目标神经元的激活值所处的子区间;表示第k个基模型中位于第m个子区间的神经元个数;Ck为第k个基模型的所述神经元的总数;α为第一保留系数;β为第二保留系数。
3.根据权利要求1或2所述的方法,其特征在于,所述根据所述样本数据及所述输出结果计算所述当前集成模型的目标损失函数,调整所述当前集成模型的参数值,将所述样本数据输入调整后的当前集成模型继续训练,直至所述目标损失函数收敛,得到目标深度集成模型,包括:
根据所述样本数据及所述当前集成模型更新后的所述多样性表示的输出结果,得到各个所述基模型更新后的图像分类预测向量,通过预设损失函数分别计算各个所述基模型的分类损失及所述集成模型的图像分类损失;
根据各个所述基模型的分类损失关于样本数据的梯度,通过梯度正则项损失公式计算所述梯度正则项损失;
所述梯度正则项损失公式为:
其中,为梯度正则项损失;i为第i个基模型的序号,j为第j个基模型的序号;gi为第i个所述基模型相对于所述样本数据的梯度;gj为第j个所述基模型相对于所述样本数据的梯度;
根据所述图像分类损失及所述梯度正则项损失确定目标损失函数;
根据所述目标损失函数调整所述当前集成模型的参数值,将所述样本数据输入调整后的当前集成模型继续训练,直至所述目标损失函数收敛,得到目标深度集成模型。
4.根据权利要求3所述的方法,其特征在于,所述根据所述样本数据及所述输出结果计算所述当前集成模型的目标损失函数,调整所述当前集成模型的参数值,将所述样本数据输入调整后的当前集成模型继续训练,直至所述目标损失函数收敛,得到目标深度集成模型之后,所述方法进一步衡量所述深度集成模型的图像高层特征多样性,包括:
确定所述目标深度集成模型中各个基模型图像高层特征层的激活向量;
计算所有所述基模型图像高层特征层的激活向量的均值和方差,并通过辨别分数公式计算总辨别分数;
所述辨别分数公式为:
其中,为目标深度集成模型的总辨别分数;μi为第i个基模型图像高层特征层激活向量的均值,μj第j个基模型图像高层特征层激活向量的均值,σi第i个基模型图像高层特征层激活向量的方差,σj第j个基模型图像高层特征层激活向量的方差。
5.一种图像分类方法,其特征在于,所述方法包括以下步骤:
获取待分类图像;
将所述待分类图像输入目标深度集成模型中;所述目标深度集成模型用于受到对抗图像样本攻击的图像分类,所述目标深度集成模型为集成的深度神经网络模型,所述目标深度集成模型包括K个基模型,所述目标深度集成模型通过权利要求1-4任一项所述的用于受到对抗图像样本攻击的基于图像高层特征多样性学习的图像分类深度集成模型训练方法训练得到;
输出所述待分类图像的分类结果。
6.一种用于受到对抗图像样本攻击的基于图像高层特征多样性学习的图像分类深度集成模型训练装置,其特征在于,所述深度集成模型用于受到对抗图像样本攻击的图像分类,所述深度集成模型为集成的深度神经网络模型,所述装置包括:
第一获取模块,用于获取样本数据,所述样本数据是带标签的正常样本图像数据,标签为用于正常样本图像分类的人工标注,所述正常样本为未遭遇对抗噪声攻击的原始图像样本;
第一输入模块,用于将样本数据输入用于受到对抗图像样本攻击的图像分类的当前集成模型,得到每个基模型的图像高层特征向量;其中,所述当前集成模型包括K个所述基模型,K大于1;
确定模块,用于根据所述K个基模型的图像高层特征向量中各个神经元的激活值,确定所述当前集成模型的激活强度区间;
调整模块,用于将所述激活强度区间划分为M个子区间,根据各个子区间内激活值的统计特征确定各个基模型在各个子区间中的所述神经元的保留概率,根据所述保留概率调整各个所述神经元的激活值,得到所述当前集成模型更新的图像高层特征多样性表示;其中,M大于或等于K,所述多样性为各个基模型提取的图像高层分类特征的多样性;
第一输出模块,用于根据所述当前集成模型更新的所述多样性表示,输出所述样本数据对应的输出结果,所述输出结果为对抗图像样本攻击下的图像分类的预测结果;
损失函数计算模块,用于根据所述样本数据及所述输出结果计算所述当前集成模型的目标损失函数,调整所述当前集成模型的参数值,将所述样本数据输入调整后的当前集成模型继续训练,直至所述目标损失函数收敛,得到目标深度集成模型,其中所述目标损失函数包括集成模型的图像分类损失以及梯度正则项损失,所述目标损失函数在集成模型的图像分类损失函数上添加了有助于防御生成对抗扰动的惩罚项,所述惩罚项为所述梯度正则项损失;
所述调整模块还用于:
确定神经元个数最多的前K个子区间为优先级区间;根据目标神经元的激活值是否位于目标优先级区间确定所述目标神经元的保留概率;
根据所述保留概率调整所述目标神经元的激活值;
根据调整后的目标神经元的激活值,得到当前集成模型更新的所述多样性表示;
所述目标神经元为目标基模型中的所述神经元;所述目标基模型为任意一个所述基模型,所述目标优先级区间为所述目标基模型对应的优先级区间。
7.一种图像分类装置,其特征在于,所述装置包括:
第二获取模块,用于获取待分类图像;
第二输入模块,用于将所述待分类图像输入目标深度集成模型中;所述目标深度集成模型用于受到对抗图像样本攻击的图像分类,所述目标深度集成模型为集成的深度神经网络模型,所述目标深度集成模型包括K个基模型,所述目标深度集成模型通过权利要求1-4任一项所述的用于受到对抗图像样本攻击的基于图像高层特征多样性学习的图像分类深度集成模型训练方法或权利要求6所述的用于受到对抗图像样本攻击的基于图像高层特征多样性学习的图像分类深度集成模型训练装置训练得到;
第二输出模块,用于输出所述待分类图像的分类结果。
8.一种电子设备,其特征在于,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-4任意一项所述的用于受到对抗图像样本攻击的基于图像高层特征多样性学习的图像分类深度集成模型训练方法或权利要求5所述的图像分类方法的操作。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一可执行指令,所述可执行指令在电子设备上运行时,使得电子设备执行如权利要求1-4任意一项所述的用于受到对抗图像样本攻击的基于图像高层特征多样性学习的图像分类深度集成模型训练方法或权利要求5所述的图像分类方法的操作。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2021/077947 WO2022178775A1 (zh) | 2021-02-25 | 2021-02-25 | 基于特征多样性学习的深度集成模型训练方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113228062A CN113228062A (zh) | 2021-08-06 |
CN113228062B true CN113228062B (zh) | 2024-07-12 |
Family
ID=77081325
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180000322.4A Active CN113228062B (zh) | 2021-02-25 | 2021-02-25 | 基于特征多样性学习的深度集成模型训练方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20230394282A1 (zh) |
CN (1) | CN113228062B (zh) |
WO (1) | WO2022178775A1 (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117355842A (zh) * | 2021-04-15 | 2024-01-05 | 百可德罗德公司 | 用于保护深度图像分类器的系统和方法 |
CN113570453A (zh) * | 2021-09-24 | 2021-10-29 | 中国光大银行股份有限公司 | 一种异常行为识别方法及装置 |
CN117036869B (zh) * | 2023-10-08 | 2024-01-09 | 之江实验室 | 一种基于多样性和随机策略的模型训练方法及装置 |
CN117036870B (zh) * | 2023-10-09 | 2024-01-09 | 之江实验室 | 一种基于积分梯度多样性的模型训练和图像识别方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110046694A (zh) * | 2019-03-29 | 2019-07-23 | 清华大学 | 一种集成模型的自适应多样性增强训练方法及装置 |
CN110674937A (zh) * | 2019-07-04 | 2020-01-10 | 北京航空航天大学 | 一种提升深度学习模型鲁棒性的训练方法及系统 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107644251B (zh) * | 2016-07-22 | 2020-09-18 | 北京市商汤科技开发有限公司 | 对象分类方法、装置和系统 |
TWI612433B (zh) * | 2016-11-17 | 2018-01-21 | 財團法人工業技術研究院 | 整體式學習預測裝置與方法、以及非暫存電腦可讀的儲存媒介 |
US10896370B2 (en) * | 2017-03-03 | 2021-01-19 | International Business Machines Corporation | Triage of training data for acceleration of large-scale machine learning |
US20190197406A1 (en) * | 2017-12-22 | 2019-06-27 | Microsoft Technology Licensing, Llc | Neural entropy enhanced machine learning |
CN108734193A (zh) * | 2018-03-27 | 2018-11-02 | 合肥麟图信息科技有限公司 | 一种深度学习模型的训练方法及装置 |
US11544566B2 (en) * | 2019-06-03 | 2023-01-03 | International Business Machines Corporation | Deep learning model insights using provenance data |
CN111553399A (zh) * | 2020-04-21 | 2020-08-18 | 佳都新太科技股份有限公司 | 特征模型训练方法、装置、设备及存储介质 |
CN112395168A (zh) * | 2020-11-30 | 2021-02-23 | 中国科学院沈阳自动化研究所 | 一种基于Stacking的边缘侧业务行为识别方法 |
-
2021
- 2021-02-25 CN CN202180000322.4A patent/CN113228062B/zh active Active
- 2021-02-25 WO PCT/CN2021/077947 patent/WO2022178775A1/zh active Application Filing
-
2023
- 2023-08-24 US US18/454,795 patent/US20230394282A1/en active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110046694A (zh) * | 2019-03-29 | 2019-07-23 | 清华大学 | 一种集成模型的自适应多样性增强训练方法及装置 |
CN110674937A (zh) * | 2019-07-04 | 2020-01-10 | 北京航空航天大学 | 一种提升深度学习模型鲁棒性的训练方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
US20230394282A1 (en) | 2023-12-07 |
WO2022178775A1 (zh) | 2022-09-01 |
CN113228062A (zh) | 2021-08-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113228062B (zh) | 基于特征多样性学习的深度集成模型训练方法 | |
CN110633745B (zh) | 一种基于人工智能的图像分类训练方法、装置及存储介质 | |
Tian et al. | A dual neural network for object detection in UAV images | |
US10218716B2 (en) | Technologies for analyzing uniform resource locators | |
CN113221787B (zh) | 基于多元差异性融合的行人多目标跟踪方法 | |
JP2022141931A (ja) | 生体検出モデルのトレーニング方法及び装置、生体検出の方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラム | |
CN113469088B (zh) | 一种无源干扰场景下的sar图像舰船目标检测方法及系统 | |
CN113541985B (zh) | 物联网故障诊断方法、模型的训练方法及相关装置 | |
CN113392932A (zh) | 一种深度入侵检测的对抗攻击系统 | |
CN113592060A (zh) | 一种神经网络优化方法以及装置 | |
CN115563610B (zh) | 入侵检测模型的训练方法、识别方法和装置 | |
CN113109782B (zh) | 一种直接应用于雷达辐射源幅度序列的分类方法 | |
US20190378009A1 (en) | Method and electronic device for classifying an input | |
CN116894985B (zh) | 半监督图像分类方法及半监督图像分类系统 | |
CN111832580A (zh) | 结合少样本学习与目标属性特征的sar目标识别方法 | |
CN111404942A (zh) | 一种基于深度学习的垂直类恶意爬虫流量识别方法 | |
CN114330652A (zh) | 一种目标检测攻击方法和装置 | |
CN113822443A (zh) | 一种对抗攻击和生成对抗样本的方法 | |
CN118035448A (zh) | 基于伪标签去偏的引文网络中论文领域分类方法、装置及介质 | |
CN116305103A (zh) | 一种基于置信度差异的神经网络模型后门检测方法 | |
CN116580176A (zh) | 基于轻量化网络MobileViT的车载CAN总线异常检测方法 | |
CN113705489B (zh) | 基于先验区域知识指导的遥感影像细粒度飞机识别方法 | |
CN115713669A (zh) | 一种基于类间关系的图像分类方法、装置、存储介质及终端 | |
CN115545143A (zh) | 神经网络训练的方法与装置、数据处理方法与装置 | |
Hamed et al. | Plant Disease Detection Using Deep Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |