CN114724189A - 一种目标识别的对抗样本防御模型训练方法、系统及应用 - Google Patents

一种目标识别的对抗样本防御模型训练方法、系统及应用 Download PDF

Info

Publication number
CN114724189A
CN114724189A CN202210639854.9A CN202210639854A CN114724189A CN 114724189 A CN114724189 A CN 114724189A CN 202210639854 A CN202210639854 A CN 202210639854A CN 114724189 A CN114724189 A CN 114724189A
Authority
CN
China
Prior art keywords
sample
original image
confrontation
countermeasure
loss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210639854.9A
Other languages
English (en)
Other versions
CN114724189B (zh
Inventor
张家伟
王金伟
刘光杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN202210639854.9A priority Critical patent/CN114724189B/zh
Publication of CN114724189A publication Critical patent/CN114724189A/zh
Application granted granted Critical
Publication of CN114724189B publication Critical patent/CN114724189B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种目标识别的对抗样本防御模型训练方法、系统及应用,通过编码器、瓶颈层、解码器构建生成器和还原器,设计判别器,指定分类器;通过对生成器、还原器和判别器的训练,获得对抗样本防御模型,对预训练目标识别模型的输入样本进行预处理,去除输入样本中的干扰。本发明针对目标识别中的对抗样本生成和防御问题,构建了一种端到端的对抗样本生成及防御框架,并设计了一个判别器,对原始图像和抗样本之间的分布差异进行取证,提高了生成对抗样本的抗检测率与安全性,以强度更高的对抗攻击引导防御方法的性能提升,有利于降低现有对抗攻击对行人识别的攻击性,提高识别模型对恶意攻击的鲁棒性。

Description

一种目标识别的对抗样本防御模型训练方法、系统及应用
技术领域
本发明属于本发明属于图像处理领域,特别涉及一种目标识别的对抗样本防御模型训练方法、系统及应用。
背景技术
近年来,随着计算机硬件水平的提高及互联网大数据时代的到来,以深度神经网络为代表的相关机器学习技术取得卓越的进展,并已经在图像处理,目标识别,音频分析等领域取得了优异的效果。机器学习方法可以在训练阶段通过对数据的特征提取及映射来获得极高的任务精度。然而,最近的研究表明机器学习方法很容易受到人为修改的输入的影响。人们通过向原始图像上添加一类特殊的扰动来生成对抗样本。对抗样本与原始图像之间的差异难以被人眼所察觉,但是对抗样本能够以极大的可能性使得机器学习方法发生错误的判断。
在目前的行人识别过程中时常需要进行行人、人脸或物品等图像检测识别,当前的主流技术是基于yolo等一系列深度模型对目标进行定位及识别。但是深度模型对于对抗样本的鲁棒性差,目前存在着多种不同的对抗样本生成方法,极大的威胁了深度学习技术的可靠性,使得其在行人识别上的应用的到了极大的限制。因此,研究人员在进一步推进深度学习技术可解释性、安全性和鲁棒性的过程中,提出了多种对抗样本检测及防御方法,包括统计特征分析、噪声去除、对抗训练等。
根据已有算法,对抗样本的生成与防御属于两个独立的过程,这不仅导致了防御过程无法考虑到生成过程中相关信息导致的防御效果差,也导致了构建对抗样本的目的单一性。如何通过端到端方式,让对抗样本的生成与恢复成为相互协作的过程;如何通过构建强度更高的对抗样本引导防御方法的性能提升,从而提升目标模型对于恶意攻击的鲁棒性已成为一个亟待解决的问题。
发明内容
本发明提供了一种端到端具备良好对抗性、不可见性及可还原性的适用于目标识别的一种目标识别的对抗样本防御模型训练方法、系统及应用,以强度更高的对抗攻击引导防御方法的性能提升,从而提高目标识别模型对于恶意攻击的鲁棒性。
本发明采用以下技术方案:
一种适用于目标识别的对抗样本防御模型训练系统,用于获得对抗样本防御模型,作为预训练目标识别模型的前端预处理模型,对预训练目标识别模型的输入样本进行预处理,去除输入样本中的干扰,该系统包括对抗样本生成模块、对抗样本还原模块,目标场景的原始图像样本输入对抗样本生成模块,对抗样本生成模块基于目标场景中的目标对象生成原始图像样本对应的对抗样本;对抗样本还原模块基于对抗样本生成模块生成的对抗样本,以该对抗样本对应的原始图像样本为基准对该对抗样本进行还原,获得还原样本;结合预训练目标识别模型,对对抗样本生成模块、对抗样本还原模块进行训练,获得最优对抗样本防御模型训练系统;进而将最优对抗样本防御模型训练系统中的对抗样本还原模块作为对抗样本防御模型对预训练目标识别模型的输入样本进行预处理,去除输入样本中的干扰。
作为本发明的一种优选技术方案,对抗样本生成模块包括生成器、判别器、分类器,对抗样本还原模块包括还原器,生成器分别与还原器、判别器、分类器连接,目标场景的原始图像样本输入生成器,生成器基于目标场景中的目标对象输出该原始图像样本对应的对抗样本,并将该对抗样本分别传输给还原器、判别器、分类器;判别器基于原始图像样本、以及该原始图像对应的对抗样本分别进行样本类别的判别;分类器基于对抗样本对目标对象进行分类识别;还原器基于对抗样本以其对应的原始图像样本为基准对对抗样本进行还原,获得还原样本。
作为本发明的一种优选技术方案,所述生成器与所述还原器结构相同,均包括编码器、瓶颈层、解码器、截断模块,所述生成器和还原器的输入数据顺序经编码器、瓶颈层、解码器输出对应的输出数据,编码器对输入数据进行下采样,获得输入数据的预设语义特征;瓶颈层对编码器输出的语义特征进行特征映射聚合,进而获得对于输入数据的预设扰动;解码器对瓶颈层输出的扰动进行上采样,获得与输入数据尺寸大小相同的扰动;基于输入数据与解码器输出的扰动,通过截断模块获得对应的输出数据。
作为本发明的一种优选技术方案,所述对抗样本生成模块的分类器采用预训练目标识别模型。
一种适用于目标识别的对抗样本防御模型的训练方法,应用于所述对抗样本防御模型训练系统,针对目标场景的原始图像样本,迭代执行以下步骤,基于判别器、生成器、还原器分别对应的损失,训练判别器、生成器、以及还原器,获得最优对抗样本防御模型训练系统,进而获得对抗样本防御模型,即最优对抗样本防御系统中的还原器:
步骤A:目标场景的原始图像样本输入生成器,基于目标场景中的目标对象,生成器输出该原始图像样本对应的对抗样本;
步骤B:原始图像样本对应的对抗样本、以及该对抗样本对应的原始图像分别输入判别器,分别对原始图像样本和对抗样本进行样本类别的判别,获得原始图像样本判别损失、以及对抗样本判别损失,进而获得判别损失;
步骤C:原始图像样本对应的对抗样本输入对抗样本生成模块的分类器,对对抗样本中目标对象进行分类识别,进而结合原始图像样本中目标对象的分类,获得对抗损失;
步骤D:基于对抗样本判别损失、对抗损失,获得生成损失;
步骤E:原始图像样本对应的对抗样本输入还原器,对对抗样本进行还原,获得对抗样本对应的还原样本,进而结合原始图像样本,获得还原损失。
作为本发明的一种优选技术方案,所述判别器、生成器、以及还原器的训练利用反向传播及梯度下降技术,基于判别损失、生成损失、以及还原损失,优化判别器、生成器、还原器中的参数。
作为本发明的一种优选技术方案,所述步骤A中生成原始图像样本对应的对抗样本的具体过程如下:
步骤A1:将原始图像样本输入生成器,通过编码器进行下采样,提取原始图像样本中目标对象的语义特征;
步骤A2:基于原始图像样本中目标对象的语义特征,经瓶颈层进行特征映射聚合,进而获得对原始图像样本中于目标对象语义特征的扰动;
步骤A3:基于目标对象语义特征的扰动,经解码器进行上采样,将目标对象语义特征的扰动放大至原始图像样本的尺寸,获得放大的扰动;
步骤A4:将放大的扰动与原始图像样本叠加,获得初始对抗样本;针对初始对抗样本经截断模块基于预设像素值进行截断,进而获得对抗样本。
作为本发明的一种优选技术方案,所述步骤E中生成对抗样本对应的还原样本的具体过程如下:
步骤E1:将对抗样本输入还原器,通过编码器进行下采样,提取对抗样本中未受扰动的语义特征;
步骤E2:基于编码器提取的语义特征,经瓶颈层进行特征映射聚合,拟合生成器中的特征扰动分布,进而获得还原扰动;
步骤E3:基于还原扰动,经解码器进行上采样,将还原扰动放大至原始图像的尺寸,获得放大的还原扰动;
步骤E4:将放大的还原扰动与对抗样本叠加,获得初始还原样本;针对初始还原样本经截断模块基于预设像素值进行截断,生成还原样本。
作为本发明的一种优选技术方案,所述判别损失计算表达式如下所示:
Figure DEST_PATH_IMAGE002
其中,
Figure DEST_PATH_IMAGE004
式中,
Figure DEST_PATH_IMAGE006
表示判别损失,
Figure DEST_PATH_IMAGE008
表示原始图像样本判别损失,
Figure DEST_PATH_IMAGE010
表示抗样本判别损失,
Figure DEST_PATH_IMAGE012
表示判别器基于原始图像输出的预测标签,
Figure DEST_PATH_IMAGE014
判别器基于对抗样本输出的预测标签;
所述生成损失计算表达式如下所示:
Figure DEST_PATH_IMAGE016
其中,
Figure DEST_PATH_IMAGE018
式中,
Figure DEST_PATH_IMAGE020
Figure DEST_PATH_IMAGE022
为预设常数因子,
Figure DEST_PATH_IMAGE024
表示生成损失,
Figure DEST_PATH_IMAGE026
表示对抗损失,
Figure DEST_PATH_IMAGE028
表示添加到原始图像样本上的对抗扰动,
Figure DEST_PATH_IMAGE030
表示对抗样本,
Figure DEST_PATH_IMAGE032
表示原始图像样本,
Figure DEST_PATH_IMAGE034
表示损失函数平衡参数,
Figure DEST_PATH_IMAGE036
表示对抗样本的分类结果,
Figure DEST_PATH_IMAGE038
表示除原始图像样本标签外的其他标签,
Figure DEST_PATH_IMAGE040
表示原始图像样本的标签,
Figure DEST_PATH_IMAGE042
表示对抗样本置信度控制参数,
Figure DEST_PATH_IMAGE044
表示神经网络全连接层的输出;
所述还原损失计算表达式如下所示:
Figure DEST_PATH_IMAGE046
式中,
Figure DEST_PATH_IMAGE048
表示还原损失,
Figure 927DEST_PATH_IMAGE032
为原始图像样本,
Figure DEST_PATH_IMAGE050
为还原器输出的还原样本,
Figure DEST_PATH_IMAGE052
表示生成器的输出,
Figure DEST_PATH_IMAGE054
表示还原器的输出,
Figure DEST_PATH_IMAGE056
表示针对还原的样本像素值截断操作。
一种适用于目标识别的对抗样本防御模型的应用,针对最优对抗样本防御模型训练系统中的对抗样本防御模型,基于预训练目标识别模型的输入样本,执行以下步骤,对输入样本进行目标识别;
步骤1:获取最优对抗样本防御模型训练系统中的对抗样本防御模型;
步骤2:以预训练目标识别模型的输入样本为输入,利用对抗样本防御模型对输入样本进行预处理,去除样本干扰,更新输入样本;
步骤3:将输入样本输入预训练目标识别模型进行目标识别。
本发明的有益效果是:本发明提供了一种目标识别的对抗样本防御模型训练方法、系统及应用,本发明构建对抗样本及还原样本采用了模块化与端到端融合的方式,不仅提升网络的性能,而且不同网络模块功能的可解释性更强;本设计组建了对抗样本的生成器,使得所生成的对抗样本的分布更接近原始图像样本分布,从而让对抗样本更难以被检测算法和人眼所察觉;本设计通过编码器、瓶颈层和解码器构建生成器与还原器,两者都通过提取特征的方式进对抗扰动进行建模与模拟,可以更高效的生成和还原对抗扰动,极大的减少了对抗样本的生成时间。同时,在保证对抗样本生成成功率的前提下,极大的提高了对抗样本的还原精度。本发明通过反向传播及梯度下降的方式,在训练阶段,动态同步训练判别器、生成器和还原器,使得整个模型整体优化目标统一,加速了损失的收敛;并且模型训练完成后,在生成与还原样本的过程中不再需要待攻击的分类器的参与,可进行黑盒攻击与还原,具有更高的现实应用价值。
附图说明
图1为本发明实施例的流程图;
图2为本发明实施例的系统网络架构图;
图3为本发明实施例编码器的网络结构示意图;
图4为本发明实施例瓶颈层的网络结构示意图;
图5为本发明实施例解码器的网络结构示意图;
图6为本发明实施例判别器的网络结构示意图;
图7a为本发明实施例针对一个目标对象生成的对抗样本及还原样本的示意图;
图7b为本发明实施例针对另一个目标对象生成的对抗样本及还原样本的示意图;
图8a为本发明实施例生成的对抗样本在DenseNet121上取得的效果;
图8b为本发明实施例生成的还原样本在DenseNet121上取得的效果;
图9为本发明实施例所训练出的还原器在MNIST和CALTECH256数据集上对于原始样本的还原效果。
具体实施方式
下面结合附图对本发明进行进一步说明。下面的实施例可使本专业技术人员更全面地理解本发明,但不以任何方式限制本发明。
本设计提供一种端到端具备良好对抗性、不可见性及可还原性的适用于目标识别的一种目标识别的对抗样本防御模型训练方法及系统,本设计具体实施可应用于针对目标物体或行人的识别、分类等,去除输入样本的扰动干扰。如图7a-7b所示,为本发明实施例分别针对两个不同目标对象生成的对抗样本及还原样本的示意图,从图中可以看出,本技术方案所得到的对抗样本防御模型具有很好的去扰动效果。本方案设计以强度更高的对抗攻击引导防御方法的性能提升,从而提高目标识别模型对于恶意攻击的鲁棒性。
一种适用于目标识别的对抗样本防御模型训练系统,用于获得对抗样本防御模型,作为预训练目标识别模型的前端预处理模型,对预训练目标识别模型的输入样本进行预处理,去除输入样本中的干扰,如图2所示,该系统包括对抗样本生成模块、对抗样本还原模块,目标场景的原始图像样本输入对抗样本生成模块,对抗样本生成模块基于目标场景中的目标对象生成原始图像样本对应的对抗样本;对抗样本还原模块基于对抗样本生成模块生成的对抗样本,以该对抗样本对应的原始图像样本为基准对该对抗样本进行还原,获得还原样本;结合预训练目标识别模型,对对抗样本生成模块、对抗样本还原模块进行训练,获得最优对抗样本防御模型训练系统;进而将最优对抗样本防御模型训练系统中的对抗样本还原模块作为对抗样本防御模型对预训练目标识别模型的输入样本进行预处理,去除输入样本中的干扰。
本方案设计过程为通过编码器、瓶颈层和解码器构建对抗扰动生成器和还原器,设计判别器,指定分类器;进一步的,将原始图像输入对抗扰动生成器,生成对抗样本;进一步的额,将原始图像与对抗样本分别输入判别器、分类器和还原器,以计算判别损失、对抗损失和还原损失;进一步的,通过在数据集上的对生成器、还原器和判别器的训练,调整参数,优化损失。
如图2所示为本发明实施例的系统网络架构图,针对对抗样本防御模型训练系统中对抗样本生成模块包括生成器、判别器、分类器,对抗样本还原模块包括还原器,生成器分别与还原器、判别器、分类器连接,目标场景的原始图像样本输入生成器,生成器基于目标场景中的目标对象输出该原始图像样本对应的对抗样本,并将该对抗样本分别传输给还原器、判别器、分类器;判别器基于原始图像样本、以及该原始图像对应的对抗样本分别进行样本类别的判别;分类器基于对抗样本对目标对象进行分类识别;还原器基于对抗样本以其对应的原始图像样本为基准对对抗样本进行还原,获得还原样本。
所述生成器与所述还原器结构相同,均包括编码器、瓶颈层、解码器、截断模块,所述生成器和还原器的输入数据顺序经编码器、瓶颈层、解码器输出对应的输出数据,编码器对输入数据进行下采样,获得输入数据的预设语义特征;瓶颈层对编码器输出的语义特征进行特征映射聚合,进而获得对于输入数据的预设扰动;解码器对瓶颈层输出的扰动进行上采样,获得与输入数据尺寸大小相同的扰动;基于输入数据与解码器输出的扰动,通过截断模块获得对应的输出数据。所述对抗样本生成模块的分类器采用预训练目标识别模型对应的预训练分类器。
在本实施例中,如图3所示,通过3层卷积、归一、激活,构建编码器;如图4所示,通过4层残差,构建瓶颈层;如图5所示通过3层反卷积、归一、激活,构建解码器;进而通过编码器、瓶颈层和解码器的结构设计生成器和还原器;如图6所示,通过4层卷积、归一、激活,构建判别器;选择预训练目标识别模型对应的预训练分类器作为待攻击的指定分类器,即对抗样本生成模块的分类器。
编码器采用一个输入与一个输出的卷积神经网络,该网络由三个3*3的卷积层组成,每次卷积以后通过IN层对卷积提取出的特征进行归一化,将归一化后的特征图通过Relu激活函数后送入下一个卷积层。为了维持特征数及计算量之间的平衡,我们规定第一次卷积步长为1,当卷积窗口滑动时,相邻感受野之内会存在一部分重复的区域,提取到的特征更加丰富,避免损失信息;我们规定第二、三次的卷积步长为2,这时相邻感受野之内不存在重复区域,在一定程度上减少了特征数,从而降低了计算量,同时在一定程度上起到了池化层的作用,也在一定的程度上减少了模型出现过拟合现象的可能性;瓶颈层可以对编码器提取出的特征进行映射聚合,将高维特征图、特征向量降维到适宜的低维空间中,形成对原始输入的低维表达,有利于促进生成特征扰动时的损失收敛;通过3层反卷积、归一、激活,构建解码器,在卷积过后,每一张特征图的尺寸都小于原始图像尺寸,而生成的扰动需要保持与原始图像大小一致,因此我们采用了反卷积操作。反卷积是一种上采样操作,可以实现图像由小分辨率到大分辨率上的映射。解码器中反卷积的参数设置与编码器中卷积参数设置一一对应,从而使得小尺寸的特征扰动可以扩张至原始图像的尺寸。为了不同像素点的对抗扰动具有符号差异性,Decoder最后一层选用Tanh进行激活,保证了生成对抗扰动的对抗性。
本发明实施例所设计的判别器属于一个二分类器,用来完成区分输入样本是原始图像还是对抗样本的二分类任务,通过设计该还原器可以让所生成的对抗样本与原始图像再数据分布上更加接近,使对抗样本不会有明显区别于原始图像的特征,从而提高所生成的对抗样本的抗检测性与安全性。
本发明选择预训练目标识别模型作为待攻击的指定分类器,如图8a-8b所示,实施例中选择DenseNet121预训练模型作为指定的待攻击分类器,该模型再原始图像上的分类精度为83.42%。利用本发明所生成的对抗样本对其进行攻击后,其分类精度下降至0.01%左右,可见本发明达到了很好的对抗攻击效果。再利用本发明设计的还原器对对抗样本进行还原后,该模型的分类精度基本恢复至83%左右,可见本发明所设计的还原器可以很好的将对抗样本还原至原始图像。
一种适用于目标识别的对抗样本防御模型的训练方法,应用于所述对抗样本防御模型训练系统,如图1所示,针对目标场景的原始图像样本,迭代执行以下步骤,基于判别器、生成器、还原器分别对应的损失,训练判别器、生成器、以及还原器,获得最优对抗样本防御模型训练系统,进而获得对抗样本防御模型,即最优对抗样本防御系统中的还原器。
步骤A:目标场景的原始图像样本输入生成器,基于目标场景中的目标对象,生成器输出该原始图像样本对应的对抗样本。
步骤B:原始图像样本对应的对抗样本、以及该对抗样本对应的原始图像分别输入判别器,分别对原始图像样本和对抗样本进行样本类别的判别,获得原始图像样本判别损失、以及对抗样本判别损失,进而获得判别损失;
原始图像和对抗样本输入构建的判别器中,分别计算原始图像判别损失
Figure DEST_PATH_IMAGE058
与对抗样本判别损失
Figure DEST_PATH_IMAGE060
,并组成判别损失
Figure DEST_PATH_IMAGE062
:当规定原始图像标签为1,对抗样本标签为0时,原始图像判别损失通过原始图像判别结果与原始标签之间的均方误差作为损失,可以表述为
Figure DEST_PATH_IMAGE064
,其中
Figure DEST_PATH_IMAGE066
为判别器输入原始图像后,判别器给出的预测标签。对抗样本判别损失可通过对抗样本判别结果与对抗样本标签之间的均方误差作为损失,可以表述为
Figure DEST_PATH_IMAGE068
,其中
Figure DEST_PATH_IMAGE070
判别器输入对抗样本后,判别器给出的预测标签。判别器总的损失由上述两个损失组成;
所述判别损失计算表达式如下所示:
Figure DEST_PATH_IMAGE072
其中,
Figure DEST_PATH_IMAGE074
式中,
Figure DEST_PATH_IMAGE076
表示判别损失,
Figure DEST_PATH_IMAGE078
表示原始图像样本判别损失,
Figure DEST_PATH_IMAGE080
表示抗样本判别损失,
Figure DEST_PATH_IMAGE082
表示判别器基于原始图像输出的预测标签,
Figure DEST_PATH_IMAGE084
判别器基于对抗样本输出的预测标签。
步骤C:原始图像样本对应的对抗样本输入对抗样本生成模块的分类器,对对抗样本中目标对象进行分类识别,进而结合原始图像样本中目标对象的分类,获得对抗损失;
将对抗样本输入指定的分类器中,计算对抗损失
Figure DEST_PATH_IMAGE086
: 对抗损失表达了对抗样本输入目标分类器后的预测结果与其正式标签之间的差异。本发明采用C&W损失,在控制扰动强度的前提下,可以生成更高置信度的对抗样本。C&W损失可表述为:
Figure DEST_PATH_IMAGE088
其中,
Figure DEST_PATH_IMAGE090
控制置信度,
Figure DEST_PATH_IMAGE092
是第
Figure DEST_PATH_IMAGE094
类的logit,即神经网络全连接层的输出。
步骤D:基于对抗样本判别损失、对抗损失,获得生成损失;
将对抗样本判别损失
Figure DEST_PATH_IMAGE096
与对抗损失
Figure DEST_PATH_IMAGE098
加权求和,计算生成损失
Figure DEST_PATH_IMAGE100
:生成器的总体损失为
Figure DEST_PATH_IMAGE102
,其中,
Figure DEST_PATH_IMAGE104
Figure DEST_PATH_IMAGE106
为常数因子,作为权重调整
Figure 15937DEST_PATH_IMAGE096
Figure 326833DEST_PATH_IMAGE098
数量级上的差异,使生成损失
Figure DEST_PATH_IMAGE108
达到平衡。
所述生成损失计算表达式如下所示:
Figure DEST_PATH_IMAGE110
其中,
Figure DEST_PATH_IMAGE112
式中,
Figure 535092DEST_PATH_IMAGE020
Figure 552726DEST_PATH_IMAGE022
为预设常数因子,
Figure 781713DEST_PATH_IMAGE024
表示生成损失,
Figure 314326DEST_PATH_IMAGE026
表示对抗损失,
Figure 716488DEST_PATH_IMAGE028
表示添加到原始图像样本上的对抗扰动,
Figure 526313DEST_PATH_IMAGE030
表示对抗样本,
Figure 50835DEST_PATH_IMAGE032
表示原始图像样本,
Figure 984989DEST_PATH_IMAGE034
表示损失函数平衡参数,
Figure 862946DEST_PATH_IMAGE036
表示对抗样本的分类结果,
Figure 589594DEST_PATH_IMAGE038
表示除原始图像样本标签外的其他标签,
Figure 285017DEST_PATH_IMAGE040
表示原始图像样本的标签,
Figure 933168DEST_PATH_IMAGE042
表示对抗样本置信度控制参数,
Figure 411553DEST_PATH_IMAGE044
表示神经网络全连接层的输出;
Figure DEST_PATH_IMAGE114
Figure DEST_PATH_IMAGE116
分别表示
Figure DEST_PATH_IMAGE118
Figure DEST_PATH_IMAGE120
函数。
步骤E:原始图像样本对应的对抗样本输入还原器,对对抗样本进行还原,获得对抗样本对应的还原样本,进而结合原始图像样本,获得还原损失。
将还原样本与原始图像做差值,计算还原损失
Figure DEST_PATH_IMAGE122
:还原损失
Figure 540178DEST_PATH_IMAGE122
衡量图像之间差异的损失通过像素级均方误差来衡量,
所述还原损失计算表达式如下所示:
Figure DEST_PATH_IMAGE124
式中,
Figure 344185DEST_PATH_IMAGE048
表示还原损失,
Figure 479632DEST_PATH_IMAGE032
为原始图像样本,
Figure 496129DEST_PATH_IMAGE050
为还原器输出的还原样本,
Figure 197369DEST_PATH_IMAGE052
表示生成器的输出,
Figure 234595DEST_PATH_IMAGE054
表示还原器的输出,
Figure 795021DEST_PATH_IMAGE056
表示针对还原的样本像素值截断操作。
所述判别器、生成器、以及还原器的训练利用反向传播及梯度下降技术,基于判别损失、生成损失、以及还原损失,优化判别器、生成器、还原器中的参数。
如图7a-7b所示,为本发明实施例分别针对两个不同目标对象生成的对抗样本及还原样本的示意图。所述生成器生成原始图像样本对应的对抗样本的具体过程如下:
步骤A1:将原始图像样本输入生成器,通过编码器进行下采样,提取原始图像样本中目标对象的语义特征;语义特征以矩阵数据的方式表征的;
步骤A2:基于原始图像样本中目标对象的语义特征,经瓶颈层进行特征映射聚合,进而获得目标对象语义特征的扰动;特征的扰动也是矩阵数据,可以是噪声或图像像素值的修改;
步骤A3:基于目标对象语义特征的扰动,经解码器进行上采样,将目标对象语义特征的扰动放大至原始图像样本的尺寸,获得放大的扰动;
步骤A4:将放大的扰动与原始图像样本叠加,获得初始对抗样本;针对初始对抗样本经截断模块基于预设像素值进行截断,进而获得对抗样本。因为图像像素值范围是0-255,越界的值是无法转变为色彩,因此需要截断超出预设像素值的像素值,可以更好的保障扰动样本的视觉质量。
所述还原器生成对抗样本对应的还原样本的具体过程如下:
步骤E1:将对抗样本输入还原器,通过编码器进行下采样,提取对抗样本中未受扰动的语义特征,即鲁棒分类特征;
步骤E2:基于编码器提取的语义特征,经瓶颈层进行特征映射聚合,拟合生成器中的特征扰动分布,进而获得还原扰动,即获得针对生成器中扰动对应的还原扰动;
步骤E3:基于还原扰动,经解码器进行上采样,将还原扰动放大至原始图像的尺寸,获得放大的还原扰动;
步骤E4:将放大的还原扰动与对抗样本叠加,获得初始还原样本;针对初始还原样本经截断模块基于预设像素值进行截断,生成还原样本。
一种适用于目标识别的对抗样本防御模型的应用,针对最优对抗样本防御模型训练系统中的对抗样本防御模型,基于预训练目标识别模型的输入样本,执行以下步骤,对输入样本进行目标识别;
步骤1:获取最优对抗样本防御模型训练系统中的对抗样本防御模型;
步骤2:以预训练目标识别模型的输入样本为输入,利用对抗样本防御模型对输入样本进行预处理,去除样本干扰,更新输入样本;
步骤3:将输入样本输入预训练目标识别模型进行目标识别。
如图9展示了在MNIST和CALTECH256数据集上所训练出的还原器对于原始样本的还原效果。原始精度展示了目标分类器在MNIST和CALTECH256分别为98.91%和83.42%,而经过还原器处理后的原始样本分类精度并没有发生较大的损失,依旧处于98.89%和83.00%。
本发明设计了一种目标识别的对抗样本防御模型训练方法、系统及应用,本发明构建对抗样本及还原样本采用了模块化与端到端融合的方式,不仅提升网络的性能,而且不同网络模块功能的可解释性更强;本设计组建了对抗样本的生成器,使得所生成的对抗样本的分布更接近原始图像样本分布,从而让对抗样本更难以被检测算法和人眼所察觉;本设计通过编码器、瓶颈层和解码器构建生成器与还原器,两者都通过提取特征的方式进对抗扰动进行建模与模拟,可以更高效的生成和还原对抗扰动,极大的减少了对抗样本的生成时间。同时,在保证对抗样本生成成功率的前提下,极大的提高了对抗样本的还原精度。本发明通过反向传播及梯度下降的方式,在训练阶段,动态同步训练判别器、生成器和还原器,使得整个模型整体优化目标统一,加速了损失的收敛;并且模型训练完成后,在生成与还原样本的过程中不再需要待攻击的分类器的参与,可进行黑盒攻击与还原,具有更高的现实应用价值。
虽然本发明已以较佳实施例揭露如上,然其并非用以限定本发明。本发明所属技术领域中具有通常知识者,在不脱离本发明的精神和范围内,当可作各种的更动与润饰。
以上仅为本发明的较佳实施例,但并不限制本发明的专利范围,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本发明说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本发明专利保护范围之内。

Claims (10)

1.一种适用于目标识别的对抗样本防御模型训练系统,用于获得对抗样本防御模型,作为预训练目标识别模型的前端预处理模型,对预训练目标识别模型的输入样本进行预处理,去除输入样本中的干扰,其特征在于:包括对抗样本生成模块、对抗样本还原模块,目标场景的原始图像样本输入对抗样本生成模块,对抗样本生成模块基于目标场景中的目标对象生成原始图像样本对应的对抗样本;对抗样本还原模块基于对抗样本生成模块生成的对抗样本,以该对抗样本对应的原始图像样本为基准对该对抗样本进行还原,获得还原样本;结合预训练目标识别模型,对对抗样本生成模块、对抗样本还原模块进行训练,获得最优对抗样本防御模型训练系统;进而将最优对抗样本防御模型训练系统中的对抗样本还原模块作为对抗样本防御模型对预训练目标识别模型的输入样本进行预处理,去除输入样本中的干扰。
2.根据权利要求1所述一种适用于目标识别的对抗样本防御模型训练系统,其特征在于:对抗样本生成模块包括生成器、判别器、分类器,对抗样本还原模块包括还原器,生成器分别与还原器、判别器、分类器连接,目标场景的原始图像样本输入生成器,生成器基于目标场景中的目标对象输出该原始图像样本对应的对抗样本,并将该对抗样本分别传输给还原器、判别器、分类器;判别器基于原始图像样本、以及该原始图像对应的对抗样本分别进行样本类别的判别;分类器基于对抗样本对目标对象进行分类识别;还原器基于对抗样本以其对应的原始图像样本为基准对对抗样本进行还原,获得还原样本。
3.根据权利要求2所述一种适用于目标识别的对抗样本防御模型训练系统,其特征在于:所述生成器与所述还原器结构相同,均包括编码器、瓶颈层、解码器、截断模块,所述生成器和还原器的输入数据顺序经编码器、瓶颈层、解码器输出对应的输出数据,编码器对输入数据进行下采样,获得输入数据的预设语义特征;瓶颈层对编码器输出的语义特征进行特征映射聚合,进而获得对于输入数据的预设扰动;解码器对瓶颈层输出的扰动进行上采样,获得与输入数据尺寸大小相同的扰动;基于输入数据与解码器输出的扰动,通过截断模块获得对应的输出数据。
4.根据权利要求2所述一种适用于目标识别的对抗样本防御模型训练系统,其特征在于:所述对抗样本生成模块的分类器采用预训练目标识别模型。
5.一种适用于目标识别的对抗样本防御模型的训练方法,应用于权利要求4所述对抗样本防御模型训练系统,其特征在于:针对目标场景的原始图像样本,迭代执行以下步骤,基于判别器、生成器、还原器分别对应的损失,训练判别器、生成器、以及还原器,获得最优对抗样本防御模型训练系统,进而获得对抗样本防御模型,即最优对抗样本防御系统中的还原器:
步骤A:目标场景的原始图像样本输入生成器,基于目标场景中的目标对象,生成器输出该原始图像样本对应的对抗样本;
步骤B:原始图像样本对应的对抗样本、以及该对抗样本对应的原始图像分别输入判别器,分别对原始图像样本和对抗样本进行样本类别的判别,获得原始图像样本判别损失、以及对抗样本判别损失,进而获得判别损失;
步骤C:原始图像样本对应的对抗样本输入对抗样本生成模块的分类器,对对抗样本中目标对象进行分类识别,进而结合原始图像样本中目标对象的分类,获得对抗损失;
步骤D:基于对抗样本判别损失、对抗损失,获得生成损失;
步骤E:原始图像样本对应的对抗样本输入还原器,对对抗样本进行还原,获得对抗样本对应的还原样本,进而结合原始图像样本,获得还原损失。
6.根据权利要求5所述一种适用于目标识别的对抗样本防御模型的训练方法,其特征在于:所述判别器、生成器、以及还原器的训练利用反向传播及梯度下降技术,基于判别损失、生成损失、以及还原损失,优化判别器、生成器、还原器中的参数。
7.根据权利要求5所述一种适用于目标识别的对抗样本防御模型的训练方法,其特征在于:所述步骤A中生成原始图像样本对应的对抗样本的具体过程如下:
步骤A1:将原始图像样本输入生成器,通过编码器进行下采样,提取原始图像样本中目标对象的语义特征;
步骤A2:基于原始图像样本中目标对象的语义特征,经瓶颈层进行特征映射聚合,进而获得对原始图像样本中于目标对象语义特征的扰动;
步骤A3:基于目标对象语义特征的扰动,经解码器进行上采样,将目标对象语义特征的扰动放大至原始图像样本的尺寸,获得放大的扰动;
步骤A4:将放大的扰动与原始图像样本叠加,获得初始对抗样本;针对初始对抗样本经截断模块基于预设像素值进行截断,进而获得对抗样本。
8.根据权利要求7所述一种适用于目标识别的对抗样本防御模型的训练方法,其特征在于:所述步骤E中生成对抗样本对应的还原样本的具体过程如下:
步骤E1:将对抗样本输入还原器,通过编码器进行下采样,提取对抗样本中未受扰动的语义特征;
步骤E2:基于编码器提取的语义特征,经瓶颈层进行特征映射聚合,拟合生成器中的特征扰动分布,进而获得还原扰动;
步骤E3:基于还原扰动,经解码器进行上采样,将还原扰动放大至原始图像的尺寸,获得放大的还原扰动;
步骤E4:将放大的还原扰动与对抗样本叠加,获得初始还原样本;针对初始还原样本经截断模块基于预设像素值进行截断,生成还原样本。
9.根据权利要求5所述一种适用于目标识别的对抗样本防御模型的训练方法,其特征在于:所述判别损失计算表达式如下所示:
Figure DEST_PATH_IMAGE001
其中,
Figure 390316DEST_PATH_IMAGE002
式中,
Figure DEST_PATH_IMAGE003
表示判别损失,
Figure 900932DEST_PATH_IMAGE004
表示原始图像样本判别损失,
Figure DEST_PATH_IMAGE005
表示抗样本判别 损失,
Figure 883931DEST_PATH_IMAGE006
表示判别器基于原始图像输出的预测标签,
Figure DEST_PATH_IMAGE007
判别器基于对抗样本输出的预测标 签;
所述生成损失计算表达式如下所示:
Figure 607037DEST_PATH_IMAGE008
其中,
Figure DEST_PATH_IMAGE009
式中,
Figure 749305DEST_PATH_IMAGE010
Figure DEST_PATH_IMAGE011
为预设常数因子,
Figure 899664DEST_PATH_IMAGE012
表示生成损失,
Figure DEST_PATH_IMAGE013
表示对抗损失,
Figure 369959DEST_PATH_IMAGE014
表示添加 到原始图像样本上的对抗扰动,
Figure DEST_PATH_IMAGE015
表示对抗样本,
Figure 896756DEST_PATH_IMAGE016
表示原始图像样本,
Figure DEST_PATH_IMAGE017
表示损失函数平 衡参数,
Figure 159110DEST_PATH_IMAGE018
表示对抗样本的分类结果,
Figure DEST_PATH_IMAGE019
表示除原始图像样本标签外的其他标签,
Figure 355736DEST_PATH_IMAGE020
表示 原始图像样本的标签,
Figure DEST_PATH_IMAGE021
表示对抗样本置信度控制参数,
Figure 437961DEST_PATH_IMAGE022
表示神经网络全连接层的输 出;
所述还原损失计算表达式如下所示:
Figure DEST_PATH_IMAGE023
式中,
Figure 502869DEST_PATH_IMAGE024
表示还原损失,
Figure 760675DEST_PATH_IMAGE016
为原始图像样本,
Figure DEST_PATH_IMAGE025
为还原器输出的还原样本,
Figure 518416DEST_PATH_IMAGE026
表示生 成器的输出,
Figure DEST_PATH_IMAGE027
表示还原器的输出,
Figure 87937DEST_PATH_IMAGE028
表示针对还原的样本像素值截断操作。
10.一种适用于目标识别的对抗样本防御模型的应用,其特征在于:针对最优对抗样本防御模型训练系统中的对抗样本防御模型,基于预训练目标识别模型的输入样本,执行以下步骤,对输入样本进行目标识别;
步骤1:获取最优对抗样本防御模型训练系统中的对抗样本防御模型;
步骤2:以预训练目标识别模型的输入样本为输入,利用对抗样本防御模型对输入样本进行预处理,去除样本干扰,更新输入样本;
步骤3:将输入样本输入预训练目标识别模型进行目标识别。
CN202210639854.9A 2022-06-08 2022-06-08 一种目标识别的对抗样本防御模型训练方法、系统及应用 Active CN114724189B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210639854.9A CN114724189B (zh) 2022-06-08 2022-06-08 一种目标识别的对抗样本防御模型训练方法、系统及应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210639854.9A CN114724189B (zh) 2022-06-08 2022-06-08 一种目标识别的对抗样本防御模型训练方法、系统及应用

Publications (2)

Publication Number Publication Date
CN114724189A true CN114724189A (zh) 2022-07-08
CN114724189B CN114724189B (zh) 2022-09-02

Family

ID=82232332

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210639854.9A Active CN114724189B (zh) 2022-06-08 2022-06-08 一种目标识别的对抗样本防御模型训练方法、系统及应用

Country Status (1)

Country Link
CN (1) CN114724189B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115017337A (zh) * 2022-08-03 2022-09-06 中国电子科技集团公司第五十四研究所 一种面向深度学习模型的隐语义解释方法
CN115860112A (zh) * 2023-01-17 2023-03-28 武汉大学 基于模型反演方法的对抗样本防御方法和设备
CN117292690A (zh) * 2023-11-24 2023-12-26 南京信息工程大学 一种语音转换主动防御方法、装置、系统及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108520268A (zh) * 2018-03-09 2018-09-11 浙江工业大学 基于样本选择和模型进化的黑盒对抗性攻击防御方法
US20190238568A1 (en) * 2018-02-01 2019-08-01 International Business Machines Corporation Identifying Artificial Artifacts in Input Data to Detect Adversarial Attacks
CN110826059A (zh) * 2019-09-19 2020-02-21 浙江工业大学 面向恶意软件图像格式检测模型的黑盒攻击的防御方法及其装置
CN111310802A (zh) * 2020-01-20 2020-06-19 星汉智能科技股份有限公司 一种基于生成对抗网络的对抗攻击防御训练方法
CN111783443A (zh) * 2020-06-29 2020-10-16 百度在线网络技术(北京)有限公司 文本扰动检测方法、扰动还原方法、扰动处理方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190238568A1 (en) * 2018-02-01 2019-08-01 International Business Machines Corporation Identifying Artificial Artifacts in Input Data to Detect Adversarial Attacks
CN108520268A (zh) * 2018-03-09 2018-09-11 浙江工业大学 基于样本选择和模型进化的黑盒对抗性攻击防御方法
CN110826059A (zh) * 2019-09-19 2020-02-21 浙江工业大学 面向恶意软件图像格式检测模型的黑盒攻击的防御方法及其装置
CN111310802A (zh) * 2020-01-20 2020-06-19 星汉智能科技股份有限公司 一种基于生成对抗网络的对抗攻击防御训练方法
CN111783443A (zh) * 2020-06-29 2020-10-16 百度在线网络技术(北京)有限公司 文本扰动检测方法、扰动还原方法、扰动处理方法和装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115017337A (zh) * 2022-08-03 2022-09-06 中国电子科技集团公司第五十四研究所 一种面向深度学习模型的隐语义解释方法
CN115017337B (zh) * 2022-08-03 2022-11-01 中国电子科技集团公司第五十四研究所 一种面向深度学习模型的隐语义解释方法
CN115860112A (zh) * 2023-01-17 2023-03-28 武汉大学 基于模型反演方法的对抗样本防御方法和设备
CN117292690A (zh) * 2023-11-24 2023-12-26 南京信息工程大学 一种语音转换主动防御方法、装置、系统及存储介质
CN117292690B (zh) * 2023-11-24 2024-03-15 南京信息工程大学 一种语音转换主动防御方法、装置、系统及存储介质

Also Published As

Publication number Publication date
CN114724189B (zh) 2022-09-02

Similar Documents

Publication Publication Date Title
CN114724189B (zh) 一种目标识别的对抗样本防御模型训练方法、系统及应用
Gong et al. Change detection in synthetic aperture radar images based on deep neural networks
CN108875624B (zh) 基于多尺度的级联稠密连接神经网络的人脸检测方法
CN107590432A (zh) 一种基于循环三维卷积神经网络的手势识别方法
CN104217214A (zh) 基于可配置卷积神经网络的rgb-d人物行为识别方法
CN111753881A (zh) 一种基于概念敏感性量化识别对抗攻击的防御方法
CN113283599B (zh) 基于神经元激活率的对抗攻击防御方法
CN112562255B (zh) 微光环境下电缆沟道烟雾火情的智能图像检测方法
CN113127857B (zh) 针对对抗性攻击的深度学习模型防御方法及深度学习模型
CN110348475A (zh) 一种基于空间变换的对抗样本增强方法和模型
CN105718889A (zh) 基于GB(2D)2PCANet深度卷积模型的人脸身份识别方法
CN112801297B (zh) 一种基于条件变分自编码器的机器学习模型对抗性样本生成方法
Banumathi et al. Handwritten Tamil character recognition using artificial neural networks
CN109101108A (zh) 基于三支决策优化智能座舱人机交互界面的方法及系统
CN113627543B (zh) 一种对抗攻击检测方法
CN112418041A (zh) 一种基于人脸正面化的多姿态人脸识别方法
CN111783890A (zh) 一种针对图像识别过程中的小像素对抗样本防御方法
CN114241564A (zh) 一种基于类间差异强化网络的人脸表情识别方法
CN113706404B (zh) 一种基于自注意力机制的俯角人脸图像校正方法及系统
CN112990357B (zh) 一种基于稀疏扰动的黑盒视频对抗样本生成方法
CN113221683A (zh) 教学场景下基于cnn模型的表情识别方法
CN117437691A (zh) 一种基于轻量化网络的实时多人异常行为识别方法及系统
CN117011508A (zh) 一种基于视觉变换和特征鲁棒的对抗训练方法
CN109409224B (zh) 一种自然场景火焰检测的方法
CN116977694A (zh) 一种基于不变特征提取的高光谱对抗样本防御方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant