CN114724014B - 基于深度学习的对抗样本攻击检测方法、装置及电子设备 - Google Patents

基于深度学习的对抗样本攻击检测方法、装置及电子设备 Download PDF

Info

Publication number
CN114724014B
CN114724014B CN202210630379.9A CN202210630379A CN114724014B CN 114724014 B CN114724014 B CN 114724014B CN 202210630379 A CN202210630379 A CN 202210630379A CN 114724014 B CN114724014 B CN 114724014B
Authority
CN
China
Prior art keywords
image sample
stage
sample
clean
countermeasure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210630379.9A
Other languages
English (en)
Other versions
CN114724014A (zh
Inventor
王滨
钱亚冠
陈思
王星
李超豪
谢瀛辉
王伟
赵海涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Hikvision Digital Technology Co Ltd
Original Assignee
Hangzhou Hikvision Digital Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Hikvision Digital Technology Co Ltd filed Critical Hangzhou Hikvision Digital Technology Co Ltd
Priority to CN202210630379.9A priority Critical patent/CN114724014B/zh
Publication of CN114724014A publication Critical patent/CN114724014A/zh
Application granted granted Critical
Publication of CN114724014B publication Critical patent/CN114724014B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供一种基于深度学习的对抗样本攻击检测方法、装置及电子设备,该方法包括:利用优化的基于动量迭代梯度方式,生成干净样本对应的对抗样本;依据所述干净样本对应的对抗样本确定深度神经网络模型的防攻击性能评估结果。该方法可以更有效地对深度神经网络模型的防攻击性能进行评估。

Description

基于深度学习的对抗样本攻击检测方法、装置及电子设备
技术领域
本申请涉及人工智能安全技术领域,尤其涉及一种基于深度学习的对抗样本攻击检测方法、装置及电子设备。
背景技术
目前,深度学习的发展为人工智能的应用提供了一种可靠的工具,深度神经网络(Deep Neural Networks,DNNs)已在计算机视觉(如人脸识别、目标检测、自动驾驶)等领域被广泛应用。在自然图像上(如CIFAR-10和ImageNet数据集),最先进的卷积神经网络在图像分类任务中的识别率已经超过人眼。
在深度神经网络应用中,所谓对抗样本,其相对于干净样本
Figure 34008DEST_PATH_IMAGE002
,正确类标签为
Figure 520484DEST_PATH_IMAGE004
,如果存在扰动
Figure 270178DEST_PATH_IMAGE006
Figure 68369DEST_PATH_IMAGE008
,使得
Figure 939373DEST_PATH_IMAGE010
满足
Figure 264044DEST_PATH_IMAGE012
,且
Figure 788567DEST_PATH_IMAGE014
,则此时可 称
Figure 215000DEST_PATH_IMAGE016
为干净样本x对应的对抗样本。目前,在生成对抗样本时,其并未考虑对抗样本与干净 样本在特征空间的差异,这导致生成的对抗样本迁移性较差,会出现诸如无法充分检测深 度神经网络模型对对抗样本的防攻击性能等问题。
发明内容
有鉴于此,本申请提供一种基于深度学习的对抗样本攻击检测方法、装置及电子设备,以生成更具有迁移性的对抗样本。
具体地,本申请是通过如下技术方案实现的:
根据本申请实施例的第一方面,提供一种基于深度学习的对抗样本攻击检测方法,包括:
利用优化的基于动量迭代梯度方式,生成干净样本对应的对抗样本;
依据所述干净样本对应的对抗样本确定深度神经网络模型的防攻击性能评估结果;
其中,对于任一干净样本,在生成该干净样本对应的对抗样本的任一次迭代过程中:
依据当前的动量以及交叉熵损失,确定第一梯度,并依据当前的对抗样本以及所述第一梯度,确定第一阶段对抗样本;
依据所述第一阶段对抗样本与该干净样本的特征表示输出差异,确定特征空间损失,依据所述特征空间损失,确定第二梯度,并依据所述第一阶段对抗样本以及所述第二梯度,确定第二阶段对抗样本;所述特征空间损失用于表征所述第一阶段对抗样本与该干净样本之间的特征空间距离,且与所述第一阶段对抗样本与该干净样本之间的特征空间距离正相关;
在迭代次数达到预设最大迭代次数的情况下,将所述第二阶段对抗样本确定为该干净样本对应的对抗样本。
根据本申请实施例的第二方面,提供一种基于深度学习的对抗样本攻击检测装置,包括:
生成单元,用于利用优化的基于动量迭代梯度方式,生成干净样本对应的对抗样本;
检测单元,用于依据所述干净样本对应的对抗样本确定深度神经网络模型的防攻击性能评估结果;
所述生成单元,具体用于对于任一干净样本,在生成该干净样本对应的对抗样本的任一次迭代过程中:
依据当前的动量以及交叉熵损失,确定第一梯度,并依据当前的对抗样本以及所述第一梯度,确定第一阶段对抗样本;
依据所述第一阶段对抗样本与该干净样本的特征表示输出差异,确定特征空间损失,依据所述特征空间损失,确定第二梯度,并依据所述第一阶段对抗样本以及所述第二梯度,确定第二阶段对抗样本;所述特征空间损失用于表征所述第一阶段对抗样本与该干净样本之间的特征空间距离,且与所述第一阶段对抗样本与该干净样本之间的特征空间距离正相关;
在迭代次数达到预设最大迭代次数的情况下,将所述第二阶段对抗样本确定为该干净样本对应的对抗样本。
根据本申请实施例的第三方面,提供一种电子设备,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器用于执行机器可执行指令,以实现第一方面提供的方法。
本申请实施例的基于深度学习的对抗样本攻击检测方法,通过提出一种优化的基于动量迭代梯度方式,并利用该优化的基于动量迭代梯度方式,生成干净样本对应的对抗样本,在对抗样本生成过程中,不仅考虑对抗样本与干净样本在图像空间的距离,还考虑对抗样本与干净样本在特征空间的距离,得到更具有迁移性的对抗样本,进而,依据干净样本对应的对抗样本确定深度神经网络模型的防攻击性能评估结果,更有效地对深度神经网络模型的防攻击性能进行评估。
附图说明
图1为本申请一示例性实施例示出的一种基于深度学习的对抗样本攻击检测方法的流程示意图;
图2为本申请一示例性实施例示出的一种基于深度学习的对抗样本攻击检测装置的结构示意图;
图3为本申请一示例性实施例示出的一种电子设备的硬件结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
为了使本领域技术人员更好地理解本申请实施例提供的技术方案,下面先对本申请实施例涉及的部分技术术语进行简单说明。
1、目标模型:参数、模型结构可直接获得的分类器
Figure 873383DEST_PATH_IMAGE018
,可以记为
Figure 131189DEST_PATH_IMAGE020
,也可以称 为白盒模型。
2、代理模型:参数、模型结构不可直接获得的分类器
Figure 607039DEST_PATH_IMAGE018
,可以记为
Figure 520768DEST_PATH_IMAGE022
,也可以称 为黑盒模型或源模型。
3、黑盒测试:利用模型结构、参数不可知的分类器
Figure 327050DEST_PATH_IMAGE022
(即代理模型)生成的对抗 样本对模型
Figure 891893DEST_PATH_IMAGE024
(即目标模型)进行测试的过程称为黑盒测试。
4、白盒测试:利用模型结构、参数均可知的分类器
Figure 899163DEST_PATH_IMAGE026
(即目标模型)生成的对抗 样本对模型
Figure 159243DEST_PATH_IMAGE020
(即目标模型)进行测试的过程称为白盒测试。
5、干净样本:指从训练样本集中取出,且不进行任何预处理的样本,也可以称为自然样本。
6、对抗样本:对于干净样本
Figure 159429DEST_PATH_IMAGE002
,它的正确类标签为
Figure 329510DEST_PATH_IMAGE028
。如果存在扰动
Figure 22529DEST_PATH_IMAGE030
Figure 504325DEST_PATH_IMAGE031
,使得
Figure 793355DEST_PATH_IMAGE032
满足
Figure 942577DEST_PATH_IMAGE034
,且
Figure 535058DEST_PATH_IMAGE036
,那么称
Figure 504151DEST_PATH_IMAGE038
为干净样本x对应的对抗 样本。
7、白盒对抗样本:利用模型结构、参数可知的分类器
Figure 596872DEST_PATH_IMAGE040
生成的对抗样本为白盒 对抗样本,记为
Figure 725234DEST_PATH_IMAGE042
8、代理对抗样本:利用模型结构、参数未知的分类器
Figure 635421DEST_PATH_IMAGE043
生成的对抗样本为黑盒 对抗样本,记为
Figure 232756DEST_PATH_IMAGE045
9、迁移率:假设
Figure 378435DEST_PATH_IMAGE047
表示包含所有被代理模型错误分类的对抗样本的集合。使用
Figure 971090DEST_PATH_IMAGE047
中的对抗样本来测试目标模型,并用
Figure 661966DEST_PATH_IMAGE049
表示被目标模型错误分类的对抗样本的集合,其 中,
Figure 995864DEST_PATH_IMAGE051
。可以将迁移率定义为
Figure 555022DEST_PATH_IMAGE053
衡量黑盒对抗样本的可转移性。
为了使本申请实施例的上述目的、特征和优点能够更加明显易懂,下面结合附图对本申请实施例中技术方案作进一步详细的说明。
请参见图1,为本申请实施例提供的一种基于深度学习的对抗样本攻击检测方法的流程示意图,如图1所示,该基于深度学习的对抗样本攻击检测方法可以包括以下步骤:
步骤S100、利用优化的基于动量迭代梯度方式,生成干净样本对应的对抗样本。
步骤S110、依据干净样本对应的对抗样本确定深度神经网络模型的防攻击性能评估结果。
本申请实施例中,考虑到传统利用基于动量迭代梯度的方式生成对抗样本的方案中,生成对抗样本时并未考虑对抗样本与干净样本在特征空间的差异,导致基于该方案生成的对抗样本无法充分检测深度神经网络模型对对抗样本的防攻击性能。
基于上述考虑,本申请实施例中,可以对基于动量迭代梯度方式进行优化(可以称为优化的基于动量迭代梯度方式),在利用优化的基于动量迭代梯度方式生成对抗样本时,不仅考虑对抗样本与干净样本在图像空间的差异,还考虑对抗样本与干净样本在特征空间的差异,以生成更具有迁移性的对抗样本,更充分地检测深度神经网络模型对对抗样本的防攻击性能。
示例性的,图像空间也可以称为输入空间,指模型输入所有可能的取值集合,即样本本身存在的空间。
特征空间是指输入空间中样本经过特征工程处理过后(如经过CNN提取特征后的特征图)存在的空间,可以将输入空间中隐藏的特征显现出来。
示例性的,按照步骤S100中描述的方式生成的对抗样本可以为黑盒对抗样本,从而,可以在不需要获得进行防攻击性能评估的深度神经网络模型的参数和结构模型的情况下,即可生成用于不同深度神经网络模型进行防攻击性能评估的对抗样本,有效扩展了防攻击性能评估方案的适用场景。
需要说明的是,对于按照步骤S100中描述的方式生成的黑盒对抗样本,可以统计所生成的黑盒对抗样本的迁移率,迁移率越高,则表明所生成的黑盒对抗样本用于进行对抗样本攻击的攻击成功率越高,进而,表明所生成的黑盒对抗样本用于进行深度神经网络模型防攻击性能评估的效果越好。
本申请实施例中,在利用优化的基于动量迭代梯度方式,生成干净样本对应的对抗样本的过程中,对于任一干净样本,在生成该干净样本对应的对抗样本的任一迭代过程中,其实现可以包括以下步骤:
步骤S101、依据当前的动量以及交叉熵损失,确定第一梯度,并依据当前的对抗样本以及第一梯度,确定第一阶段对抗样本。
步骤S102、依据第一阶段对抗样本与该干净样本的特征表示输出差异,确定特征空间损失,依据特征空间损失,确定第二梯度,并依据第一阶段对抗样本以及第二梯度,确定第二阶段对抗样本;该特征空间损失用于表征第一阶段对抗样本与该干净样本之间的特征空间距离,且与第一阶段对抗样本与该干净样本之间的特征空间距离正相关。
本申请实施例中,在生成干净样本对应的对抗样本的过程中,任一次迭代过程可以包括两个阶段:依据干净样本与对抗样本在图像空间的距离增加扰动的阶段(可以称为第一阶段),以及,依据干净样本与对抗样本在特征空间的距离增加扰动的阶段(可以称为第二阶段)。
相应地,对于任一干净样本,在利用优化的基于动量迭代梯度方式生成该干净样本对应的干扰样本时,对于任一次迭代过程,可以依据当前的动量以及交叉熵损失(用于表征干净样本与对抗样本在图像空间上的距离),确定此次迭代过程中第一阶段的梯度(本文中称为第一梯度)。
示例性的,对于第一次迭代过程,当前的动量可以为预设的初始动量,如0;对于非第一次迭代过程,当前的动量为上一次迭代过程中第二阶段确定的梯度(可以称为第二梯度)。
示例性的,在得到第一梯度的情况下,可以依据该第一梯度,对当前的对抗样本进行扰动增加,得到第一阶段对抗样本。
示例性的,对于第一次迭代过程,当前的对抗样本可以为干净样本;对于非第一次迭代过程,当前的对抗样本可以为上一次迭代过程中第二阶段确定的对抗样本(可以称为第二对抗样本)。
示例性的,在一次迭代过程的第二阶段,可以依据第一阶段对抗样本与干净样本的特征表示输出差异,确定特征空间损失(用于表征干净样本与对抗样本在特征空间上的距离),并依据特征空间损失确定第二阶段的梯度(即第二梯度)。
在确定了第二梯度的情况下,可以依据该第二梯度,对第一阶段对抗样本进行扰动增加,得到第二阶段对抗样本。
示例性的,在迭代次数达到预设最大迭代次数的情况下,可以将此次迭代过程中确定的第二阶段对抗样本确定为该干净样本对应的对抗样本;在迭代次数未达到预设最大迭代次数的情况下,可以将此次迭代过程中确定的第二阶段对抗样本确定为当前对抗样本,并继续进行下一次迭代过程。
本申请实施例中,在按照上述方式生成了干净样本对应的对抗样本的情况下,可以依据干净样本对应的对抗样本对深度神经网络模型进行防攻击性能评估,确定深度神经网络模型的防攻击性能评估。
例如,可以统计深度神经网络模型对对抗样本的分类准确性,准确性越高,则表明深度神经网络模型的防攻击性能越好(如抗黑盒攻击能力越强)。
可见,在图1所示方法流程中,通过提出一种优化的基于动量迭代梯度方式,并利用该优化的基于动量迭代梯度方式,生成干净样本对应的对抗样本,在对抗样本生成过程中,不仅考虑对抗样本与干净样本在图像空间的距离,还考虑对抗样本与干净样本在特征空间的距离,得到更具有迁移性的对抗样本(即更容易使深度神经网络模型分类错误的对抗样本),进而,依据干净样本对应的对抗样本确定深度神经网络模型的防攻击性能评估结果,更有效地对深度神经网络模型的防攻击性能进行评估。
在一些实施例中,上述依据第一阶段对抗样本与该干净样本的特征表示输出差异,确定特征空间损失,可以包括:
依据所述第一阶段对抗样本与该干净样本的特征表示输出差异,利用投影公式,确定特征空间损失。
示例性的,为了尽可能扩大对抗样本与干净样本的特征表示输出差异在当前特征改变方向的投影,可以依据第一阶段对抗样本与该干净样本的特征表示输出差异,利用投影公式,确定特征空间损失。
举例来说,假设
Figure 143129DEST_PATH_IMAGE055
Figure 863960DEST_PATH_IMAGE057
在l层的特征输出表示,
Figure 685154DEST_PATH_IMAGE058
为样本x在深度 神经网络模型中的输出,则可以依据
Figure 782423DEST_PATH_IMAGE060
确定第一阶段对抗样本与干净样本的 特征表示输出差异,利用投影公式,确定特征空间损失;其中,
Figure 490617DEST_PATH_IMAGE062
即为上述第一阶段对抗样 本。
例如,假设
Figure 382349DEST_PATH_IMAGE064
Figure 425260DEST_PATH_IMAGE066
,其中,
Figure 467166DEST_PATH_IMAGE068
的取值与
Figure 888920DEST_PATH_IMAGE070
相同,
Figure 341767DEST_PATH_IMAGE072
为变量,
Figure 481761DEST_PATH_IMAGE074
为与
Figure 327357DEST_PATH_IMAGE075
大小相等(即模长相等)的常量,
Figure 869197DEST_PATH_IMAGE077
即为
Figure 492945DEST_PATH_IMAGE075
Figure 261181DEST_PATH_IMAGE074
上的投影,可以利用
Figure 503944DEST_PATH_IMAGE078
确定特征空间损失,其中,
Figure 30783DEST_PATH_IMAGE080
Figure 966378DEST_PATH_IMAGE074
的 2-范数,其值即为
Figure 956331DEST_PATH_IMAGE081
的模长。
在另一些实施例中,上述依据第一阶段对抗样本与该干净样本的特征表示输出差异,确定特征空间损失,可以包括:
依据第一阶段对抗样本与该干净样本的特征表示输出差异的范数,确定特征空间损失。
示例性的,为了提高特征空间损失确定的效率,可以不考虑方向,而仅考虑距离本身,尽可能扩大对抗样本与干净样本在特征空间上的距离。
示例性的,可以依据第一阶段对抗样本与干净样本的特征表示输出的范数,确定特征空间损失。
例如,假设
Figure 737205DEST_PATH_IMAGE055
Figure 378271DEST_PATH_IMAGE057
在l层的特征输出表示,
Figure 360133DEST_PATH_IMAGE058
为样本x在深度神 经网络模型中的输出,则可以依据
Figure 962016DEST_PATH_IMAGE083
确定特征空间损失,其中,
Figure 671215DEST_PATH_IMAGE083
Figure 42153DEST_PATH_IMAGE085
的2-范数,可以用于表征
Figure 929338DEST_PATH_IMAGE087
Figure 18517DEST_PATH_IMAGE089
在欧 式空间上的距离,即依据第一阶段对抗样本和干净样本的特征输出表示在欧式空间上的距 离,确定特征空间损失。
在另一些实施例中,上述依据第一阶段对抗样本与该干净样本的特征表示输出差异,确定特征空间损失,可以包括:
依据第一阶段对抗样本与该干净样本的特征表示输出差异,利用投影公式,确定第一特征空间损失;
以及,依据第一阶段对抗样本与该干净样本的特征表示输出差异的范数,确定第二特征空间损失;
依据第一特征空间损失、第二特征空间损失,以及,预设特征空间损失均衡参数,确定最终特征空间损失。
示例性的,为了均衡方向和距离的关系,得到更准确地表征对抗样本与干净样本之间的特征空间距离的特征空间损失,可以分别按照上述方式得到包含方向信息的特征空间损失(可以称为第一特征空间损失),以及,未包含方向信息的特征空间损失(可以称为第二特征空间损失),依据该两个损失确定最终的特征空间损失。
示例性的,可以预先设定用于对第一特征空间损失和第二特征空间损失进行均衡的均衡参数(可以称为预设特征空间损失均衡参数),进而,可以依据第一特征空间损失、第二特征空间损失,以及,预设特征空间损失均衡参数,确定最终特征空间损失。
在一些实施例中,上述依据当前的对抗样本以及第一梯度,确定第一阶段对抗样本,可以包括:
依据当前的对抗样本、第一梯度、预设步长,以及,预设步长调节参数,确定第一阶段对抗样本;
上述依据第一阶段对抗样本以及第二梯度,确定第二阶段对抗样本,可以包括:
依据第一阶段对抗样本、第二梯度、预设步长,以及,预设步长调节参数,确定第二阶段对抗样本。
示例性的,由于生成干净样本对应的对抗样本的任一次迭代过程中,扰动增加被划分为了两个阶段,因此,一次迭代过程中的扰动增加的步长也可以分为两个阶段,该两个阶段增加的扰动可以依据预设步长调节参数确定。
示例性的,对于生成干净样本对应的对抗样本的任一次迭代过程,在第一阶段,可以依据当前的对抗样本、第一梯度、预设步长,以及,预设步长调节参数,确定第一阶段对抗样本。
在第二阶段,可以依据第一阶段对抗样本、第二梯度、预设步长,以及,预设步长调节参数,确定第二阶段对抗样本。
在一个示例中,上述依据当前的对抗样本、第一梯度、预设步长,以及,预设步长调节参数,确定第一阶段对抗样本,可以包括:
依据预设步长以及预设步长调节参数,确定第一步长;
依据当前的对抗样本、第一梯度,以及,第一步长,确定第一阶段对抗样本;
上述依据第一阶段对抗样本、第二梯度、预设步长,以及,预设步长调节参数,确定第二阶段对抗样本,可以包括:
依据预设步长以及预设步长调节参数,确定第二步长;
依据第一阶段对抗样本、第二梯度,以及,第二步长,确定第二阶段对抗样本。
示例性的,对于生成干净样本对应的对抗样本的任一次迭代过程,在第一阶段,可以依据预设步长调节参数,对预设步长进行调节,得到第一步长,并依据第一步长以及第一梯度,对当前的对抗样本进行扰动增加,得到第一阶段对抗样本。
在第二阶段,可以依据预设步长调节参数,对预设步长进行调节,得到第二步长,并依据第二步长以及第二梯度,对第一阶段对抗样本进行扰动增加,得到第二阶段对抗样本。
示例性的,上述第一步长与第二步长之和等于上述预设步长。
为了使本领域技术人员更好地理解本申请实施例提供的技术方案,下面结合具体实例对本申请实施例提供的技术方案进行说明。
在该实施例中,可以利用在特征空间中的脆弱性,通过扩大迭代过程中当前特征改变方向上的投影,调整迭代过程中梯度的生成方向,以引导生成更具有迁移性的对抗样本。在迭代过程中,通过保证特征变化方向的一致性,生成更具有迁移性的对抗样本,以更加充分地利用特征空间中的信息,更好地检测DNNs模型在特征空间中的脆弱性及其在黑盒测试下的模型有效性。
在该实施例中,生成干净样本对应的对抗样本的每一次迭代过程可以包括两个阶段:
第一阶段、使用交叉熵损失(
Figure 531406DEST_PATH_IMAGE091
)生成梯度(即上述第一梯度,记为
Figure 756851DEST_PATH_IMAGE093
),并生成 对抗样本(即上述第一阶段对抗样本
Figure 80516DEST_PATH_IMAGE070
);
其中,
Figure 781625DEST_PATH_IMAGE094
以动量的形式影响最终梯度的生成,以保证对抗样本生成在图像空间 中的稳定。
第二阶段:引入空间特征损失(
Figure 973572DEST_PATH_IMAGE096
),依据第一阶段对抗样本与干净样本的特征 表示输出差异,确定
Figure 928890DEST_PATH_IMAGE096
,依据
Figure 548090DEST_PATH_IMAGE097
确定第二梯度(
Figure 470915DEST_PATH_IMAGE099
,记为
Figure 341919DEST_PATH_IMAGE101
),使用第二梯度 对第一阶段对抗样本进行扰动增加,得到第二阶段对抗样本。
下面对具体实现流程进行说明。
步骤1、确定超参数:扰动大小
Figure 276377DEST_PATH_IMAGE103
约束
Figure 191113DEST_PATH_IMAGE105
,步长
Figure 742180DEST_PATH_IMAGE107
,最大迭代次数(或称为迭代步 数)N、步长调节参数
Figure 885716DEST_PATH_IMAGE109
等。
步骤2、将每一次迭代过程划分为两个阶段:第一阶段和第二阶段。
步骤3、在第一阶段,使用交叉熵损失(
Figure 940260DEST_PATH_IMAGE110
)生成梯度
Figure 963580DEST_PATH_IMAGE093
,并生成对抗样本
Figure 470784DEST_PATH_IMAGE070
步骤4、在第二阶段,引入
Figure 950437DEST_PATH_IMAGE111
损失,分别计算
Figure 432DEST_PATH_IMAGE113
Figure 866757DEST_PATH_IMAGE115
,其中,
Figure 517050DEST_PATH_IMAGE116
的取值与
Figure 127023DEST_PATH_IMAGE070
相同,
Figure 31525DEST_PATH_IMAGE118
的取值与
Figure 68751DEST_PATH_IMAGE120
的取值相同,但 是
Figure 206340DEST_PATH_IMAGE121
为常量,
Figure 495370DEST_PATH_IMAGE122
为变量,即
Figure 379013DEST_PATH_IMAGE118
为依据
Figure 977353DEST_PATH_IMAGE120
的取值确定的等值常量(该常量的取 值与
Figure 212025DEST_PATH_IMAGE122
的取值相同)。
其中,为了减少特征中极值带来的影响,提高所确定的空间特征损失的准确性,可 以对特征表示输出进行标准化处理后,依据标准化处理后的特征表示输出确定特征空间损 失,即
Figure 39167DEST_PATH_IMAGE124
Figure 42895DEST_PATH_IMAGE126
其中,
Figure 812137DEST_PATH_IMAGE128
为标准化函数。
示例性的,可以依据
Figure 143892DEST_PATH_IMAGE120
Figure 164938DEST_PATH_IMAGE118
确定空间特征损失:
Figure 147806DEST_PATH_IMAGE130
其中,
Figure 963316DEST_PATH_IMAGE132
即为上述带有方向信息的特征空间损失(可以记为
Figure 47946DEST_PATH_IMAGE134
),
Figure 466158DEST_PATH_IMAGE136
为均衡方向和距离的特征空间损失(可以记为
Figure DEST_PATH_IMAGE138
),
Figure DEST_PATH_IMAGE140
的取 值范围为[0,1],具体取值可以预先设定。
需要说明的是,在生成特征空间损失时,也可以不考虑方向信息,而依据第一阶段 对抗样本与干净样本的特征表示输出差异的范数,确定特征空间损失(可以记为
Figure DEST_PATH_IMAGE142
)。
其中,定义
Figure DEST_PATH_IMAGE144
,选取一层中间层的特征表示输出,并忽略 标准化过程对特征空间损失的确定进行说明:
Figure DEST_PATH_IMAGE146
Figure DEST_PATH_IMAGE148
其中,
Figure 902868DEST_PATH_IMAGE142
代表在欧式空间上距离的扩展而并不带有方向性;
Figure DEST_PATH_IMAGE149
表示尽可能 扩大在初始方向上的投影,其包括了方向信息。
通过计算
Figure 295803DEST_PATH_IMAGE142
Figure DEST_PATH_IMAGE150
对一个元素
Figure DEST_PATH_IMAGE152
的导数,当该损失仅进行一次迭代时,这两个 导数的值是相等的(二者导数不同,但是当
Figure DEST_PATH_IMAGE153
等于
Figure DEST_PATH_IMAGE155
时,二者导数的值相等),因此,当使 用
Figure 772790DEST_PATH_IMAGE150
时,可以使用
Figure DEST_PATH_IMAGE156
替代。
为了均衡方向和距离的关系,可以将
Figure DEST_PATH_IMAGE157
Figure DEST_PATH_IMAGE158
进行缩放并相加得到精调版本 损失函数
Figure DEST_PATH_IMAGE159
。其中:
方向部分由
Figure DEST_PATH_IMAGE161
计算得到,而距离部分由
Figure DEST_PATH_IMAGE163
计算得到,使用参数
Figure DEST_PATH_IMAGE165
对方 向和距离进行平衡。
Figure DEST_PATH_IMAGE167
步骤5、依据空间特征损失
Figure 189166DEST_PATH_IMAGE111
可以得到梯度
Figure DEST_PATH_IMAGE168
,即
Figure DEST_PATH_IMAGE169
,使用
Figure DEST_PATH_IMAGE170
生成 最终的梯度方向。
步骤6、依据梯度
Figure 881047DEST_PATH_IMAGE170
对第一阶段干扰样本进行扰动增加,得到第二阶段对抗样本
Figure DEST_PATH_IMAGE172
示例性的,若未达到预设最大迭代次数(即N次),将第二阶段对抗样本
Figure 444883DEST_PATH_IMAGE172
作为下 一次迭代过程的当前的对抗样本。
示例性的,可以利用参数
Figure 753374DEST_PATH_IMAGE109
平衡第一阶段和第二阶段中的扰动增加。
例如,
Figure DEST_PATH_IMAGE174
Figure DEST_PATH_IMAGE176
其中,
Figure DEST_PATH_IMAGE178
是指以扰动大小
Figure 513388DEST_PATH_IMAGE103
约束
Figure 76088DEST_PATH_IMAGE105
对得到的干扰样本进行约束。
步骤7、重复上述步骤3~6,直至迭代次数达到N次。
步骤8、依据生成的对抗样本测试模型的防攻击性能。
为了使本领域技术人员更好地理解本申请实施例的技术效果,下面结合具体实验分析对本申请实施例进一步进行说明。
一、实验设置
1.1、数据集:
可以使用自然数据集cifar10和两个公开的分类任务数据集,第一个是视网膜病变分类任务Kaggle Fundoscopy dataset,其中包含3662张图片,每张图片的标签分为从‘No DR’到‘Mild(轻度)/Moderate(中度)/Severe(重度)/Proliferative(增殖性) DR’五个等级,本申请中可以将该数据集划分为二分类数据集,为寻找程度在‘Moderate’以上的图像;第二个是肺炎分类任务数据集Kaggle Chest X-ray,其中包含5840张图片,每张图片的标签为‘PNEUMONIA(肺炎)’和‘NORMAL(正常)’。
1.2、数据预处理:
对于Kaggle Fundoscopy dataset,可以将原图边缘黑边部分裁剪,并将两个数据集均重新裁剪为299×299×3的分辨率,cifar10使用原数据不做处理。三个数据集训练时均normalize(归一化)为[-1,1],并且使用随机旋转、随机水平变化数据增强。
1.3、模型
模型选择为densenet121、resnet50、vgg16_bn,三个模型均使用torchvision包自带模型,并加载imagenet预训练权重为初始化权重。
下面对本申请实施例提供的技术方案在两个公共数据集上的实验结果进行展示。
其中,为了避免过拟合于数据集,可以使用训练过程中的测试集作为实验数据集。 对抗样本生成方法分别选择FGSM、BIM、MIFGSM、TAP,以及本申请提供的方案(记为MFP方 法),代理模型和目标模型选择均为resnet50、vgg16bn和densenet121。BIM、MIFGSM、TAP和 MFP方法均以20次迭代运行,扰动约束选用
Figure DEST_PATH_IMAGE180
范数,
Figure DEST_PATH_IMAGE182
为4/255,
Figure DEST_PATH_IMAGE184
为4/20/255。
表1 、各种方法生成对抗样本的可迁移性在精度上的比较,对抗样本由resnet50、vgg16bn和densenet121生成,源模型(Source Model)和目标模型(Target Model)一致意味着该测试为白盒测试
Figure DEST_PATH_IMAGE186
如表1所示,在两个数据集上,证明了MFP方法不仅提高在白盒测试上的成功率,也提高了对抗样本的迁移性,性能超过了MI-FGSM和TAP。实验结果表明本申请实施例提供的方案不会只针对特定模型生效,其生成的对抗样本可以在不同源模型和目标模型下都有着较好的迁移性,可以实现一种通用的黑盒对抗样本生成方法。
以上对本申请提供的方法进行了描述。下面对本申请提供的装置进行描述:
请参见图2,为本申请实施例提供的一种基于深度学习的对抗样本攻击检测装置的结构示意图,如图2所示,该基于深度学习的对抗样本攻击检测装置可以包括:
生成单元210,用于利用优化的基于动量迭代梯度方式,生成干净样本对应的对抗样本;
检测单元220,用于依据所述干净样本对应的对抗样本确定深度神经网络模型的防攻击性能评估结果;
所述生成单元210,具体用于对于任一干净样本,在生成该干净样本对应的对抗样本的任一次迭代过程中:
依据当前的动量以及交叉熵损失,确定第一梯度,并依据当前的对抗样本以及所述第一梯度,确定第一阶段对抗样本;
依据所述第一阶段对抗样本与该干净样本的特征表示输出差异,确定特征空间损失,依据所述特征空间损失,确定第二梯度,并依据所述第一阶段对抗样本以及所述第二梯度,确定第二阶段对抗样本;所述特征空间损失用于表征所述第一阶段对抗样本与该干净样本之间的特征空间距离,且与所述第一阶段对抗样本与该干净样本之间的特征空间距离正相关;
在迭代次数达到预设最大迭代次数的情况下,将所述第二阶段对抗样本确定为该干净样本对应的对抗样本。
在一些实施例中,所述生成单元210依据所述第一阶段对抗样本与该干净样本的特征表示输出差异,确定特征空间损失,包括:
依据所述第一阶段对抗样本与该干净样本的特征表示输出差异,利用投影公式,确定特征空间损失。
在一些实施例中,所述生成单元210依据所述第一阶段对抗样本与该干净样本的特征表示输出差异,确定特征空间损失,包括:
依据所述第一阶段对抗样本与该干净样本的特征表示输出差异的范数,确定特征空间损失。
在一些实施例中,所述生成单元210依据所述第一阶段对抗样本与该干净样本的特征表示输出差异,确定特征空间损失,包括:
依据所述第一阶段对抗样本与该干净样本的特征表示输出差异,利用投影公式,确定第一特征空间损失;
以及,依据所述第一阶段对抗样本与该干净样本的特征表示输出差异的范数,确定第二特征空间损失;
依据所述第一特征空间损失、第二特征空间损失,以及,预设特征空间损失均衡参数,确定最终特征空间损失。
在一些实施例中,所述生成单元210依据当前的对抗样本以及所述第一梯度,确定第一阶段对抗样本,包括:
依据当前的对抗样本、所述第一梯度、预设步长,以及,预设步长调节参数,确定所述第一阶段对抗样本;
所述生成单元210依据所述第一阶段对抗样本以及所述第二梯度,确定第二阶段对抗样本,包括:
依据所述第一阶段对抗样本、所述第二梯度、所述预设步长,以及,所述预设步长调节参数,确定所述第二阶段对抗样本。
在一些实施例中,所述生成单元210依据当前的对抗样本、所述第一梯度、预设步长,以及,预设步长调节参数,确定所述第一阶段对抗样本,包括:
依据所述预设步长以及所述预设步长调节参数,确定第一步长;
依据当前的对抗样本、所述第一梯度,以及,所述第一步长,确定所述第一阶段对抗样本;
所述生成单元210依据所述第一阶段对抗样本、所述第二梯度、所述预设步长,以及,所述预设步长调节参数,确定所述第二阶段对抗样本,包括:
依据所述预设步长以及所述预设步长调节参数,确定第二步长;
依据所述第一阶段对抗样本、所述第二梯度,以及,所述第二步长,确定所述第二阶段对抗样本。
请参见图3,为本申请实施例提供的一种电子设备的硬件结构示意图。该电子设备可包括处理器301、存储有计算机程序的机器可读存储介质302。处理器301与机器可读存储介质302可经由系统总线303通信。并且,通过读取并执行机器可读存储介质302中与基于深度学习的对抗样本攻击检测逻辑对应的计算机程序,处理器301可执行上文描述的任意基于深度学习的对抗样本攻击检测方法。
本文中提到的机器可读存储介质302可以是任何电子、磁性、光学或其它物理存储装置,可以包含或存储信息,如可执行指令、数据,等等。例如,机器可读存储介质可以是:RAM(Radom Access Memory,随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等),或者类似的存储介质,或者它们的组合。
在一些实施例中,还提供了一种机器可读存储介质,该机器可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上文描述的基于深度学习的对抗样本攻击检测方法。例如,所述机器可读存储介质可以是ROM、RAM、CD-ROM、磁带、软盘和光数据存储设备等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。

Claims (13)

1.一种基于深度学习的对抗样本攻击检测方法,其特征在于,包括:
利用优化的基于动量迭代梯度方式,生成干净图像样本对应的对抗图像样本;
依据所述干净图像样本对应的对抗图像样本确定深度神经网络模型的防攻击性能评估结果;其中,所述深度神经网络模型至少用于图像分类,所述深度神经网络模型对对抗图像样本的分类准确性越高,表明所述深度神经网络模型的防攻击性能越好;
其中,对于任一干净图像样本,在生成该干净图像样本对应的对抗图像样本的任一次迭代过程中包含第一阶段和第二阶段:所述第一阶段是依据干净图像样本与对抗图像样本在图像空间的距离增加扰动的阶段,所述第二阶段是依据干净图像样本与对抗图像样本在特征空间的距离增加扰动的阶段;
其中,在第一阶段,依据当前的动量以及交叉熵损失,确定第一梯度,其中,所述交叉熵损失用于表征干净图像样本与对抗图像样本在图像空间上的距离;并依据所述第一梯度对当前的对抗图像样本进行扰动增加,得到第一阶段对抗图像样本;对于第一次迭代过程,当前的对抗图像样本为干净图像样本;对于非第一次迭代过程,当前的对抗图像样本为上一次迭代过程中得到的第二阶段对抗图像样本;
在第二阶段,依据所述第一阶段对抗图像样本与该干净图像样本的特征表示输出差异,确定特征空间损失,所述特征空间损失用于表征所述第一阶段对抗图像样本与该干净图像样本之间的特征空间距离,且与所述第一阶段对抗图像样本与该干净图像样本之间的特征空间距离正相关;依据所述特征空间损失,确定第二梯度,并依据所述第二梯度对所述第一阶段对抗图像样本进行扰动增加,得到第二阶段对抗图像样本;
在迭代次数达到预设最大迭代次数的情况下,将所述第二阶段对抗图像样本确定为该干净图像样本对应的对抗图像样本,以生成更具有迁移性的对抗图像样本。
2.根据权利要求1所述的方法,其特征在于,所述依据所述第一阶段对抗图像样本与该干净图像样本的特征表示输出差异,确定特征空间损失,包括:
依据所述第一阶段对抗图像样本与该干净图像样本的特征表示输出差异,利用投影公式,确定特征空间损失。
3.根据权利要求1所述的方法,其特征在于,所述依据所述第一阶段对抗图像样本与该干净图像样本的特征表示输出差异,确定特征空间损失,包括:
依据所述第一阶段对抗图像样本与该干净图像样本的特征表示输出差异的范数,确定特征空间损失。
4.根据权利要求1所述的方法,其特征在于,所述依据所述第一阶段对抗图像样本与该干净图像样本的特征表示输出差异,确定特征空间损失,包括:
依据所述第一阶段对抗图像样本与该干净图像样本的特征表示输出差异,利用投影公式,确定第一特征空间损失;
以及,依据所述第一阶段对抗图像样本与该干净图像样本的特征表示输出差异的范数,确定第二特征空间损失;
依据所述第一特征空间损失、第二特征空间损失,以及,预设特征空间损失均衡参数,确定最终特征空间损失。
5.根据权利要求1所述的方法,其特征在于,所述依据所述第一梯度对当前的对抗图像样本进行扰动增加,得到第一阶段对抗图像样本,包括:
依据所述第一梯度、预设步长,以及,预设步长调节参数,对当前的对抗图像样本进行扰动增加,得到所述第一阶段对抗图像样本;
所述依据所述第二梯度对所述第一阶段对抗图像样本进行扰动增加,得到第二阶段对抗图像样本,包括:
依据所述第二梯度、所述预设步长,以及,所述预设步长调节参数,对所述第一阶段对抗图像样本进行扰动增加,得到所述第二阶段对抗图像样本。
6.根据权利要求5所述的方法,其特征在于,所述依据所述第一梯度、预设步长,以及,预设步长调节参数,对当前的对抗图像样本进行扰动增加,得到所述第一阶段对抗图像样本,包括:
依据所述预设步长以及所述预设步长调节参数,确定第一步长;
依据所述第一梯度,以及,所述第一步长,对当前的对抗图像样本进行扰动增加,得到所述第一阶段对抗图像样本;
所述依据所述第二梯度、所述预设步长,以及,所述预设步长调节参数,对所述第一阶段对抗图像样本进行扰动增加,得到所述第二阶段对抗图像样本,包括:
依据所述预设步长以及所述预设步长调节参数,确定第二步长;
依据所述第二梯度,以及,所述第二步长,对所述第一阶段对抗图像样本进行扰动增加,得到所述第二阶段对抗图像样本。
7.一种基于深度学习的对抗图像样本攻击检测装置,其特征在于,包括:
生成单元,用于利用优化的基于动量迭代梯度方式,生成干净图像样本对应的对抗图像样本;
检测单元,用于依据所述干净图像样本对应的对抗图像样本确定深度神经网络模型的防攻击性能评估结果;其中,所述深度神经网络模型至少用于图像分类,所述深度神经网络模型对对抗图像样本的分类准确性越高,表明所述深度神经网络模型的防攻击性能越好;
所述生成单元,具体用于对于任一干净图像样本,在生成该干净图像样本对应的对抗图像样本的任一次迭代过程中包含第一阶段和第二阶段:所述第一阶段是依据干净图像样本与对抗图像样本在图像空间的距离增加扰动的阶段,所述第二阶段是依据干净图像样本与对抗图像样本在特征空间的距离增加扰动的阶段;
其中,在第一阶段,依据当前的动量以及交叉熵损失,确定第一梯度,其中,所述交叉熵损失用于表征干净图像样本与对抗图像样本在图像空间上的距离;并依据所述第一梯度对当前的对抗图像样本进行扰动增加,得到第一阶段对抗图像样本;对于第一次迭代过程,当前的对抗图像样本为干净图像样本;对于非第一次迭代过程,当前的对抗图像样本为上一次迭代过程中得到的第二阶段对抗图像样本;
在第二阶段,依据所述第一阶段对抗图像样本与该干净图像样本的特征表示输出差异,确定特征空间损失,所述特征空间损失用于表征所述第一阶段对抗图像样本与该干净图像样本之间的特征空间距离,且与所述第一阶段对抗图像样本与该干净图像样本之间的特征空间距离正相关;依据所述特征空间损失,确定第二梯度,并依据所述第二梯度对所述第一阶段对抗图像样本进行扰动增加,得到第二阶段对抗图像样本;
在迭代次数达到预设最大迭代次数的情况下,将所述第二阶段对抗图像样本确定为该干净图像样本对应的对抗图像样本,以生成更具有迁移性的对抗图像样本。
8.根据权利要求7所述的装置,其特征在于,所述生成单元依据所述第一阶段对抗图像样本与该干净图像样本的特征表示输出差异,确定特征空间损失,包括:
依据所述第一阶段对抗图像样本与该干净图像样本的特征表示输出差异,利用投影公式,确定特征空间损失。
9.根据权利要求7所述的装置,其特征在于,所述生成单元依据所述第一阶段对抗图像样本与该干净图像样本的特征表示输出差异,确定特征空间损失,包括:
依据所述第一阶段对抗图像样本与该干净图像样本的特征表示输出差异的范数,确定特征空间损失。
10.根据权利要求7所述的装置,其特征在于,所述生成单元依据所述第一阶段对抗图像样本与该干净图像样本的特征表示输出差异,确定特征空间损失,包括:
依据所述第一阶段对抗图像样本与该干净图像样本的特征表示输出差异,利用投影公式,确定第一特征空间损失;
以及,依据所述第一阶段对抗图像样本与该干净图像样本的特征表示输出差异的范数,确定第二特征空间损失;
依据所述第一特征空间损失、第二特征空间损失,以及,预设特征空间损失均衡参数,确定最终特征空间损失。
11.根据权利要求7所述的装置,其特征在于,所述生成单元依据所述第一梯度对当前的对抗图像样本进行扰动增加,得到第一阶段对抗图像样本,包括:
依据所述第一梯度、预设步长,以及,预设步长调节参数,对当前的对抗图像样本进行扰动增加,得到所述第一阶段对抗图像样本;
所述生成单元依据所述第二梯度对所述第一阶段对抗图像样本进行扰动增加,得到第二阶段对抗图像样本,包括:
依据所述第二梯度、所述预设步长,以及,所述预设步长调节参数,对所述第一阶段对抗图像样本进行扰动增加,得到所述第二阶段对抗图像样本。
12.根据权利要求11所述的装置,其特征在于,所述生成单元依据所述第一梯度、预设步长,以及,预设步长调节参数,对当前的对抗图像样本进行扰动增加,得到所述第一阶段对抗图像样本,包括:
依据所述预设步长以及所述预设步长调节参数,确定第一步长;
依据所述第一梯度,以及,所述第一步长,对当前的对抗图像样本进行扰动增加,得到所述第一阶段对抗图像样本;
所述生成单元依据所述第二梯度、所述预设步长,以及,所述预设步长调节参数,对所述第一阶段对抗图像样本进行扰动增加,得到所述第二阶段对抗图像样本,包括:
依据所述预设步长以及所述预设步长调节参数,确定第二步长;
依据所述第二梯度,以及,所述第二步长,对所述第一阶段对抗图像样本进行扰动增加,得到所述第二阶段对抗图像样本。
13.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器用于执行机器可执行指令,以实现如权利要求1-6任一项所述的方法。
CN202210630379.9A 2022-06-06 2022-06-06 基于深度学习的对抗样本攻击检测方法、装置及电子设备 Active CN114724014B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210630379.9A CN114724014B (zh) 2022-06-06 2022-06-06 基于深度学习的对抗样本攻击检测方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210630379.9A CN114724014B (zh) 2022-06-06 2022-06-06 基于深度学习的对抗样本攻击检测方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN114724014A CN114724014A (zh) 2022-07-08
CN114724014B true CN114724014B (zh) 2023-06-30

Family

ID=82232891

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210630379.9A Active CN114724014B (zh) 2022-06-06 2022-06-06 基于深度学习的对抗样本攻击检测方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN114724014B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109086884A (zh) * 2018-07-17 2018-12-25 上海交通大学 基于梯度逆向对抗样本复原的神经网络优化训练方法
CN110851835A (zh) * 2019-09-23 2020-02-28 平安科技(深圳)有限公司 图像模型检测方法、装置、电子设备及存储介质
CN110969186A (zh) * 2019-10-28 2020-04-07 浙江工业大学 基于通道检测的面向无线信号识别的对抗攻击防御方法与装置
CN111898645A (zh) * 2020-07-03 2020-11-06 贵州大学 基于注意力机制的可迁移的对抗样本攻击方法
WO2021051561A1 (zh) * 2019-09-18 2021-03-25 平安科技(深圳)有限公司 图像分类网络的对抗防御方法、装置、电子设备及计算机可读存储介质
CN113128537A (zh) * 2019-12-31 2021-07-16 华为技术有限公司 样本处理方法和相关装置及存储介质
CN113178255A (zh) * 2021-05-18 2021-07-27 西安邮电大学 一种基于gan的医学诊断模型对抗攻击方法
CN113936140A (zh) * 2021-11-18 2022-01-14 上海电力大学 一种基于增量式学习的对抗样本攻击模型的评估方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108446765A (zh) * 2018-02-11 2018-08-24 浙江工业大学 面向深度学习对抗性攻击的多模型协同防御方法
CN110969242A (zh) * 2019-11-27 2020-04-07 浙江工业大学 一种基于生成式对抗产生通用逆扰动的防御方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109086884A (zh) * 2018-07-17 2018-12-25 上海交通大学 基于梯度逆向对抗样本复原的神经网络优化训练方法
WO2021051561A1 (zh) * 2019-09-18 2021-03-25 平安科技(深圳)有限公司 图像分类网络的对抗防御方法、装置、电子设备及计算机可读存储介质
CN110851835A (zh) * 2019-09-23 2020-02-28 平安科技(深圳)有限公司 图像模型检测方法、装置、电子设备及存储介质
CN110969186A (zh) * 2019-10-28 2020-04-07 浙江工业大学 基于通道检测的面向无线信号识别的对抗攻击防御方法与装置
CN113128537A (zh) * 2019-12-31 2021-07-16 华为技术有限公司 样本处理方法和相关装置及存储介质
CN111898645A (zh) * 2020-07-03 2020-11-06 贵州大学 基于注意力机制的可迁移的对抗样本攻击方法
CN113178255A (zh) * 2021-05-18 2021-07-27 西安邮电大学 一种基于gan的医学诊断模型对抗攻击方法
CN113936140A (zh) * 2021-11-18 2022-01-14 上海电力大学 一种基于增量式学习的对抗样本攻击模型的评估方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Exploring Security Vulnerabilities of Deep Learning Models by Adversarial Attacks;Xiaopeng Fu et al.;《Wireless Communications and Mobile Computing》;第1-9页 *
Improving Adversarial Transferability with Spatial Momentum;Gouqiu Wang et al.;《arXiv:2203.13479v1》;第1-9页 *
一种基于进化策略和注意力机制的黑盒对抗攻击算法;黄立峰 等;《软件学报》;第32卷(第11期);第3512-3529页 *
基于二阶对抗样本的对抗训练防御;钱亚冠 等;《电子与信息学报》;第43卷(第11期);第3367-3373页 *
深度学习对抗样本的防御方法综述;张嘉楠 等;《网络空间安全》;第10卷(第8期);第93-101页 *

Also Published As

Publication number Publication date
CN114724014A (zh) 2022-07-08

Similar Documents

Publication Publication Date Title
US10776671B2 (en) Joint blur map estimation and blur desirability classification from an image
JP4588575B2 (ja) デジタル画像の複数対象物検出方法および装置並びにプログラム
CN112633311A (zh) 利用输入数据结构的高效黑盒对抗性攻击
EP2064652B1 (en) Method of image processing
JP2020508522A (ja) 監視されていないクロスドメイン画像生成のための周期的敵対的生成ネットワーク
US9569699B2 (en) System and method for synthesizing portrait sketch from a photo
US11100374B2 (en) Apparatus and method with classification
CN104680144A (zh) 基于投影极速学习机的唇语识别方法和装置
CN111160229B (zh) 基于ssd网络的视频目标检测方法及装置
CN110633711B (zh) 训练特征点检测器的计算机装置、方法及特征点检测方法
EP3674974A1 (en) Apparatus and method with user verification
JP2005202932A (ja) データを複数のクラスに分類する方法
US20230038579A1 (en) Classification model training method, system, electronic device and strorage medium
CN114724014B (zh) 基于深度学习的对抗样本攻击检测方法、装置及电子设备
CN117218707B (zh) 一种基于积极扰动的Deepfake人脸检测方法
CN113177533A (zh) 一种人脸识别方法、装置及电子设备
CN114677504B (zh) 目标检测方法、装置、设备终端和可读存储介质
CN111062338B (zh) 一种证照人像一致性比对方法及其系统
Akram et al. Enhanced Steganalysis for Color Images Using Curvelet Features and Support VectorMachine.
WO2009151002A2 (ja) パターン識別方法、装置およびプログラム
Aravinth et al. Implementation of Blur Image to Sharp Image Conversion using Laplacian Approach
KR20180082680A (ko) 분류기를 학습시키는 방법 및 이를 이용한 예측 분류 장치
CN113269137A (zh) 一种结合PCANet和遮挡定位的非配合人脸识别方法
JP2009193576A (ja) 対象物の方向性を算出する方法、対象物の方向性を算出する装置およびコンピューター可読媒体
CN111950629A (zh) 对抗样本的检测方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant