CN114724014B - 基于深度学习的对抗样本攻击检测方法、装置及电子设备 - Google Patents
基于深度学习的对抗样本攻击检测方法、装置及电子设备 Download PDFInfo
- Publication number
- CN114724014B CN114724014B CN202210630379.9A CN202210630379A CN114724014B CN 114724014 B CN114724014 B CN 114724014B CN 202210630379 A CN202210630379 A CN 202210630379A CN 114724014 B CN114724014 B CN 114724014B
- Authority
- CN
- China
- Prior art keywords
- image sample
- stage
- sample
- clean
- countermeasure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本申请提供一种基于深度学习的对抗样本攻击检测方法、装置及电子设备,该方法包括:利用优化的基于动量迭代梯度方式,生成干净样本对应的对抗样本;依据所述干净样本对应的对抗样本确定深度神经网络模型的防攻击性能评估结果。该方法可以更有效地对深度神经网络模型的防攻击性能进行评估。
Description
技术领域
本申请涉及人工智能安全技术领域,尤其涉及一种基于深度学习的对抗样本攻击检测方法、装置及电子设备。
背景技术
目前,深度学习的发展为人工智能的应用提供了一种可靠的工具,深度神经网络(Deep Neural Networks,DNNs)已在计算机视觉(如人脸识别、目标检测、自动驾驶)等领域被广泛应用。在自然图像上(如CIFAR-10和ImageNet数据集),最先进的卷积神经网络在图像分类任务中的识别率已经超过人眼。
发明内容
有鉴于此,本申请提供一种基于深度学习的对抗样本攻击检测方法、装置及电子设备,以生成更具有迁移性的对抗样本。
具体地,本申请是通过如下技术方案实现的:
根据本申请实施例的第一方面,提供一种基于深度学习的对抗样本攻击检测方法,包括:
利用优化的基于动量迭代梯度方式,生成干净样本对应的对抗样本;
依据所述干净样本对应的对抗样本确定深度神经网络模型的防攻击性能评估结果;
其中,对于任一干净样本,在生成该干净样本对应的对抗样本的任一次迭代过程中:
依据当前的动量以及交叉熵损失,确定第一梯度,并依据当前的对抗样本以及所述第一梯度,确定第一阶段对抗样本;
依据所述第一阶段对抗样本与该干净样本的特征表示输出差异,确定特征空间损失,依据所述特征空间损失,确定第二梯度,并依据所述第一阶段对抗样本以及所述第二梯度,确定第二阶段对抗样本;所述特征空间损失用于表征所述第一阶段对抗样本与该干净样本之间的特征空间距离,且与所述第一阶段对抗样本与该干净样本之间的特征空间距离正相关;
在迭代次数达到预设最大迭代次数的情况下,将所述第二阶段对抗样本确定为该干净样本对应的对抗样本。
根据本申请实施例的第二方面,提供一种基于深度学习的对抗样本攻击检测装置,包括:
生成单元,用于利用优化的基于动量迭代梯度方式,生成干净样本对应的对抗样本;
检测单元,用于依据所述干净样本对应的对抗样本确定深度神经网络模型的防攻击性能评估结果;
所述生成单元,具体用于对于任一干净样本,在生成该干净样本对应的对抗样本的任一次迭代过程中:
依据当前的动量以及交叉熵损失,确定第一梯度,并依据当前的对抗样本以及所述第一梯度,确定第一阶段对抗样本;
依据所述第一阶段对抗样本与该干净样本的特征表示输出差异,确定特征空间损失,依据所述特征空间损失,确定第二梯度,并依据所述第一阶段对抗样本以及所述第二梯度,确定第二阶段对抗样本;所述特征空间损失用于表征所述第一阶段对抗样本与该干净样本之间的特征空间距离,且与所述第一阶段对抗样本与该干净样本之间的特征空间距离正相关;
在迭代次数达到预设最大迭代次数的情况下,将所述第二阶段对抗样本确定为该干净样本对应的对抗样本。
根据本申请实施例的第三方面,提供一种电子设备,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器用于执行机器可执行指令,以实现第一方面提供的方法。
本申请实施例的基于深度学习的对抗样本攻击检测方法,通过提出一种优化的基于动量迭代梯度方式,并利用该优化的基于动量迭代梯度方式,生成干净样本对应的对抗样本,在对抗样本生成过程中,不仅考虑对抗样本与干净样本在图像空间的距离,还考虑对抗样本与干净样本在特征空间的距离,得到更具有迁移性的对抗样本,进而,依据干净样本对应的对抗样本确定深度神经网络模型的防攻击性能评估结果,更有效地对深度神经网络模型的防攻击性能进行评估。
附图说明
图1为本申请一示例性实施例示出的一种基于深度学习的对抗样本攻击检测方法的流程示意图;
图2为本申请一示例性实施例示出的一种基于深度学习的对抗样本攻击检测装置的结构示意图;
图3为本申请一示例性实施例示出的一种电子设备的硬件结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
为了使本领域技术人员更好地理解本申请实施例提供的技术方案,下面先对本申请实施例涉及的部分技术术语进行简单说明。
5、干净样本:指从训练样本集中取出,且不进行任何预处理的样本,也可以称为自然样本。
9、迁移率:假设 表示包含所有被代理模型错误分类的对抗样本的集合。使用 中的对抗样本来测试目标模型,并用 表示被目标模型错误分类的对抗样本的集合,其
中, 。可以将迁移率定义为 衡量黑盒对抗样本的可转移性。
为了使本申请实施例的上述目的、特征和优点能够更加明显易懂,下面结合附图对本申请实施例中技术方案作进一步详细的说明。
请参见图1,为本申请实施例提供的一种基于深度学习的对抗样本攻击检测方法的流程示意图,如图1所示,该基于深度学习的对抗样本攻击检测方法可以包括以下步骤:
步骤S100、利用优化的基于动量迭代梯度方式,生成干净样本对应的对抗样本。
步骤S110、依据干净样本对应的对抗样本确定深度神经网络模型的防攻击性能评估结果。
本申请实施例中,考虑到传统利用基于动量迭代梯度的方式生成对抗样本的方案中,生成对抗样本时并未考虑对抗样本与干净样本在特征空间的差异,导致基于该方案生成的对抗样本无法充分检测深度神经网络模型对对抗样本的防攻击性能。
基于上述考虑,本申请实施例中,可以对基于动量迭代梯度方式进行优化(可以称为优化的基于动量迭代梯度方式),在利用优化的基于动量迭代梯度方式生成对抗样本时,不仅考虑对抗样本与干净样本在图像空间的差异,还考虑对抗样本与干净样本在特征空间的差异,以生成更具有迁移性的对抗样本,更充分地检测深度神经网络模型对对抗样本的防攻击性能。
示例性的,图像空间也可以称为输入空间,指模型输入所有可能的取值集合,即样本本身存在的空间。
特征空间是指输入空间中样本经过特征工程处理过后(如经过CNN提取特征后的特征图)存在的空间,可以将输入空间中隐藏的特征显现出来。
示例性的,按照步骤S100中描述的方式生成的对抗样本可以为黑盒对抗样本,从而,可以在不需要获得进行防攻击性能评估的深度神经网络模型的参数和结构模型的情况下,即可生成用于不同深度神经网络模型进行防攻击性能评估的对抗样本,有效扩展了防攻击性能评估方案的适用场景。
需要说明的是,对于按照步骤S100中描述的方式生成的黑盒对抗样本,可以统计所生成的黑盒对抗样本的迁移率,迁移率越高,则表明所生成的黑盒对抗样本用于进行对抗样本攻击的攻击成功率越高,进而,表明所生成的黑盒对抗样本用于进行深度神经网络模型防攻击性能评估的效果越好。
本申请实施例中,在利用优化的基于动量迭代梯度方式,生成干净样本对应的对抗样本的过程中,对于任一干净样本,在生成该干净样本对应的对抗样本的任一迭代过程中,其实现可以包括以下步骤:
步骤S101、依据当前的动量以及交叉熵损失,确定第一梯度,并依据当前的对抗样本以及第一梯度,确定第一阶段对抗样本。
步骤S102、依据第一阶段对抗样本与该干净样本的特征表示输出差异,确定特征空间损失,依据特征空间损失,确定第二梯度,并依据第一阶段对抗样本以及第二梯度,确定第二阶段对抗样本;该特征空间损失用于表征第一阶段对抗样本与该干净样本之间的特征空间距离,且与第一阶段对抗样本与该干净样本之间的特征空间距离正相关。
本申请实施例中,在生成干净样本对应的对抗样本的过程中,任一次迭代过程可以包括两个阶段:依据干净样本与对抗样本在图像空间的距离增加扰动的阶段(可以称为第一阶段),以及,依据干净样本与对抗样本在特征空间的距离增加扰动的阶段(可以称为第二阶段)。
相应地,对于任一干净样本,在利用优化的基于动量迭代梯度方式生成该干净样本对应的干扰样本时,对于任一次迭代过程,可以依据当前的动量以及交叉熵损失(用于表征干净样本与对抗样本在图像空间上的距离),确定此次迭代过程中第一阶段的梯度(本文中称为第一梯度)。
示例性的,对于第一次迭代过程,当前的动量可以为预设的初始动量,如0;对于非第一次迭代过程,当前的动量为上一次迭代过程中第二阶段确定的梯度(可以称为第二梯度)。
示例性的,在得到第一梯度的情况下,可以依据该第一梯度,对当前的对抗样本进行扰动增加,得到第一阶段对抗样本。
示例性的,对于第一次迭代过程,当前的对抗样本可以为干净样本;对于非第一次迭代过程,当前的对抗样本可以为上一次迭代过程中第二阶段确定的对抗样本(可以称为第二对抗样本)。
示例性的,在一次迭代过程的第二阶段,可以依据第一阶段对抗样本与干净样本的特征表示输出差异,确定特征空间损失(用于表征干净样本与对抗样本在特征空间上的距离),并依据特征空间损失确定第二阶段的梯度(即第二梯度)。
在确定了第二梯度的情况下,可以依据该第二梯度,对第一阶段对抗样本进行扰动增加,得到第二阶段对抗样本。
示例性的,在迭代次数达到预设最大迭代次数的情况下,可以将此次迭代过程中确定的第二阶段对抗样本确定为该干净样本对应的对抗样本;在迭代次数未达到预设最大迭代次数的情况下,可以将此次迭代过程中确定的第二阶段对抗样本确定为当前对抗样本,并继续进行下一次迭代过程。
本申请实施例中,在按照上述方式生成了干净样本对应的对抗样本的情况下,可以依据干净样本对应的对抗样本对深度神经网络模型进行防攻击性能评估,确定深度神经网络模型的防攻击性能评估。
例如,可以统计深度神经网络模型对对抗样本的分类准确性,准确性越高,则表明深度神经网络模型的防攻击性能越好(如抗黑盒攻击能力越强)。
可见,在图1所示方法流程中,通过提出一种优化的基于动量迭代梯度方式,并利用该优化的基于动量迭代梯度方式,生成干净样本对应的对抗样本,在对抗样本生成过程中,不仅考虑对抗样本与干净样本在图像空间的距离,还考虑对抗样本与干净样本在特征空间的距离,得到更具有迁移性的对抗样本(即更容易使深度神经网络模型分类错误的对抗样本),进而,依据干净样本对应的对抗样本确定深度神经网络模型的防攻击性能评估结果,更有效地对深度神经网络模型的防攻击性能进行评估。
在一些实施例中,上述依据第一阶段对抗样本与该干净样本的特征表示输出差异,确定特征空间损失,可以包括:
依据所述第一阶段对抗样本与该干净样本的特征表示输出差异,利用投影公式,确定特征空间损失。
示例性的,为了尽可能扩大对抗样本与干净样本的特征表示输出差异在当前特征改变方向的投影,可以依据第一阶段对抗样本与该干净样本的特征表示输出差异,利用投影公式,确定特征空间损失。
举例来说,假设 为 在l层的特征输出表示, 为样本x在深度
神经网络模型中的输出,则可以依据 确定第一阶段对抗样本与干净样本的
特征表示输出差异,利用投影公式,确定特征空间损失;其中, 即为上述第一阶段对抗样
本。
在另一些实施例中,上述依据第一阶段对抗样本与该干净样本的特征表示输出差异,确定特征空间损失,可以包括:
依据第一阶段对抗样本与该干净样本的特征表示输出差异的范数,确定特征空间损失。
示例性的,为了提高特征空间损失确定的效率,可以不考虑方向,而仅考虑距离本身,尽可能扩大对抗样本与干净样本在特征空间上的距离。
示例性的,可以依据第一阶段对抗样本与干净样本的特征表示输出的范数,确定特征空间损失。
例如,假设 为 在l层的特征输出表示, 为样本x在深度神
经网络模型中的输出,则可以依据 确定特征空间损失,其中, 为 的2-范数,可以用于表征 与 在欧
式空间上的距离,即依据第一阶段对抗样本和干净样本的特征输出表示在欧式空间上的距
离,确定特征空间损失。
在另一些实施例中,上述依据第一阶段对抗样本与该干净样本的特征表示输出差异,确定特征空间损失,可以包括:
依据第一阶段对抗样本与该干净样本的特征表示输出差异,利用投影公式,确定第一特征空间损失;
以及,依据第一阶段对抗样本与该干净样本的特征表示输出差异的范数,确定第二特征空间损失;
依据第一特征空间损失、第二特征空间损失,以及,预设特征空间损失均衡参数,确定最终特征空间损失。
示例性的,为了均衡方向和距离的关系,得到更准确地表征对抗样本与干净样本之间的特征空间距离的特征空间损失,可以分别按照上述方式得到包含方向信息的特征空间损失(可以称为第一特征空间损失),以及,未包含方向信息的特征空间损失(可以称为第二特征空间损失),依据该两个损失确定最终的特征空间损失。
示例性的,可以预先设定用于对第一特征空间损失和第二特征空间损失进行均衡的均衡参数(可以称为预设特征空间损失均衡参数),进而,可以依据第一特征空间损失、第二特征空间损失,以及,预设特征空间损失均衡参数,确定最终特征空间损失。
在一些实施例中,上述依据当前的对抗样本以及第一梯度,确定第一阶段对抗样本,可以包括:
依据当前的对抗样本、第一梯度、预设步长,以及,预设步长调节参数,确定第一阶段对抗样本;
上述依据第一阶段对抗样本以及第二梯度,确定第二阶段对抗样本,可以包括:
依据第一阶段对抗样本、第二梯度、预设步长,以及,预设步长调节参数,确定第二阶段对抗样本。
示例性的,由于生成干净样本对应的对抗样本的任一次迭代过程中,扰动增加被划分为了两个阶段,因此,一次迭代过程中的扰动增加的步长也可以分为两个阶段,该两个阶段增加的扰动可以依据预设步长调节参数确定。
示例性的,对于生成干净样本对应的对抗样本的任一次迭代过程,在第一阶段,可以依据当前的对抗样本、第一梯度、预设步长,以及,预设步长调节参数,确定第一阶段对抗样本。
在第二阶段,可以依据第一阶段对抗样本、第二梯度、预设步长,以及,预设步长调节参数,确定第二阶段对抗样本。
在一个示例中,上述依据当前的对抗样本、第一梯度、预设步长,以及,预设步长调节参数,确定第一阶段对抗样本,可以包括:
依据预设步长以及预设步长调节参数,确定第一步长;
依据当前的对抗样本、第一梯度,以及,第一步长,确定第一阶段对抗样本;
上述依据第一阶段对抗样本、第二梯度、预设步长,以及,预设步长调节参数,确定第二阶段对抗样本,可以包括:
依据预设步长以及预设步长调节参数,确定第二步长;
依据第一阶段对抗样本、第二梯度,以及,第二步长,确定第二阶段对抗样本。
示例性的,对于生成干净样本对应的对抗样本的任一次迭代过程,在第一阶段,可以依据预设步长调节参数,对预设步长进行调节,得到第一步长,并依据第一步长以及第一梯度,对当前的对抗样本进行扰动增加,得到第一阶段对抗样本。
在第二阶段,可以依据预设步长调节参数,对预设步长进行调节,得到第二步长,并依据第二步长以及第二梯度,对第一阶段对抗样本进行扰动增加,得到第二阶段对抗样本。
示例性的,上述第一步长与第二步长之和等于上述预设步长。
为了使本领域技术人员更好地理解本申请实施例提供的技术方案,下面结合具体实例对本申请实施例提供的技术方案进行说明。
在该实施例中,可以利用在特征空间中的脆弱性,通过扩大迭代过程中当前特征改变方向上的投影,调整迭代过程中梯度的生成方向,以引导生成更具有迁移性的对抗样本。在迭代过程中,通过保证特征变化方向的一致性,生成更具有迁移性的对抗样本,以更加充分地利用特征空间中的信息,更好地检测DNNs模型在特征空间中的脆弱性及其在黑盒测试下的模型有效性。
在该实施例中,生成干净样本对应的对抗样本的每一次迭代过程可以包括两个阶段:
下面对具体实现流程进行说明。
步骤2、将每一次迭代过程划分为两个阶段:第一阶段和第二阶段。
步骤7、重复上述步骤3~6,直至迭代次数达到N次。
步骤8、依据生成的对抗样本测试模型的防攻击性能。
为了使本领域技术人员更好地理解本申请实施例的技术效果,下面结合具体实验分析对本申请实施例进一步进行说明。
一、实验设置
1.1、数据集:
可以使用自然数据集cifar10和两个公开的分类任务数据集,第一个是视网膜病变分类任务Kaggle Fundoscopy dataset,其中包含3662张图片,每张图片的标签分为从‘No DR’到‘Mild(轻度)/Moderate(中度)/Severe(重度)/Proliferative(增殖性) DR’五个等级,本申请中可以将该数据集划分为二分类数据集,为寻找程度在‘Moderate’以上的图像;第二个是肺炎分类任务数据集Kaggle Chest X-ray,其中包含5840张图片,每张图片的标签为‘PNEUMONIA(肺炎)’和‘NORMAL(正常)’。
1.2、数据预处理:
对于Kaggle Fundoscopy dataset,可以将原图边缘黑边部分裁剪,并将两个数据集均重新裁剪为299×299×3的分辨率,cifar10使用原数据不做处理。三个数据集训练时均normalize(归一化)为[-1,1],并且使用随机旋转、随机水平变化数据增强。
1.3、模型
模型选择为densenet121、resnet50、vgg16_bn,三个模型均使用torchvision包自带模型,并加载imagenet预训练权重为初始化权重。
下面对本申请实施例提供的技术方案在两个公共数据集上的实验结果进行展示。
其中,为了避免过拟合于数据集,可以使用训练过程中的测试集作为实验数据集。
对抗样本生成方法分别选择FGSM、BIM、MIFGSM、TAP,以及本申请提供的方案(记为MFP方
法),代理模型和目标模型选择均为resnet50、vgg16bn和densenet121。BIM、MIFGSM、TAP和
MFP方法均以20次迭代运行,扰动约束选用 范数, 为4/255, 为4/20/255。
表1 、各种方法生成对抗样本的可迁移性在精度上的比较,对抗样本由resnet50、vgg16bn和densenet121生成,源模型(Source Model)和目标模型(Target Model)一致意味着该测试为白盒测试
如表1所示,在两个数据集上,证明了MFP方法不仅提高在白盒测试上的成功率,也提高了对抗样本的迁移性,性能超过了MI-FGSM和TAP。实验结果表明本申请实施例提供的方案不会只针对特定模型生效,其生成的对抗样本可以在不同源模型和目标模型下都有着较好的迁移性,可以实现一种通用的黑盒对抗样本生成方法。
以上对本申请提供的方法进行了描述。下面对本申请提供的装置进行描述:
请参见图2,为本申请实施例提供的一种基于深度学习的对抗样本攻击检测装置的结构示意图,如图2所示,该基于深度学习的对抗样本攻击检测装置可以包括:
生成单元210,用于利用优化的基于动量迭代梯度方式,生成干净样本对应的对抗样本;
检测单元220,用于依据所述干净样本对应的对抗样本确定深度神经网络模型的防攻击性能评估结果;
所述生成单元210,具体用于对于任一干净样本,在生成该干净样本对应的对抗样本的任一次迭代过程中:
依据当前的动量以及交叉熵损失,确定第一梯度,并依据当前的对抗样本以及所述第一梯度,确定第一阶段对抗样本;
依据所述第一阶段对抗样本与该干净样本的特征表示输出差异,确定特征空间损失,依据所述特征空间损失,确定第二梯度,并依据所述第一阶段对抗样本以及所述第二梯度,确定第二阶段对抗样本;所述特征空间损失用于表征所述第一阶段对抗样本与该干净样本之间的特征空间距离,且与所述第一阶段对抗样本与该干净样本之间的特征空间距离正相关;
在迭代次数达到预设最大迭代次数的情况下,将所述第二阶段对抗样本确定为该干净样本对应的对抗样本。
在一些实施例中,所述生成单元210依据所述第一阶段对抗样本与该干净样本的特征表示输出差异,确定特征空间损失,包括:
依据所述第一阶段对抗样本与该干净样本的特征表示输出差异,利用投影公式,确定特征空间损失。
在一些实施例中,所述生成单元210依据所述第一阶段对抗样本与该干净样本的特征表示输出差异,确定特征空间损失,包括:
依据所述第一阶段对抗样本与该干净样本的特征表示输出差异的范数,确定特征空间损失。
在一些实施例中,所述生成单元210依据所述第一阶段对抗样本与该干净样本的特征表示输出差异,确定特征空间损失,包括:
依据所述第一阶段对抗样本与该干净样本的特征表示输出差异,利用投影公式,确定第一特征空间损失;
以及,依据所述第一阶段对抗样本与该干净样本的特征表示输出差异的范数,确定第二特征空间损失;
依据所述第一特征空间损失、第二特征空间损失,以及,预设特征空间损失均衡参数,确定最终特征空间损失。
在一些实施例中,所述生成单元210依据当前的对抗样本以及所述第一梯度,确定第一阶段对抗样本,包括:
依据当前的对抗样本、所述第一梯度、预设步长,以及,预设步长调节参数,确定所述第一阶段对抗样本;
所述生成单元210依据所述第一阶段对抗样本以及所述第二梯度,确定第二阶段对抗样本,包括:
依据所述第一阶段对抗样本、所述第二梯度、所述预设步长,以及,所述预设步长调节参数,确定所述第二阶段对抗样本。
在一些实施例中,所述生成单元210依据当前的对抗样本、所述第一梯度、预设步长,以及,预设步长调节参数,确定所述第一阶段对抗样本,包括:
依据所述预设步长以及所述预设步长调节参数,确定第一步长;
依据当前的对抗样本、所述第一梯度,以及,所述第一步长,确定所述第一阶段对抗样本;
所述生成单元210依据所述第一阶段对抗样本、所述第二梯度、所述预设步长,以及,所述预设步长调节参数,确定所述第二阶段对抗样本,包括:
依据所述预设步长以及所述预设步长调节参数,确定第二步长;
依据所述第一阶段对抗样本、所述第二梯度,以及,所述第二步长,确定所述第二阶段对抗样本。
请参见图3,为本申请实施例提供的一种电子设备的硬件结构示意图。该电子设备可包括处理器301、存储有计算机程序的机器可读存储介质302。处理器301与机器可读存储介质302可经由系统总线303通信。并且,通过读取并执行机器可读存储介质302中与基于深度学习的对抗样本攻击检测逻辑对应的计算机程序,处理器301可执行上文描述的任意基于深度学习的对抗样本攻击检测方法。
本文中提到的机器可读存储介质302可以是任何电子、磁性、光学或其它物理存储装置,可以包含或存储信息,如可执行指令、数据,等等。例如,机器可读存储介质可以是:RAM(Radom Access Memory,随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等),或者类似的存储介质,或者它们的组合。
在一些实施例中,还提供了一种机器可读存储介质,该机器可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上文描述的基于深度学习的对抗样本攻击检测方法。例如,所述机器可读存储介质可以是ROM、RAM、CD-ROM、磁带、软盘和光数据存储设备等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。
Claims (13)
1.一种基于深度学习的对抗样本攻击检测方法,其特征在于,包括:
利用优化的基于动量迭代梯度方式,生成干净图像样本对应的对抗图像样本;
依据所述干净图像样本对应的对抗图像样本确定深度神经网络模型的防攻击性能评估结果;其中,所述深度神经网络模型至少用于图像分类,所述深度神经网络模型对对抗图像样本的分类准确性越高,表明所述深度神经网络模型的防攻击性能越好;
其中,对于任一干净图像样本,在生成该干净图像样本对应的对抗图像样本的任一次迭代过程中包含第一阶段和第二阶段:所述第一阶段是依据干净图像样本与对抗图像样本在图像空间的距离增加扰动的阶段,所述第二阶段是依据干净图像样本与对抗图像样本在特征空间的距离增加扰动的阶段;
其中,在第一阶段,依据当前的动量以及交叉熵损失,确定第一梯度,其中,所述交叉熵损失用于表征干净图像样本与对抗图像样本在图像空间上的距离;并依据所述第一梯度对当前的对抗图像样本进行扰动增加,得到第一阶段对抗图像样本;对于第一次迭代过程,当前的对抗图像样本为干净图像样本;对于非第一次迭代过程,当前的对抗图像样本为上一次迭代过程中得到的第二阶段对抗图像样本;
在第二阶段,依据所述第一阶段对抗图像样本与该干净图像样本的特征表示输出差异,确定特征空间损失,所述特征空间损失用于表征所述第一阶段对抗图像样本与该干净图像样本之间的特征空间距离,且与所述第一阶段对抗图像样本与该干净图像样本之间的特征空间距离正相关;依据所述特征空间损失,确定第二梯度,并依据所述第二梯度对所述第一阶段对抗图像样本进行扰动增加,得到第二阶段对抗图像样本;
在迭代次数达到预设最大迭代次数的情况下,将所述第二阶段对抗图像样本确定为该干净图像样本对应的对抗图像样本,以生成更具有迁移性的对抗图像样本。
2.根据权利要求1所述的方法,其特征在于,所述依据所述第一阶段对抗图像样本与该干净图像样本的特征表示输出差异,确定特征空间损失,包括:
依据所述第一阶段对抗图像样本与该干净图像样本的特征表示输出差异,利用投影公式,确定特征空间损失。
3.根据权利要求1所述的方法,其特征在于,所述依据所述第一阶段对抗图像样本与该干净图像样本的特征表示输出差异,确定特征空间损失,包括:
依据所述第一阶段对抗图像样本与该干净图像样本的特征表示输出差异的范数,确定特征空间损失。
4.根据权利要求1所述的方法,其特征在于,所述依据所述第一阶段对抗图像样本与该干净图像样本的特征表示输出差异,确定特征空间损失,包括:
依据所述第一阶段对抗图像样本与该干净图像样本的特征表示输出差异,利用投影公式,确定第一特征空间损失;
以及,依据所述第一阶段对抗图像样本与该干净图像样本的特征表示输出差异的范数,确定第二特征空间损失;
依据所述第一特征空间损失、第二特征空间损失,以及,预设特征空间损失均衡参数,确定最终特征空间损失。
5.根据权利要求1所述的方法,其特征在于,所述依据所述第一梯度对当前的对抗图像样本进行扰动增加,得到第一阶段对抗图像样本,包括:
依据所述第一梯度、预设步长,以及,预设步长调节参数,对当前的对抗图像样本进行扰动增加,得到所述第一阶段对抗图像样本;
所述依据所述第二梯度对所述第一阶段对抗图像样本进行扰动增加,得到第二阶段对抗图像样本,包括:
依据所述第二梯度、所述预设步长,以及,所述预设步长调节参数,对所述第一阶段对抗图像样本进行扰动增加,得到所述第二阶段对抗图像样本。
6.根据权利要求5所述的方法,其特征在于,所述依据所述第一梯度、预设步长,以及,预设步长调节参数,对当前的对抗图像样本进行扰动增加,得到所述第一阶段对抗图像样本,包括:
依据所述预设步长以及所述预设步长调节参数,确定第一步长;
依据所述第一梯度,以及,所述第一步长,对当前的对抗图像样本进行扰动增加,得到所述第一阶段对抗图像样本;
所述依据所述第二梯度、所述预设步长,以及,所述预设步长调节参数,对所述第一阶段对抗图像样本进行扰动增加,得到所述第二阶段对抗图像样本,包括:
依据所述预设步长以及所述预设步长调节参数,确定第二步长;
依据所述第二梯度,以及,所述第二步长,对所述第一阶段对抗图像样本进行扰动增加,得到所述第二阶段对抗图像样本。
7.一种基于深度学习的对抗图像样本攻击检测装置,其特征在于,包括:
生成单元,用于利用优化的基于动量迭代梯度方式,生成干净图像样本对应的对抗图像样本;
检测单元,用于依据所述干净图像样本对应的对抗图像样本确定深度神经网络模型的防攻击性能评估结果;其中,所述深度神经网络模型至少用于图像分类,所述深度神经网络模型对对抗图像样本的分类准确性越高,表明所述深度神经网络模型的防攻击性能越好;
所述生成单元,具体用于对于任一干净图像样本,在生成该干净图像样本对应的对抗图像样本的任一次迭代过程中包含第一阶段和第二阶段:所述第一阶段是依据干净图像样本与对抗图像样本在图像空间的距离增加扰动的阶段,所述第二阶段是依据干净图像样本与对抗图像样本在特征空间的距离增加扰动的阶段;
其中,在第一阶段,依据当前的动量以及交叉熵损失,确定第一梯度,其中,所述交叉熵损失用于表征干净图像样本与对抗图像样本在图像空间上的距离;并依据所述第一梯度对当前的对抗图像样本进行扰动增加,得到第一阶段对抗图像样本;对于第一次迭代过程,当前的对抗图像样本为干净图像样本;对于非第一次迭代过程,当前的对抗图像样本为上一次迭代过程中得到的第二阶段对抗图像样本;
在第二阶段,依据所述第一阶段对抗图像样本与该干净图像样本的特征表示输出差异,确定特征空间损失,所述特征空间损失用于表征所述第一阶段对抗图像样本与该干净图像样本之间的特征空间距离,且与所述第一阶段对抗图像样本与该干净图像样本之间的特征空间距离正相关;依据所述特征空间损失,确定第二梯度,并依据所述第二梯度对所述第一阶段对抗图像样本进行扰动增加,得到第二阶段对抗图像样本;
在迭代次数达到预设最大迭代次数的情况下,将所述第二阶段对抗图像样本确定为该干净图像样本对应的对抗图像样本,以生成更具有迁移性的对抗图像样本。
8.根据权利要求7所述的装置,其特征在于,所述生成单元依据所述第一阶段对抗图像样本与该干净图像样本的特征表示输出差异,确定特征空间损失,包括:
依据所述第一阶段对抗图像样本与该干净图像样本的特征表示输出差异,利用投影公式,确定特征空间损失。
9.根据权利要求7所述的装置,其特征在于,所述生成单元依据所述第一阶段对抗图像样本与该干净图像样本的特征表示输出差异,确定特征空间损失,包括:
依据所述第一阶段对抗图像样本与该干净图像样本的特征表示输出差异的范数,确定特征空间损失。
10.根据权利要求7所述的装置,其特征在于,所述生成单元依据所述第一阶段对抗图像样本与该干净图像样本的特征表示输出差异,确定特征空间损失,包括:
依据所述第一阶段对抗图像样本与该干净图像样本的特征表示输出差异,利用投影公式,确定第一特征空间损失;
以及,依据所述第一阶段对抗图像样本与该干净图像样本的特征表示输出差异的范数,确定第二特征空间损失;
依据所述第一特征空间损失、第二特征空间损失,以及,预设特征空间损失均衡参数,确定最终特征空间损失。
11.根据权利要求7所述的装置,其特征在于,所述生成单元依据所述第一梯度对当前的对抗图像样本进行扰动增加,得到第一阶段对抗图像样本,包括:
依据所述第一梯度、预设步长,以及,预设步长调节参数,对当前的对抗图像样本进行扰动增加,得到所述第一阶段对抗图像样本;
所述生成单元依据所述第二梯度对所述第一阶段对抗图像样本进行扰动增加,得到第二阶段对抗图像样本,包括:
依据所述第二梯度、所述预设步长,以及,所述预设步长调节参数,对所述第一阶段对抗图像样本进行扰动增加,得到所述第二阶段对抗图像样本。
12.根据权利要求11所述的装置,其特征在于,所述生成单元依据所述第一梯度、预设步长,以及,预设步长调节参数,对当前的对抗图像样本进行扰动增加,得到所述第一阶段对抗图像样本,包括:
依据所述预设步长以及所述预设步长调节参数,确定第一步长;
依据所述第一梯度,以及,所述第一步长,对当前的对抗图像样本进行扰动增加,得到所述第一阶段对抗图像样本;
所述生成单元依据所述第二梯度、所述预设步长,以及,所述预设步长调节参数,对所述第一阶段对抗图像样本进行扰动增加,得到所述第二阶段对抗图像样本,包括:
依据所述预设步长以及所述预设步长调节参数,确定第二步长;
依据所述第二梯度,以及,所述第二步长,对所述第一阶段对抗图像样本进行扰动增加,得到所述第二阶段对抗图像样本。
13.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器用于执行机器可执行指令,以实现如权利要求1-6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210630379.9A CN114724014B (zh) | 2022-06-06 | 2022-06-06 | 基于深度学习的对抗样本攻击检测方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210630379.9A CN114724014B (zh) | 2022-06-06 | 2022-06-06 | 基于深度学习的对抗样本攻击检测方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114724014A CN114724014A (zh) | 2022-07-08 |
CN114724014B true CN114724014B (zh) | 2023-06-30 |
Family
ID=82232891
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210630379.9A Active CN114724014B (zh) | 2022-06-06 | 2022-06-06 | 基于深度学习的对抗样本攻击检测方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114724014B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109086884A (zh) * | 2018-07-17 | 2018-12-25 | 上海交通大学 | 基于梯度逆向对抗样本复原的神经网络优化训练方法 |
CN110851835A (zh) * | 2019-09-23 | 2020-02-28 | 平安科技(深圳)有限公司 | 图像模型检测方法、装置、电子设备及存储介质 |
CN110969186A (zh) * | 2019-10-28 | 2020-04-07 | 浙江工业大学 | 基于通道检测的面向无线信号识别的对抗攻击防御方法与装置 |
CN111898645A (zh) * | 2020-07-03 | 2020-11-06 | 贵州大学 | 基于注意力机制的可迁移的对抗样本攻击方法 |
WO2021051561A1 (zh) * | 2019-09-18 | 2021-03-25 | 平安科技(深圳)有限公司 | 图像分类网络的对抗防御方法、装置、电子设备及计算机可读存储介质 |
CN113128537A (zh) * | 2019-12-31 | 2021-07-16 | 华为技术有限公司 | 样本处理方法和相关装置及存储介质 |
CN113178255A (zh) * | 2021-05-18 | 2021-07-27 | 西安邮电大学 | 一种基于gan的医学诊断模型对抗攻击方法 |
CN113936140A (zh) * | 2021-11-18 | 2022-01-14 | 上海电力大学 | 一种基于增量式学习的对抗样本攻击模型的评估方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108446765A (zh) * | 2018-02-11 | 2018-08-24 | 浙江工业大学 | 面向深度学习对抗性攻击的多模型协同防御方法 |
CN110969242A (zh) * | 2019-11-27 | 2020-04-07 | 浙江工业大学 | 一种基于生成式对抗产生通用逆扰动的防御方法 |
-
2022
- 2022-06-06 CN CN202210630379.9A patent/CN114724014B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109086884A (zh) * | 2018-07-17 | 2018-12-25 | 上海交通大学 | 基于梯度逆向对抗样本复原的神经网络优化训练方法 |
WO2021051561A1 (zh) * | 2019-09-18 | 2021-03-25 | 平安科技(深圳)有限公司 | 图像分类网络的对抗防御方法、装置、电子设备及计算机可读存储介质 |
CN110851835A (zh) * | 2019-09-23 | 2020-02-28 | 平安科技(深圳)有限公司 | 图像模型检测方法、装置、电子设备及存储介质 |
CN110969186A (zh) * | 2019-10-28 | 2020-04-07 | 浙江工业大学 | 基于通道检测的面向无线信号识别的对抗攻击防御方法与装置 |
CN113128537A (zh) * | 2019-12-31 | 2021-07-16 | 华为技术有限公司 | 样本处理方法和相关装置及存储介质 |
CN111898645A (zh) * | 2020-07-03 | 2020-11-06 | 贵州大学 | 基于注意力机制的可迁移的对抗样本攻击方法 |
CN113178255A (zh) * | 2021-05-18 | 2021-07-27 | 西安邮电大学 | 一种基于gan的医学诊断模型对抗攻击方法 |
CN113936140A (zh) * | 2021-11-18 | 2022-01-14 | 上海电力大学 | 一种基于增量式学习的对抗样本攻击模型的评估方法 |
Non-Patent Citations (5)
Title |
---|
Exploring Security Vulnerabilities of Deep Learning Models by Adversarial Attacks;Xiaopeng Fu et al.;《Wireless Communications and Mobile Computing》;第1-9页 * |
Improving Adversarial Transferability with Spatial Momentum;Gouqiu Wang et al.;《arXiv:2203.13479v1》;第1-9页 * |
一种基于进化策略和注意力机制的黑盒对抗攻击算法;黄立峰 等;《软件学报》;第32卷(第11期);第3512-3529页 * |
基于二阶对抗样本的对抗训练防御;钱亚冠 等;《电子与信息学报》;第43卷(第11期);第3367-3373页 * |
深度学习对抗样本的防御方法综述;张嘉楠 等;《网络空间安全》;第10卷(第8期);第93-101页 * |
Also Published As
Publication number | Publication date |
---|---|
CN114724014A (zh) | 2022-07-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10776671B2 (en) | Joint blur map estimation and blur desirability classification from an image | |
JP4588575B2 (ja) | デジタル画像の複数対象物検出方法および装置並びにプログラム | |
CN112633311A (zh) | 利用输入数据结构的高效黑盒对抗性攻击 | |
EP2064652B1 (en) | Method of image processing | |
JP2020508522A (ja) | 監視されていないクロスドメイン画像生成のための周期的敵対的生成ネットワーク | |
US9569699B2 (en) | System and method for synthesizing portrait sketch from a photo | |
US11100374B2 (en) | Apparatus and method with classification | |
CN104680144A (zh) | 基于投影极速学习机的唇语识别方法和装置 | |
CN111160229B (zh) | 基于ssd网络的视频目标检测方法及装置 | |
CN110633711B (zh) | 训练特征点检测器的计算机装置、方法及特征点检测方法 | |
EP3674974A1 (en) | Apparatus and method with user verification | |
JP2005202932A (ja) | データを複数のクラスに分類する方法 | |
US20230038579A1 (en) | Classification model training method, system, electronic device and strorage medium | |
CN114724014B (zh) | 基于深度学习的对抗样本攻击检测方法、装置及电子设备 | |
CN117218707B (zh) | 一种基于积极扰动的Deepfake人脸检测方法 | |
CN113177533A (zh) | 一种人脸识别方法、装置及电子设备 | |
CN114677504B (zh) | 目标检测方法、装置、设备终端和可读存储介质 | |
CN111062338B (zh) | 一种证照人像一致性比对方法及其系统 | |
Akram et al. | Enhanced Steganalysis for Color Images Using Curvelet Features and Support VectorMachine. | |
WO2009151002A2 (ja) | パターン識別方法、装置およびプログラム | |
Aravinth et al. | Implementation of Blur Image to Sharp Image Conversion using Laplacian Approach | |
KR20180082680A (ko) | 분류기를 학습시키는 방법 및 이를 이용한 예측 분류 장치 | |
CN113269137A (zh) | 一种结合PCANet和遮挡定位的非配合人脸识别方法 | |
JP2009193576A (ja) | 対象物の方向性を算出する方法、対象物の方向性を算出する装置およびコンピューター可読媒体 | |
CN111950629A (zh) | 对抗样本的检测方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |