CN113674140A - 一种物理对抗样本生成方法及系统 - Google Patents

一种物理对抗样本生成方法及系统 Download PDF

Info

Publication number
CN113674140A
CN113674140A CN202110960092.8A CN202110960092A CN113674140A CN 113674140 A CN113674140 A CN 113674140A CN 202110960092 A CN202110960092 A CN 202110960092A CN 113674140 A CN113674140 A CN 113674140A
Authority
CN
China
Prior art keywords
image
style
original image
image set
disturbance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110960092.8A
Other languages
English (en)
Other versions
CN113674140B (zh
Inventor
张世辉
杨永亮
王磊
左东旭
张晓微
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yanshan University
Original Assignee
Yanshan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yanshan University filed Critical Yanshan University
Priority to CN202110960092.8A priority Critical patent/CN113674140B/zh
Publication of CN113674140A publication Critical patent/CN113674140A/zh
Application granted granted Critical
Publication of CN113674140B publication Critical patent/CN113674140B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/04Context-preserving transformations, e.g. by using an importance map
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种物理对抗样本生成方法及系统。该方法包括:获取原始图像集、风格图像集以及图像集的攻击蒙版图像;采用原始图像集作为训练样本,采用模型窃取法,确定黑盒目标模型的替代模型;基于图像集、对应的攻击蒙版图像和替代模型,采用风格迁移技术思想和基于梯度的对抗样本生成方法生成原始图像集中各图像的攻击区域的风格扰动;对原始图像集进行仿射变换生成变换图像集,并基于替代模型,采用基于梯度的对抗样本生成方法生成变换图像集的自适应扰动;将风格扰动和自适应扰动添加到原始图像集的攻击区域,生成每一张原始图像的物理对抗样本。本发明针对黑盒目标模型生成一种扰动不可察的对抗样本,以准确评估黑盒目标模型的安全性。

Description

一种物理对抗样本生成方法及系统
技术领域
本发明涉及机器视觉领域,特别是涉及一种物理对抗样本生成方法及系统。
背景技术
深度神经网络在许多人工智能系统应用中都取得了巨大的成功,例如图像分类、语言识别、自动驾驶等。然而,最近研究发现深度神经网络模型容易受到人为精心设计的对抗样本欺骗。早期的对抗样本生成方法研究工作主要集中在数字空间中生成对抗样本,并且生成方法可以大致分为基于白盒的对抗样本生成方法和基于黑盒的对抗样本生成方法,基于白盒对抗样本生成方法是基于攻击者可获得目标模型的内部信息生成的对抗样本;而基于黑盒对抗样本生成方法限制攻击者获得目标模型的内部信息,基于对抗样本的迁移性或目标模型的反馈信息生成的对抗样本。
目前,白盒对抗样本生成方法有:基于快速梯度符号法(Fast Gradient SignMethod,FGSM)的白盒对抗样本生成方法,该方法利用目标网络的梯度的方向信息生成数字世界的对抗样本;基于投影梯度下降(Projected Gradient Descent,PGD)的白盒对抗样本生成方法,该方法是迭代的FGSM对抗样本生成方法的变体,进一步提高了对白盒目标模型的攻击成功率;然而以上方法都是基于白盒的对抗样本生成方法,难以成功地攻击黑盒目标模型,基于此,有人提出了基于零阶优化的黑盒攻击(Zeroth Order OptimizationBased Black-boxAttacks,ZOO)的黑盒对抗样本生成方法,该方法利用了梯度估计方法替代黑盒目标模型的梯度信息来生成数字世界对抗样本;进一步地,还有人利用先验知识提出了新的梯度估计方法进一步提升黑盒对抗样本的攻击成功率。以上所述的几种方法都是针对数字世界的图像生成对抗样本,这些对抗样本应用于现实世界时往往因为扰动太小而不能被相机所捕捉,因此无法正常应用于现实世界。
由于数字世界的对抗样本很难迁移到现实世界中并且现实世界中的深度神经网络模型往往处于黑盒状态,因此在现实世界复杂环境下生成黑盒深度神经网络模型的对抗样本更具研究价值。有人提出了利用迭代的FGSM生成物理世界对抗样本,该方法首先生成扰动较大的数字世界对抗样本,之后打印数字对抗样本作为物理对抗样本,然而该方法生成的物理对抗样本在复杂的现实环境中往往容易失效;又有人提出了adversarialpatch对抗补丁贴纸生成方法,该方法生成一个外观突兀的补丁贴纸,该补丁贴纸利用转换期望(Expectation OverTransformation,EOT)的方法保持在复杂的现实环境中保持对抗鲁棒性,将该补丁贴纸贴在现实世界的物体上作为物理对抗样本,然而该方法所生成的补丁贴纸外观突兀容易被人眼所察觉。以上所述的物理对抗样本生成方法都基于白盒的对抗样本生成方法不能成功攻击现实世界的黑盒目标模型,并且生成的物理对抗样本的扰动太大容易被人眼察觉。
基于以上分析可知已有物理对抗样本生成方法存在对于现实世界黑盒目标模型攻击成功率不高和扰动容易察觉等问题,采用现有的存在攻击成功率不高和扰动容易察觉的问题的物理对抗样本对黑盒目标模型的安全性评估,安全性评估的准确性有待提升。
发明内容
基于此,本发明实施例提供一种物理对抗样本生成方法及系统,以针对黑盒目标模型生成一种扰动不可察、攻击成功率高的对抗样本,从而更准确的评估黑盒目标模型的安全性。
为实现上述目的,本发明提供了如下方案:
一种物理对抗样本生成方法,包括:
获取原始图像集、风格图像集、所述原始图像集的攻击蒙版图像和所述风格图像集的攻击蒙版图像;
采用所述原始图像集作为训练样本,采用模型窃取法,确定黑盒目标模型的替代模型;
基于所述原始图像集、所述风格图像集、所述原始图像集的攻击蒙版图像、所述风格图像集的攻击蒙版图像和所述替代模型,采用风格迁移技术思想和基于梯度的对抗样本生成方法生成所述原始图像集中各图像的攻击区域的风格扰动;
对所述原始图像集进行仿射变换生成变换图像集,并基于所述替代模型,采用基于梯度的对抗样本生成方法生成所述变换图像集的自适应扰动;
将所述风格扰动和所述自适应扰动添加到所述原始图像集的攻击区域,生成所述原始图像集中每一张原始图像的物理对抗样本。
可选的,所述采用所述原始图像集作为训练样本,采用模型窃取法,确定黑盒目标模型的替代模型,具体包括:
将所述原始图像集作为训练样本输入所述黑盒目标模型,并利用所述训练样本和所述黑盒目标模型输出的对应的预测标签值构建替代样本集;
将所述替代样本集和所述原始图像集对应的图像真实标签值输入VGG19网络,并以替代模型损失函数最小为目标进行训练,得到训练好的VGG19网络;所述替代模型损失函数是根据所述图像真实标签值、所述VGG19网络输出的预测标签值和所述黑盒目标模型输出的预测标签值构建而成;
将所述训练好的VGG19网络确定为黑盒目标模型的替代模型。
可选的,所述基于所述原始图像集、所述风格图像集、所述原始图像集的攻击蒙版图像、所述风格图像集的攻击蒙版图像和所述替代模型,采用风格迁移技术思想和基于梯度的对抗样本生成方法生成所述原始图像集中各图像的攻击区域的风格扰动,具体包括:
采用所述替代模型构建局部特征提取器;
对于所述原始图像集中的任意一张原始图像,采用所述原始图像集的攻击蒙版图像确定当前迭代次数t下的图像对抗样本的攻击区域,采用所述风格图像集的攻击蒙版图像确定所述风格图像集中风格图像的攻击区域;其中,第1次迭代时的图像对抗样本为所述原始图像;
采用所述局部特征提取器分别提取所述图像对抗样本的攻击区域的风格特征、所述风格图像的攻击区域的风格特征、所述图像对抗样本的攻击区域的内容特征和所述原始图像集中原始图像的攻击区域的内容特征;
根据所述图像对抗样本的攻击区域的风格特征和所述风格图像的攻击区域的风格特征,确定风格特征损失函数;
根据所述图像对抗样本的攻击区域的内容特征和所述原始图像的攻击区域的内容特征,确定内容特征损失函数;
将所述风格特征损失函数和所述内容特征损失函数的梯度确定为所述原始图像在当前迭代次数t下的风格扰动,从而得到所述原始图像集中每一张原始图像的攻击区域当前迭代次数t下的风格扰动。
可选的,所述对所述原始图像集进行仿射变换生成变换图像集,并基于所述替代模型,采用基于梯度的对抗样本生成方法生成所述变换图像集的自适应扰动,具体包括:
从预设图像变换集合中随机选择一种图像变换,对当前迭代次数t下的图像对抗样本进行仿射变换,得到当前迭代次数t下的变换图像;其中,第1次迭代时的图像对抗样本为原始图像集中的任意一张原始图像;所述预设图像变换集合中的每一个元素表示一种图像变换;所述图像变换包括旋转、缩放和平移变化;
将所述变换图像输入所述替代模型,所述替代模型输出所述变换图像的预测值;
基于所述变换图像的预测值和图像真实标签值,计算交叉熵损失函数的梯度,并将所述交叉熵损失函数的梯度确定为所述变换图像在当前迭代次数t下的自适应扰动,从而得到所述原始图像集对应的变换图像集在当前迭代次数t下的自适应扰动。
可选的,所述将所述风格扰动和所述自适应扰动添加到所述原始图像集的攻击区域,生成物理对抗样本,具体包括:
由当前迭代次数t下的风格扰动和当前迭代次数t下的自适应扰动计算当前迭代次数t下的扰动;
由当前迭代次数t下的风格扰动、当前迭代次数t下的自适应扰动和当前迭代次数t下的扰动计算下一迭代次数t+1下的扰动;
基于当前迭代次数t下的图像对抗样本和下一迭代次数t+1下的扰动,生成下一迭代次数t+1下的图像对抗样本;
判断当前迭代次数t是否达到预设的迭代次数;
若是,则将下一迭代次数t+1下的图像对抗样本确定为物理对抗样本。
可选的,所述替代模型损失函数,具体为:
Figure BDA0003221950080000051
其中,Lproxy表示替代模型损失函数;LCE(·)表示交叉熵损失函数;ytrue表示图像真实标签值;yproxy表示VGG19网络输出的预测标签值;
Figure BDA0003221950080000052
表示温度T下VGG19网络输出的预测标签值;
Figure BDA0003221950080000053
表示温度T下黑盒目标模型输出的预测标签值,λ表示权重参数。
可选的,所述风格特征损失函数,具体为:
Figure BDA0003221950080000054
其中,LS表示风格特征损失函数;
Figure BDA0003221950080000055
表示图像对抗样本的攻击区域的风格特征;Gl(s)表示风格图像的攻击区域的风格特征;
Figure BDA0003221950080000056
表示当前迭代次数t下的图像对抗样本;s表示风格图像;l表示局部特征提取器中的卷积层的序号;Sl∈{1,3,5,13}表示风格卷积层集合;
所述内容特征损失函数,具体为:
Figure BDA0003221950080000057
其中,LC表示内容特征损失函数;
Figure BDA0003221950080000058
表示图像对抗样本的攻击区域的内容特征;
Figure BDA0003221950080000059
表示原始图像集中原始图像的攻击区域的内容特征;
Figure BDA00032219500800000510
表示原始图像;Cl∈{9,10}表示内容卷积层集合;
所述风格扰动的计算公式为:
LSC=-(βLS+LC);
Figure BDA0003221950080000061
其中,LSC表示风格内容特征损失函数;β表示超参数;
Figure BDA0003221950080000062
表示LSC关于
Figure BDA0003221950080000063
的梯度;gs表示当前迭代次数t下的风格扰动。
可选的,所述自适应扰动的计算公式为:
Figure BDA0003221950080000064
其中,
Figure BDA0003221950080000065
表示交叉熵损失函数的梯度;LCE(·)表示交叉熵损失函数;yt表示当前迭代次数t下替代模型输出的变换图像的预测值;ytrue表示图像真实标签值;ga表示当前迭代次数t下的自适应扰动。
可选的,所述物理对抗样本,具体为:
gt=ga+gs,
Figure BDA0003221950080000066
Figure BDA0003221950080000067
其中,gs表示当前迭代次数t下的风格扰动;ga表示当前迭代次数t下的自适应扰动;gt表示当前迭代次数t下的扰动;gt+1表示下一迭代次数t+1下的扰动;μ表示衰减因子;α表示每次迭代的步长;sign(·)表示符号函数;||·||1表示L1范数;
Figure BDA0003221950080000068
表示当前迭代次数t下的图像对抗样本;
Figure BDA0003221950080000069
表示对
Figure BDA00032219500800000610
的每个像素裁剪以约束
Figure BDA00032219500800000611
在[0,255]范围内;
Figure BDA00032219500800000612
表示下一迭代次数t+1下的图像对抗样本。
本发明还提供了一种物理对抗样本生成系统,包括:
图像获取模块,用于获取原始图像集、风格图像集、所述原始图像集的攻击蒙版图像和所述风格图像集的攻击蒙版图像;
替代模型构建模块,用于采用所述原始图像集作为训练样本,采用模型窃取法,确定黑盒目标模型的替代模型;
风格扰动生成模块,用于基于所述原始图像集、所述风格图像集、所述原始图像集的攻击蒙版图像、所述风格图像集的攻击蒙版图像和所述替代模型,采用风格迁移技术思想和基于梯度的对抗样本生成方法生成所述原始图像集中各图像的攻击区域的风格扰动;
自适应扰动生成模块,用于对所述原始图像集进行仿射变换生成变换图像集,并基于所述替代模型,采用基于梯度的对抗样本生成方法生成所述变换图像集的自适应扰动;
物理对抗样本生成模块,用于将所述风格扰动和所述自适应扰动添加到所述原始图像集的攻击区域,生成所述原始图像集中每一张原始图像的物理对抗样本。
与现有技术相比,本发明的有益效果是:
本发明实施例提出了一种物理对抗样本生成方法及系统,利用模型窃取法和对抗样本迁移性原理实现了利用替代模型生成物理对抗样本以攻击黑盒目标模型的目标,从而评估黑盒目标模型的安全性;将基于梯度的对抗样本方法生成的高频噪声扰动利用风格迁移技术优化为风格扰动,从而使得对于人眼容易察觉的高频扰动变为对于人眼可接受的风格扰动,即生成了扰动不可察、攻击成功率高的对抗样本,该物理对抗样本的隐蔽性高,将其用于黑盒目标模型评估,能提高对黑盒目标模型的安全性的评估的准确性;利用仿射变换对图像对抗样本进行随机变换,从而增强生成的物理对抗样本在现实世界的攻击成功率,提高对黑盒目标模型的安全性的评估的准确性,评估结果用于发现模型的更多漏洞,以指导构建更为准确的识别模型。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的物理对抗样本生成方法的流程图;
图2为本发明实施例提供的路牌物理对抗样本的生成方法的思路框架图;
图3为本发明实施例提供的物理对抗样本生成系统的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本实施例针对黑盒深度神经网络,提出了一种基于黑盒的物理对抗样本生成方法以生成扰动外观自然的物理对抗样本。图1为本发明实施例提供的物理对抗样本生成方法的流程图。参见图1,本实施例的物理对抗样本生成方法,包括:
步骤101:获取原始图像集、风格图像集、所述原始图像集的攻击蒙版图像(Mask)和所述风格图像集的攻击蒙版图像(Mask)。其中,原始图像集中包括多张原始图像,风格图像集中包括多张风格图像,原始图像和风格图像为同一类别的两张不同图像。原始图像和风格图像可以是多种图像数据集中的图像,例如ImageNet、Caltech256、PASCALVOC、CTSDB。原始图像集中的任意一张原始图像作为初始的图像对抗样本。
步骤101,具体为:
获取数据集中同一类别的两张不同图像作为原始图像和风格图像,利用语义分割技术获得原始图像和风格图像的语义分割图,定位语义分割图中语义类别与图像所属类别相同的语义区域作为原始图像和风格图像的攻击区域,而其余的语义区域作为非攻击区域,基于原始图像和风格图像的分割图中攻击区域和非攻击区域设计相应的攻击蒙版图像。
步骤102:采用所述原始图像集作为训练样本,采用模型窃取法,确定黑盒目标模型的替代模型。步骤102,具体包括:
1)将所述原始图像集作为训练样本输入所述黑盒目标模型,利用所述原始图像集中的图像样本查询所述黑盒目标模型,获取黑盒目标模型对输入图像样本的预测标签值,并利用所述训练样本和所述黑盒目标模型输出的对应的预测标签值构建替代样本集。所述黑盒目标模型为黑盒深度神经网络模型。
2)采用VGG19网络作为替代模型的网络结构,将所述替代样本集和所述原始图像集对应的图像真实标签值输入VGG19网络,并以替代模型损失函数最小为目标进行训练,得到训练好的VGG19网络;所述替代模型损失函数是根据所述图像真实标签值、所述VGG19网络输出的预测标签值和所述黑盒目标模型输出的预测标签值构建而成。
其中,所述替代模型损失函数,具体为:
Figure BDA0003221950080000091
其中,Lproxy表示替代模型损失函数;LCE(·)表示交叉熵损失函数;ytrue表示图像真实标签值;yproxy表示VGG19网络输出的预测标签值(softmax);
Figure BDA0003221950080000092
表示温度T下VGG19网络输出的预测标签值(softmax);
Figure BDA0003221950080000093
表示温度T下黑盒目标模型输出的预测标签值,λ表示权重参数。
3)将所述训练好的VGG19网络确定为黑盒目标模型的替代模型。
步骤103:基于所述原始图像集、所述风格图像集、所述原始图像集的攻击蒙版图像、所述风格图像集的攻击蒙版图像和所述替代模型,采用风格迁移技术思想和基于梯度的对抗样本生成方法生成所述原始图像集中各图像的攻击区域的风格扰动。步骤103,具体包括:
1)风格迁移技术思想包括:采用所述替代模型构建局部特征提取器。局部特征提取器为替代模型不包含全连接层的卷积层部分。
2)对于所述原始图像集中的任意一张原始图像,采用所述原始图像集的攻击蒙版图像确定当前迭代次数t下的图像对抗样本的攻击区域,采用所述风格图像集的攻击蒙版图像确定所述风格图像集中风格图像的攻击区域;其中,第1次迭代时的图像对抗样本为所述原始图像。
3)采用所述局部特征提取器分别提取所述图像对抗样本的攻击区域的风格特征、所述风格图像的攻击区域的风格特征、所述图像对抗样本的攻击区域的内容特征和所述原始图像集中原始图像的攻击区域的内容特征。具体的:
利用公式(2)提取图像对抗样本的特征和风格图像的特征,
Figure BDA0003221950080000101
其中,Conv(·)表示卷积,x表示输入的图像(图像对抗样本或风格图像),l表示局部特征提取器第l层卷积层,
Figure BDA0003221950080000102
表示局部特征提取器中第l层卷积层提取的特征(特征矩阵)。
基于提取的特征,将局部特征提取器的1、3、5、9、10、13层卷积提取的特征划分为与图像风格相关的特征和内容相关的特征,其中第9,10层卷积提取的特征作为内容特征(图像对抗样本的攻击区域的内容特征或原始图像集中原始图像的攻击区域的内容特征),而将1、3、5、13层卷积提取的特征的格拉姆矩阵作为风格特征(图像对抗样本的攻击区域的风格特征或风格图像的攻击区域的风格特征),其中特征的格拉姆矩阵如公式(3)所示:
Figure BDA0003221950080000103
其中,×表示计算某一层特征图之间外积,l表示局部特征提取器第l层卷积,
Figure BDA0003221950080000104
表示特征矩阵
Figure BDA0003221950080000105
的转置。
4)融合风格迁移技术思想和基于梯度的对抗样本生成方法包括:计算风格迁移技术中风格特征损失函数和内容特征损失函数关于图像对抗样本的梯度。
其中,根据所述图像对抗样本的攻击区域的风格特征和所述风格图像的攻击区域的风格特征,确定风格特征损失函数。其中,所述风格特征损失函数,具体为:
Figure BDA0003221950080000106
其中,LS表示风格特征损失函数;
Figure BDA0003221950080000107
表示图像对抗样本的攻击区域的风格特征;Gl(s)表示风格图像的攻击区域的风格特征;
Figure BDA0003221950080000108
表示当前迭代次数t下的图像对抗样本;s表示风格图像;l表示局部特征提取器中的卷积层的序号;Sl∈{1,3,5,13}表示风格卷积层集合。
其中,根据所述图像对抗样本的攻击区域的内容特征和所述原始图像集中原始图像的攻击区域的内容特征,确定内容特征损失函数。其中,所述内容特征损失函数,具体为:
Figure BDA0003221950080000111
其中,LC表示内容特征损失函数;
Figure BDA0003221950080000112
表示图像对抗样本的攻击区域的内容特征;
Figure BDA0003221950080000113
表示原始图像集中原始图像的攻击区域的内容特征;
Figure BDA0003221950080000114
表示原始图像;Cl∈{9,10}表示内容卷积层集合。
然后,计算风格特征损失函数和内容特征损失函数的梯度(风格特征损失函数和内容特征损失函数关于图像对抗样本的梯度)。
6)将所述风格特征损失函数和所述内容特征损失函数的梯度确定为当前迭代次数t下的风格扰动,从而得到所述原始图像集中每一张原始图像的攻击区域当前迭代次数t下的风格扰动。所述风格扰动的计算公式为:
LSC=-(βLS+LC) (6)
Figure BDA0003221950080000115
其中,LSC表示风格内容特征损失函数;β表示超参数;
Figure BDA0003221950080000116
表示LSC关于
Figure BDA0003221950080000117
的梯度;gs表示当前迭代次数t下的风格扰动。
步骤104:对所述原始图像集进行仿射变换生成变换图像集,并基于所述替代模型,采用基于梯度的对抗样本生成方法生成所述变换图像集的自适应扰动。步骤104,具体包括:
1)从预设图像变换集合中随机选择一种图像变换,对当前迭代次数t下的图像对抗样本进行仿射变换,得到当前迭代次数t下的变换图像;其中,第1次迭代时的图像对抗样本为原始图像集中的任意一张原始图像;所述预设图像变换集合中的每一个元素表示一种图像变换;所述图像变换包括旋转、缩放和平移变化。
2)将所述变换图像输入所述替代模型,所述替代模型输出所述变换图像的预测值。其中,当前迭代次数t下替代模型输出的变换图像(替代模型对第t次迭代的图像对抗样本
Figure BDA0003221950080000121
)的预测值yt的计算公式为:
Figure BDA0003221950080000122
其中,F(·)表示替代模型分类器,T(·)表示随机的仿射变换。
3)基于所述变换图像的预测值和图像真实标签值,计算交叉熵损失函数的梯度,并将所述交叉熵损失函数的梯度确定为所述变换图像在当前迭代次数t下的自适应扰动,从而得到所述原始图像集对应的变换图像集在当前迭代次数t下的自适应扰动。
其中,所述自适应扰动的计算公式为:
Figure BDA0003221950080000123
其中,
Figure BDA0003221950080000124
表示交叉熵损失函数的梯度;LCE(·)表示交叉熵损失函数;yt表示当前迭代次数t下替代模型输出的变换图像的预测值;ytrue表示图像真实标签值;ga表示当前迭代次数t下的自适应扰动。
步骤105:将所述风格扰动和所述自适应扰动添加到所述原始图像集的攻击区域,生成所述原始图像集中每一张原始图像的物理对抗样本。步骤105,具体包括:
1)由当前迭代次数t下的风格扰动和当前迭代次数t下的自适应扰动计算当前迭代次数t下的扰动。
2)由当前迭代次数t下的风格扰动、当前迭代次数t下的自适应扰动和当前迭代次数t下的扰动计算下一迭代次数t+1下的扰动。
3)基于当前迭代次数t下的图像对抗样本和下一迭代次数t+1下的扰动,生成下一迭代次数t+1下的图像对抗样本。
4)判断当前迭代次数t是否达到预设的迭代次数;若是,则将下一迭代次数t+1下的图像对抗样本确定为物理对抗样本,若否,则更新当前迭代次数后,返回到步骤103,进行下一次迭代。所述原始图像集中的每一张原始图像对应的物理对抗样本,构成了物理对抗样本集。
该步骤通过内斯特洛夫加速梯度迭代地生成物理对抗样本。
其中,所述物理对抗样本,具体为:
Figure BDA0003221950080000131
其中,gs表示当前迭代次数t下的风格扰动;ga表示当前迭代次数t下的自适应扰动;gt表示当前迭代次数t下的扰动;gt+1表示下一迭代次数t+1下的扰动;μ表示衰减因子;α表示每次迭代的步长;sign(·)表示符号函数;||·||1表示L1范数;
Figure BDA0003221950080000132
表示当前迭代次数t下的图像对抗样本;
Figure BDA0003221950080000133
表示对
Figure BDA0003221950080000134
的每个像素裁剪以约束
Figure BDA0003221950080000135
在[0,255]范围内;
Figure BDA0003221950080000136
表示下一迭代次数t+1下的图像对抗样本。
本实施例的物理对抗样本生成方法,具有如下优点:
(1)利用模型窃取法和对抗样本迁移性原理实现了利用替代模型生成物理对抗样本以攻击黑盒目标模型的目标,从而评估黑盒目标模型的安全性。
(2)将基于梯度的对抗样本方法生成的高频噪声扰动利用风格迁移技术优化为风格扰动,从而使得对于人眼容易察觉的高频扰动变为对于人眼可接受的风格扰动(扰动不可察),从而得到隐蔽性高的物理对抗样本,采用该物理对抗样本黑盒目标模型进行评估,能提高对黑盒目标模型的安全性的评估的准确性。
(3)利用仿射变换对图像对抗样本进行随机变换,从而增强生成的物理对抗样本在现实世界的攻击成功率,提高对黑盒目标模型的安全性的评估的准确性。
(4)提出了利用内斯特洛夫加速梯度法提升物理对抗样本的迁移性,从而提高对黑盒模型攻击的成功率,进一步提高物理对抗样本的隐蔽性,从而进一步提高对黑盒目标模型的安全性的评估的准确性,评估结果用于发现模型的更多漏洞,以指导构建更为准确的识别模型,应用于图像分类、语言识别、自动驾驶等领域。
下面提供了一个具体的应用实例。
本实施例应用于自动驾驶场景下的基于深度神经网络的路牌识别模型,本实施例生成的路牌物理对抗样本可以造成基于深度神经网络的路牌识别模型识别错误。因此,本实施例可以通过攻击成功率的高低来评估已有的基于深度神经网络的路牌识别模型的安全性,并且可作为今后提出的基于深度神经网络的路牌识别模型安全性的评估指标。参见图2,路牌物理对抗样本的生成方法的思路如下:
步骤(1):提供原始图像、风格图像,其中原始图像作为初始的图像对抗样本,获取图像对抗样本和风格图像的蒙版图像(Mask)。
本实施例针对自动驾驶场景下的路牌识别模型,因此选择原始图像和风格图像均是来自CTSDB数据集,其中原始图像与风格图像是属于同一类别的不同图像。在对抗样本生成过程中,通过随机采样方法从数据集随机选择一类,并在所选择的类中随机选择一张原始图像和一张风格图像。基于所选择的原始图像和风格图像利用二分类语义分割技术分别获得原始图像和风格图像的语义分割图。其中语义分割的类别颜色标记表中设定白色像素表示的语义为原始图像所属的类别,黑色像素表示的语义为图像的背景。设定所得的语义分割图中白色像素区域表示原始图像和风格图像的攻击区域,而黑色像素区域表示原始图像和风格图像的非攻击区域,基于所得的语义分割图和类别颜色标记表按公式(11)分别获得原始图像和风格图像的攻击蒙版图像Mask:
Figure BDA0003221950080000141
其中,c表示通道,seg(i,j,c)表示分割图中通道c中位置(i,j)像素值。
步骤(2):提供黑盒目标模型和替代模型,使用包含原始图像的数据集作为训练数据集,利用模型窃取方法,获得黑盒目标模型的替代模型。
在本实施例中,需要提供替代模型和黑盒目标模型,其中替代模型是可以基于原始图像进行分类或预测的白盒模型,即可以使用替代模型的神经网络结构和参数详情,同时替代模型与黑盒目标模型具有相似的功能。在本实施例中,针对自动驾驶场景下的基于深度神经网络的路牌识别模型模型,因此,黑盒目标模型是路牌识别模型,例如VGG16、VGG19、InceptionV3、InceptionV4、ResNet中任意一个识别模型,替代模型选择VGG19网络结构,模型窃取方法是基于知识蒸馏思想,将黑盒目标模型作为教师模型,VGG19网络结构的替代模型作为学生模型,在温度T=50时,使用ISLVRC2012数据集中的图像数据通过查询获取黑盒模型和VGG19网络结构的替代模型的softmax输出作为软标签,同时获得温度T=1时,VGG19替代模型softmax输出,利用公式(1)训练替代模型。
步骤(3):基于图像对抗样本、风格图像及其相应的攻击蒙版图像(Mask),融合风格迁移技术思想和基于梯度的对抗样本生成方法,利用风格迁移过程的损失函数的梯度生成图像对抗样本攻击区域的风格扰动。
在本实施例中,每次迭代过程中基于图像对抗样本和风格图像的蒙版利用公式(12)获得图像对抗样本和风格图像的攻击区域:
Figure BDA0003221950080000151
其中,
Figure BDA0003221950080000152
表示矩阵按位相乘,maskx表示图像对抗样本的攻击蒙版图像,masks表示风格图像的攻击蒙版图像。
在本实施例中,利用VGG19替代模型构建局部特征提取器,即局部特征提取器是VGG19替代模型不包含全连接层的卷积层部分。在每次迭代过程中利用局部特征提取器提取图像对抗样本和风格图像攻击区域的特征,提取方法如公式(2)所示。
基于局部特征提取器每一层提取的特征将其中1、3、5、13层卷积提取的特征的格拉姆矩阵作为图像对抗样本和风格图像攻击区域的风格特征,并将其中9、10层卷积提取的特征作为图像对抗样本的内容特征。
基于所得的图像对抗样本攻击区域的风格和内容特征,利用公式(4)计算当次迭代中图像对抗样本与风格图像攻击区域的风格特征损失函数。利用公式(5)计算当次迭代中图像对抗样本原始图像攻击区域的内容特征损失函数。利用公式(6)和公式(7)计算风格特征损失函数和内容特征损失函数的梯度作为风格扰动。
步骤(4):利用预设图像变换集合中集合元素对图像对抗样本进行相应的仿射变换,利用基于梯度的对抗样本生成方法生成变换后的图像对抗样本的自适应扰动。
在本实施例中,为了模拟现实世界中可能出现的复杂情况,预设图像变换集合包括图像旋转、缩放、平移的图像变换,其中,旋转角度范围为[-25,25],缩放比例范围为[0.4,1],平移像素个数范围为[-10,10]。在每次迭代过程中,随机选择范围之内的旋转角度、缩放比例组成线性变换矩阵,平移像素个数组成平移矩阵,利用公式(13)对图像对抗样本进行仿射变换并且保持变换后图像对抗样本图像大小与变换前相同:
Figure BDA0003221950080000161
其中,A表示线性变换矩阵,·表示内积,b表示平移变换矩阵。
对于变换后的图像对抗样本利用公式(8)和公式(9)计算梯度作为自适应扰动。
步骤(5):将风格扰动和自适应扰动添加到图像对抗样本的攻击区域,重复步骤(3)-步骤(5),使用内斯特洛夫加速梯度迭代地生成图像对抗样本,直到达到预设终止条件,最后一次迭代的生成的图像对抗样本作为物理对抗样本。
本实施例中,通过结合Iterative Fast Gradient Sign Method和NesterovAccelerated Gradient生成对抗样本。在每次迭代过程中,首先利用通过图像对抗样本的攻击蒙版图像将自适应扰动限制在图像对抗样本攻击区域,如公式(14)所示:
Figure BDA0003221950080000162
然后,将风格扰动和自适应扰动添加到图像对抗样本的攻击区域作为新的图像对抗样本,并且将新生成的图像对抗样本作为下一次迭代的输入。具体地,在第t次迭代时通过公式(10)生成新的图像对抗样本
Figure BDA0003221950080000171
当迭代次数t达到预设迭代终止条件(预设的迭代次数)时,输出
Figure BDA0003221950080000172
作为最终的物理对抗样本。
本实施例生成的路牌物理对抗样本,用于评估路牌识别模型,路牌物理对抗样本作为一个衡量路牌识别模型好坏的指标,攻击成功率越强表示这个黑盒深度神经网络性能越差,攻击成功率是指被模型错误识别的对抗样本个数除以生成的对抗样本总个数。本实施例的样本生成方法,能提高对路牌识别模型攻击的成功率,从而提高对路牌识别模型的安全性的评估的准确性,评估结果能发现模型的更多漏洞,以指导后续构建更为准确的路牌识别模型。
本发明还提供了一种物理对抗样本生成系统,参见图3,本实施例的系统,包括:
图像获取模块201,用于获取原始图像集、风格图像集、所述原始图像集的攻击蒙版图像和所述风格图像集的攻击蒙版图像。
替代模型构建模块202,用于采用所述原始图像集作为训练样本,采用模型窃取法,确定黑盒目标模型的替代模型。
风格扰动生成模块203,用于基于所述原始图像集、所述风格图像集、所述原始图像集的攻击蒙版图像、所述风格图像集的攻击蒙版图像和所述替代模型,采用风格迁移技术思想和基于梯度的对抗样本生成方法生成所述原始图像集中各图像的攻击区域的风格扰动。
自适应扰动生成模块204,用于对所述原始图像集进行仿射变换生成变换图像集,并基于所述替代模型,采用基于梯度的对抗样本生成方法生成所述变换图像集的自适应扰动。
物理对抗样本生成模块205,用于将所述风格扰动和所述自适应扰动添加到所述原始图像集的攻击区域,生成所述原始图像集中每一张原始图像的物理对抗样本。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种物理对抗样本生成方法,其特征在于,包括:
获取原始图像集、风格图像集、所述原始图像集的攻击蒙版图像和所述风格图像集的攻击蒙版图像;
采用所述原始图像集作为训练样本,采用模型窃取法,确定黑盒目标模型的替代模型;
基于所述原始图像集、所述风格图像集、所述原始图像集的攻击蒙版图像、所述风格图像集的攻击蒙版图像和所述替代模型,采用风格迁移技术思想和基于梯度的对抗样本生成方法生成所述原始图像集中各图像的攻击区域的风格扰动;
对所述原始图像集进行仿射变换生成变换图像集,并基于所述替代模型,采用基于梯度的对抗样本生成方法生成所述变换图像集的自适应扰动;
将所述风格扰动和所述自适应扰动添加到所述原始图像集的攻击区域,生成所述原始图像集中每一张原始图像的物理对抗样本。
2.根据权利要求1所述的一种物理对抗样本生成方法,其特征在于,所述采用所述原始图像集作为训练样本,采用模型窃取法,确定黑盒目标模型的替代模型,具体包括:
将所述原始图像集作为训练样本输入所述黑盒目标模型,并利用所述训练样本和所述黑盒目标模型输出的对应的预测标签值构建替代样本集;
将所述替代样本集和所述原始图像集对应的图像真实标签值输入VGG19网络,并以替代模型损失函数最小为目标进行训练,得到训练好的VGG19网络;所述替代模型损失函数是根据所述图像真实标签值、所述VGG19网络输出的预测标签值和所述黑盒目标模型输出的预测标签值构建而成;
将所述训练好的VGG19网络确定为黑盒目标模型的替代模型。
3.根据权利要求1所述的一种物理对抗样本生成方法,其特征在于,所述基于所述原始图像集、所述风格图像集、所述原始图像集的攻击蒙版图像、所述风格图像集的攻击蒙版图像和所述替代模型,采用风格迁移技术思想和基于梯度的对抗样本生成方法生成所述原始图像集中各图像的攻击区域的风格扰动,具体包括:
采用所述替代模型构建局部特征提取器;
对于所述原始图像集中的任意一张原始图像,采用所述原始图像集的攻击蒙版图像确定当前迭代次数t下的图像对抗样本的攻击区域,采用所述风格图像集的攻击蒙版图像确定所述风格图像集中风格图像的攻击区域;其中,第1次迭代时的图像对抗样本为所述原始图像;
采用所述局部特征提取器分别提取所述图像对抗样本的攻击区域的风格特征、所述风格图像的攻击区域的风格特征、所述图像对抗样本的攻击区域的内容特征和所述原始图像集中原始图像的攻击区域的内容特征;
根据所述图像对抗样本的攻击区域的风格特征和所述风格图像的攻击区域的风格特征,确定风格特征损失函数;
根据所述图像对抗样本的攻击区域的内容特征和所述原始图像的攻击区域的内容特征,确定内容特征损失函数;
将所述风格特征损失函数和所述内容特征损失函数的梯度确定为所述原始图像在当前迭代次数t下的风格扰动,从而得到所述原始图像集中每一张原始图像的攻击区域当前迭代次数t下的风格扰动。
4.根据权利要求1所述的一种物理对抗样本生成方法,其特征在于,所述对所述原始图像集进行仿射变换生成变换图像集,并基于所述替代模型,采用基于梯度的对抗样本生成方法生成所述变换图像集的自适应扰动,具体包括:
从预设图像变换集合中随机选择一种图像变换,对当前迭代次数t下的图像对抗样本进行仿射变换,得到当前迭代次数t下的变换图像;其中,第1次迭代时的图像对抗样本为原始图像集中的任意一张原始图像;所述预设图像变换集合中的每一个元素表示一种图像变换;所述图像变换包括旋转、缩放和平移变化;
将所述变换图像输入所述替代模型,所述替代模型输出所述变换图像的预测值;
基于所述变换图像的预测值和图像真实标签值,计算交叉熵损失函数的梯度,并将所述交叉熵损失函数的梯度确定为所述变换图像在当前迭代次数t下的自适应扰动,从而得到所述原始图像集对应的变换图像集在当前迭代次数t下的自适应扰动。
5.根据权利要求1所述的一种物理对抗样本生成方法,其特征在于,所述将所述风格扰动和所述自适应扰动添加到所述原始图像集的攻击区域,生成物理对抗样本,具体包括:
由当前迭代次数t下的风格扰动和当前迭代次数t下的自适应扰动计算当前迭代次数t下的扰动;
由当前迭代次数t下的风格扰动、当前迭代次数t下的自适应扰动和当前迭代次数t下的扰动计算下一迭代次数t+1下的扰动;
基于当前迭代次数t下的图像对抗样本和下一迭代次数t+1下的扰动,生成下一迭代次数t+1下的图像对抗样本;
判断当前迭代次数t是否达到预设的迭代次数;
若是,则将下一迭代次数t+1下的图像对抗样本确定为物理对抗样本。
6.根据权利要求2所述的一种物理对抗样本生成方法,其特征在于,所述替代模型损失函数,具体为:
Figure FDA0003221950070000034
其中,Lproxy表示替代模型损失函数;LCE(·)表示交叉熵损失函数;ytrue表示图像真实标签值;yproxy表示VGG19网络输出的预测标签值;
Figure FDA0003221950070000031
表示温度T下VGG19网络输出的预测标签值;
Figure FDA0003221950070000032
表示温度T下黑盒目标模型输出的预测标签值,λ表示权重参数。
7.根据权利要求3所述的一种物理对抗样本生成方法,其特征在于,
所述风格特征损失函数,具体为:
Figure FDA0003221950070000033
其中,LS表示风格特征损失函数;
Figure FDA0003221950070000041
表示图像对抗样本的攻击区域的风格特征;Gl(s)表示风格图像的攻击区域的风格特征;
Figure FDA0003221950070000042
表示当前迭代次数t下的图像对抗样本;s表示风格图像;l表示局部特征提取器中的卷积层的序号;Sl∈{1,3,5,13}表示风格卷积层集合;
所述内容特征损失函数,具体为:
Figure FDA0003221950070000043
其中,LC表示内容特征损失函数;
Figure FDA0003221950070000044
表示图像对抗样本的攻击区域的内容特征;
Figure FDA0003221950070000045
表示原始图像集中原始图像的攻击区域的内容特征;
Figure FDA0003221950070000046
表示原始图像;Cl∈{9,10}表示内容卷积层集合;
所述风格扰动的计算公式为:
LSC=-(βLS+LC);
Figure FDA0003221950070000047
其中,LSC表示风格内容特征损失函数;β表示超参数;
Figure FDA0003221950070000048
表示LSC关于
Figure FDA0003221950070000049
的梯度;gs表示当前迭代次数t下的风格扰动。
8.根据权利要求4所述的一种物理对抗样本生成方法,其特征在于,所述自适应扰动的计算公式为:
Figure FDA00032219500700000410
其中,
Figure FDA00032219500700000411
表示交叉熵损失函数的梯度;LCE(·)表示交叉熵损失函数;yt表示当前迭代次数t下替代模型输出的变换图像的预测值;ytrue表示图像真实标签值;ga表示当前迭代次数t下的自适应扰动。
9.根据权利要求5所述的一种物理对抗样本生成方法,其特征在于,所述物理对抗样本,具体为:
gt=ga+gs,
Figure FDA00032219500700000412
Figure FDA00032219500700000413
其中,gs表示当前迭代次数t下的风格扰动;ga表示当前迭代次数t下的自适应扰动;gt表示当前迭代次数t下的扰动;gt+1表示下一迭代次数t+1下的扰动;μ表示衰减因子;α表示每次迭代的步长;sign(·)表示符号函数;||·||1表示L1范数;
Figure FDA0003221950070000051
表示当前迭代次数t下的图像对抗样本;
Figure FDA0003221950070000052
表示对
Figure FDA0003221950070000053
的每个像素裁剪以约束
Figure FDA0003221950070000054
在[0,255]范围内;
Figure FDA0003221950070000055
表示下一迭代次数t+1下的图像对抗样本。
10.一种物理对抗样本生成系统,其特征在于,包括:
图像获取模块,用于获取原始图像集、风格图像集、所述原始图像集的攻击蒙版图像和所述风格图像集的攻击蒙版图像;
替代模型构建模块,用于采用所述原始图像集作为训练样本,采用模型窃取法,确定黑盒目标模型的替代模型;
风格扰动生成模块,用于基于所述原始图像集、所述风格图像集、所述原始图像集的攻击蒙版图像、所述风格图像集的攻击蒙版图像和所述替代模型,采用风格迁移技术思想和基于梯度的对抗样本生成方法生成所述原始图像集中各图像的攻击区域的风格扰动;
自适应扰动生成模块,用于对所述原始图像集进行仿射变换生成变换图像集,并基于所述替代模型,采用基于梯度的对抗样本生成方法生成所述变换图像集的自适应扰动;
物理对抗样本生成模块,用于将所述风格扰动和所述自适应扰动添加到所述原始图像集的攻击区域,生成所述原始图像集中每一张原始图像的物理对抗样本。
CN202110960092.8A 2021-08-20 2021-08-20 一种物理对抗样本生成方法及系统 Active CN113674140B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110960092.8A CN113674140B (zh) 2021-08-20 2021-08-20 一种物理对抗样本生成方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110960092.8A CN113674140B (zh) 2021-08-20 2021-08-20 一种物理对抗样本生成方法及系统

Publications (2)

Publication Number Publication Date
CN113674140A true CN113674140A (zh) 2021-11-19
CN113674140B CN113674140B (zh) 2023-09-26

Family

ID=78544343

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110960092.8A Active CN113674140B (zh) 2021-08-20 2021-08-20 一种物理对抗样本生成方法及系统

Country Status (1)

Country Link
CN (1) CN113674140B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114118268A (zh) * 2021-11-25 2022-03-01 福州大学 以脉冲为概率生成均匀分布扰动的对抗性攻击方法及系统
CN114140670A (zh) * 2021-11-25 2022-03-04 支付宝(杭州)信息技术有限公司 基于外源特征进行模型所有权验证的方法和装置
CN114266344A (zh) * 2022-01-06 2022-04-01 北京墨云科技有限公司 利用对抗补丁攻击神经网络视觉识别系统的方法和装置
CN114627373A (zh) * 2022-02-25 2022-06-14 北京理工大学 一种面向遥感图像目标检测模型的对抗样本生成方法
CN114898168A (zh) * 2022-03-28 2022-08-12 云南大学 基于条件标准流模型的黑盒对抗样本生成方法
CN114925699A (zh) * 2022-04-28 2022-08-19 电子科技大学 一种基于风格变换的高迁移性对抗文本生成方法
CN115063654A (zh) * 2022-06-08 2022-09-16 厦门大学 基于序列元学习的黑盒攻击方法、存储介质和电子设备
CN115292722A (zh) * 2022-10-09 2022-11-04 浙江君同智能科技有限责任公司 基于不同色彩空间的模型安全检测方法和装置
CN115439377A (zh) * 2022-11-08 2022-12-06 电子科技大学 一种增强对抗图像样本迁移性攻击的方法
CN117253094A (zh) * 2023-10-30 2023-12-19 上海计算机软件技术开发中心 一种图像分类系统对抗性样本生成方法、系统及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109948663A (zh) * 2019-02-27 2019-06-28 天津大学 一种基于模型抽取的步长自适应的对抗攻击方法
CN111898645A (zh) * 2020-07-03 2020-11-06 贵州大学 基于注意力机制的可迁移的对抗样本攻击方法
CN112085069A (zh) * 2020-08-18 2020-12-15 中国人民解放军战略支援部队信息工程大学 基于集成注意力机制的多目标对抗补丁生成方法及装置
CN112215292A (zh) * 2020-10-19 2021-01-12 电子科技大学 一种基于迁移性的图像对抗样本生成装置及方法
WO2021052375A1 (zh) * 2019-09-17 2021-03-25 腾讯科技(深圳)有限公司 目标图像生成方法、装置、服务器及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109948663A (zh) * 2019-02-27 2019-06-28 天津大学 一种基于模型抽取的步长自适应的对抗攻击方法
WO2021052375A1 (zh) * 2019-09-17 2021-03-25 腾讯科技(深圳)有限公司 目标图像生成方法、装置、服务器及存储介质
CN111898645A (zh) * 2020-07-03 2020-11-06 贵州大学 基于注意力机制的可迁移的对抗样本攻击方法
CN112085069A (zh) * 2020-08-18 2020-12-15 中国人民解放军战略支援部队信息工程大学 基于集成注意力机制的多目标对抗补丁生成方法及装置
CN112215292A (zh) * 2020-10-19 2021-01-12 电子科技大学 一种基于迁移性的图像对抗样本生成装置及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨永亮: "针对图像分类模型的黑盒对抗样本生成方法研究", 中国优秀硕士学位论文全文数据库 (信息科技辑) *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114140670A (zh) * 2021-11-25 2022-03-04 支付宝(杭州)信息技术有限公司 基于外源特征进行模型所有权验证的方法和装置
CN114118268A (zh) * 2021-11-25 2022-03-01 福州大学 以脉冲为概率生成均匀分布扰动的对抗性攻击方法及系统
CN114266344A (zh) * 2022-01-06 2022-04-01 北京墨云科技有限公司 利用对抗补丁攻击神经网络视觉识别系统的方法和装置
CN114627373A (zh) * 2022-02-25 2022-06-14 北京理工大学 一种面向遥感图像目标检测模型的对抗样本生成方法
CN114898168B (zh) * 2022-03-28 2024-05-17 云南大学 基于条件标准流模型的黑盒对抗样本生成方法
CN114898168A (zh) * 2022-03-28 2022-08-12 云南大学 基于条件标准流模型的黑盒对抗样本生成方法
CN114925699A (zh) * 2022-04-28 2022-08-19 电子科技大学 一种基于风格变换的高迁移性对抗文本生成方法
CN115063654A (zh) * 2022-06-08 2022-09-16 厦门大学 基于序列元学习的黑盒攻击方法、存储介质和电子设备
CN115292722B (zh) * 2022-10-09 2022-12-27 浙江君同智能科技有限责任公司 基于不同色彩空间的模型安全检测方法和装置
CN115292722A (zh) * 2022-10-09 2022-11-04 浙江君同智能科技有限责任公司 基于不同色彩空间的模型安全检测方法和装置
CN115439377A (zh) * 2022-11-08 2022-12-06 电子科技大学 一种增强对抗图像样本迁移性攻击的方法
CN117253094A (zh) * 2023-10-30 2023-12-19 上海计算机软件技术开发中心 一种图像分类系统对抗性样本生成方法、系统及电子设备
CN117253094B (zh) * 2023-10-30 2024-05-14 上海计算机软件技术开发中心 一种图像分类系统对抗性样本生成方法、系统及电子设备

Also Published As

Publication number Publication date
CN113674140B (zh) 2023-09-26

Similar Documents

Publication Publication Date Title
CN113674140A (zh) 一种物理对抗样本生成方法及系统
CN112364885B (zh) 一种基于深度神经网络模型可解释性的对抗样本防御方法
CN109961145B (zh) 一种针对图像识别模型分类边界敏感的对抗样本生成方法
CN111598182B (zh) 训练神经网络及图像识别的方法、装置、设备及介质
CN110570433B (zh) 基于生成对抗网络的图像语义分割模型构建方法和装置
CN110349185B (zh) 一种rgbt目标跟踪模型的训练方法及装置
CN111950453A (zh) 一种基于选择性注意力机制的任意形状文本识别方法
CN110766050B (zh) 模型生成方法、文本识别方法、装置、设备及存储介质
CN107945210B (zh) 基于深度学习和环境自适应的目标跟踪方法
CN110348475A (zh) 一种基于空间变换的对抗样本增强方法和模型
Akhtar et al. Attack to fool and explain deep networks
CN112257741B (zh) 一种基于复数神经网络的生成性对抗虚假图片的检测方法
CN110659702A (zh) 基于生成式对抗网络模型书法字帖评价系统及方法
CN111461239B (zh) 基于白盒攻击的ctc场景文字识别模型优化方法
CN113435264A (zh) 基于寻找黑盒替代模型的人脸识别对抗攻击方法及装置
CN113111776A (zh) 对抗样本的生成方法、装置、设备及存储介质
CN115270891A (zh) 一种信号对抗样本的生成方法、装置、设备及存储介质
CN114638356A (zh) 一种静态权重引导的深度神经网络后门检测方法及系统
CN111797732B (zh) 一种对采样不敏感的视频动作识别对抗攻击方法
CN114693973A (zh) 一种基于Transformer模型的黑盒对抗样本生成方法
CN112861601A (zh) 生成对抗样本的方法及相关设备
KR20210088368A (ko) 차량 번호판 영상 생성 장치 및 그 방법
Akan et al. Just noticeable difference for machine perception and generation of regularized adversarial images with minimal perturbation
CN116645727B (zh) 一种基于Openpose模型算法的行为捕捉识别方法
CN111080727B (zh) 彩色图像重构方法及装置、图像分类方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant