CN113159317B - 一种基于动态残差侵蚀的对抗样本生成方法 - Google Patents

一种基于动态残差侵蚀的对抗样本生成方法 Download PDF

Info

Publication number
CN113159317B
CN113159317B CN202110435216.0A CN202110435216A CN113159317B CN 113159317 B CN113159317 B CN 113159317B CN 202110435216 A CN202110435216 A CN 202110435216A CN 113159317 B CN113159317 B CN 113159317B
Authority
CN
China
Prior art keywords
attack
similarity
calculating
sample
feature vectors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110435216.0A
Other languages
English (en)
Other versions
CN113159317A (zh
Inventor
张全新
周慧鹏
王亚杰
张耀元
李元章
谭毓安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN202110435216.0A priority Critical patent/CN113159317B/zh
Publication of CN113159317A publication Critical patent/CN113159317A/zh
Application granted granted Critical
Publication of CN113159317B publication Critical patent/CN113159317B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于动态残差侵蚀的对抗样本生成方法,属于深度学习安全技术领域,主要用于解决现有技术对于提升对抗样本转移性效果甚微,攻击未知黑盒模型成功率低等技术问题。本发明通过动态侵蚀残差网络模型的残差块结构反向传播时的梯度(EGM)信息,达到生成对抗样本时的梯度多样性。同时,提出了一种新的Corrasion Attack攻击方法并与EGM侵蚀机制相结合,能够大幅度提升对抗样本的转移性,提升了攻击成功率。

Description

一种基于动态残差侵蚀的对抗样本生成方法
技术领域
本发明涉及一种提升对抗样本黑盒转移性的攻击方法,具体涉及一种基于动态残差侵蚀的对抗样本生成方法,属于深度学习安全技术领域。
背景技术
在计算机视觉领域,深度学习技术已成为解决图像分类、目标检测、语义分割等问题的主流技术手段。随着深度学习技术的不断改进和计算资源的不断完善,人们正逐渐把深度学习技术应用到安全领域,例如手机人脸识别、面部识别ATM等。
然而,研究表明,深度学习模型极易受到微小扰动的影响。Szegedy等人首次提出,在图像分类领域,深度学习模型存在脆弱性,即,在输入图像中添加精心制造的肉眼不易察觉的扰动,可导致图像分类器以极高的置信度将图片进行错误分类,同时,相同的扰动可以欺骗多种图片分类器。在人脸识别任务中,精心设计的扰动可以欺骗神经网络,将其错误分类为指定人脸。
基于对抗样本的转移性对未知黑盒模型进行攻击,攻击者不知道目标黑盒模型的权重、参数等任何信息,只能依靠对抗样本的转移性去进行攻击。介于对抗样本的转移性较低,无法使目标黑盒模型高置信度的错误分类。因此,技术人员希望找到一种方式,能够提升攻击未知黑盒模型的成功率,从而提升对抗样本的转移性。对抗样本的可转移性,是指相同的输入可以成功攻击不同的模型。利用可转移性,Papernot等人通过攻击替代模型,开发了一个黑盒(攻击者无法访问目标模型)攻击系统;Liu建议攻击替代模型的集合可以提高对抗样本的转移性。基于集合模型,Dong,zhou等人开发了几种通过平滑梯度进一步提升转移性的方法。
围绕对抗样本的可转移性,人们提出了很多方法,比如攻击一个替代模型或者多个替代模型的集成。在之前的工作中,Li等人提出对深度残差神经网络模型进行侵蚀的Ghost机制,其基本原理是在一个基础网络(从零开始训练的网络)上生成大量的虚拟模型。虚拟这个词意味着这些网络没有被存储或训练(因此被称为幽灵网络)。相反,它们是通过对基础网络的某些中间结构进行动态侵蚀而产生的。但是,这种侵蚀机制在模型前向传播时会损失模型的精度,导致模型的预测与真实输出存在较大的差异,这在计算对抗性损失时会存在较大的差异。
目前,大部分黑盒模型对抗性攻击算法都是基于转移性的。但是,由于大部分方法是迭代生成对抗样本,它们是在替代模型上生成对抗样本,迭代次数过多将会对替代模型过拟合,迭代次数过少不能成功攻破未知黑盒模型。最重要的是,它们获取到的梯度不具备多样化。导致对抗样本的转移性较低,攻击未知黑盒模型的成功率较低。提升对抗样本的转移性,提升攻击未知黑盒模型的称功率,有助于挖掘神经网络模型的弱点以及寻找神经网络学习的特征盲区。能够帮助技术人员寻找更鲁棒的神经网络模型。因此,研究对抗样本的转移性,提升攻击未知黑盒模型的成功率,具有重大的意义。
发明内容
本发明的目的是为了解决现有技术对于提升对抗样本转移性效果甚微,攻击未知黑盒模型成功率低等技术问题,创造性地提出一种基于动态残差侵蚀的对抗样本生成方法。
本发明的创新点在于:通过动态侵蚀残差网络模型的残差块结构反向传播时的梯度(EGM)信息,达到生成对抗样本时的梯度多样性。同时,提出一种新的攻击方法并与EGM相结合,能够大幅度提升对抗样本的转移性,提升攻击成功率。
本发明采用以下技术方案实现。
一种基于动态残差侵蚀的对抗样本生成方法,包括以下步骤:
步骤1:针对残差网络中的残差块结构,采用行动态梯度侵蚀机制(EGM侵蚀机制)进行侵蚀处理,之后将其作为本地的白盒替代神经网络模型。
具体如下:
在残差网络中,令Fi(·)表示第i层的残差块中的残差函数,Fi(xi)表示第i层的残差函数的输出,xi表示第i层跳跃连接部分,λ表示侵蚀参数;
首先,确定侵蚀参数λ,λ的取值为符合[0.5,1]的均匀分布,即侵蚀参数λ为一个集合λ={λ1,λ2,λ3…λi};
然后,在第i层残差块的部分,在其反向传播过程中给其梯度乘以侵蚀参数,使其变成
Figure BDA0003032701570000031
步骤2:采用Corrasion Attack攻击方法,将其与EGM侵蚀机制相结合,生成对抗样本,能够大幅度提升对抗样本的转移性。
具体地,Corrasion Attack攻击方法包括以下步骤:
步骤2.1:以MXNET_LResNet34E_IR、MXNET_LResNet50E_IR、MXNET_LResNet100E_IR作为本地替代模型,进行对抗攻击;
步骤2.2:给定一张原始输入图片x和靶向图片y。其中,图片x允许改变最大像素值∈、攻击步长α;
步骤2.3:设计一个输入变换函数T(·),以随机概率p对输入图片x进行平移缩放:
T(x,p)=T(x),with probability p
步骤2.4:设定对抗攻击迭代次数。如50次。
步骤2.5:对于每一轮迭代攻击,将其分为m轮子迭代;
步骤2.6:对于每一轮子迭代,利用函数Si(·)对图片进行尺度变换,其中,Si(·)表示对图像的像素除以2的i次方,其中i∈[1,m];
步骤2.7:将尺度变换后的图片混入随机噪声,降低获取到的图片的梯度方差;
步骤2.8:将步骤2.7得到的图片送入输入变换函数T(·)中;
步骤2.9:将处理后的图片送入步骤1获得的本地白盒替代神经网络模型中,求解图片梯度,同时,将靶向图片送入神经网络提取图片特征;
对于识别任务,使用余弦相似度作为损失函数;
步骤2.10:将m轮子迭代获取到的梯度进行求平均,结果作为本次迭代攻击的最终梯度G;
步骤2.11:在获得的图像梯度G上,使用卷积核kernel matrix W,对图像梯度进行平滑;
步骤2.12:将经步骤2.11中处理后的梯度信息进行累计,即,与之前的梯度信息进行求和;
步骤2.13:对图片像素使用梯度方向进行更新,获取对抗样本xadv,并对更改的最大像素值进行裁剪操作;
步骤2.14:将步骤2.13中输出的对抗样本作为本轮迭代攻击的结果和下一轮迭代攻击的输入,重复执行步骤2.5至2.13,直至达到迭代攻击次数。
为验证本方法的效果,可以采用以下方式进行测试:
将生成的对抗样本进行未知黑盒靶向攻击测试。
具体可以在InsightFace_mobilefacenet、InsightFace_IR_SE50、CosFace、FaceNet_casia、FaceNet_vggface2、ArcFace、MobileNet、ResNet50、ShuffleNet、evoLVe_IR_152、evoLVe_IR_50、evoLVe_IR_50_Asia这12个未知黑盒模型上,具体进行未知黑盒靶向攻击测试。
有益效果
本发明方法,通过动态侵蚀残差网络中残差块反向传播时的梯度机制(EGM),同时基于EGM机制提出的Corrasion Attack方法,用于生成可转移性的对抗样本。对比现有技术,具有如下优点:
1.本发明提供了一种针对于残差网络中动态侵蚀残差块反向传播梯度机制(EGM);
2.本发明提供了一种新的攻击方法Corrasion Attack,与其他对抗性攻击方法相比具有更强的转移性。与EGM相结合时能够展现出更强的转移性;
3.本发明提供了EGM动态残差块梯度侵蚀机制,能够大幅度提升其他生对抗攻击方法生成的对抗样本的转移性;
4.本发明提供了针对不同未知黑盒人脸特征提取模型的攻击效果;
5.本发明提供了针对不同方法与EGM相结合生成对抗样本转移性提升的效果。
附图说明
图1是本发明实施实例中的EGM侵蚀机制的示意图;
图2是本发明实施实例中的EGM机制与MI-FGSM攻击方法相结合攻击未知黑盒模型转移性提升效果图;
图3是本发明实施实例中的EGM机制与DIM攻击方法相结合攻击未知黑盒模型转移性提升效果图;
图4是本发明实施实例中的EGM机制与TI-FGSM攻击方法相结合攻击未知黑盒模型转移性提升效果图;
图5是本发明实施实例中的EGM机制与SIM攻击方法相结合攻击未知黑盒模型转移性提升效果图;
图6是本发明实施实例中的EGM机制与Vr-FGSM攻击方法相结合攻击未知黑盒模型转移性提升效果图;
图7是本发明实施实例中的Corrasion Attack方法与其他攻击方法攻击效果对比效果图(以MXNET_LRESNet100E_IR人脸特征提取模型作为白盒模型);
图8是本发明实施实例中的Corrasion Attack方法与其他攻击方法攻击效果对比效果图(以FaceNet_vggface2人脸特征提取模型作为白盒模型);
图9是本发明实施实例中的Corrasion Attack方法与其他攻击方法攻击效果对比效果图(以Resnet50人脸特征提取模型作为白盒模型);
图10是本发明实施实例中的EGM与Corrasion Attack方法相结合与其他攻击方法相对比效果图(以MXNET_LResNet34E_IR、MXNET_LResNet50E_IR、MXNET_LResNet100E_IR人脸特征提取模型作为白盒模型)。
具体实施方式
结合附图及实施例对本发明做进一步说明和详细说明。
实施例
一种基于动态残差侵蚀的对抗样本生成方法,包括以下步骤:
步骤1:针对残差网络中的残差块结构,采用行动态梯度侵蚀机制(EGM侵蚀机制)进行侵蚀处理,之后将其作为本地的白盒替代神经网络模型。
具体如下:
在残差网络中,令Fi(·)表示第i层的残差块中的残差函数,Fi(xi)表示第i层的残差函数的输出,xj表示第i层跳跃连接部分,λ表示侵蚀参数;
首先,确定侵蚀参数λ,λ的取值为符合[0.5,1]的均匀分布,即侵蚀参数λ为一个集合λ={λ1,λ2,λ3…λi};
然后,在第i层残差块的部分,在其反向传播过程中给其梯度乘以侵蚀参数,使其变成
Figure BDA0003032701570000051
如图1所示。
步骤2:采用Corrasion Attack攻击方法,将其与EGM侵蚀机制相结合,生成对抗样本,能够大幅度提升对抗样本的转移性。
具体地,Corrasion Attack攻击方法如下:
步骤2.1:以MXNET_LResNet34E_IR、MXNET_LResNet50E_IR、MXNET_LResNet100E_IR作为本地替代模型进行对抗攻击;
将InsightFace_mobilefacenet、InsightFace_IR_SE50、CosFace、FaceNet_casia、FaceNet_vggface2、ArcFace、MobileNet、ResNet50、ShuffleNet、evoLVe_IR_152、evoLVe_IR_50、evoLVe_IR_50_Asia作为未知黑盒模型,数据集选用LFW人脸数据集;
步骤2.2:给定一张原始输入图片x(例如人脸图片)和靶向图片y(例如靶向人脸图片)。其中,图片x允许改变最大像素值∈,攻击步长α。
步骤2.3:设计一个输入变换函数T(·),以随机概率p对输入图片x进行平移缩放;
T(x,p)=T(x),with probability p
步骤2.4:设定对抗攻击迭代次数,本实施例设定为50次迭代;
步骤2.5:对于每一轮迭代攻击,将其细分为m轮子迭代;
步骤2.6:对于每一轮子迭代,利用函数Si(·)对图片进行尺度变换,其中,Si(·)表示对图像的像素除以2的i次方,其中i∈[1,m];
步骤2.7:将尺度变换后的图片混入随机噪声,降低获取到的图片的梯度方差;
步骤2.8:将步骤2.7得到的图片送入输入变换函数T(·)中;
步骤2.9:将处理后的图片送入步骤1获得的本地白盒替代神经网络模型中,求解图片梯度,同时,将靶向图片送入神经网络提取图片特征;
对于识别任务,使用余弦相似度作为损失函数;
步骤2.10:将m轮子迭代获取到的梯度进行求平均,结果作为本次迭代攻击的最终梯度G;
步骤2.11:在获得的图像梯度G上,使用卷积核kernel matrix W,对图像梯度进行平滑;
步骤2.12:将经步骤2.11中处理后的梯度信息进行累计,即,与之前的梯度信息进行求和;
步骤2.13:对图片像素使用梯度方向进行更新,获取对抗样本xadv,并对更改的最大像素值进行裁剪操作;
步骤2.14:将步骤2.13中输出的对抗样本作为本轮迭代攻击的结果和下一轮迭代攻击的输入,重复执行步骤2.5至2.13,直至达到迭代攻击次数、
将生成的对抗样本进行未知黑盒靶向攻击测试,验证本方法的效果,具体如下:
在InsightFace_mobilefacenet、InsightFace_IR_SE50、CosFace、FaceNet_casia、FaceNet_vggface2、ArcFace、MobileNet、ResNet50、ShuffleNet、evoLVe_IR_152、evoLVe_IR_50、evoLVe_IR_50_Asia这12个模型上进行未知黑盒靶向攻击测试。
具体地,测试包括以下步骤:
步骤3.1:使用步骤2中生成的对抗样本xadv和靶向攻击图片y,组成靶向攻击对,在上述未知的识别模型上进行靶向攻击实验。
步骤3.2:将对抗样本xadv与靶向图片y分别送入InsightFace_mobilefacenet特征提取模型。将两者预测的图片特征向量使用余弦相似度进行计算,计算其相似度,若计算出的相似度大于可信度阈值说明攻击成功,否则说明攻击失败;
步骤3.3:将对抗样本xadv与靶向图片y分别送入InsightFace_IR_SE50特征提取模型。将两者预测的图片特征向量使用余弦相似度进行计算,计算其相似度。若计算出的相似度大于可信度阈值,说明攻击成功,否则说明攻击失败;
步骤3.4:将对抗样本xadv与靶向图片y分别送入CosFace特征提取模型。将两者预测的图片特征向量使用余弦相似度进行计算,计算其相似度。若计算出的相似度大于可信度阈值,说明攻击成功,否则说明攻击失败;
步骤3.5:将对抗样本xadv与靶向图片y分别送入FaceNet_casia特征提取模型。将两者预测的图片特征向量使用余弦相似度进行计算,计算其相似度。若计算出的相似度大于可信度阈值说明攻击成功,否则说明攻击失败;
步骤3.6:将对抗样本xadv与靶向图片y分别送入FaceNet_vggface2特征提取模型。将两者预测的图片特征向量使用余弦相似度进行计算,计算其相似度。若计算出的相似度大于可信度阈值说明攻击成功,否则说明攻击失败;
步骤3.7:将对抗样本xadv与靶向图片y分别送入ArcFace特征提取模型。将两者预测的图片特征向量使用余弦相似度进行计算,计算其相似度。若计算出的相似度大于可信度阈值说明攻击成功,否则说明攻击失败;
步骤3.8:将对抗样本xadv与靶向图片y分别送入MobileNet特征提取模型。将两者预测的图片特征向量使用余弦相似度进行计算,计算其相似度。若计算出的相似度大于可信度阈值说明攻击成功,否则说明攻击失败;
步骤3.9:将对抗样本xadv与靶向图片y分别送入ResNet50特征提取模型。将两者预测的图片特征向量使用余弦相似度进行计算,计算其相似度。若计算出的相似度大于可信度阈值说明攻击成功,否则说明攻击失败;
步骤3.10:将对抗样本xadv与靶向图片y分别送入ShuffleNet特征提取模型。将两者预测的图片特征向量使用余弦相似度进行计算,计算其相似度。若计算出的相似度大于可信度阈值说明攻击成功。以此攻击ShuffleNet模型;
步骤3.11:将对抗样本xadv与靶向图片y分别送入evoLVe_IR_152特征提取模型。将两者预测的图片特征向量使用余弦相似度进行计算,计算其相似度。若计算出的相似度大于可信度阈值说明攻击成功,否则说明攻击失败;
步骤3.12:将对抗样本xadv与靶向图片y分别送入evoLVe_IR_50特征提取模型。将两者预测的图片特征向量使用余弦相似度进行计算,计算其相似度。
若计算出的相似度大于可信度阈值说明攻击成功,否则说明攻击失败;
步骤3.13:将对抗样本xadv与靶向图片y分别送入evoLVe_IR_50_Asia特征提取模型。将两者预测的图片特征向量使用余弦相似度进行计算,计算其相似度。若计算出的相似度大于可信度阈值说明攻击成功,否则说明攻击失败。

Claims (3)

1.一种基于动态残差侵蚀的对抗样本生成方法,其特征在于,包括以下步骤:
步骤1:针对残差网络中的残差块结构,采用行动态梯度侵蚀机制,即EGM侵蚀机制,进行侵蚀处理,之后将其作为本地的白盒替代神经网络模型;
步骤2:采用Corrasion Attack攻击方法,将其与EGM侵蚀机制相结合,生成对抗样本;其中,Corrasion Attack攻击包括以下步骤:
步骤2.1:以MXNET_LResNet34E_IR、MXNET_LResNet50E_IR、MXNET_LResNet100E_IR作为本地替代模型,进行对抗攻击;
步骤2.2:给定一张原始输入图片x和靶向图片y,其中,图片x允许改变最大像素值∈、攻击步长α;
步骤2.3:设计一个输入变换函数T(·),以随机概率p对输入图片x进行平移缩放:
T(x,p)=T(x),with probability p
步骤2.4:设定对抗攻击迭代次数;
步骤2.5:对于每一轮迭代攻击,将其分为m轮子迭代;
步骤2.6:对于每一轮子迭代,利用函数Si(·)对图片进行尺度变换,其中,Si(·)表示对图像的像素除以2的i次方,其中i∈[1,m];
步骤2.7:将尺度变换后的图片混入随机噪声,降低获取到的图片的梯度方差;
步骤2.8:将步骤2.7得到的图片送入输入变换函数T(·)中;
步骤2.9:将处理后的图片送入步骤1获得的本地白盒替代神经网络模型中,求解图片梯度,同时,将靶向图片送入神经网络提取图片特征;对于识别任务,使用余弦相似度作为损失函数;
步骤2.10:将m轮子迭代获取到的梯度进行求平均,结果作为本次迭代攻击的最终梯度G;
步骤2.11:在获得的图像梯度G上,使用卷积核kernel matrix W,对图像梯度进行平滑;
步骤2.12:将经步骤2.11中处理后的梯度信息进行累计,即,与之前的梯度信息进行求和;
步骤2.13:对图片像素使用梯度方向进行更新,获取对抗样本xadv,并对更改的最大像素值进行裁剪操作;
步骤2.14:将步骤2.13中输出的对抗样本作为本轮迭代攻击的结果和下一轮迭代攻击的输入,重复执行步骤2.5至2.13,直至达到迭代攻击次数。
2.如权利要求1所述的一种基于动态残差侵蚀的对抗样本生成方法,其特征在于,步骤1的具体实现方法如下:
在残差网络中,令Fi(·)表示第i层的残差块中的残差函数,Fi(xi)表示第i层的残差函数的输出,xi表示第i层跳跃连接部分,λ表示侵蚀参数;
首先,确定侵蚀参数λ,λ的取值为符合[0.5,1]的均匀分布,即侵蚀参数λ为一个集合λ={λ1,λ2,λ3…λi};
然后,在第i层残差块的部分,在其反向传播过程中给其梯度乘以侵蚀参数,使其变成
Figure FDA0003032701560000021
3.一种测试如权利要求1所述的一种基于动态残差侵蚀的对抗样本生成方法的方法,其特征在于,包括以下步骤:
使用InsightFace_mobilefacenet、InsightFace_IR_SE50、CosFace、FaceNet_casia、FaceNet_vggface2、ArcFace、MobileNet、ResNet50、ShuffleNet、evoLVe_IR_152、evoLVe_IR_50、evoLVe_IR_50_Asia这12个未知黑盒模型上,具体进行未知黑盒靶向攻击测试;
步骤3.1:使用步骤2中生成的对抗样本xadv和靶向攻击图片y,组成靶向攻击对,在上述未知的识别模型上进行靶向攻击实验;
步骤3.2:将对抗样本xadv与靶向图片y分别送入InsightFace_mobilefacenet特征提取模型;将两者预测的图片特征向量使用余弦相似度进行计算,计算其相似度,若计算出的相似度大于可信度阈值说明攻击成功,否则说明攻击失败;
步骤3.3:将对抗样本xadv与靶向图片y分别送入InsightFace_IR_SE50特征提取模型;将两者预测的图片特征向量使用余弦相似度进行计算,计算其相似度;若计算出的相似度大于可信度阈值,说明攻击成功,否则说明攻击失败;
步骤3.4:将对抗样本xadv与靶向图片y分别送入CosFace特征提取模型;将两者预测的图片特征向量使用余弦相似度进行计算,计算其相似度;若计算出的相似度大于可信度阈值,说明攻击成功,否则说明攻击失败;
步骤3.5:将对抗样本xadv与靶向图片y分别送入FaceNet_casia特征提取模型;将两者预测的图片特征向量使用余弦相似度进行计算,计算其相似度;若计算出的相似度大于可信度阈值说明攻击成功,否则说明攻击失败;
步骤3.6:将对抗样本xadv与靶向图片y分别送入FaceNet_vggface2特征提取模型;将两者预测的图片特征向量使用余弦相似度进行计算,计算其相似度;若计算出的相似度大于可信度阈值说明攻击成功,否则说明攻击失败;
步骤3.7:将对抗样本xadv与靶向图片y分别送入ArcFace特征提取模型;将两者预测的图片特征向量使用余弦相似度进行计算,计算其相似度;若计算出的相似度大于可信度阈值说明攻击成功,否则说明攻击失败;
步骤3.8:将对抗样本xadv与靶向图片y分别送入MobileNet特征提取模型;将两者预测的图片特征向量使用余弦相似度进行计算,计算其相似度;若计算出的相似度大于可信度阈值说明攻击成功,否则说明攻击失败;
步骤3.9:将对抗样本xadv与靶向图片y分别送入ResNet50特征提取模型;将两者预测的图片特征向量使用余弦相似度进行计算,计算其相似度;若计算出的相似度大于可信度阈值说明攻击成功,否则说明攻击失败;
步骤3.10:将对抗样本xadv与靶向图片y分别送入ShuffleNet特征提取模型;将两者预测的图片特征向量使用余弦相似度进行计算,计算其相似度;若计算出的相似度大于可信度阈值说明攻击成功;以此攻击ShuffleNet模型;
步骤3.11:将对抗样本xadv与靶向图片y分别送入evoLVe_IR_152特征提取模型;将两者预测的图片特征向量使用余弦相似度进行计算,计算其相似度;若计算出的相似度大于可信度阈值说明攻击成功,否则说明攻击失败;
步骤3.12:将对抗样本xadv与靶向图片y分别送入evoLVe_IR_50特征提取模型;将两者预测的图片特征向量使用余弦相似度进行计算,计算其相似度;若计算出的相似度大于可信度阈值说明攻击成功,否则说明攻击失败;
步骤3.13:将对抗样本xadv与靶向图片y分别送入evoLVe_IR_50_Asia特征提取模型;将两者预测的图片特征向量使用余弦相似度进行计算,计算其相似度;若计算出的相似度大于可信度阈值说明攻击成功,否则说明攻击失败。
CN202110435216.0A 2021-04-22 2021-04-22 一种基于动态残差侵蚀的对抗样本生成方法 Active CN113159317B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110435216.0A CN113159317B (zh) 2021-04-22 2021-04-22 一种基于动态残差侵蚀的对抗样本生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110435216.0A CN113159317B (zh) 2021-04-22 2021-04-22 一种基于动态残差侵蚀的对抗样本生成方法

Publications (2)

Publication Number Publication Date
CN113159317A CN113159317A (zh) 2021-07-23
CN113159317B true CN113159317B (zh) 2022-10-21

Family

ID=76869415

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110435216.0A Active CN113159317B (zh) 2021-04-22 2021-04-22 一种基于动态残差侵蚀的对抗样本生成方法

Country Status (1)

Country Link
CN (1) CN113159317B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113469330B (zh) * 2021-06-25 2022-12-02 中国人民解放军陆军工程大学 双极网络腐蚀增强对抗样本迁移性的方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111275115A (zh) * 2020-01-20 2020-06-12 星汉智能科技股份有限公司 一种基于生成对抗网络的对抗攻击样本的生成方法
CN111461307A (zh) * 2020-04-02 2020-07-28 武汉大学 一种基于生成对抗网络的通用扰动生成方法
CN111709435A (zh) * 2020-05-18 2020-09-25 杭州电子科技大学 一种基于离散小波变换的对抗样本生成方法
CN112329929A (zh) * 2021-01-04 2021-02-05 北京智源人工智能研究院 基于代理模型的对抗样本生成方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10944767B2 (en) * 2018-02-01 2021-03-09 International Business Machines Corporation Identifying artificial artifacts in input data to detect adversarial attacks

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111275115A (zh) * 2020-01-20 2020-06-12 星汉智能科技股份有限公司 一种基于生成对抗网络的对抗攻击样本的生成方法
CN111461307A (zh) * 2020-04-02 2020-07-28 武汉大学 一种基于生成对抗网络的通用扰动生成方法
CN111709435A (zh) * 2020-05-18 2020-09-25 杭州电子科技大学 一种基于离散小波变换的对抗样本生成方法
CN112329929A (zh) * 2021-01-04 2021-02-05 北京智源人工智能研究院 基于代理模型的对抗样本生成方法和装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Adaptive iterative attack towards explainable adversarial robustness;Yucheng Shi等;《Pattern Recognition》;20200227;第1-8页 *
Generating Adversarial Examples with Adversarial Networks;Chaowei Xiao等;《arXiv:1801.02610v5[cs.CR]》;20190214;第1-8页 *
HotFlip: White-Box Adversarial Examples for Text Classification;Javid Ebrahimi等;《arXiv:1712.06751v2[cs.CL]》;20180524;第1-6页 *
基于生成对抗网络的对抗样本生成;郭清杨;《现代计算机》;20200305(第07期);第24-28页 *
面向中文文本分类的词级对抗样本生成方法;仝鑫等;《信息网络安全》;20200910(第09期);第12-16页 *

Also Published As

Publication number Publication date
CN113159317A (zh) 2021-07-23

Similar Documents

Publication Publication Date Title
CN111914256B (zh) 一种机器学习训练数据受投毒攻击的防御方法
CN110348475B (zh) 一种基于空间变换的对抗样本增强方法和模型
CN112052761A (zh) 一种对抗人脸图像的生成方法和装置
CN106060008B (zh) 一种网络入侵异常检测方法
CN113691542B (zh) 基于HTTP请求文本的Web攻击检测方法及相关设备
CN111652290A (zh) 一种对抗样本的检测方法及装置
CN110602120B (zh) 一种面向网络的入侵数据检测方法
Liu et al. Adversaries or allies? Privacy and deep learning in big data era
CN114758198A (zh) 一种基于元学习对抗扰动的黑盒攻击方法及系统
CN115913643A (zh) 一种基于对抗自编码器的网络入侵检测方法、系统及介质
CN113627543A (zh) 一种对抗攻击检测方法
CN113159317B (zh) 一种基于动态残差侵蚀的对抗样本生成方法
CN115270996A (zh) 一种dga域名检测方法、检测装置及计算机存储介质
CN114626042A (zh) 一种人脸验证攻击方法和装置
CN113935396A (zh) 基于流形理论的对抗样本攻击方法及相关装置
Zanddizari et al. Generating black-box adversarial examples in sparse domain
CN116644439B (zh) 一种基于去噪扩散模型的模型安全性评估方法
Jami et al. Biometric template protection through adversarial learning
CN113780363A (zh) 一种对抗样本防御方法、系统、计算机及介质
CN115719085B (zh) 一种深度神经网络模型反演攻击防御方法及设备
Li et al. Detection of partially occluded pedestrians by an enhanced cascade detector
Sun et al. Instance-level Trojan Attacks on Visual Question Answering via Adversarial Learning in Neuron Activation Space
CN112766430B (zh) 基于黑盒通用人脸检测对抗攻击的方法、装置及存储介质
Mohammadi et al. Privacy-preserving Deep-learning Models for Fingerprint Data using Differential Privacy
CN115170898A (zh) 一种高效的遥感图像自监督学习训练方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant