CN111160400A - 一种基于修正边界攻击的对抗攻击方法 - Google Patents

一种基于修正边界攻击的对抗攻击方法 Download PDF

Info

Publication number
CN111160400A
CN111160400A CN201911245233.7A CN201911245233A CN111160400A CN 111160400 A CN111160400 A CN 111160400A CN 201911245233 A CN201911245233 A CN 201911245233A CN 111160400 A CN111160400 A CN 111160400A
Authority
CN
China
Prior art keywords
attack
noise
sample
image
disturbance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911245233.7A
Other languages
English (en)
Inventor
王思宇
石育澄
韩亚洪
刘江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201911245233.7A priority Critical patent/CN111160400A/zh
Publication of CN111160400A publication Critical patent/CN111160400A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于修正边界攻击的对抗攻击方法,步骤1,收集图像及标签信息,形成<图像,类别>对,构建图像数据集;步骤2,取原始图像xi,进而得到由对抗样本所构成的集合x*;步骤3,构造噪声集合z*,以及构造并初始化扰动空间参数集合W;步骤4,通过计算扰动空间参数W的均值,构造扰动空间,在扰动空间中对扰动进行随机取样,生成噪声的切向方向的向量集合η;步骤5,修正边界攻击,构造新的对抗样本x′;步骤6,将新的对抗样本x′输入到目标模型,对扰动空间参数W进行调整;步骤7,重复步骤4、步骤5、步骤6共B‑1次,得到最终对抗样本x′,并将对抗样本输入到目标模型中进行分类,得出分类结果F(x′)。本发明达到了构建攻击能力更强的对抗样本的目的。

Description

一种基于修正边界攻击的对抗攻击方法
技术领域
本发明涉及机器学习安全技术领域,尤其涉及一种面向深度图像识别系统的黑盒对抗决策攻击的方法。
背景技术
基于决策的攻击是对抗攻击方法中重要的一个类别。不同于基于迭代或优化的攻击方法,基于决策的攻击不需要耗费大量的计算资源对目标模型重复求导,而是通过在原始图像的输入空间内随机漫步,并对目标模型进行一定次数的查询以实现非黑盒攻击以及对抗噪声的压缩,能够以更高的效率和更少的限制生成噪声幅度较小的对抗样本。然而,现有的基于决策的攻击,例如Boundary Attack,Evolutionary Attack等并不使用对目标模型的历史查询建模目标模型对图像各像素的噪声的敏感度。基于决策的攻击本质上是在输入空间中原始图像的邻域内进行采样,并在保证错分的前提下寻找改变幅度尽可能小的噪声幅度。事实上一张图像中不同的像素点对于错分的贡献程度并不相同,不同模型对于图像的敏感区域也有所差异,这些信息都可以通过对目标模型的历史查询来获得,可以认为历史查询的结果是对像素点噪声敏感度的一个无偏近似。
另一方面,决策攻击中失败的采样(也就是落在正确类别的采样)事实上包含了决策边界的位置信息。尽管失败的采样无法直接压缩噪声幅度,但刻画了更高概率穿越决策边界的方向。由于对于攻击方来说希望尽可能多的采样落在相对于正确类别而言决策边界的另一侧,失败采样的信息可以使新的采样尽量避开失败概率较高的区域。但当前基于决策的攻击方法没有利用到这一包含目标模型决策边界的关键信息。
发明内容
为解决以上技术问题,本发明提出一种基于修正边界攻击的对抗攻击方法,通过分析一张图像中不同的像素点对于错分的贡献程度,对贡献较大的像素点进行攻击,同时结合成功和失败两方面的采样,以达到构建攻击能力更强的对抗样本的目的。
本发明的基于修正边界攻击的对抗攻击方法,该方法包括以下步骤:
步骤1,收集图像及标签信息,形成<图像,类别>对,构建图像数据集;
步骤2,取原始图像xi,对xi添加随机高斯噪声得到
Figure BDA0002307345490000021
使得目标分类器(DNN)输出分类结果F(xi *)≠yi,进而得到由对抗样本所构成的集合x*
步骤3,构造噪声集合z*,表达式如下:
Figure BDA0002307345490000022
构造并初始化扰动空间参数集合W,表达式如下:
Figure BDA0002307345490000023
步骤4,通过计算扰动空间参数W的均值,构造扰动空间,在扰动空间中对扰动进行随机取样,得到的噪声的切向方向向量集合η,表达式如下:
Figure BDA0002307345490000026
步骤5,依据以下公式修正边界攻击:
Figure BDA0002307345490000024
其中,
Figure BDA0002307345490000025
表示z*中绝对值最大的像素点,r表示新的采样包含的像素点数量相对于当前噪声的像素点数量的比例,即像素保留率;
修正边界攻击操作是依据r的比例挑选出当前噪声中绝对值最大的像素点,并构成一个掩模T,过滤出不敏感的图像区域;T在有效压缩采样空间的同时构建了一个对图像噪声区域的筛选机制。
Figure BDA0002307345490000031
由此,构造出新的对抗样本x′:
Figure BDA0002307345490000032
其中,δ为加入噪声的切向步长,ε为加入噪声的径向步长,都为本算法的超参数;
步骤6,首先将新的对抗样本x′输入到目标模型,记为F(·),然后使用适应性调整噪声步长的对抗样本构建方法对目标模型进行攻击,根据目标模型返回结果对x*和对扰动空间参数W进行调整:
如果F(x′)≠y,即模型对于对抗样本x′的输出结果与其真实类别标签不一致,表示采样成功,也就意味着攻击成功,此时对噪声进行进一步压缩,用x′替换x*并将扰动空间参数集合W置为空集
Figure BDA0002307345490000033
x*=x′,
Figure BDA0002307345490000034
如果F(x′)=y,表示采样失败,此时将失败采样进行记录并反馈给x*,即将η更新至扰动空间参数集合W:
W=W∪η;
步骤7,重复步骤4、步骤5、步骤6共B-1次,B为对于每张图像的最大查询次数。得到最终对抗样本x′,并将对抗样本输入到目标模型中进行分类,得出分类结果F(x′);
攻击效果通过对抗样本噪声压缩幅度θ来衡量:
Figure BDA0002307345490000041
其中,X表示测试图像的集合,x′表示使用决策攻击生成的对抗样本,x*表示初始对抗样本,|X|表示X中元素总数,θ∈(0,1)用于衡量决策攻击的噪声压缩能力。
与现有技术相比,本发明的有益效果如下:
相比较其他边界攻击的对抗攻击方法,本发明的一种基于修正边界攻击的对抗攻击方法,在每一次攻击时,仅调整当前噪声幅度已经较大的像素,并同时结合成功和失败两方面的采样信息指导新的采样,修正边界攻击在不同的目标模型上使用相同的查询次数实现了最高的噪声压缩幅度。
附图说明
图1为本发明的一种基于修正边界攻击的对抗攻击方法整体流程图;
图2为不同攻击方法产生的对抗样本的不同效果对比图;
图3为Tiny-Imagenet上θ随着B和r变化的改变对比图。
具体实施方式
下面结合附图和实施例对本发明作进一步的说明,但并不作为对本发明限制的依据。
如图1所示,为本发明的一种基于修正边界攻击的对抗攻击方法整体流程图。
步骤1,将收集的图像及标签信息形成<图像,类别>对,所有图像总共有n个类别,这里的类别标记为0~(n-1);
使用大规模图像分类数据集(ImageNet)构成图像集合(Img):
Figure BDA0002307345490000042
其中,xi表示第i张图像的RGB像素值,其维度为W×H×C,分别表示图像的宽、高和通道数量(这里为3),Nd表示图像集合(Img)中的图像总数;
构建图像集合(IMG)中每个图像所对应的图像描述集合(Label):
Figure BDA0002307345490000051
其中,yi表示第i个图像所对应的类别编号;
由图像集合(Img)以及每个图像对应的图像描述集合(Label)组成最终的数据集;
步骤2,取原始图像xi,对xi添加随机高斯噪声得到
Figure BDA0002307345490000052
使得目标分类器(DNN)输出分类结果F(xi *)≠yi,进而得到由对抗样本所构成的集合x*
Figure BDA0002307345490000053
其中,
Figure BDA0002307345490000054
为xi经过添加随即高斯噪声所得到的对抗样本;
步骤3,构造并初始化攻击参数:
构造噪声zi *
Figure BDA0002307345490000055
噪声集合z*表达式如下:
Figure BDA0002307345490000056
构造并初始化扰动空间参数集合Wi为空集
Figure BDA0002307345490000057
Figure BDA0002307345490000058
扰动空间参数集合W表达式如下:
Figure BDA0002307345490000059
步骤4,通过计算扰动空间参数W的均值,构造扰动空间,在扰动空间中对扰动进行随机取样,生成ηi,表示采样得到的噪声的切向方向向量:
Figure BDA0002307345490000061
噪声的切向方向向量集合η表达式如下:
Figure BDA0002307345490000062
Figure BDA0002307345490000063
即集合W为空集时,
Figure BDA0002307345490000064
Figure BDA0002307345490000065
步骤5,依据以下公式修正边界攻击,并且仅调整当前噪声幅度已经较大的像素,如下公式所示,即仅更改前r大的像素值:
Figure BDA0002307345490000066
其中,
Figure BDA0002307345490000067
表示z*中绝对值最大的像素点,r表示新的采样包含的像素点数量相对于当前噪声的像素点数量的比例,即像素保留率。
修正边界攻击操作是依据r的比例挑选出当前噪声中绝对值最大的像素点,并构成一个掩模T,过滤出不敏感的图像区域。T在有效压缩采样空间的同时构建了一个对图像噪声区域的筛选机制。
Figure BDA0002307345490000068
由此,构造出新的对抗样本x′:
Figure BDA0002307345490000069
其中,δ为加入噪声的切向步长,ε为加入噪声的径向步长,都为本算法的超参数。
步骤6,首先将新的对抗样本x′输入到目标模型,这里的目标模型指的是深度神经网络模型Inception-v3,包含卷积操作、池化操作等,记为F(·)。然后使用适应性调整噪声步长的对抗样本构建方法对目标模型进行攻击,根据目标模型返回结果对x*和对扰动空间参数W进行调整:
如果F(x′)≠y,即模型对于对抗样本x′的输出结果与其真实类别标签不一致,表示采样成功,也就意味着攻击成功,此时对噪声进行进一步压缩,用x′替换x*并将扰动空间参数集合W置为空集
Figure BDA0002307345490000071
x*=x′,
Figure BDA0002307345490000072
如果F(x′)=y,表示采样失败,此时将失败采样进行记录并反馈给x*,即将η更新至扰动空间参数集合W:
W=W∪η
步骤7,重复步骤4、步骤5、步骤6共B-1次,B为对于每张图像的最大查询次数。得到最终对抗样本x′,并将对抗样本输入到目标模型中进行分类,得出分类结果F(x′)。
攻击效果通过对抗样本噪声压缩幅度θ来衡量:
Figure BDA0002307345490000073
其中,X表示测试图像的集合,x′表示使用决策攻击生成的对抗样本,x*表示初始对抗样本,|X|表示X中元素总数。θ∈(0,1)用于衡量决策攻击的噪声压缩能力。较高的θ表明攻击方法能够在相同的查询次数下将对抗噪声压缩至一个较低的水平。
如图2所示,为不同攻击方法产生的对抗样本的不同效果对比图。每行的最左边是原始图像,对比了C&W攻击(Whey)、边界攻击(Boundary)、贝叶斯边界攻击(BiasedBoundary)和优化攻击(Evolutionary),最右边是本发明的修正边界攻击的对抗样本构建方法攻击生成的对抗样本。在添加由修正边界攻击的对抗样本构建方法生成的对抗性噪声之后,Inception-v3模型上的分类结果由上到下从(水鸟,金鱼,锤头鲨,红海龟,绿曼巴)变为(红脚鹬,海星,蜥蜴,河马,鳗鱼)。由于修正边界攻击利用当前噪声修正采样的正态分布,可以看出噪声幅度较高的区域的幅度得到了显著压缩。
如图3所示,为在Tiny-Imagenet上压缩幅度θ随着B和r变化的改变。其中图3(a)(b)(c)表示在不同的攻击算法之后使用本发明提出算法的压缩幅度θ随着查询次数B变化的改变,更多的查询次数B可以给决策攻击提供更多的压缩对抗噪声的机会,可以看出修正边界攻击在所有的查询次数下噪声压缩幅度都超过了其他方法。图3(d)表示压缩幅度θ随着像素保留率r变化的改变,像素保留率和采样空间的维度压缩相关。这一参数存在探索和利用之间的平衡。r越小,则采样过程更集中于噪声幅度已经较大的区域。然而,如果r过小则会导致仅有少量噪声幅度最大的像素点被保留,因此这一参数的选择需要对搜索空间大小及噪声压缩效率进行平衡。
通过实验表明,相对于边界攻击而言,修正边界攻击的θ在某些情况下能够达到边界攻击的2-3倍,这验证了根据当前噪声调整采样分布,以及利用历史失败查询的有效性。

Claims (1)

1.一种基于修正边界攻击的对抗攻击方法,其特征在于,该方法包括以下步骤:
步骤1,收集图像及标签信息,形成<图像,类别>对,构建图像数据集;
步骤2,取原始图像xi,对xi添加随机高斯噪声得到xi *,使得目标分类器输出分类结果F(xi *)≠yi,进而得到由对抗样本所构成的集合x*
步骤3,构造噪声集合z*,表达式如下:
Figure FDA0002307345480000011
构造并初始化扰动空间参数集合W,表达式如下:
Figure FDA0002307345480000012
步骤4,通过计算扰动空间参数W的均值,构造扰动空间,在扰动空间中对扰动进行随机取样,得到的噪声的切向方向向量集合η,表达式如下:
Figure FDA0002307345480000013
步骤5,依据以下公式修正边界攻击:
Figure FDA0002307345480000014
其中,
Figure FDA0002307345480000015
表示z*中绝对值最大的像素点,r表示新的采样包含的像素点数量相对于当前噪声的像素点数量的比例,即像素保留率;
修正边界攻击操作是依据r的比例挑选出当前噪声中绝对值最大的像素点,并构成一个掩模T,过滤出不敏感的图像区域;T在有效压缩采样空间的同时构建了一个对图像噪声区域的筛选机制;
Figure FDA0002307345480000021
由此,构造出新的对抗样本x′:
Figure FDA0002307345480000022
其中,δ为加入噪声的切向步长,ε为加入噪声的径向步长,都为本算法的超参数;
步骤6,首先将新的对抗样本x′输入到目标模型,记为F(·),然后使用适应性调整噪声步长的对抗样本构建方法对目标模型进行攻击,根据目标模型返回结果对x*和对扰动空间参数W进行调整:
如果F(x′)≠y,即目标模型对于对抗样本x′的输出结果与其真实类别标签不一致,表示采样成功,也就意味着攻击成功,此时对噪声进行进一步压缩,用x′替换x*并将扰动空间参数集合W置为空集
Figure FDA0002307345480000023
x*=x′,
Figure FDA0002307345480000024
如果F(x′)=y,表示采样失败,此时将失败采样进行记录并反馈给x*,即将η更新至扰动空间参数集合W:
W=W∪η;
步骤7,重复步骤4、步骤5、步骤6共B-1次,B为对于每张图像的最大查询次数,得到最终对抗样本x′,并将对抗样本输入到目标模型中进行分类,得出分类结果F(x′);
攻击效果通过对抗样本噪声压缩幅度θ来衡量:
Figure FDA0002307345480000025
其中,X表示测试图像的集合,x′表示使用决策攻击生成的对抗样本,x*表示初始对抗样本,|X|表示X中元素总数,θ∈(0,1)用于衡量决策攻击的噪声压缩能力。
CN201911245233.7A 2019-12-06 2019-12-06 一种基于修正边界攻击的对抗攻击方法 Pending CN111160400A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911245233.7A CN111160400A (zh) 2019-12-06 2019-12-06 一种基于修正边界攻击的对抗攻击方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911245233.7A CN111160400A (zh) 2019-12-06 2019-12-06 一种基于修正边界攻击的对抗攻击方法

Publications (1)

Publication Number Publication Date
CN111160400A true CN111160400A (zh) 2020-05-15

Family

ID=70555689

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911245233.7A Pending CN111160400A (zh) 2019-12-06 2019-12-06 一种基于修正边界攻击的对抗攻击方法

Country Status (1)

Country Link
CN (1) CN111160400A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111783551A (zh) * 2020-06-04 2020-10-16 中国人民解放军军事科学院国防科技创新研究院 基于贝叶斯卷积神经网络的对抗样本防御方法
CN112200257A (zh) * 2020-10-16 2021-01-08 支付宝(杭州)信息技术有限公司 对抗样本的生成方法及装置
CN112270700A (zh) * 2020-10-30 2021-01-26 浙江大学 一种愚弄深度神经网络可解释算法的攻击判断方法
CN113571067A (zh) * 2021-06-21 2021-10-29 浙江工业大学 一种基于边界攻击的声纹识别对抗样本生成方法
CN113869529A (zh) * 2021-12-02 2021-12-31 支付宝(杭州)信息技术有限公司 用于生成对抗样本的方法、模型评估方法、装置和计算机设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109948663A (zh) * 2019-02-27 2019-06-28 天津大学 一种基于模型抽取的步长自适应的对抗攻击方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109948663A (zh) * 2019-02-27 2019-06-28 天津大学 一种基于模型抽取的步长自适应的对抗攻击方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JIANBO CHEN等: "HopSkipJumpAttack: A Query-Efficient Decision-Based Attack", HTTPS://ARXIV.ORG/ABS/1904.02144V4 *
SEYED-MOHSEN MOOSAVI-DEZFOOLI等: "DeepFool: a simple and accurate method to fool deep neural networks", HTTPS://ARXIV.ORG/ABS/1511.04599V3 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111783551A (zh) * 2020-06-04 2020-10-16 中国人民解放军军事科学院国防科技创新研究院 基于贝叶斯卷积神经网络的对抗样本防御方法
CN111783551B (zh) * 2020-06-04 2023-07-25 中国人民解放军军事科学院国防科技创新研究院 基于贝叶斯卷积神经网络的对抗样本防御方法
CN112200257A (zh) * 2020-10-16 2021-01-08 支付宝(杭州)信息技术有限公司 对抗样本的生成方法及装置
CN112270700A (zh) * 2020-10-30 2021-01-26 浙江大学 一种愚弄深度神经网络可解释算法的攻击判断方法
CN112270700B (zh) * 2020-10-30 2022-06-28 浙江大学 一种愚弄深度神经网络可解释算法的攻击判断方法
CN113571067A (zh) * 2021-06-21 2021-10-29 浙江工业大学 一种基于边界攻击的声纹识别对抗样本生成方法
CN113571067B (zh) * 2021-06-21 2023-12-26 浙江工业大学 一种基于边界攻击的声纹识别对抗样本生成方法
CN113869529A (zh) * 2021-12-02 2021-12-31 支付宝(杭州)信息技术有限公司 用于生成对抗样本的方法、模型评估方法、装置和计算机设备

Similar Documents

Publication Publication Date Title
CN111160400A (zh) 一种基于修正边界攻击的对抗攻击方法
Huang et al. Mos: Towards scaling out-of-distribution detection for large semantic space
Theis et al. Faster gaze prediction with dense networks and fisher pruning
CN109978041B (zh) 一种基于交替更新卷积神经网络的高光谱图像分类方法
CN109299668B (zh) 一种基于主动学习和聚类分析的高光谱图像分类方法
KR101183391B1 (ko) 메트릭 임베딩에 의한 이미지 비교
CN110799995A (zh) 数据识别器训练方法、数据识别器训练装置、程序及训练方法
Katz et al. Generating image filters for target recognition by genetic learning
CN112115967B (zh) 一种基于数据保护的图像增量学习方法
CN112884033B (zh) 一种基于卷积神经网络的生活垃圾分类检测方法
CN103886334A (zh) 一种多指标融合的高光谱遥感影像降维方法
CN115410088B (zh) 一种基于虚拟分类器的高光谱图像领域自适应方法
Varshney et al. Classification using geometric level sets
CN111144214A (zh) 基于多层堆栈式自动编码器的高光谱图像解混方法
CN111985825A (zh) 一种用于滚磨机定向仪的晶面质量评估方法
WO2022051908A1 (en) Normalization in deep convolutional neural networks
CN113837314A (zh) 一种基于混合卷积神经网络的高光谱图像分类方法
CN115984223A (zh) 基于PCANet及多分类器融合的图像溢油检测方法
Bonet et al. Channel-wise early stopping without a validation set via NNK polytope interpolation
CN111325259A (zh) 一种基于深度学习和二进制编码的遥感图像分类方法
Tang et al. Reinforcement learning of non-additive joint steganographic embedding costs with attention mechanism
CN112966748B (zh) 基于边缘感知双分支fcn的极化sar图像分类方法
Park et al. AN EFFECTIVE COLOR QUANTIZATION METHOD USING COLOR IMPORTANCE-BASED SELF-ORGANIZING MAPS.
CN112329818A (zh) 基于图卷积网络嵌入表征的高光谱图像非监督分类方法
CN111666999A (zh) 一种遥感图像的分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination