CN111160400A - 一种基于修正边界攻击的对抗攻击方法 - Google Patents
一种基于修正边界攻击的对抗攻击方法 Download PDFInfo
- Publication number
- CN111160400A CN111160400A CN201911245233.7A CN201911245233A CN111160400A CN 111160400 A CN111160400 A CN 111160400A CN 201911245233 A CN201911245233 A CN 201911245233A CN 111160400 A CN111160400 A CN 111160400A
- Authority
- CN
- China
- Prior art keywords
- attack
- noise
- sample
- image
- disturbance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 19
- 238000005070 sampling Methods 0.000 claims abstract description 18
- 239000013598 vector Substances 0.000 claims abstract description 5
- 230000006835 compression Effects 0.000 claims description 14
- 238000007906 compression Methods 0.000 claims description 14
- 238000010276 construction Methods 0.000 claims description 5
- 230000000694 effects Effects 0.000 claims description 5
- 230000014759 maintenance of location Effects 0.000 claims description 4
- 239000000126 substance Substances 0.000 claims description 4
- 238000012937 correction Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 241000258957 Asteroidea Species 0.000 description 1
- 241000252229 Carassius auratus Species 0.000 description 1
- 241001529251 Gallinago gallinago Species 0.000 description 1
- 241000270322 Lepidosauria Species 0.000 description 1
- 241001471473 Sphyrna zygaena Species 0.000 description 1
- 241000270666 Testudines Species 0.000 description 1
- 239000005862 Whey Substances 0.000 description 1
- 102000007544 Whey Proteins Human genes 0.000 description 1
- 108010046377 Whey Proteins Proteins 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 235000000332 black box Nutrition 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000005295 random walk Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于修正边界攻击的对抗攻击方法,步骤1,收集图像及标签信息,形成<图像,类别>对,构建图像数据集;步骤2,取原始图像xi,进而得到由对抗样本所构成的集合x*;步骤3,构造噪声集合z*,以及构造并初始化扰动空间参数集合W;步骤4,通过计算扰动空间参数W的均值,构造扰动空间,在扰动空间中对扰动进行随机取样,生成噪声的切向方向的向量集合η;步骤5,修正边界攻击,构造新的对抗样本x′;步骤6,将新的对抗样本x′输入到目标模型,对扰动空间参数W进行调整;步骤7,重复步骤4、步骤5、步骤6共B‑1次,得到最终对抗样本x′,并将对抗样本输入到目标模型中进行分类,得出分类结果F(x′)。本发明达到了构建攻击能力更强的对抗样本的目的。
Description
技术领域
本发明涉及机器学习安全技术领域,尤其涉及一种面向深度图像识别系统的黑盒对抗决策攻击的方法。
背景技术
基于决策的攻击是对抗攻击方法中重要的一个类别。不同于基于迭代或优化的攻击方法,基于决策的攻击不需要耗费大量的计算资源对目标模型重复求导,而是通过在原始图像的输入空间内随机漫步,并对目标模型进行一定次数的查询以实现非黑盒攻击以及对抗噪声的压缩,能够以更高的效率和更少的限制生成噪声幅度较小的对抗样本。然而,现有的基于决策的攻击,例如Boundary Attack,Evolutionary Attack等并不使用对目标模型的历史查询建模目标模型对图像各像素的噪声的敏感度。基于决策的攻击本质上是在输入空间中原始图像的邻域内进行采样,并在保证错分的前提下寻找改变幅度尽可能小的噪声幅度。事实上一张图像中不同的像素点对于错分的贡献程度并不相同,不同模型对于图像的敏感区域也有所差异,这些信息都可以通过对目标模型的历史查询来获得,可以认为历史查询的结果是对像素点噪声敏感度的一个无偏近似。
另一方面,决策攻击中失败的采样(也就是落在正确类别的采样)事实上包含了决策边界的位置信息。尽管失败的采样无法直接压缩噪声幅度,但刻画了更高概率穿越决策边界的方向。由于对于攻击方来说希望尽可能多的采样落在相对于正确类别而言决策边界的另一侧,失败采样的信息可以使新的采样尽量避开失败概率较高的区域。但当前基于决策的攻击方法没有利用到这一包含目标模型决策边界的关键信息。
发明内容
为解决以上技术问题,本发明提出一种基于修正边界攻击的对抗攻击方法,通过分析一张图像中不同的像素点对于错分的贡献程度,对贡献较大的像素点进行攻击,同时结合成功和失败两方面的采样,以达到构建攻击能力更强的对抗样本的目的。
本发明的基于修正边界攻击的对抗攻击方法,该方法包括以下步骤:
步骤1,收集图像及标签信息,形成<图像,类别>对,构建图像数据集;
步骤3,构造噪声集合z*,表达式如下:
构造并初始化扰动空间参数集合W,表达式如下:
步骤4,通过计算扰动空间参数W的均值,构造扰动空间,在扰动空间中对扰动进行随机取样,得到的噪声的切向方向向量集合η,表达式如下:
步骤5,依据以下公式修正边界攻击:
修正边界攻击操作是依据r的比例挑选出当前噪声中绝对值最大的像素点,并构成一个掩模T,过滤出不敏感的图像区域;T在有效压缩采样空间的同时构建了一个对图像噪声区域的筛选机制。
由此,构造出新的对抗样本x′:
其中,δ为加入噪声的切向步长,ε为加入噪声的径向步长,都为本算法的超参数;
步骤6,首先将新的对抗样本x′输入到目标模型,记为F(·),然后使用适应性调整噪声步长的对抗样本构建方法对目标模型进行攻击,根据目标模型返回结果对x*和对扰动空间参数W进行调整:
如果F(x′)=y,表示采样失败,此时将失败采样进行记录并反馈给x*,即将η更新至扰动空间参数集合W:
W=W∪η;
步骤7,重复步骤4、步骤5、步骤6共B-1次,B为对于每张图像的最大查询次数。得到最终对抗样本x′,并将对抗样本输入到目标模型中进行分类,得出分类结果F(x′);
攻击效果通过对抗样本噪声压缩幅度θ来衡量:
其中,X表示测试图像的集合,x′表示使用决策攻击生成的对抗样本,x*表示初始对抗样本,|X|表示X中元素总数,θ∈(0,1)用于衡量决策攻击的噪声压缩能力。
与现有技术相比,本发明的有益效果如下:
相比较其他边界攻击的对抗攻击方法,本发明的一种基于修正边界攻击的对抗攻击方法,在每一次攻击时,仅调整当前噪声幅度已经较大的像素,并同时结合成功和失败两方面的采样信息指导新的采样,修正边界攻击在不同的目标模型上使用相同的查询次数实现了最高的噪声压缩幅度。
附图说明
图1为本发明的一种基于修正边界攻击的对抗攻击方法整体流程图;
图2为不同攻击方法产生的对抗样本的不同效果对比图;
图3为Tiny-Imagenet上θ随着B和r变化的改变对比图。
具体实施方式
下面结合附图和实施例对本发明作进一步的说明,但并不作为对本发明限制的依据。
如图1所示,为本发明的一种基于修正边界攻击的对抗攻击方法整体流程图。
步骤1,将收集的图像及标签信息形成<图像,类别>对,所有图像总共有n个类别,这里的类别标记为0~(n-1);
使用大规模图像分类数据集(ImageNet)构成图像集合(Img):
其中,xi表示第i张图像的RGB像素值,其维度为W×H×C,分别表示图像的宽、高和通道数量(这里为3),Nd表示图像集合(Img)中的图像总数;
构建图像集合(IMG)中每个图像所对应的图像描述集合(Label):
其中,yi表示第i个图像所对应的类别编号;
由图像集合(Img)以及每个图像对应的图像描述集合(Label)组成最终的数据集;
步骤3,构造并初始化攻击参数:
构造噪声zi *:
噪声集合z*表达式如下:
扰动空间参数集合W表达式如下:
步骤4,通过计算扰动空间参数W的均值,构造扰动空间,在扰动空间中对扰动进行随机取样,生成ηi,表示采样得到的噪声的切向方向向量:
噪声的切向方向向量集合η表达式如下:
步骤5,依据以下公式修正边界攻击,并且仅调整当前噪声幅度已经较大的像素,如下公式所示,即仅更改前r大的像素值:
修正边界攻击操作是依据r的比例挑选出当前噪声中绝对值最大的像素点,并构成一个掩模T,过滤出不敏感的图像区域。T在有效压缩采样空间的同时构建了一个对图像噪声区域的筛选机制。
由此,构造出新的对抗样本x′:
其中,δ为加入噪声的切向步长,ε为加入噪声的径向步长,都为本算法的超参数。
步骤6,首先将新的对抗样本x′输入到目标模型,这里的目标模型指的是深度神经网络模型Inception-v3,包含卷积操作、池化操作等,记为F(·)。然后使用适应性调整噪声步长的对抗样本构建方法对目标模型进行攻击,根据目标模型返回结果对x*和对扰动空间参数W进行调整:
如果F(x′)=y,表示采样失败,此时将失败采样进行记录并反馈给x*,即将η更新至扰动空间参数集合W:
W=W∪η
步骤7,重复步骤4、步骤5、步骤6共B-1次,B为对于每张图像的最大查询次数。得到最终对抗样本x′,并将对抗样本输入到目标模型中进行分类,得出分类结果F(x′)。
攻击效果通过对抗样本噪声压缩幅度θ来衡量:
其中,X表示测试图像的集合,x′表示使用决策攻击生成的对抗样本,x*表示初始对抗样本,|X|表示X中元素总数。θ∈(0,1)用于衡量决策攻击的噪声压缩能力。较高的θ表明攻击方法能够在相同的查询次数下将对抗噪声压缩至一个较低的水平。
如图2所示,为不同攻击方法产生的对抗样本的不同效果对比图。每行的最左边是原始图像,对比了C&W攻击(Whey)、边界攻击(Boundary)、贝叶斯边界攻击(BiasedBoundary)和优化攻击(Evolutionary),最右边是本发明的修正边界攻击的对抗样本构建方法攻击生成的对抗样本。在添加由修正边界攻击的对抗样本构建方法生成的对抗性噪声之后,Inception-v3模型上的分类结果由上到下从(水鸟,金鱼,锤头鲨,红海龟,绿曼巴)变为(红脚鹬,海星,蜥蜴,河马,鳗鱼)。由于修正边界攻击利用当前噪声修正采样的正态分布,可以看出噪声幅度较高的区域的幅度得到了显著压缩。
如图3所示,为在Tiny-Imagenet上压缩幅度θ随着B和r变化的改变。其中图3(a)(b)(c)表示在不同的攻击算法之后使用本发明提出算法的压缩幅度θ随着查询次数B变化的改变,更多的查询次数B可以给决策攻击提供更多的压缩对抗噪声的机会,可以看出修正边界攻击在所有的查询次数下噪声压缩幅度都超过了其他方法。图3(d)表示压缩幅度θ随着像素保留率r变化的改变,像素保留率和采样空间的维度压缩相关。这一参数存在探索和利用之间的平衡。r越小,则采样过程更集中于噪声幅度已经较大的区域。然而,如果r过小则会导致仅有少量噪声幅度最大的像素点被保留,因此这一参数的选择需要对搜索空间大小及噪声压缩效率进行平衡。
通过实验表明,相对于边界攻击而言,修正边界攻击的θ在某些情况下能够达到边界攻击的2-3倍,这验证了根据当前噪声调整采样分布,以及利用历史失败查询的有效性。
Claims (1)
1.一种基于修正边界攻击的对抗攻击方法,其特征在于,该方法包括以下步骤:
步骤1,收集图像及标签信息,形成<图像,类别>对,构建图像数据集;
步骤2,取原始图像xi,对xi添加随机高斯噪声得到xi *,使得目标分类器输出分类结果F(xi *)≠yi,进而得到由对抗样本所构成的集合x*;
步骤3,构造噪声集合z*,表达式如下:
构造并初始化扰动空间参数集合W,表达式如下:
步骤4,通过计算扰动空间参数W的均值,构造扰动空间,在扰动空间中对扰动进行随机取样,得到的噪声的切向方向向量集合η,表达式如下:
步骤5,依据以下公式修正边界攻击:
修正边界攻击操作是依据r的比例挑选出当前噪声中绝对值最大的像素点,并构成一个掩模T,过滤出不敏感的图像区域;T在有效压缩采样空间的同时构建了一个对图像噪声区域的筛选机制;
由此,构造出新的对抗样本x′:
其中,δ为加入噪声的切向步长,ε为加入噪声的径向步长,都为本算法的超参数;
步骤6,首先将新的对抗样本x′输入到目标模型,记为F(·),然后使用适应性调整噪声步长的对抗样本构建方法对目标模型进行攻击,根据目标模型返回结果对x*和对扰动空间参数W进行调整:
如果F(x′)=y,表示采样失败,此时将失败采样进行记录并反馈给x*,即将η更新至扰动空间参数集合W:
W=W∪η;
步骤7,重复步骤4、步骤5、步骤6共B-1次,B为对于每张图像的最大查询次数,得到最终对抗样本x′,并将对抗样本输入到目标模型中进行分类,得出分类结果F(x′);
攻击效果通过对抗样本噪声压缩幅度θ来衡量:
其中,X表示测试图像的集合,x′表示使用决策攻击生成的对抗样本,x*表示初始对抗样本,|X|表示X中元素总数,θ∈(0,1)用于衡量决策攻击的噪声压缩能力。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911245233.7A CN111160400A (zh) | 2019-12-06 | 2019-12-06 | 一种基于修正边界攻击的对抗攻击方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911245233.7A CN111160400A (zh) | 2019-12-06 | 2019-12-06 | 一种基于修正边界攻击的对抗攻击方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111160400A true CN111160400A (zh) | 2020-05-15 |
Family
ID=70555689
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911245233.7A Pending CN111160400A (zh) | 2019-12-06 | 2019-12-06 | 一种基于修正边界攻击的对抗攻击方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111160400A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111783551A (zh) * | 2020-06-04 | 2020-10-16 | 中国人民解放军军事科学院国防科技创新研究院 | 基于贝叶斯卷积神经网络的对抗样本防御方法 |
CN112200257A (zh) * | 2020-10-16 | 2021-01-08 | 支付宝(杭州)信息技术有限公司 | 对抗样本的生成方法及装置 |
CN112270700A (zh) * | 2020-10-30 | 2021-01-26 | 浙江大学 | 一种愚弄深度神经网络可解释算法的攻击判断方法 |
CN113571067A (zh) * | 2021-06-21 | 2021-10-29 | 浙江工业大学 | 一种基于边界攻击的声纹识别对抗样本生成方法 |
CN113869529A (zh) * | 2021-12-02 | 2021-12-31 | 支付宝(杭州)信息技术有限公司 | 用于生成对抗样本的方法、模型评估方法、装置和计算机设备 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109948663A (zh) * | 2019-02-27 | 2019-06-28 | 天津大学 | 一种基于模型抽取的步长自适应的对抗攻击方法 |
-
2019
- 2019-12-06 CN CN201911245233.7A patent/CN111160400A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109948663A (zh) * | 2019-02-27 | 2019-06-28 | 天津大学 | 一种基于模型抽取的步长自适应的对抗攻击方法 |
Non-Patent Citations (2)
Title |
---|
JIANBO CHEN等: "HopSkipJumpAttack: A Query-Efficient Decision-Based Attack", HTTPS://ARXIV.ORG/ABS/1904.02144V4 * |
SEYED-MOHSEN MOOSAVI-DEZFOOLI等: "DeepFool: a simple and accurate method to fool deep neural networks", HTTPS://ARXIV.ORG/ABS/1511.04599V3 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111783551A (zh) * | 2020-06-04 | 2020-10-16 | 中国人民解放军军事科学院国防科技创新研究院 | 基于贝叶斯卷积神经网络的对抗样本防御方法 |
CN111783551B (zh) * | 2020-06-04 | 2023-07-25 | 中国人民解放军军事科学院国防科技创新研究院 | 基于贝叶斯卷积神经网络的对抗样本防御方法 |
CN112200257A (zh) * | 2020-10-16 | 2021-01-08 | 支付宝(杭州)信息技术有限公司 | 对抗样本的生成方法及装置 |
CN112270700A (zh) * | 2020-10-30 | 2021-01-26 | 浙江大学 | 一种愚弄深度神经网络可解释算法的攻击判断方法 |
CN112270700B (zh) * | 2020-10-30 | 2022-06-28 | 浙江大学 | 一种愚弄深度神经网络可解释算法的攻击判断方法 |
CN113571067A (zh) * | 2021-06-21 | 2021-10-29 | 浙江工业大学 | 一种基于边界攻击的声纹识别对抗样本生成方法 |
CN113571067B (zh) * | 2021-06-21 | 2023-12-26 | 浙江工业大学 | 一种基于边界攻击的声纹识别对抗样本生成方法 |
CN113869529A (zh) * | 2021-12-02 | 2021-12-31 | 支付宝(杭州)信息技术有限公司 | 用于生成对抗样本的方法、模型评估方法、装置和计算机设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111160400A (zh) | 一种基于修正边界攻击的对抗攻击方法 | |
Huang et al. | Mos: Towards scaling out-of-distribution detection for large semantic space | |
Theis et al. | Faster gaze prediction with dense networks and fisher pruning | |
CN109978041B (zh) | 一种基于交替更新卷积神经网络的高光谱图像分类方法 | |
CN109299668B (zh) | 一种基于主动学习和聚类分析的高光谱图像分类方法 | |
KR101183391B1 (ko) | 메트릭 임베딩에 의한 이미지 비교 | |
CN110799995A (zh) | 数据识别器训练方法、数据识别器训练装置、程序及训练方法 | |
Katz et al. | Generating image filters for target recognition by genetic learning | |
CN112115967B (zh) | 一种基于数据保护的图像增量学习方法 | |
CN112884033B (zh) | 一种基于卷积神经网络的生活垃圾分类检测方法 | |
CN103886334A (zh) | 一种多指标融合的高光谱遥感影像降维方法 | |
CN115410088B (zh) | 一种基于虚拟分类器的高光谱图像领域自适应方法 | |
Varshney et al. | Classification using geometric level sets | |
CN111144214A (zh) | 基于多层堆栈式自动编码器的高光谱图像解混方法 | |
CN111985825A (zh) | 一种用于滚磨机定向仪的晶面质量评估方法 | |
WO2022051908A1 (en) | Normalization in deep convolutional neural networks | |
CN113837314A (zh) | 一种基于混合卷积神经网络的高光谱图像分类方法 | |
CN115984223A (zh) | 基于PCANet及多分类器融合的图像溢油检测方法 | |
Bonet et al. | Channel-wise early stopping without a validation set via NNK polytope interpolation | |
CN111325259A (zh) | 一种基于深度学习和二进制编码的遥感图像分类方法 | |
Tang et al. | Reinforcement learning of non-additive joint steganographic embedding costs with attention mechanism | |
CN112966748B (zh) | 基于边缘感知双分支fcn的极化sar图像分类方法 | |
Park et al. | AN EFFECTIVE COLOR QUANTIZATION METHOD USING COLOR IMPORTANCE-BASED SELF-ORGANIZING MAPS. | |
CN112329818A (zh) | 基于图卷积网络嵌入表征的高光谱图像非监督分类方法 | |
CN111666999A (zh) | 一种遥感图像的分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |