CN113657448B - 一种基于生成对抗网络和梯度解释的对抗样本防御方法 - Google Patents
一种基于生成对抗网络和梯度解释的对抗样本防御方法 Download PDFInfo
- Publication number
- CN113657448B CN113657448B CN202110797650.3A CN202110797650A CN113657448B CN 113657448 B CN113657448 B CN 113657448B CN 202110797650 A CN202110797650 A CN 202110797650A CN 113657448 B CN113657448 B CN 113657448B
- Authority
- CN
- China
- Prior art keywords
- image
- countermeasure
- sample
- training
- gradient
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000007123 defense Effects 0.000 title claims abstract description 17
- 238000012549 training Methods 0.000 claims abstract description 49
- 238000013528 artificial neural network Methods 0.000 claims abstract description 6
- 238000009826 distribution Methods 0.000 claims abstract description 5
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 230000006978 adaptation Effects 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 8
- 230000003044 adaptive effect Effects 0.000 claims description 6
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 230000010354 integration Effects 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims description 2
- 238000005457 optimization Methods 0.000 claims description 2
- 238000012360 testing method Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000008485 antagonism Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000005477 standard model Effects 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于生成对抗网络和梯度解释的对抗样本防御方法。对每幅原始图像进行预处理得到训练图像;构建生成对抗网络,包括由深度神经网络组成的生成器模块和鉴别器模块;将训练图像输入到生成器模块中,得到梯度解释图像;将梯度解释图像和训练图像共同输入到鉴别器中进一步训练得到最终的生成对抗网络;对于待测对象样本,输入到网络中进行预测分类,输出真实样本或者对抗样本的分类结果,对抗样本进行排除,实现对抗样本防御。本发明通过生成对抗网络约束梯度解释和原始图像之间的特征分布,使训练后的图像分类网络能够更好的抵御对抗样本。
Description
技术领域
本发明涉及了一种深度学习领域提高模型鲁棒性的方法,尤其是涉及一种基于生成对抗网络和梯度解释的对抗样本防御方法。
背景技术
近年来随着人工智能和深度学习的发展,深度学习相关技术已广泛遍及计算机视觉、自然语言处理、语音识别等多个领域。尽管深度学习模型在很多实际场景中取得了巨大成功,但人们发现它们很容易受到对抗样本的影响。对抗样本是指在数据集中通过故意添加细微干扰所形成的输入样本,这些样本在人眼视觉效果上与真实图像无异,但会导致模型以高置信度给出一个错误的输出。对抗样本的存在对于人工智能系统在实际场景的部署,特别是对安全性要求较高的场景带来了潜在的安全威胁。
针对对抗样本引起的人工智能安全性问题,研究者们已经提出了大量的防御方法提升模型鲁棒性。这些防御方法大致可分为四类:基于转换的方法、基于梯度掩蔽的方法、基于对抗训练的方法和基于检测的方法。
基于转换的方法是在样本输入到模型进行判定之前,先对样本进行预处理,剔除其中扰动的信息。但预处理同时也会影响对真实样本的预测结果,降低真实样本的预测准确率。基于梯度掩蔽的方法通过隐藏模型的原始梯度,能够防御基于梯度方法产生的对抗样本,但对其他方法的对抗样本效果会下降。
基于检测的方法只是能够发现输入样本中的对抗样本,但无法进行防御,不适用于实际场景中使用。基于对抗训练的防御方法是将生成的对抗样本加入到训练集中与真实样本一起训练,让模型在训练时就先学习一遍对抗样本,可理解为一种数据增强的技术。在这些防御方法中,基于对抗训练的方法被认为具有最强大的防御能力,但不可避免的缺点是大大增加了训练模型的时间,同时会降低预测真实样本的准确率。
发明内容
为了克服深度神经网络模型易受对抗样本的影响,解决基于对抗训练的对抗样本防御方法模型训练效率低,同时会降低预测真实样本准确率的技术问题,本发明提供了一种基于生成对抗网络和梯度解释的对抗样本防御方法。本发明针对所有类型的对抗样本都有很好的防御效果,同时在模型训练过程中无需对抗样本参与,提高了的训练效率,并且不影响模型预测真实样本的准确性。
本发明是通过以下技术方案来实现的:
步骤1)对于每幅原始图像xo进行预处理,得到训练图像x;
步骤2)构建生成对抗网络,生成对抗网络包括由深度神经网络组成的生成器模块和鉴别器模块;
步骤3)将训练图像x输入到生成器模块中,得到梯度解释图像IG(x);
步骤4)将步骤3)中得到的梯度解释图像IG(x)和训练图像x共同输入到鉴别器中模块,进一步训练得到最终的生成对抗网络;
步骤5)对于待测对象图像样本,输入到步骤4)获得的生成对抗网络中进行正确的预测分类,输出真实样本或者对抗样本的分类结果,对抗样本进行排除,实现对抗样本防御。
本发明的样本通常为生活中的需要识别目标的图像,所述对抗样本为影响分类的干扰图像。
所述步骤1)具体为:
将均匀分布的噪声ε加入到原始图像xo的各个像素中,得到预处理后的训练图像x,计算过程如下式所示:
x=xo+ε,εi~unif[-∈,∈],ε={εi}
其中,unif[-∈,∈]表示大小分布在[-∈,∈]之间的均匀噪声,∈表示噪声大小,i表示图像中的像素的序数,εi表示图像中的像素i处所添加的噪声。
所述步骤2)中,生成对抗网络包括分类器F、适应器A和鉴别器D,分类器F和适应器A共同组成生成器模块。
所述步骤2)中,分类器F是由ResNet18网络组成,适应器A主要由带有激活层的1×1卷积组成,鉴别器D主要由三个卷积层依次连接组成。
所述步骤3)中具体为:
3.1)首先将步骤1)得到的训练图像x输入到生成器模块中的分类器F中,得到初始梯度解释图像IGo(x),计算过程如下式所示:
其中,x′表示基准图像,下标i表示图像的第i个像素,xi表示图像第i个像素处的像素值,α表示由0到1的积分路径,F()表示分类器F,IGo(x)表示由训练图像x对应获得的初始梯度解释图像;
3.2)然后将初始梯度解释图像IGo(x)输入到适应器A中,使初始梯度解释图像映射到图像域,得到最终的梯度解释图像IG(x):
IG(x)=A(IGo(x))
其中,IG(x)表示由训练图像x对应获得的梯度解释图像,A()表示适应器A;
所述步骤4)中具体为:
4.1)将梯度解释图像IG(x)和训练图像x共同输入到鉴别器D中,分别计算分类损失Lcls和生成对抗损失Ladv,计算过程如下式:
Lcls=-C(F(x),y)
Ladv=Exlog D(x)+EIG(x)[log(1-D(IG(x)))]
其中,C表示交叉熵损失,y表示训练图像的标签,D()表示鉴别器D,Ex表示求以训练图像x作为变量的期望,EIG(x)表示求以梯度解释图像IG(x)作为变量的期望;
4.2)利用分类损失Lcls和生成对抗损失Ladv分别利用自适应矩估计(Adam)优化器对分类器、适应器和鉴别器参数进行优化,优化过程如下式所示:
其中,θ表示分类器的参数,ξ表示适应器的参数,ψ表示鉴别器的参数,α表示生成对抗损失权重系数。
本发明引入了生成对抗网络来增强梯度解释的显著性,其中生成对抗网络中的生成器模块用于生成显著的梯度解释,鉴别器模块用于鉴别梯度解释和原始图像。生成器和鉴别器间的博弈使得两者特征分布越来越相近,同时训练后的模型能够更好的抵御对抗样本。
本发明的有益效果是:
本发明使训练后的网络具有更好的鲁棒性,避免对抗样本对深度神经网络进行分类和预测时的影响。在防御对抗样本的性能方面,本发明的防御效果在所有对抗样本图像上均有很好表现,同时不影响真实样本的测试准确率。在训练效率方面,本发明的训练时间最短,训练效率最高。
附图说明
图1为本发明所提出的方法的结构图,通过图中的计算流程经过训练得到最终的模型。
图2为本发明与其他方法在原始图像和对抗样本图像测试准确率上的结果对比。
图3为本发明与其他方法每个轮次训练时间上的结果对比。
具体实施方式
下面结合附图和实施例对本发明作进一步说明。
按照本发明发明内容完整方法实施的实施例如下:
实施例采用CIFAR10数据集作为训练数据集。
1)对CIFAR10数据集上的图像进行预处理,在每幅图像的像素中加入[-6,6]之间的均匀分布噪声。
2)如图1所示,图像经过ResNet18网络结构的分类器计算初始梯度解释图像,其中计算过程中的基准图像选择全黑图像,即像素点全为0的图像。
构建生成对抗网络,生成对抗网络包括分类器F、适应器A和鉴别器D,分类器F和适应器A共同组成生成器模块;分类器F是由ResNet18网络组成,适应器A主要由带有激活层的1×1卷积组成,鉴别器D主要由三个卷积层依次连接组成。
3)将初始梯度解释图像输入到生成器模块中,得到最终的梯度解释图像IG(x)。
4)将梯度解释图像IG(x)和训练图像x共同输入到鉴别器中,计算生成对抗损失。
5)将标准训练的分类损失加入到生成对抗损失中,利用自适应矩估计(Adam)优化器对分类器、适应器和鉴别器参数进行优化。每更新15次分类器和适应器参数,更新一次鉴别器参数。
6)依据经验设定训练次数为100,设置初始学习率为0.01,训练40次后设置学习率为0.001、生成对抗损失权重系数α设置为1。全部训练结束后得到最终的模型。
图2为本发明与其他方法的对比结果,本方法在各类对抗样本图像上都有较高的测试准确率,在原始图像上的测试准确率虽然略低于标准模型,但相较于其他防御方法性能更好。
图3为本发明与其他方法每个轮次的平均训练时间结果对比。本发明所需训练时间最少,效率最高,与Adv PGD方法相比,具有相近防御性能的同时,训练时间只为其三分之一。
由此可见,本发明通过生成对抗网络约束梯度解释和原始图像之间的特征分布,使训练后的图像分类网络能够更好的抵御对抗样本。
Claims (4)
1.一种基于生成对抗网络和梯度解释的对抗样本防御方法,其特征在于:方法包括以下步骤:
步骤1)对于每幅原始图像xo进行预处理,得到训练图像x;
步骤2)构建生成对抗网络,生成对抗网络包括由深度神经网络组成的生成器模块和鉴别器模块;
步骤3)将训练图像x输入到生成器模块中,得到梯度解释图像IG(x);
步骤4)将步骤3)中得到的梯度解释图像IG(x)和训练图像x共同输入到鉴别器中模块,训练得到最终的生成对抗网络;
步骤5)对于待测对象图像样本,输入到步骤4)获得的生成对抗网络中进行正确的预测分类,输出真实样本或者对抗样本的分类结果,对抗样本进行排除,实现对抗样本防御;
所述步骤2)中,生成对抗网络包括分类器F、适应器A和鉴别器D,分类器F和适应器A共同组成生成器模块;
所述步骤3)中具体为:
3.1)首先将步骤1)得到的训练图像x输入到生成器模块中的分类器F中,得到初始梯度解释图像IGo(x),计算过程如下式所示:
其中,x′表示基准图像,下标i表示图像的第i个像素,xi表示图像第i个像素处的像素值,α表示由0到1的积分路径,F()表示分类器F,IGo(x)表示由训练图像x对应获得的初始梯度解释图像;
3.2)然后将初始梯度解释图像IGo(x)输入到适应器A中,使初始梯度解释图像映射到图像域,得到最终的梯度解释图像IG(x):
IG(x)=A(IGo(x))
其中,IG(x)表示由训练图像x对应获得的梯度解释图像,A()表示适应器A。
2.根据权利要求1所述的一种基于生成对抗网络和梯度解释的对抗样本防御方法,其特征在于:所述步骤1)具体为:
将均匀分布的噪声ε加入到原始图像xo的各个像素中,得到预处理后的训练图像x,计算过程如下式所示:
x=xo+ε,εi~unif[-∈,∈],ε={εi}
其中,unif[-∈,∈]表示大小分布在[-∈,∈]之间的均匀噪声,∈表示噪声大小,i表示图像中的像素的序数,εi表示图像中的像素i处所添加的噪声。
3.根据权利要求2所述的一种基于深度神经网络可解释性的对抗样本防御方法,其特征在于:所述步骤2)中,分类器F是由ResNet18网络组成,适应器A主要由带有激活层的1×1卷积组成,鉴别器D主要由三个卷积层依次连接组成。
4.根据权利要求1所述的一种基于深度神经网络可解释性的对抗样本防御方法,其特征在于:所述步骤4)中具体为:
4.1)将梯度解释图像IG(x)和训练图像x共同输入到鉴别器D中,分别计算分类损失Lcls和生成对抗损失Ladv,计算过程如下式:
Lcls=-C(F(x),y)
Ladv=Exlog D(x)+EIG(x)[log(1-D(IG(x)))]
其中,c表示交叉熵损失,y表示训练图像的标签,D()表示鉴别器D,Ex表示求以训练图像x作为变量的期望,EIG(x)表示求以梯度解释图像IG(x)作为变量的期望;
4.2)利用分类损失Lcls和生成对抗损失Ladv分别利用自适应矩估计(Adam)优化器对分类器、适应器和鉴别器参数进行优化,优化过程如下式所示:
其中,θ表示分类器的参数,ξ表示适应器的参数,ψ表示鉴别器的参数,α表示生成对抗损失权重系数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110797650.3A CN113657448B (zh) | 2021-07-14 | 2021-07-14 | 一种基于生成对抗网络和梯度解释的对抗样本防御方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110797650.3A CN113657448B (zh) | 2021-07-14 | 2021-07-14 | 一种基于生成对抗网络和梯度解释的对抗样本防御方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113657448A CN113657448A (zh) | 2021-11-16 |
CN113657448B true CN113657448B (zh) | 2023-11-24 |
Family
ID=78489389
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110797650.3A Active CN113657448B (zh) | 2021-07-14 | 2021-07-14 | 一种基于生成对抗网络和梯度解释的对抗样本防御方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113657448B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018028255A1 (zh) * | 2016-08-11 | 2018-02-15 | 深圳市未来媒体技术研究院 | 基于对抗网络的图像显著性检测方法 |
CN109190665A (zh) * | 2018-07-30 | 2019-01-11 | 国网上海市电力公司 | 一种基于半监督生成对抗网络的通用图像分类方法和装置 |
CN110135366A (zh) * | 2019-05-20 | 2019-08-16 | 厦门大学 | 基于多尺度生成对抗网络的遮挡行人重识别方法 |
CN111598805A (zh) * | 2020-05-13 | 2020-08-28 | 华中科技大学 | 一种基于vae-gan的对抗样本防御方法及系统 |
CN111753881A (zh) * | 2020-05-28 | 2020-10-09 | 浙江工业大学 | 一种基于概念敏感性量化识别对抗攻击的防御方法 |
CN112364885A (zh) * | 2020-10-12 | 2021-02-12 | 浙江大学 | 一种基于深度神经网络模型可解释性的对抗样本防御方法 |
-
2021
- 2021-07-14 CN CN202110797650.3A patent/CN113657448B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018028255A1 (zh) * | 2016-08-11 | 2018-02-15 | 深圳市未来媒体技术研究院 | 基于对抗网络的图像显著性检测方法 |
CN109190665A (zh) * | 2018-07-30 | 2019-01-11 | 国网上海市电力公司 | 一种基于半监督生成对抗网络的通用图像分类方法和装置 |
CN110135366A (zh) * | 2019-05-20 | 2019-08-16 | 厦门大学 | 基于多尺度生成对抗网络的遮挡行人重识别方法 |
CN111598805A (zh) * | 2020-05-13 | 2020-08-28 | 华中科技大学 | 一种基于vae-gan的对抗样本防御方法及系统 |
CN111753881A (zh) * | 2020-05-28 | 2020-10-09 | 浙江工业大学 | 一种基于概念敏感性量化识别对抗攻击的防御方法 |
CN112364885A (zh) * | 2020-10-12 | 2021-02-12 | 浙江大学 | 一种基于深度神经网络模型可解释性的对抗样本防御方法 |
Non-Patent Citations (1)
Title |
---|
GP-WIRGAN:梯度惩罚优化的Wasserstein图像循环生成对抗网络模型;冯永 等;计算机学报;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113657448A (zh) | 2021-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110599409B (zh) | 基于多尺度卷积组与并行的卷积神经网络图像去噪方法 | |
CN113554089B (zh) | 一种图像分类对抗样本防御方法、系统及数据处理终端 | |
CN108133188B (zh) | 一种基于运动历史图像与卷积神经网络的行为识别方法 | |
CN108898180B (zh) | 一种面向单颗粒冷冻电镜图像的深度聚类方法 | |
CN111598805A (zh) | 一种基于vae-gan的对抗样本防御方法及系统 | |
CN110223254A (zh) | 一种基于对抗生成网络的图像去噪方法 | |
CN111832516B (zh) | 基于无监督视频表示学习的视频行为识别方法 | |
CN112215292B (zh) | 一种基于迁移性的图像对抗样本生成装置及方法 | |
CN111723701B (zh) | 一种水中目标识别方法 | |
CN113571067B (zh) | 一种基于边界攻击的声纹识别对抗样本生成方法 | |
CN110941794A (zh) | 一种基于通用逆扰动防御矩阵的对抗攻击防御方法 | |
CN111753881A (zh) | 一种基于概念敏感性量化识别对抗攻击的防御方法 | |
CN114842267A (zh) | 基于标签噪声域自适应的图像分类方法及系统 | |
CN114626042B (zh) | 一种人脸验证攻击方法和装置 | |
CN113657491A (zh) | 一种用于信号调制类型识别的神经网络设计方法 | |
CN113763417B (zh) | 一种基于孪生网络和残差结构的目标跟踪方法 | |
CN113627543B (zh) | 一种对抗攻击检测方法 | |
CN112288026B (zh) | 一种基于类激活图的红外弱小目标检测方法 | |
CN112329832A (zh) | 一种基于深度卷积生成对抗网络的无源定位目标轨迹数据增强方法及系统 | |
CN111783890A (zh) | 一种针对图像识别过程中的小像素对抗样本防御方法 | |
CN109522865A (zh) | 一种基于深度神经网络的特征加权融合人脸识别方法 | |
CN114330652A (zh) | 一种目标检测攻击方法和装置 | |
CN114049537B (zh) | 一种基于卷积神经网络的对抗样本防御方法 | |
CN116416212B (zh) | 路面破损检测神经网络训练方法及路面破损检测神经网络 | |
CN117151207A (zh) | 一种基于动态优化集成模型的对抗补丁生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |