CN117372804A - 一种基于图像梯度计算的对抗样本防御方法 - Google Patents

一种基于图像梯度计算的对抗样本防御方法 Download PDF

Info

Publication number
CN117372804A
CN117372804A CN202311263930.1A CN202311263930A CN117372804A CN 117372804 A CN117372804 A CN 117372804A CN 202311263930 A CN202311263930 A CN 202311263930A CN 117372804 A CN117372804 A CN 117372804A
Authority
CN
China
Prior art keywords
sample
gradient
model
image
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311263930.1A
Other languages
English (en)
Inventor
杨子祺
万劼
洛伦佐.卡瓦拉罗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
ZJU Hangzhou Global Scientific and Technological Innovation Center
Original Assignee
Zhejiang University ZJU
ZJU Hangzhou Global Scientific and Technological Innovation Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU, ZJU Hangzhou Global Scientific and Technological Innovation Center filed Critical Zhejiang University ZJU
Priority to CN202311263930.1A priority Critical patent/CN117372804A/zh
Publication of CN117372804A publication Critical patent/CN117372804A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/094Adversarial learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • G06V10/765Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于图像梯度计算的对抗样本防御方法,通过对输入样本求取边缘梯度之后的梯度信息进行检测来满足识别对抗样本的需求,降低遭受对抗攻击的风险,从而评估模型的鲁棒性。通过对输入图像提取边缘梯度,训练一个基于分类器的主任务模型,由于对抗样本与正常样本的梯度信息之间存在较大差异,使得对抗样本能很好地被主任务模型识别;通过训练一个“主任务模型”来对输入样本经过边缘梯度提取之后的图像进行分类,从而能够更好地识别对抗样本,由于本发明采用浅层神经网络,因此具有响应速度快的优点;由于本发明采用图像边缘信息作为检测标准,可以极大提高分类准确率。

Description

一种基于图像梯度计算的对抗样本防御方法
技术领域
本发明涉及人工智能安全(AI Security)、机器学习(Machine Learning)、对抗样本(Adversarial Example)技术领域,尤其涉及一种基于图像梯度计算的对抗样本防御方法。
背景技术
随着人工智能领域技术性的不断突破,人工智能模型已经广泛用户领域,包括生物特征识别、自动驾驶、图像识别、语音识别等,对传统的制造业、医疗业等诸多行业有着巨大的推动作用。
人工智能模型在各种任务中取得了显著的性能提升,但同时也暴露出面对对抗样本攻击的脆弱性。对抗样本攻击是一种经过精心设计的、通过对人类而言难以察觉的微小扰动来误导深度学习模型输出结果的攻击方式,可能导致严重的安全漏洞和数据失真。对于自动驾驶系统而言,对抗样本会让汽车对路面情况产生错误判断,并造成严重交通事故;对于人脸识别系统而言,攻击者可以通过构造对抗人脸信息伪造自己面部身份从而通过人脸识别系统检测。
由此可见,对抗样本的检测技术的研发需求日益渐起。目前已经有许多针对对抗样本的防御方法被提出,包括对抗训练、预处理防御、面向模型的防御等。对抗训练通过在训练中加入含有扰动的图像,从而可以扩大模型的决策边界,使得模型对对抗样本有一定的抵御能力;预处理方法通常采用对输入图像进行模糊、扭曲还原等操作,使得原始加入的噪音被破坏失效;面向模型的防御诸如模型蒸馏,降低模型对于输入的敏感度,提高对抗样本生成难度。
然而现有的对抗样本防御方法,存在一些设计上的缺陷:
防御者会面临计算复杂度高,重新训练整个任务成本大、周期长等情况,会导致被防御模型效果变差等诸多问题。
首先现有的防御方法计算复杂度高,部分方法涉及到提取输入的高维表征之后进行重建还原,会导致大量的计算开销,在现实生产环境中是不大具有部署价值的;其次是重新训练整个任务的成本大,部分方法要求对于受保护模型进行重新训练或者微调,但是这类方法方法的成本直接与受保护模型以及受保护任务的复杂度相关,一旦复杂程度高,此类方法的训练成本就会极大;最后,现有的防御方法一旦涉及到对于受保护模型的重新训练,就有极大可能牺牲受保护模型的表现来提高鲁棒性。
发明内容
本发明的目的在于针对现有对抗样本检测算法的不足,提供一种基于图像梯度计算的对抗样本防御方法。本发明是通过以下技术方案来实现的:
本发明公开了一种基于图像梯度计算的对抗样本防御方法,包括以下步骤:
S1获取对抗数据集:通过采用对抗攻击算法获取到具有对抗性的输入样本,得到对抗数据集;
S2构建输入样本的梯度数据集:通过对S1中生成的对抗样本数据集以及正常样本数据集先经过特征压缩处理,再采用梯度算子进行图像梯度计算,并分别对这两个数据集所属的数据赋予不同的标签,得到输入样本的梯度数据集;
S3训练主分类任务模型:使用主分类任务模型学习S2中获得的输入样本的梯度数据集,让主分类任务模型对输入样本有很好的区分能力,得到具有区分对抗样本与正常样本梯度差异的模型;
S4提取测试样本梯度信息并检测:通过S3训练得到的具有区分对抗样本与正常样本梯度差异的模型,将新的输入样本在经过梯度抽取之后,输入到主分类模型中,得到主分类模型对于此样本的判别结果,采用分类准确率来判断主任务模型的分类效果。
作为进一步地改进,本发明所述的步骤S1中,所述的对抗攻击算法采用FGSM或PGD或C&W。
作为进一步地改进,本发明所述的步骤S2中,特征压缩处理算法采用比特深度衰减算法(Bit Depth Reduction,BDR),衰减度设置为7位比特:将整个图像的像素值从[0,1]减去27-1比特,然后经过round函数取整为{0,1},再除以27-1,得到最终衰减值:
BDR(x)=round(x*(2i-1)/(2i-1))。
作为进一步地改进,本发明所述的步骤S2中,所述的梯度算子为高斯拉普拉斯算子(Laplacian of Gaussian,LoG):LoG算子基于卷积操作,对经过比特衰减算法处理之后的输入样本BFR(x)的水平和垂直方向进行二阶卷积梯度运算,得到输入样本的图像梯度gLoG(BDR(x)),其中LoG卷积核为gLoG
作为进一步地改进,本发明所述的步骤S3中,主分类任务模型训练的损失函数如下:L(fθ)(gLoG(BDR(x))),y)其中,x是输入样本,y是输入样本x的标签,fθ是模型权重为θ主任务模型,L是交叉熵函数。
作为进一步地改进,本发明所述的设置评价指标1-主任务的分类准确率,是用来衡量主任务模型对于对抗样本的判别的特性:
其中argmax函数用来选择模型概率最大的类,来进行预测输入样本是否是对抗样本。
作为进一步地改进,本发明所述的采用的PGD对抗攻击算法设定总的干扰强度为α,并且设置迭代的总的轮数为n,则每一个步长的时候更新的扰动并对扰动的大小进行限制,裁剪到[0,1]之间,
本发明的有益效果如下:
本发明的方法通过对输入样本求取边缘梯度之后的梯度信息进行检测来满足识别对抗样本的需求,降低遭受对抗攻击的风险,从而评估模型的鲁棒性。通过对输入图像提取边缘梯度,训练一个基于分类器的主任务模型,由于对抗样本与正常样本的梯度信息之间存在较大差异,使得对抗样本能很好地被主任务模型识别。
本发明通过训练一个“主任务模型”来对输入样本经过边缘梯度提取之后的图像进行分类,从而能够更好地识别对抗样本。
由于本发明采用的是不需要重训练的设计方法,因此能够以一个较小的训练成本来训练一个可以即插即用的对抗样本防御模型;由于本发明采用浅层神经网络,因此具有响应速度快的优点;由于本发明采用图像边缘信息作为检测标准,可以极大提高分类准确率。
附图说明
图1是本发明方法算法流程的原理图;
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
本发明实例提供的基于图像梯度计算的对抗样本防御方法,其整个流程如图1所示,包括如下步骤s:
步骤一:获取对抗数据集
本实施例中主分类任务训练集为MNIST和CIFAR-10数据集,单次输入样本通过随机抽取的方式从选定的数据集中获取。
对应数据集有如下可能:
a:主分类任务训练集为MNIST。
b:主分类任务训练集为CIFAR-10。
将原始样本标注为0,经过PGD对抗攻击算法生成的对抗样本标注为1。记为输入模型的样本为x,输入样本x对应的标签为y。在实际部署中,由于数据集的不同,单个样本的输入通道数会发生改变,主任务模型的输入的通道数选择也有不同;
当选取数据集分类a时,主任务模型的输入通道数为1;
当选取数据集分类b时,主任务模型的输入通道数为3;
步骤二:构建输入样本的梯度数据集
该步骤分为以下子步骤:
(1)将原始样本以及对抗算法生成的对抗样本经过比特衰减算法(BDR)处理:将比特衰减算法的衰减度设置为7,然后直接处理整个输入样本,得到BDR(x)。
(2)根据选定的图像边缘算子构建梯度卷积核,并与上一步中得到的经过BDR处理之后的样本进行卷积操作,得到输入样本的梯度信息gLoG(BDR(x))。
步骤三:训练主分类任务模型;
通过随机梯度下降训练主任务模型。此时主模型的输出为fθ(gLoG(BDR(x))),采用L(fθ(gLOG(BDR(x))),y)作为损失函数。其中,fθ是模型权重为θ主任务模型,L是交叉熵函数。在训练初期可以选择较大的初始步长为0.01,使模型快速收敛,后期可以通过步长衰减方法获得较小步长,使模型可以通过微调获得更高准确率。
步骤四:提取测试样本梯度信息并检测
主任务模型训练完成之后,对于任意一个输入的待检验样本,可以将其通过比特衰减以及梯度处理之后,再交给主任务模型进行计算。模型计算结果fθ(gLoG(BDR(x)))根据argmax选择概率最大的一类标签为预测标签,从而判断输入样本是否是恶意的对抗样本。为了评估主任务模型针对恶意样本的识别效果,我们采用准确率表示主任务模型对恶意样本以及正常样本的识别能力。
以上所述仅是本发明的优选实施方式,虽然本发明已以较佳实施例披露如上,然而并非用以限定本发明。任何熟悉本领域的技术人员,在不脱离本发明技术方案范围情况下,都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何的简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。

Claims (7)

1.一种基于图像梯度计算的对抗样本防御方法,其特征在于,包括以下步骤:
S1获取对抗数据集:通过采用对抗攻击算法获取到具有对抗性的输入样本,得到对抗数据集;
S2构建输入样本的梯度数据集:通过对S1中生成的对抗样本数据集以及正常样本数据集先经过特征压缩处理,再采用梯度算子进行图像梯度计算,并分别对这两个数据集所属的数据赋予不同的标签,得到输入样本的梯度数据集;
S3训练主分类任务模型:使用主分类任务模型学习S2中获得的输入样本的梯度数据集,让主分类任务模型对输入样本有很好的区分能力,得到具有区分对抗样本与正常样本梯度差异的模型;
S4提取测试样本梯度信息并检测:通过S3训练得到的具有区分对抗样本与正常样本梯度差异的模型,将新的输入样本在经过梯度抽取之后,输入到主分类模型中,得到主分类模型对于此样本的判别结果,采用分类准确率来判断主任务模型的分类效果。
2.根据权利要求1所述的基于图像梯度计算的对抗样本防御方法,其特征在于,所述的步骤S1中,所述的对抗攻击算法采用FGSM或PGD或C&W。
3.根据权利要求1或2所述的基于图像梯度计算的对抗样本防御方法,其特征在于,所述的步骤S2中,特征压缩处理算法采用比特深度衰减算法(Bit Depth Reduction,BDR),衰减度设置为7位比特:将整个图像的像素值从[0,1]减去27-1比特,然后经过round函数取整为{0,1},再除以27-1,得到最终衰减值:
BDR(x)=round(x*(2i-1)/(2i-1))。
4.根据权利要求3所述的基于图像梯度计算的对抗样本防御方法,其特征在于,所述的步骤S2中,所述的梯度算子为高斯拉普拉斯算子(Laplacian of Gaussian,LoG):LoG算子基于卷积操作,对经过比特衰减算法处理之后的输入样本BDR(x)的水平和垂直方向进行二阶卷积梯度运算,得到输入样本的图像梯度gLoG(BDR(x)),其中LoG卷积核为gLoG
5.根据权利要求1或2或4所述的基于图像梯度计算的对抗样本防御方法,其特征在于,所述的步骤S3中,主分类任务模型训练的损失函数如下:
L(fθ(gLoG(BDR(x))),y)
其中,x是输入样本,y是输入样本x的标签,fθ是模型权重为θ主任务模型,L是交叉熵函数。
6.根据权利要求5所述的基于图像梯度计算的对抗样本防御方法,其特征在于,所述的设置评价指标1-主任务的分类准确率,是用来衡量主任务模型对于对抗样本的判别的特性:
其中argmax函数用来选择模型概率最大的类,来进行预测输入样本是否是对抗样本。
7.根据权利要求6所述的基于图像梯度计算的对抗样本防御方法,其特征在于,所述的采用的PGD对抗攻击算法设定总的干扰强度为α,并且设置迭代的总的轮数为n,则每一个步长的时候更新的扰动并对扰动的大小进行限制,裁剪到[0,1]之间,
CN202311263930.1A 2023-09-27 2023-09-27 一种基于图像梯度计算的对抗样本防御方法 Pending CN117372804A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311263930.1A CN117372804A (zh) 2023-09-27 2023-09-27 一种基于图像梯度计算的对抗样本防御方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311263930.1A CN117372804A (zh) 2023-09-27 2023-09-27 一种基于图像梯度计算的对抗样本防御方法

Publications (1)

Publication Number Publication Date
CN117372804A true CN117372804A (zh) 2024-01-09

Family

ID=89403252

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311263930.1A Pending CN117372804A (zh) 2023-09-27 2023-09-27 一种基于图像梯度计算的对抗样本防御方法

Country Status (1)

Country Link
CN (1) CN117372804A (zh)

Similar Documents

Publication Publication Date Title
CN113554089B (zh) 一种图像分类对抗样本防御方法、系统及数据处理终端
CN112069485B (zh) 基于用户行为的安全处理方法、装置及设备
CN108446700B (zh) 一种基于对抗攻击的车牌攻击生成方法
CN111753881B (zh) 一种基于概念敏感性量化识别对抗攻击的防御方法
CN112491796B (zh) 一种基于卷积神经网络的入侵检测及语义决策树量化解释方法
CN107967475A (zh) 一种基于窗口滑动和卷积神经网络的验证码识别方法
CN112738015A (zh) 一种基于可解释卷积神经网络cnn与图检测的多步攻击检测方法
CN111783853B (zh) 一种基于可解释性的检测并恢复神经网络对抗样本方法
CN111753290B (zh) 软件类型的检测方法及相关设备
CN110348475A (zh) 一种基于空间变换的对抗样本增强方法和模型
CN113283476A (zh) 一种物联网网络入侵检测方法
CN111507371A (zh) 方法和装置
CN113283599B (zh) 基于神经元激活率的对抗攻击防御方法
CN108280480B (zh) 一种基于残差共生概率的隐写图像载体安全性评价方法
Choi et al. Detecting composite image manipulation based on deep neural networks
CN110879881A (zh) 基于特征组分层和半监督随机森林的鼠标轨迹识别方法
Rhee Detection of spliced image forensics using texture analysis of median filter residual
CN117454187B (zh) 一种基于频域限制目标攻击的集成模型训练方法
CN117857088A (zh) 一种网络流量异常检测方法、系统、设备及介质
CN116707992A (zh) 一种基于生成对抗网络的恶意流量规避检测方法
CN114970694B (zh) 一种网络安全态势评估方法及其模型训练方法
CN117372804A (zh) 一种基于图像梯度计算的对抗样本防御方法
CN116070137A (zh) 一种针对恶意流量检测的开集识别装置及方法
CN115187789A (zh) 基于卷积层激活差异的对抗图像检测方法及装置
CN114707572A (zh) 一种基于损失函数敏感度的深度学习样本测试方法与装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination