CN110941794A - 一种基于通用逆扰动防御矩阵的对抗攻击防御方法 - Google Patents

一种基于通用逆扰动防御矩阵的对抗攻击防御方法 Download PDF

Info

Publication number
CN110941794A
CN110941794A CN201911182144.2A CN201911182144A CN110941794A CN 110941794 A CN110941794 A CN 110941794A CN 201911182144 A CN201911182144 A CN 201911182144A CN 110941794 A CN110941794 A CN 110941794A
Authority
CN
China
Prior art keywords
defense
samples
matrix
universal
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911182144.2A
Other languages
English (en)
Other versions
CN110941794B (zh
Inventor
陈晋音
吴长安
郑海斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201911182144.2A priority Critical patent/CN110941794B/zh
Publication of CN110941794A publication Critical patent/CN110941794A/zh
Application granted granted Critical
Publication of CN110941794B publication Critical patent/CN110941794B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Character Discrimination (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于通用逆扰动防御矩阵的对抗攻击防御方法,首先,准备对抗样本,利用各类攻击方法获得比较全面的对抗样本;然后开始训练通用逆扰动矩阵,训练策略包括通用逆扰动防御矩阵策略、通用逆扰动防御矩阵生成网络策略和自集成通用逆扰动防御矩阵生成网络策略,使用三种不同的策略生成通用逆扰动矩阵,以应对不用的用户需求,用户的计算资源越充足,防御等级需求越高,使用的通用逆扰动矩阵生成策略越复杂;最后,观察所产生的通用逆扰动矩阵的性能指标,指标达标后,进行对抗攻击防御的应用。本发明的方法,不需要使用模型的反馈信息,也不会改动模型内部结构,既能对已知的各种攻击进行防御,还能实现对部分未知攻击进行防御。

Description

一种基于通用逆扰动防御矩阵的对抗攻击防御方法
技术领域
本发明属于人工智能中深度学习算法与数据的安全领域,尤其是涉及一种基于通用逆扰动防御矩阵的对抗攻击防御方法。
背景技术
深度学习作为机器学习领域的一个新的研究方向,是目前最热门的学科之一,对于实现机器学习的最初目标—人工智能(AI,Artificial Intelligence)有着历史性的作用。深度学习能够从样本数据中学习到数据的内在规律和表示层次,能够获得比一般算法更准确的分类结果,具有强大的特征表达能力。深度学习技术最早被应用于图像识别方向,并取得了令人瞩目的效果,深度学习技术利用其功能强大的神经网络,进行特征提取,完成对大量数据分布的拟合,从而表现出优秀的图像处理能力。
目前,基于深度学习技术的图像识别已经取得了很多成绩,包括了利用卷积神经网络完成目标物体的检测和识别,使用FaceNet完成对人脸的识别检测,以及利用深度学习的模型实现大量类别物体的分类。尽管深度学习在图像识别以及其他计算机视觉领域的任务上表现出色,但是,szegedy等人第一次发现了深度神经网络在图像分类领域存在一个致命的弱点,那就是深度模型尽管有着很高的正确率,但是很容易受到对抗样本的攻击。这些对抗样本仅有很轻微的扰动,以至于人眼视觉系统根本无法察觉这种扰动,但是却会让神经网络模型对错误类标产生很高置信度的结果。对抗样本的存在威胁着深度学习模型的安全,对此,研究人员展开了一系列的研究。
对于对抗样本的防御,目前存在三个主要的方向:在学习过程中修改训练过程或者修改输入样本;修改网络,比如:添加子网络或者改变损失函数和激活函数;当分类没有见过的样本时,用外部模型作为附加网络。但这些防御的方法,都是在一定程度上,通过深度学习模型的特征提取能力,减弱某一部分对抗扰动的危害性。而在“GenerativeAdversarial Perturbations”一文中,作者提出了通用扰动的概念,具体指对于深度学习模型而言,可能存在着一种通用扰动,导致模型在分类识别中产生偏差,做出错误的分类结果。在面对通用扰动时,传统的防御方法很难有效地抵抗。
发明内容
为了提升各类模型在对各类已知或未知的攻击方法的防御能力,本发明提供了一种基于通用逆扰动防御矩阵的对抗攻击防御方法,该方法包括三种通用逆扰动防御矩阵的生成策略,针对不用的用户需求,生成具有通用性的逆扰动矩阵,实现不同等级的防御效果。
第一种通用逆扰动防御矩阵的生成策略如下:
一种基于通用逆扰动防御矩阵的对抗攻击防御方法,包括:
(1)准备训练集,采用多种攻击方法对训练集进行攻击,生成对抗样本;
(2)使用迭代方法生成通用逆扰动防御矩阵,具体过程为:
(2-1)构造用于样本分类的深度学习网络模型,使用训练集对网络模型进行训练,训练结束后保存模型参数;
(2-2)对步骤(1)中生成的对抗样本与训练集按比例混合后得到数据集x,将数据集x输入到通用逆扰动矩阵X=(x1,x2,x3...xm)中进行迭代训练;训练通用逆扰动矩阵时,模型的输入为x+X,预测的输出结果为y’,样本的真实标签为y,每次迭代后,更新通用逆扰动矩阵的权重,到达迭代上限后结束,得到通用逆扰动防御矩阵;
(3)应用时,将待分类样本先经过训练好的通用逆扰动防御矩阵后再输入模型,使待分类样本中的对抗样本能够被正确识别,完成对对抗样本的防御。
步骤(1)中,所述的多种攻击方法包括CW攻击、FGSM攻击、Box-constrained L-BFGS攻击、DeepFool攻击、Jacobian-based Saliency Map攻击和Universal AdversarialPerturbations攻击。
步骤(2-1)中,训练网络模型时,使用交叉熵作为损失函数:
Figure BDA0002291555620000031
其中,yi是类别i的真实标签,pi是softmax函数计算出来的类别i的概率值;k是类别数,N是样本总数,其状态Softmax的计算公式:
Figure BDA0002291555620000032
公式中的分子ezi是要计算的类别i的网络输出的指数,分母
Figure BDA0002291555620000033
是所有类别网络输出的指数和。
步骤(2-2)中,更新通用逆扰动矩阵的权重w公式为:
Figure BDA0002291555620000034
其中C是迭代的步长,j(w,x)是对错误分类敏感的准则函数,使权重能够沿着最快的方向更新;设准则函数为:
j(w,x)=|wTx|-wTx
当预测输出的标签与样本的真实标签不一致时,wTx<0,j为正值,权重更新:
w(k+1)=w(k)+2C
当预测输出的标签与样本的真实标签一致时,wTx>0,j=0,权重保持不变。
步骤(2-2)中,训练通用逆扰动矩阵时,使用交叉熵函数作为训练的损失函数,使用Adam优化器进行优化,该交叉熵损失函数公式:
loss=-[ylogy’+(1-y)log(1-y’)]
其中,y’为预测的输出结果为,y为样本的真实标签。
第二种通用逆扰动防御矩阵的生成策略如下:
一种基于通用逆扰动防御矩阵的对抗攻击防御方法,包括:
(1’)准备训练数据集,采用多种攻击方法对训练数据集进行攻击,生成对抗样本;
(2’)使用通用逆扰动防御矩阵生成网络生成通用逆扰动防御矩阵,具体过程为:
(2-1’)构建通用逆扰动防御矩阵生成网络,其包括解码器和编码器,生成网络的输入为高维噪声和样本,样本包括良性样本和步骤(1’)中的对抗样本,输出为通用逆扰动防御矩阵;
(2-2’)使用良性样本和对抗样本交替训练通用逆扰动防御矩阵生成网络;其中,编码器对输入的样本进行映射,得到编码后的向量,解码器对编码的向量进行映射,得到重构后的向量,编码器和解码器同时训练,训练的目标是最小化重构误差;
(2-3’)训练完以后,利用通用逆扰动防御矩阵生成网络生成通用逆扰动防御矩阵;
(3’)应用时,将待分类样本先经过得到的通用逆扰动防御矩阵后再输入模型,使待分类样本中的对抗样本能够被正确识别,完成对对抗样本的防御。
步骤(2-2’)中,编码器的映射是将输入样本x映射成低维的向量y,降维执行以下变换:
y=W(x-m)
其中,W是投影矩阵,从样本集中获取,m是样本集的均值向量;
编码器的映射是将降维后的向量y重构出原始的向量x的过程,通过重构算法实现:
x=WTy+m
解码器映射函数为h,解码器的映射函数为g,训练时优化的目标函数为:
Figure BDA0002291555620000051
其中,l为训练样本数,θ和θ'分别是编码器和解码器的内部参数。
第三种通用逆扰动防御矩阵的生成策略如下:
一种基于通用逆扰动防御矩阵的对抗攻击防御方法,包括:
(1”)准备训练数据集,采用多种攻击方法对训练数据集进行攻击,生成对抗样本;
(2”)使用通用逆扰动防御矩阵生成网络生成通用逆扰动防御矩阵,具体过程为:
(2-1”)构建通用自集成逆扰动防御矩阵生成网络,其包括解码器和编码器,且生成网络的输出口设有多个并行的单层卷积,单层卷积之间增加lock卷积层,生成网络的输入为高维噪声和样本,样本包括良性样本和步骤(1”)中的对抗样本,输出为通用逆扰动防御矩阵;
(2-2”)使用良性样本和对抗样本交替训练通用逆扰动防御矩阵生成网络;其中,编码器对输入的样本进行映射,得到编码后的向量,解码器对编码的向量进行映射,得到重构后的向量,编码器和解码器同时训练,训练的目标是最小化重构误差;
(2-3”)训练完以后,利用自集成通用逆扰动防御矩阵生成网络生成多个通用逆扰动防御矩阵;
(3”)应用时,将待分类样本先经过得到的多个通用逆扰动防御矩阵后再输入模型,采用多数投票方式确定最后的识别结果,使待分类样本中的对抗样本能够被正确识别,完成对对抗样本的防御。
与现有技术相比,本发明具有以下有益效果:
本发明通过通用逆扰动矩阵来生成通用逆扰动,利用大量的对抗样本和原始样本进行训练,采取三种不同的策略生成通用扰动矩阵,学习通用逆扰动的特征。因此,不需要使用模型的反馈信息,同时也不会改动模型内部结构,既能对已知的各种攻击进行防御,还能实现对部分未知攻击进行防御。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
图1是本发明实施例中采用通用逆扰动防御矩阵策略的流程示意图;
图2是本发明实施例中采用通用逆扰动防御矩阵生成网络策略流程示意图;
图3是本发明实施例中采用自集成通用逆扰动防御矩阵生成网络策略流程示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
通用逆扰动防御矩阵,是学习了良性样本的分类特征和对抗样本的扰动特征的矩阵,将其添加到输入样本中,不仅能够破坏对抗样本中的对抗特征,使其实现正确分类,同时能够强化良性样本的分类特征,提高其正确类标的置信度。本发明提出的通用逆扰动矩阵生成方法,根据用户的资源和用户对防御等级要求不同,分为通用逆扰动防御矩阵策略、通用逆扰动防御矩阵生成网络策略、自集成通用逆扰动防御矩阵生成网络策略。用户的计算资源越充足,防御等级需求越高,使用的通用逆扰动矩阵生成策略越复杂。在本发明中,如何生成具有普遍性的通用逆扰动矩阵是核心内容。
本发明的技术构思为:首先,准备对抗样本,利用各类攻击方法获得比较全面的对抗样本。这里的对抗样本除了通用逆扰动产生的对抗样本,还包括DeepFool,CW,JSMA,FGSM等各类对抗攻击下得到的对抗样本,这是为了保证对抗性扰动具有普遍通用性。然后开始训练通用逆扰动矩阵,训练策略包括通用逆扰动防御矩阵策略、通用逆扰动防御矩阵生成网络策略和自集成通用逆扰动防御矩阵生成网络策略,使用三种不同的策略生成通用逆扰动矩阵,以应对不用的用户需求,最后,观察所产生的通用逆扰动矩阵的性能指标,指标达标后,进行对抗攻击防御的应用。
如图1所示,为第一种通用逆扰动防御矩阵的生成策略,步骤如下:
1)准备对抗样本;
对训练集使用多种方法进行攻击,生成对抗样本S,各类攻击方法包括:CW攻击(通过限制0范数、1范数和无穷范数使得扰动无法被察觉),FGSM攻击(利用深层神经网络的设计的高维线性,有效计算对抗扰动),Box-constrained L-BFGS攻击(寻找最小的损失函数添加项,使得神经网络做出误分类),DeepFool攻击(通过迭代计算的方法生成最小规范对抗扰动),Jacobian-based Saliency Map Attack(通过限制扰动的0范数的方法来产生对抗性攻击,即仅改变几个像素的值,而不是扰动整张图像。),Universal AdversarialPerturbations Attack(用对抗扰动将图像推出分类边界,同一个扰动针对的是所有图片)。尽可能的保证对抗性扰动最大程度的普遍化,从而确保最后能够生成的通用逆扰动足够的强大。
2)使用迭代的方法生成通用逆扰动防御矩阵;
2.1)构造一个用于样本分类的深度学习网络模型,基于深度学习网络的基本知识,搭建一个图像分类的深度学习网络,样本输入为32×32×3,即图片的宽度为32,高度为32,深度为3,神经网络包括两层卷积层conv1、conv2,两层全连接层fc1和fc2,两层池化层pool1和pool2,为了减少过拟合的情况,在输出层之前加入dropout。
2.2)使用训练集进行样本分类网络的训练,训练集用于训练的每类图片5000张,10类共50000张,测试集每类1000张,共10000张。对数据的类别进行onehot编码,获取对应的类别标签序列,便于训练和测试。为了提高训练的效果,对数据进行增强,使用随机剪裁、随机反转、随机调整图片亮度、随机改变图片对比度等方法扩充数据集训练。训练中使用交叉熵作为损失函数:
Figure BDA0002291555620000081
其中,yi是类别i的真实标签,pi是softmax函数计算出来的类别i的概率值;k是类别数,N是样本总数。其状态Softmax的计算公式:
Figure BDA0002291555620000082
上述公式中的分子是要计算的类别i的网络输出的指数,分母是所有类别网络输出的指数和,训练结束后保存模型参数。
2.3)对步骤1)中生成的对抗样本进行预处理,保存为npy格式后与训练集以3:7的比例混合后组成数据集x,将数据集x输入到通用逆扰动矩阵X=(x1,x2,x3...xm)中进行迭代训练。X与数据集x相加后输入已经训练好的模型,训练通用逆扰动矩阵的输入为x+X,预测的输出结果为y’,样本的真实标签为y,计算y’与y的距离。设函数f(x)是通用逆扰动矩阵X=(x1,x2,x3...xm)的函数,则f(x)的梯度定义为:
Figure BDA0002291555620000091
设迭代训练的次数为N,每次迭代后,更新通用逆扰动矩阵的权重w:
Figure BDA0002291555620000092
其中C是迭代的步长,j(w,x)是对错误分类敏感的准则函数,使权重能够沿着最快的方向更新。
设准则函数为:
j(w,x)=|wTx|-wTx
当预测输出的标签与样本的真实标签不一致时,wTx<0,j为正值,权重更新:
w(k+1)=w(k)+2C
当预测输出的标签与样本的真实标签一致时,wTx>0,j=0,权重保持不变。使用交叉熵函数作为训练的损失函数,使用Adam优化器进行优化。
交叉熵损失函数公式:
loss=-[ylogy’+(1-y)log(1-y’)]
迭代次数为N,到达迭代上限后结束,得到通用逆扰动防御矩阵。
如图2所示,为第二种通用逆扰动防御矩阵的生成策略,即使用通用逆扰动防御矩阵生成网络生成通用逆扰动矩阵,准备对抗样本的过程和第一种通用逆扰动防御矩阵的生成策略完全相同,生成通用逆扰动防御矩阵的具体如下:
3.1)训练通用逆扰动防御矩阵生成网络,生成网络包括两个部分:编码器和解码器,生成网络的输入是高维噪声和样本,样本包括良性样本和步骤1)中生成的对抗样本,输出为通用逆扰动防御矩阵。
3.2)自动编码器(AE)能够完成特征提取和数据降维。本发明中采用的自动编码器由一个输入层,一个隐含层和一个输出层组成。隐含层的映射充当编码器,输出层的映射充当解码器。训练时编码器对输入样本进行映射,得到编码后的向量;解码器对编码向量进行映射,得到重构后的向量,它是对输入样本的近似。编码器将高维的输入样本x映射成低维的向量y,在映射的过程中必须保证向量y保留x的主要信息,降维执行的变换:
y=W(x-m)
W是投影矩阵,从样本集中获取,m是样本集的均值向量,编码器和解码器同时训练,训练的目标是最小化重构误差。编码器的映射是将降维后的向量y重构出原始的向量x的过程,通过重构算法实现:
x=WTy+m
解码器映射函数为h,解码器的映射函数为g,训练时优化的目标函数为:
Figure BDA0002291555620000101
其中l为训练样本数,θ和θ'分别是编码器和解码器的内部参数。通过编码器和解码器的生成网络后输出通用逆扰动矩阵,使用良性样本和对抗样本交替训练生成网络,学习良性样本的分类特征和对抗样本的扰动特征,到达通用防御的效果。
如图3所示,为第三种通用逆扰动防御矩阵的生成策略,即使用自集成通用逆扰动防御矩阵生成网络生成通用逆扰动矩阵,准备对抗样本的过程和第一种通用逆扰动防御矩阵的生成策略完全相同,生成通用逆扰动防御矩阵的具体如下:
4.1)自集成通用逆扰动防御矩阵生成网络的基本结构与训练过程与第二种通用逆扰动防御矩阵的生成策略相似,生成网络包括编码器和解码器,生成网络的输入是高维噪声和样本,样本包括良性样本和步骤中1)生成的对抗样本,输出为通用逆扰动防御矩阵。为了提高防御的效果和等级,在生成网络输出口加上多个并行的单层卷积,实现轻量级的多个通用逆扰动防御矩阵输出,同时在单层卷积间增加lock卷积层,以此增加在灰盒环境下的对抗样本生成难度。
4.2)将多个通用逆扰动矩阵加到待检测的图像上分别进行识别,根据投票结果实现样本识别。自集成通用逆扰动防御矩阵生成网络的输出通用逆扰动防御矩阵个数为M,对于同一个样本的识别,采取多数投票的方式决定最后的识别结果,使最终的分类结果具有更好的一致性。
上述三种通用逆扰动防御矩阵的生成策略,需观察所产生的通用逆扰动防御矩阵的防御性能,当防御效果达标,才能进一步进行对抗攻击防御方法。
观察的性能指标主要是随机样本的防御特性和样本集的防御成功率。随机样本的防御特性是随机挑选对抗样本,观察对抗样本adv_r在经过通用逆扰动矩阵后,再输入分类模型中,类标是否变化,如果类标转变为良性样本的类标记为adv_t,则通用逆扰动防御矩阵的防御效果达标。样本集的防御成功率,是指全部对抗样本adv_all通过通用逆扰动矩阵后,防御成功的样本adv_s所占的比重。通用逆扰动防御矩阵的防御效果良好,能够对大量的对抗样本完成防御,还能实现对部分未知攻击进行防御。随机样本的防御特征和样本集的防御成功率计算公式:
d_radam=adv_t/adv_r
d_set=adv_s/adv_all
应用时,将待分类样本先经过训练好的通用逆扰动防御矩阵后再输入模型,使待分类样本中的对抗样本能够被正确识别,完成对对抗样本的防御。
以第一种通用逆扰动防御矩阵的生成策略为例,在图像识别的场景中,对于手写数字数据集进行实验,通过FGSM、PGD、JSAM、CW等攻击方法对模型进行攻击,攻击成功后生成大量的对抗样本并保存,将这些对抗样本经过通用逆扰动防御矩阵后再输入到模型中去,防御成功率在95%以上,证明该方法有效且效果良好。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于通用逆扰动防御矩阵的对抗攻击防御方法,其特征在于,包括:
(1)准备训练集,采用多种攻击方法对训练集进行攻击,生成对抗样本;
(2)使用迭代方法生成通用逆扰动防御矩阵,具体过程为:
(2-1)构造用于样本分类的深度学习网络模型,使用训练集对网络模型进行训练,训练结束后保存模型参数;
(2-2)把步骤(1)中生成的对抗样本与训练集按比例混合后得到数据集x,将数据集x输入到通用逆扰动矩阵X=(x1,x2,x3...xm)中进行迭代训练;训练通用逆扰动矩阵时,模型的输入为x+X,预测的输出结果为y’,样本的真实标签为y,每次迭代后,更新通用逆扰动矩阵的权重,到达迭代上限后结束,得到通用逆扰动防御矩阵;
(3)应用时,将待分类样本先经过训练好的通用逆扰动防御矩阵后再输入模型,使待分类样本中的对抗样本能够被正确识别,完成对对抗样本的防御。
2.根据权利要求1所述的基于通用逆扰动防御矩阵的对抗攻击防御方法,其特征在于,步骤(1)中,所述的多种攻击方法包括CW攻击、FGSM攻击、Box-constrained L-BFGS攻击、DeepFool攻击、Jacobian-based Saliency Map攻击和Universal AdversarialPerturbations攻击。
3.根据权利要求1所述的基于通用逆扰动防御矩阵的对抗攻击防御方法,其特征在于,步骤(2-1)中,训练网络模型时,使用交叉熵作为损失函数:
Figure FDA0002291555610000011
其中,yi是类别i的真实标签,pi是softmax函数计算出来的类别i的概率值;k是类别数,N是样本总数,其状态Softmax的计算公式:
Figure FDA0002291555610000021
公式中的分子ezi是要计算的类别i的网络输出的指数,分母
Figure FDA0002291555610000022
是所有类别网络输出的指数和。
4.根据权利要求1所述的基于通用逆扰动防御矩阵的对抗攻击防御方法,其特征在于,步骤(2-2)中,更新通用逆扰动矩阵的权重w公式为:
Figure FDA0002291555610000023
其中C是迭代的步长,j(w,x)是对错误分类敏感的准则函数,使权重能够沿着最快的方向更新;设准则函数为:
j(w,x)=|wTx|-wTx
当预测输出的标签与样本的真实标签不一致时,wTx<0,j为正值,权重更新:
w(k+1)=w(k)+2C
当预测输出的标签与样本的真实标签一致时,wTx>0,j=0,权重保持不变。
5.根据权利要求1所述的基于通用逆扰动防御矩阵的对抗攻击防御方法,其特征在于,步骤(2-2)中,训练通用逆扰动矩阵时,使用交叉熵函数作为训练的损失函数,使用Adam优化器进行优化,该交叉熵损失函数公式:
loss=-[ylogy’+(1-y)log(1-y’)]
其中,y’为预测的输出结果为,y为样本的真实标签。
6.一种基于通用逆扰动防御矩阵的对抗攻击防御方法,其特征在于,包括:
(1’)准备训练数据集,采用多种攻击方法对训练数据集进行攻击,生成对抗样本;
(2’)使用通用逆扰动防御矩阵生成网络生成通用逆扰动防御矩阵,具体过程为:
(2-1’)构建通用逆扰动防御矩阵生成网络,其包括解码器和编码器,生成网络的输入为高维噪声和样本,样本包括良性样本和步骤(1’)中的对抗样本,输出为通用逆扰动防御矩阵;
(2-2’)使用良性样本和对抗样本交替训练通用逆扰动防御矩阵生成网络;其中,编码器对输入的样本进行映射,得到编码后的向量,解码器对编码的向量进行映射,得到重构后的向量,编码器和解码器同时训练,训练的目标是最小化重构误差;
(2-3’)训练结束以后,利用通用逆扰动防御矩阵生成网络生成通用逆扰动防御矩阵;
(3’)应用时,将待分类样本先经过得到的通用逆扰动防御矩阵后再输入模型,使待分类样本中的对抗样本能够被正确识别,完成对对抗样本的防御。
7.根据权利要求6所述的基于通用逆扰动防御矩阵的对抗攻击防御方法,其特征在于,步骤(2-2’)中,编码器的映射是将输入样本x映射成低维的向量y,降维执行以下变换:
y=W(x-m)
其中,W是投影矩阵,从样本集中获取,m是样本集的均值向量;
编码器的映射是将降维后的向量y重构出原始的向量x的过程,通过重构算法实现:
x=WTy+m
解码器映射函数为h,解码器的映射函数为g,训练时优化的目标函数为:
Figure FDA0002291555610000041
其中,l为训练样本数,θ和θ'分别是编码器和解码器的内部参数。
8.一种基于通用逆扰动防御矩阵的对抗攻击防御方法,其特征在于,包括:
(1”)准备训练数据集,采用多种攻击方法对训练数据集进行攻击,生成对抗样本;
(2”)使用通用逆扰动防御矩阵生成网络生成通用逆扰动防御矩阵,具体过程为:
(2-1”)构建通用自集成逆扰动防御矩阵生成网络,其包括解码器和编码器,且生成网络的输出口设有多个并行的单层卷积,单层卷积之间增加lock卷积层,生成网络的输入为高维噪声和样本,样本包括良性样本和步骤(1”)中的对抗样本,输出为通用逆扰动防御矩阵;
(2-2”)使用良性样本和对抗样本交替训练通用逆扰动防御矩阵生成网络;其中,编码器对输入的样本进行映射,得到编码后的向量,解码器对编码的向量进行映射,得到重构后的向量,编码器和解码器同时训练,训练的目标是最小化重构误差;
(2-3”)训练完以后,利用自集成通用逆扰动防御矩阵生成网络生成多个通用逆扰动防御矩阵;
(3”)应用时,将待分类样本先经过得到的多个通用逆扰动防御矩阵后再输入模型,采用多数投票方式确定最后的识别结果,使待分类样本中的对抗样本能够被正确识别,完成对对抗样本的防御。
CN201911182144.2A 2019-11-27 2019-11-27 一种基于通用逆扰动防御矩阵的对抗攻击防御方法 Active CN110941794B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911182144.2A CN110941794B (zh) 2019-11-27 2019-11-27 一种基于通用逆扰动防御矩阵的对抗攻击防御方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911182144.2A CN110941794B (zh) 2019-11-27 2019-11-27 一种基于通用逆扰动防御矩阵的对抗攻击防御方法

Publications (2)

Publication Number Publication Date
CN110941794A true CN110941794A (zh) 2020-03-31
CN110941794B CN110941794B (zh) 2023-08-22

Family

ID=69908225

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911182144.2A Active CN110941794B (zh) 2019-11-27 2019-11-27 一种基于通用逆扰动防御矩阵的对抗攻击防御方法

Country Status (1)

Country Link
CN (1) CN110941794B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111507384A (zh) * 2020-04-03 2020-08-07 厦门大学 一种黑盒深度模型对抗样本生成方法
CN111680292A (zh) * 2020-06-10 2020-09-18 北京计算机技术及应用研究所 一种基于高隐蔽性通用扰动的对抗样本生成方法
CN111783629A (zh) * 2020-06-29 2020-10-16 浙大城市学院 一种面向对抗样本攻击的人脸活体检测方法及装置
CN112087447A (zh) * 2020-09-07 2020-12-15 广西师范大学 面向稀有攻击的网络入侵检测方法
CN112215292A (zh) * 2020-10-19 2021-01-12 电子科技大学 一种基于迁移性的图像对抗样本生成装置及方法
CN112215078A (zh) * 2020-09-14 2021-01-12 浙江工业大学 基于自动编码器的电磁信号调制类型识别的通用对抗扰动生成方法
CN112465019A (zh) * 2020-11-26 2021-03-09 重庆邮电大学 一种基于扰动的对抗样本生成与对抗性防御方法
CN112949678A (zh) * 2021-01-14 2021-06-11 西安交通大学 深度学习模型对抗样本生成方法、系统、设备及存储介质
CN113507429A (zh) * 2021-04-16 2021-10-15 华东师范大学 一种基于生成式对抗网络的入侵流量的生成方法
WO2022104503A1 (zh) * 2020-11-17 2022-05-27 华为技术有限公司 一种对抗样本的识别方法及相关装置
CN114900329A (zh) * 2022-04-02 2022-08-12 中国科学院信息工程研究所 一种基于最小普适扰动的流关联攻击防御方法及系统
CN114978654A (zh) * 2022-05-12 2022-08-30 北京大学 一种基于深度学习的端到端通信系统攻击防御方法

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018028255A1 (zh) * 2016-08-11 2018-02-15 深圳市未来媒体技术研究院 基于对抗网络的图像显著性检测方法
CN108322349A (zh) * 2018-02-11 2018-07-24 浙江工业大学 基于对抗式生成网络的深度学习对抗性攻击防御方法
CN108446765A (zh) * 2018-02-11 2018-08-24 浙江工业大学 面向深度学习对抗性攻击的多模型协同防御方法
CN108615048A (zh) * 2018-04-04 2018-10-02 浙江工业大学 基于扰动进化对图像分类器对抗性攻击的防御方法
CN109460814A (zh) * 2018-09-28 2019-03-12 浙江工业大学 一种具有防御对抗样本攻击功能的深度学习分类方法
US20190156183A1 (en) * 2018-12-27 2019-05-23 David M. Durham Defending neural networks by randomizing model weights
CN109948658A (zh) * 2019-02-25 2019-06-28 浙江工业大学 面向特征图注意力机制的对抗攻击防御方法及应用
CN109948663A (zh) * 2019-02-27 2019-06-28 天津大学 一种基于模型抽取的步长自适应的对抗攻击方法
US20190244103A1 (en) * 2018-02-07 2019-08-08 Royal Bank Of Canada Robust pruned neural networks via adversarial training
CN110163163A (zh) * 2019-05-24 2019-08-23 浙江工业大学 一种针对单张人脸查询次数受限攻击的防御方法及防御装置
CN110175611A (zh) * 2019-05-24 2019-08-27 浙江工业大学 面向车牌识别系统黑盒物理攻击模型的防御方法及装置
CN110175513A (zh) * 2019-04-15 2019-08-27 浙江工业大学 一种基于多目标路优化的路牌识别攻击防御方法
CN110334749A (zh) * 2019-06-20 2019-10-15 浙江工业大学 基于注意力机制的对抗攻击防御模型、构建方法及应用
CN110444208A (zh) * 2019-08-12 2019-11-12 浙江工业大学 一种基于梯度估计和ctc算法的语音识别攻击防御方法及装置

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018028255A1 (zh) * 2016-08-11 2018-02-15 深圳市未来媒体技术研究院 基于对抗网络的图像显著性检测方法
US20190244103A1 (en) * 2018-02-07 2019-08-08 Royal Bank Of Canada Robust pruned neural networks via adversarial training
CN108322349A (zh) * 2018-02-11 2018-07-24 浙江工业大学 基于对抗式生成网络的深度学习对抗性攻击防御方法
CN108446765A (zh) * 2018-02-11 2018-08-24 浙江工业大学 面向深度学习对抗性攻击的多模型协同防御方法
CN108615048A (zh) * 2018-04-04 2018-10-02 浙江工业大学 基于扰动进化对图像分类器对抗性攻击的防御方法
CN109460814A (zh) * 2018-09-28 2019-03-12 浙江工业大学 一种具有防御对抗样本攻击功能的深度学习分类方法
US20190156183A1 (en) * 2018-12-27 2019-05-23 David M. Durham Defending neural networks by randomizing model weights
CN109948658A (zh) * 2019-02-25 2019-06-28 浙江工业大学 面向特征图注意力机制的对抗攻击防御方法及应用
CN109948663A (zh) * 2019-02-27 2019-06-28 天津大学 一种基于模型抽取的步长自适应的对抗攻击方法
CN110175513A (zh) * 2019-04-15 2019-08-27 浙江工业大学 一种基于多目标路优化的路牌识别攻击防御方法
CN110163163A (zh) * 2019-05-24 2019-08-23 浙江工业大学 一种针对单张人脸查询次数受限攻击的防御方法及防御装置
CN110175611A (zh) * 2019-05-24 2019-08-27 浙江工业大学 面向车牌识别系统黑盒物理攻击模型的防御方法及装置
CN110334749A (zh) * 2019-06-20 2019-10-15 浙江工业大学 基于注意力机制的对抗攻击防御模型、构建方法及应用
CN110444208A (zh) * 2019-08-12 2019-11-12 浙江工业大学 一种基于梯度估计和ctc算法的语音识别攻击防御方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JINYIN CHEN等: "Can Adversarial Network Attack be Defended?", SOCIAL AND INFORMATION NETWORKS, pages 1 - 5 *
张嘉楠;王逸翔;刘博;常晓林;: "深度学习的对抗攻击方法综述", 网络空间安全, no. 07, pages 91 - 100 *
蒋凯: "关于对抗样本恢复的研究", 通信技术, pages 2946 - 2952 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111507384A (zh) * 2020-04-03 2020-08-07 厦门大学 一种黑盒深度模型对抗样本生成方法
CN111507384B (zh) * 2020-04-03 2022-05-31 厦门大学 一种黑盒深度模型对抗样本生成方法
CN111680292A (zh) * 2020-06-10 2020-09-18 北京计算机技术及应用研究所 一种基于高隐蔽性通用扰动的对抗样本生成方法
CN111680292B (zh) * 2020-06-10 2023-05-16 北京计算机技术及应用研究所 一种基于高隐蔽性通用扰动的对抗样本生成方法
CN111783629A (zh) * 2020-06-29 2020-10-16 浙大城市学院 一种面向对抗样本攻击的人脸活体检测方法及装置
CN111783629B (zh) * 2020-06-29 2023-04-07 浙大城市学院 一种面向对抗样本攻击的人脸活体检测方法及装置
CN112087447A (zh) * 2020-09-07 2020-12-15 广西师范大学 面向稀有攻击的网络入侵检测方法
CN112215078B (zh) * 2020-09-14 2024-04-19 浙江工业大学 基于自动编码器的电磁信号调制类型识别的通用对抗扰动生成方法
CN112215078A (zh) * 2020-09-14 2021-01-12 浙江工业大学 基于自动编码器的电磁信号调制类型识别的通用对抗扰动生成方法
CN112215292A (zh) * 2020-10-19 2021-01-12 电子科技大学 一种基于迁移性的图像对抗样本生成装置及方法
WO2022104503A1 (zh) * 2020-11-17 2022-05-27 华为技术有限公司 一种对抗样本的识别方法及相关装置
CN112465019A (zh) * 2020-11-26 2021-03-09 重庆邮电大学 一种基于扰动的对抗样本生成与对抗性防御方法
CN112949678A (zh) * 2021-01-14 2021-06-11 西安交通大学 深度学习模型对抗样本生成方法、系统、设备及存储介质
CN113507429A (zh) * 2021-04-16 2021-10-15 华东师范大学 一种基于生成式对抗网络的入侵流量的生成方法
CN113507429B (zh) * 2021-04-16 2022-04-05 华东师范大学 一种基于生成式对抗网络的入侵流量的生成方法
CN114900329A (zh) * 2022-04-02 2022-08-12 中国科学院信息工程研究所 一种基于最小普适扰动的流关联攻击防御方法及系统
CN114978654B (zh) * 2022-05-12 2023-03-10 北京大学 一种基于深度学习的端到端通信系统攻击防御方法
CN114978654A (zh) * 2022-05-12 2022-08-30 北京大学 一种基于深度学习的端到端通信系统攻击防御方法

Also Published As

Publication number Publication date
CN110941794B (zh) 2023-08-22

Similar Documents

Publication Publication Date Title
CN110941794A (zh) 一种基于通用逆扰动防御矩阵的对抗攻击防御方法
CN109948658B (zh) 面向特征图注意力机制的对抗攻击防御方法及应用
CN111753881B (zh) 一种基于概念敏感性量化识别对抗攻击的防御方法
CN113297572B (zh) 基于神经元激活模式的深度学习样本级对抗攻击防御方法及其装置
CN111178504B (zh) 基于深度神经网络的鲁棒压缩模型的信息处理方法及系统
CN112287997A (zh) 一种基于生成式对抗网络的深度图卷积模型防御方法
CN112597993A (zh) 基于补丁检测的对抗防御模型训练方法
CN113254927B (zh) 一种基于网络防御的模型处理方法、装置及存储介质
CN113627543B (zh) 一种对抗攻击检测方法
CN113283599A (zh) 基于神经元激活率的对抗攻击防御方法
CN115860112B (zh) 基于模型反演方法的对抗样本防御方法和设备
CN112926661A (zh) 一种增强图像分类鲁棒性的方法
CN115048983A (zh) 数据流形拓扑感知的人工智能系统对抗样本防御方法
CN113435264A (zh) 基于寻找黑盒替代模型的人脸识别对抗攻击方法及装置
CN113505855A (zh) 一种对抗攻击模型的训练方法
CN115062306A (zh) 一种针对恶意代码检测系统的黑盒对抗攻击方法
Wang et al. Generating semantic adversarial examples via feature manipulation
CN114758113A (zh) 对抗样本防御训练方法、分类预测方法及装置、电子设备
CN113935396A (zh) 基于流形理论的对抗样本攻击方法及相关装置
CN113034332A (zh) 不可见水印图像、后门攻击模型构建、分类方法及系统
CN111950635A (zh) 一种基于分层特征对齐的鲁棒特征学习方法
CN113221388A (zh) 一种视觉感知扰动约束的黑盒深度模型对抗样本生成方法
CN112270367A (zh) 一种基于语义信息的深度学习模型对抗鲁棒性增强方法
CN116778225A (zh) 基于解耦与重构学习的sar真假目标鉴别与目标识别方法
CN115238271A (zh) 基于生成学习的ai安全性检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant