CN110728297B - 一种基于gan的低代价对抗性网络攻击样本生成方法 - Google Patents

一种基于gan的低代价对抗性网络攻击样本生成方法 Download PDF

Info

Publication number
CN110728297B
CN110728297B CN201910829864.7A CN201910829864A CN110728297B CN 110728297 B CN110728297 B CN 110728297B CN 201910829864 A CN201910829864 A CN 201910829864A CN 110728297 B CN110728297 B CN 110728297B
Authority
CN
China
Prior art keywords
sample
matrix
attribute
samples
adv
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910829864.7A
Other languages
English (en)
Other versions
CN110728297A (zh
Inventor
刘启和
邱士林
周世杰
谭浩
吴春江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201910829864.7A priority Critical patent/CN110728297B/zh
Publication of CN110728297A publication Critical patent/CN110728297A/zh
Application granted granted Critical
Publication of CN110728297B publication Critical patent/CN110728297B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Pure & Applied Mathematics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Databases & Information Systems (AREA)
  • Algebra (AREA)
  • Computer Hardware Design (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种基于GAN的低代价对抗性网络攻击样本生成方法,包括:步骤1,对样本集中样本的属性和标签进行编码;步骤2,根据编码后的样本的属性计算信息增益;步骤3,对抗样本生成模型训练;步骤4,生成用于攻击的对抗样本。本发明基于GAN的基本思想,通过计算样本的属性、标签和信息增益训练模型,可以实现扰动特征的自动化选择,以最小代价生成高效的对抗性网络攻击样本。

Description

一种基于GAN的低代价对抗性网络攻击样本生成方法
技术领域
本发明涉及网络安全领域,尤其是一种基于GAN的低代价对抗性网络攻击样本生成方法。
背景技术
近年来,人工智能算法逐渐被应用于网络安全领域,并在恶意软件检测、入侵检测、漏洞挖掘等方面表现出良好的性能。但由于人工智能算法存在易受对抗性攻击的特性,使得恶意软件检测、入侵检测等系统容易受到恶意攻击者的对抗威胁。为此,研究者们纷纷提出了防御对抗性攻击的方法,其中,以基于生成对抗网络(generative adversarialnetwork,GAN)的方法居多,并且取得了不错的防御效果。但是,这些方法大多存在以下三个问题:
一、大多数方法聚焦于如何利用GAN提升检测算法的准确率,并不关注基于GAN的对抗攻击对网络攻击检测算法的攻击能力;
二、大多数方法源于针对图像的对抗样本生成方法,这些方法没有考虑到图像样本和网络数据样本之间的差异,即在网络数据中,不同属性对分类结果的重要程度不同;
三、这些方法没有考虑到生成对抗样本所付出的代价大小。
发明内容
本发明所要解决的技术问题是:针对上述存在的问题,提供一种基于GAN的低代价对抗性网络攻击样本生成方法。
本发明采用的技术方案如下:
一种基于GAN的低代价对抗性网络攻击样本生成方法,包括如下步骤:
步骤1,对样本集中样本的属性和标签进行编码;
步骤2,根据编码后的样本的属性计算信息增益;
步骤3,对抗样本生成模型训练:
步骤3-1,构建对抗样本生成模型;
步骤3-2,定义对抗样本生成模型的目标函数;
步骤3-3,采用步骤1的方法对网络数据样本集中样本的属性和标签进行编码;
步骤3-4,采用步骤2的方法根据编码后的网络数据样本集中样本的属性计算信息增益;
步骤3-5,将编码后的网络数据样本集中样本的属性和标签,以及信息增益输入步骤3-1构建的对抗样本生成模型,并利用目标函数进行训练;
步骤4,生成用于攻击的对抗样本:
步骤4-1,采用步骤1的方法对真实样本集中样本的属性和标签进行编码;
步骤4-2,采用步骤2的方法根据编码后的真实样本集中样本的属性计算信息增益;
步骤4-3,将编码后的真实样本集中样本的属性和标签,以及信息增益输入经步骤3训练好的对抗样本生成模型,得到编码的对抗样本属性矩阵;
步骤4-4,对编码的对抗样本属性矩阵进行解码得到对抗样本。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
本发明基于GAN的基本思想,通过计算样本的属性、标签和信息增益训练模型,可以实现扰动特征的自动化选择,以最小代价生成高效的对抗性网络攻击样本。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明的基于GAN的低代价对抗性网络攻击样本生成方法的原理图。
图2为本发明的对抗样本生成模型的生成器的结构示意图。
图3为本发明的对抗样本生成模型的判别器的结构示意图。
图4为本发明的对抗样本生成模型的替代模型的结构示意图。
具体实施方式
以下结合实施例对本发明的特征和性能作进一步的详细描述。
如图1所示,本实施例一种基于GAN的低代价对抗性网络攻击样本生成方法,包括如下步骤:
步骤1,对样本集中样本的属性和标签进行编码:
步骤1-1,将样本集A用矩阵形式表示为
Figure BDA0002190313710000031
Figure BDA0002190313710000032
其中,m是样本集A中样本的总数量,n是样本集A中样本的属性总数量,xi=[xi1,xi2,…,xij,yi]是样本集A中的第i个样本,xij是样本集A中第i个样本的第j个属性,yi是样本集A中的第i个样本的标签;
步骤1-2,基于样本集A的矩阵形式对样本集A中样本的属性进行编码:
步骤1-2-1,基于样本集A的矩阵形式拆分出样本的离散值属性矩阵和连续值属性矩阵,包括:
初始化二维矩阵Xd=[],Xs=[],对样本集A中的第j列属性
Figure BDA0002190313710000033
若aj是离散值属性,则将aj添加到二维矩阵Xd中,得到离散值属性矩阵
Figure BDA0002190313710000041
若aj是连续值属性,则将aj添加到二维矩阵Xs中,得到连续值属性矩阵
Figure BDA0002190313710000042
其中,xil是第i个样本的第l个离散值属性,xiz第i个样本的第z个连续值属性,g是离散值属性的总数量,h是连续值属性的总数量,且g+h=n;
步骤1-2-2,采用独热编码(One-Hot)的方法对离散值属性矩阵Xd进行编码,得到编码后的离散值属性矩阵Xd_enc
对离散值属性矩阵Xd中的每一列
Figure BDA0002190313710000043
初始化一维矩阵Sl=[],Bl=[],判断属性值xil是否存在于Sl中,若xil已存在于Sl中,则将xil在Sl中的位置索引添加到Bl的结尾;否则。在Sl结尾添加xil,并将xil在Sl中的位置索引添加到Bl的结尾,得到
Sl=[s0 … du],0≤u≤L-1
Bl=[b1 … bi],0≤i≤m-1
其中,L是Sl的长度,代表xl中出现的不同的属性值的总数;
对离散值属性矩阵Xd中的每一列
Figure BDA0002190313710000044
的每一个属性值xil的独热编码为:
xenc_il=[0,…,0,1,0,…,0]
其中,xenc_il的长度是L,元素“1”所在位置的索引是Bl[i]。
对离散值属性矩阵Xd中的每一列
Figure BDA0002190313710000045
的独热编码为:
Figure BDA0002190313710000051
依次拼接离散值属性矩阵Xd中的每一列
Figure BDA0002190313710000052
的独热编码,得到编码后的离散值属性矩阵Xd_enc
Figure BDA0002190313710000053
步骤1-2-3,将连续值属性矩阵Xs和编码后的离散值属性矩阵Xd_enc进行拼接,得到编码后的样本属性矩阵Xenc;即,
Figure BDA0002190313710000054
其中,N是编码后的样本属性的总数量,xi是编码后的样本属性矩阵Xenc的第i个样本,xik是xi的第i个属性值。
步骤1-3,基于样本集A的矩阵形式对样本集A中样本的标签进行编码:
步骤1-3-1,直接取出样本集A的标签,得到样本标签矩阵
Figure BDA0002190313710000055
Figure BDA0002190313710000056
步骤1-3-2,采用独热编码(One-Hot)的方法对样本标签矩阵Y进行编码,得到编码后的样本标签矩阵Yenc;具体地,
初始化一维矩阵SY=[],BY=[],判断yi是否存在于SY中。若yi已存在于SY中,则将yi在SY中的位置索引添加到BY的结尾;否则,在SY结尾添加yi,并将xil在SY中的位置索引添加到BY的结尾,得到
SY=[s0 … su],0≤u≤LY-1
BY=[b1…bi],0≤i≤m-1
其中,LY是BY的长度,代表Y中出现的不同的标签值的总数;
对样本标签矩阵
Figure BDA0002190313710000061
中的每一个标签yi的独热编码为:
yenc_i=[0,…,0,1,0,…,0]
其中,yenc_i的长度是LY,元素“1”所在位置的索引是BY[i];
对于样本标签矩阵Y,编码后的样本标签矩阵为:
Figure BDA0002190313710000062
步骤2,根据编码后的样本的属性计算信息增益:
步骤2-1,计算信息增益:
将编码后的样本属性矩阵Xenc中第k个属性用xk表示,则各个属性对标签的信息增益gaink
gaink=Gain(y,xk)=Entropy(y)-Entropy(y|xk);
其中,
Figure BDA0002190313710000063
Figure BDA0002190313710000064
Pi表示第i类标签y在样本集中Y出现的概率;Pi(y|xk)表示在样本属性xk已知的情况下,第i类标签y在样本集中Y出现的概率;
步骤2-2,以一维矩阵形式存储所有样本属性的信息增益,即:
gain=[gain0,gain1,…,gaink],0≤k≤N-1
其中,N是编码后的样本属性的总数量;
步骤3,对抗样本生成模型训练,本发明采用生成对抗网络(GAN)的基本思想,模型中包含生成器、判别器、替代模型:
步骤3-1,构建对抗样本生成模型:
步骤3-1-1,如图2所示,构建生成器;所述生成器包括:编码网络、解码网络、设置在编码网络和解码网络之间的两个残差块、以及用于输出的双曲正切(tanh)激活函数;
所述编码网络为一个由3个卷积层(Convolutional layer)、3个实例正则化层(Instance normalization layer)、3个线性整流层(Rectified Linear Unit layer,ReLUlayer)组成的堆栈,结构为依次设置的卷积层、实例正则化层、线性整流层、卷积层、实例正则化层、线性整流层、卷积层、实例正则化层和线性整流层;编码网络的输入是wxw的二维矩阵,如
Figure BDA0002190313710000071
编码网络将rxi压缩为4x4的二维潜在空间表示矩阵,即
Figure BDA0002190313710000072
所述解码网络为一个由3个反卷积层(Convolutional transpose layer)、2个实例正则化层、2个线性整流层组成的堆栈,结构为依次设置的反卷积层、实例正则化层、线性整流层、反卷积层、实例正则化层、线性整流层和反卷积层;所述解码网络以4x4的二维矩阵t_xi为输入,输出wxw的扰动的二维矩阵
Figure BDA0002190313710000081
本发明中,在编码网络和解码网络之间添加两个残差块(Resnet Block),可以避免在加深网络深度的时候出现梯度消失或梯度爆炸。最后,对解码网络的输出使用双曲正切(tanh)激活函数。
步骤3-1-2,如图3所示,构建判别器;所述判别器为一个由4个卷积层、2个批正则化层(Batch normalization)、3个Leaky ReLU层和sigmoid激活函数组成的堆栈,结构为依次设置的卷积层、Leaky ReLU层、卷积层、批正则化层、Leaky ReLU层、卷积层、批正则化层、Leaky ReLU层、卷积层和sigmoid激活函数;
所述判别器用于判断输入属于真实样本或对抗样本,即:判别器的输入是wxw的二维矩阵,如
Figure BDA0002190313710000082
输出整数判别结果
Figure BDA0002190313710000083
步骤3-1-3,如图4所示,构建替代模型;所述替代模型由4个卷积层、6个ReLU层、1个池化层(Pooling layer)、3个线性层(Linear layer)组成,结构为依次设置的卷积层、ReLU层、卷积层、ReLU层、卷积层、ReLU层、卷积层、ReLU层、池化层、线性层、ReLU层、线性层、ReLU层和线性层;
所述替代模型以wxw的二维矩阵rexadv_i为输入,输出独热编码(One-Hot)形式的判别结果y_predi=[0,…,0,1,0,…,0],其中,y_predi的长度是LY,元素“1”所在位置的索引是替代模型判定的标签所在位置。
步骤3-2,定义对抗样本生成模型的目标函数:
步骤3-2-1,定义生成器的目标函数:
LG=αLGAN+βLadv+γLt
其中,α、β和γ是超参数,用于控制子目标函数LGAN、Ladv和Lt之间的相关重要性;
Figure BDA0002190313710000091
表示生成器生成真实样本的损失;
Figure BDA0002190313710000092
表示对抗样本成功欺骗对抗样本生成模型的损失;
Figure BDA0002190313710000093
表示将样本的信息增益作为权值实现扰动特征的自动化选择;
x=rxi是真实样本,G(x)=purxi是生成器生成的扰动,t是目标分类,l表示训练替代模型的损失函数,gain是一维的样本属性的信息增益矩阵,其每个元素gaink是样本中第k个属性的信息增益,xadv是对抗样本;
步骤3-2-2,定义判别器的目标函数:
Figure BDA0002190313710000094
其中x=rxi是真实样本,G(x)=purxi是生成器生成的扰动,D表示判别器;
步骤3-3,采用步骤1的方法对网络数据样本集中样本的属性和标签进行编码,即得到编码后的属性矩阵Xenc和标签矩阵Yenc;其中,网络数据样本集是训练对抗样本生成模型的测试集,可以选取历史存储的真实网络数据样本集,对于训练得到的对抗样本生成模型效果更好。
步骤3-4,采用步骤2的方法根据编码后的网络数据样本集中样本的属性计算信息增益,即得到信息增益矩阵gain;
步骤3-5,将编码后的网络数据样本集中样本的属性和标签,以及信息增益输入步骤3-1构建的对抗样本生成模型,并利用目标函数进行训练:
步骤3-5-1,对属性矩阵Xenc的每个样本xi=[xi0 … xik]进行维度重塑:将k×1的一维矩阵xi转换为wxw的二维矩阵rxi
Figure BDA0002190313710000101
其中,w是大于
Figure BDA0002190313710000102
的最小整数,并且,当j>k-1时,xij=0;
步骤3-5-2,将信息增益矩阵gain和二维矩阵rxi输入生成器中,生成器输出扰动purxi
Figure BDA0002190313710000103
步骤3-5-3,将扰动purxi和二维矩阵rxi叠加,得到对抗样本的属性矩阵rexadv_i
Figure BDA0002190313710000104
步骤3-5-4,将对抗样本的属性矩阵rexadv_i和二维矩阵rxi输入判别器,判别器判断输入是真实样本或是生成的样本,输出结果
Figure BDA0002190313710000111
根据步骤3-2中的定义的目标函数计算损失LD和LGAN;判别器利用计算得到的损失LD更新自身参数,同时将损失LGAN反馈给生成器;
步骤3-5-5,将对抗样本的属性矩阵rexadv_i、二维矩阵rxi和标签矩阵yenc输入替代模型,替代模型输出独热编码(One-Hot)形式的判别结果y_predi=[0,…,0,1,0,…,0],其中,y_predi的长度是LY,元素“1”所在位置的索引是判别器判定的标签所在位置,并反馈给生成器;生成器根据步骤3-2中定义的目标函数计算损失Ladv和Lt
步骤3-5-6,生成器根据步骤3-2中定义的目标函数计算损失LG,并根据LG更新自身参数;
步骤3-5-7,将步骤3-5-1~步骤3-5-6重复执行epoch次,其中,epoch是超参数,最终得到基于GAN的对抗样本生成模型;
步骤4,生成用于攻击的对抗样本:
步骤4-1,采用步骤1的方法对真实样本集中样本的属性和标签进行编码;所述真实样本集可以是当前实时采集的真实网络数据样本集,为了方便描述,本实施例中将真实样本集表示为
Figure BDA0002190313710000112
其中,c是真实样本集B中样本的总数量,n是样本的属性数量;
则编码后的属性矩阵Xb_enc和标签矩阵Yb_enc为:
Figure BDA0002190313710000121
其中,N是编码后的样本属性的总数量。
Figure BDA0002190313710000122
其中,yb_enc_i=[0,…,0,1,0,…,0],且yb_enc_i的长度为LY,元素“1”所在位置是真实标签所在的位置。
步骤4-2,采用步骤2的方法根据编码后的真实样本集中样本的属性计算信息增益,得到的信息增益矩阵表示为:
Figure BDA0002190313710000123
步骤4-3,将编码后的真实样本集中样本的属性和标签,以及信息增益输入经步骤3训练好的对抗样本生成模型,得到编码的对抗样本属性矩阵:
步骤4-3-1,将编码后的真实样本集中样本的属性和标签,以及信息增益(即属性矩阵Xb_enc、标签矩阵Yb_enc和信息增益矩阵gainb)输入经步骤3训练好的对抗样本生成模型,得到对抗样本属性矩阵rexadv_i
Figure BDA0002190313710000124
步骤4-3-2,根据步骤3-5-1进行的维度重塑,将对抗样本属性矩阵rexadv_i进行逆向维度重塑,得到k×1的一维矩阵xadv_i
Figure BDA0002190313710000125
步骤4-3-3,拼接所有xadv_i,得到编码后的对抗样本属性矩阵Badv_enc
Figure BDA0002190313710000126
Figure BDA0002190313710000131
步骤4-4,对编码的对抗样本属性矩阵进行解码得到对抗样本:
步骤4-4-1,根据步骤1-2-3的拼接过程,逆向拆分编码后的对抗样本属性矩阵Badv_enc,得到编码后的对抗离散值属性矩阵Badv_d_enc和对抗连续值属性矩阵Badv_s;其中,
Figure BDA0002190313710000132
Figure BDA0002190313710000133
步骤4-4-2,根据步骤1-2-2的独热编码过程,逆向解码编码后的对抗离散值属性矩阵Badv_d_enc,得到解码后的对抗离散值属性矩阵Badv_d_dec
Figure BDA0002190313710000134
其中,xadv_dec_il表示一个离散值属性。
步骤4-4-3,根据步骤1-2-1的拆分过程,逆向拼接解码后的对抗离散值属性矩阵Badv_d_dec、对抗连续值属性矩阵Badv_s
Figure BDA0002190313710000135
得到对抗样本矩阵Badv
Figure BDA0002190313710000136
其中,badv_i=[xadv_i0 … xadv_ij yb_i]是Badv的第i个样本。也就是说,对抗样本矩阵Badv包括有i个对抗样本,可用于实施对抗性攻击的对抗性网络攻击样本集。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于GAN的低代价对抗性网络攻击样本生成方法,其特征在于,包括如下步骤:
步骤1,对样本集中样本的属性和标签进行编码;所述样本为网络数据样本;
步骤2,根据编码后的样本的属性计算信息增益;
步骤3,对抗样本生成模型训练:
步骤3-1,构建对抗样本生成模型;
步骤3-2,定义对抗样本生成模型的目标函数;
步骤3-3,采用步骤1的方法对网络数据样本集中样本的属性和标签进行编码;
步骤3-4,采用步骤2的方法根据编码后的网络数据样本集中样本的属性计算信息增益;
步骤3-5,将编码后的网络数据样本集中样本的属性和标签,以及信息增益输入步骤3-1构建的对抗样本生成模型,并利用目标函数进行训练;
步骤4,生成用于攻击的对抗样本:
步骤4-1,采用步骤1的方法对真实样本集中样本的属性和标签进行编码;
步骤4-2,采用步骤2的方法根据编码后的真实样本集中样本的属性计算信息增益;
步骤4-3,将编码后的真实样本集中样本的属性和标签,以及信息增益输入经步骤3训练好的对抗样本生成模型,得到编码的对抗样本属性矩阵;
步骤4-4,对编码的对抗样本属性矩阵进行解码得到对抗样本;所述解码得到的对抗样本为用于实施对抗性攻击的对抗性网络攻击样本。
2.根据权利要求1所述的基于GAN的低代价对抗性网络攻击样本生成方法,其特征在于,所述步骤1对样本集中样本的属性和标签进行编码的方法,包括如下子步骤:
步骤1-1,将样本集A用矩阵形式表示为
Figure FDA0002933411780000021
Figure FDA0002933411780000022
其中,m是样本集A中样本的总数量,n是样本集A中样本的属性总数量,xi=[xi1,xi2,…,xij,yi]是样本集A中的第i个样本,xij是样本集A中第i个样本的第j个属性,yi是样本集A中的第i个样本的标签;
步骤1-2,基于样本集A的矩阵形式对样本集A中样本的属性进行编码:
步骤1-2-1,基于样本集A的矩阵形式拆分出样本的离散值属性矩阵和连续值属性矩阵,包括:
初始化二维矩阵Xd=[],Xs=[],对样本集A中的第j列属性
Figure FDA0002933411780000023
若aj是离散值属性,则将aj添加到二维矩阵Xd中,得到离散值属性矩阵
Figure FDA0002933411780000024
若aj是连续值属性,则将aj添加到二维矩阵Xs中,得到连续值属性矩阵
Figure FDA0002933411780000025
其中,xil是第t个样本的第l个离散值属性,xiz第i个样本的第z个连续值属性,g是离散值属性的总数量,h是连续值属性的总数量,且g+h=n;
步骤1-2-2,采用独热编码的方法对离散值属性矩阵Xd进行编码,得到编码后的离散值属性矩阵Xd_enc
步骤1-2-3,将连续值属性矩阵Xs和编码后的离散值属性矩阵Xd_enc进行拼接,得到编码后的样本属性矩阵Xenc
步骤1-3,基于样本集A的矩阵形式对样本集A中样本的标签进行编码:
步骤1-3-1,直接取出样本集A的标签,得到样本标签矩阵
Figure FDA0002933411780000031
Figure FDA0002933411780000032
步骤1-3-2,采用独热编码的方法对样本标签矩阵Y进行编码,得到编码后的样本标签矩阵Yenc
3.根据权利要求2所述的基于GAN的低代价对抗性网络攻击样本生成方法,其特征在于,所述步骤2根据编码后的样本的属性计算信息增益的方法,包括如下子步骤:
步骤2-1,计算信息增益:
将编码后的样本属性矩阵Xenc中第k个属性用xk表示,则各个属性对标签的信息增益:
gaink=Gain(y,xk)=Entropy(y)-Entropy(y|xk);
其中,
Figure FDA0002933411780000033
Figure FDA0002933411780000034
Pi表示第i类标签y在样本集中Y出现的概率;Pi(y|xk)表示在样本属性xk已知的情况下,第i类标签y在样本集中Y出现的概率;
步骤2-2,以一维矩阵形式存储所有样本属性的信息增益,即:
gain=[gain0,gain1,…,gaink],0≤k≤N-1
其中,N是编码后的样本属性的总数量。
4.根据权利要求3所述的基于GAN的低代价对抗性网络攻击样本生成方法,其特征在于,所述步骤3-1构建对抗样本生成模型的方法,包括如下子步骤:
步骤3-1-1,构建生成器;所述生成器包括:编码网络、解码网络、设置在编码网络和解码网络之间的两个残差块、以及用于输出的双曲正切激活函数;所述解码网络的结构为依次设置的卷积层、实例正则化层、线性整流层、卷积层、实例正则化层、线性整流层、卷积层、实例正则化层和线性整流层;所述解码网络的结构为依次设置的反卷积层、实例正则化层、线性整流层、反卷积层、实例正则化层、线性整流层和反卷积层;
步骤3-1-2,构建判别器;所述判别器的结构为依次设置的卷积层、Leaky ReLU层、卷积层、批正则化层、Leaky ReLU层、卷积层、批正则化层、Leaky ReLU层、卷积层和sigmoid激活函数;
步骤3-1-3,构建替代模型;所述替代模型的结构为依次设置的卷积层、ReLU层、卷积层、ReLU层、卷积层、ReLU层、卷积层、ReLU层、池化层、线性层、ReLU层、线性层、ReLU层和线性层。
5.根据权利要求4所述的基于GAN的低代价对抗性网络攻击样本生成方法,其特征在于,所述步骤3-2定义对抗样本生成模型的目标函数的方法,包括如下子步骤:
步骤3-2-1,定义生成器的目标函数:
LG=αLGAN+βLadv+γLt
其中,α、β和γ是超参数,用于控制子目标函数LGAN、Ladv和Lt之间的相关重要性;
Figure FDA0002933411780000041
表示生成器生成真实样本的损失;
Figure FDA0002933411780000042
表示对抗样本成功欺骗对抗样本生成模型的损失;
Figure FDA0002933411780000051
表示将样本的信息增益作为权值实现扰动特征的自动化选择;
x=rxi是真实样本,G(x)=purxi是生成器生成的扰动,t是目标分类,l表示训练替代模型的损失函数,gain是一维的样本属性的信息增益矩阵,其每个元素gaink是样本中第k个属性的信息增益,xadv是对抗样本;
步骤3-2-2,定义判别器的目标函数:
Figure FDA0002933411780000052
其中x=rxi是真实样本,G(x)=purxi是生成器生成的扰动,D表示判别器。
6.根据权利要求5所述的基于GAN的低代价对抗性网络攻击样本生成方法,其特征在于,所述步骤3-5中将编码后的网络数据样本集中样本的属性和标签,以及信息增益输入步骤3-1构建的对抗样本生成模型,并利用目标函数进行训练的方法,包括如下子步骤:
步骤3-5-1,对属性矩阵Xenc的每个样本xi=[xi0 … xik]进行维度重塑:将k×1的一维矩阵xi转换为wxw的二维矩阵形式的真实样本
Figure FDA0002933411780000053
其中,w是大于
Figure FDA0002933411780000054
的最小整数,并且,当j>k-1时,xij=0;其中,属性矩阵Xenc由步骤3-3得到;
步骤3-5-2,将信息增益矩阵gain和真实样本rxi输入生成器中,生成器输出扰动
Figure FDA0002933411780000055
其中,信息增益矩阵gain由步骤3-4得到;
步骤3-5-3,将扰动purxi和真实样本rxi叠加,得到对抗样本的属性矩阵rexadv_i
步骤3-5-4,将对抗样本的属性矩阵rexadv_i和真实样本rxi输入判别器,判别器判断输入是真实样本或是生成的样本,输出结果
Figure FDA0002933411780000061
根据步骤3-2中的定义的目标函数计算损失LD和LGAN;判别器利用计算得到的损失LD更新自身参数,同时将损失LGAN反馈给生成器;
步骤3-5-5,将对抗样本的属性矩阵rexadv_i、真实样本rxi和标签矩阵yenc输入替代模型,替代模型输出独热编码形式的判别结果y_predi=[0,…,0,1,0,…,0],其中,y_predi的长度是LY,元素“1”所在位置的索引是判别器判定的标签所在位置,并反馈给生成器;生成器根据步骤3-2中定义的目标函数计算损失Ladv和Lt;其中,标签矩阵yenc由步骤3-3得到;
步骤3-5-6,生成器根据步骤3-2中定义的目标函数计算损失LG,并根据LG更新自身参数;
步骤3-5-7,将步骤3-5-1~步骤3-5-6重复执行epoch次,其中,epoch是超参数,最终得到基于GAN的对抗样本生成模型。
7.根据权利要求6所述的基于GAN的低代价对抗性网络攻击样本生成方法,其特征在于,所述步骤4-3中将编码后的真实样本集中样本的属性和标签,以及信息增益输入经步骤3训练好的对抗样本生成模型,得到编码的对抗样本属性矩阵的方法,包括如下子步骤:
步骤4-3-1,将编码后的真实样本集中样本的属性和标签,以及信息增益输入经步骤3训练好的对抗样本生成模型,得到对抗样本属性矩阵rexadv_i
Figure FDA0002933411780000071
步骤4-3-2,根据步骤3-5-1进行的维度重塑,将对抗样本属性矩阵rexadv_i进行逆向维度重塑,得到kx1的一维矩阵xadv_i
Figure FDA0002933411780000072
步骤4-3-3,拼接所有xadv_i,得到编码后的对抗样本属性矩阵Badv_enc
Figure FDA0002933411780000073
8.根据权利要求7所述的基于GAN的低代价对抗性网络攻击样本生成方法,其特征在于,所述步骤4-4中对编码的对抗样本进行解码得到对抗样本的方法,包括如下子步骤:
步骤4-4-1,根据步骤1-2-3的拼接过程,逆向拆分编码后的对抗样本属性矩阵Badv_enc,得到编码后的对抗离散值属性矩阵Badv_d_enc和对抗连续值属性矩阵badv_s;其中,
Figure FDA0002933411780000074
Figure FDA0002933411780000075
其中,c是真实样本集中样本的总数量;
步骤4-4-2,根据步骤1-2-2的独热编码过程,逆向解码编码后的对抗离散值属性矩阵Badv_d_enc,得到解码后的对抗离散值属性矩阵Badv_d_dec
Figure FDA0002933411780000076
步骤4-4-3,根据步骤1-2-1的拆分过程,逆向拼接解码后的对抗离散值属性矩阵Badv_d_dec、对抗连续值属性矩阵Badv_s
Figure FDA0002933411780000081
得到对抗样本矩阵Badv
Figure FDA0002933411780000082
其中,badv_i=[xadv_i0 … xadv_ij yb_i]是Badv的第i个样本。
CN201910829864.7A 2019-09-04 2019-09-04 一种基于gan的低代价对抗性网络攻击样本生成方法 Active CN110728297B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910829864.7A CN110728297B (zh) 2019-09-04 2019-09-04 一种基于gan的低代价对抗性网络攻击样本生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910829864.7A CN110728297B (zh) 2019-09-04 2019-09-04 一种基于gan的低代价对抗性网络攻击样本生成方法

Publications (2)

Publication Number Publication Date
CN110728297A CN110728297A (zh) 2020-01-24
CN110728297B true CN110728297B (zh) 2021-08-06

Family

ID=69217832

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910829864.7A Active CN110728297B (zh) 2019-09-04 2019-09-04 一种基于gan的低代价对抗性网络攻击样本生成方法

Country Status (1)

Country Link
CN (1) CN110728297B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111832019B (zh) * 2020-06-10 2024-02-23 国家计算机网络与信息安全管理中心 基于生成对抗网络的恶意代码检测方法
CN111914998A (zh) * 2020-07-29 2020-11-10 北京丁牛科技有限公司 服务器攻击信息生成器的训练方法及装置
CN112989346B (zh) * 2021-04-09 2021-08-10 鹏城实验室 对抗样本生成方法、装置、终端设备以及存储介质
CN114444075B (zh) * 2022-02-09 2023-05-19 深圳市前海新型互联网交换中心有限公司 一种生成躲避流量数据的方法
CN114764616B (zh) * 2022-04-01 2023-03-24 中国工程物理研究院计算机应用研究所 一种基于触发条件的对抗样本生成方法及系统
CN114707661B (zh) * 2022-04-13 2024-10-18 支付宝(杭州)信息技术有限公司 一种对抗训练方法和系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107368752A (zh) * 2017-07-25 2017-11-21 北京工商大学 一种基于生成式对抗网络的深度差分隐私保护方法
CN108322349A (zh) * 2018-02-11 2018-07-24 浙江工业大学 基于对抗式生成网络的深度学习对抗性攻击防御方法
CN108446765A (zh) * 2018-02-11 2018-08-24 浙江工业大学 面向深度学习对抗性攻击的多模型协同防御方法
CN109165664A (zh) * 2018-07-04 2019-01-08 华南理工大学 一种基于生成对抗网络的属性缺失数据集补全与预测方法
CN109639710A (zh) * 2018-12-29 2019-04-16 浙江工业大学 一种基于对抗训练的网络攻击防御方法
WO2019094933A1 (en) * 2017-11-13 2019-05-16 The Charles Stark Draper Laboratory, Inc. Automated repair of bugs and security vulnerabilities in software

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110113491A1 (en) * 2009-11-12 2011-05-12 Deutsche Telekom Ag Collaborative system for protecting against the propagation of malwares in a network

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107368752A (zh) * 2017-07-25 2017-11-21 北京工商大学 一种基于生成式对抗网络的深度差分隐私保护方法
WO2019094933A1 (en) * 2017-11-13 2019-05-16 The Charles Stark Draper Laboratory, Inc. Automated repair of bugs and security vulnerabilities in software
CN108322349A (zh) * 2018-02-11 2018-07-24 浙江工业大学 基于对抗式生成网络的深度学习对抗性攻击防御方法
CN108446765A (zh) * 2018-02-11 2018-08-24 浙江工业大学 面向深度学习对抗性攻击的多模型协同防御方法
CN109165664A (zh) * 2018-07-04 2019-01-08 华南理工大学 一种基于生成对抗网络的属性缺失数据集补全与预测方法
CN109639710A (zh) * 2018-12-29 2019-04-16 浙江工业大学 一种基于对抗训练的网络攻击防御方法

Also Published As

Publication number Publication date
CN110728297A (zh) 2020-01-24

Similar Documents

Publication Publication Date Title
CN110728297B (zh) 一种基于gan的低代价对抗性网络攻击样本生成方法
Wang et al. Defensive dropout for hardening deep neural networks under adversarial attacks
Bi et al. APDC-Net: Attention pooling-based convolutional network for aerial scene classification
WO2022006919A1 (zh) 基于激活定点拟合的卷积神经网络训练后量化方法及系统
CN112132149B (zh) 一种遥感影像语义分割方法及装置
CN106250931A (zh) 一种基于随机卷积神经网络的高分辨率图像场景分类方法
CN112216273A (zh) 一种针对语音关键词分类网络的对抗样本攻击方法
Wang et al. Defending dnn adversarial attacks with pruning and logits augmentation
CN110428424B (zh) 基于深度学习的雷达回波图像高压线分割方法
CN112232434B (zh) 基于相关性分析的对抗攻击协同防御方法及装置
CN111461175B (zh) 自注意与协同注意机制的标签推荐模型构建方法及装置
CN113344003B (zh) 目标检测方法及装置、电子设备和存储介质
CN116665282B (zh) 人脸识别模型训练方法、人脸识别方法及装置
CN113935396A (zh) 基于流形理论的对抗样本攻击方法及相关装置
CN115131710A (zh) 基于多尺度特征融合注意力的实时动作检测方法
CN114970447B (zh) 一种汉字字体转换方法、装置、设备和存储介质
CN115496144A (zh) 配电网运行场景确定方法、装置、计算机设备和存储介质
CN115131607A (zh) 图像分类方法及装置
US11429771B2 (en) Hardware-implemented argmax layer
Hui et al. FoolChecker: A platform to evaluate the robustness of images against adversarial attacks
CN115761478B (zh) 基于跨模态下的sar图像建筑物提取模型轻量化方法
CN112927248B (zh) 一种基于局部特征增强和条件随机场的点云分割方法
CN113505937B (zh) 一种基于多视角编码器的法律判决预测系统及方法
KR102637568B1 (ko) 스파이킹 뉴럴 네트워크를 최적화하는 방법 및 장치
CN115565108A (zh) 一种基于解耦自监督的视频伪装和显著性对象检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant