CN110569916B - 用于人工智能分类的对抗样本防御系统及方法 - Google Patents
用于人工智能分类的对抗样本防御系统及方法 Download PDFInfo
- Publication number
- CN110569916B CN110569916B CN201910868997.5A CN201910868997A CN110569916B CN 110569916 B CN110569916 B CN 110569916B CN 201910868997 A CN201910868997 A CN 201910868997A CN 110569916 B CN110569916 B CN 110569916B
- Authority
- CN
- China
- Prior art keywords
- layer
- neural network
- convolutional neural
- convolutional
- image sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000007123 defense Effects 0.000 title claims abstract description 61
- 238000000034 method Methods 0.000 title claims abstract description 18
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 17
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 124
- 238000012549 training Methods 0.000 claims abstract description 61
- 230000004927 fusion Effects 0.000 claims abstract description 12
- 238000011176 pooling Methods 0.000 claims description 39
- 210000002569 neuron Anatomy 0.000 claims description 34
- 238000000605 extraction Methods 0.000 claims description 30
- 238000005070 sampling Methods 0.000 claims description 26
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000004422 calculation algorithm Methods 0.000 claims description 10
- 230000002779 inactivation Effects 0.000 claims description 10
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 description 26
- 230000003042 antagnostic effect Effects 0.000 description 10
- 238000012360 testing method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 241000282320 Panthera leo Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000008485 antagonism Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002059 diagnostic imaging Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 238000001035 drying Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 238000012954 risk control Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Neurology (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及用于人工智能分类的对抗样本防御系统及方法,其中系统包括第一常规卷积神经网络、防御模型训练模块、第一降采样器连接的第一降采样卷积神经网络;防御模型训练模块中的数据集分别输入到第一常规卷积神经网络,和经第一降采样器输入到第一降采样卷积神经网络中;对抗样本训练集获取模块与数据集一同输入到第二常规卷积神经网络和第二降采样器中,第二降采样器通过第二降采样卷积神经网络与第二常规卷积神经网络一同输入到全连接模型融合器后输出防御模型;第一常规卷积神经网络和第一降采样卷积神经网络分别对应输出参数到第二常规卷积神经网络和第二降采样卷积神经网络中。本发明能够有效提高对对抗样本分类的准确性和鲁棒性。
Description
技术领域
本发明涉及数据模型学习的系统和方法,具体讲是用于人工智能分类的对抗样本防御系统及方法。
背景技术
近几年来,在大数据的背景下,机器学习受到了广泛的关注,在很多不同的领域获得很大进步的应用发展。例如:金融经济领域(量化分析、风险控制等)、无人驾驶领域(环境感知、人车交互、路线规划等)、医疗领域(药物挖掘、病情分析、医学影像等)、网络安全领域等等(过滤垃圾邮件、DNS恶意域名分析等)。然而,在机器学习为我们带来巨大的便利的同时,也暴露出很大的安全问题。
Christian Szegedy等人在ICLR2014发表的论文中,首次提出了对抗样本的概念,即在数据集中通过故意添加细微的变化,干扰所形成的输入样本,受干扰之后的输入导致模型以高置信度输出一个错误的结果。论文中提到包括卷积神经网络在内的深度学习模型对于对抗样本都具有极高的脆弱性。很多情况下,在训练集的不同子集上训练得到的具有不同结构的模型都会对相同的对抗样本实现误分,这意味着对抗样本成为了训练算法的一个盲点。AnhNguyen等人在CVPR2015上发表的论文中,他们发现面对一些人类完全无法识别的样本(例如噪声),深度学习模型会以高置信度将它们进行分类(分类为狮子等)。这些研究的提出,迅速引起了广泛的关注,有人将其当作是深度学习的特有缺陷,可是KDnuggets指出,事实上深度学习对于对抗样本的脆弱性并不是深度学习所独有的,在很多的机器学习模型中普遍存在,因此进一步研究有利于抵抗对抗样本的算法实际上有利于整个机器学习领域的进步。
廖方舟使用传统方法(中值滤波等)和深度网络模型U-Net,试图通过去燥方法解决像素引导去噪问题(PGD Pixel Guided Denoiser),但效果不佳。虽然绝大部分噪声被消除了,但是并没有提升分类准确率。他们研究将对抗样本和去噪后的图像输入到网络中,计算网络每一层特征的距离。并且发现:如果只是普通的噪声,例如高斯噪声,这些噪声的影响会随着网络的加深而逐渐变小;但是对于对抗样本的噪声,这些噪声的影响会随着网络的加深而逐渐变大。这一趋势在图像经过基本的去噪后仍然存在。
Papernot等人在《Distillation as a defense to adversarial perturbationsagainst deep neuralnetworks》中提出对使用模型对训练集数据的分类预测结果再次训练的方式,让攻击者难以获取模型的真实梯度信息,即“梯度遮蔽”,然而在后来的文献《Towards Evaluating the Robustness ofNeural Networks》中证明,该方法带来的“安全感”是虚假的,攻击者仍能通过构建目标函数来对模型进行攻击。
Harini Kannan等人在《Adversarial Logit Pairing》中提出利用增加正则项的方式,该模型采用了平衡模型分类能力与自然样本与自然样本所生成对抗样本的分类结果距离的方式,提高模型防御对抗样本的能力。但该方法在损失函数上的优化,并不能从根源上增强模型对对抗样本的鲁棒性,因损失函数是分类能力+(对抗样本与自然样本间距离)*系数。
论文《A study ofthe effect ofJPG compression on adversarial images》中提到了降采样或是图像压缩技术能有效提升模型的鲁棒性。然而,该方法会损失一定的干净样本分类正确率。
发明内容
本发明提供了一种用于人工智能分类的对抗样本防御系统及方法,以提高对对抗图像样本分类的准确性和鲁棒性。
本发明用于人工智能分类的对抗样本防御系统,包括第一常规卷积神经网络、防御模型训练模块,以及相连接的第一降采样器和第一降采样卷积神经网络;
在所述的防御模型训练模块中具有用于图像样本输入的图像数据集,将图像数据集中的图像样本分别输入到所述第一常规卷积神经网络,以及通过第一降采样器输入到第一降采样卷积神经网络中;
在防御模型训练模块中还具有对抗图像样本训练集获取模块,通过对抗图像样本训练集获取模块生成对抗图像样本后,与图像数据集中的图像样本一同输入到防御模型训练模块中的第二常规卷积神经网络和第二降采样器中,第二降采样器通过第二降采样卷积神经网络与第二常规卷积神经网络一同输入到全连接模型融合器,以全连接方式融合后输出防御模型;
第一常规卷积神经网络输出特征提取部分的参数到第二常规卷积神经网络中;第一降采样卷积神经网络输出特征提取部分的参数到第二降采样卷积神经网络中。
由于对抗图像样本的要求是人眼对人为扰动不可见、机器却会因为这些扰动发生错误判决的样本,因此,本发明采用降采样的方式减少了不可见扰动,从而降低了不可见扰动对整个样本图像的影响。同时,本发明在防御模型训练模块中采用的是双网络结构,通过训练得到网络参数和对抗图像样本,得到最终的防御模型,其中第二常规卷积神经网络能够提高分类的正确率,第二降采样卷积神经网络能够提高对抗图像样本的鲁棒性,因此两者的并联能在保证防御模型正确性的同时,拥有对对抗图像样本的鲁棒性,并且模型的可解释性强。尽管有而文章提到过降采样技术会让模型对对抗图像样本具有一定鲁棒性,但本发明采用了一种更简单的方式,而且在不损失模型性能的前提下,拥有了对对抗图像样本的鲁棒性。
具体的,所述的第一常规卷积神经网络中的结构为:第一层为输入层,将接收的图像数据集中的图像样本作为网络输入,第二层为40个大小为5×5卷积核计算得到的卷积层,第三层为50个大小为5×5卷积核计算得到的卷积层,并在后面加入一个保留2×2像素范围内最大值的池化层,并对该池化层的输出进行随机失活(dropout)处理,第四层为70个大小为3×3卷积核计算得到的卷积层和池化层,池化方式与第三层相同,第五层为100个大小为3×3卷积核计算得到的卷积层,并将所有的神经元展开,第六层为全连接层,将所述展开的神经元与一个全连接神经网络相连,最后由第七层的归一化指数函数(softmax)层输出结果,第一常规卷积神经网络的损失函数为交叉熵。从功能上划分,第一常规卷积神经网络分为特征提取部分与分类部分,前五层为特征提取部分,最后两层为分类部分。
具体的,所述的第一降采样卷积神经网络的结构为:第一层为输入层,将图像数据集中的图像样本降采样后作为网络输入,第二层为50个大小为3×3卷积核计算得到的卷积层,第三层为60个大小为3×3卷积核计算得到的卷积层,并在后面加入一个保留2×2像素范围内最大值的池化层,并对其输出进行随机失活(dropout)处理,第四层为70个大小为2×2卷积核计算得到的卷积层以及池化层,池化方式与第三层相同,并将所有的神经元展开,第五层为全连接层,将所述展开的神经元与一个全连接神经网络相连,并输出100个神经元,第六层为归一化指数函数(softmax)层,将第五层输出的100个神经元与10个神经元相连接,这10个神经元对应10个不同的数字,并将最后的结构通过归一化指数函数输出,第一降采样卷积神经网络的损失函数为交叉熵。按功能划分,第一降采样卷积神经网络分为特征提取部分与分类部分,前四层为特征提取部分,最后两层为分类部分。
与上述结构类似的,所述的第二常规卷积神经网络的结构为:第一层为输入层,将所述的对抗图像样本和图像数据集中的图像样本共同作为网络输入,第二层为40个大小为5×5卷积核计算得到的卷积层,第三层为50个大小为5×5卷积核计算得到的卷积层,并在后面加入一个保留2×2像素范围内最大值的池化层并对其输出进行随机失活(dropout)处理,第四层为70个大小为3×3卷积核计算得到的卷积层和池化层,池化方式与第三层相同,第五层为100个大小为3×3卷积核计算得到的卷积层,并将所有神经元展开。
与第一常规卷积神经网络相比,第二常规卷积神经网络只包含特征提取部分,而没有分类部分。
与上述结构类似的,所述的第二降采样卷积神经网络的结构为:第一层为输入层,将所述的对抗图像样本和图像数据集中的图像样本降采样后共同作为网络输入,第二层为50个大小为3×3卷积核计算得到的卷积层,第三层为60个大小为3×3卷积核计算得到的卷积层,并在后面加入一个保留2×2像素范围内最大值的池化层,并对其输出进行随机失活(dropout)处理,第四层为70个大小为2×2卷积核计算得到的卷积层以及池化层,池化方式与第三层相同,并将所有神经元展开。与第一降采样卷积神经网络相比,第二降采样卷积神经网络只包含特征提取部分,而没有分类部分。
具体的,所述的对抗图像样本和图像数据集中的图像样本同时送入第二常规卷积神经网络和第二降采样卷积神经网络,通过添加正则项的交叉熵的损失函数进行训练后,所述的全连接模型融合器通过全连接方式将第二常规卷积神经网络和第二降采样卷积神经网络各自的神经元展开层并联,得到所述的防御模型。
本发明还提供了一种用于上述系统的人工智能分类的对抗样本防御方法,包括:
A.通过图像数据集中的图像样本训练第一常规卷积神经网络,第一常规卷积神经网络的损失函数为交叉熵,训练完成后保存其特征提取部分的参数;
B.将图像数据集中的图像样本通过第一降采样器进行降采样运算后,训练第一降采样卷积神经网络,第一降采样卷积神经网络的损失函数为交叉熵,训练完成后保存其特征提取部分的参数;
C.在防御模型训练模块中,由对抗图像样本训练集获取模块通过对抗图像样本生成算法,对每个图像数据集中的图像样本生成基于L∞范数(P=∞时的L-P范数,用以度量向量元素的最大值)约束的对抗图像样本,并将对抗图像样本加入图像数据集的图像样本中,得到对抗图像样本数据集;
D.第二常规卷积神经网络接收第一常规卷积神经网络保存的特征提取部分的参数及对抗图像样本数据集、第一降采样卷积神经网络接收第一降采样卷积神经网络保存的特征提取部分的参数及对抗图像样本数据集,一并经全连接模型融合器,采用带有正则项的交叉熵作为损失函数,训练得到具有鲁棒性的防御模型。
本发明通过对常规卷积神经网络与降采样卷积神经网络进行预训练的方式,既保证了这两个网络的结构的可靠性,又使训练所得的参数能够参与防御模型的训练,缩短了防御模型的训练时间,并有效提高了防御模型的稳定性,同时也大幅度提高了对对抗图像样本分类的准确性和鲁棒性。
以下结合实施例的具体实施方式,对本发明的上述内容再作进一步的详细说明。但不应将此理解为本发明上述主题的范围仅限于以下的实例。在不脱离本发明上述技术思想情况下,根据本领域普通技术知识和惯用手段做出的各种替换或变更,均应包括在本发明的范围内。
附图说明
图1为本发明用于人工智能分类的对抗样本防御系统的结构框图。
图2为图1中第一常规卷积神经网络结构示意图。
图3为图1中第一降采样卷积神经网络结构示意图。
图4为图1中第二常规卷积神经网络与第二降采样神经网络通过全连接模型融合器融合的示意图。
具体实施方式
本实施例中是针对手写字符集MNIST数据集进行对抗性训练。
MNIST数据集来自美国国家标准与技术研究所(National Institute ofStandards and Technology(NIST))。
本实施例中的训练集(training set)由250个不同人手写的数字构成,其中50%是高中学生,50%来自人口普查局(the Census Bureau)的工作人员,测试集(test set)也是同样比例的手写数字数据,训练集中的图像样本为42000张,测试集的图像样本为28000张。
原始数据集中的MNIST数据是每张为28×28的黑白点阵图片,将每张图片的每个像素灰度值除以256,压缩到0到1之间。
如图1所示本发明用于人工智能分类的对抗样本防御系统,包括第一常规卷积神经网络、防御模型训练模块,以及相连接的第一降采样器和第一降采样卷积神经网络。
如图2所示,其中,所述的第一常规卷积神经网络中的结构为:第一层为输入层,将接收的图像数据集中的图像样本作为网络输入,第二层为40个大小为5×5卷积核计算得到的卷积层,第三层为50个大小为5×5卷积核计算得到的卷积层,并在后面加入一个保留2×2像素范围内最大值的池化层,并对该池化层的输出进行随机失活(dropout)处理,第四层为70个大小为3×3卷积核计算得到的卷积层和池化层,池化方式与第三层相同,第五层为100个大小为3×3卷积核计算得到的卷积层,并将所有的神经元展开,第六层为全连接层,将所述展开的神经元与一个全连接神经网络相连,最后由第七层的归一化指数函数(softmax)层输出结果,第一常规卷积神经网络的损失函数为交叉熵。按功能划分,第一常规卷积神经网络分为特征提取部分与分类部分,前五层为特征提取部分,最后两层为分类部分。
以图2中的第二层为例,第二层中的24×24×40,其中24×24表示输出卷积层的长×宽,40为输出卷积层的数量。卷积层输出的计算公式为:output=(input+2×padding-kernel)/stride+1,其中,output为输出尺寸,input为输入尺寸,padding为边缘是否补0,补0则为1,不补0则为0,kernel为卷积核尺寸,stride为卷积核滑动的间隔。本实施例中input为28,卷积核尺寸kernel为5,padding为0,stride为1,因此最后output的尺寸为24,由于输出卷积层的长和宽一致,输出卷积层的数量与卷积核相同,最后得到的输出卷积层为24×24×40。
如图3所示,所述的第一降采样卷积神经网络的结构为:第一层为输入层,将图像数据集中的图像样本降采样后作为网络输入,第二层为50个大小为3×3卷积核计算得到的卷积层,第三层为60个大小为3×3卷积核计算得到的卷积层,并在后面加入一个保留2×2像素范围内最大值的池化层,并对其输出进行随机失活(dropout)处理,第四层为70个大小为2×2卷积核计算得到的卷积层以及池化层,池化方式与第三层相同,并将所有的神经元展开,第五层为全连接层,将所述展开的神经元与一个全连接神经网络相连,并输出100个神经元,第六层为归一化指数函数(softmax)层,将第五层输出的100个神经元与10个神经元相连接,这10个神经元对应10个不同的数字,并将最后的结构通过归一化指数函数输出,第一降采样卷积神经网络的损失函数为交叉熵。按功能划分,第一降采样卷积神经网络分为特征提取部分与分类部分,前四层为特征提取部分,最后两层为分类部分。
在所述的防御模型训练模块中还具有用于图像样本输入的图像数据集(即训练集),将图像数据集中的图像样本分别输入到所述第一常规卷积神经网络,以及通过第一降采样器输入到第一降采样卷积神经网络中。
在防御模型训练模块中还具有对抗图像样本训练集获取模块,通过对抗图像样本训练集获取模块生成对抗图像样本后,将对抗图像样本和图像数据集中的图像样本同时送入防御模型训练模块中的第二常规卷积神经网络、以及通过第二降采样器连接的第二降采样卷积神经网络中,然后通过添加正则项的交叉熵的损失函数进行训练后,由全连接模型融合器通过全连接方式将第二常规卷积神经网络和第二降采样卷积神经网络各自的神经元展开层并联,得到防御模型。如图4所示,所述的全连接模型融合器为2层结构,第一层为120个神经元组成,第二层由10个神经元组成分别对应10个不同数字,最后通过归一化指数函数(softmax)将10个神经元中的值转变为概率。
第一常规卷积神经网络输出特征提取部分的参数到第二常规卷积神经网络中;第一降采样卷积神经网络输出特征提取部分的参数到第二降采样卷积神经网络中。
与第一常规卷积神经网络的结构相比,第二常规卷积神经网络只有特征提取部分,而没有第六层和第七层的分类部分。类似的,与第一降采样卷积神经网络的结构相比,第二降采样卷积神经网络同样只有特征提取部分,没有最后两层的分类部分。
本发明采用了降采样的方式减少了不可见扰动,从而降低了不可见扰动对整个样本图像的影响。同时,还通过第二常规卷积神经网络保障了分类的正确率,通过第二降采样卷积神经网络提高了对抗图像样本的鲁棒性。
因此,在上述系统的基础上,本实施例的人工智能分类的对抗样本防御方法包括:
A.通过所述的图像数据集中的图像样本训练所述的第一常规卷积神经网络,第一常规卷积神经网络的损失函数为交叉熵,训练完成后保存其特征提取部分的参数;
B.将图像数据集中的图像样本通过所述第一降采样器进行降采样运算后,训练第一降采样卷积神经网络,第一降采样卷积神经网络的损失函数为交叉熵,训练完成后保存其特征提取部分的参数;
C.在所述的防御模型训练模块中,由对抗图像样本训练集获取模块通过对抗图像样本生成算法,对每个图像数据集中的图像样本生成基于L∞范数(P=∞时的L-P范数,用以度量向量元素的最大值)约束的对抗图像样本,并将对抗图像样本加入图像数据集的图像样本中,得到对抗图像样本数据集,具体为:
采用PGD算法生成对抗图像样本,采取训练集(42000张图像样本)中每个图像样本分别生成其L∞范数约束的对抗图像样本,共生成42000个对抗图像样本,并将对抗图像样本与训练集中的原有图像样本相混合,生成对抗图像样本数据集。在对抗图像样本数据集中,每个对抗图像样本对应一个非对抗图像样本(原数据集中的图像样本)。PGD算法如下所示;
该对抗图像样本的生成方式为迭代生成方式,该方法每次对训练集中增加一个生成的对抗图像样本,其中xt为第t个对抗图像样本,α为修改的步长,表示对x求导数,L(θ,x,y)为当模型参数为θ时,输入训练集中的图像样本x、分类结果为y的损失函数,sgn()为方向函数,即每次输入的图像样本x中每个像素关于y的梯度,其中梯度大于0的,像素值增加α,梯度小于0的,像素值减小α,Πx+S表示将对抗图像样本的范围限制在x+S内,本实例采用L∞范数,即S为一个球体,S通过人为进行设定,本实施例中S设定为0.15。
D.第二常规卷积神经网络接收第一常规卷积神经网络保存的特征提取部分的参数及对抗图像样本数据集、第一降采样卷积神经网络接收第一降采样卷积神经网络保存的特征提取部分的参数及对抗图像样本数据集,一并经所述的全连接模型融合器,采用带有正则项的交叉熵作为损失函数,训练得到具有鲁棒性的防御模型。
将步骤C生成的对抗图像样本数据集输入防御模型中进行训练,训练中使用的损失函数为交叉熵与对抗图像样本和非对抗图像样本距离度量之后的方式,如下所示:
其中,为防御模型的交叉熵,该项用于优化防御模型的分类正确率,为所有对抗图像样本和非对抗图像样本的集合,即对抗图像样本数据集。后面一项中,x(i)为第i个非对抗图像样本,为第i个非对抗图像样本对应的通过PGD算法生成的对抗图像样本,f(x(i);θ)为第i个非对抗图像样本经过该防御模型后的logit层输出的多维向量,为第i个非对抗图像样本通过PGD算法所生的对抗图像样本经过该防御模型后的logit层输出的多维向量,对应在本实施例中的多维向量为一个10维向量,λ为正则项系数,L的度量方式为2范数,n为图像数据集中图像样本的数量。通过该损失函数能够在保证防御模型性能的同时,尽可能让防御模型做出对抗图像样本与非对抗图像样本的输出尽可能相似。
训练完成后,保存防御模型的网络参数。
最后通过测试集中的28000张图像样本对训练后的防御模型进行测试:通过PGD算法对28000个测试样例生成28000个对抗图像样本,然后将其输入训练好的防御模型中,经验证后得知防御模型的对抗图像样本具有良好的鲁棒性。
Claims (7)
1.用于人工智能分类的对抗样本防御系统,其特征为:包括第一常规卷积神经网络、防御模型训练模块,以及相连接的第一降采样器和第一降采样卷积神经网络;
在所述的防御模型训练模块中具有用于图像样本输入的图像数据集,将图像数据集中的图像样本分别输入到所述第一常规卷积神经网络,以及通过第一降采样器输入到第一降采样卷积神经网络中;
在防御模型训练模块中还具有对抗图像样本训练集获取模块,通过对抗图像样本训练集获取模块生成对抗图像样本后,与图像数据集中的图像样本一同输入到防御模型训练模块中的第二常规卷积神经网络和第二降采样器中,第二降采样器通过第二降采样卷积神经网络与第二常规卷积神经网络一同输入到全连接模型融合器,以全连接方式融合后输出防御模型;
第一常规卷积神经网络输出特征提取部分的参数到第二常规卷积神经网络中;第一降采样卷积神经网络输出特征提取部分的参数到第二降采样卷积神经网络中。
2.如权利要求1所述的用于人工智能分类的对抗样本防御系统,其特征为:所述的第一常规卷积神经网络中的结构为:第一层为输入层,将接收的图像数据集中的图像样本作为网络输入,第二层为40个大小为5×5卷积核计算得到的卷积层,第三层为50个大小为5×5卷积核计算得到的卷积层,并在后面加入一个保留2×2像素范围内最大值的池化层,并对该池化层的输出进行随机失活处理,第四层为70个大小为3×3卷积核计算得到的卷积层和池化层,池化方式与第三层相同,第五层为100个大小为3×3卷积核计算得到的卷积层,并将所有的神经元展开,第六层为全连接层,将所述展开的神经元与一个全连接神经网络相连,最后由第七层的归一化指数函数层输出结果。
3.如权利要求1所述的用于人工智能分类的对抗样本防御系统,其特征为:所述的第一降采样卷积神经网络的结构为:第一层为输入层,将图像数据集中的图像样本降采样后作为网络输入,第二层为50个大小为3×3卷积核计算得到的卷积层,第三层为60个大小为3×3卷积核计算得到的卷积层,并在后面加入一个保留2×2像素范围内最大值的池化层,并对其输出进行随机失活处理,第四层为70个大小为2×2卷积核计算得到的卷积层以及池化层,池化方式与第三层相同,并将所有的神经元展开,第五层为全连接层,将所述展开的神经元与一个全连接神经网络相连,并输出100个神经元,第六层为归一化指数函数层,将第五层输出的100个神经元与10个神经元相连接,这10个神经元对应10个不同的数字,并将最后的结构通过归一化指数函数输出。
4.如权利要求1所述的用于人工智能分类的对抗样本防御系统,其特征为:所述的第二常规卷积神经网络的结构为:第一层为输入层,将所述的对抗图像样本和图像数据集中的图像样本共同作为网络输入,第二层为40个大小为5×5卷积核计算得到的卷积层,第三层为50个大小为5×5卷积核计算得到的卷积层,并在后面加入一个保留2×2像素范围内最大值的池化层并对其输出进行随机失活处理,第四层为70个大小为3×3卷积核计算得到的卷积层和池化层,池化方式与第三层相同,第五层为100个大小为3×3卷积核计算得到的卷积层,并将所有神经元展开。
5.如权利要求1所述的用于人工智能分类的对抗样本防御系统,其特征为:所述的第二降采样卷积神经网络的结构为:第一层为输入层,将所述的对抗图像样本和图像数据集中的图像样本降采样后共同作为网络输入,第二层为50个大小为3×3卷积核计算得到的卷积层,第三层为60个大小为3×3卷积核计算得到的卷积层,并在后面加入一个保留2×2像素范围内最大值的池化层,并对其输出进行随机失活处理,第四层为70个大小为2×2卷积核计算得到的卷积层以及池化层,池化方式与第三层相同,并将所有神经元展开。
6.如权利要求1所述的用于人工智能分类的对抗样本防御系统,其特征为:所述的对抗图像样本和图像数据集中的图像样本同时送入第二常规卷积神经网络和第二降采样卷积神经网络,通过添加正则项的交叉熵的损失函数进行训练后,所述的全连接模型融合器通过全连接方式将第二常规卷积神经网络和第二降采样卷积神经网络各自的神经元展开层并联,得到所述的防御模型。
7.用于权利要求1至6之一所述系统的人工智能分类的对抗样本防御方法,其特征包括:
A.通过图像数据集中的图像样本训练第一常规卷积神经网络,第一常规卷积神经网络的损失函数为交叉熵,训练完成后保存其特征提取部分的参数;
B.将图像数据集中的图像样本通过第一降采样器进行降采样运算后,训练第一降采样卷积神经网络,第一降采样卷积神经网络的损失函数为交叉熵,训练完成后保存其特征提取部分的参数;
C.在防御模型训练模块中,由对抗图像样本训练集获取模块通过对抗图像样本生成算法,对每个图像数据集中的图像样本生成基于L∞范数约束的对抗图像样本,并将对抗图像样本加入图像数据集的图像样本中,得到对抗图像样本数据集;
D.第二常规卷积神经网络接收第一常规卷积神经网络保存的特征提取部分的参数及对抗图像样本数据集、第一降采样卷积神经网络接收第一降采样卷积神经网络保存的特征提取部分的参数及对抗图像样本数据集,一并经全连接模型融合器,采用带有正则项的交叉熵作为损失函数,训练得到具有鲁棒性的防御模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910868997.5A CN110569916B (zh) | 2019-09-16 | 2019-09-16 | 用于人工智能分类的对抗样本防御系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910868997.5A CN110569916B (zh) | 2019-09-16 | 2019-09-16 | 用于人工智能分类的对抗样本防御系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110569916A CN110569916A (zh) | 2019-12-13 |
CN110569916B true CN110569916B (zh) | 2022-03-22 |
Family
ID=68780039
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910868997.5A Active CN110569916B (zh) | 2019-09-16 | 2019-09-16 | 用于人工智能分类的对抗样本防御系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110569916B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021146905A1 (zh) * | 2020-01-21 | 2021-07-29 | 深圳元戎启行科技有限公司 | 基于深度学习的场景模拟器构建方法、装置和计算机设备 |
CN111695596A (zh) * | 2020-04-30 | 2020-09-22 | 华为技术有限公司 | 一种用于图像处理的神经网络以及相关设备 |
CN111523651A (zh) * | 2020-07-03 | 2020-08-11 | 支付宝(杭州)信息技术有限公司 | 用于评估神经网络的方法和装置 |
CN111881034A (zh) * | 2020-07-23 | 2020-11-03 | 深圳慕智科技有限公司 | 一种基于距离的对抗样本生成方法 |
CN112784915B (zh) * | 2021-01-29 | 2024-03-22 | 北京工业大学 | 一种优化决策边界增强深度神经网络鲁棒性的图像分类方法 |
CN113255768A (zh) * | 2021-05-26 | 2021-08-13 | 之江实验室 | 一种提升卷积神经网络鲁棒性能的方法 |
CN113780468B (zh) * | 2021-09-28 | 2022-08-09 | 中国人民解放军国防科技大学 | 一种基于少量神经元连接的健壮图像分类模型训练方法 |
CN118095405A (zh) * | 2024-03-12 | 2024-05-28 | 浙江科技大学 | 提高深度神经网络系统鲁棒性的引导对抗训练方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107463951A (zh) * | 2017-07-19 | 2017-12-12 | 清华大学 | 一种提高深度学习模型鲁棒性的方法及装置 |
CN109460814A (zh) * | 2018-09-28 | 2019-03-12 | 浙江工业大学 | 一种具有防御对抗样本攻击功能的深度学习分类方法 |
CN109766991A (zh) * | 2019-01-14 | 2019-05-17 | 电子科技大学 | 一种采用对抗性训练的人工智能优化系统及方法 |
CN109902727A (zh) * | 2019-02-02 | 2019-06-18 | 钟祥博谦信息科技有限公司 | 防御性蒸馏模型的构建方法与装置 |
-
2019
- 2019-09-16 CN CN201910868997.5A patent/CN110569916B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107463951A (zh) * | 2017-07-19 | 2017-12-12 | 清华大学 | 一种提高深度学习模型鲁棒性的方法及装置 |
CN109460814A (zh) * | 2018-09-28 | 2019-03-12 | 浙江工业大学 | 一种具有防御对抗样本攻击功能的深度学习分类方法 |
CN109766991A (zh) * | 2019-01-14 | 2019-05-17 | 电子科技大学 | 一种采用对抗性训练的人工智能优化系统及方法 |
CN109902727A (zh) * | 2019-02-02 | 2019-06-18 | 钟祥博谦信息科技有限公司 | 防御性蒸馏模型的构建方法与装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110569916A (zh) | 2019-12-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110569916B (zh) | 用于人工智能分类的对抗样本防御系统及方法 | |
CN108596039B (zh) | 一种基于3d卷积神经网络的双模态情感识别方法及系统 | |
Liu et al. | Hard negative generation for identity-disentangled facial expression recognition | |
Zhang et al. | Multimodal learning for facial expression recognition | |
Yuan et al. | Deep residual network with adaptive learning framework for fingerprint liveness detection | |
CN113538202B (zh) | 一种基于生成式隐写对抗的图像隐写方法及系统 | |
Wang et al. | Facial expression recognition based on improved LeNet-5 CNN | |
CN109409222A (zh) | 一种基于移动端的多视角人脸表情识别方法 | |
CN110490265B (zh) | 一种基于双路卷积和特征融合的图像隐写分析方法 | |
Rehman et al. | Deep learning for face anti-spoofing: An end-to-end approach | |
CN111915486B (zh) | 基于图像超分辨重建的对抗样本防御方法 | |
Chen et al. | A pornographic images recognition model based on deep one-class classification with visual attention mechanism | |
CN113011253B (zh) | 基于ResNeXt网络的人脸表情识别方法、装置、设备及存储介质 | |
CN114241587B (zh) | 人脸活体检测对抗鲁棒性的评估方法及装置 | |
CN113627543A (zh) | 一种对抗攻击检测方法 | |
Jeny et al. | FoNet-Local food recognition using deep residual neural networks | |
CN114241564A (zh) | 一种基于类间差异强化网络的人脸表情识别方法 | |
He et al. | Finger vein image deblurring using neighbors-based binary-GAN (NB-GAN) | |
Nguyen-Son et al. | Opa2d: One-pixel attack, detection, and defense in deep neural networks | |
CN116385832A (zh) | 双模态生物特征识别网络模型训练方法 | |
CN114049537B (zh) | 一种基于卷积神经网络的对抗样本防御方法 | |
CN117992842A (zh) | 基于超图邻域差分特征增强的社交机器人检测方法及系统 | |
CN113221683A (zh) | 教学场景下基于cnn模型的表情识别方法 | |
Wu et al. | Salient object detection based on global to local visual search guidance | |
Yamsani et al. | Facial Emotional Recognition Using Faster Regional Convolutional Neural Network with VGG16 Feature Extraction Model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |