CN112381150A - 一种基于样本鲁棒性差异的对抗样本检测方法 - Google Patents
一种基于样本鲁棒性差异的对抗样本检测方法 Download PDFInfo
- Publication number
- CN112381150A CN112381150A CN202011284008.7A CN202011284008A CN112381150A CN 112381150 A CN112381150 A CN 112381150A CN 202011284008 A CN202011284008 A CN 202011284008A CN 112381150 A CN112381150 A CN 112381150A
- Authority
- CN
- China
- Prior art keywords
- sample
- robustness
- normal
- confrontation
- samples
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 15
- 238000000034 method Methods 0.000 claims abstract description 30
- 230000002159 abnormal effect Effects 0.000 claims abstract description 8
- 238000013528 artificial neural network Methods 0.000 claims description 9
- 230000003042 antagnostic effect Effects 0.000 claims description 4
- 238000004422 calculation algorithm Methods 0.000 description 11
- 238000013473 artificial intelligence Methods 0.000 description 8
- 238000012549 training Methods 0.000 description 7
- 230000007123 defense Effects 0.000 description 5
- 241000282414 Homo sapiens Species 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000009545 invasion Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000013450 outlier detection Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于样本鲁棒性差异的对抗样本检测方法。其特征在于,包括以下步骤:利用已有的正常样本和对抗样本数据集,计算出正常样本和对抗样本的鲁棒性指标分布;使用正常样本和对抗样本的鲁棒性指标,有监督的构造分类器;或仅使用正常样本指标,构造异常值检测器;对于新输入的样本,计算出其鲁棒性指标,利用分类器或异常值检测器判断新输入样本是否为正常样本或对抗样本。
Description
技术领域
本发明涉及一种基于样本鲁棒性差异的对抗样本检测方法。
背景技术
目前基于神经网络的人工智能技术被广泛应用在人机交互、医疗诊断、自动驾驶等各个领域,其受攻击的可能性以及是否具备较强的鲁棒性备受业界关注,在安全攸关的场景中使用人工智能,需要确保人工智能系统在面对由环境变化、人为攻击等因素产生的安全挑战时,可以有着稳定的、可靠的输出结果。如果人工智能系统被入侵或者产生了错误的判断,引发的连锁反应会造成严重后果。人工智能面临的安全挑战以及对应的安全性研究是人工智能技术落地的重要一环。
对抗样本(Adversarial examples)作为一种针对人工智能系统设计的特定攻击,近年来得到了飞速的发展。对抗样本是指,通过在正常样本上添加人类难以察觉的扰动,导致图片在可以被人类正确分类的情况下,让神经网络产生误判。对抗样本生成技术中,最简单且常见的方法被称为快速符号梯度攻击(Fast gradient sign method),该方法利用了神经网络训练过程中依赖的关键信息——梯度,通过获得输入样本的梯度信息并沿着梯度方向对输入样本进行扰动,可以获得十分微小且有效的噪声,进而得到让神经网络误判的对抗样本。
为了阻止此类攻击,许多防御方法被提出,其中主要的思想为梯度混淆,这类方法通过对神经网络结构或者预处理方法进行变换,使得攻击者无法直接获得梯度。这种方法在攻击者完全对防御不知情时,有较好的效果,但攻击者一旦知晓了防御手段,很容易绕过防御混淆。因此目前对抗样本的防御依然是一个亟待解决的问题。
发明内容
本发明的目的是:通过利用正常样本和对抗样本之间固有属性的差异引申出相应一系列的检测方法,使得防御者可对输入进行分类,检测出其中的对抗样本。
为了达到上述目的,本发明的技术方案是提供了一种基于样本鲁棒性差异的对抗样本检测方法,其特征在于,利用正常样本和对抗样本的鲁棒性指标差异检测出对抗样本,包括以下步骤:
步骤1:利用已有的正常样本和对抗样本数据集,计算出正常样本和对抗样本的鲁棒性指标分布,其中,正常样本为可以被神经网络正确分类的样本;
步骤2:使用步骤1中获得的正常样本的鲁棒性指标分布和对抗样本的鲁棒性指标分布,有监督的构造分类器;
或者仅使用步骤1中获得的正常样本的鲁棒性指标分布,构造异常值检测器;
步骤3:计算新输入的样本的鲁棒性指标,基于得到的鲁棒性指标利用步骤2获得的分类器或异常值检测器判断新输入的样本是否为正常样本或对抗样本。
优选地,通过提升模型鲁棒性的方式,扩大正常样本和对抗样本的鲁棒性差异,进而提升检测准确率。
优选地,构造分类器时,使用多种鲁棒性指标构造多种分类器或多维分类器,结合多种分类器的所有分类结论或基于多维分类器得出的分类结论对新输入的样本是否为正常样本或对抗样本进行判断。
本发明通过正常样本和对抗样本之间固有属性的差异,提出一种不可导的区分特征。该特征易于计算,通过对该特征的利用,可以引申出相应一系列的检测方法,防御者可使用此方法对输入进行分类,检测出其中的对抗样本。本发明提供的方法具有较好的准确率和检测效率,并具有较强的可解释性和可扩展性。
本发明中使用的鲁棒性指标在对抗样本和正常样本之间有很高的区分度,提出的检测方法在面对JSMA、Deepfool等方法生成的对抗样本时,有着极高的准确率,且难以被基于梯度的攻击手段攻破。
附图说明
图1为本发明的技术方案的具体步骤。
具体实施方式
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
根据本发明的技术方案,实施重点是获取正常样本和对抗样本的鲁棒性指标数据,对鲁棒性指标数据进行学习,并以此作为分类依据。兹以优选实施例,对本发明作进一步的详细说明,具体实施技术方案如图1所示。
步骤1:本地生成样本并计算其鲁棒性指标,包括以下步骤:
步骤1.1:获得神经网络训练时使用的训练样本集,将其中可以被网络正确分类的样本作为正常样本。对神经网络的训练样本集实施常见的对抗样本攻击,包括但不限于快速梯度迭代攻击方法、基础迭代攻击方法、优化攻击方法等,并将这些样本视为对抗样本;
步骤1.2:计算训练集样本的鲁棒性指标,由于正常样本所处的集合在网络训练过程中,会被网络多次学习特征并分类,所以这部分样本往往具有更好的鲁棒性。鲁棒性指标有多种表示形式,以局部鲁棒性为例,局部鲁棒性表示了样本被攻击成功所需要的最小扰动,其主要目的如下式(1)所示:
上式(1)中,x为原样本,f(x)为原样本分类的结果,x′代表生成的对抗样本,f(x′)为对抗样本分类的结果,δ为添加的扰动,min函数用于计算最小值。
局部鲁棒性的计算有多种方式,例如C&W算法、L-BFGS优化方法、线性规划算法、基于约束求解的算法、CLEVER(Cross Lipschitz Extreme Value)算法等。在计算完成后,样本的鲁棒性指标被记为N。对于正常样本,其N值要远高于大多数的对抗样本。这意味着可以使用这一鲁棒性指标对新输入的样本进行分类。以CLEVER算法为例,实验结果显示,在MNIST数据集上,正常样本的N值的平均值约为对抗样本70倍,在CIFAR10数据集上,正常样本的N值的平均值约为对抗样本的5倍,同时,这一数值会受到模型鲁棒性的影响,模型鲁棒性更好时,正常样本和对抗样本的鲁棒性之间会进一步拉大。在下表1中,具体的展示了这一鲁棒性差异,Benign Examples(正常样本)列,代表了正常样本的鲁棒性指标数据,Adversarial Examples(对抗样本)列,代表了对抗样本的鲁棒性指标数据,这里选取了多种不同的对抗样本进行计算比较。分别在两个数据集的四种条件下计算了正常样本和对抗样本的CLEVER指标,展示了不同样本鲁棒性指标数据的均值、90%的置信区间以及正常样本和对抗样本之间的均值大小比率。
表1:正常样本和对抗样本的鲁棒性指标差异展示
步骤2:利用步骤1中获得的鲁棒性指标构造分类器,分为以下两种情况讨论:
第一种情况:
防御者已知正常样本和部分对抗样本的鲁棒性指标数据。此时,该方法将步骤1中获得的鲁棒性指标数据作为新分类器的训练集,并打上标签。假设所有正常样本的鲁棒性指标被分类为第0类,所有对抗样本的鲁棒性指标被分类为第1类。随后,使用获得的鲁棒性指标数据训练分类器。由于鲁棒性指标有着良好的区分度,此处的分类方法在使用K近邻算法、逻辑回归、决策树、随机森林、支持向量机等常见分类器时,都能取得较高的分类成功率。
第二种情况:
防御者仅知晓正常样本的鲁棒性指标结果。此时,可以使用异常检测方法对正常样本和对抗样本进行区分,包括但不限于均方差异常值检测方法、箱形图检测方法、聚类算法、孤立森林算法等。
步骤3:计算新输入对象的鲁棒性指标,并进行分类。分为以下两种情况讨论:
第一种情况:
以K近邻算法为例,计算新输入数据的鲁棒性指标后,判断与其最接近的K个样本中,哪一种类别的样本居多。若K个样本中正常样本占大多数,认为新输入的对象为正常样本,反之亦然。具体而言,假设在步骤1中获得了5个正常样本的N值(1,2,3,4,5)和5个对抗样本的N值(0.1,0.2,0.3,0.4,0.5),在K-近邻算法中,假设K=3,此时输入一个新样本,计算其N值为0.8,则距离其最近的三个邻居为1、2、3,均为正常样本,则输入会被认为是正常样本。
第二种情况:
以均方差异常值检测方法为例,可以使用均值和标准差计算出大多数样本所处的区间,若输入样本的鲁棒性指标不在此区间内,将其认为是异常值,即对抗样本;若输入样本未被检测为异常值,可以将其认为是正常样本。具体而言,假设在步骤1中获得了100个正常样本的N值,其均值为1,标准差为0.1且服从正态分布,根据正态分布的样本分布可知,大约68%的数据值会在均值的一个标准差范围内,大约95%会在两个标准差范围内,大约99.7%会在三个标准差范围内。若想要保证95%的正常样本识别率,则可以将N<0.8的输入认为是异常值,即对抗样本,这里的阈值可以根据实际需求调整。
上述实施例可与优选技术特征结合,在此处兹以说明。
在步骤1中,可以使用对抗训练等方式提升模型鲁棒性,这样有助于增大鲁棒性指标的区分度。模型鲁棒性的提升,可以增大正常样本的鲁棒性指标,此时攻击正常样本需要的最小扰动会增大,这会导致正常样本鲁棒性指标和对抗样本鲁棒性指标的比值进一步提升,有助于提高本方法的检测准确率。
在步骤1、2、3中,可以使用多种分类器相结合的方法提高检测准确率。本发明的关键是使用鲁棒性指标进行对抗样本检测,步骤1中的鲁棒性指标可以从多角度使用多种方法进行计算,获得多种鲁棒性指标的分布N1,N2,…,Nn。步骤2、3中可以使用多个鲁棒性指标构造多种或多维分类器并进行相应分类。
Claims (3)
1.一种基于样本鲁棒性差异的对抗样本检测方法,其特征在于,利用正常样本和对抗样本的鲁棒性指标差异检测出对抗样本,包括以下步骤:
步骤1:利用已有的正常样本和对抗样本数据集,计算出正常样本和对抗样本的鲁棒性指标分布,其中,正常样本为可以被神经网络正确分类的样本;
步骤2:使用步骤1中获得的正常样本的鲁棒性指标分布和对抗样本的鲁棒性指标分布,有监督的构造分类器;
或者仅使用步骤1中获得的正常样本的鲁棒性指标分布,构造异常值检测器;
步骤3:计算新输入的样本的鲁棒性指标,基于得到的鲁棒性指标利用步骤2获得的分类器或异常值检测器判断新输入的样本是否为正常样本或对抗样本。
2.如权利要求1所述的一种基于样本鲁棒性差异的对抗样本检测方法,其特征在于,通过提升模型鲁棒性的方式,扩大正常样本和对抗样本的鲁棒性差异,进而提升检测准确率。
3.如权利要求1所述的一种基于样本鲁棒性差异的对抗样本检测方法,其特征在于,构造分类器时,使用多种鲁棒性指标构造多种分类器或多维分类器,结合多种分类器的所有分类结论或基于多维分类器得出的分类结论对新输入的样本是否为正常样本或对抗样本进行判断。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011284008.7A CN112381150A (zh) | 2020-11-17 | 2020-11-17 | 一种基于样本鲁棒性差异的对抗样本检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011284008.7A CN112381150A (zh) | 2020-11-17 | 2020-11-17 | 一种基于样本鲁棒性差异的对抗样本检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112381150A true CN112381150A (zh) | 2021-02-19 |
Family
ID=74584903
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011284008.7A Pending CN112381150A (zh) | 2020-11-17 | 2020-11-17 | 一种基于样本鲁棒性差异的对抗样本检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112381150A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107273832A (zh) * | 2017-06-06 | 2017-10-20 | 青海省交通科学研究院 | 基于积分通道特征与卷积神经网络的车牌识别方法及系统 |
CN107463951A (zh) * | 2017-07-19 | 2017-12-12 | 清华大学 | 一种提高深度学习模型鲁棒性的方法及装置 |
CN108446700A (zh) * | 2018-03-07 | 2018-08-24 | 浙江工业大学 | 一种基于对抗攻击的车牌攻击生成方法 |
CN108491837A (zh) * | 2018-03-07 | 2018-09-04 | 浙江工业大学 | 一种提高车牌攻击鲁棒性的对抗攻击方法 |
CN109165671A (zh) * | 2018-07-13 | 2019-01-08 | 上海交通大学 | 基于样本到决策边界距离的对抗样本检测方法 |
CN110009929A (zh) * | 2019-03-15 | 2019-07-12 | 北京筑梦园科技有限公司 | 一种车辆泊位管理方法、设备及系统 |
CN110458213A (zh) * | 2019-07-29 | 2019-11-15 | 四川大学 | 一种分类模型鲁棒性能评估方法 |
WO2020168874A1 (zh) * | 2019-02-20 | 2020-08-27 | 深圳大学 | 分类器鲁棒性的测试方法、装置、终端及存储介质 |
-
2020
- 2020-11-17 CN CN202011284008.7A patent/CN112381150A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107273832A (zh) * | 2017-06-06 | 2017-10-20 | 青海省交通科学研究院 | 基于积分通道特征与卷积神经网络的车牌识别方法及系统 |
CN107463951A (zh) * | 2017-07-19 | 2017-12-12 | 清华大学 | 一种提高深度学习模型鲁棒性的方法及装置 |
CN108446700A (zh) * | 2018-03-07 | 2018-08-24 | 浙江工业大学 | 一种基于对抗攻击的车牌攻击生成方法 |
CN108491837A (zh) * | 2018-03-07 | 2018-09-04 | 浙江工业大学 | 一种提高车牌攻击鲁棒性的对抗攻击方法 |
CN109165671A (zh) * | 2018-07-13 | 2019-01-08 | 上海交通大学 | 基于样本到决策边界距离的对抗样本检测方法 |
WO2020168874A1 (zh) * | 2019-02-20 | 2020-08-27 | 深圳大学 | 分类器鲁棒性的测试方法、装置、终端及存储介质 |
CN110009929A (zh) * | 2019-03-15 | 2019-07-12 | 北京筑梦园科技有限公司 | 一种车辆泊位管理方法、设备及系统 |
CN110458213A (zh) * | 2019-07-29 | 2019-11-15 | 四川大学 | 一种分类模型鲁棒性能评估方法 |
Non-Patent Citations (1)
Title |
---|
戚玮玮;栾新;宋大雷;张玲;于方杰;: "一种鲁棒的基于全景视觉的足球机器人目标识别方法", 中国海洋大学学报(自然科学版), no. 06 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bulusu et al. | Anomalous example detection in deep learning: A survey | |
Jeong et al. | Ood-maml: Meta-learning for few-shot out-of-distribution detection and classification | |
Nader et al. | ${l_p} $-norms in one-class classification for intrusion detection in SCADA systems | |
CN110941794A (zh) | 一种基于通用逆扰动防御矩阵的对抗攻击防御方法 | |
Chang et al. | Anomaly detection for industrial control systems using k-means and convolutional autoencoder | |
CN111598179B (zh) | 电力监控系统用户异常行为分析方法、存储介质和设备 | |
CN113283599B (zh) | 基于神经元激活率的对抗攻击防御方法 | |
Kumari et al. | A hybrid intrusion detection system based on decision tree and support vector machine | |
Zhao et al. | Intrusion detection based on clustering genetic algorithm | |
CN107315956A (zh) | 一种用于快速准确检测零日恶意软件的图论方法 | |
CN111783853B (zh) | 一种基于可解释性的检测并恢复神经网络对抗样本方法 | |
Naoum et al. | Learning vector quantization (LVQ) and k-nearest neighbor for intrusion classification | |
Zhang et al. | Detecting adversarial samples for deep learning models: a comparative study | |
Katzir et al. | Gradients cannot be tamed: Behind the impossible paradox of blocking targeted adversarial attacks | |
Farrahi et al. | KCMC: A hybrid learning approach for network intrusion detection using K-means clustering and multiple classifiers | |
CN112381150A (zh) | 一种基于样本鲁棒性差异的对抗样本检测方法 | |
Theagarajan et al. | Privacy preserving defense for black box classifiers against on-line adversarial attacks | |
Naoum et al. | Hybrid system of learning vector quantization and enhanced resilient backpropagation artificial neural network for intrusion classification | |
Lee et al. | SOM-based novelty detection using novel data | |
CN112381152B (zh) | 一种基于攻击成本的对抗样本检测方法 | |
Jang et al. | Teacher–Explorer–Student Learning: A Novel Learning Method for Open Set Recognition | |
Luo et al. | Random directional attack for fooling deep neural networks | |
Soni et al. | EA-NET: A Hybrid and Ensemble Multi-Level Approach For Robust Anomaly Detection | |
Dhamija et al. | Improving Deep Network Robustness to Unknown Inputs with Objectosphere. | |
Bui et al. | A double-shrink autoencoder for network anomaly detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |