CN111242166A - 一种通用对抗扰动生成方法 - Google Patents

一种通用对抗扰动生成方法 Download PDF

Info

Publication number
CN111242166A
CN111242166A CN201911394722.9A CN201911394722A CN111242166A CN 111242166 A CN111242166 A CN 111242166A CN 201911394722 A CN201911394722 A CN 201911394722A CN 111242166 A CN111242166 A CN 111242166A
Authority
CN
China
Prior art keywords
disturbance
neural network
countermeasure
countermeasure disturbance
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911394722.9A
Other languages
English (en)
Inventor
王炳璇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN201911394722.9A priority Critical patent/CN111242166A/zh
Publication of CN111242166A publication Critical patent/CN111242166A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种通用对抗扰动的生成方法,包括以下步骤:(1)获取目标人工神经网络的网络结构和权重矩阵;(2)初始化对抗扰动向量;(3)从训练集中随机采样图片,和当前通用对抗扰动叠加后输入神经网络;(4)分别在当前图片标签和此外预测概率最大的标签反向传播梯度;(5)利用预测向量和两组梯度计算对抗扰动的更新量;(6)重复上述步骤3‑步骤5,直到当前通用对抗扰动能够在测试集上达到预定的错误率。该发明可以基于目标人工神经网络的网络结构和权重矩阵,准确找出目标人工神经网络的决策边界所在位置,在一定程度上反应了分类器在特征提取中的盲点。

Description

一种通用对抗扰动生成方法
技术领域
本发明属于深度学习安全领域中的对抗样本生成算法,特别是一种通用对抗扰动生成方法。
背景技术
深度学习引领着新一轮的人工智能浪潮,在很多领域受到广泛关注。尤其在图形图像领域里,人脸识别和自动驾驶等应用正在逐渐进入我们的生活。同时,深度学习的安全问题也渐渐显现出来,面临来自多个方面的威胁:包括深度学习框架中的软件实现漏洞、对抗攻击、训练数据的污染等。其中对抗攻击指在不改变目标机器学习系统的情况下,通过构造特定输入样本以完成欺骗目标系统的攻击,攻击者为实施对抗攻击而特意构造的样本通常被称为“对抗样本”。这些威胁可能导致人工智能所驱动的识别系统出现混乱,形成漏判或者误判,甚至导致系统崩溃或被劫持。在推进人工智能应用的同时,我们迫切需要关注并解决这些安全问题。因此,如何高效地生成对抗样本,利用生成的大量高强度对抗样本进行对抗训练,从而提高系统的鲁棒性和防御对抗攻击的能力是当前研究的热点之一,这也是目前需要解决的一个难点。
Ian Goodfellow提出了产生对抗攻击的根本原因的猜测——深度神经网络在高维空间中的线性特性,而非之前人们猜测的神经网络的复杂性。同时,在这个假设前提下,他提出了一种更高效制造对抗样本的方法。针对近年来卷积神经网络中存在的对图像的对抗性攻击的问题,学术界和工业界实现了适合于多种场景和特定需求的对抗样本生成方法:包括快速梯度法、迭代攻击、基于像素的攻击、基于迭代计算最小扰动生成对抗样本和反向神经网络等。研究发现,由于对抗样本不是根据语义生成的,因此,对抗样本对图像预处理过程非常敏感,任何区域截图、放大缩小、旋转都很容易让对抗样本失效。同时,目前生成对抗样本的方法不同程度上存在不收敛性问题,生成的对抗样本的泛化能力、多样性和对抗强度还有待提升。
发明内容
本发明旨在解决养猪场场景的目标识别问题,特别创新地提出了一种通用对抗扰动生成方法。
8、为了实现本发明的上述目的,本发明提供一种通用对抗扰动生成方法,其特征在于,包括以下步骤:
步骤1:获取目标人工神经网络的网络结构和权重矩阵;
步骤2:初始化通用对抗扰动;
步骤3:从训练集中随机采样图片,和当前通用对抗扰动叠加后输入神经网络;
步骤4:分别在当前图片标签和此外预测概率最大的标签反向传播梯度;
步骤5:利用预测向量和两组梯度计算对抗扰动的更新量;
步骤6:重复上述步骤3-步骤5,直到当前通用对抗扰动能够在测试集上达到预定的错误率。
进一步地,所述步骤1中,神经网络分类器带有损失函数层,其结构和参数需要预先指定,且不再变化;适用于该分类器的分类任务的数据分布须给定,即:指定包含类别标签的图像数据集,且数据集能被分类器以高精度预测输出。
进一步地,所述步骤2中,通用对抗扰动向量以全零的形式的初始化,以随机数或预训练的方式初始化亦是可以接受的。
进一步地,所述通用对抗扰动向量的长和宽须与输入图片的尺寸一致。
进一步地,所述步骤3中,为了防止陷入局部极小值,图片数据须随机地采样,通用对抗扰动向量以直接和采样得到的图片(224*224*3)矩阵进行叠加,叠加后再进行归一化等图像预处理操作。
进一步地,所述步骤4中,神经网络输出层神经元的个数等于可预测的类别数量。
进一步地,所述步骤5包含以下子步骤:
7.1、初始化对抗扰动pert为零向量;
7.2、随机采样一批图片x0,由pert叠加后输入分类网络VGG-16后计算各类别输出概率yi
7.3、记图片标签为y0,其他所有非图片标签的预测中,概率最大的为y′0。在两处反向传播梯度,固定网络权重,分别得到输入数组的梯度Δx0、Δx′0
7.4、根据前向预测和上述后向梯度计算对抗扰动系数
Figure BDA0002345978260000021
更新加性对抗扰动pert为k(Δx0-Δx′0),为保证原始图片的特征不回被改变,需要将对抗扰动中幅度过大的分量进行抑制;
7.5、重复子步骤5.2到子步骤5.4,直到生成的加性对抗扰动噪声Δxn能够扰动的图片数在验证集上占到特定的比例。
其中,所述步骤6中,将原始数据集按照8:1随机划分为训练集和测试集,训练过程使用Adam优化器,参数设置为:β1=0.9,β2=0.999,初始学习率设置为0.001。
本发明由于采取以上技术方案,其具有以下有益效果:
(1)本发明提供一种通用对抗扰动生成装置,给定目标模型和数据集,当应用于任何输入时,都能基于单图来对抗扰动高效生成具有旋转不变性的、泛化能力强、对抗强度大的对抗样本图像,导致很高的错误分类。
(2)本发明提供一种通用对抗扰动生成装置,可以基于目标人工神经网络的网络结构和权重矩阵,准确找出目标人工神经网络的决策边界所在位置。在一定程度上反应了分类器在特征提取中的盲点。从而在原有的训练过程中加入对抗样本图像,可以提高目标人工神经网络对于微小扰动的鲁棒性。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
图1为本发明的通用对抗扰动生成的流程图。
图2为本发明的通用对抗扰动使用方式的流程图。
图3为本发明的通用对抗扰动在各网络上的错误率的数据表。
具体实施方式
现在结合附图对本发明作进一步详细的说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
需要说明的是,一种通用对抗扰动生成方法,其特征在于,包括以下步骤:
步骤1:获取目标人工神经网络的网络结构和权重矩阵;
步骤2:初始化通用对抗扰动;
步骤3:从训练集中随机采样图片,和当前通用对抗扰动叠加后输入神经网络;
步骤4:分别在当前图片标签和此外预测概率最大的标签反向传播梯度;
步骤5:利用预测向量和两组梯度计算对抗扰动的更新量;
步骤6:重复上述步骤3-步骤5,直到当前通用对抗扰动能够在测试集上达到预定的错误率。
其中,所述步骤1中,神经网络分类器带有损失函数层,其结构和参数需要预先指定,且不再变化;适用于该分类器的分类任务的数据分布须给定,即:指定包含类别标签的图像数据集,且数据集能被分类器以高精度预测输出。
其中,所述步骤2中,通用对抗扰动向量以全零的形式的初始化,以随机数或预训练的方式初始化亦是可以接受的。
其中,所述通用对抗扰动向量的长和宽须与输入图片的尺寸一致。
其中,所述步骤3中,为了防止陷入局部极小值,图片数据须随机地采样,通用对抗扰动向量以直接和采样得到的图片(224*224*3)矩阵进行叠加,叠加后再进行归一化等图像预处理操作。
其中,所述步骤4中,神经网络输出层神经元的个数等于可预测的类别数量。
其中,所述步骤5包含以下子步骤:
①初始化对抗扰动pert为零向量;
②随机采样一批图片x0,由pert叠加后输入分类网络VGG-16后计算各类别输出概率yi
③记图片标签为y0,其他所有非图片标签的预测中,概率最大的为y′0。在两处反向传播梯度,固定网络权重,分别得到输入数组的梯度Δx0、Δx′0
④根据前向预测和上述后向梯度计算对抗扰动系数
Figure BDA0002345978260000041
更新加性对抗扰动pert为k(Δx0-Δx′0),,为保证原始图片的特征不会被改变,需要将对抗扰动中幅度过大的分量进行抑制;
⑤重复子步骤②到子步骤④,直到生成的加性对抗扰动噪声Δxn能够扰动的图片数在验证集上占到特定的比例。
6)需要使用将原始数据集按照8:1随机划分为训练集和测试集,训练过程使用Adam优化器,参数设置为:β1=0.9,β2=0.999,初始学习率设置为0.001。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。

Claims (8)

1.一种通用对抗扰动生成方法,其特征在于,包括以下步骤:
步骤1:获取目标人工神经网络的网络结构和权重矩阵;
步骤2:初始化通用对抗扰动;
步骤3:从训练集中随机采样图片,和当前通用对抗扰动叠加后输入神经网络;
步骤4:分别在当前图片标签和此外预测概率最大的标签反向传播梯度;
步骤5:利用预测向量和两组梯度计算对抗扰动的更新量;
步骤6:重复上述步骤3-步骤5,直到当前通用对抗扰动能够在测试集上达到预定的错误率。
2.根据权利要求1所述的一种通用对抗扰动生成方法,其特征在于:所述步骤1中,神经网络分类器带有损失函数层,其结构和参数需要预先指定,且不再变化;适用于该分类器的分类任务的数据分布须给定,即:指定包含类别标签的图像数据集,且数据集能被分类器以高精度预测输出。
3.根据权利要求1所述的一种通用对抗扰动生成方法,其特征在于:所述步骤2中,通用对抗扰动向量以全零的形式的初始化,以随机数或预训练的方式初始化亦是可以接受的。
4.根据权利要求3所述的一种通用对抗扰动生成方法,其特征在于:所述通用对抗扰动向量的长和宽须与输入图片的尺寸一致。
5.根据权利要求1所述的一种通用对抗扰动生成方法,其特征在于:所述步骤3中,为了防止陷入局部极小值,图片数据须随机地采样,通用对抗扰动向量以直接和采样得到的图片(224*224*3)矩阵进行叠加,叠加后再进行归一化等图像预处理操作。
6.根据权利要求1所述的一种通用对抗扰动生成方法,其特征在于:所述步骤4中,神经网络输出层神经元的个数等于可预测的类别数量。
7.根据权利要求1所述的一种通用对抗扰动生成方法,其特征在于:所述步骤5包含以下子步骤:
7.1、初始化对抗扰动pert为零向量;
7.2、随机采样一批图片x0,由pert叠加后输入分类网络VGG-16后计算各类别输出概率yi
7.3、记图片标签为y0,其他所有非图片标签的预测中,概率最大的为y‘0。在两处反向传播梯度,固定网络权重,分别得到输入数组的梯度Δx0、Δx‘0
7.4、根据前向预测和上述后向梯度计算对抗扰动系数
Figure FDA0002345978250000021
更新加性对抗扰动pert为k(Δx0-Δx‘0),为保证原始图片的特征不回被改变,需要将对抗扰动中幅度过大的分量进行抑制;
7.5、重复子步骤4.2到子步骤4.4,直到生成的加性对抗扰动噪声Δxn能够扰动的图片数在验证集上占到特定的比例。
8.根据权利要求1所述的一种通用对抗扰动生成方法,其特征在于:所述步骤6中,将原始数据集按照8:1随机划分为训练集和测试集,训练过程使用Adam优化器,参数设置为:β1=0.9,β2=0.999,初始学习率设置为0.001。
CN201911394722.9A 2019-12-30 2019-12-30 一种通用对抗扰动生成方法 Pending CN111242166A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911394722.9A CN111242166A (zh) 2019-12-30 2019-12-30 一种通用对抗扰动生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911394722.9A CN111242166A (zh) 2019-12-30 2019-12-30 一种通用对抗扰动生成方法

Publications (1)

Publication Number Publication Date
CN111242166A true CN111242166A (zh) 2020-06-05

Family

ID=70875782

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911394722.9A Pending CN111242166A (zh) 2019-12-30 2019-12-30 一种通用对抗扰动生成方法

Country Status (1)

Country Link
CN (1) CN111242166A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111783853A (zh) * 2020-06-17 2020-10-16 北京航空航天大学 一种基于可解释性的检测并恢复神经网络对抗样本方法
CN111881935A (zh) * 2020-06-19 2020-11-03 北京邮电大学 一种基于内容感知gan的对抗样本生成方法
CN112035834A (zh) * 2020-08-28 2020-12-04 北京推想科技有限公司 对抗训练方法及装置、神经网络模型的应用方法及装置
CN112200243A (zh) * 2020-10-09 2021-01-08 电子科技大学 一种基于低问询图像数据的黑盒对抗样本生成方法
CN113627597A (zh) * 2021-08-12 2021-11-09 上海大学 一种基于通用扰动的对抗样本生成方法及系统
CN113822317A (zh) * 2020-06-19 2021-12-21 西门子股份公司 对分类器的输出数据进行后处理
CN114444579A (zh) * 2021-12-31 2022-05-06 北京瑞莱智慧科技有限公司 通用扰动获取方法、装置、存储介质及计算机设备
CN114998707A (zh) * 2022-08-05 2022-09-02 深圳中集智能科技有限公司 评估目标检测模型鲁棒性的攻击方法和装置

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111783853A (zh) * 2020-06-17 2020-10-16 北京航空航天大学 一种基于可解释性的检测并恢复神经网络对抗样本方法
CN111783853B (zh) * 2020-06-17 2022-05-03 北京航空航天大学 一种基于可解释性的检测并恢复神经网络对抗样本方法
CN111881935A (zh) * 2020-06-19 2020-11-03 北京邮电大学 一种基于内容感知gan的对抗样本生成方法
CN113822317A (zh) * 2020-06-19 2021-12-21 西门子股份公司 对分类器的输出数据进行后处理
CN112035834A (zh) * 2020-08-28 2020-12-04 北京推想科技有限公司 对抗训练方法及装置、神经网络模型的应用方法及装置
CN112200243A (zh) * 2020-10-09 2021-01-08 电子科技大学 一种基于低问询图像数据的黑盒对抗样本生成方法
CN112200243B (zh) * 2020-10-09 2022-04-26 电子科技大学 一种基于低问询图像数据的黑盒对抗样本生成方法
CN113627597A (zh) * 2021-08-12 2021-11-09 上海大学 一种基于通用扰动的对抗样本生成方法及系统
CN113627597B (zh) * 2021-08-12 2023-10-13 上海大学 一种基于通用扰动的对抗样本生成方法及系统
CN114444579A (zh) * 2021-12-31 2022-05-06 北京瑞莱智慧科技有限公司 通用扰动获取方法、装置、存储介质及计算机设备
CN114998707A (zh) * 2022-08-05 2022-09-02 深圳中集智能科技有限公司 评估目标检测模型鲁棒性的攻击方法和装置

Similar Documents

Publication Publication Date Title
CN111242166A (zh) 一种通用对抗扰动生成方法
Chakraborty et al. A survey on adversarial attacks and defences
Silva et al. Opportunities and challenges in deep learning adversarial robustness: A survey
Dai et al. A backdoor attack against lstm-based text classification systems
Guo et al. Spark: Spatial-aware online incremental attack against visual tracking
Liu et al. Very deep convolutional neural network based image classification using small training sample size
CN110222831A (zh) 深度学习模型的鲁棒性评估方法、装置及存储介质
CN110334742B (zh) 一种用于文档分类的基于强化学习的通过添加虚假节点的图对抗样本生成方法
Xie et al. Advanced dropout: A model-free methodology for bayesian dropout optimization
CN110619292B (zh) 基于二进制粒子群通道优化的对抗防御方法
CN113841157B (zh) 通过使用局部线性度正则化训练更安全的神经网络
CN110322003B (zh) 一种用于文档分类的基于梯度的通过添加虚假节点的图对抗样本生成方法
Liu et al. Adversaries or allies? Privacy and deep learning in big data era
CN111047054A (zh) 一种基于两阶段对抗知识迁移的对抗样例防御方法
CN110826056A (zh) 一种基于注意力卷积自编码器的推荐系统攻击检测方法
CN111241933A (zh) 一种基于通用对抗扰动的养猪场目标识别方法
Lv et al. Chinese character CAPTCHA recognition based on convolution neural network
CN115146055B (zh) 一种基于对抗训练的文本通用对抗防御方法及系统
CN113822443A (zh) 一种对抗攻击和生成对抗样本的方法
Lang et al. Attention‐Guided Digital Adversarial Patches on Visual Detection
CN111368908B (zh) 一种基于深度学习的hrrp无目标对抗样本生成方法
CN113254958A (zh) 一种基于对抗样本的图像局部信息隐藏方法
Fu et al. Boosting black-box adversarial attacks with meta learning
CN114638356A (zh) 一种静态权重引导的深度神经网络后门检测方法及系统
CN114021136A (zh) 针对人工智能模型的后门攻击防御系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200605