CN111242166A

CN111242166A - 一种通用对抗扰动生成方法

Info

Publication number: CN111242166A
Application number: CN201911394722.9A
Authority: CN
Inventors: 王炳璇
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2020-06-05

Abstract

本发明公开了一种通用对抗扰动的生成方法，包括以下步骤：(1)获取目标人工神经网络的网络结构和权重矩阵；(2)初始化对抗扰动向量；(3)从训练集中随机采样图片，和当前通用对抗扰动叠加后输入神经网络；(4)分别在当前图片标签和此外预测概率最大的标签反向传播梯度；(5)利用预测向量和两组梯度计算对抗扰动的更新量；(6)重复上述步骤3‑步骤5，直到当前通用对抗扰动能够在测试集上达到预定的错误率。该发明可以基于目标人工神经网络的网络结构和权重矩阵，准确找出目标人工神经网络的决策边界所在位置，在一定程度上反应了分类器在特征提取中的盲点。

Description

一种通用对抗扰动生成方法

技术领域

本发明属于深度学习安全领域中的对抗样本生成算法，特别是一种通用对抗扰动生成方法。

背景技术

深度学习引领着新一轮的人工智能浪潮，在很多领域受到广泛关注。尤其在图形图像领域里，人脸识别和自动驾驶等应用正在逐渐进入我们的生活。同时，深度学习的安全问题也渐渐显现出来，面临来自多个方面的威胁：包括深度学习框架中的软件实现漏洞、对抗攻击、训练数据的污染等。其中对抗攻击指在不改变目标机器学习系统的情况下，通过构造特定输入样本以完成欺骗目标系统的攻击，攻击者为实施对抗攻击而特意构造的样本通常被称为“对抗样本”。这些威胁可能导致人工智能所驱动的识别系统出现混乱，形成漏判或者误判，甚至导致系统崩溃或被劫持。在推进人工智能应用的同时，我们迫切需要关注并解决这些安全问题。因此，如何高效地生成对抗样本，利用生成的大量高强度对抗样本进行对抗训练，从而提高系统的鲁棒性和防御对抗攻击的能力是当前研究的热点之一，这也是目前需要解决的一个难点。

Ian Goodfellow提出了产生对抗攻击的根本原因的猜测——深度神经网络在高维空间中的线性特性，而非之前人们猜测的神经网络的复杂性。同时，在这个假设前提下，他提出了一种更高效制造对抗样本的方法。针对近年来卷积神经网络中存在的对图像的对抗性攻击的问题，学术界和工业界实现了适合于多种场景和特定需求的对抗样本生成方法：包括快速梯度法、迭代攻击、基于像素的攻击、基于迭代计算最小扰动生成对抗样本和反向神经网络等。研究发现，由于对抗样本不是根据语义生成的，因此，对抗样本对图像预处理过程非常敏感，任何区域截图、放大缩小、旋转都很容易让对抗样本失效。同时，目前生成对抗样本的方法不同程度上存在不收敛性问题，生成的对抗样本的泛化能力、多样性和对抗强度还有待提升。

发明内容

本发明旨在解决养猪场场景的目标识别问题，特别创新地提出了一种通用对抗扰动生成方法。

8、为了实现本发明的上述目的，本发明提供一种通用对抗扰动生成方法，其特征在于，包括以下步骤：

步骤1：获取目标人工神经网络的网络结构和权重矩阵；

步骤2：初始化通用对抗扰动；

步骤3：从训练集中随机采样图片，和当前通用对抗扰动叠加后输入神经网络；

步骤4：分别在当前图片标签和此外预测概率最大的标签反向传播梯度；

步骤5：利用预测向量和两组梯度计算对抗扰动的更新量；

步骤6：重复上述步骤3-步骤5，直到当前通用对抗扰动能够在测试集上达到预定的错误率。

进一步地，所述步骤1中，神经网络分类器带有损失函数层，其结构和参数需要预先指定，且不再变化；适用于该分类器的分类任务的数据分布须给定，即：指定包含类别标签的图像数据集，且数据集能被分类器以高精度预测输出。

进一步地，所述步骤2中，通用对抗扰动向量以全零的形式的初始化，以随机数或预训练的方式初始化亦是可以接受的。

进一步地，所述通用对抗扰动向量的长和宽须与输入图片的尺寸一致。

进一步地，所述步骤3中，为了防止陷入局部极小值，图片数据须随机地采样，通用对抗扰动向量以直接和采样得到的图片(224*224*3)矩阵进行叠加，叠加后再进行归一化等图像预处理操作。

进一步地，所述步骤4中，神经网络输出层神经元的个数等于可预测的类别数量。

进一步地，所述步骤5包含以下子步骤：

7.1、初始化对抗扰动pert为零向量；

7.2、随机采样一批图片x₀，由pert叠加后输入分类网络VGG-16后计算各类别输出概率y_i；

7.3、记图片标签为y₀，其他所有非图片标签的预测中，概率最大的为y′₀。在两处反向传播梯度，固定网络权重，分别得到输入数组的梯度Δx₀、Δx′₀；

7.4、根据前向预测和上述后向梯度计算对抗扰动系数

更新加性对抗扰动pert为k(Δx₀-Δx′₀)，为保证原始图片的特征不回被改变，需要将对抗扰动中幅度过大的分量进行抑制；

7.5、重复子步骤5.2到子步骤5.4，直到生成的加性对抗扰动噪声Δx_n能够扰动的图片数在验证集上占到特定的比例。

其中，所述步骤6中，将原始数据集按照8：1随机划分为训练集和测试集，训练过程使用Adam优化器，参数设置为：β₁＝0.9，β₂＝0.999，初始学习率设置为0.001。

本发明由于采取以上技术方案，其具有以下有益效果：

(1)本发明提供一种通用对抗扰动生成装置，给定目标模型和数据集，当应用于任何输入时，都能基于单图来对抗扰动高效生成具有旋转不变性的、泛化能力强、对抗强度大的对抗样本图像，导致很高的错误分类。

(2)本发明提供一种通用对抗扰动生成装置，可以基于目标人工神经网络的网络结构和权重矩阵，准确找出目标人工神经网络的决策边界所在位置。在一定程度上反应了分类器在特征提取中的盲点。从而在原有的训练过程中加入对抗样本图像，可以提高目标人工神经网络对于微小扰动的鲁棒性。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

图1为本发明的通用对抗扰动生成的流程图。

图2为本发明的通用对抗扰动使用方式的流程图。

图3为本发明的通用对抗扰动在各网络上的错误率的数据表。

具体实施方式

现在结合附图对本发明作进一步详细的说明。在此，本发明的示意性实施例及其说明用于解释本发明，但并不作为对本发明的限定。

需要说明的是，一种通用对抗扰动生成方法，其特征在于，包括以下步骤：

步骤1：获取目标人工神经网络的网络结构和权重矩阵；

步骤2：初始化通用对抗扰动；

步骤5：利用预测向量和两组梯度计算对抗扰动的更新量；

其中，所述步骤1中，神经网络分类器带有损失函数层，其结构和参数需要预先指定，且不再变化；适用于该分类器的分类任务的数据分布须给定，即：指定包含类别标签的图像数据集，且数据集能被分类器以高精度预测输出。

其中，所述步骤2中，通用对抗扰动向量以全零的形式的初始化，以随机数或预训练的方式初始化亦是可以接受的。

其中，所述通用对抗扰动向量的长和宽须与输入图片的尺寸一致。

其中，所述步骤3中，为了防止陷入局部极小值，图片数据须随机地采样，通用对抗扰动向量以直接和采样得到的图片(224*224*3)矩阵进行叠加，叠加后再进行归一化等图像预处理操作。

其中，所述步骤4中，神经网络输出层神经元的个数等于可预测的类别数量。

其中，所述步骤5包含以下子步骤：

①初始化对抗扰动pert为零向量；

②随机采样一批图片x₀，由pert叠加后输入分类网络VGG-16后计算各类别输出概率y_i；

③记图片标签为y₀，其他所有非图片标签的预测中，概率最大的为y′₀。在两处反向传播梯度，固定网络权重，分别得到输入数组的梯度Δx₀、Δx′₀；

④根据前向预测和上述后向梯度计算对抗扰动系数

更新加性对抗扰动pert为k(Δx₀-Δx′₀)，，为保证原始图片的特征不会被改变，需要将对抗扰动中幅度过大的分量进行抑制；

⑤重复子步骤②到子步骤④，直到生成的加性对抗扰动噪声Δx_n能够扰动的图片数在验证集上占到特定的比例。

6)需要使用将原始数据集按照8：1随机划分为训练集和测试集，训练过程使用Adam优化器，参数设置为：β₁＝0.9，β₂＝0.999，初始学习率设置为0.001。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

Claims

1.一种通用对抗扰动生成方法，其特征在于，包括以下步骤：

步骤1：获取目标人工神经网络的网络结构和权重矩阵；

步骤2：初始化通用对抗扰动；

步骤5：利用预测向量和两组梯度计算对抗扰动的更新量；

2.根据权利要求1所述的一种通用对抗扰动生成方法，其特征在于：所述步骤1中，神经网络分类器带有损失函数层，其结构和参数需要预先指定，且不再变化；适用于该分类器的分类任务的数据分布须给定，即：指定包含类别标签的图像数据集，且数据集能被分类器以高精度预测输出。

3.根据权利要求1所述的一种通用对抗扰动生成方法，其特征在于：所述步骤2中，通用对抗扰动向量以全零的形式的初始化，以随机数或预训练的方式初始化亦是可以接受的。

4.根据权利要求3所述的一种通用对抗扰动生成方法，其特征在于：所述通用对抗扰动向量的长和宽须与输入图片的尺寸一致。

5.根据权利要求1所述的一种通用对抗扰动生成方法，其特征在于：所述步骤3中，为了防止陷入局部极小值，图片数据须随机地采样，通用对抗扰动向量以直接和采样得到的图片(224*224*3)矩阵进行叠加，叠加后再进行归一化等图像预处理操作。

6.根据权利要求1所述的一种通用对抗扰动生成方法，其特征在于：所述步骤4中，神经网络输出层神经元的个数等于可预测的类别数量。

7.根据权利要求1所述的一种通用对抗扰动生成方法，其特征在于：所述步骤5包含以下子步骤：

7.1、初始化对抗扰动pert为零向量；

7.3、记图片标签为y₀，其他所有非图片标签的预测中，概率最大的为y‘₀。在两处反向传播梯度，固定网络权重，分别得到输入数组的梯度Δx₀、Δx‘₀；

7.4、根据前向预测和上述后向梯度计算对抗扰动系数

更新加性对抗扰动pert为k(Δx₀-Δx‘₀)，为保证原始图片的特征不回被改变，需要将对抗扰动中幅度过大的分量进行抑制；

7.5、重复子步骤4.2到子步骤4.4，直到生成的加性对抗扰动噪声Δx_n能够扰动的图片数在验证集上占到特定的比例。

8.根据权利要求1所述的一种通用对抗扰动生成方法，其特征在于：所述步骤6中，将原始数据集按照8：1随机划分为训练集和测试集，训练过程使用Adam优化器，参数设置为：β₁＝0.9，β₂＝0.999，初始学习率设置为0.001。