CN115048983A

CN115048983A - 数据流形拓扑感知的人工智能系统对抗样本防御方法

Info

Publication number: CN115048983A
Application number: CN202210535745.2A
Authority: CN
Inventors: 罗森林; 郝靖伟; 张钊; 陆永鑫; 潘丽敏
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2022-05-17
Filing date: 2022-05-17
Publication date: 2022-09-13

Abstract

本发明涉及一种数据流形拓扑感知的人工智能系统对抗样本防御方法，属于人工智能安全技术领域。针对现有方法依赖已有少量对抗样本进行对抗训练或对目标分类器进行修改与再训练，缺乏对对抗样本生成机理的分析，存在无法及时应对新型对抗性攻击，泛化能力不足等问题，首先生成真实含噪目标数据集的数据流形，获取其拓扑信息；然后对生成模型进行拓扑感知训练，在定义的密度超水平集中调整隐向量分布使之与目标分布连通分量数保持一致，拟合生成模型与目标数据的分布；最后将错误分类的点投影到最近的流形上，反演受扰动的样本，纠正分类结果，实现强泛化能力和高稳健性的人工智能系统对抗样本防御效果。

Description

数据流形拓扑感知的人工智能系统对抗样本防御方法

技术领域

本发明属于人工智能安全技术领域，具体涉及一种数据流形拓扑感知的人工智能系统对抗样本防御方法。

背景技术

近年来，随着海量数据的积累、计算能力的发展、人工智能系统的持续创新与演进，诸如图像识别、语音识别、自然语言翻译等人工智能技术得到普遍部署和广泛应用。人工智能技术的发展和广泛的商业应用充分预示着一个万物智能的社会正在快速到来。深度学习是人工智能领域极其重要的发展方向之一，其理论和方法已被广泛应用多个领域。虽然目前深度神经网络在图像分类等领域能以较高的准确率分类成功，但实际上，深度学习系统容易受到精心设计的输入样本的影响。这些输入样本就是学术界定义的对抗样本，即Adversarial Examples。它们通常是在正常样本上加入人眼难以察觉的微小扰动，可以很容易地愚弄正常的深度学习模型。Szegedy等人在2013年最早提出了对抗样本的概念。在其之后，学者相继提出了其他产生对抗样本的方法，其中Carlini等人提出的CW攻击可以在扰动很小的条件下达到100％的攻击成功率，并且能成功绕过大部分对抗样本的防御机制。

目前对抗样本的防御方法主要有三类：(1)对抗训练，将生成的对抗样本添加到训练集中进行分类训练；(2)训练分类器检测对抗样本，以达到区分原始样本和对抗样本的目的；(3)防御性蒸馏，通过模糊目标分类器的梯度使其难以被攻击。但是，这些方法都有一定的局限性，前两者都需要对抗样本参与训练，对于第三种，防御性蒸馏并没有显著提高神经网络的鲁棒性，而且这种方法对目标分类器进行了修改与再训练，增加了操作复杂性。以上方法只侧重防御单一攻击，或依赖已有少量对抗样本进行对抗训练，缺乏对对抗样本生成机理的分析与数学模型的构建，存在泛化能力不足，无法及时应对新型对抗性攻击等问题。

基于深度神经网络(DNN)的分类器已被证明易受对抗攻击。一些假设试图解释这种脆弱性，最被接受的是流形学说。它假设大多数真实世界的数据集位于比原始空间低得多的维数的流形附近。DNN只在训练过程中学习流形上样本的特征，从数据流形到隐空间的映射被称为是编码映射，而从隐空间映回到数据流形上的映射被称为是解码映射。这个流形结构表达了数据的内禀属性，因此DNN模型的根本目的是学习流形上的概率分布，而无法准确地对流形外样本进行分类，这表明对抗样本远离正常数据所在的流形，因此将正常样本映射到低维流形中的近邻能有效抵抗对抗样本。

作为一种对高维数据进行采样的方法，生成模型在应用数学和工程的各个领域都有应用，例如图像处理、强化学习等。使用神经网络学习数据生成分布的方法包括众所周知的变分自动编码器(VAEs)和生成对抗网络(GANs)等，这些生成模型学习如何将隐变量映射到生成的样本中。除了生成近似分布的样本之外，一些生成模型在隐向量和生成样本之间构建双射关系，从而可以估计生成样本的概率密度。由于它们的双射性质，这种生成模型被称为可逆生成模型。

综上所述，本方法分析对抗样本与数据流形高维几何结构的关系，通过搜索隐向量空间来学习数据流形，拟合生成模型与目标数据的分布，提出一种数据流形拓扑感知的人工智能系统对抗样本防御方法。

发明内容

本发明针对现有方法依赖已有少量对抗样本进行对抗训练或对目标分类器进行修改与再训练，缺乏对对抗样本生成机理的分析，存在无法及时应对新型对抗性攻击，泛化能力不足等问题，利用深度神经网络生成模型对隐向量分布和目标分布之间的拓扑失配敏感的特性，通过生成模型学习底层数据流形的拓扑结构，构建更鲁棒的对抗样本防御模型，提出一种数据流形拓扑感知的人工智能系统对抗样本防御方法。

本发明的设计原理为：首先生成真实含噪目标数据集的数据流形，获取拓扑信息。然后对生成模型进行拓扑感知训练，在定义的密度超水平集中调整隐向量分布使之与目标分布连通分量保持一致，拟合生成模型与目标数据的分布。最后将错误分类的点投影到最近的流形上，反演受扰动的样本，纠正分类结果，实现强泛化能力和高稳健性的人工智能系统对抗样本防御效果。

本发明的技术方案是通过如下步骤实现的：

步骤1，生成目标数据集的数据流形，并获取其拓扑信息。

步骤1.1，在数据生成模型中，令M表示数据流形，在l个分类标签的情况下，对应于每个类i∈{1，...，l}，流形

即对于任何i≠j,有

由黎曼度量诱导的体积测度为dM，通过∫_x∈Mp_M(x)dM(x)计算M上的概率p_M，并扩展为整个

上的密度p。

步骤1.2，从M上采样一个点x_o，然后添加一个噪声向量n，以获得一个观察点

其中，噪声n是一个以x_o为中心，服从高斯分布的随机向量，其噪声密度函数为

满足

加入随机噪声后的密度为：

用

表示目标分布，用

表示隐空间分布，其中

映射到样本有x＝G(z)，用

表示生成模型G(z)的分布。对于给定的x，密度计算方式如下：

步骤2，对生成模型进行拓扑感知训练，在密度超水平集中调整隐向量分布与目标分布连通分量数保持一致，实现生成模型与目标数据分布的无限接近。

步骤2.1，通过在生成模型G的隐向量上的搜索代替流形M上的搜索。

步骤2.2，构建反映数据生成流形拓扑的密度超水平集L_p,λ，捕捉密度函数的几何特征。对于一个密度函数p和一个阈值λ>0，L_p,λ是p^-1[λ,∞]，由连通分量组成，每个连通分量至多包含一个流形M_i。

步骤2.3，用B_δ(x)来表示以x为中心的半径为δ的欧几里得球，当：

λ足够小-对所有x∈M都是非空的；

λ-边界半径

包含

当max_x∈Mδ_x,λ，λ的最小半径对于某个λ存在，把最大值记为δ_λ；

λ-防御半径

是λ包含

的最大半径。当min_x∈M∈_x,λ对于某个λ存在时,它表示最小防御半径∈_x,λ。

步骤2.4，对于半径∈>0，将ω_∈定义为在一个∈-ball B_∈(x)中采样x′∈M的最小(超过x∈M)概率。

设(X,d)是度量空间，

是X中的数据生成流形。M的类间距离d_cw定义为：

步骤2.5，选择任何足够小的阈值λ，固定一个值λ^*≤ω_∈λ，设

为λ^*边界半径。如果M的d_cw大于2δ^*，那么超水平集

包含数据生成流形M,每个连通分支至多包含一个i类流形M_i。

步骤3，将导致错误分类的点投影到最近的流形上，以反演受扰动的样本，纠正分类结果。

步骤3.1，

和

表示目标分布、隐空间分布、G(z)分布相应的密度超水平集。

是n_Z个多元高斯分布的混合，

的数据生成流形包含n_X个分量。令λ^*为步骤2.3的阈值，如果n_Z<n_X,那么

和

在连通分量的数量上不一致，说明数据集中有对抗样本。

步骤3.2，满足步骤3.1则存在一个点

使得

但

所以在密度至少为λ*的情况下，G会生成一个点

这个点即为对抗样本。

步骤3.3，将错误分类的点

投影到最近的流形，使分类结果得到纠正。

有益效果

相比于对抗训练方法，本发明不依赖数据集中已有的少量对抗样本，可以防御本地生成替代模型产生的对抗样本黑盒攻击，具有更强的泛化能力。

相比于训练分类器检测对抗样本的方法，本发明不改变受保护的分类器，无需了解构造对抗样本过程的相关知识，从对抗样本生成机理和数学模型角度出发，具有更强的泛化能力。

相比于防御蒸馏方法，本发明不需要对目标分类器进行修改与再训练，操作复杂性低，将流形学说应用于对抗样本防御领域，有效提高了防御模型的稳健性，具有较强的抵御黑盒攻击的能力。

附图说明

图1为数据流形拓扑感知的人工智能系统对抗样本防御方法原理图。

图2为密度超水平集示例图

图3为实验相应的数据流形图

具体实施方式

为了更好的说明本发明的目的和优点，下面结合实例对本发明方法的实施方式做进一步详细说明。

实验使用了

的三个小型数据集，其拓扑分布分别为双月、螺旋和圆圈。为了构建训练集，首先从每个流形M_i均匀地采样1000个点，然后每个点被高斯噪声

扰动，其中σ＝0.05。在训练之前，通过Scikit-learn包的预处理来标准化每个训练集。

训练生成模型时，使用Tensorflow的Probability库，该库属于实现生成模型的关键基础模块。设置每个模型使用八个耦合层，每个耦合层具有两个128个单元的隐藏层。

具体流程为：

步骤1，生成目标数据集的数据流形，并获取其拓扑信息。

即对于任何i≠j,有

上的密度p。

满足

加入随机噪声后的密度为：

用

表示目标分布，用

表示隐空间分布，其中

映射到样本有x＝G(z)，用

λ足够小-对所有x∈M都是非空的；

λ-边界半径

包含

λ-防御半径

是λ包含

步骤2.4，对于半径∈>0，将ω_∈定义为在一个∈-ballB_∈(x)中采样x′∈M的最小(超过x∈M)概率。

设(X,d)是度量空间，

是X中的数据生成流形。M的类间距离d_cw定义为：

为λ^*边界半径。如果M的d_cw大于2δ^*，那么超水平集

包含数据生成流形M,每个连通分支至多包含一个i类流形M_i。

步骤3.1，

和

表示目标分布、隐空间分布、G(z)分布相应的密度超水平集。

是n_Z个多元高斯分布的混合，

和

在连通分量的数量上不一致，说明数据集中有对抗样本。

步骤3.2，满足步骤3.1则存在一个点

使得

但

所以在密度至少为λ*的情况下，G会生成一个点

这个点即为对抗样本。

步骤3.3，将错误分类的点

投影到最近的流形，使分类结果得到纠正。

其中，训练损失函数来训练生成模型，其中m_i是训练样本的数量i。

每个模型被迭代了30，000次。对于每次迭代，从双月和圆数据集中选择200个随机样本，从螺旋数据集中选择300个随机样本。

为了测量反演分类的性能，从每个流形M_i中均匀选择100个点。然后，每个点x被垂直于x处流形的n_x扰动，产生200个对抗点

对于所有数据集，r＝0.2是扰动大小。反演分类将

映射回x，并收集所有

上的投影误差统计数据。有无拓扑感知反演分类的投影误差统计数据见表1：

表1有无拓扑感知反演分类的投影误差统计

可以看出，对于三种数据集，本方法降低了30％的投影误差，从而实现了更高效的分类结果纠正。

以上所述的具体描述，对发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.数据流形拓扑感知的人工智能系统对抗样本防御方法，其特征在于所述方法包括如下步骤：

步骤1，生成目标数据集的数据流形，并获取其拓扑信息，首先，定义数据生成流形M，然后，通过∫_x∈Mp_M(x)dM(x)计算M上的概率p_M并扩展为整个

上的密度p，从M上采样一个点x_o，然后添加一个噪声向量n，以获得一个观察点

其中，噪声n是以x_o为中心，服从高斯分布的随机向量，其噪声密度函数为

满足

对M积分，得到加入随机噪声后的密度

最后，用

表示目标分布，用

表示隐空间分布，其中

映射到样本有x＝G(z)，用

表示生成模型G(z)的分布；

步骤2，对生成模型进行拓扑感知训练，在密度超水平集中调整隐向量分布与目标分布连通分量数保持一致，实现生成模型与目标数据分布的无限接近，首先，通过在生成模型G的隐向量上的搜索代替流形M上的搜索，然后，构建反映数据生成流形拓扑的密度超水平集L_p,λ，捕捉密度函数的几何特征，选择任何足够小的阈值λ，使超水平集