CN112749759A

CN112749759A - 一种深度神经网络图对抗样本的预处理方法、系统及应用

Info

Publication number: CN112749759A
Application number: CN202110083323.1A
Authority: CN
Inventors: 肖阳; 李婕; 裴庆祺
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2021-01-21
Filing date: 2021-01-21
Publication date: 2021-05-04

Abstract

本发明属于深度学习应用中的网络分析技术领域，公开了一种深度神经网络图对抗样本的预处理方法、系统及应用，所述深度神经网络图对抗样本的预处理方法包括：计算图数据每条边连接的两个节点的共同邻居数；将图数据输入目标节点分类模型进行一次前向传播和梯度后向传播，获得图数据每条边连接的节点对的梯度；根据图数据的每条边连接的节点对的共同邻居数和梯度，获得可疑边集合；对可疑边集合中的边连接的节点对计算杰卡德系数；依次在图数据中删除可疑边集合中杰卡德系数较低的边，得到预处理完成的图数据。本发明能够轻易的部署到已有的模型中对输入的图数据进行预处理，预处理后的对抗样本接近原始样本，复杂度低，能够提高目标模型的精确度。

Description

一种深度神经网络图对抗样本的预处理方法、系统及应用

技术领域

本发明属于深度学习应用中的网络分析技术领域，尤其涉及一种深度神经网络图对抗样本的预处理方法、系统及应用。

背景技术

目前，图是一种数据结构，常见的图结构包含节点和边，其中，节点包含了实体信息，边包含实体间的关系信息。图在许多邻域都很常见，比如化学分子结构图、交易图、社交网络图等。因此，现在许多的学习任务都需要处理图结构的数据。图神经网络是深度学习在图结构上的一个分支，它将现存的神经网络扩展到处理图领域的数据，从而学习有效的图结构数据的向量表示，然后将其应用于各种下游任务，包括节点分类，链接预测和推荐系统等。深度图神经网络在节点分类任务上的应用取得了显著的成效，与此同时，深度图神经网络自身的安全性也吸引了越来越多的关注。

近年来，攻击者通过在原始图数据中添加微小的扰动，比如添加边、修改节点特征等，构造出相应的对抗样本。对抗样本可以造成深度图神经网络在节点分类任务上出现严重的错误分类现象。因此，对抗样本的存在是深度图神经网络在安全关键场景下使用的主要障碍。举例而言，某社交平台将深度图神经网络系统应用于异常用户检测，其中节点是社交网络中的用户。恶意用户有可能会操纵他的个人资料或有意连接到目标用户，以误导检测系统。再比如，在信用卡欺诈检测中，欺诈者可以与少数高信用用户创建几个交易来伪装自己，从而逃避检测。因此，开发对抗攻击的防御方案能推进深度图神经网络在安全场景下的应用。

现有技术中主要通过增强模型的鲁棒性来抵御对抗样本的攻击。其中比较常见的抵御对抗样本的方法有对抗训练方法(adversarial training)。对抗训练方法需要大量的对抗样本加入到原始训练样本集中，再对模型进行训练，从而使得经过对抗训练的模型能正确分类某些类型的对抗样本。除了对抗训练方法外，在模型中应用不同的聚合函数，即修改目标分类器，也能增强模型的鲁棒性。

除了通过增强鲁棒性来抵御对抗样本，还可以通过检测对抗样本来进行防御。检测对抗样本主要的做法是，对图数据的结构特性和其他特性加以利用，试图从本质上区分干净数据和扰动数据，并打击某些类型的对抗样本。举例而言，有一些方法对大量样本进行统计分析以发现对抗样本的特性，并对输入样本进行预处理；有一些方法没有在模型训练前对输入样本进行预处理，而是设计了特定的机制，在模型训练过程中动态地发现可疑的数据并进行处理。

上述防御方法虽然可以在一定程度上检测出某些对抗样本，但也存在一些缺点：首先，上述增强模型的鲁棒性方法和动态检测对抗样本的方法不具有通用性。具体而言，如动态检测对抗样本的方法部署到一个新的模型上之后，需要对模型进行重新训练或是改变模型的结构，引入训练开销。其次，上述输入样本的预处理方法通常难以在尽量清除扰动和尽量保留干净数据之间达到平衡，由于选择的图数据特性的片面性，很难选择合适的界限区分干净数据和扰动数据。因此，亟需一种新的深度神经网络图对抗样本的预处理方法。

通过上述分析，现有技术存在的问题及缺陷为：

(1)现有防御方法中，增强模型的鲁棒性方法和动态检测对抗样本的方法不具有通用性，如动态检测对抗样本的方法部署到一个新的模型上之后，需要对模型进行重新训练或是改变模型的结构，引入训练开销。

(2)现有输入样本的预处理方法通常难以在尽量清除扰动和尽量保留干净数据之间达到平衡，由于选择的图数据特性的片面性，很难选择合适的界限区分干净数据和扰动数据。

解决以上问题及缺陷的难度为：

首先，对抗训练和动态检测方法由于重训练或改变模型架构引入的训练开销是不可避免的，要通过优化模型或模型训练方式来完成。而优化模型或者训练方式来减少训练开销的同时，还要保证模型准确度不下降，需要充分了解分类模型、模型训练方式、包括图数据的特征提取等具体技术细节，包括大量研究工作。其次，为了选择合适的界限区分干净数据和扰动数据，预处理方案需要对大量对抗样本进行统计分析，去发现对抗样本和正常样本的差异或者发现对抗样本的特性。而对大量对抗样本进行统计分析，保证分析结果的全面性，并能将结果适用于不同的对抗样本需要充分了解图数据的特点和大量数据分析工作。

解决以上问题及缺陷的意义为：优化模型或训练方式可以让防御效果较好的对抗训练和动态检测方法拥有较低的使用成本，增加分析的全面性可以让使用成本低的预处理方法拥有更好和鲁棒的防御效果。由于改进对抗训练和动态检测方法所需的工作量远大于改进预处理方案，并且预处理方案可以达到不低于上述两种方案的性能，本发明研究了一种深度神经网络图对抗样本的预处理方法、系统及应用。

发明内容

针对现有技术存在的问题，本发明提供了一种深度神经网络图对抗样本的预处理方法、系统及应用。

本发明从三个角度衡量了图中的边是扰动边的可疑程度，包括图结构，分类模型的损失函数和节点特征。经过大量样本分析，扰动边连接的节点对的共同邻居数几乎都等于零，分类模型的损失函数对扰动边的梯度不等于零，扰动边连接的节点对的杰卡德相似度较低。不同于现有技术只利用了图结构或节点特征，本发明结合了三个衡量方式来区分正常样本和对抗样本，具有较好的准确度和鲁棒性。

本发明是这样实现的，一种深度神经网络图对抗样本的预处理方法，所述深度神经网络图对抗样本的预处理方法包括以下步骤：

步骤一，输入图数据G'，计算图数据G'每条边连接的两个节点的共同邻居数；

步骤二，将图数据G'输入目标节点分类模型进行一次前向传播和梯度后向传播，获取邻接矩阵A的梯度；

步骤三，根据图数据G'的每条边连接的两个节点的共同邻居数和梯度，将其中共同邻居数为零且梯度不为零的节点对的边，加入可疑边集合P；

步骤四，对可疑边集合中的边连接的节点对计算杰卡德系数，作为每条可疑边的分数，记为分数集合Score；

步骤五，根据分数集合，依次删除G'中分数低的边，得到预处理后的图数据G。

步骤一根据图结构计算了共同邻居数，是从图结构的角度推断边是否可疑。步骤二根据分类模型获取了边的梯度，是从分类模型的损失函数的角度来推断边是否可疑。步骤三则通过创建可疑边集合，结合了上述两个判断方式。步骤四根据节点特征计算了杰卡德相似度，是从节点特征的角度衡量了边是扰动边的可疑程度。步骤五结合了上述三个角度，使用了贪婪策略移除可疑边，对图进行预处理。

进一步，步骤一中，所述输入图数据G'＝(A,X)是无向连通图，图由N个点构成。其中A是有可能被攻击者添加了扰动的邻接矩阵，维度为[N,N]，X是没有被扰动的节点特征，维度为[N,D]，行代表节点序号，列代表特征序号。X是词袋的形式，即X_ij取值为0或1，代表第i个节点是否具有第j个特征。每一行代表各个节点的特征向量。

进一步，步骤一中，所述计算每条边连接的两个节点的共同邻居数的计算公式如下：

其中，A_u(v)代表邻接矩阵的第行，u(v)是节点的序号，C_u,v是节点对(u,v)的共同邻居数。

进一步，步骤二中，所述目标节点分类模型是用于处理输入图数据节点分类任务的深度神经网络模型，所述深度神经网络模型包括图卷积神经网络、图注意力网络；其中，所述梯度后向传播是目标模型要优化的损失函数对输入图邻接矩阵的梯度。

进一步，步骤三和步骤四中，所述可疑边集合的选择和分数的计算是根据梯度下降原理，并且对抗样本会破坏原始图数据的结构性质和特征性质的特性。

进一步，步骤四中，所述对可疑集合P中每条边对应的节点对杰卡德系数的计算公式如下：

其中，M₁₁是节点对(u,v)共有特征的数量，M₀₁代表节点v有而节点u没有的特征的数量，M₁₀代表节点u有而节点v没有的特征的数量。

进一步，步骤五中，所述依次在G'上删除P中分数低的边时，保证G'上不出现单点，直到P中没有可删除的边。即在删除边之前需确认该边连接的两个节点的度都要大于等于2，删除边之后该边连接的两个节点的度各减去1，保证下一次的删边操作不产生单点。

本发明的另一目的在于提供一种计算机设备，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：

输入图数据G'，计算图数据G'每条边连接的两个节点的共同邻居数；

将图数据G'输入目标节点分类模型进行一次前向传播和梯度后向传播，获取邻接矩阵A的梯度；

根据图数据G'的每条边连接的两个节点的共同邻居数和梯度，将其中共同邻居数为零且梯度不为零的节点对的边，加入可疑边集合P；

对可疑边集合中的边连接的节点对计算杰卡德系数，作为每条可疑边的分数，记为分数集合Score；

根据分数集合，依次删除G'中分数低的边，得到预处理后的图数据G。

本发明的另一目的在于提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如下步骤：

本发明的另一目的在于提供一种应用所述的深度神经网络图对抗样本的预处理方法的深度神经网络图对抗样本的预处理系统，所述深度神经网络图对抗样本的预处理系统包括：

图数据输入模块，用于加载图数据的邻接矩阵和特征矩阵；

共同邻居数计算模块，用于计算图中每条边连接的节点对的共同邻居数；

梯度计算模块，用于获取图数据在目标模型中的梯度；

杰卡德计算模块，用于计算图中每条边连接的节点对的杰卡德系数；

图数据处理模块，用于根据图中每条边连接的节点对的共同邻居数和梯度筛选出可删除的可疑边集合，再依次从集合中删除杰卡德系数最低的边，生成净化图G。

本发明的另一目的在于提供一种存储在计算机可读介质上的计算机程序产品，包括计算机可读程序，供于电子装置上执行时，提供用户输入接口以实施所述的深度神经网络图对抗样本的预处理方法。

本发明的另一目的在于提供一种计算机可读存储介质，储存有指令，当所述指令在计算机上运行时，使得计算机执行所述的深度神经网络图对抗样本的预处理方法。

结合上述的所有技术方案，本发明所具备的优点及积极效果为：本发明提供的深度神经网络图对抗样本的预处理方法，基于结合图数据的结构和特征的特性，不需要根据不同的数据集选择不同的界限来区分干净和扰动数据，也不需要对目标模型重新训练或者改变模型的结构，就可以轻易的部署到已有的模型中对输入样本进行预处理，复杂度低，模型分类精度高。同时，本发明无需对目标模型进行修改，也不需要动态训练参数，也不需要了解对抗样本的具体技术细节，就可以轻易的部署到已有的模型中对输入的图数据进行预处理，预处理后的对抗样本接近原始样本，提高目标模型的精确度。

本发明使用了四组真实数据集Cora、Citeseer、Polblogs、Cora_ml、三种主流的对抗攻击来和三种常见的深度图神经网络节点分类模型来验证和评估预处理方法以及现有方法的性能，以节点分类模型的精确率作为评估指标对数据集和现有方法进行评估。在半监督训练中训练集、验证集、测试集的比例为0.1:0.1:0.8，所有方法训练迭代次数均为200次。

使用有目标攻击Mettack在Cora数据集生成对抗样本对目标节点分类模型进行干扰测试时，结果显示在整个数据集中含有5％、10％、15％、20％、25％的扰动边时，在节点分类模型对数据进行分类之前，对数据进行预处理相比不进行预处理分别提高了至少2.67％、5.14％、7.90％、21.28％、23.18％的准确率；预处理方法以图卷积神经网络作为节点分类模型相比其他防御方法和模型分别提高了3.93％、6.42％、4.85％、5.30％、5.24％的准确率。

使用无目标攻击Nettack在Cora数据集生成对抗样本对目标节点分类模型进行干扰测试时，结果显示在攻击者对目标节点扰动次数为1、2、3、4、5时，在节点分类模型对数据进行分类之前，对数据进行预处理相比不进行预处理分别提高了至少1.32％、4.57％、2.65％、11.08％、11.93％的准确率；预处理方法以图卷积神经网络作为节点分类模型相比其他防御方法和模型分别提高了0.72％、3.73％、4.45％、1.57％、4.81％的准确率。

使用无目标攻击Random在Cora数据集随机对抗样本生成模型对数据进行干扰测试时，结果显示在整个数据集中含有20％、40％、60％、80％、100％的对抗样本时，在节点分类模型对数据进行分类之前，对数据进行预处理相比不进行预处理分别提高了至少0.54％、2.23％、2.62％、5.03％、7.80％的准确率；预处理方法以图卷积神经网络作为节点分类模型相比其他防御方法和模型分别提高了3.60％、2.57％、2.83％、1.82％、3.55％的准确率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图做简单的介绍，显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的深度神经网络图对抗样本的预处理方法流程图。

图2是本发明实施例提供的深度神经网络图对抗样本的预处理方法原理图。

图3是本发明实施例提供的深度神经网络图对抗样本的预处理的系统结构框图。

图4是本发明实施例提供的梯度计算模块的落地细节图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种深度神经网络图对抗样本的预处理方法、系统及应用，下面结合附图对本发明作详细的描述。

如图1所示，本发明实施例提供的深度神经网络图对抗样本的预处理方法包括以下步骤：

S101，输入图数据，计算图数据每条边连接的两个节点的共同邻居数；

S102，将图数据输入目标节点分类模型进行一次前向传播和梯度后向传播，获得图数据每条边连接的节点对的梯度；

S103，根据图数据的每条边连接的节点对的共同邻居数和梯度，获得可疑边集合；

S104，对可疑边集合中的边连接的节点对计算杰卡德系数；

S105，依次在图数据中删除可疑边集合中杰卡德系数较低的边，得到预处理完成的图数据。

本发明实施例中图数据带有二进制形式的节点特征。对于具有其他类型特征的图数据，例如数值形式的特征，本发明实施例提供的预处理方法的步骤S104可以是对可疑边集合中边连接的节点对计算余弦相似度。对于没有节点特征的图数据，本发明实施例提供的预处理方法的步骤S104可以是在图数据中删除可疑边集合中的边，得到预处理完成的图数据，去掉步骤S105。

本发明实施例提供的预处理方法可以与其他边预测方案结合，例如基于图自编码器的边预测，将预处理得到的图输入图自编码器，根据编码结果给图添加一定数量的边，更大程度保留了预处理后图的原有结构。

本发明提供的深度神经网络图对抗样本的预处理方法业内的普通技术人员还可以采用其他的步骤实施，图1的本发明提供的深度神经网络图对抗样本的预处理方法仅仅是一个具体实施例而已。

本发明实施例提供的深度神经网络图对抗样本的预处理方法原理图如图2所示。本发明提供的深度图神经网络对抗样本的预处理方法业内的普通技术人员还可以采用其他的步骤实施，图1的本发明提供的深度图神经网络对抗样本的预处理方法仅仅是一个具体实施例而已。

如图3所示，本发明实施例提供的深度神经网络图对抗样本的预处理系统包括：

图数据输入模块1，用于加载图数据的邻接矩阵和特征矩阵；

共同邻居数计算模块2，用于计算图中每条边连接的节点对的共同邻居数；

梯度计算模块3，用于获取图数据在目标模型中的梯度；

杰卡德计算模块4，用于计算图中每条边连接的节点对的杰卡德系数

图数据处理模块5，用于根据图中每条边连接的节点对的共同邻居数和梯度筛选出可删除的可疑边集合，再依次从集合中删除杰卡德系数最低的边，生成净化图G。

下面结合实施例对本发明的技术方案作进一步的描述。

本发明研究了对抗样本与原始图数据的特性，并充分利用其不同来处理将要输入基于深度图神经网络的节点分类模型的图数据，包括五个组成部分：图数据输入模块1、共同邻居数计算模块2、梯度计算模块3、杰卡德计算模块4和图数据处理模块5，为对抗样本的防御注入了新的可能性。

如图4所示为深度图神经网络对抗样本的预处理方法的落地细节，基于对抗样本与原始图数据的特性区别对输入的图数据的邻接矩阵A和特征矩阵S进行分析，进而对输入图数据进行删边处理。

图数据输入模块1，用于加载图数据的邻接矩阵和特征矩阵。

共同邻居数计算模块2旨在从邻接矩阵A中提取图数据的结构特性，通过以下公式计算图数据每条边连接的节点对的共同邻居数：

梯度计算模块3将图数据输入目标深度图神经网络模型进行一次前向传播和梯度后向传播，获取邻接矩阵A的梯度。

杰卡德计算模块4旨在从特征矩阵S中提取图数据的特征特性，通过以下公式计算图数据每条边连接的节点对的杰卡德系数：

图数据处理模块5，根据图中每条边连接的节点对的共同邻居数和梯度筛选出可删除的可疑边集合，再依次从图数据中删除可疑集合中杰卡德系数最低的边，完成输入图数据的预处理。

下面结合实验对本发明的技术效果作详细的描述。

本实验通过知名开源深度学习平台Pyorch实现该模型，硬件平台基于NVIDIARTX2080。本发明使用了四组真实数据集Cora、Citeseer、Polblogs、Cora_ml、三种主流的对抗攻击来和三种常见的深度图神经网络节点分类模型来验证和评估预处理方法以及现有方法的性能，以节点分类模型的精确率作为评估指标对数据集和现有方法进行评估。在半监督训练中训练集、验证集、测试集的比例为0.1:0.1:0.8，所有方法训练迭代次数均为200次。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现，所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种深度神经网络图对抗样本的预处理方法，其特征在于，所述深度神经网络图对抗样本的预处理方法包括：

2.如权利要求1所述的深度神经网络图对抗样本的预处理方法，其特征在于，所述输入图数据G'＝(A,X)是无向连通图，图由N个点构成；其中A是有可能被攻击者添加了扰动的邻接矩阵，维度为[N,N]，X是没有被扰动的节点特征，维度为[N,D]，行代表节点序号，列代表特征序号；X是词袋的形式，即X_ij取值为0或1，代表第i个节点是否具有第j个特征；每一行代表各个节点的特征向量。

3.如权利要求1所述的深度神经网络图对抗样本的预处理方法，其特征在于，所述计算每条边连接的两个节点的共同邻居数的计算公式如下：

4.如权利要求1所述的深度神经网络图对抗样本的预处理方法，其特征在于，所述目标节点分类模型是用于处理输入图数据节点分类任务的深度神经网络模型，所述深度神经网络模型包括图卷积神经网络、图注意力网络；其中，所述梯度后向传播是目标模型要优化的损失函数对输入图邻接矩阵的梯度。

5.如权利要求1所述的深度神经网络图对抗样本的预处理方法，其特征在于，所述可疑边集合的选择和分数的计算是根据梯度下降原理，并且对抗样本会破坏原始图数据的结构性质和特征性质的特性。

6.如权利要求1所述的深度神经网络图对抗样本的预处理方法，其特征在于，所述对可疑集合P中每条边对应的节点对杰卡德系数的计算公式如下：

7.如权利要求1所述的深度神经网络图对抗样本的预处理方法，其特征在于，所述依次在G'上删除P中分数低的边时，保证G'上不出现单点，直到P中没有可删除的边；即在删除边之前需确认该边连接的两个节点的度都要大于等于2，删除边之后该边连接的两个节点的度各减去1，保证下一次的删边操作不产生单点。

8.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：

9.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如下步骤：

10.一种实施权利要求1～7任意一项所述深度神经网络图对抗样本的预处理方法的深度神经网络图对抗样本的预处理系统，其特征在于，所述深度神经网络图对抗样本的预处理系统包括：

图数据输入模块，用于加载图数据的邻接矩阵和特征矩阵；

梯度计算模块，用于获取图数据在目标模型中的梯度；