CN112949748A

CN112949748A - 基于图神经网络的动态网络异常检测算法模型

Info

Publication number: CN112949748A
Application number: CN202110317070.XA
Authority: CN
Inventors: 王宇; 张凤斌
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2021-03-23
Filing date: 2021-03-23
Publication date: 2021-06-11

Abstract

本发明涉及一种基于图神经网络的动态网络异常检测算法模型，将图结构、属性以及动态变化的信息引入模型中，来学习进行异常检测的表示向量。本发明将改进图上无监督的图神经网络框架DGI(Deep graph infomax)，然后提出一种面向动态网络无监督表示学习的算法Dynamic‑DGI，该方法能够同时提取网络本身的异常特性以及网络变化的异常特性，用于表示向量的学习。该算法除能够有效提升异常检测准确度外，也能够挖掘网络中存在的有实际意义的异常。针对于目前动态网络异常检测存在的问题，发明贡献包括：将图神经网络应用于动态网络异常检测，从而使网络异常检测可以同时抓住结构上的异常和属性上的异常；提出Dynamic‑DGI框架，从而使模型能够脱离标记数据来学习网络变化的一般特征。

Description

基于图神经网络的动态网络异常检测算法模型

技术领域

基于图神经网络的动态网络异常检测算法模型，属于网络安全领域。

背景技术

网络结构数据因其强大的表示能力，在过去几年间得到了广泛的关注。现实生活中的网络分为静态网络和动态网络：静态网络可以理解为不随时间进行任何变化的网络，比如某时间点上某城市的网络交通；相比于静态网络，动态变化的网络在现实世界中更加普遍，比如社交网络、账户之间的转账交易网络以及计算机通信网络等。在这些随时变化的网络中可能出现一些元素，其变化规律或特征因与一般元素不同而表现出异常的行为，比如计算机网络中具有攻击行为的通信、社交网络中虚假信息的传播以及学术合著网络中不同领域学者之间突然的合作等。尽早地挖掘网络中存在的这些异常，对于维护社会稳定、防御网络攻击或发现新兴的交叉学科方向具有重要的意义。

如何在动态网络中挖掘异常元素是比较困难的问题，其中如何解决特征表示成为了重中之重。为了解决特征表示问题，本发明引入图的表示学习技术，表示学习是随着深度学习的出现而逐渐发展起来的，最经典的图上学习技术可以追溯到2014年Perozzsi等人提出的Deepwalk。学得的网络表示包含了很多有用信息，比如越相似的节点其表示向量之间的距离越小等，这为后续的机器学习提供了良好的输入特征。

发明内容

本发明涉及一种基于图神经网络的动态网络异常检测算法模型，将图结构、属性以及动态变化的信息引入模型中，来学习进行异常检测的表示向量。具体地，本发明将改进图上无监督的图神经网络框架DGI(Deepgraphinfomax)，然后提出一种面向动态网络无监督表示学习的算法Dynamic-DGI，该方法能够同时提取网络本身的异常特性以及网络变化的异常特性，用于表示向量的学习。该算法除能够有效提升异常检测准确度外，也能够挖掘网络中存在的有实际意义的异常。针对于目前动态网络异常检测存在的问题，本发明主要的贡献包括：将图神经网络应用于动态网络异常检测，从而使网络异常检测可以同时抓住结构上的异常和属性上的异常；提出Dynamic-DGI的时序网络表示学习框架，从而使模型能够脱离标记数据来学习网络变化的一般特征。

为了达到上述目的，本发明提出一种基于图神经网络的动态网络异常检测算法模型，其算法步骤如下：

步骤一：首先使用图神经网络来提取某时刻图的属性特征和结构特征。

步骤二：然后使用最大化局部与全局表示互信息的策略来进行图表示向量的学习。

步骤三：接着利用长短路记忆模型来结合不同时刻图的信息提取图的变化特征。

步骤四：最后，使用数据流上的异常检测算法来给出异常分数，算法结束。

优选的，在所述基于图神经网络的异常检测算法模型，所述步骤一，图神经网络的一层操作可以分为节点信息传播和信息拼接两个步骤，如下所示：

其中，

为第L层的节点u的隐含表示,

为第L层u的邻居信息的汇聚，aggregate_l(·)和combine_l(·)分别为第L层的聚合操作和更新操作。本发明将通过将图转换成对应的线图(line graph)来获取以边为基本元素的网络，其转换规则如下所示：

其中,e_i,from为边i的源节点，e_i,to为边i的目标节点，对应的线图上的图提取网络r如下所示：

使用两组图卷积神经网络结合JKNetwork的构造分别从原图和其对应的线图种提取特征并整合，在进行两部分的特征提取之后，可以得到一个图特征提取框架，该框架将两部分信息进行拼接并做一个线性变换，从而获得所有节点和边的隐含表示。

优选的，在所述基于图神经网络的异常检测算法模型，所述步骤二，通过一个读取函数从节点和边的表示向量种获得图的全局表示，再用最大化互信息的做法进行全局表示向量互信息和局部表示向量互信息的最大化训练。为了使模型更好的抓住子图中的异常特征,本发明提出一种贪心读取的方法,利用当前状态信息对数据流中的边进行采样。首先定义当前状态为C_t∈R^d，其中d表示向量的维度。令D：R^d×R^d→R为两表示向量之间的距离，则边的每一维的读取优先度为

其中x∈uniform(0,1)，同时encoder(·)为边空间到表示空间的函数，该方法可以将每一维中与当前状态相差最多的信息读取出来，从而能够使当前的异常信息流入图的表示空间中。最终的损失函数下所示：

其中，s是使用读取函数从原图的特征隐含表示中获得全图的总结表示。D为一个判别器，用来使用全局表示来分别给正例和负例进行打分，通过给正例尽可能打高分并给负例打低分来进行图的表示向量的学习。

优选的，在所述基于图神经网络的异常检测算法模型，所述步骤三，本发明提出动态网络表示学习框架Dynamic-DGI，该方法结合LSTM和互信息最大化算法来进行动态网络的表示学习。假设再t时刻有子图G_t＝(X_t,A_t)到来，首先使用图神经网络获取其结构特征和属性特征，并使用读取函数获得其全局表示S_t；然后，将S_t作为t时刻的输入送入长短路记忆网络中来获得加入变化信息后的向量表示，在进行模型训练的过程中加入变化损失式来约束LSTM的特征提取，如下所示：

结合L₁和L₂可以得到模型的总损失函数，如下所示，其中α和β为超参数：

优选的，在所述基于图神经网络的异常检测算法模型，所述步骤四，在使用数据流上得聚类算法时本发明根据节点到其最近的聚类中心的距离作为评价异常分数的标准，并同时更新聚类中心，Streaming k-means使用延迟系数来动态地更新聚类中心。令

为已经存在的n₀个数据点，此时在时间节点t′有n′个新的数据

到来，新的聚类中心c,延迟系数为a，则对应的聚类中心更新为如下所示：

之后定义异常分数为数据点到离其最近的聚类中心的距离，如下所示：

score_anomaly＝||c_nearest-x_i||₂

附图说明

图1为本发明基于图神经网络异常检测的算法模型流程图。

具体实施方式

下面将结合本发明实施的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实例仅仅是本发明一部分例子，而不是全部，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明提供了一种基于图神经网络异常检测的算法模型，其基本实现过程如下：

更为具体地，在步骤一中，在IDS2017和注入异常的Digg数据集上进行测试，对于IDS2017使用其周三一天的数据进行网络异常检测。将1分钟内经过的所有边作为一个子图对数据集进行划分，总共获得了1008个子图，对于每一个子图，当图中的被标注为攻击边的数目多于200时，认为其为异常图。对于Digg数据集，将每100个时间单位内的边作为那一时刻的图对数据集进行划分，并得出共124个子图，将前一半时间的图作为训练集，后一半时间的图作为测试集。

更为具体地，在步骤二中，在测试集中随机选取10％的图作为异常图，并在其内注入异常边。异常注入的方法是随机选取图内的3条边并随机复制30次，之后在没有异常的训练集上训练模型，并在测试集上测试结果。

更为具体地，在步骤三中，使用最大距离读取函数，使模型学习20轮，再使用异常检测算法对学习得到的表示向量进行异常检测之后计算AUC值来评测计算结果。

更为具体地，在步骤四中，设置表示向量的维度为512维并运行10次取其平均AUC值作为结果。

Claims

1.基于图神经网络的动态网络异常检测算法模型，主要包括以下步骤：

步骤一：首先使用图神经网络来提取某时刻图的属性特征和结构特征；

步骤二：然后使用最大化局部与全局表示互信息的策略来进行图表示向量的学习；

步骤三：接着利用长短路记忆模型来结合不同时刻图的信息提取图的变化特征；

2.根据权利要求1所述的一种基于图神经网络的异常检测算法，其特征在于，所述步骤一，图神经网络的一层操作可以分为节点信息传播和信息拼接两个步骤，如下所示：

其中，

为第L层的节点u的隐含表示，

为第L层u的邻居信息的汇聚，aggregate_l(·)和combine_l(·)分别为第L层的聚合操作和更新操作，并且本发明将通过将图转换成对应的线图(line graph)来获取以边为基本元素的网络，其转换规则如下所示：

其中，e_i,from为边i的源节点，e_i,to为边i的目标节点，对应的线图上的图正提取网络r如下所示：

使用两组图卷积神经网络结合JK Network的构造分别从原图和其对应的线图种提取特征并整合，在进行两部分的特征提取之后，可以得到一个图特征提取框架，该框架将两部分信息进行拼接并做一个线性变换，从而获得所有节点和边的隐含表示。

3.根据权利要求1所述的基于图神经网络的异常检测算法，其特征在于，所述步骤二，通过一个读取函数从节点和边的表示向量种获得图的全局表示，再用最大化互信息的做法进行全局表示向量互信息和局部表示向量互信息的最大化训练，为了使模型更好的抓住子图中的异常特征，本发明提出一种贪心读取的方法，利用当前状态信息对数据流中的边进行采样，首先定义当前状态为C_t∈R^d，其中d表示向量的维度，令D：R^d×R^d→R为两表示向量之间的距离，则边的每一维的读取优先度为

其中x∈uniform(0,1)，同时encoder(·)为边空间到表示空间的函数，该方法可以将每一维中与当前状态相差最多的信息读取出来，从而能够使当前的异常信息流入图的表示空间中，最终的损失函数下所示：

其中，s是使用读取函数从原图的特征隐含表示中获得全图的总结表示，D为一个判别器，用来使用全局表示来分别给正例和负例进行打分，通过给正例尽可能打高分并给负例打低分来进行图的表示向量的学习。

4.根据权利要求1所述的基于图神经网络的异常检测算法，其特征在于，在步骤三，本发明提出动态网络表示学习框架Dynamic-DGI,该方法结合LSTM和互信息最大化算法来进行动态网络的表示学习。

5.根据权利要求1所述的基于图神经网络的异常检测算法，其特征在于，在步骤四在使用数据流上得聚类算法时本发明根据节点到其最近的聚类中心的距离作为评价异常分数的标准，并同时更新聚类中心,Streaming k-means使用延迟系数来动态地更新聚类中心。