CN117093928A

CN117093928A - 基于谱域图神经网络的自适应图节点异常检测方法

Info

Publication number: CN117093928A
Application number: CN202311348263.7A
Authority: CN
Inventors: 袁晓洁; 李玉奇; 宋春瑶
Original assignee: Nankai University
Current assignee: Nankai University
Priority date: 2023-10-18
Filing date: 2023-10-18
Publication date: 2023-11-21

Abstract

本发明公开了一种基于谱域图神经网络的自适应图节点异常检测方法。首先从输入数据中提取出每个顶点的特征，得到顶点的特征矩阵X，同时构建静态属性图；再分别为每个顶点找到与其特征最相似的k个邻居以及特征最不相似的k个邻居，分别构建出KNN图和KFN图；再通过谱域图神经网络来学习顶点在三张图中的向量表示；再将三种顶点向量表示使用注意力机制进行聚合，再利用聚合后的特征来识别异常顶点；再使用损失函数训练模型，当某次迭代的预测类别的准确率在验证集上存在提升时，就使用最新的顶点向量表示更新KNN图和KFN图，直至模型收敛。本发明不受异常类型限制，具有通用性，可以自适应地识别异常顶点，大大提高异常检测能力。

Description

基于谱域图神经网络的自适应图节点异常检测方法

技术领域

本发明属于大数据下的图数据处理领域，具体是一种基于谱域图神经网络的自适应图节点异常检测方法。

背景技术

随着大数据时代的到来，存储和计算能力都得到了极大的发展。随着技术的发展，对象的频繁交互信息成为异常检测中需要考虑的重要因素。图是一种强大的数据结构，除了携带对象的属性外，还考虑了数据之间的复杂交互关系。在这种背景下，基于图的异常检测越来越受到关注，其可以广泛应用于各种应用场景，如网络安全、欺诈检测、健康监测、社交网络垃圾邮件检测和传感器故障检测等。

由于图神经网络（Graph Neural Network，GNN）在图表示方面的巨大成功，并且在图相关任务中广泛应用（特别是在分类任务中表现出色），许多基于GNN的方法也被广泛应用于图异常检测任务，因为它可以被视为一个二分类问题。基于GNN的异常检测主要利用了GNN聚合邻居信息的能力来区分节点是异常还是正常的，这高度依赖于网络的同质性，即具有一致类别的顶点往往互相连接。但是，许多异常顶点倾向于伪装成正常顶点（即有意在它们的结构和特征上模仿正常顶点），这使得异常顶点检测变得更加困难。

当前的图数据中的异常顶点主要存在三种异常类型：一、结构异常，即异常节点在内部彼此关联，或者孤立地存在而不加入任何社区；二、上下文异常，即异常节点的属性与其邻居明显不同；三、伪装异常，即异常顶点在特征和结构上都模仿了正常节点。

针对每种类型的异常，都有不同的解决方案。传统的GNN方法已经广泛应用于结构异常检测。对于上下文异常，最近的研究提出了在谱域中解决它们的方法，因为具有上下文异常的节点对应于谱域的高频部分，并且这些异常可以通过高频滤波器进行识别。针对伪装异常，一些研究选择了重新采样策略以选择性地聚合邻域信息，其中节点和边缘是使用特定的平衡采样器选择的，以便从具有相同标签的邻居接收信息。然而，在现实中，异常节点通常以上述三种类型的混合形式出现，而现有的异常检测方法只对特定的异常类型有效。因此，基于图神经网络设计一种不受异常类型限制的通用的图异常检测算法，可以自动识别不同的异常类型并适当地将它们组合起来，具有重要的研究意义和应用价值。

发明内容

针对现有技术的不足，本发明拟解决的技术问题是，提供一种基于谱域图神经网络的自适应图节点异常检测方法。

本发明解决所述技术问题的技术方案是，提供一种基于谱域图神经网络的自适应图节点异常检测方法，其特征在于，该方法包括以下步骤：

步骤1、从输入数据中提取出每个顶点的特征，进而得到顶点的特征矩阵X，同时建立静态属性图；再将静态属性图中所有的顶点划分为训练集、验证集和测试集；

步骤2、利用步骤1的顶点的特征矩阵X，分别为每个顶点找到与其特征最相似的k个邻居以及特征最不相似的k个邻居，再根据特征最相似的k个邻居构建出KNN图以及根据特征最不相似的k个邻居构建出KFN图；

步骤3、通过谱域图神经网络来学习顶点的向量表示：分别在静态属性图中使用修正后的带通滤波器、在KNN图中使用修正后的低通滤波器以及在KFN图中使用修正后的高通滤波器来学习顶点在静态属性图、KNN图和KFN图这三张图中的向量表示；

步骤4、将步骤3得到的三种顶点向量表示使用注意力机制进行聚合，得到聚合后的顶点向量表示Z；

步骤5、利用步骤4得到的聚合后的顶点向量表示Z，对训练集中所有顶点的真实类别Y进行预测来识别异常顶点，再采用损失函数对模型进行一次迭代；

然后判断在验证集上预测类别的准确率是否存在提升：当没有提升时，返回步骤3；当有提升时，返回步骤2，利用本次迭代中在步骤4得到的聚合后的顶点向量Z来重新计算步骤2的KNN图和KFN图；

直至模型收敛，然后预测步骤1得到的静态属性图的测试集中的顶点的类别。

与现有技术相比，本发明的有益效果在于：

（1）本发明针对当前在图数据的异常检测中，异常类型复杂、标签不平衡、异常顶点伪装成正常顶点和谱域图神经网络近似所引起的缺陷的问题，创造性地提出了一种不受异常类型限制的通用的图异常检测算法，可以在同时具有多种异常类型的数据集上自适应地识别异常顶点，大大提高异常检测能力。首先从输入数据中提取出每个顶点的特征，进而得到顶点的特征矩阵X，同时构建静态属性图；再利用特征矩阵X，分别为每个顶点找到与其特征最相似的k个邻居以及特征最不相似的k个邻居，分别构建出KNN图和KFN图；再通过谱域图神经网络来学习顶点在三张图中的向量表示；再将三种顶点向量表示使用注意力机制进行聚合，再利用聚合后的特征来识别异常顶点；再使用损失函数训练模型，当某次迭代的预测类别的准确率在验证集上存在提升时，就使用最新的顶点向量表示更新KNN图和KFN图，直至模型收敛。

（2）本发明利用已知的部分顶点的标签，通过训练模型来预测剩余顶点是否异常，能够解决异常顶点在特征和结构上伪装成正常顶点的问题，对现实数据中广泛存在的图数据具有普适性。

（3）在四个真实场景下的数据集中，本发明在异常顶点识别的各项指标上明显优于现有的所有方法。和最先进的异常检测算法对比，本发明无论是在弱监督场景下还是半监督场景下都明显优于其它方法。

附图说明

图1为本发明的整体检测流程图；

图2为本发明的图数据中异常顶点的异常类型示意图；

图3为本发明的注意力机制在Yelp数据集上可视化三张图的箱线图；

图4为本发明的注意力机制在Amazon数据集上可视化三张图的箱线图；

图5为在Yelp数据集上不同训练比例下，本发明方法和BWGNN方法在AUC-ROC指标变化的对比折线图；

图6为在Yelp数据集上不同训练比例下，本发明方法和BWGNN方法在AUC-PR指标变化的对比折线图；

图7为在Amazon数据集上不同训练比例下，本发明方法和BWGNN方法在AUC-ROC指标变化的对比折线图；

图8为在Amazon数据集上不同训练比例下，本发明方法和BWGNN方法在AUC-PR指标变化的对比折线图。

具体实施方式

下面给出本发明的具体实施例。具体实施例仅用于进一步详细说明本发明，不限制本发明权利要求的保护范围。

本发明提供了一种基于谱域图神经网络的自适应图节点异常检测方法（简称方法），其特征在于，该方法包括以下步骤：

步骤1、对输入数据进行预处理：从输入数据中提取出每个顶点的特征，进而得到顶点的特征矩阵X，同时建立静态属性图；再将静态属性图中所有的顶点划分为训练集、验证集和测试集；

优选地，步骤1具体是：将输入的关系型数据中的实体携带的数据信息利用向量表示方法，提取出每个顶点的特征，进而得到顶点的特征矩阵X；同时利用关系型数据中的顶点之间的交互关系建立一个静态属性图；再将静态属性图中所有的顶点按照比例随机划分为训练集、验证集和测试集。

优选地，步骤1中，所述数据信息包括文本、音频、视频和图像信息。

步骤2、利用步骤1的顶点的特征矩阵X，得到任意两个顶点之间的相似度；再根据相似度，分别为每个顶点找到与其特征最相似的k个邻居以及特征最不相似的k个邻居，再根据特征最相似的k个邻居构建出KNN图（近邻图）以及根据特征最相似的k个邻居构建出KFN图（远邻图）；

优选地，步骤2具体是：

S2.1、利用顶点的特征矩阵X，计算任意两个顶点之间的欧式距离S_i,j：

（1）

式（1）中，S_i,j表示顶点i和顶点j之间的欧式距离；x_i为顶点i的特征；x_j为顶点j的特征；d表示特征的维度，x_i,d和x_j,d表示顶点i和顶点j在第d维度上的值；

S2.2、再根据任意两个顶点之间的欧式距离S_i,j，得到任意两个顶点之间的相似度，进而构建KNN图和KFN图：

与某个顶点的欧式距离S_i,j最小的k个顶点，为该顶点的特征最相似的k个邻居；再将该顶点以及这k个邻居构建为一个双向图即KNN图；

与某个顶点的欧式距离S_i,j最大的k个顶点，为该顶点的特征最不相似的k个邻居；再将该顶点以及这k个邻居构建为一个双向图即KFN图。

优选地，步骤3中，在静态属性图中使用修正后的带通滤波器来学习顶点在静态属性图中的向量表示Z_f，如式（2）所示：

修正后的带通滤波器是指在拉普拉斯矩阵的近似过程中添加一层可学习的参数：

（2）

式（2）中，Z_f是顶点从静态属性图中学习到的向量表示；W_p,q是经典的带通滤波器即Beta小波变换，W_p,q是由一系列的滤波器W_k,C-k组成，C是常数，k是0,1,2,…,C；I是单位矩阵，D_f是静态属性图的度矩阵，A_f是静态属性图的邻接矩阵，是可学习的参数，X是所有顶点的特征矩阵。

优选地，步骤3中，在KNN图中使用修正后的低通滤波器来学习顶点在KNN图中的向量表示Z_knn，如式（3）所示：

（3）

式（3）中，Z_knn是顶点从KNN图中学习到的向量表示；C是常数，k是0,1,2,…,C；I是单位矩阵，D_knn是KNN图的度矩阵，A_knn是KNN图的邻接矩阵，可学习的参数会根据顶点的需求将全通滤波器自适应为低通滤波器。

优选地，步骤3中，在KFN图中使用修正后的高通滤波器来学习顶点在KFN图中的向量表示Z_kfn，如式（4）所示：

（4）

式（4）中，Z_kfn是顶点从KFN图中学习到的向量表示；C是常数，k是0,1,2,…,C；I是单位矩阵，D_kfn是KFN图的度矩阵，A_kfn是KFN图的邻接矩阵，可学习的参数会根据顶点的需求将全通滤波器自适应为高通滤波器。

优选地，步骤4中，使用注意力机制进行聚合的方式包括个性化聚合和相同聚合。

优选地，步骤4中，个性化聚合是三张图的顶点向量表示按照不同的注意力权重得到聚合后的顶点向量表示Z，具体方法如下：首先，得到顶点i在静态属性图中的注意力权重值，同理得到顶点i在KNN图中的注意力权重值 /> 以及顶点i在KFN图中的注意力权重值 /> ；然后分别进行softmax归一化，分别得到顶点i在三张图中的注意力系数/>、和/>；再将步骤3得到的顶点i在静态属性图中的向量表示/>、顶点i在KNN图中的向量表示/>以及顶点i在KFN图中的向量表示/>加权相加，得到聚合后的顶点i的向量表示/>；再同理得到聚合后的每个顶点的向量表示；最后将聚合后的每个顶点的向量表示拼接成的矩阵，得到聚合后的顶点向量表示Z。

优选地，步骤4中，根据式（5），得到顶点i在静态属性图中的注意力权重值：

（5）

式（5）中，是一个共享的注意力向量；tanh是双曲正切激活函数；和 /> 表示权重矩阵；/>为步骤3中得到的顶点i在静态属性图中的向量表示；x_i为顶点i的特征；

优选地，步骤4中，进行softmax归一化，得到顶点i在静态属性图中的注意力系数，如式（6）所示：

（6）

优选地，步骤4中，个性化聚合的加权相加如式（7）所示：

（7）

优选地，步骤4中，相同聚合是：当一张图中的所有顶点的注意力权重均相同时，不再为每个顶点计算注意力权重，只区分不同图的注意力权重，具体方法如下：首先得到图j中的顶点的注意力系数；然后由于同一张图中的顶点的注意力系数相同，进而分别计算出在静态属性图、KNN图和KFN图中的顶点的注意力系数；然后加权相加，得到聚合后的顶点向量表示Z。

优选地，步骤4中，根据式（8），得到图j上的顶点的注意力系数：

（8）

式（8）中，j表示不同种类的图，即静态属性图、KNN图和KFN图；W_t是权重矩阵；Z_j表示步骤3中得到的顶点在图j中的向量表示；和/>均为共享的注意力向量；

优选地，步骤4中，相同聚合的加权相加如式（9）所示：

（9）

步骤5、利用步骤4得到的聚合后的顶点向量表示Z，通过线性分类器对训练集中所有顶点的真实类别Y进行预测来识别异常顶点，再采用损失函数对模型进行一次迭代；

然后判断线性分类器在验证集上预测类别的准确率是否存在提升：当线性分类器在验证集上预测类别的准确率没有提升时，返回步骤3；当线性分类器在验证集上预测类别的准确率有提升时，返回步骤2，利用本次迭代中在步骤4得到的聚合后的顶点向量Z来重新计算步骤2的KNN图和KFN图；

直至模型收敛（即达到指定的迭代次数或者损失函数变为最小），然后使用线性分类器预测步骤1得到的静态属性图的测试集（即未知类别的顶点）中的顶点的类别。

优选地，步骤5中，通过线性分类器对训练集中所有顶点的真实类别Y进行预测来识别异常顶点；线性分类器如式（10）所示：

（10）

式（10）中，是训练集中所有顶点的预测类别；Z是聚合后的顶点向量表示，是一个可训练的线性矩阵；W是可训练的权重矩阵；b是可训练的权重。

优选地，步骤5中，损失函数采用加权的交叉熵损失函数，如式（11）所示：

（11）

式（11）中，是异常顶点所占的比例；/>为训练集中顶点/>的真实类别，/>为训练集中顶点/>的预测类别。

优选地，步骤5中，预测顶点的类别中，线性分类器为每个顶点输出0或1代表示点的类别，其中类别为1的顶点为异常顶点。

实施例1：本实施例中，首先对本发明的方法进行有效性验证：分别在Yelp、Amazon、Elliptic、Pubmed四个广泛使用的公开静态属性图数据集上进行异常节点的检测，即预测每个顶点标签（正常或异常）；图2举例展示了实施例1中异常顶点的直观例子：一、异常顶点A在特征和结构上都模仿了正常节点；二、异常顶点B在结构上模型正常顶点，但是特征和周围顶点不一致；三、异常顶点C孤立地不加入任何社区。

所使用的数据集的基本统计属性和异常程度统计的描述信息如表1所示，表1中：γ_f表示异常顶点的特征模仿程度、γ_s表示异常顶点的结构模仿程度、γ_c表示异常顶点的邻居中类别和该顶点相同的顶点占比的平均值、S表示静态属性图的平滑度。

由表1可以看出什么，现实世界中数据集的异常情况，不同的数据集中顶点的异常情况差别很大，本发明方法利用自适应的聚合方式，可以在各种类型的数据集上都表现优异。

然后，采用三个常用的评价指标F1-Macro（宏平均F1，正常和异常顶点F1的平均值）、AUC-ROC（Area under ROC curve，ROC曲线下面积）和AUC-PR（Area under PR curve，PR曲线下面积），每组实验均重复10次，计算本发明方法和其它常用方法（即GCN、GAT、GIN、GraphSAGE、PC-GNN、CAREGNN、GraphConsis、AMNET、BWGNN）在四个数据集上的三个指标的平均值和标准差，如表2-表5所示：

由表2-表5可以看出，本发明方法相比于目前常用的、效果较好的方法（即GCN、GAT、GIN、GraphSAGE、PC-GNN、CAREGNN、GraphConsis、AMNET、BWGNN），不同实验设置下，在性能上有不同程度的提升，最大可达10%。以上对比结果充分说明了本发明方法在图异常检测任务上取得了优秀的效果。

图3和图4分别展示了在Yelp和Amazon两个真实数据集上的测评效果。由图3和图4可以看出，KFN图的注意力权重均值均远高于另外两个图，说明本发明首次提出的KFN图具有非常高的注意力权重，在异常检测中发挥着重要作用。

图5-图8中，实线表示五次运行的平均值，阴影表示标准差。由图5-图8可以看出，在任何训练比率设置下，本发明方法相较于本领域内的最先进的方法BWGNN均取得了更好的结果，在弱监督（1%的训练）和半监督（40%的训练）情况下，均优于BWGNN方法。

本发明未述及之处适用于现有技术。

Claims

1.一种基于谱域图神经网络的自适应图节点异常检测方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的基于谱域图神经网络的自适应图节点异常检测方法，其特征在于，步骤1具体是：将输入的关系型数据中的实体携带的数据信息利用向量表示方法，提取出每个顶点的特征，进而得到顶点的特征矩阵X；同时利用关系型数据中的顶点之间的交互关系建立一个静态属性图。

3.根据权利要求1所述的基于谱域图神经网络的自适应图节点异常检测方法，其特征在于，步骤2具体是：

（1）

与某个顶点的欧式距离S_i,j最小的k个顶点，为该顶点的特征最相似的k个邻居；再将该顶点以及这k个邻居构建为一个KNN图；

与某个顶点的欧式距离S_i,j最大的k个顶点，为该顶点的特征最不相似的k个邻居；再将该顶点以及这k个邻居构建为一个KFN图。

4.根据权利要求1所述的基于谱域图神经网络的自适应图节点异常检测方法，其特征在于，步骤3中，在静态属性图中使用修正后的带通滤波器来学习顶点在静态属性图中的向量表示Z_f，如式（2）所示：

（2）

式（2）中，Z_f是顶点从静态属性图中学习到的向量表示；W_p,q是Beta小波变换，W_p,q是由一系列的滤波器W_k,C-k组成，C是常数，k是0,1,2,…,C；I是单位矩阵，D_f是静态属性图的度矩阵，A_f是静态属性图的邻接矩阵，是可学习的参数；

在KNN图中使用修正后的低通滤波器来学习顶点在KNN图中的向量表示Z_knn，如式（3）所示：

（3）

式（3）中，Z_knn是顶点从KNN图中学习到的向量表示；C是常数，k是0,1,2,…,C；I是单位矩阵，D_knn是KNN图的度矩阵，A_knn是KNN图的邻接矩阵，可学习的参数会根据顶点的需求将全通滤波器自适应为低通滤波器；

在KFN图中使用修正后的高通滤波器来学习顶点在KFN图中的向量表示Z_kfn，如式（4）所示：

（4）

5.根据权利要求1所述的基于谱域图神经网络的自适应图节点异常检测方法，其特征在于，步骤4中，使用注意力机制进行聚合的方式包括个性化聚合和相同聚合。

6.根据权利要求5所述的基于谱域图神经网络的自适应图节点异常检测方法，其特征在于，步骤4中，个性化聚合具体方法如下：首先，得到顶点i在静态属性图中的注意力权重值，同理得到顶点i在KNN图中的注意力权重值/>以及顶点i在KFN图中的注意力权重值；然后分别进行softmax归一化，分别得到顶点i在三张图中的注意力系数/>、/>和/>；再将步骤3得到的顶点i在静态属性图中的向量表示/>、顶点i在KNN图中的向量表示/>以及顶点i在KFN图中的向量表示/>加权相加，得到聚合后的顶点i的向量表示/>；再同理得到聚合后的每个顶点的向量表示；最后将聚合后的每个顶点的向量表示拼接成的矩阵，得到聚合后的顶点向量表示Z。

7.根据权利要求6所述的基于谱域图神经网络的自适应图节点异常检测方法，其特征在于，步骤4中，根据式（5），得到顶点i在静态属性图中的注意力权重值：

（5）

步骤4中，进行softmax归一化，得到顶点i在静态属性图中的注意力系数，如式（6）所示：

（6）

步骤4中，个性化聚合的加权相加如式（7）所示：

（7）。

8.根据权利要求5所述的基于谱域图神经网络的自适应图节点异常检测方法，其特征在于，步骤4中，相同聚合的具体方法如下：首先得到图j中的顶点的注意力系数；然后由于同一张图中的顶点的注意力系数相同，进而分别计算出在静态属性图、KNN图和KFN图中的顶点的注意力系数；然后加权相加，得到聚合后的顶点向量表示Z。

9.根据权利要求8所述的基于谱域图神经网络的自适应图节点异常检测方法，其特征在于，步骤4中，根据式（8），得到图j上的顶点的注意力系数：

（8）

式（8）中，j表示不同种类的图；W_t是权重矩阵；Z_j表示步骤3中得到的顶点在图j中的向量表示；和/>均为共享的注意力向量；

步骤4中，相同聚合的加权相加如式（9）所示：

（9）。

10.根据权利要求1所述的基于谱域图神经网络的自适应图节点异常检测方法，其特征在于，步骤5中，通过线性分类器对训练集中所有顶点的真实类别Y进行预测来识别异常顶点；线性分类器如式（10）所示：

（10）

式（10）中，是训练集中所有顶点的预测类别；Z是聚合后的顶点向量表示，是一个可训练的线性矩阵；W是可训练的权重矩阵；b是可训练的权重；

步骤5中，损失函数采用加权的交叉熵损失函数，如式（11）所示：

（11）

式（11）中，是异常顶点所占的比例；/>为训练集中顶点/>的真实类别，/>为训练集中顶点/>的预测类别；

步骤5中，预测顶点的类别中，线性分类器为每个顶点输出0或1表示点的类别，其中类别为1的顶点为异常顶点。