CN117093928A - 基于谱域图神经网络的自适应图节点异常检测方法 - Google Patents
基于谱域图神经网络的自适应图节点异常检测方法 Download PDFInfo
- Publication number
- CN117093928A CN117093928A CN202311348263.7A CN202311348263A CN117093928A CN 117093928 A CN117093928 A CN 117093928A CN 202311348263 A CN202311348263 A CN 202311348263A CN 117093928 A CN117093928 A CN 117093928A
- Authority
- CN
- China
- Prior art keywords
- graph
- vertex
- kfn
- knn
- vertexes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 33
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 26
- 230000003595 spectral effect Effects 0.000 title claims abstract description 18
- 239000013598 vector Substances 0.000 claims abstract description 65
- 230000003068 static effect Effects 0.000 claims abstract description 46
- 239000011159 matrix material Substances 0.000 claims abstract description 44
- 230000002159 abnormal effect Effects 0.000 claims abstract description 32
- 238000012549 training Methods 0.000 claims abstract description 21
- 238000012795 verification Methods 0.000 claims abstract description 11
- 230000007246 mechanism Effects 0.000 claims abstract description 9
- 238000001228 spectrum Methods 0.000 claims abstract description 7
- 238000000034 method Methods 0.000 claims description 48
- 238000010586 diagram Methods 0.000 claims description 22
- 230000002776 aggregation Effects 0.000 claims description 16
- 238000004220 aggregation Methods 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 7
- 125000003275 alpha amino acid group Chemical group 0.000 claims description 6
- 150000001875 compounds Chemical class 0.000 claims description 6
- 230000003044 adaptive effect Effects 0.000 claims description 5
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 4
- 230000004931 aggregating effect Effects 0.000 claims description 4
- 230000003993 interaction Effects 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 101150064138 MAP1 gene Proteins 0.000 claims description 2
- 230000004913 activation Effects 0.000 claims description 2
- 101150077939 mapA gene Proteins 0.000 claims description 2
- 230000008569 process Effects 0.000 claims description 2
- 238000012937 correction Methods 0.000 claims 1
- 230000005856 abnormality Effects 0.000 abstract description 10
- 230000008859 change Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000003278 mimic effect Effects 0.000 description 2
- 208000002693 Multiple Abnormalities Diseases 0.000 description 1
- 238000012952 Resampling Methods 0.000 description 1
- 230000002547 anomalous effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000005251 gamma ray Effects 0.000 description 1
- 230000012447 hatching Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24147—Distances to closest patterns, e.g. nearest neighbour classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Mathematical Optimization (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Analysis (AREA)
- Databases & Information Systems (AREA)
- Algebra (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于谱域图神经网络的自适应图节点异常检测方法。首先从输入数据中提取出每个顶点的特征,得到顶点的特征矩阵X,同时构建静态属性图;再分别为每个顶点找到与其特征最相似的k个邻居以及特征最不相似的k个邻居,分别构建出KNN图和KFN图;再通过谱域图神经网络来学习顶点在三张图中的向量表示;再将三种顶点向量表示使用注意力机制进行聚合,再利用聚合后的特征来识别异常顶点;再使用损失函数训练模型,当某次迭代的预测类别的准确率在验证集上存在提升时,就使用最新的顶点向量表示更新KNN图和KFN图,直至模型收敛。本发明不受异常类型限制,具有通用性,可以自适应地识别异常顶点,大大提高异常检测能力。
Description
技术领域
本发明属于大数据下的图数据处理领域,具体是一种基于谱域图神经网络的自适应图节点异常检测方法。
背景技术
随着大数据时代的到来,存储和计算能力都得到了极大的发展。随着技术的发展,对象的频繁交互信息成为异常检测中需要考虑的重要因素。图是一种强大的数据结构,除了携带对象的属性外,还考虑了数据之间的复杂交互关系。在这种背景下,基于图的异常检测越来越受到关注,其可以广泛应用于各种应用场景,如网络安全、欺诈检测、健康监测、社交网络垃圾邮件检测和传感器故障检测等。
由于图神经网络(Graph Neural Network,GNN)在图表示方面的巨大成功,并且在图相关任务中广泛应用(特别是在分类任务中表现出色),许多基于GNN的方法也被广泛应用于图异常检测任务,因为它可以被视为一个二分类问题。基于GNN的异常检测主要利用了GNN聚合邻居信息的能力来区分节点是异常还是正常的,这高度依赖于网络的同质性,即具有一致类别的顶点往往互相连接。但是,许多异常顶点倾向于伪装成正常顶点(即有意在它们的结构和特征上模仿正常顶点),这使得异常顶点检测变得更加困难。
当前的图数据中的异常顶点主要存在三种异常类型:一、结构异常,即异常节点在内部彼此关联,或者孤立地存在而不加入任何社区;二、上下文异常,即异常节点的属性与其邻居明显不同;三、伪装异常,即异常顶点在特征和结构上都模仿了正常节点。
针对每种类型的异常,都有不同的解决方案。传统的GNN方法已经广泛应用于结构异常检测。对于上下文异常,最近的研究提出了在谱域中解决它们的方法,因为具有上下文异常的节点对应于谱域的高频部分,并且这些异常可以通过高频滤波器进行识别。针对伪装异常,一些研究选择了重新采样策略以选择性地聚合邻域信息,其中节点和边缘是使用特定的平衡采样器选择的,以便从具有相同标签的邻居接收信息。然而,在现实中,异常节点通常以上述三种类型的混合形式出现,而现有的异常检测方法只对特定的异常类型有效。因此,基于图神经网络设计一种不受异常类型限制的通用的图异常检测算法,可以自动识别不同的异常类型并适当地将它们组合起来,具有重要的研究意义和应用价值。
发明内容
针对现有技术的不足,本发明拟解决的技术问题是,提供一种基于谱域图神经网络的自适应图节点异常检测方法。
本发明解决所述技术问题的技术方案是,提供一种基于谱域图神经网络的自适应图节点异常检测方法,其特征在于,该方法包括以下步骤:
步骤1、从输入数据中提取出每个顶点的特征,进而得到顶点的特征矩阵X,同时建立静态属性图;再将静态属性图中所有的顶点划分为训练集、验证集和测试集;
步骤2、利用步骤1的顶点的特征矩阵X,分别为每个顶点找到与其特征最相似的k个邻居以及特征最不相似的k个邻居,再根据特征最相似的k个邻居构建出KNN图以及根据特征最不相似的k个邻居构建出KFN图;
步骤3、通过谱域图神经网络来学习顶点的向量表示:分别在静态属性图中使用修正后的带通滤波器、在KNN图中使用修正后的低通滤波器以及在KFN图中使用修正后的高通滤波器来学习顶点在静态属性图、KNN图和KFN图这三张图中的向量表示;
步骤4、将步骤3得到的三种顶点向量表示使用注意力机制进行聚合,得到聚合后的顶点向量表示Z;
步骤5、利用步骤4得到的聚合后的顶点向量表示Z,对训练集中所有顶点的真实类别Y进行预测来识别异常顶点,再采用损失函数对模型进行一次迭代;
然后判断在验证集上预测类别的准确率是否存在提升:当没有提升时,返回步骤3;当有提升时,返回步骤2,利用本次迭代中在步骤4得到的聚合后的顶点向量Z来重新计算步骤2的KNN图和KFN图;
直至模型收敛,然后预测步骤1得到的静态属性图的测试集中的顶点的类别。
与现有技术相比,本发明的有益效果在于:
(1)本发明针对当前在图数据的异常检测中,异常类型复杂、标签不平衡、异常顶点伪装成正常顶点和谱域图神经网络近似所引起的缺陷的问题,创造性地提出了一种不受异常类型限制的通用的图异常检测算法,可以在同时具有多种异常类型的数据集上自适应地识别异常顶点,大大提高异常检测能力。首先从输入数据中提取出每个顶点的特征,进而得到顶点的特征矩阵X,同时构建静态属性图;再利用特征矩阵X,分别为每个顶点找到与其特征最相似的k个邻居以及特征最不相似的k个邻居,分别构建出KNN图和KFN图;再通过谱域图神经网络来学习顶点在三张图中的向量表示;再将三种顶点向量表示使用注意力机制进行聚合,再利用聚合后的特征来识别异常顶点;再使用损失函数训练模型,当某次迭代的预测类别的准确率在验证集上存在提升时,就使用最新的顶点向量表示更新KNN图和KFN图,直至模型收敛。
(2)本发明利用已知的部分顶点的标签,通过训练模型来预测剩余顶点是否异常,能够解决异常顶点在特征和结构上伪装成正常顶点的问题,对现实数据中广泛存在的图数据具有普适性。
(3)在四个真实场景下的数据集中,本发明在异常顶点识别的各项指标上明显优于现有的所有方法。和最先进的异常检测算法对比,本发明无论是在弱监督场景下还是半监督场景下都明显优于其它方法。
附图说明
图1为本发明的整体检测流程图;
图2为本发明的图数据中异常顶点的异常类型示意图;
图3为本发明的注意力机制在Yelp数据集上可视化三张图的箱线图;
图4为本发明的注意力机制在Amazon数据集上可视化三张图的箱线图;
图5为在Yelp数据集上不同训练比例下,本发明方法和BWGNN方法在AUC-ROC指标变化的对比折线图;
图6为在Yelp数据集上不同训练比例下,本发明方法和BWGNN方法在AUC-PR指标变化的对比折线图;
图7为在Amazon数据集上不同训练比例下,本发明方法和BWGNN方法在AUC-ROC指标变化的对比折线图;
图8为在Amazon数据集上不同训练比例下,本发明方法和BWGNN方法在AUC-PR指标变化的对比折线图。
具体实施方式
下面给出本发明的具体实施例。具体实施例仅用于进一步详细说明本发明,不限制本发明权利要求的保护范围。
本发明提供了一种基于谱域图神经网络的自适应图节点异常检测方法(简称方法),其特征在于,该方法包括以下步骤:
步骤1、对输入数据进行预处理:从输入数据中提取出每个顶点的特征,进而得到顶点的特征矩阵X,同时建立静态属性图;再将静态属性图中所有的顶点划分为训练集、验证集和测试集;
优选地,步骤1具体是:将输入的关系型数据中的实体携带的数据信息利用向量表示方法,提取出每个顶点的特征,进而得到顶点的特征矩阵X;同时利用关系型数据中的顶点之间的交互关系建立一个静态属性图;再将静态属性图中所有的顶点按照比例随机划分为训练集、验证集和测试集。
优选地,步骤1中,所述数据信息包括文本、音频、视频和图像信息。
步骤2、利用步骤1的顶点的特征矩阵X,得到任意两个顶点之间的相似度;再根据相似度,分别为每个顶点找到与其特征最相似的k个邻居以及特征最不相似的k个邻居,再根据特征最相似的k个邻居构建出KNN图(近邻图)以及根据特征最相似的k个邻居构建出KFN图(远邻图);
优选地,步骤2具体是:
S2.1、利用顶点的特征矩阵X,计算任意两个顶点之间的欧式距离Si,j:
(1)
式(1)中,Si,j表示顶点i和顶点j之间的欧式距离;xi为顶点i的特征;xj为顶点j的特征;d表示特征的维度,xi,d和xj,d表示顶点i和顶点j在第d维度上的值;
S2.2、再根据任意两个顶点之间的欧式距离Si,j,得到任意两个顶点之间的相似度,进而构建KNN图和KFN图:
与某个顶点的欧式距离Si,j最小的k个顶点,为该顶点的特征最相似的k个邻居;再将该顶点以及这k个邻居构建为一个双向图即KNN图;
与某个顶点的欧式距离Si,j最大的k个顶点,为该顶点的特征最不相似的k个邻居;再将该顶点以及这k个邻居构建为一个双向图即KFN图。
步骤3、通过谱域图神经网络来学习顶点的向量表示:分别在静态属性图中使用修正后的带通滤波器、在KNN图中使用修正后的低通滤波器以及在KFN图中使用修正后的高通滤波器来学习顶点在静态属性图、KNN图和KFN图这三张图中的向量表示;
优选地,步骤3中,在静态属性图中使用修正后的带通滤波器来学习顶点在静态属性图中的向量表示Zf,如式(2)所示:
修正后的带通滤波器是指在拉普拉斯矩阵的近似过程中添加一层可学习的参数:
(2)
式(2)中,Zf是顶点从静态属性图中学习到的向量表示;Wp,q是经典的带通滤波器即Beta小波变换,Wp,q是由一系列的滤波器Wk,C-k组成,C是常数,k是0,1,2,…,C;I是单位矩阵,Df是静态属性图的度矩阵,Af是静态属性图的邻接矩阵,是可学习的参数,X是所有顶点的特征矩阵。
优选地,步骤3中,在KNN图中使用修正后的低通滤波器来学习顶点在KNN图中的向量表示Zknn,如式(3)所示:
(3)
式(3)中,Zknn是顶点从KNN图中学习到的向量表示;C是常数,k是0,1,2,…,C;I是单位矩阵,Dknn是KNN图的度矩阵,Aknn是KNN图的邻接矩阵,可学习的参数会根据顶点的需求将全通滤波器自适应为低通滤波器。
优选地,步骤3中,在KFN图中使用修正后的高通滤波器来学习顶点在KFN图中的向量表示Zkfn,如式(4)所示:
(4)
式(4)中,Zkfn是顶点从KFN图中学习到的向量表示;C是常数,k是0,1,2,…,C;I是单位矩阵,Dkfn是KFN图的度矩阵,Akfn是KFN图的邻接矩阵,可学习的参数会根据顶点的需求将全通滤波器自适应为高通滤波器。
步骤4、将步骤3得到的三种顶点向量表示使用注意力机制进行聚合,得到聚合后的顶点向量表示Z;
优选地,步骤4中,使用注意力机制进行聚合的方式包括个性化聚合和相同聚合。
优选地,步骤4中,个性化聚合是三张图的顶点向量表示按照不同的注意力权重得到聚合后的顶点向量表示Z,具体方法如下:首先,得到顶点i在静态属性图中的注意力权重值 ,同理得到顶点i在KNN图中的注意力权重值 /> 以及顶点i在KFN图中的注意力权重值 /> ;然后分别进行softmax归一化,分别得到顶点i在三张图中的注意力系数/>、和/>;再将步骤3得到的顶点i在静态属性图中的向量表示/>、顶点i在KNN图中的向量表示/>以及顶点i在KFN图中的向量表示/>加权相加,得到聚合后的顶点i的向量表示/>;再同理得到聚合后的每个顶点的向量表示;最后将聚合后的每个顶点的向量表示拼接成的矩阵,得到聚合后的顶点向量表示Z。
优选地,步骤4中,根据式(5),得到顶点i在静态属性图中的注意力权重值:
(5)
式(5)中,是一个共享的注意力向量;tanh是双曲正切激活函数; 和 /> 表示权重矩阵;/>为步骤3中得到的顶点i在静态属性图中的向量表示;xi为顶点i的特征;
优选地,步骤4中,进行softmax归一化,得到顶点i在静态属性图中的注意力系数,如式(6)所示:
(6)
优选地,步骤4中,个性化聚合的加权相加如式(7)所示:
(7)
优选地,步骤4中,相同聚合是:当一张图中的所有顶点的注意力权重均相同时,不再为每个顶点计算注意力权重,只区分不同图的注意力权重,具体方法如下:首先得到图j中的顶点的注意力系数;然后由于同一张图中的顶点的注意力系数相同,进而分别计算出在静态属性图、KNN图和KFN图中的顶点的注意力系数;然后加权相加,得到聚合后的顶点向量表示Z。
优选地,步骤4中,根据式(8),得到图j上的顶点的注意力系数:
(8)
式(8)中,j表示不同种类的图,即静态属性图、KNN图和KFN图;Wt是权重矩阵;Zj表示步骤3中得到的顶点在图j中的向量表示;和/>均为共享的注意力向量;
优选地,步骤4中,相同聚合的加权相加如式(9)所示:
(9)
步骤5、利用步骤4得到的聚合后的顶点向量表示Z,通过线性分类器对训练集中所有顶点的真实类别Y进行预测来识别异常顶点,再采用损失函数对模型进行一次迭代;
然后判断线性分类器在验证集上预测类别的准确率是否存在提升:当线性分类器在验证集上预测类别的准确率没有提升时,返回步骤3;当线性分类器在验证集上预测类别的准确率有提升时,返回步骤2,利用本次迭代中在步骤4得到的聚合后的顶点向量Z来重新计算步骤2的KNN图和KFN图;
直至模型收敛(即达到指定的迭代次数或者损失函数变为最小),然后使用线性分类器预测步骤1得到的静态属性图的测试集(即未知类别的顶点)中的顶点的类别。
优选地,步骤5中,通过线性分类器对训练集中所有顶点的真实类别Y进行预测来识别异常顶点;线性分类器如式(10)所示:
(10)
式(10)中,是训练集中所有顶点的预测类别;Z是聚合后的顶点向量表示,是一个可训练的线性矩阵;W是可训练的权重矩阵;b是可训练的权重。
优选地,步骤5中,损失函数采用加权的交叉熵损失函数,如式(11)所示:
(11)
式(11)中,是异常顶点所占的比例;/>为训练集中顶点/>的真实类别,/>为训练集中顶点/>的预测类别。
优选地,步骤5中,预测顶点的类别中,线性分类器为每个顶点输出0或1代表示点的类别,其中类别为1的顶点为异常顶点。
实施例1:本实施例中,首先对本发明的方法进行有效性验证:分别在Yelp、Amazon、Elliptic、Pubmed四个广泛使用的公开静态属性图数据集上进行异常节点的检测,即预测每个顶点标签(正常或异常);图2举例展示了实施例1中异常顶点的直观例子:一、异常顶点A在特征和结构上都模仿了正常节点;二、异常顶点B在结构上模型正常顶点,但是特征和周围顶点不一致;三、异常顶点C孤立地不加入任何社区。
所使用的数据集的基本统计属性和异常程度统计的描述信息如表1所示,表1中:γf表示异常顶点的特征模仿程度、γs表示异常顶点的结构模仿程度、γc表示异常顶点的邻居中类别和该顶点相同的顶点占比的平均值、S表示静态属性图的平滑度。
由表1可以看出什么,现实世界中数据集的异常情况,不同的数据集中顶点的异常情况差别很大,本发明方法利用自适应的聚合方式,可以在各种类型的数据集上都表现优异。
然后,采用三个常用的评价指标F1-Macro(宏平均F1,正常和异常顶点F1的平均值)、AUC-ROC(Area under ROC curve,ROC曲线下面积)和AUC-PR(Area under PR curve,PR曲线下面积),每组实验均重复10次,计算本发明方法和其它常用方法(即GCN、GAT、GIN、GraphSAGE、PC-GNN、CAREGNN、GraphConsis、AMNET、BWGNN)在四个数据集上的三个指标的平均值和标准差,如表2-表5所示:
由表2-表5可以看出,本发明方法相比于目前常用的、效果较好的方法(即GCN、GAT、GIN、GraphSAGE、PC-GNN、CAREGNN、GraphConsis、AMNET、BWGNN),不同实验设置下,在性能上有不同程度的提升,最大可达10%。以上对比结果充分说明了本发明方法在图异常检测任务上取得了优秀的效果。
图3和图4分别展示了在Yelp和Amazon两个真实数据集上的测评效果。由图3和图4可以看出,KFN图的注意力权重均值均远高于另外两个图,说明本发明首次提出的KFN图具有非常高的注意力权重,在异常检测中发挥着重要作用。
图5-图8中,实线表示五次运行的平均值,阴影表示标准差。由图5-图8可以看出,在任何训练比率设置下,本发明方法相较于本领域内的最先进的方法BWGNN均取得了更好的结果,在弱监督(1%的训练)和半监督(40%的训练)情况下,均优于BWGNN方法。
本发明未述及之处适用于现有技术。
Claims (10)
1.一种基于谱域图神经网络的自适应图节点异常检测方法,其特征在于,该方法包括以下步骤:
步骤1、从输入数据中提取出每个顶点的特征,进而得到顶点的特征矩阵X,同时建立静态属性图;再将静态属性图中所有的顶点划分为训练集、验证集和测试集;
步骤2、利用步骤1的顶点的特征矩阵X,分别为每个顶点找到与其特征最相似的k个邻居以及特征最不相似的k个邻居,再根据特征最相似的k个邻居构建出KNN图以及根据特征最不相似的k个邻居构建出KFN图;
步骤3、通过谱域图神经网络来学习顶点的向量表示:分别在静态属性图中使用修正后的带通滤波器、在KNN图中使用修正后的低通滤波器以及在KFN图中使用修正后的高通滤波器来学习顶点在静态属性图、KNN图和KFN图这三张图中的向量表示;
步骤4、将步骤3得到的三种顶点向量表示使用注意力机制进行聚合,得到聚合后的顶点向量表示Z;
步骤5、利用步骤4得到的聚合后的顶点向量表示Z,对训练集中所有顶点的真实类别Y进行预测来识别异常顶点,再采用损失函数对模型进行一次迭代;
然后判断在验证集上预测类别的准确率是否存在提升:当没有提升时,返回步骤3;当有提升时,返回步骤2,利用本次迭代中在步骤4得到的聚合后的顶点向量Z来重新计算步骤2的KNN图和KFN图;
直至模型收敛,然后预测步骤1得到的静态属性图的测试集中的顶点的类别。
2.根据权利要求1所述的基于谱域图神经网络的自适应图节点异常检测方法,其特征在于,步骤1具体是:将输入的关系型数据中的实体携带的数据信息利用向量表示方法,提取出每个顶点的特征,进而得到顶点的特征矩阵X;同时利用关系型数据中的顶点之间的交互关系建立一个静态属性图。
3.根据权利要求1所述的基于谱域图神经网络的自适应图节点异常检测方法,其特征在于,步骤2具体是:
S2.1、利用顶点的特征矩阵X,计算任意两个顶点之间的欧式距离Si,j:
(1)
式(1)中,Si,j表示顶点i和顶点j之间的欧式距离;xi为顶点i的特征;xj为顶点j的特征;d表示特征的维度,xi,d和xj,d表示顶点i和顶点j在第d维度上的值;
S2.2、再根据任意两个顶点之间的欧式距离Si,j,得到任意两个顶点之间的相似度,进而构建KNN图和KFN图:
与某个顶点的欧式距离Si,j最小的k个顶点,为该顶点的特征最相似的k个邻居;再将该顶点以及这k个邻居构建为一个KNN图;
与某个顶点的欧式距离Si,j最大的k个顶点,为该顶点的特征最不相似的k个邻居;再将该顶点以及这k个邻居构建为一个KFN图。
4.根据权利要求1所述的基于谱域图神经网络的自适应图节点异常检测方法,其特征在于,步骤3中,在静态属性图中使用修正后的带通滤波器来学习顶点在静态属性图中的向量表示Zf,如式(2)所示:
修正后的带通滤波器是指在拉普拉斯矩阵的近似过程中添加一层可学习的参数:
(2)
式(2)中,Zf是顶点从静态属性图中学习到的向量表示;Wp,q是Beta小波变换,Wp,q是由一系列的滤波器Wk,C-k组成,C是常数,k是0,1,2,…,C;I是单位矩阵,Df是静态属性图的度矩阵,Af是静态属性图的邻接矩阵,是可学习的参数;
在KNN图中使用修正后的低通滤波器来学习顶点在KNN图中的向量表示Zknn,如式(3)所示:
(3)
式(3)中,Zknn是顶点从KNN图中学习到的向量表示;C是常数,k是0,1,2,…,C;I是单位矩阵,Dknn是KNN图的度矩阵,Aknn是KNN图的邻接矩阵,可学习的参数会根据顶点的需求将全通滤波器自适应为低通滤波器;
在KFN图中使用修正后的高通滤波器来学习顶点在KFN图中的向量表示Zkfn,如式(4)所示:
(4)
式(4)中,Zkfn是顶点从KFN图中学习到的向量表示;C是常数,k是0,1,2,…,C;I是单位矩阵,Dkfn是KFN图的度矩阵,Akfn是KFN图的邻接矩阵,可学习的参数会根据顶点的需求将全通滤波器自适应为高通滤波器。
5.根据权利要求1所述的基于谱域图神经网络的自适应图节点异常检测方法,其特征在于,步骤4中,使用注意力机制进行聚合的方式包括个性化聚合和相同聚合。
6.根据权利要求5所述的基于谱域图神经网络的自适应图节点异常检测方法,其特征在于,步骤4中,个性化聚合具体方法如下:首先,得到顶点i在静态属性图中的注意力权重值,同理得到顶点i在KNN图中的注意力权重值/>以及顶点i在KFN图中的注意力权重值;然后分别进行softmax归一化,分别得到顶点i在三张图中的注意力系数/>、/>和/>;再将步骤3得到的顶点i在静态属性图中的向量表示/>、顶点i在KNN图中的向量表示/>以及顶点i在KFN图中的向量表示/>加权相加,得到聚合后的顶点i的向量表示/>;再同理得到聚合后的每个顶点的向量表示;最后将聚合后的每个顶点的向量表示拼接成的矩阵,得到聚合后的顶点向量表示Z。
7.根据权利要求6所述的基于谱域图神经网络的自适应图节点异常检测方法,其特征在于,步骤4中,根据式(5),得到顶点i在静态属性图中的注意力权重值:
(5)
式(5)中,是一个共享的注意力向量;tanh是双曲正切激活函数; 和 /> 表示权重矩阵;/>为步骤3中得到的顶点i在静态属性图中的向量表示;xi为顶点i的特征;
步骤4中,进行softmax归一化,得到顶点i在静态属性图中的注意力系数,如式(6)所示:
(6)
步骤4中,个性化聚合的加权相加如式(7)所示:
(7)。
8.根据权利要求5所述的基于谱域图神经网络的自适应图节点异常检测方法,其特征在于,步骤4中,相同聚合的具体方法如下:首先得到图j中的顶点的注意力系数;然后由于同一张图中的顶点的注意力系数相同,进而分别计算出在静态属性图、KNN图和KFN图中的顶点的注意力系数;然后加权相加,得到聚合后的顶点向量表示Z。
9.根据权利要求8所述的基于谱域图神经网络的自适应图节点异常检测方法,其特征在于,步骤4中,根据式(8),得到图j上的顶点的注意力系数:
(8)
式(8)中,j表示不同种类的图;Wt是权重矩阵;Zj表示步骤3中得到的顶点在图j中的向量表示;和/>均为共享的注意力向量;
步骤4中,相同聚合的加权相加如式(9)所示:
(9)。
10.根据权利要求1所述的基于谱域图神经网络的自适应图节点异常检测方法,其特征在于,步骤5中,通过线性分类器对训练集中所有顶点的真实类别Y进行预测来识别异常顶点;线性分类器如式(10)所示:
(10)
式(10)中,是训练集中所有顶点的预测类别;Z是聚合后的顶点向量表示,是一个可训练的线性矩阵;W是可训练的权重矩阵;b是可训练的权重;
步骤5中,损失函数采用加权的交叉熵损失函数,如式(11)所示:
(11)
式(11)中,是异常顶点所占的比例;/>为训练集中顶点/>的真实类别,/>为训练集中顶点/>的预测类别;
步骤5中,预测顶点的类别中,线性分类器为每个顶点输出0或1表示点的类别,其中类别为1的顶点为异常顶点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311348263.7A CN117093928A (zh) | 2023-10-18 | 2023-10-18 | 基于谱域图神经网络的自适应图节点异常检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311348263.7A CN117093928A (zh) | 2023-10-18 | 2023-10-18 | 基于谱域图神经网络的自适应图节点异常检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117093928A true CN117093928A (zh) | 2023-11-21 |
Family
ID=88783639
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311348263.7A Pending CN117093928A (zh) | 2023-10-18 | 2023-10-18 | 基于谱域图神经网络的自适应图节点异常检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117093928A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117421671A (zh) * | 2023-12-18 | 2024-01-19 | 南开大学 | 面向引文网络的频率自适应静态异质图节点分类方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114626890A (zh) * | 2022-03-21 | 2022-06-14 | 烟台大学 | 一种基于图结构学习的异常用户检测方法 |
CN115147255A (zh) * | 2022-06-29 | 2022-10-04 | 浙江大学 | 基于图神经网络的电信诈骗检测方法、系统和存储介质 |
WO2023010502A1 (en) * | 2021-08-06 | 2023-02-09 | Robert Bosch Gmbh | Method and apparatus for anomaly detection on graph |
CN115859793A (zh) * | 2022-11-21 | 2023-03-28 | 河北工业大学 | 基于注意力的异构信息网络用户异常行为检测方法及系统 |
WO2023087558A1 (zh) * | 2021-11-22 | 2023-05-25 | 重庆邮电大学 | 基于嵌入平滑图神经网络的小样本遥感图像场景分类方法 |
CN116226388A (zh) * | 2023-05-08 | 2023-06-06 | 浪潮电子信息产业股份有限公司 | 一种文献分类方法、一种图神经网络训练方法及相关组件 |
-
2023
- 2023-10-18 CN CN202311348263.7A patent/CN117093928A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023010502A1 (en) * | 2021-08-06 | 2023-02-09 | Robert Bosch Gmbh | Method and apparatus for anomaly detection on graph |
WO2023087558A1 (zh) * | 2021-11-22 | 2023-05-25 | 重庆邮电大学 | 基于嵌入平滑图神经网络的小样本遥感图像场景分类方法 |
CN114626890A (zh) * | 2022-03-21 | 2022-06-14 | 烟台大学 | 一种基于图结构学习的异常用户检测方法 |
CN115147255A (zh) * | 2022-06-29 | 2022-10-04 | 浙江大学 | 基于图神经网络的电信诈骗检测方法、系统和存储介质 |
CN115859793A (zh) * | 2022-11-21 | 2023-03-28 | 河北工业大学 | 基于注意力的异构信息网络用户异常行为检测方法及系统 |
CN116226388A (zh) * | 2023-05-08 | 2023-06-06 | 浪潮电子信息产业股份有限公司 | 一种文献分类方法、一种图神经网络训练方法及相关组件 |
Non-Patent Citations (1)
Title |
---|
鲁军豪;许云峰;: "信息网络表示学习方法综述", 河北科技大学学报, no. 02 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117421671A (zh) * | 2023-12-18 | 2024-01-19 | 南开大学 | 面向引文网络的频率自适应静态异质图节点分类方法 |
CN117421671B (zh) * | 2023-12-18 | 2024-03-05 | 南开大学 | 面向引文网络的频率自适应静态异质图节点分类方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108230278B (zh) | 一种基于生成对抗网络的图像去雨滴方法 | |
CN109389151B (zh) | 一种基于半监督嵌入表示模型的知识图谱处理方法和装置 | |
CN111006865A (zh) | 一种电机轴承故障诊断方法 | |
CN117093928A (zh) | 基于谱域图神经网络的自适应图节点异常检测方法 | |
CN111144214B (zh) | 基于多层堆栈式自动编码器的高光谱图像解混方法 | |
CN110874590A (zh) | 基于适配器互学习模型的训练及可见光红外视觉跟踪方法 | |
CN114861893B (zh) | 一种多通路聚合的对抗样本生成方法、系统及终端 | |
CN115688907B (zh) | 基于图传播的推荐模型训练方法及基于图传播的推荐方法 | |
CN115564983A (zh) | 目标检测方法、装置、电子设备、存储介质及其应用 | |
CN113987236B (zh) | 基于图卷积网络的视觉检索模型的无监督训练方法和装置 | |
CN116645579A (zh) | 一种基于异质图注意力机制的特征融合方法 | |
CN114708479A (zh) | 一种基于图结构和特征的自适应防御方法 | |
Gangula et al. | Network intrusion detection system for Internet of Things based on enhanced flower pollination algorithm and ensemble classifier | |
CN111291193B (zh) | 一种知识图谱在零次学习上的运用方法 | |
CN107564045B (zh) | 基于梯度域引导滤波的立体匹配方法 | |
CN115130663B (zh) | 基于图神经网络和注意力机制的异质网络属性补全方法 | |
CN116805245A (zh) | 基于图神经网络与解耦表示学习的欺诈检测方法及系统 | |
CN111340741A (zh) | 基于四元数与l1范数的粒子群优化灰度图像增强方法 | |
CN113660236B (zh) | 一种基于优化堆叠降噪卷积自编码网络的异常流量检测方法、存储器和处理器 | |
CN114169504B (zh) | 基于自适应滤波的图卷积神经网络池化方法 | |
CN113449626B (zh) | 隐马尔科夫模型振动信号分析方法装置、存储介质和终端 | |
CN116170187A (zh) | 一种基于cnn和lstm融合网络的工业互联网入侵监测方法 | |
CN115375966A (zh) | 一种基于联合损失函数的图像对抗样本生成方法及系统 | |
CN114399684A (zh) | 一种基于双损失函数的高光谱图像开放性分类方法 | |
CN111797732B (zh) | 一种对采样不敏感的视频动作识别对抗攻击方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |