CN113076738A - Gnn编码器及基于图上下文学习的异常点检测方法 - Google Patents

Gnn编码器及基于图上下文学习的异常点检测方法 Download PDF

Info

Publication number
CN113076738A
CN113076738A CN202110385328.XA CN202110385328A CN113076738A CN 113076738 A CN113076738 A CN 113076738A CN 202110385328 A CN202110385328 A CN 202110385328A CN 113076738 A CN113076738 A CN 113076738A
Authority
CN
China
Prior art keywords
node
graph
vector
representation
edge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110385328.XA
Other languages
English (en)
Inventor
陈波
唐杰
刘德兵
张静
仇瑜
宋健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhipu Huazhang Technology Co Ltd
Original Assignee
Beijing Zhipu Huazhang Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhipu Huazhang Technology Co Ltd filed Critical Beijing Zhipu Huazhang Technology Co Ltd
Priority to CN202110385328.XA priority Critical patent/CN113076738A/zh
Publication of CN113076738A publication Critical patent/CN113076738A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提出了一种基于图上下文学习的异常点检测方法,涉及计算机网络信息技术领域,其中,该方法包括:提出了CoGCL框架,利用图上下文对比学习来衡量异常与正常节点与图上下文的距离。为了达到对比学习的目的,本专利设计了一个图编码器,它可以一定程度去除可疑链接的同时,学习图上下文的表示。为了缓解标注数据的稀缺性影响,本专利额外将CoGCL扩展为一种无需标注数据的自监督预训练框架CoGCL‑pre。该框架通过一种图扰乱策略,可以自动生成伪标签来进行自监督学习。采用上述方案的CoGCL框架明显优于现有各种对比方法;其无需监督数据的自监督版本CoGCL‑pre可以达到与完全监督版本CoGCL相当的效果,并且解决了标注数据稀缺性对监督学习的影响。

Description

GNN编码器及基于图上下文学习的异常点检测方法
技术领域
本申请涉及计算机网络信息技术领域,尤其涉及GNN编码器及基于图上下文学习的异常点检测方法。
背景技术
异常点检测对防止现实应用中的恶意活动有着深远的影响,如恶意评论的检测和错误信息检测等。因为图可以用来自然地建模数据背后的依赖关系,所以基于图的异常点检测方法成了发展主流。近来,随着图形神经网络(GNNs)的发展,利用GNNs来高效检测异常点的方法层出不穷。其主要思想是利用GNNs学习节点的表示,随后基于分类器区分成正常或异常节点。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的第一个目的在于提出一种GNN编码器,与现有GNN模型不同,所述GNN编码器额外添加了边更新器来移除结点间的可疑链接,以及图更新器来更新图表示。
本申请的第二个目的在于提出一种基于图上下文学习的异常点检测方法,解决了现有异常点检测方法都集中在图结构特征工程或学习上,实现了利用图上下文对比学习来衡量异常与正常节点与图上下文的距离。
为达上述目的,本申请第一方面实施例提出了一种GNN编码器,包括:
边更新器,在每层GNN编码开始时,估算每条边的可疑概率,并根据所述每条边的可疑概率移除可疑链接,以实现对邻接矩阵的调整;
节点表示更新器,根据调整后的所述邻接矩阵聚合节点的邻居信息,对当前节点的向量表示进行更新,得到更新后的节点向量;
图表示更新器,根据更新后的所述节点向量以及上一层的图表示来更新当前的图表示。
可选地,在本申请实施例中,在所述边更新器中,对所述每条边进行更新的公式为:
Al=fedge(H(l-1),A(l-1),q(l-1))
其中,Al为更新后的邻接矩阵,A(l-1)为上一层的邻接矩阵,H(l-1)为上一层的结点向量表示矩阵,q(l-1)为图表示;
在所述节点表示更新器中,对节点表示进行更新的公式为:
Hl=fnode(H(l-1),Al)
其中,H(l-1)为上一次的结点向量表示矩阵,H(l)为更新后的本层的结点向量表示矩阵,Al为本层的邻接矩阵,fnode为结点表示的更新函数;
在所述图表示更新器中,对图表示进行更新的公式为:
q(l)=fgraph(H(l),q(l-1))
其中,q(l-1)为上层的表示;q(l)为更新后的本层图表示。
可选地,在本申请实施例中,在所述边更新器中引入图的全局信息,所述图的全局信息为节点与图的距离;其中,
将所述节点与图的距离作为潜在的标签,通过所述潜在的标签辅助所述可疑链接的进行概率估算。
可选地,在本申请实施例中,所述对边更新器进行更新的方法,包括以下步骤:
首先,基于所述图上下文构建链接预测模块,所述链接预测模块通过下述公式构建:
Figure BDA0003014515020000021
其中,
Figure BDA0003014515020000022
为向量连接操作符,MLP为全连接层,(hi (l-1)-q(l-1))为图的全局信息,hi (l -1)为第l-1层结点i的向量表示,
Figure BDA0003014515020000023
为结合图全局信息后结点i的向量表示;
其次,计算所述每条边Aij的可信度得分pij,
Figure BDA0003014515020000024
其中,ReLU为非线性激活函数并将得分映射到[0,1],
Figure BDA0003014515020000025
为结点i与结点j之间的边
Figure BDA0003014515020000026
的可信度得分,
Figure BDA0003014515020000027
为结合图全局信息后结点i的向量表示;
再次,通过Gumbel-Softmax重参数化技巧使得离散化移除边的过程变得可微分;
其中,对于每一条边的可信度得分
Figure BDA0003014515020000028
从Gumbel分布中采样一个噪音ε∈Gumbel(0,1),将其与
Figure BDA0003014515020000029
相加并且对数,
最后,调用Sigmoid激活函数将其映射到[0,1]之间,公式为:
Figure BDA0003014515020000031
其中,λ代表超参数,中括号代表向下取整,ε为从Gumbel分布中采样一个噪音ε∈Gumbel(0,1),λ为预先设置的超参数,
Figure BDA0003014515020000032
为更新后的结点i与结点j之间的边,取值为0或者1,0代表删去该边,1代表保留该边,
Figure BDA0003014515020000033
为结点i与结点j之间的边
Figure BDA0003014515020000034
的可信度得分。
可选地,在本申请实施例中,在所述边更新器中引入链接预测的交叉熵损失函数,通过所述的交叉熵损失函数对所述边更新器的拟合进行加速处理;
其中,所述交叉熵损失函数的公式为:
Figure BDA0003014515020000035
其中,
Figure BDA0003014515020000036
为损失函数,
Figure BDA0003014515020000037
为上层(第l-1层)的边,
Figure BDA0003014515020000038
为结点i与结点j之间的边
Figure BDA0003014515020000039
的可信度得分,i,j分别表示结点i,j。
可选地,在本申请实施例中,所述对节点表示更新器进行更新中,聚合所述邻居信息的公式为:
Figure BDA00030145150200000310
其中,
Figure BDA00030145150200000311
为结点i聚合后的邻居向量,AGGREGATION为邻居向量的聚合函数。
通过特征函数对当前节点的向量表示进行更新,得到更新后的节点向量,所述节点向量的表示公式为:
Figure BDA00030145150200000312
其中,COMBINE为聚合函数,
Figure BDA00030145150200000313
为更新后的结点i的向量表示。
可选地,在本申请实施例中,在所述图表示更新器中引入记忆缓存,通过所述记忆缓存记录上一层的图表示,并用所述记忆缓存作为指导计算这层每个节点向量的重要性;
所述通过所述记忆缓存记录上一层的图表示,并用所述记忆缓存作为指导计算这层每个节点向量的重要性,包括以下步骤:
使用上一层的图表示q(l-1)作为记忆m,通过下述公式来计算每一个节点向量的重要度:
Figure BDA00030145150200000314
Figure BDA0003014515020000041
随后,新的图表示为
Figure BDA0003014515020000042
其中,将所述新的图表示加入记忆缓存m=q(l)用于下一层的计算;
其中,
Figure BDA0003014515020000043
表示第l层第i个结点的重要度得分,
Figure BDA0003014515020000044
为结点i重要度得分的归一化表示,
Figure BDA0003014515020000045
为结点i的向量表示,m表示上一层图表示q(l-1)记忆,q(l)为第l层的图表示;N为结点数量。
为达上述目的,本申请第一方面实施例提出了一种基于图上下文学习的异常点检测方法,包括:
获取带节点标签的图网络G=(V,X,A,Y),其中,V为节点的集合,X为对应的节点特征矩阵,A为邻接矩阵,且A∈RN×N,Y为节点的标签;
通过CoGCL异常点检测框架学习所述图网络中节点与图上下文的距离,当所述节点与图上下文的距离大于预设值时,所述节点为异常节点,否则为正常节点;其中,
所述异常点检测框架包括所述的GNN编码器和对比损失函数,通过所述GNN编码器获取所述每个节点的节点向量和图向量,通过所述对比损失函数对所述每个节点的节点向量和图向量进行图对比学习。
可选地,在本申请实施例中,所述异常节点与正常节点之间的边为可疑链接。
可选地,在本申请实施例中,所述通过所述对比损失函数对所述每个节点的节点向量和图向量进行图对比学习的公式为:
Figure BDA0003014515020000046
其中,hi为每个节点的向量表示,τ为超参数,q为图表示,
Figure BDA0003014515020000047
X为是对应的节点特征矩阵,A为结点邻接矩阵,
Figure BDA0003014515020000048
为图对比学习的损失函数。
可选地,在本申请实施例中,所述CoGCL异常点检测框架,还包括异常点预测,计算所述的节点向量和图向量的余弦相似度得分,通过所述的余弦相似度得分判断节点是否为异常节点。
可选地,在本申请实施例中,在框架CoGCL的基础上加上图扰动策略,即可得到一种无需自监督预训练框架CoGCL-pre,包括:
所述无需自监督预训练框架CoGCL-pre,通过在CoGCL异常点检测框架的基础上加入一种图扰动策略,将原始图之外的节点注入到原始图中当做扰动,将这些扰动充当当前原始图上下文的伪异常节点,从而获得伪标签数据用来预训练;
所述CoGCL异常点检测框架包括所述的异常点检测方法,通过所述CoGCL异常点检测框架将所述伪异常节点视为所述异常节点;
所述异常点检测框架包括所述的GNN编码器和对比损失函数,通过所述GNN编码器获取所述每个节点的节点向量和图向量,通过所述对比损失函数对所述每个节点的节点向量和图向量进行图对比学习。
可选地,在本申请实施例中,在所述CoGCL异常点检测框架中注入伪异常节点,通过所述伪异常节点破坏原始图的上下文构建伪标签。
可选地,在本申请实施例中,在图扰乱策略中,分割图的方法有很多种,包括:
当有多个图需要进行异常点检测,此时就天然有了多图的分割,多图之间可以互相扰动;
当在一个大图上做分割,调用图聚类方法将一个大图聚成多个子图,此时各个子图之间可以互相扰动。
可选地,在本申请实施例中,所述将原始图之外的节点注入到原始图中当做扰动,包括:
给定图G=(V,X,A),我们使用某种策略将其分成几个子图
Figure BDA0003014515020000051
对于每一个子图Gi,我们向其注入属于其它子图的节点集
Figure BDA0003014515020000052
从而得到一个新的扰动后的图
Figure BDA0003014515020000053
其中
Figure BDA0003014515020000054
的节点
Figure BDA0003014515020000055
邻接矩阵
Figure BDA0003014515020000056
为总体邻接矩阵A的切片。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请实施例使用t-SNE方法将每篇论文的初始向量映射到二维向量空间的可视化表示;
图2为本申请实施例的原始输入特征;
图3为本申请实施例的经过GCNs模型处理后的节点向量与图上下文的距离分布;
图4为本申请实施例的经过CoGCL模型处理后的节点向量与图上下文的距离分布;
图5为本申请实施例的CoGCL模型框架;
图6为本申请实施例的预训练实验结果。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参考附图描述本申请实施例的燃料电池堆多片膜电极多参数同步检测方法和装置。
本申请的第一个目的在于提出一种GNN编码器,与现有GNN模型不同,所述GNN编码器额外添加了边更新器来移除结点间的可疑链接,以及图更新器来更新图表示。
本申请的第二个目的在于提出一种基于图上下文学习的异常点检测方法,解决了现有异常点检测方法都集中在图结构特征工程或学习上,实现了利用图上下文对比学习来衡量异常与正常节点与图上下文的距离。
为达上述目的,本申请第一方面实施例提出了一种GNN编码器,包括:
边更新器,在每层GNN编码开始时,估算每条边的可疑概率,并根据所述每条边的可疑概率移除可疑链接,以实现对邻接矩阵的调整;
节点表示更新器,根据调整后的所述邻接矩阵聚合节点的邻居信息,对当前节点的向量表示进行更新,得到更新后的节点向量;
图表示更新器,根据更新后的所述节点向量以及上一层的图表示来更新当前的图表示。可选地,在本申请实施例中,在所述边更新器中,对所述每条边进行更新的公式为:
Al=fedge(H(l-1),A(l-1),q(l-1))
其中,Al为更新后的邻接矩阵,A(l-1)为上一层的邻接矩阵,H(l-1)为上一层的结点向量表示矩阵,q(l-1)为图表示;
在所述节点表示更新器中,对节点表示进行更新的公式为:
Hl=fnode(H(l-1),Al)
其中,H(l-1)为上一次的结点向量表示矩阵,H(l)为更新后的本层的结点向量表示矩阵,Al为本层的邻接矩阵,fnode为结点表示的更新函数;
在所述图表示更新器中,对图表示进行更新的公式为:
q(l)=fgraph(H(l),q(l-1))
其中,q(l-1)为上层的表示;q(l)为更新后的本层图表示。
可选地,在本申请实施例中,在所述边更新器中引入图的全局信息,所述图的全局信息为节点与图的距离;其中,
将所述节点与图的距离作为潜在的标签,通过所述潜在的标签辅助所述可疑链接的进行概率估算。
可选地,在本申请实施例中,所述对边更新器进行更新的方法,包括以下步骤:
首先,基于所述图上下文构建链接预测模块,所述链接预测模块通过下述公式构建:
Figure BDA0003014515020000071
其中,
Figure BDA0003014515020000072
为向量连接操作符,MLP为全连接层,(hi (l-1)-q(l-1))为图的全局信息,hi (l -1)为第l-1层结点i的向量表示,
Figure BDA0003014515020000073
为结合图全局信息后结点i的向量表示;
其次,计算所述每条边Aij的可信度得分pij,
Figure BDA0003014515020000074
其中,ReLU为非线性激活函数并将得分映射到[0,1],
Figure BDA0003014515020000075
为结点i与结点j之间的边
Figure BDA0003014515020000076
的可信度得分,
Figure BDA0003014515020000077
为结合图全局信息后结点i的向量表示;
再次,通过Gumbel-Softmax重参数化技巧使得离散化移除边的过程变得可微分;
其中,对于每一条边的可信度得分
Figure BDA0003014515020000078
从Gumbel分布中采样一个噪音ε∈Gumbel(0,1),将其与
Figure BDA0003014515020000079
相加并且对数,
最后,调用Sigmoid激活函数将其映射到[0,1]之间,公式为:
Figure BDA00030145150200000710
其中,λ代表超参数,中括号代表向下取整,ε为从Gumbel分布中采样一个噪音ε∈Gumbel(0,1),λ为预先设置的超参数,
Figure BDA00030145150200000711
为更新后的结点i与结点j之间的边,取值为0或者1,0代表删去该边,1代表保留该边,
Figure BDA00030145150200000712
为结点i与结点j之间的边
Figure BDA00030145150200000713
的可信度得分。
可选地,在本申请实施例中,在所述边更新器中引入链接预测的交叉熵损失函数,通过所述的交叉熵损失函数对所述边更新器的拟合进行加速处理;
其中,所述交叉熵损失函数的公式为:
Figure BDA0003014515020000081
其中,
Figure BDA0003014515020000082
为损失函数,
Figure BDA0003014515020000083
为上层(第l-1层)的边,
Figure BDA0003014515020000084
为结点i与结点j之间的边
Figure BDA0003014515020000085
的可信度得分,i,j分别表示结点i,j。
可选地,在本申请实施例中,所述对节点表示更新器进行更新中,聚合所述邻居信息的公式为:
Figure BDA0003014515020000086
其中,
Figure BDA0003014515020000087
为结点i聚合后的邻居向量,AGGREGATION为邻居向量的聚合函数;
通过特征函数对当前节点的向量表示进行更新,得到更新后的节点向量,所述节点向量的表示公式为:
Figure BDA0003014515020000088
其中,COMBINE为聚合函数,
Figure BDA0003014515020000089
为更新后的结点i的向量表示。
可选地,在本申请实施例中,在所述图表示更新器中引入记忆缓存,通过所述记忆缓存记录上一层的图表示,并用所述记忆缓存作为指导计算这层每个节点向量的重要性;
所述通过所述记忆缓存记录上一层的图表示,并用所述记忆缓存作为指导计算这层每个节点向量的重要性,包括以下步骤:
使用上一层的图表示q(l-1)作为记忆m,通过下述公式来计算每一个节点向量的重要度:
Figure BDA00030145150200000810
Figure BDA00030145150200000811
随后,新的图表示为
Figure BDA00030145150200000812
其中,将所述新的图表示加入记忆缓存m=q(l)用于下一层的计算;
其中,
Figure BDA00030145150200000813
表示第l层第i个结点的重要度得分,
Figure BDA00030145150200000814
为结点i重要度得分的归一化表示,
Figure BDA00030145150200000815
为结点i的向量表示,m表示上一层图表示q(l-1)记忆,q(l)为第l层的图表示;N为结点数量。
为达上述目的,本申请第二方面实施例提出了一种基于图上下文学习的异常点检测方法,包括:
获取带节点标签的图网络G=(V,X,A,Y),其中,V为节点的集合,X为对应的节点特征矩阵,A为邻接矩阵,且A∈RN×N,Y为节点的标签;
通过CoGCL异常点检测框架学习所述图网络中节点与图上下文的距离,当所述节点与图上下文的距离大于预设值时,所述节点为异常节点,否则为正常节点;其中,
所述异常点检测框架包括所述的GNN编码器和对比损失函数,通过所述GNN编码器获取所述每个节点的节点向量和图向量,通过所述对比损失函数对所述每个节点的节点向量和图向量进行图对比学习。
可选地,在本申请实施例中,所述异常节点与正常节点之间的边为可疑链接。
可选地,在本申请实施例中,所述通过所述对比损失函数对所述每个节点的节点向量
和图向量进行图对比学习的公式为:
Figure BDA0003014515020000091
其中,hi为每个节点的向量表示,τ为超参数,q为图表示,
Figure BDA0003014515020000092
X为是对应的节点特征矩阵,A为结点邻接矩阵,
Figure BDA0003014515020000093
为图对比学习的损失函数。
可选地,在本申请实施例中,所述CoGCL异常点检测框架,还包括异常点预测,计算所述的节点向量和图向量的余弦相似度得分,通过所述的余弦相似度得分判断节点是否为异常节点。
可选地,在本申请实施例中,在框架CoGCL的基础上加上图扰动策略,即可得到一种无需自监督预训练框架CoGCL-pre,包括:
所述无需自监督预训练框架CoGCL-pre,通过在CoGCL异常点检测框架的基础上加入一种图扰动策略,将原始图之外的节点注入到原始图中当做扰动,将这些扰动充当当前原始图上下文的伪异常节点,从而获得伪标签数据用来预训练;
所述CoGCL异常点检测框架包括所述的异常点检测方法,通过所述CoGCL异常点检测框架将所述伪异常节点视为所述异常节点;
所述异常点检测框架包括所述的GNN编码器和对比损失函数,通过所述GNN编码器获取所述每个节点的节点向量和图向量,通过所述对比损失函数对所述每个节点的节点向量和图向量进行图对比学习。
可选地,在本申请实施例中,在所述CoGCL异常点检测框架中注入伪异常节点,通过所述伪异常节点破坏原始图的上下文构建伪标签。
可选地,在本申请实施例中,在图扰乱策略中,分割图的方法有很多种,包括:
当有多个图需要进行异常点检测,此时就天然有了多图的分割,多图之间可以互相扰动;
当在一个大图上做分割,调用图聚类方法将一个大图聚成多个子图,此时各个子图之间可以互相扰动。
可选地,在本申请实施例中,所述将原始图之外的节点注入到原始图中当做扰动,包括:
给定图G=(V,X,A),我们使用某种策略将其分成几个子图
Figure BDA0003014515020000101
对于每一个子图Gi,我们向其注入属于其它子图的节点集
Figure BDA0003014515020000102
从而得到一个新的扰动后的图
Figure BDA0003014515020000103
其中
Figure BDA0003014515020000104
的节点
Figure BDA0003014515020000105
邻接矩阵
Figure BDA0003014515020000106
为总体邻接矩阵A的切片。
为了使本领域技术人员更好的理解本申请,现以一种基于图上下文学习的异常点检测方法为例;
下面参考附图描述本申请实施例的方法:
在本申请实施例中,为了进一步理解异常点的行为,我们利用来自耶鲁大学的学者“Jun Lu”的Google Scholar论文集来做可视化分析。如果两篇论文拥有同样的合作者或者发表在同一个会议上,则该论文对拥有一条边。在下面几幅图中,我们探索了如何将异常(错误分配)论文与正常论文区分开。
图1展示了使用t-SNE方法将每篇论文的初始向量映射到二维向量空间的可视化表示;
其中,小点代表正常论文,大点代表异常论文。
进一步地,论文的初始向量是通过将论文的标题和关键词输入BERT模型而得到。从图中我们可以看出,无论是正常论文还是异常论文,它们绝对的特征分布都有着很大的差异性,而且异常论文的差异性更大。这使得先前基于节点分类的优化方法不能很好的解决特征分布的差异性问题。随后,我们通过计算每个节点和图上下文(所有节点特征的平均值)之间的距离(余弦相似度)来量化这个观察结果。图2清楚地说明,尽管正常论文与异常论文与图上下文的距离分布非常相似(y∈[0.97,1]),但正常论文和异常论文还是能够被清晰地区分。基于这个观察,我们可以得到更一般性的假设,即异常点相对于正常点来说,跟整个图的分布差异更大。基于此假设,我们提出了CoGCL模型,使用图对比学习作为优化目标,来比对异常与正常节点与图上下文的距离。图3和图4分别代表经过GCNs以及CoGCL模型处理后的节点向量与图上下文的距离分布,体现出CoGCL相对于传统基于GCNs的分类模型在区分异常节点与正常节点的强大能力。
进一步地,先前的方法都是基于监督学习,所以它们都会受到标注数据稀缺性的影响。尤其在某些领域,获得足够有效的标注数据往往是不可能的。故我们在CoGCL的基础上提出CoGCL-pre框架,该框架通过一种图上下文扰动的策略,即在原始图中注入外来节点(异常点)来破坏原始图的上下文,以此来构建伪标签和自监督训练任务,从而一定程度上摆脱对监督数据的依赖。
具体地,本申请实施例中提出了一种基于图上下文对比学习的异常点检测框架CoGCL,相对于传统基于GNNs的分类方法能够更好地解决数据分布的差异性问题;同时提出了一种自监督学习的方法CoGCL-pre,一定程度上解决了模型对标注数据的依赖性问题。
进一步地,异常点检测问题可以定义为,输入一个带节点标签的图网络G=(V,X,A,Y),其中V表示N个节点的集合,A∈RN×N代表邻接矩阵。不失一般性,我们将G定义为无向,无权,以及单一节点关系的图,即如果节点vi和vj间有边,则Aij=1,否则Aij=0。X是对应的节点特征矩阵,其中xi∈Rd代表节点vi拥有d维的特征向量。Y表示各个节点的标签,其中yi=1代表节点vi是异常节点,否则为正常节点。异常点检测的目的就是学习函数g:Rd→{0,1}来预测给定节点为正常节点(0)还是异常节点(1)。
进一步地,为了准确地检测出异常点,本专利提出了CoGCL,一种基于图上下文对比的异常点检测框架,CoGCL是基于一种对实际情况的观察,即正常节点和异常节点与图上下文的距离存在显著差异,故若一个节点与特征空间中大多数节点的距离越远,该节点就越有可能为异常节点。故图上下文对比学习的优化策略定义为,给定图G,我们首先用一个特征的GNN编码器获得每个节点vi的向量表示hi以及图表示q,即(H,q)=fGNN(X,A),其中
Figure BDA0003014515020000111
Figure BDA0003014515020000112
随后,我们将q看成一种查询,把所有正常节点的向量看成正例值,将异常节点看成负例,使用infoNCE损失函数来实现图对比学习,具体定义如下:
Figure BDA0003014515020000113
其中,该损失函数拉近了正常节点与图上下文表示的距离的同时推远异常节点与上下文的距离,从而达到识别异常点的作用。
其中,hi为每个节点的向量表示,τ为超参数,q为图表示,
Figure BDA0003014515020000114
X为是对应的节点特征矩阵,A为结点邻接矩阵,
Figure BDA0003014515020000121
为图对比学习的损失函数。
在本申请实施例中,为了实现
Figure BDA0003014515020000122
我们定义了GNN编码器fGNN。与普通GNN模型不同,我们额外添加了设计了节点边更新器来移除可疑链接,即异常节点与正常节点的连边,以及图表示更新器来实时更新图上下文表示,具体定义如下:
边更新器:在每层GNN编码开始时估算每条边的可疑概率,并以此为依据调整邻接矩阵以达到尽可能移除可疑链接的目的,即
Al=fedge(H(l-1),A(l-1),q(l-1))
其中,Al为更新后的邻接矩阵,A(l-1)为上一层的邻接矩阵,H(l-1)为上一层的结点向量表示矩阵,q(l-1)为图表示;
节点表示更新器:根据调整后的邻接矩阵,聚合节点的邻居信息以更新当前节点的向量表示。该模块可替换成任意GNN编码器,即
Hl=fnode(H(l-1),Al)
其中,H(l-1)为上一次的结点向量表示矩阵,H(l)为更新后的本层的结点向量表示矩阵,Al为本层的邻接矩阵,fnode为结点表示的更新函数;
图表示更新器:根据更新后的节点向量以及上一层的图表示来更新得到当前的图表示,即
q(l)=fgraph(H(l),q(l-1))
其中,q(l-1)为上层的表示;q(l)为更新后的本层图表示。
进一步地,整体的CoGCL框架示意图如图2所示,在每一层,边更新器,节点表示更新器以及图表示更新器都会顺序作用在图上。经过l层卷积后,损失函数
Figure BDA0003014515020000123
会作用在最终得出的图表示和节点表示上以计算损失,随后调用梯度下降算法优化整体模块。
异常点预测:在得到节点向量表示和图向量表示后,与传统的直接通过节点向量预测节点的标签方法不同。CoGCL计算节点向量与图向量的余弦相似度得分,得分越低则代表该节点更有可能是异常节点。这种得分机制更加能够灵活的应用在不同的场景中。
在本申请实施例中,为了实现基于自监督学习的CoGCL,具体而言,基于监督学习的异常点检测模型效果受标签数据质量的影响较大,想要获得理想的检测效果需要大规模高质量的监督数据,而异常点的标签数据在某些领域往往是难以获得的。近年来,基于图的自监督学习方法在图预训练上取得了良好的效果,例如,GAE通过重建邻接矩阵来保存图的结构信息;GPT-GNN通过预测节点的属性来额外的保存节点的属性关系;DGI通过最大化图上下文以及节点向量的互信息来保存图信息;GraphCL通过最大化一个图的两个增强视图来保存图信息.因此,我们提出了一种无需标签的自监督预训练策略来解决图中的异常检测问题。受图对比学习的启发,我们提出通过破坏原始图来构造伪标签,具体来说,我们将原始图之外的节点注入到原始图中当做扰动,所以这些扰动可以充当当前原始图上下文的伪异常节点,即,
原始图扰动:给定图G=(V,X,A),我们使用某种策略将其分成几个子图
Figure BDA0003014515020000131
对于每一个子图Gi,我们向其注入属于其它子图的节点集
Figure BDA0003014515020000132
从而得到一个新的扰动后的图
Figure BDA0003014515020000133
其中
Figure BDA0003014515020000134
的节点
Figure BDA0003014515020000135
邻接矩阵
Figure BDA0003014515020000136
为总体邻接矩阵A的切片。图扰动的示意图如图5所示。
在本申请实施例中,下面将详细介绍CoGCL的实现细节。我们首先介绍拥有三个更新器的GNN编码器的实现方式,
边更新器:可疑链接为正常节点和异常节点之间的边,这种边违反了传统GNN编码器的同质性假设,即相邻的邻居节点拥有相似的属性表示。所以这些可疑链接直接影响GNN编码器的效果。之前的方法大多直接基于一条边相连的节点对本身的向量表示来估算该边为可疑链接的可能性,而我们额外的引入了图的全局信息,即节点与图的距离,这样可以把距离信息当成潜在的标签从而辅助可疑链接的概率估算,即若有边相连的两个节点与图上下文的距离差距越大,则该边为可疑链接的可能性比较大。具体来说,我们首先定义了基于图上下文的链接预测模块,
Figure BDA0003014515020000137
其中,
Figure BDA0003014515020000138
为向量连接操作符,MLP为全连接层。(hi (l-1)-q(l-1))为添加的图的全局信息,hi (l-1)为第l-1层结点i的向量表示,
Figure BDA0003014515020000139
为结合图全局信息后结点i的向量表示。
随后我们计算边Aij的可信度得分pij,
Figure BDA00030145150200001310
其中,ReLU为非线性激活函数并将得分映射到[0,1],
Figure BDA00030145150200001311
为结点i与结点j之间的边
Figure BDA00030145150200001312
的可信度得分,
Figure BDA00030145150200001313
为结合图全局信息后结点i的向量表示;
进一步地,我们通过Gumbel-Softmax重参数化技巧使得离散化删除边的过程变得可微分。
具体而言,对于每一条边的可信度得分
Figure BDA00030145150200001314
我们从Gumbel分布中采样一个噪音ε∈Gumbel(0,1),将其与
Figure BDA0003014515020000141
相加并且对数,最后调用Sigmoid激活函数将其映射到[0,1]之间,公式如下:
Figure BDA0003014515020000142
其中,λ代表超参数,中括号代表向下取整,ε为从Gumbel分布中采样一个噪音ε∈Gumbel(0,1),λ为预先设置的超参数,
Figure BDA0003014515020000143
为更新后的结点i与结点j之间的边,取值为0或者1,0代表删去该边,1代表保留该边,
Figure BDA0003014515020000144
为结点i与结点j之间的边
Figure BDA0003014515020000145
的可信度得分。
我们额外施加了一个链接预测的交叉熵损失函数,
Figure BDA0003014515020000146
从而加速边更新器的拟合,
其中,
Figure BDA0003014515020000147
为损失函数,
Figure BDA0003014515020000148
为上层(第l-1层)的边,
Figure BDA0003014515020000149
为结点i与结点j之间的边
Figure BDA00030145150200001410
的可信度得分,i,j分别表示结点i,j。
在本申请实施例中,节点表示更新器:更新当前节点的向量表示具体可以分为如下两个步骤,首先我们根据修改后的邻接矩阵聚合邻居的信息,即
Figure BDA00030145150200001411
其中,
Figure BDA00030145150200001412
为结点i聚合后的邻居向量,AGGREGATION为邻居向量的聚合函数;
进一步地,我们将聚合后的邻居信息与节点本身的向量表示通过结合函数,得到新的向量表示,
Figure BDA00030145150200001413
在实现过程中,我们使用了GIN[Xu,2018]的聚合和结合的函数。
其中,COMBINE为聚合函数,
Figure BDA00030145150200001414
为更新后的结点i的向量表示。
在本申请实施例中,图表示更新器:在得到更新后的节点向量后,我们可以调用传统的求和,求平均以及求最值等池化方法更新图的表示。但是传统的池化方法没有区分正常节点和异常节点,为了解决这一问题,我们引入记忆缓存来记录上一层的图表示,并用它作为指导计算这层每个节点向量的重要性,具体来说,我们首先使用上一层的图表示q(l-1)作为记忆m,来计算每一个节点向量的重要度,
Figure BDA00030145150200001415
进一步地,新的图表示为
Figure BDA0003014515020000151
同时将其加入记忆缓存m=q(l)用于下一层的计算。
其中,
Figure BDA0003014515020000152
表示第l层第i个结点的重要度得分,
Figure BDA0003014515020000153
为结点i重要度得分的归一化表示,
Figure BDA0003014515020000154
为结点i的向量表示,m表示上一层图表示q(l-1)记忆,q(l)为第l层的图表示;N为结点数量。
在本申请实施例中,在图扰乱策略中,分割图的方法有很多种,在本专利中,如果本来就有多个图需要进行异常点检测,此时就天然有了多图的分割,例如在学术知识系统中,每个作者的论文即可看成一个图,所以检测异常论文就需要在不同的学者图上做检测,从而对于每个学者来说,另一个学者的论文即是扰动;如果在一个大图上做分割,我们调用图聚类方法将一个大图聚成多个子图,此时各个子图之间可以互相扰动。
在本申请实施例中,本申请在学术知识图谱的数据集AMiner上做了充分的实验。
数据集AMiner1:是一个免费的在线学术搜索和挖掘系统,已收集了超过1亿专家学者和2.6亿论文集。我们从AMiner中提取了1,104位专家所拥有的论文,并将每篇论文看成图中的一个节点,且任意两篇论文间若有相同的合作者,工作机构或者发表在同一会议时,为这两篇论文添加一条边。每个专家档案中关于错误论文的真实标签是由人工标注的。
评测指标:我们采用Area Under ROC Curve(AUC)以及Mean Average Precision(MAP)两个指标来全面评测异常点检测的效果:AUC是一种广泛应用在异常点检测领域的综合分类指标;MAP是一种排序的指标,用在异常点检测领域则更多地强调异常点的相对排序。
进一步地,在监督情景下CoGCL的评测:
训练设置:在AMiner的1,104位专家所拥有的论文中,我们选取约70%的专家作为训练集,用剩下的30%作为测试集。论文的初始化向量是通过将论文的标题以及关键词输入BERT中得到。
比对方法:我们比对了两种经典的图神经网络模型,GCN和GIN;此外还对比了最先进的两种基于GNN的异常点检测模型,GraphConsis和CARE-GNN。
实验结果:实验结果如表1所示,在AMiner数据集上,CoGCL的异常点检测的效果远远地优于最先进的比对方法:在AUC指标上高出11.70-20.45%,在MAP指标上高出19.58-28.19%。实验结果充分体现出基于图上下文对比学习的优化框架的优越性。
下表为异常点检测实验结果:
Figure BDA0003014515020000155
Figure BDA0003014515020000161
进一步地,在无监督情景下CoGCL-pre的评测:
训练设置:在AMiner系统中,我们额外抽出4,800的专家论文,并使用图扰动策略扰动原始的专家论文图,从而获得伪标签数据用来预训练。同时使用与CoGCL相同的测试集来评测CoGCL-pre的效果。
比对方法:我们比对了四种最先进的图自监督预训练框架模型,GAE,GPT-GNN,DGI以及GraphCL。
实验结果:实验结果如图6所示,从图中可以得到以下三个观察结果:1.CoGCL-pre在不使用监督数据的情景下都能达到与基于监督学习的CoGCL的效果;2.当CoGCL-pre在使用全部监督数据微调后,其效果在MAP指标上超过CoGCL大约1.96%;3.CoGCL-pre在给定任意百分比监督数据的效果都显著地比其余的比对方法好。以上三个实验结果充分体现出了我们提出的自监督预训练模型框架的有效性。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种GNN编码器,其特征在于,包括:
边更新器,在每层GNN编码开始时,估算每条边的可疑概率,并根据所述每条边的可疑概率移除可疑链接,以实现对邻接矩阵的调整;
节点表示更新器,根据调整后的所述邻接矩阵聚合节点的邻居信息,对当前节点的向量表示进行更新,得到更新后的节点向量;
图表示更新器,根据更新后的所述节点向量以及上一层的图表示来更新当前的图表示。
2.如权利要求1所述的GNN编码器,其特征在于,
在所述边更新器中引入图的全局信息,所述图的全局信息为节点与图的距离;其中,
将所述节点与图的距离作为潜在的标签,通过所述潜在的标签辅助所述可疑链接的进行概率估算;
在所述图表示更新器中引入记忆缓存,通过所述记忆缓存记录上一层的图表示,并用所述记忆缓存作为指导计算这层每个节点向量的重要性;
所述通过所述记忆缓存记录上一层的图表示,并用所述记忆缓存作为指导计算这层每个节点向量的重要度,包括以下步骤:
使用上一层的图表示q(l-1)作为记忆m,通过下述公式来计算每一个节点向量的重要度:
Figure FDA0003014515010000011
Figure FDA0003014515010000012
随后,新的图表示为
Figure FDA0003014515010000013
其中,将所述新的图表示加入记忆缓存m=q(l)用于下一层的计算;
其中,
Figure FDA0003014515010000014
表示第l层第i个结点的重要度得分,
Figure FDA0003014515010000015
为结点i重要度得分的归一化表示,
Figure FDA0003014515010000016
为结点i的向量表示,m表示上一层图表示q(l-1)记忆,q(l)为第l层的图表示;N为结点数量。
3.如权利要求2所述的GNN编码器,其特征在于,所述对边更新器进行更新的方法,包括以下步骤:
首先,基于所述图上下文构建链接预测模块,所述链接预测模块通过下述公式构建:
Figure FDA0003014515010000017
其中,
Figure FDA0003014515010000018
为向量连接操作符,MLP为全连接层,(hi (l-1)-q(l-1))为图的全局信息,hi (l-1)为第l-1层结点i的向量表示,
Figure FDA0003014515010000021
为结合图全局信息后结点i的向量表示;
其次,计算所述每条边
Figure FDA0003014515010000022
的可信度得分pij,
Figure FDA0003014515010000023
其中,ReLU为非线性激活函数并将得分映射到[0,1],
Figure FDA0003014515010000024
为结点i与结点j之间的边
Figure FDA0003014515010000025
的可信度得分,
Figure FDA0003014515010000026
为结合图全局信息后结点i的向量表示;
再次,通过Gumbel-Softmax重参数化技巧使得离散化移除边的过程变得可微分;
其中,对于每一条边的可信度得分
Figure FDA0003014515010000027
从Gumbel分布中采样一个噪音ε∈Gumbel(0,1),将其与
Figure FDA0003014515010000028
相加并且对数,
最后,调用Sigmoid激活函数将其映射到[0,1]之间,公式为:
Figure FDA0003014515010000029
其中,λ代表超参数,中括号代表向下取整,ε为从Gumbel分布中采样一个噪音ε∈Gumbel(0,1),λ为预先设置的超参数,
Figure FDA00030145150100000210
为更新后的结点i与结点j之间的边,取值为0或者1,0代表删去该边,1代表保留该边,
Figure FDA00030145150100000211
为结点i与结点j之间的边
Figure FDA00030145150100000212
的可信度得分。
4.如权利要求3所述的GNN编码器,其特征在于,在所述边更新器中引入链接预测的交叉熵损失函数,通过所述的交叉熵损失函数对所述边更新器的拟合进行加速处理;
其中,所述交叉熵损失函数的公式为:
Figure FDA00030145150100000213
其中,
Figure FDA00030145150100000214
为损失函数,
Figure FDA00030145150100000215
为上层(第l-1层)的边,
Figure FDA00030145150100000216
为结点i与结点j之间的边
Figure FDA00030145150100000217
的可信度得分,i,j分别表示结点i,j。
5.如权利要求1所述的GNN编码器,其特征在于,所述对节点表示更新器进行更新中,聚合所述邻居信息的公式为:
Figure FDA00030145150100000218
其中,
Figure FDA00030145150100000219
为结点i聚合后的邻居向量,AGGREGATION为邻居向量的聚合函数。
通过特征函数对当前节点的向量表示进行更新,得到更新后的节点向量,所述节点向量的表示公式为:
Figure FDA0003014515010000031
其中,COMBINE为聚合函数,
Figure FDA0003014515010000032
为更新后的结点i的向量表示。
6.一种基于图上下文学习的异常点检测方法,其特征在于,包括以下步骤:
获取带节点标签的图网络G=(V,X,A,Y),其中,V为节点的集合,X为对应的节点特征矩阵,A为邻接矩阵,且A∈RN×N,Y为节点的标签;
通过CoGCL异常点检测框架学习所述图网络中节点与图上下文的距离,当所述节点与图上下文的距离大于预设值时,所述节点为异常节点,否则为正常节点;其中,
所述CoGCL异常点检测框架包括如权利要求1-5任一所述的GNN编码器和对比损失函数,通过所述GNN编码器获取所述每个节点的节点向量和图向量,通过所述对比损失函数对所述每个节点的节点向量和图向量进行图对比学习。
7.如权利要求6所述的异常点检测方法,其特征在于,所述CoGCL异常点检测框架,还包括异常点预测,计算所述的节点向量和图向量的余弦相似度得分,通过所述的余弦相似度得分判断节点是否为异常节点;
其中,所述异常节点与正常节点之间的边为可疑链接。
8.如权利要求6所述的异常点检测方法,其特征在于,所述通过所述对比损失函数对所述每个节点的节点向量和图向量进行图对比学习的公式为:
Figure FDA0003014515010000033
其中,hi为每个节点的向量表示,τ为超参数,q为图表示,
Figure FDA0003014515010000034
X为是对应的节点特征矩阵,A为结点邻接矩阵,
Figure FDA0003014515010000035
为图对比学习的损失函数。
9.如权利要求6所述的异常点检测方法,其特征在于,包括:在所述CoGCL异常点检测框架中加入图扰动策略,所述图扰动策略是在原始图中注入外来节点,所述外来节点充当当前原始图上下文的伪异常节点,通过所述伪异常节点破坏原始图的上下文构建伪标签。
10.如权利要求9所述的异常点检测方法,其特征在于,所述图扰动策略中分割图的方法包括:通过调用聚类等图分割方法将所述的原始图分成I个子图
Figure FDA0003014515010000036
且I 为正整数;
对于每一个所述的子图Gi,向所述子图Gi中注入子图Gj的节点集
Figure FDA0003014515010000041
得到扰动后的图
Figure FDA0003014515010000042
其中
Figure FDA0003014515010000043
的节点
Figure FDA0003014515010000044
邻接矩阵
Figure FDA0003014515010000045
为总体邻接矩阵A的切片,vj代表子图j的结点。
CN202110385328.XA 2021-04-09 2021-04-09 Gnn编码器及基于图上下文学习的异常点检测方法 Pending CN113076738A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110385328.XA CN113076738A (zh) 2021-04-09 2021-04-09 Gnn编码器及基于图上下文学习的异常点检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110385328.XA CN113076738A (zh) 2021-04-09 2021-04-09 Gnn编码器及基于图上下文学习的异常点检测方法

Publications (1)

Publication Number Publication Date
CN113076738A true CN113076738A (zh) 2021-07-06

Family

ID=76617213

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110385328.XA Pending CN113076738A (zh) 2021-04-09 2021-04-09 Gnn编码器及基于图上下文学习的异常点检测方法

Country Status (1)

Country Link
CN (1) CN113076738A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114283431A (zh) * 2022-03-04 2022-04-05 南京安元科技有限公司 一种基于可微分二值化的文本检测方法
CN114423035A (zh) * 2022-01-12 2022-04-29 重庆邮电大学 一种网络切片场景下服务功能链异常检测方法
CN115187610A (zh) * 2022-09-08 2022-10-14 中国科学技术大学 基于图神经网络的神经元形态分析方法、设备及存储介质
CN115860009A (zh) * 2023-02-27 2023-03-28 佛山科学技术学院 一种引入辅助样本进行对比学习的句子嵌入方法及系统
CN117828513A (zh) * 2024-03-04 2024-04-05 北京邮电大学 一种论文主题无关引用检查方法及装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114423035A (zh) * 2022-01-12 2022-04-29 重庆邮电大学 一种网络切片场景下服务功能链异常检测方法
CN114423035B (zh) * 2022-01-12 2023-09-19 北京宇卫科技有限公司 一种网络切片场景下服务功能链异常检测方法
CN114283431A (zh) * 2022-03-04 2022-04-05 南京安元科技有限公司 一种基于可微分二值化的文本检测方法
CN114283431B (zh) * 2022-03-04 2022-06-28 南京安元科技有限公司 一种基于可微分二值化的文本检测方法
CN115187610A (zh) * 2022-09-08 2022-10-14 中国科学技术大学 基于图神经网络的神经元形态分析方法、设备及存储介质
CN115860009A (zh) * 2023-02-27 2023-03-28 佛山科学技术学院 一种引入辅助样本进行对比学习的句子嵌入方法及系统
CN117828513A (zh) * 2024-03-04 2024-04-05 北京邮电大学 一种论文主题无关引用检查方法及装置
CN117828513B (zh) * 2024-03-04 2024-06-04 北京邮电大学 一种论文主题无关引用检查方法及装置

Similar Documents

Publication Publication Date Title
CN113076738A (zh) Gnn编码器及基于图上下文学习的异常点检测方法
CN113723632B (zh) 一种基于知识图谱的工业设备故障诊断方法
CN102567464B (zh) 基于扩展主题图的知识资源组织方法
CN111460167A (zh) 基于知识图谱定位排污对象的方法及相关设备
US8805836B2 (en) Fuzzy tagging method and apparatus
CN108985380B (zh) 一种基于聚类集成的转辙机故障识别方法
CN113609770B (zh) 基于分段线性拟合hi及lstm的滚动轴承rul预测方法
Xu et al. Superspreaders and superblockers based community evolution tracking in dynamic social networks
CN112800115B (zh) 数据处理方法及数据处理装置
CN112116957A (zh) 基于小样本的疾病亚型预测方法、系统、装置及介质
CN115936159A (zh) 基于自动特征挖掘的可解释信贷违约率预测方法、系统
Chakradeo et al. Breast cancer recurrence prediction using machine learning
Li et al. Unsupervised deep learning for road crack classification by fusing convolutional neural network and k_means clustering
CN115359873A (zh) 用于手术质量的控制方法
CN115114484A (zh) 异常事件检测方法、装置、计算机设备和存储介质
Siddalingappa et al. Anomaly detection on medical images using autoencoder and convolutional neural network
Yu et al. Pattern clustering of forest fires based on meteorological variables and its classification using hybrid data mining methods
Kumar et al. Community-enhanced Link Prediction in Dynamic Networks
Bi et al. Judicial knowledge-enhanced magnitude-aware reasoning for numerical legal judgment prediction
CN115590530A (zh) 跨对象目标域代理子域适应方法、系统及介质
CN116186603A (zh) 异常用户的识别方法及装置、计算机存储介质、电子设备
Malleswari et al. Enhanced SS-FIM Algorithm For High Utility Uncertain Itemsets
CN115062969A (zh) 一种食品安全风险的预警方法
CN114188024A (zh) 基于畜禽疾病知识图谱的畜禽疾病的预测分类方法
CN113222730A (zh) 一种基于二部图模型侦测银行信用卡套现行为的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Chen Bo

Inventor after: Liu Debing

Inventor after: Zhang Jing

Inventor after: Chou Yu

Inventor after: Song Jian

Inventor before: Chen Bo

Inventor before: Tang Jie

Inventor before: Liu Debing

Inventor before: Zhang Jing

Inventor before: Chou Yu

Inventor before: Song Jian

CB03 Change of inventor or designer information