CN114239712A - 基于异构信息网络元学习架构的异常检测方法 - Google Patents
基于异构信息网络元学习架构的异常检测方法 Download PDFInfo
- Publication number
- CN114239712A CN114239712A CN202111525204.3A CN202111525204A CN114239712A CN 114239712 A CN114239712 A CN 114239712A CN 202111525204 A CN202111525204 A CN 202111525204A CN 114239712 A CN114239712 A CN 114239712A
- Authority
- CN
- China
- Prior art keywords
- node
- meta
- nodes
- graph
- heterogeneous
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
- G06F18/2414—Smoothing the distance, e.g. radial basis function networks [RBFN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了基于异构信息网络元学习架构的异常检测方法,包括步骤:从原始图中对子图进行采样;对支持集中多个支持图实例采样;对采样图进行迭代,在每个子图中生成结构节点嵌入,输入异构图神经网络模块进行训练更新;根据节点嵌入获得任务嵌入;计算支持损失函数并更新参数;对多个查询图实例进行采样,并按与支持集相同的训练过程来学习节点嵌入和查询损失函数;计算任务权重,进行异常检测并对原始图相应的产品或节点进行异常标注。本发明可以在不同的异构信息网络之间迁移;采用结构模块、异构模块和对比模块分别捕获子图的结构信息、异构特征和未标记信息,在多个异构信息网络上均显著优于最新技术。
Description
技术领域
本发明属于人工智能技术领域,尤其涉及基于异构信息网络元学习架构的异常检测方法。
背景技术
异构信息网络(HIN)无处不在。众所周知的例子有,社交网络、知识图谱和推荐系统,这些都是由多种类型的节点和边构成的。与假设每个节点都是单一类型的同构网络不同,异构信息网络具有更多的方法来描述网络。这为数据挖掘和知识发现任务,例如节点分类、链路预测和异常检测提供了更有效的解决方案。
表示学习是挖掘异构信息网络的必要前提。最近的研究利用图神经网络(GNN)取得了比较好的结果。在异构信息网络表示中,本发明想当然地认为网络中的大多数标签都是可用的,并以有监督的方式训练图神经网络。然而,在实际情况下,通常只有少数标签被给出,对保持模型的性能形成了严峻的挑战。为了有效地用少量标签挖掘异构信息网络,本文研究了异构信息网络上的少样本学习问题。
受到计算机视觉中广泛研究的元学习方法的启发,出现了一个新的研究方向,即将元学习应用于图数据的少样本学习。该研究思路为,首先学习一个基础的图神经网络初始参数,然后按照标准的模型不可知的元学习(MAML)框架,使已学习的基础学习器适应新的任务。
然而,很多方面的缺点阻碍了这些方法的进一步应用。第一个限制是,这些方法通常是为同构网络设计的,之前还没有研究试图解决异构信息网络上的少样本学习问题。第二个限制是,它们大多只能处理单个图上的一个任务。第三个限制是以前的方法大多忽略了图的未标记信息。最后,除了有监督信息和无监督信息之外,第四个是如何巧妙地利用现有方法未充分利用的异构信息网络的结构信息。
发明内容
针对这些不足,本发明提出了(1)一个异构图神经网络模块作为基础模型来完全捕获异构信息,(2)一个可以应用于不同任务和不同图的通用框架,(3)一个利用无监督信息的对比模块,以及(4)一个利用图结构信息的结构模块。本发明把上述针对异构信息网络上的少样本学习问题的元学习框架称为META-HIN。
具体来说,首先从原始图中对子图进行采样,以形成元训练和元测试数据集的支持集和查询集。在采样前,首先根据三个重要性评估指标对特定邻域的节点进行排序,即介数中心性、特征中心性和接近中心性。以经过某个节点的最短路径的数目来刻画节点重要性的指标为介数中心性;特征向量中心性的基本想法是:一个节点的重要性既取决于其邻居节点的数量(即该节点的度),也取决于其邻居节点的重要性。接近中心性算法用于发现可通过图高效传播信息的节点,对于每个节点,接近中心性算法在计算所有节点对之间的最短路径的基础上,还要计算它到其他各节点的距离之和,然后对得到的和求倒数,以确定该节点的接近中心性得分。
然后,采用排序引导的异构游走对影响节点和各种类型节点的样本子图进行采样。接着,在子图上应用一个结构模块来学习结构嵌入。具体来说,基于具有相似结构的节点将共享相似嵌入的直觉,采用自动编码器对结构信息进行编码。然后应用异构图神经网络模块对输入子图进行编码。首先根据节点的类型对节点进行分组,并对每个组应用双向长短期记忆网络。然后,通过自注意力机制聚合不同类型的嵌入,生成最终的节点嵌入。为了充分利用无监督信息,在计算支持损失和查询损失之前进一步加入了一个对比模块。在训练期间,正样本是来自给定子图的节点,而负样本是来自其他子图的节点。然后最大化节点嵌入和子图嵌入之间的互信息。
在实验中,为了证明META-HIN可在异构信息网络之间迁移,除了数据集开放学术图(OAG)之外,本发明还结合OAG、DBLP和Aminer构建了一个新数据集ODA。这三个数据集都是书目网络;本发明进一步引入了两个来自不同领域的数据集:YELP和YAGO。META-HIN在不同数据集上进行三个任务均显著优于最先进的模型。
本发明公开的基于异构信息网络元学习架构的异常检测方法,包括以下步骤:
获取餐厅评论网络的原始图;
使用异构子图采样策略从原始图中对子图进行采样,以形成元训练和元测试数据集的支持集和查询集;
对支持集中多个支持图实例采样;
对采样图进行迭代,在每个子图中应用具有自动编码器机制的结构模块来生成结构节点嵌入,然后将所述节点嵌入输入异构图神经网络模块进行训练更新,在计算支持损失函数之前使用对比模块以利用无监督信息;
根据节点嵌入获得任务嵌入;
计算支持损失函数并根据支持损失更新参数;
对多个查询图实例进行采样,并按照与支持集相同的训练过程来学习节点嵌入和查询损失函数;
计算任务权重以更新最终的适应参数θ,进行异常检测;
根据异常检测结果对原始图相应的产品或节点进行异常标注。
进一步的,所述使用异构子图采样策略从原始图中对子图进行采样,以形成元训练和元测试数据集的支持集和查询集包括:
为了形成子图,根据给定标记节点的相邻节点的结构重要性对相邻节点进行排序;
采用由排序引导的异构游走来构建子图,从而捕获相邻节点的异构和结构特征;所述异构游走迭代地从一个节点移动到其相邻节点,该过程从给定的节点开始,首先到达具有更高优先级的节点,收集到预定数量的节点后,游走才会停止,在游走过程中限制序列中收集不同类型节点的数量,使每一种类型的节点都能包含在内。
进一步的,所述给定标记节点的相邻节点的结构重要性的衡量指标为节点中心性度量,所述节点中心性度量包括介数中心性、特征向量中心性和接近中心性,并为所述介数中心性、特征向量中心性和接近中心性分配可学习的权重;所述介数中心性用来衡量通过给定节点的最短路径的比例,所述特征向量中心性计算节点对其相邻节点的影响,所述接近中心性用于计算给定节点与其他节点之间的最短路径的总长度。
进一步的,所述在每个子图中应用具有自动编码器机制的结构模块来生成结构节点嵌入包括:
采用自动编码器对结构信息进行编码;
应用异构图神经网络模块对输入子图进行编码,生成最终的节点嵌入。
进一步的,所述采用自动编码器对结构信息进行编码包括:
对于每个子图,其邻接矩阵为A={a1,a2,...,an},其中ai是A中的一行,代表与节点i相邻的节点,将所述邻接矩阵输入编码器,得到节点i的潜在表示如下:
hi (1)=δ(W(1)ai+b(1)),
hi (k)=δ(W(k)hi (k-1)+b(k)),
其中k为编码器层,W(k)∈Rd为第k层的参数矩阵,b(k)∈Rd为偏差,δ为激活函数;
自编码器的目标函数是最小化输入和输出的重构误差,所述自编码器的目标函数数学表示如下:
进一步的,所述应用异构图神经网络模块对输入子图进行编码包括:
根据节点类型对子图的节点进行分组,即,将类型相同的节点分组在一起;
通过注意力机制结合所述特定类型的隐藏嵌入来生成给定节点的最终嵌入表示,公式表示为:
进一步的,将所述节点嵌入输入异构图神经网络模块进行训练更新包括:
所述对比模块使用READOUT函数总结子图的节点嵌入集合H以生成子图嵌入g,即:g=READOUT(H),其中READOUT是任何置换不变函数,对比学习中的正样本是来自给定子图的节点,负样本是来自其他子图的节点;
计算元训练过程的联合损失;
给定支持集GT和查询集G'T,为支持任务TT中的每个学习任务调整初始模型参数θ到θ'T,利用一批训练样本来计算更新后的参数θ'T;
在元测试阶段,使用最终更新的参数θ*重复上述过程。
进一步的,所述计算元训练过程的联合损失的过程如下:
利用判别器D(hi,g)来计算该节点和子图对之间的概率分数,所述判别器的对比损失函数表示为:
这样,节点嵌入hi和子图嵌入g之间的互信息通过正负样本之间的Jensen-Shannon散度最大化,其中H为子图的节点嵌入,H’为另一个子图的负节点嵌入;
使用有监督信号来计算训练有监督损失:
在子图嵌入之上应用多层感知器得到预测标签,数学表示为:
计算所述预测标签和真实标签yi之间的交叉熵损失,即有监督损失的数学表示如下:
其中m表示样本数,k为支持集的节点嵌入,q为查询集的节点嵌入,γ为温度超参数;
对于给定的任务Ti,元训练过程的联合损失是所述对比损失函数和所述有监督损失函数的组合,数学表示如下:
其中λ为权衡参数;
所述联合损失的计算用于支持集得到所述支持损失函数,用于查询集得到所述查询损失函数。
进一步的,所述利用一批训练样本来计算更新后的参数θ'T的过程表示如下:
其中∈为步长;
假设任务分布为TT~p(T),使用随机梯度下降来更新查询集中所有任务的模型参数,更新过程如下:
η(TT)计算如下:
进一步的,所述餐厅评论网络属于异构信息网络,由多种类型的节点和边构成,所述节点包括顾客节点、餐厅节点、点评节点和食物节点,所述边表示节点之间的关联关系。
本发明的有益效果如下:
提出了一个元学习模型META-HIN来处理异构信息网络中的少样本学习问题。
对要训练的子图进行采样,使META-HIN可以在不同的异构信息网络之间迁移。
采用结构模块、异构模块和对比模块分别捕获子图的结构信息、异构特征和未标记信息。
META-HIN在多个异构信息网络的任务上均显著优于最新技术。
附图说明
图1为本发明的元学习框架图;
图2为本发明异构GNN模块的框架;
图3为本发明对比模块的框架。
具体实施方式
下面结合附图对本发明作进一步的说明,但不以任何方式对本发明加以限制,基于本发明教导所作的任何变换或替换,均属于本发明的保护范围。
令G=(V,E,T)表示一个异构信息网络,其中V和E分别表示节点集和边集;TV和TE分别表示节点类型集和边类型集。一个异构信息网络是|TV|>1和/或|TE|>1的网络。本发明使用G={G1,G2,...,GN}表示一组图,使用Y={y1,y2,...,yM}表示标签集。只有少数几个标记节点被给出,而本发明的研究目标是学习元学习器的初始参数θ,然后使学习器适应新的图和任务。
图1给出了所提出的异构信息网络元学习框架(META-HIN)的框架图。在元学习框架下,在一个k-shot元训练阶段中,对于每个从分布p(T)中采样的任务TT,只有k个数据样本用于训练(即支持集,表示为GT),其余数据样本将用于测试(即查询集,表示为G’T)。在元训练期间,参数θ将首先在支持集上更新,然后使用一些损失函数在查询集上进一步优化。经过充分的训练后,元测试就是利用上述参数处理只有k个样本(作为支持集)的新任务。由于元训练和元测试数据不是自然存在的,因此需要一些采样策略来构建数据集。
在后续部分,本发明分别描述了(1)采样策略,它为异构信息网络的元学习生成适当的数据;(2)结构模块,充分利用和捕捉异构信息网络的结构特征;(3)元学习模块,有效训练模型学习处理多个图和新任务。
采样策略:为了构建元训练和元测试数据集,本发明从给定的图集G中对子图进行采样。与整个图相比,对局部子图进行采样不会导致必要信息的丢失。由于仅使用少数几个节点很难在整个图中传播信息,因此本发明还选择对子图进行采样以进行训练和测试。此外,对子图进行采样还使本发明的模型能够在不同的图之间迁移知识。
具体来说,为了形成子图,本发明首先根据给定标记节点的相邻节点的结构重要性对其进行排序。为了衡量结构重要性,本发明采用了节点中心性概念。本发明纳入了三个中心性度量,即(1)介数中心性,(2)特征向量中心性和(3)接近中心性。介数中心性用来衡量通过给定节点的最短路径的比例。特征向量中心性计算节点对其相邻节点的影响。接近中心性用于计算给定节点与其他节点之间的最短路径的总长度。本发明为这些度量分配了可学习的权重。
接下来,本发明采用由排序引导的异构游走来构建子图,从而捕获相邻节点的异构和结构特征。游走伴随重启;它将迭代地从一个节点移动到其相邻节点。该过程从给定的节点开始,首先到达具有更高优先级的节点,这就是游走由排序引导的原因。收集到预定数量的节点后,游走才会停止。为了使模型具有异构性,本发明限制了序列中收集不同类型节点的数量,使每一种类型的节点都能包含在内。
与随机游走、广度优先搜索或深度优先搜索等传统的采样策略不同,本发明的采样策略能够通过选择优先级较高的节点,为每个节点提取重要且有影响力的相邻节点;这使本发明能够捕捉到更多具有代表性的邻域结构信息。本发明的采样策略能够为每个邻域收集所有类型的节点,而传统策略忽略了节点的类型。
结构模块:在应用元学习模块将知识迁移到不同的任务和图之前,本发明首先引入了一个结构模块来保留子图的结构信息。
具体来说,本发明采用了自动编码器机制来保留图结构。对于每个子图,其邻接矩阵为A={a1,a2,...,an},其中ai是A中的一行,代表与节点i相邻的节点。然后将其输入编码器,得到节点i的潜在表示如下:
hi (1)=δ(W(1)ai+b(1)), (1)
hi (k)=δ(W(k)hi (k-1)+b(k)), (2)
其中k为编码器层,在实验中本发明将其设置为2,W(k)∈Rd为第k层的参数矩阵,b(k)∈Rd为偏差,δ为激活函数。
这种重构标准使得具有相似结构的节点有相似的表示。为了缓解稀疏性问题,本发明对非零元素施加了比零元素更多的惩罚。则损失函数表示为:
元学习模块:在表示完子图的结构信息后,本发明引入元学习框架来处理少样本设置。首先引入异构GNN(图神经网络)模块对子图进行编码。然后使用对比模块来利用未标记信息。
1)异构GNN模块:本发明首先根据节点类型对子图的节点进行分组,即,将类型相同的节点分组在一起。然后本发明对这些组应用双向长短期记忆网络来提取特定于类型的特征。图2详细介绍了异构GNN模块。群组的第i个节点的表示为xi。那么经过双向长短期记忆网络层之后类型Tj的隐藏表示可以表示为:
fi=δ(Wxfxi+Whihi-1+Wcfci-1+bf), (8)
zi=tanh(Wxcxi+Whchi-1+bc), (9)
ci=fi⊙ci-1+ji⊙zi, (10)
oi=δ(Wxoxi+Whohi-1+Wcoci+bo), (11)
hi=oitanh(ci), (12)
其中表示输出隐藏表示,和为可学习的参数,分别表示权重和偏差;δ表示激活函数;ji、fi、oi分别为输入门向量、遗忘门向量和输出门向量。前向和反向LSTM的输出将进一步连接,同时一个平均池化层生成特定类型的隐藏嵌入。
本发明通过注意力机制结合特定类型的嵌入来生成给定节点的最终表示。使用注意力机制的原因是考虑到不同类型的节点可能会对给定节点产生不同的影响。公式表示为,
2)对比模块:先前提出的元学习模型忽略了少样本设置中的无监督信息。然而,仅使用有监督信号可能会限制性能,因为可能只有少数标记节点可用。因此,本发明引入了一个对比模块来充分利用图中的未标记节点。
图3为对比模块。在结构模块和异构GNN模块之后,本发明获得子图的节点嵌入,表示为H={h1,h2,...,hn}。然后本发明使用READOUT函数总结子图的节点嵌入以生成子图嵌入g。即
g=READOUT(H), (15)
其中READOUT可以是任何置换不变函数;本发明在这里简单地使用平均池化。本发明的目标是最大化节点表示和子图表示之间的互信息。实现这一目标后,子图表示能够表示所有子结构共享的数据的各个方面。
对于对比学习,对于给定的子图,正样本是属于该子图的节点,负样本是来自其他子图的节点。与其他需要生成负样本的对比模型不同,本发明直接将同一任务中的其他子图作为负样本。注意,一项任务中不会有重复的节点。另一个子图的负节点嵌入表示为H={h′1,h′2,...,h′n}。
接着,本发明利用一个判别器D(hi,g)来计算该节点和子图对之间的概率分数。如果节点属于子图,分数会更高。
为了定义损失函数,本发明采用了一个噪声对比型目标函数,在正样本和负样本之间有标准的二元交叉熵损失。目标函数可以表示为:
这样,节点嵌入hi和子图嵌入g之间的互信息通过正负样本之间的Jensen-Shannon散度最大化。注意在给定子图中获得的每个节点嵌入都需要使用该子图的表示来计算互信息。
3)有监督损失:这里本发明使用有监督信号来计算训练损失。
对于节点分类任务,本发明首先在子图嵌入之上应用多层感知器(MLP),表示为:
异常检测可以视为二元分类任务。不过,本发明不是简单地采用二元熵损失,而是借用对比学习的思想并利用对比损失。具体来说,对于链路预测,现有链路是正信号,对于异常检测,异常节点是正信号。注意,链路预测可以通过子图中的一对节点来实现。接着,本发明引入噪声对比估计(NCE)损失,如下所示:
其中k为支持集的节点嵌入,q为查询集的节点嵌入,γ为温度超参数,本发明设置γ=0.2。
4)联合损失:对于给定的任务Ti,元训练过程的联合损失可能是对比损失和有监督损失的组合。在数学上,
其中λ为权衡参数,优选的,在本实施例中设置λ=0.2。
5)基于优化的元学习:本发明引入了基于优化的元学习方法MAML,以在图和任务之间迁移知识。给定支持集GT和查询集G'T,优化方法首先立地为支持TT中的每个学习任务调整初始模型参数θ到θ'T。将利用一批训练样本来计算更新后的参数θ'T。此过程可以表示如下:
其中∈为步长。
假设任务分布为TT~p(T),然后本发明使用随机梯度下降(SGD)来更新查询集中所有任务的模型参数。更新过程如下,
其中μ为元学习率,为TT的查询集上的联合损失。请注意,不同的任务可能对元学习器的贡献不同。因此这里本发明添加了一个自注意力层来衡量任务权重本发明首先计算任务嵌入。给定任务TT,它的表示计算为TT的所有节点嵌入的平均值,如下所示:
然后η(TT)计算如下:
在元测试阶段,本发明使用最终更新的参数θ*重复上述过程。本发明从所有元训练任务的知识中学习θ*,它是快速适应未预见的任务的最佳参数。
META-HIN的整个学习过程如算法一所示。给定异构图和随机初始化参数θ作为输入,该算法首先通过其异构子图采样策略构建支持集和查询集(第1行)。然后本发明对一批任务采样(第3行),对于所有任务,本发明对k个支持图实例采样(第5行)。接着,本发明对采样图进行迭代(第6-10行),在每个图中,本发明首先生成结构节点嵌入,然后将它们输入异构GNN模块进行更新。根据节点嵌入获得任务嵌入(第11行)。然后本发明计算损失函数(第12行)并根据损失更新参数(第13行)。接着,本发明对n个查询图实例进行采样(第14行),并按照与支持集类似的过程来学习节点嵌入和损失函数(第15-20行)。最后计算任务权重(第22行)以更新最终的适应参数θ(第23行)。
下面本发明将详细介绍数据集、基线模型和参数设置。
数据集:本发明首先采用三个学术图网络,即(1)OAG、(2)DBLP和(3)AMiner,它们均为具有(1)作者、(2)文献、(3)出版平台、(4)主题四种节点类型的异构信息网络。对于标签信息,将这些网络中的作者分成四个方面:(1)信息检索,(2)数据库,(3)数据挖掘和(4)机器学习。与之前大多数关注单个图的研究不同,这里本发明将OAG、DBLP和AMiner数据集混合来构建一个名为ODA的新数据集。支持集和查询集是从ODA中随机抽样的。OAG、DBLP和AMiner数据集都来自同一领域。本发明加入另外两个具有完全不同领域的社交图。一个是YELP包含餐厅点评和四种类型的节点:(1)顾客、(2)餐厅、(3)点评和(4)食物相关关键词。餐厅的标签有(1)中餐、(2)快餐和(3)寿司店。本发明添加的另一个社交图是YAGO,它包含电影信息,有五种节点:(1)电影、(2)导演、(3)演员、(4)制片人和(5)作曲人。这些电影的标签为(1)动作、(2)冒险、(3)科幻、(4)犯罪和(5)恐怖。然后,本发明创建了两个混合数据集。一个是组合OAG和YELP,表示为OYE;另一个是组合OAG和YAGO,表示为OYA。数据集统计数据如表一所示。
表一:数据集统计数据。
数据集 | 节点数 | 边数 | 节点类型数 | 标签数 |
OAG | 432,362 | 1,837,362 | 5 | 4 |
DBLP | 357,362 | 1,547,364 | 5 | 4 |
AMiner | 263,473 | 1,022,362 | 5 | 4 |
ODA | 1,053,197 | 4,407,088 | 5 | 4 |
YELP | 213,476 | 1,622,327 | 4 | 3 |
OYE | 645,838 | 3,459,689 | 9 | 7 |
YAGO | 273,276 | 2,452,371 | 5 | 5 |
OYA | 705,638 | 4,289,733 | 10 | 9 |
本发明要分析节异常检测任务,为简单起见,对于该任务的单图实验,本发明选择放大单个大图,即分析OAG。
用于比较的算法:本发明采用了两种直接基于有监督信息训练的GNN模型,即GCN(一种谱图模型)和GraphSage(一种时空模型)。
本发明还包括了为图的少样本问题设计的几个基线。Meta-Graph引入了图签名功能来实现链路预测。Meta-GNN引入了MAML框架并利用简单图构造(SGC)[40]来学习图特征。G-META同样基于MAML框架并选择GIN作为编码器;它还引入了原形损失。Meta-MGNN i基于元学习框架,通过生成学习使用未标记信息。Meta-GDN着重于异常检测,并提供基于元学习框架的偏差损失。注意只有G-META能够处理多图设置;其他的都是为单图设计的。
为了增加用于在多图场景中比较的模型数量,本发明还包括了几个非专为图数据设计的元学习基线。它们的元训练和元测试数据集也是通过本发明的采样策略构建的,以便其学习机制可以应用于不同的图。KNN首先使用GNN嵌入元训练集,每个查询示例通过支持集中投票的K个最近示例的标签表示。Finetune首先学习元训练集的嵌入,然后在元测试集上对模型进行微调。ProtoNet在每个子图嵌入上采用原型学习,然后遵循标准的少样本学习程序。MAML选择MAML框架作为元学习器,而不是ProtoNet。
参数:按照本发明的采样策略,本发明将由排序引导的异构游走长度设置为20,换句话说,子图中的节点数为20。训练任务中的更新步骤设置为10,测试任务中的更新步骤设置为20。本发明为每个任务使用10个样本。在实践中,训练、测试和验证数据集的百分比分别设置为80%、10%和10%。
在链路预测中,本发明为支持集切分了30%的边,为查询集切分了70%的边;负边是随机采样的,具有相同数量的正边。
本发明模型中所有嵌入的维数都设置为128。本发明使用网格搜索查找最佳参数配置。任务编号从{4;8;16;32;64}中选取;内部更新学习率∈从{0:01;0:005;0:001;0:0005}中选取,元级学习率μ从{0:01;0:005;0:001;0:0005}中选取。最优参数是特定于任务的。对于其他模型,本发明采用源出版物中报告的最佳配置。
本发明使用成对的双尾t检验报告统计显著性,并且本发明用▲标记了META-HIN相对于最佳基线的显著改善(p<0.05)。
下面本发明将介绍META-HIN在异常检测任务上的结果。本发明还进行了消融分析,研究了参数的敏感性。
A.任务结果
这里本发明报告异常检测任务的结果。本发明采用多类别分类精度(表示为ACC)和F1值作为本发明的评价指标(五倍平均)。
表二显示了在异常检测任务上的实验结果;最高得分用粗体显示,还给出了标准差。N/A表示模型无法实现图元学习。
表二:异常检测任务结果
本发明的模型META-HIN在每个数据集上均显著地优于基线,这验证了模型的有效性。具体来说,GCN和GraphSage由于缺乏特定的少样本学习特性,表现最差;它们是以端到端受监督的方式训练的,但是只有少数几个标记节点可以被利用。Meta-GNN在整个图上训练,这限制了它的性能,也说明了本发明的子图采样策略的有效性。子图足以捕获局部特征,而整个图可能引入噪声,还可能因太稀疏而无法训练。
对于单个图,Meta-MGNN是表现最好的基线,因为它还利用了使用生成学习的未标记信息。然而,META-HIN仍然优于它,本发明将此归因于这样一个事实,即除了无监督信息之外,本发明的模型利用了结构信息和异构特征。
此外,对于为图元学习设计的模型,只有G-META和META-HIN可以在不同的图上应用。META-HIN在每个数据集上的表现都优于G-META;这体现了本发明的结构模块、对比模块和异构GNN模块的优势。对于其他的少样本学习方法——KNN、Finetune、ProtoNet和MAML,META-HIN在不同图上的学习性能都优于它们,这一结果也符合META-HIN的元学习框架对图数据更有效的结论。
表三:OYE数据集的消融分析结果。
表四:OYA数据集的消融分析结果。
B.消融分析
本发明通过消融分析来分析模型中不同组件的影响。为了评估结构模块的影响,本发明增加了一个变体,表示为META-HIN\结构,其中去掉了结构模块。为了评估对比模块的影响,本发明引入了一个变体,表示为META-HIN\对比,其中去掉了结构模块。
对于异构GNN模块,因为本发明还需要用一个编码器对子图特征进行编码,不能只是去掉此模块。因此,本发明引入了三个变体进行比较。也就是说,本发明的异构GNN模块分别被GCN、GraphSage和GIN取代,分别表示为META-HIN(GCN)、META-HIN(GraphSage)和META-HIN(GIN)。
为了评估对比损失在链路预测和异常检测任务中的影响,本发明引入了一个基于传统的二元交叉熵损失的变体,表示为META-HIN(BCE)。
为了评估自注意力机制对计算任务权重的影响,本发明引入了一个为每个任务分配相同权重的变体,表示为META-HIN(相同)。
本发明还评估了采样策略的影响。本发明引入了三个变体进行比较。第一个变体使用广度优先搜索(BFS)策略,表示为META-HIN(BFS);第二个变体使用深度优先搜索(DFS)策略,表示为META-HIN(DFS);第三个变体对相邻节点进行随机采样,表示为META-HIN(随机)。
回想一下,在应用采样策略之前,本发明采用三个中心性度量来衡量节点的重要性。在此,本发明引入了三个变体以评估这些中心性度量的影响。第一个变体不包括介数中心性,表示为META-HIN\中介;第二个变体不包括特征向量中心性,表示为META-HIN\特征向量;第三个变体不包括接近中心性,成为META-HIN\接近。每个变体为两个剩下的中心性度量分配相同的权重。
本发明报告了OYE和OYA数据集的实验结果;关于OAG和ODA的结果在质量上是相似的。
表三和表四显示了消融分析的实验结果。本发明发现结构模块和对比模块在元学习任务中都起着至关重要的作用,一个是捕获图的结构信息,另一个是描述无监督信息。更具体地说,对比模块的影响比结构模块的大,因为去掉对比模块会导致更大幅度的性能下降。
对于异构GNN模块的替代,所有变体(即META-HIN(GCN)、META-HIN(GraphSage)和META-HIN(GIN))的性能均比META-HIN差,本发明将其归因于META-HIN利用了异构信息。
使用BCE损失而非对比损失的META-HIN变体性能比META-HIN差,这是由于对比损失函数通过最大限度地分离正样本和负样本,能够更好地区分二进制标签。
对于可选的采样策略,META-HIN(BFS)的性能优于META-HIN(DFS)和META-HIN(随机),这说明聚合一个节点的最邻近节点比采样远节点或随机选择的节点更有代表性。反过来,META-HIN的性能也优于META-HIN(BFS);通过选择重要性较高的节点生成子图,可以更好地描述节点的邻域信息。
最后,每个中心性度量都对实证性能有影响,且影响程度在不同任务中有所不同。这证实了本发明选择对其采用可学习权重。
总之,本发明为META-HIN组件所做的各项设计选择都是合理的,因为明显的替代方案会导致整体性能下降。
本发明的有益效果如下:
提出了一个元学习模型META-HIN来处理异构信息网络中的少样本学习问题。
对要训练的子图进行采样,使META-HIN可以适用于三个任务,并且可以在不同的异构信息网络之间迁移。
采用结构模块、异构模块和对比模块分别捕获子图的结构信息、异构特征和未标记信息。
META-HIN在多个异构信息网络的三个任务上均显著优于最新技术。
本发明所使用的词语“优选的”意指用作实例、示例或例证。本发明描述为“优选的”任意方面或设计不必被解释为比其他方面或设计更有利。相反,词语“优选的”的使用旨在以具体方式提出概念。如本申请中所使用的术语“或”旨在意指包含的“或”而非排除的“或”。即,除非另外指定或从上下文中清楚,“X使用A或B”意指自然包括排列的任意一个。即,如果X使用A;X使用B;或X使用A和B二者,则“X使用A或B”在前述任一示例中得到满足。
而且,尽管已经相对于一个或实现方式示出并描述了本公开,但是本领域技术人员基于对本说明书和附图的阅读和理解将会想到等价变型和修改。本公开包括所有这样的修改和变型,并且仅由所附权利要求的范围限制。特别地关于由上述组件(例如元件等)执行的各种功能,用于描述这样的组件的术语旨在对应于执行所述组件的指定功能(例如其在功能上是等价的)的任意组件(除非另外指示),即使在结构上与执行本发明所示的本公开的示范性实现方式中的功能的公开结构不等同。此外,尽管本公开的特定特征已经相对于若干实现方式中的仅一个被公开,但是这种特征可以与如可以对给定或特定应用而言是期望和有利的其他实现方式的一个或其他特征组合。而且,就术语“包括”、“具有”、“含有”或其变形被用在具体实施方式或权利要求中而言,这样的术语旨在以与术语“包含”相似的方式包括。
本发明实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以多个或多个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。上述提到的存储介质可以是只读存储器,磁盘或光盘等。上述的各装置或系统,可以执行相应方法实施例中的存储方法。
综上所述,上述实施例为本发明的一种实施方式,但本发明的实施方式并不受所述实施例的限制,其他的任何背离本发明的精神实质与原理下所做的改变、修饰、代替、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (10)
1.基于异构信息网络元学习架构的异常检测方法,其特征在于,包括以下步骤:
获取餐厅评论网络的原始图;
使用异构子图采样策略从原始图中对子图进行采样,以形成元训练和元测试数据集的支持集和查询集;
对支持集中多个支持图实例采样;
对采样图进行迭代,在每个子图中应用具有自动编码器机制的结构模块来生成结构节点嵌入,然后将所述节点嵌入输入异构图神经网络模块进行训练更新,在计算支持损失函数之前使用对比模块以利用无监督信息;
根据节点嵌入获得任务嵌入;
计算支持损失函数并根据支持损失更新参数;
对多个查询图实例进行采样,并按照与支持集相同的训练过程来学习节点嵌入和查询损失函数;
计算任务权重以更新最终的适应参数θ,进行异常检测;
根据异常检测结果对原始图相应的产品或节点进行异常标注。
2.根据权利要求1所述的基于异构信息网络元学习架构的异常检测方法,其特征在于,所述使用异构子图采样策略从原始图中对子图进行采样,以形成元训练和元测试数据集的支持集和查询集包括:
为了形成子图,根据给定标记节点的相邻节点的结构重要性对相邻节点进行排序;
采用由排序引导的异构游走来构建子图,从而捕获相邻节点的异构和结构特征;所述异构游走迭代地从一个节点移动到其相邻节点,该过程从给定的节点开始,首先到达具有更高优先级的节点,收集到预定数量的节点后,游走才会停止,在游走过程中限制序列中收集不同类型节点的数量,使每一种类型的节点都能包含在内。
3.根据权利要求2所述的基于异构信息网络元学习架构的异常检测方法,其特征在于,所述给定标记节点的相邻节点的结构重要性的衡量指标为节点中心性度量,所述节点中心性度量包括介数中心性、特征向量中心性和接近中心性,并为所述介数中心性、特征向量中心性和接近中心性分配可学习的权重;所述介数中心性用来衡量通过给定节点的最短路径的比例,所述特征向量中心性计算节点对其相邻节点的影响,所述接近中心性用于计算给定节点与其他节点之间的最短路径的总长度。
4.根据权利要求1所述的基于异构信息网络元学习架构的异常检测方法,其特征在于,所述在每个子图中应用具有自动编码器机制的结构模块来生成结构节点嵌入包括:
采用自动编码器对结构信息进行编码;
应用异构图神经网络模块对输入子图进行编码,生成最终的节点嵌入。
5.根据权利要求4所述的基于异构信息网络元学习架构的异常检测方法,其特征在于,所述采用自动编码器对结构信息进行编码包括:
对于每个子图,其邻接矩阵为A={a1,a2,...,an},其中ai是A中的一行,代表与节点i相邻的节点,将所述邻接矩阵输入编码器,得到节点i的潜在表示如下:
hi (1)=δ(W(1)ai+b(1)),
hi (k)=δ(W(k)hi (k-1)+b(k)),
其中k为编码器层,W(k)∈Rd为第k层的参数矩阵,b(k)∈Rd为偏差,δ为激活函数;
自编码器的目标函数是最小化输入和输出的重构误差,所述自编码器的目标函数数学表示如下:
6.根据权利要求4所述的基于异构信息网络元学习架构的异常检测方法,其特征在于,所述应用异构图神经网络模块对输入子图进行编码包括:
根据节点类型对子图的节点进行分组,即,将类型相同的节点分组在一起;
通过注意力机制结合所述特定类型的隐藏嵌入来生成给定节点的最终嵌入表示,公式表示为:
7.根据权利要求1所述的基于异构信息网络元学习架构的异常检测方法,其特征在于,将所述节点嵌入输入异构图神经网络模块进行训练更新包括:
所述对比模块使用READOUT函数总结子图的节点嵌入集合H以生成子图嵌入g,即:g=READOUT(H),其中READOUT是任何置换不变函数,对比学习中的正样本是来自给定子图的节点,负样本是来自其他子图的节点;
计算元训练过程的联合损失;
给定支持集GT和查询集G'T,为支持任务TT中的每个学习任务调整初始模型参数θ到θ'T,利用一批训练样本来计算更新后的参数θ'T;
在元测试阶段,使用最终更新的参数θ*重复上述过程。
8.根据权利要求1所述的基于异构信息网络元学习架构的异常检测方法,其特征在于,所述计算元训练过程的联合损失的过程如下:
利用判别器D(hi,g)来计算该节点和子图对之间的概率分数,所述判别器的对比损失函数表示为:
这样,节点嵌入hi和子图嵌入g之间的互信息通过正负样本之间的Jensen-Shannon散度最大化,其中H为子图的节点嵌入,H’为另一个子图的负节点嵌入;
使用有监督信号来计算训练有监督损失:
在子图嵌入之上应用多层感知器得到预测标签,数学表示为:
计算所述预测标签和真实标签yi之间的交叉熵损失,即有监督损失的数学表示如下:
其中m表示样本数,k为支持集的节点嵌入,q为查询集的节点嵌入,γ为温度超参数;
对于给定的任务Ti,元训练过程的联合损失是所述对比损失函数和所述有监督损失函数的组合,数学表示如下:
其中λ为权衡参数;
所述联合损失的计算用于支持集得到所述支持损失函数,用于查询集得到所述查询损失函数。
10.根据权利要求1所述的基于异构信息网络元学习架构的异常检测方法,其特征在于,所述餐厅评论网络属于异构信息网络,由多种类型的节点和边构成,所述节点包括顾客节点、餐厅节点、点评节点和食物节点,所述边表示节点之间的关联关系。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111476607 | 2021-12-06 | ||
CN2021114766073 | 2021-12-06 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114239712A true CN114239712A (zh) | 2022-03-25 |
Family
ID=80755648
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111525204.3A Pending CN114239712A (zh) | 2021-12-06 | 2021-12-14 | 基于异构信息网络元学习架构的异常检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114239712A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114724043A (zh) * | 2022-06-08 | 2022-07-08 | 南京理工大学 | 基于对比学习的自编码器异常检测方法 |
CN114743678A (zh) * | 2022-04-29 | 2022-07-12 | 山东大学 | 一种基于改进gdn算法的智能手环生理指标异常分析方法及系统 |
CN115062191A (zh) * | 2022-08-16 | 2022-09-16 | 国网智能电网研究院有限公司 | 基于异构图的数据交互的异常行为检测方法及装置 |
CN115081585A (zh) * | 2022-05-18 | 2022-09-20 | 北京航空航天大学 | 一种强化异构图神经网络的人机物协同异常状态检测方法 |
CN115098563A (zh) * | 2022-07-14 | 2022-09-23 | 中国海洋大学 | 基于gcn和注意力vae的时序异常检测方法及系统 |
CN114743678B (zh) * | 2022-04-29 | 2024-10-29 | 山东大学 | 一种基于改进gdn算法的智能手环生理指标异常分析方法及系统 |
-
2021
- 2021-12-14 CN CN202111525204.3A patent/CN114239712A/zh active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114743678A (zh) * | 2022-04-29 | 2022-07-12 | 山东大学 | 一种基于改进gdn算法的智能手环生理指标异常分析方法及系统 |
CN114743678B (zh) * | 2022-04-29 | 2024-10-29 | 山东大学 | 一种基于改进gdn算法的智能手环生理指标异常分析方法及系统 |
CN115081585A (zh) * | 2022-05-18 | 2022-09-20 | 北京航空航天大学 | 一种强化异构图神经网络的人机物协同异常状态检测方法 |
CN115081585B (zh) * | 2022-05-18 | 2024-06-21 | 北京航空航天大学 | 一种强化异构图神经网络的人机物协同异常状态检测方法 |
CN114724043A (zh) * | 2022-06-08 | 2022-07-08 | 南京理工大学 | 基于对比学习的自编码器异常检测方法 |
CN114724043B (zh) * | 2022-06-08 | 2022-09-02 | 南京理工大学 | 基于对比学习的自编码器异常检测方法 |
CN115098563A (zh) * | 2022-07-14 | 2022-09-23 | 中国海洋大学 | 基于gcn和注意力vae的时序异常检测方法及系统 |
CN115098563B (zh) * | 2022-07-14 | 2022-11-11 | 中国海洋大学 | 基于gcn和注意力vae的时序异常检测方法及系统 |
CN115062191A (zh) * | 2022-08-16 | 2022-09-16 | 国网智能电网研究院有限公司 | 基于异构图的数据交互的异常行为检测方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Deep learning on graphs: A survey | |
Duval et al. | Graphsvx: Shapley value explanations for graph neural networks | |
Wang et al. | Linkage based face clustering via graph convolution network | |
CN114239711A (zh) | 基于异构信息网络少样本学习的节点分类方法 | |
Wang et al. | One-class graph neural networks for anomaly detection in attributed networks | |
Zeng et al. | Graphsaint: Graph sampling based inductive learning method | |
CN114239712A (zh) | 基于异构信息网络元学习架构的异常检测方法 | |
Arya et al. | Hypersage: Generalizing inductive representation learning on hypergraphs | |
Yang et al. | IoT data analytics in dynamic environments: From an automated machine learning perspective | |
Munikoti et al. | Scalable graph neural network-based framework for identifying critical nodes and links in complex networks | |
Fu et al. | Deep reinforcement learning framework for category-based item recommendation | |
Xu et al. | Graph partitioning and graph neural network based hierarchical graph matching for graph similarity computation | |
Sahmoud et al. | A general framework based on dynamic multi-objective evolutionary algorithms for handling feature drifts on data streams | |
Gu et al. | Link prediction via graph attention network | |
Marshall et al. | A neural network approach for truth discovery in social sensing | |
Zhang et al. | Ricci curvature-based graph sparsification for continual graph representation learning | |
Teji et al. | Predicting missing links in gene regulatory networks using network embeddings: A qualitative assessment of selective embedding techniques | |
CN114219075A (zh) | 一种少样本学习异构信息网络的链路预测方法 | |
Čavojský et al. | Comparative Analysis of Feed-Forward and RNN Models for Intrusion Detection in Data Network Security with UNSW-NB15 Dataset | |
EP4028952A1 (en) | Node disambiguation | |
Balvir et al. | A Comprehensive Survey on Learning Based Methods for Link Prediction Problem | |
Bordoni et al. | Convolutional neural network based decoders for surface codes | |
Park et al. | MetaGL: Evaluation-free selection of graph learning models via meta-learning | |
Lv et al. | Multi-scale graph pooling approach with adaptive key subgraph for graph representations | |
CN117273060A (zh) | 一种基于影响函数的数据优化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |