CN113569906B - 基于元路径子图的异质图信息提取方法和装置 - Google Patents
基于元路径子图的异质图信息提取方法和装置 Download PDFInfo
- Publication number
- CN113569906B CN113569906B CN202110649772.8A CN202110649772A CN113569906B CN 113569906 B CN113569906 B CN 113569906B CN 202110649772 A CN202110649772 A CN 202110649772A CN 113569906 B CN113569906 B CN 113569906B
- Authority
- CN
- China
- Prior art keywords
- node
- heterogeneous
- graph
- subgraph
- nodes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 40
- 239000013598 vector Substances 0.000 claims abstract description 81
- 238000000034 method Methods 0.000 claims abstract description 58
- 238000006243 chemical reaction Methods 0.000 claims abstract description 23
- 238000013507 mapping Methods 0.000 claims abstract description 9
- 238000012549 training Methods 0.000 claims description 49
- 230000006870 function Effects 0.000 claims description 42
- 238000003062 neural network model Methods 0.000 claims description 35
- 238000012360 testing method Methods 0.000 claims description 26
- 230000007246 mechanism Effects 0.000 claims description 25
- 230000002776 aggregation Effects 0.000 claims description 18
- 238000004220 aggregation Methods 0.000 claims description 18
- 238000009826 distribution Methods 0.000 claims description 17
- 230000004913 activation Effects 0.000 claims description 15
- 238000004422 calculation algorithm Methods 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 13
- 230000009466 transformation Effects 0.000 claims description 13
- 238000005070 sampling Methods 0.000 claims description 11
- 238000011176 pooling Methods 0.000 claims description 10
- 230000004931 aggregating effect Effects 0.000 claims description 8
- 238000000354 decomposition reaction Methods 0.000 claims description 5
- 238000005096 rolling process Methods 0.000 claims description 5
- 230000006698 induction Effects 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000013459 approach Methods 0.000 claims description 3
- 238000012512 characterization method Methods 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 3
- 238000010801 machine learning Methods 0.000 abstract description 8
- 238000007418 data mining Methods 0.000 abstract description 7
- 230000003993 interaction Effects 0.000 description 16
- 230000000694 effects Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 13
- 238000011156 evaluation Methods 0.000 description 13
- 238000005295 random walk Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 11
- 238000013528 artificial neural network Methods 0.000 description 9
- 238000002474 experimental method Methods 0.000 description 8
- 238000011160 research Methods 0.000 description 8
- 238000013135 deep learning Methods 0.000 description 7
- 238000012706 support-vector machine Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000007812 deficiency Effects 0.000 description 4
- 238000010200 validation analysis Methods 0.000 description 4
- 238000003860 storage Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 235000014676 Phragmites communis Nutrition 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013079 data visualisation Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000010355 oscillation Effects 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提出了一种基于元路径子图的异质图信息提取方法,涉及异质图信息提取技术领域,其中,该方法包括:通过异质属性转换,将异质图包含的节点的属性映射到同一特征空间,生成对应的特征向量;根据元路径类别的不同对异质图进行分解,生成同质子图和异质子图;分别对同质子图和异质子图中节点的特征向量进行卷积,生成目标节点在不同子图中的特征表示;对目标节点在不同子图中的特征表示按照相应的权重进行融合,获取到每个节点的多重语义和多种子图结构。本发明可以很好地捕获同质邻居和异质邻居的结构、语义和属性信息,能够提供更加完善的节点特征表示,能够用于广泛的机器学习和图数据挖掘任务。
Description
技术领域
本申请涉及异质图信息提取技术领域,尤其涉及一种基于元路径子图的异质图信息提取方法和装置。
背景技术
图(Graph)或网络(Network)结构对现实数据提供了更加抽象化的表示,现实生活中大多数的数据都可以规范化为节点之间通过边相互连接的图的形式,比如社交网络、交通网络、蛋白质分子结构以及推荐系统等。深度学习技术近几年得到了突飞猛进的发展,研究人员将深度学习技术拓展到人脸识别、语音识别、机器翻译等研究领域,极大促进了人工智能的发展,相关产品在工业中落地并且在现实生活中得到了广泛的应用。然而大多数的深度学习技术都是针对欧式数据,对于图这类非结构化的数据难以直接应用。因此,设计能够挖掘图结构信息的深度学习模型具有很大的研究意义。
图表示学习(Graph Representation Learning)又称为图嵌入(GraphEmbedding)或者网络嵌入(Network Embedding)旨在将图结构映射到低维的向量空间,便于下游丰富的图数据挖掘任务。近年来,学者们提出了大量的图表示学习模型,比如基于矩阵分解的模型通过对图矩阵(邻接矩阵、拉普拉斯矩阵等)进行分解实现降维的目的,基于随机游走的模型通过定义图上的游走规则进行采样然后利用skip-gram模型生成节点的低维向量表示,基于深度学习的模型(图神经网络模型)将卷积神经网络、循环神经网络等模型应用到图数据中。尽管很多的图表示学习方法已经实现了很高的性能,但是其处理的数据大多数为节点或边类型相同的同质图(Homogeneous Graph)。然而现实世界中很多网络的节点或边具有一定的异质性,例如在学者网络中存在作者、论文、会议等节点类型,在电商网站中用户与商品节点的交互关系可能为点击、收藏、购买等。这种含有多个类型的节点或边的网络结构通常称为异质信息网络(Heterogeneous Information Network)或异质图(Heterogeneous Graph)。异质图中不同类型的节点之间的复杂交互使得其具有更加丰富的语义和结构信息,能够对真实世界的数据进行更好地刻画。
异质图中多类型的节点和关系之间存在复杂的交互,如何精确地提取出不同的语义信息成为研究的难点。现有的研究大多数以元路径为切入点,借助元路径对多类型节点和关系的引导,可以捕捉到异质图中的多重语义表示。目前基于元路径对异质图研究的工作大多数集中于元路径引导的同质子图,对异质节点之间交互的关注度不高。
异质图表示学习的目标是将异质图嵌入到低维的向量空间,由于异质图中节点和边的类型复杂多样,所蕴含的结构和语义信息也更加丰富。Dong等人设计了元路径引导的随机游走来获取不同类型节点交互的序列作为skip-gram模型的输入,然后获取每个节点的向量表示。Fu等人采用了多任务学习的思想同时获取节点和元路径的表示,其首先基于随机游走和负采样方法得到训练数据,然后应用神经网络有监督学习的形式最大化节点对之间的关系,得到节点和元路径的特征向量。Shi等人设计了基于元路径的随机游走方法采样同质节点序列,然后应用DeepWalk学习节点表示。Chen等人基于度量学习捕获异质图的一阶和二阶相似性,通过引入特征关系的投影嵌入矩阵,分别对节点和边在不同的空间进行建模。Zhang等人联合优化异构skip-gram和深度语义编码器,以捕获异构网络中节点的近似性和非结构化的语义关系。Gao等人提出了二分图的表示学习方法,将二分图中的节点按照类型分为两个同质图,并分别进行随机游走采样,利用负采样的方法训练每个节点的向量表示。上述的异质图表示学习模型大多数只针对图的结构,未考虑节点的属性。
近年来,学者们提出了大量基于深度学习的异质图模型。Wang等人先按照元路径生成多个同质图,使用注意力机制聚合同类型节点的信息,然后使用语义注意力机制聚合多条元路径的节点信息。Zhang等人同时考虑节点属性的异质性和结构的异质性,先对中心节点的邻居按照节点类型进行分组,然后利用两个Bi-LSTM分别将异质的属性和邻居进行融合。然而这些模型的信息传递只发生在同类型节点之间。Fu等人提出了元路径引导的聚合方法,将一条元路径实例中所包含的节点信息融合作为起始节点的信息,然后运用注意力机制来融合同一节点的多个元路径实例。除了元路径的处理方式,还存在一些基于其他方法论的异质图神经网络模型。Hong等人设计了节点类型感知的注意力层,通过联合不同类型的邻居节点和边的形式学习节点的低维表示。Hu等人提出了子图采样的方法,并且设计了图Transformer直接聚合异质邻居的信息。Hu等人采用生成对抗网络的思想同时训练判别器和生成器,可以学习节点的分布,生成更具代表性的负样本,获取更加具有鲁棒性的表示。
现有的模型仍存在以下不足:
大部分模型直接或间接地将异质图依照元路径转化为同质图的形式,然后对这些同质图进行相应的处理,忽略了异质邻居的属性和结构信息;
对于异质图中邻居节点类型的多样性,很多模型未加以明确地区分,而是将所有的异质邻居视为同一类型进行处理。这直接导致了异质图神经网络表达能力的不足。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的第一个目的在于提出一种基于元路径子图的异质图信息提取方法,解决了现有方法大部分模型直接或间接地将异质图依照元路径转化为同质图的形式进行相应处理,忽略了异质邻居的属性和结构信息的技术问题,同时解决了现有方法对于异质图中邻居节点类型的多样性未加以明确地区分,将所有的异质邻居视为同一类型进行处理导致异质图神经网络表达能力的不足的问题,设计基于元路径的异质图神经网络模型,将异质图表示学习任务分解为多个元路径子图的学习任务,在节点分类、节点聚类等多项任务中,利用多个数据集进行实验评估,实现了很好地捕获同质邻居和异质邻居的结构、语义和属性信息的目的,使得原始图中复杂的结构和语义信息以更加有针对性和高效的形式进行学习,在各项评估指标上都实现了最高的性能,提供了更加完善的节点特征表示,能够用于广泛的机器学习和图数据挖掘任务。
本申请的第二个目的在于提出一种异质图神经网络模型装置。
为达上述目的,本申请第一方面实施例提出了一种基于元路径子图的异质图信息提取方法,包括:通过异质属性转换,将异质图包含的节点的属性映射到同一特征空间,生成对应的特征向量;根据元路径类别的不同对异质图进行分解,生成同质子图和异质子图;分别对同质子图和异质子图中节点的特征向量进行卷积,生成目标节点在不同子图中的特征表示;对目标节点在不同子图中的特征表示按照相应的权重进行融合,获取到每个节点的完整表征,其中,完整表征包括多重语义和多种子图结构。
可选地,在本申请的一个实施例中,异质图中的节点经过异质属性转换后的特征向量为:
其中,v∈VA表示节点,为节点的类型,表示节点v原始的特征向量,h′v∈Rd′为转换后的特征向量,是节点类型A的线性转换矩阵。
可选地,在本申请的一个实施例中,对元路径子图分解,包括以下步骤:
根据元路径起始和终止节点的类型,将元路径分为两类:
P=Pt,t∈{ho,he}
其中,ho表示元路径起始和终止节点的类型一致,he表示起始和终止节点的类型不同;
根据元路径所连接的节点对,生成对应的子图,按照元路径的类别,将子图分为同质子图和异质子图,表示为:
Gt=Gho∪Ghe
其中,Gho表示同质子图,Ghe表示异质子图。
可选地,在本申请的一个实施例中,对同质子图中节点的特征向量进行卷积,包括以下步骤:
步骤S1:计算邻居节点对目标节点之间的重要性,表示为;
evu=attnode(h′v,h′u;G)
其中,evu表示邻居节点u对目标节点v的重要性程度,attnode为可学习的注意力机制网络层,h′v表示目标节点的特征向量,h′u表示邻居节点的特征向量,G∈Gho表示同质子图;
步骤S2:通过softmax函数将节点之间的重要性进行归一化得到邻居节点的权重系数,权重系数表示为:
其中,σ(·)表示非线性的激活函数,||表示拼接操作,a为可学习的注意力权重向量,h′v表示目标节点的特征向量,h′u表示邻居节点的特征向量,N(v)表示目标节点v在同质子图 G∈Gho中的所有一阶邻居;
步骤S3:根据权重系数对邻居节点的特征进行加权聚合得到目标节点的嵌入表示:
zv=σ(∑u∈N(v)αvu·h′u)
其中,σ(·)表示非线性的激活函数,N(v)表示目标节点v在同质子图G∈Gho中的所有一阶邻居,αvu表示权重系数,h′u表示邻居节点的特征向量;
步骤S4:重复进行步骤S1、步骤S2、步骤S3K次,对学习到的向量进行拼接,得到目标节点的特征表示,表示为:
其中,σ(·)表示非线性的激活函数,N(v)表示目标节点v在同质子图G∈Gho中的所有一阶邻居,αvu表示权重系数,h′u表示邻居节点的特征向量。
可选地,在本申请的一个实施例中,使用均值或池化或注意力机制方法对异质子图进行卷积。
可选地,在本申请的一个实施例中,使用均值对异质子图进行卷积,具体为对邻居节点的特征按照每个维度进行平均操作,生成目标节点的特征表示,表示为:
其中,MEAN函数为均值函数,h′u表示邻居节点的特征向量,N(v)表示目标节点v在异质子图G∈Ghe中的所有一阶邻居,
使用池化对异质子图进行卷积,首先对每个邻居节点的特征通过全连接层的变换,然后对邻居节点的特征按照维度进行最大池化操作,生成目标节点的特征表示,表示为:
其中,bpool∈Rd′和Wpool∈Rd′×d′是可学习的参数,h′u表示邻居节点的特征向量,N(v) 表示目标节点v在异质子图G∈Ghe中的所有一阶邻居。
可选地,在本申请的一个实施例中,使用注意力机制方法对异质子图进行卷积,包括以下步骤:
采用图注意力层自动学习异质邻居节点对目标节点的重要性:
其中,aG∈Rd′为异质子图G中的注意力参数向量,h′u表示邻居节点的特征向量,LeakyReLU为激活函数;
通过归一化重要性系数和加权聚合邻居节点的信息生成目标节点的特征表示,表示为:
其中,和为邻居节点的重要性,为归一化后的重要性系数,σ(·)表示非线性的激活函数,h′u表示邻居节点的特征向量,N(v)表示目标节点v在异质子图G∈Ghe中的所有一阶邻居。
可选地,在本申请的一个实施例中,对目标节点在不同子图中的特征表示按照相应的权重进行融合,包括以下步骤:
首先对目标节点在不同子图中的特征表示进行非线性转换,然后对每个子图中的所有节点特征进行平均,得到每个子图的重要性,表示为:
其中,VA表示类型为A的节点集合,为节点类型A的注意力参数变量,M为参数矩阵,和是可学习的参数,表示目标节点v在不同子图中的特征表示;
使用softmax函数对重要性进行归一化处理,然后对不同子图的特征进行加权处理,得到每个节点的完整表征,表示为:
其中,表示第k个子图的重要性,表示目标节点v在不同子图中的特征表示,GA表示所有由类型为A的节点生成的子图。
为达上述目的,本发明第二方面实施例提出了一种异质图神经网络模型装置,异质图神经网络模型包括属性转换模块、子图生成模块、图卷积模块、子图聚合模块,其中,
属性转换模块,用于进行异质属性的转换,将不同维度的属性映射到同一特征空间;
子图生成模块,用于进行元路径子图的分解,生成同质子图和异质子图;
图卷积模块,用于对同质子图和异质子图进行聚合,生成目标节点在不同子图中的特征表示;
子图聚合模块,用于对不同子图中的特征表示进行融合,生成节点的完整表征,其中,完整表征包括多重语义和多种子图结构。
可选地,在本申请的一个实施例中,在异质图神经网络模型的最后添加全连接层,将节点的完整表征转化为节点的类别,通过半监督学习或无监督学习训练异质图神经网络模型,其中,
半监督学习包括以下步骤:
获取一个未知分布的有标签的训练集和标签未知的测试集;
对训练集中的数据进行归纳学习得到推测模型;
使用推测模型对标签未知的测试集进行预测,得到测试集中数据的预测标签;
通过最小化标签节点的交叉熵并且利用反向传播和梯度下降算法来更新所有节点的参数:
其中,VL为有标签的训练集,yv表示有标签的训练集的标签分布,y′v表示测试集中数据的预测标签分布,
无监督学习通过负采样算法最小化以下损失函数达到优化参数的目的:
其中,σ(·)为sigmoid函数,V+代表存在链接的节点对,V-表示不存在链接的负节点对,Q为负采样的数量,h表示节点的特征向量。
本申请实施例的基于元路径子图的异质图信息提取方法和异质图神经网络模型装置,解决了现有方法大部分模型直接或间接地将异质图依照元路径转化为同质图的形式进行相应处理,忽略了异质邻居的属性和结构信息的技术问题,同时解决了现有方法对于异质图中邻居节点类型的多样性未加以明确地区分,将所有的异质邻居视为同一类型进行处理导致异质图神经网络表达能力的不足的问题,设计了基于元路径的异质图神经网络模型,将异质图表示学习任务分解为多个元路径子图的学习任务,在节点分类、节点聚类等多项任务中,利用多个数据集进行实验评估,实现了很好地捕获同质邻居和异质邻居的结构、语义和属性信息的目的,使得原始图中复杂的结构和语义信息以更加有针对性和高效的形式进行学习,在各项评估指标上都实现了最高的性能,提供了更加完善的节点特征表示,能够用于广泛的机器学习和图数据挖掘任务。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请实施例一所提供的一种基于元路径子图的异质图信息提取方法的流程图;
图2为本申请实施例的基于元路径子图的异质图信息提取方法的异构属性维度变换整体流程图;
图3为本申请实施例的基于元路径子图的异质图信息提取方法的异构属性维度变换结果图;
图4为本申请实施例的基于元路径子图的异质图信息提取方法的学者网络图;
图5为本申请实施例的基于元路径子图的异质图信息提取方法的子图聚合流程图;
图6为本申请实施例的基于元路径子图的异质图信息提取方法的算法流程图;
图7为本申请实施例的基于元路径子图的异质图信息提取方法的整体框架图;
图8为本申请实施例的基于元路径子图的异质图信息提取方法的ACM数据集上使用不同学习率的实验结果图;
图9为本申请实施例的基于元路径子图的异质图信息提取方法的可视化结果;
图10为本申请实施例的基于元路径子图的异质图信息提取方法的另一个流程图;
图11为本申请实施例二所提供的异质图神经网络模型装置的结构示意图。
具体实施方式
下面详细描述本申请的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参考附图描述本申请实施例的基于元路径子图的异质图信息提取方法和异质图神经网络模型装置。
图1为本申请实施例一所提供的一种基于元路径子图的异质图信息提取方法的流程图。
如图1所示,该基于元路径子图的异质图信息提取方法包括以下步骤:
步骤101,通过异质属性转换,将异质图包含的节点的属性映射到同一特征空间,生成对应的特征向量;
步骤102,根据元路径类别的不同对异质图进行分解,生成同质子图和异质子图;
步骤103,分别对同质子图和异质子图中节点的特征向量进行卷积,生成目标节点在不同子图中的特征表示;
步骤104,对目标节点在不同子图中的特征表示按照相应的权重进行融合,获取到每个节点的完整表征,其中,完整表征包括多重语义和多种子图结构。
本申请实施例的基于元路径子图的异质图信息提取方法,通过异质属性转换,将异质图包含的节点的属性映射到同一特征空间,生成对应的特征向量;根据元路径类别的不同对异质图进行分解,生成同质子图和异质子图;分别对同质子图和异质子图中节点的特征向量进行卷积,生成目标节点在不同子图中的特征表示;对目标节点在不同子图中的特征表示按照相应的权重进行融合,获取到每个节点的完整表征,其中,完整表征包括多重语义和多种子图结构。由此,能够解决现有方法大部分模型直接或间接地将异质图依照元路径转化为同质图的形式进行相应处理,忽略了异质邻居的属性和结构信息的技术问题,同时可以解决现有方法对于异质图中邻居节点类型的多样性未加以明确地区分,将所有的异质邻居视为同一类型进行处理导致异质图神经网络表达能力的不足的问题,设计了基于元路径的异质图神经网络模型,将异质图表示学习任务分解为多个元路径子图的学习任务,在节点分类、节点聚类等多项任务中,利用多个数据集进行实验评估,实现了很好地捕获同质邻居和异质邻居的结构、语义和属性信息的目的,使得原始图中复杂的结构和语义信息以更加有针对性和高效的形式进行学习,在各项评估指标上都实现了最高的性能,提供了更加完善的节点特征表示,能够用于广泛的机器学习和图数据挖掘任务。
进一步地,在本申请实施例中,异质图中的节点经过异质属性转换后的特征向量为:
其中,v∈VA表示节点,为节点的类型,表示节点v原始的特征向量,h′v∈Rd′为转换后的特征向量,是节点类型A的线性转换矩阵。
对于每种节点类型,设计类型特定的线性转换矩阵,将异构的节点属性映射到同一潜在的特征空间。
进一步地,在本申请实施例中,对元路径子图分解,包括以下步骤:
根据元路径起始和终止节点的类型,将元路径分为两类:
P=Pt,t∈{ho,he}
其中,ho表示元路径起始和终止节点的类型一致,he表示起始和终止节点的类型不同;
根据元路径所连接的节点对,生成对应的子图,按照元路径的类别,将子图分为同质子图和异质子图,表示为:
Gt=Gho∪Ghe
其中,Gho表示同质子图,Ghe表示异质子图。
不同的元路径蕴含不同的交互关系和语义,为了使模型学习的目标更加简洁和明确,根据元路径的交互规则,将结构和语义复杂的异质图分解为多个子图。
进一步地,在本申请实施例中,对同质子图中节点的特征向量进行卷积,包括以下步骤:
步骤S1:计算邻居节点对目标节点之间的重要性,表示为;
evu=attnode(h′v,h′u;G)
其中,evu表示邻居节点u对目标节点v的重要性程度,attnode为可学习的注意力机制网络层,h′v表示目标节点的特征向量,h′u表示邻居节点的特征向量,G∈Gho表示同质子图;
步骤S2:通过softmax函数将节点之间的重要性进行归一化得到邻居节点的权重系数,权重系数表示为:
其中,σ(·)表示非线性的激活函数,||表示拼接操作,a为可学习的注意力权重向量,h′v表示目标节点的特征向量,h′u表示邻居节点的特征向量,N(v)表示目标节点v在同质子图 G∈Gho中的所有一阶邻居;
步骤S3:根据权重系数对邻居节点的特征进行加权聚合得到目标节点的嵌入表示:
zv=σ(∑u∈N(v)αvu·h′u)
其中,σ(·)表示非线性的激活函数,N(v)表示目标节点v在同质子图G∈Gho中的所有一阶邻居,αvu表示权重系数,h′u表示邻居节点的特征向量;
步骤S4:重复进行步骤S1、步骤S2、步骤S3K次,对学习到的向量进行拼接,得到目标节点的特征表示,表示为:
其中,σ(·)表示非线性的激活函数,N(v)表示目标节点v在同质子图G∈Gho中的所有一阶邻居,αvu表示权重系数,h′u表示邻居节点的特征向量。
根据元路径的交互规则,将结构和语义复杂的异质图分解为多个同质和异质子图,可以并行地应用不同的图卷积方法进行消息的传递和聚合。对于同质子图的卷积方法,存在大量的相关模型,比如GCN、GAT等模型的思想可以直接应用于同质子图的学习中。
邻居节点u对目标节点v的重要性程度evu是单向的,即节点v对节点u的重要性和节点 u对节点v的重要性不一致,有可能相差甚远。这种不对称性在一定程度上反映了异质图结构的重要特性。以学者网络为例,知名学者对普通学者的影响力远大于普通学者对知名学者的影响力。
将邻居节点u对目标节点v的重要性程度evu分别应用于节点v在图中的所有一阶邻居仅计算直接邻居对中心节点的影响力,可以使模型学习到图的拓扑结构信息。
异质图具有无标度特性,节点的度近似为幂率分布,大多数节点的度较小,少数节点的度很大,导致图数据具有很高的方差。为了解决这一问题,采用多头的注意力机制,使得训练过程更加稳定。通过重复上述的注意力计算过程K次,最后对这些学习到的向量进行拼接。
进一步地,在本申请实施例中,使用均值或池化或注意力机制方法对异质子图进行卷积。
对于异质子图,图中只包含两类节点,交互关系只发生在不同类型的节点之间,满足二分图的形式。在异质子图的卷积操作中,只考虑中心节点的一阶邻居信息,即异质邻居的信息。二阶邻居的节点类型与中心节点的类型相同,对于同质邻居节点信息的学习可以从同质子图中获得,对于异质子图的学习主要聚焦于异质的邻居。
进一步地,在本申请实施例中,使用均值对异质子图进行卷积,具体为对邻居节点的特征按照每个维度进行平均操作,生成目标节点的特征表示,表示为:
其中,MEAN函数为均值函数,h′u表示邻居节点的特征向量,N(v)表示目标节点v在异质子图G∈Ghe中的所有一阶邻居,
使用池化对异质子图进行卷积,首先对每个邻居节点的特征通过全连接层的变换,然后对邻居节点的特征按照维度进行最大池化操作,生成目标节点的特征表示,表示为:
其中,bpool∈Rd′和Wpool∈Rd′×d′是可学习的参数,h′u表示邻居节点的特征向量,N(v) 表示目标节点v在异质子图G∈Ghe中的所有一阶邻居。
使用均值对异质子图进行卷积后,减小了邻居特征的方差,保留更加一般化的信息。
使用池化对异质子图进行卷积后,可以提取邻居节点各维度的主要特征,过滤掉冗余的信息。
进一步地,在本申请实施例中,使用注意力机制方法对异质子图进行卷积,包括以下步骤:
采用图注意力层自动学习异质邻居节点对目标节点的重要性:
其中,aG∈Rd′为异质子图G中的注意力参数向量,h′u表示邻居节点的特征向量,LeakyReLU为激活函数;
通过归一化重要性系数和加权聚合邻居节点的信息生成目标节点的特征表示,表示为:
其中,和为邻居节点的重要性,为归一化后的重要性系数,σ(·)表示非线性的激活函数,h′u表示邻居节点的特征向量,N(v)表示目标节点v在异质子图G∈Ghe中的所有一阶邻居。
对于目标节点给定由起始节点类型为的元路径所生成的异质子图中的节点对(v,u)。
由于异质子图的中心节点与邻居节点的类型不同,对于异质子图使用注意力机制计算时,只使用邻居节点的信息。
给定X个中心节点类型为的元路径子图和变换后的节点特征h′,通过图卷积模型可以生成X组目标节点的向量表示
进一步地,在本申请实施例中,对目标节点在不同子图中的特征表示按照相应的权重进行融合,包括以下步骤:
首先对目标节点在不同子图中的特征表示进行非线性转换,然后对每个子图中的所有节点特征进行平均,得到每个子图的重要性,表示为:
其中,VA表示类型为A的节点集合,为节点类型A的注意力参数变量,M为参数矩阵,和是可学习的参数,表示目标节点v在不同子图中的特征表示;
使用softmax函数对重要性进行归一化处理,然后对不同子图的特征进行加权处理,得到每个节点的完整表征,表示为:
其中,表示第k个子图的重要性,表示目标节点v在不同子图中的特征表示,GA表示所有由类型为A的节点生成的子图。
对于不同的任务而言,节点在不同子图中的特征可能会起到不同的作用,比如在节点分类任务中,要判断某一个节点所属的类别,通常而言同类型节点特征重要性将大于异质类型节点的特征。以学者网络为例,基于元路径APA和APVPA生成的同质图中,若两位作者之间存在联系,那么他们的研究领域更加接近,若其中一位作者的标签为机器学习,另一位作者的标签为机器学习或数据挖掘的概率将大于信息安全。相对于元路径APVPA,元路径APA形成的子图中节点之间的关系更加紧密,在语义融合时所占的权重也应该越高。为了体现不同子图所学习到的特征的重要性程度,采用注意力机制对节点在不同子图中的特征按照相应的权重进行融合。
图2为本申请实施例的基于元路径子图的异质图信息提取方法的异构属性维度变换整体流程图。
如图2所示,该基于元路径子图的异质图信息提取方法的异构属性维度变换整体流程图中包含了3种类型的节点,每种类型的节点又带有多源异构的属性。在维度转换之前,各类型的属性存在于不同的空间维度,比如文本属性是256维的预训练向量,而图像属性是由卷积神经网络提取的128维特征,这两种属性的特征之间互相独立。经过属性变换操作后,文本、属性、图像等不同维度的特征映射到同一特征空间。
图3为本申请实施例的基于元路径子图的异质图信息提取方法的异构属性维度变换结果图。
如图3所示,基于元路径子图的异质图信息提取方法将异构的节点属性映射到同一潜在的特征空间,经过属性变换操作后,文本、属性、图像等不同维度的特征映射到同一特征空间,通过异构属性的空间维度变换,可以消除不同属性之间的异质性,使得节点属性之间能够进行相关的操作,便于后续信息的聚合以及模型的训练。
图4为本申请实施例的基于元路径子图的异质图信息提取方法的学者网络图。
如图4所示,在该基于元路径子图的异质图信息提取方法中,同一个节点在不同的子图中存在着不同的交互关系,所以节点可以在每个子图可以学习到特有的特征表示。由元路径APA形成的同质子图中,作者节点a1与其他作者节点之间存在论文合作关系,在元路径APVPA中,作者节点a1与其他作者节点之间则为共同参与会议的关系。这两种关系都是作者与作者之间相互联系,但是APA中两位作者的联系更加密切,在这种情况下,两个作者相连所经过的路径更短。同时,通过元路径APVPA所形成的子图规模更大,所能容纳的信息也更宽泛,因为这两位作者可以经过更多的其他节点进行联系。可以从元路径APA 子图中获取局部信息,从元路径APVPA子图中获取全局信息。元路径APA所代表的子图一般为作者自己的合作圈,存在连边的作者之间在日常中也存在联系,他们之间交互的频率也更多。元路径APVPA所形成的子图中,存在连边的两位作者在此之前可能素未蒙面,只是因为参加了同一场会议而产生联系,代表他们之间的研究领域相似。虽然元路径 APVPA子图中作者之间联系的强度不如元路径APA子图中的大,却可以获取到更宽广的信息,进行优势互补。异质的子图同样蕴含丰富的信息。元路径AP形成的异质子图中,直接包含了作者与论文之间的交互关系,元路径APV子图中,直接反映了该作者所参与的会议情况。这种异质节点之间直接的交互关系,对于链接预测或推荐等交互敏感的任务起到非常关键的作用。
图5为本申请实施例的基于元路径子图的异质图信息提取方法的子图聚合流程图。
如图5所示,在该基于元路径子图的异质图信息提取方法中,对于不同的任务,节点在不同子图中的特征可能会起到不同的作用,在节点分类任务中,要判断某一个节点所属的类别,同类型节点特征重要性将大于异质类型节点的特征。为了体现不同子图所学习到的特征的重要性程度,采用注意力机制对节点在不同子图中的特征按照相应的权重进行融合。
图6为本申请实施例的基于元路径子图的异质图信息提取方法的算法流程图。
如图6所示,该基于元路径子图的异质图信息提取方法,将异构的节点属性映射到同一潜在的特征空间,进行类型特定的特征变换;根据元路径的交互规则,将结构和语义复杂的异质图分解为多个子图,生成基于元路径的子图;应用不同的图卷积方法进行消息的传递和聚合,计算子图结构特定的节点向量;对每个子图计算相应的权重;融合不同元路径的信息。
图7为本申请实施例的基于元路径子图的异质图信息提取方法的整体框架图。
如图7所示,在该基于元路径子图的异质图信息提取方法中,首先经过子图生成步骤,原始的异质图根据元路径的规则,分别形成不同语义和结构的同质子图和异质子图。然后分别对子图中节点之间进行信息的聚合,其中同质子图中聚合作用于同类型节点,异质子图中聚合作用于异质邻居,生成了与子图个数相同的节点特征,容纳了各个子图的语义和和结构信息。之后,对这些子图的特征利用注意力机制进行融合,并根据任务特定的损失函数进行参数的更新和优化。
对于节点分类和节点聚类实验,主要使用了两个常见的公共数据集:ACM学术网络数据集和IMDB电影推荐数据集。
表一
如表一所示,ACM:是一个记录学者文献发表情况的学术网络数据集,抽取其中一部分数据用于训练和评估。所使用的学术网络数据中包含了4025篇文章(P)、7167位作者(A)和60个主题(S),其中选取论文节点作为目标节点。根据论文所发表的会议性质将论文的研究方向划分为3个类别:数据挖掘、数据库、无线通信。每个论文节点的初始特征用该论文术语的词袋向量表示,所选取的元路径为PAP、PSP、PA、PS。划分为训练集、验证集和测试集的论文节点数量的比例为2:1:7。IMDB:是一个关于电影和电视剧信息的在线数据库,抽取其中的一个子集用于训练和评估。所使用的网络中包含了4181部电影(M)、5257位演员(A)以及2081位导演(D),其中电影节点作为研究的目标节点。每部电影根据类型划分为3个类别:动作、喜剧、戏剧。每个电影节点的初始特征为关键词的词袋向量表示。选取的元路径为MAM、MDM、MA和MD。划分为训练集、验证集和测试集的论文节点数量的比例为和2:1:7。
为了验证所提出模型的有效性,选取6个先进的图表示学习模型,包含了基于随机游走的模型和基于深度学习的模型,以及同质图模型和异质图模型,每个模型的介绍如下:
DeepWalk:这是一个基于随机游走的同质图表示学习模型,先通过随机游走采样节点序列,然后利用skip-gram模型训练节点向量。通过忽略图的异质性将异质图转化为同质图的形式,并把整张图作为模型的输入。
Metapath2vec:这是基于元路径的异质图表示学习方法,先通过元路径的引导进行随机游走采样节点序列,然后利用skip-gram模型按照节点的类型训练节点的向量表示。将测试所有的元路径并展示最好的预测结果。
HERec:这是一个基于元路径的异质图表示学习模型,通过基于元路径的随机游走生成同质图,然后应用DeepWalk学习节点表示。将测试所有的元路径并展示最好的预测结果。
GCN:这是一个同质图卷积模型,通过聚集一阶邻居的信息生成中心节点的表示。在半监督学习任务上,将GCN应用于所有的元路径同质子图,并且展示最好的预测效果。对于无监督学习任务,通过忽略图的异质性将其转化为同质图作为输入。
GAT:这是一个同质图卷积模型,通过注意力机制计算邻居节点重要性进行加权聚合。在半监督学习任务上,将GAT应用于所有的元路径同质子图,并且展示最好的预测效果。对于无监督学习任务,通过忽略图的异质性将其转化为同质图作为输入。
HAN:这是一个异质图神经网络模型,通过节点级别的注意力机制聚集不同基于元路径同质子图的信息,然后使用注意力机制整合不同元路径的信息。
基于随机游走的模型,比如DeepWalk、metapath2vec和HERec,设置窗口大小为5,游走长度为100,每个节点重复40次,负采样大小为5。对于图神经网络模型如GCN、GAT、 HAN和本申请提出的模型,使用相同的训练集、验证集和测试集进行评估,模型训练时的epochs最大为1000,并使用提前停止策略(early stop)结束模型的训练,即如果验证集上的Loss在30个连续的epochs的训练过程中都没有下降,则停止训练。模型采用Adam优化器进行梯度下降和参数调整,学习率和L2正则化值分别设置为0.005和0.001,同时为了防止过拟合采用dropout策略并设置比例为0.6。对于基于注意力机制的模型如GAT、 HAN和本申请提出的模型,均采用多头注意力机制并设置注意力头的个数为8。对于HAN 和本申请提出的模型,在子图聚合时采用的注意力向量的维度设置为128。对于所有的模型,最终的表征维度均设置为64。本申请提出的模型使用Pytorch中的DGL框架进行实现。
节点分类实验中,只有很少的节点带有标签信息,在实验中通过最小化这些节点的交叉熵,并且利用反向传播和梯度下降算法更新所有节点的参数,起到标签信息共享的作用,最后利用每个节点所学习到的特征进行预测。在图模型训练过程中,神经网络的最后一层为分类器,可以直接输出节点的分类结果。由于模型在传播过程中已经利用了训练集和验证集的标签信息,为了更加合理地评估模型所学习到的低维特征的有效性以及表达能力,在测试阶段本申请只取图模型训练阶段输出的节点特征,并把测试集中对应节点的特征作为支持向量机(SVM)分类器的输入,通过支持向量机的分类结果评估节点特征的好坏。对于支持向量机模型所使用到的数据,即图模型中的测试集,本申请再次将其划分为多组训练集和测试集,训练集用于训练和拟合支持向量机模型,最终的评价指标由测试集中的分类结果决定。为了消除数据标签分布带来的方差,本申请进行了10次重复实验并取均值进行展示。
机器学习分类任务中,常用的评价指标有准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1值和AUC等。分类实验中,模型预测的结果常用表二混淆矩阵来展示:
表二
表二中的TP表示为真阳性(True Positive),即实际为正例且被预测为正例的样本数量;FP表示为假阳性(False Positive),即实际为负例但是被预测为正例的样本数量;FN 表示假阴性(False Negative),即实际为正例但是被预测为负例的样本数量;TN表示真阴性(True Negative),即实际为负例且被预测为负例的样本数量。
准确率的含义为分类正确的样本数量占总样本的比例,表达式为:
精确率即查准率,表示模型预测为正例的样本中实际也为正例的样本比例,表达式为:
召回率即查全率,表示实际为正例的样本中被正确预测为正例的样本比例,表达式为:
精确率体现了模型对负样本的区分能力,召回率反映了模型对正样本的识别能力,F1 值是对精确率和召回率的调和平均值,体现模型的综合能力,表达式为:
采用该任务常用的Macro-F1和Micro-F1值对节点分类实验的效果进行评估,其中Macro-F1表示需要先计算每个类别的F1值,然后取均值得到整个样本的F1值,Micro-F1 则直接计算总样本的F1值。
节点分类实验的结果如表三所示,表示各种图表示学习模型所生成的节点特征在支持向量机模型中的分类结果。表格中的训练比例指支持向量机的训练样本数量,为了实验结果的可读性,对预测效果最好的结果加粗表示。
表三
从表三中可以看到,异质图表示学习方法metapath2vec模型由于考虑了异质图结构,因此预测效果比其他基于随机游走的方法好。GCN、GAT等图神经网络模型在考虑图结构的同时融入了节点的属性特征,使得其取得了更好的预测效果,由于GCN、GAT未考虑异质图结构,整体上性能低于异质图神经网络模型HAN。与同为异质图模型的HAN相比,本申请提出的模型HMSG在每个数据集及各项指标中均取得了最优的预测分类效果,其原因可能是由于HAN模型只考虑了同质子图中节点的信息交换,而本申请提出的模型同时也考虑了异质子图的信息,能得到更加完善的表示。
深度神经网络的训练会出现梯度消失/爆炸以及过拟合的情况,实验的结果可能会受到设置的参数的影响,其中学习率和多注意力头数尤为关键。学习率的大小影响模型训练时收敛的速度和好坏,过大的学习率会导致模型在最优值附近震荡甚至无法收敛,而较小的学习率会使训练过程过于缓慢。
图8为本申请实施例的基于元路径子图的异质图信息提取方法的ACM数据集上使用不同学习率的实验结果图;
如图8所示,节点分类任务中训练集比例为10%的情况下不同学习率对HMSG模型训练的影响,可以看到在学习率较小时训练的过程更加平稳,随着学习率的增大,训练过程中开始出现震荡的现象。同时,学习率越小所需要训练的次数也越多,验证集上的效果也越好,学习率过大时,会出现验证集上的损失值平稳后又增大,说明出现了过拟合的情况。
在注意力机制中,采用多头并行的目的是形成多个子空间,可以使模型在不同的子空间中分别进行学习,然后对各个子空间的特征拼接得到完整的特征向量。表四展示了在 ACM数据集中异质图模型训练集为10%时,采用不同的注意力头数和维度的情况下节点分类的结果。可以看到,在不使用多头注意力机制(多注意力头数为1)时,模型的表达能力最差,随着注意力头数的增大模型的性能逐渐上升,意味着所容纳的有效信息越多。
表四
相似的节点其特征向量在低维空间中的距离也应该更加接近,为了评估模型所学习到的特征的好坏,本申请进行了节点聚类实验。节点聚类的原理为相似度越高的节点之间的距离更近,更应该被划分为同一类簇,反之距离越远,更应该被划分为不同的类簇。与节点分类实验不同,节点聚类的过程为无监督学习。与节点分类实验相似,先通过图表示学习模型利用半监督学习任务得到节点的低维向量表示,然后将测试集中的节点特征作为K-Means算法的输入。K-Means聚类算法是一种给基于划分的无监督聚类算法,首先随机确定K个节点为中心点即簇的数量,用节点之间的欧式距离作为相似性的度量方式,计算每个节点到每个簇中心点的距离,然后将节点划分到距离最近的簇。每轮迭代后,计算每个簇的均值作为新的簇中心点,依次迭代至中心稳定。将K设置为分类任务中的类别的数量,并进行了10次重复实验取平均值。
评估聚类效果好坏的指标一般采用NMI(Normalized Mutual Information)、ARI(Adjusted Rand Index)指标,NMI和ARI的值越大,说明聚类的效果越好。NMI表示标准化的互信息,设两个随机变量(X,Y)的联合分布为p(x,y),边缘分布为p(x)和p(y),互信息I(X;Y)的表达式为
NMI的计算公式为:
其中H(·)表示信息熵,常用来度量系统的复杂程度,若系统越复杂则信息熵越大,表达式为:
调整的兰德系数(ARI)是对兰德系数(RI)基于几率正则化的改进。定义a表示为实际上为相同的类别且聚集到一簇的样本对数量,b表示为实际上类别不同且聚集到不同簇的样本对数量,则兰德系数RI的表达式为:
兰德系数的值在[0,1]之间,聚类结果越好,兰德系数越接近于1。由于兰德系数无法保证随机划分时的聚类结果值接近0,因此调整的兰德系数的表达式为:
表五展示了图神经网络模型(GCN、GAT、HAN、HMSG)在训练集比例为20%情况下,不同模型所学习到的特征在K-Means模型中的聚类效果,其中对各项指标中的最优结果加粗表示。
表五
从表五中可以看出,图神经网络模型在各项指标上的表现均强于基于随机游走的模型。异质图模型HAN的聚类效果比GCN和GAT更好,说明了考虑异质结构信息后能提升模型的表达能力。由于HAN模型仅考虑了元路径同质子图,本申请提出的模型加入了异质子图后效果取得了更大的提升,进一步验证了异质子图结构的重要性。
图9为本申请实施例的基于元路径子图的异质图信息提取方法的可视化结果;
如图9所示,对ACM测试集中节点的特征向量进行可视化。首先将节点特征输入到t-SNE 模型中,t-SNE是高维数据可视化常用的一种降维模型,一般将高维数据降低到2维平面进行展示。本申请提出的模型HMSG可视化的效果最好,同类型节点之间更加紧凑。GAT模型中可以对不同类别的节点有一定的区分,但整体上可视化效果显得略微分散。GCN模型中,同类型节点之间的距离过于分散,导致聚集效果很差。DeepWalk模型中大量的不同类型节点混杂在一起,展示的效果最差,难以准确区分节点类别。
图10为本申请实施例的基于元路径子图的异质图信息提取方法的另一个流程图;
如图10所示,该基于元路径子图的异质图信息提取方法,首先通过类型特定的属性转换过程将异质的节点属性变换到相同的特征空间,便于信息在图中的传递;利用元路径生成对应的同质子图和异质子图,通过子图分解的形式,不同语义和结构的关系可以更加清晰的表示;通过独立地对同质子图和异质子图进行学习,节点不仅可以聚合同质邻居的信息,而且能够获得异质邻居的属性和结构信息;利用注意力机制根据不同子图的重要性对各子图的信息进行聚合以得到最终完整的向量表示;学到的特征向量用于下游机器学习任务,如节点分类、链接预测等。
图11为本申请实施例二所提供的异质图神经网络模型装置的结构示意图。
如图11所示,该异质图神经网络模型装置,包括属性转换模块、子图生成模块、图卷积模块、子图聚合模块,其中,
属性转换模块,用于进行异质属性的转换,将不同维度的属性映射到同一特征空间;
子图生成模块,用于进行元路径子图的分解,生成同质子图和异质子图;
图卷积模块,用于对同质子图和异质子图进行聚合,生成目标节点在不同子图中的特征表示;
子图聚合模块,用于对不同子图中的特征表示进行融合,生成节点的完整表征,其中,完整表征包括多重语义和多种子图结构。
进一步地,在本申请实施例中,在异质图神经网络模型的最后添加全连接层,将节点的完整表征转化为节点的类别,通过半监督学习或无监督学习训练异质图神经网络模型,其中,
半监督学习包括以下步骤:
获取一个未知分布的有标签的训练集和标签未知的测试集;
对训练集中的数据进行归纳学习得到推测模型;
使用推测模型对标签未知的测试集进行预测,得到测试集中数据的预测标签;
通过最小化标签节点的交叉熵并且利用反向传播和梯度下降算法来更新所有节点的参数:
其中,VL为有标签的训练集,yv表示有标签的训练集的标签分布,y′v表示测试集中数据的预测标签分布,
无监督学习通过负采样算法最小化以下损失函数达到优化参数的目的:
其中,σ(·)为sigmoid函数,V+代表存在链接的节点对,V-表示不存在链接的负节点对,Q为负采样的数量,h表示节点的特征向量。
经过子图特征融合步骤,节点的低维嵌入可以用于下游丰富的图数据挖掘任务。根据特定任务的需求,可以将模型设置为端到端(end-to-end)的结构。对于节点分类任务,可以在模型的最后添加全连接网络层将节点的d维特征转换为c维,其中c表示节点类别标签的种类,此时模型的输出为节点所属的类别。根据学习任务的特点,分别选用不同的损失函数用于反向传播进行参数优化。
在图数据的半监督学习任务中,只有很少的节点带有标签信息,大部分的节点标签未知。对于无监督学习任务,由于缺乏足够的先验知识,难以人工标注类别或者人工标记的代价过高,所有的数据皆不带有标签信息。
本申请实施例的异质图神经网络模型装置,包括属性转换模块、子图生成模块、图卷积模块、子图聚合模块,其中,属性转换模块,用于进行异质属性的转换,将不同维度的属性映射到同一特征空间;子图生成模块,用于进行元路径子图的分解,生成同质子图和异质子图;图卷积模块,用于对同质子图和异质子图进行聚合,生成目标节点在不同子图中的特征表示;子图聚合模块,用于对不同子图中的特征表示进行融合,生成节点的完整表征,其中,完整表征包括多重语义和多种子图结构。由此,能够解决现有方法大部分模型直接或间接地将异质图依照元路径转化为同质图的形式进行相应处理,忽略了异质邻居的属性和结构信息的技术问题,同时可以解决现有方法对于异质图中邻居节点类型的多样性未加以明确地区分,将所有的异质邻居视为同一类型进行处理导致异质图神经网络表达能力的不足的问题,设计了基于元路径的异质图神经网络模型,将异质图表示学习任务分解为多个元路径子图的学习任务,在节点分类、节点聚类等多项任务中,利用多个数据集进行实验评估,实现了很好地捕获同质邻居和异质邻居的结构、语义和属性信息的目的,使得原始图中复杂的结构和语义信息以更加有针对性和高效的形式进行学习,在各项评估指标上都实现了最高的性能,提供了更加完善的节点特征表示,能够用于广泛的机器学习和图数据挖掘任务。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (9)
1.一种基于元路径子图的异质图信息提取方法,其特征在于,包括以下步骤:
通过异质属性转换,将异质图包含的节点的属性映射到同一特征空间,生成对应的特征向量;其中,所述节点包括ACM学术网络数据集中的节点,经过异质属性转换后,文本、属性、图像三种维度的特征被映射到统一特征空间;
根据元路径类别的不同对所述异质图进行分解,生成同质子图和异质子图;
分别对所述同质子图和所述异质子图中节点的特征向量进行卷积,生成目标节点在不同子图中的特征表示;
对所述目标节点在不同子图中的特征表示按照相应的权重进行融合,获取到每个节点的完整表征,其中,所述完整表征包括多重语义和多种子图结构;
构建异质图神经网络模型,在所述异质图神经网络模型的最后添加全连接层,将所述节点的完整表征转化为节点的类别,通过半监督学习或无监督学习训练所述异质图神经网络模型,包括:
获取一个未知分布的有标签的训练集和标签未知的测试集;
对所述训练集中的数据进行归纳学习得到推测模型;
使用所述推测模型对所述标签未知的测试集进行预测,得到所述测试集中数据的预测标签;
通过最小化标签节点的交叉熵并且利用反向传播和梯度下降算法来更新所有节点的参数:
其中,VL为所述有标签的训练集,yv表示所述有标签的训练集的标签分布,y′v表示所述测试集中数据的预测标签分布;
所述无监督学习通过负采样算法最小化以下损失函数达到优化参数的目的:
其中,σ(·)为sigmoid函数,V+代表存在链接的节点对,V-表示不存在链接的负节点对,Q为负采样的数量,h表示节点特征向量;
通过训练得到的异质图神经网络模型进行异质图信息的提取。
2.如权利要求1所述的方法,其特征在于,所述异质图中的节点经过所述异质属性转换后的特征向量为:
其中,v∈VA表示节点,为节点的类型,表示节点v原始的特征向量,h′v∈Rd′为转换后的特征向量,是节点类型A的线性转换矩阵。
3.如权利要求1所述的方法,其特征在于,所述对元路径子图分解,包括以下步骤:
根据元路径起始和终止节点的类型,将元路径分为两类:
P=Pt,t∈{ho,he}
其中,ho表示元路径起始和终止节点的类型一致,he表示起始和终止节点的类型不同;
根据所述元路径所连接的节点对,生成对应的子图,按照所述元路径的类别,将所述子图分为同质子图和异质子图,表示为:
Gt=Gho∪Ghe
其中,Gho表示同质子图,Ghe表示异质子图。
4.如权利要求1所述的方法,其特征在于,对所述同质子图中节点的特征向量进行卷积,包括以下步骤:
步骤S1:计算邻居节点对目标节点之间的重要性,表示为;
evu=attnode(h′v,h′u;G)
其中,evu表示邻居节点u对目标节点v的重要性程度,attnode为可学习的注意力机制网络层,h′v表示目标节点的特征向量,h′u表示邻居节点的特征向量,G∈Gho表示同质子图;
步骤S2:通过softmax函数将所述节点之间的重要性进行归一化得到所述邻居节点的权重系数,所述权重系数表示为:
其中,σ(·)表示非线性的激活函数,||表示拼接操作,a为可学习的注意力权重向量,h′v表示目标节点的特征向量,h′u表示邻居节点的特征向量,N(v)表示目标节点v在同质子图G∈Gho中的所有一阶邻居;
步骤S3:根据所述权重系数对所述邻居节点的特征进行加权聚合得到所述目标节点的嵌入表示:
zv=σ(∑u∈N(v)αvu·h′u)
其中,σ(·)表示非线性的激活函数,N(v)表示目标节点v在同质子图G∈Gho中的所有一阶邻居,αvu表示所述权重系数,h′u表示邻居节点的特征向量;
步骤S4:重复进行步骤S1、步骤S2、步骤S3K次,对学习到的向量进行拼接,得到目标节点的特征表示,表示为:
其中,σ(·)表示非线性的激活函数,N(v)表示目标节点v在同质子图G∈Gho中的所有一阶邻居,αvu表示所述权重系数,h′u表示邻居节点的特征向量。
5.如权利要求1所述的方法,其特征在于,使用均值或池化或注意力机制方法对所述异质子图进行卷积。
6.如权利要求5所述的方法,其特征在于,使用所述均值对所述异质子图进行卷积,具体为对邻居节点的特征按照每个维度进行平均操作,生成目标节点的特征表示,表示为:
其中,MEAN函数为均值函数,h′u表示邻居节点的特征向量,N(v)表示目标节点v在异质子图G∈Ghe中的所有一阶邻居;
使用所述池化对所述异质子图进行卷积,首先对每个邻居节点的特征通过全连接层的变换,然后对所述邻居节点的特征按照维度进行最大池化操作,生成目标节点的特征表示,表示为:
其中,bpool∈Rd′和Wpool∈Rd′×d′是可学习的参数,h′u表示邻居节点的特征向量,N(v)表示目标节点v在异质子图G∈Ghe中的所有一阶邻居。
7.如权利要求5所述的方法,其特征在于,使用所述注意力机制方法对所述异质子图进行卷积,包括以下步骤:
采用图注意力层自动学习异质邻居节点对目标节点的重要性:
其中,aG∈Rd′为异质子图G中的注意力参数向量,h′u表示邻居节点的特征向量,LeakyReLU为激活函数;
通过归一化重要性系数和加权聚合邻居节点的信息生成目标节点的特征表示,表示为:
其中,和为邻居节点的重要性,为归一化后的重要性系数,σ(·)表示非线性的激活函数,h′u表示邻居节点的特征向量,N(v)表示目标节点v在异质子图G∈Ghe中的所有一阶邻居。
8.如权利要求1所述的方法,其特征在于,对所述目标节点在不同子图中的特征表示按照相应的权重进行融合,包括以下步骤:
首先对所述目标节点在不同子图中的特征表示进行非线性转换,然后对每个子图中的所有节点特征进行平均,得到每个子图的重要性,表示为:
其中,VA表示类型为A的节点集合,为节点类型A的注意力参数变量,M为参数矩阵,和是可学习的参数,表示目标节点v在不同子图中的特征表示;
使用softmax函数对所述重要性进行归一化处理,然后对不同子图的特征进行加权处理,得到每个节点的完整表征,表示为:
其中,表示第k个子图的重要性,表示目标节点v在不同子图中的特征表示,GA表示所有由类型为A的节点生成的子图。
9.一种异质图神经网络模型装置,其特征在于,异质图神经网络模型包括属性转换模块、子图生成模块、图卷积模块、子图聚合模块,其中,
所述属性转换模块,用于进行异质属性的转换,将不同维度的属性映射到同一特征空间;其中,节点包括ACM学术网络数据集中的节点,经过异质属性转换后,文本、属性、图像三种维度的特征被映射到统一特征空间;
所述子图生成模块,用于进行元路径子图的分解,生成同质子图和异质子图;
所述图卷积模块,用于对所述同质子图和所述异质子图进行聚合,生成目标节点在不同子图中的特征表示;
所述子图聚合模块,用于对所述不同子图中的特征表示进行融合,生成节点的完整表征,其中,所述完整表征包括多重语义和多种子图结构;
其中,还包括:构建异质图神经网络模型,在所述异质图神经网络模型的最后添加全连接层,将所述节点的完整表征转化为节点的类别,通过半监督学习或无监督学习训练所述异质图神经网络模型,包括:
获取一个未知分布的有标签的训练集和标签未知的测试集;
对所述训练集中的数据进行归纳学习得到推测模型;
使用所述推测模型对所述标签未知的测试集进行预测,得到所述测试集中数据的预测标签;
通过最小化标签节点的交叉熵并且利用反向传播和梯度下降算法来更新所有节点的参数:
其中,VL为所述有标签的训练集,yv表示所述有标签的训练集的标签分布,y′v表示所述测试集中数据的预测标签分布;
所述无监督学习通过负采样算法最小化以下损失函数达到优化参数的目的:
其中,σ(·)为sigmoid函数,V+代表存在链接的节点对,V-表示不存在链接的负节点对,Q为负采样的数量,h表示节点特征向量;
通过训练得到的异质图神经网络模型进行进行异质图信息的提取。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110649772.8A CN113569906B (zh) | 2021-06-10 | 2021-06-10 | 基于元路径子图的异质图信息提取方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110649772.8A CN113569906B (zh) | 2021-06-10 | 2021-06-10 | 基于元路径子图的异质图信息提取方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113569906A CN113569906A (zh) | 2021-10-29 |
CN113569906B true CN113569906B (zh) | 2024-03-15 |
Family
ID=78161939
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110649772.8A Active CN113569906B (zh) | 2021-06-10 | 2021-06-10 | 基于元路径子图的异质图信息提取方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113569906B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114168804B (zh) * | 2021-12-17 | 2022-06-10 | 中国科学院自动化研究所 | 一种基于异质子图神经网络的相似信息检索方法和系统 |
CN114693317A (zh) * | 2022-04-08 | 2022-07-01 | 重庆邮电大学 | 一种融合同质图与二分图的电信诈骗安全联邦检测方法 |
CN114580794B (zh) * | 2022-05-05 | 2022-07-22 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、程序产品、计算机设备和介质 |
CN114579879B (zh) * | 2022-05-06 | 2022-07-26 | 南方科技大学 | 好友推荐方法、装置、设备和存储介质 |
CN117350461B (zh) * | 2023-12-05 | 2024-03-19 | 湖南财信数字科技有限公司 | 企业异常行为预警方法、系统、计算机设备及存储介质 |
CN117520665B (zh) * | 2024-01-05 | 2024-03-26 | 江西财经大学 | 一种基于生成对抗网络的社交推荐方法 |
CN117788122B (zh) * | 2024-02-23 | 2024-05-10 | 山东科技大学 | 一种基于异质图神经网络商品推荐方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10460320B1 (en) * | 2016-08-10 | 2019-10-29 | Electronic Arts Inc. | Fraud detection in heterogeneous information networks |
CN110704692A (zh) * | 2019-09-12 | 2020-01-17 | 重庆大学 | 基于图嵌入的员工离职行为预测方法及装置 |
CN112800342A (zh) * | 2021-04-15 | 2021-05-14 | 中国人民解放军国防科技大学 | 基于异质信息的推荐方法、系统、计算机设备和存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170111245A1 (en) * | 2015-10-14 | 2017-04-20 | International Business Machines Corporation | Process traces clustering: a heterogeneous information network approach |
-
2021
- 2021-06-10 CN CN202110649772.8A patent/CN113569906B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10460320B1 (en) * | 2016-08-10 | 2019-10-29 | Electronic Arts Inc. | Fraud detection in heterogeneous information networks |
CN110704692A (zh) * | 2019-09-12 | 2020-01-17 | 重庆大学 | 基于图嵌入的员工离职行为预测方法及装置 |
CN112800342A (zh) * | 2021-04-15 | 2021-05-14 | 中国人民解放军国防科技大学 | 基于异质信息的推荐方法、系统、计算机设备和存储介质 |
Non-Patent Citations (3)
Title |
---|
Heterogeneous Graph Structure Learning for Graph Neural Networks;Jiannan Zhao等;《Proceedings of the AAAI Conference on Artificial Intelligence》;AAAI-21 * |
HMSG:Heterogeneous Graph Neural Network based on Metapath Subgraph Learning;Xinjun Cai等;《https://arxiv.org/pdf/2109.02868.pdf》;1-12 * |
异质图表示学习算法研究及应用;蔡昕均;《中国优秀硕士学位论文全文数据库基础科学辑》(第第01期期);A002-169 * |
Also Published As
Publication number | Publication date |
---|---|
CN113569906A (zh) | 2021-10-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113569906B (zh) | 基于元路径子图的异质图信息提取方法和装置 | |
Cen et al. | Representation learning for attributed multiplex heterogeneous network | |
Jin et al. | Differentiable hierarchical graph grouping for multi-person pose estimation | |
Zhang et al. | Network representation learning: A survey | |
Cai et al. | A comprehensive survey of graph embedding: Problems, techniques, and applications | |
Zhu et al. | A survey on graph structure learning: Progress and opportunities | |
Cavallari et al. | Embedding both finite and infinite communities on graphs [application notes] | |
Yan et al. | Scalar field comparison with topological descriptors: Properties and applications for scientific visualization | |
Li et al. | Semi-supervised clustering with deep metric learning and graph embedding | |
CN114418954A (zh) | 一种基于互学习的半监督医学图像分割方法及其系统 | |
Yang et al. | Co-embedding network nodes and hierarchical labels with taxonomy based generative adversarial networks | |
Zheng et al. | Multimodal deep network embedding with integrated structure and attribute information | |
Wang et al. | Curriculum pre-training heterogeneous subgraph transformer for top-n recommendation | |
Chen et al. | Heterogeneous graph convolutional network with local influence | |
Li et al. | Residual attention graph convolutional network for web services classification | |
Zhou et al. | Integrating local vertex/edge embedding via deep matrix fusion and siamese multi-label classification | |
Xiao et al. | Domain adaptive graph infomax via conditional adversarial networks | |
Li et al. | Self-supervised nodes-hyperedges embedding for heterogeneous information network learning | |
Xu et al. | Network embedding via coupled kernelized multi-dimensional array factorization | |
Li et al. | Semi-supervised variational user identity linkage via noise-aware self-learning | |
Wasserman et al. | Graph structure learning with interpretable Bayesian neural networks | |
Jin et al. | Heterogeneous graph neural networks using self-supervised reciprocally contrastive learning | |
Peng et al. | A new self-supervised task on graphs: Geodesic distance prediction | |
Wang et al. | Heterogeneous graph attention network with motif clique | |
Lai et al. | Fast Broad Multiview Multi-Instance Multilabel Learning (FBM3L) With Viewwise Intercorrelation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |