CN117473124B - 一种具备抵制过度平滑能力的自监督异质图表示学习方法 - Google Patents
一种具备抵制过度平滑能力的自监督异质图表示学习方法 Download PDFInfo
- Publication number
- CN117473124B CN117473124B CN202311451594.3A CN202311451594A CN117473124B CN 117473124 B CN117473124 B CN 117473124B CN 202311451594 A CN202311451594 A CN 202311451594A CN 117473124 B CN117473124 B CN 117473124B
- Authority
- CN
- China
- Prior art keywords
- node
- graph
- view
- heterogeneous
- hops
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 238000009499 grossing Methods 0.000 title claims description 13
- 235000008694 Humulus lupulus Nutrition 0.000 claims description 44
- 230000002776 aggregation Effects 0.000 claims description 32
- 238000004220 aggregation Methods 0.000 claims description 32
- 230000006870 function Effects 0.000 claims description 17
- 238000013507 mapping Methods 0.000 claims description 17
- 238000005457 optimization Methods 0.000 claims description 17
- 239000013598 vector Substances 0.000 claims description 13
- 239000011159 matrix material Substances 0.000 claims description 8
- 230000007246 mechanism Effects 0.000 abstract description 8
- 230000005540 biological transmission Effects 0.000 abstract description 4
- 238000007418 data mining Methods 0.000 abstract description 2
- 230000004927 fusion Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 230000007704 transition Effects 0.000 description 4
- 230000004913 activation Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007786 learning performance Effects 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/80—Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
- G06F16/83—Querying
- G06F16/835—Query processing
- G06F16/8373—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0895—Weakly supervised learning, e.g. semi-supervised or self-supervised learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及图表示学习与图数据挖掘技术领域,具体涉及一种具备抵制过度平滑能力的自监督异质图表示学习方法;通过GNN分支和Transformer分支在不同视角下对节点信息进行编码,基于两个视角的信息建立对比学习任务,实现无需样本标注条件下的自监督异质图表示学习,解决了现有GNN消息传递机制的过度平滑限制网络层数的扩展,从而导致模型在面对复杂图数据的表达能力不足的问题,大大增强了模型对远距离邻域信息的捕捉能力。
Description
技术领域
本发明涉及图表示学习与图数据挖掘技术领域,尤其涉及一种具备抵制过度平滑能力的自监督异质图表示学习方法。
背景技术
由节点和及节点间自由连接的边构成的图数据,能够很自然的表示现实世界的复杂关系,例如:社交网络中的好友关系、生物分子数据中的蛋白质结构信息、物流系统中的交通路线图等,已经成为当前智能信息系统中最重要的一种数据模式。其中,由于可以建模多种类型的节点和丰富的关系,异质图数据在现实世界中更是随处可见。过去几年,图神经网络(GNN)已经取得了巨大的进展,异质图表示学习的发展,促使了图数据在各类场景下的应用,例如:推荐系统、智能交通等。
GNN能够取得如此巨大的成功,归因于其消息传递机制强大的局部信息聚集能力。该机制充分捕捉了图数据中节点与其位置紧密相邻的邻居大概率属于同一类别这一特性,因此,能够表现出强大的图表示学习性能。然而,随着对GNN的研究不断深入,其固有的一些问题也逐渐显露出来,其中最显著的一个问题就是过度平滑。过度平滑是GNN中普遍存在的现象,具体表现为网络的层数增加到一定数量之后(超过4层),模型的性能不仅不会得到提升,反而会出现急剧下降。因此,现有的GNN绝大部分都被限制在4层以内,而GNN的层数对于真实场景下的表示性能是至关重要的,模型层数无法提升,将导致在捕捉远距离邻居信息和全局信息时出现瓶颈。特别是在面向复杂结构的大规模图数据和需要远距离邻居信息的任务时,如果不利用远距离邻居信息和全局信息,将会限制最终任务的性能。因此,提出一种解决GNN中消息传递机制的限制,消除过度平滑问题,从而提升模型的表达能力的自监督异质图表示学习方法是十分有必要的。
发明内容
本发明的目的在于提供一种具备抵制过度平滑能力的自监督异质图表示学习方法,解决了现有GNN消息传递机制的过度平滑限制网络层数的扩展,从而导致模型在面对复杂图数据的表达能力不足的问题,大大增强了模型对远距离邻域信息的捕捉能力。
为实现上述目的,本发明采用的一种具备抵制过度平滑能力的自监督异质图表示学习方法,包括如下步骤:
步骤一:读取图中的节点属性、节点类别、节点之间的异质邻接关系,将处于不同空间的不同维度的节点特征映射至一个统一的空间中,并实现特征维度的统一;
步骤二:采用Metapath-aware Hop2Token将异质图中不同距离的邻居节点转化为Token序列,采用将节点的同一hop的邻居节点信息作为一个token的策略,面向不同的元路径获得不同hop的邻居节点,得到每一个元路径下的token序列;
步骤三:在Graph schema视图分支中,采用Relation-aware GCN对异质图进行编码,获得节点在Graph schema视图下的表示;
步骤四:在Hops视图分支中,采用协同GNN的异质Transformer模型对异质图进行编码,获得节点在Hops视图下的表示;
步骤五:采用Graph schema视图分支和Hops视图分支的编码信息建立联合比对学习任务;
步骤六:根据所建立的联合比对学习任务优化函数对模型参数进行迭代优化,直到达到迭代次数、精度需求。
其中,在步骤一:读取图中的节点属性、节点类别、节点之间的异质邻接关系,将处于不同空间的不同维度的节点特征映射至一个统一的空间中,并实现特征维度的统一的步骤中:
采用每一个节点类型创建一个映射矩阵来实现节点特征的空间映射和特征维度统一。
其中,在步骤三:在Graph schema视图分支中,采用Relation-aware GCN对异质图进行编码,获得节点在Graph schema视图下的表示的步骤中:
采用如下的公式进行信息聚集:
其中,为节点i在关系r下的直接相邻的邻居节点集合,ci,r为归一化常数,hi为步骤一中获得的映射到统一空间的节点特征,最终获得任一节点i在Graph schema视图下的向量表示/>
其中,在步骤四:在Hops视图分支中,采用协同GNN的异质Transformer模型对异质图进行编码,获得节点在Hops视图下的表示的步骤中:
在得到每一个元路径下的token序列之后,将每个元路径下的子序列输入到对应的Transformer encoder中进一步挖掘相同路径下不同的hop邻邻居节点之间的语义关系,获得了节点在每个元路径下的token序列表示/>
其中,在步骤四:在Hops视图分支中,采用协同GNN的异质Transformer模型对异质图进行编码,获得节点在Hops视图下的表示的步骤之后:
提出Hierarchical Attention的信息聚集模型,其中信息聚集模型包含Token-level和Semantic-level两个层次的注意力信息聚集;在Token-level信息聚集中,实现对不同token之间的信息聚集,获得每个元路径下的节点表示;在Semantic-level信息聚集中,对来自不同元路径下的节点表示进行信息聚集操作,获得任一节点i在Hops视图下最终的向量表示
其中,在步骤五:采用Graph schema视图分支和Hops视图分支的编码信息建立联合比对学习任务的步骤中:
在确定正样本和负样本的过程中,采用如下的公式:
通过设定阈值θpos来筛选出正样本实例,即若Ci(j)≥θpos则将节点对(i,j)加入到正样本集中,为图在元路径/>下的邻接矩阵,/>代表在元路径/>下节点i和j是相连接的,否则/>
其中,在步骤六:根据所建立的联合比对学习任务优化函数对模型参数进行迭代优化,直到达到迭代次数、精度需求的步骤中:
联合比对学习任务优化函数为:
其中,V为异质图中的节点集合,λ为平衡两个视图的平衡系数,从Graph Schema视图到Hops视图的对比损失为:
其中,sim(i,j)为向量i和j的余弦相似度,τ为温度参数;
从Hops视图到Graph Schema视图的对比损失为:
其中,为节点i的正样本集合,/>为节点i的负样本集合。
本发明的一种具备抵制过度平滑能力的自监督异质图表示学习方法,通过将GNN和Transformer作为两个分支,分别对不同视图信息进行编码,在避免GNN过拟合问题的前提下,突破了捕捉多跳邻居信息的限制,实现GNN和Transformer两者的优势互补;提出GNN-Transformer Co-contrastive learning架构,GNN-Transformer Co-contrastivelearning作为两个分支获得的不同视图的表示,建立对比学习任务,提升对两个视图的融合能力的同时,实现自监督的异质图表示学习;针对Transformer分支,提出Metapath-aware Hop2Token,实现了异质图中不同hop邻居信息向token序列的高效转化,提出了协同GNN的Transformer异质图表示模型,实现了Token-level和semantic-level两个不同层次语义信息的高效融合的同时,也能够配合GNN分支实现协同学习;解决了现有GNN消息传递机制的过度平滑限制网络层数的扩展,从而导致模型在面对复杂图数据的表达能力不足的问题,大大增强了模型对远距离邻域信息的捕捉能力。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的具备抵制过度平滑能力的自监督异质图表示学习方法的步骤流程图。
具体实施方式
请参阅图1,本发明提供了一种具备抵制过度平滑能力的自监督异质图表示学习方法,包括如下步骤:
步骤一:读取图中的节点属性、节点类别、节点之间的异质邻接关系,将处于不同空间的不同维度的节点特征映射至一个统一的空间中,并实现特征维度的统一;
步骤二:采用Metapath-aware Hop2Token将异质图中不同距离的邻居节点转化为Token序列,采用将节点的同一hop的邻居节点信息作为一个token的策略,面向不同的元路径获得不同hop的邻居节点,得到每一个元路径下的token序列;
步骤三:在Graph schema视图分支中,采用Relation-aware GCN对异质图进行编码,获得节点在Graph schema视图下的表示;
步骤四:在Hops视图分支中,采用协同GNN的异质Transformer模型对异质图进行编码,获得节点在Hops视图下的表示;
步骤五:采用Graph schema视图分支和Hops视图分支的编码信息建立联合比对学习任务;
步骤六:根据所建立的联合比对学习任务优化函数对模型参数进行迭代优化,直到达到迭代次数、精度需求。
在本实施方式中,通过将GNN和Transformer作为两个分支,分别对不同视图信息进行编码,在避免GNN过拟合问题的前提下,突破了捕捉多跳邻居信息的限制,实现GNN和Transformer两者的优势互补;提出GNN-Transformer Co-contrastive learning架构,GNN-Transformer Co-contrastive learning作为两个分支获得的不同视图的表示,建立对比学习任务,提升对两个视图的融合能力的同时,实现自监督的异质图表示学习;针对Transformer分支,提出Metapath-aware Hop2Token,实现了异质图中不同hop邻居信息向token序列的高效转化,提出了协同GNN的Transformer异质图表示模型,实现了Token-level和semantic-level两个不同层次语义信息的高效融合的同时,也能够配合GNN分支实现协同学习;解决了现有GNN消息传递机制的过度平滑限制网络层数的扩展,从而导致模型在面对复杂图数据的表达能力不足的问题,大大增强了模型对远距离邻域信息的捕捉能力。
进一步地,在步骤一:读取图中的节点属性、节点类别、节点之间的异质邻接关系,将处于不同空间的不同维度的节点特征映射至一个统一的空间中,并实现特征维度的统一的步骤中:
采用每一个节点类型创建一个映射矩阵来实现节点特征的空间映射和特征维度统一。
在本实施方式中,在异质图中,不同节点的特征维度不同,且不同节点的特征处于不同的空间之中,在利用这些不同节点的特征之前,需要将这些不同空间的特征映射到一个统一的空间中去,并实现特征维度的统一。本发明采用的方案是为每一个节点类型创建一个映射矩阵来完成这一任务:
其中,是节点i的原始特征向量,/>代表节点类型,/>是/>类型的节点的原始特征向量维度,/>是针对节点类型为/>的映射矩阵,/>是相对应的biasvector。d是统一目标空间的向量维度,σ为激活函数;
采用将节点的同一hop的邻居节点的信息作为一个token的策略。为了应对异质图,设计了Metapath-aware Hop2Token,Metapath-aware Hop2Token首先面向不同的metapath获得不同hop的邻居节点。对于节点v,将 定义为节点v在元路径/>下的k-hop neighborhood,其中d(u,v)代表节点u和v之间的最短路径距离。需要特别注意的是,节点的0-hop neighborhood是节点本身,即/>在获得节点的不同hop neighborhood之后,将相同hop的节点视为一个群体,按照对这些节点进行信息聚集操作,可以根据需要选择不同的策略,如(graph conv、SUM、MEAN、MAX等)本发明选择的聚集策略是:
其中, 为图在metapath/>下的邻接矩阵,/>为节点在元路径/>下的k-hop neighborhood的token表示,d为token的维度。假设将模型的最大hop设置为K,则针对每一个节点v,都可以得到一个长度为K+1的token序列
针对其他的元路径,原理和实现步骤相同,最终能得到每一个元路径下的token序列。该序列既能表征节点v的不同语义路径下不同hop的邻域信息,也能很好的将节点v的属性和graph结构信息转化为可以进行mini-batch训练的token序列,同时大大降低了后续的计算复杂度。
进一步地,在步骤三:在Graph schema视图分支中,采用Relation-aware GCN对异质图进行编码,获得节点在Graph schema视图下的表示的步骤中:
采用如下的公式进行信息聚集:
其中,为节点i在关系r下的直接相邻的邻居节点集合,ci,r为归一化常数,hi为步骤一中获得的映射到统一空间的节点特征,最终获得任一节点i在Graph schema视图下的向量表示/>
在本实施方式中,为节点i在关系r下的直接相邻的邻居节点集合,ci,r为归一化常数,可以是/>也可以是可学习的参数,hi为步骤一中获得的映射到统一空间的节点特征,最终获得任一节点i在Graph schema视图下的向量表示/>
进一步地,在步骤四:在Hops视图分支中,采用协同GNN的异质Transformer模型对异质图进行编码,获得节点在Hops视图下的表示的步骤中:
在得到每一个元路径下的token序列之后,将每个元路径下的子序列输入到对应的Transformer encoder中进一步挖掘相同路径下不同的hop邻邻居节点之间的语义关系,获得了节点在每个元路径下的token序列表示/>
进一步地,在步骤四:在Hops视图分支中,采用协同GNN的异质Transformer模型对异质图进行编码,获得节点在Hops视图下的表示的步骤之后:
提出Hierarchical Attention的信息聚集模型,其中信息聚集模型包含Token-level和Semantic-level两个层次的注意力信息聚集;在Token-level信息聚集中,实现对不同token之间的信息聚集,获得每个元路径下的节点表示;在Semantic-level信息聚集中,对来自不同元路径下的节点表示进行信息聚集操作,获得任一节点i在Hops视图下最终的向量表示
在本实施方式中,
首先将元路径下的token序列/>利用一层Linear project进行特征映射:
其中是可学习的映射矩阵,/>是特征映射后的K+1个token表示,dm是映射后的维度。
下一步,将输入到L2个顺序相连的Transformer encoderblock中对不同的hopneighborhood之间的语义关系进行挖掘。每个block的结构都相同,均包含多头自注意力机制(MSA)和FFN结构,两个结构均设置了残差子结构,并且在两个结构之前都插入了LayerNormal结构。因此,Transformer encoder block的数据流向为:
其中l=1,2…,L2代表Transformer encoderblock的层。经过L2层的Transformerencoder block,本发明可以很好的利用MSA结构实现同一路径下不同hops neighborhood之间的信息交互,获得语义更加丰富的token序列表示 下一步,为了获得节点的最终表示,需要对这些信息丰富的token序列表示进行信息聚集。
经过前述过程,已经获得了节点在每个元路径下的token序列为了更好的挖掘不同层次的语义信息,进而获得更有代表性的节点嵌入,本发明提出了HierarchicalAttention的信息聚集模型,其主要包含两个层次的注意力信息聚集,分别是Token-level和semantic-level。
首先,在Token-level,为了能更好的挖掘所获得元路径下不同token对最终节点的重要程度,计算节点的1到khop邻居和节点本身的token之间的相关性:
其中,是可学习的参数矩阵,/>代表节点在元路径/>下的i-th hop邻居的token表示。基于此,可以实现对不同token之间的信息聚集:
在获得每个元路径下的节点表示之后,还需要对这些来自不同元路径下的节点表示进行信息聚集操作。类似的,不同的元路径所表达的语义信息不同,在不同的任务或者不同的数据集上对节点最终表示的贡献度也是不同的,因此,本发明希望模型能够根据目标任务灵活的进行对不同语义信息进行权重上的调整。首先,需要实现对不同元路径重要程度的学习,同时,为了使个元路径的信息融合满足归一性,利用softmax函数对重要性水平进行归一化操作:
其中,和/>均为对应于元路径/>的可学习的参数矩阵,P为元路径的数量。tanh为激活函数。最终,节点在hops视图下的最终的向量表示为:
进一步地,在步骤五:采用Graph schema视图分支和Hops视图分支的编码信息建立联合比对学习任务的步骤中:
在确定正样本和负样本的过程中,采用如下的公式:
通过设定阈值θpos来筛选出正样本实例,即若Ci(j)≥θpos则将节点对(i,j)加入到正样本集中,为图在元路径/>下的邻接矩阵,/>代表在元路径/>下节点i和j是相连接的,否则/>
在本实施方式中,经过以上过程,分别在步骤三和步骤四分别获得了节点在GraphSchema视图和Hops视图下的表示在进行对比学习优化之前,一个关键的问题是如何确定正样本和负样本,一种最简单直接的处理方式是仅仅将相同节点在不同view下的embeding视为正样本,而其他的全部视为负样本。这样的处理方式在计算机视觉等领域具有很好的效果,因为其样本之间是相互独立的。但是,在图数据中,节点之间是相互关联的,对于密切相关的点,本发明也企图将其视为正样本。
在异质图中,不同的元路径代表着不同的语义相关性,因此,本发明认为如果两个节点之间存在着多条元路径实例连接,则代表着这两个节点之间较高的关联性。考虑到图数据中节点之间是相互关联的,对于密切相关的点,也试图将其视为正样本,不同的元路径代表着不同的语义相关性,因此,若两个节点之间存在着多条元路径实例连接,则代表着这两个节点之间较高的关联性,基于此观点,首先需要事先统计两个节点之间的元路径实例数量:
通过设定阈值θpos来筛选出正样本实例,即Ci(j)≥θpos则将节点对(i,j)加入到正样本集中。基于此,建立两个视图下的比对学习任务。
进一步地,在步骤六:根据所建立的联合比对学习任务优化函数对模型参数进行迭代优化,直到达到迭代次数、精度需求的步骤中:
联合比对学习任务优化函数为:
其中,V为异质图中的节点集合,λ为平衡两个视图的平衡系数,从Graph Schema视图到Hops视图的对比损失为:
其中,sim(i,j)为向量i和j的余弦相似度,τ为温度参数;
从Hops视图到Graph Schema视图的对比损失为:
其中,为节点i的正样本集合,/>为节点i的负样本集合。
在本实施方式中,经过步骤五,扩充了正样本集,最终得到节点i的正样本集和负样本集/>构建以下函数来计算从Graph Schema视图到Hops视图到的对比损失函数:
其中sim(i,j)是向量i和j的余弦相似度,τ是温度参数。同理,从Hops视图到到Graph Schema视图到的对比损失函数为:
最终,整体的联合比对学习任务优化函数为:
其中,λ为平衡两个view的平衡系数。通过反向梯度下降算法不断对以上的目标函数进行优化,可以实现在两个视图下的自监督异质图表示学习。在进行下游任务的推断时,选择节点在Hops视图下表示原因在于/>既能通过对比学习获得GNN在Graph Schema视图下的高质量局部信息,也能通过自身极强的多跳特征聚集能力捕捉远距离的全局信息。
以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。
Claims (3)
1.一种具备抵制过度平滑能力的自监督异质图表示学习方法,应用于推荐系统或智能交通系统,其特征在于,包括如下步骤:
步骤一:读取图中的节点属性、节点类别、节点之间的异质邻接关系,将处于不同空间的不同维度的节点特征映射至一个统一的空间中,并实现特征维度的统一;
步骤二:采用Metapath-aware Hop2Token将异质图中不同距离的邻居节点转化为Token序列,采用将节点的同一hop的邻居节点信息作为一个token的策略,面向不同的元路径获得不同hop的邻居节点,得到每一个元路径下的token序列;
步骤三:在Graph schema视图分支中,采用Relation-aware GCN对异质图进行编码,获得节点在Graph schema 视图下的表示;
步骤四:在 Hops 视图分支中,采用协同GNN的异质Transformer模型对异质图进行编码,获得节点在Hops视图下的表示;
步骤五:采用Graph schema视图分支和Hops视图分支的编码信息建立联合比对学习任务;
步骤六:根据所建立的联合比对学习任务优化函数对模型参数进行迭代优化,直到达到迭代次数、精度需求;
在步骤三:在Graph schema视图分支中,采用Relation-aware GCN对异质图进行编码,获得节点在Graph schema 视图下的表示的步骤中:
采用如下的公式进行信息聚集:
;
;
其中, 为节点 /> 在关系 /> 下的直接相邻的邻居节点集合,/>为归一化常数, /> 为步骤一中获得的映射到统一空间的节点特征,最终获得任一节点 />在Graph schema 视图下的向量表示/> ;
在步骤四:在 Hops 视图分支中,采用协同GNN的异质Transformer模型对异质图进行编码,获得节点在Hops视图下的表示的步骤中:
在得到每一个元路径下的token序列之后,将每个元路径下的子序列输入到对应的Transformer encoder中进一步挖掘相同路径下不同的hop邻居节点之间的语义关系,获得了节点在每个元路径下的token序列表示/>;
在步骤四:在Hops视图分支中,采用协同GNN的异质Transformer模型对异质图进行编码,获得节点在Hops视图下的表示的步骤之后:
提出Hierarchical Attention的信息聚集模型,其中信息聚集模型包含Token-level和Semantic-level两个层次的注意力信息聚集;在Token-level信息聚集中,实现对不同token之间的信息聚集,获得每个元路径下的节点表示;在Semantic-level信息聚集中,对来自不同元路径下的节点表示进行信息聚集操作,获得任一节点 在Hops视图下最终的向量表示/> ;
在步骤六:根据所建立的联合比对学习任务优化函数对模型参数进行迭代优化,直到达到迭代次数、精度需求的步骤中:
联合比对学习任务优化函数为:
;
其中, 为异质图中的节点集合,/> 为平衡两个视图的平衡系数,从GraphSchema视图到Hops视图的对比损失为:
;
其中, 为向量 /> 和 />的余弦相似度,/> 为温度参数;
从Hops视图到Graph Schema视图的对比损失为:
;
其中, 为节点 /> 的正样本集合,/> 为节点 /> 的负样本集合。
2.如权利要求1所述的具备抵制过度平滑能力的自监督异质图表示学习方法,其特征在于,在步骤一:读取图中的节点属性、节点类别、节点之间的异质邻接关系,将处于不同空间的不同维度的节点特征映射至一个统一的空间中,并实现特征维度的统一的步骤中:
采用每一个节点类型创建一个映射矩阵来实现节点特征的空间映射和特征维度统一。
3.如权利要求2所述的具备抵制过度平滑能力的自监督异质图表示学习方法,其特征在于,在步骤五:采用Graph schema视图分支和Hops视图分支的编码信息建立联合比对学习任务的步骤中:
在确定正样本和负样本的过程中,采用如下的公式:
;
通过设定阈值 来筛选出正样本实例,即若/>则将节点对/> 加入到正样本集中,/>为图在元路径/>下的邻接矩阵,/>代表在元路径/>下节点和/>是相连接的,否则/>。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311451594.3A CN117473124B (zh) | 2023-11-03 | 2023-11-03 | 一种具备抵制过度平滑能力的自监督异质图表示学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311451594.3A CN117473124B (zh) | 2023-11-03 | 2023-11-03 | 一种具备抵制过度平滑能力的自监督异质图表示学习方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117473124A CN117473124A (zh) | 2024-01-30 |
CN117473124B true CN117473124B (zh) | 2024-04-16 |
Family
ID=89630760
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311451594.3A Active CN117473124B (zh) | 2023-11-03 | 2023-11-03 | 一种具备抵制过度平滑能力的自监督异质图表示学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117473124B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114020928A (zh) * | 2021-11-02 | 2022-02-08 | 上海交通大学 | 一种基于异质图对比学习的虚假新闻识别方法 |
CN114611587A (zh) * | 2022-02-24 | 2022-06-10 | 石家庄铁大科贤信息技术有限公司 | 一种知识和数据混合驱动的工业数据对齐方法 |
CN115526236A (zh) * | 2022-09-01 | 2022-12-27 | 浙江大学 | 一种基于多模态对比学习的文本网络图分类方法 |
CN115659234A (zh) * | 2022-09-30 | 2023-01-31 | 山东科技大学 | 一种融合文本属性的异质图表示学习方法 |
CN115828988A (zh) * | 2022-12-05 | 2023-03-21 | 东北大学 | 一种基于自监督的异构图表示学习方法 |
CN115906920A (zh) * | 2022-11-01 | 2023-04-04 | 武汉大学 | 一种基于多视图对比学习的多层网络节点表示学习方法 |
CN116263794A (zh) * | 2021-12-13 | 2023-06-16 | 中国科学院深圳先进技术研究院 | 对比学习增强的双流模型推荐系统及算法 |
CN116662566A (zh) * | 2023-05-23 | 2023-08-29 | 中国人民解放军国防科技大学 | 一种基于对比学习机制的异质信息网络链路预测方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220092413A1 (en) * | 2020-09-23 | 2022-03-24 | Beijing Wodong Tianjun Information Technology Co., Ltd. | Method and system for relation learning by multi-hop attention graph neural network |
CN112669916B (zh) * | 2020-12-25 | 2022-03-15 | 浙江大学 | 一种基于对比学习的分子图表示学习方法 |
US20230088676A1 (en) * | 2021-09-20 | 2023-03-23 | International Business Machines Corporation | Graph neural network (gnn) training using meta-path neighbor sampling and contrastive learning |
CN116304066B (zh) * | 2023-05-23 | 2023-08-22 | 中国人民解放军国防科技大学 | 一种基于提示学习的异质信息网络节点分类方法 |
-
2023
- 2023-11-03 CN CN202311451594.3A patent/CN117473124B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114020928A (zh) * | 2021-11-02 | 2022-02-08 | 上海交通大学 | 一种基于异质图对比学习的虚假新闻识别方法 |
CN116263794A (zh) * | 2021-12-13 | 2023-06-16 | 中国科学院深圳先进技术研究院 | 对比学习增强的双流模型推荐系统及算法 |
CN114611587A (zh) * | 2022-02-24 | 2022-06-10 | 石家庄铁大科贤信息技术有限公司 | 一种知识和数据混合驱动的工业数据对齐方法 |
CN115526236A (zh) * | 2022-09-01 | 2022-12-27 | 浙江大学 | 一种基于多模态对比学习的文本网络图分类方法 |
CN115659234A (zh) * | 2022-09-30 | 2023-01-31 | 山东科技大学 | 一种融合文本属性的异质图表示学习方法 |
CN115906920A (zh) * | 2022-11-01 | 2023-04-04 | 武汉大学 | 一种基于多视图对比学习的多层网络节点表示学习方法 |
CN115828988A (zh) * | 2022-12-05 | 2023-03-21 | 东北大学 | 一种基于自监督的异构图表示学习方法 |
CN116662566A (zh) * | 2023-05-23 | 2023-08-29 | 中国人民解放军国防科技大学 | 一种基于对比学习机制的异质信息网络链路预测方法 |
Non-Patent Citations (2)
Title |
---|
Heterogeneous Graph Contrastive Learning for Recommendation;Mengru Chen et al;《arXiv:2303.00995v1 [cs.IR]》;20230302;第1-9页 * |
MHNF: Multi-hop Heterogeneous Neighborhood information Fusion graph representation learning;Yundong Sun et al;arXiv:2106.09289v2 [cs.LG];20220623;第1-14页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117473124A (zh) | 2024-01-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110413844B (zh) | 基于时空注意力深度模型的动态链路预测方法 | |
CN112529168B (zh) | 一种基于gcn的属性多层网络表示学习方法 | |
CN111046907A (zh) | 一种基于多头注意力机制的半监督卷积网络嵌入方法 | |
CN109543043A (zh) | 一种基于知识图谱推理的电力通信大数据错误的自动监测方法 | |
CN115659234A (zh) | 一种融合文本属性的异质图表示学习方法 | |
CN111897974A (zh) | 一种基于多层注意力机制的异质知识图谱学习方法 | |
CN114565053A (zh) | 基于特征融合的深层异质图嵌入模型 | |
CN113128667B (zh) | 一种跨域自适应的图卷积平衡迁移学习方法与系统 | |
CN113240086B (zh) | 一种复杂网络链接预测方法及系统 | |
CN116166875A (zh) | 基于元路径增强的异质图神经网络的双向跨域推荐方法 | |
CN112311608A (zh) | 一种多层异质网络空间节点表征方法 | |
CN116501956A (zh) | 一种基于分层图对比学习的知识感知多域推荐方法及系统 | |
CN115358234A (zh) | 基于图卷积网络与关系证据互指导的篇章关系抽取方法 | |
CN113191530A (zh) | 一种具有隐私保护的区块链节点可靠性预测方法及系统 | |
CN117743597A (zh) | 社交网络中社交机器人的检测方法、系统、设备及介质 | |
Xu et al. | A question-guided multi-hop reasoning graph network for visual question answering | |
CN113283243B (zh) | 一种实体与关系联合抽取的方法 | |
CN117473124B (zh) | 一种具备抵制过度平滑能力的自监督异质图表示学习方法 | |
Li et al. | CCAH: A CLIP‐Based Cycle Alignment Hashing Method for Unsupervised Vision‐Text Retrieval | |
Zhang et al. | Multi-component similarity graphs for cross-network node classification | |
Yang et al. | Bottom-up and top-down graph pooling | |
CN114840775A (zh) | 一种融合多空间特征的网络对齐模型及其应用 | |
Wei et al. | Compression and storage algorithm of key information of communication data based on backpropagation neural network | |
CN113326352B (zh) | 一种基于异构事件图的子事件关系识别方法 | |
Song et al. | Prior-guided multi-scale fusion transformer for face attribute recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
CB03 | Change of inventor or designer information | ||
CB03 | Change of inventor or designer information |
Inventor after: Zhu Dongjie Inventor after: Sun Yundong Inventor after: Ding Zhuo Inventor before: Zhu Dongjie Inventor before: Sun Yundong Inventor before: Ding Zhuo Inventor before: Lu Ning |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |