CN117473124B

CN117473124B - 一种具备抵制过度平滑能力的自监督异质图表示学习方法

Info

Publication number: CN117473124B
Application number: CN202311451594.3A
Authority: CN
Inventors: 朱东杰; 孙云栋; 丁卓
Original assignee: Nanjing Longyuan Information Technology Co ltd; Harbin Institute of Technology Weihai
Current assignee: Nanjing Longyuan Information Technology Co ltd; Harbin Institute of Technology Weihai
Priority date: 2023-11-03
Filing date: 2023-11-03
Publication date: 2024-04-16
Anticipated expiration: 2043-11-03
Also published as: CN117473124A

Abstract

本发明涉及图表示学习与图数据挖掘技术领域，具体涉及一种具备抵制过度平滑能力的自监督异质图表示学习方法；通过GNN分支和Transformer分支在不同视角下对节点信息进行编码，基于两个视角的信息建立对比学习任务，实现无需样本标注条件下的自监督异质图表示学习，解决了现有GNN消息传递机制的过度平滑限制网络层数的扩展，从而导致模型在面对复杂图数据的表达能力不足的问题，大大增强了模型对远距离邻域信息的捕捉能力。

Description

一种具备抵制过度平滑能力的自监督异质图表示学习方法

技术领域

本发明涉及图表示学习与图数据挖掘技术领域，尤其涉及一种具备抵制过度平滑能力的自监督异质图表示学习方法。

背景技术

由节点和及节点间自由连接的边构成的图数据，能够很自然的表示现实世界的复杂关系，例如：社交网络中的好友关系、生物分子数据中的蛋白质结构信息、物流系统中的交通路线图等，已经成为当前智能信息系统中最重要的一种数据模式。其中，由于可以建模多种类型的节点和丰富的关系，异质图数据在现实世界中更是随处可见。过去几年，图神经网络(GNN)已经取得了巨大的进展，异质图表示学习的发展，促使了图数据在各类场景下的应用，例如：推荐系统、智能交通等。

GNN能够取得如此巨大的成功，归因于其消息传递机制强大的局部信息聚集能力。该机制充分捕捉了图数据中节点与其位置紧密相邻的邻居大概率属于同一类别这一特性，因此，能够表现出强大的图表示学习性能。然而，随着对GNN的研究不断深入，其固有的一些问题也逐渐显露出来，其中最显著的一个问题就是过度平滑。过度平滑是GNN中普遍存在的现象，具体表现为网络的层数增加到一定数量之后(超过4层)，模型的性能不仅不会得到提升，反而会出现急剧下降。因此，现有的GNN绝大部分都被限制在4层以内，而GNN的层数对于真实场景下的表示性能是至关重要的，模型层数无法提升，将导致在捕捉远距离邻居信息和全局信息时出现瓶颈。特别是在面向复杂结构的大规模图数据和需要远距离邻居信息的任务时，如果不利用远距离邻居信息和全局信息，将会限制最终任务的性能。因此，提出一种解决GNN中消息传递机制的限制，消除过度平滑问题，从而提升模型的表达能力的自监督异质图表示学习方法是十分有必要的。

发明内容

本发明的目的在于提供一种具备抵制过度平滑能力的自监督异质图表示学习方法，解决了现有GNN消息传递机制的过度平滑限制网络层数的扩展，从而导致模型在面对复杂图数据的表达能力不足的问题，大大增强了模型对远距离邻域信息的捕捉能力。

为实现上述目的，本发明采用的一种具备抵制过度平滑能力的自监督异质图表示学习方法，包括如下步骤：

步骤一：读取图中的节点属性、节点类别、节点之间的异质邻接关系，将处于不同空间的不同维度的节点特征映射至一个统一的空间中，并实现特征维度的统一；

步骤二：采用Metapath-aware Hop2Token将异质图中不同距离的邻居节点转化为Token序列，采用将节点的同一hop的邻居节点信息作为一个token的策略，面向不同的元路径获得不同hop的邻居节点，得到每一个元路径下的token序列；

步骤三：在Graph schema视图分支中，采用Relation-aware GCN对异质图进行编码，获得节点在Graph schema视图下的表示；

步骤四：在Hops视图分支中，采用协同GNN的异质Transformer模型对异质图进行编码，获得节点在Hops视图下的表示；

步骤五：采用Graph schema视图分支和Hops视图分支的编码信息建立联合比对学习任务；

步骤六：根据所建立的联合比对学习任务优化函数对模型参数进行迭代优化，直到达到迭代次数、精度需求。

其中，在步骤一：读取图中的节点属性、节点类别、节点之间的异质邻接关系，将处于不同空间的不同维度的节点特征映射至一个统一的空间中，并实现特征维度的统一的步骤中：

采用每一个节点类型创建一个映射矩阵来实现节点特征的空间映射和特征维度统一。

其中，在步骤三：在Graph schema视图分支中，采用Relation-aware GCN对异质图进行编码，获得节点在Graph schema视图下的表示的步骤中：

采用如下的公式进行信息聚集:

其中，为节点i在关系r下的直接相邻的邻居节点集合，c_i,r为归一化常数，h_i为步骤一中获得的映射到统一空间的节点特征，最终获得任一节点i在Graph schema视图下的向量表示/>

其中，在步骤四：在Hops视图分支中，采用协同GNN的异质Transformer模型对异质图进行编码，获得节点在Hops视图下的表示的步骤中：

在得到每一个元路径下的token序列之后，将每个元路径下的子序列输入到对应的Transformer encoder中进一步挖掘相同路径下不同的hop邻邻居节点之间的语义关系，获得了节点在每个元路径下的token序列表示/>

其中，在步骤四：在Hops视图分支中，采用协同GNN的异质Transformer模型对异质图进行编码，获得节点在Hops视图下的表示的步骤之后：

提出Hierarchical Attention的信息聚集模型，其中信息聚集模型包含Token-level和Semantic-level两个层次的注意力信息聚集；在Token-level信息聚集中，实现对不同token之间的信息聚集，获得每个元路径下的节点表示；在Semantic-level信息聚集中，对来自不同元路径下的节点表示进行信息聚集操作，获得任一节点i在Hops视图下最终的向量表示

其中，在步骤五：采用Graph schema视图分支和Hops视图分支的编码信息建立联合比对学习任务的步骤中：

在确定正样本和负样本的过程中，采用如下的公式：

通过设定阈值θ_pos来筛选出正样本实例，即若C_i(j)≥θ_pos则将节点对(i,j)加入到正样本集中，为图在元路径/>下的邻接矩阵，/>代表在元路径/>下节点i和j是相连接的，否则/>

其中，在步骤六：根据所建立的联合比对学习任务优化函数对模型参数进行迭代优化，直到达到迭代次数、精度需求的步骤中：

联合比对学习任务优化函数为：

其中，V为异质图中的节点集合，λ为平衡两个视图的平衡系数，从Graph Schema视图到Hops视图的对比损失为：

其中，sim(i,j)为向量i和j的余弦相似度，τ为温度参数；

从Hops视图到Graph Schema视图的对比损失为：

其中，为节点i的正样本集合，/>为节点i的负样本集合。

本发明的一种具备抵制过度平滑能力的自监督异质图表示学习方法，通过将GNN和Transformer作为两个分支，分别对不同视图信息进行编码，在避免GNN过拟合问题的前提下，突破了捕捉多跳邻居信息的限制，实现GNN和Transformer两者的优势互补；提出GNN-Transformer Co-contrastive learning架构，GNN-Transformer Co-contrastivelearning作为两个分支获得的不同视图的表示，建立对比学习任务，提升对两个视图的融合能力的同时，实现自监督的异质图表示学习；针对Transformer分支，提出Metapath-aware Hop2Token，实现了异质图中不同hop邻居信息向token序列的高效转化，提出了协同GNN的Transformer异质图表示模型，实现了Token-level和semantic-level两个不同层次语义信息的高效融合的同时，也能够配合GNN分支实现协同学习；解决了现有GNN消息传递机制的过度平滑限制网络层数的扩展，从而导致模型在面对复杂图数据的表达能力不足的问题，大大增强了模型对远距离邻域信息的捕捉能力。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的具备抵制过度平滑能力的自监督异质图表示学习方法的步骤流程图。

具体实施方式

请参阅图1，本发明提供了一种具备抵制过度平滑能力的自监督异质图表示学习方法，包括如下步骤：

在本实施方式中，通过将GNN和Transformer作为两个分支，分别对不同视图信息进行编码，在避免GNN过拟合问题的前提下，突破了捕捉多跳邻居信息的限制，实现GNN和Transformer两者的优势互补；提出GNN-Transformer Co-contrastive learning架构，GNN-Transformer Co-contrastive learning作为两个分支获得的不同视图的表示，建立对比学习任务，提升对两个视图的融合能力的同时，实现自监督的异质图表示学习；针对Transformer分支，提出Metapath-aware Hop2Token，实现了异质图中不同hop邻居信息向token序列的高效转化，提出了协同GNN的Transformer异质图表示模型，实现了Token-level和semantic-level两个不同层次语义信息的高效融合的同时，也能够配合GNN分支实现协同学习；解决了现有GNN消息传递机制的过度平滑限制网络层数的扩展，从而导致模型在面对复杂图数据的表达能力不足的问题，大大增强了模型对远距离邻域信息的捕捉能力。

进一步地，在步骤一：读取图中的节点属性、节点类别、节点之间的异质邻接关系，将处于不同空间的不同维度的节点特征映射至一个统一的空间中，并实现特征维度的统一的步骤中：

在本实施方式中，在异质图中，不同节点的特征维度不同，且不同节点的特征处于不同的空间之中，在利用这些不同节点的特征之前，需要将这些不同空间的特征映射到一个统一的空间中去，并实现特征维度的统一。本发明采用的方案是为每一个节点类型创建一个映射矩阵来完成这一任务：

其中，是节点i的原始特征向量，/>代表节点类型，/>是/>类型的节点的原始特征向量维度，/>是针对节点类型为/>的映射矩阵，/>是相对应的biasvector。d是统一目标空间的向量维度，σ为激活函数；

采用将节点的同一hop的邻居节点的信息作为一个token的策略。为了应对异质图，设计了Metapath-aware Hop2Token，Metapath-aware Hop2Token首先面向不同的metapath获得不同hop的邻居节点。对于节点v，将定义为节点v在元路径/>下的k-hop neighborhood，其中d(u,v)代表节点u和v之间的最短路径距离。需要特别注意的是，节点的0-hop neighborhood是节点本身，即/>在获得节点的不同hop neighborhood之后，将相同hop的节点视为一个群体，按照对这些节点进行信息聚集操作，可以根据需要选择不同的策略，如(graph conv、SUM、MEAN、MAX等)本发明选择的聚集策略是：

其中，为图在metapath/>下的邻接矩阵，/>为节点在元路径/>下的k-hop neighborhood的token表示，d为token的维度。假设将模型的最大hop设置为K，则针对每一个节点v，都可以得到一个长度为K+1的token序列

针对其他的元路径，原理和实现步骤相同，最终能得到每一个元路径下的token序列。该序列既能表征节点v的不同语义路径下不同hop的邻域信息，也能很好的将节点v的属性和graph结构信息转化为可以进行mini-batch训练的token序列，同时大大降低了后续的计算复杂度。

进一步地，在步骤三：在Graph schema视图分支中，采用Relation-aware GCN对异质图进行编码，获得节点在Graph schema视图下的表示的步骤中：

采用如下的公式进行信息聚集:

在本实施方式中，为节点i在关系r下的直接相邻的邻居节点集合，c_i,r为归一化常数，可以是/>也可以是可学习的参数，h_i为步骤一中获得的映射到统一空间的节点特征，最终获得任一节点i在Graph schema视图下的向量表示/>

进一步地，在步骤四：在Hops视图分支中，采用协同GNN的异质Transformer模型对异质图进行编码，获得节点在Hops视图下的表示的步骤中：

进一步地，在步骤四：在Hops视图分支中，采用协同GNN的异质Transformer模型对异质图进行编码，获得节点在Hops视图下的表示的步骤之后：

在本实施方式中，

首先将元路径下的token序列/>利用一层Linear project进行特征映射：

其中是可学习的映射矩阵，/>是特征映射后的K+1个token表示，d_m是映射后的维度。

下一步，将输入到L₂个顺序相连的Transformer encoderblock中对不同的hopneighborhood之间的语义关系进行挖掘。每个block的结构都相同，均包含多头自注意力机制(MSA)和FFN结构，两个结构均设置了残差子结构，并且在两个结构之前都插入了LayerNormal结构。因此，Transformer encoder block的数据流向为：

其中l＝1,2…,L₂代表Transformer encoderblock的层。经过L₂层的Transformerencoder block,本发明可以很好的利用MSA结构实现同一路径下不同hops neighborhood之间的信息交互，获得语义更加丰富的token序列表示下一步，为了获得节点的最终表示，需要对这些信息丰富的token序列表示进行信息聚集。

经过前述过程，已经获得了节点在每个元路径下的token序列为了更好的挖掘不同层次的语义信息，进而获得更有代表性的节点嵌入，本发明提出了HierarchicalAttention的信息聚集模型，其主要包含两个层次的注意力信息聚集，分别是Token-level和semantic-level。

首先，在Token-level，为了能更好的挖掘所获得元路径下不同token对最终节点的重要程度，计算节点的1到khop邻居和节点本身的token之间的相关性：

其中，是可学习的参数矩阵，/>代表节点在元路径/>下的i-th hop邻居的token表示。基于此，可以实现对不同token之间的信息聚集：

在获得每个元路径下的节点表示之后，还需要对这些来自不同元路径下的节点表示进行信息聚集操作。类似的，不同的元路径所表达的语义信息不同，在不同的任务或者不同的数据集上对节点最终表示的贡献度也是不同的，因此，本发明希望模型能够根据目标任务灵活的进行对不同语义信息进行权重上的调整。首先，需要实现对不同元路径重要程度的学习，同时，为了使个元路径的信息融合满足归一性，利用softmax函数对重要性水平进行归一化操作:

其中，和/>均为对应于元路径/>的可学习的参数矩阵，P为元路径的数量。tanh为激活函数。最终，节点在hops视图下的最终的向量表示为：

进一步地，在步骤五：采用Graph schema视图分支和Hops视图分支的编码信息建立联合比对学习任务的步骤中：

在确定正样本和负样本的过程中，采用如下的公式：

在本实施方式中，经过以上过程，分别在步骤三和步骤四分别获得了节点在GraphSchema视图和Hops视图下的表示在进行对比学习优化之前，一个关键的问题是如何确定正样本和负样本，一种最简单直接的处理方式是仅仅将相同节点在不同view下的embeding视为正样本，而其他的全部视为负样本。这样的处理方式在计算机视觉等领域具有很好的效果，因为其样本之间是相互独立的。但是，在图数据中，节点之间是相互关联的，对于密切相关的点，本发明也企图将其视为正样本。

在异质图中，不同的元路径代表着不同的语义相关性，因此，本发明认为如果两个节点之间存在着多条元路径实例连接，则代表着这两个节点之间较高的关联性。考虑到图数据中节点之间是相互关联的，对于密切相关的点，也试图将其视为正样本，不同的元路径代表着不同的语义相关性，因此，若两个节点之间存在着多条元路径实例连接，则代表着这两个节点之间较高的关联性，基于此观点，首先需要事先统计两个节点之间的元路径实例数量：

通过设定阈值θ_pos来筛选出正样本实例，即C_i(j)≥θ_pos则将节点对(i,j)加入到正样本集中。基于此，建立两个视图下的比对学习任务。

进一步地，在步骤六：根据所建立的联合比对学习任务优化函数对模型参数进行迭代优化，直到达到迭代次数、精度需求的步骤中：

联合比对学习任务优化函数为：

其中，sim(i,j)为向量i和j的余弦相似度，τ为温度参数；

从Hops视图到Graph Schema视图的对比损失为：

其中，为节点i的正样本集合，/>为节点i的负样本集合。

在本实施方式中，经过步骤五，扩充了正样本集，最终得到节点i的正样本集和负样本集/>构建以下函数来计算从Graph Schema视图到Hops视图到的对比损失函数：

其中sim(i,j)是向量i和j的余弦相似度，τ是温度参数。同理，从Hops视图到到Graph Schema视图到的对比损失函数为：

最终，整体的联合比对学习任务优化函数为：

其中，λ为平衡两个view的平衡系数。通过反向梯度下降算法不断对以上的目标函数进行优化，可以实现在两个视图下的自监督异质图表示学习。在进行下游任务的推断时，选择节点在Hops视图下表示原因在于/>既能通过对比学习获得GNN在Graph Schema视图下的高质量局部信息，也能通过自身极强的多跳特征聚集能力捕捉远距离的全局信息。

以上所揭露的仅为本发明一种较佳实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种具备抵制过度平滑能力的自监督异质图表示学习方法，应用于推荐系统或智能交通系统，其特征在于，包括如下步骤：

步骤三：在Graph schema视图分支中，采用Relation-aware GCN对异质图进行编码，获得节点在Graph schema 视图下的表示；

步骤四：在 Hops 视图分支中，采用协同GNN的异质Transformer模型对异质图进行编码，获得节点在Hops视图下的表示；

步骤六：根据所建立的联合比对学习任务优化函数对模型参数进行迭代优化，直到达到迭代次数、精度需求；

在步骤三：在Graph schema视图分支中，采用Relation-aware GCN对异质图进行编码，获得节点在Graph schema 视图下的表示的步骤中：

采用如下的公式进行信息聚集:

；

其中，为节点 /> 在关系 /> 下的直接相邻的邻居节点集合，/>为归一化常数， /> 为步骤一中获得的映射到统一空间的节点特征，最终获得任一节点 />在Graph schema 视图下的向量表示/> ；

在步骤四：在 Hops 视图分支中，采用协同GNN的异质Transformer模型对异质图进行编码，获得节点在Hops视图下的表示的步骤中：

在得到每一个元路径下的token序列之后，将每个元路径下的子序列输入到对应的Transformer encoder中进一步挖掘相同路径下不同的hop邻居节点之间的语义关系，获得了节点在每个元路径下的token序列表示/>；

在步骤四：在Hops视图分支中，采用协同GNN的异质Transformer模型对异质图进行编码，获得节点在Hops视图下的表示的步骤之后：

提出Hierarchical Attention的信息聚集模型，其中信息聚集模型包含Token-level和Semantic-level两个层次的注意力信息聚集；在Token-level信息聚集中，实现对不同token之间的信息聚集，获得每个元路径下的节点表示；在Semantic-level信息聚集中，对来自不同元路径下的节点表示进行信息聚集操作，获得任一节点在Hops视图下最终的向量表示/> ；

在步骤六：根据所建立的联合比对学习任务优化函数对模型参数进行迭代优化，直到达到迭代次数、精度需求的步骤中：

联合比对学习任务优化函数为：

；

其中，为异质图中的节点集合，/> 为平衡两个视图的平衡系数，从GraphSchema视图到Hops视图的对比损失为：

；

其中，为向量 /> 和 />的余弦相似度，/> 为温度参数；

从Hops视图到Graph Schema视图的对比损失为：

；

其中，为节点 /> 的正样本集合，/> 为节点 /> 的负样本集合。

2.如权利要求1所述的具备抵制过度平滑能力的自监督异质图表示学习方法，其特征在于，在步骤一：读取图中的节点属性、节点类别、节点之间的异质邻接关系，将处于不同空间的不同维度的节点特征映射至一个统一的空间中，并实现特征维度的统一的步骤中：

3.如权利要求2所述的具备抵制过度平滑能力的自监督异质图表示学习方法，其特征在于，在步骤五：采用Graph schema视图分支和Hops视图分支的编码信息建立联合比对学习任务的步骤中：

在确定正样本和负样本的过程中，采用如下的公式：

；

通过设定阈值来筛选出正样本实例，即若/>则将节点对/> 加入到正样本集中，/>为图在元路径/>下的邻接矩阵，/>代表在元路径/>下节点和/>是相连接的，否则/>。