CN115983351A

CN115983351A - 一种基于对比学习的自监督图神经网络方法

Info

Publication number: CN115983351A
Application number: CN202310135025.1A
Authority: CN
Inventors: 王波; 国英龙; 贾智洋; 李志胜; 王伟; 徐振宇; 杨铭锴; 刘彦北
Original assignee: Siteng Heli Tianjin Technology Co ltd
Current assignee: Siteng Heli Tianjin Technology Co ltd
Priority date: 2023-02-20
Filing date: 2023-02-20
Publication date: 2023-04-18

Abstract

本发明公开了一种基于对比学习的自监督图神经网络方法，包括以下步骤：收集原始图数据‑生成正样本图数据和负本图数据‑对原始图数据以及生成的正样本图数据和负样本图数据进行编码‑将原始图数据的节点表示进行读出操作，得到对应于全局的图表示，而后得到全局信息，同时将原图数据和正样本图的节点表示进行对比得到局部信息‑‑拉近正样本图数据在表征空间中的距离，同时拉远负样本图数据在表征空间中的距离。本发明采用上述基于对比学习的自监督图神经网络方法，在不依赖标签数据的前提下，只利用数据本身的自监督信号学习得到判别性的节点表示，可以广泛地应用化学分子性质预测、生物蛋白质功能预测、社交网络分析等领域。

Description

一种基于对比学习的自监督图神经网络方法

技术领域

本发明涉及一种神经网络技术，尤其涉及一种基于对比学习的自监督图神经网络方法。

背景技术

图结构数据已经被应用在知识图谱、电子商务、社交网络、化学分子结构等领域，具有广泛的应用价值。随着图数据越来越广泛的应用，学习得到优秀的节点表示也愈发重要。图表示学习需要将高维度的图数据降维至低维空间中，以去除特征冗余，得到具有表现力的节点表示用于上述任务。

但是目前多数图神经网络研究集中在有监督或半监督的学习场景中。尽管这些研究取得了成功，但对标签的严重依赖带来以下缺点：首先，手工标签的成本昂贵，特别是对于拥有大规模数据集的研究领域(例如，引文和社会网络)。其次，有监督学习场景通常由于过度匹配问题而泛化较差，特别是在训练数据稀缺的情况下。最后，有监督图深度学习模型容易受到与标签相关的对抗性攻击，导致图监督学习的健壮性较弱。

目前，在图领域，对比学习已经被证明是一种可行的方法，并且取得了不错的成果。但是由于图数据的复杂性，导致目前的方法在提取节点以及其邻居信息时不能够兼顾局部信息和全局信息，从而不能够获得不同节点之间的差异性信息，使得编码得到的节点表示的表现力较差。

发明内容

为解决上述问题，本发明提供一种基于对比学习的自监督图神经网络方法，可以通过执行不同的对比策略，挖掘图数据中丰富的局部和全局信息，有效地提高了学习得到的节点表示的质量。

为实现上述目的，本发明提供了一种基于对比学习的自监督图神经网络方法，包括以下步骤：

S1、收集原始图数据；

S2、对收集到的图数据进行图增强，生成正样本图数据和负本图数据；

S3、对原始图数据以及生成的正样本图数据和负样本图数据进行编码，得到节点表示；

S4、将原始图数据的节点表示进行读出操作，得到对应于全局的图表示，将负样本图数据中的节点表示以及原图数据中的节点表示与图表示进行对比得到全局信息，同时将原图数据和正样本图的节点表示进行对比得到局部信息；

S5、通过最小化目标函数，拉近正样本图数据在表征空间中的距离，同时拉远负样本图数据在表征空间中的距离，让节点学习到全局的语义信息，从而提高学习到的节点表示质量。

优选的，在步骤S1中，定义一个图数据集：将无向图定义为

它们的节点集用

表示，其中，v_i代表节点i；节点特征矩阵用

表示，其中，x_i表示节点v_i的特征向量，N代表节点数量，d₀代表节点的特征维度；

代表图的邻接矩阵，其中，边e_i,j＝(v_i,v_j)∈ε表示着节点v_i和v_j具有链接关系，|E|表示边的数量。

优选的，在步骤S2中，首先，给定一个图数据

其拥有节点特征矩阵

以及邻接矩阵

则定义一个增强图生成负样本：

其中，

是部分扰乱的节点集，

是一个索引函数，用来自特征矩阵的节点向量v_i，断开负样本图数据之间的节点级链接；再定义一个增强图生成正样本：

M是与特征矩阵X具有相同形状大小的0，1掩码矩阵，

表示Hadamard乘积。

优选的，对于给定的掩码矩阵M，其元素被初始化为1，并且掩码特征通道被分配为0，并按照即掩码矩阵M中0元素占所有元素的比例来删除节点内部的部分属性。

优选的，在步骤S3中，利用图卷积神经网络对原始图数据以及增强生成的正样本图数据和负本图数据进行图编码表示。

优选的，步骤S3中所述的图卷积神经网络通过消息传递机制，将每个节点携带的信息传播给其邻居，进而更新各个节点的表示，通过l层迭代，每个节点均可捕获到其l跳邻居的信息，即：

其中，AGGREGATE(·)和COMBINE(·)分别为聚合邻域节点的信息和更新自身节点信息，

为节点n的邻域节点集合，

为节点n的邻域节点u的l-1层节点表示，

为节点n聚合的邻域节点的信息，

为节点n更新邻域及自身信息后的第l层节点表示。

优选的，在步骤S4中，由于图表示包含了图的全部信息，因此对比拥有全局信息的图表示约束节点表示，以此学习全局信息。

优选的，在步骤S4中，节点包含了图的局部信息，因此对比拥有局部信息的节点表示和正样本节点表示，以此学习局部信息。

优选的，在步骤S5中，通过为两个不同的损失项目分配不同的权重系数，来优化图神经网络，用于不同的下游任务。

优选的，步骤S5具体包括以下步骤：

S51、通过对比正样本图数据之间的负余弦相似度定义局部对比损失：

其中，

为余弦相似度，代表一对正样本节点之间的相似度，N为节点数量；

同时为了得到图数据的全局信息，通过给正负样本节点表示与图表示打分，定义全局信息的损失，即交叉熵损失：

其中，

为读出操作之后的图表示，包含图的全局信息，

是一个双线性层：

是可学习矩阵，σ(·)是sigmoid激活函数；

S52、整体损失定义如下形式：

其中，α是局部信息和全局信息之间的平衡系数，用来平衡局部和全部对比网络的重要程度；

S53、采用Adam下降法最小化整体损失用以更新编码器的参数，并将预训练后的编码器用于不同的下游任务。

相比于现有技术，本发明具有以下有益效果：

1、克服了以前方法中局部或全局信息的缺失，通过控制与节点表示进行对比学习的对象提出了局部信息和全局信息，即同时考虑了对比学习中的局部和全局信息，并且针对局部和全局信息分别执行不同的对比策略，能够学习到更加优秀的节点表示，可以更好地应用在下游任务中。

2、可以用于图数据分析和图表示学习等场景，助力人们更好地使用图数据。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

图1为本发明的方法流程图；

图2为本发明的算法原理图。

具体实施方式

以下将结合附图对本发明作进一步的描述，需要说明的是，本实施例以本技术方案为前提，给出了详细的实施方式和具体的操作过程，但本发明的保护范围并不限于本实施例。

图1为本发明的方法流程图；图2为本发明的算法原理图，如图1和图2所示，一种基于对比学习的自监督图神经网络方法，包括以下步骤：

S1、收集原始图数据；

优选的，在步骤S1中，定义一个图数据集：将无向图定义为

它们的节点集用

表示，其中，v_i代表节点i；节点特征矩阵用

优选的，在步骤S2中，首先，给定一个图数据

其拥有节点特征矩阵

以及邻接矩阵

则定义一个增强图生成负样本：

其中，

是部分扰乱的节点集，

M是与特征矩阵X具有相同形状大小的0，1掩码矩阵，

表示Hadamard乘积。

为节点n的邻域节点集合，

为节点n的邻域节点u的l-1层节点表示，

为节点n聚合的邻域节点的信息，

为节点n更新邻域及自身信息后的第l层节点表示。

优选的，步骤S5具体包括以下步骤：

其中，

其中，

为读出操作之后的图表示，包含图的全局信息，

是一个双线性层：

是可学习矩阵，σ(·)是sigmoid激活函数；

S52、整体损失定义如下形式：

实验例

引用六个国际公开的图数据集(Cora、Citeseer、PubMed、ACM、UAI2010和Flickr)进行实验，其中，Cora、Citeseer、PubMed、ACM和UAI2010是引文网络，引文网络中每一个节点表示一篇科学论文，所有的论文被分成不同的类别，包括遗传算法，神经网络，强化学习等等。每篇论文都由一个d₀维的词向量表示，所以，每个样本点具有d₀个特征。词向量的每个元素都对应一个词，且该元素只有0或1两个取值。取0表示该元素对应的词不在论文中，取1表示在论文中。所有的词来源于一个具有d₀个词的字典。每篇论文都至少引用了一篇其他论文，或者被其他论文引用，也就是样本点之间存在联系，没有任何一个样本点与其他样本点完全没联系。如果将样本点看作图中的点，则这是一个连通的图，不存在孤立点。Flickr是用户分享图片和视屏的社交网络，在此数据集中，每一个节点都是Flickr中的用户，每一条边都是用户之间的好友关系。另外，每一个节点都有标签，用于标识用户的兴趣小组。

表1为图数据集统计信息表

数据集	节点	边	属性	类别	训练	测试
							Cora	2708	4732	1433	7	140	1000
Citeseer	3327	5429	3703	6	120	1000
							PubMed	19717	44338	500	3	60	1000
ACM	3025	13128	1870	3	60	1000
							Flickr	7575	239738	12407	9	180	1000
UAI2010	3067	28311	4973	19	380	1000

实验中将本发明方法与三种半监督学习和五种无监督学习模型进行了对比：

GCN：一种半监督图卷积网络框架，它聚集来自邻居的输入特征以学习节点表示。

GAT：一个半监督图神经网络框架，它引入了注意力机制聚集节点特征。

GraphSAGE：一种半监督归纳学习框架，可以利用顶点的特征信息高效地生成未知顶点的表示。

DGI：一种无监督模型，通过最大化节点表示和提取的图表示信息之间的MI生成优秀的节点表示。

GMI：一种无监督模型，将互信息计算的基本范式从向量空间扩展到图域。

MVGRL：自监督模型，最大化来自不同视图的图编码表示之间的互信息。

GRACE：一种基于节点级比较的无监督图表示学习框架。

MERIT：一种利用孪生网络，通过多尺度对比学习进行自我提炼来学习节点表示的自监督框架。

本发明中通过两个任务来验证所提方法的有效性，分别为无监督节点分类任务和节点聚类任务。对于无监督节点分类，采用提出的基于对比学习的图神经网络来预训练编码器，之后将编码器输出的节点表示送入下游的MLP分类器，在此任务中采用准确率(Accuracy,ACC)以及宏平均(Macro F1-score,F1)作为评估指标；对于节点聚类任务，直接将编码器输出的节点表示进行节点聚类任务。在此任务中采用归一化互信息(NormalizedMutual Information,NMI)和调整兰德系数(Adjusted Rand Index,ARI)作为评估指标。

表2为无监督分类实验结果表

由表2可知，在六个下游任务数据集中的节点分类性能表现中，本发明提出方法的分类性能优于绝大多数其它基线方法，表现最好。

表3为无监督聚类实验结果表

由表3可知，在六个下游任数据集中的节点聚类性能表现中，本发明所提出的方法在聚类任务中的性能表现优于绝大多数对比方法，甚至在ACM数据集中获得了超过对比方法接近3％的性能表现。

因此，本发明采用上述基于对比学习的自监督图神经网络方法，在不依赖标签数据的前提下，只利用数据本身的自监督信号学习得到判别性的节点表示，可以广泛地应用化学分子性质预测、生物蛋白质功能预测、社交网络分析等领域。

最后应说明的是：以上实施例仅用以说明本发明的技术方案而非对其进行限制，尽管参照较佳实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对本发明的技术方案进行修改或者等同替换，而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。