CN115983351A - 一种基于对比学习的自监督图神经网络方法 - Google Patents
一种基于对比学习的自监督图神经网络方法 Download PDFInfo
- Publication number
- CN115983351A CN115983351A CN202310135025.1A CN202310135025A CN115983351A CN 115983351 A CN115983351 A CN 115983351A CN 202310135025 A CN202310135025 A CN 202310135025A CN 115983351 A CN115983351 A CN 115983351A
- Authority
- CN
- China
- Prior art keywords
- graph
- node
- representation
- information
- graph data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 30
- 230000000052 comparative effect Effects 0.000 title claims abstract description 8
- 239000011159 matrix material Substances 0.000 claims description 27
- 230000006870 function Effects 0.000 claims description 9
- 239000013598 vector Substances 0.000 claims description 6
- 238000010586 diagram Methods 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 230000002776 aggregation Effects 0.000 claims description 3
- 238000004220 aggregation Methods 0.000 claims description 3
- 238000013459 approach Methods 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 abstract description 3
- 238000003012 network analysis Methods 0.000 abstract description 2
- 230000004853 protein function Effects 0.000 abstract description 2
- 238000012512 characterization method Methods 0.000 abstract 2
- 238000004904 shortening Methods 0.000 abstract 2
- 238000002474 experimental method Methods 0.000 description 5
- 241000689227 Cora <basidiomycete fungus> Species 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000003042 antagnostic effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000000547 structure data Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开了一种基于对比学习的自监督图神经网络方法,包括以下步骤:收集原始图数据‑生成正样本图数据和负本图数据‑对原始图数据以及生成的正样本图数据和负样本图数据进行编码‑将原始图数据的节点表示进行读出操作,得到对应于全局的图表示,而后得到全局信息,同时将原图数据和正样本图的节点表示进行对比得到局部信息‑‑拉近正样本图数据在表征空间中的距离,同时拉远负样本图数据在表征空间中的距离。本发明采用上述基于对比学习的自监督图神经网络方法,在不依赖标签数据的前提下,只利用数据本身的自监督信号学习得到判别性的节点表示,可以广泛地应用化学分子性质预测、生物蛋白质功能预测、社交网络分析等领域。
Description
技术领域
本发明涉及一种神经网络技术,尤其涉及一种基于对比学习的自监督图神经网络方法。
背景技术
图结构数据已经被应用在知识图谱、电子商务、社交网络、化学分子结构等领域,具有广泛的应用价值。随着图数据越来越广泛的应用,学习得到优秀的节点表示也愈发重要。图表示学习需要将高维度的图数据降维至低维空间中,以去除特征冗余,得到具有表现力的节点表示用于上述任务。
但是目前多数图神经网络研究集中在有监督或半监督的学习场景中。尽管这些研究取得了成功,但对标签的严重依赖带来以下缺点:首先,手工标签的成本昂贵,特别是对于拥有大规模数据集的研究领域(例如,引文和社会网络)。其次,有监督学习场景通常由于过度匹配问题而泛化较差,特别是在训练数据稀缺的情况下。最后,有监督图深度学习模型容易受到与标签相关的对抗性攻击,导致图监督学习的健壮性较弱。
目前,在图领域,对比学习已经被证明是一种可行的方法,并且取得了不错的成果。但是由于图数据的复杂性,导致目前的方法在提取节点以及其邻居信息时不能够兼顾局部信息和全局信息,从而不能够获得不同节点之间的差异性信息,使得编码得到的节点表示的表现力较差。
发明内容
为解决上述问题,本发明提供一种基于对比学习的自监督图神经网络方法,可以通过执行不同的对比策略,挖掘图数据中丰富的局部和全局信息,有效地提高了学习得到的节点表示的质量。
为实现上述目的,本发明提供了一种基于对比学习的自监督图神经网络方法,包括以下步骤:
S1、收集原始图数据;
S2、对收集到的图数据进行图增强,生成正样本图数据和负本图数据;
S3、对原始图数据以及生成的正样本图数据和负样本图数据进行编码,得到节点表示;
S4、将原始图数据的节点表示进行读出操作,得到对应于全局的图表示,将负样本图数据中的节点表示以及原图数据中的节点表示与图表示进行对比得到全局信息,同时将原图数据和正样本图的节点表示进行对比得到局部信息;
S5、通过最小化目标函数,拉近正样本图数据在表征空间中的距离,同时拉远负样本图数据在表征空间中的距离,让节点学习到全局的语义信息,从而提高学习到的节点表示质量。
优选的,在步骤S1中,定义一个图数据集:将无向图定义为它们的节点集用表示,其中,vi代表节点i;节点特征矩阵用表示,其中,xi表示节点vi的特征向量,N代表节点数量,d0代表节点的特征维度;代表图的邻接矩阵,其中,边ei,j=(vi,vj)∈ε表示着节点vi和vj具有链接关系,|E|表示边的数量。
优选的,在步骤S2中,首先,给定一个图数据其拥有节点特征矩阵以及邻接矩阵则定义一个增强图生成负样本:其中,是部分扰乱的节点集,是一个索引函数,用来自特征矩阵的节点向量vi,断开负样本图数据之间的节点级链接;再定义一个增强图生成正样本:M是与特征矩阵X具有相同形状大小的0,1掩码矩阵,表示Hadamard乘积。
优选的,对于给定的掩码矩阵M,其元素被初始化为1,并且掩码特征通道被分配为0,并按照即掩码矩阵M中0元素占所有元素的比例来删除节点内部的部分属性。
优选的,在步骤S3中,利用图卷积神经网络对原始图数据以及增强生成的正样本图数据和负本图数据进行图编码表示。
优选的,步骤S3中所述的图卷积神经网络通过消息传递机制,将每个节点携带的信息传播给其邻居,进而更新各个节点的表示,通过l层迭代,每个节点均可捕获到其l跳邻居的信息,即:
其中,AGGREGATE(·)和COMBINE(·)分别为聚合邻域节点的信息和更新自身节点信息,为节点n的邻域节点集合,为节点n的邻域节点u的l-1层节点表示,为节点n聚合的邻域节点的信息,为节点n更新邻域及自身信息后的第l层节点表示。
优选的,在步骤S4中,由于图表示包含了图的全部信息,因此对比拥有全局信息的图表示约束节点表示,以此学习全局信息。
优选的,在步骤S4中,节点包含了图的局部信息,因此对比拥有局部信息的节点表示和正样本节点表示,以此学习局部信息。
优选的,在步骤S5中,通过为两个不同的损失项目分配不同的权重系数,来优化图神经网络,用于不同的下游任务。
优选的,步骤S5具体包括以下步骤:
S51、通过对比正样本图数据之间的负余弦相似度定义局部对比损失:
同时为了得到图数据的全局信息,通过给正负样本节点表示与图表示打分,定义全局信息的损失,即交叉熵损失:
S52、整体损失定义如下形式:
其中,α是局部信息和全局信息之间的平衡系数,用来平衡局部和全部对比网络的重要程度;
S53、采用Adam下降法最小化整体损失用以更新编码器的参数,并将预训练后的编码器用于不同的下游任务。
相比于现有技术,本发明具有以下有益效果:
1、克服了以前方法中局部或全局信息的缺失,通过控制与节点表示进行对比学习的对象提出了局部信息和全局信息,即同时考虑了对比学习中的局部和全局信息,并且针对局部和全局信息分别执行不同的对比策略,能够学习到更加优秀的节点表示,可以更好地应用在下游任务中。
2、可以用于图数据分析和图表示学习等场景,助力人们更好地使用图数据。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明的方法流程图;
图2为本发明的算法原理图。
具体实施方式
以下将结合附图对本发明作进一步的描述,需要说明的是,本实施例以本技术方案为前提,给出了详细的实施方式和具体的操作过程,但本发明的保护范围并不限于本实施例。
图1为本发明的方法流程图;图2为本发明的算法原理图,如图1和图2所示,一种基于对比学习的自监督图神经网络方法,包括以下步骤:
S1、收集原始图数据;
优选的,在步骤S1中,定义一个图数据集:将无向图定义为它们的节点集用表示,其中,vi代表节点i;节点特征矩阵用表示,其中,xi表示节点vi的特征向量,N代表节点数量,d0代表节点的特征维度;代表图的邻接矩阵,其中,边ei,j=(vi,vj)∈ε表示着节点vi和vj具有链接关系,|E|表示边的数量。
S2、对收集到的图数据进行图增强,生成正样本图数据和负本图数据;
优选的,在步骤S2中,首先,给定一个图数据其拥有节点特征矩阵以及邻接矩阵则定义一个增强图生成负样本:其中,是部分扰乱的节点集,是一个索引函数,用来自特征矩阵的节点向量vi,断开负样本图数据之间的节点级链接;再定义一个增强图生成正样本:M是与特征矩阵X具有相同形状大小的0,1掩码矩阵,表示Hadamard乘积。
优选的,对于给定的掩码矩阵M,其元素被初始化为1,并且掩码特征通道被分配为0,并按照即掩码矩阵M中0元素占所有元素的比例来删除节点内部的部分属性。
S3、对原始图数据以及生成的正样本图数据和负样本图数据进行编码,得到节点表示;
优选的,在步骤S3中,利用图卷积神经网络对原始图数据以及增强生成的正样本图数据和负本图数据进行图编码表示。
优选的,步骤S3中所述的图卷积神经网络通过消息传递机制,将每个节点携带的信息传播给其邻居,进而更新各个节点的表示,通过l层迭代,每个节点均可捕获到其l跳邻居的信息,即:
其中,AGGREGATE(·)和COMBINE(·)分别为聚合邻域节点的信息和更新自身节点信息,为节点n的邻域节点集合,为节点n的邻域节点u的l-1层节点表示,为节点n聚合的邻域节点的信息,为节点n更新邻域及自身信息后的第l层节点表示。
S4、将原始图数据的节点表示进行读出操作,得到对应于全局的图表示,将负样本图数据中的节点表示以及原图数据中的节点表示与图表示进行对比得到全局信息,同时将原图数据和正样本图的节点表示进行对比得到局部信息;
优选的,在步骤S4中,由于图表示包含了图的全部信息,因此对比拥有全局信息的图表示约束节点表示,以此学习全局信息。
优选的,在步骤S4中,节点包含了图的局部信息,因此对比拥有局部信息的节点表示和正样本节点表示,以此学习局部信息。
S5、通过最小化目标函数,拉近正样本图数据在表征空间中的距离,同时拉远负样本图数据在表征空间中的距离,让节点学习到全局的语义信息,从而提高学习到的节点表示质量。
优选的,在步骤S5中,通过为两个不同的损失项目分配不同的权重系数,来优化图神经网络,用于不同的下游任务。
优选的,步骤S5具体包括以下步骤:
S51、通过对比正样本图数据之间的负余弦相似度定义局部对比损失:
同时为了得到图数据的全局信息,通过给正负样本节点表示与图表示打分,定义全局信息的损失,即交叉熵损失:
S52、整体损失定义如下形式:
其中,α是局部信息和全局信息之间的平衡系数,用来平衡局部和全部对比网络的重要程度;
S53、采用Adam下降法最小化整体损失用以更新编码器的参数,并将预训练后的编码器用于不同的下游任务。
实验例
引用六个国际公开的图数据集(Cora、Citeseer、PubMed、ACM、UAI2010和Flickr)进行实验,其中,Cora、Citeseer、PubMed、ACM和UAI2010是引文网络,引文网络中每一个节点表示一篇科学论文,所有的论文被分成不同的类别,包括遗传算法,神经网络,强化学习等等。每篇论文都由一个d0维的词向量表示,所以,每个样本点具有d0个特征。词向量的每个元素都对应一个词,且该元素只有0或1两个取值。取0表示该元素对应的词不在论文中,取1表示在论文中。所有的词来源于一个具有d0个词的字典。每篇论文都至少引用了一篇其他论文,或者被其他论文引用,也就是样本点之间存在联系,没有任何一个样本点与其他样本点完全没联系。如果将样本点看作图中的点,则这是一个连通的图,不存在孤立点。Flickr是用户分享图片和视屏的社交网络,在此数据集中,每一个节点都是Flickr中的用户,每一条边都是用户之间的好友关系。另外,每一个节点都有标签,用于标识用户的兴趣小组。
表1为图数据集统计信息表
数据集 | 节点 | 边 | 属性 | 类别 | 训练 | 测试 |
Cora | 2708 | 4732 | 1433 | 7 | 140 | 1000 |
Citeseer | 3327 | 5429 | 3703 | 6 | 120 | 1000 |
PubMed | 19717 | 44338 | 500 | 3 | 60 | 1000 |
ACM | 3025 | 13128 | 1870 | 3 | 60 | 1000 |
Flickr | 7575 | 239738 | 12407 | 9 | 180 | 1000 |
UAI2010 | 3067 | 28311 | 4973 | 19 | 380 | 1000 |
实验中将本发明方法与三种半监督学习和五种无监督学习模型进行了对比:
GCN:一种半监督图卷积网络框架,它聚集来自邻居的输入特征以学习节点表示。
GAT:一个半监督图神经网络框架,它引入了注意力机制聚集节点特征。
GraphSAGE:一种半监督归纳学习框架,可以利用顶点的特征信息高效地生成未知顶点的表示。
DGI:一种无监督模型,通过最大化节点表示和提取的图表示信息之间的MI生成优秀的节点表示。
GMI:一种无监督模型,将互信息计算的基本范式从向量空间扩展到图域。
MVGRL:自监督模型,最大化来自不同视图的图编码表示之间的互信息。
GRACE:一种基于节点级比较的无监督图表示学习框架。
MERIT:一种利用孪生网络,通过多尺度对比学习进行自我提炼来学习节点表示的自监督框架。
本发明中通过两个任务来验证所提方法的有效性,分别为无监督节点分类任务和节点聚类任务。对于无监督节点分类,采用提出的基于对比学习的图神经网络来预训练编码器,之后将编码器输出的节点表示送入下游的MLP分类器,在此任务中采用准确率(Accuracy,ACC)以及宏平均(Macro F1-score,F1)作为评估指标;对于节点聚类任务,直接将编码器输出的节点表示进行节点聚类任务。在此任务中采用归一化互信息(NormalizedMutual Information,NMI)和调整兰德系数(Adjusted Rand Index,ARI)作为评估指标。
表2为无监督分类实验结果表
由表2可知,在六个下游任务数据集中的节点分类性能表现中,本发明提出方法的分类性能优于绝大多数其它基线方法,表现最好。
表3为无监督聚类实验结果表
由表3可知,在六个下游任数据集中的节点聚类性能表现中,本发明所提出的方法在聚类任务中的性能表现优于绝大多数对比方法,甚至在ACM数据集中获得了超过对比方法接近3%的性能表现。
因此,本发明采用上述基于对比学习的自监督图神经网络方法,在不依赖标签数据的前提下,只利用数据本身的自监督信号学习得到判别性的节点表示,可以广泛地应用化学分子性质预测、生物蛋白质功能预测、社交网络分析等领域。
最后应说明的是:以上实施例仅用以说明本发明的技术方案而非对其进行限制,尽管参照较佳实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对本发明的技术方案进行修改或者等同替换,而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。
Claims (10)
1.一种基于对比学习的自监督图神经网络方法,其特征在于:包括以下步骤:
S1、收集原始图数据;
S2、对收集到的图数据进行图增强,生成正样本图数据和负本图数据;
S3、对原始图数据以及生成的正样本图数据和负样本图数据进行编码,得到节点表示;
S4、将原始图数据的节点表示进行读出操作,得到对应于全局的图表示,将负样本图数据中的节点表示以及原图数据中的节点表示与图表示进行对比得到全局信息,同时将原图数据和正样本图的节点表示进行对比得到局部信息;
S5、通过最小化目标函数,拉近正样本图数据在表征空间中的距离,同时拉远负样本图数据在表征空间中的距离,让节点学习到全局的语义信息,从而提高学习到的节点表示质量。
4.根据权利要求3所述的一种基于对比学习的自监督图神经网络方法,其特征在于:对于给定的掩码矩阵M,其元素被初始化为1,并且掩码特征通道被分配为0,并按照即掩码矩阵M中0元素占所有元素的比例来删除节点内部的部分属性。
5.根据权利要求1所述的一种基于对比学习的自监督图神经网络方法,其特征在于:在步骤S3中,利用图卷积神经网络对原始图数据以及增强生成的正样本图数据和负本图数据进行图编码表示。
7.根据权利要求1所述的一种基于对比学习的自监督图神经网络方法,其特征在于:在步骤S4中,由于图表示包含了图的全部信息,因此对比拥有全局信息的图表示约束节点表示,以此学习全局信息。
8.根据权利要求7所述的一种基于对比学习的自监督图神经网络方法,其特征在于:在步骤S4中,节点包含了图的局部信息,因此对比拥有局部信息的节点表示和正样本节点表示,以此学习局部信息。
9.根据权利要求1所述的一种基于对比学习的自监督图神经网络方法,其特征在于:在步骤S5中,通过为两个不同的损失项目分配不同的权重系数,来优化图神经网络,用于不同的下游任务。
10.根据权利要求9所述的一种基于对比学习的自监督图神经网络方法,其特征在于:步骤S5具体包括以下步骤:
S51、通过对比正样本图数据之间的负余弦相似度定义局部对比损失:
同时为了得到图数据的全局信息,通过给正负样本节点表示与图表示打分,定义全局信息的损失,即交叉熵损失:
S52、整体损失定义如下形式:
其中,α是局部信息和全局信息之间的平衡系数,用来平衡局部和全部对比网络的重要程度;
S53、采用Adam下降法最小化整体损失用以更新编码器的参数,并将预训练后的编码器用于不同的下游任务。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310135025.1A CN115983351A (zh) | 2023-02-20 | 2023-02-20 | 一种基于对比学习的自监督图神经网络方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310135025.1A CN115983351A (zh) | 2023-02-20 | 2023-02-20 | 一种基于对比学习的自监督图神经网络方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115983351A true CN115983351A (zh) | 2023-04-18 |
Family
ID=85976316
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310135025.1A Pending CN115983351A (zh) | 2023-02-20 | 2023-02-20 | 一种基于对比学习的自监督图神经网络方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115983351A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116704363A (zh) * | 2023-05-22 | 2023-09-05 | 中国地质大学(武汉) | 一种深度学习模型、土地覆盖分类方法及装置 |
CN117829683A (zh) * | 2024-03-04 | 2024-04-05 | 国网山东省电力公司信息通信公司 | 基于图对比学习的电力物联数据质量分析方法及系统 |
-
2023
- 2023-02-20 CN CN202310135025.1A patent/CN115983351A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116704363A (zh) * | 2023-05-22 | 2023-09-05 | 中国地质大学(武汉) | 一种深度学习模型、土地覆盖分类方法及装置 |
CN116704363B (zh) * | 2023-05-22 | 2024-01-26 | 中国地质大学(武汉) | 一种基于深度学习模型的土地覆盖分类方法及装置 |
CN117829683A (zh) * | 2024-03-04 | 2024-04-05 | 国网山东省电力公司信息通信公司 | 基于图对比学习的电力物联数据质量分析方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111950594B (zh) | 基于子图采样的大规模属性图上的无监督图表示学习方法和装置 | |
Stanley et al. | Stochastic block models with multiple continuous attributes | |
Wang et al. | Model: Motif-based deep feature learning for link prediction | |
CN115983351A (zh) | 一种基于对比学习的自监督图神经网络方法 | |
CN109389151B (zh) | 一种基于半监督嵌入表示模型的知识图谱处理方法和装置 | |
Yang et al. | Triplet Enhanced AutoEncoder: Model-free Discriminative Network Embedding. | |
CN115661550B (zh) | 基于生成对抗网络的图数据类别不平衡分类方法及装置 | |
Liu et al. | Network representation learning: A macro and micro view | |
Wankhade et al. | Data stream classification: a review | |
Guo et al. | Learning to re-weight examples with optimal transport for imbalanced classification | |
CN115761275A (zh) | 一种基于图神经网络的无监督社区发现方法及系统 | |
Chen et al. | Graph convolutional networks for classification with a structured label space | |
CN111737294B (zh) | 一种基于动态增量集成模糊的数据流分类方法 | |
CN117349494A (zh) | 空间图卷积神经网络的图分类方法、系统、介质及设备 | |
Li et al. | Adaptive subgraph neural network with reinforced critical structure mining | |
CN114118416A (zh) | 一种基于多任务学习的变分图自动编码器方法 | |
CN111597428A (zh) | 一种具有q分离k稀疏的用户与物品拼接的推荐方法 | |
Zhang et al. | Text classification of public feedbacks using convolutional neural network based on differential evolution algorithm | |
CN116628524A (zh) | 一种基于自适应图注意力编码器的社区发现方法 | |
Yap et al. | Neural information processing | |
CN115994560A (zh) | 一种基于多尺度图对比学习的图神经网络方法 | |
Zhang et al. | Continual Learning on Graphs: Challenges, Solutions, and Opportunities | |
CN114842247B (zh) | 基于特征累加的图卷积网络半监督节点分类方法 | |
CN113591930A (zh) | 一种基于网络融合与图嵌入的病毒-宿主关联预测方法 | |
CN112836763A (zh) | 一种图结构数据分类方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |