CN114742208A

CN114742208A - 一种基于对比学习和对抗学习的图预训练学习方法

Info

Publication number: CN114742208A
Application number: CN202210428038.3A
Authority: CN
Inventors: 徐君海; 王泽宇; 魏建国
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2022-04-22
Filing date: 2022-04-22
Publication date: 2022-07-12

Abstract

本发明公开了一种基于对比学习和对抗学习的图预训练学习方法，在图数据的特征和结构两个方面分别进行数据增强，构建两组正样本对，利用对比学习中缩小正样本对内部距离的思想训练图编码器模型，挖掘预训练数据信息。最后，对预训练得到的编码器模型进行微调操作，应用到结点分类和图分类这两种下游任务当中。本发明基于对比学习和对抗学习的无监督图预训练学习方法与其他针对于特定数据集和特定任务训练的基线图模型相比，图预训练模型具有更优或者有竞争力的性能。进行了鲁棒性、消融、模型超参数验证等实验，证明了模型的有效性。

Description

一种基于对比学习和对抗学习的图预训练学习方法

技术领域

本发明涉及一种基于对比学习和对抗学习的图预训练学习方法。

背景技术

1、图卷积神经网络和图同构网络

本文使用图神经网络对实验数据进行编码。图神经网络(Graph Neural Network)使用图结构和结点特征x_v学习结点或者图的表征向量，得到结点表示向量h_v和图表示向量h_G。大部分的图神经网络遵循邻域聚集策略，即通过聚集当前周围的邻域信息来迭代地更新结点自身的表示。

基于邻域聚合的图神经网络主要由三部分构成：

聚集函数(Aggregate)：聚合一阶邻域特征。

组合函数(Combine):将邻居聚集的特征与当前结点进行合并，更新当前结点特征。

读出函数(Readout):对于图分类任务，将图中的结点特征转化为图特征。

当前的图神经网络遵循邻域聚合策略，用过聚合结点的邻居信息来迭代地更新结点表示。经过k次聚合之后，结点能够获得k-hop邻域网络内的结构和特征信息。通常，GNN的第k层中结点的表示如公式(1)、(2)所示。

是结点v在第k层的特征向量。初始化

N(v)是结点v的所有邻居结点。聚集函数(Aggregate)和组合函数(Combine)是很重要的。在图卷积网络Graph NeuralNetwork^[1](GCN)中，平均池化(meanpooling)被用作组合函数 (Combine)，GCN的Aggregate和Combine两部分可通过公式(3)所示：

对于结点分类任务，最后一次迭代得到的结点表示

被用作结点分类预测。对于图分类任务，读出函数(Readout)聚集最后一次迭代得到的结点特征用来获取图表示h_G，如公式(4)所示：

2.现有图预训练学习方法的不足

Nacarin等人^[1]使用两个共享参数的图神经网络作为孪生网络编码器，计算核函数作为损失函数输出，挖掘预训练数据上的信息。但是该预训练方法应用领域较为狭窄，只在三个公用的数据集上进行了实验。Hu等人^[2]使用三个无监督任务获取图的不同层级的结构信息，进而预训练图的编码器，但是缺乏端到端的预训练方式。Hu等人^[3]提出分别在结点和图层次上采取不同的策略来预训练图神经网络，可以考虑到图预训练的局部和全局信息，然而在图层次的预训练任务熵需要用到数据标签进行有监督的学习，使整个预训练过程不能完全脱离标签以自/无监督方式进行。Zhu等人^[4]利用对比学习的思想，进行图预训练。但是在其中的图增强过程中容易丢失某些关于图样本数据的关键特征。

发明内容

为了解决现有技术中的问题，本发明提供一种基于对比学习和对抗学习的图预训练学习方法，解决现有技术中图神经网络模型无法利用大规模无标签图数据集的知识以自/无监督方式进行的问题。

本发明是通过以下技术方案实现：

一种基于对比学习和对抗学习的图预训练学习方法，首先将预训练数据中结点的度转化为对应的结点选择概率，在每一次的计算过程中，依据前述概率选择对应结点并生成以该结点为中心的子图实例；再通过预训练模型进行图数据的预训练，得到预训练之后的编码器模型；最后，对预训练得到的编码器模型进行微调操作，应用到结点分类和图分类这两种下游任务当中；所述预训练模型是在图数据的特征和结构两个方面分别进行数据增强，构建两组正样本对，利用对比学习中缩小正样本对内部距离的思想训练图编码器模型，挖掘预训练数据信息。

所述数据增强在结构增强方面，分别使用了可以学习到局部信息和全局信息的两种邻接矩阵方式；在特征增强方面，基于PGD^[5]算法生成了干扰因子，施加在子图实例的结点特征上；通过两种数据增强方式生成的两对相似样本对，称为正样本对；利用NT_Xent^[6]，如公式(5)所示，作为损失函数；生成的两组共四个图数据增强样本分别输入到两组编码器即结构编码器和特征编码器，共计四个分支，将实例的结构信息映射到隐空间中；每组编码器生成的关于正样本对的隐特征输入到损失函数NT_Xent^[6]，缩小彼此之间的距离，进而训练对应编码器，挖掘预训练数据内部信息；

一对正样本对(i,j)的损失函数定义如上。上式中的z_i和z_j经过编码器后得到的一组正样本对特征表征，其中经过L2正则化处理。τ定义的是温度参数。分子上的sim函数是正样本对表征的点积操作，计算正样本对之间的相似度，代表的是正样本对信息。分母上的l_[k≠i]∈{0，1}是一个指示函数，当k≠i的时候取值为1。与本实验具体模型相结合，分母的含义为计算特定子图样本实例与批次中除自身以外的所有实例的相似度之和，通过此种方式包含了负样本的信息。对于每种数据增强，在每个数据批次当中我们随机抽取位于不同图的N个结点，生成N个子图实例，经过数据增强得到N组正样本对，即2N个样本数据。

本发明的有益效果是：

1、本发明使用了两个下游任务即结点分类和图分类来验证提出的图预训练模型。本模型是首先在预训练数据集上以无监督的模式进行预训练，后在目标数据上进行微调操作。与经典的有监督方法以及之前的图预训练方法相比，本模型在下游分类任务上可以实现更好的分类效果，即分类准确率更高。

2、为了分别验证两种数据增强方法的作用，还进行了消融实验。根据实验结果得知，两种图增强方法均对下游任务结果的提升产生了积极作用，并且结构增强比特征数据增强起的作用更大。

3、由于本模型引入了对抗学习，对模型进行了鲁棒性验证。在下游任务数据增加噪声进行分类测试，与一般的图预训练方法相比，本模型方法可以更好的抵御噪声，在受到干扰的下游任务数据上可以取得更好的分类效果。因此，本模型具有良好的鲁棒性。

附图说明

图1是算法模型流程图；

和

分别是特征增强图实例的结点特征；

和

分别是特征增强图实例的干扰因子；

和

是结构增强图实例的编码结果；

和

是特征增强图实例的编码结果；NT-Xent是本模型的损失函数。

具体实施方式

下面结合附图，对本发明的具体实施方式进行详细说明。

1.实验数据

本实验所用的预训练图数据共有六组，与Qiu等人^[7]相同。分为学术和社会网络两大类。在学术网络数据中，包括来自于NetRep^[8]的Academia数据和分别来自SNAP^[9]、NetRep^[8]的两组DBLP数据。在社会网络数据中，从NetRep^[8]和SNAP^[9]分别收集了Facebook、IMDB数据集和LiveJournal数据集。表1介绍了使用的预训练数据集。

表1：预训练数据集

2.结点特征的构造

本实验使用的预训练数据没有额外的特征信息，所以通过结构数据增强实例的结构信息构建结点特征。本实验的结点特征包含两个部分，一方面是度向量嵌入，另一方面是Weisfeiler-Lehman向量嵌入，把二者进行拼接得到最终的结点特征。

3.本发明预训练模型

本实验的目标是在给定多个图数据集的条件下，预训练一个图编码器来获取图数据基本的结构信息，然后微调预训练模型至不同的下游任务当中。本发明使用了结构增强和特征增强的两种增强方式。在结构增强方面，分别使用了可以学习到局部信息和全局信息的两种邻接矩阵方式；在特征增强方面，基于PGD^[5]算法生成了干扰因子，施加在子图实例的结点特征上。通过两种数据增强方式生成的两对相似样本对，称为正样本对。本文利用NT_Xent^[6]，如公式(5)所示，作为损失函数。生成的两组共四个图数据增强样本分别输入到两组编码器(结构编码器和特征编码器，共计四个分支)，将实例的结构信息映射到隐空间中。每组编码器生成的关于正样本对的隐特征输入到损失函数NT_Xent公式(5)，缩小彼此之间的距离，进而训练对应编码器，挖掘预训练数据内部信息。

4.模型训练与评估

我们使用Pytorch来实现算法并训练模型。在训练过程中，使用NT_Xent 作为损失函数，使用SGD对模型进行优化。我们将mini-batch大小设置为64，学习率设置为0.01，每50个epoch后恒定衰减0.3，权重衰减为0.001，epoch数设置为300。在评估方面，我们选择了结点分类和图分类两个下游任务来验证此预训练模型。

此外，文实验还进行了鲁棒性、消融、模型超参数验证等实验，进一步证明了模型的有效性。

4.1下游任务实验

4.1.1结点分类

结点分类任务是基于部分有标签的结点进行模型训练并预测无标签结点的标签值。在下游任务的结点分类中，本文以数据集中的每个结点为中心，生成结构增强的正样本子图实例对，并使用预训练的模型编码器进行编码提取特征。关于结点分类数据集，本文使用来自^[7]的H-index、H-index-rand-1和来自struc2vec 的Brazil-Airport。所使用的H-index和H-index-rand-1数据集，是从OAG^[10]中提取的作者-著作关系图。由于OAG中原始的图数据有数百万个结点，用来做结点分类任务非常复杂。因此从其中选择了5000个结点作为初始节点，使用breath first search(BFS)方法生成了对应的5000个子图作为结点分类的数据集。 Brazil-Airport收集了National Civil Aviation Agency(ANAC)2016年1月份到12 月份的信息。整个网络包括131个结点，1038条边。比较方法选择了ProNE^[11]和Graph-wave^[12]。ProNE和Graph-Wave从无监督图数据中学习结点特征并且输入到SVM(supportvector machine)进行分类操作。

表2显示了结点分类的结果。ProNE和GraphWave两个方法是将H-index， H-index-rand-1和Brazil-Airport作为训练数据以有监督的方式直接训练模型，而本模型是首先在预训练数据集上以无监督的模式进行预训练训练，后在目标数据上进行微调。在H-index和H-index-rand-1两个数据集上，本模型取得了具有竞争力的结果，提升为3％～5％。而在Brazil-Airport方法提升效果更为明显，为8.4％。

表2结点分类

4.1.2图分类

在下游任务的图分类实验中，本文使用广泛应用于图分类模型中的三种图数据IMDB-BINARY、IMDB-MULTI、COLLAB进行本部分实验。在训练的图数据中，选择度数高的结点生成子图实例，进行结构增强操作，生成正样本对，输入到经过预训练的编码器生成图级别的信息，进行图分类。在本部分实验中，与四种类型的图方法进行比较，分别是基于核的方法,WL^[13],DGK^[14]；基于图嵌入的方法,Graph2vec,Sub2vec；图神经网络方法,Attpool,Graph U-Net，DiffPool， SAGPool。实验结果如表3所示。

与三种经典的图分类方法相比，本实验的预训练模型取得了理想的结果。在数据集IMDB-B，IMDB-M上，除去效果不佳的Sub2vec方法外，分别提高3.9％～8.6％和3.8％～9.7％，均取得了明显的提高。在COLLAB数据集上和GIN^[15]方法近乎相近，原因分析为本模型在COLLAB数据集上进行的是微调操作，仅仅是在预训练模型之后添加一个线性分类层进行的训练，没有进行过端到端的有监督训练，有可能学习不充分；而在GIN^[15]上直接以COLLAB数据集作为训练集进行训练，因此效果会更好。虽然在COLLAB数据集上本模型方法与个别模型相比有稍微差距，但整体上仍然取得了理想结果。所以，有两方面内容得到了验证：第一点，预训练和微调这种结合的模式是可行的并且在图数据任务上显示了巨大的潜力；第二点，对于同一结点形成的子图，实验证明从结构和特征两个方面进行数据增强的方式在预训练中是有效的，可以从不同角度挖掘更加丰富的局部信息。

表3图分类结果

4.2消融实验

本小节进行消融实验，分别验证两种图增强方式对实验的影响。表4中的 Only_Topology和Only_Feature分别是仅包含结构数据增强和特特征据增强的模型结构，All是二者都包含，即本文模型。本小节不包含两种增强方式都不存在的情况，因为本模型使用图增强方式产生正样本对，只有存在正样本对的前提下，才可以利用对比学习的思想即缩小正样本对内部距离的方式训练编码器。 Only_Topology和Only_Feature的实验结果均不如All，说明本文使用的结构图数据增强和特征图数据增强方法均起到了效果。对于结构数据增强方面，本文通过图扩散操作生成一个全等的视图。这种方式的有效性可以归因于扩散视图提供了额外的全局信息。本实验使用Personalized PageRank kernel来驱动图扩散。使用一般邻接矩阵和扩散矩阵组成的正样本对提供了局部和全局信息，通过本节的实验结果，证明此增强方式有效；在特征增强中，通过PGD^[5]算法生成干扰因子，施加在之前结构增强的正样本对中，使正样本对内部彼此出现不相似性，但仍将其看作一对新的正样本对。本模型没有直接利用生成式对抗网络，但是利用了“对抗”的思想，即特征正样本对内部的不相似性与对比学习要求的同一样本不同视图之间的相似性产生了对抗关系，能够让模型中的编码器挖掘更深层次的语义信息，提升整体模型效果。根据Only_Topology的表现，证明此处的想法是正确的。 Only_Topology和Only_Feature相比，除了H-index-rand-1的特征增强效果略优于结构增强效果外，其余数据集整体上在结构增强上表现更佳，比如H-index、 IMDB-B和IMDB-M的结构比特征增强的效果高6％～8％。因此，在本模型的预训练过程中，结构数据增强比特征数据增强起了更大的作用。

表4本模型的消融实验结果

4.3鲁棒性验证

1)使用本发明模型进行预训练。

2)使用预训练的模型权重对下游任务的微调过程进行初始化，根据公式(6), 公式(7)计算微调过程中关于训练集的损失函数。

3)对下游任务的测试集施加基于PGD^[7]算法的扰动因子，进行分类测试。

其中，l_CE代表交叉熵损失(Cross-Entropy，CE)；KL代表KL散度；Pt是根据预训练权重初始化的下游任务模型，θ是模型参数；Ot是添加在Pt之后用于后续分类操作的模型，本实验中使用的是线性层；x和y是下游任务数据及其标签；λ和β是KL散度的系数；公式(7)中的

是干扰后的数据，干扰因子是通过自身关于KL散度损失的梯度进行迭代计算的。公式(6)中的第一项是基于下游任务的扰动数据和标签的交叉熵损失，第二项是正常数据和扰动数据的特征一致性鲁棒损失，使用KL散度进行计算。基于公式(6)，使用下游任务的训练集对预训练模型Pt进行微调操作，同时训练线性分类层Ot，分别得到公式(7) 中的

和

然后利用

和

进行分类操作，得到最终测试结果。

本小节使用的对比模型GCC^[2]。结果如表5所示。--的意思是GCC^[7]模型在下游任务受到干扰扰动后在该数据上没有效果。本模型在鲁棒测试条件下全面优于GCC^[7]模型效果。原因是在本模型的特征数据增强中，分别对增强数据添加干扰因子，作为干扰“攻击”，使得原本彼此应该相似的增强数据之间会产生较大的不相似性。对比学习的核心思想是最大化不同数据增强陈胜的视图间的一致性。利用对比学习这一特性，可以将被“攻击”后产生不相似性的视图之间的特征距离缩小，通过此方式让模型“抵御”外界“干扰”，提升模型的鲁棒性。说明本模型在预训练过程中采用的特征增强方式有提升模型鲁棒性的效果。

表5本模型的鲁棒性验证实验结果

4.4关于批正则化系数不同数量的验证

每对数据增强的结果由一组编码器进行处理，图中的两组编码器之间除了使用不同的批正则化(Batch Normalization，BN)以外，其余参数均是共享的。表 6中的θdouble和θsingle分别代表两组编码器中使用不同和同一个批正则化的情况。根据表6的结果可知，在只使用一个批正则化的时候，混合了结构信息和对抗扰动的特征信息，本实验的六个数据集效果均出现了下降，这种结果与之前的工作是相符的。当两组编码器分别对应两个批正则化的时候，可以分别学习到结构数据增强和特征数据增强两方面的内容，在下游任务中可以取得更好的结果。

表6不同正则化系数的验证实验结果

4.5关于不同类型的编码器和层数的验证

在本实验的预训练阶段，由编码器提取图数据增强之后的图实例特征。本实验默认使用的编码器是5层的图同构网络(Graph Isomorphism Network，GIN) ^[15]。在本小节中，验证不同类型的编码器和不同层数对模型实验结果的影响，使用了3层的图卷积网络(Graph Neural Network，GCN)，3层的GIN和实验默认的5层GIN编码器模型进行比较，结果如表7所示。对于3层和5层的GIN^[15]，层数越深，整体实验效果普遍会提升，说明在一定范围内，模型学习到的知识随着层数的提升和增多；对于不同类型的编码器而言，使用3层的GIN和3层的 GCN结果进行比较。从表7看出，在下游任务的六个数据集当中，GIN的效果均优于GCN模型，提升效果在2％～4.9％之间。从两种图编码器模型的原理分析可知，GIN相比GCN具有两点优势：GIN的聚集函数是求和(Sum)函数，相比较于GCN的平均(Mean)聚集函数可以学习到更多的准确结构信息；此外， GIN的聚合(Aggregate)和组合(Combine)函数是单射函数，可以将不同的邻居节点信息映射成为唯一的特征表示，进而学习到不同结构的独特性。

表7关于不同类型的编码器和层数的验证

参考文献

[1]Navarin N,Tran D V,Sperduti A.Pre-training graph neural networkswith kernels[J]. arXiv preprint arXiv:1811.06930,2018

[2]Hu Z,Fan C,Chen T,et al.Pre-training graph neural networks forgeneric structural feature extraction[J].arXiv preprint arXiv:1905.13728,2019.

[3]Hu W,Liu B,Gomes J,et al.Strategies for pre-training graph neuralnetworks[J].arXiv preprint arXiv:1905.12265,2019.

[4]Zhu Y,Xu Y,Yu F,et al.Deep graph contrastive representationlearning[J].arXiv preprint arXiv:2006.04131,2020.

[5]Madry A,Makelov A,Schmidt L,et al.Towards deep learning modelsresistant to adversarial attacks[J].arXiv preprint arXiv:1706.06083,2017.

[6]Chen T,Kornblith S,Norouzi M,et al.A simple framework forcontrastive learning of visual representations[C].In International conferenceon machine learning,2020:1597–1607.

[7]Qiu J,Chen Q,Dong Y,et al.Gcc:Graph contrastive coding for graphneural networkpre-training[C].In Proceedings of the 26 the ACM SIGKDDInternational Conference on Knowledge Discovery&Data Mining,2020:1150–1160.

[8]Ritchie S C,Watts S,Fearnley L G,et al.A scalable permutationapproach reveals replication and preservation patterns of network modules inlarge datasets[J].Cell systems, 2016,3(1):71–82.

[9]Backstrom L,Huttenlocher D,Kleinberg J,et al.Group formation inlarge social networks: membership,growth,and evolution[C].In Proceedings ofthe 12th ACM SIGKDD international conference on Knowledge discovery and datamining,2006:44–54.

[10]Zhang F,Liu X,Tang J,et al.Oag:Toward linking large-scaleheterogeneous entity graphs[C].In Proceedings of the 25th ACM SIGKDDInternational Conference on Knowledge Discovery&Data Mining,2019:2585–2595.

[11]ZhangJ,DongY,WangY,etal.ProNE:Fast and Scalable NetworkRepresentation Learning.[C]. In IJCAI,2019:4278–4284.

[12]Donnat C,Zitnik M,Hallac D,et al.Learning structural nodeembeddings via diffusion wavelets[C].In Proceedings of the 24th ACM SIGKDDInternational Conference on Knowledge Discovery&Data Mining,2018:1320–1329.

[13]Shervashidze N,Schweitzer P,Van Leeuwen E J,et al.Weisfeiler-Lehman graph kernels. [J].Journal of Machine Learning Research,2011,12(9).

[14]Yanardag P,Vishwanathan S.Deep graph kernels[C].In Proceedings ofthe 21th ACM SIGKDD international conference on knowledge discovery and datamining,2015:1365–1374.

[15]Xu K,Hu W,Leskovec J,et al.How powerful are graph neuralnetworks？[J].arXiv preprint arXiv:1810.00826,2018。

Claims

1.一种基于对比学习和对抗学习的图预训练学习方法，其特征在于，首先将预训练数据中结点的度转化为对应的结点选择概率，在每一次的计算过程中，依据前述概率选择对应结点并生成以该结点为中心的子图实例；再通过预训练模型进行图数据的预训练，得到预训练之后的编码器模型；最后，对预训练得到的编码器模型进行微调操作，应用到结点分类和图分类这两种下游任务当中；所述预训练模型是在图数据的特征和结构两个方面分别进行数据增强，构建两组正样本对，利用对比学习中缩小正样本对内部距离的思想训练图编码器模型，挖掘预训练数据信息。

2.根据权利要求1所述基于对比学习和对抗学习的图预训练学习方法，其特征在于，所述数据增强在结构增强方面，分别使用了可以学习到局部信息和全局信息的两种邻接矩阵方式；在特征增强方面，基于PGD算法生成了干扰因子，施加在子图实例的结点特征上；通过两种数据增强方式生成的两对相似样本对，称为正样本对；利用NT_Xent，如公式(1)所示，作为损失函数；生成的两组共四个图数据增强样本分别输入到两组编码器即结构编码器和特征编码器，共计四个分支，将实例的结构信息映射到隐空间中；每组编码器生成的关于正样本对的隐特征输入到损失函数NT_Xent，缩小彼此之间的距离，进而训练对应编码器，挖掘预训练数据内部信息；

一对正样本对(i,j)的损失函数定义如上；上式中的z_i和z_j经过编码器后得到的一组正样本对特征表征，其中经过L2正则化处理；τ定义的是温度参数；分子上的sim函数是正样本对表征的点积操作，计算正样本对之间的相似度，代表的是正样本对信息；分母上的l_[k≠i]∈{0，1}是一个指示函数，当k≠i的时候取值为1；与本实验具体模型相结合，分母的含义为计算特定子图样本实例与批次中除自身以外的所有实例的相似度之和，通过此种方式包含了负样本的信息；对于每种数据增强，在每个数据批次当中我们随机抽取位于不同图的N个结点，生成N个子图实例，经过数据增强得到N组正样本对，即2N个样本数据。