CN112580742A

CN112580742A - 基于标签传播的图神经网络快速训练方法

Info

Publication number: CN112580742A
Application number: CN202011591264.0A
Authority: CN
Inventors: 何向南; 董汉德; 陈佳伟; 毕书显; 丁兆麟; 冯福利; 崔鹏
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2021-03-30

Abstract

本发明公开了一种基于标签传播的图神经网络快速训练方法，包括：使用标签传播算法传播训练集的标签矩阵，为图结构中其他节点赋予伪标签，得到图结构中所有节点的软标签矩阵，软标签矩阵的元素为节点被打上伪标签的静态置信度；所述训练集中包含了图结构中一部分节点集合的类别标签；根据节点自身的特征信息和逐渐收敛的神经网络预测器为节点的伪标签分配动态置信度；自适应地结合两类置信度，指导训练神经网络预测器。该方法相比于传统解耦GCN的运算量更小，能够以更快的速度训练到收敛，且比较适合并行的分布式计算；此外，能够提升性能，并且对于标签噪声的鲁棒性更强。

Description

基于标签传播的图神经网络快速训练方法

技术领域

本发明涉及神经网络训练技术领域，尤其涉及一种基于标签传播的图神经网络快速训练方法。

背景技术

图结构广泛存在，比如论文之间的引用关系网络、推荐系统的用户-物品二分图、分子结构图等，设计通用的图学习范式具有广泛的应用前景，然而由于图结构信息的复杂性，设计通用的图学习范式存在巨大的挑战。近些年来提出的图卷积神经网络(GraphConvolution Neural Network，GCN)适用于多种图数据任务，可以看作是一种通用的图学习范式。由于图卷积神经网络的有效性和灵活性，其迅速在学术界和工业界得到了广泛的关注。

对于图卷积神经网络有两种理解：从谱域理解图卷积网络可以看作是一种低通滤波器，通过过滤高频信号、保留低频信号，使图信号在图结构上的变换更加平滑；从空域理解图卷积网络，图卷积网络可以分为邻居聚合和特征变换两部分，邻居聚合使得相连的节点的表示更加接近，特征变换使得特征能够有效地变换到需要的空间。从空域理解图卷积网络更加直观，这种理解方法迅速成为主流，并启发了一系列有价值的工作，比如图注意力网络(GAT)、图同构网络(GIN)、基于采样的图卷积网络(GraphSage)等等。

从空域理解图卷积网络也看出了图卷积网络设计的不合理之处：邻居聚合和特征变换在图卷积网络里是耦合在一起的，这种设计是没有必要的，还可能带来一定的副作用：邻居聚合是为了让图信号更加平滑，过深的邻居聚合会导致过度平滑，降低节点之间的区分度，从而降低性能；特征变换是为了增强模型的表达能力和学习能力，过深的特征变换使得模型有太多参数，很容易导致过拟合，此外深度的神经网络也会遇到梯度消失和梯度爆炸的问题。因此邻居聚合的层数和特征变换的层数都有最优值，两者最优值很可能是不相等的，图卷积网络里的耦合强制两者相等，可能使模型陷入次优解。

最近几个重要的工作对此进行了改进，提出了解耦图卷积网络--在若干层特征变换之后做若干层邻居聚合。APPNP(对神经预测的近似个性化传播算法)和DAGNN(深层自适应图神经网络)两个算法显示地提出该框架，SGCN(简化图卷积神经网络)和lightGCN(轻型图卷积神经网络)从简化的角度出发也可以归纳到解耦GCN里面。解耦GCN以比GCN更简洁的形式取得了更好的效果，且为分析模型带来可行性，具有重要的意义。但是，传统解耦图卷积网络的方案训练效率不高、以及训练后的网络模型性能也有待提升。

发明内容

本发明的目的是提供一种基于标签传播的图神经网络快速训练方法，可以大幅提升训练效率、取得更好的性能、稳定性和鲁棒性更优秀。

本发明的目的是通过以下技术方案实现的：

一种基于标签传播的图神经网络快速训练方法，其特征在于，包括：

使用标签传播算法传播训练集的标签矩阵，为图结构中其他节点赋予伪标签，得到图结构中所有节点的软标签矩阵，软标签矩阵的元素为节点被打上伪标签的静态置信度；所述训练集中包含了图结构中一部分节点集合的类别标签；

根据节点自身的特征信息和逐渐收敛的神经网络预测器为节点的伪标签分配动态置信度；自适应地结合两类置信度，指导训练神经网络预测器。

由上述本发明提供的技术方案可以看出，1)训练速度明显提升，相比于传统解耦GCN的运算量更小，能够以更快的速度训练到收敛，且比较适合并行的分布式计算；2)性能提升，在测试集上准确率有所提升；3)对于标签噪声的鲁棒性更强，当标签噪声的比例增大时，PTA性能下降更加缓慢。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种基于标签传播的图神经网络快速训练方法的流程图；

图2为本发明实施例提供的PTA训练过程示意图；

图3为本发明实施例提供的网络模型对标签噪声鲁棒性对比图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

本发明实施例提供一种基于标签传播的图神经网络快速训练方法，如图1所示，其主要包括如下阶段：

第一个阶段：使用标签传播算法传播训练集的标签矩阵，为图结构中其他节点赋予伪标签，得到图结构中所有节点的软标签矩阵，软标签矩阵的元素可以表示节点被打上伪标签的静态置信度。

第二个阶段：根据节点自身的特征信息和逐渐收敛的神经网络预测器为节点的伪标签分配动态置信度；自适应地结合两类置信度，指导训练神经网络预测器，可以得到稳定、鲁棒的模型。

本发明实施例中，所涉及的两类置信度可以理解为节点被打上各类标签(伪标签)的权重，静态置信度是根据图结构和训练集中的标签决定(由图结构主导)，由于图结构是不变的，图结构主导置信度是静态，称为静态置信度。动态置信度则是由节点特征和神经网络预测器决定(由模型主导)，神经网络预测器在不断优化，因此由模型主导的置信度是动态的，称为动态置信度。随着训练的进行，使得神经网络预测器越来越可靠，因此在结合静态置信度和动态置信度时，逐渐增加动态置信度的重要性，称此过程为自适应地结合两类置信度的组合方式，并以此方式得到总体的置信度。一个节点可以被打上任何伪标签，某个伪标签的总体置信度越大，则节点被打上相应伪标签的概率就越大。

通过以上两个阶段完成图神经网络快速训练后，还可以执行第三个阶段，得到预测结果，主要过程如下：经训练得到收敛的神经网络预测器之后，采用解耦图卷积网络的聚合邻居的方式，根据图解耦聚合神经网络预测器的输出，得到最终对每个节点的预测结果。

本发明实施例上述方案主要获得如下有益效果：1)训练速度明显提升，相比于传统解耦GCN的运算量更小，能够以更快的速度训练到收敛，且比较适合并行的分布式计算；2)性能提升，在测试集上准确率有所提升；3)对于标签噪声的鲁棒性更强，当标签噪声的比例增大时，PTA性能下降更加缓慢。

为了便于理解，下面针对上述方案的三个阶段做详细的介绍。

一、第一个阶段。

第一个阶段所涉及的方案可以称为标签传播算法(Label Propagation,LP)。

本发明实施例中，受PageRank(佩奇排名)算法启发，在使用标签传播算法中引入个性化因子，传播训练集的标签矩阵得到图中节点的软标签矩阵，表示为：

Y⁽⁰⁾＝Y

Y_soft＝Y^(K)

其中，Y为训练集的标签矩阵：若节点i在训练集中，则矩阵Y的第i行为节点i对应的独热向量；若节点i不在训练集中，则矩阵Y的第i行是全0向量；Y^(k)是第k层次传播之后的软标签矩阵，α代表个性化因子，可以看作权重，代表

和Y⁽⁰⁾的权重，取值范围是0-1；

是归一化后图结构的邻接矩阵；举例来说：D为邻接矩阵A的度矩阵，是一个对角阵，满足d_ii＝∑_ja_ij，则归一化后为

或

K表示标签传播的层数，代表传播策略；

为软标签矩阵Y^(k)的第i行；y_i代表节点i的真实标签(在训练集中，真实标签是已知的)，V_l表示训练集中的节点集合；Y_soft为软标签矩阵，其第i行第j列元素代表节点i被打上伪标签j的静态置信度。

本发明实施例中，图结构可以是目前已有的各类图结构，基于图结构可以完成图节点分类任务，例如，在论文引用网络里预测论文的类别、在社交网络里预测用户的兴趣或职业、在共同作者网络里预测研究人员的研究方向。当然，这一层面所涉及的技术可以参照常规方式实现，本发明不做限制。

本领域人员可以理解，所述训练集包含了图结构中一部分节点集合的相关数据信息，数据信息形式也即前文提到的节点的类别标签，通常为文本形式。图结构可以是通用的，图结构中节点可以对应具体的文本或者具体图像等通用的数据信息。基于本发明的方案可以针对于图结构中的半监督节点分类任务，具体来说，给定图结构、图结构中所有节点的特征、一部分节点的标签(即训练集)；目标是预测图中另一部分节点的标签。

本阶段相当于是利用标签传播算法传播训练集节点的标签，计算出图中其他节点被打上伪标签的静态置信度；此阶段产生的伪标签为第二个阶段的训练提供指导。

二、第二个阶段。

本发明实施例中，为了将传统的标签传播算法推广到特征信息可用的场景，提出一种通用的传播再训练的学习范式，也即，先用标签传播算法传播训练集中的标签，得到软标签(soft label)矩阵；之后，再用软标签指导训练神经网络预测器。

经分析，现有技术中解耦GCN的方案，相当于是一种带权的传播再训练算法，图结构与神经网络预测器共同决定伪标签的权重，具体为：由图结构决定的静态权重、由模型决定的动态权重做乘法后，再对每个训练集分发出的伪标签做归一化共同组成。图结构决定的静态权重用来衡量各节点之间的相似度，确定训练集标签经图结构传播对图中其他节点的影响，可以反映节点被打上伪标签的静态置信度；模型决定的动态权重，由节点的特征输入到当前的神经网络预测器中的输出所决定，可以反映节点被打上伪标签的动态置信度。将两类置信度做乘法，相当于综合了图结构和特征的信息，再将从每个训练集节点出发的邻居节点的权重归一化，强制使训练集每个节点的重要性是相同的。

本发明实施例中，在解耦GCN的方案的基础上，从传播再训练算法的角度设计出一种快速训练解耦GCN的方法，称为自适应传播再训练算法(Propagation then TrainingAdaptively，PTA)，如图2所示，为PTA训练(第二个阶段)过程示意图，主要说明如下：图2中(1)到(3)是静态置信度，静态置信度取决于图结构和训练集，(1)中阴影表示训练集。(3)描述了训练集节点经图结构传播后形成的置信度，由于训练集和图结构都是静态的，这一部分的置信度也是静态的。图2中(2)到(4)是动态置信度，动态置信度取决于神经网络预测器和节点的特征，(2)中的x表示每个节点的特征，(4)表示根据每个节点的特征计算出的置信度，这部分是动态置信度，因为模型随着训练是变化的，因此得出的权重也是动态的。将(3)与(4)一起综合考量，得到(5)中的置信度。不同于解耦GCN，图2中(3)和(4)综合到(5)的方式有两点不同：去除了对于从每个训练集出发权重的归一化；引入自适应因子，随着训练的进行，自适应地调整(3)和(4)的综合方式。由于(3)与(4)综合的方式是会随着训练的过程变化的，因此，为自适应训练。

解耦GCN每个训练集出发的权重是满足归一化的，这种对权重的归一化会降低模型对标签噪声的鲁棒性，将其去除后，损失函数具有简单的形式：

上述损失函数形式在优化神经网络预测器的时候，无需每次都聚合图信号，实现了解耦图卷积网络的快速优化。

然而，上述损失函数的形式会导致训练的不稳定，为了改进这点，本发明实施例中引入了自适应因子γ，随着优化的进行，自适应地修改两类置信度的结合方式，并使用自适应结合的置信度作为伪标签的权重，指导训练神经网络预测器，损失函数表示为：

γ＝log(1+e/∈)

其中，Y_soft为图结构中其他节点赋予的伪标签构成的软标签矩阵；X表示节点特征矩阵，特征矩阵的每一行代表一个节点的特征，每一列表示特征的维度；sum(.)代表矩阵所有元素之和，

代表矩阵的元素积；e代表训练的epoch(时期)，∈是超参，用来调节自适应因子γ随epoch的敏感程度；f(X)与f_θ(X)均表示神经网络预测器的输出(即节点的类别预测结果)，二者数值相等，f(X)项不参与反向传播梯度，只起到权重的作用，对应动态置信度，f_θ(X)保留了梯度，f_θ(X)项代表梯度从这一项反向传播。更明确的说，通过上述损失函数优化神经网络预测器的算法可以称为自适应传播再训练算法。

值得注意的是，自适应结合的两类置信度具体体现为：Y_soft与f(X)的组合方式并非一成不变的(例如，上述损失函数将二者做乘法)，而是随着优化的进行(即e增大)，自适应地改变其组合方式，f(X)的指数因子是变化的，其变化代表了组合方式的变化。

本发明实施例中，由模型决定的动态权重的可靠性取决于模型质量的高低，模型越可靠，其给出的置信度的指导意义越强。随着训练的进行，模型会逐渐收敛，其质量也越来越高，因此动态权重的比例会逐渐增大，也就对应其指数增大。从上述损失函数也可以看到，e＝0的时候，γ＝0，总体置信度只由Y_soft决定，随着迭代的进行，e增大，f(X)重要程度越高。

三、第三个阶段。

训练得到收敛的f_θ(X)项后，采用解耦GCN一样的模式聚合邻居节点的信息，进一步提升性能，形式为：

H⁽⁰⁾＝f_θ(X)

其中，H^(k)表示第k次聚合后的节点表示/节点预测结果，第i行表示第i个节点的类别预测结果，第j列表示预测为第j个类别的概率；K′为聚合总次数，α′代表个性化因子，

为最终得到的对每个节点的类别预测结果。实际应用中，α′与α、K与K′可以是相同数值，也可以是不同数值，具体由技术人员根据情况或者经验自行设定。

本领域技术人员可以理解，节点表示是指节点在标签空间中的表示，其维度就是标签的类别数，每一层聚合之后的维度都是类别数，因此中间的任何一层(甚至是没有经过聚合的神经网络预测器的输出)都可以看作是对节点标签的预测。当然，为了确保性能，最终采用K′聚类后的结果。

为了更为直观的体现本发明上述方案的效果，还进行了对比实验。

实验中，采用具有代表性的APPNP算法作为解耦GCN的代表进行对比；并使用了四个标准的数据集，来验证本发明上述方案(简称PTA)的优势，四个数据集分别是CITESEER，CORA_ML，PUBMED，MS_ACADEMIC，这些数据集的统计信息如表1所示。

数据集	Nodes	Edges	Features	Classes
					CITESEER	2,110	3,668	3,703	6
CORA_ML	2,810	7,981	2,879	7
					PUBMED	19,717	44,324	500	3
MS_ACADEMIC	18,333	81,894	6,805	15

表1数据集的统计信息

表1所示的统计信息中给出了各个数据集的节点数、连边数、特征数以及类别数。

实验从训练耗时、准确率、标签噪声的鲁棒性三个方面进行。

1、训练耗时对比。

表2与表3给出了PTA模型与APPNP算法每次迭代的训练耗时与训练总耗时。

方法	CITESEER	CORA_ML	PUBMED	MS_ACADEMIC
					APPNP	34.73ms	28.60ms	34.98ms	30.51ms
PTA	3.33ms	3.35ms	3.27ms	3.33ms

表2每次迭代的训练耗时

方法	CITESEER	CORA_ML	PUBMED	MS_ACADEMIC
					APPNP	52.75s	75.30s	49.39s	134.23s
PTA	10.14s	11.95s	10.59s	17.12s
					PTA(F)	1.19s	1.25s	1.40s	3.92s

表3训练总耗时

通过表2：每一次训练耗时，PTA约为APPNP的1/10，这验证了PTA的训练优势，在每一次训练无需做邻居聚合，可以有效地提升效率。通过表3：总的训练时间，PTA约是APPNP的1/5。值得一提的是，PTA(F)即PTA的快速(fast)模式，总的耗时约是APPNP的1/50，总的训练时间更验证了PTA相比于APPNP训练效率上的优势。快速模式在计算验证集性能(每次迭代都要计算，用于早停)时不执行前文所提及的第三个阶段，仅仅在计算测试集性能的时候执行第三个阶段。快速模式虽然相比于完整的PTA而言性能略有下降，但是仍然优于解耦GCN方案的性能。

2、准确率对比。

准确率对比时还引入了当前性能较好的其他模型，表4展示了PTA和当前性能较好的模型对比结果。

方法	CITESEER	CORA_ML	PUBMED	MS_ACADEMIC
					MLP	63.98±0.44	68.42±0.34	69.47±0.47	89.69±0.10
GCN	73.62±0.39	82.70±0.39	76.84±0.44	91.39±0.10
					SGCN	75.57±0.28	75.97±0.72	71.24±0.86	91.03±0.16
DAGNN	74.53±0.38	85.75±0.23	79.59±0.37	92.29±0.07
					APPNP	75.48±0.29	85.07±0.25	79.61±0.33	93.31±0.08
PTA	75.98±0.24	85.90±0.21	79.89±0.31	93.64±0.08

表4准确率和准确率的不确定度

通过表4：PTA的性能优于目前较好的所有模型，这说明了PTA的有效性。为了进一步验证PTA相比于APPNP的优势，进行了t检验，结果如表5，对所有数据集都满足p<0.05，说明至少有95％的把握说PTA的性能优于APPNP。此外，通过表4，可以看出PTA的不确定度小于APPNP，这说明了PTA的稳定性更好。

	CITESEER	CORA_ML	PUBMED	MS_ACADEMIC
					p-value	5.56×10<sup>-4</sup>	1.81×10<sup>-9</sup>	1.09×10<sup>-2</sup>	1.57×10<sup>-8</sup>

表5 PTA相比于APPNP的t检验的p值

3、标签噪声的鲁棒性对比。

图3展示了PTA、PTS和APPNP对标签噪声鲁棒性的实验结果。图3中，横坐标的标签噪声率指的是错误的标签在训练集所有标签中占的比重。PTS是指仅适用静态置信度指导模型训练的方案(即损失函数为

通过图3：在所有标签噪声下，PTA都表现最好，说明了PTA的优势是稳定的；随着标签噪声的增大，PTA和APPNP的差距越来越大，说明了随着标签噪声的增加，PTA性能下降更少，即PTA对于标签噪声更加鲁棒。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于标签传播的图神经网络快速训练方法，其特征在于，包括：

2.根据权利要求1所述的一种基于标签传播的图神经网络快速训练方法，其特征在于，所述使用标签传播算法传播训练集的标签矩阵，为图结构中其他节点赋予伪标签，得到图结构中所有节点的软标签矩阵的过程表示为：

Y⁽⁰⁾＝Y

Y_soft＝Y^(K)

其中，Y为训练集的标签矩阵：若节点i在训练集中，则矩阵Y的第i行为节点i对应的独热向量；若节点i不在训练集中，则矩阵Y的第i行是全0向量；Y^(k)是第k层次传播之后的软标签矩阵，α为个性化因子，

是归一化后图结构的邻接矩阵；K表示标签传播的层数；y_i ^(k)为软标签矩阵Y^(k)的第i行；y_i代表训练集中节点i的真实标签，V_l表示训练集中的节点集合；Y_soft为软标签矩阵。

3.根据权利要求1所述的一种基于标签传播的图网络快速训练方法，其特征在于，

静态置信度与动态置信度表示节点被打上伪标签的权重；

静态置信度由图结构主导，图结构中的静态权重用来衡量训练集标签经图结构传播对图中其他节点的影响，从而为各节点的伪标签分配相应的静态置信度；

动态置信度则由神经网络预测器主导，节点的特征输入到当前的神经网络预测器得到的输出决定节点被打上伪标签的动态置信度；

随着训练的进行，神经网络预测器的可靠性逐渐提升，在结合静态置信度和动态置信度时，逐渐增加动态置信度的重要性，这一过程为自适应地结合两类置信度的组合方式，并以此方式得到总体的置信度。

4.根据权利要求1或3所述的一种基于标签传播的图神经网络快速训练方法，其特征在于，自适应地结合两类置信度，指导训练神经网络预测器时，损失函数表示为：

γ＝log(1+e/∈)

其中，Y_soft为图结构中其他节点赋予的伪标签构成的软标签矩阵；X表示节点特征矩阵；sum(.)代表矩阵所有元素之和，

代表矩阵的元素积；e代表训练的epoch，∈是超参，用来调节自适应因子γ随epoch的敏感程度；f(X)与f_θ(X)均表示神经网络预测器的输出，二者数值相等，f(X)项不参与反向传播梯度，只起到权重的作用，对应动态置信度，f_θ(X)保留了梯度，f_θ(X)项代表梯度从这一项反向传播。

5.根据权利要求4所述的一种基于标签传播的图神经网络快速训练方法，其特征在于，该方法还包括：经训练得到收敛的神经网络预测器之后，采用解耦图卷积网络的聚合邻居的方式，根据图解耦聚合神经网络预测器的输出，得到最终对每个节点的预测结果。

6.根据权利要求5所述的一种基于标签传播的图神经网络快速训练方法，其特征在于，

训练得到收敛的f_θ(X)项后，在图结构上采用解耦图卷积网络聚合邻居的方式聚合邻居节点的信息，形式为：

H⁽⁰⁾＝f_θ(X)

其中，H^(k)表示第k次聚合后的节点预测结果，第i行表示第i个节点的类别预测结果，第j列表示预测为第j个类别的概率，

是归一化后图结构的邻接矩阵，α′为个性化因子，K′为聚合总次数，

为最终得到的对每个节点的类别预测结果。