CN114842247B

CN114842247B - 基于特征累加的图卷积网络半监督节点分类方法

Info

Publication number: CN114842247B
Application number: CN202210412198.9A
Authority: CN
Inventors: 郭凌; 张伟名; 许鹏飞; 朱文娟; 柏恒
Original assignee: NORTHWEST UNIVERSITY
Current assignee: NORTHWEST UNIVERSITY
Priority date: 2022-04-19
Filing date: 2022-04-19
Publication date: 2024-02-27
Anticipated expiration: 2042-04-19
Also published as: CN114842247A

Abstract

本发明公开了一种基于特征累加的图卷积网络半监督节点分类方法，该方法利用图卷积和K阶邻近性来获得更大的感受野，以获取更高层次邻域的节点特征，而后将不同邻域获得的节点信息进行融合，保全节点特征信息，具体包括：提出一个由不同层次图卷积网络组成的模型，每个层次提供不同的传播效率，第K个层次包含图上随机游走的第K步的节点特征信息；根据概率转移矩阵定义高次邻接矩阵，作为不同阶层的邻接矩阵来聚合不同邻域的节点特征信息，将不同步长的节点分别进行卷积操作，得到卷积后新的输出表示；将不同邻域范围的节点卷积后得到的新的特征表示利用融合函数进行混合，得到混合邻域的特征表示，利用分类器进行分类，得到最终的输出。

Description

基于特征累加的图卷积网络半监督节点分类方法

技术领域

本发明属于网络技术领域，涉及半监督节点分类，特别涉及一种基于特征累加的图卷积网络半监督节点分类方法。

背景技术

互联网的发展开启了大数据时代，产生了巨量的图结构数据。图数据结构复杂，不仅携带自身的属性信息，还有彼此相互作用的连接信息。图数据具有很强的表示复杂结构的能力，能够有效表达数据实体和它们之间潜在的空间关系。近年来，对图这种结构型数据的研究极大地促进了它们在不同任务领域的应用，包括社交网络、量子化学、交通预测等。例如在生物学上蛋白质之间的相互作用，通过将药物和蛋白质靶点相互作用建模为图结构，可以用来预测多种药物的副作用，在药物发现中有着重要的应用；在交通预测中，通过空间相关性建模的图结构可以预测交通流量情况，对改善交通压力提供了技术支持。图的应用越来越广泛，使得人们迫切需要寻找更高效更准确的方式进行数据处理。

图卷积网络(Graph Convolutional Network，GCN)的出现填补了图数据在处理方面的空白，随着技术的不断进步，出现了各种各样的图卷积网络变体，在处理图结构数据方面展现出了越来越好的性能。虽然图卷积网络在构建图结构数据方面表现出了良好的性能，但是由于每一层都有固定的感受野，图卷积网络无法获得能够提高性能的多层次邻域节点特性。在现有的一些研究当中，在聚合邻域节点信息的时候往往只考虑了二阶或三阶的邻域，对于高阶邻域来说，往往无法有效提取。因为大多数现有的基于谱域的图卷积网络通过叠加多个图卷积层来增强其特征提取能力，但是当模型变深时，它通常会导致特征稀释以及过度拟合问题。目前现有的图卷积网络模型中，例如GCN，它首次提出了解决图数据的模型，经过多种近似之后，GCN变成了一个一阶或二阶模型，若要处理K阶邻居，可以采用多层卷积来实现，但是这又产生了另外一个问题：随着K的增加，网络会变得非常复杂，参数过多；另外它利用了切比雪夫多项式近似，层数过多会导致特征过度平滑。这样就无法获取到高阶邻域的节点信息，导致节点的信息难以保全。对于注意力机制来说，它采用的是逐节点的计算方式，计算邻域不同节点的注意力系数，这样的计算方式可以很好地保全节点的信息，但是其特殊的计算方式导致算法复杂度过高，计算时间长，内存占用大。

因此，需要寻求一种方式，来保全节点信息的同时还能够兼顾算法效率。Xu等人发表的一篇名为《Representation Learning on Graphs with Jumping KnowledgeNetworks》的论文中，曾解释过图卷积网络中节点特征的传播方式，节点i的信息以类似的随机游走的方式传播到节点j，这意味着路径是特征传输的方式，感受野的大小由图中路径的长度决定。在图结构中，长路径只存在于几个点之间，这有利于获取全局特征，并且无向图中的感受野(路径)相对比较平衡。受图像分类初始网络的启发，一些模型拓展了它们的层次以获得更大的感受野并提高学习能力，但是它们在每层中都使用固定的邻接矩阵，这增加了捕获不同层次节点特征的难度。

发明内容

针对上述现有技术中存在的缺陷或不足，本发明的目的在于，提供一种基于特征累加的图卷积网络半监督节点分类方法。

为了实现上述任务，本发明采取如下的技术解决方案：

一种基于特征累加的图卷积网络半监督节点分类方法，其特征在于，该方法利用图卷积和K阶邻近性来获得更大的感受野，以获取更高层次邻域的节点特征，而后将不同邻域获得的节点信息进行融合，保全节点特征信息，具体包括下列步骤：

S1：构建多层次图卷积层：每个层次表示不同步长邻域的节点信息的聚合，对不同步长的邻域节点的路径进行了重新定义，根据概率转移矩阵定义了高次邻接矩阵，作为不同层次的传播路径来聚合邻域节点信息。

S2：利用多层次图卷积层构建特征累加的图卷积网络模型：输入为图的结构信息和特征信息，网络层包括不同层次的卷积层和隐藏层，输出为各个节点的预测标签。

S3：训练特征累加的图卷积网络模型：输入带有标签的节点的图数据，在模型中进行特征传播，使得图中每个节点的特征随机地与其不同邻域的节点特征聚合在一起，根据输出节点表示与损失函数进行多次迭代，直到模型收敛。

S4：将待分类的原始图数据输入经过训练的特征累加图卷积网络模型中进行分类，进过最后一层的输出得到对应的最终节点表示；基于最终节点表示进行分类得到各个节点的预测标签，将各个节点的预测标签作为对应的半监督节点分类结果。

本发明的基于特征累加的图卷积网络半监督节点分类方法，带来的有益技术效果在于：

1、基于随机游走的方式遍历不同距离的节点，路径长度作为邻域范围，随机游走的第K步可以遍历K阶邻域的节点，这样就获得了不同尺度的感受野，可以更好地聚合不同阶层的邻域节点信息，更好地关注了全局性信息，从而提高模型的分类准确性。

2、提出了一个由不同层次图卷积网络组成的模型，每个层次提供不同的传播效率，并根据概率转移矩阵定义了新的邻接矩阵，称作高次邻接矩阵，通过高次邻接矩阵来表示不同邻域范围的边信息，因为混合了高次邻接矩阵，因此可以学习更广泛的图结构表示，能够得到更好的特征表示。

3、没有增加额外的卷积层数，而是通过高次邻接矩阵来聚合不同邻域范围的节点特征，在计算效率上比增加层数来提取高阶邻域信息的方式要高得多。另外增加了非平滑特征的跳跃连接项来避免邻域范围扩大情况下的特征平滑问题。

附图说明

图1是不同层次特征传播示意图。其中，(a)图是零阶近似，(b)图是一阶近似，(c)图二阶近似，(d)图是K阶近似。

图2是模型框架图。

图3是算法框架图。

图4是跳数K对Cora数据集的影响折线图。

图5是跳数K对Pubmed数据集的影响折线图。

图6是跳数K对Citeseer数据集的影响折线图。

下面结合附图和实施例对本发明进行进一步地详细说明。

具体实施方式

本实施例给出一种基于特征累加的图卷积网络半监督节点分类方法，利用图卷积和K阶邻近性来获得更大的感受野，以获取更高层次邻域的节点特征，而后将不同邻域获得的节点信息进行融合，保全节点特征信息，具体包括下列步骤：

S1：构建多层次图卷积层：

每个层次表示不同步长邻域的节点信息的聚合，对不同步长的邻域节点的路径进行了重新定义，根据概率转移矩阵定义了高次邻接矩阵，作为不同层次的传播路径来聚合邻域节点信息。

S2：利用多层次图卷积层构建特征累加的图卷积网络模型：

输入为图的结构信息和特征信息，网络层包括不同层次的卷积层和隐藏层，输出为各个节点的预测标签。

S3：训练特征累加的图卷积网络模型：

输入带有标签的节点的图数据，在模型中进行特征传播，使得图中每个节点的特征随机地与其不同邻域的节点特征聚合在一起，根据输出节点表示与损失函数进行多次迭代，直到模型收敛。

以下是发明人给出的具体的实现过程：

步骤S1：本实施例构建的多层次图卷积层受到基于随机游走的图嵌入的最新进展的启发，第K个层次包含图上随机游走的第K步的节点特征信息；传播路径进行了新的定义，利用概率转移矩阵定义了高次邻接矩阵，概率转移矩阵定义为：

P＝D^-1A

其中A是图的邻接矩阵，D是邻接矩阵A的度矩阵。

由概率转移矩阵定义的高次邻接矩阵为：

这里的高次邻接矩阵为归一化之后形式，k代表的是步长。

将定义为单位矩阵，与普通的图卷积网络类似，本实施例添加了自连接，并将邻接矩阵对称化处理，生成了/>和/>对称的形式。对称矩阵的特征分解是实数，因此Hammond等人(Hammond D K，Vandergheynst P，Gribonval R.Wavelets on graphs viaspectral graph theory[J].Applied and Computational Harmonic Analysis，2011，30(2):129-150.)的特征分解的低秩近似仍然有效，使用/>的一层仍应近似于傅里叶域中的乘法。

上述高次邻接矩阵为了对k阶近似进行建模，本实施例在图G中定义了归一化邻接矩阵A的k阶近似矩阵

如图1所示，零阶近似就是初始输入，即初始特征X，也就是k＝0时的传播情形，此时节点只包含其自身的信息；一阶近似可以获取节点的直接邻居的潜在特征，二阶近似可以获取节点的二跳邻居的潜在特征，K阶邻近之后就可以得到来自K跳邻居的潜在特征信息。图4中的虚线表示中间经过了多个节点的连接，因此图1(d)图中黑色的节点即是K跳邻居。

步骤S2：多层次的图卷积层构建好之后作为模型的网络层部分，加上输入和输出层就构建成了整体的模型框架，如图2所示，第一部分为输入层，第二部分为卷积层，此模块K阶邻域特征传播的详细结构即为步骤S1构建的多层次图卷积层，第三部分为输出层。对于图G，根据图2中显示的方式进行不同阶层的传递，本实施例感兴趣的是高阶的信息传递，输入拓扑结构信息和节点信息，每个节点的消息传递步骤都是从其直接邻居和进一步的N阶邻居接收的潜在表示。使用K阶邻近度就可以生成K个感受野，然后将它们进行卷积操作，并在融合后获得输出，最终得到来自不同阶层邻居的潜在信息。

步骤S3：训练模型时，输入带有标签的节点的图数据，对于半监督节点分类任务来说，本实施例只选取很少一部分节点标记标签，在模型中进行特征传播。基于提出的k阶近似矩阵将高阶图卷积定义为：

其中，是输出的c维的卷积结果，/>是节点的特征矩阵，为可训练权重矩阵。需要注意的是，当k＝0时，并没有进行特征传播，还是自身的特征。经过卷积使得图中每个节点的特征随机地与其不同邻域的节点特征聚合在一起。

受Szegedy等人(Szegedy C，Vanhoucke V,Ioffe S，et al.Rethinking theinception architecture for computer vision[C]//Proceedings of the IEEEconference on computer vision and pattern recognition.2016:2818-2826。)提出的初始模型的启发，本实施例中，发明人构建了不同阶层的图初始网络。即：将与1×1的卷积核进行比较，并将Z^(k＝0)视为带有非平滑特征的跳跃连接项，这样可以解决网络层数较深的情况下梯度消失的问题，同时有助于梯度的反向传播，加快训练过程。此外，Z^(k≥1)设计用于对混合邻域定向结构特征进行编码。

最后，使用融合操作Γ将不同阶层的邻域节点特征融合在一起，作为初始块Z_Γ：

Z_Γ＝Γ(Z⁽⁰⁾,Z⁽¹⁾,Z⁽²⁾,...,Z^(k))

融合函数Γ可以是各种各样的，例如归一化、求和、级联，这里使用的是求和。

整个算法的主体框架如图3所示，图中的A即为I是k＝0时的情况，即只含节点自身的特征，将其视为跳跃连接项，在网络层数较深的情况下不容易出现梯度消失的情况。Γ是融合函数，ξ是非线性的。

对于节点分类任务，最后一层使用一个softmax分类器预测节点的标签，其输出为：

式中，表示所有节点的类别的预测，y_ic表示节点i预测为类别c，是归一化。

基于最终节点表示Z分类得到n个节点的预测标签根据预测标签与对应的真实标签Y计算交叉熵损失，对于半监督多类分类，本实施例评估所有标记示例的交叉熵误差：

其中，Y_L是具有标签的节点索引集。

步骤S4：将待分类的原始图数据输入经过训练的网络模型中进行分类，经过最后一层的输出得到对应的最终节点表示；基于最终节点表示进行分类得到各个节点的预测标签，将各个节点的预测标签作为对应的半监督节点分类结果。

实验分析：

实验主要有两个任务：一是将本实施例的模型与目前几个比较先进的模型进行比较，评估该模型在计算效率和准确性等指标上的性能；二是在该模型上，对比一些重要参数对模型在分类性能上的影响。

1)数据集和实验设置

数据集为三个引文图数据集：Pubmed、Citeseer、Cora，发明人之所以选择以上数据集，是因为它们可以在线获取，并被作为对比实验使用，引文数据集由Yang等人(Tong Z，Liang Y，Sun C，et al.Directed graph convolutional network[J].arXiv preprintarXiv:2004.13970，2020.)编制。下表1总结了数据集统计数据。

表1：数据集信息统计

引文数据集中的每个节点代表在相应期刊上发表的一篇文章，两个节点之间的边表示从一篇文章到另一篇文章的引用，标签表示文章的主题类别，每个数据集包含每个节点的二进制词袋特征向量，词袋特征摘自文章摘要。因此，本实施例的任务是预测文章的主题，考虑到它们的摘要和对其他文章的引用。发明人参考Yang等人(Yang Z，Cohen W，Salakhudinov R.Revisiting semi-supervised learning with graph embeddings[C]//International conference on machine learning.PMLR，2016:40-48.)和Kipf等人(KipfT N，Welling M.Semi-supervised classification with graph convolutionalnetworks[J].arXiv preprint arXiv:1609.02907，2016.)的数据划分，每个数据集使用类别数目20倍的节点进行训练，500个节点进行验证，1000个节点进行评估。

在引文网络上，使用Adam对100个epochs进行训练，学习率为0.2，以峰值验证精度捕获模型参数，以避免过度拟合。在仅包括训练节点的子图上训练，并且用原始图进行测试。

本次实验基于Pytorch框架下搭建的图卷积网络模型，使用的操作系统为Ubuntu16.04，显卡为GTX 1080Ti，显存为12G。Pytorch版本为1.4.0，Python版本为3.7.10，numpy版本为1.21.1，networkx版本为2.5.1，scipy版本为1.7.1，scikit-learn版本为0.24.2。

2)准确率和时间分析

对于引用网络数据集，本实施例使用GCN(Kipf T N，Welling M.Semi-supervisedclassification with graph convolutional networks[J].arXiv preprint arXiv:1609.02907，2016.)、GAT(P，Cucurull G，Casanova A，et al.Graphattention networks[J].arXiv preprint arXiv:1710.10903，2017.)、FastGCN(Chen J，Ma T，Xiao C.FastGCN:Fast learning with graph convolu-tional networks viaimportance sampling.2018[C]//International Conference onLearningRepresentations，ICLR.2018.)、DeepWalk(Perozzi B，Al-Rfou R，SkienaS.Deepwalk:Online learning of social representations[C]//Proceedings of the20th ACM SIGKDD international conference on Knowledge discovery and datamining.2014:701-710.)、GraphSAGE(Hamilton W，Ying Z，Leskovec J.Inductiverepresentation learning on large graphs[J].Advances in neural informationprocessing systems，2017，30.)和SGC(Wu F，Souza A，Zhang T，et al.Simplifyinggraph convolutional networks[C]//International conference on machinelearning.PMLR，2019:6861-6871.)进行比较。使用准确率(ACC)和运行时间作为实验结果的评价指标。

式中，N_t表示被正确分类的样本数，N表示样本总数。

以下的表2展示了测试结果的分类精度对比结果。

表2：分类准确性测试结果

根据表2的结果可以得出结论，本实施例给出的模型非常有竞争力，FC-GCN的性能可以与一些比较先进的图网络在引文网络上的性能相匹配。特别是在Pubmed上，FC-GCN比其他性能最好的GAT大约好2.5％。另外值得注意的是，在Citeseer数据集上，本实施例给出的模型性能稍差，比最好的GCN少了0.22％，但是这点微小的差异对模型的影响并不大。

另外发明人还比较了本实施例给出的模型与其他模型在计算时间上的差异，时间单位是秒，结果如表3所示。

表3：模型运行时间对比

这里的时间时整个模型训练完毕所用的时间，从表3中可以看出，除了SGC所需时间极具优势外，本实施例的模型比其他模型所消耗时间都要少，可以看出本实施例给出的模型非常有竞争力。GAT是基于空间域的方法，采用逐节点的计算方式，所以内存和时间方面优势不足，另外需要注意的是，这里的卷积网络在图上的规模是二阶邻居，而本申请的模型规模比它们多出好多个数量级，因此该模型在运行效率上是非常具有优势的。

3)消融实验：模型规模K对模型性能的影响

高阶邻域模型考虑了图中K阶邻居节点的特征融合，K阶邻近性可以学习图中的不同邻域的特征，可以发现更大范围邻居节点隐藏的信息，但是高阶范围K是不是越大越好还未可知，发明人也做了一些实验，以探究K的增加对模型性能的影响，为了避免过拟合，发明人将K的范围控制在图的直径范围内。

跳数即为邻居阶数，也就是图的规模，Cora数据集在模型上的准确率随跳数K的变化情况如图4所示。K在7及其之内的时候，Cora准确率急剧上升，在达到顶峰的时候开始逐渐呈现下降趋势，但是并不稳定，不过也没有超过最大的准确率。准确率在K＝7的时候达到最大值。

Pubmed数据集的走势如图5所示，它和Cora的走势不一样，在K等于4的时候准确率达到最大，之后开始下降，在7和8的时候又有一次上升，之后一直呈下降趋势，但是上升的值并没有超过最大值。

在Citeseer上的准确率随跳数K的变化如图6所示，随着K的不断增加，准确率先急速上升，而后趋于平稳，在K等于8的时候准确率达到最大，随后呈现稳定趋势但同时也伴随着低幅度的下降，只是没有Cora和Pubmed数据集那样明显。

通过实验，申请人探究了模型随着跳数K的增加而呈现的性能变化，综上可以发现邻居跳数K并不是越大越好，当超过一定值的时候就会出现性能下降的情况，当规模越来越大的时候，可能会出现某些节点的隐藏信息被重复提取，从而出现信息冗余的情况，导致过拟合，根据六度空间理论我们初步判断这可能是Cora和Pubmed以及Citeseer数据集在达到峰值的时候再次出现准确率提升情况的原因，一般我们根据六度空间理论，K取到6的时候就止步，避免出现过拟合的情况。

总结：

本实施例首先介绍了图卷积网络在处理图时遇到的一些困难，无法获取更高性能的高阶邻域特征，针对存在的问题，提出了图结构的K阶邻近性，从K阶相邻节点中提取隐藏信息来获得更好的特征表示。提出了基于特征累加的图卷积网络模型，使用随机游走遍历不同步长的邻域节点，改进了不同邻域节点特征在彼此之间的传输的方式，通过融合不同距离的邻居的特征表示来学习这些邻域之间的关系，同时降低了内存或计算复杂度。通过实验的分类精度和时间验证了本实施例给出算法的优越性，并讨论了高阶邻域规模对模型性能的影响。

Claims

1.一种基于特征累加的图卷积网络半监督节点分类方法，其特征在于，该方法利用图卷积和K阶邻近性来获得更大的感受野，以获取更高层次邻域的节点特征，而后将不同邻域获得的节点信息进行融合，保全节点特征信息，具体包括下列步骤：

S1：构建多层次图卷积层：

每个层次表示不同步长邻域的节点信息的聚合，对不同步长的邻域节点的路径进行了重新定义，根据概率转移矩阵定义了高次邻接矩阵，作为不同层次的传播路径来聚合邻域节点信息；

S2：利用多层次图卷积层构建特征累加的图卷积网络模型：

输入为图的结构信息和特征信息，网络层包括不同层次的卷积层和隐藏层，输出为各个节点的预测标签；

S3：训练特征累加的图卷积网络模型：

输入带有标签的节点的图数据，在模型中进行特征传播，使得图中每个节点的特征随机地与其不同邻域的节点特征聚合在一起，根据输出节点表示与损失函数进行多次迭代，直到模型收敛；

S4：将待分类的原始图数据输入经过训练的特征累加图卷积网络模型中进行分类，进过最后一层的输出得到对应的最终节点表示；基于最终节点表示进行分类得到各个节点的预测标签，将各个节点的预测标签作为对应的半监督节点分类结果；

所述的原始图数据为三个引文图数据集，引文数据集中的每个节点代表在相应期刊上发表的一篇文章，两个节点之间的边表示从一篇文章到另一篇文章的引用，标签表示文章的主题类别，每个数据集包含每个节点的二进制词袋特征向量，词袋特征摘自文章摘要。