CN113378913B

CN113378913B - 一种基于自监督学习的半监督节点分类方法

Info

Publication number: CN113378913B
Application number: CN202110637743.XA
Authority: CN
Inventors: 康昭; 刘昌澍
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-06-08
Filing date: 2021-06-08
Publication date: 2023-10-31
Anticipated expiration: 2041-06-08
Also published as: CN113378913A

Abstract

本发明公开了一种基于自监督学习的半监督节点分类方法，包括以下步骤：S1、构建半监督分类数据集；S2、根据半监督分类数据依次构建拓扑图和特征图；S3、构建半监督节点分类模型，并基于拓扑图和特征图对其进行自监督训练，获得半监督节点分类结果。本发明从拓扑图和特征图的角度描述图数据，在图卷积神经网络框架中引入自监督学习模块融合节点特征和图拓扑结构的信息，在半监督节点分类任务上获得了更好的性能；本发明具备更高的计算效率，和基于注意力机制的方法相比需要更少的训练时间、对显卡等硬件设备要求更低，能够节省计算的资源。

Description

一种基于自监督学习的半监督节点分类方法

技术领域

本发明属于数据信息处理技术领域，具体涉及一种基于自监督学习的半监督节点分类方法。

背景技术

在实际生活生产中，无标签的数据往往好获得，而有标签的数据难以获得，此外为标签数据打上标签需要耗费大量的人力物力，在这种情况下半监督学习(Semi-supervisedLearning)更加适用于现实世界的应用。半监督学习将大量无标签数据和少部分有标签数据一起加入到模型中进行训练，从而提升模型性能。近年来，图学习已然成为人工智能领域的研究热点，图上的基于半监督学习的节点分类算法则使用少量有标签节点和大量无标签节点一起训练模型，最终赋予图上所有节点分类结果(标签)，图上的半监督节点分类在实际生活中有着广泛的应用，比如可以在社交网络中对所有用户进行分类。

近年来，卷积神经网络因为其强大的建模能力引起了广泛的关注，在图像识别和自然语言处理等领域有着广泛的应用。然而传统的卷积神经网络只能处理欧氏空间的数据，但在现实生活中的很多场景，如交通运输网络、社交网络、引用网络等，都是以图数据的形式存在。图卷积神经网络(Graph Convolutional network，GCN)提供了为图数据建模的方法，图卷积神经网络定义了一种聚合方法，聚合了中心节点和对应的邻居节点，从而实现了节点属性沿图拓扑结构的传播，GCN的结构如图1所示；图卷积神经网络存在的主要缺点在于过于强调节点之间在图和拓扑结构上的关联，忽视了节点属性之间的联系。例如，在一个引用网络中，假设每个节点代表一篇文献，如果两个的文献包含相同的作者则两个对应的节点之间建立一条边。如果按照图卷积神经网络的方法学习这个图，则会忽视两种情况：1)两篇文献虽然同属于一个作者，但是文献的研究内容有很大的差异；2)两篇文献研究内容很相关，但是由不同作者完成。上述缺陷很可能导致模型学习到错误的模式，进而影响分类的结果。

针对图卷积神经网络的缺陷，图注意力网络(Graph Attention Network，GAT)提出了新的信息聚合方式。图注意力网络引入了注意力机制，通过计算相邻节点属性之间的相似度，赋予连接节点的边一个权重。不同边上的权重代表了不同邻居节点相对中心节点的重要性。因此，图注意力网络在进行信息聚合时可以更好的考虑到节点之间属性上的关联。GAT的结构如实例2所示。基于图注意力网络的半监督节点分类算法的主要缺陷在于计算开销较大。该方案需要为整个图上的每一条边都计算权重，对于规模较大、节点和边比较多的图，这个步骤会消耗较多计算资源。

为了进一步融合图节点属性和图拓扑结构之间的信息，可适应的多通道图卷积神经网络(Adaptive Multi-channel Graph ConvolutionalNetworks，AMGCN)分别抽取节点特征和图拓扑结构上的表达，并使用注意力机制融合得到最终的节点表达。AMGCN的结构如示例3所示。和GAT相似，AMGCN引入了注意力机制，在较大规模的图上容易产生较大的计算开销。

发明内容

针对现有技术中的上述不足，本发明提供的基于自监督学习的半监督节点分类方法解决了现有的节点分类方法中难以融合节点属性和图拓扑信息，且计算效率低下的问题。

为了达到上述发明目的，本发明采用的技术方案为：一种基于自监督学习的半监督节点分类方法，包括以下步骤：

S1、构建半监督分类数据集；

其中，所述半监督分类数据集包括引用网络和社交网络数据集；

S2、根据半监督分类数据依次构建拓扑图和特征图；

S3、构建半监督节点分类模型，并基于拓扑图和特征图对其进行自监督训练，获得半监督节点分类结果。

进一步地，所述步骤S2具体为：

S21、确定半监督分类数据的拓扑图G_t＝{A_t，X}；

S22、基于拓扑图G_t＝{A_t，X}中共享的节点属性构建初步特征图；

S22、计算初步特征图中各个节点之间的相似度，并选取K个最相似的节点构建边形式的用于描述节点特征之间联系的特征图G_f＝{X，A_f}。

进一步地，所述步骤S3中，对构建的半监督节点分类模型进行自监督训练包括依次进行利用图卷积神经网络分别抽取节点在拓扑图和特征图上的表达、利用基于聚类思路的自监督机制确定相同节点在节点属性空间的表达和图拓扑结构空间的表达一致性、计算各个节点上的自监督损失、计算有标签节点上的交叉熵损失、半监督节点分类模型的总损失和通过反向传播的方法优化模型参数。

进一步地，所述步骤S3中，利用图卷积神经网络分别抽取节点在拓扑图和特征图上的表达时，对于输入图G，图卷积神经网络的第l+1层的输出H^(l+1)为：

式中，D为输入图G对应的度矩阵，A是输入图G对应的邻近矩阵，ReL U(·)为ReLU激活函数；

将拓扑图G_t＝{A_t，X}和特征图G_f＝{X，A_f}分别输入到图卷积神经网络中，训练学习到对应的节点表达X_t＝{x_t1，x_t2，...，x_tN}和X_f＝{x_f1，x_f2，...，x_fN}，其中，x_ti和x_fi分别指节点i在拓扑图和特征图中的表达。

进一步地，所述步骤S3中，计算自监督损失的方法具体为：

A1、分别计算拓扑图和特征图的聚类分配概率；

A2、分别计算拓扑图和特征图的聚类目标概率；

A3、根据聚类分配概率和聚类目标概率，计算自监督损失。

进一步地，所述步骤A1中，计算聚类分配概率时，在半监督节点分类模型训练开始前随机初始化一个线性层C用于存储B个原型的向量B＝{c₁，c₂，...，c_B}，将节点i在拓扑图和特征图中的表达x_ti和x_fi分别输入到C，得到对应的各类打分和/>

式中，上标T为转置运算符；

基于和/>计算得到节点i在拓扑图中分配到各个原型的概率/>和在特征图中分配到各个原型的概率/>

其中，节点i在拓扑图和特征图上被聚类分配到第j个原型上的概率和/>分别为：

所述步骤A2中，使用Sinkhorn算法计算和/>的聚类目标概率q_i ^(t)和q_i ^(f)分别为：

q_i ^(t)＝sinkhorn(z_i ^(t))

q_i ^(f)＝sinkhorn(z_i ^(f))

式中，sinkhorn(·)为sinkhorn函数；

所述步骤A3中，自监督损失L_ss的计算公式为：

式中，N为图上包含节点数，τ为调和参数，l(·)为交叉熵损失函数。

进一步地，所述步骤S3中，使用有标签节点上的交叉熵损失预测节点分类Y′_ij和真实分类Y_ij的差异；

其中，有标签节点上的交叉熵损失L_ce的计算公式为：

式中，T为半监督分类数据集中有标签的节点的集合，B为半监督分类数据集中原型的数量。

进一步地，所述步骤S3中，半监督节点分类模型的总损失L为：

L＝L_ce+L_SS

式中，L_ce和L_SS分别为自监督损失和有标签节点上的交叉熵损失。

本发明的有益效果是：

(1)本发明从拓扑图和特征图的角度描述图数据，在图卷积神经网络框架中引入自监督学习模块融合节点特征和图拓扑结构的信息，在半监督节点分类任务上获得了更好的性能；

(2)本发明具备更高的计算效率，和基于注意力机制的方法相比需要更少的训练时间、对显卡等硬件设备要求更低，能够节省计算的资源。

附图说明

图1为本发明背景技术中的图卷积神经网络结构示意图。

图2为本发明背景技术中的图注意力网络结构示意图。

图3为本发明背景技术中的可适应的多通道图卷积神经网络结构示意图。

图4为本发明提供的基于自监督学习的节点分类方法。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

实施例1：

对于本实施例中的半监督节点分类，其分类问题可以描述为：

给定图G＝{A，X}，图中全体节点的集合为V；节点的数目为N；全体边的集合为E；根据节点之间是否有边，可以得到邻接矩阵A。在图上各个节点都会有一个自身的属性，所有节点的属性记作X。半监督节点分类指的是使用部分有标签信息的节点T和包含了无标签的节点信息的邻接矩阵A训练模型，最终给图中所有的节点分类，且假设图中共有B类节点。

基于此，本实施例提供了如图1所示的基于自监督学习的半监督节点分类方法，包括以下步骤：

S1、构建半监督分类数据集；

其中，所述半监督分类数据集包括引用网络和社交网络数据集，数据集中的每个节点代表一个论文，边代表论文之间的引用关系，每个节点的属性为对论文内容的描述，节点根据论文内容可以分为不同的类别。

S2、根据半监督分类数据依次构建拓扑图和特征图；

本实施例的步骤S2具体为：

S21、确定半监督分类数据的拓扑图G_t＝{A_t，X}；

其中，对于图中第i个节点，利用余弦相似度公式计算该属性x_i与其他任意节点属性x_j之间的相似度，其中，余弦相似度计算公式为：

在计算完第i个节点和其他节点属性的相似度之后，按照从高到低的顺序进行排序，从排序后的节点中选出前K个，依此和第i个节点建立边，进而得到用于描述节点特征之间联系的特征图G_f＝{X，A_f}。

本实施例的步骤S3中，对构建的半监督节点分类模型进行自监督训练包括依次进行利用图卷积神经网络分别抽取节点在拓扑图和特征图上的表达、利用基于聚类思路的自监督机制确定相同节点在节点属性空间的表达和图拓扑结构空间的表达一致性、计算各个节点上的自监督损失、计算有标签节点上的交叉熵损失、半监督节点分类模型的总损失和通过反向传播的方法优化模型参数。

具体地，利用图卷积神经网络分别抽取节点在拓扑图和特征图上的表达时，对于输入图G，图卷积神经网络的第l+1层的输出H^(l+1)为：

将拓扑图G_t＝{A_t，X}和特征图G_f＝{X，A_f}分别输入到图卷积神经网络中，训练学习到对应的节点表达X_t＝(x_t1，x_t2，...，x_tN和X_f＝{x_f1，x_f2，...，x_fN}，其中，x_ti和x_fi分别指节点i在拓扑图和特征图中的表达。

计算自监督损失的方法具体为：

A1、分别计算拓扑图和特征图的聚类分配概率；

A2、分别计算拓扑图和特征图的聚类目标概率；

A3、根据聚类分配概率和聚类目标概率，计算自监督损失。

上述步骤A1中，计算聚类分配概率时，在半监督节点分类模型训练开始前随机初始化一个线性层C用于存储B个原型的向量B＝{c₁，c₂，...，c_B}，将节点i在拓扑图和特征图中的表达x_ti和x_fi分别输入到C，得到对应的各类打分和/>

式中，上标T为转置运算符；

所述步骤A2中，为了充分挖掘数据信息，实现自监督机制，需要为和/>设定一个聚类目标，本发明将寻找聚类目标问题转化为最优传输问题，使用Sinkhom算法计算和/>的聚类目标概率q_i ^(t)和q_i ^(f)分别为：

q_i ^(t)＝sinkhorn(z_i ^(t))

q_i ^(f)＝sinkhorn(z_i ^(f))

式中，sinkhorn(·)为sinkhorn函数；

上述步骤A3中，为了约束模型从拓扑图和特征图学习到一致的信息，本发明进一步定义了“交叉预测”问题，即某一个节点在拓扑图上的表达应该可以指向该节点在特征图上的分类结果，反之亦然，具体的，本发明假设为分类问题的“预测值”，/>为“真实值”，使用交叉熵函数来衡量“预测值”和“真实值”之间的差异，在第i个节点上，交叉预测问题的损失可以按如下方法计算：

在所有的节点上进行“交叉预测”，得到总的交叉预测损失，即自监督损失L_ss为：

式中，N为图上包含节点数，τ为调和参数，一般取0.3，l(·)为交叉熵损失函数。

本实施例中，通过组合和/>得到节点i属于各个类的概率：

使用有标签节点上的交叉熵损失预测节点分类Y′_ij和真实分类Y_ij的差异；

其中，有标签节点上的交叉熵损失L_ce的计算公式为：

本实施例的步骤S3中，半监督节点分类模型的总损失L为：

L＝L_ce+L_SS

同时在训练过程中通过方向传播更新参数，优化模型。

最后，当模型训练得到收敛后，在测试集上测试模型性能，得到测试的准确率和F1值。

实施例2：

为了验证提出的基于自监督学习的节点分类算法的优越性，本发明在六个公开数据集上进行了半监督节点分类的实验。表1给出了数据集的详细描述。实验中使用准确率(Accuracy，ACC)和F1值(F1 Score，F1)来评估模型效果。在各个数据集中分别从每类节点中选择20/40/60个做训练集，另取1000个节点做测试集。本发明方法和DeepWalk、ChebNet、GCN、GAT、AMGCN进行了比较。为了保证公平，所有的方法均运行5次，并汇报平均的ACC和F1。

在表2中对比了本发明和其他方法的平均ACC和F1，其中L/C表示各类节点中带标签节点的数目。一般的，ACC和F1越高，表示模型的分类性能越好。为了验证算法的效率，在GeForce GTX 1080Ti 11G GPU的实验环境下分别训练本算法和AMGCN各5次，并汇报每次迭代所需要的平均时间(单位毫秒)。实验结果如表3所示，其中“*”表示训练中出现“显存不足”的错误。

从实验数据可以看出本发明有如下优点：

1)本发明可以有限融合图节点属性和图拓扑结构的信息，相比DeepWalk、GCN等传统方法在半监督节点分类任务上有着非常明显的提升，对比较新的AMGCN算法亦在各数据集上的ACC和F1上取得了2.74％和2.94％的平均提升。

2)本发明具备更好的效率，相比基于注意力机制的AMGCN算法，在训练的过程中需要更少的时间。

表1.图数据集描述

表2.本发明和其他方法的对比

表3.本发明和AMGCN的训练时间(ms)对比

Claims

1.一种基于自监督学习的半监督节点分类方法，其特征在于，包括以下步骤：

S1、构建半监督分类数据集；

其中，所述半监督分类数据集包括引用网络和社交网络数据集，数据集中的每个节点代表一个论文，边代表论文之间的引用关系，每个节点的属性为对论文内容的描述，节点根据论文内容可以分为不同的类别；

S2、根据半监督分类数据依次构建拓扑图和特征图；

S3、构建半监督节点分类模型，并基于拓扑图和特征图对其进行自监督训练，获得半监督节点分类结果；

所述步骤S2具体为：

S21、确定半监督分类数据的拓扑图G_t＝{A_t，X}；

S22、计算初步特征图中各个节点之间的相似度，并选取K个最相似的节点构建边形式的用于描述节点特征之间联系的特征图G_f＝{X，A_f}；

所述步骤S3中，对构建的半监督节点分类模型进行自监督训练包括依次进行利用图卷积神经网络分别抽取节点在拓扑图和特征图上的表达、利用基于聚类思路的自监督机制确定相同节点在节点属性空间的表达和图拓扑结构空间的表达一致性、计算各个节点上的上的自监督损失、计算有标签节点上的交叉熵损失、半监督节点分类模型的总损失和通过反向传播的方法优化模型参数；

所述步骤S3中，计算自监督损失的方法具体为：

A1、分别计算拓扑图和特征图的聚类分配概率；

A2、分别计算拓扑图和特征图的聚类目标概率；

A3、根据聚类分配概率和聚类目标概率，计算自监督损失；

所述步骤A1中，计算聚类分配概率时，在半监督节点分类模型训练开始前随机初始化一个线性层C用于存储B个原型的向量B＝{c₁，c₂，...，c_B}，将节点i在拓扑图和特征图中的表达x_ti和x_fi分别输入到C，得到对应的各类打分和/>

式中，上标T为转置运算符；

所述步骤A2中，使用Sinkhom算法计算和/>的聚类目标概率q_i ^(t)和q_i ^(f)分别为：

q_i ^(t)＝sinkhorn(z_i ^(t))

q_i ^(f)＝sinkhorn(z_i ^(f))

式中，sinkhorn(·)为sinkhorn函数；

所述步骤A3中，自监督损失L_ss的计算公式为：

式中，N为图上包含节点数，τ为调和参数，l(·)为交叉熵损失函数；

所述步骤S3中，利用图卷积神经网络分别抽取节点在拓扑图和特征图上的表达时，对于输入图G，图卷积神经网络的第l+1层的输出H^(l+1)为：

式中，D为输入图G对应的度矩阵，A是输入图G对应的邻近矩阵，ReLU(·)为ReLU激活函数；

2.根据权利要求1所述的基于自监督学习的半监督节点分类方法，其特征在于，所述步骤S3中，使用有标签节点上的交叉熵损失预测节点分类Y′_ij和真实分类Y_ij的差异；

其中，有标签节点上的交叉熵损失L_ce的计算公式为：

3.根据权利要求1所述的基于自监督学习的半监督节点分类方法，其特征在于，所述步骤S3中，半监督节点分类模型的总损失L为：

L＝L_ce+L_SS