CN113822342A

CN113822342A - 一种安全图卷积网络的文献分类方法及系统

Info

Publication number: CN113822342A
Application number: CN202111028155.2A
Authority: CN
Inventors: 杨智; 严亚东; 甘海涛; 周然; 王岌
Original assignee: Hubei University of Technology
Current assignee: Hubei University of Technology
Priority date: 2021-09-02
Filing date: 2021-09-02
Publication date: 2021-12-21
Anticipated expiration: 2041-09-02
Also published as: CN113822342B

Abstract

本发明公开了一种基于安全图卷积网络的文献分类方法及系统，该方法包括：S100：获取包含已标记样本数据和未标记样本数据的训练数据集；S200：利用当前训练数据集训练半监督图卷积网络，并对当前的未标记样本数据进行预测；S300：利用当前训练数据集训练监督图卷积网络，并对当前的未标记样本数据进行预测；S400：选出高置信度样本数据扩充已标记样本数据；S500：迭代执行步骤S200‑S400直至迭代停止；S600：采用当前训练数据集中已标记样本数据训练监督图卷积网络；S700：采用监督图卷积网络进行文献分类。本发明结合半监督学习和图卷积神经网络进行样本扩充，可显著提升文献分类准确率。

Description

一种安全图卷积网络的文献分类方法及系统

技术领域

本发明属于机器学习技术领域，尤其涉及一种安全图卷积网络的文献分类方法及系统。

背景技术

科技文献分类一直以来都是数据挖掘技术领域的关键问题，随着机器学习技术的不断成熟以及深度学习技术的出现，使得科技文献分类变得越来越高效准确。在机器学习的各领域中，监督学习得到了广泛应用，并取得了较好效果。但在标记样本较少的情况下，监督学习效果往往不那么尽如人意。科技文献的数量非常庞大，虽然数据众多，但相比于未标记的数据，标记数据的数量要少得多。因此，存在小样本情况下如何利用大量未标记样本来辅助提升网络模型性能的问题。在这种情况下，半监督学习得到了较好应用。在现有标记数据样本较少的情况下，使用半监督学习方法可以很好地提高分类准确率。

在半监督图卷积神经网络领域中，普遍存在如何利用大量未标记样本来提升网络模型性能的问题。扩充样本标签数据集为目前较常用的解决方案，而扩充样本标签数据集的方法较多，如何有效且安全的扩充样本标签数据集是面临的一个主要问题。

发明内容

本发明的目的是提供一种安全图卷积网络的文献分类方法及系统，该方法及系统可更有效且更安全的扩充样本标签数据集，从而提升模型的预测性能。

本发明实施例提供的一种安全图卷积网络的文献分类方法，包括：

S100：获取包含已标记样本数据和未标记样本数据的训练数据集；

S200：利用当前训练数据集构造第一邻接矩阵，利用第一邻接矩阵训练半监督图卷积网络，采用训练后的半监督图卷积网络对当前训练数据集中未标记样本数据进行预测，获得各未标记样本数据对应的第一预测值和第一伪标签；其中，当前训练数据集的初始值为步骤S100所获取的训练数据集；

S300：利用当前训练数据集中已标记样本数据构造第二邻接矩阵，将第二邻接矩阵带入监督图卷积网络进行训练，采用训练后的监督图卷积网络对当前训练数据集中未标记样本数据进行预测，获得各未标记样本数据对应的第二预测值和第二伪标签；

S400：将第一伪标签和第二伪标签相同且第一预测值不小于第二预测值的未标记样本数据判定为高置信度样本数据，统计高置信度样本数据对应的伪标签，并分别获得各类伪标签对应的高置信度样本数据数量，选取各类高置信度样本数据数量的最小值s，从各类高置信度样本数据中随机选取s个高置信度样本数据及其伪标签，作为已标记样本数据，从而更新当前训练数据集；

S500：将步骤S400更新后的训练数据集作为新的当前训练数据集，迭代执行步骤S200-S400，直至再无第一伪标签和第二伪标签相同的未标记样本数据，执行步骤S600；

S600：采用当前训练数据集中的已标记样本数据训练监督图卷积网络；

S700：采用步骤S600训练后的监督图卷积网络进行文献分类。

一些实施例中，训练数据集Cora数据集、Pubmed数据集、Citeseer数据集中的一个或多个。

一些实施例中，步骤S200中，以半监督图卷积网络的交叉熵为损失函数来训练半监督图卷积网络。

一些实施例中，步骤S300中，以监督图卷积网络的交叉熵为损失函数来训练监督图卷积网络。

进一步的，步骤S600具体为：

采用当前训练数据集中已标记样本数据及对应的标签构造邻接矩阵，再利用邻接矩阵训练监督图卷积网络。

本发明实施例提供的一种基于安全图卷积网络的文献分类系统，包括：

第一模块，用来获取包含已标记样本数据和未标记样本数据的训练数据集；

第二模块，用来利用当前训练数据集构造第一邻接矩阵，利用第一邻接矩阵训练半监督图卷积网络，采用训练后的半监督图卷积网络对当前训练数据集中未标记样本数据进行预测，获得各未标记样本数据对应的第一预测值和第一伪标签；其中，当前训练数据集的初始值为第一模块所获取的训练数据集；

第三模块，用来利用当前训练数据集中已标记样本数据构造第二邻接矩阵，将第二邻接矩阵带入监督图卷积网络进行训练，采用训练后的监督图卷积网络对当前训练数据集中未标记样本数据进行预测，获得各未标记样本数据对应的第二预测值和第二伪标签；

第四模块，将第一伪标签和第二伪标签相同且第一预测值不小于第二预测值的未标记样本数据判定为高置信度样本数据，统计高置信度样本数据对应的伪标签，并分别获得各类伪标签对应的高置信度样本数据数量，选取各类高置信度样本数据数量的最小值s，从各类高置信度样本数据中随机选取s个高置信度样本数据及其伪标签，作为已标记样本数据，从而更新当前训练数据集；

第五模块，用来将第四模块更新后的训练数据集作为新的当前训练数据集，迭代执行第二模块、第三模块、第四模块，直至再无第一伪标签和第二伪标签相同的未标记样本数据，执行第六模块；

第六模块，用来采用当前训练数据集中的已标记样本数据训练监督图卷积网络；

第七模块，用来采用第六模块训练后的监督图卷积网络进行文献分类。

和现有技术相比，本发明的有益效果如下：

(1)现实中未标记数据不全为安全数据，其会存在噪声数据，本发明通过筛选高置信度的未标记数据来扩充样本标签数据集，更有效且更安全。

(2)本发明结合了半监督学习和图卷积神经网络，在少量标记数据的情况下，也可显著提升文献分类的准确率。

附图说明

图1是本发明实施例的流程图。

具体实施方式

下面将结合附图对本发明的具体实施方式做详细说明。显然，所描述的具体实施方式仅仅是本发明的一部分实施例，而不是全部的实施例。基于所描述的具体实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他具体实施方式，都属于本发明保护的范围。

考虑到现有文献数据中标记数据少以及人工标记成本高的问题，本发明提出了一种安全图卷积网络的文献分类方法及系统。该方法及系统首先通过安全半监督方式来添加置信度高的未标记数据，以扩充样本标签数据集；再利用监督图卷积神经网络训练模型进行预测。通过本发明可获得更安全更准确的文献分类预测结果。

参见图1，所示为实施例中安全图卷积网络的文献分类方法的具体流程，下面将结合图1对实施例的具体实施过程进行详细描述。

S100：获取包含少量已标记样本数据和大量未标记样本数据的训练数据集。

在进行文献分类之前，要提前进行模型训练，则需提前收集文献相关的样本数据集。本实施例中，所收集的训练数据集为Cora数据集(即公共科学论文数据集)，其包括少量已标记样本数据和大量未标记样本数据，已标记样本数据至少包括样本的特征信息、类别信息、边集信息，边集信息用来样本间的联系关系；未标记样本数据至少包括样本的特征信息和边集信息。为便于后续验证效果，本实施例中将Cora数据集分为训练数据集和测试数据集，同时标签值经过one-hot处理，其中测试数据集用于效果验证。

将训练数据集记为X，

n表示训练数据集中的样本数量，d表示样本的特征维数。训练数据集X中已标记样本数据构成已标记训练数据集，记为X^l，未标记样本数据构成未标记训练数据集，记为X^u。训练数据集X对应的标签集记为Y，采用y_α表示标签集Y中第α个标签值，也是训练数据集X中第α个样本数据的标签值，

α∈[1,n]，c表示样本类别数。当y_α＝-1，表示对应样本的标签值缺失，未标记样本数据的标签值均记为-1。Y中的标签值会在迭代过程中改变，第k次迭代后的标签集记为Y^(k)。将初始的已标记训练数据集记为X^l(0)，对应的标签集记为Y^l(0)；初始的未标记训练数据集记为X^u(0)，相应的标签默认为-1。

需要声明的是，本实施例中，标签值以独热编码(one-hot)形式来参与交叉熵的运算，以此将每一个y_α由标量转换为向量，Y则由向量转换为矩阵，Y∈R^n×c，c为类别数。

利用one-hot编码处理将标量数据转换为向量数据为业内常规方法，为便于理解，下面将以举例方式进行原理说明。假设一训练数据集具有3个类别的样本，相应的标签值分别记为0、1、2。该三个标签值通过one-hot编码，分别转换为[1，0，0]、[0，1，0]、[0，0，1]，从而将0、1、2标签值分别转换为了对应的向量。

S200：利用当前训练数据集构造第一邻接矩阵A，将第一邻接矩阵A带入半监督图卷积网络进行训练，采用训练后的半监督图卷积网络对当前训练数据集中未标记样本数据进行预测，得到各未标记样本数据对应的第一预测值Pre^1(k)和第一伪标签

由于步骤S200-S500为迭代过程，每次迭代中会对训练数据集进行更新，此处当前训练数据集则指上一次迭代更新后的训练数据集。其中，当前训练数据集初始值采用步骤S100所获取的训练数据集，第一预测值Pre^1(k)和第一伪标签

上标中的k表示迭代次数，Pre^1(k)和

即表示第k次迭代时获得的第一预测值和第一伪标签，k＝1,2，…K，K表示最大迭代次数。

在图论和计算机科学中，邻接矩阵是一种用来表示有限图的方阵，其中每个元素用来表示各点间是否有边相连。

本实施例中，所采用的半监督图卷积网络如下：

式(1)中：

σ(·)表示激活函数，本实施例采用RELU函数；

表示第k次迭代下半监督图卷积网络的第(i+1)层输出；

表示第k次迭代下半监督图卷积网络的第i层输出，半监督图卷积网络的第0层输出(即最初输入)即当前训练数据集；

表示添加了自连接的第一邻接矩阵A，所谓“添加自连接”指：将矩阵和与矩阵大小相同的单位矩阵相加，所得矩阵即添加了自连接的矩阵；

表示第k次迭代下矩阵

的度矩阵；

表示第k次迭代下半监督图卷积网络第i层对应的权重矩阵。

半监督图卷积网络采用交叉熵作为损失函数。交叉熵能够衡量同一个随机变量中两个不同概率分布的差异程度，在机器学习中就表示为真实概率分布与预测概率分布之间的差异。交叉熵值越小，表示模型预测效果越好。

本实施例中损失函数如下：

式(2)中：

表示第k次迭代下半监督图卷积网络的交叉熵；

Y^l(k)表示第k次迭代下当前训练数据集中已标记样本数据对应的标签集，y^l(k)表示Y^l(k)中各数据在训练数据集中对应的位置序号所构成的集合，本实施例中，在Y^l(k)中以位置序号作为其中元素的下标，g则为集合y^l(k)中元素；

表示第k次迭代下第g个已标记样本数据对应类别h的标签值；

表示当前半监督图卷积网络输出中第g个已标记样本数据对应第h维的输出值；

In表示对数函数。

具体实施时，利用构造的第一邻接矩阵A带入半监督图卷积网络进行训练，随后根据损失函数进行反向传播更新权重矩阵

以进行训练。当训练完毕，将当前训练数据集中未标记样本数据带入训练好的监督图卷积网络，得到各未标记样本数据对应的第一预测值Pre^1(k)和第一伪标签

c表示样本类别数；k＝1,2，…K，K为最大迭代次数。

S300：利用当前训练数据集中已标记样本数据构造第二邻接矩阵A'^(k)，将第二邻接矩阵A'^(k)带入监督图卷积网络进行训练，采用训练后的监督图卷积网络对当前训练数据集中未标记样本数据进行预测，得到各未标记样本数据对应的第二预测值Pre^2(k)和第二伪标签

其中，当前训练数据集初始值采用步骤S100所获取的训练数据集，Pre^2(k)和

上标中的k表示迭代次数，Pre^2(k)和

即第k次迭代时获得的第二预测值和第二伪标签，k＝1,2，…K，K为最大迭代次数。

本实施例中，本步骤的具体实施过程如下：

3.1将当前训练数据集中已标记样本数据构成当前已标记训练数据集，记为X^l(k)，利用X^l(k)构造第二邻接矩阵A'^(k)，X^l(k)表示第k次迭代下已标记训练数据集，其初始值为原始的已标记训练数据集记为X^l(0)；A'^(k)则为第k次迭代下的第二邻接矩阵。

3.2将第二邻接矩阵A'^(k)带入式(3)所示的监督图卷积网络进行训练：

式(3)中：

σ(·)表示激活函数，本实施例采用RELU函数；

表示第k次迭代下监督图卷积网络的第(i+1)层输出；

表示第k次迭代下监督图卷积网络的第i层输出，监督图卷积网络的第0层输出(即最初输入)即当前已标记训练数据集；

表示第k次迭代下添加了自连接的第二邻接矩阵A'^(k)；

表示矩阵

的度矩阵；

表示第k次迭代下监督图卷积网络第i层对应的权重矩阵。而在监督图卷积网络中同样采用交叉熵损失函数模型作为损失函数：

式(4)中：

表示第k次迭代下监督图卷积网络的交叉熵；

表示第k次迭代下第g个已标记样本数据对应类别h的标签值；

表示监督图卷积网络输出中第g个已标记样本数据对应第h维的输出值；

In表示对数函数。

具体实施时，利用构造的第二邻接矩阵A'^(k)带入监督图卷积网络进行训练，随后根据损失函数进行反向传播更新参数矩阵

需说明的是，式(1)～(4)中作为上标的G₁和G₂，两者并没有明确含义，主要用作区别。带上标G₁的参数，为半监督图卷积网络对应参数；带上标G₂的参数，为监督图卷积网络对应参数。

3.3训练完毕，将当前训练数据集中未标记样本数据带入训练好的监督图卷积网络，得到各未标记样本数据对应的第二预测值Pre^2(k)和第二伪标签

c表示样本类别数；k＝1,2，…K，K为最大迭代次数。

如一未标记样本数据的

和

相同，且Pre^1(k)≥Pre^2(k)，则

和

视为相对安全的标签，将其作为该未标记样本数据的伪标签

将该未标记样本数据记为高置信度样本数据。将所有满足要求的

组成伪标签集合，统计该集合中各类伪标签对应的高置信度样本数据的数量，取各数量中的最小值s。从各类别中随机选取s个高置信度样本数据及其伪标签，加入到当前的已标记训练数据集和当前的标签集，以达到扩充已标记样本的目的。在此过程中被选中的高置信度样本数据的集合记为

同时这些样本对应的伪标签的集合记为

本实施例中，本步骤的具体实施过程如下：

如一未标记样本数据的

和

相同，且Pre^1(k)≥Pre^2(k)，则

和

视为相对安全的标签，将其作为该未标记样本数据的伪标签

同时这些样本对应的伪标签的集合记为

初始已标记训练数据集记为X^l(0)＝[x₁,x₂,...,x_t]^T，对应的标签集记为Y^l(0)＝[y₁,y₂,...,y_t]^T，初始未标记训练数据集记为X^u(0)＝[x_t+1,x_t+2,...,x_n]^T，标签值默认为-1。经过第k次迭代后，已标记训练数据集扩充为

其所对应标签集扩充为

X^l(k)表示第k次迭代后的已标记训练数据集，X^l(k-1)表示第(k-1)次迭代后的已标记训练数据集。

S500：将步骤S400更新后的训练数据集作为新的当前训练数据集，迭代执行步骤S200-S400，直至满足停止条件，即再无未标记样本数据的

和

相同。

S600：采用当前训练数据集中的已标记样本数据训练监督图卷积网络。

监督图卷积网络的训练同步骤S300，即利用更新后的已标记样本数据及对应的标签构造邻接矩阵，利用邻接矩阵训练监督图卷积网络。

S700：采用步骤S600训练后的监督图卷积网络进行文献分类。

在进行文献分类时，先将待分类文献信息构建为邻接矩阵，将邻接矩阵输入监督图卷积网络，则输出相应的预测值。

实施例

本实施例选择Cora、Pubmed、Citeseer三个数据集进行效果验证。采用步骤S100方法，分别将Cora、Pubmed、Citeseer三个数据集分为训练数据集和测试数据集，先利用训练数据集训练模型，然后利用训练好的模型对测试数据集进行分类预测。本发明方法则是按照上述步骤S200-S500训练好监督图卷积网络，然后利用训练好的监督图卷积网络对测试数据集进行分类预测。

本实施例中还采用了其他现有方法先构建模型，然后利用构建的模型对测试数据集进行分类预测，其他方法包括反向传播神经网络法(BP)、支持向量机(SVM)、监督图卷积神经网络(S-GCN)、半监督图卷积神经网络(SS-GCN)、简化图卷积神经网络(SGC)、多核拓扑图卷积神经网络(TAGCN)。本实施例中,在训练S-GCN、SS-GCN、SGC、TAGCN时,我们在构造邻接矩阵时，使用的数据为训练数据集。将预测结果中正确结果与测试数据总数量做比值，获得表1中的准确率数据。从表1可以看出，本发明方法具有更优的分类准确率。

表1对比试验的准确率数据

方法	Cora	Pubmed	Citeseer
				BP	0.555	0.714	0.584
SVM	0.527	0.699	0.499
				S-GCN	0.617	0.736	0.569
SS-GCN	0.739	0.751	0.665
				SGC	0.711	0.736	0.675
TAGCN	0.641	0.681	0.510
				本发明方法	0.767	0.784	0.703

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于安全图卷积网络的文献分类方法，其特征是，包括：

S700：采用步骤S600训练后的监督图卷积网络进行文献分类。

2.如权利要求1所述的基于安全图卷积网络的文献分类方法，其特征是：

所述训练数据集Cora数据集、Pubmed数据集、Citeseer数据集中的一个或多个。

3.如权利要求1所述的基于安全图卷积网络的文献分类方法，其特征是：

步骤S200中，以半监督图卷积网络的交叉熵为损失函数来训练半监督图卷积网络。

4.如权利要求1所述的基于安全图卷积网络的文献分类方法，其特征是：

步骤S300中，以监督图卷积网络的交叉熵为损失函数来训练监督图卷积网络。

5.如权利要求1所述的基于安全图卷积网络的文献分类方法，其特征是：

步骤S600具体为：

6.一种基于安全图卷积网络的文献分类系统，其特征是，包括：