CN112966114A

CN112966114A - 基于对称图卷积神经网络的文献分类方法和装置

Info

Publication number: CN112966114A
Application number: CN202110388284.6A
Authority: CN
Inventors: 张滨; 张珣; 杨岚雁; 岳明齐; 付晶莹; 刘锟
Original assignee: Institute of Geographic Sciences and Natural Resources of CAS; Beijing Technology and Business University
Current assignee: Institute of Geographic Sciences and Natural Resources of CAS; Beijing Technology and Business University
Priority date: 2021-04-10
Filing date: 2021-04-10
Publication date: 2021-06-15
Anticipated expiration: 2041-04-10
Also published as: CN112966114B

Abstract

本发明是关于一种基于对称图卷积神经网络的文献分类方法和装置，方法包括：获取文献引用数据集作为图结构数据，读取文献数据集生成对应的特征矩阵和邻接矩阵，构建相似度矩阵；分别以相似度矩阵和邻接矩阵作为聚合矩阵，对文献数据的特征矩阵进行图卷积操作，得到基于相似度矩阵的第一预测值和基于邻接矩阵的第二预测值；分别计算文献数据中标记节点的监督损失和基于第一预测值和第二预测值的所有文献节点的无监督损失，并将监督损失和无监督损失进行合并，确定最终损失；利用最终损失训练和预设训练集进行训练，得到目标图卷积神经网络，对文献数据集中的目标数据进行半监督分类。通过该技术方案，可以充分嵌入图形知识，提高文献分类的准确性。

Description

基于对称图卷积神经网络的文献分类方法和装置

技术领域

本发明涉及数据处理技术领域，尤其涉及一种基于对称图卷积神经网络的文献分类方法和装置。

背景技术

图数据广泛存在于现实生活中，例如文献引用关系、社交网络等等。因其可以自然地刻画数据之间的相互关系，所以对于图数据的研究具有重要的现实意义和价值。传统的图数据分析方法大多基于图数据的统计信息或者手动设计的特征，在大部分情况下表现不佳且过程耗时耗力。近年来，深度学习由于其强大的特征表征能力和不依赖过多的先验知识被广泛应用到许多研究领域，一定程度上减少了对数据统计信息和手动设计特征的依赖。因而利用深度神经网络处理图数据成为了图研究的热点，并由此产生图神经网络的概念。

图神经网络被应用于各类图数据建模，包括链接预测、图分类和半监督节点分类。其中，基于图神经网络的半监督节点分类已经取得了巨大的成功。图神经网络在半监督节点分类中的成功主要取决于假设连接的节点倾向于具有相同的标签。在此假设下，图神经网络利用来自相邻节点的信息来改善目标节点的表示学习。例如，图卷积网络(GCN)通过聚合相邻节点的特征信息来迭代更新每个节点的特征表示。GCN模型在卷积中结合了图结构和节点特征，其中未标记节点的特征与附近标记节点的特征混合在一起。由于GCN模型在训练中利用了未标记节点的功能，因此只需要较少的标记节点即可获得较好的预测结果。尽管，图卷积网络在半监督节点分类任务中，已经取得了不错的预测效果。但是，图卷积网络是单通道的网络模型，在更新节点特征信息时仅使用邻接矩阵作为聚合矩阵，只能从单一角度提取特征信息，不能充分嵌入图形知识。

发明内容

为克服相关技术中存在的问题，本发明提供一种基于对称图卷积神经网络的文献分类方法和装置，从而实现双通道图网络，从文献数据的不同视角进行卷积操作，以充分嵌入图形知识，提高文献分类的准确性。

根据本发明实施例的第一方面，提供一种基于对称图卷积神经网络的文献分类方法，所述方法包括：

获取文献引用数据集，利用节点表示文献，利用边表示引用连接，利用节点特征表示文献摘要的关键词，将所述文献引用数据集输入为图结构数据，生成对应的特征矩阵和邻接矩阵，并根据所述特征矩阵和邻接矩阵构建相似度矩阵；

分别以所述相似度矩阵和所述邻接矩阵作为聚合矩阵，对所述文献引用数据的特征矩阵进行图卷积操作，以得到基于所述相似度矩阵的第一预测值和基于所述邻接矩阵的第二预测值；

分别计算所述文献引用数据中标记节点的监督损失和基于所述第一预测值和所述第二预测值的无监督损失，并将所述监督损失和无监督损失进行合并，以确定最终损失，其中，所述监督损失用于表征标记文献节点的基于所述邻接矩阵的第二预测值与真实值之间的误差，所述无监督损失用于所有文献节点的所述第二预测值与第一预测值之间的误差；

利用所述最终损失训练和预设训练集进行训练，得到目标图卷积神经网络；

使用所述目标图卷积神经网络对文献数据集中的目标文献数据进行半监督分类。

在一个实施例中，优选地，获取文献引用数据集，利用节点表示文献，利用边表示引用连接，利用节点特征表示文献摘要的关键词，将所述文献引用数据集输入为图结构数据，生成对应的特征矩阵和邻接矩阵，并根据所述特征矩阵和邻接矩阵构建相似度矩阵，包括：

生成特征矩阵X＝[X₁,X₂,…,X_n]^T和邻接矩阵A，其中，X∈R^n×c，A∈R^n×n表示所有文献之间的引用关系，如果两篇文献之间具有引用关系，则将它们称为图中的相邻节点，n表示文献节点个数，c表示特征维数；

使用第一计算公式计算任意两个相邻文献节点i和j之间的特征距离；

根据所述特征距离，使用第二计算公式计算任意两个相邻文献节点i和j之间的特征相似度系数；

采用第三计算公式，根据所有相邻文献节点的特征相似度系数构建所述相似度矩阵。

在一个实施例中，优选地，所述第一计算公式包括：

其中，d_ij表示所述节点i和j之间的特征相似度，X_i∈R^c是节点i的c维特征向量，X_j∈R^c是节点j的c维特征向量；

所述第二计算公式包括：

其中，α_ij表示所述文献节点i和j之间的特征相似度系数，μ表示平滑参数；

所述第三计算公式包括：

在一个实施例中，优选地，采用以下第四计算公式和第五计算公式计算基于所述相似度矩阵的第一预测值：

其中，

表示所述相似度矩阵的第一预测值，S表示所述相似度矩阵，

表示规范化的相似度矩阵，

D表示一个对角矩阵，D_ii＝∑_jS_ij，softmax表示分类器，用于预测每个文献节点属于不同类别的概率，

表示基于相似度矩阵的第(t-1)层的输出，

等于输入特征矩阵X，Θ^(t)表示第t层网络的可训练的权重参数，σ表示激活函数。

在一个实施例中，优选地，采用以下第六计算公式和第七计算公式计算基于所述邻接矩阵的第二预测值：

其中，

I表示单位矩阵，

表示规范化的邻接矩阵，

表示基于邻接矩阵的第(t-1)层的输出，

等于输入特征矩阵X，输入特征矩阵X由所有标记和未标记的文献节点特征组成，Θ^(t)表示第t层网络的可训练的权重参数，σ表示激活函数。

在一个实施例中，优选地，采用以下第八计算公式计算所述标记文献节点的监督损失；

其中，L表示标记文献节点的集合，Y表示真实标签矩阵，如果标记文献节点i属于第l类，Y_il＝1，否则，Y_il＝0，

表示基于邻接矩阵的第二预测值，f表示类别数；

采用以下第九计算公式计算基于所述第一预测值和所述第二预测值的无监督损失；

其中，n表示文献节点的个数，

表示基于邻接矩阵的第二预测值，

表示基于相似度矩阵的第一预测值；

采用以下第十计算公式计算所述最终损失；

其中，

表示所述监督损失，

表示所述无监督损失，λ表示正则化系数。

根据本发明实施例的第二方面，提供一种基于对称图卷积神经网络的文献分类装置，所述装置包括：

生成模块，用于获取文献引用数据集，利用节点表示文献，利用边表示引用连接，利用节点特征表示文献摘要的关键词，将所述文献引用数据集输入为图结构数据，生成对应的特征矩阵和邻接矩阵，并根据所述特征矩阵和邻接矩阵构建相似度矩阵；

处理模块，用于分别以所述相似度矩阵和所述邻接矩阵作为聚合矩阵，对所述文献引用数据的特征矩阵进行图卷积操作，以得到基于所述相似度矩阵的第一预测值和基于所述邻接矩阵的第二预测值；

计算模块，用于分别计算所述文献引用数据中标记文献节点的监督损失和基于所述第一预测值和所述第二预测值的无监督损失，并将所述监督损失和无监督损失进行合并，以确定最终损失，其中，所述监督损失用于表征标记文献节点的基于所述邻接矩阵的第二预测值与真实值之间的误差，所述无监督损失用于所有文献节点的所述第二预测值与第一预测值之间的误差；

训练模块，用于利用所述最终损失训练和预设训练集进行训练，得到目标图卷积神经网络；

分类模块，用于使用所述目标图卷积神经网络对文献数据集中的目标数据进行半监督分类。

在一个实施例中，优选地，所述生成模块用于：

生成特征矩阵X＝[X₁,X₂,…,X_n]^T和邻接矩阵A，其中，X∈R^n×c，A∈R^n×n表示所有文献之间的引用关系，如果两篇文献之间具有引用关系，则将它们称为图中的相邻文献节点，n表示文献节点个数，c表示特征维数；

采用第三计算公式，根据所有相邻文献节点的特征相似度系数构建所述相似度矩阵；

所述第一计算公式包括：

其中，d_ij表示所述节点i和j之间的特征距离，X_i∈R^c是节点i的c维特征向量，X_j∈R_c是节点j的c维特征向量；

所述第二计算公式包括：

所述第三计算公式包括：

采用以下第四计算公式和第五计算公式计算基于所述相似度矩阵的第一预测值：

其中，

表示所述相似度矩阵的第一预测值，S表示所述相似度矩阵，

表示规范化的相似度矩阵，

表示基于相似度矩阵的第(t-1)层的输出，

采用以下第六计算公式和第七计算公式计算基于所述邻接矩阵的第二预测值：

其中，

I表示单位矩阵，

表示规范化的邻接矩阵，

表示基于邻接矩阵的第(t-1)层的输出，

采用以下第八计算公式计算所述标记文献节点的监督损失；

表示基于邻接矩阵的第二预测值，f表示类别数；

其中，n表示文献节点的个数，

表示基于邻接矩阵的第二预测值，

表示基于相似度矩阵的第一预测值；

采用以下第十计算公式计算所述最终损失；

其中，

表示所述监督损失，

表示所述无监督损失，λ表示正则化系数。

根据本发明实施例的第三方面，提供一种基于对称图卷积神经网络的文献分类装置，所述装置包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

使用所述目标图卷积神经网络对文献数据集中的目标数据进行半监督分类。

根据本发明实施例的第四方面，提供一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现第一方面中任一项所述方法的步骤。

本发明的实施例提供的技术方案可以包括以下有益效果：

本发明实施例中，通过计算所有相邻节点对的特征相似性构建了一个相似度矩阵作为聚合矩阵，然后分别以邻接矩阵和相似度矩阵作为聚合矩阵进行图卷积操作，得到基于文献数据的不同角度的预测值，最后通过添加一个无监督损失集成不同角度的预测值。现有的图卷积神经网络是单通道网络，本发明提供了一种双通道图网络，从文献数据的不同视角进行卷积操作，以充分嵌入图形知识，极大地提高了文献分类的准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种基于对称图卷积神经网络的文献分类方法的流程图。

图2是根据一示例性实施例示出的另一种基于对称图卷积神经网络的文献分类方法的流程图。

图3是根据一示例性实施例示出的一种基于对称图卷积神经网络的文献分类装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种基于对称图卷积神经网络的文献分类方法的流程图，如图1所示，该方法包括：

步骤S101，获取文献引用数据集，利用节点表示文献，利用边表示引用连接，利用节点特征表示文献摘要的关键词，将所述文献引用数据集输入为图结构数据，生成对应的特征矩阵和邻接矩阵，并根据所述特征矩阵和邻接矩阵构建相似度矩阵；

机器学习中，有多种计算相似度的方法，本发明使用欧式距离计算相邻节点之间的特征相似度。输入特征矩阵由X[X₁,X₂,…,X_n]^T∈R^n×c表示，n表示文献节点个数，c是特征维数，图结构由邻接矩阵A∈R^n×n表示。输入特征矩阵X包含所有标记和未标记文献节点的特征信息。

如果节点i和j是图中的相邻文献节点，它们特征之间的特征距离d_ij可以通过公式1得到：

式1中，X_i∈R^c是文献节点i的c维特征向量，X_j∈R^c是文献节点j的c维特征向量。

文献节点i和j的特征相似度系数α_ij可以由公式2计算得到：

式中，μ是平滑参数。通过公式2可以使较小的特征距离获得较大的相似度系数。

相似度矩阵S∈R^n×n可通过公式3来定义:

文献节点i和j的相似度系数α_ij由公式(1)和(2)计算，只需计算所有相邻文献节点对的特征相似度。

步骤S102，分别以所述相似度矩阵和所述邻接矩阵作为聚合矩阵，对所述文献数据的特征矩阵进行图卷积操作，以得到基于所述相似度矩阵的第一预测值和基于所述邻接矩阵的第二预测值；

邻接矩阵作为聚合矩阵，在更新目标节点特征时，度越小的邻居节点，所占的比重更大，度越大的邻居节点所占的比重则更小。邻接矩阵作为聚合矩阵是根据邻居节点的度的大小来区分邻居节点的相对重要性。给定输入特征矩阵X和邻接矩阵A，基于邻接矩阵的第t层网络模型的输出定义为：

其中，

I是单位矩阵，

是规范化的邻接矩阵。

是基于邻接矩阵的第(t-1)层的输出，

等于输入特征矩阵X，输入特征矩阵X由所有标记和未标记的文献节点特征组成。Θ^(t)是第t层网络的可训练的权重参数，σ表示激活函数，比如ReLU/Sigmoid等。

基于邻接矩阵的t层网络模型的标签预测可以通过下列公式计算：

其中，softmax是一个分类器，用于预测每个文献节点属于各个类别的概率。

相似度矩阵作为聚合矩阵，在更新目标节点特征时，与目标节点特征相似度越大的邻居节点所占的比重越大。相似度矩阵作为聚合矩阵是根据目标节点与邻居节点的原始特征分布关系区分邻居节点的相对重要性。给定输入特征矩阵X和相似度矩阵S，基于相似度矩阵的第t层网络模型的输出定义为：

其中，S为构建的相似度矩阵，D_ii＝∑_jS_ij，D^-1S是规范化的相似度矩阵矩阵。

是基于相似度矩阵的第(t-1)层的输出，

等于输入特征矩阵X。Θ^(t)是第t层网络的可训练的权重参数，σ表示激活函数。

基于相似度矩阵的t层网络模型的标签预测可由下列公式计算：

步骤S103，分别计算所述文献数据中标记节点的监督损失和基于所述第一预测值和所述第二预测值的无监督损失，并将所述监督损失和无监督损失进行合并，以确定最终损失，其中，所述监督损失用于表征标记文献节点的基于所述邻接矩阵的第二预测值与真实值之间的误差，所述无监督损失用于所有文献节点的所述第二预测值与第一预测值之间的误差；

监督损失是标记文献节点的预测值和真实值的误差，可通过交叉熵损失函数计算，计算公式如下：

其中，L为标记文献节点集合，Y是一个真实标签矩阵，如果标记文献节点i属于第l类，Y_il＝1，否则，Y_il＝0。

是基于邻接矩阵的预测值，f是类别数。

添加一个无监督损失用于集成不同角度的预测值，计算公式如下：

其中，n是图中文献节点个数，

是基于邻接矩阵的预测值，

是基于相似度矩阵的预测值。在训练中，无监督损失可以通过最小化来自文献数据不同变换的预测之间的差异来优化参数更新，从而提高网络的预测能力。

将监督损失和无监督损失进行合并，具体计算公式如下：

其中，

是监督损失由公式8计算得到，

是无监督损失由公式9计算得到，λ是正则化系数，用于平衡监督损失和无监督损失。在训练中，监督损失用于缩小标记文献节点的预测值和真实值的差异，无监督损失用于缩小同一文献节点不同角度卷积操作的预测差异，这两部分损失的减小均可优化参数更新，以提高模型的预测能力。

步骤S104，利用所述最终损失训练和预设训练集进行训练，得到目标图卷积神经网络；其中，设置网络超参数，训练网络模型，依据反向传播和随机梯度下降学习网络的权重参数以及正则性系数。

步骤S105，使用所述目标图卷积神经网络对文献数据集中的目标数据进行半监督分类。

下面以一个具体实施例，详细说明本发明的上述技术方案。

本发明以Cora、Citeseer和Pubmed三个文献引用数据集进行实验，数据集的具体信息如表1所示。

表1数据集具体信息

其中，每篇文献都表示图中的一个节点，文献中的关键词作为节点特征，文献之间的引用关系作为图的边。标签率是训练节点数与节点总数的比值。

如图2所示，本发明具体实施包括如下具体步骤：

步骤S201，根据邻接矩阵A和特征矩阵X构建相似度矩阵S

读取图结构数据集生成特征矩阵和邻接矩阵，使用X＝[X₁,X₂,…,X_n]^T∈R^n×c表示特征矩阵，n表示文献节点个数，c是特征维数，图结构由邻接矩阵A∈R^n×n表示。通常，通过计算两个节点之间的特征距离来比较两个节点之间的特征相似度。距离越小，相似度越大，反之，相似度越小。在本发明中，使用欧式距离来计算两个节点之间的特征相似度。

如果节点i和j是图中的相邻节点，它们特征之间的欧式距离d_ij可以通过公式1得到：

式1中，X_i∈R^c是节点i的c维特征向量，X_j∈R^c是节点j的c维特征向量。

节点i和j的特征相似度系数α_ij可以由公式2计算得到：

式中，μ是平滑参数，一般设μ为1，通过公式2可以使较小的特征距离获得较大的相似度系数。

相似度矩阵S∈R^n×n可通过公式3得到:

节点i和j的相似度系数α_ij由公式(1)和(2)计算，只需计算所有相邻节点的特征相似度。相邻节点i和j在相似度矩阵S中对应位置为下标是第i行和第j列的位置。初始化的S是一个全0矩阵，只需要将相邻节点位置的0替换为相似度系数即可。

步骤S202，分别以相似矩阵S和邻接矩阵A作为聚合矩阵对文献数据的特征矩阵X进行图卷积操作，得到基于文献数据不同卷积操作的预测值。

基于邻接矩阵进行图卷积操作：

输入特征矩阵X和邻接矩阵A，基于邻接矩阵的2层网络模型的标签概率预测为：

其中，

规范化的邻接矩阵，

并且

I是一个单位矩阵，

表示给图中每个文献节点添加一个自环，可以在更新节点特征时保留一部分节点本身的特征信息。

是一个对角矩阵，除对角线上的元素外，其他元素都为0。

的每一行对角线上的元素等于

中对应行的元素和。Θ⁽¹⁾和Θ⁽²⁾分别是第一层和第二层网络的可学习权重参数，softmax是分类器，用于预测每个文献节点属于不同类别的概率。

基于相似度矩阵进行图卷积操作如下：

输入特征矩阵X和相似度矩阵S，基于相似度矩阵的2层网络模型的标签概率预测为：

其中，S为步骤201中构建的相似度矩阵，

是规范化的相似度矩阵矩阵，

D是一个对角矩阵，D_ii＝∑_jS_ij。

步骤S203，计算标记文献节点的监督损失并添加一个无监督损集成不同卷积操作的预测值。

计算标记文献节点的监督损失，并计算基于邻接矩阵和相似度矩阵的预测值的无监督损失，然后将这两部分损失进行合并作为最终的损失，具体计算公式如下：

其中，L为标记文献节点集合，Y是一个真实标签矩阵，如果标记文献节点i属于第l类，Y_il＝1，否则，Y_il＝0，f是类别数。n是图中文献节点个数(即图数据集的样本个数)，

是基于邻接矩阵的预测值，

是基于相似度矩阵的预测值。

是监督损失(标记文献节点的预测值与真实值的误差)。

是一个无监督损失(基于邻接矩阵和基于相似度矩阵的预测值的误差)，λ是正则化系数，用于平衡监督损失和无监督损失。监督损失用于缩小标记文献节点的预测值和真实值的差异，无监督损失用于缩小同一文献节点不同角度卷积操作的预测差异，这两部分损失的减小均可优化参数更新，以提高模型的预测能力。

步骤S204，训练网络模型，实现半监督文献分类。

设置网络超参数,训练网络模型，通过步骤203中计算得到的损失进行反向传播和随机梯度下降学习网络的权重参数以及正则化系数；对于给定文献数据,用训练好的模型预测未知文献节点的类别，从而实现半监督文献分类。

步骤S205，使用三个基准数据集对算法进行有效性验证。

本发明将所提算法用于科学文献的分类，并与已有算法进行实验对比，以验证算法的有效性。具体是使用Cora、Citeseer和Pumed三个文献引用数据集进行实验。训练集/验证集/测试集使用的是标准的固定分割。在这三个文献引用数据集中，节点表示文献，边表示引用链接。所有实验为每个类别选取20个文献节点作为训练节点，使用500个文献节点进行验证，并使用1000个文献节点进行测试。实验结果如表2所示。

参数设置：参数设置：所提算法的网络层数设置为2，使用Adam优化器进行训练，Cora，Citeseer和Pubmed的初始学习率都设置为0.01，最大训练次数为200，权重衰减为0.0005。为避免过度拟合，使用dropout＝0.5的正则化。同时，如果验证损失连续10个周期没有减少，就提前终止训练。Cora，Citeseer和Pubmed的正则化系数λ，分别设置为0.2，0.01，0.01。

表2本发明方法S-GGN与已有方法分类精度对比

方法	Cora	Citeseer	Pubmed
				MLP	55.1％	46.5％	71.4％
ManiReg	59.5％	60.1％	70.7％
				DeepWalk	67.2％	43.2％	65.3％
GCN	81.5％	70.3％	79.0％
				DGI	82.3％	71.8％	76.8％
S-GGN	84.0％	72.0％	80.0％

从表2可以看出，本发明方法(S-GCN)在这三个数据集上实现了最好的分类效果。实验对比说明本发明提出的基于对称图卷积神经网络的文献分类方法的科学性和精确性。

本发明提出的一种基于对称图卷积神经网络的文献分类方法。首先通过计算所有相邻文献节点的原始特征分布相似性构建了一个相似度矩阵作为聚合矩阵，然后分别以邻接矩阵和相似度矩阵作为聚合矩阵进行图卷积操作，得到基于文献数据的不同视角的预测值，最后通过添加一个无监督损失集成不同视角的预测。所提算法从文献数据的不同视角进行卷积操作，以充分嵌入图形知识。在具体实施中，将所提算法在Cora、Citeseer和Pubmed三个数据集上进行了测试，实验结果表明本发明所提出的基于对称图卷积神经网络的文献分类方法极大的提高了文献分类的准确度。

如图3所示，根据本发明实施例的第二方面，提供一种基于对称图卷积神经网络的文献分类装置，所述装置包括：

生成模块31，用于获取文献引用数据集，利用节点表示文献，利用边表示引用连接，利用节点特征表示文献摘要的关键词，将所述文献引用数据集输入为图结构数据，生成对应的特征矩阵和邻接矩阵，并根据所述特征矩阵和邻接矩阵构建相似度矩阵；

处理模块32，用于分别以所述相似度矩阵和所述邻接矩阵作为聚合矩阵，对所述文献数据的特征矩阵进行图卷积操作，以得到基于所述相似度矩阵的第一预测值和基于所述邻接矩阵的第二预测值；

计算模块33，用于分别计算所述文献数据中标记节点的监督损失和基于所述第一预测值和所述第二预测值的无监督损失，并将所述监督损失和无监督损失进行合并，以确定最终损失，其中，所述监督损失用于表征标记文献节点的基于所述邻接矩阵的第二预测值与真实值之间的误差，所述无监督损失用于所有文献节点的所述第二预测值与第一预测值之间的误差；

训练模块34，用于利用所述最终损失训练和预设训练集进行训练，得到目标图卷积神经网络；

分类模块35，用于使用所述目标图卷积神经网络对文献数据集中的目标数据进行半监督分类。

在一个实施例中，优选地，所述生成模块31用于：

所述第一计算公式包括：

其中，d_ij表示所述节点i和j之间的特征距离，X_i∈R^c是文献节点i的c维特征向量，X_j∈R^c是文献节点j的c维特征向量；

所述第二计算公式包括：

所述第三计算公式包括：

其中，

表示所述相似度矩阵的第一预测值，S表示所述相似度矩阵，

表示规范化的相似度矩阵，

表示基于相似度矩阵的第(t-1)层的输出，

其中，

I表示单位矩阵，

表示规范化的邻接矩阵，

表示基于邻接矩阵的第(t-1)层的输出，

采用以下第八计算公式计算所述标记文献节点的监督损失；

表示基于邻接矩阵的第二预测值，f表示类别数；

其中，n表示文献节点的个数，

表示基于邻接矩阵的第二预测值，

表示基于相似度矩阵的第一预测值；

采用以下第十计算公式计算所述最终损失；

其中，

表示所述监督损失，

表示所述无监督损失，λ表示正则化系数。

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

进一步可以理解的是，本发明中“多个”是指两个或两个以上，其它量词与之类似。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

进一步可以理解的是，术语“第一”、“第二”等用于描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开，并不表示特定的顺序或者重要程度。实际上，“第一”、“第二”等表述完全可以互换使用。例如，在不脱离本发明范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。

进一步可以理解的是，本发明实施例中尽管在附图中以特定的顺序描述操作，但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作，或是要求执行全部所示的操作以得到期望的结果。在特定环境中，多任务和并行处理可能是有利的。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种基于对称图卷积神经网络的文献分类方法，其特征在于，所述方法包括：

获取文献引用数据集，利用节点表示文献，利用边表示引用连接，利用节点特征表示文献摘要的关键词，将所述文献引用数据集输入为图结构数据，生成对应的邻接矩阵和特征矩阵，并根据特征矩阵和邻接矩阵构建相似度矩阵；

分别计算所述文献引用数据中标记文献节点的监督损失和基于所述第一预测值和所述第二预测值的无监督损失，并将所述监督损失和无监督损失进行合并，以确定最终损失，其中，所述监督损失用于表征标记文献节点的基于所述邻接矩阵的第二预测值与真实值之间的误差，所述无监督损失用于所有文献节点的所述第二预测值与第一预测值之间的误差；

2.根据权利要求1所述的方法，其特征在于，获取文献引用数据集，利用节点表示文献，利用边表示引用连接，利用节点特征表示文献摘要的关键词，将所述文献引用数据集输入为图结构数据，生成对应的邻接矩阵和特征矩阵，并根据所述特征矩阵和邻接矩阵构建相似度矩阵，包括：

生成特征矩阵X＝[X₁,X₂,…,X_n]^T和邻接矩阵A，其中，X∈R^n×c，A∈R^n×n表示所有文献之间的引用关系，如果两篇文献之间具有引用关系，则将它们称为图中的相邻文献节点，n表示文献节点的个数，c表示特征维数；

3.根据权利要求2所述的方法，其特征在于，所述第一计算公式包括：

其中，d_ij表示所述相邻文献节点i和j之间的特征距离，X_i∈R^c是文献节点i的c维特征向量，X_j∈R^c是文献节点j的c维特征向量；

所述第二计算公式包括：

所述第三计算公式包括：

4.根据权利要求3所述的方法，其特征在于，采用以下第四计算公式和第五计算公式计算基于所述相似度矩阵的第一预测值：

其中，

表示所述相似度矩阵的第一预测值，S表示所述相似度矩阵，

表示规范化的相似度矩阵，

表示基于相似度矩阵的第(t-1)层的输出，

5.根据权利要求3所述的方法，其特征在于，采用以下第六计算公式和第七计算公式计算基于所述邻接矩阵的第二预测值：

其中，

I表示单位矩阵，

表示规范化的邻接矩阵，

表示基于邻接矩阵的第(t-1)层的输出，

6.根据权利要求1所述的方法，其特征在于，采用以下第八计算公式计算所述标记文献节点的监督损失；

表示基于邻接矩阵的第二预测值，f表示类别数；

其中，n表示文献节点的个数，

表示基于邻接矩阵的第二预测值，

表示基于相似度矩阵的第一预测值；

采用以下第十计算公式计算所述最终损失；

其中，

表示所述监督损失，

表示所述无监督损失，λ表示正则化系数。

7.一种基于对称图卷积神经网络的文献分类装置，其特征在于，所述装置包括：

计算模块，用于分别计算所述文献数据中标记文献节点的监督损失和基于所述第一预测值和所述第二预测值的无监督损失，并将所述监督损失和无监督损失进行合并，以确定最终损失，其中，所述监督损失用于表征标记文献节点的基于所述邻接矩阵的第二预测值与真实值之间的误差，所述无监督损失用于所有文献节点的所述第二预测值与第一预测值之间的误差；

8.根据权利要求7所述的装置，其特征在于，所述生成模块用于：

生成特征矩阵X＝[X₁,X₂,…,X_n]^T和邻接矩阵A，其中，X∈R^n×x，A∈R^n×n表示所有文献之间的引用关系，如果两篇文献之间具有引用关系，则将它们称为图中的相邻文献节点，n表示文献节点个数，c表示特征维数；

所述第一计算公式包括：

其中，d_ij表示所述相邻文献节点i和j之间的特征距离，X_i∈R^c是节点i的c维特征向量，X_j∈R^c是节点j的c维特征向量；

所述第二计算公式包括：

所述第三计算公式包括：

其中，

表示所述相似度矩阵的第一预测值，S表示所述相似度矩阵，

表示规范化的相似度矩阵，

表示基于相似度矩阵的第(t-1)层的输出，

等于输入特征矩阵X，Θ^(t)表示第t层网络的可训练的权重参数，σ表示激活函数；

其中，

I表示单位矩阵，

表示规范化的邻接矩阵，

表示基于邻接矩阵的第(t-1)层的输出，

等于输入特征矩阵X，输入特征矩阵X由所有标记和未标记文献节点特征组成，Θ^(t)表示第t层网络的可训练的权重参数，σ表示激活函数；

采用以下第八计算公式计算所述标记文献节点的监督损失；

表示基于邻接矩阵的第二预测值，f表示类别数；

其中，n表示文献节点的个数，

表示基于邻接矩阵的第二预测值，

表示基于相似度矩阵的第一预测值；

采用以下第十计算公式计算所述最终损失；

其中，

表示所述监督损失，

表示所述无监督损失，λ表示正则化系数。

9.一种基于对称图卷积神经网络的文献分类装置，其特征在于，所述装置包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

分别以所述相似度矩阵和所述邻接矩阵作为聚合矩阵，对所述文献数据的特征矩阵进行图卷积操作，以得到基于所述相似度矩阵的第一预测值和基于所述邻接矩阵的第二预测值；

分别计算所述文献数据中标记节点的监督损失和基于所述第一预测值和所述第二预测值的无监督损失，并将所述监督损失和无监督损失进行合并，以确定最终损失，其中，所述监督损失用于表征标记文献节点的基于所述邻接矩阵的第二预测值与真实值之间的误差，所述无监督损失用于所有文献节点的所述第二预测值与第一预测值之间的误差；

10.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，该指令被处理器执行时实现权利要求1-6中任一项所述方法的步骤。