CN113792144B

CN113792144B - 基于半监督的图卷积神经网络的文本分类方法

Info

Publication number: CN113792144B
Application number: CN202111087880.7A
Authority: CN
Inventors: 曹杰; 申冬琴; 陈蕾; 王煜尧; 郭翔
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2021-09-16
Filing date: 2021-09-16
Publication date: 2024-03-12
Anticipated expiration: 2041-09-16
Also published as: CN113792144A

Abstract

本发明公开了一种基于半监督的图卷积神经网络的文本分类方法，为构建文本与文本之间的语义关系，采用BERT模型将文本进行编码成固定的向量，进而分析了文本与文本之间的相似关系，构建了文档‑文档之间的边关系。文本的特征表示可以依赖于相近的文档特征，利用图卷积神经网络聚合文档节点的邻居节点特征进行特征学习，增强目标文档节点的特征表示。采用GMNN模型，其不仅可以进行促进节点的特征学习还可以进行标签信息传播，有效的解决了标记数据稀疏的问题。

Description

基于半监督的图卷积神经网络的文本分类方法

技术领域

本发明涉及人工智能领域，具体是一种基于半监督的图卷积神经网络的文本分类方法。

背景技术

自然语义文档也包含了内部图结构，例如句法和语义分析树，它们定义了句子中单词之间的句法/语义关系，已有研究者借助图结构试图阐明其中的作用关系，因此，有研究者开始考虑文档中的图结构对文档特征表示的影响，另一面，文档与文档之间也存在相互作用关系，所熟知的具有相同语义的文档具有相似的分布，而非相似的文档具有不同的分布，即可以推测：文本的特征表示可以依赖于相近的文档特征。而文档于文档之间的作用关系，可以转化为图结构表示。同时受限于标记数据稀疏的影响，无法有效的进行监督学习。因此将利用图的可传播的优点，结合图节点的特征表示学习，设计依托于文本与文本之间的交互关系半监督学习文本分类框架。已有研究展开了基于图结构的文本分类，

如TextRank最早探究图结构应用于文本分类的模型，图结构中的节点可以是文档或单词等，而边的关系可以是语义关系或词汇关系等。

在此概念下，Peng等人提出了一种基于图卷积神经网络的模型，将文本分类任务转化为图分类任务，为此，他首先通过滑动窗口在单词序列上滑动，通过在该滑动窗口内单词与单词的共现情形，构建基于单词的文本图结构，使得其能够捕获非连续和长远距离单词的语义特征，另一方面使用图卷积，对不同层次的语义特征进行提取，取得了良好的实验效果。

Yao等人采用图卷积在构建的文本-单词图中，与Peng等人不同的是，将图构建在语料库中，他们不仅依据单词与单词的共现概率构建单词与单词之间的边，还将文本依据该文本是否包含该单词将其嵌入到图中。该方法不仅能够捕获单词与本文档内的语境义，还能学习到其他文档中的语境义，这种单词能够跨文档学习的语境义使得单词具备了丰富的语境义，同时其也无距离限制，能够学习到长远距离中单词的语境义，为此使得其获得了文档较好的特征表示能力，同时也取得了比较好的实验效果。

Peng等人提出一种基于层次分类和基于图胶囊注意力机制的方法，该模型利用了类标签之间的关系。

故现有采用基于图的方法去研究如何构建好的文本表示，大多数是基于单词与文本的图结构关系，具有局限性。

发明内容

本申请针对背景技术中存在的问题，将研究重点聚焦于文本与文本之间的关系，提出了一种基于半监督的图卷积神经网络的文本分类方法。

技术方案：

一种基于半监督的图卷积神经网络的文本分类方法，通过文本分类模型实现文本分类，所述文本分类模型的构建包括以下步骤：

S1、构建句子或者文档的特征编码：将输入的句子或者文档输入到BERT模型中，并采用谷歌开源的训练好的模型参数，对句子进行编码，抽取BERT最后一层输出序列中的第一个向量作为句子或者段落的特征编码向量；

S2、构建文档-文档的关系图：考虑文档与文档之间的关系，基于以下两条规则：

(1)图中的每一个节点表示文档；

(2)依据文档之间的相似度建议文档与文档之间的关系，即如果文档与文档之间的语义相似度超过阈值，则两文档之间建立边的联系，否则，没有边关系；

S3、文档节点的特征表示学习：将构建的句子或者段落的特征编码向量作为文档节点的特征，该特征为该节点的初始化向量，然后通过两层的图卷积操作，聚合其自身特征和邻居节点的特征，最后通过一层全连接层并经过激活函数softmax输出其标签分布；

S4、文档节点的标签类别推断：对于已知真实标签的节点采用其原始标签，对于未知标签的节点通过S3的方式对其进行计算，将通过S3预测输出的标签分布，然后采用基于图的传播的方式，根据邻居节点的标签预测该未知节点的标签。

S1中给定文档DOC＝{w₁,w₂,w₃…w_L},其中w_i代表文档DOC中第i个位置上的单词，L代表文档中单词的个数，采用预训练模型Bert将文档固定成特定维度的向量作为文档的语义特征表示，即:

X＝BERT(DOC)

式中，x∈R^m表示文档DOC的特征向量，其维度为m维。

S2中采用如下公式构建文档与文档之间的关系：

Sim＝consine(x_i,x_j)

式中，Sim表示图中节点x_i和x_j之间的相似度，即两文档之间的语义相似度，α是超参数；e(i,j)表示图中节点i和节点j之间的边关系。

S3中采用A表示图的连接矩阵，然后采用X⁽¹⁾表示节点的特征向量，X⁽²⁾表示带标记数据的标签分布；标签分布预测模型定义为：

将BERT输出的特征向量X⁽⁰⁾作为文档节点的初始特征向量H⁽⁰⁾：

H⁽⁰⁾＝X⁽⁰⁾

然后，通过聚合邻居节点的特征和自身的特征，进而更新上一层的特征：

这里H⁽¹⁾代表经过第一层信息转化矩阵W⁽¹⁾得到的文本特征向量，H⁽²⁾代表经过第二层信息转化矩阵W⁽²⁾得到的文本特征向量，其中I表示单位矩阵且与A的维度一样，/>是矩阵/>的度，σ代表的是激活函数Relu；

最终将文档节点最后一层特征，通过全连接神经网络和激活函数softmax，得到标签分布y：

y＝softmax(W⁽³⁾H⁽²⁾+b⁽³⁾)

其中w⁽³⁾是全连接层的信息转化参数，而b⁽³⁾是全连接层的偏置参数，y是预测出的标签分布。

S4中推断未知标签的节点，采用A表示图的连接矩阵,其中对于已经真实标签节点的标签分布采用one-hot编码，对于未知标签分布的邻居节点，通过S3得到标签分布，采用y⁽⁰⁾表示未知节点的邻居节点的标签分布，并且采用y⁽¹⁾表示经过第一层图卷积模型更新过后的标签分布，y⁽²⁾表示经过第二层图卷积模型更新过后的标签分布；

首先将得到未知节点的邻居节点的标签分布y⁽⁰⁾作为初始化特征，输入到以下模型中：

接着再经过一层的全连接层和激活函数softmax，得到未知节点的标签分布：

y^(l)＝softmax(W⁽⁶⁾H⁽²⁾+b⁽⁶⁾)

其中W⁽⁴⁾，W⁽⁵⁾，W⁽⁶⁾是每一层模型对应的信息转化矩阵，而b⁽⁶⁾代表全连接层的偏置参数，其中I表示单位矩阵且与A的维度一样，/>是矩阵/>的度，σ代表的是激活函数Relu。

本发明的有益效果

(1)为构建文本与文本之间的语义关系，采用BERT模型将文本进行编码成固定的向量，进而分析了文本与文本之间的相似关系，构建了文档-文档之间的边关系。

(2)基于假设：文本的特征表示可以依赖于相近的文档特征，利用图卷积神经网络聚合文档节点的邻居节点特征进行特征学习，增强目标文档节点的特征表示。

(3)为了解决带标签数据稀疏的问题，利用两种GCN模型分别进行节点的特征学习和节点的标签传播，其不仅可以进行促进节点的特征学习还可以进行标签信息传播，有效的解决了标记数据稀疏的问题。

具体实施方式

下面结合实施例对本发明作进一步说明，但本发明的保护范围不限于此：

实验数据集

我们对四个广泛使用的公共数据进行了实验，包括Subj、SST-2、AGnews和CR,对于所有数据集，我们也仅仅是从原始数据集中删除一些低频词，接下来我们将要详细的介绍相关数据集，相关统计信息显示在表1中。

表1 50％划分数据集统计

Subj：情感分类数据集，其任务是确定句子的情绪是否是肯定的或者否定的，它有9,000个训练样本和1,000测试样本，在本实验中，将这训练集与测试机合成，依据类别数目相同，将其划分为5,000的训练集和5,000的测试集。

AGnews：该数据集是关于互联网新闻的，它包含四个类别，娱乐，体育，世界和商业，共有12,000个训练样本和7,600个测试样本，在本实验中，只使用测试集的7,600个样本，将其划分为3,800的训练集和3,800的测试集。

SST-2：该数据集是斯坦福大学公开的情感分析的数据集，与SST-1相似，与之不同的是SST-2是一个情感二分类数据集，将情感分为积极类和消极类，真实实验中，将数据集划分为4,370个训练样本和4,370个测试集样本。

CR：该数据是关于电影评论的一个情感数据集。与SST-2相似的是，该数据集也是一个情感分析数据集，这实验中将会使用1,760个样本用于训练，1,760个样本用于测试。

基准模型

在对比试验中，将本申请提出的方法(TGLN:Time Graph Long node，简称TGLN模型)与同几个很有竞争力的基准模型进行对比，包括：CNN、LSTM、Bi-LSTM、FastText、SWEM、DR-AGG、GCN。这些模型的具体描述如下：

CNN：用于文本分类的经典模型，将n-gram集成到CNN模型中，使用不同尺寸的卷积对文本进行局部特征提取，然后使用一层最大的池化层，最后使用一层全连接层输出标签分布。

LSTM：将文本视作单词序列,并利用LSTM对文本进行建模，将其最后一步的输出作为整个文本的特征表征，此后将文本特征输入到全连接网络中得出标签分布。

Bi-LSTM：虽然LSTM模型在文本分类领域中不常使用，但是双向的LSTM模型常常应用于自然语义处理领域中，其将每一步的前向传播隐藏向量和后向传播隐藏向量进行拼接，并将每一步得出的向量进行平均，然后通过全连接神经网络进行分类。

FastText：是简单高效的文本分类模型，其将单词采用n-grams方式组合，然后直接将组合成的向量输入到全连接神经网络中进行分类。

SWEM：简单单词嵌入模型，采用简单的池化策略对词向量进行过滤，得出文本的特征表示，进而输入全连接分类网络中。

GCN：一种基于图卷积的文本分类方法，在本文实验中，主要利用了两层的图卷积神经网络进行实验。

评价指标

由于数据集中都是均衡数据，为此采用准确率作为平均模型性能的指标，采用T表示预测正确的样本数目，采用F表示预测错误的样本数目，则准确率的公式可以定义为：

实验结果分析

在本节中，我们将所提出的模型与相关的基准模型就准确率指标上进行了对比。第一点，从表2中，我们可以发现我们的模型在四个数据集上正确率性能都比其他的模型要好，同时也发现图卷积模型(GCN)也取得了比较好的实验效果，为此可能是基于图的方法在基于半监督的方法上会优于基于深度的方法，相比较深度的方法，基于图神经网络的方法比较“浅显”，故而参数量比较小，即所需要训练的数据就相比较而言较少，从而基于图的方法与深度的方法相比在带标记较少的文本分类任务上取得了比较好的实验。另一方面TGLN模型与GCN模型相比，除了利用邻居节点特征进行特征学习，还同时利用了标签信息，利用已知节点的标签信息去推断未被标记的节点。进一步的证明了特征学习加图推理的方法的可行性和潜能性。

表2实验对比模型准确率平均指标

第二点，在实验阶段我们对文本相似度勾边所设立的阈值进行了分析，对此我们分别探究了0.5、0.75、0.85、0.9这四个阈值对模型效果的影响，通过表3我们发现随着所设立的阈值越高则边数越少，即文档与文档之间的连接就越稀疏，同时从表4中，我们发现随着设立阈值的慢慢变高，模型的性能指标也会随着升高。此现象一方面表明了通过低相似度的语义所构建的关系，会对节点的原始语义特征造成一定的干扰，从而扰乱分类器的性能。而另一方面通过高相似的语义所构建的节点关系，会对节点的原始语义表征进行增强，从而提高了模型分类的性能。

表3不同阈值中各数据勾边统计

表4训练集占50％条件下不同阈值各数据集准确率统计

第三点，我们也探究了TGLN模型能否适应小数据集的训练，是否能够取得比较不错的效果，因此，如表5所示，我们分别探究了20％，30％，40％，50％的训练量在不同阈值下的各种数据集上实验，首先肯定是，随着训练集的数目增多，测试的效果越来越好。同时也发现即使训练量为20％依然能够取得比较好的实验效果，证明了TGLN模型在半监督学习下的文本分类的潜能性。

表5不同训练集所取得的准确率统计

本文中所描述的具体实施例仅仅是对本发明精神做举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于半监督的图卷积神经网络的文本分类方法，其特征在于通过文本分类模型实现文本分类，所述文本分类模型的构建包括以下步骤：

(1)图中的每一个节点表示文档；

S4、文档节点的标签类别推断：对于已知真实标签的节点采用其原始标签，对于未知标签的节点通过S3的方式对其进行计算，将通过S3预测输出的标签分布，然后采用基于图的传播的方式，根据邻居节点的标签预测未知节点的标签。

2.根据权利要求1所述的方法，其特征在于S1中给定文档DOC＝{w₁,w₂,w₃…w_L},其中w_i代表文档DOC中第i个位置上的单词，L代表文档中单词的个数，采用预训练模型Bert将文档固定成特定维度的向量作为文档的语义特征表示，即:

X＝BERT(DOC)

式中，x∈R^m表示文档DOC的特征向量，其维度为m维。

3.根据权利要求1所述的方法，其特征在于S2中采用如下公式构建文档与文档之间的关系：

Sim＝consine(x_i,x_j)

4.根据权利要求1所述的方法，其特征在于S3中采用A表示图的连接矩阵，然后采用X⁽¹⁾表示节点的特征向量，X⁽²⁾表示带标记数据的标签分布；标签分布预测模型定义为：

H⁽⁰⁾＝X⁽⁰⁾

y＝softmax(W⁽³⁾H⁽²⁾+b⁽³⁾)

5.根据权利要求1所述的方法，其特征在于S4中推断未知标签的节点，采用A表示图的连接矩阵,其中对于已经真实标签节点的标签分布采用one-hot编码，对于未知标签分布的邻居节点，通过S3得到标签分布，采用y⁽⁰⁾表示未知节点的邻居节点的标签分布，并且采用y⁽¹⁾表示经过第一层图卷积模型更新过后的标签分布，y⁽²⁾表示经过第二层图卷积模型更新过后的标签分布；

其中W⁽⁴⁾，W⁽⁵⁾，W⁽⁶⁾是每一层模型对应的信息转化矩阵，H⁽²⁾代表经过第二层信息转化矩阵W⁽²⁾得到的文本特征向量，而b⁽⁶⁾代表全连接层的偏置参数，其中I表示单位矩阵且与A的维度一样，/>是矩阵/>的度，σ代表的是激活函数Relu。