CN111274405A

CN111274405A - 一种基于gcn的文本分类方法

Info

Publication number: CN111274405A
Application number: CN202010120795.5A
Authority: CN
Inventors: 张丽; 郑鑫
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2020-02-26
Filing date: 2020-02-26
Publication date: 2020-06-12
Anticipated expiration: 2040-02-26
Also published as: CN111274405B

Abstract

本发明公开了一种基于GCN的文本分类方法，包括：获取文本分类语料集；其中，语料集包括多个样本，每个样本包含标题和篇章；对语料集进行预处理，将预处理的语料集分为训练集、验证集和测试集；通过spacy对篇章进行处理，提取单词间的图关系；根据图关系，将每个单词嵌入矩阵的低维实值向量空间；根据单词的向量表示，构造双向LSTM，并得到句子表示；基于自注意力机制重构句子表示，输入到GCN神经网络中，训练出语义分类模型；将验证集的文本词向量输入到模型中，记录保存在验证集上效果达到最优时的模型参数；基于验证集得出的最优的模型去测试测试集，得到分类结果。本发明运用LSTM和GCN加上注意机制，最终得到更加准确的类结果。

Description

一种基于GCN的文本分类方法

技术领域

本发明涉及文本分类技术领域，具体涉及一种基于GCN(Graph convolutionalnetworks，图卷积神经网络)的文本分类方法。

背景技术

在过去几年随着科学技术的迅猛发展，特别是互联网和社交网络的快速发展，各种信息充斥在互联网上。而其中CSDN博客更是发展迅速，为互联网技术人员发展和交流提供了一个平台，人们不仅可以通过该平台寻找自己所遇到技术问题的解决方法，也可以在该平台上发布自己的学习心得与体会，以及分享自己遇到问题的解决方案等；供大家交流学习，同时也给自己的成长做个记录。随着该平台的发展，用户量的增长，大家发表文章的文章越来越多，人们可以通过该平台获取大量的资料，但是如何从这些资料中找到规律，发现时下流行的趋势等信息，就需要对这些资料进行合理有效的管理。那么如何对这些文本资料进行有效管理，很常见的一种方式就是分类；所以文本分类方向的研究，越来越被人们关注与重视。

实际的应用中，文本分类可以分为二分类(垃圾邮件分类等)和多分类(文本的情感状态等)；从文本的标注类别上来看，又可以分为单标签和多标签。简单的说，在预定义的分类体系下，根据文本的内容相关性判定文本与类别之间的关联。本发明研究的是多分类问题，找到句子或文章中，最为关键的词，例如“1个月时间整理了2019年上千道Java面试题，近500页文档！”，句子中主要是针对Java这个关键词，所展开的内容，所以将其归为Java分类。

目前的文本分类模型，均有各自存在的问题，比如fastText模型在网络结构中没有考虑词顺序信息的，TextCNN模型在考虑了词顺序信息的情况下，无法建模更长的序列信息等等。

发明内容

针对现有技术中存在的上述缺点，本发明提供一种基于GCN的文本分类方法。

本发明公开了一种基于GCN的文本分类方法，包括：

获取文本分类语料集；其中，所述语料集包括多个样本，每个样本包含标题和篇章；

对所述语料集进行预处理，将预处理的语料集分为训练集、验证集和测试集；

通过spacy对所述篇章进行处理，提取单词间的图关系；

根据所述图关系，将每个单词嵌入矩阵的低维实值向量空间；

根据单词的向量表示，构造双向LSTM，并得到句子表示；

基于自注意力机制重构句子表示，输入到GCN神经网络中，并通过自注意力机制算出句子最后的结果；

将上述计算结果与权值向量相乘，再经过softmax层，得到最终的概率分布；

定义模型的损失函数，在训练集上训练，训练出语义分类模型；

将所述验证集的文本词向量输入到模型中，记录保存在验证集上效果达到最优时的模型参数；

基于验证集得出的最优的模型去测试测试集，得到分类结果。

作为本发明的进一步改进，

所述语料集的预处理为：对所述语料集中各样本的标题和篇章进行分词操作，去除停止词和特殊符号。

作为本发明的进一步改进，

所述语料集的总样本数为N，所述训练集的样本数为0.8N，所述验证集和测试集的样本数均为0.1N。

作为本发明的进一步改进，

将每个单词嵌入具有嵌入矩阵

的低维实值向量空间；

式中，|V|是词汇量，d_e是单词嵌入的维数。

与现有技术相比，本发明的有益效果为：

本发明通过双向LSTM实现了长时间的记忆机制，同时加上注意力机制，直观的给出每个词对结果的贡献，然后利用GCN建立图结构网络，将文本分类的问题看成是节点分类问题；在短文本分类上，因为短文本自身的信息量不够，使图结构网络可以引入，如句子作为节点，利用样本之间的关系等，解决短文本中分类语料的稀疏性问题；本发明运用LSTM和GCN加上注意机制，最终得到更加准确的类结果。

附图说明

图1为本发明一种实施例公开的基于GCN的文本分类方法的流程图；

图2为本发明一种实施例公开的网络结构图；

图3为本发明的文本分类方法与现有方法的试验对比图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图对本发明做进一步的详细描述：

本发明提供一种基于GCN的文本分类方法，该分类方法主要针对句子和文章所属的类别进行判断，如CSDN博客等；该文本分类方法包括：爬取搜集文本分类语料集，对语料集中的文本进行预处理，并将其分为训练集，验证集和测试集；运用spacy提取单词间的图关系，并根据图关系将每个单词嵌入矩阵的低维实值向量空间，构建句子表示；将根据训练语料集的词向量构建双向LSTM，并将获得的句子表示向量，给句子表示向量中不同的词附加不同的注意力，输入到GCN神经网络中，训练出语义分类模型；将验证集文本词向量输入到模型中，从而计算出每个样本的预测概率；并将基于验证集得出的模型在测试集上测试。

本发明基于GCN的文本分类方法的分类原理为：

通过双向LSTM实现了长时间的记忆机制，同时加上注意力机制，直观的给出每个词对结果的贡献，然后利用GCN(GCN是直接在图上进行操作的多层神经网络)建立图结构网络，在图结构网络中将词和文档作为图中的节点，其中文档和词的边是基于词在文档中出现的信息，用词在文档中的词频-逆向文本频率(TF-IDF)作为边的权重，表示一个词在某文本中的重要性；词与词的边基于词的全局词共现信息，而词共现信息使用一个大小固定的窗口在语料库中滑动的统计词共现信息，然后使用点互信息计算两个词边的权重；从而将文本分类的问题看成是节点分类问题；同时，在短文本分类上，因为短文本自身的信息量不够，使图结构网络可以引入，如句子作为节点，利用样本之间的关系等，解决短文本中分类语料的稀疏性问题；本发明运用LSTM和GCN加上注意机制，最终得到更加准确的类结果。

如图1所示，本发明提供一种GCN的文本分类方法，包括：

步骤1、获取文本分类语料集；其中，

具体获取方法为：

通过“爬虫”技术，收集并构建文本分类语料集；述语料集包括N个样本，每个样本包含一个标题和文本篇章。

步骤2、对语料集进行预处理；其中，

具体的预处理方法为：

通过jieba分词等工具，对语料集中各样本的标题和文本篇章进行分词操作，去除停止词和特殊符号等。

步骤3、将步骤2预处理后的语料集，分为训练集、验证集和测试集；其中，

具体的划分方法为：随机选取语料集中0.8N的样本作为训练集，随机选取语料集中0.1N的样本作为验证集，剩余的0.1N的样本作为测试集。训练集用于训练生成神经网络模型，即语义分类模型；验证集用于验证语义分类模型，在验证的过程中保存在验证上达到最优时的模型参数，并将该参数对应的语义分类模型作为最优语义分类模型；测试集(预测集)用于利用最优语义分类模型完成测试，获取测试集中每个样本(样例)的预测概率，对比各自的测试标签，计算本发明模型的分类准确率。

进一步，本发明也可在步骤1之后，先对语料集进行训练集、验证集和测试集的划分，划分后再进行语料集的预处理。

步骤4、通过spacy图关系提取工具对各样本的篇章进行处理，提取单词间的图关系。

步骤5、根据步骤4所得到的单词间图关系，将每个单词嵌入具有嵌入矩阵

的低维实值向量空间；式中，|V|是词汇量，d_e是单词嵌入的维数。

步骤6、根据矩阵中单词的向量表示，构造双向LSTM，该双向LSTM用于捕获有关单词顺序的上下文信息。

步骤7、基于步骤6的双向LSTM，得到句子的表示向量H^C，维度大小为[n,2d_h]，基于自注意力机制重构句子表示，即给H^C中的每个词赋予了不同的权重，也就是施加了不同的注意力。

步骤8、基于步骤7重构的句子表示，输入多层图卷积结构GCN中，将各个向量作为图中的节点，将文本分类问题，转换为图分类问题。

步骤9、基于步骤8所得到的结果，通过自注意力机制算出句子最后的结果；其中，

上述步骤6～9的流程，如图2所示。

步骤10、将上述计算结果与权值向量相乘，再经过softmax层，得到最终的概率分布。

步骤11、定义模型的损失函数，在训练集上训练，训练出语义分类模型。

步骤12、将验证集的文本词向量输入到模型中，记录保存在验证集上效果达到最优时的模型参数。

步骤13、基于验证集得出的最优的模型去测试测试集，得到分类结果。

实施例：

本发明提供一种GCN的文本分类方法，包括：

步骤1、编写python脚本，其中运用Beautiful Soup框架(python的一个HTML或XML的解析库)，从CSDN博客的页面中提取包括标题，文本篇章，发表时间，文章分类(如果有，该分类是作者自己的分类)等数据内容；分布式实现多服务器同时抓取网站数据，加快爬取速度。总之，利用“爬虫”技术，从CSDN博客中主要收集java、python、前端、数据库等分类的数据内容，收集并构建文本分类语料集，该语料集的总样本数为N，其中，每条样本包含标题和一段文本篇章。

步骤2、针对步骤1中的语料集合，进行预处理；预处理为：通过jieba分词组件，加载词典，进行分词操作；去除每个文章题目和文本篇章的停止词(如了，很，着等特定词)、特殊符号。

步骤3、从处理完的语料集合中随机选择0.8N条样本作为模型训练集合，0.1N条样本作为模型验证集合和0.1N条样本作为模型测试集合。

步骤4、运用当前流行的图关系提取工具spacy，对篇章进行再处理，提取单词间的图关系表示。

步骤5、依据单词间的图关系表示，将每个单词嵌入矩阵的低维实值向量空间；

例如一个n词的句子

将每个单词嵌入具有嵌入矩阵

的低维实值向量空间；其中|V|是词汇量，de是单词嵌入的维数。

步骤6、通过单词的向量表示，构造双向LSTM，以捕获有关单词顺序的上下文信息；其中，

在forward层从1时刻到t时刻正向计算，得到并保存每个时刻向前隐含层的输出；在backward层沿t时刻到1时刻反向计算一遍，得到并保存每个时刻向后隐含层的输出，最后根据每个时刻forward层和backward层的相应时刻输出的结果得到最终结果，产生隐藏状态向量

其中

代表来自双向LSTM在时间步t时的隐藏状态向量，d_h是单向LSTM输出的隐藏状态向量的维度。

步骤7、由上步可得篇章或句子的表示为H^C，维度大小为[n,2d_h]，基于自注意力机制重新构建篇章或句子表示，自注意力机制公式如下：

W_s1是个一个权重矩阵，形状为：[d_e,2d_h]。W_s2是一个向量，向量长度为d_e。通过上面的公式最后就可以得到注意力向量

长度为n，并且因为使用了softmax函数，所以向量

的每个元素代表一个概率，所有的元素的和应该为1。在得到

之后，将H^C的每个向量与

中对应的元素相乘后就可以得到最后句子的表示H^A，这个过程中就对H^C中每个词的表示赋予了不同的权重，也就是施加了不同的注意力。

步骤8、基于步骤7重构的句子表示，输入多层图卷积结构GCN中，将各个向量作为图中的节点，将文本分类问题，转换为图分类问题；其中，

在注意力机制输出的顶层实现多层图卷积结构，在构造完给定句子的依赖关系树后，根据句子中的单词获得邻接矩阵A∈R^n×n。因为依赖树是有向的，所以提出GCN的变体，在无向依赖图上的GCN-GD和有向依赖图上的GCN-DT，他们的唯一区别在于有向依赖图上的GCN-DT更加的稀疏。这种设置与父节点受其子节点广泛影响的现象相符。另外，遵循自循环思想，每个单词与自身的邻接矩阵手动设置，设置A的对角线值均为1。在双向LSTM输出的基础上，以多层GCN变体，使节点了解上下文。然后，使用具有归一化参数的图卷积更新每个节点的表示：

GCN：

其中

是从前一个GCN层中得到的第j个token的表示，

表示当前GCN层的结果，并且

A_ij是树中第i个token的度，ReLU则为激活函数，W^l权重矩阵跟b^l偏差是训练参数。

步骤9、根据上述得到的句子表示，通过注意力机制计算出句子的最终表示：

A_i,j＝match-score(H^A,r[:,n]),H^G,r[:,n]

H^L＝concat[H^A·W₀·A^T,H^G·W₁·A]

其中match-score函数我们使用的是余弦相似度公式。在余弦相似度中把向量看成空间中的两条有向线段，都从原点出发，指向不同的方向。利用两个向量之间的夹角的余弦值来衡量两个向量之间的余弦相似度。

在n维度空间中，对于向量B＝(b₁,b₂,…,b_n)，C＝(c₁,c₂,…,c_n)，余弦值为

余弦的取值范围为[1,-1]。两个向量的夹角越小，他们的余弦值越大，则可以说明两个向量越相似，相反的两个向量夹角越大，他们的余弦值越小，则可以说明两个向量相似度低。余弦距离更多的是从方向上区分差异，当一对文本相似度的长度距离很大，但内容相近时，使用词频或词向量作为特征，他们之间的夹角可能很小，因而相似度高。

最终得到注意力矩阵A，W₀和W₁表示根据模型训练得到的参数矩阵，其维度和A一致，将H^A和H^G乘它们所对应的注意力矩阵后得到的向量concat(拼接)起来，最终得到输出H^L。

步骤10、为获得最终预测表示

将其全连接层H^L与权值向量相乘再经过softmax层，得到极性判定空间上产生的概率分布

W_p和b_p分别是学习的权重跟偏差，且维度大小为2n。

步骤11、为在训练集上训练，定义该模型的损失函数为：

其中y_i代表真是类别标签，

代表模型预测结果。通过反向传播算法、随机下降法Adam训练模型。

在验证集上进行验证模型效果，记录保存在验证集上效果达到最优时的模型参数。

步骤12、用上一步中保存的最优的模型去测试测试集上的篇章，最终得到每个测试样本的预测结果，对比测试标签，计算出分类准确率。

步骤13、得到分类结果。

如图3所示，为验证本申请的分类准确率，本发明以新闻类数据集作为数据集，并选取5个类别，每个类别包含20000条数据；基于上述样本分别测量贝叶斯、CNN、LTSM与本发明的分类方法的分类效果，并以Accuracy和Macro-Averaged F1作为评估指标。

通过图3所示的试验结果可知，本发明的Acc与F1指标均明显高于贝叶斯、CNN、LTSM算法，从而证明本申请的分类效果优于现有的贝叶斯、CNN、LTSM算法。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。