CN112434720B

CN112434720B - 一种基于图注意力网络的中文短文本分类方法

Info

Publication number: CN112434720B
Application number: CN202011141057.5A
Authority: CN
Inventors: 黄斐然; 贝元琛
Original assignee: Jinan University
Current assignee: Jinan University
Priority date: 2020-10-22
Filing date: 2020-10-22
Publication date: 2023-08-29
Anticipated expiration: 2040-10-22
Also published as: CN112434720A

Abstract

本发明公开了一种基于图注意力网络的中文短文本分类方法，包括以下步骤：对文本数据进行预处理，得到文本对应的词列表集合；文本特征提取：对本文对应的词列表集合，采用特征嵌入工具进行词嵌入处理，得到对应的词向量；采用图结构进行建图，将文本和文本中的词作为图节点，建立异构图；建立图注意力网络文本分类模型；采用网络开源的带类别标注的中文短文本数据集作为训练语科数据集，采用异构图训练图注意力网络文本分类模型；输出文本所属类别：将节点特征通过softmax分类层得到最终分类的类别；本发明在短文本信息量不足的条件下能够较充分的提取文本特征，并重点关注到对文本分类存在较大价值的信息，有效地提高了分类的准确率。

Description

一种基于图注意力网络的中文短文本分类方法

技术领域

本发明涉及计算机自然语言处理的研究领域，特别涉及一种基于图注意力网络的中文短文本分类方法。

背景技术

近年来，计算机技术、互联网及其附属产业飞速发展，网络上每天都会产生难以计数的以文本为主的数据，呈现大数据特征，如何对海量杂乱文本进行快速分类及分析是亟待解决的难题。文本分类是自然语言处理任务中的一项重要工作，对文本资源进行整理和归类，同时其也是解决文本信息过载问题的关键环节，在数字化图书馆、信息检索等领域应用广泛。运用正确的文本分类技术，从大量文本数据中提取出蕴含的有效语义信息，进而挖掘分析出作者的真实情感及所表达的内容特征，具有极大的运用价值，对提高文本的分类甄别和筛选等工作的效率有着重要意义。精准地进行文本分类已成为当前工业界和学术界的迫切要求，使得文本分类成为自然语言处理领域的一个热点研究方向。

现有技术中，没有重点关注到对分类存在较大价值的特征而导致分类存在较多的冗余特征的问题，当今中文短文本分类方法存在局限性

作为文本分类的一项重要工作，中文短文本分类主要对较短的中文文本进行自动分类，由于如今人们越来越习惯于在网络上对自己感兴趣的事物发表包含个人观点的评论和信息，中文短文本经常出现在社交平台和电商网站等网络平台中，一般不超过500字，例如微博内容，用户商品评论等。对于这些蕴含个人情感和观点的文本进行分类对于舆情监控、电商营销、情感分析等方面都具有重要意义。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，提供一种基于图注意力网络的中文短文本分类方法，本发明对中文短文本的分类采用建图的方法解决了短文本信息量不足的问题，并采用图注意力机制解决了现有分类方法中没有重点关注到对分类存在较大价值的特征而导致分类存在较多的冗余特征的问题，从而克服了当今中文短文本分类方法的局限性。

本发明的目的通过以下的技术方案实现：

一种基于图注意力网络的中文短文本分类方法，其特征在于，包括以下步骤：

获取文本数据，对文本数据进行预处理，得到文本对应的词列表集合；所述预处理包括噪声信息去除、分词处理和停用词处理；

文本特征提取；对本文对应的词列表集合，采用特征嵌入工具进行词嵌入处理，得到对应的词向量；

采用图结构进行建图，将文本和文本中的词作为图节点，建立异构图；

建立图注意力网络文本分类模型；采用网络开源的带类别标注的中文短文本数据集作为训练语科数据集，采用异构图训练图注意力网络文本分类模型；

输出文本所属类别；待分类的文本数据经过图注意力网络文本分类模型后，得到节点特征，将节点特征通过softmax分类层得到最终的中文短文本分类的类别。

进一步地，所述对文本数据进行预处理，具体如下：

噪声信息去除：通过正则表达式对中文短文本数据进行预处理，将噪声信息过滤；

分词处理：对噪声信息去除后的中文短文本数据，采用分词工具进行分词，将文本序列转换为分词后对应的词列表集合；

停用词处理：对分词后对应的词列表集合，采用停用词表进行停用词处理，得到预处理后的词列表集合。

进一步地，所述文本特征提取采用word2vc词特征嵌入工具训练得到文本对应词列表的初始词嵌入向量，然后在每个词向量中加上表示词位置的位置向量得到融合了词位置信息的词嵌入向量。

进一步地，所述采用图结构进行建图，将文本和文本中的词作为图节点，建立异构图，具体如下：

将文本和词均作为节点，采用确定边权的方式连边建立异构图，如下所示：

其中，TF-IDF_i,j，词节点ci与文本节点tj之间，用于确定词节点与文本节点之间的边权；PMI_i,j，词节点ci与词节点cj之间，用于衡量词节点和词节点之间的边权；CosineSimilarity_i,j，文本节点ti和文本节点tj之间，用于衡量文本节点和文本节点之间的边权；

进一步地，所述计算具体为：

其中，对于某词与文本的TF-IDF值计算如下：

词频t为该词在文本中出现的次数，X为文本的总词数，逆文档频率为文本总数，为包含该词的文本数，TF-IDF＝TF×IDF，即词频乘以逆文档频率；

点互信息计算如下：

其中，N(i,j)为同时包含词节点ci和词节点cj的滑动窗口数，N(i)为包含词节点i的滑动窗口数，N为滑动窗口总数；

余弦相似度Cosine Similarity，对于文本矩阵A和文件矩阵B的余弦相似度计算如下：

其中，n为整个语料中词的数量，A和B分别表示两文本中各词出现次数的维向量，|A|和|B|分别表示两向量的模，A_i表示文本A中词i出现的次数，B_i表示文本B中词i出现的次数；

进一步地，所述建立图注意力网络文本分类模型，具体为：

输入图注意力网络N个图节点的特征矩阵，h＝{h₁,h₂,...,h_N}，其中，h_i∈R^F， F为每个节点的特征数；

进入两层的图注意力网络中，对节点训练权值矩阵W∈R^F′×F，用于衡量输入特征与输出特征之间的关系；

每层图注意力层采用多头图注意力机制，节点之间的注意力互相关系数其中P是一个单层前馈神经网络，由权值向量γ∈R^2F′确定，采用LeakyRelu激活函数进行非线性激活，采用softmax函数对所有节点的相邻节点进行正则化，即：

则有，每层的注意力机制为：

其中，T表示进行矩阵转置，||表示进行拼接操作；

在输出层采用多头注意力机制得到节点的输出特征，计算如下：

其中，K表示注意力机制的头数，N_i表示词节点i的邻接节点集合，表示第m头注意力机制中词i与词j的注意力值，W^m表示第m头注意力机制的权重矩阵，h_j表示词节点j的特征向量。

进一步地，所述采用网络开源的带类别标注的中文短文本数据集作为训练语科数据集，采用异构图训练图注意力网络文本分类模型，具体为：对建立的图注意力网络文本分类模型，采用网络开源的带类别标准的中文短文本语料数据集按照设定的比例划分为训练集、验证集和测试集；采用训练集对初步建立的图注意力网络文本分类模型进行训练，根据验证集调整模型相应的超参数，并采用测试集测试不同超参数的效果，再筛选出最佳效果的超参数，从而得到最终的图注意力网络中文短文本分类模型。

本发明与现有技术相比，具有如下优点和有益效果：

本发明提出了一种基于图注意力网络的中文短文本分类方法，在短文本信息量不足的条件下能够较充分的提取文本特征，并重点关注到对文本分类存在较大价值的信息，有效地提高了分类的准确率。

附图说明

图1是本发明所述一种基于图注意力网络的中文短文本分类方法的流程图；

图2为本发明所述实施例中文本词向量特征嵌入的训练过程示意图；

图3为本发明所述实施例中中文短文本分类模型的结构示意图；

图4为本发明所述实施例中图注意力层的结构示意图；

图5为本发明所述实施例中多头图注意力机制的工作示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例

如图1所示，本发明的一种基于图注意力网络的中文短文本分类方法的主要步骤流程为：文本数据预处理、文本特征提取、将文本和词作为节点建立异构图、输入图注意力网络分类模型进行类别分类，输出文本类别。

下面对各步骤进行详细说明：

第一步、文本数据预处理

文本数据的预处理过程主要包括噪声信息去除、分词处理和停用词处理。

S1.1噪声信息去除

对于需要进行分类的社交平台、电商平台等得到的中文短文本，文本数据中极有可能会含有用户昵称、URL、乱码字符等与分类无关的噪声信息，采用正则表达式对文本进行预处理将这些噪声信息过滤掉。

S1.2分词处理

对经过噪声信息去除后的中文短文本数据，接下来采用jieba分词工具实现对文本的分词，将文本序列转换为分词后对应的词列表。

S1.3停用词处理

对于中文分词后得到的词列表集合，其中有些词语对于分类是没有实际意义的，因此在分词处理后采用哈工大停用词表进行停用词处理，优化分词后的结果，缩小词列表集合，提高模型的工作效率。

第二步、文本特征提取

对于步骤S1得到的词集合，采用word2vec工具包进行词嵌入处理，得到对应的词向量，其工作原理是：采用神经网络特征嵌入的方式训练文本对应的词，映射每个词到一个向量来表示词对词之间的关系，工作原理示意图见附图2。

第三步、将文本和词作为节点建立异构图

为采用图结构建立分类模型，首先对文本和文本中的词建立异构图，具体构造方式为：将文本和词均作为节点，采用如下确定边权的方式连边建立异构图。

如下所示：

其中，TF-IDF_i,j，词节点ci与文本节点tj之间，用于确定词节点与文本节点之间的边权；PMI_i,j，词节点ci与词节点cj之间，用于衡量词节点和词节点之间的边权；CosineSimilarity_i,j，文本节点ti和文本节点tj之间，用于衡量文本节点和文本节点之间的边权。

TF-IDF(term frequency–inverse document frequency),是评估某词对于文本的重要程度的一种加权技术，用以确定词节点与文本节点之间的边权，对于某词与一文本的TF-IDF值的计算方式如下：

点互信息PMI(Pointwise Mutual Information)，用以衡量词节点和词节点之间的边权，采用固定大小的滑动窗口来确定，其计算方式如下：

余弦相似度Cosine Similarity，评估文本之间的相似程度，用以衡量文本节点之间的边权，对于文本矩阵A和文件矩阵B的余弦相似度计算如下：

第四步、建立图注意力网络文本分类模型

采用网络开源的带类别标注的新浪微博语料和电商平台评论语料作为训练语料数据集，采用上述建图方式建立异构图，训练两层的图注意力网络模型进行中文短文本分类，模型结构示意图见附图3。每层网络的示意图见附图4，工作原理描述如下：

S4.1输入图注意力网络N个图节点的特征矩阵，h＝{h₁,h₂,...,h_N}，其中， h_i∈R^F，F为每个节点的特征数；

S4.2进入两层的图注意力网络中，对节点训练权值矩阵W∈R^F′×F，用于衡量输入特征与输出特征之间的关系；

则有，每层的注意力机制为：

其中，T表示进行矩阵转置，||表示进行拼接操作；

S4.3在输出层采用多头注意力机制得到节点的输出特征，其工作原理示意图见附图5，运算公式为：

第五步、输出文本类别

将经过两层图注意力层后得到的节点特征通过softmax分类层得到最终的中文短文本分类的类别。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于图注意力网络的中文短文本分类方法，其特征在于，包括以下步骤：

采用图结构进行建图，将文本和文本中的词作为图节点，建立异构图；具体如下：

其中，TF-IDF_i,j配置在词节点ci与文本节点tj之间，用于确定词节点与文本节点之间的边权；PMI_i,j配置在词节点ci与词节点cj之间，用于衡量词节点和词节点之间的边权；Cosine Similarity_i,j配置在文本节点ti和文本节点tj之间，用于衡量文本节点和文本节点之间的边权；

所述建立图注意力网络文本分类模型，具体为：

输入图注意力网络N个图节点的特征矩阵，h＝{h₁,h₂,...,h_N}，其中，h_i∈R^F，F为每个节点的特征数；

则有，每层的注意力机制为：

其中，Τ表示进行矩阵转置，||表示进行拼接操作；

其中，K表示注意力机制的头数，N_i表示词节点i的邻接节点集合，表示第m头注意力机制中词i与词j的注意力值，W^m表示第m头注意力机制的权重矩阵，h_j表示词节点j的特征向量；

2.根据权利要求1所述的一种基于图注意力网络的中文短文本分类方法，其特征在于，所述对文本数据进行预处理，具体如下：

3.根据权利要求1所述的一种基于图注意力网络的中文短文本分类方法，其特征在于，所述文本特征提取采用word2vc词特征嵌入工具训练得到文本对应词列表的初始词嵌入向量，然后在每个词向量中加上表示词位置的位置向量得到融合了词位置信息的词嵌入向量。

4.根据权利要求1所述的一种基于图注意力网络的中文短文本分类方法，其特征在于，计算具体为：

其中，对于某词与文本的TF-IDF值计算如下：

点互信息计算如下：

其中，n为整个语料中词的数量，A和B分别表示两文本中各词出现次数的n维向量，|A|和|B|分别表示两向量的模，A_i表示文本A中词i出现的次数，B_i表示文本B中词i出现的次数。

5.根据权利要求1所述的一种基于图注意力网络的中文短文本分类方法，其特征在于，所述采用网络开源的带类别标注的中文短文本数据集作为训练语科数据集，采用异构图训练图注意力网络文本分类模型，具体为：对建立的图注意力网络文本分类模型，采用网络开源的带类别标准的中文短文本语料数据集按照设定的比例划分为训练集、验证集和测试集；采用训练集对初步建立的图注意力网络文本分类模型进行训练，根据验证集调整模型相应的超参数，并采用测试集测试不同超参数的效果，再筛选出最佳效果的超参数，从而得到最终的图注意力网络中文短文本分类模型。