CN114048754A

CN114048754A - 一种融合上下文信息图卷积的中文短文本分类方法

Info

Publication number: CN114048754A
Application number: CN202111540398.4A
Authority: CN
Inventors: 胡俊清; 杨志豪; 施敬磊
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2021-12-16
Filing date: 2021-12-16
Publication date: 2022-02-15

Abstract

本发明提供一种融合上下文信息图卷积的中文短文本分类方法，属于文本分类技术领域。通过引入双向长短时记忆网络(BiLSTM),提出了BERT_BGCN短文本分类模型。本发明首先利用BERT对文本信息进行编码作为图节点的特征值；然后通过全局共享的点互信息量(PMI)关系作为节点间的边为每个文档构建一个单独的文本图；接着聚合图卷积网络和BiLSTM的输出形成融合上下文信息的特征矩阵输入到下一层的图卷积网络；最后输出到全连接层得到最终分类结果。本发明提出的文本分类方法可以弥补短文本中存在的特征稀疏问题，提高了中文短文本分类的准确性。

Description

一种融合上下文信息图卷积的中文短文本分类方法

技术领域

本发明涉及文本分类技术领域，具体涉及一种融合上下文信息图卷积的中文短文本分类方法。

背景技术

随着电子设备的普及和电商平台的崛起，海量用户在网上购物，商品评论文本急剧增加，如何对这些文本进行科学有效的分类管理成为热点研究问题之一。评论文本的正确分类可以影响用户的购买行为，同时也对商家和电商平台的营销决策起重要作用。

传统的CNN和RNN模型在处理非欧几里得数据时效果不佳，所以引入图卷积模型解决评论文本分类问题。评论文本一般不超过150个字符属于短文本的行列。由于GCN只聚合直接相邻节点的信息，在短文本中忽略了非常有用的词节点表示和词序中的语义信息，要想获得距离较长的上下文关系只有利用增加图卷积层数来解决。但经研究发现，GCN层数过多会导致极高空间复杂度的出现，使节点表征能力减弱。而且网络层数的增加也会使节点信息过度平滑，不利于文本分类。为了克服文本中上下文相关信息缺失的问题。

发明内容

本发明针对中文短文本特征提取中存在语义特征稀疏和上下文信息匮乏的问题，提供一种融合上下文信息图卷积的中文短文本分类方法，以提高对中文短文本分类的准确率。

本发明采用的技术方案是：一种融合上下文信息图卷积的中文短文本分类方法，包括如下步骤：

1)输入一个未分类的文本数据集，对其进行预处理，得到预处理后的数据集；

2)将预处理后的数据集送入BERT模型得到字向量；

3)计算节点之间的点互信息量PMI，为每个文本单独构建邻接矩阵；

4)将步骤2)得到的字向量输入至BiLSTM模型中，获得特征向量h_Bilstm，h_Bilstm为BiLSTM的输出，富含文本上下文语义信息，同时也将步骤2)得到的字向量和步骤3)构建的邻接矩阵输入至图卷积模型中获得特征向量h_GCN，h_GCN为图卷积的输出，包含文本的结构信息；

5)对h_Bilstm和h_GCN进行特征融合得到融合上下文信息的特征矩阵h_BGCN，h_BGCN再通过图卷积层，最后通过全连接层实现降维；

6)利用分类器对降维后的特征向量进行分类。

具体地，步骤1)所述预处理包含去除重复部分、去非中文部分、删除停用词、去除乱码部分。

具体地，所述的步骤2)包括如下步骤：

2.1)利用已经训练好的BERT模型将步骤1)预处理后的数据集进行以字为单位的分词，得到固定长度的向量，所有固定长度的向量组成向量集；

2.2)将向量集输入token层、segment层、position层得到字向量编码、句子编码和位置编码；

2.3)将字向量编码、句子编码和位置编码聚合输入到BERT的双向transformer中得到字向量序列，也作为图卷积的初始特征矩阵。

具体地，所述的步骤3)包括如下步骤：

根据步骤1)预处理后的数据集中的每个字出现情况和整个语料库中的字共现情况在节点之间建立边。为了合理利用全局字共现信息，最常用的方法是使用一种关联度量即计算节点之间的点互信息量(PMI)：

PMI(x；y)表示节点x和y的关联度。计算步骤1)预处理后的数据集的一条文本中x和y的概率分布一般采用的是滑动窗口的计算公式，即使用一个固定长度的滑动窗口在文本上滑动，统计滑动窗口中字出现的次数，记录滑动窗口总数目，通过节点在滑动窗口中单独出现的次数，以及共现的次数计算他们的概率分布：

其中，#W为滑动窗口的总数目，#W(x)为x出现在滑动窗口的次数，#W(x，y)为共同出现在滑动窗口的次数，P(x)为节点x出现在滑动窗口的概率，P(y)为节点y出现在滑动窗口的概率，P(x,y)为节点x和y共同出现在滑动窗口的概率。PMI大于0则认为两个节点有连接。有连接就可以构建邻接矩阵，具体的邻接矩阵A_x,y定义为：

具体的，所述的步骤5)中将通过BiLSTM和GCN模型得到的特征向量h_Bilstm和h_GCN进行融合：

h_BGCN＝Concat(h_BiLSTM,h_GCN)

具体的，所述的步骤6)利用softmax层对步骤5降维后的特征向量进行概率计算，输出预测概率p＝{p₁,p₂,…p_n},n表示分类的总数，p_i,i＝1,2,…,n。将概率最大p_i的分类确定为该文本的类别。

本发明的有益效果是：使用了BERT模型对文本信息进行字符级编码作为图节点的特征值，得到生成语义信息丰富的动态字向量，使用图卷积可以更好的捕获文本的结构信息和节点间的长距离依赖关系，同时融合BiLSTM模型能解决中文短文本存在上下文语义信息匮乏的问题，得到更深层次的文本特征，提高分类任务的精确性。

附图说明

图1为本发明中的融合上下文信息图卷积的中文短文本分类模型；

图2为模型整体流程图；

图3为图卷积神经网络结构图；

图4为BiLSTM结构图。

具体实施方式

BERT语言模型：BERT模型是由谷歌公司基于bengio等人提出的注意力机制的思想，在Transformer的基础上开发的一种模型。本发明使用经过预训练BERT-Base-Chinese中的chines_L-12_H-768_A-12模型，将未被分类语料中按字切分的文本数据进行编码，输出将得到768维的特征向量作为节点的编码，比如“吃”这个字被表示为[-0.479102544,0.743044812,-0.245571120,…,-0.511284501]的768维向量。

图卷积神经网络模型：图卷积网络是一种能处理图数据进行深度学习的模型，它通过运算将邻居节点的特征聚合到自身节点，多次聚合后捕获到节点与高阶邻域信息的依赖关系。对于一个图G＝(V,E)，V表示为图中节点的集合，E为边的集合。图卷积网络层与层的传播形式如下所示：

其中

代表由邻接矩阵变换的拉普拉斯矩阵，A表示邻接矩阵,D表示度矩阵是由A得到，l表示GCN叠加层数，H^l＋1表示l+1层GCN的输出，当l为0时，H¹＝X₀，X₀∈R^n×d是初始特征矩阵即第一层网络的输入，n为图中节点数，d代表每个节点特征的嵌入维度，m表示权重参数矩阵设置的维度，A∈R^n×n为邻接矩阵表示节点之间的关系，W^l∈R^d×m为第l层的权重参数矩阵。σ(·)为非线性激活函数，例如ReLU。

BiLSTM模型：BiLSTM是由前和由后分别训练LSTM，然后将两个LSTM的结果concat作为模型的输出。该模型能够同时保留“过去”和“未来”的文本信息，有效避免了LSTM模型在提取文本特征的过程中，只保留“过去”信息的弊端，增加了上下文特征的语义信息。

下面结合附图和具体实施例，对本发明作进一步描述。

实施例1：如图1所示，一种融合上下文信息图卷积的中文短文本分类方法，包括如下步骤：

2)将预处理后的数据集送入BERT模型得到字向量；

6)利用分类器对降维后的特征向量进行分类。

进一步地，步骤1)所述预处理主要包含去除重复部分、去非中文部分、删除停用词、去除乱码部分。

进一步地，所述的步骤2)包括如下步骤：

进一步地，所述的步骤3)包括如下步骤：

h_BGCN＝Concat(h_BiLSTM,h_GCN)

实验环境和配置：

本仿真使用python3.7的运行环境，实验基于keras2.2.4和Tensorflow1.14.0深度学习框架构建，实验操作环境为Inter(R)Core(TM)i7-8700k，内存为8GB。

实验数据：

本发明的仿真使用了三个二分类数据集分别是谭松波酒店评论数据集、外卖评论数据集、京东网购评论数据集。其中谭松波酒店评论数据集来源于网络公开数据集包括投宿者对酒店服务的正反两面评论，整理的得到6000条样本数据，正样本3000条，负样本3000条，样本平均长度是150个字符。外卖评论数据集内容主要是包含了点餐用户对于食物味道的好坏，店家服务质量等方面的评价，目前有6000条数据，正样本3107条，负样本2893条，样本平均长度为38个字符。京东网购数据集包括买家对商品及卖家服务的正反两面评论，总共有4000条，其中正样本2000条，负样本2000条，样本评论长度为60个字符。

为验证融合上下文信息图卷积模型的有效性，在三个数据集上与其他模型LSTM、BiLSTM、Self-attention、BiGRU-Capsnet、GCN在准确率上做比较，实验结果如表1所示。

表1

对比结果如表1所示，在三个中文评论数据集上的实验结果证实了融合上下文信息图卷积模型的性能优于其他基线模型。本模型相较于普通GCN有一定提升。普通GCN在三个数据集上的精确度除了LSTM比其他几个基模型都低，分别为92.32％，82.51％，91.12％，这是因为GCN在情感分类中不能充分利用上下文依赖关系。在三个数据集上，与原始GCN相比引入BiLSTM的BERT_BGCN模型分别将精确度提高了1.32％，5.94％，3.04％，虽然两个模型的初始特征表示相同，但是本文模型利用BiLSTM进行特征提取具有很大的优势，说明模型引入BiLSTM确实丰富了GCN上下文语义相关性，提取出更深层次的特征提高分类性能。

以上结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种融合上下文信息图卷积的中文短文本分类方法，其特征在于：包括如下步骤：

2)将预处理后的数据集送入BERT模型得到字向量；

5)对h_Bilstm和h_aCN进行特征融合得到融合上下文信息的特征矩阵h_BGCN，h_BGCN再通过图卷积层，最后通过全连接层实现降维；

6)利用分类器对降维后的特征向量进行分类。

2.根据权利要求1所述的一种融合上下文信息图卷积的中文短文本分类方法，其特征在于：步骤1)所述预处理包含去重、去非中文部分、删除停用词、去除乱码。

3.根据权利要求1所述的一种融合上下文信息图卷积的中文短文本分类方法，其特征在于：步骤2)包括如下步骤：

4.根据权利要求1所述的一种融合上下文信息图卷积的中文短文本分类方法，其特征在于：步骤3)具体为：

根据步骤1)预处理后的数据集中的每个字出现情况和整个语料库中的字共现情况在节点之间建立边，使用一种关联度量即计算节点之间的点互信息量PMI：

PMI(x；y)表示节点x和y的关联度，计算步骤1)预处理后的数据集的一条文本中x和y的概率分布采用的是滑动窗口的计算公式，即使用一个固定长度的滑动窗口在文本上滑动，统计滑动窗口中字出现的次数，记录滑动窗口总数目，通过节点在滑动窗口中单独出现的次数，以及共现的次数计算他们的概率分布：

其中，#W为滑动窗口的总数目，#W(x)为x出现在滑动窗口的次数，#W(x，y)为共同出现在滑动窗口的次数，P(x)为节点x出现在滑动窗口的概率，P(y)为节点y出现在滑动窗口的概率，P(x，y)为节点x和y共同出现在滑动窗口的概率，PMI大于0则认为两个节点有连接，有连接就构建邻接矩阵，具体的邻接矩阵A_x，y定义为：

5.根据权利要求1所述的一种融合上下文信息图卷积的中文短文本分类方法，其特征在于：步骤5)中将通过BiLSTM和GCN模型得到的特征向量h_Bilstm和h_GCN进行融合：

h_BGCN＝Concat(h_BiLSTM，h_GCN)。

6.根据权利要求1所述的一种融合上下文信息图卷积的中文短文本分类方法，其特征在于：步骤6)利用softmax层对步骤5)降维后的特征向量进行概率计算，输出预测概率p＝{p₁，p₂，...p_n}，n表示分类的总数，p_i，i＝1，2，...，n，将概率最大p_i的分类确定为该文本的类别。