CN114357167A

CN114357167A - 基于Bi-LSTM-GCN的多标签文本分类方法和系统

Info

Publication number: CN114357167A
Application number: CN202111668305.6A
Authority: CN
Inventors: 余本功; 宋宇婷; 杨善林; 张强; 周开乐; 张书文; 谢星雨; 罗贺; 丁帅
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2021-12-30
Filing date: 2021-12-30
Publication date: 2022-04-15
Anticipated expiration: 2041-12-30
Also published as: CN114357167B

Abstract

本发明提供一种基于Bi‑LSTM‑GCN的多标签文本分类方法、系统、存储介质和电子设备，涉及文本分类领域。本发明实施例分别利用Bi‑LSTM提取文本特征，综合考虑了不同粒度的信息；利用GCN提取标签隐层关系，并结合注意力的思想，捕获句子中对分类效果提高更有效的重要词汇；融合含有全局特征的句级特征用于标签预测；最终获得更加全面的特征信息从而提高多标签分类效果。

Description

基于Bi-LSTM-GCN的多标签文本分类方法和系统

技术领域

本发明涉及文本分类领域，具体涉及一种基于Bi-LSTM-GCN的多标签文本分类方法、系统、存储介质和电子设备。

背景技术

随着互联网技术的飞速发展以及网民的增多，各大网站、软件上出现了海量的数据，而这些数据大部分都是文本，如何从这些隐藏丰富信息的文本数据中获取潜在需求与有用内容，是当前一个严峻的挑战。因此针对此问题而提出的文本分类，其重要性日益提高。

传统的文本分类一般是针对单标签问题，每个数据只有一个标签，而且各个标签都是孤立的；但是在现实社会中出现的问题往往更加复杂，一个样本数据往往具有多样化的意义，仅仅靠一个标签并不能准确的表示出来。而多标签文本分类作为文本分类的重要一支，可以为每个样本数据分配最相关的两个或多个标签，更加全面的表示了数据的意义，可以更好的解决文本分类实用性的问题，例如在进行论文所属领域分类中，一篇论文可以既属于“管理”领域又属于“计算机”领域，同时还可能属于“教育”领域；在对舆论的分析中，人们的情感往往是复杂的，可能既有“愤怒”又含有“委屈”等多种不同情感，研究可以帮助引导舆论的正确走向。当前被广泛应用的神经网络如CNN、LSTM、GRU等深度学习算法不仅在图像分类，命名实体识别等领域应用广泛，而且在多标签分类中取得了不错的效果。

但是，现有的多标签分类方案未完全利用标签信息，分类效果有待进一步提高。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种基于Bi-LSTM-GCN的多标签文本分类方法、系统、存储介质和电子设备，解决了未完全利用标签信息的技术问题。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

一种基于Bi-LSTM-GCN的多标签文本分类方法，包括Bi-LSTM模型和GCN模型，包括：

获取并预处理多标签文本和对应的标签类别集合；

将预处理后的多标签文本输入Bi-LSTM模型，获取词级特征和句级特征；

根据预处理后的标签类别集合，获取标签语义表示集合；以及获取各个标签类别两两之间的共现概率，确定共现矩阵；

将所述标签语义表示集合和共现矩阵输入GCN模型中，建立关于标签的无向图，获取各个标签类别之间的隐层关系信息；

根据所述词级特征和隐层关系信息，获取赋权后的词级特征；融合所述句级特征和赋权后的词级特征，获取所述多标签文本的预测分类结果。

优选的，所述预处理过程包括词嵌入处理。

优选的，所述获取标签语义表示集合，包括：

根据预处理后的标签类别集合，获取各个标签类别对应的单词数量；

向量化各个标签类别对应的所有单词和所述多标签文本至同一维度；

平均化向量化后的各个单词，获取单个标签类别的语义表示；

根据所述各个单个标签类别的语义表示，获取所述标签语义表示集合。

优选的，所述获取各个标签类别两两之间的共现概率，确定邻接矩阵，包括：

根据所述预处理后的标签类别集合中各个标签类别的出现概率，获取各个标签类别两两之间的共现概率；

根据各个所述共现概率，获取各个标签类别两两之间的共现关系；

根据各个所述共现关系，获取共现矩阵；

所述建立关于标签的无向图，包括：

采用预处理后的标签类别集合作为所述无向图的节点集合，采用所述标签语义表示集合作为所述无向图的对应节点的语义特征，采用邻接矩阵作为所述无向图的邻接矩阵。

优选的，所述获取各个标签类别之间的隐层关系信息，包括：

其中，A表示所述邻接矩阵，I表示单位矩阵，

表示无向图G的度矩阵，σ(·)是激活函数，W为权重参数矩阵，H^(l)H^(l+1)分别表示第l和l+1层的特征，

表示最后一层的特征，即隐层关系信息。

优选的，所述根据所述词级特征和隐层关系信息，参考注意力机制获取赋权后的词级特征，包括：

Y＝softmax(H·X^T)

其中，H表示隐层关系信息；X^T表示各个词级特征的集合X的转置矩阵；Y表示权重矩阵；

表示各个词级特征的得分集合；

所述融合所述句级特征和赋权后的词级特征，获取所述多标签文本的预测分类结果，包括：

S＝fc(h_n)

其中，

fc表示Function函数；O表示融合信息；h_n表示所述句级特征；

将所述融合信息O通过sigmoid函数返回不同的概率值，从而进行所述多标签文本的分类预测。

优选的，采用二元交叉熵函数作为损失函数。

一种基于Bi-LSTM-GCN的多标签文本分类系统，包括Bi-LSTM模型和GCN模型，包括：

预处理模块，用于获取并预处理多标签文本和对应的标签类别集合；

第一提取模块，用于将预处理后的多标签文本输入Bi-LSTM模型，获取词级特征和句级特征；

确定模块，用于根据预处理后的标签类别集合，获取标签语义表示集合；以及获取各个标签类别两两之间的共现概率，确定共现矩阵；

第二提取模块，用于将所述标签语义表示集合和共现矩阵输入GCN模型中，建立关于标签的无向图，获取各个标签类别之间的隐层关系信息；

预测模块，用于根据所述词级特征和隐层关系信息，获取赋权后的词级特征；融合所述句级特征和赋权后的词级特征，获取所述多标签文本的预测分类结果。

一种存储介质，其存储有用于基于Bi-LSTM-GCN的多标签文本分类的计算机程序，其中，所述计算机程序使得计算机执行如上所述的多标签文本分类方法。

一种电子设备，包括：

一个或多个处理器；

存储器；以及

一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置成由所述一个或多个处理器执行，所述程序包括用于执行如上所述的多标签文本分类方法。

(三)有益效果

本发明提供了一种基于Bi-LSTM-GCN的多标签文本分类方法、系统、存储介质和电子设备。与现有技术相比，具备以下有益效果：

本发明分别利用Bi-LSTM提取文本特征，综合考虑了不同粒度的信息；利用GCN提取标签隐层关系，并结合注意力的思想，捕获句子中对分类效果提高更有效的重要词汇；融合含有全局特征的句级特征用于标签预测；最终获得更加全面的特征信息从而提高多标签分类效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于Bi-LSTM-GCN的多标签文本分类方法的流程示意图；

图2为本发明实施例提供的一种基于Bi-LSTM-GCN的多标签文本分类系统的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施例通过提供一种基于Bi-LSTM-GCN的多标签文本分类方法、系统、存储介质和电子设备，解决了未完全利用标签信息的技术问题。

本申请实施例中的技术方案为解决上述技术问题，总体思路如下：

本发明实施例分别利用Bi-LSTM提取文本特征，综合考虑了不同粒度的信息；利用GCN提取标签隐层关系，并结合注意力的思想，捕获句子中对分类效果提高更有效的重要词汇；融合含有全局特征的句级特征用于标签预测；最终获得更加全面的特征信息从而提高多标签分类效果。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

实施例：

第一方面，如图1所示，本发明实施例提供了一种基于Bi-LSTM-GCN的多标签文本分类方法，包括Bi-LSTM模型和GCN模型，包括：

S1、获取并预处理多标签文本和对应的标签类别集合；

S2、将预处理后的多标签文本输入Bi-LSTM模型，获取词级特征和句级特征；

S3、根据预处理后的标签类别集合，获取标签语义表示集合；以及获取各个标签类别两两之间的共现概率，确定共现矩阵；

S4、将所述标签语义表示集合和共现矩阵输入GCN模型中，建立关于标签的无向图，获取各个标签类别之间的隐层关系信息；

S5、根据所述词级特征和隐层关系信息，获取赋权后的词级特征；融合所述句级特征和赋权后的词级特征，获取所述多标签文本的预测分类结果。

下面将结合具体内容详细介绍上述技术方案的各个步骤：

首先需要说明的是，本发明实施例中的Bi-LSTM模型的全称为Bi-directionalLong Short-Term Memory，即双向长短期神经网络；GCN模型的全称为GraphConvolutional Network，即图卷积神经网络。

S1、获取并预处理多标签文本和对应的标签类别集合。

所述预处理过程包括词嵌入处理。

预处理后的多标签文本表示为s_i＝{w₁,w₂,w₃,……,w_n}，其中

表示文本中第i个单词；

预处理后的标签类别集合表示为V＝{l₁,l₂,l₃,……l_k}，其中l_i表示为第i个标签。

S2、将预处理后的多标签文本输入Bi-LSTM模型，获取词级特征和句级特征。

首先补充说明一下，LSTM利用输入门，遗忘门，输出门来捕获远距离的文本特征，并改进了RNN中梯度消失的问题。而Bi-LSTM模型由前向和后向LSTM组成，不仅考虑了由前到后的上文信息还结合了由后到前的下文信息。

在本发明实施例中，正如上述提及的给定多标签文本s_i＝{w₁,w₂,w₃,……,w_n}，

向量化后分别通过前向和后向LSTM得到特征表示：

其中，

分别表示由前向后的第i和i-1状态下单词的隐状态，由后向前的第i和i-1状态下单词的隐状态。

将前向和后向结果拼接，得到的h_i为每个单词在t时刻的隐藏状态：

X＝{h₁,h₂,h₃,……h_n}

取

作为句子中每个单词的词向量，及所述词级特征，取h_n作为所述多标签文本的句向量，及所述句级特征。

S3、根据预处理后的标签类别集合，获取标签语义表示集合；以及获取各个标签类别两两之间的共现概率，确定共现矩阵。

所述获取标签语义表示集合，包括：

根据预处理后的标签类别集合，获取各个标签类别对应的单词数量；向量化各个标签类别对应的所有单词和所述多标签文本至同一维度；平均化向量化后的各个单词，获取单个标签类别的语义表示；根据所述各个单个标签类别的语义表示，获取所述标签语义表示集合。

由上述可知，所述标签类别集合V＝{l₁,l₂,l₃,……l_k}包含了所有k个种类的标签，由于每个标签的单词数量不固定，为了得到l_i标签类别的表示向量，先将该标签类别含有的所有单词向量化和所述多标签文本的单词同一维度。假设l_i含有单词{d₁,d₂,d₃,……d_p}，其中d_i∈R^d,之后在进行平均化，使得每个种类的标签也映射在同一个向量空间内。

L＝{e₁,e₂,e₃,……e_k}

其中

表示标签类别i的语义表示；L表示所有标签语义表示的集合，即所述标签语义表示集合，作为后续GCN模型的输入之一。

所述获取各个标签类别两两之间的共现概率，确定邻接矩阵，包括：

S10、根据所述预处理后的标签类别集合中各个标签类别的出现概率，获取各个标签类别两两之间的共现概率；

其中，P_ij表示类别i与类别j的共现概率，P_i表示类别i出现的概率，P_j表示类别j出现的概率。

S20、根据各个所述共现概率，获取各个标签类别两两之间的共现关系。

S30、根据各个所述共现关系A_ij，获取共现矩阵A，那么显然A∈R^k*k。

S4、将所述标签语义表示集合和共现矩阵输入GCN模型中，建立关于标签的无向图，获取各个标签类别之间的隐层关系信息。

其中，建立关于标签的无向图，包括：

具体而言，为了进一步得到标签内的关系，本发明实施例利用GCN模型进行特征交互，提取标签之间的隐性关系。由于GCN层数过多时会产生过拟合的问题，因此可以选用两层GCN进行堆叠，来提取标签的关系。

模型利用上述相关结果建立关于标签的无向图G∈(V,E)，V表示无向图G的节点集合，E表示无向图G的边集合。其中不同的标签类别作为图的各个节点V＝{l₁,l₂,l₃,……l_k}，标签的语义表示集合L＝{e₁,e₂,e₃,……e_k}作为对应节点的语义特征。

由上述可知，在A_ij中若A_ij＝1则认为标签i与标签j有关，二者之间存在一条边b_i,j；若A_ij＝0则认为标签i与标签j无关，二者之间没有边相连。

由各个标签之间是否有边构建无向图G的边E＝{b_1,2,…b_i,j…}，因此标签的共现矩阵A_ij可以看作是无向图G的邻接矩阵A，边集合E表示两两标签之间是否有关；并且在图中为每个节点添加自循环，来增加图中的节点信息。

而获取各个标签类别之间的隐层关系信息，则包括：

其中，A表示所述邻接矩阵，I表示单位矩阵，

表示最后一层的特征，即隐层关系信息，用来提取单词与标签之间的权重捕获重要单词。

在词粒度上，每个单词对不同的标签预测结果的重要性都不同，为了捕获多标签文本分类中的重要单词，本发明实施例参考注意力机制为评论文本中的单词赋权，从而得到更加准确的分类结果。通过GCN提取到的标签相关特征并归一化得到权重矩阵Y,再计算每个单词的得分。

具体而言，所述根据所述词级特征和隐层关系信息，参考注意力机制获取赋权后的词级特征，包括：

Y＝softmax(H·X^T)

表示各个词级特征的得分集合；

S＝fc(h_n)

其中，

fc表示Function函数；O表示融合信息；h_n表示所述句级特征；

特别的，本发明实施例中采用二元交叉熵函数(binary cross entropy loss)作为损失函数：

其中，w_n为参数，y_ij∈{0,1}为所述多标签文本的真实标签，

为所述多标签文本的预测标签。

第二方面，如图2所示，本发明实施例提供了一种基于Bi-LSTM-GCN的多标签文本分类系统，包括Bi-LSTM模型和GCN模型，包括：

预测模块，用于根据所述词级特征和隐层关系信息，采用注意力机制获取赋权后的词级特征；融合所述句级特征和赋权后的词级特征，获取所述多标签文本的预测分类结果。

第三方面，本发明实施例提供了一种存储介质，其特征在于，其存储有用于基于Bi-LSTM-GCN的多标签文本分类的计算机程序，其中，所述计算机程序使得计算机执行如上所述的多标签文本分类方法。

第四方面，本发明实施例提供了一种电子设备，包括：

一个或多个处理器；

存储器；以及

可理解的是，本发明实施例提供的基于Bi-LSTM-GCN的多标签文本分类系统、存储介质和电子设备与本发明实施例提供的基于Bi-LSTM-GCN的多标签文本分类方法相对应，其有关内容的解释、举例和有益效果等部分可以参考多标签文本分类方法中的相应部分，此处不再赘述。

综上所述，与现有技术相比，具备以下有益效果：

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。