CN110209823A

CN110209823A - 一种多标签文本分类方法及系统

Info

Publication number: CN110209823A
Application number: CN201910507874.9A
Authority: CN
Inventors: 杨振宇; 刘国敬
Original assignee: Qilu University of Technology
Current assignee: Qilu University of Technology
Priority date: 2019-06-12
Filing date: 2019-06-12
Publication date: 2019-09-06
Anticipated expiration: 2039-06-12
Also published as: CN110209823B

Abstract

本发明公开了一种多标签文本分类方法及系统，该方法包括以下步骤：获取包含文本序列和标签空间的训练集，采用长短时记忆网络提取文本序列中所有单词的全局特征向量，采用卷积神经网络对得到的全局特征向量进行聚合，得到文本序列中每个单词的语义向量；分别计算便签空间中每个标签与文本序列中所有单词的权重系数，构建注意力权重系数矩阵，对注意力权重系数矩阵进行处理，得到最优权重系数矩阵；分别将每个单词的语义向量与最优权重系数矩阵中权重系数向量进行加权，得到标签的注意力向量；对标签的注意力向量进行归一化处理，得到每个标签的概率，选取几个概率最大的标签对文本进行分类。

Description

一种多标签文本分类方法及系统

技术领域

本公开涉及文本分类技术领域，具体涉及一种基于LSTM-CNN及注意力机制的多标签文本分类方法、系统、存储介质及计算机设备。

背景技术

多标签文本分类是自然语言处理中既复杂又具有挑战性的任务。不同于传统的二分类或多分类，多标签分类要处理的是现实生活中文本具有多个类别的任务。

目前，有很多关于多标签文本分类的机器学习算法，依据解决问题的角度，这些算法可以分为两大类:一是基于问题转化的方法。将多标签分类任务转化成多个二分类或多分类问题，使其适用于现有算法，如：SVM、DT、NativeBayes等。二是基于算法适用的方法。是指针对某一特定的算法进行扩展，从而能够处理多标签数据。如：kNN多标签版本ML-KNN，SVM的多标签版本Rank-SVM等。

而在深度学习中，常常使用卷积神经网络(CNN)或递归神经网络(RNN) 作特征提取器提取文本的语义信息，然后修改多分类模型的输出层，使其适用于多标签的分类。

然而，在模型训练时，标签和文本之间的相关性往往起到很重要的作用，现有模型大多忽视了这一关系。另外，在预测标签时，现有模型的方法通常假设所有标签都与文本有关，再依次计算出所有标签的概率，概率较大的几个标签即为预测的标签。发明人在研发过程中发现，该方法存在以下技术问题：往往与文本无关或相关性较低的标签，也计算出了它的概率，显然这些概率是没有必要的，不仅提高了训练误差，还降低了模型性能和分类的准确性。

发明内容

为了克服上述现有技术的不足，本公开提供了一种基于LSTM-CNN及注意力机制的多标签文本分类方法、系统、存储介质及计算机设备，计算出与文本相似度较大的几个标签的注意力向量，提高了分类的准确性。

本公开一方面提供的一种多标签文本分类方法的技术方案是：

一种多标签文本分类方法，该方法包括以下步骤：

获取包含文本序列和标签空间的训练集，采用长短时记忆网络提取文本序列中所有单词的全局特征向量，采用卷积神经网络对得到的全局特征向量进行聚合，得到文本序列中每个单词的语义向量；

分别计算便签空间中每个标签与文本序列中所有单词的权重系数，构建注意力权重系数矩阵，对注意力权重系数矩阵进行处理，得到最优权重系数矩阵；分别将每个单词的语义向量与最优权重系数矩阵中权重系数向量进行加权，得到标签的注意力向量；

对标签的注意力向量进行归一化处理，得到每个标签的概率，选取几个概率最大的标签对文本进行分类。

进一步的，所述文本序列包含若干个单词，所述标签空间包含多个标签，每个单词和标签分别用词向量表示。

进一步的，所述采用长短时记忆网络提取文本序列中所有单词的全局特征向量的步骤包括：

采用长短时记忆网络提取文本序列中每个单词在两个方向上的隐藏向量；

分别将每个单词在两个方向上的隐藏向量连接起来，得到每个单词向量的全局特征向量。

进一步的，所述采用卷积神经网络对得到的全局特征向量进行聚合的方法为：

对卷积神经网络进行训练，学习到卷积神经网络的权值参数和偏置参数；

利用训练后的卷积神经网络对全局特征向量进行聚合，得到文本序列中所有单词的语义向量。

进一步的，所述注意力权重系数矩阵的构建方法为：

分别计算标签空间中每个标签与文本序列中每个单词的相似度向量，并构建相似度矩阵；

利用非线性激活函数去除相似度矩阵中余弦相似度小于零的向量，得到注意力权重系数矩阵。

进一步的，所述对注意力权重系数矩阵进行处理的步骤包括：

对注意力权重系数矩阵进行动态最大池化处理，并利用归一化函数对动态最大池化处理后的权重系数矩阵中权重系统向量进行归一化处理，得到最优权重系数矩阵。

进一步的，得到标签的注意力向量后，还利用全线性连接层对标签的注意力向量进行线性处理。

本公开另一方面提供的一种多标签文本分类系统的技术方案是：

一种多标签文本分类系统，该系统包括：

编码模块，用于获取包含文本序列和标签空间的训练集，采用长短时记忆网络提取文本序列中所有单词的全局特征向量，采用卷积神经网络对得到的全局特征向量进行聚合，得到文本序列中每个单词的语义向量；

解码模块，用于分别计算便签空间中每个标签与文本序列中所有单词的权重系数，构建注意力权重系数矩阵，对注意力权重系数矩阵进行处理，得到最优权重系数矩阵；分别将每个单词的语义向量与最优权重系数矩阵中权重系数向量进行加权，得到标签的注意力向量；

分类模块，用于对标签的注意力向量进行归一化处理，得到每个标签的概率，选取几个概率最大的标签对文本进行分类。

本公开另一方面提供的一种计算机可读存储介质的技术方案是：

一种计算机可读存储介质，其上存储有计算机程序，其特征是，该程序被处理器执行时实现如上所述的多标签文本分类方法中的步骤。

本公开另一方面提供的一种计算机设备的技术方案是：

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上所述的多标签文本分类方法中的步骤。

通过上述技术方案，本公开的有益效果是：

(1)本公开引入向量余弦距离作为标签和文本之间的相似度度量标准，建模标签和文本之间的相关性，使用动态最大池化，在预测标签时，计算出与文本相关性较大的几个标签的概率，避免了不必要的误差，提供了分类的准确性。

(2)本公开采用LSTM作为句子的底层特征抽取器，能抽取出句子序列具有全局信息的语义上下文向量；在其后接入CNN聚合句子中单词的周围邻域的局部信息。将全局信息和局部信息进行融合，能获得更准确表达句子的语义向量。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本申请，并不构成对本公开的不当限定。

图1是实施例一多标签文本分类方法的流程图；

图2是实施例一注意力向量计算过程示意图；

图3是实施例一注意力系数计算过程示意图；

图4是实施例一多标签文本分类系统的结构图。

具体实施方式

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本公开使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

名词解释:

(1)LSTM，长短时记忆网络，在处理序列文本任务表现出良好的效果，它能很好的表示出输入文本中的全局逻辑信息和信息彼此间复杂的时间关联性。

(2)CNN，卷积神经网络，用于文本任务能够很好的提取句子中心词的局部特征信息。

实施例一

为了解决现有的方法忽略标签和文本之间的相关性的问题，本实施例提供了一种基于LSTM-CNN及注意力机制的多标签文本分类方法，考虑标签和文本之间相关性，计算出与文本相关性较大的几个标签(标签子集)的概率即可，明显提升模型的预测效率，避免了不必要的误差，提高精度。

请参阅附图1，所述多标签文本分类方法包括以下步骤：

S101，给定包含文本序列以及标签空间的训练集，采用长短时记忆网络

LSTM提取文本序列中所有单词的全局特征向量，采用卷积神经网络CNN对得到文本序列中所有单词的全局特征向量进行聚合，得到文本序列中所有单词向量的语义向量。

给定训练集X_n为文本序列；Y_n为标签空间；分类任务的目标是学习一个函数f，最小化损失函数：

其中，CE是计算两个概率向量之间的交叉熵，y_n为每个训练样本对应要预测的标签子集；f为函数。

包含L个单词的文本序列：X＝{x₁,x₂,…,x_L},x_l是每个单词的词向量表示；有 J个标签的标签空间：C＝{c₁,c₂,…,c_J},c_j是每个标签的词向量表示；词向量维度设置为d。

在本实施例中，采用长短时记忆网络LSTM提取文本序列中所有单词的全局特征向量的具体实现方式如下：

采用长短时记忆网络LSTM提取文本序列中所有单词的两个方向的隐藏向量和和的提取公式如下：

将每个单词的两个方向的隐藏向量和连接起来，得到每个单词向量的隐藏表示，表示以第l个单词为中心的特征信息，即单词的全局特征向量表示。

采用长短时记忆网络LSTM提取文本序列中所有单词向量的全局特征向量为H＝{h₀,h₁,…,h_l}，h_l为第l个单词向量的全局特征向量。

在本实施例中，采用卷积神经网络CNN对得到文本序列中所有单词的全局特征向量进行聚合的具体实现方式如下：

采用卷积神经网络CNN对上述得到的文本序列中所有单词向量的全局特征向量H进行聚合，得到文本序列的语义向量V。其实现公式如下：

V＝conv(W₁,H)+b₁(4)

其中，W₁和b₁分别是权值参数和偏置参数，通过训练集中数据训练卷积神经网络CNN可以学习到权值参数和偏置参数；H为文本序列中所有单词向量的全局特征向量，V为文本序列的语义向量。

本实施例以LSTM和CNN组合的形式对全局信息和局部信息进行融合，以更好的提取出文本的全部信息。

S102，分别计算标签空间中每个标签与文本序列中所有单词的余弦相似度，并将其作为权重系数，选取相似度较大的权重系数，对每个单词向量的局部特征信息进行加权，得到标签的注意力向量。

在本实施例中，通过如下公式可以计算得到标签与单词的相似度向量：

基于所有标签向量与单词向量的相似度矩阵，构建相应的相似度矩阵G为：

其中，是标准化矩阵，大小为J×L，其每个元素为第j个标签和第l个单词的乘积：

在本实施例中，选取相似度较大的权重系数，对每个单词向量的局部特征向量进行加权的具体实现步骤如下：

(1)将该相似度向量作为权重系数向量，根据相似度矩阵G，经过线性层得到注意力权重系数矩阵：

A＝ReLU(W₂G+b₂)(7)

其中，W₂和b₂是要学习的权值参数和偏置参数。ReLU是非线性激活函数，去除了G中余弦相似度小于零(负相关)的参数。

(2)对注意力权重系数矩阵A进行动态最大池化(K-max-pooling)处理，得到权重系数矩阵利用归一化函数对权重系数矩阵进行归一化处理。

在本实施例中，对注意力权重系数矩阵A进行动态最大池化(K-max-pooling) 处理和归一化处理的实现方式如下：

是包含较大权重系数向量的权重系数矩阵。Softmax是归一化函数，是中第k个标签未归一化的权重系数向量，β_lk是第k个标签

归一化后的权重系数向量，向量长度为l；β为最优权重系数矩阵。

(3)将步骤101得到的语义向量V与归一化后的最优权重系数矩阵β中权重系数向量进行加权，得到标签的注意力向量Z：

z_k∈R^d是第k个标签的注意力向量，v_l为第l个单词的语义向量。

(4)经过线性层得到与标签相同维度大小的注意力向量：

z′_K＝W₃z_K+b₃(11)

W₃∈R^K×J和b₃∈R^J都是训练参数。

本实施例引入向量余弦距离作为标签和文本之间的相关性度量标准，并建模标签和文本之间的相关性；在训练时，使用动态最大池化，以减少模型训练时的误差；在预测标签时，计算出几个标签(标签子集)的注意力向量。

S103，得到z′_K之后，使用Softmax函数作为分类器对每个标签的注意力向量进行归一化处理，得到每一个标签的概率，选取几个概率较大的标签进行文本分类。

实验验证

本实施例使用精确率(precision)、召回率(recall)、F₁分数(F₁-Score) 和汉明损失(Hamming loss)作为多标签文本分类方法的评价标准。

精确率：是指预测出来的某类样本中，被正确预测出来的所占的比例。该值越高，模型性能表现越好。

召回率：是指实际样本中，被正确预测出来的样本所占的比例。该值越高，模型性能表现越好。

F₁分数：它同时兼顾了精确率和召回率，可以看作是模型精确率和召回率的一种加权平均。其计算公式：该值越高，模型表现越好。

汉明损失：该指标衡量了预测所得标签与样本实际标签之间的不一致程度，即样本具有标签但未被识别出，或不具有标签却被误判的可能性。其计算公式：N是样本的数量，L是标签的个数，Y_i,j是第i个预测结果中第j个分量的真实值，P_i,j是第i个预测结果中第j个分量的预测值。该值越低，模型表现越好。

数据集：本实施例使用知乎的多标签文本分类数据集，截取其中的五十万条数据作为本实施例的训练数据，其样本标签数为103，样本最大标签数为7，从训练数据中提取单词形成词汇表，词汇表外单词被字符<unk>替换。词向量维度设置为256。文本句子的长度设置为128词，不足长度的样本进行补零，超过长度的样本则进行截断。

模型参数设置：本实施例设置长短时记忆网络LSTM的隐藏层大小为256，卷积神经网络的卷积核大小为3。

分别采用Bi-LSTM、BiLSTM+CNN(无attention)以及本实施例提出的多标签文本分类方法的实验结果如表1所示。

表1实验结果

由表1可以看出，只使用Bi-LSTM作为特征提取模块，精确率和召回率为 68.3％和61.9％，相应的F₁分数和汉明损失为0.652和0.0291。而使用Bi-LSTM和 CNN作为特征提取模块时精确率提升了约2.3％，达到了69.7％；而F₁分数提升了约1.7％，达到了0.663；汉明损失也降低了约3.8％，达到了0.0280。

而本实施例提出的多标签文本分类方法具有更好的效果，在使用Bi-LSTM 和CNN基础上，引入了标签和文本之间相关性作为注意力，精确率和召回率较基线提升了近6.0％和6.6％，F₁分数也提升了4.4％左右，到达0.681，汉明损失降低了约8.2％，降低到0.0267。

实施例二

本实施例提供了一种基于LSTM-CNN及注意力机制的多标签文本分类系统，用于实现以上实施例所述的基于LSTM-CNN及注意力机制的多标签文本分类方法。

请参阅附图4，所述多标签文本分类系统包括编码模块、解码模块和分类模块，其中：

所述编码模块，用于获取包含文本序列和标签空间的训练集，采用长短时记忆网络提取文本序列中所有单词的全局特征向量，采用卷积神经网络对得到的全局特征向量进行聚合，得到文本序列中每个单词的语义向量；

所述解码模块，用于分别计算便签空间中每个标签与文本序列中所有单词的权重系数，构建注意力权重系数矩阵，对注意力权重系数矩阵进行处理，得到最优权重系数矩阵；分别将每个单词的语义向量与最优权重系数矩阵中权重系数向量进行加权，得到标签的注意力向量；

所述分类模块，用于对标签的注意力向量进行归一化处理，得到每个标签的概率，选取几个概率最大的标签对文本进行分类。

实施例三

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上所述的多标签文本分类方法中的步骤。

实施例四

本领域内的技术人员应明白，本公开的实施例可提供为方法、系统、或计算机程序产品。因此，本公开可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本公开的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims

1.一种多标签文本分类方法，其特征是，包括以下步骤：

对所有标签的注意力向量进行归一化处理，得到每个标签的概率，选取几个概率最大的标签对文本进行分类。

2.根据权利要求1所述的多标签文本分类方法，其特征是，所述文本序列包含若干个单词，所述标签空间包含多个标签，每个单词和标签分别用词向量表示。

3.根据权利要求1所述的多标签文本分类方法，其特征是，所述采用长短时记忆网络提取文本序列中所有单词的全局特征向量的步骤包括：

4.根据权利要求1所述的多标签文本分类方法，其特征是，所述采用卷积神经网络对得到的全局特征向量进行聚合的方法为：

5.根据权利要求1所述的多标签文本分类方法，其特征是，所述注意力权重系数矩阵的构建方法为：

6.根据权利要求1所述的多标签文本分类方法，其特征是，所述对注意力权重系数矩阵进行处理的步骤包括：

7.根据权利要求1所述的多标签文本分类方法，其特征是，得到标签的注意力向量后，还利用全线性连接层对标签的注意力向量进行线性处理。

8.一种多标签文本分类系统，其特征是，包括：

分类模块，用于对所有标签的注意力向量进行归一化处理，得到每个标签的概率，选取几个概率最大的标签对文本进行分类。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征是，该程序被处理器执行时实现如权利要求1-7中任一项所述的多标签文本分类方法中的步骤。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征是，所述处理器执行所述程序时实现如权利要求1-7中任一项所述的多标签文本分类方法中的步骤。