CN110442707A

CN110442707A - 一种基于seq2seq的多标签文本分类方法

Info

Publication number: CN110442707A
Application number: CN201910544915.1A
Authority: CN
Inventors: 廖伟智; 王宇; 马攀; 阴艳超
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-06-21
Filing date: 2019-06-21
Publication date: 2019-11-12
Anticipated expiration: 2039-06-21
Also published as: CN110442707B

Abstract

本发明公开了标签文本分类领域的一种基于seq2seq的多标签文本分类方法，包括步骤：S1：对训练语料进行预处理；S2：建立基于seq2seq的多标签文本分类模型，并训练模型的参数；S3：使用训练好的多标签文本分类模型，对待预测的数据进行文本分类。本发明不需要人工提取特征，可以使用CNN来提取文本的局部语义信息可以提高文本分类的精确度，并使用初始化的全连接层，可以考虑标签之间的相关性，从而提高文本分类的准确度。

Description

一种基于seq2seq的多标签文本分类方法

技术领域

本发明涉及标签文本分类领域，具体涉及一种基于seq2seq的多标签文本分类方法。

背景技术

传统的文本分类技术主要关注单标签分类，即一篇文本只对应一个类别标签。然而，相比单标签分类，多标签文本分类在现实生活中更为常见，同时也更加困难。因为在多标签分类中，标签子集的数量随着标签数目的增多呈指数型增长。假设一个多标签分类问题中标签的个数为K，则理论上总的标签子集的个数为2^k-1，所以从这指数级数量的标签子集中，选择正确的标签子集无疑是一个巨大的挑战。为应对这个挑战，通常需要利用标签间的相关性来促进学习过程。例如：如果一篇新闻被标记为娱乐，那么它就不太可能和政治相关。所以有效地学习和利用标签之间的相关性是提高多标签分类模型性能的关键。目前，多标签文本分类被广泛用于信息检索，推荐系统，情感分类等多项应用中。

在现有技术中的多标签文本分类方法中，很少考虑标签之间的相关性，所以文本分类的准确率并不高。目前，常用的多标签文本分类方法有：

1、基于传统机器学习的多标签文本分类方法，例如：二元关联法(Binaryrelevance)，分类器链(Classifier chains)，ML-DT，Rank-SVM和ML-KNN等。这类方法需要通过人工设计的特征来训练分类器，并且很少考虑标签之间的相关性，所以分类效果受到很大的局限。例如：Binary relevance为每一个类别都训练一个分类器。虽然这种方法很直观高效，但是由于没有考虑标签之间的相关性，算法的泛化性能可能无法达到最优。Classifier chains将多标签分类问题转化为链式的单标签分类问题。但是，如果前面的分类器预测错误，会导致该分类误差随着链往后传播，从而影响分类准确率。

2、基于深度学习的多标签文本分类方法，这类方法将深度学习，例如全连接神经网络、卷积神经网络(CNN)、循环神经网络(RNN)、长短时记忆网络(LSTM)、注意力机制(Attention)等应用到多标签文本分类中。使用神经网络处理文本分类弥补了传统机器学习方法的很多缺陷，比如：不需要通过人工设计特征等，但是最近几年提出来的处理多标签文本分类的神经网络方法很少考虑标签之间的相关性，并且都忽视了局部语义特征的重要性，这很大程度上影响了分类的准确率。

综上所述，基于传统机器学习的多标签文本分类方法需要人工设计特征，非常耗时耗力，并且特征的质量对分类效果的影响很大。同时，这类方法很难有效的考虑标签之间的相关性。而现有的基于深度学习的多标签文本分类方法，虽然能自动提取有效的特征，但是并不能有效的考虑标签之间的相关性，同时忽略了局部特征的重要性。

发明内容

解决的技术问题

针对现有技术中的问题，本发明提出一种基于seq2seq(序列到序列)的多标签文本分类方法，能够有效的提高多标签文本分类的精度。

技术方案

本发明通过以下技术方案予以实现：

一种基于seq2seq的多标签文本分类方法，包括步骤：

S1：对训练语料进行预处理；

S2：建立基于seq2seq的多标签文本分类模型，并训练模型的参数；

S3：使用训练好的多标签文本分类模型，对待预测的数据进行文本分类。

进一步地，所述S1中预处理步骤包括：

1)：对训练语料OrgData进行分词并去除停用词，得到处理后的语料NewData并保存；

2)：统计NewData中不重复的词，得到词集合WordSet，然后对每个单词进行编号，得到词集合WordSet对应的词编号集合WordID；

3)：统计训练语料的标签，得到标签集合LableSet，对每个标签进行编号，得到标签集合LableSet对应的标签编号集合LableID；

4)：随机无放回的从训练语料中抽取BatchSize句数据c以及对应的标签y，并将它们通过词编号集合和标签编号集合转换为对应的ID。

进一步地，所述基于seq2seq的多标签文本分类模型包括编码装置(Encoder)和解码装置(Decoder)，

所述Encoder包括：

词嵌入层(Embedding Layer)：用于将输入的单词转换为对应的词向量；

卷积层(Convolution Layer)：使用卷积神经网络提取每个单词对应的局部语义向量；

拼接层(Concatenate Layer)：将词向量和与其对应的局部语义向量拼接起来，作为下一层的输入；

LSTM编码层(LSTM Layer)：包含若干LSTM单元，用于提取单词间的语义关系；

注意力层(Attention Layer)：对LSTM Layer得到的单词语义隐藏状态赋予不同权重，得到不同时刻的文本向量；

所述Decoder主要包括：

LSTM解码层(LSTM Layer)：用于对通过Attention Layer得到的文本向量进行解；

初始化全连接层(Initialized Layer)：用于捕获标签之间的相关信息；

输出层(Output Layer)：用于预测标签。

进一步地，所述Embedding Layer中具体的转换步骤包括：

给定一篇有n个单词的文本x＝{x₁,…,x_i,…,x_n}，其中x_i表示文本的第i单词，通过Embedding Layer将单词转换为对应的词向量得到S＝[w₁,w₂,…,w_n]，其中向量w_i为对应单词x_i的词向量。

进一步地，所述Convolution Layer中具体的拼接步骤包括：

1)输入Embedding Layer中得到的词向量S＝[w₁,w₂,…,w_n]，

2)令为一个长度为k卷积核，在句子的任何一个单词j处，都有一个窗口大小为k的矩阵：

w_j:j+k-1＝[w_j,w_j+1,…,w_j+k-1]，其中

3)卷积核m依次滑过S，得到窗口大小为k的卷积核对应的特征图e中的每一个元素e_j计算式如下：

其中是元素乘法，b是偏置参数；

4)用m个窗口大小为k的卷积核得到m个相同长度的特征图，将特征图按行拼接后转置得到：

W＝[e₁,e₂,…,e_m]^T，其中e_i表示第i个卷积核产生的特征图；

5)用p_j表示的第j行，并表示单词x_j的局部语义信息，将单词x_j的词向量w_j和与其对应的局部语义向量p_j拼接起来，得到RNN的输入序列S′：

S′＝[g₁,g₂,…,g_n]；g_j＝[w_j,p_j]。

进一步地，利用双向LSTM来对序列S′进行编码，并计算每个单词对应的隐藏状态，即：

得到前向和后向的隐藏状态和后，通过对与拼接得到最终的隐藏状态

进一步地，所述Attention Layer的实施步骤包括：在任意时刻t，通过注意力机制对文本序列不同部分赋予不同的权重α_t,j，最终得到t

其中W_a，U_a，v_a是权重参数，b_a是偏置参数，s_t表示解码过程中t时刻的隐藏状态。

进一步地，所述Decode包括步骤：

1)利用单向LSTM对文本向量c_t进行解码，其中t时刻的隐藏状态s_t＝LSTM(s_t-1,[g(y_t-1),c_t-1])，y_t-1表示上一个时刻预测的标签的概率分布，函数g表示取y_t-1中概率最大的那个标签对应的标签向量；

2)通过全连接层，得到t时刻标签的分数o_t＝W_df(W_os_t+U_oc_t+b_o)，其中W_d、W_o、U_o是权重参数，b_o是偏置参数；

3)将o_t作为初始化全连接层的输入，得到输出o′_t＝W′o_t，其中是权重参数；

4)通过softmax函数计算得到t时刻预测的标签的概率分布y_t＝softmax(o′_t)。

进一步地，全连接层的初始化步骤包括：

对初始化全连接层的权重参数W′进行初始化，W′是一个L×L的矩阵；其中，W′的第i行，第j列的元素W′_i,j表示标签空间中第i个标签和第j个标签的相关性；

W′_i,j初始化值的计算方法如下：

其中f_i,j表示i标签和j标签一起出现在训练样本中的频率，通过统计训练数据集中样本的标签得到；A_i表示i标签和其它所有标签在训练数据集中两两共现总的次数；对角线上的初始化值设为1。

进一步地，将S2中得到的数据c作为多标签文本分类模型的输入数据，并使用交叉熵函数作为损失函数，然后采用梯度下降法(SGD)优化多标签文本分类模型的参数，当多标签文本分类模型产生的损失值满足设定要求或者达到最大迭代次数N，则终止多标签文本分类模型的训练。

有益效果

采用本发明提供的技术方案，与已知的公有技术相比，具有如下有益效果：

本发明提出了一种基于seq2seq的多标签文本分类方法，不需要人工提取特征，可以使用卷积神经网络(CNN)来提取文本的局部语义信息可以提高文本分类的精确度，并使用初始化的全连接层，可以考虑标签之间的相关性，从而提高文本分类的准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的流程图；

图2为本发明的结构示意图；

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合实施例对本发明作进一步的描述。

实施例1，结合图1，一种基于seq2seq的多标签文本分类方法，包括步骤：

S1：对训练语料进行预处理；

进一步地，参见图2，所述S1中预处理步骤包括：

1)：对训练语料OrgData进行分词并去除停用词，得到处理后的语料NewData并保存；停用词指例如“了”、“个”等停用词和特殊符号等无意义字词。

2)：统计NewData中不重复的词，得到词集合WordSet，对每个单词进行编号，得到词集合WordSet对应的词编号集合WordID；

进一步地，建立基于seq2seq的多标签文本分类模型，所述基于seq2seq的多标签文本分类模型包括编码装置(Encoder)和解码装置(Decoder)，

所述Encoder包括：

LSTM编码层(LSTMLayer)：包含若干LSTM单元，用于提取单词间的语义关系；

所述Decoder主要包括：

输出层(Output Layer)：用于预测标签。

进一步地，所述Embedding Layer中具体的转换步骤包括：

进一步地，在Convolution Layer中使用卷积神经网络(CNN)来提取文本中的局部语义信息。在Concatenate Layer将提取到的局部语义信息和词向量拼接起来作为下一层的输入。所述Concatenate Layer中具体的拼接步骤包括：

1)输入Embedding Layer中得到的词向量S＝[w₁,w₂,…,w_n]，

w_j:j+k-1＝[w_j,w_j+1,…,w_j+k-1]，其中

其中是元素乘法，b是偏置参数；

S′＝[g₁,g₂,…,g_n]；g_j＝[w_j,p_j]。

进一步地，所述Decode包括步骤：

进一步地，所述全连接层的初始化步骤包括：

W′_i,j初始化值的计算方法如下：

进一步地，将S2中得到的数据c作为多标签文本分类模型的输入数据，并使用交叉熵函数作为损失函数，然后采用SGD(梯度下降法，其他优化方法也可以)训练多标签文本分类模型的参数，当多标签文本分类模型产生的损失值满足设定要求或者达到最大迭代次数N，则终止多标签文本分类模型的训练。

将预测数据中的文本进行分词、去除停用词并将其根据S1中得到的词编号集合WordID转换为对应的ID编号，然后将其输入到训练好的模型中，进行文本类别的预测。

本发明不需要人工提取特征，可以使用卷积神经网络来提取文本的局部语义信息可以提高文本分类的精确度，并使用初始化的全连接层，可以考虑标签之间的相关性，从而提高文本分类的准确度。

在本说明书的描述中，参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种基于seq2seq的多标签文本分类方法，其特征在于：包括步骤：

S1：对训练语料进行预处理；

2.根据权利要求1所述的一种基于seq2seq的多标签文本分类方法，其特征在于：所述S1中预处理步骤包括：

3.根据权利要求1所述的一种基于seq2seq的多标签文本分类方法，其特征在于：所述基于seq2seq的多标签文本分类模型包括编码装置和解码装置，

所述编码装置包括：

词嵌入层：用于将输入的单词转换为对应的词向量；

卷积层：使用卷积神经网络提取每个单词对应的局部语义向量；

拼接层：将词向量和与其对应的局部语义向量拼接起来，作为下一层的输入；

LSTM编码层：包含若干LSTM单元，用于提取单词间的语义关系；

注意力层：对LSTM编码层得到的单词语义隐藏状态赋予不同权重，得到不同时刻的文本向量；

所述解码装置主要包括：

LSTM解码层：用于对通过注意力层得到的文本向量进行解；

初始化全连接层：用于捕获标签之间的相关信息；

输出层：用于预测标签。

4.根据权利要求3所述的一种基于seq2seq的多标签文本分类方法，其特征在于：所述词嵌入层中具体的转换步骤包括：

给定一篇有n个单词的文本x＝{x₁，...，x_i，...，x_n}，其中x_i表示文本的第i单词，通过词嵌入层将单词转换为对应的词向量得到S＝[w₁，w₂，...，w_n]，其中向量w_i为对应单词x_i的词向量。

5.根据权利要求4所述的一种基于seq2seq的多标签文本分类方法，其特征在于：所述拼接层中具体的拼接步骤包括：

1)输入词嵌入层中得到的词向量S＝[w₁，w₂，...，w_n]，

w_j：j+k-1＝[w_j，w_j+1，...，w_j+k-1]，其中

其中是元素乘法，b是偏置参数；

W＝[e₁，e₂，...，e_m]^T，其中e_i表示第i个卷积核产生的特征图；

S′＝[g₁，g₂，...，g_n]；g_j＝[w_j，p_j]。

6.根据权利要求5所述的一种基于seq2seq的多标签文本分类方法，其特征在于：利用双向LSTM来对序列S′进行编码，并计算每个单词对应的隐藏状态，即：

7.根据权利要求6所述的一种基于seq2seq的多标签文本分类方法，其特征在于：所述注意力层的实施步骤包括：在任意时刻t，通过注意力机制对文本序列不同部分赋予不同的权重α_t，j，最终得到t时刻的文本向量表示c_t，

8.根据权利要求7所述的一种基于seq2seq的多标签文本分类方法，其特征在于：所述解码装置包括解码步骤：

1)利用单向LSTM对文本向量c_t进行解码，其中t时刻的隐藏状态s_t＝LSTM(s_t-1，[g(y_t-1)，c_t-1])，y_t-1表示上一个时刻预测的标签的概率分布，函数g表示取y_t-1中概率最大的那个标签对应的标签向量；

9.根据权利要求8所述的一种基于seq2seq的多标签文本分类方法，其特征在于：全连接层的初始化步骤包括：

对初始化全连接层的权重参数W′进行初始化，W′是一个L×L的矩阵；其中，W′的第i行，第j列的元素W′_i，j表示标签空间中第i个标签和第j个标签的相关性；

W′_i，j初始化值的计算方法如下：

其中f_i，j表示i标签和j标签一起出现在训练样本中的频率，通过统计训练数据集中样本的标签得到；A_i表示i标签和其它所有标签在训练数据集中两两共现总的次数；对角线上的初始化值设为1。

10.根据权利要求2所述的一种基于seq2seq的多标签文本分类方法，其特征在于：将S2中得到的数据c作为多标签文本分类模型的输入数据，并使用交叉熵函数作为损失函数，然后采用梯度下降法优化多标签文本分类模型的参数，当多标签文本分类模型产生的损失值满足设定要求或者达到最大迭代次数N，则终止多标签文本分类模型的训练。