CN111460157B

CN111460157B - 用于多领域文本分类的循环卷积多任务学习方法

Info

Publication number: CN111460157B
Application number: CN202010249666.6A
Authority: CN
Inventors: 谢金宝; 李嘉辉; 邓来胜; 王滨生; 李紫玉; 赵楠; 李双庆
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2020-04-01
Filing date: 2020-04-01
Publication date: 2023-03-28
Anticipated expiration: 2040-04-01
Also published as: CN111460157A

Abstract

用于多领域文本分类的循环卷积多任务学习方法，属于多领域文本分类技术领域，本发明为了解决传统文本分类的手工注释非常昂贵和耗时，并且容易导致文本的特征被文本末尾的单词所主导，丢失很多关键的信息的问题。步骤a，建立MTL‑LC循环卷积多任务学习模型；步骤b，数据采集；步骤c，词嵌入；步骤d，特征提取；步骤e，情感分类；将每一个任务的特征表示分别输入到特定任务的Softmax分类器中，进行情感分类，利用Softmax函数计算任务样本的每一个情感类别的概率，概率高的类别则为预测的类别，完成分类。本发明的用于多领域文本分类的循环卷积多任务学习方法优于单任务深度学习模型和先进的多任务学习模型，能够有效的对多领域文本的情感进行分类。

Description

用于多领域文本分类的循环卷积多任务学习方法

技术领域

本发明涉及一种多任务学习方法，具体涉及用于多领域文本分类的循环卷积多任务学习方法，属于多领域文本分类技术领域。

背景技术

文本分类是自然语言处理中一项重要的工作，具有广泛的应用场景，例如垃圾邮件过滤、商品评论的情感分类等。大多数的文本分类模型针对单个领域的文本进行训练。然而用户产生的评论是包含多个领域的，

例如电子、书籍、电影等。为每一个领域的

评论训练一个效果好的分类模型，需要大量标记的样本，由于手工注释是非常昂贵和耗时的，因此很难获得。

为了解决此问题，很多研究者采用域适应方法有效利用有标签数据，提高新领域文本分类的准确率，域适应的目标是利用资源丰富的源域学习到的知识帮助另一个资源较低的目标域执行分类。

多任务学习的方法也可以解决有标签训练数据不足的问题。多任务学习的主要目标是利用隐含在多个相关任务的训练信号中的特定任务信息来提高泛化能力，通过共享表示并行训练多个任务完成这一目标。在过去，使用传统的机器学习方法进行文本分类，常用的特征表示方法是词袋模型，分类器则使用朴素贝叶斯和支持向量机等。近年来，循环神经网络RNN(Recurrent neural netword，RNN)和卷积神经网络CNN(Convolutional neuralnetwork，CNN)等深度学习网络应用在自然语言处理领域，在文本分类任务中取得了很好的进展。与传统文本表示不同的是，深度学习网络能自主学习学习文本的深层语义特征。长短期记忆网络LSTM(Long short-term memory,LSTM)是一种改进的RNN，可以有效的捕获文本的上下文信息。CNN能够捕获文本的局部相关性，可以利用不同窗口的卷积核提取句子不同位置的n-gram特征。

近年来，基于深度学习的多任务学习模型应用在自然语言处理任务中，Collobert等人[7]用多任务学习处理词性标注、命名体识别、语义角色标注等几个传统的自然语言处理任务，只有查找表部分是共享的。Liu等人开发出一种结合语义分类和信息检索任务的多任务学习模型，采用了词袋输入和多层感知机，其中一个隐藏层是共享的，采用词袋模型会丢失很多语义信息。仅仅共享词嵌入或者一个DNN隐藏层很难得到文本的高层次语义信息。LSTM能够较好的捕获文本的长期依赖关系，在文本分类任务中，主流的多任务学习模型采用LSTM获取文本表示，但他们仅仅使用LSTM的最后一个隐藏层的输出作为整个文本的特征表示，会导致文本的特征被文本末尾的单词所主导，丢失很多关键的信息。

发明内容

本发明的目的是提供用于多领域文本分类的循环卷积多任务学习方法，以解决传统文本分类的手工注释非常昂贵和耗时，并且容易导致文本的特征被文本末尾的单词所主导，丢失很多关键的信息的问题。

用于多领域文本分类的循环卷积多任务学习方法，包括以下步骤：

步骤a，建立MTL-LC循环卷积多任务学习模型；模型包括输入层、词嵌入层、共享深度学习网络层和输出层；

步骤b，数据采集；收集10～20个相关任务的情感分类数据集，数据集分为训练集、验证集和测试集；

步骤c，词嵌入；将文本通过取长补短变为相同的长度，收集利用大量语料输入到word2vec模型训练的SENNA词向量，每条文本数据查找词向量表得到词向量表示；

步骤d，特征提取；先将词向量输入到长短期记忆网络LSTM获取长短期依赖，再输入到卷积神经网络CNN中获取文本的局部特征将，即将不同任务数据集的文本输入到一个共享深度学习模型中；

步骤e，情感分类；将每一个任务的特征表示分别输入到特定任务的Softmax分类器中，进行情感分类，利用Softmax函数计算任务样本的每一个情感类别的概率，概率高的类别则为预测的类别，完成分类。

优选的：还包括以下步骤：

步骤f，模型训练；随机选择一个任务里的一批样本；通过该示例计算梯度；采用Adamax规则更新模型参数；

步骤g，模型测试；将每个任务的测试集分别输入到训练好的模型中，分别测试每一条数据集的标签是否与实际标签一致，验证测试的准确率。

优选的：步骤d中长短期记忆网络LSTM每个时间步的计算公式为：

f_t＝σ(W_f·[h_t-1,x_t]+b_f)

i_t＝σ(W_i·[h_t-1,x_t]+b_i)

o_t＝σ(W_o·[h_t-1,x_t]+b_o)

h_t＝o_t*tanh(c_t)

上述公式中，W表示权重矩阵，b表示偏置值。σ是sigmoid函数，输出在[0,1]之间，tanh是双曲正切函数，输出在[-1，1]之间，所有门的值和隐藏层的输出值在[0,1]之间。

优选的：步骤e中Softmax函数公式为：

式中，W为要学习的权重，b为偏置，C为样本情感分类的类别数。

本发明与现有产品相比具有以下效果：

将多个文本任务在一个深度学习模型中训练，共享模型，通过LSTM和不同尺寸的卷积核提取丰富的语义信息，能够同时利用多任务学习及深度学习模型的优势。在多领域文本分类数据集上的实验结果表明，本文提出的MTL-LC模型准确率比单任务RCNN模型提高了6.5％，比最新的多任务学习模型FS-MTL、ASP-MTL、IC-MTL分别提升了5.4％、4％和2.8％。MTL-LC模型训练一次的时间也比单任务模型single-LC快了213.1秒。

在本文的方法中，利用不同领域的文本分类任务的相关性，不同领域的文本在一个模型中联合训练。

附图说明

图1是本发明所述的用于多领域文本分类的循环卷积多任务学习方法的学习模型；

图2是共享LSTM层示意图；

图3是共享LSTM和CNN层示意图；

图4是MTL-LC与single-LC模型每个领域分类准确率的对比图；

图5是不同领域数量下模型的准确率对比图。

具体实施方式

下面根据附图详细阐述本发明优选的实施方式。

具体实施方式1，如图1至图5所示，本发明所述的用于多领域文本分类的循环卷积多任务学习方法，包括以下步骤：

进一步：还包括以下步骤：

进一步：步骤d中长短期记忆网络LSTM每个时间步的计算公式为：

f_t＝σ(W_f·[h_t-1,x_t]+b_f)

i_t＝σ(W_i·[h_t-1,x_t]+b_i)

o_t＝σ(W_o·[h_t-1,x_t]+b_o)

h_t＝o_t*tanh(c_t)

进一步：步骤e中Softmax函数公式为：

一种用于文本分类的循环卷积多任务学习模型(MTL-LC)，此模型将不同任务在一个共享深度学习模型中训练，共享模型将循环神经网络与卷积神经网络相结合可以从这两种结构中受益。该模型将不同领域的文本输入共享模型中，最后输入不同的Softmax层输出分类结果，模型包括输入层、词嵌入层、共享深度学习网络层和输出层。模型结构如图1所示。

其中，输入层指的是多任务学习的目的是利于相关的任务之间的相关性，并行学习任务进行分类，因此将不同任务的文本并行的输入到模型中。假设有k个任务，不同任务的数据集表示为D＝(D1,D2,…Dk)，Dm表示为包含n个样本的第m个任务的数据集，xm i是任务m的一个样本，ym i则是此样本的标签。如下面式子所示：

词嵌入指的是：考虑到每条训练样本的长度不同，为了保持维度大小一致，通常在词嵌入前通过取长补短把每条样本的长度变成相同的。把其中一个任务的一条数据的单词列表表示为xm＝(x1，x2，…，xn)，其中n为一个样本单词的数量，xt为这段文本中的第t个单词，所有的单词都来自词汇表V中。在输入到模型之前，通过词向量矩阵W∈Rd*|V|将单词转变为词向量，其中|V|为词汇表中单词的数量，d为词向量的维度。词嵌入后每一条数据变为二维向量X∈Rd*n。

共享LSTM和CNN层指的是：以两个任务为例，把两个任务文本词向量输入到共享LSTM层中，仅仅以LSTM的最后一个隐藏层作为文本表示，不能获取丰富的语义信息，如图2所示。

将每一个任务的文本生成词向量后，都要经过一个由LSTM和CNN组成的共享层，LSTM是一种链式神经网络结构用来传播历史信息，CNN可以则是采用多个卷积核并行的提取文本的局部特征，LSTM和CNN结合起来可以更加全面的提取文本的深层语义特征。共享LSTM和CNN层如图3所示。下面主要介绍这两个深度学习网络层。

LSTM层，RNN是一种适合序列建模的神经网络，对历史信息带有记忆功能[11]。LSTM是一种特殊的循环神经网络，能够在更长的序列中有更好的表现。相比RNN只有一个传递状态，LSTM有两个传输状态，分别是细胞状态ct、隐藏层状态ht。虽然提出了很多LSTM变体，考虑模型的训练时间，在这项工作中采用标准的LSTM结构。

LSTM的核心思想是利用记忆细胞和门机制管理，其中令xt为当前时间步的输入，ht-1为上一时刻隐藏层的输出，每一个LSTM单元包括三个门，分别是遗忘门ft、输入门it、输出门ot，。而这三个门作用就是决定如何更新细胞状态ct、隐藏层状态ht。LSTM每个时间步的计算公式如下：

f_t＝σ(W_f·[h_t-1,x_t]+b_f) (2)

i_t＝σ(W_i·[h_t-1,x_t]+b_i) (3)

o_t＝σ(W_o·[h_t-1,x_t]+b_o) (6)

h_t＝o_t*tanh(c_t) (7)

上述公式中，W表示权重矩阵，b表示偏置值。σ是sigmoid函数，输出在[0,1]之间，tanh是双曲正切函数，输出在[-1，1]之间，所有门的值和隐藏层的输出值在[0，1]之间。

CNN层，LSTM的输出矩阵作为卷积层的输入，使用一个包括滤波向量的一维卷积在序列上滑动并在不同的位置检测特征。卷积核的宽度与LSTM输出特征向量的维度一样，本文使用不同窗口的多个卷积核提取丰富的文本局部特征。让hi∈Rd为LSTM输出矩阵的第i个d维向量，F∈Rk*d代表一个滤波器的矩阵。这样，一个特征被表示为：

c_i＝f(w·x_i:i+k-1+b) (8)

式中f为非线性激活函数，本文使用ReLU，b为偏置项。

经过卷积操作后，可以得到一个n-k+1维的向量c，形如：

C＝[c₁,c₂,…,c_n-k+1] (9)

在卷积层后进行池化操作，池化的特点之一就是固定卷积后矩阵维度的大小，还能降低输出结果的维度。本文使用了最大池化得到特征向量中最大的值，因Zhang等人[24]的研究表明最大池化在各种句子分类任务中始终比其它池化策略表现得更好。以这种方式，对于每个卷积核，得到了最显著的特征:

经过池化之后，还需将不同卷积核得到的特征值拼接起来，得到最终的特征向量，表示为：

输出层指的是：最后一层是输出层，每一个任务的文本表示分别输入到特定任务的Softmax层中，进行情感分类。一共有k个任务，因此要输入到k个Softmax层中，令m为其中的第m个任务，利用Softmax函数计算第m个任务的样本每一个情感类别的概率，被表示为：

更新网络参数不断地最小化交叉熵损失值，某任务中某个样本的损失值被表示为：

yc为某个样本的真实值，

为预测概率值，C为样本的类别数。

实施例2，如图1至图5所示，为了验证本文提出的模型，采用收集的16个不同的情感分类数据集。其中14个数据集是来自不同领域的亚马逊商品评论，包括books、electronics、DVD、kitchen、appearel、camera、health、music、toys、video、baby、magazines、software、sports，目的是把商品评论情感分为积极地和消极地，这些数据集是根据Blitzer等人的数据集收集的。另外2个数据集是关于电影评论的，包括IMDB和MR，IMDB首先被Maas等人提出，它是用于情感分类的一个基准数据集，是一个大型的电影评论数据集，包含完整的评论。MR被Pang等人提出，它包含从“烂番茄网”提取的积极和消极评论。这十六个不同任务的数据集，其中每个任务有两千条数据，积极地和消极地分别为一千条。标记样本被随机分为训练集、验证集和测试集，比例分别为70％、20％和10％。

模型的参数最终根据模型的性能以及训练时间选择。本文使用Collobert等人训练的SENNA词向量，维度是50维的，在实验表现出不错的效果。考虑到时间问题，仅仅使用了最原始的LSTM，隐藏层的维度设为100。本文分别实验了不同的卷积核尺寸和数量，最终卷积核尺寸设为(1、2、3)，每一个卷积核的个数为100。把dropout值设为0.7能有效的减小过拟合。使用了Adam优化器和反向传播策略对模型进行训练，样本的批次设置为16，学习率为0.0005。表1展示了我们所实验过的不同参数设置范围以及模型使用的最终的设置。

表1：参数设置

Table1 parameter settings

将本文提出的模型MTL-LC与几种基线模型进行比较，包括单任务神经网络模型与先进的多任务神经网络模型，比较模型如下所示：

LSTM：长短时记忆网络，单任务的文本分类模型，分别用每个任务的样本进行训练和测试。

CNN：卷积神经网络，它也是单任务文本分类模型，实验设置与本文相同。

MTL-DNN：共享DNN模型[8]，使用词袋输入，共享一个隐藏层。

MTL-CNN：多任务卷积神经网络模型[7]，其中查找表部分是共享的，其它层比如CNN是基于特定任务的。

FS-MTL：完全共享循环神经网络模型[9]，此模型是将所有的任务共享一个LSTM模型，每个任务从特定的输出层输出。

ASP-MTL：对抗多任务学习模型[10]，使用对抗训练和正交约束，将共享特征和私有特征划分更细。

IC-MTL：图多任务学习框架。在这个框架中，不同的任务可以相互通信，共享层可以发送信息到某一任务中。

模型对比，采用16个亚马逊商品评论数据集和电影评论数据集，本文的模型MTL-LC与其它基线模型对比结果在如表2中。

表2：与其它模型对比(％)

Table 2:Compared with other models(％)

将利用分类准确率对实验结果进行评价。其中前两种方法是单任务深度学习方法，分别对每个任务建模进行情感分类。而其它的方法是多任务学习方法，对多个任务的数据集进行共同建模，多任务学习模型的结果来自。表2展示了16个任务使用不同的模型的准确率，之后的讨论都是以每个模型的平均准确率进行对比。从表2可以看出，除了MR数据集，在其它数据集中，本文提出的模型MTL-LC是优于其它模型的。之所以MR的提升不明显，甚至相比有的多任务模型略有下降，是因为MR的每条样本长度仅仅只有21，相对其他数据集太小，不容易获得很好的文本表示。相比单任务模型，多任务模型准确率都有一定的提升，单任务LSTM、CNN方法准确率分别为81.2％和80.1％。多任务FS-MTL和MTL-CNN方法准确率分别为84.7％和84.5％，比单任务模型分别提升3.5％和4.4％，而MTL-LC模型比单任务模型分别提升了8.9％和10％，由此可见，将多个任务的文本利用起来，能显著提升模型准确率。多任务模型MTL-LC比MTL-DNN、MTL-CNN和FS-MTL都有很大的提升，准确率分别提升了5.8％、5.6％和5.4％，说明采用多任务学习的方法，将LSTM和CNN网络结合起来的有效性，能获得更充分的文本表示，提升模型的性能。

在FS-MTL方法中，完全共享一个LSTM层，获取文本表示，每个任务的文本表示分别输入到不同的输出层进行情感分类。可以看出FS-MTL是比MTL-DNN和MTL-CNN模型的准确率略有提升，一部分原因是MTL-DNN采用词袋输入丢失了语义信息，MT-CNN仅仅共享了词嵌入部分。ASP-MTL是对FS-MTL的改进，加入了一个私有层提取每个任务的私有特征，并且采用了对抗训练和正交约束将共享层和私有层精确的划分，准确率达到了86.1％。与之前方法不同的是IC-MTL可以实现不同任务之间的通信。而本文的模型MTL-LC也是针对FS-MTL的改进，在LSTM获取文本表示之后加入了不同窗口的多个卷积核对并行提取文本的局部特征，因为卷积层是并行提取特征，所以模型的训练速度是很快的，MTL-LC的准确率也比FS-MTL、ASP-MTL、IC-MTL分别提升了5.4％、4％、2.8％。以上分析表明我们的方法优于这些对比方法，证明了我们的方法的有效性。

为每一个任务构建一个单任务深度学习模型single-LC，同样在LSTM层之后采用卷积核提取特征，分别对每个任务进行训练，其它的设置保持不变。图4展示了每个数据集在本文提出的模型MTL-LC和single-LC模型准确率的对比。对single-LC平均一次训练的所有任务的时间总和与MTL-LC的时间进行对比，同时也对将两个模型平均每个任务的准确率进行对比。MTL-LC与single-LC模型时间及准确率对比如表3所示。

由图4可以看出，相比single-LC模型，本文提出的MTL-LC模型每个任务的准确率都有显著的提升。由表3可知，MTL-LC模型平均每个任务的分类准确率比single-LC提升6.5％，证明了多任务学习能够提高模型的准确率。本文的模型平均每次训练的时间比每个任务训练single-LC模型时间总和快213.1秒，可以证明多任务学习方法能能够提高模型的训练速度。总之，本文的方法在时间和性能上都优于单任务方法。

表3 MTL-LC与single-LC模型准确率与时间比较

Table 3 Comparison of accuracy and time between MTL-LC and single-LC

为了验证不同窗口卷积核对分类效果的影响，本节采用不同的卷积核窗口进行实验，实验结果如表4所示。

表4 MTL-LC模型使用不同卷积核的准确率对比

Table 4 Comparison of the accuracy of MTL-LC models using differentconvolution kernels

由表4可知，采用不同的卷积核窗口比只使用一种卷积核窗口的分类准确率有一定的提升，当窗口大小选(1，2，3)时，比只选用1，2和3准确率分别提升1.5％、0.6％和0.9％，也比其它的不同窗口组合准确率高，因此选择合适的卷积核窗口对模型的分类性能会有一定的提升。卷积核用来提取文本的局部特征，采用具有相同窗口的不同数量的卷积核可以学习互补的特性。实验结果可以说明采用不同窗口的卷积核可以获得不同高度视野下的局部特征，因此可以获取更加丰富的文本特征。

通过实验探索领域的数量对本文模型性能的影响。在我们的实验中，将不同数量领域的文本输入到模型进行训练，以Books，Electronics、DVD和Kitchen这4个领域为基准，领域的数量从1增加到16，步长为3。这4个领域在本文方法的准确率，如图5所示。

由图5所示，随着领域数量的增加，这4个领域的评论分类准确率也在逐渐增加，其中从1个领域到10个领域，准确率上升较为显著。可见领域的数量对本文模型准确率影响很大。因为多任务学习能够起到一个扩充数据量的作用，不同领域的样本很多表达是相似的，具有相关性。领域数量增多，样本的数量也会呈线性增加，可以有效解决有标签样本的问题。多个任务在浅层共享，可以削弱网络的能力，一定程度上防止过拟合。同时多个领域的文本也会有不相关的部分，学习一个任务时与该任务不相关的部分可以作为噪声，提高模型的泛化能力。

本实施方式只是对本专利的示例性说明，并不限定它的保护范围，本领域技术人员还可以对其局部进行改变，只要没有超出本专利的精神实质，都在本专利的保护范围内。

Claims

1.用于多领域文本分类的循环卷积多任务学习方法，其特征在于，包括以下步骤：

步骤d，特征提取；先将词向量输入到长短期记忆网络LSTM获取长短期依赖，再输入到卷积神经网络CNN中获取文本的局部特征，将不同任务数据集的文本输入到一个共享深度学习模型中；

2.根据权利要求1所述的用于多领域文本分类的循环卷积多任务学习方法，其特征在于，还包括以下步骤：

步骤f，模型训练；随机选择一个任务里的一批样本；通过该模型示例计算梯度；采用Adamax规则更新模型参数；

3.根据权利要求1所述的用于多领域文本分类的循环卷积多任务学习方法，其特征在于，所述步骤d中长短期记忆网络LSTM每个时间步的计算公式为：

f_t＝σ(W_f·[h_t-1,x_t]+b_f)

i_t＝σ(W_i·[h_t-1,x_t]+b_i)

o_t＝σ(W_o·[h_t-1,x_t]+b_o)

h_t＝o_t*tanh(c_t)

上述公式中，W表示权重矩阵，b表示偏置值，σ是sigmoid函数，输出在[0,1]之间，tanh是双曲正切函数，输出在[-1，1]之间，所有门的值和隐藏层的输出值在[0,1]之间。

4.根据权利要求1所述的用于多领域文本分类的循环卷积多任务学习方法，其特征在于，所述步骤e中Softmax函数公式为：

式中，W为要学习的权重，b为偏置，C为样本情感分类的类别数，令m为其中的第m个任务。