CN112925904A

CN112925904A - 一种基于Tucker分解的轻量级文本分类方法

Info

Publication number: CN112925904A
Application number: CN202110109055.6A
Authority: CN
Inventors: 张帅; 张鹏; 陈仁海; 甘国兵; 李孙竹
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2021-01-27
Filing date: 2021-01-27
Publication date: 2021-06-08
Anticipated expiration: 2041-01-27
Also published as: CN112925904B

Abstract

本发明公开一种基于Tucker分解的轻量级文本分类方法，该方法采用了一个轻量级分类(TDLM)模型，包括基于Tucker分解的局部特征抽取模块、基于全局标识的全局特征抽取模块和类别预测模块。基于Tucker分解的局部特征抽取模块通过分解TextCNN网络获取更加轻量低维的卷积层，这些轻量的卷积层不仅可以获取丰富句子的局部语义信息，而且计算速度更快，参数量更少；基于全局标识的全局特征抽取模块通过全局标识跟每个单词的交互和融合，获取句子的整体表示，增加句子分类时所需要的语义信息；最后通过类别预测模块融合模型学习到的局部特征和全局特征信息，得到更加准确且高效的文本分类标签。本发明克服了传统神经网络的运行速度慢，参数存储高等现状。

Description

一种基于Tucker分解的轻量级文本分类方法

技术领域

本发明涉及文本分类和模型压缩技术领域，具体讲，涉及针对某一文本句子快速高效判断其所属类别的文本分类方法。

背景技术

文本分类是自然语言处理中的一个基本任务，试图推断出给定的文本句子的标签，其应用是非常广泛，在许多场景都可以看到，比如垃圾邮件分类、意图识别、新闻主题分类，情感分析等。机器通过自动学习判断文本的类别，从而准确进行推荐和业务处理，是自然语言处理中常见的落地应用。随着web2.0和3.0的到来，互联网上的文本数据越来越多，文本分类越来越重要，同时处理的难度也在加大。传统的文本分类方法是基于机器学习知识，比如TF-IDF文本分类、逻辑回归和SVM等方法，这些方法训练的模型泛化能力有限，同时存在数据稀疏和维度爆炸等问题。随着神经网络的兴起，文本分类技术有了突破的发展，大致分为两类：

第一类就是利用神经网络(CNN和RNN)自动获取特征表达能力，实现端到端训练，比如TextCNN^[1]、TextRNN^[2]、TextRCNN^[3]等。TextCNN首先对句子做填充或者截断，保证句子的长度为固定值；之后通过多个一维卷积层(滑动窗口设置不一样)进行卷积运算，再通过pooling将不同长度句子变成定长的表示，最后接上全连接的softmax层输出句子的类别概率。TextCNN模型以较小的滑动窗口(滑动窗口的大小一般为2,3,4)捕获文本句子中的局部特征，可以得到不错的文本分类效果。其利用一维卷积同时滑动窗口设置比较小，相比于一般的网络，其运行速度较快；但是它只能捕获局部特征，全局特征是无法处理的，对于长序列句子分类问题，其无法胜任。同时它只有滑动窗口超参设置了很小值，比如输入通道数和输出通道数的设置依旧很大。对于需求更快的模型训练和推理速度，以及轻量模型的任务，这依旧有待改进。

第二类为大规模的预训练语言模型，比如Transformer^[4]、BERT^[5]等。BERT是基于语言模型的动态词向量，它的每一层都是一个双向的Transformer语言模型。其训练出来的词向量包含更加丰富的语义信息，可以解决一词多义问题，在许多下游任务中都取得了很好的效果。BERT在做文本分类任务时，增加了一个全局标识(CLS)，其通过自注意力机制学习CLS标识符与句子中每个单词的交互和单词之间的交互来训练句子CLS的表示，最后利用CLS表示预测句子类别。BERT学习了单词的全交互，获取了表示句子整体语义的CLS向量，最后在文本分类任务取得了当时的最好结果。但是BERT模型存在一个巨大的问题，其模型参数量很大，同时运行速度也很慢，比如其基础版本的参数量为110M，还有340M的版本，对于许多要求时效性的场景，其是很难适应的。

现在，为了获取更加轻量和高效的模型，许多张量分解技术也逐渐被应用到模型压缩研究中，比如CP分解^[6]、Tucker分解^[7]和BTD分解等。这些分解技术将原始的高阶张量分解为多个低维的向量和矩阵，这样模型在保存参数时，就可以只存储低阶张量，同时低阶张量在运算的过程中，有较快的计算速度和较低的参数量，所以其深受模型压缩工作的关注。

本发明利用不同模型的不同特征抽取能力(TextCNN模型具有局部特征抽取和较快的运行速度，BERT模型捕获全局表示来提高文本分类结果)，融合不同的特征表示来提高文本的预测准确率。同时利用张量分解技术进一步减低模型的复杂度，保证模型能够迅速给定预测结果，具有较小的参数，便于部署和安装。

为了获取轻量级的文本分类模型，目前的主要挑战有：

(1)TextCNN模型的一维卷积具有两个极大的参数设置(输入通道数和输出通道数)，如何选择合适的张量分解技术加快一维卷积层的训练速度，同时保证模型的特征抽取能力。

(2)BERT模型学习了所有的交互(单词之间以及单词与标识符之间)，故其具有很强的全局学习能力，但具有很高的模型复杂度，不利于部署运行。本发明如何利用BERT的全局学习能力，获得更加准确的全局特征表示，同时保证全局特征抽取方法不会过多增加模型的复杂度。

[参考文献]

[1]Kim,Yoon.“Convolutional Neural Networks for SentenceClassification.”Proceedings of the 2014Conference on Empirical Methods inNatural Language Processing(EMNLP),2014,pp.1746–1751.

[2]Liu,Pengfei,et al.“Recurrent Neural Network for TextClassification with Multi-Task Learning.”IJCAI’16Proceedings of the Twenty-Fifth International Joint Conference on Artificial Intelligence,2016,pp.2873–2879.

[3]Lai,Siwei,et al.“Recurrent Convolutional Neural Networks for TextClassification.”AAAI’15Proceedings of the Twenty-Ninth AAAI Conference onArtificial Intelligence,2015,pp.2267–2273.

[4]Vaswani,Ashish,et al.“Attention Is All You Need.”Proceedings ofthe 31st International Conference on Neural Information Processing Systems,vol.30,2017,pp.5998–6008.

[5]Devlin,Jacob,et al.“BERT:Pre-Training of Deep BidirectionalTransformers for Language Understanding.”Proceedings of the 2019Conference ofthe North American Chapter of the Association for Computational Linguistics:Human Language Technologies,Volume 1(Long and Short Papers),2018,pp.4171–4186.

[6]Astrid,Marcella,and Seung-Ik Lee.“CP-Decomposition with TensorPower Method for Convolutional Neural Networks Compression.”2017IEEEInternational Conference on Big Data and Smart Computing(BigComp),2017,pp.115–118.

[7]Cohen,Nadav,et al.“On the Expressive Power of Deep Learning:ATensor Analysis.”29th Annual Conference on Learning Theory,2016,pp.698–728.

发明内容

本发明所要解决的技术问题是克服现有技术的不足而提供一种基于Tucker分解的轻量级文本分类方法，利用基于Tucker分解的TextCNN网络抽取句子文本中局部语义信息，结合自注意机制训练一个全局的句子表示向量，融合这两种特征信息进行句子分类预测，并利用反向传播、随机梯度下降优化方法训练网络模型得到最优模型在测试集上预测结果，最终得到更加准确的分类结果。

本发明的目的是通过以下技术方案实现的：

一种基于Tucker分解的轻量级文本分类方法，该方法采用了一个轻量级分类(TDLM)模型，TDLM模型包括基于Tucker分解的局部特征抽取模块、基于全局标识的全局特征抽取模块和类别预测模块；

所述局部特征抽取模块用于抽取句子的局部语义信息，获取句子文本的浅层特征；局部特征抽取模块包括嵌入层、分解的卷积层和池化层；局部特征抽取模块的嵌入层是通过glove工具学习每个单词在word2vec模型中的嵌入表示，每个单词都是由一维稠密向量表示；之后用基于Tucker分解的TextCNN模型来获取句子文本中的n-gram特征表示；最后通过利用最大池化操作处理卷积层的输出，局部特征抽取模块的最终输出是若干个一维向量表示即局部特征向量，包含句子中的局部信息；

基于全局标识的全局特征抽取模块用于构架句子中的全局语义信息，从而建模句子的整体表示，提高文本分类结果；全局特征抽取模块利用自注意力机制来获取全局单词交互；全局特征抽取模块分为了嵌入层、注意力计算和全局表示部分；全局特征抽取模块的嵌入层分为两部分，其一是句子中每个单词的嵌入表示，此处与局部特征抽取模块的嵌入层保持一致，二是全局标识向量即句子向量表示，全局标识向量表示句子的整体语义，TDLM模型训练时先随机初始化，之后通过神经网络的端到端过程实现自动学习；注意力计算通过自注意力机制将句子向量与每个单词向量进行内积运算，得到句子与每个单词之间的相似度得分，再利用得分和单词向量表示获取句子的一个全局表示即句子向量表示；

类别预测模块用于预测句子最后的分类类别，对比目标值计算loss，然后反向传播，不断更新TDLM模型的参数；类别预测模块的输入为局部特征抽取模块输出的局部特征向量和全局模块输出的句子向量表示；类别预测模块将局部特征向量与句子向量表示进行拼接，然后通过一个线性层和softmax层输出句子的预测类别。

进一步的，TDLM模型采用张量分解技术减少原始TextCNN模型的参数量，加快TextCNN模型的运行速度，同时增加一个全局标识和注意力机制提高文本分类结果。

与现有技术相比，本发明的技术方案所带来的有益效果是：

1.本发明提出的轻量级文本分类模型(TDLM)利用张量分解技术将TextCNN模型的参数矩阵分解为更小的矩阵，TDLM从而具有更小的参数量，在CR和MPQA数据集上，其比TextCNN减少了28％，比Transformer减少了40％；同时TDLM运行速度(包括训练和推理)相比TextCNN和Transformer提高了2到3倍；

2.TextCNN模型利用滑动卷积和池化等操作，具有很强的局部特征建模能力；注意力机制通过建模序列中所有单词之间的交互作用，学习了序列全局语义信息。TDLM模型通过这两个模块可以同时学习文本中的局部信息和全局语义，融合两种特征表示，提高文本分类的准确率，增加轻量级模型的表达能力；

3.本发明克服了传统神经网络的运行速度慢，参数存储高等现状，充分利用了TextCNN神经网络的局部抽取能力，以及利用预训练语言模型的全局表达能力，同时通过张量分解技术分解参数矩阵，从而获得了一种轻量级的文本分类模型。该模型可以迅速做出分类决断，适用于移动设备或者资源受限环境部署安装，同时为要求强调时效性的推理场景提供了新的思路。

附图说明

图1为本发明的方法流程图；

图2为基于Tucker分解的轻量级文本分类模型图。

具体实施方式

下面结合附图进一步详细描述本发明的技术方案，但本发明的保护范围不局限于以下所述。

本发明保护一种基于Tucker分解的轻量级文本分类方法，包括基于Tucker分解的局部特征抽取模块、基于全局标识的全局特征抽取模块和类别预测模块；

局部特征抽取模块用于抽取句子的局部语义信息，获取句子文本的浅层特征。首先确定TextCNN网络的各个参数设置(主要包括滑动窗口大小，卷积层数，输入通道数和输出通道数)，之后初始化一个TextCNN网络，利用张量分解技术将该TextCNN网络分解为轻量级的卷积网络。例如，原始TextCNN的卷积核为k×D_in×D_out，其中k为滑动窗口的大小，表达了局部特征抽取能力；D_in为输入特征的大小，即单词的词向量维度；D_out为输出特征大小。经过张量技术分解后，该卷积核就变为K×d×d+d×D_in+d×D_out，d为分解所选择的秩，一般设置很小，这样卷积核的参数量就大大减小，计算速度也会加快。最后利用分解之后的卷积层抽取词向量矩阵中的信息，并使用max pooling池化卷积输出，获得最大的特征值，输出一个D_out维向量(C)。为了提取不同的信息，本实施例中使用t种不同尺寸的卷积核进行特征抽取，因此TextCNN网络模块最终会输出t个不同的D_out维向量(Cⁱ)。

基于全局标识的全局特征抽取模块：首先初始化一个D_out维的向量S^l(即句子向量，表示句子的整体表示)，之后利用一个线性层将词向量矩阵映射到一个新的空间，然后对S^l向量和映射后的词向量矩阵进行矩阵乘法，得到句子向量与每个单词的相似度，最后利用相似度得分不断更新句子向量S^l，输出该向量。

类别预测模块：其首先拼接以上两个模块的输出x＝[S^l,C¹,…,C^t]，然后将拼接的向量输入到一个预测层(线性层和softmax层)，就可以得到预测类别。

见图1显示了本方法提出的文本分类方法的流程；图2显示了本发明设计的神经网络文本分类模型。本发明方法的具体操作步骤如下：

(1)遍历数据集的所有句子，确定数据集的固定句子长度n(一般为数据集中的最大句子长度)，填充数据集中的所有句子，缺失的地方补0，保证所有句子定长，便于卷积和自注意力计算。

(2)运用glove工具得到句子中每个单词的300维词向量w_i，构建词向量矩阵E＝[w₁,…,w_n]，矩阵每一个列表示一个单词，TDLM模型初始化阶段直接使用外部训练好的向量加载该矩阵，在该模型训练过程中该词向量矩阵不会优化。

(3)初始化一个TextCNN，分解其中的卷积核，将原始卷积网络设置成更小的卷积网络，运用方法如下：

(301)初始化一个TextCNN网络，该网络有t＝3组卷积计算，每组卷积都是一维卷积，卷积核大小为kⁱ×D_in×D_out，其中k¹＝2，k²＝3，k³＝4。

(302)对每一组卷积的卷积核的输入通道(D_in)和输出通道(D_out)进行Tucker分解，滑动窗口对应维度kⁱ不做分解。分解形式如下：

通过上述形式，可以将维度为k×D_in×D_out的卷积核分解为3个小张量，其大小依次为D_in×d，d×d×kⁱ，d×D_out。参数压缩比为k×D_in×D_out/d(kd+D_in+D_out)，在本实施例中设置d＝10,D_in＝300,D_out＝256。由此可知，对于卷积核为4×300×256，该压缩比可以达到50倍左右。同时小卷积核在计算卷积的过程中，运行时间会更快。

(303)由上一步分解得到的3个小张量分别构建3个新的卷积核，其大小依次为D_in×d×1，d×d×kⁱ，d×D_out×1。将句子对应的词嵌入矩阵E依次通过这3个卷积核进行卷积计算，前一个卷积核的输出将作为后一个卷积核的输入，最终输出一个大小为(n-kⁱ+1)×D_out的特征矩阵。

(304)在上一步输出的特征矩阵的第一个维度上进行max pooling，输出1个D_out维特征向量(Cⁱ)。对于t组不同的卷积，一共输出t个特征向量[C¹,…,C^t]。

(4)基于全局标识的全局特征抽取模块主要使用了自注意力机制，首先初始化一个全局标识向量，然后利用自注意力机制更新该全局标识向量。运用方法如下：

(401)初始化一个D_out(256)维向量

其表示一个全局标识，在模型的训练过程中，该向量不断更新，最终用于表示句子的整体语义；

(402)计算该全局标识向量与句子中所有单词的注意力分数矩阵A，分数用向量内积求得，矩阵A中的每一个值表示该全局标识与其他单词之间的相似度；

K＝EW^k

其中

为权重参数，可训练，

D_in为词向量的维度，D_out为TDLM模型输出的维度，n为句子的长度，softmax为激活函数。

(403)之后利用注意力分数更新全局标识向量，并输出：

S^l＝AV

其中

V＝K，在自注意机制中，K和V是E跟不同的参数矩阵相乘得到，在本发明中，为了减少TDLM模型的参数量，共享这两个矩阵。

(5)拼接步骤(3)和(4)的输出，通过预测层输出TDLM模型的预测标签值，具体如下：

O＝softmax(XW^o)

X＝concat(S^l,C¹,…,C^t)

其中

r为总类别数，t为卷积层的输出特征数，O表示该句子属于不同类别的概率，计算该概率值与真实值之间的交叉熵，然后反向传播，不断更新TDLM模型的参数。

(6)最后在多个分类数据集上进行训练和测试，测试的指标为TDLM模型分类的准确率(百分比)，参数量(M)和训练时间(s/1000步)。关于各个分类数据集的详细描述如表1所示，包括训练集样例总数、验证集样例总数、测试集样例总数和数据集中固定句子长度。相比起原始的TextCNN网络和Transformer，表2和表3表明了本发明有更高的准确率、更小的参数量和更快的运行速度。同时也进行了消融实验，分析本发明各个模块的作用，如表4所示。经过Tucker分解之后的TextCNN网络有着较少的参数和较快的运行速度，基于全局标识的特征抽取模块可以提高TDLM模型的整个分类效果。

表1各分类数据集的统计结果

表2各模型在CR和MPQA分类数据集上的对比结果

表3各模型在MR分类数据集上的对比结果

表4各模块(局部和全局)在MR和IMDB分类数据集上的对比结果(标识为0表示不使用全局特征抽取模块，为1表示使用。)

本发明并不限于上文描述的实施方式。以上对具体实施方式的描述旨在描述和说明本发明的技术方案，上述的具体实施方式仅仅是示意性的，并不是限制性的。在不脱离本发明宗旨和权利要求所保护的范围情况下，本领域的普通技术人员在本发明的启示下还可做出很多形式的具体变换，这些均属于本发明的保护范围之内。

Claims

1.一种基于Tucker分解的轻量级文本分类方法，其特征在于，该方法采用了一个轻量级分类(TDLM)模型，TDLM模型包括基于Tucker分解的局部特征抽取模块、基于全局标识的全局特征抽取模块和类别预测模块；

2.根据权利要求1所述的一种基于Tucker分解的轻量级文本分类方法，其特征在于，TDLM模型采用张量分解技术减少原始TextCNN模型的参数量，加快TextCNN模型的运行速度，同时增加一个全局标识和注意力机制提高文本分类结果。