CN110728153A

CN110728153A - 基于模型融合的多类别情感分类方法

Info

Publication number: CN110728153A
Application number: CN201910976409.XA
Authority: CN
Inventors: 王晓晔; 薛颖斌; 周晓雯; 孙嘉琪; 张德干
Original assignee: Tianjin University of Technology
Current assignee: Tianjin University of Technology
Priority date: 2019-10-15
Filing date: 2019-10-15
Publication date: 2020-01-24

Abstract

基于模型融合的多类别情感分类方法。一种基于Bert模型和Liblinear模型相融合的多分类方法。首先利用Bert模型在数据预处理方面的突破性进展对训练文本集进行预处理，与类别标签数据结合，获取文本的特征向量，将非结构化的文本数据转化成结构化的训练集合，再转化为Liblinear模型的标准输入数据，进行分类模型的构建。而Liblinear采用一对多的分类机制，有效的解决了多类别分类任务中的类别分布不平衡问题。本发明通过实验将结合Bert向量模型与Liblinear多分类模型的分类结果与几种经典的多分类方法进行对比。实验结果表明将Bert模型和Liblinear相结合来处理文本多分类情感分类问题时，准确度更高。

Description

基于模型融合的多类别情感分类方法

技术领域

本发明属于自然语言处理技术与情感分析领域，具体地说是一种基于深度学习的模型融合的多类别情感分类方法。

背景技术

近年来，随着电商平台的迅猛发展，越来越多的用户将电商平台的评论信息作为是否消费的重要参考标准。因此对于在线评论文本的情感分析工作与研究具有重要意义。评论文本的情感分析不仅对于深刻理解商家和用户、挖掘用户情感等方面有至关重要的价值，而且在互联网行业有极其广泛的应用，主要用于个性化推荐、智能搜索、产品反馈、业务安全等。但是在对复杂且繁多的评论信息进行多分类情感分析时，一般的采样、数据合成以及加权的方式均存在分类准确率低、消耗时间长的问题。

针对日益提高的分析需求以及日益多样化和复杂化的语言环境，细粒度的情感分析已经成为研究重点。细粒度层次情感分析主要包括对属性词以及情感词的抽取以及匹配工作。在情感词抽取工作方面，Cruz等通过PMI,随机森林等算法对情感词典进行扩展；Moghaddam等利用Epinions.com上标准形容词并结合WordNet同义词，通过距离加权最近邻算法进行情感词抽取工作；Lin等使用共同情感话题模型(joint sentiment-topic，JST)进行情感词抽取。JST模型是基于4层分层贝叶斯模型的修正LDA模型。JST模型可以从文本中抽取出正向和负向的话题。在评论对象的属性抽取工作方面，Liu等基于笔记本电脑评论自动化构建基于产品特征和情感词的模糊领域情感本体树来进行情感分类；Lau等构建包含显式和隐式产品属性特征的本体以及基于语境的情感词本体，并使用LDA和Gibbs模型抽取显式和隐式的产品特征。还有一部分研究者通过机器学习方法抽取评价对象的显式，隐式属性。例如，Wang等使用细粒度Labeled LDA模型和统一的细粒度Labeled LDA模型进行显式产品特征抽取；Yan等使用基于同义词词典扩展的Pagerank算法进行产品显式特征抽取；Bagheri等使用bootstrapping算法、FLR算法和基于图的评分等方法识别显式和隐式评价对象属性；Xue等使用基于LDA的显式属性抽取模型和支持向量机算法对隐式属性进行抽取；Qiu等使用How Net和聚类算法从评论文本中进行隐式评价对象属性抽取。

文本分类是一种将文本信息按照分类模型进行自动归类的信息处理技术。多类别文本分类问题是文本分类中的一种常见问题。很多的多类别文本分类方法假设文本的类别数确定.模型训练的过程则是对这些确定的类别进行离线训练的过程。

然而，现实中的数据往往具有高维和类不平衡双重特征，即数据属性较多且类别分布不均匀，在高维特征空间下，数据类别的分布更加稀疏，含有更多的冗余或不相关特征，少数类更加难以识别，获取有效信息更加困难。

发明内容

本发明的目的是为了解决现有技术存在的多类别分类任务中的类别分布不平衡问题，提出一种基于模型融合的多类别情感分类方法，将Bert(Bidirectional EncoderRepresentation from Transformers)模型和Liblinear(ALibrary for Large LinearClassification)模型(简称B-liblinear模型)相融合，更好地处理文本多分类情感分类问题。

本发明的技术方案

一种基于模型融合的多类别情感分类方法，按照如下步骤进行：

步骤1，语料预处理。首先将各个数据集进行分词处理，分词使用jieba库，去掉停用词。建立词典时，过滤掉出现次数小于5的词语。

步骤2，词嵌入层。将预处理完成的语料放入Bert-base-Chinese模型中，进行训练，提取其中的词向量输出层，得到词向量矩阵。

步骤3，特征提取。提取Bert-base-Chinese模型中训练完成得到的词向量，放入CNN(卷积神经网络)的输入层，经过CNN中卷积层和池化层进行特征提取；

步骤4，在步骤2中将预处理完成的语料放入Bert-base-Chinese模型中进行模型预训练时，分类模型的f1值达到最大时，保存模型。把Bert模型顶层输出的文本特征保存下来，得到文本的特征向量。

步骤5，将步骤4得到的文本的特征向量作为softmax层的输入，进行分类，提取通过softmax分类器得到的对20个细粒度的属性的分类的权重值。

步骤6，将步骤5提取出的属性分类的权重值转换为Liblinear模型标准的输入数据格式，作为Liblinear输入，训练Liblinear分类器，进行情感分类识别，从而获得待识别的评论数据的情感类别。

本发明的优点和有益效果

1)本发明提供的方法，解决了文本多类别情感分类问题。

2)本发明提供的方法利用先提取Bert模型中训练完成的词嵌入层中的向量，放入CNN的输入层，进行CNN中卷积层和池化层的特征提取，池化层操作中主要提取的是对卷积运算所得到的列向量中的最大值进行提取，使得Bert模型具有提取文本情感特征的能力，再提取特征传输给Liblinear模型做分类Precision、Recall、F1值分别是0.72,0.76,0.72，分类结果准确度较高。

3)本发明提供的方法还利用模型融合，充分发挥了各个模型的优点，实现了模型间的优势互补。

附图说明

图1是本发明基于模型融合的多类别情感分类方法流程图。

图2是本发明基于模型融合的多分类情感分类方法的框架图。

具体实施方式

下面对本发明的具体实施方式进行详细描述，但应当理解本发明的保护范围并不受具体实施方式的限制。

本发明采用的数据集为大众点评平台的用户对平台商家做出的评论数据，该数据集按照评价对象的粗粒度属性以及各个粗粒度属性所包含的细粒度属性共分为20个类，例如“服务”这一属性中包含两个细粒度属性，分别是“服务人员态度”、“排队等候时间”，除此之外，在每一条标记数据中还包含该数据对应各个细粒度属性的情感倾向值，每个细粒度要素的情感倾向有四种状态，分别是中性情感、正面情感、负面情感、未提及的情感。

使用的Bert的版本为12层的transformer中文模型。Bert模型能够进行无监督式预训练，可以迁移到其它的NLP任务中进行finetune。但是由于Liblinear无法直接与Bert进行反向传播训练，因此本实验中首先使用Bert和CNN加softmax进行模型预训练，使得Bert模型具有提取文本情感特征的能力。

步骤1.语料预处理

步骤1-1.首先将各个数据集进行分词处理，分词使用jieba库，去掉停用词。建立词典时，过滤掉出现次数小于5的词语。

步骤1-2.训练集、验证集、测试集组成的语料词典大小为66347,训练和测试中未出现的词，用<unk>表示。

步骤2.词嵌入层

步骤2-1.将预处理完成的语料放入Bert-base-Chinese模型中，进行训练，提取其中的词向量输出层，并未涉及到fine-tune阶段。其中输出的词向量768维。

将预处理的语料，计算每一句话的句向量W＝{w₁,w₂,.....,w_n}，其中每个词w_i对于这句话中的所有词的相互关系，根据每一个词的相互关系来调整词与词之间的关联程度，利用其中的关联程度，来调整每个单词的权重。

步骤2-2.语料中的初始句向量矩阵，通过三个字向量矩阵Q、K、V，三个字向量是初始的句向量矩阵，三个字向量矩阵经过公式(1)的运算，将句子中的各个单词的词向量重要性的权重表示为V＝{v₁,v₂,......,v_n}

其中d_t代表字向量矩阵K的维度。

步骤2-3.针对Attention的计算，无法准确抽取句子中每个单词的位置信息，本发明采用了Transformer模型中位置嵌入的方式添加时序信息。如公式(2)(3)。经过上述公式的计算，将句向量中每个单词的位置信息和类型嵌入信息分别表示如下：P＝{p₁,p₂,........,p_n},L＝{l₁,l₂,......,l_n}

其中，pos代表的是第几个词即单词的位置，i代表embedding中的第几维即表示单词的维度。d_model表示的是模型的维度。

步骤2-4.在词嵌入层，向下层cnn输入层传入的是句向量矩阵V、句向量的位置信息P和句向量的类型信息L。三个矩阵点积形成维度为768维的词向量矩阵。

步骤3.特征提取

步骤3-1.提取Bert模型中训练完成的词嵌入层中的向量，放入CNN的输入层。设X_i∈R^k为一句话中的k维的第i个词的词向量，一句话由n个单词组成，那么句向量表示如下：

步骤3-2进行cnn中卷积层和池化层的特征提取，通过一组不同大小的卷积核(Filter)h_i×k(h_i是卷积核窗口中包含的词数)，对文本进行从前向后的卷积运算，得到若干个特征映射。设得到的特征映射为c_i，其卷积核窗口包含的词为X_i：X_i+h-1，则c_i表示如下：

c_i＝f(W·X_i:i+h-1+b) (5)

随卷积核窗口的移动，会得到若干个特征映射，即为C＝[c₁,c₂,...,c_n-h+1]。池化层操作中主要提取的就是对卷积运算所得到的列向量中的最大值，即C中的最大值。

步骤4.在进行模型预训练时，分类模型的f1值达到最大时，保存模型。把Bert模型顶层输出的文本特征保存下来，得到文本的特征向量。

步骤5将步骤4得到的文本的特征向量作为softmax层的输入，进行分类，提取通过softmax分类器得到的对20个细粒度的属性的分类的权重值。

步骤6.将提取出来的20个细粒度的分类的权重值，转换成Liblinear的标准输入的数据格式，作为Liblinear模型的输入。最后Liblinear最后输出的20个细粒度的分类情况，如表1所示。

表1、实验情感倾向分类结果展示

步骤6-1.Liblinear分类器中分为两种,l2正则化L1-和l2损失支持向量分类(L2-regularized L1-and L2-loss Support Vector Classification)，本发明选择的是l2正则化分类器。本发明使用公式(6)(7)计算出20个细粒度中，4种情感倾向的权重的层级化，加重其中情感倾向明确的权重值，降低边缘值的权重。

其中e是所有的输出的向量，

D是一个混合矩阵。

步骤6-2.在训练时，本发明将Liblinear函数的参数设置如下，其中损失函数值设为0.0001,0.001,0.002,0.003,0.1,0.5,1，其中迭代终止条件的容忍度设为0.001。

步骤7.本发明将以用户评论20个细粒度情感维度下的F1值的均值作为本实验结果的评价指标，具体计算方式如公式(8)：

其中F_{1_score} _mean _(i)对应的细粒度情感维度下的macroF1,macroF1为单模下的F1值，F_{1_score} _mean 为这20个细粒度情感维度下的F1值的均值，即为最终结果的评价指标。F_{1_score} _mean _(i)可通过公式(10)得出，其中以及

计算公式详见(11)，(12)。

经过上述步骤的操作，得到实验的结果的准确率、召回率和F1值如表2实验结果展示所示。

为了验证本发明提出的多类别情感分类模型的准确性和有效性，本发明与以下4种多分类方法作对比。

FastText：主要是通过将整篇文档的词及n-gram向量叠加平均得到文档向量，然后使用文档向量做softmax多分类。

LibSVM：主要是通过TF-IDF得到整篇文档的向量，提取出文本特征，再使用libsvm(一对一分类机制)进行分类。

Liblinear：主要是通过word2vec得到文档向量，再转化为liblinear的标准输入，作为liblinear的输入进行多分类。

Bert+softmax：使用bert和softmax进行反向传播训练模型，bert提取出文本的特征向量，传给softmax进行多分类。

B-liblinear：bert和cnn加softmax预训练模型获取数据集的文本特征向量，再将文本的特征向量转换为liblinear模型的标准输入数据格式，进行多分类。可见本发明，在实践中有实质性的结果。

表2、实验结果对比

Method	Precision	Recall	F1
				LibSVM	0.49	0.51	0.47
FastText	0.59	0.61	0.57
				liblinear	0.56	0.60	0.54
Bert+softmax	0.70	0.72	0.69
				B-liblinear	0.72	0.76	0.72

Claims

1.一种基于模型融合的多类别情感分类方法，其特征在于，包括如下步骤：

步骤1，语料预处理；首先将各个数据集进行分词处理，分词使用jieba库，去掉停用词；建立词典时，过滤掉出现次数小于5的词语；

步骤2，词嵌入层；将预处理完成的语料放入Bert-base-Chinese模型中，进行训练，提取其中的词向量输出层，得到词向量矩阵；

步骤3，特征提取；提取Bert-base-Chinese模型中训练完成得到的词向量，放入CNN的输入层，经过CNN中卷积层和池化层进行特征提取；

步骤4，在步骤2中将预处理完成的语料放入Bert-base-Chinese模型中进行模型预训练时，分类模型的f1值达到最大时，保存模型；把Bert-base-Chinese模型顶层输出的文本特征保存下来，得到文本的特征向量；

步骤5，将步骤4得到的文本的特征向量作为softmax层的输入，进行分类，提取通过softmax分类器得到的对20个细粒度的属性的分类的权重值；

2.根据权利要求1所述的基于模型融合的多类别情感分类方法，其特征在于，步骤2所述词嵌入层的具体操作方法是：

步骤2-1，将预处理完成的语料放入Bert-base-Chinese模型中，进行训练，提取其中的词向量输出层，其中输出的词向量为768维；

将预处理的语料，计算每一句话的句向量W＝{w₁,w₂,.....,w_n}，其中每个词w_i对于这句话中的所有词的相互关系，根据每一个词的相互关系来调整词与词之间的关联程度，利用其中的关联程度，来调整每个单词的权重；

步骤2-2，语料中的初始句向量矩阵，通过三个字向量矩阵Q、K、V，三个字向量是初始的句向量矩阵，三个字向量矩阵经过公式(1)的运算，将句子中的各个单词的词向量重要性的权重表示为V＝{v₁,v₂,......,v_n}

其中d_t代表字向量矩阵K的维度，softmax是其中的激活函数；

步骤2-3，针对Attention的计算，无法准确抽取句子中每个单词的位置信息，采用Transformer模型中位置嵌入的方式添加时序信息，通过公式(2)(3)的计算，将句向量中每个单词的位置信息和类型嵌入信息分别表示如下：P＝{p₁,p₂,........,p_n},L＝{l₁,l₂,......,l_n}

其中，pos代表的是第几个词即单词的位置，i代表embedding中的第几维即表示单词的维度；d_model表示的是模型的维度；

步骤2-4，在词嵌入层，向下层cnn输入层传入的是句向量矩阵V、句向量的位置信息P和句向量的类型信息L；三个矩阵点积形成维度为768维的词向量矩阵。

3.根据权利要求1所述的基于模型融合的多类别情感分类方法，其特征在于，步骤3所述特征提取的方法是：

步骤3-1，提取Bert模型中训练完成的词嵌入层中的向量，放入CNN的输入层；设X_i∈R^k为一句话中的k维的第i个词的词向量，一句话由n个单词组成，那么句向量表示如下：

步骤3-2，进行cnn中卷积层和池化层的特征提取，通过一组不同大小的卷积核(Filter)h_i×k，h_i是卷积核窗口中包含的词数，对文本进行从前向后的卷积运算，得到若干个特征映射；设得到的特征映射为c_i，其卷积核窗口包含的词为X_i：X_i+h-1，则c_i表示如下：

c_i＝f(W·X_i:i+h-1+b) (5)

随卷积核窗口的移动，会得到若干个特征映射，即为C＝[c₁,c₂,...,c_n-h+1]；池化层操作中主要提取的就是对卷积运算所得到的列向量中的最大值，即C中的最大值。