CN110609899B

CN110609899B - 一种基于改进bert模型的特定目标情感分类方法

Info

Publication number: CN110609899B
Application number: CN201910809516.3A
Authority: CN
Inventors: 高正杰; 宋馨宇; 冯翱
Original assignee: Chengdu University of Information Technology
Current assignee: Chengdu University of Information Technology
Priority date: 2019-08-29
Filing date: 2019-08-29
Publication date: 2022-04-19
Anticipated expiration: 2039-08-29
Also published as: CN110609899A

Abstract

本发明涉及一种基于改进BERT模型的特定目标情感分类方法，包括：采集公开或自行构造的数据集，对自行构造的数据集进行人工标注，初始化BERT模型参数后将采集的数据集作为模型的输入，数据集中的句子经过分词处理后全部输入到模型中，得到目标词的编码，对目标词的编码进行进行最大池化处理、全连接层、函数分类得到分类结果，对多目标任务，将全连接输出结果利用神经网络进行不同目标之间的特征组合，然后进行分类。本发明的技术方案在进行特定目标情感分类时，对目标词与整个句子的上下文建立很好地编码联系，提高了分类的准确性和泛化能力。进一步的，将多个目标的分类结果利用神经网络进行串连处理，提取出不同目标之间的内在联系和相互影响。

Description

一种基于改进BERT模型的特定目标情感分类方法

技术领域

本发明涉及自然语言处理领域，尤其涉及一种基于改进BERT模型的特定目标情感分类方法。

背景技术

伴随着经济和互联网技术的高速发展，人们越来越乐于在网络平台上发表个人的意见和观点，面对大量带有丰富情感色彩的文本数据，如何有效地从中分析出人们对于实体及其属性所表达的观点、情感、评价、态度和倾向，从而为企业或者个人的决策提供一定的依据，已成为学术界和工业界广泛关注的问题。

针对特定目标的情感分类任务是细粒度情感分析任务的子任务之一，该任务是为了识别句子中出现的实体或目标词的情感倾向，对于该任务的解决方法有三种思路：基于情感词典、规则和机器学习的方法，基于传统词嵌入的深度学习方法以及基于BERT预训练模型的深度学习方法。

基于情感词典的方法主要是通过构建情感词典以及一系列的规则来判断文本的情感极性，或者通过从文本中筛选出一组具有统计意义的特征，然后利用机器学习的方法构建分类模型，常见的分类模型有朴素贝叶斯、最大熵和支持向量机等。基于深度学习的方法是目前使用最广泛的方法，深度学习模型可以从输入的文本词向量表达中自动提取特征，通过多层神经网络，将低层语义特征组合成高层语义特征。关于输入的词向量部分，一类是以Word2Vec和Glove为代表的传统词嵌入模型训练所得到的静态词向量，在训练神经网络模型时通过查表的方式将已经训练好的静态词向量输入；另一类是以BERT为代表的支持可迁移学习的新型动态词向量模型，训练阶段将BERT的整个模型进行迁移学习，生成文本在特定场景下的词向量。

现有的技术方案主要有：

从语言学角度出发，依靠一些已有的情感词典或领域词典以及一系列的规则构建情感分类器。情感词典的维护需要耗费大量的人力物力，并且随着新词的不断涌现，己经不能满足应用需求，亟待改进与优化。

由领域专家从文本中筛选出一组具有统计意义的特征，然后使用机器学习算法构建分类器判断文本的情感极性。对不同的数据集，需要专家选取不同的特征，投入的成本较大，不同的特征选择方法会使得最终的分类结果差异较大，在不同的数据集上也可能存在差异很大的表现，模型的泛化能力较差。另外，传统方法多采用词袋模型，无法表示词语间的关系以及目标词所处句子中的上下文信息。

采用Word2Vec或者Glove的方式训练词向量，然后将词向量作为神经网络模型的输入，训练阶段可以对词向量进行微调(fine-tuning)，利用深度学习方法自动学习高层的语义特征。对于特定目标的情感分类任务中，常用的神经网络模型有基于LSTM的方法(TD-LSTM，ATAE-LSTM等)，基于记忆网络的方法(Memory Networks，RAM等)，以及其他方法，如基于递归神经的方法和参数化卷积神经网络(PF-CNN)等。但是Word2Vec以及Glove模型所训练的词向量是静态的词向量，未能很好地考虑同一个词语在不同语境和上下文的情况所表达的含义不同的情况。Word2Vec和Glove训练得到的词向量会将相近或相关词语在词向量上表示得很相似，这就造成了一个后果，即具有相反情感极性的一对反义词，在词向量上却具有非常相似的表示，虽然在训练阶段可以对词向量进行微调(fine-tuning)，但是微调的尺度很小，对于反义词在词向量上具有近似表达依然不能够微调到对立面，这就使得传统词嵌入方式非常不适合情感分类任务。

现有的基于BERT模型的情感分类任务，最初应用于句子级的情感分类任务中，取得了较好的效果，但仅仅将一个句子的情感极性作为句子中特定目标的情感极性是非常不合适的，尤其是当句子中存在多个特定目标时，不同的目标可能蕴含着不同的情感极性。

现有方法中在对特定目标进行情感分类时，对于句子中存在多个目标主体的时候，模型在处理的时候均是将多目标情感分类任务拆分成单目标情感分类任务进行处理，但这样分类存在的不足是忽略了同一个句子中，不同目标主体之间内在的关联与联系。

因此，如何解决对一个或多个特定目标进行情感分类成为自然语言处理领域亟需解决的问题。

发明内容

针对现有技术之不足，本发明提出一种基于改进BERT模型的特定目标情感分类方法，所述方法包括：

步骤1：采集数据集，所述数据集是公开数据集或通过采集短文本数据自行构造的数据集；

步骤2：对自行构造的数据集，由标注人员其进行标注得到标注数据集，标注人员标注句子中需要进行情感分类的目标词的位置，以及每一个目标词所对应的情感极性标签，情感极性标签包括正面极性、中性极性和负面极性；

步骤3：初始化BERT模型，设置BERT模型参数；

步骤4：将公开数据集或标注数据集作为步骤3初始化完成后的BERT模型的输入，其中句子s＝[w₁，w₂，...，w_i，...，w_n]由n个单词组成，目标词t＝[w_i，w_i+1，...，w_i+m-1]由m个单词组成，且目标词t是句子s的子集；

步骤5：句子s经过分词处理后得到的句子表示为Sr：

Sr＝[x₀，x₁，x₂，...，x_i′，...，x_n′，x_n′+1]

该句子中的目标词表示为Tr：

Tr＝[x_i′，x_i′+1，...，x_i′+m′-1]且Tr∈Sr

其中，x₀和x_n′+1分别表示[CLS]标签和[SEP]标签对应的词向量，Sr经过BERT模型的多层转换网络后，得到最后一层中关于目标词Tr的编码结果表示为TrVec：

TrVec＝[V_i′，V_i′+1，...，V_i′+m′-1]，TrVec∈R^m×d

TrVec是目标词Tr的向量表示，其中R表示向量空间，长度为m′，d表示向量的维度；

步骤6：将步骤5得到的关于目标词Tr的编码结果TrVec进行最大池化处理后得到特征向量V，将V作为全连接层的输入；

V＝max{TrVec，dim＝0}，V∈R^1×d

步骤7：对于单目标任务，将全连接层的输出结果输入到softmax函数中进行分类；

步骤8：对于多目标任务，将步骤6的全连接层输出结果利用Transformer或LSTM神经网络进行不同目标词之间的特征组合，然后输入到softmax函数中进行分类；

步骤9：利用交叉熵CrossEntropy计算损失函数，进行反向传播，更新模型的权值参数，进行迭代运算。不断迭代步骤4、步骤5、步骤6、步骤7和步骤8，当所述损失函数的损失值在连续至少两个迭代过程中趋于稳定时，结束模型的训练过程，得到分类预测模型。

根据一种优选的实施方式，步骤8对多目标进行分类的方法包括：

对于多目标任务，将每个单目标经过步骤6得到的全连接层输出结果分别输入到每个Transformer模块或LSTM神经网络中进行特征组合，然后再将特征组合后的结果输入到softmax函数中进行分类。

根据一种优选的实施方式，正面极性、中性极性和负面极性分别用1、0、-1来表示。

根据一种优选的实施方式，BERT模型参数至少包括学习率、随机失活和训练轮数。

与现有技术相比，本发明的有益效果在于：

1、针对现有基于BERT模型的情感分类方法，仅适用于句子级的情感分类，仅仅将一个句子的情感极性作为句子中特定目标的情感极性是非常不合适的，本发明的方法依托BERT模型的多层双向transformer网络，将目标词所在的整个句子作为模型的输入，对目标词与整个句子的上下文建立很好地编码联系，提高了分类的准确性和泛化能力。

2、本发明改进BERT模型在进行多目标分类时，将多个目标的分类结果利用神经网络进行串连处理，提取出不同目标之间的内在联系和相互影响，解决了现有技术将多目标拆分成单目标处理而忽略了目标之间的内在联系的问题。

附图说明

图1是现有基于BERT模型进行句子级情感分类方法的原理图；

图2是本发明提出的分类方法进行单目标情感分类方法的原理图；

图3是本发明提出的分类方法的工作原理图；

图4是本发明提出的分类方法进行多目标情感分类方法的原理图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

本发明中的[CLS]标签是指：BERT模型在分词中所添加的分类标签。

本发明中的[SEP]标签是指：BERT模型在句子结尾添加的句子结束标签。

本发明中的BERT模型是指：谷歌公司在2018年论文《BERT:Pre-training of DeepBidirectional Transformers for Language Understanding》中所提出的预训练语言模型。

本发明中的细粒度场景是指：对短文本中所提到的评价对象分别进行情感倾向判定，相比于忽略具体的评价对象仅仅对整条短文本只给出一个整体的情感倾向而言，前者属于是细粒度情感分类场景。短文本指在英文中通常不超过200个单词，中文通常不超过140个字

目前BERT模型仅应用在句子级的情感分类中，没有在特定目标情感分类任务中得到使用。图1为现有基于BERT模型进行句子级情感分类方法的原理图，如图1所示，目标词为battery timer，图1进行句子级情感分类任务的模型，称之为BERT-FC模型，在BERT-FC模型中，没有特殊考虑目标词的信息，依赖的是BERT模型中的[CLS]标签的最后一层编码层结果作为全连接层的输入，进行最终的分类，这种处理方式对于句子中仅有一个目标词且目标词与整体的句子情感是一致的情况才有比较好的分类效果，但很显然这并不能适用于大多数实际场景中、句子中多目标或目标与句子情感不一致的情况。

我们需要解决的是细粒度场景下更复杂的分类任务,因此本发明对现有BERT模型进行改进，图2是本发明所提出的基于BERT模型的特定目标情感分类模型，称之为TD-BERT(Target-Dependent BERT)模型，图2的目标词为battery timer。该模型依托BERT模型中多层双向转换网络对于目标词与整个句子的上下文存在很好地编码联系的特点设计而得。在这样的情况下，将目标词所在的整个句子进行分词处理后作为BERT模型的输入，将目标词在句子中所处位置的对应最后一层编码位置的结果进行最大池化处理后输入到全连接层中，然后利用softmax进行分类。利用最大池化的目的是为了提取目标词中最显著的特征集合。

图2处理的是句子中特定目标的情感分类，因为一个评价目标可能是由多个词语组成的，所以需要使用池化操作将多维向量降到一维，关于池化操作优选地是最大池化，均值池化、最小池化、求和等降维方式都可以作为备选。

图3是本发明提出的分类方法的工作原理图。下面结合图3对本发明的技术方案进行详细的阐述。

本发明提出的一种基于改进BERT模型的特定目标情感分类方法包括：

步骤1：采集数据集，数据集是公开数据集或通过采集短文本数据自行构造的数据集。自行构造的数据集通过利用爬虫技术采集待研究领域的相关评论语句来构造得到。自行构造的数据集一般采集短文本数据。

公开数据集是已经标注好的数据集，因此不需要人工再次进行标注。而自行构造的数据集是采集的未知分类标签的数据集，因此需要进行人工标注。

步骤2：对自行构造的数据集，由标注人员其进行标注得到标注数据集，标注人员标注句子中需要进行情感分类的目标词的位置，以及每一个目标词所对应的情感极性标签，情感极性标签包括正面极性、中性极性和负面极性。具体的，正面极性、中性极性和负面极性分别用1、2、-1来表示；

步骤3：设置BERT模型参数，初始化BERT模型，BERT模型参数至少包括学习率、随机失活和训练轮数。根据实际应用需要，还可设置最大序列长度、批处理数据量大小等模型参数。

当数据集越小时，BERT模型分类的效果对于模型参数的选择越敏感。在本发明技术方案中优选地，学习率2e^-5，随机失活0.1，训练轮数6。

步骤4：将公开数据集或标注数据集作为步骤3初始化完成后的BERT模型的输入，数据集中的句子s＝[w₁，w₂，...，w_i，...，w_n]由n个单词组成，目标词t＝[w_i，w_i+1，...，w_i+m-1]由m个单词组成，且目标词t是句子s的子集。数据集由多个句子s构成。

例如：句子s是“Enabling the battery timer is useless”，则句子s由7个单词组成，目标词为“battery timer”，由两个单词构成。

步骤5：句子s经过分词处理后得到的句子为Sr：

Sr＝[x₀，x₁，x₂，...，x_i′，...，x_n′，x_n′+1]

该句子中目标词为Tr：

Tr＝[x_i′，x_i′+1，...，x_i′+m′-1]且Tr∈Sr

对句子进行分词处理就是将一个完整的句子划分成一个个词。其中，x₀和x_n′+1分别表示[CLS]标签和[SEP]标签对应的词向量。[CLS]标签和[SEP]标签是分词处理后人为添加在句子的首部和尾部的，这种做法是BERT模型规定的标准做法。

x₁-x_n′表示句子s经过WordPiece分词后所得到的结果，x1和w1表示的是不一样的。例如单词’redeeming’在经过WordPiece分词后得到的结果是’red’，’##eem’，’##ing’，所以原来的句子长度n小于等于分词后句子长度n′，即n′≥n，同理可得i′≥i，m′≥m。

Sr经过BERT模型的多层转换网络后，得到最后一层中关于目标词Tr的编码TrVec：

TrVec＝[V_i′，V_i′+1，...，V_i′+m′-1]，TrVec∈R^m×d

TrVec是目标词Tr的向量表示，其中R表示向量空间，长度为m′，与Tr是一致的，d表示向量的维度，如果预训练模型选用的是BERT_base，则d等于768，如果预训练模型选用的是BERT_large，则d等于1024。

步骤6：将步骤5得到的关于目标词Tr的编码结果TrVec进行最大池化处理后得到特征向量V：

V＝max{TrVec，dim＝0}，V∈R^1×d

本发明处理的是句子中特定目标的情感分类，因为一个评价目标可能是由多个词语组成的，所以需要使用池化操作将多维向量降到一维，关于池化操作优选地是最大池化，均值池化、最小池化、求和等降维方式都可以作为备选。

将特征向量V作为全连接层的输入，dim用于限定池化操作的维度，此处dim等于0，表示沿着第一个维度进行池化，即将TrVec中的m′维降至1维。全连接层的作用是：实现将高维特征转换到对应的与类别数目相等的维度上，便于下一步分类。如图3中即是表示进行三分类，全连接的作用就是将d维向量降为3维向量。

步骤7：对于单目标任务，将全连接层的输出结果输入到softmax函数中进行分类。

这一步骤是将与类别数目相同维度的向量用softmax进行计算，得到分类结果。

一种具体的实施方式，单目标句子s是“Enabling the battery timer isuseless”，目标词为“battery timer”。对句子s进行分词处理得到Sr，Sr经过BERT模型的多层转换网络后，得到最后一层关于目标词t的编码TrVec，将TrVec进行最大池化处理得到特征向量V，将特征向量V输入到全连接层得到与类别数目相同维度的向量，将全连接层的输出结果输入到softmax函数进行分类，得到句子s的情感极性分类结果。

当句子只有单个目标的情感分类方法可以采用前述方法，当句子中存在多个目标需要进行对应的情感极性分类时，为了进一步提取出不同目标之间的内在联系和相互影响，本发明技术方案在融合TD-BERT模型的基础之上提出如图4所示模型MTD-BERT，将多个目标的分类结果利用神经网络进行串连处理，可以选用双向LSTM网络、transformer网络等序列模型，亦或者全连接网络、卷积神经网络(CNN)均可以达到对多目标之间的相互影响和关联进行建模的目的。对多目标词进行处理还包括步骤8：

步骤8：对于多目标任务，将步骤6的全连接层输出结果利用Transformer模块或LSTM神经网络进行不同目标之间的特征组合，然后输入到softmax函数中进行分类。具体的，对于多目标任务，将每个单目标经过步骤6得到的全连接层输出结果分别输入到每个Transformer模块或LSTM神经网络中进行特征组合，然后再将特征组合后的结果输入到softmax函数中进行分类。

一种具体的实施方式，多目标句子s为：I bought a mobile phone,its camerais wonderful but battery life is short。目标词1为：mobile phone，目标词2为camera，目标词3为battery。对多目标句子s进行分词处理后输入到BERT模型中，经过BERT模型的多层网络转换后，分别得到3个目标词的向量表示TrVec1、TrVec2和TrVec3，这3个向量输出分别经过最大池化处理后再输入到FC模块，此处FC是Fully connected的缩写，即全连接层。经过全连接模块后，得到与类别数目相同维度的向量，以前的处理方式是FC模块出来的结果就可以作为最终情感分类任务的输入，输入到softmax函数中得到该目标词的情感分类结果，这样每次孤立地考虑一个句子中的多个目标词(评价对象)的方式，忽略了目标词之间的内在联系和相互影响。因此本步骤中FC降维后得到的向量又作为每一个Transformer模块或LSTM神经网络的输入，使得在对每一个目标词进行情感倾向判别时，能综合考虑其他目标词的信息，从而使最终句子中每一个目标词的情感分类效果都优于仅仅只考虑该目标词本身的方法。

步骤9：利用交叉熵CrossEntropy计算损失函数，进行反向传播，更新模型的权值参数，进行迭代运算。不断迭代步骤4、步骤5、步骤6、步骤7和步骤8，当损失函数的损失值Loss在连续至少两个迭代过程中趋于稳定时，结束模型的训练过程，得到分类预测模型。一般情况下，大约迭代训练4到6轮后损失值就会趋于稳定，就可以终止训练。

本发明在细粒度情感分类问题中对于特定目标的情感分类方面，针对传统的利用人工构建特征工程，利用Word2Vec和Glove等词嵌入方式训练词向量进行情感分类器训练，前者工作量大，后者分类器精度不高等问题，设计了一种基于BERT模型的特定目标情感分类方法，可以，从而很好地降低了工作中建模的难度，并且提高了分类的准确率。

需要注意的是，上述具体实施例是示例性的，本领域技术人员可以在本发明公开内容的启发下想出各种解决方案，而这些解决方案也都属于本发明的公开范围并落入本发明的保护范围之内。本领域技术人员应该明白，本发明说明书及其附图均为说明性而并非构成对权利要求的限制。本发明的保护范围由权利要求及其等同物限定。

Claims

1.一种基于改进BERT模型的特定目标情感分类方法，其特征在于，所述方法包括：

步骤3：初始化BERT模型，设置BERT模型参数；

步骤4：将公开数据集或标注数据集作为步骤3初始化完成后的BERT模型的输入，其中句子s＝[w₁,w₂,…,w_i,…,w_n]由n个单词组成，目标词t＝[w_i,w_i+1,…,w_i+m-1]由m个单词组成，且目标词t是句子s的子集；

步骤5：句子s经过分词处理后得到的句子表示为Sr：

Sr＝[x₀,x₁,x₂,…,x_i′,…,x_n′,x_n′+1]

该句子中的目标词表示为Tr：

Tr＝[x_i′,x_i′+1,…,x_i′+m′-1]且Tr∈Sr

TrVec＝[v_i′,v_i′+1,…,v_i′+m′-1],TrVec∈R^m′×d

V＝max{TrVec,dim＝0},V∈R^1×d

步骤8：对于多目标任务，将步骤6的全连接层输出结果利用Transformer或LSTM神经网络进行不同目标词之间的特征组合，然后输入到softmax函数中进行分类；具体的，

对于多目标任务，将每个单目标经过步骤6得到的全连接层输出结果分别输入到每个Transformer模块或LSTM神经网络中进行特征组合，然后再将特征组合后的结果输入到softmax函数中进行分类；

步骤9：利用交叉熵CrossEntropy计算损失函数，进行反向传播，更新模型的权值参数，进行迭代运算，不断迭代步骤4、步骤5、步骤6、步骤7和步骤8，当损失函数的损失值在连续至少两个迭代过程中趋于稳定时，结束模型的训练过程，得到分类预测模型。

2.如权利要求1所述的特定目标情感分类方法，其特征在于，正面极性、中性极性和负面极性分别用1、0、-1来表示。

3.如权利要求2所述的特定目标情感分类方法，其特征在于，BERT模型参数至少包括学习率、随机失活和训练轮数。