CN112784041B

CN112784041B - 一种中文短文本情感倾向性分析方法

Info

Publication number: CN112784041B
Application number: CN202110012984.5A
Authority: CN
Inventors: 李臣明; 曹玉成; 戴媛媛; 陈忠昊; 高红民
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2021-01-06
Filing date: 2021-01-06
Publication date: 2022-12-30
Anticipated expiration: 2041-01-06
Also published as: CN112784041A

Abstract

本发明公开了一种中文短文本情感倾向性分析方法，获取待分析的中文短文本语料集；对中文短文本语料集进行处理得到由基础语义词向量表示的原始文本和由增强情感词向量表示的增强后文本；提取由基础语义词向量表示的原始文本的上下文语义特征；提取由增强情感词向量表示的增强后文本的上下文语义特征；将原始文本的上下文语义特征和增强后文本的上下文语义特征进行拼接，得到最终的情感特征向量；将情感特征向量输入到分类模型，输出对应的情感极性。优点：通过引入情感增强机制，使得文本中的情感特征更为明显，方便后续对其进行特征提取，提高了文本情感分析的准确性。

Description

一种中文短文本情感倾向性分析方法

技术领域

本发明涉及一种中文短文本情感倾向性分析方法，属于自然语言处理与文本情感分析技术领域。

背景技术

现代社会，通过各种设备接入互联网进行娱乐和社交已经在全社会各个阶层和年龄段都普及开来了。当今社会的人们全天24小时保持着在线状态，在各大互联网平台上进行资讯的阅读和转发以及发表自己的见解。在各个社会热点事件中，可以在网络上看到海量的媒体报道和网友发表的见解与评论，这些见解与评论大多以文本形式存在，蕴含着发表者的态度和情绪，针对这些文本进行情感分析可以有效的了解舆论风向，群众呼声，是十分有价值的。

文本情感分析主要是指利用自然语言处理及计算机语言学等技术识别和提取原素材中的主观信息，找出意见发表者在某些话题上的两极观点态度。文本情感分析从粒度上可分为两类：一类是对文本中的某段已知文字进行正(褒)、负(贬)情感极性分类的粗粒度情感分析；另一类是细分的例如“喜悦”、“愤怒”、“生气”、“悲伤”等细粒度情感分析。

目前情感分析的主流的研究方法有三种：基于情感词典、机器学习以及深度学习的方法。基于情感词典的方法需要人工标注并构建情感词典，分析结果与词典质量正相关，而词典的构建费时费力且不具有领域通用性，所以这种方法有着很大的局限性；而机器学习方法需要人工进行文本特征的筛选，如何选择特征对于最终的分类效果有着极大的影响，其效果依赖于初期的特征选取，具有不稳定性。

发明内容

本发明所要解决的技术问题是克服现有技术的缺陷，提供一种中文短文本情感倾向性分析方法。

为解决上述技术问题，本发明提供一种中文短文本情感倾向性分析方法，其特征在于，

获取待分析的中文短文本语料集；

将中文短文本语料集输入到预先构建的情感分类模型，输出对应的情感极性；

所述预先构建的情感分类模型的处理过程包括：

利用预先获取的语言模型对中文短文本语料集进行基础语义处理，得到由基础语义词向量表示的原始文本；

利用预先获取的情感增强词库对中文短文本语料集进行情感增强处理，得到由增强情感词向量表示的增强后文本；

提取由基础语义词向量表示的原始文本的上下文语义特征；

提取由增强情感词向量表示的增强后文本的上下文语义特征；

将原始文本的上下文语义特征和增强后文本的上下文语义特征进行拼接，得到最终的情感特征向量；

将情感特征向量输入到分类模型，输出对应的情感极性。

进一步的，所述语言模型采用Bert-wmm(基于全词遮罩的预训练语言模型 Bert)语言模型。

进一步的，所述利用预先获取的情感增强词库对中文短文本语料集进行情感增强处理，得到由增强情感词向量表示的增强后文本的过程包括：

利用预先获取的情感增强词库对中文短文本语料集根据如下过程进行情感增强：

遍历中文短文本语料集；

若遍历到的中文短文本语料集的当前词语为情感词，直接将该词语加入到该词语所在句子的末尾；

若遍历到的中文短文本语料集的当前词语为程度副词，后接情感词，则将二者作为一个整体加入到该词语所在句子的末尾；若该整体已存在于句子末尾，则不进行重复添加；

若遍历到的中文短文本语料集的当前词语为否定词，后接情感词，则将二者作为一个整体加入到该词语所在句子的末尾；若该整体已存在于句子末尾，则不进行重复添加；

若遍历到的中文短文本语料集的否定词后接程度副词和情感词，则将三者作为一个整体加入到该词语所在句子末尾；若该整体已存在，则不进行重复添加；

利用Bert-wmm(基于全词遮罩的预训练语言模型Bert)语言模型对完成情感增强后的中文短文本语料集进行处理，获得增强情感词向量表示的增强后文本。

进一步的，所述提取由基础语义词向量表示的原始文本的上下文语义特征的过程包括：

利用BiGRU+Self-Attention模型对由基础语义词向量表示的原始文本进行特征提取，得到原始文本的上下文语义特征。

进一步的，所述提取由增强情感词向量表示的增强后文本的上下文语义特征的过程包括：

利用BiGRU+Self-Attention模型对由增强情感词向量表示的增强后文本进行特征提取，得到增强后文本的上下文语义特征。

进一步的，所述将情感特征向量输入到预先构建的情感分类模型，输出对应的情感极性的过程包括：

将Vc和Ve采用行连接的方式进行特征融合，构建文本整体的情感特征向量；

根据文本整体的情感特征向量构建(rs+re)×c的矩阵V^，矩阵V^为最终情感特征向量，其中rs和re分别为Vc和Ve的行数，c为Vc和Ve的列数，Vc 和Ve分别表示原始文本的上下文语义特征和增强后文本的上下文语义特征；

将特征融合层生成的情感特征向量V^输入到Softmax分类模型，得到最终预测的情感分类结果；

Softmax分类模型的计算公式为：

p＝Softmax(w_aV^+b_a)

其中：w_a为权重系数矩阵，b_a为偏置矩阵，p为输出的预测情感标签。

进一步的，所述情感分类模型的确定过程包括：

获取历史中文短文本语料集，对历史中文短文本语料集进行预处理，得到训练集和测试集；

采用反向传播算法训练BiGRU+Self-Attention模型和Softmax模型的网络参数，反向传播算法的损失函数采用交叉熵函数，训练目标为最小化训练集中已知情感类别和预测情感类别的交叉熵，交叉熵计算公式为：

式中：M为训练集，N为情感标签的类别数，y为实际情感类别，

为预测情感类别，λ为L₂正则化系数，θ为设置的参数，i＝1,2,…M，j＝1,2,…N；

完成模型训练后，使用测试集评估模型泛化性能，采用评估指标F1值进行模型评估，若F1值在0.9以上，则符合需求，获得最终情感分类模型；若低于 0.9，则调整模型超参数，继续训练模型。

本发明所达到的有益效果：

本方法通过引入情感增强机制，使得文本中的情感特征更为明显，方便后续对其进行特征提取；通过使用Bert依据上下文动态生成词向量，将文本语义信息嵌入到词向量中，提高了词向量的表征能力；同时通过注意力机制动态调整特征权重，增强了模型捕捉情感信息的能力，最终有效提高了文本情感分析的准确性。

附图说明

图1为本发明的流程示意图；

图2为BiGRU+Self-Attention模型结构示意图。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

如图1所示，为本实施例提供的一种中文短文本情感倾向性分析方法，包括以下步骤：

步骤1：构建情感增强词库，基于该库对输入的语料集进行预处理；最后将处理好的语料集划分为训练集和测试集；

步骤1.1：构建情感增强词库；

在中文句子中，表达情感的词语前一般都带有程度副词，如“非常”、“特别”等，同时部分句子虽然包含某种表示正向或负向的情感词，但情感词前面由否定词存在，实质上句子的情感极性是相反的。考虑到存在这些问题，构建由大连理工大学的情感词本体数据库和来自知网中文词库HowNet的程度副词和否定词组成的情感增强词库。

步骤1.2：对语料集进行预处理；

采用结巴分词系统对语料集文本句子进行分词，在分词过程中，将构建的情感语言库作为自定义分词词典，使其在分词后作为一个基本的语言单元存在。此外，还进行了去重、过滤、去停用词等文本预处理。最后将预处理好的文本语料以8:2的比例划分为训练集和测试集两个集合。

步骤2：对待分析的中文短文本语料集进行上述预处理，使用Bert对预处理后的待分析的中文短文本语料集进行处理，得到由基础语义词向量表示的原始文本；

由于谷歌官方发布的BERT-base,Chinese中，中文是以字为粒度进行切分，没有考虑到传统NLP中的中文分词。故采用哈工大讯飞联合实验室发布的 Bert-wmm预训练语言模型。该模型将全词Mask的方法应用在了中文中，使用了中文维基百科(包括简体和繁体)进行训练。将步骤1.3中预处理好的训练集喂入该模型进行处理，获取由基础语义词向量表示的原始文本。

步骤3：对待分析的中文短文本语料集进行上述预处理，使用情感增强词库对预处理后的待分析的中文短文本语料集进行处理，处理后使用Bert进行处理，得到由增强情感词向量表示的增强后文本。

将预处理好的待分析的中文短文本语料集结合构建好的情感语言库根据如下规则进行情感增强：

(1)若当前词语为情感词，直接将该词加入到该条句子的末尾。

(2)若当前词语为程度副词，后接情感词，则将二者作为一个整体加入到该句的末尾；若该整体已存在于句子末尾，则不进行重复添加。

(3)若当前词语为否定词，后接情感词，则将二者作为一个整体加入到该条句子的末尾；若该整体已存在于句子末尾，则不进行重复添加。

(4)若否定词后接程度副词和情感词，则将三者作为一个整体加入到句子末尾；若该整体已存在，则不进行重复添加。

将完成情感增强后的训练集喂入Bert-wmm预训练语言模型进行处理，获得由增强情感词向量表示的增强后文本。

步骤4：将由基础语义词向量表示的原始文本输入到BiGRU+Self-Attention 模型中进行上下文语义特征的提取；

门控循环单元(Gated recurrent unit，GRU)是一种对LSTM改进的深度网络模型。GRU最大的优点在于很好地解决了循环神经网络中的长期依赖问题，且被认为更易于计算和实施。它保留了LSTM对解决梯度消失问题的优点，但内部结构更简单，只有2个控制门：更新门和重置门。GRU神经网络的参数比LSTM减少了1/3，不易产生过拟合，同时由于采取对Cell融合和其他一些改进，在收敛时间和需要的迭代次数上更胜一筹。单向GRU在使用时是从上文向下文推进的，容易导致后面的词比前面的词更重要，而双向GRU(BiGRU) 通过增加从后往前传递信息的隐藏层，能更充分利用上下文信息，克服了这一缺陷。

将由基础语义词向量表示的原始文本投入BiGRU进行上下文语义特征的提取。给定一个n维输入(x1，x2，…，xn)，其中xt(t＝1，2，…，n)是词向量。在t时刻：BGRU的输出由两个相反方向的GRU共同组合决定。具体的计算公式如下：

其中

和

分别表示GRU向前传播的输出和向后传播的输出；y表示 BiGRU的输出；W表示权重矩阵；b表示偏置向量；σ表示sigmoid激活函数。

将BiGRU层的输出接Self-Attention层，使模型在训练时聚焦到数据中的重要信息，以捕获更直接的语义依赖关系。注意力机制可以得到稀疏数据中的重要特征，其本质是一个query(Q)到一系列(key(K)-value(V))键值对的映射，首先将query和每个key通过点积、拼接或感知器等相似度函数计算得到权重；其次通过softmax函数对计算得出的权重进行归一化处理；最后将权重和与之相对应的value加权求和得出最后的Attention。当K＝V＝Q时，即自注意力机制Self-Attention计算公式为：

其中Q∈Rn是BiGRU的n维输出向量，

是调节因子，一般为词向量的维度，用于避免因QK^T内积结果过大导致Softmax不是1就是0的情况。最终输出原始文本的上下文语义特征Vc。

步骤5：将由增强情感词向量表示的增强后文本输入到 BiGRU+Self-Attention模型进行上下文语义特征的提取，其提取过程与由基础语义词向量表示的原始文本的上下文语义特征提取过程相同，得到增强后文本的上下文语义特征Ve。

注意力机制可以得到稀疏数据中的重要特征，其本质是一个query(Q)到一系列(key(K)-value(V))键值对的映射，首先将query和每个key通过点积、拼接或感知器等相似度函数计算得到权重；其次通过Softmax函数对计算得出的权重进行归一化处理；最后将权重和与之相对应的value加权求和得出最后的Attention。当K＝V＝Q时，即自注意力机制。处理文本时会直接将一个句子中任意两个单词的联系通过一个计算步骤直接联系起来，获取句子内部的词依赖关系、句子的内部结构以及同一个句子中单词之间的一些句法特征或者语义特征，更有利于有效地获取远距离相互依赖的特征。

步骤6：情感极性预测；

如图2所示，将步骤4和步骤5获取的原始文本的上下文语义特征Vc和增强后文本的上下文语义特征Ve进行拼接，得到最终情感特征向量，输入Softmax 分类器进行情感极性预测，其具体过程为：

将Vc和Ve采用行连接的方式进行特征融合，从而构建文本整体的情感特征向量。最终构建一个(rs+re)×c的矩阵V^，生成最终情感特征向量，其中rs和 re分别为Vc和Ve的行数，c为Vc和Ve的列数。将特征融合层生成的情感特征向量V^输入Softmax分类器，从而得到模型最终预测的情感分类结果。计算公式为：

p＝Softmax(w_aV^+b_a)

其中：wa为权重系数矩阵，ba为偏置矩阵，p为输出的预测情感标签。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的得同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种中文短文本情感倾向性分析方法，其特征在于，

获取待分析的中文短文本语料集；

所述预先构建的情感分类模型的处理过程包括：

提取由基础语义词向量表示的原始文本的上下文语义特征；

将情感特征向量输入到分类模型，输出对应的情感极性；

所述利用预先获取的情感增强词库对中文短文本语料集进行情感增强处理，得到由增强情感词向量表示的增强后文本的过程包括：

遍历中文短文本语料集；

利用Bert-wmm语言模型对完成情感增强后的中文短文本语料集进行处理，获得增强情感词向量表示的增强后文本。

2.根据权利要求1所述的中文短文本情感倾向性分析方法，其特征在于，所述语言模型采用Bert-wmm语言模型。

3.根据权利要求1所述的中文短文本情感倾向性分析方法，其特征在于，所述提取由基础语义词向量表示的原始文本的上下文语义特征的过程包括：

4.根据权利要求1所述的中文短文本情感倾向性分析方法，其特征在于，所述提取由增强情感词向量表示的增强后文本的上下文语义特征的过程包括：

5.根据权利要求1所述的中文短文本情感倾向性分析方法，其特征在于，所述将情感特征向量输入到预先构建的情感分类模型，输出对应的情感极性的过程包括：

根据文本整体的情感特征向量构建(rs+re)×c的矩阵V^，矩阵V^为最终情感特征向量，其中rs和re分别为Vc和Ve的行数，c为Vc和Ve的列数，Vc和Ve分别表示原始文本的上下文语义特征和增强后文本的上下文语义特征；

Softmax分类模型的计算公式为：

p＝Softmax(w_aV^+b_a)

6.根据权利要求5所述的中文短文本情感倾向性分析方法，其特征在于，所述情感分类模型的确定过程包括：

完成模型训练后，使用测试集评估模型泛化性能，采用评估指标F1值进行模型评估，若F1值在0.9以上，则符合需求，获得最终情感分类模型；若低于0.9，则调整模型超参数，继续训练模型。