CN112329449B

CN112329449B - 基于情感词典和Transformer的情感分析方法

Info

Publication number: CN112329449B
Application number: CN202011277325.6A
Authority: CN
Inventors: 廖伟智; 曹阳; 阴艳超
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-11-16
Filing date: 2020-11-16
Publication date: 2023-03-21
Anticipated expiration: 2040-11-16
Also published as: CN112329449A

Abstract

本发明公开了一种基于情感词典和Transformer的情感分析方法，包括以下步骤：S1、构建情感词典；S2、使用情感词典训练词向量；S3、使用训练好的词向量训练基于Transformer的情感分析模型；S4、使用训练好的情感分析模型，对网络购物平台的商品评论文本进行情感分析。本发明使用情感词典作为外部知识辅助训练词向量，在保证词向量语法信息的同时，词向量的情感信息表征更丰富，可以提高下游情感分析任务的准确度；使用先进的Transformer结构，模型的信息抽取能力更强，有利于提高情感分析任务的效果，能够有效减少人工特征工程、提高文本情感分析效果。

Description

基于情感词典和Transformer的情感分析方法

技术领域

本发明涉及一种基于情感词典和Transformer的情感分析方法。

背景技术

文本情感分析，又称意见挖掘，是指对带有情感色彩的主观性文本进行采集、处理、分析、归纳和推理的过程，涉及到人工智能、机器学习、数据挖掘等多个领域，是自然语言处理研究领域的一个重点方向。传统的情感分析方法主要分为基于情感词典的情感分析方法和基于机器学习的情感分析方法。

基于情感词典的情感分析方法基本原理是：①根据经验将广泛使用的情感词进行归纳整理，将这些情感词以及对应的词性(如积极(positive)和消极(negative))或词性打分(如0表示中性，打分负数表示消极，打分正数表示积极，打分越高，词性越强)整合为情感词典；②待处理文本输入后与词典内容进行匹配，寻找文本中与情感词典中重合的情感词，通过极性统计、打分加权等方法判断文本的情感极性。但是情感词典中的情感词覆盖率较低，无法结合语境、语义，也无法识别同义词、近义词等，主要依赖人工统计文本中情感词出现的次数和打分，非常耗时耗力，而且人工打分的个人倾向对情感分析效果的影响很大。

基于机器学习的情感分析方法主要分为基于传统机器学习的情感分析方法和基于深度学习的情感分方法。基于传统机器学习的情感方法一般采用标准分类器以及这些分类器的组合或者改进，最常用的是支持向量机(SupportVectorMachine，SVM)和朴素贝叶斯(NaiveBayes，NB)，这类分类器需要通过人工设计的特征进行训练。基于传统机器学习的方法相较于构建情感词典的方法虽然有了一定的进步，但是局限性也比较明显。基于传统机器学习的方法主要是依赖分类器，还是需要人工对文本特征进行标记，而且基于传统机器学习的方法是计算机根据已有程序对文本进行重复机械的操作，效率不高，无法适应大数据时代的要求。基于深度学习的情感分析方法主要是通过使用深度神经网络构建模型，使用大量数据训练模型，最后用训练好的模型对待分析的文本进行情感分析。基于深度学习的情感分析方法主要使用的网络模型有全连接神经网络、卷积神经网络(ConvolutionNeural Network,CNN)、循环神经网络(Recurrent Neural Network，RNN)、长短时记忆网络(Long-Short Term Memory Network,LSTM)等。这种方法在进行文本情感分析时不仅能自动提取文本特征，还能在训练和执行过程中自动学习并训练模型，与情感词典和传统机器学习模型相比，它的优越性显而易见。但是使用这些神经网络模型不可避免的使用到词向量嵌入技术，而目前的词向量主要是通过构建语言模型获得的，此类方法主要是基于分布假设进行训练的。分布假设认为上下文相似的词具有相似的语义，这样的假设有利于构建语言模型，但是对于情感分析来说，词向量的区分度不够明显。例如：“好”和“坏”是一对词性相反的词，但是基于分布假设的模型会认为这两个词常常出现在相似的位置，因此这两个词应该具有相似的词向量，这样的词向量对情感极性特征的表示显然是不够的，使用在情感处理任务中缺点明显。同时，CNN、RNN、LSTM等模型的特征抽取能力弱于基于注意力机制的Transformer模型。

现有技术具有以下缺陷：

1、基于情感词典的情感分析方法情感词的覆盖率较低、需要人工设计特征、非常耗时耗力，而且人工打分的个人倾向对情感分析效果的影响很大。

2、基于传统机器学习的情感分析方法仍然需要人工设计特征、效率不高；基于深度学习的情感分析方法不可避免的使用到基于分布假设的词向量，这种词向量的情感特征不明显，而且此类方法较多使用CNN、RNN、LSTM等网络模型，特征抽取能力不够强。

发明内容

本发明针对上述人工设计特征、词向量情感特征弱和一般网络模型特征抽取能力不够强的问题，提供一种使用情感词典作为外部知识辅助训练词向量，使用先进的Transformer结构，模型的信息抽取能力更强，有利于提高情感分析任务的效果，能够有效减少人工特征工程、提高文本情感分析效果的基于情感词典和Transformer的情感分析方法。

本发明的目的是通过以下技术方案来实现的：基于情感词典和Transformer的情感分析方法，包括以下步骤：

S1、构建情感词典；

S2、使用情感词典训练词向量；

S3、使用训练好的词向量训练基于Transformer的情感分析模型；

S4、使用训练好的情感分析模型，对网络购物平台的商品评论文本进行情感分析。

进一步地，所述步骤S1包括以下子步骤：

S11、使用知网情感词典作为基础情感词典；

S12、把基础情感词典中情感极性清晰、无歧义的积极和消极情感词进行去重处理，然后人工设定情感权值s_w，权值范围为(-1,1)，负数表示消极情感，正数表示积极情感，权值绝对值越大表示情感越强烈；把这些情感词作为种子情感词，分别构建积极词集P_word和消极词集N_word；

S13、统计商品评论做为训练语料，对训练语料进行分词，并去除停用词，将得到的词作为待处理词典；

S14、依次选定待处理词典中的词，使用种子情感词通过逐点互信息法获得一个拓展的情感词典，得到的情感词典包含待处理词典中所有词以及词的情感得分。

进一步地，所述步骤S14所述的逐点互信息法包括以下子步骤：

S141、分别取积极词集和消极词集中的词w⁺、w^-，其对应的情感得分为

S142、通过下列公式确定待处理词典中词w_target和种子情感词w_seed的相关性：

其中，p(w_target，w_seed)表示词w_target和词w_seed一起出现的概率，p(w_target)和p(w_seed)分别表示词w_target和w_seed出现的概率，pmi(w_target，w_seed)表征了词w_target和词w_seed的共现程度；

S143、计算出待处理词典中各词和种子情感词相关性后，通过下列公式确定待处理词典中词的情感得分：

其中，n表示种子情感词的总数，Score(w)表示待处理词典中词w的情感得分，正值表示情感为积极，数值越大，情感极性越强；负值表示情感为消极，数值越小，情感极性越强；得到的情感词典记为D。

进一步地，所述步骤S2具体实现方法为：建立的基于情感词典和CBOW的词向量训练模型，该模型包括嵌入层、拼接层、非线性层和输出层；训练前，将训练语料进行分词和去除停用词处理，得到训练词汇表T；

嵌入层：将输入单词w_i按照窗口长度S_l根据嵌入矩阵转换为对应的词向量

拼接层：把目标词上下文的词向量拼接为一个向量，该向量记为E；

非线性层：把拼接向量通过非线性函数tanh进行激活；

输出层：输出序列的语法得分和情感得分。

词向量训练模型包括两个部分：①根据上下文预测目标词；②预测输入的N-gram的情感得分，两个部分的目标分别是最大化序列的语法得分和情感得分，其目标函数分别为F₁和F₂：

F₁＝max(0，1-f_sy(t)+f_sy(t^*))

其中，t表示预测词为目标词的序列，t^*表示预测词不是目标词的序列；

f_sy(.)表示预测序列的语法得分：

f_sy(t)＝w₂(a)+b₂

a＝tanh(w₁L_t+b₁)

L_t＝E+E_w

其中，w₁、w₂、b₁、b₂表示模型参数，E_w表示目标词的词向量，tanh表示tanh函数；

F₂＝max(0，1-δ(L_tu)f_so(t)+δ(L_tu)f_so(t^*))

其中，δ表示sigmoid函数，u表示可训练的辅助矩阵，f_so(t)表示序列的情感得分相关函数：

线性组合两个目标函数，构建词向量训练模型整体的目标函数：

F＝μF₁+(1-μ)F₂

其中μ表示线性组合系数，通过最大化目标函数，训练模型以获得包含情感词典中情感知识的词向量矩阵C。

进一步地，所述步骤S3具体实现方法为：情感分析模型主要由基于注意力机制的Transformer的编码器部分构成，情感分析模型的主要结构包括输入层、隐藏层和输出层；

输入层对输入序列进行词嵌入：首先在在输入序列的第一个位置前插入标志[SO]作为情感分析辅助标志，再把输入序列通过索引与训练好的词向量矩阵C相乘，得到输入序列的词向量表示，输入序列表示为

其中l表示输入序列的长度，实际输入长度根据L截长补短，不足的部分补充[E]标志对应的嵌入；由于失去了序列的顺序信息，因此补充位置嵌入E_i，最终的输入为

隐藏层为Transformer模型编码器部分的改进和叠加，共有6层由Transformer编码器块构成的Transformer层，输入序列

在第一层Transformer层通过多头注意力机制进行计算，主要过程为：

其中，Attention(Q，K，V)表示注意力矩阵，Q、K、V分别表示输入的query矩阵、key矩阵和value矩阵，d_k表示key矩阵的维度；计算结果传入下一层Transformer层，层层传递直到最后一层，最终得到并保留最后一层第一个Transformer块的输出并通过全连接和非线性激活得到输出T，把T传递到输出层；

输出层接收隐藏层的输出T，通过tanh函数非线性激活，S^～＝tanh(TW^T)，其中W^T表示全连接权重矩阵，最终得到预测的输入序列的情感得分S^～；

情感分析模型训练时，通过最小化目标函数L不断优化模型：

其中，l_i表示第i条训练序列，batch表示一个训练批次。

本发明的有益效果是：

1、本发明使用情感词典作为外部知识辅助训练词向量，在保证词向量语法信息的同时，词向量的情感信息表征更丰富，可以提高下游情感分析任务的准确度；

2、情感词典基于基础情感词典和PMI方法构建，仅需要少量人工提取特征；

3、情感分析模型使用先进的Transformer结构，模型的信息抽取能力更强，有利于提高情感分析任务的效果，能够有效减少人工特征工程、提高文本情感分析效果。

附图说明

图1为基于情感词典和Transformer的情感分析方法的流程图；

图2词向量训练模型；

图3为注意力机制图；

图4为Transformer模型编码器部分结构；

图5为基于Transformer的情感分析模型。

具体实施方式

下面结合附图进一步说明本发明的技术方案。

如图1所示，本发明的一种基于情感词典和Transformer的情感分析方法，包括以下步骤：

S1、构建情感词典；包括以下子步骤：

S11、使用知网(Hownet)情感词典作为基础情感词典，基础情感词典包括了一些被广泛认同的情感词，如“好”、“坏”、“烂”、“漂亮”等；

S12、把基础情感词典中情感极性清晰、无歧义的积极和消极情感词进行去重处理，然后人工设定情感权值s_w，权值范围为(-1，1)，负数表示消极情感，正数表示积极情感，权值绝对值越大表示情感越强烈；把这些情感词作为种子情感词，分别构建积极词集P_word和消极词集N_word；

S13、统计商品评论做为训练语料，对训练语料进行分词，并去除停用词(如：‘了’、‘个’、‘-’等停用词、无意义字词和特殊符号)，将得到的词作为待处理词典；

S14、依次选定待处理词典中的词，使用种子情感词通过逐点互信息法(Pointwisemutual information，PMI)获得一个拓展的情感词典，得到的情感词典包含待处理词典中所有词以及词的情感得分。

所述逐点互信息法包括以下子步骤：

S2、使用情感词典训练词向量；具体实现方法为：建立的基于情感词典和CBOW的词向量训练模型，如图2所示，该模型包括嵌入层(Embedding Layer)、拼接层(ConcatenateLayer)、非线性层(tanh Layer)和输出层(Output Layer)；训练前，将训练语料进行分词和去除停用词处理，得到训练词汇表T；

非线性层：把拼接向量通过非线性函数tanh进行激活；

输出层：输出序列的语法得分和情感得分。

F₁＝max(0，1-f_sy(t)+f_sy(t^*))

f_sy(.)表示预测序列的语法得分：

f_sy(t)＝w₂(a)+b₂

a＝tanh(w₁L_t+b₁)

L_t＝E+E_w

F₂＝max(0，1-δ(L_tu)f_so(t)+δ(L_tu)f_so(t^*))

F＝μF₁+(1-μ)F₂

S3、使用训练好的词向量训练基于Transformer的情感分析模型；

具体实现方法为：情感分析模型主要由基于注意力机制的Transformer的编码器部分构成，注意力机制、Transformer模型编码器部分和情感分析模型分别如图3、图4、图5所示。情感分析模型的主要结构包括输入层(Input Layer)、隐藏层(Hidden Layer)和输出层(Output Layer)；

输入层对输入序列进行词嵌入：首先在在输入序列的第一个位置前插入标志[S0]作为情感分析辅助标志，再把输入序列通过索引与训练好的词向量矩阵C相乘，得到输入序列的词向量表示，输入序列表示为

情感分析模型训练时，通过最小化目标函数L不断优化模型：

其中，l_i表示第i条训练序列，batch表示一个训练批次。最终得到训练好的情感分析模型。

S4、使用训练好的情感分析模型，对网络购物平台的商品评论文本进行情感分析；将待识别的网络购物平台的商品评论文本进行分词、去除停用词，输入到训练好的基于Transformer的情感分析模型中，进行文本情感得分的预测。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.基于情感词典和Transformer的情感分析方法，其特征在于，包括以下步骤：

S1、构建情感词典；包括以下子步骤：

S11、使用知网情感词典作为基础情感词典；

S14、依次选定待处理词典中的词，使用种子情感词通过逐点互信息法获得一个拓展的情感词典，得到的情感词典包含待处理词典中所有词以及词的情感得分；所述的逐点互信息法包括以下子步骤：

其中，n表示种子情感词的总数，Score(w)表示待处理词典中词w的情感得分，正值表示情感为积极，数值越大，情感极性越强；负值表示情感为消极，数值越小，情感极性越强；得到的情感词典记为D；

S2、使用情感词典训练词向量；具体实现方法为：建立基于情感词典和CBOW的词向量训练模型，该模型包括嵌入层、拼接层、非线性层和输出层；训练前，将训练语料进行分词和去除停用词处理，得到训练词汇表T；

非线性层：把拼接向量通过非线性函数tanh进行激活；

输出层：输出序列的语法得分和情感得分；

F₁＝max(0，1-f_sy(t)+f_sy(t^*))

f_sy(.)表示预测序列的语法得分：

f_sy(t)＝w₂(a)+b₂

a＝tanh(w₁L_t+b₁)

L_t＝E+E_w

F₂＝max(0，1-δ(L_tu)f_so(t)+δ(L_tu)f_so(t^*))

F＝μF₁+(1-μ)F₂

其中μ表示线性组合系数，通过最大化目标函数，训练模型以获得包含情感词典中情感知识的词向量矩阵C；

S3、使用训练好的词向量训练基于Transformer的情感分析模型；

2.根据权利要求1所述的基于情感词典和Transformer的情感分析方法，其特征在于，所述步骤S3具体实现方法为：情感分析模型主要由基于注意力机制的Transformer的编码器部分构成，情感分析模型的主要结构包括输入层、隐藏层和输出层；

输入层对输入序列进行词嵌入：首先在输入序列的第一个位置前插入标志[SO]作为情感分析辅助标志，再把输入序列通过索引与训练好的词向量矩阵C相乘，得到输入序列的词向量表示，输入序列表示为

情感分析模型训练时，通过最小化目标函数L不断优化模型：

其中，l_i表示第i条训练序列，batch表示一个训练批次。