CN109145304B

CN109145304B - 一种基于字的中文观点要素情感分析方法

Info

Publication number: CN109145304B
Application number: CN201811045651.7A
Authority: CN
Inventors: 叶宏彪; 潘嵘
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2018-09-07
Filing date: 2018-09-07
Publication date: 2022-09-06
Anticipated expiration: 2038-09-07
Also published as: CN109145304A

Abstract

本发明涉及自然语言处理的技术领域，更具体地，涉及一种基于字的中文观点要素情感分析方法。一种基于字的中文观点要素情感分析方法，其中，包括以下步骤：S1.选取数据集；S2.数据清洗和提取；S3.字嵌入；S4.训练初始化的模型；S5.测试。本发明的优点在于，相比较于传统的中文分词并获得词向量，把句子划分到字级别改用字嵌入方式获得字向量，避免了因中文分词的不准确带来的歧义困扰。

Description

一种基于字的中文观点要素情感分析方法

技术领域

本发明涉及自然语言处理的技术领域，更具体地，涉及一种基于字的中文观点要素情感分析方法。

背景技术

观点要素情感分析是指在句子中含有多个观点要素时，对其中一种进行的情感极性判别。区别于句子为整体进行的情感极性判断，一句话中可能含有多个观点要素的描述，它们所表达出来的情感有时并不相同甚至完全相反，不能简单地给它们打上相同的情感极性标签。以这句话为例：“I bought a new camera.The picture quality is amazing butthe buttery life is too short.”从中我们看出作者对新相机的不同方面看法不同：如果是“camera picture”方面，其情感极性是正向的；而“camera buttery”方面则是负面的。

当前，观点要素情感极性判别的方法，大多是先将一句话进行分词(划分成以词为单位的序列)，利用词嵌入(word Embedding)技术获得每个词的词向量，然后输入神经网络(比如卷积神经网络或者循环神经网络)中，融合注意力机制(attention mechanism)对观点要素进行情感极性判断。

中文观点要素情感分析的模型，也采用国外基于英文的观点要素情感分析的方法，只是在分词方面有所区别：英文表达里的词与词之间用空格隔开，分词较为容易；而在中文表达里，词与词之间并没有空格隔开，需要用专门的分词工具进行分词。目前有许多种中文分词工具，比较流行的有jieba和THULAC等。中文分词都是基于统计的分词，其原理是对一句话产生若干种分词选项，利用语料库建立的统计概率计算各种分词选项对应的联合分布概率，找到最大概率对应的分词方法，即为最优分词。

依靠分词工具将中文分词应用到观点要素情感极性判别模型中，可以像英文分词那样直接使用，跨越了不同语言之间的阻隔，在中文情感极性分析领域取得了一定的效果。

尽管中文分词工具在自然语言处理方面取得了一定的成功，但受限于中文的语法和语句结构，中文分词工具准确率也不是百分之百，很容易造成歧义。以这句话为例：“这些乒乓球拍卖得很好”，有两种分词方法：①“这些乒乓球拍卖得很好”；②“这些乒乓球拍卖得很好”，如果我们关注的方面是“乒乓球”，那么显然就无法使用第①种分词。

观点要素情感分析的基础是对句子和观点要素进行分词。观点要素必须与句子的分词结果具有重复性，如果观点要素在句子分词结果中不存在，那么所谓的情感分析就没有任何基础。英文词与词之间用空格隔开，分词之后不存在上述问题，观点要素和句子分词的结果必定有重复的。而中文分词则面临着这方面的问题，正如上一段所举例子，如果“乒乓球”是观点要素，但这个词在第①种分词结果中就不存在，这种情况下就不能做观点要素情感分析。

因此，基于中文分词的观点要素情感分析存在分词导致歧义的缺陷，会最终削弱情感极性判别的效果。

发明内容

本发明为克服上述现有技术所述的至少一种缺陷，提供一种基于字的中文观点要素情感分析方法，在进行中文观点要素情感分析之前，为避免因中文分词可能带来的歧义，不使用传统的分词+词嵌入方式获得词向量，而是以更基本的组成——字，代替词并输入观点要素情感分析模型，降低中文观点要素情感极性判别的误差。

本发明的技术方案是：一种基于字的中文观点要素情感分析方法，其中，包括以下步骤：

S1.选取数据集；

S2.数据清洗和提取；

S3.字嵌入；

S4.训练初始化的模型；

S5.测试。

选取数据集，本模型训练和测试使用的是来自NLP&CC(自然语言处理与中文计算会议)2012的《中文微博情感分析评测-样例数据集》，涉IPAD和毁容案等话题，包含约3000条微博评论，每条微博评论的观点要素以及其情感极性已经标出。

所述的步骤S2中，由于原始数据是以xml格式保存的，所以首先要去除掉每条数据包含的xml格式标签，然后提取评论文字、观点要素文字以及情感极性，每条数据按照{″content″，″target″，″label″}的格式保存在txt文件中；过后，需要将数据集划分为训练集和测试集，这里将数据总数的20％划为测试集，其余为训练集。

所述的步骤S3中，数据清洗和抽取过后，就可以开始利用训练集训练模型；每一轮训练要读取训练集中的一条样本；首先将这条样本的content、target切分成一个个由字组成的序列，在由中文语料库构成的中文字典中查找每个字的one-hot向量，然后与字嵌入矩阵E相乘，得到了每个字的字向量；E∈R^V×D，V是字典的大小，D是字向量的维度，E可以是随机初始化的。

所述的步骤S4中，模型的搭建框架可以是基于Tensorflow或者Keras；模型的参数集合为Θ，包括字嵌入矩阵E、双向LSTM网络的参数[W_f，W_i，W_o，W_c，U_f，U_i，U_o，U_c，b_f，b_i，b_o，b_c]，注意力机制层的参数[W_a，b_a]，非线性变化层的参数[W_l，b_l]；之前已经定义过模型的损失函数：

利用反向传播的方法来计算梯度和更新参数Θ：

其中λ_l是学习率；以上，除Θ中的参数是随机初始化并且需要更新的以外，λ_r，λ_l以及最大训练次数均由训练前人为设定；模型训练结束后，更新的Θ被保存，对模型的观点要素情感分析效果，我们在测试集中采用正确率来度量：

其中T表示正确预测了情感极性的样本数，M为总样本数。

所述的步骤S5中，测试过程首先利用网络爬虫爬取新浪微博上的若干条评论，对数据进行清洗和预处理，过滤掉不带观点要素和情感的评论，获得待分析的微博评论；提取出评论文字和观点要素文字，划分成由字组成的序列，对照中文字典查找每个字的one-hot向量，用字嵌入技术分别获得评论和观点要素的字向量序列，输入到已经训练好的观点要素情感分析模型中，输出对应观点要素的情感极性。

与现有技术相比，有益效果是：本发明的优点在于，相比较于传统的中文分词并获得词向量，把句子划分到字级别改用字嵌入方式获得字向量，避免了因中文分词的不准确带来的歧义困扰。以“乒乓球拍卖得很好”这句话为例，假设观点要素是“乒乓球”，其词向量序列为W_A＝[w_a]：①若分词结果为“乒乓球拍卖得很好”，则其词向量序列W_S＝[w₁，w₂，w₃，w₄]，那么w_a＝w₁，可以输入到判别模型；②若分词结果为“乒乓球拍卖得很好”，则其词向量序列W_S＝[w₁，w₂，w₃，w₄，w₅]，则W_S中没有W_A，这就是因歧义带来的分词缺陷。而这句话如果划分到字级别，那么观点要素的字向量序列Z_A＝[z₁，z₂，z₃]，句子的字向量序列Z_S＝[z₁，z₂，z₃，z₄，...，z₈]，且只有这一种划分，显然Z_S必定包含Z_A序列，所以避免了因分词不准导致无法进行观点要素情感极性判别。

附图说明

图1是本发明基于字的中文观点要素情感分析模型图。

图2是本发明LSTM细胞单元结构图和内部计算过程第一示意图。

图3是本发明LSTM细胞单元结构图和内部计算过程第二示意图。

图4是本发明Bi-LSTM网络时序展开结构图。

图5是本发明流程示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。附图中描述位置关系仅用于示例性说明，不能理解为对本专利的限制。

如图1所示，本发明的模型具有多层结构，每一层有不同的功能，按照从输入句子和观点要素的向量开始，所经历的各层分别是字嵌入层、Bi-LSTM层、注意力机制层和Softmax层，最后非线性变化层的输出是预测的情感极性标签(正向或者负向)。

(1)获取one-hot向量

假设一个含有N个字的中文句子S，其中包含的观点要素A由K个字组成。中文字符不能直接作为模型的输入，必须要将其转换为向量。因此，第一步便是获取S和A的one-hot向量表示。令S＝(s₁，s₂，....，s_N)，A＝(s_j，s_j+1，....，s_j+K-1)，其中s_i表示第i个字在字典中的id，那么s_i的one-hot向量就是“第i位为1，其它位为0”的向量。举例来说，假设语料库是“我爱我的祖国”，按照语料库中字出现的顺序排列，字典就是{“我”：1，“爱”：2，“的”：3，“祖”：4，“国”：5}，那么“我”字的one-hot向量就是[1，0，0，0，0]，“的”字的one-hot向量是[0，0，1，0，0]。最后得到句子S和观点要素A的one-hot向量序列，分别记为E_S＝(e₁，e₂，....，e_N)和E_A＝(e_j，e_j+1，....，e_j+K-1)

(2)字嵌入(Character embeddings)层

得到one-hot向量后，需要把其转换为低维度的字向量。这一过程通过字嵌入(character embedding)完成，将e_i和字嵌入矩阵E相乘，便得到字向量z_i，矩阵E是随机初始化的，其参数是需要训练更新的。字嵌入层输出句子S和观点要素A的字向量序列，分别记为Z_S＝(z₁，z₂，....，z_N)和Z_A＝(z_j，z_j+1，....，z_j+K-1)。

(3)Bi-LSTM层

Bi-LSTM是双向长短期记忆网络(Bi-direction long-short term memory)的简称，它是由两个传递方向相反的LSTM网络组成。LSTM网络是循环神经网络的一种变体，由若干个细胞单元组成，其门控机制能决定字序列中哪些信息被保留。细胞单元的结构和计算过程如图2、3所示，

其中σ是sigmoid函数，公式是

W、U和b分别代表了权重矩阵和偏置，⊙是运算符，表示两个向量逐元素相乘再求和。在时刻t，细胞的输入包括当前时刻的输入x_t、前一时刻的细胞状态h_t-1和C_t-1；f_t、i_t、o_t分别是遗忘门、输入门和输出门，这些门控制着信息的保留或遗忘；输出是当前时刻的细胞状态h_t和C_t。

Bi-LSTM按时序展开的结构如图4，输入是句子S的字向量序列Z_S＝[z₁，z₂，....，z_N]和观点要素A的字向量序列Z_A＝(z_j，z_j+1，....，z_j+K-1)。在t时刻，若输入的字向量z_t在前向传递LSTM的输出是

在后向传递LSTM输出是

那么z_t的最终输出为

和

的向量拼接，记为

整个句子S的隐状态序列

同样，我们也可以得到观点要素的隐状态序列

LSTM适合处理间隔和延迟相对较长的重要事件，从而学习到字序列中隐藏的重要语义信息，还能避免循环神经网络训练中出现的梯度消失或者爆炸的问题。由于某一时刻t的输出状态可能不仅与之前的状态有关，还和t时刻之后的状态有关，单向LSTM只能学习到t时刻前文的信息，所以这里采用双向LSTM来学习t时刻的完整的前后文信息。句子S和观点要素的隐状态(Hidden states)序列H_s和H_A是Bi-LSTM的输出，分别表示了它们隐含的语义信息。

(4)注意力(Attention)机制层

注意力机制的使用是为了选择出对所关注对象有重要作用的信息。注意力机制有很多种，这里采用DeHong Ma在论文《Interactive Attention Networks for Aspect-Level Sentiment Classification》里提出的双向注意力机制，既学习观点要素对句子的注意力，也学习句子对观点要素的注意力。输入是句子和观点要素的隐状态序列

和

首先对H_s和H_A取平均，得到句子S和观点要素A的初始化表示：

先计算观点要素对句子的注意力向量：

γ函数计算

对A_avg的重要程度，公式：

其中W_a是权值矩阵，b_a是偏置。tanh函数用于非线性变换，公式是

同样，我们也可以得到句子对观点要素的注意力向量：

基于两个注意力向量α_i和β_i可以计算出句子S和观点要素A的向量表示：

(5)Softmax层

这一层以V_S和V_A作为输入，输出观点要素的情感极性属于正向和负向的概率，最终以概率高的极性作为预测结果。首先将V_S和V_A向量拼接(concatenate)，得到一个向量V＝[V_S，V_A]，然后进行非线性变化：

L＝tanh(W_l·V+b_l)

其中W_l是权值矩阵，b_l是偏置。最后，预测情感极性y属于i(i∈[1，C])的概率，用softmax函数计算：

这里只进行正向与负向情感极性分类，故C＝2.

(6)损失函数

模型的损失函数使用带L2正则项的交叉熵函数：

其中g是一个one-hot向量，表示真实的情感极性标签(负向[1，0]，正向[0，1])，y_i表示情感极性属于i的概率，λ_r是L2正则项的系数，Θ是模型中所有参数的合集。

如图5所示，一种基于字的中文观点要素情感分析方法，其中，包括以下步骤：

S1.选取数据集；

S2.数据清洗和提取；

S3.字嵌入；

S4.训练初始化的模型；

S5.测试。

利用反向传播的方法来计算梯度和更新参数Θ：

其中T表示正确预测了情感极性的样本数，M为总样本数。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于字的中文观点要素情感分析方法，其特征在于，包括以下步骤：

S1.选取数据集；

S2.数据清洗和提取；

由于原始数据是以xml格式保存的，所以首先要去除掉每条数据包含的xml格式标签，然后提取评论文字、观点要素文字以及情感极性，每条数据按照{″content″，″target″，″label″}的格式保存在txt文件中；过后，将数据集划分为训练集和测试集，将数据总数的20％划为测试集，其余为训练集；

S3.字嵌入；

数据清洗和抽取过后，开始利用训练集训练模型；每一轮训练要读取训练集中的一条样本；首先将这条样本的content、target切分成一个个由字组成的序列，在由中文语料库构成的中文字典中查找每个字的one-hot向量，然后与字嵌入矩阵E相乘，得到了每个字的字向量；E∈R^V×D，V是字典的大小，D是字向量的维度，R是实数集，字嵌入矩阵E的初始值E₀可随机初始化；

S4.训练初始化的模型；

模型的搭建框架基于Tensorflow或者Keras；模型的参数的集合为Θ，该集合包括字嵌入矩阵E、双向LSTM网络的参数[W_f，W_i，W_o，W_c，U_f，U_i，U_o，U_c，b_f，b_i，b_o，b_c]，注意力机制层的参数[W_a，b_a]，非线性变化层的参数[W_l，b_l]；及损失函数J；

其中g_i表示真实的情感极性标签，y_i表示情感极性属于第i种情感的概率，C表示情感分类数量，θ表示Θ中的一个参数；

利用反向传播的方法来计算梯度和更新参数Θ：

其中λ_l是学习率；以上，除Θ中的参数是随机初始化并且需要更新的以外，λ_r，λ_l以及最大训练次数均由训练前人为设定；模型训练结束后，更新的Θ被保存，对模型的观点要素情感分析效果，在测试集中采用正确率来度量：

其中T表示正确预测了情感极性的样本数，M为总样本数；

S5.测试；

测试过程首先利用网络爬虫爬取论坛上的若干条评论，对数据进行清洗和预处理，过滤掉不带观点要素和情感的评论，获得待分析的论坛评论；提取出评论文字和观点要素文字，划分成由字组成的序列，对照中文字典查找每个字的one-hot向量，用字嵌入技术分别获得评论和观点要素的字向量序列，输入到已经训练好的观点要素情感分析模型中，输出对应观点要素的情感极性。