CN106776581B

CN106776581B - 基于深度学习的主观性文本情感分析方法

Info

Publication number: CN106776581B
Application number: CN201710093687.1A
Authority: CN
Inventors: 施寒潇; 厉小军; 陈南南
Original assignee: Zhejiang Gongshang University
Current assignee: Zhejiang Gongshang University
Priority date: 2017-02-21
Filing date: 2017-02-21
Publication date: 2020-01-24
Anticipated expiration: 2037-02-21
Also published as: CN106776581A

Abstract

本发明公开了一种基于深度学习的主观性文本情感分析方法，包括：(1)在C&W模型的基础上，构建C&W‑SP模型，将句子的情感标签与词性标签标注于句子内，构建C&W_SPC&W‑SP模型的训练集，并利用该训练集对C&W_SP模型进行训练，得到训练集中每个词的词向量，组成词向量文件；(2)根据获得的词向量文件，利用LSTM模型构建句子向量集；(3)利用句子向量集对神经网络模型进行训练，得到情感分类模型；(4)对测试评论语句进行预处理，测试句子向量将测试句子向量输入到情感分类模型中，计算得到此段评论的情感倾向。该方法情感倾向信息、词性信息加入词语中，提高了情感分析的准确度。

Description

基于深度学习的主观性文本情感分析方法

技术领域

本发明属于计算机应用技术领域，具体涉及的是一种基于深度学习的主观性文本情感分析方法。

背景技术

随着互联网的飞速发展，特别是Web2.0技术的逐渐普及，广大网络用户已经从过去单纯的信息获取者变为网络内容的主要制造者。中国互联网络信息中心发布的《第38次中国互联网络发展状况统计报告》(CNNIC，2016)的数据显示，截至2016年6月，我国网络用户总数量已经达到7.10亿，半年共计新增网民2132万人，半年增长率为3.1％，互联网普及率为51.7％。如此庞大且快速增长的网络用户群体加上Web2.0模式的互联网应用，使网络内容的数量和网络信息的访问量都以前所未有的速度增长，互联网已经成为人们表达观点、获取信息的重要途径。当前互联网上的信息形式多种多样，如新闻、博客文章、产品评论、论坛帖子等等。

近几年，社会网络(social network)应用的推进和用户创造内容(UGC)模式的兴起，普通网民越来越成为信息内容的重要生产者。以金融信息评论为例，互联网上作为金融信息中UGC重要形式之一的用户评论，既表达了用户对证券市场的个体观点，又涵盖了用户与股票、用户与用户之间的关系，兼具内容与关联的特征，成为情感分析研究的一个新热点。目前，带有情绪信息的金融评论在互联网上呈爆炸式增长，这些情绪信息对普通投资者、公司机构和国家政府等各级别的用户都有重要意义，如何有效的将带有情绪信息的金融评论转化成有助于各类用户应用的有价值资源，已成为当前需要迫切解决的问题之一。对于主观性文本的情感分析研究正是适应这种需求，希望架设一座用户到情绪信息的桥梁，使用户能有效获取情绪信息。从实践角度而言，利用这些情绪信息一方面可以帮助金融、证券监管部门及时了解投资者的情绪变化，特别是股灾或者疯牛这样极端行情下的情绪反馈，为后续的政策引导提供线索依据；另一方面可以给出不同类别投资者的情绪指数变化曲线，同时也可与其他主要证券行情分析指数联合构建出合理的投资模型，这在一定程度上为投资者提供更全面的投资决策支持。

目前情感分析方法大致有两类。第一种是基于规则的方法。主要先根据情感词典找出文本中出现的情感词，然后进行简单的情感极性统计，根据最终得分与事先设定阈值比较得出情感极性结论，一般用于篇章级别的情感分析。第二种是基于机器学习的方法。通过对大量标注语料的训练，生成情感分类器，用来对测试文本进行分类。

(1)基于规则的方法。目前的方法主要是设计规则提取情感词和极性判定，然后对所有的情感词进行简单情感极性统计求得文本的整体情感极性，该方法更多的应用于篇章的情感分析。另外，通过计算词语的语义倾向，综合考虑极性元素分布、密度和语义强度进行情感词的扩展，进一步修正文本的整体情感极性。

(2)基于机器学习的方法。这种方法主要使用情感词、词语共现对、句法模板、主题相关特征等作为分类特征，使用基于机器学习的分类方法进行情感/倾向性分析。常用的分类方法有：中心向量分类法、KNN分类法、感知器分类法、贝叶斯分类法、最大熵分类法和支持向量机分类法等。一般过程是首先通过对训练文档进行手工标注，生产训练模型，然后进行测试文档的预测。该方法目前在句子级别的情感分析中有广泛的应用。

其中使用基于规则的方法进行文本情感分析时，无论是对句子还是篇章进行分析，都强烈依赖于情感词典，且情感词典构建的好坏直接影响到最终情感分析的准确性。而构建情感词典分为两种，一种是手工构建，其工作量巨大，并且随着互联网的发展，新的情感词层出不穷、日益更新，使得整个构建工作十分困难；另一种是通过自动的方式构建情感词典，但是略过了手工之后，自动构建的情感词典的一个主要问题是准确度较低。

基于机器学习的方法来进行情感分析研究，已经成为研究的热点。目前存在的一些运用词向量的机器学习方法，大多只考虑到了语法结构，而一个主观性文本中，不仅存在着语法结构，同时还会有情感、词性等其他的关系。

发明内容

鉴于上述，本发明提出了一种基于深度学习的主观性文本情感分析方法，该方法可以对电子商务网站或股票金融网站等网站的相关评论进行情感倾向性分析，进而为企业或政府等相关部门提供舆情分析结果或预警。

一种基于深度学习的主观性文本情感分析方法，包括以下步骤：

(1)在C&W模型的基础上，构建基于情感信息和词性信息的C&W词向量(C&W BasedSentiment and Part-of-speech Word Embedding，C&W-SP)模型，将句子的情感标签与词性标签标注于句子内，构建C&W-SP模型的训练集，并利用该训练集对C&W-SP模型进行训练，得到训练集中每个词的词向量，组成词向量文件；

(2)根据获得的词向量文件，利用长短时间记忆(Long Short Term，LSTM)网络构建句子向量集；

(3)利用句子向量集对神经网络模型进行训练，得到情感分类模型；

(4)对测试评论语句进行分词处理、情感标签与词性标签标注处理，并根据步骤(1)获得的词向量文件获得该测试评论的词向量输入矩阵；然后通过步骤(2)的方法将该测试词向量转化为测试句子向量，将测试句子向量输入到情感分类模型中，计算得到此段评论的情感倾向。

所述的步骤(1)的具体步骤为：

(1-1)添加获取句子的情感信息的情感抽取模块和获取句子中每个词的词性信息的词性标注模块于C&W模型上，得到C&W-SP模型；

(1-2)对数据集以句子为单位进行中文分词操作，得到由m个句子组成的分词数据集；

(1-3)将分词数据集中的每个句子的情感标签和每个句子中的每个词语的词性标签标注于该句子内，作为C&W-SP模型训练集；

(1-4)将C&W-SP模型训练集输入到C&W-SP模型中，以C&W-SP模型损失函数最小化为目标，采用随机梯度下降和反向传播算法更新模型参数，得到该训练集中每个词对应的词向量，组成词向量文件。

步骤(1-2)中，所述的中文分词操作主要是基于字符串匹配原理来实现的。现有的开源的中中文分词层出不穷，且准确率将近100％，主要有中科院汉语分词系统(ICTCLAS)、结巴分词(jieba)等。

步骤(1-3)的具体步骤为：

(1-3-1)利用情感词典方式或情感识别工具识别句子情感信息，并将该句子的情感标签添加于句子的末端，以一个空格与整个句子隔开；

(1-3-2)利用词性标注工具或分词工具自带的词性标注模块将句子中的每个词的词性标签添加于每个词的后端以下划线隔开；

(1-3-3)利用词性标注工具或分词工具自带的词性标注模块将句子的情感标签的词性标签添加于该情感标签的后端以下划线隔开。

步骤(1-3-1)中，所述的情感标签为或

其中，

表示积极情感，

表示消极情感。

步骤(1-3-2)和(1-3-3)中，所述的词性标注工具为斯坦福语法分析器(Stanfordparser)。

步骤(1-4)中，所述的C&W-SP模型分为输入层(Lookup)、线性隐藏层(linear)、非线性隐藏层(hTanh)以及线性输出层(linear)。训练过程为：将训练集作为输入，通过滑动窗口的方式将窗口内每个词的n-gram以及情感性信息和词性信息输入到模型进行训练，通过线性隐藏层和非线性隐藏层，输出一个二维标量[f^cw,f₁ ^u]，其中，f^cw代表词性-语义分数，f₁ ^u代表情感分数。

步骤(1-4)中，所述的C&W-SP模型的损失函数为：

loss_C&W-SP(t,t^r)＝α·loss_cw(t,t^r)+(1-α)·loss_us(t,t^r)

其中，α为权重，loss_cw(t,t^r)为C&W模型的损失函数，具体为：

loss_cw(t,t^r)＝max(0,1-f^cw(t)+f^cw(t^r))

loss_us(t,t^r)为情感损失函数，具体为：

loss_us(t,t^r)＝max(0,1-δ_s(t)f₁ ^u(t)+δ_s(t)f₁ ^u(t^r))

δ_s(t)为反映句子情感倾向性的指示函数，其具体计算公式为：

给定训练语料库中的任一句子t，t＝(w_i-(n-1)/2,...,w_i-1,w_i,w_i+1,...,w_i+(n-1)/2)，通过使用词典中的其他词w′_i将句子中心位置的单词w_i随机替换，被替换句子记为t^r，f^cw(t)为t的词性-语义分数，f^cw(t^r)为t^r的词性-语义分数。f₁ ^u(t)为t的情感分数，f₁ ^u(t^r)为t^r的情感分数，g＝gold polarity，即标准情感倾向，[1,0]表示积极，[0,1]表示消极。

通过步骤(1)得到的词向量是一个用特定维度来表示词语的向量，且向量中的每个元素不是0或1。例如：教师的词向量为[0.729,0.142,……0.523]，且每个词向量中含有词语的语义信息、词性信息以及情感倾向信息。

所述的步骤(2)的具体步骤为：

(2-1)采用步骤(1-1)和步骤(1-2)的方法对数据集中的n个句子进行分词处理、情感标签与词性标签标注处理，得到预处理数据集；

(2-2)根据步骤(1)中获得的词向量文件，提取预处理数据集中每个句子的每个词的词向量，构建句子矩阵集；

(2-3)以句子为单位，将句子矩阵中的每个词对应的词向量按照顺序输入至LSTM网络，经训练得到句子向量集。

所述的步骤(3)的具体步骤为：

(3-1)采用降维采样的方式对步骤(2)中获得的句子向量集进行情感语义特征提取，得到将情感语义特征集；

(3-2)将情感语义特征集作为神经网络模型的输入，将句子的情感语义特征对应的标准情感类标组成的集合作为神经网络模型的真值输出，通过反向传播算法和随机梯度下降算法更新神经网络模型的参数，得到情感分类模型。

本发明的基于深度学习的主观性文本情感分析方法将情感倾向信息、词性信息加入词语中，使得词向量所具有的属性增加，提高了词表示的准确率；采用LSTM网络生成句子向量的方法，更加切合句子本身的结构，提高了句子向量表示的准确度；使用基于深度学习的主观性文本情感分析方法，提高了情感分析的准确度。

附图说明

图1是本发明实施例基于深度学习的主观性文本情感分析方法的流程图；

图2是本发明实施例构建的C&W-SP模型的结构图；

图3是本发明实施例采用的LSTM模型的结构图。

具体实施方式

为了更为具体地描述本发明，下面结合附图及具体实施方式对本发明的技术方案进行详细说明。

图1所示的是本实施例基于深度学习的主观性文本情感分析方法的流程图，具体过程为：

S01，添加获取句子的情感信息的情感抽取模块和获取句子中每个词的词性信息的词性标注模块于C&W模型上，得到C&W-SP模型。

S02，将句子的情感标签与词性标签标注于句子内，构建C&W-SP模型的训练集，并利用该训练集对C&W-SP模型进行训练，得到训练集中每个词的词向量，组成词向量文件，记为vector.txt文件。

S02的具体步骤为：

S02-1，对数据集以句子为单位进行中文分词操作，得到由m个句子组成的分词数据集。

中文分词操作主要是基于字符串匹配原理来实现的。现有的开源的中中文分词层出不穷，且准确率将近100％，主要有中科院汉语分词系统(ICTCLAS)、结巴分词(jieba)等。此步骤中采用中科院汉语分词系统进行分词操作。

S02-2，将分词数据集中的每个句子的情感标签和每个句子中的每个词语的词性标签标注于该句子内，作为C&W-SP模型训练集。

此步骤的具体做法为：

首先，利用情感词典方式识别句子情感信息，并将该句子的情感标签

或

添加于句子的末端，以一个空格与整个句子隔开；

然后，利用斯坦福语法分析器将句子中的每个词的词性标签添加于每个词的后端以下划线隔开；

最后，利用斯坦福语法分析器将句子的情感标签的词性标签添加于该情感标签的后端以下划线隔开。

以“这个是我买过最好的包包！”为例详细阐述S02-2的过程：

首先，对原句子“这个是我买过最好的包包！”进行分词，得到分词后的句子为：

“这个是我买过最好的包包！”

然后，对分词后的句子进行情感信息标注，得到情感标签标注后的句子为：

“这个是我买过最好的包包！”

最后，对情感标签标注后的句子进行词性信息标注，得到词性标签标注后的句子为：

“这个_r是_v我_r买_v过_ug最好_a的_uj包包_v！_x

_emo”

S02-3，将C&W-SP模型训练集输入到C&W-SP模型中，以C&W-SP模型损失函数最小化为目标，采用随机梯度下降和反向传播算法更新模型参数，得到该训练集中每个词对应的词向量，组成词向量文件，记为vector.txt文件。

如图2所示，此步骤中的C&W-SP模型分为输入层(Lookup)、线性隐藏层(linear)、非线性隐藏层(hTanh)以及线性输出层(linear)。训练过程为：将训练集作为输入，通过滑动窗口的方式将窗口内每个词的n-gram以及情感性信息和词性信息输入到模型进行训练，通过线性隐藏层和非线性隐藏层，输出一个二维标量[f^cw,f₁ ^u]，其中，f^cw代表词性-语义分数，f₁ ^u代表情感分数。

C&W-SP模型的损失函数为：

loss_C&W-SP(t,t^r)＝α·loss_cw(t,t^r)+(1-α)·loss_us(t,t^r)

其中，α为权重，loss_cw(t,t^r)为C&W模型的损失函数，具体为：

loss_cw(t,t^r)＝max(0,1-f^cw(t)+f^cw(t^r))

loss_us(t,t^r)为情感损失函数，具体为：

loss_us(t,t^r)＝max(0,1-δ_s(t)f₁ ^u(t)+δ_s(t)f₁ ^u(t^r))

该步骤C&W-SP模型训练的目标是以loss_C&W-SP(t,t^r)最小，实际含义是原始句子的语言模型分数

比被替换句子的语言模型分数

至少高1，且原始句子的情感分数f₁ ^u(t)和被替换句子的情感分数f₁ ^u(t^r)相一致。

以预处理后的“这个_r是_v我_r买_v过_ug最好_a的_uj包包_v！_x

_emo”为例，经过模型训练，获得每个词对应的词向量，即：

这个_r：[0.2586,-0.5268,0.48952,……]

最好_a：[-0.8563,0.4781,0.17521,……]

S03，根据获得的词向量文件，利用LSTM模型构建句子向量集。

S03的具体步骤为：

S03-1，采用S02-1和S02-2的方法对数据集中的n个句子进行分词处理、情感标签与词性标签标注处理，得到预处理数据集；

S03-2，根据S02中获得的词向量文件，提取预处理数据集中每个句子的每个词的词向量，构建句子矩阵集；

S03-3，以句子为单位，将句子矩阵集中的每个词对应的词向量按照顺序输入至如图3所示的LSTM网络，经训练得到句子向量集。

LSTM网络中特殊的记忆单元(Memory Cell)的引入可以很好的保留历史信息，同时门结构的引入，包括输入门(Input Gate)，输出门(Output Gate)和遗忘门(ForgetGate)可以很好的解决长期依赖等问题。

S04，利用句子向量集对神经网络模型进行训练，得到情感分类模型；

S04，的具体步骤为：

S04-1，采用降维采样的方式对S03中获得的句子向量进行情感语义特征提取，得到将情感语义特征集；

S04-2，将情感语义特征集作为神经网络模型的输入，将句子的情感语义特征对应的标准情感类标组成的集合作为神经网络模型的真值输出，通过反向传播算法和随机梯度下降算法更新神经网络模型的参数，得到情感分类模型。

此步骤中，调用Softmax等激活函数，实现句子的情感分类，0代表消极，1代表积极。

S05，对测试评论语句进行分词处理、情感标签与词性标签标注处理，并根据S01获得的词向量文件获得该测试评论的词向量；然后通过S02的方法将该测试词向量转化为测试句子向量，将测试句子向量输入到情感分类模型中，计算得到此段评论的情感倾向。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的主观性文本情感分析方法，包括以下步骤：

(1)在C&W模型的基础上，构建C&W-SP模型，将句子的情感标签与词性标签标注于句子内，构建C&W-SP模型的训练集，并利用该训练集对C&W-SP模型进行训练，得到训练集中每个词的词向量，组成词向量文件，具体包括：

(1-4)将C&W-SP模型训练集输入到C&W-SP模型中，以C&W-SP模型损失函数最小化为目标，采用随机梯度下降和反向传播算法更新模型参数，得到该训练集中每个词对应的词向量，组成词向量文件；

(2)根据获得的词向量文件，利用LSTM网络构建句子向量集；

(4)对测试评论语句进行分词处理、情感标签与词性标签标注处理，并根据步骤(1)获得的词向量文件获得该测试评论的词向量输入矩阵；然后通过步骤(2)的方法将测试词向量转化为测试句子向量，将测试句子向量输入到情感分类模型中，计算得到此段评论的情感倾向。

2.根据权利要求1所述的基于深度学习的主观性文本情感分析方法，其特征在于：所述的步骤(1-3)的具体步骤为：

3.根据权利要求1所述的基于深度学习的主观性文本情感分析方法，其特征在于：所述的C&W-SP模型分为输入层、线性隐藏层、非线性隐藏层以及线性输出层；训练过程为：将训练集作为输入，通过滑动窗口的方式将窗口内每个词的n-gram以及情感性信息和词性信息输入到模型进行训练，通过线性隐藏层和非线性隐藏层，输出一个二维标量[f^cw，f₁ ^u]，其中，f^cw代表词性-语义分数，f₁ ^u代表情感分数。

4.根据权利要求1所述的基于深度学习的主观性文本情感分析方法，其特征在于：所述的C&W-SP模型的损失函数为：

loss_C&W-SP(t，t^r)＝α·loss_cw(t，t^r)+(1-α)·loss_us(t，t^r)

其中，α为权重，loss_cw(t，t^r)为C&W模型的损失函数，具体为：

loss_cw(t，t^r)＝max(0，1-f^cw(t)+f^cw(t^r))

loss_us(t，t^r)为情感损失函数，具体为：

loss_us(t，t^r)＝max(0，1-δ_s(t)f₁ ^u(t)+δ_s(t)f₁ ^u(t^r))

其中，f^cw(t)为句子t的语言模型分数，f^cw(t^r)代表替换句子t^r的语言模型分数，f₁ ^u(t)代表句子t的情感分数，f₁ ^u(t^r)为替换句子t^r的情感分数，g＝gold polarity，为标准情感倾向，[1，0]表示积极，[0，1]表示消极。

5.根据权利要求1所述的基于深度学习的主观性文本情感分析方法，其特征在于：所述的步骤(2)的具体步骤为：

6.根据权利要求1所述的基于深度学习的主观性文本情感分析方法，其特征在于：所述的步骤(3)的具体步骤为：