CN107862087A

CN107862087A - 基于大数据和深度学习的情感分析方法、装置和存储介质

Info

Publication number: CN107862087A
Application number: CN201711249308.XA
Authority: CN
Inventors: 张家栋; 杨学平; 宁伟
Original assignee: Guangzhou Jane Yixun Mdt Infotech Ltd
Current assignee: Shenzhen aishuyun Technology Co.,Ltd.
Priority date: 2017-12-01
Filing date: 2017-12-01
Publication date: 2018-03-30
Anticipated expiration: 2037-12-01
Also published as: CN107862087B

Abstract

本申请公开了一种基于大数据和深度学习的情感分析方法、装置和存储介质，其中情感分析方法包括：对具有初步标注信息的情感数据进行预处理；采用启发式扩展方式对情感数据进行标注；启发式扩展方式包括：对情感数据进行分词，提取情感词，为其分配情感强度值；提取修饰词，为修饰词分配修饰强度值；计算短语的情感强度；如果短语的情感强度所对应的情感极性与情感数据的情感极性一致，则将短语和情感强度值加入情感标注数据集。通过对收集到的情感数据进行启发式扩展，可以为后续的数据处理提供良好的原始数据，提高后续数据分析的针对性和准确性，使情感词库更加准确和完善。

Description

基于大数据和深度学习的情感分析方法、装置和存储介质

技术领域

本发明涉及计算机情感分析领域，具体而言，特别涉及一种情感分析方法、情感分析装置、存储介质、计算机设备和程序产品。

背景技术

随着互联网、特别是移动互联网的迅速发展，各种新应用不断产生，例如新闻门户网站、电子商务网站、社交网络等。在这些应用上，普通大众可以表达对事物的主观倾向性观点，例如对新闻事件的评论，以及对所购买商品的喜好。目前，由用户生成的带有情感倾向性的文本数据以指数增长。通过挖掘这些海量数据，获取用户情感信息，对电子商务、商业智能、民意调查、舆情分析、情报分析、企业管理等至关重要，也为管理者提供强有力的决策支持。例如，商家可以通过这些信息获取消费者意见，更好地理解消费者的喜好与消费习惯，设计生产出更有针对性的产品；政府机构可以通过分析热点事件的舆情，为指定方针政策提供依据；而普通消费者则可以依据其他人的观点汇总作为其购买行为以及消费决策的重要参考。

由于训练情感分析模型需要大量的标注了情感倾向性(或者情感极性)的文本数据。现有方法试图通过收集少量的情感词典并且赋予不同的情感强度，然后基于这些情感词的情感强度，计算整个文本的情感倾向性，即正面、负面、或者中立。这种方法严重依赖情感词库，并且情感词的情感强度依赖于所处自然语言的语境。

现有的情感词库中并没有考虑修饰词对情感词语的修饰作用，例如，副词、否定词等。但是一般情况下动态情感词语会对形容词等情感词产生很大程度限定作用，甚至影响情感词的词性，如果不加以考虑，容易造成情感强度偏差，从而影响情感数据集的数据标注的准确性，进而影响对文本评论的结果。因此，现有的情感分析模型的准确率往往比较低。

发明内容

本发明旨在至少在一定程度上解决现有技术中的上述技术问题之一。

鉴于此，本发明提供了一种情感分析方法，包括以下步骤：

S1对具有初步标注信息的情感数据进行预处理；

S2采用启发式扩展方式对所述情感数据进行不同粒度地标注，构建情感标注数据集；

其中，S2采用启发式扩展方式对所述情感数据进行不同粒度地标注，构建情感标注数据集的步骤包括：

S21对所述情感数据进行分词，提取所述情感数据中的情感词，为所述情感词分配情感强度值；

S22提取所述情感数据中的修饰词，为所述修饰词分配修饰强度值；

S23根据所述情感词的情感强度值和该情感词的修饰词的修饰强度值计算包括所述情感词和所述修饰词的短语的情感强度值；

S24如果所述短语的情感强度值所对应的情感极性与所述情感数据的情感极性相符，则将所述短语和所述短语的情感强度加入情感标注数据集。

优选地，其中，所述对具有初步标注信息的情感数据进行预处理的步骤包括：

S11收集具有初步标注信息的情感数据；

S12对所述情感数据进行去重处理；

S13将去重后的情感数据的初步标注信息映射成情感极性；

S14根据所述情感数据的情感极性和所述情感数据之间的匹配程度对所述情感数据进行过滤。

优选地，在S24如果所述短语的情感强度值所对应的情感极性与所述情感数据的情感极性一致，则将所述短语和所述短语的情感强度加入情感标注数据集的步骤后还包括：

S25如果所述短语的情感强度值所对应的情感极性与所述情感数据的情感极性不一致，则对所述短语的情感强度值进行校正后，再将所述短语和所述短语的情感强度值加入情感标注数据集。

优选地，在S2采用启发式扩展方式对所述情感数据进行不同粒度地标注，构建情感标注数据集的步骤后还包括：

S3利用所述情感标注数据集对所述情感数据的文本信息进行分析，学习词语义；

S4利用深度学习模型分析情感数据的文本信息的语言结构，学习语法关系；

S5利用不同粒度的情感数据对情感分析模型进行训练，得到统一的情感分析模型。

优选地，其中，所述S3利用情感标注数据集对所述情感数据的文本信息进行分析，学习词语义包括：

S31根据句子中前面的词语的情感强度估计下个词语出现的概率，从而计算所述下个词语的浮点向量；

S32利用词语的浮点向量计算不同词语之间的相似度或者词语距离，从而对不同词语进行区分。

优选地，所述S5利用不同粒度的情感数据对情感分析模型进行训练，得到统一的情感分析模型的步骤包括：

S51将不同粒度的情感数据作为训练数据交替输入所述情感分析模型，优化所述情感分析模型的参数；

S52如果所述情感分析模型对某种粒度的情感数据的情感极性预测准确率低，则动态增加该粒度的情感数据作为训练数据输入所述情感分析模型；

S53如果所述情感分析模型对各种粒度的情感数据的预测准确率高于阈值，训练终止，得到统一的情感分析模型。

本发明还提供了一种情感分析装置，其特征在于，包括以下模块：

预处理模块，被配置为对具有初步标注信息的情感数据进行预处理；

标注模块，被配置为对于预处理模块的采用启发式扩展方式对所述情感数据进行不同粒度地标注，构建情感标注数据集；

其中，标注模块包括：

情感词标注模块，被配置为对所述情感数据进行分词，提取所述情感数据中的情感词，为所述情感词分配情感强度值；

修饰词标注模块，被配置为提取所述情感数据中的修饰词，为所述修饰词分配修饰强度值；

短语情感强度计算模块，被配置为根据所述情感词的情感强度值和该情感词的修饰词的修饰强度值计算包括所述情感词和所述修饰词的短语的情感强度值；

短语标注模块，被配置为如果所述短语的情感强度值所对应的情感极性与所述情感数据的情感极性一致，则将所述短语和所述短语的情感强度加入情感标注数据集。

本发明还提供了一种计算机设备，包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序，其中，所述处理器执行所述计算机程序时实现上述的情感分析方法。

本发明还提供了一种计算机可读存储介质，其内存储有计算机程序，所述计算机程序在由处理器执行时实现上述的情感分析方法。

本发明还提供了一种计算机程序产品，包括计算机可读代码，当所述计算机可读代码由计算机设备执行时，导致所述计算机设备执行上述的情感分析方法。

本发明通过收集大规模标注数据，并且利用启发式方法扩展收集到情感标注数据，以提高情感分析模型的准确率。

进一步地，本发明基于词向量化模型(Word Embedding)，学习每个词的向量表示，以表示词的隐含语义，方便计算词语之间的关系。另外，本发明基于深度学习情感分析模型，学习自然语言丰富多样的复杂结构，以准确理解文本的真实含义。

进一步地，本发明通过采集和启发式生成不同粒度情感标注数据，平衡不同粒度的数据分布，训练统一的情感分析模型，以准确预测不同粒度文本的情感极性，从而增强情感分析模型对自然语言理解力和提升情感极性预测的准确率，进而增强了情感分析模型的可用性。

附图说明

后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解，这些附图未必是按比例绘制的。附图中：

图1示出了本发明的情感分析方法的一个实施例的流程图；

图2示出了本发明的情感分析方法的深度学习情感分析模型的一个实施例的原理框图；

图3示出了本发明的情感分析方法的另一个实施例的流程图；

图4示出了本发明的情感分析装置的一个实施例的框图；

图5示出了本发明的情感分析装置的另一个实施例的框图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

本发明提供了一种情感分析方法，图1示出了情感分析方法的一个实施例的流程图，该方法包括以下步骤：

S1对具有初步标注信息的情感数据进行预处理；

S2采用启发式扩展方式对情感数据进行不同粒度地标注，构建情感标注数据集。

优选地，S1步骤具体可以包括：

S11收集具有初步标注信息的情感数据。

利用大数据分析技术，收集信息网络中各种能够体现用户情感并且已经具有初步标注信息的情感数据。体现用户情感的信息可以包括但不限于电商网站上买家对商品的评论、餐饮网站上消费者对食物的评论、微博和微信的评论、以及门户类网站上读者对新闻的评论等。初步标注信息可以包括但不限于用户评分、等级评价、态度表达等类似信息，例如，点赞、踩(一种表达否定的态度)、5星级评分或者百分数评分等等。由于这些用户文本的评论经常关联了用户的评分，因此，形成了具有初步标注信息的情感数据。此类情感数据通常可以作为构建情感标注数据集的基础数据。

S12对情感数据进行去重处理。去重的方法包括但不限于simhash算法、编辑距离算法和余弦相似度算法。

情感数据中经常会遇到重复文本，例如，由于一些评论中经常包含广告或宣传用语，这些语句的特点是重复次数高、相似程度高，因此，对文本进行去重，可以提高文本数据的纯净度。

S13将去重后的情感数据的初步标注信息映射成情感极性。情感极性即情感倾向性数据。情感极性可以包括正面、负面、中立或者模糊。这些程度可以量化为数字。

S14根据情感数据的情感极性和情感数据之间的匹配程度对情感数据进行过滤。

由于有些情感数据包含明显的评分错误，即用户评分和文本评论的情感倾向性不一致。如果把收集来的原始标注数据放入词库，会影响情感标注数据集的可信性。因此，对收集到的标注数据进行预处理，尽可能把这些错误标注数据过滤掉，这有利于提高后续数据处理的准确性。

具体地，过滤的方法可以包括下面的步骤：

(a)利用根据不同数据源的特点设定的匹配程度判定标准，对情感极性和情感数据之间的匹配程度进行计算；

(b)若匹配程度大于或者等于一定阈值，则保留该情感数据，若低于该阈值，则滤除该情感数据。

由于情感数据通常具有不同来源，即来自不同平台，每个平台的特点不同，导致对匹配程度的判定标准不同。具体地，根据不同数据源的特点设定匹配程度判定标准的规则包括但不限于以下规则中的一种或几种：

根据用户的等级判断匹配程度。具体地，通常认为高等级用户的情感数据(例如，用户评论)比低等级用户的情感数据更可靠；

根据其他用户对情感数据(例如，用户评论)的评价信息判断匹配程度。对于一些平台，允许其他用户对情感数据进行“点赞”或者“踩一下”，以表示对该情感数据的认可与否。因此，该情感数据获得的点赞数量越多，说明该情感数据的文字信息和/或对应的评价等级越可信，匹配程度越高，反之，被踩的次数越多，说明该文字信息和/或对应的评价等级越不可信，匹配程度较低；

根据专业人员对情感数据的评价信息判断匹配程度。对于一些平台，专业人员会对用户的情感数据做出认定，例如认定为优质评论、普通评论、劣质评论和/或恶意评论，优质评论比普通评论等更可靠，匹配程度越高，反之，劣质评论和/或恶意评论不可靠，匹配程度较低。

可以将上述判断标准的规则抽象成影响因子，利用影响因子计算匹配程度。从而能够各个平台、各个数据源的特点和差异性体现在计算匹配程度的结果中，并且能够将各个数据源的数据整合在一个算法体系中。

例如，匹配程度可以采用影响因子与情感分析结果相乘得到，其中，情感分析结果可以利用情感分析模型对情感数据的文本信息进行分析后与情感数据的极性进行比较而得到。

例如，利用情感分析模型对情感数据的文本信息进行分析后得到的情感极性为1.00，将情感数据的初步标注信息映射得到的情感极性也为1.00，则情感分析结果为100％，若该客户为优质用户，影响因子为1.5，则该情感数据的匹配程度为150％。

通过对收集到的情感数据进行预处理，可以为后续的数据处理提供良好的原始数据，提高后续数据分析的针对性和准确性，有利于情感词库的准确和完善。

优选地，本发明的启发式扩展方法可以包括如下步骤：

S21对情感数据进行分词，提取情感数据中的情感词，为情感词分配情感强度值。

首先对情感数据的文本信息进行分词后提取其中的情感词。按标点符号切分成字词、短语后按照属性进行分类。属性可以包括：命名实体、代词、意见指示动词、情感词(也称为属性词)、属性词、程度词、连接词等等。将其中的情感词提取出来。

具体地，命名实体包括在主观句中的意见持有者，如：电视、手机等；意见指示动词表示引出意见的动词，如：认为、觉得等；情感词包括表达情感极性的形容词和动词等；属性词包括评价对象的词语，如，口味、外观等；程度词包括表示比较的词语和表达情感强度的副词，如，很、较、更等。

根据情感数据的初步标注信息为情感词分配情感强度值。例如，情感强度值的区间可以为[-1,1]，其中，正值表示正面，负值表示负面，零左右表示中立。可以理解地是，区间值的设定不限于此，任何的区间值只要能够区分情感等级，都在本发明的保护范围内，例如，[0,1]、[-2,2]等也是能够实现情感强度表征的。将把情感词、情感强度以及情感极性加入到情感词库中。本发明基于大数据分析技术，收集了三万多个情感词，并逐一进行了情感强度值的分配。可以根据情感词和情感强度值建立通用情感词库。通用情感词库可以作为后续数据分析的工具。

S22提取情感数据中的修饰词，为修饰词分配修饰强度值。

修饰词主要是指表示情感程度的修饰词。例如，副词，这里副词是指加强情感、减弱情感、或者否定情感的副词修饰词，如，“非常”、“有点”、“没有”等。同样地，本发明为每个修饰词分配了一个修饰强度值，位于[-1,2]之间，-1到0之间表示表示否定情感强度，即把正面变成负面、负面变成正面；0到1之间表示减弱情感强度；1到2之间增强情感强度。可以理解地是，区间值不限于此，任何的区间值只要能够区分情感强度，都在本发明的保护范围内。

S23根据情感数据中情感词的情感强度值和该情感词的修饰词的修饰强度值计算包括情感词和修饰词的短语的情感强度值。

优选地，可以将情感词的情感强度值与修饰词的修饰强度值相乘或者相除，得到短语的情感强度。应当理解的是，也可以采用其他计算方式。例如，将修饰词的修饰强度值作为情感词的情感强度值的幂；分别计算将情感词的情感强度值与修饰词的修饰强度值的加权系数，再计算短语的情感强度。

S24如果短语的情感强度值所对应的情感极性与所述情感数据的情感极性相符，则将所述短语和所述短语的情感强度加入情感标注数据集。加入情感标注数据集的内容可以包括但不限于短语、短语的情感强度、情感数据的情感极性。相符的含义可以作广泛地理解。例如，短语的情感强度值所对应的情感极性为正面，对具有初步标注信息的情感数据进行预处理后得到的情感极性也为正面，则认为二者相符。或者，短语的情感强度值所对应的情感极性与情感数据的情感极性的偏差在一定范围内，则认为二者相符。

S25如果短语的情感强度值所对应的情感极性与所述情感数据的情感极性不相符，则对所述短语的情感强度值进行校正后，再将所述短语和所述短语的情感强度值加入情感标注数据集。加入情感标注数据集的内容可以包括但不限于短语、短语的情感强度、情感数据的情感极性。应当理解的是，可以通过人工对短语的情感强度值进行校正，或者利用增强学习的方法校正所述短语，即利用已有标注数据，训练一个初始情感分析模型，以估计所述短语的情感强度。

如果短语的情感强度与所述情感数据的情感极性不一致，也可以选择将该情感数据过滤，不再分析处理；或者进行其他处理方式。

短语包括经常在一起使用的搭配短语。现有技术中，情感词库中往往只有某个词的强度值，没有固定搭配的短语的强度值，因此在实际使用的时候临时对短语进行分析计算，会导致分析计算的速度变慢。另外，有些固定用法如果按照普通的算法容易得到错误结论，例如，“不一般”、“不能再好”，如果按照普通的算法容易计算得到负值极性，即，负面评价，然而这与该词语表达的具体含义是不一致的。本发明能够计算这类短语的情感强度值，并加入情感标注数据集，使得在后续使用时不会引入错误结果，使得情感数据分析结果更加准确。

互联网用户评论数据的粒度大部分是篇章级，少部分是句子级，极少数是词语级的或者短语级。但是评论数据的基本构成元素是字词，因此本发明通过建立针对字词和短语的情感词库，实现了对极性未知的篇章级情感数据和句子级情感数据的分析。本发明利用粗粒度(篇章级和句子级)的情感标注数据，启发构建细粒度(词语级和短语级)的情感标注数据，对情感标注数据进行了扩展。

上述的情感标注数据集可以作为对通用情感词库的补充。也可以通用情感词库的内容整合情感标注数据集中。情感标注数据集的内容也不限于通用的情感词和修饰词。

通用情感词库通常包含最常用的情感词语，然而现代人用表达情感的文字形式越来越多样，情感标注数据集的内容的扩展可以不限于修饰词和短语，例如可以建立各种特色词库，从而对情感标注数据集进行补充和完善。情感标注数据集的内容包括但不限于：修饰词、短语、新词、表情词、连接词等。

新词包括现实生活中或者网络上的流行语，它们通常具有与词语表面意思不同的特殊含义，但是依靠传统的算法并不能识别其真实情感含义，因此对这类词语进行总结和分析有助于提高后续数据分析的准确性。

对新词的辨识和判断可以采取下列步骤：

(a)通过对情感数据的文本信息进行分词后，对词语的词频阈值、是否在通用情感词库中、该词语的内部耦合度阈值分别进行判断，若这三个指标均满足设定新词的成词阈值，则认为该词语是新词；

(b)对得到的新词进行去噪处理。去噪处理包括对表现平台特征而非情感词语的用词进行过滤，例如，分享到、转自等。优选地，去噪处理还包括过滤后的人工校对，或者对过滤结果进行抽查。

(c)为去噪处理后的新词设立情感强度值，将新词、以及新词的情感强度值和/或新词所在的情感数据的极性加入情感标注数据集。

应当理解的是，此处的新词包括但不限于新的词、新的短语或短句。

对于表情词库而言，目前，用户发表文字信息时配以各种表情符号，或者仅仅用表情符号表达情感的方式已经越来越普遍。因此，有必要对表情进行分析，以丰富情感词库。

表情符号虽然呈现给用户的是图片、动画等多媒体信息，但是大部分表情符号也是由特定的构建规则组成的。例如，在QQ表情包里，采用“/gz”这三个字符表示鼓掌的表情，该表情表达了赞称、肯定的情感，或者:-D表示开心，等等。因此，可以建立表情与情感强度的对应关系。

对表情符号的辨识和判断可以采取下列步骤：

(a)在文本信息中识别表情符号；

(b)根据表情符号和情感词的映射关系得到与该表情符号对应的情感词；

(c)根据该情感词的情感强度值确定表情符号的情感强度值。

具体地，可以根据表情符号的构建规则在文本信息中识别表情符号；然后根据表情符号和情感词的映射关系得到与该表情符号对应的情感词，该映射关系可以包括在构建规则中，可以由人工进行设定；然后将情感词在情感词库中所对应的强度值设定为表情符号的情感强度值，也可以根据一定比例关系设定表情符号的情感强度值，例如，表情符号的情感强度值可以高于或者低于情感词的情感强度值，二者可以成一定的比例，或者在情感词的情感强度值的基础上加减一定的数值得到表情符号的情感强度值。

可以理解的是，上述步骤可以不一定按照顺序进行，对于修饰词、新词、表情符号等特色词，可以分别建立特色词库，也可以根据需要仅选择其中的若干步骤建立某些类型的词库，或者增加其他类型的词库。也可以将修饰词、新词、表情符号、以及它们的情感强度和/或所在的情感数据的极性直接加入情感标注数据集。情感标注数据集属于细粒度情感词库，其可以包括字、词、短语的该建细粒度情感词库包括情感词、情感词、情感强度以及情感极性等信息。

具体地，将通用情感词库中的情感词与扩展词库中的情感词进行合并去重，建立统一的索引规则。这样有利于以后对情感数据的分析。

在以后的使用过程中，可以随时或者定期对该细粒度情感词库进行补充和完善。

通过上述的情感分析方法，能够建立情感细粒度情感词库，该词库考虑了很多词语类型和应用场景，将不同平台的数据进行了整合，因此更加全面和完善，为以后的情感数据分析奠定了基础。

在构建了情感标注数据集后，可以利用该数据集中的数据作为训练样本，训练情感分析模型，该数据集也可以作为后续处理其他数据的基础。

优选地，图3示出了本发明的情感分析方法的另一个实施例的流程图，该情感分析方法还可以包括如下步骤：

S3利用情感标注数据集对所述情感数据的文本信息进行分析，学习词语义。

在自然语言中，两个看似不同的词语，可能表达类似的语义，例如“价格”和“价位”。传统的情感分析技术，通常把每个词都看成不同词，很难计算词语之间的语义关系，如同义词和反义词等。本发明基于深度学习技术，学习词语的真实语义，以建立词语之间的语义关系。本发明基于词向量化模型(Word Embedding)，学习每个词的向量表示，以表示词的隐含语义。

S3利用情感标注数据集对所述情感数据的文本信息进行分析，学习词语义的步骤可以包括：

S31根据句子中前面的词语的情感强度估计下个词语出现的概率，从而计算下个词语的浮点向量。

每个句子中第n个词的概率估计函数的形式：

其中w₁表示该句子中的第1个词，w_n表示第n个词，表示第n个词出现的概率估计值。公式(1)的约束条件为下面公式(2)和(3)：

f(w_n,w_n-1,…，w₁)＞0 (3)

其中，V表示句子的长度。通过对收集的情感数据进行分析和建模，得到词语的概率估计函数的具体形式，如公式(4)所示，其中

y＝WX+Utanh(d+HX) (4)

其中，X＝[C(w_n-1),C(w_n-2)，……，C(w₁)]^T，C(w_n-1)为第n-1个词的浮点向量，C(w₁)为第1个词的浮点向量，为设定的初始值；d为偏置项；H为系数矩阵，该系数矩阵中的每个参数表征X中对应的每个词的情感强度值，U为根据神经网络算法得到的隐藏层到输出层的系数，tanh()为激活函数，W为根据神经网络算法得到的输入层到输出层的系数。通过计算各个句中该词语出现的概率y，进而得到该词的浮点向量C(w_n)。

该算法结合了情感强度对词语的浮点向量进行计算，有利于提高概率的平滑度，可以保证低频稀疏模型的鲁棒性。

通过词语的浮点向量计算不同词语之间的相似度或者词语距离，从而对词语进行区分。相似度高或者距离近的词语可以被设置为相同极性，基于词语的向量表示，可以计算词语之间的关系，如词语相似度或者词语距离。计算向量相似度或者距离的方法包括但不限于：cosine值计算方法、相关系数计算方法、欧几里得距离计算方法等。

利用上述步骤，可以知道每个词的浮点向量，因为浮点向量与句子里该词之前的词语有关，因此该词的浮点向量在一定程度上体现了其应用的语言环境和场景。如果利用浮点向量计算出两个词，例如“价格”和“价位”的相似度很大或者词语距离很近，则证明二者是同义词的概率很大。

除了采用上述的词语浮点向量计算方法外，还可以采用其他方法实现词语义分析的目的，例如，主成分分析(Principal Component Analysis,PCA)、矩阵分解、隐语义分析(Latent Semantic Analysis,LSA)等。

S4利用深度学习情感模型分析情感数据的文本信息的语言结构，学习语法关系。

本发明采用的深度学习情感分析模型对文本信息的语言结构进行分析。其中，深度学习情感分析模型包括循环神经网络模型。本发明的情感分析方法的深度学习情感分析模型的一个实施例的原理框图如图2所示。其中，S4步骤可以包括：

S41将句子划分为若干核心单元。划分的方法可以通过分词算法进行。每个核心单元具有两个输入接口和一个输出接口。

S42将词语序列的上一状态和当前词语的浮点向量分别输入核心单元的两个输入接口。例如，第i个核心单元的两个输入端口分别是词语序列的上一个状态h_i-1和当前第i个词语的浮点向量C(w_i)。对输入数据进行内部线性变换和激活函数处理。核心单元的输出接口输出当前状态，并将当前状态传递给下一个核心单元的输入接口。

S43最后通过计算得到该语句的情感极性。语句的情感极性S为：

S＝f(C(w_n),C(w_n-1),...,C(w₁),C(w₁),h_n-1,h_n-2,...,h₀) (5)

其中，C(w_i)为第i个词的浮点向量，h_i表示词语序列的第i个状态。循环神经网络模型的核心单元可以是普通神经网络单元、长短期记忆单元(Long Short-Term Memory,LSTM)或者门控循环单元(Gated Recurrent Unit,GRU)等。LSTM和GRU的优点是：在学习循环神经网络模型过程中，不但能学习文本结构的长短期依赖，而且避免梯度爆炸或者梯度消失等问题。常用的激活函数包括tanh、sigmoid、relu、maxout等。

下面以长短期记忆单元为例，阐述本发明情感分析模型的一种具体形式。给定上一个状态h_i-1和当前第i个词语的浮点向量C(w_i)，当前状态h_i的完整计算过程如公式(6)：

其中，F_i、I_i和O_i分别是长短期记忆单元中“忘记门”、“输入门”、“输出门”的计算公式；为当前词语向量C(w_i)保存在记忆单元中的信息，当前最终记忆信息D_i由历史记忆信息D_i-1和两部分组成；当前状态h_i根据“输出门”和当前最终记忆信息D_i计算。σ为sigmoid激活函数，*表示矩阵点乘，W_F、W_I、W_O、W_D和b_F、b_I、b_O、b_D为模型参数，利用训练数据学习获得。

篇章的情感极性，可以通过对篇章进行断句，对每个句子进行分析后，得到若干个关键情感语句，通过若干个关键情感语句的情感极性判断该篇章的情感极性。

自然语言结构复杂多样，仅仅对字词和短语进行分析，还不能判断该语句的真实情感含义。因此，本发明对整个语句进行分析，计算该句子的情感极性，从而提升机器对自然语言的理解力和情感极性预测的准确率。

本发明的深度学习情感分析模型可以采用循环神经网络模型或者任何循环神经网络模型的变体，例如，双向的循环神经网络、多层的循环神经网络、以及对循环神经网络进行正则化。

优选地，该步骤具体包括：

S51将不同粒度的情感数据作为训练数据交替输入情感分析模型，优化情感分析模型的参数。

优选地，粒度包括词语、句子、篇章。优选地，交替输入时考虑动态平衡不同粒度的数据分布。

S52如果情感分析模型对某种粒度的情感数据的情感极性预测准确率低，则动态增加该粒度的情感数据作为训练数据输入情感分析模型。准确率低可以包括低于某个阈值，也可以是低于其他粒度的情感数据的情感极性预测准确率。

本发明的情感分析方法能够预测不同粒度(如词语级、句子级、篇章级等)文本的情感倾向。本发明利用各种粒度的情感标注数据，包括情感词典库、启发式生成的情感短语、以及采集和过滤后的互联网评分标注数据，并且动态平衡不同粒度的数据分布，训练统一的情感分析模型。在模型的训练过程中，不同粒度的文本数据，交替输入，以学习和优化模型的参数。如果模型对某个粒度文本的情感极性预测准确率较低，则动态增加该粒度的训练数据输入，直到模型对各种粒度文本的预测准确率表现良好，训练终止。

根据本发明的另一方面，还提供了一种情感分析装置，图4示出了本发明的情感分析装置的一个实施例的框图，该装置包括以下模块：

1预处理模块，被配置对具有初步标注信息的情感数据进行预处理；

2标注模块，被配置为对于预处理模块的采用启发式扩展方式对情感数据进行不同粒度地标注，构建情感标注数据集；

优选地，预处理模块包括：

11收集模块，被配置为收集具有初步标注信息的情感数据。

12去重模块，被配置为对收集模块收集的情感数据进行去重处理。

13映射模块，被配置为将去重模块进行去重处理后的情感数据的初步标注信息映射成情感极性。情感极性即情感倾向性数据。

14过滤模块，被配置为根据情感数据的情感极性和情感数据之间的匹配程度对情感数据进行过滤。

过滤模块可以包括：

(a)匹配程度计算模块，被配置为利用根据不同数据源的特点设定的匹配程度判定标准，对情感极性和情感数据之间的匹配程度进行计算；

(b)判断模块，被配置为若匹配程度计算模块计算得到的匹配程度大于或者等于一定阈值，则保留该情感数据，若低于该阈值，则滤除该情感数据。

优选地，标注模块包括：

21情感词标注模块，被配置为对情感数据进行分词，提取情感数据中的情感词，为情感词分配情感强度值；

22修饰词标注模块，被配置为提取情感数据中的修饰词，为所述修饰词分配修饰强度值；

23短语情感强度值计算模块，被配置为根据所述情感数据中情感词的情感强度值和该情感词的修饰词的修饰强度值计算包括所述情感词和所述修饰词的短语的情感强度值；

24短语标注模块，被配置为如果短语情感强度计算模块计算得到的短语的情感强度值所对应的情感极性与所述情感数据的情感极性相符，则将所述短语和所述短语的情感强度加入情感标注数据集。

25校正模块，被配置为如果短语情感强度计算模块计算得到的短语的情感强度值所对应的情感极性与所述情感数据的情感极性不相符，则对所述短语的情感强度值进行校正后，再将所述短语和所述短语的情感强度值加入情感标注数据集。

优选地，标注模块还可以包括：新词辨识判断模块。优选地，该新词辨识判断模块可以包括以下模块：

新词认定模块，被配置为通过对情感数据的文本信息进行分词后，对词语的词频阈值、是否在通用情感词库中、该词语的内部耦合度阈值分别进行判断，若这三个指标均满足设定新词的成词阈值，则认为是新词；

去噪处理模块，被配置为对得到的新词进行去噪处理。去噪处理包括对表现平台特征而非情感词语的用词进行过滤，例如，分享到、转自等。优选地，去噪处理还包括过滤后的人工校对，或者对过滤结果进行抽查。

强度值设立模块，被配置成为去噪处理后的新词设立强度值，将新词、以及新词的情感强度和/或新词所在的情感数据的极性加入情感标注数据集。

优选地，标注模块还可以包括：表情符号辨识判断模块。该表情符号辨识判断模块可以包括以下模块：

识别模块，被配置为在情感数据的文本信息中识别表情符号；

情感词获得模块，被配置为根据表情符号和情感词的映射关系得到与该表情符号对应的情感词；

情感强度值确定模块，被配置为根据该情感词的情感强度值确定表情符号的情感强度值。

优选地，图5示出了本发明的情感分析装置的另一个实施例的框图，该情感分析装置还包括：

3词语义学习模块，被配置为利用标注模块得到的情感标注数据集对情感数据的文本信息进行分析，学习词语义。优选地，该词语义学习模块可以包括：

31浮点向量计算模块，被配置为根据句子中前面的词语的情感强度估计下个词语出现的概率，从而计算下个词语的浮点向量。浮点向量的计算可以采用本发明中情感分析方法中的计算方法。

32相似计算模块，被配置为通过浮点向量计算模块得到的词语的浮点向量计算不同词语之间的相似度或者词语距离，从而对不同词语进行区分。

浮点向量的计算以及相似度或者词语距离的计算可以采用本发明中情感分析方法中的计算方法，此处不再赘述。

优选地，本发明提供的情感分析装置还包括：

4语法关系学习模块，被配置为利用深度学习情感模型分析情感数据的文本信息的语言结构，学习语法关系。优选地，语法关系学习模块可以包括：

41核心单元划分模块，被配置为将句子划分为若干核心单元。

42核心单元处理模块，被配置为两个输入接口分别接收词语序列的上一个状态和当前词语的浮点向量，输出接口输出当前状态，并将当前状态传递给下一个核心单元的输入接口。

43语句情感极性计算模块，被配置为通过计算得到该语句的情感极性。

优选地，本发明提供的情感分析装置还包括：

5情感分析模型训练模块，被配置为利用不同粒度的情感数据对情感分析模型进行训练，得到统一的情感分析模型。优选地，情感分析模型训练模块可以包括：

51交替输入模块，被配置为将不同粒度的情感数据作为训练数据交替输入情感分析模型，优化所述情感分析模型的参数。

52动态调整模块，被配置为如果所述情感分析模型对某个粒度的情感数据的情感极性预测准确率低，则动态增加该粒度的情感数据作为训练数据输入交替输入模块。

53准确率判断模块，被配置为判断如果所述情感分析模型对各种粒度的情感数据的预测准确率高于阈值，训练终止，得到统一的情感分析模型。

根据本发明的另一方面，还提供了一种计算机设备，包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序，其中，所述处理器执行所述计算机程序时实现上述的情感分析方法之一。

根据本发明的另一方面，还提供了一种计算机可读存储介质，优选为非易失性可读存储介质，其内存储有计算机程序，所述计算机程序在由处理器执行时实现上述的情感分析方法之一。

根据本发明的另一方面，还提供了一种计算机程序产品，包括计算机可读代码，当所述计算机可读代码由计算机设备执行时，导致所述计算机设备执行上述的情感分析方法之一。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。此外，本领域的技术人员可以将本说明书中描述的不同实施例或示例进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种情感分析方法，其特征在于，包括以下步骤：

S1对具有初步标注信息的情感数据进行预处理；

2.根据权利要求1所述的一种情感分析方法，其中，所述对具有初步标注信息的情感数据进行预处理的步骤包括：

S11收集具有初步标注信息的情感数据；

S12对所述情感数据进行去重处理；

S13将去重后的情感数据的初步标注信息映射成情感极性；

3.根据权利要求1所述的一种情感分析方法，在S24如果所述短语的情感强度值所对应的情感极性与所述情感数据的情感极性一致，则将所述短语和所述短语的情感强度加入情感标注数据集的步骤后还包括：

4.根据权利要求1至3的任一项所述的一种情感分析方法，在S2采用启发式扩展方式对所述情感数据进行不同粒度地标注，构建情感标注数据集的步骤后还包括：

5.根据权利要求4所述的一种情感分析方法，其中，所述S3利用情感标注数据集对所述情感数据的文本信息进行分析，学习词语义包括：

6.根据权利要求4所述的一种情感分析方法，所述S5利用不同粒度的情感数据对情感分析模型进行训练，得到统一的情感分析模型的步骤包括：

7.一种情感分析装置，其特征在于，包括以下模块：

其中，标注模块包括：

8.一种计算机设备，包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述的情感分析方法。

9.一种计算机可读存储介质，其内存储有计算机程序，所述计算机程序在由处理器执行时实现如权利要求1至6中任一项所述的情感分析方法。

10.一种计算机程序产品，包括计算机可读代码，当所述计算机可读代码由计算机设备执行时，导致所述计算机设备执行如权利要求1至6中任一项所述的情感分析方法。