CN110489553A

CN110489553A - 一种基于多源信息融合的情感分类方法

Info

Publication number: CN110489553A
Application number: CN201910682354.1A
Authority: CN
Inventors: 杨胜刚; 陈佐; 李新; �田�浩; 杨申燕; 朱桑之; 谷浩然; 杨捷琳
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2019-07-26
Filing date: 2019-07-26
Publication date: 2019-11-22
Anticipated expiration: 2039-07-26
Also published as: CN110489553B

Abstract

本发明公开一种基于多源信息融合的情感分类方法，步骤包括：S1.选取指定互联网平台中目标用户的部分评论数据并设置情感标签，按照相同或相似评分的评论数据具有情感类似关系进行标签传播，得到扩充后的标签数据；S2.基于多个情感词典提取词典情感信息，以及提取包括情感词共现信息、情感词极性信息、情感词对极性关系信息的情感信息，得到多源情感信息；S3.初始化情感词典后，不断迭代更新情感词典以不断逼近提取得到的多源情感信息，构建得到所需的情感词典；S4.基于构建得到的情感词典对所需用户的评论数据进行情感分类。本发明能够实现互联网商品评论数据的情感分类，且具有实现方法简单、分类效率以及精度高等优点。

Description

一种基于多源信息融合的情感分类方法

技术领域

本发明涉及互联网平台商品评论情感分类技术领域，尤其涉及一种基于多源信息融合的情感分类方法。

背景技术

随着网络技术的不断革新，越来越多的互联网产品成为人们日常生活的必须品，例如Twitter、微博、亚马逊商城等，这些产品不仅服务用户，也是数据产生的良好平台，包括用户评论、用户评分、用户购买数据等各种各样的用户消费数据。用户在电商平台购物后的评价机制一般包含商品评论及商品评分，为了能更好的得到商品的用户满意度以判断商品的好坏，需要分析用户评论与评分。情感分析技术已经被应用到了学术和工业界的各个领域，对互联网平台产生的文本数据进行情感分析有利于了解商品真实的用户体验信息，帮助商家优化产品，还可以发掘出用户的偏好及性格相关特征等，而对该类评论情感分类仍然是一个挑战，因为评论无长度限制，评论中包含着大量噪声数据，长度不受限，且无任何情感标签等。

针对文本情感分类，常用方法主要包括基于机器学习的和基于词典的文本情感分类方法，其中，机器学习文本情感分类的基本思想是通过机器学习方法训练有标签的、文本编码后的数据集，以生产一个文本情感分类模型，再将该模型应用到新的文本数据上进行情感分类，有监督的机器学习方法进行商品评论数据分类可以帮助人们自动的、快速的分辨出商品评论的好坏以得知商品的满意度，已被广泛的应用在商品评论数据的情感分类中，而虽然有监督的机器学习方法在商品评论分类上可以很好的完成任务，实施起来极其方便，但是该类方法进行文本情感分类时对标签数据的依赖性高，需要大量的、有标记的用户评论数据进行模型训练，而日常生活中生产的商品评论数据都是无标签的，为了使用有监督的机器学习方法进行商品评论的情感分类，则需要人工标记大量的商品评论数据，人工标记是极其耗时费力的，而且随着社会的发展，新兴商品会不断出现，不同的商品评论也会越来越多，人工标记数据的方式实际就难以实现。

基于词典的情感分类方法是通过一定的规则累加文本中情感词的极性值来得到文本的情感极性值，并通过一定的情感极性阈值来判断文本的情感倾向性，其中情感词的极性值来源于给定的情感词典。使用字典法进行文本情感分类，可以在减少人工标记数据量的情况下，更好的利用电商平台用户产生的文本数据。基于字典法进行文本情感分类时，目前通常是将现存情感词典作为有标记的训练语料，通过计算词语间的互信息生成新的情感词典，将新的情感词典用于评论数据的情感分类。由于词典法进行文本情感分类的好坏是取决于构建的情感词典，所以情感词典构建的方法决定了文本情感分类的性能，是完成分类任务的核心。情感词典构建的目的是生成一个带有情感极性值或者情感标签的情感词集合，常用的即是使用现存的情感词典与文本句法分析特征来进行情感词典构建，目前现存的、较为流行的情感词典有SentiWordNet、MPQA等，而上述现存的情感词典，它们可以在一定程度上实现未知文本的情感分析，但是这些词典仅仅只包含了一些共有情感信息，而对于不同来源的文本而言，它们都包含了很多自己所独有的情感词特征，这些情感词对于该文本的情感分析同样重要，而且在很多文本中，可能会出现部分文本中只包含特有情感词的情况，对于这些文本而言，现存的情感词典将无法完成文本情感分析的任务，因此构建情感词典是完全必要的，且通过构建情感词典，可以更好的去完成文本数据的情感分析任务。

目前构建情感词典的方法很多，常用的情感词典构建方法主要分为基于词典构建的方法和基于语料构建的方法两种，基于词典构建的方法实施起来相对简单，但由于该方法是基于共有词典的，这些词典只包含共有的情感词关系信息，一般只能构建共有的情感词典，可以进行简单文本情感分析任务，为了更好的完成文本情感分析任务，情感词典的构建方法一般使用基于语料库构建的方法，这也是目前主流的情感词典构建方法，但是基于语料库构建的方法仍然会存在生成的情感词典准确性较低，不能很好的提取部分情感词等问题。

发明内容

本发明要解决的技术问题就在于：针对现有技术存在的技术问题，本发明提供一种能够实现互联网商品评论数据的情感分类，且实现方法简单、分类效率以及精度高的基于多源信息融合的情感分类方法。

为解决上述技术问题，本发明提出的技术方案为：

一种基于多源信息融合的情感分类方法，步骤包括：

S1.标签扩充：选取各互联网平台中目标用户的部分评论数据并设置情感标签，按照相同或相似评分的评论数据具有情感类似关系进行标签传播，得到扩充后的标签数据；

S2.多源信息提取：基于多个情感词典提取词典情感信息，以及基于用户的无标签评论数据、所述扩充后的标签数据提取包括情感词共现信息、情感词极性信息、情感词对极性关系信息的情感信息，得到多源情感信息；

S3.词典构建：初始化情感词典后，不断迭代更新所述情感词典以不断逼近所述步骤S2提取得到的多源情感信息，构建得到所需的情感词典；

S4.情感分类：基于步骤S3构建得到的所述情感词典对所需用户的评论数据进行情感分类。

作为本发明的进一步改进，所述步骤S2中提取情感词共现信息的步骤为：提取全局情感词共现信息，以及基于用户评分提取情感词共现信息，融合所述全局情感词共现信息以及基于用户评分提取的情感词共现信息得到融合情感词共现信息，所述基于用户评分提取情感词共现信息时，按照在同一用户相同或相似评分的评论数据中出现次数超过阈值的两个情感词具有情感相似关系提取共现情感词对并计算共现情感词对的共现情感关系，得到基于用户评分的情感词共现信息。

作为本发明的进一步改进，所述基于用户评分提取情感词共现信息的具体步骤为：

S211.对于同一用户中具有相同或相似评分的两条评论数据，如果其中包含有转折连词，将该两条评论数据全部删除，如果存在否定词修饰的情感词，删除掉该否定词修饰的情感词，得到预处理后的评论数据；

S212.对预处理后的评论数据，依次获取同一用户中具有相同或相似评分的两条评论数据进行情感词提取，每次提取时从两条评论数据中的其中一条评论数据中抽取出情感词作为一类、另一条评论数据中抽取出情感词作为另一类，将抽取出的两类情感词分别进行一一组合形成共现情感词对，完成所有用户的评论数据的处理后，转入执行步骤S32；

S213.分别对提取出的各所述共现情感词对进行计数，计算数量大于预设阈值的所述共现情感词之间的情感词共现关系量。

作为本发明的进一步改进，所述融合所述全局情感词共现信息以及基于用户评分提取的情感词共现信息的步骤包括：

S221.分别提取出全局共现以及基于用户评分共现情况下所有情感词对的PMI值，汇总所有的情感词共现信息，令情感词的个数为num，构建一个num*num的情感词共现信息矩阵PMISim，矩阵的行标和列标为同一定排列顺序的情感词，矩阵的值为情感词共现得分；

PMISim_global(w_i,w_j)表示提取全局情感词对(w_i,w_j)的全局情感词共现信息，使用全局情感词共现信息构建一个与PMISim对应的num*num的全局情感词共现矩阵PMISim_global，如果情感词对(w_i,w_j)在提取的全局情感词共现信息中存在共现值，则填充对应的全局情感词共现矩阵PMISim_global，如果不存在共现值则令为0；PMISim_samescore(w_i,w_j)表示提取的基于用户评分的情感词共现信息，使用所述基于用户评分的情感词共现信息构建用户评分情感词共现矩阵PMISim_samescore；

S222.将所述全局情感词共现矩阵PMISim_global、用户评分情感词共现矩阵PMISim_samescore按下式计算得到融合的情感词共现信息矩阵PMISim：

PMISim(w_i,w_j)＝μPMISim_global(w_i,w_j)+(1-μ)PMISim_samescore(w_i,w_j)

其中，w_i为PMISim矩阵中第i行对应的情感词，w_j为PMISim矩阵中第j列对应的情感词，μ为融合系数。

作为本发明的进一步改进，所述步骤S2中提取情感词极性关系信息的步骤为：使用标签数据提取标签共现情况下的情感词并计算情感词与积极或者消极评分评论之间的共现关系，提取得到情感词标签极性信息，以及根据用户评论的情感倾向性以及情感词出现的统计特征提取评分共现下的情感词，并计算提取出的情感词与积极或者消极评分评论之间的共现关系，提取得到情感词评分极性信息，融合所述情感词标签极性信息以及所述情感词评分极性信息最终得到融合的情感词极性信息。

作为本发明的进一步改进，所述融合的情感词极性信息具体按下式计算得到：

其中，PolarScore为融合的情感词极性信息，PolarScore_label(w)为情感词w在标签共现下的极性得分，D_label为标签共现情况下有极性得分的情感词典，PolarScore_score(w)为情感词w在评分共现下的极性得分，D_score为评分共现情况下有极性得分的情感词典，η为融合系数。

作为本发明的进一步改进，所述步骤S2中情感词对极性信息提取的步骤为：提取情感极性相似关系词以及情感极性相反关系词，所述情感极性相似关系词为一条评论中的两个情感词表现出相似的情感倾向性，情感极性相反关系词为一条评论中的两个情感词表现出相反的情感倾向性，分别统计提取的所述情感极性相似关系词以及情感极性相反关系词的数量后，根据统计的数量计算情感词对的情感词对极性关系值，其中如果两个情感词组成的情感词对在情感极性相似关系词对中出现的概率大于该情感词对在情感极性相反关系词对中出现的概率，则该两个情感词表现出相似的情感极性特征，否则如果情感词对在情感极性相似关系词对中出现的概率小于该情感词对在情感极性相反关系词中出现的概率，则该两个情感词表现出相反的情感极性特征。

作为本发明的进一步改进，所述提取情感极性相似关系词时，在一条有情感倾向性的评论数据中，如果两个情感词通过并列连词相连，提取出该两个情感词对作为所述情感极性相似关系词对，以及提取出评论数据中一句话中所有用于修饰一固定对象的情感词并分别组成所述情感极性相似关系词对；所述提取情感极性相反关系词时，在一条有情感倾向性的评论数据中提取出由转折连词相连的情感词并分别组成所述情感极性相反关系词对；所述情感词对极性关系值PolarRelation使用下式计算得到：

其中，和为情感词w_i和w_j组成的情感词对出现在相似情感词对与两者出现在相反情感词对中的计数作为本发明的进一步改进，所述步骤S3中具体使用如下情感词典构建模型进行词典构建：

其中，α、β以及λ分别是多个来源信息的调整系数；

为使用词典情感信息优化情感词典的模型，g_i表示情感词极性值向量G中第i个候选情感词对应的情感极性值，o_i表示候选情感词典中第i个情感词在该词典情感信息向量中的情感信息值；

为使用情感词共现信息优化情感词典的模型，其中p_i,j表示候选情感词典中第i个与第j个候选情感词之间的情感词共现信息值，g_j表示第j个候选情感词对应的情感极性值；

为情感词极性信息优化情感词典的模型，其中s_i表示候选情感词典中第个候选情感词对应的情感词极性信息向量中情感词极性信息值；

为使用情感词对极性信息优化情感词典的模型，其中r_i,j表示候选情感词典中第i个与第j个候选情感词的情感词对极性关系信息值。

作为本发明的进一步改进，所述步骤S3中构建得到情感词典后，还包括使用交替方向乘子法ADMM优化求解所构建的情感词典进行优化，得到最终的情感词典。

与现有技术相比，本发明的优点在于：

1、本发明通过先基于用户评分评论相似对标签数据进行扩充，可以在一定程度上减少监督学习方法所需的人工标记评论的数量，同时标签数据扩充的基础上，提取词典情感信息、情感词共现信息、情感词极性信息以及情感词对极性关系信息的多源信息来生成情感词典，可以融合情感词典、少量标签数据、大量无标签评论数据以及评分数据四个来源中提取的四种情感信息生成带有情感极性值的情感词典，进一步降低情感分析任务对标签数据的需求，从而显著提升情感分类的准确率。

2、本发明通过使用用户评论与评分的关系作为桥梁实现标签数据扩充，仅需要对少量数据进行标记即可获得足够量的带有标签的用户评论数据，可以减少情感词典构建时对标签数据的依赖性，确保感词典构建的效率以及精度。

3、本发明提取情感词共现信息时，进一步通过综合考虑全局情感词共现信息与用户评分情感词共现信息，相比单一的情感词共现信息，不仅能够扩充情感词对的覆盖范围，同时能够提升情感词对相似关系的准确性，进而提升情感词典构建的准确性。

4.本发明提取情感词极性信息时，进一步通过融合情感词标签极性信息以及情感词评分极性信息汇总得到的情感词极性信息，综合利用标签信息以及用户评分来提取得到情感词极性信息，不仅能够在一定程度上扩充情感词极性信息，还能够有效提升情感词极性信息的准确性，进而提高情感词典构建的准确性。

5.本发明进一步通过构建基于多源信心融合的情感词典构建模型，可以融合情感词典、情感共现信息、情感词极性信息以及情感词对极性信息的多源信息来一起完成对情感词典的构建，同时有效优化情感词典，能够充分利用多源信息构建得到精准的情感词典。

附图说明

图1是本实施例基于多源信息融合的情感分类方法的实现流程示意图。

图2是本实施例中提取词典情感信息的实现原理示意图。

图3是本实施例中提取情感共现信息的实现原理示意图。

图4是本实施例中提取情感词极性信息的实现原理示意图。

图5是本实施例中提取情感词对极性信息的实现原理示意图。

具体实施方式

以下结合说明书附图和具体优选的实施例对本发明作进一步描述，但并不因此而限制本发明的保护范围。

如图1所示，本实施例基于多源信息融合的情感分类方法的步骤包括：

S2.多源信息提取：基于多个情感词典提取词典情感信息，以及基于用户的无标签评论数据、扩充后的标签数据提取包括情感词共现信息、情感词极性信息、情感词对极性关系信息的情感信息，得到多源情感信息；

S3.词典构建：初始化情感词典后，不断迭代更新情感词典以不断逼近步骤S2提取得到的多源情感信息，构建得到所需的情感词典；

S4.情感分类：基于步骤S3构建得到的情感词典对所需用户的评论数据进行情感分类。

本实施例通过先基于用户评分评论相似对标签数据进行扩充，可以在一定程度上减少监督学习方法所需的人工标记评论的数量，同时标签数据扩充的基础上，提取词典情感信息、情感词共现信息、情感词极性信息以及情感词对极性关系信息的多源信息来生成情感词典，可以融合情感词典、少量标签数据、大量无标签评论数据以及评分数据四个来源中提取的四种情感信息生成带有情感极性值的情感词典，进一步降低情感分析任务对标签数据的需求，从而显著提升情感分类的准确率。

由于用户评分的标准不同，所以对于不同用户而言，相同评分不一定代表着相同的用户情感倾向，从评分上不能很准确的看出用户对商品评价的好坏，而用户个人的评分标准通常是基本不变的，例如，有的用户认为3分代表着中立评分，大于3分为正向评分，小于则反之，也有用户的基准分数为2分，即大于2分为好评，小于则反之；用户评分与其对应的评论对于同一用户而言，两者的情感倾向性是保持一致的，即同一用户的相同评分对应的评论的情感倾向性类似，只是对于不同用户来说，每个用户都有各自的评分与评论标准，而用户评论数据相比评分数据更能准确的表明用户对商品的情感倾向。本实施例考虑上述同一用户的相同、相似评分对应的评论的情感倾向性类似特性，步骤S1中通过使用用户评论与评分的关系作为桥梁实现标签数据扩充，仅需要对少量数据进行标记即可获得足够量的带有标签的用户评论数据，可以减少情感词典构建时对标签数据的依赖性，确保感词典构建的效率以及精度。

本实施例步骤S1中具体将每个目标用户标记的评论数据的情感标签传播给其他具有相同评分的评论数据，即让有标签的数据去为评论数据中查找相同评分的评论数据并打上标签，实现对标签数据的扩充。具体通过挑选那些评论较多的用户进行人工标记，可以得到相对较多的标签数据。

现有的情感词典包含大量的共有情感信息，本实施例步骤S2中提取词典情感信息时，具体使用现有的SentiWordNet、MPQA和Bing Liu三个情感词典来提取文本中共有的情感信息，得到词典情感信息，提取规则具体为：考虑到不同情感词典构建时使用的是不同文本和不同方法等条件，所以情感词典中不免会出现歧义词汇，例如，“defeat”在Bing Liu情感词典里是积极的情感词，但是在MPQA情感词典里却是消极的情感词，本实施例首先提取出三个词典都包含且在三个词典中情感极性相同的词语，将其作为共有情感词典信息的一部分；另一方面，为了更充分的利用三个现存情感词典，不丢失掉现存情感词典里大量有用的信息，本实施例在三个词典中找出了除了以上词典以外，若满足条件：词语有且仅出现在两个词典中且词语在两个词典中极性情感极性相同，将满足条件的词语加入到共有情感词典信息中，可以有效的确保词语的情感极性正确，且说明该词为常用情感词。本实施例具体使用下式(1)来计算共有情感词典信息。

其中，w为情感词。

本实施例实现词典情感信息的提取具体如图2所示，现有的情感词典信息为商品评论情感分类提供了共有情感词典信息，可以有效的抓住评论文本中的共有情感倾向。

本实施例中，步骤S2中提取情感词共现信息的步骤为：提取全局情感词共现信息，以及基于用户评分提取情感词共现信息，融合全局情感词共现信息以及基于用户评分提取的情感词共现信息得到融合情感词共现信息，基于用户评分提取情感词共现信息时，按照在同一用户相同或相似评分的评论数据中出现次数超过阈值的两个情感词具有情感相似关系提取共现情感词对并计算共现情感词对的共现情感关系，得到基于用户评分的情感词共现信息。

情感词共现是指两个情感词频繁出现在同一条文本数据中而引发的一种关系信息，即，如果两个情感词频繁的出现在相同的评论中，对于评论用户而言，由于是同一条评论，那么评论前后用户的情感基调一般不会改变，且这两个词经常同时出现，则该两个情感词极有可能表现出相似语义和相似的情感极性。

如果两个情感词频繁的出现在相同的评论中，那么这两个词极有可能表现出相似语义和相似的情感极性，如在具体应用实施例中从亚马逊电子产品商品评论中抓取到的用户的两条评论及一些相关信息，情感词“pleased”和“like”可以看成是情感词的全局共现关系，又如，如果“great”和“good”以及“well”和“easy”同时出现在很多用户评论中，则它们极有可能会在新的用户评论中出现相似的情感倾向，本实施例基于该特性提取全局共现情况下全局情感词并计算情感词之间的共现关系。

本实施例中，提取全局情感词共现信息时，具体按照以下规则提取情感词：

(1)考虑到情感分析的对象为用户评论数据，其文本长短无太多限制，较长的评论可达篇幅级，较短的评论可只有一句简单的主谓句；为了更好的去提取情感词共现信息，本实施例将每条评论，不论长短，先按照英语句法规则进行分句。长篇幅的文本不能保证文本的情感倾向性完全相同，但可以保证在评论的一句话中，其情感倾向性是基本一致；

(2)考虑到转折连词极有可能反转用户的态度，对于这种有转折连词的句子，如果转折连词出现在句子的中间，如，常出现在句子中间的转折词有”but”,”while”等，本实施例以该转折词为分界，将这句评论分为两个句子；如果转折连词出现在句子的首部或者尾部，提取出包含该转折词的子段作为一句话、其他为另一句话，可以保证基本每句评论的情感倾向性保持一致；

(3)考虑到在情感词前有否定词修饰时，评论的情感极性会出现较大的变化，由于这些情况处理起来相对复杂，本实施例在进行情感词共现信息计算时，不考虑这些情感词的共现。

本实施例根据以上三种规则提取出满足需求的每句话的情感词，对于提取出的情感词，统计情感词的共现频数，使用未取对数的PMI值作为两个情感词之间的情感词共现关系量，两个情感词之间PMI值的计算公式为：

其中，p(w_i,w_j)为情感词w_i和w_j同时出现在一句话中的概率，即共现的概率，p(w_i)、p(w_j)分别为情感词w_i和w_j出现在一句话中的概率，即情感词单独出现的概率。对于提取出的情感词，统计情感词的共现频数，即如果两个情感词同时出现在一句话中，对情感词对的频数进行加一操作，再使用未取对数的PMI作为两个情感词相似的度量标准，可以方便后续模型的构建。

本实施例进一步给提取出的全局情感词出现的频数设定一个合适的阈值，当情感词出现次数小于该阈值以下时，该情感词在计算情感词共现信息时会被忽略，以减少出现频率较小的词计算词语相关性不太准确的影响。

本实施例中，基于用户评分提取情感词共现信息的具体步骤为：

S213.分别对提取出的各共现情感词对进行计数，计算数量大于预设阈值的共现情感词之间的情感词共现关系量。

全局情感词共现信息提取方式中词语通常只能只适合一个句子中有多个情感词的情况，对于一个句子中仅含有单个情感词的情况毫无作用，即只能通过单个句子的句法关系特征来生成共现信息的问题，会造成可用数据的丢失。一个用户相同评分对应评论的情感倾向性是类似的，本实施例将该特性与词语共现关系相结合，构建基于用户评分的情感词共现关系，即，如果两个情感词语分别频繁的出现在相同用户相同评分对应的两条评论中，则可以认为这两个词具有相似的情感倾向性，如在具体应用实施例中从亚马逊电子产品商品评论中抓取到的两条用户评分相同的评论数据，用户的第一条评论中的情感词“easy”和第二条评论中的“pleased”或者第一条评论中的情感词“easy”和第二条评论中的“like”均可以看成是上述基于用户评分的情感词共现关系；又如，如果“professional”和“special”经常出现在用户的两条相同评分对应的评论中，则该两个词极有可能会在新的用户评论中出现相似的情感倾向。本实施例基于上述特性，在基于标签数据扩充的基础上，基于用户评分提取用户评分情感共现情况下的情感共现信息，使得可以使用部分用户的多个句子之间的句法关系特征来提取情感词共现信息以优化情感词典，解决了传统情感词共现信息提取过程中只能通过单个句子的句法关系特征来生成共现信息的问题，既可以提取出更多的情感词，也可以提高生成情感词典的准确性。对基于用户评分提取的情感词计算情感共现信息时具体采用与全局情共现信息相同的方式，即按照式(2)使用未取对数的PMI值作为两个情感词之间的情感词共现关系量，进一步给提取出的全局情感词出现的频数设定一个合适的阈值，当情感词出现次数小于该阈值以下时，该情感词在计算情感词共现信息时会被忽略，以减少出现频率较小的词计算词语相关性不太准确的影响。

本实施例中，融合全局情感词共现信息以及基于用户评分提取的情感词共现信息的步骤包括：

S222.将全局情感词共现矩阵PMISim_global、用户评分情感词共现矩阵PMISim_samescore按下式计算得到融合的情感词共现信息矩阵PMISim：8133

PMISim(w_i,w_j)＝μPMISim_global(w_i,w_j)+(1-μ)PMISim_samescore(w_i,w_j) (3)

本实施例实现情感共现信息提取具体如图3所示。本实施例通过提取情感词共现信息时，通过综合考虑全局情感词共现信息与用户评分情感词共现信息，相比单一的情感词共现信息，不仅能够扩充情感词对的覆盖范围，同时能够提升情感词对相似关系的准确性，进而提升情感词典构建的准确性。

如图3所示，本实施例步骤S2中提取情感词极性关系信息的步骤为：使用标签数据提取标签共现情况下的情感词并计算情感词与积极或者消极评分评论之间的共现关系，提取得到情感词标签极性信息，以及根据用户评论的情感倾向性以及情感词出现的统计特征提取评分共现下的情感词，并计算提取出的情感词与积极或者消极评分评论之间的共现关系，提取得到情感词评分极性信息，融合情感词标签极性信息以及情感词评分极性信息最终得到融合的情感词极性信息。

由于标签是文本情感倾向性的标志，也在一定程度上指明了文本中情感词的情感倾向性，本实施例通过在进行情感词典构建时使用一定的标签数据来进行辅助，使用标签数据提取标签共现情况下的情感词共现信息，可以显著提高情感词典的构建准确性。本实施例具体使用少量有标签的用户评论数据提取少量具有代表性的情感词，利用标签评论数据提取情感词的规则如下：

如果情感词出现在积极的用户评论中，为该情感词在积极标签评论中的出现的频数累加一，出现在消极评论中则在该情感词在消极标签中出现的频数累加一。考虑到在含有转折词的评论数据中，用户的情感倾向性不确定，忽略所有包含有转折词的所有标签用户评论。另外，否定词修饰的情感词会改变情感词原有的情感倾向性，对于这些情感词，将其出现的频数累加到该情感词所在评论的标签对立的标签评论累加频数上，即如果在积极标签评论中出现该情感词，并且该词前面有否定词修饰，则对该情感词在消极标签评论中出现的频数上累加一。

通过以上规则可以得到情感词出现在积极与消极标签评论中的频数，一个情感词可能同时出现在积极或者消极评论中，这使得情感词的情感倾向性无法得到区分，本实施例具体使用下式定义情感词极性得分：

其中，p^pos(w)和p^neg(w)为情感词w在积极和消极标签评论中出现的概率，n为情感词典的大小，ξ为平滑系数。

当p^pos(w)大于p^neg(w)，即情感词在积极评论中出现的概率大于在消极评论中出现的概率，p^neg(w)/p^neg(w)大于1，PolarScore(w)大于0，认为该词为偏向积极的情感词，当情感词在积极评论中出现的概率越大于在消极评论中出现的概率，该词越倾向于积极情感极性，得分越大；相反，情感词在积极评论中出现的概率小于在消极评论中出现的概率，即p^pos(w)小于p^neg(w)，PolarScore(w)小于0，认为该词为偏向消极的情感词，且小的越多，该词越倾向于表现出消极的情感极性，得分越小。

标签评论数据只有少量信息，其提取出有情感倾向的情感词极其稀少，为了更好的去利用评分信息，本实施例通过引入词语与评分的共现信息来进一步扩大具有情感极性的情感词。如评论的评分一般分为1到5分，当然，2分与4分对应的用户评论的情感倾向性可能未知，甚至也不知道1分和5分对应的用户评论的情感倾向性，由于对于不同用户，其评分标准可能不一致，但是对于大多数用户，1分与5分通常分别对应着差评与好评，对应的评论也一样，因而虽然不能确定个别1分与5分用户评分对应的用户评论的情感倾向性，但可以确定大多数用户在评分为1分与5分时其对应评论的情感倾向性。本实施例基于上述特性，利用大多数用户的评论情感倾向性结合评论情感词的统计特征提取出大量有情感倾向性的情感词，即如果一个情感词在所有指定最高评分对应的评论中出现的概率远大于该词在所有最低评分对应的评论中出现的概率，则判定该情感词的情感倾向性偏向积极情感极性，反之，如果一个情感词在所有最高评分对应的评论中出现的概率远小于该词在所有最低评分对应的评论中出现的概率，则情感倾向性偏向于消极情感极性。本实例具体通过将所有最高评分的用户评论标记为积极评论，所有最低评分评论标记为消极评论，计算情感词与积极或者消极评分评论之间的共现关系来提取出情感词评分极性信息，使用这些信息来对研究中的情感词极性信息进行补充。

本实施例中，融合的情感词极性信息具体按下式计算得到：

本实施例通过融合情感词标签极性信息以及情感词评分极性信息汇总得到的情感词极性信息，综合利用标签信息以及用户评分来提取得到情感词极性信息，不仅能够在一定程度上扩充情感词极性信息，还能够有效提升情感词极性信息的准确性，进而提高情感词典构建的准确性。

如图4所示，本实施例步骤S2中情感词对极性信息提取的步骤为：提取情感极性相似关系词以及情感极性相反关系词，情感极性相似关系词为一条评论中的两个情感词表现出相似的情感倾向性，情感极性相反关系词为一条评论中的两个情感词表现出相反的情感倾向性，分别统计提取的情感极性相似关系词以及情感极性相反关系词的数量后，根据统计的数量计算情感词对的情感词对极性关系值，其中如果两个情感词组成的情感词对在情感极性相似关系词对中出现的概率大于该情感词对在情感极性相反关系词对中出现的概率，则该两个情感词表现出相似的情感极性特征，否则如果情感词对在情感极性相似关系词对中出现的概率小于该情感词对在情感极性相反关系词中出现的概率，则该两个情感词表现出相反的情感极性特征。

由于用户商品评论编写的限制少，所以在一条商品评论的文本数据中混合使用两个或者两个以上的情感词是极为常见的事情。本实施例将这种现象与英语句法分析相结合，通过根据上下文关系提取一条评论中所有情感词中两个情感词之间极性关系实现上下文极性情感信息挖掘，该方法包含两种词语情感极性关系：情感极性相似关系词对与情感极性相反关系词对，其中情感极性相似关系词为一条评论中的两个情感词极有可能表现出相似的情感倾向性，情感极性相反关系词为一条评论中的两个情感词极有可能表现出相反的情感倾向性。

本实施例提取情感极性相似关系词时，具体使用以下两种规则来提取极性情感词对信息：

首先，在英语句法规则中，并列连词连接的两个词的情感倾向性极其可能相似，进而，在一条有情感倾向性的一条评论中，如果两个情感词通过并列连词相连，提取出这样的情感词对作为相似情感次对。例如在“These are very good for dvd or cdstorage.Very inexpensive and very good quality.”中，“inexpensive”和“very goodquality”是通过“and”而连接的，它们极可能表达相同的情感倾向性。

再者，在一条用户评论中，用户在某一句话中对同一评价对象的评价情感倾向性极有可能保持不变，例如：“This compact ipod works well and I'm happy with it.”中“compact”和“works well”都是评价“ipod”的，两者都是积极的评价，本实施例具体通过提取出用户评论中一句话中所有修饰某一对象的情感词，将这些情感词分别组成相似情感词对。

本实施例提取情感极性相反关系词时，具体使用以下规则来进行情感词对信息提取：

由于转折连词极有可能会导致用户表达的情感倾向性变化，例如评论“I have avery inexpensive camera but the pictures are terrific.”中，“inexpensive”和“terrific”是“but”连接的两个句子中的修饰词，两者极性相反。本实施例对于一条有情感倾向性的评论，提取出由转折连词相连的情感词并相应的组成相反情感词对。

使用上述方法得到两种共现情况下所有情感词的极性得分后，本实施例进一步使用统计方法进行相似和相反情感词对计数，使用下式来计算情感词对极性关系值PolarRelation：

其中，和为情感词w_i和w_j组成的情感词对出现在相似情感词对与两者出现在相反情感词对中的计数。

由上式(8)可得，如果两个情感词组成的情感词对在相似情感词对中出现的概率大于该情感词对在相反情感词对中出现的概率，即情感词对极性信息计算公式中大于这时情感词w_i和w_j的情感词对极性关系值大于0，表示两个情感词表现出相似的情感极性特征。情感词对出现在相似情感词对中的概率大于出现在相反情感词对中的概率越多，情感词对极性关系值越趋近于1，情感词越倾向于具有相似的情感极性，相反，情感词对在相似情感词对中出现的概率小于该情感词对在相反情感词对中出现的概率，即小于情感词对极性关系值小于0，表示两个情感词表现出相反的情感极性特征。情感词对出现在相似情感词对中的概率小于出现在相反情感词对中的概率越多，情感词对极性关系值越趋近于-1，情感词越倾向于具有相反的情感极性。

通过上述方法提取得到情感词对极性信息，可以进一步提高情感词构建的准确性。

如图5所示，本实施例中步骤S3中具体使用如下情感词典构建模型进行词典构建：

其中，α、β以及λ分别是多个来源信息的调整系数，均大于0，模型中的某个来源信息前的调整系数越大，则可以认为该来源信息对优化模型的影响也越大。通过最小化Ω来得到最接近多个来源提取出的情感信息的候选情感词极性值向量G。

提取的情感信息的目的是优化生成的情感词典，由于上述情感信息是通过情感词典以及文本提取的情感信息，是较为正确的情感词之间的关系或者情感词自己的信息，可以完成情感词典的优化任务。本实施例在进行情感词典优化任务时，先初始化情感词典，然后通过不断迭代更新情感词典，以不断逼近从多个来源所提取出的准确的情感信息，以完成情感词典优化任务。本实施例通过构建基于多源信心融合的情感词典构建模型，可以融合情感词典、情感共现信息、情感词极性信息以及情感词对极性信息的多源信息来一起完成对情感词典的构建，同时有效优化情感词典，能够充分利用多源信息构建得到精准的情感词典。

本实施例各模型包括：

①

该模型为使用词典情感信息优化情感词典的模型，其中g_i表示情感词极性值向量G中第i个候选情感词对应的情感极性值，o_i表示候选情感词典中第i个情感词在该词典情感信息向量中的情感信息值。

使用该模型来对生成的情感词典进行优化时，是通过生成的情感词典中情感词的极性值应与词典情感信息中的信息值应该相似。以候选情感词中第i个情感词对应的极性值g_i的生成为例，当生成的情感词极性值g_i与词典情感信息值o_i相似时，可以认为两个值是同号的，同号相乘为正，此时，由于模型累加前方有负号，所以该情感词在优化模型计算时得到的值较小；当生成的情感词极性值g_i与词典情感信息值o_i不相似时，此时生成的情感值与词典情感信息值异号，由于异号相乘为负，与前述相同的，模型在负号的加持下，此时该情感词在优化模型计算时得到的值会较大，这与提出模型的需求相背离。

本实施例通过最小化模型得到的值来使得生成的情感词极性值g_i与词典情感信息值o_i尽可能相似，可以尽可能优化生成的情感词典，且模型稳定性较好，在进行模型求解和优化的过程中，由于模型中乘法带来的影响，不会受到词典情感信息中很多情感词情感信息值为0带来的不利影响。

②

该模型为使用情感词共现信息优化情感词典的模型，其中p_i,j表示候选情感词典中第i个与第j个候选情感词之间的情感词共现信息值，g_j表示第j个候选情感词对应的情感极性值。

使用该模型对生成的情感词典进行优化时，是通过生成的情感词典中情感词之间的关系应保持与文本中情感词之间隐藏的某种关系一样的情感关系。以候选情感词典中第i个与第j个候选情感词生成的情感词典极性值g_i和g_j为例，当两个候选情感词共现信息值p_i,j较大时，两个候选情感词有着较强的共现信息，则两个候选情感词对应的情感极性值应相似，如果在模型求解过程中，生成的两个候选情感词对应的情感极性值相差较大，此时这两个候选情感词在模型计算时会得到一个较大的值，类似于一种对生成的两个情感词之间的关系与实际提取的关系不相符的一种惩罚。当生成的两个情感词基本符合提取的情感词共现关系时，由于模型乘法结构的一项非常接近于0，所以两个候选情感词在模型中得到的值会很小，意味着这种惩罚会很小；当两个候选情感词共现信息值p_i,j较小时，两个候选情感词没有表现出较强的共现关系，不管生成的两个情感词对应的情感值如何，由于共现信息值较小，与前面相同，乘法操作后的值较小，即两个情感词在优化模型计算时均会得到较小的值，模型基本不会受到情感词共现关系较弱情况的影响，即使是情感词之间不存在共现关系的情况。

③

该模型为情感词极性信息优化情感词典的模型，其中s_i表示候选情感词典中第i个候选情感词对应的情感词极性信息向量中情感词极性信息值。

使用该模型对生成的情感词典进行优化时，是通过调整生成的候选情感词对应情感词极性值，让其表现出更贴近于提取的情感词极性信息，以得到模型的最小值来优化生成的情感词典。以生成候选情感词中第i个情感词的情感极性值g_i为例，与上述词典情感信息使用类似，该模型可以在生成候选情感词极性值g_i与提取的情感词极性信息值不相似的情况下，给出一个候选情感词在模型计算时的一个较大的值，为了使得模型取得较小值，则需要不断优化生成的情感词对应的极性值来贴近实际提取的情感词极性信息值，以完成情感词典的优化任务。

④

该模型为使用情感词对极性信息优化情感词典的模型，其中r_i,j表示候选情感词典中第r_i,j个与第j个候选情感词的情感词对极性关系信息值。

使用该模型进行情感词典构建优化时，是通过让文本中提取出的、相似的情感词在生成的情感词典中对应的情感极性值也相似，相反的情感词对在生成的情感词典中对应的情感极性值尽量远离。与上述情感词共现信息不同的，情感词对极性信息中的信息值存在负数，而情感词共现信息中的信息值均为正数。以候选情感词典中第i个与第j个情感词生成的情感词典极性值g_i和g_j为例，当两个候选的情感词对应的情感词对极性信息值大于0时，与上述情感词共现信息进行优化时类似，当情感词对极性信息值越大，两个候选情感词表现出强烈的情感相似关系，此时，生成的两个情感词的情感极性值应差距较小，如果此时生成的两个情感词的情感极性值相差较大，则模型会对其进行相应的惩罚，即此时两个情感词在优化模型计算时会得到一个较大的值，两者生成的情感极性值差距越大，对应的模型计算值也越大。对于情感词对极性信息值小于0的情况来说，如果两个候选情感词对极性信息值越小，则生成的两个候选情感词的情感极性值应该差距越大，为了方便计算，本实施例具体使用的模型结构来进行模型计算，此时，于生成的情感极性值差距较小的情感词对而言，等于是让优化模型加上了一个较小的负惩罚，即减掉一个较小的数，相对的，生成的情感极性值差距较大时，让优化模型加上了一个较大的负惩罚，即减掉一个较大的数，这样在同样的计算下，等同于是完成了理论上得到的结果与实际需要的结果相差较远的惩罚过程。

本实施例中，步骤S3中构建得到情感词典后，还包括使用交替方向乘子法ADMM优化求解所构建的情感词典进行优化，得到最终的情感词典。

本实施例首先将如上述式(9)所示的情感词典构建模型转化为以下等价形式：

将其进一步等价为式(11)的模型形式：

在该形式中，构造矩阵A，使得模型中的||AG||₁等价于详细的构造过程为：

首先，构造一个大小为N*N的全0中间矩阵T，并进行如下赋值操作，T_i,j＝αp_i,j+λr_i,j。然后，将中间矩阵T中的元素按照降序排列，同时记矩阵T中非0元素的个数为n_T；最后，生成一个大小为n_T*T的全0矩阵n_T，假设矩阵T中的第n个非0元素为T_i,j，给A中部分元素进行以下赋值操作，A_n,i＝T_i,j，A_n,j＝-T_i,j。通过以上方式来构建矩阵A，便可以通过对比计算过程发现前面提到的模型转换过程中的等价关系。

本实施例再将使用交替方向乘子法(ADMM)算法对模型进行优化计算，在使用该优化算法之前，需要先将该模型转换为一个优化问题，如公式(12)所示。

s.t.:v＝AG

将其进一步将转变为一个增广拉格朗日问题，如公式(13)所示。

其中，μ为一个大小n_T*1为拉格朗日因子向量，ρ是一个大于0的惩罚系数。

令扩展变量μ＝μ/ρ，则在ADMM算法的第t次迭代中，G,v,u的变量更新方式如下：

u_t+1＝u_t+AG_t+1-v_t+1 (16)

其中，G_t+1的更新可以认为是一个凸优化问题，可以通过令G_t+1更新的目标函数的一阶导数为0得到如下G_t+1更新的解决方案，如公式(17)所示。

G_t+1＝(ρA^TA)^-1(O+βS+ρA^T(v_t-u_t)) (17)

更新v_t+1同样是一个凸优化问题，但是由于存在||v||₁，它不是一个平滑项，本实施例通过使用临近算法去解决这个问题，如公式(18)所示。

v_t+1＝F_1/ρ(AG_t+1+u_t) (18)

其中F是软阈值操作，其函数的定义为F_k(a)＝[a-k]₊-[-a-k]₊。

通过基于ADMM算法的优化方法对构建的情感词典构建模型进行求解，可以进一步实现模型的优化，从而提高商品评论情感分类的精度。

上述只是本发明的较佳实施例，并非对本发明作任何形式上的限制。虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明。因此，凡是未脱离本发明技术方案的内容，依据本发明技术实质对以上实施例所做的任何简单修改、等同变化及修饰，均应落在本发明技术方案保护的范围内。

Claims

1.一种基于多源信息融合的情感分类方法，其特征在于，步骤包括：

2.根据权利要求1所述的基于多源信息融合的情感分类方法，其特征在于，所述步骤S2中提取情感词共现信息的步骤为：提取全局情感词共现信息，以及基于用户评分提取情感词共现信息，融合所述全局情感词共现信息以及基于用户评分提取的情感词共现信息得到融合情感词共现信息，所述基于用户评分提取情感词共现信息时，按照在同一用户相同或相似评分的评论数据中出现次数超过阈值的两个情感词具有情感相似关系提取共现情感词对并计算共现情感词对的共现情感关系，得到基于用户评分的情感词共现信息。

3.根据权利要求2所述的基于多源信息融合的情感分类方法，其特征在于，所述基于用户评分提取情感词共现信息的具体步骤为：

4.根据权利要求2所述的基于多源信息融合的情感分类方法，其特征在于，所述融合所述全局情感词共现信息以及基于用户评分提取的情感词共现信息的步骤包括：

PMISim(w_i,w_j)＝μPMISim_global(w_i,w_j)+(1-μ)PMISim_samescore(w_i,w_j)

5.根据权利要求1～4中任意一项所述的基于多源信息融合的情感分类方法，其特征在于，所述步骤S2中提取情感词极性关系信息的步骤为：使用标签数据提取标签共现情况下的情感词并计算情感词与积极或者消极评分评论之间的共现关系，提取得到情感词标签极性信息，以及根据用户评论的情感倾向性以及情感词出现的统计特征提取评分共现下的情感词，并计算提取出的情感词与积极或者消极评分评论之间的共现关系，提取得到情感词评分极性信息，融合所述情感词标签极性信息以及所述情感词评分极性信息最终得到融合的情感词极性信息。

6.根据权利要求5所述的基于多源信息融合的情感分类方法，其特征在于，所述融合的情感词极性信息具体按下式计算得到：

7.根据权利要求1～4中任意一项所述的基于多源信息融合的情感分类方法，其特征在于，所述步骤S2中情感词对极性信息提取的步骤为：提取情感极性相似关系词以及情感极性相反关系词，所述情感极性相似关系词为一条评论中的两个情感词表现出相似的情感倾向性，情感极性相反关系词为一条评论中的两个情感词表现出相反的情感倾向性，分别统计提取的所述情感极性相似关系词以及情感极性相反关系词的数量后，根据统计的数量计算情感词对的情感词对极性关系值，其中如果两个情感词组成的情感词对在情感极性相似关系词对中出现的概率大于该情感词对在情感极性相反关系词对中出现的概率，则该两个情感词表现出相似的情感极性特征，否则如果情感词对在情感极性相似关系词对中出现的概率小于该情感词对在情感极性相反关系词中出现的概率，则该两个情感词表现出相反的情感极性特征。

8.根据权利要求7所述的基于多源信息融合的情感分类方法，其特征在于，所述提取情感极性相似关系词时，在一条有情感倾向性的评论数据中，如果两个情感词通过并列连词相连，提取出该两个情感词对作为所述情感极性相似关系词对，以及提取出评论数据中一句话中所有用于修饰一固定对象的情感词并分别组成所述情感极性相似关系词对；所述提取情感极性相反关系词时，在一条有情感倾向性的评论数据中提取出由转折连词相连的情感词并分别组成所述情感极性相反关系词对；所述情感词对极性关系值PolarRelation使用下式计算得到：

9.根据权利要求1～4中任意一项所述的基于多源信息融合的情感分类方法，其特征在于，所述步骤S3中具体使用如下情感词典构建模型进行词典构建：

其中，α、β以及λ分别是多个来源信息的调整系数；

为情感词极性信息优化情感词典的模型，其中s_i表示候选情感词典中第i个候选情感词对应的情感词极性信息向量中情感词极性信息值；

10.根据权利要求8所述的基于多源信息融合的情感分类方法，其特征在于，所述步骤S3中构建得到情感词典后，还包括使用交替方向乘子法ADMM优化求解所构建的情感词典进行优化，得到最终的情感词典。