CN108256098A

CN108256098A - 一种确定用户评论情感倾向的方法及装置

Info

Publication number: CN108256098A
Application number: CN201810091242.4A
Authority: CN
Inventors: 王宇; 邱雪涛; 万四爽; 费志军; 佘萧寒; 张琦; 刘想; 张莉敏
Original assignee: China Unionpay Co Ltd
Current assignee: China Unionpay Co Ltd
Priority date: 2018-01-30
Filing date: 2018-01-30
Publication date: 2018-07-06
Anticipated expiration: 2038-01-30
Also published as: CN108256098B

Abstract

本发明实施例公开了一种确定用户评论情感倾向的方法及装置，包括：获取待评估评论，确定其涉及的各主题和分别对应各主题的概率；针对涉及的每一主题，确定该主题的主题权重和情感分布；根据涉及的各个主题的主题权重、情感分布和分别对应各主题的概率，确定该评论的情感倾向。可见，由于可根据该主题包含的词语可确定出评论涉及到的各个主题的主题权重，因此，在衡量每个主题表达评论的能力时可充分考虑到该主题包含的词语的上下文的语义相关性，进而结合每个主题的情感分布和该评论分别对应各主题的概率，可有效提高情感倾向判断的准确性。

Description

一种确定用户评论情感倾向的方法及装置

技术领域

本发明涉及互联网及计算机技术领域，尤其涉及一种确定用户评论情感倾向的方法及装置。

背景技术

目前随着互联网金融以及金融科技的快速发展，各大金融机构的产品营销活动推广力度逐年加大，但是如何评估营销活动对产品推广的效果，目前尚没有形成一个有效的分析与评估方法；另一方面，随着互联网技术和社交网络的发展，人们花费在社交网络上的时间越来越多，遇事也更倾向于在社交网络上抒发情感，因此，基于人们在微博、金融论坛、应用商店等社交网络上的用户评论数据，进行情感分析，成为洞悉金融产品营销活动的有效途径。

现有技术中的情感分析方法主要分为两大类，基于规则的方法和基于机器学习的方法。基于规则的方法主要是设计规则提取情感词和极性判定，然后对所有的情感词进行简单情感极性统计求得文本的整体情感极性。另外，通过计算词语的语义倾向，综合考虑极性元素分布、密度和语义强度进行情感词的扩展，进一步修正文本的整体情感极性。可见，基于规则的方法进行情感分析时，无论是对句子还是篇章进行分析，都强烈依赖于情感词典，不能有效的利用文本潜在的上下文语义信息，但用户评论的情感大多是依赖上下文的，尤其是上下文语义相关性，这使得情感倾向的评估效果较差。

基于机器学习的方法主要是使用情感词、词语共现对、句法模板、主题相关特征等作为分类特征，使用基于机器学习的分类方法进行情感/倾向性分析。一般过程是首先通过对训练文档进行手工标注，生产训练模型，然后进行测试文档的预测。该方法主要应用于句子级别的情感分析。可见，基于机器学习的方法大多只进行端到端的学习，只考虑到词级别的潜在特征，而一个主观性文本中，不仅存在着词语表面特征，同时还会涉及到语义等潜在的特征关系。而且，这种方法对样本数据的要求比较高，需要大量的用户标注数据，容易产生样本数据不平衡导致评估效果比较差的现象。

综上所述，目前亟需要一种确定用户评论情感倾向的方法，用以解决现有技术中仅根据文本中词语的情感或潜在特征进行评估，依赖大量人工标签数据，容易因样本数据不平衡而导致情感倾向的评估效果较差的问题。

发明内容

本发明提供一种确定用户评论情感倾向的方法及装置，用以解决现有技术中仅根据文本中词语的情感或潜在特征进行评估，依赖大量人工标签数据，容易因样本数据不平衡而导致情感倾向的评估效果较差的问题。

本发明实施例提供的一种确定用户评论情感倾向的方法，包括：

获取待评估评论，并确定所述待评估评论涉及的各主题，以及所述待评估评论分别对应各主题的概率；

针对所述待评估评论涉及的每一主题，根据所述主题包含的词语，确定所述主题的主题权重和情感分布；其中，所述主题权重用于衡量所述主题表达评论的能力；

根据所述待评估评论涉及的各个主题的主题权重、情感分布以及所述待评估评论分别对应各主题的概率，确定所述待评估评论的情感倾向。

可选地，针对所述待评估评论涉及的每一主题，确定所述主题的主题权重，包括：

确定所述主题包含的各个词语，根据所述各个词语之间的相似度，确定所述主题的内部相关度；

根据所述主题的内部相关度，以及评论数据语料库中所有主题的内部相关度均值，确定所述主题的主题权重；其中，所述主题的主题权重与所述内部相关度正相关。

可选地，根据所述各个词语之间的相似度，确定所述主题的内部相关度，包括：

确定所述主题分别对应各个词语的概率，将所述主题包含的词语中概率大于设定阈值的词语，确定为所述主题的关键词；

根据所述主题的各个关键词之间的相似度，确定所述主题的内部相关度。

可选地，针对所述待评估评论涉及的每一主题，确定所述主题的情感分布，包括：

计算所述主题的各个关键词的情感值，根据所述各个关键词的情感值，确定出所述主题的正向关键词和负向关键词；

根据所述主题的正向关键词的情感值，以及所述主题分别对应各个正向关键词的概率，确定所述主题的正向情感分布；

根据所述主题的负向关键词的情感值，以及所述主题分别对应各个负向关键词的概率，确定所述主题的负向情感分布。

可选地，计算所述主题的各个关键词的情感值，包括:

针对所述主题的任一关键词，确定预设的基准情感词对中各个正向基准情感词与所述任一关键词的相似度，以及所述预设的基准情感词对中各个负向基准情感词与所述任一关键词的相似度；

将所述各个正向基准情感词与所述任一关键词的相似度总和，与所述各个负向基准情感词与所述任一关键词之间的相似度总和的差值，确定为所述任一关键词的情感值。

可选地，根据所述待评估评论涉及的各个主题的主题权重、情感分布以及所述待评估评论分别对应各主题的概率，确定所述待评估评论的情感倾向，包括：

根据所述待评估评论涉及的各个主题的主题权重、正向情感分布和所述待评估评论分别对应各主题的概率，确定所述待评估评论的情感倾向为正向的概率；

根据所述待评估评论涉及的各个主题的主题权重、负向情感分布和所述待评估评论分别对应各主题的概率，确定所述待评估评论的情感倾向为负向的概率；

若确定所述待评估评论的情感倾向为正向的概率大于所述评论的情感倾向为负向的概率，则确定所述待评估评论的情感倾向为正向，否则为负向。

可选地，通过如下公式计算所述待评估评论的情感倾向为正向的概率：

通过如下公式计算所述待评估评论的情感倾向为负向的概率：

其中，C_j为所述待评估评论，为所述待评估评论的情感倾向为正向的概率，为所述待评估评论的情感倾向为负向的概率，k为所述待评估评论涉及的主题的数量，T_i为所述待评估评论涉及的各个主题中的第i个主题，P(T_i|C_j)为所述待评估评论对应主题T_i的概率，为所述主题T_i的正向情感分布，为所述主题T_i的负向情感分布，V(T_i)为所述主题T_i的主题权重。

基于同样的发明构思，本发明还提供一种确定用户评论情感倾向的装置，包括：

获取模块，用于获取待评估评论，并确定所述待评估评论涉及的各主题，以及所述待评估评论分别对应各主题的概率；

确定模块，用于针对所述待评估评论涉及的每一主题，根据所述主题包含的词语，确定所述主题的主题权重和情感分布；其中，所述主题权重用于衡量所述主题表达评论的能力；

处理模块，用于根据所述待评估评论涉及的各个主题的主题权重、情感分布以及所述待评估评论分别对应各主题的概率，确定所述待评估评论的情感倾向。

可选地，所述确定模块具体用于：

可选地，所述确定模块具体还用于：

根据所述各个词语之间的相似度，确定所述主题的内部相关度，包括：

可选地，所述确定模块具体用于：

可选地，所述确定模块具体还用于：

可选地，所述处理模块具体用于：

可选地，所述处理模块具体还用于：

通过如下公式计算所述待评估评论的情感倾向为正向的概率：

本发明另一实施例提供了一种计算设备，其包括存储器和处理器，其中，所述存储器用于存储程序指令，所述处理器用于调用所述存储器中存储的程序指令，按照获得的程序执行上述任一种方法。

本发明另一实施例提供了一种计算机存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使所述计算机执行上述任一种方法。

本发明实施例提供了一种确定用户评论情感倾向的方法，包括，获取待评估评论，确定待评估评论涉及的各主题，以及待评估评论分别对应各主题的概率；针对待评估评论涉及的每一主题，确定该主题的主题权重和情感分布；根据该待评估评论涉及的各个主题的主题权重、情感分布以及该待评估评论分别对应各主题的概率，确定该待评估评论的情感倾向。

可见，本发明实施例中由于可确定出待评估评论涉及到的各个主题，针对每一主题，根据该主题包含的词语确定出该主题的主题权重，因此，在衡量每个主题表达评论的能力时可充分考虑到该主题包含的词语的上下文的语义相关性，进而再结合每个主题的情感分布和待评估评论分别对应各主题的概率，可有效提高情感倾向判断的准确性。此外，本发明实施例提供的方法，不直接依赖于待评估评论中所包含词语的情感倾向，也无需通过样本标签数据进行有监督的学习，可有效避免基于有监督分类机器学习的情感分析方法，需要用户大量样本标签数据的技术问题。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的确定用户评论情感倾向的方法所对应的流程示意图；

图2为本发明实施例一中提供的评论与主题的概率分布图；

图3为本发明实施例二中提供的评论与主题的概率分布图；

图4为本发明实施例中提供的根据该主题包含的词语，确定该主题的主题权重的流程示意图；

图5为本发明实施例提供的根据主题包含的词语，确定主题的情感分布的流程示意图；

图6为本发明实施例提供的确定用户评论情感倾向的方法所对应的总体流程示意图；

图7为本发明实施例提供的一种确定用户评论情感倾向的装置的结构示意图；

图8为本发明实施例提供的一种计算设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例，仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

下面结合说明书附图对本发明实施例做进一步详细描述。

图1示例性地示出了本发明实施例中提供的一种确定用户评论情感倾向的方法所对应的流程示意图，如图1所示，所述方法包括：

步骤S101：获取待评估评论，并确定所述待评估评论涉及的各主题，以及所述待评估评论分别对应各主题的概率；

步骤S102：针对所述待评估评论涉及的每一主题，根据所述主题包含的词语，确定所述主题的主题权重和情感分布；其中，所述主题权重用于衡量所述主题表达评论的能力；

步骤S103：根据所述待评估评论涉及的各个主题的主题权重、情感分布以及所述待评估评论分别对应各主题的概率，确定所述待评估评论的情感倾向。

具体来说，在步骤S101中，所述待评估评论是从评论数据语料库中获取的。评论数据语料库中包括多条评论，待评估评论可为评论数据语料库中的任一条评论。

需要说明的是，在对评论数据语料库中的任一条评论进行情感分析之前，首先需要对评论进行预处理，该预处理可包括分词，去停用词，非中文名称，替换商户名称、数字，进行词语纠错等等，本发明对此不做具体限制。本发明实施例中，可具体通过哈工大LTP(Language Technology Platform，语言技术平台)自然语言处理工具包来进行数据预处理，当然，本领域技术人员根据实际需要也可采用其他工具来进行语句预处理，本发明对此不做具体限制。

本发明实施例中，评论数据预料库中的评论可通过多种途径收集而来，如微博、论坛等等，本发明对此不做具体限制。

随后，针对上述评论数据语料库中预处理后的各条评论，训练词向量。后续可根据训练得到的词向量计算评论涉及的主题的内部相关度。本发明实施例中，本领域技术人员可根据实际情况选择词向量训练模型训练词向量，例如全局矩阵分解方法word2vec，本发明对此不做具体限制。同理，本领域技术人员可根据实际需要对词向量的维度进行设置，可选地，将词向量的维度设置为100。

进而，基于预处理后的各条评论进行潜在主题特征挖掘，利用LDA(LatentDirichlet Allocation，文档主题生成模型)模型对上述评论数据语料库进行训练，确定每一条评论涉及的主题、各评论与其涉及的主题的概率分布，评论数据语料库中各主题与其包含的词语的概率分布。

如下表1示例性给出了本发明实施例中评论数据语料库中评论与主题的概率分布矩阵，图2为表1中所示的概率分布矩阵相应的概率分布图。

表1

如表1所示，评论与主题的概率分布为一M*N的矩阵，其中，M为评论数据语料库中评论的数量，N为评论数据预料库中各条评论涉及到的主题的总数量。在该矩阵中，每一行标识一条评论，每一列标识一个主题，在第i行第j列的数值表示评论数据语料库中第i条评论对应第j个主题的概率，即第j个主题出现在第i条评论中的条件概率。相应地，在图2中所示的评论与主题的概率分布图中，第i行中各个有颜色的小方块，代表第i条评论涉及的各个主题，无颜色的小方块代表第i条评论没有涉及到的主题。位于第i行第j列的小方块的颜色越深表示第i条评论对应该第j个主题的概率就越大，即第j个主题出现在第i条评论中的条件概率越大。

结合上述表1和图2可知，根据上述评论与主题的概率分布矩阵或概率分布图可确定出评论数据语料库中任一条评论涉及哪些主题，以及该评论分别对应各个主题的概率。而且，本发明实施例中评论数据语料库中的一条评论与其他评论是相互独立的，某一条评论涉及哪些主题与另一条评论涉及哪些主题无关，即不同评论涉及的主题的数量可以相同，也可以不相同；不同评论可以涉及相同的主题，也可以涉及不同的主题；一条评论对应某一主题的概率与另一评论对应同一主题的概率可以相同，也可以不相同，本发明对此不做具体限制。

本发明实施例中，评论数据语料库中的一个主题与该主题包含的词语之间的概率分布矩阵同上文中所列出的评论与主题的概率分布矩阵相似，不同的是主题与词语的概率分布为一N*O的矩阵，其中，N为评论数据预料库中各条评论涉及到的主题的总数量，O为N为评论数据预料库的语言料中包含的不同词语的总数量。

在该矩阵中，每一行标识一个主题，每一列标识一个词语，在第i行第j列的数值表示评论数据语料库中第i个主题对应第j个词语的概率，即第j个词语出现在第i个主题中的条件概率。相应地，在该主题与词语的概率分布矩阵对应的概率分布图中，第i行中各个有颜色的小方块，代表第i个主题包含的各个词语，无颜色的小方块代表第i条评论没有包含的词语，可认为不存在或直接忽略。位于第i行第j列的小方块的颜色越深表示第i个主题对应该第j个词语的概率就越大，即第j个词语出现在第i个主题中的条件概率越大。

如此，根据上述主题与词语的概率分布矩阵或概率分布图可确定出评论数据语料库中任一主题包含的词语，以及该主题分别对应各个词语的概率。

在步骤S102中，针对待评估评论涉及到的每一主题，首先根据该主题包含的词语，确定该主题的主题权重，具体包括如下步骤S401至步骤S402：

步骤S401：确定所述主题包含的各个词语，根据所述各个词语之间的相似度，确定所述主题的内部相关度。

具体的，在步骤S401中，可根据上述主题与词语的概率分布，确定出该主题包含的各个词语，随后，根据该主题分别对应各个词语的概率，筛选出该主题包含的各个词语中的关键词。本发明实施例中，可将任一主题包含的词语中概率大于设定阈值的词语，确定为该主题的关键词。其中，所述设定阈值可由本领域技术人员根据实际需要自行设置，本发明对此不作具体限制。

随后，根据该主题的各个关键词之间的相似度，确定该主题的内部相关度。其中，内部相关度越高，表示该主题包含的概率较高的词语之间的语义相似度或相关度就越高，该主题包含的词语的内聚性越强，该主题表达评论的能力就越强，即该主题所要表达的含义更为明显，越可能接近该待评估评论所要表达的中心思想。

本发明实施例中，任一主题的内部相关度是根据该主题的各个关键词中两两之间的相似度的均值确定出的，其满足如下关系：

其中，S(T)为该主题的内部相关度，w_i为该主题的第i个关键词的词向量，w_j为该主题的第j个关键词的词向量，sim(w_i,w_j)为关键词w_i与关键词w_j之间的相似度，n为该主题包含的词语的总数量。

需要说明的是，本发明实施例中，采用向量余弦相似度来计算两个关键词的词向量之间的相似度，或者也可以采用其他方法来计算两个关键词的词向量之间的相似度，如皮尔逊相关度计算方法，本发明对此不作具体限制。

步骤S402：根据所述主题的内部相关度，以及评论数据预料库中所有主题的内部相关度均值，确定所述主题的主题权重。

具体的，在步骤S402中，主题权重的计算满足如下关系：

V＝2^k(S-S′) 公式二

其中，V为该主题的主题权重，S为该主题的内部相关度，S′为评论数据语料库中所有主题的内部相关度均值，k为可调参数。

由公式二可以看出，当该主题的内部相关度大于各主题的内部相关度均值时，其内部相关度偏离内部相关度均值越严重，该主题的主题权重就越大，当该主题的内部相关度小于各主题的内部相关度均值时，其内部相关度偏离内部相关度均值越严重，该主题的主题权重就越小。

进而，本发明实施例采用指数函数计算各主题的主题权重，如此，某一主题的主题权重不仅与该主题的内部相关度正相关，还可以放大内部相关度较大的主题的主题权重，而且，从而使得内部相关度较高的主题能够获取更高的主题权重。

随后，在步骤S102中，针对待评估评论涉及到的每一主题，还可根据该主题包含的词语，确定该主题的情感分布。本发明实施例中，某一主题的情感分布具体包括该主题的情感倾向为正向的概率，以及该主题的情感倾向为负向的概率，这两个概率是根据该主题包含的各个关键词的情感值计算得到的，具体包括如下步骤S501至步骤S503：

步骤S501：借助预设的基准情感词对，计算所述主题的各个关键词的情感值，并根据所述各个关键词的情感值，确定出所述主题的正向关键词和负向关键词。

具体的，在步骤S501中，所述预设的基准情感词对中可包括多对基准情感词，每一对基准情感词中包括一个正向基准情感词和一个与该正向基准情感词对应的负向基准情感词。本发明实施例中，所述预设的基准情感词对可通过多种途径得到，而且获取途径可根据情感分析的具体应用场景的不同而不同，例如在某一开放词库(如知网词库或其他词库)中选取正面评价词语和负面评价词语，然后经过人工筛选，从中选择出多个基准情感词对，本发明对此不做具体限制。

借助这多对基准情感词，基于语义相似度计算该主题内部各个关键词的情感值，具体计算过程满足如下关系：

在上述公式三中，w表示该主题内部的任一关键词，senti(w)表示该任一关键词的情感值，表示基准情感词对中的一个正向基准情感词，表示该任一关键词与正向基准情感词之间的语义相似度，表示基准情感词对中与正向基准情感词对应的负向基准情感词，表示该任一关键词与负向基准情感词之间的语义相似度，t为基准情感词对的数量，例如，t＝3表示有3对基准情感词。

通过上述公式三可以看出，首先需要计算该任一关键词与各个正向基准情感词的相似度，以及该任一关键词与各个负向基准情感词的相似度，该任一关键词的情感值等于各个正向基准情感词与该任一关键词的相似度总和，与各个负向基准情感词与该任一关键词之间的相似度总和的差值。

本发明实施例中，某一关键词的情感值的正负表示该关键词的情感倾向，情感值的绝对值表示该关键词的情感倾向强度。若某一关键词的情感值大于0，表示该关键词为正向词语，具有褒义情感，反之若某一关键词的情感值小于0，表示该关键词为负向词语，具有贬义情感，若某一关键词的情感值等于0，表示该关键词为中性词语，忽略即可。

因而，计算得到该主题的各个关键词的情感值之后，可根据各个关键词的情感值区分出关键词中的正向关键词和负向关键词，即情感值大于0的关键词为正向关键词，情感值小于0的关键词为负向关键词。

步骤S502：根据所述主题的正向关键词的情感值，以及所述主题分别对应各个正向关键词的概率，确定所述主题的正向情感分布；

具体的，在步骤S502中，该主题的正向情感分布即指该主题的情感倾向为正向的概率，其等于各个正向关键词的概率与情感值乘积之后的累加和，即满足如下关系：

其中，X(T⁺)表示该主题的正向情感分布，表示该主题的任一正向关键词，表示该主题T对应正向关键词的概率，即该正向关键词出现在主题T中的条件概率，表示该正向关键词的情感值，p为该主题的各个关键词中正向关键词的数量。

步骤S503：根据所述主题的负向关键词的情感值，以及所述主题分别对应各个负向关键词的概率，确定所述主题的负向情感分布。

具体的，在步骤S503中，与计算该主题的正向情感分布类似，该主题的负向情感分布即指该主题的情感倾向为负向的概率，其等于各个负向关键词的概率与情感值乘积之后的累加和，即满足如下关系：

其中，X(T^-)表示该主题的负向情感分布，表示该主题的任一负向关键词，表示该主题T对应负向关键词的概率，即该负向关键词出现在主题T中的条件概率，表示该负向关键词的情感值，q为该主题的各个关键词中负向关键词的数量。

在步骤S103中，根据待评估评论涉及的各个主题的主题权重、情感分布以及待评估评论分别对应各主题的概率，分别计算待评估评论的情感倾向为正向的概率和情感倾向为负向的概率，进而确定所述待评估评论的情感倾向。

具体的，由于待评估评论涉及的每一主题均包括一个正向情感分布(即该主题的情感倾向为正向的概率)和一个负向概率分布(即该主题的情感倾向为负向的概率)，因此，可根据待评估评论涉及的各个主题的主题权重、正向情感分布和待评估评论分别对应各主题的概率，通过如下公式确定待评估评论的情感倾向为正向的概率：

其中，表示评论C_i的情感倾向为正向的概率，P(T_j|C_i)为评论C_i对应主题T_j的概率，即主题T_j在评论C_i下的条件概率，为主题T_j的正向情感分布，即主题T_j的情感倾向为正向的概率，V(T_j)为主题T_j的主题权重，m为评论C_i涉及的主题的数量。

根据待评估评论涉及的各个主题的主题权重、负向情感分布和待评估评论分别对应各主题的概率，通过如下公式确定待评估评论的情感倾向为负向的概率：

其中，表示评论C_i的情感倾向为负向的概率，P(T_j|C_i)为评论C_i对应主题T_j的概率，即主题T_j在评论C_i下的条件概率，为主题T_j的负向情感分布，即主题T_j的情感倾向为负向的概率，V(T_j)为主题T_j的主题权重，m为评论C_i涉及的主题的数量。

若待评估评论的情感倾向为正向的概率大于其情感倾向为负向的概率，则可认为该待评估评论的情感倾向为正向，即该条评论具有正向情感，如属于好评；反之，若待评估评论的情感倾向为正向的概率小于其情感倾向为负向的概率，则可认为该待评估评论的情感倾向为负向，该条评论具有负向情感，如属于差评。

需要说明的是，本发明实施例中提供的确定用户评论情感倾向的方法属于数据情感分析领域，其分析的内容包括但不限于用户评论，该方法同样可应用于任何文档、段落、篇章、等各种类型的语料，本发明对此不做具体限制。

图6为本发明实施例提供的确定用户评论情感倾向的方法所对应的总体流程示意图，如图6所示，所述方法可大体分为四个步骤。具体包括：

步骤一S601：评论数据预处理。该步骤主要包括收集评论数据，对评论数据进行预处理，得到评论语料。

步骤二S602：获取评论的主题权重。该步骤主要包括建立主题分析模型，根据建立的主题分析模型对步骤一中得到的评论语料进行分析，得到各条评论涉及的主题、评论与主题的概率分布、主题与词语的概率分布，随后，针对每一主题，挑选主题的关键词。与此同时，根据步骤一中得到的评论语料训练得到词向量，根据各个关键词的词向量计算各个主题的主题权重。

步骤三S603：获取评论主题的情感倾向。该步骤主要包括从知网词库或其他公开词库中选择情感基准词对，根据选取的基准情感词对以及在步骤二中确定出的主题的关键词，计算该主题的各个关键词的情感值，从而计算该主题的情感分布。

步骤四S604：判断评论的情感倾向。该步骤主要包括，针对一条评论，根据在步骤二中得到的评论与主题的概率分布、计算得到的各个主题的主题权重，以及在步骤三中计算得到的该评论的各个主题的情感分布，计算该评论的情感倾向概率，将正向情感的概率与负向情感的概率进行比较，最终确定出该评论的情感倾向为正向还是负向。

结合具体的应用场景，下面通过两个具体的实施例对本发明提供的确定用户评论情感倾向的方法进行具体说明。

实施例一：金融产品营销活动的情感分析

从在微博、金融论坛、应用商店等社交网络上抓取用户关于营销活动的评论数据，通过上述确定评论情感倾向的方法训练情感分析模型，实现用户评价情感信息的自动识别。在这一场景下，分析的样本数据为网络抓取的用户营销活动评论数据。分类类型为营销活动的情感倾向，即用户对此次营销活动的评价属于好评还是差评。

例如，从微博、金融论坛、应用商店等社交网络抓取银联营销活动评论相关信息，形成语料库R，该语料库R中评论总条数为M，语料库中不同词语数为N。形成的评论与主题的概率分布矩阵和概率分布图分别如图2和上文中的表1所示：

以语料库R中的预处理后的一条评论数据为例：

“今年的***搞了个***，每天发放优惠券，***的优惠券很多，特别是***，所以每天都爆晒棚，6月1日那天晚上还造成了系统的瘫痪，很多客人排队使用这个***，因为全单打62折，最多减扣50元，经过dper的精确计算，如果总价在131.5元就最划算了，所以很多顾客都算准数额进行购物。可惜不争气的网络，造成人流一堆，排了半小时的队，还不能结账，这样的购物体验实在不愉快。”

通过LDA主题模型训练可知，该评论仅有一个核心主题，其他主题概率占比太少，忽略。具体的，该主题的主题与词语的概率分布为[(4,0.98043334)]，即该核心主题为语料库R中编号为4的主题(topic4)，在该条评论中对应的概率为0.98043334。

语料库R中主题与词语的概率分布为：0.014*"银联"+0.012*"元"+0.011*"北京"+0.008*"活动"+0.008*"折"+0.007*"62"+0.007*"沃尔玛"+0.006*"6"+0.006*"银联钱包"+0.006*"两张"

其中，"银联"、"元"、"北京"、"活动"、"折"、"62"、"沃尔玛"、"6"、"银联钱包"、"两张"指的是topic4中出现的各个词语，0.014、0.012、0.011、0.008、0.008、0.007、0.007、0.006、0.006、0.006分别是各个词语对应的概率。

按照本发明中所提供的情感分析方法，通过计算得到该条评论的情感倾向为正向和负向的概率，从而可得出该评论为差评。

实施例二：网络客服对话数据的情感分析

在重大营销活动期间，可基于客服部分的网络客服对话数据，训练情感分析模型，实现用户对营销活动评价情感信息的自动识别。在这一场景下，分析的样本数据为客服部门营销活动期间的网络客服对话数据，分类类型为客户对营销服务的情感倾向，即客户对营销服务的评价属于好评还是差评。例如，从客服相关部门获取营销活动期间的客服对话数据，形成语料库R，语料库中客服对话的总条数为M，语料库中不同词语数为N。该语料库中客服对话与主题的概率分布如图3和如下表2所示：

表2

以语料库R中的一条预处理后的客服对话为例：

“前天在**参加**活动，付款时显示减了30，但是扣款时没有减30。付款的时候显示金额是276，有**30红包，结果输完验证码确定后扣的306，真郁闷”

经LDA主题模型训练可得，该条客服对话的主题概率分布为共包括四个主题：[(0,0.16061798)、(2,0.08043018)、(3,0.44278917)、(6,0.28086379)]，其中，编号为0的主题对应的概率为0.16061798，编号为2的主题对应的概率为0.08043018，编号为3的主题对应的概率为0.44278917，编号为6的主题对应的概率为0.28086379。

针对每个主题的主题与词语的概率分布分别为：

主题0：0.057*"银行"+0.045*"信息"+0.042*"报错"+0.023*"提示"+0.022*"输入"+0.021*"信用卡"+0.020*"验证码"+0.019*"银行卡"+0.018*"验证"+0.015*"手机号"

这表示主题0共包括"银行"、"信息"、"报错"、"提示"、"输入"、"信用卡"、"验证码"、"银行卡"、"验证"、"手机号"等词语，各个词语对应的概率分别为0.057、0.045、0.042、0.023、0.022、0.021、0.020、0.019、0.018、0.015。

主题1：0.121*"充值"+0.063*"话费"+0.041*"云闪付"+0.031*"活动"+0.023*"app"+0.022*"感谢您"+0.020*"使用"+0.017*"元"+0.013*"号"+0.013*"再见"

这表示主题1共包括"充值"、"话费"、"云闪付"、"活动"、"app"、"感谢您"、"使用"、"元"、"号"、"再见"等词语，各个词语对应的概率分别为0.121、0.063、0.041、0.031、0.023、0.022、0.020、0.017、0.013、0.013。

主题2：0.061*"活动"+0.052*"云闪付"+0.035*"优惠"+0.029*"app"+0.028*"元"+0.024*"手机"+0.022*"支付"+0.020*"银联"+0.016*"二维码"+0.016*"享受"

这表示主题2共包括"活动"、"云闪付"、"优惠"、"app"、"元"、"手机"、"支付"、"银联"、"二维码"、"享受"等词语，各个词语对应的概率分别为0.061、0.052、0.035、0.029、0.028、0.024、0.022、0.020、0.016、0.016。

主题3：0.072*"退款"+0.070*"交易"+0.060*"到账"+0.045*"查询"+0.035*"成功"+0.031*"失败"+0.028*"发起"+0.020*"钱"+0.019*"显示"+0.018*"建议您"

这表示主题3共包括"退款"、"交易"、"到账"、"查询"、"成功"、"失败"、"发起"、"钱"、"显示"、"建议您"等词语，各个词语对应的概率分别为0.072、0.070、0.060、0.045、0.035、0.031、0.028、0.020、0.019、0.018。

采用本发明所提供的情感分析方法，根据上述客服对话与主题的概率分布，以及主题与词语的概率分布，通过计算得到该客服对话的情感倾向分别为正向和负向的概率，从而可知该客服对话为差评。

基于同样的发明构思，本发明实施例还提供一种确定用户评论情感倾向的装置，图7为本发明实施例中提供的一种确定用户评论情感倾向的装置的结构示意图，如图7所示，该装置700包括：

获取模块701，用于获取待评估评论，并确定所述待评估评论涉及的各主题，以及所述待评估评论分别对应各主题的概率；

确定模块702，用于针对所述待评估评论涉及的每一主题，根据所述主题包含的词语，确定所述主题的主题权重和情感分布；其中，所述主题权重用于衡量所述主题表达评论的能力；

处理模块703，用于根据所述待评估评论涉及的各个主题的主题权重、情感分布以及所述待评估评论分别对应各主题的概率，确定所述待评估评论的情感倾向。

可选地，所述确定模块702具体用于：

可选地，所述确定模块702具体还用于：

可选地，所述确定模块702具体用于：

可选地，所述确定模块702具体还用于：

可选地，所述处理模块703具体用于：

可选地，所述处理模块703具体还用于：

基于同样的发明构思，本发明实施例还提供另一种计算设备，该计算设备具体可以为桌面计算机、便携式计算机、智能手机、平板电脑、个人数字助理(Personal DigitalAssistant，PDA)等。如图8所示，该计算设备800可以包括中央处理器(Center ProcessingUnit，CPU)801、存储器802、输入/输出设备803及总线系统804等。其中，输入设备可以包括键盘、鼠标、触摸屏等，输出设备可以包括显示设备，如液晶显示器(Liquid CrystalDisplay，LCD)、阴极射线管(Cathode Ray Tube，CRT)等。

存储器可以包括只读存储器(ROM)和随机存取存储器(RAM)，并向处理器提供存储器中存储的程序指令和数据。在本发明实施例中，存储器可以用于存储上述确定用户评论情感倾向的方法的程序。

处理器通过调用存储器存储的程序指令，处理器用于按照获得的程序指令执行上述确定用户评论情感倾向的方法。

基于同样的发明构思，本发明实施例提供了一种计算机存储介质，用于储存为上述计算设备所用的计算机程序指令，其包含用于执行上述确定用户评论情感倾向的方法的程序。

所述计算机存储介质可以是计算机能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NAND FLASH)、固态硬盘(SSD))等。

由上述内容可以看出：

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或两个以上其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或两个以上流程和/或方框图一个方框或两个以上方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或两个以上流程和/或方框图一个方框或两个以上方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或两个以上流程和/或方框图一个方框或两个以上方框中指定的功能的步骤。

尽管已描述了本发明的可选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括可选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种确定用户评论情感倾向的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，针对所述待评估评论涉及的每一主题，确定所述主题的主题权重，包括：

3.根据权利要求2所述的方法，其特征在于，根据所述各个词语之间的相似度，确定所述主题的内部相关度，包括：

4.根据权利要求3所述的方法，其特征在于，针对所述待评估评论涉及的每一主题，确定所述主题的情感分布，包括：

5.根据权利要求4所述的方法，其特征在于，计算所述主题的各个关键词的情感值，包括:

6.根据权利要求1所述的方法，其特征在于，根据所述待评估评论涉及的各个主题的主题权重、情感分布以及所述待评估评论分别对应各主题的概率，确定所述待评估评论的情感倾向，包括：

7.根据权利要求7所述的方法，其特征在于，通过如下公式计算所述待评估评论的情感倾向为正向的概率：

8.一种确定用户评论情感倾向的装置，其特征在于，包括：

9.一种计算设备，其特征在于，包括：

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序执行如权利要求1至7中任一项所述的方法。

10.一种计算机存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使所述计算机执行如权利要求1至7中任一项所述的方法。