CN108268439B

CN108268439B - 文本情感的处理方法及装置

Info

Publication number: CN108268439B
Application number: CN201611265791.6A
Authority: CN
Inventors: 韩旭红
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2016-12-30
Filing date: 2016-12-30
Publication date: 2021-09-07
Anticipated expiration: 2036-12-30
Also published as: CN108268439A

Abstract

本发明公开了一种文本情感的处理方法及装置。其中，该方法包括：采用通过获取情感词，根据情感词所对应的评价对象而确定情感词的情感强度值，再基于待分析文本中各个情感词的情感强度值，确定待分析文本的情感强度值，进而通过各个情感词所对应的评价对象，根据各个情感词对于不同评价对象的情感强度，确定的各个情感词的情感强度值，提高了情感词在不同评价对象中情感强度值的准确性，从而解决了无法准确确定文本的情感倾向的技术问题。

Description

文本情感的处理方法及装置

技术领域

本发明涉及语义处理领域，具体而言，涉及一种文本情感的处理方法及装置。

背景技术

情感词是用来表达情感、态度和意见的词语，如“完美”、“不错”、“糟糕”等。在文本情感分析中，无论是词汇、短语、句子、段落还是篇章，基本情感单元都是情感词，情感词是表达主观情感的基本要素。情感词典中包含情感词及其情感倾向，这些信息是进行文本情感正负倾向判断的主要依据。现有技术中对文本进行情感分析的方法都是建立在情感词典的基础之上，高质量的情感词典能在一定程度上提高文本情感分类的效果。

具体地，在对一个句子或篇章进行正负情感倾向判断时，需要依赖于句子或篇章中包含的情感词的正负情感倾向，例如，当进行产品优缺点挖掘或用户推荐等情感分析任务时，都需要依赖于情感词的情感倾向或情感值进行句子级别或篇章级别的情感判断。现有的实现方式仅对情感词进行正负倾向判断，在很多情况下，仅了解情感词的正负倾向无法准确判断语句的情感。例如，一条评论中包含正向情感词和负向情感词个数相等，单纯依靠情感词的正负倾向无法进行准确判断。

目前情感词典构建的方法包括基于语料语料库的方法和基于词典的方法，大多通过种子情感词进行情感词典扩充。基于语料统计的方法主要通过分析大规模语料库中情感词、评价对象等词语出现的特征和规则，统计领域评论语料库中词语共现信息等挖掘相同情感倾向的词语。利用词汇知识库中词条之间的语义关系，通过种子评价情感词扩展相同情感倾向词语。从构建形式上来说，很多人工构建情感词典，单纯考虑单个词的正负极性，情感信息词语分布不均将导致特征和规则难以提取；基于词典的方法需要依赖种子词的个数和质量，且领域依赖性较强，对于一词多义处理易引入噪声。

在现有技术中，仅仅通过评论中包含的相关词语的情感倾向对评论进行情感分析，分析结果不准确。

针对上述无法准确确定文本的情感倾向的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种文本情感的处理方法及装置，以至少解决无法准确确定文本的情感倾向的技术问题。

根据本发明实施例的一个方面，提供了一种文本情感的处理方法，包括：获取待分析文本中的多个情感词；获取每个所述情感词的情感强度值，其中，所述情感词的情感强度值至少基于所述情感词所对应的评价对象而确定；基于所述待分析文本中各个情感词的情感强度值，确定所述待分析文本的情感强度值。

进一步地，其特征在于，获取每个所述情感词的情感强度值包括：获取预先生成的情感词集合；从所述情感词集合中读取每个所述情感词的情感强度值。

进一步地，在获取预先生成的情感词集合之前，所述方法还包括：获取多个样本文本的情感信息，其中，情感信息用于记录各个样本文本中情感词与评价对象的对应关系，一个所述情感词至少用于评价一个所述评价对象；确定属于同一词语块的每个情感词与其它情感词之间的相似值、以及每个情感词与样本文本的关联值，其中，所述其它情感词与所述情感词属于同一词语块；基于每个情感词与其它情感词之间的相似值、以及每个情感词与样本文本的关联值，获取每个词语块中每个情感词的情感强度值；保存各个情感词与情感强度值的对应关系，生成所述情感词集合。

进一步地，确定属于同一词语块的每个情感词与其它情感词之间的相似值、以及每个情感词与样本文本的关联值包括：根据评价对象的属性，将属性相同的评价对象对应的情感词保存入同一词语块；确定每个词语块中，每个情感词与其它情感词之间的相似值、以及每个情感词与样本文本的关联值。

进一步地，确定属于同一词语块的每个情感词与其它情感词之间的相似值、以及每个情感词与样本文本的关联值包括：构建情感词的第一图模型和第二图模型，其中，每个所述第一图模型用于记录一个词语块中每个情感词与其它情感词之间的相似值，所述第一图模型中的一个节点用于记录一个情感词的第一信息，连接两个节点的边用于记录两个情感词之间的相似值；所述第二图模型用于记录一个样本文本与每个情感词的关联值，所述第二图模型中的一个节点用于记录一个情感词的第二信息，其中，所述第一信息包括：对应的情感词的词向量、情感词在当前时间和前一时间的情感强度值；所述第二信息包括：对应的情感词所属的词语块，情感词对于当前文本的关联值、当前文本在当前时间和上一时时间的情感强度值。

进一步地，基于每个情感词与其它情感词之间的相似值、以及每个情感词与样本文本的关联值，获取每个词语块中每个情感词的情感强度值包括：初始化情感词和样本文本的情感强度值；计算情感词和样本文本的情感强度值；利用情感词和样本文本的情感强度值进行迭代计算，得到每个情感词的情感强度值。

进一步地，初始化情感词和样本文本的情感强度值包括：获取已标注的情感词和样本文本的情感强度值；对所述已标注的情感词和样本文本利用标注数据进行赋值；对没有标注的情感词和样本文本赋值为预定值。

进一步地，计算情感词的情感强度值包括：获取情感词v_i在其所在的第一图模型中与其具有连接关系的其它情感词；计算每个其它情感词的情感强度值、和该情感词与所述情感词v_i的相似值的权重乘积；计算包含所述情感词v_i的第二图模型的文本情感强度值、和该第二图模型对应文本与所述情感词v_i与该文本的关联值的乘积；将所述权重乘积和所述乘积之和作为所述情感词v_i的情感强度值。

进一步地，基于所述待分析文本中各个情感词的情感强度值，确定所述待分析文本的情感强度值包括：获取各个情感词的权重；利用各个情感词的权重和情感强度值进行加权计算，得到所述待分析文本的情感强度值。

进一步地，利用情感词和样本文本的情感强度值进行迭代计算包括：在每次迭代计算过程中，对计算得到的情感词的情感强度值和样本文本的情感强度值进行差值校对，得到校对后的情感词的情感强度值和样本文本的情感强度值，其中，对计算得到的情感词的情感强度值和样本文本的情感强度值进行差值校对包括：若计算得到的已标注情感词的情感强度值高于情感词标注值，则对与所述已标注情感词具有关联的其他情感词的情感强度值和包含所述已标注情感词的样本文本的情感强度值执行第一操作；若否，则对与所述已标注情感词具有关联的其他情感词的情感强度值和包含所述已标注情感词的样本文本的情感强度值执行第二操作，其中，所述第一操作用于在对应的情感强度值上减去第一校正参数，所述第二操作用于在对应的情感强度值上加上所述第一校正参数，其中，所述第一校正参数J₁＝ξ₁*(|S_w1-S_w2|)，ξ₁表示第一预定参数，S_w1表示当前迭代计算得到的已标注情感词的情感强度值，S_w2表示上次迭代计算得到的已标注情感词的情感强度值；若计算得到的已标注样本文本的情感强度值高于文本标注值，则对所述已标注样本文本所包含的情感词在所述情感词所属的词语块中的情感强度值执行第三操作，若否，则对所述已标注样本文本所包含的情感词在所述情感词所属的词语块中的情感强度值执行第四操作，其中，所述第三操作用于在对应的情感强度值上减去第二校正参数，所述第四操作用于在对应的情感强度值上加上所述第二校正参数，其中，所述第二校正参数J₂＝ξ₂*(|S_r1-S_r2|)，ξ₂表示第二预定参数，S_r1表示当前迭代计算得到的已标注样本文本的情感强度值，S_r2表示上次迭代计算得到的已标注样本文本的情感强度值。

根据本发明实施例的另一方面，还提供了一种文本情感的处理装置，包括：第一获取单元，用于获取待分析文本中的多个情感词；第二获取单元，用于获取每个所述情感词的情感强度值，其中，所述情感词的情感强度值至少基于所述情感词所对应的评价对象而确定；确定单元，用于基于所述待分析文本中各个情感词的情感强度值，确定所述待分析文本的情感强度值。

在本发明实施例中，采用通过获取情感词，根据情感词所对应的评价对象而确定情感词的情感强度值，再基于待分析文本中各个情感词的情感强度值，确定待分析文本的情感强度值，进而通过各个情感词所对应的评价对象，根据各个情感词对于不同评价对象的情感强度，确定的各个情感词的情感强度值，提高了情感词在不同评价对象中情感强度值的准确性，从而解决了无法准确确定文本的情感倾向的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种文本情感的处理方法的流程图；

图2是根据本发明实施例的一种可选的文本情感的处理方法的流程图；

图3是根据本发明实施例的另一种可选的文本情感的处理方法的流程图；

图4是根据本发明实施例的一种文本情感的处理装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例，提供了一种文本情感的处理方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的一种文本情感的处理方法的流程图，如图1所示，该方法包括如下步骤：

步骤S102，获取待分析文本中的多个情感词；

步骤S104，获取每个词语块中每个情感词的情感强度值，其中，情感词的情感强度值至少基于情感词所对应的评价对象而确定；

步骤S106，基于待分析文本中各个情感词的情感强度值，确定待分析文本的情感强度值。

通过本发明上述实施例，获取待分析文本中的多个情感词，以获得待分析文件中的全部情感词，基于每个情感词所对应的评价对象从预先生成的情感词集合中确定情感词的强度值，以基于待分析文本中各个情感词的情感强度值，确定待分析文本的情感强度值。在上述实施例中，基于待分析文本中各个情感词的情感强度值，确定待分析文本的情感强度值，而不是按照情感词的情感倾向来确定待分析文本的情感倾向，这样在待分析文本中正向和负向情感词的数量相近或相同时，也可以准确确定待分析文本的情感词，并且，上述实施例中，基于情感词所评价的对象可以准确确定情感词的情感强度值，通过上述实施例，提高了情感词在不同评价对象中情感强度值的准确性，并且通过情感词的情感强度值可以准确确定待分析文本的情感倾向，解决了现有技术中文本情感倾向判断不准确的技术问题。

上述步骤S102，获取待分析文本中的多个情感词可以通过分词获取，可选地，对获取到的待分析文本进行分词处理，得到多个词语，从分词得到的多个词语中提取存在于情感词的词典中的词语，得到待分析文本的多个情感词。

可选地，待分析文本可以为待判断情感倾向的文本，该待分析文本可以从网络爬取，或者，通过输入接口输入。可选地，根据预先设置的情感词的词典，在待分析文本中，遍历待分析文本中的全部词汇，抽取待分析文本中和情感词的词典中所共同包含的情感词。可选地，待分析文本中的情感词，用来对待分析文本中某个特定的对象做评价，其特定的对象即为评价对象，比如“耗电量大”其中，“耗电量”为评价对象，“大”为情感词。

需要说明的是，同一个情感词在评价不同评价对象时，表达的情感可能不同，如，“屏幕大”中的“大”也是情感词，该情感词在评价屏幕和耗电量时表达的情感不同，在获取每个词语块中每个情感词的情感强度值时，加入了情感词评价对象的考量，可以准确地确定一个情感词的情感强度。

另外，在上述实施例中，情感强度值是用来判断情感词的情感强度和情感倾向的参考值，该情感强度值不仅能表示某个情感词的情感倾向，进一步地，情感强度值还可以表示情感强度。

通过上述实施例，基于待分析文本中情感词的情感强度值确定待分析文本的情感强度值，可以有效提高确定情感强度的准确度。

根据上述实施例，获取每个词语块中每个情感词的情感强度值包括：获取预先生成的情感词集合；从情感词集合中读取每个情感词的情感强度值。可选的，在预先生成的情感词集合中，直接抽取词典内包含的该情感词所对应的情感强度值。采用本发明实施例，可以快速、准确的获得每个情感词的情感强度值。可选地，情感强度值的取值范围可以在[-1,1]之间，其中，若情感强度值为负数，则对应的情感词表达的情感为负向情感，若情感强度值为正数，则对应的情感词表达的情感为正向情感，若情感强度值为零，则对应的情感词为中性情感词。

在获取预先生成的情感词集合之前，方法还包括：生成情感词集合。

可选地，生成情感词集合包括：获取多个样本文本的情感信息，其中，情感信息用于记录各个样本文本中情感词与评价对象的对应关系，一个情感词至少用于评价一个评价对象；确定属于同一词语块的每个情感词与其它情感词之间的相似值、以及每个情感词与样本文本的关联值，其中，其它情感词与情感词属于同一词语块；基于每个情感词与其它情感词之间的相似值、以及每个情感词与样本文本的关联值，获取每个词语块中每个情感词的情感强度值；保存各个情感词与情感强度值的对应关系，生成情感词集合。

上述实施例中，可以基于各个样本文本中情感词与评价对象的对应关系、和情感词与样本文本的关系，确定情感词的情感强度值，保存各个情感词与情感强度值的对应关系，生成情感词集合。

在通过上述实施例的方法构建情感词典(即上述的情感词集合)的过程中，考虑了情感词的情感强度，并基于评价对象集合对情感词进行分块，通过评论文本和情感词之间的相关度以及情感词之间的相似度迭代计算情感词和评论文本的情感强度值。文本上下文信息的结合可以有效提高情感强度值计算的准确度。

下面结合图2对本申请的上述实施例进行详细描述，如图2所示，该实施例可以通过如下步骤实现：

如图2所示，上述实施例可以通过如下步骤实现：

步骤S201：抓取产品评论。

可选地，可以从网站上抓取大量的产品的评论，这里的产品可以为实体产品(如手机)或者为网络上的虚拟产品(如，淘宝网)。在抓取到大量的产品评论之后，即得到多个样本文本。

步骤S202：抽取评价对象和情感词。

可以从多个样本文本中的评价对象和情感词，得到评价对象和情感词的对应关系，该对应关系可以保存为情感信息，或者将其称之为“<评价对象，情感词>词典”。

在执行该步骤S202之后，确定属于同一词语块的每个情感词与其它情感词之间的相似值、以及每个情感词与样本文本的关联值，该步骤通过如下方案实现：根据评价对象的属性，将属性相同的评价对象对应的情感词保存入同一词语块；确定每个词语块中，每个情感词与其它情感词之间的相似值、以及每个情感词与样本文本的关联值。

如图2所示，该实施例可以通过步骤S203和步骤S204实现：

步骤S203：基于评价属性集合词典和情感信息对情感词进行聚类。

可选地，依照评价属性集合词典和<评价对象，情感词>词典对情感词进行分块，得到依赖不同评价属性集合的情感词语，也即，将属性相同的评价对象对应的情感词保存入同一词语块，可以将得到的情感词分入多个词语块，对每个词语块中的情感词执行下述步骤以确定每个情感词的情感强度值。

评价对象的属性通过在评价属性集合中直接抽取，其中，评价属性集合为预先记录集合。将属性相同的评价对象与对应的情感词保存到同一词语块。对于每一个评价属性都有一个对应的情感词集合。分块的目的是为了更好的建立评价属性和情感词之间的对应关系，从而更好地预测情感词的情感值。因为在一些特定情境下，相同情感词用来评价不同评价属性词语时可能包含不同的含义，具有不同强度的情感倾向值，甚至相反的情感倾向。例如：“耗电量大”和“屏幕很大”中“大”用来评价“耗电量”和“屏幕”时具有相反的情感倾向，前者表示负面评价，后者表示正面评价。

步骤S204：构建情感词-情感词的相似度矩阵和情感词-样本文本的相关度矩阵。

确定每个词语块中，每个情感词与其它情感词之间的相似值、以及每个情感词与样本文本的关联值可以通过该步骤实现，可选地，构建情感词的第一关联矩阵和第二关联矩阵，其中，第一关联矩阵中的元素用于记录两个情感词之间的相似度，第二关联矩阵中的元素用于记录一个情感词与一个样本文本的关联值。这里的情感词-情感词的相似度矩阵可以为第一关联矩阵，情感词-样本文本的相关度矩阵可以为第二关联矩阵。

在一种可选的实施例中，每个情感词与其它情感词之间的相似值，可通过构建第一关联矩阵获得。第一关联矩阵中的每个元素用于记录任意两个情感词之间的相似度(即上述实施例中的相似值)，可选地，获取到的这些情感词中有些情感词是标注情感词，即已经标注有情感强度值的情感词，有些是未标注情感词，即未标注情感强度值的情感词，例如，第一关联矩阵中记录有标注情感词和未标注情感词两两之间的相似度，在该实施例中的相似度可以用数值表示，如相似度得分。例如，第i行第j列元素表示第i个情感词与第j个情感词之间的相似度，从而第i个情感词w_i和第j个情感词w_j之间的相似值s_ij为：

其中，P(w_i)表示第i个情感词w_i出现的概率，P(w_j)表示第j个情感词w_j出现的概率，P(w_i,w_j)第i个情感词w_i和第j个情感词w_j的共现概率。

上述实施例中，相似值s_ij的计算采用了词语共现概率和TF-IDF，但不限于这两种方法，还可以通过其它相似度计算的方法来完成该任务。

TF-IDF，是一种用于信息检索与数据挖掘的常用加权技术，用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度。

在一种可选的实施例中，确定每个情感词与评价对象的关联值，可通过构建第二关联矩阵获得。第二关联矩阵中的元素可以记录情感词与样本文件之间的关联值，该关联值可以包含标注情感词(或未标注情感词)和标注评价对象(或未标注评价对象)两两之间的关联度得分，也即，第i行第j列元素代表第i个情感词w_i与第j条样本文本r_j之间的关联度。公式为：

其中，

表示第i个情感词w_i的逆向文件概率(即总的样本文本的数目处于包含该情感词w_i的文件的数目，在将得到的商取对数而得到)，

表示第i个情感词w_i的词频，即第i个情感词w_i在样本文本中出现的概率，tf_w表示关键词w在样本文本r_j中出现的概率，idf_w表示关键词w的逆向文件概率，关联值c_ij的计算采用了词语共现概率和TF-IDF，但不限于这两种方法，还可以通过其它相似度计算的方法来完成该任务。对于情感词和评价对象之间的关联度采用TF-IDF计算，可以衡量情感词对于一条评价对象的重要程度，既包含情感词在评价对象中出现的频率，也包括情感词对于同一类评价对象的区分能力。

在确定每个情感词与其它情感词之间的相似值、以及每个情感词与样本文本的关联值之后，初始化情感词和样本文本的情感强度值；计算情感词和样本文本的情感强度值；利用情感词和样本文本的情感强度值进行迭代计算，得到每个情感词的情感强度值。可选地，该步骤可以通过步骤S205至步骤S206实现：

步骤S205：初始化情感词的情感强度值和样本文本的情感强度值。

初始化情感词和样本文本的情感强度值包括：获取已标注的情感词和样本文本的情感强度值；对已标注的情感词和样本文本利用标注数据进行赋值；对没有标注的情感词和样本文本赋值为预定值。可选地，预定值为零，其中，通过已标注的情感词和待分析文本对部分情感词和待分析文本进行赋值，并添加标记；同时将未标注的情感词和待分析文本的情感强度值初始化为0。

基于情感词和待分析文本之间的相互关系，进行迭代计算，且每次迭代完成之后计算得到新的待分析文本和情感词的情感强度值进行数据更新，同时对带有标记的情感词和待分析文本的情感值重新赋值(即保持人工标记的情感强度值不变，对结果进行引导)，按上述步骤迭代计算情感词的情感强度值和待分析文本的情感强度值直至收敛。

步骤S206：计算情感词的情感强度值和样本文本的情感强度值。

计算情感词的情感强度值包括：从第一关联矩阵和第二关联矩阵中，查找与当前情感词有关联的、且值大于预定阈值的元素；利用查找到的元素计算情感词的情感强度值。

以一种可选的实施例，情感词w_i的情感强度值

计算公式如下：

其中，λ是为了均衡情感词和待分析文本信息而引入的一个常数因子，表示情感词w_i与相关的样本文本的关联度、和情感词w_i与相关的情感词之间的相似度，这两种相似度信息在情感词w_i的情感强度值计算中所占比重。

和

分别是第一关联矩阵和第二关联矩阵中，与情感词w_i之间的相似度或关联度的值大于给定阈值的元素，K1和K2分别表示是

和

对应的元素数目。上述的给定阈值可以通过训练得到。这里情感词的情感强度值计算依赖于情感词之间的相似度和待分析文本包含的上下文信息与情感词之间的关联度，即通过将与当前情感词w_i相关的K1个情感词的情感强度值以及与当前情感词w_i相关的K2个待分析文本考虑在内，对其赋予不同权值，计算得到当前情感词的情感强度值。

上述实施例中，W^L表示已标注的情感词，W^U表示未标注的情感词，R^L表示已标注的样本文本，R^U表示未标注的样本文本，p和q为自然数。

一种可选的实施例中，样本文本r_j的情感值计算公式如下：

其中，WA_m指第m个评价属性类的权重，aspect m为第m个评价属性集合，且w_i为修饰aspect m的情感词，

为情感词的情感值，means指求平均的函数，是对括号内的内容求平均。这里表示待分析文本的情感强度值是通过其中包含的情感词的情感强度值计算得到，对应不同评价属性集合的不同分块的情感词具有不同的权重，这样可以让用户对不同评价属性有个性化需求。

上述实施例中，情感词和样本文本的情感强度值的计算也不仅限于上述算法，其它自举算法也可以用来完成。

步骤S207：差值校对，避免局部收敛。

在一个可选的实施例中，利用情感词和样本文本的情感强度值进行迭代计算包括：在每次迭代计算过程中，对计算得到的情感词的情感强度值和样本文本的情感强度值进行差值校对，得到校对后的情感词的情感强度值和样本文本的情感强度值，其中，对计算得到的情感词的情感强度值和样本文本的情感强度值进行差值校对包括：若计算得到的已标注情感词的情感强度值高于情感词标注值，则对与所述已标注情感词具有关联的其他情感词的情感强度值和包含所述已标注情感词的样本文本的情感强度值执行第一操作；若否，则对与所述已标注情感词具有关联的其他情感词的情感强度值和包含所述已标注情感词的样本文本的情感强度值执行第二操作，其中，所述第一操作用于在对应的情感强度值上减去第一校正参数，所述第二操作用于在对应的情感强度值上加上所述第一校正参数，其中，所述第一校正参数J₁＝ξ₁*(|S_w1-S_w2|)，ξ₁表示第一预定参数，S_w1表示当前迭代计算得到的已标注情感词的情感强度值，S_w2表示上次迭代计算得到的已标注情感词的情感强度值；若计算得到的已标注样本文本的情感强度值高于文本标注值，则对所述已标注样本文本所包含的情感词在所述情感词所属的词语块中的情感强度值执行第三操作，若否，则对所述已标注样本文本所包含的情感词在所述情感词所属的词语块中的情感强度值执行第四操作，其中，所述第三操作用于在对应的情感强度值上减去第二校正参数，所述第四操作用于在对应的情感强度值上加上所述第二校正参数，其中，所述第二校正参数J₂＝ξ₂*(|S_r1-S_r2|)，ξ₂表示第二预定参数，S_r1表示当前迭代计算得到的已标注样本文本的情感强度值，S_r2表示上次迭代计算得到的已标注样本文本的情感强度值。

步骤S208：判断是否小于等于预定收敛值。

可选地，判断收敛值是否小于等于预定收敛值，若否，则返回执行步骤S206，若是，则执行步骤S209。其中，上述收敛指迭代过程中，情感词的情感值和评论的情感值趋于一个固定的值(即上述的预定收敛值)，不变化或变化很小，认为结果收敛。通过关联矩阵迭代计算每一个情感词集合中词语的情感强度值，实现评价属性和情感词的情感强度值的情感双向传播。

可选地，该收敛值可以为本次计算得到的值(如文本或情感词的情感强度值)与上次计算得到的值(如文本或情感词的情感强度值)的差值。

在上述实施例中通过迭代计算情感词的情感强度值和待分析文本的情感强度值；这里迭代计算的步骤为：首先计算情感词的情感值，其次根据计算得到的情感词的情感值计算评论情感值；然后对已标注情感项赋值；再根据评论的情感值重新计算情感词的情感值，进而计算评论情感值。因为未知情感词和评论的情感词都不知道，需要迭代计算让结果更加逼近真实结果。其中，通过迭代计算，获得初始未赋值和已赋值的情感词和待分析文本各自的情感强度值，并对初始未赋值的情感词和评论文更新其赋值，对已赋值的情感词和待分析文本保持人工标记的情感强度值不变。其中，上述收敛指迭代过程中，情感词的情感值和评论的情感值趋于一个固定的值，不变化或变化很小，认为结果收敛。通过关联矩阵迭代计算每一个情感词集合中词语的情感强度值，实现评价属性和情感词的情感强度值的情感双向传播。

步骤S209：获得情感词典。

步骤S210：进行情感分析工作。

在该方案中，确定待分析文本中每个情感词的情感强度值之后，基于待分析文本中各个情感词的情感强度值，确定待分析文本的情感强度值，可选地，获取各个情感词的权重；利用各个情感词的权重和情感强度值进行加权计算，得到待分析文本的情感强度值。

在一个可选的实施例中，确定属于同一词语块的每个情感词与其它情感词之间的相似值、以及每个情感词与样本文本的关联值包括如图3所示的步骤S301：构建情感词的第一图模型和第二图模型，其中，每个第一图模型用于记录一个词语块中每个情感词与其它情感词之间的相似值，第一图模型中的一个节点用于记录一个情感词的第一信息，连接两个节点的边用于记录两个情感词之间的相似值；第二图模型用于记录一个样本文本与每个情感词的关联值，第二图模型中的一个节点用于记录一个情感词的第二信息，其中，第一信息包括：对应的情感词的词向量、情感词在当前时间和前一时间的情感强度值；第二信息包括：对应的情感词所属的词语块，情感词对于当前文本的关联值、当前文本在当前时间和上一时时间的情感强度值。

可选地，在图3中示出的实施例中，步骤S201至步骤S203，以及步骤S205至步骤S210的实现方式与图2中示出的对应步骤实现方式一致，在此不再赘述。

作为一个可选的实施例，计算情感词的情感强度值包括：获取情感词v_i在其所在的第一图模型中与其具有连接关系的其它情感词；计算每个其它情感词的情感强度值、和该情感词与情感词v_i的相似值的权重乘积；计算包含情感词v_i的第二图模型的文本情感强度值、和该第二图模型对应文本与情感词与该文本的关联值的乘积；将权重乘积和乘积之和作为情感词v_i的情感强度值。

可选地，针对每一个情感词块的情感词集合，构建不同评价属性集合下的情感词图模型及依赖于这些图模型的文本情感关联图模型。

在一个可选的实施例中，构建情感词图模型(即上述实施例中的第一图模型)。对于每一个情感词块构建情感词的图模型，图中每一个点代表一个情感词，每一条边代表情感词之间的相似度，相似度计算首先通过word2vector(用于通过神经网络机器学习算法来进行训练得到向量)将词转化为向量表示，通过余弦相似度计算两个情感词之间的相似度，连接相似度大于0的点。每个情感词节点v_i存储该情感词额相关信息，包括word2vector将词转化后的向量w_i，当前词当前时间的情感强度值，当前词前一时间的情感强度值，每条边e_ij表示连接点v_i和点v_j的边。连接点代表情感词，只要两个情感词之间具有大于0的相似度，即这两个点之间存在边，连接点v_i和点v_j的边用e_ij表示。w_i和w_j存储点v_i和点v_j代表的词通过word2vector转化之后的词的向量表示，e_ij存储通过w_i和w_j计算得到的相似度值。相似值的计算公式为：

作为一个可选的实施例，构建文本情感关联图模型(第二图模型)。对于每个文本，通过文本包含的评价属性，记录相关情感词信息的节点，并存储当前迭代次数情况下的当前文本的情感强度值，以及前一迭代次数情况下的当前文本的情感强度值。情感词信息包括，情感词，情感词所属属性类，情感词对于当前文本的影响值。其中情感词对于当前文本的影响值计算通过TF-IDF算法进行计算，公式为：

其中，对于情感词和评论文本之间的关联度采用TF-IDF计算，可以衡量情感词对于一条评论文本的重要程度，既包含情感词在评论文本中出现的频率，也包括情感词对于同一类文本的区分能力。

在一个可选的实施例中，通过情感词的图模型及文本情感关联图模型之间进行情感传播计算，获得情感词的情感强度值及文本的情感强度值。

可选地，通过部分标注情感强度值的情感词语作为种子情感词集合，并将标注部分文本的情感强度值作为初始已知文本情感强度值，并对图模型中相应的情感词和文本进行标记。其中，情感词典的种子词选取为所有属性类集合中所共同且情感强度相同的情感词，并且选取的种子词的情感倾向明确，从而可以通过这些种子词更好地计算得到其他的情感强度值。其中，标注的部分文本选取集合为涵盖所有属性类的文本，且作为种子集合，去除了标注存在歧义的文本，标注文本在所有语料中的占比可以通过参数训练获取最佳效果的占比值。

作为一个可选的实施例，初始化每个属性集合对应的图模型中情感词节点的情感强度值，情感词属于种子情感词集合则赋值为标记情感强度值，其它赋初始值0；初始化每个文本的情感强度值，具有情感标注的文本赋值为其标注的情感强度值，其他赋初始值0。

一个可选的实施例，属性类集合aspectA_m下的情感词v_i的情感强度值为其所在属性类图模型中有相关边连接的情感词的情感强度值与边权重乘积，以及文本情感关联图模型中包含情感词v_i节点的文本情感强度值与情感词对于当前文本的关联值的乘积和。计算公式为：

其中，

为aspectA_t属性类下与v_i有相同边连接的情感词集合；T_{con_i}{aspectA_m}为aspectA_t属性类下包含v_i节点的文本集合；e_ij是属性集合aspectA_m下的情感关系图模型中连接w_i和w_j的边的权重，代表w_i和w_j的相似度值；g_ij为情感词w_i对于文本t_k之间的关联值。

在一个可选的实施例中，文本情感强度值计算，通过其包含的情感词的情感强度值及其在文本中的影响值的乘积和进行计算。公式为，

可选地，情感词和评论文本情感值的计算也不仅限于上述算法，其他自举算法也可以用来完成该任务，我们不做过多叙述。

可选地，为了避免局部收敛，在每次迭代计算过程中，对种子情感词集中的情感词进行情感强度值计算。其中，种子情感词集合是已经标注情感强度值的情感词语。如果上述计算结果高于标注值，则对相关的情感词连接节点的情感值和包含此情感词的文本的情感强度值减去某一值ξ₁和情感强度值回退到上一次迭代时间的差值(这里差值是绝对值)的乘积，否则加上值ξ₁和情感强度值回退到上一次迭代时间的差值的乘积；同时对于初始包含标注的文本的情感强度值进行计算，如果结果高于初始标注值，其包含的情感词节点中情感词在相应属性类下的情感强度值减去某一值ξ₂和情感强度值回退到上一次迭代时间的差值的乘积，否则加上值ξ₂和情感强度值回退到上一次迭代时间的差值的乘积。其中参数ξ₁和ξ₂可以通过训练得到。

图4是根据本发明实施例的一种文本情感的处理装置的结构示意图，如图4所示，该装置包括：第一获取单元42，用于获取待分析文本中的多个情感词；第二获取单元44，用于获取每个词语块中每个情感词的情感强度值，其中，情感词的情感强度值至少基于情感词所对应的评价对象而确定；确定单元46，用于基于待分析文本中各个情感词的情感强度值，确定待分析文本的情感强度值。

通过本发明上述实施例，通过第一获取单元，获取待分析文本中的多个情感词，以获得待分析文件中的全部情感词；通过第二获取单元，基于每个情感词所对应的评价对象从预先生成的情感词集合中确定情感词的强度值，以基于待分析文本中各个情感词的情感强度值，确定待分析文本的情感强度值。在上述实施例中，通过确定单元，基于待分析文本中各个情感词的情感强度值，确定待分析文本的情感强度值，而不是按照情感词的情感倾向来确定待分析文本的情感倾向，这样在待分析文本中正向和负向情感词的数量相近或相同时，也可以准确确定待分析文本的情感词，并且，上述实施例中，基于情感词所评价的对象可以准确确定情感词的情感强度值，通过上述实施例，提高了情感词在不同评价对象中情感强度值的准确性，并且通过情感词的情感强度值可以准确确定待分析文本的情感倾向，解决了现有技术中文本情感倾向判断不准确的技术问题。

一个可选的实施例，第二获取单元包括：获取模块，用于获取预先生成的情感词集合；读取模块，用于从情感词集合中读取每个情感词的情感强度值。

作为一个可选的实施例，该装置还包括：第一获取子模块，用于获取多个样本文本的情感信息，其中，情感信息用于记录各个样本文本中情感词与评价对象的对应关系，一个情感词至少用于评价一个评价对象；第一确定子模块，用于确定属于同一词语块的每个情感词与其它情感词之间的相似值、以及每个情感词与样本文本的关联值；第二获取子模块，用于基于每个情感词与其它情感词之间的相似值、以及每个情感词与样本文本的关联值，获取每个词语块中每个情感词的情感强度值；记录模块，用于保存各个情感词与情感强度值的对应关系，生成情感词集合。

在一个可选的实施例中，第一确定子模块包括：第一记录子模块，用于根据评价对象的属性，将属性相同的评价对象对应的情感词保存入同一词语块；第二确定子模块，用于确定每个词语块中，每个情感词与其它情感词之间的相似值、以及每个情感词与样本文本的关联值。

作为一个可选的实施例，第一确定子模块包括：保存子模块，用于根据评价对象的属性，将属性相同的评价对象对应的情感词保存入同一词语块；第三确定子模块，用于确定每个词语块中，每个情感词与其它情感词之间的相似值、以及每个情感词与样本文本的关联值。

在一个可选的实施例中，第一确定子模块包括：构建模块，用于构建情感词的第一图模型和第二图模型，其中，每个第一图模型用于记录一个词语块中每个情感词与其它情感词之间的相似值，所述第一图模型中的一个节点用于记录一个情感词的第一信息，连接两个节点的边用于记录两个情感词之间的相似值；所述第二图模型用于记录一个样本文本与每个情感词的关联值，所述第二图模型中的一个节点用于记录一个情感词的第二信息，其中，所述第一信息包括：对应的情感词的词向量、情感词在当前时间和前一时间的情感强度值；所述第二信息包括：对应的情感词所属的词语块，情感词对于当前文本的关联值、当前文本在当前时间和上一时时间的情感强度值。

作为一个可选的实施例，第二获取子模块包括：初始化模块，用于初始化情感词和样本文本的情感强度值；第一计算模块，用于计算情感词和样本文本的情感强度值；第二计算模块，用于利用情感词和样本文本的情感强度值进行迭代计算，得到每个情感词的情感强度值。

一个可选的实施例，初始化模块包括：第三获取子模块，用于获取已标注的情感词和样本文本的情感强度值；第一赋值模块，用于对所述已标注的情感词和样本文本利用标注数据进行赋值；第二赋值模块，用于对没有标注的情感词和样本文本赋值为预定值。

作为一个可选的实施例，第二计算模块包括：第四获取模块，用于获取情感词v_i在其所在的第一图模型中与其具有连接关系的其它情感词；第三计算模块，用于计算每个其它情感词的情感强度值、和该情感词与所述情感词v_i的相似值的权重乘积；第四计算模块，用于计算包含所述情感词v_i的第二图模型的文本情感强度值、和该第二图模型对应文本与所述情感词v_i与该文本的关联值的乘积；第五计算模块，用于将所述权重乘积和所述乘积之和作为所述情感词v_i的情感强度值。

在一个可选的实施例中，确定单元包括：第五获取模块，用户获取各个情感词的权重；第六计算模块，用于利用各个情感词的权重和情感强度值进行加权计算，得到所述待分析文本的情感强度值。

可选地，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种文本情感的处理方法，其特征在于，包括：

获取待分析文本中的多个情感词；

获取每个所述情感词的情感强度值，其中，所述情感词的情感强度值至少基于所述情感词所对应的评价对象而确定；

基于所述待分析文本中各个情感词的情感强度值，确定所述待分析文本的情感强度值；

其中，在获取预先生成的情感词集合之前，所述方法还包括：

获取多个样本文本的情感信息，其中，情感信息用于记录各个样本文本中情感词与评价对象的对应关系，一个所述情感词至少用于评价一个所述评价对象；

根据评价对象的属性，将属性相同的评价对象对应的情感词保存入同一词语块；

确定属于同一词语块的每个情感词与其它情感词之间的相似值、以及每个情感词与样本文本的关联值；

基于每个情感词与其它情感词之间的相似值、以及每个情感词与样本文本的关联值，获取每个词语块中每个情感词的情感强度值；

保存各个情感词与情感强度值的对应关系，生成所述情感词集合。

2.根据权利要求1所述的处理方法，其特征在于，确定属于同一词语块的每个情感词与其它情感词之间的相似值、以及每个情感词与样本文本的关联值包括：

确定每个词语块中，每个情感词与其它情感词之间的相似值、以及每个情感词与样本文本的关联值。

3.根据权利要求1所述的处理方法，其特征在于，确定属于同一词语块的每个情感词与其它情感词之间的相似值、以及每个情感词与样本文本的关联值包括：

构建情感词的第一图模型和第二图模型，其中，每个第一图模型用于记录一个词语块中每个情感词与其它情感词之间的相似值，所述第一图模型中的一个节点用于记录一个情感词的第一信息，连接两个节点的边用于记录两个情感词之间的相似值；所述第二图模型用于记录一个样本文本与每个情感词的关联值，所述第二图模型中的一个节点用于记录一个情感词的第二信息，

其中，所述第一信息包括：对应的情感词的词向量、情感词在当前时间和前一时间的情感强度值；所述第二信息包括：对应的情感词所属的词语块，情感词对于当前文本的关联值、当前文本在当前时间和上一时间的情感强度值。

4.根据权利要求1所述的处理方法，其特征在于，基于每个情感词与其它情感词之间的相似值、以及每个情感词与样本文本的关联值，获取每个词语块中每个情感词的情感强度值包括：

初始化情感词和样本文本的情感强度值；

计算情感词和样本文本的情感强度值；

利用情感词和样本文本的情感强度值进行迭代计算，得到每个情感词的情感强度值。

5.根据权利要求4所述的处理方法，其特征在于，初始化情感词和样本文本的情感强度值包括：

获取已标注的情感词和样本文本的情感强度值；

对所述已标注的情感词和样本文本利用标注数据进行赋值；

对没有标注的情感词和样本文本赋值为预定值。

6.根据权利要求4所述的处理方法，其特征在于，计算情感词的情感强度值包括：

获取情感词v_i在其所在的第一图模型中与其具有连接关系的其它情感词；

计算每个其它情感词的情感强度值、和每个所述其他情感词与所述情感词v_i的相似值的权重乘积；

计算包含所述情感词v_i的第二图模型的文本情感强度值、和该第二图模型对应文本与所述情感词v_i与该文本的关联值的乘积；

将所述权重乘积和所述关联值的乘积之和作为所述情感词v_i的情感强度值。

7.根据权利要求4所述的处理方法，其特征在于，利用情感词和样本文本的情感强度值进行迭代计算包括：

在每次迭代计算过程中，对计算得到的情感词的情感强度值和样本文本的情感强度值进行差值校对，得到校对后的情感词的情感强度值和样本文本的情感强度值，

其中，对计算得到的情感词的情感强度值和样本文本的情感强度值进行差值校对包括：

若计算得到的已标注情感词的情感强度值高于情感词标注值，则对与所述已标注情感词具有关联的其他情感词的情感强度值和包含所述已标注情感词的样本文本的情感强度值执行第一操作；若否，则对与所述已标注情感词具有关联的其他情感词的情感强度值和包含所述已标注情感词的样本文本的情感强度值执行第二操作，其中，所述第一操作用于在对应的情感强度值上减去第一校正参数，所述第二操作用于在对应的情感强度值上加上所述第一校正参数，其中，所述第一校正参数J₁＝ξ₁*(|S_w1-S_w2|)，ξ₁表示第一预定参数，S_w1表示当前迭代计算得到的已标注情感词的情感强度值，S_w2表示上次迭代计算得到的已标注情感词的情感强度值；

若计算得到的已标注样本文本的情感强度值高于文本标注值，则对所述已标注样本文本所包含的情感词在所述情感词所属的词语块中的情感强度值执行第三操作，若否，则对所述已标注样本文本所包含的情感词在所述情感词所属的词语块中的情感强度值执行第四操作，其中，所述第三操作用于在对应的情感强度值上减去第二校正参数，所述第四操作用于在对应的情感强度值上加上所述第二校正参数，其中，所述第二校正参数J₂＝ξ₂*(|S_r1-S_r2|)，ξ₂表示第二预定参数，S_r1表示当前迭代计算得到的已标注样本文本的情感强度值，S_r2表示上次迭代计算得到的已标注样本文本的情感强度值。

8.一种文本情感的处理装置，其特征在于，包括：

第一获取单元，用于获取待分析文本中的多个情感词；

第二获取单元，用于获取每个所述情感词的情感强度值，其中，所述情感词的情感强度值至少基于所述情感词所对应的评价对象而确定；

确定单元，用于基于所述待分析文本中各个情感词的情感强度值，确定所述待分析文本的情感强度值；

其中，所述第二获取单元包括：

获取模块，用于获取预先生成的情感词集合；

读取模块，用于从所述情感词集合中读取每个所述情感词的情感强度值；

其中，所述装置还包括：

第一获取子模块，用于获取多个样本文本的情感信息，其中，情感信息用于记录各个样本文本中情感词与评价对象的对应关系，一个所述情感词至少用于评价一个所述评价对象；

第一确定子模块，用于确定属于同一词语块的每个情感词与其它情感词之间的相似值、以及每个情感词与样本文本的关联值；其中，所述第一确定子模块包括：第一记录子模块，用于根据评价对象的属性，将属性相同的评价对象对应的情感词保存入同一词语块；

第二获取子模块，用于基于每个情感词与其它情感词之间的相似值、以及每个情感词与样本文本的关联值，获取每个词语块中每个情感词的情感强度值；

记录模块，用于保存各个情感词与情感强度值的对应关系，生成所述情感词集合。