CN102236650B

CN102236650B - 用于修正和/或扩展情感词典的方法和装置

Info

Publication number: CN102236650B
Application number: CN201010153128.3A
Authority: CN
Inventors: 许洪志; 赵凯; 邱立坤; 胡长建
Original assignee: NEC China Co Ltd
Current assignee: NEC China Co Ltd; Renesas Electronics China Co Ltd
Priority date: 2010-04-20
Filing date: 2010-04-20
Publication date: 2014-06-04
Anticipated expiration: 2030-04-20
Also published as: CN102236650A

Abstract

本发明提出了一种用于修正和/或扩展情感词典的方法和装置。根据本发明，情感词典修正和/或扩展装置可以包括：共现词对抽取单元，用于从样本集合的句子中抽取出共现词对；共现频度统计单元，用于根据情感词典中所定义的词，统计出每个共现词对中的每个词的共现频度；情感极性强度计算单元，用于根据每个词的共现频度，计算每个词的情感极性强度；排序单元，用于按照情感极性强度，对所有词进行排序；以及修正和/或扩展单元，用于根据排序后的词列表，修正和/或扩展情感词典。本发明不仅可以对现有情感词典进行扩展，还可以有效地发现和修正现有情感词典中的错误。

Description

用于修正和/或扩展情感词典的方法和装置

技术领域

本发明涉及自然语言处理领域，更具体地，涉及一种用于修正和/或扩展情感词典的方法和装置。

背景技术

随着因特网的发展，越来越多的人在网上发布信息，其中包括了很多用户对产品的评论和个人对事件、政策的看法。这些评论和看法经常发表在购物网站、论坛和个人博客上，对用户、商家、调研组织等个人和机构都很有价值。对用户和商家而言，这些文本能帮助他们了解产品优缺点并根据评价改进产品，对调研组织等机构而言，可以了解个人对事件和政策的看法，进而建议相关组织和机构实施对策和调整政策。由于这样的信息很多，人们希望计算机能够自动地分析、处理和总结，并将结果呈现给用户。但是，由于自然语言的多样性和随意性，计算机的自动处理存在一定难度，需要一定的技术来解决。

总的来说，确定文本的情感极性的方法主要分为两种方式：监督式和非监督式。监督方法需要一个人工标注的训练样本集，然后用机器学习的方法训练一个模型，再用这个模型对新样本进行情感判断。非监督方法不需要训练样本集，一般使用事先定义的词表(词典)判断一些文本极性，而现有的词表(词典)由于是人工创建，难免存在错误，同时词汇量也非常的有限。

针对词表(词典)词汇量有限的问题，已进行了一些研究，希望对一个新词的情感极性进行判断。然而，这些研究所得到的结果并不理想。例如，一些没有情感的词也往往被判断为有情感等，并且这些研究也无法有效地发现现有情感词表(词典)中存在的错误。

本说明书中采用以下定义

极性(也称“情感极性”)：人们表达情感的倾向。极性分为正面、负面以及中性三种。如：“漂亮”、“便宜”等词表达的是一种正面的情感，因此它们的极性为正；而像“丑”、“坏”等表达的是负面的情感，因此极性为负；而“长度”、“大小”等没有明显的情感倾向，因此极性为中性。

极性强度(也称“情感极性强度”)：用于对情感倾向的量化，极性强度为正时，表达正面情感，值越大情感越强烈；极性强度为负时，表达负面情感，其绝对值越大，情感越强烈。

参考文献[1](Lun-Wei Ku，Tung-Ho Wu，Li-Ying Lee and Hsin-HsiChen.Construction of an Evaluation Corpus for Opinion Extraction.NTCIR 2005，pages.513-520)提出了一种判断新词的情感极性的方法，其中以汉字的使用规律为出发点，来判断词的情感极性。事实上，某些字跟情感有很大的联系。如“高”，通常情况下，包含“高”的词语都是表达正面情感的词：“居高临下”、“崇高”等。因此，在判断一个新词(即现有情感词列表中不包含的词)的情感极性时，该方法首先考察组成该词的字的情感极性，然后根据这些字的极性，综合得到词的情感极性。

在参考文献[1]中，在判断一个字“c”的情感极性强度时，所采用的解决方案是看现有情感词列表中，有多少正面情感词包含c(用fp_c表示)，有多少负面情感词包含c(用fn_c表示)，然后字c的情感极性强度s_c用下面的公式(1)计算。

p_{c} = \frac{{fp}_{c} / Σ_{i = 1}^{n} {fp}_{c_{i}}}{{fp}_{c} / Σ_{i = 1}^{n} {fp}_{c_{i}} + {fn}_{c} / Σ_{i = 1}^{n} {fn}_{c_{i}}}

n_{c} = \frac{{fn}_{c} / Σ_{i = 1}^{n} {fn}_{c_{i}}}{{fp}_{c} / Σ_{i = 1}^{n} {fp}_{c_{i}} + {fn}_{c} / Σ_{i = 1}^{n} {fn}_{c_{i}}} - - - (1)

s_c＝p_c-n_c

假设一个新词w是由p个字组成w＝c₁c₂c₃…c_p，那么w的情感极性强度根据公式(2)计算，即为p个字情感极性的平均。

s_{w} = \frac{1}{p} Σ_{i = 1}^{p} s_{c_{i}} - - - (2)

最终，如果s_w为正，那么w的情感极性就为正；反之，如果s_w为负，w的情感极性就为负；否则，如果s_w等于0，则w的情感极性为中性。

参考文献[1]在计算一个新词的情感强度时，仅仅考虑了组成它的字的情感强度，而忽略了该词在实际应用中的用法。

例如，“高度”这个词本身并没有情感极性。然而，这个词中包含了“高”，而“高”往往表达了正面情感，那么在参考文献[1]中，将会导致对“高度”情感的误判。

再如：“大方”所包含的“大”和“方”本身的情感都不是很强烈，然而“大方”确是一个表达正面情感的词。在现实应用中，“大方”经常与“美丽”等表达正面情感的词同时出现，然而在参考文献[1]中并没有利用这样的信息，也无法正确得出“大方”的极性强度。

发明内容

为了解决上述问题，本发明提出了一种用于修正和/或扩展情感词典的方法和装置，利用了一个大规模的未标注的数据集合，统计其它词(未出现在情感词典中的词)与现有词表(情感词典)中的词的共现频度，从而对现有词表(情感词典)进行扩展。

假设一个词与正面情感词共现的频度为N₊，与负面情感词共现的频度为N_-，与中性词共现的频度为N₀，则根据(N₊，N₀，N_-)的分布情况，可以判断所述词的情感极性是倾向于正情感、负情感还是倾向于中性情感。例如，当N₊远大于N₀和N_-时，所述词的情感就倾向于正情感。由此，可以将所述词添加到现有词表(情感词典)中，实现对现有词表(情感词典)的扩展。同时，对现有情感词典中的词进行上述共现频度的统计，如果发现计算所得的情感极性与词典定义的不同，那么这个词很有可能是原来定义错误的词。由此，可以修正现有词表(情感词典)中的词的情感极性。

因此，本发明不仅可以对现有词表(情感词典)进行扩展，还可以有效地发现和修正现有词表(情感词典)中的错误。

根据本发明的第一方案，提出了一种情感词典修正和/或扩展装置，包括：共现词对抽取单元，用于从样本集合的句子中抽取出共现词对；共现频度统计单元，用于根据情感词典中所定义的词，统计出每个共现词对中的每个词的共现频度；情感极性强度计算单元，用于根据每个词的共现频度，计算每个词的情感极性强度；排序单元，用于按照情感极性强度，对所有词进行排序；以及修正和/或扩展单元，用于根据排序后的词列表，修正和/或扩展情感词典。

优选地，所述共现频度统计单元、所述情感极性强度计算单元、所述排序单元和所述修正和/或扩展单元根据修正和/或扩展后的情感词典，迭代执行各自的操作。

优选地，所述情感词典修正和/或扩展装置还可以包括：进一步修正和/或扩展单元，用于利用同义词集合，对修正和/或扩展后的情感词典进行进一步的修正和/或扩展。

优选地，所述进一步修正和/或扩展单元包括：同义词集合创建单元，用于利用同义词词典，将修正和/或扩展后的情感词典中的词按照同义词归为同义词集合；同义词集合情感极性确定单元，用于将同义词集合的情感极性确定为同义词集合内大部分词所具有的情感极性；以及基于同义词集合的修正和/或扩展单元，从修正和/或扩展后的情感词典中删除同义词集合中情感极性与同义词集合的情感极性不同的情感词，或者在修正和/或扩展后的情感词典中，将同义词集合中情感极性与同义词集合的情感极性不同的情感词的情感极性修订为与同义词集合的情感极性相同。

优选地，所述共现频度统计单元可以统计出每个词与情感词典中的正情感极性的词共同出现在同一共现词对中的正情感共现频度N₊、每个词与情感词典中的负情感极性的词共同出现在同一共现词对中的负情感共现频度N_-、和每个词与未在情感词典中出现的词共同出现在同一共现词对中的中性情感共现频度N₀；以及所述情感极性强度计算单元可以根据函数f(N₊，N₀，N_-)获得每个词的情感极性强度，函数f(x，y，z)满足如下条件：-x，y，z为自然数；-函数值f随着x的增大而增大；-函数值f随着z的增大而减小；-函数值f的绝对值随着y的增大而减小。

优选地，所述修正和/或扩展单元可以包括：词列表划分单元，用于根据情感词典，将排序后的词列表划分为三个不同的词列表：正词表、负词表以及中性词表，正词表中的词为情感词典中的正情感极性的词，负词表中的词为情感词典中的正情感极性的词，中性词表中的词为未在情感词典中出现的词；以及基于词列表的修正和/或扩展单元，用于将正词表中情感极性强度较小的词从情感词典中去除，将负词表中情感极性强度较大的词从情感词典中去除，将中性词表中情感极性强度较大的词作为正情感极性的词加入情感词典，以及将中性词表中情感极性强度较小的词作为负情感极性的词加入情感词典。

优选地，所述情感词典修正和/或扩展装置还可以包括：情感词典初始化单元，用于根据通用词典和/或语义类来扩充情感词典。

根据本发明的第二方案，提出了一种情感词典修正和/或扩展方法，包括：共现词对抽取步骤，从样本集合的句子中抽取出共现词对；共现频度统计步骤，根据情感词典中所定义的词，统计出每个共现词对中的每个词的共现频度；情感极性强度计算步骤，根据每个词的共现频度，计算每个词的情感极性强度；排序步骤，按照情感极性强度，对所有词进行排序；以及修正和/或扩展步骤，根据排序后的词列表，修正和/或扩展情感词典。

优选地，所述情感词典修正和/或扩展方法还可以包括：迭代修正和/或扩展步骤，根据修正和/或扩展后的情感词典，迭代执行所述共现频度统计步骤、所述情感极性强度计算步骤、所述排序步骤和所述修正和/或扩展步骤。

优选地，所述情感词典修正和/或扩展方法还可以包括：进一步修正和/或扩展步骤，利用同义词集合，对修正和/或扩展后的情感词典进行进一步的修正和/或扩展。

优选地，所述进一步修正和/或扩展步骤可以包括：利用同义词词典，将修正和/或扩展后的情感词典中的词按照同义词归为同义词集合；将同义词集合的情感极性确定为同义词集合内大部分词所具有的情感极性；以及从修正和/或扩展后的情感词典中删除同义词集合中情感极性与同义词集合的情感极性不同的情感词，或者在修正和/或扩展后的情感词典中，将同义词集合中情感极性与同义词集合的情感极性不同的情感词的情感极性修订为与同义词集合的情感极性相同。

优选地，在所述共现频度统计步骤中，可以统计出每个词与情感词典中的正情感极性的词共同出现在同一共现词对中的正情感共现频度N₊、每个词与情感词典中的负情感极性的词共同出现在同一共现词对中的负情感共现频度N_-、和每个词与未在情感词典中出现的词共同出现在同一共现词对中的中性情感共现频度N₀；以及在所述情感极性强度计算步骤中，可以根据函数f(N₊，N₀，N_-)获得每个词的情感极性强度，函数f(x，y，z)满足如下条件：-x，y，z为自然数；-函数值f随着x的增大而增大；-函数值f随着z的增大而减小；-函数值f的绝对值随着y的增大而减小。

优选地，所述修正和/或扩展步骤可以包括：根据情感词典，将排序后的词列表划分为三个不同的词列表：正词表、负词表以及中性词表，正词表中的词为情感词典中的正情感极性的词，负词表中的词为情感词典中的正情感极性的词，中性词表中的词为未在情感词典中出现的词；以及将正词表中情感极性强度较小的词从情感词典中去除，将负词表中情感极性强度较大的词从情感词典中去除，将中性词表中情感极性强度较大的词作为正情感极性的词加入情感词典，以及将中性词表中情感极性强度较小的词作为负情感极性的词加入情感词典。

优选地，所述情感词典修正和/或扩展方法还可以包括：情感词典初始化步骤，根据通用词典和/或语义类来扩充情感词典。

本发明可以实现以下有益技术效果：不仅可以对原有情感词典进行扩展，还可以有效地发现和修正原有情感词典中的错误。

附图说明

通过下面结合附图说明本发明的优选实施例，将使本发明的上述及其它目的、特征和优点更加清楚，其中：

图1示出了根据本发明的情感词典修正和/或扩展方法的流程图；

图2示出了根据本发明的情感词典修正和/或扩展方法的改进1的流程图；

图3示出了根据本发明的情感词典修正和/或扩展方法的改进2的流程图；

图4示出了根据本发明的情感词典修正和/或扩展方法的改进3的流程图；

图5示出了根据本发明的情感词典修正和/或扩展装置的示意方框图；

图6示出了根据本发明的情感词典修正和/或扩展装置的改进2的示意方框图；

图7示出了根据本发明的情感词典修正和/或扩展装置的改进3的示意方框图。

在本发明的所有附图中，相同或相似的结构和步骤均以相同或相似的附图标记标识。

具体实施方式

下面参照附图对本发明的优选实施例进行详细说明，在描述过程中省略了对于本发明来说是不必要的细节和功能，以防止对本发明的理解造成混淆。

原理描述

图1示出了根据本发明的情感词典修正和/或扩展方法的流程图。

首先，在步骤S100，执行共现词对的抽取处理，也就是从样本集合的句子中找出一些词对，这些词对应该具有相似的句子成分。

例如：以句子“这款手机很别致，大方。”为例，其中的“别致”和“大方”是一个共现词对。

可以利用多种方法来实现共现词对的抽取，以下将给出这些方法中的一些示例，但仅用于说明本发明的具体实施方式，并非对本发明范围的限制。

示例方法1：首先，可以设定一个窗口大小(例如，4个词)，并不断地将窗口向右移动。例如，仍以句子“这款手机很别致，大方。”为例，初始的窗口包含(这，款，手机，很)，将窗口向右移动一个词之后，窗口将包含(款，手机，很，别致)，再移动一个词，则窗口将包含(手机，很，别致，大方)。

然后，选择每个窗口中的任意两个相同词性的词构成一个共现词对(例如，“别致”和“大方”都是形容词)。这样，最终在此句子中找到的共现词对为(别致，大方)。

示例方法2：首先，对句子做依存分析，将句子转换为依存树结构；然后，将依存关系为“并列(Coordination)”的词对找出来，作为共现词对。示例方法2比示例方法1更为先进，因为它更符合具有相似句子成分这一基本原理。同样以句子“这款手机很别致，大方。”为例，做依存分析后，可以得到如下的结果：

ATT(款，这)

ATT(手机，款)

SBV(别致，手机)

COO(别致，大方)

其中ATT(*，*)表示定中关系(定语+中心语)，SBV(*，*)表示主谓关系，COO(*，*)表示并列关系；于是将其中并列关系的词对，即(别致，大方)，选择为共现词对。

示例方法3：利用不同句子中出现的相似搭配关系，找出共现词对。例如，一个句子出现了“提高质量”，而另一个句子出现了“提高素质”，那么“质量”与“素质”具有相似的搭配关系，因此可以作为共现词对(质量，素质)被找出。

在找出大量的共现词对(步骤S100)之后，在步骤S110，对所找出的共现词对进行频度统计，分别统计出每个词与正面情感词共现的频度(N₊)、与负面情感词共现的频度(N_-)、与中性词共现的频度(N₀)。在步骤S110中，正面情感词和负面情感词是原有情感词典中定义的词，中性词是没有包含在情感词典中的其它词。这样，统计结束后，每个词与一个3维的向量(N₊，N₀，N_-)相对应。

接下来，在步骤S120，计算每个词的极性强度。例如，极性强度v的具体计算公式可以采用下述公式(3)或(3’)：

v = f (N_{+}, N_{0}, N_{-}) = \frac{N_{+} - N_{-}}{N_{+} + N_{0} + N_{-}} \times \log (1 + N_{+} + N_{-}) - - - (3)

或

v = f (N_{+}, N_{0}, N_{-}) = \frac{N_{+} - N_{-}}{N_{+} + N_{0} + N_{-}} \times (N_{+} + N_{-}) - - - (3^{,})

函数f(N₊，N₀，N_-)并不局限于以上公式(3)或(3’)所限定的具体形式，一般来说，函数f(x，y，z)只需满足以下条件：

-x，y，z为自然数；

-函数值f随着x的增大而增大；

-函数值f随着z的增大而减小；

-函数值f的绝对值随着y的增大而减小。

在得到每个词的情感极性强度(步骤S120)之后，在步骤S130，按极性强度对所有词按降序排序。这样，排在前面的词(情感极性强度为正值)为正面情感词，排在后面的词(情感极性强度为负值)为负面情感词。

接下来，在步骤S140，对原始情感词典进行修正与扩展。

示例方法1：可以将按降序排序后的词列表按原始情感词典的定义划分为三个不同的词列表：正词表(Positive List)、负词表(NegativeList)以及中性词表(Neutral List)。正词表中的词为原始情感词典定义的正面情感词，负词表中的词为原始词典定义的负面情感词，中性词表包含的是未在原始情感词典定义的其它词。这样，排在正词表后面的词(后x％的词)，尤其是极性强度计算结果为负的那部分情感词就极有可能为创建词典时定义错误的词，可以将其去掉；而排在负词表前面的情感词(前y％的词)，尤其是极性强度计算结果为正的那部分情感词也有可能是创建词典时定义错误的词，可以将其去掉；由此，完成了对原始情感词典的修正。对于中性词表，可以将前m％的词加入正词表，后n％的词加入负词表，由此，完成了对原始情感词典的扩展。这里，x、y、m、n的取值范围是[0，100]，优选地，x的取值范围是[0，20]，y的取值范围是[0，20]，m的取值范围是[0，50]，n的取值范围是[0，50]。

示例方法2：将按降序排列后的词直接取前面的情感词(前m％的情感词)作为正词表，后面的情感词(后n％的情感词)作为副词表，其它的作为中性词表。这里，m、n的取值范围是[0，100]，优选地，m的取值范围是[0，50]，n的取值范围是[0，50]。

改进1

图2示出了根据本发明的情感词典修正和/或扩展方法的改进1的流程图。

由于在完成步骤S140后，产生了新的情感词典，可以回到步骤S110重新统计共现词对的共现频度，重新得到每个词的向量，然后在步骤S120，重新计算每个词的极性强度，在步骤S130，重新排序，并在步骤S140，重新对情感词典进行修正与扩展。这个迭代过程可以反复进行，可以设定迭代次数为M。M是自然数，可根据需要任意设定。也可以执行到情感词典不再发生变化或者迭代前后词典交叠率p大于预先设定的阈值P，而不局限于具体的迭代次数为M。其中，交叠率p定义为迭代前后词典(D_i-1与D_i)中包含的词交集与词并集的比：

p = \frac{D_{i - 1} \cap D_{i}}{D_{i - 1} \cup D_{i}} .

这里，P的取值范围是[0，1)，优选地，P的取值范围是[0.9，1)。也可以在限定M的同时，限定P的值，即迭代停止条件为迭代词数大于M或者交叠率大于P。

改进2

由于情感词典的修订和扩展过程仍有可能引入情感极性判断错误，可以利用同义词集合来过滤修订和扩展过程中可能出现的错误。

图3示出了根据本发明的情感词典修正和/或扩展方法的改进2的流程图，此改进2可以基于图1所示的方法流程，也可以基于图2所示的方法流程(上述改进1，图3中以虚线示出)。

首先，在步骤S310，建立同义词集合。同义词集合的建立可以利用一个已有的同义词词典(如，Cilin词典等)。将通过修订和扩展过程得到的新的情感词典中的词按照同义词归为同义词集合，如{不凡-非凡+别致+了不起+不简单+匪夷所思+}等词被归为一个同义词集合，其中“+”“-”为每个词的情感极性。

然后，执行情感词过滤处理。首先，在步骤S320，确定每个同义词集合的极性，同义词集合的极性被确定为该集合内大部分情感词(超过半数的情感词)所具有的极性。例如，上述集合{不凡-非凡+别致+了不起+不简单+匪夷所思+}中，正情感词个数为5个，负情感词个数为1个，因此该同义词集合的极性为正。然后，在步骤S330，过滤掉同义词集合中极性与同义词集合的极性不同的情感词，或者将同义词集合中极性与同义词集合的极性不同的情感词的极性修订为与同义词集合的极性相同。例如，在上述集合{不凡-非凡+别致+了不起+不简单+匪夷所思+}中，极性为负的情感词(即“不凡”)被认为是极性错误的情感词，被过滤掉；或者将其极性改为与集合极性相同。

这样，可以实现对情感词典的进一步修正。

改进3

如果原始情感词典包含的词较少，或者缺少某类词，可以通过以下方法来丰富原始情感词典。

图4示出了根据本发明的情感词典修正和/或扩展方法的改进3的流程图。

在步骤S410，选取候选词。可以利用多种方法来实现候选词的选取，以下将给出这些方法中的一些示例，但仅用于说明本发明的具体实施方式，并非对本发明范围的限制。

方式一：选取所有一般词典中有、但原始情感词典没有的词作为候选词；

方式二：根据一些指示词来确定。例如，通过一些指示动词和/或指示形容词，选择一些候选名词。举例来说：可以选择“增加”、“减少”语义类的动词、和/或“多”、“少”类的形容词(现有词典定义了语义类)，把文档集合中、与这些指示动词和/或形容词搭配的名词挑选出来作为候选词。

例如：句子A中提高是“增加”类指示动词，则把和它搭配的名词“质量”作为候选词。B中下降是“减少”类指示动词，则和它搭配的名词“质量”也作为候选词。

A：产品质量提高了，领导很满意。

B：产品质量不断下降，人们感到既伤心又气愤。

在步骤S420，计算文档集合中这些候选词出现的上下文的情感极性和极性强度。

例如，句子A和B中下划线的词是候选词『质量』的上下文。因为原始情感词典定义了“满意”是正面情感词，且强度为+1，“伤心”和“气愤”是负面情感词，且强度为-1，所以，对句子A而言，上下文为正面情感，强度为+1；对句子B而言，上下文为负面情感，强度为-2。然后，根据指示词的语义，调整上下文情感。具体来说，“增加”类指示词不变，而“减少”类调为相反的情感，例如，把句子B调整为上下文为正面情感，强度为+2。

A：产品质量提高了，领导很满意。

B：产品质量不断下降，人们感到既伤心又气愤。

在步骤S430，计算候选词的情感极性和极性强度，以及在步骤S440，将极性强度高于预设阈值的候选词加入原始情感词典。

例如，在文档集合中对某个候选词的所有上下文情感强度求和并取平均，在设定阈值的情况下，如果强度平均值高于阈值，则把候选词加入原始情感词典。例如对『质量』而言，求和平均后的强度是(1+2)/2＝1.5。在设定阈值为1的情况下，将『质量』这个词加入原始情感词典。如果阈值为2的情况下，则不加入。阈值可以是人为事先设定的。

以上求和并取平均是一种简单形式，另一种相对复杂的强度s(w)可以按照下述公式(4)来计算：

s (w) = \frac{P (w, +)}{P (w) * P (+)} - \frac{P (w, -)}{P (w) * P (-)} - - - (4)

其中P(w)是词w在文档集合中的发生概率(或比例)，P(+)和P(-)是原始情感词典中正面词、负面词的发生概率(或比例)，P(w，+)和P(w-)是原始情感词典中w和正面词、负面词并发的概率(或比例)。

硬件实现

图5示出了根据本发明的情感词典修正和/或扩展装置的示意方框图。

如图5所示，根据本发明的情感词典修正和/或扩展装置可以包括：共现词对抽取单元500、共现频度统计单元510、情感极性强度计算单元520、排序单元530、修正和/或扩展单元540、样本集合550和情感词典560。

共现词对抽取单元500从样本集合550的句子中抽取出共现词对(可参考上述步骤S100)。

共现频度统计单元510根据情感词典560中所定义的词，统计出每个共现词对中的每个词的共现频度(可参考上述步骤S110)。例如，共现频度统计单元510可以统计出每个词与情感词典560中的正情感极性的词共同出现在同一共现词对中的正情感共现频度N₊、每个词与情感词典560中的负情感极性的词共同出现在同一共现词对中的负情感共现频度N_-、和每个词与未在情感词典560中出现的词共同出现在同一共现词对中的中性情感共现频度N₀。

情感极性强度计算单元520根据每个词的共现频度，计算每个词的情感极性强度(可参考上述步骤S120)。

排序单元530按照情感极性强度，对所有词进行排序(可参考上述步骤S130)。

修正和/或扩展单元540根据排序后的词列表，修正和/或扩展情感词典560(可参考上述步骤S140)。修正和/或扩展单元540可以包括：词列表划分单元5410，用于根据情感词典560，将排序后的词列表划分为三个不同的词列表：正词表、负词表以及中性词表，正词表中的词为情感词典560中的正情感极性的词，负词表中的词为情感词典560中的正情感极性的词，中性词表中的词为未在情感词典560中出现的词；以及基于词列表的修正和/或扩展单元5420，用于将正词表中情感极性强度较小的词从情感词典560中去除，将负词表中情感极性强度较大的词从情感词典560中去除，将中性词表中情感极性强度较大的词作为正情感极性的词加入情感词典560，以及将中性词表中情感极性强度较小的词作为负情感极性的词加入情感词典560。

改进1

根据本发明的情感词典修正和/或扩展方法的改进1，共现频度统计单元510、情感极性强度计算单元520、排序单元530和修正和/或扩展单元540可以根据修正和/或扩展后的情感词典560，迭代执行各自的操作。

改进2

图6示出了根据本发明的情感词典修正和/或扩展装置的改进2的示意方框图。

如图6所示，根据本发明的情感词典修正和/或扩展装置还可以包括：进一步修正和/或扩展单元670和同义词词典680。其中，进一步修正和/或扩展单元670利用同义词集合，对修正和/或扩展后的情感词典560进行进一步的修正和/或扩展。

具体地，进一步修正和/或扩展单元670可以包括：同义词集合创建单元6710，用于利用同义词词典680，将修正和/或扩展后的情感词典560中的词按照同义词归为同义词集合(可参考上述步骤S310)；同义词集合情感极性确定单元6720，用于将同义词集合的情感极性确定为同义词集合内大部分词所具有的情感极性(可参考上述步骤S320)；以及基于同义词集合的修正和/或扩展单元6730，从修正和/或扩展后的情感词典560中删除同义词集合中极性与同义词集合的极性不同的情感词，或者在修正和/或扩展后的情感词典560中，将同义词集合中极性与同义词集合的极性不同的情感词的极性修订为与同义词集合的极性相同(可参考上述步骤S330)。

改进3

如图7所示，根据本发明的情感词典修正和/或扩展装置还可以包括：情感词典初始化单元790，用于根据通用词典和/或语义类来扩充情感词典560(可参考上述步骤S410～S440)。

在以上的描述中，针对各个步骤，列举了多个实例，虽然发明人尽可能地标示出彼此关联的实例，但这并不意味着这些实例必然按照相应的标号存在对应关系。只要所选择的实例所给定的条件间不存在矛盾，可以在不同的步骤中，选择标号并不对应的实例来构成相应的技术方案，这样的技术方案也应视为被包含在本发明的范围内。

应当注意的是，在以上的描述中，仅以示例的方式，示出了本发明的技术方案，但并不意味着本发明局限于上述步骤和单元结构。在可能的情形下，可以根据需要对步骤和单元结构进行调整和取舍。因此，某些步骤和单元并非实施本发明的总体发明思想所必需的元素。因此，本发明所必需的技术特征仅受限于能够实现本发明的总体发明思想的最低要求，而不受以上具体示例的限制。

这里所公开的本发明实施例的其他设置包括执行在先概述并随后详述的方法实施例的步骤和操作的软件程序。更具体地，计算机程序产品是如下的一种实施例：具有计算机可读介质，计算机可读介质上编码有计算机程序逻辑，当在计算设备上执行时，计算机程序逻辑提供相关的操作，从而提供上述单向代理转密方案。当在计算系统的至少一个处理器上执行时，计算机程序逻辑使得处理器执行本发明实施例所述的操作(方法)。本发明的这种设置典型地提供为设置或编码在例如光介质(例如CD-ROM)、软盘或硬盘等的计算机可读介质上的软件、代码和/或其他数据结构、或者诸如一个或多个ROM或RAM或PROM芯片上的固件或微代码的其他介质、或专用集成电路(ASIC)、或一个或多个模块中的可下载的软件图像、共享数据库等。软件或固件或这种配置可安装在计算设备上，以使得计算设备中的一个或多个处理器执行本发明实施例所述的技术。结合诸如一组数据通信设备或其他实体中的计算设备进行操作的软件过程也可以提供根据本发明的系统。根据本发明的系统也可以分布在多个数据通信设备上的多个软件过程、或者在一组小型专用计算机上运行的所有软件过程、或者单个计算机上运行的所有软件过程之间。

应该理解，严格地讲，本发明的实施例可以实现为数据通信设备上的软件程序、软件和硬件、或者单独的软件和/或单独的电路。

至此已经结合优选实施例对本发明进行了描述。应该理解，本领域技术人员在不脱离本发明的精神和范围的情况下，可以进行各种其它的改变、替换和添加。因此，本发明的范围不局限于上述特定实施例，而应由所附权利要求所限定。

Claims

1.一种情感词典修正和／或扩展装置，包括：

共现词对抽取单元，用于从样本集合的句子中抽取出共现词对；

共现频度统计单元，用于根据情感词典中所定义的词，统计出每个共现词对中的每个词的共现频度；

情感极性强度计算单元，用于根据每个词的共现频度，计算每个词的情感极性强度；

排序单元，用于按照情感极性强度，对所有词进行排序；以及

修正和／或扩展单元，用于根据排序后的词列表，修正和／或扩展情感词典，

其中

所述共现频度统计单元统计出每个词与情感词典中的正情感极性的词共同出现在同一共现词对中的正情感共现频度N₊、每个词与情感词典中的负情感极性的词共同出现在同一共现词对中的负情感共现频度N_-、和每个词与未在情感词典中出现的词共同出现在同一共现词对中的中性情感共现频度N₀；以及

所述情感极性强度计算单元根据函数f(N₊，N₀，N_-)获得每个词的情感极性强度，函数f(x，y，z)满足如下条件：

-x，y，z为自然数；

-函数值f随着x的增大而增大；

-函数值f随着z的增大而减小；

-函数值f的绝对值随着y的增大而减小。

2.根据权利要求1所述的情感词典修正和／或扩展装置，其特征在于，

所述共现频度统计单元、所述情感极性强度计算单元、所述排序单元和所述修正和／或扩展单元根据修正和／或扩展后的情感词典，迭代执行各自的操作。

3.根据权利要求1所述的情感词典修正和／或扩展装置，还包括：

进一步修正和／或扩展单元，用于利用同义词集合，对修正和／或扩展后的情感词典进行进一步的修正和／或扩展。

4.根据权利要求3所述的情感词典修正和／或扩展装置，其特征在于，

所述进一步修正和／或扩展单元包括：

同义词集合创建单元，用于利用同义词词典，将修正和／或扩展后的情感词典中的词按照同义词归为同义词集合；

同义词集合情感极性确定单元，用于将同义词集合的情感极性确定为同义词集合内大部分词所具有的情感极性；以及

基于同义词集合的修正和／或扩展单元，用于从修正和／或扩展后的情感词典中删除同义词集合中情感极性与同义词集合的情感极性不同的情感词，或者在修正和／或扩展后的情感词典中，将同义词集合中情感极性与同义词集合的情感极性不同的情感词的情感极性修订为与同义词集合的情感极性相同。

5.根据权利要求1～4之一所述的情感词典修正和／或扩展装置，其特征在于，

所述修正和／或扩展单元包括：

词列表划分单元，用于根据情感词典，将排序后的词列表划分为三个不同的词列表：正词表、负词表以及中性词表，正词表中的词为情感词典中的正情感极性的词，负词表中的词为情感词典中的正情感极性的词，中性词表中的词为未在情感词典中出现的词；以及

基于词列表的修正和／或扩展单元，用于将正词表中情感极性强度较小的词从情感词典中去除，将负词表中情感极性强度较大的词从情感词典中去除，将中性词表中情感极性强度较大的词作为正情感极性的词加入情感词典，以及将中性词表中情感极性强度较小的词作为负情感极性的词加入情感词典。

6.根据权利要求1～4之一所述的情感词典修正和／或扩展装置，还包括：

情感词典初始化单元，用于根据通用词典和／或语义类来扩充情感词典。

7.一种情感词典修正和／或扩展方法，包括：

共现词对抽取步骤，从样本集合的句子中抽取出共现词对；

共现频度统计步骤，根据情感词典中所定义的词，统计出每个共现词对中的每个词的共现频度；

情感极性强度计算步骤，根据每个词的共现频度，计算每个词的情感极性强度；

排序步骤，按照情感极性强度，对所有词进行排序；以及

修正和／或扩展步骤，根据排序后的词列表，修正和／或扩展情感词典，

其中

在所述共现频度统计步骤中，统计出每个词与情感词典中的正情感极性的词共同出现在同一共现词对中的正情感共现频度N₊、每个词与情感词典中的负情感极性的词共同出现在同一共现词对中的负情感共现频度N_-、和每个词与未在情感词典中出现的词共同出现在同一共现词对中的中性情感共现频度N₀；以及

在所述情感极性强度计算步骤中，根据函数f(N₊，N₀，N_-)获得每个词的情感极性强度，函数f(x，y，z)满足如下条件：

-x，y，z为自然数；

-函数值f随着x的增大而增大；

-函数值f随着z的增大而减小；

-函数值f的绝对值随着y的增大而减小。

8.根据权利要求7所述的情感词典修正和／或扩展方法，还包括：

迭代修正和／或扩展步骤，根据修正和／或扩展后的情感词典，迭代执行所述共现频度统计步骤、所述情感极性强度计算步骤、所述排序步骤和所述修正和／或扩展步骤。

9.根据权利要求7所述的情感词典修正和／或扩展方法，还包括：

进一步修正和／或扩展步骤，利用同义词集合，对修正和／或扩展后的情感词典进行进一步的修正和／或扩展。

10.根据权利要求9所述的情感词典修正和／或扩展方法，其特征在于，

所述进一步修正和／或扩展步骤包括：

利用同义词词典，将修正和／或扩展后的情感词典中的词按照同义词归为同义词集合；

将同义词集合的情感极性确定为同义词集合内大部分词所具有的情感极性；以及

从修正和／或扩展后的情感词典中删除同义词集合中情感极性与同义词集合的情感极性不同的情感词，或者在修正和／或扩展后的情感词典中，将同义词集合中情感极性与同义词集合的情感极性不同的情感词的情感极性修订为与同义词集合的情感极性相同。

11.根据权利要求7～10之一所述的情感词典修正和／或扩展方法，其特征在于，

所述修正和／或扩展步骤包括：

根据情感词典，将排序后的词列表划分为三个不同的词列表：正词表、负词表以及中性词表，正词表中的词为情感词典中的正情感极性的词，负词表中的词为情感词典中的正情感极性的词，中性词表中的词为未在情感词典中出现的词；以及

将正词表中情感极性强度较小的词从情感词典中去除，将负词表中情感极性强度较大的词从情感词典中去除，将中性词表中情感极性强度较大的词作为正情感极性的词加入情感词典，以及将中性词表中情感极性强度较小的词作为负情感极性的词加入情感词典。

12.根据权利要求7～10之一所述的情感词典修正和／或扩展方法，还包括：

情感词典初始化步骤，根据通用词典和／或语义类来扩充情感词典。