CN102663139B

CN102663139B - 一种情感词典构建方法及系统

Info

Publication number: CN102663139B
Application number: CN 201210138364
Authority: CN
Inventors: 李寿山; 林莉媛; 周国栋
Original assignee: Suzhou University
Current assignee: Zidong Information Technology Suzhou Co Ltd
Priority date: 2012-05-07
Filing date: 2012-05-07
Publication date: 2013-04-03
Anticipated expiration: 2032-05-07
Also published as: CN102663139A

Abstract

本发明涉及自然语言处理领域，公开了一种情感词典构建方法及系统。本方案公开的情感词典构建方法及系统，基于同义词词林，通过对同义词词林的检索，只需预先设定的少量种子词，就能获取大量情感词，从而获得扩展的种子词词集，并根据评价语料内的词语和种子词的PMI值及其所述词语的词性，计算所述词语的情感倾向值SO，并根据所述SO值的正负和绝对值大小，获知所述词语的情感极性及情感倾向程度，进而根据预设的数量，选择所述词语构建情感字典。使用该种方法及系统，不需要人工去寻找并确定情感词，节省了人力物力，同时，通过计算PMI值及SO值的方法，选择情感倾向程度较强的词语来构建情感词典，提高了构建情感词典的精度。

Description

一种情感词典构建方法及系统

技术领域

本发明涉及自然语言处理领域，特别是涉及一种情感词典构建方法及系统。

背景技术

随着信息化的迅速普及，网络得到了广泛的应用，人们通过论坛、博客和微博等网络平台，能够发表对于人物、事件、产品等各种观点、意见等的文本信息。为了有效处理这些信息，就需要进行文本情感分析，其中，需要进行情感分析的文本被称为评价语料，而进行情感分析的过程中，很重要的一点就是构建情感词典。

构建情感词典，是文本情感分析过程中的一个基础任务，在构建情感词典时，词语的情感极性是情感分类方法的基础，根据词语的情感极性，将词语分为正面词、负面词和中性词三种情感词，并将具有相同情感极性的词语汇集在一起，从而完成对情感词典的构建。例如，在中文的词语集中，将“喜欢”、“好”、“幸福”和“漂亮”等分为正面词，将“丑”、“厌恶”、“暴力”和“差”等分为负面词。

现有的构建情感词典的方法，一种是由人工完成，在该种方法中，在给定词语后，由人工判断词语的情感极性；另外一种方法，使用查找现有资源的方法，例如，使用知网资源获取词语的情感极性，知网（英文名称为HowNet）是一个以汉语和英语的词语所代表的概念为描述对象，以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库，工作人员可以通过搜索知网中的资源，获知给定词语的情感极性。

但是，发明人在本申请的研究过程中发现，采用人工判断词语的情感极性的方式，会花费大量的人力、物力；而采用查找现有资源的方式，由于资源的有限性，无法包括所有的词语，对于词语的情感极性分类效果欠佳，且不能随时更新词语，因而获得词语的情感极性的正确率不高，进而影响构建情感词典的精度。

发明内容

有鉴于此，本发明的目的在于提供一种情感词典构建方法，以解决现有技术中的情感词典构建方法中，所具有的需要花费大量人力、物力，或者精度低的问题，具体实施方案如下：

一种情感词典构建方法，包括：

获取包含正面词和负面词的基础种子词词集；

获取所述基础种子词的同义词，并将所述同义词加入到所述基础种子词的词集中，以形成扩展后种子词词集；

对评价语料进行分词处理，以获取多个词语，并确定获取的词语的词性；

计算获取到的词语与所述扩展后种子词词集中的各个种子词的点互信息量PMI；

根据所述词语与各个种子词的点互信息量PMI，及与所述词语的词性对应的参数值，获取所述词语的情感倾向值SO；

根据所述情感倾向值SO，选择预设数量的词语，并根据情感极性，将所选词语构建成包含正面情感词子词典和负面情感词子词典的情感词典。

优选的，获取种子词的同义词，以获得扩展后种子词词集具体包括：

获取同义词词林；

将所述各个种子词与所述同义词词林中的词语进行匹配查找，以获取所述种子词的同义词；

将所述同义词加入基础种子词的词集中，以获取扩展后种子词词集。

优选的，计算获取到的词语与所述扩展后种子词词集中的各个种子词的点互信息量PMI的方法具体为：

根据公式进行计算，其中，所述w₁和w₂分别表示种子词和所述获取到的词语，所述p(w₁&w₂)表示两个词w₁和w₂共同出现的概率，p(w₁)和p(w₂)分别代表两词各自出现的概率。

优选的，获取所述词语的情感倾向值SO的方法具体为：

根据公式

SO (word) = p \times [λ \times Σ_{t = 0}^{t_{p}} PMI (word, {pw}_{i}) - (1 - λ) Σ_{t = 0}^{t_{n}} PMI (word, {nw}_{i})]

进行计算，其中，所述pw_i为扩展后的正面种子词，t_p为正面种子词集合的大小，nw_i为扩展后的负面种子词，t_n为负面种子词集合的大小，λ为扩展后正面种子词数与扩展后负面种子词数的比值，p为与所述词语的极性相对应的参数值。

优选的，所述词性包括：形容词、副词和其他词性的词，其中所述形容词所对应的参数值p为0.6，所述副词所对应的参数值p为0.3，其他词性的词的参数值p为0.1。

优选的，根据所述情感倾向值SO，选择预设数量的词语，构建情感词典的步骤包括：

根据所述SO值的正负，将所述词语分成正面词和负面词；

按照所述正面词和负面词SO值绝对值的大小，分别选择出符合预设数量，且绝对值较大的正面词和负面词；

由选择的所述正面词构建正面词子词典，所述负面词构建负面词子词典，并由所述正面词子词典和所述负面词子词典构建情感词典。

同时，本发明还公开了一种情感词典构建系统，包括：

种子词词集获取模块，用于获取包含正面词和负面词的基础种子词词集；

种子词词集扩展模块，用于获取所述种子词的同义词，并将所述同义词加入到所述种子词词集中，以形成扩展后种子词词集；

评价语料处理模块，用于对评价语料进行分词处理，以获取多个词语，并确定获取的词语的词性；

点互信息量PMI计算模块，用于计算获取到的词语与所述扩展后种子词词集中的各个种子词的点互信息量PMI；

情感倾向值SO计算模块，用于根据所述词语与所述各个种子词的点互信息量PMI与所述词语的词性对应的参数值，获取所述词语的情感倾向值SO，所述词性包括形容词、副词和其他词性的词；

情感词典构建模块，用于根据所述情感倾向值SO，选择预设数量的词语，并根据情感极性，将所选词语构建成包含正面情感词子词典和负面情感词子词典的情感词典。

优选的，所述种子词词集扩展模块包括：

同义词词林获取单元，用于获取同义词词林；

同义词获取单元，用于将所述各个种子词与所述同义词词林中的词语进行匹配查找，以获取所述种子词的同义词；

扩展后种子词词集获取单元，用于将所述同义词加入原种子词的词集中，以获取扩展后种子词词集。

本方案公开的情感词典构建方法及系统，基于同义词词林，通过对同义词词林的检索，只需预先设定的少量种子词，就能获取大量情感词，从而获得扩展的种子词词集，并根据评价语料内的词语和种子词的PMI值及其所述词语的词性，计算所述词语的情感倾向值SO，并根据所述SO值的正负和绝对值大小，获知所述词语的情感极性及情感倾向程度，进而根据预设的数量，选择所述词语构建情感字典。

使用该种方法及系统，不需要人工去寻找并确定情感词，节省了人力物力，同时，通过计算PMI值及SO值的方法，选择情感倾向程度较强的词语来构建情感词典，提高了构建情感词典的精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例公开的一种情感词典构建方法的工作流程示意图；

图2为本发明实施例公开的一种情感词典构建方法中，获取扩展后种子词词集的工作流程示意图；

图3为本发明实施例公开的一种情感词典构建系统的结构示意图；

图4为本发明实施例公开的一种情感词典构建系统中种子词词集扩展模块的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明公开了一种情感词典构建方法及系统，用于解决现有技术中的情感词典构建方法中，所具有的需要花费大量人力、物力，或者精度低的问题，所述的情感词典构建方法，其工作流程图如图1所示，包括：

步骤S1、获取包含正面词和负面词的基础种子词词集。有时候，同一个词语在不同的领域中会表达出不一样的情感，例如，“香”这个词在化妆品领域中可以认为是个正面词，但是在其他领域，如电子产品领域和软件领域等，“香”这个词则是中性词。甚至，有些词在不同的领域中，会表现出相反的情感。因此，本方案在选择基础种子词时，所选择的词语是一些常见的带有强烈正负面情感的情感词，而且这些情感词在不同的领域中所表现出来的情感是一致的，如“好”在各个领域中表现的都是强烈的正面情感，而“丑恶”在各个领域中表现的皆是强烈的负面情感。另外，具体实施时，在步骤S1中，工作人员所选的基础种子词，一般为正面词和负面词各选10个，当然，也可以选择其他数目的正面词和负面词，本发明不做限定。例如，可以选择如下的词语：“喜欢”、“好”、“幸福”、“漂亮”、“优良”、“佳”、“美”、“顺利”、“舒服”、“优越”、“爱”作为正面种子词，选择如下的词语：“坏”、“糟糕”、“恶劣”、“不善”、“恨”、“讨厌”、“恶”、“丑”、“丑恶”、“不喜欢”、“差”作为负面种子词。

步骤S2、获取所述基础种子词的同义词，并将所述同义词加入到所述基础种子词的词集中，以形成扩展后种子词词集。本步骤的实现是通过检索同义词词林来实现的。所述同义词词林，指的是具有同义词分布的文本，如通过对同义词词林的检索，可以获取“喜欢”的同义词“喜爱、喜好、欢喜、爱慕、爱好、欣赏、希罕、好、爱、喜和爱不释手”等。通过对同义词的检索，能够扩展种子词的范围。

步骤S3、对评价语料进行分词处理，以获取多个词语，并确定获取的词语的词性。分词是指，将中文句子分成词的序列，如“我爱中国”分词后变为“我爱中国”。词性标注是指指明词的词性（如：名词、动词、形容词等）。分词和词性标注使用现有的分词工具,如最大概率法、最大匹配法、条件随机场方法等等。本发明采用实验室开发的基于100M训练样本和条件随机场分词方法的分词和词性标注软件，来实现对评价语料的分词和词性标注。条件随机分词方法能够较大程度的分出文本中的词，进而保证后续工作中收集到足够情感词。其中实验室开发的用于分词和词性标注的软件，是一个现有的公共工具。当然，本发明也可采用其他的分词和词性标注工具。

步骤S4、计算获取到的词语与所述扩展后种子词词集中的各个种子词的点互信息量PMI。点互信息量（PMI，Point-Wise Mutual Information），在统计中经常被用来检验两个事物的相关程度。本方案中，根据两个词的共现的信息，计算两个词的PMI值，其中，所述PMI值越高，两个词越有可能带有同种情感极性。

在具体实施时，计算获取到的词语与所述扩展后种子词的点互信息量PMI的方法具体为：

根据公式

进行计算，其中，所述w₁和w₂分别表示种子词和所述获取到的词语，所述p(w₁&w₂)表示两个词w₁和w₂共同出现的概率，p(w₁)和p(w₂)分别代表两词各自出现的概率。该方法可称为点互信息量信息检索方法（PMI-IR，Pointwise Mutual Information-InformationRetrieval）。

步骤S5、根据所述词语与各个种子词的点互信息量PMI，及与所述词语的词性对应的参数值，获取所述词语的情感倾向值（SO，Semantic Orientation）。

SO的正负号就可以表示词语的情感极性，而绝对值就代表了情感极性的强度。在具体实施时，获取所述词语的情感倾向值SO的方法具体为：

根据公式

SO (word) = p \times [λ \times Σ_{t = 0}^{t_{p}} PMI (word, {pw}_{i}) - (1 - λ) Σ_{t = 0}^{t_{n}} PMI (word, {nw}_{i})]

进行计算，其中，所述pw_i为扩展后的正面种子词，t_p为正面种子词集合的大小，nw_i为扩展后的负面种子词，t_n为负面种子词集合的大小，λ为扩展后正面种子词数与扩展后负面种子词数的比值，p为与所述词语的极性相对应的参数值。由于情感词多为形容词和副词，因此在本方案中，设置参数值时，可以为形容词及副词设置较高的参数值，例如，所述形容词所对应的参数值p为0.6，所述副词所对应的参数值p为0.3，其他词性的词的参数值p为0.1。或者，在不同的情况下，也可以将所述参数值设置为其他值。

步骤S6、根据所述情感倾向值SO，选择预设数量的词语，并根据情感极性，将所选词语构建成包含正面情感词子词典和负面情感词子词典的情感词典。根据步骤S5中提供的公式，获取到所述情感倾向值SO后，根据SO的正负，可以判断该词语是正面词还是负面词，从而将所述词语分成正面词和负面词，然后根据SO的绝对值的大小，可以对所述词语根据情感倾向性的高低进行排序，其中，当SO的绝对值越大时，所述词语的情感倾向性越高，当预设需要选择n个正面词时，从正面词中，选择SO的绝对值较大的前n个词，构建成正面情感子词典；当预设需要选择n个负面词时，从负面词中，选择SO的绝对值较大的前n个词，构建成负面情感词子词典，由正面情感词子词典和负面情感词子词典，共同组成情感词典。

通过步骤S1到步骤S6公开的方案，本发明公开的情感词典构建方法，预先获取基础种子词词集，并通过获取同义词的方式，得到大量扩展后种子词词集，并通过种子词与评价预料中词语的PMI值和词语的词性，获取所述词语的情感倾向值SO，从而根据所述情感倾向值SO，获知所述词语的情感极性，以及情感极性的强度，从而选择预设数量的正面词和负面词，构建情感词典。

在具体实施时，参见图2，步骤S2中，获取种子词的同义词，以获得扩展后种子词词集的方式具体包括：

步骤S21、获取同义词词林。我国第一部汉语义类词典《同义词词林》，由梅家驹等著，由上海辞书出版社出版。在本方案中，可以选择其进行检索，当然，也可以选择其他的包含同义词词林的数据库进行检索，本方案不做限定。

步骤S22、将所述各个种子词语所述同义词词林中的词语进行匹配查找，以获取所述种子词的同义词；

步骤S23、将所述同义词加入基础种子词的词集中，以获取扩展后种子词词集。

通过步骤S21至步骤S23，本方案通过对同义词词林的搜索，找出步骤S1中获取的各个种子词的同义词，将所述同义词同样作为种子词，从而获取扩展后种子词，在《同义词词林》中，包含7万多个词，通过对其的检索，可以找出一定量的具有情感的词，从而大大减少了人工去寻找并确定种子词的工作量。

本方案公开的情感词典构建方法，基于同义词词林，通过对同义词词林的检索，只需预先设定的少量种子词，就能获取大量情感词，从而获得扩展的种子词词集，并根据评价语料内的词语和种子词的PMI值及其所述词语的词性，计算所述词语的情感倾向值SO，并根据所述SO值的正负和绝对值大小，获知所述词语的情感极性及情感倾向程度，进而根据预设的数量，选择所述词语构建情感字典。

使用该种方法，不需要人工去寻找并确定情感词，节省了人力物力，同时，通过计算PMI值及SO值的方法，选择情感倾向程度较强的词语来构建情感词典，提高了构建情感词典的精度。

本发明所公开的情感词典构建方案，适用于多个领域中对评价语料的分析，例如化妆品、电子产品和软件，以及其他的领域，为了检测本发明公开的方案在情感词典构建上的有效性，发明人分别在化妆品、电子产品和软件三个领域进行了测试，其测试结果如表1所示，其中，三个领域中使用的评价语料的文本数是正负面文本各1000篇，即每个领域中有2000篇的文本，其中，“规模”代表：收集到的情感词的数目，即构建的情感词典中包含的情感词的数目；“准确率”代表：使用本发明公开的方案，判断出的词语的情感极性与经过人工判断后的极性相一致时，则认为是正确的，而准确率表示判断正确的情感词占所有情感词的比例。

表1

从表1所示的数据，可以看出，本发明的方法仅仅使用了少量的领域无关且感情强烈的情感词，已经能够收集一定规模的情感词，而且收集出来的情感词的正确率在90%左右。随着语料规模的增大，本发明的方法收集的情感词的极性判定正确率还会有进一步提升。

同时，本发明还公开了一种情感词典构建系统，其结构示意图如图3所示，包括：种子词词集获取模块1、种子词词集扩展模块2、评价语料处理模块3、点互信息量PMI计算模块4、情感倾向值SO计算模块5和情感词典构建模块6，其中：

所述种子词词集获取模块1，用于获取包含正面词和负面词的基础种子词词集；

所述种子词词集扩展模块2，用于获取所述种子词的同义词，并将所述同义词加入到所述种子词词集中，以形成扩展后种子词词集；

所述评价语料处理模块3，用于对评价语料进行分词处理，以获取多个词语，并确定获取的词语的词性；

所述点互信息量PMI计算模块4，用于计算获取到的词语与所述扩展后种子词词集中的各个种子词的点互信息量PMI；

所述情感倾向值SO计算模块5，用于根据所述词语与各个种子词的点互信息量PMI与所述词语的词性对应的参数值，获取所述词语的情感倾向值SO。其中，所述词性一般包括形容词、副词和其他词性；

所述情感词典构建模块6，用于根据所述情感倾向值SO，选择预设数量的词语，并根据情感极性，将所选词语构建成包含正面情感词子词典和负面情感词子词典的情感词典。

其中，参见图4，所述种子词词集扩展模块2包括：同义词词林获取单元21、同义词获取单元22和扩展后种子词词集获取单元23，其中，

所述同义词词林获取单元21，用于获取同义词词林；

所述同义词获取单元22，用于将所述各个种子词与所述同义词词林中的词语进行匹配查找，以获取所述种子词的同义词；

所述扩展后种子词词集获取单元23，用于将所述同义词加入原种子词的词集中，以获取扩展后种子词词集。

本发明所公开的情感词典构建系统，不需要人工去寻找并确定情感词，节省了人力物力，同时，通过计算PMI值及SO值的方法，选择情感倾向程度较强的词语来构建情感词典，提高了构建情感词典的精度。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种情感词典构建方法，其特征在于，包括：

获取包含正面词和负面词的基础种子词词集；

所述词性包括：形容词、副词和其他词性的词，其中所述形容词所对应的参数值p为0.6，所述副词所对应的参数值p为0.3，其他词性的词的参数值p为0.1；

计算获取到的词语与所述扩展后种子词词集中的各个种子词的点互信息量PMI，具体包括：

根据公式

进行计算，其中，所述w₁和w₂分别表示种子词和所述获取到的词语，所述p(w₁&w₂)表示两个词w₁和w₂共同出现的概率，p(w₁)和p(w₂)分别代表两词各自出现的概率；

根据所述词语与各个种子词的点互信息量PMI，及与所述词语的词性对应的参数值，获取所述词语的情感倾向值SO，具体包括：

根据公式

SO (word) = p \times [λ \times Σ_{l = 0}^{t_{p}} PMI (word, {pw}_{i}) - (1 - λ) Σ_{l = 0}^{t_{n}} PMI (word, {nw}_{i})]

进行计算，其中，所述pw_i为扩展后的正面种子词，t_p为正面种子词集合的大小，nw_i为扩展后的负面种子词，t_n为负面种子词集合的大小，λ为扩展后正面种子词数与扩展后负面种子词数的比值，p为与所述词语的极性相对应的参数值；

2.根据权利要求1所述的方法，其特征在于，获取种子词的同义词，以获得扩展后种子词词集具体包括：

获取同义词词林；

3.根据权利要求1所述的方法，其特征在于，根据所述情感倾向值SO，选择预设数量的词语，构建情感词典的步骤包括：

根据所述SO值的正负，将所述词语分成正面词和负面词；

按照所述正面词和负面词的SO值绝对值的大小，分别选择出符合预设数量，且绝对值较大的正面词和负面词；

4.一种情感词典构建系统，其特征在于，包括：

点互信息量PMI计算模块，用于计算获取到的词语与所述扩展后种子词词集中的各个种子词的点互信息量PMI，具体包括：

根据公式

情感倾向值SO计算模块，用于根据所述词语与所述各个种子词的点互信息量PMI与所述词语的词性对应的参数值，获取所述词语的情感倾向值SO，具体包括：

根据公式

SO (word) = p \times [λ \times Σ_{l = 0}^{t_{p}} PMI (word, {pw}_{i}) - (1 - λ) Σ_{l = 0}^{t_{n}} PMI (word, {nw}_{i})]

所述词性包括形容词、副词和其他词性的词，其中所述形容词所对应的参数值p为0.6，所述副词所对应的参数值p为0.3，其他词性的词的参数值p为0.1；

5.根据权利要求4所述的系统，其特征在于，所述种子词词集扩展模块包括：

同义词词林获取单元，用于获取同义词词林；