CN102880600B

CN102880600B - 基于通用知识网络的词语语义倾向性预测方法

Info

Publication number: CN102880600B
Application number: CN201210316850.3A
Authority: CN
Inventors: 刘瑞; 安翼; 陈君龙; 宋浪
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2012-08-30
Filing date: 2012-08-30
Publication date: 2015-10-28
Anticipated expiration: 2032-08-30
Also published as: CN102880600A

Abstract

本发明公开了一种基于通用知识网络的词语语义倾向性预测方法，包括：（1）判断未知词语是否存在于情感词词典中，如果存在则返回未知词语的极性，如果不存在则进入步骤（2）；（2）选取褒义基准词集和贬义词基准词集；（3）计算未知词语与褒义词集之间的紧密程度；（4）计算未知词语与贬义词集之间的紧密程度；（5）计算未知词语与褒义词集间的紧密程度和未知词语与贬义基准词集间的紧密程度的差值；（6）根据步骤（5）的差值，选取阈值空间判断未知词语的极性。本发明在考虑词语语义相似度的同时结合了词语的关联度，采用了区域阈值判断，避免将词语赋予错误的情感倾向性，在语义倾向性判断准确率上获得了提升。

Description

基于通用知识网络的词语语义倾向性预测方法

技术领域

本发明涉及一种词语语义倾向性预测方法，尤其涉及一种基于通用知识网络的词语语义倾向性预测方法，属于计算机信息数据处理技术领域。

背景技术

互联网的迅速发展和广泛普及，在很大程度上改变了人们的生活方式。人们不仅能够被动地接受信息，还能与外界进行交互。互联网逐渐成为一种交互式媒体，人们可以通过BBS、Blogs等网络媒介发表对各种事物的评论。2010年7月由中国互联网信息中心发布的《中国互联网络发展状况统计报告》的数据表明：博客应用、论坛/BBS的使用率均处于网络应用的前列。这些观点信息的迅速增长，为科研人员提供了广泛的应用和研究对象，并引起了产业界和研究者的广泛关注。

网络上这些主观性的评论包含着大量具有情感倾向的信息，这些信息，不论对于普通的网络用户，还是对于生产商以及其他机构组织都有很重要的价值。词语是所有句子、文本组成的最基本元素，词语的情感倾向或者极性能很好暗示句子乃至整个文本层次的语义倾向。词语的情感倾向或者极性判别在对在对主观性的评论的语义倾向性分析的研究中，起着核心的作用，是语义性倾向性分析的基础。

心理学研究发现了词和人类情感之间的可测性。词语或短语对于情感分类来说，是最重要也是最基本的特征。在人类语言中有一类词，人们直接使用它们来表达自己的感情，或喜或厌，或赞成或反对，或表扬或贬低等，尤其是当人们对某一事物的好坏做出评价的时候，往往通过使用这类词语来表达自己鲜明的观点。这种带有观点或者情感倾向的词语称之为情感词（Senitment Word）。通常，情感词的极性可以分为三类：正面的（Positive）、负面的（Negative）和中立的（Neutral）。但由于中性词的情感特征不明显，对区分文本极性的作用不大，大多数研究中都只注重分析褒义、贬义两类极性明显的情感词。

一些研究者提出应该将情感词极性值设置为－1到1之间连续的实数值，希望以一种更加详尽的方式展示出每个情感词极性的差别。但由于在实际生活中，人们对每个情感词的褒贬程度并未达成一致性认识，无法给出权威的、量化的极性值，因此，大多数的研究人员仍将情感词的极性值作为离散值处理。这种处理方式也可以使得词语极性的计算和处理更加简单，带来计算效率上的提高，而一定程度上也可以使情感词的极性特征更加明显。

对于网络上这些主观性的评论词语的极性判断，主要有两种思路。一种是基于一般性统计的方法，通过分析大规模语料库中的词语分布规律，得出词语的相似度。以Turney为代表，他使用完全基于词语共现关系统计的方法来计算词语的相似度。这种方法的出发点是基于这样的一种假设——相同极性的情感词倾向于一起出现，而且许多实验也证明了这个假设的有效性。但是，这种的方法需要有大量的文本作训练集，而且计算的复杂度较高。另一种方法是基于词典的方法，比如英文词典WordNet和中文词典知网（HowNet）。这类方法通常是通过研究词典的语义结构，找出词语之间的语义联系，并计算语义“距离”。这种语义“距离”通常被当作词语间的相似度，并以此作为预测词语倾向性的一种手段。

这两类方法对文本进行倾向性分析时，都依赖于极性词典，因此极性词典的好坏直接影响情感倾向性判断的正确性，而目前极性词典的构建都是通过手工进行的，工作量大而且极性词典不完备。由于极性词典收录范围有限并难以及时更新，现有的极性词典中仅适合对规范的常用词进行情感倾向性分析，对于新出现的词语、某些特定词语或者新的语义则无法使用，不适应信息的高速发展变化和词语分析的广泛需求。

在申请号为201010229011.9的中国发明专利申请中，公开了一种主观性文本情感倾向性分析方法，包括如下步骤：预先建立一个可扩展的、倾向度定量的极性词典；对待分析文本进行预处理；利用语义角色标注工具，对预处理的文本语义角色进行标注；采用指代消解方法，对代词等对象实体进行还原；建立领域特征库；利用极性词典和特征库分别完成情感词识别和特征词识别，计算每个特征的情感倾向性值，然后统计计算每句中相关特征的情感倾向性值，最后得出每一特征的整体情感倾向值。

发明内容

针对现有技术所存在的不足，本发明所要解决的技术问题在于提供一种基于通用知识网络的词语语义倾向性预测方法。该方法能有效提高语义倾向性分析的准确率。

为实现上述的发明目的，本发明采用下述的技术方案：

一种基于通用知识网络的词语语义倾向性预测方法，其特征在于包括如下步骤：

（1）判断未知词语是否存在于情感词词典中，如果存在则返回未知词语的极性，如果不存在，则进入步骤（2）；

（2）选取褒义基准词集和贬义词基准词集；

（3）计算所述未知词语与所述褒义词集之间的紧密程度；

（4）计算所述未知词语与所述贬义词集之间的紧密程度；

（5）计算所述未知词语与所述褒义词集间的紧密程度和所述未知词语与所述贬义基准词集间的紧密程度的差值；

（6）根据步骤（5）所述的差值，选取阈值空间判断所述未知词语的极性。

其中较优地，所述情感词词典是通过遍历通用知识网络的义原关系得到。

其中较优地，所述褒义基准词集是所述情感词词典中褒义词词频最高的一组词；

所述贬义基准词集是所述情感词词典中贬义词词频最高的一组词。

其中较优地，所述未知词语与所述褒义词集或所述贬义词集中某个词语p之间的紧密程度用com(p,word)表示，通过如下公式进行计算：

com(p,word)＝sim(p,word)+rel(p,word)

其中，word表示未知词语，p表示褒义基准词或贬义基准词，P_set表示褒义基准词集或贬义基准词集，p∈P_set，sim(p,word)表示p与未知词语word之间的词语语义相似度，rel(p,word)表示p与未知词语word之间的词语相关度。

其中较优地，所述褒义基准词或贬义基准词p与未知词语word之间的词语相关度rel(p,word)通过如下公式进行计算：

rel (p, word) = \frac{| conRel (p) \cap conRel (word) |}{| conRel (p) \cup conRel (word) |}

其中，|con Rel(p)∩con Rel(word)|为基准词p和未知词语word相关场交集的个数；|con Rel(p)∪con Rel(word)|为基准词p和未知词语word相关场并集的个数。

其中较优地，所述未知词语与所述褒义词集间的紧密程度和所述未知词语与贬义基准词集间的紧密程度的差值用senti(word)表示，通过如下公式进行计算：

senti (word) = \underset{p &Element; P_{set}}{Σ} com (p, word) - \underset{n &Element; N_{set}}{Σ} com (n, word)

其中，word表示未知词语，p表示褒义基准词，P_set表示褒义基准词集，p∈P_set，com(p,word)表示未知词语word与所述褒义词集P_set中某个词p之间的紧密程度，表示未知词语word与所述褒义词集P_set的所有词之间紧密程度之和；n表示贬义基准词，N_set表示褒义基准词集，n∈N_set，com(n,word)表示未知词语word与所述褒义词集N_set中某个词n之间的紧密程度，表示未知词语word与所述贬义词集N_set的所有词之间紧密程度之和。

其中较优地，所述选取适当的阈值空间，判断出未知词语极性的步骤通过如下算法判断词语极性：

Polarity (word) = \{\begin{matrix} 1, Senti (word) > b \\ 0, a \leq Senti (word) \leq b \\ - 1, Senti (word) < a \end{matrix}\}

其中，word表示未知词语，senti(word)表示未知词语word与所述褒义词集间的紧密程度和未知词语word与贬义基准词集间的紧密程度的差值，a表示第一阈值，b表示第二阈值；

如果得到所述未知词语的极值为1，则所述未知词语为褒义词；

如果得到所述未知词语的极值为0，则所述未知词语为中性词；

如果得到所述未知词语的极值为－1，则所述未知词语为贬义词。

其中较优地，所述第一阈值和所述第二阈值根据最佳情况下单点阈值的取值，通过下式进行确定：

[a,b]＝[δ-0.5,δ+0.5]

其中，a表示第一阈值，b表示第二阈值，δ表示最佳情况下单点阈值的取值。

本发明所提供的基于通用知识网络的词语语义倾向性预测方法中考虑了词语语义相似度的同时结合了词语互相的关联度，采用了区域阈值判断，避免将词语赋予错误的情感倾向性，语义倾向性判断准确率上获得了提升。

附图说明

图1是知网的树状语义层次结构示例示意图；

图2是知网“良”、“莠”类别举例图；

图3是词语倾向性预测方法流程示意图；

图4是采用单点阈值时词语倾向性预测结果示意图；

图5是词语倾向性预测结果对比示意图；

图6是采用单点阈值与区域阈值词语倾向性预测对比示意图。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步的详细说明。

在本发明所提供的词语语义倾向性预测方法中，首先判断未知词语是否存在于情感词词典中，如果存在返回极性，如果不存在，则通过计算该未知词语与一个基准种子情感词词集的相似度与相关场信息来判断它的极性。具体包括，选取褒义基准词集和贬义词基准词集，褒义词集和基准词集的基准词数量相同；计算所述未知词语与所述褒义词集之间的紧密程度；计算所述未知词语与所述贬义词集之间的紧密程度；计算所述未知词语与所述褒义词集间的紧密程度和所述未知词语与所述贬义基准词集间的紧密程度的差值；根据得到的差值，选取适当的阈值空间，判断出所述未知词语极性。本发明中，通过遍历通用知识网络的词语义原关系得到情感词词典，本发明人将该方法称为基于通用知识网络的词语语义倾向性预测方法，下面展开详细的说明。

首先介绍如何通过遍历通用知识网络的词语义原关系得到情感词词典，对于情感词的识别，最常用的方法就是基于情感词词典进行对情感词判断。所谓情感词词典的构建，就是希望收集一个基本情感词集合。这样，计算机就可以通过查询这个情感词词典，来判断一个词是否是极性词，并且获得其极性值。为了更好的了解遍历通用知识网络的词语义原关系，下面以知网为例介绍通用知识络及基于知网对词语语义倾向性预测方法。

语义分析是自然语言处理技术的一个重要的研究方面，一部能够表达概念关系的语义词典是自然语言处理工作中一种不可或缺的基础性资源。知网是一个以汉语和英语所代表的概念为描述对象，以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的知识库。它是一个网状的知识系统，含有丰富的词汇语义知识和世界知识。

知网中有两个主要的概念：“概念”和“义原”。“概念”是对词语的一种描述，每一个词可以表达为几个概念。它是用一种“知识表示语言”来描述的，而这种“知识表示语言”的词汇就叫做“义原”。“义原”是用于描述一个“概念”的最小单位。知网一共定义了1617个义原。

义原一方面作为描述概念的最基本单位，另一方面，义原之间有存在着复杂的关系。在知网中，描述了义原之间的上下位关系、同义关系、反义关系、对义关系等8种关系。如图1所示，义原关系中最重要的还是上下位关系，根据义原的上下为关系，所有的“基本义原”组成了一个义原层次体系。

知网通过一种知识描述语言对词语的语义进行描述。在知网所收录的词语组织中，有一些词条被标注为“良”或“莠”，如表1列出了HowNet中收集的标志有“良”和“莠”的形容词、名词、动词各两条，其中“良”表示为褒义，“莠”表示为贬义。

表1知网“良”、“莠”词条举例

此外，还有一些类别性的义原被标注为“良”或者“莠”，但是这些类别性义原所涵盖的词条并没用标注为“良”或者“莠”，如图2所示。“FeelingByGood好情”被标注为“良”，但其包含的词条并没有标注。

在本发明中，所有义原类别为“desired|良”或者“undesired|莠”所包含的词汇，以及所有义原解释项中含有“desired|良”或者“undesired|莠”属性的概念词汇作为极性词。通过知网的遍历，本发明一共获得了16624个符合条件的词条，其中8119个褒义词条，8505个贬义词条。在这些词条中，有77.6％是形容词，20.8％是名词。其余为少量的动词和副词，其他词性的词作为褒贬词的情况极少。

由于一个词可以对应多个概念解释，同一个词在不同的概念中可能会呈现不同的极性。而在实际使用中，我们只能从文本中获取词语本身和词性，并不知道这个词在上下文中到底对应HowNet的哪种概念解释。因此，本发明构建的极性词词典是基于词汇的，一共包含了6566个词条，其中3208个褒义词，3358个贬义词。在组织情感词词典的时候，不仅记录的情感词本身，还记录了其词性和极性值。在实际应用中，判断一个词语的极性会优先使用查询情感词词典的方式，并赋予该词词典中的极性值。

接下来介绍基于通用知识网络的情感词词典如何实现词语语义倾向性预测方法。任何一个情感词词典所收录的情感词都是有限的，因此在实际的应用中，往往会碰到许多没有收录在情感词词典中的词，本发明人称之为潜在情感词（LatentSentiment Bearing Word），这些词本身可能带有情感倾向。参考知网提供的词语语义相似度计算思路，本发明对未收录在情感词词典中的潜在情感词的倾向性进行预测。参考基于知网的词语语义相似度和相关场的相关知识，本发明通过计算潜在情感词与一组褒贬基准词之间词语语义相似度和相关度，来对潜在情感词的倾向性进行判断。

词语语义相似度计算是自然语言处理、信息检索和信息抽取等领域的一项重要且基础的工作，目的是度量词语之间的相似程度。两个词语越相似，它们的概念距离就越短，二者之间可以建立一种简单的对应关系。通常，相似度值被定义为0到1之间的一个实数，绝对值越大，相似度越高。

在2002年举办的《第三届汉语词汇语义学研讨会》中，中科院的刘群、李素建发表的《基于知网的词语语义相似度计算》一文中充分考虑了词语在知网中的层次体系中的距离、整体与部分的关系、特征结构的关系等提出了基于知网的词语语义相似度计算方法。词语word₁和word₂之间基于知网的词语语义相似度表示为：sim(word₁,word₂)。

不同于词语的语义相似度，词语相关场反应的是两个词语互相关联的程度，反映了两个词语在同一语境中出现的可能性。例如，对于“聪明”这个词，在义原为“clever|灵”的情况下，即可获得一组语义相关的词语，如“聪慧”、“聪颖”、“懂事”等。

本发明利用知网提供的语义相关场功能来计算词语间的相关度。词语语义相关度rel(word₁,word₂)计算公式如下：

rel ({word}_{1}, {word}_{2}) = \frac{| conRel ({word}_{1}) \cap conRel ({word}_{2}) |}{| conRel ({word}_{1}) \cup conRel ({word}_{2}) |} - - - (1)

其中，|conRel(word₁)∩conRel(word₂)|为word₁和word₂两个词语相关场交集的个数；|conRel(word₁)∪con Rel(word₂)|为word₁和word₂两个词语相关场并集的个数。

由于现有情感词词典中包含褒义、贬义词各有3000余条，如果将其全部作为种子词集，那么在预测潜在情感词的极性时将会出现计算量过大的问题。为此，本发明分别从褒义词词典Pdict和贬义词词典Ndict中选取一些代表性的词语最为种子词集。其中，褒义基准词集贬义基准词集

显然，所选择的基准词必须是具有强烈的情感倾向性，而且具有代表性的词语。根据在《中文信息学报》2006年第20卷第1期刊载的朱嫣岚等学者的《在基于HowNet的词汇语义倾向计算》一文中，情感词的使用频率可以作为情感词是否具有代表性的重要指标。因此，可选取情感词词典中词频最高的一组词作为基准词集，同时兼顾基准词在知网中的语义分布情况，使得其尽量均匀的分布在知网语义树中。基于朱嫣岚等学者的研究，本发明选取了40对褒义、贬义词作为基准词词集，如表2和表3所示：

好

快乐

健康

美丽

成熟

保险

卫生

完善

英雄

精选

安全

权威

稳定

优秀

高级

精英

最好

最佳

幸福

容易

高手

文明

积极

著名

漂亮

完美

简单

和平

开明

真实

先进

便宜

优质

欢乐

美好

良好

不错

出色

超级

天使

表2褒义基准词

坏

错误

疯狂

事故

讨厌

非法

失败

背后

麻烦

丑陋

病人

恶意

色情

暴力

黄色

浪费

落后

漏洞

有害

黑客

自负

不安

魔鬼

花样

野蛮

陷阱

不当

腐败

无情

失误

淫秽

流氓

虚假

残酷

变态

脆弱

不合格

愚蠢

恶劣

恶魔

表3贬义基准词

种子词集中的基准词的词性分布将会影响预测方法中不同词性的未知词的极性预测效果。在本发明所选取的基准词中，形容词占据了绝大多数，这种分布情况也与实际极性词的总体分布情况相符。

如图3所示，对于一个未知词语word倾向性预测的具体方法如下：

1）首先，判断未知词语word是否已经存在于情感词词典中，若存在则返回未知词语word对应的极性；如果未知词语word在情感词词典中不存在，则转入步骤2）。

2）在情感词词典中选取褒义词基准词集P_set和贬义词基准词集N_set，两个词集包含相同数量的基准词；其中，褒义基准词集贬义基准词集P_dict是褒义词词典，N_dict是贬义词词典。

3）计算褒义基准词p与未知词语word之间的词语语义相似度sim(p,word)；根据式⑴计算p与word之间的词语相关度rel(p,word)，p与word之间的词语相关度rel(p,word)具体计算方式如下：

rel (p, word) = \frac{| conRel (p) \cap conRel (word) |}{| conRel (p) \cup conRel (word) |} - - - (2)

其中，|conRel(p)∩conRel(word)|为p和word两个词语相关场交集的个数；|conRel(p)∪con Rel(word)|为p和word两个词语相关场并集的个数。

按照如下公式计算p与word之间的紧密程度com(p,word)：

com(p,word)＝sim(p,word)+rel(p,word) （3）

其中，P_set表示褒义基准词集，p∈P_set，sim(p,word)表示p与word之间的词语语义相似度，rel(p,word)表示p与word之间的词语相关度。

4）参照步骤3）中的方法计算贬义基准词n与未知词语word之间的紧密程度com(n,word)；n与word之间的词语语义相似度为sim(n,word)，n与word之间的词语相关度rel(n,word)如下：

rel (p, word) = \frac{| conRel (p) \cap conRel (word) |}{| conRel (p) \cup conRel (word) |} - - - (4)

其中，|conRel(n)∩conRel(word)|为n和word两个词语相关场交集的个数；|conRel(n)∪conRel(word)|为n和word两个词语相关场并集的个数。

n与word之间的紧密程度com(n,word)为：

com(n,word)＝sim(n,word)+rel(n,word) （5）

其中，N_set表示褒义基准词集，n∈P_set，sim(n,word)表示n与word之间的词语语义相似度，rel(n,word)表示n与word之间的词语相关度。

5）计算未知词语word与褒贬两个基准词集间的紧密程度的差值senti(word)：

senti (word) = \underset{p &Element; P_{set}}{Σ} com (p, word) - \underset{n &Element; N_{set}}{Σ} com (n, word) - - - (6)

其中，com(p,word)表示未知词语word与所述褒义词集P_set中某个词p之间的紧密程度，表示未知词语word与所述褒义词集P_set的所有词之间紧密程度之和,com(n,word)表示未知词语word与所述褒义词集N_set中某个词n之间的紧密程度，表示未知词语word与所述贬义词集N_set的所有词之间紧密程度之和。

6）对于未知词语word，根据未知词语word与两个基准词集间的紧密程度的差值senti(word)，选取适当的阈值空间，并按照如下算法判断词语极性Polarity（word)：

Polarity (word) = \{\begin{matrix} 1, Senti (word) > b \\ 0, a \leq Senti (word) \leq b \\ - 1, Senti (word) < b \end{matrix}\} - - - (7)

其中，senti(word)表示未知词语word与所述褒义词集间的紧密程度和未知词语word与贬义基准词集间的紧密程度的差值，a表示第一阈值，b表示第二阈值；如果未知词语word与两个基准词集间的紧密程度的差值senti(word)大于第二阈值，得到未知词语word的极值为1，则所述未知词语为褒义词；如果未知词语word与两个基准词集间的紧密程度的差值senti(word)不大于第二阈值且不小于第一阈值，得到所述未知词语的极值为0，则所述未知词语为中性词；如果未知词语word与两个基准词集间的紧密程度的差值senti(word)小于第一阈值，得到所述未知词语的极值为－1，则所述未知词语为贬义词。

在实际应用中，潜在情感词可能具有或褒或贬的情感倾向性，但是，其本身也可能不具有情感倾向性，此时它的极性值应当为0。如果采用单点阈值来对来进行倾向性预测，那么被预测词语不管是否具有情感倾向性，都将被赋予或褒或贬的极性值，显然这与实际情况不符。

因此，本发明根据最佳情况下单点阈值的取值δ确定区域阈值的取值，具体如式（8）所示：

[a,b]＝[δ-0.5,δ+0.5] （8）

相较于褒义词和贬义词而言，中性词在自然语言中所占的比例更大。而这类词语与褒义基准词集或是贬义基准词集的紧密程度都很小，并且与两个词集的词语紧密程度也较为均衡，一般会落在某个区间中，本发明将此区间跨度设置为1。所以，本发明采用区间阈值的方法可以更准确的区分极性词与非极性词，并对极性词的倾向性做出预测。由此完成了基于通用知识网络的词语语义倾向性预测全过程。

下面根据褒贬基准词集的不同对不同词性的词语，使用本发明所提出的基于通用知识网络的词语倾向性预测方法判断未知词极性，验证的其判断效果。首先介绍实验的测试数据来源和评估标准，由于褒义、贬义词的测试集不管是从整体上还是按词性分类来看，测试集都是不平衡的，若人为选取褒、贬平衡测试集也可能在选取过程存在偏颇，因此实验中将使用全部的已知词集进行测试。本发明构建的情感词词典中包含了大量的褒义和贬义词语，适合作为词语倾向性预测的测试语料。词典中的情感词分布如表4所示：

词性	褒义词（个）	贬义词（个）	总数（个）
				形容词（ADJ）	2561	2107	4668
副词（ADV）	34	18	52
				名词（N）	560	1124	1684
动词（V）	12	67	79
				俗语（EXPR）	1	2	3

表4情感词词典词语分布

实验将对于不同词性和倾向性的词语的预测进行考察，对于词语倾向性预测的评测，测试主要考察方法对词语倾向性预测的准确率precision如式（9）所示。

precision = \frac{| {Set}_{correct} |}{| {Set}_{total} |} - - - (9)

其中，|Set_correct|为预测正确的词语数目，|Set_total|测试的词语总数。

实验测试了不同种子词集规模对于极性预测方法的影响，以及各种情况下的方法准确率。本发明选取了表5和表6中的前1、5、10、20、40个词语作为测试基准词集，分别测试这几种情况下准确率达到最佳时的单点阈值，测试结果如表5所示。

表5采用单点阈值时不同词性词语倾向性预测结果

将上述实验结果绘制成图表如图4所示，从图中可以明确看出，对于副词和形容词的单点准确率都很高。名词、动词的准确率相对较低。实际上，由于副词词集很小，因此很容易找到阈值的分割点。动词由于数量较少，而且分布不均，因此实际准确率较难反映出来。即使在种子词数为1对的情况下，本发明也能较好的反映出褒、贬词在词语语义相似度上的差异。

通过使用基于同义词词林的词语语义相似度来对测试集中的词语进行倾向性预测，两种方法对比结果如图5所示。从图5中很明显的看出，基于同义词词林的词语语义相似度计算方法（标记为cilin）的平均准确率较本发明低了12%以上。其主要原因为：基于同义词词林的词语语义相似度计算方法利用同义词词林中的同义词词群，计算词语在同义词林中的路径距离，即只考虑了词语语义相似度，而本发明使用的方法中，在考虑了词语语义相似度的同时结合了词语互相的关联度，因此准确率上获得了提升。

但是，单点阈值作为未知词的极性判断显然是有欠妥当的，因此还需要考察区域阈值的准确率。为了验证采用区域阈值的词语倾向性预测和采用单点阈值的词语倾向性预测对未知词语极性判断的准确率影响，做了相应的对比，结果如图6所示。从图6可以看出，采用单点阈值的效果相对于采用区域阈值的效果略好，其主要原因是本发明所使用的测试数据均来自情感词词典，本身具有明显的情感倾向性。但是在实际应用中，经常会遇到一些中性词，如果采用单点阈值的方法，这些词往往会被赋予不必要的倾向性，所以，区域阈值相对单点阈值更具实际意义。为避免将这类词语赋予错误的情感倾向性，因此，本发明采用区域阈值来对词语进行倾向性预测。

上面对本发明所提供的基于通用知识网络的词语语义倾向性预测方法进行了详细的说明。对本领域的一般技术人员而言，在不背离本发明实质精神的前提下对它所做的任何显而易见的改动，都将构成对本发明专利权的侵犯，将承担相应的法律责任。

Claims

1.一种基于通用知识网络的词语语义倾向性预测方法，其特征在于包括如下步骤：

(1)判断未知词语是否存在于情感词词典中，如果存在则返回未知词语的极性，如果不存在，则进入步骤(2)；

(2)选取褒义词集和贬义词集，所述褒义词集和所述贬义词集中的基准词数量相同；

(3)分别计算所述未知词语与所述褒义词集、所述贬义词集之间的紧密程度，所述紧密程度为词语间的语义相似度和词语相关度两种指标之和；

(4)计算所述未知词语与所述褒义词集间的紧密程度和所述未知词语与所述贬义词集间的紧密程度的差值；

(5)根据步骤(4)所述的差值，选取阈值空间判断所述未知词语的极性，所述阈值空间[a,b]通过下式进行确定：

[a,b]＝[δ-0.5,δ+0.5]

2.如权利要求1所述的基于通用知识网络的词语语义倾向性预测方法，其特征在于：

所述情感词词典是通过遍历通用知识网络的义原关系得到的。

3.如权利要求1所述的基于通用知识网络的词语语义倾向性预测方法，其特征在于：

所述褒义词集是所述情感词词典中褒义词词频最高的一组词，所述褒义词集均匀分布在知网语义树中；

所述贬义词集是所述情感词词典中贬义词词频最高的一组词，所述贬义词集均匀分布在知网语义树中。

4.如权利要求1所述的基于通用知识网络的词语语义倾向性预测方法，其特征在于：

所述未知词语与所述褒义词集或所述贬义词集中某个词p之间的紧密程度用com(p,word)表示，通过如下公式进行计算：

com(p,word)＝sim(p,word)+rel(p,word)

其中，word表示未知词语，p表示褒义基准词或贬义基准词，Pset表示褒义词集或贬义词集，p∈Pset，sim(p,word)表示p与word之间的语义相似度，rel(p,word)表示p与word之间的词语相关度。

5.如权利要求4所述的基于通用知识网络的词语语义倾向性预测方法，其特征在于：

褒义基准词或贬义基准词p与未知词语word之间的词语相关度rel(p,word)通过如下公式进行计算：

rel (p, word) = \frac{| conRel (p) \cap conRel (word) |}{| conRel (p) \cup conRel (word) |}

其中，|conRel(p)∩conRel(word)|为p和word相关场交集的个数；|conRel(p)∪conRel(word)|为p和word相关场并集的个数。

6.如权利要求1所述的基于通用知识网络的词语语义倾向性预测方法，其特征在于：

所述未知词语与所述褒义词集间的紧密程度和所述未知词语与贬义词集间的紧密程度的差值用senti(word)表示，通过如下公式进行计算：

senti (word) = \underset{p &Element; P_{set}}{Σ} com (p, word) - \underset{n &Element; N_{set}}{Σ} com (n, word)

其中，word表示未知词语，p表示褒义基准词，Pset表示褒义词集，p∈Pset，

com(p,word)表示未知词语word与所述褒义词集Pset中某个词p之间的紧密程度，表示未知词语word与所述褒义词集Pset的所有词之间紧密程度之和，n表示贬义基准词，Nset表示褒义词集，n∈Nset，com(n,word)表示未知词语word与所述褒义词集Nset中某个词n之间的紧密程度，表示未知词语word与所述贬义词集Nset的所有词之间紧密程度之和。

7.如权利要求1所述的基于通用知识网络的词语语义倾向性预测方法，其特征在于：

所述选取适当的阈值空间，判断出未知词语极性的步骤通过如下算法判断词语极性：

Polarity (word) = \{\begin{matrix} 1, & Senti (word) > b \\ 0, & a \leq Senti (word) \leq b \\ - 1, & Senti (word) < a \end{matrix}\}

其中，word表示未知词语，senti(word)表示未知词语word与所述褒义词集间的紧密程度和未知词语word与贬义词集间的紧密程度的差值；