CN103838712B

CN103838712B - 一种针对词语级别的汉语情感词极性强度量化方法

Info

Publication number: CN103838712B
Application number: CN201310576097.6A
Authority: CN
Inventors: 史树敏; 李瑞静; 黄河燕
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2013-11-18
Filing date: 2013-11-18
Publication date: 2017-01-04
Anticipated expiration: 2033-11-18
Also published as: CN103838712A

Abstract

本发明公开了一种针对词语级别的汉语情感词极性强度量化方法，属于计算机自然语言处理领域。首先获取情感词典中每个字的情感倾向值，然后根据字的情感倾向值获取所测基础情感词的极性强度度量值，最后根据基础情感词的极性强度度量值获取复合情感词的极性强度度量值。本发明对比现有技术，通过采用高斯分布函数修正统计得出的字的情感倾向值误差，大幅提高了基础情感词极性强度度量的准确率。在此基础上对复合情感词详细分类，分别设计经Sigmoid函数倒推得出的计算公式，大幅提高了复合情感词的极性强度度量准确率。另外引入Sim(A,B)函数，利用HowNet对副词自动分类，减轻了手工标注的工作量，提高了工作效率。

Description

一种针对词语级别的汉语情感词极性强度量化方法

技术领域

本发明属于计算机自然语言处理领域，涉及应用于汉语文本情感分析中的一种针对词语级别的汉语情感词极性强度量化方法。

背景技术

随着互联网技术的不断进步，特别是Web2.0技术的逐渐普及，网络表现出了强大的数据处理能力，网络社会也变得纷繁复杂。在百度贴吧、天涯论坛等各大网站上都可以看到大量网民对新闻、产品、服务等的各种评论信息和意见，在此背景下兴起了基于网络文本的情感倾向性分析研究，对信息检索、电子商务、网络舆情预警等领域有着重要意义。

目前，对文本情感分析的研究对象主要分为词语级别、句子级别、篇章级别三种，而基于词语级别的文本情感分析主要依赖于模糊情感词的极性强度度量值。已有的情感词极性强度量化方法主要有Ku等人在AAAI’2006人工智能顶级国际会议上发表论文阐述的利用汉字的情感统计来计算词的情感极性强度度量值。

上述情感词极性强度量化方法主要包括基础情感词的极性强度量化和复合情感词的极性强度量化两个环节，主要包括以下几个步骤：首先计算情感词典中每个字的情感倾向值；然后计算每个基础情感词的极性强度度量值；之后计算每个复合情感词的极性强度度量值。

现有的情感词极性强度量化方法主要存在以下几个方面的不足：一是在进行文本情感分析时，主要依赖于情感词典规模，这样仅仅基于统计得到每个字的情感倾向值，准确率较低；二是针对复合情感词的极性强度量化方法设计简单，虽易于实现，但准确率较低，影响了文本情感分析效果。

发明内容

本发明的目的是为了克服现有技术存在的缺陷，为有效解决当前在汉语文本情感分析过程中，针对词语级别的汉语情感词进行极性强度量化时准确率低的问题，提出一种有效的极性强度量化方法。

本发明方法所采用的技术方案如下：

一种针对词语级别的汉语情感词极性强度量化方法，包括以下步骤：

步骤一、获取情感词典中每个字的情感倾向值。首先，统计每个字在情感词典中作为褒义词、贬义词的权重。

然后，根据每个字的褒义词、贬义词的权重，获得情感词典中每个字的情感倾向值，具体过程如下：

定义一个Random(η_s(μ,δ))函数，其中，η_s(μ,δ)是高斯密度函数，Random(η_s(μ,δ))表示在此高斯分布函数上随机选取一个值。鉴于字的情感倾向值度量满足高斯分布，每个字的情感倾向值计算公式如下：

S_{ci} = Random (η_{s} ((P_{ci} - N_{ci}), δ)) = Random (\frac{1}{\sqrt{2 π} δ} e^{- \frac{{(x - (P_{ci} - N_{ci}))}^{2}}{{2 δ}^{2}}}) - - - (1)

其中，S_ci为每个字的情感倾向值；若S_ci值为正数，ci为褒义字，若S_ci值为负数，则ci为贬义字；S_ci值越接近0，ci越趋近于中性字。η_s((P_ci-N_ci),δ)是一个高斯密度函数，(P_ci-N_ci)和δ是对应的均值和误差。Random(η_s((P_ci-N_ci),δ))是之前定义的随机函数，表示在此高斯分布函数上随机选取一个值作为字ci的情感倾向值。

步骤二、根据步骤一得到的字的情感倾向值，获取所测基础情感词的极性强度度量值。

步骤三、根据步骤二得到的所测基础情感词的极性强度度量值，获取复合情感词的极性强度度量值。

首先，定义词语A和词语B的语义相似度Sim(A,B)，利用HowNet计算出两个词语A和B之间的语义相似度。

当复合情感词为程度副词∪基础情感词时（如w=非常漂亮），先用Sim(A,B)函数计算出程度副词（“非常”）的情感极性强度度量值S_x2，再计算出基础情感词（“漂亮”）的情感极性强度度量值计算公式为：

S_{w} = \frac{1 - {(\frac{1 - S_{x_{1}}}{1 + S_{x_{1}}})}^{S_{x 2} + Δμ}}{1 + {(\frac{1 - S_{x_{1}}}{1 + S_{x_{1}}})}^{S_{x 2} + Δμ}} - - - (2)

其中，Δμ为位移指数，取0.5，下同。

当复合情感词为频度副词∪基础情感词时（如w=偶尔马虎），经过Sim(A,B)函数先计算出频度副词（“偶尔”）的情感极性强度度量值S_x2，再计算出基础情感词（“马虎”）的情感极性强度度量值也采用公式（3）计算得到。

当复合情感词为基础情感词∪基础情感词时（如w=简单大方），先计算出前一个基础情感词（“简单”）的情感极性强度度量值再计算出后一个基础情感词（“大方”）的情感极性强度度量值S_x2，计算公式为：

S_{w} = \frac{(1 + S_{x_{1}}) (1 + S_{x_{2}}) - (1 - S_{x_{1}}) (1 - S_{x_{2}})}{(1 + S_{x_{1}}) (1 + S_{x_{2}}) + (1 - S_{x_{1}}) (1 - S_{x_{2}})} - - - (3)

当复合情感词为重叠情感词时（如w=“快快乐乐”），则对重叠情感词进行抽取到基础情感词（“快乐”），其极性强度度量值为计算公式为：

S_{w} = \frac{1 - {(\frac{1 - S_{x_{1}}}{1 + S_{x_{1}}})}^{2}}{1 + {(\frac{1 - S_{x_{1}}}{1 + S_{x_{1}}})}^{2}} - - - (4)

当复合情感词为否定词∪基础情感词时（如w=不完善），先计算出基础情感词（“完善”）的情感极性强度度量值计算公式为：

S_{w} = - S_{x_{1}} - - - (5)

当复合情感词为否定词∪程度/频度副词∪基础情感词时（如w=不太认真），先计算出程度/频度副词（此处为“太”）和基础情感词（“认真”）的情感极性强度度量值，分别为S_x2、再采用如下计算公式：

S_{w} = \frac{1 - {(\frac{1 - S_{x_{1}}}{1 + S_{x_{1}}})}^{(1 - S_{x_{2}}) + Δμ}}{1 + {(\frac{1 - S_{x_{1}}}{1 + S_{x_{1}}})}^{(1 - S_{x_{2}}) + Δμ}} - - - (6)

当复合情感词为程度/频度副词∪否定词∪基础情感词时（如w=太不认真），先计算出程度/频度副词（此处为“太”）和基础情感词（“认真”）的情感极性强度度量值，分别为S_x2、再采用如下计算公式：

S_{w} = - \frac{1 - {(\frac{1 - S_{x_{1}}}{1 + S_{x_{1}}})}^{S_{x 2} + Δμ}}{1 + {(\frac{1 - S_{x_{1}}}{1 + S_{x_{1}}})}^{S_{x 2} + Δμ}} - - - (7)

至此，就完成对词语级别的汉语情感词极性强度量化。

有益效果

本发明对比现有技术，通过采用高斯分布函数修正统计得出的字的情感倾向值误差，大幅提高了基础情感词极性强度度量的准确率。在此基础上对复合情感词详细分类，分别设计经Sigmoid函数倒推得出的计算公式，大幅提高了复合情感词的极性强度度量准确率。另外，引入Sim(A,B)函数，利用HowNet对副词自动分类，减轻了手工标注的工作量，提高了工作效率。

具体实施方式

下面结合实施例对本发明的具体实施方式做进一步详细说明。

步骤一、获取情感词典中每个字的情感倾向值。

首先，统计每个字在情感词典中作为褒义词、贬义词的权重。可采用如下公式：

P_{ci} = \frac{{fp}_{ci} / Σ_{j = 1}^{n} {fp}_{cj}}{{fp}_{ci} / Σ_{j = 1}^{n} {fp}_{cj} + {fn}_{ci} / Σ_{j = 1}^{m} {fn}_{cj}} - - - (8)

P_{ci} = \frac{{fp}_{ci} / Σ_{j = 1}^{m} {fp}_{cj}}{{fp}_{ci} / Σ_{j = 1}^{n} {fp}_{cj} + {fn}_{ci} / Σ_{j = 1}^{m} {fn}_{cj}} - - - (9)

其中，P_ci为字ci作为褒义词的权重，N_ci为字ci作为贬义词的权重；fp_ci为字ci出现在褒义词表中的频率，fn_ci为字ci出现在贬义词表中的频率；n为褒义词表中出现的所有字的个数，m为贬义词表中出现的所有字的个数；另外，为了平衡情感词典中褒义词与贬义词之间的个数差异，上述两个公式还对每个字在褒贬词表中出现的频率进行了归一化处理。

然后，根据每个字的褒义词、贬义词的权重，获得情感词典中每个字的情感倾向值。具体过程如下：

S_{ci} = Random (η_{s} ((P_{ci} - N_{ci}), δ)) = Random (\frac{1}{\sqrt{2 π} δ} e^{- \frac{{(x - (P_{ci} - N_{ci}))}^{2}}{{2 δ}^{2}}}) - - - (10)

为计算每个基础情感词的极性强度度量值，采用词中字平均值方法，公式如下：

S_{w} = \frac{Σ_{j = 1}^{p} S_{cj}}{p} - - - (11)

其中，S_w为所测词w的情感极性强度度量值。p为词w中字的个数。S_c1、S_c2、···、S_cp为词w中每个字经步骤一得出的情感倾向值。

S_{w} = \frac{1 - {(\frac{1 - S_{x_{1}}}{1 + S_{x_{1}}})}^{S_{x 2} + Δμ}}{1 + {(\frac{1 - S_{x_{1}}}{1 + S_{x_{1}}})}^{S_{x 2} + Δμ}} - - - (12)

其中，Δμ为位移指数，取0.5，下同。

当复合情感词为频度副词∪基础情感词时（如w=偶尔马虎），经过Sim(A,B)函数先计算出频度副词（“偶尔”）的情感极性强度度量值S_x2，再计算出基础情感词（“马虎”）的情感极性强度度量值也采用公式（12）计算得到。

S_{w} = \frac{(1 + S_{x_{1}}) (1 + S_{x_{2}}) - (1 - S_{x_{1}}) (1 - S_{x_{2}})}{(1 + S_{x_{1}}) (1 + S_{x_{2}}) + (1 - S_{x_{1}}) (1 - S_{x_{2}})} - - - (13)

S_{w} = \frac{1 - {(\frac{1 - S_{x_{1}}}{1 + S_{x_{1}}})}^{2}}{1 + {(\frac{1 - S_{x_{1}}}{1 + S_{x_{1}}})}^{2}} - - - (14)

S_{w} = \frac{1 - {(\frac{1 - S_{x_{1}}}{1 + S_{x_{1}}})}^{(1 - S_{x_{2}}) + Δμ}}{1 + {(\frac{1 - S_{x_{1}}}{1 + S_{x_{1}}})}^{(1 - S_{x_{2}}) + Δμ}} - - - (16)

S_{w} = - \frac{1 - {(\frac{1 - S_{x_{1}}}{1 + S_{x_{1}}})}^{S_{x 2} + Δμ}}{1 + {(\frac{1 - S_{x_{1}}}{1 + S_{x_{1}}})}^{S_{x 2} + Δμ}} - - - (17)

至此，就完成对词语级别的汉语情感词极性强度量化。

实施例

假定要计算情感词“漂亮”的极性强度度量值。首先统计每个字在情感词典中作为褒义词和贬义词的权重，经过计算，P_漂=0.760，N_漂=0.412。

因现有方法在计算每个字的情感倾向值时完全利用统计值P_ci、N_ci计算，没有考虑到误差修正。鉴于字的情感倾向值度量满足高斯分布，经过计算，得出S _漂，S_亮的值，程序按照公式随机取值，其值不可见。

为计算每个基础情感词的极性强度度量值，采用词中字平均值方法，经过计算，S_漂亮=0.675。

基础情感词“漂亮”的极性强度度量值计算完毕，然后计算复合情感词“相当漂亮”、“偶尔马虎”的极性强度度量值。

复合情感词“相当漂亮”属于程度副词∪基础情感词形式，这里基准程度副词为（稍微，比较，恰好，很，非常），值为（0.1,0.3,0.5,0.7,0.9）。经过Sim(A,B)函数，先计算出“相当”与基准词“非常”语义相似度最大，故“相当”的情感极性强度度量值与“非常”相同，S_x2=0.9，上述步骤已计算出“漂亮”的情感极性强度度量值因此“相当漂亮”的极性强度度量值为0.813。

复合情感词“偶尔马虎”属于频度副词∪基础情感词形式，这里基准频度副词为（几乎从不，偶尔，有时，经常，总是），值为（0.1,0.3,0.5,0.7,0.9）。经过Sim(A,B)函数，先计算出“偶尔”与基准词“偶尔”语义相似度最大，故“偶尔”的情感极性强度度量值S_x2=0.3，仿照“漂亮”的情感极性强度度量计算步骤，得出“马虎”的情感极性强度度量值计算得出“偶尔马虎”的极性强度度量值为-0.177。

复合情感词“简单大方”属于基础情感词∪基础情感词形式，先计算出“简单”的情感极性强度度量值，再计算出“大方”的情感极性强度度量值S_x2=0.427，代入公式（6）计算得出“简单大方”的极性强度度量值为0.557。

复合情感词“快快乐乐”属于重叠情感词形式，先抽取出基础情感词“快乐”，计算其极性强度度量值计算得出“快快乐乐”的极性强度度量值为0.960。

复合情感词“不完善”属于否定词∪基础情感词形式，先计算出基础词“完善”的情感极性强度度量值计算得出“不完善”的极性强度度量值为-0.606。

复合情感词“不太认真”属于否定词∪程度/频度副词∪基础情感词形式，先计算出“太”和“认真”的情感极性强度度量值，分别为S_x2=0.9，S_x1=0.353，计算得出“不太认真”的极性强度度量值为0.218。

复合情感词“太不认真”属于程度/频度副词∪否定词∪基础情感词形式，先计算出“太”和“认真”的情感极性强度度量值，分别为S_x2=0.9，S_x1=0.353，计算得出“太不认真”的极性强度度量值为-0.475。

Claims

1.一种针对词语级别的汉语情感词极性强度量化方法，其特征在于，包括以下步骤：

步骤一、获取情感词典中每个字的情感倾向值；

首先，统计每个字在情感词典中作为褒义词、贬义词的权重；

定义一个Random(η_s(μ,δ))函数，其中η_s(μ,δ)是高斯密度函数，Random(η_s(μ,δ))表示在此高斯分布函数上随机选取一个值；鉴于字的情感倾向值度量满足高斯分布，每个字的情感倾向值计算公式如下：

S_{c i} = R a n d o m (η_{s} ((P_{c i} - N_{c i}), δ)) = R a n d o m (\frac{1}{\sqrt{2 π} δ} e^{- \frac{{(x - P_{c i} - N_{c i})}^{2}}{2 δ^{2}}}) - - - (1)

其中，S_ci为每个字的情感倾向值；若S_ci值为正数，ci为褒义字，若S_ci值为负数，则ci为贬义字；S_ci值越接近0，ci越趋近于中性字；η_s((P_ci-N_ci),δ)是一个高斯密度函数，(P_ci-N_ci)和δ是对应的均值和误差；Random(η_s((P_ci-N_ci),δ))是之前定义的随机函数，表示在此高斯分布函数上随机选取一个值作为字ci的情感倾向值；

步骤二、根据步骤一得到的字的情感倾向值，获取所测基础情感词的极性强度度量值；

步骤三、根据步骤二得到的所测基础情感词的极性强度度量值，获取复合情感词的极性强度度量值；

首先，定义词语A和词语B的语义相似度Sim(A,B)，利用HowNet计算出两个词语A和B之间的语义相似度；

当复合情感词为程度副词∪基础情感词时，先用Sim(A,B)函数计算出程度副词的情感极性强度度量值再计算出基础情感词的情感极性强度度量值复合情感词的极性强度度量值的计算公式为：

S_{w} = \frac{1 - {(\frac{1 - S_{x_{1}}}{1 + S_{x_{1}}})}^{S_{x_{2}} + Δ μ}}{1 + {(\frac{1 - S_{x_{1}}}{1 + S_{x_{1}}})}^{S_{x_{2}} + Δ μ}} - - - (2)

其中，Δμ为位移指数，取0.5，下同；

当复合情感词为频度副词∪基础情感词时，经过Sim(A,B)函数先计算出频度副词的情感极性强度度量值再计算出基础情感词的情感极性强度度量值复合情感词的极性强度度量值采用以下公式计算得到：

S_{w} = \frac{1 - {(\frac{1 - S_{x_{1}}}{1 + S_{x_{1}}})}^{S_{x_{3}} + Δ μ}}{1 + {(\frac{1 - S_{x_{1}}}{1 + S_{x_{1}}})}^{S_{x_{3}} + Δ μ}}

当复合情感词为基础情感词∪基础情感词时，先计算出前一个基础情感词的情感极性强度度量值再计算出后一个基础情感词的情感极性强度度量值复合情感词的极性强度度量值的计算公式为：

S_{w} = \frac{(1 + S_{x_{1}}) (1 + S_{x_{4}}) - (1 - S_{x_{1}}) (1 - S_{x_{4}})}{(1 + S_{x_{1}}) (1 + S_{x_{4}}) + (1 - S_{x_{1}}) (1 - S_{x_{4}})} - - - (3)

当复合情感词为重叠情感词时，则对重叠情感词进行抽取到基础情感词，

其极性强度度量值为复合情感词的极性强度度量值的计算公式为：

S_{w} = \frac{1 - {(\frac{1 - S_{x_{1}}}{1 + S_{x_{1}}})}^{2}}{1 + {(\frac{1 - S_{x_{1}}}{1 + S_{x_{1}}})}^{2}} - - - (4)

当复合情感词为否定词∪基础情感词时，先计算出基础情感词的情感极性强度度量值复合情感词的极性强度度量值的计算公式为：

S_w＝-S_x1 (5)

当复合情感词为否定词∪程度/频度副词∪基础情感词时，先计算出程度副词、频度副词和基础情感词的情感极性强度度量值，分别为S_x2、S_x3、再采用如下计算公式计算复合情感词的极性强度度量值：

S_{w} = \frac{1 - {(\frac{1 - S_{x_{1}}}{1 + S_{x_{1}}})}^{(1 - S_{x_{2}}) + Δ μ}}{1 + {(\frac{1 - S_{x_{1}}}{1 + S_{x_{1}}})}^{(1 - S_{x_{2}}) + Δ μ}};

S_{w} = \frac{1 - {(\frac{1 - S_{x_{1}}}{1 + S_{x_{1}}})}^{(1 - S_{x_{3}}) + Δ μ}}{1 + {(\frac{1 - S_{x_{1}}}{1 + S_{x_{1}}})}^{(1 - S_{x_{3}}) + Δ μ}} - - - (6)

当复合情感词为程度/频度副词∪否定词∪基础情感词时，先计算出程度副词、频度副词和基础情感词的情感极性强度度量值，分别为再分别采用如下计算公式计算复合情感词的极性强度度量值：

S_{w} = \frac{1 - {(\frac{1 - S_{x_{1}}}{1 + S_{x_{1}}})}^{S_{x_{2}} + Δ μ}}{1 + {(\frac{1 - S_{x_{1}}}{1 + S_{x_{1}}})}^{S_{x_{2}} + Δ μ}};

S_{w} = - \frac{1 - {(\frac{1 - S_{x_{1}}}{1 + S_{x_{1}}})}^{S_{x_{3}} + Δ μ}}{1 + {(\frac{1 - S_{x_{1}}}{1 + S_{x_{1}}})}^{S_{3} + Δ μ}} - - - (7)

至此，就完成对词语级别的汉语情感词极性强度量化。