CN104090864A

CN104090864A - 一种情感词典建立与情感计算方法

Info

Publication number: CN104090864A
Application number: CN201410254058.9A
Authority: CN
Inventors: 全昌勤; 任福继; 刘宁
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2014-06-09
Filing date: 2014-06-09
Publication date: 2014-10-08
Anticipated expiration: 2034-06-09
Also published as: CN104090864B

Abstract

本发明公开了一种情感词典建立与情感计算方法，采用高质量的人工标记中文语料库Ren-CECps作为初始种子情感词，结合同义词词林及互联网中文文本语料（未标记）进行情感同义词扩充，并在情感计算方法上使用核函数方法，解决了情感计算过程中的训练时间久、准确率低的问题。

Description

一种情感词典建立与情感计算方法

技术领域

本发明涉及情感计算及文本情感分析方法领域，具体是一种情感词典建立与情感计算方法。

背景技术

在文本情感计算领域，常常使用情感词作为文本特征词，情感词数量及质量的好坏严重影响文本情感特征的表示质量好坏。一般的文本情感特征词多采用文本段的形容词、副词及少量名词作为特征词；常规情感计算方法多采用SVM(Support Vector Machine)、朴素贝叶斯方法。

传统的情感词典受限情感词的数量、无情感类别标记及无情感强度值标注，在数量及质量上均大大影响了文本情感特征的表示；分类算法也面临着训练时间久、准确率低的困扰。

发明内容

本发明的目的是提供一种情感词典建立与情感计算方法，以解决现有技术存在的问题。

为了达到上述目的，本发明所采用的技术方案为：

一种情感词典建立与情感计算方法，其特征在于：包括以下步骤：

(1)、获取情感词信息：

解析中文情感语料库Ren-CECps，从中文情感语料库Ren-CECps中提取情感词信息；

所述中文情感语料库Ren-CECps由带有人工情感特征标注的段落和文本组成，所有文本均进行了词性标注，并以XML格式保存；

所述情感词信息包括：情感词汇本体，记为n>0；情感词所属情感类别，记为情感词所属情感类别共有八种类别，1≤j≤8；对应情感类别下的情感强度值，记为E_intensity，0.0≤E_intensity≤1.0；

所述情感类别共八种，包括：高兴joy，记为憎恨hate，记为喜爱love，记为悲伤sorrow，记为焦虑anxiety，记为生气anger，记为惊讶surprise，记为期望expect，记为

解析中文情感语料库Ren-CECps后得到的情感词信息格式如公式(1)所示：

E_{{word}_{n}}, E_{{class}_{j}} | E_{intensity} - - - (1)

将解析后得到的情感词信息按照公式(1)的情感词信息格式以UTF-8格式逐条保存在本地的TXT文本里，此文本即为初始情感词典，记为L_initial；

(2)、情感词去重及情感类别、情感强度值归一化：

由于初始情感词典中的情感词在中文情感语料库Ren-CECps中拥有不同的情感类别或情感强度值，因此需要归一化情感词信息，对某一个情感词的归一化规则如下：

(a)、对于标注为不同的情感类别的情感词，所有标注的情感类别均作为该情感词的情感类别；

(b)、对于相同情感类别下标注的情感强度不同的情况，采用公式(2)进行情感强度值归一化；

\overset{&OverBar;}{E_{intensity}} = \frac{Σ_{i = 1}^{m} N_{i} {(E_{intensity})}_{i}}{N} - - - (2)

其中，表示情感词的最终情感强度值；N表示情感词在情感类别下出现的总次数；(E_intensity)_i表示人工标注的情感强度值；N_i表示在该情感强度值下词出现的总次数；

(3)、根据同义词词林扩充初始情感词典L_initial；所述同义词词林为哈工大信息检索研究中心推出的开放语料，同义词词林词典的“类别-词”编码格式为：类别编码＝词1、词2、词x……；过程如下：

(3.1)、依次遍历同义词词林中各行情感词汇本体词x，存储为HashMap_1<类别，词x>；遍历初始情感词典L_initial，存储为HashMap_2<类别，>；

(3.2)、使用HashMap_2中的情感词汇本体依次匹配HashMap_1中的情感词汇本体词x，若＝词x，则与词x同一类别编码的词的情感信息均为情感词汇本体所对应的情感词信息，此时，将HashMap_2中当前匹配的词与添加上情感信息的词x及其同一类别词逐行存储到本地文本中，记为L_advance；随后使用HashMap_2中下一个词进行上述过程，直到HashMap_2中的最后一个词；

(3.3)、对步骤(3.1)中的情感词词典L_advance去重，对于同一情感词不同情感类别的情况，取所有情感类别的交集，此过程后的情感词典记为L_advance′；

(4)、使用互联网中文文本语料扩充情感词典L_advance′，过程如下：

(4.1)、采用共现频率方法扩充情感词，共现频率方法计算工具使用word2vec；

(4.2)、依次取情感词典L_advance′中的情感词计算共现词，计算的候选词中取前3个为扩充情感词；

(4.3)、选定的3个作为扩展情感词的候选词的情感信息与当前进行共现频率计算的词保持一致时，依次进行下一个情感词共现候选词计算，直至最后一个情感词为止；

(4.4)、采用步骤(3)中(3.3)中的方法，对扩展情感词的候选词进行去重、归一化处理，得到的情感词典即为最终的可用情感词典，记为L_ultimate；

(5)、建立文本及词典情感矩阵，过程如下：

(5.1)、解析中文情感语料库Ren-CECps，按照文档情感类别建立Term-Document矩阵，简称T-D矩阵；所述T-D矩阵其列表示情感词典L_ultimate中各情感词，其行表示当前情感类别下的某个文档，T-D矩阵中的元素表示情感词典中的情感词在对应的文档中的tf·idf值；情感类高兴joy的T-D矩阵记为D_joy，情感类憎恨hate的T-D矩阵记为D_hate，情感类喜爱love的T-D矩阵记为D_love，情感类悲伤sorrow的T-D矩阵记为D_sorrow，情感类焦虑anxiety的T-D矩阵记为D_anxiety，情感类生气anger的T-D矩阵记为D_anger，情感类惊讶surprise的T-D矩阵记为D_surprise，情感类期望expect的T-D矩阵记为D_expect；以上八个情感类T-D矩阵统一记为D；

(5.2)、解析步骤(4)中建立的情感词典L_ultimate，建立词典情感矩阵；其中词典情感矩阵的行为八维，依次表示八种情感——高兴、憎恨、喜爱、悲伤、焦虑、生气、惊讶、期望；矩阵的列表示情感词典L_ultimate中的各情感词；矩阵中的元素表示情感词对应的情感类别下的情感强度值，其中0表示无该对应类别情感；建立好的词典情感矩阵记为P；

(6)、情感类别计算，过程如下：

(6.1)、将未知情感文本按照步骤(5)中(5.1)建立对应的T-D矩阵，记为d，其为一维列向量；

(6.2)、根据公式(3)、(4)计算未知情感文本的情感与已知八种情感文档集的相似性：

K < D, d > = {(D^{'} P)}^{'} (d^{'} P) = Σ_{j = 1}^{m} {(d_{j} P)}^{'} (dP) - - - (3)

sim(D,d)＝(K<D,d>+c)ⁿ (4)

其中，K<D,d>表示核函数，m表示情感矩阵D中文档的个数，d_j表示第j个文档；sim(D,d)表示未知情感文本的情感与相对应的高兴、憎恨、喜爱、悲伤、焦虑、生气、惊讶、期望八种情感文档集的相似性，c取2，n为0.25；

(6.3)、将步骤(6.2)得到的sim(D,d)按值从大到小排列，以数组的形式保存，如公式(5)：

{sim1,sim2,L,sim8} (5)

式(5)中sim1至sim8所对应的情感类别记为e₁，e₂，……，e₈；

未知文本的情感类别由公式(6)得出：

Emotion (sentence) = \{\begin{matrix} e_{1}, & ifsim 1 - sim 2 > α \\ ifsim 1 - sim 2 \leq α \\ {e_{1}, e_{2}}, \\ andsim 2 - sim 3 > β \\ ifsim 1 - sim 2 \leq α \\ {e_{1}, e_{2}, e_{3}}, & andsim 2 - sim 3 \leq β \\ andsim 3 - sim 4 > γ \\ ifsim 1 - sim 2 \leq α \\ {null}, & andsim 2 - sim 3 \leq β \\ andsim 3 - sim 4 \leq γ \end{matrix} - - - (6)

其中，Emotion(sentence)表示未知文本的情感类别，其表示单情感、多情感或无情感；α取0.05，β取0.03，γ取0.01。

本发明采用高质量的人工标记中文语料库Ren-CECps作为初始种子情感词，这些情感词由于是人工判读并标记的带有情感的词，其本身就拥有很大的数量，加之严格和科学的标注程序，保证了情感词的质量。同时，本发明结合同义词词林及互联网中文文本语料(未标记)进行情感同义词扩充，使得情感词的数量进一步增加，很好的解决了常规情感词典面临的情感词数量与质量的瓶颈。情感计算方法上，本发明使用核函数方法，解决了情感计算过程中的训练时间久、准确率低的问题。

具体实施方式

一种情感词典建立与情感计算方法，包括以下步骤：

(1)、获取情感词信息：

中文情感语料库Ren-CECps由带有人工情感特征标注的段落和文本组成，所有文本均进行了词性标注，并以XML格式保存；

情感词信息包括：情感词汇本体，记为n>0；情感词所属情感类别，记为情感词所属情感类别共有八种类别，1≤j≤8；对应情感类别下的情感强度值，记为E_intensity，0.0≤E_intensity≤1.0；

情感类别共八种，包括：高兴joy，记为憎恨hate，记为喜爱love，记为悲伤sorrow，记为焦虑anxiety，记为生气anger，记为惊讶surprise，记为期望expect，记为

E_{{word}_{n}}, E_{{class}_{j}} | E_{intensity} - - - (1)

(2)、情感词去重及情感类别、情感强度值归一化：

\overset{&OverBar;}{E_{intensity}} = \frac{Σ_{i = 1}^{m} N_{i} {(E_{intensity})}_{i}}{N} - - - (2)

(3)、根据同义词词林扩充初始情感词典L_initial；同义词词林为哈工大信息检索研究中心推出的开放语料，同义词词林词典的“类别-词”编码格式为：类别编码＝词1、词2、词x……；过程如下：

(5)、建立文本及词典情感矩阵，过程如下：

(6)、情感类别计算，过程如下：

K < D, d > = {(D^{'} P)}^{'} (d^{'} P) = Σ_{j = 1}^{m} {(d_{j} P)}^{'} (dP) - - - (3)

sim(D,d)＝(K<D,d>+c)ⁿ (4)

{sim1,sim2,L,sim8} (5)

未知文本的情感类别由公式(6)得出：

Emotion (sentence) = \{\begin{matrix} e_{1}, & ifsim 1 - sim 2 > α \\ ifsim 1 - sim 2 \leq α \\ {e_{1}, e_{2}}, \\ andsim 2 - sim 3 > β \\ ifsim 1 - sim 2 \leq α \\ {e_{1}, e_{2}, e_{3}}, & andsim 2 - sim 3 \leq β \\ andsim 3 - sim 4 > γ \\ ifsim 1 - sim 2 \leq α \\ {null}, & andsim 2 - sim 3 \leq β \\ andsim 3 - sim 4 \leq γ \end{matrix} - - - (6)

Claims

1.一种情感词典建立与情感计算方法，其特征在于：包括以下步骤：

(1)、获取情感词信息：

E_{{word}_{n}}, E_{{class}_{j}} | E_{intensity} - - - (1)

(2)、情感词去重及情感类别、情感强度值归一化：

\overset{&OverBar;}{E_{intensity}} = \frac{Σ_{i = 1}^{m} N_{i} {(E_{intensity})}_{i}}{N} - - - (2)

(5)、建立文本及词典情感矩阵，过程如下：

(6)、情感类别计算，过程如下：

K < D, d > = {(D^{'} P)}^{'} (d^{'} P) = Σ_{j = 1}^{m} {(d_{j} P)}^{'} (dP) - - - (3)

sim(D,d)＝(K<D,d>+c)ⁿ (4)

{sim1,sim2,L,sim8} (5)

未知文本的情感类别由公式(6)得出：

Emotion (sentence) = \{\begin{matrix} e_{1}, & ifsim 1 - sim 2 > α \\ ifsim 1 - sim 2 \leq α \\ {e_{1}, e_{2}}, \\ andsim 2 - sim 3 > β \\ ifsim 1 - sim 2 \leq α \\ {e_{1}, e_{2}, e_{3}}, & andsim 2 - sim 3 \leq β \\ andsim 3 - sim 4 > γ \\ ifsim 1 - sim 2 \leq α \\ {null}, & andsim 2 - sim 3 \leq β \\ andsim 3 - sim 4 \leq γ \end{matrix} - - - (6)