CN109190106B

CN109190106B - 情感词典构建系统及构建方法

Info

Publication number: CN109190106B
Application number: CN201810777409.2A
Authority: CN
Inventors: 殷复莲; 王颜颜; 刘剑波; 贺夏婷; 苏沛; 吴佳乐; 邵雪莹
Original assignee: Communication University of China
Current assignee: Communication University of China
Priority date: 2018-07-16
Filing date: 2018-07-16
Publication date: 2023-01-10
Anticipated expiration: 2038-07-16
Also published as: CN109190106A

Abstract

本发明提供情感词典构建系统及方法，包括：设定情感词属于每一情感极性的情感强度条件，第一条件为情感强度与情感词及其词性在每一类文档中出现频次成正相关，第二条件为情感强度与情感词在每一类文档中出现频次成正相关，第三条件为情感强度与情感词在正类文档和负类文档中出现频次差的绝对值成正相关，第四条件为情感强度与情感词在正类文档和负类文档中出现频次和成负相关；上述条件结合TF‑IDF方法构建条件模型；根据条件模型构建情感词及其词性属于不同情感极性的情感强度模型；根据情感词及其词性属于正极性的情感强度与其属于负极性的情感强度的差值构建情感值模型。上述系统及方法将词性及类内分布因素结合，提高分类准确性。

Description

情感词典构建系统及构建方法

技术领域

本发明涉及自然语言处理技术领域，更为具体地，涉及一种情感词典构建系统及构建方法。

背景技术

如今随着计算机技术的发展，互联网普及到千家万户，每个人都可以在网络上发表意见观点，这些观点表达大众的好恶，为了能够挖掘观点中的情感偏好，文本情感分析必不可少。基于情感词典的方法是如今使用广泛的一种情感分析方法。很多领域用于情感分析的词典仍然是通过手动标注情感词汇，这不仅需要耗费大量人力，而且由于人的主观性影响，标注的情感可靠性以及词汇全面性都受到质疑，使得自动构建情感词典成为研究的关键技术，但是也存在诸如上下文词汇多义性、特定领域情感词典的缺乏、高质量训练语料难以获得等等。因此研究自动构建基于特定领域的情感词典方法是十分有必要的。

TF-IDF算法主要是一种用于资讯检索与资讯探勘的常用加权方法，TF-IDF的主要思想是如果某个词或短语在一篇文章中出现的频率高，并且在其他文章中很少出现，则认为此词或者短语对这篇文档很重要，可以作为文本特征。TF-IDF主要是通过词频(TermFrequency，TF)与逆向文件频率(Inverse Document Frequency,IDF)来衡量词汇的重要程度。TF-IDF中TF方法对任意单词word_i词频的计算如公式(1)所示：

其中，tf_i,j表示文档中第i个词word_i在第j篇文档d_j中出现的频率，n_i,j表示第i个词word_i在文档d_j中出现的次数，n_k,j表示文档d_j中任意序号为k的单词word_k出现的频次,K表示在文档d_j出现的单词的总数。

TF-IDF中IDF方法对词word_i逆向文件频率的计算如公式(2)所示：

其中，idf_i是文档中第i个词word_i普遍重要性的度量，|D|表示语料中的文档总数，|{j:word_i∈d_j}|表示语料中包含词word_i的文档总数，d_j表示语料中含有词word_i且文档序号j为文档。

词频TF以及逆文档频率IDF，共同决定词语的重要性，可以过滤掉常见的词语，保留重要的词语。但是并没有考虑到词语在类内的分布，也没有考虑不同词性词语的分布情况。

发明内容

鉴于上述问题，本发明的目的是提供一种将情感词的词性及其在正类文档和负类文档内的分布情况(类内分布因素)结合到情感值分析的情感词典构建方法及系统。

根据本发明的一个方面，提供一种情感词典构建系统，包括：

采集部，采集文档；

分词部，对文档进行分词，得到文档内的情感词；

文档分类部，将采集部采集的文档分为正类文档和负类文档；

设定部，设定确定情感词属于每一情感极性的情感强度的条件，所述情感极性包括正极性、负极性和中性，所述条件包括第一条件、第二条件、第三条件和第四条件中的一个或多个，所述第一条件为情感强度与情感词及其词性在每一类文档中出现频次成正相关，所述第二条件为情感强度与情感词在每一类文档中出现频次成正相关，所述第三条件为情感强度与情感词在正类文档和负类文档中出现频次差的绝对值成正相关，所述第四条件为情感强度与情感词在正类文档和负类文档中出现频次和成负相关；

条件模型构建部，根据设定部设定的条件结合TF或/和IDF方法构建条件模型，所述条件模型包括第一条件结合TF方法形成的第一TF模型、第二条件结合TF方法形成的第二TF模型、第三条件结合TF方法形成的第三TF模型和第四条件结合IDF方法形成的IDF模型中的一个或多个；

情感强度模型构建部，根据条件模型构建情感词及其词性属于不同情感极性的情感强度模型，所述情感强度模型为条件模型中的任一个模型或为条件模型中多个模型的组合；

情感值模型构建部，根据情感词及其词性属于正极性的情感强度与其属于负极性的情感强度的差值构建情感值模型，情感值为正值将情感词归属于正极性，情感值为负值将情感词归属于负极性，情感值为0将情感词归属于中性。

根据本发明的另一个方面，提供一种情感词典构建系统，包括：

第一调用部，调用语料中的文档、情感词及其词性，文档包括正类文档和负类文档；

根据本发明的第三个方面，提供一种情感词典构建系统，用于统一已有情感词典，包括：

第二调用部，调用已有的情感词典；

第一判断部，判断情感词典中的情感词是否具有情感值，如果具有情感值，将情感词典发送给第一先验情感值模型构建部，如果不具有情感值，将情感词典发送给第二先验情感值模型构建部；

第一先验情感值模型构建部，在每一本情感词典中，将每个情感词及其词性对应的多个情感值取平均值，作为所述情感词及其词性的先验情感值；

第二先验情感值模型构建部，在每一本情感词典中，设定与情感词及其词性的情感强度正相关的强度因子，通过强度因子确定先验情感值的绝对值的大小，通过情感词及其词性在情感词典中的情感极性确定先验情感值为正值或负值；

统一部，将各情感词及其词性在第一先验情感值模型构建部的各词典的先验情感值与对应的第二先验情感值模型构建部的各词典的先验情感值组合，得到各情感词及其词性的先验情感知识。

根据本发明的第四个方面，提供情感词典构建系统，包括：

基于文档的情感词典构建系统或/和基于语料的情感词典构建系统作为第一情感词典构建系统；

将统一已有情感词典的情感词典构建系统作为第二情感词典构建系统；

系统统一部，根据下式(11)统一上述第一情感词典构建系统和第二情感词典构建系统，

Uni_senti(SW_i,p_u)＝β×ITI_senti(SW_i,p_u)+(1-β)×Pri_senti(SW_i,p_u)(11)

其中，UniS(SW_i,p_u)表示统一第一情感词典构建系统和第二情感词典构建系统得到的统一情感值，β是两者的融合贡献比例，Pri_senti(SW_i,p_u)表示通过第二情感构建系统得到的(SW_i,p_u)的先验情感知识，ITI_senti(SW_i,p_u)表示通过第一情感词典构件系统得到的(SW_i,p_u)的情感值。

根据本发明的第五个方面，提供一种情感词典构建方法，包括：

采集文档；

对文档进行分词，得到文档内的情感词；

将采集的文档分为正类文档和负类文档；

设定确定情感词属于每一情感极性的情感强度的条件，所述情感极性包括正极性、负极性和中性，所述条件包括第一条件、第二条件、第三条件和第四条件中的一个或多个，所述第一条件为情感强度与情感词及其词性在每一类文档中出现频次成正相关，所述第二条件为情感强度与情感词在每一类文档中出现频次成正相关，所述第三条件为情感强度与情感词在正类文档和负类文档中出现频次差的绝对值成正相关，所述第四条件为情感强度与情感词在正类文档和负类文档中出现频次和成负相关；

根据上述条件结合TF或/和IDF方法构建条件模型，所述条件模型包括第一条件结合TF方法形成的第一TF模型、第二条件结合TF方法形成的第二TF模型、第三条件结合TF方法形成的第三TF模型和第四条件结合IDF方法形成的IDF模型中的一个或多个；

根据条件模型构建情感词及其词性属于不同情感极性的情感强度的情感强度模型，所述情感强度模型为条件模型中的任一个模型或为条件模型中多个模型的组合；

根据情感词及其词性属于正极性的情感强度与其属于负极性的情感强度的差值构建情感值模型，情感值为正值将情感词归属于正极性，情感值为负值将情感词归属于负极性，情感值为0将情感词归属于中性。

根据本发明的第六个方面，提供一种情感词典构建方法，包括：

调用语料中的文档、情感词及其词性，文档包括正类文档和负类文档；

根据本发明的第七个方面，提供一种情感词典构建方法，用于统一已有情感词典，包括：

调用已有的情感词典；

判断情感词典中的情感词是否具有情感值；

如果具有情感值，在每一本情感词典中，将每个情感词及其词性对应的多个情感值取平均值，作为所述情感词及其词性的先验情感值；

如果不具有情感值，在每一本情感词典中，设定与情感词及其词性的情感强度正相关的强度因子，通过强度因子确定先验情感值的绝对值的大小，通过情感词及其词性在情感词典中的情感极性确定先验情感值为正值或负值；

将各情感词及其词性在具有情感值的各词典的先验情感值与对应的不具有情感值的各词典的先验情感值组合，得到各情感词及其词性的先验情感知识。

根据本发明的第八个方面，提供一种情感词典构建方法，包括；

基于文档的情感词典构建方法或/和基于语料的情感词典构建方法作为第一情感词典构建方法；

将统一已有情感词典的情感词典构建方法作为第二情感词典构建方法；

根据公式(11)统一情感词及其词性通过上述第一情感词典构建方法得到的情感值和通过第二情感词典构建方法得到的先验知识。

本发明所述情感词典构建方法及系统根据改进TF方法、IDF方法和TF-IDF方法构建情感词典，将词性和情感词在正负类文档中不同的分布因素加入考虑，得到基于<词,词性>对的特定领域情感词典，用于情感分析，相比较现有技术的情感词典，F1-Measure(F1指数)值有明显提升；本发明还提出了基于语料的改进TF或IDF方法和统一已有情感词典的多词性的的情感词典构建方法及系统，将已有情感词典中的先验情感知识加入词汇的情感计算中，构建多词性的统一情感词典，使得F1值又有一定的提升。

附图说明

通过参考以下结合附图的说明及权利要求书的内容，并且随着对本发明的更全面理解，本发明的其它目的及结果将更加明白及易于理解。在附图中：

图1是本发明情感词典构建方法的一个实施例的流程示意图；

图2是本发明情感词典构建方法的另一个实施例的流程示意图；

图3是本发明情感词典构建方法的第三个实施例的流程示意图；

图4是本发明情感词典构建系统的一个实施例的构成框图的示意图；

图5是本发明情感词典构建系统的另一个实施例的构成框图的示意图；

图6是本发明情感词典构建系统的第三实施例的构成框图的示意图；

图7a是本发明贡献比例对通过短文本语料构建的情感词典系统的F1指数的影响曲线示意图；

图7b是本发明贡献比例对通过长文本语料构建的情感词典系统的F1指数的影响曲线示意图。

在所有附图中相同的标号指示相似或相应的特征或功能。

具体实施方式

在下面的描述中，出于说明的目的，为了提供对一个或多个实施例的全面理解，阐述了许多具体细节。然而，很明显，也可以在没有这些具体细节的情况下实现这些实施例。以下将结合附图对本发明的具体实施例进行详细描述。

以下将结合附图对本发明的具体实施例进行详细描述。

图1是本发明情感词典构建方法的一个实施例的流程示意图，如图1所示，所述情感词典构建方法包括，包括：

步骤S1，采集文档，例如通过网络爬虫从网络上、微博上、微信上等采集文档；

步骤S2，对文档进行分词，得到文档内的情感词；

步骤S3，将采集的文档分为正类文档和负类文档，例如采用基于词典的方法、基于机器学习方法等对文档进行分类；

步骤S4，设定确定情感词属于每一情感极性的情感强度的条件，所述情感极性包括正极性、负极性和中性，所述条件包括第一条件、第二条件、第三条件和第四条件中的一个或多个，所述第一条件为情感强度与情感词及其词性在每一类文档中出现频次成正相关，所述第二条件为情感强度与情感词在每一类文档中出现频次成正相关，所述第三条件为情感强度与情感词在正类文档和负类文档中出现频次差的绝对值成正相关，所述第四条件为情感强度与情感词在正类文档和负类文档中出现频次和成负相关；

步骤S5，根据上述条件结合TF或/和IDF方法构建条件模型，所述条件模型包括第一条件结合TF方法形成的第一TF模型、第二条件结合TF方法形成的第二TF模型、第三条件结合TF方法形成的第三TF模型和第四条件结合IDF方法形成的IDF模型中的一个或多个；

步骤S6，根据条件模型构建情感词及其词性属于不同情感极性的情感强度的情感强度模型，所述情感强度模型为条件模型中的任一个模型或为条件模型中多个模型的组合；

步骤S7，根据情感词及其词性属于正极性的情感强度与其属于负极性的情感强度的差值构建情感值模型，情感值为正值将情感词归属于正极性，情感值为负值将情感词归属于负极性，情感值为0将情感词归属于中性。

相比传统的TF-IDF算法，本发明提出的将词性与正负极性分布因素考虑其中的改进TF-IDF算法具有更好的类内特征区分性，还可以较好的解决词语多义性问题，使得构建情感词典在进行文本情感分类是效果更佳。

在广播电视领域，存在很多电影、电视等节目的评论数据构成的数据集，即语料，在语料中已经根据评分对文档进行了划分，例如，长文本影评数据、短文本标记语料等，可以在现有语料基础上构建情感词典，如图2所示，基于语料的情感词典构建方法相对于图1中的情感词典构建方法，采用步骤S1＇(调用语料中的文档、情感词及其词性，文档包括正类文档和负类文档)替代了上述步骤S1-S3。

在本发明的一个实施例中，步骤S5包括：

所述第一TF模型根据下式(3)构建

其中，SW_i表示第i个情感词，p_u表示SW_i对应的第u个词性，x_m表示对应的情感极性，包括正极性和负极性，d_m为情感极性对应的x_m文档类，当x_m表示正极性时，d_m表示正类文档，当x_m表示负极性时，d_m表示负类文档，F1(SW_i,p_u,x_m)表示情感词SW_i及其词性p_u属于情感极性x_m的第一TF模型，简称F1，count(SW_i,p_u,x_m)表示(SW_i,p_u)在x_m情感极性对应的文档类中出现的次数，∑_ucount(SW_i,p_u,x_m)表示在x_m情感极性对应的文档类中不同词性的情感词SW_i出现的总频次；

第二TF模型根据下式(4)构建

其中，F2(SW_i,p_u,x_m)表示情感词SW_i及其词性p_u属于情感极性x_m的第二TF模型，简称F2，count(d_m)表示d_m文档类的文档数量；

第三TF模型根据下式(5)构建

其中，F3(SW_i,p_u)表示情感词SW_i及其词性p_u的第三TF模型，简称F3，count(SW_i,p_u,d_pos)表示正类文档中(SW_i,p_u)出现的频次，count(SW_i,p_u,d_neg)表示负类文档中(SW_i,p_u)出现的频次∑_zcount(SW_i,p_u,d_z)表示正类文档和负类文档中(SW_i,p_u)的总频次；

IDF模型根据下式(6)构建

其中，F4(SW_i,p_u)表示情感词SW_i及其词性p_u的IDF模型，简称F4，∑_zcount(d_z)表示正类文档和负类文档的文档总数，ε是常数。

在本发明的另一个实施例中，设定第一TF模型、第二TF模型、第三TF模型和IDF模型中一个或多个模型中的比例系数，即，分别根据下式(3＇)-(6＇)构建上述各模型

其中，C₁、C₂、C₃和C₄分别为第一TF模型、第二TF模型、第三TF模型和IDF模型的比例系数。

在步骤S6中，通过条件模型构建情感强度模型ITI_senti(SW_n,p_u,x_m)，

其中，

或者，

或者

或者

其中，

为(SW_i,p_u)属于情感极性x_m的情感强度。

为了体现每个因素对于最终得到的情感结果都有影响，采用连乘的形式，将四个条件转换为函数形式相乘即可得到(SW_i,p_u,x_m)基于改进的TF-IDF算法的情感强度。

在步骤S7中，通过下式(7)得到每一个(SW_i,p_u)基于改进的TF-IDF算法的情感值，

ITI_senti(SW_i,p_u)＝ITI_senti(SW_i,p_u,x_pos)-ITI_senti(SW_i,p_u,x_neg)(7)

其中，ITI_senti(SW_i,p_u,x_pos)是针对(SW_i,p_u)计算的正极性情感值，ITI_senti(SW_i,p_u,x_neg)是针对(SW_i,p_u)计算的负极性情感值，ITI_senti(SW_i,p_u)是(SW_i,p_u)的情感值。

本发明上述情感词典构建方法在TF-IDF方法的基础上添加了情感词的词性及其在正类文档和负类文档内的分布情况(类内分布因素)，第一条件体现了自身词性的独特性，即某一特定词性p_u的情感词SW_i在某一类的文档中的多个词性中的分布情况，可以衡量某一特定词性的情感词在该词汇的多个词性中的重要程度，例如，“good”可以做名词也可以做形容词，甚至还可以是副词，比如在100篇正倾向性文档中，good共出现30次，其中作为形容词出现20次，名词8次，副词有2词，则作为形容词时的自身词性独特性为20/30；第二条件，加入词语的词性以及正负情感极性分布因素，体现了自身类别独特性，表示某一特定词性p_u的情感词SW_i在某一类的文档中分布情况，可以衡量该情感次在某一正负极性文档中的重要程度，如上例，“good”作为形容词时的自身类别独特性为20/100；第三条件在正负语料中出现次数相减的绝对值可以将一些在正负语料中都频繁出现的一些词汇去除，从而有利于选择出一些在单一正负预料中更加突出的词汇，体现了情感词及其词性的整体独特性，表示某一特定词性p_u的情感词SW_i在正负文档中分布的差异性；第四条件体现了情感词及其词性的整体普遍性，表示某一特定词性p_u的情感词SW_i在正负文档中分布的普遍性。

在广播电视领域，存在很多根据各种方法构建的情感词典，有的情感词典包括情感词的正负极性和情感强弱标签而不含有具体的情感值，有的情感词典针对每个概念具体包括概念的词性、情感值、相似词集等，可以统一已有情感词典，如图3所示，统一已有情感词典的情感词典构建方法包括：

步骤S10，调用已有的情感词典；

步骤S20，判断情感词典中的情感词是否具有情感值；

如果具有情感值，步骤S30，在每一本情感词典中，将每个情感词及其词性对应的多个情感值取平均值，作为所述情感词及其词性的先验情感值，具体地，如下式(8)

其中，senti₁(SW_i,p_u)表示(SW_i,p_u)通过情感词典得到的先验情感值，N表示在情感词典中(SW_i,p_u)出现在文档中的次数，senti(SW_i,p_u,value_n)表示情感词典中(SW_i,p_u)的第n个情感值；

如果不具有情感值，步骤S40在每一本情感词典中，设定与情感词及其词性的情感强度正相关的强度因子，通过强度因子确定先验情感值的绝对值的大小，通过情感词及其词性在情感词典中的情感极性确定先验情感值为正值或负值，具体地，如下式(9)

其中，α(x)为强度因子，与情感强度正相关，例如，如果某一词汇的强度标签是强，则α(x)取值1；如果强度标签是弱，则α(x)取值0.5；

步骤S50，将各情感词及其词性在具有情感值的各词典的先验情感值与对应的不具有情感值的各词典的先验情感值组合，得到各情感词及其词性的先验情感知识，具体地，如下式(10)

其中，Pri_senti(SW_i,p_u)为(SW_i,p_u)的先验情感知识。

为了使得构建的情感词典更加全面可靠，可以采用上述图1、图2和图3所示的情感词典构建方法的任意组合，例如：

基于文档的情感词典构建方法和基于语料的情感词典构建方法都是分析情感词在文档中的类TF-IDF，可以将它们作为第一情感词典构建方法；

基于已有情感词典的情感词典构建方法作为第二情感词典构建方法；

根据下式(11)统一情感词及其词性通过上述第一情感词典构建方法得到的情感值和通过第二情感词典构建方法得到的先验知识，

Uni_senti(SW_i,p_u)＝β×ITI_senti(SW_i,p_u)+(1-β)×Pri_senti(SW_i,p_u)(11)

其中，UniS(SW_i,p_u)表示统一第一情感词典构建方法和第二情感词典构建方法得到的统一情感值，β是两者的融合贡献比例，Pri_senti(SW_i,p_u)表示通过第二情感构建方法得到的(SW_i,p_u)的先验情感知识，ITI_senti(SW_i,p_u)表示通过第一情感词典构件系统得到的(SW_i,p_u)的情感值。

又如，在基于语料的改进TF-IDF算法进行情感词典构建的基础上，为了增加情感词典的可靠性，将已有情感词典中包含的先验情感信息加入到情感词典构建中，提出构建基于多词性统一的情感词典。

在上述各实施例中，优选地，情感词典构建方法还包括：

使用精确率(Precision),召回率(Recall)或/和F1-Measure中一个或多个评价指标来进行性能对比，针对任意情感极性类型x_m，其准确率P(x_m)、召回率R(x_m)以及F1(x_m)公式如(12)、(13)、(14)所示：

其中，A表示极性为x_m，并且分类正确的文档数目；B表示分类正确但是不属于极性x_m的文档数目，C表示极性为x_m，但是分类错误的文档数目。

进一步优选地，情感词典构建方法还包括：将评价指标的值最高对应的情感词典构建方法以及情感词典构建方法中C₁、C₂、C₃、C₄或/和β分别作为最佳情感词典构建方法、最佳比例系数或/和最佳融合贡献比例。

图4是本发明情感词典构建系统的一个实施例的构成框图的示意图，如图4所示，所述情感词典构建系统10包括：

采集部11，采集文档；

分词部12，对文档进行分词，得到文档内的情感词；

文档分类部13，将采集部采集的文档分为正类文档和负类文档；

设定部14，设定确定情感词属于每一情感极性的情感强度的条件，所述情感极性包括正极性、负极性和中性，所述条件包括第一条件、第二条件、第三条件和第四条件中的一个或多个，所述第一条件为情感强度与情感词及其词性在每一类文档中出现频次成正相关，所述第二条件为情感强度与情感词在每一类文档中出现频次成正相关，所述第三条件为情感强度与情感词在正类文档和负类文档中出现频次差的绝对值成正相关，所述第四条件为情感强度与情感词在正类文档和负类文档中出现频次和成负相关；

条件模型构建部15，根据设定部设定的条件结合TF或/和IDF方法构建条件模型，所述条件模型包括第一条件结合TF方法形成的第一TF模型、第二条件结合TF方法形成的第二TF模型、第三条件结合TF方法形成的第三TF模型和第四条件结合IDF方法形成的IDF模型中的一个或多个；

情感强度模型构建部16，根据条件模型构建情感词及其词性属于不同情感极性的情感强度模型，所述情感强度模型为条件模型中的任一个模型或为条件模型中多个模型的组合；

情感值模型构建部17，根据情感词及其词性属于正极性的情感强度与其属于负极性的情感强度的差值构建情感值模型，情感值为正值将情感词归属于正极性，情感值为负值将情感词归属于负极性，情感值为0将情感词归属于中性。

图5是本发明情感词典构建系统的另一个实施例的构成框图的示意图，如图5所示，所述情感词典构建系统10＇相对于图4所示的情感词典构建系统采用第一调用部11＇代替采集部11、分词部12和文档分类部13构建基于语料的情感词典，其中，第一调用部11＇，调用语料中的文档、情感词及其词性，文档包括正类文档和负类文档。

优选地，在上述两个实施例中，条件模型构建部15包括第一TF模型构建单元151、第二TF模型构建单元152、第三TF模型构建单元153和IDF模型构建单元154中的一个或多个，其中：

第一TF模型构建单元151，根据公式(3)构建第一TF模型；

第二TF模型构建单元152，根据公式(4)构建第二TF模型；

第三TF模型构建单元153，根据公式(5)构建第三TF模型；

IDF模型构建单元154，根据公式(6)构建IDF模型。

进一步优选地，所述条件模型构建部15还包括：

系数设定单元155，设定第一TF模型、第二TF模型、第三TF模型和IDF模型中一个或多个模型中的比例系数。

图6是本发明情感词典构建系统的第三实施例的构成框图的示意图，如图6所示，所述情感词典构建系统20用于统一已有情感词典，包括：

第二调用部21，调用已有的情感词典；

第一判断部22，判断情感词典中的情感词是否具有情感值，如果具有情感值，将情感词典发送给第一先验情感值模型构建部，如果不具有情感值，将情感词典发送给第二先验情感值模型构建部；

第一先验情感值模型构建部23，在每一本情感词典中，将每个情感词及其词性对应的多个情感值取平均值，作为所述情感词及其词性的先验情感值；

第二先验情感值模型构建部24，在每一本情感词典中，设定与情感词及其词性的情感强度正相关的强度因子，通过强度因子确定先验情感值的绝对值的大小，通过情感词及其词性在情感词典中的情感极性确定先验情感值为正值或负值；

统一部25，将各情感词及其词性在第一先验情感值模型构建部的各词典的先验情感值与对应的第二先验情感值模型构建部的各词典的先验情感值组合，得到各情感词及其词性的先验情感知识。

图4-图6所示的情感词典可以任意组合，也就是说，情感词典构建系统还可以包括系统统一部：将图4所示的情感词典构建系统或/和图5所示的基于语料的情感词典构建系统作为第一情感词典构建系统；将图6所示基于已有情感词典的情感词典构建系统作为第二情感词典构建系统，根据公式(11)统一上述第一情感词典构建系统和第二情感词典构建系统。

在上述各实施例中，优选地，情感词典构建系统还包括：

系统性能评价部，使用精确率、召回率或/和F1-Measure中一个或多个评价指标来进行情感词典构建系统的各种组合形式及系统中的参数的性能对比。

进一步优选地，还包括确定部，将评价指标的值最高对应的情感词典构建系统以及对应的C₁、C₂、C₃、C₄或/和β分别作为最佳情感构建系统、最佳比例系数或/和最佳融合贡献比例。

本发明所述情感词典构建系统可以基于语料的改进TF-IDF算法和基于多词性的已有词典实现情感词典的构建，应用于网络评论文本进行情感分析，并提高情感分析F1-Measure值。

在本发明的一个具体实施例中，基于语料的改进TF-IDF算法自动构建情感词典，采用的数据都是电影的评论数据包括两部分，一个是由Maas AL等人提供的长文本影评数据(Large Movie Review Dataset v1.0)，该数据包含5万条标记样本和5万条未标记样本，其中5万条标记样本中分别有2.5万条标记正负的语料，原始数据来自IMDB网页。另一个语料是Pang B等人[18]提供的短文本标记语料(movie-review-data)，原始数据来自烂番茄(from Rotten Tomatoes webpages)，包括正负各5331条短文本语料。实例中将以上数据集分为训练集和测试集，从短文本以及长文本语料中各抽取正负2000条语料作为测试集，分别记为评价数据集1(Evaluation-data1)与评价数据集2(Evaluation-data2)，其余语料作为训练集。

基于语料的改进TF-IDF算法进行情感词典自动构建主要是对改进TF-IDF算法中的四个条件进行计算，具体见公式(3＇)-(6＇)，对于比例系数的取值，为了各个值相乘结合有意义，并且通过多次尝试结果，最终选择设置比例系数C₁＝1,C₂＝1000,C₃＝1000,C₄＝(3log10(4))^-1，其中由于函数F2与F3的计算公式中<词,词性>的频次与语料总文档数比值很小，为了突出这两个因素的影响，减小该值与其他几个函数值的差异，所以设置比例系数C₂与C₃较大。而由公式(4＇)可知，当训练语料有4000条时，F4的最大值就是3log10(4)，因此C₄的取值是为了让F4的值在[0,1]之间取值。然后通过公式(7)计算基于改进的TF-IDF算法的每一个<词，词性>对的情感值，并对其进行归一化处理，从而构建基于语料的改进TF-IDF算法的情感词典记为ITI-lexicon，下表1显示了构建的ITI-lexicon情感词典部分结果。

表1

由上表1可知，在正负类内情感词都较好的反映类内的特点。其中词性都是由python的自然语言处理包NLTK进行标记，由于一些经常使用的词性比如名词、副词、形容词、动词因时态等因素都有多种形式，比如动词包括过去式、现在进行时、三单等等，如果都使用NLTK包的进行词性标记，将会使得<词，词性>的数量更加庞大，计算复杂度也会非常大，所以为了方便，进行词性块构建，设定各种类型的形容词都表示为“a”,动词都表示为“v”，副词都表示为“r”，名词都表示为“n”，其余的词性表示按照NLTK的结果显示。

将先验知识情感与基于语料的改进TF-IDF方法构建的情感词典进行整合，得到基于词性的统一情感词典记作(UNI-lexicon)，不仅对于先验情感词典中没有包含的影视评论领域的新词进行补充，还对二者情感词典中同时存在的词的情感进行修正，由公式(11)可知，二者的融合贡献比例β将直接决定该情感词典的效果，取不同β进行文本情感分类任务，选择最佳的β值，具体评价实验结果F1-Measure如图7a和7b所示，横轴是融合贡献比例β，取值在[0,1]之间，纵轴都是F1-Measure的数值，表示的是β取值在[0,1]之间对于短文本Evaluation-data1与长文本Evaluation-data2进行文本情感分类任务的F1-Measure情况。整体上可以看出，当β取值在[0.4,0.5]时，对长短文本语料都是效果较好，因此本文取β＝0.5来进行基于词性的统一情感词典构建，下表2给出了部分基于词性的统一框架情感词典中的词汇。

表2

由上表可以看出，基于词性的统一情感词典，在四个方面表现突出：

(1)对于一些先验情感词典中没有包含的词与词性比如“nothing”的名词形式，通过基于语料的改进的TF-IDF方法构建情感词典可以计算该词汇在语料的情感，实现对于先验情感词典的补充；

(2)由于基于语料的改进TF-IDF方法构建情感词典重点是发现一些只出现在单一的情感倾向性语料中的词或者一些不常出现的词，而对于一些总是出现在正负语料中的词汇会选择性的忽略，因此像“good”、“clear”等经常出现的词汇可以通过先验情感词典进行补充；

(3)对于一些普遍存在正负多义性的词，通过基于词性的统一情感词典可以对特定影视领域的情感词进行修正，例如“thirs”这个词汇作为动词，既可以表示正倾向性也可以表示负倾向性，通过影视领域的语料计算之后，可以确定该词汇在在影视评论文本中通常是作为正倾向性词汇使用。

本实例将通过文本情感分类任务评价构建的基于多词性的统一情感词典与已有情感词典的性能，用于对比的已有情感词典包括MPQA情感词典、SentiWordNet3.0情感词典、GI情感词典，其中F1-Measure是精确率和召回率的综合评价指标，使用F1-Measure进行效果对比，各种情感词典的评价结果如表3所示：

表3

(a)短文本数据

(b)长文本数据

由上表可以看出，整体上看本发明将基于语料的情感词典ITI-Lexicon和已有情感词典统一的统一情感词典UNI-Lexicon用于文本情感分类任务效果明显高于已有的情感词典(MPQA情感词典、SentiWordNet3.0情感词典、GI情感词典)，略高于基于语料的情感词典ITI-Lexicon，而且相比较其他情感词典用于文本情感分类时，正负倾向性判别效果的差异化较大，本发明所述情感词典构建方法对于正负语料文本情感分析的差异性非常小，说明本发明构建的情感词典对于正负语料情感分类都具有较好的适用性，也反映了将先验情感知识加入基于语料的改进TF-IDF算法的情感词典中，构建的基于词性的统一情感词典是有一定的可行性的与有效性。

本发明所述情感词典构建方法及构建系统针对目前已有情感词典无法涵盖领域特有词汇也无法表示多义词，而且TF-IDF算法不能涵盖类内特征以及词性信息，导致目前基于已有情感词典进行文本情感分类效果较差的问题，对TF-IDF算法进行改进，提出了基于语料的改进TF-IDF算法，通过设置假设条件加入词语的类内特征以及词性分布，使文本情感分类的F1-Measure值在长短文本数据集上相比已有情感词典都有明显的提升，尤其对于长文本的负倾向性语料分类F1-Measur达到77％；并在基于语料的改进TF-IDF算法基础上构建多词性的统一情感词典，使得F1-Measur值又有所提升。

综上所述，参照附图以示例的方式描述了根据本发明提出的情感词典构建系统及构建方法。但是，本领域技术人员应当理解，对于上述本发明所提出的系统及方法，还可以在不脱离本发明内容的基础上做出各种改进。因此，本发明的保护范围应当由所附的权利要求书的内容确定。

Claims

1.一种情感词典构建系统，其特征在于，包括：

采集部，采集文档；

分词部，对文档进行分词，得到文档内的情感词；

2.一种情感词典构建系统，其特征在于，包括：

3.根据权利要求1或2所述的情感词典构建系统，其特征在于，所述条件模型构建部包括第一TF模型构建单元、第二TF模型构建单元、第三TF模型构建单元和IDF模型构建单元中的一个或多个，其中：

第一TF模型构建单元，根据下式(3)构建第一TF模型

其中，SW_i表示第i个情感词，p_u表示SW_i对应的第u个词性，x_m表示对应的情感极性，包括正极性和负极性，d_m为情感极性对应的x_m文档类，当x_m表示正极性时，d_m表示正类文档，当x_m表示负极性时，d_m表示负类文档，F1(SW_i,p_u,x_m)表示情感词SW_i及其词性p_u属于情感极性x_m的第一TF模型，count(SW_i,p_u,x_m)表示(SW_i,p_u)在x_m情感极性对应的文档类中出现的次数，∑_u count(SW_i,p_u,x_m)表示在x_m情感极性对应的文档类中不同词性的情感词SW_i出现的总频次；

第二TF模型构建单元，根据下式(4)构建第二TF模型

其中，F2(SW_i,p_u,x_m)表示情感词SW_i及其词性p_u属于情感极性x_m的第二TF模型，count(d_m)表示d_m文档类的文档数量；

第三TF模型构建单元，根据下式(5)构建第三TF模型

其中，F3(SW_i,p_u)表示情感词SW_i及其词性p_u的第三TF模型，d_pos表示正类文档，count(SW_i,p_u,d_pos)表示正类文档中(SW_i,p_u)出现的频次，d_neg表示负类文档，count(SW_i,p_u,d_neg)表示负类文档中(SW_i,p_u)出现的频次，d_z表示正类文档和负类文档，∑_zcount(SW_i,p_u,d_z)表示正类文档和负类文档中(SW_i,p_u)的总频次；

IDF模型构建单元，根据下式(6)构建IDF模型

其中，F4(SW_i,p_u)表示情感词SW_i及其词性p_u的IDF模型，∑_zcount(d_z)表示正类文档和负类文档的文档总数，ε是常数。

4.根据权利要求3所述的情感词典构建系统，其特征在于，所述条件模型构建部还包括：

系数设定单元，设定第一TF模型、第二TF模型、第三TF模型和IDF模型中一个或多个模型中的比例系数。

5.根据权利要求4所述的情感词典构建系统，其特征在于，第一TF模型中的比例系数为1，第二TF模型中的比例系数为1000，第三TF模型中的比例系数为1000，IDF模型中的比例系数为(3log10(4))^-1。

6.一种情感词典构建系统，用于统一已有情感词典，其特征在于，包括：

第二调用部，调用已有的情感词典；

7.一种情感词典构建系统，其特征在于，包括：

权利要求1-5中任一权利要求所述的情感词典构建系统，将其作为第一情感词典构建系统；

权利要求6所述的情感词典构建系统，将其作为第二情感词典构建系统；

Uni_senti(SW_i,p_u)＝

β×ITI_senti(SW_i,p_u)+(1-β)×Pri_senti(SW_i,p_u) (11)

其中，其中，SW_i表示第i个情感词，p_u表示SW_i对应的第u个词性，Uni_senti(SW_i,p_u)表示统一第一情感词典构建系统和第二情感词典构建系统得到的统一情感值，β是两者的融合贡献比例，Pri_senti(SW_i,p_u)表示通过第二情感构建系统得到的(SW_i,p_u)的先验情感知识，ITI_senti(SW_i,p_u)表示通过第一情感词典构件系统得到的(SW_i,p_u)的情感值。

8.一种情感词典构建方法，其特征在于，包括：

采集文档；

对文档进行分词，得到文档内的情感词；

将采集的文档分为正类文档和负类文档；

9.一种情感词典构建方法，其特征在于，包括：

10.根据权利要求8或9所述的情感词典构建方法，其特征在于，所述第一TF模型根据下式(3)构建

其中，SW_i表示第i个情感词，p_u表示SW_i对应的第u个词性，x_m表示对应的情感极性，包括正极性和负极性，d_m为情感极性对应的x_m文档类，当x_m表示正极性时，d_m表示正类文档，当x_m表示负极性时，d_m表示负类文档，F1(SW_i,p_u,x_m)表示情感词SW_i及其词性p_u属于情感极性x_m的第一TF模型，count(SW_i,p_u,x_m)表示(SW_i,p_u)在x_m情感极性对应的文档类中出现的次数，∑_ucount(SW_i,p_u,x_m)表示在x_m情感极性对应的文档类中不同词性的情感词SW_i出现的总频次；

第二TF模型根据下式(4)构建

第三TF模型根据下式(5)构建

IDF模型根据下式(6)构建

11.根据权利要求10所述的情感词典构建方法，其特征在于，设定第一TF模型、第二TF模型、第三TF模型和IDF模型中一个或多个模型中的比例系数。

12.根据权利要求11所述的情感词典构建方法，其特征在于，第一TF模型中的比例系数为1，第二TF模型中的比例系数为1000，第三TF模型中的比例系数为1000，IDF模型中的比例系数为(3log10(4))^-1。

13.一种情感词典构建方法，用于统一已有情感词典，其特征在于，包括：

调用已有的情感词典；

判断情感词典中的情感词是否具有情感值；

14.一种情感词典构建方法，其特征在于，包括：

权利要求8-12中任一权利要求所述的情感词典构建方法，将其作为第一情感词典构建方法；

权利要求13所述的情感词典构建方法，将其作为第二情感词典构建方法；

Uni_senti(SW_i,p_u)＝

β×ITI_senti(SW_i,p_u)+(1-β)×Pri_senti(SW_i,p_u) (11)

其中，其中，SW_i表示第i个情感词，p_u表示SW_i对应的第u个词性，Uni_senti(SW_i,p_u)表示统一第一情感词典构建方法和第二情感词典构建方法得到的统一情感值，β是两者的融合贡献比例，Pri_senti(SW_i,p_u)表示通过第二情感构建方法得到的(SW_i,p_u)的先验情感知识，ITI_senti(SW_i,p_u)表示通过第一情感词典构件系统得到的(SW_i,p_u)的情感值。