CN102929863A

CN102929863A - 通过计算机智能分析汉语文字情感倾向的方法

Info

Publication number: CN102929863A
Application number: CN2012104386083A
Authority: CN
Inventors: 陈国庆; 王嘉玲
Original assignee: SUZHOU LIANGJIANG TECHNOLOGY Co Ltd
Current assignee: SUZHOU LIANGJIANG TECHNOLOGY Co Ltd
Priority date: 2012-11-06
Filing date: 2012-11-06
Publication date: 2013-02-13

Abstract

本发明公开了一种通过计算机智能分析汉语文字情感倾向的方法，其特征在于所述方法包括以下步骤：（1）读取汉语文字段落文件，将汉语文字段落文件进行断句，然后对断句进行分词，词性标注，句法依存关系标注，形成XML文档；（2）读取XML文档，遍历句子提取句法依存关系对，基于词典对提取的词进行赋值；将正极性词词典中的词赋值为1，负极性词典中的词赋值为-1；程度副词根据程度不同分为5个等级，分别赋值为1.8，1.5，1.2，0.9，0.5；否定副词根据否定程度分为-1，-1.5两个等级；（3）遍历词典，按照公式：情感得分=否定词*副词之和*形容词，获得汉语文字段落文件的情感得分；根据情感得分判断汉语文字段落文件的情感倾向。

Description

通过计算机智能分析汉语文字情感倾向的方法

技术领域

本发明属于计算机智能分析技术领域，具体涉及一种通过计算机智能分析汉语文字情感倾向的方法。

背景技术

上世纪60年代，文本的情感倾向分析这一领域刚刚开始，随着电子商务的发展，上世纪90年代以来，语义倾向性研究在国外才得到普遍关注，并迅速发展起来。Hatzivassiloglou.V，McKeown K.R．在1997年首先开始了词汇的语义倾向性研究。他们主要是针对形容词作倾向性分析，利用词汇之间的连词(and，or，but等)训练生成词汇间的同意或翻译倾向的连接图，然后用聚类的方法将词汇聚成褒义和贬义两类。

汉语意见挖掘方法和技术的研究起步较晚。在汉语文本语义倾向自动识别方面，徐琳宏、林鸿飞等提出了基于语义理解的文本倾向性识别机制，计算词汇与知网中已标注褒贬性的词汇之间的相似度，获取词汇的倾向性，加强对文本褒贬义强度的识别；在汉语句子语义极性分析和观点抽取研究方面，娄德成、姚天昉等利用自然语言处理技术，对汉语语句进行了语义极性分析和观点抽取，提出了计算词语的上下文极性的算法，并且分析了主题和极性修饰成分的匹配关系，研究并开发了用于汉语汽车论坛的意见挖掘系统（姚天昉、聂青阳等）；王素格研究了基于Web的评论文本情感分类问题，进行了多层次语言粒度分析。目前，中文词汇倾向性研究和商品评论挖掘才刚刚起步，由于中文和英文的差异，传统的基于统计的方法很难准确地表达句子的观点，因此，借助自然语言处理技术，对句子的成分和结构进行语法分析，不仅增强语义理解的可靠性，而且还能提高极性分析的准确性。

但是目前的算法只是单纯的针对于短语或者依赖句法分析，这样就使得分析的精准度不高，尤其是召回率令人不满意。本发明因此而来。

发明内容

本发明目的在于提供一种通过计算机智能分析汉语文字情感倾向的方法，解决了现有技术中通过计算机分析汉语语言精准度不高、召回率令人不满意等问题。

为了解决现有技术中的这些问题，本发明提供的技术方案是：

一种通过计算机智能分析汉语文字情感倾向的方法，其特征在于所述方法包括以下步骤：

（1）读取汉语文字段落文件，将汉语文字段落文件进行断句，然后对断句进行分词，词性标注，句法依存关系标注，形成XML文档；

（2）读取XML文档，遍历句子提取句法依存关系对，基于词典对提取的词进行赋值；将正极性词词典中的词赋值为1，负极性词典中的词赋值为-1；程度副词根据程度不同分为5个等级，分别赋值为1.8,1.5,1.2,0.9,0.5；否定副词根据否定程度分为-1，-1.5两个等级；

（3）遍历词典，按照公式：情感得分=否定词*副词之和*形容词，获得汉语文字段落文件的情感得分；根据情感得分判断汉语文字段落文件的情感倾向。

优选的，所述方法步骤（2）中提取句法依存关系对包括以下步骤：

A1)提取断句中所有的形容词，根据形容词的位置向句首上搜索，判断形容词的前面4个词是否有副词；如有副词，则进行记录保存；

A2)判断形容词是否在依存关系对的左侧；当形容词在依存关系对的左侧时，查找左侧的依存类型并保存相应的词；否则查找依存关系对右侧的依存类型并保存相应的词；依次循环。

本发明技术方案旨在提高文本情感倾向分析的准确率和召回率，本发明技术方案在进行智能分析前，将汉语文字段落进行断句后，将句子进行预处理，包括分词，词性标注和句法依存关系标记，然后遍历句子提取关系对。

本发明技术方案中分词指将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。在英文的行文中，单词之间是以空格作为自然分界符的，而中文只是字、句和段能通过明显的分界符来简单划界，唯独词没有一个形式上的分界符，虽然英文也同样存在短语的划分问题，不过在词这一层上，中文比之英文要复杂的多、困难的多。

词性标注即为对给定的一个分好词的句子，每一个词附上相应的词性。例如对晚上喝水进行分词和词性标注的过程如下：

词性标注一个可能的结果为：

晚上/t 喝/v 水/n。

句法依存通过分析语言单位内成分之间的依存关系揭示其句法结构，主张句子中核心动词是支配其它成分的中心词，而它本身却不受其它任何成分的支配，所有受支配成分都以某种依存关系从属于支配者。句法依存关系对是指构成句法依存的两个词组成的关系对。例如，在图2中，“屏幕”“清晰”构成句法依存关系对。

提取关系对的具体步骤如下：

1.找到所有的形容词，检查形容词的前面4个词是否有副词，若有全部记录下来。汉语中形容词表示事物的形状、性质和状态等。副词常限制、修饰动词、形容词性词语，表示程度、范围、时间等意义。

（1）在依存关系对的左侧发现该形容词时，

（i）若关系是定中关系ATT（attribute）或者状中关系ADV（adverbial），找到与之构成关系的动词或者副词a，若a存在将其记录，再找到与a构成关系的动词或者副词b，记录b；

（ii）若关系是DE（“的”字结构），找到与之构成关系的词a，找到与a构成关系的动词或者副词b，记录b；

（iii）若是主谓关系SBV（subject-verb），找到与之构成关系的副词或者动词a，记录；

（2)在依存关系对的右侧发现形容词，

（i）关系是动宾关系VOB(verb-object),并且a不在与当前形容词相邻的之前3个词内；

（ii）关系是DE（“的”字结构），找到与之构成关系的词a，找到与a构成关系的动词或者副词b，记录b；

（iii）关系是并列关系COO（coordinate），记录与之构成关系的词a；

这里ATT是由定语和中心词组成的，定语是定中结构的修饰成分，中心词是定中结构的结构核心和语义核心。ADV是状语+中心词的结构。主谓关系是主语+谓语结构。动宾关系是动词+宾语。

2.观点对提取完毕后，给每个词赋值，赋值是基于词典的：

（1）建立副词词典、正极性词词典、负极性词词典，其中正、负极性词典不仅包括形容词还包括有明显感情色彩的动词，将正极性词词典中的词赋值为1，负极性词典中的词赋值为-1；副词词典不仅包括程度副词还包括否定副词，程度副词根据程度不同分为5个等级，分别赋值为1.8,1.5,1.2,0.9,0.5；否定副词根据否定程度分为-1，-1.5两个等级；

（2）遍历副词词典、正极性词词典、负极性词词典，看词典中的词是否与提取出的词是否匹配，若匹配则赋相应的值，若不匹配，则赋值为0；

（3）计算情感得分：

按公式：情感得分=否定词*副词之和*形容词；计算情感得分。

本发明与现有技术相比，具有如下的有益效果：

本发明技术方案不仅考虑了与形容词构成ATT、ADV、DE关系的副词，还考虑了动词，这样避免具有明显感情色彩的词的遗漏，而且在找到形容词时先检查形容词之前4个词是否有副词，这是因为按照中文语法的习惯副词一般出现在形容词的前面，并且会有多重副词的情况，从而避免了副词的遗漏，当形容词出现在关系对的右侧时采取了措施避免重复计算。经过试验证明进行汉语文字段落的智能分析效果良好。

附图说明

下面结合附图及实施例对本发明作进一步描述：

图1为本发明技术方案通过计算机智能分析汉语文字情感倾向的方法流程图；

图2为本发明技术方案中句法依存关系对的示例图；

图3为本发明技术方案实施例进行句法分析的结果。

具体实施方式

以下结合具体实施例对上述方案做进一步说明。应理解，这些实施例是用于说明本发明而不限于限制本发明的范围。实施例中采用的实施条件可以根据具体厂家的条件做进一步调整，未注明的实施条件通常为常规实验中的条件。

实施例

如图1所示，本实施例通过计算机智能分析汉语文字情感倾向的方法，包括以下步骤：

步骤（2）中提取句法依存关系对包括以下步骤：

进行具体实施时，首先进行分词，词性标注，句法分析，并形成XML文档，分析得到的xml文档如下所示：

本发明使用的分词技术是：条件随机场CRF，这是一种机器学习技术模型，其原理是：

1.CRF把分词当做字的词位分类问题，通常定义字的词位信息如下：

词首，常用B表示；词中，常用M表示；词尾，常用E表示；单子词，常用S表示。

2.CRF分词的过程就是对词位标注后，将B和E之间的字，以及S单字构成分词。

3.CRF分词实例：

原始例句：我爱北京天安门；

CRF标注后：我/S 爱/S 北/B 京/E 天/B 安/M 门/E；

分词结果：我/爱/北京/天安门。

词性标注模块基于SVM模型进行训练和解码。SVM（Support VectorMachine，支持向量机）是Cortes和Vapnik于1995年首先提出的，它在解决小样本、非线性及高维模式识别中表现出许多特有的优势，并能够推广应用到函数拟合等其他机器学习问题中。使用的工具为开源工具：svmtools。

依存句法分析采用GParser。GParser全称为Graph-Based Parser，即基于图模型的依存句法分析器。基于图的依存分析方法由McDonald首先提出，他将依存分析问题归结为在一个有向图中寻找最大生成树（MaximumSpanning Tree）的问题。边权重使用Online Learning算法学习获得，解码算法使用的是Eisner算法。

读取文本：价格比较划算，感觉信号不错，通话质量也好。

在词性标注中，词下面标注为a的表示形容词，d表示副词，v表示动词。分词词性标注结果如下：

价格比较划算，感觉信号不错，通话质量也好

n d a wp v fn a wp v n d a

句法分析结果如图3所示。获得的xml文档如下所示：

</word>

按照上述规则提取关系对，并赋值计算结果如下：

空	空	比较	空	空	划算
						空	空	空	空	空	不错
空	空	也	空	空	好

赋值结果如下：

0	0	1.2	0	0	1
						0	0	0	0	0	1
0	0	0.9	0	0	1

情感倾向得分为3.1和1。可以看到情感倾向值是大于0的，因此这个评论的情感倾向是正极性，也就是褒义。

本发明技术方案进行另外几个应用实例，应用实例1的试验结果如表1所示。

表1进行文档分析后的试验结果

表2进行文档分析后的试验结果

上述实例只为说明本发明的技术构思及特点，其目的在于让熟悉此项技术的人是能够了解本发明的内容并据以实施，并不能以此限制本发明的保护范围。凡根据本发明精神实质所做的等效变换或修饰，都应涵盖在本发明的保护范围之内。

Claims

1.一种通过计算机智能分析汉语文字情感倾向的方法，其特征在于所述方法包括以下步骤：

2.根据权利要求1所述的方法，其特征在于所述方法步骤（2）中提取句法依存关系对包括以下步骤：