CN102890707A - 一种基于条件随机场的网络短评论情感倾向性挖掘系统 - Google Patents
一种基于条件随机场的网络短评论情感倾向性挖掘系统 Download PDFInfo
- Publication number
- CN102890707A CN102890707A CN2012103115313A CN201210311531A CN102890707A CN 102890707 A CN102890707 A CN 102890707A CN 2012103115313 A CN2012103115313 A CN 2012103115313A CN 201210311531 A CN201210311531 A CN 201210311531A CN 102890707 A CN102890707 A CN 102890707A
- Authority
- CN
- China
- Prior art keywords
- word
- emotion
- feature words
- random field
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种基于条件随机场的网络短评论情感倾向性挖掘系统,包括包括提取模块、识别模块、构建模块、分类模块;所述提取模块,用于提取短评论中的特征词;识别模块,用条件随机场模型的识别特征词对应的情感词,并与特征词匹配组合成元组;构建模块,用于构建与情感词相关的情感词典;分类模块,用于将元组在情感词典中查找分类,进而挖掘出短评论的情感倾向性。本发明能够自动挖掘出网页上的短评论,并将其中的特征词-情感词元组抽取出来,建立情感词典,对该元组的情感倾向性进行精确的判断。
Description
技术领域
本发明涉及web数据挖掘领域,特别涉及一种基于条件随机场的网络短评论情感倾向性挖掘系统。
背景技术
评论挖掘是当前研究的热点,主要任务是对评论进行主客观识别、词汇倾向性分类、文本倾向性分类和观点的抽取等,并且涉及到机器学习、自然语言处理、信息检索等多个领域的知识。近年来,国内外很多研究者在情感倾向性分类上做了很多研究工作,但是从国内外的研究现状发现,区分评论中的情感趋向是比较困难的,由两个或多个单词构成的短语、复合词、句式结构等语言元素一起出现时才会表达了非常显著的情感倾向,而那些单词并没有显著倾向性。
通过研究国内外评论挖掘技术发现,短评论文本具有文本短小、内容稀疏、主观性强、构词不规律、领域依赖性强的特点。由于国内的评论挖掘相关研究起步较晚,评论挖掘的相关产品在国内还比较少,其在技术以及功能上还存在着很多的不足。而国外的起步比较早,技术已经趋于成熟,但基于中英文的差异,其相关技术在中文的应用上不能直接运用。
发明内容
本发明为了克服现有技术存在的缺点与不足,提供一种基于条件随机场的网络短评论情感倾向性挖掘系统。
本发明所采用的技术方案:
一种基于条件随机场的网络短评论情感倾向性挖掘系统,包括提取模块、识别模块、构建模块、分类模块;
所述提取模块,用于提取短评论中的特征词;
所述识别模块,用条件随机场模型的方法识别特征词对应的情感词,并与特征词匹配组合成元组;
所述构建模块,用于构建与情感词相关的情感词典;
所述分类模块,用于将元组在情感词典中查找分类,进而挖掘出短评论的情感倾向性。
所述提取模块采用基于统计的方法和有向图理论的方法提取特征词。
所述特征词同时符合如下条件:
(1)在一个文本中多次出现,
(2)在词的前面或后面加上其他词形成新的词后,在文本中出现的频率降低。
所述构建模块采用如下步骤构建情感词典,具体为:
(1)选择与特征词对应的带有三种感情色彩的情感词,系统将其划分为褒义词、中性词、贬义词;
(2)基于同义词词林扩展上述褒义词、中性词、贬义词,得到褒义词集、中性词集、贬义词集;
(3)在(2)得到的词集中过滤掉属于同义词词林中的第一大类、第二大类、第四大类、第十大类和第十一大类的词;
(4)系统过滤掉在上述词集重复出现的情感词和不具有描述能力的情感词,然后将其它词标上情感色彩,所述褒义词标为gg,中性词标为nn,贬义词标为bb,得到情感词典并保存。
所述识别模块采用如下步骤完成识别情感词,并与特征词匹配组合成元组;
所述步骤为,根据短评论中词语的构词规律,把每一个词语分类标注得到标注模型,然后通过条件随机场进行词语搭配的概率统计,得到需要的特征词-情感词元组。
所述系统进行情感倾向性判断后,对情感词的前缀词是否存在否定词进行判断。
本发明的有益效果:
本发明能够自动挖掘出网页上有关产品和服务的短评论,并将其中的特征词-情感词元组抽取出来,建立情感词典,对该元组的情感倾向性进行精确的判断,最后系统以这种精炼的特征词-情感词的元组形式将短评内容展示出来,这不仅为消费者提供了一种一目了然的消费参考,并且也对关注用户满意度及消费焦点等方面的企业具有非常大的战略意义。
附图说明
图1为本发明的流程图。
具体实施方式
下面结合实施例及附图,对本发明作进一步地详细说明,但本发明的实施方式不限于此。
实施例
如图1所示,一种基于条件随机场的网络短评论情感倾向性挖掘系统,包括提取模块、识别模块、构建模块、分类模块;
所述提取模块,用于提取短评论中的特征词;
所述特征词同时符合如下条件:
(1)在一个文本中多次出现,
(2)在词的前面或后面加上其他词形成新的词后,在文本中出现的频率降低。
本发明基于统计的方法,根据组合词在语料库中出现的频率来判定是否符合构词的规律,如果符合采用有向图理论构建词语共现的单词网络,再根据词频以及词性提取候选特征词。
在提取出候选的特征词之后,本发明采用了基于词性规则来过滤这些候选特征词得到特征词。汉语中有些词性是没有构词能力的,例如助词、叹词、标点等。由于词性信息有限,可以通过手工处理来筛选出没有没有构词能力的词性。目前本文认为数字串、时间串、助词、叹词、标点等70多个词性标记没有构词能力,收集它们到一起构成停用词性集,在新词识别过程中只要遇到此集合中的词性就认为此词不能构成新词。对于停用词性集以外的词性,本文认为它们都有一定的构词能力。但是观察发现,它们有的不能做新词首,有的不能做新词尾。对这些词性本文做了区分后构造出了新词首停用词性集和新词尾停用词性集,利用这两个集合可以去掉一大部分垃圾串。
所述识别模块,用条件随机场模型识别特征词对应的情感词,并与特征词匹配组合成元组;
所述识别模块采用如下步骤完成识别与特征词对应的情感词,并与特征词匹配组合成元组;
所述步骤为,根据短评论中词语的构词规律,把每一个词语分类标注得到标注模型,然后通过条件随机场进行词语搭配的概率统计,得到需要的特征词-情感词元组。
所述构建模块,用于构建与情感词相关的情感词典;
所述构建模块采用如下步骤构建情感词典,具体步骤为:
(1)选择与特征词对应的带有三种感情色彩的情感词,系统将其划分为褒义词、中性词、贬义词;
(2)基于同义词词林扩展上述褒义词、中性词、贬义词,得到褒义词集、中性词集、贬义词集;
(3)在(2)得到的词集中过滤掉属于同义词词林中的第一大类、第二大类、第四大类、第十大类和第十一大类的词;
(4)系统过滤掉在上述词集重复出现的情感词和不具有描述能力的情感词后,将其它词标上情感色彩,所述褒义词标为gg,中性词标为nn,贬义词标为bb,得到情感词典并保存。
所述分类模块,用于将元组在情感词典中查找分类,进而挖掘出短评论的情感倾向性。
所述元组是有特征词和情感词匹配而成的,例如“服务很好”中的“服务”就是一个特征词,而“很好”是一个情感词。这样的一对特征词和情感词的匹配构成了一个特征情感词信息元组。
基于条件随机场的方法是一种监督机器学习访求,对于要识别特征词情感信息的句子,用条件随机场模型的方法对其进行状态标注,把每一个词标注为对应的状态,然后通过这些状态信息,我们便可得到我们所要的特征情感信息元组。
一般来说在两个并列的特征词之间,例如“水煮鱼和麻辣田螺都很入味”中的水煮鱼和麻辣田螺都是特征词,而中间的“和”起了并列连接词的作用,所以我们用标注f来表示。而特征词前面及后面都由相关的连词及助词来构成,我们将所有连词或谓语g来表示,例如“听说麻辣诱惑蛙很好吃”,“听说”将标注为g。此外,特征词前面一般会带有连词、量词,我们称之为前缀词一、前缀词二并将其标为d,e,而情感词前面一般会存在否定词和程度副词,我们将其标为i,j,在情感词后面后面一般会存在语气助词,我们将其标为m,而将标点符号一律标为z,对且客观句的所有词语全部标为n,至此,我们便得到了标注模型:
所述标注模型中设定有15个状态标注,分别为
a:由多个词构成的特征词的首词;
b:由多个词构成的特征词的中间词;
c:由多个词构成的特征词的尾词;
d:特征词的第一个前缀词(与情感特征描述对象关系较远);
e:特征词的第二个前缀词(与情感特征描述对象关系较近);
f:特征词的中间连接词(当并排罗列多个特征词时有用);
g:特征词与情感对象的连词或谓语;
h:由单个词构成的特征词;
i:情感词的第一个前缀词(一般为否定修饰词,与情感词的距离较远);
j:情感词的第二个前缀词(一般为程度修饰词,与情感词的距离较近);
k:情感词;
l:附加的情感词结尾词(如果网络短评文本中的情感词由两个分词构成则匹配);
m:情感词的后缀词;
n:不相关词;
z:标点符号。
情感词的前缀对于我们来说是有意义的,因为前缀词一、前缀词二一般都为否定词或副词,而否定词对于判定情感词的语义倾向性是有关联的,所以在提取情感词的时候需要连同前缀词一同提取出来。
提取任务的第二部分是匹配特征词和情感词,就特征词和情感词的匹配来说,可以存在以下情况:
一个特征词,一个情感词;
多个特征词,一个情感词;
一个特征词,多个情感词;
多个特征词,多个情感词;
一个或多个特征词,无情感词;
无特征词,一个或多个情感词;
除了以上所列的多种匹配情况之外,特征词和情感词中间间隔的距离以及标点符号也是影响匹配准确度的主要因素。所以匹配算法时需要考虑以上的各种情况。通过对评论的观察得知,特征词与情感词一般是存在邻近关系,所以通过匹配相邻近的特征词与情感词就可以得到,但前提是这个距离不能太远,所以本系统所定义的邻近关系是3个分词,也就是说特征词尾词与情感首词中间的分词数如果大于等于3个时,则认为该特征词与情感词是不匹配的。由于条件随机场模型计算出来的词序列在断句是空一行,所以算法可以此来界定句子的边界,而对于同一句子内的不同子句(也就是用逗号或分号等隔开的小句),算法依然要体现句中优先的原则,也就是说优先匹配同一子句中的特征和情感词。根据以上总结的设计原则,设计匹配算法如下:
1、维护提取出来的特征词和情感词数组,每次提取出来的特征词和情感词都放到数组里面去;
2、维护一个表示特征词间、情感词间或特征词与情感词间的间隔计数,当某一个特征词或情感词在其前后的特征词或情感词中间间隔计数大于3时,丢弃该特征词或情感词;
3、当特征词和情感词数组不为空时,匹配两个数组中的数据;
4、当特征词和情感词只有一方为空时,将该特征词或情感词添加到上一个匹配结果中去。
由于情感词经过同义词词林扩展之后可能会出现多个种子情感词扩展出来的情感词集存在交集的情况,甚至出现同一个词出现在褒义和贬义的词集当中,这是由于汉语中存在一词多义的情况。此外某些扩展出来的同义词集并不具有具体的描述能力,而只是被当成色彩相同而被扩展出来,所以这些都应该被过滤掉。考虑到词典对于后续工作的重要性,决定通过手工过滤的方式来完善情感词词典,确保情感词典的质量。情感词典采用的人工过滤需要花费的时间并不多,因为需要过滤的词集已经比较小,人工过滤对接下来工作的进展又很有帮助,所以比较值得。最后我们提取到的情感词集保存到数据库表中去,并为他们标上情感色彩,褒义的标为gg,中性的标为nn,贬义的标为bb。
本发明通过挖掘出来的情感词的标注来判定其语义倾向性,如果该情感词存在于褒义词典中则标注该情感词为褒义,如果存在于贬义词典中,则为贬义,如果都不存在,则为中性词。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受所述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (6)
1.一种基于条件随机场的网络短评论情感倾向性挖掘系统,其特征在于,包括提取模块、识别模块、构建模块、分类模块;
所述提取模块,用于提取短评论中的特征词;
所述识别模块,用条件随机场模型识别特征词对应的情感词,并与特征词匹配组合成元组;
所述构建模块,用于构建与情感词相关的情感词典;
所述分类模块,用于将元组在情感词典中查找分类,进而挖掘出短评论的情感倾向性。
2.根据权利要求1所述的一种基于条件随机场的网络短评论情感倾向性挖掘系统,其特征在于,所述提取模块采用基于统计的方法和有向图理论的方法提取符合条件的特征词。
3.根据权利要求2所述的一种基于条件随机场的网络短评论情感倾向性挖掘系统,其特征在于,所述特征词同时符合如下条件:
(1)在一个文本中多次出现,
(2)在词的前面或后面加上其他词形成新的词后,在文本中出现的频率降低。
4.根据权利要求1所述的一种基于条件随机场的网络短评论情感倾向性挖掘系统,其特征在于,所述构建模块采用如下步骤构建情感词典,具体为:
(1)选择与特征词对应的带有三种感情色彩的情感词,系统将其划分为褒义词、中性词、贬义词;
(2)基于同义词词林扩展上述褒义词、中性词、贬义词,得到褒义词集、中性词集、贬义词集;
(3)在(2)得到的词集中过滤掉属于同义词词林中的第一大类、第二大类、第四大类、第十大类和第十一大类的词;
(4)系统过滤掉在上述词集重复出现的情感词和不具有描述能力的情感词后,将其它词标上情感色彩,保存为情感词典。
5.根据权利要求1所述的一种基于条件随机场的网络短评论情感倾向性挖掘系统,其特征在于,所述识别模块采用如下步骤完成识别特征词对应的情感词,并与特征词匹配组合成元组;
所述步骤为,根据短评论中词语的构词规律,把每一个词语分类标注得到标注模型,然后通过条件随机场模型进行词语搭配的概率统计,得到需要的特征词-情感词元组。
6.根据权利要求1所述的一种基于条件随机场的网络短评论情感倾向性挖掘系统,其特征在于,所述系统进行情感倾向性判断后,对情感词的前缀词是否存在否定词进行判断。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012103115313A CN102890707A (zh) | 2012-08-28 | 2012-08-28 | 一种基于条件随机场的网络短评论情感倾向性挖掘系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2012103115313A CN102890707A (zh) | 2012-08-28 | 2012-08-28 | 一种基于条件随机场的网络短评论情感倾向性挖掘系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102890707A true CN102890707A (zh) | 2013-01-23 |
Family
ID=47534209
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2012103115313A Pending CN102890707A (zh) | 2012-08-28 | 2012-08-28 | 一种基于条件随机场的网络短评论情感倾向性挖掘系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102890707A (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103544246A (zh) * | 2013-10-10 | 2014-01-29 | 清华大学 | 互联网多种情感词典构建方法及系统 |
CN104090864A (zh) * | 2014-06-09 | 2014-10-08 | 合肥工业大学 | 一种情感词典建立与情感计算方法 |
CN104268197A (zh) * | 2013-09-22 | 2015-01-07 | 中科嘉速(北京)并行软件有限公司 | 一种行业评论数据细粒度情感分析方法 |
CN104572877A (zh) * | 2014-12-22 | 2015-04-29 | 网易(杭州)网络有限公司 | 游戏舆情的检测方法及系统 |
CN105095179A (zh) * | 2014-05-14 | 2015-11-25 | 腾讯科技(深圳)有限公司 | 对用户评价进行处理的方法及装置 |
CN106022878A (zh) * | 2016-05-19 | 2016-10-12 | 华南理工大学 | 基于社区评论情感倾向性分析的手游排行榜构建方法 |
CN106610990A (zh) * | 2015-10-22 | 2017-05-03 | 北京国双科技有限公司 | 情感倾向性分析的方法及装置 |
CN106776931A (zh) * | 2016-12-01 | 2017-05-31 | 珠海市魅族科技有限公司 | 一种评论数据的处理方法及处理装置 |
CN107220238A (zh) * | 2017-05-24 | 2017-09-29 | 电子科技大学 | 一种基于混合网络模型的文本对象抽取方法 |
CN107229636A (zh) * | 2016-03-24 | 2017-10-03 | 腾讯科技(深圳)有限公司 | 一种词语分类的方法及装置 |
CN109299400A (zh) * | 2018-09-06 | 2019-02-01 | 北京奇艺世纪科技有限公司 | 一种观点抽取方法、装置及设备 |
CN112199469A (zh) * | 2020-09-30 | 2021-01-08 | 卓尔智联(武汉)研究院有限公司 | 一种情感识别的方法、装置及电子设备 |
CN113837531A (zh) * | 2016-05-30 | 2021-12-24 | 中国计量大学 | 一种基于网络评论的产品质量问题发现及风险评估方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110270815A1 (en) * | 2010-04-30 | 2011-11-03 | Microsoft Corporation | Extracting structured data from web queries |
CN102236722A (zh) * | 2011-08-17 | 2011-11-09 | 广州索答信息科技有限公司 | 一种基于三元组的用户评论摘要的生成方法与系统 |
-
2012
- 2012-08-28 CN CN2012103115313A patent/CN102890707A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110270815A1 (en) * | 2010-04-30 | 2011-11-03 | Microsoft Corporation | Extracting structured data from web queries |
CN102236722A (zh) * | 2011-08-17 | 2011-11-09 | 广州索答信息科技有限公司 | 一种基于三元组的用户评论摘要的生成方法与系统 |
Non-Patent Citations (3)
Title |
---|
孙晓等: "基于动态规划的最小代价路径汉语自动分词", 《小型微型计算机系统》 * |
王林梅: "Web用户评价的自动情感分析", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
程月等: "基于条件随机场的汉语动宾搭配自动识别", 《中文信息学报》 * |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104268197A (zh) * | 2013-09-22 | 2015-01-07 | 中科嘉速(北京)并行软件有限公司 | 一种行业评论数据细粒度情感分析方法 |
CN104268197B (zh) * | 2013-09-22 | 2017-11-07 | 中科嘉速(北京)并行软件有限公司 | 一种行业评论数据细粒度情感分析方法 |
CN103544246A (zh) * | 2013-10-10 | 2014-01-29 | 清华大学 | 互联网多种情感词典构建方法及系统 |
CN105095179A (zh) * | 2014-05-14 | 2015-11-25 | 腾讯科技(深圳)有限公司 | 对用户评价进行处理的方法及装置 |
CN105095179B (zh) * | 2014-05-14 | 2019-03-26 | 腾讯科技(深圳)有限公司 | 对用户评价进行处理的方法及装置 |
CN104090864A (zh) * | 2014-06-09 | 2014-10-08 | 合肥工业大学 | 一种情感词典建立与情感计算方法 |
CN104090864B (zh) * | 2014-06-09 | 2018-02-06 | 合肥工业大学 | 一种情感词典建立与情感计算方法 |
CN104572877A (zh) * | 2014-12-22 | 2015-04-29 | 网易(杭州)网络有限公司 | 游戏舆情的检测方法及系统 |
CN106610990A (zh) * | 2015-10-22 | 2017-05-03 | 北京国双科技有限公司 | 情感倾向性分析的方法及装置 |
CN107229636A (zh) * | 2016-03-24 | 2017-10-03 | 腾讯科技(深圳)有限公司 | 一种词语分类的方法及装置 |
CN106022878A (zh) * | 2016-05-19 | 2016-10-12 | 华南理工大学 | 基于社区评论情感倾向性分析的手游排行榜构建方法 |
CN113837531A (zh) * | 2016-05-30 | 2021-12-24 | 中国计量大学 | 一种基于网络评论的产品质量问题发现及风险评估方法 |
CN106776931A (zh) * | 2016-12-01 | 2017-05-31 | 珠海市魅族科技有限公司 | 一种评论数据的处理方法及处理装置 |
CN107220238A (zh) * | 2017-05-24 | 2017-09-29 | 电子科技大学 | 一种基于混合网络模型的文本对象抽取方法 |
CN109299400A (zh) * | 2018-09-06 | 2019-02-01 | 北京奇艺世纪科技有限公司 | 一种观点抽取方法、装置及设备 |
CN112199469A (zh) * | 2020-09-30 | 2021-01-08 | 卓尔智联(武汉)研究院有限公司 | 一种情感识别的方法、装置及电子设备 |
CN112199469B (zh) * | 2020-09-30 | 2022-10-25 | 卓尔智联(武汉)研究院有限公司 | 一种情感识别的方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102890707A (zh) | 一种基于条件随机场的网络短评论情感倾向性挖掘系统 | |
CN108052593B (zh) | 一种基于主题词向量和网络结构的主题关键词提取方法 | |
CN106598944B (zh) | 一种民航安保舆情情感分析方法 | |
CN104765769B (zh) | 一种基于词矢量的短文本查询扩展及检索方法 | |
CN108287922B (zh) | 一种融合话题属性和情感信息的文本数据观点摘要挖掘方法 | |
CN108509425B (zh) | 一种基于新颖度的中文新词发现方法 | |
CN105808526B (zh) | 商品短文本核心词提取方法和装置 | |
CN109376251A (zh) | 一种基于词向量学习模型的微博中文情感词典构建方法 | |
CN104281653B (zh) | 一种针对千万级规模微博文本的观点挖掘方法 | |
CN109376352B (zh) | 一种基于word2vec和语义相似度的专利文本建模方法 | |
CN108664615A (zh) | 一种面向学科教育资源的知识图谱构建方法 | |
DE112013004082T5 (de) | Suchsystem der Emotionsentität für das Microblog | |
CN107153658A (zh) | 一种基于关键字加权算法的舆情热词发现方法 | |
CN104268160A (zh) | 一种基于领域词典和语义角色的评价对象抽取方法 | |
CN108062304A (zh) | 一种基于机器学习的商品评论数据的情感分析方法 | |
CN103324626B (zh) | 一种建立多粒度词典的方法、分词的方法及其装置 | |
CN104899260B (zh) | 一种中文病理文本结构化处理方法 | |
CN112699246A (zh) | 基于知识图谱的领域知识推送方法 | |
CN101751386B (zh) | 一种未登录词的识别方法 | |
CN111309925A (zh) | 一种军事装备的知识图谱构建方法 | |
CN108845982A (zh) | 一种基于词的关联特征的中文分词方法 | |
CN106294320A (zh) | 一种面向学术论文的术语抽取方法及系统 | |
CN101702167A (zh) | 一种基于互联网的模板抽取属性和评论词的方法 | |
CN105718585A (zh) | 文档与标签词语义关联方法及其装置 | |
CN103186633A (zh) | 一种结构化信息抽取方法、搜索方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20130123 |