CN107609132B - 一种基于语义本体库中文文本情感分析方法 - Google Patents

一种基于语义本体库中文文本情感分析方法 Download PDF

Info

Publication number
CN107609132B
CN107609132B CN201710841831.5A CN201710841831A CN107609132B CN 107609132 B CN107609132 B CN 107609132B CN 201710841831 A CN201710841831 A CN 201710841831A CN 107609132 B CN107609132 B CN 107609132B
Authority
CN
China
Prior art keywords
emotion
word
words
emotional
ontology library
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710841831.5A
Other languages
English (en)
Other versions
CN107609132A (zh
Inventor
姜明
杨智聪
张旻
汤景凡
程柳
杜炼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Electronic Science and Technology University
Original Assignee
Hangzhou Electronic Science and Technology University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Electronic Science and Technology University filed Critical Hangzhou Electronic Science and Technology University
Priority to CN201710841831.5A priority Critical patent/CN107609132B/zh
Publication of CN107609132A publication Critical patent/CN107609132A/zh
Application granted granted Critical
Publication of CN107609132B publication Critical patent/CN107609132B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种基于语义本体库中文文本情感分析方法。本发明步骤如下:步骤1、获取关于目标对象一定数量的结构化评论组成待分析的语料库,根据权威机构提供的情感本体库,结合语料库通过语义分析泛化得到情感本体库,情感本体库包含情感极限和情感程度;步骤2、对情感词匹配和情感词关系预处理,将语料库进行分词、文本分析、匹配本体库和评论句子中情感词,标注情感词的情感信息以及上下文对应的依存关系。其中,情感信息包含词的情感强度、情感极性和情感词词性;步骤3、情感计算和情感倾向判断。本发明能更精确的根据上下文进行情感分类。

Description

一种基于语义本体库中文文本情感分析方法
技术领域
本发明属于自然语言处理领域,特别涉及中文文本情感分析方法,提供一种基于语义本体库中文文本情感分析方法。
背景技术
随着互联网技术的快速发展,互联网上(包括门户网站、电子商务网站、社交网站、音/视频分享网站、论坛、博客、微博等)产生了海量的、由用户发表的对于诸如人物、事件、产品等目标实体的评论信息。与客观性文本不同的是,这些主观色彩浓厚的评论信息蕴含着大众舆论对上述目标实体的看法,对潜在用户、商家以及政府部门等具有十分重要的参考价值。然而,如果采用人工方式对这些海量信息进行收集和分析,显然是成本高昂、低效和困难的。利用计算机对非结构化的文本评论进行分类和提取的文本情感分析技术应运而生。
目前,国内外使用最多的文本情感分析方式有两种,一是基于机器学习的情感分析;二是基于语义规则的情感分析。机器学习方法包括有监督、无监督和半监督情感分析,其中有监督和半监督的机器学习方法中分类起的训练需要一定数量经过标注的训练样本,然而人工标注过程相当耗时费力,成本昂贵,无监督学习则是无需标注的。基于语义规则的文本倾向性研究中,研究者一般考虑词语,句子,段落和篇章等多个角度自底向上进行层次分析。通过规则计算情感词汇情感值,得到句子、段落以及篇章的整体情感值,从而获得最终的情感倾向信息。
传统的基于机器学习特征抽取SVM情感分类会出现上下文语义缺失,而本方法利用句法规则可以在结合语义前提进行情感分析,然后再结合SVM分类器,从而能更精确根据上下文进行情感分类。
发明内容
本发明针对现有技术中均存在情感分析方法的不足,提供了一种基于语义本体库中文文本情感分析方法,对中文文本进行更准确的判断。
本发明解决其技术问题所采用的技术方案具体包括以下步骤:
步骤1、获取关于目标对象一定数量的结构化评论组成待分析的语料库,根据权威机构提供的情感本体库,结合语料库通过语义分析泛化得到情感本体库,情感本体库包含情感极限和情感程度;
步骤2、对情感词匹配和情感词关系预处理,将语料库进行分词、文本分析、匹配本体库和评论句子中情感词,标注情感词的情感信息以及上下文对应的依存关系。其中,情感信息包含词的情感强度、情感极性和情感词词性;
步骤3、情感计算和情感倾向判断;
根据评论中情感信息以及依存关系,结合系统规则进行情感值计算,确定评论的情感倾向再结合机器学习方法二次处理,得到最终情感倾向结果;
进一步地,根据步骤1所述情感本体库构建,具体步骤如下:
步骤1-1.使用网络机构中现有权威的情感本体库,去掉重复词之后作为原始本体库。;
步骤1-2.从知网中下载同义词林,将原始本体库进行同义扩充;
步骤1-3.为了得到丰富的情感本体库,引入word2vec工具,该工具能根据输入样本泛化推理得到和情感词语义相似的词。首先,将评论数据通过word2vec训练,得到向量空间,将本体库内情感词输入与样本空间中的词做相似计算,取出相似排名靠前的5个相似词。使用SO_PMI公式分别计算本体库情感词和筛选出的相似词的相关度,筛选得到更为丰富的情感本体库。
SO_PMI定义了点互信息量的概念,用来计算两个词之间的语义相关性:
Figure BDA0001410927740000021
P(w1&w2)表示词w1和w2同时出现的概率,C(w1&w2)表示词w1和w2同时出现的次数,N代表频率;P(w1)表示词w1出现的概率,P(w2)表示词w2出现的概率;C(w1)表示词w1出现的次数,C(w2)表示词w2出现的次数;
对于未知情感的候选词语cw和情感强度i的基准情感词语集合BSWi;基于点互信息的语义倾向值SO_PMI(cw,BSWi)为候选词语cw和BSWi中所有的基准情感词语的点互信息之和:
Figure BDA0001410927740000031
最后,得到候选词语cw的情感倾向为:
Figure BDA0001410927740000032
Pwords表示正向种子词集,Nwords表示负向种子词集。
进一步地,根据步骤2情感词匹配和情感词关系预处理,具体步骤如下:
步骤2-1.利用分词工具和自定义用户词典进行分词,然后结合哈工大句法分析平台,将评论转换为tri-gram形式,组成语义依存关系队列。
步骤2-2.语义依存关系队列包含每个词的位置、词性标注以及前词后词的位置关系,能充分定位情感词的位置以及该情感词所修饰的名词;
2-2-1.通过匹配情感本体库,定位情感词的情感初始极性以及程度修饰权值。
2-2-2.得到情感词的位置信息,将情感词抽取出来构建情感词的特征列表。特征列表包含情感词的位置、情感极性和权值。
进一步地,根据步骤3情感计算和情感倾向判断,具体步骤如下:
步骤3-1.针对步骤2-1得到语义依存关系队列,构建本体库中匹配情感词信息,使用短语情感倾向评估法来近似计算评论的情感倾向。
步骤3-2.采用SVM分类器为后续未知情感极性评论进行分类。
对语料库中已标记过的评论进行训练,80%的评论作为训练集,20%的评论作为测试集。训练集的具体处理如下:
首先通过分词,删除停用词;
其次从步骤2-2中匹配情感词,并赋予情感词的权重;
然后将训练集中每条评论转换成特征向量,训练SVM分类器,再进行分类,结合上文规则判断结果得到最终评论情感倾向。
本发明有益效果如下:
利用评论样本的语义向量空间去对现有情感本体库每一个情感词进行同义扩充,从而能丰富原来的情感本体库使得情感分类更加精确。
利用句法规则可以在结合语义本体库前提进行情感分析,然后再结合SVM分类器进行二次处理,从而能更精确的根据上下文进行情感分类。
附图说明
图1为本发明情感分析方法的总体流程图。
图2为构建情感本体库的对应流程。
具体实施方式
下面结合附图对本发明作进一步说明。
如图1-2所示,一种基于语义本体库中文文本情感分析方法,具体包括如下步骤:
步骤1、获取关于目标对象一定数量的结构化评论组成待分析的语料库,根据权威机构提供的情感本体库,结合语料库通过语义分析泛化得到情感本体库,情感本体库包含情感极限和情感程度,如图2所示;
步骤2、对情感词匹配和情感词关系预处理,将语料库进行分词、文本分析、匹配本体库和评论句子中情感词,标注情感词的情感信息以及上下文对应的依存关系。其中,情感信息包含词的情感强度、情感极性和情感词词性;
步骤3、情感计算和情感倾向判断;
根据评论中情感信息以及依存关系,结合系统规则进行情感值计算,确定评论的情感倾向再结合机器学习方法二次处理,得到最终情感倾向结果;
如图2所示,进一步地,根据步骤1所述情感本体库构建,具体步骤如下:
步骤1-1.使用网络机构中现有权威的情感本体库,去掉重复词之后作为原始本体库。;
步骤1-2.从知网中下载同义词林,将原始本体库进行同义扩充;
步骤1-3.为了得到丰富的情感本体库,引入word2vec工具,该工具能根据输入样本泛化推理得到和情感词语义相似的词。首先,将评论数据通过word2vec训练,得到向量空间,将本体库内情感词输入与样本空间中的词做相似计算,取出相似排名靠前的5个相似词。使用SO_PMI公式分别计算本体库情感词和筛选出的相似词的相关度,筛选得到更为丰富的情感本体库。
SO_PMI定义了点互信息量的概念,用来计算两个词之间的语义相关性:
Figure BDA0001410927740000051
P(w1&w2)表示词w1和w2同时出现的概率,C(w1&w2)表示词w1和w2同时出现的次数,N代表频率;P(w1)表示词w1出现的概率,P(w2)表示词w2出现的概率;C(w1)表示词w1出现的次数,C(w2)表示词w2出现的次数;
对于未知情感的候选词语cw和情感强度i的基准情感词语集合BSWi;基于点互信息的语义倾向值SO_PMI(cw,BSWi)为候选词语cw和BSWi中所有的基准情感词语的点互信息之和:
Figure BDA0001410927740000052
最后,得到候选词语cw的情感倾向为:
Figure BDA0001410927740000061
Pwords表示正向种子词集,Nwords表示负向种子词集。
进一步地,根据步骤2情感词匹配和情感词关系预处理,具体步骤如下:
步骤2-1.利用分词工具和自定义用户词典进行分词,然后结合哈工大句法分析平台,将评论转换为tri-gram形式,组成语义依存关系队列。
步骤2-2.语义依存关系队列包含每个词的位置、词性标注以及前词后词的位置关系,能充分定位情感词的位置以及该情感词所修饰的名词;
2-2-1.通过匹配情感本体库,定位情感词的情感初始极性以及程度修饰权值。
2-2-2.得到情感词的位置信息,将情感词抽取出来构建情感词的特征列表。特征列表包含情感词的位置、情感极性和权值。
进一步地,根据步骤3情感计算和情感倾向判断,具体步骤如下:
步骤3-1.针对步骤2-1得到语义依存关系队列,构建本体库中匹配情感词信息,使用短语情感倾向评估法来近似计算评论的情感倾向。
步骤3-2.采用SVM分类器为后续未知情感极性评论进行分类。
对语料库中已标记过的评论进行训练,80%的评论作为训练集,20%的评论作为测试集。训练集的具体处理如下:
首先通过分词,删除停用词;
其次从步骤2-2中匹配情感词,并赋予情感词的权重;
然后将训练集中每条评论转换成特征向量,训练SVM分类器,再进行分类,结合上文规则判断结果得到最终评论情感倾向。

Claims (1)

1.一种基于语义本体库中文文本情感分析方法,其特征在于包括如下步骤:
步骤1、获取关于目标对象一定数量的结构化评论组成待分析的语料库,根据权威机构提供的情感本体库,结合语料库通过语义分析泛化得到情感本体库,情感本体库包含情感极限和情感程度;
步骤2、对情感词匹配和情感词关系预处理,将语料库进行分词、文本分析、匹配本体库和评论句子中情感词,标注情感词的情感信息以及上下文对应的依存关系;其中,情感信息包含词的情感强度、情感极性和情感词词性;
步骤3、情感计算和情感倾向判断;
根据评论中情感信息以及依存关系,结合系统规则进行情感值计算,确定评论的情感倾向再结合机器学习方法二次处理,得到最终情感倾向结果;
步骤1所述情感本体库构建,具体步骤如下:
步骤1-1.使用网络机构中现有权威的情感本体库,去掉重复词之后作为原始本体库;
步骤1-2.从知网中下载同义词林,将原始本体库进行同义扩充;
步骤1-3.为了得到丰富的情感本体库,引入word2vec工具,该工具能根据输入样本泛化推理得到和情感词语义相似的词;首先,将评论数据通过word2vec训练,得到向量空间,将本体库内情感词输入与样本空间中的词做相似计算,取出相似排名靠前的5个相似词;使用SO_PMI公式分别计算本体库情感词和筛选出的相似词的相关度,筛选得到更为丰富的情感本体库;
SO_PMI定义了点互信息量的概念,用来计算两个词之间的语义相关性:
Figure FDA0002300298520000021
P(w1&w2)表示词w1和w2同时出现的概率,C(w1&w2)表示词w1和w2同时出现的次数,N代表频率;P(w1)表示词w1出现的概率,P(w2)表示词w2出现的概率;C(w1)表示词w1出现的次数,C(w2)表示词w2出现的次数;
对于未知情感的候选词语cw和情感强度i的基准情感词语集合BSWi;基于点互信息的语义倾向值SO_PMI(cw,BSWi)为候选词语cw和BSWi中所有的基准情感词语的点互信息之和:
Figure FDA0002300298520000022
最后,得到候选词语cw的情感倾向为:
Figure FDA0002300298520000023
Pwords表示正向种子词集,Nwords表示负向种子词集;
步骤2情感词匹配和情感词关系预处理,具体步骤如下:
步骤2-1.利用分词工具和自定义用户词典进行分词,然后结合哈工大句法分析平台,将评论转换为tri-gram形式,组成语义依存关系队列;
步骤2-2.语义依存关系队列包含每个词的位置、词性标注以及前词后词的位置关系,能充分定位情感词的位置以及该情感词所修饰的名词;
2-2-1.通过匹配情感本体库,定位情感词的情感初始极性以及程度修饰权值;
2-2-2.得到情感词的位置信息,将情感词抽取出来构建情感词的特征列表;特征列表包含情感词的位置、情感极性和权值;
步骤3所述的情感计算和情感倾向判断,具体如下:
步骤3-1.针对步骤2-1得到语义依存关系队列,构建本体库中匹配情感词信息,使用短语情感倾向评估法来近似计算评论的情感倾向;
步骤3-2.采用SVM分类器为后续未知情感极性评论进行分类;
对语料库中已标记过的评论进行训练,80%的评论作为训练集,20%的评论作为测试集;训练集的具体处理如下:
首先通过分词,删除停用词;
其次从步骤2-2中匹配情感词,并赋予情感词的权重;
然后将训练集中每条评论转换成特征向量,训练SVM分类器,再进行分类,结合上文规则判断结果得到最终评论情感倾向。
CN201710841831.5A 2017-09-18 2017-09-18 一种基于语义本体库中文文本情感分析方法 Active CN107609132B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710841831.5A CN107609132B (zh) 2017-09-18 2017-09-18 一种基于语义本体库中文文本情感分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710841831.5A CN107609132B (zh) 2017-09-18 2017-09-18 一种基于语义本体库中文文本情感分析方法

Publications (2)

Publication Number Publication Date
CN107609132A CN107609132A (zh) 2018-01-19
CN107609132B true CN107609132B (zh) 2020-03-20

Family

ID=61060857

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710841831.5A Active CN107609132B (zh) 2017-09-18 2017-09-18 一种基于语义本体库中文文本情感分析方法

Country Status (1)

Country Link
CN (1) CN107609132B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108228569B (zh) * 2018-01-30 2020-04-10 武汉理工大学 一种基于松散条件下协同学习的中文微博情感分析方法
CN108363790B (zh) * 2018-02-12 2021-10-22 百度在线网络技术(北京)有限公司 用于对评论进行评估的方法、装置、设备和存储介质
CN108536671B (zh) * 2018-03-07 2021-12-21 世纪龙信息网络有限责任公司 文本数据的情感指数识别方法和系统
CN109376293A (zh) * 2018-05-17 2019-02-22 新华网股份有限公司 一种文本信息的过滤方法、装置和电子设备
CN108647191B (zh) * 2018-05-17 2021-06-25 南京大学 一种基于有监督情感文本和词向量的情感词典构建方法
CN108763203B (zh) * 2018-05-18 2022-11-11 大连民族大学 影评情感分析中使用特征词集将影评以特征向量表示的方法
CN109284499A (zh) * 2018-08-01 2019-01-29 数据地平线(广州)科技有限公司 一种行业文本情感获取方法、装置及存储介质
CN109213861B (zh) * 2018-08-01 2022-03-29 上海电力学院 结合At_GRU神经网络与情感词典的旅游评价情感分类方法
CN109388801B (zh) * 2018-09-30 2023-07-14 创新先进技术有限公司 相似词集合的确定方法、装置和电子设备
CN109582966A (zh) * 2018-12-03 2019-04-05 北京容联易通信息技术有限公司 一种信息匹配方法及装置
US11562592B2 (en) 2019-01-28 2023-01-24 International Business Machines Corporation Document retrieval through assertion analysis on entities and document fragments
CN109858973A (zh) * 2019-02-18 2019-06-07 成都中科大旗软件有限公司 一种区域旅游产业发展的分析方法
CN110427621B (zh) * 2019-07-23 2020-11-20 北京语言大学 一种汉语分类词语提取方法及系统
CN113158684B (zh) * 2021-04-21 2022-09-27 清华大学深圳国际研究生院 一种情绪分析方法、情绪提醒方法及情绪提醒控制装置
CN113076490B (zh) * 2021-04-25 2023-03-24 昆明理工大学 一种基于混合节点图的涉案微博对象级情感分类方法
CN113420122A (zh) * 2021-06-24 2021-09-21 平安科技(深圳)有限公司 分析文本的方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663046A (zh) * 2012-03-29 2012-09-12 中国科学院自动化研究所 一种面向微博短文本的情感分析方法
CN105005553A (zh) * 2015-06-19 2015-10-28 四川大学 基于情感词典的短文本情感倾向分析方法
CN105022805A (zh) * 2015-07-02 2015-11-04 四川大学 一种基于so-pmi商品评价信息的情感分析方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663046A (zh) * 2012-03-29 2012-09-12 中国科学院自动化研究所 一种面向微博短文本的情感分析方法
CN105005553A (zh) * 2015-06-19 2015-10-28 四川大学 基于情感词典的短文本情感倾向分析方法
CN105022805A (zh) * 2015-07-02 2015-11-04 四川大学 一种基于so-pmi商品评价信息的情感分析方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于HowNet和PMI的词语情感极性计算;王振宇等;《计算机工程》;20120831;第38卷(第15期);第187-193页 *
杜振雷.面向微博短文本的情感分析研究.《中国优秀硕士学位论文全文数据库信息科技辑》.2014,(第06期),第1-81页. *
面向微博短文本的情感分析研究;杜振雷;《中国优秀硕士学位论文全文数据库信息科技辑》;20140615(第06期);第1-81页 *

Also Published As

Publication number Publication date
CN107609132A (zh) 2018-01-19

Similar Documents

Publication Publication Date Title
CN107609132B (zh) 一种基于语义本体库中文文本情感分析方法
Koto et al. Inset lexicon: Evaluation of a word list for Indonesian sentiment analysis in microblogs
CN106776581B (zh) 基于深度学习的主观性文本情感分析方法
WO2020000848A1 (zh) 面向海量非结构化文本的知识图谱自动构建方法及系统
CN109726745B (zh) 一种融入描述知识的基于目标的情感分类方法
CN108563638B (zh) 一种基于主题识别和集成学习的微博情感分析方法
Soliman et al. Sentiment analysis of Arabic slang comments on facebook
CN110209818B (zh) 一种面向语义敏感词句的分析方法
Kaur Incorporating sentimental analysis into development of a hybrid classification model: A comprehensive study
CN106933800A (zh) 一种金融领域的事件句抽取方法
CN112069312B (zh) 一种基于实体识别的文本分类方法及电子装置
CN110598219A (zh) 一种面向豆瓣网电影评论的情感分析方法
CN112434164B (zh) 一种兼顾话题发现和情感分析的网络舆情分析方法及系统
Chang et al. A METHOD OF FINE-GRAINED SHORT TEXT SENTIMENT ANALYSIS BASED ON MACHINE LEARNING.
Algburi et al. Comparative analysis for arabic sentiment classification
Jagadeesan et al. Twitter Sentiment Analysis with Machine Learning
CN111159405B (zh) 基于背景知识的讽刺检测方法
CN112632272A (zh) 基于句法分析的微博情感分类方法和系统
Sharma et al. Lexicon a linguistic approach for sentiment classification
Sindhu et al. Sentiment analysis and opinion summarization of product feedback
Zhu et al. YUN111@ Dravidian-CodeMix-FIRE2020: Sentiment Analysis of Dravidian Code Mixed Text.
Zadgaonkar et al. An Approach for Analyzing Unstructured Text Data Using Topic Modeling Techniques for Efficient Information Extraction
Jiang et al. Network public comments sentiment analysis based on multilayer convolutional neural network
Xie et al. Knowledge graph construction for intelligent analysis of social networking user opinion
Qin et al. A semantic-based framework for fine grained sentiment analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20180119

Assignee: Hangzhou Yuanchuan New Technology Co.,Ltd.

Assignor: HANGZHOU DIANZI University

Contract record no.: X2020330000104

Denomination of invention: A sentiment analysis method for Chinese text based on Semantic Ontology

Granted publication date: 20200320

License type: Common License

Record date: 20201125