CN105095190A - 一种基于中文语义结构和细分词库结合的情感分析方法 - Google Patents
一种基于中文语义结构和细分词库结合的情感分析方法 Download PDFInfo
- Publication number
- CN105095190A CN105095190A CN201510525999.6A CN201510525999A CN105095190A CN 105095190 A CN105095190 A CN 105095190A CN 201510525999 A CN201510525999 A CN 201510525999A CN 105095190 A CN105095190 A CN 105095190A
- Authority
- CN
- China
- Prior art keywords
- text
- emotion
- word
- semantic
- measured
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
Abstract
本发明涉及一种基于中文语义结构和细分词库结合的情感分析方法,所述情感分析方法包括:1)在计算机系统中输入至少由一个语句组成的待测文本;2)对待测文本的每一语句进行分词处理,标注每一语句中的情感词和其它词;3)对经分词处理的待测文本进行匹配,得到每一语义单元的语义模式;4)将待测文本的每一语义单元的语义模式对应为情感值,并将文本中所有语义单元的情感值进行累加,得到待测文本的情感值。本发明从非结构化文本中切分出情感词、连接词、转折词等,根据各词的实际排列,匹配句型模式,得到语义单元情感值,根据语义单元情感值综合计算句子情感值,达到量化财经新闻评论句子情感值的目的。
Description
技术领域
本发明涉及一种基于中文语义结构和细分词库结合的情感分析方法,尤其涉及一种应用于中文财经新闻评论句子级文本的情感分析方法,属于计算机科学技术、财经学、语言学的交叉学科。
背景技术
自然语言处理在1950年由图灵提出,至今已有60多年的发展历程。文本情感分析是自然语言处理近十年的新兴研究方向。文本情感分析是对带有情感色彩的主观性文本进行分析、处理、归纳和推理,从而得到文本的正负面或褒贬义的机器自动识别和判断。最初的情感分析源自对带有情感色彩的词语的分析,如各种褒义词或贬义词。随着互联网上带有情感色彩的大量的主观性文本的出现,研究重点逐步过渡到对更为复杂的情感语句或情感篇章的研究。
国内关于情感分析的研究主要集中在倾向度分析,其中包括两个重要方向。一个方向是以中科院谭松波的文本情感倾向度分析方法为代表,基于大规模情感语料库,计算词汇与上下文的统计特性,作为情感倾向值。另一个方向以中科院董振东提出的知网体系为代表,基于语义网,根据概念的上下位、同反义等关系,获得概念距离,得到情感倾向值。本发明中的情感计算类似于后者,建立在语义规则的基础之上,但同时又带有前者的风格,统计叠加情感单元的情感值,作为句子的最终情感。
自然语言处理建立在词的基础之上,词是表达语义的最小单位。对于西方语言,词之间有明确的分界符,统计和使用语言模型非常直接。而对于中文等语言,词之间没有明确的分界符,若要进行自然语言处理,必须首先对句子进行分词。现在的一些分词程序专业性不强,只能对一些常用的普通词汇进行分词,而要得到某专业内的常用词汇或专业词汇,必须在分词词典中添加上该行业的特定词汇。
目前常用的文本情感分析方法更多的是对情感词的识别,在此基础上将文本中所有情感词的极性进行累加,最后得到整个文本的极性,从而实现对文本的情感分类。其中对情感词的研究更多地集中在情感词的褒贬分类上。
在语义模式匹配中,更多的是根据中文句型的样式人工标注句型结构,这样的句型结构太过通用,不能很好地与情感词句型结构匹配,导致句型不适合情感匹配。
发明内容
本发明旨在克服现有文本情感分析方法的缺陷,本发明提供了一种基于中文语义结构和细分词库结合的情感分析方法。
本发明提供了一种基于中文语义结构和细分词库结合的情感分析方法,其特征在于,所述情感分析方法包括:
1)在计算机系统中输入至少由一个语句组成的待测文本;
2)通过计算机系统的分词模块对待测文本的每一语句进行分词处理,标注每一语句中的情感词和其它词,其中,
所述分词模块通过计算机中存储的字典,标注每一语句中的情感词和其它词,所述字典中词汇被分类为情感词类和其它词类;
所述字典中情感词汇的分类标注表如下:
所述字典中其它词类标注表如下:
3)通过计算机系统的语义模式匹配模块,对经分词处理的待测文本进行匹配,得到每一语义单元(指能够匹配语义模式的文本片段)的语义模式,其中,所述语义单元是指待测文本的每一语句中能够匹配语义模式的文本片段;
所述语义模式匹配表包括:
模式 | 情感值 |
VPS | 1 |
VNS | -1 |
VPS:NP | 1 |
VPS:NN | -1 |
VNS:NP | -1 |
VNS:NN | 1 |
NP:VPC | 1 |
NP:VNC | -1 |
NN:VPC | -1 |
NN:VNC | 1 |
NP:COMMA:COMP:VPC | 1 |
NP:COMMA:COMP:VNC | -1 |
NN:COMMA:COMP:VNC | 1 |
NN:COMMA:COMP:VPC | -1 |
NP:COMP:VNC | -1 |
NP:COMP:VPC | 1 |
NN:COMP:VPC | -1 |
NN:COMP:VNC | 1 |
NP:VN | -1 |
VPS:NP:COMMA:COMP:VNC | -1 |
NP:VPS | 1 |
NP:SUFF:VNO | -1 |
VNO:NP | -1 |
NP:VNN | -1 |
VP:NP | 1 |
VP:NN | -1 |
NN:VPS | -1 |
NP:COMMA:NN | -1 |
TURN:VP | 1 |
NOT:NP | -1 |
NOT:VP | -1 |
NOT:NN | 1 |
NOT:VN | 1 |
VPS:TURN:VN | -1 |
VNS:TURN:VP | 1 |
VNS:VN | -1 |
;
4)通过计算机系统的情感分析模块,将待测文本的每一语义单元的语义模式对应为情感值,并将文本中所有语义单元的情感值进行累加,得到待测文本的情感值,其中,当某一语句中出现没有匹配语义模式的剩余的否定词时,该语句中否定词之后的语义单元的情感值×(-1),再参与所述文本中所有语义单元的情感值累加的计算;
当某一语句中出现没有匹配语义模式的剩余的反转词时,该语句中反转词之后的语义单元的情感值×2,再参与所述文本中所有语义单元的情感值累加的计算;
当某一语句中出现没有匹配语义模式的剩余的否定词和反转词时,该语句中否定词和反转词之后的语义单元的情感值×(-1)×2,再参与所述文本中所有语义单元的情感值累加的计算;
5)当待测文本的情感值大于1的时候,判定待测文本的情感值为正面,标注为1,
当待测文本的情感值小于1的时候,判定待测文本的情感值为负面,标注为-1,
无模式匹配或叠加情感为0时,判定待测文本的情感为中性,标注为0。
本发明从非结构化文本中切分出情感词、连接词、转折词等,根据各词的实际排列,匹配句型模式,得到语义单元情感值,根据语义单元情感值综合计算句子情感值,达到量化财经新闻评论句子情感值的目的;
以满足语义模式的情感单元而不是情感词为单位进行情感分析,最大程度上保证了情感叠加单元的情感准确度,从而获得文本更准确的情感结果;由于细分词库,更好地匹配情感语义模式,以语义分析为主,统计叠加情感单元情感值为辅,凝聚了中文语义分析和统计分析的精华;
本发明针对目前财经情感分析领域中对情感词的分类不具体,导致只能对情感词叠加得到文本总情感值,从而准确率和可信度偏低的问题。在中文文本财经领域,对领域内的常用词汇、专业词汇细分为几十个子类的情况尚属首次,有效地解决了情感词分类过于笼统,文本情感值完全基于以情感词为单位统计叠加的问题。本发明句型模式的积累采用统计方法,根据分词标注的情感值与其他否定词、反转词等的不同排列组合,统计得到句型结构出现概率大的几十种模式,满足了以情感词为主体的文本的句型匹配,同时大大提高了句型匹配率。
较佳地,所述待测文本包括以唯一句子结束符结尾的待测文本(即所述待测文本为一段文本,含有至少一个语句,该段文本中只含有一个句子结束符且句子结束符在该段话的尾部);当然所述待测文本中也可以包含有多个句子结束符;
所述待测文本的输入采用网络爬虫在网络中抓取、切分得到。
较佳地,所述情感字典包括《知网》、《台湾大学情感词典》、《褒义词词典》、《贬义词词典》、以及待测文本所属领域的专业情感词典。
情感词典分为基础情感词典和专业情感词典。基础情感词典包括《知网》、《台湾大学情感词典》、《褒义词词典》、《贬义词词典》提供的情感词汇,通过去重处理,得到基础情感词典。专业情感词典即财经领域情感词典,主要从《证券投资分析》、《经济学词典》中获取财经词汇。另外,因为本发明主要是对网络爬虫抓取的财经新闻评论文本和股吧论坛的文本进行情感分析,所以人工提取了2013年至2015年所抓取数据的网络词和财经新闻用词,并分析其情感色彩,扩充财经情感词库,使情感词典更适合网络财经新闻文本的情感分析,大大提高了情感识别率和准确率。
较佳地,待测文本属于财经领域,所述情感词典还包括《证券投资分析》、《经济学词典》。
较佳地,所述词典还包括从爬虫抓取的近五万条财经评论短文本的网络常用财经词汇和其他网络情感术语,即所述词典还包括通过爬虫抓取的网络财经词汇和其它网络情感术语。
较佳地,所述分词模块采用双向最大匹配算法识别待测文本中长短词汇或短语。
为了更好地匹配财经新闻评论中出现的词语,让机器更大化地理解文本的意义,尽量识别长短语即尽可能多地获取更长的信息将有助于机器情感分析。基于双向最大匹配算法的分词模块能更好地识别出文本长短语,使情感分析更准确。
较佳地,所述句子语义模式匹配模块采用最右优先匹配算法:从待测文本中语句的END结束符开始,自右向左扫描整个语句,与《语义模式匹配表》(即《句子情感模式匹配表》)中预设的模式进行匹配,采用最长匹配的原则,优先匹配《句子情感模式匹配表》中的长模式,得到模式对应的情感值,即为该情感单元的情感值;然后将各情感单元的情感值进行累加,得到语句的累加情感值。
采用最右匹配的原则是根据中文语言的特点来决定的。中文表达中,重要的观点是在句子的后半段提出,因而情感值以最右匹配为标准。
又,本发明还提供了一种包含上述情感分析方法的多个待测文本情感分析方法,所述多个待测文本的情感分析方法包括:
首先,在计算机系统中同时输入首尾依次连接多个待测文本;
其次,采用权利要求1-9中任一所述的情感分析方法,分析出多个待测文本中每一待测文本的情感值;
再者,将每一待测文本的情感值,从最后一个待测文本开始,依次向前累加。
较佳地,所述累加为:从后向前,从右向左,依次向前累加。
本发明的有益效果:
1.专业的基于中文财经词汇的分词模块。普通分词程序专业性不强,只能对一些常用的普通词汇进行分词,而要得到某专业内的常用词汇或专业词汇,必须在分词词典中添加上该行业的特定词汇。建议基于财经词汇的专业分词模块是本发明至关重要的环节;
2.全面的中文财经情感词典。情感词典分为基础情感词典和专业情感词典。基础情感词典包括《知网》、《台湾大学情感词典》、《褒义词词典》、《贬义词词典》提供的情感词汇,通过去重处理,得到基础情感词典。专业情感词典即财经领域情感词典,主要从《证券投资分析》、《经济学词典》中获取财经词汇。另外,因为本发明主要是对网络爬虫抓取的财经新闻评论文本和股吧论坛的文本进行情感分析,所以人工提取了2013年至2015年所抓取数据的网络词和财经新闻用词,并分析其情感色彩,扩充财经情感词库,使情感词典更适合网络财经新闻文本的情感分析,大大提高了情感识别率和准确率;
3.详细的情感词分类。目前常用的文本情感分析方法对情感词的研究更多地集中在情感词的褒贬分类上。本发明针对目前财经情感分析领域中对情感词的分类不具体,导致只能对情感词叠加得到文本总情感值,从而准确率和可信度偏低的问题。在中文文本财经领域,对领域内的常用词汇、专业词汇细分为几十个子类的情况尚属首次,有效地解决了情感词分类过于笼统,文本情感值完全基于对其中出现的情感词统计叠加的问题;
4.语义模式的匹配建立在情感词排列统计的基础之上,使用的是基于情感词的语义模式组合。在语义模式匹配中,更多的是根据中文句型的样式人工标注句型结构,如主谓宾结构。这样的句型结构太过通用,不能很好地与情感词句型结构匹配,导致句型不适合情感匹配。本发明句型模式的积累采用统计方法,根据分词标注的情感值与其他否定词、反转词等的不同排列组合,统计得到句型结构出现概率大的几十种模式,满足了情感文本的情感句型匹配和识别;
5.由于细分词库,更好地匹配情感语义模式,以语义分析为主,统计叠加情感单元情感值为辅,凝聚了中文语义分析和统计分析的精华。以满足语义模式的情感单元而不是情感词为单位进行情感分析,最大程度上保证了情感叠加单元的情感准确度,从而获得文本更准确的情感结果。
附图说明
图1示出了本发明一个实施例中情感分析方法的步骤示意图。
具体实施方式
以下结合附图和下述实施方式进一步说明本发明,应理解,附图及下述实施方式仅用于说明本发明,而非限制本发明。
本发明提出一种基于中文语义结构和细分词库结合的情感分析方法,尤其涉及一种应用于中文财经新闻评论句子级文本的情感分析方法,属于计算机科学技术、财经学、语言学的交叉学科。其中包括情感词典、分词模块、语义模式库、情感分析模块四大部分。它们之间的关系如图1所示。
财经文本(可以作为待测文本)短句来源:网络爬虫全网抓取,选定特定的财经新闻评论数据源,并切分成短句。
分词模块:采用双向最大匹配算法,匹配出所有字串形成的最长词语。
语义模式匹配模块:根据情感词、否定词、连接词、反转词、比较词等的排列组合模式,统计提取出出现几率比较大的几十种模式,并按照实际句子的情感人工给出模式的情感值。
情感分析模块:根据语义模式匹配的结果综合得到句子情感值。
情感值输出:句子情感值,最终结果大于1则判定情感值为正面,小于-1则判定情感值为负面,无模式匹配或情感单元叠加后值为0则情感值为0,判为中性情感。
1.分词模块
该模块完成的功能包括:对财经新闻评论文本进行断句和分词处理,最大化地提取出财经情感词汇或短语,根据情感词典,对情感词汇或情感短语进行属性标注。
分词模块的前期工作:为了使分词词典更全面地覆盖尽可能多的财经词汇,在基础词库的基础之上,采用人工提取和筛选的方法,从网络爬虫获取的近五万条新闻评论语料库中人工提取财经词汇和短语,尤其是财经情感分析需要的词汇、短语和网络习惯用语添加进分词词典中,从而使分词模块能够识别财经词汇或短语,更专业化地针对财经文本进行处理。
分词模块的算法:基于双向最大匹配算法。为了更好地匹配财经新闻评论中出现的词语,让机器更大化地理解文本的意义,尽量识别长短语即尽可能多地获取更长的信息将有助于机器情感分析。基于双向最大匹配算法的分词模块能更好地识别出文本长短语,使情感分析更准确。
下面详细地介绍情感标注的标准:
(1)断句的标注。模块中将“。”、“;”、“!”、“?”、“……”作为句子结束的标志,标注符为END,其他表示句子未结束,进行句中间隔的标点符号如“,”、“、”,标注为COMMA;
(2)情感词的标注。参考情感词库中的情感词分类,对存在于情感词库中的情感词的属性进行标注。分词属性的标注按照情感词类和辅助类进行标注,情感词类共分为14类,分别是八类不及物动词,四类及物动词(包括形容词)和两类名词。
表1情感分类标注表
表2其它词类标注表:
2.情感词典
情感词典分为两部分:基础情感词典和专业情感词典。基础情感词典包括《知网》、《台湾大学情感词典》、《褒义词词典》、《贬义词词典》提供的情感词汇,通过去重处理,得到基础情感词典。专业情感词典即财经领域情感词典,主要从《证券投资分析》、《经济学词典》中获取财经词汇。另外,因为本发明主要是对网络爬虫抓取的财经新闻评论文本和股吧论坛的文本进行情感分析,所以人工提取了2013年至2015年所抓取数据的网络词和财经新闻用词,并分析其情感色彩,扩充财经情感词库,使情感词典更适合网络财经新闻文本的情感分析,从而大大提高了情感识别率和准确率。
3.语义模式匹配模块
情感词分类识别之后,就可以判断整个句子的情感值。本发明建立了专门适用于以句子为单位的情感模式匹配模块,根据各类情感词的排列规则,统计出几十种可供句子情感匹配的模式条目,只有分析的句子符合诸如表3所列条目的一种,才综合计算和赋予句子情感值。
表3句子情感模式匹配表(语义模式匹配表)
4.情感分析模块
情感分析模块根据情感词的分类排列,与语义模式进行匹配,按照最右优先匹配的方法与表3的语义模式进行匹配,得到每个情感单元的情感值。
最右优先匹配的算法是:从分词标注的END结束符(即句子结束符)开始,自右向左扫描整个句子,与表3中预设的模式进行匹配,采用最长匹配的原则,优先匹配表3中的长模式,得到模式对应的情感值,即为该情感单元的情感值。然后将各情感单元的情感强度进行累加,得到句子的累加情感值。采用最右匹配的原则是根据中文语言的特点来决定的。中文表达中,重要的观点是在句子的后半段提出,因而情感语义模式的匹配以最右匹配为标准。
情感单元累加公式如式1:
其中,S表示句子,E(S)表示整个句子的情感总值,m表示该句中情感单元的个数,Si表示单个情感单元,E(Si)表示单个情感单元的情感值。
当句子中出现单独的否定词、反转词而无模式匹配,或出现句子结束符时,作如下处理,如式2:
说明,E(Sp)为单独的否定词、反转词之后的情感单元(可能不止一个)的情感值之和,并将其称为当前情感值;E(Sq)为当前情感值E(Sp)经过下述处理后得到的情感值,用于和否定词、反转词之前的情感单元(可能不止一个)的情感值进行累加,形成该语句的情感值。当句子中出现无模式匹配的TURN和NOT类词汇时,将当前情感值做一处理:如果是TURN类词语,当前情感值乘以2,即情感加倍,重在强调TURN后的情感;如果是NOT类词语,当前情感值乘以-1,即当前情感值取反。
当文本由两条或两条以上语句组成,例如分别在文本中间部分和结尾处出现END类句子结束符,即这个文本包括了由两个句子结束符分割形成的两段话。这样文本的情感值计算方式可以为:先计算后一段话的情感值,并将该情感值乘以1,然后继续向左扫描属性词、匹配语义模式得到前面一段话的情感值,并做后续的叠加计算。
当同时对多个首尾连接的待测文本进行情感分析(即在由多个待测文本组成的长文本的除结尾的其它部位会出现句子结束符)时,先通过本发明中对于单个待测文本的情感分析方法,分析单个待测文本的情感值并将该单个待测文本的情感值×1,然后将多个待测文本的情感值累加(优选从后往前、从右往左依次累加),从而得到多个待测文本的情感值。
基于语义模式的中文财经新闻评论文本情感分析算法描述如下:
输入:中文财经新闻评论文本,以句子为单位;
输出:文本情感倾向值(1、0、-1);
1)文本预处理(分词和词类标注,根据表1和表2的词语分类进行标注);
2)语义模式匹配(根据表3匹配句子模式),按照最右匹配的原则;
3)根据表3和式1、2,计算情感句中每个情感单元的情感值并求得该情感句的情感加和;
4)根据情感加和的结果折算最终情感值,折算公式如式3。
式3:
解释:当句子无语义模式匹配或叠加情感单元后情感值为0,取中性情感值;当情感值大于0时,情感倾向值判为1,取正面情感值;当情感值小于0时,情感倾向值判为-1,即取负面情感值。
下面进一步例举实施例以详细说明本发明。同样应理解,以下实施例只用于对本发明进行进一步说明,不能理解为对本发明保护范围的限制,本领域的技术人员根据本发明的上述内容作出的一些非本质的改进和调整均属于本发明的保护范围。下述示例具体的工艺参数等也仅是合适范围中的一个示例,即本领域技术人员可以通过本文的说明做合适的范围内选择,而并非要限定于下文示例的具体数值。
实施例1
使用四个句子进行分析,其中句1中模式匹配反转词、否定词,句2为正常陈述句,句3中无模式匹配反转词、否定词,句4含有比较词、独立否定词和多个句子结束符。
1.然而在完成金地源地块抵押后,浦发银行贷款并未如期下放,宋元刚的企业也遭到了金融机构抽贷。
2.该方案采用中国移动和浦发银行的系统对接,利用各自强大的电子化信息处理手段,实现业务全流程在线处理,提高业务办理效率。
3.今天中国多项重要经济数据密集公布,但各项数据基本上都显示出了经济并没有如预期那样稳步回暖。
4.绿盟科技(300369)8月13日晚间公告,上半年业绩同比大幅下滑,亿赛通未来经营业绩存在重大不确定性。绿盟科技表示,如亿赛通2015年完不成业绩承诺,公司将无法达到于2014年9月所做业绩预测。
第一步,上述四个句子在分词模块分词标注后,句子的格式如下。
1.然而[turn]在完成[vp]金地源地块抵押[vn]后,[comma]浦发银行[stock]贷款并未[not]如期[vp]下放,[comma]宋元刚的企业也遭到[vns]了金融机构抽贷[vn]。[end]
2.该方案采用[vps]中国移动[stock]和浦发银行[stock]的系统对接,[comma]利用[vns]各自强大的[vp]电子化信息处理手段[nn],[comma]实现[vps]业务全流程在线处理,[comma]提高[vp]业务办理效率[np]。[end]
3.今天中国多项重要[vp]经济数据密集公布,[comma]但[turn]各项数据基本上都显示出了经济并没有[not]如预期那样稳步[vp]回暖[np]。[end]
4.绿盟科技[stock](300369[stock])8月13日晚间公告,[comma]上半年业绩[np]同比[comp]大幅下滑[vnc],[comma]亿赛通未来经营[vps]业绩[np]存在[vn]重大[vp]不确定性[nn]。[end]绿盟科技[stock]表示,[comma]如亿赛通2015年完不成[vns]业绩[np]承诺,[comma]公司将无法[not]达到[vps]于2014年9月所做业绩[np]预测。[end]
第二步,在语义模式匹配模块匹配后,分别满足下列模式:
1.【VNS:VN】+【NOT:VP】+【VN】+【TURN:VP】;
2.【VP:NP】+【VPS】+【VP:NN】+【VNS】+【VPS】;
3.【VP:NP】*【NOT】*【TURN】+【VP】;
4.(【VPS:NP】*【NOT】+【VNS:NP】)*【END】+【VP:NN】+【NP:VN】+【VPS】+【NP:COMP:VNC】;
注:[stock]类关键字词汇是本发明的后续应用,与此处实施例无关。
第三步,情感分析模块的计算过程与结果如下:
1.【VNS:VN】+【NOT:VP】+【VN】+【TURN:VP】=-1-1-1+1=-2<0,句子最终情感值为-1;
2.【VP:NP】+【VPS】+【VP:NN】+【VNS】+【VPS】=1+1-1-1+1=1>0,句子最终情感值为1;
3.【VP:NP】*【NOT】*【TURN】+【VP】=1*(-1)*2+1=-1<0,句子最终情感值为-1;
4.(【VPS:NP】*【NOT】+【VNS:NP】)*【END】+【VP:NN】+【NP:VN】+【VPS】+【NP:COMP:VNC】=(1*(-1)-1)*1-1-1+1-1=-4<0,句子最终情感值为-1。
上述4个基于本发明的语义情感单元叠加最终结果对比常见的基于大规模情感语料库的情感词汇统计算法,情况如下:
常见的基于大规模情感语料库的情感词汇统计算法,思想是叠加句子中的情感词,投票表决或以多取胜最终情感偏好,简单地可理解为正负面情感词汇比多少的问题,因此我们将统计算法简化,即采用直接叠加上述1.2.3.4四个示例句子中的情感词,得到结果如下:
1.完成[vp]+抵押[vn]+如期[vp]+遭到[vns]+抽贷[vn卜l一1+l—l—l=一1<0,情感偏负面;
2.采用[vps]+利用[vns]+强大的[vp]+手段[nn]+实现[vps]+提高[vp]+效率[叩卜l一1+l一1+1+1+l=3>0,情感偏正面;
3.重要[vp]+稳步[vp]+回暖[叩卜1+1+l=3>0,情感偏正面;
4.业绩[叩]+大幅下滑[vnc]+经营[vps]+业绩[叩]+存在[vn]+重大[vp]+不确定性[nn]+完不成[vns]+业绩[叩]+达到[vps]+业绩[叩卜l一1+1+l一1+l—l一1+1+1+l=3>0,情感偏正面。
可见,采用统计思想在一股无转折的语句中可以达到基本正确计算句子情感值的目的,但是在带有否定词或反转词的句子中,如第3、4两句,得到的统计情感值有可能会与实际情感相反。而本发明中对于反转词和否定词等的算法处理可以在一定情况下避免情感错判,效果较好,如句l、句3和句4,而同时对一股语句的情感判断也能正确分析,如句2。
实施例2
实际运行演示情感程序启动,读入词典,等待分析文本的调用:
rootmatidata:/www/ubuntu/EmotionAnal/HttpServer#./httpserver8002
loadingdata/PDbasic_word.wdc
loadingdata/basic_word.wdc
loadingdata/PDbasic_nr.wdc
loadingdata/basic_nr.wdc
loadingdata/PDbasic_nrf.wdc
loadingdata/basic_nrf.wdc
loadingdata/PDbasic_nrj.wdc
loadingdata/basic_nrj.wdc
loadingdata/PDcomplex_nr.pdc
loadingdata/complex_nr.pdc
loadtngdata/PDbasic_ns.wdc
loadingdata/basic_ns.wdc
loadingdata/PDbasic_nsf.wdc
loadingdata/basic_nsf.wdc
loadingdata/PDcomplex_ns.pdc
loadingdata/complex_ns.pdc
loadingdata/PDbasic_nt.wdc
loadingdata/basic_nt.wdc
loadingdata/PDcomplex_nt.pdc
loadingdata/complex_nt.pdc
loadingdata/cue_words.wdc
loadingdata/lower_words.wdc
情感分析服务启动,加载词库,实时监听端口,等待数据请求。
情感分析程序读入实时中文财经新闻文本,分析句子的情感值:
Messagefromclient(120):{″id″:1,″title″:″广州北计划建航空大都市圆内外专家支招″,″text″:″白云机场,″,″stockcode″:″600004″}
Messagefromclient(258):{″id″:1,″title″:″广州北计划建航空大都市国内外专家支招″,″text″:″广东省社会科学院专家丁力则表示,广州白云机场在珠三角虽然有很多姐妹机场,但是在广东省是毫无疑问的老大,″,″stockcode″:″600004″}
Messagefromclient(344):{″id″:1,″title″:″军工人气爆棚据金翻倍潜力股(名单)″,″text″:″分析认为,军民融合将开启航空股黄金时代,A股市场民航机场概念股上海机场(600009)、深圳机场(000089)、厦门空港(600897)、白云机场(600004)等,有望直接受益于军民合用机场管理制度推进,″,″stockcode″:″600004″}
情感分析服务器端接收调用数据进行分析,返回新闻文本的标题情感值和内容情感值。
情感值返回界面,保存到数据库服务器中:
hmsenttitle:1text:1
getJsonStringReceived:{"id":1,"title":-1,"text":1}
hmsenttitle:-1text:1
getJsonStringReceived:{"id":1,"title":-1,"text":0}
hmsenttitle:-1text:0
getJsonStringReceived:{"id":1,"title":1,"text":1}
客户端得到的情感值,保存到对应该条新闻评论的数据库。
Claims (8)
1.一种基于中文语义结构和细分词库结合的情感分析方法,其特征在于,所述情感分析方法包括:
1)在计算机系统中输入至少由一个语句组成的待测文本;
2)通过计算机系统的分词模块对待测文本的每一语句进行分词处理,标注每一语句中的情感词和其它词,其中,
所述分词模块通过计算机中存储的字典,标注每一语句中的情感词和其它词,所述字典中词汇被分类为情感词类和其它词类;
所述字典中情感词汇的分类标注表如下:
所述字典中其它词类标注表如下:
3)通过计算机系统的语义模式匹配模块,对经分词处理的待测文本进行匹配,得到每一语义单元的语义模式,其中,所述语义单元是指待测文本的每一语句中能够匹配语义模式的文本片段;
所述语义模式匹配表包括:
4)通过计算机系统的情感分析模块,将待测文本的每一语义单元的语义模式对应为情感值,并将文本中所有语义单元的情感值进行累加,得到待测文本的情感值,其中,
当某一语句中出现没有匹配语义模式的剩余的否定词时,该语句中否定词之后的语义单元的情感值×(-1),再参与所述文本中所有语义单元的情感值累加的计算;
当某一语句中出现没有匹配语义模式的剩余的反转词时,该语句中反转词之后的语义单元的情感值×2,再参与所述文本中所有语义单元的情感值累加的计算;
当某一语句中出现没有匹配语义模式的剩余的否定词和反转词时,该语句中否定词和反转词之后的语义单元的情感值×(-1)×2,再参与所述文本中所有语义单元的情感值累加的计算;
5)当待测文本的情感值大于1的时候,判定待测文本的情感值为正面,标注为1,
当待测文本的情感值小于1的时候,判定待测文本的情感值为负面,标注为-1,
无模式匹配或叠加情感为0时,判定待测文本的情感为中性,标注为0。
2.根据权利要求1所述的情感分析方法,其特征在于,所述待测文本包括以唯一句子结束符结尾的待测文本或者含有多个句子结束符的待测文本;
所述待测文本的输入采用网络爬虫在网络中抓取、切分得到。
3.根据权利要求1或2所述的情感分析方法,其特征在于,所述字典包括《知网》、《台湾大学情感词典》、《褒义词词典》、《贬义词词典》、以及待测文本所属领域的专业情感词典。
4.根据权利要求1-3中所述的情感分析方法,其特征在于,待测文本属于财经领域,所述词典还包括《证券投资分析》、《经济学词典》。
5.根据权利要求1-4中任一所述的情感分析方法,其特征在于,所述词典还包括从爬虫抓取的近五万条财经评论短文本的网络常用财经词汇和其他网络情感术语。
6.根据权利要求1-5中任一所述的情感分析方法,其特征在于,所述分词模块采用双向最大匹配算法识别待测文本中长短词汇或短语。
7.根据权利要求1-6中任一所述的情感分析方法,其特征在于,所述句子语义模式匹配模块采用最右优先匹配算法:从待测文本中语句的END结束符开始,自右向左扫描整个语句,与《语义模式匹配表》中预设的模式进行匹配。
8.根据权利要求1-7中任一所述的情感分析方法,其特征在于,采用最长匹配的原则,即匹配《语义模式匹配表》中的长模式,得到模式对应的情感值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510525999.6A CN105095190B (zh) | 2015-08-25 | 2015-08-25 | 一种基于中文语义结构和细分词库结合的情感分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510525999.6A CN105095190B (zh) | 2015-08-25 | 2015-08-25 | 一种基于中文语义结构和细分词库结合的情感分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105095190A true CN105095190A (zh) | 2015-11-25 |
CN105095190B CN105095190B (zh) | 2018-01-12 |
Family
ID=54575662
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510525999.6A Expired - Fee Related CN105095190B (zh) | 2015-08-25 | 2015-08-25 | 一种基于中文语义结构和细分词库结合的情感分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105095190B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105868185A (zh) * | 2016-05-16 | 2016-08-17 | 南京邮电大学 | 一种购物评论情感分析中基于词性标注的词典构建方法 |
CN107748743A (zh) * | 2017-09-20 | 2018-03-02 | 安徽商贸职业技术学院 | 一种电商在线评论文本情感分析方法 |
CN109213989A (zh) * | 2017-07-01 | 2019-01-15 | 武汉斗鱼网络科技有限公司 | 分析语言的弹幕分发方法、存储介质、电子设备及系统 |
CN109359181A (zh) * | 2018-09-27 | 2019-02-19 | 深圳前海微众银行股份有限公司 | 负面情绪原因识别方法、设备及计算机可读存储介质 |
CN109783820A (zh) * | 2019-01-18 | 2019-05-21 | 广东小天才科技有限公司 | 一种语义解析方法及系统 |
CN109948148A (zh) * | 2019-02-28 | 2019-06-28 | 北京学之途网络科技有限公司 | 一种文本信息情感判定方法和判定装置 |
CN110442871A (zh) * | 2019-08-06 | 2019-11-12 | 北京百度网讯科技有限公司 | 文本信息处理方法、装置及设备 |
CN110929516A (zh) * | 2019-11-22 | 2020-03-27 | 新华网股份有限公司 | 文本的情感分析方法、装置、电子设备及可读存储介质 |
CN111027322A (zh) * | 2019-12-13 | 2020-04-17 | 新华智云科技有限公司 | 基于情感词典的财经新闻中细粒度实体的情感分析方法 |
CN112579775A (zh) * | 2020-12-21 | 2021-03-30 | 国网福建省电力有限公司经济技术研究院 | 非结构化文本的分类方法及计算机可读存储介质 |
CN113822514A (zh) * | 2020-12-23 | 2021-12-21 | 常州中吴网传媒有限公司 | 一种全媒体文稿质量控制方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663046A (zh) * | 2012-03-29 | 2012-09-12 | 中国科学院自动化研究所 | 一种面向微博短文本的情感分析方法 |
CN102929863A (zh) * | 2012-11-06 | 2013-02-13 | 苏州两江科技有限公司 | 通过计算机智能分析汉语文字情感倾向的方法 |
CN103699626A (zh) * | 2013-12-20 | 2014-04-02 | 华南理工大学 | 一种微博用户个性化情感倾向分析方法及系统 |
CN104317965A (zh) * | 2014-11-14 | 2015-01-28 | 南京理工大学 | 基于语料的情感词典构建方法 |
CN104391837A (zh) * | 2014-11-19 | 2015-03-04 | 熊玮 | 一种基于格语义的智能语法分析方法 |
-
2015
- 2015-08-25 CN CN201510525999.6A patent/CN105095190B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663046A (zh) * | 2012-03-29 | 2012-09-12 | 中国科学院自动化研究所 | 一种面向微博短文本的情感分析方法 |
CN102929863A (zh) * | 2012-11-06 | 2013-02-13 | 苏州两江科技有限公司 | 通过计算机智能分析汉语文字情感倾向的方法 |
CN103699626A (zh) * | 2013-12-20 | 2014-04-02 | 华南理工大学 | 一种微博用户个性化情感倾向分析方法及系统 |
CN104317965A (zh) * | 2014-11-14 | 2015-01-28 | 南京理工大学 | 基于语料的情感词典构建方法 |
CN104391837A (zh) * | 2014-11-19 | 2015-03-04 | 熊玮 | 一种基于格语义的智能语法分析方法 |
Non-Patent Citations (1)
Title |
---|
冯时等: "基于依存句法的博文情感倾向分析研究", 《计算机研究与发展》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105868185A (zh) * | 2016-05-16 | 2016-08-17 | 南京邮电大学 | 一种购物评论情感分析中基于词性标注的词典构建方法 |
CN109213989A (zh) * | 2017-07-01 | 2019-01-15 | 武汉斗鱼网络科技有限公司 | 分析语言的弹幕分发方法、存储介质、电子设备及系统 |
CN107748743A (zh) * | 2017-09-20 | 2018-03-02 | 安徽商贸职业技术学院 | 一种电商在线评论文本情感分析方法 |
CN109359181B (zh) * | 2018-09-27 | 2021-11-19 | 深圳前海微众银行股份有限公司 | 负面情绪原因识别方法、设备及计算机可读存储介质 |
CN109359181A (zh) * | 2018-09-27 | 2019-02-19 | 深圳前海微众银行股份有限公司 | 负面情绪原因识别方法、设备及计算机可读存储介质 |
CN109783820A (zh) * | 2019-01-18 | 2019-05-21 | 广东小天才科技有限公司 | 一种语义解析方法及系统 |
CN109948148A (zh) * | 2019-02-28 | 2019-06-28 | 北京学之途网络科技有限公司 | 一种文本信息情感判定方法和判定装置 |
CN110442871A (zh) * | 2019-08-06 | 2019-11-12 | 北京百度网讯科技有限公司 | 文本信息处理方法、装置及设备 |
CN110929516A (zh) * | 2019-11-22 | 2020-03-27 | 新华网股份有限公司 | 文本的情感分析方法、装置、电子设备及可读存储介质 |
CN111027322A (zh) * | 2019-12-13 | 2020-04-17 | 新华智云科技有限公司 | 基于情感词典的财经新闻中细粒度实体的情感分析方法 |
CN112579775A (zh) * | 2020-12-21 | 2021-03-30 | 国网福建省电力有限公司经济技术研究院 | 非结构化文本的分类方法及计算机可读存储介质 |
CN112579775B (zh) * | 2020-12-21 | 2022-11-22 | 国网福建省电力有限公司经济技术研究院 | 非结构化文本的分类方法及计算机可读存储介质 |
CN113822514A (zh) * | 2020-12-23 | 2021-12-21 | 常州中吴网传媒有限公司 | 一种全媒体文稿质量控制方法 |
Also Published As
Publication number | Publication date |
---|---|
CN105095190B (zh) | 2018-01-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105095190B (zh) | 一种基于中文语义结构和细分词库结合的情感分析方法 | |
WO2018028077A1 (zh) | 一种基于深度学习的中文语义分析的方法及装置 | |
CN111325029B (zh) | 一种基于深度学习集成模型的文本相似度计算方法 | |
CN108363725B (zh) | 一种用户评论观点提取和观点标签生成的方法 | |
Wang et al. | Semeval-2021 task 9: Fact verification and evidence finding for tabular data in scientific documents (sem-tab-facts) | |
CN111832293B (zh) | 基于头实体预测的实体和关系联合抽取方法 | |
CN111309910A (zh) | 文本信息挖掘方法及装置 | |
Lytvyn et al. | Analysis of the developed quantitative method for automatic attribution of scientific and technical text content written in Ukrainian | |
CN108388660A (zh) | 一种改进的电商产品痛点分析方法 | |
CN111581990A (zh) | 跨境交易撮合匹配方法及装置 | |
CN103942191A (zh) | 一种基于内容的恐怖文本识别方法 | |
CN112069312B (zh) | 一种基于实体识别的文本分类方法及电子装置 | |
CN107818082B (zh) | 结合短语结构树的语义角色识别方法 | |
Zhang et al. | A multi-feature fusion model for Chinese relation extraction with entity sense | |
CN106383814A (zh) | 一种英文社交媒体短文本分词方法 | |
Bölücü et al. | Hate Speech and Offensive Content Identification with Graph Convolutional Networks. | |
Padmanayana et al. | Stock market prediction using Twitter sentiment analysis | |
An et al. | Improving targeted multimodal sentiment classification with semantic description of images. | |
Sagcan et al. | Toponym recognition in social media for estimating the location of events | |
CN101866336A (zh) | 获取评价单元、建立句法路径词典的方法、装置及系统 | |
Huang et al. | An unsupervised method for short-text sentiment analysis based on analysis of massive data | |
CN116090450A (zh) | 一种文本处理方法及计算设备 | |
Kishore et al. | Document Summarization in Malayalam with sentence framing | |
Sweeney et al. | Multi-entity sentiment analysis using entity-level feature extraction and word embeddings approach. | |
CN113688233A (zh) | 一种用于知识图谱语义搜索的文本理解的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20180112 Termination date: 20180825 |