CN105138506A - 一种金融文本情感分析方法 - Google Patents

一种金融文本情感分析方法 Download PDF

Info

Publication number
CN105138506A
CN105138506A CN201510400569.1A CN201510400569A CN105138506A CN 105138506 A CN105138506 A CN 105138506A CN 201510400569 A CN201510400569 A CN 201510400569A CN 105138506 A CN105138506 A CN 105138506A
Authority
CN
China
Prior art keywords
word
emotion
value
emotion value
negative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510400569.1A
Other languages
English (en)
Other versions
CN105138506B (zh
Inventor
雷涛
邵明东
吕慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianyun Sunac Data Technology (beijing) Co Ltd
Original Assignee
Tianyun Sunac Data Technology (beijing) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianyun Sunac Data Technology (beijing) Co Ltd filed Critical Tianyun Sunac Data Technology (beijing) Co Ltd
Priority to CN201510400569.1A priority Critical patent/CN105138506B/zh
Publication of CN105138506A publication Critical patent/CN105138506A/zh
Application granted granted Critical
Publication of CN105138506B publication Critical patent/CN105138506B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明涉及一种金融文本情感分析方法,操作步骤如下:第一,构建金融情感词典。第二,文本分句,分词,生成词语文本,词性和词语情感值的分词序列向量。第三,修正否定词、程度词、单独概念词、转折词以及规范词等对情感值的影响。第四,用情感产生函数计算的乘法情感模型和文章词语加法情感模型的加权组合计算融合的金融文本情感值。第五,兼容[0,2]和[-1,1]表达情感值。本发明针对不同的情感环境,运用一个输入层为词语,隐藏层为情感产生函数表达的句子情感层,输出层为一个神经元的神经网络计算金融情感。

Description

一种金融文本情感分析方法
技术领域
本发明涉及自然语言处理,人工智能领域,具体涉及一种金融文本情感分析方法。
背景技术
随着互联网的普及,人们的生活也发生了很大的变化。网络逐渐成为社会中各种信息的载体,特别是随着中国经济的不断发展,股票、国债等金融产品逐渐成为人们讨论的热点话题,越来越多的人通过网络获取金融、财经、其它经济新闻及相关信息。Web文本也已成为我们获取信息、发表观点和交流情感的重要来源。越来越多的人喜欢在网上交流他们的意见,因而网络上存在大量包含倾向性的文本信息。
一般的情感分析是采用监督的方式对文本中的情感进行识别,提取文本中的情感词进行极性判断,找出文本中对应的情感词特征向量。通过对这些已知样本的训练,建立分类模型,对新的文本信息进行情感倾向判断。监督模型多采用K最邻近结点算法(KNN)、朴素贝叶斯和支持向量机(SVM)、最大熵的情感分类模型,其中涉及到情感词的提取和极性判断,这种方法与情感词词典的构建有很大关系,需要完备的情感词词典。所建立的分类模型和具体领域有很大关系,对某一个领域构建的模型通常对另外一个领域不太适用,而且情感词词典的构建费时费力。新闻消息中存在一定的噪音,对训练样本的质量有影响,使得训练出来的模型容易受到噪音影响,并最终影响分类的准确度和召回率。非监督模型的研究不是很多,主要有:用HowNet对中文词语语义进行情感倾向计算,用句法结构和依存关系对中文句子语义进行情感分析等等。
发明内容
大多数网络信息往往只是将相关新闻报道或信息展现给用户,通过人工的方式识别海量新闻影响趋势是一件非常繁琐和困难的事情,因此本发明用情感挖掘技术,基于监督技术,结合非监督技术对文本进行一定的智能理解,分析人们对指定文本中描述事件的金融情感倾向。
本文提供了一种金融情感分析方法,用于判断金融消息或新闻文本情感倾向,帮助用户更好的掌握相关个股或者公司的动向。计算金融新闻的情感值来判断对相关公司的影响好坏,为用户提供快速的情感导向分析工具。在一篇文本的情感分析中,若得到的情感值大于1+ε,则表示该新闻产生的是积极正面的影响;若情感值小于1-ε,则表示该新闻产生的是消极负面的影响;若情感值大于等于1-ε并且小于等于1+ε,则表示该新闻产生的是中性的情感。ε为事先确定的小于1的正数,如0.01,0.02,0.05等等。
上述发明包括如下步骤:
步骤1:构建金融情感词典。包括构建包含正面情感倾向词语的正面情感词典和包含负面词语的负面情感倾向情感词典,构建词义情感需根据语言环境判定的不确定情感词典,构建修饰程度词语的程度词典,构建用于确定否定词语的否定词典,构建表示唯一的单独概念词典,构建转折词词典,构建规范词词典等。程度词格式如下(部分词项):
词项,程度值
伟大,1.5
最好,1.5
非常,1.4
上等,1.3
好,1.2
较好,1.1
略微,0.95
比较,0.9
过头,0.8
过分,0.7
惨,0.6
太过分,0.5
词项从上到下依褒义向贬义排列,最大程度向最低程度排列。如果程度词修饰正面情感词,则修饰后的情感值为程度值×情感词情感值,程度值大于1.0的程度词修饰正面情感词可扩大正面情感,程度值小于1.0的程度词修饰正面情感词可缩小正面情感。如果程度词修饰负面情感词,则大部分修饰后的情感值为情感词情感值÷大于1.0的程度值或者情感词情感值×小于1.0的程度值。程度值的值域[0.5,1.5],对应情感值的值域[0.5,1.5]。
步骤2:文本预处理。用文本分析工具对每一个待处理的文本进行分句,并对每个句子进行分词处理,得到分词后的包含词语文本、词性和情感值的分词序列向量。
步骤3:用词语情感的乘法和句子情感的加法组成的乘法情感模型计算整篇文本的情感值,具体过程如下:
步骤301:用构建好的金融情感词典确定词语的情感值。每类词语一个词典,读出词典文件后将各个词项放入各词典的bloom过滤器中,加快访问速度。
步骤302:设定当前词的情感值。查询当前词属于哪一个情感词典,如果当前词只属于正面情感词典,则置当前词的情感值为Vp,大于1,一般置为1.5。只属于负面情感词典,则置当前词的情感值为Vn,小于1,一般置为0.5。只属于不确定情感词典,则置当前词的情感值为Vu,小于1,大于0.9,一般置为0.95。如果不确定情感词表示的负面情感较多可设为0.9,正面较多可设为1。
步骤303:句子情感值的计算需要修正否定词、程度副词、单独概念词、转折词以及规范词的影响。为此对句子的分词序列进行扫描,将句子的开始词语到当前词语放入一个列表,则句子的具体修正过程为:
第一步:修正有否定词修饰的情感词的情感值。
a.计算扫描集中的否定词集。
b.如果否定词个数大于Nmin(一般为1)并且小于Nmax(一般为10),并且前两个否定词位置差大于Ndiff(一般为1),并且第一个否定词位置小于Nfrst(可调,一般为6)。则当前词语的情感值受否定词影响,应将当前词语的情感值反转,即修正情感值等于原情感值的倒数。
c.如果否定词个数等于1,并且否定词位置小于Nfrst(可调,一般为6),与当前词之间没有表唯一的词语。则当前词语的情感值受否定词影响,应将当前词语的情感值反转。
d.如果否定词个数等于1,并且否定词位置小于Nfrst(可调,一般为6),与当前词之间有表唯一的词语。那么,如果不包含“没有”开头的否定词,并且已计算的情感值大于1,则修正情感值=a×已计算的情感值,a>1.0,可调,可取1.2;如果已计算的情感值小于1,则修正情感值=b×已计算的情感值,b<1.0,可调,可取0.8;如果包含“没有”开头的否定词,则情感值反转。如下句所示:公司不是只有一个盈利(亏损)项目。否定词为“不是”,表唯一概念的词语是“只有一个”,否定了“只有一个”,通常理解为有多个,应该放大正面情感值或缩小负面情感值,而不是反转情感值。
第二步:修正有程度词修饰的情感词的情感值。
a.当前程度词之前是负面情感词。如果程度词程度值大于1,则修改当前程度词情感值为程度值的倒数,否则修改为程度值+0.05。
b.当前程度词之前是正面情感词。如果不是a的情况(正面情感词当前程度词之间可能有负面情感词),则修改当前程度词情感值为程度值,否则为1。
c.当前词之前至少有一个程度词。最近的程度词不是否定词,距离当前词小于等于2。最近程度词不是情感词或者是不确定情感词并且前一次扫描不是a或b的情况,则存在下列情况:
如果最近程度词程度值大于1并且当前词情感值大于1,修正当前词情感值=程度值×已计算当前词情感值。
如果最近程度词程度值大于1并且当前词情感值小于1,修正当前词情感值=已计算当前词情感值÷程度值。
如果最近程度词程度值小于1并且当前词情感值大于1,修正当前词情感值=程度值×已计算当前词情感值。
如果最近程度词程度值小于1并且当前词情感值小于1,修正当前词情感值=(程度值+0.1)×已计算当前词情感值。
其它情况当前词情感值=1。
d.如果当前词是程度词,则进一步修正程度词。
如果已计算情感值大于1,或者已计算情感值小于1并且程度值小于等于0.9,则当前词情感值=已计算当前情感值×程度值。
如果已计算情感值小于1并且程度值大于0.9,则当前词情感值=已计算当前情感值÷程度值。
第三步:修正有转折词修饰的情感词的情感值。
a.如果已计算句子情感值大于1,修正当前词情感值=已计算当前词情感值×Vn,一般Vn=0.5。
b.如果已计算句子情感值小于1,修正当前词情感值=已计算当前词情感值×Vp,一般Vp=1.5。
第四步:修正连续两个情感词的短语情感值。
a.前一个是正面,后一个是负面。当前词情感值=已计算当前词情感值×Vn,一般Vn=0.5。
b.前一个是负面,后一个是正面。当前词情感值=已计算当前词情感值×Vp,一般Vp=1.5。
第五步:修正有规范词修饰的情感词的情感值。
a.如果当前词情感值大于Vpmax,Vpmax在(1,2)可调,可取1.2。
当前词情感值=已计算当前词情感值×(2-Vpmax)。
b.如果当前词情感值小于Vnmax,Vnmax在(0,1)可调,可取0.8。
当前词情感值=已计算当前词情感值÷Vnmax
步骤304:用乘法情感模型计算文本中句子的情感值。
句子情感值用一个情感产生函数计算:
Vs=h(kVn pVm nVq u)
其中,Vs是句子的情感值,k是句子的情感系数,通常在0.9~1.1,情感词典正负面词语比较均衡时一般可取1,否则如果正面词影响偏大,可取k<1.0,如果负面词影响偏大,可取k>1.0。Vn p是句子的正面词语情感值,Vp为单个正面词语的情感值,是正面情感的放大倍数,大于1,可取1.5。n是正面词语数目。Vm n是句子的负面词语情感值,Vn为单个负面词语的情感值,是负面情感的缩小倍数,小于1,可取0.5。m是负面词语数目。Vq u是句子的不确定情感词语的情感值,Vu一般在0.9~1.1之间取值,q是不确定词语数目。h(·)是句子情感限幅函数,使情感值位于[0,2],如果x≤Vp,h(x)=x,如果x>Vp,h(x)=2/(1+e-a(x-c)),一般a在0.5~2.0之间取值,可选1.5,c在0.5~1.5之间取值,可选0.75。h(·)实际上是一个神经元的sigmoid函数。
步骤305:用句子的乘法情感值计算整篇文本情感值Vm
Vm=h(g((V1+V2+...+Vn)/n))
其中,n是句子的条数。V1~Vn是句子1~n的乘法情感值。g(·)是情感转换函数,g(x)=ek(x-c),以指数倍数放大句子情感值的平均值,一般k在1.0~5.0之间取值,可选3.0,c在0~2之间取值,可选1.0。h(·)是情感限幅函数,使情感值位于[0,2],如果x≤1.0,h(x)=x,如果x>1.0,h(x)=2/(1+e-k(x-c)),一般k在1.0~5.0之间取值,可选2.0,c在0~2之间取值,可选1.0。负面情感值为[0,1-ε),正面情感值为(1+ε,2],中性情感值为[1-ε,1+ε],1>ε>0。h(g(·))实际上是一个神经元的sigmoid函数。如此构成一个输入层为词语的,隐藏层为情感产生函数表达的句子情感层,输出层为一个神经元的神经网络。输出层权系数一般为1/n,也可以根据句子的重要性设定输出层权系数,关键句的权系数可以大一些,非关键句的权系数可以小一些。
步骤4:用加法情感模型计算以词语为基本单位的整篇金融文本的情感值Vq。文本情感值Vq的具体计算过程如下:
Vq=1+(Np-Nn)/(1+Np+Nn)
其中,Np是文本中正面词语的数目。Nn是文本中负面词语的数目。如果正面词语数目多于负面词语数目,则文本情感值大于1,否则小于1。
步骤5:用乘法情感模型和文章词语加法情感模型的加权组合计算融合的金融文本情感值Vfinal,具体计算过程如下:
W=a·tanh(b·(Vq-Vqrc))-a·tanh(b·(Vq-Vqlc))
一般情况下可取a=0.5,b=10,Vqrc=0.95,Vqlc=1.05。
Vfinal=(1-W)·Vm+W·Vq
其中,W表示文本中加法模型权重。Vm表示乘法计算的文本情感值。Vq表示加法计算的文本情感值。Vfinal表示融合的文本情感值。负面情感值Vfinal∈[0,1-ε),正面情感值Vfinal∈(1+ε,2],中性情感值Vfinal∈[1-ε,1+ε],1>ε≥0。
步骤6:情感值的兼容表达。
如步骤5所述,本发明可以用[0,2]的数表示情感值。为了兼容[-1,1]的情感表示方式,在[0,2]表示的情感值上减去1,得到[-1,1]的情感值,此时负面情感值∈[-1,-ε),正面情感值∈(+ε,1],中性情感值∈[-ε,+ε],1>ε≥0。
本发明可用乘法情感模型和加法情感模型两种方式对金融新闻的情感进行正负面情感分析。乘法情感模型顾及了词语的部分语境、词语之间的修饰关系以及句子之间的关系模式等,使用情感产生函数生成情感值,更符合人的思维习惯。加法情感模型顾及了正负面词语数量上的影响,两种模型相互补充,使文本情感分析结果更加准确与合理。
附图说明
图1为本发明“一种金融情感分析方法”的流程图。
具体实施方式
下面结合附图和具体实施方式对本发明“一种金融情感分析方法”作进一步的说明。
本发明提供了一种金融情感分析方法,首先用软件工具构建情感词典和用户词典,对金融新闻或消息文本逐句分词,然后计算乘法情感模型的文章情感值和加法情感模型的文章情感值,最后通过加权组合的方式将两种模型融合。如附图1所示,具体步骤如下:
1.构建词典。需要构建的词典有正面情感倾向词语情感词典(包含金融情感词),负面情感倾向词语情感词典(包含金融情感词),不确定词语情感词典(包含金融情感词),否定词典,程度词词典,转折词词典,规范词词典,单独概念词词典,用户分词自定义词典等。
2.读入软件包配置,读入词典到各自的bloom过滤器。
3.文本预处理。读入文章文本,生成句子列表。
4.读出一条句子,按句分词,生成句子分词列表。
5.从句子分词列表读出一个分词,生成一个(词语字符串,词性,情感值)三元组,记录整个句子分词三元组的扫描序列,生成增长的三元组向量。
6.当前词(步骤5中读出的词)如果是名词,动词,形容词,副词,区别词,连词或用户自定义词等,则执行情感分析,否则返回步骤5读下一个分词。
7.修正否定词修饰词语的情感值。生成当前词之前的否定词列表,记录否定词文本和否定词在三元组向量中的位置。
如果否定词个数大于1并且小于10,并且前两个否定词位置差大于1,并且第一个否定词位置小于6。则当前词语的情感值只受第一个否定词影响,应将当前词语的情感值反转,即修正情感值=1÷原情感值。
如果否定词个数等于1,并且否定词位置小于6,与当前词之间没有表唯一的词语。则当前词语的情感值受否定词影响,应将当前词语的情感值反转。
如果否定词个数等于1,并且否定词位置小于6,与当前词之间有表唯一的词语。那么,如果不包含“没有”开头的否定词,并且已计算的情感值大于1,则修正情感值=1.2×已计算的情感值;如果已计算的情感值小于1,则修正情感值=0.8×已计算的情感值;如果包含“没有”开头的否定词,则情感值反转。
8.修正有程度词修饰的情感词的情感值。
当前程度词之前是负面情感词,属于程度词在负面情感词之后修饰。如果程度词程度值大于1,则修改当前程度词情感值为程度值的倒数,否则修改为程度值+0.05。
当前程度词之前是正面情感词。如果正面情感词当前程度词之间没有负面情感词,修改当前程度词情感值为程度值,否则为1。
当前词之前至少有一个程度词。最近的程度词不是否定词,距离当前词小于等于2。最近程度词不是情感词或者是不确定情感词并且前一次扫描不是前两种情况,则存在如下:
如果最近程度词程度值大于1并且当前词情感值大于1,修正当前词情感值=程度值×已计算当前词情感值。
如果最近程度词程度值大于1并且当前词情感值小于1,修正当前词情感值=已计算当前词情感值÷程度值。
如果最近程度词程度值小于1并且当前词情感值大于1,修正当前词情感值=程度值×已计算当前词情感值。
如果最近程度词程度值小于1并且当前词情感值小于1,修正当前词情感值=(程度值+0.1)×已计算当前词情感值。
其它情况程度值与当前词情感值的条件组合,当前词情感值=1。
如果当前词是程度词,则进一步修正程度词。
如果已计算情感值大于1,或者已计算情感值小于1并且程度值小于等于0.9,则当前词情感值=已计算当前情感值×程度值。
如果已计算情感值小于1并且程度值大于0.9,则当前词情感值=已计算当前情感值/程度值。
9.修正有转折词修饰的情感词的情感值。
如果已计算句子情感值大于1,修正当前词情感值=已计算当前词情感值×0.5。
如果已计算句子情感值小于1,修正当前词情感值=已计算当前词情感值×1.5。
10.修正连续两个情感词的短语情感值。
前一个是正面,后一个是负面。当前词情感值=已计算当前词情感值×0.5。
前一个是负面,后一个是正面。当前词情感值=已计算当前词情感值×1.5。
11.修正有规范词修饰的情感词的情感值
如果当前词情感值大于1.2,当前词情感值=已计算当前词情感值×0.8。
如果当前词情感值小于0.8,当前词情感值=已计算当前词情感值÷0.8。
12.乘法情感模型计算文本中句子的情感值。
用情感产生函数生成当前句子的情感值Vs=1.5n·0.5m·0.95p,n+m+p等于当前扫描过的词语数。
n条句子情感值的算术平均值作为已分析文章的情感值Vm
Vm=h(g((Vs1+Vs2+...+Vsn)/n))
情感转换函数g(x)=e3(x-1),以增大句子情感值平均值的灵敏度。h(x)是情感限幅函数,如果x≤1.0,h(x)=x,如果x>1.0,h(x)=2/(1+e-2(x-1))。h(x)使情感值位于[0,2]。如果ε=0.01,负面情感值为[0,0.99),正面情感值为(1.01,2],中性情感值为[0.99,1.01]。
如果有第n+1条句子,步骤4读出第n+1条句子,否则已分析文章的情感值即是整篇文章的情感值。
13.用加法情感模型计算金融文章的情感值,其具体计算过程如下:
Vq=1+(Np-Nn)/(1+Np+Nn)
其中,Np是文本中正面词语的数目。Nn是文本中负面词语的数目。如果正面词语数目多于负面词语数目,则文本情感值大于1,否则小于1。
14.用乘法情感模型和加法情感模型的加权组合计算金融文章的情感值,融合的情感值Vfinal的具体计算过程如下:
W=0.5·tanh(10·(Vq-0.95))-0.5·tanh(10·(Vq-1.05))
Vfinal=(1-W)·Vm+W·Vq
其中,W表示文本中加法模型权重。Vm表示乘法计算的文本情感值。Vq表示加法计算的文本情感值。Vfinal表示融合的文本情感值。如果ε=0.01,负面情感值Vfinal∈[0,0.99),正面情感值Vfinal∈(1.01,2],中性情感值Vfinal∈[0.99,1.01]。
15.情感值的兼容表达。
为了兼容[-1,1]的情感表示方式,在[0,2]表示的情感值上减去1,得到[-1,1]的情感值,如果ε=0.01,负面情感值∈[-1,-0.01),正面情感值∈(0.01,1],中性情感值∈[-0.01,0.01]。
用爬虫从互联网下载金融利好消息537篇,利空消息503篇,共1040篇,应用本发明算法分析识别该消息集,ε=0.01时测得召回率和精确率如下:
利好召回率=92.0000%,利好精确率=91.8367%,利空召回率=91.2525%,利空精确率=91.6168%,整体准确率=91.7308%。
经过优化词典和其它参数,五个指标不低于91%,而且比较均匀,能够正确反映人们对金融信息的看法和倾向。

Claims (7)

1.一种金融文本情感分析方法,其特征在于包括如下步骤:
1)构建金融情感词典,包括正面情感词典,负面情感词典,不确定情感词典,程度词典,否定词典,单独概念词典,转折词词典,规范词词典。
2)文本预处理。对文本分句,对句子分词,生成包含词语文本,词性和情感值的分词序列向量。
3)乘法情感模型。用词语情感的乘法和句子情感的加法组成的乘法情感模型计算整篇文本的情感值。
4)加法情感模型。以情感词语数量表示为文章情感值的加法情感模型计算整篇金融文本的情感值。
5)融合情感值。用乘法情感模型和文章词语加法情感模型的加权组合计算融合的金融文本情感值。
6)情感值兼容表达。情感值可以表示为[0,2]的实数,也可以表示为[-1,1]的实数。
2.根据权利要求1所述金融文本情感分析方法,其特征在于:所述步骤(1)构建金融情感词典需要构建正面情感词典,负面情感词典,根据语言环境改变的不确定情感词典,带有程度值并且按褒义贬义顺序排列的程度词典,具有否定含义的否定词典,表示唯一的单独概念词典,转折词词典,表示命令、指令或规范的规范词词典。
3.根据权利要求1所述金融文本情感分析方法,其特征在于:所述步骤(2)文本预处理需要对每一个待处理的文本进行分句,并对每个句子进行分词处理,生成包含词语文本,词性和情感值的分词序列向量,可表示为一个三元组的序列。
4.根据权利要求1所述金融文本情感分析方法,其特征在于:所述步骤(3)乘法情感模型用情感词语的情感值的乘积计算句子的情感值。计算步骤如下:
1)设定词语的情感值,正面情感词用大于1的数,可设为1.5;负面情感词用小于1的数,可设为0.5;不确定情感词用0.9~1.0的数,可设为0.95;如果不确定情感词表示的负面情感较多可设为0.9,正面较多可设为1。
2)句子情感值的计算需要修正否定词、程度副词、单独概念词、转折词以及规范词等的影响。规则如下:
a.计算否定词集。如果否定词个数大于Nmin(一般为1)并且小于Nmax(一般为10),并且前两个否定词位置差大于Ndiff(一般为1),并且第一个否定词位置小于Nfrst(可调,一般为6)。则当前词语的情感值受否定词影响,应将当前词语的情感值反转,即修正情感值=1÷原情感值。
b.如果否定词个数等于1,并且否定词位置小于Nfrst(一般为6),与当前词之间没有表唯一的词语。则当前词语的情感值受否定词影响,应将当前词语的情感值反转。
c.如果否定词个数等于1,并且否定词位置小于Nfrst(一般为6),与当前词之间有表唯一的词语。那么,如果不包含“没有”开头的否定词,并且已计算的情感值大于1,则修正情感值=a×已计算的情感值,a>1.0;如果已计算的情感值小于1,则修正情感值=b×已计算的情感值,b<1.0;如果包含“没有”开头的否定词,则情感值反转。
d.当前程度词之前是负面情感词。如果程度词程度值大于1,则修改当前程度词情感值为程度值的倒数,否则修改为程度值+0.05。
e.当前程度词之前是正面情感词。如果不是正面情感词当前程度词之间有负面情感词的情况,则修改当前程度词情感值为程度值,否则为1。
f.当前词之前至少有一个程度词。最近的程度词不是否定词,距离当前词小于等于2。最近程度词不是情感词或者是不确定情感词并且前一次扫描不是d或e的情况,那么,如果最近程度词程度值大于1并且当前词情感值大于1,修正当前词情感值=程度值×已计算当前词情感值。如果最近程度词程度值大于1并且当前词情感值小于1,修正当前词情感值=已计算当前词情感值/程度值。如果最近程度词程度值小于1并且当前词情感值大于1,修正当前词情感值=程度值*已计算当前词情感值。如果最近程度词程度值小于1并且当前词情感值小于1,修正当前词情感值=(程度值+0.1)×已计算当前词情感值。其它情况当前词情感值=1。
g.修正有转折词修饰的情感词的情感值。如果已计算句子情感值大于1,修正当前词情感值=已计算当前词情感值×Vn;如果已计算句子情感值小于1,修正当前词情感值=已计算当前词情感值×Vp
h.修正连续两个情感词的短语情感值。前一个是正面,后一个是负面。当前词情感值=已计算当前词情感值×Vn。前一个是负面,后一个是正面。当前词情感值=已计算当前词情感值×Vp
i.修正有规范词修饰的情感词的情感值。如果当前词情感值大于Vpmax,当前词情感值=已计算当前词情感值×(2-Vpmax)。如果当前词情感值小于Vnmax,当前词情感值=已计算当前词情感值÷Vnmax
3)生成句子情感值的情感产生函数为:
Vs=h(kVn pVm nVq u)
式中,Vs是句子的情感值。k∈[0.9~1.1]是句子的情感系数。Vp为单个正面词语的情感值,n是正面词语数目。Vn为单个负面词语的情感值,m是负面词语数目。Vu为不确定词语的情感值,q是不确定词语数目。h(·)是句子情感限幅函数,使情感值位于[0,2],如果x≤Vp,h(x)=x,如果x>Vp,h(x)=2/(1+e-a(x-c)),一般a∈[0.5~2.0],c∈[0.5~1.5]。
4)用句子的乘法情感值计算整篇文本情感值:
Vm=h(g((V1+V2+...+Vn)/n))
式中,Vm是整篇文本的情感值。n是句子的条数。V1~Vn是句子1~n的乘法情感值。g(x)=ek(x-c)是情感转换函数。h(·)是情感限幅函数,使情感值位于[0,2],如果x≤1.0,h(x)=x,如果x>1.0,h(x)=2/(1+e-k(x-c)),一般k∈[1~5],c∈[0~2]。负面情感值为[0,1-ε),正面情感值为(1+ε,2],中性情感值为[1-ε,1+ε],1>ε>0。
5)情感计算构成一个输入层为词语的,隐藏层为情感产生函数表达的句子情感层,输出层为一个神经元的神经网络。输出层权系数一般为1/n,也可以根据句子的重要性设定输出层权系数,关键句的权系数可以大一些,非关键句的权系数可以小一些。
5.根据权利要求1所述金融文本情感分析方法,其特征在于:所述步骤(4)加法情感模型以情感词语数量计算整篇金融文本的情感值Vq
Vq=1+(Np-Nn)/(1+Np+Nn)
式中,Np是文本中正面词语的数目,Nn是文本中负面词语的数目。
6.根据权利要求1所述金融文本情感分析方法,其特征在于:所述步骤(5)融合情感值用乘法情感模型和文章词语加法情感模型的加权组合计算金融文本情感值Vfinal
W=a·tanh(b·(Vq-Vqrc))-a·tanh(b·(Vq-Vqlc))
一般情况下可取a=0.5,b=10,Vqrc=0.95,Vqlc=1.05
Vfinal=(1-W)·Vm+W·Vq
式中,W表示文本中加法模型权重。
7.根据权利要求1所述金融文本情感分析方法,其特征在于:所述步骤(6)兼容表达情感值,一般用[0,2]的数表示情感值,为了兼容[-1,1]的情感表示方式,在[0,2]表示的情感值上减去1,得到[-1,1]的情感值,此时负面情感值∈[-1,-ε),正面情感值∈(+ε,1],中性情感值∈[-ε,+ε],1>ε≥0。
CN201510400569.1A 2015-07-09 2015-07-09 一种金融文本情感分析方法 Active CN105138506B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510400569.1A CN105138506B (zh) 2015-07-09 2015-07-09 一种金融文本情感分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510400569.1A CN105138506B (zh) 2015-07-09 2015-07-09 一种金融文本情感分析方法

Publications (2)

Publication Number Publication Date
CN105138506A true CN105138506A (zh) 2015-12-09
CN105138506B CN105138506B (zh) 2018-07-03

Family

ID=54723857

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510400569.1A Active CN105138506B (zh) 2015-07-09 2015-07-09 一种金融文本情感分析方法

Country Status (1)

Country Link
CN (1) CN105138506B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105701223A (zh) * 2016-01-15 2016-06-22 中国人民解放军国防科学技术大学 基于Spark Streaming的财经信息情感趋势分析方法
CN105868185A (zh) * 2016-05-16 2016-08-17 南京邮电大学 一种购物评论情感分析中基于词性标注的词典构建方法
CN107229612A (zh) * 2017-05-24 2017-10-03 重庆誉存大数据科技有限公司 一种网络信息语义倾向分析方法及系统
CN107402917A (zh) * 2017-07-28 2017-11-28 中央民族大学 藏文短文本情感分析方法及装置
CN108197104A (zh) * 2017-12-27 2018-06-22 浙江力石科技股份有限公司 文本分析方法、装置及云平台
CN108536671A (zh) * 2018-03-07 2018-09-14 世纪龙信息网络有限责任公司 文本数据的情感指数识别方法和系统
CN109117482A (zh) * 2018-09-17 2019-01-01 武汉大学 一种面向中文文本情感倾向性检测的对抗样本生成方法
CN109947951A (zh) * 2019-03-19 2019-06-28 北京师范大学 一种可自动更新的用于金融文本分析的情感字典构建方法
CN110032736A (zh) * 2019-03-22 2019-07-19 深兰科技(上海)有限公司 一种文本分析方法、装置及存储介质
CN110096597A (zh) * 2019-03-22 2019-08-06 同济大学 一种结合情感强度的文本tf-idf特征重构法
CN110362679A (zh) * 2019-06-05 2019-10-22 北京大学(天津滨海)新一代信息技术研究院 一种基于情感词典的金融领域评论情感分类方法及系统
CN110826317A (zh) * 2019-11-07 2020-02-21 成都国腾实业集团有限公司 基于词典与规则的文本情感分析方法
CN111104515A (zh) * 2019-12-24 2020-05-05 山东众志电子有限公司 一种情感词语文本信息分类方法
TWI824187B (zh) * 2020-07-15 2023-12-01 財團法人工業技術研究院 基金追蹤系統、基金追蹤方法及圖案化使用者介面

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102023967A (zh) * 2010-11-11 2011-04-20 清华大学 一种面向股票领域的文本情感分类方法
US20130132071A1 (en) * 2011-11-19 2013-05-23 Richard L. Peterson Method and Apparatus for Automatically Analyzing Natural Language to Extract Useful Information

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102023967A (zh) * 2010-11-11 2011-04-20 清华大学 一种面向股票领域的文本情感分类方法
US20130132071A1 (en) * 2011-11-19 2013-05-23 Richard L. Peterson Method and Apparatus for Automatically Analyzing Natural Language to Extract Useful Information

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吴江 等: "基于语义规则的Web金融文本情感分析", 《计算机应用》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105701223A (zh) * 2016-01-15 2016-06-22 中国人民解放军国防科学技术大学 基于Spark Streaming的财经信息情感趋势分析方法
CN105868185A (zh) * 2016-05-16 2016-08-17 南京邮电大学 一种购物评论情感分析中基于词性标注的词典构建方法
CN107229612A (zh) * 2017-05-24 2017-10-03 重庆誉存大数据科技有限公司 一种网络信息语义倾向分析方法及系统
CN107402917A (zh) * 2017-07-28 2017-11-28 中央民族大学 藏文短文本情感分析方法及装置
CN108197104A (zh) * 2017-12-27 2018-06-22 浙江力石科技股份有限公司 文本分析方法、装置及云平台
CN108536671A (zh) * 2018-03-07 2018-09-14 世纪龙信息网络有限责任公司 文本数据的情感指数识别方法和系统
CN109117482A (zh) * 2018-09-17 2019-01-01 武汉大学 一种面向中文文本情感倾向性检测的对抗样本生成方法
CN109117482B (zh) * 2018-09-17 2021-07-06 武汉大学 一种面向中文文本情感倾向性检测的对抗样本生成方法
CN109947951A (zh) * 2019-03-19 2019-06-28 北京师范大学 一种可自动更新的用于金融文本分析的情感字典构建方法
CN110032736A (zh) * 2019-03-22 2019-07-19 深兰科技(上海)有限公司 一种文本分析方法、装置及存储介质
CN110096597A (zh) * 2019-03-22 2019-08-06 同济大学 一种结合情感强度的文本tf-idf特征重构法
CN110362679A (zh) * 2019-06-05 2019-10-22 北京大学(天津滨海)新一代信息技术研究院 一种基于情感词典的金融领域评论情感分类方法及系统
CN110826317A (zh) * 2019-11-07 2020-02-21 成都国腾实业集团有限公司 基于词典与规则的文本情感分析方法
CN111104515A (zh) * 2019-12-24 2020-05-05 山东众志电子有限公司 一种情感词语文本信息分类方法
TWI824187B (zh) * 2020-07-15 2023-12-01 財團法人工業技術研究院 基金追蹤系統、基金追蹤方法及圖案化使用者介面

Also Published As

Publication number Publication date
CN105138506B (zh) 2018-07-03

Similar Documents

Publication Publication Date Title
CN105138506A (zh) 一种金融文本情感分析方法
CN112001187B (zh) 一种基于中文句法和图卷积神经网络的情感分类系统
CN112001185A (zh) 一种结合中文句法和图卷积神经网络的情感分类方法
Beigi et al. Automatic construction of domain-specific sentiment lexicon for unsupervised domain adaptation and sentiment classification
Seifollahi et al. Word sense disambiguation application in sentiment analysis of news headlines: an applied approach to FOREX market prediction
CN104268197A (zh) 一种行业评论数据细粒度情感分析方法
CN112001186A (zh) 一种利用图卷积神经网络和中文句法的情感分类方法
CN103544246A (zh) 互联网多种情感词典构建方法及系统
Zotova et al. Multilingual stance detection in tweets: The Catalonia independence corpus
CN112861541A (zh) 一种基于多特征融合的商品评论情感分析方法
Matsumoto et al. Estimation of word emotions based on part of speech and positional information
CN112818698A (zh) 一种基于双通道模型的细粒度的用户评论情感分析方法
CN112364646A (zh) 一种考虑修饰词的句子评论情感极性分析方法
Brychcín et al. Latent semantics in language models
Remus et al. Towards well-grounded phrase-level polarity analysis
Zhu et al. Autonomous complex knowledge mining and graph representation through natural language processing and transfer learning
CN112329472A (zh) 基于隐性情感词分析以提取文本语义数据的方法、系统
CN116562240A (zh) 文本生成方法、计算机设备及计算机存储介质
CN110929513A (zh) 基于文本的标签体系构建方法及装置
Žitko et al. Automatic question generation using semantic role labeling for morphologically rich languages
CN115906824A (zh) 一种文本细粒度情感分析方法、系统、介质和计算设备
Zotova et al. Multilingual stance detection: The catalonia independence corpus
Quan et al. Automatic Annotation of Word Emotion in Sentences Based on Ren-CECps.
Kong et al. Construction of microblog-specific chinese sentiment lexicon based on representation learning
Brisson et al. Opinion mining on experience feedback: A case study on smartphones reviews

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100025 floor 78, East Fourth Ring Road, Chaoyang District, Beijing (9 9A09, Dacheng International Centre, 12)

Applicant after: Tianyun SUNAC data technology (Beijing) Co. Ltd.

Address before: 100176 building 18, North Industrial University Software Park, 1 North Yizhuang street, Daxing District economic and Technological Development Zone, Beijing

Applicant before: Tianyun SUNAC data technology (Beijing) Co. Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant