CN102200969A - 基于句子顺序的文本情感极性分类系统和方法 - Google Patents
基于句子顺序的文本情感极性分类系统和方法 Download PDFInfo
- Publication number
- CN102200969A CN102200969A CN2010101357906A CN201010135790A CN102200969A CN 102200969 A CN102200969 A CN 102200969A CN 2010101357906 A CN2010101357906 A CN 2010101357906A CN 201010135790 A CN201010135790 A CN 201010135790A CN 102200969 A CN102200969 A CN 102200969A
- Authority
- CN
- China
- Prior art keywords
- text
- feeling polarities
- emotion
- sentence
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出了一种文本情感极性分类方法和系统,其中把文本视为一个句子系列,并考虑以句子为基础的情感序列,用序列分析的方法,确定文本的整体情感极性。根据本发明的文本情感极性分类系统包括:特征词提取单元,用于从输入的文本中提取特征词;句子情感判断单元,用于根据特征词提取单元所提取出的特征词的情感极性和/或情感强度,确定文本中各个句子的情感极性和/或情感强度;文本输入形成单元,用于形成具有句子情感极性序列的文本输入;以及文本情感判断单元,用于利用训练过的文本情感判断模型,对文本输入形成单元形成的文本输入进行处理,得到对输入的文本的情感极性的判断。由此,可以提高文本情感极性判断的正确性。
Description
技术领域
本发明涉及自然语言处理领域,更具体地,涉及一种基于句子顺序的文本情感极性分类系统和方法。
背景技术
随着因特网的发展,越来越多的人在网上发布信息,其中包括了很多用户对产品的评论和个人对事件、政策的看法。这些评论和看法经常发表在购物网站、论坛和个人博客上,对用户、厂商、调研组织等个人和机构都很有价值。对用户和厂商而言,这些文本能帮助他们了解产品优缺点并根据评价改进产品,对调研组织等机构而言,可以了解个人对事件和政策的看法,进而建议相关组织和机构实施对策和调整政策。由于这样的信息很多,人们希望计算机能够自动地分析、处理和总结,并将结果呈现给用户。但是由于自然语言的多样性和随意性,计算机的自动处理存在多种困难,需要一些技术来解决。
文本分析可以是多层次、多角度的,其中的一种分析是确定文本的情感极性。例如,确定某篇文本是正面的(正面意见),或者负面的(负面意见),或者是中性的。
总的来说,确定文本的情感极性有两种方式:监督式和非监督式。前者需要一个人工标注的训练样本集,然后用机器学习的方法训练一个模型,再用这个模型对新样本进行情感判断。非监督方法不需要训练样本集,一般使用人事先定义的词表判断一些文本极性,再用迭代的方式修改词表,并进一步判断更多的文本的极性。
参考文献[1](US2009/0125371A1,公开日:2009年5月14日)公开了一种确定文本情感极性的方法,其中采用了无监督和有监督并用的方式。
文本可以是一篇,也可以是多篇。通常情况下是多篇。
首先,通过一些有情感极性的词确定文本的情感极性,例如“方便”、“丰富”、“细腻”是正面的词,而“肮脏”、“刺耳”、“丑陋”是负面的词。这些有情感极性的词可以用两种方式确定:(1)由人来判断,一些现有的字典(例如HowNet情感字典)就是由人判断而形成的;(2)利用语言知识确定,例如,由于人们常用“不”等否定词加正面词来表示负面意义,如“不方便”、“不够丰富”等,那么根据词和否定词的共献频率就可以确定一些正面的词,例如“方便”和“丰富”。
有的情感字典在定义情感词的同时还给出情感强度。情感强度用一个有符号的数值表示,例如“很好”是+1,“不错”是+0.5,“差”是-1(正号“+”表示正面词,负号“-”表示是负面词,即情感极性可以由情感强度的符号表示)。说明“很好”的强度大于“不错”,也就是说“很好”比“不错”更为正面。如果情感字典没有给出情感强度的话,可以把所有正面词的情感强度设为+1,并把所有负面词的情感强度设为-1。这样,可以认为任何一个情感字典在定义情感词的同时均给出了情感强度。
利用这些有情感极性的词确定文本的情感极性的基本原则是:如果一个文本中的代表正面情感的词的数目大于代表负面情感的词的数目,或者一个文本中的所有有情感极性的词(所有代表正面情感的词和所有代表负面情感的词)的情感强度的总和为正,则文本被判断为正面(正极性),反之,则文本被判断为负面(负极性)。如果数目相等或者情感强度的总和为0,则文本被判断为中性。
确定文本情感之后,从中选取情感值(情感强度的总和的绝对值)较高(大于预定的选择阈值)的部分文本,作为比较可信的文本。然后,从这些文本中提取特征。利用这些特征和这些情感值较高的文本,对模型进行训练,获得所需的模型。
在完成模型训练之后,对于任何新的文本,都可以通过训练后的模型,按照上述方式,自动给出该文本的文本情感(正面、负面或中性)。
但是,参考文献[1]的文本情感分类过程忽略了情感词出现的顺序,从而有可能导致文本情感的误判。例如,对于下述两个例子,就有可能发生文本情感误判:
1.感觉挺好。考场偏僻了些。题目偏难了些。考得还算顺利。
2.失败。准备挺好。斗志昂扬。到门口发现准考证忘带了,郁闷。
这两篇文本都是包含两个正面词和两个负面词(分别用下划线粗体 字标出),但是出现的顺序不同。如果仍然按照参考文献[1]所提出的文本情感分类方法进行处理,因为只强调了词的出现而非顺序,则容易判断以上两个文本具有相同的情感极性。但事实上,以上两个文本是有明显情感区别的。前者整体是正面的,而后者是负面的。因此,考虑词以及句子的情感顺序是必要的。
发明内容
为了减少类似的错误,本申请的发明人提出把文本视为一个句子系列,并考虑以句子为基础的情感序列,用序列分析的方法,确定文本的整体情感极性。
根据本发明的第一方案,提出了一种文本情感极性分类系统,包括:特征词提取单元,用于从输入的文本中提取特征词;句子情感判断单元,用于根据特征词提取单元所提取出的特征词的情感极性和/或情感强度,确定文本中各个句子的情感极性和/或情感强度;文本输入形成单元,用于根据句子情感判断单元所确定的各个句子的情感极性和/或情感强度,形成具有句子情感极性序列的文本输入;以及文本情感判断单元,用于利用训练过的文本情感判断模型,对文本输入形成单元形成的文本输入进行处理,得到对输入的文本的情感极性的判断。
优选地,所述文本情感极性分类系统还可以包括:模型训练单元,用于以训练用文本样本对文本情感判断模型进行训练,得到训练后的文本情感判断模型。
优选地,所述文本情感极性分类系统还可以包括:文本样本形成单元,用于确定训练用文本的情感极性,形成训练用文本样本,其中特征词提取单元还用于从训练用文本中提取特征词,句子情感判断单元还用于根据特征词提取单元所提取出的特征词的情感极性和/或情感强度,确定训练用文本中各个句子的情感极性和/或情感强度,文本样本形成单元根据句子情感判断单元所确定的各个句子的情感极性和/或情感强度,确定训练用文本的情感极性,形成具有句子情感极性序列和文本情感极性的训练用文本样本。
优选地,所述文本情感极性分类系统还可以包括:更新单元,用于根据文本情感判断单元的输出结果,对特征词提取单元提取出的特征词的情感极性和/或情感强度进行更新,和/或将文本情感判断单元的输出结果作为新的训练用文本样本。
优选地,所述文本情感极性分类系统还可以包括:特征词库,用于存储特征词;以及文本样本库,用于存储训练用文本样本。
根据本发明的第二方案,提出了一种文本情感极性分类方法,包括:从输入的文本中提取特征词;根据所提取出的特征词的情感极性和/或情感强度,确定文本中各个句子的情感极性和/或情感强度;形成具有句子情感极性序列的文本输入;以及利用训练过的文本情感判断模型,对所形成的文本输入进行处理,得到对输入的文本的情感极性的判断。
优选地,所述文本情感极性分类方法还可以包括:以训练用文本样本对文本情感判断模型进行训练,得到训练后的文本情感判断模型。
优选地,所述文本情感极性分类方法还可以包括:从训练用文本中提取特征词;根据所提取出的特征词的情感极性和/或情感强度,确定训练用文本中各个句子的情感极性和/或情感强度;根据所确定的各个句子的情感极性和/或情感强度,确定训练用文本的情感极性;以及形成具有句子情感极性序列和文本情感极性的训练用文本样本。
优选地,所述文本情感极性分类方法还可以包括:根据对输入的文本的情感极性的判断,对所提取出的特征词的情感极性和/或情感强度进行更新,和/或将最后输出的具有句子情感极性序列和文本情感极性的结果,作为新的训练用文本样本。
根据本发明,可以提高文本情感极性判断的正确性。
附图说明
通过下面结合附图说明本发明的优选实施例,将使本发明的上述及其它目的、特征和优点更加清楚,其中:
图1A和图1B示出了根据本发明的文本情感分类方法的示意流程图;以及
图2示出了根据本发明的文本情感分类系统2000的示意方框图。
在本发明的所有附图中,相同或相似的结构和步骤均以相同或相似的附图标记标识。
具体实施方式
下面参照附图对本发明的优选实施例进行详细说明,在描述过程中省略了对于本发明来说是不必要的细节和功能,以防止对本发明的理解造成混淆。
图1A和图1B示出了根据本发明的文本情感分类方法的示意流程图;具体地,图1A示出了根据本发明的文本情感分类方法的模型训练阶段的示意流程图;图1B示出了根据本发明的文本情感分类方法的运行阶段的示意流程图。
首先,将结合图1A,对根据本发明的文本情感分类方法的模型训练阶段进行详细描述。
在步骤S100,从文本中提取特征词,以便利用这些特征词,确定句子的情感极性和/或情感强度。这里所说的特征词,既可以是通常意义下的词语(常用词、常用短语等)(例如“偏僻”、“顺利”等),也可以是字串,例如,“场偏”(实际上是“考场偏僻了些”的一部份)。
作为示例,特征词的提取可以采用以下两种方式:
1.选取情感字典中的词作为特征词:对于文本中的任何一个词语或子串,如果该词语或子串已被记载在情感字典中,则将该词语或子串选作特征词;或者
2.根据词语或子串出现在正、负面文本中的频率,挑选特征词。基本思路是:如果一个词语或子串出现在正、负面文本中的频率的比例差别越大,则被选为特征词的可能性越大。
s(w)=(Fp-Fn)/(Fp+Fn) (1)
其中Fp是词语或子串w在正文本中出现的频率,Fn是词语或子串w在负文本中出现的频率。依据公式(1),计算文本中所有词语或子串的情感强度s(w);然后,根据情感强度s(w)的绝对值|s(w)|从大到小的顺序,选取情感强度s(w)的绝对值|s(w)|排在前面(例如,前1/2)的词语或子串w,作为特征词。
注意:这里要求一些文本已经被标注了正、负面情感极性。标注可以是人工完成的,也可以是根据现有技术的任何方法自动完成。
在步骤S105,根据在步骤S100中所提取的特征词的情感极性和/或情感强度,确定文本中各个句子的情感极性和/或情感强度。例如,可以先计算各个句子的情感强度,再决定情感极性:如果句子的情感强度为正,则句子的情感极性为正面,如果句子的情感强度为负,则情句子的感极性为负面;如果情感强度为零,则情感极性为中性。另外,也可以直接根据句子中所包含的特征词的情感极性,直接确定该句子的情感极性:如果正情感极性的特征词的个数大于负情感极性的特征词的个数,则句子的情感极性为正面,如果正情感极性的特征词的个数小于负情感极性的特征词的个数,则句子的情感极性为负面,如果正情感极性的特征词的个数等于负情感极性的特征词的个数,则句子的情感极性为中性。
作为示例,句子情感极性和/或情感强度的确定可以采用以下四种方式:
i.根据特征词w的情感强度s(w),计算句子se的情感强度s(se);
即,s(se)等于该句子se中所有特征词的情感强度s(w)的加权和;其中λ(w)表示针对特征词w的权重。λ(w)的最简单的选取方式是:λ(w)=1,即不加权。也可以采用更为复杂的选取方式来确定λ(w)的取值:例如,可以根据特征词w的长度Lw和句子se的长度Lse确定权重λ(w)的取值,基本思路是:(1)特征词w的长度Lw越长,则权重λ(w)越大(特征词w越长,则透露的信息越多,意思越明确,也就越可信。例如,“可喜可贺”比“可喜”更加可信,权重λ(w)也就应该更大);(2)句子se的长度Lse越短,则权重λ(w)越大(句子se越长,影响特征词w的其他词语或子串就越多,则情感就越不确定,所以句子se越短越可信)。
ii.采用现有的依存分析方法(Dependency Analysis),对句子进行分析,确定文本中各个句子的情感极性和/或情感强度。根据依存分析方法,首先获得针对各个句子的树形结构,每个节点是一个词,节点之间的连线代表两个特征词之间的关系,例如,“我”->“喜欢”是主谓关系;然后,按照从上到下的方式,计算出句子的情感极性和/或情感强度。例如,对每一层出现的特征词,采用上述方式i中的方法进行求和,如果某一层的情感强度和不为零,则停止计算,并将该层的情感强度和,作为句子的情感强度。
iii.根据各个句子所包含的子句关系,确定文本中各个句子的情感极性和/或情感强度。对一个句子,先根据标点符号(逗号、分号等分隔符)把它分成多个子句,再根据子句的关系调整情感,然后再求和以计算句子情感。例如,可参考中国发明专利申请No.200910175170.2。
iv.人工或自动标注一些训练用句子样本(正、负面),进行句子情感判断模型训练,再用训练后的句子情感判断模型,确定文本中各个句子的情感极性和/或情感强度。
完成句子的情感极性和/或情感强度的确定之后,每个文本(d1、d2、…)可以被标注为以下形式:
d1:<+,-,-,…>
d2:<-,+,+,…>
……
或者
d1:<+19.5,-3.3,-2.5,…>
d2:<-39,+12,+3.2,…>
……
d1和d2代表两个文本,其中d1的第一个句子的情感强度为+19.5,第二个句子的情感强度为-3.3,以此类推。
在步骤S110A,根据在步骤S105中所确定的各个句子的情感极性和/或情感强度,确定文本的情感极性,形成训练用文本样本。文本的情感极性可以人工标注,或者根据句子的情感极性和/或情感强度求和确定(例如,所有句子的情感强度求和为正,则文本情感极性为正;所有句子的情感强度求和为负,则文本情感极性为负;所有句子的情感强度求和为零,则文本情感极性为中性)。
以下对步骤S110A的描述中,仍将沿用步骤S105中最后输出的结果:
d1:<+19.5,-3.3,-2.5,…>
d2:<-39,+12,+3.2,…>
……
作为示例,训练用文本样本可以采用以下五种方式形成:
A.根据以下规则形成训练文本样本中每个句子的特征式<*>,从而得到训练用文本样本:句子的情感极性为正面,则用正号代替;情感极性为负面,则用负号代替;句子的情感极性为中性,则仍用0表示。如果文本的情感极性为正,则句子标注P;如果文本的情感极性为负,则句子标注为N;如果文本的情感极性为中性,则句子标注为Z。
例如:
d1:<<+,P>,<-,P>,<-,P>,…>
d2:<<-,N>,<+N>,<+N>,…>
…
说明:d1是正文本(P),d2是负文本(N),d1的第一、二、三个句子的情感极性分别为正面、负面、负面。
B.在方式A的基础上,训练文本样本中每个句子的特征式<*>不仅包含自己的情感极性,还包含左右句子的情感极性。
例如:
d1:<<none,+,-,P>,<+,-,-,P>,<-,-,+,P>,…>
d2:<<none,-,+,N>,<-,+,+,N>,<+,+,-,N>,…>
…
说明:d1是正文本(P),第一句的特征式<none,+,-,P>的意思是:对于文本d1的第一句(+19.5的情感强度),左面没有句子(none),自己是正面(+),右面的句子是负面(-)。
C.在方式A或B的基础上,训练文本样本中每个句子的特征式<*>还可以包含句子在文本中的位置信息。
例如:
d1:<<+,PB>,<-,PB>,<-,PM>,…,<-,PE>>,或者
d1:<<none,+,-,PB>,<+,-,-,PB>,<-,-,+,PM>…,
<+,-,none,PE>>
说明:PB、PM、PE分别表示句子在文本的前面部分(Begin)、中间部分(Middle)和结尾部分(End)。例如,句子位置的判断方法可以包括:
(1)对称分割法:文本的前1/3的句子算前面部分,中间1/3的句子算中间部分,后1/3的句子算后面部分;
(2)非对称分割法:文本第一个句子算前面部分,最后一个句子算后面部分,其余句子都算中间部分。当然,也可以根据需要,调整到底多少句算作前面部分、多少句算作后面部分。
D.在方式A、B或C的基础上,训练文本样本中每个句子的特征式<*>还可以包含句子的强度级别。
例如:
d1:<<+r1,P>,<-,r3,P><-,r2,P>…>,或者
d1:<<+r1,r1,PB>,<-,r3,PB>,<-,r2,PB>,…>,或者
d1:<<none,+,-,r1,PB>,<+,-,-,r3,PB>,<-,-,+,r2,PM>…>
其中r1,r2,r3分别代表句子强度的第一、二、三级级别,例如,
可以按照下述方式确定:
r1:句子的情感强度在[2*(MaxStr-MinStr)/3,MaxStr]的范围内;
r2:句子的情感强度在[1*(MaxStr-MinStr)/3,
2*(MaxStr-MinStr)/3)的范围内;
r3:句子的情感强度在[MinStr,1*(MaxStr-MinStr)/3)的范围内;
其中MaxStr和MinStr分别代表一篇文本中句子的最大情感强度和最小情感强度。
E.作为与上述方式A~D不同的另一方式,可以为每个句子建立一个具有四个特征的向量:<f1,F2,F3,F4>,每个特征F1、F2、F3分别代表文本的前、中、后三个部分的句子的情感。每个特征的值可以是每个部分的所有句子的情感强度的总和。前、中、后三个部分的划分方法可参考上述方式C。F4代表文本情感(P,N或者Z)。
通过上述步骤S110A的操作,可以形成如下的训练用文本样本:
A:d1:<<+,P>,<-,P>,<-,P>…>;或者
B:d1:<<none,+,-,P><+,-,-,P>,<-,-,+,P>,…>;或者
C:<<+,PB>,<-,PB>,<-,PM>,…,<-,PE>>;或者
D:d1:<<+r1,P>,<-,r3,P>,<-,r2,P>…>;或者
E:<F1,F2,F3,F4>。
在步骤S115,以在步骤S110A中形成的训练用文本样本对文本情感判断模型进行训练,得到训练后的文本情感判断模型,以便在运行阶段中,用于对新输入的文本的情感极性进行判断。
目前,已有多种文本情感判断模型训练方法。例如,对于通过上述方式A~D形成的训练用文本样本,可以用序列训练模式进行文本情感判断模型训练,例如:隐马尔科夫模型(Hidden Markov Models,参见参考文献[2]:Lawrence R.Rabiner,A Tutorial on Hidden Markov Modelsand Selected Applications in Speech Recognition.Proceedings ofthe IEEE,77(2),p.257-286,February 1989)或者条件随机场模型(Conditional Random Fields,参见参考文献[3]:John Lafferty,Andrew McCallu m,and Fernando Pereira.2001.Conditional randomfields:Probabilistic models for segmenting and labeling sequencedata.In Proceedings of ICML 2001,2001,pp.282-289)等。而对于通过上述方式E形成的训练用文本样本,可以用非序列训练模式进行文本情感判断模型训练,例如:支持向量机(Support Vector Machin¨等。
接下来,将结合图1B,对根据本发明的文本情感分类方法的运行阶段进行详细描述。图1B中与图1A中相似的步骤以相同的序号进行标识。
在步骤S100,从新输入的文本中提取特征词,以便利用这些特征词,确定句子的情感极性和/或情感强度。
在步骤S105,根据在步骤S100中所提取的特征词的情感极性和/或情感强度,确定文本中各个句子的情感极性和/或情感强度。
在步骤S110B,与上述步骤S110A不同,形成具有句子情感极性序列的文本输入,即只标记句子的情感极性和/或情感强度,而不标记文本的情感极性,实际上,文本的情感极性是待求的输出。这里需要注意的是:在模型训练阶段的步骤S110A中,通过方式A~E中的哪种方式形成训练用文本样本,在运行阶段的步骤S110B中,也必须选择该方式,形成文本输入。
例如,新输入的文本为:“感觉挺好。考场偏僻了些。题目偏难了些。考得还算顺利。”
经过步骤S110B(方式A),最后得到的文本输入为“<+,-,-,+>”的形式;或者经过步骤S110B(方式B),最后得到的文本输入为“<<none,+,->,<+,-,->,<-,-,+>,<-,+,none>>”的形式;或者经过步骤S110B(方式C),最后得到的文本输入为“<+,-,-,+>”或者“<<none,+,->,<+,-,->,<-,-,+>,<-,+,none>>”的形式;等等。
在步骤S120,将在步骤S110B形成的文本输入送到经过步骤S115训练的文本情感判断模型中,由此,得到对新输入的文本的情感极性的判断。
例如,仍以步骤S110B中的新输入的文本为例,得到的输出可以为:
方式A:“<<+,P>,<-,P>,<-P>,<+P>>”;或者
方式B:“<<none,+,-,P>,<+,-,-,P>,<-,-,+,P>,<-,+,none,P>>”;或者
方式C:“<<+,PB>,<-,PM>,<-,PM>,<+,PE>>”。
文本的情感极性只需用单一的符号表示(P或N或Z),因此,只需取得第一个句子的第一个符合作为最后的输出,呈现给用户。
此外,可以根据步骤S120的输出结果,对步骤S100中提取出的特征词的情感极性和/或情感强度进行更新,也可以手动或自动将输出结果作为新的训练用文本样本。
图2示出了根据本发明的文本情感分类系统2000的示意方框图。
如图2所示,文本情感分类系统2000主要包括:特征词提取单元200、句子情感判断单元205、文本样本形成单元210A、模型训练单元215、文本输入形成单元210B和文本情感判断单元220,其中特征词提取单元200、句子情感判断单元205、文本样本形成单元210A和模型训练单元215用于图1A所示的模型训练阶段,特征词提取单元200、句子情感判断单元205、文本输入形成单元210B和文本情感判断单元220用于图1B所示的运行阶段。此外,文本情感分类系统2000还包括:特征词库230、文本样本库235和更新单元225。此外,图2还示出了由模型训练单元215训练、由文本情感判断单元220使用的文本情感判断模型240。
对应于上述图1A,在模型训练阶段,特征词提取单元200根据特征词库230,从文本中提取特征词(可以采用步骤S100中所描述的方式1或2,或者任何其他现有方式)。句子情感判断单元205根据特征词提取单元200所提取出的特征词的情感极性和/或情感强度,确定文本中各个句子的情感极性和/或情感强度(可以采用步骤S105中所描述的方式i~iv中的任一方式,或者任何其他现有方式)。文本样本形成单元210A根据句子情感判断单元205所确定的各个句子的情感极性和/或情感强度,确定文本的情感极性,形成训练用文本样本(可以采用步骤S110A中所描述的方式A~E中的任一方式,或者任何其他现有方式)。文本样本形成单元210A可以将所形成的训练用文本样本存储在文本样本库235中,以便后续使用。模型训练单元215以文本样本形成单元210A形成的训练用文本样本对文本情感判断模型240进行训练,得到训练后的文本情感判断模型240(可以采用步骤S115中所描述的任一文本情感判断模型训练方法,或者任何其他已知的文本情感判断模型训练方法)。模型训练单元215也可以直接从文本样本库235中获得训练用文本样本,对文本情感判断模型240进行训练,得到训练后的文本情感判断模型240。训练后的文本情感判断模型240将在运行阶段中,由文本情感判断单元220用于对新输入的文本的情感极性进行判断。
对应于上述图1B,在运行阶段,特征词提取单元200从新输入的文本中提取特征词(可以采用步骤S100中所描述的方式1或2,或者任何其他现有方式)。句子情感判断单元205根据特征词提取单元200所提取出的特征词的情感极性和/或情感强度,确定文本中各个句子的情感极性和/或情感强度(可以采用步骤S105中所描述的方式i~iv中的任一方式,或者任何其他现有方式)。文本输入形成单元210B根据句子情感判断单元205所确定的各个句子的情感极性和/或情感强度,形成具有句子情感极性序列的文本输入(可以采用与文本样本形成单元210A相同的任一方式),即只标记句子的情感极性和/或情感强度,而不标记文本的情感极性,实际上,文本的情感极性是待求的输出。文本情感判断单元220将文本输入形成单元210B形成的文本输入送到经过模型训练单元215训练的文本情感判断模型240中,由此,得到对新输入的文本的情感极性的判断。
此外,更新单元225可以根据文本情感判断单元220的输出结果,对特征词提取单元200提取出的特征词的情感极性和/或情感强度进行更新,即更新特征词库230,也可以根据用户指示和选择(或自动)将文本情感判断单元220的输出结果作为新的训练用文本样本存入文本样本库235,即更新文本样本库235。
在以上的描述中,针对各个步骤,列举了多个实例,虽然发明人尽可能地标示出彼此关联的实例,但这并不意味着这些实例必然按照相应的标号存在对应关系。只要所选择的实例所给定的条件间不存在矛盾,可以在不同的步骤中,选择标号并不对应的实例来构成相应的技术方案,这样的技术方案也应视为被包含在本发明的范围内。
应当注意的是,在以上的描述中,仅以示例的方式,示出了本发明的技术方案,但并不意味着本发明局限于上述步骤和单元结构。在可能的情形下,可以根据需要对步骤和单元结构进行调整和取舍。因此,某些步骤和单元并非实施本发明的总体发明思想所必需的元素。因此,本发明所必需的技术特征仅受限于能够实现本发明的总体发明思想的最低要求,而不受以上具体实例的限制。
这里所公开的本发明实施例的其他设置包括执行在先概述并随后详述的方法实施例的步骤和操作的软件程序。更具体地,计算机程序产品是如下的一种实施例:具有计算机可读介质,计算机可读介质上编码有计算机程序逻辑,当在计算设备上执行时,计算机程序逻辑提供相关的操作,从而提供上述单向代理转密方案。当在计算系统的至少一个处理器上执行时,计算机程序逻辑使得处理器执行本发明实施例所述的操作(方法)。本发明的这种设置典型地提供为设置或编码在例如光介质(例如CD-ROM)、软盘或硬盘等的计算机可读介质上的软件、代码和/或其他数据结构、或者诸如一个或多个ROM或RAM或PROM芯片上的固件或微代码的其他介质、或专用集成电路(ASIC)、或一个或多个模块中的可下载的软件图像、共享数据库等。软件或固件或这种配置可安装在计算设备上,以使得计算设备中的一个或多个处理器执行本发明实施例所述的技术。结合诸如一组数据通信设备或其他实体中的计算设备进行操作的软件过程也可以提供根据本发明的系统。根据本发明的系统也可以分布在多个数据通信设备上的多个软件过程、或者在一组小型专用计算机上运行的所有软件过程、或者单个计算机上运行的所有软件过程之间。
应该理解,严格地讲,本发明的实施例可以实现为数据通信设备上的软件程序、软件和硬件、或者单独的软件和/或单独的电路。
至此已经结合优选实施例对本发明进行了描述。应该理解,本领域技术人员在不脱离本发明的精神和范围的情况下,可以进行各种其它的改变、替换和添加。因此,本发明的范围不局限于上述特定实施例,而应由所附权利要求所限定。
Claims (9)
1.一种文本情感极性分类系统,包括:
特征词提取单元,用于从输入的文本中提取特征词;
句子情感判断单元,用于根据特征词提取单元所提取出的特征词的情感极性和/或情感强度,确定文本中各个句子的情感极性和/或情感强度;
文本输入形成单元,用于根据句子情感判断单元所确定的各个句子的情感极性和/或情感强度,形成具有句子情感极性序列的文本输入;以及
文本情感判断单元,用于利用训练过的文本情感判断模型,对文本输入形成单元形成的文本输入进行处理,得到对输入的文本的情感极性的判断。
2.根据权利要求1所述的文本情感极性分类系统,还包括:
模型训练单元,用于以训练用文本样本对文本情感判断模型进行训练,得到训练后的文本情感判断模型。
3.根据权利要求1或2所述的文本情感极性分类系统,还包括:
文本样本形成单元,用于确定训练用文本的情感极性,形成训练用文本样本,
其中特征词提取单元还用于从训练用文本中提取特征词,句子情感判断单元还用于根据特征词提取单元所提取出的特征词的情感极性和/或情感强度,确定训练用文本中各个句子的情感极性和/或情感强度,文本样本形成单元根据句子情感判断单元所确定的各个句子的情感极性和/或情感强度,确定训练用文本的情感极性,形成具有句子情感极性序列和文本情感极性的训练用文本样本。
4.根据权利要求1~3之一所述的文本情感极性分类系统,还包括:
更新单元,用于根据文本情感判断单元的输出结果,对特征词提取单元提取出的特征词的情感极性和/或情感强度进行更新,和/或将文本情感判断单元的输出结果作为新的训练用文本样本。
5.根据权利要求1~4之一所述的文本情感极性分类系统,还包括:
特征词库,用于存储特征词;以及
文本样本库,用于存储训练用文本样本。
6.一种文本情感极性分类方法,包括:
从输入的文本中提取特征词;
根据所提取出的特征词的情感极性和/或情感强度,确定文本中各个句子的情感极性和/或情感强度;
形成具有句子情感极性序列的文本输入;以及
利用训练过的文本情感判断模型,对所形成的文本输入进行处理,得到对输入的文本的情感极性的判断。
7.根据权利要求6所述的文本情感极性分类方法,还包括:
以训练用文本样本对文本情感判断模型进行训练,得到训练后的文本情感判断模型。
8.根据权利要求6或7所述的文本情感极性分类方法,还包括:
从训练用文本中提取特征词;
根据所提取出的特征词的情感极性和/或情感强度,确定训练用文本中各个句子的情感极性和/或情感强度;
根据所确定的各个句子的情感极性和/或情感强度,确定训练用文本的情感极性;以及
形成具有句子情感极性序列和文本情感极性的训练用文本样本。
9.根据权利要求6~8之一所述的文本情感极性分类方法,还包括:
根据对输入的文本的情感极性的判断,对所提取出的特征词的情感极性和/或情感强度进行更新,和/或将最后输出的具有句子情感极性序列和文本情感极性的结果,作为新的训练用文本样本。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010101357906A CN102200969A (zh) | 2010-03-25 | 2010-03-25 | 基于句子顺序的文本情感极性分类系统和方法 |
JP2011013789A JP5283288B2 (ja) | 2010-03-25 | 2011-01-26 | 文の配列に基づく文書感情分類システムおよび方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010101357906A CN102200969A (zh) | 2010-03-25 | 2010-03-25 | 基于句子顺序的文本情感极性分类系统和方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102200969A true CN102200969A (zh) | 2011-09-28 |
Family
ID=44661655
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2010101357906A Pending CN102200969A (zh) | 2010-03-25 | 2010-03-25 | 基于句子顺序的文本情感极性分类系统和方法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP5283288B2 (zh) |
CN (1) | CN102200969A (zh) |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102929860A (zh) * | 2012-10-12 | 2013-02-13 | 浙江理工大学 | 一种基于上下文语境的中文分句情感极性判别方法 |
CN103336764A (zh) * | 2013-06-18 | 2013-10-02 | 百度在线网络技术(北京)有限公司 | 基于倾向性分析的分类模型建立、内容识别方法及装置 |
CN103593334A (zh) * | 2012-08-15 | 2014-02-19 | 中国电信股份有限公司 | 一种用于判断文本情感程度的方法和系统 |
CN103593431A (zh) * | 2013-11-11 | 2014-02-19 | 北京锐安科技有限公司 | 网络舆情分析方法和装置 |
CN103631961A (zh) * | 2013-12-17 | 2014-03-12 | 苏州大学张家港工业技术研究院 | 一种情感词与评价对象的关系识别方法 |
CN104346336A (zh) * | 2013-07-23 | 2015-02-11 | 广州华久信息科技有限公司 | 一种基于机器文本对骂的情感发泄方法及系统 |
CN104573030A (zh) * | 2015-01-14 | 2015-04-29 | 哈尔滨工业大学深圳研究生院 | 一种文本情绪预测方法及装置 |
CN104809103A (zh) * | 2015-04-29 | 2015-07-29 | 北京京东尚科信息技术有限公司 | 一种人机对话的语义分析方法及系统 |
CN106104521A (zh) * | 2014-01-10 | 2016-11-09 | 克鲁伊普公司 | 用于自动检测文本中的情感的系统、设备和方法 |
CN106557463A (zh) * | 2016-10-31 | 2017-04-05 | 东软集团股份有限公司 | 情感分析方法及装置 |
CN106886580A (zh) * | 2017-01-23 | 2017-06-23 | 北京工业大学 | 一种基于深度学习的图片情感极性分析方法 |
CN107704763A (zh) * | 2017-09-04 | 2018-02-16 | 中国移动通信集团广东有限公司 | 多源异构漏洞情报去重方法、分级方法及装置 |
CN107944911A (zh) * | 2017-11-18 | 2018-04-20 | 电子科技大学 | 一种基于文本分析的推荐系统的推荐方法 |
CN109815335A (zh) * | 2019-01-26 | 2019-05-28 | 福州大学 | 一种适用于文献网络的论文领域分类方法 |
WO2020186627A1 (zh) * | 2019-03-15 | 2020-09-24 | 深圳市赛为智能股份有限公司 | 舆情极性预测方法、装置、计算机设备及存储介质 |
CN112101033A (zh) * | 2020-09-01 | 2020-12-18 | 广州威尔森信息科技有限公司 | 一种汽车口碑的情感分析方法和装置 |
CN113377910A (zh) * | 2021-06-09 | 2021-09-10 | 平安科技(深圳)有限公司 | 情感评价方法、装置、电子设备和存储介质 |
CN113392218A (zh) * | 2021-07-12 | 2021-09-14 | 北京百度网讯科技有限公司 | 文本质量评估模型的训练方法和确定文本质量的方法 |
CN113688620A (zh) * | 2021-08-26 | 2021-11-23 | 北京阅神智能科技有限公司 | 文章情感分析方法和装置 |
CN114065742A (zh) * | 2021-11-19 | 2022-02-18 | 马上消费金融股份有限公司 | 一种文本检测方法和装置 |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6070501B2 (ja) * | 2013-10-10 | 2017-02-01 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
JP6213196B2 (ja) * | 2013-12-05 | 2017-10-18 | 富士ゼロックス株式会社 | 情報処理プログラム及び情報処理装置 |
JP6639444B2 (ja) | 2017-06-07 | 2020-02-05 | 本田技研工業株式会社 | 情報提供装置及び情報提供方法 |
CN107491432B (zh) | 2017-06-20 | 2022-01-28 | 北京百度网讯科技有限公司 | 基于人工智能的低质量文章识别方法及装置、设备及介质 |
CN107526831B (zh) | 2017-09-04 | 2020-03-31 | 华为技术有限公司 | 一种自然语言处理方法和装置 |
JP2019191975A (ja) | 2018-04-26 | 2019-10-31 | パナソニック インテレクチュアル プロパティ コーポレーション オブアメリカPanasonic Intellectual Property Corporation of America | 人材選定装置、人材選定システム、人材選定方法及びプログラム |
CN110276076A (zh) * | 2019-06-25 | 2019-09-24 | 北京奇艺世纪科技有限公司 | 一种文本情绪分析方法、装置及设备 |
JP6816247B2 (ja) * | 2019-12-24 | 2021-01-20 | 本田技研工業株式会社 | 情報提供装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006146567A (ja) * | 2004-11-19 | 2006-06-08 | Internatl Business Mach Corp <Ibm> | 表現検出システム、表現検出方法、及びプログラム |
CN101174272A (zh) * | 2007-10-26 | 2008-05-07 | 北京航空航天大学 | 汉语文本情感数据的组织及提取方法 |
WO2008075524A1 (ja) * | 2006-12-18 | 2008-06-26 | Nec Corporation | 極性推定システム、情報配信システム、極性推定方法及び、極性推定用プログラム、及び評価極性推定用プログラム |
JP2010020390A (ja) * | 2008-07-08 | 2010-01-28 | Toyota Central R&D Labs Inc | 感情推定装置及び感情推定プログラム |
-
2010
- 2010-03-25 CN CN2010101357906A patent/CN102200969A/zh active Pending
-
2011
- 2011-01-26 JP JP2011013789A patent/JP5283288B2/ja not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006146567A (ja) * | 2004-11-19 | 2006-06-08 | Internatl Business Mach Corp <Ibm> | 表現検出システム、表現検出方法、及びプログラム |
WO2008075524A1 (ja) * | 2006-12-18 | 2008-06-26 | Nec Corporation | 極性推定システム、情報配信システム、極性推定方法及び、極性推定用プログラム、及び評価極性推定用プログラム |
CN101174272A (zh) * | 2007-10-26 | 2008-05-07 | 北京航空航天大学 | 汉语文本情感数据的组织及提取方法 |
JP2010020390A (ja) * | 2008-07-08 | 2010-01-28 | Toyota Central R&D Labs Inc | 感情推定装置及び感情推定プログラム |
Non-Patent Citations (2)
Title |
---|
刘康等: "基于层叠CRFs模型的句子褒贬度分析研究", 《中文信息学报》, vol. 22, no. 1, 15 January 2008 (2008-01-15), pages 123 - 127 * |
范新: "基于positive和unlabeled样本的半监督分类研究", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 12, 23 October 2009 (2009-10-23), pages 48 - 54 * |
Cited By (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103593334A (zh) * | 2012-08-15 | 2014-02-19 | 中国电信股份有限公司 | 一种用于判断文本情感程度的方法和系统 |
CN103593334B (zh) * | 2012-08-15 | 2017-07-28 | 中国电信股份有限公司 | 一种用于判断文本情感程度的方法和系统 |
CN102929860B (zh) * | 2012-10-12 | 2015-05-13 | 浙江理工大学 | 一种基于上下文语境的中文分句情感极性判别方法 |
CN102929860A (zh) * | 2012-10-12 | 2013-02-13 | 浙江理工大学 | 一种基于上下文语境的中文分句情感极性判别方法 |
CN103336764A (zh) * | 2013-06-18 | 2013-10-02 | 百度在线网络技术(北京)有限公司 | 基于倾向性分析的分类模型建立、内容识别方法及装置 |
CN104346336A (zh) * | 2013-07-23 | 2015-02-11 | 广州华久信息科技有限公司 | 一种基于机器文本对骂的情感发泄方法及系统 |
CN103593431A (zh) * | 2013-11-11 | 2014-02-19 | 北京锐安科技有限公司 | 网络舆情分析方法和装置 |
CN103631961B (zh) * | 2013-12-17 | 2017-01-18 | 苏州大学张家港工业技术研究院 | 一种情感词与评价对象的关系识别方法 |
CN103631961A (zh) * | 2013-12-17 | 2014-03-12 | 苏州大学张家港工业技术研究院 | 一种情感词与评价对象的关系识别方法 |
CN106104521A (zh) * | 2014-01-10 | 2016-11-09 | 克鲁伊普公司 | 用于自动检测文本中的情感的系统、设备和方法 |
US10073830B2 (en) | 2014-01-10 | 2018-09-11 | Cluep Inc. | Systems, devices, and methods for automatic detection of feelings in text |
CN106104521B (zh) * | 2014-01-10 | 2019-10-25 | 克鲁伊普有限责任公司 | 用于自动检测文本中的情感的系统、设备和方法 |
CN104573030B (zh) * | 2015-01-14 | 2017-12-12 | 哈尔滨工业大学深圳研究生院 | 一种文本情绪预测方法及装置 |
CN104573030A (zh) * | 2015-01-14 | 2015-04-29 | 哈尔滨工业大学深圳研究生院 | 一种文本情绪预测方法及装置 |
CN104809103B (zh) * | 2015-04-29 | 2018-03-30 | 北京京东尚科信息技术有限公司 | 一种人机对话的语义分析方法及系统 |
CN104809103A (zh) * | 2015-04-29 | 2015-07-29 | 北京京东尚科信息技术有限公司 | 一种人机对话的语义分析方法及系统 |
CN106557463A (zh) * | 2016-10-31 | 2017-04-05 | 东软集团股份有限公司 | 情感分析方法及装置 |
CN106886580A (zh) * | 2017-01-23 | 2017-06-23 | 北京工业大学 | 一种基于深度学习的图片情感极性分析方法 |
CN106886580B (zh) * | 2017-01-23 | 2020-01-17 | 北京工业大学 | 一种基于深度学习的图片情感极性分析方法 |
CN107704763A (zh) * | 2017-09-04 | 2018-02-16 | 中国移动通信集团广东有限公司 | 多源异构漏洞情报去重方法、分级方法及装置 |
CN107944911B (zh) * | 2017-11-18 | 2021-12-03 | 电子科技大学 | 一种基于文本分析的推荐系统的推荐方法 |
CN107944911A (zh) * | 2017-11-18 | 2018-04-20 | 电子科技大学 | 一种基于文本分析的推荐系统的推荐方法 |
CN109815335A (zh) * | 2019-01-26 | 2019-05-28 | 福州大学 | 一种适用于文献网络的论文领域分类方法 |
CN109815335B (zh) * | 2019-01-26 | 2022-03-04 | 福州大学 | 一种适用于文献网络的论文领域分类方法 |
WO2020186627A1 (zh) * | 2019-03-15 | 2020-09-24 | 深圳市赛为智能股份有限公司 | 舆情极性预测方法、装置、计算机设备及存储介质 |
CN112101033A (zh) * | 2020-09-01 | 2020-12-18 | 广州威尔森信息科技有限公司 | 一种汽车口碑的情感分析方法和装置 |
CN112101033B (zh) * | 2020-09-01 | 2021-06-15 | 广州威尔森信息科技有限公司 | 一种汽车口碑的情感分析方法和装置 |
CN113377910A (zh) * | 2021-06-09 | 2021-09-10 | 平安科技(深圳)有限公司 | 情感评价方法、装置、电子设备和存储介质 |
CN113392218A (zh) * | 2021-07-12 | 2021-09-14 | 北京百度网讯科技有限公司 | 文本质量评估模型的训练方法和确定文本质量的方法 |
CN113688620A (zh) * | 2021-08-26 | 2021-11-23 | 北京阅神智能科技有限公司 | 文章情感分析方法和装置 |
CN113688620B (zh) * | 2021-08-26 | 2024-03-22 | 北京阅神智能科技有限公司 | 文章情感分析方法和装置 |
CN114065742A (zh) * | 2021-11-19 | 2022-02-18 | 马上消费金融股份有限公司 | 一种文本检测方法和装置 |
CN114065742B (zh) * | 2021-11-19 | 2023-08-25 | 马上消费金融股份有限公司 | 一种文本检测方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
JP5283288B2 (ja) | 2013-09-04 |
JP2011204226A (ja) | 2011-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102200969A (zh) | 基于句子顺序的文本情感极性分类系统和方法 | |
Kim et al. | Two-stage multi-intent detection for spoken language understanding | |
CN106599032B (zh) | 一种结合稀疏编码和结构感知机的文本事件抽取方法 | |
CN108874937B (zh) | 一种基于词性结合和特征选择的情感分类方法 | |
CN109977413A (zh) | 一种基于改进cnn-lda的情感分析方法 | |
WO2019080863A1 (zh) | 文本情感分类方法、存储介质及计算机 | |
Krasnowska-Kieraś et al. | Empirical linguistic study of sentence embeddings | |
CN103870000B (zh) | 一种对输入法所产生的候选项进行排序的方法及装置 | |
CN109472026A (zh) | 一种同时针对多个命名实体的精准情感信息提取方法 | |
CN112668319B (zh) | 基于中文信息和越南语句法指导的越南语新闻事件检测方法 | |
Wang et al. | Sentiment classification of online reviews: using sentence-based language model | |
CN104008091A (zh) | 一种基于情感值的网络文本情感分析方法 | |
CN107688576B (zh) | 一种cnn-svm模型的构建及倾向性分类方法 | |
Kwaik et al. | An Arabic tweets sentiment analysis dataset (ATSAD) using distant supervision and self training | |
Xafopoulos et al. | Language identification in web documents using discrete HMMs | |
CN110851601A (zh) | 基于分层注意力机制的跨领域情感分类系统及方法 | |
CN110119443A (zh) | 一种面向推荐服务的情感分析方法 | |
CN105912720B (zh) | 一种计算机中涉及情感的文本数据分析方法 | |
CN110569355B (zh) | 一种基于词块的观点目标抽取和目标情感分类联合方法及系统 | |
CN103678318A (zh) | 多词单元提取方法和设备及人工神经网络训练方法和设备 | |
CN112818698A (zh) | 一种基于双通道模型的细粒度的用户评论情感分析方法 | |
WO2015099418A1 (ko) | 채팅 데이터 학습 및 서비스 방법 및 그에 따른 시스템 | |
Singkul et al. | Parsing thai social data: A new challenge for thai nlp | |
Duque et al. | CO-graph: A new graph-based technique for cross-lingual word sense disambiguation | |
Jarosz et al. | The richness of distributional cues to word boundaries in speech to young children |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20110928 |