CN102033865A - 基于子句关联的文本情感分类系统和方法 - Google Patents
基于子句关联的文本情感分类系统和方法 Download PDFInfo
- Publication number
- CN102033865A CN102033865A CN2009101751702A CN200910175170A CN102033865A CN 102033865 A CN102033865 A CN 102033865A CN 2009101751702 A CN2009101751702 A CN 2009101751702A CN 200910175170 A CN200910175170 A CN 200910175170A CN 102033865 A CN102033865 A CN 102033865A
- Authority
- CN
- China
- Prior art keywords
- clause
- emotion
- text
- speech
- feeling polarities
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明提出了一种文本情感极性分类方法和系统。根据本发明的文本情感极性分类方法,首先,根据标点符号和话语标记把文本划分为多个子句;然后,以句子为单位,确定所述句子中所包含的各子句的连接方式;再根据句子中所包含的各子句的连接方式和各子句所包含的情感词的情感强度,计算所述句子中所包含的各子句的情感强度;根据所述文本中的所有子句的情感强度,计算所述文本的情感极性;最后,根据所述文本的情感极性和情感词所属的子句与所属句子中所包含的其他子句的连接方式,更新情感词的情感强度;重复上述步骤,直至文本的情感极性和/或所有情感词的情感强度不再发生改变,此时所计算出的文本的情感极性作为最终确定的文本情感极性。
Description
技术领域
本发明涉及自然语言处理领域,更具体地,涉及一种基于子句关联的文本情感分类系统和方法。
背景技术
随着因特网的发展,越来越多的人在网上发布信息,其中包括了很多用户对产品的评论。这些评论经常发表在购物网站、论坛和个人博客上,对潜在用户和生产厂商都很有价值。对潜在用户而言,这些文本能帮助他们实现了解产品优缺点,并帮助他们做出最后选择(购买哪种产品);对生产厂商而言,可以帮助他们了解用户评价,并根据评价改进产品。由于这样的信息很多,人们希望计算机能够自动地分析、处理和总结,并将结果呈现给用户。但是由于自然语言的多样性和随意性,计算机的自动处理存在多种困难,需要一些技术来解决。
产品评论分析可以是多层次、多角度的,其中的一种分析是确定文本的情感极性。例如,确定某篇文本是正面的(说某种产品好),或者负面的(说某种产品不好),或者是中性的。
总的来说,确定文本的情感极性有两种方式:监督式和非监督式。监督式需要一个人工标注的训练样本集,而非监督式则不需要。由于训练样本集需要人工标注,而且一般是基于特定领域的,也就是说,不同领域需要不同的训练样本集,所以构建训练样本集的时间和资金成本都比较高。由于非监督式方法不需要训练样本集,所以相对监督式方法而言具有速度快、成本低等优势。
参考文献[1](Taras Zagibalov,John Carroll.Automatic Seed WordSelection for Unsupervised Sentiment Classification of Chinese Text.COLING2008.pp.1073-1080)提出了确定文本的情感极性的基本思路,其中采用了非监督方式,并使用了迭代算法。
图1示出了参考文献[1]所提出的文本情感分类方法的示意流程图。
如图1所示,首先,在步骤S110,确定一些有情感极性的词,称为种子词,例如“方便”、“丰富”、“细腻”是正面的词,而“肮脏”、“刺耳”、“丑陋”是负面的词。种子词可以利用语言知识确定,例如由于人们常用“不”、“不够”等否定词加正面词来表示负面意义,如“不方便”、“不够丰富”等,所以可以根据词和否定词的共现频率来确定一些正面的种子词。也可以根据一些已有的字典(例如HowNet情感字典)来确定。但是这些词可能并不完整,也并不完全适用于当前领域,所以直接用这些词来判断文本极性可能不太准确,需要用一个迭代过程(步骤S120和S130)不断改善。
迭代过程分为两步,即,图1所示的步骤S120和S130。第一步,步骤S120,利用现有的有极性的词(第一次迭代时采用的是步骤S110中所选择的种子情感词),确定文本的情感极性。判断准则是:如果一个文本中的正面情感的子句的数量多于负面情感的子句的数量,则该文本被判断为正面情感(正极性);反之,如果一个文本中的负面情感的子句的数量多于正面情感的子句的数量,则该文本被判断为负面情感(负极性);如果正面情感的子句的数量与负面情感的子句的数量相等,则该文本被判断为中性。
第二步,步骤S130,利用步骤S120所确定的文本极性更新词的情感极性和强度。更新原则是:如果一个词发生在正极性文本中的次数多于发生在负极性文本中的次数,则判断词为正极性,反之判断为负极性,相等则没有极性;词的情感强度可以等于正负极性文本的数目差。以上更新原则在具体实施时可以加以变化,例如,在正负极性文本的数目差大于某一阈值时,才进行词的情感极性的判断。注意,本说明书中所使用的术语“词”表示任意长度的文本串,例如,针对“这款屏幕色彩丰富”这句话,“这”、“这款”、“这款屏”等都是文本串,都可以具有情感极性。
以上这两步(步骤S120和S130)构成一次迭代。每次迭代结束后,上一次判断的文本极性和词的情感极性都可能发生改变,例如上一次判断为正极性的文本在下一次可能判断为负极性,而上一次判断为没有极性的词在下次迭代后可能判断为具有某种极性(例如正极性)。在迭代的过程中,当文本极性和词的情感极性判断都不再发生改变时,迭代停止。事实上,只判断二者之一(例如,文本极性)就可以了,这是因为二者的判断之间存在关联,当二者之一不再改变时,另一个也不再发生改变。
图2示出了图1所示的步骤S120的示意子流程图。
在步骤S1210,对于一个文本,先根据标点符号和话语标记把它划分为多个子句。在本说明书中,采用了两个术语“句子”和“子句”。在本领域中,术语“句子”通常表示由句号(。)、分号(;)、感叹号(!)、问号(?)等标点符号为分隔符的语句;术语“子句”通常表示在一个句子中,由逗号(,)、顿号(、)、冒号(:)等标点符号和话语标记分隔出的语句。通常来说,一个句子可以包括一个或多个子句。包含有两个或者两个以上子句的句子称为复合句。例如“概念是很好的,但是样式陈旧”是一个句子,由逗号分隔为两个子句。这个句子称为复合句。
这里,本说明书并不局限于汉语应用,也可以包括其他多种语言应用,例如,英语、日语、德语、法语等。以英语为例,有些子句并非以逗号(,)分隔,例如,“it’s mostly a waste of time although the concept isgreat”,这里,虽然没有标点符号,但是话语标记“although”同样应当被理解为子句分隔符,类似的话语标记还可以包括“but”、“so that”、“when”、“if”等。
用一个表V记录词的情感极性和强度。一个词w在表V中记录的情感强度为SV(w)。这里说明一下,词不仅有极性,还有强度。例如,“优良”和“优秀”的强度是不一样的,后者比前者的强度强。可以用等级或数值来衡量词的强度。在本说明书中,用数值来衡量词的强度(正情感极性词具有正强度,负情感极性词具有负强度,强度的绝对值越大,则强度越大);情感词的情感强度同时表征了情感词的情感极性(情感强度的符号)和情感强弱(情感强度的绝对值的大小)。
初始化时,种子情感词的强度可以为1(正情感极性词为+1,负情感极性词为-1)。词w在一个子句c中的强度记为Sc(w),可以利用公式(1)来计算,在公式(1)中,Wc(w)表示词w在子句c中的权重值。
Sc(w)=WC(w)×SV(W) (1)
公式(1)的一个具体实现可以表示为:
其中Ld是词的长度,Lphrase是子句长度。如果词w前没有否定词(例如“不”、“没”等),则Nd=1,如果词w前有否定词,则Nd=-1。
接下来,在步骤S1220,根据子句c中的所有情感词w,计算子句c的情感。子句c的情感强度记为S(c),是由子句c中的所有情感词的强度Sc(w)求和得到的。进一步,如果S(c)>0,则子句c的情感极性P(c)判断为正极性,如果S(c)<0,则子句c的情感极性P(c)判断为负极性,如果S(c)=0,则子句c的情感极性P(c)判断为无极性(公式(2))。
最后,在步骤S1230,根据文本d中的所有子句c,计算文本d的极性。文本d的情感强度记为S(d),是根据文本d中的所有子句的情感极性P(c)(或根据文本d中的所有子句的情感强度S(c))来判断的。如果正情感极性的子句的数目大于负情感极性的子句的数目,则文本d被判断为正极性(P(d)=1),反之,则被判断为负极性(P(d)=-1);如果相等,则文本d被判断为中性(P(d)=0)(公式(3))。根据文本d中的所有子句的情感强度S(c)判断文本极性的公式见(3’)。
或者
在步骤S130中,统计词w在判断出的正负文本中出现的频率,分别记为Fp和Fn。用DIF(w)衡量词w是否有极性:如果Fp和Fn差别很大,则词w有极性,反之,词w无极性。计算DIF(w)的一个示例公式如公式(4)所示。
如果DIF(w)大于一个阈值,则认为词w有极性,可以被加入表V,词w的更新后的强度SV(w)可以由公式(5)表示(由公式(5)可知,SV(w)的符号表明情感极性,SV(w)的绝对值|SV(w)|表明强度的大小)。
SV(w)=Fp-Fn (5)
以下,将给出一个具体的例子(仅示出了一次迭代,且采用公式(3)):
d={c1,c2}
={概念是很好的,但是样式陈旧}
V={<w1,SV(w1)>,<w2,SV(w2)>,…}
={<好,+100>,<陈旧,-7>,…}
Sc1(好)=1*100=100(权重值Wc(w)简化为1)
Sc2(陈旧)=1*(-7)=-7(权重值Wc(w)简化为1)
S(c1)=100;P(c1)=1
S(c2)=-7;P(c2)=-1
S(d)=P(c1)+P(c2)=0
P(d)=0
因此,文本d被判断为中性。
由以上示例可以看出,参考文献[1]的计算过程忽略了子句之间的联系,因此可能会导致错误。例如,在上面的例子中,前一个子句被判断为正极性,后一个子句被判断为负极性,如果不考虑子句的关联,整个文本被判断为中性。但是根据连接词“但是”,可以判断出说话人强调后面子句的意思。因此上面的文本应该判断为负极性。参考文献[1]所提出的方法无法实现这样的判断。
发明内容
为了减少类似的错误,本发明提出对子句的连接方式进行分析,并且根据不同的连接方式修正判断结果和更新结果,以便达到更精确地判断文本极性的目的。
根据本发明的第一方案,提出了一种文本情感极性分类系统,包括:子句划分单元,用于根据标点符号和话语标记把文本划分为多个子句;子句连接方式确定单元,用于以句子为单位,确定所述句子中所包含的各子句的连接方式;子句情感强度计算单元,用于根据句子中所包含的各子句的连接方式和各子句所包含的情感词的情感强度,计算所述句子中所包含的各子句的情感强度;文本情感极性计算单元,用于根据所述文本中的所有子句的情感强度,计算所述文本的情感极性;情感词情感强度更新单元,用于根据所述文本的情感极性和情感词所属的子句与所属句子中所包含的其他子句的连接方式,更新情感词的情感强度;控制器,用于控制上述各个单元的操作,直至文本情感极性计算单元所计算出的文本的情感极性不再改变和/或情感词情感强度更新单元不再更新所有情感词的情感强度,此时输出所计算出的文本的情感极性,作为最终确定的文本情感极性。
优选地,子句连接方式确定单元根据连接词和连接方式对照表,基于各子句中所包含的连接词,确定各子句的连接方式。
优选地,子句情感强度计算单元包括:求和单元,用于对各子句所包含的各情感词的情感强度求和,作为各子句的情感强度;并列连接关系处理单元,用于在句子中所包含的各子句的连接方式为并列连接方式时,判断各子句的情感极性是否一致;以及如果各子句的情感极性不一致,则将各子句的情感极性均调整为与具有最大情感强度绝对值的子句的情感极性相一致。
优选地,子句情感强度计算单元包括:求和单元,用于对各子句所包含的各情感词的情感强度求和,作为各子句的情感强度;并列连接关系处理单元,用于在句子中所包含的各子句的连接方式为并列连接方式时,判断各子句的情感极性是否一致;以及如果各子句的情感极性不一致,则将各子句的情感强度均调整为与具有最大情感强度绝对值的子句的情感强度相同。
优选地,子句情感强度计算单元包括:求和单元,用于对各子句所包含的各情感词的情感强度求和,作为各子句的情感强度;转折连接关系处理单元,用于在句子中所包含的各子句的连接方式为转折连接方式时,将非转折子句的情感极性调整为与转折子句相一致。
优选地,子句情感强度计算单元包括:求和单元,用于对各子句所包含的各情感词的情感强度求和,作为各子句的情感强度;条件连接关系处理单元,用于在句子中所包含的各子句的连接方式为条件连接方式时,将各子句的情感强度均调整为无情感强度。
优选地,文本情感极性计算单元对所述文本中所包含的各子句的情感极性或情感强度求和,作为所述文本的情感强度,以及将所述文本的情感强度的极性作为所述文本的情感极性。
优选地,情感词情感强度更新单元包括:并列连接关系处理单元,用于在所述文本的情感极性为正,且情感词所属的子句与所属句子中所包含的其他子句的连接方式为并列连接方式时,将所述情感词在正情感极性文本中出现的频率Fp增加预定值;在所述文本的情感极性为负,且情感词所属的子句与所属句子中所包含的其他子句的连接方式为并列连接方式时,将所述情感词在负情感极性文本中出现的频率Fn增加预定值;以及情感词情感强度处理单元,用于根据更新后的Fp和Fn,更新情感词的情感强度。
优选地,情感词情感强度更新单元包括:转折连接关系处理单元,用于在所述文本的情感极性为正,且情感词所属的子句与所属句子中所包含的其他子句的连接方式为转折连接方式时,如果所述情感词所属的子句是非转折子句,则将所述情感词在正情感极性文本中出现的频率Fp减少预定值;以及如果所述情感词所属的子句是转折子句,则将所述情感词在正情感极性文本中出现的频率Fp增加预定值;在所述文本的情感极性为负,且情感词所属的子句与所属句子中所包含的其他子句的连接方式为转折连接方式时,如果所述情感词所属的子句是非转折子句,则将所述情感词在负情感极性文本中出现的频率Fn减少预定值;以及如果所述情感词所属的子句是转折子句,则将所述情感词在负情感极性文本中出现的频率Fn增加预定值;以及情感词情感强度处理单元,用于根据更新后的Fp和Fn,更新情感词的情感强度。
优选地,情感词情感强度更新单元包括:条件连接关系处理单元,用于在情感词所属的子句与所属句子中所包含的其他子句的连接方式为条件连接方式时,将所述情感词在正情感极性文本和负情感极性文本中出现的频率Fp和Fn保持不变;以及情感词情感强度处理单元,用于根据更新后的Fp和Fn,更新情感词的情感强度。
根据本发明的第二方案,提出了一种文本情感极性分类方法,包括以下步骤:根据标点符号和话语标记把文本划分为多个子句;以句子为单位,确定所述句子中所包含的各子句的连接方式;根据句子中所包含的各子句的连接方式和各子句所包含的情感词的情感强度,计算所述句子中所包含的各子句的情感强度;根据所述文本中的所有子句的情感强度,计算所述文本的情感极性;根据所述文本的情感极性和情感词所属的子句与所属句子中所包含的其他子句的连接方式,更新情感词的情感强度;重复上述步骤,直至文本的情感极性和/或所有情感词的情感强度不再发生改变,此时所计算出的文本的情感极性作为最终确定的文本情感极性。
优选地,确定句子中所包含的各子句的连接方式的步骤包括:根据连接词和连接方式对照表,基于各子句中所包含的连接词,确定各子句的连接方式。
优选地,计算各子句的情感强度的步骤包括以下子步骤:对各子句所包含的各情感词的情感强度求和,作为各子句的情感强度;在句子中所包含的各子句的连接方式为并列连接方式时,判断各子句的情感极性是否一致;以及如果各子句的情感极性不一致,则将各子句的情感极性均调整为与具有最大情感强度绝对值的子句的情感极性相一致。
优选地,计算各子句的情感强度的步骤包括以下子步骤:对各子句所包含的各情感词的情感强度求和,作为各子句的情感强度;在句子中所包含的各子句的连接方式为并列连接方式时,判断各子句的情感极性是否一致;以及如果各子句的情感极性不一致,则将各子句的情感强度均调整为与具有最大情感强度绝对值的子句的情感强度相同。
优选地,计算各子句的情感强度的步骤包括以下子步骤:对各子句所包含的各情感词的情感强度求和,作为各子句的情感强度;在句子中所包含的各子句的连接方式为转折连接方式时,将非转折子句的情感极性调整为与转折子句相一致。
优选地,计算各子句的情感强度的步骤包括以下子步骤:对各子句所包含的各情感词的情感强度求和,作为各子句的情感强度;在句子中所包含的各子句的连接方式为条件连接方式时,将各子句的情感强度均调整为无情感强度。
优选地,计算文本的情感极性的步骤包括以下子步骤:对所述文本中所包含的各子句的情感极性或情感强度求和,作为所述文本的情感强度;以及将所述文本的情感强度的极性作为所述文本的情感极性。
优选地,更新情感词的情感强度的步骤包括以下子步骤:在所述文本的情感极性为正,且情感词所属的子句与所属句子中所包含的其他子句的连接方式为并列连接方式时,将所述情感词在正情感极性文本中出现的频率Fp增加预定值;在所述文本的情感极性为负,且情感词所属的子句与所属句子中所包含的其他子句的连接方式为并列连接方式时,将所述情感词在负情感极性文本中出现的频率Fn增加预定值;以及根据更新后的Fp和Fn,更新情感词的情感强度。
优选地,更新情感词的情感强度的步骤包括以下子步骤:在所述文本的情感极性为正,且情感词所属的子句与所属句子中所包含的其他子句的连接方式为转折连接方式时,如果所述情感词所属的子句是非转折子句,则将所述情感词在正情感极性文本中出现的频率Fp减少预定值;以及如果所述情感词所属的子句是转折子句,则将所述情感词在正情感极性文本中出现的频率Fp增加预定值;在所述文本的情感极性为负,且情感词所属的子句与所属句子中所包含的其他子句的连接方式为转折连接方式时,如果所述情感词所属的子句是非转折子句,则将所述情感词在负情感极性文本中出现的频率Fn减少预定值;以及如果所述情感词所属的子句是转折子句,则将所述情感词在负情感极性文本中出现的频率Fn增加预定值;以及根据更新后的Fp和Fn,更新情感词的情感强度。
优选地,更新情感词的情感强度的步骤包括以下子步骤:在情感词所属的子句与所属句子中所包含的其他子句的连接方式为条件连接方式时,将所述情感词在正情感极性文本和负情感极性文本中出现的频率Fp和Fn保持不变;以及根据更新后的Fp和Fn,更新情感词的情感强度。
举例来说,在下述具体实施方式中,分析了子句的三类连接方式:并列(和递进)、转折、条件。对于并列句而言,两个(或多个)子句应该在情感上保持一致,如果计算结果不一致,则说明可能出现计算错误,因此,需要进行调整。对于转折句而言,通常转折子句的情感被强调,而非转折子句的情感应当被忽略(在以上“概念是很好的,但是样式陈旧”例子中,前面的子句称为非转折子句,后面的子句称为转折子句)。条件句则常常表示还没有发生的情况,所以并不对现实情感发生影响,其情感极性应加以忽略。
根据本发明,可以大大提高文本极性判断的正确性。
附图说明
通过下面结合附图说明本发明的优选实施例,将使本发明的上述及其它目的、特征和优点更加清楚,其中:
图1示出了参考文献[1]所提出的文本情感分类方法的示意流程图;
图2示出了图1所示的步骤S120的示意子流程图;
图3示出了根据本发明的文本情感分类方法的示意流程图,其中同时示出了步骤S220的示意子流程图;
图4示出了图3所示的步骤S2220的示意子流程图;
图5示出了图3所示的步骤S230的示意子流程图;以及
图6示出了根据本发明的文本情感分类系统的示意方框图。
在本发明的所有附图中,相同或相似的结构和步骤均以相同或相似的附图标记标识。
具体实施方式
下面参照附图对本发明的优选实施例进行详细说明,在描述过程中省略了对于本发明来说是不必要的细节和功能,以防止对本发明的理解造成混淆。
图3示出了根据本发明的文本情感分类方法的示意流程图,其中同时示出了步骤S220的示意子流程图。
本发明是对参考文献[1]的改进。如图3中的粗线框所示,改进主要包括两部分,分别对步骤S120“确定文本极性”和步骤S130“更新词的情感极性”进行了改进,得到改进后的步骤S220和S230。
参考图3中所示出的步骤S220的示意子流程图,首先,与参考文献[1]相同,根据标点符号和话语标记把文本划分为多个子句。
然后,在步骤S2210,以句子为单位,确定该句子中所包含的各子句的连接方式。在本发明中,可以采用本领域公知的检查连接词的方法。当然,也可以采用本领域公知的其他方法。例如,一个简单的方法是:首先,定义一个连接词和连接方式的对照表,例如表1;然后,根据子句句首的词,判断两个子句的连接方式。复杂的方法还可以根据子句句中的词,判断子句的连接方式。
如果句子中含有对照表中的连接词,则判断该句子为复合句,按照本发明所提出的方法修正子句情感判断结果。否则,判断该句子不是复合句,仍按照参考文献[1]所提出的方法进行子句情感判断。
表1
连接词 | 连接方式 |
并且 | 并列 |
但是 | 转折 |
如果 | 条件 |
之后,在步骤S2220,根据该句子中所包含的各子句的连接方式和各子句所包含的情感词的情感强度,计算该句子中所包含的各子句的情感强度。图4示出了图3所示的步骤S2220的示意子流程图。
如图4所示,首先,在步骤S2221,判断句子c是否是复合句。如果不是复合句(步骤S2221“否”),则按照参考文献[1]所提出的方式进行判断。
如果是复合句(步骤S2221“是”),则先在步骤S2222,将复合句c转为标准的子句对(c1,c2)。这里,主要是对转折句进行标准化。转折句可以转折子句在后,例如“概念是很好的,但是样式陈旧”,也可以转折子句在前,例如“样式太陈旧了,尽管概念还不错”。为了以下描述和操作的方便性,在本说明书中,把这两种形式统一为转折子句在后的形式。对于转折子句在前的形式,简单更换两个子句的顺序即可(例如,将“样式太陈旧了,尽管概念还不错”改为“尽管概念还不错,样式太陈旧了”)。标准化后,子句c2通常反映了说话人的重点意思。子句对的标准化方法可以采用已知的多种标准化方法,在此不再赘述。
之后,在步骤S2223,按照参考文献[1]所提出的方法,即参考步骤S1220,分别计算标准子句对(c1,c2)中的每个子句的情感强度S(c1)和S(c2)。
在步骤S222A~S22A4,对并列句c进行处理,如果两个子句c1和c2的情感极性不一致(S(c1)*S(c2)<0或者P(c1)*P(c2)<0)(步骤S22A1“是”),则必然有一个子句存在计算错误,需要更改。考虑S(c1)和S(c2)的强度(|S(c1)|和|S(c2)|之间进行比较),把强度小的子句的极性和强度改为强度大的子句的极性和强度(步骤S22A3和S22A4)。
另外,另一个方案是只改极性,不改强度,即把强度小的子句的极性改为强度大的子句的极性,相应地,步骤S22A3修改为S(c2)=-S(c2),步骤S22A4修改为S(c1)=-S(c1)。
在步骤S222B和S22B1,对转折句c进行处理,把标准的子句对(c1,c2)中前面的子句c1的情感极性转为相反的极性,而强度不变。
在步骤S222C和S22C1,对条件句c进行处理,把子句强度弱化为0(即无情感极性和/或强度)。
仍采用本发明背景技术部分中所给出的具体例子(仅示出了一次迭代,且采用公式(3)):
d=c={c 1,c2}
={概念是很好的,但是样式陈旧}
V={<w1,SV(w1)>,<w2,SV(w2)>,…}
={<好,+100>,<陈旧,-7>,…}
Sc1(好)=1*100=100(权重值Wc(w)简化为1)
Sc2(陈旧)=1*(-7)=-7(权重值Wc(w)简化为1)
S(c1)=100
S(c2)=-7
因为句子c={c1,c2}是转折句,所以反转非转折子句c1的情感极性:S(c1)=-S(c1)=-100
P(c1)=-1
P(c2)=-1
S(d)=P(c1)+P(c2)=-2
P(d)=-1
因此,文本d被判断为负极性。
图5示出了图3所示的步骤S230的示意子流程图。
首先,在步骤S2310,判断句子c是否是复合句。如果不是复合句(步骤S2310“否”),则按照参考文献[1]所提出的方式进行更新(步骤S130)。
如果是对复合句(步骤S2310“是”),则先在步骤S2320,将复合句c转换为标准的子句对(c1,c2)。复合句c的标准化方式和图4中的步骤S2222相同。如果在步骤S2222中已保存了复合句c的标准子句对(c1,c2),则步骤S2320可以省略,因此,图5中将其图示为虚线框。
在步骤S23A0,判断复合句c是否是并列句,如果是并列句(步骤S23A0“是”),则按照参考文献[1]所提出的方式对并列句c中的情感词w的情感强度进行更新(步骤S130);其中,对并列句c中的情感词w的出现频率进行统计的统计方式也与参考文献[1]相同,即,对正极性文本中出现的词w,其Fp加1;对负极性文本中出现的词w,其Fn加1。
在步骤S23B0“是”~S23B3,对转折句c中的情感词w的出现频率进行统计和更新,因为标准转折句中的在先(非转折)子句中的情感词w的情感极性和文本的极性应该相反,所以如果文本极性被判断为正,则Fp减1,而如果文本极性被判断为负,则Fn减1。标准转折句中的在后(转折)子句的中的情感词w的情感极性的统计和更新实际上和参考文献[1]一致:对正极性文本中出现的词w,其Fp加1;对负极性文本中出现的词w,其Fn加1。
在步骤S23C0“是”和S23C1,对条件句c中的情感词w的出现频率进行统计和更新,因为条件句实际上表示没有真实发生,所以当前文本不计入句子中任何情感词的Fp或Fn(步骤S23C1)。
在步骤S23C0“否”,如果是其它关系的复合句,则按照参考文献[1]所提出的方式进行更新(步骤S130),或者可以采用将来可能开发出的针对各种特定连接方式的其他方式进行更新。
在步骤S2330,根据更新后的Fp和Fn,更新表V中的词w的情感强度SV(w)。
之后,返回步骤S220,直至文本的极性P(d)和/或词的情感强度SV(w)不再发生改变。
图6示出了根据本发明的文本情感分类系统600的示意方框图。如图6所示,根据本发明的文本情感分类系统600包括:子句划分单元610,用于根据标点符号和话语标记把文本d划分为多个子句c1、c2(参考上述步骤S1210);子句连接方式确定单元620,用于以句子c为单位,确定所述句子c中所包含的各子句c1、c2的连接方式(参考上述步骤S2210);子句情感强度计算单元630,用于根据句子c中所包含的各子句c1、c2的连接方式和各子句c1、c2所包含的情感词w的情感强度SV(w),计算所述句子c中所包含的各子句c1、c2的情感强度S(c1)、S(c2)(参考上述步骤S2220);文本情感极性计算单元640,用于根据所述文本d中的所有子句c1、c2的情感强度S(c1)、S(c2),计算所述文本d的情感极性P(d)(参考上述步骤S1230);情感词情感强度更新单元650,用于根据所述文本d的情感极性P(d)和情感词w所属的子句(c1或c2)与所属句子c中所包含的其他子句(c2或c1)的连接方式,更新情感词w的情感强度SV(w)(参考上述步骤S230);控制器660,用于控制上述各个单元610~650的操作,直至文本情感极性计算单元640所计算出的文本d的情感极性P(d)不再改变和/或情感词情感强度更新单元650不再更新所有情感词w的情感强度SV(w),此时输出所计算出的文本的情感极性P(d),作为最终确定的文本情感极性P(d)。
子句连接方式确定单元620根据连接词和连接方式对照表(例如,表1),基于各子句c1、c2中所包含的连接词,确定各子句c1、c2的连接方式。
子句情感强度计算单元630包括:求和单元632,用于对各子句c1、c2所包含的各情感词w的情感强度SV(w)求和,作为各子句c1、c2的情感强度S(c1)、S(c2)(参考上述步骤S1220和S2223)。子句情感强度计算单元630还包括:并列连接关系处理单元634,用于在句子c中所包含的各子句c1、c2的连接方式为并列连接方式时,判断各子句c1、c2的情感极性是否一致;以及如果各子句c1、c2的情感极性不一致(S(c1)*S(c2)<0或者P(c1)*P(c2)<0),则将各子句c1、c2的情感强度S(c1)、S(c2)均调整为与具有最大情感强度绝对值的子句的情感强度相同;或者只改极性,而不改强度,即将各子句c1、c2的情感极性均调整为与具有最大情感强度绝对值的子句的情感极性相一致(参考上述步骤S222A~S22A4)。子句情感强度计算单元630还包括:转折连接关系处理单元636,用于在句子c中所包含的各子句c1、c2的连接方式为转折连接方式时,将非转折子句的情感极性调整为与转折子句相一致(参考上述步骤S222B和S22B1)。子句情感强度计算单元630还包括:条件连接关系处理单元638,用于在句子c中所包含的各子句c1、c2的连接方式为条件连接方式时,将各子句c1、c2的情感强度S(c1)、S(c2)均调整为无情感强度(0)(参考上述步骤S222C和S22C1)。
文本情感极性计算单元640对所述文本d中所包含的各子句c1、c2的情感极性P(c1)、P(c2)或情感强度S(c1)、S(c2)求和,作为所述文本d的情感强度S(d),以及将所述文本的情感强度S(d)的极性作为所述文本的情感极性P(d)(参考上述步骤S1230)。
情感词情感强度更新单元650包括:并列连接关系处理单元654,用于在所述文本d的情感极性P(d)为正,且情感词w所属的子句(c1或c2)与所属句子c中所包含的其他子句(c2或c1)的连接方式为并列连接方式时,将所述情感词w在正情感极性文本中出现的频率Fp加1;在所述文本d的情感极性P(d)为负,且情感词w所属的子句(c1或c2)与所属句子c中所包含的其他子句(c2或c1)的连接方式为并列连接方式时,将所述情感词w在负情感极性文本中出现的频率Fn加1(参考上述步骤S23A0和S130)。情感词情感强度更新单元650还包括:转折连接关系处理单元656,用于在所述文本d的情感极性P(d)为正,且情感词w所属的子句(c1或c2)与所属句子c中所包含的其他子句(c2或c1)的连接方式为转折连接方式时,如果所述情感词w所属的子句(例如,c1)是非转折子句,则将所述情感词w在正情感极性文本中出现的频率Fp减1;以及如果所述情感词w所属的子句是转折子句(例如,c2),则将所述情感词w在正情感极性文本中出现的频率Fp加1;在所述文本d的情感极性P(d)为负,且情感词w所属的子句(c1或c2)与所属句子c中所包含的其他子句(c2或c1)的连接方式为转折连接方式时,如果所述情感词w所属的子句是非转折子句(例如,c1),则将所述情感词w在负情感极性文本中出现的频率Fn减1;以及如果所述情感词w所属的子句是转折子句(例如,c2),则将所述情感词w在负情感极性文本中出现的频率Fn加1(参考上述步骤S23B0~S23B3)。情感词情感强度更新单元650还包括:条件连接关系处理单元658,用于在情感词w所属的子句(c1或c2)与所属句子c中所包含的其他子句(c2或c1)的连接方式为条件连接方式时,将所述情感词w在正情感极性文本和负情感极性文本中出现的频率Fp和Fn保持不变(参考上述步骤S23C0“是”和S23C1)。情感词情感强度更新单元650还包括:情感词情感强度处理单元652,用于根据更新后的Fp和Fn,更新情感词w的情感强度SV(w)(参考上述步骤S2330)。
如果是其它关系的复合句,则可以按照参考文献[1]所提出的方式进行更新(步骤S130),或者可以采用将来可能开发出的针对各种特定连接方式的其他方式进行更新。
在以上的描述中,句子c包含两个子句c1和c2,但是本领域普通技术人员可以理解的是,句子c也可以包含更多子句c1、c2、…、ci,本发明同样可以应用于包含三个以上子句的句子。例如,复合句“对于这款产品而言,样式太陈旧了,尽管概念还不错”仍将被确定为转折句,其中子句“对于这款产品而言”和“尽管概念还不错”被确定为非转折子句,子句“样式太陈旧了”被确定为转折子句。关于转折子句和非转折子句的确定方法可以采用多种已知的方法,在此不再赘述。
以上无监督的文本情感分类方法和系统还可以和有监督的方法和系统结合。例如先用无监督的文本情感分类方法对所有文本分类,然后计算可信度(可参考中国发明专利申请No.200910135499.6“文本情感极性分类系统和方法”),选取可信度较大的文本作为训练样本集,交给机器学习方法(例如,支持向量机(SVM)或贝页斯(Bayes)方法)进行训练,得到一个分类模型,再对所有文本(或者仅对可信度较小的文本)进行分类。
在以上的描述中,针对各个步骤,列举了多个实例,虽然发明人尽可能地标示出彼此关联的实例,但这并不意味着这些实例必然按照相应的标号存在对应关系。只要所选择的实例所给定的条件间不存在矛盾,可以在不同的步骤中,选择标号并不对应的实例来构成相应的技术方案,这样的技术方案也应视为被包含在本发明的范围内。
应当注意的是,在以上的描述中,仅以示例的方式,示出了本发明的技术方案,但并不意味着本发明局限于上述步骤和单元结构。在可能的情形下,可以根据需要对步骤和单元结构进行调整和取舍。因此,某些步骤和单元并非实施本发明的总体发明思想所必需的元素。因此,本发明所必需的技术特征仅受限于能够实现本发明的总体发明思想的最低要求,而不受以上具体实例的限制。
至此已经结合优选实施例对本发明进行了描述。应该理解,本领域技术人员在不脱离本发明的精神和范围的情况下,可以进行各种其它的改变、替换和添加。因此,本发明的范围不局限于上述特定实施例,而应由所附权利要求所限定。
Claims (20)
1.一种文本情感极性分类系统,包括:
子句划分单元,用于根据标点符号和话语标记把文本划分为多个子句;
子句连接方式确定单元,用于以句子为单位,确定所述句子中所包含的各子句的连接方式;
子句情感强度计算单元,用于根据句子中所包含的各子句的连接方式和各子句所包含的情感词的情感强度,计算所述句子中所包含的各子句的情感强度;
文本情感极性计算单元,用于根据所述文本中的所有子句的情感强度,计算所述文本的情感极性;
情感词情感强度更新单元,用于根据所述文本的情感极性和情感词所属的子句与所属句子中所包含的其他子句的连接方式,更新情感词的情感强度;
控制器,用于控制上述各个单元的操作,直至文本情感极性计算单元所计算出的文本的情感极性不再改变和/或情感词情感强度更新单元不再更新所有情感词的情感强度,此时输出所计算出的文本的情感极性,作为最终确定的文本情感极性。
2.根据权利要求1所述的文本情感极性分类系统,其中子句连接方式确定单元根据连接词和连接方式对照表,基于各子句中所包含的连接词,确定各子句的连接方式。
3.根据权利要求1所述的文本情感极性分类系统,其中子句情感强度计算单元包括:
求和单元,用于对各子句所包含的各情感词的情感强度求和,作为各子句的情感强度;
并列连接关系处理单元,用于
在句子中所包含的各子句的连接方式为并列连接方式时,判断各子句的情感极性是否一致;以及
如果各子句的情感极性不一致,则将各子句的情感极性均调整为与具有最大情感强度绝对值的子句的情感极性相一致。
4.根据权利要求1所述的文本情感极性分类系统,其中子句情感强度计算单元包括:
求和单元,用于对各子句所包含的各情感词的情感强度求和,作为各子句的情感强度;
并列连接关系处理单元,用于
在句子中所包含的各子句的连接方式为并列连接方式时,判断各子句的情感极性是否一致;以及
如果各子句的情感极性不一致,则将各子句的情感强度均调整为与具有最大情感强度绝对值的子句的情感强度相同。
5.根据权利要求1所述的文本情感极性分类系统,其中子句情感强度计算单元包括:
求和单元,用于对各子句所包含的各情感词的情感强度求和,作为各子句的情感强度;
转折连接关系处理单元,用于
在句子中所包含的各子句的连接方式为转折连接方式时,将非转折子句的情感极性调整为与转折子句相一致。
6.根据权利要求1所述的文本情感极性分类系统,其中子句情感强度计算单元包括:
求和单元,用于对各子句所包含的各情感词的情感强度求和,作为各子句的情感强度;
条件连接关系处理单元,用于
在句子中所包含的各子句的连接方式为条件连接方式时,将各子句的情感强度均调整为无情感强度。
7.根据权利要求1所述的文本情感极性分类系统,其中文本情感极性计算单元对所述文本中所包含的各子句的情感极性或情感强度求和,作为所述文本的情感强度,以及将所述文本的情感强度的极性作为所述文本的情感极性。
8.根据权利要求1所述的文本情感极性分类系统,其中情感词情感强度更新单元包括:
并列连接关系处理单元,用于
在所述文本的情感极性为正,且情感词所属的子句与所属句子中所包含的其他子句的连接方式为并列连接方式时,将所述情感词在正情感极性文本中出现的频率Fp增加预定值;
在所述文本的情感极性为负,且情感词所属的子句与所属句子中所包含的其他子句的连接方式为并列连接方式时,将所述情感词在负情感极性文本中出现的频率Fn增加预定值;以及
情感词情感强度处理单元,用于根据更新后的Fp和Fn,更新情感词的情感强度。
9.根据权利要求1所述的文本情感极性分类系统,其中情感词情感强度更新单元包括:
转折连接关系处理单元,用于
在所述文本的情感极性为正,且情感词所属的子句与所属句子中所包含的其他子句的连接方式为转折连接方式时,
如果所述情感词所属的子句是非转折子句,则将所述情感词在正情感极性文本中出现的频率Fp减少预定值;以及
如果所述情感词所属的子句是转折子句,则将所述情感词在正情感极性文本中出现的频率Fp增加预定值;
在所述文本的情感极性为负,且情感词所属的子句与所属句子中所包含的其他子句的连接方式为转折连接方式时,
如果所述情感词所属的子句是非转折子句,则将所述情感词在负情感极性文本中出现的频率Fn减少预定值;以及
如果所述情感词所属的子句是转折子句,则将所述情感词在负情感极性文本中出现的频率Fn增加预定值;以及
情感词情感强度处理单元,用于根据更新后的Fp和Fn,更新情感词的情感强度。
10.根据权利要求1所述的文本情感极性分类系统,其中情感词情感强度更新单元包括:
条件连接关系处理单元,用于在情感词所属的子句与所属句子中所包含的其他子句的连接方式为条件连接方式时,将所述情感词在正情感极性文本和负情感极性文本中出现的频率Fp和Fn保持不变;以及
情感词情感强度处理单元,用于根据更新后的Fp和Fn,更新情感词的情感强度。
11.一种文本情感极性分类方法,包括以下步骤:
根据标点符号和话语标记把文本划分为多个子句;
以句子为单位,确定所述句子中所包含的各子句的连接方式;
根据句子中所包含的各子句的连接方式和各子句所包含的情感词的情感强度,计算所述句子中所包含的各子句的情感强度;
根据所述文本中的所有子句的情感强度,计算所述文本的情感极性;
根据所述文本的情感极性和情感词所属的子句与所属句子中所包含的其他子句的连接方式,更新情感词的情感强度;
重复上述步骤,直至文本的情感极性和/或所有情感词的情感强度不再发生改变,此时所计算出的文本的情感极性作为最终确定的文本情感极性。
12.根据权利要求11所述的文本情感极性分类方法,其中确定句子中所包含的各子句的连接方式的步骤包括:
根据连接词和连接方式对照表,基于各子句中所包含的连接词,确定各子句的连接方式。
13.根据权利要求11所述的文本情感极性分类方法,其中计算各子句的情感强度的步骤包括以下子步骤:
对各子句所包含的各情感词的情感强度求和,作为各子句的情感强度;
在句子中所包含的各子句的连接方式为并列连接方式时,判断各子句的情感极性是否一致;以及
如果各子句的情感极性不一致,则将各子句的情感极性均调整为与具有最大情感强度绝对值的子句的情感极性相一致。
14.根据权利要求11所述的文本情感极性分类方法,其中计算各子句的情感强度的步骤包括以下子步骤:
对各子句所包含的各情感词的情感强度求和,作为各子句的情感强度;
在句子中所包含的各子句的连接方式为并列连接方式时,判断各子句的情感极性是否一致;以及
如果各子句的情感极性不一致,则将各子句的情感强度均调整为与具有最大情感强度绝对值的子句的情感强度相同。
15.根据权利要求11所述的文本情感极性分类方法,其中计算各子句的情感强度的步骤包括以下子步骤:
对各子句所包含的各情感词的情感强度求和,作为各子句的情感强度;
在句子中所包含的各子句的连接方式为转折连接方式时,将非转折子句的情感极性调整为与转折子句相一致。
16.根据权利要求11所述的文本情感极性分类方法,其中计算各子句的情感强度的步骤包括以下子步骤:
对各子句所包含的各情感词的情感强度求和,作为各子句的情感强度;
在句子中所包含的各子句的连接方式为条件连接方式时,将各子句的情感强度均调整为无情感强度。
17.根据权利要求11所述的文本情感极性分类方法,其中计算文本的情感极性的步骤包括以下子步骤:
对所述文本中所包含的各子句的情感极性或情感强度求和,作为所述文本的情感强度;以及
将所述文本的情感强度的极性作为所述文本的情感极性。
18.根据权利要求11所述的文本情感极性分类方法,其中更新情感词的情感强度的步骤包括以下子步骤:
在所述文本的情感极性为正,且情感词所属的子句与所属句子中所包含的其他子句的连接方式为并列连接方式时,将所述情感词在正情感极性文本中出现的频率Fp增加预定值;
在所述文本的情感极性为负,且情感词所属的子句与所属句子中所包含的其他子句的连接方式为并列连接方式时,将所述情感词在负情感极性文本中出现的频率Fn增加预定值;以及
根据更新后的Fp和Fn,更新情感词的情感强度。
19.根据权利要求11所述的文本情感极性分类方法,其中更新情感词的情感强度的步骤包括以下子步骤:
在所述文本的情感极性为正,且情感词所属的子句与所属句子中所包含的其他子句的连接方式为转折连接方式时,
如果所述情感词所属的子句是非转折子句,则将所述情感词在正情感极性文本中出现的频率Fp减少预定值;以及
如果所述情感词所属的子句是转折子句,则将所述情感词在正情感极性文本中出现的频率Fp增加预定值;
在所述文本的情感极性为负,且情感词所属的子句与所属句子中所包含的其他子句的连接方式为转折连接方式时,
如果所述情感词所属的子句是非转折子句,则将所述情感词在负情感极性文本中出现的频率Fn减少预定值;以及
如果所述情感词所属的子句是转折子句,则将所述情感词在负情感极性文本中出现的频率Fn增加预定值;以及
根据更新后的Fp和Fn,更新情感词的情感强度。
20.根据权利要求11所述的文本情感极性分类方法,其中更新情感词的情感强度的步骤包括以下子步骤:
在情感词所属的子句与所属句子中所包含的其他子句的连接方式为条件连接方式时,将所述情感词在正情感极性文本和负情感极性文本中出现的频率Fp和Fn保持不变;以及
根据更新后的Fp和Fn,更新情感词的情感强度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009101751702A CN102033865A (zh) | 2009-09-25 | 2009-09-25 | 基于子句关联的文本情感分类系统和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009101751702A CN102033865A (zh) | 2009-09-25 | 2009-09-25 | 基于子句关联的文本情感分类系统和方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102033865A true CN102033865A (zh) | 2011-04-27 |
Family
ID=43886780
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2009101751702A Pending CN102033865A (zh) | 2009-09-25 | 2009-09-25 | 基于子句关联的文本情感分类系统和方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102033865A (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102929860A (zh) * | 2012-10-12 | 2013-02-13 | 浙江理工大学 | 一种基于上下文语境的中文分句情感极性判别方法 |
CN106874363A (zh) * | 2016-12-30 | 2017-06-20 | 北京光年无限科技有限公司 | 智能机器人的多模态输出方法及装置 |
CN107229610A (zh) * | 2017-03-17 | 2017-10-03 | 咪咕数字传媒有限公司 | 一种情感数据的分析方法及装置 |
CN107291686A (zh) * | 2016-04-13 | 2017-10-24 | 北京大学 | 情感标识的辨识方法和情感标识的辨识系统 |
CN107943299A (zh) * | 2017-12-07 | 2018-04-20 | 上海智臻智能网络科技股份有限公司 | 情感呈现方法和装置、计算机设备及计算机可读存储介质 |
CN108664469A (zh) * | 2018-05-07 | 2018-10-16 | 首都师范大学 | 一种情感类别确定方法、装置及服务器 |
CN108694176A (zh) * | 2017-04-06 | 2018-10-23 | 北京京东尚科信息技术有限公司 | 文档情感分析的方法、装置、电子设备和可读存储介质 |
CN110765769A (zh) * | 2019-08-27 | 2020-02-07 | 电子科技大学 | 一种基于子句特征的实体属性依赖情感分析方法 |
CN111274807A (zh) * | 2020-02-03 | 2020-06-12 | 华为技术有限公司 | 文本信息的处理方法及装置、计算机设备和可读存储介质 |
CN111611392A (zh) * | 2020-06-23 | 2020-09-01 | 中国人民解放军国防科技大学 | 综合多特征和投票策略的教育资源引用分析方法、系统及介质 |
US10831990B1 (en) | 2019-05-09 | 2020-11-10 | International Business Machines Corporation | Debiasing textual data while preserving information |
CN113688620A (zh) * | 2021-08-26 | 2021-11-23 | 北京阅神智能科技有限公司 | 文章情感分析方法和装置 |
US11455472B2 (en) | 2017-12-07 | 2022-09-27 | Shanghai Xiaoi Robot Technology Co., Ltd. | Method, device and computer readable storage medium for presenting emotion |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101174272A (zh) * | 2007-10-26 | 2008-05-07 | 北京航空航天大学 | 汉语文本情感数据的组织及提取方法 |
US20080249764A1 (en) * | 2007-03-01 | 2008-10-09 | Microsoft Corporation | Smart Sentiment Classifier for Product Reviews |
-
2009
- 2009-09-25 CN CN2009101751702A patent/CN102033865A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080249764A1 (en) * | 2007-03-01 | 2008-10-09 | Microsoft Corporation | Smart Sentiment Classifier for Product Reviews |
CN101174272A (zh) * | 2007-10-26 | 2008-05-07 | 北京航空航天大学 | 汉语文本情感数据的组织及提取方法 |
Non-Patent Citations (3)
Title |
---|
TARAS ZAGIBALOV 等: "Automatic seed word selection for unsupervised sentiment classification of Chinese text", 《COLING "08 PROCEEDINGS OF THE 22ND INTERNATIONAL CONFERENCE ON COMPUTATIONAL LINGUISTICS》 * |
宋光鹏: "文本的情感倾向分析研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
游春晖: "基于语义情感倾向的文本相似度计算", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102929860B (zh) * | 2012-10-12 | 2015-05-13 | 浙江理工大学 | 一种基于上下文语境的中文分句情感极性判别方法 |
CN102929860A (zh) * | 2012-10-12 | 2013-02-13 | 浙江理工大学 | 一种基于上下文语境的中文分句情感极性判别方法 |
CN107291686B (zh) * | 2016-04-13 | 2020-10-16 | 北京大学 | 情感标识的辨识方法和情感标识的辨识系统 |
CN107291686A (zh) * | 2016-04-13 | 2017-10-24 | 北京大学 | 情感标识的辨识方法和情感标识的辨识系统 |
CN106874363A (zh) * | 2016-12-30 | 2017-06-20 | 北京光年无限科技有限公司 | 智能机器人的多模态输出方法及装置 |
CN107229610A (zh) * | 2017-03-17 | 2017-10-03 | 咪咕数字传媒有限公司 | 一种情感数据的分析方法及装置 |
CN107229610B (zh) * | 2017-03-17 | 2019-06-21 | 咪咕数字传媒有限公司 | 一种情感数据的分析方法及装置 |
CN108694176A (zh) * | 2017-04-06 | 2018-10-23 | 北京京东尚科信息技术有限公司 | 文档情感分析的方法、装置、电子设备和可读存储介质 |
CN108694176B (zh) * | 2017-04-06 | 2021-05-25 | 北京京东尚科信息技术有限公司 | 文档情感分析的方法、装置、电子设备和可读存储介质 |
CN107943299A (zh) * | 2017-12-07 | 2018-04-20 | 上海智臻智能网络科技股份有限公司 | 情感呈现方法和装置、计算机设备及计算机可读存储介质 |
US11455472B2 (en) | 2017-12-07 | 2022-09-27 | Shanghai Xiaoi Robot Technology Co., Ltd. | Method, device and computer readable storage medium for presenting emotion |
CN107943299B (zh) * | 2017-12-07 | 2022-05-06 | 上海智臻智能网络科技股份有限公司 | 情感呈现方法和装置、计算机设备及计算机可读存储介质 |
CN108664469B (zh) * | 2018-05-07 | 2021-11-19 | 首都师范大学 | 一种情感类别确定方法、装置及服务器 |
CN108664469A (zh) * | 2018-05-07 | 2018-10-16 | 首都师范大学 | 一种情感类别确定方法、装置及服务器 |
US10831990B1 (en) | 2019-05-09 | 2020-11-10 | International Business Machines Corporation | Debiasing textual data while preserving information |
CN110765769A (zh) * | 2019-08-27 | 2020-02-07 | 电子科技大学 | 一种基于子句特征的实体属性依赖情感分析方法 |
CN110765769B (zh) * | 2019-08-27 | 2023-05-02 | 电子科技大学 | 一种基于子句特征的实体属性依赖情感分析方法 |
CN111274807A (zh) * | 2020-02-03 | 2020-06-12 | 华为技术有限公司 | 文本信息的处理方法及装置、计算机设备和可读存储介质 |
CN111274807B (zh) * | 2020-02-03 | 2022-05-10 | 华为技术有限公司 | 文本信息的处理方法及装置、计算机设备和可读存储介质 |
CN111611392A (zh) * | 2020-06-23 | 2020-09-01 | 中国人民解放军国防科技大学 | 综合多特征和投票策略的教育资源引用分析方法、系统及介质 |
CN113688620A (zh) * | 2021-08-26 | 2021-11-23 | 北京阅神智能科技有限公司 | 文章情感分析方法和装置 |
CN113688620B (zh) * | 2021-08-26 | 2024-03-22 | 北京阅神智能科技有限公司 | 文章情感分析方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102033865A (zh) | 基于子句关联的文本情感分类系统和方法 | |
CN112001185B (zh) | 一种结合中文句法和图卷积神经网络的情感分类方法 | |
CN112001187B (zh) | 一种基于中文句法和图卷积神经网络的情感分类系统 | |
CN107992597B (zh) | 一种面向电网故障案例的文本结构化方法 | |
CN109213861B (zh) | 结合At_GRU神经网络与情感词典的旅游评价情感分类方法 | |
CN105824922B (zh) | 一种融合深层特征和浅层特征的情感分类方法 | |
CN109670039B (zh) | 基于三部图和聚类分析的半监督电商评论情感分析方法 | |
CN109902177B (zh) | 基于双通道卷积记忆神经网络的文本情感分析方法 | |
CN110472047B (zh) | 一种多特征融合的汉越新闻观点句抽取方法 | |
CN113435179B (zh) | 一种作文评阅方法、装置、设备及存储介质 | |
CN108363790A (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
CN112001186A (zh) | 一种利用图卷积神经网络和中文句法的情感分类方法 | |
CN109308353B (zh) | 词嵌入模型的训练方法及装置 | |
CN105320960A (zh) | 一种基于投票的跨语言主客观情感分类方法 | |
CN108304468A (zh) | 一种文本分类方法以及文本分类装置 | |
CN106096004A (zh) | 一种建立大规模跨领域文本情感倾向性分析框架的方法 | |
CN106649603A (zh) | 一种基于网页文本数据情感分类的指定信息推送方法 | |
CN103034626A (zh) | 情感分析系统及方法 | |
CN109492105B (zh) | 一种基于多特征集成学习的文本情感分类方法 | |
Shwartz et al. | Path-based vs. distributional information in recognizing lexical semantic relations | |
CN103020167B (zh) | 一种计算机中文文本分类方法 | |
CN103593431A (zh) | 网络舆情分析方法和装置 | |
CN106446147A (zh) | 一种基于结构化特征的情感分析方法 | |
CN112668319A (zh) | 基于中文信息和越南语句法指导的越南语新闻事件检测方法 | |
US20220269939A1 (en) | Graph-based labeling rule augmentation for weakly supervised training of machine-learning-based named entity recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20110427 |