CN103646088A - 基于CRFs和SVM的产品评论细粒度情感要素提取 - Google Patents

基于CRFs和SVM的产品评论细粒度情感要素提取 Download PDF

Info

Publication number
CN103646088A
CN103646088A CN201310686738.3A CN201310686738A CN103646088A CN 103646088 A CN103646088 A CN 103646088A CN 201310686738 A CN201310686738 A CN 201310686738A CN 103646088 A CN103646088 A CN 103646088A
Authority
CN
China
Prior art keywords
word
emotion
crfs
meaning
wordlabel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310686738.3A
Other languages
English (en)
Other versions
CN103646088B (zh
Inventor
孙晓
唐陈意
叶嘉麒
李承程
任福继
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao Class Cognition Artificial Intelligence Co ltd
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN201310686738.3A priority Critical patent/CN103646088B/zh
Publication of CN103646088A publication Critical patent/CN103646088A/zh
Application granted granted Critical
Publication of CN103646088B publication Critical patent/CN103646088B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于CRFs和SVM的产品评论细粒度情感要素提取,包括如下步骤:a、采用CRFs模型,将评论语特征看成是序列,然后根据序列对评论语进行位置标注,再采取相应规则对错误标注进行层次过滤,完成对情感对象和情感词的提取;b、根据提取出的情感对象、情感词和引入的句子结构特征,采用SVM模型对词对进行情感倾向性分析。本发明不仅将评论句中情感对象和情感词一并提取出来,而且提高了情感倾向性分析中的情感分类精度,使得在情感要素抽取与情感判断上得到提高,F值达到76.3%。由于词义代码的引入,词义代码提高了系统的泛化能力和鲁棒性,使得评论结果分析的正确率和召回率均得到了较大提高。

Description

基于CRFs和SVM的产品评论细粒度情感要素提取
技术领域
本发明属于计算机信息挖掘技术领域,涉及产品情感要素提取,具体的涉及基于CRFs和SVM的产品评论细粒度情感要素提取。
背景技术
随着互联网用户迅速增长以及线上购物的不断普及,电子商务出现了爆炸式发展,虽然传统购物还无法被取缔,但是网上购物逐渐成为了人们的首选方式,因为在网上购物环境中,用户可以通过网上商品评论,随时获得更多、更全面的购物参考信息,对商品质量有更全面的了解,同时,用户在购买商品后,往往会参与到对商品的评价中,使得商品评论数据变得越来越庞大。相对商家宣传,评论数据往往能够更客观的反映出产品的真实面貌,如质量、外观、用户体验等等。准确而快速的获取和分析这些评论数据,除了可以为用户提供购买决策支持,还能给商家制定销售策略和改进商品提供全面准确的依据。
在网络交易平台上,评论数据往往较多,尤其是热门商品,在海量的数据面前,对信息的快速获取造成了障碍,而人工处理效率低下的缺点就尤为明显。为了解决这个问题,许多电子商务网站采用了五星制评级方式来量化用户对商品的评价。这种方法在一定程度上简化了评论处理,方便用户获取信息,但是,可能会丢失许多重要的信息。针对普通五星制的缺点,少数网站细化了评价分类,如日本的Kakaku网上商城,针对不同类型的商品,列出大家比较关注的一些主要属性,例如性价比等,让用户对产品的每一个属性分别评论并评分,总体的评分汇总直接提供给用户作为购物参考。这种方式有了明显的改进,但是同时带来了一些弊端,首先是产品属性集合并不是固定不变的,人们关注的属性随时可能发生变化,固定的属性集合随着时间的推移可能会渐渐变的不合理,因而需要随着产品的发展和用户的关注点进行更改。其次是固定的属性集合很有限,无法列举出所有属性。再次,人们喜欢使用自然语言表达观点和情感,固定的属性集合不利于提升用户体验。
使用自然语言对观点和认知进行表达是人们最自然的表达方式,这种用户评论也给研究者带来了新挑战,要从自然语言评论中自动发现情感要素,因而,使用自然语言处理技术自动处理用户的评论数据是最理想的处理方式。
单独的情感分类按照粒度的不同可以分为四个级别:词级/短语级、句子级、段落、篇章级。到目前为止,学者们对句子级和篇章级的研究较多,短语级的相对较少。虽然已有不少学者在情感倾向性分析上进行了一些研究,并且取得了不少成果,但在细粒度<情感对象,情感词>词对抽取及情感倾向性分析方面,综合效果距离实用仍有不少差距。
发明内容
为了解决现有技术中的不足,本发明提出了一种基于CRFs和SVM的产品评论细粒度情感要素提取,以同时提取评论句中情感对象和情感词,并对其情感倾向性进行分析。
为实现上述发明目的,本发明采用如下技术方案:基于CRFs和SVM的产品评论细粒度情感要素提取,包括如下步骤:
a、采用条件随机场模型(CRFs)将评论句中的情感对象(SS)和情感词(SW)同步提取出来,具体步骤包括:将评论语特征看成是序列,然后根据序列对评论语进行位置标注,再采取相应规则对错误标注进行层次过滤,完成对情感对象和情感词的提取;
b、根据提取出的情感对象、情感词和引入的句子结构特征,采用支持向量机(SVM)模型对情感对象和情感词组成的词对进行情感倾向性分析。
所述的a步骤中评论语句的特征包括:词本身(W)、词性(POS)、语法树父节点词本身(PW)、语法树父节点词性(PPOSE)、语法树父节点语义角色(PDP)。
所述的位置标注的符号集合为:BA(位于情感词之前的情感对象)、BB(位于情感对象之前的情感词)、EA(位于情感词之后的情感对象)、EB(位于情感对象之后的情感词)、SA(没有情感词的情感对象)、SB(没有情感对象的情感词)、P(标点符号)、O(其他)。
所述的a步骤中的相应规则的伪代码为:设CurrWord为当前词,WordLabel为当前词标记,SS为当前情感对象,SW为当前情感词,SSSet为情感对象集合,WPSet为<情感对象,情感词>词对集合;
初始化
如果WordLabel=SA或者WordLabel=SB或者WordLabel=O:
   不处理
else if WordLabel=P或者当前词到了句子末尾:
   如果SS已找到:
       将SS放入SSSet;
   如果SSSet不为空并且SW已找到:
      将SSSet和SW放入WPSet;
   重新初始化
else if WordLabel=BA:
   如果CurrWord和SS为并列关系:
      将SS放入SSSet,SS设为CurrWord
   否则:将SS和CurrWord拼接成新的SS
else if WordLabel=BB:
   SW设为WordLabel,SS设为未找到;
else if WordLabel=EA:
   如果CurrWord和SS为并列关系:
      将SS放入SSSet,SS设为CurrWord
   否则:将SS和CurrWord拼接成新的SS
else if WordLabel=EB:
   SW设为CurrWord,再按照当前词标记为P的方式处理。
所述的b步骤中句子结构特征包括:情感对象词义代码(SSC)、情感词词义代码(SWC)、是否存在情感倾向反转词、情感词基本极性。
所述的词性(POS)包括:结构词、介词、实体名、形容词、人称代词、拟声词、地名、省略词、语气词、指示代词、表情符、叹词、时态词、被动词、结构助词、型号名、副词、事件名、序数词、能愿动词、方位词、名词、形谓词、机构名、趋向动词、品牌名、网址、把动词、限定词、从属连词、数词、人名、量词、动词、并列连词、标点、品牌、疑问代词、时间短语。
所述的语义角色(DP)包括:主语、宾语、介宾、关联、补语、疑问连动、标点、感叹、时态、并列、连动、的字结构、定语、状语、数量、地字结构、之字结构、语态、修饰、得字结构。
所述的语法树父节点词本身(PW)是指在语法分析树中,每个词都有一个父节点,每个词都与其父节点有一定的关系。通过依存语法树分析器得到的输出结果是Wordi/Pi/Indexi形式的数组,表示第i个词的父节点为第Indexi个词,他们之间的关系是Pi,形式化为
parent ( i ) = Word ( Index i ) relation ( i ) = P i
其中:parent(i)表示第i个词的父节点,word(i)表示第i个词,relation(i)表示第i个词与其父节点的依存关系,可以循环调用father的方式来到达树根。
所述的词义代码指的是具有相同或者相近意义的词的集合的编号,意义相同或者相近的词属于同一个集合,拥有相同的词义代码,由于一些词具有多义性,所以同一个词可能同时属于多个集合,拥有多个词义代码;词义代码的获取方法为:将词转化成向量,再使用K-means聚类算法将意义相同或者相近的词聚合成一类,再给每一类分配一个固定的唯一的编号,这个编号就是这一类词的词义代码。
所述的情感词基本极性判断方式为:基本的情感词极性通过《中国知网》情感词典查得,词典中没有的词使用SO-PMI算法计算极性,互信息(PMI)计算如下式:
PMI ( w 1 , w 2 ) = log P ( w 1 , w 2 ) P ( w 1 ) P ( w 2 )
其中:p(w1,w2)为词w1和w2同时出现的概率,SO-PMI通过下式计算得到:
SO _ PMI ( w ) = &Sigma; pw &Element; p set PMI ( w , pw ) - &Sigma; nw &Element; N set PMI ( w , nw )
其中:Pset为正向情感词集合,Nset为负向情感词集合。
本发明的有益效果为:本发明针对评论细粒度词级/短语级研究,基于改进后的SVM和CRFs混合模型,通过引入搭配关系和句法特征以及句法结构信息,不仅将评论句中情感对象和情感词一并提取出来,而且提高了情感倾向性分析中的情感分类精度,使得在情感要素抽取与情感判断上得到提高,F值达到76.3%。由于词义代码的引入,词义代码提高了系统的泛化能力和鲁棒性,使得评论结果分析的正确率和召回率均得到了较大提高。
附图说明
图1本发明的CRFs对应图模型。
图2本发明的SVM模型中的分割超平面示意图。
图3本发明的语法分析树示例图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步说明:
一、情感词和情感对象提取:
CRFs是一种序列标注模型,对应其图模型如图1所示。在序列标注任务中观察序列X=X1,....,Xn-1,Xn,对应评论的汉字序列,标记序列Y=Y1,…,Yn-1,Yn,在发明中对应位置角色标记序列。评论语句可以看成以字或者以词为基本单位的序列,对情感词和情感对象的抽取过程可以看成一个序列标注的过程。
1、多粒度特征
本发明重点考虑句子结构及语义的重要性,因此将依存句法和语法树特征引入进来。提取中使用的特征如下:
(1)词本身(W)。词是能表达语义的最小语法单位,不同的词有着不同的含义。词包含了所有的显式特征,情感词及情感对象也均由词或词组成的短语构成。
(2)词性(POS)。词性是一种隐式特征,在自然语言处理中经常使用的特征之一。使用到的词性有:结构词、介词、实体名、形容词、人称代词、拟声词、地名、省略词、语气词、指示代词、表情符、叹词、时态词、被动词、结构助词、型号名、副词、事件名、序数词、能愿动词、方位词、名词、形谓词、机构名、趋向动词、品牌名、网址、把动词、限定词、从属连词、数词、人名、量词、动词、并列连词、标点、品牌、疑问代词、时间短语。
通过初步分析,情感对象和情感词的词性存在一定的搭配规律,如情感对象主要由名词、名词短语等构成,情感词主要由形容词,动词等构成。因此词性是情感对象和情感词提取的重要依据。例:屏幕/名词很/副词不错/形谓词;名词“屏幕”是情感对象,形谓词“不错”是情感词。
(3)语义角色(DP)。语义角色是一种更为高级的更为深入的隐式特征,是对整句语义的一种表现形式。使用到的语义角色包括:主语、宾语、介宾、关联、补语、疑问连动、标点、感叹、时态、并列、连动、的字结构、定语、状语、数量、地字结构、之字结构、语态、修饰、得字结构。一个词是否是情感对象或者情感词往往和该词的语义角色有着深层次的内在的联系,观察发现,情感对象充当主语和宾语较多。
(4)语法树父节点词本身(PW)。在语法分析树中,每个词都有一个父节点,每个词都与其父节点有一定的关系。通过依存语法树分析器得到的输出结果是Wordi/Pi/Indexi_形式的数组,表示第i个词的父节点为第Indexi个词,他们之间的关系是Pi。形式化如下
parent ( i ) = Word ( Index i ) relation ( i ) = P i
parent(i)表示第i个词的父节点,word(i)表示第i个词,relation(i)表示第i个词与其父节点的依存关系。可以循环调用father的方式来到达树根。
例:屏幕(主语,3)很(状语,3)不错(谓语,-1)该句中“屏幕”是主语,其父节点为第3个词“不错”,“很”为状语,父节点也是第3个词,“不错”的父节点是第-1个,父节点为-1的词被称为核心词(root),即语法树树根。可以得到“屏幕”和“不错”存在父子节点的关系。父节点词本身、词性及语义角色对判断一个词是否是情感对象或者情感词有着重要作用。
(5)语法树父节点词性(PPOSE)。
(6)语法树父节点语义角色(PDP)。
2、标注集合
由于本发明是将情感对象和情感词同时提取出来,将其视为序列标记问题,利用CRFs模型来处理。位置标注符号集合为:BA(位于情感词之前的情感对象)、BB(位于情感对象之前的情感词)、EA(位于情感词之后的情感对象)、EB(位于情感对象之后的情感词)、SA(没有情感词的情感对象)、SB(没有情感对象的情感词)、P(标点符号)、O(其他)。
之所以设计了BA、BB、EA、EB四个而不是两个来表示情感对象和情感词,是因为情感对象和情感词存在顺序问。如:①、屏幕/BA很/O不错/EB;②、很/O不错/BB的/O屏幕/EA。在①中情感对象在前,情感词在后。在②中情感词在前,情感对象在后。这两种不能视为一种情况,所以需要根据顺序进行区分。SA本质上并不算情感对象,SB虽然是情感词,但是找不到与之对应的情感对象,而SA和SB从特征层面近似情感对象和情感词,所以将其作为单独的一类。标记为O的词数量比较多,这样容易导致标记之间数量不均衡,为避免影响标记精度,采取如下方案:将标点符号从O中分离出来,标记为P,从而增加数据均衡性,进而提高标记精度。这些标记的词在后续处理中不影响处理结果,因此在后续处理中均被忽略。
3、提取情感对象和情感词
评论中的标注符号的复杂性影响了情感对象和情感词提取精度,采取规则对错误标记进行层次过滤,以下为该规则的伪代码:设CurrWord为当前词,WordLabel为当前词标记,SS为当前情感对象,SW为当前情感词,SSSet为情感对象集合,WPSet为<情感对象,情感词>词对集合;
初始化
如果WordLabel=SA或者WordLabel=SB或者WordLabel=O:
   不处理
else if WordLabel=P或者当前词到了句子末尾:
   如果SS已找到:
       将SS放入SSSet;
   如果SSSet不为空并且SW已找到:
      将SSSet和SW放入WPSet;
   重新初始化
else if WordLabel=BA:
   如果CurrWord和SS为并列关系:
      将SS放入SSSet,SS设为CurrWord
   否则:将SS和CurrWord拼接成新的SS
else if WordLabel=BB:
   SW设为WordLabel,SS设为未找到;
else if WordLabel=EA:
   如果CurrWord和SS为并列关系:
      将SS放入SSSet,SS设为CurrWord
   否则:将SS和CurrWord拼接成新的SS
else if WordLabel=EB:
   SW设为CurrWord,再按照当前词标记为P的方式处理
大多情况下BA和EB、BB和EA是成对出现的,但是特殊结构的句子和CRFs错误标注可能导致BA、BB、EA、EB单独出现或者顺序错误,如不能处理这些错误,将降低进一步的提取精度。
4、以下为几种标注和提取情况的举例说明:
(1)昨天/O才/O收到/O电脑/SA,这种情况只有“电脑”,没有情感词,属于非观点句,直接忽略。
(2)衣服/BA昨天/O买/O的/O,/P非常/O漂亮/EB,这里“衣服”为情感对象,“漂亮”为情感词,但是这两个词分布在两个不同的子句中,跨子句配对词对可能会引入错误,因此将该情况忽略,不予处理。
(3)处理器/BA和/O显卡/BA都/O很/O强劲/EB,句中“处理器”和“显卡”均被标记成为BA且这两个词属于并列关系。因此“处理器”和“显卡”均被提取出来作为情感对象。
(4)服务/BA态度/BA很/O满意/EB,句中“服务”和“态度”均被标记为BA,但是它们并非并列关系,所以将其合并为一个情感对象。
(5)这/O款/O手机/BA既/O便宜/EB又/O好/EB,句中有两个情感词,为了防止词对之间出现交叉包含,所以只取一个情感词。
针对以上的标注情况及对应的处理方式,可以很好的去除干扰数据,提高提取情感对象和情感词的精度,提取出来的词对作为后续细粒度情感倾向性析基础。
二、情感分类
本发明中的细粒度情感倾向性分析可以视为分类问题,所以在这里采用SVM模型作为分类器对情感对象和情感词组成的词对进行情感倾向性分析。
支持向量机(Support Vector Machine,SVM),是一种统计机器学习方法,主要被用于解决分类问题。SVM是基于结构风险最小化理论的模型,通过在特征空间中构建最优分隔超平面,使得最终的学习器达到全局最优。在两类线性可分的情况下,存在无数个分割平面能将样本正确分割成两类,而SVM能将分类间隔达到最大。如图3所示,H1和H2均平行于H0,且分别接近两类样本。这样的H1和H2之间的距离被称为间隔,最优分类线就是使分类间隔最大的分类线,H1和H2上的样本称为支持向量。使用以下公式来表示分类线:
w·x+b=0w∈R,b∈R
只需使得w2/2最小即可求得最优分类线。
1、情感分析特征说明
同一个情感词,在不同的语句环境下表现出来的情感倾向性可能不同,甚至极性完全相反。例如“难道这很漂亮?”,这句话由于使用了反问,导致句子变成了负向情感。同一个情感词在修饰不同的情感对象时极性也不一定相同。例如“开机时间短”和“待机时间短”,两者都有“时间短”,但是前一个是正向情感,后一个是负向情感。所以要更为准确的判断情感倾向性,只考虑情感词是不够的,必须结合句子结构和情感词与情感对象的依存关系。
由于本发明是对情感对象和情感词组合成的词对进行情感分析,不用考虑整句的所有句法结构,仅考虑是否有情感否定词及情感词和情感对象的组合情感倾向性,即引入部分句子结构特征。以下为情感分析中使用到的特征及说明:
(1)情感对象SS。如上所述,同一个情感词在描述不同情感对象时,极性可能不同,所以在这里要考虑到情感对象对最终分析结果的影响。
(2)情感词SW。情感词的存在指示了情感倾向,每个情感词都具有基本的情感。
(3)情感对象词义代码SSC。假设已知“处理器频率很高”的情感倾向,但是“CPU”的具体词义未知,则很难判断“CPU频率很高”的情感倾向。若已知“处理器”和“CPU”具有相同的词义,那么后者的情感倾向就可以被正确判断。用户在已有背景知识情况下,知道“CPU”和“处理器”指的是同一类事物,但是从词层面,对于计算机而言这是两个完全不相同的词。为了使计算机也能判断出两个词word1和word2是否共属一类或有近似的意思,”词义”概念被引入到模型中:如果word1和word2有着同样的词义代码,即:
Figure BDA0000436900280000131
则认为,word1和word2属于同一类事物,否则认为属于不同类别事物。
(4)情感词词义代码SWC。与情感词词义代码类似,用于表示同一类情感词。
(5)是否存在情感倾向反转词。例如“对于产品质量不怎么满意”。该句子的语法分析树如图3所示,通过上述的提取方法,提取出来的情感对象是“产品质量”,情感词是“满意”,如果不考虑带有否定意义的词,情感倾向性会被错误的判为正向。从语法分析树上可以看到,否定词“不”是修饰“满意”的状语,所以可用通过从语法分析树上查找是否含有修饰情感词并且带有否定词意义的状语来获得是否存在情感倾向性反转词。
(6)情感词基本极性。情感词的情感倾向性是情感分类的基本依据。大部分情况下,词对的情感倾向性和情感词的极性是一致的。基本的情感词极性通过《中国知网》情感词典查得,词典中没有的词使用SO-PMI算法计算极性。
互信息(Pointwise Mutual Information,PMI)计算如下式
PMI ( w 1 , w 2 ) = log P ( w 1 , w 2 ) P ( w 1 ) P ( w 2 )
其中p(w1,w2)为词w1和w2同时出现的概率,SO-PMI通过下式计算得到
SO _ PMI ( w ) = &Sigma; pw &Element; p set PMI ( w , pw ) - &Sigma; nw &Element; N set PMI ( w , nw )
其中Pset为正向情感词集合,Nset为负向情感词集合。
2、词义代码获取
词义代码指的是具有相同或者相近意义的词的集合的编号。意义相同或者相近的词属于同一个集合,拥有相同的词义代码。由于一些词具有多义性,所以同一个词可能同时属于多个集合,拥有多个词义代码。词义代码可以通过同义词词林来构建,但是实际的同义词词林词汇不够丰富,大量词组没有被收录到词林中,尤其是评论中大量出现的口语词汇。而且同义词词林通常是固定的,一旦制定就不再修改,另外,商品评论中的新词不断涌现,使得通过同义词词林来构建词义代码效果较差。
为了对词进行词义聚类,首先需要将词根据其上下文向量化,使用一个N维的向量<X1,X2,…,Xn>表示一个词W的词义向量。为了计算每一个词的最终词义向量,可使用自编码神经网络进行训练得到。NNLM(Feedforward Neural Net Language Model)将神经网络分为输入层、投影层、隐含层和输出层,整个网络参数为:
Q=N*D+N*D*H+H*V
其中N为n-gram中的n,D为每个词的维度,H是隐含层节点数,V为输出成节点数,N*D为输入层到投影层的权重个数,N*D*H为投影层到隐含层的权重个数,H*V是隐含层到输出层的权重个数。
投影层到隐含层的计算量十分庞大,所以去除时间复杂度最高的隐含层,从而得到整个网络参数为(对输出层使用Huffman进行编码):
Q=N*D+D*log2(V)
使用通过多层神经网络得到的向量就可以将每一个词映射到一个N维的空间,进而可以方便的计算出任意两个词wi,wj之间的欧式距离
S ( i , j ) = &Sigma; k = 1 n ( x ik - x jk ) 2 .
对评论语料中的所有词求出其词义向量,进一步根据K-means算法对所有的词根据其词义向量进行聚类,聚类得到词类,每个词类的中心坐标通过下面的式子计算得到
x i = &Sigma; j = 1 m x ji / m
对于任意词wj,可根据公式
Figure BDA0000436900280000163
来确定其隶属于哪里一个词类。
通过上面的方法从大量微博数据中学习从而将词转化成向量,再使用K-means聚类算法将意义相同或者相近的词聚合成一类。再给每一类分配一个固定的唯一的编号,这个编号就是这一类词的词义代码。
具体实施例
使用提出的方法在两个不同的数据集上分别进行了实验。一个数据集是通过从天猫商城上抓取最新商品评论而得到的,20款电子产品,共3146条评论数据,其中500条作为训练集,剩下的作为测试集,使用Dataset1表示。另一个数据集源于COAE2013任务3的数据,从任务3中随机抽取了2000条数据进行人工标记,其中500作为训练集,剩下的作为测试集,使用DataSet2表示。对于两个数据集均使用了交叉验证进行参数调优。表2为系统从数据集中抽取的部分情感对象和情感词,表1为开式测试抽取的结果统计。
表1评论对象-评论词对
Figure BDA0000436900280000171
表2评论对象-评论词词对开式抽取结果
正确率 召回率 F-Measure
Dataset1 0.841 0.773 0.806
Dataset2 0.758 0.436 0.442
从表2可以看到,DataSet1的正确率较高,但是召回率相对较低。之所以正确率很高是因为所选取的特征使得被抽取出来的规则限制比较严格,只要满足条件,即可保证正确。召回率相对较低不仅是因为限制条件严格,原因在于评论的口语化使得语言表达的随意性较大;另一个重要原因是评论中存在大量的错别字和标点符号缺失,使得底层的分词和词性标注等的正确率大大降低,给上层的处理带来了很大困难。
从表2中还可以看到Dataset2的正确率下降的不明显,从而验证了该抽取方法的有效性。但是召回率下降较多,主要是因为微博中内容更为广泛,句式更为复杂多样,新词和网络词汇更为丰富,以上原因导致了情感对象及情感词抽取困难,这也是造成参加COAE2013的队伍在任务3上的召回率普遍较低的原因。
表3词对中情感倾向性开式分析结果
正确率 召回率 F-Measure
Dataset1 0.812 0.932 0.868
Dataset2 0.806 0.890 0.846
表4情感倾向性开式综合分析结果
正确率 召回率 F-Measure
Dataset1 0.812 0.720 0.763
Dataset2 0.806 0.388 0.524
表3是只对已抽取出来的<情感对象,情感词>词对进行统计的结果,没有被抽取出来的将不被考虑,可以看到,不管是正确率还是召回率都比较理想,主要是因为词义代码的引入,词义代码提高了系统的泛化能力和鲁棒性,使得正确率和召回率均得到了较大提高。表4是对语料中所有的<情感对象,情感词>进行统计的结果(包括未提前出来的<情感对象,情感词>词对),其中召回率较低,主要原因是情感对象及情感词抽取的召回率较低造成。
通过实验结果分析可得,本发明提出的方法能较好的保证正确率,同时,对于商品评论也能有较高的召回率,虽然在微博语料中召回率较低,但是与同类其他方法相比,因为词义信息的引入,也达到了最佳系统性能指标,这充分证明了本发明的方法的有效性。

Claims (10)

1.基于CRFs和SVM的产品评论细粒度情感要素提取,其特征在于:包括如下步骤:
a、采用条件随机场模型(CRFs)将评论句中的情感对象(SS)和情感词(SW)同步提取出来,具体步骤包括:将评论语特征看成是序列,然后根据序列对评论语进行位置标注,再采取相应规则对错误标注进行层次过滤,完成对情感对象和情感词的提取;
b、根据提取出的情感对象、情感词和引入的句子结构特征,采用支持向量机(SVM)模型对情感对象和情感词组成的词对进行情感倾向性分析。
2.根据权利要求1所述的基于CRFs和SVM的产品评论细粒度情感要素提取,其特征在于:所述的a步骤中评论语特征包括:词本身(W)、词性(POS)、语法树父节点词本身(PW)、语法树父节点词性(PPOSE)、语法树父节点语义角色(PDP)。
3.根据权利要求1所述的基于CRFs和SVM的产品评论细粒度情感要素提取,其特征在于:所述的位置标注的符号集合为:BA(位于情感词之前的情感对象)、BB(位于情感对象之前的情感词)、EA(位于情感词之后的情感对象)、EB(位于情感对象之后的情感词)、SA(没有情感词的情感对象)、SB(没有情感对象的情感词)、P(标点符号)、O(其他)。
4.根据权利要求1所述的基于CRFs和SVM的产品评论细粒度情感要素提取,其特征在于:所述的a步骤中的相应规则的伪代码为:设CurrWord为当前词,WordLabel为当前词标记,SS为当前情感对象,SW为当前情感词,SSSet为情感对象集合,WPSet为<情感对象,情感词>词对集合;
初始化
如果WordLabel=SA或者WordLabel=SB或者WordLabel=O:
   不处理
else if WordLabel=P或者当前词到了句子末尾:
   如果SS已找到:
       将SS放入SSSet;
   如果SSSet不为空并且SW已找到:
      将SSSet和SW放入WPSet;
   重新初始化
else if WordLabel=BA:
   如果CurrWord和SS为并列关系:
      将SS放入SSSet,SS设为CurrWord
   否则:将SS和CurrWord拼接成新的SS
else if WordLabel=BB:
   SW设为WordLabel,SS设为未找到;
else if WordLabel=EA:
   如果CurrWord和SS为并列关系:
      将SS放入SSSet,SS设为CurrWord
   否则:将SS和CurrWord拼接成新的SS
else if WordLabel=EB:
   SW设为CurrWord,再按照当前词标记为P的方式处理。
5.根据权利要求1所述的基于CRFs和SVM的产品评论细粒度情感要素提取,其特征在于:所述的b步骤中句子结构特征包括:情感对象词义代码(SSC)、情感词词义代码(SWC)、是否存在情感倾向反转词、情感词基本极性。
6.根据权利要求2所述的基于CRFs和SVM的产品评论细粒度情感要素提取,其特征在于:所述的词性(POS)包括:结构词、介词、实体名、形容词、人称代词、拟声词、地名、省略词、语气词、指示代词、表情符、叹词、时态词、被动词、结构助词、型号名、副词、事件名、序数词、能愿动词、方位词、名词、形谓词、机构名、趋向动词、品牌名、网址、把动词、限定词、从属连词、数词、人名、量词、动词、并列连词、标点、品牌、疑问代词、时间短语。
7.根据权利要求2所述的基于CRFs和SVM的产品评论细粒度情感要素提取,其特征在于:所述的语义角色(DP)包括:主语、宾语、介宾、关联、补语、疑问连动、标点、感叹、时态、并列、连动、的字结构、定语、状语、数量、地字结构、之字结构、语态、修饰、得字结构。
8.根据权利要求2所述的基于CRFs和SVM的产品评论细粒度情感要素提取,其特征在于:所述的语法树父节点词本身(PW)是指在语法分析树中,每个词都有一个父节点,每个词都与其父节点有一定的关系。通过依存语法树分析器得到的输出结果是Wordi/Pi/Indexi形式的数组,表示第i个词的父节点为第Indexi个词,他们之间的关系是Pi,形式化为
parent ( i ) = Word ( Index i ) relation ( i ) = P i
其中:parent(i)表示第i个词的父节点,word(i)表示第i个词,relation(i)表示第i个词与其父节点的依存关系,可以循环调用father的方式来到达树根。
9.根据权利要求5所述的基于CRFs和SVM的产品评论细粒度情感要素提取,其特征在于:所述的词义代码指的是具有相同或者相近意义的词的集合的编号,意义相同或者相近的词属于同一个集合,拥有相同的词义代码,由于一些词具有多义性,所以同一个词可能同时属于多个集合,拥有多个词义代码;词义代码的获取方法为:将词转化成向量,再使用K-means聚类算法将意义相同或者相近的词聚合成一类,再给每一类分配一个固定的唯一的编号,这个编号就是这一类词的词义代码。
10.根据权利要求5所述的基于CRFs和SVM的产品评论细粒度情感要素提取,其特征在于:所述的情感词基本极性判断方式为:基本的情感词极性通过《中国知网》情感词典查得,词典中没有的词使用SO-PMI算法计算极性,互信息(PMI)计算如下式:
PMI ( w 1 , w 2 ) = log P ( w 1 , w 2 ) P ( w 1 ) P ( w 2 )
其中:p(w1,w2)为词w1和w2同时出现的概率,SO-PMI通过下式计算得到:
SO _ PMI ( w ) = &Sigma; pw &Element; p set PMI ( w , pw ) - &Sigma; nw &Element; N set PMI ( w , nw )
其中:Pset为正向情感词集合,Nset为负向情感词集合。
CN201310686738.3A 2013-12-13 2013-12-13 基于CRFs和SVM的产品评论细粒度情感要素提取 Active CN103646088B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310686738.3A CN103646088B (zh) 2013-12-13 2013-12-13 基于CRFs和SVM的产品评论细粒度情感要素提取

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310686738.3A CN103646088B (zh) 2013-12-13 2013-12-13 基于CRFs和SVM的产品评论细粒度情感要素提取

Publications (2)

Publication Number Publication Date
CN103646088A true CN103646088A (zh) 2014-03-19
CN103646088B CN103646088B (zh) 2017-03-15

Family

ID=50251302

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310686738.3A Active CN103646088B (zh) 2013-12-13 2013-12-13 基于CRFs和SVM的产品评论细粒度情感要素提取

Country Status (1)

Country Link
CN (1) CN103646088B (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104573030A (zh) * 2015-01-14 2015-04-29 哈尔滨工业大学深圳研究生院 一种文本情绪预测方法及装置
CN105844424A (zh) * 2016-05-30 2016-08-10 中国计量学院 基于网络评论的产品质量问题发现及风险评估方法
CN106250367A (zh) * 2016-07-27 2016-12-21 昆明理工大学 基于改进的Nivre算法构建越南语依存树库的方法
CN106294324A (zh) * 2016-08-11 2017-01-04 上海交通大学 一种基于自然语言句法分析树的机器学习情感分析器
CN106503220A (zh) * 2016-10-28 2017-03-15 上海大学 一种基于点互信息的微博表情符号情感计算方法
CN107291695A (zh) * 2017-06-28 2017-10-24 三角兽(北京)科技有限公司 信息处理装置及其分词处理方法
CN107451158A (zh) * 2016-06-01 2017-12-08 中国科学院地理科学与资源研究所 一种网络文本中交通事件语义角色抽取方法
CN107862087A (zh) * 2017-12-01 2018-03-30 广州简亦迅信息科技有限公司 基于大数据和深度学习的情感分析方法、装置和存储介质
CN108563625A (zh) * 2018-01-04 2018-09-21 福建中金在线信息科技有限公司 文本分析方法、装置、电子设备和计算机存储介质
CN108647205A (zh) * 2018-05-02 2018-10-12 深圳前海微众银行股份有限公司 细粒度情感分析模型构建方法、设备及可读存储介质
CN108776652A (zh) * 2018-05-21 2018-11-09 众安信息技术服务有限公司 一种基于新闻语料的行情预测方法
CN109545245A (zh) * 2018-12-21 2019-03-29 斑马网络技术有限公司 语音处理方法及装置
CN109670039A (zh) * 2018-11-20 2019-04-23 华南师范大学 基于三部图和聚类分析的半监督电商评论情感分析方法
CN110096696A (zh) * 2018-06-11 2019-08-06 电子科技大学 一种中文长文本情感分析方法
CN110399481A (zh) * 2019-06-06 2019-11-01 深思考人工智能机器人科技(北京)有限公司 情感实体词的筛选方法和装置
WO2020076179A1 (ru) * 2018-10-11 2020-04-16 Общество С Ограниченной Ответственностью "Глобус Медиа" Способ определения тегов для отелей и устройство для его осуществления
CN111259661A (zh) * 2020-02-11 2020-06-09 安徽理工大学 一种基于商品评论的新情感词提取方法
CN112069312A (zh) * 2020-08-12 2020-12-11 中国科学院信息工程研究所 一种基于实体识别的文本分类方法及电子装置
CN112883145A (zh) * 2020-12-24 2021-06-01 浙江万里学院 一种面向中文评论的情感多倾向分类方法
CN112926337A (zh) * 2021-02-05 2021-06-08 昆明理工大学 一种结合重构句法信息的端到端方面级情感分析方法
CN113343714A (zh) * 2021-07-02 2021-09-03 马上消费金融股份有限公司 信息提取方法、模型训练方法及相关设备
CN114065769A (zh) * 2022-01-14 2022-02-18 四川大学 情感原因对抽取模型的训练方法、装置、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101894102A (zh) * 2010-07-16 2010-11-24 浙江工商大学 一种主观性文本情感倾向性分析方法和装置
CN102023967A (zh) * 2010-11-11 2011-04-20 清华大学 一种面向股票领域的文本情感分类方法
CN103049435A (zh) * 2013-01-04 2013-04-17 浙江工商大学 文本细粒度情感分析方法及装置
CN103440235A (zh) * 2013-08-20 2013-12-11 中国科学院自动化研究所 一种基于认知结构模型的文本情感类型识别方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101894102A (zh) * 2010-07-16 2010-11-24 浙江工商大学 一种主观性文本情感倾向性分析方法和装置
CN102023967A (zh) * 2010-11-11 2011-04-20 清华大学 一种面向股票领域的文本情感分类方法
CN103049435A (zh) * 2013-01-04 2013-04-17 浙江工商大学 文本细粒度情感分析方法及装置
CN103440235A (zh) * 2013-08-20 2013-12-11 中国科学院自动化研究所 一种基于认知结构模型的文本情感类型识别方法及装置

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104573030B (zh) * 2015-01-14 2017-12-12 哈尔滨工业大学深圳研究生院 一种文本情绪预测方法及装置
CN104573030A (zh) * 2015-01-14 2015-04-29 哈尔滨工业大学深圳研究生院 一种文本情绪预测方法及装置
CN105844424A (zh) * 2016-05-30 2016-08-10 中国计量学院 基于网络评论的产品质量问题发现及风险评估方法
CN113837531A (zh) * 2016-05-30 2021-12-24 中国计量大学 一种基于网络评论的产品质量问题发现及风险评估方法
CN107451158A (zh) * 2016-06-01 2017-12-08 中国科学院地理科学与资源研究所 一种网络文本中交通事件语义角色抽取方法
CN107451158B (zh) * 2016-06-01 2021-01-19 中国科学院地理科学与资源研究所 一种网络文本中交通事件语义角色抽取方法
CN106250367A (zh) * 2016-07-27 2016-12-21 昆明理工大学 基于改进的Nivre算法构建越南语依存树库的方法
CN106250367B (zh) * 2016-07-27 2019-04-09 昆明理工大学 基于改进的Nivre算法构建越南语依存树库的方法
CN106294324B (zh) * 2016-08-11 2019-04-05 上海交通大学 一种基于自然语言句法分析树的机器学习情感分析器
CN106294324A (zh) * 2016-08-11 2017-01-04 上海交通大学 一种基于自然语言句法分析树的机器学习情感分析器
CN106503220A (zh) * 2016-10-28 2017-03-15 上海大学 一种基于点互信息的微博表情符号情感计算方法
CN107291695A (zh) * 2017-06-28 2017-10-24 三角兽(北京)科技有限公司 信息处理装置及其分词处理方法
CN107862087A (zh) * 2017-12-01 2018-03-30 广州简亦迅信息科技有限公司 基于大数据和深度学习的情感分析方法、装置和存储介质
CN107862087B (zh) * 2017-12-01 2022-02-18 深圳爱数云科技有限公司 基于大数据和深度学习的情感分析方法、装置和存储介质
CN108563625A (zh) * 2018-01-04 2018-09-21 福建中金在线信息科技有限公司 文本分析方法、装置、电子设备和计算机存储介质
CN108647205A (zh) * 2018-05-02 2018-10-12 深圳前海微众银行股份有限公司 细粒度情感分析模型构建方法、设备及可读存储介质
CN108647205B (zh) * 2018-05-02 2022-02-15 深圳前海微众银行股份有限公司 细粒度情感分析模型构建方法、设备及可读存储介质
CN108776652B (zh) * 2018-05-21 2022-04-01 众安信息技术服务有限公司 一种基于新闻语料的行情预测方法
CN108776652A (zh) * 2018-05-21 2018-11-09 众安信息技术服务有限公司 一种基于新闻语料的行情预测方法
CN110096696A (zh) * 2018-06-11 2019-08-06 电子科技大学 一种中文长文本情感分析方法
WO2020076179A1 (ru) * 2018-10-11 2020-04-16 Общество С Ограниченной Ответственностью "Глобус Медиа" Способ определения тегов для отелей и устройство для его осуществления
CN109670039A (zh) * 2018-11-20 2019-04-23 华南师范大学 基于三部图和聚类分析的半监督电商评论情感分析方法
CN109545245A (zh) * 2018-12-21 2019-03-29 斑马网络技术有限公司 语音处理方法及装置
CN110399481A (zh) * 2019-06-06 2019-11-01 深思考人工智能机器人科技(北京)有限公司 情感实体词的筛选方法和装置
CN110399481B (zh) * 2019-06-06 2022-04-12 深思考人工智能机器人科技(北京)有限公司 情感实体词的筛选方法和装置
CN111259661A (zh) * 2020-02-11 2020-06-09 安徽理工大学 一种基于商品评论的新情感词提取方法
CN112069312A (zh) * 2020-08-12 2020-12-11 中国科学院信息工程研究所 一种基于实体识别的文本分类方法及电子装置
CN112069312B (zh) * 2020-08-12 2023-06-20 中国科学院信息工程研究所 一种基于实体识别的文本分类方法及电子装置
CN112883145A (zh) * 2020-12-24 2021-06-01 浙江万里学院 一种面向中文评论的情感多倾向分类方法
CN112883145B (zh) * 2020-12-24 2022-10-11 浙江万里学院 一种面向中文评论的情感多倾向分类方法
CN112926337A (zh) * 2021-02-05 2021-06-08 昆明理工大学 一种结合重构句法信息的端到端方面级情感分析方法
CN113343714A (zh) * 2021-07-02 2021-09-03 马上消费金融股份有限公司 信息提取方法、模型训练方法及相关设备
CN113343714B (zh) * 2021-07-02 2022-06-07 马上消费金融股份有限公司 信息提取方法、模型训练方法及相关设备
CN114065769A (zh) * 2022-01-14 2022-02-18 四川大学 情感原因对抽取模型的训练方法、装置、设备及介质
CN114065769B (zh) * 2022-01-14 2022-04-08 四川大学 情感原因对抽取模型的训练方法、装置、设备及介质

Also Published As

Publication number Publication date
CN103646088B (zh) 2017-03-15

Similar Documents

Publication Publication Date Title
CN103646088B (zh) 基于CRFs和SVM的产品评论细粒度情感要素提取
CN107491531B (zh) 基于集成学习框架的中文网络评论情感分类方法
Bhowmik et al. Bangla text sentiment analysis using supervised machine learning with extended lexicon dictionary
Zhang et al. AMBERT: A pre-trained language model with multi-grained tokenization
CN109829166B (zh) 基于字符级卷积神经网络的民宿顾客意见挖掘方法
CN111797898B (zh) 一种基于深度语义匹配的在线评论自动回复方法
Chang et al. Research on detection methods based on Doc2vec abnormal comments
CN110489553B (zh) 一种基于多源信息融合的情感分类方法
CN105843897A (zh) 一种面向垂直领域的智能问答系统
CN101782898A (zh) 一种情感词倾向性的分析方法
CN103544246A (zh) 互联网多种情感词典构建方法及系统
Shirsat et al. Document level sentiment analysis from news articles
CN107133282B (zh) 一种改进的基于双向传播的评价对象识别方法
CN103473380B (zh) 一种计算机文本情感分类方法
CN105183717A (zh) 一种基于随机森林和用户关系的osn用户情感分析方法
CN103995853A (zh) 基于关键句的多语言情感数据处理分类方法及系统
CN105740382A (zh) 一种对短评论文本进行方面分类方法
CN106446147A (zh) 一种基于结构化特征的情感分析方法
Simm et al. Classification of short text comments by sentiment and actionability for voiceyourview
CN103886053A (zh) 一种基于短文本评论的知识库构建方法
CN103744838A (zh) 一种用于度量主流情感信息的中文情感文摘系统及方法
CN106897274B (zh) 一种跨语种的点评复述方法
CN106055633A (zh) 一种中文微博主客观句分类方法
Bölücü et al. Hate Speech and Offensive Content Identification with Graph Convolutional Networks.
Hedar et al. Mining social networks arabic slang comments

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220525

Address after: 266000 Room 502, floor 5, building a, Shinan Software Park, No. 288, Ningxia road, Shinan District, Qingdao, Shandong

Patentee after: Qingdao class cognition artificial intelligence Co.,Ltd.

Address before: No. 193, Tunxi Road, Hefei City, Anhui Province, 230011

Patentee before: Hefei University of Technology