CN106407236B - 一种面向点评数据的情感倾向性检测方法 - Google Patents

一种面向点评数据的情感倾向性检测方法 Download PDF

Info

Publication number
CN106407236B
CN106407236B CN201510481197.XA CN201510481197A CN106407236B CN 106407236 B CN106407236 B CN 106407236B CN 201510481197 A CN201510481197 A CN 201510481197A CN 106407236 B CN106407236 B CN 106407236B
Authority
CN
China
Prior art keywords
word
sentence
emotion
comment data
comment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510481197.XA
Other languages
English (en)
Other versions
CN106407236A (zh
Inventor
林小俊
张猛
暴筱
焦宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yishang Huiping Network Technology Co ltd
Original Assignee
Beijing Zhong Hui Information Technology Ltd By Share Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhong Hui Information Technology Ltd By Share Ltd filed Critical Beijing Zhong Hui Information Technology Ltd By Share Ltd
Priority to CN201510481197.XA priority Critical patent/CN106407236B/zh
Publication of CN106407236A publication Critical patent/CN106407236A/zh
Application granted granted Critical
Publication of CN106407236B publication Critical patent/CN106407236B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种面向点评数据的情感倾向性检测方法,其步骤包括:1)获取点评数据,对其进行规范化处理;2)对规范化处理后的点评数据的句子进行分词处理;3)对分词后的句子进行要素分析,识别出影响文本情感倾向性检测分析的各类词语;4)根据句式模版库对进行要素分析后的点评数据进行句式模版匹配;5)确定点评数据的句子中指代语对应的先行语,并恢复省略的主语;6)将出现评价对象词、评价属性词或情感词的句子作为候选情感句,采用最大熵模型对候选情感句的句子极性进行判别,得到句子的情感倾向性。本发明针对点评文本的多变性和口语性等问题,提高了点评数据情感倾向性检测的效率和准确性。

Description

一种面向点评数据的情感倾向性检测方法
技术领域
本发明属于信息技术、数据挖掘技术领域,具体涉及一种面向点评数据的情感倾向性检测方法。
背景技术
随着电子商务的迅猛发展,互联网上的点评从逐渐进入人们视野,到慢慢影响网友的选择,再到对品牌的影响正一步步加深。以酒店业为例,酒店希望借助技术手段获取用户的点评反馈,用于指导酒店的品牌管理和运营管理,提升品牌形象和服务质量。用户希望查看别人的点评,明确酒店的优点和缺点,以此作为预订的重要参考。Tripadvisor研究显示,超过85%的用户非常重视酒店的口碑质量,近90%的用户在做出预订决策前查看用户点评。
越来越多的用户乐于在互联网上分享自己的观点或体验,这类点评数据爆炸式增长,仅靠人工的方法难以应对在线海量点评的收集和处理。因此,迫切需要计算机帮助用户快速获取和整理这些点评信息,情感分析(Sentiment Analysis)技术应运而生。情感分析不仅是信息处理领域的研究热点,在产业界也引起了广泛关注。
要分析点评的情感,首先要识别出点评中的有价值的情感信息要素,这包括:1)评价对象,如“酒店”、“价格”等;2)评价成分,如“非常好”、“还算干净”等。其中,评价成分包括情感词(如“好”、“干净”等)、程度副词(如“非常”等)、普通副词(如“大都”等)以及否定词(如“不”等),评价成分不仅表达了情感,还通过其修饰成分加强、减弱或置反了情感表达句的情感极性,从而使情感表达的更加丰富。
情感词在情感分析中的重要性是不言而喻的。然而很多情况下,单独的情感词的极性是有歧义的,如“餐厅的价格很高”的“高”描述“餐厅价格”时表示贬义,而“餐厅员工工作效率很高”的“高”的描述“工作效率”时表示褒义。因此,在文本的情感分析中仅考虑情感词是远远不够的,还需要考虑评价对象与情感词的搭配,如<价格,高>,<工作效率,高>这样的二元搭配。
上述各种情感信息要素以及搭配对于文本情感分析具有重要作用。如何从文本中分析出上述情感信息要素呢?分析的基础是要整理、积累一个较为完备的情感要素词典,包括各类情感要素的实例词及其属性(如极性)。有了情感要素词典作为基础,如何综合利用这些情感要素识别情感句呢?毕竟不是出现了情感要素就是情感句。
由此可见,如何从点评文本中检测出情感句尚未得到很好的解决。具体而言,其所面临的问题集中在以下两个方面:
一是点评文本的分析和理解如何克服语言的多变性。目前自然语言处理的很多技术还不能很好的处理语言的多变性问题,因此实现应对这种复杂变化是需要我们进一步解决的问题。
二是词典的收集、整理。评价对象词(Obj)、评价属性词(Attr)、情感词(Sent)、程度副词(Dgr)、普通副词(Adv)、否定词(Neg)、插入词(Inter)等情感要素在不同领域中使用不同的词汇,相同词汇所具有的极性也许会不同,这些都是实际应用中急待解决的问题。
发明内容
本发明针对上述问题,提供一种面向点评数据的情感倾向性检测方法,用于挖掘点评数据中的用户观点。
本发明采用的技术方案如下:
一种面向点评数据的情感倾向性检测方法,包括如下步骤:
1)获取点评数据,对其进行规范化处理;
2)对规范化处理后的点评数据的句子进行分词处理;
3)对分词后的句子进行要素分析,识别出影响文本情感倾向性检测的各类词语;
4)根据句式模版库对进行要素分析后的点评数据进行句式模版匹配;
5)确定点评数据的句子中指代语对应的先行语,并恢复省略的主语;
6)将出现评价对象词、评价属性词或情感词的句子作为候选情感句,采用最大熵模型对候选情感句的句子极性进行判别,得到句子的情感倾向性。
进一步地,步骤1)所述规范化处理,是采用基于规则的方法处理点评文本中的拼写错误,所述规则是“包含错别字的字串或词串”到“相应正确字串或词串”的映射;所述规则通过两种方法获取:一是根据现有经验知识,即前人总结的常见拼写错误;二是根据每个字或词的上下文抽取相似字或词,通过人工校验确定正确的字串或词串。
进一步地,步骤2)首先采用基于词典的最大匹配分词方法进行分词,然后针对分词有歧义的部分采用序列标注的分词方法得到正确的分词结果;所述序列标注的分词方法将词的切分问题转换为字的分类问题,每个字根据其在词中的不同位置,赋予不同的位置类别标记,基于这样的标记序列确定句子的切分方式。
进一步地,步骤3)所述要素包括点评数据中的评价对象词、评价属性词、情感词、程度副词、普通副词、否定词、插入词,以及关于城市、景点的词语等,在将句子中的要素识别出来后,标记上相应的类别标签。
进一步地,步骤4)通过基于点评的自举方法提取句式模版,从而建立句式模版库。
进一步地,步骤5)中,如果当前句中没有评价对象词或评价属性词,则选择上一句最后提及的评价对象或评价属性词引入到当前句;如果当前句中只有评价属性词,则当上一句出现评价对象时将其引入到当前句。
进一步地,步骤6)中,所述最大熵模型通过建立条件概率模型预测不同情感类别并估计其概率,所述情感类别包括-1、0、1三类,分别表示差评、无情感、好评。
与现有技术相比,本发明的有益效果如下:
1)本发明的规范化处理步骤可以灵活处理点评中的口语化问题;采用基于词典的方法,很好地对领域文本进行分词,歧义时引入序列标注方法的分词在很大程度上缓解了词典分词方法的歧义问题;要素分析时对于各个要素的识别,以及句式模版的匹配,这些对于情感倾向性检测至关重要的线索通过自举方法得到,极大提高了资源构建的效率;指代消解规则的应用简单有效地缓解了口语化点评中常见的主语省略问题;最大熵模型灵活融合上下文特征线索对点评片段情感倾向性最终判定。
2)针对点评文本的多变性和口语性,本发明既考虑了拼写错误等不规范的问题,还通过指代消解处理主语省略问题,并通过情感要素以及句式来捕获情感句的关键成分,最终通过统计模型融合多种线索对情感句进行检测。
3)情感要素的词典整理依赖纯人工的方法,规模是不够的,效率也非常低。更好的方法是基于语料库的统计方法或机器学习方法,这种方法虽然会带来一些噪音,但这时再介入人工成本是比较低的。本发明通过基于点评语料的自举方法实现,这种机器学习方法效率高,可以在较短时间内整理得到较大规模的词典。
附图说明
图1是本发明的面向点评数据的情感倾向性检测方法的步骤流程图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面通过具体实施例和附图,对本发明做进一步说明。
本发明是一种面向点评数据的情感倾向性检测方法(或称情感倾向性分析方法),用于挖掘点评中的用户观点。本发明首先通过聚焦爬虫从各大主流点评网站获取在线点评数据。然后针对大规模点评,通过半自动方式整理语义词典以及句式库。最后,针对点评中的每个句子,进行分词等处理和分析,在此基础上提取关键词或关键句式作为特征,通过最大熵分类器实现情感倾向性检测和情感分类。图1是本发明方法的步骤流程图,主要包括如下步骤:
步骤1:文本规范化。
互联网点评文本常会出现拼写错误,对于这些问题,我们采用基于规则的方法处理。这些规则是“包含错别字的字串或词串”到“相应正确字串或词串”的映射。这种规则通过两种方法获取:一是根据现有经验知识,即前人总结的常见拼写错误;二是根据每个字或词的上下文抽取相似字或词,通过人工校验确定正确的字串或词串。这种方法简单,有效。系统这个模块的性能依赖于拼写错误纠正规则的数量,在系统运维的过程中可以不断总结,丰富规则库。
中文还存在标点符号全半角问题,根据符号全半角映射关系,将标点符号统一标示为全角符号。
步骤2:点评分词。
该步骤对点评数据进行分词。中文分词是中文自然语言处理的基础步骤,本发明分词采用词典分词和统计分词融合的方法。首先采用基于词典的最大匹配分词方法,针对分词有歧义的部分再采用序列标注的分词方法。
基于词典的最大匹配分词方法,给定词典,对于待分词的汉字序列,依次寻找匹配的最长词典词,无匹配者则作为单字词处理,直至该汉字序列处理完毕。按照对汉字序列扫描方向的不同,该方法又可以分为:正向最大匹配(从左向右匹配)和逆向最大匹配(从右向左匹配)。例如,对于序列“当原子结合成分子时”,正向最大匹配结果为“当|原子|结合|成|分子|时”,而逆向最大匹配结果为“当|原子|结合|成分|子时”。
显然,正向最大匹配和逆向最大匹配都不能很好地处理切分歧义问题。正向最大匹配和逆向最大匹配也可以结合形成双向最大匹配,双向匹配时正向和逆向匹配不一致的地方,往往是潜在歧义的地方。有歧义往往需要根据具体上下文确认分词结果。有监督的序列标注方法能够充分的挖掘上下文的丰富特征,因此有歧义的情况下本发明引入序列标注方法消除歧义。该方法将词的切分问题转换为字的分类问题,每个字根据其在词中的不同位置,赋予不同的位置类别标记,比如词首、词中、词尾和单字词。基于这样的标记序列,很容易确定句子的切分方式。其中,B(Begin)、M(Middle)、E(End)、S(Single)分别表示词首、词中、词尾、单字词。有了字的标记序列,符合正则表达式“S”或“B(M)*E”的字序列表示一个词,从而很容易地完成句子切分。为了实现序列标注任务,本发明采用条件随机场模型(Conditional Random Fields,CRF),该模型在自然语言处理中得到广泛应用,并取得了很大成功。具体特征包括:前一个字、当前字、后一个字、前一个字与当前字、当前字与后一个字,以及基于这些一元特征的二元特征。条件随机场模型利用提取的这些特征,预测出的每个字的类别标记。
最大匹配方法的词典以及有监督的条件随机场模型的训练学习语料都来自本发明人工标注的10万条酒店点评。
步骤3:要素分析。
要素,指的是影响文本情感倾向性检测的重要因素,既包括上述的情感信息要素,如点评中的评价对象词、评价属性词、情感词、程度副词、普通副词、否定词、插入词等,又包括城市、景点等多个类别的词语。要素分析是将句子中的要素识别出来,并标记上其相应的类别标签。
步骤4:句式匹配。
对句子经过要素分析后得到句子语义类别化形式,即句式,句式反映的是其中的词或要素共同的上下文,所以具有一定的消歧能力。句式匹配过程中,已有的句式模版库起着关键作用。该步骤进行句式匹配的目的是约束句式中情感要素的语义和语用,经过该步骤后,得到的是各个情感要素相互约束的句式。
句式模版库是本发明的重要资源,反映了点评中情感要素的相互约束。本发明通过基于点评的自举(Bootstrapping)方法提取句式模版和各类情感要素。具体来说,建立句式模版库的方法包括如下步骤:
1)人工查看少量(如500条)点评,整理各个情感要素的词,形成种子词典,将该种子词典记为SemLex。
2)情感要素标签替换及句式模版生成。对点评数据的句子进行分词处理,对分词后的点评逐词判定其语义类并用语义类标签替换,如“餐厅|的|价格|很|高”,替换为“Obj|的|Attr|Dgr|Sent”,对于点评起始和结束位置分别添加“Start”和“End”标签,点评中除了“。”、“!”、“?”之外的标点符号也采用“Punc”标签替换。
然后对标签替换后的点评数据进行断句,根据各语义类的名称及各语义类包含的具体词语生成模版。比如可以根据“。”、“!”、“?”3个标点符号断句,限定模版最小长度3个词,最大长度7个词,扫描标签替换后的点评,生成句式模版。
3)语义词抽取。将生成的句式模版应用到语义类标签替换后的点评中。当某个点评片段对应的模版与生成的句式模版的差异只有一个词时,将该词作为相应语义类的实例词。例如,对于点评片段“价格|很|高”,其中“价格”属于评价属性词,“高”属于情感词,而“很”不属于任何语义类,这时其对应的模版为“Attr|很|Sent”。这与步骤2)生成的句式模版“Attr|Dgr|Sent”只有中间一个词不同,则将“很”抽取出来作为程度副词的实例词。
4)句式模版打分及挑选。本发明从两方面打分,一方面通过频次衡量模版的重要性和推广性,另一方面通过在语义词典中的命中率衡量模版的准确性。
pati重要性和推广性打分S(pati)的计算公式如下:
其中,|pati|是模版pati的长度,以词数计算,f(pati)表示模版pati的频次,C(pati)表示嵌套pati的模版集合,如点评片段“餐厅|的|价格|很|高”对应的模版“Obj|的|Attr|Dgr|Sent”嵌套点评片段“价格|很|高”对应的模版“Attr|Dgr|Sent”。
pati准确性打分P(pati)的计算公式如下:
其中,T(pati)表示模版pati抽取的语义词集合,f(t)表示语义词t的频次,SemLex为步骤1构建的种子语义词典。
我们采用Sigmoid函数将S(pati)归一化到(0,1),进而融合两方面的打分得到F(pati),计算公式如下:
其中α为重要性和推广性打分S(pati)的权重,取值范围为[0,1]。本发明更注重模版的准确性,故将α=0.4,还可以根据具体应用加以调整。
根据F(pati)选取得分最高的前5~10%的模版。
5)语义词打分及语义词典扩充。
根据挑选的模版patk及其打分,计算该模版抽取的语义词的得分,计算公式如下:
选取得分最高的前5~10%的词添加到语义词典SemLex中。
从2)到5)迭代进行。迭代终止条件。挑选出来的语义词明显不正确时终止,从而得到最终的语义词典,并由各模版构成模版库。
步骤5:指代消解。
指代和省略是常见的语言现象,在口语化点评中更普遍。指代常表示共指,即两种表述均指称相同对象。指代有多种类型,我们主要针对人称代词、指示代词作为指代语的情况。省略可以视为零指代语的情况,本发明将指代和省略都看成广义的“指代”,指代消解指的是发现指代语对应的先行语,或恢复省略的主语。如果当前句中没有评价对象词或评价属性词,选择上一句最后提及的评价对象或评价属性词引入到当前句。如果当前句中只有评价属性词,当上一句出现评价对象时将该评价对象引入到当前句。本发明的指代消解处理规则建立在要素分析的基础上,对于情感倾向性的判定又有着重要作用,所以在处理流程上位于要素分析和情感倾向性分析之间。
步骤6:情感倾向性分析。
将出现评价对象词、评价属性词或情感词的句子作为候选情感句。针对候选情感句,采用最大熵(Maximum Entropy)模型,融合丰富的上下文特征,对句子极性进行判别,得到句子的情感倾向性。
在分类任务中,判别式模型往往要优于产生式模型。产生式模型估计的是联合概率分布,在机器学习中用于对数据直接建模,或者借助贝叶斯规则作为得到条件概率的中间步骤。而判别式模型直接对条件概率建模,使得模型的训练和预测保持一致,从而更好地在类别之间进行区分。在判别式模型中,最大熵模型在自然处理领域得到广泛应用。对于给定上下文信息x∈X预测类别y∈Y这样的分类问题,其中x表示待判定的样本,在情感倾向性检测任务中对应由各种特征构成的候选情感句,X表示样本空间,y表示情感类别,在情感倾向性检测任务中对应情感类别,Y表示类别空间,最大熵模型建立条件概率模型P(y|x)预测不同情感类别y∈Y并估计其概率。类别包括-1(差评)、0(无情感)、1(好评)三类。特征包括评价对象词、评价属性词、情感词,以及它们的搭配,还有否定词、句式模版等特征。
下面通过具体实例,说明本发明的流程。
点评内容:“之前住过这家酒店,感觉特别好,附近有地铁站,狠方便。”
规范化处理后的点评内容:“之前住过这家酒店,感觉特别好,附近有地铁站,很方便。”
分词后的点评内容:“之前|住|过|这家|酒店|,|感觉|特别|好|,|附近|有|地铁站|,|很|方便|。”
要素分析后的点评内容:“之前|住|过|这家|Obj|Punc|Inter|Dgr|Sent|Punc|附近|有|Obj|Punc|Dgr|Sent|Punc”
匹配句式:“Inter|Dgr|Sent”,“附近|有|Obj”,“Dgr|Sent|Punc”
指代消解:“感觉|特别|好”补充缺省主语“酒店”,“很|方便”补充缺省主语“地铁站”
候选情感句:“之前|住|过|这家|酒店”,“感觉|特别|好”,“附近|有|地铁站”,“很|方便”
情感句判定:针对每个候选情感句,提取特征,利用最大熵模型进行情感类别判定。以“感觉|特别|好”为例,提取出来的特征包括:评价对象词“酒店”,情感词“好”,评价对象词与情感词的搭配“<酒店,好>”,匹配句式模版“Inter|Dgr|Sent”,情感词极性“1”,评价对象词与情感词的搭配极性“1”。最终判定极性为“1”。
本发明从点评数据库中随机抽取了1000条点评,对性能进行评价。评价指标包括准确率、召回率和F1值。准确率表示正确检测的情感句在所有检测的情感句中的比例,召回率表示正确检测的情感句在应该检测的情感句中的比例,F1值表示正确率和召回率的调和平均数。本发明提出的方法在准确率和召回率上分别达到95.6%和91.8%,F1值上达到93.7%,说明性能已达到很好的效果,在实际应用中也得到了很好的市场和客户反馈。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求书所述为准。

Claims (8)

1.一种面向点评数据的情感倾向性检测方法,其特征在于,包括如下步骤:
1)获取点评数据,对其进行规范化处理;
2)对规范化处理后的点评数据的句子进行分词处理;
3)对分词后的句子进行要素分析,识别出影响文本情感倾向性检测分析的各类词语;
4)根据句式模版库对进行要素分析后的点评数据进行句式模版匹配;通过基于点评的自举方法提取句式模版,从而建立所述句式模版库,建立所述句式模版库的步骤包括:4.1)获取点评数据,通过整理各个情感要素的词形成种子词典;
4.2)对点评数据的句子进行分词处理,然后逐词判定其语义类并用语义类标签进行替换;
4.3)对标签替换后的点评数据进行断句,根据各语义类的名称及各语义类包含的具体词语生成模版;
4.4)将模版应用到语义类标签替换后的点评数据中,以抽取各语义类的语义词;
4.5)根据模版的重要性、推广性和准确性,对各模版进行打分;
4.6)选取得分最高的部分模版,根据选取的模版及其打分计算各模版抽取的语义词的得分,进而选取得分最高的部分语义词对语义词典进行扩充;
4.7)步骤4.2)至步骤4.6)迭代进行,直到挑选出来的语义词不正确时迭代终止,得到最终的语义词典,并由各模版构成模版库;
5)确定点评数据的句子中指代语对应的先行语,并恢复省略的主语;
6)将出现评价对象词、评价属性词或情感词的句子作为候选情感句,采用最大熵模型对候选情感句的句子极性进行判别,得到句子的情感倾向性。
2.如权利要求1所述的方法,其特征在于:步骤1)通过聚焦爬虫从各大主流点评网站获取在线点评数据。
3.如权利要求1所述的方法,其特征在于:步骤1)所述规范化处理,是采用基于规则的方法处理点评文本中的拼写错误,所述规则是“包含错别字的字串或词串”到“相应正确字串或词串”的映射;所述规则通过两种方法获取:一是根据现有知识,即前人总结的常见拼写错误;二是根据每个字或词的上下文的抽取相似字或词,通过人工校验确定正确的字串或词串。
4.如权利要求1所述的方法,其特征在于:步骤2)首先采用基于词典的最大匹配分词方法进行分词,然后针对分词有歧义的部分采用序列标注的分词方法得到正确的分词结果;所述序列标注的分词方法将词的切分问题转换为字的分类问题,每个字根据其在词中的不同位置,赋予不同的位置类别标记,基于这样的标记序列确定句子的切分方式。
5.如权利要求4所述的方法,其特征在于:所述不同的位置类别标记,包括词首、词中、词尾和单字词,并采用条件随机场模型实现序列标注任务。
6.如权利要求1所述的方法,其特征在于:步骤3)所述要素包括点评数据中的评价对象词、评价属性词、情感词、程度副词、普通副词、否定词、插入词,以及关于城市、景点的词语,在将句子中的要素识别出来后,标记上相应的类别标签。
7.如权利要求1所述的方法,其特征在于:步骤5)中,如果当前句中没有评价对象词或评价属性词,则选择上一句最后提及的评价对象或评价属性词引入到当前句;如果当前句中只有评价属性词,则当上一句出现评价对象时将其引入到当前句。
8.如权利要求1所述的方法,其特征在于:步骤6)中,所述最大熵模型通过建立条件概率模型预测不同情感类别并估计其概率,所述情感类别包括-1、0、1三类,分别表示差评、无情感、好评。
CN201510481197.XA 2015-08-03 2015-08-03 一种面向点评数据的情感倾向性检测方法 Active CN106407236B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510481197.XA CN106407236B (zh) 2015-08-03 2015-08-03 一种面向点评数据的情感倾向性检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510481197.XA CN106407236B (zh) 2015-08-03 2015-08-03 一种面向点评数据的情感倾向性检测方法

Publications (2)

Publication Number Publication Date
CN106407236A CN106407236A (zh) 2017-02-15
CN106407236B true CN106407236B (zh) 2019-07-23

Family

ID=58008047

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510481197.XA Active CN106407236B (zh) 2015-08-03 2015-08-03 一种面向点评数据的情感倾向性检测方法

Country Status (1)

Country Link
CN (1) CN106407236B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109558582B (zh) * 2017-09-27 2022-09-27 北京国双科技有限公司 基于视角的句子情感分析方法及装置
CN107818153B (zh) * 2017-10-27 2020-08-21 中航信移动科技有限公司 数据分类方法和装置
CN108170685B (zh) * 2018-01-29 2021-10-29 浙江省公众信息产业有限公司 文本情感分析方法、装置和计算机可读存储介质
CN108269024A (zh) * 2018-01-31 2018-07-10 钟栎娜 一种基于大数据的旅游目的地评价方法
CN108664469B (zh) * 2018-05-07 2021-11-19 首都师范大学 一种情感类别确定方法、装置及服务器
CN110096696A (zh) * 2018-06-11 2019-08-06 电子科技大学 一种中文长文本情感分析方法
CN109003624B (zh) * 2018-06-29 2022-02-15 北京百度网讯科技有限公司 情绪识别方法、装置、计算机设备及存储介质
CN110738046B (zh) * 2018-07-03 2023-06-06 百度在线网络技术(北京)有限公司 观点抽取方法及装置
CN110020428B (zh) * 2018-07-19 2023-05-23 成都信息工程大学 一种基于半马尔可夫的联合识别和规范化中医症状名的方法
CN109254973A (zh) * 2018-08-29 2019-01-22 北京百度网讯科技有限公司 用于更新信息的方法及装置
CN109284504A (zh) * 2018-10-22 2019-01-29 平安科技(深圳)有限公司 利用深度学习模型的证券研报分析方法及装置
CN110751234B (zh) * 2019-10-09 2024-04-16 科大讯飞股份有限公司 Ocr识别纠错方法、装置及设备
CN110825876B (zh) * 2019-11-07 2022-07-15 上海德拓信息技术股份有限公司 电影评论观点情感倾向性分析方法
CN111079404A (zh) * 2019-11-14 2020-04-28 联想(北京)有限公司 数据分析方法、设备及存储介质
CN111241290B (zh) * 2020-01-19 2023-05-30 车智互联(北京)科技有限公司 一种评论标签生成方法、装置和计算设备
CN111986702B (zh) * 2020-07-31 2022-11-04 中国地质大学(武汉) 一种基于语音信号处理的说话人心理阻抗现象识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8428934B2 (en) * 2010-01-25 2013-04-23 Holovisions LLC Prose style morphing
CN103455562A (zh) * 2013-08-13 2013-12-18 西安建筑科技大学 一种文本倾向性分析方法及基于该方法的商品评论倾向判别器
CN104008091A (zh) * 2014-05-26 2014-08-27 上海大学 一种基于情感值的网络文本情感分析方法
CN104699766A (zh) * 2015-02-15 2015-06-10 浙江理工大学 一种融合词语关联关系和上下文语境推断的隐式属性挖掘方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8428934B2 (en) * 2010-01-25 2013-04-23 Holovisions LLC Prose style morphing
CN103455562A (zh) * 2013-08-13 2013-12-18 西安建筑科技大学 一种文本倾向性分析方法及基于该方法的商品评论倾向判别器
CN104008091A (zh) * 2014-05-26 2014-08-27 上海大学 一种基于情感值的网络文本情感分析方法
CN104699766A (zh) * 2015-02-15 2015-06-10 浙江理工大学 一种融合词语关联关系和上下文语境推断的隐式属性挖掘方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
中文评价对象抽取中省略现象研究;戴敏;《中国优秀硕士学位论文全文数据库》;20141015(第10期);第18页到第26页第3章

Also Published As

Publication number Publication date
CN106407236A (zh) 2017-02-15

Similar Documents

Publication Publication Date Title
CN106407236B (zh) 一种面向点评数据的情感倾向性检测方法
WO2021114745A1 (zh) 一种基于词缀感知的社交媒体命名实体识别方法
CN106407235B (zh) 一种基于点评数据的语义词典构建方法
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN104268160B (zh) 一种基于领域词典和语义角色的评价对象抽取方法
CN105205699A (zh) 基于酒店点评的用户标签和酒店标签匹配方法及装置
CN104008091B (zh) 一种基于情感值的网络文本情感分析方法
CN105183717B (zh) 一种基于随机森林和用户关系的osn用户情感分析方法
CN103049435A (zh) 文本细粒度情感分析方法及装置
CN104298665A (zh) 一种中文文本中评价对象的识别方法及装置
CN104915443B (zh) 一种中文微博评价对象的抽取方法
CN104317965A (zh) 基于语料的情感词典构建方法
CN106126502A (zh) 一种基于支持向量机的情感分类系统及方法
CN112069312B (zh) 一种基于实体识别的文本分类方法及电子装置
CN110134934A (zh) 文本情感分析方法和装置
CN106649270A (zh) 舆情监测分析方法
CN112633431A (zh) 一种基于crnn和ctc的藏汉双语场景文字识别方法
CN110287405A (zh) 情感分析的方法、装置和存储介质
Maynard et al. Multimodal sentiment analysis of social media
CN106897274B (zh) 一种跨语种的点评复述方法
Algur et al. Sentiment analysis by identifying the speaker's polarity in Twitter data
CN109284381A (zh) 融合表情符号库和主题模型的方面观点褒贬态度挖掘方法
KR102185733B1 (ko) 프로필 자동생성서버 및 방법
Sagcan et al. Toponym recognition in social media for estimating the location of events
CN107122471B (zh) 一种酒店特色点评抽取的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100088 Madian East Road, Haidian District, No. 17,, golden floor, International Building, 18

Applicant after: BEIJING JOINT WISDOM INFORMATION TECHNOLOGY CO.,LTD.

Address before: 100088 Beijing, Madian, East Haidian District Road, room 17, room 15, level 1818

Applicant before: BEIJING ZHONGHUI INFORMATION TECHNOLOGY Co.,Ltd.

CB02 Change of applicant information
CB03 Change of inventor or designer information

Inventor after: Lin Xiaojun

Inventor after: Zhang Meng

Inventor after: Bao Xiao

Inventor after: Jiao Yu

Inventor before: Lin Xiaojun

Inventor before: Zhang Meng

Inventor before: Bao Xiao

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20231110

Address after: 18th Floor, Jin'ao International Building, No. 17 Madian East Road, Haidian District, Beijing, 100080

Patentee after: Beijing Yishang Huiping Network Technology Co.,Ltd.

Address before: 100088 18 / F, jin'ao international building, 17 Madian East Road, Haidian District, Beijing

Patentee before: BEIJING JOINT WISDOM INFORMATION TECHNOLOGY CO.,LTD.

TR01 Transfer of patent right