CN107203520A - 酒店情感词典的建立方法、评论的情感分析方法及系统 - Google Patents

酒店情感词典的建立方法、评论的情感分析方法及系统 Download PDF

Info

Publication number
CN107203520A
CN107203520A CN201610149697.8A CN201610149697A CN107203520A CN 107203520 A CN107203520 A CN 107203520A CN 201610149697 A CN201610149697 A CN 201610149697A CN 107203520 A CN107203520 A CN 107203520A
Authority
CN
China
Prior art keywords
word
emotion
hotel
negative
comment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610149697.8A
Other languages
English (en)
Inventor
李鸣
雷云奔
徐志广
张宏俊
朱梦尧
吴波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Advanced Research Institute of CAS
Original Assignee
Shanghai Advanced Research Institute of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Advanced Research Institute of CAS filed Critical Shanghai Advanced Research Institute of CAS
Priority to CN201610149697.8A priority Critical patent/CN107203520A/zh
Publication of CN107203520A publication Critical patent/CN107203520A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种酒店情感词典的建立方法、评论的情感分析方法及系统,包括建立:酒店定制情感词典:抓取消费者对于酒店的网络评论,从网络评论中提取形容词、和/或副词作为候选词,保留预设基础情感词典中未收录的各候选词,从中选择至少一个正面候选词构成正面基准词集合、和至少一个负面候选词构成负面基准词集合,根据正面基准词集合和负面基准词集合通过点互信息法确定各候选词的定制正、负面极性后存储;网络术语情感词典:采集预设基础情感词典中未收录且用于表示情感的正面网络流行词语、和负面网络流行词语并存储;否定词词典:收集各否定词并存储;程度副词词典:收集各程度副词并存储。为酒店网络评论的情感分析提供有力的技术支持。

Description

酒店情感词典的建立方法、评论的情感分析方法及系统
技术领域
本发明涉及情感分析领域,特别是涉及一种酒店情感词典的建立方法、评论的情感分析方法及系统。
背景技术
随着电子商务的快速发展,越来越多的人选择在网络上预订酒店,并对酒店入住体验进行在线评论。然而,酒店评论信息量庞大冗杂,对于消费者和商家查找有用的信息带来了极大的困难。如何方便快捷地挖掘出评论中有价值的信息逐渐成为研究热点。情感分析能从评论中获取用户的喜怒哀乐,从而辨识用户对酒店的喜好程度。
传统的情感分析主要采用两类方法,基于情感词典的方法和基于机器学习的方法。基于篇章、句子级别的粗粒度情感分析只能了解某些评论整体是正面还是负面的。然而,一条评论往往既有正面信息又有负面信息,因此,提取某方面的特征后再分类分析更能准确地得出用户的喜好,以便了解用户对酒店各个特性属性的需求。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种酒店情感词典的建立方法、评论的情感分析方法及系统,用于解决现有技术中没有酒店专用情感词典,以及没用针对酒店特征分类进行情感分析等问题。
为实现上述目的及其他相关目的,本发明提供一种酒店领域专用情感词典的建立方法,所述酒店领域专用情感词典包括:酒店定制情感词典、网络术语情感词典、否定词词典、和程度副词词典,其中,所述方法包括:建立所述酒店定制情感词典,包括:抓取消费者对于酒店的网络评论;从所述网络评论中提取形容词、和/或副词作为候选词;保留预设基础情感词典中未收录的各所述候选词;从保留的候选词中选择至少一个正面候选词构成正面基准词集合、和至少一个负面候选词构成负面基准词集合;根据所述正面基准词集合和所述负面基准词集合,通过点互信息法确定各所述候选词的定制正、负面极性后加以存储。建立所述网络术语情感词典,包括:采集所述预设基础情感词典中未收录且用于表示情感的正面网络流行词语、和负面网络流行词语,并加以存储。建立所述否定词词典,包括:收集各否定词,并加以存储。建立所述程度副词词典,包括:收集各程度副词,并加以存储。
于本发明一实施例中,所述预设基础情感词典包括:基础正面情感词典、和基础负面情感词典。
于本发明一实施例中,分别设置所述酒店领域专用情感词典中相关正面词语的第一强度值;相关负面词语、及所述否定词的第二强度值;以及各所述程度副词的各第三强度值,并加以存储。
为实现上述目的及其他相关目的,本发明提供一种酒店评论的细粒度情感分析方法,包括:抓取消费者对于酒店的评论数据;从所述评论数据的评论内容中提取关于酒店评价项目的特征词语,其中,所述特征词语包括:名词、或名词词组;从所述评论内容中识别出含有所述特征词语的单句作为观点句;从所述观点句中提取形容词、和/或副词与所述的酒店领域专用情感词典的建立方法中建立的酒店领域专用情感词典中的词语匹配并返回相应的强度值,据以计算各所述观点句的情感分;根据各所述观点句的情感分计算所述评论内容的情感分。
于本发明一实施例中,所述从所述评论数据的评论内容中提取关于酒店评价项目的特征词语之前,还包括文本预处理方法:将所述评论内容分成各个单句;将所述各个单句分成各个词语;标记所述各个词语的词性;排除停用的词语。
于本发明一实施例中,还包括:检测所述各个单句中是否存在重复次数大于预设重复阈值的特征词语;若是,则分别构建重复的特征词语的集合作为各候选特征集;通过APRIORI算法从各所述候选特征集中产生各频繁特征集,并以各所述频繁特征集中词语的特征作为各标识词语;从所述评论内容中识别出含有各所述标识词语的单句作为各观点句;从各所述观点句中提取形容词、和/或副词与权利要求3所述的酒店领域专用情感词典的建立方法中建立的酒店领域专用情感词典中的词语匹配并返回相应的强度值,据以计算各所述观点句的情感分;根据各所述观点句的情感分计算所述评论内容的情感分。
于本发明一实施例中,还包括:从所述评论数据中获取消费者的类型;按照各所述类型对各所述评论数据分类;计算得到各所述类型的相应评论内容的情感分。
于本发明一实施例中,所述根据各所述观点句的情感分计算所述评论内容的情感分包括以下计算方式中的一种或多种:1)分别计算各所述评论内容的正面情感分、和负面情感分,其中,所述正面情感分为所述评论内容的正面情感分的总和;所述负面情感分为所述评论内容的负面情感分的总和。2)分别计算各所述评论内容的正面平均情感分、和负面平均情感分,其中,所述正面平均情感分为所述评论内容的正面情感分与所述评论内容包含的单句个数的比值;所述负面平均情感分为所述评论内容的负面情感分与所述评论内容包含的单句个数的比值。3)分别计算各所述评论内容的正面方差情感分、和负面方差情感分,其中,所述正面方差情感分为各正面情感分与各正面平均情感分之差的平方和与所述评论内容包含的单句个数的比值;所述负面方差情感分为各负面情感分与各负面平均情感分之差的平方和与所述评论内容包含的单句个数的比值。
于本发明一实施例中,还包括:选择所述方式3)计算的正面方差情感分、和负面方差情感分作为情感分析的指标;若所述正面方差情感分、和负面方差情感分的分值相等,则选择所述方式2)计算的正面平均情感分、和负面平均情感分作为情感分析的指标;若所述正面平均情感分、和负面平均情感分的分值相等,则选择所述方式1)计算的正面情感分、和负面情感分作为情感分析的指标。
为实现上述目的及其他相关目的,本发明提供一种酒店评论的细粒度情感分析系统,包括:获取模块、挖掘模块、识别模块和分析模块。获取模块,用于抓取消费者对于酒店的评论数据;挖掘模块,用于从所述评论数据的评论内容中提取关于酒店评价项目的特征词语,其中,所述特征词语包括:名词、或名词词组;识别模块,用于从所述评论内容中识别出含有所述特征词语的单句作为观点句;分析模块,用于从所述观点句中提取形容词、和/或副词与权利要求3所述的酒店领域专用情感词典的建立方法中建立的酒店领域专用情感词典中的词语匹配并返回相应的强度值,据以计算各所述观点句的情感分;并根据各所述观点句的情感分计算所述评论内容的情感分。
如上所述,本发明的酒店情感词典的建立方法、评论的情感分析方法及系统,提出了有利于酒店网络评论的情感分析的专用情感词典,并通过提取酒店的特征后再分别计算情感分,克服了传统酒店评论细粒度情感分析只能了解评论整体上是正面情感还是负面情感的不足,进一步分析不同消费者的不同喜好情感,对商家和消费者都具有重要意义。
附图说明
图1显示为本发明一实施例的酒店领域专用情感词典结构示意图。
图2显示为本发明一实施例的酒店定制情感词典的建立方法流程图。
图3显示为本发明一优选实施例的酒店评论的细粒度情感分析方法流程图。
图4显示为本发明一实施例的酒店频繁特征集及对应评论次数示意图。
图5显示为本发明一实施例的十项频繁特征集及相应的好评数、差评数示意图。
图6a~6e显示为本发明一实施例的针对不同类型的消费者的频繁特征集及相应的好评数、差评数示意图。
图7显示为本发明一实施例的酒店评论的细粒度情感分析系统示意图。
元件标号说明
1 酒店评论的细粒度情感分析系统
11 获取模块
12 挖掘模块
13 识别模块
14 分析模块
S201~S205 步骤
S301~S305
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
目前中文领域的情感分析已经出现不少词典资源,例如:知网(Hownet)发布的《情感分析用词语集(beta版)》、大连理工大学信息检索研究室发布的《中文情感词汇本体库》以及台湾大学整理发布的NTUSD等。然而,并没有一种酒店领域专用情感词典,为酒店评论的情感分析做技术支持。众所周知,中文词语表达的含义在不同情境中可能不同,尤其是一些中性词,在特殊的语境中可能会表现出褒义词、或贬义词的感情色彩,可见,建立一种酒店领域专用情感词典是非常必要的。请参阅图1,本申请提出的酒店领域专用情感词典主要包括:酒店定制情感词典、网络术语情感词典、否定词词典、和程度副词词典。
请参阅图2,建立所述酒店定制情感词典的方法,包括:
步骤S201:从某些酒店官网、酒店预订网站或其他数据库中抓取消费者对于酒店的网络评论。该评论可以是词语、词组、句子或者段落。
步骤S202:从所述网络评论中提取形容词、副词作为候选词。
步骤S203:保留预设基础情感词典中未收录的各所述候选词,也就是说,判断各所述候选词与预设基础情感词典中的词语是否匹配,并返回匹配结果;将匹配结果为否的各所述候选词保留。其中,所述预设基础情感词典包括:基础正面情感词典、和基础负面情感词典。具体的,基础正面情感词典可以为:将HowNet中的正面情感词、评价词和《中文情感词汇本体库》中极性为“1”的词合并、去重,并去掉情感倾向不显著的词语,从而组成基础正面情感词典;基础负面情感词典可以为:将HowNet中的负面情感词、评价词和《中文情感词汇本体库》中极性为“2”的词合并、去重,并去掉情感倾向不显著的词语,从而组成基础负面情感词典。
步骤S204:从保留的候选词中选择至少一个正面候选词构成正面基准词集合、和至少一个负面候选词构成负面基准词集合。具体的,可按词频将保留的候选词由多到少降序排列,从排名靠前的候选词中,选取几个形容词和副词分别定义为正面基准词、负面基准词。
步骤S205:根据所述正面基准词集合和所述负面基准词集合,通过点互信息法(Pointwisemutual information,PMI)确定各所述候选词的定制正、负面极性后加以存储。其主要思想是:依据候选词和基准词之间的点互信息来确立两者的关联,从而判定候选词的极性。具体为利用公式(1)分别计算候选词与定制正面、负面基准词的点互信息之差,差值大于预设数值的为正面情感词,反之为负面情感词,优选的,预设数值为0。
其中,公式(1)的Word为候选词,Pword和Nword分别是正面基准词和负面基准词,P_set和N_set分别是正面、负面基准词的集合,PMI(·)可以选择如下公式(2)和(3)的组合,也可以选择(4)和(5)的组合,等。
其中,公式(2)至(5)的P(x)代表x1出现的概率,P(x1,x2)代表x1和x2同时出现的概率,其详细含义本领域技术人员可以获知。
除此之外,建立所述网络术语情感词典,包括:采集所述预设基础情感词典中未收录且用于表示情感的正面网络流行词语、和负面网络流行词语,并加以存储。需要说明的是,网络术语情感词典是互联网中出现的风靡一时的流行词语,这些词语不能被传统的基础情感词典正确识别,却被广泛使用。优选的,本申请以搜狗互联网词库(SogouW)的数据为基础并人工添加一些近期广泛使用的网络情感词汇来构造所述网络术语情感词典。
再有,建立所述否定词词典,包括:收集各否定词,并加以存储。建立所述程度副词词典,包括:收集各程度副词,并加以存储,优选的,选用HowNet收集的程度级别词语。
在一实施例中,对所述酒店领域专用情感词典中的各个词语设置强度值。具体的,对定制正面词语、正面网络流行词语设置第一强度值,优选值为1;对定制负面词语、负面网络流行词语及各否定词设置第二强度值,优选值为-1;按照各所述程度副词不同程度级别的分类分别设置各第三强度值,优选为分成4类。表1显示了酒店领域专用情感词典的样例:
表1 酒店领域情感词典及强度值样例
需要说明的是,上述酒店定制情感词典、网络术语情感词典、否定词词典、和程度副词词典的建立不分前后顺序,可以同时进行。
请参阅图3,本发明提供利用所建立的酒店领域专用情感词典进行对酒店评论的细粒度情感分析的方法,包括如下步骤:
步骤S301:抓取消费者对于酒店的评论数据,其中,所述评论数据包括评论内容、消费者类型等,例如:商务出差、情侣出游、家庭亲子、朋友出游、独自出行等。优选的,抓取后将评论数据进行文本预处理,例如:将所述评论内容分成各个单句、将所述各个单句分成各个词语、标记所述各个词语的词性,如:名词、形容词、副词,以及排除停用的词语等。
步骤S302:从所述评论数据的评论内容中提取关于酒店评价项目的特征词语,其中,所述特征词语包括:名词、名词词组,例如:“位置”、“安静情况”等。特别的,当所述各个单句中存在重复次数大于预设重复阈值,如,重复3次的特征词语,则将这些重复的特征词语组建成集合作为候选特征集。利用APRIORI算法将各个候选特征集“由零化整”,从各所述候选特征集中产生各频繁特征集。需要说明的是,APRIORI算法是挖掘布尔关联规则频繁项集的算法,在该算法中,所有支持度大于最小支持度的项集称为频繁项集,简称频集,利用频繁项集性质的先验知识,通过逐层搜索的迭代方法,即将k项集用于探察(k+1)项集,来穷尽数据集中的所有频繁项集,具体的,先找到频繁1项集集合L1,然后用L1找到频繁2项集集合L2,接着用L2找L3,直到找不到频繁k项集,找每个Lk需要扫描一次数据库,优选的,设置最小支持度为6%。随后,以各所述频繁特征集中词语的特征作为各标识词语,并统计每种频繁特征集对应的评论次数,例如图4所示,其中,横坐标为选出的各个频繁特征集,标识名称分别为:“位置”、“服务”、“房间”等,可以看出消费者不仅对酒店的位置、服务、房间、交通等特征比较关注,还对该酒店提供的浴缸、衣帽间等特有服务也很感兴趣。
步骤S303:从所述评论内容中识别出含有所述特征词语、或所述标识词语的单句作为观点句,例如,评论内容为“今天是星期一,我来到了某某酒店,位置不太方便”,则特征词语为“位置”,观点句为“位置不太方便”。
步骤S304:从所述观点句中提取形容词、副词与所述的酒店领域专用情感词典的建立方法中建立的酒店领域专用情感词典中的词语匹配并返回相应的强度值,据以计算各所述观点句的情感分,例如,从观点句“位置不太方便”中提取形容词“方便”,副词“不太”,查阅表1(仅作示例),得到形容词“方便”的强度值为1,副词“不太”的强度值为1。在一实施例中,计算观点句的情感分是通过累加该句中各个情感词的强度值得到的,即观点句“位置不太方便”的情感分为2。
步骤S305:根据各所述观点句的情感分计算所述评论内容的情感分。在一实施例中,计算评论内容的情感分是通过累加各个观点句的情感分得到的。优选的,采取以下计算方式中的一种或多种组合来计算:
1)将评论内容切分为句子集S(S1,S2,…,Sn),计算各Si的正负面情感值{Posi,Negi},累加所有的单句的正负面情感值得到评论内容的正负面情感分值,即通过公式(6)和(7)分别计算各所述评论内容的正面情感分、和负面情感分,其中,所述正面情感分为所述评论内容的正面情感分的总和,所述负面情感分为所述评论内容的负面情感分的总和:
2)由于均值能比较准确地反映一条评论的情感特征,分别计算各所述评论内容的正面平均情感分、和负面平均情感分,其中,所述正面平均情感分为所述评论内容的正面情感分与所述评论内容包含的单句个数的比值,所述负面平均情感分为所述评论内容的负面情感分与所述评论内容包含的单句个数的比值,详见公式(8)和(9):
3)对于一条酒店评论,若评论者情绪波动大,说明对酒店某种特征属性有争议,因此将情感方差值作为情感特征指标来反映情绪的稳定程度。评论的情感方差计算公式如下(10)和(11):分别计算各所述评论内容的正面方差情感分、和负面方差情感分,其中,所述正面方差情感分为各正面情感分与各正面平均情感分之差的平方和与所述评论内容包含的单句个数的比值,所述负面方差情感分为各负面情感分与各负面平均情感分之差的平方和与所述评论内容包含的单句个数的比值。
进一步地,首先选择所述方式3)计算的正面方差情感分和负面方差情感分作为情感分析的指标。当所述正面方差情感分和负面方差情感分的分值相等时,选择所述方式2)计算的正面平均情感分和负面平均情感分作为情感分析的指标。当所述正面平均情感分和负面平均情感分的分值相等时,选择所述方式1)计算的正面情感分和负面情感分作为情感分析的指标。需要说明的是,当正面情感分大于负面情感分时,认为评论为“好评”,反之为“差评”。
图5显示了一种选取了十项消费者关注最多的频繁特征集,及相应的好评、差评数,可以看出消费者最关注该酒店的“房间”、“位置”、“服务”、“早餐”等特征,对“房间”、“位置”、“安静情况”和“交通”非常满意,对“服务”的满意度比较低,酒店应该针对满意度低的方面做出适当的改善以提高核心竞争力。
图6a~6e显示了一种按照各种消费者的不同类型统计频繁特征集及相应的好、差评数示意图,可见,不同的消费者类型在意的酒店特征并不相同,分类统计更能了解到消费者的真正需求。例如,“商务出差”人群对“服务”不满意,“情侣出游”人群对“安静情况”比较关注等。酒店管理者可以根据不同出游类型消费者的评论做出相应的改善,大力推广满意度较高的特色服务,客户也可以根据这些评论来选择适合自己的酒店。
请参阅图7,与方法实施例原理相似的是,本发明提供一种酒店评论的细粒度情感分析系统1,包括:获取模块11、挖掘模块12、识别模块13和分析模块14。由于方法实施例中的技术特征也可以用于本系统实施例,因而不再重复赘述。
获取模块11抓取消费者对于酒店的评论数据。挖掘模块12从所述评论数据的评论内容中提取关于酒店评价项目的特征词语,其中,所述特征词语包括:名词、或名词词组。识别模块13从所述评论内容中识别出含有所述特征词语的单句作为观点句。分析模块14从所述观点句中提取形容词、和/或副词与所述的酒店领域专用情感词典的建立方法中建立的酒店领域专用情感词典中的词语匹配并返回相应的强度值,据以计算各所述观点句的情感分,并根据各所述观点句的情感分计算所述评论内容的情感分。
综上所述,本发明能够提取酒店领域的特征,并针对各个特征分析消费者的喜好,有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (10)

1.一种酒店领域专用情感词典的建立方法,其特征在于,所述酒店领域专用情感词典包括:酒店定制情感词典、网络术语情感词典、否定词词典、和程度副词词典,其中,所述方法包括:
建立所述酒店定制情感词典,包括:抓取消费者对于酒店的网络评论;从所述网络评论中提取形容词、和/或副词作为候选词;保留预设基础情感词典中未收录的各所述候选词;从保留的候选词中选择至少一个正面候选词构成正面基准词集合、和至少一个负面候选词构成负面基准词集合;根据所述正面基准词集合和所述负面基准词集合,通过点互信息法确定各所述候选词的定制正、负面极性后加以存储;
建立所述网络术语情感词典,包括:采集所述预设基础情感词典中未收录且用于表示情感的正面网络流行词语、和负面网络流行词语,并加以存储;
建立所述否定词词典,包括:收集各否定词,并加以存储;
建立所述程度副词词典,包括:收集各程度副词,并加以存储。
2.根据权利要求1所述的酒店领域专用情感词典的建立方法,其特征在于,所述预设基础情感词典包括:基础正面情感词典、和基础负面情感词典。
3.根据权利要求1所述的酒店领域专用情感词典的建立方法,其特征在于,分别设置所述酒店领域专用情感词典中相关正面词语的第一强度值;相关负面词语、及所述否定词的第二强度值;以及各所述程度副词的各第三强度值,并加以存储。
4.一种酒店评论的细粒度情感分析方法,其特征在于,包括:
抓取消费者对于酒店的评论数据;
从所述评论数据的评论内容中提取关于酒店评价项目的特征词语,其中,所述特征词语包括:名词、或名词词组;
从所述评论内容中识别出含有所述特征词语的单句作为观点句;
从所述观点句中提取形容词、和/或副词与权利要求3所述的酒店领域专用情感词典的建立方法中建立的酒店领域专用情感词典中的词语匹配并返回相应的强度值,据以计算各所述观点句的情感分;
根据各所述观点句的情感分计算所述评论内容的情感分。
5.根据权利要求4所述的酒店评论的细粒度情感分析方法,其特征在于,所述从所述评论数据的评论内容中提取关于酒店评价项目的特征词语之前,还包括文本预处理方法:
将所述评论内容分成各个单句;
将所述各个单句分成各个词语;
标记所述各个词语的词性;
排除停用的词语。
6.根据权利要求5所述的酒店评论的细粒度情感分析方法,其特征在于,还包括:
检测所述各个单句中是否存在重复次数大于预设重复阈值的特征词语;
若是,则分别构建重复的特征词语的集合作为各候选特征集;
通过APRIORI算法从各所述候选特征集中产生各频繁特征集,并以各所述频繁特征集中词语的特征作为各标识词语;
从所述评论内容中识别出含有各所述标识词语的单句作为各观点句;
从各所述观点句中提取形容词、和/或副词与权利要求3所述的酒店领域专用情感词典的建立方法中建立的酒店领域专用情感词典中的词语匹配并返回相应的强度值,据以计算各所述观点句的情感分;
根据各所述观点句的情感分计算所述评论内容的情感分。
7.根据权利要求4或6所述的酒店评论的细粒度情感分析方法,其特征在于,还包括:
从所述评论数据中获取消费者的类型;
按照各所述类型对各所述评论数据分类;
计算得到各所述类型的相应评论内容的情感分。
8.根据权利要求4或6所述的酒店评论的细粒度情感分析方法,其特征在于,所述根据各所述观点句的情感分计算所述评论内容的情感分包括以下计算方式中的一种或多种:
1)分别计算各所述评论内容的正面情感分、和负面情感分,其中,所述正面情感分为所述评论内容的正面情感分的总和;所述负面情感分为所述评论内容的负面情感分的总和;
2)分别计算各所述评论内容的正面平均情感分、和负面平均情感分,其中,所述正面平均情感分为所述评论内容的正面情感分与所述评论内容包含的单句个数的比值;所述负面平均情感分为所述评论内容的负面情感分与所述评论内容包含的单句个数的比值;
3)分别计算各所述评论内容的正面方差情感分、和负面方差情感分,其中,所述正面方差情感分为各正面情感分与各正面平均情感分之差的平方和与所述评论内容包含的单句个数的比值;所述负面方差情感分为各负面情感分与各负面平均情感分之差的平方和与所述评论内容包含的单句个数的比值。
9.根据权利要求8所述的酒店评论的细粒度情感分析方法,其特征在于,还包括:
选择所述方式3)计算的正面方差情感分、和负面方差情感分作为情感分析的指标;
若所述正面方差情感分、和负面方差情感分的分值相等,则选择所述方式2)计算的正面平均情感分、和负面平均情感分作为情感分析的指标;
若所述正面平均情感分、和负面平均情感分的分值相等,则选择所述方式1)计算的正面情感分、和负面情感分作为情感分析的指标。
10.一种酒店评论的细粒度情感分析系统,其特征在于,包括:
获取模块,用于抓取消费者对于酒店的评论数据;
挖掘模块,用于从所述评论数据的评论内容中提取关于酒店评价项目的特征词语,其中,所述特征词语包括:名词、或名词词组;
识别模块,用于从所述评论内容中识别出含有所述特征词语的单句作为观点句;
分析模块,用于从所述观点句中提取形容词、和/或副词与权利要求3所述的酒店领域专用情感词典的建立方法中建立的酒店领域专用情感词典中的词语匹配并返回相应的强度值,据以计算各所述观点句的情感分;并根据各所述观点句的情感分计算所述评论内容的情感分。
CN201610149697.8A 2016-03-16 2016-03-16 酒店情感词典的建立方法、评论的情感分析方法及系统 Pending CN107203520A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610149697.8A CN107203520A (zh) 2016-03-16 2016-03-16 酒店情感词典的建立方法、评论的情感分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610149697.8A CN107203520A (zh) 2016-03-16 2016-03-16 酒店情感词典的建立方法、评论的情感分析方法及系统

Publications (1)

Publication Number Publication Date
CN107203520A true CN107203520A (zh) 2017-09-26

Family

ID=59903956

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610149697.8A Pending CN107203520A (zh) 2016-03-16 2016-03-16 酒店情感词典的建立方法、评论的情感分析方法及系统

Country Status (1)

Country Link
CN (1) CN107203520A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109190121A (zh) * 2018-09-03 2019-01-11 重庆工商大学 基于汽车本体和词性规则的汽车评论情感分析方法
CN109271510A (zh) * 2018-08-16 2019-01-25 龙马智芯(珠海横琴)科技有限公司 情感词向量构建方法及系统
CN109800418A (zh) * 2018-12-17 2019-05-24 北京百度网讯科技有限公司 文本处理方法、装置和存储介质
CN110619073A (zh) * 2019-08-30 2019-12-27 北京影谱科技股份有限公司 一种基于Apriori算法的视频字幕网络用语词典构建方法和装置
CN110991167A (zh) * 2019-12-05 2020-04-10 北京理工大学 一种基于情感层次体系的情感词典构建方法
CN111080055A (zh) * 2019-11-06 2020-04-28 邱素容 酒店评分方法、酒店推荐方法、电子装置和存储介质
CN112015857A (zh) * 2019-05-13 2020-12-01 中国移动通信集团湖北有限公司 用户感知评价方法、装置、电子设备及计算机存储介质
CN113077312A (zh) * 2021-04-12 2021-07-06 上海华客信息科技有限公司 酒店推荐方法、系统、设备及存储介质
CN113158669A (zh) * 2021-04-28 2021-07-23 河北冀联人力资源服务集团有限公司 一种用工平台正负面评论识别的方法及系统
CN113361920A (zh) * 2021-06-04 2021-09-07 上海华客信息科技有限公司 酒店服务优化指标推荐方法、系统、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《图书情报工作》杂志社: "《馆藏资源聚合研究与实践进展》", 31 May 2015 *
潘正高等: "一种模式匹配和统计学习相结合的文本情感分类方法", 《宿州学院学报》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109271510A (zh) * 2018-08-16 2019-01-25 龙马智芯(珠海横琴)科技有限公司 情感词向量构建方法及系统
CN109271510B (zh) * 2018-08-16 2019-07-09 龙马智芯(珠海横琴)科技有限公司 情感词向量构建方法及系统
CN109190121A (zh) * 2018-09-03 2019-01-11 重庆工商大学 基于汽车本体和词性规则的汽车评论情感分析方法
CN109800418A (zh) * 2018-12-17 2019-05-24 北京百度网讯科技有限公司 文本处理方法、装置和存储介质
CN109800418B (zh) * 2018-12-17 2023-05-05 北京百度网讯科技有限公司 文本处理方法、装置和存储介质
CN112015857A (zh) * 2019-05-13 2020-12-01 中国移动通信集团湖北有限公司 用户感知评价方法、装置、电子设备及计算机存储介质
CN110619073B (zh) * 2019-08-30 2022-04-22 北京影谱科技股份有限公司 一种基于Apriori算法的视频字幕网络用语词典构建方法和装置
CN110619073A (zh) * 2019-08-30 2019-12-27 北京影谱科技股份有限公司 一种基于Apriori算法的视频字幕网络用语词典构建方法和装置
CN111080055A (zh) * 2019-11-06 2020-04-28 邱素容 酒店评分方法、酒店推荐方法、电子装置和存储介质
CN110991167B (zh) * 2019-12-05 2021-10-08 北京理工大学 一种基于情感层次体系的情感词典构建方法
CN110991167A (zh) * 2019-12-05 2020-04-10 北京理工大学 一种基于情感层次体系的情感词典构建方法
CN113077312A (zh) * 2021-04-12 2021-07-06 上海华客信息科技有限公司 酒店推荐方法、系统、设备及存储介质
CN113158669A (zh) * 2021-04-28 2021-07-23 河北冀联人力资源服务集团有限公司 一种用工平台正负面评论识别的方法及系统
CN113361920A (zh) * 2021-06-04 2021-09-07 上海华客信息科技有限公司 酒店服务优化指标推荐方法、系统、设备及存储介质

Similar Documents

Publication Publication Date Title
CN107203520A (zh) 酒店情感词典的建立方法、评论的情感分析方法及系统
CN109189942B (zh) 一种专利数据知识图谱的构建方法及装置
Ljubešić et al. A global analysis of emoji usage
CN108628833B (zh) 原创内容摘要确定方法及装置,原创内容推荐方法及装置
Yu et al. Hierarchical topic modeling of Twitter data for online analytical processing
CN107193801A (zh) 一种基于深度信念网络的短文本特征优化及情感分析方法
CN105528437B (zh) 一种基于结构化文本知识提取的问答系统构建方法
CN103324665A (zh) 一种基于微博的热点信息提取的方法和装置
CN110134792B (zh) 文本识别方法、装置、电子设备以及存储介质
CN102682120B (zh) 一种网络评论精华文本的获取方法和装置
JP2009093649A (ja) オントロジー空間を規定するタームの推奨
US8812504B2 (en) Keyword presentation apparatus and method
KR101491628B1 (ko) 블로그에서 대중의 감성 변화에 영향을 미치는 키워드 추출 방법, 장치 및 시스템
Bora Summarizing public opinions in tweets
CN105447144B (zh) 基于大数据分析技术的微博转发可视化分析方法及系统
CN105512333A (zh) 基于情感倾向的产品评论主题搜索方法
CN109815401A (zh) 一种应用于Web人物搜索的人名消歧方法
CN110287314A (zh) 基于无监督聚类的长文本可信度评估方法及系统
CN106126605A (zh) 一种基于用户画像的短文本分类方法
CN111340385A (zh) 测量旅游景区欢乐指数的科学计量方法
Ma et al. Tag-latent dirichlet allocation: Understanding hashtags and their relationships
Ding et al. Scoring tourist attractions based on sentiment lexicon
KR102275095B1 (ko) 개인 미디어 제작을 위한 유튜브 동영상 메타데이터 취득 및 정보화 방법
Rinaldi Document summarization using semantic clouds
Baldoni et al. Sentiment analysis in the planet art: A case study in the social semantic web

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170926