CN107122471B

CN107122471B - 一种酒店特色点评抽取的方法

Info

Publication number: CN107122471B
Application number: CN201710301052.6A
Authority: CN
Inventors: 张猛; 张献涛; 林小俊
Original assignee: Beijing Joint Wisdom Information Technology Co ltd
Current assignee: Beijing Yishang Huiping Network Technology Co ltd
Priority date: 2017-05-02
Filing date: 2017-05-02
Publication date: 2020-07-10
Anticipated expiration: 2037-05-02
Also published as: CN107122471A

Abstract

本发明公开了一种酒店特色点评抽取的方法。本方法为：1)获取目标酒店的评论数据；并对所述评论数据进行分词处理；2)对分词处理后的评论数据进行情感倾向性检测，选取若干有情感的评论数据；3)对于每一所选评论数据，提取该评论数据中的特征词并记录每一特征词在该评论数据中出现的频率；4)根据评论数据的长度、评论数据的特征词及其频率，计算该评论数据的特色分值；5)根据评论数据的特色分值选取若干评论数据作为该目标酒店的特色点评。本发明基于语料库的统计方法或机器学习方法，自动地从点评数据中抽取相应的点评片段，得到高质量的新颖的点评。

Description

一种酒店特色点评抽取的方法

技术领域

本发明属于信息技术、数据挖掘技术领域，具体涉及一种基于酒店数据的特色点评抽取的方法。

背景技术

随着电子商务的迅猛发展，越来越多的用户乐于在互联网上分享自己的观点或体验，互联网上的点评不仅影响用户的选择而且无形中也对品牌产生深刻的影响。现在每一家面向个人消费者的公司和商家，都意识到社交网络上评论的强大。点评可以制造社交网络热点，好的评论能直接提升销售和美誉度；差评则有可能造成难以挽回的损失。

以酒店业为例，酒店希望借助技术手段获取用户的点评反馈，用于指导酒店的品牌管理和运营管理，提升品牌形象和服务质量。用户希望查看其他用户的点评，特别是高质量的有特色的点评，可以明确酒店的优点和缺点，令用户能印象深刻，以此作为预订的重要参考。

如何发现点评中的高质量点评，特别是能从点评中找到有特色的新颖的点评，是一个重要的需求。如果在整段的点评中，找到类似“隔一条马路就是免费海滩”、“最大的特色是酒店有个小花园”之类的有比较丰富的细节信息的特色点评。目前纯人工整理和标注特色点评，规模是不够的，效率也非常低。

发明内容

针对现有技术中存在的技术问题，本发明的目的在于提供一种酒店特色点评抽取的方法。本发明是基于语料库的统计方法或机器学习方法，自动地从点评数据中抽取相应的点评片段，得到高质量的新颖的点评。

本发明采用的技术方案如下：

一种酒店特色点评的抽取方法，包括如下步骤：

1、确定目标酒店，并获取目标酒店的评论数据；

2、对所述评论数据进行分词等预处理；

3、对预处理后的评论数据进行情感倾向性检测；

4、选取有情感的评论，在评论中提取特征词(包括停用词、特色词、维度词)并记录每个特征词在该评论中对应的频率；

5、选取的每个评论用(停用词个数，特色词个数，维度词个数，评论长度)四元组进行表示，计算特色分值。

6、选择最高得分四元组对应的评论，作为特色点评输出。

进一步地，步骤1)通过聚焦爬虫从点评网站获取在线点评数据。

进一步地，步骤2)首先根据“。”、“！”、“？”3个标点符号进行断句。然后采用基于词典的最大匹配分词方法进行分词，针对分词有歧义的部分采用序列标注的分词方法得到正确的分词结果；所述序列标注的分词方法将词的切分问题转换为字的分类问题，每个字根据其在词中的不同位置，赋予不同的位置类别标记，基于这样的标记序列确定句子的切分方式。

进一步地，步骤3)将出现维度词情感词的评论数据作为候选评论数据，采用LSTM(Long-short Term Memory)模型对候选评论数据的极性进行判别，得到候选评论数据的情感倾向性，所述情感类别包括-1、0、1三类，分别表示差评、无情感、好评，将差评和好评的评论数据作为有情感的评论数据。

进一步地，步骤4)，使用了特征词库(包括停用词库、特色词库和维度词库)，进行对比查找，确定出评论中的特征词并计算每一特征词对应的频次。

进一步地，步骤5)所述得分最高的部分模版是得分最高的前10～20％的点评。

与现有技术相比，本发明的积极效果为：

与纯人工收集选择的方式相比，本发明采用的方法效率高，可以在较短时间内分析得到某酒店的特色点评。

附图说明

图1是本发明的特色点评抽取方法的步骤流程图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面通过具体实施例和附图，对本发明做进一步说明。

本发明是对酒店数据中特色点评的抽取方法，用于挖掘点评中的用户特色点评。此类点评具有点评用语生动，细节描述丰富，描述内容和酒店贴切等性质。本发明首先通过聚焦爬虫从各大主流点评网站获取在线点评数据。然后对点评中的句子进行分词等处理，在此基础上提取特征词和情感倾向等。最后，通过组成四元组，对各个点评进行分析打分，选择最有特色的点评片段。

图1是本发明方法的步骤流程图，下面是具体的实施步骤：

步骤1：数据准备。通过聚焦爬虫从携程等主流点评网站获取在线点评数据。

步骤2：点评分词。中文分词是中文自然语言处理的基础步骤，本发明分词采用词典分词和统计分词融合的方法。首先采用基于词典的最大匹配分词方法，针对分词有歧义的部分再采用序列标注的分词方法。

基于词典的最大匹配分词方法，给定词典，对于待分词的汉字序列，依次寻找匹配的最长词典词，无匹配者则作为单字词处理，直至该汉字序列处理完毕。按照对汉字序列扫描方向的不同，该方法又可以分为：正向最大匹配(从左向右匹配)和逆向最大匹配(从右向左匹配)。例如，对于序列“当原子结合成分子时”，正向最大匹配结果为“当|原子|结合|成|分子|时”，而逆向最大匹配结果为“当|原子|结合|成分|子时”。

显然，正向最大匹配和逆向最大匹配都不能很好地处理切分歧义问题。正向最大匹配和逆向最大匹配也可以结合形成双向最大匹配，双向匹配时正向和逆向匹配不一致的地方，往往是潜在歧义的地方。有歧义往往需要根据具体上下文确认分词结果。有监督的序列标注方法能够充分的挖掘上下文的丰富特征，因此有歧义的情况下本发明引入序列标注方法消除歧义。该方法将词的切分问题转换为字的分类问题，每个字根据其在词中的不同位置，赋予不同的位置类别标记，比如词首、词中、词尾和单字词。基于这样的标记序列，很容易确定句子的切分方式。其中，B(Begin)、M(Middle)、E(End)、S(Single)分别表示词首、词中、词尾、单字词。有了字的标记序列，符合正则表达式“S”或“B(M)*E”的字序列表示一个词，从而很容易地完成句子切分。为了实现序列标注任务，本发明采用条件随机场模型(Conditional Random Fields,CRF)，该模型在自然语言处理中得到广泛应用，并取得了很大成功。具体特征包括：前一个字、当前字、后一个字、前一个字与当前字、当前字与后一个字，以及基于这些一元特征的二元特征。条件随机场模型利用提取的这些特征，预测出的每个字的类别标记。

最大匹配方法的词典以及有监督的条件随机场模型的训练学习语料都来自本发明人工标注的10万条酒店点评。

步骤3：情感倾向性分析。

将出现维度词词、或情感词的句子作为候选情感句。维度词是指在酒店服务领域的关注的词汇，例如“客房”、“卫生”等词。针对候选情感句，采用LSTM模型，融合丰富的上下文特征，对句子极性进行判别，得到句子的情感倾向性。

在分类任务中，神经网络模型，特别是深度神经网络模型取得了很好的效果。对于给定上下文信息x∈预测类别∈这样的分类问题，其中x表示待判定的样本，在情感倾向性检测任务中对应由分好的词序列构成的候选情感句，X表示样本空间，y表示情感类别，在情感倾向性检测任务中对应情感类别，Y表示类别空间，使用LSTM模型建立条件概率模型P|预测不同情感类别∈并估计其概率。类别包括-1(差评)、0(无情感)、1(好评)三类。

步骤4：特征词抽取。当前的特征词包括停用词、特色词、维度词三类。停用词是指意义不明显的语气词、副词等，如“啊”、“而且”等。特色词是指语义丰富的，具有区分性的词汇，例如“绿油油”、“舒服”等。维度词和步骤三中的表述一致。本发明对每句点评，逐词判断是否为以上三类词汇，并对出现的频次进行计数。

步骤5：四元组打分。本发明使用两种方式进行打分，第一种称之为“相似推断”，是对点评的数据进行近似度的推断计算，将点评进行特色的区分。另外一种方式称之为“积分推断”，是对于每个点评进行积分计算，得到较高值的点评。

对于任何一个点评，将其四元组进行向量表示，记作点评向量

那么对应的两种方法计算如下：

(一)相似推断计算方法：

a)人工选择若干条特色点评，对各点评对应的四元组每个维度加和求平均值，得到特色向量

本发明中，利用了一些筛选条件(句子中含有停用词、特色词和维度词，并且句子的长度在30字以上)，人工选择了100条点评。对此表示有100个向量，依次为

对应计算形成特色向量

b)计算每一点评向量

和特色向量

的距离，距离的计算公式采用余弦距离，具体模型距离Dis计算公式如下：

Dis的距离是0到1之间，距离接近于1时，越相似；距离接近0时，越不相关。

c)将点评向量

的距离进行排序，作为下一步输入。

此方法可以方便地利用向量进行语义的计算，实现简单。并且根据需要，可以设置多组特色向量(代表不同风格的特色点评)，获取不同风格的特色点评。

(二)积分推断计算方法：

第一种方法采取向量之间的距离的度量方式，但是此类的计算量大，并且很难对结果进行解释，不利于分析。本发明采取启发式的策略：对四元组的各项进行积分计算，选取比例或者绝对阈值进行截断得到排名靠前的点评。

具体方法如下：

1、选取候选的四元组，根据点评长度对四元组进行过滤，得备选点评集合S；

本发明中，选取了长度小于100的点评，防止该维度对得分影响过高。

2、对于集合S中的每个四元组对应的点评向量

进行加权求和计算，计算公式如下：

其中，

是为向量

的各个维度的权重值，每一维度的取值范围为[0,1]。本发明中取(0.4,0.2,0.2,-0.1)，还可以根据具体应用加以调整。

3、对所有的得分进行统计，排序，作为下一步的输入。

步骤6：特色片段确定。对于上一步中的候选结果，本发明选取得分最高的前5～10％的特色片段作为输出。

在10万条酒店点评上的实验结果表明，本发明提出的特色点评抽取的方法是有效的。抽取的特色点评有8016条，具体的例子有“门口一条路直走10分钟之内可以到达”、“一进店就被私家花园里的那一池泉水吸引住了”、“Wi-Fi和冰箱里的东西都是免费”等。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种酒店特色点评抽取的方法，其步骤为：

1)获取目标酒店的评论数据；并对所述评论数据进行分词处理；

2)对分词处理后的评论数据进行情感倾向性检测，选取若干有情感的评论数据；

3)对于每一所选评论数据，提取该评论数据中的特征词并记录每一特征词在该评论数据中出现的频率；

4)根据评论数据的长度、评论数据的特征词及其频率，计算该评论数据的特色分值；

5)根据评论数据的特色分值选取若干评论数据作为该目标酒店的特色点评；

其中，计算所述特色分值的方法为：

31)选择若干条特色点评数据，并生成各特色点评数据对应的四元组；

32)对各特色点评数据对应的四元组的每个维度分别加和求平均值，得到一四元组并根据该四元组生成一特色向量

33)根据每一所述评论数据的四元组生成该评论数据的点评向量

然后计算各评论数据的点评向量

与特色向量

的相似度作为对应评论数据的所述特色分值；或者，计算所述特色分值的方法为：

根据评论数据的长度对所述四元组进行过滤，得备选集合S；对于集合S中的每个四元组生成一点评向量

然后对各评论数据的点评向量

的各维度进行加权求和，得到对应评论数据的所述特色分值；其中，所述四元组中的元素包括：停用词的频率、特色词的频率、维度词的频率和评论数据的长度。

2.如权利要求1所述的方法，其特征在于，所述特征词包括停用词、特色词、维度词；根据评论数据的长度、评论数据的特征词及其频率，生成该评论数据的四元组；然后根据评论数据的四元组计算该评论数据的特色分值。

3.如权利要求1所述的方法，其特征在于，利用公式

计算点评向量

与特色向量

的相似度；其中，点评向量

x₁,x₂,x₃,x₄分别为点评向量

对应四元组中四个元素的值；y₁,y₂,y₃,y₄分别为特色向量

对应四元组中四个元素的值。

4.如权利要求1所述的方法，其特征在于，使用了特征词库提取评论数据中的特征词；其中，所述特征词库包括停用词库、特色词库和维度词库。

5.如权利要求1至4任一所述的方法，其特征在于，对所述评论数据进行分词处理的方法为：首先对所述评论数据进行断句；然后采用基于词典的最大匹配分词方法进行分词，针对分词有歧义的部分采用序列标注的分词方法得到正确的分词结果；其中，所述序列标注的分词方法将词的切分问题转换为字的分类问题，根据每个字在词中的不同位置，赋予不同的位置类别标记，基于该类别标记序列确定句子的切分方式。

6.如权利要求1至4任一所述的方法，其特征在于，选取若干有情感的评论数据的方法为：首先选取若干出现维度词或情感词的评论数据作为候选评论数据，然后采用LSTM模型对候选评论数据的极性进行判别，得到候选评论数据的情感倾向性。