CN111080055A

CN111080055A - 酒店评分方法、酒店推荐方法、电子装置和存储介质

Info

Publication number: CN111080055A
Application number: CN201911076089.9A
Authority: CN
Inventors: 邱素容
Original assignee: Individual
Current assignee: Individual
Priority date: 2019-11-06
Filing date: 2019-11-06
Publication date: 2020-04-28

Abstract

本发明公开了一种酒店评分方法、酒店推荐方法、电子装置和存储介质，获取网络上对各个酒店的评价信息，并提取每条评价信息中的属性对象词和评价词。通过语义相似度计算将属性对象词归类到定义好的属性类别中，通过评价信息中的评价词SO‑PMI算法以及KMeans聚类算法将这些评价词聚类为多种情感类别，便于描述每个属性类别中各种情感类别所占的比例，从整体上看出该酒店的某个属性类别的整体评价。通过以上评分方法实现了对网络上的酒店评论自动处理并转换为用户可以直观看到的酒店评分的分值，既满足了用户希望通过网络众多用户的评论来获取对一家酒店的评价的需求，又省去了用户一条条观看众多评价信息的时间，极大便利了用户选择酒店。

Description

酒店评分方法、酒店推荐方法、电子装置和存储介质

技术领域

本发明涉及人工智能技术领域，特别涉及一种酒店评分方法、酒店推荐方法、电子装置和存储介质。

背景技术

现在越来越多的网站会提供用户评论和支持用户在线打分。当用户在购买某商品之后，通过使用商品而获得的感受都可以记录在网站上。比如国内的豆瓣，大众点评网和淘宝都支持用户的评论。当用户在购买一件商品的时候，往往会根据已经购买此商品的用户的评价来大致估计商品的好坏。

人们在选择酒店的时候就会提前在携程等网站翻看相关酒店的评论，这种方法存在的弊端就是，在网络评论中可能会有大量的用户进行了评论，如果要把全部的评论看完，显然会耗费过多的精力。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明提出一种酒店评分方法、酒店推荐方法、电子装置和存储介质，能够自动抓取相关网络平台上的酒店评论，并结合酒店评论对相应的进行打分，将评分高的酒店推荐给用户。

第一方面，本发明实施例提供一种酒店评分方法，包括：

获取酒店的评价信息，提取每条所述评价信息中的属性对象词和评价词；

根据对所述属性对象词进行语义相似度计算的结果，将所述评价信息中的所述属性对象词归类到定义好的属性类别中；

根据SO-PMI算法计算每条所述评价信息的所述评价词的原始情感强度值，将所述原始情感强度值转换成最终情感极性值，根据KMeans聚类算法将同一个酒店的同一属性类别中的所有评价词的最终情感极性值聚成多种情感类别，计算多种情感类别所占的比例；

将多种所述情感类别中的每个所述情感类别均转化为三角模糊数，获取每个所述属性类别的平均三角模糊数；

将同一酒店的每个所述属性类别的平均三角模糊数加权处理后的值相加作为酒店评分的分值。

根据本发明实施例的一种酒店评分方法，至少具有如下有益效果：获取网络上对各个酒店的评价信息，并提取每条评价信息中的属性对象词和评价词。通过语义相似度计算将属性对象词归类到定义好的属性类别中，这些属性类别用于描述一个酒店各项指标，例如美食、服务、价格等。评价词则是用于描述对属性类别的情感，通过评价信息中的评价词SO-PMI算法以及KMeans聚类算法将这些评价词聚类为多种情感类别，便于描述每个属性类别中各种情感类别所占的比例，从整体上看出该酒店的某个属性类别的整体评价。最后，为了将同一个酒店的所有属性类别的整体评价直观的呈现给用户，将每个属性类别进行量化，即转换为三角模糊数，在通过加权计算同一个酒店的所有属性类别的三角模糊数的和得到一个酒店最终的评分。通过以上评分方法实现了对网络上的酒店评论自动处理并转换为用户可以直观看到的酒店评分的分值，既满足了用户希望通过网络众多用户的评论来获取对一家酒店的评价的需求，又省去了用户一条条观看众多评价信息的时间，极大便利了用户选择酒店。

本发明的一个特定实施例中，所述“将所述原始情感强度值转换成最终情感极性值”，还包括以下步骤：

建立副词词典，所述副词词典内的副词对应有相应的副词强度值；

若所述评价信息中出现所述副词词典内的副词，则将原始情感强度值乘以副词强度值转成成最终情感极性值。

第二方面，本发明实施例提供了一种酒店推荐方法，包括以下步骤：

步骤S1：获取用户指令，所述用户指令包括地理信息以及推荐方式信息；

步骤S2：判断所述用户指令是否包含有设定的词语，若是，则执行步骤步骤S3；

步骤S3：判断所述推荐信息方式是否为好评推荐，若是，则执行步骤S4a，若否，则执行步骤S4b；

步骤S4a：判断所述用户指令是否包含被归类到定义好的属性类别中的属性对象词，若是，则执行步骤S5a，若否，则执行步骤S5b；

步骤S4b：根据所述用户指令包含的所述地理信息，将与所述地理信息位置最近的若干家酒店作为推荐信息反馈给用户；

步骤S5a：获取满足设定距离的酒店的评价信息，提取每条所述评价信息中的属性对象词和评价词；

基于蒙特卡洛算法将同一酒店的每个所述属性类别的平均三角模糊数加权处理后的值相加作为酒店评分的分值；

将所述酒店评分的分值最高的前若干家酒店作为推荐信息反馈给用户；

步骤S5b：获取满足设定距离的酒店的评价信息，提取每条所述评价信息中的属性对象词和评价词；

基于Topsis算法将同一酒店的每个所述属性类别的平均三角模糊数加权处理后的值相加作为酒店评分的分值；

将所述酒店评分的分值最高的前若干家酒店作为推荐信息反馈给用户。

根据本发明实施例的一种酒店推荐方法，至少具有如下有益效果：在通过上述的酒店评分方法获取到酒店的各个属性类别的平均三角模糊数之后，本酒店推荐方法根据用户对酒店的进一步需求提供了多种的推荐方式，例如，用户不关注网络评论的情况下，可以直接将距离用户最近距离的酒店推荐给用户；例如，在用户关注网络评论的情况下，根据用户对酒店的七个属性类别中的某几个属性类别的关注度较高，比如，用户在用户指令中比较关注美食，则使用蒙特卡洛算法为每个属性类别的平均三角模糊数赋予权重并最终得到评分，为用户推荐美食这一属性类别评价较好的酒店；例如，在用户关注网络评论的情况下，如果用户并不关注酒店的七个属性类别中的任一个，则采用Topsis算法为每个属性类别的平均三角模糊数赋予权重并最终得到评分。因此，通过本实施例提供的酒店推荐算法，让客户既能基于网络评论获得评分最高的酒店推荐，又可以根据用户对于酒店各个类别属性的关注程度来自动调整推荐的结果，获得更符合用户个性需求的体验。

第三方面，本发明提供一种电子装置，包括：存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现本发明第一方面任一所述的一种酒店评分方法。

第四方面，本发明提供一种电子装置，包括：存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现本发明第一方面任一所述的一种酒店推荐方法。

第五方面，本发明提供一种计算机存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行如本发明第一方面任一项所述的一种酒店评分方法。

第六方面，本发明提供一种计算机存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行如本发明第一方面任一项所述的一种酒店推荐方法。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明第二实施例的评价搭配抽取模块的流程图；

图2为本发明第二实施例中按照评论规则预处理和分句之后的结果示意图；

图3为本发明第二实施例中中文分词和词性标注后的结果示意图；

图4为本发明第二实施例中文本的常用句子模型的表格；

图5为本发明第二实施例中的汉语语法模式表格；

图6为本发明第二实施例中用词性的方法表示汉语语法模式的表格；

图7为本发明第二实施例中隐式属性对象到评价词之间的关系集合表格；

图8为本发明第二实施例中用百度搜索得到结果的效果图；

图9为本发明第二实施例中程度副词和其强度的表格；

图10为本发明第二实施例中基于SO-PMI的情感极性判断算法的整体流程图；

图11为本发明第二实施例中情感类别对应的三角模糊数表格；

图12为本发明第二实施例中部分酒店的平均三角模糊数表格；

图13为本发明第三实施例中的酒店推荐方法的流程图；

图14为本发明第三实施例中的个性化酒店推荐系统的系统框架图；

图15为本发明第一实施例的电子装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，本发明的描述中，若干的含义是一个或者多个，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

下文提供了许多不同的实施方式或例子用来实现本发明的不同方案，值得理解的是，下述描述仅是示例性说明，而不是对发明的具体限制。参照图15所示，为本发明第一实施例提供的一种电子装置100，包括存储器102、处理器101，图15中以一个处理器101和一个存储器102为例。

处理器和存储器可以通过总线或者其他方式连接，图15中以通过总线连接为例。

存储器102作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器102可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器102可选包括相对于处理器远程设置的存储器102，这些远程存储器可以通过网络连接至该电子装置100。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本领域技术人员可以理解，图15中示出的装置结构并不构成对电子装置10 0的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

参照图15所示，为本发明第一实施例的电子装置，在该实施例中，电子装置100中处理器101可以用于调用存储器102中存储的一种酒店评分方法，并执行以下步骤：

基于上述电子装置的硬件结构，提出本发明的酒店评分方法和酒店推荐方法的各个实施例。

本发明第二实施例的酒店评分方法，包括以下步骤：

步骤S100：获取酒店的评价信息，提取每条所述评价信息中的属性对象词和评价词；

步骤S200：根据对所述属性对象词进行语义相似度计算的结果，将所述评价信息中的所述属性对象词归类到定义好的属性类别中；

步骤S300：根据SO-PMI算法计算每条所述评价信息的所述评价词的原始情感强度值，将所述原始情感强度值转换成最终情感极性值，根据KMeans聚类算法将同一个酒店的同一属性类别中的所有评价词的最终情感极性值聚成多种情感类别，计算多种情感类别所占的比例；

步骤S400：将多种所述情感类别中的每个所述情感类别均转化为三角模糊数，获取每个所述属性类别的平均三角模糊数；

步骤S500：将同一酒店的每个所述属性类别的平均三角模糊数加权处理后的值相加作为酒店评分的分值。

本实施例中，提供了评价搭配抽取模块来实现步骤S100，图1是评价搭配抽取模块的流程。评价搭配抽取模块主要是用于对酒店评论抽取出酒店属性对象和相应的评价词。首先利用python网络爬虫在大众点评上爬取酒店评论，然后对语料进行预处理、词性标注、去掉垃圾评论和重复的语句，之后再进行中文分词并利用构建好的语法模型抽取出酒店的属性和评价词，这样就可以得出显式的搭配模式。针对隐式的搭配，系统构建了一个从隐式属性对象到评价词的映射集合的数据库，通过遍历该数据库，能够识别出特定组合的隐式酒店属性。

评价搭配抽取模块是进行评论细粒度分析的一个重要算法模块，所以本实施例中主要阐述这个模块的思路和流程运作。通过英语和中文语句的对比，引入中文语法模型，所以可以有效的提取出评论中的属性对象和评价词，也即是提取出酒店的属性和修饰该属性的评价词语。

首先，需要对网络上获取的评价信息进行预处理，大众点评网上爬取下来的网络评论中，可能会出现一些垃圾评论、重复语句、水军评论和跟酒店无关的评论。如果要对这些语料进行下一步的运用，则首先需要对网络评论进行预处理，来提高后续算法的准确率和时间复杂度。预处理主要是对语料进行去重，然后进行中文分词和去掉垃圾评论，最后再进行词性标注。

在去掉垃圾评论的步骤中，本文制定了相应的识别规则，通过程序识别相应的关键字词，从而可以把隐藏在酒店评论中无用的数据去掉。规则如下：

①在语料中含有关键字keyword，则将该条评论删除。其中keyword的实际词语如下：

keyword＝{联系地址，qq，订餐热线，微信号，手机号码……}

此规则主要是防止广告评论掺杂在评论中。

②在评论中含有“？”这种疑问符号结尾的句子中，在通常的环境下并不是评论，当程序遇到此疑问符号时，也要把该条评论删除。

通过上面的规则，既可以基本的把垃圾评论过滤掉。但为了要利用java程序调用工具来进行后续的中文分词和词性标注，则要把网络评论分句。即把“。”、“！”等作为分隔符，对评论进行分割，这样每一个句子就占据一行，从而获得新数据集。进行了这些步骤，评论处理变成如图2所示，图2为按照评论规则预处理和分句之后的结果。

要进行中文分词和词性标注，本实施例考虑到所使用的编程语言为java，而恰好中科院分词工具集成了jar包，开发者能够通过调用jar包来对评论进行分词和词性标注。中科院分词工具在各类中文分词大赛上都取得很好的成绩，这凸显了其分词的可靠性，所以本实施例利用中科院分词工具对酒店评论进行分词和词性标注并从人为的观察上判断得到了比较好的结果。中文分词和词性标注后其结果如图3所示，图3为中文分词和词性标注后的结果。

进行预处理之后，需要构建评价搭配模型，评价搭配模型是用来分析预处理之后的语料。酒店评论中通常会包含酒店的属性对象和评价词。酒店的属性对象简单来说就是酒店的具体各个方面，比如酒店的地理位置，环境，设施，价格和美食等等，这些属性名词都是可以描述酒店的具体特征的。而评价词就是用来修饰属性对象的词语，包含了评论人对酒店某一个特征的情感。例如“酒店的价格”是属性对象，“便宜”代表评价词，这就说明写评论的人对于酒店的价格是持有好感的。根据这一个关系，本文根据特定的语法模型，就可以抽取出属性对象和评价词，然后进行情感倾向的分析。

本实施例中，还需要分选属性对象词和评价词的关系，过对大量的酒店网络评论进行分析，评论者在运用中文对酒店进行评论时，其评论会包含特定的汉语言语法规律。下面给出典型的一些例子：

酒店评论1：酒店的价格挺便宜的

酒店评论2：地理环境不错

酒店评论3：酒店拥有很干净的客房

根据汉语言的构造规律不难发现，属性对象的词语都是名词，稍微复杂一点的会在名词后面加上名词，构成名词性短语。例如上面评论中“价格”和“客房”等简短的词语是名词(\n)，而“地理环境”则属于“地理”加“环境”的名词性短语。通过对评价词进行分析，评价词通常是由形容词构成的，如上面例子中的“便宜”，“不错”和“干净”。特别地，这些评价词通常在酒店评论中附上了个人的感情色彩。

在自然语言处理中，情感倾向问题的研究受到评论句子是主观句还是客观句的影响。主观句具体而言就是描述一件事物并且带上相应的情感，这样的评论句子对于分析评论者的情感是十分重要的。但是客观句只是简单直白的描述一件事实，并没有带上客观评论者的情感，例如“准备出发去酒店”这个例子只是介绍了发生的一件事，并没有相应的评价词。由于研究客观句比较复杂，故本文在此只讨论主观句的情感极性。

国外，许多学者根据已有的研究理论和英语语法的模型，已经形成了比较成熟的英文文本情感分析常用句子模型，如图4所示，图4为文本中常用句子模型。可以根据图4中的句子模型作为参考，从而形成汉语语法模式。

在研究汉语语法的过程当中，英语和汉语毕竟有很大的不同点。比如，英语通常的语法顺序都是把地点时间放在句子后面，而汉语的语法顺序把地点时间放在句子的前面。通过对大量的酒店网络评论进一步分析，结合已有的汉语语法词典和相关的文献，根据本实施例中对酒店评论的基本分析结果，总结出如图5 中所示的汉语语法模式(图5中只是列出了常见的5种模型)。

根据这些基本的语法规则，就可以识别出特定模式的句子。由于中科院分词工具已经提前把语料进行词性标注，所以可以把汉语语法模式转变成利用词性表示的方法，如图6所示，图6的表格中用词性的方法表示汉语语法模式。图6 中括号表示该模式的扩展形式，当句子中存在扩展形式时，则立刻抽取这个词性语法模式，如果没有存在扩展形式时，则抽取括号外的模式。下面是一个典型的例子：

房间\n空间\n非常\d大\adj

这个例子的模式属于上表中的n+n+d+adj，这是n+d+adj的扩展模式，所以只抽取扩展模式，即属性对象为“房间空间”，评价词为“大”。

上面讨论的汉语语法模式是针对显式属性对象和评价词来的，但是网络评论中往往存在一定数量的隐式评论。所谓的隐式评论就是说在识别文本情感时不能识别相应的属性词语对象，只有显示的评价词描述整一个文本来单独表达评论者的情感。这些评论利用机器学习的算法来识别，准确率也不高，有鉴于此，本文根据大量的酒店网络评论来统计，建立隐式属性对象的抽取规则。因为一些评价词指向性很明确，当看到这些评价词之后，就会立刻想到其所要评价的属性对象。例如句子“很干净”，显然“干净”是评价了“房间”，所以此时的“房间”就是隐式属性对象。根据这一点，本实施例建立了隐式映射数据库来存放这些集合，当句子中识别不出属性对象而又有评价词时，就可以根据数据库表来识别出隐式属性对象。建立相应的映射数据库步骤如下：

①对语料进行预处理之后，用java程序识别出上面所提到的汉语语法模式，并做上记号。

②把没有识别出来的句子抽取出来，统计相应的评价词。根据指向性明确的评价词建立隐式属性对象到评价词之间的关系集合，最后把集合存储在数据库中。

隐式属性对象到评价词之间的一一对应的关系如图7所示，图7为隐式属性对象到评价词之间的关系集合。

根据上面介绍的预处理，汉语语法模式和隐式属性对象，构成了评价搭配抽取模型的四个主要步骤。评价搭配抽取模型的整个过程如下：

①网络爬虫。本系统利用python语言自主编写了网络爬虫工具，对大众点评网(https://www.dianping.com/)上的评论进行爬取，每个酒店的评论存放在同一个txt文件中，共计89个酒店，评论数大约有200000条。

②语料预处理。对于网络爬虫爬取到的评论进行去重，分句和去掉垃圾评论。然后利用java调用中科院分词工具jar包，对爬取的网络评论进行中文分词从而把句子变成独立的每个词语的组合，然后再进行词性标注。

③显式属性对象的抽取。利用java语言编写汉语语法模型的规则，共计9 个规则。然后把每句评论存放到数组中，与规则进行一一匹配，如果符合规则的模式，则抽取出属性对象和评价词。对于模式中最后两条规则没有名词的情况，则搜索规则左边最靠近的名词，把这个名词当作属性对象抽取出来。

④隐式属性对象的抽取。针对汉语语法模式中最后两条规则，假设规则的左边没有名词，则自动属于隐式的情况。此时搜索数据库中建立好的关系集合，就可以抽取出隐式属性对象和相应的评价词。

本实施例中，提供了语义相似度模块来实现步骤S200，语义相似度模块主要是把上面提到的模块中提取出来的酒店评论中的属性对象词语进行语义相似度计算，从而把多个属性对象归类成定义好的七个大属性类别中。这样归类之后，在同一类别中进行情感倾向的分析，就可以知道该酒店的这个大属性类别中评价好和差的比例各占多少。在本实施例中，主要利用了夏天对汉语词语的研究，得到的基于知网义原的语义相似度值。然后根据引入的根属性对象，把一些不同的词语用一个比较高度抽象的词语进行概括。例如“早餐”和“咖啡”描述的是酒店“美食”特征，“浴缸”和“吹风机”描述的是酒店“客房设施”的特征。本实施例观察了大众点评网(https://www.dianping.com/)和携程网 (http://www.ctrip.com/)上的酒店评论，总结出了通用的酒店根属性词语：美食、通用设施、服务、客房、活动设施、地理环境、价格。

语义相似度计算过程如下：

①构建语义相似度种子词典。建立了7个根属性词语的种子词典：美食、通用设施、服务、客房、活动设施、地理环境和价格。并在每个种子词典中添加具体的词语。如美食种子词典中添加了蛋糕、食物、早茶、酒等词语。

②待分类的属性对象词语与种子词典中的所有词语做相似度计算而得到多个计算值。在一个种子词典中待测词语会跟里面的词语进行相似度计算，所以会出现多个语义相似度的结果值，记为Dic_n(sim₁,sim₂,...,sim_k)。其中Dic_n为第n 个种子词典，sim_k为第n个种子词典中的第k个语义相似度的结果。

③当待测词语在一个种子词典中进行计算时，如果有出现语义相似度为1 时，则直接判断该待测词语属于该分类。

④如果没有出现语义相似度为1的结果，则在Dic_n(sim₁,sim₂,...,sim_k)中把 sim从大到小进行排列，取前p个相似度进行相加，然后再归一化，记为

(其中p为实验中验证出来的数值)

⑤比较

中的大小，取其中的最大值，并且这个值大于所设定的阈值threshold，则把待测词语归类成该类。如果这个值小于阈值，说明待测词语不属于所定义的7个类别，则删除。

本实施例中，提供了情感倾向判断算法来执行步骤S300，在本情感倾向判断算法中，首先根据hownet情感词典建立酒店的正负情感极性种子词典，接着利用改进后的SO-PMI(点对互信息)计算出抽取出来的评论词的原始情感强度值。接着通过建立程度副词并赋上一定的强度大小值，找出酒店评论中修饰评价词的程度副词，利用一定的方法，将SO-PMI计算出来的原始情感极性强度进行放大或者缩小，这样就得到酒店评论中评价词的最终情感极性值。接着利用weka 中的kmeans算法对得到的最终情感极性值进行聚类，聚成简单的五种情感类别“很好，好，一般，差，很差”，计算五种情感类别所占的比例，从而更好的为用户提供一个直接的情感好坏的结果。

通过评价搭配抽取模块和语义相似度模块之后，已经抽取出属性对象和评价词，和把具体的属性对象词进行归类整理成7个根属性对象词语。要让用户去了解评论句子中的情感倾向性，就要通过一定的算法识别出来，而本实施例就是利用SO-PMI算法去识别出评价词的情感极性。并通过聚类算法把这种情感倾向性无监督地分类成更加细致的五种情感类别。

具体地，可以引入点对互信息PMI来判断两个词语的语义和所表达的意思是否是相似的，这样只要事先定义好已知情感极性的词语，然后再用新的待测的词语与已知情感的词语进行计算，从而可以让机器识别出待测词语的情感。

PMI公式如下所示：

其中word₁和word₂是两个词语，p(word₁&word₂)为word₁和word₂在一个数据库中共同出现的概率。当两个待计算的词语的情感越接近的时候(也即是同义词)，PMI的值也就越大。当在一个数据量比较大型的数据库中计算时，上述公式中的概率模型可以化简，Hits代表一个词语在数据库中出现的次数，则变成如下公式所示：

要通过上述公式去计算一个待测的评价词的情感极性，必须分别比较待测词和已知的两类情感词语的相似度。首先要建立相应的正面极性情感种子词典和负面极性情感种子词典，通过待测词语和两类已知情感词语的计算，可得下面公式：

其中pword代表的是已知的正面极性的情感种子词语，nword代表的是已知的负面极性的情感种子词语。这样当SO-PMI(点对互信息)的值大于0时，则证明待测词语为正面极性；当SO-PMI(点对互信息)的值小于0时，证明待测词语为负面极性。其中Hits的计算用的是百度搜索网页数来计算，利用程序调用百度搜索，把待测词和种子词一起搜索，利用网页抓取的方法可以获得百度网页中的搜索数Hits。例如把词语“可爱”和“干净”进行百度搜索，得到的网页图片如8所示，利用网页规则抓取出结果数为7110000的百度搜索数。

本发明的一个实施例中，通过SO-PMI算法计算出来的极性值是比较原始的情感极性值，考虑到在评价搭配抽取模型中抽取出来的模式是有程度副词的，而副词的作用对于情感极性值的影响是很重要的。例如一个句子为“酒店的客房干净”是评价酒店客房的句子，其表达的是正面情感；但是当句子为“酒店的客房不干净”其表达的是负面的情感。可见副词有可能会对翻转句子的情感极性，所以不得不考虑副词的重要性。利用hownet建立了相应的副词词典，并附上相应的副词强度值，如图9所示，图9展示了程度副词和其强度。通过分析原有SO-PMI (点对互信息)算法的局限性，提出了改进后的SO-PMI算法，利用了高频词语和情感强度较大的词语作为种子词，使算法更适合实际的商业应用。

如图10所示，图10是基于SO-PMI的情感极性判断算法的整体流程图。当抽取到的句子中出现了程度副词，则SO-PMI计算出来的极性值要乘以其程度副词的强度值，因此可以得到评论的最终情感极性。

本实施例中，采用KMeans聚类算法来实现步骤S300，在上面的介绍中已经把评价词通过SO-PMI(点对互信息)算法计算成正负情感强度值。但是这样用户仅仅只是知道某一句评论针对某个酒店属性是好是坏，而无法知道某个酒店属性的整体评价，所以本文利用KMeans聚类算法对SO-PMI计算出的酒店评价词的极性值进行聚类，从而得到五种情感类别。

KMeans是机器学习中比较著名的算法之一，它是属于无监督算法。就是说训练的数据事先不知道类标签，最后利用算法把比较接近的数据归类成同一个簇的方法。在相同一个簇中的数据彼此挨得很近也可以说其相似度很高，不同簇间的数据具有差异性。算法一开始随机生成点作为簇中心，然后计算每一个数据到每个簇中心的距离，设定一定的阈值。当某个数据到某个簇中心的距离(可以是范数也可以是欧式距离)小于这个阈值时，则把该数据分类到这个簇中。当所有的数据点都分类完成得到多个类别时，每个簇的中心点会重新计算。然后进行新一轮的距离计算过程，直到这个重复的过程满足设定好的收敛条件才结束算法。

KMeans对极性值进行聚类的流程如下：

①把同一个根属性对象的评论句子归类成同一个文件。

②对同一个根属性对象的评论句子进行聚类，聚类成“很好(very good)，好(good)，一般(common)，差(bad)，很差(very bad)”五种类别。

③计算聚类成的五个簇的平均极性值，然后把从高到低的极性值分别定义为很好，好，一般，差，很差”。

④统计每一种情感类别所占的比例，并存入相应的数据库中。

本实施例中，引入三角模糊数实现步骤S400。为了比较不同酒店的好坏程度来对用户进行推荐，在这里用到三角模糊数的定义。本实施例中已经得到每个酒店每一个属性的五种情感类别，分别是“很好，好，一般，差，很差”这五种情感各自所占的比例。因为这聚类的结果是非数值的，所以需要把这些具体的情感词语转化成三角模糊数，从而利用后面算法通过属性的好坏来计算出每一个酒店的评分，进而进行排序推荐。

如图11所示，图11是情感类别对应的三角模糊数，每一个情感类别的三角模糊数都是有具体的映射值的。

记

为三角模糊数，应用C-OWA算子，转化公式为：

f_p((a^L,a^M,a^U))＝((1-λ)a^L+2a^M+λa^U)/3

其中λ为决策者的风险态度，为0.5时是中立。本实施例取0.5来计算。则通过上面的式子可以把五种情感转换为数值计算。在获得每个情感类别的三角模糊数后，获取每个属性类别的平均三角模糊数。计算每个属性类别的平均三角模糊数的方法是，计算同一个属性类别中的所有情感类别的总数量以及每种情感类别的数量，将每种情感类别的数量与所有情感类别的总数量之比作为该种情感类别的系数，则每个属性类别的平均三角模糊数为该属性类别中的所有情感类别的模糊数乘以各自相应的系数之和。现有如果一个属性类别中的情感类别以很好占大多数比例，例如“美食”这一属性类别的情感类别为“很好”的占比高达九成，则通过计算“美食”这一属性类别的平均三角模糊数来体现该酒店的“美食”的评价具有代表性。这样就可以得到酒店7种属性类别的平均三角模糊数，图12示出了部分数据。可知，每个属性类别的平均三角模糊数越高，则好评度越高。显然，将7个属性类别的平均三角模糊数加起来得到的数越高，则好评度越高。

为了兼顾到不同用户的个性需求，例如，不同用户对这7个属性类别的关注度是不一样的，例如有些用户只要求一个酒店的“美食”这一属性类别评价好，而并不关心其他例如“价格”的属性类别的影响。这个时候，我们需要针对用户关注的某个属性类别，放大其权重，来增加该属性类别的平均三角模糊数在7 个属性类别的平均三角模糊数的求和中的影响力，从而选择出最符合客户个性需求的评分结果。例如，客户对于这几个属性类别并不关注，可以认为该客户只要求综合评分最高，则将每个属性类别的权值设置为相同。

参照图13所示，为本发明第三实施例的一种酒店推荐方法的流程图，本实施例中的酒店推荐方法，包括以下步骤：

参照图14所示，为本实施例提供的个性化酒店推荐系统的系统框架图，该个性化酒店推荐系统用于执行上述的酒店推荐方法，该个性化酒店推荐系统包含上述第二实施例中的评价搭配抽取模块、语义相似度模块、情感倾向判断算法，并且增设了多属性决策算法。

本实施例中，用户指令可以通过语音输入或者文字输入的方式获取，用户可以使用语音输入方法和文字输入方法对附近的酒店进行搜索。对于文字输入来说，可以使用距离搜索和好评推荐搜索。对于语音输入方法来说，可以根据用户说出的关键字词进行搜索。在前端界面中，用户语音输入比较关心的酒店属性，而这个酒店的属性是本文已定义某一个属性，也可以是多个属性，语音输入结束后，手机app会自动的把数据传递到后台程序当中。后台程序读取评论进行分析，通过评价搭配抽取模块，语义相似度模块，情感倾向判断算法和多属性决策算法推荐出相应的酒店排序，然后把数据返回到前端进行显示，这样就完成了一个数据输入和输出的过程。而在app显示界面中，用户可以点击某个具体的酒店，这样可以知道酒店的地理位置信息，各种酒店属性具体的综合结果等。

数据库的作用主要用来存储后台算法计算出来的数据，当前端要求显示相应的数据时，可以立刻从数据库中读取相应的数据，这样就可以提升整个系统的反应时间，增强用户使用本系统的体验感。通过统计粗略的运算结果表示，500条酒店评论在语义相似度模块中计算所耗费的时间大约半个小时，所以如果每一次用户点击搜索按钮查询酒店时，后台算法重新计算一遍，那浪费的时间将无法估计。有鉴于此，设计相应的数据库正是为了解决时间上的问题。通过事先计算好结果并把数据存放到数据库中，可以大大降低所耗费时间的数量级。

本实施例中，采用了了经济领域上的两个主要的多属性决策算法，分别是 topsis算法和Monte Carlo(蒙特卡洛)算法。针对topsis算法而言，7个根属性对象词语的赋值权重都是一样的，通过把聚类的结果变成三角模糊数从而可以计算每一个酒店的评分，然后进行推荐。而Monte Carlo算法是根据用户的自主选择某个感兴趣的属性，然后通过概率对属性对象赋值不同的权重，加权求和后推荐出比较个性化的结果。

例如，在用户没有明确表示关心哪一种属性对象词语时，则说明评论中酒店的7种根属性对象的重要程度来说，其权重值是一样的，在加权处理时，设权值为1。Topsis算法通常运用在拥有多个属性对象的数据，从而进行综合评价和推荐的。

当用户的选择具有明显的偏向性质时，则要利用蒙特卡洛算法来计算酒店的推荐排序。比如某用户首先关注的是酒店价格方面，那我们把“价格”记为1；然后关注的是酒店通用设施方面，那我们把“通用设施”记为2，以此类推。这样在进行加权运算时，把首先看重的属性的加权值赋值得高一些，而次要关注的属性的加权值赋值得低一些。这样就比较符合用户的需求。但是要如何确定加权值的大小，这就要涉及到接下来所介绍的Monte Carlo算法。

①从数据库表comment_attribute_value中导入酒店属性对象的三角模糊数。

转化成模糊数矩阵形式，记为

②利用Monte Carlo算法确定权重值。假设7个属性对象的关注程度为 x₁>x₂>...>x₇，则相应的权重值为w₁>w₂>...>w₇。在区间[0,1]之间随机产生权重w₁，然后再[1,w₁]中产生w₂。以此类推，最后可以得到7个权重值。

③进行加权处理。把三角模糊数和权值进行相乘，然后把同一酒店的7个加权之后的值进行相加。

④把步骤②和③重复k次，最后统计每一个酒店的得分值，得分从大到小排列，酒店得分高的优先推荐给给用户。

本发明的一个实施例中提供了一种电子装置，包括：存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现本发明第一方面任一所述的一种酒店评分方法。

本发明的一个实施例中提供了一种电子装置，包括：存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现本发明第一方面任一所述的一种酒店推荐方法。

本发明的一个实施例中提供了一种计算机存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行如本发明第一方面任一项所述的一种酒店评分方法。

本发明的一个实施例中提供了一种计算机存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行如本发明第一方面任一项所述的一种酒店推荐方法。

上面结合附图对本发明实施例作了详细说明，但是本发明不限于上述实施例，在所述技术领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种酒店评分方法，其特征在于，包括：

2.根据权利要求1所述的一种酒店评分方法，其特征在于，所述“将所述原始情感强度值转换成最终情感极性值”，还包括以下步骤：

3.一种酒店推荐方法，其特征在于，包括以下步骤：

4.一种电子装置，包括：存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序，其特征在于：所述处理器执行所述程序时实现如权利要求1至2中任一项所述的一种酒店评分方法。

5.一种电子装置，包括：存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序，其特征在于：所述处理器执行所述程序时实现如权利要求3所述的一种酒店推荐方法。

6.计算机可读存储介质，存储有计算机可执行指令，其特征在于：所述计算机可执行指令用于执行如权利要求1至2中任一项所述的一种酒店评分方法。

7.计算机可读存储介质，存储有计算机可执行指令，其特征在于：所述计算机可执行指令用于执行如权利要求3所述的一种酒店推荐方法。