CN107122471B - 一种酒店特色点评抽取的方法 - Google Patents
一种酒店特色点评抽取的方法 Download PDFInfo
- Publication number
- CN107122471B CN107122471B CN201710301052.6A CN201710301052A CN107122471B CN 107122471 B CN107122471 B CN 107122471B CN 201710301052 A CN201710301052 A CN 201710301052A CN 107122471 B CN107122471 B CN 107122471B
- Authority
- CN
- China
- Prior art keywords
- comment data
- comment
- words
- characteristic
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title abstract description 7
- 238000000034 method Methods 0.000 claims abstract description 38
- 230000011218 segmentation Effects 0.000 claims abstract description 35
- 230000008451 emotion Effects 0.000 claims abstract description 27
- 238000012545 processing Methods 0.000 claims abstract description 6
- 238000001514 detection method Methods 0.000 claims abstract description 5
- 239000013598 vector Substances 0.000 claims description 24
- 238000002372 labelling Methods 0.000 claims description 5
- 238000012935 Averaging Methods 0.000 claims description 2
- 238000001914 filtration Methods 0.000 claims description 2
- 239000004576 sand Substances 0.000 claims description 2
- 239000000284 extract Substances 0.000 abstract description 2
- 238000010801 machine learning Methods 0.000 abstract description 2
- 238000007619 statistical method Methods 0.000 abstract description 2
- 238000004364 calculation method Methods 0.000 description 11
- 238000004458 analytical method Methods 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 230000002996 emotional effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000007418 data mining Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/12—Hotels or restaurants
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Probability & Statistics with Applications (AREA)
- Tourism & Hospitality (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Fuzzy Systems (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Primary Health Care (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种酒店特色点评抽取的方法。本方法为:1)获取目标酒店的评论数据;并对所述评论数据进行分词处理;2)对分词处理后的评论数据进行情感倾向性检测,选取若干有情感的评论数据;3)对于每一所选评论数据,提取该评论数据中的特征词并记录每一特征词在该评论数据中出现的频率;4)根据评论数据的长度、评论数据的特征词及其频率,计算该评论数据的特色分值;5)根据评论数据的特色分值选取若干评论数据作为该目标酒店的特色点评。本发明基于语料库的统计方法或机器学习方法,自动地从点评数据中抽取相应的点评片段,得到高质量的新颖的点评。
Description
技术领域
本发明属于信息技术、数据挖掘技术领域,具体涉及一种基于酒店数据的特色点评抽取的方法。
背景技术
随着电子商务的迅猛发展,越来越多的用户乐于在互联网上分享自己的观点或体验,互联网上的点评不仅影响用户的选择而且无形中也对品牌产生深刻的影响。现在每一家面向个人消费者的公司和商家,都意识到社交网络上评论的强大。点评可以制造社交网络热点,好的评论能直接提升销售和美誉度;差评则有可能造成难以挽回的损失。
以酒店业为例,酒店希望借助技术手段获取用户的点评反馈,用于指导酒店的品牌管理和运营管理,提升品牌形象和服务质量。用户希望查看其他用户的点评,特别是高质量的有特色的点评,可以明确酒店的优点和缺点,令用户能印象深刻,以此作为预订的重要参考。
如何发现点评中的高质量点评,特别是能从点评中找到有特色的新颖的点评,是一个重要的需求。如果在整段的点评中,找到类似“隔一条马路就是免费海滩”、“最大的特色是酒店有个小花园”之类的有比较丰富的细节信息的特色点评。目前纯人工整理和标注特色点评,规模是不够的,效率也非常低。
发明内容
针对现有技术中存在的技术问题,本发明的目的在于提供一种酒店特色点评抽取的方法。本发明是基于语料库的统计方法或机器学习方法,自动地从点评数据中抽取相应的点评片段,得到高质量的新颖的点评。
本发明采用的技术方案如下:
一种酒店特色点评的抽取方法,包括如下步骤:
1、确定目标酒店,并获取目标酒店的评论数据;
2、对所述评论数据进行分词等预处理;
3、对预处理后的评论数据进行情感倾向性检测;
4、选取有情感的评论,在评论中提取特征词(包括停用词、特色词、维度词)并记录每个特征词在该评论中对应的频率;
5、选取的每个评论用(停用词个数,特色词个数,维度词个数,评论长度)四元组进行表示,计算特色分值。
6、选择最高得分四元组对应的评论,作为特色点评输出。
进一步地,步骤1)通过聚焦爬虫从点评网站获取在线点评数据。
进一步地,步骤2)首先根据“。”、“!”、“?”3个标点符号进行断句。然后采用基于词典的最大匹配分词方法进行分词,针对分词有歧义的部分采用序列标注的分词方法得到正确的分词结果;所述序列标注的分词方法将词的切分问题转换为字的分类问题,每个字根据其在词中的不同位置,赋予不同的位置类别标记,基于这样的标记序列确定句子的切分方式。
进一步地,步骤3)将出现维度词情感词的评论数据作为候选评论数据,采用LSTM(Long-short Term Memory)模型对候选评论数据的极性进行判别,得到候选评论数据的情感倾向性,所述情感类别包括-1、0、1三类,分别表示差评、无情感、好评,将差评和好评的评论数据作为有情感的评论数据。
进一步地,步骤4),使用了特征词库(包括停用词库、特色词库和维度词库),进行对比查找,确定出评论中的特征词并计算每一特征词对应的频次。
进一步地,步骤5)所述得分最高的部分模版是得分最高的前10~20%的点评。
与现有技术相比,本发明的积极效果为:
与纯人工收集选择的方式相比,本发明采用的方法效率高,可以在较短时间内分析得到某酒店的特色点评。
附图说明
图1是本发明的特色点评抽取方法的步骤流程图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面通过具体实施例和附图,对本发明做进一步说明。
本发明是对酒店数据中特色点评的抽取方法,用于挖掘点评中的用户特色点评。此类点评具有点评用语生动,细节描述丰富,描述内容和酒店贴切等性质。本发明首先通过聚焦爬虫从各大主流点评网站获取在线点评数据。然后对点评中的句子进行分词等处理,在此基础上提取特征词和情感倾向等。最后,通过组成四元组,对各个点评进行分析打分,选择最有特色的点评片段。
图1是本发明方法的步骤流程图,下面是具体的实施步骤:
步骤1:数据准备。通过聚焦爬虫从携程等主流点评网站获取在线点评数据。
步骤2:点评分词。中文分词是中文自然语言处理的基础步骤,本发明分词采用词典分词和统计分词融合的方法。首先采用基于词典的最大匹配分词方法,针对分词有歧义的部分再采用序列标注的分词方法。
基于词典的最大匹配分词方法,给定词典,对于待分词的汉字序列,依次寻找匹配的最长词典词,无匹配者则作为单字词处理,直至该汉字序列处理完毕。按照对汉字序列扫描方向的不同,该方法又可以分为:正向最大匹配(从左向右匹配)和逆向最大匹配(从右向左匹配)。例如,对于序列“当原子结合成分子时”,正向最大匹配结果为“当|原子|结合|成|分子|时”,而逆向最大匹配结果为“当|原子|结合|成分|子时”。
显然,正向最大匹配和逆向最大匹配都不能很好地处理切分歧义问题。正向最大匹配和逆向最大匹配也可以结合形成双向最大匹配,双向匹配时正向和逆向匹配不一致的地方,往往是潜在歧义的地方。有歧义往往需要根据具体上下文确认分词结果。有监督的序列标注方法能够充分的挖掘上下文的丰富特征,因此有歧义的情况下本发明引入序列标注方法消除歧义。该方法将词的切分问题转换为字的分类问题,每个字根据其在词中的不同位置,赋予不同的位置类别标记,比如词首、词中、词尾和单字词。基于这样的标记序列,很容易确定句子的切分方式。其中,B(Begin)、M(Middle)、E(End)、S(Single)分别表示词首、词中、词尾、单字词。有了字的标记序列,符合正则表达式“S”或“B(M)*E”的字序列表示一个词,从而很容易地完成句子切分。为了实现序列标注任务,本发明采用条件随机场模型(Conditional Random Fields,CRF),该模型在自然语言处理中得到广泛应用,并取得了很大成功。具体特征包括:前一个字、当前字、后一个字、前一个字与当前字、当前字与后一个字,以及基于这些一元特征的二元特征。条件随机场模型利用提取的这些特征,预测出的每个字的类别标记。
最大匹配方法的词典以及有监督的条件随机场模型的训练学习语料都来自本发明人工标注的10万条酒店点评。
步骤3:情感倾向性分析。
将出现维度词词、或情感词的句子作为候选情感句。维度词是指在酒店服务领域的关注的词汇,例如“客房”、“卫生”等词。针对候选情感句,采用LSTM模型,融合丰富的上下文特征,对句子极性进行判别,得到句子的情感倾向性。
在分类任务中,神经网络模型,特别是深度神经网络模型取得了很好的效果。对于给定上下文信息x∈预测类别∈这样的分类问题,其中x表示待判定的样本,在情感倾向性检测任务中对应由分好的词序列构成的候选情感句,X表示样本空间,y表示情感类别,在情感倾向性检测任务中对应情感类别,Y表示类别空间,使用LSTM模型建立条件概率模型P|预测不同情感类别∈并估计其概率。类别包括-1(差评)、0(无情感)、1(好评)三类。
步骤4:特征词抽取。当前的特征词包括停用词、特色词、维度词三类。停用词是指意义不明显的语气词、副词等,如“啊”、“而且”等。特色词是指语义丰富的,具有区分性的词汇,例如“绿油油”、“舒服”等。维度词和步骤三中的表述一致。本发明对每句点评,逐词判断是否为以上三类词汇,并对出现的频次进行计数。
步骤5:四元组打分。本发明使用两种方式进行打分,第一种称之为“相似推断”,是对点评的数据进行近似度的推断计算,将点评进行特色的区分。另外一种方式称之为“积分推断”,是对于每个点评进行积分计算,得到较高值的点评。
(一)相似推断计算方法:
a)人工选择若干条特色点评,对各点评对应的四元组每个维度加和求平均值,得到特色向量本发明中,利用了一些筛选条件(句子中含有停用词、特色词和维度词,并且句子的长度在30字以上),人工选择了100条点评。对此表示有100个向量,依次为对应计算形成特色向量
Dis的距离是0到1之间,距离接近于1时,越相似;距离接近0时,越不相关。
此方法可以方便地利用向量进行语义的计算,实现简单。并且根据需要,可以设置多组特色向量(代表不同风格的特色点评),获取不同风格的特色点评。
(二)积分推断计算方法:
第一种方法采取向量之间的距离的度量方式,但是此类的计算量大,并且很难对结果进行解释,不利于分析。本发明采取启发式的策略:对四元组的各项进行积分计算,选取比例或者绝对阈值进行截断得到排名靠前的点评。
具体方法如下:
1、选取候选的四元组,根据点评长度对四元组进行过滤,得备选点评集合S;
本发明中,选取了长度小于100的点评,防止该维度对得分影响过高。
3、对所有的得分进行统计,排序,作为下一步的输入。
步骤6:特色片段确定。对于上一步中的候选结果,本发明选取得分最高的前5~10%的特色片段作为输出。
在10万条酒店点评上的实验结果表明,本发明提出的特色点评抽取的方法是有效的。抽取的特色点评有8016条,具体的例子有“门口一条路直走10分钟之内可以到达”、“一进店就被私家花园里的那一池泉水吸引住了”、“Wi-Fi和冰箱里的东西都是免费”等。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求书所述为准。
Claims (6)
1.一种酒店特色点评抽取的方法,其步骤为:
1)获取目标酒店的评论数据;并对所述评论数据进行分词处理;
2)对分词处理后的评论数据进行情感倾向性检测,选取若干有情感的评论数据;
3)对于每一所选评论数据,提取该评论数据中的特征词并记录每一特征词在该评论数据中出现的频率;
4)根据评论数据的长度、评论数据的特征词及其频率,计算该评论数据的特色分值;
5)根据评论数据的特色分值选取若干评论数据作为该目标酒店的特色点评;
其中,计算所述特色分值的方法为:
31)选择若干条特色点评数据,并生成各特色点评数据对应的四元组;
2.如权利要求1所述的方法,其特征在于,所述特征词包括停用词、特色词、维度词;根据评论数据的长度、评论数据的特征词及其频率,生成该评论数据的四元组;然后根据评论数据的四元组计算该评论数据的特色分值。
4.如权利要求1所述的方法,其特征在于,使用了特征词库提取评论数据中的特征词;其中,所述特征词库包括停用词库、特色词库和维度词库。
5.如权利要求1至4任一所述的方法,其特征在于,对所述评论数据进行分词处理的方法为:首先对所述评论数据进行断句;然后采用基于词典的最大匹配分词方法进行分词,针对分词有歧义的部分采用序列标注的分词方法得到正确的分词结果;其中,所述序列标注的分词方法将词的切分问题转换为字的分类问题,根据每个字在词中的不同位置,赋予不同的位置类别标记,基于该类别标记序列确定句子的切分方式。
6.如权利要求1至4任一所述的方法,其特征在于,选取若干有情感的评论数据的方法为:首先选取若干出现维度词或情感词的评论数据作为候选评论数据,然后采用LSTM模型对候选评论数据的极性进行判别,得到候选评论数据的情感倾向性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710301052.6A CN107122471B (zh) | 2017-05-02 | 2017-05-02 | 一种酒店特色点评抽取的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710301052.6A CN107122471B (zh) | 2017-05-02 | 2017-05-02 | 一种酒店特色点评抽取的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107122471A CN107122471A (zh) | 2017-09-01 |
CN107122471B true CN107122471B (zh) | 2020-07-10 |
Family
ID=59726867
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710301052.6A Active CN107122471B (zh) | 2017-05-02 | 2017-05-02 | 一种酒店特色点评抽取的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107122471B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108170685B (zh) * | 2018-01-29 | 2021-10-29 | 浙江省公众信息产业有限公司 | 文本情感分析方法、装置和计算机可读存储介质 |
CN111882766A (zh) * | 2020-07-24 | 2020-11-03 | 南宁职业技术学院 | 一种智能酒店自助入住终端 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104484343B (zh) * | 2014-11-26 | 2017-11-03 | 无锡清华信息科学与技术国家实验室物联网技术中心 | 一种对微博进行主题发现与追踪的方法 |
CN104965823A (zh) * | 2015-07-30 | 2015-10-07 | 成都鼎智汇科技有限公司 | 一种基于大数据的观点抽取方法 |
CN106407235B (zh) * | 2015-08-03 | 2019-06-11 | 北京众荟信息技术股份有限公司 | 一种基于点评数据的语义词典构建方法 |
CN105243129B (zh) * | 2015-09-30 | 2018-10-30 | 清华大学深圳研究生院 | 商品属性特征词聚类方法 |
-
2017
- 2017-05-02 CN CN201710301052.6A patent/CN107122471B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN107122471A (zh) | 2017-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109933801B (zh) | 基于预测位置注意力的双向lstm命名实体识别方法 | |
WO2021114745A1 (zh) | 一种基于词缀感知的社交媒体命名实体识别方法 | |
CN106407236A (zh) | 一种面向点评数据的情感倾向性检测方法 | |
CN112948535B (zh) | 一种文本的知识三元组抽取方法、装置及存储介质 | |
CN105205699A (zh) | 基于酒店点评的用户标签和酒店标签匹配方法及装置 | |
CN110414009B (zh) | 基于BiLSTM-CNN的英缅双语平行句对抽取方法及装置 | |
CN106407235B (zh) | 一种基于点评数据的语义词典构建方法 | |
WO2021212801A1 (zh) | 面向电商产品的评价对象识别方法、装置及存储介质 | |
CN110782892B (zh) | 语音文本纠错方法 | |
CN112069312B (zh) | 一种基于实体识别的文本分类方法及电子装置 | |
CN106126502A (zh) | 一种基于支持向量机的情感分类系统及方法 | |
CN108038099B (zh) | 基于词聚类的低频关键词识别方法 | |
CN110287298A (zh) | 一种基于问句主题的自动问答答案选择方法 | |
Logan IV et al. | Multimodal attribute extraction | |
CN109492105A (zh) | 一种基于多特征集成学习的文本情感分类方法 | |
CN106055560A (zh) | 一种基于统计机器学习方法的分词字典数据采集方法 | |
CN112633431A (zh) | 一种基于crnn和ctc的藏汉双语场景文字识别方法 | |
CN116775874B (zh) | 一种基于多重语义信息的资讯智能分类方法及系统 | |
CN110825998A (zh) | 一种网站识别方法及可读存储介质 | |
CN113468891A (zh) | 文本处理方法以及装置 | |
CN113032541A (zh) | 一种基于bert并融合句群检索的答案抽取方法 | |
CN115408488A (zh) | 用于小说场景文本的分割方法及系统 | |
CN111444704A (zh) | 基于深度神经网络的网络安全关键词抽取方法 | |
CN115599899A (zh) | 基于飞行器知识图谱的智能问答方法、系统、设备及介质 | |
Luong et al. | Intent extraction from social media texts using sequential segmentation and deep learning models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20231226 Address after: 18th Floor, Jin'ao International Building, No. 17 Madian East Road, Haidian District, Beijing, 100080 Patentee after: Beijing Yishang Huiping Network Technology Co.,Ltd. Address before: 100088, 18th Floor, Jin'ao International Building, No. 17 Madian East Road, Haidian District, Beijing Patentee before: BEIJING JOINT WISDOM INFORMATION TECHNOLOGY CO.,LTD. |
|
TR01 | Transfer of patent right |