CN106156287A - 基于旅游需求模板的景区评价数据分析舆情满意度方法 - Google Patents

基于旅游需求模板的景区评价数据分析舆情满意度方法 Download PDF

Info

Publication number
CN106156287A
CN106156287A CN201610489138.1A CN201610489138A CN106156287A CN 106156287 A CN106156287 A CN 106156287A CN 201610489138 A CN201610489138 A CN 201610489138A CN 106156287 A CN106156287 A CN 106156287A
Authority
CN
China
Prior art keywords
keyword
content
scenic spot
satisfaction
subclass
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610489138.1A
Other languages
English (en)
Inventor
吕剑彪
马利刚
郑俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Tianmai Network Co Ltd
Original Assignee
Hangzhou Tianmai Network Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Tianmai Network Co Ltd filed Critical Hangzhou Tianmai Network Co Ltd
Priority to CN201610489138.1A priority Critical patent/CN106156287A/zh
Publication of CN106156287A publication Critical patent/CN106156287A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/14Travel agencies

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于旅游需求模板的景区评价数据分析舆情满意度方法。主要包括基于旅游需求模板的关键词模板库构建、关键词模板库的扩充和针对景区评价数据的舆情满意度分析计算的三个步骤。本发明解决了以往游客游记、评价等非结构化内容,难以被其他游客高效搜索利用的问题,不仅可以向游客提供某个景区的综合满意度值,还可以向游客提供该景区具体的关于吃、住、行、游、购、娱六个方面的满意度值,以及比吃、住、行、游、购、娱更具体的相关内容的满意度值,从而让游客快速了解该景区的各个评价参数。

Description

基于旅游需求模板的景区评价数据分析舆情满意度方法
技术领域
本发明涉及一种旅游信息数据分析方法,具体是涉及了一种基于旅游需求模板的景区评价数据分析舆情满意度方法。
背景技术
随着经济的发展,现在已经进入旅游智能化阶段和大数据的时代,游客通常通过查看媒体互动分享评价来决定自己旅游计划。
然而,传统游客在游记中对景区景点的评价内容是非结构化、离散的,即难以采用一定的算法对其进行有规律地提取和组织,从而导致不能采用计算机智能对其提取分类。然而游客对“吃、住、行、游、购、娱”的评价获取需求颇为急切,因此需要采用一种新的技术来实现游客评价的自动化提取并对大量的数据进行高效的有价值的分析。
发明内容
为解决以上技术问题,本发明提出了一种基于旅游需求模板的景区评价数据分析舆情满意度方法。
本发明是通过下述技术方案来解决上述技术问题的:
本发明是针对于包含景区评价信息的帖子或者文章中的文字数据进行处理,例如对于某一论坛中,某景区下对应的所有帖子进行处理,帖子中会涉及到用户对景区的评价。
本发明主要包括基于旅游需求模板的关键词模板库构建、关键词模板库的扩充和针对景区评价数据的舆情满意度分析计算的三个步骤。
1)所述的旅游需求模板主要由基于旅游需求模板引导评价的内容大类关键词、内容子类关键词和情感关键词构成,每个内容大类关键词下分属有其对应的内容子类关键词,每个内容子类关键词下分属有其对应的情感关键词。
关键词模板库初始由列举而成,所述的内容大类关键词包括吃、住、行、游、购、娱的六个类别;所述的内容子类关键词是在内容大类关键词的基础上构建的;所述情感关键词是对内容子类关键词的描述性词语。
所述关键词模板库的扩充具体是采用以下方式对内容子类关键词和情感关键词进行扩充:
2)在已构建的关键词模板库基础上,通过网络爬虫工具在内容大类关键词所在段落文字附近搜索内容子类关键词,将找到的在已构建关键词模板库中不存在的内容子类关键词作为新的内容子类关键词,并加入到关键词模板库中;
在已构建的关键词模板库基础上,通过网络爬虫工具在内容子类关键词所在段落文字附近搜索情感关键词,将找到的在已构建关键词模板库中不存在的情感关键词作为新的情感关键词,新的情感关键词均赋分值后加入到关键词模板库中,并加入到关键词模板库中。
所述的网络爬虫工具采用八爪鱼采集器,网络爬虫工具可以是任意一种,不影响本专利的实质内容。
3)所述针对景区评价数据的舆情满意度分析计算具体是:由扩充后的关键词模板库通过网络爬虫工具搜索某景区下的文字数据,抽取出内容大类关键词所在段落文字附近的内容子类关键词,再搜索抽取出每个内容子类关键词所在段落文字附近的情感关键词,最后可得到大量的关于该景区的情感关键词,并将这些情感关键词与相应的内容子类关键词放在一起,然后构建景区舆情与满意度的分析模型,通过景区舆情与满意度的分析模型获得以平均满意度值作为该景区的舆情满意度值。
A)先采用以下公式计算获得文字数据中所有评论中的关于某一个内容子类关键词的满意度值:
Y B i j = Σ t = 1 5 tS i j _ t Σ t = 1 5 S i j _ t
其中,表示第i个内容大类关键词下第j个内容子类关键词的平均满意度值,t是分值(1~5),Sij_t表示i个内容大类关键词下第j个内容子类关键词对应分值为t的情感关键词的数量,Bij表示第i个内容大类关键词下第j个内容子类关键词,B{B11,B12,B13…B21,B22,B23…}代表内容子类关键词集合;
B)再采用以下公式计算获得文字数据中一个内容大类关键词的满意度值:
Y A i = Σ j = 1 n W B i j Y B i j
其中,表示第i个内容大类关键词的满意度值,表示第i个内容大类关键词下第j个内容子类关键词的权值,n表示第i个内容大类关键词下内容子类关键词的数量,A{A1,A2,…,A6}代表内容大类关键词集合;
C)再采用以下公式计算获得该景区的综合满意度值:
Y = Σ i = 1 6 W A i Y A i
其中,Y表示景区的综合满意度值,i表示内容大类关键词的序号,i取值范围是1~6,表示第i个内容大类关键词的权值。
本发明的有益效果在于:
本发明针对游客游记、评价等非结构化内容,难以被其他游客高效搜索利用的问题,根据“吃、住、行、游、购、娱”等不同需求,构建需求关键词模板,通过旅游模板训练系统对模板进行补充和完善,然后根据已有模版库构建评价体系表,最后利用网络爬虫工具对各个旅游网站的评论帖子进行分析得出各个景区的满意度值,并通过信息一键式全媒体、多渠道分享,快速将评价结果传播分享,并被高效检索利用。
附图说明
图1是基于旅游需求模板的关键词模板库构建流程图。
图2是关键词模板库的扩充方式流程图。
具体实施方式
下面结合附图给出本发明较佳实施例,以详细说明本发明的技术方案。
本发明的具体实施例及其具体实施过程如下:
1)基于旅游需求模板的关键词模板库构建
1.1)内容大类关键词构建,主要包括吃、住、行、游、购、娱几个大类;
1.2)内容子类关键词构建,主要是在内容大类关键词的基础上构建的,比如和内容大类关键词吃相关的内容子类关键词有饭店、餐馆、快餐店、小吃街等。
1.3)情感关键词构建,主要是在内容子类关键词的基础上构建的,比如和内容子类关键词‘吃’对应的情感关键词有味道很好,价格实惠,环境优美等。
2)关键词模板库的扩充
2.1)基于需求模板引导评价的内容子类关键词库扩充,通过网络爬虫工具在内容大类关键词附近搜索相关的内容子类关键词并与已有的模板库进行对比,遇到新的内容子类关键词后,自动加入到模板库,比如遇到与内容大类关键词吃相关的新的内容子类关键词野味店等。
2.2)基于需求模板引导评价的情感关键词库扩充,通过网络爬虫工具八爪鱼采集器,在内容子类关键词附近搜索相关的情感关键词并与已有的模板库进行对比,遇到新的情感关键词后,自动加入到模板库。
2.3)情感关键词均已由用户进行赋分,给出分值(1~5),比如非常好/棒极了/美妙极了,这三个情感词表达的满意度是相同的对应的分值则都是5分,一般/凑合/还行对应的分值则都是3分;差极了/难受死了/简直就是受罪/再也不会去了,对应的分值则是1分。
3)针对景区评价数据的舆情满意度分析计算
3.1)根据已有模版库构建评价体系表
内容大类关键词和内容子类关键词的权重和情感关键词的分值以及相同分值评论数量如下表1所示,表中{Cij_t}表示第i个内容大类关键词下第j个内容子类关键词对应分值为t的情感关键词的集合。
表1
3.2)通过网络爬虫工具搜索景区网页的每个帖子,按内容子类关键词,搜索所有相关的情感关键词,根据表1进行分类统计,把相应的情感关键词的数量记录到对应到Sij_t中。
比如:通过网络爬虫工具搜到网页得到1000个情感关键词,有600个是与内容大类关键词‘吃A1’有关的,其中300个是与内容子类关键词‘味道B11’有关的,对应的情感关键词集{Cij_t}及数量Sij_t如下表2:
表2
由内容子类关键词满意度计算公式可知该景区关于吃的味道的满意度值为:
Y B 11 = Σ t = 1 5 tS 11 _ t Σ t = 1 5 S 11 _ t = 3.6
即该景区关于吃的味道的满意度值为3.6,同理可以计算其它内容子类的关键词的满意度值。
得到所有的内容子类关键词满意度值后,便可以根据公式计算出所有的内容大类关键词满意度值再根据公式计算出该景区的综合满意度值Y。
由此本发明实施例得到满意度值解决了以往游客游记、评价等非结构化内容,难以被其他游客高效搜索利用的问题,除了可以向游客提供某个景区的综合满意度值,还可以向游客提供该景区具体的关于吃、住、行、游、购、娱六个方面的满意度值,以及比吃、住、行、游、购、娱更具体的相关内容子类关键词的满意度值,让游客快速了解该景区的各个评价参数。
以上所述,仅是为了说明本发明的内容所列举的部分实施例,并非对本发明做任何限制,凡是根据本发明的技术实质对以上实例作出任何简单的修改,等同变化与修饰,均属于本发明的技术保护范围内。

Claims (6)

1.一种基于旅游需求模板的景区评价数据分析舆情满意度方法,其特征在于主要包括基于旅游需求模板的关键词模板库构建、关键词模板库的扩充和针对景区评价数据的舆情满意度分析计算的三个步骤。
2.根据权利要求1所述的一种基于旅游需求模板的景区评价数据分析舆情满意度方法,其特征在于:所述的旅游需求模板主要由内容大类关键词、内容子类关键词和情感关键词构成,每个内容大类关键词下分属有其对应的内容子类关键词,每个内容子类关键词下分属有其对应的情感关键词。
3.根据权利要求1所述的一种基于旅游需求模板的景区评价数据分析舆情满意度方法,其特征在于:所述关键词模板库的扩充具体是采用以下方式对内容子类关键词和情感关键词进行扩充:
1)在已构建的关键词模板库基础上,通过网络爬虫工具在内容大类关键词所在段落文字附近搜索内容子类关键词,将找到的在已构建关键词模板库中不存在的内容子类关键词作为新的内容子类关键词,并加入到关键词模板库中;
2)在已构建的关键词模板库基础上,通过网络爬虫工具在内容子类关键词所在段落文字附近搜索情感关键词,将找到的在已构建关键词模板库中不存在的情感关键词作为新的情感关键词,新的情感关键词均赋权值后加入到关键词模板库中。
4.根据权利要求3所述的一种基于旅游需求模板的景区评价数据分析舆情满意度方法,其特征在于:所述的网络爬虫工具采用八爪鱼采集器,网络爬虫工具可以是任意一种,不影响本专利的实质内容。
5.根据权利要求1所述的一种基于旅游需求模板的景区评价数据分析舆情满意度方法,其特征在于:所述针对景区评价数据的舆情满意度分析计算具体是:由扩充后的关键词模板库通过网络爬虫工具搜索景区下的文字数据,抽取出内容大类关键词所在段落文字附近的内容子类关键词,再搜索抽取出每个内容子类关键词所在段落文字附近的情感关键词,从而获得所有情感关键词及其每个情感关键词对应的内容子类关键词和内容大类关键词,然后构建景区舆情与满意度的分析模型,通过景区舆情与满意度的分析模型获得以平均满意度值作为该景区的舆情满意度值。
6.根据权利要求5所述的一种基于旅游需求模板的景区评价数据分析舆情满意度方法,其特征在于:所述的景区舆情与满意度的分析模型具体是:
A)先采用以下公式计算获得文字数据中所有评论中的关于某一个内容子类关键词的满意度值:
Y B i j = Σ t = 1 5 tS i j _ t Σ t = 1 5 S i j _ t
其中,表示第i个内容大类关键词下第j个内容子类关键词的平均满意度值,t是分值(1~5),Sij_t表示i个内容大类关键词下第j个内容子类关键词对应分值为t的情感关键词的数量,Bij表示第i个内容大类关键词下第j个内容子类关键词,B{B11,B12,B13…B21,B22,B23…}代表内容子类关键词集合;
B)再采用以下公式计算获得文字数据中一个内容大类关键词的满意度值:
Y A i = Σ j = 1 n W B i j Y B i j
其中,表示第i个内容大类关键词的满意度值,表示第i个内容大类关键词下第j个内容子类关键词的权值,n表示第i个内容大类关键词下内容子类关键词的数量,A{A1,A2,…,A6}代表内容大类关键词集合;
C)再采用以下公式计算获得该景区的综合满意度值:
Y = Σ i = 1 6 W A i Y A i
其中,Y表示景区的综合满意度值,i表示内容大类关键词的序号,表示第i个内容大类关键词的权值。
CN201610489138.1A 2016-06-24 2016-06-24 基于旅游需求模板的景区评价数据分析舆情满意度方法 Pending CN106156287A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610489138.1A CN106156287A (zh) 2016-06-24 2016-06-24 基于旅游需求模板的景区评价数据分析舆情满意度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610489138.1A CN106156287A (zh) 2016-06-24 2016-06-24 基于旅游需求模板的景区评价数据分析舆情满意度方法

Publications (1)

Publication Number Publication Date
CN106156287A true CN106156287A (zh) 2016-11-23

Family

ID=57350224

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610489138.1A Pending CN106156287A (zh) 2016-06-24 2016-06-24 基于旅游需求模板的景区评价数据分析舆情满意度方法

Country Status (1)

Country Link
CN (1) CN106156287A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107071587A (zh) * 2017-04-25 2017-08-18 腾讯科技(深圳)有限公司 视频片段的获取方法及装置
CN108269024A (zh) * 2018-01-31 2018-07-10 钟栎娜 一种基于大数据的旅游目的地评价方法
CN109544394A (zh) * 2018-11-06 2019-03-29 北京腾云天下科技有限公司 一种旅游地评估方法和计算设备
CN110059922A (zh) * 2019-03-11 2019-07-26 北京比速信息科技有限公司 基于互联网游客点评数据的线上满意度评价方法
CN111161099A (zh) * 2020-01-18 2020-05-15 烟台南山学院 一种基于移动物联网的智慧旅游应用系统
CN111310466A (zh) * 2020-02-26 2020-06-19 山东爱城市网信息技术有限公司 一种基于关键词库的特定维度景区满意度衡量方法及系统
CN111340385A (zh) * 2020-03-10 2020-06-26 深圳华侨城创新研究院有限公司 测量旅游景区欢乐指数的科学计量方法
CN112100367A (zh) * 2019-05-28 2020-12-18 贵阳海信网络科技有限公司 一种景区舆情预警方法及装置
CN113657766A (zh) * 2021-08-18 2021-11-16 深圳华侨城创新研究院有限公司 一种基于游客多元数据的旅游景区欢乐指数的计量方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107071587A (zh) * 2017-04-25 2017-08-18 腾讯科技(深圳)有限公司 视频片段的获取方法及装置
CN108269024A (zh) * 2018-01-31 2018-07-10 钟栎娜 一种基于大数据的旅游目的地评价方法
CN109544394A (zh) * 2018-11-06 2019-03-29 北京腾云天下科技有限公司 一种旅游地评估方法和计算设备
CN110059922A (zh) * 2019-03-11 2019-07-26 北京比速信息科技有限公司 基于互联网游客点评数据的线上满意度评价方法
CN112100367A (zh) * 2019-05-28 2020-12-18 贵阳海信网络科技有限公司 一种景区舆情预警方法及装置
CN111161099A (zh) * 2020-01-18 2020-05-15 烟台南山学院 一种基于移动物联网的智慧旅游应用系统
CN111310466A (zh) * 2020-02-26 2020-06-19 山东爱城市网信息技术有限公司 一种基于关键词库的特定维度景区满意度衡量方法及系统
CN111340385A (zh) * 2020-03-10 2020-06-26 深圳华侨城创新研究院有限公司 测量旅游景区欢乐指数的科学计量方法
WO2021179455A1 (zh) * 2020-03-10 2021-09-16 深圳市华侨城创新研究院有限公司 测量旅游景区欢乐指数的科学计量方法
CN113657766A (zh) * 2021-08-18 2021-11-16 深圳华侨城创新研究院有限公司 一种基于游客多元数据的旅游景区欢乐指数的计量方法

Similar Documents

Publication Publication Date Title
CN106156287A (zh) 基于旅游需求模板的景区评价数据分析舆情满意度方法
CN106528656B (zh) 一种基于学员历史和实时学习状态参量实现课程推荐的方法和系统
CN106777274B (zh) 一种中文旅游领域知识图谱构建方法及系统
CN104391942B (zh) 基于语义图谱的短文本特征扩展方法
CN103744981B (zh) 一种基于网站内容用于网站自动分类分析的系统
CN105589948A (zh) 一种文献引用网络可视化及文献推荐方法及系统
CN103605729B (zh) 一种基于局部随机词汇密度模型poi中文文本分类的方法
CN101751438B (zh) 自适应语义驱动的主题网页过滤系统
CN106503255A (zh) 基于描述文本自动生成文章的方法及系统
CN106021433B (zh) 一种商品评论数据的口碑分析方法和装置
CN107220237A (zh) 一种基于卷积神经网络的企业实体关系抽取的方法
CN106156335A (zh) 一种教材知识点的挖掘整理方法和系统
CN107679110A (zh) 结合文本分类与图片属性提取完善知识图谱的方法及装置
CN109670039A (zh) 基于三部图和聚类分析的半监督电商评论情感分析方法
CN103886020B (zh) 一种房地产信息快速搜索方法
CN103116657A (zh) 一种网络教学资源的个性化搜索方法
Beller et al. I’ma belieber: Social roles via self-identification and conceptual attributes
CN111143672A (zh) 基于知识图谱的专业特长学者推荐方法
CN106951554A (zh) 一种层次化新闻热点及其演化的挖掘与可视化方法
CN111460145A (zh) 一种学习资源推荐方法、设备及存储介质
CN110781300B (zh) 基于百度百科知识图谱的旅游资源文化特色评分算法
Liu et al. Large-scale street space quality evaluation based on deep learning over street view image
CN105095271A (zh) 微博检索方法和微博检索装置
CN112084312B (zh) 一种基于知识图构建的智能客服系统
CN103699568B (zh) 一种从维基中抽取领域术语间上下位关系的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20161123