CN109284443A - 一种基于爬虫技术的旅游推荐方法及系统 - Google Patents

一种基于爬虫技术的旅游推荐方法及系统 Download PDF

Info

Publication number
CN109284443A
CN109284443A CN201811434117.5A CN201811434117A CN109284443A CN 109284443 A CN109284443 A CN 109284443A CN 201811434117 A CN201811434117 A CN 201811434117A CN 109284443 A CN109284443 A CN 109284443A
Authority
CN
China
Prior art keywords
user
tourism
data
sight spot
crawled
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811434117.5A
Other languages
English (en)
Inventor
苟佳洁
石珮生
魏文敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Hengtong Wangzhi Technology Co Ltd
Original Assignee
Sichuan Hengtong Wangzhi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Hengtong Wangzhi Technology Co Ltd filed Critical Sichuan Hengtong Wangzhi Technology Co Ltd
Priority to CN201811434117.5A priority Critical patent/CN109284443A/zh
Publication of CN109284443A publication Critical patent/CN109284443A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/12Hotels or restaurants

Landscapes

  • Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于爬虫技术的旅游推荐方法及系统,其流程为,爬取数据,爬取旅游数据获得用户评论信息;数据清洗,检查数据有无空值,格式错误的值;挖掘信息,根据爬取的旅游数据分析景点的季节特性、对景点进行分类、挖掘景点的适宜人群、用户旅游爱好、旅游线路;多策略的冷启动建模,基于气候因素推荐、基于地理位置因素推荐、基于人口统计推荐;用户画像建模,通过冷启动过程后,收到大量的反馈信息,根据梯度提升树算法利用这些反馈信息完成用户的特征工程,建立精细的用户画像模型;最后利用逻辑斯蒂回归进行个性化推荐,得到推荐系统的评分结果。

Description

一种基于爬虫技术的旅游推荐方法及系统
技术领域
本发明涉及互联网旅游领域,具体涉及一种基于爬虫技术的旅游推荐方法及系统。
背景技术
随着互联网的快速发展而带来的网络上信息量的大幅增长,使得用户在面对大量信息时很难能够从中获得有用信息,呈现出对信息的使用效率降低的现象,即出现信息超载问题。传统的搜索技术是一个比较简单的辅助人们从大量繁杂信息中获得有用信息的工具,一直被人们广泛使用。然而,用户在使用搜索引擎时常常很难用恰当的关键词描述自己的真正需求以及这种仅仅依靠关键词的信息检索在很多情况下会出现信息不足问题。近年来,推荐系统的出现使得人们获取信息的方式发生了变化,即:从简单的目的明确的数据搜索转换到更高级的与用户使用习惯相匹配的上下文信息较为丰富的信息发现。该技术在一定程度上解决了信息超载问题,帮助人们从海量的数据中找到他们需要的信息。在旅游行业中,推荐系统可以根据用户的特征建立用户画像,根据用户画像中的特征爱好,推荐个性化方案,常用的推荐算法如协同过滤算法,基于图的推荐算法等等,但是这些算法在面对稀疏数据时很难有好的表现。同时推荐系统中我们往往会面临冷启动问题,所谓的冷启动问题本质就也就是如何在数据量少时做出推荐的问题。
目前常用的解决冷启动方法如:根据排行榜,利用人口统计学信息做一些非个性化推荐等等。通过这些推荐方法我们可以收到反馈数据,然后将得到的数据,重新刻画用户画像,因此这个过程可能相对较长。对于一个刚上线的推荐系统产品来说,为了获得更多的市场认可,过长的冷启动时间可能会让它在产品初期就面临着被淘汰的风险。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于爬虫技术的旅游推荐方法及系统,利用爬虫技术爬取网络数据,获取大量用户对景点的评价,并根据用户信息进行分类伸深入挖掘,获得多类旅游推荐策略,并更加目标用户的反馈及时更新策略。
本发明的目的是通过以下技术方案来实现的:
一种基于爬虫技术的旅游推荐方法,包括以下步骤:
爬取数据,爬取旅游数据获得用户评论信息;
数据清洗,检查数据有无空值,格式错误的值;
挖掘信息,根据爬取的旅游数据分析景点的季节特性、对景点进行分类、挖掘景点的适宜人群、用户旅游爱好、旅游线路;
多策略的冷启动建模,基于气候因素推荐、基于地理位置因素推荐、基于人口统计推荐;
用户画像建模,通过冷启动过程后,收到大量的反馈信息,根据梯度提升树算法利用这些反馈信息完成用户的特征工程,建立精细的用户画像模型;
最后利用逻辑斯蒂回归进行个性化推荐,得到推荐系统的评分结果。
进一步的,所述用户评论信息包括用户评论文本、用户评论时间、用户名字、用户评论点赞数。
进一步的,所述分析景点的季节特性是指根据一年之中该景点的人流量进行统计,将人流量最高的前三个月作为该景点的旅游旺季。
进一步的,所述旅游线路的分析方法为:
从爬取的数据中提取在一定时间内对多个景点进行评论的用户,并根据这些用户对不同景点评价的时间线生成A类旅游线路;
或,根据景点的季节特性结合地理位置生成B类旅游路线;
或,根据景点分类结合地理位置生成C类旅游路线;
或,根据景点的适宜人群结合地理位置生成D类旅游路线;
或,根据用户爱好对某一类的旅游景点结合地理位置生成E类旅游路线。
进一步的,所述基于气候因素推荐是指根据当前时间以及气候推荐适宜的景点娱乐项目;
所述基于地理位置因素推荐是指根据目标用户地址,推荐一些其他与该IP地址不同地貌或人文景观的风景;
所述基于人口统计推荐是指根据网民的年龄层次统计数据得到占比重最大的年龄段,向目标用户推荐占比重最大的年龄段最适宜景点。
一种基于爬虫技术的旅游推荐系统,该系统包括:
数据爬取模块,利用数据爬虫爬取各网站的旅游评论信息,包括该评论用户的个人信息、评论内容、评论时间;
数据分析模块,用于检查数据有无空值,格式错误的值,然后根据爬取的数据挖掘出景点的季节特性、对景点进行分类、挖掘景点的适宜人群、用户旅游爱好、旅游线路;
策略模块,利用爬取的数据分析结果基于气候因素、地理位置因素、人口统计进行推荐;
用户画像建模模块,利用收到的反馈信息,根据梯度提升树算法利用这些反馈信息完成用户的特征工程,建立精细的用户画像模型;
输出模块,最后利用逻辑斯蒂回归进行个性化推荐,得到推荐系统的评分结果
本发明的有益效果是:和传统的旅游推荐方法相比,本方案以实时的旅游数据进行深入的挖掘,制定出各类推荐路线和景点推荐,根据不同地区、不同人群、不同的爱好设计出各类推荐策略,最后根据目标用户的反馈进行及时调整,从而使得推荐更加人性化。
附图说明
图1为本发明的系统流程图;
图2是梯度提升建立特征工程的流程;
图3是两个决策树构成的梯度提升树;
图4是逻辑斯蒂回归方法流程图。
具体实施方式
下面结合具体实施例进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。
如图1所示:
一种基于爬虫技术的旅游推荐方法,包括以下步骤:
爬取数据,爬取旅游数据获得用户评论信息;
数据清洗,检查数据有无空值,格式错误的值,空值是指空白评论,格式错误的值是指评论无实际内容仅有符号等表述含义不请的评论;
挖掘信息,根据爬取的旅游数据分析景点的季节特性、对景点进行分类、挖掘景点的适宜人群、用户旅游爱好、旅游线路;
多策略的冷启动建模,基于气候因素推荐、基于地理位置因素推荐、基于人口统计推荐;
用户画像建模,通过冷启动过程后,收到大量的反馈信息,根据梯度提升树算法利用这些反馈信息完成用户的特征工程,建立精细的用户画像模型。基于梯度提升树的特征工程具体思路如图2:首先是基于有标签的历史数据集训练一个梯度提升树分类模型。由于梯度提升树分类模型是由多棵决策分类树组成的, 其本质是多个弱分类器组成一个强分类的原理。然后将用户的反馈信息输入预测,这一步不是为了得到该用户的分类结果而是要得到一个关于用户特征向量。因此需要统计该用户在模型中每棵树的分类情况。下面以两个决策树构成的梯度提升树为例:
图3是由两个决策树构成的梯度提升树。加入输入一个用户信息,假设在两棵树中的分类结果分别是在,叶子节点中。由图中可以知道两颗决策树一共有五个分类,那么定义一个五维向量,该用户的对应的向量就是[1,0,0,0,1],这个向量就是该用户对应的特征向量。
进一步的,所述用户评论信息包括用户评论文本、用户评论时间、用户名字、用户评论点赞数。
进一步的,所述分析景点的季节特性是指根据一年之中该景点的人流量进行统计,将人流量最高的前三个月作为该景点的旅游旺季。
进一步的,所述旅游线路的分析方法为:
从爬取的数据中提取在一定时间内对多个景点进行评论的用户,并根据这些用户对不同景点评价的时间线生成A类旅游线路;
或,根据景点的季节特性结合地理位置生成B类旅游路线;
或,根据景点分类结合地理位置生成C类旅游路线;
或,根据景点的适宜人群结合地理位置生成D类旅游路线;
或,根据用户爱好对某一类的旅游景点结合地理位置生成E类旅游路线。
进一步的,所述基于气候因素推荐是指根据当前时间以及气候推荐适宜的景点娱乐项目;
所述基于地理位置因素推荐是指根据目标用户地址,推荐一些其他与该IP地址不同地貌或人文景观的风景;
所述基于人口统计推荐是指根据网民的年龄层次统计数据得到占比重最大的年龄段,向目标用户推荐占比重最大的年龄段最适宜景点。
一种基于爬虫技术的旅游推荐系统,该系统包括:
数据爬取模块,利用数据爬虫爬取各网站的旅游评论信息,包括该评论用户的个人信息、评论内容、评论时间;
数据分析模块,用于检查数据有无空值,格式错误的值,然后根据爬取的数据挖掘出景点的季节特性、对景点进行分类、挖掘景点的适宜人群、用户旅游爱好、旅游线路;
策略模块,利用爬取的数据分析结果基于气候因素、地理位置因素、人口统计进行推荐;
用户画像建模模块,利用收到的反馈信息,根据梯度提升树算法利用这些反馈信息完成用户的特征工程,建立精细的用户画像模型;
输出模块,最后利用逻辑斯蒂回归进行个性化推荐,得到推荐系统的评分结果。逻辑斯蒂回归方法应用的具体思路如图4:首先,根据历史数据得到的特征向量, 根据不同特征向量在空间中距离利用聚类方法将不同用户分成n类,其中n可以根据实际工程需要设定。其次,由于逻辑斯蒂回归模型是一个二分类模型,每个模型只能预测属于某一类别的概率,所以需要根据每个类中数据训练n个逻辑斯蒂回归模型。然后在预测阶段,将用户的反馈信息对应的特征向量输入n个逻辑斯蒂回归模型中,得到n个概率,其中这n个概率的最大值对应的类别就是该用户的的类别;最后,将该类中所属历史用户访问过的旅游目的地推荐给预测用户。
上所述仅是本发明的优选实施方式,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (6)

1.一种基于爬虫技术的旅游推荐方法,其特征在于包括以下步骤:
爬取数据,爬取旅游数据获得用户评论信息;
数据清洗,检查数据有无空值,格式错误的值;
挖掘信息,根据爬取的旅游数据分析景点的季节特性、对景点进行分类、挖掘景点的适宜人群、用户旅游爱好、旅游线路;
多策略的冷启动建模,基于气候因素推荐、基于地理位置因素推荐、基于人口统计推荐;
用户画像建模,通过冷启动过程后,收到大量的反馈信息,根据梯度提升树算法利用这些反馈信息完成用户的特征工程,建立精细的用户画像模型;
最后利用逻辑斯蒂回归进行个性化推荐,得到推荐系统的评分结果。
2.根据权利要求1所述的一种基于爬虫技术的旅游推荐方法,其特征在于,所述用户评论信息包括用户评论文本、用户评论时间、用户名字、用户评论点赞数。
3.根据权利要求2所述的一种基于爬虫技术的旅游推荐方法,其特征在于,所述分析景点的季节特性是指根据一年之中该景点的人流量进行统计,将人流量最高的前三个月作为该景点的旅游旺季。
4.根据权利要求3所述的一种基于爬虫技术的旅游推荐方法,其特征在于,所述旅游线路的分析方法为:
从爬取的数据中提取在一定时间内对多个景点进行评论的用户,并根据这些用户对不同景点评价的时间线生成A类旅游线路;
或,根据景点的季节特性结合地理位置生成B类旅游路线;
或,根据景点分类结合地理位置生成C类旅游路线;
或,根据景点的适宜人群结合地理位置生成D类旅游路线;
或,根据用户爱好对某一类的旅游景点结合地理位置生成E类旅游路线。
5.根据权利要求1所述的一种基于爬虫技术的旅游推荐方法,其特征在于,所述基于气候因素推荐是指根据当前时间以及气候推荐适宜的景点娱乐项目;
所述基于地理位置因素推荐是指根据目标用户地址,推荐一些其他与该IP地址不同地貌或人文景观的风景;
所述基于人口统计推荐是指根据网民的年龄层次统计数据得到占比重最大的年龄段,向目标用户推荐占比重最大的年龄段最适宜景点。
6.一种实现权利要求1-5中任一项所述的一种基于爬虫技术的旅游推荐系统,其特征在于,该系统包括:
数据爬取模块,利用数据爬虫爬取各网站的旅游评论信息,包括该评论用户的个人信息、评论内容、评论时间;
数据分析模块,用于检查数据有无空值,格式错误的值,然后根据爬取的数据挖掘出景点的季节特性、对景点进行分类、挖掘景点的适宜人群、用户旅游爱好、旅游线路;
策略模块,利用爬取的数据分析结果基于气候因素、地理位置因素、人口统计进行推荐;
用户画像建模模块,利用收到的反馈信息,根据梯度提升树算法利用这些反馈信息完成用户的特征工程,建立精细的用户画像模型;
输出模块,最后利用逻辑斯蒂回归进行个性化推荐,得到推荐系统的评分结果。
CN201811434117.5A 2018-11-28 2018-11-28 一种基于爬虫技术的旅游推荐方法及系统 Pending CN109284443A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811434117.5A CN109284443A (zh) 2018-11-28 2018-11-28 一种基于爬虫技术的旅游推荐方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811434117.5A CN109284443A (zh) 2018-11-28 2018-11-28 一种基于爬虫技术的旅游推荐方法及系统

Publications (1)

Publication Number Publication Date
CN109284443A true CN109284443A (zh) 2019-01-29

Family

ID=65173887

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811434117.5A Pending CN109284443A (zh) 2018-11-28 2018-11-28 一种基于爬虫技术的旅游推荐方法及系统

Country Status (1)

Country Link
CN (1) CN109284443A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109903127A (zh) * 2019-02-14 2019-06-18 广州视源电子科技股份有限公司 一种群组推荐方法、装置、存储介质及服务器
CN110245286A (zh) * 2019-05-08 2019-09-17 特斯联(北京)科技有限公司 一种基于数据挖掘的旅行推荐方法及装置
CN110287416A (zh) * 2019-06-26 2019-09-27 黄河水利职业技术学院 一种基于大数据的旅行推荐系统
CN110942334A (zh) * 2019-10-12 2020-03-31 中国农业大学 休闲农业旅游推荐方法、系统、电子设备及存储介质
CN111445309A (zh) * 2020-03-26 2020-07-24 四川旅游学院 基于社会网络的旅游服务推荐方法
CN116561415A (zh) * 2023-04-19 2023-08-08 南京睿弗鑫文化传媒有限公司 基于大数据旅游推荐系统及方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462364A (zh) * 2014-12-08 2015-03-25 百度在线网络技术(北京)有限公司 搜索推荐方法及装置
CN105472644A (zh) * 2016-01-12 2016-04-06 四川亨通网智科技有限公司 基于用户行为特征的深度覆盖网络质量评估方法和系统
CN105930469A (zh) * 2016-04-23 2016-09-07 北京工业大学 基于Hadoop的个性化旅游推荐系统及方法
US20170046802A1 (en) * 2015-08-10 2017-02-16 Facebook, Inc. Travel Itinerary Generation on Online Social Networks
CN107403335A (zh) * 2017-06-19 2017-11-28 北京至信普林科技有限公司 一种基于深度用户画像进行精准营销的系统及实现方法
CN108549649A (zh) * 2018-02-28 2018-09-18 中国农业大学 一种基于季节特征和位置特征的乡村旅游推荐方法与系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462364A (zh) * 2014-12-08 2015-03-25 百度在线网络技术(北京)有限公司 搜索推荐方法及装置
US20170046802A1 (en) * 2015-08-10 2017-02-16 Facebook, Inc. Travel Itinerary Generation on Online Social Networks
CN105472644A (zh) * 2016-01-12 2016-04-06 四川亨通网智科技有限公司 基于用户行为特征的深度覆盖网络质量评估方法和系统
CN105930469A (zh) * 2016-04-23 2016-09-07 北京工业大学 基于Hadoop的个性化旅游推荐系统及方法
CN107403335A (zh) * 2017-06-19 2017-11-28 北京至信普林科技有限公司 一种基于深度用户画像进行精准营销的系统及实现方法
CN108549649A (zh) * 2018-02-28 2018-09-18 中国农业大学 一种基于季节特征和位置特征的乡村旅游推荐方法与系统

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109903127A (zh) * 2019-02-14 2019-06-18 广州视源电子科技股份有限公司 一种群组推荐方法、装置、存储介质及服务器
CN110245286A (zh) * 2019-05-08 2019-09-17 特斯联(北京)科技有限公司 一种基于数据挖掘的旅行推荐方法及装置
CN110245286B (zh) * 2019-05-08 2020-01-31 特斯联(北京)科技有限公司 一种基于数据挖掘的旅行推荐方法及装置
CN110287416A (zh) * 2019-06-26 2019-09-27 黄河水利职业技术学院 一种基于大数据的旅行推荐系统
CN110942334A (zh) * 2019-10-12 2020-03-31 中国农业大学 休闲农业旅游推荐方法、系统、电子设备及存储介质
CN111445309A (zh) * 2020-03-26 2020-07-24 四川旅游学院 基于社会网络的旅游服务推荐方法
CN111445309B (zh) * 2020-03-26 2023-05-30 四川旅游学院 基于社会网络的旅游服务推荐方法
CN116561415A (zh) * 2023-04-19 2023-08-08 南京睿弗鑫文化传媒有限公司 基于大数据旅游推荐系统及方法

Similar Documents

Publication Publication Date Title
CN109284443A (zh) 一种基于爬虫技术的旅游推荐方法及系统
Li et al. Review of tourism forecasting research with internet data
EP3779841B1 (en) Method, apparatus and system for sending information, and computer-readable storage medium
CN109977283B (zh) 一种基于知识图谱和用户足迹的旅游推荐方法和系统
Jiang et al. Author topic model-based collaborative filtering for personalized POI recommendations
Liu et al. A cocktail approach for travel package recommendation
CN103246670B (zh) 微博排序、搜索、展示方法和系统
Liu et al. Personalized travel package recommendation
Rieser-Schüssler et al. Route choice sets for very high-resolution data
US9245252B2 (en) Method and system for determining on-line influence in social media
CN105320719B (zh) 一种基于项目标签和图形关系的众筹网站项目推荐方法
Xie et al. Marketing strategy of rural tourism based on big data and artificial intelligence
CN106296312A (zh) 基于社交媒体的在线教育资源推荐系统
WO2018040069A1 (zh) 信息推荐系统及方法
Coelho et al. A personalized travel recommendation system using social media analysis
KR101543780B1 (ko) 동적 사용자 프로필 및 소셜 네트워크 신뢰성을 이용한 전문가 검색 시스템 및 방법
CN103235823A (zh) 根据相关网页和当前行为确定用户当前兴趣的方法和系统
CN103559207A (zh) 一种基于社交媒体计算的金融行为分析系统
CN112115367A (zh) 基于融合关系网络的信息推荐方法、装置、设备和介质
CN106203646A (zh) 定制化行程推荐系统和方法
Rohilla et al. Random Forest with harmony search optimization for location based advertising
Shafik et al. Recommendation system comparative analysis: internet of things aided networks
Lou Tourism destination recommendation based on association rule algorithm
Ashley-Dejo et al. A context-aware proactive recommender system for tourist
CN109299368A (zh) 一种用于环境信息资源ai智能个性化推荐的方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190129

RJ01 Rejection of invention patent application after publication