CN107291888A - 基于机器学习统计模型的入住酒店附近生活推荐系统方法 - Google Patents
基于机器学习统计模型的入住酒店附近生活推荐系统方法 Download PDFInfo
- Publication number
- CN107291888A CN107291888A CN201710473308.1A CN201710473308A CN107291888A CN 107291888 A CN107291888 A CN 107291888A CN 201710473308 A CN201710473308 A CN 201710473308A CN 107291888 A CN107291888 A CN 107291888A
- Authority
- CN
- China
- Prior art keywords
- data
- point
- user
- latitude
- longitude
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/52—Network services specially adapted for the location of the user terminal
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/55—Push-based network services
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供了一种基于机器学习统计模型的入住酒店附近生活推荐系统,其特征在于,包括:信息采集模块:用于对用户数据进行采集;对城市地理位置对应相关信息的采集;以及对地图APP程序POI数据采集;数据存储模块:用于对数据进行分类存储,按照格式化的方式存储;存储采集模块采集到的数据以及经过算法模块计算后的数据;算法模块:采用算法DBScan在对数据进行计算和训练;匹配策略模块:执行用户和住所,用户和城市的兴趣地点匹配策略;该匹配策略按照业务逻辑、用户兴趣或用户反馈城市天气进行不同的或者几种结合的策略;推荐引擎模块:用于将所述匹配的兴趣地点坐标数据展示给用户。本发明还提供了相应的方法。
Description
技术领域
本发明涉及电子商务的数据处理技术领域,具体涉及基于位置的数据推送技术领域;
背景技术
对于很多找短租房的人,需要自己做一些旅游攻略,行程安排等。入住一个不熟悉的城市,不了解住处附近有什么吃喝玩乐的地方,不清楚整个城市有什么吃喝玩乐和城市特色的地方。自觉做一些攻略比较耗时和麻烦。本系统根据用户的历史出行行为习惯,之前入住当地用户的出行习惯等资料,为用户提供每次出行入住酒店附近的吃喝玩乐地,入住城市旅游,办公,特色地等出行信息。
当前的很多手机APP,只是针对本地的出行特色信息进行发送,也只有位置或者好评率这几个简单的指标进行排序。用户需要自己进行搜索,从大量的信息中筛选出自己需要的出行信息。这对于初到一个陌生地方的用户来说,实在是一件非常困扰的事情。
发明内容
为解决上述技术问题,为用户快速的寻找其真正需要的特色出行信息;本发明实施例提出了一种基于机器学习统计模型的入住酒店附近生活推荐系统,其特征在于,包括:
信息采集模块:用于对用户数据进行采集;对城市地理位置对应相关信息的采集;以及对地图APP程序POI数据采集;
数据存储模块:用于对数据进行分类存储,按照格式化的方式存储;存储采集模块采集到的数据以及经过算法模块计算后的数据;
算法模块:采用算法DBScan在对数据进行计算和训练;
匹配策略模块:执行用户和住所,用户和城市的兴趣地点匹配策略;
该匹配策略按照业务逻辑、用户兴趣或用户反馈城市天气进行不同的或者几种结合的策略;
推荐引擎模块:用于将所述匹配的兴趣地点坐标数据展示给用户。
优选的,所述格式化数据包括:用户ID,用户经度,用户纬度,用户到达地点的时间。
优选的,所述数据存储模块:用于获取到三个方面用户地理坐标经纬度数据;包括当前住房用户的历史经纬度数据,住房附近N公里内全部用户历史经纬度数据,房屋所在城市全部用户历史经纬度数据;
数据存储在分布式Hive表中,通过Hive表获取可以获取三个月的历史地理经纬度坐标数据对(记做lat,lng)作为训练样本。
优选的,所述算法模块:采用Dbscan密度聚类算法,做经纬度聚类计算;
按顺序取一个经纬度坐标lat,lng对记为点P1,从这个坐标点出发,找到这个坐标附近距离小于E(E是最小距离参数)的全部经纬度坐标点;
其中最小距离阈值E是输入参数;坐标点的距离是用欧氏距离来计算的
欧氏距离公式:
欧式距离
公式中的Xik,Xjk为坐标点信息。
这个P1点和全部的经纬度坐标点都计算距离后,将距离按照从小到大的顺序排序找到距离小于E值的全部坐标点,如果小于阈值E的坐标点个数达到阈值G个,其中的G是算法输入参数设置一个范围内聚集多少个坐标点;将这些点群记为M1,那么点P1和点群M1算作一范围的群体,算法再继续找第二个点P2用同样的方法算第二个范围的群体M2,一直下去计算全部的经纬度点和相应的点,找到全部的点群。再计算点群与点群之间的距离,该距离仍然根据欧氏距离计算,如果两个点群之间的距离小于E那么这两个点群就可以合并成一个点群,如果距离大于E那么这两个点群就是记做两个点群集合,经过循环迭代的计算可以把全部的经纬度点,按照距离的大小聚集成不同的点群集合。
优选的,所述算法模块进一步包括:参数E和G的设置采用先估算大概值,然后通过网格搜索方式确定具体选值的方法来确定;最小距离阈值E的大小估算方法用实际的地理位置大小来估算;根据上面估算的E和G值,再通过网格搜索在估算范围内选择多个E多个G值进行多次试验的方式最终确定E和G的取值。
优选的,所述算法模块进一步包括:聚类后的三种数据中都聚类了多个点的集合;现在对每一个集合求出一个对应的中心点;
计算方法一:
对聚到一个地理位置集合里的全部坐标点;
求经度最大值,最小值;计算平均值lng_avg=(lng_max-lng_min)/2
纬度最大值,最小值;计算平均值lat_avg=(lat_max-lat_min)/2
最后用经纬度平均值作为中心点;
计算方法二:
计算全部经纬度加和平均值,作为中心点;
根据上面两种方法观察数据选择一个效果相对好的之一。
优选的,所述算法模块进一步包括:求出的多个中心点调用地图APP程序提供的API接口,获取聚类中心点的POI信息从而进行格式化保存。
优选的,所述匹配策略模块进一步包括:用户的地理兴趣标签按照时间排序,将时间段划分为:清晨,上午,中午,下午,晚上;根据不同时间段划分将用户地理兴趣点分类标签也按照时间划分;将划分后的兴趣地理信息标签与住房附近的兴趣标签和城市地理兴趣标签进行匹配;匹配就是找相同的标签;提取出住房附近的相同标签,整个城市的相同标签。
优选的,所述推荐引擎模块进一步包括:根据匹配标签查询住房附近,整个城市对应的聚类地理中心点和中心点的相关地理资料信息,按照用户出行的时间划分排序推荐给用户。
本发明实施例还提出了一种基于机器学习统计模型的入住酒店附近生活推荐的方法,其特征在于,包括:
第一步骤
通过系统内部数据存储平台,获取到三个方面用户地理坐标经纬度数据;包括当前住房用户的历史经纬度数据,住房附近N公里内全部用户历史经纬度数据,房屋所在城市全部用户历史经纬度数据;
数据存储在分布式Hive表中,通过Hive表获取可以获取三个月的历史地理经纬度坐标数据对(记做lat,lng)作为训练样本;
第二步骤
将上面三组数据,都进行聚类计算;采用Dbscan密度聚类算法,做经纬度聚类计算;
按顺序取一个经纬度坐标lat,lng对记为点P1,从这个坐标点出发,找到这个坐标附近距离小于E的全部经纬度坐标点;
其中最小距离阈值E是输入参数;坐标点的距离是用欧氏距离来计算的
欧氏距离公式:
欧式距离
公式中的Xik,Xjk为坐标点信息;
这个P1点和全部的经纬度坐标点都计算距离后,将距离按照从小到大的顺序排序找到距离小于E值的全部坐标点,如果小于阈值E的坐标点个数达到阈值G个,其中的G是算法输入参数设置一个范围内聚集多少个坐标点;将这些点群记为M1,那么点P1和点群M1算作一范围的群体,算法再继续找第二个点P2用同样的方法算第二个范围的群体M2,一直下去计算全部的经纬度点和相应的点,找到全部的点群;再计算点群与点群之间的距离,该距离仍然根据欧氏距离计算,如果两个点群之间的距离小于E那么这两个点群就可以合并成一个点群,如果距离大于E那么这两个点群就是记做两个点群集合,经过循环迭代的计算可以把全部的经纬度点,按照距离的大小聚集成不同的点群集合;
处理过程如图4所示:
上面的算法涉及到两个参数:一个参数是聚集点最小距离阈值E和每个集合聚集的最小点个数G;
根据上面估算的两个E,G值,再通过网格搜索在估算范围内选择多个E 多个G值进行多次试验的方式最终确定E和G的取值;
得到了三个方面数据对应经纬度地理位置聚类的结果;
第三步骤
聚类后的三个方面数据中都聚类了多个点的集合;现在对每一个集合求出一个对应的中心点;
计算方法一:
对聚到一个地理位置集合里的全部坐标点;
求经度最大值,最小值;计算平均值lng_avg=(lng_max-lng_min)/2
纬度最大值,最小值;计算平均值lat_avg=(lat_max-lat_min)/2
最后用经纬度平均值作为中心点;
计算方法二:
计算全部经纬度加和平均值,作为中心点;
根据上面两种方法观察数据选择一个效果相对好的之一;
第四步骤
根据上一步骤求出的多个中心点调用地图APP程序提供的API接口,获取聚类中心点的POI信息并格式化保存;
地图APP程序都给用户留有API调用接口;通过API调用接口,可以获取地图APP程序里的POI信息数据;
有了地理聚类POI兴趣点信息数据后,对三方面数据:用户,城市,住所聚类的数据分别打上分类tag;保存数据;
第五步骤
用户的地理兴趣标签按照时间排序,将时间段划分为:清晨,上午,中午,下午,晚上;根据不同时间段划分将用户地理兴趣点分类标签也按照时间划分;将划分后的兴趣地理信息标签与住房附近的兴趣标签和城市地理兴趣标签进行匹配;匹配就是找相同的标签;从而提取出住房附近的相同标签,整个城市的相同标签;
匹配成功后,将匹配的地理兴趣点标签,根据匹配标签查询住房附近,整个城市对应的聚类地理中心点和中心点的相关地理资料信息,按照用户出行的时间划分排序推荐给用户。
优选的,所述POI数据包括:地理坐标,地理位置名称地理位置是商圈,小区,旅游景点。
优选的,根据权利要求10所述的方法,其特征在于,所述地图APP程序可以是百度或高德地图。
本发明的上述技术方案的有益效果如下:根据用户历史的行为习惯,可以很好地结合用户的出行习惯和出行喜好,为用户找到更喜欢的信息。结合同城其他住户的出行习惯可以为用户找到,当前城市更火热更具特色的地方。
附图说明
图1为本发明实施例的系统设计流程示意图;
图2为本发明实施例的系统数据处理流程示意图;
图3为本发明实施例的系统模块结构示意图;
图4为本发明实施例中欧式距离的处理流程图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述;
本发明主要的思路是,用户在系统平台订房并办理入住以后,系统平台会给用户推荐当前入住酒店附近的生活周边,吃喝玩乐商圈,城市特色地点,特色美食,游玩,办公等地点信息,来方便用户出行。
平台根据用户历史行为数据,住房附近的数据,住房城市当地的数据三方面结合;计算出应该给用户推荐的相关内容,然后平台展示。这个方案认为用户在一个地方留存的时间越长,说明这个地方对用户来说越有兴趣。因此可以按照用户出行坐标的密集程度来分析用户出行兴趣较高的位置。另外,很多时候用户的兴趣点,一天是在移动变化的。例如,用户上午可能喜欢到公园跑步,到了晚上喜欢吃小吃街的烧烤。所以要按照用户时间段的兴趣来为用户推荐相匹配的兴趣地。
如图1和2所示的,本发明实施例的入住周边生活推荐系统具体流程包括:
第一步骤
通过系统内部数据存储平台,获取到三个方面用户地理坐标经纬度数据。包括当前住房用户的历史经纬度数据,住房附近N公里内全部用户历史经纬度数据,房屋所在城市全部用户历史经纬度数据。
数据存储在分布式Hive表中,通过Hive表获取可以获取三个月的历史地理经纬度坐标数据对(记做lat,lng)作为训练样本。
第二步骤
将上面三组数据,都进行聚类计算。采用Dbscan密度聚类算法,做经纬度聚类计算。
按顺序取一个经纬度坐标lat,lng对记为点P1,从这个坐标点出发,找到这个坐标附近距离小于E(E是最小距离参数)的全部经纬度坐标点。
其中最小距离阈值E是输入参数;坐标点的距离是用欧氏距离来计算的
欧氏距离公式:
欧式距离
公式中的Xik,Xjk为坐标点信息。
这个P1点和全部的经纬度坐标点都计算距离后,将距离按照从小到大的顺序排序找到距离小于E值的全部坐标点,如果小于阈值E的坐标点个数达到阈值G个,其中的G是算法输入参数设置一个范围内聚集多少个坐标点。将这些点群记为M1,那么点P1和点群M1算作一范围的群体,算法再继续找第二个点P2用同样的方法算第二个范围的群体M2,一直下去计算全部的经纬度点和相应的点,找到全部的点群。再计算点群与点群之间的距离,该距离仍然根据欧氏距离计算,如果两个点群之间的距离小于E那么这两个点群就可以合并成一个点群,如果距离大于E那么这两个点群就是记做两个点群集合,经过循环迭代的计算可以把全部的经纬度点,按照距离的大小聚集成不同的点群集合。
处理过程如图4所示:
上面的算法涉及到两个参数:一个参数是聚集点最小距离阈值E和每个集合聚集的最小点个数G。
这两个参数的设置采用先估算大概值,然后通过网格搜索方式确定具体选值的方法来确定。
最小距离阈值E的大小估算方法用实际的地理位置大小来估算。例如一个公园的大小大概应该是多少公里估算一个E值,全部经纬度坐标点画图,看图估算出G值。
根据上面估算的两个E,G值再通过网格搜索在估算范围内选择多个E 多个G值进行多次试验的方式最终确定E和G的取值。其中的网格搜索属于本领域公知常识,因此不再赘述。
上面介绍的是整个城市全部用户历史经纬度数据的处理过程,房源附近的地理坐标聚类和一个用户历史行为坐标的聚类这两个聚类用同样的方法,但是聚类算法的参数选择上会有差距,一个用户用的训练数据时间要长一些。
目前得到了三方面数据对应经纬度地理位置聚类的结果。
第三步骤
聚类后的三方面数据中都聚类了多个点的集合;现在对每一个集合求出一个对应的中心点。
计算方法一:
对聚到一个地理位置集合里的全部坐标点;
求经度最大值,最小值;计算平均值lng_avg=(lng_max-lng_min)/2
纬度最大值,最小值;计算平均值lat_avg=(lat_max-lat_min)/2
最后用经纬度平均值作为中心点。
计算方法二:
计算全部经纬度加和平均值,作为中心点。
根据上面两种方法观察数据选择一个效果相对好的之一。
第四步骤
根据上一步骤求出的多个中心点调用地图APP程序提供的API接口,获取聚类中心点的POI信息并格式化保存。
地图APP程序都给用户留有API调用接口。通过API调用接口,可以获取地图APP程序里的POI信息数据,POI数据包括:地理坐标,地理位置名称地理位置是商圈,小区,旅游景点等信息
有了地理聚类POI兴趣点信息数据后,对三方面数据:用户,城市,住所聚类的数据分别打上分类tag(比如用户的一个POI是小吃街,那么为用户打上小吃街tag)。保存数据。
第五步骤
用户的地理兴趣标签按照时间排序,将时间段划分为:清晨,上午,中午,下午,晚上。根据不同时间段划分将用户地理兴趣点分类标签也按照时间划分。将划分后的兴趣地理信息标签与住房附近的兴趣标签和城市地理兴趣标签进行匹配。匹配就是找相同的标签。这样提取出住房附近的相同标签,整个城市的相同标签。
匹配成功后,将匹配的地理兴趣点标签,根据匹配标签查询住房附近,整个城市对应的聚类地理中心点和中心点的相关地理资料信息,按照用户出行的时间划分排序推荐给用户。
可选的,所述地图APP程序可以是百度或高德地图。
图2示出了整个系统的模块设计:
信息采集模块:
主要是做用户数据的采集;城市地理位置对应相关信息的采集;地图 APP程序POI数据采集;
数据存储模块:
对数据进行分类存储,按照格式化的方式存储。存储采集模块采集到的数据和算法模块计算后的数据。(格式化数据例如:用户ID,用户经度,用户纬度,用户到达这点的时间按照每个数据信息一列一列存储)。
算法模块:
各种算法都在这个模块中集成。本系统主要用到的算法DBScan在这个模块里计算,训练。
匹配策略模块:
进行用户和住所用户和城市兴趣地点匹配策略。
这个匹配策略可以按照业务逻辑用户兴趣或用户反馈城市天气等很多信息做不同的或者几种结合的策略。主要是针对流程里面第五步骤进行用户和城市和居住地附近数据的匹配策略。
推荐引擎模块:
这个模块主要是,将前面匹配的兴趣坐标等相关数据,按照一定的方式展示给用户。
以上仅是本发明的可选实施方式而已,并非对本发明做任何形式上的限制,凡是依据本发明的技术实质对以上实施方式所做的任意简单修改、等同变化、结合或修饰,均仍属于本发明技术方案的保护范围。
本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件(例如处理器)完成,所述程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光盘等;可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现;相应地,上述实施例中的每个模块/ 单元可以采用硬件的形式实现,例如通过集成电路来实现其相应功能,也可以采用软件功能模块的形式实现,例如通过处理器执行存储于存储器中的程序/指令来实现其相应功能;本发明不限制于任何特定形式的硬件和软件的结合。
虽然本申请所揭露的实施方式如上,但所述的内容仅为便于理解本申请而采用的实施方式,并非用以限定本申请,如本发明实施方式中的具体的实现方法;任何本申请所属领域内的技术人员,在不脱离本申请所揭露的精神和范围的前提下,可以在实施的形式及细节上进行任何的修改与变化,但本申请的专利保护范围,仍须以所附的权利要求书所界定的范围为准。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (12)
1.一种基于机器学习统计模型的入住酒店附近生活推荐系统,其特征在于,包括:
信息采集模块:用于对用户数据进行采集;对城市地理位置对应相关信息的采集;以及对地图APP程序POI数据采集;
数据存储模块:用于对数据进行分类存储,按照格式化的方式存储;存储采集模块采集到的数据以及经过算法模块计算后的数据;
算法模块:采用算法DBScan在对数据进行计算和训练;
匹配策略模块:执行用户和住所,用户和城市的兴趣地点匹配策略;
该匹配策略按照业务逻辑、用户兴趣或用户反馈城市天气进行不同的或者几种结合的策略;
推荐引擎模块:用于将所述匹配的兴趣地点坐标数据展示给用户。
2.根据权利要求1所述的系统,其特征在于,所述格式化数据包括:用户ID,用户经度,用户纬度,用户到达地点的时间。
3.根据权利要求2所述的系统,其特征在于,所述数据存储模块:用于获取到三个方面用户地理坐标经纬度数据;包括当前住房用户的历史经纬度数据,住房附近N公里内全部用户历史经纬度数据,房屋所在城市全部用户历史经纬度数据;
数据存储在分布式Hive表中,通过Hive表获取可以获取三个月的历史地理经纬度坐标数据对(记做lat,lng)作为训练样本。
4.根据权利要求3所述的系统,其特征在于,所述算法模块:采用Dbscan密度聚类算法,做经纬度聚类计算;
按顺序取一个经纬度坐标lat,lng对记为点P1,从这个坐标点出发,找到这个坐标附近距离小于E(E是最小距离参数)的全部经纬度坐标点;
其中最小距离阈值E是输入参数;坐标点的距离是用欧氏距离来计算的
欧氏距离公式:
欧式距离
公式中的Xik,Xjk为坐标点信息;
这个P1点和全部的经纬度坐标点都计算距离后,将距离按照从小到大的顺序排序找到距离小于E值的全部坐标点,如果小于阈值E的坐标点个数达到阈值G个,其中的G是算法输入参数设置一个范围内聚集多少个坐标点;将这些点群记为M1,那么点P1和点群M1算作一范围的群体,算法再继续找第二个点P2用同样的方法算第二个范围的群体M2,一直下去计算全部的经纬度点和相应的点,找到全部的点群;再计算点群与点群之间的距离,该距离仍然根据欧氏距离计算,如果两个点群之间的距离小于E那么这两个点群就可以合并成一个点群,如果距离大于E那么这两个点群就是记做两个点群集合,经过循环迭代的计算可以把全部的经纬度点,按照距离的大小聚集成不同的点群集合。
5.根据权利要求4所述的系统,其特征在于,所述算法模块进一步包括:参数E和G的设置采用先估算大概值,然后通过网格搜索方式确定具体选值的方法来确定;最小距离阈值E的大小估算方法用实际的地理位置大小来估算;根据上面估算的E和G值,再通过网格搜索在估算范围内选择多个E多个G值进行多次试验的方式最终确定E和G的取值。
6.根据权利要求5所述的系统,其特征在于,所述算法模块进一步包括:聚类后的三种数据中都聚类了多个点的集合;现在对每一个集合求出一个对应的中心点;
计算方法一:
对聚到一个地理位置集合里的全部坐标点;
求经度最大值,最小值;计算平均值lng_avg=(lng_max-lng_min)/2
纬度最大值,最小值;计算平均值lat_avg=(lat_max-lat_min)/2
最后用经纬度平均值作为中心点;
计算方法二:
计算全部经纬度加和平均值,作为中心点;
根据上面两种方法观察数据选择一个效果相对好的之一。
7.根据权利要求6所述的系统,其特征在于,所述算法模块进一步包括:求出的多个中心点调用地图APP程序提供的API接口,获取聚类中心点的POI信息从而进行格式化保存。
8.根据权利要求1所述的系统,其特征在于,所述匹配策略模块进一步包括:用户的地理兴趣标签按照时间排序,将时间段划分为:清晨,上午,中午,下午,晚上;根据不同时间段划分将用户地理兴趣点分类标签也按照时间划分;将划分后的兴趣地理信息标签与住房附近的兴趣标签和城市地理兴趣标签进行匹配;匹配就是找相同的标签;提取出住房附近的相同标签,整个城市的相同标签。
9.根据权利要求1所述的系统,其特征在于,所述推荐引擎模块进一步包括:根据匹配标签查询住房附近,整个城市对应的聚类地理中心点和中心点的相关地理资料信息,按照用户出行的时间划分排序推荐给用户。
10.一种基于机器学习统计模型的入住酒店附近生活推荐的方法,其特征在于,包括:
第一步骤
通过系统内部数据存储平台,获取到三个方面用户地理坐标经纬度数据;包括当前住房用户的历史经纬度数据,住房附近N公里内全部用户历史经纬度数据,房屋所在城市全部用户历史经纬度数据;
数据存储在分布式Hive表中,通过Hive表获取可以获取三个月的历史地理经纬度坐标数据对(记做lat,lng)作为训练样本;
第二步骤
将上面三组数据,都进行聚类计算;采用Dbscan密度聚类算法,做经纬度聚类计算;
按顺序取一个经纬度坐标lat,lng对记为点P1,从这个坐标点出发,找到这个坐标附近距离小于E的全部经纬度坐标点;
其中最小距离阈值E是输入参数;坐标点的距离是用欧氏距离来计算的
欧氏距离公式:
欧式距离
公式中的Xik,Xjk为坐标点信息;
这个P1点和全部的经纬度坐标点都计算距离后,将距离按照从小到大的顺序排序找到距离小于E值的全部坐标点,如果小于阈值E的坐标点个数达到阈值G个,其中的G是算法输入参数设置一个范围内聚集多少个坐标点;将这些点群记为M1,那么点P1和点群M1算作一范围的群体,算法再继续找第二个点P2用同样的方法算第二个范围的群体M2,一直下去计算全部的经纬度点和相应的点,找到全部的点群;再计算点群与点群之间的距离,该距离仍然根据欧氏距离计算,如果两个点群之间的距离小于E那么这两个点群就可以合并成一个点群,如果距离大于E那么这两个点群就是记做两个点群集合,经过循环迭代的计算可以把全部的经纬度点,按照距离的大小聚集成不同的点群集合;
上面的算法涉及到两个参数:一个参数是聚集点最小距离阈值E和每个集合聚集的最小点个数G;
根据上面估算的两个E,G值,再通过网格搜索在估算范围内选择多个E多个G值进行多次试验的方式最终确定E和G的取值;
得到了三个方面数据对应经纬度地理位置聚类的结果;
第三步骤
聚类后的三个方面数据中都聚类了多个点的集合;现在对每一个集合求出一个对应的中心点;
计算方法一:
对聚到一个地理位置集合里的全部坐标点;
求经度最大值,最小值;计算平均值lng_avg=(lng_max-lng_min)/2
纬度最大值,最小值;计算平均值lat_avg=(lat_max-lat_min)/2
最后用经纬度平均值作为中心点;
计算方法二:
计算全部经纬度加和平均值,作为中心点;
根据上面两种方法观察数据选择一个效果相对好的之一;
第四步骤
根据上一步骤求出的多个中心点调用地图APP程序提供的API接口,获取聚类中心点的POI信息并格式化保存;
地图APP程序都给用户留有API调用接口;通过API调用接口,可以获取地图APP程序里的POI信息数据;
有了地理聚类POI兴趣点信息数据后,对三方面数据:用户,城市,住所聚类的数据分别打上分类tag;保存数据;
第五步骤
用户的地理兴趣标签按照时间排序,将时间段划分为:清晨,上午,中午,下午,晚上;根据不同时间段划分将用户地理兴趣点分类标签也按照时间划分;将划分后的兴趣地理信息标签与住房附近的兴趣标签和城市地理兴趣标签进行匹配;匹配就是找相同的标签;从而提取出住房附近的相同标签,整个城市的相同标签;
匹配成功后,将匹配的地理兴趣点标签,根据匹配标签查询住房附近,整个城市对应的聚类地理中心点和中心点的相关地理资料信息,按照用户出行的时间划分排序推荐给用户。
11.根据权利要求10所述的方法,其特征在于,所述POI数据包括:地理坐标,地理位置名称地理位置是商圈,小区,旅游景点。
12.根据权利要求10所述的方法,其特征在于,所述地图APP程序可以是百度或高德地图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710473308.1A CN107291888B (zh) | 2017-06-21 | 2017-06-21 | 基于机器学习统计模型的入住酒店附近生活推荐系统方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710473308.1A CN107291888B (zh) | 2017-06-21 | 2017-06-21 | 基于机器学习统计模型的入住酒店附近生活推荐系统方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107291888A true CN107291888A (zh) | 2017-10-24 |
CN107291888B CN107291888B (zh) | 2020-12-01 |
Family
ID=60097940
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710473308.1A Active CN107291888B (zh) | 2017-06-21 | 2017-06-21 | 基于机器学习统计模型的入住酒店附近生活推荐系统方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107291888B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107967358A (zh) * | 2017-12-21 | 2018-04-27 | 广东欧珀移动通信有限公司 | 目标地点的推荐方法、装置、存储介质及移动终端 |
CN108122012A (zh) * | 2017-12-28 | 2018-06-05 | 百度在线网络技术(北京)有限公司 | 常驻点中心点的确定方法、装置、设备及存储介质 |
CN108255175A (zh) * | 2017-12-29 | 2018-07-06 | 北京韧达科控自动化技术有限公司 | 旅行箱 |
CN109190130A (zh) * | 2018-08-30 | 2019-01-11 | 昆明理工大学 | 一种基于poi相似度与翻译机器匹配推荐算法的研究方法 |
CN109582877A (zh) * | 2018-10-19 | 2019-04-05 | 北京联合大学 | 一种基于地理信息的公共服务推荐方法及系统 |
CN109978394A (zh) * | 2019-03-29 | 2019-07-05 | 许昌学院 | 一种基于天然气用气数据的住房空置率估算方法 |
CN109992638A (zh) * | 2019-03-29 | 2019-07-09 | 北京三快在线科技有限公司 | 地理位置poi的生成方法、装置、电子设备和存储介质 |
WO2019157652A1 (zh) * | 2018-02-13 | 2019-08-22 | 徐璇炫 | 为举办会议的酒店确定其可为参会者提供的服务 |
CN110321495A (zh) * | 2019-06-03 | 2019-10-11 | 平安科技(深圳)有限公司 | 活动消息的推送方法、装置、计算机设备及存储介质 |
WO2019228391A1 (en) * | 2018-05-31 | 2019-12-05 | Beijing Didi Infinity Technology And Development Co., Ltd. | Systems and methods for online to offline services |
WO2020000799A1 (zh) * | 2018-06-28 | 2020-01-02 | 平安科技(深圳)有限公司 | 旅游行程信息获取方法、系统及服务器 |
CN111523007A (zh) * | 2020-04-27 | 2020-08-11 | 北京百度网讯科技有限公司 | 用户感兴趣信息确定方法、装置、设备以及存储介质 |
CN113282690A (zh) * | 2020-02-19 | 2021-08-20 | 百度在线网络技术(北京)有限公司 | 兴趣点召回的排序方法、装置、设备和存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060200309A1 (en) * | 2005-03-07 | 2006-09-07 | Hung-Chih Yu | Data structure of a point of interest and method for use and application of a point of interest with data structure |
CN102594905A (zh) * | 2012-03-07 | 2012-07-18 | 南京邮电大学 | 一种基于场景的社交网络位置兴趣点推荐方法 |
CN104391847A (zh) * | 2014-05-22 | 2015-03-04 | 艺龙网信息技术(北京)有限公司 | 一种基于用户行为的酒店排序方法、云端服务器及系统 |
CN105354196A (zh) * | 2014-08-19 | 2016-02-24 | 北京羽扇智信息科技有限公司 | 信息推送方法和信息推送装置 |
CN106296488A (zh) * | 2016-08-08 | 2017-01-04 | 武汉理工大学 | 一种基于众包模式的智慧旅游系统及方法 |
CN106570722A (zh) * | 2016-10-31 | 2017-04-19 | 上海斐讯数据通信技术有限公司 | 一种智能推荐系统及智能推荐方法 |
-
2017
- 2017-06-21 CN CN201710473308.1A patent/CN107291888B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060200309A1 (en) * | 2005-03-07 | 2006-09-07 | Hung-Chih Yu | Data structure of a point of interest and method for use and application of a point of interest with data structure |
CN102594905A (zh) * | 2012-03-07 | 2012-07-18 | 南京邮电大学 | 一种基于场景的社交网络位置兴趣点推荐方法 |
CN104391847A (zh) * | 2014-05-22 | 2015-03-04 | 艺龙网信息技术(北京)有限公司 | 一种基于用户行为的酒店排序方法、云端服务器及系统 |
CN105354196A (zh) * | 2014-08-19 | 2016-02-24 | 北京羽扇智信息科技有限公司 | 信息推送方法和信息推送装置 |
CN106296488A (zh) * | 2016-08-08 | 2017-01-04 | 武汉理工大学 | 一种基于众包模式的智慧旅游系统及方法 |
CN106570722A (zh) * | 2016-10-31 | 2017-04-19 | 上海斐讯数据通信技术有限公司 | 一种智能推荐系统及智能推荐方法 |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107967358A (zh) * | 2017-12-21 | 2018-04-27 | 广东欧珀移动通信有限公司 | 目标地点的推荐方法、装置、存储介质及移动终端 |
CN108122012A (zh) * | 2017-12-28 | 2018-06-05 | 百度在线网络技术(北京)有限公司 | 常驻点中心点的确定方法、装置、设备及存储介质 |
CN108255175A (zh) * | 2017-12-29 | 2018-07-06 | 北京韧达科控自动化技术有限公司 | 旅行箱 |
WO2019157652A1 (zh) * | 2018-02-13 | 2019-08-22 | 徐璇炫 | 为举办会议的酒店确定其可为参会者提供的服务 |
WO2019228391A1 (en) * | 2018-05-31 | 2019-12-05 | Beijing Didi Infinity Technology And Development Co., Ltd. | Systems and methods for online to offline services |
WO2020000799A1 (zh) * | 2018-06-28 | 2020-01-02 | 平安科技(深圳)有限公司 | 旅游行程信息获取方法、系统及服务器 |
CN109190130A (zh) * | 2018-08-30 | 2019-01-11 | 昆明理工大学 | 一种基于poi相似度与翻译机器匹配推荐算法的研究方法 |
CN109190130B (zh) * | 2018-08-30 | 2022-04-12 | 昆明理工大学 | 一种基于poi相似度与翻译机器匹配推荐算法的研究方法 |
CN109582877A (zh) * | 2018-10-19 | 2019-04-05 | 北京联合大学 | 一种基于地理信息的公共服务推荐方法及系统 |
CN109992638B (zh) * | 2019-03-29 | 2020-11-20 | 北京三快在线科技有限公司 | 地理位置poi的生成方法、装置、电子设备和存储介质 |
CN109992638A (zh) * | 2019-03-29 | 2019-07-09 | 北京三快在线科技有限公司 | 地理位置poi的生成方法、装置、电子设备和存储介质 |
CN109978394A (zh) * | 2019-03-29 | 2019-07-05 | 许昌学院 | 一种基于天然气用气数据的住房空置率估算方法 |
CN110321495A (zh) * | 2019-06-03 | 2019-10-11 | 平安科技(深圳)有限公司 | 活动消息的推送方法、装置、计算机设备及存储介质 |
CN110321495B (zh) * | 2019-06-03 | 2024-06-25 | 平安科技(深圳)有限公司 | 活动消息的推送方法、装置、计算机设备及存储介质 |
CN113282690A (zh) * | 2020-02-19 | 2021-08-20 | 百度在线网络技术(北京)有限公司 | 兴趣点召回的排序方法、装置、设备和存储介质 |
CN113282690B (zh) * | 2020-02-19 | 2024-04-02 | 百度在线网络技术(北京)有限公司 | 兴趣点召回的排序方法、装置、设备和存储介质 |
CN111523007A (zh) * | 2020-04-27 | 2020-08-11 | 北京百度网讯科技有限公司 | 用户感兴趣信息确定方法、装置、设备以及存储介质 |
CN111523007B (zh) * | 2020-04-27 | 2023-12-26 | 北京百度网讯科技有限公司 | 用户感兴趣信息确定方法、装置、设备以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN107291888B (zh) | 2020-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107291888A (zh) | 基于机器学习统计模型的入住酒店附近生活推荐系统方法 | |
Zheng et al. | GeoLife: A collaborative social networking service among user, location and trajectory. | |
Orellana et al. | Exploring visitor movement patterns in natural recreational areas | |
CN104537027B (zh) | 信息推荐方法及装置 | |
Krueger et al. | Visual analysis of movement behavior using web data for context enrichment | |
JP5815936B2 (ja) | 文脈情報からユーザに対する行動種別を決定する推論モデルを生成するプログラム | |
Zheng et al. | Learning travel recommendations from user-generated GPS traces | |
CN104380293B (zh) | 基于位置从地图历史提供相关元素信息的方法和计算装置 | |
CN103488760B (zh) | 地理信息瓦片服务的提供方法及实现该方法的装置 | |
CN111737605A (zh) | 一种基于手机信令数据的出行目的识别方法及装置 | |
Bin et al. | A travel route recommendation system based on smart phones and IoT environment | |
Falcone et al. | What is this place? Inferring place categories through user patterns identification in geo-tagged tweets | |
CN105718576B (zh) | 与地理特征相关的个性化位置推荐系统 | |
CN107330734B (zh) | 基于Co-location模式和本体的商业地址选择方法 | |
CN107977673A (zh) | 一种基于大数据的经济活动人口识别方法 | |
Shaikh et al. | An AHP/TOPSIS-based approach for an optimal site selection of a commercial opening utilizing geospatial data | |
CN109121093A (zh) | 一种基于被动式WiFi与深度聚类的用户画像构建方法及系统 | |
Alamsyah et al. | Tourist Movement Analysis using Social Media Data in Indonesia | |
CN110968766A (zh) | 基于游客画像及lbs数据的出游方案推荐算法 | |
Chen et al. | Understanding travel patterns of tourists from mobile phone data: A case study in Hainan | |
CN110555174B (zh) | 一种基于r树的轨迹路径推荐方法 | |
Chang et al. | Hotel recommendation based on surrounding environments | |
D'Andrea et al. | Path clustering based on a novel dissimilarity function for ride-sharing recommenders | |
Xu et al. | Cross-urban point-of-interest recommendation for non-natives | |
Gong et al. | Learning spatial interaction representation with heterogeneous graph convolutional networks for urban land-use inference |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address |
Address after: 1726-2, 17th Floor, Zhongheng Building, No. 111 Bada Street, Industrial Park, Suzhou City, Jiangsu Province, 215000 Patentee after: Suzhou Fabiao Intelligent Technology Co.,Ltd. Address before: 215522 unit 2-a1f-10, creative industry park, 328 Xinghu street, Suzhou Industrial Park, Suzhou City, Jiangsu Province Patentee before: SUZHOU FABIAO INTELLIGENT TECHNOLOGY CO.,LTD. |
|
CP03 | Change of name, title or address |