CN111079968A - 基于多特征融合的景区游玩轨迹预测系统 - Google Patents

基于多特征融合的景区游玩轨迹预测系统 Download PDF

Info

Publication number
CN111079968A
CN111079968A CN201811229076.6A CN201811229076A CN111079968A CN 111079968 A CN111079968 A CN 111079968A CN 201811229076 A CN201811229076 A CN 201811229076A CN 111079968 A CN111079968 A CN 111079968A
Authority
CN
China
Prior art keywords
scenic spot
feature
scenic
data
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811229076.6A
Other languages
English (en)
Inventor
杨银剑
赵德滨
张吉利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunshan Xuanlife Information Technology Co ltd
Original Assignee
Kunshan Xuanlife Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunshan Xuanlife Information Technology Co ltd filed Critical Kunshan Xuanlife Information Technology Co ltd
Priority to CN201811229076.6A priority Critical patent/CN111079968A/zh
Publication of CN111079968A publication Critical patent/CN111079968A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • G06Q10/047Optimisation of routes or paths, e.g. travelling salesman problem
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/14Travel agencies

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • General Health & Medical Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及大数据挖掘技术领域,公开了基于多特征融合的景区游玩轨迹预测系统,包括数据采集、平台层、模型层和应用层,通过人脸识别技术识别出游客ID信息,关联出游客的画像信息,使用网络爬虫技术爬取景区的历史气象信息,形成气象特征库,并与其它特征结合,生成多维度的游览特征。当有游客进入某个景点时,系统根据当前游客特征,气象信息以及景区特征实时计算每个游客转移到下一个景点的概率,并实时计算出每个景区可能的游客数,对达到人流预警阈值的景区,向可能去这些景区的游客实行消息推送预警,并推荐到其他的景区,最终实现轨迹预测以及人流量预警,人流智能分流,提升景区管理服务水平,提升游客满意度。

Description

基于多特征融合的景区游玩轨迹预测系统
技术领域
本发明涉及大数据挖掘技术领域,特别涉及基于多特征融合的景区游玩轨迹预测系统。
背景技术
随着国内旅游需求的不断提升,各个景区节假日游客流量呈现爆发式增长,大规模的人流量爆发呈现集中式且无规律性发展。如何快速有效的预测游客游玩轨迹与景区人流量以及如何对游客流量进行有效引导,已经成为提升景区服务品质和提高游客满意度的重要研究方向。传统的游玩轨迹预测主要有以下几种方式。
1.基于关联性的轨迹预测
2.基于密度聚类的轨迹位置预测
3.基于统计的轨迹位置预测
基于关联性的轨迹预测考虑大部分游客的历史轨迹数据,选择支持度与置信度大于一定阈值的关联轨迹作为预测,无法实时动态的预测轨迹,对于一些新出现的景区无法预测轨迹,导致热门景区越热门的现象,无法做到景区人流分流的作用。
基于密度聚类的轨迹位置预测则是轨迹聚类研究主要关注物体的空间位置变化,时空聚类中时间等其他特征只是作为辅助信息或者没有使用。
基于统计的轨迹位置预测从历史轨迹中发现有意义的位置,并结合停留时间提取人们花了一些时间进行一些活动的地点。存在以下问题:1,提取的结果由于只是统计结果,不适合变化较大的旅游路线。2,只统计高频的游客轨迹数据,不适合预测低频次游客的轨迹。
针对以上背景技术存在的缺点与不足,发明了一种既可以预测低频游客轨迹又可以适合经常变化旅游路线的预测方法。
发明内容
本发明的目的在于提供基于多特征融合的景区游玩轨迹预测系统,实现了基于多维特征不平衡样本下的景区游玩轨迹预测,并能实现并行运算,在保证准确率的同时提高算法运行速度,以解决上述背景技术中提出的问题。为实现上述目的,本发明提供如下具体的技术方案:
基于多特征融合的景区游玩轨迹预测系统,包括数据采集、平台层、模型层、应用层以及安全审计,其中,
数据采集:景区多点部署摄像头,摄像头采集视频流数据转换为图帧实时上传人脸识别系统,支付产品采集游客支付数据,支付产品采集人脸信息结构化与非结构化数据,爬虫服务器爬取景区历史气象数据。
平台层:搭建分布式集群服务器,存储海量的游客信息,支付信息,图像,视频等数据,并提供资源弹性调度Yarn管理,运用深度学习计算包,keras,openCv,搭建数据处理机器学习平台;
模型层:抽取,转换,加载平台层数据,综合各种数据源,构建五种类型特征:人物画像特征,景区气象特征,购买物品特征,人流倾向特征,景区位置特征;
应用层:接受用户兴趣参数,根据用户选择偏好,对游客景点预测,并进行游客景点推荐,对景区人流预警并作出景区分流,景区动态向客户端消息推送;
安全审计:对系统下的景区游玩活动进行检查验证,并进行独立的检查验证,作出相应的评价;
进一步地,采集人物画像特征、景区气象特征、商品特征、人流倾向特征、景区位置特征5大类单独特征,进行特征组合,一维特征26种,二维特征组合
Figure BDA0001836680830000021
种,三维特征组合
Figure BDA0001836680830000022
种,采用二维以内组合特征作为原始特征进行景区轨迹的预测,总共包含325+26=351种特征。
进一步地,模型层的模型算法选择XGboost,学习的目标函数包含训练误差和正则化两部分,对于训练误差,公式如下:
obj(θ)=L(θ)+Ω(θ)
其中L是损失函数,度量模型预测与真实值的误差,Ω(θ)是正则化函数。Ω是正则化项,度量模型的复杂度,避免过拟合,常用的正则化有L1和L2正则化。
进一步地,特征选择是从海量维度的特征中选取表征明显的特征,通过关联分析和数据融合方法提取重要特征和融合相关性特征,相关系数的绝对值越大,相关性越强,相关系数越接近于1和-1,相关度越强,相关系数越接近于0,相关度越弱,数据相关性分析,皮尔逊系数公式如下:
Figure BDA0001836680830000031
其中,X,Y表示两个变量的数字向量。
Figure BDA0001836680830000032
表示X变量平均值,
Figure BDA0001836680830000033
表示Y变量平均值。Xi表示X变量的第i个数字特征,Yi表示Y变量的第i个数字特征。
进一步地,模型层的算法选择采用XGBoost,学习的目标函数包含训练误差和正则化两部分,对于训练误差,算法公式如下:
obj(θ)=L(θ)+Ω(θ) (2)
其中L是损失函数,度量模型预测与真实值的误差,Ω(θ)是正则化函数,Ω是正则化项,度量模型的复杂度,避免过拟合,常用的正则化有L1和L2正则化。
进一步地,损失函数采用SoftmaxLoss,公式如下:
Figure BDA0001836680830000034
其中,fj表示f向量的第j个元素。N表示训练数据的数量,log函数的括号里面的内容就是softmax,就是属于各个类别的概率,
Figure BDA0001836680830000041
表示为全连接层的输出:
Figure BDA0001836680830000042
公式(4)中
Figure BDA0001836680830000043
表示第i个特征的权重,xi表示第i个特征。
上面这个式子就是权重向量W和特征向量x的内积,因此可以写成下面这样:
fj=||Wj||||xi||cos(θj) (5)
公式(5)中Wj表示权重向量W,xi表示特征向量x,cos(θj)表示夹角余弦,
对于一般损失函数,XGBoost会使用泰勒展开的形式进而用到二阶导数,目标函数:
Figure BDA0001836680830000044
公式(6)中,
Figure BDA0001836680830000045
表示预测值与真实值的损失,ft(xi)表示特征xi全连接层的输出,Ω(ft)表示正则化函数,C为常数,根据权利要求3所述的基于大数据景区游玩轨迹预测系统,其特征在于,对于正则化,重新定义每棵树,将树f拆分成树结构q和叶子权重部分w,结构函数q把输入映射到叶子的索引上,w给定每个索引号对应叶子的分数:
ft(x)=wq(x),w∈RT,q:Rd→{1,2,...,T}
当给定了树定义后,每颗树的复杂度可以定义为:
Figure BDA0001836680830000046
其中T为叶子的个数,
Figure BDA0001836680830000047
表示w的L2模平方。
基于大数据景区游玩轨迹预测系统的预测方法,包括如下步骤:
步骤一:通过人脸识别技术识别出游客ID信息,然后关联出游客的历史消费信息,行为偏好,游玩路线用户画像信息;
步骤二:对景区的历史气象信息使用网络爬虫进行爬取,保存到气象特征库;
步骤三:提取商家商品信息,最后,结合景区历史游览路线,生成多维度的游览特征;
步骤四:进行特征组合选择,通过线下训练模型,挑选符合验证条件的训练模型,加载到线上预测部分。
步骤五:线上部分预测,当有游客进入某个景点时,系统根据当前游客特征,气象信息以及景区特征实时计算每个游客转移到下一个景点的概率,并取最大概率值作为最可能的预测景区,并实时计算出每个景区可能的游客数;
步骤六:对达到人流预警阈值的景区,向可能去这些景区的游客实行消息推送预警,并推荐到其他的景区。
与现有技术相比,本发明的有益效果是:
本发明结合了游客特征,气象特征,商品特征,景区路线,景区地理位置等特征以及相互之间的影响组合,采用机器学习的方法,较全面,客观的分析了各个特征对轨迹的影响,同时本发明所采用的树结构预测方法能做到并行化,特别适合大数据量实时预测。因此,本发明解决了景区人流量季节性爆发,非季节性突然爆发情况;同时对冷门景点有较好的泛化作用,适用于景区轨迹预测与人流量预警等方面。
附图说明
图1为本发明的系统整体架构图;
图2为本发明的人脸识别图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
根据图1-2,基于多特征融合的景区游玩轨迹预测系统,包括数据采集、平台层、模型层、应用层,其中:
数据采集:景区多点部署摄像头,摄像头采集视频流数据转换为图帧实时上传人脸识别系统,支付产品采集游客支付数据,支付产品采集人脸信息结构化与非结构化数据,爬虫服务器爬取景区历史气象数据;
平台层:搭建分布式集群服务器,存储海量的游客信息,支付信息,图像,视频等数据,并提供资源弹性调度Yarn管理,运用深度学习计算包,keras,openCv,搭建数据处理机器学习平台;
模型层:抽取,转换,加载平台层数据,综合各种数据源,构建五种类型特征:人物画像特征,景区气象特征,购买物品特征,人流倾向特征,景区位置特征。
详细特征如下:
Figure BDA0001836680830000061
Figure BDA0001836680830000071
Figure BDA0001836680830000081
采集人物画像特征、景区气象特征、商品特征、人流倾向特征、景区位置特征5大类单独特征,进行特征组合,一维特征26种,二维特征组合
Figure BDA0001836680830000082
种,三维特征组合
Figure BDA0001836680830000083
种。本文采用二维以内组合特征作为原始特征进行景区轨迹的预测,总共包含325+26=351种特征,需要判断哪些是相关特征,哪些是不相关特征,因此引入特征选择,结合模型训练,预测游客进入下一景区的概率。
特征选择是从海量维度的特征中选取表征明显的特征,通过关联分析和数据融合方法提取重要特征和融合相关性特征。
数据相关性分析,皮尔逊系数公式如下:
Figure BDA0001836680830000084
公式(1)中X,Y表示两个变量的数字向量。
Figure BDA0001836680830000085
表示X变量平均值,
Figure BDA0001836680830000086
表示Y变量平均值。Xi表示X变量的第i个数字特征,Yi表示Y变量的第i个数字特征。
相关系数的绝对值越大,相关性越强,相关系数越接近于1和-1,相关度越强,相关系数越接近于0,相关度越弱。
皮尔逊计算矩阵:
Figure BDA0001836680830000091
根据皮尔逊相关系数法,提取系数得分最高的相关特征,提取特征示例如下:
特征组合 相关系数
性别-消费能力 0.50
兴趣偏好-消费能力 0.35
性别-商品类别 0.33
年龄-商品类别 0.32
兴趣爱好-景区类别 0.315
年龄-景区类别 0.313
年龄-消费能力 0.31
选择皮尔逊相关系数大于0.001的特征组合,作为选择特征集合。
针对每个景区人流量不同,有的景区之间可能是数百数量级,因此,存在分类不平衡问题。主要的解决方式有以下三种:
1.减少热门景区的样本数量,使得数据平衡,再进一步分类,这种情况属
于“欠采样”;
2.增加冷门景区的数据,再分类,称为“过采样”;
3.混合采样,增加冷门景区的样本数并减少热门景区的样本数。
本发明采用第3种混合采样的方式解决样本不平衡问题进行游玩轨迹预测,以解决热门景区越热门,冷门景区无人问津的问题。
模型算法选择XGBoost。XGBoost用于监督学习问题(分类)。学习的目标函数包含两部分:训练误差和正则化。
obj(θ)=L(θ)+Ω(θ) (2)
其中,L是损失函数,度量模型预测与真实值的误差,Ω(θ)是正则化函数。Ω是正则化项,度量模型的复杂度,避免过拟合,常用的正则化有L1和L2正则函数。损失函数采用Softmax Loss,公式如下:
Figure BDA0001836680830000101
其中,fj表示f向量的第j个元素。N表示训练数据的数量,log函数的括号里面的内容就是softmax,就是属于各个类别的概率,
Figure BDA0001836680830000102
表示为全连接层的输出:
Figure BDA0001836680830000103
公式(4)中
Figure BDA0001836680830000104
表示第i个特征的权重,xi表示第i个特征。
上面这个式子就是权重向量W和特征向量x的内积,因此可以写成下面这样:
fj=||Wj||||xi||cos(θj) (5)
公式(5)中Wj表示权重向量W,xi表示特征向量x,cos(θj)表示夹角余弦。
对于一般损失函数,XGBoost会使用泰勒展开的形式进而用到二阶导数。目标函数:
Figure BDA0001836680830000111
公式(6)中,
Figure BDA0001836680830000112
表示预测值与真实值的损失,ft(xi)表示特征xi全连接层的输出,Ω(ft)表示正则化函数,C为常数。
用泰勒展开来近似目标函数。
泰勒展开:
Figure BDA0001836680830000113
定义:
Figure BDA0001836680830000114
则有:
Figure BDA0001836680830000115
移除常量:
Figure BDA0001836680830000116
Figure BDA0001836680830000117
更新后的目标函数仅仅依赖一阶似然的一阶和二阶导数。
以上讨论了模型中训练误差的部分。下面来探讨模型复杂度Ω(ft)的表示方式。重新定义每棵树,将树f拆分成树结构q和叶子权重部分w。结构函数q把输入映射到叶子的索引上,而w给定了每个索引号对应叶子的分数。
ft(x)=wq(x),w∈RT,q:Rd→{1,2,...,T} (11)
当给定了如公式(11)的树定义后,每颗树的复杂度可以定义为公式(12),这个公式里定义了树中叶子节点的个数和每个树叶子节点的输出分数的L2正则项。
Figure BDA0001836680830000118
其中T为叶子的个数,
Figure BDA0001836680830000121
表示w的L2模平方。
这个目标函数包含了T个独立的单变量二次函数。上述目标函数对wj求导并令导数为0,可以求得:
Figure BDA0001836680830000122
Figure BDA0001836680830000123
最小化目标函数,取得目标函数最小化时的特征权重,最后生成特征方程:
Figure BDA0001836680830000124
公式(15)中,y为预测概率,Wi为特征xi的权重值,b为偏置项。y的分布最接近未来真实值的预测,从而预测出未来一定时期内符合一定特征的游客游玩景区的可能性。
具体实施时的步骤为:
●数据预处理
标签构建。对景区名称编码,编号从1~N,作为模型预测的标签。数据集删选,删除全为空的特征列,删除只有一个值的特征列,删除一些暂且无用的特征。
●特征选择
根据皮尔逊相关系数选择相关度高的特征组合,输入算法模型。
●模型训练
经过特征选择,挑选出m个特征,作为训练特征。对其中字符特征进行one-hot编码,转换为数值型。由于数据集是存在时间关系的,因此我们在做验证的时候需要按照时间排序,这样才可以获取较为精准的验证结果。
(1)参数训练
数据样本按照“8-2”原则,随机采样80%为训练集,20%验证集,验证集线下验证模型准确率,符合准确率的模型才能上线预测。同时,结合旅游场景,针对某些热门景区过于热门导致的冷门景区样本缺失,以及冷、热门样本数量相差悬殊,导致的不均衡样本分类问题,本文采取了过采样与欠采样结合的样本处理方式,对冷门景点相应的增加其样本规模,对热门景点按一定比例随机抽样其样本数量。最终预测结果包含冷、热门景点,具有一定的泛化能力。
(2)验证集验证
使用20%的验证集数据计算预测结果,通过多个迭代优化,进行多轮迭代训练,不断调整模型参数,保留验证集损失loss最小,验证正确率得分最高的模型。
●模型评估指标设计
设计指标函数,针对每个景区计算正确率。线下训练不断调整每个景区的F1(综合评价指标)的得分值。
●模型预测
符合验证条件的模型上线,预测游客下一次要去的景点。
系统模型部分整体分为两部分,线下训练与线上预测。线下训练阶段,首先对采集的游客历史数据进行数据预处理,特征选择。然后选择合适的模型,根据评估函数的表现,选择最优的模型参数,将生成的最优结果模型文件保存。线上预测阶段,当有游客进入某个景点时,系统获取当前游客特征,气象信息以及景区特征,并进行数据预处理,特征选择,将线下结果模型文件加载,采用线上分类预测算法计算出游客到下一个景点的概率,并取概率最大值对应的景区作为最可能的预测景区,如下表1和表2:
表1.游客景区预测输出
字段名称 字段含义
Person_ID 游客识别号,唯一ID
Pre_View_spot_id 预测景区编码
Pre_View_spot 预测景区名称
Pre_Score 预测概率
Time 预测时间
表2.景区人流预测预警输出
字段名称 字段含义
View_spot_id 景点编码
View_spot 景点名称
Pre_Tourist 预测游客数
Flow_threshold 人流阈值
Is_warn 是否告警
Level 告警级别
Time 预测时间
综上,本发明结合了游客特征,气象特征,商品特征,景区路线,景区地理位置等特征以及相互之间的影响组合,采用机器学习的方法,较全面,客观的分析了各个特征对轨迹的影响,同时本发明所采用的树结构预测方法能做到并行化,特别适合大数据量实时预测。因此,本发明解决了景区人流量季节性爆发,非季节性突然爆发情况;同时对冷门景点有较好的泛化作用,适用于景区轨迹预测与人流量预警等方面。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (7)

1.基于多特征融合的景区游玩轨迹预测系统,其特征在于,包括数据采集、平台层、模型层、应用层以及安全审计,其中,
数据采集:景区多点部署摄像头,摄像头采集视频流数据转换为图帧实时上传人脸识别系统,支付产品采集游客支付数据,支付产品采集人脸信息结构化与非结构化数据,爬虫服务器爬取景区历史气象数据。
平台层:搭建分布式集群服务器,存储海量的游客信息,支付信息,图像,视频等数据,并提供资源弹性调度Yarn管理,运用深度学习计算包,keras,openCv,搭建数据处理机器学习平台;
模型层:抽取,转换,加载平台层数据,综合各种数据源,构建五种类型特征:人物画像特征,景区天气特征,购买物品特征,人流倾向特征,景区位置特征;
应用层:接受用户兴趣参数,根据用户选择偏好,对游客景点预测,并进行游客景点推荐,对景区人流预警并作出景区分流,景区动态向客户端消息推送;
安全审计:对系统下的景区游玩活动进行检查验证,并进行独立的检查验证,作出相应的评价。
2.根据权利要求1所述的基于多特征融合的景区游玩轨迹预测系统,其特征在于,采集人物画像特征、景区气象特征、商品特征、人流倾向特征、景区位置特征5大类单独特征,进行特征组合,一维特征26种,二维特征组合
Figure FDA0001836680820000011
种,三维特征组合
Figure FDA0001836680820000012
种,采用二维以内组合特征作为原始特征进行景区轨迹的预测,总共包含325+26=351种特征。
3.根据权利要求1所述的基于多特征融合的景区游玩轨迹预测系统,其特征在于,模型层的模型算法选择XGBoost,学习的目标函数包含训练误差和正则化两部分,对于练误差,公式如下:
obj(θ)=L(θ)+Ω(θ)
其中L是损失函数,度量模型预测与真实值的误差,Ω(θ)是正则化函数。Ω是正则化项,度量模型的复杂度,避免过拟合,常用的正则化有L1和L2正则化。
4.根据权利要求1所述的基于多特征融合的景区游玩轨迹预测系统,其特征在于,特征选择是从海量维度的特征中选取表征明显的特征,通过关联分析和数据融合方法提取重要特征和融合相关性特征,相关系数的绝对值越大,相关性越强,相关系数越接近于1和-1,相关度越强,相关系数越接近于0,相关度越弱,数据相关性分析,皮尔逊系数公式如下:
Figure FDA0001836680820000021
其中,X,Y表示两个变量的数字向量。
Figure FDA0001836680820000022
表示X变量平均值,
Figure FDA0001836680820000023
表示Y变量平均值。Xi表示X变量的第i个数字特征,Yi表示Y变量的第i个数字特征。
5.根据权利要求1所述的基于多特征融合的景区游玩轨迹预测系统,其特征在于,模型层的模型算法选择XGBoost,学习的目标函数包含训练误差和正则化两部分,对于训练误差,算法公式如下:
obj(θ)=L(θ)+Ω(θ) (2)
其中L是损失函数,度量模型预测与真实值的误差,Ω(θ)是正则化函数,Ω是正则化项,度量模型的复杂度,避免过拟合,常用的正则化有L1和L2正则化。
6.根据权利要求3所述的基于多特征融合的景区游玩轨迹预测系统,其特征在于,损失函数采用SoftmaxLoss,公式如下:
Figure FDA0001836680820000024
其中,fj表示f向量的第j个元素。N表示训练数据的数量,log函数的括号里面的内容就是Softmax,就是属于各个类别的概率,ef yi表示为全连接层的输出:
Figure FDA0001836680820000031
公式(4)中
Figure FDA0001836680820000032
表示第i个特征的权重,xi表示第i个特征。
上面这个式子就是权重向量W和特征向量x的内积,因此可以写成下面这样:
fj=||Wj||||xi||cos(θj) (5)
公式(5)中Wj表示权重向量W,xi表示特征向量x,cos(θj)表示夹角余弦,
对于一般损失函数,XGBoost会使用泰勒展开的形式进而用到二阶导数,目标函数:
Figure FDA0001836680820000033
公式(6)中,
Figure FDA0001836680820000034
表示预测值与真实值的损失,ft(xi)表示特征xi全连接层的输出,Ω(ft)表示正则化函数,C为常数,根据权利要求3所述的基于大数据景区游玩轨迹预测系统,其特征在于,对于正则化,重新定义每棵树,将树f拆分成树结构q和叶子权重部分w,结构函数q把输入映射到叶子的索引上,w给定每个索引号对应叶子的分数:
ft(x)=wq(x),w∈RT,q:Rd→{1,2,...,T}
当给定了树定义后,每颗树的复杂度可以定义为:
Figure FDA0001836680820000035
其中T为叶子的个数,
Figure FDA0001836680820000036
表示w的L2模平方。
7.基于多特征融合的景区游玩轨迹预测系统,其特征在于,包括如下步骤:
步骤一:通过人脸识别技术识别出游客ID信息,然后关联出游客的历史消费信息,行为偏好,游玩路线用户画像信息;
步骤二:对景区的历史气象信息使用网络爬虫进行爬取,保存到气象特征库;
步骤三:提取商家商品信息,最后,结合景区历史游览路线,生成多维度的游览特征;
步骤四:进行特征组合选择,通过线下训练模型,挑选符合验证条件的训练模型,加载到线上预测部分。
步骤五:线上部分预测,当有游客进入某个景点时,系统根据当前游客特征,气象信息以及景区特征实时计算每个游客转移到下一个景点的概率,并取最大概率值作为最可能的预测景区,并实时计算出每个景区可能的游客数;
步骤六:对达到人流预警阈值的景区,向可能去这些景区的游客实行消息推送预警,并推荐到其他的景区。
CN201811229076.6A 2018-10-22 2018-10-22 基于多特征融合的景区游玩轨迹预测系统 Pending CN111079968A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811229076.6A CN111079968A (zh) 2018-10-22 2018-10-22 基于多特征融合的景区游玩轨迹预测系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811229076.6A CN111079968A (zh) 2018-10-22 2018-10-22 基于多特征融合的景区游玩轨迹预测系统

Publications (1)

Publication Number Publication Date
CN111079968A true CN111079968A (zh) 2020-04-28

Family

ID=70309695

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811229076.6A Pending CN111079968A (zh) 2018-10-22 2018-10-22 基于多特征融合的景区游玩轨迹预测系统

Country Status (1)

Country Link
CN (1) CN111079968A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112669985A (zh) * 2020-12-30 2021-04-16 华南师范大学 基于多源大数据深度学习的传染病协同预测方法和机器人
CN112988847A (zh) * 2021-04-20 2021-06-18 广东智九信息科技有限公司 一种基于大数据的景区人数预测系统以及方法
CN112990284A (zh) * 2021-03-04 2021-06-18 安徽大学 一种基于XGBoost算法的个体出行行为预测方法、系统及终端
CN113240354A (zh) * 2021-07-12 2021-08-10 湖南中惠旅智能科技有限责任公司 基于电子地图的智慧景区数据处理方法及系统
CN113688200A (zh) * 2021-10-27 2021-11-23 南通智大信息技术有限公司 一种基于决策树的特殊人群行动轨迹收集方法及系统
CN115240402A (zh) * 2022-07-13 2022-10-25 北京拙河科技有限公司 一种观光车调度方法和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104599201A (zh) * 2014-12-31 2015-05-06 安科智慧城市技术(中国)有限公司 基于视频监控的旅游景点导流方法、服务器以及系统
CN107357845A (zh) * 2017-06-26 2017-11-17 西安理工大学 一种基于Spark的旅游兴趣推荐系统及推荐方法
CN108038508A (zh) * 2017-12-12 2018-05-15 携程旅游网络技术(上海)有限公司 中转航班的推送方法、系统、存储介质和电子设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104599201A (zh) * 2014-12-31 2015-05-06 安科智慧城市技术(中国)有限公司 基于视频监控的旅游景点导流方法、服务器以及系统
CN107357845A (zh) * 2017-06-26 2017-11-17 西安理工大学 一种基于Spark的旅游兴趣推荐系统及推荐方法
CN108038508A (zh) * 2017-12-12 2018-05-15 携程旅游网络技术(上海)有限公司 中转航班的推送方法、系统、存储介质和电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BIGCOWPEKING: "人脸识别:Large-Margin Softmax Loss", 《HTTPS://BLOG.CSDN.NET/WFEI101/ARTICLE/DETAILS/80861728》, 29 June 2018 (2018-06-29), pages 1 - 3 *
杜军平等: "跨尺度运动图像的目标检测与跟踪", 哈尔滨工程大学出版社, pages: 166 - 167 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112669985A (zh) * 2020-12-30 2021-04-16 华南师范大学 基于多源大数据深度学习的传染病协同预测方法和机器人
CN112669985B (zh) * 2020-12-30 2023-08-04 华南师范大学 基于多源大数据深度学习的传染病协同预测方法和机器人
CN112990284A (zh) * 2021-03-04 2021-06-18 安徽大学 一种基于XGBoost算法的个体出行行为预测方法、系统及终端
CN112990284B (zh) * 2021-03-04 2022-11-22 安徽大学 一种基于XGBoost算法的个体出行行为预测方法、系统及终端
CN112988847A (zh) * 2021-04-20 2021-06-18 广东智九信息科技有限公司 一种基于大数据的景区人数预测系统以及方法
CN113240354A (zh) * 2021-07-12 2021-08-10 湖南中惠旅智能科技有限责任公司 基于电子地图的智慧景区数据处理方法及系统
CN113240354B (zh) * 2021-07-12 2021-10-15 湖南中惠旅智能科技有限责任公司 基于电子地图的智慧景区数据处理方法及系统
CN113688200A (zh) * 2021-10-27 2021-11-23 南通智大信息技术有限公司 一种基于决策树的特殊人群行动轨迹收集方法及系统
CN113688200B (zh) * 2021-10-27 2022-02-15 南通智大信息技术有限公司 一种基于决策树的特殊人群行动轨迹收集方法及系统
CN115240402A (zh) * 2022-07-13 2022-10-25 北京拙河科技有限公司 一种观光车调度方法和系统

Similar Documents

Publication Publication Date Title
CN111079968A (zh) 基于多特征融合的景区游玩轨迹预测系统
CN109977283B (zh) 一种基于知识图谱和用户足迹的旅游推荐方法和系统
CN110704674B (zh) 一种视频播放完整度预测方法及装置
CN109960737B (zh) 半监督深度对抗自编码哈希学习的遥感影像内容检索方法
CN111008337B (zh) 一种基于三元特征的深度注意力谣言鉴别方法及装置
CN112598438A (zh) 一种基于大规模用户画像的户外广告推荐系统及方法
CN115934990B (zh) 基于内容理解的遥感影像推荐方法
CN112668375B (zh) 景区内游客分布分析系统及方法
CN107918657A (zh) 一种数据源的匹配方法和装置
CN110851621A (zh) 基于知识图谱预测视频精彩级别的方法、装置及存储介质
CN109214863A (zh) 一种基于快递数据预测城市房屋需求的方法
Sakharova et al. Issues of tree species classification from LiDAR data using deep learning model
CN113836808A (zh) 一种基于重污染特征约束的pm2.5深度学习预测方法
CN114566052B (zh) 一种基于车流方向判别高速公路车流监控设备转动的方法
CN112766119A (zh) 一种基于多维度人脸分析精准识别陌生人构建社区安防的方法
CN111104614A (zh) 用于旅游目的地推荐系统的召回信息的生成方法
Khan et al. Explainable event recognition
CN112232885A (zh) 一种基于多模态信息融合的仓租价格预测方法
CN116662860A (zh) 一种基于能源大数据的用户画像与分类方法
Yang et al. Optimization of tourism information analysis system based on big data algorithm
Sun et al. Automatic building age prediction from street view images
CN112650949B (zh) 基于多源特征融合协同过滤的区域poi需求识别方法
CN112015937B (zh) 一种图片地理定位方法及系统
CN116150470A (zh) 内容推荐方法、装置、设备、存储介质及程序产品
Gang Personalized Recommendation of Tourist Attractions Based on Collaborative Filtering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination