CN107045673A - 基于堆模型融合的公共自行车流量变化量预测方法 - Google Patents

基于堆模型融合的公共自行车流量变化量预测方法 Download PDF

Info

Publication number
CN107045673A
CN107045673A CN201710206045.8A CN201710206045A CN107045673A CN 107045673 A CN107045673 A CN 107045673A CN 201710206045 A CN201710206045 A CN 201710206045A CN 107045673 A CN107045673 A CN 107045673A
Authority
CN
China
Prior art keywords
msub
mrow
features
mover
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710206045.8A
Other languages
English (en)
Other versions
CN107045673B (zh
Inventor
姜剑
林菲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN201710206045.8A priority Critical patent/CN107045673B/zh
Publication of CN107045673A publication Critical patent/CN107045673A/zh
Application granted granted Critical
Publication of CN107045673B publication Critical patent/CN107045673B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0637Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
    • G06Q10/06375Prediction of business process outcome or impact based on a proposed change
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/251Fusion techniques of input or preprocessed data

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Educational Administration (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于堆融合模型的公共自行车流量变化量预测方法。本发明步骤如下:1.采用了公共自行车租借记录数据和气象数据融合的方式提取特征,从时间、空间、气象、历史、聚类等几个角度构造特征向量;2.采用结合地理位置和租还关系为距离相似度矩阵,利用聚类算法进行聚类,并将聚类特征构造到特征向量中;3.按照特征类型,将特征向量分为五个分组,利用基于梯度提升树算法的机器学习系统训练出五个基础模型,然后通过交叉验证的方式训练特征,将五组基础模型的结果作为特征训练了堆模型。本发明保证了基础模型之间存在一定的差异性,最后采用交叉验证的方式构造堆模型,提升模型的准确度,具有较好的预测精度,误差较低。

Description

基于堆模型融合的公共自行车流量变化量预测方法
技术领域
本发明属于智能交通系统和数据挖局领域,涉及一种基于堆模型融合的公共自行车流量变化量预测方法。
背景技术
面对不断恶化的气候和环境,公共自行车作为一种零污染、零排放的低碳环保交通方式,有必要大力推广。在国内,杭州、上海、北京、武汉、南京等几十个城市均已运行公共自行车系统。2008年5日,杭州市开始运行公共自行车系统,其目的是为了破解“最后1公里”难题,对“公交坐不到,打车嫌贵,步行又太远”的最后1公里,通过“自行车-公交车-自行车”的方式便捷到达目的地,从而提高公交出行率。但经过近几年的实践,杭州公共自行车系统出现了一些急需解决的问题。根据杭州公共自行车运行状况满意度调查显示,有近30%的市民与外地游客对公共自行车的服务表示一般或不满意,其中65%的使用者表示最常遇到的问题就是“网点无车可借”和“网点还不进车”,即所谓的“租/还车难”问题。具体表现在:
(1)某些租赁点在某些时刻没有自行车,使得用户无法及时借到自行车;
(2)某些租赁点在某些时刻没有还车位,使得用户不能及时归还自行车。由于公共自行车的流动性和用户使用的单向性(用户在A点借车B 点还车后往往不会反向操作),使得公共自行车系统天然具有时间和空间分布上的不均衡性。各条线路的密集程度不同,使得很多的服务网点车满为患而另一些则借不到。
除杭州外,国内其他城市的公共自行车系统都存在“租/还车难”的共性问题,其主要原因除租赁点布局不合理外,还存在租赁点间的调度不及时。根据项目组在全国调研的结果显示,国内大部分实施公共自行车的城市采用的调度方法落后,无法进行实时调度,而且当前的调度策略成本较高,需要大量的人力成本及调度车辆成本,同时缺乏一定的预判性,缺乏对历史数据的流量分析和对未来流量的预测,没有考虑天气及交通状况等因素。调度的前提是对公共自行车各个站点的流量进行一定的预测,从而做到提前预判,因此对公共自行车租借流量的预测就成为了亟待解决的问题。
发明内容
本发明提出了一种基于堆模型融合的公共自行车流量变化量预测方法,可以比较准确的预测出公共自行车站点的流量变化量,流量变化量结合了租还两种行为,可以较好的为调度提供预判。
本发明解决其技术问题所采用的技术方案包括以下步骤:
步骤1、根据出公共自行车历史数据集,构造流量的变化量作为目标值,提取出跟公共自行车数据以及气象相关的特征;
具体的:提取出各个站点的每天每隔15分钟的流量变化量(租车为负数,还车为正数,不变为0)作为目标值,提取出跟公共自行车的站点 ID、地理经纬度坐标、历史前N天同时段对应的流量变化量值,以及每个目标时间段对应的年、月、日、时、分信息构造为一个特征向量I。
步骤2、收集历史数据每天对应的气象数据,对气象数据中的离散值进行编码,然后将编码后的气象数据与其原本的连续值一起构造为气象特征,并将构造后的气象特征加入到步骤1构造的特征向量I中,形成新的特征向量II;
步骤3、将站点的地理位置经纬度坐标和历史租还数据中站点与站点之间的租借记录关系两个因素结合为距离公式,通过聚类算法进行站点之间的聚类,将聚类的结果加入到步骤2构造的新的特征向量II中。
针对地理位置和租还关系进行聚类,在K-Medoids算法计算每个类的中心点m和非中心点o的距离的时候,直接读取提前计算好的相似度距离矩阵,相似度距离矩阵是一个n×n的方阵,其中si,j表示站点i与站点j之间的相似度距离,数值越大表示越不相似,距离就越远,对角线是当i=j,表示同一个站点,站点i与站点j之间的相似度距离为0。
所述的相似度距离矩阵计算如下:
所述的Si,j是由地理位置和租还关系两部分构成。站点之间的地理位置关系并没有使用欧氏距离,因为欧氏距离只能计算平面坐标系中两点之间的距离,而实际地理位置坐标是利用的经纬度信息,地球表面非平面,因此地球上两点之间距离将采用下面公式来计算:
其中(lngi,lati)和(lngj,latj)分别是两个站点的经纬度,lng是经度, lat是纬度,R为地球半径,约6378137m。而站点之间的租还关系,则是通过统计所有租还数据集上单个站点i到其他站点j的租还次数Ci,j,然后根据如下公式计算出站点之间的租还关系,值越大,代表关系越近,所述的租还关系表达如下:
则最终相似度距离矩阵中的每个元素si,j是由公式(4)计算得出;
si,j=di,j(1-αpi,j) (4)
其中,α是一个参数,是用来控制pi,j的权重。由于地理位置接近并且租还关系较近的站点属于同一片区域,可能存在相同规律,将聚类结果进行标签化编码,构造特征x25为聚类特征。加入步骤2构造的新的特征向量II中,形成特征向量III;对于站点i,构造好的特征向量为xi= {x1,x2,…x25},后续方便对模型进行训练。
其中,时间特征:x1为月、x2为日、x3为星期、x4为时、x5为分、x6为是否节假日、x7为是否工作日;历史特征:x8为前1天、x9为前2天、x10为前 3天、x11为前4天、x12为前5天、x13为前6天、x14为前7天(前1周)、 x15为前14天(前2周)、x16为前21天(前3周)作为特征;气象特征:x17为白天温度特征、x18为夜间温度特征、x19为风力特征,这三种气象特征均为连续型,x20为天气特征、x21为风向特征,这两种气象特征均是离散型变量;空间特征:站点ID特征x22为站点特征、将x23和x24为经纬度特征;聚类特征:x25为聚类特征;
步骤4、对经过步骤(1)、(2)、(3)构造后的特征向量III进行分组,分为时间特征、空间特征、历史特征、气象特征和聚类特征,然后分别放入树模型中进行训练,训练出五个基础模型。
步骤5、使用训练数据集在五个基础模型中进行交叉验证,五个模型预测出的结果作为新的特征,与步骤3的特征向量III进行拼接,构造为新的特征向量IX,放入树模型中进行训练,最后得到的新模型即是最终的预测模型——堆模型。
所述的交叉验证方法采用K折交叉验证方法。
所述的五个模型预测出的特征与特征向量III进行拼接的具体过程如下:得到了每个站点的特征向量III之后,将其分为几个子集合,分别为:时间特征子集ti={x1,x2,…x7},气象特征子集mi={x8,x9,…x16},历史特征子集hi={x17,x18,…x21},空间特征子集si={x22,x23,x24,},聚类特征集ci={x25}。之后,对以上的特征集合进行组合,因为时空特征是每个站点的独立标志,是非常重要的划分每个站点的依据,因此这两个特征子集在训练模型的时候必不可少。将训练集上的特征组合之后分别放入 XGBoost算法中训练,然后将训练好的基础模型对测试集预测结果,如下:
其中,分别是这5个XGBoost基础模型预测的结果,将其作为特征,与之前的特征向量III一起训练出新的组合模型 fStacking来预测出最终结果如下所示:
这种特征组合的堆融合方法,不但可以避免训练弱模型,加大不同模型的差异,提升集成学习的效果,还能从不同的特征组合中挖掘出组合规律,提高模型的泛化能力,进一步提升模型的准确性。
本发明的优选方案中,历史数据前N天取值中,日粒度为:1-7天、周粒度为:1-3周。
本发明的优选方案中,站点和站点之间的距离公式采用距离相似度矩阵的方式,聚类算法使用K-Medoids,会有较优的聚类效果。
本发明的优选方案中,收集历史数据对应的气象数据,主要考虑天气、温度、风力、风向等数据,温度的取值使用摄氏度,离散数据的编码方式可以使用标签编码,如晴编码为1,多云编码为2,阴编码为3,以此类推。
本发明的优选方案中,训练基础模型和堆模型所用到的树模型为梯度提升树系统XGBoost,采用平方损失函数作为目标函数。
本发明有益效果如下:
本发明利用多源数据融合,分类构造多种特征类型,训练了多个基础模型,从不同角度构建了多个模型,而且也保证了基础模型之间存在一定的差异性,最后采用交叉验证的方式构造堆模型,可以避免过拟合,并且也可以提升模型的准确度,具有较好的预测精度,误差较低。
附图说明
图1为本发明的整体方法流程图
图2为本发明的结合地理位置与租借关系的聚类流程图
图3位本发明的基础模型和堆模型训练过程图
具体实施方式
下面结合附图对本发明进一步说明。
本发明的整体操作流程如图1所示,首先收集公共自行车历史用户租借数据等数据、站点地理位置数据、气象数据,进行数据预处理,去除异常数据和缺失数据,然后按照每15分钟的时间段进行流量统计,跟剧租还情况计算流量的变化量,作为预测的目标值。将地理位置等空间信息、日期等时间信息、历史流量变化量值、气象信息等离散数据进行编码,构造为特征向量。之后根据站点的地理位置和租还关系进行聚类操作,将聚类结果作为特征。然后,根据特征的分类进行分组训练,将训练的基模型的结果和原始特征结合起来,训练一个融合的堆模型。具体的步骤在后面进行详细说明。
步骤1、数据预处理,从公共自行车公司提供用户租还记录进行处理,其中用户历史租借数据集包含租借ID、自行车ID、用户卡号、租借时间、租借站点、租借车位、归还时间、归还站点、归还车为等信息。另外从气象局网站收集对应的气象数据,包含:天气状况、最高温度、最低温度、风向、风速等数据。分析了数据中出现的异常情况,如部分数据还车时间早于租车时间,出现异常;在某站点借出后又在同一站点还车;人工值守站点存在调度行为,有批量借车还车数据;部分时间的数据缺失,如由于系统的异常问题,丢失大量租借数据;部分站点数据缺失,如没有经度或维度等。针对以上出现的问题,进行了数据的清理,清除了还车时间早于租车时间的数据、清除了在某站点借出后3分钟内还车的数据、删除了人工值守站点、缺失值补充为0或者null。除此之外,还清除掉了大批量借还车的情况,主要是同一Card ID卡的大批量租还车数据,因为这些数据是由于人工调度产生,本文只分析真实用户的正常行为。
步骤2、特征构造从时间方面来看,每天不同时间段的公共自行车流量均存在一定的差异,但又存在一定的规律,因此首先构造特征x1为月、 x2为日、x3为星期、x4为时、x5为分(本文并没有将准确的时间作为特征,而是每隔15分钟作为一个时间段),这些特征均为连续型特征。另外,根据对工作日和节假日规律的分析,构造x6为是否节假日、x7为是否工作日两个特征,这两个特征使用离散性变量,比如若是节假日,则x6=1,反之则x6=0。历史特征:从历史规律来看,过去天数的同一时间段的存在类似的规律,因此本文考虑构造过去的同时间段特征,本文构造了x8为前 1天、x9为前2天、x10为前3天、x11为前4天、x12为前5天、x13为前6 天、x14为前7天(前1周)、x15为前14天(前2周)、x16为前21天(前 3周)作为特征,但是数据中可能存在缺失值,而XGBoost模型对缺失值是可以处理的,但由于数据集时间并不是太长,因此历史特征中暂未考虑向前滑动更长的时间段,以免特征中出现大量的缺失数据,影响模型的准确度。气象特征:通过之前的分析,气象因素影响公共自行车出行较大,不同天气、温度、风向、风力对出行的影响均大不相同,因此构造特征x17为白天温度特征、x18为夜间温度特征,单位均是摄氏度(℃),构造x19为风力特征,这些特征均为连续型。构造特征x20为天气特征、x21为风向特征,这两种特征均是离散型变量,如晴、雨、东南风等,因此需要通过标签化编码(Label Encode)或的方式进行连续化,比如,晴天编码为0,雨天编码为1等,方便后续的模型训练。空间特征:不同站点之间的关系不同,因此可以构造站点ID特征x22为站点特征,然后将x23和x24为经纬度,构造出空间特征。
步骤3、针对地理位置和租还关系进行聚类,具体过程如图2,所示,在K-Medoids算法计算中心点m和o的距离的时候,可以直接读取提前计算好的相似度距离矩阵,相似度距离矩阵是一个n×n的方阵,其中si,j表示站点i与站点j之间的相似度,数值越大表示越不相似,距离就越远,对角线是当i=j,表示同一个站点,他们之间的相似度距离为0。
而Si,j是由地理位置和租还关系两部分构成。站点之间的地理位置关系,并没有使用欧氏距离,因为欧氏距离只能计算平面坐标系中两点之间的距离,而实际地理位置坐标是利用的经纬度信息,地球表面非平面,因此地球上两点之间距离将采用下面公式来计算:
其中(lngi,lati)和(lngj,latj)分别是两个站点的经纬度,lng是经度, lat是纬度,R为地球半径,约6378137m。而站点之间的租还关系,则是通过计算在所有数据集上单个站点i到其他站点j的租还次数Ci,j,然后根据如下公式计算出站点之间的租还关系,值越大,代表关系越近:
则最终矩阵中的每个元素si,j是有公式si,j=di,j(1-αpi,j)计算的,其中,α是一个参数,是用来控制pi,j的权重。由于地理位置接近并且租还关系较近的站点属于同一片区域,可能存在相同规律,将聚类结果进行标签化编码,构造特征x25为聚类特征。加入到特征向量中,对于站点i,构造好的特征向量为xi={x1,x2,…x25},后续方便对模型进行训练。
步骤4、在特征构造之后,得到了每个站点的特征向量之后,将它们分为几个子集合,分别为:时间特征子集ti={x1,x2,…x7},气象特征子集mi={x8,x9,…x16},历史特征子集hi={x17,x18,…x21},空间特征子集si={x22,x23,x24,},聚类特征集ci={x25}。之后,对以上的特征集合进行组合,因为时空特征是每个站点的独立标志,是非常重要的划分每个站点的依据,因此这两个特征子集在训练模型的时候必不可少。将训练集上的特征组合之后分别放入XGBoost算法中训练,然后将训练好的基础模型对测试集预测结果,如下:
其中,分别是这5个XGBoost基础模型预测的结果,将其作为特征,与之前的原始特征一起训练出新的组合模型 fStacking来预测出最终结果如下所示:
这种特征组合的堆融合方法,不但可以避免训练弱模型,加大不同模型的差异,提升集成学习的效果,还能从不同的特征组合中挖掘出组合规律,提高模型的泛化能力,进一步提升模型的准确性,该过程整体的结构图如图3。

Claims (4)

1.基于堆模型融合的公共自行车流量变化量预测方法,其特征在于包括以下步骤:
步骤1、根据出公共自行车历史数据集,构造流量的变化量作为目标值,提取出跟公共自行车数据以及气象相关的特征,构造为一个特征向量I;
步骤2、收集历史数据每天对应的气象数据,对气象数据中的离散值进行编码,然后将编码后的气象数据与其原本的连续值一起构造为气象特征,并将构造后的气象特征加入到步骤1构造的特征向量I中,形成新的特征向量Ⅱ;
步骤3、将站点的地理位置经纬度坐标和历史租还数据中站点与站点之间的租借记录关系两个因素结合为距离公式,通过聚类算法进行站点之间的聚类,将聚类的结果加入到步骤2构造的新的特征向量Ⅱ中;
步骤4、对经过步骤(1)、(2)、(3)构造后的特征向量Ⅲ进行分组,分为时间特征、空间特征、历史特征、气象特征和聚类特征,然后分别放入树模型中进行训练,训练出五个基础模型;
步骤5、使用训练数据集在五个基础模型中进行交叉验证,五个模型预测出的结果作为新的特征,与步骤3的特征向量Ⅲ进行拼接,构造为新的特征向量IX,放入树模型中进行训练,最后得到的新模型即是最终的预测模型——堆模型。
2.根据权利要求1所述的基于堆模型融合的公共自行车流量变化量预测方法,其特征在于步骤3所述的聚类过程具体如下:
针对地理位置和租还关系进行聚类,在K-Medoids算法计算每个类的中心点m和非中心点o的距离的时候,直接读取提前计算好的相似度距离矩阵,相似度距离矩阵是一个n×n的方阵,其中si,j表示站点i与站点j之间的相似度距离,数值越大表示越不相似,距离就越远,对角线是当i=j,表示同一个站点,站点i与站点j之间的相似度距离为0;
所述的相似度距离矩阵计算如下:
所述的Si,j是由地理位置和租还关系两部分构成;站点之间的地理位置关系并没有使用欧氏距离,因为欧氏距离只能计算平面坐标系中两点之间的距离,而实际地理位置坐标是利用的经纬度信息,地球表面非平面,因此地球上两点之间距离将采用下面公式来计算:
<mrow> <mtable> <mtr> <mtd> <mrow> <msub> <mi>d</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>=</mo> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mn>2</mn> <mo>&amp;CenterDot;</mo> <mi>R</mi> <mo>&amp;CenterDot;</mo> <mi>arcsin</mi> <msqrt> <mrow> <msup> <mi>sin</mi> <mn>2</mn> </msup> <mrow> <mo>(</mo> <mfrac> <mi>&amp;pi;</mi> <mn>180</mn> </mfrac> <mi>&amp;Delta;</mi> <mi>l</mi> <mi>a</mi> <mi>t</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>c</mi> <mi>o</mi> <mi>s</mi> <mrow> <mo>(</mo> <mfrac> <mi>&amp;pi;</mi> <mn>180</mn> </mfrac> <msub> <mi>lat</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mi>c</mi> <mi>o</mi> <mi>s</mi> <mrow> <mo>(</mo> <mfrac> <mi>&amp;pi;</mi> <mn>180</mn> </mfrac> <msub> <mi>lat</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <msup> <mi>sin</mi> <mn>2</mn> </msup> <mrow> <mo>(</mo> <mfrac> <mi>&amp;pi;</mi> <mn>180</mn> </mfrac> <mi>&amp;Delta;</mi> <mi>ln</mi> <mi>g</mi> <mo>)</mo> </mrow> </mrow> </msqrt> </mrow> </mtd> </mtr> </mtable> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>
其中(lngi,lati)和(lngj,latj)分别是两个站点的经纬度,lng是经度,lat是纬度,R为地球半径,约6378137m;而站点之间的租还关系,则是通过统计所有租还数据集上单个站点i到其他站点j的租还次数Ci,j,然后根据如下公式计算出站点之间的租还关系,值越大,代表关系越近,所述的租还关系表达如下:
<mrow> <msub> <mi>p</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mfrac> <msub> <mi>C</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mrow> <msubsup> <mi>&amp;Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msub> <mi>C</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow> 1
则最终相似度距离矩阵中的每个元素si,j是由公式(4)计算得出;
si,j=di,j(1-αpi,j) (4)
其中,α是一个参数,是用来控制pi,j的权重;由于地理位置接近并且租还关系较近的站点属于同一片区域,可能存在相同规律,将聚类结果进行标签化编码,构造特征x25为聚类特征,并加入步骤2构造的新的特征向量Ⅱ中,形成特征向量Ⅲ;对于站点i,构造好的特征向量为xi={x1,x2,…x25},后续方便对模型进行训练。
3.根据权利要求1所述的基于堆模型融合的公共自行车流量变化量预测方法,其特征在于所述的交叉验证方法采用K折交叉验证方法。
4.根据权利要求1所述的基于堆模型融合的公共自行车流量变化量预测方法,其特征在于所述的五个模型预测出的特征与特征向量Ⅲ进行拼接的具体过程如下:
得到了每个站点的特征向量Ⅲ之后,将其分为几个子集合,分别为:时间特征子集ti={x1,x2,…x7},气象特征子集mi={x8,x9,…x16},历史特征子集hi={x17,x18,…x21},空间特征子集si={x22,x23,x24,},聚类特征集ci={x25};然后对以上的特征集合进行组合,因为时空特征是每个站点的独立标志,是非常重要的划分每个站点的依据,因此这两个特征子集在训练模型的时候必不可少;将训练集上的特征组合之后分别放入XGBoost算法中训练,然后将训练好的基础模型对测试集预测结果,如下:
<mrow> <msub> <mover> <mi>y</mi> <mo>^</mo> </mover> <mrow> <msub> <mi>ST</mi> <mi>i</mi> </msub> </mrow> </msub> <mo>=</mo> <msub> <mi>f</mi> <mrow> <mi>S</mi> <mi>T</mi> </mrow> </msub> <mrow> <mo>(</mo> <mo>{</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>t</mi> <mi>i</mi> </msub> <mo>}</mo> <mo>)</mo> </mrow> </mrow>
<mrow> <msub> <mover> <mi>y</mi> <mo>^</mo> </mover> <mrow> <msub> <mi>STM</mi> <mi>i</mi> </msub> </mrow> </msub> <mo>=</mo> <msub> <mi>f</mi> <mrow> <mi>S</mi> <mi>T</mi> <mi>M</mi> </mrow> </msub> <mrow> <mo>(</mo> <mo>{</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>t</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>m</mi> <mi>i</mi> </msub> <mo>}</mo> <mo>)</mo> </mrow> </mrow>
<mrow> <msub> <mover> <mi>y</mi> <mo>^</mo> </mover> <mrow> <msub> <mi>STH</mi> <mi>i</mi> </msub> </mrow> </msub> <mo>=</mo> <msub> <mi>f</mi> <mrow> <mi>S</mi> <mi>T</mi> <mi>H</mi> </mrow> </msub> <mrow> <mo>(</mo> <mo>{</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>t</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>h</mi> <mi>i</mi> </msub> <mo>}</mo> <mo>)</mo> </mrow> </mrow>
<mrow> <msub> <mover> <mi>y</mi> <mo>^</mo> </mover> <mrow> <msub> <mi>STC</mi> <mi>i</mi> </msub> </mrow> </msub> <mo>=</mo> <msub> <mi>f</mi> <mrow> <mi>S</mi> <mi>T</mi> <mi>C</mi> </mrow> </msub> <mrow> <mo>(</mo> <mo>{</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>t</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>}</mo> <mo>)</mo> </mrow> </mrow>
<mrow> <msub> <mover> <mi>y</mi> <mo>^</mo> </mover> <mrow> <msub> <mi>ALL</mi> <mi>i</mi> </msub> </mrow> </msub> <mo>=</mo> <msub> <mi>f</mi> <mrow> <mi>A</mi> <mi>L</mi> <mi>L</mi> </mrow> </msub> <mrow> <mo>(</mo> <mo>{</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>t</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>m</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>h</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>}</mo> <mo>)</mo> </mrow> </mrow>
其中,分别是这5个XGBoost基础模型预测的结果,将其作为特征,与之前的特征向量Ⅲ一起训练出新的组合模型fStacking来预测出最终结果如下所示:
<mrow> <msub> <mover> <mi>y</mi> <mo>^</mo> </mover> <mi>i</mi> </msub> <mo>=</mo> <msub> <mi>f</mi> <mrow> <mi>S</mi> <mi>t</mi> <mi>a</mi> <mi>c</mi> <mi>k</mi> <mi>i</mi> <mi>n</mi> <mi>g</mi> </mrow> </msub> <mrow> <mo>(</mo> <mo>{</mo> <msub> <mover> <mi>y</mi> <mo>^</mo> </mover> <mrow> <msub> <mi>ST</mi> <mi>i</mi> </msub> </mrow> </msub> <mo>,</mo> <msub> <mover> <mi>y</mi> <mo>^</mo> </mover> <mrow> <msub> <mi>STM</mi> <mi>i</mi> </msub> </mrow> </msub> <mo>,</mo> <msub> <mover> <mi>y</mi> <mo>^</mo> </mover> <mrow> <msub> <mi>STH</mi> <mi>i</mi> </msub> </mrow> </msub> <mo>,</mo> <msub> <mover> <mi>y</mi> <mo>^</mo> </mover> <mrow> <msub> <mi>STC</mi> <mi>i</mi> </msub> </mrow> </msub> <mo>,</mo> <msub> <mover> <mi>y</mi> <mo>^</mo> </mover> <mrow> <msub> <mi>ALL</mi> <mi>i</mi> </msub> </mrow> </msub> <mo>,</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>t</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>m</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>h</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>}</mo> <mo>)</mo> </mrow> <mo>.</mo> </mrow> 2
CN201710206045.8A 2017-03-31 2017-03-31 基于堆模型融合的公共自行车流量变化量预测方法 Expired - Fee Related CN107045673B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710206045.8A CN107045673B (zh) 2017-03-31 2017-03-31 基于堆模型融合的公共自行车流量变化量预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710206045.8A CN107045673B (zh) 2017-03-31 2017-03-31 基于堆模型融合的公共自行车流量变化量预测方法

Publications (2)

Publication Number Publication Date
CN107045673A true CN107045673A (zh) 2017-08-15
CN107045673B CN107045673B (zh) 2020-09-29

Family

ID=59545265

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710206045.8A Expired - Fee Related CN107045673B (zh) 2017-03-31 2017-03-31 基于堆模型融合的公共自行车流量变化量预测方法

Country Status (1)

Country Link
CN (1) CN107045673B (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108427658A (zh) * 2018-03-12 2018-08-21 北京奇艺世纪科技有限公司 一种数据预测方法、装置及电子设备
CN108520034A (zh) * 2018-03-29 2018-09-11 广州优视网络科技有限公司 应用推荐方法、装置及计算机设备
CN108629632A (zh) * 2018-05-09 2018-10-09 北京京东金融科技控股有限公司 预测用户收入的方法、装置及计算机可读存储介质
CN108845936A (zh) * 2018-05-31 2018-11-20 阿里巴巴集团控股有限公司 一种基于海量用户的ab测试方法及系统
CN108961048A (zh) * 2018-05-22 2018-12-07 杭州电子科技大学 一种基于DPoS区块链的能源交易管理系统及方法
CN108960476A (zh) * 2018-03-30 2018-12-07 山东师范大学 基于ap-ti聚类的共享单车流量预测方法及装置
CN109003128A (zh) * 2018-07-07 2018-12-14 太原理工大学 基于改进的随机森林公共自行车站点需求量预测方法
CN109558941A (zh) * 2018-11-16 2019-04-02 创新奇智(广州)科技有限公司 一种模型训练方法、存储介质及电子设备
CN109815983A (zh) * 2018-12-10 2019-05-28 清华大学 基于混合深度学习的高铁道岔智能故障预测方法
CN109903071A (zh) * 2017-12-11 2019-06-18 优估(上海)信息科技有限公司 一种二手车定价方法、装置、设备及计算机可读介质
CN110222892A (zh) * 2019-06-06 2019-09-10 武汉元光科技有限公司 乘客的下车站点预测方法及装置
CN111081016A (zh) * 2019-12-18 2020-04-28 北京航空航天大学 一种基于复杂网络理论的城市交通异常识别方法
CN111612183A (zh) * 2019-02-25 2020-09-01 北京嘀嘀无限科技发展有限公司 信息处理方法、装置、电子设备及计算机可读存储介质
CN111832595A (zh) * 2019-04-23 2020-10-27 北京新唐思创教育科技有限公司 教师风格的确定方法及计算机存储介质
WO2020216286A1 (zh) * 2019-04-23 2020-10-29 北京新唐思创教育科技有限公司 教师风格预测模型的训练方法及计算机存储介质
CN111881939A (zh) * 2020-06-24 2020-11-03 东南大学 一种基于聚类算法的共享单车停车区布设方法
CN111985731A (zh) * 2020-09-09 2020-11-24 中国科学院自动化研究所 城市公共交通站点人数的预测方法及系统
CN113378892A (zh) * 2021-05-20 2021-09-10 南京光普信息技术有限公司 基于移动手机app使用行为数据的多序列对比分类方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150142518A1 (en) * 2012-05-22 2015-05-21 Mobiag, Lda. System for making available for hire vehicles from a fleet aggregated from a plurality of vehicle fleets
KR20130007502A (ko) * 2012-11-23 2013-01-18 주식회사 위트콤 자전거 분배관리 시스템
CN104376327B (zh) * 2014-11-05 2017-10-10 南京师范大学 一种公共自行车租赁点的聚类方法
CN104778508B (zh) * 2015-04-02 2017-12-08 杭州电子科技大学 一种基于多源数据融合的公共自行车租借预测方法
CN106503869A (zh) * 2016-11-14 2017-03-15 东南大学 一种基于站点短时需求预测的公共自行车动态调度方法

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109903071A (zh) * 2017-12-11 2019-06-18 优估(上海)信息科技有限公司 一种二手车定价方法、装置、设备及计算机可读介质
CN108427658A (zh) * 2018-03-12 2018-08-21 北京奇艺世纪科技有限公司 一种数据预测方法、装置及电子设备
CN108520034A (zh) * 2018-03-29 2018-09-11 广州优视网络科技有限公司 应用推荐方法、装置及计算机设备
CN108520034B (zh) * 2018-03-29 2021-01-05 阿里巴巴(中国)有限公司 应用推荐方法、装置及计算机设备
CN108960476A (zh) * 2018-03-30 2018-12-07 山东师范大学 基于ap-ti聚类的共享单车流量预测方法及装置
CN108629632A (zh) * 2018-05-09 2018-10-09 北京京东金融科技控股有限公司 预测用户收入的方法、装置及计算机可读存储介质
CN108961048A (zh) * 2018-05-22 2018-12-07 杭州电子科技大学 一种基于DPoS区块链的能源交易管理系统及方法
CN108961048B (zh) * 2018-05-22 2021-11-09 杭州电子科技大学 一种基于DPoS区块链的能源交易管理系统及方法
CN108845936A (zh) * 2018-05-31 2018-11-20 阿里巴巴集团控股有限公司 一种基于海量用户的ab测试方法及系统
CN108845936B (zh) * 2018-05-31 2021-10-01 创新先进技术有限公司 一种基于海量用户的ab测试方法及系统
CN109003128A (zh) * 2018-07-07 2018-12-14 太原理工大学 基于改进的随机森林公共自行车站点需求量预测方法
CN109558941A (zh) * 2018-11-16 2019-04-02 创新奇智(广州)科技有限公司 一种模型训练方法、存储介质及电子设备
CN109815983A (zh) * 2018-12-10 2019-05-28 清华大学 基于混合深度学习的高铁道岔智能故障预测方法
CN109815983B (zh) * 2018-12-10 2023-08-18 清华大学 基于混合深度学习的高铁道岔智能故障预测方法
CN111612183A (zh) * 2019-02-25 2020-09-01 北京嘀嘀无限科技发展有限公司 信息处理方法、装置、电子设备及计算机可读存储介质
WO2020216286A1 (zh) * 2019-04-23 2020-10-29 北京新唐思创教育科技有限公司 教师风格预测模型的训练方法及计算机存储介质
CN111832595A (zh) * 2019-04-23 2020-10-27 北京新唐思创教育科技有限公司 教师风格的确定方法及计算机存储介质
CN110222892B (zh) * 2019-06-06 2021-07-06 武汉元光科技有限公司 乘客的下车站点预测方法及装置
CN110222892A (zh) * 2019-06-06 2019-09-10 武汉元光科技有限公司 乘客的下车站点预测方法及装置
CN111081016B (zh) * 2019-12-18 2021-07-06 北京航空航天大学 一种基于复杂网络理论的城市交通异常识别方法
CN111081016A (zh) * 2019-12-18 2020-04-28 北京航空航天大学 一种基于复杂网络理论的城市交通异常识别方法
CN111881939A (zh) * 2020-06-24 2020-11-03 东南大学 一种基于聚类算法的共享单车停车区布设方法
CN111881939B (zh) * 2020-06-24 2021-03-09 东南大学 一种基于聚类算法的共享单车停车区布设方法
CN111985731A (zh) * 2020-09-09 2020-11-24 中国科学院自动化研究所 城市公共交通站点人数的预测方法及系统
CN113378892A (zh) * 2021-05-20 2021-09-10 南京光普信息技术有限公司 基于移动手机app使用行为数据的多序列对比分类方法

Also Published As

Publication number Publication date
CN107045673B (zh) 2020-09-29

Similar Documents

Publication Publication Date Title
CN107045673B (zh) 基于堆模型融合的公共自行车流量变化量预测方法
CN111653088B (zh) 一种车辆出行量预测模型构建方法及预测方法和系统
CN107767659B (zh) 基于arima模型的共享单车吸引量和发生量预测方法
CN102799897B (zh) 基于gps定位的交通方式组合出行的计算机识别方法
CN112489426B (zh) 一种基于图卷积神经网络的城市交通流量时空预测方案
CN105825242B (zh) 基于混合网格分层聚类的集群通信终端轨迹实时异常检测方法与系统
CN107886186A (zh) 一种基于行车数据及维诺图划分区域的充电桩设置方法
CN102968900B (zh) 一种对rfid交通数据进行处理的方法
WO2023109720A1 (zh) 城市公共交通规划方法
CN105493109A (zh) 使用多个数据源的空气质量推断
CN102332210A (zh) 基于手机定位数据的实时城市道路交通流数据提取方法
CN109376996A (zh) 基于统计年鉴及地理信息的洪水损失评估方法和系统
CN107656987A (zh) 一种基于lda模型的地铁站点功能挖掘方法
CN113435777B (zh) 一种电动运营车辆充电站规划方法及系统
Zhou Attention based stack resnet for citywide traffic accident prediction
CN113537569B (zh) 一种基于权重堆叠决策树的短时公交客流预测方法及系统
CN111242352A (zh) 基于车辆轨迹的停等聚集效应预测方法
Yin et al. Planning of electric vehicle charging station based on real time traffic flow
CN114626586A (zh) 基于prophet-LightGBM混合模型的大规模建筑能耗预测方法
CN114498632A (zh) 基于新能源和充电设施的配电台区负荷预测方法及装置
CN110399919A (zh) 一种人类出行稀疏轨迹数据插值重构方法
CN115759347A (zh) 一种基于特征数据的电动公交车行程能耗快速预测方法
CN106779241B (zh) 一种轨道交通短期客流预测方法
CN114330871A (zh) 一种通过公交运营数据结合gps数据预测城市路况的方法
CN107341568A (zh) 一种台风风暴增水预测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200929