CN109543922A - 用于有桩共享单车站点群的分时段借还量预测方法 - Google Patents

用于有桩共享单车站点群的分时段借还量预测方法 Download PDF

Info

Publication number
CN109543922A
CN109543922A CN201811562089.5A CN201811562089A CN109543922A CN 109543922 A CN109543922 A CN 109543922A CN 201811562089 A CN201811562089 A CN 201811562089A CN 109543922 A CN109543922 A CN 109543922A
Authority
CN
China
Prior art keywords
website
bicycle
core
group
stake
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811562089.5A
Other languages
English (en)
Other versions
CN109543922B (zh
Inventor
黄健斌
王翔宇
孙鹤立
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201811562089.5A priority Critical patent/CN109543922B/zh
Publication of CN109543922A publication Critical patent/CN109543922A/zh
Application granted granted Critical
Publication of CN109543922B publication Critical patent/CN109543922B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0645Rental transactions; Leasing transactions

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Accounting & Taxation (AREA)
  • Data Mining & Analysis (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Game Theory and Decision Science (AREA)
  • Educational Administration (AREA)
  • Finance (AREA)
  • Tourism & Hospitality (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种用于有桩共享单车站点群的分时段借还量预测方法,其步骤为:选择核心有桩共享单车站点;将核心站点加入到站点群中;将普通站点加入到站点群中;利用相似度公式,计算有桩共享单车站点之间单车转移的相似度;将有桩共享单车系统的运行时间按小时划分,每小时对应一个样本;提取数据中的特征;选择训练样本和测试样本;训练站点群单车借还量预测器;训练核心站点单车借还比例预测器;获取核心站点单车借还量的预测值。本发明的用于有桩共享单车站点群的分时段借还量预测方法,预测精度较高,降低了时间复杂度并使预测结果更加细粒度。

Description

用于有桩共享单车站点群的分时段借还量预测方法
技术领域
本发明属于计算机应用技术领域,更进一步涉及数据挖掘技术领域中的一种用于有桩共享单车站点群的分时段借还量预测方法。本发明可用于预测有桩共享单车站点各时段的单车借还量,该预测的结果可用于设置有桩共享单车站点的位置和各站点之间的单车调配。
背景技术
伴随着绿色出行思想和共享经济的发展,共享单车系统在许多大城市变得越来越流行。在共享单车系统中,不同车站、不同时期租用/返还单车(即单车借还量)的数量非常不平衡,导致站点经常会出现空站或者满站的情况,这都会影响到用户的使用体验和供应商的收入水平;另外,随着车站数量的增加,车站之间进行再平衡操作的运输成本大大增加,因此急需提出一些能够精准预测站点各时段借还量的方法。
近年来,共享单车借还量预测日益受到人们的重视,但一些现有的预测方法:NN、k近邻法、ARMA等方法,处理实际样本量较少的共享单车数据时,预测精度较低,容易发生过拟合,且单个站点的借还量受各种因素的影响而导致波动很大,难以直接预测。本发明提出的用于共享单车站点群的分时段借还量预测方法:一方面,通过聚类将相似的站点分配到同一站点群中,然后预测每个站点群内所有站点的总借还量,所以预测精度较高;另一方面,通过定义核心站点,并着重对核心站点单车借还量的预测,既可以忽略掉一些对共享单车系统服务质量影响较小的站点,使得对站点借还比例预测器训练过程中时间复杂度低,又可以避免只预测站点群借还量过于粗粒度的情况;Liu J,Li Q,Qu M,et al.在其发表的论文“Rebalancing bike sharing systems:A multi-source data smart optimization”(Knowledge Discovery and Data Mining,ACM,2016)中公开了一种基于天气加权的共享单车借还量预测方法。该方法要预测出系统中每个站点的借还量,先是将天气和时间数据转化为度量两个时段相似度的特征,然后通过计算与目标时段最相似的k个时段的单车借还量的加权平均值得到最终的预测结果,其中各时段的权值也由前面计算的时段相似度得出。实验结果表明,MSWK的预测准确率远高于目前很多先进的预测方法。该方法存在的不足之处是,其一,由于单个站点借还量波动较大,所以直接预测精度较低。其二,由于该方法将所有站点同等看待,所以对于一些借还量少的站点预测精度较低,且预测所有站点借还量花费时间较长。
东南大学在其申请的专利文献“基于ARIMA模型的共享单车吸引量和发生量预测方法”(专利申请号2017109520715,公开号CN107767659A)中公开了一种基于ARIMA模型的共享单车吸引量和发生量预测方法。该方法首先根据GPS数据将共享单车的地理位置信息匹配至各交通小区内,然后建立各交通小区出行次数时间序列,再使用ARIMA模型预测下一时间段各交通小区的共享单车借还量,利用共享单车数据中存在的时序关系提高预测的准确度,但是,该方法仍然存在的不足之处是,其一,ARIMA模型只能处理简单的时序数据,对于具有多维特征的复杂时序数据无法作出较为准确的预测。其二,只预测各交通小区的单车借还总量,预测过于粗粒度。
发明内容
本发明的目的在于针对上述现有技术的不足,提出了一种用于有桩共享单车站点群的分时段借还量预测方法,本发明对核心站点与普通站点进行聚类,然后利用机器学习预测器对站点群和核心站点单车借还量进行预测,降低了时间复杂度并提高了预测精度,避免了只预测站点群借还量过于粗粒度的问题。
实现本发明目的的思路是:首先,选择核心有桩共享单车站点;然后,先后对核心站点与普通站点进行聚类;接着,从天气数据和共享单车系统的单车转移数据中提取特征;最后,依据提取的特征,利用机器学习预测器对站点群和核心站点的单车借还量进行预测。
为实现上述目的,本发明具体实现步骤包括如下:
(1)选择核心有桩共享单车站点:
(1a)用每个有桩共享单车站点在运行时间内的单车借还量,除以该站点距离阈值距离范围内的所有站点在运行时间内的总单车借还量,将其商值作为该有桩共享单车站点的核心值;
(1b)将核心值大于核心值阈值的所有有桩共享单车站点作为核心站点,其余站点作为普通站点;
(2)对核心站点进行聚类:
(2a)生成一个空集作为总站点集,将所有核心站点加入到总站点集中;生成一个空集作为站点群,生成一个空集作为候选站点集;
(2b)从总站点集中选取核心值最大的核心站点,加入到站点群中;
(2c)将总站点集中每个核心站点与站点群中核心值最大站点的距离,大于距离阈值的所有核心站点,加入到候选站点集中;
(2d)将核心值阈值作为最大站点群的初始核心值;
(2e)从候选站点集中选取一个未取过的核心站点,将该站点加入到站点群中,按照下式,计算站点群核心值;
其中,cv表示当前站点群核心值,δ表示距离阈值,n表示站点群内核心站点的总数,∑表示求和操作,i表示站点群内核心站点的编号,svi表示站点群中第i个核心站点的核心值,max表示求最大值操作,m表示总站点集中核心站点的编号,p表示总站点集中核心站点的编号,∈表示属于符号,c表示由站点群内所有核心站点的编号组成的集合,dmp表示总站点集中第m个核心站点与总站点集中第p个核心站点之间的距离;
(2f)将大于最大站点群核心值的站点群核心值,作为当前迭代时的最大站点群核心值,从站点群中删除所选的核心站点;
(2g)判断候选站点集中的站点是否全部选取完,若是,则执行步骤(2h),否则,则执行步骤(2e);
(2h)判断最大站点群核心值是否大于核心值阈值,若是,则执行步骤(2i),否则,将站点群加入到站点群集后执行步骤(2a);
(2i)选取加入站点群后取得最大站点群核心值的站点,将该站点加入到站点群中,然后将总站点集中每个核心站点与该站点的距离,大于距离阈值的所有核心站点,加入到候选站点集中,并将该站点从候选站点集中删除;
(2j)判断候选站点集是否为空,若是,则执行步骤(2k),否则,执行步骤(2e);
(2k)判断总站点集是否为空,若是,则执行步骤(3),否则,将站点群加入到站点群集中后执行步骤(2a);
(3)对普通站点进行聚类:
从每个普通站点距离阈值内的所有核心站点中,选取与该普通站点之间单车转移的相似度最高的核心站点,将该普通站点加入到所选取核心站点所属的站点群中;
(4)利用相似度公式,计算有桩共享单车站点之间单车转移的相似度;
(5)提取样本的特征:
(5a)将有桩共享单车系统的运行时间按小时划分,每小时的单车借还量数据表示一个样本;
(5b)从有桩共享单车系统的单车转移数据与有桩共享单车系统所在城市的天气数据中提取特征,作为每个样本的特征向量;
(5c)将特征向量中的离散型特征进行one-hot编码;
(6)选择训练样本和测试样本:
(6a)从所有样本中任意选取66%样本的特征向量组成训练样本集;
(6b)将剩余34%样本的特征向量组成测试样本集;
(7)训练站点群单车借还量预测器:
(7a)从站点群集中选取一个未选过的站点群,将每小时内该站点群中所有站点的单车总借还量作为每个样本的标签值;
(7b)将训练样本集输入到未经过训练的GBRT回归模型中,对模型进行训练;
(7c)将测试样本集输入到训练好的GBRT回归模型中,得到当前站点群单车借还量的预测结果;
(7d)判断是否选完站点群集中所有的站点群,若是,则执行步骤(8),否则,执行步骤(7a);
(8)训练核心站点单车借还比例预测器:
(8a)从站点群集中选取一个未选过的站点群,用每小时内该站点群中每个核心站点的单车借还量,除以每小时内该站点群内所有站点的单车总借还量,将其商值作为每个样本的标签值;
(8b)将训练样本集输入到岭回归模型中,利用岭回归模型的优化公式,计算与站点群内核心站点的总相等的所有模型参数,将所有模型参数组成模型参数向量;
(8c)将测试样本集输入到训练好的岭回归模型中,得到当前站点群每个核心站点单车借还比例的预测结果;
(8d)判断是否选完站点群集中所有的站点群,若是,则执行步骤(9),否则,执行步骤(8a);
(9)获得核心站点单车借还量的预测值:
用每个站点群中所有站点的单车总借还量的预测值,乘以该站点群中每个核心站点的单车借还比例的预测值,将其乘积作为每个核心站点单车借还量的预测值。
本发明与现有技术相比具有以下优点:
第一,本发明通过对核心站点进行聚类,对普通站点进行聚类,训练站点群单车借还量预测器,克服了现有技术的由于单个站点借还量波动较大,所以直接预测精度较低的问题,使得本发明具有预测精度较高的优点。
第二,本发明通过选择核心有桩共享单车站点,训练核心站点单车借还比例预测器,克服了现有技术的传统算法预测所有站点借还量花费时间较长和只预测站点群借还量过于粗粒度的问题,使得本发明具有对站点借还比例预测器训练过程中时间复杂度低,预测粒度较细的优点。
附图说明
图1是本发明的流程图;
图2是本发明对核心站点进行聚类步骤的流程图;
图3是本发明站点群集仿真图。
具体实施方式
下面结合附图对本发明做进一步的描述。
参照附图1,对本发明的具体步骤做进一步的描述。
步骤1,选择核心有桩共享单车站点。
核心有桩共享单车站点是站点群中借还量比较大的站点,这样的站点对整个站点群的服务质量影响较大且可以较为准确的预测,另外一些交通、社会事件往往会对一个区域内站点的借还量产生影响。
用每个有桩共享单车站点在运行时间内的单车借还量,除以该站点距离阈值距离范围内的所有站点在运行时间内的总单车借还量,将其商值作为该有桩共享单车站点的核心值。
所述的距离阈值是由以下方式选取的:在[0,k]区间内,每间隔50选取一个值,判断所选的值是否使聚类后不存在离群站点,如果是,则将所选值作为距离阈值,否则,继续选取下一个值,其中k表示所有有桩共享单车站点之间距离的最大值,单位为米。
将核心值大于核心值阈值的所有有桩共享单车站点作为核心站点,其余站点作为普通站点。
所述的核心值阈值是由以下方式选取的:在[0,m]区间内,每间隔0.1选取一个值,判断所选的值是否使聚类后不存在离群站点,如果是,则将所选值作为核心值阈值,否则,继续选取下一个值,其中m表示所有有桩共享单车站点的核心值的最大值。
步骤2,对核心站点进行聚类。
(2.1)生成一个空集作为总站点集,将所有核心站点加入到总站点集中;生成一个空集作为站点群,生成一个空集作为候选站点集。
(2.2)从总站点集中选取核心值最大的核心站点,加入到站点群中。
(2.3)将总站点集中每个核心站点与站点群中核心值最大站点的距离,大于距离阈值的所有核心站点,加入到候选站点集中。
所述的距离阈值是由以下方式选取的:在[0,k]区间内,每间隔50选取一个值,判断所选的值是否使聚类后不存在离群站点,如果是,则将所选值作为距离阈值,否则,继续选取下一个值,其中k表示所有有桩共享单车站点之间距离的最大值,单位为米。
(2.4)将核心值阈值作为最大站点群的初始核心值。
所述的核心值阈值是由以下方式选取的:在[0,m]区间内,每间隔0.1选取一个值,判断所选的值是否使聚类后不存在离群站点,如果是,则将所选值作为核心值阈值,否则,继续选取下一个值,其中m表示所有有桩共享单车站点的核心值的最大值。
(2.5)从候选站点集中选取一个未取过的核心站点,将该站点加入到站点群中,按照下式,计算站点群核心值。
其中,cv表示当前站点群核心值,δ表示距离阈值,n表示站点群内核心站点的总数,∑表示求和操作,i表示站点群内核心站点的编号,svi表示站点群中第i个核心站点的核心值,max表示求最大值操作,m表示总站点集中核心站点的编号,p表示总站点集中核心站点的编号,∈表示属于符号,c表示由站点群内所有核心站点的编号组成的集合,dmp表示总站点集中第m个核心站点与总站点集中第p个核心站点之间的距离。
所述的距离阈值是由以下方式选取的:在[0,k]区间内,每间隔50选取一个值,判断所选的值是否使聚类后不存在离群站点,如果是,则将所选值作为距离阈值,否则,继续选取下一个值,其中k表示所有有桩共享单车站点之间距离的最大值,单位为米。
(2.6)将大于最大站点群核心值的站点群核心值,作为当前迭代时的最大站点群核心值,从站点群中删除所选的核心站点。
(2.7)判断候选站点集中的站点是否全部选取完,若是,则执行本步骤的(2.8),否则,则执行本步骤的(2.5)。
(2.8)判断最大站点群核心值是否大于核心值阈值,若是,则执行本步骤的(2.9),否则,将站点群加入到站点群集后执行本步骤的(2.1)。
所述的核心值阈值是由以下方式选取的:在[0,m]区间内,每间隔0.1选取一个值,判断所选的值是否使聚类后不存在离群站点,如果是,则将所选值作为核心值阈值,否则,继续选取下一个值,其中m表示所有有桩共享单车站点的核心值的最大值。
(2.9)选取加入站点群后取得最大站点群核心值的站点,将该站点加入到站点群中,然后将总站点集中每个核心站点与该站点的距离,大于距离阈值的所有核心站点,加入到候选站点集中,并将该站点从候选站点集中删除。
所述的距离阈值是由以下方式选取的:在[0,k]区间内,每间隔50选取一个值,判断所选的值是否使聚类后不存在离群站点,如果是,则将所选值作为距离阈值,否则,继续选取下一个值,其中k表示所有有桩共享单车站点之间距离的最大值,单位为米。
(2.10)判断候选站点集是否为空,若是,则执行本步骤的(2.11),否则,执行本步骤的(2.5)。
(2.11)判断总站点集是否为空,若是,则执行本步骤的(3),否则,将站点群加入到站点群集中后执行本步骤的(2.1)。
步骤3,对普通站点进行聚类。
从每个普通站点距离阈值内的所有核心站点中,选取与该普通站点之间单车转移的相似度最高的核心站点,将该普通站点加入到所选取核心站点所属的站点群中。
所述的距离阈值是由以下方式选取的:在[0,k]区间内,每间隔50选取一个值,判断所选的值是否使聚类后不存在离群站点,如果是,则将所选值作为距离阈值,否则,继续选取下一个值,其中k表示所有有桩共享单车站点之间距离的最大值,单位为米。
步骤2,步骤3中的聚类算法会得到一个星型的群内结构,即普通站点会分散在核心站点的距离阈值范围内,而核心站点之间也相互靠近且单车转移相似度较大。当通过平衡操作影响核心站点的服务质量时,这种星型的群内结构会使得这种影响辐射到其他普通站点上,从而提升整个共享单车系统的服务质量。
步骤4,利用相似度公式,计算有桩共享单车站点之间单车转移的相似度。
所述的相似度公式如下:
其中,rij表示第i个有桩共享单车站点与第j个有桩共享单车站点之间单车转移的相似度,∑表示求和操作,n表示有桩共享单车站点的总数,k表示有桩共享单车站点的编号,编号取值范围为1到n,tik表示单车从第i个有桩共享单车站点出发至最终到达第k个有桩共享单车站点的概率值,tjk表示单车从第j个有桩共享单车站点出发至最终到达第k个有桩共享单车站点的概率值,表示开平方操作。
步骤5,提取样本的特征。
将有桩共享单车系统的运行时间按小时划分,每小时的单车借还量数据表示一个样本,由于凌晨一点至六点的借还量非常少,所以去掉这几个时段。
从有桩共享单车系统的单车转移数据与有桩共享单车系统所在城市的天气数据中提取特征,作为每个样本的特征向量,最终得到由年、月、日、时、季节、星期几、是否为节假日、是否为周末、是否为高峰期、温度、湿度、风速、可见度、天气状况等特征组成的特征向量。
将特征向量中的离散型特征进行one-hot编码。假如当前样本的季节为夏天,对应的特征值为2,经过one-hot编码后会产生四个特征:是否为春天、是否为夏天、是否为秋天、是否为冬天,对应的特征值分别为0、1、0、0。
所述的one-hot编码是指,将一个离散型特征转化为多个二值特征,每个二值特征表示该离散型特征的一个取值状态。
步骤6,选择训练样本和测试样本。
从所有样本中任意选取66%样本的特征向量组成训练样本集。
将剩余34%样本的特征向量组成测试样本集。
步骤7,训练站点群单车借还量预测器。
(7.1)从站点群集中选取一个未选过的站点群,将每小时内该站点群中所有站点的单车总借还量作为每个样本的标签值。
(7.2)将训练样本集输入到未经过训练的GBRT回归模型中,对模型进行训练。
(7.3)将测试样本集输入到训练好的GBRT回归模型中,得到当前站点群单车借还量的预测结果。
(7.4)判断是否选完站点群集中所有的站点群,若是,则执行步骤8,否则,执行本步骤的(7.1)。
步骤8,训练核心站点单车借还比例预测器。
(8.1)从站点群集中选取一个未选过的站点群,用每小时内该站点群中每个核心站点的单车借还量,除以每小时内该站点群内所有站点的单车总借还量,将其商值作为每个样本的标签值。
(8.2)将训练样本集输入到岭回归模型中,利用岭回归模型的优化公式,计算与站点群内核心站点的总相等的所有模型参数,将所有模型参数组成模型参数向量。
所述岭回归模型的优化公式如下:
其中,Wi表示站点群内第i个核心站点的参数向量,表示使函数取最小值时得到Wi取值的操作,∑表示求和操作,j:rij=1表示第j个样本是由站点群内第i个核心站点产生的样本,T表示转置操作,Xj表示第j个样本的特征向量,yj表示第j个样本的标签值,λ表示正则化参数,nf表示每个参数向量的元素个数,k表示每个参数向量元素的编号,Wik表示站点群内第i个核心站点参数向量的第k个元素值。
(8.3)将测试样本集输入到训练好的岭回归模型中,得到当前站点群每个核心站点单车借还比例的预测结果。
(8.4)判断是否选完站点群集中所有的站点群,若是,则执行步骤9,否则,执行本步骤的(8.1)。
步骤9,获得核心站点单车借还量的预测值。
用每个站点群中所有站点的单车总借还量的预测值,乘以该站点群中每个核心站点的单车借还比例的预测值,将其乘积作为每个核心站点单车借还量的预测值。
下面结合仿真对本发明的效果做进一步的说明:
1.仿真实验条件:
本发明的仿真实验条件为:软件采用ATOM版本1.32.2,电脑型号:Intel Core i5-7500 3.40GHz,内存:8.00GB,操作系统采用Windows 7。
本发明的仿真实验中采用的图像数据为谷歌地图下,2018年获取的纽约曼哈顿地区的地图,大小为515×845,该区域包含325个站点。
2.仿真内容与仿真结果分析:
本发明的仿真实验1是采用本发明的方法,对核心站点与普通站点进行聚类,最终得到的站点群集仿真结果如图3所示。该站点群集中含有30个站点群和101个核心站点。图3中的数字表示站点群的序号,每个节点表示一个共享单车站点,中心为十字的节点表示该共享单车站点为核心站点,相同灰度的节点表示这些节点在同一站点群内。
本发明的仿真实验2是采用本发明的方法与五种站点群借还量预测方法(天气加权K近邻法MSWK、二步聚类-天气加权K近邻法TSSC-MSWK、随机森林RF方法、二步聚类-随机森林TSSC-RF方法、梯度提升回归树GBRT方法),分别对预测结果的误差进行比较,比较结果如表1所示。
表1中的ER和RMSLE评价指标是表示度量站点群借还量预测方法好坏的指标,其数值是由下述的公式计算得到的。
按照下式,计算评价指标ER:
其中,ER表示度量站点群借还量预测绝对值误差的评价指标,T表示单车系统运行时段的总数,∑表示求和操作,t表示单车系统运行时段的编号,m表示站点群的总数,i表示站点群的编号,||表示求绝对值操作,pit表示第i个站点群在第t个时段内的借车量或还车量的真实值,表示第i个站点群在第t个时段内的借车量或还车量的预测值。
按照下式,计算评价指标RMSLE如下:
其中,RMSLE表示度量站点群借还量预测均方根误差的评价指标,T表示单车系统运行时段的总数,∑表示求和操作,t表示单车系统运行时段的编号,表示开平方操作,m表示站点群的总数,i表示站点群的编号,log表示求对数操作,pit表示第i个站点群在第t个时段内的借车量或还车量的真实值,表示第i个站点群在第t个时段内的借车量或还车量的预测值。
表1本发明所提出的方法与其他算法的站点群预测精度对比表
度量站点群单车借还量预测方法好坏的指标值越低,说明预测结果的精度越高;该指标的值越高,说明预测结果的精度越低。
从表1中可以看出,本发明提出的方法,相比于其它五种仿真试验,对站点群各时段单车借还量的预测精度更高,充分说明了本发明方法在站点群单车借还量预测上的优越性。
本发明的仿真实验3是采用本发明的方法与五种核心站点借还量预测方法(天气加权K近邻法MSWK、分层预测-天气加权K近邻法HP-MSWK、随机森林RF方法、分层预测-随机森林HP-RF方法、梯度提升回归树GBRT方法),对预测结果的误差进行比较,比较结果如表2所示。
表2的ER与RMSLE表示度量核心站点借还量预测方法好坏的评价指标。
按照下式,计算评价指标ER:
其中,ER表示度量核心站点借还量预测绝对值误差的评价指标,T表示单车系统运行时段的总数,∑表示求和操作,t表示单车系统运行时段的编号,m表示核心站点的总数,j表示核心站点的编号,||表示求绝对值操作,pjt表示第j个核心站点在第t个时段内的借车量或还车量的真实值,表示第j个核心站点在第t个时段内的借车量或还车量的预测值。
按照下式,计算评价指标RMSLE如下:
其中,RMSLE表示度量核心站点借还量预测均方根误差的评价指标,T表示单车系统运行时段的总数,∑表示求和操作,t表示单车系统运行时段的编号,表示开平方操作,m表示核心站点的总数,j表示核心站点的编号,log表示求对数操作,pjt表示第j个核心站点在第t个时段内的借车量或还车量的真实值,表示第j个核心站点在第t个时段内的借车量或还车量的预测值。
表2本发明所提出的方法与其他算法的核心站点预测精度对比表
度量核心站点单车借还量预测方法好坏的指标值越低,说明预测结果的精度越高;该指标的值越高,说明预测结果的精度越低。
从表2中可以看出,本发明提出的方法,相比于五种仿真实验,对核心站点各时段单车借还量的预测精度更高,并且由于核心站点的数量远小于所有站点的总数,所以对核心站点借还量进行预测所需的时间要远小于对所有站点借还量进行预测所需的时间,充分说明了本发明方法在站点单车借还量预测上的优越性。
综上所述,本发明公开的预测方法,不仅能够很好的预测站点群的各时段单车借还量,提高预测精度,而且通过选择核心站点并对核心站点的各时段单车借还量进行预测,既能够克服现有方法预测所有站点借还量花费时间较长的问题,又能够使预测的结果更加细粒度。本实验中所用的方法,简而言之,既通用又有效,且时间复杂度低。

Claims (6)

1.一种用于有桩共享单车站点群的分时段借还量预测方法,其特征在于,对核心站点进行聚类,训练站点群单车借还量预测器,训练核心站点单车借还比例预测器,该方法的步骤包括如下:
(1)选择核心有桩共享单车站点:
(1a)用每个有桩共享单车站点在运行时间内的单车借还量,除以该站点距离阈值距离范围内的所有站点在运行时间内的总单车借还量,将其商值作为该有桩共享单车站点的核心值;
(1b)将核心值大于核心值阈值的所有有桩共享单车站点作为核心站点,其余站点作为普通站点;
(2)对核心站点进行聚类:
(2a)生成一个空集作为总站点集,将所有核心站点加入到总站点集中;生成一个空集作为站点群,生成一个空集作为候选站点集;
(2b)从总站点集中选取核心值最大的核心站点,加入到站点群中;
(2c)将总站点集中每个核心站点与站点群中核心值最大站点的距离,大于距离阈值的所有核心站点,加入到候选站点集中;
(2d)将核心值阈值作为最大站点群的初始核心值;
(2e)从候选站点集中选取一个未取过的核心站点,将该站点加入到站点群中,按照下式,计算站点群核心值;
其中,cv表示当前站点群核心值,δ表示距离阈值,n表示站点群内核心站点的总数,∑表示求和操作,i表示站点群内核心站点的编号,svi表示站点群中第i个核心站点的核心值,max表示求最大值操作,m表示总站点集中核心站点的编号,p表示总站点集中核心站点的编号,∈表示属于符号,c表示由站点群内所有核心站点的编号组成的集合,dmp表示总站点集中第m个核心站点与总站点集中第p个核心站点之间的距离;
(2f)将大于最大站点群核心值的站点群核心值,作为当前迭代时的最大站点群核心值,从站点群中删除所选的核心站点;
(2g)判断候选站点集中的站点是否全部选取完,若是,则执行步骤(2h),否则,则执行步骤(2e);
(2h)判断最大站点群核心值是否大于核心值阈值,若是,则执行步骤(2i),否则,将站点群加入到站点群集后执行步骤(2a);
(2i)选取加入站点群后取得最大站点群核心值的站点,将该站点加入到站点群中,然后将总站点集中每个核心站点与该站点的距离,大于距离阈值的所有核心站点,加入到候选站点集中,并将该站点从候选站点集中删除;
(2j)判断候选站点集是否为空,若是,则执行步骤(2k),否则,执行步骤(2e);
(2k)判断总站点集是否为空,若是,则执行步骤(3),否则,将站点群加入到站点群集中后执行步骤(2a);
(3)对普通站点进行聚类:
从每个普通站点距离阈值内的所有核心站点中,选取与该普通站点之间单车转移的相似度最高的核心站点,将该普通站点加入到所选取核心站点所属的站点群中;
(4)利用相似度公式,计算有桩共享单车站点之间单车转移的相似度;
(5)提取样本的特征:
(5a)将有桩共享单车系统的运行时间按小时划分,每小时的单车借还量数据表示一个样本;
(5b)从有桩共享单车系统的单车转移数据与有桩共享单车系统所在城市的天气数据中提取特征,作为每个样本的特征向量;
(5c)将特征向量中的离散型特征进行one-hot编码;
(6)选择训练样本和测试样本:
(6a)从所有样本中任意选取66%样本的特征向量组成训练样本集;
(6b)将剩余34%样本的特征向量组成测试样本集;
(7)训练站点群单车借还量预测器:
(7a)从站点群集中选取一个未选过的站点群,将每小时内该站点群中所有站点的单车总借还量作为每个样本的标签值;
(7b)将训练样本集输入到未经过训练的GBRT回归模型中,对模型进行训练;
(7c)将测试样本集输入到训练好的GBRT回归模型中,得到当前站点群单车借还量的预测结果;
(7d)判断是否选完站点群集中所有的站点群,若是,则执行步骤(8),否则,执行步骤(7a);
(8)训练核心站点单车借还比例预测器:
(8a)从站点群集中选取一个未选过的站点群,用每小时内该站点群中每个核心站点的单车借还量,除以每小时内该站点群内所有站点的单车总借还量,将其商值作为每个样本的标签值;
(8b)将训练样本集输入到岭回归模型中,利用岭回归模型的优化公式,计算与站点群内核心站点的总相等的所有模型参数,将所有模型参数组成模型参数向量;
(8c)将测试样本集输入到训练好的岭回归模型中,得到当前站点群每个核心站点单车借还比例的预测结果;
(8d)判断是否选完站点群集中所有的站点群,若是,则执行步骤(9),否则,执行步骤(8a);
(9)获得核心站点单车借还量的预测值:
用每个站点群中所有站点的单车总借还量的预测值,乘以该站点群中每个核心站点的单车借还比例的预测值,将其乘积作为每个核心站点单车借还量的预测值。
2.根据权利要求1所述的用于有桩共享单车站点群的分时段借还量预测方法,其特征在于:步骤(1a)、步骤(2c)、步骤(2e)、步骤(2i)、步骤(3)中所述的距离阈值是由以下方式选取的:在[0,k]区间内,每间隔50选取一个值,判断所选的值是否使聚类后不存在离群站点,如果是,则将所选值作为距离阈值,否则,继续选取下一个值,其中k表示所有有桩共享单车站点之间距离的最大值,单位为米。
3.根据权利要求1所述的用于有桩共享单车站点群的分时段借还量预测方法,其特征在于:步骤(1b)、步骤(2d)、步骤(2h)中所述的核心值阈值是由以下方式选取的:在[0,m]区间内,每间隔0.1选取一个值,判断所选的值是否使聚类后不存在离群站点,如果是,则将所选值作为核心值阈值,否则,继续选取下一个值,其中m表示所有有桩共享单车站点的核心值的最大值。
4.根据权利要求1所述的用于有桩共享单车站点群的分时段借还量预测方法,其特征在于:步骤(4)所述的相似度公式如下:
其中,rij表示第i个有桩共享单车站点与第j个有桩共享单车站点之间单车转移的相似度,∑表示求和操作,n表示有桩共享单车站点的总数,k表示有桩共享单车站点的编号,编号取值范围为1到n,tik表示单车从第i个有桩共享单车站点出发至最终到达第k个有桩共享单车站点的概率值,tjk表示单车从第j个有桩共享单车站点出发至最终到达第k个有桩共享单车站点的概率值,表示开平方操作。
5.根据权利要求1所述的用于有桩共享单车站点群的分时段借还量预测方法,其特征在于:步骤(5c)所述的one-hot编码是指,将一个离散型特征转化为多个二值特征,每个二值特征表示该离散型特征的一个取值状态。
6.根据权利要求1所述的用于有桩共享单车站点群的分时段借还量预测方法,其特征在于:步骤(8b)中所述岭回归模型的优化公式如下:
其中,Wi表示站点群内第i个核心站点的参数向量,表示使函数取最小值时得到Wi取值的操作,∑表示求和操作,j:rij=1表示第j个样本是由站点群内第i个核心站点产生的样本,T表示转置操作,Xj表示第j个样本的特征向量,yj表示第j个样本的标签值,λ表示正则化参数,nf表示每个参数向量的元素个数,k表示每个参数向量元素的编号,Wik表示站点群内第i个核心站点参数向量的第k个元素值。
CN201811562089.5A 2018-12-20 2018-12-20 用于有桩共享单车站点群的分时段借还量预测方法 Active CN109543922B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811562089.5A CN109543922B (zh) 2018-12-20 2018-12-20 用于有桩共享单车站点群的分时段借还量预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811562089.5A CN109543922B (zh) 2018-12-20 2018-12-20 用于有桩共享单车站点群的分时段借还量预测方法

Publications (2)

Publication Number Publication Date
CN109543922A true CN109543922A (zh) 2019-03-29
CN109543922B CN109543922B (zh) 2021-04-20

Family

ID=65855600

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811562089.5A Active CN109543922B (zh) 2018-12-20 2018-12-20 用于有桩共享单车站点群的分时段借还量预测方法

Country Status (1)

Country Link
CN (1) CN109543922B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111429000A (zh) * 2020-03-23 2020-07-17 成都信息工程大学 一种基于站点聚类的共享单车取还站点推荐方法及系统
CN111832600A (zh) * 2019-12-31 2020-10-27 北京骑胜科技有限公司 数据处理方法、装置、电子设备和计算机可读存储介质
CN111914940A (zh) * 2020-08-11 2020-11-10 上海钧正网络科技有限公司 一种共享车辆站点分群聚类方法、系统、装置及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100106561A1 (en) * 2008-10-28 2010-04-29 Sergiy Peredriy Forecasting Using Share Models And Hierarchies
CN104778508A (zh) * 2015-04-02 2015-07-15 杭州电子科技大学 一种基于多源数据融合的公共自行车租借预测方法
CN105185116A (zh) * 2015-09-15 2015-12-23 广州地理研究所 网络集约小客车出行需求热力图构建方法
CN107038503A (zh) * 2017-04-18 2017-08-11 广东工业大学 一种共享设备的需求量预测方法及系统
CN107767659A (zh) * 2017-10-13 2018-03-06 东南大学 基于arima模型的共享单车吸引量和发生量预测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100106561A1 (en) * 2008-10-28 2010-04-29 Sergiy Peredriy Forecasting Using Share Models And Hierarchies
CN104778508A (zh) * 2015-04-02 2015-07-15 杭州电子科技大学 一种基于多源数据融合的公共自行车租借预测方法
CN105185116A (zh) * 2015-09-15 2015-12-23 广州地理研究所 网络集约小客车出行需求热力图构建方法
CN107038503A (zh) * 2017-04-18 2017-08-11 广东工业大学 一种共享设备的需求量预测方法及系统
CN107767659A (zh) * 2017-10-13 2018-03-06 东南大学 基于arima模型的共享单车吸引量和发生量预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JUNMING LIU ET AL: "Rebalancing Bike Sharing Systems: A Multi-source Data Smart Optimization", 《ACM》 *
楚倡: "城市公共自行车出行特征及预测研究", 《中国优秀硕士学位论文全文数据库》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111832600A (zh) * 2019-12-31 2020-10-27 北京骑胜科技有限公司 数据处理方法、装置、电子设备和计算机可读存储介质
CN111429000A (zh) * 2020-03-23 2020-07-17 成都信息工程大学 一种基于站点聚类的共享单车取还站点推荐方法及系统
CN111429000B (zh) * 2020-03-23 2021-05-28 成都信息工程大学 一种基于站点聚类的共享单车取还站点推荐方法及系统
CN111914940A (zh) * 2020-08-11 2020-11-10 上海钧正网络科技有限公司 一种共享车辆站点分群聚类方法、系统、装置及存储介质
CN111914940B (zh) * 2020-08-11 2022-12-27 上海钧正网络科技有限公司 一种共享车辆站点分群聚类方法、系统、装置及存储介质

Also Published As

Publication number Publication date
CN109543922B (zh) 2021-04-20

Similar Documents

Publication Publication Date Title
CN110264709A (zh) 基于图卷积网络的道路的交通流量的预测方法
CN106910199B (zh) 面向城市空间信息采集的车联网众包方法
CN108108808B (zh) 一种基于深度信念网络的位置预测方法及装置
US20160125307A1 (en) Air quality inference using multiple data sources
CN108877226B (zh) 景区交通旅游预测方法及预警系统
CN110263235A (zh) 信息推送对象更新方法、装置和计算机设备
CN105224681B (zh) 基于家庭工作地上下文环境的用户需求获取方法及系统
CN109885643B (zh) 一种基于语义轨迹的位置预测方法及存储介质
CN111582559B (zh) 一种到达时间的预估方法及装置
CN109543922A (zh) 用于有桩共享单车站点群的分时段借还量预测方法
CN110532351A (zh) 推荐词展示方法、装置、设备及计算机可读存储介质
CN109598566A (zh) 下单预测方法、装置、计算机设备和计算机可读存储介质
CN103617235A (zh) 一种基于粒子群算法的网络水军账号识别方法及系统
CN108960476A (zh) 基于ap-ti聚类的共享单车流量预测方法及装置
CN105430099A (zh) 一种基于位置聚类的协同式Web服务性能预测方法
CN111598333B (zh) 客流数据的预测方法及装置
CN110598917B (zh) 一种基于路径轨迹的目的地预测方法、系统及存储介质
CN114444378A (zh) 一种区域风电集群的短期功率预测方法
CN102163285A (zh) 一种基于主动学习的跨域视频语义概念检测方法
CN110472999A (zh) 基于地铁和共享单车数据的客流模式分析方法及装置
Guan et al. A unified framework for predicting kpis of on-demand transport services
Ding et al. Dissecting regional weather-traffic sensitivity throughout a city
CN105913654A (zh) 一种智能交通管理系统
CN113158084A (zh) 移动轨迹数据处理的方法、装置、计算机设备及存储介质
Wang et al. Deepfm-based taxi pick-up area recommendation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant