CN109543922A

CN109543922A - 用于有桩共享单车站点群的分时段借还量预测方法

Info

Publication number: CN109543922A
Application number: CN201811562089.5A
Authority: CN
Inventors: 黄健斌; 王翔宇; 孙鹤立
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2018-12-20
Filing date: 2018-12-20
Publication date: 2019-03-29
Anticipated expiration: 2038-12-20
Also published as: CN109543922B

Abstract

本发明公开一种用于有桩共享单车站点群的分时段借还量预测方法，其步骤为：选择核心有桩共享单车站点；将核心站点加入到站点群中；将普通站点加入到站点群中；利用相似度公式，计算有桩共享单车站点之间单车转移的相似度；将有桩共享单车系统的运行时间按小时划分，每小时对应一个样本；提取数据中的特征；选择训练样本和测试样本；训练站点群单车借还量预测器；训练核心站点单车借还比例预测器；获取核心站点单车借还量的预测值。本发明的用于有桩共享单车站点群的分时段借还量预测方法，预测精度较高，降低了时间复杂度并使预测结果更加细粒度。

Description

用于有桩共享单车站点群的分时段借还量预测方法

技术领域

本发明属于计算机应用技术领域，更进一步涉及数据挖掘技术领域中的一种用于有桩共享单车站点群的分时段借还量预测方法。本发明可用于预测有桩共享单车站点各时段的单车借还量，该预测的结果可用于设置有桩共享单车站点的位置和各站点之间的单车调配。

背景技术

伴随着绿色出行思想和共享经济的发展，共享单车系统在许多大城市变得越来越流行。在共享单车系统中，不同车站、不同时期租用/返还单车(即单车借还量)的数量非常不平衡，导致站点经常会出现空站或者满站的情况，这都会影响到用户的使用体验和供应商的收入水平；另外，随着车站数量的增加，车站之间进行再平衡操作的运输成本大大增加，因此急需提出一些能够精准预测站点各时段借还量的方法。

近年来，共享单车借还量预测日益受到人们的重视，但一些现有的预测方法：NN、k近邻法、ARMA等方法，处理实际样本量较少的共享单车数据时，预测精度较低，容易发生过拟合，且单个站点的借还量受各种因素的影响而导致波动很大，难以直接预测。本发明提出的用于共享单车站点群的分时段借还量预测方法：一方面，通过聚类将相似的站点分配到同一站点群中，然后预测每个站点群内所有站点的总借还量，所以预测精度较高；另一方面，通过定义核心站点，并着重对核心站点单车借还量的预测，既可以忽略掉一些对共享单车系统服务质量影响较小的站点，使得对站点借还比例预测器训练过程中时间复杂度低，又可以避免只预测站点群借还量过于粗粒度的情况；Liu J,Li Q,Qu M,et al.在其发表的论文“Rebalancing bike sharing systems:A multi-source data smart optimization”(Knowledge Discovery and Data Mining,ACM,2016)中公开了一种基于天气加权的共享单车借还量预测方法。该方法要预测出系统中每个站点的借还量，先是将天气和时间数据转化为度量两个时段相似度的特征，然后通过计算与目标时段最相似的k个时段的单车借还量的加权平均值得到最终的预测结果，其中各时段的权值也由前面计算的时段相似度得出。实验结果表明，MSWK的预测准确率远高于目前很多先进的预测方法。该方法存在的不足之处是，其一，由于单个站点借还量波动较大，所以直接预测精度较低。其二，由于该方法将所有站点同等看待，所以对于一些借还量少的站点预测精度较低，且预测所有站点借还量花费时间较长。

东南大学在其申请的专利文献“基于ARIMA模型的共享单车吸引量和发生量预测方法”(专利申请号2017109520715，公开号CN107767659A)中公开了一种基于ARIMA模型的共享单车吸引量和发生量预测方法。该方法首先根据GPS数据将共享单车的地理位置信息匹配至各交通小区内，然后建立各交通小区出行次数时间序列，再使用ARIMA模型预测下一时间段各交通小区的共享单车借还量，利用共享单车数据中存在的时序关系提高预测的准确度，但是，该方法仍然存在的不足之处是，其一，ARIMA模型只能处理简单的时序数据，对于具有多维特征的复杂时序数据无法作出较为准确的预测。其二，只预测各交通小区的单车借还总量，预测过于粗粒度。

发明内容

本发明的目的在于针对上述现有技术的不足，提出了一种用于有桩共享单车站点群的分时段借还量预测方法，本发明对核心站点与普通站点进行聚类，然后利用机器学习预测器对站点群和核心站点单车借还量进行预测，降低了时间复杂度并提高了预测精度，避免了只预测站点群借还量过于粗粒度的问题。

实现本发明目的的思路是：首先，选择核心有桩共享单车站点；然后，先后对核心站点与普通站点进行聚类；接着，从天气数据和共享单车系统的单车转移数据中提取特征；最后，依据提取的特征，利用机器学习预测器对站点群和核心站点的单车借还量进行预测。

为实现上述目的，本发明具体实现步骤包括如下：

(1)选择核心有桩共享单车站点：

(1a)用每个有桩共享单车站点在运行时间内的单车借还量，除以该站点距离阈值距离范围内的所有站点在运行时间内的总单车借还量，将其商值作为该有桩共享单车站点的核心值；

(1b)将核心值大于核心值阈值的所有有桩共享单车站点作为核心站点，其余站点作为普通站点；

(2)对核心站点进行聚类：

(2a)生成一个空集作为总站点集，将所有核心站点加入到总站点集中；生成一个空集作为站点群，生成一个空集作为候选站点集；

(2b)从总站点集中选取核心值最大的核心站点，加入到站点群中；

(2c)将总站点集中每个核心站点与站点群中核心值最大站点的距离，大于距离阈值的所有核心站点，加入到候选站点集中；

(2d)将核心值阈值作为最大站点群的初始核心值；

(2e)从候选站点集中选取一个未取过的核心站点，将该站点加入到站点群中，按照下式，计算站点群核心值；

其中，cv表示当前站点群核心值，δ表示距离阈值，n表示站点群内核心站点的总数，∑表示求和操作，i表示站点群内核心站点的编号，sv_i表示站点群中第i个核心站点的核心值，max表示求最大值操作，m表示总站点集中核心站点的编号，p表示总站点集中核心站点的编号，∈表示属于符号，c表示由站点群内所有核心站点的编号组成的集合，d_mp表示总站点集中第m个核心站点与总站点集中第p个核心站点之间的距离；

(2f)将大于最大站点群核心值的站点群核心值，作为当前迭代时的最大站点群核心值，从站点群中删除所选的核心站点；

(2g)判断候选站点集中的站点是否全部选取完，若是，则执行步骤(2h)，否则，则执行步骤(2e)；

(2h)判断最大站点群核心值是否大于核心值阈值，若是，则执行步骤(2i)，否则，将站点群加入到站点群集后执行步骤(2a)；

(2i)选取加入站点群后取得最大站点群核心值的站点，将该站点加入到站点群中，然后将总站点集中每个核心站点与该站点的距离，大于距离阈值的所有核心站点，加入到候选站点集中，并将该站点从候选站点集中删除；

(2j)判断候选站点集是否为空，若是，则执行步骤(2k)，否则，执行步骤(2e)；

(2k)判断总站点集是否为空，若是，则执行步骤(3)，否则，将站点群加入到站点群集中后执行步骤(2a)；

(3)对普通站点进行聚类：

从每个普通站点距离阈值内的所有核心站点中，选取与该普通站点之间单车转移的相似度最高的核心站点，将该普通站点加入到所选取核心站点所属的站点群中；

(4)利用相似度公式，计算有桩共享单车站点之间单车转移的相似度；

(5)提取样本的特征：

(5a)将有桩共享单车系统的运行时间按小时划分，每小时的单车借还量数据表示一个样本；

(5b)从有桩共享单车系统的单车转移数据与有桩共享单车系统所在城市的天气数据中提取特征，作为每个样本的特征向量；

(5c)将特征向量中的离散型特征进行one-hot编码；

(6)选择训练样本和测试样本：

(6a)从所有样本中任意选取66％样本的特征向量组成训练样本集；

(6b)将剩余34％样本的特征向量组成测试样本集；

(7)训练站点群单车借还量预测器：

(7a)从站点群集中选取一个未选过的站点群，将每小时内该站点群中所有站点的单车总借还量作为每个样本的标签值；

(7b)将训练样本集输入到未经过训练的GBRT回归模型中，对模型进行训练；

(7c)将测试样本集输入到训练好的GBRT回归模型中，得到当前站点群单车借还量的预测结果；

(7d)判断是否选完站点群集中所有的站点群，若是，则执行步骤(8)，否则，执行步骤(7a)；

(8)训练核心站点单车借还比例预测器：

(8a)从站点群集中选取一个未选过的站点群，用每小时内该站点群中每个核心站点的单车借还量，除以每小时内该站点群内所有站点的单车总借还量，将其商值作为每个样本的标签值；

(8b)将训练样本集输入到岭回归模型中，利用岭回归模型的优化公式，计算与站点群内核心站点的总相等的所有模型参数，将所有模型参数组成模型参数向量；

(8c)将测试样本集输入到训练好的岭回归模型中，得到当前站点群每个核心站点单车借还比例的预测结果；

(8d)判断是否选完站点群集中所有的站点群，若是，则执行步骤(9)，否则，执行步骤(8a)；

(9)获得核心站点单车借还量的预测值：

用每个站点群中所有站点的单车总借还量的预测值，乘以该站点群中每个核心站点的单车借还比例的预测值，将其乘积作为每个核心站点单车借还量的预测值。

本发明与现有技术相比具有以下优点：

第一，本发明通过对核心站点进行聚类，对普通站点进行聚类，训练站点群单车借还量预测器，克服了现有技术的由于单个站点借还量波动较大，所以直接预测精度较低的问题，使得本发明具有预测精度较高的优点。

第二，本发明通过选择核心有桩共享单车站点，训练核心站点单车借还比例预测器，克服了现有技术的传统算法预测所有站点借还量花费时间较长和只预测站点群借还量过于粗粒度的问题，使得本发明具有对站点借还比例预测器训练过程中时间复杂度低，预测粒度较细的优点。

附图说明

图1是本发明的流程图；

图2是本发明对核心站点进行聚类步骤的流程图；

图3是本发明站点群集仿真图。

具体实施方式

下面结合附图对本发明做进一步的描述。

参照附图1，对本发明的具体步骤做进一步的描述。

步骤1，选择核心有桩共享单车站点。

核心有桩共享单车站点是站点群中借还量比较大的站点，这样的站点对整个站点群的服务质量影响较大且可以较为准确的预测，另外一些交通、社会事件往往会对一个区域内站点的借还量产生影响。

用每个有桩共享单车站点在运行时间内的单车借还量，除以该站点距离阈值距离范围内的所有站点在运行时间内的总单车借还量，将其商值作为该有桩共享单车站点的核心值。

所述的距离阈值是由以下方式选取的：在[0,k]区间内，每间隔50选取一个值，判断所选的值是否使聚类后不存在离群站点，如果是，则将所选值作为距离阈值，否则，继续选取下一个值，其中k表示所有有桩共享单车站点之间距离的最大值，单位为米。

将核心值大于核心值阈值的所有有桩共享单车站点作为核心站点，其余站点作为普通站点。

所述的核心值阈值是由以下方式选取的：在[0,m]区间内，每间隔0.1选取一个值，判断所选的值是否使聚类后不存在离群站点，如果是，则将所选值作为核心值阈值，否则，继续选取下一个值，其中m表示所有有桩共享单车站点的核心值的最大值。

步骤2，对核心站点进行聚类。

(2.1)生成一个空集作为总站点集，将所有核心站点加入到总站点集中；生成一个空集作为站点群，生成一个空集作为候选站点集。

(2.2)从总站点集中选取核心值最大的核心站点，加入到站点群中。

(2.3)将总站点集中每个核心站点与站点群中核心值最大站点的距离，大于距离阈值的所有核心站点，加入到候选站点集中。

(2.4)将核心值阈值作为最大站点群的初始核心值。

(2.5)从候选站点集中选取一个未取过的核心站点，将该站点加入到站点群中，按照下式，计算站点群核心值。

其中，cv表示当前站点群核心值，δ表示距离阈值，n表示站点群内核心站点的总数，∑表示求和操作，i表示站点群内核心站点的编号，sv_i表示站点群中第i个核心站点的核心值，max表示求最大值操作，m表示总站点集中核心站点的编号，p表示总站点集中核心站点的编号，∈表示属于符号，c表示由站点群内所有核心站点的编号组成的集合，d_mp表示总站点集中第m个核心站点与总站点集中第p个核心站点之间的距离。

(2.6)将大于最大站点群核心值的站点群核心值，作为当前迭代时的最大站点群核心值，从站点群中删除所选的核心站点。

(2.7)判断候选站点集中的站点是否全部选取完，若是，则执行本步骤的(2.8)，否则，则执行本步骤的(2.5)。

(2.8)判断最大站点群核心值是否大于核心值阈值，若是，则执行本步骤的(2.9)，否则，将站点群加入到站点群集后执行本步骤的(2.1)。

(2.9)选取加入站点群后取得最大站点群核心值的站点，将该站点加入到站点群中，然后将总站点集中每个核心站点与该站点的距离，大于距离阈值的所有核心站点，加入到候选站点集中，并将该站点从候选站点集中删除。

(2.10)判断候选站点集是否为空，若是，则执行本步骤的(2.11)，否则，执行本步骤的(2.5)。

(2.11)判断总站点集是否为空，若是，则执行本步骤的(3)，否则，将站点群加入到站点群集中后执行本步骤的(2.1)。

步骤3，对普通站点进行聚类。

从每个普通站点距离阈值内的所有核心站点中，选取与该普通站点之间单车转移的相似度最高的核心站点，将该普通站点加入到所选取核心站点所属的站点群中。

步骤2，步骤3中的聚类算法会得到一个星型的群内结构，即普通站点会分散在核心站点的距离阈值范围内，而核心站点之间也相互靠近且单车转移相似度较大。当通过平衡操作影响核心站点的服务质量时，这种星型的群内结构会使得这种影响辐射到其他普通站点上，从而提升整个共享单车系统的服务质量。

步骤4，利用相似度公式，计算有桩共享单车站点之间单车转移的相似度。

所述的相似度公式如下：

其中，r_ij表示第i个有桩共享单车站点与第j个有桩共享单车站点之间单车转移的相似度，∑表示求和操作，n表示有桩共享单车站点的总数，k表示有桩共享单车站点的编号，编号取值范围为1到n，t_ik表示单车从第i个有桩共享单车站点出发至最终到达第k个有桩共享单车站点的概率值，t_jk表示单车从第j个有桩共享单车站点出发至最终到达第k个有桩共享单车站点的概率值，表示开平方操作。

步骤5，提取样本的特征。

将有桩共享单车系统的运行时间按小时划分，每小时的单车借还量数据表示一个样本，由于凌晨一点至六点的借还量非常少，所以去掉这几个时段。

从有桩共享单车系统的单车转移数据与有桩共享单车系统所在城市的天气数据中提取特征，作为每个样本的特征向量，最终得到由年、月、日、时、季节、星期几、是否为节假日、是否为周末、是否为高峰期、温度、湿度、风速、可见度、天气状况等特征组成的特征向量。

将特征向量中的离散型特征进行one-hot编码。假如当前样本的季节为夏天，对应的特征值为2，经过one-hot编码后会产生四个特征：是否为春天、是否为夏天、是否为秋天、是否为冬天，对应的特征值分别为0、1、0、0。

所述的one-hot编码是指，将一个离散型特征转化为多个二值特征，每个二值特征表示该离散型特征的一个取值状态。

步骤6，选择训练样本和测试样本。

从所有样本中任意选取66％样本的特征向量组成训练样本集。

将剩余34％样本的特征向量组成测试样本集。

步骤7，训练站点群单车借还量预测器。

(7.1)从站点群集中选取一个未选过的站点群，将每小时内该站点群中所有站点的单车总借还量作为每个样本的标签值。

(7.2)将训练样本集输入到未经过训练的GBRT回归模型中，对模型进行训练。

(7.3)将测试样本集输入到训练好的GBRT回归模型中，得到当前站点群单车借还量的预测结果。

(7.4)判断是否选完站点群集中所有的站点群，若是，则执行步骤8，否则，执行本步骤的(7.1)。

步骤8，训练核心站点单车借还比例预测器。

(8.1)从站点群集中选取一个未选过的站点群，用每小时内该站点群中每个核心站点的单车借还量，除以每小时内该站点群内所有站点的单车总借还量，将其商值作为每个样本的标签值。

(8.2)将训练样本集输入到岭回归模型中，利用岭回归模型的优化公式，计算与站点群内核心站点的总相等的所有模型参数，将所有模型参数组成模型参数向量。

所述岭回归模型的优化公式如下：

其中，W_i表示站点群内第i个核心站点的参数向量，表示使函数取最小值时得到W_i取值的操作，∑表示求和操作，j:r_ij＝1表示第j个样本是由站点群内第i个核心站点产生的样本，T表示转置操作，X_j表示第j个样本的特征向量，y_j表示第j个样本的标签值，λ表示正则化参数，nf表示每个参数向量的元素个数，k表示每个参数向量元素的编号，W_ik表示站点群内第i个核心站点参数向量的第k个元素值。

(8.3)将测试样本集输入到训练好的岭回归模型中，得到当前站点群每个核心站点单车借还比例的预测结果。

(8.4)判断是否选完站点群集中所有的站点群，若是，则执行步骤9，否则，执行本步骤的(8.1)。

步骤9，获得核心站点单车借还量的预测值。

下面结合仿真对本发明的效果做进一步的说明：

1.仿真实验条件：

本发明的仿真实验条件为：软件采用ATOM版本1.32.2，电脑型号：Intel Core i5-7500 3.40GHz,内存：8.00GB，操作系统采用Windows 7。

本发明的仿真实验中采用的图像数据为谷歌地图下，2018年获取的纽约曼哈顿地区的地图，大小为515×845，该区域包含325个站点。

2.仿真内容与仿真结果分析：

本发明的仿真实验1是采用本发明的方法，对核心站点与普通站点进行聚类，最终得到的站点群集仿真结果如图3所示。该站点群集中含有30个站点群和101个核心站点。图3中的数字表示站点群的序号，每个节点表示一个共享单车站点，中心为十字的节点表示该共享单车站点为核心站点，相同灰度的节点表示这些节点在同一站点群内。

本发明的仿真实验2是采用本发明的方法与五种站点群借还量预测方法(天气加权K近邻法MSWK、二步聚类-天气加权K近邻法TSSC-MSWK、随机森林RF方法、二步聚类-随机森林TSSC-RF方法、梯度提升回归树GBRT方法)，分别对预测结果的误差进行比较，比较结果如表1所示。

表1中的ER和RMSLE评价指标是表示度量站点群借还量预测方法好坏的指标，其数值是由下述的公式计算得到的。

按照下式，计算评价指标ER：

其中，ER表示度量站点群借还量预测绝对值误差的评价指标，T表示单车系统运行时段的总数，∑表示求和操作，t表示单车系统运行时段的编号，m表示站点群的总数，i表示站点群的编号，||表示求绝对值操作，pit表示第i个站点群在第t个时段内的借车量或还车量的真实值，表示第i个站点群在第t个时段内的借车量或还车量的预测值。

按照下式，计算评价指标RMSLE如下：

其中，RMSLE表示度量站点群借还量预测均方根误差的评价指标，T表示单车系统运行时段的总数，∑表示求和操作，t表示单车系统运行时段的编号，表示开平方操作，m表示站点群的总数，i表示站点群的编号，log表示求对数操作，p_it表示第i个站点群在第t个时段内的借车量或还车量的真实值，表示第i个站点群在第t个时段内的借车量或还车量的预测值。

表1本发明所提出的方法与其他算法的站点群预测精度对比表

度量站点群单车借还量预测方法好坏的指标值越低，说明预测结果的精度越高；该指标的值越高，说明预测结果的精度越低。

从表1中可以看出，本发明提出的方法，相比于其它五种仿真试验，对站点群各时段单车借还量的预测精度更高，充分说明了本发明方法在站点群单车借还量预测上的优越性。

本发明的仿真实验3是采用本发明的方法与五种核心站点借还量预测方法(天气加权K近邻法MSWK、分层预测-天气加权K近邻法HP-MSWK、随机森林RF方法、分层预测-随机森林HP-RF方法、梯度提升回归树GBRT方法)，对预测结果的误差进行比较，比较结果如表2所示。

表2的ER与RMSLE表示度量核心站点借还量预测方法好坏的评价指标。

按照下式，计算评价指标ER：

其中，ER表示度量核心站点借还量预测绝对值误差的评价指标，T表示单车系统运行时段的总数，∑表示求和操作，t表示单车系统运行时段的编号，m表示核心站点的总数，j表示核心站点的编号，||表示求绝对值操作，p_jt表示第j个核心站点在第t个时段内的借车量或还车量的真实值，表示第j个核心站点在第t个时段内的借车量或还车量的预测值。

按照下式，计算评价指标RMSLE如下：

其中，RMSLE表示度量核心站点借还量预测均方根误差的评价指标，T表示单车系统运行时段的总数，∑表示求和操作，t表示单车系统运行时段的编号，表示开平方操作，m表示核心站点的总数，j表示核心站点的编号，log表示求对数操作，p_jt表示第j个核心站点在第t个时段内的借车量或还车量的真实值，表示第j个核心站点在第t个时段内的借车量或还车量的预测值。

表2本发明所提出的方法与其他算法的核心站点预测精度对比表

度量核心站点单车借还量预测方法好坏的指标值越低，说明预测结果的精度越高；该指标的值越高，说明预测结果的精度越低。

从表2中可以看出，本发明提出的方法，相比于五种仿真实验，对核心站点各时段单车借还量的预测精度更高，并且由于核心站点的数量远小于所有站点的总数，所以对核心站点借还量进行预测所需的时间要远小于对所有站点借还量进行预测所需的时间，充分说明了本发明方法在站点单车借还量预测上的优越性。

综上所述，本发明公开的预测方法，不仅能够很好的预测站点群的各时段单车借还量，提高预测精度，而且通过选择核心站点并对核心站点的各时段单车借还量进行预测，既能够克服现有方法预测所有站点借还量花费时间较长的问题，又能够使预测的结果更加细粒度。本实验中所用的方法，简而言之，既通用又有效，且时间复杂度低。

Claims

1.一种用于有桩共享单车站点群的分时段借还量预测方法，其特征在于，对核心站点进行聚类，训练站点群单车借还量预测器，训练核心站点单车借还比例预测器，该方法的步骤包括如下：

(1)选择核心有桩共享单车站点：

(2)对核心站点进行聚类：

(2d)将核心值阈值作为最大站点群的初始核心值；

(3)对普通站点进行聚类：

(5)提取样本的特征：

(5c)将特征向量中的离散型特征进行one-hot编码；

(6)选择训练样本和测试样本：

(6b)将剩余34％样本的特征向量组成测试样本集；

(7)训练站点群单车借还量预测器：

(8)训练核心站点单车借还比例预测器：

(9)获得核心站点单车借还量的预测值：

2.根据权利要求1所述的用于有桩共享单车站点群的分时段借还量预测方法，其特征在于：步骤(1a)、步骤(2c)、步骤(2e)、步骤(2i)、步骤(3)中所述的距离阈值是由以下方式选取的：在[0,k]区间内，每间隔50选取一个值，判断所选的值是否使聚类后不存在离群站点，如果是，则将所选值作为距离阈值，否则，继续选取下一个值，其中k表示所有有桩共享单车站点之间距离的最大值，单位为米。

3.根据权利要求1所述的用于有桩共享单车站点群的分时段借还量预测方法，其特征在于：步骤(1b)、步骤(2d)、步骤(2h)中所述的核心值阈值是由以下方式选取的：在[0,m]区间内，每间隔0.1选取一个值，判断所选的值是否使聚类后不存在离群站点，如果是，则将所选值作为核心值阈值，否则，继续选取下一个值，其中m表示所有有桩共享单车站点的核心值的最大值。

4.根据权利要求1所述的用于有桩共享单车站点群的分时段借还量预测方法，其特征在于：步骤(4)所述的相似度公式如下：

5.根据权利要求1所述的用于有桩共享单车站点群的分时段借还量预测方法，其特征在于：步骤(5c)所述的one-hot编码是指，将一个离散型特征转化为多个二值特征，每个二值特征表示该离散型特征的一个取值状态。

6.根据权利要求1所述的用于有桩共享单车站点群的分时段借还量预测方法，其特征在于：步骤(8b)中所述岭回归模型的优化公式如下：