CN112785071B

CN112785071B - 一种企业用车客流模拟与预测系统

Info

Publication number: CN112785071B
Application number: CN202110128721.0A
Authority: CN
Inventors: 周智恒; 黄丹阳; 朱湘军; 彭永坚; 汪壮雄
Original assignee: GUANGZHOU VIDEO-STAR ELECTRONICS CO LTD; South China University of Technology SCUT
Current assignee: GUANGZHOU VIDEO-STAR ELECTRONICS CO LTD; South China University of Technology SCUT
Priority date: 2021-01-29
Filing date: 2021-01-29
Publication date: 2023-02-28
Anticipated expiration: 2041-01-29
Also published as: CN112785071A

Abstract

本发明公开了一种企业用车客流模拟与预测系统，包括时间流生成模块：生成单次需要用车单个乘客需要坐车的时间；行驶模式选择模块：输入正向、逆向、站间运行比例，根据这个比例确定时间流生成模块的每一时间点的每一乘客确定行驶方向；出发站选择模块：根据运行模式选择不同出发站点和目的站点；目的站选择模块：根据运行模式选择不同目的站点；特征选取模块：从客流数据中提取有用的特征，用于模型训练；模型训练模块：规定输出格式，将提取的特征送入，训练预测模型，得到输出结果；模型融合模块：将使用不同方法训练得到的预测模型进行融合，得到未来某时间段客流预测输出结果。根据这个预测结果分析，更新调度方案。

Description

一种企业用车客流模拟与预测系统

技术领域

本发明属于车辆调度和机器学习技术领域，具体涉及一种企业用车客流模拟与预测系统。

背景技术

企业用车是指企业工作人员上下班和执行外务需要所配备的车辆。以前大部分企业人员上下班均使用固定大型客车和固定路线接送，但是现在的情况随着各种企业逐渐壮大，企业中部门增多且上下班时间不一致，因此开始使用更灵活方便的非固定路线中小型汽车。一开始应用于企业内的汽车使用制度大多数以纸件或网上申请(孙晨,孔娇丽,郭雷,刘正国,黄笑笑.一种公务用车的智能调度系统及其调度方法[P].浙江省：CN110147924A,2019-08-20.)，存在审批效率慢，且容易丢失；不便于二次修改；难以统计数据且难以查看车辆使用情况，因此开始使用企业用车调度管理系统。企业用车调度管理系统一般是收到了用车呼叫然后就开始派车(叶唯,董振环,张华,白晓轩.企业用车管理系统及其方法[P].北京：CN108108904A,2018-06-01.)，这种情况下有可能会造成一次派车只搭乘一名乘客的公车浪费的情况，所以开始研究在平均等待时间尽量小的情况下，对公车资源进行合理的配置。一般智能用车调度系统，根据实时用车申请计算出调度方案，但这样对算法和计算机的速度较高要求(张文,谢学泽,熊文博,姜杰,陈聪权,肖朝华.一种基于大数据的公务用车调度监管系统[P].浙江省：CN111652779A,2020-09-11.)。因此本方法提出收集历史数据，在离线情况训练好模型然后对未来某一天的客流做出预测，再设计调度方案可以节约等待时间。此外，在企业用车投入使用之前，需要定量分析客流，以免事先投入过多的企业用车造成浪费从而节约成本。本客流模拟方法通过较少的统计数据得到可以反映实际用车客流。

发明内容

本发明要解决的技术问题是:企业用车投入使用之前模拟真实客流客流，做定量分析，根据模拟客流决定投入车辆以及初期调度方案。本发明在公务用车投入使用后产生的客流数据，预测站点未来的客流量变化，帮助实现更合理的出行路线选择，规避交通堵塞，方便作出科学的资源调配。

本发明至少通过如下技术方案之一实现。

一种企业用车客流模拟与预测系统，包括：

时间流生成模块：生成单次需要用车单个乘客需要坐车的时间，分成两个模式，上下班高峰时间使用泊松分布客流生成，非上下班高峰时间使用均匀分布客流生成，用于客流模拟；

行驶模式选择模块：输入正向、逆向、站间运行比例，根据比例确定时间流生成模块的每一时间点的每一乘客确定行驶方向；设置从其他站点到单位部门站点为正向，从单位部门站点到其他站点为逆向，出发点和到达点都没有单位部门站点为站间运行模式；

出发站选择模块：根据运行模式选择不同出发站点和目的站点，如果是正向模式或者站间模式则出发站点为其他普通站点，如果是逆向模式出发站点固定为单位部门站点；

目的站选择模块：根据运行模式选择不同目的站点，如果是正向模式目的站点固定为单位部门站点，如果是逆向模式和站间模式目的站点为其他普通站点；

各站点当前人数存储模块：记录每个时间段后，每个站点的容纳人数，提现站点人数的变化，初始值为每个普通站点附近的居住人数；

特征选取模块：从客流数据中提取特征，用于预测模型训练；

模型训练模块：规定输出格式，将提取的特征送入，训练预测模型，得到输出结果；

模型融合模块：将使用不同方法训练得到的预测模型进行融合，得到未来某时间段客流预测输出结果，根据这个预测结果分析，更新调度方案。

优选的，所述时间流生成模块需要提供数据包括：规定作为上班高峰期间的时间段，这段时间内到达机关部门的人数设置为N₁；规定作为非高峰期间的时间段，这段时间内到达机关部门的人数设置为N₂，上下班高峰期间的用车需求发出过程看成泊松分布：

f为时间段T内有用车需求的概率，n为乘客数，λ为每秒用车需求数的平均数即到达速率；

非上下班高峰期间的用车需求发出过程看成均匀分布，

f为时间段T内有用车需求的概率，T₂为结束时间点，T₁为开始时间点，λ为每秒用车需求数的平均数即到达速率。

优选的，所述出发站选择模块和目的站选择模块需要提供数据包括：将所有企业用车涵盖路线划分为N个站点，统计单位部门中在各个站点附近居住的人数P_i，得到P₁,P₂...P_i...P_N，分为正行模式、逆行模式和层间模式三种运行模式；在逆行模式固定单位部门站点作为出发站点；在正行模式情况下，根据蒙特卡洛法构造轮盘，总共有N个站点，将圆盘分成N个区间分别和N个站点对应，每个区间的宽度和该站点的起始密度成正比，对于每个乘客，随机转动一次轮盘，当轮盘停止时，指针指向的区间所对应的站点即为该乘客的起始站点，操作步骤如下:

①计算站点起始密度之和：

②计算每个站点的选择概率：

③计算每个站点的累积概率：

④对于每个乘客，在[0,1]区间产生1个随机数r,如果该随机数小于第1个站点的累积概率，则第一个楼层作为起始站点，如果q_i≥r≥q_i-1，则第i站点作为所选站点；

在站间模式情况下，步骤①的P_i为各站点当前人数存储模块中每个站点当前容纳人数P_i′。

优选的，所述特征选取模块对客流数据进行特征提取包括强相关性信息特征、趋势性特征、周期性特征；

所述强相关性信息特征主要发生在每天对应时刻，分别构造小时粒度和a分钟粒度的出入站流量特征，考虑到前后时间段流量的波动因素，添加上个时段和下个时段，或者上两个和下两个时段的流量特征，同时还构造前M天对应时段的流量，考虑到相邻站点的强相关性，添加相邻两站对应时段的流量。

优选的，所述强相关性信息特征包括：d分钟固定特征、小时统计特征的平滑特征、滑窗统计特征、相邻站点统计特征。

优选的，所述趋势性特征构造特征定义如下：

A_diff(n+1)＝A(n+1)-A(n),A＝in|out

即表示前后时段的差值，A(n)是入站流量或出站流量，同样，考虑每天对应当前时段，每天对应上个时段；流量差比为：

A_ratio(n+1)＝A(n+1)/A(n),A＝in|out。

优选的，所述周期性特征选择对应日期对应时间段的信息进行特征的构建，具体包括每周对应时刻d分钟的历史统计值特征和每周对应时刻h小时的历史统计值。

优选的，所述模型训练模块采用滑窗滚动的方式进行构建，将所有滚动滑窗的标签以及特征进行拼接形成最终的训练集，输出规定为h天内以s分钟为间隔，每个站点的进出人数；利用特征选取模块的特征向量，叶子的数量为g，学习率为b，最大深度为w的Xgboost(eXtreme Gradient Boosting，最大梯度提升树)和LightGBM(Light GradientBoosting Machine，轻量梯度提升树)回归模型进行训练。

优选的，所述预测模型Xgboost和LightGBM分别作为基础模型，命名为第一模型和第二模型。

优选的，所述模型融合模块使用时序Stacking方法进行模型融合，将所有数据集生成80％训练集和20％测试集，训练集部分执行p折交叉检验，使用训练集中的80％作为子训练集，剩余20％作为验证集。

与现有技术相比，本发明一种企业用车客流模拟与预测系统收集历史数据，在离线情况训练好模型然后对未来某一天的客流做出预测，再设计调度方案可以节约等待时间。Xgboost和LightGBM的融合模型可以得到比较准确的预测模型。并且企业用车投入使用之前模拟真实客流客流，做定量分析，根据模拟客流决定投入车辆以及初期调度方案，节约成本，避免资源浪费。

附图说明

图1为本实施例企业用车客流模拟流程图；

图2为本实施例企业用车客流预测滑窗模型图；

图3为本实施例训练集融合示意图；

图4为本实施例测试集融合示意图。

具体实施方式

本发明提出一种企业用车客流模拟与预测系统，结合附图和实施例子说明如下。

本实施例的一种企业用车客流模拟与预测系统，包括时间流生成模块：生成单次需要用车单个乘客需要坐车的时间，分成两个模式，上下班高峰时间使用泊松分布客流生成，非上下班高峰时间使用均匀分布客流生成，用于客流模拟；

行驶模式选择模块：输入正向、逆向、站间运行比例，根据这个比例确定时间流生成模块的每一时间点的每一乘客确定行驶方向；设置从其他站点到单位部门站点为正向，从单位部门站点到其他站点为逆向，出发点和到达点都没有单位部门站点为站间运行模式；

特征选取模块：从客流数据中提取有用的特征，用于模型训练；

模型融合模块：将使用不同方法训练得到的预测模型进行融合，得到未来某时间段客流预测输出结果。根据这个预测结果分析，更新调度方案。

如图1所示，所述一种企业用车客流模拟与预测系统的方法，包括以下步骤：

S1、首先生成时间流，假设属于上下班高峰期间，呼叫用车发生次数满足泊松分布，由原来的概率公式推导出：

式子表示初始为0，下式表示在仿真时间内第i个人任到达的时间。r属于[0,1]区间均匀分布的随机数。设置模拟结束的时间为t_i，通过调整达速率λ，得到i的最大值等于这段时间内到达机关部门的人数N₁结束。

假设属于非上下高峰期间，呼叫用车发生次数满足均匀分布，已知这段时间内到达机关部门的人数N₂，计算出分配到模拟结束时间的人数为N₂/n，n表示倍数。假设仿真时间为[T1,T2]，则在这个区间中生成N₂/n个随机数，表示每个人任到达的时间。以上时间单位都表示区间中的第几秒，都要转化为正常的时间格式。

S2、使用行驶模式选择模块，输入正向、逆向、站间运行比例，根据这个比例确定时间流生成模块的每一时间点的每一乘客确定行驶方向。假设这个比例为[0.8,0.1,0.1],说明该时间段的乘客正向、逆向、站间运行的概率为0.8,0.1,0.1。

S3、根据运行模式选择不同出发站点和目的站点。假设所有企业用车涵盖路线划分为8个站点，统计单位部门中在各个站点附近居住的人数P_i，得到[17,18,21,22,32,31,27,32](P₁表示单位部门站点附近居住人数)。分为三种模式，在正行模式情况下，出发站点决定根据蒙特卡洛法构造轮盘，总共有8个站点，所以将圆盘分成8个区间分别和8个站点对应，每个区间的宽度和该站点的起始密度成正比，对于每个乘客，随机转动一次轮盘，当轮盘停止时，指针指向的区间所对应的站点即为该乘客的起始站点，操作步骤如下:

①计算站点起始密度之和：F＝17+18+21+22+32+31+27+32＝200

②计算每个站点的选择概率：

③计算每个站点的累积概率：

q₁＝0.085,q₂＝0.175,q₃＝0.28,q₄＝0.39,q₅＝0.55,q₆＝0.705,q₇＝0.84,q₈＝0.16

④对于每个乘客，在[0,1]区间产生1个随机数,如果该随机数小于第1个站点的累积概率，则第一个楼层作为起始站点，如果q_i≥r≥q_i-1，则第i站点作为所选站点。假如生成的r为0.776，则第6个站点为出发站点。目的站点为单位部门站点。

在层间模式情况下，出发站点类似上述计算方式，但将上述操作步骤的第①步的P_i更改为各站点当前人数存储模块中每个站点当前容纳人数P_i′。目的站点和上述计算出发站点方法类似。

在逆行模式固定单位部门站点作为出发站点。目的站点和上述计算出发站点方法类似。

根据以上客流模拟方法可以生成以下表1客流数据:

表1客流数据

呼叫用车时间	出发站点	目的站点
			2020-12-28 08:12:01	2	1
2020-12-28 08:12:07	3	1
			...	...	...
2020-12-28 18:32:01	1	6

S4、企业用车投入使用一段时间后积累使用数据。然后使用特征选取模块，从客流数据进行特征提取，如图2所示，为企业用车客流预测滑窗模型图，包括以下步骤：

假设有30天的历史客流数据积累，并且是如上表1类型，然后以10分钟为单位，统计得到每个10分钟内每个站点的进出人数。假设有4个站点，在8:00-8：10的进出数据分别为1：[21,1],2:[0,3],3:[0,4],4:[1,5]，提取特征如下：

1)强相关性信息

2)趋势性

3)周期性

每条训练样本是针对每一个站点的，对于站点1，则是上述一共25个特征的inNums&outNums对应一个输出[21,1]；对于站点2，则是上述一共25个特征的inNums&outNums对应一个输出[0,3]等，整个训练集就是由这4个站点的数据进行拼接。如果选取作为特征的天数大于1，则inNums&outNums表示的都是平均值。采用滑窗滚动(天)的方式进行训练，可以防止因为某一天存在奇异值而导致模型训练走偏。最后将所有滚动滑窗的标签以及特征进行拼接形成最终的训练集，输出规定为1天内以10分钟为间隔，每个站点的进出人数；

S5、得到样本以及打上标签后，将其使用Xgboost和LightGBM模型分开训练，保存两个模型。叶子的数量为16，学习率为0.01，最大深度为4，评价标准为MAE。

S6、如图3、图4所示，使用时序stacking方法进行模型融合。用XGBoost作为基础模型Model1，5折交叉验证就是先拿出四折作为训练集，另外一折作为测试集。再在训练集中划分，拿出四折作为训练集，另外一折作为验证集。假设整个训练集包含10000行数据，测试集包含2500行数据，那么每一次交叉验证其实就是对训练集进行划分，在每一次的交叉验证中训练集将会是8000行，验证集是2000行。

每一次的交叉验证包含两个过程，1.基于训练集训练模型；2.基于训练集训练生成的模型对验证集进行预测。在整个第一次的交叉验证完成之后将会得到关于当前验证集的预测值，这将会是一个一维2000行的数据，记为a1。在这部分操作完成后，还要对数据集原来的整个测试集进行预测，这个过程会生成2500个预测值，这部分预测值将会作为下一层模型测试集的一部分，记为b1。因为进行的是5折交叉验证，所以以上提及的过程将会进行五次，最终会生成针对验证集数据预测的5列2000行的数据a1、a2、a3、a4、a5，对测试集的预测会是5列2500行数据b1、b2、b3、b4、b5。

在完成对Model1的整个步骤之后，可以发现a1、a2、a3、a4、a5其实就是对原来整个训练集的预测值，将其拼凑起来，会形成一个10000行一列的矩阵，记为A1。而对于b1、b2、b3、b4、b5这部分数据，将各部分相加取平均值，得到一个2500行一列的矩阵，记为B1。

以上就是stacking中一个模型的完整流程，stacking中同一层通常包含多个模型，还有Model2:LightGBM。重复以上的步骤，在整个流程结束之后，可以得到新的A2、A3、A4、A5、B2、B3、B4、B5矩阵。

在此之后，把A1、A2、A3、A4、A5并列合并得到一个10000行五列的矩阵作为训练集，B1、B2、B3、B4、B5并列合并得到一个2500行五列的矩阵作为测试集。让下一层的模型，基于他们进一步训练。

再训练是基于每个基础模型的预测结果作为特征(2个特征)，次学习器会学习训练如果往这样的基学习的预测结果上赋予权重w，来使得最后的预测最为准确。

最后预测数据结果形式为：

以上所述仅为本发明的优选实施例，并不用于限制本发明,显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims

1.一种企业用车客流模拟与预测系统，其特征在于：包括

所述时间流生成模块需要提供数据包括：规定作为上班高峰期间的时间段，这段时间内到达机关部门的人数设置为N₁；规定作为非高峰期间的时间段，这段时间内到达机关部门的人数设置为N₂，上下班高峰期间的用车需求发出过程看成泊松分布：

f为时间段T内有用车需求的概率，其中T∈(T₁，T₂)，n为乘客数，λ为每秒用车需求数的平均数即到达速率；

非上下班高峰期间的用车需求发出过程看成均匀分布，

f'为时间段T内有用车需求的概率，T₂为结束时间点，T₁为开始时间点，λ为每秒用车需求数的平均数即到达速率；

首先生成时间流，假设属于上下班高峰期间，呼叫用车发生次数满足泊松分布，由原来的概率公式推导出：

t₀表示初始为0，t_i表示在仿真时间内第i个人到达的时间；r属于[0,1]区间均匀分布的随机数；设置模拟结束的时间为t_i，通过调整到达速率λ，得到i的最大值等于这段时间内到达机关部门的人数N₁结束；

假设属于非上下高峰期间，呼叫用车发生次数满足均匀分布，已知这段时间内到达机关部门的人数N₂，计算出分配到模拟结束时间的人数为N₂/k，k表示倍数；假设仿真时间为[T1,T2]，则在这个区间中生成N₂/k个随机数，表示每个人到达的时间；时间单位都表示区间中的第几秒，都要转化为正常的时间格式；

所述出发站选择模块和目的站选择模块需要提供数据包括：假设所有企业用车涵盖路线划分为N个站点，统计单位部门中在各个站点附近居住的人数P_i，得到P₁,P₂...P_i...P_N，分为正行模式、逆行模式和层间模式三种运行模式；在逆行模式固定单位部门站点作为出发站点；

在正行模式情况下，根据蒙特卡洛法构造轮盘，总共有N个站点，所以将圆盘分成N个区间分别和N个站点对应，每个区间的宽度和该站点的起始密度成正比，对于每个乘客，随机转动一次轮盘，当轮盘停止时，指针指向的区间所对应的站点即为该乘客的起始站点，操作步骤如下:

①计算站点起始密度之和：

②计算每个站点的选择概率：

③计算每个站点的累积概率：

在站间模式情况下，步骤①的P_i为各站点当前人数存储模块中每个站点当前容纳人数P_i′；

特征选取模块：采用滑窗滚动的方式进行训练，最后将所有滚动滑窗的标签以及特征进行拼接形成最终的训练集，从客流数据中提取特征，用于预测模型训练；

模型训练模块：规定输出格式，将提取的特征送入，训练预测模型，得到输出结果；得到样本以及打上标签后，将其使用Xgboost和LightGBM模型分开训练，保存两个模型；叶子的数量为16，学习率为0.01，最大深度为4，评价标准为MAE；

模型融合模块：将使用不同方法训练得到的预测模型进行融合，得到未来某时间段客流预测输出结果，根据这个预测结果分析，更新调度方案；使用时序stacking方法进行模型融合，用XGBoost作为基础模型Model1，5折交叉验证先拿出四折作为训练集，另外一折作为测试集，再在训练集中划分，拿出四折作为训练集，另外一折作为验证集。

2.根据权利要求1所述的一种企业用车客流模拟与预测系统，其特征在于：所述特征选取模块对客流数据进行特征提取包括强相关性信息特征、趋势性特征、周期性特征；

3.根据权利要求2所述的一种企业用车客流模拟与预测系统，其特征在于：所述强相关性信息特征包括：d分钟固定特征、小时统计特征的平滑特征、滑窗统计特征、相邻站点统计特征。

4.根据权利要求3所述的一种企业用车客流模拟与预测系统，其特征在于：所述趋势性特征构造特征定义如下：

A_diff(t+1)＝A(t+1)-A(t),A＝in|out

A_diff(t+1)表示前后时段的差值，A(t+1)是当前时间段入站流量或出站流量，A(t)是上一时间段入站流量或出站流量，同样，考虑每天对应当前时段，每天对应上个时段；流量差比为：

A_ratio(t+1)＝A(t+1)/A(t),A＝in|out。

5.根据权利要求4所述的一种企业用车客流模拟与预测系统，其特征在于：所述周期性特征选择对应日期对应时间段的信息进行特征的构建，具体包括每周对应时刻d分钟的历史统计值特征和每周对应时刻h小时的历史统计值。

6.根据权利要求5所述的一种企业用车客流模拟与预测系统，其特征在于：所述预测模型Xgboost和LightGBM分别作为基础模型，命名为第一模型和第二模型。