CN110599767A

CN110599767A - 一种基于网约车出行需求的长短期预测方法

Info

Publication number: CN110599767A
Application number: CN201910832422.8A
Authority: CN
Inventors: 曾伟良; 吴淼森
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2019-09-04
Filing date: 2019-09-04
Publication date: 2019-12-20

Abstract

本发明公开了一种基于网约车出行需求的长短期预测方法，首先对数据预处理，并分割为训练集和测试集；然后按照经纬度把城市路网划分为网格，寻找区域之间时空相关性；下一步建立基于CNN+LSTM+XGBoost的混合模型，最后，预测短时期内的(如10分钟内)出租车需求量和长时期的(如1小时内、节假日、高峰期)的出租车需求量；本发明既能用在短时预测上，比如预测10分钟间隔的交通流量趋势，也能用在长期的预测上，能够考虑周末、节假日带来的不同周期变化，找出每天高峰期时段不同的客流量规律提高预测精确度。

Description

一种基于网约车出行需求的长短期预测方法

技术领域

本发明涉及交通运输技术领域，具体涉及一种基于网约车出行需求的长短期预测方法。

背景技术

在倡导节能减排的时代，出租车特别是网约车逐渐成为人们出行首选的交通工具。精准的需求预测是提高出租车运营效率的重要手段，对于分配空载出租车、抵制黑车宰客、提高乘客出行效率有明显帮助。需求预测也可以用于推断路段速度和流量，引导车辆在复杂的城市交通环境中安全有效地行驶。随着网约出租车发展的成熟，市民打车更加便捷，但由于受到区域间出租车分配不均，高峰期供需失衡，恶劣天气缺乏应急调度方案等因素的影响，出租车运营并没有达到人们的预期水平。上述的调度系统缺陷往往会造成乘客打车难、出租车空驶率高等问题。由于缺乏精准的需求预测，对于乘客而言，浪费了大量的等待时间；对于出租车公司则意味着运营效率低下和利润下降。因此，预测整个城市的打车需求具有很强的必要性，它将有效的帮助组织出租车车队运营，并最大限度地减少乘客和司机的等待时间。

为了更合理的分配出租车资源，目前已有一些方法对出行需求进行预测。一般情况下，利用历史数据库中出租车产生的数据，如车辆ID、订单ID、上下车时间、上下车地点(经纬度坐标)、乘客数量、天气情况等对出行需求进行预测。为了便于处理城市路网的出租车数据，城市路网一般划分为如图1所示的栅格区域，然后进行需求预测的分析。预测过程一般包括三个步骤，首先统计各个区域的历史打车需求量，划分为训练集和测试集，然后设计打车需求预测模型，并用训练集和测试集的数据对模型进行训练和测试，最后对各个区域的出行需求进行预测。常用的出行需求预测方法有基于历史数据的平均模型、自回归模型、自回归积分滑动平均模型、对交通系统和土地利用进行建模等。然而，这些方法难以表达打车需求与大量外部因素之间的关联性，特别是对时空相关性的考虑不足，导致模型的拟合效果不理想，预测误差较大。

近年来，机器学习开始应用于交通需求预测的领域。常见的方法有基于GBRT(Gradient Boosting Regression Tree，梯度提升回归树)的需求预测、基于随机森林回归模型的多特征客流预测、基于XGBoost(eXtreme Gradient Boosting，极端梯度提升)的短时交通流预测等。上述方法大部分针对短时(未来10分钟)的交通需求进行预测，不能精准的预测长时(未来30分钟，未来高峰期，节假日，恶劣气候期间)的交通需求演变情况。上述方法虽然在短时预测方面取得较满意结果，但极少挖掘打车需求在不同空间区域和不同时间段的演变规律，难以预测打车需求在复杂非线性的时空关系中的动态变化。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提供一种基于网约车出行需求的长短期预测方法，该方法利用海量的网约车订单数据训练一个混合模型捕获全局路网的交通状态特征，充分考虑交通路网复杂的时空依赖关系，提高打车需求量预测的精度。

本发明的目的通过下述技术方案实现：

一种基于网约车出行需求的长短期预测方法，包括下述步骤：

步骤一，将城市路网按经度和纬度划分为M×N的网格地图，则该地图由M行和N列组成；将各个区域存放在集合Location＝{l₁，l₂，l₃...l_M×N}中，其中l代表M×N个区域中的某一个子区域；

步骤二，对数据进行预处理，根据同一个订单ID及其时间戳，仅保留一行具有最早的时间戳的数据和一行具有最晚时间戳的数据，这两行数据即为乘客的上车信息和下车信息；剔除出租车行驶过程中的其他轨迹数据和重复的无效订单；将这两条数据整合为一行，对其他订单信息做同样的处理；此时数据信息有司机ID、订单ID、上车经度、上车纬度、上车时间戳、下车经度、下车纬度、下车时间戳；再将字符串形式的时间戳数据转化为“年-月-日时：分：秒”的时间形式并替换原数据，此即为上下车时间数据；

步骤三，使用符号表示各个信息，用O_lo表示上车经度，O_la表示上车纬度，O_t表示上车时间，用D_lo表示下车经度，D_la表示下车纬度，D_t表示下车时间；将一天的时间划分为非重叠的等量间隔的i个时间段，时间集合为Time＝{t₁，t₂，t₃...t_i}，那么时空坐标可表示为(t，l)，其中t代表时间，1代表区域；行程起点时空坐标为：Start＝(O_t，l_s)，行程终点时空坐标为：End＝(D_t，l_e)；Demand表示打车需求量，每个时间段起点打车需求量为：将处理后的数据映射到划分好的城市网格中；由于每个区域的需求量并不相同，所以有可能在不同的区域出现不同数量级的需求量，可以对各个区域内的打车需求量进行归一化：其中Demand_max和Demand_min分别代表打车需求量的最大值和最小值；

步骤四，为了捕获空间和时间顺序依赖性，故集成了CNN(卷积神经网络，Convolutional neural netWork)和LSTM(长短期记忆网络，Long Short-Term Memory)用于探索时空相互作用；由于单独使用一种方法可能无法获得最佳性能和最准确结果，故使用CNN来捕获空间信息、采用LSTM捕获时间顺序依赖性；通过CNN和LSTM捕获局部范围的交通需求变化情况，可以得到邻近区域相关性、流量变化周期性和趋势性三种特征，然后经过池化操作精确预测出租车需求；

步骤五，利用步骤四中的三种特征，可以预测打车需求量及其目的地；令卷积算子为f(W*X+b)，其中f为激活函数，*表示卷积运算符，W和b分别表示权重矩阵和偏置项；计算出以上三种特征的卷积算子，基于权重进行融合可得到时空分量输出；然后，结合XGBoost预测出租车到达目的地；XGBoost目标函数为：其中G是当前叶子节点所有一阶导数之和，H是当前叶子节点所有二阶导数之和；λ和γ是超参数，表示惩罚力度，加入λ来降低每棵树分支的“灵敏度”，减少过拟合的发生，加入γ表示加入新节点后引起的复杂度变化；T表示叶子节点个数；loss越小则预测值与真实值越接近，所以越大越好；因此，对于一个叶子节点的分裂，定义信息增益为：Gain的值越大，则产生的损失值就越大，于是选取Gain最小的切割点进行分支；是分裂后左节点的分数值，是分裂后右节点的分数值，则表示未做切分前该父节点的分数值；

步骤六，利用均方根误差(RMSE)和平均绝对百分误差(MAPE)验证性能，即：和其中是时间间隔t的区域l的预测值，是时间间隔t的区域1的真实值，N是样本总数。

优选地，所述步骤四中的邻近区域相关性具体为：交通需求与区域间的功能密切相关，例如进入上班时间段，人们会从居住区往工作区流动，下班时间段则反之；短时间内两两相邻的区域间交通流量的变化也具有相关性，学校区域附近是高速公路区域，学校区域受到高速公路区域影响会比较大，这两个邻近区域的客流量会比附近区域更大；某区域A邻近医院，而与区域A具有相同功能的区域B也邻近另一家医院，这两个区域就会具有相似的相关性；所以为了预测区域1，其空间相邻的区域2的需求和其功能相似的区域3可能关系密切，而与远距离的不相关区域4之间的联系可能就微乎其微。

优选地，所述步骤四中的流量变化周期特征具体为：区域间的交通流状况呈现周期性，这些周期变化呈现一定的规律性，但也并非每天或每周都会严格遵循这些规律性，如工作日和非工作日会有不同的客流量，故引入深度学习框架来完成动态周期性规律的识别。

优选地，所述步骤四中的趋势性具体为：交通流量的变化不仅受到时空影响，如天气情况等外部环境也会很大程度影响人们的出行；根据一年每小时天气情况的变化，人们的活动趋势会有一定的波动，例如随着温度升高人们的活动逐渐增多。

本发明与现有技术相比具有以下的有益效果：

本发明能够充分考虑时间和空间的复杂依赖性，通过卷积神经网络(CNN)提取空间特征、利用长短期记忆网络(LSTM)提取时间特征；利用深度学习捕获区域间不同类型的特征关系，既能用在短时预测上，比如预测10分钟间隔的交通流量趋势，也能用在长期的预测上，能够考虑周末、节假日带来的不同周期变化，找出每天高峰期时段不同的客流量规律提高预测精确度；时空预测是数据驱动城市管理的基础问题，到达目的地、到达时间、打车需求量的预测工作有利于提升出租车运营效率，缓解城市交通压力。

附图说明

图1为现有技术中需求预测的区域划分示意图；

图2为本发明的网约出租车订单数据(部分)；

图3为本发明的天气情况数据(部分)；

图4为本发明的捕获时空关系构建预测模型；

图5为本发明的流程示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

本发明的主要任务是通过历史的网约车轨迹数据对乘客打车需求进行长短时的预测。本发明希望能够利用空间信息(如上下车位置的相似性、场所功能的特征等)和外部背景信息(天气情况、当地事件等)，结合深度学习强大的推算能力，捕获复杂的非线性时空依赖性，最终能够精确预测网约出租车的长短期需求，为车辆调度优化，提高用户出行的效率，缓解城市道路拥堵提供技术支撑。网约车数据样例如图2所示，包含有司机ID、订单ID、时间戳、经度和纬度。本发明通过使用机器学习和深度学习技术进行交通需求预测：首先对数据预处理，并分割为训练集和测试集；然后按照经纬度把城市路网划分为网格，寻找区域之间时空相关性；下一步建立基于CNN+LSTM+XGBoost的混合模型，最后，预测短时期内的(如10分钟内)出租车需求量和长时期的(如1小时内、节假日、高峰期)的出租车需求量。

具体来说，如图3～5所示，一种基于网约车出行需求的长短期预测方法，包括下述步骤：

步骤三，使用符号表示各个信息，用O_lo表示上车经度，O_la表示上车纬度，O_t表示上车时间，用D_lo表示下车经度，D_la表示下车纬度，D_t表示下车时间；将一天的时间划分为非重叠的等量间隔的i个时间段，时间集合为Time＝{t₁，t₂，t₃...t_i}，那么时空坐标可表示为(t，1)，其中t代表时间，l代表区域；行程起点时空坐标为：Start＝(O_t，l_s)，行程终点时空坐标为：End＝(D_t，l_e)；Demand表示打车需求量，每个时间段起点打车需求量为：将处理后的数据映射到划分好的城市网格中；由于每个区域的需求量并不相同，所以有可能在不同的区域出现不同数量级的需求量，可以对各个区域内的打车需求量进行归一化：其中Demand_max和Demand_min分别代表打车需求量的最大值和最小值；因为原数据中缺少天气情况的数据，我们从https：//www.wunderground.com中下载每天的历史天气信息。数据示例图如图3所示，每小时记录一次天气情况，分别有时间信息、温度、湿度、风速、降雨量5个字段。

以往的研究多存在于局部的时空网络中，仅仅使用前几个时间间隔进行预测而忽略了长期的依赖性。步骤四，为了捕获空间和时间顺序依赖性，故集成了CNN(卷积神经网络，Convolutional neural network)和LSTM(长短期记忆网络，Long Short-Term Memory)用于探索时空相互作用；由于单独使用一种方法可能无法获得最佳性能和最准确结果，故使用CNN来捕获空间信息、采用LSTM捕获时间顺序依赖性；此外，LSTM还能防止出现RNN(循环神经网络，Recurrent Neural Network)梯度爆炸和梯度消失的问题；本发明提出的模型，可寻找周期性的时间变化规律，以及不同日期、不同礼拜间的出行需求状态转移。模型如图4所示。通过CNN和LSTM捕获局部范围的交通需求变化情况，可以得到邻近区域相关性、流量变化周期性和趋势性三种特征，然后经过池化操作精确预测出租车需求；

所述邻近区域相关性具体为：交通需求与区域间的功能密切相关，例如进入上班时间段，人们会从居住区往工作区流动，下班时间段则反之；短时间内两两相邻的区域间交通流量的变化也具有相关性，学校区域附近是高速公路区域，学校区域受到高速公路区域影响会比较大，这两个邻近区域的客流量会比附近区域更大；某区域A邻近医院，而与区域A具有相同功能的区域B也邻近另一家医院，这两个区域就会具有相似的相关性；所以为了预测区域1，其空间相邻的区域2的需求和其功能相似的区域3可能关系密切，而与远距离的不相关区域4之间的联系可能就微乎其微。

所述流量变化周期特征具体为：区域间的交通流状况呈现周期性，这些周期变化呈现一定的规律性，但也并非每天或每周都会严格遵循这些规律性，如工作日和非工作日会有不同的客流量，故引入深度学习框架来完成动态周期性规律的识别。

所述趋势性具体为：交通流量的变化不仅受到时空影响，如天气情况等外部环境也会很大程度影响人们的出行；根据一年每小时天气情况的变化，人们的活动趋势会有一定的波动，例如随着温度升高人们的活动逐渐增多。

步骤六，利用均方根误差(RMSE)和平均绝对百分误差(MAPE)验证性能，即：和其中是时间间隔t的区域l的预测值，是时间间隔t的区域l的真实值，N是样本总数。最终打车需求预测流程如图5所示。

本发明可用随机森林、支持向量机等机器学习方法实现，用单一的CNN或LSTM方法也能实现，但是会因为没有充分考虑时空关系而降低结果的精准度。

总的来说，本发明的创新点在于：利用了深度学习来计算时空依赖性，预测模型能够充分考虑时空特征，提高精确度，并通过XGBoost预测最终目的地。

本发明能够充分考虑时间和空间的复杂依赖性，通过卷积神经网络(CNN)提取空间特征、利用长短期记忆网络(LSTM)提取时间特征；利用深度学习捕获区域间不同类型的特征关系以及时空相关性，既能用在短时预测上，比如预测10分钟间隔的交通流量趋势，也能用在长期的预测上，能够考虑周末、节假日带来的不同周期变化，找出每天高峰期时段不同的客流量规律提高预测精确度；时空预测是数据驱动城市管理的基础问题，到达目的地、到达时间、打车需求量的预测工作有利于提升出租车运营效率，缓解城市交通压力。

上述为本发明较佳的实施方式，但本发明的实施方式并不受上述内容的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于网约车出行需求的长短期预测方法，其特征在于，包括下述步骤：

步骤三，使用符号表示各个信息，用O_lo表示上车经度，O_la表示上车纬度，O_t表示上车时间，用D_lo表示下车经度，D_la表示下车纬度，D_t表示下车时间；将一天的时间划分为非重叠的等量间隔的i个时间段，时间集合为Time＝{t₁，t₂，t₃...t_i}，那么时空坐标可表示为(t，l)，其中t代表时间，l代表区域；行程起点时空坐标为：Start＝(O_t，l_s)，行程终点时空坐标为：End＝(D_t，l_e)；Demand表示打车需求量，每个时间段起点打车需求量为：将处理后的数据映射到划分好的城市网格中；由于每个区域的需求量并不相同，所以有可能在不同的区域出现不同数量级的需求量，可以对各个区域内的打车需求量进行归一化：其中Demand_max和Demand_min分别代表打车需求量的最大值和最小值；

步骤六，利用均方根误差(RMSE)和平均绝对百分误差(MAPE)验证性能，即：和其中是时间间隔t的区域1的预测值，是时间间隔t的区域1的真实值，N是样本总数。

2.根据权利要求1所述的基于网约车出行需求的长短期预测方法，其特征在于，所述步骤四中的邻近区域相关性具体为：交通需求与区域间的功能密切相关，例如进入上班时间段，人们会从居住区往工作区流动，下班时间段则反之；短时间内两两相邻的区域间交通流量的变化也具有相关性，学校区域附近是高速公路区域，学校区域受到高速公路区域影响会比较大，这两个邻近区域的客流量会比附近区域更大；某区域A邻近医院，而与区域A具有相同功能的区域B也邻近另一家医院，这两个区域就会具有相似的相关性；所以为了预测区域1，其空间相邻的区域2的需求和其功能相似的区域3可能关系密切，而与远距离的不相关区域4之间的联系可能就微乎其微。

3.根据权利要求1所述的基于网约车出行需求的长短期预测方法，其特征在于，所述步骤四中的流量变化周期特征具体为：区域间的交通流状况呈现周期性，这些周期变化呈现一定的规律性，但也并非每天或每周都会严格遵循这些规律性，如工作日和非工作日会有不同的客流量，故引入深度学习框架来完成动态周期性规律的识别。

4.根据权利要求1所述的基于网约车出行需求的长短期预测方法，其特征在于，所述步骤四中的趋势性具体为：交通流量的变化不仅受到时空影响，如天气情况等外部环境也会很大程度影响人们的出行；根据一年每小时天气情况的变化，人们的活动趋势会有一定的波动，例如随着温度升高人们的活动逐渐增多。