CN112669595B

CN112669595B - 一种基于深度学习的网约车流量预测方法

Info

Publication number: CN112669595B
Application number: CN202011455308.7A
Authority: CN
Inventors: 吴超; 胡隽; 魏祖昌; 李皓
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-12-10
Filing date: 2020-12-10
Publication date: 2022-07-01
Anticipated expiration: 2040-12-10
Also published as: CN112669595A

Abstract

本发明公开了一种基于深度学习的网约车流量预测方法，属于机器学习研究领域。该方法建立了历史交通量为输入的双向长短期记忆网络模型，即以过去8‑24小时的数据作为输入，预测未来一个小时的网约车流量数据。包括(1)获取网约车运营历史数据，统计网约车流量；(2)对网约车运营数据进行流量变化分析，匹配并标记流量骤增或骤减的外部环境属性；(3)DBSCAN聚类；(4)按照信息点扩大聚类区域；(5)构建以历史交通量分布为输入的LSTM预测模型，预测未来时间段的各区域的网约车流量数据。本发明的方法提高了预测准确性，尤其是在一些特殊情况下(如极端天气、节假日、大型活动等)的预测准确性。

Description

一种基于深度学习的网约车流量预测方法

技术领域

本发明属于机器学习研究领域，具体涉及一种基于深度学习的网约车流量预测方法。

背景技术

网约车服务已成为城市交通系统中一个重要且不可或缺的组成部分。随着服务规模越来越大，网约车时空分配不均匀的问题越来越突出，这往往会带来某个区域交通量突增而导致的交通拥堵。如何在有限的资源下，对网约车进行合理的时空分配是一个巨大的挑战。

为了解决这个问题，目前的解决方案包括在高峰时段提高网约车价格以抑制乘客需求量；闲置车辆重新从空闲区域分配到需求高峰区域以满足更多的人的需求；减少每辆车的空闲时间以提高满足乘客需求的速度；提供拼车服务，允许一个车辆可以同时满足多个乘客的需求等等。而这些策略都极其依赖于准确的实时需求预测，尤其是出发地-目的地(OD)对需求的预测。

近年来，深度学习方法越来越多地应用于交通工程的不同领域的研究。除了出行需求预测之外，深度学习方法还被广泛运用于短期交通流量预测和交通速度预测的研究。本发明旨在运用深度学习的手段结合网约车流量历史数据，对未来网约车的流量进行预测，可用于指导合理的网约车定价和分配策略。

发明内容

为了解决上述技术问题，本发明的目的在于提供一种基于深度学习的网约车流量预测方法，对未来网约车的流量进行预测，用以指导网约车定价和分配策略。

为实现上述目的，本发明的技术方案是：

一种基于深度学习的网约车流量预测方法，包括以下步骤：

步骤1：获取网约车运营历史数据，所述的运营历史数据包括网约车行程的起始位置、起始时间、到达位置和到达时间，统计网约车流量；

步骤2：对网约车运营数据进行流量变化分析，匹配并标记流量骤增或骤减的外部环境属性；

步骤3：利用DBSCAN聚类算法，对每一个历史时间段内的网约车行程的起始位置和到达位置进行聚类，结合交通规划的区域划分，得到聚类区域；

步骤4：按照信息点扩大聚类区域，根据扩大后的聚类区域确定区域划分，得到历史交通量分布数据集；所述的历史交通量数据集由每一个区域的各时间段的网约车流量、以及标记的外部环境属性构成；

步骤5：依据步骤4处理后得到的数据集，构建以历史交通量分布为输入的LSTM预测模型，预测未来时间段的各区域的网约车流量数据。

相较于现有技术，本发明具有以下有益效果：因为本发明方法采用了数据分析、人工智能和交通规划跨学科结合的手段对未来网约车的流量进行预测，所以相比现有技术提高了一定的预测准确性，尤其是在一些特殊情况下(如极端天气、节假日、大型活动等)的预测准确性。

附图说明

图1为本发明所述基于深度学习的网约车流量预测方法流程示意图。

图2为本发明所述基于深度学习的网约车流量预测方法中DBSCAN对交通区域进行聚类的结果示例。

图3为本发明实施例的预测结果示例。

具体实施方式

下面结合附图对本发明做进一步的解释说明。

本发明提出了一种基于深度学习的网约车流量预测方法，建立了历史交通量为输入的双向长短期记忆网络(LSTM)模型，即以过去一段时间的数据作为输入，预测未来一个小时的网约车流量数据。主要包括(1)数据收集；(2)通过聚类方法划分城市交通区域；(3)利用深度学习预测网约车流量。本发明可用于指导合理的网约车定价和分配策略。

如图1所示，本发明提出的基于深度学习的网约车流量预测方法，包括以下步骤：

步骤3：利用DBSCAN聚类算法，对每一个历史时间段内的网约车行程的起始位置和到达位置进行聚类，找到一些交通量密集的区域，结合交通规划的区域划分，得到聚类区域，其中设定聚类算法的距离阈值为500m；

在本发明的一项具体实施中，所述的网约车流量是以小时为单位进行统计的网约车交易数量。

在步骤2中，对网约车运营数据进行流量变化分析时，可以采用可视化图形工具得到交通量动态变化过程，例如D3.js可视化图形包，绘制出交通量动态变化过程。通过改变时间轴的长短，将时间轴划分为时间段，得到流量骤增或骤减的时间段。在本实施例中，骤增和骤减是指一些可能出现交通流量的特殊点，同时在结合一些当时的情况因素(如天气、节假日、大型演唱会等)进行对比。同时使用sql语句进行数据统计，将不同情况下的交通量统计出来进行观察，与上述可视化数据进行交叉对比，最终确定相关因素。

其中，可以利用流量变化百分比阈值来判断流量是否发生骤增或骤减，具体为：计算某一时间段的网约车流量相比上一时间段的网约车流量的流量变化百分比，将高于第一阈值的时间段标记为流量骤增时间段，将低于第二阈值的时间段标记为流量骤减时间段。第一阈值和第二阈值可以相同，可取50％。

在本发明一项具体实施中，天气、节假日、演唱会等外部环境数据可以通过接口函数直接访问网络数据获取，例如百度天气、日历、演唱会售票网站等。

在本发明一项具体实施中，步骤4是为了划分城市交通区域，如图2所示，具体为：

使用信息点确定聚类区域的功能，结合未包含在聚类区域的信息点，将具有相同/类似功能的信息点划分到同一个聚类区域进行扩大，最终以扩大后的聚类区域作为预测基础；本发明所述的信息点包括标志性建筑、商铺、邮局、公交站等。

在本发明一项具体实施中，LSTM预测模型是通过训练之后再进行使用的，具体为：

5.1)重复步骤1至步骤4，获取历史T个小时内的历史交通量分布数据集作为训练集；

5.2)利用时间窗口采集训练集中W+1小时内的历史数据，其中前W个小时的历史数据作为训练样本，第W+1个小时的历史数据作为预测标签；将时间窗口向后平移，将平移后的前W个小时的历史数据作为训练样本，第W+1个小时的历史数据作为预测标签，以此类推；

5.3)构建LSTM预测模型，所述LSTM预测模型的时间步长为W；

利用步骤5.2)中得到的训练样本对LSTM预测模型进行训练，根据LSTM预测模型输出的预测值与预测标签的差值作为损失，对LSTM预测模型进行训练，直至达到最大迭代次数或者损失值小于阈值，训练结束；

5.4)重复步骤1至步骤4，实时获取历史交通量分布数据集，将最新时刻的W小时内的历史数据作为训练好的LSTM预测模型的输入，得到未来一小时的各区域的网约车流量数据。

在步骤5中，所述LSTM预测模型的时间步长W为10-24小时。

预测未来时间段的各区域的网约车流量数据时，对LSTM预测模型的预测结果进行反归一化处理。

在本发明的一项具体实施中，通过步骤1至步骤4采集744小时的处理后的数据集以8：2的比例划分为训练集和测试集，将训练集中过去十二个小时的数据作为一个输入(即LSTM的训练步长为12)，预测一个输出，以此类推，每次将时间向后平移一个小时，按照此规律扩充训练集用以训练时间步长为12h的LSTM预测模型，而后，将测试集中的过去12个小时的数据作为输入，预测未来一个小时的网约车流量数据。预测得到的结果如图3所示，其中横轴代表时间，纵轴代表交通数据量，虚线代表实际交通量情况，实线代表预测情况，左右两幅图分别代表相同时刻下不同OD区间的预测结果和实际结果的对比。

以上列举的仅是本发明的具体实施例。显然，本发明不限于以上实施例，还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形，均应认为是本发明的保护范围。

Claims

1.一种基于深度学习的网约车流量预测方法，其特征在于，包括以下步骤：

所述的步骤4具体为：

使用信息点确定聚类区域的功能，结合未包含在聚类区域的信息点，将具有类似功能的信息点划分到同一个聚类区域进行扩大，最终以扩大后的聚类区域作为预测基础；所述的信息点包括标志性建筑、商铺、邮局、公交站；

2.如权利要求1所述的基于深度学习的网约车流量预测方法，其特征在于，所述的网约车流量是以小时为单位进行统计的网约车交易数量。

3.如权利要求1所述的基于深度学习的网约车流量预测方法，其特征在于，在步骤2中，使用可视化图形工具得到交通量动态变化过程；通过改变时间轴的长短，将时间轴划分为时间段，得到流量骤增或骤减的时间段。

4.如权利要求3所述的基于深度学习的网约车流量预测方法，其特征在于，计算某一时间段的网约车流量相比上一时间段的网约车流量的流量变化百分比，将高于第一阈值的时间段标记为流量骤增时间段，将低于第二阈值的时间段标记为流量骤减时间段。

5.如权利要求1所述的基于深度学习的网约车流量预测方法，其特征在于，所述的外部环境属性包括天气、节假日和演唱会。

6.如权利要求1所述的基于深度学习的网约车流量预测方法，其特征在于，所述的步骤5具体为：

5.3)构建LSTM预测模型，所述LSTM预测模型的时间步长为W；

7.如权利要求1所述的基于深度学习的网约车流量预测方法，其特征在于，在步骤5中，所述LSTM预测模型的时间步长W为10-24小时。

8.如权利要求1所述的基于深度学习的网约车流量预测方法，其特征在于，预测未来时间段的各区域的网约车流量数据时，对LSTM预测模型的预测输入数据进行归一化处理，对预测输出数据进行反归一化处理，以解决数据之间的可比性。