CN110299008A

CN110299008A - 一种基于强化学习的交通流多步预测方法

Info

Publication number: CN110299008A
Application number: CN201910653135.0A
Authority: CN
Inventors: 刘志; 沈阳; 杨曦; 沈国江
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2019-07-19
Filing date: 2019-07-19
Publication date: 2019-10-01
Anticipated expiration: 2039-07-19
Also published as: CN110299008B

Abstract

本发明涉及一种基于强化学习的交通流多步预测方法，包括以下步骤：首先对原始交通数据进行筛选和统计，得到特定路段的速度数据以及该路段两端交叉口的流量数据。紧接着对这些数据进行预处理，包括补齐缺失数据、处理错误数据和数据归一化；然后建立基于DDPG结构的交通流多步预测模型，确定模型中强化学习三要素在交通流多步预测任务下的对应内容，确定交通流多步预测任务中智能体与环境的交互内容。最后，使用预处理好的数据训练所建立的交通流多步预测模型，并调整模型中的参数以获得最优的交通流多步预测效果。实验结果验证了模型在交通流多步预测任务上的有效性，并为使用强化学习解决多步预测任务提供新的思路和方法。

Description

一种基于强化学习的交通流多步预测方法

技术领域

本发明涉及智慧交通领域，尤其涉及一种基于强化学习的交通流多步预测方法。

背景技术

在社会稳定、经济发展良好的社会环境下，居民平均收入水平逐年提高，车辆保有量也不断增长。这造成了机动车数量相对于现有道路交通承载能力已经达到饱和，由此产生了各类交通问题。通过对城市道路扩建的这一解决方案也面临着土地有限、经济制约等实际问题。针对上述现象，研究者开始研究对现有交通系统进行管理和控制的方法，从而促进了智能交通系统理论和应用的发展。

对交通流的准确预测是实现智能交通系统的关键技术之一，其可以为主动型交通控制策略的制定，路径规划等上层功能提供相应服务。而对交通流进行多步预测可以提供更超前的、包含交通流变化趋势的预测服务，可为上述功能的实施提供更多选择。多步预测任务的难点在于当前步的预测结果会参与到后续步的预测过程中，因此对于当前步产生的预测结果不仅需要考虑其在当前步产生的误差，还需要考虑其对后续步预测结果的影响。针对多步预测任务中存在的这个问题，我们使用强化学习中以累计回报为目标函数的思想将多步预测任务中每一步的误差之和作为目标函数从而刻画多步预测结果之间的关联性，以达到对交通流多步预测结果的整体优化。

交通流多步预测在近几年来作为交通流预测的一个重要分支受到研究者们的关注。多数研究结果依赖于对已有的交通流预测模型或者算法进行改进，使模型或算法具有对多步预测结果间关联性的分析能力，从而优化整体的预测结果。Luis等人基于自适应卡尔曼滤波理论提出了一种交通流多步预测方法，该方法在完成交通流多步预测任务的前提下，兼顾了计算精度与计算负荷的要求。Li L.等人使用深度信念网络建立预测模型，应用多目标粒子群优化算法来优化深度信念网络中的参数，使修改后的模型具有多步预测的能力，并且获得了较为准确的预测结果。Guo J.等提出了基于自相关性分析GRU神经网络模型，完成了短期交通流的多步预测，该方法解决了此前多步预测低精度的问题。这些研究为我们解决交通流多步预测任务提供了很好的见解和思路。

发明内容

本发明为克服上述的不足之处，目的在于提供一种基于强化学习的交通流多步预测方法，本发明以多步预测任务中每一步的误差之和作为强化学习模型中的累计回报，使得智能体在执行当前步的预测动作时不仅考虑该预测动作所产生的误差，还考虑做出当前预测动作从而进入下一个状态后，智能体在未来步中的预测动作所产生的误差。通过该设计刻画了多步预测任务中预测结果之间的关联性，解决了多步预测问题的难点；本发明还对真实交通数据进行处理并使用处理后的数据对模型进行训练和优化。

本发明是通过以下技术方案达到上述目的：一种基于强化学习的交通流多步预测方法，包括如下步骤：

(1)对原始交通数据的筛选与统计，得到特定路段的速度数据以及该路段两端交叉口的流量数据；并对数据进行预处理，包括补齐缺失数据、处理错误数据和数据归一化；

(2)利用强化学习中的DDPG结构建立基于强化学习的交通流多步预测模型，将强化学习中三要素映射到交通流多步预测任务中，并确定该模型中智能体与环境在交通流多步预测任务中的交互内容；其中三要素为状态、动作、回报；

(3)基于预处理好的数据训练所建立得到的交通流多步预测模型，调整模型中的参数以获得最优的交通流多步预测效果。

作为优选，在所述步骤(1)中，对原始交通数据进行筛选与统计，得到指定路段的以5分钟为周期的平均速度数据，并筛选得到该路段两端交叉口以5分钟为周期的流量数据。

作为优选，在所述步骤(1)中，利用交通流的时间相关性，对缺失数据进行处理，采用平均值法修补缺失数据，修补公式如下式所示：

其中，x(t)是需要补全的缺失数据，k是相邻数据总数。

作为优选，在所述步骤(1)中，利用深度学习中用于防止模型过拟合的正则化方法来处理错误数据，通过在训练的目标函数中加入L1惩罚项来降低神经网络模型的复杂程度，从而自动地降低其对噪声数据的关心程度。

作为优选，在所述步骤(1)中，对数据进行归一化处理的公式如下式所示：

其中，min(x)是历史数据中的最小值，max(x)是历史数据中的最大值；通过线性归一化后可以使数据较为均匀地分布在[0,1]之间。

作为优选，所述建立的基于强化学习的交通流多步预测模型中，定义交通流的时序数据x₁,x₂,...,x_n为智能体所观察的状态s，其中n是观察状态的窗口大小，n越大，智能体一次性观察的数据越多；定义智能体对下一时刻交通流的预测为智能体输出的动作a；定义交通流的预测值与其真实值y误差平方的相反数为智能体从环境中得到的回报r，回报r表明预测误差越大，智能体所获得的回报越小：

多步预测任务中所对应的累计回报的计算式如下：

其中，γ∈[0,1]是未来回报的折扣率，用于权衡当前回报和长远回报的关系，取值越大，越注重长远回报，反之则越注重当前回报；当所得累计回报期望最大时，就是多步预测整体误差期望的最小值。

作为优选，所述在所述步骤(3)中，对交通流多步预测模型中的诸多可调参数进行调优以获得最优的预测模型，其中参数包括网络结构参数和学习算法参数，通过学习获得的最终优化参数为：actor学习速率为1e-5；critic学习速率为1e-4；target网络更新速率为1e-3；每批学习数据数目为100；智能体记忆大小为10000；贝尔曼公式参数为0.85；智能体中的神经网络模型采用卷积神经网络模型，网络共有五层‘第一层是8个1×3的卷积核，第二层是8个3×3，第三层是64个神经元组成的全连接层，第四层是32个神经元组成的全连接层，第五层是网络的输出层，包含三个神经元。

本发明的有益效果在于：本发明通过该设计刻画了多步预测任务中预测结果之间的关联性，解决了多步预测问题的难点；本发明还对真实交通数据进行处理并使用处理后的数据对模型进行训练和优化。

附图说明

图1是本发明的方法流程示意图；

图2是本发明的智能体与环境交互结构图；

图3是本发明的智能体训练流程图。

具体实施方式

下面结合具体实施例对本发明进行进一步描述，但本发明的保护范围并不仅限于此：

实施例：如图1所示，一种基于强化学习的交通流多步预测方法包括如下步骤：

(1)对原始交通数据进行筛选和统计，得到特定路段的速度数据以及该路段两端交叉口的流量数据。并对这些数据进行预处理，包括补齐缺失数据、处理错误数据和数据归一化。

在本实施例中，对原始交通数据进行筛选和统计，得到指定路段的以5分钟为周期的平均速度数据，并筛选得到该路段两端交叉口以5分钟为周期的流量数据。为了提高数据的利用率，我们利用交通流的时间相关性，对缺失数据进行处理，采用平均值法修补缺失数据，修补公式如下所示：

其中，x(t)是需要补全的缺失数据，k是相邻数据总数。

为了提高数据正确率，提高最终预测精度，我们利用深度学习中用于防止模型过拟合的正则化方法来处理错误数据，通过在训练的目标函数中加入L1惩罚项来降低神经网络模型的复杂程度，从而自动地降低其对噪声数据的关心程度。

为了避免数据与神经网络参数之间产生数值差太大异，从而导致不同层间学习速率差异明显，我们对数据进行归一化处理，归一化公式如下所示：

其中min(x)是历史数据中的最小值，max(x)是历史数据中的最大值。通过线性归一化后可以使数据较为均匀地分布在[0,1]之间。

(2)利用强化学习中的DDPG结构来建立基于强化学习的交通流多步预测模型，将强化学习中三要素：状态(state)，动作(action)，回报(reward)映射到交通流多步预测任务中，并确定该模型中智能体与环境在交通流多步预测任务中的交互内容。

本发明建立的基于强化学习的交通流多步预测模型中，定义交通流的时序数据x₁,x₂,...,x_n为智能体所观察的状态s，其中n是观察状态的窗口大小，n越大，智能体一次性观察的数据越多。定义智能体对下一时刻交通流的预测为智能体输出的动作a。定义交通流的预测值与其真实值y误差平方的相反数为智能体从环境中得到的回报r：

式子表明预测误差越大，智能体所获得的回报越小。

多步预测任务中所对应的累计回报的计算式如下：

式中γ∈[0,1]是未来回报的折扣率，用于权衡当前回报和长远回报的关系，取值越大，越注重长远回报，反之则越注重当前回报。智能体最终学习的目标就是学到一个最优策略，使得其采取的动作所能够得到的累计回报的期望最大，也就是多步预测的整体误差期望最小。

交通流多步预测模型中，智能体与环境的交互过程如图2所示，这里的预测模型采用强化学习中的DDPG结构。智能体中的表演者为z，它实现对环境状态的观察，即一个窗口的交通流时序数据x₁,x₂,...,x_n，并将其作为自身神经网络的输入，随后由神经网络学习得到结果作为表演者的动作输出这个输出就是其对下一个时刻交通流的预测值，这样表演者就完成了预测的第一步。而后，由于是进行多步预测，表演者在第二步中无法观察到环境的真实状态，所以将第一步的预测结果加入到第一步所观察到的环境状态x₁,x₂,...,x_n中，构成第二步所观察到的环境状态同样将其作为自身神经网络的输入，计算得到一个预测结果接下来的每一步预测，表演者所观察的状态都像第一步和第二步那样轮番迭代，直到完成多步预测。

对于智能体中的评论家而言，它的任务是记录表演者与环境的每一次互动到记忆池中，包括观察到的环境状态，如x₁,x₂,...,x_n；表演者的动作，如环境反馈的回报信号，如：r₁；环境受动作影响进入的下一个环境状态，如：随后对记忆池进行采样，获得一批数据，并通过这些数据按照下式对神经网络的参数进行更新。

在评论家完成更新后，表演者按照下式进行更新神经网络参数，从而调整自身策略，使其输出的预测动作在评论家网络中得到的累计误差最小。

在多次预测和更新之后，表演者与评论家将网络中的参数复制到副本网络中。

(3)本发明使用处理好的数据训练所建立的交通流多步预测模型，调整模型中的参数以获得最优的交通流多步预测效果。

本实施例中，对浙江省杭州市萧山区2017年7月1日至2017年7月31日的真实路面数据进行处理，将其分为训练集和测试集，按照图3的流程对模型进行训练。本发明对模型中的诸多可调参数进行调优以获得最优的预测模型，这些参数可分为网络结构参数和学习算法参数两大类。最终确定的学习算法参数如下表1所示：

表1

智能体中的神经网络模型采用卷积神经网络模型，网络共有五层。第一层是8个1×3的卷积核，第二层是8个3×3，第三层是64个神经元组成的全连接层，第四层是32个神经元组成的全连接层，第五层是网络的输出层，包含三个神经元。由于交通数据没有图像数据所拥有的缩放特性，所以没有使用卷积神经网络模型中的池化层。

通过以上步骤，最终建立了一个交通流多步预测模型，并利用该模型对交通流进行多步预测，通过参数调优，优化整体预测。

以上的所述乃是本发明的具体实施例及所运用的技术原理，若依本发明的构想所作的改变，其所产生的功能作用仍未超出说明书及附图所涵盖的精神时，仍应属本发明的保护范围。

Claims

1.一种基于强化学习的交通流多步预测方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于强化学习的交通流多步预测方法，其特征在于：在所述步骤(1)中，对原始交通数据进行筛选与统计，得到指定路段的以5分钟为周期的平均速度数据，并筛选得到该路段两端交叉口以5分钟为周期的流量数据。

3.根据权利要求1所述的一种基于强化学习的交通流多步预测方法，其特征在于：在所述步骤(1)中，利用交通流的时间相关性，对缺失数据进行处理，采用平均值法修补缺失数据，修补公式如下式所示：

其中，x(t)是需要补全的缺失数据，k是相邻数据总数。

4.根据权利要求1所述的一种基于强化学习的交通流多步预测方法，其特征在于：在所述步骤(1)中，利用深度学习中用于防止模型过拟合的正则化方法来处理错误数据，通过在训练的目标函数中加入L1惩罚项来降低神经网络模型的复杂程度，从而自动地降低其对噪声数据的关心程度。

5.根据权利要求1所述的一种基于强化学习的交通流多步预测方法，其特征在于：在所述步骤(1)中，对数据进行归一化处理的公式如下式所示：

6.根据权利要求1所述的一种基于强化学习的交通流多步预测方法，其特征在于：所述建立的基于强化学习的交通流多步预测模型中，定义交通流的时序数据x₁,x₂,...,x_n为智能体所观察的状态s，其中n是观察状态的窗口大小，n越大，智能体一次性观察的数据越多；定义智能体对下一时刻交通流的预测为智能体输出的动作a；定义交通流的预测值与其真实值y误差平方的相反数为智能体从环境中得到的回报r，回报r表明预测误差越大，智能体所获得的回报越小：

多步预测任务中所对应的累计回报的计算式如下：

7.根据权利要求1所述的一种基于强化学习的交通流多步预测方法，其特征在于：所述在所述步骤(3)中，对交通流多步预测模型中的诸多可调参数进行调优以获得最优的预测模型，其中参数包括网络结构参数和学习算法参数，通过学习获得的最终优化参数为：actor学习速率为1e-5；critic学习速率为1e-4；target网络更新速率为1e-3；每批学习数据数目为100；智能体记忆大小为10000；贝尔曼公式参数为0.85；智能体中的神经网络模型采用卷积神经网络模型，网络共有五层‘第一层是8个1×3的卷积核，第二层是8个3×3，第三层是64个神经元组成的全连接层，第四层是32个神经元组成的全连接层，第五层是网络的输出层，包含三个神经元。