CN112150808A

CN112150808A - 一种基于深度学习的城市交通系统调度策略生成方法

Info

Publication number: CN112150808A
Application number: CN202011024487.9A
Authority: CN
Inventors: 杨嘉琛; 张季鹏
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2020-09-25
Filing date: 2020-09-25
Publication date: 2020-12-29
Anticipated expiration: 2040-09-25
Also published as: CN112150808B

Abstract

本发明涉及一种基于深度学习的城市交通系统调度策略生成方法，包括如下步骤：搭建城市交通系统仿真模型；基于城市交通系统仿真模型，建立马尔科夫决策过程，包括状态空间、动作空间以及回报函数；根据深度学习PPO算法，搭建策略神经网络和估值神经网络；基于所述城市交通系统仿真模型、各个状态空间、各个动作空间以及回报函数，对所述神经网络进行训练，得到训练好的神经网络模型；调用训练好的神经网络模型进行仿真验证并生成城市交通系统调度策略。

Description

一种基于深度学习的城市交通系统调度策略生成方法

技术领域

本发明涉及一种智能化管理系统，特别涉及一种城市交通智能化调度管理系统及方法。

背景技术

目前，我国很多城市都在加强城市智能交通系统的建设，但事实上，目前的建设水平与真正的城市智能交通系统还相差甚远。有人认为在交通路口安装摄像头是智能交通系统，其实这些只是一个小小的基础。此外，由于城市智能交通系统中的一些实际问题(如交通控制对交通状况的影响、调度模型影响因素的确定等)还没有得到解决，目前还无法实现实时智能调度。诚然，信息技术和计算机网络技术的广泛应用，推动了城市交通向智能化方向发展。然而，城市交通智能调度管理系统存在着车辆间信息不清晰、缺乏动态信息服务等问题，严重影响了城市交通系统的调度水平。目前，城市交通系统智能调度技术的研究还比较滞后。随着相关技术的发展，城市交通系统智能调度技术具有重要的理论价值和现实意义。

目前国内外对于基于深度学习的城市交通系统调度策略主要集中于对交通灯的调度，而在当前公布的众多论文、专利中，均很少涉及统一调度交通灯与车辆的功能。在现有的基于深度学习的智能调度方案中，无论是采用值网络^[1]还是采用策略梯度网络^[2]来生成智能调度策略，都只是单纯的调整交通灯的调度方案，而忽视了调度车辆对于改善整个系统中的交通状况的积极作用。针对这个问题，本专利采用基于PPO算法的统一调度交通灯与车辆的方案，以提升城市交通系统智能调度的整体效果。

由于传统的PPO算法(Proximal Policy Optimization算法)^[3]采用的超参数多是人为设定的常数，传统的PPO算法不能适应网络训练过程中的新变化，从而影响生成的调度策略的性能。针对这个问题，本专利提出了一种自适应调节超参数的方案，进一步提升智能调度的效果。

参考文献：

[1]Van der Pol,Elise,and Frans A.Oliehoek."Coordinated deepreinforcement learners for traffic light control."Proceedings of Learning,Inference and Control of Multi-Agent Systems(at NIPS 2016)(2016).

[2]Mousavi,Seyed Sajad,Michael Schukat,and Enda Howley."Traffic lightcontrol using deep policy-gradient and value-function-based reinforcementlearning."IET Intelligent Transport Systems 11.7(2017):417-423.

[3]Schulman,John,et al."Proximal policy optimization algorithms."arXiv preprint arXiv:1707.06347(2017).

发明内容

本发明的目的是提供一种综合统筹，并且能够自适应的调节超参数的基于深度学习的交通系统调度策略生成方法，技术方案如下：

一种基于深度学习的城市交通系统调度策略生成方法，包括如下步骤：

(1)搭建城市交通系统仿真模型；

(2)基于城市交通系统仿真模型，建立马尔科夫决策过程，包括状态空间、动作空间以及回报函数，具体为：

(2.1)为系统中每一个交通灯建立状态空间：交通灯状态空间有GRGR和RGRG两种状态，GRGR表示车辆可以在该交通灯所在路口南北向通行，RGRG表示车辆可以在该交通灯所在路口东西向通行；

(2.2)为系统中每一个车辆建立状态空间：车辆状态空间包括三个子空间，第一个子空间代表车辆速度，是个连续空间，取值范围为0和道路限速组成的闭区间。第二个子空间代表车辆所在位置与下一个交通灯之间的距离，是个连续空间，取值范围为0和路段长度组成的闭区间。第三个子空间代表车辆所在路段，是个离散空间，取值范围为1和路段个数组成的正整数区间；

(2.3)为系统中每一个交通灯建立动作空间，交通灯动作空间有两种动作：转化为GRGR和转化为RGRG。

(2.4)为系统中每一个车辆建立动作空间，车辆动作空间是个连续空间，表示该车辆在该时刻对本身施加的加速度，取值范围与静态路网信息单元中的车辆加速度范围一致；

(2.5)为系统中每一个交通灯和每一个车辆建立回报函数，将系统中每个车辆的平均延迟的相反数作为回报；

(3)根据深度学习PPO算法，搭建策略神经网络和估值神经网络；

(4)基于所述自动驾驶仿真模型、状态空间、动作空间以及回报函数，对所述神经网络进行训练，得到训练好的神经网络模型，具体为：

(4.1)初始化策略神经网络参数和估值神经网络参数；

(4.2)对各个状态空间进行初始化，得到当前状态st；

(4.3)城市交通系统仿真模型根据策略神经网络输出的策略基于动作空间选择行为at，执行所述状态转移方程，得到下一步的状态st+1，根据回报函数获取回报rt，计算此步的优势函数At并保存，反复执行此过程T步；

(4.4)根据PPO算法的损失函数，运用梯度下降法更新策略神经网络参数和估值神经网络的参数；

(4.5)策略神经网络输出新策略，判断是否需要更新步长，若新旧策略的KL散度超出阈值则更新步长；

(4.6)反复执行N次(4.2)到(4.5)，从而完成神经网络模型的训练，保存训练好的神经网络模型。

(5)调用训练好的神经网络模型进行仿真验证并生成城市交通系统调度策略。

在所述步骤(1)中，搭建城市交通系统仿真模型，具体为：

(1.1)建立静态路网信息单元：将路段长度、交通灯位置、道路限速数据以及车辆加速度范围存入建立静态路网信息单元中；

(1.2)建立动态路网信息单元：将初始时刻系统内车辆的速度信息、位置信息，交通灯的信号信息存入动态路网信息单元，在系统运行过程中，实时更新动态路网信息单元内的信息。

在所述步骤(3)中,根据深度学习PPO算法，搭建策略神经网络和估值神经网络，具体为，策略神经网络和估值神经网络均为三层神经网络，两个隐藏层，最后为输出层，采用Relu作为激活函数，隐藏层含有128个神经元，步长λ初值设为0.97，折扣因子设为0.999。

本发明的有益效果如下：

(1)本发明基于深度学习PPO算法，设计面向城市交通系统智能调度，使用神经网络拟合环境和车辆行为、交通灯行为间的映射关系，并对其进行训练，使得城市交通系统能够使用训练好的神经网络自主生成智能调度策略。

(2)本发明充分调动了车辆在智能调度中的作用，将交通系统内的交通灯和车辆进行统一调度，提升了智能调度的效果。

附图说明

图1为本方法方法流程图

图2为强化学习原理图；

图3为决策网络框架图；

图4为估值网络框架图；

图5为策略网络损失函数；

图6为估值网络损失函数；

图7为城市交通系统车辆平均延迟曲线图；

具体实施方式

为使本发明的技术方案更加清楚，下面结合附图对本发明做进一步阐述。

如图1所示，本发明首先建立城市交通系统仿真模型，并建立相应的马尔科夫决策过程，包括状态空间、动作空间、回报函数，采用PPO算法，在图2所示的强化学习的原理指导下，设计决策网络和对决策行为评价的估值网络。决策网络通过输入当前车辆和交通灯的状态，以车辆平均延迟作为回报，指导车辆和交通灯形成智能决策；估值网络以当前环境状态、决策网络的输出(即采取的行为)和预估下一时刻的状态为输入，输出当前采取的行为的价值，一次来衡量行为的好坏程度，从而对决策网络的参数进行更新，估值网络通过输出的价值来构造损失函数，从而对网络参数进行更新。得到训练好的模型，输出有效的回收控制策略用以实现对交通系统的智能调度。按以下步骤具体实现：

(1)搭建城市交通系统仿真模型；

分别建立静态路网信息单元和动态路网信息单元。将路段长度、交通灯位置、道路限速数据以及车辆加速度范围存入建立静态路网信息单元中。将初始时刻系统内车辆的速度信息、位置信息，交通灯的信号信息存入动态路网信息单元。并在系统运行过程中，实时更新动态路网信息单元内的信息。

(2)基于仿真模型，建立马尔科夫决策过程，包括状态空间、动作空间以及回报函数；

a)为系统中每一个交通灯建立状态空间，空间内有两种状态：GRGR和RGRG。GRGR表示车辆可以在该交通灯所在路口南北向通行，RGRG表示车辆可以在该交通灯所在路口东西向通行。

b)为系统中每一个车辆建立状态空间。状态空间包括三个子空间。第一个子空间代表车辆速度，是个连续空间，取值范围为0和道路限速组成的闭区间。第二个子空间代表车辆所在位置与下一个交通灯之间的距离，是个连续空间，取值范围为0和路段长度组成的闭区间。第三个子空间代表车辆所在路段，是个离散空间，取值范围为1和路段个数组成的正整数区间。

c)为系统中每一个交通灯建立动作空间，空间内有两种动作：转化为GRGR和转化为RGRG。

d)为系统中每一个车辆建立动作空间，该空间是个连续空间，表示该车辆在该时刻对本身施加的加速度。取值范围与静态路网信息单元中的车辆加速度范围一致。

e)为系统中每一个交通灯和每一个车辆建立回报函数。将系统中每个车辆的平均延迟的相反数作为回报。

回报函数的具体计算方法如下：

reward＝-avg_del

其中，reward是指回报函数的具体数值，avg_del是指每个车辆的平均延迟，n是指系统中的车辆总数，del_i是指第i个车辆的延迟，v_top是指道路限速，v_i是指第i个车辆的速度，timestep是指车辆在系统中行驶的时间长度。

(3)根据深度学习算法，搭建神经网络；

搭建神经网络，具体为：

基于PPO算法，搭建策略神经网络和估值神经网络，均为三层神经网络，两个隐藏层，最后为输出层，采用Relu作为激活函数，隐藏层含有128个神经元，步长λ初值设为0.97，折扣因子设为0.999。

损失函数基于所采用的深度学习算法，估值网络主要根据该时刻回报信息更新对每个状态-动作对的评价(Q)，而策略网络主要根据评价网络更新动作(策略)，从而使得每次所选择的策略始终朝着评价大的方向前进。

决策网络输入的是环境当前的状态，包括车辆的位置、速度以及交通灯的信号等参数，输出车辆和交通灯应采取的策略；估值网络输入当前和下一时刻状态，分别输出相应的Q值，并根据环境反馈的回报设计损失函数用于对决策网络和估值网络进行更新，具体网络结构如图3和图4所示：

(4)基于所述自动驾驶仿真模型、状态空间、动作空间以及回报函数，对所述神经网络进行训练，得到训练好的神经网络模型；

具体为：

(4.1)随机初始化策略神经网络参数和估值神经网络参数；

(4.2)对所述状态空间进行初始化，得到当前状态st；

(4.3)智能交通系统仿真模型根据策略网络输出的策略基于动作空间选择行为at，执行所述状态转移方程，得到下一步的车辆以及交通灯状态st+1，根据回报函数获取回报rt，计算此步的优势函数At并保存；

(4.4)依据当前步骤的车辆平均速度、训练进度等信息，自适应性的更新超参数，具体公式如下：

cp_b＝base×(1+0.002×iter)^-0.75

其中v_aver是车辆平均速度，base是常数参数，iter是当前训练轮数，ε是常数参数。

(4.5)基于(4.3)得到的优势函数和(4.4)得到的超参数，根据PPO算法的损失函数，运用梯度下降法更新策略神经网络参数和估值神经网络的参数，具体公式如下；

L^Mod_PPO(θ)＝E_t[min(r_t(θ)A_t,clip(r_t(θ),1-β_Mod,1+β_Mod)A_t)]

(4.6)策略网络输出新策略；

(4.7)反复执行N次(4.2)到(4.6)；

(4.8)保存训练好的神经网络模型。

(5)调用训练好的神经网络模型进行仿真验证并生成城市交通系统调度策略；

某次仿真的策略网络损失函数收敛结果如图5所示，估值网络损失函数收敛结果如图6所示。由图5、图6可知，损失函数得以收敛。回报函数如图7所示，车辆的平均延迟持续减小。通过仿真得到的结果可知，神经网络损失函数得以收敛，输出了有效可行的智能调度策略。

Claims

1.一种基于深度学习的城市交通系统调度策略生成方法，包括如下步骤：

(1)搭建城市交通系统仿真模型；

(2)基于城市交通系统仿真模型，建立马尔科夫决策过程，包括状态空间、动作空间以及回报函数。具体为：

(2.2)为系统中每一个车辆建立状态空间：车辆状态空间包括三个子空间，第一个子空间代表车辆速度，是个连续空间，取值范围为0和道路限速组成的闭区间；第二个子空间代表车辆所在位置与下一个交通灯之间的距离，是个连续空间，取值范围为0和路段长度组成的闭区间；第三个子空间代表车辆所在路段，是个离散空间，取值范围为1和路段个数组成的正整数区间；

(2.3)为系统中每一个交通灯建立动作空间，交通灯动作空间有两种动作：转化为GRGR和转化为RGRG；

(4)基于所述城市交通系统仿真模型、各个状态空间、各个动作空间以及回报函数，对所述神经网络进行训练，得到训练好的神经网络模型，具体为：

(4.1)初始化策略神经网络参数和估值神经网络参数；

(4.2)对各个状态空间进行初始化，得到当前状态st；

(4.6)反复执行N次(4.2)到(4.5)，从而完成神经网络模型的训练，保存训练好的神经网络模型；

2.根据权利要求1所述的基于深度学习的城市交通系统调度策略生成方法，其特征在于：在所述步骤1中，搭建城市交通系统仿真模型，具体为：

3.根据权利要求1所述的基于深度学习的城市交通系统调度策略生成方法，其特征在于：在所述步骤3中,根据深度学习PPO算法，搭建策略神经网络和估值神经网络，具体为，策略神经网络和估值神经网络均为三层神经网络，两个隐藏层，最后为输出层，采用Relu作为激活函数，隐藏层含有128个神经元，步长λ初值设为0.97，折扣因子设为0.999。