CN109670233A

CN109670233A - 基于深度强化学习的多交通信号灯自动控制方法

Info

Publication number: CN109670233A
Application number: CN201811535631.8A
Authority: CN
Inventors: 舒祥波; 戚朕; 唐金辉
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2018-12-14
Filing date: 2018-12-14
Publication date: 2019-04-23

Abstract

本发明提供了一种基于深度强化学习的多交通信号灯自动控制方法，包括步骤1，通过现有数据或随机产生，获取包含车辆到达时间、位置以及路口地理位置的交通数据；步骤2，对交通数据进行预处理，在仿真软件中搭建模拟环境；步骤3，构造深度强化学习模型，使用单一智能体Agent处理多个路口的交通数据，Agent采用卷积神经网络；步骤4，在仿真软件中导入车辆数据，进行交通仿真和Agent训练，得到网络参数；步骤5，选择需要优化的车辆数据，在仿真中使用网络参数进行计算，动态地给出当前车流情况下最优的交通信号灯配时方案；步骤6，仿真结束，给出所有车辆的平均等待时间。

Description

基于深度强化学习的多交通信号灯自动控制方法

技术领域

本发明涉及一种数据分析与深度强化学习技术，特别时一种基于深度强化学习的多交通信号灯自动控制方法。

背景技术

随着城市规模的发展以及人口的持续增加，交通拥堵成为亟待解决的热点问题。而交通信号灯作为调节和优化交通流的最主要方式，基于交通数据的智能分析进行交通信号灯控制是改善交通拥堵的有效方法。

目前的交通数据分析多是停留在静态分析阶段，通过人为分析车流数据选择交通信号灯固定的配时和周期时长，虽然在使用初期能一定程度上缓解交通压力，但由于缺乏动态分析和决策，在应对不同的道路情况时经常会出现浪费无效通行时间、增加等待时间等问题，进一步引起某些时刻的交通拥堵、交通信号灯的效率低下。交通数据的分析和优化问题本质上来说是一个包括环境分析和机器决策的问题，非常契合强化学习的适用范围。因此，本发明提出基于强化学习的交通数据智能分析方法，使用单一智能体(Agent)处理多个路口的交通数据，动态地给出当前车流情况下最优的交通信号灯配时方案，并引入了对偶学习，双Q学习，目标网络等提升性能，通过在仿真软件SUMO(Simulation of UrbanMObility)中的实验证明了其有效性。

发明内容

本发明的目的在于提供一种基于深度强化学习的多交通信号灯自动控制方法，包括以下步骤：

步骤1，通过现有数据或随机产生，获取包含车辆到达时间、位置以及路口地理位置的交通数据；

步骤2，对交通数据进行预处理，在仿真软件中搭建模拟环境；

步骤3，构造深度强化学习模型，使用单一智能体Agent处理多个路口的交通数据，Agent采用卷积神经网络；

步骤4，在仿真软件中导入车辆数据，进行交通仿真和Agent训练，得到网络参数；

步骤5，选择需要优化的车辆数据，在仿真中使用网络参数进行计算，动态地给出当前车流情况下最优的交通信号灯配时方案；

步骤6，仿真结束，给出所有车辆的平均等待时间。

本发明与现有技术相比，具有以下优点：(1)本发明针对人工选择的特征可能存在信息丢失、特征不全的问题，引入了基于图像的交通数据状态描述，并使用卷积神经网络提取特征和Q值计算；(2)针对多路口的交通数据关联影响问题，本发明采用单一Agent并在神经网络中共享参数来解决，既减少了多Agent引起的计算复杂，又能由卷积神经网络自动地考虑关联情况；(3)针对强化学习训练复杂，早期模型表现一般的问题，本发明引入了对偶学习，双Q学习，目标网络等提升性能。

下面结合说明书附图对本发明作进一步描述。

附图说明

图1是本发明基于深度强化学习的多交通信号灯自动控制方法流程图。

图2是仿真软件SUMO中的道路仿真实时截图。

图3是基于深度强化学习的多交通信号灯自动控制方法演示的效果图。

具体实施方式

结合图1，一种基于深度神经网络的电子竞技比赛胜负预测方法，包括以下步骤：

步骤2，对交通数据进行预处理，在仿真软件SUMO(Simulation of UrbanMObility)中搭建模拟环境；

步骤3，构造深度强化学习模型，使用单一智能体(Agent)处理多个路口的交通数据，Agent采用卷积神经网络；

步骤4，在SUMO中导入车辆数据，进行交通仿真和Agent训练，得到网络参数；

步骤6，仿真结束，给出所有车辆的平均等待时间。

步骤1中的交通数据包含多个路口的位置坐标以及车辆在该路段的相关信息。其中路口的位置坐标为相对于某一路口的相对位置，车辆数据包括到达时间，所经过的路径和唯一的编号。

步骤2中预处理的具体过程包括，确保车辆数据中每一辆车唯一地对应一个编号，并删除行驶路径不连贯的车辆轨迹。

步骤3中的Agent，使用的是卷积神经网络，其输入是每个路口的车辆信息，这种信息形式可以是由每辆车的位置和速度构成的特征，也可以是仿真软件SUMO中的道路仿真实时截图，如图2所示。Agent的输出是所有交通信号灯下一秒或下一周期的最佳行为，即交通信号灯的时长与变化情况。为了提高Agent的性能，引入了对偶学习，双Q学习，目标网络的方法来加速训练，减少误差。

步骤4中的训练过程，在进行仿真时以秒为单位获取路口的状态(车辆信息)并存入Agent的记忆缓存中，每经过固定的时间间隔Agent将取出缓存进行训练，训练目标是减少所有车辆在路口的等待时间。

步骤6中的所有车辆的平均等待时间是指在一次完整的仿真过程中，所有车辆在路口停止等待的时间的平均值。

Claims

1.一种基于深度强化学习的多交通信号灯自动控制方法，其特征在于，包括以下步骤：

步骤6，仿真结束，给出所有车辆的平均等待时间。

2.根据权利要求1所述的方法，其特征在于，所述步骤1中的交通数据包含多个路口的位置坐标以及车辆在该路段的相关信息；其中

路口的位置坐标为相对于某一路口的相对位置，

车辆数据包括到达时间、所经过的路径和唯一的编号。

3.根据权利要求2所述的方法，其特征在于，所述步骤2中预处理包括：

确保车辆数据中每一辆车唯一地对应一个编号，

删除行驶路径不连贯的车辆轨迹。

4.根据权利要求1所述的方法，其特征在于，所述步骤3中的Agent使用的是卷积神经网络；其中

神经网络的输入是每个路口的车辆信息，所述信息形式包括每辆车的位置和速度构成的特征，或仿真软件中的道路仿真实时截图；

神经网络的输出是所有交通信号灯的时长与变化情况。

5.根据权利要求1所述的方法，其特征在于，所述步骤4中的训练过程，在进行仿真时以秒为单位获取路口的车辆信息并存入Agent的记忆缓存中，每经过固定的时间间隔Agent将取出缓存进行训练，训练目标是减少所有车辆在路口的等待时间。

6.根据权利要求1所述的方法，其特征在于，所述步骤6中的所有车辆的平均等待时间是指在一次完整的仿真过程中，所有车辆在路口停止等待的时间的平均值。