CN114613168B

CN114613168B - 一种基于记忆网络的深度强化学习交通信号控制方法

Info

Publication number: CN114613168B
Application number: CN202210408279.1A
Authority: CN
Inventors: 孔燕; 卢学亮
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2022-04-19
Filing date: 2022-04-19
Publication date: 2023-02-24
Anticipated expiration: 2042-04-19
Also published as: CN114613168A

Abstract

本发明公开了一种基于记忆网络的深度强化学习交通信号控制方法，包括：1、建立基于DQN算法的交通信号灯控制主网络和目标值网络；主网络将t时刻状态值s_t输入LSTM中得到t+1时刻预测状态值

合并s_t和

并输入全连接网络，得到预测Q值的最大值和对应动作

2、初始化算法参数，采集路况信息建立状态值s_t；3、将s_t输入主网络得到预测Q值取最大值的动作

采用1‑ε策略选择动作a_t；4、执行动作a_t并计算奖励r_t和状态s_t+1；5、在经验池中随机抽样B个记录，通过最小化损失函数训练主网络参数；6、定时更新目标值网络参数，根据当前路况更新s_t，跳转至步骤3继续执行。该方法根据当前路况以及对当前路况的预测来计算Q值，能够更精确地对交通信号进行控制。

Description

一种基于记忆网络的深度强化学习交通信号控制方法

技术领域

本发明属于交通信息控制领域，具体涉及一种基于记忆网络的深度强化学习进行交通信号控制的方法。

背景技术

传统的交通信号控制是确定最佳交通信号周期和相位的固定配时控制(fixed-time control)，其中最佳交通信号周期和相位于是基于历史交通流数据确定的，无法针对不同的路况动态调整交通信号周期和相位，所以很难适应实时交通状态的变化。在当今许多现代城市中，广泛使用的自适应交通信号控制系统，如SCATS和SCOOTS，严重依赖于人工设计的交通信号方案。交通信号方案通常由专家知识生成或由传统的交通信号控制方法计算得到。这种人工设置的交通信号方案是根据环路传感器检测到的交通量来动态选择的。然而，回路传感器只有在车辆通过时才会被激活。因此，它们只能通过它们提供车辆的部分信息。结果，信号无法感知和响应实时交通模式，而工程师需要这样做在一定的交通条件场景下，手动改变信号控制系统中的交通信号配时。

为了更有效的、实时的对当前交叉路口进行控制，近些年来，强化学习(RL)已成为当今世界上交通信号控制的一种重要解决途径。RL方法通过与环境进行交互来学习策略。一个通常的方法是把一个交通路口看做一个agent，把交通流状况看做是环境的输入，agent根据输入的状态(交通流数据)选取相应的action(例如设置的交通信号)，最后根据环境收到的反馈来优化其奖励(如平均通行时间)，这个方法也已经证实显著提高了交通信号控制的效率。

发明内容

发明目的：本发明提供一种基于记忆网络的深度强化学习交通信号控制方法，该方法根据当前路况以及对当前路况的预测来计算Q值，能够更精确地对交通信号进行控制。

技术方案：本发明采用如下技术方案：

一种基于记忆网络的深度强化学习交通信号控制方法，包括步骤：

S1、建立基于DQN算法的交通信号灯控制主网络和目标值网络；所述交通信号灯控制主网络和目标值网络的结构相同；所述主网络将输入的t时刻状态值s_t输入LSTM网络中得到t+1时刻的预测状态值

将s_t和

进行合并并输入全连接网络，得到t时刻的执行各种动作的预测Q值Q(s_t,a,θ)，以及Q(s_t,a,θ)最大值所对应的动作

即：

所述主网络和目标值网络的状态空间为t时刻前时长为τ的时间段内各进车道进入交通路口的车辆数量构成的向量，动作空间为对交通路口当前所有交通信号灯相位的调控操作，奖励函数为t时刻前时长为τ的时间段内驶离交通路口的车辆数量与进入交通路口的车辆数量之差；

S2、对主网络的参数θ进行随机初始化，将目标值网络的参数θ′初始化为θ，初始化时间步t＝0，采集交通路口的路况信息，建立初始状态值s_t；

S3、将s_t输入主网络中，得到使Q(s_t,a,θ)取最大值的动作

以概率1-ε选择

以概率ε在动作空间中随机选择，得到当前时间对交通信号灯的调控操作a_t；ε的取值范围为0-1之间，且随训练逐渐减小，直至达到预设的固定值；

S4、执行动作a_t并计算奖励r_t和状态s_t+1；将(s_t,a_t,r_t,s_t+1)存储到经验池中；

S5、在经验池中随机抽样B个记录，通过最小化损失函数训练主网络的参数θ；所述损失函数为：

其中(s_i,a_i,r_i,s_i+1)为在经验池中随机抽样的记录，γ为折扣因子，max_a′Q′(s_i+1,a′,θ′)表示目标值网络在输入状态s_i+1时输出的预测Q值的最大值，max_aQ(s_i,a,θ)表示主网络在输入状态s_i时输出的预测Q值的最大值；

S6、令t加一，如果mod(t,C)为0，将目标值网络的参数θ′更新为主网络的参数θ；mod为取余运算，C为预设的参数更新时间步；根据当前路况信息更新s_t，跳转至步骤S3继续执行。

进一步地，所述主网络中将s_t和

进行合并的具体操作有如下两种：

第一种：将s_t和

进行级联操作，得到

作为合并后的结果输入全连接网络。

第二种：将s_t和

相加，得到

作为合并后的结果输入全连接网络。

进一步地，所述主网络和目标值网络的状态空间为t时刻前时长为τ的时间段内各进车道进入交通路口的车辆数量构成的向量，其中时长τ为10s。

进一步地，当交通路口为十字路口，所述主网络和目标值网络的状态空间中的状态值为[n₁,n₂,n₃,n₄]，其中n_j为t时刻前时长为τ的时间段内十字路口中第j个进车道进入交通路口的车辆数量；j＝1,2,3,4。

进一步地，奖励函数值为：

其中m_j为t时刻前时长为τ的时间段内十字路口中第j个出车道驶离交通路口的车辆数量，n_j为t时刻前时长为τ的时间段内十字路口中第j个进车道进入交通路口的车辆数量。

进一步地，所述主网络和目标值网络的动作空间中的动作值有三种取值，分别为：ac₁：当前相位时长加T秒；ac₂：当前相位时长减T秒；ac₃：当前相位时长不变。

进一步地，所述步骤S5中采用梯度下降法最小化损失函数得到主网络的参数。

进一步地，所述经验池采用容量固定的队列存储记录。

有益效果：本发明公开的基于记忆网络的深度强化学习交通信号控制方法具有如下优点：1、根据当前实时路况信息得到的状态值s_t和对下一时刻的预测状态值

来计算预测Q值，由此计算的预测Q值更加精确；2、采用LSTM对下一时刻的状态值进行预测，能够结合历史数据进行预测，得到精确的预测结果；3、采用驶离车辆总数与驶入车辆总数之差作为奖励，得到的交通信号调控策略能够减少交通拥堵；4、从当前交通路口驶入，意味着从上一路口驶离；从当前路口驶离，意味着驶入下一路口；由此，本发明中状态值和奖励函数的设置能够体现相邻交通路口之间的影响，能够更科学地进行交通信号相位的调控。

附图说明

图1为本发明公开的交通信号控制方法的流程图；

图2为本发明中主网络的结构组成图；

图3为本发明网络框架示意图。

具体实施方式

下面结合附图和具体实施方式，进一步阐明本发明。

本发明公开了一种基于记忆网络的深度强化学习交通信号控制方法，如图1所示，包括步骤：

将s_t和

即：

如图2所示，为主网络的结构示意图。

本发明中，主网络中将s_t和

进行合并的具体操作可以采用如下两种：

第一种：将s_t和

进行级联操作，得到

作为合并后的结果输入全连接网络。

第二种：将s_t和

相加，得到

作为合并后的结果输入全连接网络。

通过信息合并，用于计算预测Q值的输入包括当前实时路况信息得到的状态值s_t和对下一时刻的预测状态值

由此计算的预测Q值更加精确。

所述主网络和目标值网络的状态空间为t时刻前时长为τ的时间段内各进车道进入交通路口的车辆数量构成的向量，动作空间为对交通路口当前所有交通信号灯相位的调控操作，奖励函数为t-1时刻到t时刻之间驶离交通路口的车辆数量与进入交通路口的车辆数量之差；

本实施例中，时长τ为10s，即统计当前时刻前10s内交通路口各进车道进入和驶离交通路口的车辆数量，以此来计算当前时刻的状态值和奖励函数值。

当交通路口为十字路口，每个路口均有进车道和出车道，则主网络和目标值网络的状态空间中的状态值为[n₁,n₂,n₃,n₄]，其中n_j为t时刻前时长为τ的时间段内十字路口中第j个进车道进入交通路口的车辆数量；j＝1,2,3,4；奖励函数值为：

本实施例中，主网络和目标值网络的动作空间中的动作值有三种取值，分别为：ac₁：当前相位时长加T秒；ac₂：当前相位时长减T秒；ac₃：当前相位时长不变，即按照预设的交通信号灯相位变化来改变当前相位的状态。

S2、对主网络的参数θ进行随机初始化；主网络和目标值网络的参数包括LSTM的参数和全连接网络的参数；将目标值网络的参数θ′初始化为θ，初始化时间步t＝0，采集交通路口的路况信息，建立初始状态值s_t；

S3、将s_t输入主网络中，得到使Q(s_t,a,θ)取最大值的动作

以概率1-ε选择

本发明中经验池采用容量固定的队列存储记录，当队列已满时，将队头的记录删除，新的记录存储至队尾，以此来更新经验池，使经验池中的记录保持最新。

本发明中中采用梯度下降法最小化损失函数得到主网络的参数，如图3所示，为本发明网络框架示意图。

本发明采用根据当前路况以及对当前路况的预测来计算Q值，能够得到更精确的Q值，从而对交通信号进行更精确的调控。