CN117809469A

CN117809469A - 基于深度强化学习的交通信号灯配时调控方法及系统

Info

Publication number: CN117809469A
Application number: CN202410217400.1A
Authority: CN
Inventors: 郭利泉; 邢宏业; 王波; 李晨; 宋文静
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2024-02-28
Filing date: 2024-02-28
Publication date: 2024-04-02

Abstract

本发明涉及交通控制技术领域，具体涉及基于深度强化学习的交通信号灯配时调控方法及系统。本发明公开了基于深度强化学习的交通信号灯配时调控方法，包括：步骤一，初始化两个相同结构的Q值网络，并将其中一个Q值网络作为动作价值网络、另一个Q值网络作为目标Q值网络；步骤二，将目标道路交叉口作为目标环境，并周期性采集目标环境的状态；步骤三，基于双Q学习对、进行多轮迭代运算，并同步对目标环境中的交通信号灯进行相位控制，直至达到最大迭代轮数N。本发明采用双Q学习方法，通过引入经验回放、使用目标Q值网络来评估Q值，将选择最优动作的过程和评估最优动作的过程分开，可以更好、更稳定性的学习到最优策略。

Description

基于深度强化学习的交通信号灯配时调控方法及系统

技术领域

本发明涉及交通控制技术领域，更具体的，涉及：1、一种基于深度强化学习的交通信号灯配时调控方法，2、一种基于深度强化学习的交通信号灯配时调控系统。

背景技术

信号灯配时对交通有着重要的影响，可以直接影响道路流量、拥堵程度、行车速度、交通事故率和交通效率。

目前，传统交通信号灯配时采用固定配时方案，即一个相位中红、黄、绿三色信号灯的时长固定。这显然违背了居民出行产生的交通流具有强周期性的特点——交通流存在日、周、月模式（日模式指在同一天不同时间段交通流有很大区别，而不同日期同一时段交通流往往相仿；周模式指一周内工作日与非工作日交通流有很大区别，而不同周工作日之间、非工作日之间交通流往往相仿；月模式指一年内不同月份的交通流有很大区别，而不同年份相同月份间、交通流往往相仿）。故一年365天内设置同样的信号配时方案显然不是最佳的信号灯配时机制。

现今研究中，有部分专家提出根据真实的交通数据人为制定信号灯配时规则。但是，这些规则仍然是由人们的先验经验进行预定义的，不能根据实时流量进行动态调整。

基于深度学习和强化学习的迅速发展，有学者提出采用基于值函数的Q-Learning强化学习方法来控制交通信号灯配时，它通过学习一个称为Q值函数的动作价值函数来估计在给定状态下采取某个动作的长期累积奖励，以指导智能体在环境中做出最优决策。但Q-Learning方法在面对交通流这种复杂的场景时存在难以收敛且缺乏稳定性的重大缺陷，故有学习将Q-Learning方法与深度神经网络相结合，提出了深度Q网络（DQN）。DQN利用深度神经网络的特点，可以自动从高维状态空间中自动提取特征来逼近状态-动作值函数，具有更好的收敛性和稳定性。但DQN存在自举的情况，即在更新Q 值时使用当前估计的最大动作值来估计下一个状态的最大动作值带来的过估计问题，所得到的估计Q值总会过高或过低，会影响学习的性能。

发明内容

基于此，有必要针对现有DQN存在自举而影响学习性能的问题，提供一种基于深度强化学习的交通信号灯配时调控方法及系统。

本发明采用以下技术方案实现：

第一方面，本发明公开了基于深度强化学习的交通信号灯配时调控方法，包括以下步骤：

步骤一，初始化两个相同结构的Q值网络，并将其中一个Q值网络作为动作价值网络、另一个Q值网络作为目标Q值网络/>；其中，/>、/>的参数相同；

步骤二，将目标道路交叉口作为目标环境，并周期性采集目标环境的状态；

步骤三，基于双Q学习对、/>进行多轮迭代运算，并同步对目标环境中的交通信号灯进行相位控制，直至达到最大迭代轮数N。

其中，n∈[1,N]，第n轮迭代运算的方法包括：

步骤3.1，获取s ⁿ，并基于ε-greedy策略从所有可能动作中选择出第n轮迭代要执行的动作a ⁿ；

其中，s ⁿ表示执行a ^n-1后目标环境的状态，a ^n-1表示第n-1轮迭代要执行的动作；所有可能动作包括a ₁、a ₂；a ₁=1，表示切换当前相位到下一相位；a ₂=0，表示保持当前相位不变；

步骤3.2，在目标环境中执行a ⁿ、并得到s ⁿ⁺¹；其中，s ⁿ⁺¹表示执行a ⁿ后目标环境的状态；

步骤3.3，依据s ⁿ计算出a ⁿ的奖励r ⁿ，再组成第n组经验组(s ⁿ,a ⁿ,r ⁿ,s ⁿ⁺¹)、并存入经验池；

其中，若n超过经验存储阈值D，从经验池中随机选择m组经验组，并计算出目标Q值TQ ⁿ；再基于TQ ⁿ构建损失函数L，并基于L按照梯度下降算法更新的参数，得到第n轮迭代完成后的动作价值网络/>；

若n等于参数替换阈值d*K，将的参数替换成/>的参数；d为整数。

该种基于深度强化学习的交通信号灯配时调控方法实现根据本公开的实施例的方法或过程。

第二方面，本发明公开了基于深度强化学习的交通信号灯配时调控系统，其使用了第一方面的基于深度强化学习的交通信号灯配时调控方法。

基于深度强化学习的交通信号灯配时调控系统包括：Q网络模块、检测模块、双Q学习模块。

Q网络模块用于初始化两个相同结构的Q值网络，并将其中一个Q值网络作为动作价值网络、另一个Q值网络作为目标Q值网络/>；其中，/>、/>的参数相同。检测模块用于将目标道路交叉口作为目标环境，并周期性采集目标环境的状态。双Q学习模块用于基于双Q学习对/>、/>进行多轮迭代运算，并同步对目标环境中的交通信号灯进行相位控制，直至达到最大迭代轮数N。

该种基于深度强化学习的交通信号灯配时调控系统实现根据本公开的实施例的方法或过程。

第三方面，本发明公开了一种可读存储介质。该种可读存储介质中存储有计算机程序指令，计算机程序指令被一处理器读取并运行时，执行如第一方面公开的基于深度强化学习的交通信号灯配时调控方法。

与现有技术相比，本发明具备如下有益效果：

本发明采用双Q学习方法，通过引入经验回放、使用目标Q值网络来评估Q值，将选择最优动作的过程和评估最优动作的过程分开，可以更好、更稳定性的学习到最优策略。

附图说明

图1为本发明实施例1中基于深度强化学习的交通信号灯配时调控方法的流程图；

图2为图1方法中的信息流向图；

图3为本发明实施例2中仿真实验结果图一

图4为本发明实施例2中仿真实验结果图二。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，当组件被称为“安装于”另一个组件，它可以直接在另一个组件上或者也可以存在居中的组件。当一个组件被认为是“设置于”另一个组件，它可以是直接设置在另一个组件上或者可能同时存在居中组件。当一个组件被认为是“固定于”另一个组件，它可以是直接固定在另一个组件上或者可能同时存在居中组件。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“或/及”包括一个或多个相关的所列项目的任意的和所有的组合。

实施例1

请参阅图1，为本发明实施例1中基于深度强化学习的交通信号灯配时调控方法的简要流程图。

总的来说，参看图2，本发明使将双价值网络应用到交通信号灯配时调控，使用双Q学习来避免现有DQN的问题，保证并提高学习的稳定性。

如图2所示，基于深度强化学习的交通信号灯配时调控方法包括以下步骤：

步骤一，初始化两个相同结构的Q值网络，并将其中一个Q值网络作为动作价值网络、另一个Q值网络作为目标Q值网络/>；其中，/>、/>的参数相同。

对于Q值网络来说，其基于函数Q _θ(s, a)进行构建，输出一个实数。其中，θ表示该Q值网络的当前参数；s表示状态；a表示动作。

步骤二，将目标道路交叉口作为目标环境，并周期性采集目标环境的状态。

需要说明的是，状态采集的间隔为Δt ₁。

具体的，目标环境的状态包括5类参数。其中，参数一为每个车道上的排队长度；参数二为每个车道上的平均延误；参数三为每个车道上的平均等待时间；参数四为当前迭代轮次中通过目标道路交叉口的车辆总数；参数五为当前迭代轮次中通过目标道路交叉口的车辆的总耗时。

为了获取到上述5类参数，可以在目标环境中设置相应的检测模块，例如：交通信号检测单元、车辆检测单元等。

由于每轮迭代的操作类似，接下来取其中的第n轮（n∈[1,N]）迭代进行说明：

步骤3.1，获取s ⁿ，并基于ε-greedy策略从所有可能动作中选择出第n轮迭代要执行的动作a ⁿ。

其中，s ⁿ表示执行a ^n-1后目标环境的状态，a ^n-1表示第n-1轮迭代要执行的动作；所有可能动作包括a ₁、a ₂；a ₁=1，表示切换当前相位到下一相位；a ₂=0，表示保持当前相位不变。

需要说明的是，引入ε-greedy策略后可以避免贪婪算法一直随机选取动作的缺点。具体的，在步骤3.1中，a ⁿ的选择方法包括：

步骤3.1.1，使用计算出a ₁、a ₂所对应的Q值Q ₁、Q ₂；

其中，为第n-1轮迭代完成后的动作价值网络；/>，；

步骤3.1.2，随机生成一个小于1的随机数ε ⁿ、并与预设概率值ε ₀进行比较；

若ε ⁿ＞ε ₀，取Q ₁、Q ₂中较大值对应的动作作为a ⁿ；否则，从a ₁、a ₂中随机选取一个动作作为a ⁿ。

步骤3.2，在目标环境中执行a ⁿ、并得到s ⁿ⁺¹；其中，s ⁿ⁺¹表示执行a ⁿ后目标环境的状态。

参看上面，若步骤3.1最后a ⁿ取a ₁，那么步骤3.2中就要切换当前相位到下一相位；若步骤3.1最后a ⁿ取a ₁，那么步骤3.2中就要保持当前相位不变。

那么，在目标环境中执行a ⁿ后，就出现一个新的状态s ⁿ⁺¹、并继续被采集。需要注意的是，步骤3.1到步骤3.2的耗时为Δt ₂，要保证Δt ₂≥Δt ₁，以保证s ⁿ⁺¹可以被正确采集。

步骤3.3，依据s ⁿ计算出a ⁿ的奖励r ⁿ，再组成第n组经验组(s ⁿ,a ⁿ,r ⁿ,s ⁿ⁺¹)、并存入经验池。

具体的，在步骤3.2中，

。

下面对r ⁿ的组成逐一进行说明：

1，表示第n轮中目标环境内车道上排队长度的总和。

其中，I表示目标环境的总车道数；表示第n轮中第i个车道的排队长度。

需要说明的是，车辆处于排队状态，即是等待车辆——其实时车速趋近于0（一般小于0.1m/s即可视作趋近于0）。

2，表示第n轮中目标环境内车道上平均延误的总和。

其中，I表示目标环境的总车道数；表示第n轮中第i个车道的平均延误。

的计算公式为：/>；式中，/>表示第n轮中第i个车道的平均车速；/>表示第n轮中第i个车道的最大允许车速。需要注意的是，一般默认每个车道的最大允许车速相同。

3，表示第n轮中目标环境内车道上平均等待时间的总和。

其中，I表示目标环境的总车道数；表示第n轮中第i个车道的平均等待时间。

对于来说，其计算公式为：/>；式中，/>表示第n轮中第i个车道第j个车辆的等待时间；j∈[ 1,J ]，J表示第n轮中第i个车道的车辆总数。

与类似的，若车辆实时车速趋近于0，即为等待车辆，要计入等待时间。也就是说，对于/>，其计算方法包括：

获取第n轮中第i个车道第j个车辆的实时车速v，将v趋近于0的持续时间计入。

4，N ⁿ表示第n轮中通过目标道路交叉口的车辆总数。

5，T ⁿ表示第n轮中通过目标道路交叉口的车辆的总耗时。

6，w ₁、w ₂、w ₃、w ₄、w ₅均为权重系数。具体的，w ₁＜0（一般取-0.3），w ₂＜0（一般取-0.3），w ₃＜0（一般取-0.3），w ₄＞0（一般取0.9），w ₅＞0（一般取0.8）。通过权重系数的配比，将奖励与交通拥堵情况构建联系：奖励越大，交通拥堵情况越少。

基于上述公式，计算出r ⁿ；那么就可以将s ⁿ、a ⁿ、r ⁿ、s ⁿ⁺¹组成第n组经验组(s ⁿ,a ⁿ,r ⁿ,s ⁿ⁺¹)，并存入经验池。

需要说明的是，引入经验池后，可以随机采样一批先前的经验，而不仅仅是最新的信息来更新，这样就消除了经验路径中的相关性，并平滑了观测分布中的波动。

具体的，若n超过经验存储阈值D（一般取64），从经验池中随机选择m组经验组，并计算出目标Q值TQ ⁿ；再基于TQ ⁿ构建损失函数L，并基于L按照梯度下降算法更新的参数，得到第n轮迭代完成后的动作价值网络/>；

其中，TQ ⁿ的计算方法包括：

S3.3.1，将选出的m组经验组作为m组参考组；

其中，第k组参考组为；k∈[1,m]；

S3.3.2，使用计算出每个参考组的经验Q值，分别为/>、/>、…、/>；

其中，第k组参考组的经验Q值为；/>为第n-1轮迭代完成后的动作价值网络；

S3.3.3，计算TQ ⁿ；

；

式中，表示折扣因子（一般取0.9），/>表示求取经验Q值最大时对应的动作。

其中，L的计算公式为：

。

需要说明的是，L可视作自变量为θ的函数，也可写作L(θ)。

L(θ)在第n轮迭代开始时的参数可以表示为θ ⁿ；那么，在n超过经验存储阈值D的情况下，可以按照将θ ⁿ更新成θ ⁿ⁺¹；其中，α表示学习率，一般取0.001。

当然，若n等于参数替换阈值d*K，将的参数替换成/>的参数；d为整数。这样可以确保两个Q值网络之间的同步。

上述过程相较于现有DQN的方式，通过采用双网络解决了高估问题，从而使学习更加稳定可靠。

实施例2

本实施例2公开了一种基于深度强化学习的交通信号灯配时调控系统，其使用了实施例1的基于深度强化学习的交通信号灯配时调控方法。

Q网络模块配置为初始化两个相同结构的Q值网络，并将其中一个Q值网络作为动作价值网络、另一个Q值网络作为目标Q值网络/>；其中，/>、/>的参数相同。

检测模块配置为将目标道路交叉口作为目标环境，并周期性采集目标环境的状态。

双Q学习模块配置为基于双Q学习对、/>进行多轮迭代运算，并同步对目标环境中的交通信号灯进行相位控制，直至达到最大迭代轮数N。

由于本基于深度强化学习的交通信号灯配时调控系统使用了实施例1中的基于深度强化学习的交通信号灯配时调控方法，因此也具有与实施例1相同的效果，此处不再重复。

实施例3

本实施例3对实施例1的基于深度强化学习的交通信号灯配时调控方法（简称为DDQL）进行了仿真实验，并引入了固定时间控制法（简称为FT）进行对比。

仿真实验的目标环境在模拟平台上搭建，构建了一个标准的十字路口（包括东西南北四个方向），连接着四条150米长的路段，每条路有3条进车道和3条出车道。

交通信号灯的相位变化简化成：南北方向为绿灯，则东西方向为红灯；南北方向为红灯，则东西方向为绿灯。

首先采用DDQL对目标环境中的交通灯进行控制，迭代了1000轮，并考察了奖励变化情况，结果参看图3。可知，随着迭代的不断进行，DDQL的奖励也在增加，并逐渐趋于稳定。

然后引入FT对目标环境中的交通灯进行控制，并与DDQL对比了目标环境中平均等待时间的变化情况，结果参看图4。可知，虽然初期迭代中，DDQL效果弱于FT；但随着迭代的不断进行，DDQL可以降低平均等待时间，效果逐渐超过FT，可以进一步改善交通拥堵情况。

实施例4

本实施例4公开了一种可读存储介质，可读存储介质中存储有计算机程序指令，计算机程序指令被一处理器读取并运行时，执行实施例1的基于深度强化学习的交通信号灯配时调控方法的步骤。

实施例1的方法在应用时，可以软件的形式进行应用，如设计成计算机可读存储介质可独立运行的程序，计算机可读存储介质可以是U盘、或设计成U盾，即设计成通过外在触发启动整个方法的程序。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于深度强化学习的交通信号灯配时调控方法，其特征在于，包括以下步骤：

步骤三，基于双Q学习对、/>进行多轮迭代运算，并同步对目标环境中的交通信号灯进行相位控制，直至达到最大迭代轮数N；

其中，n∈[1,N]，第n轮迭代运算的方法包括：

2.根据权利要求1所述的基于深度强化学习的交通信号灯配时调控方法，其特征在于，步骤二中，目标环境的状态包括5类参数；

其中，参数一为每个车道上的排队长度；参数二为每个车道上的平均延误；参数三为每个车道上的平均等待时间；参数四为当前迭代轮次中通过目标道路交叉口的车辆总数；参数五为当前迭代轮次中通过目标道路交叉口的车辆的总耗时。

3.根据权利要求2所述的基于深度强化学习的交通信号灯配时调控方法，其特征在于，步骤3.1中，a ⁿ的选择方法包括：

步骤3.1.1，使用计算出a ₁、a ₂所对应的Q值Q ₁、Q ₂；

其中，为第n-1轮迭代完成后的动作价值网络；/>，；

4.根据权利要求2所述的基于深度强化学习的交通信号灯配时调控方法，其特征在于，步骤3.2中，；

式中，w ₁、w ₂、w ₃、w ₄、w ₅均为权重系数；w ₁＜0，w ₂＜0，w ₃＜0，w ₄＞0，w ₅＞0；I表示目标环境的总车道数；表示第n轮中第i个车道的排队长度；/>表示第n轮中第i个车道的平均延误；表示第n轮中第i个车道的平均等待时间；N ⁿ表示第n轮中通过目标道路交叉口的车辆总数；T ⁿ表示第n轮中通过目标道路交叉口的车辆的总耗时。

5.根据权利要求4所述的基于深度强化学习的交通信号灯配时调控方法，其特征在于，；

式中，表示第n轮中第i个车道的平均车速；/>表示第n轮中第i个车道的最大允许车速。

6.根据权利要求4所述的基于深度强化学习的交通信号灯配时调控方法，其特征在于，；

式中，表示第n轮中第i个车道第j个车辆的等待时间；j∈[ 1,J ]，J表示第n轮中第i个车道的车辆总数；

其中，的计算方法包括：

7.根据权利要求1所述的基于深度强化学习的交通信号灯配时调控方法，其特征在于，步骤3.3中，

TQ ⁿ的计算方法包括：

S3.3.1，将选出的m组经验组作为m组参考组；

其中，第k组参考组为；k∈[1,m]；

S3.3.3，计算TQ ⁿ；

；

式中，表示折扣因子，/>表示求取经验Q值最大时对应的动作。

8.根据权利要求7所述的基于深度强化学习的交通信号灯配时调控方法，其特征在于，步骤3.3中，

L的计算公式为：。

9.一种基于深度强化学习的交通信号灯配时调控系统，其特征在于，其使用了如权利要求1-8中任一所述的基于深度强化学习的交通信号灯配时调控方法；

所述基于深度强化学习的交通信号灯配时调控系统包括：

Q网络模块，其用于初始化两个相同结构的Q值网络，并将其中一个Q值网络作为动作价值网络、另一个Q值网络作为目标Q值网络/>；其中，/>、/>的参数相同；

检测模块，其用于将目标道路交叉口作为目标环境，并周期性采集目标环境的状态；

以及

双Q学习模块，其用于基于双Q学习对、/>进行多轮迭代运算，并同步对目标环境中的交通信号灯进行相位控制，直至达到最大迭代轮数N。

10.一种可读存储介质，其特征在于，所述可读存储介质中存储有计算机程序指令，计算机程序指令被一处理器读取并运行时，执行如权利要求1-8中任一所述的基于深度强化学习的交通信号灯配时调控方法的步骤。