CN112216129B

CN112216129B - 一种基于多智能体强化学习的自适应交通信号控制方法

Info

Publication number: CN112216129B
Application number: CN202011092990.8A
Authority: CN
Inventors: 张程伟; 靳珊; 郑康洁
Original assignee: Dalian Maritime University
Current assignee: Dalian Maritime University
Priority date: 2020-10-13
Filing date: 2020-10-13
Publication date: 2021-07-27
Anticipated expiration: 2040-10-13
Also published as: CN112216129A

Abstract

本发明公开了一种基于多智能体强化学习的自适应交通信号控制方法，包括：针对交通路网中每个交叉口，建立与所述交叉口对应的智能体网络；获取所述交通路网中的实时交通特征；将所述实时交通特征按照交叉口的位置分别传入与所述交叉口对应的智能体网络中，得到所述智能体网络输出的交叉口的相位，并按照所述交叉口的相位执行该交叉口的交通信号控制；其中，所述智能体网络以该智能体网络对应的交叉口以及该交叉口相邻的交叉口的进入车道上正在等待的车辆数量总和的平均值为奖励确定该交叉口的相位。本发明提高了独立智能体之间的协调能力，为复杂路网环境的交通信号控制提供解决方案。

Description

一种基于多智能体强化学习的自适应交通信号控制方法

技术领域

本发明涉及交通控制技术领域，更具体地说，涉及一种基于多智能体强化学习的自适应交通信号控制方法。

背景技术

实现智能交通信号控制是一种减少交通拥堵和提高交通效率的低成本方法。由于交通流量具有随时间变化和随机性的特点，尤其是在多十字路口的复杂路网环境，所以流量建模仍然是非常困难的。

现有技术中提出一种基于多智能体强化学习利用马尔可夫决策过程(MarkovDecision Process,MDP)对交通信号控制进行建模的方法，将单智能体优势行动者评论家(Advantage Actor-Critic)算法扩展到多智能体交通环境中。

上述方法是可扩展的独立式算法，仅从交通模型上增加智能体之间的合作的可能性，并未对多智能体协作问题做相关针对性的设计。考虑到多智能体协作问题在独立式算法中会遇到不稳定性，不协调等困难，在复杂路网环境中，如路网中车辆数量多导致的路口间高协调需求环境，很难学习到好的协作策略。

发明内容

有鉴于此，本发明提供一种基于多智能体强化学习的自适应交通信号控制方法，以提高独立智能体之间的协调能力，为复杂路网环境的交通信号控制提供解决方案。

为了实现上述目的，现提出的方案如下：

一种基于多智能体强化学习的自适应交通信号控制方法，包括以下步骤：

S1：针对交通路网中每个交叉口，建立与所述交叉口对应的智能体网络；

S2：获取所述交通路网中的实时交通特征；

S3：将所述实时交通特征按照交叉口的位置分别传入与所述交叉口对应的智能体网络中，得到所述智能体网络输出的交叉口的相位，并按照所述交叉口的相位执行该交叉口的交通信号控制；其中，所述智能体网络以该智能体网络对应的交叉口以及该交叉口相邻的交叉口的进入车道上正在等待的车辆数量总和的平均值为奖励确定该交叉口的相位。

进一步地，还包括：

S4：将每次执行交通信号控制的交互经验存储在经验库中。

进一步地，还包括：

S5：随机抽取所述经验库中的多次交互经验输入深度Q网络，以最小化路网中所有车辆的平均旅行时间为目的，计算每个智能体网络的损失函数，基于每个智能体网络的损失函数更新所述智能体网络；

相应地，将所述实时交通特征按照交叉口的位置分别传入与所述交叉口对应的智能体网络中，包括：

将所述实时交通特征交叉口的位置分别传入与所述交叉口对应的更新后的智能体网络中。

进一步地，所述计算每个智能体网络的损失函数，包括：

计算损失函数：Loss＝(Y_t-Q(o_t，u_t；θ_t))²；

其中，Y_t为目标Q值，

o_t为智能体的观测值，u_t为智能体执行的相位编号，θ_t为主网络参数，

为目标网络参数；TD-error为δ_t＝Y_t-Q(o_t，u_t；θ_t)；

对TD-errror加权，修正所述损失函数：Loss＝(δ′_t)²；

其中

leniency为智能体接受不好奖励的乐观程度。

进一步地，所述交互经验包括：智能体的观测值、智能体执行的相位编号、智能体收到的奖励、智能体执行动作后的观测值、有效性。

进一步地，所述智能体的观测值由两部分组成：与所述智能体对应的交叉口的当前相位、与所述智能体对应的交叉口的进入车道集合中每条车道上正在行驶的车辆数量。

进一步地，还包括：

在每完成一个小时内相位选择后，更新所述经验库中每条交互经验的有效性。

进一步地，所述更新所述经验库中每条交互经验的有效性，包括：

其中，e_ep+1为更新后的交互经验的有效性；e_ep为更新前的交互经验的有效性；ep表示经验生成后经过的回合数，K为经验重要性的衰减系数。

从上述的技术方案可以看出，本发明公开的交通模型放松了对所有智能体完全合作的要求，降低了系统的收集所有信息的时间延迟和开销，降低了独立代理agent的训练的难度，并且使agent更关注临近范围的交通状况，促使环境内部分agent相互合作。

其次，本发明提出的健忘经验库调整了存储在经验缓存里的不同经验的重要性，解决了部分可观测经验因其他智能体策略改变而造成的经验失效问题；通过控制智能体的乐观程度对损失函数的进行修正，提高了多智能体选择协作策略的概率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例公开的一种基于多智能体强化学习的自适应交通信号控制方法的流程图；

图2为本发明实施例公开的一种独立式协作强化学习算法的流程图。

具体实施方式

本发明建立了一个弱协作式的交通模型，使用独立学习的代理控制每个交叉口的交通信号灯的相位选择，这些代理可以观测到交叉口局部的路况。该交通模型使用了简洁的状态定义，并且将独立智能体的优化目标缩小为包括邻居交叉口的局部区域的奖励。针对此模型，本发明提出了一个独立式协作强化学习算法—Cooperative Imdepent LenientDouble DQN(CIL-DDQN)，该算法在DDQN算法基础上借鉴独立式Q-learning和宽大程度的思想，以提高独立智能体之间的协调能力。算法的具体创新主要在以下两个方面：第一，健忘的经验池，存储的每条经验由经验以及经验的重要性两部分组成；第二，算法损失函数定义为抽样数据的经验重要性对数据的TD-error的加权。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，其示出了本发明实施例中的一种基于多智能体强化学习的自适应交通信息控制方法，该方法能适用于自适应交通信号控制，协调路网内的多个交叉口，减少路网内车辆的平均旅行时间，根据实时的交叉口路况，动态选择每个交叉口的下一个相位。该方法包括以下步骤：

S1：针对交通路网中每个交叉口，建立与每个交叉口对应的智能体网络；

S2：获取交通路网中的实时交通特征；

在具体实施时，实时交通特征可以是从交通路网中采集到的真实路况信息，也可以是利用交通模拟器模拟出的仿真路况信息。获取仿真路况信息可以采用如下方式：采集实时交通数据，包括交通路网结构，车流量；将采集的交通数据输入交通模拟器，在模拟器中形成相应交通路况，输出实时交通特征。

S3：将实时交通特征按照交叉口的位置分别传入与交叉口对应的智能体网络中，得到智能体网络输出的交叉口的相位，并按照交叉口的相位执行该交叉口的交通信号控制。

其中，智能体网络以该智能体网络对应的交叉口以及该交叉口相邻的交叉口的进入车道上正在等待的车辆数量总和的平均值为奖励确定该交叉口的相位。

根据实时交通路况输出的交通数据特征，每个智能体收到部分交通数据特征。智能体i在经验回放缓存区存储的观测值由两部分组成：与智能体i对应的交叉口的当前相位phase_i，L_i中每条车道l上正在行驶的车辆数量wave[l]，表示为：

其中L_i为与智能体i对应的交叉口的进入车道集合。

S4：将每次执行交通信号控制的交互经验存储在经验库中。

本发明实施例中为智能体建立一个健忘的经验库，存储每次智能体执行相位切换的交互经验：(o_t，u_t，r_t，o_t+1，e_t)，其中，o_t为智能体的观测值，u_t为智能体执行的相位编号，r_t为智能收到的奖励，o_t+1为智能体执行动作后的观测值，e_t为这条经验的有效性。

S5：随机抽取经验库中的多次交互经验输入DQN，以最小化路网中所有车辆的平均旅行时间为目的，计算每个智能体网络的损失函数，基于每个智能体网络的损失函数更新该智能体网络。

之后，利用更新后的智能体网络确定交叉口的相位。

独立智能体i的奖励为N_i中的所有交叉口的进入车道上正在等待车辆的队列长度的总和的平均值。智能体i的奖励表示为：

其中N_i为智能体i对应的交叉口以及其邻居交叉口集合，一般包括智能体i对应的交叉口和该交叉口前后左右四个交叉口。|N_i|为智能体i对应的交叉口以及其邻居交叉口的数量。一般认为车辆速度小于0.01m/s为车辆正在等待。q[l]表示车道l等待车辆数量。Lz为交叉口z所控制车道的集合，比如一个十字路口，车辆进入十字路口的道路。z表示为交叉口。因智能体以车道上等待车辆数量最少为目标，所以奖励设定为负值。

独立式算法DQN的loss函数为：

Loss＝(Y_t-Q(o_t,u_t；θ_t))²；

其中目标Q值为

o_t为智能体的观测值，u_t为智能体执行的相位编号，θ_t为主网络参数。TD-error表示为δ_t＝Y_t-Q(o_t,u_t；θ_t)。

乐观策略算法协调多个智能体。对TD-errror加权以修正Loss函数如下：

其中leniency为智能体接受不好奖励的乐观程度，取值范围为0-0.5，初始值为0.5，随训练次数的增加线性衰减，由此损失函数的损失函数变为Loss＝(δ′_t)²。

S6：重复上述步骤，在每完成一个小时内相位选择后，更新经验库中所有经验的有效性。

在智能体完成一个回合的交互，按照如下方式更新经验库中的所有交互经验的有效性：

其中e_ep+1为更新后的交互经验的有效性；e_ep为更新前的交互经验的有效性；ep表示经验生成后经过的episode(回合)数，环境从开始到结束的步数，一个实验中包含多个回合，在一个episode中经验中的e_ep是相同的；K为经验重要性的衰减系数。

本发明实施例中交通模型放松了对所有智能体完全合作的要求，降低了系统收集所有信息的时间延迟和开销，降低了独立agent的训练的难度，并且使agent更关注临近范围的交通状况，促使环境内部分agent相互合作。

其次，本发明实施例中的经验库调整了存储在经验缓存里的不同经验的重要性，解决了部分可观测经验因其他智能体策略改变而造成的经验失效问题；通过控制智能体的乐观程度对损失函数的进行修正，提高了多智能体选择协作策略的概率。

在本发明一具体实施例中，首先，基于独立式多智能体强化学习将交通环境建模为部分可观测马尔科夫博弈。将每个交叉口的路况作为智能体的观测值，智能体根据观测值选择交叉口的相位，相位是预定义的交叉口的各个车道红绿信号组合。本发明的提出的交通模型通过弱化各路口的优化目标为该路口及路口临近范围内局部区域的交通拥堵，以减少部分可观测带来的的算法的不协调问题。在没有协调机制的况下，每个智能体以最优化自己交叉口的路况为目的，可能加剧原本拥堵的下游交叉口的路况。基于独立式DDQN提出Cooperative Imdepent Lenient Double DQN算法在训练过程中协调路网中所有的交叉口，独立智能体在仅观测自己交叉口路况的情况下实现区域内交叉口的合理调控。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于多智能体强化学习的自适应交通信号控制方法，其特征在于，包括以下步骤：

S2：获取所述交通路网中的实时交通特征；

S3：将所述实时交通特征按照交叉口的位置分别传入与所述交叉口对应的智能体网络中，得到所述智能体网络输出的交叉口的相位，并按照所述交叉口的相位执行该交叉口的交通信号控制；其中，所述智能体网络以该智能体网络对应的交叉口以及该交叉口相邻的交叉口的进入车道上正在等待的车辆数量总和的平均值为奖励确定该交叉口的相位；

S4：将每次执行交通信号控制的交互经验存储在经验库中；

相应地，将所述实时交通特征按照交叉口的位置分别传入与所述交叉口对应的智能体网络中，包括：将所述实时交通特征按照交叉口的位置分别传入与所述交叉口对应的更新后的智能体网络中；

其中，所述计算每个智能体网络的损失函数，包括：

计算损失函数：Loss＝(Y_t-Q(o_t,u_t；θ_t))²；

其中，Y_t为目标Q值，

为目标网络参数；TD-error为δ_t＝Y_t-Q(o_t,u_t；θ_t)；

对TD-errror加权，修正所述损失函数：Loss＝(δ′_t)²；

其中

e_t为本条经验的有效性；leniency为智能体接受不好奖励的乐观程度。

2.根据权利要求1所述的方法，其特征在于，所述交互经验包括：智能体的观测值、智能体执行的相位编号、智能体收到的奖励、智能体执行动作后的观测值、有效性。

3.根据权利要求2所述的方法，其特征在于，所述智能体的观测值由两部分组成：与所述智能体对应的交叉口的当前相位、与所述智能体对应的交叉口的进入车道集合中每条车道上正在行驶的车辆数量。

4.根据权利要求2所述的方法，其特征在于，还包括：

5.根据权利要求4所述的方法，其特征在于，所述更新所述经验库中每条交互经验的有效性，包括：