CN112927505B

CN112927505B - 一种车联网环境下基于多智能体深度强化学习的信号灯自适应控制方法

Info

Publication number: CN112927505B
Application number: CN202110119357.1A
Authority: CN
Inventors: 王桐; 曹家华; 阿泽热; 杨光新; 付李悦
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2021-01-28
Filing date: 2021-01-28
Publication date: 2022-08-02
Anticipated expiration: 2041-01-28
Also published as: CN112927505A

Abstract

本发明为了解决现有强化学习算法受限于维度爆炸问题无法直接拓展到大规模真实城市路网场景、以及协作式多智能体强化学习模型的训练效率低下问题，结合车联网通信背景，提出了一种车联网环境下基于多智能体深度强化学习的信号灯自适应控制方法。本发明具体包括4个步骤：基于车联网通信架构—设计CGB‑MATSC模型—在模型上结合DQN算法得到CGB‑MAQL算法—为了加速算法收敛提出了基于多线程的启发式学习机制；本发明用于优化路网范围内所有路口的信号灯控制策略，该模型为智能体规模扩展导致的空间维度爆炸提供了一个高效的解决方案，支持其他强化学习算法的拓展，且在大规模异构路网环境中具有较好的有效性和可拓展性。

Description

一种车联网环境下基于多智能体深度强化学习的信号灯自适应控制方法

技术领域

本发明城市智能交通管理技术领域，具体地，涉及一种车联网环境下基于多智能体深度强化学习的信号灯自适应控制方法。

背景技术

随着城市化建设加速，交通拥堵成为普遍存在的问题，为了提高路网通行效率、及时疏导道路拥塞，城市交通控制系统亟需优化。传统的交叉口信号控制模式大多依赖于预设的相位方案或道路交通建模，无法根据高度动态的交通流实时优化控制策略。近年来人工智能技术的发展为智慧交通系统(Intelligent Traffic System,ITS)指明了主要发展方向，TLC是ITS的重要子系统之一。结合新一代网络技术、车联网技术，现代TLC系统面临数据采集端、通信平台、智能算法全方位的理论发展和技术改革，逐渐完成由传统固定控制模式向数据驱动的高度智能化的实时自适应信号灯控制系统发展。

常用的TLC方式：传统TLC控制模式、基于交通流模型或预置方案的SCATS系统，缺点是不够动态、无法拓展、维护成本高。解决方案是引入AI技术，提高自主学习能力。

目前普遍应用的城市交通控制系统主要包括20世纪发明的SCATS系统和SCOOT系统，以及我国改进的SMOOTH系统。但是上述控制系统的性能均对道路交通模型准确性存在一定的依赖，且数据采集大多基于道路传感器和摄像头等装置，采集数据的准确性受不稳定因素影响。此外，在面临城市改建时，控制系统往往不具备可拓展性，这导致系统维护和升级的成本增加。自从Deepmind团队于2015年成功在游戏中应用深度强化学习算法战胜人类玩家水平，深度强化学习(Deep Reinforcement Learning,DRL)在最优控制问题中的应用得到了广泛关注。DRL整合了基于深度学习的高维数据感知处理能力以及基于强化学习的自主决策能力，形成了一个基于感知给出最优行为决策的端到端的自主学习系统。信号控制方案优化可以看成是最优控制策略问题，基于实时道路状态描述，由路口智能体给出最优控制方案。DRL已经在单路口场景中的有效性已经得到证实，然而在面临真实城市场景的大规模路网环境，由于动作、状态空间维度爆炸、模型训练效率低、训练开销过大等问题，目前仍没有形成适用于大规模城市路网环境的统一多智能体协作框架。

发明内容

本发明为了解决现有强化学习算法受限于维度爆炸问题无法直接拓展到大规模真实城市路网场景、以及协作式多智能体强化学习模型的训练效率低下问题，结合车联网通信背景，提出了一种车联网环境下基于多智能体深度强化学习的信号灯自适应控制方法。

一种车联网环境下基于多智能体深度强化学习的信号灯自适应控制方法，所述方法具体包括以下步骤：

步骤1：根据大规模路网中车联网通信架构，搭建由边缘计算服务器MEC、路边控制单元Roadside Unit，RSU以及路口信号控制装置构成的层级通信架构，确定基于深度强化学习的智能体结构；所述路口信号控制装置为信号灯或其它可以实现信号控制的装置；

步骤2：搭建协作的基于深度强化学习的多路口信号控制模型CGB-MATSC，根据步骤1中的智能体结构，提出了基于K近邻的K-Nearest Neighbor，KNN联合状态表达方式，基于道路信息素的区域绿波控制模式以及基于空间折扣因子的联合回报设计模式；

步骤3：根据步骤2中的模型，对Deep Q-learning，DQN进行结合，得到了CGB-MAQL算法，来提高路网整体通行效率，且在场景拓展的情况下具有优秀的可拓展性，优化拥塞和环保指标；

步骤4：提出基于多线程的启发式学习机制，加速步骤3中的算法在异构路网环境中的收敛，加速智能体进行有效学习。

进一步地、所述步骤1包括以下步骤：

步骤1.1：根据选定城市路网结构，部署MEC边缘计算服务器位置，确定与MEC相连接的4只RSU的位置与RSU通信范围，所述4只RSU连接于同一MEC；

步骤1.2：确定选定场景中的交叉口控制类型，获取所有信号灯控制的交叉口信号灯的ID信息、位置信息、预置相位信息和各个相位对应的控制车道信息；所述信息数据均在SUMO路网.xml文档中获取；

步骤1.3：确定基于深度强化学习的RSU智能体的结构，完成大规模路网中智能体的部署和控制范围划分；根据信号灯所在位置及各RSU通信范围，确定RSU和信号灯控制路口的所属关系；根据各个RSU所处位置的不同以及包含异构路口数量的不同，分别构成基于深度强化学习的智能体结构，智能体列表为list_agent＝[agent₀,agent₁,agent₂,agent₃]，其中智能体agent_i的结构由其控制范围内的信号灯信息描述，即信号灯列表TL_i为：

TL_i＝[tl₀,tl₁,...,tl_m]；

步骤1.4：搭建基于车路协同的三层层级通信结构：MEC-RSU-TL，并确定通信对象之间的通信方式与通信内容；其中架构底层的路口信号控制装置以有线或无线通信的方式，将自身ID、位置和预置相位信息传递给RSU智能体；

步骤1.5：道路车辆实时更新自身的速度和位置信息，并以V2X无线通信方式告知位于层级通信架构中间层的RSU；

步骤1.6：层级通信架构中间层的RSU主要功能为：a)确定自身控制范围内的信号灯列表TL_i及其控制车道和预设相序信息phase_t＝[p₀,p₁,...,p_l]，其中l代表信号灯tl_t的预置相位列表；b)收集车辆信息并根据速度计算每个方向道路停车数目；c)收集信号灯的当前阶段相位信息；

步骤1.7：层级通信架构顶层的MEC会根据各个RSU发送来的信息，完成：a)根据车道的道路信息计算实时道路信息素；b)为每个信号灯控制车道的信息素排序，并找出相应的绿波相序；c)计算场景中所有路口的交通流信息；

步骤1.8：MEC和RSU通信告知其控制范围内的信号灯的绿波相位；绿波相位的获取步骤如下：以三向信号灯tl_t为例，其预置相位列表为phase_t＝[p₀,p₁,...,p_l]，其中p₀＝"ggggrrrryyyy"，每个字母代表一个相应的道路通行方向的对应相位切片，则"gggg"代表对一条包含四个通行方向的道路的信号管控状态描述；在该道路的信息素排放水平高于其他两个道路时，设置p₀为该交叉口信号灯相位，实现对该交叉口的基于道路信息素水平的绿波控制；

步骤1.9：RSU和路口信号控制装置通信告知各个路口绿波相位。

进一步地、所述步骤2包括以下步骤：

步骤2.1：在所述CGB-MATSC模型中，根据场景中各个智能体的位置信息，以距离为特征空间，根据设置的k值，基于KNN算法确定每个智能体的邻居列表；

步骤2.2：根据道路等待车辆数目设定3个拥塞等级，即{0，1，2}；0代表路口畅通，1代表中等拥塞，2代表严重拥挤情况；x的离散化详细如式(1)所示；其中阈值的选取是基于实际场景车辆数目其中N_waiting；设定实际场景车辆数目最小值δ₀为5，实际场景车辆数目最大值δ₁为10；

步骤2.3：以智能体i为例，根据邻居列表，形成基于K近邻的联合状态M_i如下，其中k是智能体i的邻居个数：

其中，s_k为第k只智能体的本地状态信息；

x_k为第k只智能体的控制范围内的平均拥塞离散程度。x_k取值[0,1,2,3]；

为第k只智能体的控制范围内最拥挤的路口

及其拥塞离散水平

为第k只智能体的控制范围内次拥挤的路口

及其拥塞离散水平

a_k为智能体k上一轮的行为决策；

步骤2.3：在所述CGB-MATSC模型中，智能体动作空间大小为2，即包含两个管控模式，Action＝{a₀,a₁}；其中a₀代表基于道路信息素的区域绿波控制模式，a₁代表预置的固定配时模式；

步骤2.4：智能体在当前状态下选择a₀，则按基于道路信息素的区域绿波控制模式流程图进行绿波控制，其中Step代表当前时间步，T_end代表一轮总时间步上限值；设当前动作为a₁，则控制范围内所有路口均按预置相位序列进行轮换；其中，道路信息素的定义如下。

其中，N_vehicle代表道路实时车辆数目、L_edge代表道路长度、N_lane代表道路数目，L_edge×N_lane表示了道路容量信息；

步骤2.5：在所提CGB-MATSC模型中，设计了基于空间距离折扣因子的联合收益，如公式(4)所示：

其中，R_i,joint表示智能体i收到的联合收益，R_i表示智能体收到的本地回报值，N_i是智能体i的邻居智能体列表，j代表某一个邻居智能体，|d_ij|代表智能体i和j之间的距离，R_j代表智能体j的本地收益；各智能体的本地回报值R是所有管控路口回报的累积和，若路口车流相较于步2.4增加记+1，其他情况记0。

进一步地、所述步骤3包括以下步骤：

步骤3.1：设置CGB-MAQL算法中的智能体模型训练参数；设置一共轮数为E，每一轮的步数上限为5000步，记录每一步为t；其中，为了贴合交通管控实际情况，设置管控间隔为T＝20sec；设置智能体关键学习参数探索率为ε，探索率衰减因子ε_decay；

步骤3.2：初始化算法输入；在场景中选取位置，完成RSU和MEC的部署；记录智能体i的位置(lat_i,long_i)；

步骤3.3：初始化智能体邻居列表信息；根据k近邻算法，基于位置距离特征根据给定k值获取智能体i邻居智能体列表

其中k≠i；

步骤3.4：根据上述信息初始化智能体结构；根据预设的RSU通信范围，初始化智能体i控制范围内的信号灯列表TL_i＝[tl₀,tl₁,...,tl_n]；

步骤3.5：对于智能体i，初始化Q值网络，初始化智能体记忆列表Memory_i以及超参数|B|等；

步骤3.6：记录当前轮的步数t；当t％T＝＝0时，RSU根据TL_i中的路口信息进行道路信息收集，包括道路形状和停车数量，并汇总给MEC；

步骤3.7：智能体i基于ε-greedy策略进行动作选择，如公式(5)所示：

其中，Q(s,a)代表状态动作对儿价值，π(a|s)代表在状态s处选择动作a的概率；

步骤3.8：MEC对接收到的所有智能体的信息进行汇总，并根据信息素公式(3)对各个路口进行信息素的计算和排序，形成局部状态

步骤3.9：MEC处同时接收的所有智能体的局部状态最终将汇总成

发送给智能体i，该状态将作为智能体i网络更新的输入；

步骤3.10：在动作执行结束后，MEC汇集各RSU的局部回报，得到联合回报R_i,joint；

步骤3.11：将(s,s',a,r,done)记录在Memory_i中；如果done为TRUE，则此轮训练结束；若为False，训练继续；其中，done为一轮训练是否结束的标志，初始值为False，若训练过程中出发中止条件则done为True；

步骤3.12：当Memory_i长度大于超参数|B|，根据梯度反向传播方式迭代参数；

步骤3.13：根据衰减因子ε_decay，更新探索率ε，开始下一轮探索；

步骤3.14：所有训练结束，CGB-MAQL算法收敛，输出各智能体模型参数。

进一步地、所述步骤4包括以下步骤：

步骤4.1：结合实际场景路口车流情况，通过观察路口车辆到达特点，选取合适的路口车辆阈值θ；

步骤4.2：当路口停止等待的车辆数目大于等于阈值θ时中止对当前轮策略的学习，并自主开始新一轮行为策略的学习，由此形成启发式学习机制；

步骤4.3：基于多线程的启发式多智能体并行学习机制CGB-MAQL算法；其中，在KT时刻，智能体经验池中样本数量达到超参数批处理大小|B|，模型开始基于经验回放机制进行训练；

步骤4.4：将迭代完成的模型参数信息保存为.h5模型文件，所有智能体模型训练结束。

本发明有益效果

本发明用于优化路网范围内所有路口的信号灯控制策略，该模型为智能体规模扩展导致的空间维度爆炸提供了一个高效的解决方案，支持其他强化学习算法的拓展，且在大规模异构路网环境中具有较好的有效性和可拓展性。

附图说明

图1为本发明CGB-MATSC模型和基于团图的多智能体协同架构模型；其中(a)为曼哈顿路网结果，(b)为MEC-RSU部署，(c)为基于KNN的RSUO的邻居智能体，k＝3；

图2为本发明基于道路信息素的区域绿波控制模式流程图；

图3为本发明多线程下采用启发式训练机制的CGB-MAQL算法示意图。

具体实施方式

下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例；基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

所述步骤1包括以下步骤：

TL_i＝[tl₀,tl₁,...,tl_m]；

所述步骤2包括以下步骤：

其中，s_k为第k只智能体的本地状态信息；

为第k只智能体的控制范围内最拥挤的路口

及其拥塞离散水平

为第k只智能体的控制范围内次拥挤的路口

及其拥塞离散水平

a_k为智能体k上一轮的行为决策；

所述步骤3包括以下步骤：

其中k≠i；

发送给智能体i，该状态将作为智能体i网络更新的输入；

所述步骤4包括以下步骤：

以上对本发明所提出的一种车联网环境下基于多智能体深度强化学习的信号灯自适应控制方法，进行了详细介绍，本文中应用了数值模拟算例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种车联网环境下基于多智能体深度强化学习的信号灯自适应控制方法，其特征在于：所述方法具体包括以下步骤：

TL_i＝[tl₀,tl₁,...,tl_m]；

步骤1.6：层级通信架构中间层的RSU主要功能为：a)确定自身控制范围内的信号灯列表TL_i及其控制车道和预置相位列表phase_t＝[p₀,p₁,...,p_l]，其中l代表信号灯tl_t的预置相位列表；b)收集车辆信息并根据速度计算每个方向道路停车数目；c)收集信号灯的当前阶段相位信息；

步骤1.9：RSU和路口信号控制装置通信告知各个路口绿波相位；

步骤2：搭建协作的基于深度强化学习的多路口信号控制模型CGB-MATSC，根据步骤1中的智能体结构，构建基于K近邻的K-Nearest Neighbor联合状态表达方式，基于道路信息素的区域绿波控制模式以及基于空间折扣因子的联合回报设计模式；

其中，s_k为第k只智能体的本地状态信息；

x_k为第k只智能体的控制范围内的平均拥塞离散程度，x_k取值[0,1,2,3]；

为第k只智能体的控制范围内最拥挤的路口

及其拥塞离散水平

为第k只智能体的控制范围内次拥挤的路口

及其拥塞离散水平

a_k为智能体k上一轮的行为决策；

步骤2.4：智能体在当前状态下选择a₀，则按基于道路信息素的区域绿波控制模式流程图进行绿波控制，其中Step代表当前时间步，T_end代表一轮总时间步上限值；设当前动作为a₁，则控制范围内所有路口均按预置相位序列进行轮换；其中，道路信息素的定义如下；

其中，R_i,joint表示智能体i收到的联合收益，R_i表示智能体收到的本地回报值，N_i是智能体i的邻居智能体列表，j代表某一个邻居智能体，|d_ij|代表智能体i和j之间的距离，R_j代表智能体j的本地收益；各智能体的本地回报值R是所有管控路口回报的累积和，若路口车流相较于步2.4增加记+1，其他情况记0；

步骤3：根据步骤2中的模型，利用Deep Q-learning，构建CGB-MAQL算法；

其中k≠i；

步骤3.5：对于智能体i，初始化Q值网络，初始化智能体记忆列表Memory_i以及超参数|B|；

发送给智能体i，该状态将作为智能体i网络更新的输入；

步骤3.14：所有训练结束，CGB-MAQL算法收敛，输出各智能体模型参数；

步骤4：利用基于多线程的启发式学习机制，加速步骤3中的算法在异构路网环境中的收敛；