CN112927505B - 一种车联网环境下基于多智能体深度强化学习的信号灯自适应控制方法 - Google Patents

一种车联网环境下基于多智能体深度强化学习的信号灯自适应控制方法 Download PDF

Info

Publication number
CN112927505B
CN112927505B CN202110119357.1A CN202110119357A CN112927505B CN 112927505 B CN112927505 B CN 112927505B CN 202110119357 A CN202110119357 A CN 202110119357A CN 112927505 B CN112927505 B CN 112927505B
Authority
CN
China
Prior art keywords
agent
road
information
control
intersection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110119357.1A
Other languages
English (en)
Other versions
CN112927505A (zh
Inventor
王桐
曹家华
阿泽热
杨光新
付李悦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN202110119357.1A priority Critical patent/CN112927505B/zh
Publication of CN112927505A publication Critical patent/CN112927505A/zh
Application granted granted Critical
Publication of CN112927505B publication Critical patent/CN112927505B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0125Traffic data processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/07Controlling traffic signals
    • G08G1/081Plural intersections under common control
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/09Arrangements for giving variable traffic instructions
    • G08G1/095Traffic lights
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16YINFORMATION AND COMMUNICATION TECHNOLOGY SPECIALLY ADAPTED FOR THE INTERNET OF THINGS [IoT]
    • G16Y10/00Economic sectors
    • G16Y10/40Transportation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16YINFORMATION AND COMMUNICATION TECHNOLOGY SPECIALLY ADAPTED FOR THE INTERNET OF THINGS [IoT]
    • G16Y40/00IoT characterised by the purpose of the information processing
    • G16Y40/30Control
    • G16Y40/35Management of things, i.e. controlling in accordance with a policy or in order to achieve specified objectives
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information
    • H04W4/029Location-based management or tracking services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/40Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]

Abstract

本发明为了解决现有强化学习算法受限于维度爆炸问题无法直接拓展到大规模真实城市路网场景、以及协作式多智能体强化学习模型的训练效率低下问题,结合车联网通信背景,提出了一种车联网环境下基于多智能体深度强化学习的信号灯自适应控制方法。本发明具体包括4个步骤:基于车联网通信架构—设计CGB‑MATSC模型—在模型上结合DQN算法得到CGB‑MAQL算法—为了加速算法收敛提出了基于多线程的启发式学习机制;本发明用于优化路网范围内所有路口的信号灯控制策略,该模型为智能体规模扩展导致的空间维度爆炸提供了一个高效的解决方案,支持其他强化学习算法的拓展,且在大规模异构路网环境中具有较好的有效性和可拓展性。

Description

一种车联网环境下基于多智能体深度强化学习的信号灯自适 应控制方法
技术领域
本发明城市智能交通管理技术领域,具体地,涉及一种车联网环境下基于多智能体深度强化学习的信号灯自适应控制方法。
背景技术
随着城市化建设加速,交通拥堵成为普遍存在的问题,为了提高路网通行效率、及时疏导道路拥塞,城市交通控制系统亟需优化。传统的交叉口信号控制模式大多依赖于预设的相位方案或道路交通建模,无法根据高度动态的交通流实时优化控制策略。近年来人工智能技术的发展为智慧交通系统(Intelligent Traffic System,ITS)指明了主要发展方向,TLC是ITS的重要子系统之一。结合新一代网络技术、车联网技术,现代TLC系统面临数据采集端、通信平台、智能算法全方位的理论发展和技术改革,逐渐完成由传统固定控制模式向数据驱动的高度智能化的实时自适应信号灯控制系统发展。
常用的TLC方式:传统TLC控制模式、基于交通流模型或预置方案的SCATS系统,缺点是不够动态、无法拓展、维护成本高。解决方案是引入AI技术,提高自主学习能力。
目前普遍应用的城市交通控制系统主要包括20世纪发明的SCATS系统和SCOOT系统,以及我国改进的SMOOTH系统。但是上述控制系统的性能均对道路交通模型准确性存在一定的依赖,且数据采集大多基于道路传感器和摄像头等装置,采集数据的准确性受不稳定因素影响。此外,在面临城市改建时,控制系统往往不具备可拓展性,这导致系统维护和升级的成本增加。自从Deepmind团队于2015年成功在游戏中应用深度强化学习算法战胜人类玩家水平,深度强化学习(Deep Reinforcement Learning,DRL)在最优控制问题中的应用得到了广泛关注。DRL整合了基于深度学习的高维数据感知处理能力以及基于强化学习的自主决策能力,形成了一个基于感知给出最优行为决策的端到端的自主学习系统。信号控制方案优化可以看成是最优控制策略问题,基于实时道路状态描述,由路口智能体给出最优控制方案。DRL已经在单路口场景中的有效性已经得到证实,然而在面临真实城市场景的大规模路网环境,由于动作、状态空间维度爆炸、模型训练效率低、训练开销过大等问题,目前仍没有形成适用于大规模城市路网环境的统一多智能体协作框架。
发明内容
本发明为了解决现有强化学习算法受限于维度爆炸问题无法直接拓展到大规模真实城市路网场景、以及协作式多智能体强化学习模型的训练效率低下问题,结合车联网通信背景,提出了一种车联网环境下基于多智能体深度强化学习的信号灯自适应控制方法。
一种车联网环境下基于多智能体深度强化学习的信号灯自适应控制方法,所述方法具体包括以下步骤:
步骤1:根据大规模路网中车联网通信架构,搭建由边缘计算服务器MEC、路边控制单元Roadside Unit,RSU以及路口信号控制装置构成的层级通信架构,确定基于深度强化学习的智能体结构;所述路口信号控制装置为信号灯或其它可以实现信号控制的装置;
步骤2:搭建协作的基于深度强化学习的多路口信号控制模型CGB-MATSC,根据步骤1中的智能体结构,提出了基于K近邻的K-Nearest Neighbor,KNN联合状态表达方式,基于道路信息素的区域绿波控制模式以及基于空间折扣因子的联合回报设计模式;
步骤3:根据步骤2中的模型,对Deep Q-learning,DQN进行结合,得到了CGB-MAQL算法,来提高路网整体通行效率,且在场景拓展的情况下具有优秀的可拓展性,优化拥塞和环保指标;
步骤4:提出基于多线程的启发式学习机制,加速步骤3中的算法在异构路网环境中的收敛,加速智能体进行有效学习。
进一步地、所述步骤1包括以下步骤:
步骤1.1:根据选定城市路网结构,部署MEC边缘计算服务器位置,确定与MEC相连接的4只RSU的位置与RSU通信范围,所述4只RSU连接于同一MEC;
步骤1.2:确定选定场景中的交叉口控制类型,获取所有信号灯控制的交叉口信号灯的ID信息、位置信息、预置相位信息和各个相位对应的控制车道信息;所述信息数据均在SUMO路网.xml文档中获取;
步骤1.3:确定基于深度强化学习的RSU智能体的结构,完成大规模路网中智能体的部署和控制范围划分;根据信号灯所在位置及各RSU通信范围,确定RSU和信号灯控制路口的所属关系;根据各个RSU所处位置的不同以及包含异构路口数量的不同,分别构成基于深度强化学习的智能体结构,智能体列表为listagent=[agent0,agent1,agent2,agent3],其中智能体agenti的结构由其控制范围内的信号灯信息描述,即信号灯列表TLi为:
TLi=[tl0,tl1,...,tlm];
步骤1.4:搭建基于车路协同的三层层级通信结构:MEC-RSU-TL,并确定通信对象之间的通信方式与通信内容;其中架构底层的路口信号控制装置以有线或无线通信的方式,将自身ID、位置和预置相位信息传递给RSU智能体;
步骤1.5:道路车辆实时更新自身的速度和位置信息,并以V2X无线通信方式告知位于层级通信架构中间层的RSU;
步骤1.6:层级通信架构中间层的RSU主要功能为:a)确定自身控制范围内的信号灯列表TLi及其控制车道和预设相序信息phaset=[p0,p1,...,pl],其中l代表信号灯tlt的预置相位列表;b)收集车辆信息并根据速度计算每个方向道路停车数目;c)收集信号灯的当前阶段相位信息;
步骤1.7:层级通信架构顶层的MEC会根据各个RSU发送来的信息,完成:a)根据车道的道路信息计算实时道路信息素;b)为每个信号灯控制车道的信息素排序,并找出相应的绿波相序;c)计算场景中所有路口的交通流信息;
步骤1.8:MEC和RSU通信告知其控制范围内的信号灯的绿波相位;绿波相位的获取步骤如下:以三向信号灯tlt为例,其预置相位列表为phaset=[p0,p1,...,pl],其中p0="ggggrrrryyyy",每个字母代表一个相应的道路通行方向的对应相位切片,则"gggg"代表对一条包含四个通行方向的道路的信号管控状态描述;在该道路的信息素排放水平高于其他两个道路时,设置p0为该交叉口信号灯相位,实现对该交叉口的基于道路信息素水平的绿波控制;
步骤1.9:RSU和路口信号控制装置通信告知各个路口绿波相位。
进一步地、所述步骤2包括以下步骤:
步骤2.1:在所述CGB-MATSC模型中,根据场景中各个智能体的位置信息,以距离为特征空间,根据设置的k值,基于KNN算法确定每个智能体的邻居列表;
步骤2.2:根据道路等待车辆数目设定3个拥塞等级,即{0,1,2};0代表路口畅通,1代表中等拥塞,2代表严重拥挤情况;x的离散化详细如式(1)所示;其中阈值的选取是基于实际场景车辆数目其中Nwaiting;设定实际场景车辆数目最小值δ0为5,实际场景车辆数目最大值δ1为10;
Figure GDA0003452076340000031
步骤2.3:以智能体i为例,根据邻居列表,形成基于K近邻的联合状态Mi如下,其中k是智能体i的邻居个数:
Figure GDA0003452076340000041
其中,sk为第k只智能体的本地状态信息;
xk为第k只智能体的控制范围内的平均拥塞离散程度。xk取值[0,1,2,3];
Figure GDA0003452076340000042
为第k只智能体的控制范围内最拥挤的路口
Figure GDA0003452076340000043
及其拥塞离散水平
Figure GDA0003452076340000044
Figure GDA0003452076340000045
为第k只智能体的控制范围内次拥挤的路口
Figure GDA0003452076340000046
及其拥塞离散水平
Figure GDA0003452076340000047
ak为智能体k上一轮的行为决策;
步骤2.3:在所述CGB-MATSC模型中,智能体动作空间大小为2,即包含两个管控模式,Action={a0,a1};其中a0代表基于道路信息素的区域绿波控制模式,a1代表预置的固定配时模式;
步骤2.4:智能体在当前状态下选择a0,则按基于道路信息素的区域绿波控制模式流程图进行绿波控制,其中Step代表当前时间步,Tend代表一轮总时间步上限值;设当前动作为a1,则控制范围内所有路口均按预置相位序列进行轮换;其中,道路信息素的定义如下。
Figure GDA0003452076340000048
其中,Nvehicle代表道路实时车辆数目、Ledge代表道路长度、Nlane代表道路数目,Ledge×Nlane表示了道路容量信息;
步骤2.5:在所提CGB-MATSC模型中,设计了基于空间距离折扣因子的联合收益,如公式(4)所示:
Figure GDA0003452076340000049
其中,Ri,joint表示智能体i收到的联合收益,Ri表示智能体收到的本地回报值,Ni是智能体i的邻居智能体列表,j代表某一个邻居智能体,|dij|代表智能体i和j之间的距离,Rj代表智能体j的本地收益;各智能体的本地回报值R是所有管控路口回报的累积和,若路口车流相较于步2.4增加记+1,其他情况记0。
进一步地、所述步骤3包括以下步骤:
步骤3.1:设置CGB-MAQL算法中的智能体模型训练参数;设置一共轮数为E,每一轮的步数上限为5000步,记录每一步为t;其中,为了贴合交通管控实际情况,设置管控间隔为T=20sec;设置智能体关键学习参数探索率为ε,探索率衰减因子εdecay
步骤3.2:初始化算法输入;在场景中选取位置,完成RSU和MEC的部署;记录智能体i的位置(lati,longi);
步骤3.3:初始化智能体邻居列表信息;根据k近邻算法,基于位置距离特征根据给定k值获取智能体i邻居智能体列表
Figure GDA0003452076340000051
其中k≠i;
步骤3.4:根据上述信息初始化智能体结构;根据预设的RSU通信范围,初始化智能体i控制范围内的信号灯列表TLi=[tl0,tl1,...,tln];
步骤3.5:对于智能体i,初始化Q值网络,初始化智能体记忆列表Memoryi以及超参数|B|等;
步骤3.6:记录当前轮的步数t;当t%T==0时,RSU根据TLi中的路口信息进行道路信息收集,包括道路形状和停车数量,并汇总给MEC;
步骤3.7:智能体i基于ε-greedy策略进行动作选择,如公式(5)所示:
Figure GDA0003452076340000052
其中,Q(s,a)代表状态动作对儿价值,π(a|s)代表在状态s处选择动作a的概率;
步骤3.8:MEC对接收到的所有智能体的信息进行汇总,并根据信息素公式(3)对各个路口进行信息素的计算和排序,形成局部状态
Figure GDA0003452076340000053
步骤3.9:MEC处同时接收的所有智能体的局部状态最终将汇总成
Figure GDA0003452076340000054
发送给智能体i,该状态将作为智能体i网络更新的输入;
步骤3.10:在动作执行结束后,MEC汇集各RSU的局部回报,得到联合回报Ri,joint
步骤3.11:将(s,s',a,r,done)记录在Memoryi中;如果done为TRUE,则此轮训练结束;若为False,训练继续;其中,done为一轮训练是否结束的标志,初始值为False,若训练过程中出发中止条件则done为True;
步骤3.12:当Memoryi长度大于超参数|B|,根据梯度反向传播方式迭代参数;
步骤3.13:根据衰减因子εdecay,更新探索率ε,开始下一轮探索;
步骤3.14:所有训练结束,CGB-MAQL算法收敛,输出各智能体模型参数。
进一步地、所述步骤4包括以下步骤:
步骤4.1:结合实际场景路口车流情况,通过观察路口车辆到达特点,选取合适的路口车辆阈值θ;
步骤4.2:当路口停止等待的车辆数目大于等于阈值θ时中止对当前轮策略的学习,并自主开始新一轮行为策略的学习,由此形成启发式学习机制;
步骤4.3:基于多线程的启发式多智能体并行学习机制CGB-MAQL算法;其中,在KT时刻,智能体经验池中样本数量达到超参数批处理大小|B|,模型开始基于经验回放机制进行训练;
步骤4.4:将迭代完成的模型参数信息保存为.h5模型文件,所有智能体模型训练结束。
本发明有益效果
本发明用于优化路网范围内所有路口的信号灯控制策略,该模型为智能体规模扩展导致的空间维度爆炸提供了一个高效的解决方案,支持其他强化学习算法的拓展,且在大规模异构路网环境中具有较好的有效性和可拓展性。
附图说明
图1为本发明CGB-MATSC模型和基于团图的多智能体协同架构模型;其中(a)为曼哈顿路网结果,(b)为MEC-RSU部署,(c)为基于KNN的RSUO的邻居智能体,k=3;
图2为本发明基于道路信息素的区域绿波控制模式流程图;
图3为本发明多线程下采用启发式训练机制的CGB-MAQL算法示意图。
具体实施方式
下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例;基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种车联网环境下基于多智能体深度强化学习的信号灯自适应控制方法,所述方法具体包括以下步骤:
步骤1:根据大规模路网中车联网通信架构,搭建由边缘计算服务器MEC、路边控制单元Roadside Unit,RSU以及路口信号控制装置构成的层级通信架构,确定基于深度强化学习的智能体结构;所述路口信号控制装置为信号灯或其它可以实现信号控制的装置;
步骤2:搭建协作的基于深度强化学习的多路口信号控制模型CGB-MATSC,根据步骤1中的智能体结构,提出了基于K近邻的K-Nearest Neighbor,KNN联合状态表达方式,基于道路信息素的区域绿波控制模式以及基于空间折扣因子的联合回报设计模式;
步骤3:根据步骤2中的模型,对Deep Q-learning,DQN进行结合,得到了CGB-MAQL算法,来提高路网整体通行效率,且在场景拓展的情况下具有优秀的可拓展性,优化拥塞和环保指标;
步骤4:提出基于多线程的启发式学习机制,加速步骤3中的算法在异构路网环境中的收敛,加速智能体进行有效学习。
所述步骤1包括以下步骤:
步骤1.1:根据选定城市路网结构,部署MEC边缘计算服务器位置,确定与MEC相连接的4只RSU的位置与RSU通信范围,所述4只RSU连接于同一MEC;
步骤1.2:确定选定场景中的交叉口控制类型,获取所有信号灯控制的交叉口信号灯的ID信息、位置信息、预置相位信息和各个相位对应的控制车道信息;所述信息数据均在SUMO路网.xml文档中获取;
步骤1.3:确定基于深度强化学习的RSU智能体的结构,完成大规模路网中智能体的部署和控制范围划分;根据信号灯所在位置及各RSU通信范围,确定RSU和信号灯控制路口的所属关系;根据各个RSU所处位置的不同以及包含异构路口数量的不同,分别构成基于深度强化学习的智能体结构,智能体列表为listagent=[agent0,agent1,agent2,agent3],其中智能体agenti的结构由其控制范围内的信号灯信息描述,即信号灯列表TLi为:
TLi=[tl0,tl1,...,tlm];
步骤1.4:搭建基于车路协同的三层层级通信结构:MEC-RSU-TL,并确定通信对象之间的通信方式与通信内容;其中架构底层的路口信号控制装置以有线或无线通信的方式,将自身ID、位置和预置相位信息传递给RSU智能体;
步骤1.5:道路车辆实时更新自身的速度和位置信息,并以V2X无线通信方式告知位于层级通信架构中间层的RSU;
步骤1.6:层级通信架构中间层的RSU主要功能为:a)确定自身控制范围内的信号灯列表TLi及其控制车道和预设相序信息phaset=[p0,p1,...,pl],其中l代表信号灯tlt的预置相位列表;b)收集车辆信息并根据速度计算每个方向道路停车数目;c)收集信号灯的当前阶段相位信息;
步骤1.7:层级通信架构顶层的MEC会根据各个RSU发送来的信息,完成:a)根据车道的道路信息计算实时道路信息素;b)为每个信号灯控制车道的信息素排序,并找出相应的绿波相序;c)计算场景中所有路口的交通流信息;
步骤1.8:MEC和RSU通信告知其控制范围内的信号灯的绿波相位;绿波相位的获取步骤如下:以三向信号灯tlt为例,其预置相位列表为phaset=[p0,p1,...,pl],其中p0="ggggrrrryyyy",每个字母代表一个相应的道路通行方向的对应相位切片,则"gggg"代表对一条包含四个通行方向的道路的信号管控状态描述;在该道路的信息素排放水平高于其他两个道路时,设置p0为该交叉口信号灯相位,实现对该交叉口的基于道路信息素水平的绿波控制;
步骤1.9:RSU和路口信号控制装置通信告知各个路口绿波相位。
所述步骤2包括以下步骤:
步骤2.1:在所述CGB-MATSC模型中,根据场景中各个智能体的位置信息,以距离为特征空间,根据设置的k值,基于KNN算法确定每个智能体的邻居列表;
步骤2.2:根据道路等待车辆数目设定3个拥塞等级,即{0,1,2};0代表路口畅通,1代表中等拥塞,2代表严重拥挤情况;x的离散化详细如式(1)所示;其中阈值的选取是基于实际场景车辆数目其中Nwaiting;设定实际场景车辆数目最小值δ0为5,实际场景车辆数目最大值δ1为10;
Figure GDA0003452076340000081
步骤2.3:以智能体i为例,根据邻居列表,形成基于K近邻的联合状态Mi如下,其中k是智能体i的邻居个数:
Figure GDA0003452076340000091
其中,sk为第k只智能体的本地状态信息;
xk为第k只智能体的控制范围内的平均拥塞离散程度。xk取值[0,1,2,3];
Figure GDA0003452076340000092
为第k只智能体的控制范围内最拥挤的路口
Figure GDA0003452076340000093
及其拥塞离散水平
Figure GDA0003452076340000094
Figure GDA0003452076340000095
为第k只智能体的控制范围内次拥挤的路口
Figure GDA0003452076340000096
及其拥塞离散水平
Figure GDA0003452076340000097
ak为智能体k上一轮的行为决策;
步骤2.3:在所述CGB-MATSC模型中,智能体动作空间大小为2,即包含两个管控模式,Action={a0,a1};其中a0代表基于道路信息素的区域绿波控制模式,a1代表预置的固定配时模式;
步骤2.4:智能体在当前状态下选择a0,则按基于道路信息素的区域绿波控制模式流程图进行绿波控制,其中Step代表当前时间步,Tend代表一轮总时间步上限值;设当前动作为a1,则控制范围内所有路口均按预置相位序列进行轮换;其中,道路信息素的定义如下。
Figure GDA0003452076340000098
其中,Nvehicle代表道路实时车辆数目、Ledge代表道路长度、Nlane代表道路数目,Ledge×Nlane表示了道路容量信息;
步骤2.5:在所提CGB-MATSC模型中,设计了基于空间距离折扣因子的联合收益,如公式(4)所示:
Figure GDA0003452076340000099
其中,Ri,joint表示智能体i收到的联合收益,Ri表示智能体收到的本地回报值,Ni是智能体i的邻居智能体列表,j代表某一个邻居智能体,|dij|代表智能体i和j之间的距离,Rj代表智能体j的本地收益;各智能体的本地回报值R是所有管控路口回报的累积和,若路口车流相较于步2.4增加记+1,其他情况记0。
所述步骤3包括以下步骤:
步骤3.1:设置CGB-MAQL算法中的智能体模型训练参数;设置一共轮数为E,每一轮的步数上限为5000步,记录每一步为t;其中,为了贴合交通管控实际情况,设置管控间隔为T=20sec;设置智能体关键学习参数探索率为ε,探索率衰减因子εdecay
步骤3.2:初始化算法输入;在场景中选取位置,完成RSU和MEC的部署;记录智能体i的位置(lati,longi);
步骤3.3:初始化智能体邻居列表信息;根据k近邻算法,基于位置距离特征根据给定k值获取智能体i邻居智能体列表
Figure GDA0003452076340000101
其中k≠i;
步骤3.4:根据上述信息初始化智能体结构;根据预设的RSU通信范围,初始化智能体i控制范围内的信号灯列表TLi=[tl0,tl1,...,tln];
步骤3.5:对于智能体i,初始化Q值网络,初始化智能体记忆列表Memoryi以及超参数|B|等;
步骤3.6:记录当前轮的步数t;当t%T==0时,RSU根据TLi中的路口信息进行道路信息收集,包括道路形状和停车数量,并汇总给MEC;
步骤3.7:智能体i基于ε-greedy策略进行动作选择,如公式(5)所示:
Figure GDA0003452076340000102
其中,Q(s,a)代表状态动作对儿价值,π(a|s)代表在状态s处选择动作a的概率;
步骤3.8:MEC对接收到的所有智能体的信息进行汇总,并根据信息素公式(3)对各个路口进行信息素的计算和排序,形成局部状态
Figure GDA0003452076340000103
步骤3.9:MEC处同时接收的所有智能体的局部状态最终将汇总成
Figure GDA0003452076340000104
发送给智能体i,该状态将作为智能体i网络更新的输入;
步骤3.10:在动作执行结束后,MEC汇集各RSU的局部回报,得到联合回报Ri,joint
步骤3.11:将(s,s',a,r,done)记录在Memoryi中;如果done为TRUE,则此轮训练结束;若为False,训练继续;其中,done为一轮训练是否结束的标志,初始值为False,若训练过程中出发中止条件则done为True;
步骤3.12:当Memoryi长度大于超参数|B|,根据梯度反向传播方式迭代参数;
步骤3.13:根据衰减因子εdecay,更新探索率ε,开始下一轮探索;
步骤3.14:所有训练结束,CGB-MAQL算法收敛,输出各智能体模型参数。
所述步骤4包括以下步骤:
步骤4.1:结合实际场景路口车流情况,通过观察路口车辆到达特点,选取合适的路口车辆阈值θ;
步骤4.2:当路口停止等待的车辆数目大于等于阈值θ时中止对当前轮策略的学习,并自主开始新一轮行为策略的学习,由此形成启发式学习机制;
步骤4.3:基于多线程的启发式多智能体并行学习机制CGB-MAQL算法;其中,在KT时刻,智能体经验池中样本数量达到超参数批处理大小|B|,模型开始基于经验回放机制进行训练;
步骤4.4:将迭代完成的模型参数信息保存为.h5模型文件,所有智能体模型训练结束。
以上对本发明所提出的一种车联网环境下基于多智能体深度强化学习的信号灯自适应控制方法,进行了详细介绍,本文中应用了数值模拟算例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (1)

1.一种车联网环境下基于多智能体深度强化学习的信号灯自适应控制方法,其特征在于:所述方法具体包括以下步骤:
步骤1:根据大规模路网中车联网通信架构,搭建由边缘计算服务器MEC、路边控制单元Roadside Unit,RSU以及路口信号控制装置构成的层级通信架构,确定基于深度强化学习的智能体结构;所述路口信号控制装置为信号灯或其它可以实现信号控制的装置;
步骤1.1:根据选定城市路网结构,部署MEC边缘计算服务器位置,确定与MEC相连接的4只RSU的位置与RSU通信范围,所述4只RSU连接于同一MEC;
步骤1.2:确定选定场景中的交叉口控制类型,获取所有信号灯控制的交叉口信号灯的ID信息、位置信息、预置相位信息和各个相位对应的控制车道信息;所述信息数据均在SUMO路网.xml文档中获取;
步骤1.3:确定基于深度强化学习的RSU智能体的结构,完成大规模路网中智能体的部署和控制范围划分;根据信号灯所在位置及各RSU通信范围,确定RSU和信号灯控制路口的所属关系;根据各个RSU所处位置的不同以及包含异构路口数量的不同,分别构成基于深度强化学习的智能体结构,智能体列表为listagent=[agent0,agent1,agent2,agent3],其中智能体agenti的结构由其控制范围内的信号灯信息描述,即信号灯列表TLi为:
TLi=[tl0,tl1,...,tlm];
步骤1.4:搭建基于车路协同的三层层级通信结构:MEC-RSU-TL,并确定通信对象之间的通信方式与通信内容;其中架构底层的路口信号控制装置以有线或无线通信的方式,将自身ID、位置和预置相位信息传递给RSU智能体;
步骤1.5:道路车辆实时更新自身的速度和位置信息,并以V2X无线通信方式告知位于层级通信架构中间层的RSU;
步骤1.6:层级通信架构中间层的RSU主要功能为:a)确定自身控制范围内的信号灯列表TLi及其控制车道和预置相位列表phaset=[p0,p1,...,pl],其中l代表信号灯tlt的预置相位列表;b)收集车辆信息并根据速度计算每个方向道路停车数目;c)收集信号灯的当前阶段相位信息;
步骤1.7:层级通信架构顶层的MEC会根据各个RSU发送来的信息,完成:a)根据车道的道路信息计算实时道路信息素;b)为每个信号灯控制车道的信息素排序,并找出相应的绿波相序;c)计算场景中所有路口的交通流信息;
步骤1.8:MEC和RSU通信告知其控制范围内的信号灯的绿波相位;绿波相位的获取步骤如下:以三向信号灯tlt为例,其预置相位列表为phaset=[p0,p1,...,pl],其中p0="ggggrrrryyyy",每个字母代表一个相应的道路通行方向的对应相位切片,则"gggg"代表对一条包含四个通行方向的道路的信号管控状态描述;在该道路的信息素排放水平高于其他两个道路时,设置p0为该交叉口信号灯相位,实现对该交叉口的基于道路信息素水平的绿波控制;
步骤1.9:RSU和路口信号控制装置通信告知各个路口绿波相位;
步骤2:搭建协作的基于深度强化学习的多路口信号控制模型CGB-MATSC,根据步骤1中的智能体结构,构建基于K近邻的K-Nearest Neighbor联合状态表达方式,基于道路信息素的区域绿波控制模式以及基于空间折扣因子的联合回报设计模式;
步骤2.1:在所述CGB-MATSC模型中,根据场景中各个智能体的位置信息,以距离为特征空间,根据设置的k值,基于KNN算法确定每个智能体的邻居列表;
步骤2.2:根据道路等待车辆数目设定3个拥塞等级,即{0,1,2};0代表路口畅通,1代表中等拥塞,2代表严重拥挤情况;x的离散化详细如式(1)所示;其中阈值的选取是基于实际场景车辆数目其中Nwaiting;设定实际场景车辆数目最小值δ0为5,实际场景车辆数目最大值δ1为10;
Figure FDA0003678608840000021
步骤2.3:以智能体i为例,根据邻居列表,形成基于K近邻的联合状态Mi如下,其中k是智能体i的邻居个数:
Figure FDA0003678608840000022
其中,sk为第k只智能体的本地状态信息;
xk为第k只智能体的控制范围内的平均拥塞离散程度,xk取值[0,1,2,3];
Figure FDA0003678608840000023
为第k只智能体的控制范围内最拥挤的路口
Figure FDA0003678608840000024
及其拥塞离散水平
Figure FDA0003678608840000025
Figure FDA0003678608840000031
为第k只智能体的控制范围内次拥挤的路口
Figure FDA0003678608840000032
及其拥塞离散水平
Figure FDA0003678608840000033
ak为智能体k上一轮的行为决策;
步骤2.3:在所述CGB-MATSC模型中,智能体动作空间大小为2,即包含两个管控模式,Action={a0,a1};其中a0代表基于道路信息素的区域绿波控制模式,a1代表预置的固定配时模式;
步骤2.4:智能体在当前状态下选择a0,则按基于道路信息素的区域绿波控制模式流程图进行绿波控制,其中Step代表当前时间步,Tend代表一轮总时间步上限值;设当前动作为a1,则控制范围内所有路口均按预置相位序列进行轮换;其中,道路信息素的定义如下;
Figure FDA0003678608840000034
其中,Nvehicle代表道路实时车辆数目、Ledge代表道路长度、Nlane代表道路数目,Ledge×Nlane表示了道路容量信息;
步骤2.5:在所提CGB-MATSC模型中,设计了基于空间距离折扣因子的联合收益,如公式(4)所示:
Figure FDA0003678608840000035
其中,Ri,joint表示智能体i收到的联合收益,Ri表示智能体收到的本地回报值,Ni是智能体i的邻居智能体列表,j代表某一个邻居智能体,|dij|代表智能体i和j之间的距离,Rj代表智能体j的本地收益;各智能体的本地回报值R是所有管控路口回报的累积和,若路口车流相较于步2.4增加记+1,其他情况记0;
步骤3:根据步骤2中的模型,利用Deep Q-learning,构建CGB-MAQL算法;
步骤3.1:设置CGB-MAQL算法中的智能体模型训练参数;设置一共轮数为E,每一轮的步数上限为5000步,记录每一步为t;其中,为了贴合交通管控实际情况,设置管控间隔为T=20sec;设置智能体关键学习参数探索率为ε,探索率衰减因子εdecay
步骤3.2:初始化算法输入;在场景中选取位置,完成RSU和MEC的部署;记录智能体i的位置(lati,longi);
步骤3.3:初始化智能体邻居列表信息;根据k近邻算法,基于位置距离特征根据给定k值获取智能体i邻居智能体列表
Figure FDA0003678608840000041
其中k≠i;
步骤3.4:根据上述信息初始化智能体结构;根据预设的RSU通信范围,初始化智能体i控制范围内的信号灯列表TLi=[tl0,tl1,...,tln];
步骤3.5:对于智能体i,初始化Q值网络,初始化智能体记忆列表Memoryi以及超参数|B|;
步骤3.6:记录当前轮的步数t;当t%T==0时,RSU根据TLi中的路口信息进行道路信息收集,包括道路形状和停车数量,并汇总给MEC;
步骤3.7:智能体i基于ε-greedy策略进行动作选择,如公式(5)所示:
Figure FDA0003678608840000042
其中,Q(s,a)代表状态动作对儿价值,π(a|s)代表在状态s处选择动作a的概率;
步骤3.8:MEC对接收到的所有智能体的信息进行汇总,并根据信息素公式(3)对各个路口进行信息素的计算和排序,形成局部状态
Figure FDA0003678608840000043
步骤3.9:MEC处同时接收的所有智能体的局部状态最终将汇总成
Figure FDA0003678608840000044
发送给智能体i,该状态将作为智能体i网络更新的输入;
步骤3.10:在动作执行结束后,MEC汇集各RSU的局部回报,得到联合回报Ri,joint
步骤3.11:将(s,s',a,r,done)记录在Memoryi中;如果done为TRUE,则此轮训练结束;若为False,训练继续;其中,done为一轮训练是否结束的标志,初始值为False,若训练过程中出发中止条件则done为True;
步骤3.12:当Memoryi长度大于超参数|B|,根据梯度反向传播方式迭代参数;
步骤3.13:根据衰减因子εdecay,更新探索率ε,开始下一轮探索;
步骤3.14:所有训练结束,CGB-MAQL算法收敛,输出各智能体模型参数;
步骤4:利用基于多线程的启发式学习机制,加速步骤3中的算法在异构路网环境中的收敛;
步骤4.1:结合实际场景路口车流情况,通过观察路口车辆到达特点,选取合适的路口车辆阈值θ;
步骤4.2:当路口停止等待的车辆数目大于等于阈值θ时中止对当前轮策略的学习,并自主开始新一轮行为策略的学习,由此形成启发式学习机制;
步骤4.3:基于多线程的启发式多智能体并行学习机制CGB-MAQL算法;其中,在KT时刻,智能体经验池中样本数量达到超参数批处理大小|B|,模型开始基于经验回放机制进行训练;
步骤4.4:将迭代完成的模型参数信息保存为.h5模型文件,所有智能体模型训练结束。
CN202110119357.1A 2021-01-28 2021-01-28 一种车联网环境下基于多智能体深度强化学习的信号灯自适应控制方法 Active CN112927505B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110119357.1A CN112927505B (zh) 2021-01-28 2021-01-28 一种车联网环境下基于多智能体深度强化学习的信号灯自适应控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110119357.1A CN112927505B (zh) 2021-01-28 2021-01-28 一种车联网环境下基于多智能体深度强化学习的信号灯自适应控制方法

Publications (2)

Publication Number Publication Date
CN112927505A CN112927505A (zh) 2021-06-08
CN112927505B true CN112927505B (zh) 2022-08-02

Family

ID=76168898

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110119357.1A Active CN112927505B (zh) 2021-01-28 2021-01-28 一种车联网环境下基于多智能体深度强化学习的信号灯自适应控制方法

Country Status (1)

Country Link
CN (1) CN112927505B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113643528A (zh) * 2021-07-01 2021-11-12 腾讯科技(深圳)有限公司 信号灯控制方法、模型训练方法、系统、装置及存储介质
CN114123178B (zh) * 2021-11-17 2023-12-19 哈尔滨工程大学 一种基于多智能体强化学习的智能电网分区网络重构方法
CN116994444B (zh) * 2023-09-26 2023-12-12 南京邮电大学 一种交通灯控制方法、系统及存储介质
CN117556864B (zh) * 2024-01-12 2024-04-16 阿里云计算有限公司 信息处理方法、电子设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106910351A (zh) * 2017-04-19 2017-06-30 大连理工大学 一种基于深度强化学习的交通信号自适应控制方法
CN107705557A (zh) * 2017-09-04 2018-02-16 清华大学 基于深度增强网络的路网信号控制方法及装置
CN109559530A (zh) * 2019-01-07 2019-04-02 大连理工大学 一种基于q值迁移深度强化学习的多交叉口信号灯协同控制方法
CN110032782A (zh) * 2019-03-29 2019-07-19 银江股份有限公司 一种城市级智能交通信号控制系统及方法
CN110264750A (zh) * 2019-06-14 2019-09-20 大连理工大学 一种基于多任务深度q网络的q值迁移的多交叉口信号灯协同控制方法
CN111243271A (zh) * 2020-01-11 2020-06-05 多伦科技股份有限公司 一种基于深度循环q学习的单点交叉口信号控制方法
CN111582469A (zh) * 2020-03-23 2020-08-25 成都信息工程大学 多智能体协作信息处理方法、系统、存储介质、智能终端
CN111696370A (zh) * 2020-06-16 2020-09-22 西安电子科技大学 基于启发式深度q网络的交通灯控制方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106910351A (zh) * 2017-04-19 2017-06-30 大连理工大学 一种基于深度强化学习的交通信号自适应控制方法
CN107705557A (zh) * 2017-09-04 2018-02-16 清华大学 基于深度增强网络的路网信号控制方法及装置
CN109559530A (zh) * 2019-01-07 2019-04-02 大连理工大学 一种基于q值迁移深度强化学习的多交叉口信号灯协同控制方法
CN110032782A (zh) * 2019-03-29 2019-07-19 银江股份有限公司 一种城市级智能交通信号控制系统及方法
CN110264750A (zh) * 2019-06-14 2019-09-20 大连理工大学 一种基于多任务深度q网络的q值迁移的多交叉口信号灯协同控制方法
CN111243271A (zh) * 2020-01-11 2020-06-05 多伦科技股份有限公司 一种基于深度循环q学习的单点交叉口信号控制方法
CN111582469A (zh) * 2020-03-23 2020-08-25 成都信息工程大学 多智能体协作信息处理方法、系统、存储介质、智能终端
CN111696370A (zh) * 2020-06-16 2020-09-22 西安电子科技大学 基于启发式深度q网络的交通灯控制方法

Also Published As

Publication number Publication date
CN112927505A (zh) 2021-06-08

Similar Documents

Publication Publication Date Title
CN112927505B (zh) 一种车联网环境下基于多智能体深度强化学习的信号灯自适应控制方法
CN111696370B (zh) 基于启发式深度q网络的交通灯控制方法
CN110264750B (zh) 一种基于多任务深度q网络的q值迁移的多交叉口信号灯协同控制方法
CN109215355A (zh) 一种基于深度强化学习的单点交叉口信号配时优化方法
CN111785045B (zh) 基于演员-评论家算法的分布式交通信号灯联合控制方法
CN107705557B (zh) 基于深度增强网络的路网信号控制方法及装置
US9818297B2 (en) Multi-agent reinforcement learning for integrated and networked adaptive traffic signal control
CN111845773B (zh) 基于强化学习的自动驾驶车辆微观决策方法
CN110345960B (zh) 一种规避交通障碍的路线规划智能优化方法
CN113223305B (zh) 基于强化学习的多路口交通灯控制方法、系统及存储介质
CN114815802A (zh) 一种基于改进蚁群算法的无人天车路径规划方法和系统
CN115713856B (zh) 一种基于交通流预测与实际路况的车辆路径规划方法
CN114463997A (zh) 一种无信号灯交叉路口车辆协同控制方法及系统
Tahifa et al. Swarm reinforcement learning for traffic signal control based on cooperative multi-agent framework
CN113299078A (zh) 一种基于多智能体协作的多模式交通干线信号协调控制方法及装置
CN115691167A (zh) 一种基于交叉口全息数据的单点交通信号控制方法
Lin et al. Scheduling eight-phase urban traffic light problems via ensemble meta-heuristics and Q-learning based local search
Miri et al. Improved routing vehicular ad-hoc networks (VANETs) based on mobility and bandwidth available criteria using fuzzy logic
CN115355922A (zh) 一种基于改进蚁群算法的出行路径规划方法及系统
CN105260551B (zh) 车联网中节点分布特性分析方法
CN113276852B (zh) 一种基于最大熵强化学习框架的无人驾驶车道保持方法
CN113724507A (zh) 基于深度强化学习的交通控制与车辆诱导协同方法和系统
Hu et al. Learning model parameters for decentralized schedule-driven traffic control
CN116895165A (zh) 智能网联车辆交叉口协调驾驶控制方法、系统和存储介质
CN117420824A (zh) 一种基于具有学习能力的智能蚁群算法的路径规划方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant