CN115688861B - 一种用于混合交通环境行为决策的模块化图强化学习系统 - Google Patents

一种用于混合交通环境行为决策的模块化图强化学习系统 Download PDF

Info

Publication number
CN115688861B
CN115688861B CN202211337217.2A CN202211337217A CN115688861B CN 115688861 B CN115688861 B CN 115688861B CN 202211337217 A CN202211337217 A CN 202211337217A CN 115688861 B CN115688861 B CN 115688861B
Authority
CN
China
Prior art keywords
graph
module
reinforcement learning
driving
vehicle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211337217.2A
Other languages
English (en)
Other versions
CN115688861A (zh
Inventor
李雪原
刘琦
李子睿
杨帆
高鑫
苑士华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN202211337217.2A priority Critical patent/CN115688861B/zh
Publication of CN115688861A publication Critical patent/CN115688861A/zh
Application granted granted Critical
Publication of CN115688861B publication Critical patent/CN115688861B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Traffic Control Systems (AREA)

Abstract

本发明涉及一种用于混合交通环境行为决策的模块化图强化学习系统,包括:混合交通环境模块:用于提供混合交通运行环境,并将环境状态发送至图表征模块;图表征模块:用于通过环境状态生成节点特征矩阵和邻接矩阵;图强化学习模块:用于接收节点特征矩阵和邻接矩阵,并进行处理,生成驾驶策略;合作驾驶行为模块:基于驾驶策略生成驾驶行为和控制指令,控制车辆运行。本发明系统可以根据需要对各个主要模块,即混合交通环境模块、图表征模块、图强化学习模块中的图神经网络单元和深度强化学习单元,以及合作驾驶行为模块,进行替换、改进和二次开发。

Description

一种用于混合交通环境行为决策的模块化图强化学习系统
技术领域
本发明涉及智能交通系统技术领域,特别是涉及一种用于混合交通环境行为决策的模块化图强化学习系统。
背景技术
智能网联车辆是混合交通环境的重要组成部分,混合交通环境同时包括人工驾驶车辆和智能网联车辆。在过渡到完全自动驾驶之前,自动驾驶的相关技术还不够成熟,还需要花费很长时间进行技术探索和优化。因此,设计相关决策算法保证智能网联车辆生成合理的驾驶行为,对提高混合交通环境的安全性和交通效率至关重要。智能网联车辆的驾驶行为的生成来源于行为决策系统,同时为混合交通环境内的多辆智能网联车辆同时生成驾驶行为,则需要依赖多智能体行为决策系统。因此,设计高效率、高智能化的智能网联车辆多智能体行为决策系统对于车辆在混合环境下的运行十分关键。
目前针对混合交通环境下,智能网联车辆的多智能体行为决策的研究集中于深度强化学习方法。深度强化学习方法的算法结构由深度神经网络和传统强化学习框架构成,通过获取智能网联车辆的特征并将其输入到神经网络中,以生成驾驶行为。但是深度强化学习方法难以保证生成合作性的驾驶行为,且难以处理复杂环境下的多智能体决策问题。这是由于驾驶行为的生成除了依赖所应用的算法本身以外,还会极大的受限于环境状态的表征。而深度强化学习方法只能单一地表征智能网联车辆所处驾驶环境的状态,不能表示车辆与车辆之间、车辆与环境之间的相互影响;因此难以保证智能网联车辆生成合作性驾驶行为。
有部分研究者将图相关技术与深度强化学习方法相结合,形成图强化学习方法,用来解决智能网联车辆的行为决策问题。这类方法的重点在于引入了图相关技术,具体包括图表征和图神经网络两部分。首先应用图表征表示智能网联车辆所处的驾驶环境并生成图特征,之后将图特征输入到图神经网络中,特征处理后输出至深度强化学习网络中生成驾驶行为。图强化学习的优势在于能够很好地建模驾驶环境,获取车辆之间的拓扑信息,全面表示车辆与车辆之间、车辆与环境之间的相互影响;从而更好地保证智能网联车辆合作性驾驶行为的生成。同时,图强化学习可以同时表示多智能体的状态,有助于多智能体行为决策系统的构建。但是,目前应用图强化学习的研究依旧存在如下问题:(1)研究数量少,难以为相关技术的研究人员提供参考;(2)验证的图强化学习方法以及混合交通环境单一,结果不具有很强的代表性,研究基础比较薄弱;(3)图像化学习方法的结构框架只能满足于在少数混合交通环境中的少数方法的研究和探索,通用性和可扩展性差。
发明内容
本发明的目的是提供一种用于混合交通环境行为决策的模块化图强化学习系统,解决智能网联车辆在混合交通环境下的多智能体行为决策问题,提高图强化学习方法的通用性、可扩展性和可二次开发性。
为实现上述目的,本发明提供了如下方案:
一种用于混合交通环境行为决策的模块化图强化学习系统,包括:
混合交通环境模块:用于提供混合交通运行环境,并将环境状态发送至图表征模块;
所述图表征模块:用于通过所述环境状态生成节点特征矩阵和邻接矩阵;
图强化学习模块:用于接收所述节点特征矩阵和所述邻接矩阵,并进行处理,生成驾驶策略;
合作驾驶行为模块:基于所述驾驶策略生成驾驶行为和控制指令,控制车辆运行。
优选地,所述混合交通环境模块包括:人工驾驶车辆单元和智能网联车辆单元,其中,所述人工驾驶车辆单元通过驾驶员控制进行操控,所述智能网联车辆单元通过行为决策指令控制。
优选地,所述图表征模块包括:
节点特征矩阵:用于记录混合交通中所有车辆的特征向量;
邻接矩阵:用于描述交互和相互影响的信息,所述交互和相互影响的信息包括车辆之间的交互、车辆与环境之间的交互。
优选地,所述图强化学习模块包括:
图神经网络单元:用于处理所述节点特征矩阵和所述邻接矩阵,生成处理后的图特征,并将所述图特征发送至深度强化学习单元;
深度强化学习单元:用于接收所述处理后的图特征进行计算,生成所述驾驶策略,并将所述驾驶策略传输到所述合作驾驶行为模块。
优选地,处理所述节点特征矩阵和所述邻接矩阵的方法为:
Gt=ΦGNN(St)=ΦGNN(Nt,At)
其中,Gt代表经由图神经网络处理过的特征,ΦGNN代表框架采用的图神经网络方法的算子,St代表由图表征生成的图特征,Nt代表节点特征矩阵,At代表邻接矩阵。
优选地,生成所述驾驶策略的方法为:
πt=ΦDRL(Gt)
其中,πt代表深度强化学习单元输出的驾驶策略,ΦDRL代表框架采用的深度强化学习单元的算子。
优选地,所述合作驾驶行为模块包括:
指令控制单元:用于通过低级控制指令控制车辆运行,所述低级控制指令包括横向/纵向车速控制、纵向加速度和角加速度控制指令;
驾驶行为控制单元:用于通过高级驾驶行为控制车辆运行,所述高级驾驶行为包括加速/减速、转向、换道/车道保持、紧急制动。
优选地,所述合作驾驶行为模块控制所述车辆运行的方法包括:
合作驾驶行为模块根据所述驾驶策略选择生成高级驾驶行为或者低级控制指令,并将驾驶行为输入给集中控制器控制智能网联车辆的运行,人工驾驶车辆则通过驾驶员控制运行。
优选地,所述系统还包括更新单元,所述更新单元用于通过奖励值指导所述图强化学习模块更新图神经网络单元的参数;其中,所述奖励值为智能网联车辆执行合作驾驶行为后所产生的效果。
本发明的有益效果为:
本发明系统可以根据需要对各个主要模块,即混合交通环境模块、图表征模块、图强化学习模块中的图神经网络单元和深度强化学习单元,以及合作驾驶行为模块,进行替换、改进和二次开发;
本发明相比常用的深度强化学习方法引入了图表征模块以及其所包含的节点特征矩阵和邻接矩阵、图神经网络单元,在解决智能网联车辆于混合交通环境下的多智能体行为决策问题方面相比深度强化学习方法效果更好。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中用于混合交通环境行为决策的模块化图强化学习系统整体示意图;
图2为本发明实施例中DoubleDQN算法在高速汇流场景下的实验曲线图;
图3为本发明实施例中REINFORCE算法在高速汇流场景下的实验曲线图;
图4为本发明实施例中A2C算法在高速汇流场景下的实验曲线图;
图5为本发明实施例中REINFORCE算法在环路场景下的实验曲线图;
图6为本发明实施例中AC算法在环路场景下的实验曲线图;
图7为本发明实施例中PPO算法在环路场景下的实验曲线图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1,一种用于混合交通环境行为决策的模块化图强化学习系统,包括:
混合交通环境模块:用于提供混合交通运行环境,并将环境状态发送至图表征模块;
图表征模块:用于通过所述环境状态生成节点特征矩阵和邻接矩阵;
图强化学习模块:用于接收所述节点特征矩阵和所述邻接矩阵,并进行处理,生成驾驶策略;
合作驾驶行为模块:基于所述驾驶策略生成驾驶行为和控制指令,控制车辆运行。
混合交通环境模块包括:人工驾驶车辆单元和智能网联车辆单元,其中,所述人工驾驶车辆单元用于通过驾驶员控制进行操控,智能网联车辆单元的行为决策指令由集中控制器执行。
图表征模块包括:
节点特征矩阵用来记录混合交通环境中每一辆车的特征向量。特征向量可根据需要自由调整其所包含的物理量,具体有车辆自身状态(车速、位置信息);其他道路参与者的信息(距离,驾驶意图,对其他参与者的行为预测);道路环境信息(交通灯、交通规则、道路拓扑)。
邻接矩阵用来描述交互和相互影响信息,可以表示车辆之间的交互(传感器范围、合作驾驶、拓扑关系),以及车辆与环境之间的交互(行人避让、障碍物规避、轨迹跟踪)。
图强化学习模块包括:
图神经网络单元:用于处理所述节点特征矩阵和所述邻接矩阵,生成处理后的图特征;
深度强化学习单元:用于接收所述处理后的图特征进行计算,生成所述驾驶策略。
图强化学习模块的整理计算流程可以通过如下两个步骤进行表示。首先图特征被输入至图神经网络单元中,具体如下式所示:
Gt=ΦGNN(St)=ΦGNN(Nt,At)
其中Gt代表经由图神经网络处理过的特征,ΦGNN代表框架采用的图神经网络方法的算子,St代表由图表征6生成的图特征,Nt代表节点特征矩阵,At代表邻接矩阵。
进一步的,深度强化学习单元接收处理的图特征,并生成驾驶策略,具体如下式所示:
πt=ΦDRL(Gt)
其中πt代表深度强化学习输出的驾驶策略,ΦDRL代表框架采用的深度强化学习方法的算子。
合作驾驶行为模块包括:
指令控制单元:用于通过低级控制指令控制车辆运行,所述低级控制指令包括横向/纵向车速控制、纵向加速度和角加速度控制指令;
驾驶行为控制单元:用于通过高级驾驶行为控制车辆运行,所述高级驾驶行为包括加速/减速、转向、换道/车道保持、紧急制动。
进一步优化方案,合作驾驶行为模块控制车辆运行的方法包括:
合作驾驶行为模块根据所述驾驶策略选择生成高级驾驶行为或者低级控制指令,并将驾驶行为输入给集中控制器控制智能网联车辆的运行,人工驾驶车辆则通过驾驶员控制运行。
进一步优化方案,所述系统还包括更新单元,所述更新单元用于通过奖励值指导所述图强化学习模块更新图神经网络单元的参数;其中,所述奖励值为智能网联车辆执行合作驾驶行为后所产生的效果。
混合交通环境在智能网联车辆,以及人工驾驶车辆执行当前时刻的动作指令之后,将奖励值(用来评估当前场景下,智能网联车辆4执行合作驾驶行为后,所产生的效果)传递给图强化学习,指导其更新神经网络的参数,以不断优化方法的效果。
系统的主要工作流程为,在某个时刻,混合交通环境将环境状态传递给图表征单元。图表征模块提取车辆的特征向量以及相互作用关系,生成节点特征矩阵和邻接矩阵。这些图特征首先被输入至图强化学习中的图神经网络单元进行进一步处理,生成处理过的特征输入至深度强化学习单元,并最终生成驾驶策略。不同的深度强化学习方法会生成不同类型的驾驶策略,合作驾驶行为根据驾驶策略选择生成高级驾驶行为或者低级控制指令,并将驾驶行为输入给集中控制器,以控制各个智能网联车辆的运行。而人工驾驶车辆由驾驶员控制进行控制,不需要通过程序框架的算法进行控制。
本发明提供了两个工作实例,以验证设计的图强化学习框架的可行性以及图强化学习方法相对于深度强化学习方法的优势。实例一,在混合交通环境中建立了高速汇流场景。图表征模块中的节点特征矩阵包括环境中每辆车的车速、位置和驾驶意图信息;邻接矩阵表示车辆之间的信息共享拓扑关系。图强化学习模块中的图神经网络采用图卷积网络算法(Graph Convolutional Networks,GCN),深度强化学习分别采用三种不同的方法:DoubleDQN、REINFORCE和A2C算法。合作驾驶行为生成高级驾驶行为中的换道指令,并输入给集中控制器以指导智能网联车辆4的换道行为。实例一的消融实验结果见图2、图3和图4。
实例二,在混合交通环境中建立了环路场景。图表征模块中的节点特征矩阵包括环境中每辆车的车速和位置信息;邻接矩阵表示车辆之间的信息共享拓扑关系。图强化学习模块中的图神经网络采用图卷积网络算法,深度强化学习分别采用三种不同的方法:REINFORCE、AC和PPO算法。合作驾驶行为模块生成低级驾驶行为中的纵向加速度指令,并输入给集中控制器以指导智能网联车辆的纵向驾驶。实例二的消融实验结果见图5、图6和图7。
以上所述的实施例仅是对本发明优选方式进行的描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。

Claims (4)

1.一种用于混合交通环境行为决策的模块化图强化学习系统,其特征在于,包括:
混合交通环境模块:用于提供混合交通运行环境,并将环境状态发送至图表征模块;
所述图表征模块:用于通过所述环境状态生成节点特征矩阵和邻接矩阵;
所述图表征模块包括:
节点特征矩阵:用于记录混合交通中所有车辆的特征向量;
邻接矩阵:用于描述交互和相互影响的信息,所述交互和相互影响的信息包括车辆之间的交互、车辆与环境之间的交互;
图强化学习模块:用于接收所述节点特征矩阵和所述邻接矩阵,并进行处理,生成驾驶策略;
所述图强化学习模块包括:
图神经网络单元:用于处理所述节点特征矩阵和所述邻接矩阵,生成处理后的图特征,并将所述图特征发送至深度强化学习单元;
深度强化学习单元:用于接收所述处理后的图特征进行计算,生成所述驾驶策略,并将所述驾驶策略传输到合作驾驶行为模块;
处理所述节点特征矩阵和所述邻接矩阵的方法为:
其中,代表经由图神经网络处理过的特征,/>代表框架采用的图神经网络方法的算子,/>代表由图表征生成的图特征,/>代表节点特征矩阵,/>代表邻接矩阵;
生成所述驾驶策略的方法为:
其中,代表深度强化学习单元输出的驾驶策略,/>代表框架采用的深度强化学习单元的算子;
合作驾驶行为模块:基于所述驾驶策略生成驾驶行为和控制指令,控制车辆运行;
所述合作驾驶行为模块包括:
指令控制单元:用于通过低级控制指令控制车辆运行,所述低级控制指令包括横向/纵向车速控制、纵向加速度和角加速度控制指令;驾驶行为控制单元:用于通过高级驾驶行为控制车辆运行,所述高级驾驶行为包括加速/减速、转向、换道/车道保持、紧急制动。
2.根据权利要求1所述的用于混合交通环境行为决策的模块化图强化学习系统,其特征在于,所述混合交通环境模块包括:人工驾驶车辆单元和智能网联车辆单元,其中,所述人工驾驶车辆单元通过驾驶员控制进行操控,所述智能网联车辆单元通过行为决策指令控制。
3.根据权利要求1所述的用于混合交通环境行为决策的模块化图强化学习系统,其特征在于,所述合作驾驶行为模块控制所述车辆运行的方法包括:
合作驾驶行为模块根据所述驾驶策略选择生成高级驾驶行为或者低级控制指令,并将驾驶行为输入给集中控制器控制智能网联车辆的运行,人工驾驶车辆则通过驾驶员控制运行。
4.根据权利要求1所述的用于混合交通环境行为决策的模块化图强化学习系统,其特征在于,所述系统还包括更新单元,所述更新单元用于通过奖励值指导所述图强化学习模块更新图神经网络单元的参数;其中,所述奖励值为智能网联车辆执行合作驾驶行为后所产生的效果。
CN202211337217.2A 2022-10-28 2022-10-28 一种用于混合交通环境行为决策的模块化图强化学习系统 Active CN115688861B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211337217.2A CN115688861B (zh) 2022-10-28 2022-10-28 一种用于混合交通环境行为决策的模块化图强化学习系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211337217.2A CN115688861B (zh) 2022-10-28 2022-10-28 一种用于混合交通环境行为决策的模块化图强化学习系统

Publications (2)

Publication Number Publication Date
CN115688861A CN115688861A (zh) 2023-02-03
CN115688861B true CN115688861B (zh) 2023-08-01

Family

ID=85045947

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211337217.2A Active CN115688861B (zh) 2022-10-28 2022-10-28 一种用于混合交通环境行为决策的模块化图强化学习系统

Country Status (1)

Country Link
CN (1) CN115688861B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111222630A (zh) * 2020-01-17 2020-06-02 北京工业大学 一种基于深度强化学习的自主驾驶规则学习方法
CN114267191A (zh) * 2021-12-10 2022-04-01 北京理工大学 缓解交通拥堵驾驶员控制系统、方法、介质、设备及应用
CN114913495A (zh) * 2022-05-06 2022-08-16 北京交通大学 基于协作图融合的协同目标检测方法及系统
CN115009291A (zh) * 2022-05-23 2022-09-06 暨南大学 基于网络演化重放缓冲区的自动驾驶辅助决策方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210383228A1 (en) * 2020-06-05 2021-12-09 Deepmind Technologies Limited Generating prediction outputs using dynamic graphs

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111222630A (zh) * 2020-01-17 2020-06-02 北京工业大学 一种基于深度强化学习的自主驾驶规则学习方法
CN114267191A (zh) * 2021-12-10 2022-04-01 北京理工大学 缓解交通拥堵驾驶员控制系统、方法、介质、设备及应用
CN114913495A (zh) * 2022-05-06 2022-08-16 北京交通大学 基于协作图融合的协同目标检测方法及系统
CN115009291A (zh) * 2022-05-23 2022-09-06 暨南大学 基于网络演化重放缓冲区的自动驾驶辅助决策方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于演化模式挖掘和代价敏感学习的交通拥堵指数预测;张翔宇等;高技术通讯;第30卷(第9期);918-927 *

Also Published As

Publication number Publication date
CN115688861A (zh) 2023-02-03

Similar Documents

Publication Publication Date Title
Huang et al. A novel local motion planning framework for autonomous vehicles based on resistance network and model predictive control
Zhang et al. Query-efficient imitation learning for end-to-end simulated driving
CN111898211B (zh) 基于深度强化学习的智能车速度决策方法及其仿真方法
CN110969848A (zh) 一种对向双车道下基于强化学习的自动驾驶超车决策方法
CN111267831A (zh) 一种混合动力车辆智能变时域模型预测能量管理方法
Schwesinger et al. A sampling-based partial motion planning framework for system-compliant navigation along a reference path
CN114013443B (zh) 一种基于分层强化学习的自动驾驶车辆换道决策控制方法
CN112183288B (zh) 一种基于模型的多智能体强化学习方法
Hu et al. Plug and play distributed model predictive control for heavy duty vehicle platooning and interaction with passenger vehicles
CN113511222A (zh) 场景自适应式车辆交互行为决策与预测方法及装置
CN113581182A (zh) 基于强化学习的自动驾驶车辆换道轨迹规划方法及系统
Graves et al. Perception as prediction using general value functions in autonomous driving applications
Liu et al. Autonomous highway merging in mixed traffic using reinforcement learning and motion predictive safety controller
Tang et al. Integrated decision making and planning framework for autonomous vehicle considering uncertain prediction of surrounding vehicles
CN115688861B (zh) 一种用于混合交通环境行为决策的模块化图强化学习系统
Jiang et al. Path tracking control based on Deep reinforcement learning in Autonomous driving
CN117007066A (zh) 多规划算法集成的无人驾驶轨迹规划方法及相关装置
CN116534011A (zh) 一种基于课程强化学习的单车换道汇入车队控制方法
Mokhtari et al. Pedestrian collision avoidance for autonomous vehicles at unsignalized intersection using deep q-network
CN115719478A (zh) 一种独立于无关信息的加速强化学习的端到端自动驾驶方法
Hou et al. Hybrid residual multiexpert reinforcement learning for spatial scheduling of high-density parking lots
CN112590792B (zh) 一种基于深度强化学习算法的车辆汇合控制方法
Chen et al. Decision making for overtaking of unmanned vehicle based on deep Q-learning
Zhang et al. A robust control scheme for autonomous vehicles path tracking under unreliable communication
Sreenivasamurthy et al. Towards biologically inspired decentralized platooning for autonomous vehicles

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant