CN115688861B

CN115688861B - 一种用于混合交通环境行为决策的模块化图强化学习系统

Info

Publication number: CN115688861B
Application number: CN202211337217.2A
Authority: CN
Inventors: 李雪原; 刘琦; 李子睿; 杨帆; 高鑫; 苑士华
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2022-10-28
Filing date: 2022-10-28
Publication date: 2023-08-01
Anticipated expiration: 2042-10-28
Also published as: CN115688861A

Abstract

本发明涉及一种用于混合交通环境行为决策的模块化图强化学习系统，包括：混合交通环境模块：用于提供混合交通运行环境，并将环境状态发送至图表征模块；图表征模块：用于通过环境状态生成节点特征矩阵和邻接矩阵；图强化学习模块：用于接收节点特征矩阵和邻接矩阵，并进行处理，生成驾驶策略；合作驾驶行为模块：基于驾驶策略生成驾驶行为和控制指令，控制车辆运行。本发明系统可以根据需要对各个主要模块，即混合交通环境模块、图表征模块、图强化学习模块中的图神经网络单元和深度强化学习单元，以及合作驾驶行为模块，进行替换、改进和二次开发。

Description

一种用于混合交通环境行为决策的模块化图强化学习系统

技术领域

本发明涉及智能交通系统技术领域，特别是涉及一种用于混合交通环境行为决策的模块化图强化学习系统。

背景技术

智能网联车辆是混合交通环境的重要组成部分，混合交通环境同时包括人工驾驶车辆和智能网联车辆。在过渡到完全自动驾驶之前，自动驾驶的相关技术还不够成熟，还需要花费很长时间进行技术探索和优化。因此，设计相关决策算法保证智能网联车辆生成合理的驾驶行为，对提高混合交通环境的安全性和交通效率至关重要。智能网联车辆的驾驶行为的生成来源于行为决策系统，同时为混合交通环境内的多辆智能网联车辆同时生成驾驶行为，则需要依赖多智能体行为决策系统。因此，设计高效率、高智能化的智能网联车辆多智能体行为决策系统对于车辆在混合环境下的运行十分关键。

目前针对混合交通环境下，智能网联车辆的多智能体行为决策的研究集中于深度强化学习方法。深度强化学习方法的算法结构由深度神经网络和传统强化学习框架构成，通过获取智能网联车辆的特征并将其输入到神经网络中，以生成驾驶行为。但是深度强化学习方法难以保证生成合作性的驾驶行为，且难以处理复杂环境下的多智能体决策问题。这是由于驾驶行为的生成除了依赖所应用的算法本身以外，还会极大的受限于环境状态的表征。而深度强化学习方法只能单一地表征智能网联车辆所处驾驶环境的状态，不能表示车辆与车辆之间、车辆与环境之间的相互影响；因此难以保证智能网联车辆生成合作性驾驶行为。

有部分研究者将图相关技术与深度强化学习方法相结合，形成图强化学习方法，用来解决智能网联车辆的行为决策问题。这类方法的重点在于引入了图相关技术，具体包括图表征和图神经网络两部分。首先应用图表征表示智能网联车辆所处的驾驶环境并生成图特征，之后将图特征输入到图神经网络中，特征处理后输出至深度强化学习网络中生成驾驶行为。图强化学习的优势在于能够很好地建模驾驶环境，获取车辆之间的拓扑信息，全面表示车辆与车辆之间、车辆与环境之间的相互影响；从而更好地保证智能网联车辆合作性驾驶行为的生成。同时，图强化学习可以同时表示多智能体的状态，有助于多智能体行为决策系统的构建。但是，目前应用图强化学习的研究依旧存在如下问题：(1)研究数量少，难以为相关技术的研究人员提供参考；(2)验证的图强化学习方法以及混合交通环境单一，结果不具有很强的代表性，研究基础比较薄弱；(3)图像化学习方法的结构框架只能满足于在少数混合交通环境中的少数方法的研究和探索，通用性和可扩展性差。

发明内容

本发明的目的是提供一种用于混合交通环境行为决策的模块化图强化学习系统，解决智能网联车辆在混合交通环境下的多智能体行为决策问题，提高图强化学习方法的通用性、可扩展性和可二次开发性。

为实现上述目的，本发明提供了如下方案：

一种用于混合交通环境行为决策的模块化图强化学习系统，包括：

混合交通环境模块：用于提供混合交通运行环境，并将环境状态发送至图表征模块；

所述图表征模块：用于通过所述环境状态生成节点特征矩阵和邻接矩阵；

图强化学习模块：用于接收所述节点特征矩阵和所述邻接矩阵，并进行处理，生成驾驶策略；

合作驾驶行为模块：基于所述驾驶策略生成驾驶行为和控制指令，控制车辆运行。

优选地，所述混合交通环境模块包括：人工驾驶车辆单元和智能网联车辆单元，其中，所述人工驾驶车辆单元通过驾驶员控制进行操控，所述智能网联车辆单元通过行为决策指令控制。

优选地，所述图表征模块包括：

节点特征矩阵：用于记录混合交通中所有车辆的特征向量；

邻接矩阵：用于描述交互和相互影响的信息，所述交互和相互影响的信息包括车辆之间的交互、车辆与环境之间的交互。

优选地，所述图强化学习模块包括：

图神经网络单元：用于处理所述节点特征矩阵和所述邻接矩阵，生成处理后的图特征，并将所述图特征发送至深度强化学习单元；

深度强化学习单元：用于接收所述处理后的图特征进行计算，生成所述驾驶策略，并将所述驾驶策略传输到所述合作驾驶行为模块。

优选地，处理所述节点特征矩阵和所述邻接矩阵的方法为：

G_t＝Φ_GNN(S_t)＝Φ_GNN(N_t,A_t)

其中，G_t代表经由图神经网络处理过的特征，Φ_GNN代表框架采用的图神经网络方法的算子，S_t代表由图表征生成的图特征，N_t代表节点特征矩阵，A_t代表邻接矩阵。

优选地，生成所述驾驶策略的方法为：

π_t＝Φ_DRL(G_t)

其中，π_t代表深度强化学习单元输出的驾驶策略，Φ_DRL代表框架采用的深度强化学习单元的算子。

优选地，所述合作驾驶行为模块包括：

指令控制单元：用于通过低级控制指令控制车辆运行，所述低级控制指令包括横向/纵向车速控制、纵向加速度和角加速度控制指令；

驾驶行为控制单元：用于通过高级驾驶行为控制车辆运行，所述高级驾驶行为包括加速/减速、转向、换道/车道保持、紧急制动。

优选地，所述合作驾驶行为模块控制所述车辆运行的方法包括：

合作驾驶行为模块根据所述驾驶策略选择生成高级驾驶行为或者低级控制指令，并将驾驶行为输入给集中控制器控制智能网联车辆的运行，人工驾驶车辆则通过驾驶员控制运行。

优选地，所述系统还包括更新单元，所述更新单元用于通过奖励值指导所述图强化学习模块更新图神经网络单元的参数；其中，所述奖励值为智能网联车辆执行合作驾驶行为后所产生的效果。

本发明的有益效果为：

本发明系统可以根据需要对各个主要模块，即混合交通环境模块、图表征模块、图强化学习模块中的图神经网络单元和深度强化学习单元，以及合作驾驶行为模块，进行替换、改进和二次开发；

本发明相比常用的深度强化学习方法引入了图表征模块以及其所包含的节点特征矩阵和邻接矩阵、图神经网络单元，在解决智能网联车辆于混合交通环境下的多智能体行为决策问题方面相比深度强化学习方法效果更好。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中用于混合交通环境行为决策的模块化图强化学习系统整体示意图；

图2为本发明实施例中DoubleDQN算法在高速汇流场景下的实验曲线图；

图3为本发明实施例中REINFORCE算法在高速汇流场景下的实验曲线图；

图4为本发明实施例中A2C算法在高速汇流场景下的实验曲线图；

图5为本发明实施例中REINFORCE算法在环路场景下的实验曲线图；

图6为本发明实施例中AC算法在环路场景下的实验曲线图；

图7为本发明实施例中PPO算法在环路场景下的实验曲线图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1，一种用于混合交通环境行为决策的模块化图强化学习系统，包括：

图表征模块：用于通过所述环境状态生成节点特征矩阵和邻接矩阵；

混合交通环境模块包括：人工驾驶车辆单元和智能网联车辆单元，其中，所述人工驾驶车辆单元用于通过驾驶员控制进行操控，智能网联车辆单元的行为决策指令由集中控制器执行。

图表征模块包括：

节点特征矩阵用来记录混合交通环境中每一辆车的特征向量。特征向量可根据需要自由调整其所包含的物理量，具体有车辆自身状态(车速、位置信息)；其他道路参与者的信息(距离，驾驶意图，对其他参与者的行为预测)；道路环境信息(交通灯、交通规则、道路拓扑)。

邻接矩阵用来描述交互和相互影响信息，可以表示车辆之间的交互(传感器范围、合作驾驶、拓扑关系)，以及车辆与环境之间的交互(行人避让、障碍物规避、轨迹跟踪)。

图强化学习模块包括：

图神经网络单元：用于处理所述节点特征矩阵和所述邻接矩阵，生成处理后的图特征；

深度强化学习单元：用于接收所述处理后的图特征进行计算，生成所述驾驶策略。

图强化学习模块的整理计算流程可以通过如下两个步骤进行表示。首先图特征被输入至图神经网络单元中，具体如下式所示：

G_t＝Φ_GNN(S_t)＝Φ_GNN(N_t,A_t)

其中G_t代表经由图神经网络处理过的特征，Φ_GNN代表框架采用的图神经网络方法的算子，S_t代表由图表征6生成的图特征，N_t代表节点特征矩阵，A_t代表邻接矩阵。

进一步的，深度强化学习单元接收处理的图特征，并生成驾驶策略，具体如下式所示：

π_t＝Φ_DRL(G_t)

其中π_t代表深度强化学习输出的驾驶策略，Φ_DRL代表框架采用的深度强化学习方法的算子。

合作驾驶行为模块包括：

进一步优化方案，合作驾驶行为模块控制车辆运行的方法包括：

进一步优化方案，所述系统还包括更新单元，所述更新单元用于通过奖励值指导所述图强化学习模块更新图神经网络单元的参数；其中，所述奖励值为智能网联车辆执行合作驾驶行为后所产生的效果。

混合交通环境在智能网联车辆，以及人工驾驶车辆执行当前时刻的动作指令之后，将奖励值(用来评估当前场景下，智能网联车辆4执行合作驾驶行为后，所产生的效果)传递给图强化学习，指导其更新神经网络的参数，以不断优化方法的效果。

系统的主要工作流程为，在某个时刻，混合交通环境将环境状态传递给图表征单元。图表征模块提取车辆的特征向量以及相互作用关系，生成节点特征矩阵和邻接矩阵。这些图特征首先被输入至图强化学习中的图神经网络单元进行进一步处理，生成处理过的特征输入至深度强化学习单元，并最终生成驾驶策略。不同的深度强化学习方法会生成不同类型的驾驶策略，合作驾驶行为根据驾驶策略选择生成高级驾驶行为或者低级控制指令，并将驾驶行为输入给集中控制器，以控制各个智能网联车辆的运行。而人工驾驶车辆由驾驶员控制进行控制，不需要通过程序框架的算法进行控制。

本发明提供了两个工作实例，以验证设计的图强化学习框架的可行性以及图强化学习方法相对于深度强化学习方法的优势。实例一，在混合交通环境中建立了高速汇流场景。图表征模块中的节点特征矩阵包括环境中每辆车的车速、位置和驾驶意图信息；邻接矩阵表示车辆之间的信息共享拓扑关系。图强化学习模块中的图神经网络采用图卷积网络算法(Graph Convolutional Networks,GCN)，深度强化学习分别采用三种不同的方法：DoubleDQN、REINFORCE和A2C算法。合作驾驶行为生成高级驾驶行为中的换道指令，并输入给集中控制器以指导智能网联车辆4的换道行为。实例一的消融实验结果见图2、图3和图4。

实例二，在混合交通环境中建立了环路场景。图表征模块中的节点特征矩阵包括环境中每辆车的车速和位置信息；邻接矩阵表示车辆之间的信息共享拓扑关系。图强化学习模块中的图神经网络采用图卷积网络算法，深度强化学习分别采用三种不同的方法：REINFORCE、AC和PPO算法。合作驾驶行为模块生成低级驾驶行为中的纵向加速度指令，并输入给集中控制器以指导智能网联车辆的纵向驾驶。实例二的消融实验结果见图5、图6和图7。

以上所述的实施例仅是对本发明优选方式进行的描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明权利要求书确定的保护范围内。

Claims

1.一种用于混合交通环境行为决策的模块化图强化学习系统，其特征在于，包括：

所述图表征模块包括：

节点特征矩阵：用于记录混合交通中所有车辆的特征向量；

邻接矩阵：用于描述交互和相互影响的信息，所述交互和相互影响的信息包括车辆之间的交互、车辆与环境之间的交互；

所述图强化学习模块包括：

深度强化学习单元：用于接收所述处理后的图特征进行计算，生成所述驾驶策略，并将所述驾驶策略传输到合作驾驶行为模块；

处理所述节点特征矩阵和所述邻接矩阵的方法为：

；

其中，代表经由图神经网络处理过的特征，/>代表框架采用的图神经网络方法的算子，/>代表由图表征生成的图特征，/>代表节点特征矩阵，/>代表邻接矩阵；

生成所述驾驶策略的方法为：

；

其中，代表深度强化学习单元输出的驾驶策略，/>代表框架采用的深度强化学习单元的算子；

合作驾驶行为模块：基于所述驾驶策略生成驾驶行为和控制指令，控制车辆运行；

所述合作驾驶行为模块包括：

指令控制单元：用于通过低级控制指令控制车辆运行，所述低级控制指令包括横向/纵向车速控制、纵向加速度和角加速度控制指令；驾驶行为控制单元：用于通过高级驾驶行为控制车辆运行，所述高级驾驶行为包括加速/减速、转向、换道/车道保持、紧急制动。

2.根据权利要求1所述的用于混合交通环境行为决策的模块化图强化学习系统，其特征在于，所述混合交通环境模块包括：人工驾驶车辆单元和智能网联车辆单元，其中，所述人工驾驶车辆单元通过驾驶员控制进行操控，所述智能网联车辆单元通过行为决策指令控制。

3.根据权利要求1所述的用于混合交通环境行为决策的模块化图强化学习系统，其特征在于，所述合作驾驶行为模块控制所述车辆运行的方法包括：

4.根据权利要求1所述的用于混合交通环境行为决策的模块化图强化学习系统，其特征在于，所述系统还包括更新单元，所述更新单元用于通过奖励值指导所述图强化学习模块更新图神经网络单元的参数；其中，所述奖励值为智能网联车辆执行合作驾驶行为后所产生的效果。