CN115100866A

CN115100866A - 一种基于分层强化学习的车路协同自动驾驶决策方法

Info

Publication number: CN115100866A
Application number: CN202210842831.8A
Authority: CN
Inventors: 袁泉; 李静林; 罗贵阳; 刘志晗; 刘世凡; 陈博
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2022-07-18
Filing date: 2022-07-18
Publication date: 2022-09-23
Anticipated expiration: 2042-07-18
Also published as: CN115100866B

Abstract

本发明公开一种基于分层强化学习的车路协同自动驾驶决策方法，基于强化学习设计了一种分层通信的车路协同方法，包括：通信消息生成器与解码器，基于通行子目标的协同规划以及基于通行子目标的单车决策。在车辆—边缘设备通信阶段，一个自编码器会被学习在车端用于生成消息并在边缘节点解码消息；边缘计算节点整合来自全部车辆的消息，并进行共识的形成。共识的表示方式是为每个车辆设定短期的通行任务，并将该任务分发给相应的车辆。车辆依赖车载智能对车辆的驾驶动作进行控制，完成接收自边缘计算节点的短期通行目标。在该分层结构下，本发明多车的协同驾驶决策具有更好的解释性，协同效率更高效。

Description

一种基于分层强化学习的车路协同自动驾驶决策方法

技术领域

本发明属于车联网和自动驾驶技术领域，涉及一种基于分层强化学习的车路协同自动驾驶决策方法。

背景技术

随着车联网技术和自动驾驶技术的发展，单一车辆可以实现较稳定的自动驾驶能力。依托车载传感器，边缘计算节点的感知融合，车辆可以实现对道路环境中的目标识别与跟踪，通过深度强化学习方法车辆可以学习如何进行驾驶决策。但在复杂的多车协同领域，采用强化学习方法进行自动驾驶决策很难保证其准确性与安全性。依赖群体智能技术，多车的协同自动驾驶成为车联网领域研究的重点问题。车辆间的协同依赖通信进行，车辆将自身的决策数据或决策结果通过车联网与其他车辆共享从而融合形成对全局态势的感知，基于该感知形成全局共识并进行协同决策。这样的协同模式依赖于高效且实时的计算资源以及通信资源的配合：车辆之间需要进行大量的通信来获得全局感知，同时也需要足够的计算资源让车辆能够在允许的时间内进行驾驶决策。

专利号为201810264905.8的发明专利公开一种基于强化学习算法的车辆自动驾驶控制方法及装置，该方法部分包括对从真实传感器获取的采集数据进行数据分布处理，得到与训练目标数据的数据分布一致的真实目标数据，训练目标数据为经过对模拟器环境中传感器数据进行数据分布处理得到；在强化学习模型训练时采用训练目标数据，而由于实际自动驾驶控制时得到真实目标数据与训练过程采用的训练目标数据的数据分布一致，因此，可以将训练好的强化学习模型直接应用于真实车辆上进行自动驾驶，提高了自动驾驶的安全性。该专利的不足之处在于：在现实交通场景中常常存在许多车辆，但为每一个车辆都配备强化学习算法来进行自动驾驶不能够解决车辆间的协同问题。车辆间的协同需要依赖一定的规则或者进行通信交换意图来实现。在多车协同决策的场景下，通信带来的巨大通信消耗以及决策带来的计算消耗很难满足车辆实时决策的要求，因此必须要对通信资源以及计算资源进行合理高效的利用，设计合理的通信方法以及策略网络才能够实现车联网场景下小规模车辆的协同出行。

专利号为202110054062.0的发明专利公开一种基于深度强化学习的多车队列控制方法，将堆叠4帧的状态量作为网络的输入，使用车队共享网络的训练方法产生训练样本填充经验池；在训练过程中每个周期结束时对经验池进行备份；在经验池中进行采样训练网络。该专利的不足之处在于：在该方法要解决的问题场景中，不同车辆的通行任务是高度相似的，因此该控制方法的目的是实现车列中车辆的精细控制，使得车辆的整体行驶过程可以更加稳定和安全。但对于具有不同通行目的的车辆，该方法不能提供一种通用的协同方式，让车辆可以协同完成各自的通行任务。

专利号为202011251880.1的发明专利公开一种基于联邦深度强化学习的自动驾驶群车的智能决策实现方法，包括：采用深度强化学习实现对自动驾驶群车的行驶环境以及周围车辆的行驶环境进行观测，在各自车辆的处理器内进行训练数据，将训练好的数据模型加密后发送给边缘计算服务器，边缘计算服务器综合训练边缘神经网络，将训练后的模型同时发送给云计算服务器，云计算服务器将综合各模型进行训练数据，将训练好的模型信息发送给边缘计算服务器和车辆终端，进行车辆终端的模型信息更新，采用联邦深度学习方法实现自动驾驶汽车的智能决策功能。该专利的不足之处在于：在联邦强化学习中，车辆端与边缘计算单元、云端智能间的通信内容只包括每个车辆私有的策略模型，而不包括车辆的传感器信息、动作信息，因此车辆间的协同只能实现在策略级别的协同，在更细微的动作上，比如无交通信号灯的路口协同以及变道协同等更细粒度的协同上很难有好的效果。并且从车辆端到边缘设备再到云端设备，通信的时延是个需要考虑的因素，要满足实时的通信决策要求是很难的。

专利号为201810886185.9的发明专利公开一种基于车车通信的多车协同换道控制方法，考虑到多车道、多辆车同时换道、直行车辆做变速运动的复杂情景，提出了多车协同换道的控制策略，建立了直行车辆变加速工况下的安全距离模型及两个换道车辆之间的安全距离模型。采用五次多项式换道轨迹，以轨迹长度及舒适性为目标函数、以车辆纵横向速度等作为约束条件，利用优化求解的方法得到期望换道轨迹。在换道过程中，根据换道车辆与直行车辆的实时信息计算安全距离，在存在危险时重新规划轨迹，以避免发生碰撞事故，同时提高通行效率。该专利的不足处在于：在多车协同换道每个控制周期内，每辆车均通过车车通信向周围车辆播报自车信息，这样的广播通信会带来巨大的通信消耗。同时在该方法中存在一个总控车辆，总控车辆根据收集的车辆信息和车辆参数，计算安全的换道轨迹并向各车辆分发，使换道车辆按照规划好的轨迹换道。但在车联网场景下，每辆车的地位都应当是等价的，应当执行的是分布式协同而非由单车进行协同规划。否则会带来总控车辆计算要求过高，且协同场景单一的问题。

发明内容

针对上述问题，本发明构建一种更加高效的多车协同通行方法，主要针对车联网领域多车协同决策问题，基于车载控制设备、边缘计算节点以及通信网络，采用分层结构，实现不同层次控制，优化车辆协同效果。

本发明基于分层强化学习的车路协同自动驾驶决策方法，具体过程为：

在通信周期的每个时刻，车载控制设备将车辆传感器捕捉到的感知数据以及车辆自身相关数据使用时序循环神经网络编码形成消息向量。每个通信周期开始时通信域内全部车辆将消息向量发送给其所在通信域内的边缘计算节点。

边缘计算节点对消息进行解码并融合形成全局的态势感知；将得到的融合结果m_t作为决策的输入，由边缘计算节点做出综合决策，为每一个车辆设定个性化的通行子目标，并按照编号分发给对应的各个车辆，由每个车辆分别负责实现各自的通行子目标，方法为：

使用Actor-Critic架构实现对通行子目标的生成和训练；其中Actor负责生成通行子目标：

式中，

是属于边缘计算节点的传感器对于环境的感知信息；π_θ是Actor的策略网络；

是通行子目标的集合。

同时，在边缘计算节点中对于生成的每个通行子目标，Critic会给出相应的评价：

其中，Q是对当前的决策结果的评价；Q_ω是Critic的网络，使用MLP网络实现；

车载设备根据接收到的通行子目标做出决策动作：

其中，π_σ是车辆的策略网络，a_t+k是车辆在t+k时刻的决策动作，时刻t是当前通信周期的开始时刻，在t时刻，车辆会从边缘设备处取得一个专属的通行子目标，在接下来的通信周期内的每个时刻，这个通行子目标是保持不变的；策略网络的生成和更新使用策略梯度 PG方法实现，使用MLP得到离散动作的类别值，再通过Softmax得到动作的分布；通过采样得到最终车辆实际采取的动作。

本发明的优点在于：

1、本发明基于分层强化学习的车路协同自动驾驶决策方法，将车辆的驾驶决策问题分为两个层次，分别放在边缘计算节点的计算单元和车载控制设备上进行实现。其中边缘计算节点接收来自车辆的信息并负责车辆的协同，为每辆车接下来一段运动进行宏观规划，给出车辆的短期通行目标。车载控制设备接收来自边缘计算节点的行驶目标后根据车载控制设备进行车辆的驾驶决策，完成既定的行驶目标。车辆传递给边缘计算节点的信息包括车辆自身的信息，车辆的观测信息，车辆的总体通行任务。车辆和边缘计算节点都使用强化学习方法进行训练，二者紧密耦合，使用分层强化学习方法进行训练，边缘计算节点的奖励信号是总体通行任务的反馈，车载控制设备的奖励信号是短期行驶目标的完成度反馈。使用训练后的模型可以在边缘计算节点和车辆间进行层次化的控制，从而更好地完成车辆自组织通行的任务。

2、本发明基于分层强化学习的车路协同自动驾驶决策方法，能够将复杂的多车协同任务进行分解，分解为简单易实现的子任务，在不同的层级上分别实现不同程度的控制和协同；使得车载计算负荷可以卸载到边缘计算节点上，同时实现通信资源和计算资源的负载均衡；

由此解决车联网场景下多车协同自动驾驶领域三个方面的问题，包括

1、协同的粒度不均衡

现有的技术方案通常在动作层面或者是策略层面实现协同，在动作层面的协同的粒度过小，这使得车辆需要直接面对复杂繁琐的动作决策任务，而没有利用到通行任务中的抽象结构信息。这带来了巨大的通信资源和计算资源的浪费。而在策略层面的协同的粒度又太大，很难处理好具体场景中的一些需要细粒度协同的问题，这对协同的效率产生很大的影响。

2、车载计算任务过重

在现有的多车协同方法中，车辆的协同决策通常是依靠车载智能实现的。协同决策任务是复杂的，完全依赖车载智能实现对于车辆承载的计算单元提出了很高的性能要求。在车联网场景下，边缘计算节点也承载一定的计算能力，并且天然地具有在一定区域内进行协调的能力，因此如果将协同任务卸载到边缘计算节点上，那么可以极大节省车载计算能力的消耗。

3、通信资源需求过大

在使用通信来实现车辆间协同的方法中，车辆需要将自身的车辆信息、观测信息以及意图信息在车辆间共享，同时为了利用边缘设备的计算能力，也需要将车辆的决策模型信息上传到边缘计算节点或者云端计算节点上。这些都会带来巨大的通信资源的消耗，从而为车辆决策的实时性带来挑战。

附图说明

图1为本发明方法整体框架图；

图2为本发明方法中所应用策略网络示意图。

具体实施方式

下面结合附图对本发明做进一步详细说明。

本发明基于分层强化学习的车路协同自动驾驶决策方法，如图1所示，具体过程为：

在通信周期的每个时刻，车载控制设备将车辆传感器捕捉到的感知信息以及车辆自身相关信息使用时序循环神经网络编码为车辆的隐藏状态。

为了高效利用利用通信资源，每个车辆并不是直接将原始信息直接作为消息发送给边缘计算节点，由于车辆需要发送的信息包括车辆传感器的感知信息，车辆自身的信息以及通行目的，尤其是车载传感器的感知信息是非常庞大的，因此车辆需要先将这些消息进行压缩编码，形成消息向量，具体方法为：

使用多层感知机(MLP)对车载控制设备发送的当前相关信息进行编码；MLP可以通过梯度端到端的反向传播学习到消息的高效编码。在得到编码后的信息后，经由GRU单元将当前时刻的消息与上一时刻的隐藏状态进行融合，从而得到当前时刻的隐藏状态，当前时刻的隐藏状态中包含着车辆观测的时序信息，因而可以在一定程度上反映出车辆的行动意图。在需要通信时，车辆将当前时刻t的隐藏状态

直接作为消息向量

发送给边缘计算节点：

其中，下标t表示离散化的时间；上标i表示车辆编号；Encoder表示编码器；GRUcell是循环神经网络GRU的一个单元，称为GRU单元。

为第i辆车的车载传感器在t时刻的感知信息；

为车辆自身的信息(包括车辆运行状态以及车辆的目的地坐标等)。对

和

编码后得到消息

消息

与上一时刻隐藏状态

进行融合后得到当前时刻的隐藏状态

虽然在每一个离散时刻车辆都需要使用编码器将自己的感知数据与隐藏状态融合，但车辆只在每个通信周期开始时才会将隐藏状态作为消息向量发送给边缘计算节点。

在每个通信周期开始时，通信域内全部车辆将前述得到的隐藏状态作为消息向量发送给其所在通信域内的边缘计算节点。边缘计算节点在接收通信域内全部车辆的消息后对消息进行解码并融合从而形成全局的态势感知；具体方法为：

边缘计算节点在接收到这些消息向量后需要先对其解码，通过多层全连接的神经网络的解码器对隐藏状态进行解码，得到其需要的语义信息，并将解码后的全部语义信息以拼接的方式进行简单融合，融合结果m_t为：

其中,Decoder为解码器，concate表示拼接。

随后，将得到的融合结果m作为决策的输入，由边缘计算节点做出综合决策，为每一个车辆设定个性化的通行子目标，并分发给相应的车辆；具体方法为：

边缘计算节点在对消息进行解码后，可以利用融合后的消息进行统一的协同调度。

本发明方法使用Actor-Critic架构实现对通行子目标的生成和训练。其中Actor负责生成通行子目标：

其中，

是属于边缘计算节点的传感器对于环境的感知信息，π_θ是Actor的策略网络。

是通行子目标的集合，对于每辆车的通行子目标

它表示在接下来一段时间车辆需要达到的位置。

边缘计算节点会将这些通行子目标按照编号分发给对应的各个车辆。由每个车辆分别负责实现各自的通行子目标。同时，在边缘计算节点中对于生成的每个通行子目标，Critic会给出相应的评价：

其中，Q是对当前的决策结果的评价。Q_ω是Critic的网络，使用MLP网络实现。

在进行Actor的策略网络的训练阶段，每个通信周期结束后边缘计算节点会统计车辆总体任务的完成情况，得到每个车辆总体的奖励r₁～r_n；其中，车辆总体任务即每辆车都能够安全通行前往目的地；完成情况的统计即统计碰撞次数以及通行路程完成了多少。每个车辆总体任务的奖励表示为:

其中，C_t表示车辆是否发生碰撞，r_roll为碰撞后的惩罚；τ_t为车辆停留的时间，r_time表示单位时间的停留需要受到的惩罚。

使用所有车辆总体的奖励之和作为通行子目标生成模块的奖励，使用时间差分方法计算得到损失函数的值：

δ_t＝r_1～n+γQ_ω(o,m,g′)-Q_ω(o,m,g)

其中，

为全部车辆的奖励之和。o,m,g分别为当前通信时刻相应的观测、目标网络生成的通信消息和通行子目标；o',m',g'分别是在下一通信时刻相应的观测、目标网络生成的通信消息和通行子目标。

由此，Critic网络将按照如下公式进行更新：

式中，α_θ为Critic网络的学习率；

Actor网络使用Critic的评价结果进行更新：

式中，α_ω为Actor网络的学习率；

在一个通信周期结束后，车辆会获得一个与总体通行任务相关的奖励，全部车辆的奖励之和可以作为该通信周期内车辆协同决策的性能评价指标，也为边缘计算节点的策略更新提供了监督信号。

在通信周期的其他时间内，车辆需要依赖车载智能和自身的传感器数据进行车辆的驾驶决策。

车载设备根据接收到的通行子目标做出决策动作：

其中，π_σ是车辆的策略网络，a_t+k是车辆在t+k时刻的决策动作，时刻t是当前通信周期的开始时刻，在t时刻，车辆会从边缘计算节点处取得一个专属的通行子目标，在接下来的通信周期内的每个时刻，这个通行子目标是保持不变的。策略网络的生成和更新使用策略梯度PG方法实现，使用MLP得到离散动作的类别值，再通过Softmax得到动作的分布。通过采样得到最终车辆实际采取的动作，如图2所示，图中V是神经网络的对每个动作的输出值， P为经过softmax后得到的动作概率，经采样后得到实际的动作。

在车辆的策略网络训练阶段，每个车辆都会根据其通行子目标的完成情况获得一个相关奖励，并利用该奖励更新自身的策略网络。

车载设备的决策任务可以建模为单智能体强化学习任务，总体目标是最大化一个内置奖励，内置奖励表示对于当前通行子目标完成度量，计算方式如下：

其中，loc_t是车辆在t时刻的位置，d表示车辆位置和目标位置之间的距离。当车辆接近目标，理应获得一个奖励值，而当车辆远离设定的目标位置时会获得一个负的惩罚。

车辆的策略网络的更新方式为：

式中，α_σ为学习率；γ为折扣因子；

a为决策动作

在车辆的策略网络训练阶段，消息编解码器(编码器和解码器)使用强化学习方法进行端到端的学习。在边缘计算节点处，当子目标生成模块和消息处理模块更新完毕后，梯度信息会通过通信模块由通信网络传递给车辆端，车辆端利用反传回的梯度信息更新自身的消息生成模块，从而实现整个编解码器端到端的更新。

综上可见，本发明基于分层强化学习的车路协同自动驾驶决策方法，设计了基于强化学习的端到端更新的通信方法，车辆需要将车端信息编码为消息，通过通信信道传递给边缘计算节点，边缘计算节点对消息进行解码还原出协同所需的信息。整个通信流程可以视作自编码器，使用端到端的方式直接对该通信模块进行更新，在最大化协同奖励的过程中学习到良好的语义压缩和通信协议。同时端到端的更新也依赖通信信道，梯度等更新信息会由在下一个时刻伴随通行子目标一起由边缘计算节点传递回各个车辆。

本发明基于分层强化学习的车路协同自动驾驶决策方法，还设计了基于通行子目标的协同策略，通行子目标表示了车辆在短时间内的通行目标，这使得车辆不必在微观的控制动作上进行协同，扩展了协同的尺度。协同尺度的选择应当设定在，各个车辆可以完全按照单车智能的方式进行驾驶即可完成子目标尺度的协同。通过通行子目标，实际上相当于对车辆的总体通行任务进行了分解，分解为了若干可以依靠单车智能实现的子任务。这样的协同方式可以在更大的粒度上产生，从而降低了总体的通信频率并且对协同效果进行了提升。

同时本发明基于分层强化学习的车路协同自动驾驶决策方法，是一种分层通信的车路协同方法，在该分层结构下，多车的协同驾驶决策具有更好的解释性，协同效率更高效。目前的车路协同方法都没有使用这样的分层结构，分层结构会为车路协同带来极大的好处，包括：将协同分为了两个层次，上层实现一定尺度的协同决策，下层负责实现最小粒度的动作决策。这样协同不再直接由车辆的动作定义，因此关于协同的计算可以布置在边缘计算节点进行实现，车载智能只需要进行单车自动驾驶任务的计算，从而极大缓解了车载智能的计算负荷。采用分层结构也使得协同可以在更大的时间尺度上发生，同时车辆不再需要与其他车辆进行通信，只需要与中心的边缘计算节点通信，通信的频率与边缘计算节点的决策频率相同，因而避免了在协同决策期间内通信必须时刻保持连接，极大降低了通信资源的需求。相比于现有方案，本方案创造性地将分层控制思想与使用强化学习的多车协同控制方法结合，实现了车联网场景下通信网络以及计算资源的负载均衡。

Claims

1.一种基于分层强化学习的车路协同自动驾驶决策方法，其特征在于：具体过程为：

在通信周期的每个时刻，车载控制设备将车辆传感器捕捉到的感知数据以及车辆自身相关数据使用时序循环神经网络编码形成消息向量；每个通信周期开始时通信域内全部车辆将消息向量发送给其所在通信域内的边缘计算节点；

边缘计算节点对消息进行解码并融合形成全局的态势感知；将得到的融合结果作为决策的输入，由边缘计算节点做出综合决策，为每一个车辆设定个性化的通行子目标，并按照编号分发给对应的各个车辆，由每个车辆分别负责实现各自的通行子目标，方法为：

式中，

是通行子目标的集合；

车载设备根据接收到的通行子目标做出决策动作：

其中，π_σ是车辆的策略网络，a_t+k是车辆在t+k时刻的决策动作，时刻t是当前通信周期的开始时刻，在t时刻，车辆会从边缘设备处取得一个专属的通行子目标，在接下来的通信周期内的每个时刻，这个通行子目标是保持不变的；策略网络的生成和更新使用策略梯度PG方法实现，使用MLP得到离散动作的类别值，再通过Softmax得到动作的分布；通过采样得到最终车辆实际采取的动作。

2.如权利要求1所述一种基于分层强化学习的车路协同自动驾驶决策方法，其特征在于：车辆传感器捕捉到的感知数据以及车辆自身相关数据的编码方式为：使用多层感知机对车载控制设备发送的当前相关信息进行编码，得到编码后的信息后，经由GRU单元将当前时刻的消息与上一时刻的隐藏状态进行融合，从而得到当前时刻的隐藏状态，当前时刻的隐藏状态中包含车辆观测的时序信息。

3.如权利要求1所述一种基于分层强化学习的车路协同自动驾驶决策方法，其特征在于：全局的态势感知形成方法为：边缘计算节点通过多层全连接的神经网络的解码器对接收的消息向量解码，得到其需要的语义信息，并将解码后的全部语义信息以拼接的方式进行融合，融合结果m_t为：