CN112801149A

CN112801149A - 一种基于深度强化学习的多车队列控制方法

Info

Publication number: CN112801149A
Application number: CN202110054062.0A
Authority: CN
Inventors: 陈龙; 陆思凯; 蔡英凤; 高翔; 高洪波; 刘卫国; 王海; 熊晓夏
Original assignee: Jiangsu University
Current assignee: Jiangsu University
Priority date: 2021-01-15
Filing date: 2021-01-15
Publication date: 2021-05-14
Anticipated expiration: 2041-01-15
Also published as: CN112801149B

Abstract

本发明提供一种基于深度强化学习的多车队列控制方法，将堆叠4帧的状态量作为网络的输入，使用车队共享网络的训练方法产生训练样本填充经验池；在训练过程中每个周期结束时对经验池进行备份；在经验池中进行采样训练网络。本发明使用车队共享网络，多车同时参加训练的训练方法，车队成员同时产生训练样本，大幅度缓解了连续动作空间探索效率低下的问题，利用探索过程中随机噪声带来的车队间车速震荡使获得的训练样本多样性更好，模型可以应对更加复杂的工况。使用时序信息，堆叠4帧状态量作为网络输入，增强网络的鲁棒性。提出经验池备份方法，通过对经验池的备份和覆盖，剔除非法周期产生的样本，防止低效的样本抽取劣化训练效果。

Description

一种基于深度强化学习的多车队列控制方法

技术领域

本发明属于交通运输领域，涉及一种基于深度强化学习的多车队列控制方法。

背景技术

近些年，针对自动驾驶的研究有很多，强化学习被提出后，在自动驾驶方面的应用也相继涌现。跟车是自动驾驶中重要的行为之一，使用深度强化学习训练跟车网络，通过设定合适的奖励函数可以优化汽车的跟车策略，在保证安全性的基础上体现一定的利他性。在复杂交通条件跟车策略难以设定时，可以通过逆强化学习对策略进行学习。

车队控制是在跟车基础上的多车体控制情境，使用深度强化学习进行训练，可以在一定程度上消减交通震荡，提高燃油经济性的同时展现利他性。但是车队控制在训练过程中存在问题：首先，多车体同时参加训练，训练难度大，甚至可能导致网络难以收敛。其次，奖励函数设计困难，每个车队成员拥有一个奖励函数，车队成员输出的动作互相干扰，存在奖励抵消的现象，导致训练中探索困难。最后，由于输入输出固定，与现实车队频繁改变成员数量矛盾，实用性差。为了避免以上问题，传统的训练方法是首先训练单车网络，再将收敛后的网络应用到每个车队成员，这样的方法没有在训练过程中体现车队环境，由于单车网络产生的样本单一，导致获得模型无法面对复杂情况。

发明内容

本发明目的在于提供一种基于深度强化学习的多车队列训练方法，通过车队共享网络，提高探索效率和样本多样性，使得后期训练稳定性得以提高，并通过使用时序信息和经验池备份增强训练的稳定性。

为实现上述目的，本发明采用如下技术方案：

基于深度强化学习的多车队列控制方法，包括如下步骤：

步骤1：使用基于深度强化学习的车队共享深度确定性策略梯度算法(PSDDPG)，堆叠4帧的状态量作为网络的输入。以跟车网络为例，首先我们使用前后四帧的本车和前车状态作为神经网络输入，一帧状态量为[d，v1，v2，a1，a2]，其中前后车之间距离d，前车车速v1，前车加速度a1，后车车速v2，后车加速度a2，一共20个状态量作为神经网络的输入，使用前后四帧的时序信息作为网络输入有助于提高训练的稳定性，增强网络的鲁棒性。

然后，我们使用归一化对神经网络的输入进行处理，归一化后的输入范围为[-1，1]。归一化是为了消除指标之间的量纲影响，使各指标处于同一数量级，减少奇异样本数据，防止梯度消失和梯度爆炸，加速网络收敛。

步骤2：在探索过程中使用车队共享网络的训练方法产生训练样本填充经验池。相比于把所有车队成员状态作为输入，输出成员个数的动作，我们只将每一辆智能网联汽车自身和前车的状态作为输入，输出控制自身的一个动作，促使网络收敛，避免出现成员动作互相干扰、奖励抵消的现象。与此同时所有智能网联汽车共享决策网络，共同参与网络的训练。

步骤3：使用深度强化学习算法DDPG对跟车、换道、决策网络分别进行训练，其使用的网络均为Actor-Critic网络架构；在训练过程中每个周期结束时对经验池进行备份。针对强化学习探索阶段探索不充分，学习初期样本采样效率低下，神经网络输出饱和值，导致经验池被污染，劣化训练效果的问题，提出了经验池备份的方法。在每个周期结束时，对经验池进行备份：

M0＝M

其中M表示经验池、M0表示备用经验池。当本周期没有达到设定的条件时，我们认为该周期为非法周期，用之前备份的经验池进行覆盖，防止非法样本对经验池的污染，在本次实验中，判定依据设定为前后两帧本车的车速：

M＝M0，ifv_ego[0]<0.01and v_ego[1]<0.01

其中v_ego[0]表示本车第一帧的车速、v_ego[1]表示本车第二帧的车速。

步骤4：从经验池中按照小批次抽样之后，计算目标函数y_i:

y_i＝r_i+γQⁱ(s_i+1,μ′(s_i+1∣θ^μ′)θ^Q)

其中r_i表示即时回报、γ表示折扣因子、Qⁱ(s_i+1,μ′(s_i+1∣θ^μ′)θ^Q)表示状态s_i+1采取演出网络的目标网络μ′(s_i+1∣θ^μ′)的策略所获得的价值、θ^μ′表示演出网络的目标网络的参数、θ^Q表示评论家网络的参数。然后通过最小化损失loss更新评论家网络：

其中N表示小批次抽样个数、y_i表示目标网络、Q(s_i,a_i∣θ^Q)表示状态s_i在策略π下采取动作a_i的价值、θ^Q表示评论家网络的参数。最后使用策略梯度下降更新演出网络：

其中N表示小批次抽样个数、

表示Q(s,a∣θ^Q)对动作a的偏分、

表示μ(s∣θ^μ)对θ^μ的偏分，μ(s∣θ^μ)表示演出网络，θ^μ表示演出网络的参数。

优选的，步骤1中，所述DDPG算法中Actor网络所使用神经网络模型结构由5个全连接层组成，其中前4个网络使用relu激活函数，最后一层网络使用tanh激活函数将输出映射到[-1，1]区间。Critic网络所使用神经网络模型结构由5个全连接层组成，其中前4个网络使用relu激活函数，最后一层网络不使用激活函数直接输出q值进行评估。而后，对每一帧状态归一化使用的系数为[0.1，0.1，0.1，0.1，0.1]。

优选的，步骤2中，训练网络过程中，Actor和Critic网络选取的学习率均为0.001；折扣因子γ为0.8；目标网络更新权重tau为0.01。

优选的，步骤3中，经验池最大容量选为10000，经验池填满之前，网络属于探索过程，使用的噪声选为以0.5为方差的正态分布；经验池填满之后，网络属于学习过程，噪声衰减因子为0.9995。

优选的，步骤4中，从经验池中抽取的minibatch为128。

有益效果：训练初期探索速度更快，经验池更快被填满，后期训练稳定性更好，训练得到的网络实用性更高。实现了典型交通流下，多车队列的巡航、跟车、超车和避障控制。

本发明使用车队共享网络，多车同时参加训练的训练方法，车队成员同时产生训练样本，相比于传统的单车训练方法，大幅度缓解了连续动作空间探索效率低下的问题，并且利用探索过程中随机噪声带来的车队间车速震荡使获得的训练样本多样性更好，模型可以应对更加复杂的工况。

本发明使用时序信息，堆叠4帧状态量作为神经网络输入，增强网络的鲁棒性，提出经验池备份方法，通过对经验池的备份和覆盖，剔除非法周期产生的样本，防止低效的样本抽取劣化训练效果。

附图说明

图1本发明的方法流程图；

图2本发明所使用Actor网络神经网络结构；

图3本发明所使用Critic网络神经网络结构。

具体实施方式

下面结合附图对本发明的技术方案进行详细说明，但本发明的内容不局限于此。

本发明提供了基于深度强化学习的多车队列控制方法，可实现简单情境下车队的巡航、跟车、超车和避障，具体包括以下步骤：

搭建训练模型：

(1)对车队网络使用预训练，使其学会车道保持。

(2)在车道保持的基础上，使用深度强化学习算法(DDPG)对跟车、换道、决策网络分别进行训练。其使用的网络均为Actor-Critic网络架构：Actor网络所使用神经网络模型结构由5个全连接层组成，其中前4个网络使用Relu激活函数，最后一层网络使用tanh激活函数将输出映射到[-1，1]区间。Critic网络所使用神经网络模型结构由5个全连接层组成，其中前4个网络使用Relu激活函数，最后一层网络不使用激活函数直接输出q值进行评估。

(3)确定网络的输入和输出。对于跟车网络，首先我们使用前后四帧的本车和前车状态作为神经网络输入，一帧状态量为[d，v1，v2，a1，a2]，其中前后车之间距离d，前车车速v1，前车加速度a1，后车车速v2，后车加速度a2，一共20个状态量作为神经网络的输入，使用前后四帧的时序信息作为网络输入有助于提高训练的稳定性，增强网络的鲁棒性。

然后，我们使用归一化对神经网络的输入进行处理，归一化后的输入范围为[-1，1]，对每一帧状态归一化使用的系数为[0.1，0.1，0.1，0.1，0.1]。归一化是为了消除指标之间的量纲影响，使各指标处于同一数量级，减少奇异样本数据，防止梯度消失和梯度爆炸，加速网络收敛。

对于换道网络我们进行相似的处理，将归一化后的四帧一共12个状态量作为神经网络的输入，一帧状态量为[error，angle，v]，其中智能网联汽车与车道中心线横向误差error，智能网联汽车与车道中心线夹角angle，本车车速v。归一化使用的系数为[1，1，0.1]。

对于决策网络，我们使用毫米波雷达返回领航车和社会车辆的车间距和相对速度，计算得出社会车辆的加速度，然后与间距、相对速度一起堆叠4帧，作为神经网络的输入，一帧状态量为[d，v，a]，同样使用系数[0.1，0.1，0.1]进行归一化处理。

结合Carla模拟器中车辆的控制方法，我们跟车、换道、决策网络的输出都使用Tanh激活函数映射到[-1，1]中。对于跟车网络，将其拆分为两个区间[-1，0]，[0，1]，其中[-1，0]代表最大刹车到最小刹车(刹车＝0)，[0，1]代表最小油门(油门＝0)到最大油门。将油门和刹车分开可以防止出现油门刹车同时存在的非法输出。对于换道网络，直接将[-1，1]映射到方向盘转动量，-1代表左打满，1代表右打满。对于决策网络，同样将[-1，1]拆分为正负两个区间。其中负值代表执行跟车行为，正值代表执行换道行为。

(4)设计网络的奖励函数。针对不同的网络，我们设定了相应的回报函数。对于跟车网络，我们从三个方面进行考虑，首先是安全性：

其中，headway头车时距、Δd表示车间距、v表示后车车速。我们对其进行了约束，防止过大的头车时距劣化训练效果。然后是预测性：

Reward_forecast＝(v_ego-v_front)*(headway-headway₀)

其中，v_ego本车速度、v_front前车速度、headway0理想头车时距，本文取headway₀＝1。这是一个与前后车车速和头车时距相关的奖励函数，当头车时距大于理想头车时距时，本车车速大于前车车速会带来正向的回报。同样的，当头车时距小于理想头车时距时，本车车速小于前车车速会带来正向的奖励。其次是舒适性：

其中，a_ego本车加速度。舒适性是跟车情境下的重要指标，当加(减)速度过大时会造成车内人员的不适，因此对于过大加(减)速度进行惩罚。最后，我们把三方面的回报函数进行加权，从而得到我们的跟车回报函数：

Reward＝α*Reward_headway+β*Reward_forecast+γ*Reward_comfort

其中α、β、γ表示加权系数通过实验验证，当α＝β＝γ＝1的时候，训练效果最好。

对于换道网络，我们将智能网联汽车与车道中心线横向误差error，智能网联汽车与车道中心线夹角angle、上一帧和这一帧的方向盘转动量steer、_steer作为回报函数的组成部分：

r2＝-log(abs(error)+1,1.2)

r3＝-5*abs(steer-_steer)

Reward_lane-change＝(r1+r2+r3+4.4)*3

对于决策网络，我们使用稀疏奖励，只考虑社会车辆的车速和领航车的决策：

其中v表示社会车辆车速、车队行为包括三个动作车道保持keep_lane、左换道turn_left、右换道turn_right。只有在适当的情况下做出正确的决策才能得到正向的回报，否则只能得到负面的回报。使用稀疏的奖励函数使得决策网络更易于收敛。

(5)使用Carla模拟器作为仿真实验平台，结合随机噪声，使强化学习智能体在与仿真环境的交互中产生经验，并存入提前设置好的经验池中。

(6)当经验池被填满后，随机噪声逐渐衰减至0.01，系统从经验池中抽取minibatch对网络运用梯度下降法进行训练。训练中使用的参数分别是：Actor和Critic网络选取的学习率均为0.001；折扣因子γ为0.8；目标网络更新权重tau为0.01，经验池最大容量选为10000，噪声衰减因子为0.9995，从经验池中抽取的minibatch为128。

(7)当每个周期结束，对经验池进行备份，同时按照设定阈值判断周期是否满足条件，是否存在神经网络输出饱和值的情况。若该周期小于所设定阈值，则视为非法周期，使用备份好的经验池进行覆盖。其中使用公式为：

M0＝M

M＝M0，ifv_ego[0]<0.01and v_ego[1]<0.01

其中M表示经验池、M0表示备用经验池、v_ego[0]表示本车第一帧的车速、v_ego[1]表示本车第二帧的车速。

(8)对于训练好的网络进行测试：

测试参数：最大周期100，最大步长500。由于在测试过程中，领航车油门由训练时的0.4-0.7离散线性油门变为[-0.3，0.4，0.5，0.6，0.7，0.8，0.9]的随机油门，更加考验跟车网络的鲁棒性。从测试结果看，使用PSDDPG算法训练网络，在测试过程中没有发生碰撞和目标丢失，鲁棒性好。而使用单车训练方法，在100个周期中存在多次的目标丢失，发生了2次成员间的碰撞，鲁棒性差。

综上，本发明的一种基于深度强化学习的多车队列控制方法，通过基于深度强化学习的PSDDPG算法，把深度强化学习(DRL)应用到由智能网联汽车(ICV)组成的多车队列控制中，实现了典型交通流下，多车队列的巡航、跟车、超车和避障控制。包括如下步骤：使用PSDDPG算法，堆叠4帧的状态量作为网络的输入；在探索过程中使用车队共享网络的训练方法产生训练样本填充经验池；在训练过程中每个周期结束时对经验池进行备份；在经验池中进行采样训练网络。本发明使用车队共享网络，多车同时参加训练的训练方法，车队成员同时产生训练样本，大幅度缓解了连续动作空间探索效率低下的问题，利用探索过程中随机噪声带来的车队间车速震荡使获得的训练样本多样性更好，模型可以应对更加复杂的工况。使用时序信息，堆叠4帧状态量作为网络输入，增强网络的鲁棒性。提出经验池备份方法，通过对经验池的备份和覆盖，剔除非法周期产生的样本，防止低效的样本抽取劣化训练效果。

Claims

1.一种基于深度强化学习的多车队列控制方法，其特征在于，包括如下步骤：

步骤1：使用基于深度强化学习的车队共享深度确定性策略梯度算法PSDDPG，堆叠4帧的状态量作为网络的输入；首先我们使用前后四帧的本车和前车状态作为神经网络输入，一帧状态量为[d，v1，v2，a1，a2]，其中前后车之间距离d，前车车速v1，前车加速度a1，后车车速v2，后车加速度a2，一共20个状态量作为神经网络的输入；

步骤2：使用深度强化学习算法DDPG对跟车、换道、决策网络分别进行训练，其使用的网络均为演出-评论家Actor-Critic网络架构；在探索过程中使用车队共享网络的训练方法产生训练样本填充经验池，相比于把所有车队成员状态作为输入，输出成员个数的动作，只将每一辆智能网联汽车自身和前车的状态作为输入，输出控制自身的一个动作，与此同时所有智能网联汽车共享决策网络，共同参与网络的训练；

步骤3：在训练网络过程中每个周期结束时对经验池进行备份，在每个周期结束时，对经验池进行备份：

M0＝M

其中M表示经验池、M0表示备用经验池，当本周期没有达到设定的条件时，我们认为该周期为非法周期，用之前备份的经验池进行覆盖，防止非法样本对经验池的污染，在本次实验中，判定依据设定为前后两帧本车的车速：

M＝M0，ifv_ego[0]＜0.01 and v_ego[1]＜0.01

其中v_ego[0]表示本车第一帧的车速、v_ego[1]表示本车第二帧的车速；

步骤4：从经验池中按照小批次抽样之后，计算目标函数y_i：

y_i＝r_i+γQⁱ(s_i+1，μ′(s_i+1|θ^μ′)θ^Q)

其中r_i表示即时回报、γ表示折扣因子、Qⁱ(s_i+1，μ′(s_i+1|θ^μ′)θ^Q)表示状态s_i+1采取演出网络的目标网络μ′(s_i+1|θ^μ′)的策略所获得的价值、θ^μ′表示演出网络的目标网络的参数、θ^Q表示评论家网络的参数；然后通过最小化损失loss更新评论家网络：

其中N表示小批次抽样个数、y_i表示目标网络、Q(s_i，a_i|θ^Q)表示状态s_i在策略π下采取动作a_i的价值、θ^Q表示评论家网络的参数；最后使用策略梯度下降更新演出网络：

其中N表示小批次抽样个数、

表示Q(s,a∣θ^Q)对动作a的偏分，

2.根据权利要求1所述的一种基于深度强化学习的多车队列控制方法，其特征在于，所述步骤1还包括使用归一化对神经网络的输入进行处理，归一化后的输入范围为[-1，1]。

3.根据权利要求1所述的一种基于深度强化学习的多车队列控制方法，其特征在于，所述步骤1中，所述DDPG算法中Actor网络所使用神经网络模型结构由5个全连接层组成，其中前4个网络使用relu激活函数，最后一层网络使用tanh激活函数将输出映射到[-1，1]区间；Critic网络所使用神经网络模型结构由5个全连接层组成，其中前4个网络使用relu激活函数，最后一层网络不使用激活函数直接输出q值进行评估，而后，对每一帧状态归一化使用的系数为[0.1，0.1，0.1，0.1，0.1]。

4.根据权利要求1所述的一种基于深度强化学习的多车队列控制方法，其特征在于，所述步骤2中，训练网络过程中，Actor和Critic网络选取的学习率均为0.001；折扣因子γ为0.8；目标网络更新权重tau为0.01。

5.根据权利要求1所述的一种基于深度强化学习的多车队列控制方法，其特征在于，所述步骤3中，经验池最大容量选为10000，经验池填满之前，网络属于探索过程，使用的噪声选为以0.5为方差的正态分布；经验池填满之后，网络属于学习过程，噪声衰减因子为0.9995。

6.根据权利要求1所述的一种基于深度强化学习的多车队列控制方法，其特征在于，所述步骤4中，从经验池中抽取的minibatch为128。