CN112406867A

CN112406867A - 基于强化学习和避让策略的应急车辆混合换道决策方法

Info

Publication number: CN112406867A
Application number: CN202011299719.1A
Authority: CN
Inventors: 胡坚明; 牛浩懿; 裴欣; 张毅
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2020-11-19
Filing date: 2020-11-19
Publication date: 2021-02-26
Anticipated expiration: 2040-11-19
Also published as: CN112406867B

Abstract

本发明涉及一种基于强化学习和避让策略的应急车辆混合换道决策方法，包括：确定优化路段以及待规划ICCV和ICEV的执行策略；对待规划ICEV的DQN网络进行初始化；基于待规划ICEV及其六个邻居车辆的状态信息以及其前车的避让策略执行情况，得到DQN网络的状态空间；基于DQN网络的状态空间得到输出值，基于输出值得到初步决策以及动作空间；建立动作选择屏障，对得到的初步决策进行验证和选择，直到从输出值或动作空间中最终选出的动作满足交通规则和道路物理结构；定义奖励函数，用于对该动作所对应的总奖励进行计算；对DQN网络进行训练，得到训练好的DQN网络。本发明可以广泛应用于道路换道决策控制领域。

Description

基于强化学习和避让策略的应急车辆混合换道决策方法

技术领域

本发明属于道路换道决策控制领域，尤其涉及一种基于强化学习和避让策略的应急车辆混合换道决策方法。

背景技术

目前，减少应急车辆响应时间的相关研究大都集中在路线优化和交通信号灯的控制上，试图从宏观调度的角度去解决问题，比如：Dijkstra算法、蚁群算法(ACA)、A*和混合蛙跳算法(SFLA)。但是，这些宏观方法并没有充分利用实时交通数据，很少有对自动驾驶应急车辆进行微观控制的，也几乎没有考虑对正常交通流的影响，并且忽视了直道上响应时间的延迟。

此外，少部分研究提到了在直道上对应急车辆自动驾驶进行微观控制的确定性算法，比如一系列的跟驰换道策略，包括了一些针对性的避让策略，但是与深度强化学习获得的策略相比它们更难泛化到各种不同的交通场景，而且在探索更快的速度方面不见得是最优的。

发明内容

针对上述问题，本发明的目的是提供一种基于强化学习和避让策略的应急车辆混合换道决策方法，该方法通过将确定性避让策略的稳定性和深度强化学习的探索性和泛化能力相融合，使得两种策略取长补短，能够缩短任何直道环境中应急车辆的响应时间，为应急车辆提出一种省时、实时、数据利用率高的微观直道决策方法，该方法需要在完全自动驾驶的交通流中实施。

为实现上述目的，本发明采取以下技术方案：一种基于强化学习和避让策略的应急车辆混合换道决策方法，其包括以下步骤：

(1)确定优化路段，并对优化路段上待规划ICCV和ICEV的运行策略进行规划；其中，待规划ICCV利用基于规则的避让策略，待规划ICEV利用基于DQN网络的混合换道策略；

(2)对待规划ICEV的DQN网络进行初始化；

(3)基于待规划ICEV及其六个邻居车辆的状态信息以及待规划ICEV前车的避让策略执行情况，得到待规划ICEV的DQN网络的状态空间；

(4)将步骤(3)得到的DQN网络的状态空间作为输入量输入初始化后的DQN网络，得到t时刻的输出值Q，并基于输出值Q得到初步决策以及动作空间；

(5)建立动作选择屏障，用于以探索系数∈对步骤(4)得到的初步决策进行验证和选择，直到从输出值Q或动作空间中最终选出的动作满足交通规则和道路物理结构；

(6)定义奖励函数，用于对步骤(5)中得到的动作所对应的总奖励R_t进行计算；

(7)根据定义的状态空间、动作空间、动作选择屏障以及奖励函数，对步骤(2)中初始化的DQN网络进行训练，得到训练好的DQN网络，对优化路段上的待规划ICEV的混合换道进行决策。

进一步地，所述步骤(2)中，对待规划ICEV的DQN网络进行初始化的方法，包括以下步骤：

(2.1)初始化待规划ICEV的DQN网络的记忆池

该记忆池

能够容纳N条记录，每条记录(O_t，A_t，R_t，O_t+1)包含了现态状态空间、所做动作、奖励值和次态状态空间的信息；

(2.2)初始化待规划ICEV的DQN网络中的估计网络结构及其神经网络权重参数；

(2.3)初始化待规划ICEV的DQN网络中的目标网络，使其与估计网络的结构和神经网络权重都相同；

(2.4)设定路段的训练时间。

进一步地，所述步骤(3)中，待规划ICEV的DQN网络的状态空间的获得方法，包括以下步骤：

(3.1)对待规划ICEV的六个邻居车辆的状态信息以及待规划ICEV本身的状态信息进行整合，得到状态空间的基本信息；

(3.2)根据待规划ICEV的当前速度与其最大速度，得到状态空间的速度附加项；

(3.3)根据待规划ICEV是否存在前车，定义优先区间的长度；

(3.4)基于优先区间的长度确定待规划ICEV前车的避让策略执行情况，并结合步骤(3.1)和(3.2)中确定的状态区间的基本信息和速度附加项信息，得到待规划ICEV的DQN网络的状态空间。

进一步地，所述步骤(3.1)中，得到的状态空间的基本信息为：

Neighbors＝<<Presence_leader，v_leader，y_leader-y_ego>，...<Presence_follower，v_follower，y_follower-y_ego>，<LaneIndex_ego，v_ego，Distance2go>>

其中，Presence代表该位置的邻居车辆是否存在，若存在赋以1，否则赋为0，Presence的下标包括leader、follower、leftleader、leftfollower、right leader、和rightfollower；v则代表了在Presence为1的情况下对应车辆的纵向速度，v的下标包括leader、follower、leftleader、leftfollower、right leader、rightfollower和ego；而y-y_ego则代表了Presence为1的情况下对应车辆相对于应急车辆的纵向距离，用对应车辆的纵向距离y减去应急车厢的纵向距离y_ego计算得到，y的下标包括leader、follower、leftleader、leftfollower、right leader和rightfollower；LaneIndex_ego代表应急车辆的车道编号；Distance2goal代表应急车辆与路段出口的距离。

进一步地，所述步骤(3.2)中，得到的速度附加项为：

Auxilliary Features＝<<Presence_leaderleader，v_leaderleader，y_leaderleader-y_ego>，<Presence_{leftleaderleader}，v_{leftleaderleader}，y_{leftleaderleader}-y_ego>，<Presence_{rightleaderleader}，v_{rightleaderleader}，y_{rightleaderleader}-ye_go>>

式中，Presence_leaderleader、Presence_{leftleaderleader}和Presence_{rightleaderleader}分别代表左前车的前车、右前车的前车以及前车的前车是否存在，若存在赋以1，否则赋为0；v_leaderleader、v_{leftleaderleader}和v_{rightleaderleader}分别代表在对应位置处存在邻居车辆的情况下对应车辆的纵向速度；y_leaderleader-y_ego、y_{leftleaderleader}-y_ego和y_{rightleaderleader}-y_ego分别代表对应车辆与应急车辆的纵向距离。

进一步地，所述步骤(3.3)中，优先区间的长度为：

其中，v_leader和v_ego分别是前车和应急车辆的速度，而

和

分别为应急车辆和普通车辆的最大制动/启动加速度。

进一步地，所述步骤(2.4)中，得到的DQN网络的状态空间为：

式中，State Space为DQN网络的状态空间，Neighbors Features为状态空间的基本信息；Auxilliary Features为速度附加项；Avoiding Deny为避让策略执行情况参数。

进一步地，所述步骤(4)中，初始化DQN网络中，其目标网络和估计网络结构相同，均包括输入层、第一层、第二层和输出层；所述输入层包括31个神经元，所述第一层包括20个神经元，所述第二层包括10个神经元；且

所述第一层神经元X₁的值为：

X₁＝W₀Leaky-ReLU(X₀)+B₁

其中，W₀为输入层与第一层之间的权重，Leaky_ReLU为激活函数，X₀为31个神经元构成的输入向量；B₁为第一层的偏置；且Leaky_ReLU函数为：

Leaky_ReLU(x)＝max(0.2x，x)

所述第二层神经元X₂的值为：

X₂＝W₁Leaky_ReLU(X₁)+B₂

其中，W₁为第一层与第二层之间的权重，B₂为第二层的偏置；

所述输出层的值为：

Q＝Softmax(W₂X₂)

其中，Q为动作空间

中每个动作的Q值经过softmax函数运算构成的5维向量；W₂为第二层与输出层之间的权重；W₂X₂＝[z₁，z₂，z₃，z₄，z₅]，z_i为第二层输出分别对应于动作空间

中五个动作的值，i＝1，2，3，4，5，且Softmax函数定义为：

其中，A_t为从这5个Q值中选取最大值对应的动作，也即初步决策。

进一步地，所述步骤(6)中，总奖励R_t的计算公式为：

R_t＝r_col+r_v+r_lc+r_cor

式中，r_col为安全驾驶的距离奖励；r_v为瞬时速度奖励；r_lc为平均换道次数奖励；r_cor为整体通行效率奖励；各奖励值的计算公式分别为：

式中，n为应急车辆同车道上的待规划ICCV总数；v_i是这n辆车中离待规划ICEV最近的第i辆待规划ICCV的速度，

是第i辆待规划ICCV的最大速度；d_total为路段整体长度，即从上一个交叉口到下一个交叉口的距离；v_max、v_min分别为该路段上应急车辆的最大速度和最小速度。

进一步地，所述步骤(7)中，DQN网络的训练方法为：

(7.1)在记忆池

中随机取出最小训练批数量的状态转移记录(O_t，A_t，R_t，O_t+1)；

(7.2)根据估计网络计算得到输出值Q，：

Q＝Q(O_t，A_t；θ)

其中，O_t是t时刻的状态空间观测值，A_t为这一时刻智能体选择的动作，θ为估计网络的网络参数；

(7.3)根据目标网络计算得到输出Q′：

其中，γ为折扣因子，R_t为t时刻获得的即时奖励，O_t+1是t+1时刻的状态空间观测值，A_t+1为t+1时刻智能体选择的动作，θ^-为目标网络的网络参数：

(7.4)经过预设训练迭代轮数

后，将目标网络的网络参数都赋值给估计网络，其中迭代轮数

根据实际情况而定：

θ←θ^-

(7.5)计算损失函数时利用Huber Loss函数，即：

(7.6)利用梯度下降法对目标网络的网络参数进行更新，其中，α为学习率：

(7.7)重复步骤(7.1)～(7.6)，循环训练，其中，每次训练时探索系数∈逐次从0.9降到0.1为止，同时在梯度下降法中用到的Adam优化器中对学习率α进行设置，使其不断衰减，也即学习率α：

其中，decay_rate为衰减率，global-step为训练总轮数，decay_steps为已经衰减的轮数。

本发明由于采取以上技术方案，其具有以下优点：

1)本发明待规划DQN网络的输入量为紧密的状态空间，提高了强化学习算法的数据利用率，节约了算力，也提升了DQN网络模型对道路拓扑结构的泛化能力。首先，该状态空间以几乎最少的数据，描述了应急车辆六个方向上邻居车辆存不存在、速度和相对距离的关系。其次，这种状态空间的数据组织形式相比传统的占据矩阵更能适应不同的道路拓扑结构，不仅可以在直道上应用，甚至可以在弯道、匝道甚至环岛等单向车流的承载路段上得到施展。

2)本发明在安全性和运输效率两方面采用连续奖励函数，代替了传统的离散稀疏奖励，更有效地刺激智能体学习；同时在奖励函数的设置方面，增加了对于整体交通流通行效率的考虑，将前车速度根据与本车的距离进行指数衰减加权平均作为奖励。

3)本发明将应急车辆的速度作为影响视野的因素，由此在观测值中引入速度适应项，构造了一种柔性可变的状态空间。应急车辆的速度越快，就会向状态空间补充附加项，这里采用自然语言处理中常用的神经网络输入层可变方式，即确定一个输入神经元数量的最大值，缺则补零。

4)本发明将确定性避让策略与深度强化学习方法进行有机结合，取长补短，最终的模型兼具稳定性与探索性。确定性避让策略的泛化能力差，无法适应复杂的交通场景，需要深度强化学习算法注入探索的能力，尽可能地在不同的交通场景中发现最优驾驶策略。但确定性避让策略的稳定性是深度强化学习无法比拟的，在初期实验中，确定性避让策略在稀疏车流下呈现出了良好的效果，而在相对饱和的正常车流下深度强化学习可以通过强大的探索能力，勇敢地自主换道，本发明使得两者相互补充，达到一个更好的驾驶效果。

综上，本发明可以广泛应用于道路换道决策控制领域。

附图说明

图1a和图1b分别是本发明由近邻车辆组成的紧密状态空间的基本部分的抽象模型和现实模型；

图2是本发明状态空间中的速度附加项；

图3是本发明算法流程框架；

图4是本发明中DQN方法的损失函数收敛性；

图5是本发明中DQN、DQN+避让策略混合算法在运行效率上的收敛性；

图6是没有考虑前方整体通行效率的混合策略遇到的局部堵塞现象。

图7是不同交通流密度下，考虑前方整体通行效率的合作式混合策略与没有考虑前方整体通行效率的混合策略对正常交通秩序的影响，其中深色和浅色轨迹分别代表ICEV和ICCV的时间距离关系。

具体实施方式

下面结合附图和实施例对本发明进行详细的描述。

本发明致力于把前车避让策略的执行情况与深度强化学习联系在一起，形成具有稳定性和探索能力的应急车辆路段换道跟驰方法。以深度强化学习中的DeepQ-Network为理论基础，将状态空间定义为由六个邻居车辆的是否在位、速度和与应急车辆的垂直距离，以及自车的速度、车道、离出口距离共同组成的向量，并在这个向量上创新性地加上了前车(leader car)的避让策略执行情况；将动作空间划分为：无操作、左侧换道、右侧换道、以预设加速度加速一个时间步长、以预设加速度减速一个时间步长；奖励函数从三个方面：安全性、运输效率、轨迹光滑程度来考虑，在安全性和运输效率两方面上使用连续的奖励函数，解决稀疏奖励的问题；为了防止连续奖励函数导致奖励值积累过多，从而造成的梯度爆炸的风险，本发明中的损失函数采用Huber Loss。具体的，包括以下步骤：

(1)如图1a和图1b所示，以典型的单向三车道2000米直道为优化路段，对该优化路段上的智能网联普通车辆和应急车辆的运行策略进行规划，其中，待规划智能网联普通车辆(ICCV)利用基于规则的避让策略，待规划智能网联应急车辆(ICEV)利用基于DQN网络的换道策略。

(2)对待规划的ICEV的DQN网络进行初始化。

具体的，包括以下步骤：

(2.1)初始化待规划ICEV的DQN网络中容量为N的记忆池(Replay Memory

)，该记忆池

中可以容纳N条记录，每条记录(O_t，A_t，R_t，O_t+1)包含了现态状态空间、所做动作、奖励值和次态状态空间的信息。

(2.2)初始化待规划ICEV的DQN网络中的Evaluate Net(估计网络)神经网络权重参数为θ。

(2.3)初始化待规划ICEV的DQN网络中与Evaluate Net的结构和神经网络权重都相同的Target Net(目标网络)。

(2.4)设定路段的训练时间。

(3)基于待规划ICEV及其六个邻居车辆的状态信息以及待规划ICEV前车的避让策略执行情况，得到待规划ICEV的DQN网络的状态空间，用于对每一时刻待规划ICEV所处的环境进行感知。

具体的，包括以下步骤：

(3.1)对待规划ICEV的六个邻居车辆的状态信息以及待规划ICEV本身(以下简称本车)的状态信息进行整合，得到DQN网络的状态空间的基本信息。

其中，本发明将待规划ICEV的六个邻居车辆分别定义为：左边车道离本车最近的前车(简称左前车Left Leader，下同)、左边车道离本车最近的后车(简称左后车LeftFollower)、右边车道离本车最近的前车(简称右前车Right Leader)、右边车道离本车最近的后车(简称右后车Right Follower)、离本车最近的前车(简称前车Leader)、离本车最近的后车(简称后车Follower)，六个邻居车辆的状态信息包括：存在与否(Presence)、速度(Velocity)和相对自车的纵向距离(Distance2ego：y-y_ego)；本车的状态信息包括：速度(Ego Velocity)、车道编号(Lane Index)、与路段出口的距离(Distance2goal)。

得到的状态空间的基本信息为：

Neighbors＝<<Presence_leader，v_leader，y_leader-y_ego>，...<Presence_follower，v_follower，y_follower-y_ego>，<LaneIndex_ego，v_ego，Distance2goal>> (1)

其中，Presence代表该位置的邻居车辆是否存在，若存在赋以1，否则赋为0，Presence的下标包括leader、follower、leftleader、leftfollower、right leader、和rightfollower；v则代表了在Presence为1的情况下对应车辆的纵向速度，v的下标包括leader、follower、leftleader、leftfollower、right leader、rightfollower和ego；而y-y_ego则代表了Presence为1的情况下对应车辆相对于应急车辆的纵向距离(用对应车辆的纵向距离y减去应急车厢的纵向距离y_ego来计算)，y的下标包括leader、follower、leftleader、left follower、right leader和right follower；LaneIndex_ego代表应急车辆的车道编号；Distance2goal代表应急车辆与路段出口的距离。

(3.2)如图2所示，根据待规划ICEV的当前速度与其最大速度，为定义的状态空间增加速度适应项，得到状态空间的速度附加项。

应急车辆的视野会随着速度的增快而扩大，因此，当应急车辆速度大于其最大速度的一半

时，状态空间中需加入左前车的前车(Left Leader Leader)、右前车的前车(Right Leader Leader)和前车的前车(Leader Leader)三个位置的车辆状态信息，包括存在与否Presence、速度Velocity和相对自车的纵向距离Distance2ego：y-y_ego，构成状态空间的速度附加项，如式(2)：

Auxilliary Features＝<<Presence_leaderleader，v_leaderleader，y_leaderleader-y_ego>，<Presence_{leftleaderleader}，v_{leftleaderleader}，y_{leitleaderleader}-y_ego>，<Presence_{rightleaderleader}，v_{rightleaderleader}，y_{rightleaderleader}-y_ego>> (2)

其中，Presence_leaderleader、Presence_{leftleaderleader}和Presence_{rightleaderleader}分别代表左前车的前车、右前车的前车以及前车的前车是否存在，若存在赋以1，否则赋为0；v_leaderleader、v_{leftleaderleader}和v_{rightleaderleader}分别代表在对应位置处存在邻居车辆的情况下对应车辆的纵向速度；y_leaderleader-y_ego、y_{leftleaderleader}-y_ego和y_{rightleaderleader}-y_ego分别代表对应车辆与应急车辆的纵向距离。

当应急车辆的当前速度不及其最大速度一半时，则将式(2)中对于左前车的前车(Left Leader Leader)、右前车的前车(Right Leader Leader)和前车的前车(LeaderLeader)三个位置的车辆状态信息置为0。

(3.3)根据待规划ICEV是否存在前车，定义优先区间的长度。

如果待规划ICEV存在前车，即Presence_leader＝1，且v_leader＞v_ego，则定义优先区间的长度为：

其中，v_leader和v_ego分别是前车和应急车辆的速度，而

和

分别为应急车辆(ICEV)和普通车辆(ICCV)的最大制动/启动加速度。

凡是在本车同车道的前方优先区间PriorityDistance距离内，将执行避让策略，也就是能换道优先换道，由于安全距离等因素的限制无法换道则加速；若前车执行了避让策略，则待规划ICEV将不能选择换道或者减速。

(3.4)基于优先区间的长度确定待规划ICEV前车的避让策略执行情况，并结合步骤(3.1)和(3.2)中确定的状态区间的基本信息和速度附加项信息，得到待规划ICEV的DQN网络完整的状态空间。

在一个时间步长后，如果前一时刻的前车执行了加速或者换道动作，则认为它服从了避让策略，将Avoiding Deny赋值为1，否则为0；将这个代表着避让策略执行情况的参数引入状态空间，与式(1)和式(2)中的部分状态信息共同构成了完整的DQN网络的状态空间，也即DQN网络的输入为：

(4)将步骤(3)得到的DQN网络完整的状态空间作为输入量输入DQN网络，得到t时刻的输出值Q，并从输出值Q中选取最大值将其对应的动作A_t作为初步决策。其中，DQN网络的输出值Q构成了动作空间

该动作空间

包括以3m/s²的加速度加速一个时间步长、以3m/s²的加速度减速一个时间步长、左侧换道、右侧换道、无操作5个动作。

本发明中设计的待规划ICEV的DQN目标网络和估计网络包括输入层、第一层、第二层和输出层。其中，输入层包括31个神经元，第一层和第二层分别包括20、10个神经元。表示状态空间的31维向量作为DQN网络输入层的31个神经元输入，以全连接的方式与第一层的20个神经元连接，则共有620条边，每条边上对应的权重w_ij表示输入层的第i个神经元与第一层的第j个神经元相连接的权重，同理任意两层之间的连接权重都可以采用权重的矩阵W表示(W∈R^m×n)，其中m表示前一层的神经元个数，n表示下一层的神经元个数，也即权重矩阵W为：

且对于每一层的每一神经元均设置有偏置量b_i，每一层的偏置量可以采用向量B表示(B∈R^K)，K表示当前层神经元的个数：

B＝[b₁…b_k] (6)

令输入的31个神经元整体为向量X₀，通过激活函数Leaky-ReLU函数，以全连接的方式连接至第一层的20个神经元上，输入层与第一层之间的权重为W₀，第一层的偏置为B₁，则第一层神经元X₁的值为：

X₁＝W₀Leaky_ReLU(X₀)+B₁ (7)

第一层神经元的值再通过Leaky_ReLU函数，以全连接的方式连接至第二层的10个神经元上，则第二层神经元X₂的值为：

X₂＝W₁Leaky_ReLU(X₁)+B₂ (8)

其中，W₁为第一层与第二层之间的权重，B₂为第二层的偏置，Leaky-ReLU函数为：

Leaky-ReLU(x)＝max(0.2x，x) (9)

第二层的神经元以全连接的方式，通过Softmax函数连接至输出层的5维向量Q：

Q＝Softmax(W₂X₂) (10)

其中，Q为动作空间

中五个动作的值，i＝1，2，3，4，5。

式(10)中，Softmax函数定义为：

其中，A_t为从这5个Q值中选取最大值并将其对应的动作作为初步决策。

(5)建立动作选择屏障，用于对步骤(4)得到的初步决策A_t进行验证和选择，直到从输出值Q或动作空间中最终选出的动作满足交通规则和道路物理结构。

如图3所示，由于选出来的初步决策A_t可能会违反交通规则或者超出道路物理界限，因此要加上一道动作选择屏障(Rule-mask)作为先验知识，即如果ICEV向不存在的车道换道或者将速度加大规定最大速度以上，抑或是减速减到负数，都将重新从输出值Q中选择动作：

其中，∈为探索系数，选择动作时有1-∈的概率从输出值Q中选择，有∈的概率从动作空间进行随机选择。循环选择动作，直到最终选出的动作A_t满足交通规则和道路物理结构；如式5，

是原动作空间

除去被Rule-mask排除的动作后可选择的动作空间。

(6)定义奖励函数，用于对步骤(5)中得到的t时刻的动作所对应的总奖励R_t进行计算。

由于跟驰模型Krauss-β和换道模型LC2013(都是已有的完备模型，这里不再展开细讲)对待规划ICEV进行安全保护，所以做出的动作未必是DQN网络选出来的动作(如图3)，所以只有真正服从了DQN网络的选择而没有被内置模型屏蔽掉的动作，即只有obey＝1的动作才参与学习，也就是这样的动作才能分配奖励函数，否则将给出零奖励。奖励函数的设置主要从三方面考虑：安全性、运输效率、和轨迹光滑程度(又称乘客舒适性)；这三个方面分别由这三个指标衡量：安全驾驶的距离、瞬时速度、平均换道次数，分别对应着r_col，r_v和r_lc的三种奖励。

其中，在安全性和通行效率方面采用了连续奖励函数，克服了稀疏奖励的低效性：安全性的奖励与安全驾驶距离d_survive成正比如式(16)，即安全驾驶距离越长得到的奖励越高；运输效率的奖励与当前的速度v_current成正比如式(17)，即瞬时速度越快则得到的奖励越高。在轨迹光滑程度上，对车辆在达到最大速度时的换道行为施以负的奖励如式(18)，因为本发明认为无法追求更大速度的换道动作是无意义行为，这样有利于模型收敛。

其中，r_col为安全驾驶的距离奖励；r_v为瞬时速度奖励；r_lc为平均换道次数奖励；d_total为路段整体长度，即从上一个交叉口到下一个交叉口的距离；v_max、v_min分别为该路段上应急车辆的最大速度和最小速度。

除此之外经过实验发现，为了防止ICEV过多换道对ICCV交通流产生巨大扰动反而使得ICEV通行效率降低的情况出现，还需要附加一个表征整体通行效率的奖励r_cor如式(19)来抑制ICEV对ICCV的过度竞争和车道侵占，提高ICEV的利他性反而会提高整体通行效率，从而避免随之带来的局部堵塞，ICEV的旅途时间也会缩短。整个式(19)是对每一辆同车道前车的速度进行纵向间距的衰减指数加权(离待规划ICEV越近的ICCV的速度权重越大，在奖励中占比越大)，再归一化的过程。以上所有奖励的总和才是t时刻交互一次得到的总奖励R_t如式(20)：

R_t＝r_col+r_v+r_lc+r_cor (20)

其中，n为应急车辆同车道上的ICCV总数；v_i是这n辆车中离待规划ICEV最近的第i辆ICCV的速度，

是第i辆ICCV的最大速度。

(7)根据定义的状态空间、动作空间、动作选择屏障以及奖励函数，对已经初始化的DQN网络进行训练，得到训练好的DQN网络，用于对优化路段上的待规划ICEV的混合换道进行决策。

其中，DQN网络的训练方法为：

(7.1)在记忆池

中随机取出最小训练批数量(mini-batch)的状态转移记录(O_t，A_t，R_t，O_t+1)。

(7.2)根据图3中的估计网络(Evaluate Net)计算得到输出值Q，计算公式为：

Q＝Q(O_t，A_t；θ) (21)

其中，O_t是t时刻的状态空间观测值，A_t为t时刻智能体选择的动作，θ为EvaluateNet的神经网络权重参数。

(7.3)根据目标网络(Target Net)如式(22)计算得到输出Q′，计算公式为：

其中，γ为折扣因子，R_t为t时刻获得的即时奖励，O_t+1是t+1时刻的状态空间观测值，A_t+1为t+1时刻智能体选择的动作，θ^-为Target Net的网络参数。

(7.4)经过预设的训练迭代轮数

后，将目标网络的参数都赋值给估计网络，其中，训练迭代轮数

根据实际情况而定：

θ←θ^-(23)

(7.5)在计算损失函数时利用如式(24)所示的Huber Loss函数，来解决奖励值密集累积可能导致的梯度爆炸问题：

(7.6)利用梯度下降法(技术已经公开的方法，细节不再赘述)对目标网络的网络参数进行更新：

其中，α为学习率。

(7.7)循环训练。其中，每次训练时探索系数∈都将下降，从0.9降到0.1为止；同时在梯度下降法中用到的Adam优化器中设置不断衰减的学习率α，以使其在能收敛的同时又不落入局部最优。

其中，decay-rate为衰减率，global_step为训练总轮数，decay_steps为已经衰减的轮数。

实施例一

下面通过具体实例详细说明本发明在智能网联应急车辆路段决策方面的效果：

1、首先，算法的强化学习部分得到了很好的收敛效果如图4所示，描述了损失函数值在近200000步的训练后趋于零的效果显著；

2、在训练过程中监测DQN策略和“DQN+避让”混合策略的速度收敛性如图5所示，都可以收敛到比基线(默认跟驰模型：图中虚线所示)更低的通行时间；

3、本来应该混合策略应该更稳定，但是如图5可以看出并不是这样，往往会出现如图6所示的场景，即由于ICEV大量的换道导致前车不断执行避让动作，是的前方交通流混乱无序，反而形成了局部的堵塞，抑制了ICEV加速，所以ICEV需要调整学习策略，考虑前车通行效率，得到了本发明最终的算法如表1所示：“DQN+避让策略(考虑前方交通效率)”。

4、在0.5veh/s、1veh/s、1.5veh/s的ICCV车流下，分别对基线(默认跟驰算法Krauss-β)、DQN、避让策略、DQN+避让策略的混合策略和考虑前方交通情况的DQN+避让策略混合策略：

(1)从安全性的角度看，含有本发明中提出的DQN部分的实验均取得了远低于确定性算法的事故率；

(2)再从运行速度的角度看，单独的DQN算法不及单独的避让策略，而DQN+避让策略的混合策略也不比单独的避让策略有优势；然而本发明中考虑前方交通效率的混合策略则取得了更快的速度；在图7中体现了这种考虑前方整体通行效率的合作式混合策略与没有考虑前方整体通行效率的混合策略对正常交通秩序的影响，均可以明显看出改进后具有合作倾向的混合策略会更少地侵占ICCV的道路通行权，所有图线更加均匀稳定，整体交通流更有秩序，最后在表1中反映为换道频率的降低和响应时间的缩短。

(3)从换道频次(轨迹光滑程度、乘客舒适度)来看，本发明的方法克服了DQN中无意义换道地倾向；

(4)从不同的交通流量来看，在相比在高交通流下(如：1veh/s、1.5veh/s)，正常流量下(0.5veh/s)本发明的效果更加出色；

表1.实验效果对比

此实施例仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于强化学习和避让策略的应急车辆混合换道决策方法，其特征在于，包括以下步骤：

(2)对待规划ICEV的DQN网络进行初始化；

2.如权利要求1所述的一种基于强化学习和避让策略的应急车辆混合换道决策方法，其特征在于，所述步骤(2)中，对待规划ICEV的DQN网络进行初始化的方法，包括以下步骤：

(2.1)初始化待规划ICEV的DQN网络的记忆池

该记忆池

(2.2)初始化待规划ICEV的DQN网络中的估计网络的结构及其神经网络权重参数；

(2.4)设定路段的训练时间。

3.如权利要求1所述的一种基于强化学习和避让策略的应急车辆混合换道决策方法，其特征在于，所述步骤(3)中，待规划ICEV的DQN网络的状态空间的获得方法，包括以下步骤：

(3.3)根据待规划ICEV是否存在前车，定义优先区间的长度；

4.如权利要求3所述的一种基于强化学习和避让策略的应急车辆混合换道决策方法，其特征在于，所述步骤(3.1)中，得到的状态空间的基本信息为：

Neighbors＝＜＜Presence_leader，v_leader，y_leader-y_ego＞，...＜Presence_follower，v_follower，y_follower-y_ego＞，＜LaneIndex_ego，v_ego，Distance2go＞＞

其中，Presence代表该位置的邻居车辆是否存在，若存在赋以1，否则赋为0，Presence的下标包括leader、follower、left leader、left follower、right leader、和rightfollower；v则代表了在Presence为1的情况下对应车辆的纵向速度，v的下标包括leader、follower、left leader、left follower、right leader、right follower和ego；而y-y_ego则代表了Presence为1的情况下对应车辆相对于应急车辆的纵向距离，用对应车辆的纵向距离y减去应急车厢的纵向距离y_ego计算得到，y的下标包括leader、follower、left leader、left follower、right leader和right follower；LaneIndex_ego代表应急车辆的车道编号；Distance2goal代表应急车辆与路段出口的距离。

5.如权利要求3所述的一种基于强化学习和避让策略的应急车辆混合换道决策方法，其特征在于，所述步骤(3.2)中，得到的速度附加项为：

Auxilliary Features＝＜＜Presence_leaderleader，v_leaderleader，y_leaderleader-y_ego＞，＜Presence_{leftleaderleader}，v_{leftleaderleader}，y_{leitleaderleader}-y_ego＞，＜Presence_{rightleaderleader}，v_{rightleaderleader}，y_{rightleaderleader}-y_ego＞＞