CN114074680A

CN114074680A - 基于深度强化学习的车辆换道行为决策方法及系统

Info

Publication number: CN114074680A
Application number: CN202010801555.1A
Authority: CN
Inventors: 曹昊天; 盛鑫; 宋晓琳; 李明俊
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2020-08-11
Filing date: 2020-08-11
Publication date: 2022-02-22
Anticipated expiration: 2040-08-11
Also published as: CN114074680B

Abstract

本发明公开了一种基于深度强化学习的车辆换道行为决策方法及系统，车端决策网络附加短时域决策安全评估纠错机制，在纯强化学习基础上引入先验驾驶知识，可以约束低效策略随机探索，提高策略探索效率；云端策略学习附加异常经历加强学习机制，可以加速策略优化。采用经历上传、策略下发机制，利用多车丰富的交互经历学习优化主动换道策略下发给各车端使用，有利于策略优化和鲁棒性提升；将算力需求大的策略学习集中在云端高性能计算机集群进行，能有效降低车端算力占用和电能消耗，有利于在车载嵌入式计算平台实施。

Description

基于深度强化学习的车辆换道行为决策方法及系统

技术领域

本发明涉及智能汽车自动驾驶领域，特别是一种基于深度强化学习的车辆换道行为决策方法。

背景技术

在智能汽车自动驾驶系统中，行为决策模块起着承上启下的重要作用：基于环境感知信息及车辆自身状态信息，结合目标规划决策车辆行为，下发给运动规划及控制模块执行。对智能汽车行为决策模块的要求：1.能适应复杂多变的道路环境，任何情况下均能有效决策，充分保障决策安全；2.兼顾车辆通行效率、燃油经济性及乘客的乘坐舒适性。

模仿学习决策是一种基于专家驾驶员决策示范进行策略学习的决策方法，将主动换道行为决策问题转化为有监督学习多分类问题进行处理。如图2所示，该方法首先采集大量专家驾驶员在各种场景下的主动换道操纵数据，以环境及车辆状态作为学习特征，以提取的对应专家驾驶员行为决策输出作为样本标签，使用监督学习方法训练多分类器作为决策器，分类器测试完成后固定网络参数实装决策。

为保证决策模块性能，采集的驾驶员示范样本应尽可能涵盖各种可能出现的场景，且需在实装前进行多轮迭代测试充分验证决策安全性及鲁棒性，工作量大、成本高。模仿学习决策模仿专家驾驶员决策，其决策能力无法超越专家驾驶员的水平，且无法在使用过程中根据实际经历在线持续学习，因而其对复杂多变的道路环境适应能力欠缺。

纯强化学习决策不使用先验知识或专家驾驶员示范，而是通过将决策问题转化为图 3所示马尔可夫决策过程，设置相应的奖励函数，通过决策模块与环境在线交互的奖励值变化引导其进行策略探索和利用，从而学习优化决策策略。目前该领域常用的纯强化学习框架有基于动作价值强化学习、基于策略强化学习以及逆强化学习结合强化学习等。

纯强化学习决策未利用先验知识及专家示范，仅依靠策略探索来学习优化策略，学习前期随机策略探索学习效率低，学习收敛速度慢，训练时间成本高；纯强化学习的概率决策机制会对决策安全性及鲁棒性造成不利影响，难以充分保障智能汽车决策安全。

发明内容

本发明所要解决的技术问题是，针对现有技术不足，提供一种基于深度强化学习的车辆换道行为决策方法及系统，提高策略探索效率，加速策略优化。

为解决上述技术问题，本发明所采用的技术方案是：一种基于深度强化学习的车辆换道行为决策方法，包括：

1)在云端及多个车端部署决策网络；

2)每隔设定周期，云端决策网络从云端动态经历库中批采样经历样本用于策略学习，更新云端决策网络参数，更新完成后将最新策略，即更新后的云端决策网络参数下发给车端决策网络，云端策略学习更新下发完成，等待下一云端策略学习下发周期开始；

每一车端决策周期开始时，车端决策网络根据自车运动状态信息及周边车运动状态信息决策应采取的动作，决策动作经过安全评估纠错后下发执行，获取更新的状态信息及对应奖励值，将决策经历<原状态，决策动作，更新状态，奖励值，交互结束标志>存储在车端经历缓存中，定期将车端经历缓存中的经历上传到云端动态经历库，车端决策完成，等待下一车端决策周期开始。

本发明决策动作支持有限离散或连续动作，能满足不同应用场景的不同决策精度需求；车端决策网络附加安全评估纠错机制，在纯强化学习基础上引入先验驾驶知识，可以约束低效策略随机探索，提高策略探索效率。

步骤1)中，所述云端决策网络包括：

当前策略网络：云端策略学习更新时，调用历史策略网络及评估网络，从云端动态经历库批采样经历样本，正向传播计算剪裁代理损失，将剪裁代理损失进行策略梯度反向传播更新当前策略网络参数，从而优化主动换道策略，完成当前策略网络学习；

历史策略网络：用于存储历史策略，供当前策略网络调用以计算剪裁代理损失；

评估网络：用于评估预测状态价值，供当前策略网络调用以计算剪裁代理损失；在云端策略学习时，基于云端动态经历库采样经历样本，正向传播计算时间差分误差损失，损失梯度反向传播更新评估网络参数。

云端决策网络从云端动态经历库中重要度批采样经历样本，可以重点加强对异常经历的学习，从而加速策略优化。

本发明车端决策网络包括：

当前策略网络：根据输入状态信息计算决策动作概率分布，据此选择车端决策动作；

历史策略网络：与云端结构相同，在车端仅起到占位作用；

评估网络：与云端结构相同，车端不进行学习更新，仅起到占位作用。

本发明的车端实际上只使用到了当前决策网络，根据输入信息产生决策动作、收集经历上传，历史策略网络和评估网络仅起占位作用使云端车端网络结构相同，从而便于云端策略学习更新后的网络参数下发。

为进一步优化换道策略和提升鲁棒性，当前策略网络优化主动换道策略的具体实现过程包括：记车辆主动换道策略为π，则最优策略π^*为无穷控制时域范围内折扣奖励总和期望最大时对应的策略：

其中，τ(π)为策略π下的决策轨迹；r_t为时间步t时按照奖励函数算得的奖励值；γ∈(0,1)为折扣因子,

为策略π在无穷控制时域范围内折扣奖励总和的期望值。

所述奖励函数R＝W₁R_S+W₂R_V+W₃R_A；W_i为各项对应权值，i＝1，2，3；安全性奖励

其中TH_f为当前车距离所在车道最近前车的车头时距，TH_r 为所在车道最近后车距自车车头时距，TH_b为设定的车头时距阈值，t₁、t₂为权重系数；通行效率奖励

其中V为自车当前车速，V_L为当前路段限速下界，V_T为当前路段目标车速；平顺性奖励

其中t0为决策动作开始执行时对应时间，T为执行决策动作所需时间，Δa_long为主车纵向加速度变化量， Δa_lat为主车横向加速度变化量，w₁和w₂为权重系数。附加w₁和w₂，以避免车辆因微量奖励提升而选择变速换道频繁的策略，体现对车辆行驶稳定性及乘客乘坐舒适性的要求。

为了对策略更新幅度进行限制，避免过大的策略更新导致策略学习失稳，本发明当前策略网络计算的剪裁代理损失L^CLIP的表达式为：

其中clip()表示剪裁操作，表示根据设定的剪裁系数c将

值限幅在[1-c,1+c]区间内：若

取值为1+c；若

取值为1-c；；若

取值为

A_t*为新策略相较历史策略的相对优势，

式中γ为折扣因子,

为样本状态输入策略网络按策略π前推T_forward时间步记录经历算得的累积衰减奖励和，V_φ为样本状态输入评估网络计算得到的预测状态价值，两者差值为策略π的评估优势；所以式中

项为样本状态输入当前策略网络和评估网络算得的当前策略的评估优势，

项为样本状态输入历史策略网络和评估网络算得的历史策略的评估优势，二者差值即为新策略相较历史策略的相对优势；

为新旧策略差异，其中π_θ(a_t*|s_t*)为当前策略网络根据样本状态计算出的决策动作概率分布P中最大项，记该项对应动作为a_t*；

为历史策略网络根据样本状态算出的决策动作概率分布P’中对应于动作a_t*的项；两项相除即算出新旧策略差异。

评估网络的时间差分误差TD_error的计算公式为：

其中M为采样经历样本数，V_φ(s_m)为第m个样本状态输入评估网络输出的预测状态价值，

为第m个样本的衰减奖励和。时间差分误差 TD_error越小，即损失越小。

车端决策的具体实现过程包括：

1)输入自车及周边最邻近三辆车的运动状态信息；

2)将运动状态信息输入车端决策网络中的当前策略网络，计算得到原始决策动作；

3)基于预设规则对原始决策动作进行安全评估；若安全评估不通过，使用备用安全决策动作替换原始决策动作；若通过，则直接进入步骤4)；

4)输出经步骤3)处理后的决策动作，下发给下层规划控制模块执行，获取决策动作并执行决策动作后更新状态及奖励值；

5)将本次交互经历<状态，决策动作，更新状态，奖励值，轮次结束标志>存入车端经历缓存；车端经历缓存存满或到达预设经历上传周期时，将车端经历缓存中的经历上传至云端，更新云端动态经历库。

云端策略学习下发的具体实现过程包括：

1)从云端动态经历库中重要度批采样设定数量经历样本；

2)将经历样本输入云端决策网络的评估网络，计算经历样本的时间差分误差损失，将误差损失进行梯度反向传播更新评估网络参数，完成评估网络学习；

3)将经历样本输入云端决策网络的当前策略网络和历史策略网络，调用评估网络计算剪裁代理损失，剪裁代理损失进行策略梯度反向传播更新当前策略网络参数，完成当前策略网络学习；若到达设定的策略存储周期，将当前策略网络参数同步给历史策略网络存储；

4)提取云端决策网络参数，将所述云端决策网络参数下发给车端决策网络，同步更新车端决策网络参数，使车端获得最新的优化主动换道策略用于决策。

本发明还提供了一种基于深度强化学习的车辆换道行为决策系统，包括：

云端决策网络，用于每隔设定周期，从云端动态经历库中批采样经历样本用于策略学习，更新网络参数，更新完成后将最新策略，即更新后的云端决策网络参数下发给车端决策网络，云端策略学习更新下发完成，等待下一云端策略学习下发周期开始；

车端决策网络，用于根据自车运动状态信息及周边车运动状态信息决策应采取的动作，决策动作经过安全评估纠错后下发执行，获取更新的状态信息及对应奖励值，将决策经历<原状态，决策动作，更新状态，奖励值，交互结束标志>存储在车端经历缓存中，定期将车端经历缓存中的经历上传到云端动态经历库，车端决策完成，等待下一车端决策周期开始。

优选地，所述云端决策网络包括：

当前策略网络：用于云端策略学习更新时，调用历史策略网络及评估网络，从云端动态经历库批采样经历样本，正向传播计算剪裁代理损失，将剪裁代理损失进行策略梯度反向传播更新当前策略网络参数，从而优化主动换道策略，完成当前策略网络学习；

评估网络：用于评估预测状态价值，供当前策略网络调用以计算剪裁代理损失；基于云端动态经历库采样经历样本，正向传播计算时间差分误差损失，损失梯度反向传播更新评估网络参数；

作为一个发明构思，本发明还提供了一种基于深度强化学习的车辆换道行为决策系统，包括部署于云端的云端控制器，以及部署于各车端的车端控制器；所述云端控制器与各车端控制器通信；所述云端控制器与各车端控制器被配置为用于执行本发明上述方法的步骤。

与现有技术相比，本发明所具有的有益效果为：

1、本发明决策动作支持有限离散或连续动作，能满足不同应用场景的不同决策精度需求。

2、车端决策网络附加短时域决策安全评估纠错机制，在纯强化学习基础上引入先验驾驶知识，可以约束低效策略随机探索，提高策略探索效率；云端策略学习时从云端动态经历库中重要度批采样经历样本，可以重点加强对异常经历的学习，从而加速策略优化。

3、采用经历上传、策略下发机制，利用多车丰富的交互经历学习优化主动换道策略下发给各车端使用，有利于策略优化和鲁棒性提升；将算力需求大的策略学习集中在云端高性能计算机集群进行，能有效降低车端算力占用和电能消耗，有利于在车载嵌入式计算平台实施。

附图说明

图1为自动驾驶系统框架图；

图2为模仿学习决策示意图；

图3为马尔可夫决策过程；

图4为本发明整体架构图；

图5为剪裁近端策略优化网络结构图；

图6为车端决策流程图；

图7为云端策略学习下发流程图；

图8为经历重要度存储数据结构；

图9为实际工程应用示意图；

图10为本发明实施流程图；

图11为本发明实施例轮次平均奖励值随学习轮次变化曲线图；

图12为本发明方法与DDQN方法的轮次平均奖励值变化曲线对比图。

具体实施方式

本发明的整体架构如图4所示，本发明提出的车辆主动换道行为决策方法由车端决策和云端策略学习下发两部分组成，基于经历上传、策略下发分布式在线学习机制进行主动换道决策及最优策略学习，整体实施过程为：

1)云端及多车端部署相同结构的剪裁近端策略优化决策网络，车端决策网络用于实际决策及经历收集上传，云端决策网络定期利用多车端上传的经历进行策略学习、更新及下发；

2)每一车端决策周期开始时，车端决策网络根据自车运动状态信息(通过车载传感器测得)及周边车运动状态信息(通过车车通信获取)决策应采取的动作，决策动作经过短时域决策安全评估纠错后下发执行，获取更新状态信息及对应奖励值，将决策经历<原状态，决策动作，更新状态，奖励值，交互结束标志>存储在车端经历缓存中，定期将车端经历缓存中的经历通过车联网上传到云端动态经历库，车端决策完成，等待下一车端决策周期开始；

3)每隔设定周期，云端决策网络从云端动态经历库中重要度批采样经历样本用于策略学习，更新云端决策网络参数，完成后将最新策略(即云端决策网络参数)下发给车端决策网络，使车端使用最新的主动换道策略进行决策，云端策略学习更新下发完成，等待下一云端策略学习下发周期开始。

分为以下五部分分别予以阐述：

一.马尔可夫决策过程构建：将车辆主动换道行为决策问题转化为马尔可夫决策过程进行求解；

二.剪裁近端策略优化决策网络介绍：分别介绍剪裁近端策略优化决策网络所包含的当前策略网络、历史策略网络及评估网络三个子网络的结构并定义各自学习损失函数；

三.车端决策详细实现过程：介绍车端决策的具体流程。

四.云端策略学习下发详细实现过程：介绍云端策略学习下发的具体流程。

五.实际工程应用：阐述如何在实际工程应用中实施本发明方案。

一：马尔可夫决策过程构建

车辆主动换道行为决策需考虑自车及周边车辆运动状态，由于周边车辆运动不可控且随机性大，为便于求解需适当简化问题。本发明假定车辆主动换道行为决策满足马尔可夫性(即主动换道决策只考虑当前状态，不受历史状态影响)且状态动作转移概率未知，将车辆主动换道行为决策问题转化为无模型马尔可夫决策过程进行求解。对应马尔可夫决策过程描述如下：

1.马尔可夫决策过程输入

马尔可夫决策过程输入为自车所在车道lane_h、速度v_h、加速度a_h以及离自车最近的三辆环境车所在车道lane_i、相对位置rs_i、相对速度rv_i、相对加速度ra_i等运动状态信息，i＝1,2,3。假定自车运动状态信息可通过车载传感器测量，周边车运动状态信息可通过车车通信(V2V)获取，周边车运动状态信息使用车辆匀速模型(CV model)基于预估通信时滞进行修正。

2.马尔可夫决策过程决策输出

马尔可夫决策过程的决策输出为16个有限离散动作(action1,action2,…,action16)，由横向动作{当前车道保持,向左换道,向右换道}与纵向动作{加速，少量加速，速度保持，减速，少量减速}复合而成，同时附加紧急制动动作以应对突发紧急情况；决策输出可根据具体应用场景决策精度需求设置为有限离散动作或连续动作。

3.最优车辆主动换道策略求解

记车辆主动换道策略为π，则最优策略π^*为无穷控制时域范围内折扣奖励总和期望最大时对应的策略

式中γ∈(0,1)为折扣因子，体现对短期奖励和长期奖励的权衡，越接近于1越重视长期奖励,本发明参考相关文献取为0.9；τ(π)为策略π下的决策轨迹，

为策略π在无穷控制时域范围内折扣奖励总和的期望值；r_t为时间步t时按照奖励函数算得的奖励值，奖励函数R＝W₁R_S+W₂R_V+W₃R_A，(W_i为各项对应权值，i＝1,2,3)，式中：

(1)安全性奖励

其中TH_f为自车距所在车道最近前车车头时距，TH_r为所在车道最近后车距自车车头时距(若所在车道无对应车则设为基线值)，TH_b为人为设定的车头时距阈值，t₁、t₂为权重系数，考虑到前向空间对自车行车安全影响更大，取t₁＝0.6,t₂＝0.4，安全奖励综合表征自车前后可通行空间的大小，体现了对决策安全性的要求。(2)通行效率奖励

其中V为自车当前车速，V_L为当前路段限速下界，V_T为当前路段目标车速，期望速度奖励为自车当前车速和目标车速间落差，体现了对通行效率的要求。(3)平顺性奖励

为主车执行决策动作过程中纵横向加速度变化量在时间上加权积分，式中t0 为决策动作开始执行对应时间，T为执行决策动作所需时间，Δa_long为主车纵向加速度变化量，Δa_lat为主车横向加速度变化量，w₁和w₂为对应权重系数，考虑到横向加速度变化相较纵向加速度变化对平顺性影响更大，取w₁＝0.3,w₂＝0.7，附加此项以避免车辆因微量奖励提升而选择变速换道频繁的策略，体现对车辆行驶稳定性及乘客乘坐舒适性的要求。

由于车辆主动换道马尔可夫决策过程较为复杂且状态动作转移概率未知，因此无法使用贝尔曼方程迭代等传统数值方法直接求解最优策略，需通过策略探索等间接方法求解求解最优策略。本发明则采用深度强化学习方法，通过与环境动态交互时主动策略探索来学习优化主动换道行为决策策略。

二：剪裁近端策略优化决策网络结构

云端和车端的决策网络结构相同，均为如图5所示剪裁近端策略优化(CPPO)网络，由当前策略网络、历史策略网络、评估网络三个子网络组成，三个子网络的功能与结构说明如下：

1.当前策略网络

当前策略网络用于实际决策，由5层激活函数为ReLU的全连接层和一个softmax函数层组成。

(1)网络输入：运动状态信息

(2)网络输出：决策动作概率分布

其中5层激活函数为ReLU的全连接层输出关于各决策动作的特征分向量out＝(o₁,o₂,…,o₁₆),通过softmax函数层将向量out转化为关于各决策动作的概率分布 P＝(P₁,P₂,P₃,…,P₁₆),通过softmax函数得到概率分布P的表达式为：

其中o_i为全连接层输出out中关于第i种决策动作的分向量，P_i是该观测状态应采取第i种决策动作的概率。

决策动作选取采用ε贪婪算法：以1-ε概率取概率分布P中最大项对应的决策动作作为决策输出，以ε概率随机选取决策动作作为决策输出，策略学习开始阶段设置较大 ε初值以鼓励策略探索，学习过程中逐渐缩小ε值以增强策略利用保证策略学习收敛，从而在策略探索与利用间取得平衡。

(3)网络学习损失函数：

当前策略网络基于采样经历样本进行学习时，损失函数为剪裁代理损失：

式中：

①clip()表示剪裁操作，表示根据设定的剪裁系数c将

值限幅在[1-c,1+c]区间内(若

取值为1+c；若

取值为1-c；若

取值

)。剪裁的目的是对策略更新幅度进行限制，避免过大的策略更新导致策略学习失稳。

②A_t为新策略相较历史策略的相对优势，决定策略学习时的策略更新方向和幅度。

式中γ为折扣因子,

为样本按策略π前推T_forward时间步的累积衰减奖励和，V_φ(s_t)为样本状态输入评估网络计算得到的预测状态价值，两者差值为策略π评估优势；故

为当前策略评估优势，

为历史策略评估优势，二者差值即为新策略相较历史策略的相对优势。

③

为新旧策略差异，用于调节策略更新幅度；其中π_θ(a_t|s_t)为当前策略网络根据样本状态算出的决策动作的概率分布P中最大项，记该项对应动作为a_t；

为历史策略网络根据样本状态算出的决策动作的概率分布P’对应动作a_t的项；两项相除结果即为新旧策略差异。④根据以上各项即可计算剪裁代理损失L^CLIP。

当前策略网络学习时，基于采样经历样本正向传播计算剪裁代理损失，将损失进行策略梯度反向传播更新当前策略网络参数，完成当前策略网络学习。

2.历史策略网络

历史策略网络用于存储历史策略，用于策略学习时新旧策略相对优势及新旧策略差异计算，其网络结构与当前策略网络相同。

(1)网络输入：与当前策略网络相同

(2)网络输出：与当前策略网络相同

(3)网络学习：历史策略网络仅用于存储历史策略，不进行学习，当前策略网络每隔设定周期将其网络参数同步给历史策略网络进行存储。

3.评估网络

评估网络用于评估状态价值，策略学习时当前策略网络和历史策略网络通过调用评估网络计算新旧策略相对优势。评估网络由6层激活函数为ReLU的全连接层组成。

(1)网络输入：运动状态信息

(2)网络输出：预测状态价值

(3)网络学习损失函数：

策略学习时，评估网络会基于采样经历样本进行学习以更加准确估计状态价值，其学习损失函数为时间差分误差

为第m个样本的衰减奖励和(表征真实状态价值)，预测状态价值与真实状态价值越接近，时间差分误差TD_error越小，即损失越小。

评估网络学习时，基于采样经历样本正向传播计算其时间差分误差损失，将损失进行梯度反向传播更新评估网络参数，完成评估网络学习。

三:车端决策详细实现过程

车端决策流程如图5所示。

主要步骤：

1.状态输入：输入自车及周边最邻近三辆车的运动状态信息(即本节第一部分定义的马尔可夫决策过程的输入)；

2.原始决策生成：运动状态信息输入车端剪裁近端策略优化决策网络的当前策略子网络，计算输出原始决策动作；

3.短时域决策安全评估：原始决策动作输入短时域决策安全评估模块，基于预设规则对原始决策进行短时域决策安全评估，评估内容可以包括：

(1)基于车辆简化运动学模型预测执行决策动作是否会导致车辆驶离可通行区域： LOC_next∈LOC_legal(LOC_next为预估自车执行决策动作后位置，LOC_legal为道路可通行区域范围)。

(2)基于当前车头时距和执行决策动作所需最低车头时距阈值，判断是否有足够空间供车辆安全执行决策动作：TH_now≥TH_nded(TH_now为自车和目标车道纵向距离最近车辆间的车头时距值，TH_need为安全执行决策动作所需最小车头时距值)。

4.决策替换：短时域决策安全评估不通过，使用备用安全决策动作替换原始决策动作；

5.决策输出：输出决策动作，下发给下层规划控制器执行，获取决策动作执行后更新状态及奖励值；

6.经历存储及上传：将本次交互经历<状态，决策动作，更新状态，奖励值，轮次结束标志>存入车端经历缓存(正常经历存入正常经历缓存，异常经历存入异常经历缓存)；车端经历缓存存满或者到达预设经历上传周期时，通过车联网将缓存中经历上传以更新云端动态经历库。

四:云端策略学习下发详细实现过程

云端策略学习下发流程图如图6所示。

主要步骤：

1.重要度经历采样：从云端动态经历库中重要度批采样设定数量经历样本用于策略学习。

云端经历库中经历采用队列(先进先出)数据结构进行动态存储，经历对应重要度(正常经历重要度设为1，异常经历重要度设为2)，使用如图7所示SUM二叉树存储经历重要度，经历重要度存储在SUM二叉树叶子节点上。重要度批采样时，从SUM二叉树根节点开始进行随机数搜索批采样经历，异常经历相较正常经历被采样概率更高，从而重点加强对异常经历的学习，加速策略优化。

2.评估网络学习：经历样本输入云端剪裁近端策略优化决策网络的评估网络，计算时间差分误差损失，损失进行梯度反向传播更新评估网络参数，完成评估网络学习。

3.当前策略网络学习存储：经历样本输入云端剪裁近端策略优化决策网络的当前策略网络和历史策略网络，调用评估网络计算剪裁代理损失，损失进行策略梯度反向传播更新当前策略网络参数，完成当前策略网络学习。

若到达设定的策略存储周期，将当前策略网络参数同步给历史策略网络存储。

4.策略下发：提取云端决策网络参数，通过车联网下发给车端，同步更新车端决策网络参数，使车端获得最新的主动换道策略用于决策。

实际工程应用本发明方案时，基于经历上传、策略下发分布式在线学习机制进行主动换道决策及最优策略学习：

1.在多辆联网车辆的车载嵌入式计算平台上部署本发明车端模块，各车端执行车端决策过程，进行主动换道行为决策并记录决策经历，定期通过车联网经由路侧基站上传经历至云端动态经历库；

2.本发明云端模块部署在云计算中心的高性能计算机集群上，定期执行云端策略学习下发过程，从云端动态经历库中重要度批采样多车端上传的交互经历进行策略学习，更新云端决策网络参数，通过车联网经由通信网络及路侧基站下发最新策略给各车端，车端使用基于多车经历学习的最新策略进行主动换道行为决策。

实施例

使用Tensorflow深度学习框架实现本发明所述分布式深度强化学习车辆主动换道行为决策方法。使用Pygame搭建虚拟仿真道路环境。使用python threading多线程工具模拟分布式在线策略学习：设置一个主线程及4个子线程，主线程和子线程中均运行本发明决策模块：子线程模拟车端决策模块，仅运行决策阶段，分别与不同初始化设置的虚拟仿真道路环境交互，收集经历并定期上传；主线程模拟云端决策模块，定期执行策略学习阶段，利用多车端收集的交互经历进行策略学习更新并下发最新策略给车端决策模块。经历上传、策略下发均通过主线程及子线程间的数据通信实现。

网络学习超参数设置如表1所示。

表1网络学习超参数设置

策略学习及测试

决策模块与虚拟仿真道路环境交互，进行500轮次策略学习，每轮次车辆需完成1000 次主动换道行为决策，每完成30次决策后重新随机初始化虚拟仿真道路环境，记录各轮次的平均奖励值。绘制轮次平均奖励值随学习轮次变化曲线如图11所示，由图11可看出，轮次平均奖励值从低位快速爬升，说明主动换道行为决策策略不断优化，约250 训练轮次后轮次平均奖励值逐渐稳定在高位，策略学习收敛。

策略学习完成后，进行100轮随机初始化测试以验证决策模块性能，测试环境为1.2 公里长直道，决策模块在测试过程中仍会以训练时1/10的学习率继续保持策略学习更新。每轮当车辆行驶到达道路终点时结束，车辆与环境车发生碰撞后可以继续行驶但附加罚时3秒。统计单轮测试平均耗时及测试过程中出现的总碰撞次数，结果如表2所示

表2本发明决策模块测试结果

本发明方法与现有方法效果比对分析如下：

将本发明方法与现有双深度Q网络(DDQN)方法进行比对，DDQN为基于动作价值的脱策纯强化学习方法，不使用先验知识及专家示范，使用本地经历进行策略学习， DDQN训练超参数设置如表3所示。

表3基线DDQN决策器参数设置

DDQN也进行与本发明方法相同的500轮次策略学习，记录学习过程中的轮次平均奖励值变化。本发明方法与DDQN方法的轮次平均奖励值变化曲线对比如图12所示。由图12可看出本发明方法策略学习过程中轮次奖励值提升较快且波动较小，说明其策略学习速度及稳定性均优于DDQN。

DDQN策略学习完成后进行与本发明方法相同设置的100轮随机初始化测试，统计单轮测试平均耗时及测试过程中出现的总碰撞次数。本发明方法与DDQN方法的测试结果比对如表4所示。由表4可看出本发明方法完成单轮测试平均耗时低于DDQN，测试过程中出现的总碰撞次数也显著降低，说明其策略优化及决策安全性优于基线。这一方面是由于本发明方法的策略学习能力更强、学习到的策略更优；另一方面是由于本发明方法中的附加纠错机制(即决策动作下发给下层规划控制模块执行，获取决策动作并执行决策动作后更新状态及奖励值)在决策器实装决策时，起到了额外安全保障作用，避免了纯强化学习概率决策机制对安全性及鲁棒性造成的不利影响，能充分保障智能汽车行驶安全。

表4本发明与基线测试结果对比

Claims

1.一种基于深度强化学习的车辆换道行为决策方法，其特征在于，包括：

1)在云端及多个车端部署决策网络；

2.根据权利要求1所述的基于深度强化学习的车辆换道行为决策方法，其特征在于，步骤1)中，所述云端决策网络包括：

3.根据权利要求2所述的基于深度强化学习的车辆换道行为决策方法，其特征在于，当前策略网络优化主动换道策略的具体实现过程包括：记车辆主动换道策略为π，则最优策略π^*为无穷控制时域范围内折扣奖励总和期望最大时对应的策略：

其中，τ(π)为策略π下的决策轨迹；r_t为时间步t时按照奖励函数算得的奖励值；γ∈(0，1)为折扣因子，

为策略π在无穷控制时域范围内折扣奖励总和的期望值。

4.根据权利要求3所述的基于深度强化学习的车辆换道行为决策方法，其特征在于，所述奖励函数R＝W₁R_s+W₂R_V+W₃R_A；W_i为各项对应权值，i＝1，2，3；安全性奖励

其中TH_f为当前车距离所在车道最近前车的车头时距，TH_r为所在车道最近后车距自车车头时距，TH_b为设定的车头时距阈值，t₁、t₂为权重系数；通行效率奖励

其中t0为决策动作开始执行时对应时间，T为执行决策动作所需时间，Δa_long为主车纵向加速度变化量，Δa_lat为主车横向加速度变化量，w₁和w₂为权重系数；优选地，t₁＝0.6，t₂＝0.4；w₁＝0.3，w₂＝0.7。

5.根据权利要求2所述的基于深度强化学习的车辆换道行为决策方法，其特征在于，所述当前策略网络计算的剪裁代理损失L^CLIP的表达式为：

其中clip()表示剪裁操作，表示根据设定的剪裁系数c将

值限幅在[1-c，1+c]区间内：若

取值为1+c；若

驭值为1-c；若

取值为

A_t为优化后的主动换道策略相较历史策略的相对优势，

γ为折扣因子；

为优化后的主动换道策略与历史策略的差异，其中π_θ(a_t*|s_t*)为当前策略网络根据样本状态输入计算出的决策动作概率分布P中的最大项，记该项对应动作为

为历史策略网络根据样本状态算出的决策动作概率分布P’中对应于动作

的项

是将样本状态输入当前策略网络按当前策略π_θ前推T_forward个时间步，记录经历，计算T_forward个时间步的累积衰减奖励和；V_φ(s_t)是将样本状态输入评估网络前向传播计算出的预测状态价值

为当前策略评估优势，

是将样本输入历史策略网络按历史策略

前推T_forward个时间步，记录经历，计算T_forward个时间步的累积衰减奖励和，

为历史策略评估优势。

6.根据权利要求2所述的基于深度强化学习的车辆换道行为决策方法，其特征在于，评估网络的时间差分误差TD_error的计算公式为：

为第m个样本的衰减奖励和。

7.根据权利要求1所述的基于深度强化学习的车辆换道行为决策方法，其特征在于，车端决策的具体实现过程包括：

1)输入自车及周边最邻近三辆车的运动状态信息；

8.根据权利要求2所述的基于深度强化学习的车辆换道行为决策方法，其特征在于，云端策略学习下发的具体实现过程包括：

1)从云端动态经历库中重要度批采样设定数量经历样本；

9.一种基于深度强化学习的车辆换道行为决策系统，其特征在于，包括：

车端决策网络，用于根据自车运动状态信息及周边车运动状态信息决策应采取的动作，决策动作经过安全评估纠错后下发执行，获取更新的状态信息及对应奖励值，将决策经历<原状态，决策动作，更新状态，奖励值，交互结束标志>存储在车端经历缓存中，定期将车端经历缓存中的经历上传到云端动态经历库，车端决策完成，等待下一车端决策周期开始；

优选地，所述云端决策网络包括：

评估网络：用于评估预测状态价值，供当前策略网络调用以计算剪裁代理损失；基于云端动态经历库采样经历样本，正向传播计算时间差分误差损失，损失梯度反向传播更新评估网络参数。

10.一种基于深度强化学习的车辆换道行为决策系统，其特征在于，包括部署于云端的云端控制器，以及部署于各车端的车端控制器；所述云端控制器与各车端控制器通信；所述云端控制器与各车端控制器被配置为用于执行权利要求1～8之一所述方法的步骤。