CN112906126A

CN112906126A - 基于深度强化学习的车辆硬件在环仿真训练系统及方法

Info

Publication number: CN112906126A
Application number: CN202110054199.6A
Authority: CN
Inventors: 余贵珍; 廖亚萍; 周彬; 李涵; 陈冠宏
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2021-01-15
Filing date: 2021-01-15
Publication date: 2021-06-04
Anticipated expiration: 2041-01-15
Also published as: CN112906126B

Abstract

本发明属于无人驾驶车辆仿真测试领域，特别涉及一种基于深度强化学习的车辆硬件在环仿真训练系统及方法。本系统包括虚拟仿真单元和实车控制器，所述虚拟仿真单元包括仿真车辆模块、仿真控制模块、实车轨迹数据库、仿真传感器模块、重置接口以及启停接口。本发明通过对实车控制器和虚拟仿真场景进行联合仿真训练，实现深度强化学习运动规划模型在实车无人驾驶系统的有效运行，从而解决深度强化学习模型无法从虚拟仿真车辆到无人驾驶实车进行有效移植的问题。

Description

基于深度强化学习的车辆硬件在环仿真训练系统及方法

技术领域

本发明属于无人驾驶车辆仿真测试领域，特别涉及一种基于深度强化学习的车辆硬件在环仿真训练系统及方法。

背景技术

运动规划模块是车辆实现无人驾驶的重要技术环节，在无人驾驶感知-运动(规划)-控制-执行技术链中起到承上启下的重要作用，相当于驾驶员的大脑。过去，无人驾驶车辆的运动规划研究主要采用规则式方法、模型式方法和深度学习数据“喂养式”方法。由于规则式和模型式方法仅能针对特定简单场景进行参数建模，不适用于复杂多变的城市行车场景，而基于深度学习的运动规划模型不仅需要采集大量的场景数据进行学习，才能保障车辆在这些场景中安全运行，而且建立的模型无法适用于未学习的场景。鉴于上述这些方法存在的不足之处，学者们提出基于深度强化学习的运动规划建模方法，利用深度强化学习结合深度学习的高维数据特征提取优势和强化学习的自学习优势，同时弥补上述三种方法的不足。

许多学者将深度强化学习应用于构建无人驾驶跟车、换道、车道保持等模型，并使用仿真软件对构建的深度强化学习模型进行成千上万次的试错训练。采取仿真训练的方式不仅减少大量的人力和财力耗费，同时避免了碰撞事故和人员伤亡的发生。如中国专利CN201811092800.5公开了“一种基于强化学习网络训练的自动泊车方法”，其利用仿真方法训练自动泊车强化学习模型。中国专利CN201910283506.0公开了“一种基于深度强化学习的防碰撞控制方法”，其利用本车参数和环境车辆参数，构建虚拟环境模型训练获取了深度强化学习防碰撞方法。这些方法在仿真软件中取得了不错的训练和测试效果，但他们主要是将仿真方法用于验证算法的可行性，而并未考虑模型在实车控制器上的应用情况。

发明内容

针对上述问题，本发明提出一种基于深度强化学习的车辆运动规划硬件在环仿真训练系统及方法，通过对实车控制器和虚拟仿真场景进行联合仿真训练，实现深度强化学习运动规划模型在实车无人驾驶系统的有效运行，从而解决深度强化学习模型无法从虚拟仿真车辆到无人驾驶实车进行有效移植的问题。

为实现上述目的，本发明提供了一种基于深度强化学习的车辆运动规划硬件在环仿真训练系统，包括虚拟仿真单元和实车控制器，所述虚拟仿真单元包括仿真车辆模块、仿真控制模块、实车轨迹数据库、仿真传感器模块、重置接口以及启停接口；

所述仿真车辆模块包括运用虚拟引擎软件通过物理部件绘制、组装而成且与实车车型机械原理相匹配的虚拟车辆，所述虚拟车辆包括由所述仿真控制模块控制的虚拟本车车辆和由所述实车轨迹数据库中的实车轨迹数据控制的虚拟环境车辆；

所述仿真传感器模块包括虚拟传感器和虚拟传感器数据输出接口；所述虚拟传感器用于采集道路环境地图数据、虚拟环境车辆运行数据以及虚拟本车车辆运行数据；

所述重置接口用于接收所述实车控制器的重置指令，以进行所述虚拟仿真单元的环境重置，所述环境重置指结束当前所述虚拟仿真单元中所有模块的运行状态，回归重置指令所要求的状态；

所述启停接口用于接收所述实车控制器的启动指令和停止指令，以进行所述虚拟仿真单元的环境启动和停止，所述环境启动和停止指控制所述虚拟仿真单元各模块的启动工作和停止工作；

所述实车控制器包括深度网络学习模块、虚拟传感器数据输入接口、数据处理模块以及动作输出接口，所述虚拟传感器数据输入接口与所述虚拟传感器数据输出接口连接；所述数据处理模块用于对从所述虚拟传感器数据输入接口接收的数据进行处理，并将处理后数据发送至所述深度网络学习模块，计算输出控制指令；

所述仿真控制模块包括控制指令接收接口，其与所述动作输出接口连接，以接收所述控制指令。

优选地，所述控制指令包括所述虚拟本车车辆的的油门踏板行程控制指令、电制动行程控制指令、前轮转角控制指令、档位控制指令和驻车状态控制指令。

优选地，所述实车控制器与所述虚拟仿真单元的各接口通过UDP/TCP进行数据传输。

优选地，所述虚拟传感器包括视觉传感器、激光雷达、毫米波雷达和全球定位系统中的一种或多种。

优选地，所述虚拟传感器安装于所述虚拟本车车辆上。

优选地，所述道路环境地图包括结构化道路环境地图和非结构化道路环境地图，所述结构化道路环境地图包括高速公路环境地图、城市道路环境地图和郊区道路环境地图；所述非结构化道路环境地图包括乡村道路环境地图、矿区道路环境地图和港口物流道路环境地图。

本发明还提供了一种利用上述系统的基于深度强化学习的车辆硬件在环仿真训练方法，包括如下步骤：

S1：在所述实车控制器的深度网络学习模块中植入深度强化学习算法，并与所述虚拟仿真单元进行通信连接；

S2：初始化所述深度强化学习算法的参数，同时通过启停接口向所述虚拟仿真单元发送启动指令，启动所述虚拟仿真单元，使得所述虚拟仿真单元各模块处于待工作状态；

S3：进入所述深度强化学习算法的第j回合训练，所述实车控制器通过重置接口向所述虚拟仿真单元发送重置指令，控制所述仿真车辆模块进行虚拟车辆运动状态重置，其中将所述虚拟本车车辆的运动状态重置为静止状态，将所述虚拟环境车辆的运行状态重置为实车轨迹数据Ψ的第i个状态点对应的状态，i＝1,2,...m，实车轨迹数据Ψ是从实车轨迹数据库中随机筛选出来的，Ψ＝1,2,...,n；所述实车轨迹数据库中存储有n条实车轨迹数据，每条实车轨迹数据由m个状态点按照时间序列排列组成；

S4：所述仿真传感器模块通过虚拟传感器数据输出接口向所述实车控制器发送时刻T对应的数据集合S_T，包括时刻T对应的道路环境地图数据、虚拟环境车辆运行状态数据以及虚拟本车车辆运行状态数据；

S5：利用所述数据处理模块对数据集合S_T进行处理，获取所述深度强化学习算法所需的状态数组S′_T；

S6:将状态数组S′_T输入所述深度强化学习算法，计算输出控制指令a_T，并将控制指令a_T发送至所述仿真控制模块；

S7:所述仿真控制模块根据控制指令a_T控制所述虚拟本车车辆运行Δt时间后，所述仿真传感器模块再次向所述实车控制器发送时刻T+Δt对应的数据集合S_T+Δt，此时虚拟环境车辆运行状态是实车轨迹数据Ψ的第i+1个状态点对应的状态，之后进一步获取时刻T+Δt对应的状态数组S′_T+Δt；

S8:基于状态数组S′_T+Δt获取时刻T+Δt的碰撞时间TTC、车头时距值THW、车辆加速度变化量jerk值，进而输入所述深度强化学习算法的奖励函数r中，计算出训练回合j的奖励值r_T；

S9：将{S′_T,a_T,S′_T+Δt，r_T}作为一个样本存储至所述深度强化学习算法的样本经验池中，判断样本经验池中的样本个数是否达到h；如果是，则利用经验优先和重要性采样方法筛选出Δh个样本，并对所述深度强化学习算法进行参数优化；否则直接进入步骤S10；

S10：判断所述虚拟本车车辆与所述虚拟环境车辆是否发生碰撞，或者所述虚拟环境车辆的运行状态是否已经为实车轨迹数据Ψ的第m个状态点对应的状态，若达到其中一个判断条件，则训练回合j结束，进入步骤S11；否则，设置S_T＝S_T+1，i＝i+1，进入步骤S5；

S11：判断训练回合数j是否满足达到最大回合数；如果否，则进入步骤S3，开始第j＝j+1回合训练；如果是，则所述实车控制器通过启停接口向虚拟仿真单元发送停止指令，关闭虚拟仿真单元各模块工作状态，训练结束。

进一步，所述深度强化学习算法为所述车辆运动规划算法Φ，所述奖励函数r＝r_safe+r_efficient+r_comfot，

r_safe为车辆运行安全性奖励函数：

其中，TTC_threshold表示碰撞事件阈值，其从实车轨迹数据中提取获得，即对实车轨迹数据库中的碰撞时间TTC数据集合N_safe做概率密度累积分布，将概率密度累积分布的百分之五分位处所对应的TTC值作为碰撞时间阈值TTC_threshold；

r_efficient为高效性奖励函数：

r_efficient＝-(THW-E(THW))²

其中，E(THW)表示车头时距THW的期望值，其从实车轨迹数据中提取获得，即对实车轨迹数据库中的车头时距THW数据集合N_efficient做统计概率分布，并用对数分布函数f(THW,μ,σ)进行参数μ，σ拟合，得到

r_comfot为舒适性奖励函数：

其中，a_min，a_max分别表示车辆加速度的最小值和最大值，两者从实车轨迹数据中提取获得。

本发明的有益效果：

1)本发明将虚拟仿真场景和实车控制器融为一体，利用虚拟仿真场景的可操作性、便捷性优势为无人驾驶强化学习运动规划算法提供丰富的训练场景，同时直接使用实车控制器运行基于深度强化学习的车辆运动规划算法，避免出现算法对实车应用的不适应效果，提高算法的稳定性；

2)本发明的车辆运动规划算法中奖励函数的安全性、效率性和舒适性关键指标是由实车轨迹数据提取出的，且虚拟环境本车运动状态也是提取自实车轨迹数据，这使得车辆运动规划算法融入了真实场景下的车辆行驶特点，并保证了训练获取的模型对真实道路交通驾驶习惯的适应性。

附图说明

图1是本发明实施例的基于深度强化学习的车辆硬件在环仿真训练系统示意图；

图2是本发明实施例的虚拟本车车辆和虚拟环境车辆的运行示意图；

图3是本发明实施例的基于深度强化学习的车辆硬件在环仿真训练方法流程图。

具体实施方式

下面结合附图和实施例进一步描述本发明，应该理解，以下所述实施例旨在便于对本发明的理解，而对其不起任何限定作用。

如图1所示，本实施例提供的基于深度强化学习的车辆硬件在环仿真训练系统，包括虚拟仿真单元和实车控制器，其中虚拟仿真单元包括仿真车辆模块、仿真控制模块、实车轨迹数据库、仿真传感器模块、重置接口以及启停接口；实车控制器配置有ubuntu操作系统、深度网络学习模块，虚拟传感器数据输入接口、数据处理模块和动作输出接口。

本发明的仿真车辆模块包括运用虚拟引擎软件通过物理部件绘制、组装而成的与实车车型机械原理相匹配的虚拟车辆。所述虚拟车辆包括由仿真控制模块进行直接控制的虚拟本车车辆和由实车轨迹数据库中实车轨迹数据直接控制的虚拟环境车辆两种车辆类型，如图2所示。所述实车轨迹数据库中存储有n条实车轨迹数据，每条实车轨迹数据均由m个状态点按照时间序列排列组成。

本发明的仿真传感器模块包括虚拟传感器和与实车控制器的虚拟传感器数据输入接口连接的虚拟传感器数据输出接口。在本实施例中，虚拟传感器包括视觉传感器、激光雷达、毫米波雷达和全球定位系统(GPS)，用于采集道路环境地图数据、虚拟环境车辆运行数据以及虚拟本车车辆运行数据，并通过虚拟传感器数据输出接口传输至实车控制器。在本实施例中，将虚拟传感器安装于虚拟本车车辆上。此外，应该理解，本领域技术人员可以根据需求自由组合搭配各种虚拟传感器或增加其他传感器。

本实施例中的道路环境地图数据括结构化道路环境地图和非结构化道路环境地图，其中，结构化道路环境地图包括高速公路环境地图、城市道路环境地图和郊区道路环境地图；非结构化道路环境地图包括乡村道路环境地图、矿区道路环境地图和港口物流道路环境地图。

本发明的仿真控制模块内置与实车控制器的动作输出接口连接的控制指令接收接口，用于接收实车控制器输出的控制指令，以控制虚拟本车车辆的的油门踏板行程、电制动行程、前轮转角、档位、驻车状态，实现虚拟本车车辆运行。

本发明的所述重置接口用于接收实车控制器的重置指令，以进行整个虚拟仿真单元的环境重置，所述环境重置指结束当前虚拟仿真单元中所有模块运行状态，回归重置指令所要求的状态。

本发明的启停接口用于接收实车控制器启动指令和停止指令，进行整个虚拟仿真单元的环境启动和停止，所述环境启动和停止指控制各模块启动工作和停止工作。

在本实施例中，实车控制器与虚拟仿真单元的各接口间通过UDP/TCP进行数据传输。

如图3所示，本实施例还提供了一种利用上述系统的环仿真训练方法，包括如下步骤：

S1：在实车控制器中通过Ubuntu操作系统植入基于深度强化学习的车辆运动规划算法Φ，并与虚拟仿真单元进行UDP/TCP通信连接；所述基于深度强化学习的车辆运动规划算法Φ中的奖励函数r是由车辆运行安全性奖励函数r_safe、高效性奖励函数r_efficient、舒适性奖励函数r_comfot三大部分建立而成，具体建立方法：

安全性奖励函数r_safe：从实车轨迹数据中提取车辆运行安全性评价指标的数据集合N_safe，所述车辆运行安全性评价指标指碰撞时间TTC，并对TTC的数据集合N_safe做概率密度累积分布，然后将概率密度累积分布为百分之五分位处所对应的TTC值作为碰撞时间阈值TTC_threshold，进而获取安全性奖励函数为：

高效性奖励函数r_efficient：从实车轨迹数据中提取车辆运行高效性评价指标的数据集N_efficient，所述车辆运行安全性评价指标指车头时距THW，并对THW的数据集合N_efficient做统计概率分布，并用对数分布函数f(THW,μ,σ)进行参数μ，σ拟合，得到THW期望值

进而获取高效性奖励函数为：r_efficient＝-(THW-E(THW))²；

舒适性奖励函数r_comfot：选取车辆加速度变化量jerk作为舒适性评价指标，从实车轨迹数据中提取车辆加速度阈值范围a_min,a_max，获取舒适性奖励函数为：

基于上述三部分奖励函数，获取车辆运动规划算法Φ中的奖励函数r＝r_safe+r_efficient+r_comfot；

S2：初始化实车控制器中的算法Φ的参数，同时通过启停接口向虚拟仿真单元发送启动指令，启动虚拟环境，使得虚拟仿真单元内部各模块处于待工作状态；

S3：进入算法Φ的第j回合训练，实车控制器通过重置接口向虚拟仿真单元发送重置指令，控制仿真车辆模块进行虚拟车辆运动状态重置，其中将虚拟本车车辆的运动状态重置为静止状态，将虚拟环境车辆的运行状态重置为实车轨迹数据Ψ的第i个状态点对应的状态，i＝1，2,...m，实车轨迹数据Ψ是从实车轨迹数据库中随机筛选出来的，Ψ＝1,2,...,n；实车轨迹数据库中存储有n条实车轨迹数据，每条实车轨迹数据由m个状态点按照时间序列排列组成；

S4：仿真传感器模块通过虚拟传感器数据输出接口向实车控制器发送时刻T对应的道路环境地图数据、虚拟环境车辆运行状态数据以及虚拟本车车辆运行状态数据构成的数据集合S_T；

S5：实车控制器的数据处理模块对数据集合S_T进行处理，以获取算法Φ所需的状态数组S′_T；

S6:算法Φ收到状态数组S′_T后，计算输出控制指令a_T，并将该控制指令a_T发送至仿真控制模块的控制指令接收接口，控制虚拟本车车辆运行；

S7：虚拟本车车辆按照控制指令a_T运行Δt时间后，向实车控制器再次发送道路环境地图数据、虚拟环境车辆运行状态数据以及虚拟本车车辆运行状态数据构成的数据集合S_T+Δt，此时虚拟环境车辆运行状态是实车轨迹数据Ψ的第i+1个状态点对应的状态；然后将数据集合S_T+Δt输入实车控制器数据处理模块中进行处理以获取状态数组S′_T+Δt；

S8：基于状态数组S′_T+Δt获取此时的碰撞时间TTC、车头时距值THW、车辆加速度变化量jerk值，进而输入奖励函数r中计算出控制指令a_T获取的奖励值r_T；

S9：将上述获取的{S′_T,a_T,S′_T+Δt,r_T}作为一个样本存储至算法Φ中的样本经验池中，判断样本经验池中的样本个数是否达到h；如果是，则利用经验优先和重要性采样方法筛选出Δh个样本，基于Adam梯度优化算法对算法Φ进行参数优化；如果否，则直接进入步骤S10；

S10：判断该回合是否满足回合终止条件，所述回合终止条件指：虚拟本车车辆与虚拟环境车辆是否发生碰撞，或者虚拟环境车辆运行状态是否已经为实车轨迹数据Ψ的第m个状态点对应的状态；若达到其中一个判断条件，则训练回合j结束，进入步骤S11；否则，设置S_T＝S_T+1，i＝i+1，进入步骤S5；

S11：判断训练回合数j是否满足达到最大回合数；如果否，则进入步骤S3，开始第j＝j+1回合的训练；如果是，则实车控制器通过启停接口向虚拟仿真单元发送停止指令，关闭虚拟仿真单元各模块工作状态，训练结束。

对于本领域的普通技术人员来说，在不脱离本发明创造构思的前提下，还可以对本发明的实施例做出若干变型和改进，这些都属于本发明的保护范围。

Claims

1.一种基于深度强化学习的车辆运动规划硬件在环仿真训练系统，其特征在于，包括虚拟仿真单元和实车控制器，所述虚拟仿真单元包括仿真车辆模块、仿真控制模块、实车轨迹数据库、仿真传感器模块、重置接口以及启停接口；

2.根据权利要求1所述的系统，其特征在于，所述控制指令包括所述虚拟本车车辆的的油门踏板行程控制指令、电制动行程控制指令、前轮转角控制指令、档位控制指令和驻车状态控制指令。

3.根据权利要求1所述的系统，其特征在于，所述实车控制器与所述虚拟仿真单元的各接口通过UDP/TCP进行数据传输。

4.根据权利要求1所述的系统，其特征在于，所述虚拟传感器包括视觉传感器、激光雷达、毫米波雷达和全球定位系统中的一种或多种。

5.根据权利要求1-4之一所述的系统，其特征在于，所述虚拟传感器安装于所述虚拟本车车辆上。

6.根据权利要求1-4之一所述的系统，其特征在于，所述道路环境地图包括结构化道路环境地图和非结构化道路环境地图，所述结构化道路环境地图包括高速公路环境地图、城市道路环境地图和郊区道路环境地图；所述非结构化道路环境地图包括乡村道路环境地图、矿区道路环境地图和港口物流道路环境地图。

7.一种利用根据权利要求1-6之一所述系统的基于深度强化学习的车辆运动规划硬件在环仿真训练方法，其特征在于，包括如下步骤：

S3：进入所述深度强化学习算法的第j回合训练，所述实车控制器通过重置接口向所述虚拟仿真单元发送重置指令，控制所述仿真车辆模块进行虚拟车辆运动状态重置，其中将所述虚拟本车车辆的运动状态重置为静止状态，将所述虚拟环境车辆的运行状态重置为实车轨迹数据Ψ的第i个状态点对应的状态，i＝1,2,...m，实车轨迹数据Ψ是从实车轨迹数据库中随机筛选出来的，Ψ＝1，2，...，n；所述实车轨迹数据库中存储有n条实车轨迹数据，每条实车轨迹数据由m个状态点按照时间序列排列组成；

8.根据权利要求7所述的方法，其特征在于，所述深度强化学习算法为所述车辆运动规划算法Φ，所述奖励函数r＝r_safe+r_efficient+r_comfot，

r_safe为车辆运行安全性奖励函数：

r_efficient为高效性奖励函数：

r_efficient＝-(THW-E(THW))²

r_comfot为舒适性奖励函数：

其中，a_min,a_max分别表示车辆加速度的最小值和最大值，两者从实车轨迹数据中提取获得。