CN116048096B

CN116048096B - 一种基于层次化深度感知的无人车运动规划方法

Info

Publication number: CN116048096B
Application number: CN202310155139.2A
Authority: CN
Inventors: 石朝侠; 王天星
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2023-02-23
Filing date: 2023-02-23
Publication date: 2024-04-30
Anticipated expiration: 2043-02-23
Also published as: CN116048096A

Abstract

本发明公开了一种基于层次化深度感知的无人车运动规划方法，该方法借鉴人脑不同深度区域的感知功能不同的特点，针对端到端运动规划方法感知手段单一、可解释性不足、泛化能力差等问题带来的安全驾驶隐患，提出一种融合层次化深度感知、多帧状态估计与多帧运动预测的条件模仿学习端到端运动规划方法。该方法从像素级语义、道线级语义和目标级语义层面构建层次化深度感知网络，然后将层次化深度特征的联合向量应用于多帧估计与多帧预测条件模仿学习端到端运动规划方法，提升了端到端运动规划方法在未知和部分已知环境下的安全驾驶性能、泛化能力和可解释性。

Description

一种基于层次化深度感知的无人车运动规划方法

技术领域

本发明涉及一种自动驾驶领域基于深度学习的端到端运动规划方法，尤其是一种基于层次化深度感知的端到端运动规划方法。

背景技术

运动规划能力是无人车自动驾驶智能水平的集中体现。端到端自动驾驶方法直接将原始传感器数据映射到规划的轨迹或低水平控制动作，避免了复杂模块化设计和繁重手工规则带来的级联错误，具有简单、高效的优点。但感知手段单一以及可解释性的缺乏使得传统端到端方法不可避免具有安全性的隐患。

基于条件模仿学习(Conditional imitation learning，CIL)的端到端运动规划为已知、部分已知、未知环境下的自动驾驶提供了有潜力的解决方案。CIL和基于残差网络和速度预测的条件模仿学习(CIL extension with a ResNet architecture and Speedprediction，CILRS)作为端到端条件模仿学习早期方法，利用单目视觉图像预测车辆的控制量。轨迹指引的控制预测方法(Trajectory-guided Control Prediction，TCP)也是使用单目进行端到端规划，取得了较好的结果。对于人类驾驶员来说，后视镜和侧视镜提供了更完整的视角，能够让驾驶员获得环境更加完整的观察。环绕视觉条件模仿学习(Surrounded-view Conditional Imitation Learning,SCIL)在CILRS的基础上增加了不同前视方向的相机，并依据这些视觉图像来预测车辆的控制量。在此基础上又提出了融合过去几帧状态的动态环绕视觉条件模仿学习(Dynamic Surrounded-view ConditionalImitation Learning,DSCIL)。CAL采用直接感知方法，将视觉图像映射到用于自主导航规划的中间表示。欺骗学习方法(Learning by Cheating,LBC)训练了一个能够获取环境全部信息的特权智能体，由该智能体扮演老师的角色训练一个纯粹基于视觉的自动驾驶模型。

为了提高端到端模型的可解释性，一些研究采用多任务学习方法，开发了可以生成多种可解释性表示的模型，如目标检测、语义鸟瞰图等。但绝大多数条件模仿学习方法采用较为单一的环境感知方法作进行网络模型训练和测试，在一定程度上限制了端到端条件模仿学习运动规划方法在未知和部分已知驾驶场景下的泛化能力。

发明内容

本发明的目的在于提出一种基于层次化深度感知的无人车运动规划方法。

本发明所采用的技术方案是提出一种基于层次化深度感知的无人车运动规划方法，具体步骤如下：

1.将层次化深度感知模块获取的层次化深度特征向量与车辆本体速度生成的向量进行特征联合。

2.将联合特征向量输入到多帧估计和多帧预测条件模仿学习运动规划网络生成车辆规划的速度、控制量和行驶轨迹。

步骤1中的层次化深度感知模块包含像素语义分割网络、道线语义检测网络和目标语义跟踪网络。3个网络模型选择宽度、深度、分辨率可调的通用网络架构作为Backbone主干网络，具有相同的网络拓扑和不同的具体参数。选择环绕视觉图像子集分别输入至像素语义分割网络、道线语义检测网络和目标语义跟踪网络，分别产生像素语义特征F_p、道线语义特征F_l和目标语义特征F_o,将像素语义特征F_p经过卷积和全连接网络生成像素特征向量F_m，道线语义特征F_l经过卷积和全连接网络生成道线特征向量F_n，目标语义特征F_o经过卷积和全连接网络生成目标特征向量F_d，车辆当前速度v^*经全连接网络处理生成速度特征向量F_v，然后将F_m、F_n、F_d和F_v拼接生成当前时刻t的联合特征向量J_t作为多帧估计和多帧预测条件模仿学习运动规划的输入。

步骤1中的像素语义分割网络的目标是在车辆坐标系中生成语义可视图，侧重于车辆的可通行区域/非可通行区域检测，隐式应用于车辆的轨迹安全性评估。语义可视图的含义是样本中被环境中物体遮挡的像素不参与LOSS计算。这样做的好处是车辆只对视野内的像素进行语义分类，防止过度学习。像素语义分类名称及标号定义为{车道0、人行道1、车辆2、未知3}。

步骤1中的道线语义检测网络的目标是提取环境中的分道线或路边，侧重于环境中的结构化信息提取，隐式应用于车辆的道线跟踪控制。将道线模型建模为4道线环境，对应道线名称及道线标号为{左道左线0、本道左线1、本道右线2、右道右线3}。道线类型及类型标号定义为{无效0，路边1，白虚线2，白实线3，黄虚线4，黄实线5}。每一条道线表示为{道线标号，类型标号，矩形框1，矩形框2，…,矩形框20}。其中，矩形框1-20由近及远，代表道边在图像中采样点的位置区域。类型标号取0时本道线无效，矩形框默认值均为零。由于道线区域在图像中所占的比重较小，首先将输入图像划分为h*w个栅格，通过行扫描考虑当前栅格的道线似然性以及相邻栅格位置关系计算当前栅格的道线类型概率分布，输出道线特征F_l。为了减小道线语义检测模块对训练数据的依赖性，提升其在未知场景下的泛化能力，充分利用道线(或道边)的结构性信息进行边缘增强，提高道线语义检测模块的准确率。

步骤1中的目标语义跟踪网络的目标是提取环境中的目标位置及状态信息，侧重于环境中满足注意力机制特性的中、小物体的检测与状态跟踪，隐式应用于车辆对于环境中动态目标的安全响应。目标类型名称及类型标号为{机动车0、行人1、摩托车2、自行车3、交通灯4、交通标识5、道线标识6、未知7}。每一个目标表示为{目标ID,目标大小(目标宽度wo,目标长度lo,目标高度ho),目标位姿(横坐标x,纵坐标y,航向角θ),目标状态(线速度v,角速度ω),目标框信息(图像序号Id,,左上角x坐标x_left,左上角y坐标y_top,目标框宽度w_i,目标框高度h_i)}。

步骤2利用长短时记忆循环神经网络构造多帧估计网络Lstm_e优化车辆本体和环境中动态目标的状态估计，构造多帧预测网络Lstm_p优化车辆的当前控制量和行驶轨迹。然后利用条件模仿学习运动规划网络模型生成车辆的规划速度v_t，控制量a_t＝{St,Th,Br}和路径P。其中St,Th,Br分别代表方向盘、油门和刹车控制量。条件模仿学习网络模型采用九分支决策网络，由9条相同结构的全连接网络组成，每条网络对应特定的导航场景，包括{道路跟踪,路口左转,路口直行,路口右转,左换道，右换道，掉头，倒车，停车}共9种状态，应对无人车的不同导航场景。

本发明与现有技术相比，其显著优点为：

(1)借鉴人脑不同深度区域的感知功能不同，提出一种融合层次化深度感知、多帧状态估计与运动预测的条件模仿学习端到端运动规划方法。层次化特征的联合有助于无人车从不同的感知层次去理解周围环境，在未知环境和部分已知环境下的运动规划具有更好的泛化能力。

(2)融合多帧状态估计与运动预测的条件模仿学习端到端运动规划方法既能借助于多帧估计网络优化车辆本体及环境目标的状态，又能通过多帧预测网络优化当前运动控制对未来帧的影响，在动态环境下具有更好的安全性。

(3)层次化深度感知各模块通过语义可视图、道线显示图、目标显示图提供了可视的环节，增强了端到端运动规划网络的可解释性

附图说明

图1为系统体系架构示意图；

图2为特征联合网络结构示意图；

图3为多帧估计网络结构示意图；

图4为多帧预测网络结构示意图；

图5为分支决策网络和速度预测网络结构示意图；

图6 CARLA benchmarTown01实验结果；

图7 CARLA benchmarTown02实验结果；

图8 NoCrash benchmark Town01实验结果；

图9 NoCrash benchmark Town02实验结果。

具体实施方式

下面结合说明书附图对本发明作进一步说明。

借鉴人脑不同深度区域的感知功能不同，提出一种融合层次化深度感知、多帧状态估计与运动预测的条件模仿学习端到端运动规划方法。系统体系架构示意图如图1：该方法将像素级特征向量、道线级特征向量和目标级特征向量以及车辆速度扩展向量联合后输入到多帧估计和多帧预测条件模仿学习网络生成车辆的规划速度、油门、刹车、方向盘控制量和行驶轨迹。

(1)像素语义分割网络技术细节

用I^k∈R^H×W×3表示输入的RGB图像，k＝1…,6为相机的编号。这6个相机分别指向车辆的左前方、正前方、右前方、左后方、正后方和右后方，相机的外参数矩阵e^k和内参数矩阵i^k已知。输入6个相机的图像，像素语义分割网络输出以车辆为中心的语义可视图。像素语义分割网络分为特征提取、特征投影和语义分割三个环节。

特征提取：Backbone网络从I^k,k＝1…,6图像中提取环绕图像前视特征。

投影阶段：特征投影网络首先将环绕图像前视特征投影到相机坐标系中形成视锥点云，然后根据相机的外参数矩阵e^k，将视锥点云数据转换到以车辆为中心的车辆坐标系中，投影到车辆所在平面的200×200区域内，对应40m×40m的物理区域。对每个体素求和降采样，生成一个C×X×Y的张量，其中，C是通道数，X、Y是长和宽。

语义分割阶段：采用Encoder-Decoder模型，依次经过Resnet18的网络层Layer1、Layer2和Layer3的处理，然后做4倍上采样并和Layer1网络的输出进行拼接，之后再经过一系列的卷积和上采样得到局部语义可视图的原始值，最后使用softmax()计算出像素类别的概率分布，使用argmax()计算出像素类别。

用交叉熵损失函数作为语义分割的损失函数：

其中，x＝[x₀,…,x_m-1]为局部语义可视图对一个像素的输出向量，y＝0,1,…,m-1为该像素的类别索引真值标量，m表示像素类别的总数，j＝0,1,…,m-1，代表像素类别的索引。

统计样本数据集所有局部语义可视图中各个类别的像素数量并计算出均值，最后按照下式计算各个类别的权重：

w[y]＝max(avg(count(0)),…,avg(count(m-1)))/avg(count(y)) (2)

其中，avg(count(j))是局部语义可视图真值中类别j的像素数量均值，max_cnt为各类别像素数量均值中的最大值，max()为计算最大值函数，avg()为均值函数

针对像素类别不平衡的情况，对各个类别加上相应的权重，带权重的交叉熵损失函数为：

对于整张局部语义可视图，损失函数为：

其中X＝{x⁽⁰⁾,x⁽¹⁾,…,x^(N-1)}为整张局部语义可视图所有像素的输出向量集合，Y＝{y⁽⁰⁾,y⁽¹⁾,…,y^(N-1)}为整张局部语义可视图所有像素的类别真值集合，i为像素索引，N为像素数量。X＝{x⁽⁰⁾,x⁽¹⁾,…,x^(N-1)}为语义可视图所有像素的输出向量集合，Y＝{y⁽⁰⁾,y⁽¹⁾,…,y^(N-1)}为语义可视图所有像素的类别真值集合，i为像素索引，N为像素数量。

(2)层次化深度特征融合技术细节

如本发明附图2所示，对于像素语义特征F_p，道线语义特征F_l，和目标语义特征F_o，使用卷积核大小为1的卷积网络做通道降维，展开成一维，然后经过2层有1024个神经元的全连接层生成特征向量F_m、F_n、F_d，和速度v^*展开的速度向量F_v拼接在一起形成特征J。全连接层之间使用LeakyRelu激活函数。层次化特征拼接表示为:

J_t＝Join[FC_m(Conv 2D_m(F_p)),FC_n(Conv 2D_n(F_l)),FC_d(Conv 2D_d(F_o)),FC_v(v^*)](5)

，其中Join()为特征拼接函数，FC_m()、FC_n()、FC_d()、FC_v()为全连接网络，Conv2D_m()、Conv 2D_n()、Conv 2D_d()为2D卷积网络。

(3)多帧估计与多帧预测网络技术细节

利用长短时记忆循环神经网络构造多帧估计网络Lstm_e优化车辆本体和环境中动态目标的状态估计，构造多帧预测网络Lstm_p优化车辆的当前控制量和行驶轨迹。多帧估计网络与多帧预测网络技术细节见本发明附图3和附图4。

(4)分支决策网络与速度预测网络技术细节

分支决策网络是运动规划网络的主体，共有9个结构相同的分支，每个分支对应一个分支指令，分支指令决定对应的分支网络是否激活。本发明附图5所示，联合特征J_t会根据导航指令C选择对应的分支决策网络A，分支网络预测出车的控制量a_t。

速度预测网络V和分支网络只有输出的维度不同，其输入是J_t，输出是车的期望速度v_t。

运动规划模块损失函数定义如下：

其中，a_t,a_t ^*分别为控制量及控制量直值，v_t,v_t ^*为车辆速度及速度真值，P_t,P_t ^*分别为车辆路径及路径真值，k是控制量索引，w^(k)是控制量a_t第k项的权重，方向盘损失权重w⁽⁰⁾＝0.5，油门损失权重w⁽¹⁾＝0.45，刹车损失权重w⁽²⁾＝0.05。α，β，γ是平衡控制量误差、速度误差和路径误差的参数，j是路径点索引，θ为衰减因子，m为路径点个数。

(5)运动规划实验实线

在CARLA 0.9.10版本上的经典CARLA benchmark和NoCrash benchmark，本发明方法(称为DLSSCIL)与CIL、CAL、CILRS、SCIL、DSCIL、LBC和TCP方法做对比实验。任务数量N可由下式计算：

N＝r×w×m×t#(7)

其中r为路线数量，各有25条路线；w为天气数量，共6种天气；m为城镇数量，共2个城镇；t为任务类型数量，CARLA benchmark共4种任务，分别是直行、一次转弯、无障碍导航和有障碍导航，NoCrash benchmark有3种导航任务，分别是无障碍导航、有障碍导航和密集障碍导航。CARLA benchmark中，车辆在限定时间内到达给定路线的终点则认为该路线的实验是成功的，限定时间由路线长度和10km/h的巡航速度估算而来，并且发生碰撞不被记为失败。NoCrash benchmark也是车辆在限定时间内到达给定路线的终点则认为该路线的实验成功，限定时间由路线长度和5km/h的巡航速度估算而来，此外，发生超过一定阈值的碰撞则认为任务失败。CARLA benchmark和NoCrash benchmark都在6种天气下测试，其中4种参与训练的已知天气和2种只参与测试的未知天气。已知天气分别是“ClearNoon”、“WetNoon”、“HardRainNoon”和“ClearSunset”，对于CARLA benchmark未知天气分别是“WetCloudyNoon”和“SoftRainSunset”，对于NoCrash benchmark未知天气分别是“WetSunset”和“SoftRainSunset”。

CARLA模拟器在0.9.6版本中进行了重大修订，包括渲染引擎和行人逻辑的更新，这使得CARLA 0.9.5和以前的版本无法与当前的CARLA 0.9.10版本进行比较。CARLA 0.9.6之后的更新主要集中于增加新的传感器如IMU、Radar和增加新的城镇地图，因此CARLA0.9.6及之后的版本和CARLA 0.9.10版本在测试上几乎没有差异。为了公平的对比，LBC在CARLA0.9.5版本上重新测试了CILRS，结果表明CARLA 0.9.5版本没有使任务变得更容易成功。为了方便以后的对比，LBC提供了在CARLA 0.9.6版本上测试的数据。对于CIL、CAL、CILRS和LBC，使用LBC文献提供的数据。SCIL、DSCIL在CARLA 0.8.4版本上进行了测试，直接使用其文献提供的数据即可。使用TCP提供的数据集和默认参数重新训练了模型，选择最佳的模型权重文件在CARLA 0.9.10版本上进行测试。DLSSCIL同样在CARLA 0.9.10版本上进行测试。

本发明附图6、附图7分别是Town01和Town02的CARLA benchmark成绩，附图8、附图9是Town01和Town02的NoCrash benchmark成绩。从附图6可以看出，在已知天气下，DLSSCIL取得了LBC一样的成绩，四种任务都取得100％的成功率；在未知天气下，DLSSCIL的有障碍导航成绩比LBC高出2％。从附图7可以看出DLSSCIL模型几乎都取得了100％的成绩，在未知天气的无障碍导航和有障碍导航成绩比LBC低2％。从附图8和附图9可以看出，尽管TCP的CARLA benchmark成绩普遍低于LBC，但是TCP的NoCrash benchmark成绩比LBC更稳定，且在密集障碍导航任务的成绩比LBC更高；DLSSCIL模型在NoCrash benchmark的三种导航任务种都取得了优秀的成绩，尤其在最复杂的Town02未知天气环境下相比LBC、TCP分别平均提升了25％和10％。

Claims

1.一种基于层次化深度感知的无人车运动规划方法，其特征在于，包括以下步骤：

1)将层次化深度感知模块获取的层次化深度特征向量与车辆本体速度生成的向量进行特征联合；

2)将联合特征向量输入到多帧估计和多帧预测条件模仿学习运动规划网络生成车辆规划速度、控制量和行驶轨迹；

步骤1)中的层次化深度感知模块包含像素语义分割网络、道线语义检测网络和目标语义跟踪网络，3个网络模型选择宽度、深度、分辨率可调的通用网络架构作为Backbone主干网络，具有相同的网络拓扑和不同的具体参数；选择环绕视觉图像子集分别输入至像素语义分割网络、道线语义检测网络和目标语义跟踪网络，分别产生像素语义特征F_p、道线语义特征F_l和目标语义特征F_o,将像素语义特征F_p经过卷积和全连接网络生成像素特征向量F_m，道线语义特征F_l经过卷积和全连接网络生成道线特征向量F_n，目标语义特征F_o经过卷积和全连接网络生成目标特征向量F_d，车辆当前速度v^*经全连接网络处理生成速度特征向量F_v，然后将F_m、F_n、F_d和F_v拼接生成当前时刻t的联合特征向量J_t作为多帧估计和多帧预测条件模仿学习运动规划的输入；

步骤1中的像素语义分割网络的目标是在车辆坐标系中生成语义可视图，侧重于车辆的可通行区域/非可通行区域检测，隐式应用于车辆的轨迹安全性评估，语义可视图的含义是样本中被环境中物体遮挡的像素不参与LOSS计算，这样做的好处是车辆只对视野内的像素进行语义分类，防止过度学习，像素语义分类名称及标号定义为{车道0、人行道1、车辆2、未知3}；

步骤1中的道线语义检测网络的目标是提取环境中的分道线或路边，侧重于环境中的结构化信息提取，隐式应用于车辆的道线跟踪控制，将道线模型建模为4道线环境，对应道线名称及道线标号为{左道左线0、本道左线1、本道右线2、右道右线3}，道线类型及类型标号定义为{无效0，路边1，白虚线2，白实线3，黄虚线4，黄实线5}，每一条道线表示为{道线标号，类型标号，矩形框1，矩形框2，…,矩形框20}，其中，矩形框1-20由近及远，代表道边在图像中采样点的位置区域，类型标号取0时本道线无效，矩形框默认值均为零；由于道线区域在图像中所占的比重较小，首先将输入图像划分为h*w个栅格，通过行扫描考虑当前栅格的道线似然性以及相邻栅格位置关系计算当前栅格的道线类型概率分布，输出道线特征F_l，为了减小道线语义检测模块对训练数据的依赖性，提升其在未知场景下的泛化能力，充分利用道线(或道边)的结构性信息进行边缘增强，提高道线语义检测模块的准确率；

步骤1中的目标语义跟踪网络的目标是提取环境中的目标位置及状态信息，侧重于环境中满足注意力机制特性的中、小物体的检测与状态跟踪，隐式应用于车辆对于环境中动态目标的安全响应，目标类型名称及类型标号为{机动车0、行人1、摩托车2、自行车3、交通灯4、交通标识5、道线标识6、未知7}，每一个目标表示为{目标ID,目标大小(目标宽度wo,目标长度lo,目标高度ho),目标位姿(横坐标x,纵坐标y,航向角θ),目标状态(线速度v,角速度ω),目标框信息(图像序号Id,左上角x坐标x_left,左上角y坐标y_top,目标框宽度w_i,目标框高度h_i)}；

步骤2)利用长短时记忆循环神经网络构造多帧估计网络Lstm_e优化车辆本体和环境中动态目标的状态估计，构造多帧预测网络Lstm_p优化车辆的当前控制量和行驶轨迹，然后利用条件模仿学习运动规划网络模型生成车辆的规划速度v_t，控制量a_t＝{St，Th，Br}和路径P，其中St，Th，Br分别代表方向盘、油门和刹车控制量；条件模仿学习网络模型采用九分支决策网络，由9条相同结构的全连接网络组成，每条网络对应特定的导航场景，包括{道路跟踪,路口左转,路口直行,路口右转,左换道，右换道，掉头，倒车，停车}共9种状态，应对无人车的不同导航场景；

步骤1)中的层次化深度感知模块部分技术细节如下：

用I^k∈R^H×W×3表示输入的RGB图像及其格式，k＝1...，6为相机的编号，这6个相机分别指向车辆的左前方、正前方、右前方、左后方、正后方和右后方，相机的外参数矩阵e^k和内参数矩阵i^k已知，输入6个相机的图像，像素语义分割网络输出以车辆为中心的语义可视图，像素语义分割网络分为特征提取、特征投影和语义分割三个环节：

特征提取：Backbone网络从I^k，k＝1...，6图像中提取环绕图像前视特征；

投影阶段：特征投影网络首先将环绕图像前视特征投影到相机坐标系中形成视锥点云，然后根据相机的外参数矩阵e^k，将视锥点云数据转换到以车辆为中心的车辆坐标系中，投影到车辆所在平面的200×200区域内，对应40m×40m的物理区域，对每个体素求和降采样，生成一个C×X×Y的张量，其中，C是通道数，X、Y是长和宽；

语义分割阶段：采用Encoder-Decoder模型，依次经过Resnet18的网络层Layer1、Layer2和Layer3的处理，然后做4倍上采样并和Layer1网络的输出进行拼接，之后再经过一系列的卷积和上采样得到局部语义可视图的原始值，最后使用softmax()计算出像素类别的概率分布，使用argmax()计算出像素类别；

用交叉熵损失函数作为语义分割的损失函数：

其中，x＝[x₀，...，x_m-1]为局部语义可视图对一个像素的输出向量，y＝0，1，…，m-1为该像素的类别索引真值标量，m表示像素类别的总数，j＝0，1，…，m-1，代表像素类别的索引；

w[y]＝max(avg(count(0))，…，avg(count(m-1)))/avg(count(y)) (2)

其中，avg(count(j))是局部语义可视图真值中类别j的像素数量均值，max_cnt为各类别像素数量均值中的最大值，max()为计算最大值函数，avg()为均值函数；

对于整张局部语义可视图，损失函数为：

其中X＝{x⁽⁰⁾，x⁽¹⁾，...，x^(N-1)}为整张局部语义可视图所有像素的输出向量集合，Y＝{y⁽⁰⁾，y⁽¹⁾，...，y^(N-1)}为整张局部语义可视图所有像素的类别真值集合，i为像素索引，N为像素数量，X＝{x⁽⁰⁾，x⁽¹⁾，...，x^(N-1)}为语义可视图所有像素的输出向量集合，Y＝{y⁽⁰⁾，y⁽¹⁾，...，y^(N-1)}为语义可视图所有像素的类别真值集合，i为像素索引，N为像素数量；

步骤1)中的层次化深度特征融合技术细节如下：

对于像素语义特征F_p，道线语义特征F_l，和目标语义特征F_o，使用卷积核大小为1的卷积网络做通道降维，展开成一维，然后经过2层有1024个神经元的全连接层生成特征向量F_m、F_n、F_d，和速度v^*展开的速度向量F_v拼接在一起形成特征J，全连接层之间使用LeakyRelu激活函数，层次化特征拼接表示为:

J_t＝Join[FC_m(Conv2D_m(F_p))，FC_n(Conv2D_n(F_l))，FC_d(Conv2D_d(F_o))，FC_v(v^*)] (5)

其中Join()为特征拼接函数，FC_m()、FC_n()、FC_d()、FC_v()为全连接网络，Conv2D_m()、Conv2D_n()、Conv2D_d()为2D卷积网络；

分支决策网络损失函数定义如下：

其中，α_t,α_t ^*分别为控制量及控制量真值，v_t，v_t ^*为车辆速度及速度真值，P_t，P_t ^*分别为车辆路径及路径真值，k是控制量索引，w^(k)是控制量α_t第k项的权重，方向盘损失权重w⁽⁰⁾＝0.5，油门损失权重w⁽¹⁾＝0.45，刹车损失权重w⁽²⁾＝0.05，α，β，γ是平衡控制量误差、速度误差和路径误差的参数，j是路径点索引，θ为衰减因子，m为路径点个数。