CN113920484A

CN113920484A - 基于单目rgb-d特征和强化学习的端到端自动驾驶决策方法

Info

Publication number: CN113920484A
Application number: CN202111204252.2A
Authority: CN
Inventors: 卢笑; 竺一薇; 明月; 周炫余
Original assignee: Hunan Normal University
Current assignee: Hunan Normal University
Priority date: 2021-10-15
Filing date: 2021-10-15
Publication date: 2022-01-11

Abstract

本发明公开了基于单目RGB‑D特征和强化学习的端到端自动驾驶决策方法，包括：获取RGB图像，将RGB图像输入至预先训练好的图像特征提取网络和预先训练好的单目深度特征提取网络；预先训练好的图像特征提取网络对RGB图像进行特征提取得到第一图像特征，预先训练好单目深度特征提取网络对RGB图像进行特征提取得到第一深度特征；对图像特征和深度特征进行RGB‑D特征融合，得到融合后的第一特征向量；将融合后的第一特征向量和预先存储的历史动作向量拼接得到第一状态向量，并将第一状态向量输入至预先训练好的智能体网络得到Q值，根据Q值进行自动驾驶决策。提高智能体环境感知的能力，进而增强自动驾驶决策能力。

Description

基于单目RGB-D特征和强化学习的端到端自动驾驶决策方法

技术领域

本发明属于自动驾驶技术领域，特别是涉及一种基于单目RGB-D特征和强化学习的端到端自动驾驶决策方法。

背景技术

自动驾驶系统采用先进的通信、计算机、网络和控制技术，对车辆实现实时、连续控制，采用现代通信手段，直接面对车辆，可实现车地间的双向数据通信，传输速率快，信息量大，后续追踪车辆和控制中心可以及时获知前行车辆的确切位置，使得运行管理更加灵活，控制更为有效，更加适应车辆自动驾驶的需求，在近十年中，自动驾驶领域相关研究得到政府、科研机构、车企及互联网企业的人工智能产业的高度关注而持续推进，其中，自动驾驶决策技术是解决主动安全和减少交通事故的关键技术。

传统的自动驾驶策略建立在规定的交通规则基础之上，需要准确识别场景中的交通标志、信号灯、行人和车辆等障碍物，分割出车道线及可通行的道路等，进而利用既定的规则进行控制决策，然而数学建模的浅层逻辑规则在面对真实世界的复杂路况往往收效甚微，自动驾驶过程中的环境感知能力较差，而使用深度传感器会带来异构数据融合问题，还会增加自动驾驶成本。

发明内容

针对以上技术问题，本发明提供一种可提高智能体环境感知的能力，进而增强自动驾驶决策能力的基于单目RGB-D特征和强化学习的端到端自动驾驶决策方法。

本发明解决其技术问题采用的技术方案是：

基于单目RGB-D特征和强化学习的端到端自动驾驶决策方法，方法包括以下步骤：

步骤S500：获取RGB图像，将RGB图像输入至预先训练好的图像特征提取网络和预先训练好的单目深度特征提取网络；

步骤S600：预先训练好的图像特征提取网络对RGB图像进行特征提取得到第一图像特征，预先训练好的单目深度特征提取网络对RGB图像进行特征提取得到第一深度特征；

步骤S700：对图像特征和第一深度特征进行RGB-D特征融合，得到融合后的第一特征向量；

步骤S800：将融合后的第一特征向量和预先存储的历史动作向量拼接得到第一状态向量，并将第一状态向量输入至预先训练好的智能体网络得到Q值，根据Q值进行自动驾驶决策。

优选地，步骤S500之前还包括：

步骤S100：搭建图像特征提取网络、单目深度特征提取网络和智能体网络；

步骤S200：获取RGB训练图像I_t和I_t-1，将I_t输入至图像特征提取网络得到第二图像特征，将I_t和I_t-1输入至单目深度特征提取网络进行训练得到第二深度特征；

步骤S300：对第二图像特征和第二深度特征进行RGB-D特征融合，得到融合后的第二特征向量；

步骤S400：将融合后的第二特征向量和预先存储的历史动作向量拼接得到第二状态向量，根据第二状态向量得到训练样本组放入经验回放池，从经验回放池中获取预设组训练样本，根据预设组训练样本和预设的目标网络对智能体网络进行训练得到训练好的智能体网络。

优选地，单目深度特征提取网络包括深度网络和位姿网络，深度网络包括第一编码模块和第一解码模块，位姿网络包括第二编码模块和第二解码模块，步骤S200中将I_t和I_t-1输入至单目深度特征提取网络得到第二深度特征，包括：

步骤S210：第一编码模块采用深度残差网络对I_t进行特征提取输出特征图，第一解码模块对第一编码模块输出的特征图上采样至不同的尺寸得到不同的尺寸的特征图，并将不同的尺寸的特征图分别上采样至原图大小；

步骤S220：将上采样至原图大小后的多个特征图沿通道拼接得到第二深度特征；

步骤S230：第二编码模块采用深度残差网络对I_t和I_t-1进行编码后输入至第二解码模块，第二解码模块对编码后的I_t和I_t-1进行解码，回归出解码后的I_t和I_t-1中对应每个像素点的运动信息；

步骤S240：根据对应每个像素点的运动信息，利用全局平均池化求得I_t-1到I_t的轴角与平移向量位姿，并通过罗德里格旋转公式得到位姿旋转矩阵

步骤S250：根据位姿旋转矩阵

和预设的第一损失函数得到光度重投影误差，根据光度重投影误差进行反向传播优化单目深度特征提取网络的网络参数。

优选地，步骤S250中根据位姿旋转矩阵

和预设的第一损失函数得到光度重投影误差，包括：

其中，I_t-1→t是利用位姿旋转矩阵

预测深度图D_t及相机内参K将I_t-1映射至t时刻的结果，具体为：

其中，proj函数是利用D_t、

和K重投影到I_t-1的2D像素坐标，·表示采样算子；

pe(·)表示预设的第一损失函数，具体为：

其中，SSIM(·)表示结构相似性损失，·₁表示L₁范数损失，α是用于平衡结构相似性损失和范数损失两种损失重要性的参数。

优选地，训练样本组包括第二状态向量、最佳动作、奖励和下一状态，步骤S400中根据第二状态向量得到训练样本组，包括：

(1)根据第二状态向量确定最佳动作，具体为：

其中，s_t表示第二状态向量，a_t表示最佳动作，ε表示贪婪策略概率参数；

(2)根据最佳动作和预设的奖励函数确定奖励：

其中，c_t表示t时刻车辆是否发生碰撞，其中，c_t＝1表示有碰撞发生，否则没有，v_t表示t时刻的行驶速度，“其它”表示碰撞传感器没有反馈碰撞事件或车速v_t≤50km/h的情况。

优选地，预设的目标网络和智能体网络的结构一样，步骤S400中根据预设组训练样本和预设的目标网络对智能体网络进行训练得到训练好的智能体网络，包括：

步骤S410：将预设组训练样本中的预设数量个状态向量分别输入至智能体网络中，得到动作对应的Q(s,a|θ)值，s、a、θ分别表示当前状态、当前状态对应的动作和所述智能体网络的参数；

步骤S420：将预设组训练样本中的预设数量个下一状态输入至预设的目标网络中，得到动作对应的

值，s′、a′、θ^-分别表示下一状态、下一状态对应的动作和所述预设的目标网络的参数；

步骤S430：从预设数量个

值中取最大的值，结合奖励，得到目标Q值；

步骤S440：根据动作对应的Q(s,a|θ)值、目标Q值和预设的第二损失函数得到损失值，根据损失值进行反向传播更新智能体网络的网络参数并迭代时间步长，当时间步长达到预设值时，将智能体网络的网络参数更新到目标网络的网络参数。

优选地，步骤S440中所述预设的第二损失函数具体为：

L(s,a|θ)＝(y_i-Q(s,a|θ))²

其中，Q(s,a|θ)表示s状态下动作a对应的Q值，y_i表示目标Q值，L(s,a|θ)表示第二损失函数的损失值，其中，y_i的表达式为：

其中，r为奖励，γ为系数，

为预设数量个

值中的最大值。优选地，步骤S300中第二特征向量的表达式为：

f_t＝flatten(f_conv(cat(F_i,ds(F_d))))

其中，ds(·)表示双线性插值下采样操作，cat(·)表示沿通道方向拼接操作，f_conv表示后接批归一化和ReLu非线性激活函数的卷积核为1×1×(C_i+C_d)的卷积操作，flatten(·)表示张量展平操作，F_i为第二图像特征，F_d为第二深度特征，f_t为融合后的第二特征向量。

优选地，步骤S800中将第一状态向量输入至预先训练好的智能体网络得到Q值，包括：

步骤S810：第一状态向量经过全连接层映射至预设维度，得到预设维度的第一状态向量；

步骤S820：将预设维度的第一状态向量分别输入至值网络和优势函数网络，分别得到当前时刻的状态值和表示该状态下的每个动作的重要性的优势值；

步骤S830：根据当前时刻的状态值和优势值得到对应于每个动作的Q值。

优选地，步骤S830具体为：

其中，Q(s,a)表示在状态s下采取动作a的回报值，V(s)表示当前时刻的状态值，A(s,a)表示该状态下的每个动作的重要性的优势值，A(s,a')表示状态s下的所有动作的重要性的优势值。

上述基于单目RGB-D特征和强化学习的端到端自动驾驶决策方法，预先训练好的图像特征提取网络对RGB图像进行特征提取得到图像特征，预先训练好的单目深度特征提取网络对RGB图像进行特征提取得到深度特征，对联合图像特征与单目深度特征两种特征进行RGB-D特征融合并以此作为智能体网络的输入，提高了自动驾驶过程中的环境感知能力，增强智能体对复杂环境的决策能力，同时避免使用深度传感器所带来的异构数据融合问题，以及降低自动驾驶成本。

附图说明

图1为本发明一实施例提供的基于单目RGB-D特征和强化学习的端到端自动驾驶决策方法的流程图；

图2为本发明另一实施例提供的基于单目RGB-D特征和强化学习的端到端自动驾驶决策方法的整体网络的结构示意图；

图3为本发明又一实施例中提供的基于单目RGB-D特征和强化学习的端到端自动驾驶决策方法的马尔科夫决策过程示意图；

图4为本发明又一实施例中测试场景中的起点和终点示意图；

图5为本发明又一实施例中所有训练片段的奖励分布曲线图；

图6为本发明又一实施例中测试奖励分布图。

具体实施方式

为了使本技术领域的人员更好地理解本发明的技术方案，下面结合附图对本发明作进一步的详细说明。

在一个实施例中，如图1所示，基于单目RGB-D特征和强化学习的端到端自动驾驶决策方法，方法包括以下步骤：

在一个实施例中，步骤S500之前还包括：

步骤S100：搭建图像特征提取网络、单目深度特征提取网络和智能体网络。

具体地，采用VGG-M(Visual Geometry Group M-Network，视觉几何群M网络)的前5层卷积层作为图像特征提取网络，网络的输入为1024x320的RGB图像。图像特征提取网络的网络结构参数如表1所示，左侧是输入特征图的维度，右侧是各个网络模块，W、H、C分别表示宽度、高度和通道数。其中卷积模块的第一个参数表示滤波器的数量，“st”和“pad”分别表示卷积步长和空间填充，LRN表示局部响应归一化层，x2 pool表示最大池化下采样因子为2，×3表示采用同样的卷积层重复三次，所有权重层均采用ReLU函数作为非线性激活函数。

表1图像特征提取网络结构

单目深度特征提取网络包括深度网络和位姿网络两部分，深度网络包括第一编码模块F_d和第一解码模块G_d，位姿网络包括第二编码模块F_p和第二解码模块G_p，其网络结构参数如表2所示。

表2深度估计网络结构

智能体网络包括输入层、全连接层、值网络、优势函数网络和聚合层。

整体网络结构包含四部分，如图2所示。第一部分是图像特征提取网络，如虚线框1所示；第二部分是单目深度特征提取网络，如虚线框2所示；第三部分是特征融合模块，如虚线框3所示；如前，前三部分的网络结构联合起来实现将观测转化为状态的功能，其参数用α表示。第四部分是智能体网络，如虚线框4所示，这部分网络接收融合后的特征并输出相应状态下的最优决策动作，其参数包括值函数网络参数β、优势函数网络参数μ和公共参数γ，在此合成表示为θ。

步骤S200：获取RGB训练图像I_t和I_t-1，将I_t输入至图像特征提取网络得到第二图像特征，将I_t和I_t-1输入至单目深度特征提取网络得到第二深度特征。

具体地，整体网络训练分为两个阶段：第一阶段，利用模拟交互环境生成连续帧图像，在给定相机内参数的前提下，训练深度估计网络；第二阶段，利用ImageNet数据集预训练的VGG-M模型对图像特征提取网络进行初始化，同时联合第一阶段训练得到的深度估计网络参数，接入后续特征融合模块和智能体网络，以较大的学习率对特征融合模块和智能体网络进行训练，以较小的学习率对图像特征提取网络和深度特征提取网络进行微调，以训练得到最优决策模型。

在一个实施例中，单目深度特征提取网络包括深度网络和位姿网络，深度网络包括第一编码模块和第一解码模块，位姿网络包括第二编码模块和第二解码模块，步骤S200中将I_t和I_t-1输入至单目深度特征提取网络得到第二深度特征，包括：

步骤S250：根据位姿旋转矩阵

具体地，单目深度估计网络分为深度网络和位姿网络两部分，深度网络采用经典的U-Net编码器-解码器模型结构。第一编码模块F_d采用深度残差网络ResNet-18(32倍下采样)的前5个卷积模块，第一解码模块G_d将F_d输出的第一特征图上采样至不同的尺度，并将不同尺度的特征图上采样至原图大小以实现多尺度深度估计得到第二深度特征。位姿网络同样分为第二编码模块F_p与第二解码模块G_p，其中F_p与F_d有共同的网络结构，第二解码模块G_p由三层卷积层组成。使用连续两帧图像I_t和I_t-1作为位姿网络的输入，经由F_p编码后和G_p解码后，回归出对应每个像素点的运动信息，利用全局平均池化可求得I_t-1到I_t的轴角与平移向量位姿，最后通过罗德里格旋转公式可得到位姿旋转矩阵

由于位姿网络仅在训练阶段需要，将深度网络的第一解码模块的四级输出上采样至最后一层大小并沿通道拼接作为深度特征，进一步输入后续RGB-D特征融合模块，参与自动驾驶决策。

在一个实施例中，步骤S250中根据位姿旋转矩阵

和预设的第一损失函数得到光度重投影误差，包括：

其中，I_t-1→t是利用位姿旋转矩阵

其中，proj函数是利用D_t、

和K重投影到I_t-1的2D像素坐标，·表示采样算子；

pe(·)表示预设的第一损失函数，具体为：

具体地，本发明中使用双线性插值对I_t-1进行采样，α＝0.85，通过深度估计的自监督损失提高智能体环境感知能力。

步骤S300：对第二图像特征和第二深度特征进行RGB-D特征融合，得到融合后的第二特征向量。

具体地，给定来自图像特征提取网络的第二图像特征

和单目深度提取网络的第二深度特征

特征融合模块首先将第二深度特征下采样到与第二图像特征同样的大小，进一步在通道上进行拼接后，利用1×1层进行降维至C个通道(H×W×C)，最后将H×W×C的张量展平变为融合图像和深度特征一维向量，并作为当前时刻状态向量的一部分输入智能体网络。总结RGB-D特征融合模块的功能表示如下式：

f_t＝flatten(f_conv(cat(F_i,ds(F_d))))

其中，ds(·)表示双线性插值下采样操作，cat(·)表示沿通道方向拼接操作，f_conv表示后接批归一化和ReLu非线性激活函数的卷积核为1×1×(C_i+C_d)的卷积操作，C_i表示第二图像特征的通道数，C_d表示第二深度特征的通道数，flatten(·)表示张量展平操作，F_i为第二图像特征，F_d为第二深度特征，f_t为融合后的第二特征向量。

具体地，由于智能体与环境交互的过程产生的序列经验具有高度的时间相关性，且采用同一智能体网络同时生成下一状态的目标Q值和更新当前状态Q值容易造成网络不稳定和不收敛，因此，本发明基于DQN的方法，首先建立了经验回放池R，将每一个时步的马尔可夫决策过程作为一次经验储存以更新经验回放池，该处理可以将过去与当前的经验混合从而降低样本之间的相关性，并确保训练样本能够全面地被训练。训练过程中每次只会随机从R中抽取一定数量的经验作为样本，该方法能够有效降低数据相关性，同时R使经验得到重复使用有利于学习效率的提高。进一步，引入一个与智能体网络完全相同的目标网络

来估计目标Q值，目标网络的参数θ^-是每隔一定步数才会从智能体网络复制参数θ更新，这能够暂时固定训练过程的Q值从而使智能体学习过程更稳定。采用以上两种措施后，智能体网络的训练过程通过最小化式的预设的第二损失函数来完成。

在一个实施例中，训练样本组包括第二状态向量、最佳动作、奖励和下一状态，步骤S400中根据第二状态向量得到训练样本组，包括：

(1)根据第二状态向量确定最佳动作，具体为：

(2)根据最佳动作和预设的奖励函数确定奖励：

具体地，强化学习是指智能体在与环境的交互过程中学习策略以达到回报最大化的过程。将自动驾驶的序列决策问题视为马尔科夫决策过程(Markov Decision Process，MDP)，并由4元组(s_t,a_t,r_t,s_t+1)表示。在t时刻，智能体通过获取状态s_t确定最佳动作a_t，并执行动作a_t与环境E交互以确定奖励r_t，最终获得下一个状态s_t+1，状态即表示图像，譬如执行左转，右转后，观测到的图像是不同的，也就是说下一状态s_t+1取决于动作a_t。

本申请中端到端自动驾驶决策问题的马尔科夫决策过程定义框图如图3所示。关于状态，在自动驾驶决策问题中，单模态传感器(相机)设置下，由于像素空间极为庞大，直接将RGB图像(观测o)作为智能体的状态是不可取的。通常需要利用卷积神经网络对其进行特征提取，将高维观测空间转化为较低维的状态空间。将该过程表示为s_t＝(f(o_t,α),h_t)，其中o_t表示当前时刻的观测图像，f(·)表示特征提取网络，其参数用α表示，h_t表示过去的历史动作，是一个编码了过去已执行动作的向量，添加历史动作向量的目的是稳定搜索策略。

关于动作，本申请定义的对车辆的控制量包括转向、油门和刹车。本申请考虑基于离散动作输出的决策方法，将三种控制量的输出组合为八个离散动作，分别对应直行、不同幅度的转弯和刹车。本文定义的离散动作a_t与控制量之间的对应关系及其含义如表3所示。

表3离散动作与控制量的对应关系

关于奖励，奖励r_t是为了对当前时刻动作a_t的有效性进行准确评价而设置的，用于对智能体进行监督和训练。本文利用车辆反馈的测量数据定义奖励函数，具体如下式所示。

其中，c_t表示t时刻车辆是否发生碰撞，其中，c_t＝1表示有碰撞发生，否则没有，v_t表示t时刻的行驶速度，“其它”表示碰撞传感器没有反馈碰撞事件或车速v_t≤50km/h的情况；根据以上奖励函数，t时刻智能体获得的总奖励可以由下式表示：

其中，λ∈[0,1]表示折扣因子，其值越大表示总奖励R与将来动作越相关，本实施例中设定λ＝0.9。

在一个实施例中，预设的目标网络和智能体网络的结构一样，步骤S400中根据预设组训练样本和预设的目标网络对智能体网络进行训练得到训练好的智能体网络，包括：

步骤S430：从预设数量个

值中取最大的值，结合奖励，得到目标Q值；

在一个实施例中，步骤S440中所述预设的第二损失函数具体为：

L(s,a|θ)＝(y_i-Q(s,a|θ))²

其中，r为奖励，γ为系数，

为预设数量个

值中的最大值。

具体地，在强化学习中，采用动作价值函数Q(s,a)评价给定状态s下采取动作的回报值，Q值越大表示在状态s下采取动作a获得的长期回报值R越大。Q函数可以通过下示方程迭代更新。

Q(s,a)＝Q(s,a)+α(r+γmaxa′Q(s′,a′)-Q(s,a))

其中，r表示在当前时刻状态s下执行动作a的即时奖励，Q(s′,a′)表示下一个状态s′下执行动作a′的Q值。

在高维状态和动作空间下，利用上式逐个计算每个状态和动作下的Q值是无法实现的。深度Q学习网络(Deep Q-Network,DQN)采用深度网络建立一个智能体网络Q(s,a|θ)来近似Q函数，其中θ表示智能体网络的参数，该网络的输入为当前状态，输出为当前状态下每个动作的Q值。

由DQN学习得到的策略存在当不同动作对应的Q值相似时不能很好地对不同策略进行评估的问题，本申请利用Dueling DQN的思想，利用值函数网络V(s|γ,β)和优势函数网络A(s,a|γ,μ)联合估计Q函数(其中γ表示两个网络的公共参数部分，β和μ分别表示值函数网络和优势函数网络独有的参数)。为了提高优势函数对各动作的可辨识性(identifiability)，对优势函数进行中心化处理，采用以下组合方式计算Q值：

最终，Q(s,a)的更新可通过最小化的预设的第二损失函数实现：

L(s,a|γ_i,β_i,μ_i)＝(r+γmax_a′Q(s′,a′|γ_i,β_i,μ_i)-Q(s,a|γ_i,β_i,μ_i))²

由于卷积神经网络的可微性，通过最小化式的预设的第二损失函数可实现端到端地学习特征提取网络和智能体网络参数。

在进行实验验证时，第一阶段深度特征提取网络训练过程中采用Adam优化器，学习率为10^-4，迭代次数为11,000(训练样本共6,600张图片，批次大小设置为12，训练周期为20次)；第二阶段训练过程中，采用SGD(随机梯度下降)优化器以10^-4学习率对特征融合模块和智能体网络进行训练，以10^-5学习率对图像特征提取网络和深度特征提取网络进行微调，对于智能体网络，设置经验回放池的容量为5,000，训练总片段数为30,000，每个片段的时间步长为10，批次大小设置为16，目标网络每隔1,000个步长更新一次，贪婪策略概率参数ε的初始值设为0.9，每次下降0.1直至固定在0.1，此外，设置最小奖励阈值为-1,000，以防止智能体的奖励趋于无穷小。

在训练任务中采用随机生成起始点的方式，测试任务采用固定起始点和终止点的方式，记为(起始点，终止点)(分别为(36，40)、(68，71)、(27，130))，其在地图中的显示如图4所示(圆形表示起始点，星形表示终止点)，有动态障碍物条件下设置车辆数目为15，行人数目为50，训练任务的天气条件设置为晴天的日间正午时段，采样30000个片段进行训练，而为了充分验证所提出算法的有效性和所训练模型的泛化性能，分别在正午和夜间两种不同时段测试所训练模型的性能。

测试任务是在忽略交通信号和速度限制的情况下，让车辆在规划好的路径上从起始点自行决策到达终止点，所有测试任务均执行15次，如果车辆在规定的时间内到达终点即为成功，其中规定的时间是指在最优路线上以10km/h的速度完成任务所需的时间，采用三种指标对算法性能进行评估，分别是：任务成功次数(指完成任务的片段数量)，任务平均完成度(每次测试中车辆已行驶距离占据任务总距离的百分比/测试的次数)和违规驾驶分数(指越道、碰撞的强度，由交互环境对车辆的测量数据给出)。

实验结果分析，(1)奖励分布：奖励值的分布可以代表智能体从无到有的学习过程，直观体现强化学习的训练效果，对于所训练的30,000个片段中的每100个片段进行一次奖励值统计，奖励曲线图如图5所示，横轴为片段数，左侧纵轴为利用图像特征训练智能体算法的奖励值(实线)，右侧纵轴为联合图像和单目深度特征训练智能体算法的奖励值(虚线)，观察联合图像和深度特征的奖励变化曲线可知，自动驾驶决策学习过程大致可分为四个阶段：训练初期(0-1,000)、训练前期(1,100-8,500)、训练中期(8,600-21,000)和训练末期(21,100-30,000)，训练初期奖励略有波动，网络刚开始随机探索，训练前期奖励一直在下降，车辆冲向路边，以及越道导致速度变慢的情况不断发生，训练中期奖整体奖励在往变大方向偏移，这表明车辆已经基本学到如何车道保持，训练末期奖励分布几乎没有改变，说明网络此时已经收敛，对比仅依赖图像特征的奖励变化曲线可发现，利用图像特征训练的智能体奖励变化曲线总体较为波动，说明算法收敛过程较慢，智能体难以学习获得正确的经验，的联合图像与深度特征算法获得的总体奖励远大于仅依赖图像特征的奖励，且分布趋势更稳定。(2)测试结果分析：为了充分验证所提出算法的有效性和所训练模型的泛化性能，分别在正午和夜间两种不同时段测试所训练模型的性能，为便于实验结果分析，将利用图像特征训练得到的模型记为“RGB”，联合图像与单目深度特征训练得到的模型记为“RGB+D”，基于4个导航任务(01直行，02一次转弯，03无动态障碍，04有动态车辆和行人)，在日间和复杂夜间场景中进行15次测试，任务平均完成度的结果如下表4所示，其中加粗字体代表最佳结果：

表4任务平均完成度结果表

由上表的结果分析可知：对于正午时段测试，在没有车辆和行人的情况下，训练得到的模型已经基本学到了车道保持策略，结合深度特征大大提高了任务平均完成度，对于夜间时段测试，由于存在域间隙的问题，日间场景训练出的模型无法很好地迁移至夜间场景，但相比融合图像与深度特征的模型，仅依赖图像特征训练的模型在夜间测试结果在转弯任务、有动态障碍物和无动态障碍物的综合任务中都较低，这说明仅依赖图像特征训练得到的模型对域间隙问题尤其敏感，图像深度特征对域间隙导致的模型降质具有一定的缓解作用。

此外，对综合任务03(无动态障碍物)中测试过程的奖励进行可视化如图6所示，由图可知融合特征奖励值更高，趋势也更加稳定，这说明采用融合特征指导智能体学习得到更优的驾驶策略。

最后，测试任务中，汇总任务完成次数、任务平均完成度、越道率及障碍物碰撞强度的结果如下表5所示：

表5任务完成次数、任务平均完成度、越道率及障碍物碰撞强度的结果表

由对比结果可知其平均任务完成度略低于的基于图像特征的Dueling DQN(深度强化学习)算法模型，远低于联合图像与深度特征Dueling DQN算法模型的结果，进一步说明联合图像与单目深度特征有利于提高智能体环境感知的能力，进而增强自动驾驶决策能力。

上述基于单目RGB-D特征和强化学习的端到端自动驾驶决策方法，先采用自监督的方式从单目图像中挖掘深度信息，联合图像信息，增强智能体环境感知能力并指导智能体学习更鲁棒的自动驾驶策略，其次采用Dueling DQN提高了智能体对策略的评价能力，实验结果为使用单模态传感器获取深度信息提高自动驾驶决策能力提供了一定的参考，在未来的工作中，将考虑采用域适应的方法进一步解决夜间自动驾驶决策能力降质的问题。

以上对本发明所提供的基于单目RGB-D特征和强化学习的端到端自动驾驶决策方法进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.基于单目RGB-D特征和强化学习的端到端自动驾驶决策方法，其特征在于，所述方法包括以下步骤：

步骤S500：获取RGB图像，将所述RGB图像输入至预先训练好的图像特征提取网络和预先训练好的单目深度特征提取网络；

步骤S600：所述预先训练好的图像特征提取网络对所述RGB图像进行特征提取得到第一图像特征，所述预先训练好的单目深度特征提取网络对所述RGB图像进行特征提取得到第一深度特征；

步骤S700：对所述图像特征和所述第一深度特征进行RGB-D特征融合，得到融合后的第一特征向量；

步骤S800：将所述融合后的第一特征向量和预先存储的历史动作向量拼接得到第一状态向量，并将所述第一状态向量输入至预先训练好的智能体网络得到Q值，根据所述Q值进行自动驾驶决策。

2.根据权利要求1所述的方法，其特征在于，步骤S500之前还包括：

步骤S200：获取RGB训练图像I_t和I_t-1，将所述I_t输入至所述图像特征提取网络得到第二图像特征，将所述I_t和I_t-1输入至所述单目深度特征提取网络进行训练得到第二深度特征；

步骤S300：对所述第二图像特征和所述第二深度特征进行RGB-D特征融合，得到融合后的第二特征向量；

步骤S400：将所述融合后的第二特征向量和预先存储的历史动作向量拼接得到第二状态向量，根据所述第二状态向量得到训练样本组放入经验回放池，从经验回放池中获取预设组训练样本，根据所述预设组训练样本和预设的目标网络对所述智能体网络进行训练得到训练好的智能体网络。

3.根据权利要求2所述的方法，其特征在于，所述单目深度特征提取网络包括深度网络和位姿网络，深度网络包括第一编码模块和第一解码模块，所述位姿网络包括第二编码模块和第二解码模块，步骤S200中将所述I_t和I_t-1输入至所述单目深度特征提取网络得到第二深度特征，包括：

步骤S210：所述第一编码模块采用深度残差网络对I_t进行特征提取输出特征图，所述第一解码模块对所述第一编码模块输出的特征图上采样至不同的尺寸得到不同的尺寸的特征图，并将所述不同的尺寸的特征图分别上采样至原图大小；

步骤S230：所述第二编码模块采用深度残差网络对I_t和I_t-1进行编码后输入至所述第二解码模块，所述第二解码模块对编码后的I_t和I_t-1进行解码，回归出解码后的I_t和I_t-1中对应每个像素点的运动信息；

步骤S250：根据所述位姿旋转矩阵

和预设的第一损失函数得到光度重投影误差，根据所述光度重投影误差进行反向传播优化所述单目深度特征提取网络的网络参数。

4.根据权利要求3所述的方法，其特征在于，步骤S250中根据所述位姿旋转矩阵

和预设的第一损失函数得到光度重投影误差，包括：

其中，I_t-1→t是利用位姿旋转矩阵

其中，proj函数是利用D_t、

和K重投影到I_t-1的2D像素坐标，<·>表示采样算子；

pe(·)表示预设的第一损失函数，具体为：

其中，SSIM(·)表示结构相似性损失，||·||₁表示L₁范数损失，α是用于平衡结构相似性损失和范数损失两种损失重要性的参数。

5.根据权利要求2所述的方法，其特征在于，所述训练样本组包括第二状态向量、最佳动作、奖励和下一状态，步骤S400中根据第二状态向量得到训练样本组，包括：

(1)根据所述第二状态向量确定最佳动作，具体为：

(2)根据所述最佳动作和预设的奖励函数确定奖励：

6.根据权利要求5所述的方法，其特征在于，预设的目标网络和所述智能体网络的结构一样，步骤S400中根据所述预设组训练样本和预设的目标网络对所述智能体网络进行训练得到训练好的智能体网络，包括：

步骤S410：将所述预设组训练样本中的预设数量个状态向量分别输入至所述智能体网络中，得到动作对应的Q(s,a|θ)值，s、a、θ分别表示当前状态、当前状态对应的动作和所述智能体网络的参数；

步骤S420：将所述预设组训练样本中的预设数量个下一状态输入至所述预设的目标网络中，得到动作对应的

步骤S430：从预设数量个

值中取最大的值，结合所述奖励，得到目标Q值；

步骤S440：根据所述动作对应的Q(s,a|θ)值、所述目标Q值和预设的第二损失函数得到损失值，根据所述损失值进行反向传播更新所述智能体网络的网络参数并迭代时间步长，当所述时间步长达到预设值时，将所述智能体网络的网络参数更新到所述目标网络的网络参数。

7.根据权利要求6所述的方法，其特征在于，步骤S440中所述预设的第二损失函数具体为：

L(s,a|θ)＝(y_i-Q(s,a|θ))²

其中，r为奖励，γ为系数，

为预设数量个

值中的最大值。

8.根据权利要求2所述的方法，其特征在于，步骤S300中第二特征向量的表达式为：

f_t＝flatten(f_conv(cat(F_i,ds(F_d))))

9.根本权利要求1所述的方法，其特征在于，步骤S800中将所述第一状态向量输入至预先训练好的智能体网络得到Q值，包括：

步骤S810：所述第一状态向量经过全连接层映射至预设维度，得到预设维度的第一状态向量；

步骤S820：将所述预设维度的第一状态向量分别输入至值网络和优势函数网络，分别得到当前时刻的状态值和表示该状态下的每个动作的重要性的优势值；

步骤S830：根据所述当前时刻的状态值和所述优势值得到对应于每个动作的Q值。

10.根本权利要求9所述的方法，其特征在于，步骤S830具体为：

其中，Q(s,a)表示在状态s下采取动作a的回报值，V(s)表示当前时刻的状态值，A(s,a)表示状态s下的每个动作的重要性的优势值，A(s,a')表示状态s下的所有动作的重要性的优势值。