CN113486871B

CN113486871B - 基于深度图的无人车局部自主控制方法、装置和设备

Info

Publication number: CN113486871B
Application number: CN202111043740.XA
Authority: CN
Inventors: 胡瑞军; 张育林; 郑永煌; 李传详; 梁庄; 张琦; 赵成; 谌廷政; 索相波
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2021-09-07
Filing date: 2021-09-07
Publication date: 2021-11-16
Anticipated expiration: 2041-09-07
Also published as: CN113486871A

Abstract

本申请涉及基于深度图的无人车局部自主控制方法、装置和设备，方法包括：获取无人车视野拍摄的深度图并提取深度图的深度特征矢量；将历史时刻连续拍摄得到的多个深度图像对应的深度特征矢量与拍摄所述深度图像时无人车的导航目标点位置坐标进行拼接融合，得到融合特征矢量并作为无人车的导航神经网络的输入状态；设计综合奖励函数；利用融合特征矢量和综合奖励函数，在障碍物仿真环境中采用超参数分段的训练策略对导航神经网络进行训练；在真实物理环境中，利用训练好的所述导航神经网络对深度图像处理，输出无人车控制指令。上述方法提高了算法的泛化性能，保持较好的导航能力，环境适应性较强。

Description

基于深度图的无人车局部自主控制方法、装置和设备

技术领域

本申请涉及无人车视觉感知与智能控制技术领域，特别是涉及一种基于深度图的无人车局部自主控制方法、装置和设备。

背景技术

无人车的导航通常包括全局导航和局部导航。全局导航是指根据全局地图为无人车规划出一条从起始位置到目标位置的安全路径，其通常需要依赖全局地图构建和离线的路径规划，具有全局最优性，常用的全局路径规划算法包括栅格法、A*算法、快速搜索随机树法（RRT）、人工势场法、粒子群算法和遗传算法等。局部导航是指无人车根据其自身对当前环境中障碍物的感知情况进行短期的避障决策和规划，其通常体现为运动控制指令序列，常用的规划方法包括人工势场法、模糊逻辑、动态窗口法和强化学习等。

局部导航要求具有较高的可靠性和快速性。端到端的反应式架构可以提供快速、可靠的导航。强化学习和深度强化学习不需要依赖环境模型和监督训练标签，而是通过Agent与环境的交互积累经验，并从经验中学习最优行为策略，因此其被越来越多的用于复杂场景下的无人车决策规划和智能控制。然而，在实现本发明的过程中，发明人发现无人车传统的基于深度强化学习的局部控制方法，仍然存在着环境适应性较差的技术问题。

发明内容

基于此，有必要针对上述技术问题，提供一种基于深度图的无人车局部自主控制方法、一种基于深度图的无人车局部自主控制装置以及一种计算机可读存储设备，对导航的环境适应性较强。

为了实现上述目的，本发明实施例采用以下技术方案：

一方面，本发明实施例提供一种基于深度图的无人车局部自主控制方法，包括步骤：

获取无人车视野拍摄的深度图像；

对所述深度图像进行处理，提取得到深度特征矢量；

将历史时刻连续拍摄得到的多个深度图像对应的深度特征矢量与拍摄所述深度图像时无人车的导航目标点位置坐标进行拼接融合，得到融合特征矢量并作为无人车的导航神经网络的输入状态；

将设计的目标趋近奖励、避障奖励和能量优化奖励进行加和运算，得到综合奖励函数；

利用所述融合特征矢量和所述综合奖励函数，在障碍物仿真环境中采用超参数分段的训练策略对所述导航神经网络进行训练；

在真实物理环境中，获取当前时刻无人车视野拍摄的深度图像，将深度图像输入至训练好的所述导航神经网络，输出无人车控制指令。

另一方面，还提供一种基于深度图的无人车局部自主控制装置，包括：

深度矢量模块，用于获取无人车视野拍摄的深度图像；对所述深度图像进行处理，提取得到深度特征矢量；

矢量融合模块，用于将历史时刻连续拍摄得到的多个深度图像对应的深度特征矢量与拍摄所述深度图像时无人车的导航目标点位置坐标进行拼接融合，得到融合特征矢量并作为无人车的导航神经网络的输入状态；

综合奖励模块，用于将设计的目标趋近奖励、避障奖励和能量优化奖励进行加和运算，得到综合奖励函数；

网络训练模块，用于利用所述融合特征矢量和所述综合奖励函数，在障碍物仿真环境中采用超参数分段的训练策略对所述导航神经网络进行训练；

导航应用模块，用于在真实物理环境中，获取当前时刻无人车视野拍摄的深度图像，将深度图像输入至训练好的所述导航神经网络，输出无人车控制指令。

又一方面，还提供一种无人车，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现任一项的上述基于深度图的无人车局部自主控制方法的步骤。

再一方面，还提供一种计算机可读存储设备，其上存储有计算机程序，计算机程序被处理器执行时实现任一项的上述基于深度图的无人车局部自主控制方法的步骤。

上述技术方案中的一个技术方案具有如下优点和有益效果：

上述基于深度图的无人车局部自主控制方法、装置和设备，通过仿真训练可以建立深度感知数据到最佳导航行为的数据模型，避免了基于大范围距离感知传感器的地图构建和路径规划，可以仅依靠局部的感知数据进行环境特征推理和导航行为规划。以低维度的深度特征矢量代替高维度的无人车视野深度数据进行网络训练，通过矢量形式的状态表征，减轻了网络参数对于环境、无人车成像稳定性的依赖，提高了基于深度强化学习的无人车局部导航算法的泛化性能，使得能够轻易的迁移到新的仿真环境或实物环境，保持较好的导航能力，环境适应性较强。

通过连续多个时刻的深度特征矢量和连续多个时刻的目标位置信息融合并输入到网络中，使得无人车当前时刻的行为决策能够兼顾过去时刻的障碍物和目标位置分布情况，即使当前视野内没有障碍物也能够继续以往时刻的避障行为，持续完成避障，有效地克服了无人车感知范围局限的问题。

此外，包含了目标趋近奖励、避障奖励和优化能量奖励的综合奖励机制，能够加速基于深度强化学习的无人车导航神经网络的训练，促进无人车快速学会跟随和避障行为，优化能量奖励能够引导无人车产生更短的运动轨迹。同时，所提出的综合奖励机制设计方法对于深度强化学习在其他无人车规划和控制领域的应用具有一定的参考价值。

附图说明

图1为一个实施例中基于深度图的无人车局部自主控制方法的总体设计示意图；

图2为一个实施例中基于深度图的无人车局部自主控制方法的流程示意图；

图3为一个实施例中深度特征矢量的获取流程示意图；

图4为一个实施例中基于深度强化学习方法的无人车导航神经网络的数据流示意图；

图5为一个实施例中无人车导航神经网络的数据推理层网络结构示意图；

图6为一个实施例中无人车安全性评估函数计算中的深度特征矢量元素权重系数曲线示意图；

图7为一个实施例中基于深度图的无人车局部自主控制装置的模块结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请。

另外，本发明各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时，应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

强化学习和深度强化学习模仿生物对外界信号做出应激反应的现象，通过Agent与环境的交互经验和奖惩信号来学习系统状态到最优行为决策的映射模型。其优点在于不需要依赖环境模型和监督训练标签，而是通过Agent与环境的交互积累经验，并从经验中学习最优行为策略，因此其被越来越多的用于复杂场景下的无人车决策规划和智能控制。深度强化学习利用人工神经网络来表征系统的状态，将强化学习由离散空间的拓展到连续复杂空间。因此，利用深度强化学习可以直接利用连续的无人车感知数据进行导航控制规划，构建端到端的反应式导航方法，而避免了障碍物测量、识别、定位和建图等环节，其用于在线实时规划的时效性好的优势。

在实践中，发明人研究发现传统的无人车的局部导航技术中，存在着以下缺陷：其一，目前，基于深度强化学习的无人车局部导航的研究成为一个热点，但是能够成功应用于物理无人车的案例并不多。限制基于深度强化学习的无人车导航应用的一个重要问题是算法的泛化能力不足，也就是说训练后的算法对新的环境、新的感知数据的适应性较差，甚至其只能适用于训练地图。因此，泛化性是基于深度强化学习的导航方法设计中需要重点考虑的问题。

其二，不完全状态感知会导致深度强化学习算法收敛速度慢，难以学会最优策略，是深度强化学习应用于复杂环境导航的另一个难题。无人车局部导航依赖于在线感知情况，但是在大多数情况下，无人车对环境的感知比较有限，属于不完全状态感知。比如采用双目相机时，其深度视野通常只有90°的范围，并且当无人车运动时，无人车视野随无人车的位置姿态一起变化，因而会丢失先前的障碍物信息，使得无人车始终难以知道其周围的完整的障碍物分布，因此难以决策出最优的导航行为。需要通过一定的状态表征和数据供给机制弥补不完全感知的挑战。

综上，本申请针对无人车传统的局部导航方法中，仍然存在着的环境适应性较差的技术问题，提供了一种对导航的环境适应性较强的基于深度图的无人车局部自主控制方法，属于一种新的基于深度强化学习的无人车“端到端”的反应式局部导航方法。该方法能够以无人车视野内深度图像为输入，实现持续的导航行为的决策：首先，以降维的无人车视野深度特征矢量进行环境状态表征，有效提高了导航网络算法对新环境或不规则障碍物环境的泛化性能；其次，以连续多个时刻的环境和目标位置状态的融合矢量输入到导航网络中，通过补充对过去时刻环境和目标信息的记忆信息，有效弥补了无人车视野局限的不足，能够实现无人车持续的避障行为。

强化学习：强化学习模仿人类或动物针对外界信号做出应激反应的现象，通过Agent与环境的交互积累经验并进行动作选择策略的学习，其通过强化信号来指导学习方向的机器学习方法，是区别于监督学习和无监督学习的第三类机器学习方法。

神经网络的泛化性：神经网络的泛化性能是指对数据变化的鲁棒性，或者说是学习后的神经网络对测试样本或工作样本做出正确反应的能力，也就是其对训练数据集以外的其他数据的识别能力；或者说泛化能力就是网络的测试准确率。

深度图像：深度图像是指以物理世界中的点到相机平面的归一化距离为像素点亮度值的图像，反映了视野内物体各点到相机平面的远近程度，根据相机焦距信息和深度图像可以计算出深度图像中各点的空间距离和3维坐标。深度图像通常通过深度相机获取，比如双目视觉相机或tof红外测距相机等。

请参阅图1，提供了本申请的基于深度图的无人车局部自主控制方法的总体设计示意图，主要包括状态与动作空间定义、神经网络构建、综合奖励机制设计、虚拟环境构建与训练、迁移应用等五大环节。

请参阅图2，一方面，本发明提供一种基于深度图的无人车局部自主控制方法，包括如下步骤S12至S20：

S12，获取无人车视野拍摄的深度图像，对深度图像进行处理，提取得到深度特征矢量。

可以理解，无人车视野拍摄的深度图包含了其拍摄到的各个物理世界的点到相机平面的归一化距离的信息，可以为无人车的避障提供有效的障碍物感知所需的信息。

无人车的导航系统的状态可包含两方面的信息，分别是导航目标位置信息和无人车视野的深度特征矢量信息。其中

时刻的目标位置信息记为

；

时刻无人车视野内深度特征矢量记为

，其中，

表示深度特征矢量的维度。

在一个实施例中，上述步骤S12具体可以包括如下处理步骤：

S122，对深度图进行地面背景减除，得到障碍物深度图；

S124，对障碍物深度图进行深度特征降维采样，得到深度特征矢量。

可以理解，基于深度图获取深度特征矢量的过程主要包括两步，分别是地面背景减除和深度特征降维采样。深度特征矢量获取的流程图如图3所示。

地面背景减除的目的是减去深度图中路面相应位置处的深度像素，从而得到只有障碍物的深度图（也即障碍物深度图）。深度特征降维采样是为了将2维的像素矩阵降维到一个1维的矢量，从而减少状态表征对图像本身的依赖，提高算法的泛化能力，甚至能够在一定程度上消除训练仿真图像和真实相机采集到的图像的差异带来壁垒。

在一个实施例中，关于上述步骤S122，具体可以包括如下处理流程：

获取深度图像中开阔地带的地面深度图像；

获取无人车在工作过程中当前视野的当前深度图像；

计算当前深度图像与地面深度图像的相似度矩阵；

根据相似度矩阵和当前深度图的像素矩阵进行矩阵元素乘积计算，减除背景深度信息，得到障碍物深度图。

具体的，获取开阔地带的地面深度图像

，其第

行、第

列的像素值记为

，且满足

。获取无人车（可以是真实的无人车或仿真无人车）工作过程中某一时刻的视野深度图像

，也即选取的该某一时刻的当前视野的当前深度图像，其第

行、第

列的像素值记为

，且满足

。

计算当前深度图像

与地面深度图像

的相似度矩阵

，可采用本领域现有的相似度计算算法来实现。相似度矩阵

为一个01矩阵，其元素记为

，

的取值按照前述两个矩阵对应位置像素值的相似度决定：当前述两个矩阵同一位置的两个像素值差异较小时，

取值为0；当前述两个矩阵同一位置的两个像素值的差异较大时，

取值为1。也就是按照如下公式进行计算：

其中，

表示人为设置的相似性判别差异；

表示深度相机最远探测距离。

基于相似度矩阵，按照如下公式进行背景减除计算：

其中，

符号表示两个矩阵对应位置像素值做乘积并充当结果矩阵的同一索引位置的像素值。

在一个实施例中，关于上述步骤S124，具体可以包括如下处理流程：

将障碍物深度图的下半幅沿水平方向分割为N个条状子图；N个为大于等于2的整数。

分别将每个条状子图的最大像素值设为每个条状子图的特征采样值；

将各特征采样值进行反归一化变换，得到深度特征矢量。

具体的，采样时，将障碍物深度图下半幅沿水平方向分割为N个条状子图，并用每个条状子图的最大像素值

作为该子图的特征采样值，特征采样值反应了该条状子图所在方向上最近障碍物距相机平面的距离的归一化数值，并且有

。将这些特征采样值进行反归一化变换后，得到深度特征矢量：

，其中，

表示障碍物深度图中从左到右第

个采样带中障碍物的最近距离，

和

为相机性能参数，分别表示到相机深度测量的最远距离和最近距离。

S14，将当历史时刻连续拍摄得到的多个深度图像对应的深度特征矢量与拍摄深度图像时无人车的导航目标点位置坐标进行拼接融合，得到融合特征矢量并作为无人车的导航神经网络的输入状态。

可以理解，由于无人车视野有限，当其在避障运动时存在看不到两侧障碍物的情况，因此将当前时刻到过去

个连续时刻的深度特征矢量和

个连续时刻的无人车的导航目标点位置坐标进行拼接融合，形成融合特征矢量，用于一起表征当前的障碍物分布情况，作为导航神经网络的输入状态，融合特征矢量可以表示为

：

其中，融合特征矢量的维度为

。通过将过去连续时刻状态输入到导航神经网络中，意味着将Agent的记忆引入学习过程，使Agent能够基于对过去时刻的障碍物信息与目标点位置的记忆，以及当前的视野前方的障碍物情况和目标位置进行导航行为的决策，有助于无人车产生持续的避障行为，从而提高对较大尺寸障碍物的规避能力。图4所示为本申请所提的基于深度强化学习的基于深度图的无人车局部自主控制方法的数据流示意图，图中

。

在一些实施方式中，采用离散的动作空间设计，为无人车预先设计了离散的动作空间。无人车运动行为记为

，其中，动作库

中包含7个动作，分别是4个运动朝向调整动作，包括高速左转，低速左转，低速右转，高速右转；以及3个直行行为，包括低速前进，中速前进和高速前进。每个动作的控制周期取固定值，例如固定为1.0秒。

在一些实施方式中，关于无人车的基于深度强化学习的神经网络构建方面，深度强化学习的数据推理层可采用图5所示的4层的网络结构，网络以深度特征矢量

和目标位置信息

拼接形成的融合特征矢量为输入，以无人车导航行为的评价值函数

为输出，其中，

表示当前时刻状态；采用线性整流单元（Relu）为激活函数。如图5中，作为输出的评价值函数

其上方每一个圆圈代表的是一个标量的评价值，一个标量无人车对应的一个行为，因此一个圆圈也代表了一个行为的评价值；上图4中相应部分同理理解。数据推理层的网络参数将在仿真训练过程中根据奖励信号进行更新。

S16，将设计的目标趋近奖励、避障奖励和能量优化奖励进行加和运算，得到综合奖励函数。

可以理解，为了使无人车能够快速学会障碍环境下的导航行为，为其设计了一种稠密奖励机制，包括目标趋近奖励，避障奖励和能量优化奖励三个部分。

在一个实施例中，设计的目标趋近奖励为

：

其中，

表示比例系数，

表示

时刻目标引导点到无人车的距离，

表示

时刻目标引导点到无人车的距离，

表示无人车到达目标引导点的判定距离阈值。

具体的，设计此种奖励用于激励无人车学会到达目标位置，记为

。为了加速无人车趋向于目标位置，尽可能优化无人车的运动路径长度，根据引导点到无人车的距离的变化量来给予线性的稠密奖励，按照

计算。其中，

为比例系数，

表示

时刻目标引导点到无人车的距离；而当无人车到达目标位置时，给予100的最大奖励值。无人车到达引导点的判定距离阈值记为

，因此，设计的目标趋近奖励如上式所示。

在一个实施例中，设计的避障奖励为

：

其中，

表示比例系数，

表示深度带状分割矢量各元素的权重矢量，

表示

时刻的深度特征矢量，

表示

时刻的深度特征矢量，

表示深度特征向量维数，

表示无人车到任意障碍物的距离，

表示判定无人车与环境障碍物是否发生碰撞的距离阈值。

具体的，当无人车前进方向出现障碍物时，则无人车处于比较危险的状态。根据无人车前方的障碍物分布状况，构造一个无人车安全状态指标函数用于评估某一时刻无人车的安全性，记为

。本实施例中采用深度分割矢量加权求和得到的标量来评估安全性，也就是：

其中，

为深度带状分割矢量各元素的权重矢量，

表示深度特征矢量，

为深度特征矢量的维数。

越大则表明无人车安全性越好，说明无人车前进通路上存在的障碍物比较少或比较远。直观上，无人车视野中央的障碍物相比视野两侧的障碍物对无人车的威胁更大。因此，

可按照线性规律取值，如图6所示，其前后两端的“0”值是为了减少相机视野边缘的障碍物的影响，因为此处认为相机视野边缘障碍物的分布对无人车的安全性影响比较小。其中，

为折线的斜率，可设定为0.1或0.2。

其中，

。根据无人车安全性指标的变化设计了其避障奖励函数，也即：

其中，

表示

时刻无人车安全状态指标函数，

表示

时刻无人车安全状态指标函数。

此外，当无人车与环境障碍发生碰撞时，给予-100的惩罚。

用来表示判定无人车与环境障碍是否发生碰撞的距离阈值。因此，无人车的避障奖励函数可以写为上述前一式的

所示。当无人车在原地转向时，引导点到其距离的变化非常微小，此时无人车的转向行为的奖励主要来自于这一项避障奖励。因此避障奖励主要用于直接对无人车的转向动作进行奖励或惩罚。

在一个实施例中，能量优化奖励为

：

其中，

表示每个训练回合的设置回合内步数上限，

表示当前步数。

具体的，从能量优化的角度出发，设置了优化能耗奖励，记为

。为了督促无人车以尽可能快的速度完成躲避障碍物并到达引导点，无人车每控制一次给予无人车大小为-1的能量损耗代价。此外，为每个训练回合设置回合内步数上限，用

表示。当超出每个回合的时间限制时，给予-100的惩罚值。因此，

的表达式可以表示为前式所示。

综上所示，以下综合奖励函数可以用作无人车强化学习训练过程中的强化信号：

其中，

表示综合奖励函数。

S18，利用融合特征矢量和综合奖励函数，在障碍物仿真环境中采用超参数分段的训练策略对导航神经网络进行训练。

可以理解，对于无人车的导航神经网络的训练，可以构建一个障碍物仿真环境对无人车导航神经网络进行训练。训练时采取超参数分段的训练策略，其中，第一阶段的训练过程中参数选取较为激进，从而促进Agent快速学会目标趋近和避障等导航行为；第二阶段的学习率和探索概率等参数减小，从而加速网络的收敛。可以研究训练过程中导航成功率取值进行训练过程分段，当成功率较高时，认为无人车已经学会了目标趋近和避障行为，转入第二个阶段的保守训练，从而加速网络收敛。表1展示了一组经过测试证明比较合理的训练超参数。

表1

S20，在真实物理环境中，获取当前时刻无人车视野拍摄的深度图像，将深度图像输入至训练好的所述导航神经网络，输出无人车控制指令。

具体的，训练好的导航神经网络直接迁移至新的仿真环境或真实物理环境中的无人车导航应用中，其对障碍物的尺寸、形状、颜色等属性以及无人车相机的成像质量等因素具有较好的鲁棒性，导航能力更出色。

上述基于深度图的无人车局部自主控制方法，通过仿真训练可以建立深度感知数据到最佳导航行为的数据模型，避免了基于大范围距离感知传感器的地图构建和路径规划，可以仅依靠局部的感知数据进行环境特征推理和导航行为规划。以低维度的深度特征矢量代替高维度的无人车视野深度数据进行网络训练，通过矢量形式的状态表征，减轻了网络参数对于环境、无人车成像稳定性的依赖，提高了基于深度强化学习的无人车局部导航算法的泛化性能，使得能够轻易的迁移到新的仿真环境或实物环境，保持较好的导航能力，环境适应性较强。

通过连续多个时刻的深度特征矢量和连续多个时刻的目标位置信息融合并输入到网络中，使得无人车当前时刻的行为决策能够兼顾过去时刻的障碍物和目标位置分布情况，即使当前视野内没有障碍物也能够继续以往时刻的避障行为，持续完成避障，有效地克服了无人车感知范围局限的问题。此外，包含了目标趋近奖励、避障奖励和优化能量奖励的综合奖励机制，能够加速基于深度强化学习的无人车导航神经网络的训练，促进无人车快速学会跟随和避障行为，优化能量奖励能够引导无人车产生更短的运动轨迹。同时，所提出的综合奖励机制设计方法对于深度强化学习在其他无人车规划和控制领域的应用具有一定的参考价值。

应该理解的是，虽然图1至图3流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其他的顺序执行。而且图1至图3的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

请参阅图7，在一个实施例中，还提供了一种基于深度图的无人车局部自主控制装置100，包括深度矢量模块11、矢量融合模块13、综合奖励模块15、网络训练模块17和导航应用模块19。其中，深度矢量模块11用于获取无人车视野拍摄的深度图并提取深度图的深度特征矢量。矢量融合模块13用于将当前时刻到过去

个连续时刻的深度特征矢量与

个连续时刻的无人车的导航目标点位置坐标进行拼接融合，得到融合特征矢量并作为无人车的导航神经网络的输入状态；

为正整数。综合奖励模块15用于将设计的目标趋近奖励、避障奖励和能量优化奖励进行加和运算，得到综合奖励函数。网络训练模块17用于利用融合特征矢量和综合奖励函数，在障碍物仿真环境中采用超参数分段的训练策略对导航神经网络进行训练。导航应用模块19用于将训练好的导航神经网络迁移至真实物理环境中，对无人车进行局部自主导航。

上述基于深度图的无人车局部自主控制装置100，通过各模块的协作，仿真训练建立深度感知数据到最佳导航行为的数据模型，避免了基于大范围距离感知传感器的地图构建和路径规划，可以仅依靠局部的感知数据进行环境特征推理和导航行为规划。以低维度的深度特征矢量代替高维度的无人车视野深度数据进行网络训练，通过矢量形式的状态表征，减轻了网络参数对于环境、无人车成像稳定性的依赖，提高了基于深度强化学习的无人车局部导航算法的泛化性能，使得能够轻易的迁移到新的仿真环境或实物环境，保持较好的导航能力，环境适应性较强。

在一个实施例中，上述深度矢量模块11可以包括背景减除子模块和矢量采样子模块。背景减除子模块用于对深度图进行地面背景减除，得到障碍物深度图。矢量采样子模块用于对障碍物深度图进行深度特征降维采样，得到深度特征矢量。

在一个实施例中，上述背景减除子模块具体可以用于获取深度图中开阔地带的地面深度图；获取无人车在工作过程中当前视野的当前深度图；计算当前深度图与地面深度图的相似度矩阵；根据相似度矩阵和当前深度图的像素矩阵进行矩阵元素乘积计算，得到障碍物深度图。

在一个实施例中，上述矢量采样子模块具体可以用于将障碍物深度图的下半幅沿水平方向分割为N个条状子图；分别将每个条状子图的最大像素值设为每个条状子图的特征采样值；将各特征采样值进行反归一化变换，得到深度特征矢量。

在一个实施例中，上述基于深度图的无人车局部自主控制装置100各模块及其子模块，还可以用于实现上述基于深度图的无人车局部自主控制方法各实施例中其他的相应子步骤。

关于基于深度图的无人车局部自主控制装置100的具体限定，可以参见上文中基于深度图的无人车局部自主控制方法的相应限定，在此不再赘述。上述基于深度图的无人车局部自主控制装置100中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于具体数据处理功能的设备中，也可以软件形式存储于前述设备的存储器中，以便于处理器调用执行以上各个模块对应的操作，前述设备可以是但不限于本领域已有的各型导航规划控制的微处理器、单片机或树莓派等设备。

又一方面，还提供一种无人车，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时可以实现以下步骤：获取无人车视野拍摄的深度图并提取深度图的深度特征矢量；将当前时刻到过去

个连续时刻的深度特征矢量与

为正整数数；将设计的目标趋近奖励、避障奖励和能量优化奖励进行加和运算，得到综合奖励函数；利用融合特征矢量和综合奖励函数，在障碍物仿真环境中采用超参数分段的训练策略对导航神经网络进行训练；将训练好的导航神经网络迁移至真实物理环境中，对无人车进行局部自主导航。

需要说明的是，本实施例中的无人车除上述列出的存储器和处理器之外，还可以包括其他必要组成构件，例如但不限于行走机构、抓取机构、收纳机构和/或躯干本体，具体可以根据实际应用场景中的无人车的型号确定。

在一个实施例中，处理器执行计算机程序时还可以实现上述基于深度图的无人车局部自主控制方法各实施例中增加的步骤或者子步骤。

再一方面，还提供一种计算机可读存储设备，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取无人车视野拍摄的深度图并提取深度图的深度特征矢量；将当前时刻到过去

个连续时刻的深度特征矢量与

在一个实施例中，计算机程序被处理器执行时，还可以实现上述基于深度图的无人车局部自主控制方法各实施例中增加的步骤或者子步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成的，计算机程序可存储于一非易失性计算机可读取存储设备中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其他设备的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线式动态随机存储器（Rambus DRAM，简称RDRAM）以及接口动态随机存储器（DRDRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可做出若干变形和改进，都属于本申请保护范围。因此本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于深度图的无人车局部自主控制方法，其特征在于，包括步骤：

将历史时刻连续拍摄得到的多个深度图像对应的深度特征矢量与拍摄所述深度图像时无人车的导航目标点位置坐标进行拼接融合，得到融合特征矢量并作为无人车的导航神经网络的输入状态；所述深度图像通过无人车视野拍摄获取；所述深度特征矢量通过对所述深度图像进行处理提取得到；所述历史时刻连续拍摄是指当前时刻到过去

个连续时刻连续拍摄；

在真实物理环境中，获取当前时刻无人车视野拍摄的深度图像，将当前时刻到过去

个连续时刻无人车视野连续拍摄的深度图像对应的深度特征矢量，与拍摄深度图像时无人车的导航目标点位置坐标进行拼接融合得到的融合特征矢量，输入至训练好的所述导航神经网络，输出无人车控制指令。

2.根据权利要求1所述的基于深度图的无人车局部自主控制方法，其特征在于，对所述深度图像进行处理，提取得到深度特征矢量，包括：

对所述深度图像进行地面背景减除，得到障碍物深度图；

对所述障碍物深度图进行深度特征降维采样，得到所述深度特征矢量。

3.根据权利要求2所述的基于深度图的无人车局部自主控制方法，其特征在于，对所述深度图像进行地面背景减除，得到障碍物深度图的步骤，包括：

获取所述深度图像中开阔地带的地面深度图像；

获取所述无人车在工作过程中当前视野的当前深度图像；

计算所述当前深度图像与所述地面深度图像的相似度矩阵；

根据所述相似度矩阵和所述当前深度图像的像素矩阵进行矩阵元素乘积计算，减除背景深度信息，得到所述障碍物深度图。

4.根据权利要求2所述的基于深度图的无人车局部自主控制方法，其特征在于，对所述障碍物深度图进行深度特征降维采样，得到所述深度特征矢量的步骤，包括：

将所述障碍物深度图的下半幅沿水平方向分割为N个条状子图；

分别将每个所述条状子图的最大像素值设为每个所述条状子图的特征采样值；

将各所述特征采样值进行反归一化变换，得到所述深度特征矢量。

5.根据权利要求1至4任一所述的基于深度图的无人车局部自主控制方法，其特征在于，所述目标趋近奖励为

：

其中，

表示比例系数，

表示

时刻目标引导点到无人车的距离，

表示

时刻目标引导点到无人车的距离，

表示所述无人车到达目标引导点的判定距离阈值。

6.根据权利要求5所述的基于深度图的无人车局部自主控制方法，其特征在于，所述避障奖励为

：

其中，

表示比例系数，

表示深度带状分割矢量各元素的权重矢量，

表示

时刻的深度特征矢量，

表示

时刻的深度特征矢量，

表示深度特征向量维数，

表示无人车到任意障碍物的距离，

表示判定所述无人车与环境障碍物是否发生碰撞的距离阈值。

7.根据权利要求5所述的基于深度图的无人车局部自主控制方法，其特征在于，所述能量优化奖励为

：

其中，

表示每个训练回合的设置回合内步数上限，

表示当前步数。

8.一种基于深度图的无人车局部自主控制装置，其特征在于，包括：

矢量融合模块，用于将历史时刻连续拍摄得到的多个深度图像对应的深度特征矢量与拍摄所述深度图像时无人车的导航目标点位置坐标进行拼接融合，得到融合特征矢量并作为无人车的导航神经网络的输入状态；所述深度图像通过无人车视野拍摄获取；所述深度特征矢量通过对所述深度图像进行处理提取得到；所述历史时刻连续拍摄是指当前时刻到过去

个连续时刻连续拍摄；

导航应用模块，用于在真实物理环境中，获取当前时刻无人车视野拍摄的深度图像，将当前时刻到过去

9.一种计算机可读存储设备，其上存储有计算机程序，其特征在于，计算机程序被处理器执行时实现权利要求1至7中任一项所述基于深度图的无人车局部自主控制方法的步骤。