CN120096552B

CN120096552B - 一种矿车自动驾驶视觉引导跟随停靠系统及方法

Info

Publication number: CN120096552B
Application number: CN202510600576.XA
Authority: CN
Inventors: 谢振华; 王栋; 王国锋; 赵峰
Original assignee: Shandong Jiaotong University
Current assignee: Shandong Jiaotong University
Priority date: 2025-05-12
Filing date: 2025-05-12
Publication date: 2025-08-15
Anticipated expiration: 2045-05-12
Also published as: CN120096552A

Abstract

本发明涉及自动驾驶技术领域，公开一种矿车自动驾驶视觉引导跟随停靠系统及方法，包括训练子系统及自动驾驶子系统，其中，所述训练子系统包括车载视觉模块、驱动控制模块、控制信号生成模块、训练模块、激励模块及安全管理模块；车载视觉模块的信号输出端连接所述激励模块的信号输入端，激励模块的信号输出端连接所述训练模块和所述控制信号生成模块的信号输入端，训练模块的信号输出端连接所述安全管理模块、控制信号生成模块的信号输入端，控制信号生成模块的信号输出端训练模块和驱动控制模块的信号输入端；本发明可以解决传统导航技术以及路径规划策略的机动性不足的问题，有助于提升突发障碍情况下安全通过性以及动态变化环境自主驾驶能力。

Description

一种矿车自动驾驶视觉引导跟随停靠系统及方法

技术领域

本发明涉及自动驾驶技术领域，特别涉及一种矿车自动驾驶视觉引导跟随停靠系统及方法。

背景技术

自动驾驶导航定位方法包括卫星导航定位、惯性导航、视觉（激光）SLAM导航、磁钉（磁带、二维码）导航等。自动驾驶车辆短程内停靠或泊车主要采用路径规划算法，例如，图搜索算法，将行驶地图用栅格表示，通过启发式算法计算一条从起点到终点的最短路径；采样算法，通过随机生成多个采样点，并逐点搜索复杂环境中的有效路径；优化算法，通过最小化或最大化成本函数，输出一条满足环境和车辆约束的最优路径。路径规划算法，需要预先人工设定区域栅格地图，以及自动驾驶车辆的停靠或泊车目标位置坐标，然后计算生成车辆运行轨迹和控制策略，不适宜于跟随目标位置动态调整等特殊情况。

发明内容

本发明的目的在于提供一种矿车自动驾驶视觉引导跟随停靠系统及方法，以解决传统导航技术以及路径规划策略的机动性不足的问题。

为了达到上述目的，采用的技术方案如下：

第一方面，本发明提供一种矿车自动驾驶视觉引导跟随停靠系统，其特征在于，所述系统包括训练子系统及自动驾驶子系统，其中，所述训练子系统包括车载视觉模块、驱动控制模块、控制信号生成模块、训练模块、激励模块及安全管理模块；其中，所述车载视觉模块的信号输出端连接所述激励模块的信号输入端，所述激励模块的信号输出端连接所述训练模块和所述控制信号生成模块的信号输入端，所述训练模块的信号输出端连接所述安全管理模块、控制信号生成模块的信号输入端，所述控制信号生成模块的信号输出端连接所述训练模块和驱动控制模块的信号输入端；

所述自动驾驶子系统包括车载视觉模块、驱动控制模块、控制信号生成模块及安全管理模块；其中，所述车载视觉模块的信号输出端连接所述控制信号生成模块、安全管理模块的信号输入端，所述控制信号生成模块的信号输出端连接所述驱动控制模块的信号输入端，所述安全管理模块的信号输出端连接所述控制信号生成模块的信号输入端。

进一步地，所述训练子系统中，所述车载视觉模块内置RGB相机、深度相机及视频预处理单元，用于获取RGBD数据，并将所述RGBD数据发送至所述激励模块；

所述激励模块内置目标检测网络和激励值运算单元，所述目标检测网络用于根据输入的RGBD数据，预训练识别跟随停靠目标物、路径内外障碍物的权重参数，实现对跟随停靠目标物、路径内外障碍物进行目标检测，将检测结果数据发送给激励值运算单元；所述激励值运算单元用于根据所述检测结果数据，计算生成矿车偏离跟随停靠目标物的距离数据，进而计算迫近跟随停靠目标物的激励值以及停靠指令，并计算矿车与路径内外障碍物的相对距离数据，按策略生成避障指令，实时传递给训练模块；

所述控制信号生成模块内置主预测网络、动作指令生成策略单元、索引策略单元及模式控制单元，用于生成控制指令，发送给驱动控制模块。

进一步地，所述训练模块内置目标网络、经验回放缓存单元、远程监控单元及自动复位控制单元，所述经验回放缓存单元用于存储RGBD数据、激励值、避障指令和停靠指令，所述目标网络用于根据经验回放缓存单元存储的数据，生成动作指令概率期望值，所述远程监控单元用于收发人工远程操控指令，所述自动复位控制单元用于根据行驶动作指令、避障指令和停靠指令来生成复位动作指令；

所述驱动控制模块用于接收行驶动作指令，基于所述行驶动作指令控制矿车，所述行驶动作指令包括转向指令和速度指令；

所述安全管理模块内置预测监督网络，所述预测监督网络从所述训练模块内置经验回放缓存单元获取训练数据，独立于主预测网络和目标网络进行训练；

所述自动驾驶子系统中，所述车载视觉模块内置RGB相机、深度相机及视频预处理单元，用于获取RGBD数据，并将所述RGBD数据发送至所述控制信号生成模块和安全管理模块；

所述控制信号生成模块计算生成矿车运行动作指令概率，经动作指令生成策略单元计算生成矿车行驶动作指令；

所述安全管理模块内置预测监督网络，根据RGBD数据生成避障/停靠指令，发送给控制信号生成模块，所述控制信号生成模块根据避障指令重新调整行车方向动作指令，或根据停靠指令生成停靠运行动作指令。

进一步地，所述控制信号生成模块，在训练阶段，交替执行观测模式和训练模式；

在执行观测模式时，从所述激励模块获取RGBD数据、激励值、避障指令和停靠指令，RGBD数据输入所述主预测网络，计算矿车行驶动作指令概率，输入所述动作指令生成策略单元计算生成矿车行驶动作指令，传送给所述驱动控制模块，并将RGBD数据及其对应的动作指令、激励值及避障指令、停靠指令数据发送给所述经验回放缓存单元；同时，基于避障指令和停靠指令，触发停止观测生成动作指令，驱动停止矿车运行，并停止向所述经验回放缓存单元传送经验数据；

在执行训练模式时，所述主预测网络从所述经验回放缓存单元获取RGBD数据、动作指令数据，利用RGBD数据计算矿车行驶动作指令概率，结合所述经验回放缓存单元中的动作指令数据，经所述索引策略单元，计算生成动作指令索引值，开展所述主预测网络训练；

所述控制信号生成模块内置模式控制单元，控制动作指令生成模式及控制切换观测模式和训练模式，所述动作指令生成模式包括主预测网络生成动作指令、接收并发送人工远程操控指令、接收并发送避障指令及停靠指令。

进一步地，所述控制信号生成模块内置动作指令生成策略单元，通过如下方式生成动作指令：

获取所述主预测网络输出的状态-动作价值，，其中为速度价值，为转向价值；

将动作指令生成策略单元输出动作指令表示为，自定义随机动作指令表示为，自定义随机值为，动作指令随机调整阈值为，，则通过如下公式计算速度指令a _v和转向指令a _r：

；

其中，表示输出动作指令中最大值的位索引值，表示自定义随机速度指令，表示自定义随机转向指令；

在训练阶段，随着训练轮次增大，不断降低，使得不断趋向于依赖状态-动作价值，动作指令随机调整阈值的降低策略表示为：

；

其中，为初始值，为预先设定的最小值，为每训练轮次的降低值，epoches为训练轮次数。

进一步地，所述训练模块内置目标网络与所述主预测网络构成深度Q网络，所述目标网络与所述主预测网络具有相同的网络结构，所述目标网络按预定周期接收所述主预测网络的权重参数并自我更新，所述目标网络为主预测网络训练提供动作指令概率期望值。

进一步地，所述训练模块内置经验回放缓存单元，存储控制信号生成模块传送的RGBD数据、运行动作指令、激励值、避障指令和停靠指令；在训练阶段，所述经验回放缓存单元按批次随机选择经验数据，将经验数据中的当前帧RGBD数据、当前帧对应运行动作指令数据，发送给所述控制信号生成模块中的主预测网络；将经验数据中的当前帧对应激励值、后一帧RGBD数据发送给目标网络；所述经验回放缓存单元按批次随机选择经验数据，将经验数据中的当前帧RGBD数据、当前对应的避障指令和停靠指令发送给所述安全管理模块。

所述经验回放缓存单元设定存储量最大值，当存储量超过存储量最大值时，所述经验回放缓存单元将最早的经验数据删除并存储新增数据，始终保持最大存储量，若避障指令和/或停靠指令为有效值，经验回放缓存单元暂停存储新增数据。

进一步地，所述训练模块内置自动复位控制单元，存储所述控制信号生成模块自起始位置发送的行驶动作指令信号序列，并接收所述激励模块发送的避障指令和停靠指令，所述避障指令和停靠指令触发自动复位控制单元按缓存的动作指令信号序列的反向顺序，向所述控制信号生成模块发送复位动作指令，经所述控制信号生成模块发送给驱动控制模块，所述复位动作指令包括运动动作指令和转动动作指令，所述运动动作指令为原指令的负值，所述转动动作指令为原指令，驱动矿车退回起始位置。

进一步地，所述激励模块内置目标检测网络，计算输出RGB图片数据相对左上角点的跟随停靠目标物、路径内外障碍物检测框的左上、右下角点坐标，发送给激励值运算单元；

所述激励值运算单元用于执行激励值运算、避障/停靠值运算以得到激励值、避障指令和停靠指令；

所述激励值运算包括：

将跟随停靠目标物RGB图检测框左上、右下角点坐标分别表示为和，则RGB图检目标物测框对应D深度图中最小距离为，则：

；

其中，表示D深度图中的坐标点的距离值；

通过如下公式计算激励值：

；

其中为激励值，为经验系数，arctg为反正切函数；

所述避障/停靠值运算包括：

在车载视觉模块输出RGBD图片中，建立矿车行驶前向路径，设x ^q表示前向路径左侧边沿相对于图片左侧位移，x ^t表示前向路径宽度。

将跟随停靠目标物检RGB图检测框左上、右下角点坐标分别表示为和，障碍物RGB图检测框左上、右下角点坐标分别表示为和；

计算D深度图相对应的路径覆盖决策值：

；

其中，表示预先设定的极大值；

根据跟随停靠目标物检测框左上、右下角点坐标和，计算目标物最小距离值为：

；

根据障碍物检测框左上、右下角点坐标和，计算障碍物最小距离值为：

；

设避障输出值为b，停靠输出值为，则：

；

其中，为矿车距离障碍物最小距离阈值，为距离停靠目标最小距离阈值；在矿车距离障碍物最小距离小于最小阈值时，输出避障指令，在距离目标物最小距离小于最小阈值时，输出停靠指令。

进一步地，在训练阶段，分别对所述激励模块中目标检测网络、所述安全管理模块中预测监督网络及所述控制信号生成模块中主预测网络、训练模块中目标网络构成的深度Q网络进行训练；

所述目标检测网络预先进行训练；在训练时，人工操控矿车运行，所述车载视觉模块前向拍摄跟随停靠目标物、路径内外临近障碍物，输出RGBD数据，划分建立训练数据集、验证数据集，开展所述目标检测网络训练。完成所述目标检测网络训练及性能验证测试后，目标检测网络输出激励值及避障指令和停靠指令，应用于所述预测监督网络及所述深度Q网络训练；

所述预测监督网络属于分类网络，独立于所述深度Q网络进行训练；在训练时，所述安全管理模块从所述经验回放缓存单元批量随机获取经验数据，经验数据包含RGBD数据及其对应的避障指令和停靠指令，将避障指令和停靠指令作为RGBD数据分类标签，划分建立训练数据集、验证数据集，开展所述预测监督网络。完成所述预测监督网络训练及性能验证测试后，预测监督网络输出避障/停靠指令，应用于自动驾驶阶段的避障或停靠；

所述深度Q网络训练阶段分为观测模式和训练模式；观测模式与训练模式交替进行；

在观测模式下，所述控制信号生成模块从车载视觉模块获取RGBD数据，主预测网络计算生成矿车行驶动作指令概率，输入动作指令生成策略单元计算生成动作指令，发送给驱动控制模块，驱动矿车自动行驶，同步将RGBD数据及对应的动作指令数据发送给经验回放缓存单元，观测模式中，主预测网络不进行网络权重参数训练；

在训练模式下，对深度Q网络进行训练的方式为：

对主预测网络、目标网络分别进行网络权重参数初始化；

主预测网络计算输出动作指令概率：控制信号生成模块从经验回放缓存单元批量随机获取经验数据，经验数据包含当前帧RGBD数据、当前帧对应的动作指令数据；当前帧RGBD数据输入主预测网络，计算出矿车行驶动作指令概率；

索引策略单元计算输出动作指令索引值；

目标网络计算输出累积激励；

根据动作指令概率索引值和累积激励计算损失函数；所述损失函数包括运行速度损失和转向损失；

主预测网络权重更新：使用速度损失、转向损失及Adam梯度下降优化算法，对主预测网络进行反向传播，更新网络权重参数；

目标网络权重更新：设定目标网络权重参数更新周期，主预测网络训练次数达到周期数后，将主预测网络权重参数输入目标网络，更新目标网络权重参数与主预测网络相同。

第二发明，本发明提供一种矿车自动驾驶视觉引导跟随停靠方法，基于如上所述的矿车自动驾驶视觉引导跟随停靠系统，所述方法包括：

通过车载视觉模块获取RGBD数据；

建立激励模块，并在所述激励模块内置目标检测网络和激励值运算单元，所述目标检测网络用于根据输入的RGBD数据，预训练识别跟随停靠目标物、路径内外临近障碍物的权重参数，对跟随停靠目标物、路径内外临近障碍物进行目标检测，将检测结果数据发送给激励值运算单元；所述激励值运算单元用于根据所述检测结果数据，计算生成矿车偏离跟随停靠目标物的距离数据，进而计算迫近停靠目标物的激励值以及停靠指令，并计算矿车与路径内外临近障碍物的相对距离数据，按策略生成避障指令，实时传递给训练模块；

建立控制信号生成模块，并在所述控制信号生成模块内置主预测网络、动作指令生成策略单元、索引策略单元及模式控制单元，用于生成控制指令，发送给驱动控制模块，并通过模式控制单元，控制动作指令生成模式及控制切换观测模式和训练模式；

建立训练模块，并在所述训练模块内置目标网络、经验回放缓存单元、远程监控单元及自动复位控制单元，所述经验回放缓存单元用于存储RGBD数据、激励值、避障指令和停靠指令，所述目标网络用于根据经验回放缓存单元存储的数据来生成动作指令概率期望值，所述远程监控单元用于收发人工远程操控指令，所述自动复位控制单元用于根据行驶动作指令、避障指令和停靠指令来生成复位动作指令；

建立驱动控制模块，所述驱动控制模块用于接收控制指令，基于所述控制指令控制矿车运行；

建立安全管理模块，并在所述安全管理模块内置预测监督网络，所述预测监督网络独立于主预测网络和目标网络进行训练，在训练时，所述预测监督网络从经验回放缓存单元获取训练数据。

进一步地，所述主预测网络生成转动动作指令概率，经动作指令生成策略单元生成转动动作指令，动作指令生成策略如下：

设主预测网络生成转动动作指令概率为，动作指令生成策略输出转向指令为，自定义随机转向指令表示为，自定义随机值为，转向指令随机调整阈值为，，则：

；

所述控制信号生成模块接收到所述安全管理模块发送的避障指令后，避障方法如下：

将动作指令随机调整阈值增大，输出转向指令的随机性增大，驱动矿车重新选择有效避障的行车方向。

进一步地，通过如下方法构建自动驾驶子系统：

通过车载视觉模块获取RGBD数据；

建立控制信号生成模块，并在所述控制信号生成模块内置主预测网络、动作指令生成策略单元，根据车载视觉模块发送的RGBD数据，生成控制指令，发送给驱动控制模块；并接收安全管理模块避障指令或停靠指令；

建立安全管理模块，并在所述安全管理模块内置预测监督网络，根据车载视觉模块发送的RGBD数据，生成避障指令或停靠指令，发送给控制信号生成模块。

本发明的有益效果是：

本发明在模拟现实环境开展理论研究和实验验证的基础上，建立露天矿区真实场景下的DQN网络训练环境和自动驾驶导航避障控制系统，针对露天矿区无人驾驶运输作业场景，有效弥补传统导航技术以及路径规划策略的机动性不足。

附图说明

图1示出了根据本发明实施例的一种矿车自动驾驶视觉引导跟随停靠系统训练子系统的运行框架图；

图2示出了根据本发明实施例的车载视觉模块的结构图；

图3示出了根据本发明实施例的RGBD数据流示意图；

图4示出了根据本发明实施例的控制信号生成模块的结构图；

图5示出了根据本发明实施例的训练模块结构图；

图6示出了根据本发明实施例的经验数据传递路径示意图；

图7示出了根据本发明实施例的激励模块结构图；

图8示出了根据本发明实施例的一种矿车自动驾驶视觉引导跟随停靠系统在自动驾驶子系统的运行框架图；

图9示出了根据本发明实施例的深度Q网络模型架构图；

图10示出了根据本发明实施例的预处理模块结构图；

图11示出了根据本发明实施例的残差模块结构图；

图12示出了根据本发明实施例的残差单元结构图；

图13示出了根据本发明实施例的深度Q网络训练过程数据流转示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。

实施例1：

深度Q网络（Deep Q-Network，DQN）是一种基于深度学习和强化学习的算法，用于解决离散动作空间的马尔科夫决策过程（MDP）问题。DQN使用主网络（Q网络）和目标网络（Target Q网络）两个神经网络。主网络用于选择动作，目标网络用于计算目标Q值。目前，深度Q网络在Atari游戏智能操控、棋类游戏智能决策等方面取得了优异性能。在自动驾驶方面，已经开展了空旷街道跟随真车行车轨迹、自动变道以及模拟城市道路场景中的自动驾驶等研究。深度Q网络的训练需要大量经验数据，需要一个允许执行潜在不安全操作的环境来收集经验数据，这对在现实世界中提供大量经验数据提出了巨大挑战。

基于此，本发明实施例提供一种矿车自动驾驶视觉引导跟随停靠系统，该系统基于DQN增强学习网络，分为两个子系统，分别为训练阶段的训练子系统和自动驾驶阶段的自动驾驶子系统。训练子系统用于对系统中所需训练的网络模型或模块进行训练，训练后的权重参数应用于自动驾驶子系统的对应网络模型，实现基于视觉引导的矿车自动跟随停靠。

如图1所示，为一种矿车自动驾驶视觉引导跟随停靠系统的训练子系统的运行框架图。该子系统包括车载视觉模块、驱动控制模块、控制信号生成模块、训练模块、激励模块及安全管理模块，各个模块的连接关系为：视觉模块的信号输出端连接激励模块的信号输入端，激励模块的信号输出端连接训练模块和控制信号生成模块的信号输入端，训练模块的信号输出端连接安全管理模块、控制信号生成模块的信号输入端，控制信号生成模块的信号输出端连接训练模块和驱动控制模块的信号输入端。车载视觉模块获取RGBD数据，并馈送至激励模块，激励模块根据RGBD数据，生成激励值、避障/停靠指令，其中，RGBD数据以及生成的激励值、避障/停靠指令馈送至控制信号生成模块，激励值、避障/停靠指令馈送至训练模块，训练模块也可以获取人工远程操控指令，人工远程操控指令通过控制信号生成模块馈送至驱动控制模块，同时，训练模块还与控制信号生成模块进行数据交互，交互的数据包括RGBD数据、动作指令及网络权重等，训练模块还生成复位动作指令，复位动作指令直接馈送至驱动控制模块，训练模块还将RGBD数据、激励值、避障（停靠）指令馈送至安全管理模块。控制信号生成模块生成的控制指令，如运动动作指令馈送至驱动控制模块，驱动控制模块基于其从控制信号生成模块获取到的相应指令来对矿车进行控制。控制信号生成模块中的模式控制单元，控制动作指令生成模式，包括主预测网络生成、复位指令或者人工远程操控指令，以及控制切换观测模式和训练模式。人工远程操控指令具有最高的执行优先级，复位动作指令其次，主预测网络生成动作指令最低。

如图2所示，为车载视觉模块的结构图。车载视觉模块内置深度相机、RGB相机和视频预处理单元。深度相机、RGB相机分别前向拍摄矿车行驶前方的深度视频和RGB视频，同步输入视频预处理单元。由视频预处理单元按预定帧数间隔采样提取深度视频流和RGB视频流中的帧图片，采用最近邻插值法、滤波法对深度视频帧图片进行预处理，填补修复因黑色物体、光滑表面、透明物体、视差效应等导致的深度图像素值缺失；采用深度图与RGB图对齐算法统一坐标系，合并为4通道RGBD图，如图3所示。

驱动控制模块接收控制信号生成模块生成的行驶动作指令，包括转向指令和速度指令，并将转向指令、速度指令分别解析转换为电信号发送给转向控制系统和动力控制系统，控制矿车行驶状态。

如图4所示，为控制信号生成模块的结构图。控制信号生成模块内置主预测网络、动作指令生成策略单元、索引策略单元及模式控制单元，在训练阶段，控制信号生成模块分为观测模式和训练模式。

在观测模式下，控制信号生成模块从激励模块获取RGBD数据、激励值、避障/停靠指令数据。RGBD数据输入主预测网络，计算矿车行驶动作指令概率，输入动作指令生成策略单元计算生成矿车行驶动作指令数据，传送给驱动控制模块，并将RGBD数据及其对应的动作指令、激励值及避障/停靠指令数据发送给经验回放缓存单元；同时，接收激励模块的避障/停靠指令，触发停止观测生成动作指令，停止驱动矿车运行，并停止向经验回放缓存单元传送经验数据。

在训练模式下，主预测网络从经验回放缓存单元获取RGBD数据、动作指令数据，利用RGBD数据计算矿车行驶动作指令概率，结合经验回放缓存单元动作指令数据，经索引策略单元，计算生成动作指令索引值，开展主预测网络训练。

训练阶段，控制信号生成模块可接收人工远程操控指令，触发停止观测及生成动作指令，停止驱动矿车运行，并停止向经验回放缓存单元传送经验数据。

如图5所示，为训练模块的结果图。训练模块内置目标网络、经验回放缓存单元、远程监控单元及自动复位控制单元。

目标网络与主预测网络构成深度Q网络，目标网络与主预测网络具有相同的网络结构。目标网络按预定周期接收主预测网络权重参数并自我更新。目标网络为主预测网络训练提供动作指令概率期望值。

经验回放缓存单元存储控制信号生成模块传送的RGBD数据、运行动作指令、激励值及避障/停靠指令数据。训练模式下，如图6所示，经验回放缓存单元按批次随机选择经验数据，将经验数据中的当前帧RGBD数据、当前帧对应运行动作指令数据，发送给控制信号生成模块主预测网络；将经验数据中的当前帧对应激励值、后一帧RGBD数据发送给目标网络。另外，经验回放缓存单元按批次随机选择经验数据，将经验数据中的当前帧RGBD数据、当前对应避障/停靠指令（3位向量）发送给安全管理模块。

经验回放缓存单元设定存储量最大值，超过该值，经验回放缓存单元将最早的经验数据删除并存储新增数据，始终保持最大存储量。若避障/停靠指令为有效值，经验回放缓存单元暂停存储新增数据。

远程监控单元获取对矿车运行的人工操控指令，依次发送给控制信号生成模块和驱动控制模块，用于训练阶段介入运行操控，避免发生危险事故。

自动复位控制单元存储矿车控制信号生成模块自起始位置发送的行驶动作指令信号序列，并接收激励模块发送的避障/停靠指令。避障/停靠指令可以触发自动复位控制单元按缓存的动作指令信号序列的反向顺序，向驱动控制模块发送行驶动作指令，且运动动作指令为原指令的负值，转动动作指令为原指令，驱动矿车退回起始位置。

如图7所示，为激励模块的结构图。激励模块内置目标检测网络、激励值运算单元，如图7所示。激励模块从车载视觉模块获取RGBD数据，传送给目标检测网络。目标检测网络预训练识别跟随停靠目标物、路径内外障碍物的权重参数，实现对跟随停靠目标物、路径内外障碍物进行目标检测，将检测结果数据发送给激励值运算单元。激励值运算单元根据目标检测网络的检测结果，计算生成矿车偏离停靠目标物的距离数据，进而计算迫近停靠目标物的激励值以及停靠指令，并计算矿车与路径内外障碍物的相对距离数据，按策略生成避障指令，实时传递给训练模块。

安全管理模块内置预测监督网络，属于分类网络。预测监督网络独立于主预测网络和目标网络进行训练。预测监督网络从经验回放缓存单元获取训练数据。

如图8所示，为一种矿车自动驾驶视觉引导跟随停靠系统的自动驾驶子系统的运行框架图。该子系统包括车载视觉模块（包含RGB相机、深度相机、视频预处理单元）、驱动控制模块、控制信号生成模块（包含主预测网络、动作指令生成策略单元、模式控制单元）、安全管理模块（预测监督网络），自动驾驶子系统网络权重参数由训练子系统对应网络模块提供，自动驾驶阶段，训练子系统不参与对矿车运动的控制，训练子系统可持续进行各网络权重参数的优化训练。车载视觉模块深度相机、RGB相机同步前向拍摄矿车行驶前方的深度视频和RGB视频，经视频预处理单元，合成输出4通道RGBD时间序列数据流，发送给控制信号生成模块和安全管理模块。控制信号生成模块计算生成矿车运行动作指令概率，经动作指令生成策略单元计算生成矿车行驶动作指令。驱动控制模块接收控制信号生成模块生成的运行动作指令，控制矿车行驶状态。安全管理模块内置预测监督网络，根据RGBD数据生成避障/停靠指令，将停靠指令发送给控制信号生成模块，由控制信号生成模块内置模式控制单元调整对矿车运行的控制策略，驱动矿车停靠泊车；发送避障指令给控制信号生成模块，重新调整行车方向。

下面将对矿车自动驾驶视觉引导跟随停靠系统中涉及到的神经网络模型的具体架构及其作用机制进行详细的描述。其中，该系统应用的神经网络模型架构包括深度Q网络架构、目标检测网络和预测监督网络。

深度Q网络包含主预测网络、目标网络，主预测网络与目标网络具有相同的网络结构，目标网络按预定周期接收主预测网络权重参数并自我更新。

主预测网络以ResNet残差网络为基线网络，重新设计特征分类头，采用2路特征分类输出，如图9所示。其具体设计方法如下：主预测网络输入RGBD的4通道数据，经预处理模块转换为数据，如图10所示。依次输入4个残差网络模块（ResidualModel），输出数据，再经过平均池化层，输出数据，然后分别经过2个全连接层和SoftMax层，输出2个概率数据，分别表示矿车动作指令的速度概率和转向概率，最后分别输入动作指令生成策略，生成速度指令和转向指令。其中，残差网络模块包含n个串联的残差单元，如图11和图12所示。

动作指令生成策略单元基于主预测网络的输出来生成动作指令。设主预测网络输出的状态-动作价值表示为，，包括速度价值和转向价值，其中，速度价值格式如表1所示。

表1 速度价值格式

第0位	第1位	第2位
			速度+	速度保持	速度-

转向价值格式如表2所示。

表2 转向价值格式

第0位	第1位	第2位
			左转+	转向保持	右转+

设动作指令生成策略输出动作指令表示为，自定义随机动作指令表示为，自定义随机值为，动作指令随机调整阈值为，，则：

；

在训练阶段，随着训练轮次增大，不断降低，使得不断趋向于依赖动作-价值值。动作指令随机调整阈值的降低策略表示为：

；

自动驾驶阶段，若控制信号生成模块接收到安全管理模块发送的避障指令，增大转向指令随机调整阈值，转向指令随机调整概率增大，主要通过调整转向，重新选择规避行车路径障碍的有效行车方向。

目标检测网络可采用单阶段目标检测YOLO系列网络，例如，YOLOv5，并在主干网络中SPPF网络层后添加改进型空间通道混合注意力机制网络模块。

目标检测网络输出RGBD数据流RGB帧图片中相对图片左上角点的跟随停靠目标物检测框、路径内外障碍物检测框的左上、右下两个角点坐标，发送给激励值运算单元。激励值运算单元执行激励值运算和避障/停靠值运算。

激励值运算的具体过程为：

设跟随停靠目标物RGB图检测框左上、右下角点坐标分别表示为和，则RGB图检目标物测框对应D深度图中最小距离为，则：

；

其中，表示D深度图中的坐标点的距离值；

则激励值为：

；

其中为激励值，为经验系数，arctg为反正切函数。

经验系数使得能够比较均衡分布于[0,1]区间内，而不是偏向于0或者1。

根据反正切函数特性，可以分析得出，矿车与停靠目标距离增大，则r值减小，同时，距离增大到一定程度，r值减小速率降低，表明即使矿车与停靠目标距离较远，激励值也不会太小。相反，矿车与停靠目标距离减小，r值增大，同时，矿车与停靠目标靠近时，r值快速增大，表明矿车靠近停靠目标时，获得较大正向激励（奖励）。

避障/停靠值运算的具体过程为：

矿车距离障碍物低于一定阈值情况下触发避障动作，矿车距离停靠目标低于一定阈值情况下触发停靠停车。

将跟随停靠目标物检RGB图检测框左上、右下角点坐标分别表示为和，障碍物RGB图检测框左上、右下角点坐标分别表示为和。

计算D深度图相对应的路径覆盖决策值：

；

其中，表示预先设定的极大值；

；

设避障输出值为b，停靠输出值为，则：

；

预测监督网络采用resnet50分类网络，并在最后一个残差模块与平均池化层之间添加改进型空间通道混合注意力机制网络模块。预测监督网络网络输出3位向量，分别表示正常行驶、避障指令位和停靠指令位。

在清楚深度Q网络架构、目标检测网络和预测检测网络的具体结构的前提下，下面将详细介绍对深度Q网络架构、目标检测网络和预测检测网络的训练过程。当系统处于训练阶段，分别对目标检测网络、预测监督网络及深度Q网络进行训练。

目标检测网络训练：

目标检测网络预先进行训练。训练阶段，人工操控矿车运行，车载视觉模块内置深度相机、RGB相机同步前向拍摄跟随停靠目标物及路径内外障碍物，建立训练数据集、验证数据集，开展目标检测网络训练，实现对跟随停靠目标物、路径内外障碍物的精准检测。

完成目标检测网络训练及性能验证测试后，目标检测网络输出激励值及避障/停靠指令，应用于预测监督网络及深度Q网络训练。

预测监督网络训练：

预测监督网络属于分类网络，独立于深度Q网络（主预测网络、目标网络）进行训练。训练阶段，安全管理模块从经验回放缓存单元获取批量随机经验数据，经验数据包含RGBD数据及其对应的避障/停靠指令。将避障/停靠指令作为数据分类标签，将RGBD数据及其对应的数据分类标签构建为数据字典，将批量数据字典构建为数据列表。训练过程包括如下步骤：

步骤10、样本经验数据均衡化处理。

设置分类标签格式如表3所示。

表3 分类标签格式

步骤10可通过如下步骤进行样本经验数据均衡化处理：

步骤11、从经验数据字典列表中检索数据分类标签为[0,0,1]的数据字典，计算数据字典数量；

步骤12、从经验数据字典列表中分别随机抽取相同数量的数据分类标签为[1,0,0]、[0,1,0]的数据字典；

步骤13、对步骤11和步骤12两步中提取的数据字典中的RGBD数据进行数据增强运算，保持数据分类标签值不变，将数据字典列表中的元素数量扩增为预定数量；

步骤14、对数据扩增后的数据字典列表进行排序打乱处理。

步骤20、对数据字典列表按预定比例划分为训练集和验证集。

步骤30、开展预测监督网络训练。

完成预测监督网络训练及性能验证测试后，预测监督网络输出避障/停靠指令，应用于矿车自动驾驶阶段。

深度Q网络训练。如图13所示，深度Q网络训练阶段分为观测模式和训练模式。观测模式与训练模式交替进行。

在观测模式时，控制信号生成模块从车载视觉模块获取RGBD数据，主预测网络计算生成矿车行驶动作指令概率，输入动作指令生成策略单元计算生成动作指令，发送给驱动控制模块，驱动矿车自动行驶，同步将RGBD数据及对应的动作指令数据发送给经验回放缓存单元，如图13所示。

观测模式中，主预测网络不进行网络权重参数训练。

在训练模式下，通过如下步骤对深度Q网络进行训练：

步骤1、主预测网络、目标网络首先分别进行网络权重参数初始化。

步骤2、主预测网络计算输出动作指令概率。

控制信号生成模块从经验回放缓存单元获取批量随机经验数据，如图13所示，经验数据包含当前帧RGBD数据、当前帧对应的动作指令数据。当前帧RGBD数据输入主预测网络，计算出矿车行驶动作指令概率。

步骤3、索引策略单元计算输出动作指令索引值。

动作指令概率与当前帧对应的动作指令数据一并输入索引策略单元，分别计算输出行驶动作指令速度概率索引值和转向概率索引值。索引算法如下：

设当前帧对应动作指令数据表示为，主预测网络生成动作指令速度概率表示为、转向概率表示为，按行拼接为，，输出的动作指令速度概率索引值为表示、转向概率索引值表示为，则：

；

步骤4、目标网络计算输出累积激励。

目标网络从经验回放缓存单元获取批量随机经验数据，如图13所示，经验数据包含当前帧对应激励值、后一帧RGBD数据。后一帧RGBD数据输入目标网络，计算出矿车行驶动作指令概率，包括动作指令速度概率和转向概率。将动作指令概率与当前帧对应激励值输入累积激励策略单元，分别计算矿车行驶动作指令的速度目标累积激励值和转向目标累积激励值。累积激励如下：

设当前帧对应激励值表示为，，其中，表示速度激励，表示转向激励，矿车行驶动作指令速度概率表示为，转向概率表示为，则速度目标累积激励值表示为：

；

转向目标累积激励值表示为：

；

其中，为经验系数。

步骤5、根据动作指令概率索引值和累积激励计算损失函数。

速度损失函数为：

；

转向损失函数为：

；

其中，为每轮次训练样本数量。

步骤6、主预测网络权重更新。

使用速度损失、转向损失及Adam梯度下降优化算法，对主预测网络进行反向传播，更新网络权重参数。

步骤7、目标网络权重更新。

设定目标网络权重参数更新周期，主预测网络训练次数达到周期数后，将主预测网络权重参数输入目标网络，更新目标网络权重参数与主预测网络相同。

循环执行上述步骤2至步骤7，不断降低预测动作速度指令损失和转向指令损失。

实施例2：

本发明实施例还提供一种矿车自动驾驶视觉引导跟随停靠方法，该方法包括：

步骤S1，通过车载视觉模块获取RGBD数据流；

步骤S2，建立激励模块，并在所述激励模块内置目标检测网络和激励值运算单元，所述目标检测网络用于根据输入的RGBD数据流，预训练识别跟随停靠目标物及路径内外障碍物的权重参数，实现对跟随停靠目标物及路径内外障碍物进行目标检测，将检测结果数据发送给激励值运算单元；所述激励值运算单元用于根据所述检测结果数据，计算生成矿车偏离跟随停靠目标物的距离数据，进而计算迫近停靠目标物的激励值以及停靠指令，并计算矿车与路径内外障碍物的相对距离数据，按策略生成避障指令，实时传递给训练模块；

步骤S3，建立控制信号生成模块，并在所述控制信号生成模块内置主预测网络、动作指令生成策略单元、索引策略单元及模式控制单元，用于生成控制指令，发送给驱动控制模块；

步骤S4，建立训练模块，并在所述训练模块内置目标网络、经验回放缓存单元、远程监控单元及自动复位控制单元，所述经验回放缓存单元用于存储RGBD数据流、激励值、避障指令和停靠指令，所述目标网络用于根据经验回放缓存单元存储的数据来生成动作指令概率期望值，所述远程监控单元用于收发人工远程操控指令，所述自动复位控制单元用于根据行驶动作指令、避障指令和停靠指令来生成复位动作指令；

步骤S5，建立驱动控制模块，所述驱动控制模块用于接收控制指令，基于所述控制指令控制矿车运行；

步骤S6，建立安全管理模块，并在所述安全管理模块内置预测监督网络，所述预测监督网络独立于主预测网络和目标网络进行训练，在训练时，所述预测监督网络从经验回放缓存单元获取训练数据，在自动驾驶阶段，所述预测监督网络根据RGBD数据生成避障/停靠指令，将停靠指令发送给控制信号生成模块，调整运动信号生成策略，驱动矿车停靠泊车；发送避障指令给控制信号生成模块，重新调整行车方向。

需要说明的是，该矿车自动驾驶视觉引导跟随停靠方法与在先描述的系统属于同一技术构思，其具有相同的技术原理和有益效果，故此处不再赘述。

以上实施方式仅用于说明本发明，而并非对本发明的限制，有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明的范畴，本发明的专利保护范围应由权利要求限定。

Claims

1.一种矿车自动驾驶视觉引导跟随停靠系统，其特征在于，所述系统包括训练子系统及自动驾驶子系统，其中，所述训练子系统包括车载视觉模块、驱动控制模块、控制信号生成模块、训练模块、激励模块及安全管理模块；其中，所述车载视觉模块的信号输出端连接所述激励模块的信号输入端，所述激励模块的信号输出端连接所述训练模块和所述控制信号生成模块的信号输入端，所述训练模块的信号输出端连接所述安全管理模块、控制信号生成模块的信号输入端，所述控制信号生成模块的信号输出端连接所述训练模块和驱动控制模块的信号输入端；

所述自动驾驶子系统包括第一车载视觉模块、第一驱动控制模块、第一控制信号生成模块及第一安全管理模块；其中，所述第一车载视觉模块的信号输出端连接所述第一控制信号生成模块、第一安全管理模块的信号输入端，所述第一控制信号生成模块的信号输出端连接所述第一驱动控制模块的信号输入端，所述第一安全管理模块的信号输出端连接所述第一控制信号生成模块的信号输入端；

所述训练模块内置自动复位控制单元，存储所述控制信号生成模块自起始位置发送的行驶动作指令信号序列，并接收所述激励模块发送的避障指令和停靠指令，所述避障指令和停靠指令触发自动复位控制单元按缓存的动作指令信号序列的反向顺序，向所述控制信号生成模块发送复位动作指令，经所述控制信号生成模块发送给驱动控制模块，所述复位动作指令包括运动动作指令和转动动作指令，所述运动动作指令为原指令的负值，所述转动动作指令为原指令，驱动矿车退回起始位置。

2.如权利要求1所述的矿车自动驾驶视觉引导跟随停靠系统，其特征在于，所述训练子系统中，所述车载视觉模块内置RGB相机、深度相机及视频预处理单元，用于获取RGBD数据，并将所述RGBD数据发送至所述激励模块；

3.如权利要求2所述的矿车自动驾驶视觉引导跟随停靠系统，其特征在于，所述训练模块内置目标网络、经验回放缓存单元、远程监控单元及自动复位控制单元，所述经验回放缓存单元用于存储RGBD数据、激励值、避障指令和停靠指令，所述目标网络用于根据经验回放缓存单元存储的数据，生成动作指令概率期望值，所述远程监控单元用于收发人工远程操控指令，所述自动复位控制单元用于根据行驶动作指令、避障指令和停靠指令来生成复位动作指令；

所述自动驾驶子系统中，所述第一车载视觉模块内置RGB相机、深度相机及视频预处理单元，用于获取RGBD数据，并将所述RGBD数据发送至所述控制信号生成模块和安全管理模块；

所述第一控制信号生成模块计算生成矿车运行动作指令概率，经动作指令生成策略单元计算生成矿车行驶动作指令；

所述第一驱动控制模块用于接收行驶动作指令，基于所述行驶动作指令控制矿车，所述行驶动作指令包括转向指令和速度指令；

所述第一安全管理模块内置预测监督网络，根据RGBD数据生成避障/停靠指令，发送给第一控制信号生成模块，所述第一控制信号生成模块根据避障指令重新调整行车方向动作指令，或根据停靠指令生成停靠运行动作指令。

4.如权利要求3所述的矿车自动驾驶视觉引导跟随停靠系统，其特征在于，所述控制信号生成模块，在训练阶段，交替执行观测模式和训练模式；

所述控制信号生成模块内置模式控制单元，控制动作指令生成模式及控制切换观测模式和训练模式，所述动作指令生成模式包括主预测网络生成动作指令、获取并发送人工远程操控指令、获取并发送避障指令及停靠指令。

5.如权利要求3所述的矿车自动驾驶视觉引导跟随停靠系统，其特征在于，所述控制信号生成模块内置动作指令生成策略单元，通过如下方式生成动作指令：

；

6.如权利要求2所述的矿车自动驾驶视觉引导跟随停靠系统，其特征在于，所述训练模块内置目标网络与所述主预测网络构成深度Q网络，所述目标网络与所述主预测网络具有相同的网络结构，所述目标网络按预定周期接收所述主预测网络的权重参数并自我更新，所述目标网络为主预测网络训练提供动作指令概率期望值。

7.如权利要求1所述的矿车自动驾驶视觉引导跟随停靠系统，其特征在于，所述训练模块内置经验回放缓存单元，存储控制信号生成模块传送的RGBD数据、运行动作指令、激励值、避障指令和停靠指令；在训练阶段，所述经验回放缓存单元按批次随机选择经验数据，将经验数据中的当前帧RGBD数据、当前帧对应运行动作指令数据，发送给所述控制信号生成模块中的主预测网络；将经验数据中的当前帧对应激励值、后一帧RGBD数据发送给目标网络；所述经验回放缓存单元按批次随机选择经验数据，将经验数据中的当前帧RGBD数据、当前对应的避障指令和停靠指令发送给所述安全管理模块；

8.如权利要求1所述的矿车自动驾驶视觉引导跟随停靠系统，其特征在于，所述激励模块内置目标检测网络，计算输出RGB图片数据相对左上角点的跟随停靠目标物、路径内外障碍物检测框的左上、右下角点坐标，发送给激励值运算单元；

所述激励值运算包括：

；

其中，表示D深度图中的坐标点的距离值；

通过如下公式计算激励值：

；

其中为激励值，为经验系数，arctg为反正切函数；

所述避障/停靠值运算包括：

在车载视觉模块输出RGBD图片中，建立矿车行驶前向路径，设x ^q表示前向路径左侧边沿相对于图片左侧位移，x ^t表示前向路径宽度；

计算D深度图相对应的路径覆盖决策值：

；

其中，表示预先设定的极大值；

；

设避障输出值为b，停靠输出值为，则：

；

9.如权利要求3所述的矿车自动驾驶视觉引导跟随停靠系统，其特征在于，在训练阶段，分别对所述激励模块中目标检测网络、所述安全管理模块中预测监督网络及所述控制信号生成模块中主预测网络、训练模块中目标网络构成的深度Q网络进行训练；

所述目标检测网络预先进行训练；在训练时，人工操控矿车运行，所述车载视觉模块前向拍摄跟随停靠目标物、路径内外障碍物，输出RGBD数据，划分建立训练数据集、验证数据集，开展所述目标检测网络训练，完成所述目标检测网络训练及性能验证测试后，目标检测网络输出激励值及避障指令和停靠指令，应用于所述预测监督网络及所述深度Q网络训练；

所述预测监督网络属于分类网络，独立于所述深度Q网络进行训练；在训练时，所述安全管理模块从所述经验回放缓存单元批量随机获取经验数据，经验数据包含RGBD数据及其对应的避障指令和停靠指令，将避障指令和停靠指令作为RGBD数据分类标签，划分建立训练数据集、验证数据集，开展所述预测监督网络，完成所述预测监督网络训练及性能验证测试后，预测监督网络输出避障/停靠指令，应用于自动驾驶阶段的避障或停靠；

在训练模式下，对深度Q网络进行训练的方式为：

对主预测网络、目标网络分别进行网络权重参数初始化；

索引策略单元计算输出动作指令索引值；

目标网络计算输出累积激励；

10.一种矿车自动驾驶视觉引导跟随停靠方法，其特征在于，基于权利要求1至9中任一项所述的矿车自动驾驶视觉引导跟随停靠系统，所述方法包括：

通过车载视觉模块获取RGBD数据；

建立激励模块，并在所述激励模块内置目标检测网络和激励值运算单元，所述目标检测网络用于根据输入的RGBD数据，预训练识别跟随停靠目标物、路径内外临近障碍物的权重参数，对跟随停靠目标物、路径内外临近障碍物进行目标检测，将检测结果数据发送给激励值运算单元；所述激励值运算单元用于根据所述检测结果数据，计算生成矿车偏离跟随停靠目标物的距离数据，进而计算迫近停靠目标物的激励值以及停靠指令，并计算矿车与路径内外障碍物的相对距离数据，按策略生成避障指令，实时传递给训练模块；

11.如权利要求10所述的矿车自动驾驶视觉引导跟随停靠方法，其特征在于，所述主预测网络生成转动动作指令概率，经动作指令生成策略单元生成转动动作指令，动作指令生成策略如下：

设主预测网络生成转动动作指令概率为，动作指令生成策略输出转向指令为自定义随机转向指令表示为，自定义随机值为，转向指令随机调整阈值为，，则：

；

12.如权利要求10所述的矿车自动驾驶视觉引导跟随停靠方法，其特征在于，通过如下方法构建自动驾驶子系统：

通过第一车载视觉模块获取RGBD数据；

建立第一控制信号生成模块，并在所述第一控制信号生成模块内置主预测网络、动作指令生成策略单元，根据第一车载视觉模块发送的RGBD数据，生成控制指令，发送给驱动控制模块；并接收安全管理模块避障指令或停靠指令；

建立第一驱动控制模块，所述第一驱动控制模块用于接收控制指令，基于所述控制指令控制矿车运行；

建立第一安全管理模块，并在所述第一安全管理模块内置预测监督网络，根据第一车载视觉模块发送的RGBD数据，生成避障指令或停靠指令，发送给第一控制信号生成模块。