CN110879595A

CN110879595A - 一种基于深度强化学习的无人矿卡循迹控制系统及方法

Info

Publication number: CN110879595A
Application number: CN201911211202.XA
Authority: CN
Inventors: 唐建林; 王飞跃; 任良才; 艾云峰; 杨超; 李凌云
Original assignee: Jiangsu XCMG Construction Machinery Institute Co Ltd
Current assignee: Jiangsu XCMG Construction Machinery Institute Co Ltd
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2020-03-13

Abstract

本发明提供了一种基于深度强化学习的无人矿卡循迹控制系统及方法，在学习阶段下，通过仿真平台接收环境状态信息、控制动作信息模拟无人矿卡的循迹过程，采集无人矿卡在预设路线上各个时刻的状态，将各个时刻的状态作为输入量，各个时刻控制动作信息作为输出量进行深度强化学习训练，得到算法内核；在应用阶段下，获取无人矿卡当前时刻的状态和下一时刻的目标状态至算法内核；基于算法内核预测出当前时刻的控制动作信息。本发明能够实现无人矿卡运动轨迹的精确控制，可在不同工况、不同工作环境和状态下按照深度强化学习训练出来的算法进行自动循迹，具有高度智能化、自我学习、自我适应的特性；提高了矿卡循迹控制的效率，且可以减少燃油消耗量。

Description

一种基于深度强化学习的无人矿卡循迹控制系统及方法

技术领域

本发明涉及一种基于深度强化学习的无人矿卡循迹控制系统及方法，属于自动化控制技术领域。

背景技术

金属矿山中，矿卡是金属矿山中的一种重要运输装备，大量的矿石、设备、材料、人员依赖矿卡的运输。矿卡的运行路线固定，运行路线封闭，运行过程易实现程序标准化，实现矿卡的无人驾驶具有客观基础。无人矿卡是实现数字矿山的一个重要环节，可以实现最大限度的安全运输，避免撞车、脱轨、追尾等事故对人员的伤害。无人矿卡运输系统能深入更危险的地方载运矿石、增强矿山作业的安全性，减少工作意外、降低运行成本，延长轮胎寿命、节省燃油和减少排放，具有巨大的市场潜力。

现有的关于无人矿卡自动控制的研究存在一些问题和局限性：

(1)传统的控制方法无法应对多变复杂的作业环境，因为矿卡的最佳运动轨迹会受作业面环境的影响而发生变化，指定好的矿卡运动轨迹并不一定是在当前环境下最佳的，在矿卡的循迹过程中无法保证车辆跟踪的精度，故不具有自我适应、自我学习的特性；

(2)基于传统的控制方法会加大工作量，如使用PID控制方法需要调整多个增益量，在不同的工况下需要对增益进行调整，使得调节参数变得繁琐；

(3)一些研究方法中的系统输入量没有考虑到动力学量，如果矿卡的执行机构的运动速度很快，就需要考虑动力学量作为系统的输入以解决惯性因素对执行机构产生的滞后性，而仅仅使用运动学量作为系统输入量对执行机构进行简单的位置控制无法实现高效率的自动控制，且会增大燃油消耗量。

发明内容

针对现有技术中存在的无人矿卡高维连续的行为空间和非线性性质而导致的轨迹跟踪精度低的控制问题，本发明提供了一种基于深度强化学习的无人矿卡循迹控制系统及方法。

一种基于深度强化学习的无人矿卡循迹控制方法，所述方法包括：

在学习阶段下，通过仿真平台接收环境状态信息、控制动作信息模拟无人矿卡的循迹过程，采集无人矿卡在预设路线上各个时刻的状态，将各个时刻的状态作为输入量，各个时刻控制动作信息作为输出量进行深度强化学习训练，得到算法内核；

在应用阶段下，获取无人矿卡当前时刻的状态和下一时刻的目标状态至算法内核；

基于算法内核预测出当前时刻的控制动作信息。

作为优选方案，所述算法内核训练过程如下：

奖励计算模块获取无人矿卡上一时刻的控制动作信息，根据无人矿卡上一时刻的控制动作信息、上一时刻的状态以及当前时刻的目标状态计算上一时刻的奖励信号值；

将无人矿卡上一时刻的状态、上一时刻的奖励信号值以及当前时刻的目标状态组成一个经验，存储进经验数据缓冲区；

更新模块在经验数据缓冲区中随机选出若干个经验来更新神经网络的参数，所述神经网络包括：决策神经网络、辅助决策神经网络、评价神经网络和辅助评价神经网络；

算法内核确定模块判断训练次数超过阈值后，计算完成的训练次数中的奖励信号值的标准差是否小于第一阈值ε，如果标准差小于第一阈值，训练完成，得到训练完成的决策神经网络。

一种基于深度强化学习的无人矿卡循迹控制系统，包括：

仿真平台，用于模拟矿山卡车的循迹过程，用于接收决策模块发送的矿卡控制动作信息，并且将该控制动作信息作用到模拟环境中的矿卡上，然后采用动力学模型计算出矿卡下一时刻的状态；

学习阶段数据采集模块，用于在学习阶段下，采集模拟环境下的无人矿卡当前时刻的状态和对应的下一时刻的目标状态，以及当前时刻的控制动作信息，并传送至训练模块；

训练模块，用于对无人矿卡当时刻的状态和对应的下一时刻的状态作为输入，当前时刻的控制动作信息作为输出进行深度强化学习训练，以得算法内核；

应用阶段数据采集模块，用于在应用阶段下，采集无人驾驶模式下无人矿卡当前时刻的状态和下一时刻的目标状态；

决策模块，在应用阶段基于无人矿卡当前时刻的状态和下一时刻的目标状态通过算法内核来生成当前时刻输出至无人矿卡的控制动作信息。

作为优选方案，在训练模块中进一步包括以下子模块：

神经网络建立模块，用于建立决策神经网络、辅助决策神经网络、评价神经网络和辅助评价神经网络，并对神经网络参数进行更新；

奖励计算模块，用于获取无人矿卡当前时刻的控制动作信息，并根据无人矿卡当前时刻的控制动作信息、当前时刻的状态以及下一时刻的目标状态计算当前时刻的奖励信号值；

经验数据缓冲区，用于将无人矿卡当前时刻的状态、当前时刻的奖励信号值以及下一时刻的目标状态组成一个经验进行存储；

更新模块，用于在经验数据缓冲区中随机选出若干个经验来更新神经网络参数；

算法内核确定模块，用于判断训练次数超过阈值后，计算完成的训练次数中的奖励信号值的标准差是否小于第一阈值ε，如果标准差小于第一阈值，训练完成，得到训练完成的决策神经网络。

作为优选方案，所述更新神经网络的参数过程如下：

将每个经验中的某时刻状态、某时刻的下一时刻的目标状态输入至当前决策神经网络，通过当前决策神经网络输出某时刻的第一控制动作信息；

将每个经验中的某时刻状态、某时刻的下一时刻的目标状态输入至当前辅助决策神经网络，通过当前辅助决策神经网络输出某时刻的第二控制动作信息；

将每个经验中的某时刻状态和第一控制动作信息输入至当前评价神经网络中，将当前评价神经网络的输出作为第一评价值；

将每个经验值的某时刻状态和第二控制动作信息输入至当前辅助评价神经网络中，将当前辅助评价神经网络的输出作为第二评价值；

根据第一评价值和所述第二评价值，利用评价神经网络的损失函数计算出当前评价神经网络的梯度；

根据当前评价神经网络的梯度对当前评价神经网络的参数进行更新，得到更新后的评价神经网络；

根据更新后的评价神经网络的参数对当前辅助评价神经网络的参数进行更新，得到更新后的辅助评价神经网络；

根据第一评价值，利用决策神经网络的损失函数计算当前决策神经网络的梯度；

根据当前决策神经网络的梯度对当前决策神经网络的参数进行更新，得到更新后的决策神经网络；

根据更新后的决策神经网络的参数对辅助决策神经网络的参数进行更新，得到更新后的辅助决策神经网络。

作为优选方案，所述奖励信号值的标准差：

其中：

表示第j次训练过程中上一时刻t-1的状态；

表示第j次训练过程中当前时刻t的目标状态；

表示在第j次训练过程中上一时刻t-1的控制动作信息；

表示第j次训练过程中上一时刻t-1的奖励信号值；

为完成第Y-y次至第Y次最近的y次训练时得到的所有奖励信号值的均值，T为总时刻，Y为总训练次数。

作为优选方案，所述控制动作信息包括：油门控制开度、制动等级、方向盘转角、方向盘扭矩。

作为优选方案，无人矿卡状态包括：无人矿卡的位置、航向、速度、四轮胎压、四轮转速、俯仰角、横滚角和倾斜角。

相对于现有技术而言，本发明具有的有益技术效果：

(1)本发明公开的基于深度强化学习的无人矿卡循迹控制方法，包含四个神经网络。在各时刻，当前决策神经网络在输入数据后，通过当前评价神经网络和当前辅助评价神经网络分别对应针对当前决策神经网络和当前辅助决策神经网络的输出进行评价，反映出对当前决策神经网络输出对最终控制效果的影响，并且通过评价结果更新当前决策神经网络和当前辅助决策神经网络的神经网络参数。其中，当前评价神经网络和当前辅助评价神经网络在获取到评价结果后，同时通过评价结果针对当前评价神经网络和当前辅助评价神经网络的神经网络参数进行更新。可见，本发明在学习阶段通过深度强化学习的方式最终学习得到决策神经网络，能够实现无人矿卡运动轨迹的精确控制，避免由于无人矿卡高维连续的行为空间和非线性性质而导致的轨迹跟踪精度低的控制问题；

(2)可在不同工况、不同工作环境和状态下按照深度强化学习训练出来的算法进行自动循迹，具有高度智能化、自我学习、自我适应的特性；

(3)采用动力学量作为系统的输入量避免了无人矿卡在自动控制系统下执行机构由于惯性因素产生的滞后性，大大提高了矿卡循迹控制的效率，且可以减少燃油消耗量。

附图说明

图1为本发明基于深度强化学习的无人矿卡循迹控制方法的总体流程图；

图2为本发明对神经网络进行强化学习训练的方法流程图；

图3为本发明用于实现无人矿卡循迹控制方法的系统的各模块之间的关系结构框图；

图4为训练模块的各个子模块之间的关系图；

图5为本发明无人矿卡循迹控制系统分别在学习阶段和在应用阶段下的工作流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，以下结合附图对本发明实施例作进一步地详细说明。

无人矿卡作为无人驾驶领域的一员，可分为环境感知系统、智能决策系统和控制执行系统三个层次。其中，环境感知系统是无人矿卡凭借加装的精确导航、图像识别和雷达等传感器进行数据采集和融合，完成对自身位置和姿态、周边环境和障碍物的感知。智能决策系统是根据环境感知系统的结果智能做出无人矿卡行驶的路径规划和决策。控制执行系统是根据无人矿卡当前智能决策系统发出的行驶指示，实际控制无人矿卡的转向、速度和制动部分运行，按指示的预定轨迹行驶。许多传统的控制方式诸如PID、模糊算法、滑模算法都曾被应用于车辆的控制领域中。

虽然传统的控制方法可以使得车辆在执行轨迹跟踪任务时达到一定的精度，但由于恶劣的矿山道路环境，在不同车辆载重、不同车辆速度、不同道路由率、不同路面的工况下现有的控制方法达不到预期效果。

本发明基于对神经网络的训练学习，在仿真环境得到训练后的算法内核，然后在应用阶段使用该算法内核产生控制动作信息从而实现矿卡的无人驾驶模式。详细的技术实现描述如下。

如图1所示，一种基于深度强化学习的无人矿卡循迹控制方法，包括学习阶段和应用阶段。

步骤S101，在学习阶段，通过仿真平台接收环境状态信息、控制动作信息模拟无人矿卡的循迹过程，采集模拟环境下的无人矿卡在预设路线上各个时刻的状态。无人矿卡的状态信息包括：无人矿卡位置、航向、速度、四轮胎压、四轮转速、俯仰角、横滚角和倾斜角。

步骤S102中，对采集的无人矿卡各个时刻的状态作为输入量，各个时刻控制动作信息作为输出量进行深度强化学习训练，以得到优化控制算法，形成算法内核。

步骤S103中，在应用阶段下，采集无人驾驶模式下无人矿卡当前时刻的状态和下一时刻的目标状态，传送到算法内核。

步骤S104中，基于无人矿卡当前时刻的状态和下一时刻的目标状态通过算法内核计算出当前时刻输出至无人矿卡的控制动作信息。

如图2所示，在进行深度强化学习训练以形成所述算法内核的步骤中，包括以下子步骤：

S201、建立决策神经网络、辅助决策神经网络、评价神经网络和辅助评价神经网络，并对上述神经网络的神经网络参数进行初始化。神经网络参数指的是神经网络中各层神经元的连接权重。同时，建立一个经验数据缓冲区，并对该缓冲区进行初始化；然后针对上述初始化后的四个神经网络进行学习训练。从初始时刻开始进行学习训练。在初始时刻，仅采集无人矿卡在当前时刻的控制动作信息以及下一时刻的目标状态。上一时刻的信息默认为0。

S202、采集无人矿卡当前时刻的状态、当前时刻的控制动作信息以及下一时刻的目标状态；并且获取无人矿卡上一时刻的控制动作信息。根据无人矿卡上一时刻的控制动作信息、上一时刻的状态以及当前时刻的目标状态计算上一时刻的奖励信号值；

S203、将无人矿卡上一时刻的状态、上一时刻的奖励信号值以及当前时刻的目标状态组成一个经验，存储进经验数据缓冲区。其中，还需要判断经验数据缓冲区当前存储的数据量是否大于指定阈值；

S204、若是，则在所述经验数据缓冲区中随机选出若干个经验(N个)来更新神经网络参数；

S205、基于对神经网络的训练次数和已完成的训练次数中的奖励信号值来确定学习是否结束，以得到最终学习完成的神经网络，进而得到算法内核。

在更新当前决策神经网络、当前辅助决策神经网络、当前评价神经网络和当前辅助评价神经网络的神经网络参数的子步骤S204中，包括以下子步骤：

将每个经验中的某时刻状态、某时刻的下一时刻的目标状态输入至当前的决策神经网络，通过当前的决策神经网络输出某时刻的第一控制动作信息；

将每个经验中的某时刻状态和所述第一控制动作信息输入至当前评价神经网络中，将当前评价神经网络的输出作为第一评价值；

将每个经验值的某时刻状态和所述第二控制动作信息输入至当前辅助评价神经网络中，将当前辅助评价神经网络的输出作为第二评价值；

根据所述第一评价值和所述第二评价值，利用评价神经网络的损失函数计算出当前评价神经网络的梯度；

根据当前评价神经网络的梯度对当前评价神经网络的神经网络参数进行更新，得到更新后的评价神经网络，

根据更新后的评价神经网络的神经网络参数对当前辅助评价神经网络的神经网络参数进行更新，得到更新后的辅助评价神经网络。

具体地，以上内容还可以表述如下：

针对步骤S204中选取出的N个经验中的每个经验进行以下处理：将每个经验中的某时刻状态、某时刻的下一时刻的目标状态输入至当前决策神经网络，通过当前决策神经网络输出某时刻的控制动作信息；同时将每个经验中的某时刻状态、某时刻下一时刻的目标状态输入至当前辅助决策神经网络，通过当前辅助决策神经网络输出某时刻的控制动作信息；

然后将每个经验中的某时刻的状态和上述当前决策神经网络输出的某时刻的控制动作信息输入至当前评价神经网络中，将当前评价神经网络的输出作为当前评价神经网络的评价值；同时将每个经验值的某时刻状态和当前辅助决策神经网络获取输出的某时刻的控制动作信息输入至当前辅助评价神经网络中，将当前辅助评价神经网络的输出均作为当前辅助评价神经网络的评价值；根据当前评价神经网络和当前辅助评价神经网络输出的评价值，利用评价神经网络的损失函数计算出当前评价神经网络的梯度；

然后根据当前评价神经网络的梯度对当前评价神经网络的神经网络参数进行更新，得到更新后的评价神经网络，再根据更新后的评价神经网络的神经网络参数对当前辅助评价神经网络的神经网络参数进行更新，得到更新后的辅助评价神经网络。

接下来，根据当前评价神经网络的评价值，利用决策神经网络的损失函数计算当前决策神经网络的梯度，然后根据当前决策神经网络的梯度对当前决策神经网络的神经网络参数进行更新，得到更新后的决策神经网络，同时根据更新后的决策神经网络的神经网络参数针对辅助决策神经网络的神经网络参数进行更新，得到更新后的辅助决策神经网络；所述更新后的决策神经网络和更新后的辅助决策神经网络供下一时刻使用。

当下一时刻到来时，即下一时刻作为当前时刻时，判定该时刻是否到达时刻T；若否，则返回步骤S202；若是，则表示决策神经网络、辅助决策神经网络、评价神经网络和辅助评价神经网络均完成一次训练，进入步骤S205。

S205、判断决策神经网络、辅助决策神经网络、评价神经网络和辅助评价神经网络当前的训练次数Y是否超过定值y；若否，则将到来的下一时刻重设为初始时刻，然后返回步骤S202，开始决策神经网络、辅助决策神经网络、评价神经网络和辅助评价神经网络的下一次训练；若是，则计算决策神经网络、辅助决策神经网络、评价神经网络和辅助评价神经网络完成最近的y次训练时计算得到的奖励信号值的标准差，并且判断其是否小于第一阈值，若是，则决策神经网络、辅助决策神经网络、评价神经网络和辅助评价神经网络学习结束；若否，则将到来的下一时刻重设为初始时刻，然后返回步骤S202。

在应用阶段：首先获取无人矿卡当前时刻的状态以及下一时刻的目标状态，然后由上述学习阶段学习完成的决策神经网络根据无人矿卡当前时刻的状态以及下一时刻的目标状态计算出当前时刻需要输出至无人矿卡的控制动作信息。

利用评价神经网络的损失函数计算出当前评价神经网络的梯度▽_wLoss为：

y_i＝r_i+γQ′(s_i,μ′(s_i,θ′_t)|w′_t) (1)

其中，Q(s_i,μ(s_i,θ_t)|w_t)是评价神经网络输出的评价值，S_i为选取的N个经验中第i个经验的某时刻的状态，μ(s_i,θ_t)为当前决策神经网络的某时刻的控制动作信息，θ_t为当前决策神经网络的神经网络参数；w_t为当前评价神经网络的神经网络参数。

其中，Q′(s_i,μ(s_i,θ′_t)|w′_t)为辅助评价神经网络输出的评价值，S_i为选取出的N个经验中第i个经验的某时刻的状态，μ′(s_i,θ′_t)为当前辅助决策神经网络的的某时刻的控制动作信息，θ′_t为当前辅助决策神经网络的神经网络参数，w′_t为当前辅助评价神经网络的神经网络参数；r_i为选取出的N个经验中第i个经验中当前时刻的奖励信号值，γ是折扣系数，取值范围在0和1之间。

在一个实施例中，根据本发明的基于深度强化学习的无人矿卡循迹控制方法，优选的是，在更新所述神经网络参数的子步骤中，进一步包括以下子步骤：

根据所述第一评价值，利用决策神经网络的损失函数计算当前决策神经网络的梯度；

根据所述当前决策神经网络的梯度对当前决策神经网络的神经网络参数进行更新，得到更新后的决策神经网络，同时根据更新后的决策神经网络的神经网络参数针对辅助决策神经网络的神经网络参数进行更新，得到更新后的辅助决策神经网络。

在一个实施例中，根据本发明的基于深度强化学习的无人矿卡循迹控制方法，优选的是，基于所述神经网络的训练次数和完成的训练次数中的奖励信号值的标准差来确定学习是否结束。

在一个实施例中，根据本发明的基于深度强化学习的无人矿卡循迹控制方法，优选的是，按照下式计算所述奖励信号值的标准差：

其中：

表示决策神经网络、辅助决策神经网络、评价神经网络和辅助评价神经网络在第j次训练过程中上一时刻t-1的状态；

表示决策神经网络、辅助决策神经网络、评价神经网络和辅助评价神经网络在第j次训练过程中当前时刻t的目标状态；

表示决策神经网络、辅助决策神经网络、评价神经网络和辅助评价神经网络在第j次训练过程中上一时刻t-1的控制动作信息；

表示第j次训练过程中上一时刻t-1的奖励信号值；r′为决策神经网络、辅助决策神经网络、评价神经网络和辅助评价神经网络完成第Y-y至第Y总共最近的y次训练时得到的所有奖励信号值的均值；ε为第一阔值。

本发明的方法实现于基于深度强化学习的无人驾驶矿山车辆控制系统中。该系统通过CAN总线车载网络控制无人矿卡转向、制动和加速的动作，实现无人矿卡的自动循迹行驶。

本发明的无人驾驶车辆控制系统主要包括：控制器、学习单元。其中，控制器，用于完成对无人驾驶车辆的控制，以符合车规级的嵌入式DSP芯片为嵌入式处理器核心，配以SDRAM(同步动态随机存储器)、ADC(模拟数字转换)接口、DAC(数字模拟转换)接口、CAN(控制器周域网络)接口、网络接口、串行接口和数字IO接口组成。采集单元用于采集模拟环境下的无人矿卡自身与环境状态信息和和预定路线行驶预瞄点和车身方向夹角。其中控制动作信息包含油门控制开度、制动等级、方向盘转角、方向盘扭矩；无人矿卡的环境变量信息包含无人矿卡位置、航向、速度、四轮胎压、四轮转速、俯仰角、横滚角和倾斜角。更新单元用于将深度强化学习得到的优化控制算法加载在控制器的嵌入式处理器中，在无人驾驶模式下利用该算法控制无人矿卡自动行驶。学习模块，用于根据上述采集数据通过深度强化学习的方式来进行优化无人矿卡控制算法，优化后的控制算法加载到控制器中，以实现无人矿卡自动行驶。

根据本发明的另一个方面，还提供了一种基于深度强化学习的无人矿卡循迹控制装置。如图3所示，其包括：

基于深度强化学习的无人矿卡循迹控制系统，包括数据采集模块、奖励计算模块、经验数据缓冲区、决策模块和通讯模块，各模块之间的关系见图3。

其中，数据采集模块。其包括学习阶段数据采集模块和应用阶段数据采集模块。学习阶段数据采集模块，其用于在学习阶段下，采集模拟环境下的无人矿卡各时刻的状态和对应的下一时刻的状态，并传送至训练模块；应用阶段数据采集模块用于在应用阶段的各时刻，采集无人矿卡当前时刻的状态和下一时刻的目标状态。

训练模块，其用于对所述采集的模拟环境下的无人矿卡各时刻的状态和对应的下一时刻的状态作为输入进行深度强化学习训练，以得到优化控制算法，形成算法内核；

决策模块，其用于在学习阶段接受所述训练模块的训练，并固化所形成的算法内核，在应用阶段基于所述无人矿卡当前时刻的状态和下一时刻的目标状态通过所述算法内核来生成当前时刻需要输出至无人矿卡的控制动作信息。

如图4所示，在训练模块中进一步包括以下子模块：

神经网络建立模块，其用以建立决策神经网络、辅助决策神经网络、评价神经网络和辅助评价神经网络，并对所述神经网络的神经网络参数进行初始化；

奖励计算模块，其用以获取无人矿卡当前时刻的控制动作信息，并根据无人矿卡当前时刻的控制动作信息、当前时刻的状态以及下一时刻的目标状态计算当前时刻的奖励信号值；

经验数据缓冲区，其用以将无人矿卡当前时刻的状态、当前时刻的奖励信号值以及下一时刻的目标状态组成一个经验进行存储；

更新模块，其用以在所述经验数据缓冲区中随机选出若干个经验来更新所述神经网络参数；

算法内核确定模块，其用以基于所述神经网络的训练次数和完成的训练次数中的奖励信号值来确定学习训练是否结束，以得到最终学习训练完成的决策神经网络，进而得到所述算法内核。

基于深度强化学习的无人矿卡循迹控制系统的工作流程如图5所示，具体步骤如下所示。

1)在仿真平台上利用虚拟的矿卡进行仿真实验。第一步设计需要的训练路段(如8字转弯道路)，在训练路段的预定路线画出明显白线，并采集在虚拟环境下该训练路段的地图信息。第二步开始训练循迹，采集单元实时获取每个时刻的无人矿卡自身(无人矿卡位置、航向、速度、四轮胎压、四轮转速、俯仰角、横滚角和倾斜角)以及预设的路线信息，利用强化学习输出控制动作信息(油门控制开度、制动等级、方向盘转角、方向盘扭矩)，经过大量地训练，优化控制算法，形成算法内核。

2)首先获取无人矿卡当前时刻的状态以及下一时刻的目标状态，然后由上述学习阶段学习完成的控制算法，计算出当前时刻需要输出至无人矿卡的控制动作信息。

为评价神经网络的损失函数；

y_i＝r_i+γQ′(s_i,μ′(s_i,θ′_t)|w′_t)

根据当前评价神经网络的梯度对当前评价神经网络的神经网络参数进行更新，得到：

w_t+1＝w_t+α▽_wLoss (3)

其中，w_t为当前评价神经网络的神经网络参数：w_t+1时为当前评价神经网络的神经网络参数更新后的值，对应为更新后的评价神经网络的神经网络参数；α为评价神经网络的神经网络参数学习率，取值范围在0和1之间。

根据更新后的评价神经网络对当前辅助评价神经网络的神经网络参数进行更新，得到：

w′_t+1＝ρw_t+1+(1-ρ)w′_t (4)

其中，w′_t为当前辅助评价神经网络的神经网络参数：w′_t+1为当前辅助评价神经网络的神经网络参数更新后的值，对应为更新后的辅助评价神经网络的神经网络参数：ρ是辅助决策神经网络和辅助评价神经网络的神经网参数的学习率，取值范围在0和1之间。

根据当前评价神经网络的评价值，利用决策神经网络的损失函数计算当前决策神经网络的梯度▽_θJ：

其中，J为决策神经网络的损失函数，Q(s_i,μ(s_i,θ_t)|w_t)是评价神经网络输出的评价值，S_i为选取的N个经验中第i个经验的某时刻的状态，μ(s_i,θ_t)为当前决策神经网络的某时刻的控制动作信息，θ_t为当前决策神经网络的神经网络参数；w_t为当前评价神经网络的神经网络参数。

根据当前决策神经网络的梯度对当前决策神经网络的神经网络参数进行更新，得到

θ_t+1＝θ_t+β▽_θJ (6)

其中，θ_t为当前决策神经网络的神经网络参数；θ_t+1为当前决策神经网络的神经网络参数更新后的值，对应为更新后的决策神经网络的神经网络参数；β为决策神经网络的神经网络参数学习率，取值范围在0和1之间。

根据更新后的决策神经网络的神经网络参数针对辅助决策神经网络的神经网络参数进行更新，得到：

θ′_t+1＝ρθ_t+1+(1-ρ)θ′_t (7)

其中，θ′_t为当前辅助决策神经网络的神经网络参数；θ′_t+1叫为当前辅助决策神经网络的神经网络参数更新后的值，对应为更新后的辅助决策神经网络的神经网络参数。

计算决策神经网络、辅助决策神经网络、评价神经网络和辅助评价神经网络完成最近的y次训练时计算得到的奖励信号值的标准差为：

其中：

表示决策神经网络、辅助决策神经网络、评价神经网络和辅助评价神经网络在第j次训练过程中当前时刻t-1的状态；

表示第j次训练过程中上一时刻t-1的奖励信号值；

为决策神经网络、辅助决策神经网络、评价神经网络和辅助评价神经网络完成第Y-y至第Y总共最近的y次训练时得到的所有奖励信号值的均值；ε为第一阈值。

应该理解的是，本发明所公开的实施例不限于这里所公开的特定结构、处理步骤或材料，而应当延伸到相关领域的普通技术人员所理解的这些特征的等同替代。还应当理解的是，在此使用的术语仅用于描述特定实施例的目的，而并不意味着限制。

说明书中提到的“一个实施例”或“实施例”意指结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此，说明书通篇各个地方出现的短语“一个实施例”或“实施例”并不一定均指同一个实施例。

虽然本发明所公开的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所公开的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种基于深度强化学习的无人矿卡循迹控制方法，其特征在于，所述方法包括：

基于算法内核预测出当前时刻的控制动作信息。

2.如权利要求1所述的基于深度强化学习的无人矿卡循迹控制方法，其特征在于，所述算法内核训练过程如下：

3.如权利要求2所述的基于深度强化学习的无人矿卡循迹控制方法，其特征在于，所述更新神经网络的参数过程如下：

4.如权利要求2所述的基于深度强化学习的无人矿卡循迹控制方法，其特征在于，所述奖励信号值的标准差：

其中：

表示第j次训练过程中上一时刻t-1的状态；

表示第j次训练过程中当前时刻t的目标状态；

表示在第j次训练过程中上一时刻t-1的控制动作信息；

表示第j次训练过程中上一时刻t-1的奖励信号值；

5.如权利要求4所述的基于深度强化学习的无人矿卡循迹控制方法，其特征在于，所述控制动作信息包括：油门控制开度、制动等级、方向盘转角、方向盘扭矩。

6.如权利要求5所述的基于深度强化学习的无人矿卡循迹控制方法，其特征在于，无人矿卡状态包括：无人矿卡的位置、航向、速度、四轮胎压、四轮转速、俯仰角、横滚角和倾斜角。

7.一种基于深度强化学习的无人矿卡循迹控制系统，其特征在于，包括：

8.如权利要求7所述的基于深度强化学习的无人矿卡循迹控制系统，其特征在于，在训练模块中进一步包括以下子模块：

9.如权利要求8所述的基于深度强化学习的无人矿卡循迹控制系统，其特征在于，神经网络参数进行更新的步骤如下：

10.如权利要求8所述的基于深度强化学习的无人矿卡循迹控制系统，其特征在于，所述奖励信号值的标准差：

其中：

表示第j次训练过程中上一时刻t-1的状态；

表示第j次训练过程中当前时刻t的目标状态；

表示在第j次训练过程中上一时刻t-1的控制动作信息；

表示第j次训练过程中上一时刻t-1的奖励信号值；