CN115933641A

CN115933641A - 基于模型预测控制指导深度强化学习的agv路径规划方法

Info

Publication number: CN115933641A
Application number: CN202211438018.0A
Authority: CN
Inventors: 毛凯; 江爱朋; 吴文浩; 王浩栋; 王剑; 王春林
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2022-11-17
Filing date: 2022-11-17
Publication date: 2023-04-07

Abstract

本发明涉及基于模型预测控制指导深度强化学习的AGV路径规划方法，针对阿克曼结构AGV，设计了MPC算法，在代价函数中加入了障碍物代价，这使得MPC在轨迹跟踪过程中能实现避障功能；设计强化学习的状态、动作、奖励，搭建了深度强化学习的算法框架；利用MPC的策略训练强化学习网络，设计了训练完成的标准，这使得在训练网络过程中有高效的规划策略，加快了网络的训练效率，训练结束后能以较低的运算负载执行路径规划，让AGV在未知动态环境中也能可靠地、高效地完成规划任务，到达目标点。

Description

基于模型预测控制指导深度强化学习的AGV路径规划方法

技术领域

本发明涉及基于模型预测控制指导深度强化学习的AGV路径规划方法，属于人工智能控制技术领域。

背景技术

21世纪以来，科技创新快速发展，人工智能技术成为了各国科研机构、科技企业和高校研究所的广泛关注和研究的课题，也标志着未来科技发展的重要方向。自主导航机器人(Automated Guided Vehicle，AGV)随着科技发展也逐渐出现在人们的视野中，从大型医院的大厅服务机器人到大型商场的送菜机器人，从民用领域的家用扫地机器人到军用领域扫雷侦察机器人，都能看到AGV的影子，它在人们生活中正承担着越来越重要的角色。

路径规划是AGV导航框架中的一种重要组件,按照所获取的环境数据不同,该组件又可以分成全局路径规划和部分路径规划。全局路线规划方法通过对已知的环境地图计算得到了从起点到终点的完整路线，常用的方法包括A*算法、Dijkstra算法和蚁群优化算法，这些算法依赖全局静态地图，因此不适用于动态环境。局部路径规划方法用于动态的环境中，该方法在全局路径的基础上重新规划出局部路径，如模型预测控制算法(ModelPredictive Control，MPC)、动态窗口算法和人工势场法。为了实现在动态未知环境中实现自主导航，通常采用全局路径规划与局部路径规划相结合，因此在动态环境中实现重新规划导航路径需要大量计算，规划消耗的资源多，成本较高。而新型的人工智能算法深度强化学习用于路径规划，虽然降低规划时的计算资源降低成本，但是不能直接应用于动态未知环境，需要提前花大量时间训练，这大大降低了它的适用性。

发明内容

为了克服现有研究的不足，本发明提供了基于模型预测控制指导深度强化学习的AGV路径规划方法，能够直接应用于动态未知环境的导航任务中，当小车训练达到设定的训练标准后便可利用强化学习进行规划，直接获得传感器读数映射到动作的策略。一方面，该方法解决了现有深度强化学习算法实现路径规划的小车的两个缺陷：其一，将小车置于一个动态未知的环境中，小车对所处环境的信息一无所知，小车只能通过“摸索”的方式去完成规划任务，极大的降低了执行任务的效率；其二，深度强化学习的本质是与环境交互，然后获得相应的奖励，根据获得的奖励调整小车的策略，而训练期间容易发生灾难性故障，这增加了在未知动态环境中的训练成本和训练时间。另一方面，该方法训练完成后的计算成本低于模型预测控制方法，虽然模型预测控制是控制机器人系统的一种有效方法，尤其是阿克曼底盘结构小车，但是应用中需要计算或估算小车的状态，根据预测时域计算多步结果去实现一步控制，这使得局部规划产生昂贵的计算成本。

基于模型预测控制指导深度强化学习的AGV路径规划方法的具体步骤如下：

步骤一：根据搭载单线激光雷达的阿克曼底盘结构AGV的车辆结构建立运动学模型，并将运动学模型转化为状态空间方程；

步骤二：参数初始化，包括车辆的底盘的长度length、宽度width、前后车轮轴距l，代价地图膨胀半径dr；

步骤三，车载激光雷达进行静态地图的感知与构建代价地图，构建完成后栅格化代价地图；

步骤四：判断是否到全局路径规划时间，达到则利用A*算法进行全局路径规划，全局路径规划完成后确定运动轨迹的参考点，根据各个参考点计算车辆姿态参考值，否则执行步骤五；

步骤五：确定参考值后进行基于MPC算法的轨迹规划和轨迹跟踪，向AGV与深度强化学习发出计算得到的控制信号u(k)；

步骤六：深度强化学习模块将步骤五中获取的控制信号u(k)与离散动作空间匹配后得到本次的动作信息，将步骤三中获取的激光雷达信号经筛选后作为本次的状态信息；

步骤七：AGV执行步骤五中得到的控制信号u(k)，朝局部规划点运动，同时判断是否达到目标点，未达到则回到步骤三继续训练，否则进一步判断是否达到训练完成标准，达到标准则结束训练，否则进入新一轮的全局目标给定与训练；

步骤八：网络训练完成后，单独使用深度强化学习完成AGV的路径规划。

所述步骤一根据AGV的车辆结构建立运动学模型，并将运动学模型转化为状态空间方程具体包括：

S1.1：阿克曼结构小车的运动学模型考虑的物理参数有小车前后轮轴距、前轮偏角的约束范围和车速的约束范围，车辆运动学方程为：

其中

分别是车辆后轮轴中心在笛卡尔坐标系下x轴方向速度和y轴方向速度，

是车辆与x轴正方向夹角也称为航向角，

是航向角速度，δ是车辆前轮转角，v是车辆速度，l是车辆轴距；

S1.2：将式作为一个输入是u(v,δ)，状态量是

的控制系统，其一般形式是：

将式(1.2)在参考点(χ_r,u_r)进行泰勒级数展开并忽略高阶项得到：

将式(1.2)和式(1.3)合并，将其离散化，离散后得到基于运动学模型的离散状态空间方程：

其中

是k+1时刻小车状态量偏差，

是k时刻小车状态量偏差，

是k时刻控制量偏差，v_r是车速参考值，

是车辆航向角参考值，δ_r是前轮转角参考值，T是采样时间，l是车辆的前后轮轴距，A、B是车辆离散状态空间方程的系数矩阵；

定义状态输出方程：

其中y(k)是k时刻的系统输出量，C_out是设计的输出矩阵。

所述步骤五确定参考值后进行基于MPC算法的轨迹规划和轨迹跟踪，发出计算得到的控制信号具体步骤包括：

S5.1：根据需要构建新的状态向量：

将步骤一中得到的离散状态空间方程式和式修改，那么得到新的状态空间表达式：

其中I_Nu表示维数为Nu的单位矩阵；A'是得到新的状态矩阵；B'是得到新的控制矩阵；

是

与

的差值。

得到新的输出方程为：

其中C'是得到新的输入矩阵。

S5.2：若设预测时域为Np，控制时域为Nc，对状态空间表达式进行多步推导：

根据式(5.3)对输出方程进行多步推导：

将系统未来时刻的输出以矩阵的形式表达，得到预测的输出方程：

Y＝ψξ(k)+ΘΔU (5.5)

其中：

S5.3：设计避障惩罚函数，基本思路是通过障碍物点与目标点的距离偏差来调节函数值的大小，且距离越近，函数值越大，所以选择如下形式的避障功能函数：

其中，S_obs为权重系数，v_i是小车的实时行驶速度的平方v_i＝v_x ²+v_y ²，用于避障过程减速的作用，(x_i,y_i)是障碍物点在车身坐标系下的位置坐标，(x₀,y₀)是车辆质心坐标，ζ为较小的正数，用于防止出现分母为零的现象。

S5.4：为了追求系统控制目标式速度跟踪精度，同时避免过大的加速度，将性能评价函数定义为：

其中J_obs,i为采样时刻i的避障函数，Np为预测步长，Nc为控制步长；η_p(k+i|k)为控制输出预测量；η_r(k+i|k)为控制输出参考量；(k+i|k)表示根据k采样时刻的信息来预测k+i时刻；u(k+i)和Δu(k+i)分别是k+i时刻控制输入和控制输入增量；Q和R分别是系统输出量、控制增量和控制量权重系统矩阵；u_min和u_max分别是控制总量的最小约束和最大约束；Δu_min和Δu_max分别是控制增量的最小约束和最大约束。

根据计算得到u(k)，其中u(k)表示在k时刻的控制量，即为k时刻车速v(k)和前轮转角δ(k)。

所述步骤六深度强化学习模块将步骤五中获取的控制信号u(k)与离散动作空间做匹配后得到本次的动作信息，将步骤三中获取的激光雷达信号经筛选后作为本次的状态信息具体包括：

S6.1：在深度强化学习模块训练前，设计系统状态(state)、动作(action)、奖励函数(reward)和网络结构(network structure)，利用深度强化学习DDQN(Double Deep Q-Learning Network)算法实现强化学习训练并规划导航

S6.2：搭建深度强化学习的算法框架：采用DDQN算法，DDQN算法如图3所示，包括Q网络、Q_Target网络，Q网络输出的是在当前状态预测动作，Q_Target网络输出的是Q网络做出的决策的评价；

Q网络的输入是状态state，输出的是AGV采用的动作action；Q_Target网络输入的是状态动作(state,action)，输出的是价值Q(s,a)，其中s代表状态，a代表在状态s下采取的动作，Q(s,a)代表当前状态s下采用动作a的价值；

S6.3：训练网络，使得AGV在环境交互中学习策略。

所述S6.1具体包括：

S6.1.1：设计系统状态空间，考虑到计算负担和实际导航效果，同时方便设计卷积网络，设计了输入为200个数据集，将激光雷达点阵信号与全局目标坐标作为输入信号。

S6.1.2：设计动作空间，由于阿克曼结构小车的控制信号是连续的控制信号π_RL＝[v,δ]，其中v为小车前进速度，δ为小车前轮偏角，为了解决基于值估计的DDQN难以适用于连续动作空间的问题，现将步骤五计算得到的小车的控制动作u(k)离散化，通过牺牲一部分控制精度换取解空间维度的大幅压缩以及探索效率的显著提升。

如何确定量化间隔是决定训练效果的关键因素，在将连续控制信号转化为有限数量的离散动作时，必须保证仍然具有足够的控制精度，避免过于粗糙的离散化操作影响实际控制效果。

动作空间离散化不可避免地会带来控制精度的下降，然而对于规划任务来说，只要量化间隔适中，就完全可以保证足够的控制精度。而量化间隔在控制精度与训练高效性的两极之间存在一个黄金区域，使得训练效率改善带来的收益大于控制精度带来的损失，使得强化学习算法的性能得到提升。强化学习算法的性能通常使用平均得分来评判，测试性能时AGV执行N个周期，记录AGV获得的所有奖励并对其求平均值。

已知AGV的控制周期T，设线速度量化间隔是Δv，可以得出原始的连续信号与离散后的信号的最大偏差为Δv/2，那么离散前后单步控制的距离最大误差是T×Δv/2，为了避免因控制误差导致的碰撞，单步控制的最大纵向距离误差T×Δv/2要小于代价地图的膨胀半径dr，所以Δv＜2dr/T。

设前轮偏角量化间隔是Δδ，可以得出原始的连续信号与离散后的信号的最大偏差为Δδ/2，那么前轮偏角离散前后单步控制的最大距离误差是2v_max·T/sin(Δδ/4)，为了避免因控制误差导致的碰撞，单步控制的最大横向距离误差2v_max·T/sin(Δδ/4)要小于代价地图的膨胀半径dr，所以得到Δδ＜4arcsin(dr/2v_max·T)。

在满足上述要求的前提下，设定速度与前轮偏角的量化间隔Δv、Δδ，考虑到步骤五设定的AGV线速度约束为v_min～v_max，首先以量化间隔Δv对线速度约束进行均匀量化，而考虑小车的前轮偏角约束δ_min～δ_max，以量化间隔Δδ对前轮偏角约束进行均匀量化，由此组成动作空间。在该动作空间下进行训练，并根据训练过程中AGV获得的平均奖励多次调整量化间隔Δv、Δδ，达到量化间隔的黄金区域，即量化间隔变大或变小均不能使强化学习的测试过程平均奖励提高，这样就得到了最佳的量化间隔Δvb、Δδb。

S6.1.3：设计奖励函数，奖励函数的功能是用于奖励小车到达给定目标或对碰撞障碍物进行惩罚，所以设计如下：

R(s,a)＝R₁+R₂+R₃+R₄ (6.1)

R₁＝k_R(dg_t-1-dg_t) (6.2)

R₃＝-c_R·time (6.4)

表示奖励函数由四部分组成，R₁这部分用于刺激机器人接近目标位置，其中k_R是权重系数，dg_t-1表示机器人与上一步目标位置之间的线性距离，以及dg_t表示机器人与下一步目标位置之间的线性距离；R₂表示碰撞惩罚，da，da_min分别标明当前机器人与障碍物之间的距离以及机器人与障碍物之间的最小安全距离；R₃是指当前时间惩罚值，时间成本越高，对机器人施加的惩罚越多，并且可以刺激AGV在训练过程中找到最佳路径，从而使到达目标位置所需的时间最短，c_R是设置的权重参数，time是从起点达到目标点所经历的时间；R₄表示如果机器人到达目标位置，则给予奖励，否则不给予奖励。

所述S6.3具体包括：

S6.3.1：初始化环境，设置AGV的初始环境，初始化Q网络和Q_Target网络结构与参数，初始化样本池容量；

S6.3.2：从AGV车载单线激光雷达接收的数据和局部目标点与AGV的相对坐标中获取当前状态s，把步骤五中获得的u(k)作为动作a，AGV执行动作a，在执行完动作a后，AGV的状态发生改变得到下一个状态s'，以及计算奖励函数得到的此次策略的奖励r，组合成一个四元组(s,a,s',r)，将四元组放入样本池中，用于后续的网络训练；

S6.3.3：Q网络训练过程：从样本池中随机抽取m个样本进行训练，从样本(s,a,s',r)提取(s,a)状态动作组输入到Q网络得到对应的动作价值Q(s,a)，将样本中的s'输入到Q网络中，得到各种不同动作的Q值，选择最大的Q值对应动作a'，接着将s'输入到Q_Target网络中，找到动作a'对应的价值Q_target(s',a')，以Q_target(s',a')作为网络的预测值，由此得到目标Q'(s,a):

Q'(s,a)＝r+γ*Q_target(s',a') (6.6)

其中r是样本提取的奖励值，γ为权重系数；

因此可以得到均方差损失函数：

最后通过神经网络梯度反向传播来更新Q网络的参数：

w'＝τ*w+(1-τ)*w' (6.8)

其中τ为比例系数，w为Q网络参数；

完成一次Q网络的训练，然后利用Q网络更新到Q_target网络参数。

所述步骤七：AGV执行步骤五中得到的控制信号u(k)，朝局部规划点运动，同时判断是否达到目标点，未达到则回到步骤三继续训练，否则进一步判断是否达到训练完成标准，达到标准则结束训练，否则进入新一轮的全局目标给定与训练；具体包括：

S7.1：制定网络训练完成标准，在训练过程中，将MPC计算获得的最近20次控制信号u(k)匹配到动作空间得到相应的动作集合，对比Q网络由激光雷达信号计算得到的最近20次动作a信号的集合，当两个集合的偏差不超过百分之五并且强化学习的训练过程平均奖励曲线趋于平稳，则认定为达到训练完成标准；

S7.2：AGV执行步骤五中得到的控制信号u(k)，朝局部规划点运动，同时判断是否达到目标点，未达到则回到步骤三继续训练，否则进一步判断是否达到训练完成标准，达到标准则结束训练，否则进入新一轮的全局目标给定与训练。

所述步骤八：网络训练完成后，单独使用深度强化学习完成AGV的路径规划；具体包括：强化学习模块训练完成后，使用训练完成的网络实现AGV路径规划，车载激光雷达探测感知周围环境，强化学习模块接收激光雷达信号作为当前状态，训练完成的网络对接收的激光雷达信号做出决策产生AGV所要执行的动作，同时判断是否达到目标点，达到则结束导航功能，否则进行新一轮的路径规划控制。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于模型预测控制指导深度强化学习的AGV路径规划方法的MPC指导的深度强化学习规划训练主流程图；

图2为本发明训练完成的深度强化学习规划控制流程图；

图3为本发明DDQN网络的训练流程图；

图4为本发明DDQN的网络结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，基于模型预测控制指导深度强化学习的AGV路径规划方法，通过以下步骤来实现：

步骤一：根据AGV的车辆结构建立运动学模型，并将运动学模型转化为状态空间方程；具体实现步骤如下：

S1.1：阿克曼结构小车的运动学模型考虑的物理参数有小车前后轮轴距、前轮偏角的约束范围和车速的约束范围，本文使用车辆结构参数具体为前后车轮轴距l：0.258(m)，车辆底盘length×width：0.32×0.168(m²)，车辆运动学方程为：

其中

是车辆与x轴正方向夹角也称为航向角，

是航向角速度，δ是车辆前轮转角，v是车辆速度，l是车辆轴距(l＝0.258m)。

S1.2：将上式作为一个输入是u(v,δ)，状态量是

的控制系统，其一般形式是：

将式在参考点(χ_r,u_r)进行泰勒级数展开并忽略高阶项得到：

其中

是k+1时刻小车状态量偏差，

是k时刻小车状态量偏差，

是k时刻控制量偏差，v_r是车速参考值，

是车辆航向角参考值，δ_r是前轮转角参考值，T是采样时间(T＝1s)，l是车辆的前后轮轴距，A、B是车辆离散状态空间方程的系数矩阵。

定义状态输出方程：

其中y(k)是k时刻的系统输出量，C_out是设计的输出矩阵(此处是单位矩阵)。

步骤二：参数初始化，包括车辆的底盘的长度length(length＝0.32m)、宽度width(width＝0.168m)、前后车轮轴距l(l＝0.258m)，代价地图膨胀半径dr(dr＝0.16m)。

步骤三：车载激光雷达进行静态地图的感知与构建代价地图，构建完成后栅格化代价地图；将扫描建图得到的实时地图栅格化，其中无障碍物的区域是白色栅格，障碍物区域是黑色栅格，膨胀区域是蓝色。

步骤四：判断是否到全局规划时间，达到则利用A*算法进行全局路径规划，全局路径规划完成后确定运动轨迹的参考点，根据各个参考点计算车辆姿态参考值；设定全局规划的周期为10s，如果距离上次全局规划时间达到10s则进行规划，否则跳过步骤四运行步骤五；

所述的根据各个参考点计算车辆姿态参考值；具体实现步骤如下：

将全局规划得到坐标点序列中每个坐标点进行车辆姿态参考值计算，车速参考值v_r设置为一个常数(v_r＝1m/s)。计算第k个参考点的曲率ρ，并且依据曲率计算该参考点上前轮转角的参考值δ_r(k)为：

δ_r(k)＝arctan(ρ) (4.1)

车辆航向角参考值

计算公式：

其中y_r(k)是第k个参考点的车辆纵坐标参考值，x_r(k)是第k个参考点的车辆横坐标参考值，y_r(k-1)是第k-1个参考点的车辆纵坐标参考值，x_r(k-1)是第k-1个参考点的车辆横坐标参考值。

步骤五：确定起始参考值后进行基于MPC算法的轨迹规划和轨迹跟踪，发出计算得到的控制信号；具体实现步骤如下：

S5.1：根据需要构建新的状态向量

其中I_Nu表示维数为Nu的单位矩阵；A'是得到新的状态矩阵，B'是得到新的控制矩阵。

得到新的输出方程为：

其中C'是得到新的输入矩阵。

S5.2：若设预测时域为Np(Np＝30)，控制时域为Nc(Nc＝15)，对状态空间表达式进行多步推导：

根据式(5.3)对输出方程进行多步推导：

Y＝ψξ(k)+ΘΔU (5.5)

其中：

其中，S_obs为权重系数(S_obs＝500)，v_i是小车的实时行驶速度的平方v_i＝v_x ²+v_y ²，用于避障过程减速的作用，(x_i,y_i)是障碍物点在车身坐标系下的位置坐标，(x₀,y₀)是车辆质心坐标，ζ为较小的正数(ζ＝0.01)，用于防止出现分母为零的现象。

s.t.u_min≤u(k+i)≤u_max

Δu_min≤Δu(k+i|k)≤Δu_max (5.7)

其中J_obs,i为采样时刻i的避障函数，Np为预测步长(Np＝30)，Nc为控制步长(Nc＝15)；η_p(k+i|k)为控制输出预测量；η_r(k+i|k)为控制输出参考量；(k+i|k)表示根据k采样时刻的信息来预测k+i时刻；u(k+i)和Δu(k+i)分别是k+i时刻控制输入和控制输入增量；Q和R分别是系统输出量、控制增量和控制量权重系统矩阵；u_min(u_min＝[-0.5,-45])和u_max(u_max＝[1,45])分别是控制总量的最小约束和最大约束；Δu_min(Δu_min＝[-0.2,-45])和Δu_max(Δu_max＝[0.3,45])分别是控制增量的最小约束和最大约束。

根据计算得到u(k)，其中u(k)表示在k时刻的控制量，即为k时刻车速v(k)和前轮转角δ(k)；

步骤六：深度强化学习模块将步骤五中获取的控制信号u(k)与离散动作空间做匹配后得到本次的动作信息，将步骤三中获取的激光雷达信号经筛选后作为本次的状态信息，同时向AGV发送动作a控制信号；具体实现步骤如下：

S6.1：在深度强化学习模块训练前，设计系统状态(state)、动作(action)、奖励函数(reward)和网络结构(network structure)，利用深度强化学习DDQN(Double Deep Q-Learning Network)算法实现强化学习训练并规划导航；

所述的S6.1具体实现步骤如下：

S6.1.1：设计系统状态空间，考虑到计算负担和实际导航效果，同时方便设计卷积网络，将激光雷达角度分辨率设置为3.7度，将范围限制设置为2米，因此观测点由99个点组成，而激光雷达的单点信息可以表示为[angle,distance]，因此99个激光点阵信息就产生了198个数据输入，全局规划路径中距离小车2米处的坐标[Δx,Δy]也被视为输入，总输入为200个数据集。即state由99个雷达数据[angle,distance]和一个相对目标点[Δx,Δy]组成，其中激光雷达用于360度以上检测动态未知的环境信息，同时全局规划路径中距离小车2米处的坐标视为相对目标点，于是Q网络(Q-Learning Network)将激光雷达点阵信号与局部目标点坐标作为输入信号。

动作空间离散化不可避免地会带来控制精度的下降，然而对于规划任务来说，只要量化间隔适中，就完全可以保证足够的控制精度。而量化间隔在控制精度与训练高效性的两极之间存在一个黄金区域，使得训练效率改善带来的收益大于控制精度带来的损失，使得强化学习算法的性能得到提升。强化学习算法的性能通常使用平均得分来评判，测试性能时AGV执行N个周期(N＝100)，记录AGV获得的所有奖励并对其求平均值。

已知AGV的控制周期T(T＝1s)，设线速度量化间隔是Δv，可以得出原始的连续信号与离散后的信号的最大偏差为Δv/2，那么离散前后单步控制的距离最大误差是T×Δv/2，为了避免因控制误差导致的碰撞，单步控制的最大纵向距离误差T×Δv/2要小于代价地图的膨胀半径dr，所以Δv＜2dr/T＝0.32(m/s)。

设前轮偏角量化间隔是Δδ，可以得出原始的连续信号与离散后的信号的最大偏差为Δδ/2，那么前轮偏角离散前后单步控制的最大距离误差是2v_max·T/sin(Δδ/4)，为了避免因控制误差导致的碰撞，单步控制的最大横向距离误差2v_max·T/sin(Δδ/4)要小于代价地图的膨胀半径dr，所以得到Δδ＜4arcsin(dr/2v_max·T)＝18.3(°)。

在满足上述要求的前提下，设定速度与前轮偏角的量化间隔Δv＝0.32m/s、Δδ＝18.3°，考虑到步骤五设定的AGV线速度约束为v_min～v_max(v_min＝-0.5m/s,v_max＝1m/s)，首先以量化间隔Δv(Δv＝0.32m/s)对线速度约束进行均匀量化，而考虑小车的前轮偏角约束δ_min～δ_max(δ_min＝-45°,δ_max＝45°)，以量化间隔Δδ(Δδ＝18.3°)对前轮偏角约束进行均匀量化，由此组成动作空间。在该动作空间下进行训练，并根据训练过程中AGV获得的平均奖励多次调整量化间隔Δv、Δδ，达到量化间隔的黄金区域，即量化间隔变大或变小均不能使强化学习的测试过程平均奖励提高，这样就得到了最佳的量化间隔Δvb(Δvb＝0.25m/s)、Δδb(Δδb＝5°)，则线速度对应7个动作分别为：(-0.5，-0.25，0，0.25，0.5，0.75，1)(单位：m/s)，而前轮偏角对应19个动作值分别为：(-45，-40，-35，-30，-25，-20，-15，-10，-5，0，5，10，15，20，25，30，35，40，45)(单位：°)。

R(s,a)＝R₁+R₂+R₃+R₄ (6.1)

R₁＝k_R(dg_t-1-dg_t) (6.2)

R₃＝-c_R(time) (6.4)

表示奖励函数由四部分组成，R₁这部分用于刺激机器人接近目标位置，其中k_R是权重系数(k_R＝0.5)，dg_t-1表示机器人与上一步目标位置之间的线性距离，以及dg_t表示机器人与下一步目标位置之间的线性距离；R₂表示碰撞惩罚，da，da_min分别标明当前机器人与障碍物之间的距离以及机器人与障碍物之间的最小安全距离；R₃是指当前时间惩罚值，时间成本越高，对机器人施加的惩罚越多，并且可以刺激AGV在训练过程中找到最佳路径，从而使到达目标位置所需的时间最短，c_R是设置的权重参数(c_R＝1)，time是从起点达到目标点所经历的时间；R4表示如果机器人到达目标位置，则给予奖励，否则不给予奖励。

S6.1.4：设计网络结构，Q网络与Q_Target网络具有相同的网络结构，如图4所示，输入层的维度是10×10×2，具有三个卷积层和两个全连接层，输出层是分别输出线速度和前轮转角，线速度和前轮转角的神经元激活函数均采用Relu函数，具体如图4所示：由三个卷积层和两个全连接层组成，输入层是200个元素形成大小为10×10×2的三维矩阵；根据输入层的大小设计了第一个卷积层，其中卷积核的大小为2×2，步幅为2，特征映射的数量设置为16，因此，输出层的大小为5×5×16；第三卷积层的核大小为5×5，步幅为1，特征映射的数量设置为128，第三卷积层的输出大小为1×1×128；然后通过全连接层转换为具有64元素的一维向量，这些元素连接到全连接层，转化为具有7元素的一维向量；输出层的大小即速度的输出量；前轮偏角的网络设计同理，不同的是输出层的大小设置为前轮转角动作数量19位。

S6.2：搭建深度强化学习的算法框架：采用DDQN算法，DDQN算法如图3所示，包括Q网络、Q_Target网络，Q网络输出的是在当前状态预测动作，Q_Target网络输出的是Q网络做出的决策的评价。

Q网络的输入是状态state，输出的是AGV采用的动作action；Q_Target网络输入的是状态动作(state,action)，输出的是价值Q(s,a)，其中s代表状态，a代表在状态s下采取的动作，Q(s,a)代表当前状态s下采用动作a的价值。

S6.3：训练网络，使得AGV在环境交互中学习策略；

所述的步骤S6.3如图3所示，具体实现步骤如下：

S6.3.2：从AGV车载单线激光雷达接收的数据和局部目标点与AGV的相对坐标中获取当前状态s，把步骤五中获得的u(k)作为动作a，AGV执行动作a，在执行完动作a后，AGV的状态发生改变得到下一个状态s'，以及计算奖励函数得到的此次策略的奖励r，组合成一个四元组(s,a,s',r)，将四元组放入样本池中，用于后续的网络训练。

S6.3.3：Q网络训练过程：从样本池中随机抽取m(m＝32)个样本进行训练，从样本(s,a,s',r)提取(s,a)状态动作组输入到Q网络得到对应的动作价值Q(s,a)，将样本中的s'输入到Q网络中，得到各种不同动作的Q值，选择最大的Q值对应动作a'，接着将s'输入到Q_Target网络中，找到动作a'对应的价值Q_target(s',a')，以Q_target(s',a')作为网络的预测值，由此得到目标Q'(s,a):

Q'(s,a)＝r+γ*Q_target(s',a') (6.6)

其中r是样本提取的奖励值，γ为权重系数(γ＝0.05)；

因此可以得到均方差损失函数：

最后通过神经网络梯度反向传播来更新Q网络的参数：

w'＝τ*w+(1-τ)*w' (6.8)

其中τ(τ＝0.95)为比例系数，w为Q网络参数；

完成一次Q网络的训练，然后利用Q网络更新到Q_Target网络参数；

所述的步骤七：AGV执行步骤五中得到的控制信号u(k)，朝局部规划点运动，同时判断是否达到目标点，未达到则回到步骤三继续训练，否则进一步判断是否达到训练完成标准，达到标准则结束训练，否则进入新一轮的全局目标给定与训练；具体实现步骤如下：

S7.1：制定网络训练完成标准，在训练过程中，将MPC计算获得的最近20次控制信号u(k)匹配到动作空间得到相应的动作集合，对比Q网络由激光雷达信号计算得到的最近20次动作a信号的集合，当两个集合的偏差不超过百分之五并且强化学习的训练过程平均奖励曲线趋于平稳，则认定为达到训练完成标准。

S7.1：AGV执行步骤五中得到的控制信号u(k)，朝局部规划点运动，同时判断是否达到目标点，未达到则回到步骤三继续训练，否则进一步判断是否达到训练完成标准，达到标准则结束训练，否则进入新一轮的全局目标给定与训练。

步骤八：网络训练完成后，单独使用深度强化学习完成AGV的路径规划；具体实现步骤如下：

强化学习模块训练完成后，如图2所示，使用训练完成的网络实现AGV路径规划，车载激光雷达探测感知周围环境，强化学习模块接收激光雷达信号作为当前状态，训练完成的网络对接收的激光雷达信号做出决策产生AGV所要执行的动作，同时判断是否达到目标点，达到则结束导航功能，否则进行新一轮的路径规划控制。

最后，本发明实例中所列参数取值只作参考，对于参数的改动依旧在专利保护范围内。

以上结合附图对本发明的实施方式作了详细说明，但本发明不限于所描述的实施方式。对于本领域的技术人员而言，在不脱离本发明原理和精神的情况下，对这些实施方式进行多种变化、修改、替换和变型，仍落入本发明的保护范围内。

Claims

1.基于模型预测控制指导深度强化学习的AGV路径规划方法，其特征在于：包括以下步骤：

步骤一：根据搭载单线激光雷达的阿克曼底盘结构AGV的车辆结构建立运动学模型，将运动学模型转化为状态空间方程；

2.根据权利要求1所述的基于模型预测控制指导深度强化学习的AGV路径规划方法，其特征在于：所述步骤一具体包括：

其中

是车辆与x轴正方向夹角也称为航向角，

S1.2：将式作为一个输入是u(v,δ)，状态量是

的控制系统，其形式是：

将式在参考点(χ_r,u_r)进行泰勒级数展开并忽略高阶项得到：

其中

是k+1时刻小车状态量偏差，

是k时刻小车状态量偏差，

是k时刻控制量偏差，v_r是车速参考值，

定义状态输出方程：

其中y(k)是k时刻的系统输出量，C_out是设计的输出矩阵。

3.根据权利要求1所述的基于模型预测控制指导深度强化学习的AGV路径规划方法，其特征在于：所述步骤五具体步骤包括：

S5.1：根据需要构建新的状态向量：

将步骤一中得到的离散状态空间方程式和式修改，得到新的状态空间表达式：

是

与

的差值；

得到新的输出方程为：

其中C'是得到新的输入矩阵；

根据式(5.3)对输出方程进行多步推导：

Y＝ψξ(k)+ΘΔU (5.5)

其中：

S5.3：设计避障惩罚函数，通过障碍物点与目标点的距离偏差来调节函数值的大小，且距离越近，函数值越大，选择如下形式的避障功能函数：

其中，S_obs为权重系数，v_i是小车的实时行驶速度的平方v_i＝v_x ²+v_y ²，用于避障过程减速的作用，(x_i,y_i)是障碍物点在车身坐标系下的位置坐标，(x₀,y₀)是车辆质心坐标，ζ为较小的正数，

S5.4：将性能评价函数定义为：

其中J_obs,i为采样时刻i的避障函数，Np为预测步长，Nc为控制步长；

η_p(k+i|k)为控制输出预测量；η_r(k+i|k)为控制输出参考量；(k+i|k)表示根据k采样时刻的信息来预测k+i时刻；u(k+i)和Δu(k+i)分别是k+i时刻控制输入和控制输入增量；Q和R分别是系统输出量、控制增量和控制量权重系统矩阵；u_min和u_max分别是控制总量的最小约束和最大约束；Δu_min和Δu_max分别是控制增量的最小约束和最大约束；

4.根据权利要求1所述的基于模型预测控制指导深度强化学习的AGV路径规划方法，其特征在于：所述步骤六具体包括：

S6.1：在深度强化学习模块训练前，设计系统状态、动作、奖励函数和网络结构，利用深度强化学习DDQN算法实现强化学习训练并规划导航；

S6.2：搭建深度强化学习的算法框架：采用DDQN算法，包括Q网络、Q_Target网络，Q网络输出的是在当前状态预测动作，Q_Target网络输出的是Q网络做出的决策的评价；

S6.3：训练网络，使得AGV在环境交互中学习策略。

5.根据权利要求4所述的基于模型预测控制指导深度强化学习的AGV路径规划方法，其特征在于：所述S6.1具体包括：

S6.1.1：设计系统状态空间，设计了输入为200个数据集，将激光雷达点阵信号与全局目标坐标作为输入信号；

S6.1.2：设计动作空间，阿克曼结构小车的控制信号是连续的控制信号π_RL＝[v,δ]，其中v为小车前进速度，δ为小车前轮偏角，将步骤五计算得到的小车的控制动作u(k)离散化，

已知AGV的控制周期T，设线速度量化间隔是Δv，可以得出原始的连续信号与离散后的信号的最大偏差为Δv/2，离散前后单步控制的距离最大误差是T×Δv/2，，单步控制的最大纵向距离误差T×Δv/2要小于代价地图的膨胀半径dr，所以Δv＜2dr/T；

设前轮偏角量化间隔是Δδ，可以得出原始的连续信号与离散后的信号的最大偏差为Δδ/2，那么前轮偏角离散前后单步控制的最大距离误差是2v_max·T/sin(Δδ/4)，单步控制的最大横向距离误差2v_max·T/sin(Δδ/4)要小于代价地图的膨胀半径dr，得到Δδ＜4arcsin(dr/2v_max·T)；

在满足上述要求的前提下，设定速度与前轮偏角的量化间隔Δv、Δδ，步骤五设定的AGV线速度约束为v_min～v_max，以量化间隔Δv对线速度约束进行均匀量化，考虑小车的前轮偏角约束δ_min～δ_max，以量化间隔Δδ对前轮偏角约束进行均匀量化，由此组成动作空间，在该动作空间下进行训练，根据训练过程中AGV获得的平均奖励多次调整量化间隔Δv、Δδ，达到量化间隔的黄金区域，得到了最佳的量化间隔Δvb、Δδb；

S6.1.3：设计奖励函数，奖励函数的功能是用于奖励小车到达给定目标或对碰撞障碍物进行惩罚，设计如下：

R(s,a)＝R₁+R₂+R₃+R₄ (6.1)

R₁＝k_R(dg_t-1-dg_t) (6.2)

R₃＝-c_R·time (6.4)

6.根据权利要求1所述的基于模型预测控制指导深度强化学习的AGV路径规划方法，其特征在于：所述S6.3具体包括：

S6.3.3：Q网络训练过程：从样本池中随机抽取m个样本进行训练，从样本(s,a,s',r)提取(s,a)状态动作组输入到Q网络得到对应的动作价值Q(s,a)，将样本中的s'输入到Q网络中，得到各种不同动作的Q值，选择最大的Q值对应动作a'，接着将s'输入到Q_Target网络中，找到动作a'对应的价值Q_target(s',a')，以Q_target(s',a')作为网络的预测值，由此得到目标Q'(s,a)：

Q'(s,a)＝r+γ*Q_target(s',a') (6.6)

其中r是样本提取的奖励值，γ为权重系数；

可得到均方差损失函数：

通过神经网络梯度反向传播来更新Q网络的参数：

w'＝τ*w+(1-τ)*w' (6.8)

其中τ为比例系数，w为Q网络参数；

7.根据权利要求1所述的基于模型预测控制指导深度强化学习的AGV路径规划方法，其特征在于：所述步骤七具体包括：

8.根据权利要求1所述的基于模型预测控制指导深度强化学习的AGV路径规划方法，其特征在于：所述步骤八具体包括：强化学习模块训练完成后，使用训练完成的网络实现AGV路径规划，车载激光雷达探测感知周围环境，强化学习模块接收激光雷达信号作为当前状态，训练完成的网络对接收的激光雷达信号做出决策产生AGV所要执行的动作，同时判断是否达到目标点，达到则结束导航功能，否则进行新一轮的路径规划控制。