CN111752274A

CN111752274A - 一种基于强化学习的激光agv的路径跟踪控制方法

Info

Publication number: CN111752274A
Application number: CN202010554244.XA
Authority: CN
Inventors: 任彧; 杜恩民
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Ascendchip Technology Co ltd
Priority date: 2020-06-17
Filing date: 2020-06-17
Publication date: 2020-10-09
Anticipated expiration: 2040-06-17
Also published as: CN111752274B

Abstract

本发明涉及了一种基于强化学习的激光AGV的路径跟踪控制方法，将激光AGV建模为马尔科夫决策过程，然后使用Actor‑Critic框架作为控制算法的架构，并利用近端优化策略来作为控制算法Actor的策略梯度，最后使用有限步优势估计减小神经网络逼近偏差，并利用高斯策略输出作为控制算法Actor的动作输出。本发明面对参数变化不大的激光AGV时能够直接使用先前网络参数进行路径跟踪，当面对参数变化范围较大的激光AGV时只需要让其自动化的重新训练就能够实现精确的路径跟踪。在训练的过程中，不需要人工过多的干预，并且不需要对激光AGV进行精确建模，实现了完全的自动化操作。

Description

一种基于强化学习的激光AGV的路径跟踪控制方法

技术领域

本发明涉及控制邻域，具体涉及强化学习的激光AGV的路径跟踪控制方法。

背景技术

实际应用中有诸多因素会影响到AGV的性能，路径跟踪技术作为核心技术直接影响着AGV性能的好坏，也决定了AGV能否准确、稳定的在两个位置之间执行货物装卸。由于AGV是一个复杂的欠驱动系统，其具有高度非线性和复杂的动力学特征，并且相同车型的AGV具有不同的参数，另外恶劣的室外环境中有许多不确定因素使得路径跟踪成为一个具有挑战性的问题。

激光AGV的路径跟踪是指将激光导航定位获取的坐标数据转化为与固定路线的偏差信息，根据偏差信息进行控制以不断逼近目标路径，实现对期望行驶路径的跟踪。目前控制算法可划分为免模型和有模型算法。现有的免模型控制算法大多实现的方式是根据获得的反馈输出控制量来不断的修正误差，然后由专业人员结合具体的控制效果使用经验试凑法整定参数，从而实现路径跟踪，但这需要大量的人工试验工作，而且如果存在外部干扰，控制算法的效果不稳定，又要重新调整参数。有模型控制算法不需要大量的参数调节工作，但是该算法相当复杂，而且对系统的参数以及被控对象的运动学模型具有很高的要求，但是在实际应用中激光AGV普遍会受到不确定和外部扰动的影响，很难确定动力学模型，所以这类方法在性能上都会有所下降。

针对大量的人工试验工作以及对具体的运动学模型难以精确建模的问题，因此需要找到一种合适的控制方法能够避免人工过多干预，并且能够自动的适应不同参数的激光AGV实现精确的路径跟踪。

发明内容

本发明为了克服现有控制算法的缺陷，提供了一种基于强化学习的激光AGV路径跟踪控制方法。该方法将激光AGV的路径跟踪系统描述为一个智能体，在每次智能体和控制算法模型探索性的交互过程中，智能体通过控制算法模型的反馈信息、系统的试验以及各种各样的算法导引，自主的学习到一个最优策略。由于激光AGV的路径跟踪系统和控制算法是相互独立的，而且强化学习算法的参数一般都较为固定，因此可以避免外界干扰，如激光AGV载货时车身重量和重心的变化、同款AGV车型的车子参数可能不同以及激光设备放置位置有偏差等，造成的大量人工调节参数的工作，并且控制算法具备的自我学习能力还能够适应不同车型的激光AGV，从而也无需对激光AGV的路径跟踪任务进行精确建模。

发明采用以下技术方案予以实现，包括以下步骤：

步骤一、将激光AGV路径跟踪系统建模为马尔可夫模型，也就是MDP；

在单驱的激光AGV的情况下，不同参数以及不同车型的激光AGV路径跟踪问题均被描述为MDP，因此对激光AGV路径跟踪系统MDP建模只需要一次就行，后期无需再次建模。MDP的建模最主要就是三元素(s_t,a_t,R_t)，其中s_t为状态空间，需要满足当前状态能够有效的总结过去的状态并且包含影响未来状态的所有因素，并且要避免部分可观察MDP；a_t为动作空间，考虑到速度的控制较为简单，所以a_t要关注的重点在转向力矩的控制上；R_t为奖励函数，需要保证输出转向力矩稳定的同时使距离误差e_d和角度误差e_θ趋向于零，即不同阶段优化不同目标。

步骤二、使用Actor-Critic框架作为控制算法架构，控制算法通过与MDP不断的交互训练得到能够实现精确路径跟踪的控制器；

Actor-Critic框架由演员Actor和评论家Critic两部分组成，Actor用于输出当前状态下激光AGV应该采取的行动，Critic用于评估Actor输出动作的好坏程度，评估的方式通过将Critic使用MDP的三元素估计的时域差分误差传递给Actor，Actor使用该误差经过分析计算更新自我参数来不断的学习如何更好的实现激光AGV的路径跟踪。MDP将激光AGV通过自身得到的传感器返回信息以及跟踪误差信息转化为步骤1中的s_t和R_t，Actor将s_t作为输入并输出下一个时刻的动作a_t，与此同时将s_t、a_t与R_t作为Critic的输入得到相应的时域差分误差用于更新Critic和Actor，激光AGV按照得到的动作a_t做出相应的行为，并又一次产生传感器返回信息和跟踪误差。控制算法通过上述方式不断的与MDP交互，与此同时MDP不断的从激光AGV路径跟踪误差系统中获得相关信息，来自我学习，随着训练迭代的次数增加最终将控制算法训练为实现精确路径跟踪的控制器。对于控制算法训练时的激光AGV与真实控制的激光AGV参数和车型不同的情况下，控制算法只需要自动训练不需要人工过多的干涉就能够得到实现精确路径跟踪的控制器。

步骤三、使用训练得到的控制器实现激光AGV的精确路径跟踪。

对于所述步骤三中，将训练好的控制器直接用于路径跟踪，有两种方式来使用控制器：1.控制器只用于实现激光AGV的路径跟踪，不再次进行训练。MDP将从激光AGV路径跟踪系统中得到的传感器和跟踪误差信息转化为步骤1中的s_t，Actor将s_t作为输入并输出激光AGV下一个时刻要采取动作a_t，MDP将a_t传递给激光AGV做出相应行为实现精确的路径跟踪，该种方法适合控制器在训练时路径与真实路径一样的情况下；2.控制器在实现激光AGV的路径跟踪同时进一步训练。在使用控制器进行路径跟踪的同时使用步骤2的方式再次训练控制器，该种方法控制器在训练时的路径与真实的路径不一样的情况下，通过边控制边学习就能够快速对不同路径实现精确的跟踪。

附图说明

图1为本发明方法Actor和Critic的网络结构图。

具体实施方式

本发明为实现上述方法的功能将采用如下的实现过程。

步骤一、对激光AGV路径跟踪系统进行马尔科夫决策过程建模，该过程只需要建立一次就可。对于状态空间的表示一般可以使用传感器传回的参数和误差信息，t时刻传感器传回参数和误差信息可以被描述为

其中

为距离误差，

为角度误差，θ_t为激光AGV车身角度，

为激光AGV主动轮转速，α_t为激光AGV车子主动轮转角，

为激光AGV主动轮转动速率。为了使路径跟踪状态空间满足马尔科夫特性，首先需要将车身角度θ对2π取余得到值θ′加入到状态函数，再者需要引入N步历史状态来避免状态空间变为部分可观察的马尔科夫决策过程，引入N步历史状态后t时刻各项构成变为：距离误差向量

角度误差向量

车身角度向量θ_t＝[θ′_t,θ′_t-1,…,θ′_t-n-1]、主动轮转速向量

主动轮转角向量α_t＝[α_t,α_t-1,…,α_t-n-1]、主动轮转向速度向量

因此最终的状态空间被描述为如下公式：

对于动作空间的表示，考虑到速度的控制较为简单，因此要关注的重点在转向力矩的控制上。将转向力矩限制在0.5N·M范围以保护电机，此时动作空间可以被描述为如下公式：

a_t＝[τ₁|-MO＜τ₁＜MO] (2)；

其中τ₁为转向力矩，MO为力矩约束值，MO＝0.5N·M。

对于奖励函数的表示，考虑到需要保证输出转向力矩稳定的同时使角度误差和距离误差较小，因此奖励函数可被描述为如下公式：

其中，E_d为距离误差的上限值，E_θ为角度误差的上限值，MO为最大输出力矩，ρ_i(i＝1,2,3)为权重参数，本案例设置ρ₁＝0.949，ρ₂＝0.05，ρ₃＝0.001。由于该奖励函数始终小于等于零，当距离误差和角度误差越大时奖励函数越小，此时控制算法就能从奖励函数中得知激光AGV已经偏离轨道，需要鞭策调整自我的参数来快速脱离当前状态，最后使控制算法收敛于一个最优策略。

步骤二、控制算法在应用前到训练的激光AGV与实际控制的激光AGV不同时，需要进行一段时间的自我训练，并在算法收敛后结束该阶段，值得注意的是训练的过程无需人工干预，最终将控制算法训练为可用于精确路径跟踪的控制器。如图1所示，具体的控制算法训练过程如下，其中Actor策略梯度使用近端策略优化PPO，在控制算法结构上创建一个Critic网络，两个Actor网络，新策略Actor与旧策略Old Actor：

1.设置激光AGV路径跟踪环境env，其中env也就是MDP；

2.初始化env，得到初始状态s_t；

3.Actor将公式1的状态s_t作为输入并输出满足公式(2)的动作a_t；

4.env在s_t下执行a_t，根据公式(1)和(3)得到下一个状态s_t+1与奖励值R_t；

5.将env与Actor交互得到的过渡元组(s_t,a_t,R_t,s_t+1)存储到变量ms中；

6.当ms的存储数量到达T时，进入下一个训练步骤7，反之进入训练步骤3；

7.使用Critic获得每个状态的估计值函数

通过有限步优势估计得到时域差分误差

根据时域差分误差属于优势函数的无偏估计得到优势函数估计值为

并将

存储到变量td中；

8.将新策略Actor的网络参数同步到旧策略Old Actor中，新旧策略使用存储变量ms计算采样权重r(ω)，得到Actor的更新公式为：

其中ε为裁剪率，本案例设置为0.2，α_ω为Actor学习率，本案例设置为10E-5。Actor采用裁剪和未裁剪采样权重的最小值来有效的调整策略更新的大小，考虑到采集的样本为有限数量样本，当优势函数值为正值时，对应的动作有一定可能只是暂时使激光AGV靠近轨道，但是如果持续提升该动作的概率会造成激光AGV远离轨道的现象，因此设置一个上限避免这种暂时动作的概率过度提升，同理可得，当优势函数为负数时，设置一个下限避免暂时使激光AGV远离轨道的动作的概率过度下降。Critic通过存储变量ms计算时域差分误差更新参数，公式如下：

其中

为Critic学习率，本案例设置为2×10E-4。Critic与Actor通过重要采样不断更新自身参数，达到收敛就为所求控制器。

9.若跟踪误差很小，也就是平均距离误差小于5mm，平均角度误差小于1°，就认为可以实现激光AGV的精确路径跟踪。

步骤三、经过步骤二将控制算法训练到收敛之后得到控制器，通过两种方式来使用控制器，具体使用如下：

1.对于训练与实际同一个路径的情况下，将激光AGV获得的传感器参数和路径跟踪误差信息转化为公式1的状态空间s_t，Actor根据s_t输出动作a_t，激光AGV采取a_t实现精确的路径跟踪。值得注意的是，此方式控制器的Actor参数不参与训练，只是单纯的使用Actor来输出动作。

2.对于训练与实际不同路径的情况下，在使用Actor输出动作的同时，与步骤2相同的方式训练Actor与Critic，通过少量步骤的迭代得到能够实现激光AGV精确的路径跟踪控制器。值得注意的是，此方式在使用Actor输出动作的同时还让Actor参与训练，以此来获得更好的动作输出。

Claims

1.一种基于强化学习的激光AGV的路径跟踪控制方法，其特征在于，包括以下步骤：

在单驱的激光AGV的情况下，不同参数以及不同车型的激光AGV路径跟踪问题均被描述为MDP，因此对激光AGV路径跟踪系统MDP建模只需要一次就行，后期无需再次建模；MDP的建模最主要就是三元素(s_t,a_t,R_t)，其中s_t为状态空间，需要满足当前状态能够有效的总结过去的状态并且包含影响未来状态的所有因素，并且要避免部分可观察MDP；a_t为动作空间，考虑到速度的控制较为简单，所以a_t要关注的重点在转向力矩的控制上；R_t为奖励函数，需要保证输出转向力矩稳定的同时使距离误差e_d和角度误差e_θ趋向于零，即不同阶段优化不同目标；

Actor-Critic框架由演员Actor和评论家Critic两部分组成，Actor用于输出当前状态下激光AGV应该采取的行动，Critic用于评估Actor输出动作的好坏程度，评估的方式通过将Critic使用MDP的三元素估计的时域差分误差传递给Actor，Actor使用该误差经过分析计算更新自我参数来不断的学习如何更好的实现激光AGV的路径跟踪；MDP将激光AGV通过自身得到的传感器返回信息以及跟踪误差信息转化为步骤1中的s_t和R_t，Actor将s_t作为输入并输出下一个时刻的动作a_t，与此同时将s_t、a_t与R_t作为Critic的输入得到相应的时域差分误差用于更新Critic和Actor，激光AGV按照得到的动作a_t做出相应的行为，并又一次产生传感器返回信息和跟踪误差；控制算法通过上述方式不断的与MDP交互，与此同时MDP不断的从激光AGV路径跟踪误差系统中获得相关信息，来自我学习，随着训练迭代的次数增加最终将控制算法训练为实现精确路径跟踪的控制器；对于控制算法训练时的激光AGV与真实控制的激光AGV参数和车型不同的情况下，控制算法只需要自动训练不需要人工过多的干涉就能够得到实现精确路径跟踪的控制器；

2.如权利要求1所述的一种基于强化学习的激光AGV的路径跟踪控制方法，其特征在于：所述步骤三中将训练好的控制器直接用于路径跟踪，有两种方式来使用控制器：1.控制器只用于实现激光AGV的路径跟踪，不再次进行训练；MDP将从激光AGV路径跟踪系统中得到的传感器和跟踪误差信息转化为步骤1中的s_t，Actor将s_t作为输入并输出激光AGV下一个时刻要采取动作a_t，MDP将a_t传递给激光AGV做出相应行为实现精确的路径跟踪，该种方法适合控制器在训练时路径与真实路径一样的情况下；2.控制器在实现激光AGV的路径跟踪同时进一步训练；在使用控制器进行路径跟踪的同时使用步骤2的方式再次训练控制器，该种方法控制器在训练时的路径与真实的路径不一样的情况下，通过边控制边学习就能够快速对不同路径实现精确的跟踪。