CN112965487B

CN112965487B - 基于策略迭代的移动机器人轨迹跟踪控制方法

Info

Publication number: CN112965487B
Application number: CN202110161247.1A
Authority: CN
Inventors: 朱俊威; 张恒; 董子源; 吴珺; 张文安
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2021-02-05
Filing date: 2021-02-05
Publication date: 2022-06-17
Anticipated expiration: 2041-02-05
Also published as: CN112965487A

Abstract

一种基于策略迭代的移动机器人轨迹跟踪控制方法，对于已知的移动机器人系统，先搭建两个神经网路。分别为actor神经网络，和critic神经网络，其中actor神经网络用于系统控制策略的评估与改进，critic神经网络主要用来计算当前控制策略下的价值函数，用此价值函数评估当前策略。包括以下步骤：1)建立移动机器人的运动学模型；2)设计Actor神经网络；3)设计Critic神经网络；4)设计Actor/Critic结构的在线算法。本发明基于数据驱动的控制算法，利用价值函数对其策略函数进行评估，保证学习的过程同时兼顾价值函数和策略函数，可以较好实现对移动机器人的轨迹跟踪。

Description

基于策略迭代的移动机器人轨迹跟踪控制方法

技术领域

本发明属于强化学习领域，具体提供了一种基于策略迭代的移动机器人轨迹跟踪控制方法，是一种智能控制方法。

背景技术

在现代科技飞速发展的今天，移动机器人以其小巧灵活，操作简单，灵活多样等特点，始终处于科技的前沿，一直引领着高新技术的方向。随着人工智能和计算机大数据时代的到来，人类总是期望移动机器人能够具有更加强大的自主化能力，以代替我们在更多的邻域完成更加复杂危险的操作任务，为实现这一目标，其核心技术就是需要移动机器人具有优良的运动规划能力，使机器人在无人干扰的条件下也可以在未知的环境中有目的，准确高效的工作。

目前，被广泛应用的运动规划算法主要是基于模型的A*算法、D*算法等。但基于模型的算法缺点是系统建模比较困难、当模型不精确时，可能起反作用。

发明内容

基于上述问题，本发明提供了一种基于策略迭代的移动机器人轨迹跟踪控制方法，具体地说，先搭建一个Actor神经网络，通过策略迭代实现控制策略的更新；接着设计一个Critic神经网络，通过策略迭代得到当前控制策略下的最优价值函数，用所得到的最优价值函数评估当前控制策略，依次进行多次循环最后得到最优控制策略，实验结果验证了该方法的有效性。

本发明为解决上述技术问题提供了如下技术方案：

一种基于策略迭代的移动机器人轨迹跟踪控制方法，包括以下步骤：

步骤1)建立移动机器人的运动学模型

令

u＝[1 v_a w_a]^T其中(x₁，x₂)，x₃分别为机器人姿态与虚拟参考信号之间的位置误差和方向误差，v_a，w_a分别表示机器人的线速度和角速度，v_r、w_r分别为参考位置的线速度和角速度；

步骤2)，设计Actor神经网络，过程如下：

2.1)考虑输入动力系统中的非线性时不变仿射，如式(2)所示：

设系统动力学f(x),g(x)已知，对于任何容许的输入u，定义其代价函数，如式(3)所示：

那么公式(3)的无穷小版本就是所谓的非线性Lyapunov方程,如式(4)所示：

式中，▽V_X ^U表示值函数V^u相对于x的偏导数。公式(4)是一个非线性系统的Lyapunov方程，在给定控制器u(x)∈Ψ(Ω)的情况下，可以求解与其相关的值函数V^u(x)；设定u(x)是允许的控制策略，如果V^u(x)满足(4)，则V^u(x)是具有控制策略u(x)的系统(2)的Lyapunov函数；

最优控制问题表述为：给定连续时间系统(2)，利用控制策略和代价泛函(3)，找到一个可容许的控制策略，使得与系统(2)相关的代价指数(3)最小，则最优成本函数V*(x)定义为

假设(5)右边的最小值存在且唯一，则给定问题的最优控制函数为

2.2)策略评估

对于已求出的uⁱ(x),通过公式(7)求出当前策略下的价值函数V^u(i)x(t)，用V^u(i)x(t)对当前的策略进行评估；

2.3)策略改进

使用公式(8)对策略进行改进

但为了保证策略迭代算法的收敛性，需要给系统一个初始容许策略u(0)∈Ψ(Ω)；

步骤3)设计Critic神经网络，过程如下：

3.1)价值函数的神经网络逼近

为了求解公式(7)，使用神经网络类型的结构来获得任何x∈Ω的价值函数的近似值，由于普遍逼近性质，神经网络是在紧集上逼近光滑函数的自然候选，因此，对于x∈Ω，成本函数V^u(i)(x)由公式(9)表示：

公式(9)看作是一个隐藏层上有L个神经元的神经网络，激活函数φ_j(x)∈C¹(Ω)，φ_j(0)＝0,

是激活函数的向量，

表示输出层的权重，其值求解如式(10)所示，其中

是权重向量。输出层神经元具有线性激活函数。隐藏层的权值都等于1，在训练过程中不会改变；

步骤4)Actor/Critic结构的在线算法，过程如下：

先初始化控制策略u(0),然后在感兴趣区域沿状态轨迹收集足够数量的数据点后，实时获得由(10)给出的权值W；当在两个连续步骤中评估的系统性能之间的误差小于指定的阈值时，迭代将停止；当这个误差大于上述阈值时，表明系统动力学发生了变化，Critic将再次决定开始调整Actor参数。

本发明的有益效果为：基于数据驱动的控制算法，该算法利用价值函数对其策略函数进行评估，保证学习的过程同时兼顾价值函数和策略函数，可以较好实现对移动机器人的轨迹跟踪。实验结果验证了该方法的有效性。

附图说明

图1是移动机器人流程图。

图2是移动机器人权值变化图。

图3是移动机器人价值函数对比图。

图4是移动机器人轨迹跟踪控制效果图。

具体实施方式

以下结合附图详细说明和陈述了本发明的实施方式，但并不局限于上述方式。在本领域的技术人员所具备的知识范围内，只要以本发明的构思为基础，还可以做出多种变化和改进。

参照图1～图4，一种基于策略迭代的移动机器人轨迹跟踪控制方法，有别于基于价值的方法，基于策略的强化学习方法直接尝试优化策略函数实现跟踪。对于已知的移动机器人系统，先搭建两个神经网路。分别为actor神经网络，和critic神经网络，其中actor神经网络用于系统控制策略的评估与改进，critic神经网络主要用来计算当前控制策略下的价值函数，用此价值函数评估当前策略。包括以下步骤：

1)建立移动机器人的运动学模型；

2)设计Actor神经网络；

3)设计Critic神经网络；

4)Actor/Critic结构的在线算法。

进一步，所述步骤1)，实验室移动机器人的硬件平台采用了turtlebot2机器人。由两个前轮引导器人的运动。通过Holzer编码器来计算机器人的前进速度。此外，利用数码相机对移动机器人进行定位，将位置信息发送给上位机进行图像处理，同时生成控制命令并通过无线通信传回移动机器人。

由(1)已知移动机器人系统模型

初始化w_a＝0.7,w_r＝1.7,v_a＝0.2,v_r＝0.1；

因此得到

其中

进一步，所述步骤2)考虑由方程给出的非线性系统

对于已求出的uⁱ(x),通过公式(7)可以求出当前策略下的价值函数V^u(i)x(t)，用V^u(i)x(t)对当前的策略进行评估。

系统最优控制函数为

进一步，所述步骤3)为了求解公式(7)，使用神经网络类型的结构来获得任何x∈Ω的近似值。由于普遍逼近性质，神经网络是在紧集上逼近光滑函数的自然候选。因此，对于x∈Ω，成本函数V^u(i)(x)由公式(10)表示：

其中L＝3，激活函数

是权重向量。

通过式(10)求出

因此得到最优价值函数

进一步，所述步骤4)先初始化控制策略u(0)＝[1 0.4 0.4]^T,然后在感兴趣区域沿状态轨迹收集足够数量的数据点后，可以实时获得由(10)给出的权值w。给定阈值0.00001，当在两个连续步骤中评估的系统性能之间的误差小于指定的阈值时，迭代将停止。此外，当这个误差大于上述阈值时，表明系统动力学发生了变化，Critic将再次调整Actor参数。

实验中采用了turtlebot2机器人。机器人的运动由两个前轮引导。还建立了Holzer编码器来计算机器人的前进速度。此外，机器人上方还安装了一台负责定位的数码相机OV7620。数码相机的分辨率为320*240，每秒最多可生成30幅图像。利用数码相机对移动机器人进行定位，将位置信息发送给上位机进行图像处理，同时生成控制命令并通过无线通信传回移动机器人。车载传感器的测量信息通过HC-5蓝牙模块发送到上位机。上位机作为监控系统的数据处理中心，通过串口通信将控制命令发送到移动机器人的驱动端。采样周期为T＝0.1s。

从实验结果可以看出，如图三所示，相比较于给定一个固定策略而言，在相同时间内基于策略迭代的设计方法价值函数值更小，控制效果更好。从图四可知，基于策略迭代的移动机器人轨迹跟踪控制器的设计方法对其运动轨迹有着良好控制效果。

本说明书的实施例所述的内容仅仅是对发明构思的实现形式的列举，仅作说明用途。本发明的保护范围不应当被视为仅限于本实施例所述的具体形式，本发明的保护范围也及于本领域的普通技术人员根据本发明构思所能想到的等同技术手段。

Claims

1.一种基于策略迭代的移动机器人轨迹跟踪控制方法，其特征在于，所述方法包括以下步骤：

步骤1)建立移动机器人的运动学模型

令

u＝[1 v_a w_a]^T

其中(x₁，x₂)，x₃分别为机器人姿态与虚拟参考信号之间的位置误差和方向误差，v_a，w_a分别表示机器人的线速度和角速度，v_r、w_r分别为参考位置的线速度和角速度；

步骤2)，设计Actor神经网络，过程如下；

2.1)考虑输入动力系统中的非线性时不变仿射，如式(2)所示：

那么公式(3)的无穷小版本为非线性Lyapunov函数，如式(4)所示：

式中，

表示值函数V^u相对于x的偏导数，公式(4)是一个非线性系统的Lyapunov函数，在给定控制器u(x)∈Ψ(Ω)的情况下，求解与其相关的代价函数V^u(x)；设定u(x)是允许的控制策略，如果V^u(x)满足公式(4)，则V^u(x)是具有控制策略u(x)的连续时间系统(2)的Lyapunov函数；

最优控制问题表述为：给定连续时间系统(2)，利用控制策略和代价函数(3)，找到一个可容许的控制策略，使得与连续时间系统(2)相关的代价函数(3)最小，则最优成本函数V*(x)定义为

假设公式(5)右边的最小值存在且唯一，则给定问题的最优控制函数为

2.2)策略评估

对于已求出的uⁱ(x)，通过公式(7)求出当前策略下的代价函数V^u(i)x(t)，用V^u(i)x(t)对当前的策略进行评估；

2.3)策略改进

使用公式(8)对策略进行改进

步骤3)设计Critic神经网络，过程如下：

3.1)代价函数的神经网络逼近

为了求解公式(7)，使用神经网络类型的结构来获得任何x∈Ω的代价函数的近似值，由于普遍逼近性质，神经网络是在紧集上逼近光滑函数的自然候选，因此，对于x∈Ω，代价函数V^u(i)(x)由公式(9)表示：

是激活函数的向量，

表示输出层的权重，其值求解如式(10)所示，其中

是权重向量，输出层神经元具有线性激活函数，隐藏层的权值都等于1，在训练过程中不会改变；

步骤4)Actor/Critic结构的在线算法。

2.如权利要求1所述的一种基于策略迭代的移动机器人轨迹跟踪控制方法，其特征在于，所述步骤4)的过程如下：先初始化控制策略u(0)，然后在感兴趣区域沿状态轨迹收集足够数量的数据点后，实时获得由公式(10)给出的权值W；当在两个连续步骤中评估的系统性能之间的误差小于指定的阈值时，迭代将停止；当这个误差大于上述阈值时，表明系统动力学发生了变化，Critic将再次决定开始调整Actor参数。