CN112051734A

CN112051734A - 一种基于确定学习的轮式移动机器人事件触发跟踪控制方法

Info

Publication number: CN112051734A
Application number: CN202010830331.3A
Authority: CN
Inventors: 占宏; 胡锐; 黄龙旺
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2020-08-18
Filing date: 2020-08-18
Publication date: 2020-12-08
Anticipated expiration: 2040-08-18
Also published as: CN112051734B

Abstract

本发明公开了一种基于确定学习的轮式移动机器人事件触发跟踪控制方法，具体包括以下步骤：建立轮式移动机器人的动力学模型和期望的周期轨迹；设计自适应神经网络控制器，并利用确定学习理论获取经验知识；设计作用于传感器与控制器之间网络通道的事件触发机制；建立基于经验知识和事件触发的常值神经网络控制器。本发明设计的方法不仅将传统的轮式移动机器人时间触发控制方式推广到了事件触发控制方式，降低了远程控制中网络带宽的占用，而且利用确定学习理论设计了常值神经网络控制器，在减少网络带宽的同时保证了好的暂态跟踪性能。

Description

一种基于确定学习的轮式移动机器人事件触发跟踪控制方法

技术领域

本发明涉及轮式移动机器人的智能跟踪控制的技术领域，具体涉及一种基于确定学习的轮式移动机器人事件触发跟踪控制方法。

背景技术

轮式移动机器人是结合了信息论、控制论、人工智能等多个不同领域的产物，其在工业生产、土木建筑、医疗卫生、教育科研等诸多场景中得到广泛地应用。注意到轮式移动机器人系统由于阻尼和摩擦力等因素导致系统存在建模不确定性。为了克服建模不确定性带来的控制精度下降问题，通常采用神经网络进行对轮式移动机器人系统未知动态进行辨识。但是传统的自适应神经网络控制对机器人执行相同或相似控制任务都需要在线调整权值来重新辨识未知动态，使得控制方案耗时长，不易实施。基于确定学习设计出的控制器能够利用学习到的经验知识来完成控制任务，避免了神经网络重复训练的问题。然而，现有的确定学习控制方案均采用了时间触发方式。由于其通过固定时间周期地对信号进行采样传输，势必会造成不必要的信号传输，从而造成网络通道不必要的资源占用。因此，设计一个适当的触发机制，使得控制系统既能保持良好的控制性能也能减少网络通道资源的使用，是网络化控制系统中的一个非常重要的课题。

发明内容

本发明的目的是针对上述现有技术的不足，提出了一种基于确定学习和事件触发的轮式移动机器人的位置控制方法；针对神经网络每次做任务都要重复训练的问题，该方法利用确定学习理论，将收敛后的神经网络权值存储为经验知识，当移动机器人再次做同样任务的时候，可以直接调用经验知识进行利用，而不需要重复训练神经网络；针对传统时间触发控制方法出现的不必要的网络资源传输问题，该方法利用事件触发机制，当不满足所设事件触发条件的时候，才进行信号的传输，从而避免了网络资源浪费的问题。

本发明的目的可以通过如下技术方案实现：

本发明提供一种基于确定学习的轮式移动机器人事件触发跟踪控制方法，包括以下步骤：

步骤1、建立轮式移动机器人的动力学模型和期望的周期轨迹；

步骤2、获取经验知识：结合李雅普诺夫稳定性理论和动态面设计方法构造自适应神经网络控制器，并利用确定学习理论将收敛后的神经网络权值

保存为常值权值

步骤3、构建作用于传感器到控制器之间网络通道的事件触发机制，当网络通道传输信号达到触发条件，将采用信号经过网络通道传输到控制端；

步骤4、设计基于经验知识和事件触发的常值神经网络控制器，利用常值神经网络控制器对触发事件进行跟踪；所述常值神经网络控制器为：

其中，B表示与移动机器人的质量、惯性、轮子半径相关的已知常数矩阵，k₂为误差

的设计参数，

为经过确定学习得到的常值神经网络权值。

进一步的，步骤1中，所述动力学模型为：

其中x₁＝[x,y,θ]^T为环境坐标系下的移动机器人的位姿向量，

表示机器人坐标系下的移动机器人的速度向量，J(x₁)表示用于坐标变化的旋转矩阵，B是一个已知的且与移动机器人的质量、惯性、轮子半径有关的常数矩阵，A(x₂)是未知的且与移动机器人的摩擦系数、惯性、质量有关的矩阵；τ是系统的控制输入。

进一步的，步骤1中，所述期望的周期轨迹为：

其中，x_d1＝[x_d1,1,x_d1,2,x_d1,3]^T为移动机器人位姿的期望参考轨迹，f(x_d1,x_d2)为给定的连续函数。

进一步的，步骤2中，所述构造自适应神经网络控制器，具体为：

其中，k_t2为误差z_t2的设计参数，z_t1＝x₁-x_d1是移动机器人位姿和参考轨迹之间的误差， z_t2＝x₂-α_tf是移动机器人速度和虚拟速度经过滤波器之后输出值的差值，滤波器构造为

τ_t为设计参数，

k_t1为z_t1的设计参数，z_t1＝x₁-x_d1为移动机器人位姿和参考轨迹之间的跟踪误差，

为神经网络权值的估计值。

进一步的，步骤2中，所述利用确定学习理论将收敛后的神经网络权值

保存为常值权值

具体为：

选取权值更新率为：

其中：S(Z)＝[s₁(||Z-θ₁||),…,s_N(||Z-θ_N)||]^T为神经网络基函数,s_j(||Z-θ_j||)＝exp(-||Z-θ_j||²/η_j ²)为高斯函数，θ_j为中心点，η_j为宽度，j＝1,…,N，N为神经网络布点数，Z＝x₂为神经网络的输入，Γ为神经网络权值更新率的增益项，σ为神经网络权值更新率的设计常数；

基于确定学习理论，获取稳定后的权值

其中，t_b＞t_a＞T，T为收敛时间。

进一步的，步骤3中，构建作用于传感器到控制器之间网络通道的事件触发机制，具体为：

定义位于传感器到控制器之间网络通道的状态信号传输误差为：

其中，x₁和x₂分别为移动机器人的位姿向量和速度向量，

和

分别为经过网络通道传输到控制器端的移动机器人的位姿向量和速度向量，e₁和e₂分别为移动机器人在网络通道中的传输误差；

令e＝[e₁ ^T,e₂ ^T,e_J ^T]^T,

其中F₁(x₁,x₂)＝J(x₁)x₂-x₂，

J(x₁)为移动机器人模型中的用于坐标变换的旋转矩阵，设计网络通道传输信号的触发条件为：

若系统满足该条件，则将采样信号经过网络通道传输到控制端；

其中，k₁,k₂是控制器的增益参数，L是神经网络基函数的利普希茨系数，z＝[z₁ ^T,z₂ ^T]^T，其中z₁是移动机器人的位姿与期望轨迹的差值组成的列向量，z₁是移动机器人的速度向量与虚拟速度经过滤波器之后输出值的差值组成的列向量，Λ是大于0的设计参数，

是基于确定学习获取的常值神经网络权值。

进一步的，还包括下述步骤：

将移动机器人速度与虚拟速度经过滤波器之后输出值的差值组成的列向量z₂设置为：

z₂＝x₂-α_1f

其中：x₂是移动机器人的角速度，α_1f是α₁经过一阶滤波器之后的滤波变量，

是经过网络通道传输到控制器端的移动机器人位姿和参考轨迹之间的误差。

进一步的，步骤4中，将控制器端接收到移动机器人速度和虚拟速度经过滤波器之后输出值的差值组成的列向量

设置为：

其中：

是经过网络通道传输到控制器端的移动机器人速度，α_1f是α₁经过一阶滤波器之后的滤波变量。

本发明与现有技术相比，具有如下优点和有益效果：

1、本发明利用确定学习理论，实现了对轮式移动机器人系统未知动态进行学习，并将收敛的神经网络权值进行存储，利用经验知识避免了冗余训练。

2、本发明基于确定学习原理设计的事件触发机制，结构形式简单，采用常值权值代替了在线估计权值，降低了计算时间，便于实现。

3.本发明联合确定学习原理与事件触发机制，在远程移动机器人轨迹跟踪控制中，实现了好的暂态跟踪性能、节省了网络带宽的占用和降低了算法的计算负担。

附图说明

图1为本实施例轮式移动机器人系统示意图。

图2为本实施例基于确定学习和事件触发的轮式移动机器人的整体控制流程图。

图3为本实施例轮式移动机器人系统事件触发次数图。

图4为本实施例轮式移动机器人系统事件触发间隔表示图。

图5为本实施例轮式移动机器人传输误差与阈值图。

图6为本实施例轮式移动机器人位姿跟踪误差图。

图7为本实施例轮式移动机器人控制器输出图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1、图2所示，本实施例一种基于确定学习的轮式移动机器人事件触发跟踪控制方法，包括下述步骤：

步骤1、建立轮式移动机器人的动力学模型和期望的周期轨迹：

表示机器人坐标系下的移动机器人的速度向量，J(x₁)表示用于坐标变化的旋转矩阵，B是一个已知的且与移动机器人的质量、惯性、轮子半径有关的常数矩阵，A(x₂)是未知的且与移动机器人的摩擦系数、惯性、质量有关的矩阵；τ是系统的控制输入，本实施例中轮式移动机器人系统如图1 所示。

本实施例中选取的轮式移动机器人系统的相关参数分别为：

机器人的质量为m＝15kg，每个驱动轮的半径r＝0.1m，输入转矩的增益因子k＝5，驱动轮与其所在平面的综合粘滞摩擦系数ξ＝0.1，每个驱动轮的几何中心与机器人的几何中心之间的距离L＝0.5m，驱动轮绕其驱动电机轴的转动惯量I_w＝0.01kgm²，机器人绕着其中心轴的转动惯量I_C＝0.07kgm²。

轮式移动机器人期望的周期轨迹为：

本实例中选取的期望周期轨迹为：

x_d1＝[sin(t),sin(t),sin(t)]^T，

步骤2中，所述构造自适应神经网络控制器并获取经验知识，具体为：

首先定义移动机器人的位姿和参考轨迹之间的跟踪误差为：

z_t1＝x₁-x_d1

设计虚拟控制器α₁：

其中，k_t1为误差z_t1的设计参数；

根据动态面方法得到一阶滤波器方程：

其中τ_t为滤波系数，α_1f为滤波虚拟控制变量。

定义误差z_t2为：

z_t2＝x₂-α_tf

构造出实际控制自适应神经网络控制器为：

其中，k₂为z₂的设计参数，

为神经网络权值的估计值，选取权值更新率为

其中：S(Z)＝[s₁(||Z-θ₁||),…,s_N(||Z-θ_N)||]^T,s_j(||Z-θ_j||)＝exp(-||Z-θ_j||²/η_j ²)为高斯基函数，θ_j为中心点，η_j为宽度，j＝1,…,N，N为神经网络布点数，Z＝x₂为神经网络的输入， Γ为神经网络权值更新率的增益项，σ为神经网络权值更新率的设计常数；x₁和x₂的初始值为x₁＝[0,0,0]^T，x₂＝[0,0,0]^T，α_1f＝[1,1,1]^T；神经网络的初始值为

神经网络节点数为N＝7×7×7＝343，中心点均匀分布在[-1.5 1.5]×[-1.5 1.5]×[-1.5 1.5]上， η₁＝0.625，η₂＝0.625，η₃＝0.625，Γ＝10，σ＝0.00001；控制器参数为k_t1＝2，k_t2＝2.5， τ_t＝0.01，获取稳定后的权值

t_b＞t_a＞T，T为收敛时间，本实例中T＝200, t_ai＝250，t_bi＝300。

步骤3、构建作用于传感器到控制器之间网络通道的事件触发机制；

其中，x₁和x₂分别为移动机器人的位姿向量和速度向量，

和

分别为经过网络通道传输到控制器端的移动机器人的位姿向量和速度向量，e₁和e₂分别为移动机器人在网络通道中的传输误差。

令e＝[e₁ ^T,e₂ ^T,e_J ^T]^T,

其中F₁(x₁,x₂)＝J(x₁)x₂-x₂，

J(x₁)为移动机器人模型中的用于坐标变换的旋转矩阵。设计网络通道传输信号的触发条件为：

若系统满足该条件，则将采样信号经过网络通道传输到控制端。

其中，k₁,k₂是控制器的增益参数，L是神经网络基函数的利普希茨系数，z＝[z₁ ^T,z₂ ^T]^T，其中z₁是移动机器人的位姿与期望轨迹的差值组成的列向量，z₁是移动机器人的速度向量与虚拟速度经过滤波器之后输出值的差值组成的列向量。Λ是大于0的设计参数，

是基于确定学习获取的常值神经网络权值。

步骤4、设计基于经验学习和事件触发的常值神经网络控制器：

令

定义移动机器人位姿和参考轨迹之间的跟踪误差为：

z₁＝x₁-x_d1

设计虚拟控制器α₁：

其中，k₁为误差z₁的设计参数，

根据动态面方法得到一阶滤波器方程：

其中τ₁为滤波系数，α_1f为滤波虚拟控制变量。

定义误差z₂为：

z₂＝x₂-α_1f

构造出实际常值神经网络控制器为：

其中，

x₁和x₂的初始值为x₁(0)＝[0,0,0]^T，x₂(0)＝[0,0,0]^T，α_1f＝[1,1,1]^T；神经网络节点数为 N＝7×7×7＝343，中心点均匀分布在[-1.5 1.5]×[-1.5 1.5]×[-1.5 1.5]上，η₁＝0.625， η₂＝0.625，η₃＝0.625，控制器参数为k_t1＝2，k_t2＝2.5，τ₁＝0.01。

仿真采样步长设置为0.001s，采样时间为15s。图3为移动机器人系统在基于确定学习和事件触发机制下的触发次数，可以看出，相较于传统的时间触发机制需要触发15000次，本方法只触发了3673次，有效减少了触发次数，节省了网络带宽。图4是移动机器人事件触发间隔图。图5是事件触发过程中事件误差和阈值的关系图，从图中可知事件误差是小于等于阈值的。图6是移动机器人的位姿跟踪误差图，可以看出其位姿的跟踪误差可以收敛到零的小邻域内。图7是移动机器人控制器的输出图。

以上所述，仅为本发明专利较佳的实施例，但本发明专利的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明专利所公开的范围内，根据本发明专利的技术方案及其发明专利构思加以等同替换或改变，都属于本发明专利的保护范围。

Claims

1.一种基于确定学习的轮式移动机器人事件触发跟踪控制方法，其特征在于，包括以下步骤：

保存为常值权值

的设计参数，

为经过确定学习得到的常值神经网络权值。

2.根据权利要求1所述的一种基于确定学习的轮式移动机器人事件触发跟踪控制方法，其特征在于：步骤1中，所述动力学模型为：

3.根据权利要求1所述的一种基于确定学习的轮式移动机器人事件触发跟踪控制方法，其特征在于：步骤1中，所述期望的周期轨迹为：

4.根据权利要求1所述的一种基于确定学习的轮式移动机器人事件触发跟踪控制方法，其特征在于：步骤2中，所述构造自适应神经网络控制器，具体为：

其中，k_t2为误差z_t2的设计参数，z_t1＝x₁-x_d1是移动机器人位姿和参考轨迹之间的误差，z_t2＝x₂-α_tf是移动机器人速度和虚拟速度经过滤波器之后输出值的差值，滤波器构造为

τ_t为设计参数，

为神经网络权值的估计值。

5.根据权利要求4所述的一种基于确定学习的轮式移动机器人事件触发跟踪控制方法，其特征在于：步骤2中，所述利用确定学习理论将收敛后的神经网络权值

保存为常值权值

具体为：

选取权值更新率为：

基于确定学习理论，获取稳定后的权值

其中，t_b＞t_a＞T，T为收敛时间。

6.根据权利要求1所述的一种基于确定学习和事件触发的移动机器人的智能控制方法，其特征在于：步骤3中，构建作用于传感器到控制器之间网络通道的事件触发机制，具体为：

其中，x₁和x₂分别为移动机器人的位姿向量和速度向量，

和

令e＝[e₁ ^T,e₂ ^T,e_J ^T]^T,

其中F₁(x₁,x₂)＝J(x₁)x₂-x₂，

其中，k₁,k₂是控制器的增益参数，L是神经网络基函数的利普希茨系数，z＝[z₁ ^T,z₂ ^T]^T，其中z₁是移动机器人的位姿与期望轨迹的差值组成的列向量，z₁是移动机器人的速度向量与虚拟速度经过滤波器之后输出值的差值组成的列向量，Λ是大于0的设计参数，W是基于确定学习获取的常值神经网络权值。

7.根据权利要求6所述的一种基于确定学习和事件触发的移动机器人的智能控制方法，其特征在于：还包括下述步骤：

z₂＝x₂-α_1f

8.根据权利要求1所述的一种基于确定学习和事件触发的移动机器人的智能控制方法，其特征在于：步骤4中，将控制器端接收到移动机器人速度和虚拟速度经过滤波器之后输出值的差值组成的列向量

设置为：

其中：