CN108536006A

CN108536006A - 一种非线性系统的直接学习控制方法

Info

Publication number: CN108536006A
Application number: CN201810156619.XA
Authority: CN
Inventors: 周伟; 刘保彬; 于淼
Original assignee: Jiangsu Institute of Economic and Trade Technology
Current assignee: Jiangsu Institute of Economic and Trade Technology
Priority date: 2018-02-24
Filing date: 2018-02-24
Publication date: 2018-09-14

Abstract

本发明公开了一种非线性系统的直接学习控制方法，包括如下步骤：(1)存储器存储被控系统在其他工作状态下的控制系统信息；(2)处理器进行预筛选、筛选、预学习和直接学习；根据本次控制任务判断系统初始状态定位是否满足x(0)＝0，从历史控制信息中筛选出与新的参考轨迹之间满足高阶内模关系的历史参考轨迹；预学习出本次跟踪参考轨迹与历史参考轨迹之间的m阶内模关系；直接学习出待求控制输入与历史控制输入之间的关系；(3)将控制器作用于被控系统，控制输入误差满足要求；(4)输出本次系统跟踪参考轨迹、待求控制输入、系统输出和可测系统状态变量。本发明没有反复或迭代过程，系统跟踪精度高、速度快。

Description

一种非线性系统的直接学习控制方法

技术领域

本发明涉及非线性系统控制，尤其涉及一种非线性系统的直接学习控制方法。

背景技术

非严格重复概念起源于迭代学习控制领域，其概念表达的是当被控系统可以通过多次迭代反复运行时，将系统输出和跟踪参考轨迹的误差引入学习律，通过对误差的多次学习，减小至跟踪误差为零。此时，被控系统在多次迭代中必须是严格重复的，即，被控系统的状态初值在多次迭代中必须严格定位、被控系统的扰动在多次迭代时必须严格相同、被控系统的跟踪参考轨迹也必须严格一致等。但是，在实际的工作中，被控系统不可能完全严格重复。

直接学习是模仿迭代学习的一种智能控制方法，它是基于已有先验控制知识的一种学习策略。考虑到被控系统已经存储了历史控制知识，比如历史跟踪参考轨迹、历史控制输入和历史系统输出等，当此被控系统被用于一个新的但又与历史控制相关的控制目的时，可以模仿迭代学习方法，通过学习历史控制知识和新的控制目的的相关性，进而直接学习出新的控制器输入。但是，由于直接学习的这种相关性，针对非线性系统的直接学习很难进行。

高阶内模是用来描述历史非严格重复信息和新的非严格重复信息之间关系的一种具有一般性意义的数学方法，它最初见于迭代学习控制领域，用来描述跟踪参考轨迹的迭代域变化规律；也可以用来描述迭代学习控制中其他时域-迭代域变化的系统信息，比如迭代域变化的系统未知参数、迭代域变化的扰动等。但是，在直接学习控制系统中，针对历史跟踪参考轨迹和新的跟踪参考轨迹满足高阶内模这种一般性变化规律的研究还很少见。

发明内容

发明目的：针对现有技术存在的问题，本发明的目的是提供一种非线性系统的直接学习控制方法，以解决非线性被控系统跟踪变化的输出轨迹问题，实现了对非线性系统的高精度、直接跟踪。

技术方案：一种非线性系统的直接学习控制方法，系统非线性方程为：

其中，u(t)∈R^m是控制输入；y(t)∈R^m是系统输出；x(t)∈Rⁿ代表系统状态向量；f(x(t))∈Rⁿ代表系统中的未知非线性函数；B(t)∈R^n×m代表时变的系统未知状态向量矩阵；C∈R^m×n代表系统未知向量矩阵；

本发明的方法包括如下步骤：

(1)存储器存储被控系统在其他工作状态下的控制系统信息，包括历史跟踪轨迹历史控制输入历史系统输出y_i(t)和历史可测系统状态变量x_i(t)；

(2)处理器进行预筛选、筛选、预学习和直接学习；

根据本次控制任务判断系统初始状态定位是否满足x(0)＝0，若满足，从历史控制信息中筛选出与新的参考轨迹之间满足高阶内模关系的历史参考轨迹；预学习出本次跟踪参考轨迹与历史参考轨迹之间的m阶内模关系；直接学习出待求控制输入与历史控制输入之间的关系；

(3)将控制器作用于被控系统，控制输入误差满足要求，即输入误差在控制率的作用下，可实现任意小；

(4)输出本次系统跟踪参考轨迹y^d(t)，待求控制输入u^d(t)，系统输出y(t)和可测系统状态变量x(t)；

所述直接学习控制方法的应用对象满足如下先验条件：

条件1：本次输出参考轨迹和某些历史参考轨迹之间满足高阶内模关系；

条件2：矩阵B(t)和C有界，且CB(t)可逆；

条件3：系统初始状态定位满足x(0)＝x_i(0)＝0；

条件4：系统中的非线性未知函数f(x(t))满足全局Lipschitz连续条件；

条件5：系统中的非线性未知函数f(x(t))满足穿零条件。

所述步骤(2)中，新的参考轨迹和历史参考轨迹满足下面的高阶内模关系：

其中，和代表已存储的目标跟踪轨迹，下标i，i-1和i-m只是为了表达方便，没有顺序的意义；yd(t)代表新的目标跟踪轨迹；h_i，h_i-1和h_i-m为已知系数。

用ω描述已存储的不同次历史数据之间的关系，满足新的要跟踪的参考轨迹和某m次的历史参考轨迹之间满足的高阶内模关系，即直接学习控制率，为：

其中，H(ω^-1)＝h_i+h_i-1ω^-1+…+h_i-mω^-m表示高阶内模，描述了不同次数的参考轨迹之间的关系；上式表述了新的跟踪轨迹和m个历史参考轨迹之间的高阶内模关系，即m阶内模关系。

所述待求控制输入与历史控制输入之间的关系为：

定义理想的跟踪参考轨迹为y^d(t)；控制目的是直接学习已有的控制信息，找到理想控制输入u^d(t)，使得y(t)→y^d(t)。

定义轨迹跟踪误差如下：

e(t)＝y^d(t)-y(t)

将历史控制信息代入跟踪误差可得：

e(t)＝H(ω^-1)y_i(t)-y(t)

其中，y_i(t)是已存储的历史信息中的系统输出；

将y(t)＝Cx(t)代入轨迹跟踪误差，并对跟踪误差两端取范数有：

||e(t)||≤||C||||x(t)-H(ω^-1)x_i(t)||

其中，x_i(t)是已存储的历史信息中的可测系统状态；

在直接学习控制率的作用下，控制输入误差满足要求。

有益效果

与现有技术相比，本发明具有如下显著进步：1、充分利用被控系统已知的历史控制输入、可测控制状态、跟踪参考轨迹和系统输出，无需其他先验系统知识，即可直接学习出待求控制输入。2、控制系统能直接学习出待求理想控制，没有反复或迭代过程。3、系统跟踪精度高、速度快。

附图说明

图1为本发明的一种非线性系统的直接学习控制方法原理图；

图2是一个流程图，它说明本发明的一个实施例中，根据历史跟踪轨迹和新的跟踪轨迹的关系，直接学习出新的控制输入的主要步骤；

图3a为本发明实施例一的一个高阶内模变化图，说明本发明的一个实施例中，修改历史跟踪轨迹和新的跟踪轨迹的关系的一种方法；

图3b和3c是本发明实施例二的一个高阶内模变化图，说明本发明的另一个实施例中，另一种修改历史跟踪轨迹和新的跟踪轨迹的一种方法；

图4是本发明实施例三的单连杆机械臂的直接学习控制效果图。

具体实施方式

下面结合实施例和附图对本发明的技术方案作进一步详细说明。

本发明所述的一种非线性系统的直接学习控制方法，普遍适用于被控系统在历史控制环境中已经成功工作并存储了控制信息的情况。新的目标跟踪轨迹与历史目标跟踪轨迹相关，且可表达为高阶内模形式时，一般非线性系统不需反复、迭代的控制过程，直接学习历史控制数据，并得出新的控制输入。

如图1、图2所示，本发明的一种非线性系统的直接学习控制方法，主要有以下几步：

第一步，存储器存储被控系统在其他工作状态下的控制系统信息，包括历史跟踪轨迹历史控制输入历史系统输出y_i(t)和历史可测系统状态变量x_i(t)。

第二步，处理器进行预筛选，筛选，预学习和直接学习。根据本次控制任务判断系统初始状态定位是否满足x(0)＝0；从历史控制信息中筛选出与新的参考轨迹之间满足高阶内模关系的历史参考轨迹；预学习出本次跟踪参考轨迹与历史参考轨迹之间的m阶内模关系；直接学习出待求控制输入与历史控制输入之间的关系。

第三步，将控制器作用于被控系统，控制输入误差满足要求。

第四步，输出本次系统跟踪参考轨迹y^d(t)，控制输入u^d(t)，系统输出y(t)和可测系统状态变量x(t)。

被控系统在本次控制任务之前已经多次成功运行，历史数据库中存储有足够的先验控制知识，包括历史控制输入、可测控制状态、跟踪参考轨迹和系统输出。在新的控制任务中，跟踪轨迹与历史跟踪轨迹相关，且满足某种高阶内模。建立新跟踪轨迹和历史跟踪轨迹之间的联系，直接学习出新的控制输入。直接学习控制器无需反复的学习过程，且不需要预先已知被控系统的系统知识，针对实际工作中的非线性系统，实现了高精度、直接跟踪。

具体包括如下内容：

1)在历史数据库中选择合适的历史参考轨迹，并建立新跟踪轨迹和历史跟踪轨迹之间的联系；

本发明的应用对象的一般动力学模型可以如下式表示：

其中，u(t)∈R^m是控制输入；y(t)∈R^m是系统输出；x(t)∈Rⁿ代表系统状态向量；f(x(t))∈Rⁿ代表系统中的未知非线性函数；B(t)∈R^n×m代表时变的系统未知状态向量矩阵；C∈R^m×n代表系统未知向量矩阵。

此系统已经在其他工作环境下成功运行并实现控制目标，存储的历史控制知识可记为：历史跟踪轨迹历史控制输入历史系统输出y_i(t)，历史可测系统状态变量x_i(t)。

此外，对于上述一般动力学系统模型进行直接学习控制方法设计需要满足如下先验条件：

条件1：本次输出参考轨迹和某些历史参考轨迹之间满足如下高阶内模关系：

其中，和代表已存储的目标跟踪轨迹，下标i，i-1和i-m只是为了表达方便，没有顺序的意义；y^d(t)代表新的目标跟踪轨迹；h_i，h_i-1和h_i-m为已知系数。

条件2：矩阵B(t)和C有界，且CB(t)可逆。

条件3：系统初始状态定位满足x(0)＝x_i(0)＝0。

条件4：系统中的非线性未知函数f(x(t))满足全局Lipschitz连续条件，即：

||f(x₁(t))-f(x₂(t))||≤l_f||x₁(t)-x₂(t)|| (2)

条件5：系统中的非线性未知函数f(x(t))满足穿零条件，即当x(t)＝0时有f(x(t))＝0。

用ω描述已存储的不同次历史数据之间的关系，满足新的要跟踪的参考轨迹和某几次的历史参考轨迹之间满足的高阶内模关系可表述为：

其中，H(ω^-1)＝h_i+h_i-1ω^-1+…+h_i-mω^-m表示高阶内模，描述了不同次数的参考轨迹之间的关系。

公式(4)中表述了新的跟踪轨迹和m个历史参考轨迹之间的高阶内模关系，可称为m阶内模。

在一些实施例中，待跟踪的参考轨迹和已存储的历史轨迹之间满足二阶内模，即

此外，新的参考轨迹和已存储的历史轨迹之间也可满足比例关系，即

特别的，当新的参考轨迹和已存储的历史轨迹相等时，即满足式(6)且h_i＝1。

在实际应用中，机械臂被用来实现一组控制目标。比如首先用来做搬运，将植物从花房搬至有阳光处，然后用来给植物浇水。这样的一组控制目标就满足某个高阶内模关系。

高阶内模包含了本次跟踪轨迹与已存储的其他次参考轨迹之间满足的一种或多种线性组合关系。

定义理想的跟踪参考轨迹为y^d(t)。控制目的是直接学习已有的控制信息，找到理想控制输入u^d(t)，使得y(t)→y^d(t)。

定义轨迹跟踪误差如下：

e(t)＝y^d(t)-y(t) (6)

将历史控制信息代入跟踪误差可得：

e(t)＝H(ω^-1)y_i(t)-y(t) (7)

其中，y_i(t)是已存储的历史信息中的系统输出。

将系统非线性方程(1)代入式(8)并对跟踪误差两端取范数有：

||e(t)||≤||C||||x(t)-H(ω^-1)x_i(t)|| (8)

其中，x_i(t)是已存储的历史信息中的可测系统状态。

根据条件4可得：

利用Bellman-Gronwall引理，式(10)可变形为：

2)直接学习出新的控制输入；

设计直接学习控制律为

令

下面求ε₁的λ范数。由于

根据条件4和5，有

因此，由式(15)可知，|ε₁|_λ的有界性是由||x_i(t)||_λ决定的。考虑到条件2，由系统方程(1)可知：

已存储的控制输入是有界的，其边界可记为则由式(16)可知||x_i(t)||是有界的。再根据λ范数的定义可知，当选择足够大的λ时，|ε₁|_λ，t∈[0,T]能变得任意小。再由式(11)和(9)可知，在直接学习控制输入(12)的作用下，系统跟踪输出误差能变得任意小。

图3a说明了在一种实施例中，修改高阶内模的方法。当高阶内模阶次为1时，一种实施例中的新的参考轨迹和历史参考轨迹之间满足的高阶内模如下式：

其中，历史参考轨迹为：

图3a中红色“+”符号表示的是公式(18)中的历史参考轨迹黑色曲线代表的是新的参考轨迹y^d(t)。图3a说明了在一种实施例中，高阶内模关系也包括比例关系。

图3b和3c说明了在另一种实施例中，修改高阶内模的方法。当高阶内模阶次为2时，新的参考轨迹和历史参考轨迹之间满足的高阶内模如下式：

其中，历史参考轨迹为：

图3b为已存的历史跟踪轨迹和的轨迹，其中红色“+”符号表示的是黑色“*”符号表示的是在[0,1s]的变化情况。

图3c表示的是公式(17)代表的新的跟踪轨迹在[0,1s]的变化情况。由图3b和3c可以看出新的跟踪轨迹和历史跟踪轨迹之间存在联系。

由于本发明中设计的控制方法适用于多种非线性系统，选择了单连杆机械臂作为示例对象进行了仿真实验，来阐明该发明所设计的方法的有效性。

单连杆机械臂的动力学模型如下：

其中，θ(t)和u(t)分别代表机械臂的关节位移角度和控制输入；J，B，M和l是系统未知参数，分别代表机械臂惯性系数、阻尼系数、搬运重物的质量和长度。

机械臂已成功运行了多次，并存储了相关历史控制信息。当历史跟踪参考轨迹为

时，机械臂处于可重复工作状态，历史控制器输入采用的是高阶迭代学习控制器，为

当历史跟踪参考轨迹为

时，历史控制器输入采用的是

在上两次历史跟踪中，经过11次迭代之后，系统输出都成功跟踪到待求的参考轨迹。

新的跟踪目标与历史跟踪目标满足如下二阶内模关系：

其中，h_i＝-2cos0.4，h_j＝-1。

根据公式(12)，采用本发明的直接学习控制律如下：

图4为采用直接学习控制律(23)作用于单连杆机械臂的控制效果。

图4展示的是待跟踪的理想参考轨迹与单连杆机械臂输出曲线图。图4中直线代表待跟踪的理想参考轨迹；图4中*代表经过直接学习控制之后，单连杆机械臂的输出轨迹。由图4可见，采用直接学习控制后，即使被控系统有诸多未知变量，系统输出直接跟踪到理想参考轨迹，不需反复、迭代的学习过程。

以上阐述的是本发明给出的一个实施例表现出的直接、精确跟踪效果。本发明针对一般非线性系统模型给出了求解直接学习控制律的方法，目的是说明简介清楚，但实际上，满足非线性系统模型的其他被控系统都可以采用所发明的直接学习控制方法。

Claims

1.一种非线性系统的直接学习控制方法，系统非线性方程为

其中，u(t)∈R^m是控制输入；y(t)∈R^m是系统输出；x(t)∈Rⁿ代表系统状态向量；

f(x(t))∈Rⁿ代表系统中的未知非线性函数；B(t)∈R^n×m代表时变的系统未知状态向量矩阵；C∈R^m×n代表系统未知向量矩阵；其特征在于，包括如下步骤：

(1)存储器存储被控系统在其他工作状态下的控制系统信息，包括历史跟踪轨迹y_i ^d(t)，历史控制输入u_i ^d(t)，历史系统输出y_i(t)和历史可测系统状态变量x_i(t)；

(2)处理器进行预筛选、筛选、预学习和直接学习；

所述直接学习控制方法的应用对象满足如下先验条件：

条件2：矩阵B(t)和C有界，且CB(t)可逆；

条件3：系统初始状态定位满足x(0)＝x_i(0)＝0；

条件5：系统中的非线性未知函数f(x(t))满足穿零条件。

2.根据权利要求1所述的直接学习控制方法，其特征在于：所述步骤(2)中，新的参考轨迹和历史参考轨迹满足下面的高阶内模关系：

其中，和代表已存储的目标跟踪轨迹，yd(t)代表新的目标跟踪轨迹；h_i，h_i-1和h_i-m为已知系数。

3.根据权利要求2所述的直接学习控制方法，其特征在于：用ω描述已存储的不同次历史数据之间的关系，满足新的要跟踪的参考轨迹和某m次的历史参考轨迹之间满足的高阶内模关系，即直接学习控制率，为：

其中，H(ω-1)＝h_i+h_i-1ω^-1+…+h_i-mω^-m表示高阶内模，描述了不同次数的参考轨迹之间的关系；上式表述了新的跟踪轨迹和m个历史参考轨迹之间的高阶内模关系，即m阶内模关系。

4.根据权利要求3所述的直接学习控制方法，其特征在于：所述待求控制输入与历史控制输入之间的关系为：

5.根据权利要求4所述的直接学习控制方法，其特征在于：定义理想的跟踪参考轨迹为y^d(t)；定义轨迹跟踪误差如下：

e(t)＝y^d(t)-y(t)

将历史控制信息代入跟踪误差可得：

e(t)＝H(ω^-1)y_i(t)-y(t)

其中，y_i(t)是已存储的历史信息中的系统输出；

||e(t)||≤||C||||x(t)-H(ω^-1)x_i(t)||

其中，x_i(t)是已存储的历史信息中的可测系统状态；

在直接学习控制率作用下，控制输入误差满足要求。