CN112800684A

CN112800684A - 一种基于在线稀疏化核学习的欠驱动vtol系统最优控制方法

Info

Publication number: CN112800684A
Application number: CN202110280733.5A
Authority: CN
Inventors: 谭拂晓
Original assignee: Shanghai Maritime University
Current assignee: Shanghai Maritime University
Priority date: 2021-03-16
Filing date: 2021-03-16
Publication date: 2021-05-14
Anticipated expiration: 2041-03-16
Also published as: CN112800684B

Abstract

本发明公开了一种基于在线稀疏化核学习的欠驱动VTOL系统最优控制方法，包括：基于在线稀疏化核学习ALD算法对VTOL数据进行稀疏化，以降低计算负担；基于稀疏化KHDP算法设计VTOL非线性系统最优控制，采用三层BP神经网络模块设计模型模块和动作模块。最后对KHDP算法进行计算机仿真研究，证明该算法对VTOL飞行航向系统可以进行有效的控制，并使性能指标函数达到最优。把强化学习与稀疏化核学习相结合，提出VTOL系统的KHDP算法，是当前人工智能领域重要的研究内容。VTOL通过传感器获得实时在线数据，利用观测或分析系统行为而进行强化学习，从输入‑输出数据构造递推算法对系统未知参数进行辨识，寻找系统最优化策略，设计自适应动态优化算法，从而实现欠驱动VTOL系统的最优解。

Description

一种基于在线稀疏化核学习的欠驱动VTOL系统最优控制方法

技术领域

本发明涉及人工智能领域，具体涉及一种基于在线稀疏化核学习的欠驱动VTOL系统最优控制方法。

背景技术

垂直起降(vertical take-off and landing,VTOL)飞行控制系统是一种欠驱动系统，即系统的独立控制变量个数小于系统自由度个数的一类非线性系统。由于欠驱动系统输入个数少于状态，不能化为完整约束。同时由于VTOL系统的高度非线性、参数摄动、多目标控制要求及控制量受限等原因，欠驱动系统非常复杂，因而很难找到一种普遍适用的方法。

经典的欠驱动VTOL控制技术主要是基于神经网络模块的自适应控制。但是使用神经网络模块控制主要存在以下缺点。1)当遇到状态和数据量较大时候，模块的泛化能力较弱。模块的预测能力(也称泛化能力、推广能力)与训练能力(也称逼近能力、学习能力)存在矛盾。一般情况下，训练能力差时，预测能力也差，并且一定程度上，随训练能力地提高，预测能力也提高。但这种趋势有一个极限，当达到此极限时，随训练能力的提高，预测能力反而下降，即出现所谓“过拟合”现象。此时，模块学习了过多的样本细节，而不能反映样本内含的规律；2)神经网络模块没训练到位致使训练算法陷入局部极值从而训练失败；3)神经网络模块的逼近、推广能力同学习样本的典型性密切相关，而从问题中选取典型样本实例组成训练集是十分困难；4)难以解决应用问题的实例规模和模块规模间的矛盾。这涉及到模块容量的可能性与可行性的关系问题，即学习复杂性问题；5)模块结构的选择尚无一种统一而完整的理论指导，一般只能由经验选定。

发明内容

本发明的目的在于提供一种

为了达到上述目的，本发明采用的技术方案如下：

一种基于在线稀疏化核学习的欠驱动VTOL系统最优控制方法，该方法包括：

基于在线稀疏化核学习ALD算法对VTOL数据进行稀疏化，以降低计算负担；

基于稀疏化KHDP算法设计VTOL非线性系统最优控制。

可选地，所述稀疏化具体包括：首先建立数据字典D_n，然后把核机器学习运用到评价模块中。

可选地，所述评价模块的时间目的是近似性能指标函数，采用核最小时间差分学习算法可以得到近似值函数，具体如下：

其中，α_i是ALD分析后的组合系数，d(n)是数据字典D_n的长度，x_i∈D_n为完成ALD分析后的数据字典D_n的元素，其中i＝1,2,…,d(n)。

可选地，在线建立数据字典的方法是：假设在n-1刻时间，出现新的数据样本{x_n,y_n}，数据字典的元素为

其中c_i是第i个数据存储中心，m_n-1是该时刻的基数，即|D_n-1|＝m_n-1，根据设定条件，判断x_n是否加入该数据字典。

可选地，ALD是根据在特征空间中近似满足线性依赖的条件，在线构造数据字典的方法，当新的数据样本{x_n,y_n}到来时，通过计算残留误差条件：

其中，

是待求解的一个包含线性组合扩展系数的向量，ν是决定近似精度与稀疏度的阈值参数；

判断新的采样数据是否加入到该数据字典，如果满足条件(8)，即δ_t没有超过设定的阈值，那么φ(x_n)在给定的平方误差ν内通过当前数据字典中的元素线性组合进行表示；如果δ＞ν，那么当前数据字典不能代表新的数据信息，因此数据字典必须进行扩容，此时新的数据中心c_n＝s_n加入到数据字典中，满足D_n＝D_n-1∪{c_n}，m_n＝m_n-1+1。

可选地，根据特征空间的内积和特征向量可以得到：

根据核技巧：

<φ(s_i),φ(s_j)>＝k(s_i,s_j) (10)

可以得到：

其中，[K_n-1]_i,j＝k(c_i,x_j)，k_nn＝(k(x_n),k(x_n))，[k_n-1(x_n)]_i＝k(x_i,x_n)；

因此进一步可以得到：

δ_n＝k_nn-k_n-1(x_n)^Ta_n (13)

此时数据采样S_n的所有特征向量可以通过数据字典内的特征空间的线性组合进行表示，完成ALD分析后，数据字典D_n具有较少的数据向量维数，核最小时间差分学习算法(KLS-TD)可以得到近似值函数：

其中，α_i是ALD分析后的组合系数，d(n)是数据字典D_n的长度，s_j＝s(x_j,u_j)和x_j(j＝1,2,…,d(n))是为完成ALD分析后的数据字典D_n的元素，i＝1,2,…,d(n)。

可选地，该最优控制通过模块模块、评价模块和动作模块实现。

可选地，模块模块的设计目的是近似误差系统，在执行KHDP算法之前，首先训练模块模块，对于给定的x_t和u_t，那么模块模块的输出为：

其中，

模块模块的误差函数可以定义为：

模块模块的权值更新是通过最小化下式进行实现：

根据梯度自适应规则，权值更新满足：

其中，l_m＞0是模块模块的学习率，在完成模块模块的训练后,其权值应保持不变。

可选地，在KHDP算法中，评价模块的主要作用是对值函数V(x_t)近似一种线性加权形式，其中Mercer核函数k(x,y)＝<φ(x),φ(y)>用作再生核Hilbert空间(RKHS)的特征映射，令s_t＝(x_t,u_t)在时刻t时刻输入-输出数据，那么性能指标函数V(x_t,u_t)可以相应的表示成V(s_t)；

为了实现自适应评价的在线学习，基于核的RLS-TD(0)的更新规则将用于KHDP算法中满足：

其中，β_t是评价模块中的步长，μ满足0＜μ≤1是遗忘因子，P₀＝δI，δ是正数，I是单位矩阵。

可选地，在KHDP算法中，动作模块中的输入为x_t，为了获得最优控制率，动作模块的输出可以描述为：

为了实现最优控制目标，定义动作模块的性能误差函数为：

当使用高斯核函数时，近似值函数为：

其中，

是最优控制响应对的系数向量，最优控制响应对的维数为m；

定义||·||为：

根据梯度下降法，动作模块的权值调整满足：

在式(27)引入近似值函数(25)，那么可以得到：

在KHDP算法中，动作模块的权值更新规则满足：

其中，0＜l_a≤1是动作模块的学习率。

与现有技术相比，本发明至少具有以下优点之一：

1、把强化学习与稀疏化核学习相结合，提出VTOL系统的KHDP算法，是当前人工智能领域重要的研究内容。VTOL通过传感器获得实时在线数据，利用观测或分析系统行为而进行强化学习，从输入-输出数据构造递推算法对系统未知参数进行辨识，寻找系统最优化策略，设计自适应动态优化算法，从而实现欠驱动VTOL系统的最优解。

2、由于VTOL系统中存在大量的在线数据，核函数可以通过数据内积的形式反映数据之间的相似性，改进特征空间的内积的计算复杂度，在高维的特征空间中提供有效的学习算法。

3、通过核函数构建的核矩阵承担者数据输入和学习算法之间联系的桥梁，即通过核矩阵，在线学习算法才能收到关于特征空间和输入数据之间的信息，以及训练数据本身的信息。通过对飞行数据的采样和学习可以有效地解决欠驱动VTOL系统在线学习与非线性最优控制问题。

4、本设计采用神经核地推最小二乘算法对值函数进行在线评价，设计最优控制算法，采样随机数估计证明每次迭代过程、从而实现KHDP算法的评价模块的权重收敛和动作模块的权重收敛。

5、在VTOL最优控制系统中，怎样对数据进行在线稀疏化处理，保证算法的有效性和收敛性，是一个前沿研究领域。本设计采用近似线性相关算法(ALD)对飞控数据进行稀疏化处理，以确保飞行控制实时和有效，是设计的主要创新。

6、把KHDP算法应用到VTOL欠驱动系统，进行在线学习。欠驱动VTOL系统引入核函数后算法将具有使用快捷性和计算灵活性的优点，可以用来评价欠驱动VTOL系统的泛化性能。

7、理论分析和计算机仿真表明，所提算法能减轻计算负担，降低对系统状态的测量要求，实现飞行器位置准确跟踪，并对非线性建模的参数不确定性具有鲁棒性。

8、此方法可有效地解决输入其他欠驱动系统的非线性最优控制和轨迹跟踪问题。

附图说明

图1是本发明一实施例中基于KHDP算法的VTOL飞行控制系统框架图；

图2是本发明一实施例中ALD算法流程图；

图3是本发明一实施例中非线性最优控制算法流程图；

图4是本发明一实施例中VTOL飞行系统状态曲线；

图5是本发明一实施例中性能指标函数收敛曲线；

图6是本发明一实施例中VTOL航向系统的最优控制率。

具体实施方式

以下结合附图1～6和具体实施方式对本发明作进一步详细说明。根据下面说明，本发明的优点和特征将更清楚。需要说明的是，附图采用非常简化的形式且均使用非精准的比例，仅用以方便、明晰地辅助说明本发明实施方式的目的。为了使本发明的目的、特征和优点能够更加明显易懂，请参阅附图。须知，本说明书所附图式所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容能涵盖的范围内。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、基于在线稀疏化核学习的欠驱动VTOL系统最优控制方法、物品或者现场设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、基于在线稀疏化核学习的欠驱动VTOL系统最优控制方法、物品或者现场设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、基于在线稀疏化核学习的欠驱动VTOL系统最优控制方法、物品或者现场设备中还存在另外的相同要素。

在强化学习中，自适应动态规划(Adaptive dynamic programming)与在线稀疏化核学习(Online sparse kernel learning)相结合，是当前人工智能理论研究的一个重要领域。在自适应动态规划中启发式动态规划(Heuristic dynamic programming,HDP)是一个主要实现方式。本设计结合HDP算法和近似线性相关(Approximate linear dependence,ALD)算法，设计基于稀疏化核学习的在线KHDP算法(Kernel heuristic dynamicprogramming)研究了VTOL飞行控制系统，解决欠驱动系统的非线性最优控制问题。通过核机器学习设计评价模块，运用ALD分析进行数据的稀疏化处理。采用三层BP神经网络模块设计模块模块和动作模块。最后对KHDP算法进行计算机仿真研究，证明该算法对VTOL飞行航向系统可以进行有效的控制，并使性能指标函数达到最优。

欠驱动VTOL飞行系统的动态方程如下

其中，

是VTOL中心位置，θ是VTOL飞行系统的航向角；T是来自VTOL底部的推力；l是VTOL的滚动力矩；VTOL的质量m＝68.6吨；g＝9.8m/s是重力加速度；ε₀＝0.5是滚动力矩和侧面加速度的相关系数；I_x＝123是系统参数。

根据式(1)，令

是系统变量，两个控制输入变量为u＝[T l]^T。因此VTOL系统的方程可以转换为

因此，最优控制的目标设计控制率u(k)，最小化以下无限时间状态值函数：

其中，0＜γ≤1是折扣因子。U是效用函数，选择以下二次型形式：

其中，

和

分别为适当维数的正定矩阵，为简便计算，本设计设定Q和R分别为单位矩阵。

根据Bellman最优性原理，最优性能函数Q^*(x_k)满足Hamilton-Jacobi-Bellmanequation(HJB)方程：

此时最优控制率为

基于KHDP的VTOL飞行控制系统包括包含三个模块：1)评价器模块(Critic)，其作用主要是通过对值函数(Cost-to-go)进行近似来对动作模块的性能进行评估，相当于策略评价；2)动作模块(Actor)，其作用主要是跟评价模块的评价产生相应的优化动作，即相当于进行策略改进；3)模块模块(Model)，主要在需要产生评价器模块和动作模块的训练信号时用到，见图1所示。其中评价模块采用核递推最小二乘时间差分学习算法(KRLS-TD)，因此核函数和有它引起的特征空间在评价模块学习中起着至关重要的作用。

本实施例提供的一种基于在线稀疏化核学习的欠驱动VTOL系统最优控制方法，该方法包括：

基于在线稀疏化核学习ALD算法对VTOL数据(即上述的系统变量)进行稀疏化，以降低计算负担；

基于稀疏化KHDP算法设计VTOL非线性系统最优控制。

本实施例中，所述稀疏化具体包括：首先建立数据字典D_n，然后把核机器学习运用到评价模块中。

本实施例中，所述评价模块的时间目的是近似性能指标函数，采用核最小时间差分学习算法(KLSTD)可以得到近似值函数，具体如下：

本实施例中，在线建立数据字典的基本方法是：假设在n-1刻时间，出现新的数据样本{x_n,y_n}，数据字典的元素为

本实施例中，ALD是根据在特征空间中近似满足线性依赖的条件，在线构造数据字典的方法，当新的数据样本{x_n,y_n}到来时，通过计算残留误差条件：

其中，

本实施例中，根据特征空间的内积和特征向量可以得到：

根据核技巧：

<φ(s_i),φ(s_j)>＝k(s_i,s_j) (10)

可以得到：

因此进一步可以得到：

δ_n＝k_nn-k_n-1(x_n)^Ta_n (13)

本实施例中，该最优控制通过模块模块、评价模块和动作模块实现。

本实施例中，模块模块的设计目的是近似误差系统，在执行KHDP算法之前，首先训练模块模块，对于给定的x_t和u_t，那么模块模块的输出为：

其中，

模块模块的误差函数可以定义为：

模块模块的权值更新是通过最小化下式进行实现：

根据梯度自适应规则，权值更新满足：

本实施例中，在KHDP算法中，评价模块的主要作用是对值函数V(x_t)近似一种线性加权形式，其中Mercer核函数k(x,y)＝<φ(x),φ(y)>用作再生核Hilbert空间(RKHS)的特征映射，令s_t＝(x_t,u_t)在时刻t时刻输入-输出数据，那么性能指标函数V(x_t,u_t)可以相应的表示成V(s_t)；

本实施例中，在KHDP算法中，动作模块中的输入为x_t，为了获得最优控制率，动作模块的输出可以描述为：

为了实现最优控制目标，定义动作模块的性能误差函数为：

当使用高斯核函数时，近似值函数为：

其中，

是最优控制响应对的系数向量，最优控制响应对的维数为m；

定义||·||为：

根据梯度下降法，动作模块的权值调整满足：

在式(27)引入近似值函数(25)，那么可以得到：

在KHDP算法中，动作模块的权值更新规则满足：

其中，0＜l_a≤1是动作模块的学习率。

设定VTOL系统的初始状态为x₀＝[0.5 -1 -0.5 1 0.5 0.5]^T。模块模块和动作模块分别选取三层BP神经网络模块，结构分别为8-8-6和6-8-2。模块模块和动作模块的权值初始值在(-1,1)内随机设定。ALD分析的门限值μ＝0.001，时间步长选取为0.02秒。

图4是VTOL系统状态收敛图，从该图中可以看到，在KHDP控制的作用下，系统各状态渐进为零。图5是性能指标收敛曲线，其中dQdx_i代表λ(x_i),i＝1,…,6，从图中可以看到系统的值函数很快收敛到零状态。图6是VTOL飞行系统的最优控制率曲线。

尽管本发明的内容已经通过上述优选实施例作了详细介绍，但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后，对于本发明的多种修改和替代都将是显而易见的。因此，本发明的保护范围应由所附的权利要求来限定。

Claims

1.一种基于在线稀疏化核学习的欠驱动VTOL系统最优控制方法，其特征在于，该方法包括：

基于稀疏化KHDP算法设计VTOL非线性系统最优控制。

2.如权利要求1所述的基于在线稀疏化核学习的欠驱动VTOL系统最优控制方法，其特征在于，所述稀疏化具体包括：首先建立数据字典D_n，然后把核机器学习运用到评价模块中。

3.如权利要求1所述的基于在线稀疏化核学习的欠驱动VTOL系统最优控制方法，其特征在于，

所述评价模块的时间目的是近似性能指标函数，采用核最小时间差分学习算法可以得到近似值函数，具体如下：

4.如权利要求1所述的基于在线稀疏化核学习的欠驱动VTOL系统最优控制方法，其特征在于，

在线建立数据字典的方法是：假设在n-1刻时间，出现新的数据样本{x_n,y_n}，数据字典的元素为

5.如权利要求1所述的基于在线稀疏化核学习的欠驱动VTOL系统最优控制方法，其特征在于，

ALD是根据在特征空间中近似满足线性依赖的条件，在线构造数据字典的方法，当新的数据样本{x_n,y_n}到来时，通过计算残留误差条件：

其中，

6.如权利要求5所述的基于在线稀疏化核学习的欠驱动VTOL系统最优控制方法，其特征在于，

根据特征空间的内积和特征向量可以得到：

根据核技巧：

<φ(s_i),φ(s_j)>＝k(s_i,s_j) (10)

可以得到：

因此进一步可以得到：

δ_n＝k_nn-k_n-1(x_n)^Ta_n (13)

7.如权利要求1所述的基于在线稀疏化核学习的欠驱动VTOL系统最优控制方法，其特征在于，该最优控制通过模块模块、评价模块和动作模块实现。

8.如权利要求7所述的基于在线稀疏化核学习的欠驱动VTOL系统最优控制方法，其特征在于，

模块模块的设计目的是近似误差系统，在执行KHDP算法之前，首先训练模块模块，对于给定的x_t和u_t，那么模块模块的输出为：

其中，

模块模块的误差函数可以定义为：

模块模块的权值更新是通过最小化下式进行实现：

根据梯度自适应规则，权值更新满足：

9.如权利要求1所述的基于在线稀疏化核学习的欠驱动VTOL系统最优控制方法，其特征在于，

在KHDP算法中，评价模块的主要作用是对值函数V(x_t)近似一种线性加权形式，其中Mercer核函数k(x,y)＝<φ(x),φ(y)>用作再生核Hilbert空间(RKHS)的特征映射，令s_t＝(x_t,u_t)在时刻t时刻输入-输出数据，那么性能指标函数V(x_t,u_t)可以相应的表示成V(s_t)；