CN112800684B - 一种基于在线稀疏化核学习的欠驱动vtol系统最优控制方法 - Google Patents
一种基于在线稀疏化核学习的欠驱动vtol系统最优控制方法 Download PDFInfo
- Publication number
- CN112800684B CN112800684B CN202110280733.5A CN202110280733A CN112800684B CN 112800684 B CN112800684 B CN 112800684B CN 202110280733 A CN202110280733 A CN 202110280733A CN 112800684 B CN112800684 B CN 112800684B
- Authority
- CN
- China
- Prior art keywords
- vtol
- module
- algorithm
- learning
- actuated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 60
- 230000006870 function Effects 0.000 claims abstract description 50
- 230000009471 action Effects 0.000 claims abstract description 34
- 238000013461 design Methods 0.000 claims abstract description 14
- 238000004364 calculation method Methods 0.000 claims abstract description 7
- 238000011156 evaluation Methods 0.000 claims description 25
- 238000004458 analytical method Methods 0.000 claims description 18
- 238000012549 training Methods 0.000 claims description 12
- 230000003044 adaptive effect Effects 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000004044 response Effects 0.000 claims description 6
- 230000001133 acceleration Effects 0.000 claims description 4
- 238000010801 machine learning Methods 0.000 claims description 4
- 238000005096 rolling process Methods 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 230000001172 regenerating effect Effects 0.000 claims description 3
- 230000001419 dependent effect Effects 0.000 claims description 2
- 101150050759 outI gene Proteins 0.000 claims 1
- 238000013528 artificial neural network Methods 0.000 abstract description 7
- 238000011160 research Methods 0.000 abstract description 7
- 230000002787 reinforcement Effects 0.000 abstract description 5
- 238000013473 artificial intelligence Methods 0.000 abstract description 4
- 238000005457 optimization Methods 0.000 abstract description 4
- 238000005094 computer simulation Methods 0.000 abstract description 3
- 230000006399 behavior Effects 0.000 abstract description 2
- RZVHIXYEVGDQDX-UHFFFAOYSA-N 9,10-anthraquinone Chemical compound C1=CC=C2C(=O)C3=CC=CC=C3C(=O)C2=C1 RZVHIXYEVGDQDX-UHFFFAOYSA-N 0.000 description 6
- 230000008569 process Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 241000022852 Letis Species 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2111/00—Details relating to CAD techniques
- G06F2111/08—Probabilistic or stochastic CAD
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- Databases & Information Systems (AREA)
- Feedback Control In General (AREA)
Abstract
本发明公开了一种基于在线稀疏化核学习的欠驱动VTOL系统最优控制方法,包括:基于在线稀疏化核学习ALD算法对VTOL数据进行稀疏化,以降低计算负担;基于稀疏化KHDP算法设计VTOL非线性系统最优控制,采用三层BP神经网络模块设计模型模块和动作模块。最后对KHDP算法进行计算机仿真研究,证明该算法对VTOL飞行航向系统可以进行有效的控制,并使性能指标函数达到最优。把强化学习与稀疏化核学习相结合,提出VTOL系统的KHDP算法,是当前人工智能领域重要的研究内容。VTOL通过传感器获得实时在线数据,利用观测或分析系统行为而进行强化学习,从输入‑输出数据构造递推算法对系统未知参数进行辨识,寻找系统最优化策略,设计自适应动态优化算法,从而实现欠驱动VTOL系统的最优解。
Description
技术领域
本发明涉及人工智能领域,具体涉及一种基于在线稀疏化核学习的欠驱动VTOL系统最优控制方法。
背景技术
垂直起降(vertical take-off and landing,VTOL)飞行控制系统是一种欠驱动系统,即系统的独立控制变量个数小于系统自由度个数的一类非线性系统。由于欠驱动系统输入个数少于状态,不能化为完整约束。同时由于VTOL系统的高度非线性、参数摄动、多目标控制要求及控制量受限等原因,欠驱动系统非常复杂,因而很难找到一种普遍适用的方法。
经典的欠驱动VTOL控制技术主要是基于神经网络模块的自适应控制。但是使用神经网络模块控制主要存在以下缺点。1)当遇到状态和数据量较大时候,模块的泛化能力较弱。模块的预测能力(也称泛化能力、推广能力)与训练能力(也称逼近能力、学习能力)存在矛盾。一般情况下,训练能力差时,预测能力也差,并且一定程度上,随训练能力地提高,预测能力也提高。但这种趋势有一个极限,当达到此极限时,随训练能力的提高,预测能力反而下降,即出现所谓“过拟合”现象。此时,模块学习了过多的样本细节,而不能反映样本内含的规律;2)神经网络模块没训练到位致使训练算法陷入局部极值从而训练失败;3)神经网络模块的逼近、推广能力同学习样本的典型性密切相关,而从问题中选取典型样本实例组成训练集是十分困难;4)难以解决应用问题的实例规模和模块规模间的矛盾。这涉及到模块容量的可能性与可行性的关系问题,即学习复杂性问题;5)模块结构的选择尚无一种统一而完整的理论指导,一般只能由经验选定。
发明内容
本发明的目的在于提供一种
为了达到上述目的,本发明采用的技术方案如下:
一种基于在线稀疏化核学习的欠驱动VTOL系统最优控制方法,该方法包括:
基于在线稀疏化核学习ALD算法对VTOL数据进行稀疏化,以降低计算负担;
基于稀疏化KHDP算法设计VTOL非线性系统最优控制。
可选地,所述稀疏化具体包括:首先建立数据字典Dn,然后把核机器学习运用到评价模块中。
可选地,所述评价模块的时间目的是近似性能指标函数,采用核最小时间差分学习算法可以得到近似值函数,具体如下:
其中,αi是ALD分析后的组合系数,d(n)是数据字典Dn的长度,xi∈Dn为完成ALD分析后的数据字典Dn的元素,其中i=1,2,…,d(n)。
可选地,在线建立数据字典的方法是:假设在n-1刻时间,出现新的数据样本{xn,yn},数据字典的元素为其中ci是第i个数据存储中心,mn-1是该时刻的基数,即|Dn-1|=mn-1,根据设定条件,判断xn是否加入该数据字典。
可选地,ALD是根据在特征空间中近似满足线性依赖的条件,在线构造数据字典的方法,当新的数据样本{xn,yn}到来时,通过计算残留误差条件:
其中,是待求解的一个包含线性组合扩展系数的向量,ν是决定近似精度与稀疏度的阈值参数;
判断新的采样数据是否加入到该数据字典,如果满足条件(8),即δt没有超过设定的阈值,那么φ(xn)在给定的平方误差ν内通过当前数据字典中的元素线性组合进行表示;如果δ>ν,那么当前数据字典不能代表新的数据信息,因此数据字典必须进行扩容,此时新的数据中心cn=sn加入到数据字典中,满足Dn=Dn-1∪{cn},mn=mn-1+1。
可选地,根据特征空间的内积和特征向量可以得到:
根据核技巧:
<φ(si),φ(sj)>=k(si,sj) (10)
可以得到:
其中,[Kn-1]i,j=k(ci,xj),knn=(k(xn),k(xn)),[kn-1(xn)]i=k(xi,xn);
因此进一步可以得到:
δn=knn-kn-1(xn)Tan (13)
此时数据采样Sn的所有特征向量可以通过数据字典内的特征空间的线性组合进行表示,完成ALD分析后,数据字典Dn具有较少的数据向量维数,核最小时间差分学习算法(KLS-TD)可以得到近似值函数:
其中,αi是ALD分析后的组合系数,d(n)是数据字典Dn的长度,sj=s(xj,uj)和xj(j=1,2,…,d(n))是为完成ALD分析后的数据字典Dn的元素,i=1,2,…,d(n)。
可选地,该最优控制通过模块模块、评价模块和动作模块实现。
可选地,模块模块的设计目的是近似误差系统,在执行KHDP算法之前,首先训练模块模块,对于给定的xt和ut,那么模块模块的输出为:
其中,模块模块的误差函数可以定义为:
模块模块的权值更新是通过最小化下式进行实现:
根据梯度自适应规则,权值更新满足:
其中,lm>0是模块模块的学习率,在完成模块模块的训练后,其权值应保持不变。
可选地,在KHDP算法中,评价模块的主要作用是对值函数V(xt)近似一种线性加权形式,其中Mercer核函数k(x,y)=<φ(x),φ(y)>用作再生核Hilbert空间(RKHS)的特征映射,令st=(xt,ut)在时刻t时刻输入-输出数据,那么性能指标函数V(xt,ut)可以相应的表示成V(st);
为了实现自适应评价的在线学习,基于核的RLS-TD(0)的更新规则将用于KHDP算法中满足:
其中,βt是评价模块中的步长,μ满足0<μ≤1是遗忘因子,P0=δI,δ是正数,I是单位矩阵。
可选地,在KHDP算法中,动作模块中的输入为xt,为了获得最优控制率,动作模块的输出可以描述为:
为了实现最优控制目标,定义动作模块的性能误差函数为:
当使用高斯核函数时,近似值函数为:
其中,是最优控制响应对的系数向量,最优控制响应对的维数为m;
定义||·||为:
根据梯度下降法,动作模块的权值调整满足:
在式(27)引入近似值函数(25),那么可以得到:
在KHDP算法中,动作模块的权值更新规则满足:
其中,0<la≤1是动作模块的学习率。
与现有技术相比,本发明至少具有以下优点之一:
1、把强化学习与稀疏化核学习相结合,提出VTOL系统的KHDP算法,是当前人工智能领域重要的研究内容。VTOL通过传感器获得实时在线数据,利用观测或分析系统行为而进行强化学习,从输入-输出数据构造递推算法对系统未知参数进行辨识,寻找系统最优化策略,设计自适应动态优化算法,从而实现欠驱动VTOL系统的最优解。
2、由于VTOL系统中存在大量的在线数据,核函数可以通过数据内积的形式反映数据之间的相似性,改进特征空间的内积的计算复杂度,在高维的特征空间中提供有效的学习算法。
3、通过核函数构建的核矩阵承担者数据输入和学习算法之间联系的桥梁,即通过核矩阵,在线学习算法才能收到关于特征空间和输入数据之间的信息,以及训练数据本身的信息。通过对飞行数据的采样和学习可以有效地解决欠驱动VTOL系统在线学习与非线性最优控制问题。
4、本设计采用神经核地推最小二乘算法对值函数进行在线评价,设计最优控制算法,采样随机数估计证明每次迭代过程、从而实现KHDP算法的评价模块的权重收敛和动作模块的权重收敛。
5、在VTOL最优控制系统中,怎样对数据进行在线稀疏化处理,保证算法的有效性和收敛性,是一个前沿研究领域。本设计采用近似线性相关算法(ALD)对飞控数据进行稀疏化处理,以确保飞行控制实时和有效,是设计的主要创新。
6、把KHDP算法应用到VTOL欠驱动系统,进行在线学习。欠驱动VTOL系统引入核函数后算法将具有使用快捷性和计算灵活性的优点,可以用来评价欠驱动VTOL系统的泛化性能。
7、理论分析和计算机仿真表明,所提算法能减轻计算负担,降低对系统状态的测量要求,实现飞行器位置准确跟踪,并对非线性建模的参数不确定性具有鲁棒性。
8、此方法可有效地解决输入其他欠驱动系统的非线性最优控制和轨迹跟踪问题。
附图说明
图1是本发明一实施例中基于KHDP算法的VTOL飞行控制系统框架图;
图2是本发明一实施例中ALD算法流程图;
图3是本发明一实施例中非线性最优控制算法流程图;
图4是本发明一实施例中VTOL飞行系统状态曲线;
图5是本发明一实施例中性能指标函数收敛曲线;
图6是本发明一实施例中VTOL航向系统的最优控制率。
具体实施方式
以下结合附图1~6和具体实施方式对本发明作进一步详细说明。根据下面说明,本发明的优点和特征将更清楚。需要说明的是,附图采用非常简化的形式且均使用非精准的比例,仅用以方便、明晰地辅助说明本发明实施方式的目的。为了使本发明的目的、特征和优点能够更加明显易懂,请参阅附图。须知,本说明书所附图式所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容能涵盖的范围内。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、基于在线稀疏化核学习的欠驱动VTOL系统最优控制方法、物品或者现场设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、基于在线稀疏化核学习的欠驱动VTOL系统最优控制方法、物品或者现场设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、基于在线稀疏化核学习的欠驱动VTOL系统最优控制方法、物品或者现场设备中还存在另外的相同要素。
在强化学习中,自适应动态规划(Adaptive dynamic programming)与在线稀疏化核学习(Online sparse kernel learning)相结合,是当前人工智能理论研究的一个重要领域。在自适应动态规划中启发式动态规划(Heuristic dynamic programming,HDP)是一个主要实现方式。本设计结合HDP算法和近似线性相关(Approximate linear dependence,ALD)算法,设计基于稀疏化核学习的在线KHDP算法(Kernel heuristic dynamicprogramming)研究了VTOL飞行控制系统,解决欠驱动系统的非线性最优控制问题。通过核机器学习设计评价模块,运用ALD分析进行数据的稀疏化处理。采用三层BP神经网络模块设计模块模块和动作模块。最后对KHDP算法进行计算机仿真研究,证明该算法对VTOL飞行航向系统可以进行有效的控制,并使性能指标函数达到最优。
欠驱动VTOL飞行系统的动态方程如下
其中,是VTOL中心位置,θ是VTOL飞行系统的航向角;T是来自VTOL底部的推力;l是VTOL的滚动力矩;VTOL的质量m=68.6吨;g=9.8m/s是重力加速度;ε0=0.5是滚动力矩和侧面加速度的相关系数;Ix=123是系统参数。
根据式(1),令是系统变量,两个控制输入变量为u=[T l]T。因此VTOL系统的方程可以转换为
因此,最优控制的目标设计控制率u(k),最小化以下无限时间状态值函数:
其中,0<γ≤1是折扣因子。U是效用函数,选择以下二次型形式:
其中,和/>分别为适当维数的正定矩阵,为简便计算,本设计设定Q和R分别为单位矩阵。
根据Bellman最优性原理,最优性能函数Q*(xk)满足Hamilton-Jacobi-Bellmanequation(HJB)方程:
此时最优控制率为
基于KHDP的VTOL飞行控制系统包括包含三个模块:1)评价器模块(Critic),其作用主要是通过对值函数(Cost-to-go)进行近似来对动作模块的性能进行评估,相当于策略评价;2)动作模块(Actor),其作用主要是跟评价模块的评价产生相应的优化动作,即相当于进行策略改进;3)模块模块(Model),主要在需要产生评价器模块和动作模块的训练信号时用到,见图1所示。其中评价模块采用核递推最小二乘时间差分学习算法(KRLS-TD),因此核函数和有它引起的特征空间在评价模块学习中起着至关重要的作用。
本实施例提供的一种基于在线稀疏化核学习的欠驱动VTOL系统最优控制方法,该方法包括:
基于在线稀疏化核学习ALD算法对VTOL数据(即上述的系统变量)进行稀疏化,以降低计算负担;
基于稀疏化KHDP算法设计VTOL非线性系统最优控制。
本实施例中,所述稀疏化具体包括:首先建立数据字典Dn,然后把核机器学习运用到评价模块中。
本实施例中,所述评价模块的时间目的是近似性能指标函数,采用核最小时间差分学习算法(KLSTD)可以得到近似值函数,具体如下:
其中,αi是ALD分析后的组合系数,d(n)是数据字典Dn的长度,xi∈Dn为完成ALD分析后的数据字典Dn的元素,其中i=1,2,…,d(n)。
本实施例中,在线建立数据字典的基本方法是:假设在n-1刻时间,出现新的数据样本{xn,yn},数据字典的元素为其中ci是第i个数据存储中心,mn-1是该时刻的基数,即|Dn-1|=mn-1,根据设定条件,判断xn是否加入该数据字典。
本实施例中,ALD是根据在特征空间中近似满足线性依赖的条件,在线构造数据字典的方法,当新的数据样本{xn,yn}到来时,通过计算残留误差条件:
其中,是待求解的一个包含线性组合扩展系数的向量,ν是决定近似精度与稀疏度的阈值参数;
判断新的采样数据是否加入到该数据字典,如果满足条件(8),即δt没有超过设定的阈值,那么φ(xn)在给定的平方误差ν内通过当前数据字典中的元素线性组合进行表示;如果δ>ν,那么当前数据字典不能代表新的数据信息,因此数据字典必须进行扩容,此时新的数据中心cn=sn加入到数据字典中,满足Dn=Dn-1∪{cn},mn=mn-1+1。
本实施例中,根据特征空间的内积和特征向量可以得到:
根据核技巧:
<φ(si),φ(sj)>=k(si,sj) (10)
可以得到:
其中,[Kn-1]i,j=k(ci,xj),knn=(k(xn),k(xn)),[kn-1(xn)]i=k(xi,xn);
因此进一步可以得到:
δn=knn-kn-1(xn)Tan (13)
此时数据采样Sn的所有特征向量可以通过数据字典内的特征空间的线性组合进行表示,完成ALD分析后,数据字典Dn具有较少的数据向量维数,核最小时间差分学习算法(KLS-TD)可以得到近似值函数:
其中,αi是ALD分析后的组合系数,d(n)是数据字典Dn的长度,sj=s(xj,uj)和xj(j=1,2,…,d(n))是为完成ALD分析后的数据字典Dn的元素,i=1,2,…,d(n)。
本实施例中,该最优控制通过模块模块、评价模块和动作模块实现。
本实施例中,模块模块的设计目的是近似误差系统,在执行KHDP算法之前,首先训练模块模块,对于给定的xt和ut,那么模块模块的输出为:
其中,模块模块的误差函数可以定义为:
模块模块的权值更新是通过最小化下式进行实现:
根据梯度自适应规则,权值更新满足:
其中,lm>0是模块模块的学习率,在完成模块模块的训练后,其权值应保持不变。
本实施例中,在KHDP算法中,评价模块的主要作用是对值函数V(xt)近似一种线性加权形式,其中Mercer核函数k(x,y)=<φ(x),φ(y)>用作再生核Hilbert空间(RKHS)的特征映射,令st=(xt,ut)在时刻t时刻输入-输出数据,那么性能指标函数V(xt,ut)可以相应的表示成V(st);
为了实现自适应评价的在线学习,基于核的RLS-TD(0)的更新规则将用于KHDP算法中满足:
其中,βt是评价模块中的步长,μ满足0<μ≤1是遗忘因子,P0=δI,δ是正数,I是单位矩阵。
本实施例中,在KHDP算法中,动作模块中的输入为xt,为了获得最优控制率,动作模块的输出可以描述为:
为了实现最优控制目标,定义动作模块的性能误差函数为:
当使用高斯核函数时,近似值函数为:
其中,是最优控制响应对的系数向量,最优控制响应对的维数为m;
定义||·||为:
根据梯度下降法,动作模块的权值调整满足:
在式(27)引入近似值函数(25),那么可以得到:
在KHDP算法中,动作模块的权值更新规则满足:
其中,0<la≤1是动作模块的学习率。
设定VTOL系统的初始状态为x0=[0.5 -1 -0.5 1 0.5 0.5]T。模块模块和动作模块分别选取三层BP神经网络模块,结构分别为8-8-6和6-8-2。模块模块和动作模块的权值初始值在(-1,1)内随机设定。ALD分析的门限值μ=0.001,时间步长选取为0.02秒。
图4是VTOL系统状态收敛图,从该图中可以看到,在KHDP控制的作用下,系统各状态渐进为零。图5是性能指标收敛曲线,其中dQdxi代表λ(xi),i=1,…,6,从图中可以看到系统的值函数很快收敛到零状态。图6是VTOL飞行系统的最优控制率曲线。
尽管本发明的内容已经通过上述优选实施例作了详细介绍,但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后,对于本发明的多种修改和替代都将是显而易见的。因此,本发明的保护范围应由所附的权利要求来限定。
Claims (10)
1.一种基于在线稀疏化核学习的欠驱动VTOL系统最优控制方法,其特征在于,该方法包括:
基于在线稀疏化核学习ALD算法对VTOL数据进行稀疏化,以降低计算负担;
欠驱动VTOL飞行系统的动态方程的表达式为:
其中,是VTOL中心位置,θ是VTOL飞行系统的航向角;T是来自VTOL底部的推力;l是VTOL的滚动力矩;VTOL的质量m=68.6吨;g=9.8m/s是重力加速度;ε0=0.5是滚动力矩和侧面加速度的相关系数;Ix=123是系统参数,
根据所述欠驱动VTOL飞行系统的动态方程,令是系统变量,两个控制输入变量为u=[T l]T,将所述欠驱动VTOL飞行系统的动态方程转换为:
基于稀疏化KHDP算法设计VTOL非线性系统最优控制,
最优控制的目标设计控制率u(k),最小化以下无限时间状态值函数:
其中,0<γ≤1是折扣因子,U是效用函数,选择二次型形式,得到其表达式为:
其中,和/>分别为正定矩阵,设定Q和R分别为单位矩阵,
根据Bellman最优性原理,最优性能函数Q*(xk)满足哈密顿-雅可比-贝尔曼方程:
得到最优控制率为:
2.如权利要求1所述的基于在线稀疏化核学习的欠驱动VTOL系统最优控制方法,其特征在于,所述稀疏化具体包括:首先建立数据字典Dn,然后把核机器学习运用到评价模块中。
3.如权利要求1所述的基于在线稀疏化核学习的欠驱动VTOL系统最优控制方法,其特征在于,
所述评价模块的时间目的是近似性能指标函数,采用核最小时间差分学习算法可以得到近似值函数,具体如下:
其中,αi是ALD分析后的组合系数,d(n)是数据字典Dn的长度,xi∈Dn为完成ALD分析后的数据字典Dn的元素,其中i=1,2,…,d(n)。
4.如权利要求1所述的基于在线稀疏化核学习的欠驱动VTOL系统最优控制方法,其特征在于,
在线建立数据字典的方法是:假设在n-1刻时间,出现新的数据样本{xn,yn},数据字典的元素为其中ci是第i个数据存储中心,mn-1是该时刻的基数,即|Dn-1|=mn-1,根据设定条件,判断xn是否加入该数据字典。
5.如权利要求1所述的基于在线稀疏化核学习的欠驱动VTOL系统最优控制方法,其特征在于,
ALD是根据在特征空间中近似满足线性依赖的条件,在线构造数据字典的方法,当新的数据样本{xn,yn}到来时,通过计算残留误差条件:
其中,是待求解的一个包含线性组合扩展系数的向量,ν是决定近似精度与稀疏度的阈值参数;
判断新的采样数据是否加入到该数据字典,如果满足条件(8),即δt没有超过设定的阈值,那么φ(xn)在给定的平方误差ν内通过当前数据字典中的元素线性组合进行表示;如果δ>ν,那么当前数据字典不能代表新的数据信息,因此数据字典必须进行扩容,此时新的数据中心cn=sn加入到数据字典中,满足Dn=Dn-1∪{cn},mn=mn-1+1。
6.如权利要求5所述的基于在线稀疏化核学习的欠驱动VTOL系统最优控制方法,其特征在于,
根据特征空间的内积和特征向量可以得到:
根据核技巧:
<φ(si),φ[sj)>=k(si,sj) (10)
可以得到:
其中,[Kn-1]i,j=k(ci,xj),knn=(k(xn),k(xn)),[kn-1(xn)]i=k(xi,xn);
因此进一步可以得到:
δn=knn-kn-1(xn)Tan (13)
此时数据采样Sn的所有特征向量可以通过数据字典内的特征空间的线性组合进行表示,完成ALD分析后,数据字典Dn具有较少的数据向量维数,核最小时间差分学习算法(KLS-TD)可以得到近似值函数:
其中,αi是ALD分析后的组合系数,d(n)是数据字典Dn的长度,sj=s(xj,uj)和xj(j=1,2,…,d(n))是为完成ALD分析后的数据字典Dn的元素,i=1,2,…,d(n)。
7.如权利要求1所述的基于在线稀疏化核学习的欠驱动VTOL系统最优控制方法,其特征在于,该最优控制通过模块模块、评价模块和动作模块实现。
8.如权利要求7所述的基于在线稀疏化核学习的欠驱动VTOL系统最优控制方法,其特征在于,
模块模块的设计目的是近似误差系统,在执行KHDP算法之前,首先训练模块模块,对于给定的xt和ut,那么模块模块的输出为:
其中,模块模块的误差函数可以定义为:
模块模块的权值更新是通过最小化下式进行实现:
根据梯度自适应规则,权值更新满足:
其中,lm>0是模块模块的学习率,在完成模块模块的训练后,其权值应保持不变。
9.如权利要求1所述的基于在线稀疏化核学习的欠驱动VTOL系统最优控制方法,其特征在于,
在KHDP算法中,评价模块的主要作用是对值函数V(xt)近似一种线性加权形式,其中Mercer核函数k(x,y)=<φ(x),φ(y)>用作再生核Hilbert空间(RKHS)的特征映射,令st=(xt,ut)在时刻t时刻输入-输出数据,那么性能指标函数V(xt,ut)可以相应的表示成V(st);
为了实现自适应评价的在线学习,基于核的RLS-TD(0)的更新规则将用于KHDP算法中满足:
其中,βt是评价模块中的步长,μ满足0<μ≤1是遗忘因子,P0=δI,δ是正数,I是单位矩阵。
10.如权利要求1所述的基于在线稀疏化核学习的欠驱动VTOL系统最优控制方法,其特征在于,
在KHDP算法中,动作模块中的输入为xt,为了获得最优控制率,动作模块的输出可以描述为:
为了实现最优控制目标,定义动作模块的性能误差函数为:
当使用高斯核函数时,近似值函数为:
其中,是最优控制响应对的系数向量,最优控制响应对的维数为m;
定义||·||为:
根据梯度下降法,动作模块的权值调整满足:
在式(27)引入近似值函数(25),那么可以得到:
在KHDP算法中,动作模块的权值更新规则满足:
其中,0<la≤1是动作模块的学习率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110280733.5A CN112800684B (zh) | 2021-03-16 | 2021-03-16 | 一种基于在线稀疏化核学习的欠驱动vtol系统最优控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110280733.5A CN112800684B (zh) | 2021-03-16 | 2021-03-16 | 一种基于在线稀疏化核学习的欠驱动vtol系统最优控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112800684A CN112800684A (zh) | 2021-05-14 |
CN112800684B true CN112800684B (zh) | 2023-09-12 |
Family
ID=75817071
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110280733.5A Active CN112800684B (zh) | 2021-03-16 | 2021-03-16 | 一种基于在线稀疏化核学习的欠驱动vtol系统最优控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112800684B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104021528A (zh) * | 2014-06-12 | 2014-09-03 | 南昌大学 | 一种基于解析稀疏模型的字典学习算法 |
WO2018149133A1 (zh) * | 2017-02-17 | 2018-08-23 | 深圳大学 | 基于核非负矩阵分解的字典学习和稀疏特征表示的人脸识别方法及系统 |
-
2021
- 2021-03-16 CN CN202110280733.5A patent/CN112800684B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104021528A (zh) * | 2014-06-12 | 2014-09-03 | 南昌大学 | 一种基于解析稀疏模型的字典学习算法 |
WO2018149133A1 (zh) * | 2017-02-17 | 2018-08-23 | 深圳大学 | 基于核非负矩阵分解的字典学习和稀疏特征表示的人脸识别方法及系统 |
Non-Patent Citations (1)
Title |
---|
一种解决连续空间问题的真实在线自然梯度AC算法;朱斐;朱海军;刘全;陈冬火;伏玉琛;;软件学报(02);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112800684A (zh) | 2021-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106600059B (zh) | 基于改进rbf神经网络的智能电网短期负荷预测方法 | |
Boulkaibet et al. | A new TS fuzzy model predictive control for nonlinear processes | |
CN110414788B (zh) | 一种基于相似日和改进lstm的电能质量预测方法 | |
Lee et al. | Sparse markov decision processes with causal sparse tsallis entropy regularization for reinforcement learning | |
CN110647042B (zh) | 一种基于数据驱动的机器人鲁棒学习预测控制方法 | |
CN111563706A (zh) | 一种基于lstm网络的多变量物流货运量预测方法 | |
Yang et al. | A novel self-constructing radial basis function neural-fuzzy system | |
CN111310965A (zh) | 一种基于lstm网络的飞行器航迹预测方法 | |
Al‐Hadithi et al. | New methods for the estimation of Takagi–Sugeno model based extended Kalman filter and its applications to optimal control for nonlinear systems | |
CN110738363B (zh) | 一种光伏发电功率预测方法 | |
CN114357872A (zh) | 一种基于stacking模型融合的船舶运动黑箱辨识建模与运动预测方法 | |
Schwedersky et al. | Nonlinear model predictive control algorithm with iterative nonlinear prediction and linearization for long short-term memory network models | |
CN114819068A (zh) | 一种混合型目标航迹预测方法及系统 | |
Skomski et al. | Constrained block nonlinear neural dynamical models | |
CN113052373A (zh) | 一种基于改进elm模型的月径流变化趋势预测方法 | |
Xu et al. | DBN based SD-ARX model for nonlinear time series prediction and analysis | |
Mai et al. | Application of Interval Type-2 Fuzzy Logic System and Ant Colony Optimization for Hydropower Dams Displacement Forecasting | |
CN114004346A (zh) | 基于门控堆叠同构自编码器的软测量建模方法及存储介质 | |
CN112800684B (zh) | 一种基于在线稀疏化核学习的欠驱动vtol系统最优控制方法 | |
Bodyanskiy et al. | A hybrid cascade neural network with ensembles of extended neo-fuzzy neurons and its deep learning | |
CN113408183A (zh) | 基于预测模型的车辆基地短期复合预测方法 | |
CN115630566A (zh) | 一种基于深度学习和动力约束的资料同化方法和系统 | |
Priyadharshini et al. | Materials property prediction using feature selection based machine learning technique | |
CN114911157A (zh) | 基于部分可观测强化学习的机器人导航控制方法及系统 | |
CN112947066A (zh) | 一种机械手改进有限时间反演控制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |