CN112800684A - 一种基于在线稀疏化核学习的欠驱动vtol系统最优控制方法 - Google Patents

一种基于在线稀疏化核学习的欠驱动vtol系统最优控制方法 Download PDF

Info

Publication number
CN112800684A
CN112800684A CN202110280733.5A CN202110280733A CN112800684A CN 112800684 A CN112800684 A CN 112800684A CN 202110280733 A CN202110280733 A CN 202110280733A CN 112800684 A CN112800684 A CN 112800684A
Authority
CN
China
Prior art keywords
module
algorithm
vtol
optimal control
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110280733.5A
Other languages
English (en)
Other versions
CN112800684B (zh
Inventor
谭拂晓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Maritime University
Original Assignee
Shanghai Maritime University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Maritime University filed Critical Shanghai Maritime University
Priority to CN202110280733.5A priority Critical patent/CN112800684B/zh
Publication of CN112800684A publication Critical patent/CN112800684A/zh
Application granted granted Critical
Publication of CN112800684B publication Critical patent/CN112800684B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/08Probabilistic or stochastic CAD

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Geometry (AREA)
  • Medical Informatics (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种基于在线稀疏化核学习的欠驱动VTOL系统最优控制方法,包括:基于在线稀疏化核学习ALD算法对VTOL数据进行稀疏化,以降低计算负担;基于稀疏化KHDP算法设计VTOL非线性系统最优控制,采用三层BP神经网络模块设计模型模块和动作模块。最后对KHDP算法进行计算机仿真研究,证明该算法对VTOL飞行航向系统可以进行有效的控制,并使性能指标函数达到最优。把强化学习与稀疏化核学习相结合,提出VTOL系统的KHDP算法,是当前人工智能领域重要的研究内容。VTOL通过传感器获得实时在线数据,利用观测或分析系统行为而进行强化学习,从输入‑输出数据构造递推算法对系统未知参数进行辨识,寻找系统最优化策略,设计自适应动态优化算法,从而实现欠驱动VTOL系统的最优解。

Description

一种基于在线稀疏化核学习的欠驱动VTOL系统最优控制方法
技术领域
本发明涉及人工智能领域,具体涉及一种基于在线稀疏化核学习的欠驱动VTOL系统最优控制方法。
背景技术
垂直起降(vertical take-off and landing,VTOL)飞行控制系统是一种欠驱动系统,即系统的独立控制变量个数小于系统自由度个数的一类非线性系统。由于欠驱动系统输入个数少于状态,不能化为完整约束。同时由于VTOL系统的高度非线性、参数摄动、多目标控制要求及控制量受限等原因,欠驱动系统非常复杂,因而很难找到一种普遍适用的方法。
经典的欠驱动VTOL控制技术主要是基于神经网络模块的自适应控制。但是使用神经网络模块控制主要存在以下缺点。1)当遇到状态和数据量较大时候,模块的泛化能力较弱。模块的预测能力(也称泛化能力、推广能力)与训练能力(也称逼近能力、学习能力)存在矛盾。一般情况下,训练能力差时,预测能力也差,并且一定程度上,随训练能力地提高,预测能力也提高。但这种趋势有一个极限,当达到此极限时,随训练能力的提高,预测能力反而下降,即出现所谓“过拟合”现象。此时,模块学习了过多的样本细节,而不能反映样本内含的规律;2)神经网络模块没训练到位致使训练算法陷入局部极值从而训练失败;3)神经网络模块的逼近、推广能力同学习样本的典型性密切相关,而从问题中选取典型样本实例组成训练集是十分困难;4)难以解决应用问题的实例规模和模块规模间的矛盾。这涉及到模块容量的可能性与可行性的关系问题,即学习复杂性问题;5)模块结构的选择尚无一种统一而完整的理论指导,一般只能由经验选定。
发明内容
本发明的目的在于提供一种
为了达到上述目的,本发明采用的技术方案如下:
一种基于在线稀疏化核学习的欠驱动VTOL系统最优控制方法,该方法包括:
基于在线稀疏化核学习ALD算法对VTOL数据进行稀疏化,以降低计算负担;
基于稀疏化KHDP算法设计VTOL非线性系统最优控制。
可选地,所述稀疏化具体包括:首先建立数据字典Dn,然后把核机器学习运用到评价模块中。
可选地,所述评价模块的时间目的是近似性能指标函数,采用核最小时间差分学习算法可以得到近似值函数,具体如下:
Figure BDA0002978224940000021
其中,αi是ALD分析后的组合系数,d(n)是数据字典Dn的长度,xi∈Dn为完成ALD分析后的数据字典Dn的元素,其中i=1,2,…,d(n)。
可选地,在线建立数据字典的方法是:假设在n-1刻时间,出现新的数据样本{xn,yn},数据字典的元素为
Figure BDA0002978224940000022
其中ci是第i个数据存储中心,mn-1是该时刻的基数,即|Dn-1|=mn-1,根据设定条件,判断xn是否加入该数据字典。
可选地,ALD是根据在特征空间中近似满足线性依赖的条件,在线构造数据字典的方法,当新的数据样本{xn,yn}到来时,通过计算残留误差条件:
Figure BDA0002978224940000023
其中,
Figure BDA0002978224940000024
是待求解的一个包含线性组合扩展系数的向量,ν是决定近似精度与稀疏度的阈值参数;
判断新的采样数据是否加入到该数据字典,如果满足条件(8),即δt没有超过设定的阈值,那么φ(xn)在给定的平方误差ν内通过当前数据字典中的元素线性组合进行表示;如果δ>ν,那么当前数据字典不能代表新的数据信息,因此数据字典必须进行扩容,此时新的数据中心cn=sn加入到数据字典中,满足Dn=Dn-1∪{cn},mn=mn-1+1。
可选地,根据特征空间的内积和特征向量可以得到:
Figure BDA0002978224940000031
根据核技巧:
<φ(si),φ(sj)>=k(si,sj) (10)
可以得到:
Figure BDA0002978224940000032
其中,[Kn-1]i,j=k(ci,xj),knn=(k(xn),k(xn)),[kn-1(xn)]i=k(xi,xn);
因此进一步可以得到:
Figure BDA0002978224940000033
δn=knn-kn-1(xn)Tan (13)
此时数据采样Sn的所有特征向量可以通过数据字典内的特征空间的线性组合进行表示,完成ALD分析后,数据字典Dn具有较少的数据向量维数,核最小时间差分学习算法(KLS-TD)可以得到近似值函数:
Figure BDA0002978224940000034
其中,αi是ALD分析后的组合系数,d(n)是数据字典Dn的长度,sj=s(xj,uj)和xj(j=1,2,…,d(n))是为完成ALD分析后的数据字典Dn的元素,i=1,2,…,d(n)。
可选地,该最优控制通过模块模块、评价模块和动作模块实现。
可选地,模块模块的设计目的是近似误差系统,在执行KHDP算法之前,首先训练模块模块,对于给定的xt和ut,那么模块模块的输出为:
Figure BDA0002978224940000041
其中,
Figure BDA0002978224940000042
模块模块的误差函数可以定义为:
Figure BDA0002978224940000043
模块模块的权值更新是通过最小化下式进行实现:
Figure BDA0002978224940000044
根据梯度自适应规则,权值更新满足:
Figure BDA0002978224940000045
Figure BDA0002978224940000046
其中,lm>0是模块模块的学习率,在完成模块模块的训练后,其权值应保持不变。
可选地,在KHDP算法中,评价模块的主要作用是对值函数V(xt)近似一种线性加权形式,其中Mercer核函数k(x,y)=<φ(x),φ(y)>用作再生核Hilbert空间(RKHS)的特征映射,令st=(xt,ut)在时刻t时刻输入-输出数据,那么性能指标函数V(xt,ut)可以相应的表示成V(st);
为了实现自适应评价的在线学习,基于核的RLS-TD(0)的更新规则将用于KHDP算法中满足:
Figure BDA0002978224940000047
Figure BDA0002978224940000051
Figure BDA0002978224940000052
其中,βt是评价模块中的步长,μ满足0<μ≤1是遗忘因子,P0=δI,δ是正数,I是单位矩阵。
可选地,在KHDP算法中,动作模块中的输入为xt,为了获得最优控制率,动作模块的输出可以描述为:
Figure BDA0002978224940000053
为了实现最优控制目标,定义动作模块的性能误差函数为:
Figure BDA0002978224940000054
当使用高斯核函数时,近似值函数为:
Figure BDA0002978224940000055
其中,
Figure BDA0002978224940000056
是最优控制响应对的系数向量,最优控制响应对的维数为m;
定义||·||为:
Figure BDA0002978224940000057
根据梯度下降法,动作模块的权值调整满足:
Figure BDA0002978224940000058
在式(27)引入近似值函数(25),那么可以得到:
Figure BDA0002978224940000059
在KHDP算法中,动作模块的权值更新规则满足:
Figure BDA0002978224940000061
Figure BDA0002978224940000062
其中,0<la≤1是动作模块的学习率。
与现有技术相比,本发明至少具有以下优点之一:
1、把强化学习与稀疏化核学习相结合,提出VTOL系统的KHDP算法,是当前人工智能领域重要的研究内容。VTOL通过传感器获得实时在线数据,利用观测或分析系统行为而进行强化学习,从输入-输出数据构造递推算法对系统未知参数进行辨识,寻找系统最优化策略,设计自适应动态优化算法,从而实现欠驱动VTOL系统的最优解。
2、由于VTOL系统中存在大量的在线数据,核函数可以通过数据内积的形式反映数据之间的相似性,改进特征空间的内积的计算复杂度,在高维的特征空间中提供有效的学习算法。
3、通过核函数构建的核矩阵承担者数据输入和学习算法之间联系的桥梁,即通过核矩阵,在线学习算法才能收到关于特征空间和输入数据之间的信息,以及训练数据本身的信息。通过对飞行数据的采样和学习可以有效地解决欠驱动VTOL系统在线学习与非线性最优控制问题。
4、本设计采用神经核地推最小二乘算法对值函数进行在线评价,设计最优控制算法,采样随机数估计证明每次迭代过程、从而实现KHDP算法的评价模块的权重收敛和动作模块的权重收敛。
5、在VTOL最优控制系统中,怎样对数据进行在线稀疏化处理,保证算法的有效性和收敛性,是一个前沿研究领域。本设计采用近似线性相关算法(ALD)对飞控数据进行稀疏化处理,以确保飞行控制实时和有效,是设计的主要创新。
6、把KHDP算法应用到VTOL欠驱动系统,进行在线学习。欠驱动VTOL系统引入核函数后算法将具有使用快捷性和计算灵活性的优点,可以用来评价欠驱动VTOL系统的泛化性能。
7、理论分析和计算机仿真表明,所提算法能减轻计算负担,降低对系统状态的测量要求,实现飞行器位置准确跟踪,并对非线性建模的参数不确定性具有鲁棒性。
8、此方法可有效地解决输入其他欠驱动系统的非线性最优控制和轨迹跟踪问题。
附图说明
图1是本发明一实施例中基于KHDP算法的VTOL飞行控制系统框架图;
图2是本发明一实施例中ALD算法流程图;
图3是本发明一实施例中非线性最优控制算法流程图;
图4是本发明一实施例中VTOL飞行系统状态曲线;
图5是本发明一实施例中性能指标函数收敛曲线;
图6是本发明一实施例中VTOL航向系统的最优控制率。
具体实施方式
以下结合附图1~6和具体实施方式对本发明作进一步详细说明。根据下面说明,本发明的优点和特征将更清楚。需要说明的是,附图采用非常简化的形式且均使用非精准的比例,仅用以方便、明晰地辅助说明本发明实施方式的目的。为了使本发明的目的、特征和优点能够更加明显易懂,请参阅附图。须知,本说明书所附图式所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容能涵盖的范围内。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、基于在线稀疏化核学习的欠驱动VTOL系统最优控制方法、物品或者现场设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、基于在线稀疏化核学习的欠驱动VTOL系统最优控制方法、物品或者现场设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、基于在线稀疏化核学习的欠驱动VTOL系统最优控制方法、物品或者现场设备中还存在另外的相同要素。
在强化学习中,自适应动态规划(Adaptive dynamic programming)与在线稀疏化核学习(Online sparse kernel learning)相结合,是当前人工智能理论研究的一个重要领域。在自适应动态规划中启发式动态规划(Heuristic dynamic programming,HDP)是一个主要实现方式。本设计结合HDP算法和近似线性相关(Approximate linear dependence,ALD)算法,设计基于稀疏化核学习的在线KHDP算法(Kernel heuristic dynamicprogramming)研究了VTOL飞行控制系统,解决欠驱动系统的非线性最优控制问题。通过核机器学习设计评价模块,运用ALD分析进行数据的稀疏化处理。采用三层BP神经网络模块设计模块模块和动作模块。最后对KHDP算法进行计算机仿真研究,证明该算法对VTOL飞行航向系统可以进行有效的控制,并使性能指标函数达到最优。
欠驱动VTOL飞行系统的动态方程如下
Figure BDA0002978224940000081
其中,
Figure BDA0002978224940000082
是VTOL中心位置,θ是VTOL飞行系统的航向角;T是来自VTOL底部的推力;l是VTOL的滚动力矩;VTOL的质量m=68.6吨;g=9.8m/s是重力加速度;ε0=0.5是滚动力矩和侧面加速度的相关系数;Ix=123是系统参数。
根据式(1),令
Figure BDA0002978224940000098
是系统变量,两个控制输入变量为u=[T l]T。因此VTOL系统的方程可以转换为
Figure BDA0002978224940000091
因此,最优控制的目标设计控制率u(k),最小化以下无限时间状态值函数:
Figure BDA0002978224940000092
其中,0<γ≤1是折扣因子。U是效用函数,选择以下二次型形式:
Figure BDA0002978224940000093
其中,
Figure BDA0002978224940000094
Figure BDA0002978224940000095
分别为适当维数的正定矩阵,为简便计算,本设计设定Q和R分别为单位矩阵。
根据Bellman最优性原理,最优性能函数Q*(xk)满足Hamilton-Jacobi-Bellmanequation(HJB)方程:
Figure BDA0002978224940000096
此时最优控制率为
Figure BDA0002978224940000097
基于KHDP的VTOL飞行控制系统包括包含三个模块:1)评价器模块(Critic),其作用主要是通过对值函数(Cost-to-go)进行近似来对动作模块的性能进行评估,相当于策略评价;2)动作模块(Actor),其作用主要是跟评价模块的评价产生相应的优化动作,即相当于进行策略改进;3)模块模块(Model),主要在需要产生评价器模块和动作模块的训练信号时用到,见图1所示。其中评价模块采用核递推最小二乘时间差分学习算法(KRLS-TD),因此核函数和有它引起的特征空间在评价模块学习中起着至关重要的作用。
本实施例提供的一种基于在线稀疏化核学习的欠驱动VTOL系统最优控制方法,该方法包括:
基于在线稀疏化核学习ALD算法对VTOL数据(即上述的系统变量)进行稀疏化,以降低计算负担;
基于稀疏化KHDP算法设计VTOL非线性系统最优控制。
本实施例中,所述稀疏化具体包括:首先建立数据字典Dn,然后把核机器学习运用到评价模块中。
本实施例中,所述评价模块的时间目的是近似性能指标函数,采用核最小时间差分学习算法(KLSTD)可以得到近似值函数,具体如下:
Figure BDA0002978224940000101
其中,αi是ALD分析后的组合系数,d(n)是数据字典Dn的长度,xi∈Dn为完成ALD分析后的数据字典Dn的元素,其中i=1,2,…,d(n)。
本实施例中,在线建立数据字典的基本方法是:假设在n-1刻时间,出现新的数据样本{xn,yn},数据字典的元素为
Figure BDA0002978224940000102
其中ci是第i个数据存储中心,mn-1是该时刻的基数,即|Dn-1|=mn-1,根据设定条件,判断xn是否加入该数据字典。
本实施例中,ALD是根据在特征空间中近似满足线性依赖的条件,在线构造数据字典的方法,当新的数据样本{xn,yn}到来时,通过计算残留误差条件:
Figure BDA0002978224940000103
其中,
Figure BDA0002978224940000111
是待求解的一个包含线性组合扩展系数的向量,ν是决定近似精度与稀疏度的阈值参数;
判断新的采样数据是否加入到该数据字典,如果满足条件(8),即δt没有超过设定的阈值,那么φ(xn)在给定的平方误差ν内通过当前数据字典中的元素线性组合进行表示;如果δ>ν,那么当前数据字典不能代表新的数据信息,因此数据字典必须进行扩容,此时新的数据中心cn=sn加入到数据字典中,满足Dn=Dn-1∪{cn},mn=mn-1+1。
本实施例中,根据特征空间的内积和特征向量可以得到:
Figure BDA0002978224940000112
根据核技巧:
<φ(si),φ(sj)>=k(si,sj) (10)
可以得到:
Figure BDA0002978224940000113
其中,[Kn-1]i,j=k(ci,xj),knn=(k(xn),k(xn)),[kn-1(xn)]i=k(xi,xn);
因此进一步可以得到:
Figure BDA0002978224940000114
δn=knn-kn-1(xn)Tan (13)
此时数据采样Sn的所有特征向量可以通过数据字典内的特征空间的线性组合进行表示,完成ALD分析后,数据字典Dn具有较少的数据向量维数,核最小时间差分学习算法(KLS-TD)可以得到近似值函数:
Figure BDA0002978224940000121
其中,αi是ALD分析后的组合系数,d(n)是数据字典Dn的长度,sj=s(xj,uj)和xj(j=1,2,…,d(n))是为完成ALD分析后的数据字典Dn的元素,i=1,2,…,d(n)。
本实施例中,该最优控制通过模块模块、评价模块和动作模块实现。
本实施例中,模块模块的设计目的是近似误差系统,在执行KHDP算法之前,首先训练模块模块,对于给定的xt和ut,那么模块模块的输出为:
Figure BDA0002978224940000122
其中,
Figure BDA0002978224940000127
模块模块的误差函数可以定义为:
Figure BDA0002978224940000123
模块模块的权值更新是通过最小化下式进行实现:
Figure BDA0002978224940000124
根据梯度自适应规则,权值更新满足:
Figure BDA0002978224940000125
Figure BDA0002978224940000126
其中,lm>0是模块模块的学习率,在完成模块模块的训练后,其权值应保持不变。
本实施例中,在KHDP算法中,评价模块的主要作用是对值函数V(xt)近似一种线性加权形式,其中Mercer核函数k(x,y)=<φ(x),φ(y)>用作再生核Hilbert空间(RKHS)的特征映射,令st=(xt,ut)在时刻t时刻输入-输出数据,那么性能指标函数V(xt,ut)可以相应的表示成V(st);
为了实现自适应评价的在线学习,基于核的RLS-TD(0)的更新规则将用于KHDP算法中满足:
Figure BDA0002978224940000131
Figure BDA0002978224940000132
Figure BDA0002978224940000133
其中,βt是评价模块中的步长,μ满足0<μ≤1是遗忘因子,P0=δI,δ是正数,I是单位矩阵。
本实施例中,在KHDP算法中,动作模块中的输入为xt,为了获得最优控制率,动作模块的输出可以描述为:
Figure BDA0002978224940000134
为了实现最优控制目标,定义动作模块的性能误差函数为:
Figure BDA0002978224940000135
当使用高斯核函数时,近似值函数为:
Figure BDA0002978224940000136
其中,
Figure BDA0002978224940000137
是最优控制响应对的系数向量,最优控制响应对的维数为m;
定义||·||为:
Figure BDA0002978224940000141
根据梯度下降法,动作模块的权值调整满足:
Figure BDA0002978224940000142
在式(27)引入近似值函数(25),那么可以得到:
Figure BDA0002978224940000143
在KHDP算法中,动作模块的权值更新规则满足:
Figure BDA0002978224940000144
Figure BDA0002978224940000145
其中,0<la≤1是动作模块的学习率。
设定VTOL系统的初始状态为x0=[0.5 -1 -0.5 1 0.5 0.5]T。模块模块和动作模块分别选取三层BP神经网络模块,结构分别为8-8-6和6-8-2。模块模块和动作模块的权值初始值在(-1,1)内随机设定。ALD分析的门限值μ=0.001,时间步长选取为0.02秒。
图4是VTOL系统状态收敛图,从该图中可以看到,在KHDP控制的作用下,系统各状态渐进为零。图5是性能指标收敛曲线,其中dQdxi代表λ(xi),i=1,…,6,从图中可以看到系统的值函数很快收敛到零状态。图6是VTOL飞行系统的最优控制率曲线。
尽管本发明的内容已经通过上述优选实施例作了详细介绍,但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后,对于本发明的多种修改和替代都将是显而易见的。因此,本发明的保护范围应由所附的权利要求来限定。

Claims (10)

1.一种基于在线稀疏化核学习的欠驱动VTOL系统最优控制方法,其特征在于,该方法包括:
基于在线稀疏化核学习ALD算法对VTOL数据进行稀疏化,以降低计算负担;
基于稀疏化KHDP算法设计VTOL非线性系统最优控制。
2.如权利要求1所述的基于在线稀疏化核学习的欠驱动VTOL系统最优控制方法,其特征在于,所述稀疏化具体包括:首先建立数据字典Dn,然后把核机器学习运用到评价模块中。
3.如权利要求1所述的基于在线稀疏化核学习的欠驱动VTOL系统最优控制方法,其特征在于,
所述评价模块的时间目的是近似性能指标函数,采用核最小时间差分学习算法可以得到近似值函数,具体如下:
Figure FDA0002978224930000011
其中,αi是ALD分析后的组合系数,d(n)是数据字典Dn的长度,xi∈Dn为完成ALD分析后的数据字典Dn的元素,其中i=1,2,…,d(n)。
4.如权利要求1所述的基于在线稀疏化核学习的欠驱动VTOL系统最优控制方法,其特征在于,
在线建立数据字典的方法是:假设在n-1刻时间,出现新的数据样本{xn,yn},数据字典的元素为
Figure FDA0002978224930000012
其中ci是第i个数据存储中心,mn-1是该时刻的基数,即|Dn-1|=mn-1,根据设定条件,判断xn是否加入该数据字典。
5.如权利要求1所述的基于在线稀疏化核学习的欠驱动VTOL系统最优控制方法,其特征在于,
ALD是根据在特征空间中近似满足线性依赖的条件,在线构造数据字典的方法,当新的数据样本{xn,yn}到来时,通过计算残留误差条件:
Figure FDA0002978224930000013
其中,
Figure FDA0002978224930000021
是待求解的一个包含线性组合扩展系数的向量,ν是决定近似精度与稀疏度的阈值参数;
判断新的采样数据是否加入到该数据字典,如果满足条件(8),即δt没有超过设定的阈值,那么φ(xn)在给定的平方误差ν内通过当前数据字典中的元素线性组合进行表示;如果δ>ν,那么当前数据字典不能代表新的数据信息,因此数据字典必须进行扩容,此时新的数据中心cn=sn加入到数据字典中,满足Dn=Dn-1∪{cn},mn=mn-1+1。
6.如权利要求5所述的基于在线稀疏化核学习的欠驱动VTOL系统最优控制方法,其特征在于,
根据特征空间的内积和特征向量可以得到:
Figure FDA0002978224930000022
根据核技巧:
<φ(si),φ(sj)>=k(si,sj) (10)
可以得到:
Figure FDA0002978224930000023
其中,[Kn-1]i,j=k(ci,xj),knn=(k(xn),k(xn)),[kn-1(xn)]i=k(xi,xn);
因此进一步可以得到:
Figure FDA0002978224930000024
δn=knn-kn-1(xn)Tan (13)
此时数据采样Sn的所有特征向量可以通过数据字典内的特征空间的线性组合进行表示,完成ALD分析后,数据字典Dn具有较少的数据向量维数,核最小时间差分学习算法(KLS-TD)可以得到近似值函数:
Figure FDA0002978224930000031
其中,αi是ALD分析后的组合系数,d(n)是数据字典Dn的长度,sj=s(xj,uj)和xj(j=1,2,…,d(n))是为完成ALD分析后的数据字典Dn的元素,i=1,2,…,d(n)。
7.如权利要求1所述的基于在线稀疏化核学习的欠驱动VTOL系统最优控制方法,其特征在于,该最优控制通过模块模块、评价模块和动作模块实现。
8.如权利要求7所述的基于在线稀疏化核学习的欠驱动VTOL系统最优控制方法,其特征在于,
模块模块的设计目的是近似误差系统,在执行KHDP算法之前,首先训练模块模块,对于给定的xt和ut,那么模块模块的输出为:
Figure FDA0002978224930000032
其中,
Figure FDA0002978224930000033
模块模块的误差函数可以定义为:
Figure FDA0002978224930000034
模块模块的权值更新是通过最小化下式进行实现:
Figure FDA0002978224930000035
根据梯度自适应规则,权值更新满足:
Figure FDA0002978224930000036
Figure FDA0002978224930000041
其中,lm>0是模块模块的学习率,在完成模块模块的训练后,其权值应保持不变。
9.如权利要求1所述的基于在线稀疏化核学习的欠驱动VTOL系统最优控制方法,其特征在于,
在KHDP算法中,评价模块的主要作用是对值函数V(xt)近似一种线性加权形式,其中Mercer核函数k(x,y)=<φ(x),φ(y)>用作再生核Hilbert空间(RKHS)的特征映射,令st=(xt,ut)在时刻t时刻输入-输出数据,那么性能指标函数V(xt,ut)可以相应的表示成V(st);
为了实现自适应评价的在线学习,基于核的RLS-TD(0)的更新规则将用于KHDP算法中满足:
Figure FDA0002978224930000042
Figure FDA0002978224930000043
Figure FDA0002978224930000044
其中,βt是评价模块中的步长,μ满足0<μ≤1是遗忘因子,P0=δI,δ是正数,I是单位矩阵。
10.如权利要求1所述的基于在线稀疏化核学习的欠驱动VTOL系统最优控制方法,其特征在于,
在KHDP算法中,动作模块中的输入为xt,为了获得最优控制率,动作模块的输出可以描述为:
Figure FDA0002978224930000051
为了实现最优控制目标,定义动作模块的性能误差函数为:
Figure FDA0002978224930000052
当使用高斯核函数时,近似值函数为:
Figure FDA0002978224930000053
其中,
Figure FDA0002978224930000054
是最优控制响应对的系数向量,最优控制响应对的维数为m;
定义||·||为:
Figure FDA0002978224930000055
根据梯度下降法,动作模块的权值调整满足:
Figure FDA0002978224930000056
在式(27)引入近似值函数(25),那么可以得到:
Figure FDA0002978224930000057
在KHDP算法中,动作模块的权值更新规则满足:
Figure FDA0002978224930000058
Figure FDA0002978224930000061
其中,0<la≤1是动作模块的学习率。
CN202110280733.5A 2021-03-16 2021-03-16 一种基于在线稀疏化核学习的欠驱动vtol系统最优控制方法 Active CN112800684B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110280733.5A CN112800684B (zh) 2021-03-16 2021-03-16 一种基于在线稀疏化核学习的欠驱动vtol系统最优控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110280733.5A CN112800684B (zh) 2021-03-16 2021-03-16 一种基于在线稀疏化核学习的欠驱动vtol系统最优控制方法

Publications (2)

Publication Number Publication Date
CN112800684A true CN112800684A (zh) 2021-05-14
CN112800684B CN112800684B (zh) 2023-09-12

Family

ID=75817071

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110280733.5A Active CN112800684B (zh) 2021-03-16 2021-03-16 一种基于在线稀疏化核学习的欠驱动vtol系统最优控制方法

Country Status (1)

Country Link
CN (1) CN112800684B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104021528A (zh) * 2014-06-12 2014-09-03 南昌大学 一种基于解析稀疏模型的字典学习算法
WO2018149133A1 (zh) * 2017-02-17 2018-08-23 深圳大学 基于核非负矩阵分解的字典学习和稀疏特征表示的人脸识别方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104021528A (zh) * 2014-06-12 2014-09-03 南昌大学 一种基于解析稀疏模型的字典学习算法
WO2018149133A1 (zh) * 2017-02-17 2018-08-23 深圳大学 基于核非负矩阵分解的字典学习和稀疏特征表示的人脸识别方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
朱斐;朱海军;刘全;陈冬火;伏玉琛;: "一种解决连续空间问题的真实在线自然梯度AC算法", 软件学报, no. 02 *
李群生;赵剡;寇磊;王进达;: "一种基于多尺度核学习的仿射投影滤波算法", 电子与信息学报, no. 04 *

Also Published As

Publication number Publication date
CN112800684B (zh) 2023-09-12

Similar Documents

Publication Publication Date Title
Boulkaibet et al. A new TS fuzzy model predictive control for nonlinear processes
CN106600059B (zh) 基于改进rbf神经网络的智能电网短期负荷预测方法
Angelov Autonomous learning systems: from data streams to knowledge in real-time
Yang et al. A novel self-constructing radial basis function neural-fuzzy system
CN110647042A (zh) 一种基于数据驱动的机器人鲁棒学习预测控制方法
CN109325128B (zh) 一种机动目标的跟踪方法及系统
Ibnu Choldun R et al. Determining the number of hidden layers in neural network by using principal component analysis
CN109510610A (zh) 一种基于软投影加权核递归最小二乘的核自适应滤波方法
CN114357872A (zh) 一种基于stacking模型融合的船舶运动黑箱辨识建模与运动预测方法
Skomski et al. Constrained block nonlinear neural dynamical models
CN114819068A (zh) 一种混合型目标航迹预测方法及系统
Yu et al. DeepGTT: A general trajectory tracking deep learning algorithm based on dynamic law learning
CN113407820B (zh) 利用模型进行数据处理的方法及相关系统、存储介质
Brüdigam et al. Structure-preserving learning using Gaussian processes and variational integrators
Pires et al. Methodology for modeling fuzzy Kalman filters of minimum realization from evolving clustering of experimental data
CN112800684A (zh) 一种基于在线稀疏化核学习的欠驱动vtol系统最优控制方法
CN114819107B (zh) 基于深度学习的混合数据同化方法
Skomski et al. Automating discovery of physics-informed neural state space models via learning and evolution
CN115562345A (zh) 一种基于深度强化学习的无人机侦测轨迹规划方法
Yu et al. Nonlinear system modeling using the takagi-sugeno fuzzy model and long-short term memory cells
Pal et al. Sparsity promoting algorithm for identification of nonlinear dynamic system based on Unscented Kalman Filter using novel selective thresholding and penalty-based model selection
CN113408183A (zh) 基于预测模型的车辆基地短期复合预测方法
Vega et al. Fuzzy modeling using LSTM cells for nonlinear systems
Ghatak et al. Introduction to machine learning
Li et al. Covid-19 Epidemic Trend Prediction Based on CNN-StackBiLSTM

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant