CN111142383A - 一种非线性系统最优控制器的在线学习方法 - Google Patents

一种非线性系统最优控制器的在线学习方法 Download PDF

Info

Publication number
CN111142383A
CN111142383A CN201911396754.2A CN201911396754A CN111142383A CN 111142383 A CN111142383 A CN 111142383A CN 201911396754 A CN201911396754 A CN 201911396754A CN 111142383 A CN111142383 A CN 111142383A
Authority
CN
China
Prior art keywords
strategy
learning
network
optimal controller
optimal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911396754.2A
Other languages
English (en)
Other versions
CN111142383B (zh
Inventor
李新兴
查文中
王雪源
王蓉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC Information Science Research Institute
Original Assignee
CETC Information Science Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC Information Science Research Institute filed Critical CETC Information Science Research Institute
Priority to CN201911396754.2A priority Critical patent/CN111142383B/zh
Publication of CN111142383A publication Critical patent/CN111142383A/zh
Application granted granted Critical
Publication of CN111142383B publication Critical patent/CN111142383B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

一种非线性系统最优控制器的在线学习方法,所述方法包括:获取控制系统的初始状态、系统状态、控制输入,所述控制系统包括机器人的运动控制系统或无人机的飞行控制系统;建立连续时间系统模型;定义目标函数;建立最优控制器;建立基于离策略学习的同步策略迭代算法;对最优控制器进行在线训练学习;将训练学习得到的最优控制器用于实际被控对象,所述被控对象包括机器人的运动控制系统的控制参数或无人机的飞行控制系统的控制参数。

Description

一种非线性系统最优控制器的在线学习方法
技术领域
本发明涉及一种非线性系统最优控制器的在线学习方法,尤其涉及一种
背景技术
在工程实践过程中,工程技术人员经常需要对机器人、飞行器等复杂非线性系统的控制器进行优化。从控制论和数学的角度来看,寻找非线性系统的最优控制器难度巨大,经典的动态规划方法往往会面临“维数灾”问题,即计算复杂度随着系统状态维数的增加呈指数增长。此外,获得最优控制器需要求解复杂的哈密顿-雅可比-贝尔曼方程(HJB方程),但HJB方程为非线性的偏微分方程,非常难求解。
近年来,强化学习技术正成为求解复杂非线性系统最优控制器的有力工具。强化学习是机器学习中除监督学习和非监督学习的第三类算法,其基本思想是采用不断试错的方法对最优控制器在线学习。Kyriakos G.Vamvoudakis和Frank L.Lewis在论文“Onlineactor–critic algorithm to solve the continuous-time infinite horizon optimalcontrol problem”中首次提出了一种新型的强化学习算法,即所谓的同步策略迭代,用于非线性仿射系统最优控制器的在线学习,其基本思想是利用两个神经网络,即执行网络和评价网络,分别对最优控制器和其对应的最优值函数进行近似,进而利用广义策略迭代的思想,在系统运行的过程中实时对两个神经网络进行训练。与传统强化学习方法相比,该方法无需在策略评估与策略提高之间反复迭代,而是在系统运行的过程中同步进行策略评估和策略提高,实现了真正意义上的在线学习。但是该方法仍存在以下问题和缺点:1)该方法属于在策略方法(on-policy),具有探索不足的问题,为提高算法对策略空间的探索能力,需要在执行网络的输出中加入一定的探索噪声,而探索噪声会引起一定的激励噪声偏差;2)该方法只适用于仿射系统,对于更一般的非仿射系统则不再适用。Bian Tao等人在论文“Adaptive dynamic programming and optimal control of nonlinear nonaffinesystems”提出了适用于一般非仿射系统的离策略(off-policy)强化学习方法,有效解决了同步策略迭代方法探索不足的问题,但该方法属于传统的策略迭代算法,无法实现对最优控制器的在线学习。总的来说,对于一般的非线性非仿射系统的最优控制问题,目前尚未提出可以实现实时在线学习的强化学习方法。
为克服现有同步策略迭代方法无法应用到一般的非线性非仿射系统以及同步策略迭代对策略空间探索不足的问题,本专利所要解决的技术问题包括:1、对于一般的非线性非仿射系统,提出一种可以对最优控制器进行实时在线学习的强化学习方法。2、采用离策略学习技术克服同步策略迭代方法对状态空间和策略空间探索不足的问题。
发明内容
针对现有技术的缺陷,本发明提出一种非线性系统最优控制器的在线学习方法。具体方案如下:
一种非线性系统最优控制器的在线学习方法,包括如下步骤:
S1.获取控制系统的初始状态、系统状态、控制输入,所述控制系统包括机器人的运动控制系统或无人机的飞行控制系统;
S2.建立连续时间系统模型:
x=f(x(t),u(t)),x(0)=x0
式中,
Figure BDA0002346533530000021
为系统状态,u∈Rm为系统的控制输入,x(0)=x0为系统的初始状态,Ω为状态区域;
S3.定义目标函数:
Figure BDA0002346533530000022
式中,函数r:Rn×Rm→R为连续的正定函数;
S4.建立最优控制器,最优控制器u*满足如下的HJB方程:
Figure BDA0002346533530000023
式中,
Figure BDA0002346533530000024
为哈密顿函数,
Figure BDA0002346533530000025
V*为
最优控制器u*对应的值函数,即:
Figure BDA0002346533530000026
S5.建立基于离策略学习的同步策略迭代算法;
S6.对最优控制器进行在线训练学习;
S7.将训练学习得到的最优控制器用于实际被控对象,所述被控对象包括机器人的运动控制系统的控制参数或无人机的飞行控制系统的控制参数。
优选的,所述步骤S5包括下列步骤:
S51.行为策略设计,选择一个行为策略u并将其应用于系统以生成学习用到的状态x(t);
S52.同步策略评估,在时刻t,对于行为策略u(t)和由其生成的状态x(t),定义如下的Q-函数:
Figure BDA0002346533530000031
在上式的基础上采用时间差分学习方法对最优值函数V*进行估计,根据神经网络的通用近似定理,利用两个评价网络在Ω内对V*和Q-函数分别进行近似,其中,两个神经网络的激活函数的基分别为
Figure BDA0002346533530000032
Figure BDA0002346533530000033
N1和N2分别为两个神经网络隐藏层激活函数的个数。设V*和Q-函数的最优近似值分别为
Figure BDA0002346533530000034
Figure BDA0002346533530000035
其中,W1和W2分别为隐藏层到输出层的权重。由于W1和W2均未知,我们用W1(t)和W2(t)分别表示t时刻对W1和W2的估计,用
Figure BDA0002346533530000036
Figure BDA0002346533530000037
替换上式中的V*(x(t))和Q(x(t),u(t))可得如下的时间差分误差e(t):
e(t)=r(x(t),u(t))+W(t)Tσ(x(t),u(t))
其中,
Figure BDA0002346533530000038
W(t)=[W1(t)T W2(t)T]T
采用归一化的梯度下降法对两个评价网络的权重W(t)进行调节:
Figure BDA0002346533530000039
其中,Φc(t)=(1+σT(x(t),u(t))σ(x(t),u(t)))2为评价网络的归一化项,α>0为评价网络的学习率;
S53.策略提高,利用其中一个评价网络的输出
Figure BDA0002346533530000041
对策略进行改进,引入一个执行网络对最优控制器进行近似,其中,执行网络激活函数的构成的基为
Figure BDA0002346533530000042
N3为隐藏层激活函数的个数,
Figure BDA0002346533530000043
为u*的最优近似值,其中,W3为隐藏层到输出层的最优权重,用W3(t)表示t时刻对W3的估计值,用目标策略
Figure BDA0002346533530000044
代替
Figure BDA0002346533530000045
中的行为策略u(x(t))便得到
Figure BDA0002346533530000046
接下来,利用重要性加权的方法对执行网络的权重进行调节:
Figure BDA0002346533530000047
其中,β>0为执行网络的学习率,Φa(t)=(1+σ3(x(t))Tσ3(x(t)))2为执行网络的归一化项,Ua(t)为执行网络在t时刻的目标值,Ua(t)=0;
当评价网络和执行网络的权重收敛后,算法结束。
本发明的非线性系统最优控制器的在线学习方法与以往的同步策略迭代方法相比,不仅适用于非线性仿射系统,同时也适用于更一般的非线性非仿射系统。由于采用了离策略学习技术,该方法对最优控制器具有更好的探索能力。与迭代式强化学习方法相比,该方法无需在策略评估和策略提高之间反复迭代,而是利用系统实时生成的状态数据对最优控制器进行在线学习。
附图说明
图1为用于近似最优值函数的评价网络结构。
图2为用于近似Q-函数的评价网络结构。
图3为用于近似最优控制器的执行网络结构。
具体实施方式
一种非线性系统最优控制器的在线学习方法,包括如下步骤:
S1.获取控制系统的初始状态、系统状态、控制输入,所述控制系统包括机器人的运动控制系统或无人机的飞行控制系统。
S2.建立连续时间系统模型:
x=f(x(t),u(t)),x(0)=x0
式中,
Figure BDA0002346533530000051
为系统状态,u∈Rm为系统的控制输入,x(0)=x0为系统的初始状态,Ω为状态区域。
S3.定义目标函数:
Figure BDA0002346533530000052
式中,函数r:Rn×Rm→R为连续的正定函数。
S4.建立最优控制器,最优控制器u*满足如下的HJB方程:
Figure BDA0002346533530000053
式中,
Figure BDA0002346533530000054
为哈密顿函数,
Figure BDA0002346533530000055
V*为最优控制器u*对应的值函数,即:
Figure BDA0002346533530000056
S5.建立基于离策略学习的同步策略迭代算法。在基于离策略学习的同步策略迭代算法中,学习过程中用到的所有状态数据均由行为策略u产生,为了确保算法对策略空间具有一定的探测能力,行为策略产生的状态数据需要足够丰富并满足一定的持续激励条件,以确保算法的收敛性。本发明中行为策略为:u(x(t))=u(x(t))+n(t),其中u为任意的一个可行控制策略,通常根据被控系统的特征和经验选择,n(t)为探索噪声,n(t)可以是包含足够多频率的正弦、余弦信号或者幅值有限的随机信号。
S6.对最优控制器进行在线训练学习。
S7.将训练学习得到的最优控制器用于实际被控对象,所述被控对象包括机器人的运动控制系统的控制参数或无人机的飞行控制系统的控制参数。
优选的,所述步骤S5包括下列步骤:
S51.行为策略设计,选择一个行为策略u并将其应用于系统以生成学习用到的状态x(t);
S52.同步策略评估,在时刻t,对于行为策略u(t)和由其生成的状态x(t),定义如下的Q-函数:
Figure BDA0002346533530000061
在上式的基础上采用时间差分学习方法对最优值函数V*进行估计,根据神经网络的通用近似定理,参见附图1、附图2,利用两个评价网络在Ω内对V*和Q-函数分别进行近似,其中,两个神经网络的激活函数的基分别为
Figure BDA0002346533530000062
Figure BDA0002346533530000063
N1和N2分别为两个神经网络隐藏层激活函数的个数。设V*和Q-函数的最优近似值分别为
Figure BDA0002346533530000064
Figure BDA0002346533530000065
其中,W1和W2分别为隐藏层到输出层的权重。由于W1和W2均未知,我们用W1(t)和W2(t)分别表示t时刻对W1和W2的估计,用
Figure BDA0002346533530000066
Figure BDA0002346533530000067
替换上式中的V*(x(t))和Q(x(t),u(t))可得如下的时间差分误差e(t):
e(t)=r(x(t),u(t))+W(t)Tσ(x(t),u(t))
其中,
Figure BDA0002346533530000068
W(t)=[W1(t)T W2(t)T]T
采用归一化的梯度下降法对两个评价网络的权重W(t)进行调节:
Figure BDA0002346533530000069
其中,Φc(t)=(1+σT(x(t),u(t))σ(x(t),u(t)))2为评价网络的归一化项,α>0为评价网络的学习率;
S53.策略提高,利用其中一个评价网络的输出
Figure BDA00023465335300000610
对策略进行改进,参见附图3,引入一个执行网络对最优控制器进行近似,其中,执行网络激活函数的构成的基为
Figure BDA0002346533530000071
N3为隐藏层激活函数的个数,
Figure BDA0002346533530000072
为u*的最优近似值,其中,W3为隐藏层到输出层的最优权重,用W3(t)表示t时刻对W3的估计值,用目标策略
Figure BDA0002346533530000073
代替
Figure BDA0002346533530000074
中的行为策略u(x(t))便得到
Figure BDA0002346533530000075
接下来,利用重要性加权的方法对执行网络的权重进行调节:
Figure BDA0002346533530000076
其中,β>0为执行网络的学习率,Φa(t)=(1+σ3(x(t))Tσ3(x(t)))2为执行网络的归一化项,Ua(t)为执行网络在t时刻的目标值,Ua(t)=0。
当评价网络和执行网络的权重收敛后,算法结束。
算法中的两个评价网络和一个执行网络均采用具有单隐藏层的感知器模型,其中,用于近似Q-函数的评价网络的输入为状态和控制输入,用于近似最优值函数的评价网络的输入为状态,二者的输出均为标量。执行网络的输入同样为系统状态,其输出为多维向量。在学习的过程中,三个神经网络均只调节隐藏层到输出层的权重,输入层到隐藏层的权重在学习过程开始之前随机生成,在学习的过程中保持不变。三个神经网络隐藏层的激活函数可以选择为常用的双曲正切函数、Sigmoid函数、线性整流器、多项式函数等。
评价网络和执行网络也可以选为具有多个隐藏层的前馈神经网络,在学习的过程中也可以调节所有连接的权重,本专利选择具有单个隐藏层的神经网络并且仅调节隐藏层到输出层的权重主要是为了计算方便。评价网络的学习率和执行网络的学习率通常选择0到1之间的一个较小的正数。此外,三个神经网络隐藏层到输出层的初始权重可随机生成。
本发明通过上述实施例来说明本发明的详细过程和组成,但是本发明并不局限于上述详细过程和组成。本领域的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是本发明的原理,在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明的范围内。

Claims (3)

1.一种非线性系统最优控制器的在线学习方法,其特征在于包括如下步骤:
S1.获取控制系统的初始状态、系统状态、控制输入,所述控制系统包括机器人的运动控制系统或无人机的飞行控制系统;
S2.建立连续时间系统模型:
x=f(x(t),u(t)),x(0)=x0
式中,
Figure FDA0002346533520000011
为系统状态,u∈Rm为系统的控制输入,x(0)=x0为系统的初始状态,Ω为状态区域;
S3.定义目标函数:
Figure FDA0002346533520000012
式中,函数r:Rn×Rm→R为连续的正定函数;
S4.建立最优控制器,最优控制器u*满足如下的HJB方程:
Figure FDA0002346533520000013
式中,
Figure FDA0002346533520000014
为哈密顿函数,
Figure FDA0002346533520000015
V*为最优控制器u*对应的值函数,即:
Figure FDA0002346533520000016
S5.建立基于离策略学习的同步策略迭代算法;
S6.对最优控制器进行在线训练学习;
S7.将训练学习得到的最优控制器用于实际被控对象,所述被控对象包括机器人的运动控制系统的控制参数或无人机的飞行控制系统的控制参数。
2.根据权利要求1所述的非线性系统最优控制器的在线学习方法,其特征在于,所述步骤S5包括下列步骤:
S51.行为策略设计,选择一个行为策略u并将其应用于系统以生成学习用到的状态x(t);
S52.同步策略评估,在时刻t,对于行为策略u(t)和由其生成的状态x(t),定义如下的Q-函数:
Figure FDA0002346533520000021
在上式的基础上采用时间差分学习方法对最优值函数V*进行估计,根据神经网络的通用近似定理,利用两个评价网络在Ω内对V*和Q-函数分别进行近似,其中,两个神经网络的激活函数的基分别为
Figure FDA0002346533520000022
Figure FDA0002346533520000023
N1和N2分别为两个神经网络隐藏层激活函数的个数。设V*和Q-函数的最优近似值分别为
Figure FDA0002346533520000024
Figure FDA0002346533520000025
其中,W1和W2分别为隐藏层到输出层的权重。由于W1和W2均未知,我们用W1(t)和W2(t)分别表示t时刻对W1和W2的估计,用
Figure FDA0002346533520000026
Figure FDA0002346533520000027
替换上式中的V*(x(t))和Q(x(t),u(t))可得如下的时间差分误差e(t):
e(t)=r(x(t),u(t))+W(t)Tσ(x(t),u(t))
其中,
Figure FDA0002346533520000028
W(t)=[W1(t)TW2(t)T]T
采用归一化的梯度下降法对两个评价网络的权重W(t)进行调节:
Figure FDA0002346533520000029
其中,Φc(t)=(1+σT(x(t),u(t))σ(x(t),u(t)))2为评价网络的归一化项,α>0为评价网络的学习率;
S53.策略提高,利用其中一个评价网络的输出
Figure FDA00023465335200000210
对策略进行改进,引入一个执行网络对最优控制器进行近似,其中,执行网络激活函数的构成的基为
Figure FDA00023465335200000211
N3为隐藏层激活函数的个数,
Figure FDA00023465335200000212
为u*的最优近似值,其中,W3为隐藏层到输出层的最优权重,用W3(t)表示t时刻对W3的估计值,用目标策略
Figure FDA00023465335200000213
代替
Figure FDA00023465335200000214
中的行为策略u(x(t))便得到
Figure FDA0002346533520000031
接下来,利用重要性加权的方法对执行网络的权重进行调节:
Figure FDA0002346533520000032
其中,β>0为执行网络的学习率,Φa(t)=(1+σ3(x(t))Tσ3(x(t)))2为执行网络的归一化项,Ua(t)为执行网络在t时刻的目标值,Ua(t)=0;
当评价网络和执行网络的权重收敛后,算法结束。
3.根据权利要求2所述的非线性系统最优控制器的在线学习方法,其特征在于,所述评价网络和执行网络为具有单个隐藏层的前馈神经网络。
CN201911396754.2A 2019-12-30 2019-12-30 一种非线性系统最优控制器的在线学习方法 Active CN111142383B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911396754.2A CN111142383B (zh) 2019-12-30 2019-12-30 一种非线性系统最优控制器的在线学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911396754.2A CN111142383B (zh) 2019-12-30 2019-12-30 一种非线性系统最优控制器的在线学习方法

Publications (2)

Publication Number Publication Date
CN111142383A true CN111142383A (zh) 2020-05-12
CN111142383B CN111142383B (zh) 2022-09-23

Family

ID=70521843

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911396754.2A Active CN111142383B (zh) 2019-12-30 2019-12-30 一种非线性系统最优控制器的在线学习方法

Country Status (1)

Country Link
CN (1) CN111142383B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112947430A (zh) * 2021-02-03 2021-06-11 浙江工业大学 一种移动机器人的智能轨迹跟踪控制方法
CN113485099A (zh) * 2020-12-31 2021-10-08 中国电子科技集团公司信息科学研究院 一种非线性离散时间系统的在线学习控制方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103324085A (zh) * 2013-06-09 2013-09-25 中国科学院自动化研究所 基于监督式强化学习的最优控制方法
CN110502034A (zh) * 2019-09-04 2019-11-26 中国人民解放军国防科技大学 一种基于深度强化学习的固定翼无人机群集控制方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103324085A (zh) * 2013-06-09 2013-09-25 中国科学院自动化研究所 基于监督式强化学习的最优控制方法
CN110502034A (zh) * 2019-09-04 2019-11-26 中国人民解放军国防科技大学 一种基于深度强化学习的固定翼无人机群集控制方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DERONG LIU等: "Decentralized Stabilization for a Class of Continuous-Time Nonlinear Interconnected Systems Using Online Learning Optimal Control Approach", 《IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS》 *
XINING LI等: "Off-policy Q-learning for Infinite Horizon LQR Problem with Unknown Dynamics", 《2018 IEEE 27TH INTERNATIONAL SYMPOSIUM ON INDUSTRIAL ELECTRONICS(ISIE)》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113485099A (zh) * 2020-12-31 2021-10-08 中国电子科技集团公司信息科学研究院 一种非线性离散时间系统的在线学习控制方法
CN113485099B (zh) * 2020-12-31 2023-09-22 中国电子科技集团公司信息科学研究院 一种非线性离散时间系统的在线学习控制方法
CN112947430A (zh) * 2021-02-03 2021-06-11 浙江工业大学 一种移动机器人的智能轨迹跟踪控制方法
CN112947430B (zh) * 2021-02-03 2022-07-15 浙江工业大学 一种移动机器人的智能轨迹跟踪控制方法

Also Published As

Publication number Publication date
CN111142383B (zh) 2022-09-23

Similar Documents

Publication Publication Date Title
Alimi et al. Finite-time and fixed-time synchronization of a class of inertial neural networks with multi-proportional delays and its application to secure communication
Wang et al. Neural network disturbance observer-based distributed finite-time formation tracking control for multiple unmanned helicopters
Wang et al. Adaptive dynamic surface control for cooperative path following of marine surface vehicles with input saturation
Tang et al. Exponential synchronization of inertial neural networks with mixed time-varying delays via periodically intermittent control
Zhang et al. Adaptive neural tracking control of pure-feedback nonlinear systems with unknown gain signs and unmodeled dynamics
CN107422741B (zh) 基于学习的保预设性能集群飞行分布式姿态追踪控制方法
Liu et al. Adaptive neural network control with optimal number of hidden nodes for trajectory tracking of robot manipulators
Yang et al. Formation control of multiple underwater vehicles subject to communication faults and uncertainties
Cui et al. Adaptive decentralized NN control of large-scale stochastic nonlinear time-delay systems with unknown dead-zone inputs
CN111142383B (zh) 一种非线性系统最优控制器的在线学习方法
CN111176122B (zh) 一种基于双bp神经网络q学习技术的水下机器人参数自适应反步控制方法
CN111880412B (zh) 基于单评判网络的可重构机器人零和神经最优控制方法
Shi et al. Actor-critic-based predefined-time control for spacecraft attitude formation system with guaranteeing prescribed performance on SO (3)
Du et al. Adaptive functional link network control of near-space vehicles with dynamical uncertainties
Ramezani et al. Neuro-adaptive backstepping control of SISO non-affine systems with unknown gain sign
US6000827A (en) System identifying device and adaptive learning control device
Wang et al. Adaptive neural finite-time containment control for nonlower triangular nonlinear multi-agent systems with dynamics uncertainties
Tong et al. Adaptive fuzzy decentralized control for stochastic large-scale nonlinear systems with unknown dead-zone and unmodeled dynamics
Fu et al. A cross‐coupling control approach for coordinated formation of surface vessels with uncertain disturbances
Wang et al. Guaranteed cost spacecraft attitude stabilization under actuator misalignments using linear partial differential equations
Liu et al. Robust adaptive self-Structuring neural network bounded target tracking control of underactuated surface vessels
CN113485099B (zh) 一种非线性离散时间系统的在线学习控制方法
Ji Adaptive neural network dynamic surface control for perturbed nonlinear time-delay systems
Xu et al. A general motion control framework for an autonomous underwater vehicle through deep reinforcement learning and disturbance observers
CN114638076A (zh) 一种基于物理神经网络的流体拓扑优化方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant