CN113359471B - 基于协状态辅助的自适应动态规划最优控制方法及系统 - Google Patents
基于协状态辅助的自适应动态规划最优控制方法及系统 Download PDFInfo
- Publication number
- CN113359471B CN113359471B CN202110757749.0A CN202110757749A CN113359471B CN 113359471 B CN113359471 B CN 113359471B CN 202110757749 A CN202110757749 A CN 202110757749A CN 113359471 B CN113359471 B CN 113359471B
- Authority
- CN
- China
- Prior art keywords
- state
- cost function
- network
- dynamic programming
- adaptive dynamic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 238000011156 evaluation Methods 0.000 claims abstract description 34
- 230000008569 process Effects 0.000 claims abstract description 25
- 238000012546 transfer Methods 0.000 claims abstract description 16
- 230000003044 adaptive effect Effects 0.000 claims abstract description 13
- 238000012854 evaluation process Methods 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 76
- 230000000875 corresponding effect Effects 0.000 claims description 12
- 238000005457 optimization Methods 0.000 claims description 11
- 230000004913 activation Effects 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000009471 action Effects 0.000 claims description 5
- 230000006399 behavior Effects 0.000 claims description 4
- 238000009825 accumulation Methods 0.000 claims description 2
- 238000012804 iterative process Methods 0.000 claims description 2
- 230000007246 mechanism Effects 0.000 claims description 2
- 230000007704 transition Effects 0.000 claims 1
- 238000012549 training Methods 0.000 description 12
- 230000006872 improvement Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000001537 neural effect Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000013016 damping Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000008034 disappearance Effects 0.000 description 2
- 238000004880 explosion Methods 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 238000000137 annealing Methods 0.000 description 1
- 238000001311 chemical methods and process Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 238000004804 winding Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
Abstract
本发明公开了一种基于协状态辅助的自适应动态规划最优控制方法,包括如下步骤:步骤1,构建系统的状态变量、控制变量、转移环境、效用函数和代价函数;步骤2,构建基于协状态辅助的自适应动态规划的执行网络、协状态网络和评价网络;步骤3,基于协状态辅助的自适应动态规划的策略评估过程;步骤4,基于协状态辅助的自适应动态规划的策略提升过程;步骤5,重复步骤3~4直至循环迭代次数i大于规定次数或相邻两次外循环之后的代价函数差值|Ji+1(xt,ut,Λt)‑Ji(xt,ut,Λt)|小于设定值。本发明的基于协状态辅助的自适应动态规划最优控制方法,将代价函数对状态量的导数作为估计代价函数时的辅助变量,同时避免对复杂系统进行动力学建模的过程,提高了复杂动态系统求解的精度。
Description
技术领域
本发明属于智能控制技术领域,具体涉及一种基于协状态辅助的自适应动态规划最优控制方法及系统。
背景技术
复杂的动态系统在众多研究领域中普遍存在,如车辆系统、水下机器人系统、化工过程系统、能量管理系统等,随着科技的发展,人们对这些控制系统的性能也提出了越来越高的要求。最优控制是在保证控制系统能稳定达到目标的基础上,寻求一个控制量,使给定的系统代价函数达到极大值(或极小值)。但在实际应用过程中,复杂系统通常具有高度非线性、未知动态特性、模型不确定性等特性,这会造成精确的系统模型难于建立,准确的代价函数难以评估,从而使得最优解难以求解。
在数字计算机实用化的推动下,人工智能与智能控制技术得到快速发展,强化学习、人工神经网络、迭代学习等方法不断丰富,提出了很多求解复杂系统优化问题的解决思路和具体技术方法。其中,西北工业大学所拥有的专利“基于预测建模的高超声速飞行器神经网络学习控制方法”公开了一种神经网络补偿建模误差的方法来实现高速飞行器的控制,可以一定程度上减小建模误差对控制效果的影响,但高速复杂环境下的动态特性仍会使得系统模型难以时刻保证精准。北京邮电大学所拥有的专利“基于量子退火的混合整数最优控制数值求解方法”公开了一种基于模型转换的迭代优化算法,该算法收敛较快,全局搜索能力较强,但最终优化结果很大程度依赖初始化模型的选择。不基于模型的自适应动态规划(ADP)以传统的最优控制为理论基础,融合人工智能的先进技术,成为了一种解决大规模复杂系统控制优化问题的方法。其中,上海海事大学所拥有的专利“一种水下热滑翔机姿态调节的近似动态规划优化控制方法”公开了一种不基于模型的两输入两输出解耦控制,可通过实时反馈状态量的方式在线更新控制律,但在线训练过程中代价函数并不能保证准确的评估,因此在训练过程中可能会得到较恶劣的控制效果。
发明内容
针对现有技术存在的不足,本发明的目的在于提供一种基于协状态辅助的自适应动态规划最优控制方法及系统,通过结合协状态量与资格迹更新机制,有效消除神经网络评估不准的缺陷,同时减少不基于模型的自适应动态规划算法的计算成本。
为实现上述目的,本发明提供了如下技术方案:一种基于协状态辅助的自适应动态规划最优控制方法,包括如下步骤:
步骤1,构建系统的状态变量、控制变量、转移环境、效用函数和代价函数;
步骤2,构建基于协状态辅助的自适应动态规划的执行网络、协状态网络和评价网络,用于策略提升和策略评估;
步骤3,基于协状态辅助的自适应动态规划的策略评估过程;
步骤4,基于协状态辅助的自适应动态规划的策略提升过程;
步骤5,重复步骤3~4直至循环迭代次数i大于规定次数或相邻两次外循环之后的代价函数差值|Ji+1(xt,ut,Λt)-Ji(xt,ut,Λt)|小于设定值,迭代循环过程终止。作为本发明的进一步改进,所述步骤2中的执行网络的输入为t时刻下的状态变量 x(t),输出为与状态变量x(t)对应的控制变量u(t);协状态网络的输入为状态变量x(t)和执行网络的输出u(t),输出为与状态变量x(t)对应的协状态 评价网络的输入为状态变量x(t)、执行网络的输出u(t)和协状态Λ(t),输出为t时刻下状态行为对<x(t),u(t)>对应的代价函数J(xt,ut,Λt)的近似值。作为本发明的进一步改进,所述步骤3中需要对代价函数J(xt,ut,Λt)和协状态Λ(xt,ut)进行估计,具体的估计步骤如下:
步骤32,使用评价网络的输出J(x,u,Λ)和转移模型f(·),依据式子进行代价函数更新,其中,第i次循环迭代时,实际会进行多次协状态函数Λ(xt,ut)与代价函数 J(xt,ut,Λt)相互迭代过程,即每次外循环i会包括多次内循环j;
步骤33,最终将协状态与代价函数共同收敛。
其中i为外循环迭代次数;xt表示t时刻状态量;ut表示t时刻控制量;γ为折扣因子;U(xt,ui(xt))为t时刻关于xt与ut的效用函数;Λi,j(xt,ut)为第i次外循环第j次迭代时协状态函数的近似值。
其中,Ji,j(xt,ut,Λt)为第i次外循环第j次迭代时代价函数的近似值,在评估代价函数时,增加协状态量作为评估代价函数J(x,u,Λ)的辅助变量,会较于传统只有xt和 ut作为输入的策略评估更为准确。作为本发明的进一步改进,所述步骤3中的代价函数估计为
其中,为第i次外循环第j次迭代时评价网络的权值,σ(·)为激活函数,为隐藏层输入,δi,j(t)=Ji,j(xt)-(U(xk,ui(t))+Ji,j(xt+i)),αc为评价网络学习率,E(t)为资格迹,其可以表示为作为本发明的进一步改进,所述步骤4中的策略提升为
其中,J(xt,ut,Λt)与u(xt)、Λ(xt,ut)有关。
本发明另一方面提供了一种基于协状态辅助的自适应动态规划最优控制系统,包括如下模块:
信息传感模块,用于从外界环境准确的获取状态信息;
优化计算模块,用于优化求解并运行所述控制方法;
控制执行模块,接受期望信息并执行相应动作。
本发明的有益效果,
(1)所发明方法不基于系统的精确数学模型,无需对系统模型进行估计与假设,仅通过与环境的不断交互,便可实现对系统在复杂环境下的有效控制。
(2)本发明中的方法采用协状态函数作为辅助变量进行策略评估,提高了代价函数的近似准确度,更有利于对执行网络的更新进行引导,减少循环迭代更新的次数,从而加快了迭代训练的速度。
(3)本发明中的方法采用资格迹机制进行评价网络的更新,较比于传统的 ADHDP更新方式,本发明中的方法在每次更新时可以使用更少的数据达到同样的更新效果,从而减少了计算成本。
附图说明
图1是作为本发明一个实施例的基于协状态辅助的自适应动态规划最优控制方法及系统的流程图;
图2是本发明一个实施例自主式水下机器人运动的两个参考坐标系;
图3是作为本发明一个实施例的基于协状态辅助的自适应动态规划最优控制方法及系统的实现框图;
图4是本发明中自适应最优控制循环迭代示意图;
图5是本发明控制系统结构图。
具体实施方式
下面将结合附图所给出的实施例对本发明做进一步的详述。
本发明结合的具体实施例为自主式水下机器人深度控制系统,其具有强非线性、强耦合性、水动力系数不确定性等特点,同时自主式水下机器人的工作环境也具有随机和时变的动态特性,致使我们无法对外部干扰进行准确预测。
本发明的基于协状态辅助的自适应动态规划最优控制方法的流程图如图1 所示。
步骤1,构建自主式水下机器人深度控制中的状态变量、控制变量、转移环境、效用函数和代价函数。
首先定义两个参考坐标系:惯性坐标系和随体坐标系。惯性坐标系固定于地面,其xb轴指向正北,yb轴指向东,cb轴指向垂直向下的地球表面;随体坐标系则固定于自主式水下机器人本体,随自主式水下机器人以任何形式移动。两个参考坐标系示意图如图2所示,其中E-ξηζ表示固定于地面的惯性坐标系, O-xbybzb表示固定于自主式水下机器人的随体坐标系,惯性坐标系与随体坐标系之间转移关系可由自主式水下机器人的运动学方程反映。
状态变量的选取用于描述自主式水下机器人在深度控制问题中的状态信息,因只考虑自主式水下机器人在xb-zb平面内的运动,状态变量表示为x=[w,q,θ,z]T,其中,w为自主式水下机器人在随体坐标系下的垂向速度,q为自主式水下机器人在随体坐标系下绕yb轴的角速度,θ为自主式水下机器人在惯性坐标系下绕η轴的角度,z为自主式水下机器人在惯性坐标系下的垂向深度,前向速度uAUV看作恒定常数。
控制变量为自主式水下机器人执行机构产生的力和力矩,表示为 u=[τ1,τ2]T,其中τ1为螺旋桨产生的沿z轴方向的推力,τ2为螺旋桨产生的绕y轴方向的扭矩。
本发明方法中的转移模型表示为其中,x表示状态变量, u表示控制变量。转移环境的作用是使得自主式水下机器人在当前时刻状态与控制变量的作用下,转移得到下一时刻的状态量。因在实际环境中进行本发明方法的实验验证会有设备撞毁等风险,因此为了验证本发明方法的可行性,自主式水下机器人的转移环境由其动力学方程进行模拟表征,模拟的转移环境如式 (1)至式(4)所示:
其中,[xG,yG,zG]T和[xB,yB,zB]T分别为自主式水下机器人在惯性坐标系下重力和浮力中心的坐标;和为水动力附加质量系数;Zuq,Zuw,Muq和Muq为非线性阻尼力和力矩系数;Zww,Zqq,Mww和Mqq为非线性阻尼力系数;W和B分别代表自主式水下机器人的重力和浮力;Δτ1和Δτ2分别为两个控制变量的扰动。
步骤2,构建基于协状态辅助的自适应动态规划的执行网络、协状态网络和评价网络,用于策略提升和策略评估。执行网络的输入为t时刻下的状态变量x(t),输出为与状态变量x(t)对应的控制变量u(t);协状态网络的输入为状态变量x(t) 和执行网络的输出u(t),输出为与状态变量x(t)对应的协状态评价网络的输入为状态变量x(t)、执行网络的输出u(t)和协状态Λ(t),输出为t时刻下状态行为对<x(t),u(t)>对应的代价函数值J(xt,ut,Λt)的近似值。自适应控制方法实现框图如图3所示。
执行网络用于进行t时刻的控制变量估计。执行网络的输入输出可用函数表示,其中,σ(·)为隐藏层tanh激活函数,Ya、Wa为执行网络各神经层之间的权值。为贴合实际控制器的饱和属性,输出层采用tanh 激活函数。
协状态网络用于进行t时刻的协状态估计。协状态网络的输入输出可用函数表示,其中,σ(·)为隐藏层tanh激活函数,YΛ、WΛ为协状态网络各神经层之间的权值。在实施过程中,为防止在迭代训练的过程中会出现梯度消失和梯度爆炸的情况,在每层隐藏层的激活函数前进行归一化处理。
评价网络用于进行t时刻状态的代价函数估计。评价网络的输入输出可用函数表示其中,σ(·)为tanh激活函数,Yc、Wc为评价网络各神经层之间的权值。为贴合实际情况中代价函数J(x,u,Λ)是正定的,输出层采用relu激活函数。在实施过程中,为防止在迭代训练的过程中会出现梯度消失和梯度爆炸的情况,在每层隐藏层的激活函数前进行归一化处理。
步骤3,基于协状态辅助的自适应动态规划的策略评估过程(PEV)。在此步骤中,在固定一个给定的控制律u(xt)的前提下,需要对代价函数J(xt,ut,Λt)和协状态Λ(xt,ut)进行相互迭代估计,此过程可以表示为式子 与式子的相互迭代,因两者的更新过程都利用了对方的网络权值数据,所以在协状态网络和评价网络更新过程中采用相互迭代方式而不是待一个网络更新收敛后再去更新另一个网络。
协状态量与代价函数的相互迭代如图4所示。协状态网络更新时,其权重更新公式为其中,αΛ为协状态网络学习率。式子中评价网络更新时,其权重更新公式为其中,αc为评价网络学习率。式子中δi,j(t)=Ji,j(xt,ut,Λt)-(U(xt,ui(t))+Ji,j(xt+1,ut+1,Λt+1)),
在策略评估的实施过程中,我们采用批量状态选取的训练方式进行迭代学习。首先,在状态空间、动作空间与协状态空间随机取点,在本发明中,每次用于迭代训练的数据集为1000个;然后每次进行第i次迭代时,采用第i-1次迭代的数据的下一时刻数据作为训练数据。采用批量状态选取的训练方式可以加快迭代训练的速度。
在策略评估的实施过程中,需对一些参数进行设定。首先对评价网络和协状态网络的网络权值进行初始化。选择一个最大迭代次数jmax和网络的损失函数阈值ε作为迭代训练的终止标准。当迭代次数大于jmax或两个网络的损失函数均小于ε时,策略评估过程终止,如果当迭代次数大于jmax时,损失函数仍未收敛到ε内,则训练失败,此时可更换协状态网络或评价网络的初始权值。在本发明方法的实施中,最大迭代次数jmax选取为500次,协状态网络和评价网络的损失函数阈值ε均设置为10-5。
步骤4,基于协状态辅助的自适应动态规划的策略提升过程(PIM)。此过程可表示为其中,ui+1(xt)为t时刻下,第i次迭代执行网络的输出。在实施过程中,策略提升过程可进行多次,直到寻找到使 Ji(xt,ut,Λt)最小化的u(t)。执行网络的权重更新公式为其中,αa为执行网络学习率。
在策略提升的实施过程中,需对一些参数进行设定。因为在策略迭代的实施过程中,初始控制律必须是容许的,即初始容许控制律不仅能使系统稳定同时还能保证在初始控制律下的代价函数是有界的,因此,执行网络的初始网络权值需拟合任意一个容许控制律。在本发明中,初始容许控制律可采用其他控制方法收集得到的一组稳定的状态行为对进行拟合得到。
步骤5,重复步骤3~4直至执行网络、协状态网络和评价网路的权值不再更新,自适应动态规划控制方法的循环迭代示意图如图4所示。在策略评估和策略提升的每次循环迭代过程中,令i=i+1。在进行策略提升和策略评估的外循环迭代实施过程中,需对一些参数进行设定,选择一个最大迭代次数imax和代价函数误差阈值∈作为迭代训练的终止标准。当循环迭代次数大于imax或相邻两次循环迭代之后的代价函数差值|Ji+1(xt,ut)-Ji(xt,ut)|小于∈时,循环迭代过程终止。在本发明方法的实施中,最大迭代次数imax选取为100次,代价函数误差阈值∈设置为10-5。
图5表示了应用本发明系统的模块框图结构,其主要包括如下模块:
信息传感模块,用于从外界环境准确的获取状态信息;
优化计算模块,用于优化求解并运行所述控制方法;
控制执行模块,接受期望信息并执行相应动作,以此能够更好的执行上述的方法了。
上述实施例阐明的单元、装置或模块包括深度传感器装置、惯性导航传感器装置、计算单元、执行单元、数据采集单元和推进器驱动单元等,其中深度计通过计算水压从而得到自主式水下机器人距离水面的高度,惯性导航传感器采集自主式水下机器人的姿态信息等数据并进行均值滤波得到更加准确的姿态数据,计算单元可以由计算机芯片或其他实体实现,用以运行所设计的不基于模型的控制方法,推进器驱动单元可将控制输入转换为PWM波进而控制电机转速。以上所描述的装置实施例仅仅是示意性的,例如,所述单元与装置的应用,仅仅是为说明系统的特定功能,实际实现时可以有另外的应用方式,同时多个单元或装置也可相互组合或者集成到其他系统,其中部分单元或装置的功能特征可以忽略,或不执行。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (6)
1.一种基于协状态辅助的自适应动态规划最优控制方法,其特征在于:包括如下步骤:
步骤1,构建自主式水下机器人深度控制中的状态变量、控制变量、转移环境、效用函数和代价函数,状态变量的选取用于描述自主式水下机器人在深度控制问题中的状态信息,控制变量为自主式水下机器人执行机构产生的力和力矩,转移环境的作用是使得自主式水下机器人在当前时刻状态与控制变量的作用下,转移得到下一时刻的状态量,效用函数是为了评价自主式水下机器人在当前时刻状态下采取的控制动作的优劣,代价函数是效用函数沿着状态轨迹的累计,在自主式水下机器人深度控制问题中,目标是使得自主式水下机器人在达到目标深度时所需的代价函数最小;
步骤2,构建基于协状态辅助的自适应动态规划的执行网络、协状态网络和评价网络,用于策略提升和策略评估;
步骤3,基于协状态辅助的自适应动态规划的策略评估过程;
步骤4,基于协状态辅助的自适应动态规划的策略提升过程;
步骤5,重复步骤3~4直至循环迭代次数i大于规定次数或相邻两次外循环之后的代价函数差值|Ji+1(xt,ut,Λt)-Ji(xt,ut,Λt)|小于设定值,迭代循环过程终止;所述步骤2中的执行网络的输入为t时刻下的状态变量x(t),输出为与状态变量x(t)对应的控制变量u(t);协状态网络的输入为状态变量x(t)和执行网络的输出u(t),输出为与状态变量x(t)对应的协状态评价网络的输入为状态变量x(t)、执行网络的输出u(t)和协状态Λ(t),输出为t时刻下状态行为对<x(t),u(t)>对应的代价函数J(xt,ut,Λt)的近似值;所述步骤3中需要对代价函数J(xt,ut,Λt)和协状态Λ(xt,ut)进行估计,具体的估计步骤如下:
步骤32,使用评价网络的输出J(x,u,Λ)和转移模型f(·),依据式子进行代价函数更新,其中,第i次循环迭代时,实际会进行多次协状态函数Λ(xt,ut)与代价函数J(xt,ut,Λt)相互迭代过程,即每次外循环i会包括多次内循环j;
6.一种应用权利要求1至5所述方法的基于协状态辅助的自适应动态规划最优控制系统,其特征在于:包括如下模块:
信息传感模块,用于从外界环境准确的获取状态信息;
优化计算模块,用于优化求解并运行所述控制方法;
控制执行模块,接受期望信息并执行相应动作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110757749.0A CN113359471B (zh) | 2021-07-05 | 2021-07-05 | 基于协状态辅助的自适应动态规划最优控制方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110757749.0A CN113359471B (zh) | 2021-07-05 | 2021-07-05 | 基于协状态辅助的自适应动态规划最优控制方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113359471A CN113359471A (zh) | 2021-09-07 |
CN113359471B true CN113359471B (zh) | 2022-10-14 |
Family
ID=77538335
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110757749.0A Active CN113359471B (zh) | 2021-07-05 | 2021-07-05 | 基于协状态辅助的自适应动态规划最优控制方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113359471B (zh) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101770209A (zh) * | 2010-03-09 | 2010-07-07 | 浙江大学 | 一种多时间尺度复杂大系统的分散预测控制方法 |
US20180275621A1 (en) * | 2017-03-24 | 2018-09-27 | Mitsubishi Electric Research Laboratories, Inc. | Model Predictive Control with Uncertainties |
CN111267834B (zh) * | 2020-02-17 | 2021-03-26 | 北京理工大学 | 一种车辆横摆稳定预测控制方法及系统 |
CN111665853B (zh) * | 2020-07-07 | 2023-03-31 | 中国人民解放军国防科技大学 | 一种面向规划控制联合优化的无人车辆运动规划方法 |
CN112859889B (zh) * | 2021-01-18 | 2022-02-15 | 湖南大学 | 基于自适应动态规划的自主式水下机器人控制方法和系统 |
-
2021
- 2021-07-05 CN CN202110757749.0A patent/CN113359471B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN113359471A (zh) | 2021-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108803321B (zh) | 基于深度强化学习的自主水下航行器轨迹跟踪控制方法 | |
CN107748566B (zh) | 一种基于强化学习的水下自主机器人固定深度控制方法 | |
CN111240345B (zh) | 基于双bp网络增强学习框架的水下机器人轨迹跟踪方法 | |
CN114077258B (zh) | 一种基于强化学习ppo2算法的无人艇位姿控制方法 | |
CN109901403A (zh) | 一种自主水下机器人神经网络s面控制方法 | |
CN109901598A (zh) | 基于随机模型预测控制技术的自主水下机器人路径跟踪方法 | |
CN112462792B (zh) | 一种基于Actor-Critic算法的水下机器人运动控制方法 | |
CN114115262B (zh) | 基于方位角信息的多auv执行器饱和协同编队控制系统和方法 | |
CN109189103B (zh) | 一种具有暂态性能约束的欠驱动auv轨迹跟踪控制方法 | |
CN108267952B (zh) | 一种水下机器人自适应有限时间控制方法 | |
CN112859889B (zh) | 基于自适应动态规划的自主式水下机器人控制方法和系统 | |
CN112947505B (zh) | 一种基于强化学习算法与未知干扰观测器的多auv编队分布式控制方法 | |
CN114428517B (zh) | 一种无人机无人艇协同平台端对端自主降落控制方法 | |
CN113848887A (zh) | 一种基于mlp方法的欠驱动无人艇轨迹跟踪控制方法 | |
CN116700327A (zh) | 一种基于连续动作优势函数学习的无人机轨迹规划方法 | |
Li et al. | Adaptive reinforcement learning fault-tolerant control for AUVs with thruster faults based on the integral extended state observer | |
CN116360470A (zh) | 一种多水下直升机协同编队控制方法 | |
CN114967472A (zh) | 一种无人机轨迹跟踪状态补偿深度确定性策略梯度控制方法 | |
Peng et al. | Research on hover control of AUV uncertain stochastic nonlinear system based on constructive backstepping control strategy | |
Miao et al. | DOPH∞-based path-following control for underactuated marine vehicles with multiple disturbances and constraints | |
CN113359471B (zh) | 基于协状态辅助的自适应动态规划最优控制方法及系统 | |
CN116430718A (zh) | 一种基于ddpg算法的水下机器人推进器故障容错控制方法 | |
CN114943168B (zh) | 一种水上浮桥组合方法及系统 | |
CN116382313A (zh) | 一种考虑通信受限的auh协同编队控制方法 | |
CN116449703A (zh) | 一种有限时间框架下的auh编队协同控制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |