CN113359471B - 基于协状态辅助的自适应动态规划最优控制方法及系统 - Google Patents

基于协状态辅助的自适应动态规划最优控制方法及系统 Download PDF

Info

Publication number
CN113359471B
CN113359471B CN202110757749.0A CN202110757749A CN113359471B CN 113359471 B CN113359471 B CN 113359471B CN 202110757749 A CN202110757749 A CN 202110757749A CN 113359471 B CN113359471 B CN 113359471B
Authority
CN
China
Prior art keywords
state
cost function
network
dynamic programming
adaptive dynamic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110757749.0A
Other languages
English (en)
Other versions
CN113359471A (zh
Inventor
胡满江
叶俊
边有钢
徐彪
秦晓辉
谢国涛
秦兆博
王晓伟
秦洪懋
丁荣军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN202110757749.0A priority Critical patent/CN113359471B/zh
Publication of CN113359471A publication Critical patent/CN113359471A/zh
Application granted granted Critical
Publication of CN113359471B publication Critical patent/CN113359471B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种基于协状态辅助的自适应动态规划最优控制方法,包括如下步骤:步骤1,构建系统的状态变量、控制变量、转移环境、效用函数和代价函数;步骤2,构建基于协状态辅助的自适应动态规划的执行网络、协状态网络和评价网络;步骤3,基于协状态辅助的自适应动态规划的策略评估过程;步骤4,基于协状态辅助的自适应动态规划的策略提升过程;步骤5,重复步骤3~4直至循环迭代次数i大于规定次数或相邻两次外循环之后的代价函数差值|Ji+1(xt,utt)‑Ji(xt,utt)|小于设定值。本发明的基于协状态辅助的自适应动态规划最优控制方法,将代价函数对状态量的导数作为估计代价函数时的辅助变量,同时避免对复杂系统进行动力学建模的过程,提高了复杂动态系统求解的精度。

Description

基于协状态辅助的自适应动态规划最优控制方法及系统
技术领域
本发明属于智能控制技术领域,具体涉及一种基于协状态辅助的自适应动态规划最优控制方法及系统。
背景技术
复杂的动态系统在众多研究领域中普遍存在,如车辆系统、水下机器人系统、化工过程系统、能量管理系统等,随着科技的发展,人们对这些控制系统的性能也提出了越来越高的要求。最优控制是在保证控制系统能稳定达到目标的基础上,寻求一个控制量,使给定的系统代价函数达到极大值(或极小值)。但在实际应用过程中,复杂系统通常具有高度非线性、未知动态特性、模型不确定性等特性,这会造成精确的系统模型难于建立,准确的代价函数难以评估,从而使得最优解难以求解。
在数字计算机实用化的推动下,人工智能与智能控制技术得到快速发展,强化学习、人工神经网络、迭代学习等方法不断丰富,提出了很多求解复杂系统优化问题的解决思路和具体技术方法。其中,西北工业大学所拥有的专利“基于预测建模的高超声速飞行器神经网络学习控制方法”公开了一种神经网络补偿建模误差的方法来实现高速飞行器的控制,可以一定程度上减小建模误差对控制效果的影响,但高速复杂环境下的动态特性仍会使得系统模型难以时刻保证精准。北京邮电大学所拥有的专利“基于量子退火的混合整数最优控制数值求解方法”公开了一种基于模型转换的迭代优化算法,该算法收敛较快,全局搜索能力较强,但最终优化结果很大程度依赖初始化模型的选择。不基于模型的自适应动态规划(ADP)以传统的最优控制为理论基础,融合人工智能的先进技术,成为了一种解决大规模复杂系统控制优化问题的方法。其中,上海海事大学所拥有的专利“一种水下热滑翔机姿态调节的近似动态规划优化控制方法”公开了一种不基于模型的两输入两输出解耦控制,可通过实时反馈状态量的方式在线更新控制律,但在线训练过程中代价函数并不能保证准确的评估,因此在训练过程中可能会得到较恶劣的控制效果。
发明内容
针对现有技术存在的不足,本发明的目的在于提供一种基于协状态辅助的自适应动态规划最优控制方法及系统,通过结合协状态量与资格迹更新机制,有效消除神经网络评估不准的缺陷,同时减少不基于模型的自适应动态规划算法的计算成本。
为实现上述目的,本发明提供了如下技术方案:一种基于协状态辅助的自适应动态规划最优控制方法,包括如下步骤:
步骤1,构建系统的状态变量、控制变量、转移环境、效用函数和代价函数;
步骤2,构建基于协状态辅助的自适应动态规划的执行网络、协状态网络和评价网络,用于策略提升和策略评估;
步骤3,基于协状态辅助的自适应动态规划的策略评估过程;
步骤4,基于协状态辅助的自适应动态规划的策略提升过程;
步骤5,重复步骤3~4直至循环迭代次数i大于规定次数或相邻两次外循环之后的代价函数差值|Ji+1(xt,utt)-Ji(xt,utt)|小于设定值,迭代循环过程终止。作为本发明的进一步改进,所述步骤2中的执行网络的输入为t时刻下的状态变量 x(t),输出为与状态变量x(t)对应的控制变量u(t);协状态网络的输入为状态变量x(t)和执行网络的输出u(t),输出为与状态变量x(t)对应的协状态
Figure BDA0003147813150000021
Figure BDA0003147813150000022
评价网络的输入为状态变量x(t)、执行网络的输出u(t)和协状态Λ(t),输出为t时刻下状态行为对<x(t),u(t)>对应的代价函数J(xt,utt)的近似值。作为本发明的进一步改进,所述步骤3中需要对代价函数J(xt,ut,Λt)和协状态Λ(xt,ut)进行估计,具体的估计步骤如下:
步骤31,固定一个给定的控制律u(xt),使用协状态网络的输出Λ(x,u)和转移模型f(·),依据式子
Figure BDA0003147813150000031
进行协状态函数更新;
步骤32,使用评价网络的输出J(x,u,Λ)和转移模型f(·),依据式子
Figure BDA0003147813150000032
进行代价函数更新,其中,第i次循环迭代时,实际会进行多次协状态函数Λ(xt,ut)与代价函数 J(xt,utt)相互迭代过程,即每次外循环i会包括多次内循环j;
步骤33,最终将协状态与代价函数共同收敛。
作为本发明的进一步改进,所述步骤4中策略提升过程具体为使用评价网络的输出J(x,u,Λ)和转移模型f(·),依据式子
Figure BDA0003147813150000033
进行策略提升,策略提升目标为使得J(xt,utt)值更小。
作为本发明的进一步改进,所述步骤3中的协状态估计为
Figure BDA0003147813150000034
Figure BDA0003147813150000035
其中i为外循环迭代次数;xt表示t时刻状态量;ut表示t时刻控制量;γ为折扣因子;U(xt,ui(xt))为t时刻关于xt与ut的效用函数;Λi,j(xt,ut)为第i次外循环第j次迭代时协状态函数的近似值。
作为本发明的进一步改进,所述步骤3中的代价函数估计为
Figure BDA0003147813150000036
其中,Ji,j(xt,utt)为第i次外循环第j次迭代时代价函数的近似值,在评估代价函数时,增加协状态量作为评估代价函数J(x,u,Λ)的辅助变量,会较于传统只有xt和 ut作为输入的策略评估更为准确。作为本发明的进一步改进,所述步骤3中的代价函数估计为
Figure BDA0003147813150000041
其中,
Figure BDA0003147813150000042
为第i次外循环第j次迭代时评价网络的权值,σ(·)为激活函数,
Figure BDA0003147813150000043
为隐藏层输入,
Figure BDA0003147813150000044
δi,j(t)=Ji,j(xt)-(U(xk,ui(t))+Ji,j(xt+i)),αc为评价网络学习率,E(t)为资格迹,其可以表示为
Figure BDA0003147813150000045
作为本发明的进一步改进,所述步骤4中的策略提升为
Figure BDA0003147813150000046
其中,J(xt,utt)与u(xt)、Λ(xt,ut)有关。
本发明另一方面提供了一种基于协状态辅助的自适应动态规划最优控制系统,包括如下模块:
信息传感模块,用于从外界环境准确的获取状态信息;
优化计算模块,用于优化求解并运行所述控制方法;
控制执行模块,接受期望信息并执行相应动作。
本发明的有益效果,
(1)所发明方法不基于系统的精确数学模型,无需对系统模型进行估计与假设,仅通过与环境的不断交互,便可实现对系统在复杂环境下的有效控制。
(2)本发明中的方法采用协状态函数作为辅助变量进行策略评估,提高了代价函数的近似准确度,更有利于对执行网络的更新进行引导,减少循环迭代更新的次数,从而加快了迭代训练的速度。
(3)本发明中的方法采用资格迹机制进行评价网络的更新,较比于传统的 ADHDP更新方式,本发明中的方法在每次更新时可以使用更少的数据达到同样的更新效果,从而减少了计算成本。
附图说明
图1是作为本发明一个实施例的基于协状态辅助的自适应动态规划最优控制方法及系统的流程图;
图2是本发明一个实施例自主式水下机器人运动的两个参考坐标系;
图3是作为本发明一个实施例的基于协状态辅助的自适应动态规划最优控制方法及系统的实现框图;
图4是本发明中自适应最优控制循环迭代示意图;
图5是本发明控制系统结构图。
具体实施方式
下面将结合附图所给出的实施例对本发明做进一步的详述。
本发明结合的具体实施例为自主式水下机器人深度控制系统,其具有强非线性、强耦合性、水动力系数不确定性等特点,同时自主式水下机器人的工作环境也具有随机和时变的动态特性,致使我们无法对外部干扰进行准确预测。
本发明的基于协状态辅助的自适应动态规划最优控制方法的流程图如图1 所示。
步骤1,构建自主式水下机器人深度控制中的状态变量、控制变量、转移环境、效用函数和代价函数。
首先定义两个参考坐标系:惯性坐标系和随体坐标系。惯性坐标系固定于地面,其xb轴指向正北,yb轴指向东,cb轴指向垂直向下的地球表面;随体坐标系则固定于自主式水下机器人本体,随自主式水下机器人以任何形式移动。两个参考坐标系示意图如图2所示,其中E-ξηζ表示固定于地面的惯性坐标系, O-xbybzb表示固定于自主式水下机器人的随体坐标系,惯性坐标系与随体坐标系之间转移关系可由自主式水下机器人的运动学方程反映。
状态变量的选取用于描述自主式水下机器人在深度控制问题中的状态信息,因只考虑自主式水下机器人在xb-zb平面内的运动,状态变量表示为x=[w,q,θ,z]T,其中,w为自主式水下机器人在随体坐标系下的垂向速度,q为自主式水下机器人在随体坐标系下绕yb轴的角速度,θ为自主式水下机器人在惯性坐标系下绕η轴的角度,z为自主式水下机器人在惯性坐标系下的垂向深度,前向速度uAUV看作恒定常数。
控制变量为自主式水下机器人执行机构产生的力和力矩,表示为 u=[τ12]T,其中τ1为螺旋桨产生的沿z轴方向的推力,τ2为螺旋桨产生的绕y轴方向的扭矩。
本发明方法中的转移模型表示为
Figure BDA0003147813150000061
其中,x表示状态变量, u表示控制变量。转移环境的作用是使得自主式水下机器人在当前时刻状态与控制变量的作用下,转移得到下一时刻的状态量。因在实际环境中进行本发明方法的实验验证会有设备撞毁等风险,因此为了验证本发明方法的可行性,自主式水下机器人的转移环境由其动力学方程进行模拟表征,模拟的转移环境如式 (1)至式(4)所示:
Figure 1
Figure 2
Figure 3
Figure 4
其中,[xG,yG,zG]T和[xB,yB,zB]T分别为自主式水下机器人在惯性坐标系下重力和浮力中心的坐标;
Figure BDA0003147813150000066
Figure BDA0003147813150000067
为水动力附加质量系数;Zuq,Zuw,Muq和Muq为非线性阻尼力和力矩系数;Zww,Zqq,Mww和Mqq为非线性阻尼力系数;W和B分别代表自主式水下机器人的重力和浮力;Δτ1和Δτ2分别为两个控制变量的扰动。
效用函数是为了评价自主式水下机器人在当前时刻状态下采取的控制动作的优劣,其为
Figure BDA0003147813150000071
其中,Q、R为权重矩阵。
代价函数是效用函数沿着状态轨迹的累计,在自主式水下机器人深度控制问题中,我们的目标是使得自主式水下机器人在达到目标深度时所需的代价函数最小。代价函数的形式可表示为
Figure BDA0003147813150000072
式中,γ为折扣因子。
步骤2,构建基于协状态辅助的自适应动态规划的执行网络、协状态网络和评价网络,用于策略提升和策略评估。执行网络的输入为t时刻下的状态变量x(t),输出为与状态变量x(t)对应的控制变量u(t);协状态网络的输入为状态变量x(t) 和执行网络的输出u(t),输出为与状态变量x(t)对应的协状态
Figure BDA0003147813150000073
评价网络的输入为状态变量x(t)、执行网络的输出u(t)和协状态Λ(t),输出为t时刻下状态行为对<x(t),u(t)>对应的代价函数值J(xt,utt)的近似值。自适应控制方法实现框图如图3所示。
执行网络用于进行t时刻的控制变量估计。执行网络的输入输出可用函数
Figure BDA0003147813150000074
表示,其中,σ(·)为隐藏层tanh激活函数,Ya、Wa为执行网络各神经层之间的权值。为贴合实际控制器的饱和属性,输出层采用tanh 激活函数。
协状态网络用于进行t时刻的协状态估计。协状态网络的输入输出可用函数
Figure BDA0003147813150000075
表示,其中,σ(·)为隐藏层tanh激活函数,YΛ、WΛ为协状态网络各神经层之间的权值。在实施过程中,为防止在迭代训练的过程中会出现梯度消失和梯度爆炸的情况,在每层隐藏层的激活函数前进行归一化处理。
评价网络用于进行t时刻状态的代价函数估计。评价网络的输入输出可用函数表示
Figure BDA0003147813150000081
其中,σ(·)为tanh激活函数,Yc、Wc为评价网络各神经层之间的权值。为贴合实际情况中代价函数J(x,u,Λ)是正定的,输出层采用relu激活函数。在实施过程中,为防止在迭代训练的过程中会出现梯度消失和梯度爆炸的情况,在每层隐藏层的激活函数前进行归一化处理。
步骤3,基于协状态辅助的自适应动态规划的策略评估过程(PEV)。在此步骤中,在固定一个给定的控制律u(xt)的前提下,需要对代价函数J(xt,utt)和协状态Λ(xt,ut)进行相互迭代估计,此过程可以表示为式子
Figure BDA0003147813150000082
Figure BDA0003147813150000083
与式子
Figure BDA0003147813150000084
的相互迭代,因两者的更新过程都利用了对方的网络权值数据,所以在协状态网络和评价网络更新过程中采用相互迭代方式而不是待一个网络更新收敛后再去更新另一个网络。
协状态量与代价函数的相互迭代如图4所示。协状态网络更新时,其权重更新公式为
Figure BDA0003147813150000085
其中,αΛ为协状态网络学习率。式子中
Figure BDA0003147813150000086
评价网络更新时,其权重更新公式为
Figure BDA0003147813150000087
其中,αc为评价网络学习率。式子中δi,j(t)=Ji,j(xt,utt)-(U(xt,ui(t))+Ji,j(xt+1,ut+1t+1)),
Figure BDA0003147813150000088
Figure BDA0003147813150000089
在策略评估的实施过程中,我们采用批量状态选取的训练方式进行迭代学习。首先,在状态空间、动作空间与协状态空间随机取点,在本发明中,每次用于迭代训练的数据集为1000个;然后每次进行第i次迭代时,采用第i-1次迭代的数据的下一时刻数据作为训练数据。采用批量状态选取的训练方式可以加快迭代训练的速度。
在策略评估的实施过程中,需对一些参数进行设定。首先对评价网络和协状态网络的网络权值进行初始化。选择一个最大迭代次数jmax和网络的损失函数阈值ε作为迭代训练的终止标准。当迭代次数大于jmax或两个网络的损失函数均小于ε时,策略评估过程终止,如果当迭代次数大于jmax时,损失函数仍未收敛到ε内,则训练失败,此时可更换协状态网络或评价网络的初始权值。在本发明方法的实施中,最大迭代次数jmax选取为500次,协状态网络和评价网络的损失函数阈值ε均设置为10-5
步骤4,基于协状态辅助的自适应动态规划的策略提升过程(PIM)。此过程可表示为
Figure BDA0003147813150000091
其中,ui+1(xt)为t时刻下,第i次迭代执行网络的输出。在实施过程中,策略提升过程可进行多次,直到寻找到使 Ji(xt,utt)最小化的u(t)。执行网络的权重更新公式为
Figure BDA0003147813150000092
其中,αa为执行网络学习率。
在策略提升的实施过程中,需对一些参数进行设定。因为在策略迭代的实施过程中,初始控制律必须是容许的,即初始容许控制律不仅能使系统稳定同时还能保证在初始控制律下的代价函数是有界的,因此,执行网络的初始网络权值需拟合任意一个容许控制律。在本发明中,初始容许控制律可采用其他控制方法收集得到的一组稳定的状态行为对进行拟合得到。
步骤5,重复步骤3~4直至执行网络、协状态网络和评价网路的权值不再更新,自适应动态规划控制方法的循环迭代示意图如图4所示。在策略评估和策略提升的每次循环迭代过程中,令i=i+1。在进行策略提升和策略评估的外循环迭代实施过程中,需对一些参数进行设定,选择一个最大迭代次数imax和代价函数误差阈值∈作为迭代训练的终止标准。当循环迭代次数大于imax或相邻两次循环迭代之后的代价函数差值|Ji+1(xt,ut)-Ji(xt,ut)|小于∈时,循环迭代过程终止。在本发明方法的实施中,最大迭代次数imax选取为100次,代价函数误差阈值∈设置为10-5
图5表示了应用本发明系统的模块框图结构,其主要包括如下模块:
信息传感模块,用于从外界环境准确的获取状态信息;
优化计算模块,用于优化求解并运行所述控制方法;
控制执行模块,接受期望信息并执行相应动作,以此能够更好的执行上述的方法了。
上述实施例阐明的单元、装置或模块包括深度传感器装置、惯性导航传感器装置、计算单元、执行单元、数据采集单元和推进器驱动单元等,其中深度计通过计算水压从而得到自主式水下机器人距离水面的高度,惯性导航传感器采集自主式水下机器人的姿态信息等数据并进行均值滤波得到更加准确的姿态数据,计算单元可以由计算机芯片或其他实体实现,用以运行所设计的不基于模型的控制方法,推进器驱动单元可将控制输入转换为PWM波进而控制电机转速。以上所描述的装置实施例仅仅是示意性的,例如,所述单元与装置的应用,仅仅是为说明系统的特定功能,实际实现时可以有另外的应用方式,同时多个单元或装置也可相互组合或者集成到其他系统,其中部分单元或装置的功能特征可以忽略,或不执行。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (6)

1.一种基于协状态辅助的自适应动态规划最优控制方法,其特征在于:包括如下步骤:
步骤1,构建自主式水下机器人深度控制中的状态变量、控制变量、转移环境、效用函数和代价函数,状态变量的选取用于描述自主式水下机器人在深度控制问题中的状态信息,控制变量为自主式水下机器人执行机构产生的力和力矩,转移环境的作用是使得自主式水下机器人在当前时刻状态与控制变量的作用下,转移得到下一时刻的状态量,效用函数是为了评价自主式水下机器人在当前时刻状态下采取的控制动作的优劣,代价函数是效用函数沿着状态轨迹的累计,在自主式水下机器人深度控制问题中,目标是使得自主式水下机器人在达到目标深度时所需的代价函数最小;
步骤2,构建基于协状态辅助的自适应动态规划的执行网络、协状态网络和评价网络,用于策略提升和策略评估;
步骤3,基于协状态辅助的自适应动态规划的策略评估过程;
步骤4,基于协状态辅助的自适应动态规划的策略提升过程;
步骤5,重复步骤3~4直至循环迭代次数i大于规定次数或相邻两次外循环之后的代价函数差值|Ji+1(xt,ut,Λt)-Ji(xt,ut,Λt)|小于设定值,迭代循环过程终止;所述步骤2中的执行网络的输入为t时刻下的状态变量x(t),输出为与状态变量x(t)对应的控制变量u(t);协状态网络的输入为状态变量x(t)和执行网络的输出u(t),输出为与状态变量x(t)对应的协状态
Figure FDA0003778434100000011
评价网络的输入为状态变量x(t)、执行网络的输出u(t)和协状态Λ(t),输出为t时刻下状态行为对<x(t),u(t)>对应的代价函数J(xt,ut,Λt)的近似值;所述步骤3中需要对代价函数J(xt,ut,Λt)和协状态Λ(xt,ut)进行估计,具体的估计步骤如下:
步骤31,固定一个给定的控制律u(xt),使用协状态网络的输出Λ(x,u)和转移模型f(·),依据式子
Figure FDA0003778434100000021
进行协状态函数更新;
步骤32,使用评价网络的输出J(x,u,Λ)和转移模型f(·),依据式子
Figure FDA0003778434100000022
进行代价函数更新,其中,第i次循环迭代时,实际会进行多次协状态函数Λ(xt,ut)与代价函数J(xt,ut,Λt)相互迭代过程,即每次外循环i会包括多次内循环j;
步骤33,最终将协状态与代价函数共同收敛;所述步骤4中策略提升过程具体为使用评价网络的输出J(x,u,Λ)和转移模型f(·),依据式子
Figure FDA0003778434100000023
进行策略提升,策略提升目标为使得J(xt,ut,Λt)值更小。
2.根据权利要求1所述的基于协状态辅助的自适应动态规划最优控制方法,其特征在于:所述步骤3中的协状态估计为
Figure FDA0003778434100000024
其中i为外循环迭代次数;xt表示t时刻状态量;ut表示t时刻控制量;γ为折扣因子;U(xt,ui(xt))为t时刻关于xt与ut的效用函数;Λi,j(xt,ut)为第i次外循环第j次迭代时协状态函数的近似值。
3.根据权利要求2所述的基于协状态辅助的自适应动态规划最优控制方法,其特征在于:所述步骤3中的代价函数估计为
Figure FDA0003778434100000025
Figure FDA0003778434100000026
其中,Ji,j(xt,ut,Λt)为第i次外循环第j次迭代时代价函数的近似值,在评估代价函数时,增加协状态量作为评估代价函数J(x,u,Λ)的辅助变量,会较于传统只有xt和ut作为输入的策略评估更为准确。
4.根据权利要求2所述的基于协状态辅助的自适应动态规划最优控制方法,其特征在于:所述步骤3中的代价函数估计为
Figure FDA0003778434100000031
Figure FDA0003778434100000032
其中,
Figure FDA0003778434100000033
为第i次外循环第j次迭代时评价网络的权值,σ(·)为激活函数,
Figure FDA0003778434100000034
为隐藏层输入,
Figure FDA0003778434100000035
δi,j(t)=Ji,j(xt)-(U(xk,ui(t))+Ji,j(xt+i)),αc为评价网络学习率,E(t)为资格迹,其可以表示为
Figure FDA0003778434100000036
5.根据权利要求1或2所述的基于协状态辅助的自适应动态规划最优控制方法,其特征在于:所述步骤4中的策略提升为
Figure FDA0003778434100000037
其中,J(xt,ut,Λt)与u(xt)、Λ(xt,ut)有关。
6.一种应用权利要求1至5所述方法的基于协状态辅助的自适应动态规划最优控制系统,其特征在于:包括如下模块:
信息传感模块,用于从外界环境准确的获取状态信息;
优化计算模块,用于优化求解并运行所述控制方法;
控制执行模块,接受期望信息并执行相应动作。
CN202110757749.0A 2021-07-05 2021-07-05 基于协状态辅助的自适应动态规划最优控制方法及系统 Active CN113359471B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110757749.0A CN113359471B (zh) 2021-07-05 2021-07-05 基于协状态辅助的自适应动态规划最优控制方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110757749.0A CN113359471B (zh) 2021-07-05 2021-07-05 基于协状态辅助的自适应动态规划最优控制方法及系统

Publications (2)

Publication Number Publication Date
CN113359471A CN113359471A (zh) 2021-09-07
CN113359471B true CN113359471B (zh) 2022-10-14

Family

ID=77538335

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110757749.0A Active CN113359471B (zh) 2021-07-05 2021-07-05 基于协状态辅助的自适应动态规划最优控制方法及系统

Country Status (1)

Country Link
CN (1) CN113359471B (zh)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101770209A (zh) * 2010-03-09 2010-07-07 浙江大学 一种多时间尺度复杂大系统的分散预测控制方法
US20180275621A1 (en) * 2017-03-24 2018-09-27 Mitsubishi Electric Research Laboratories, Inc. Model Predictive Control with Uncertainties
CN111267834B (zh) * 2020-02-17 2021-03-26 北京理工大学 一种车辆横摆稳定预测控制方法及系统
CN111665853B (zh) * 2020-07-07 2023-03-31 中国人民解放军国防科技大学 一种面向规划控制联合优化的无人车辆运动规划方法
CN112859889B (zh) * 2021-01-18 2022-02-15 湖南大学 基于自适应动态规划的自主式水下机器人控制方法和系统

Also Published As

Publication number Publication date
CN113359471A (zh) 2021-09-07

Similar Documents

Publication Publication Date Title
CN108803321B (zh) 基于深度强化学习的自主水下航行器轨迹跟踪控制方法
CN107748566B (zh) 一种基于强化学习的水下自主机器人固定深度控制方法
CN111240345B (zh) 基于双bp网络增强学习框架的水下机器人轨迹跟踪方法
CN114077258B (zh) 一种基于强化学习ppo2算法的无人艇位姿控制方法
CN109901403A (zh) 一种自主水下机器人神经网络s面控制方法
CN109901598A (zh) 基于随机模型预测控制技术的自主水下机器人路径跟踪方法
CN112462792B (zh) 一种基于Actor-Critic算法的水下机器人运动控制方法
CN114115262B (zh) 基于方位角信息的多auv执行器饱和协同编队控制系统和方法
CN109189103B (zh) 一种具有暂态性能约束的欠驱动auv轨迹跟踪控制方法
CN108267952B (zh) 一种水下机器人自适应有限时间控制方法
CN112859889B (zh) 基于自适应动态规划的自主式水下机器人控制方法和系统
CN112947505B (zh) 一种基于强化学习算法与未知干扰观测器的多auv编队分布式控制方法
CN114428517B (zh) 一种无人机无人艇协同平台端对端自主降落控制方法
CN113848887A (zh) 一种基于mlp方法的欠驱动无人艇轨迹跟踪控制方法
CN116700327A (zh) 一种基于连续动作优势函数学习的无人机轨迹规划方法
Li et al. Adaptive reinforcement learning fault-tolerant control for AUVs with thruster faults based on the integral extended state observer
CN116360470A (zh) 一种多水下直升机协同编队控制方法
CN114967472A (zh) 一种无人机轨迹跟踪状态补偿深度确定性策略梯度控制方法
Peng et al. Research on hover control of AUV uncertain stochastic nonlinear system based on constructive backstepping control strategy
Miao et al. DOPH∞-based path-following control for underactuated marine vehicles with multiple disturbances and constraints
CN113359471B (zh) 基于协状态辅助的自适应动态规划最优控制方法及系统
CN116430718A (zh) 一种基于ddpg算法的水下机器人推进器故障容错控制方法
CN114943168B (zh) 一种水上浮桥组合方法及系统
CN116382313A (zh) 一种考虑通信受限的auh协同编队控制方法
CN116449703A (zh) 一种有限时间框架下的auh编队协同控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant