CN113359471B

CN113359471B - 基于协状态辅助的自适应动态规划最优控制方法及系统

Info

Publication number: CN113359471B
Application number: CN202110757749.0A
Authority: CN
Inventors: 胡满江; 叶俊; 边有钢; 徐彪; 秦晓辉; 谢国涛; 秦兆博; 王晓伟; 秦洪懋; 丁荣军
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2021-07-05
Filing date: 2021-07-05
Publication date: 2022-10-14
Anticipated expiration: 2041-07-05
Also published as: CN113359471A

Abstract

本发明公开了一种基于协状态辅助的自适应动态规划最优控制方法，包括如下步骤：步骤1，构建系统的状态变量、控制变量、转移环境、效用函数和代价函数；步骤2，构建基于协状态辅助的自适应动态规划的执行网络、协状态网络和评价网络；步骤3，基于协状态辅助的自适应动态规划的策略评估过程；步骤4，基于协状态辅助的自适应动态规划的策略提升过程；步骤5，重复步骤3～4直至循环迭代次数i大于规定次数或相邻两次外循环之后的代价函数差值|J_i+1(x_t,u_t,Λ_t)‑J_i(x_t,u_t,Λ_t)|小于设定值。本发明的基于协状态辅助的自适应动态规划最优控制方法，将代价函数对状态量的导数作为估计代价函数时的辅助变量，同时避免对复杂系统进行动力学建模的过程，提高了复杂动态系统求解的精度。

Description

基于协状态辅助的自适应动态规划最优控制方法及系统

技术领域

本发明属于智能控制技术领域，具体涉及一种基于协状态辅助的自适应动态规划最优控制方法及系统。

背景技术

复杂的动态系统在众多研究领域中普遍存在，如车辆系统、水下机器人系统、化工过程系统、能量管理系统等，随着科技的发展，人们对这些控制系统的性能也提出了越来越高的要求。最优控制是在保证控制系统能稳定达到目标的基础上，寻求一个控制量，使给定的系统代价函数达到极大值(或极小值)。但在实际应用过程中，复杂系统通常具有高度非线性、未知动态特性、模型不确定性等特性，这会造成精确的系统模型难于建立，准确的代价函数难以评估，从而使得最优解难以求解。

在数字计算机实用化的推动下，人工智能与智能控制技术得到快速发展，强化学习、人工神经网络、迭代学习等方法不断丰富，提出了很多求解复杂系统优化问题的解决思路和具体技术方法。其中，西北工业大学所拥有的专利“基于预测建模的高超声速飞行器神经网络学习控制方法”公开了一种神经网络补偿建模误差的方法来实现高速飞行器的控制，可以一定程度上减小建模误差对控制效果的影响，但高速复杂环境下的动态特性仍会使得系统模型难以时刻保证精准。北京邮电大学所拥有的专利“基于量子退火的混合整数最优控制数值求解方法”公开了一种基于模型转换的迭代优化算法，该算法收敛较快，全局搜索能力较强，但最终优化结果很大程度依赖初始化模型的选择。不基于模型的自适应动态规划(ADP)以传统的最优控制为理论基础，融合人工智能的先进技术，成为了一种解决大规模复杂系统控制优化问题的方法。其中，上海海事大学所拥有的专利“一种水下热滑翔机姿态调节的近似动态规划优化控制方法”公开了一种不基于模型的两输入两输出解耦控制，可通过实时反馈状态量的方式在线更新控制律，但在线训练过程中代价函数并不能保证准确的评估，因此在训练过程中可能会得到较恶劣的控制效果。

发明内容

针对现有技术存在的不足，本发明的目的在于提供一种基于协状态辅助的自适应动态规划最优控制方法及系统，通过结合协状态量与资格迹更新机制，有效消除神经网络评估不准的缺陷，同时减少不基于模型的自适应动态规划算法的计算成本。

为实现上述目的，本发明提供了如下技术方案：一种基于协状态辅助的自适应动态规划最优控制方法，包括如下步骤：

步骤1，构建系统的状态变量、控制变量、转移环境、效用函数和代价函数；

步骤2，构建基于协状态辅助的自适应动态规划的执行网络、协状态网络和评价网络，用于策略提升和策略评估；

步骤3，基于协状态辅助的自适应动态规划的策略评估过程；

步骤4，基于协状态辅助的自适应动态规划的策略提升过程；

步骤5，重复步骤3～4直至循环迭代次数i大于规定次数或相邻两次外循环之后的代价函数差值|J_i+1(x_t,u_t,Λ_t)-J_i(x_t,u_t,Λ_t)|小于设定值，迭代循环过程终止。作为本发明的进一步改进，所述步骤2中的执行网络的输入为t时刻下的状态变量 x(t)，输出为与状态变量x(t)对应的控制变量u(t)；协状态网络的输入为状态变量x(t)和执行网络的输出u(t)，输出为与状态变量x(t)对应的协状态

评价网络的输入为状态变量x(t)、执行网络的输出u(t)和协状态Λ(t)，输出为t时刻下状态行为对<x(t)，u(t)>对应的代价函数J(x_t,u_t,Λ_t)的近似值。作为本发明的进一步改进，所述步骤3中需要对代价函数J(x_t，u_t，Λ_t)和协状态Λ(x_t,u_t)进行估计，具体的估计步骤如下：

步骤31，固定一个给定的控制律u(x_t)，使用协状态网络的输出Λ(x,u)和转移模型f(·)，依据式子

进行协状态函数更新；

步骤32，使用评价网络的输出J(x,u,Λ)和转移模型f(·)，依据式子

进行代价函数更新，其中，第i次循环迭代时，实际会进行多次协状态函数Λ(x_t,u_t)与代价函数 J(x_t,u_t,Λ_t)相互迭代过程，即每次外循环i会包括多次内循环j；

步骤33，最终将协状态与代价函数共同收敛。

作为本发明的进一步改进，所述步骤4中策略提升过程具体为使用评价网络的输出J(x,u,Λ)和转移模型f(·)，依据式子

进行策略提升，策略提升目标为使得J(x_t,u_t,Λ_t)值更小。

作为本发明的进一步改进，所述步骤3中的协状态估计为

其中i为外循环迭代次数；x_t表示t时刻状态量；u_t表示t时刻控制量；γ为折扣因子；U(x_t,u_i(x_t))为t时刻关于x_t与u_t的效用函数；Λ_i,j(x_t,u_t)为第i次外循环第j次迭代时协状态函数的近似值。

作为本发明的进一步改进，所述步骤3中的代价函数估计为

其中，J_i,j(x_t,u_t,Λ_t)为第i次外循环第j次迭代时代价函数的近似值，在评估代价函数时，增加协状态量作为评估代价函数J(x,u,Λ)的辅助变量，会较于传统只有x_t和 u_t作为输入的策略评估更为准确。作为本发明的进一步改进，所述步骤3中的代价函数估计为

其中，

为第i次外循环第j次迭代时评价网络的权值，σ(·)为激活函数，

为隐藏层输入，

δ_i,j(t)＝J_i,j(x_t)-(U(x_k,u_i(t))+J_i,j(x_t+i))，α_c为评价网络学习率，E(t)为资格迹，其可以表示为

作为本发明的进一步改进，所述步骤4中的策略提升为

其中，J(x_t,u_t,Λ_t)与u(x_t)、Λ(x_t,u_t)有关。

本发明另一方面提供了一种基于协状态辅助的自适应动态规划最优控制系统，包括如下模块：

信息传感模块，用于从外界环境准确的获取状态信息；

优化计算模块，用于优化求解并运行所述控制方法；

控制执行模块，接受期望信息并执行相应动作。

本发明的有益效果，

(1)所发明方法不基于系统的精确数学模型，无需对系统模型进行估计与假设，仅通过与环境的不断交互，便可实现对系统在复杂环境下的有效控制。

(2)本发明中的方法采用协状态函数作为辅助变量进行策略评估，提高了代价函数的近似准确度，更有利于对执行网络的更新进行引导，减少循环迭代更新的次数，从而加快了迭代训练的速度。

(3)本发明中的方法采用资格迹机制进行评价网络的更新，较比于传统的 ADHDP更新方式，本发明中的方法在每次更新时可以使用更少的数据达到同样的更新效果，从而减少了计算成本。

附图说明

图1是作为本发明一个实施例的基于协状态辅助的自适应动态规划最优控制方法及系统的流程图；

图2是本发明一个实施例自主式水下机器人运动的两个参考坐标系；

图3是作为本发明一个实施例的基于协状态辅助的自适应动态规划最优控制方法及系统的实现框图；

图4是本发明中自适应最优控制循环迭代示意图；

图5是本发明控制系统结构图。

具体实施方式

下面将结合附图所给出的实施例对本发明做进一步的详述。

本发明结合的具体实施例为自主式水下机器人深度控制系统，其具有强非线性、强耦合性、水动力系数不确定性等特点，同时自主式水下机器人的工作环境也具有随机和时变的动态特性，致使我们无法对外部干扰进行准确预测。

本发明的基于协状态辅助的自适应动态规划最优控制方法的流程图如图1 所示。

步骤1，构建自主式水下机器人深度控制中的状态变量、控制变量、转移环境、效用函数和代价函数。

首先定义两个参考坐标系：惯性坐标系和随体坐标系。惯性坐标系固定于地面，其x_b轴指向正北，y_b轴指向东，c_b轴指向垂直向下的地球表面；随体坐标系则固定于自主式水下机器人本体，随自主式水下机器人以任何形式移动。两个参考坐标系示意图如图2所示，其中E-ξηζ表示固定于地面的惯性坐标系， O-x_by_bz_b表示固定于自主式水下机器人的随体坐标系，惯性坐标系与随体坐标系之间转移关系可由自主式水下机器人的运动学方程反映。

状态变量的选取用于描述自主式水下机器人在深度控制问题中的状态信息，因只考虑自主式水下机器人在x_b-z_b平面内的运动，状态变量表示为x＝[w,q,θ,z]^T，其中，w为自主式水下机器人在随体坐标系下的垂向速度，q为自主式水下机器人在随体坐标系下绕y_b轴的角速度，θ为自主式水下机器人在惯性坐标系下绕η轴的角度，z为自主式水下机器人在惯性坐标系下的垂向深度，前向速度u_AUV看作恒定常数。

控制变量为自主式水下机器人执行机构产生的力和力矩，表示为 u＝[τ₁,τ₂]^T，其中τ₁为螺旋桨产生的沿z轴方向的推力，τ₂为螺旋桨产生的绕y轴方向的扭矩。

本发明方法中的转移模型表示为

其中，x表示状态变量， u表示控制变量。转移环境的作用是使得自主式水下机器人在当前时刻状态与控制变量的作用下，转移得到下一时刻的状态量。因在实际环境中进行本发明方法的实验验证会有设备撞毁等风险，因此为了验证本发明方法的可行性，自主式水下机器人的转移环境由其动力学方程进行模拟表征，模拟的转移环境如式 (1)至式(4)所示：

其中，[x_G,y_G,z_G]^T和[x_B,y_B,z_B]^T分别为自主式水下机器人在惯性坐标系下重力和浮力中心的坐标；

和

为水动力附加质量系数；Z_uq,Z_uw,M_uq和M_uq为非线性阻尼力和力矩系数；Z_ww,Z_qq,M_ww和M_qq为非线性阻尼力系数；W和B分别代表自主式水下机器人的重力和浮力；Δτ₁和Δτ₂分别为两个控制变量的扰动。

效用函数是为了评价自主式水下机器人在当前时刻状态下采取的控制动作的优劣，其为

其中，Q、R为权重矩阵。

代价函数是效用函数沿着状态轨迹的累计，在自主式水下机器人深度控制问题中，我们的目标是使得自主式水下机器人在达到目标深度时所需的代价函数最小。代价函数的形式可表示为

式中，γ为折扣因子。

步骤2，构建基于协状态辅助的自适应动态规划的执行网络、协状态网络和评价网络，用于策略提升和策略评估。执行网络的输入为t时刻下的状态变量x(t)，输出为与状态变量x(t)对应的控制变量u(t)；协状态网络的输入为状态变量x(t) 和执行网络的输出u(t)，输出为与状态变量x(t)对应的协状态

评价网络的输入为状态变量x(t)、执行网络的输出u(t)和协状态Λ(t)，输出为t时刻下状态行为对<x(t),u(t)>对应的代价函数值J(x_t,u_t,Λ_t)的近似值。自适应控制方法实现框图如图3所示。

执行网络用于进行t时刻的控制变量估计。执行网络的输入输出可用函数

表示，其中，σ(·)为隐藏层tanh激活函数，Y_a、W_a为执行网络各神经层之间的权值。为贴合实际控制器的饱和属性，输出层采用tanh 激活函数。

协状态网络用于进行t时刻的协状态估计。协状态网络的输入输出可用函数

表示，其中，σ(·)为隐藏层tanh激活函数，Y_Λ、W_Λ为协状态网络各神经层之间的权值。在实施过程中，为防止在迭代训练的过程中会出现梯度消失和梯度爆炸的情况，在每层隐藏层的激活函数前进行归一化处理。

评价网络用于进行t时刻状态的代价函数估计。评价网络的输入输出可用函数表示

其中，σ(·)为tanh激活函数，Y_c、W_c为评价网络各神经层之间的权值。为贴合实际情况中代价函数J(x,u,Λ)是正定的，输出层采用relu激活函数。在实施过程中，为防止在迭代训练的过程中会出现梯度消失和梯度爆炸的情况，在每层隐藏层的激活函数前进行归一化处理。

步骤3，基于协状态辅助的自适应动态规划的策略评估过程(PEV)。在此步骤中，在固定一个给定的控制律u(x_t)的前提下，需要对代价函数J(x_t,u_t,Λ_t)和协状态Λ(x_t,u_t)进行相互迭代估计，此过程可以表示为式子

与式子

的相互迭代，因两者的更新过程都利用了对方的网络权值数据，所以在协状态网络和评价网络更新过程中采用相互迭代方式而不是待一个网络更新收敛后再去更新另一个网络。

协状态量与代价函数的相互迭代如图4所示。协状态网络更新时，其权重更新公式为

其中，α_Λ为协状态网络学习率。式子中

评价网络更新时，其权重更新公式为

其中，α_c为评价网络学习率。式子中δ_i,j(t)＝J_i,j(x_t,u_t,Λ_t)-(U(x_t,u_i(t))+J_i,j(x_t+1,u_t+1,Λ_t+1))，

在策略评估的实施过程中，我们采用批量状态选取的训练方式进行迭代学习。首先，在状态空间、动作空间与协状态空间随机取点，在本发明中，每次用于迭代训练的数据集为1000个；然后每次进行第i次迭代时，采用第i-1次迭代的数据的下一时刻数据作为训练数据。采用批量状态选取的训练方式可以加快迭代训练的速度。

在策略评估的实施过程中，需对一些参数进行设定。首先对评价网络和协状态网络的网络权值进行初始化。选择一个最大迭代次数j_max和网络的损失函数阈值ε作为迭代训练的终止标准。当迭代次数大于j_max或两个网络的损失函数均小于ε时，策略评估过程终止，如果当迭代次数大于j_max时，损失函数仍未收敛到ε内，则训练失败，此时可更换协状态网络或评价网络的初始权值。在本发明方法的实施中，最大迭代次数j_max选取为500次，协状态网络和评价网络的损失函数阈值ε均设置为10^-5。

步骤4，基于协状态辅助的自适应动态规划的策略提升过程(PIM)。此过程可表示为

其中，u_i+1(x_t)为t时刻下，第i次迭代执行网络的输出。在实施过程中，策略提升过程可进行多次，直到寻找到使 J_i(x_t,u_t,Λ_t)最小化的u(t)。执行网络的权重更新公式为

其中，α_a为执行网络学习率。

在策略提升的实施过程中，需对一些参数进行设定。因为在策略迭代的实施过程中，初始控制律必须是容许的，即初始容许控制律不仅能使系统稳定同时还能保证在初始控制律下的代价函数是有界的，因此，执行网络的初始网络权值需拟合任意一个容许控制律。在本发明中，初始容许控制律可采用其他控制方法收集得到的一组稳定的状态行为对进行拟合得到。

步骤5，重复步骤3～4直至执行网络、协状态网络和评价网路的权值不再更新，自适应动态规划控制方法的循环迭代示意图如图4所示。在策略评估和策略提升的每次循环迭代过程中，令i＝i+1。在进行策略提升和策略评估的外循环迭代实施过程中，需对一些参数进行设定，选择一个最大迭代次数i_max和代价函数误差阈值∈作为迭代训练的终止标准。当循环迭代次数大于i_max或相邻两次循环迭代之后的代价函数差值|J_i+1(x_t,u_t)-J_i(x_t,u_t)|小于∈时，循环迭代过程终止。在本发明方法的实施中，最大迭代次数i_max选取为100次，代价函数误差阈值∈设置为10^-5。

图5表示了应用本发明系统的模块框图结构，其主要包括如下模块：

信息传感模块，用于从外界环境准确的获取状态信息；

优化计算模块，用于优化求解并运行所述控制方法；

控制执行模块，接受期望信息并执行相应动作，以此能够更好的执行上述的方法了。

上述实施例阐明的单元、装置或模块包括深度传感器装置、惯性导航传感器装置、计算单元、执行单元、数据采集单元和推进器驱动单元等，其中深度计通过计算水压从而得到自主式水下机器人距离水面的高度，惯性导航传感器采集自主式水下机器人的姿态信息等数据并进行均值滤波得到更加准确的姿态数据，计算单元可以由计算机芯片或其他实体实现，用以运行所设计的不基于模型的控制方法，推进器驱动单元可将控制输入转换为PWM波进而控制电机转速。以上所描述的装置实施例仅仅是示意性的，例如，所述单元与装置的应用，仅仅是为说明系统的特定功能，实际实现时可以有另外的应用方式，同时多个单元或装置也可相互组合或者集成到其他系统，其中部分单元或装置的功能特征可以忽略，或不执行。

以上所述仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于协状态辅助的自适应动态规划最优控制方法，其特征在于：包括如下步骤：

步骤1，构建自主式水下机器人深度控制中的状态变量、控制变量、转移环境、效用函数和代价函数，状态变量的选取用于描述自主式水下机器人在深度控制问题中的状态信息，控制变量为自主式水下机器人执行机构产生的力和力矩，转移环境的作用是使得自主式水下机器人在当前时刻状态与控制变量的作用下，转移得到下一时刻的状态量，效用函数是为了评价自主式水下机器人在当前时刻状态下采取的控制动作的优劣，代价函数是效用函数沿着状态轨迹的累计，在自主式水下机器人深度控制问题中，目标是使得自主式水下机器人在达到目标深度时所需的代价函数最小；

步骤3，基于协状态辅助的自适应动态规划的策略评估过程；

步骤4，基于协状态辅助的自适应动态规划的策略提升过程；

步骤5，重复步骤3～4直至循环迭代次数i大于规定次数或相邻两次外循环之后的代价函数差值|J_i+1(x_t，u_t，Λ_t)-J_i(x_t，u_t，Λ_t)|小于设定值，迭代循环过程终止；所述步骤2中的执行网络的输入为t时刻下的状态变量x(t)，输出为与状态变量x(t)对应的控制变量u(t)；协状态网络的输入为状态变量x(t)和执行网络的输出u(t)，输出为与状态变量x(t)对应的协状态