CN112947505A

CN112947505A - 一种基于强化学习算法与未知干扰观测器的多auv编队分布式控制方法

Info

Publication number: CN112947505A
Application number: CN202110303184.9A
Authority: CN
Inventors: 王卓; 吴淼; 孙延超; 邓忠超; 秦洪德; 王海鹏; 杨赫
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2021-03-22
Filing date: 2021-03-22
Publication date: 2021-06-11
Anticipated expiration: 2041-03-22
Also published as: CN112947505B

Abstract

一种基于强化学习算法与未知干扰观测器的多AUV编队分布式控制方法，属于机器人控制技术领域。为了解决现有的控制方法对AUV编队进行控制存在控制精度差的问题，本发明针对多AUV编队中的AUV，利用纵向和艏向的复合控制系统进行控制；纵向和艏向的复合控制系统包括：基于纵向干扰观测器确定的纵向分布式控制器、基于艏向干扰观测器确定的艏向分布式控制器，以及用于确定控制器控制增益的Actor‑Critic算法；Actor‑Critic算法由Actor当前网络、Actor目标网络、Critic当前网络和Critic目标网络四个网络构成，四个网络均使用RBF神经网络。本发明主要用于水下机器人的控制。

Description

一种基于强化学习算法与未知干扰观测器的多AUV编队分布式控制方法

技术领域

本发明涉及多AUV编队分布式控制方法，属于机器人控制技术领域。

背景技术

自主水下机器人(Autonomous Underwater Vehicle，AUV)作为探索海洋的重要技术手段，近几年在海洋环境探索、资源勘探等领域具有革命性应用，受到社会各界的广泛关注。AUV在执行任务时离不开各种传感器，通过传感器实时反馈回的信息，机器人能得到自身位置、速度等运动信息，也能得到外部环境等与任务息息相关的重要数据。然而由于单台AUV传感器的探测范围有限，在涉及范围较大的任务中，单体AUV显然无法快速高效地完成任务。为了补偿单智能体的物理限制，通常将多个AUV进行编队，在一定队形基础上遥控几个AUV同时执行复杂任务，这样的工作模式减少了每台智能体的任务量，提高了工作效率，这样的系统被称为多水下机器人系统(Multiple Autonomous Underwater VehicleSystem，MAUVS)。在MAUVS系统中，每个智能体拥有独立的意识，拥有独立完成任务的能力。同时为了解决更复杂的问题，每个单体要学会与其他智能体相协作，在这种情况下多智能体协同控制就是需要解决的一大难题。

海洋环境复杂，洋流等干扰会影响AUV编队的运动精度，进一步给协同控制增加了难度。利用目前的控制方法在对AUV编队进行控制难以取得良好的控制精度，控制效果并不理。

发明内容

本发明是为了解决现有的控制方法对AUV编队进行控制存在控制精度差的问题。

一种基于强化学习算法与未知干扰观测器的多AUV编队分布式控制方法，其特征在于，包括以下步骤：

针对多AUV编队中的AUV，利用纵向和艏向的复合控制系统进行控制；AUV为自主水下机器人；

所述纵向和艏向的复合控制系统包括：基于纵向干扰观测器确定的纵向分布式控制器、基于艏向干扰观测器确定的艏向分布式控制器，以及Actor-Critic算法；

所述基于纵向干扰观测器确定的纵向分布式控制器、基于艏向干扰观测器确定的艏向分布式控制器如下：

其中，k_u、k_ψ1、k_ψ2为控制增益；τ_u为推进器纵向推力；τ_r为转艏力矩，角标i表示AUV编队中第i个跟随者，所有角标i对应的参数为第i个跟随者的参数；带有上标∧的参数表示估计值，带有上标·的表示一阶导数，带有上标··的表示二阶导数；X,Y,Z为作用在AUV上外力的合力，X_u|u|、Y_vv、N_rr为粘性力项水动力系数，X_u、

Y_v、

N_r、

为无量纲水动力参数；I_z为AUV绕运动坐标系z轴的转动惯量；m为水下机器人的质量；u_i、v_i、r_i、u_ri、

分别为第i个跟随者的纵向速度、横向速度、艏向角速度、速度全局误差、速度全局误差导数、艏向角二阶导数、艏向角全局误差二阶导数；

分别为纵向干扰估计值和艏向干扰估计值；z_1i＝η_ri-η_i、

η_i第i个跟随者的状态，η_ri为第i个跟随者的全局状态误差，α_1i为虚拟控制量；

所述Actor-Critic算法用于确定控制增益k_u、k_ψ1、k_ψ2，Actor-Critic算法即强化学习算法，由Actor当前网络、Actor目标网络、Critic当前网络和Critic目标网络四个网络构成；Actor当前网络、Actor目标网络、Critic当前网络和Critic目标网络这四个神经网络都使用RBF神经网络。

有益效果：

本发明的强化学习算法能够有效提高探索能力和收敛速度，同时引入强化学习与传统控制相结合的框架结构，并将其应用于AUV编队系统，在编队层面上设计状态输入及动作输出。利用本发明不仅能够实现AUV编队的精确控制，而且收敛速度快。

附图说明

图1为RBF神经网络结构示意图；图2为OU噪声示例；图3为改进Actor-Critic算法示意图；图4为AUV分布式干扰观测系统结构示意图；图5为编队运动控制系统通信模型结构图；图6跟随者控制系统流程图；图7为高阶干扰下不加观测器编队位置变化图；图8为高阶干扰下加入观测器编队位置变化图；图9为高阶干扰下不加观测器编队运动路径；图10为高阶干扰下加入观测器编队运动路径；图11为高阶干扰下不加观测器编队速度控制效果；图12为高阶干扰下加入观测器编队速度控制效果；图13为高阶干扰下不加入观测器编队角度控制效果；图14为高阶干扰下加入观测器编队角度控制效果；图15为高阶干扰下加入观测器前后编队跟踪误差对比图。

具体实施方式

在说明具体实施方式之前，首先对实施方式中的坐标系和参数进行一下说明：

惯性坐标系E-ξηζ：原点E可选在海面的某一点，Eξ轴和Eη轴置于水平面内且互相垂直，Eξ轴正向指向正北方向。Eζ垂直于Eξη平面，正向指向地心。

运动坐标系G-xyz：原点G取在AUV的重心处，x轴、y轴和z轴分别为经过原点的水线面、横剖面和中纵剖面的交线。

运动学模型参数：η_i＝[x_i,y_i,z_i,φ_i,θ_i,ψ_i]^T—第i个AUV在固定坐标系下的六自由度位置与姿态值；η_d＝[x_d,y_d,z_d,φ_d,θ_d,ψ_d]^T—第i个AUV在固定坐标系下的六自由度位置与姿态期望值；ν_i＝[u_i,v_i,w_i,p_i,q_i,r_i]^T—第i个AUV在运动坐标系下的速度与角速度量；J—固定坐标系与运动坐标系之间的转换矩阵；

动力学模型参数：C_RB—刚体的科氏力和向心力矩阵；C_A—附加质量的科氏力和向心力矩阵；M—质量惯性矩阵；D—水动力阻尼矩阵；g_η—重力、浮力产生的力与力矩；τ—推进器与转向装置产生的控制力和力矩；X,Y,Z为作用在AUV上各种外力的合力；K、M、N为作用在AUV上相对于坐标原点的力；X_u|u|、Y_vv、N_rr等为粘性力项等水动力系数；I_xy为绕z轴转动惯量；I_xz为绕y轴转动惯量；I_yz为绕x轴转动惯量；u—推进器的控制量。

具体实施方式一：

本实施方式所述的一种基于强化学习算法与未知干扰观测器的多AUV编队分布式控制方法，包括以下步骤：

S1、建立AUV运动学模型和动力学模型：

考虑洋流扰动影响，设扰动为d，AUV动力学模型：

针对于在水平面行智能体控制，将AUV动力学模型简化为水平面运动模型。简化过程基于哈尔滨工程大学水下机器人重点实验室研制某型号AUV的几个特点进行：

(1)该型号AUV重心与随体坐标系的原点重合，重心位于浮心下方且与浮心位于同一垂线上，且假设重力与浮力平衡；

(2)该型号AUV外形设计在xz平面上对称，考虑到后续控制系统设计，假设机器人在yx和yz平面同样对称：

I_xy＝I_xz＝I_yz＝0 (2)

同时根据对称面性质，附加质量矩阵中非对角元素的值远小于对角元素，因此只需考虑附加质量矩阵中的对角元素即可，而对非对角元素进行忽略。

(3)该型号AUV采用舵桨联合控制，其执行机构包括一组垂直舵和一个纵向推进器，缺少侧向推进器，因此，控制输出具体如式(3)所示：

τ＝[τ_u 0 τ_r] (3)

综上所述，简化后的AUV水平面运动学模型和动力学模型分别如式(4)和式(5)所示：

为方便在仿真环境中对AUV控制性能进行验证，表1给出了哈尔滨工程大学某型AUV水平面无量纲水动力参数。

表1某型AUV水平面无量纲水动力参数

S2、设计神经网络结构和强化学习算法，强化学习算法用于确定纵向控制器和艏向控制器的控制增益k_u、

以及

本发明应用的强化学习算法是在Actor-Critic算法的基础上进行的改进算法。传统的Actor-Critic算法一般由两个神经网络构成，即根据状态(state)输出动作(actor)的actor网络和根据状态及动作输出评分的critic网络，本发明在此结构上的基础上采用“双网络”结构，即把每个网络分为“当前网络(eval网络)”和“期望网络(target网络)”，期望网络的参数更新慢于当前网络，以实现打断前后两个Q值相关性的目的，提高了算法的稳定性。

actor当前网络、actor目标网络、critic当前网络和critic目标网络这四个神经网络都使用RBF神经网络，每个网络分为输入层、隐含层和输出层，结构如图1所示。

RBF神经网络的输入层输入节点数量为i'，隐层节点数量为j'，输出节点数量为k，w_i是隐层到输出层间权值；隐层节点基函数为高斯基函数；

除双网络外，Ornstein-Uhlenbeck噪声也被引入算法。OU噪声是一种时间相关噪声，其微分方程为：

dx_t＝-θ(x_t-μ)dt+σdW_t (6)

其中，μ是均值，θ和σ都大于0，dW_t是维纳过程(布朗运动)；

不考虑维纳过程部分，积分得到：

x_t＝μ+(x₀-μ)e^-θt (7)

其中维纳过程：W(t)-W(s)～N(0,σ²(t-s))，每一段时间的增量符合高斯分布，即OU噪声是从零时刻开始对高斯噪声的累加。噪声的加入能使确定性策略的强化学习算法拥有更强的探索能力，同时OU噪声的时序相关性使它不会高斯噪声一样相邻两步出现差值过大的情况，而是会绕着均值附近正向或负向探索一段距离，这有利于在一个方向上探索。

改进后的actor-critic算法主要由四个神经网络构成—actor当前网络、actor目标网络、critic当前网络和critic目标网络四个网络。在整体的神经网络中，将目标状态与当前状态作差得到e_t，进而通过状态转换得到神经网络需要输入的状态s_t，状态作为actor当前网络的输入得到输出动作a_t，叠加OU噪声后作为力或力矩施加给作用对象(在本发明中为AUV)。同时a_t和状态s_t一同作为critic当前网络的输入得到评价值Q_t。当动作作用于对象后，可通过环境得到新的状态s_t+1，与当前网络类似，actor目标网络的输入是s_t+1，输出是下一时刻的动作a_t+1，critic目标网络的输入是s_t+1和a_t+1，输出新的评价值Q_t+1；回报函数R由新状态设计得到，与Q_t+1共同构成损失函数Loss，用于更新神经网络权值。这样的结构使得动作输出兼有探索性的同时节省了训练样本数，双网络结构打破了相邻两次样本的相关性，使其更好地收敛。

RBF神经网络参数的选取：

Actor-Critic算法由通过神经网络实现，设定四个RBF神经网络，分别为actor当前网络、actor目标网络、critic当前网络和critic目标网络。四个网络都是单输入层单隐层和单输出层。其输入节点数量为i'，隐层节点数量为j'，输出节点数量为k，其中隐层节点基函数为高斯基函数，如下：

其中，c_j'是第j'个基函数的中心点，σ_j'为基函数围绕中心点宽度，‖x-c_j'‖²表示向量x-c_j'的二范数；

神经网络的训练更新公式为：

式中，Δc_i'j'和Δσ_j'是径向基函数参数增量；Δw_j'k是神经网络权值增量；η为常数；w_j'k为第k个隐层权值；y_dk为期望输出Q值；y_k为当前输出Q值；x_i'为神经网络第i'输入；Δc_i'j'为第i'个输入量对第j'个基函数的中心点；x为神经网络输入；c_j'为第j'个基函数的中心点；E表示损失函数；f(·)为以e为底的指数函数。

S3、设计自适应分布式协同控制器：

针对AUV设计分布式协同控制律：

结合AUV动力学模型，设计第i个跟随者速度u和艏向角ψ的控制律即分布式控制器：

纵向速度的纵向推力τ_u：

角度控制的偏航力矩τ_r：

其中k_u＞0、k_ψ1＞0和k_ψ2＞0为控制增益。

S4、设计分布式未知干扰观测器并确定纵向和艏向的复合分布式控制系统：

为最大程度抵消干扰对编队运动的影响，本发明在分布式控制系统基础上，提出如下纵向干扰观测器与艏向干扰观测器分别为：

其中，e_ui(t)为纵向干扰观测器的全局观测误差；i表示第i个跟随者，j表示第j个跟随者；

是对纵向速度u的估计，

是对纵向干扰d_u的估计，a_u是控制项系数即

τ_ui是控制力；sat(e_ui,α,δ)是饱和函数；f_u0是AUV标称模型部分，根据动力学方程

u、v、r分别为对应跟随者的纵向速度、横向速度、艏向角速度；β_u1、β_u2、α_u、δ_u为可调参数；

其中，e_ψi(t)为艏向干扰观测器的全局观测误差；

是对艏向角ψ_i的估计，

是对艏向干扰d_ψ的估计；a_ψ是控制项系数即

sat(e_ψi,α₂,δ)是饱和函数，f_ψ0是系统标称模型部分

β_ψ1、β_ψ2、β_ψ3、α_ψ1、α_ψ2、δ_ψ为可调参数。

将前馈观测器(纵向干扰观测器和艏向干扰观测器)与分布式控制系统(纵向分布式控制系统和艏向分布式控制系统)结合，得到纵向和艏向的复合分布式控制系统；

S5、利用S2设计的神经网络结构和强化学习算法确定纵向分布式控制器和艏向分布式控制器的控制增益k_u、

以及

并结合纵向和艏向的复合控制系统对AUV编队进行控制。

整体复合控制系统结构：本发明设计的多AUV编队运动复合控制系统如图5所示，系统分为三个组成部分，强化学习算法、分布式控制器和分布式观测器，强化学习算法与分布式控制器结合被称为分布式控制系统，它们的输入都是全局的，即某一观测器会同时接收来自编队内领航者与其他跟随者传感器的状态信息，经过计算后形成输入量，而不是只与目标量的领航者信息通信。其中跟随者控制系统结构图6所示。由图6可知，分布式控制系统主要由两部分构成，一是分布式协同控制器，二是改进Actor-Critic算法。强化学习算法部分根据状态调整反步法部分的参数，即k_u、

和

以实现参数优化的目的，使控制器的效率更高。纵向分布式控制器和艏向分布式控制器的主要控制过程如表2，由于纵向分布式控制器和艏向分布式控制的控制流程中也需要Actor-Critic算法参与，所以也可以表示为分布式控制系统控制流程；

表2分布式控制系统控制流程

实际上上述步骤2和步骤3得到新参数值的过程对应表5的步骤2-步骤6；

针对AUV在运动中的动作特性，本发明对分布式控制系统强化学习部分中的动作状态表示以及奖惩函数做如下设计：

参数自适应分布式控制器的状态和动作表示：

基于RBF神经网络的改进Actor-Critic算法控制器可以对连续状态变量进行处理，所以每轮训练开始时将从编队每个AUV得到的状态信息加以运算处理，而后直接作为神经网络输入。

对于状态输入设计，纵向分布式控制系统输入的状态向量表示为S_u＝{s_1u,s_2u}，其中s_1u为速度的全局速度的偏差

S_2u为速度的偏差变化率s_2u＝u’_i；对于艏向分布式控制系统，输入的状态表示为S_ψ＝{s_1ψ,s_2ψ,s_3ψ}，其中s_1ψ为偏航角的偏差

s_2ψ为偏航角的偏差变化率s_2ψ＝ψ’_i，s_3ψ为AUV实时速度s_3ψ＝u_i。

对于动作的输出，强化学习算法部分的输出动作经过处理后是分布式控制器的参数。首先将Actor当前网络输出的动作上叠加OU噪声增加动作探索性，即

而后对输出的动作a_t'进行变换，分别得到纵向分布式控制器的参数和艏向角分布式控制器的参数，具体变换如下：

k_u＝(a’_tu-6)*0.2+Ku0 (19)

k_ψ1＝(a’_tψ1-7)*0.2+Kr10 (20)

k_ψ2＝(a’_tψ2-7)*0.2+Kr20 (21)

其中，ku0、Kr10、Kr20为控制器原始参数；a_t'_u、a_t'_ψ1和a_t'_ψ2是强化学习算法最终输出动作值；k_u、k_ψ1和k_ψ2是最终参数值。

对于速度和艏向状态输入要进行归一化处理，即纵向分布式控制系统的输入量s_1u和s_2u应分别除以2m/s、1m/s²然后输入神经网络；艏向分布式控制系统的输入量

以及

应分别除以3rad，1rad/s，2m/s，然后输入神经网络；最后对控制系统得到力与力矩进行限幅。τ_umax和τ_rmax分别为最大纵向推力和最大转艏力矩，τ_umin和τ_rmin是最小值，其中τ_umax＝800N、τ_umin＝-100N、τ_rmax＝2500N·m、τ_rmin＝-2500N·m。

基于改进Actor-Critic算法的分布式控制系统奖惩函数设计：

对于速度，设回报为速度与加速度相对于目标的差值，即

这样可以使训练过程同时考虑到速度和加速度的变化，使速度接近目标速度时回报值更大。同理对于艏向角，设计回报函数为

同时考虑角度与角速度相对目标值的变化。

具体实施方式二：

本实施方式所述的一种基于强化学习算法与未知干扰观测器的多AUV编队分布式控制方法，所述的AUV水平面运动学模型和动力学模型的建立过程包括以下步骤：AUV运动学方程：AUV运动学方程本质上反映的是大地坐标系与随体坐标系两者间的转换关系，当有外力作用于AUV上时，会使其产生线加速度和角加速度，从而使AUV的线速度和角速度发生变化，为了解线速度和角速度的变化引起的AUV在大地坐标系中最终的位姿变化，就会涉及到坐标转换矩阵。

当从大地坐标系(即惯性坐标系)向随体坐标系(即运动坐标系)进行转化时，首先是绕O_z轴旋转偏航角ψ，接着绕Oy′轴旋转俯仰角θ，最后绕Ox″旋转横摇角

最终得到线速度关系转换矩阵R：

角速度关系转换矩阵T如式(23)所示：

综上可得AUV的运动学方程如式(24)所示：

式中，

表示AUV的位置和姿态；v＝[u v w p q r]^T，表示AUV的线速度和角速度；R和T分别表示线速度关系转换矩阵和角速度关系转换矩阵，且均为正交阵。

AUV动力学模型：参考Fossen提出的AUV六自由度动力学模型，包括五个部分，即刚体惯性力和科氏向心力

附加质量力和附加科氏向心力

阻尼力D(ν)ν、重浮力产生的恢复力g(η)以及推进力τ。具体方程如式(25)所示：

刚体惯性力和刚体科氏向心力：在对AUV进行动力学建模时，可以将AUV近似地看作刚体，AUV六自由度空间运动指的是沿大地坐标系中坐标轴的直线运动及转动运动，其刚体惯性力参数矩阵、刚体科氏向心力参数矩阵具体分别如式(26)及式(27)所示：

附加质量力和附加科氏向心力：AUV在水中作加速运动时，会受到来自流体的惯性力作用，具体表现为对AUV的反作用力，即附加质量力，它与AUV的加速度成正比，表示为

附加科氏向心力同样由AUV附加质量力引起，表示为C_A(ν)ν。附加质量力参数矩阵和附加科氏向心力参数矩阵具体分别如式(28)和式(29)所示：

式中：

阻尼力：AUV在水下运动过程中，受到的阻尼力主要包括摩擦阻力和压差阻力两部分。阻尼力矩阵具体可以表示为线性阻尼力D_l(ν)和非线性阻尼力D_n(ν)之和，即：D(ν)＝D_l(ν)+D_n(ν)，其中非线性阻尼力与流速平方成正比且方向为来流方向。阻尼力参数矩阵具体如式(31)至式(33)所示：

D_l(v)＝-diag{X_u Y_v Z_w K_p M_q N_r} (31)

D_n(v)＝-diag{lX_u|u||u| Y_v|v||v| Z_w|w||w| K_p|p||p| M_q|q||q| N_r|r||r} (32)

重力和浮力：AUV在水中运动时同时受到重力和浮力的作用，重力和浮力分别作用于AUV的重心W和浮心B上，通常情况下它们在坐标系中不位于同一点，因此，AUV在同时受到重浮力作用时会产生力矩。将其转换到随体坐标系下，AUV的恢复力和力矩具体如式(34)所示：

仿真在水平面内进行，因此将AUV动力学方程简化为纵向速度u和艏向角ψ的动力学方程。控制输出具体如式(35)所示：

τ＝[τ_u 0 τ_r] (35)

综上所述，简化后的AUV水平面运动学模型和动力学模型分别如式(36)和式(37)所示：

其他步骤和参数与具体实施方式一相同。

具体实施方式三：

本实施方式所述的一种基于强化学习算法与未知干扰观测器的多AUV编队分布式控制方法，所述设计自适应分布式控制器的过程包括以下步骤：

在对基于改进Actor-Critic算法的参数自适应分布式协同控制系统的结构进行设计前，需要对AUV基于反步法的纵向和艏向分布式控制器进行推导。反步法是属于非线性控制方法，它的基本思想是根据Lyapunov理论设计中间虚拟控制量，在保证稳定性的前提下设计反馈控制律，从而保证跟踪误差逐渐趋近于零。本发明对纵向和艏向分布式控制器的数学推导是基于简化的AUV水平面数学模型进行的。

设误差参考信号为：

根据代数图论理论，a_ij表示第i个和第j个跟随者AUV间的通信权重，如果第i和第j个AUV间直接通信，则a_ij＝1，否则a_ij＝0；g_i表示第i个跟随者AUV与领航者AUV的通信权重，如果第i个跟随者与领航者直接通信，则通信权重大于0，否则g_i＝0，其中i＝1,2,3…,N；α为常数。

根据误差参考信号设计误差为：

其中，η_i第i个跟随者的状态，η_ri为第i个跟随者的全局状态误差参考信号，α_1i为虚拟控制。

首先对z₁求导：

设虚拟控制量为：

其中，K₁为正定对称矩阵。

根据误差方程构造Lyapunov函数V_1i：

对V₁求导得：

显然此时z_1i部分负定。

而后对z₂求导得

进一步得到：

设

进而对V_2i求导得

代入

得：

设干扰为0，将动力学方程

代入(44)得：

根据上式设计控制律：

将(46)代入(45)得：

即式(45)负定。由此可证明控制结果收敛。

而后根据简化后速度与艏向的动力学模型方程(36)和平面运动学方程(37)，得到对速度控制的纵向推力τ_u为：

对角度控制的偏航力矩τ_r为：

其中，k_u为纵向分布式控制器的参数，对应于式(46)中的K₁；k_ψ1和k_ψ2为艏向分布式控制器的参数，对应式(46)中的K₁和K₂。

综上所述，只需根据式(47)和式(48)分别设计纵向和艏向控制律，同时保证纵向和艏向控制器的控制增益k_u、

以及

为合适的正数，即能实现对基于领航者-跟随者模式的多AUV编队系统速度和艏向的良好控制，同时保证编队在运动过程中队形变化保持在一定误差内。

其他步骤和参数与具体实施方式一或二相同。

具体实施方式四：

本实施方式所述的一种基于强化学习算法与未知干扰观测器的多AUV编队分布式控制方法，所述的设计神经网络结构和强化学习算法的过程包括以下步骤：

本发明选择RBF神经网络实现Actor-Critic算法，共包含四个RBF神经网络，分别为Actor当前网络、Actor目标网络、Critic当前网络和Critic目标网络。每个网络分为输入层、隐含层和输出层。其输入节点数量为i'，隐层节点数量为j'，输出节点数量为k，w_i是隐层到输出层间权值；其中隐层节点基函数为高斯基函数，c_j'是第j'个基函数的中心点，σ_j'为基函数围绕中心点宽度，‖x-c_j'‖²表示向量x-c_j'的二范数，通常表示x与c_j间的距离。

RBF神经网络的连接权值修正函数采用反向传播的形式，神经网络的训练更新公式为：

下一时刻的权值为：

c_i'j'(t+1)＝c_i'j'(t)+Δc_i'j'+α[c_i'j'(t)-c_i'j'(t-1)] (53)

σ_j'(t+1)＝σ_j'(t)+Δσ_j'+α[σ_j'(t)-σ_j'(t-1)] (54)

w_j'k(t+1)＝w_j'k(t)+Δw_j'k+α[w_j'k(t)-w_j'k(t-1)] (55)

其中，η为神经网络学习率，f(·)为节点基函数，y_k是神经网络输出值，y_dk是期望输出，t表示迭代当前步，α为平滑因子，

表示损失函数。

纵向分布式控制系统与艏向分布式控制系统中的强化学习算法部分四个网络的设置分别如下：

表3四个RBF神经网络节点数设置

传统Actor-Critic算法的框架主要由两个神经网络构成，即动作网络(Actor)和评价网络(Critic)。Actor的前身是policy-based的policy gradient方法，它能利用策略梯度算法原理从连续动作空间中选择合适的动作，但训练时需要的数据量大；而Critic网络的前身是value-based类算法，这类算法训练效率高但动作选择数量有限，对动作空间大的系统不够精确。结合上述两种方法的优缺点，Actor-Critic算法框架被提出。其中Actor网络基于Critic网络的评价输出更优的动作，Critic网络根据Actor输出动作而达到的状态修改选择行为的概率。但Critic网络本身就很难收敛，加入Actor后二者收敛会更难，为解决这个问题，参考DQN算法的双网络原理，把评价网络和当前网络分别再加上一个目标网络，目标网络的权值更新慢于当前网络，权值每隔几个训练回合定期从当前网络进行复制，这样就能达到解除两个相邻Q值相关性的目的，使神经网在训练时更容易收敛。

同时由于Acror-Critic算法属于确定性策略算法，即其动作网络输出π(s)S→A直接是一个确定的动作而非动作概率∑π(a|s)＝1。确定性策略直接输出动作，所以有着训练所需数据少、训练效率高速度快等优点，但同样因为只输出一个动作的特性，它无法探索环境。针对这一问题，Ornstein-Uhlenbeck噪声被引入算法，即Actor当前网络的输出直接叠加OU噪声，图2为OU噪声示例，在规定范围内使动作拥有一定的随机性，使算法能探索环境。OU噪声是一种时间相关噪声，其微分方程为dx_t＝-θ(x_t-μ)dt+σdW_t，其中μ是均值，θ和σ都大于0，dW_t是维纳过程(布朗运动)。如不考虑维纳过程，积分得到：

x_t＝μ+(x₀-μ)e^-θt (56)

其中维纳过程：W(t)-W(s)～N(0,σ²(t-s))，每一段时间的增量符合高斯分布，即OU噪声是从零时刻开始对高斯噪声的累加。同时OU噪声显然是一种均值回归函数，即如果上一时刻的值x_t大于均值μ，则下一个状态就会变小，反之则会向增大的方向变化。噪声的加入能使确定性策略的强化学习算法拥有更强的探索能力，同时OU噪声的时序相关性和均值回归性使它不会高斯噪声一样相邻两步出现差值过大的情况，而是会绕着均值附近正向或负向探索一段距离，这有利于在一个方向上探索。由公式看出，显然当θ值越大，x_t向均值靠近的速度就越快，而且是指数倍的靠近；σ²则是维纳过程的参数，在OU过程中它决定扰动的放大倍数。

综上设计改进后的Actor-Critic算法如下：

基于神经网络结构的改进Actor-Critic算法结构如图3所示；

由图3可知，改进后的Actor-Critic算法主要由上一节已经进行过陈述的四个神经网络构成。目标状态与当前状态作差得到e_t，进而通过状态转换得到几个神经网络需要输入的状态s_t，状态作为Actor当前网络的输入得到输出动作a_t，叠加OU噪声作用于对象(在本发明中为编队的控制系统)。同时a_t和状态s_t一同作为Critic当前网络的输入得到评价值Q_t。当动作作用于对象后，可通过环境得到新的状态s_t+1，与当前网络类似，Actor目标网络的输入是s_t+1，输出是下一时刻的动作a_t+1，Critic目标网络的输入是s_t+1和a_t+1，输出新的评价值Q_t+1；回报函数R由新状态设计得到，与Q_t+1共同构成损失函数Loss，用于更新神经网络权值。这样的结构使得动作输出兼有探索性的同时节省了训练样本数，双网络结构打破了相邻两次样本的相关性，使其更好地收敛。

四个神经网络的输入输出如下表：

表4神经网络输入输出

改进Actor-Critic算法分布式控制系统学习更新过程：

在改进后的Actor-Critic算法中，当前网络每回合更新，而目标网络每隔n回合从当前网络复制更新后的权值。其中Actor网络和Critic网络的更新方法有所不同。

Critic网络利用均方误差进行更新，即通过critic目标网络输出的新评价Q_t+1与回报函数R，得到期望值

y_i＝R+γQ_t+1(S_t+1,a_t+1,w') (57)

计算TD误差：

其中γ是折扣率。进而得到损失函数：

对损失函数J(w)求梯度下降，并通过公式(50)-(55)来更新Critic网络权值参数。更新完成后每隔n个回合将参数复制到目标网络，依靠两个网络更新后的输出继续实现新参数迭代直至收敛，最后得到相对稳定的Q值。

对于Actor网络，其损失梯度为

即输出动作与对应Q值，Q值越大表示采取的动作得到了更高的奖励，动作评价更高，因此我们希望得更大的Q值。综上对Actor网络的损失理解为Q值越大损失越小，Q值越小损失越大，所以对当前网络输出的Q值取负得到Actor网络的损失函数，损失函数为：

得到损失函数后与Critic网络更新方法相同，对J(θ)求梯度下降，并通过RBF神经网络更新公式进行当前Critic网络权值更新，目标网络定期复制新权值参数。具体学习流程如表5。

表5基于RBF神经网络的Actor-Critic算法学习流程

其他步骤和参数与具体实施方式一至三之一相同。

具体实施方式五：

本实施方式所述的一种基于强化学习算法与未知干扰观测器的多AUV编队分布式控制方法，所述的纵向干扰与艏向干扰观测器的设计过程包括以下步骤：

多AUV编队系统在水中运动时常常受到未知的非线性复杂干扰，针对领航者-跟随者的多AUV系统，根据AUV运动学方程，给出简化后第i个跟随者模型为：

其中，

为输入的控制向量，

为第i个跟随者AUV的状态向量，

为中间量，

是第i个跟随者AUV受到的未知扰动，a_i是常数矩阵，根据AUV的动力学方程确定。

领航者的状态空间模型如下：

其中，

分别是领航者的输出、输入和状态向量，

是受到的扰动。在实际应用中，领航者往往指目标信号，比如从地面控制站发送的指令，此时默认领航者的状态已知。

由式(62)和式(63)可以看出，给出的AUV状态空间模型是一个二阶系统。而在通过公式(36)和(37)已经给出了简化后的运动学方程和动力学模型，可以看出，当被控对象是纵向速度时，系统是一阶系统；而当被控对象是艏向角时，系统则是二阶的。因此不同被控对象数学模型是不完全相同的。

设计的分布式干扰观测器结构如图4所示。图4为AUV分布式干扰观测系统结构示意图；图4给出了在整个系统中观测器与被控对象的结构关系，观测器的输入为控制器输出量τ_i、被控对象输出状态y_i、用以计算全局估计误差的其余跟随者AUV状态y_i和领航者信息y₀；输出则是AUV的状态估计值和未知干扰估计值。其中控制器输出即为力与力矩，被控对象输出状态是某个跟随者AUV的速度矩阵和状态矩阵，在接收编队内其余AUV状态输入后一同构成全局误差。

与分布式控制器的输入状态构成同理，在整个拓扑通信中，部分跟随者与领航者直接通信，而其余跟随者通过与其他跟随者通信的方式间接获取信息。若第i个AUV与领航者直接通信，则在通信拓扑图中存在一边

表征通信权重g_i＞0。根据代数图论理论，给出直连矩阵

在有向通信拓扑下的分布式多AUV协同系统中，每个AUV节点都是相互连通、信息共享的。依据这个特征，参考分布式控制器的设计，可以将观测器设计成多AUV协同控制系统的分布式未知干扰观测器。为在分布式观测器中引入多智能体系统全局误差信息，在单体观测器基础上引入第i个AUV的相对输出估计误差的概念：

其中，

分别表示第i个跟随者AUV和第j个跟随者AUV的输出估计值。

表示与第i个AUV直接通信的集合，也即第i个AUV的邻居节点集合。a_ij表示第i个和第j个AUV间的通信权重，参考第二章代数图论部分内容，如果第i和第j个AUV间直接通信，则a_ij＝1，否则a_ij＝0。表g_i示第i个跟随者AUV与领航者AUV的通信权重，如果第i个跟随者与领航者直接通信，则g_i＞0，否则g_i＝0，其中i＝1,2,...,N。

在实际应用中，领航者通常是地面控制站发出的指令，即默认领航者AUV状态已知，则领航者的输出估计值与其输出值相等，式(64)简化为：

以二阶被控对象为例，观测器结构如下：

其中，e(t)是全局观测误差，

是状态估计值的导数，z_i是中间量，

以及

分别是对扰动的估计和估计值的误差；f₀是标称模型；τ_i是控制器输出量，具体指力与力矩，a_i是控制项系数，由AUV动力学方程得到；β₁、β₂、β₃、α₁、α₁、δ为观测器可调参数。sat(e,α₂,δ)为饱和函数：

通过合理调节上述参数，观测器就能对跟随者状态变量和受到的未知扰动进行估计。

纵向速度和艏向角未知干扰观测器设计：在前述编队通信原理和观测器设计原理基础上，结合AUV的运动学方程和动力学模型，分别设计纵向速度干扰观测器和艏向干扰观测器。根据运动学方程，两个观测器分别是二阶和三阶，观测器的控制项系数和标称模型等参数依据AUV水动力参数确定。

(1)纵向扰动观测器：

根据简化后的AUV动力学模型，可以得到AUV纵向速度控制方程如下：

可知纵向速度是一个一阶被控量，因此根据设计原理，要设计一个二阶观测器。首先根据之前定义的全局误差概念，定义纵向速度观测误差为：

进一步得到：

得到设计的观测器结构为：

其中，i表示第i个跟随者；

是对u的估计，

是对干扰d_u的估计，a_u是控制项系数即

sat(e,α,δ)是饱和函数，结构如式(72)，用来抑制信号抖震；f₀是系统标称模型部分，根据动力学方程

其中，β₁、β₂、α、δ为可调参数。

对于设计的二阶纵向分布式干扰观测器，下面对其稳定性进行证明。将速度系统与扰动观测器系统的误差表示为式(73)：

设

w(t)为有界不确定函数。对误差方程(73)求导得：

当|e_u|≤δ时，给出误差方程的等价系统：

其中，

B＝[0 -1]。

设

根据《基于扩张观测器的欠驱动船舶轨迹跟踪低频学习自适应动态面输出反馈控制》计算矩阵A的特征值，可将矩阵A变为：

其中，N为范德蒙德矩阵，λ_i为特征值。式(75)可变为：

则

可知当ε足够小，即参数β足够大时，误差最终收敛。

(2)、艏向扰动观测器：

根据简化后的AUV动力学模型，艏向控制系统方程为：

可知艏向角是一个二阶被控量，因此设计如下观测器：

其中，

是对ψ_i的估计，

是对艏向干扰d_ψ的估计；a_ψ是控制项系数即

由水动力系数计算得出；sat(e,α,δ)是饱和函数，用来抑制信号抖震，f₀是系统标称模型部分。

其中，β₁、β₂、β₃、α₁、α₂、δ为可调参数。

由式(79)可以看出，艏向干扰观测器是一个三阶观测器，下面给出稳定性分析。

将艏向角系统方程与观测结果误差表示为：

其中，i表示第i个跟随者，e_ψi1是艏向角观测误差，e_ψi2是角速度观测误差，e_ψi3是扰动观测误差。设

对误差方程求导得：

当误差|e|≤δ时，

此时取α₁＝0.5，α₂＝0.25，由式(82)得到

进而得到

因此此时只要β₃远大于w(t)，即远大于观测到扰动的导数(角速度的加速度)，那么观测误差就会足够小，满足观测精度的需求。当误差|e|＞δ时同理可证。

观测器参数整定原则：根据上面稳定性推导过程，可得知参数选取规律。以三阶观测器为例，三阶非线性未知干扰观测器共有六个参数需要整定，分别为β₁、β₂、β₃、α₁、α₂、δ。其中α₁、α₂、δ是饱和函数中的参数，当α＝1是饱和函数为线性函数，其估计精度会差于α＜1的情况。因此α₁、α₂在0到1之间取值，取值越靠近0，饱和函数非线性越强，对未知扰动的适应能力也越强。β₁、β₂、β₃是三阶观测中三个主要的可调参数，取值大于0且受系统采样步长影响。其中对中间变量两个参数的估计与被估计的变量有关，第三个对干扰估计的参数β₃与对d_i的估计有关。β₃的值越大，对扰动的估计滞后越小，估计误差也越小，但β₃过大会引起估计值的振荡或发散，可以通过增大前两个参数来减小由β₃过大引起的估计值振荡，但前两个参数过大也会引起相应估计状态的振荡。因此，三个参数要协同调整，β₁、β₂、β₃应满足关系β₁β₂＞β₃。且由于β值的选择受采样步长影响，因此在不同系统中只要采样步长相同，就可以选择相同的参数值。

其他步骤和参数与具体实施方式一至四之一相同。

实施例

利用具体实施方式的方案进行仿真，使用Matlab软件搭建simulink模型进行仿真，仿真参数如下：

AUV模型水动力参数：

为方便在仿真环境中对AUV控制性能进行验证，采用表1给出的哈尔滨工程大学某型AUV水平面无量纲水动力参数。

初始坐标：

在编队中，设定三个跟随者初始位置向量矩阵与速度向量矩阵如下表：

表6编队初始坐标

控制器与观测器参数：

要求系统稳态控制精度达到0.005。控制器参数设置分为传统控制器部分和神经网络部分。其中反步法部分初始参数分别为K_u＝3，

神经网络参数分别以1为均值0.05为标准差按正态分布随机取值。其他参数如下表：

表7预设性能参数取值

表8观测器参数

施加高阶非线性干扰，纵向干扰为200sin(0.06*t)+3+(0.1*t)³，艏向干扰为2000*sin(0.06*t)+3+(0.2*t)³+2500*sin(0.1*t+2)+3。施加时间为40s到60s。

图7和8是编队运动过程中在高阶干扰下加入观测器前后队形变化，可以看出如果不加入观测器，过强且复杂的干扰会使队形变乱，加入观测器后队形保持较好。图9和10是两种情况下编队运动路径图，同样可以看出加入观测器后进行干扰补偿对编队队形保持的作用。图11至14是加入观测器前后编队轨迹跟踪运动过程中对速度和角度的控制效果对比。可以看出观测器最大限度抵消了干扰对AUV施加的影响。

图15是加入观测器前后编队曲线跟踪误差图。可以看出加入观测器后跟踪误差控制在了很小的范围内。

Claims

1.一种基于强化学习算法与未知干扰观测器的多AUV编队分布式控制方法，其特征在于，包括以下步骤：

Y_v、

N_r、

分别为纵向干扰估计值和艏向干扰估计值；z_1i＝η_ri-η_i、

2.根据权利要求1所述的一种基于强化学习算法与未知干扰观测器的多AUV编队分布式控制方法，其特征在于，纵向干扰观测器与艏向干扰观测器分别如下：

纵向干扰观测器：

是对纵向速度u的估计，

是对纵向干扰d_u的估计，a_u是控制项系数即

u、v、r分别为对应跟随者的纵向速度、横向速度、艏向角速度；β_u1、β_u2、α_u、δ_u为可调参数；a_ij表示第i个和第j个跟随者AUV间的通信权重，如果第i和第j个AUV间直接通信，则a_ij＝1，否则a_ij＝0；g_i表示第i个跟随者AUV与领航者AUV的通信权重，如果第i个跟随者与领航者直接通信，则通信g_i＝1，否则g_i＝0；

艏向干扰观测器：

其中，e_ψi(t)为艏向干扰观测器的全局观测误差；

是对艏向角ψ_i的估计，

是对艏向干扰d_ψ的估计；a_ψ是控制项系数即

sat(e_ψi,α₂,δ)是饱和函数，f_ψ0是系统标称模型部分

β_ψ1、β_ψ2、β_ψ3、α_ψ1、α_ψ2、δ_ψ为可调参数。

3.根据权利要求2所述的一种基于强化学习算法与未知干扰观测器的多AUV编队分布式控制方法，所述纵向干扰观测器的饱和函数

所述艏向干扰观测器饱和函数与纵向干扰观测器的饱和函数计算方式相同。

4.根据权利要求3所述的一种基于强化学习算法与未知干扰观测器的多AUV编队分布式控制方法，其特征在于，所述第i个跟随者的全局状态误差η_ri

5.根据权利要求4所述的一种基于强化学习算法与未知干扰观测器的多AUV编队分布式控制方法，其特征在于，所述RBF神经网络包括一个输入层、一个隐含层和一个输出层；其输入节点数量为i'，隐层节点数量为j'，输出节点数量为k，其中隐层节点基函数为高斯基函数，如下：

神经网络的训练更新公式为：

其中，式中，Δc_i'j'和Δσ_j'是径向基函数参数增量；Δw_j'k是神经网络权值增量；η为常数；w_j'k为第k个隐层权值；y_dk为期望输出Q值；y_k为当前输出Q值；x_i'为神经网络第i'输入；Δc_i'j'为第i'个输入量对第j'个基函数的中心点；x为神经网络输入；c_j'为第j'个基函数的中心点；E表示损失函数；f(·)为以e为底的指数函数。

6.根据权利要求1、2、3、4或5所述的一种基于强化学习算法与未知干扰观测器的多AUV编队分布式控制方法，其特征在于，纵向分布式控制器和艏向分布式控制器的控制过程包括以下步骤：

A1、初始化强化学习算法中的参数以及分布式控制器参数；所述分布式控制器即纵向和艏向的分布式控制器；

A2、观察当前第i个跟随者状态、领航者目标状态、其余跟随者状态，计算Actor当前网络和Critic当前网络输入状态s_t；

A3、通过Actor当前网络输出动作a_t，叠加噪声得到a'_t，即控制器参数变化量；计算得到纵向分布式控制器和艏向分布式控制器新参数k_u、k_ψ1和k_ψ2；

A4、更新纵向分布式控制器和艏向分布式控制器参数k_u、k_ψ1和k_ψ2；

A5、将跟随者的全局状态误差η_ri作为两个分布式控制器输入，得到力与力矩；

A6、干扰观测器得到对干扰力的估计值；

A7、干扰估计与步骤A5力与力矩计算后作用于AUV编队系统；

A8、AUV编队与环境交互得到新状态s_t+1；

A9、根据状态s_t和s_t+1计算奖励函数R、损失函数Loss，并更新四个神经网络；

A10、将新状态s_t+1作为纵向和艏向的复合控制系统的新输入；

A11、返回步骤A2，重复执行，直至回合结束。

7.根据权利要求6所述的一种基于强化学习算法与未知干扰观测器的多AUV编队分布式控制方法，其特征在于，利用Actor-Critic算法确定控制增益k_u、k_ψ1、k_ψ2的过程包括以下步骤：

B1、初始化权值θ、w为[-1,1]的随机数，并设置折扣率γ；

B2、观察当前状态s_t；

B3、基于Actor当前网络输出a_t；针对动作a_t，叠加噪声得到新

B4、将s_t、a_t'作为输入，基于Critic当前网络输出Q_t；

B5、动作与环境交互，得到新状态s_t+1和即时回报r_t+1；

B6、基于Actor目标网络输出新动作a_t+1；

B7、将s_t+1、a_t+1作为输入，基于Critic目标网络输出Q_t+1；

B8、计算实际值与期望值的偏差，算出Critic目标网络和Critic当前网络的损失函数；并计算Actor目标网络和Actor当前网络的损失函数；

B9、更新Critic当前网络和Actor当前网络对应的RBF神经网络参数w和θ；

B10、n步迭代后，更新Critic目标网络和Actor目标网络对应的RBF神经网络的参数w'和θ'；

B11、返回步骤B2，重复执行，直至回合结束。

8.根据权利要求7所述的一种基于强化学习算法与未知干扰观测器的多AUV编队分布式控制方法，其特征在于，A2所述计算Actor当前网络和Critic当前网络输入状态s_t的过程中，纵向分布式控制器对应的输入为S_u＝{s_1u,s_2u}，其中s_1u为速度的全局速度的偏差

S_2u为速度的偏差变化率s_2u＝u'_i；艏向分布式控制器对应的输入为S_ψ＝{s_1ψ,s_2ψ,s_3ψ}，其中s_1ψ为偏航角的偏差

s_2ψ为偏航角的偏差变化率s_2ψ＝ψ'_i，s_3ψ为AUV实时速度s_3ψ＝u_i；将S_u和S_ψ进行归一化处理后输入Actor当前网络和Critic当前网络。

9.根据权利要求8所述的一种基于强化学习算法与未知干扰观测器的多AUV编队分布式控制方法，其特征在于将S_u和S_ψ进行归一化处理过程包括以下步骤：

纵向分布式控制系统的输入量s_1u和s_2u应分别除以2m/s、1m/s²；

艏向分布式控制系统的输入量

以及

应分别除以3rad、1rad/s、2m/s。