CN112947505A - 一种基于强化学习算法与未知干扰观测器的多auv编队分布式控制方法 - Google Patents

一种基于强化学习算法与未知干扰观测器的多auv编队分布式控制方法 Download PDF

Info

Publication number
CN112947505A
CN112947505A CN202110303184.9A CN202110303184A CN112947505A CN 112947505 A CN112947505 A CN 112947505A CN 202110303184 A CN202110303184 A CN 202110303184A CN 112947505 A CN112947505 A CN 112947505A
Authority
CN
China
Prior art keywords
auv
heading
longitudinal
actor
critic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110303184.9A
Other languages
English (en)
Other versions
CN112947505B (zh
Inventor
王卓
吴淼
孙延超
邓忠超
秦洪德
王海鹏
杨赫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN202110303184.9A priority Critical patent/CN112947505B/zh
Publication of CN112947505A publication Critical patent/CN112947505A/zh
Application granted granted Critical
Publication of CN112947505B publication Critical patent/CN112947505B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/04Control of altitude or depth
    • G05D1/06Rate of change of altitude or depth
    • G05D1/0692Rate of change of altitude or depth specially adapted for under-water vehicles
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

一种基于强化学习算法与未知干扰观测器的多AUV编队分布式控制方法,属于机器人控制技术领域。为了解决现有的控制方法对AUV编队进行控制存在控制精度差的问题,本发明针对多AUV编队中的AUV,利用纵向和艏向的复合控制系统进行控制;纵向和艏向的复合控制系统包括:基于纵向干扰观测器确定的纵向分布式控制器、基于艏向干扰观测器确定的艏向分布式控制器,以及用于确定控制器控制增益的Actor‑Critic算法;Actor‑Critic算法由Actor当前网络、Actor目标网络、Critic当前网络和Critic目标网络四个网络构成,四个网络均使用RBF神经网络。本发明主要用于水下机器人的控制。

Description

一种基于强化学习算法与未知干扰观测器的多AUV编队分布 式控制方法
技术领域
本发明涉及多AUV编队分布式控制方法,属于机器人控制技术领域。
背景技术
自主水下机器人(Autonomous Underwater Vehicle,AUV)作为探索海洋的重要技术手段,近几年在海洋环境探索、资源勘探等领域具有革命性应用,受到社会各界的广泛关注。AUV在执行任务时离不开各种传感器,通过传感器实时反馈回的信息,机器人能得到自身位置、速度等运动信息,也能得到外部环境等与任务息息相关的重要数据。然而由于单台AUV传感器的探测范围有限,在涉及范围较大的任务中,单体AUV显然无法快速高效地完成任务。为了补偿单智能体的物理限制,通常将多个AUV进行编队,在一定队形基础上遥控几个AUV同时执行复杂任务,这样的工作模式减少了每台智能体的任务量,提高了工作效率,这样的系统被称为多水下机器人系统(Multiple Autonomous Underwater VehicleSystem,MAUVS)。在MAUVS系统中,每个智能体拥有独立的意识,拥有独立完成任务的能力。同时为了解决更复杂的问题,每个单体要学会与其他智能体相协作,在这种情况下多智能体协同控制就是需要解决的一大难题。
海洋环境复杂,洋流等干扰会影响AUV编队的运动精度,进一步给协同控制增加了难度。利用目前的控制方法在对AUV编队进行控制难以取得良好的控制精度,控制效果并不理。
发明内容
本发明是为了解决现有的控制方法对AUV编队进行控制存在控制精度差的问题。
一种基于强化学习算法与未知干扰观测器的多AUV编队分布式控制方法,其特征在于,包括以下步骤:
针对多AUV编队中的AUV,利用纵向和艏向的复合控制系统进行控制;AUV为自主水下机器人;
所述纵向和艏向的复合控制系统包括:基于纵向干扰观测器确定的纵向分布式控制器、基于艏向干扰观测器确定的艏向分布式控制器,以及Actor-Critic算法;
所述基于纵向干扰观测器确定的纵向分布式控制器、基于艏向干扰观测器确定的艏向分布式控制器如下:
Figure BDA0002987069130000011
Figure BDA0002987069130000012
其中,ku、kψ1、kψ2为控制增益;τu为推进器纵向推力;τr为转艏力矩,角标i表示AUV编队中第i个跟随者,所有角标i对应的参数为第i个跟随者的参数;带有上标∧的参数表示估计值,带有上标·的表示一阶导数,带有上标··的表示二阶导数;X,Y,Z为作用在AUV上外力的合力,Xu|u|、Yvv、Nrr为粘性力项水动力系数,Xu
Figure BDA0002987069130000021
Yv
Figure BDA0002987069130000022
Nr
Figure BDA0002987069130000023
为无量纲水动力参数;Iz为AUV绕运动坐标系z轴的转动惯量;m为水下机器人的质量;ui、vi、ri、uri
Figure BDA0002987069130000024
分别为第i个跟随者的纵向速度、横向速度、艏向角速度、速度全局误差、速度全局误差导数、艏向角二阶导数、艏向角全局误差二阶导数;
Figure BDA0002987069130000025
分别为纵向干扰估计值和艏向干扰估计值;z1i=ηrii
Figure BDA0002987069130000026
ηi第i个跟随者的状态,ηri为第i个跟随者的全局状态误差,α1i为虚拟控制量;
所述Actor-Critic算法用于确定控制增益ku、kψ1、kψ2,Actor-Critic算法即强化学习算法,由Actor当前网络、Actor目标网络、Critic当前网络和Critic目标网络四个网络构成;Actor当前网络、Actor目标网络、Critic当前网络和Critic目标网络这四个神经网络都使用RBF神经网络。
有益效果:
本发明的强化学习算法能够有效提高探索能力和收敛速度,同时引入强化学习与传统控制相结合的框架结构,并将其应用于AUV编队系统,在编队层面上设计状态输入及动作输出。利用本发明不仅能够实现AUV编队的精确控制,而且收敛速度快。
附图说明
图1为RBF神经网络结构示意图;图2为OU噪声示例;图3为改进Actor-Critic算法示意图;图4为AUV分布式干扰观测系统结构示意图;图5为编队运动控制系统通信模型结构图;图6跟随者控制系统流程图;图7为高阶干扰下不加观测器编队位置变化图;图8为高阶干扰下加入观测器编队位置变化图;图9为高阶干扰下不加观测器编队运动路径;图10为高阶干扰下加入观测器编队运动路径;图11为高阶干扰下不加观测器编队速度控制效果;图12为高阶干扰下加入观测器编队速度控制效果;图13为高阶干扰下不加入观测器编队角度控制效果;图14为高阶干扰下加入观测器编队角度控制效果;图15为高阶干扰下加入观测器前后编队跟踪误差对比图。
具体实施方式
在说明具体实施方式之前,首先对实施方式中的坐标系和参数进行一下说明:
惯性坐标系E-ξηζ:原点E可选在海面的某一点,Eξ轴和Eη轴置于水平面内且互相垂直,Eξ轴正向指向正北方向。Eζ垂直于Eξη平面,正向指向地心。
运动坐标系G-xyz:原点G取在AUV的重心处,x轴、y轴和z轴分别为经过原点的水线面、横剖面和中纵剖面的交线。
运动学模型参数:ηi=[xi,yi,ziiii]T—第i个AUV在固定坐标系下的六自由度位置与姿态值;ηd=[xd,yd,zdddd]T—第i个AUV在固定坐标系下的六自由度位置与姿态期望值;νi=[ui,vi,wi,pi,qi,ri]T—第i个AUV在运动坐标系下的速度与角速度量;J—固定坐标系与运动坐标系之间的转换矩阵;
动力学模型参数:CRB—刚体的科氏力和向心力矩阵;CA—附加质量的科氏力和向心力矩阵;M—质量惯性矩阵;D—水动力阻尼矩阵;gη—重力、浮力产生的力与力矩;τ—推进器与转向装置产生的控制力和力矩;X,Y,Z为作用在AUV上各种外力的合力;K、M、N为作用在AUV上相对于坐标原点的力;Xu|u|、Yvv、Nrr等为粘性力项等水动力系数;Ixy为绕z轴转动惯量;Ixz为绕y轴转动惯量;Iyz为绕x轴转动惯量;u—推进器的控制量。
具体实施方式一:
本实施方式所述的一种基于强化学习算法与未知干扰观测器的多AUV编队分布式控制方法,包括以下步骤:
S1、建立AUV运动学模型和动力学模型:
考虑洋流扰动影响,设扰动为d,AUV动力学模型:
Figure BDA0002987069130000031
针对于在水平面行智能体控制,将AUV动力学模型简化为水平面运动模型。简化过程基于哈尔滨工程大学水下机器人重点实验室研制某型号AUV的几个特点进行:
(1)该型号AUV重心与随体坐标系的原点重合,重心位于浮心下方且与浮心位于同一垂线上,且假设重力与浮力平衡;
(2)该型号AUV外形设计在xz平面上对称,考虑到后续控制系统设计,假设机器人在yx和yz平面同样对称:
Ixy=Ixz=Iyz=0 (2)
同时根据对称面性质,附加质量矩阵中非对角元素的值远小于对角元素,因此只需考虑附加质量矩阵中的对角元素即可,而对非对角元素进行忽略。
(3)该型号AUV采用舵桨联合控制,其执行机构包括一组垂直舵和一个纵向推进器,缺少侧向推进器,因此,控制输出具体如式(3)所示:
τ=[τu 0 τr] (3)
综上所述,简化后的AUV水平面运动学模型和动力学模型分别如式(4)和式(5)所示:
Figure BDA0002987069130000032
Figure BDA0002987069130000033
为方便在仿真环境中对AUV控制性能进行验证,表1给出了哈尔滨工程大学某型AUV水平面无量纲水动力参数。
表1某型AUV水平面无量纲水动力参数
Figure BDA0002987069130000041
S2、设计神经网络结构和强化学习算法,强化学习算法用于确定纵向控制器和艏向控制器的控制增益ku
Figure BDA0002987069130000042
以及
Figure BDA0002987069130000043
本发明应用的强化学习算法是在Actor-Critic算法的基础上进行的改进算法。传统的Actor-Critic算法一般由两个神经网络构成,即根据状态(state)输出动作(actor)的actor网络和根据状态及动作输出评分的critic网络,本发明在此结构上的基础上采用“双网络”结构,即把每个网络分为“当前网络(eval网络)”和“期望网络(target网络)”,期望网络的参数更新慢于当前网络,以实现打断前后两个Q值相关性的目的,提高了算法的稳定性。
actor当前网络、actor目标网络、critic当前网络和critic目标网络这四个神经网络都使用RBF神经网络,每个网络分为输入层、隐含层和输出层,结构如图1所示。
RBF神经网络的输入层输入节点数量为i',隐层节点数量为j',输出节点数量为k,wi是隐层到输出层间权值;隐层节点基函数为高斯基函数;
除双网络外,Ornstein-Uhlenbeck噪声也被引入算法。OU噪声是一种时间相关噪声,其微分方程为:
dxt=-θ(xt-μ)dt+σdWt (6)
其中,μ是均值,θ和σ都大于0,dWt是维纳过程(布朗运动);
不考虑维纳过程部分,积分得到:
xt=μ+(x0-μ)e-θt (7)
其中维纳过程:W(t)-W(s)~N(0,σ2(t-s)),每一段时间的增量符合高斯分布,即OU噪声是从零时刻开始对高斯噪声的累加。噪声的加入能使确定性策略的强化学习算法拥有更强的探索能力,同时OU噪声的时序相关性使它不会高斯噪声一样相邻两步出现差值过大的情况,而是会绕着均值附近正向或负向探索一段距离,这有利于在一个方向上探索。
改进后的actor-critic算法主要由四个神经网络构成—actor当前网络、actor目标网络、critic当前网络和critic目标网络四个网络。在整体的神经网络中,将目标状态与当前状态作差得到et,进而通过状态转换得到神经网络需要输入的状态st,状态作为actor当前网络的输入得到输出动作at,叠加OU噪声后作为力或力矩施加给作用对象(在本发明中为AUV)。同时at和状态st一同作为critic当前网络的输入得到评价值Qt。当动作作用于对象后,可通过环境得到新的状态st+1,与当前网络类似,actor目标网络的输入是st+1,输出是下一时刻的动作at+1,critic目标网络的输入是st+1和at+1,输出新的评价值Qt+1;回报函数R由新状态设计得到,与Qt+1共同构成损失函数Loss,用于更新神经网络权值。这样的结构使得动作输出兼有探索性的同时节省了训练样本数,双网络结构打破了相邻两次样本的相关性,使其更好地收敛。
RBF神经网络参数的选取:
Actor-Critic算法由通过神经网络实现,设定四个RBF神经网络,分别为actor当前网络、actor目标网络、critic当前网络和critic目标网络。四个网络都是单输入层单隐层和单输出层。其输入节点数量为i',隐层节点数量为j',输出节点数量为k,其中隐层节点基函数为高斯基函数,如下:
Figure BDA0002987069130000051
其中,cj'是第j'个基函数的中心点,σj'为基函数围绕中心点宽度,‖x-cj'2表示向量x-cj'的二范数;
神经网络的训练更新公式为:
Figure BDA0002987069130000052
Figure BDA0002987069130000053
Figure BDA0002987069130000054
式中,Δci'j'和Δσj'是径向基函数参数增量;Δwj'k是神经网络权值增量;η为常数;wj'k为第k个隐层权值;ydk为期望输出Q值;yk为当前输出Q值;xi'为神经网络第i'输入;Δci'j'为第i'个输入量对第j'个基函数的中心点;x为神经网络输入;cj'为第j'个基函数的中心点;E表示损失函数;f(·)为以e为底的指数函数。
S3、设计自适应分布式协同控制器:
针对AUV设计分布式协同控制律:
Figure BDA0002987069130000055
结合AUV动力学模型,设计第i个跟随者速度u和艏向角ψ的控制律即分布式控制器:
纵向速度的纵向推力τu
Figure BDA0002987069130000056
角度控制的偏航力矩τr
Figure BDA0002987069130000061
其中ku>0、kψ1>0和kψ2>0为控制增益。
S4、设计分布式未知干扰观测器并确定纵向和艏向的复合分布式控制系统:
为最大程度抵消干扰对编队运动的影响,本发明在分布式控制系统基础上,提出如下纵向干扰观测器与艏向干扰观测器分别为:
Figure BDA0002987069130000062
其中,eui(t)为纵向干扰观测器的全局观测误差;i表示第i个跟随者,j表示第j个跟随者;
Figure BDA0002987069130000063
是对纵向速度u的估计,
Figure BDA0002987069130000064
是对纵向干扰du的估计,au是控制项系数即
Figure BDA0002987069130000065
τui是控制力;sat(eui,α,δ)是饱和函数;fu0是AUV标称模型部分,根据动力学方程
Figure BDA0002987069130000066
u、v、r分别为对应跟随者的纵向速度、横向速度、艏向角速度;βu1、βu2、αu、δu为可调参数;
Figure BDA0002987069130000067
其中,eψi(t)为艏向干扰观测器的全局观测误差;
Figure BDA0002987069130000068
是对艏向角ψi的估计,
Figure BDA0002987069130000069
是对艏向干扰dψ的估计;aψ是控制项系数即
Figure BDA00029870691300000610
sat(eψi,α2,δ)是饱和函数,fψ0是系统标称模型部分
Figure BDA00029870691300000611
βψ1、βψ2、βψ3、αψ1、αψ2、δψ为可调参数。
将前馈观测器(纵向干扰观测器和艏向干扰观测器)与分布式控制系统(纵向分布式控制系统和艏向分布式控制系统)结合,得到纵向和艏向的复合分布式控制系统;
所述基于纵向干扰观测器确定的纵向分布式控制器、基于艏向干扰观测器确定的艏向分布式控制器如下:
Figure BDA00029870691300000612
Figure BDA00029870691300000613
S5、利用S2设计的神经网络结构和强化学习算法确定纵向分布式控制器和艏向分布式控制器的控制增益ku
Figure BDA0002987069130000071
以及
Figure BDA0002987069130000072
并结合纵向和艏向的复合控制系统对AUV编队进行控制。
整体复合控制系统结构:本发明设计的多AUV编队运动复合控制系统如图5所示,系统分为三个组成部分,强化学习算法、分布式控制器和分布式观测器,强化学习算法与分布式控制器结合被称为分布式控制系统,它们的输入都是全局的,即某一观测器会同时接收来自编队内领航者与其他跟随者传感器的状态信息,经过计算后形成输入量,而不是只与目标量的领航者信息通信。其中跟随者控制系统结构图6所示。由图6可知,分布式控制系统主要由两部分构成,一是分布式协同控制器,二是改进Actor-Critic算法。强化学习算法部分根据状态调整反步法部分的参数,即ku
Figure BDA0002987069130000073
Figure BDA0002987069130000074
以实现参数优化的目的,使控制器的效率更高。纵向分布式控制器和艏向分布式控制器的主要控制过程如表2,由于纵向分布式控制器和艏向分布式控制的控制流程中也需要Actor-Critic算法参与,所以也可以表示为分布式控制系统控制流程;
表2分布式控制系统控制流程
Figure BDA0002987069130000075
实际上上述步骤2和步骤3得到新参数值的过程对应表5的步骤2-步骤6;
针对AUV在运动中的动作特性,本发明对分布式控制系统强化学习部分中的动作状态表示以及奖惩函数做如下设计:
参数自适应分布式控制器的状态和动作表示:
基于RBF神经网络的改进Actor-Critic算法控制器可以对连续状态变量进行处理,所以每轮训练开始时将从编队每个AUV得到的状态信息加以运算处理,而后直接作为神经网络输入。
对于状态输入设计,纵向分布式控制系统输入的状态向量表示为Su={s1u,s2u},其中s1u为速度的全局速度的偏差
Figure BDA0002987069130000081
S2u为速度的偏差变化率s2u=u’i;对于艏向分布式控制系统,输入的状态表示为Sψ={s,s,s},其中s为偏航角的偏差
Figure BDA0002987069130000082
s为偏航角的偏差变化率s=ψ’i,s为AUV实时速度s=ui
对于动作的输出,强化学习算法部分的输出动作经过处理后是分布式控制器的参数。首先将Actor当前网络输出的动作上叠加OU噪声增加动作探索性,即
Figure BDA0002987069130000083
而后对输出的动作at'进行变换,分别得到纵向分布式控制器的参数和艏向角分布式控制器的参数,具体变换如下:
ku=(a’tu-6)*0.2+Ku0 (19)
kψ1=(a’tψ1-7)*0.2+Kr10 (20)
kψ2=(a’tψ2-7)*0.2+Kr20 (21)
其中,ku0、Kr10、Kr20为控制器原始参数;at'u、at'ψ1和at'ψ2是强化学习算法最终输出动作值;ku、kψ1和kψ2是最终参数值。
对于速度和艏向状态输入要进行归一化处理,即纵向分布式控制系统的输入量s1u和s2u应分别除以2m/s、1m/s2然后输入神经网络;艏向分布式控制系统的输入量
Figure BDA0002987069130000084
以及
Figure BDA0002987069130000085
应分别除以3rad,1rad/s,2m/s,然后输入神经网络;最后对控制系统得到力与力矩进行限幅。τumax和τrmax分别为最大纵向推力和最大转艏力矩,τumin和τrmin是最小值,其中τumax=800N、τumin=-100N、τrmax=2500N·m、τrmin=-2500N·m。
基于改进Actor-Critic算法的分布式控制系统奖惩函数设计:
对于速度,设回报为速度与加速度相对于目标的差值,即
Figure BDA0002987069130000086
这样可以使训练过程同时考虑到速度和加速度的变化,使速度接近目标速度时回报值更大。同理对于艏向角,设计回报函数为
Figure BDA0002987069130000087
同时考虑角度与角速度相对目标值的变化。
具体实施方式二:
本实施方式所述的一种基于强化学习算法与未知干扰观测器的多AUV编队分布式控制方法,所述的AUV水平面运动学模型和动力学模型的建立过程包括以下步骤:AUV运动学方程:AUV运动学方程本质上反映的是大地坐标系与随体坐标系两者间的转换关系,当有外力作用于AUV上时,会使其产生线加速度和角加速度,从而使AUV的线速度和角速度发生变化,为了解线速度和角速度的变化引起的AUV在大地坐标系中最终的位姿变化,就会涉及到坐标转换矩阵。
当从大地坐标系(即惯性坐标系)向随体坐标系(即运动坐标系)进行转化时,首先是绕Oz轴旋转偏航角ψ,接着绕Oy′轴旋转俯仰角θ,最后绕Ox″旋转横摇角
Figure BDA0002987069130000091
最终得到线速度关系转换矩阵R:
Figure BDA0002987069130000092
角速度关系转换矩阵T如式(23)所示:
Figure BDA0002987069130000093
综上可得AUV的运动学方程如式(24)所示:
Figure BDA0002987069130000094
式中,
Figure BDA0002987069130000095
表示AUV的位置和姿态;v=[u v w p q r]T,表示AUV的线速度和角速度;R和T分别表示线速度关系转换矩阵和角速度关系转换矩阵,且均为正交阵。
AUV动力学模型:参考Fossen提出的AUV六自由度动力学模型,包括五个部分,即刚体惯性力和科氏向心力
Figure BDA0002987069130000096
附加质量力和附加科氏向心力
Figure BDA0002987069130000097
阻尼力D(ν)ν、重浮力产生的恢复力g(η)以及推进力τ。具体方程如式(25)所示:
Figure BDA0002987069130000098
刚体惯性力和刚体科氏向心力:在对AUV进行动力学建模时,可以将AUV近似地看作刚体,AUV六自由度空间运动指的是沿大地坐标系中坐标轴的直线运动及转动运动,其刚体惯性力参数矩阵、刚体科氏向心力参数矩阵具体分别如式(26)及式(27)所示:
Figure BDA0002987069130000099
Figure BDA0002987069130000101
附加质量力和附加科氏向心力:AUV在水中作加速运动时,会受到来自流体的惯性力作用,具体表现为对AUV的反作用力,即附加质量力,它与AUV的加速度成正比,表示为
Figure BDA0002987069130000102
附加科氏向心力同样由AUV附加质量力引起,表示为CA(ν)ν。附加质量力参数矩阵和附加科氏向心力参数矩阵具体分别如式(28)和式(29)所示:
Figure BDA0002987069130000103
Figure BDA0002987069130000104
式中:
Figure BDA0002987069130000105
阻尼力:AUV在水下运动过程中,受到的阻尼力主要包括摩擦阻力和压差阻力两部分。阻尼力矩阵具体可以表示为线性阻尼力Dl(ν)和非线性阻尼力Dn(ν)之和,即:D(ν)=Dl(ν)+Dn(ν),其中非线性阻尼力与流速平方成正比且方向为来流方向。阻尼力参数矩阵具体如式(31)至式(33)所示:
Dl(v)=-diag{Xu Yv Zw Kp Mq Nr} (31)
Dn(v)=-diag{lXu|u||u| Yv|v||v| Zw|w||w| Kp|p||p| Mq|q||q| Nr|r||r} (32)
Figure BDA0002987069130000111
重力和浮力:AUV在水中运动时同时受到重力和浮力的作用,重力和浮力分别作用于AUV的重心W和浮心B上,通常情况下它们在坐标系中不位于同一点,因此,AUV在同时受到重浮力作用时会产生力矩。将其转换到随体坐标系下,AUV的恢复力和力矩具体如式(34)所示:
Figure BDA0002987069130000112
仿真在水平面内进行,因此将AUV动力学方程简化为纵向速度u和艏向角ψ的动力学方程。控制输出具体如式(35)所示:
τ=[τu 0 τr] (35)
综上所述,简化后的AUV水平面运动学模型和动力学模型分别如式(36)和式(37)所示:
Figure BDA0002987069130000113
Figure BDA0002987069130000114
其他步骤和参数与具体实施方式一相同。
具体实施方式三:
本实施方式所述的一种基于强化学习算法与未知干扰观测器的多AUV编队分布式控制方法,所述设计自适应分布式控制器的过程包括以下步骤:
在对基于改进Actor-Critic算法的参数自适应分布式协同控制系统的结构进行设计前,需要对AUV基于反步法的纵向和艏向分布式控制器进行推导。反步法是属于非线性控制方法,它的基本思想是根据Lyapunov理论设计中间虚拟控制量,在保证稳定性的前提下设计反馈控制律,从而保证跟踪误差逐渐趋近于零。本发明对纵向和艏向分布式控制器的数学推导是基于简化的AUV水平面数学模型进行的。
设误差参考信号为:
Figure BDA0002987069130000121
根据代数图论理论,aij表示第i个和第j个跟随者AUV间的通信权重,如果第i和第j个AUV间直接通信,则aij=1,否则aij=0;gi表示第i个跟随者AUV与领航者AUV的通信权重,如果第i个跟随者与领航者直接通信,则通信权重大于0,否则gi=0,其中i=1,2,3…,N;α为常数。
根据误差参考信号设计误差为:
Figure BDA0002987069130000122
其中,ηi第i个跟随者的状态,ηri为第i个跟随者的全局状态误差参考信号,α1i为虚拟控制。
首先对z1求导:
Figure BDA0002987069130000123
设虚拟控制量为:
Figure BDA0002987069130000124
其中,K1为正定对称矩阵。
根据误差方程构造Lyapunov函数V1i
Figure BDA0002987069130000125
对V1求导得:
Figure BDA0002987069130000126
显然此时z1i部分负定。
而后对z2求导得
Figure BDA0002987069130000127
进一步得到:
Figure BDA0002987069130000128
Figure BDA0002987069130000129
进而对V2i求导得
Figure BDA00029870691300001210
代入
Figure BDA00029870691300001211
得:
Figure BDA00029870691300001212
设干扰为0,将动力学方程
Figure BDA00029870691300001213
代入(44)得:
Figure BDA00029870691300001214
根据上式设计控制律:
Figure BDA00029870691300001215
将(46)代入(45)得:
Figure BDA00029870691300001216
即式(45)负定。由此可证明控制结果收敛。
而后根据简化后速度与艏向的动力学模型方程(36)和平面运动学方程(37),得到对速度控制的纵向推力τu为:
Figure BDA0002987069130000131
对角度控制的偏航力矩τr为:
Figure BDA0002987069130000132
其中,ku为纵向分布式控制器的参数,对应于式(46)中的K1;kψ1和kψ2为艏向分布式控制器的参数,对应式(46)中的K1和K2
综上所述,只需根据式(47)和式(48)分别设计纵向和艏向控制律,同时保证纵向和艏向控制器的控制增益ku
Figure BDA0002987069130000133
以及
Figure BDA0002987069130000134
为合适的正数,即能实现对基于领航者-跟随者模式的多AUV编队系统速度和艏向的良好控制,同时保证编队在运动过程中队形变化保持在一定误差内。
其他步骤和参数与具体实施方式一或二相同。
具体实施方式四:
本实施方式所述的一种基于强化学习算法与未知干扰观测器的多AUV编队分布式控制方法,所述的设计神经网络结构和强化学习算法的过程包括以下步骤:
本发明选择RBF神经网络实现Actor-Critic算法,共包含四个RBF神经网络,分别为Actor当前网络、Actor目标网络、Critic当前网络和Critic目标网络。每个网络分为输入层、隐含层和输出层。其输入节点数量为i',隐层节点数量为j',输出节点数量为k,wi是隐层到输出层间权值;其中隐层节点基函数为高斯基函数,cj'是第j'个基函数的中心点,σj'为基函数围绕中心点宽度,‖x-cj'2表示向量x-cj'的二范数,通常表示x与cj间的距离。
Figure BDA0002987069130000135
RBF神经网络的连接权值修正函数采用反向传播的形式,神经网络的训练更新公式为:
Figure BDA0002987069130000136
Figure BDA0002987069130000137
Figure BDA0002987069130000138
下一时刻的权值为:
ci'j'(t+1)=ci'j'(t)+Δci'j'+α[ci'j'(t)-ci'j'(t-1)] (53)
σj'(t+1)=σj'(t)+Δσj'+α[σj'(t)-σj'(t-1)] (54)
wj'k(t+1)=wj'k(t)+Δwj'k+α[wj'k(t)-wj'k(t-1)] (55)
其中,η为神经网络学习率,f(·)为节点基函数,yk是神经网络输出值,ydk是期望输出,t表示迭代当前步,α为平滑因子,
Figure BDA0002987069130000141
表示损失函数。
纵向分布式控制系统与艏向分布式控制系统中的强化学习算法部分四个网络的设置分别如下:
表3四个RBF神经网络节点数设置
Figure BDA0002987069130000142
传统Actor-Critic算法的框架主要由两个神经网络构成,即动作网络(Actor)和评价网络(Critic)。Actor的前身是policy-based的policy gradient方法,它能利用策略梯度算法原理从连续动作空间中选择合适的动作,但训练时需要的数据量大;而Critic网络的前身是value-based类算法,这类算法训练效率高但动作选择数量有限,对动作空间大的系统不够精确。结合上述两种方法的优缺点,Actor-Critic算法框架被提出。其中Actor网络基于Critic网络的评价输出更优的动作,Critic网络根据Actor输出动作而达到的状态修改选择行为的概率。但Critic网络本身就很难收敛,加入Actor后二者收敛会更难,为解决这个问题,参考DQN算法的双网络原理,把评价网络和当前网络分别再加上一个目标网络,目标网络的权值更新慢于当前网络,权值每隔几个训练回合定期从当前网络进行复制,这样就能达到解除两个相邻Q值相关性的目的,使神经网在训练时更容易收敛。
同时由于Acror-Critic算法属于确定性策略算法,即其动作网络输出π(s)S→A直接是一个确定的动作而非动作概率∑π(a|s)=1。确定性策略直接输出动作,所以有着训练所需数据少、训练效率高速度快等优点,但同样因为只输出一个动作的特性,它无法探索环境。针对这一问题,Ornstein-Uhlenbeck噪声被引入算法,即Actor当前网络的输出直接叠加OU噪声,图2为OU噪声示例,在规定范围内使动作拥有一定的随机性,使算法能探索环境。OU噪声是一种时间相关噪声,其微分方程为dxt=-θ(xt-μ)dt+σdWt,其中μ是均值,θ和σ都大于0,dWt是维纳过程(布朗运动)。如不考虑维纳过程,积分得到:
xt=μ+(x0-μ)e-θt (56)
其中维纳过程:W(t)-W(s)~N(0,σ2(t-s)),每一段时间的增量符合高斯分布,即OU噪声是从零时刻开始对高斯噪声的累加。同时OU噪声显然是一种均值回归函数,即如果上一时刻的值xt大于均值μ,则下一个状态就会变小,反之则会向增大的方向变化。噪声的加入能使确定性策略的强化学习算法拥有更强的探索能力,同时OU噪声的时序相关性和均值回归性使它不会高斯噪声一样相邻两步出现差值过大的情况,而是会绕着均值附近正向或负向探索一段距离,这有利于在一个方向上探索。由公式看出,显然当θ值越大,xt向均值靠近的速度就越快,而且是指数倍的靠近;σ2则是维纳过程的参数,在OU过程中它决定扰动的放大倍数。
综上设计改进后的Actor-Critic算法如下:
基于神经网络结构的改进Actor-Critic算法结构如图3所示;
由图3可知,改进后的Actor-Critic算法主要由上一节已经进行过陈述的四个神经网络构成。目标状态与当前状态作差得到et,进而通过状态转换得到几个神经网络需要输入的状态st,状态作为Actor当前网络的输入得到输出动作at,叠加OU噪声作用于对象(在本发明中为编队的控制系统)。同时at和状态st一同作为Critic当前网络的输入得到评价值Qt。当动作作用于对象后,可通过环境得到新的状态st+1,与当前网络类似,Actor目标网络的输入是st+1,输出是下一时刻的动作at+1,Critic目标网络的输入是st+1和at+1,输出新的评价值Qt+1;回报函数R由新状态设计得到,与Qt+1共同构成损失函数Loss,用于更新神经网络权值。这样的结构使得动作输出兼有探索性的同时节省了训练样本数,双网络结构打破了相邻两次样本的相关性,使其更好地收敛。
四个神经网络的输入输出如下表:
表4神经网络输入输出
Figure BDA0002987069130000151
改进Actor-Critic算法分布式控制系统学习更新过程:
在改进后的Actor-Critic算法中,当前网络每回合更新,而目标网络每隔n回合从当前网络复制更新后的权值。其中Actor网络和Critic网络的更新方法有所不同。
Critic网络利用均方误差进行更新,即通过critic目标网络输出的新评价Qt+1与回报函数R,得到期望值
yi=R+γQt+1(St+1,at+1,w') (57)
计算TD误差:
Figure BDA0002987069130000161
其中γ是折扣率。进而得到损失函数:
Figure BDA0002987069130000162
对损失函数J(w)求梯度下降,并通过公式(50)-(55)来更新Critic网络权值参数。更新完成后每隔n个回合将参数复制到目标网络,依靠两个网络更新后的输出继续实现新参数迭代直至收敛,最后得到相对稳定的Q值。
对于Actor网络,其损失梯度为
Figure BDA0002987069130000163
即输出动作与对应Q值,Q值越大表示采取的动作得到了更高的奖励,动作评价更高,因此我们希望得更大的Q值。综上对Actor网络的损失理解为Q值越大损失越小,Q值越小损失越大,所以对当前网络输出的Q值取负得到Actor网络的损失函数,损失函数为:
Figure BDA0002987069130000164
得到损失函数后与Critic网络更新方法相同,对J(θ)求梯度下降,并通过RBF神经网络更新公式进行当前Critic网络权值更新,目标网络定期复制新权值参数。具体学习流程如表5。
表5基于RBF神经网络的Actor-Critic算法学习流程
Figure BDA0002987069130000165
Figure BDA0002987069130000171
其他步骤和参数与具体实施方式一至三之一相同。
具体实施方式五:
本实施方式所述的一种基于强化学习算法与未知干扰观测器的多AUV编队分布式控制方法,所述的纵向干扰与艏向干扰观测器的设计过程包括以下步骤:
多AUV编队系统在水中运动时常常受到未知的非线性复杂干扰,针对领航者-跟随者的多AUV系统,根据AUV运动学方程,给出简化后第i个跟随者模型为:
Figure BDA0002987069130000172
其中,
Figure BDA0002987069130000173
为输入的控制向量,
Figure BDA0002987069130000174
为第i个跟随者AUV的状态向量,
Figure BDA0002987069130000175
为中间量,
Figure BDA0002987069130000176
是第i个跟随者AUV受到的未知扰动,ai是常数矩阵,根据AUV的动力学方程确定。
领航者的状态空间模型如下:
Figure BDA0002987069130000177
其中,
Figure BDA0002987069130000178
分别是领航者的输出、输入和状态向量,
Figure BDA0002987069130000179
是受到的扰动。在实际应用中,领航者往往指目标信号,比如从地面控制站发送的指令,此时默认领航者的状态已知。
由式(62)和式(63)可以看出,给出的AUV状态空间模型是一个二阶系统。而在通过公式(36)和(37)已经给出了简化后的运动学方程和动力学模型,可以看出,当被控对象是纵向速度时,系统是一阶系统;而当被控对象是艏向角时,系统则是二阶的。因此不同被控对象数学模型是不完全相同的。
设计的分布式干扰观测器结构如图4所示。图4为AUV分布式干扰观测系统结构示意图;图4给出了在整个系统中观测器与被控对象的结构关系,观测器的输入为控制器输出量τi、被控对象输出状态yi、用以计算全局估计误差的其余跟随者AUV状态yi和领航者信息y0;输出则是AUV的状态估计值和未知干扰估计值。其中控制器输出即为力与力矩,被控对象输出状态是某个跟随者AUV的速度矩阵和状态矩阵,在接收编队内其余AUV状态输入后一同构成全局误差。
与分布式控制器的输入状态构成同理,在整个拓扑通信中,部分跟随者与领航者直接通信,而其余跟随者通过与其他跟随者通信的方式间接获取信息。若第i个AUV与领航者直接通信,则在通信拓扑图中存在一边
Figure BDA00029870691300001710
表征通信权重gi>0。根据代数图论理论,给出直连矩阵
Figure BDA0002987069130000181
在有向通信拓扑下的分布式多AUV协同系统中,每个AUV节点都是相互连通、信息共享的。依据这个特征,参考分布式控制器的设计,可以将观测器设计成多AUV协同控制系统的分布式未知干扰观测器。为在分布式观测器中引入多智能体系统全局误差信息,在单体观测器基础上引入第i个AUV的相对输出估计误差的概念:
Figure BDA0002987069130000182
其中,
Figure BDA0002987069130000183
分别表示第i个跟随者AUV和第j个跟随者AUV的输出估计值。
Figure BDA0002987069130000184
表示与第i个AUV直接通信的集合,也即第i个AUV的邻居节点集合。aij表示第i个和第j个AUV间的通信权重,参考第二章代数图论部分内容,如果第i和第j个AUV间直接通信,则aij=1,否则aij=0。表gi示第i个跟随者AUV与领航者AUV的通信权重,如果第i个跟随者与领航者直接通信,则gi>0,否则gi=0,其中i=1,2,...,N。
在实际应用中,领航者通常是地面控制站发出的指令,即默认领航者AUV状态已知,则领航者的输出估计值与其输出值相等,式(64)简化为:
Figure BDA0002987069130000185
以二阶被控对象为例,观测器结构如下:
Figure BDA0002987069130000186
其中,e(t)是全局观测误差,
Figure BDA0002987069130000187
是状态估计值的导数,zi是中间量,
Figure BDA0002987069130000188
以及
Figure BDA0002987069130000189
分别是对扰动的估计和估计值的误差;f0是标称模型;τi是控制器输出量,具体指力与力矩,ai是控制项系数,由AUV动力学方程得到;β1、β2、β3、α1、α1、δ为观测器可调参数。sat(e,α2,δ)为饱和函数:
Figure BDA00029870691300001810
通过合理调节上述参数,观测器就能对跟随者状态变量和受到的未知扰动进行估计。
纵向速度和艏向角未知干扰观测器设计:在前述编队通信原理和观测器设计原理基础上,结合AUV的运动学方程和动力学模型,分别设计纵向速度干扰观测器和艏向干扰观测器。根据运动学方程,两个观测器分别是二阶和三阶,观测器的控制项系数和标称模型等参数依据AUV水动力参数确定。
(1)纵向扰动观测器:
根据简化后的AUV动力学模型,可以得到AUV纵向速度控制方程如下:
Figure BDA0002987069130000191
可知纵向速度是一个一阶被控量,因此根据设计原理,要设计一个二阶观测器。首先根据之前定义的全局误差概念,定义纵向速度观测误差为:
Figure BDA0002987069130000192
进一步得到:
Figure BDA0002987069130000193
得到设计的观测器结构为:
Figure BDA0002987069130000194
其中,i表示第i个跟随者;
Figure BDA0002987069130000195
是对u的估计,
Figure BDA0002987069130000196
是对干扰du的估计,au是控制项系数即
Figure BDA0002987069130000197
sat(e,α,δ)是饱和函数,结构如式(72),用来抑制信号抖震;f0是系统标称模型部分,根据动力学方程
Figure BDA0002987069130000198
Figure BDA0002987069130000199
其中,β1、β2、α、δ为可调参数。
对于设计的二阶纵向分布式干扰观测器,下面对其稳定性进行证明。将速度系统与扰动观测器系统的误差表示为式(73):
Figure BDA00029870691300001910
Figure BDA00029870691300001911
w(t)为有界不确定函数。对误差方程(73)求导得:
Figure BDA00029870691300001912
当|eu|≤δ时,给出误差方程的等价系统:
Figure BDA00029870691300001913
其中,
Figure BDA00029870691300001914
B=[0 -1]。
Figure BDA0002987069130000201
根据《基于扩张观测器的欠驱动船舶轨迹跟踪低频学习自适应动态面输出反馈控制》计算矩阵A的特征值,可将矩阵A变为:
Figure BDA0002987069130000202
其中,N为范德蒙德矩阵,λi为特征值。式(75)可变为:
Figure BDA0002987069130000203
Figure BDA0002987069130000204
可知当ε足够小,即参数β足够大时,误差最终收敛。
(2)、艏向扰动观测器:
根据简化后的AUV动力学模型,艏向控制系统方程为:
Figure BDA0002987069130000205
可知艏向角是一个二阶被控量,因此设计如下观测器:
Figure BDA0002987069130000206
其中,
Figure BDA0002987069130000207
是对ψi的估计,
Figure BDA0002987069130000208
是对艏向干扰dψ的估计;aψ是控制项系数即
Figure BDA0002987069130000209
由水动力系数计算得出;sat(e,α,δ)是饱和函数,用来抑制信号抖震,f0是系统标称模型部分。
Figure BDA00029870691300002010
其中,β1、β2、β3、α1、α2、δ为可调参数。
由式(79)可以看出,艏向干扰观测器是一个三阶观测器,下面给出稳定性分析。
将艏向角系统方程与观测结果误差表示为:
Figure BDA00029870691300002011
其中,i表示第i个跟随者,eψi1是艏向角观测误差,eψi2是角速度观测误差,eψi3是扰动观测误差。设
Figure BDA0002987069130000211
对误差方程求导得:
Figure BDA0002987069130000212
当误差|e|≤δ时,
Figure BDA0002987069130000213
此时取α1=0.5,α2=0.25,由式(82)得到
Figure BDA0002987069130000214
进而得到
Figure BDA0002987069130000215
Figure BDA0002987069130000216
因此此时只要β3远大于w(t),即远大于观测到扰动的导数(角速度的加速度),那么观测误差就会足够小,满足观测精度的需求。当误差|e|>δ时同理可证。
观测器参数整定原则:根据上面稳定性推导过程,可得知参数选取规律。以三阶观测器为例,三阶非线性未知干扰观测器共有六个参数需要整定,分别为β1、β2、β3、α1、α2、δ。其中α1、α2、δ是饱和函数中的参数,当α=1是饱和函数为线性函数,其估计精度会差于α<1的情况。因此α1、α2在0到1之间取值,取值越靠近0,饱和函数非线性越强,对未知扰动的适应能力也越强。β1、β2、β3是三阶观测中三个主要的可调参数,取值大于0且受系统采样步长影响。其中对中间变量两个参数的估计与被估计的变量有关,第三个对干扰估计的参数β3与对di的估计有关。β3的值越大,对扰动的估计滞后越小,估计误差也越小,但β3过大会引起估计值的振荡或发散,可以通过增大前两个参数来减小由β3过大引起的估计值振荡,但前两个参数过大也会引起相应估计状态的振荡。因此,三个参数要协同调整,β1、β2、β3应满足关系β1β2>β3。且由于β值的选择受采样步长影响,因此在不同系统中只要采样步长相同,就可以选择相同的参数值。
其他步骤和参数与具体实施方式一至四之一相同。
实施例
利用具体实施方式的方案进行仿真,使用Matlab软件搭建simulink模型进行仿真,仿真参数如下:
AUV模型水动力参数:
为方便在仿真环境中对AUV控制性能进行验证,采用表1给出的哈尔滨工程大学某型AUV水平面无量纲水动力参数。
初始坐标:
在编队中,设定三个跟随者初始位置向量矩阵与速度向量矩阵如下表:
表6编队初始坐标
Figure BDA0002987069130000221
控制器与观测器参数:
要求系统稳态控制精度达到0.005。控制器参数设置分为传统控制器部分和神经网络部分。其中反步法部分初始参数分别为Ku=3,
Figure BDA0002987069130000222
神经网络参数分别以1为均值0.05为标准差按正态分布随机取值。其他参数如下表:
表7预设性能参数取值
Figure BDA0002987069130000223
表8观测器参数
Figure BDA0002987069130000224
施加高阶非线性干扰,纵向干扰为200sin(0.06*t)+3+(0.1*t)3,艏向干扰为2000*sin(0.06*t)+3+(0.2*t)3+2500*sin(0.1*t+2)+3。施加时间为40s到60s。
图7和8是编队运动过程中在高阶干扰下加入观测器前后队形变化,可以看出如果不加入观测器,过强且复杂的干扰会使队形变乱,加入观测器后队形保持较好。图9和10是两种情况下编队运动路径图,同样可以看出加入观测器后进行干扰补偿对编队队形保持的作用。图11至14是加入观测器前后编队轨迹跟踪运动过程中对速度和角度的控制效果对比。可以看出观测器最大限度抵消了干扰对AUV施加的影响。
图15是加入观测器前后编队曲线跟踪误差图。可以看出加入观测器后跟踪误差控制在了很小的范围内。

Claims (9)

1.一种基于强化学习算法与未知干扰观测器的多AUV编队分布式控制方法,其特征在于,包括以下步骤:
针对多AUV编队中的AUV,利用纵向和艏向的复合控制系统进行控制;AUV为自主水下机器人;
所述纵向和艏向的复合控制系统包括:基于纵向干扰观测器确定的纵向分布式控制器、基于艏向干扰观测器确定的艏向分布式控制器,以及Actor-Critic算法;
所述基于纵向干扰观测器确定的纵向分布式控制器、基于艏向干扰观测器确定的艏向分布式控制器如下:
Figure FDA0002987069120000011
Figure FDA0002987069120000012
其中,ku、kψ1、kψ2为控制增益;τu为推进器纵向推力;τr为转艏力矩,角标i表示AUV编队中第i个跟随者,所有角标i对应的参数为第i个跟随者的参数;带有上标∧的参数表示估计值,带有上标·的表示一阶导数,带有上标··的表示二阶导数;X,Y,Z为作用在AUV上外力的合力,Xu|u|、Yvv、Nrr为粘性力项水动力系数,Xu
Figure FDA0002987069120000013
Yv
Figure FDA0002987069120000014
Nr
Figure FDA0002987069120000015
为无量纲水动力参数;Iz为AUV绕运动坐标系z轴的转动惯量;m为水下机器人的质量;ui、vi、ri、uri
Figure FDA0002987069120000016
分别为第i个跟随者的纵向速度、横向速度、艏向角速度、速度全局误差、速度全局误差导数、艏向角二阶导数、艏向角全局误差二阶导数;
Figure FDA0002987069120000017
分别为纵向干扰估计值和艏向干扰估计值;z1i=ηrii
Figure FDA0002987069120000018
ηi第i个跟随者的状态,ηri为第i个跟随者的全局状态误差,α1i为虚拟控制量;
所述Actor-Critic算法用于确定控制增益ku、kψ1、kψ2,Actor-Critic算法即强化学习算法,由Actor当前网络、Actor目标网络、Critic当前网络和Critic目标网络四个网络构成;Actor当前网络、Actor目标网络、Critic当前网络和Critic目标网络这四个神经网络都使用RBF神经网络。
2.根据权利要求1所述的一种基于强化学习算法与未知干扰观测器的多AUV编队分布式控制方法,其特征在于,纵向干扰观测器与艏向干扰观测器分别如下:
纵向干扰观测器:
Figure FDA0002987069120000021
其中,eui(t)为纵向干扰观测器的全局观测误差;i表示第i个跟随者,j表示第j个跟随者;
Figure FDA0002987069120000022
是对纵向速度u的估计,
Figure FDA0002987069120000023
是对纵向干扰du的估计,au是控制项系数即
Figure FDA0002987069120000024
τui是控制力;sat(eui,α,δ)是饱和函数;fu0是AUV标称模型部分,根据动力学方程
Figure FDA0002987069120000025
u、v、r分别为对应跟随者的纵向速度、横向速度、艏向角速度;βu1、βu2、αu、δu为可调参数;aij表示第i个和第j个跟随者AUV间的通信权重,如果第i和第j个AUV间直接通信,则aij=1,否则aij=0;gi表示第i个跟随者AUV与领航者AUV的通信权重,如果第i个跟随者与领航者直接通信,则通信gi=1,否则gi=0;
艏向干扰观测器:
Figure FDA0002987069120000026
其中,eψi(t)为艏向干扰观测器的全局观测误差;
Figure FDA0002987069120000027
是对艏向角ψi的估计,
Figure FDA0002987069120000028
是对艏向干扰dψ的估计;aψ是控制项系数即
Figure FDA0002987069120000029
sat(eψi2,δ)是饱和函数,fψ0是系统标称模型部分
Figure FDA00029870691200000210
βψ1、βψ2、βψ3、αψ1、αψ2、δψ为可调参数。
3.根据权利要求2所述的一种基于强化学习算法与未知干扰观测器的多AUV编队分布式控制方法,所述纵向干扰观测器的饱和函数
Figure FDA00029870691200000211
所述艏向干扰观测器饱和函数与纵向干扰观测器的饱和函数计算方式相同。
4.根据权利要求3所述的一种基于强化学习算法与未知干扰观测器的多AUV编队分布式控制方法,其特征在于,所述第i个跟随者的全局状态误差ηri
Figure FDA0002987069120000031
5.根据权利要求4所述的一种基于强化学习算法与未知干扰观测器的多AUV编队分布式控制方法,其特征在于,所述RBF神经网络包括一个输入层、一个隐含层和一个输出层;其输入节点数量为i',隐层节点数量为j',输出节点数量为k,其中隐层节点基函数为高斯基函数,如下:
Figure FDA0002987069120000032
其中,cj'是第j'个基函数的中心点,σj'为基函数围绕中心点宽度,‖x-cj'2表示向量x-cj'的二范数;
神经网络的训练更新公式为:
Figure FDA0002987069120000033
Figure FDA0002987069120000034
Figure FDA0002987069120000035
其中,式中,Δci'j'和Δσj'是径向基函数参数增量;Δwj'k是神经网络权值增量;η为常数;wj'k为第k个隐层权值;ydk为期望输出Q值;yk为当前输出Q值;xi'为神经网络第i'输入;Δci'j'为第i'个输入量对第j'个基函数的中心点;x为神经网络输入;cj'为第j'个基函数的中心点;E表示损失函数;f(·)为以e为底的指数函数。
6.根据权利要求1、2、3、4或5所述的一种基于强化学习算法与未知干扰观测器的多AUV编队分布式控制方法,其特征在于,纵向分布式控制器和艏向分布式控制器的控制过程包括以下步骤:
A1、初始化强化学习算法中的参数以及分布式控制器参数;所述分布式控制器即纵向和艏向的分布式控制器;
A2、观察当前第i个跟随者状态、领航者目标状态、其余跟随者状态,计算Actor当前网络和Critic当前网络输入状态st
A3、通过Actor当前网络输出动作at,叠加噪声得到a't,即控制器参数变化量;计算得到纵向分布式控制器和艏向分布式控制器新参数ku、kψ1和kψ2
A4、更新纵向分布式控制器和艏向分布式控制器参数ku、kψ1和kψ2
A5、将跟随者的全局状态误差ηri作为两个分布式控制器输入,得到力与力矩;
A6、干扰观测器得到对干扰力的估计值;
A7、干扰估计与步骤A5力与力矩计算后作用于AUV编队系统;
A8、AUV编队与环境交互得到新状态st+1
A9、根据状态st和st+1计算奖励函数R、损失函数Loss,并更新四个神经网络;
A10、将新状态st+1作为纵向和艏向的复合控制系统的新输入;
A11、返回步骤A2,重复执行,直至回合结束。
7.根据权利要求6所述的一种基于强化学习算法与未知干扰观测器的多AUV编队分布式控制方法,其特征在于,利用Actor-Critic算法确定控制增益ku、kψ1、kψ2的过程包括以下步骤:
B1、初始化权值θ、w为[-1,1]的随机数,并设置折扣率γ;
B2、观察当前状态st
B3、基于Actor当前网络输出at;针对动作at,叠加噪声得到新
Figure FDA0002987069120000041
B4、将st、at'作为输入,基于Critic当前网络输出Qt
B5、动作与环境交互,得到新状态st+1和即时回报rt+1
B6、基于Actor目标网络输出新动作at+1
B7、将st+1、at+1作为输入,基于Critic目标网络输出Qt+1
B8、计算实际值与期望值的偏差,算出Critic目标网络和Critic当前网络的损失函数;并计算Actor目标网络和Actor当前网络的损失函数;
B9、更新Critic当前网络和Actor当前网络对应的RBF神经网络参数w和θ;
B10、n步迭代后,更新Critic目标网络和Actor目标网络对应的RBF神经网络的参数w'和θ';
B11、返回步骤B2,重复执行,直至回合结束。
8.根据权利要求7所述的一种基于强化学习算法与未知干扰观测器的多AUV编队分布式控制方法,其特征在于,A2所述计算Actor当前网络和Critic当前网络输入状态st的过程中,纵向分布式控制器对应的输入为Su={s1u,s2u},其中s1u为速度的全局速度的偏差
Figure FDA0002987069120000051
S2u为速度的偏差变化率s2u=u'i;艏向分布式控制器对应的输入为Sψ={s,s,s},其中s为偏航角的偏差
Figure FDA0002987069120000052
s为偏航角的偏差变化率s=ψ'i,s为AUV实时速度s=ui;将Su和Sψ进行归一化处理后输入Actor当前网络和Critic当前网络。
9.根据权利要求8所述的一种基于强化学习算法与未知干扰观测器的多AUV编队分布式控制方法,其特征在于将Su和Sψ进行归一化处理过程包括以下步骤:
纵向分布式控制系统的输入量s1u和s2u应分别除以2m/s、1m/s2
艏向分布式控制系统的输入量
Figure FDA0002987069120000053
以及
Figure FDA0002987069120000054
应分别除以3rad、1rad/s、2m/s。
CN202110303184.9A 2021-03-22 2021-03-22 一种基于强化学习算法与未知干扰观测器的多auv编队分布式控制方法 Active CN112947505B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110303184.9A CN112947505B (zh) 2021-03-22 2021-03-22 一种基于强化学习算法与未知干扰观测器的多auv编队分布式控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110303184.9A CN112947505B (zh) 2021-03-22 2021-03-22 一种基于强化学习算法与未知干扰观测器的多auv编队分布式控制方法

Publications (2)

Publication Number Publication Date
CN112947505A true CN112947505A (zh) 2021-06-11
CN112947505B CN112947505B (zh) 2022-11-25

Family

ID=76227574

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110303184.9A Active CN112947505B (zh) 2021-03-22 2021-03-22 一种基于强化学习算法与未知干扰观测器的多auv编队分布式控制方法

Country Status (1)

Country Link
CN (1) CN112947505B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115063060A (zh) * 2022-08-22 2022-09-16 江西制造职业技术学院 机器人调度方法及系统
CN116339355A (zh) * 2023-03-03 2023-06-27 新兴际华(北京)智能装备技术研究院有限公司 水下航行器及其编队跟踪控制方法和装置
CN116500893A (zh) * 2023-04-19 2023-07-28 齐鲁工业大学(山东省科学院) 一种高阶多智能体的强化学习优化控制器构建方法及系统
CN117784622A (zh) * 2024-02-27 2024-03-29 中国矿业大学 一种基于二阶观测器的电液伺服系统全局滑模控制方法

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050125114A1 (en) * 2003-12-03 2005-06-09 Atmur Robert J. Method and apparatus for active acoustic damping motor control
WO2007060671A2 (en) * 2005-11-27 2007-05-31 Compugen Ltd. Novel nucleotide and amino acid sequences, and assays and methods of use thereof for diagnosis
US20100153050A1 (en) * 2008-11-11 2010-06-17 Zumberge Mark A Autonomous Underwater Vehicle Borne Gravity Meter
WO2015199789A2 (en) * 2014-04-08 2015-12-30 University Of New Hampshire Optical based pose detection for multiple unmanned underwater vehicles
CN105843233A (zh) * 2016-04-11 2016-08-10 哈尔滨工程大学 一种基于非线性观测器的自主水下航行器运动控制方法
US20170024877A1 (en) * 2014-03-19 2017-01-26 Neurala, Inc. Methods and Apparatus for Autonomous Robotic Control
CN107957727A (zh) * 2016-10-17 2018-04-24 江苏舾普泰克自动化科技有限公司 水下机器人控制系统及动力定位方法
CN108427414A (zh) * 2018-03-31 2018-08-21 西北工业大学 一种自主水下航行器水平面自适应轨迹跟踪控制方法
CN109407682A (zh) * 2018-09-29 2019-03-01 大连海洋大学 基于图像特征深度强化学习的auv管道循管方法
CN109739249A (zh) * 2018-09-06 2019-05-10 中国船舶工业系统工程研究院 一种速度状态缺失条件下的多uuv编队协调控制方法
CN111273677A (zh) * 2020-02-11 2020-06-12 哈尔滨工程大学 一种基于强化学习技术的自主水下机器人速度和艏向控制方法
CN111290270A (zh) * 2020-02-11 2020-06-16 哈尔滨工程大学 一种基于Q-learning参数自适应技术的水下机器人反步速度和艏向控制方法
CN111831011A (zh) * 2020-08-07 2020-10-27 大连海事大学 一种水下机器人平面轨迹跟踪控制的方法
CN111966118A (zh) * 2020-08-14 2020-11-20 哈尔滨工程大学 一种rov推力分配与基于强化学习的运动控制方法
CN112327622A (zh) * 2020-11-02 2021-02-05 西北工业大学 一种中性浮力机器人一致性容错控制方法
CN112462792A (zh) * 2020-12-09 2021-03-09 哈尔滨工程大学 一种基于Actor-Critic算法的水下机器人运动控制方法

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050125114A1 (en) * 2003-12-03 2005-06-09 Atmur Robert J. Method and apparatus for active acoustic damping motor control
WO2007060671A2 (en) * 2005-11-27 2007-05-31 Compugen Ltd. Novel nucleotide and amino acid sequences, and assays and methods of use thereof for diagnosis
US20100153050A1 (en) * 2008-11-11 2010-06-17 Zumberge Mark A Autonomous Underwater Vehicle Borne Gravity Meter
US20170024877A1 (en) * 2014-03-19 2017-01-26 Neurala, Inc. Methods and Apparatus for Autonomous Robotic Control
WO2015199789A2 (en) * 2014-04-08 2015-12-30 University Of New Hampshire Optical based pose detection for multiple unmanned underwater vehicles
CN105843233A (zh) * 2016-04-11 2016-08-10 哈尔滨工程大学 一种基于非线性观测器的自主水下航行器运动控制方法
CN107957727A (zh) * 2016-10-17 2018-04-24 江苏舾普泰克自动化科技有限公司 水下机器人控制系统及动力定位方法
CN108427414A (zh) * 2018-03-31 2018-08-21 西北工业大学 一种自主水下航行器水平面自适应轨迹跟踪控制方法
CN109739249A (zh) * 2018-09-06 2019-05-10 中国船舶工业系统工程研究院 一种速度状态缺失条件下的多uuv编队协调控制方法
CN109407682A (zh) * 2018-09-29 2019-03-01 大连海洋大学 基于图像特征深度强化学习的auv管道循管方法
CN111273677A (zh) * 2020-02-11 2020-06-12 哈尔滨工程大学 一种基于强化学习技术的自主水下机器人速度和艏向控制方法
CN111290270A (zh) * 2020-02-11 2020-06-16 哈尔滨工程大学 一种基于Q-learning参数自适应技术的水下机器人反步速度和艏向控制方法
CN111831011A (zh) * 2020-08-07 2020-10-27 大连海事大学 一种水下机器人平面轨迹跟踪控制的方法
CN111966118A (zh) * 2020-08-14 2020-11-20 哈尔滨工程大学 一种rov推力分配与基于强化学习的运动控制方法
CN112327622A (zh) * 2020-11-02 2021-02-05 西北工业大学 一种中性浮力机器人一致性容错控制方法
CN112462792A (zh) * 2020-12-09 2021-03-09 哈尔滨工程大学 一种基于Actor-Critic算法的水下机器人运动控制方法

Non-Patent Citations (9)

* Cited by examiner, † Cited by third party
Title
SHUYONG LIU等: "Nonlinear Adaptive Observer Design for Tracking Control of AUVs in Wave Disturbance Condition", 《OCEANS 2006 - ASIA PACIFIC》 *
XIAOYANG LIU等: "Discontinuous Observers Design for Finite-Time Consensus of Multiagent Systems With External Disturbances", 《IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS》 *
YANCHAO SUN等: "Fault-Tolerant Prescribed Performance Control Algorithm for Underwater Acoustic Sensor Network Nodes With Thruster Saturation", 《IEEE ACCESS》 *
余玲玲等: "基于FTO的船舶分布式编队的有限时间控制方法", 《中国舰船研究》 *
侯恕萍,等: "海流干扰下的多UUV编队路径跟踪", 《中国造船》 *
崔荣鑫等: "仅利用位置信息的自主水下航行器主从式编队控制方法", 《兵工学报》 *
徐玉如,等: "智能水下机器人技术展望", 《智能系统学报》 *
朱齐丹等: "多欠驱动自主水面船的鲁棒协调控制器设计", 《哈尔滨工程大学学报》 *
薛光辉,等: "煤矿巷道修复重载作业机器人现状与发展趋势", 《工矿自动化》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115063060A (zh) * 2022-08-22 2022-09-16 江西制造职业技术学院 机器人调度方法及系统
CN116339355A (zh) * 2023-03-03 2023-06-27 新兴际华(北京)智能装备技术研究院有限公司 水下航行器及其编队跟踪控制方法和装置
CN116339355B (zh) * 2023-03-03 2023-10-20 新兴际华(北京)智能装备技术研究院有限公司 水下航行器及其编队跟踪控制方法和装置
CN116500893A (zh) * 2023-04-19 2023-07-28 齐鲁工业大学(山东省科学院) 一种高阶多智能体的强化学习优化控制器构建方法及系统
CN116500893B (zh) * 2023-04-19 2023-11-14 齐鲁工业大学(山东省科学院) 一种高阶多智能体的强化学习优化控制器构建方法及系统
CN117784622A (zh) * 2024-02-27 2024-03-29 中国矿业大学 一种基于二阶观测器的电液伺服系统全局滑模控制方法
CN117784622B (zh) * 2024-02-27 2024-05-03 中国矿业大学 一种基于二阶观测器的电液伺服系统全局滑模控制方法

Also Published As

Publication number Publication date
CN112947505B (zh) 2022-11-25

Similar Documents

Publication Publication Date Title
CN112947505B (zh) 一种基于强化学习算法与未知干扰观测器的多auv编队分布式控制方法
CN112462792B (zh) 一种基于Actor-Critic算法的水下机器人运动控制方法
CN111650948B (zh) 一种可底栖式auv的水平面轨迹快速跟踪控制方法
CN111240345B (zh) 基于双bp网络增强学习框架的水下机器人轨迹跟踪方法
CN112965371B (zh) 基于固定时间观测器的水面无人艇轨迹快速跟踪控制方法
CN111240344B (zh) 基于强化学习技术的自主水下机器人无模型控制方法
CN109358646B (zh) 带有乘性噪声的导弹自主编队队形随机控制系统建模方法
CN111857165B (zh) 一种水下航行器的轨迹跟踪控制方法
CN114442640B (zh) 一种水面无人艇轨迹跟踪控制方法
Zhang et al. Anti-disturbance control for dynamic positioning system of ships with disturbances
Zhang et al. A novel event-triggered robust neural formation control for USVs with the optimized leader–follower structure
CN110334411A (zh) 一种基于Huber M估计的水下机器人动力学模型参数辨识方法
CN111273677A (zh) 一种基于强化学习技术的自主水下机器人速度和艏向控制方法
CN113608534A (zh) 一种无人艇跟踪控制方法及系统
CN114967714A (zh) 一种自主式水下机器人抗扰运动控制方法及系统
CN116360470A (zh) 一种多水下直升机协同编队控制方法
Luo et al. Disturbance observer based nonsingular fast terminal sliding mode control of underactuated AUV
Liu et al. Finite-time self-structuring neural network trajectory tracking control of underactuated autonomous underwater vehicles
CN109189080B (zh) 基于模糊理论的多自主海洋航行器系统分布式控制方法
CN117850424A (zh) 一种考虑输入饱和的多usv事件触发误差约束控制方法
Wang et al. Output-feedback control for cooperative diving of saucer-type underwater gliders based on a fuzzy observer and event-triggered communication
CN108459614B (zh) 一种基于cw-rnn网络的uuv实时避碰规划方法
CN110703792B (zh) 基于增强学习的水下机器人姿态控制方法
CN112904719B (zh) 一种适用于水下机器人位置环形区域跟踪控制方法
CN115480580A (zh) 一种基于nmpc的水下机器人路径跟踪与避障的控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant