CN112947505A - 一种基于强化学习算法与未知干扰观测器的多auv编队分布式控制方法 - Google Patents
一种基于强化学习算法与未知干扰观测器的多auv编队分布式控制方法 Download PDFInfo
- Publication number
- CN112947505A CN112947505A CN202110303184.9A CN202110303184A CN112947505A CN 112947505 A CN112947505 A CN 112947505A CN 202110303184 A CN202110303184 A CN 202110303184A CN 112947505 A CN112947505 A CN 112947505A
- Authority
- CN
- China
- Prior art keywords
- auv
- heading
- longitudinal
- actor
- critic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 73
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 64
- 238000000034 method Methods 0.000 title claims abstract description 57
- 230000002787 reinforcement Effects 0.000 title claims abstract description 33
- 238000013528 artificial neural network Methods 0.000 claims abstract description 54
- 150000001875 compounds Chemical class 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 59
- 230000009471 action Effects 0.000 claims description 44
- 230000008569 process Effects 0.000 claims description 20
- 238000004891 communication Methods 0.000 claims description 19
- 238000012549 training Methods 0.000 claims description 12
- 230000008859 change Effects 0.000 claims description 11
- 239000013598 vector Substances 0.000 claims description 10
- 238000010606 normalization Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000005755 formation reaction Methods 0.000 claims 13
- 230000003993 interaction Effects 0.000 claims 1
- 239000011159 matrix material Substances 0.000 description 25
- 238000013461 design Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 11
- 230000005484 gravity Effects 0.000 description 11
- 238000006243 chemical reaction Methods 0.000 description 10
- 230000005653 Brownian motion process Effects 0.000 description 9
- 238000013016 damping Methods 0.000 description 9
- 238000011156 evaluation Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 7
- 230000001133 acceleration Effects 0.000 description 6
- 238000004088 simulation Methods 0.000 description 6
- 238000013459 approach Methods 0.000 description 4
- 239000003795 chemical substances by application Substances 0.000 description 4
- 239000002131 composite material Substances 0.000 description 4
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 238000009795 derivation Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- CURLTUGMZLYLDI-UHFFFAOYSA-N Carbon dioxide Chemical compound O=C=O CURLTUGMZLYLDI-UHFFFAOYSA-N 0.000 description 2
- 238000005537 brownian motion Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000013178 mathematical model Methods 0.000 description 2
- BULVZWIRKLYCBC-UHFFFAOYSA-N phorate Chemical compound CCOP(=S)(OCC)SCSCC BULVZWIRKLYCBC-UHFFFAOYSA-N 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 230000036962 time dependent Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 229910002092 carbon dioxide Inorganic materials 0.000 description 1
- 239000001569 carbon dioxide Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000012938 design process Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- PHTXVQQRWJXYPP-UHFFFAOYSA-N ethyltrifluoromethylaminoindane Chemical compound C1=C(C(F)(F)F)C=C2CC(NCC)CC2=C1 PHTXVQQRWJXYPP-UHFFFAOYSA-N 0.000 description 1
- 239000012530 fluid Substances 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 229920003169 water-soluble polymer Polymers 0.000 description 1
- 238000004804 winding Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/04—Control of altitude or depth
- G05D1/06—Rate of change of altitude or depth
- G05D1/0692—Rate of change of altitude or depth specially adapted for under-water vehicles
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/02—Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
Abstract
一种基于强化学习算法与未知干扰观测器的多AUV编队分布式控制方法,属于机器人控制技术领域。为了解决现有的控制方法对AUV编队进行控制存在控制精度差的问题,本发明针对多AUV编队中的AUV,利用纵向和艏向的复合控制系统进行控制;纵向和艏向的复合控制系统包括:基于纵向干扰观测器确定的纵向分布式控制器、基于艏向干扰观测器确定的艏向分布式控制器,以及用于确定控制器控制增益的Actor‑Critic算法;Actor‑Critic算法由Actor当前网络、Actor目标网络、Critic当前网络和Critic目标网络四个网络构成,四个网络均使用RBF神经网络。本发明主要用于水下机器人的控制。
Description
技术领域
本发明涉及多AUV编队分布式控制方法,属于机器人控制技术领域。
背景技术
自主水下机器人(Autonomous Underwater Vehicle,AUV)作为探索海洋的重要技术手段,近几年在海洋环境探索、资源勘探等领域具有革命性应用,受到社会各界的广泛关注。AUV在执行任务时离不开各种传感器,通过传感器实时反馈回的信息,机器人能得到自身位置、速度等运动信息,也能得到外部环境等与任务息息相关的重要数据。然而由于单台AUV传感器的探测范围有限,在涉及范围较大的任务中,单体AUV显然无法快速高效地完成任务。为了补偿单智能体的物理限制,通常将多个AUV进行编队,在一定队形基础上遥控几个AUV同时执行复杂任务,这样的工作模式减少了每台智能体的任务量,提高了工作效率,这样的系统被称为多水下机器人系统(Multiple Autonomous Underwater VehicleSystem,MAUVS)。在MAUVS系统中,每个智能体拥有独立的意识,拥有独立完成任务的能力。同时为了解决更复杂的问题,每个单体要学会与其他智能体相协作,在这种情况下多智能体协同控制就是需要解决的一大难题。
海洋环境复杂,洋流等干扰会影响AUV编队的运动精度,进一步给协同控制增加了难度。利用目前的控制方法在对AUV编队进行控制难以取得良好的控制精度,控制效果并不理。
发明内容
本发明是为了解决现有的控制方法对AUV编队进行控制存在控制精度差的问题。
一种基于强化学习算法与未知干扰观测器的多AUV编队分布式控制方法,其特征在于,包括以下步骤:
针对多AUV编队中的AUV,利用纵向和艏向的复合控制系统进行控制;AUV为自主水下机器人;
所述纵向和艏向的复合控制系统包括:基于纵向干扰观测器确定的纵向分布式控制器、基于艏向干扰观测器确定的艏向分布式控制器,以及Actor-Critic算法;
所述基于纵向干扰观测器确定的纵向分布式控制器、基于艏向干扰观测器确定的艏向分布式控制器如下:
其中,ku、kψ1、kψ2为控制增益;τu为推进器纵向推力;τr为转艏力矩,角标i表示AUV编队中第i个跟随者,所有角标i对应的参数为第i个跟随者的参数;带有上标∧的参数表示估计值,带有上标·的表示一阶导数,带有上标··的表示二阶导数;X,Y,Z为作用在AUV上外力的合力,Xu|u|、Yvv、Nrr为粘性力项水动力系数,Xu、Yv、Nr、为无量纲水动力参数;Iz为AUV绕运动坐标系z轴的转动惯量;m为水下机器人的质量;ui、vi、ri、uri、分别为第i个跟随者的纵向速度、横向速度、艏向角速度、速度全局误差、速度全局误差导数、艏向角二阶导数、艏向角全局误差二阶导数;分别为纵向干扰估计值和艏向干扰估计值;z1i=ηri-ηi、ηi第i个跟随者的状态,ηri为第i个跟随者的全局状态误差,α1i为虚拟控制量;
所述Actor-Critic算法用于确定控制增益ku、kψ1、kψ2,Actor-Critic算法即强化学习算法,由Actor当前网络、Actor目标网络、Critic当前网络和Critic目标网络四个网络构成;Actor当前网络、Actor目标网络、Critic当前网络和Critic目标网络这四个神经网络都使用RBF神经网络。
有益效果:
本发明的强化学习算法能够有效提高探索能力和收敛速度,同时引入强化学习与传统控制相结合的框架结构,并将其应用于AUV编队系统,在编队层面上设计状态输入及动作输出。利用本发明不仅能够实现AUV编队的精确控制,而且收敛速度快。
附图说明
图1为RBF神经网络结构示意图;图2为OU噪声示例;图3为改进Actor-Critic算法示意图;图4为AUV分布式干扰观测系统结构示意图;图5为编队运动控制系统通信模型结构图;图6跟随者控制系统流程图;图7为高阶干扰下不加观测器编队位置变化图;图8为高阶干扰下加入观测器编队位置变化图;图9为高阶干扰下不加观测器编队运动路径;图10为高阶干扰下加入观测器编队运动路径;图11为高阶干扰下不加观测器编队速度控制效果;图12为高阶干扰下加入观测器编队速度控制效果;图13为高阶干扰下不加入观测器编队角度控制效果;图14为高阶干扰下加入观测器编队角度控制效果;图15为高阶干扰下加入观测器前后编队跟踪误差对比图。
具体实施方式
在说明具体实施方式之前,首先对实施方式中的坐标系和参数进行一下说明:
惯性坐标系E-ξηζ:原点E可选在海面的某一点,Eξ轴和Eη轴置于水平面内且互相垂直,Eξ轴正向指向正北方向。Eζ垂直于Eξη平面,正向指向地心。
运动坐标系G-xyz:原点G取在AUV的重心处,x轴、y轴和z轴分别为经过原点的水线面、横剖面和中纵剖面的交线。
运动学模型参数:ηi=[xi,yi,zi,φi,θi,ψi]T—第i个AUV在固定坐标系下的六自由度位置与姿态值;ηd=[xd,yd,zd,φd,θd,ψd]T—第i个AUV在固定坐标系下的六自由度位置与姿态期望值;νi=[ui,vi,wi,pi,qi,ri]T—第i个AUV在运动坐标系下的速度与角速度量;J—固定坐标系与运动坐标系之间的转换矩阵;
动力学模型参数:CRB—刚体的科氏力和向心力矩阵;CA—附加质量的科氏力和向心力矩阵;M—质量惯性矩阵;D—水动力阻尼矩阵;gη—重力、浮力产生的力与力矩;τ—推进器与转向装置产生的控制力和力矩;X,Y,Z为作用在AUV上各种外力的合力;K、M、N为作用在AUV上相对于坐标原点的力;Xu|u|、Yvv、Nrr等为粘性力项等水动力系数;Ixy为绕z轴转动惯量;Ixz为绕y轴转动惯量;Iyz为绕x轴转动惯量;u—推进器的控制量。
具体实施方式一:
本实施方式所述的一种基于强化学习算法与未知干扰观测器的多AUV编队分布式控制方法,包括以下步骤:
S1、建立AUV运动学模型和动力学模型:
考虑洋流扰动影响,设扰动为d,AUV动力学模型:
针对于在水平面行智能体控制,将AUV动力学模型简化为水平面运动模型。简化过程基于哈尔滨工程大学水下机器人重点实验室研制某型号AUV的几个特点进行:
(1)该型号AUV重心与随体坐标系的原点重合,重心位于浮心下方且与浮心位于同一垂线上,且假设重力与浮力平衡;
(2)该型号AUV外形设计在xz平面上对称,考虑到后续控制系统设计,假设机器人在yx和yz平面同样对称:
Ixy=Ixz=Iyz=0 (2)
同时根据对称面性质,附加质量矩阵中非对角元素的值远小于对角元素,因此只需考虑附加质量矩阵中的对角元素即可,而对非对角元素进行忽略。
(3)该型号AUV采用舵桨联合控制,其执行机构包括一组垂直舵和一个纵向推进器,缺少侧向推进器,因此,控制输出具体如式(3)所示:
τ=[τu 0 τr] (3)
综上所述,简化后的AUV水平面运动学模型和动力学模型分别如式(4)和式(5)所示:
为方便在仿真环境中对AUV控制性能进行验证,表1给出了哈尔滨工程大学某型AUV水平面无量纲水动力参数。
表1某型AUV水平面无量纲水动力参数
本发明应用的强化学习算法是在Actor-Critic算法的基础上进行的改进算法。传统的Actor-Critic算法一般由两个神经网络构成,即根据状态(state)输出动作(actor)的actor网络和根据状态及动作输出评分的critic网络,本发明在此结构上的基础上采用“双网络”结构,即把每个网络分为“当前网络(eval网络)”和“期望网络(target网络)”,期望网络的参数更新慢于当前网络,以实现打断前后两个Q值相关性的目的,提高了算法的稳定性。
actor当前网络、actor目标网络、critic当前网络和critic目标网络这四个神经网络都使用RBF神经网络,每个网络分为输入层、隐含层和输出层,结构如图1所示。
RBF神经网络的输入层输入节点数量为i',隐层节点数量为j',输出节点数量为k,wi是隐层到输出层间权值;隐层节点基函数为高斯基函数;
除双网络外,Ornstein-Uhlenbeck噪声也被引入算法。OU噪声是一种时间相关噪声,其微分方程为:
dxt=-θ(xt-μ)dt+σdWt (6)
其中,μ是均值,θ和σ都大于0,dWt是维纳过程(布朗运动);
不考虑维纳过程部分,积分得到:
xt=μ+(x0-μ)e-θt (7)
其中维纳过程:W(t)-W(s)~N(0,σ2(t-s)),每一段时间的增量符合高斯分布,即OU噪声是从零时刻开始对高斯噪声的累加。噪声的加入能使确定性策略的强化学习算法拥有更强的探索能力,同时OU噪声的时序相关性使它不会高斯噪声一样相邻两步出现差值过大的情况,而是会绕着均值附近正向或负向探索一段距离,这有利于在一个方向上探索。
改进后的actor-critic算法主要由四个神经网络构成—actor当前网络、actor目标网络、critic当前网络和critic目标网络四个网络。在整体的神经网络中,将目标状态与当前状态作差得到et,进而通过状态转换得到神经网络需要输入的状态st,状态作为actor当前网络的输入得到输出动作at,叠加OU噪声后作为力或力矩施加给作用对象(在本发明中为AUV)。同时at和状态st一同作为critic当前网络的输入得到评价值Qt。当动作作用于对象后,可通过环境得到新的状态st+1,与当前网络类似,actor目标网络的输入是st+1,输出是下一时刻的动作at+1,critic目标网络的输入是st+1和at+1,输出新的评价值Qt+1;回报函数R由新状态设计得到,与Qt+1共同构成损失函数Loss,用于更新神经网络权值。这样的结构使得动作输出兼有探索性的同时节省了训练样本数,双网络结构打破了相邻两次样本的相关性,使其更好地收敛。
RBF神经网络参数的选取:
Actor-Critic算法由通过神经网络实现,设定四个RBF神经网络,分别为actor当前网络、actor目标网络、critic当前网络和critic目标网络。四个网络都是单输入层单隐层和单输出层。其输入节点数量为i',隐层节点数量为j',输出节点数量为k,其中隐层节点基函数为高斯基函数,如下:
其中,cj'是第j'个基函数的中心点,σj'为基函数围绕中心点宽度,‖x-cj'‖2表示向量x-cj'的二范数;
神经网络的训练更新公式为:
式中,Δci'j'和Δσj'是径向基函数参数增量;Δwj'k是神经网络权值增量;η为常数;wj'k为第k个隐层权值;ydk为期望输出Q值;yk为当前输出Q值;xi'为神经网络第i'输入;Δci'j'为第i'个输入量对第j'个基函数的中心点;x为神经网络输入;cj'为第j'个基函数的中心点;E表示损失函数;f(·)为以e为底的指数函数。
S3、设计自适应分布式协同控制器:
针对AUV设计分布式协同控制律:
结合AUV动力学模型,设计第i个跟随者速度u和艏向角ψ的控制律即分布式控制器:
纵向速度的纵向推力τu:
角度控制的偏航力矩τr:
其中ku>0、kψ1>0和kψ2>0为控制增益。
S4、设计分布式未知干扰观测器并确定纵向和艏向的复合分布式控制系统:
为最大程度抵消干扰对编队运动的影响,本发明在分布式控制系统基础上,提出如下纵向干扰观测器与艏向干扰观测器分别为:
其中,eui(t)为纵向干扰观测器的全局观测误差;i表示第i个跟随者,j表示第j个跟随者;是对纵向速度u的估计,是对纵向干扰du的估计,au是控制项系数即τui是控制力;sat(eui,α,δ)是饱和函数;fu0是AUV标称模型部分,根据动力学方程u、v、r分别为对应跟随者的纵向速度、横向速度、艏向角速度;βu1、βu2、αu、δu为可调参数;
其中,eψi(t)为艏向干扰观测器的全局观测误差;是对艏向角ψi的估计,是对艏向干扰dψ的估计;aψ是控制项系数即sat(eψi,α2,δ)是饱和函数,fψ0是系统标称模型部分βψ1、βψ2、βψ3、αψ1、αψ2、δψ为可调参数。
将前馈观测器(纵向干扰观测器和艏向干扰观测器)与分布式控制系统(纵向分布式控制系统和艏向分布式控制系统)结合,得到纵向和艏向的复合分布式控制系统;
所述基于纵向干扰观测器确定的纵向分布式控制器、基于艏向干扰观测器确定的艏向分布式控制器如下:
整体复合控制系统结构:本发明设计的多AUV编队运动复合控制系统如图5所示,系统分为三个组成部分,强化学习算法、分布式控制器和分布式观测器,强化学习算法与分布式控制器结合被称为分布式控制系统,它们的输入都是全局的,即某一观测器会同时接收来自编队内领航者与其他跟随者传感器的状态信息,经过计算后形成输入量,而不是只与目标量的领航者信息通信。其中跟随者控制系统结构图6所示。由图6可知,分布式控制系统主要由两部分构成,一是分布式协同控制器,二是改进Actor-Critic算法。强化学习算法部分根据状态调整反步法部分的参数,即ku、和以实现参数优化的目的,使控制器的效率更高。纵向分布式控制器和艏向分布式控制器的主要控制过程如表2,由于纵向分布式控制器和艏向分布式控制的控制流程中也需要Actor-Critic算法参与,所以也可以表示为分布式控制系统控制流程;
表2分布式控制系统控制流程
实际上上述步骤2和步骤3得到新参数值的过程对应表5的步骤2-步骤6;
针对AUV在运动中的动作特性,本发明对分布式控制系统强化学习部分中的动作状态表示以及奖惩函数做如下设计:
参数自适应分布式控制器的状态和动作表示:
基于RBF神经网络的改进Actor-Critic算法控制器可以对连续状态变量进行处理,所以每轮训练开始时将从编队每个AUV得到的状态信息加以运算处理,而后直接作为神经网络输入。
对于状态输入设计,纵向分布式控制系统输入的状态向量表示为Su={s1u,s2u},其中s1u为速度的全局速度的偏差S2u为速度的偏差变化率s2u=u’i;对于艏向分布式控制系统,输入的状态表示为Sψ={s1ψ,s2ψ,s3ψ},其中s1ψ为偏航角的偏差s2ψ为偏航角的偏差变化率s2ψ=ψ’i,s3ψ为AUV实时速度s3ψ=ui。
对于动作的输出,强化学习算法部分的输出动作经过处理后是分布式控制器的参数。首先将Actor当前网络输出的动作上叠加OU噪声增加动作探索性,即而后对输出的动作at'进行变换,分别得到纵向分布式控制器的参数和艏向角分布式控制器的参数,具体变换如下:
ku=(a’tu-6)*0.2+Ku0 (19)
kψ1=(a’tψ1-7)*0.2+Kr10 (20)
kψ2=(a’tψ2-7)*0.2+Kr20 (21)
其中,ku0、Kr10、Kr20为控制器原始参数;at'u、at'ψ1和at'ψ2是强化学习算法最终输出动作值;ku、kψ1和kψ2是最终参数值。
对于速度和艏向状态输入要进行归一化处理,即纵向分布式控制系统的输入量s1u和s2u应分别除以2m/s、1m/s2然后输入神经网络;艏向分布式控制系统的输入量以及应分别除以3rad,1rad/s,2m/s,然后输入神经网络;最后对控制系统得到力与力矩进行限幅。τumax和τrmax分别为最大纵向推力和最大转艏力矩,τumin和τrmin是最小值,其中τumax=800N、τumin=-100N、τrmax=2500N·m、τrmin=-2500N·m。
基于改进Actor-Critic算法的分布式控制系统奖惩函数设计:
具体实施方式二:
本实施方式所述的一种基于强化学习算法与未知干扰观测器的多AUV编队分布式控制方法,所述的AUV水平面运动学模型和动力学模型的建立过程包括以下步骤:AUV运动学方程:AUV运动学方程本质上反映的是大地坐标系与随体坐标系两者间的转换关系,当有外力作用于AUV上时,会使其产生线加速度和角加速度,从而使AUV的线速度和角速度发生变化,为了解线速度和角速度的变化引起的AUV在大地坐标系中最终的位姿变化,就会涉及到坐标转换矩阵。
角速度关系转换矩阵T如式(23)所示:
综上可得AUV的运动学方程如式(24)所示:
AUV动力学模型:参考Fossen提出的AUV六自由度动力学模型,包括五个部分,即刚体惯性力和科氏向心力附加质量力和附加科氏向心力阻尼力D(ν)ν、重浮力产生的恢复力g(η)以及推进力τ。具体方程如式(25)所示:
刚体惯性力和刚体科氏向心力:在对AUV进行动力学建模时,可以将AUV近似地看作刚体,AUV六自由度空间运动指的是沿大地坐标系中坐标轴的直线运动及转动运动,其刚体惯性力参数矩阵、刚体科氏向心力参数矩阵具体分别如式(26)及式(27)所示:
附加质量力和附加科氏向心力:AUV在水中作加速运动时,会受到来自流体的惯性力作用,具体表现为对AUV的反作用力,即附加质量力,它与AUV的加速度成正比,表示为附加科氏向心力同样由AUV附加质量力引起,表示为CA(ν)ν。附加质量力参数矩阵和附加科氏向心力参数矩阵具体分别如式(28)和式(29)所示:
式中:
阻尼力:AUV在水下运动过程中,受到的阻尼力主要包括摩擦阻力和压差阻力两部分。阻尼力矩阵具体可以表示为线性阻尼力Dl(ν)和非线性阻尼力Dn(ν)之和,即:D(ν)=Dl(ν)+Dn(ν),其中非线性阻尼力与流速平方成正比且方向为来流方向。阻尼力参数矩阵具体如式(31)至式(33)所示:
Dl(v)=-diag{Xu Yv Zw Kp Mq Nr} (31)
Dn(v)=-diag{lXu|u||u| Yv|v||v| Zw|w||w| Kp|p||p| Mq|q||q| Nr|r||r} (32)
重力和浮力:AUV在水中运动时同时受到重力和浮力的作用,重力和浮力分别作用于AUV的重心W和浮心B上,通常情况下它们在坐标系中不位于同一点,因此,AUV在同时受到重浮力作用时会产生力矩。将其转换到随体坐标系下,AUV的恢复力和力矩具体如式(34)所示:
仿真在水平面内进行,因此将AUV动力学方程简化为纵向速度u和艏向角ψ的动力学方程。控制输出具体如式(35)所示:
τ=[τu 0 τr] (35)
综上所述,简化后的AUV水平面运动学模型和动力学模型分别如式(36)和式(37)所示:
其他步骤和参数与具体实施方式一相同。
具体实施方式三:
本实施方式所述的一种基于强化学习算法与未知干扰观测器的多AUV编队分布式控制方法,所述设计自适应分布式控制器的过程包括以下步骤:
在对基于改进Actor-Critic算法的参数自适应分布式协同控制系统的结构进行设计前,需要对AUV基于反步法的纵向和艏向分布式控制器进行推导。反步法是属于非线性控制方法,它的基本思想是根据Lyapunov理论设计中间虚拟控制量,在保证稳定性的前提下设计反馈控制律,从而保证跟踪误差逐渐趋近于零。本发明对纵向和艏向分布式控制器的数学推导是基于简化的AUV水平面数学模型进行的。
设误差参考信号为:
根据代数图论理论,aij表示第i个和第j个跟随者AUV间的通信权重,如果第i和第j个AUV间直接通信,则aij=1,否则aij=0;gi表示第i个跟随者AUV与领航者AUV的通信权重,如果第i个跟随者与领航者直接通信,则通信权重大于0,否则gi=0,其中i=1,2,3…,N;α为常数。
根据误差参考信号设计误差为:
其中,ηi第i个跟随者的状态,ηri为第i个跟随者的全局状态误差参考信号,α1i为虚拟控制。
首先对z1求导:
设虚拟控制量为:
其中,K1为正定对称矩阵。
根据误差方程构造Lyapunov函数V1i:
根据上式设计控制律:
而后根据简化后速度与艏向的动力学模型方程(36)和平面运动学方程(37),得到对速度控制的纵向推力τu为:
对角度控制的偏航力矩τr为:
其中,ku为纵向分布式控制器的参数,对应于式(46)中的K1;kψ1和kψ2为艏向分布式控制器的参数,对应式(46)中的K1和K2。
综上所述,只需根据式(47)和式(48)分别设计纵向和艏向控制律,同时保证纵向和艏向控制器的控制增益ku、以及为合适的正数,即能实现对基于领航者-跟随者模式的多AUV编队系统速度和艏向的良好控制,同时保证编队在运动过程中队形变化保持在一定误差内。
其他步骤和参数与具体实施方式一或二相同。
具体实施方式四:
本实施方式所述的一种基于强化学习算法与未知干扰观测器的多AUV编队分布式控制方法,所述的设计神经网络结构和强化学习算法的过程包括以下步骤:
本发明选择RBF神经网络实现Actor-Critic算法,共包含四个RBF神经网络,分别为Actor当前网络、Actor目标网络、Critic当前网络和Critic目标网络。每个网络分为输入层、隐含层和输出层。其输入节点数量为i',隐层节点数量为j',输出节点数量为k,wi是隐层到输出层间权值;其中隐层节点基函数为高斯基函数,cj'是第j'个基函数的中心点,σj'为基函数围绕中心点宽度,‖x-cj'‖2表示向量x-cj'的二范数,通常表示x与cj间的距离。
RBF神经网络的连接权值修正函数采用反向传播的形式,神经网络的训练更新公式为:
下一时刻的权值为:
ci'j'(t+1)=ci'j'(t)+Δci'j'+α[ci'j'(t)-ci'j'(t-1)] (53)
σj'(t+1)=σj'(t)+Δσj'+α[σj'(t)-σj'(t-1)] (54)
wj'k(t+1)=wj'k(t)+Δwj'k+α[wj'k(t)-wj'k(t-1)] (55)
纵向分布式控制系统与艏向分布式控制系统中的强化学习算法部分四个网络的设置分别如下:
表3四个RBF神经网络节点数设置
传统Actor-Critic算法的框架主要由两个神经网络构成,即动作网络(Actor)和评价网络(Critic)。Actor的前身是policy-based的policy gradient方法,它能利用策略梯度算法原理从连续动作空间中选择合适的动作,但训练时需要的数据量大;而Critic网络的前身是value-based类算法,这类算法训练效率高但动作选择数量有限,对动作空间大的系统不够精确。结合上述两种方法的优缺点,Actor-Critic算法框架被提出。其中Actor网络基于Critic网络的评价输出更优的动作,Critic网络根据Actor输出动作而达到的状态修改选择行为的概率。但Critic网络本身就很难收敛,加入Actor后二者收敛会更难,为解决这个问题,参考DQN算法的双网络原理,把评价网络和当前网络分别再加上一个目标网络,目标网络的权值更新慢于当前网络,权值每隔几个训练回合定期从当前网络进行复制,这样就能达到解除两个相邻Q值相关性的目的,使神经网在训练时更容易收敛。
同时由于Acror-Critic算法属于确定性策略算法,即其动作网络输出π(s)S→A直接是一个确定的动作而非动作概率∑π(a|s)=1。确定性策略直接输出动作,所以有着训练所需数据少、训练效率高速度快等优点,但同样因为只输出一个动作的特性,它无法探索环境。针对这一问题,Ornstein-Uhlenbeck噪声被引入算法,即Actor当前网络的输出直接叠加OU噪声,图2为OU噪声示例,在规定范围内使动作拥有一定的随机性,使算法能探索环境。OU噪声是一种时间相关噪声,其微分方程为dxt=-θ(xt-μ)dt+σdWt,其中μ是均值,θ和σ都大于0,dWt是维纳过程(布朗运动)。如不考虑维纳过程,积分得到:
xt=μ+(x0-μ)e-θt (56)
其中维纳过程:W(t)-W(s)~N(0,σ2(t-s)),每一段时间的增量符合高斯分布,即OU噪声是从零时刻开始对高斯噪声的累加。同时OU噪声显然是一种均值回归函数,即如果上一时刻的值xt大于均值μ,则下一个状态就会变小,反之则会向增大的方向变化。噪声的加入能使确定性策略的强化学习算法拥有更强的探索能力,同时OU噪声的时序相关性和均值回归性使它不会高斯噪声一样相邻两步出现差值过大的情况,而是会绕着均值附近正向或负向探索一段距离,这有利于在一个方向上探索。由公式看出,显然当θ值越大,xt向均值靠近的速度就越快,而且是指数倍的靠近;σ2则是维纳过程的参数,在OU过程中它决定扰动的放大倍数。
综上设计改进后的Actor-Critic算法如下:
基于神经网络结构的改进Actor-Critic算法结构如图3所示;
由图3可知,改进后的Actor-Critic算法主要由上一节已经进行过陈述的四个神经网络构成。目标状态与当前状态作差得到et,进而通过状态转换得到几个神经网络需要输入的状态st,状态作为Actor当前网络的输入得到输出动作at,叠加OU噪声作用于对象(在本发明中为编队的控制系统)。同时at和状态st一同作为Critic当前网络的输入得到评价值Qt。当动作作用于对象后,可通过环境得到新的状态st+1,与当前网络类似,Actor目标网络的输入是st+1,输出是下一时刻的动作at+1,Critic目标网络的输入是st+1和at+1,输出新的评价值Qt+1;回报函数R由新状态设计得到,与Qt+1共同构成损失函数Loss,用于更新神经网络权值。这样的结构使得动作输出兼有探索性的同时节省了训练样本数,双网络结构打破了相邻两次样本的相关性,使其更好地收敛。
四个神经网络的输入输出如下表:
表4神经网络输入输出
改进Actor-Critic算法分布式控制系统学习更新过程:
在改进后的Actor-Critic算法中,当前网络每回合更新,而目标网络每隔n回合从当前网络复制更新后的权值。其中Actor网络和Critic网络的更新方法有所不同。
Critic网络利用均方误差进行更新,即通过critic目标网络输出的新评价Qt+1与回报函数R,得到期望值
yi=R+γQt+1(St+1,at+1,w') (57)
计算TD误差:
其中γ是折扣率。进而得到损失函数:
对损失函数J(w)求梯度下降,并通过公式(50)-(55)来更新Critic网络权值参数。更新完成后每隔n个回合将参数复制到目标网络,依靠两个网络更新后的输出继续实现新参数迭代直至收敛,最后得到相对稳定的Q值。
对于Actor网络,其损失梯度为
即输出动作与对应Q值,Q值越大表示采取的动作得到了更高的奖励,动作评价更高,因此我们希望得更大的Q值。综上对Actor网络的损失理解为Q值越大损失越小,Q值越小损失越大,所以对当前网络输出的Q值取负得到Actor网络的损失函数,损失函数为:
得到损失函数后与Critic网络更新方法相同,对J(θ)求梯度下降,并通过RBF神经网络更新公式进行当前Critic网络权值更新,目标网络定期复制新权值参数。具体学习流程如表5。
表5基于RBF神经网络的Actor-Critic算法学习流程
其他步骤和参数与具体实施方式一至三之一相同。
具体实施方式五:
本实施方式所述的一种基于强化学习算法与未知干扰观测器的多AUV编队分布式控制方法,所述的纵向干扰与艏向干扰观测器的设计过程包括以下步骤:
多AUV编队系统在水中运动时常常受到未知的非线性复杂干扰,针对领航者-跟随者的多AUV系统,根据AUV运动学方程,给出简化后第i个跟随者模型为:
领航者的状态空间模型如下:
由式(62)和式(63)可以看出,给出的AUV状态空间模型是一个二阶系统。而在通过公式(36)和(37)已经给出了简化后的运动学方程和动力学模型,可以看出,当被控对象是纵向速度时,系统是一阶系统;而当被控对象是艏向角时,系统则是二阶的。因此不同被控对象数学模型是不完全相同的。
设计的分布式干扰观测器结构如图4所示。图4为AUV分布式干扰观测系统结构示意图;图4给出了在整个系统中观测器与被控对象的结构关系,观测器的输入为控制器输出量τi、被控对象输出状态yi、用以计算全局估计误差的其余跟随者AUV状态yi和领航者信息y0;输出则是AUV的状态估计值和未知干扰估计值。其中控制器输出即为力与力矩,被控对象输出状态是某个跟随者AUV的速度矩阵和状态矩阵,在接收编队内其余AUV状态输入后一同构成全局误差。
与分布式控制器的输入状态构成同理,在整个拓扑通信中,部分跟随者与领航者直接通信,而其余跟随者通过与其他跟随者通信的方式间接获取信息。若第i个AUV与领航者直接通信,则在通信拓扑图中存在一边表征通信权重gi>0。根据代数图论理论,给出直连矩阵在有向通信拓扑下的分布式多AUV协同系统中,每个AUV节点都是相互连通、信息共享的。依据这个特征,参考分布式控制器的设计,可以将观测器设计成多AUV协同控制系统的分布式未知干扰观测器。为在分布式观测器中引入多智能体系统全局误差信息,在单体观测器基础上引入第i个AUV的相对输出估计误差的概念:
其中,分别表示第i个跟随者AUV和第j个跟随者AUV的输出估计值。表示与第i个AUV直接通信的集合,也即第i个AUV的邻居节点集合。aij表示第i个和第j个AUV间的通信权重,参考第二章代数图论部分内容,如果第i和第j个AUV间直接通信,则aij=1,否则aij=0。表gi示第i个跟随者AUV与领航者AUV的通信权重,如果第i个跟随者与领航者直接通信,则gi>0,否则gi=0,其中i=1,2,...,N。
在实际应用中,领航者通常是地面控制站发出的指令,即默认领航者AUV状态已知,则领航者的输出估计值与其输出值相等,式(64)简化为:
以二阶被控对象为例,观测器结构如下:
其中,e(t)是全局观测误差,是状态估计值的导数,zi是中间量,以及分别是对扰动的估计和估计值的误差;f0是标称模型;τi是控制器输出量,具体指力与力矩,ai是控制项系数,由AUV动力学方程得到;β1、β2、β3、α1、α1、δ为观测器可调参数。sat(e,α2,δ)为饱和函数:
通过合理调节上述参数,观测器就能对跟随者状态变量和受到的未知扰动进行估计。
纵向速度和艏向角未知干扰观测器设计:在前述编队通信原理和观测器设计原理基础上,结合AUV的运动学方程和动力学模型,分别设计纵向速度干扰观测器和艏向干扰观测器。根据运动学方程,两个观测器分别是二阶和三阶,观测器的控制项系数和标称模型等参数依据AUV水动力参数确定。
(1)纵向扰动观测器:
根据简化后的AUV动力学模型,可以得到AUV纵向速度控制方程如下:
可知纵向速度是一个一阶被控量,因此根据设计原理,要设计一个二阶观测器。首先根据之前定义的全局误差概念,定义纵向速度观测误差为:
进一步得到:
得到设计的观测器结构为:
其中,β1、β2、α、δ为可调参数。
对于设计的二阶纵向分布式干扰观测器,下面对其稳定性进行证明。将速度系统与扰动观测器系统的误差表示为式(73):
当|eu|≤δ时,给出误差方程的等价系统:
其中,N为范德蒙德矩阵,λi为特征值。式(75)可变为:
则
可知当ε足够小,即参数β足够大时,误差最终收敛。
(2)、艏向扰动观测器:
根据简化后的AUV动力学模型,艏向控制系统方程为:
可知艏向角是一个二阶被控量,因此设计如下观测器:
其中,β1、β2、β3、α1、α2、δ为可调参数。
由式(79)可以看出,艏向干扰观测器是一个三阶观测器,下面给出稳定性分析。
将艏向角系统方程与观测结果误差表示为:
对误差方程求导得:
因此此时只要β3远大于w(t),即远大于观测到扰动的导数(角速度的加速度),那么观测误差就会足够小,满足观测精度的需求。当误差|e|>δ时同理可证。
观测器参数整定原则:根据上面稳定性推导过程,可得知参数选取规律。以三阶观测器为例,三阶非线性未知干扰观测器共有六个参数需要整定,分别为β1、β2、β3、α1、α2、δ。其中α1、α2、δ是饱和函数中的参数,当α=1是饱和函数为线性函数,其估计精度会差于α<1的情况。因此α1、α2在0到1之间取值,取值越靠近0,饱和函数非线性越强,对未知扰动的适应能力也越强。β1、β2、β3是三阶观测中三个主要的可调参数,取值大于0且受系统采样步长影响。其中对中间变量两个参数的估计与被估计的变量有关,第三个对干扰估计的参数β3与对di的估计有关。β3的值越大,对扰动的估计滞后越小,估计误差也越小,但β3过大会引起估计值的振荡或发散,可以通过增大前两个参数来减小由β3过大引起的估计值振荡,但前两个参数过大也会引起相应估计状态的振荡。因此,三个参数要协同调整,β1、β2、β3应满足关系β1β2>β3。且由于β值的选择受采样步长影响,因此在不同系统中只要采样步长相同,就可以选择相同的参数值。
其他步骤和参数与具体实施方式一至四之一相同。
实施例
利用具体实施方式的方案进行仿真,使用Matlab软件搭建simulink模型进行仿真,仿真参数如下:
AUV模型水动力参数:
为方便在仿真环境中对AUV控制性能进行验证,采用表1给出的哈尔滨工程大学某型AUV水平面无量纲水动力参数。
初始坐标:
在编队中,设定三个跟随者初始位置向量矩阵与速度向量矩阵如下表:
表6编队初始坐标
控制器与观测器参数:
要求系统稳态控制精度达到0.005。控制器参数设置分为传统控制器部分和神经网络部分。其中反步法部分初始参数分别为Ku=3,神经网络参数分别以1为均值0.05为标准差按正态分布随机取值。其他参数如下表:
表7预设性能参数取值
表8观测器参数
施加高阶非线性干扰,纵向干扰为200sin(0.06*t)+3+(0.1*t)3,艏向干扰为2000*sin(0.06*t)+3+(0.2*t)3+2500*sin(0.1*t+2)+3。施加时间为40s到60s。
图7和8是编队运动过程中在高阶干扰下加入观测器前后队形变化,可以看出如果不加入观测器,过强且复杂的干扰会使队形变乱,加入观测器后队形保持较好。图9和10是两种情况下编队运动路径图,同样可以看出加入观测器后进行干扰补偿对编队队形保持的作用。图11至14是加入观测器前后编队轨迹跟踪运动过程中对速度和角度的控制效果对比。可以看出观测器最大限度抵消了干扰对AUV施加的影响。
图15是加入观测器前后编队曲线跟踪误差图。可以看出加入观测器后跟踪误差控制在了很小的范围内。
Claims (9)
1.一种基于强化学习算法与未知干扰观测器的多AUV编队分布式控制方法,其特征在于,包括以下步骤:
针对多AUV编队中的AUV,利用纵向和艏向的复合控制系统进行控制;AUV为自主水下机器人;
所述纵向和艏向的复合控制系统包括:基于纵向干扰观测器确定的纵向分布式控制器、基于艏向干扰观测器确定的艏向分布式控制器,以及Actor-Critic算法;
所述基于纵向干扰观测器确定的纵向分布式控制器、基于艏向干扰观测器确定的艏向分布式控制器如下:
其中,ku、kψ1、kψ2为控制增益;τu为推进器纵向推力;τr为转艏力矩,角标i表示AUV编队中第i个跟随者,所有角标i对应的参数为第i个跟随者的参数;带有上标∧的参数表示估计值,带有上标·的表示一阶导数,带有上标··的表示二阶导数;X,Y,Z为作用在AUV上外力的合力,Xu|u|、Yvv、Nrr为粘性力项水动力系数,Xu、Yv、Nr、为无量纲水动力参数;Iz为AUV绕运动坐标系z轴的转动惯量;m为水下机器人的质量;ui、vi、ri、uri、分别为第i个跟随者的纵向速度、横向速度、艏向角速度、速度全局误差、速度全局误差导数、艏向角二阶导数、艏向角全局误差二阶导数;分别为纵向干扰估计值和艏向干扰估计值;z1i=ηri-ηi、ηi第i个跟随者的状态,ηri为第i个跟随者的全局状态误差,α1i为虚拟控制量;
所述Actor-Critic算法用于确定控制增益ku、kψ1、kψ2,Actor-Critic算法即强化学习算法,由Actor当前网络、Actor目标网络、Critic当前网络和Critic目标网络四个网络构成;Actor当前网络、Actor目标网络、Critic当前网络和Critic目标网络这四个神经网络都使用RBF神经网络。
2.根据权利要求1所述的一种基于强化学习算法与未知干扰观测器的多AUV编队分布式控制方法,其特征在于,纵向干扰观测器与艏向干扰观测器分别如下:
纵向干扰观测器:
其中,eui(t)为纵向干扰观测器的全局观测误差;i表示第i个跟随者,j表示第j个跟随者;是对纵向速度u的估计,是对纵向干扰du的估计,au是控制项系数即τui是控制力;sat(eui,α,δ)是饱和函数;fu0是AUV标称模型部分,根据动力学方程u、v、r分别为对应跟随者的纵向速度、横向速度、艏向角速度;βu1、βu2、αu、δu为可调参数;aij表示第i个和第j个跟随者AUV间的通信权重,如果第i和第j个AUV间直接通信,则aij=1,否则aij=0;gi表示第i个跟随者AUV与领航者AUV的通信权重,如果第i个跟随者与领航者直接通信,则通信gi=1,否则gi=0;
艏向干扰观测器:
5.根据权利要求4所述的一种基于强化学习算法与未知干扰观测器的多AUV编队分布式控制方法,其特征在于,所述RBF神经网络包括一个输入层、一个隐含层和一个输出层;其输入节点数量为i',隐层节点数量为j',输出节点数量为k,其中隐层节点基函数为高斯基函数,如下:
其中,cj'是第j'个基函数的中心点,σj'为基函数围绕中心点宽度,‖x-cj'‖2表示向量x-cj'的二范数;
神经网络的训练更新公式为:
其中,式中,Δci'j'和Δσj'是径向基函数参数增量;Δwj'k是神经网络权值增量;η为常数;wj'k为第k个隐层权值;ydk为期望输出Q值;yk为当前输出Q值;xi'为神经网络第i'输入;Δci'j'为第i'个输入量对第j'个基函数的中心点;x为神经网络输入;cj'为第j'个基函数的中心点;E表示损失函数;f(·)为以e为底的指数函数。
6.根据权利要求1、2、3、4或5所述的一种基于强化学习算法与未知干扰观测器的多AUV编队分布式控制方法,其特征在于,纵向分布式控制器和艏向分布式控制器的控制过程包括以下步骤:
A1、初始化强化学习算法中的参数以及分布式控制器参数;所述分布式控制器即纵向和艏向的分布式控制器;
A2、观察当前第i个跟随者状态、领航者目标状态、其余跟随者状态,计算Actor当前网络和Critic当前网络输入状态st;
A3、通过Actor当前网络输出动作at,叠加噪声得到a't,即控制器参数变化量;计算得到纵向分布式控制器和艏向分布式控制器新参数ku、kψ1和kψ2;
A4、更新纵向分布式控制器和艏向分布式控制器参数ku、kψ1和kψ2;
A5、将跟随者的全局状态误差ηri作为两个分布式控制器输入,得到力与力矩;
A6、干扰观测器得到对干扰力的估计值;
A7、干扰估计与步骤A5力与力矩计算后作用于AUV编队系统;
A8、AUV编队与环境交互得到新状态st+1;
A9、根据状态st和st+1计算奖励函数R、损失函数Loss,并更新四个神经网络;
A10、将新状态st+1作为纵向和艏向的复合控制系统的新输入;
A11、返回步骤A2,重复执行,直至回合结束。
7.根据权利要求6所述的一种基于强化学习算法与未知干扰观测器的多AUV编队分布式控制方法,其特征在于,利用Actor-Critic算法确定控制增益ku、kψ1、kψ2的过程包括以下步骤:
B1、初始化权值θ、w为[-1,1]的随机数,并设置折扣率γ;
B2、观察当前状态st;
B4、将st、at'作为输入,基于Critic当前网络输出Qt;
B5、动作与环境交互,得到新状态st+1和即时回报rt+1;
B6、基于Actor目标网络输出新动作at+1;
B7、将st+1、at+1作为输入,基于Critic目标网络输出Qt+1;
B8、计算实际值与期望值的偏差,算出Critic目标网络和Critic当前网络的损失函数;并计算Actor目标网络和Actor当前网络的损失函数;
B9、更新Critic当前网络和Actor当前网络对应的RBF神经网络参数w和θ;
B10、n步迭代后,更新Critic目标网络和Actor目标网络对应的RBF神经网络的参数w'和θ';
B11、返回步骤B2,重复执行,直至回合结束。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110303184.9A CN112947505B (zh) | 2021-03-22 | 2021-03-22 | 一种基于强化学习算法与未知干扰观测器的多auv编队分布式控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110303184.9A CN112947505B (zh) | 2021-03-22 | 2021-03-22 | 一种基于强化学习算法与未知干扰观测器的多auv编队分布式控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112947505A true CN112947505A (zh) | 2021-06-11 |
CN112947505B CN112947505B (zh) | 2022-11-25 |
Family
ID=76227574
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110303184.9A Active CN112947505B (zh) | 2021-03-22 | 2021-03-22 | 一种基于强化学习算法与未知干扰观测器的多auv编队分布式控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112947505B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115063060A (zh) * | 2022-08-22 | 2022-09-16 | 江西制造职业技术学院 | 机器人调度方法及系统 |
CN116339355A (zh) * | 2023-03-03 | 2023-06-27 | 新兴际华(北京)智能装备技术研究院有限公司 | 水下航行器及其编队跟踪控制方法和装置 |
CN116500893A (zh) * | 2023-04-19 | 2023-07-28 | 齐鲁工业大学(山东省科学院) | 一种高阶多智能体的强化学习优化控制器构建方法及系统 |
CN117784622A (zh) * | 2024-02-27 | 2024-03-29 | 中国矿业大学 | 一种基于二阶观测器的电液伺服系统全局滑模控制方法 |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050125114A1 (en) * | 2003-12-03 | 2005-06-09 | Atmur Robert J. | Method and apparatus for active acoustic damping motor control |
WO2007060671A2 (en) * | 2005-11-27 | 2007-05-31 | Compugen Ltd. | Novel nucleotide and amino acid sequences, and assays and methods of use thereof for diagnosis |
US20100153050A1 (en) * | 2008-11-11 | 2010-06-17 | Zumberge Mark A | Autonomous Underwater Vehicle Borne Gravity Meter |
WO2015199789A2 (en) * | 2014-04-08 | 2015-12-30 | University Of New Hampshire | Optical based pose detection for multiple unmanned underwater vehicles |
CN105843233A (zh) * | 2016-04-11 | 2016-08-10 | 哈尔滨工程大学 | 一种基于非线性观测器的自主水下航行器运动控制方法 |
US20170024877A1 (en) * | 2014-03-19 | 2017-01-26 | Neurala, Inc. | Methods and Apparatus for Autonomous Robotic Control |
CN107957727A (zh) * | 2016-10-17 | 2018-04-24 | 江苏舾普泰克自动化科技有限公司 | 水下机器人控制系统及动力定位方法 |
CN108427414A (zh) * | 2018-03-31 | 2018-08-21 | 西北工业大学 | 一种自主水下航行器水平面自适应轨迹跟踪控制方法 |
CN109407682A (zh) * | 2018-09-29 | 2019-03-01 | 大连海洋大学 | 基于图像特征深度强化学习的auv管道循管方法 |
CN109739249A (zh) * | 2018-09-06 | 2019-05-10 | 中国船舶工业系统工程研究院 | 一种速度状态缺失条件下的多uuv编队协调控制方法 |
CN111273677A (zh) * | 2020-02-11 | 2020-06-12 | 哈尔滨工程大学 | 一种基于强化学习技术的自主水下机器人速度和艏向控制方法 |
CN111290270A (zh) * | 2020-02-11 | 2020-06-16 | 哈尔滨工程大学 | 一种基于Q-learning参数自适应技术的水下机器人反步速度和艏向控制方法 |
CN111831011A (zh) * | 2020-08-07 | 2020-10-27 | 大连海事大学 | 一种水下机器人平面轨迹跟踪控制的方法 |
CN111966118A (zh) * | 2020-08-14 | 2020-11-20 | 哈尔滨工程大学 | 一种rov推力分配与基于强化学习的运动控制方法 |
CN112327622A (zh) * | 2020-11-02 | 2021-02-05 | 西北工业大学 | 一种中性浮力机器人一致性容错控制方法 |
CN112462792A (zh) * | 2020-12-09 | 2021-03-09 | 哈尔滨工程大学 | 一种基于Actor-Critic算法的水下机器人运动控制方法 |
-
2021
- 2021-03-22 CN CN202110303184.9A patent/CN112947505B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050125114A1 (en) * | 2003-12-03 | 2005-06-09 | Atmur Robert J. | Method and apparatus for active acoustic damping motor control |
WO2007060671A2 (en) * | 2005-11-27 | 2007-05-31 | Compugen Ltd. | Novel nucleotide and amino acid sequences, and assays and methods of use thereof for diagnosis |
US20100153050A1 (en) * | 2008-11-11 | 2010-06-17 | Zumberge Mark A | Autonomous Underwater Vehicle Borne Gravity Meter |
US20170024877A1 (en) * | 2014-03-19 | 2017-01-26 | Neurala, Inc. | Methods and Apparatus for Autonomous Robotic Control |
WO2015199789A2 (en) * | 2014-04-08 | 2015-12-30 | University Of New Hampshire | Optical based pose detection for multiple unmanned underwater vehicles |
CN105843233A (zh) * | 2016-04-11 | 2016-08-10 | 哈尔滨工程大学 | 一种基于非线性观测器的自主水下航行器运动控制方法 |
CN107957727A (zh) * | 2016-10-17 | 2018-04-24 | 江苏舾普泰克自动化科技有限公司 | 水下机器人控制系统及动力定位方法 |
CN108427414A (zh) * | 2018-03-31 | 2018-08-21 | 西北工业大学 | 一种自主水下航行器水平面自适应轨迹跟踪控制方法 |
CN109739249A (zh) * | 2018-09-06 | 2019-05-10 | 中国船舶工业系统工程研究院 | 一种速度状态缺失条件下的多uuv编队协调控制方法 |
CN109407682A (zh) * | 2018-09-29 | 2019-03-01 | 大连海洋大学 | 基于图像特征深度强化学习的auv管道循管方法 |
CN111273677A (zh) * | 2020-02-11 | 2020-06-12 | 哈尔滨工程大学 | 一种基于强化学习技术的自主水下机器人速度和艏向控制方法 |
CN111290270A (zh) * | 2020-02-11 | 2020-06-16 | 哈尔滨工程大学 | 一种基于Q-learning参数自适应技术的水下机器人反步速度和艏向控制方法 |
CN111831011A (zh) * | 2020-08-07 | 2020-10-27 | 大连海事大学 | 一种水下机器人平面轨迹跟踪控制的方法 |
CN111966118A (zh) * | 2020-08-14 | 2020-11-20 | 哈尔滨工程大学 | 一种rov推力分配与基于强化学习的运动控制方法 |
CN112327622A (zh) * | 2020-11-02 | 2021-02-05 | 西北工业大学 | 一种中性浮力机器人一致性容错控制方法 |
CN112462792A (zh) * | 2020-12-09 | 2021-03-09 | 哈尔滨工程大学 | 一种基于Actor-Critic算法的水下机器人运动控制方法 |
Non-Patent Citations (9)
Title |
---|
SHUYONG LIU等: "Nonlinear Adaptive Observer Design for Tracking Control of AUVs in Wave Disturbance Condition", 《OCEANS 2006 - ASIA PACIFIC》 * |
XIAOYANG LIU等: "Discontinuous Observers Design for Finite-Time Consensus of Multiagent Systems With External Disturbances", 《IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS》 * |
YANCHAO SUN等: "Fault-Tolerant Prescribed Performance Control Algorithm for Underwater Acoustic Sensor Network Nodes With Thruster Saturation", 《IEEE ACCESS》 * |
余玲玲等: "基于FTO的船舶分布式编队的有限时间控制方法", 《中国舰船研究》 * |
侯恕萍,等: "海流干扰下的多UUV编队路径跟踪", 《中国造船》 * |
崔荣鑫等: "仅利用位置信息的自主水下航行器主从式编队控制方法", 《兵工学报》 * |
徐玉如,等: "智能水下机器人技术展望", 《智能系统学报》 * |
朱齐丹等: "多欠驱动自主水面船的鲁棒协调控制器设计", 《哈尔滨工程大学学报》 * |
薛光辉,等: "煤矿巷道修复重载作业机器人现状与发展趋势", 《工矿自动化》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115063060A (zh) * | 2022-08-22 | 2022-09-16 | 江西制造职业技术学院 | 机器人调度方法及系统 |
CN116339355A (zh) * | 2023-03-03 | 2023-06-27 | 新兴际华(北京)智能装备技术研究院有限公司 | 水下航行器及其编队跟踪控制方法和装置 |
CN116339355B (zh) * | 2023-03-03 | 2023-10-20 | 新兴际华(北京)智能装备技术研究院有限公司 | 水下航行器及其编队跟踪控制方法和装置 |
CN116500893A (zh) * | 2023-04-19 | 2023-07-28 | 齐鲁工业大学(山东省科学院) | 一种高阶多智能体的强化学习优化控制器构建方法及系统 |
CN116500893B (zh) * | 2023-04-19 | 2023-11-14 | 齐鲁工业大学(山东省科学院) | 一种高阶多智能体的强化学习优化控制器构建方法及系统 |
CN117784622A (zh) * | 2024-02-27 | 2024-03-29 | 中国矿业大学 | 一种基于二阶观测器的电液伺服系统全局滑模控制方法 |
CN117784622B (zh) * | 2024-02-27 | 2024-05-03 | 中国矿业大学 | 一种基于二阶观测器的电液伺服系统全局滑模控制方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112947505B (zh) | 2022-11-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112947505B (zh) | 一种基于强化学习算法与未知干扰观测器的多auv编队分布式控制方法 | |
CN112462792B (zh) | 一种基于Actor-Critic算法的水下机器人运动控制方法 | |
CN111650948B (zh) | 一种可底栖式auv的水平面轨迹快速跟踪控制方法 | |
CN111240345B (zh) | 基于双bp网络增强学习框架的水下机器人轨迹跟踪方法 | |
CN112965371B (zh) | 基于固定时间观测器的水面无人艇轨迹快速跟踪控制方法 | |
CN111240344B (zh) | 基于强化学习技术的自主水下机器人无模型控制方法 | |
CN109358646B (zh) | 带有乘性噪声的导弹自主编队队形随机控制系统建模方法 | |
CN111857165B (zh) | 一种水下航行器的轨迹跟踪控制方法 | |
CN114442640B (zh) | 一种水面无人艇轨迹跟踪控制方法 | |
Zhang et al. | Anti-disturbance control for dynamic positioning system of ships with disturbances | |
Zhang et al. | A novel event-triggered robust neural formation control for USVs with the optimized leader–follower structure | |
CN110334411A (zh) | 一种基于Huber M估计的水下机器人动力学模型参数辨识方法 | |
CN111273677A (zh) | 一种基于强化学习技术的自主水下机器人速度和艏向控制方法 | |
CN113608534A (zh) | 一种无人艇跟踪控制方法及系统 | |
CN114967714A (zh) | 一种自主式水下机器人抗扰运动控制方法及系统 | |
CN116360470A (zh) | 一种多水下直升机协同编队控制方法 | |
Luo et al. | Disturbance observer based nonsingular fast terminal sliding mode control of underactuated AUV | |
Liu et al. | Finite-time self-structuring neural network trajectory tracking control of underactuated autonomous underwater vehicles | |
CN109189080B (zh) | 基于模糊理论的多自主海洋航行器系统分布式控制方法 | |
CN117850424A (zh) | 一种考虑输入饱和的多usv事件触发误差约束控制方法 | |
Wang et al. | Output-feedback control for cooperative diving of saucer-type underwater gliders based on a fuzzy observer and event-triggered communication | |
CN108459614B (zh) | 一种基于cw-rnn网络的uuv实时避碰规划方法 | |
CN110703792B (zh) | 基于增强学习的水下机器人姿态控制方法 | |
CN112904719B (zh) | 一种适用于水下机器人位置环形区域跟踪控制方法 | |
CN115480580A (zh) | 一种基于nmpc的水下机器人路径跟踪与避障的控制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |