CN115826594A - 不依赖动态模型参数的无人潜航器切换拓扑编队控制方法 - Google Patents

不依赖动态模型参数的无人潜航器切换拓扑编队控制方法 Download PDF

Info

Publication number
CN115826594A
CN115826594A CN202310152588.1A CN202310152588A CN115826594A CN 115826594 A CN115826594 A CN 115826594A CN 202310152588 A CN202310152588 A CN 202310152588A CN 115826594 A CN115826594 A CN 115826594A
Authority
CN
China
Prior art keywords
formation
underwater vehicle
matrix
dynamic model
order
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310152588.1A
Other languages
English (en)
Other versions
CN115826594B (zh
Inventor
刘昊
吕金虎
鲁伟
高庆
刘德元
王振乾
钟森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Academy of Mathematics and Systems Science of CAS
Original Assignee
Beihang University
Academy of Mathematics and Systems Science of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University, Academy of Mathematics and Systems Science of CAS filed Critical Beihang University
Priority to CN202310152588.1A priority Critical patent/CN115826594B/zh
Publication of CN115826594A publication Critical patent/CN115826594A/zh
Application granted granted Critical
Publication of CN115826594B publication Critical patent/CN115826594B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T90/00Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation

Landscapes

  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种不依赖动态模型参数的无人潜航器切换拓扑编队控制方法,包括步骤:综合潜航器的位姿动力学特性、系统模型误差以及环境误差扰动信息,建立潜航器动力学模型;根据潜航器编队成员的相邻情况以及通信方向,建立基于图论的潜航器编队通信拓扑图;根据潜航器动力学模型以及编队成员间的信息流向构建分布式观测器;结合潜航器的位姿信息及分布式观测器,构造位姿控制器,求解位姿控制器的控制反馈输入量,得到不依赖动态参数的潜航器编队切换拓扑控制器。该方法利用强化学习算法基于数据进行参数辨识,可以不依赖系统动态模型参数实现编队控制;能够实现编队通信的变拓扑编队控制,有效提高潜航器成员间的信息利用率和任务容错率。

Description

不依赖动态模型参数的无人潜航器切换拓扑编队控制方法
技术领域
本发明涉及无人潜航器控制技术领域,具体涉及一种不依赖动态模型参数的无人潜航器切换拓扑编队控制方法。
背景技术
一般而言,编队决策与控制借助智能体间的局部交互实现多智能体的群体行为,从而解决全局性的任务。多智能体之间必须要有信息交互才能确保其在编队中相对位置的不变,从而保持一定的队形。
现有文献中,编队控制的研究方法包括跟随领航者法、基于行为法、人工势场法、虚拟结构法、一致性方法和基于图论法等。目前,上述研究方法已经逐步混合在一起,难以绝对区分开,导致研究方法设计复杂,且难以适应不同场景。
在潜航器个体的姿态稳定控制器方面,现有方法包括自适应调节算法、强化学习算法、Linear quadratic regulator (LQR)最优控制算法以及传统变分法等,其中主流算法均需要依赖被控对象的精确模型信息,而由于载荷不同,实际被控对象模型必然存在误差,因此难以保证控制的鲁棒性与有效性。
发明内容
鉴于现有无人潜航器编队控制需要依赖编队个体的精确动态模型参数,否则无法实现有效控制,本发明将强化学习应用到无人潜航器系统中,设计强化学习算法基于数据进行参数辨识,通过求取Hamilton-Jacobi-Bellman(HJB)方程实时求取出最优控制器,可以在不依赖系统动态模型参数的情况下实现编队控制,而且在编队通信方面,本发明实现了编队通信的变拓扑编队控制,使得无人系统在执行任务中切换信号传输通路成为可能,以提高潜航器之间的信息利用率和任务容错率。本发明采用以下技术方案:
一种不依赖动态模型参数的无人潜航器切换拓扑编队控制方法,包括以下步骤:
步骤S1,综合潜航器的位姿动力学特性、系统模型误差以及环境误差扰动信息,建立潜航器动力学模型;
步骤S2,根据潜航器编队成员的相邻情况以及通信方向,建立基于图论的潜航器编队通信拓扑图,用于表征潜航器编队成员间的信息流向;
步骤S3,根据潜航器动力学模型以及潜航器编队成员间的信息流向构建分布式观测器,将其搭载于各潜航器编队成员,采集潜航器的位姿信息;
步骤S4,结合潜航器的位姿信息及分布式观测器的结构设计,构造位姿控制器,基于强化学习算法求解位姿控制器的控制反馈输入量,得到不依赖动态参数的潜航器编队切换拓扑控制器。
进一步,所述步骤S1,所述潜航器动力学模型为:
Figure SMS_1
其中,
Figure SMS_3
为潜航器i的位置,
Figure SMS_7
为姿态角,
Figure SMS_12
为位置动力学模型矩阵,
Figure SMS_6
为姿态动力学模型矩阵,
Figure SMS_13
Figure SMS_4
为惯性矩阵,
Figure SMS_18
Figure SMS_9
为科氏项,
Figure SMS_17
,
Figure SMS_2
为水动力阻尼矩阵,
Figure SMS_14
Figure SMS_8
分别是作用在潜航器i上的广义力与力矩,
Figure SMS_15
Figure SMS_10
为扰动项,
Figure SMS_16
为线速度,
Figure SMS_5
为角速度,
Figure SMS_19
为线加速度,
Figure SMS_11
为角加速度。
进一步,所述步骤S2,所述基于图论的潜航器编队通信拓扑图为:
Figure SMS_20
其中,
Figure SMS_21
为潜航器编队的拉普拉斯矩阵;
Figure SMS_22
为入度矩阵,其矩阵元素为与编队成员相邻的其他成员数量;
Figure SMS_23
为加权邻接矩阵,其矩阵元素为与编队成员构成通信网络的其他成员信息,满足主对角线系数
Figure SMS_24
,以及当编队成员间存在通信时,矩阵系数
Figure SMS_25
ij
进一步,所述步骤S2,假设潜航器编队的编队中心为虚拟领导者,虚拟领导者以预设的轨迹航行,潜航器编队成员跟随虚拟领导者行进,虚拟领导者的动力学模型为:
Figure SMS_26
其中,
Figure SMS_27
为虚拟领导者的位置以及速度;
Figure SMS_28
为虚拟领导者的动力学矩阵;令c m,n 为第n行元素为1,其余全为0的m行的列向量,则
Figure SMS_29
Figure SMS_30
为虚拟领导者状态。
进一步,所述步骤S2,定义潜航器同虚拟领导者的通信关系矩阵为
Figure SMS_31
,具体展开如下:
Figure SMS_32
其中,
Figure SMS_33
为潜航器i在时刻
Figure SMS_34
与编队中心之间的连接因子,
Figure SMS_35
,且如果潜航器i能够从编队中心获取位置信息,则连接因子
Figure SMS_36
N为潜航器编队成员的数目。
进一步,所述步骤S3,所述分布式观测器为:
Figure SMS_37
其中,
Figure SMS_38
为潜航器i的位姿,
Figure SMS_39
为潜航器j的位姿,
Figure SMS_40
Figure SMS_41
分别为编队成员潜航器i和潜航器j、编队成员潜航器i和虚拟领导者的位置距离,
Figure SMS_42
是正比例因子,
Figure SMS_43
为潜航器在时刻
Figure SMS_44
的加权邻接矩阵系数。
进一步,所述步骤S4,所述位姿控制器为:
Figure SMS_45
其中,
Figure SMS_46
为控制输入量,
Figure SMS_47
是初值
Figure SMS_48
的连续函数;
Figure SMS_49
为潜航器状态向量。
进一步,所述步骤S4,基于强化学习算法求解HJB方程进而获得
Figure SMS_50
,其中HJB方程如下:
Figure SMS_51
其中,上标*表示最优解,
Figure SMS_53
为性能函数,
Figure SMS_59
为控制输入量,
Figure SMS_62
为等效扰动,
Figure SMS_55
为误差,
Figure SMS_57
Figure SMS_61
为对称矩阵,
Figure SMS_65
Figure SMS_52
为标称控制矩阵,
Figure SMS_56
为信息随时间的衰减系数,
Figure SMS_60
为正项常数,
Figure SMS_64
为标称误差矩阵,
Figure SMS_54
为标称动力学矩阵,
Figure SMS_58
为模型状态,
Figure SMS_63
为一个12行的列向量且第6行为1,
Figure SMS_66
为重力加速度。
进一步,所述强化学习算法的迭代方程如下:
Figure SMS_67
其中,
Figure SMS_68
为时间,
Figure SMS_69
为采样间隔,上标n表示步骤n,上标n+1表示步骤n+1,
Figure SMS_70
表示积分变量,
Figure SMS_71
为衰减系数,
Figure SMS_72
为衰减系数积分;
强化学习过程如下:
(1)初始化:在给定的位置动态等效扰动
Figure SMS_73
的影响下,对编队切换拓扑控制系统先给定一个包含探测噪声
Figure SMS_74
的控制输入量
Figure SMS_75
,并采集更新潜航器的状态数据、控制输入和等效扰动,并任意给定初始控制量
Figure SMS_76
以及等效扰动初始值
Figure SMS_77
(2)策略评估和策略更新:进行迭代,对于第n轮控制输入量
Figure SMS_79
以及第n轮等效扰动
Figure SMS_82
,将两者数值代入贝尔曼方程中,并同时求解第n轮性能函数
Figure SMS_84
、新的控制量
Figure SMS_80
以及等效扰动
Figure SMS_83
;如果新的控制量与等效扰动与上一步相等,即
Figure SMS_85
Figure SMS_86
,则停止算法运行,并返回新的控制量
Figure SMS_78
以及等效扰动
Figure SMS_81
,否则重复此步骤。
本发明与现有技术相比的有益效果在于:
(1)研究的对象为虚拟领导者存在有界输入的欠驱动的异构水下潜航器系统,其运动学模型为时变系统,系统信息的利用模式也随之创新,编队控制方法是在切换拓扑的情况下通过对系统输入输出的信息利用实现的,因此本发明将参数不确定性、非线性、切换拓扑同时考虑在内。
(2)提出了一种新型的不依赖动态模型参数的无人系统变拓扑编队控制方法,通过强化学习设计方案,完成了编队和姿态的全局闭环控制,基于分层控制方法和强化学习理论,提出了一种切换拓扑约束下的全分布式鲁棒编队切换拓扑控制器,且该控制器不依赖欠驱动潜航器的动态参数。
附图说明
图1为本发明实施例中应用的变拓扑编队控制示意图;
图2为本发明实施例中应用的潜航器编队的三维轨迹示意图;
图3a为本发明实施例中应用的潜航器编队的姿态角中滚转角随时间变化图;
图3b为本发明实施例中应用的潜航器编队的姿态角中俯仰角随时间变化图;
图3c为本发明实施例中应用的潜航器编队的姿态角中偏航角随时间变化图;
图4a为本发明实施例中应用的潜航器编队的X轴位置随时间变化图;
图4b为本发明实施例中应用的潜航器编队的Y轴位置随时间变化图;
图4c为本发明实施例中应用的潜航器编队的Z轴位置随时间变化图;
图5a为本发明实施例中应用的潜航器编队的X轴位置误差随时间变化图;
图5b为本发明实施例中应用的潜航器编队的Y轴位置误差随时间变化图;
图5c为本发明实施例中应用的潜航器编队的Z轴位置误差随时间变化图。
具体实施方式
下面结合附图和实施例对本发明进行进一步的详细介绍。
一种不依赖动态模型参数的无人潜航器切换拓扑编队控制方法,包括以下步骤:
步骤S1:潜航器编队建模:综合潜航器的位姿动力学特性、系统模型误差以及环境误差扰动信息,建立潜航器动力学模型;
考虑具有中性浮力的典型水下航行体及其浮力中心与重心重合的情况。
Figure SMS_89
是地球惯性坐标系,潜航器上的本体坐标系为
Figure SMS_90
,同时定义为以浮力中心为原点。
Figure SMS_92
表示潜航器i
Figure SMS_88
的位置,
Figure SMS_91
为姿态角。定义
Figure SMS_93
Figure SMS_94
分别为平动和转动速度,潜航器i
Figure SMS_87
中,由受力分析可知,其平动和转动上的动力学表示如下:
Figure SMS_95
其中
Figure SMS_96
是潜航器i的雅各比矩阵,满足:
Figure SMS_97
Figure SMS_98
其中,
Figure SMS_99
为滚转角,
Figure SMS_100
为俯仰角,
Figure SMS_101
为偏航角;
假定
Figure SMS_102
都可逆, 潜航器i的动力学方程为
Figure SMS_103
其中
Figure SMS_109
Figure SMS_106
为惯性矩阵,
Figure SMS_114
Figure SMS_110
为科氏项,
Figure SMS_119
Figure SMS_112
为水动力阻尼矩阵,
Figure SMS_116
Figure SMS_107
为作用在潜航器i上的广义力与力矩。
Figure SMS_117
为线速度,
Figure SMS_104
为角速度,
Figure SMS_113
为线加速度,
Figure SMS_108
为角加速度。
Figure SMS_115
,
Figure SMS_111
,
Figure SMS_118
,
Figure SMS_105
为正定矩阵且满足:
Figure SMS_120
其中
Figure SMS_122
为潜航器质量,
Figure SMS_126
,
Figure SMS_131
,
Figure SMS_124
为水下潜航器的转动惯量,
Figure SMS_125
,
Figure SMS_129
,
Figure SMS_132
为流体动力学加速度项参数,
Figure SMS_121
,
Figure SMS_128
,
Figure SMS_130
为流体动力学速度项参数,
Figure SMS_133
,
Figure SMS_123
,
Figure SMS_127
为流体动力学角速度项参数。
Figure SMS_134
包括向心和科里奥利项
Figure SMS_135
以及水动力附加项
Figure SMS_136
,且满足下式:
Figure SMS_137
Figure SMS_138
包括向心和科里奥利项
Figure SMS_139
以及水动力附加项
Figure SMS_140
,且满足下式:
Figure SMS_141
其中
Figure SMS_142
,
Figure SMS_143
,
Figure SMS_144
为流体动力学角加速度项参数。
可以看出,潜航器动力学涉及6个自由度(3个平移自由度和3个转动自由度),平移运动和转动运动之间具有高度非线性和耦合动力学。综上,潜航器动力学模型如下:
Figure SMS_145
其中
Figure SMS_146
Figure SMS_147
为扰动项。
步骤S2:建立基于图论的潜航器编队通信拓扑图,用于表征编队成员间的信息流向,其中,图论保证信息可以传达到编队每个成员,通讯拓扑图表征编队内部信息流向的方案设计;
所述基于图论的潜航器编队通信拓扑图为:
Figure SMS_148
其中,
Figure SMS_149
为潜航器编队的拉普拉斯矩阵;
Figure SMS_150
为入度矩阵,矩阵元素为与编队成员相邻的其他成员数量;
Figure SMS_151
为加权邻接矩阵,矩阵元素为与编队成员构成通信网络的其他成员信息,满足主对角线系数
Figure SMS_152
,以及当编队成员间存在通信时,矩阵系数
Figure SMS_153
ij)。令集合
Figure SMS_154
描述潜航器的邻居集合。
为了更为直观简洁的表达编队个体的相邻情况以及实时通信方向,假设存在编队中心,即虚拟领导者,将被跟踪的目标生成轨迹视为虚拟领导者行进轨迹,提供要跟踪的参考信号,该虚拟领导者以该轨迹航行,潜航器编队成员跟随虚拟领导者行进。在编队航行过程中,每架潜航器需要与虚拟领导者(编队中心)保持预定距离,并按照预定的轨迹航行。
虚拟领导者的动力学模型可表示如下:
Figure SMS_155
其中,
Figure SMS_156
为虚拟领导者的位置以及速度;
Figure SMS_157
为虚拟领导者的动力学矩阵;令c m,n 为第n行元素为1,其余全为0的m行的列向量,则
Figure SMS_158
;外部观测器可以观测的虚拟领导者状态为
Figure SMS_159
此时,定义潜航器同虚拟领导者的通信关系矩阵为
Figure SMS_160
,将在
Figure SMS_161
时刻的拉普拉斯矩阵
Figure SMS_162
与矩阵
Figure SMS_163
具体展开如下:
Figure SMS_164
其中,N为潜航器编队成员的数目;
Figure SMS_169
为表示通信的常数;
Figure SMS_168
为潜航器i在时刻
Figure SMS_178
与编队中心之间的连接因子。同时,容易得到拉普拉斯矩阵
Figure SMS_166
中元素
Figure SMS_176
存在以下关系:
Figure SMS_174
Figure SMS_182
以及
Figure SMS_173
。由上述关系可以得到
Figure SMS_179
。同时,由矩阵
Figure SMS_165
定义可知
Figure SMS_175
,且如果第i架潜航器能够从编队中心获取位置信息,则连接因子
Figure SMS_171
,在此假设矩阵
Figure SMS_183
中的元素
Figure SMS_170
。因此由拉普拉斯矩阵
Figure SMS_180
与矩阵
Figure SMS_167
中元素特性可得
Figure SMS_177
,且当
Figure SMS_172
时,
Figure SMS_181
步骤S3:分布式观测器设计:考虑来自其他编队成员的输入信息以及自身在外界干扰下的输出信息,根据潜航器动力学方程以及无人潜航器编队成员间的信息流向构建分布式观测器,用于采集外界环境作用下的潜航器位姿信息,包括位置、速度、姿态角以及姿态角速度信息;
分布式观测器如下设计:
Figure SMS_184
其中,
Figure SMS_187
为潜航器i的位姿(包括位置、速度、姿态角、姿态角速度),下标p0为虚拟领导者,下标pi为编队成员,
Figure SMS_188
Figure SMS_191
分别为编队成员潜航器i和潜航器j、编队成员潜航器i和虚拟领导者的位置距离,
Figure SMS_186
是一个正比例因子,
Figure SMS_190
为潜航器在时刻
Figure SMS_192
的加权邻接矩阵系数;此处即为通信拓扑图于编队位姿控制中的应用,通过来自其他成员的位置反馈来修正自身位姿。
Figure SMS_194
为潜航器i在时刻
Figure SMS_185
与编队中心之间的连接因子,当潜航器i能够从潜航器编队中心那里获取位置信息时,则连接因子
Figure SMS_189
,否则
Figure SMS_193
Figure SMS_195
,表征编队成员同虚拟领导者之间通信的关系矩阵,N为编队成员的数目。
由于观测器设计存在虚拟领导者的动态信息,因此每个分布式观测器都需要动力学矩阵
Figure SMS_196
的先验知识,由于前文所言,现实环境中存在的安装误差等因素导致
Figure SMS_197
的先验知识不可能精确获得,因此通过使用神经网络来近似估计虚拟领导者的动力学矩阵
Figure SMS_198
可以放宽此要求,由此可保证分布式观测器不利用编队的动态信息。定义第i架潜航器分布式观测器的估计误差用于评价控制误差收敛性效果,如下式所示:
Figure SMS_199
步骤S4:位姿控制器以及强化学习算法设计:设计基于强化学习方法的位姿控制器,用于求解控制输入量
Figure SMS_200
,从而保证控制器的模型精准性。
结合潜航器i的位姿信息以及其分布式观测器的结构设计,构造位姿控制器如下:
Figure SMS_201
其中,
Figure SMS_203
为潜航器i的位姿,
Figure SMS_205
为潜航器i与潜航器j的位置距离,
Figure SMS_207
为初值
Figure SMS_204
的连续函数,
Figure SMS_206
为控制输入量,分量表示为
Figure SMS_208
Figure SMS_209
,两个分量是作用在潜航器i上的广义力与力矩,
Figure SMS_202
为潜航器状态向量。
为了设计位姿控制器来抑制位置动态上的等效扰动
Figure SMS_210
的影响,将扰动衰减条件定义为下式:
Figure SMS_211
其中,参数
Figure SMS_214
表示一个正的常数,矩阵
Figure SMS_217
,矩阵
Figure SMS_219
以及参数
Figure SMS_213
Figure SMS_216
为控制误差,
Figure SMS_218
为控制输入量,
Figure SMS_220
为正项常数。由此,位置动态上的等效扰动
Figure SMS_212
对位置跟踪性能的影响至少可被衰减至
Figure SMS_215
的程度。
为衡量控制效果,将性能函数定义如下:
Figure SMS_221
其中
Figure SMS_222
是满足
Figure SMS_223
的激励函数。该问题可以视为性能函数为
Figure SMS_224
的零和博弈问题,其中控制输入
Figure SMS_225
可视为最小化玩家,目的是使得
Figure SMS_226
尽可能小,而等效扰动
Figure SMS_227
可视为最大化玩家,目的是使得
Figure SMS_228
尽可能大。
另外,在激励函数中的正的折扣因子
Figure SMS_229
表示累积激励对当前的激励函数有显着贡献,而对未来激励函数的贡献可能被减弱。等式两边同时对时间进行微分可得:
Figure SMS_230
其中,
Figure SMS_232
。令
Figure SMS_234
为最优性能函数。最优性能函数
Figure SMS_236
满足
Figure SMS_233
。由平稳性条件可知,当激励函数导数的偏导
Figure SMS_235
以及
Figure SMS_237
时,可以获得最优的位置控制输入
Figure SMS_238
和等效扰动
Figure SMS_231
如下所示:
Figure SMS_239
其中,
Figure SMS_240
是下列HJB方程的解:
Figure SMS_241
其中,上标*表示最优解,
Figure SMS_243
为性能函数,
Figure SMS_247
为控制输入量,
Figure SMS_251
为等效扰动,
Figure SMS_244
为误差,
Figure SMS_248
Figure SMS_252
为对称矩阵,
Figure SMS_255
Figure SMS_242
为标称控制矩阵,
Figure SMS_246
为信息随时间的衰减系数,
Figure SMS_250
为正项常数,
Figure SMS_254
为标称误差矩阵,
Figure SMS_245
为标称动力学矩阵,
Figure SMS_249
为模型状态,
Figure SMS_253
为一个12行的列向量且第6行为1,
Figure SMS_256
为重力加速度,上标T表示矩阵的转置。以上标称方程的求解依赖大量动态参数,但由于在具体实际应用中,准确的动态参数是很难获得的。因此,针对在欠驱动、高度非线性、切换拓扑、扰动共同影响下的未知动态编队切换拓扑控制系统,需要设计一种不依赖动态参数的编队切换拓扑控制器。
将上述公式结合后进性能函数后,乘以
Figure SMS_257
,然后两边进行积分得出强化学习的迭代方程如下:
Figure SMS_258
其中,
Figure SMS_259
为时间,
Figure SMS_260
为采样间隔,上标n表示步骤n,上标n+1表示步骤n+1,
Figure SMS_261
表示积分变量,
Figure SMS_262
为衰减系数,
Figure SMS_263
为衰减系数积分;
此迭代方程可以实现HJB方程的迭代求解,基于该迭代方程可以设计在模型参数未知情况下的基于强化学习的编队切换拓扑控制算法,具体如下:
(1)初始化:在给定的位置动态等效扰动
Figure SMS_264
的影响下,对编队切换拓扑控制系统先给定一个包含探测噪声
Figure SMS_265
的控制输入量
Figure SMS_266
,并采集更新潜航器的状态数据、控制输入和等效扰动。并任意给定初始控制量
Figure SMS_267
以及等效扰动初始值
Figure SMS_268
(2)策略评估和策略更新:进行迭代,对于第n轮控制输入量
Figure SMS_271
以及第n轮等效扰动
Figure SMS_274
,将两者数值代入贝尔曼方程中,并同时求解第n轮性能函数
Figure SMS_276
、新的控制量
Figure SMS_270
以及等效扰动
Figure SMS_273
。如果新的控制量与等效扰动与上一步相等,即
Figure SMS_275
Figure SMS_277
,则停止算法运行,并返回新的控制量
Figure SMS_269
以及等效扰动
Figure SMS_272
,否则重复此步骤。
下面通过一个具体的实施例对本发明提供的上述不依赖动态模型参数的无人潜航器切换拓扑编队控制方法的具体实施进行详细说明。
实施例一
对5个水下无人潜航器进行仿真试验,以验证所开发控制器的有效性,设系统内各编号为
Figure SMS_283
的水下无人潜航器的非线性模型已被详细介绍,水下无人潜航器i的质量和惯性参数被设为:
Figure SMS_281
,
Figure SMS_288
,
Figure SMS_285
,
Figure SMS_292
, 水动力参数为
Figure SMS_282
,
Figure SMS_294
,
Figure SMS_280
,
Figure SMS_293
,
Figure SMS_278
,
Figure SMS_287
,
Figure SMS_284
,
Figure SMS_291
,
Figure SMS_286
,
Figure SMS_290
,
Figure SMS_279
, 以及
Figure SMS_289
水下无人潜航器团队的编队中心假定事先给出,表示为
Figure SMS_297
,要求潜航器姿态基准稳定在0。同时,潜航器需要保持五边形与期望的偏差:
Figure SMS_302
,
Figure SMS_306
,
Figure SMS_298
,
Figure SMS_300
,
Figure SMS_304
。五个潜航器之间的通信用具有顶点集的有向图来描述
Figure SMS_307
和邻接矩阵
Figure SMS_295
。切换拓扑设定为1s末,2s末,3s末进行切换。强化学习算法的参数设置为:
Figure SMS_301
Figure SMS_305
Figure SMS_308
Figure SMS_296
Figure SMS_299
Figure SMS_303
。初始状态设定:
Figure SMS_309
加权邻接矩阵
Figure SMS_310
设置为:
Figure SMS_311
其中:
Figure SMS_312
Figure SMS_313
Figure SMS_314
参见附图,其中图1表示拓扑变换前后的编队内信息流方向,图2-5是采用本发明给出的控制器进行编队控制所得的结果,其中,图2为潜航器编队的三维轨迹示意图,可见编队成员成功跟踪领导者,中途信息出现拓扑变换也保持一个相对稳定的队形;图3a-图3c为潜航器编队的姿态角随时间变化图,可见姿态角收敛,不会发散,因此姿态控制成功;图4a-图4c为潜航器编队的位置随时间变化图,可以看出跟踪没有波动,稳定后相对位置保持不变;图5a-图5c为潜航器编队的位置误差随时间变化图,可以看到位置误差收敛到0,因此跟踪成功。
以上所述仅为本发明的具体实施方式,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种不依赖动态模型参数的无人潜航器切换拓扑编队控制方法,其特征在于,包括以下步骤:
步骤S1,综合潜航器的位姿动力学特性、系统模型误差以及环境误差扰动信息,建立潜航器动力学模型;
步骤S2,根据潜航器编队成员的相邻情况以及通信方向,建立基于图论的潜航器编队通信拓扑图,用于表征潜航器编队成员间的信息流向;
步骤S3,根据潜航器动力学模型以及潜航器编队成员间的信息流向构建分布式观测器,将其搭载于各潜航器编队成员,采集潜航器的位姿信息;
步骤S4,结合潜航器的位姿信息及分布式观测器的结构设计,构造位姿控制器,基于强化学习算法求解位姿控制器的控制反馈输入量,得到不依赖动态参数的潜航器编队切换拓扑控制器。
2.根据权利要求1所述的不依赖动态模型参数的无人潜航器切换拓扑编队控制方法,其特征在于,所述步骤S1,所述潜航器动力学模型为:
Figure QLYQS_1
其中,
Figure QLYQS_10
为潜航器i的位置,
Figure QLYQS_7
为姿态角,
Figure QLYQS_15
为位置动力学模型矩阵,
Figure QLYQS_6
为姿态动力学模型矩阵,
Figure QLYQS_17
Figure QLYQS_11
为惯性矩阵,
Figure QLYQS_16
Figure QLYQS_9
为科氏项,
Figure QLYQS_13
,
Figure QLYQS_2
为水动力阻尼矩阵,
Figure QLYQS_12
Figure QLYQS_5
分别是作用在潜航器i上的广义力与力矩,
Figure QLYQS_19
Figure QLYQS_8
为扰动项,
Figure QLYQS_18
为线速度,
Figure QLYQS_4
为角速度,
Figure QLYQS_14
为线加速度,
Figure QLYQS_3
为角加速度。
3.根据权利要求2所述的不依赖动态模型参数的无人潜航器切换拓扑编队控制方法,其特征在于,所述步骤S2,所述基于图论的潜航器编队通信拓扑图为:
Figure QLYQS_20
其中,
Figure QLYQS_21
为潜航器编队的拉普拉斯矩阵;
Figure QLYQS_22
为入度矩阵,其矩阵元素为与编队成员相邻的其他成员数量;
Figure QLYQS_23
为加权邻接矩阵,其矩阵元素为与编队成员构成通信网络的其他成员信息,满足主对角线系数
Figure QLYQS_24
,以及当编队成员间存在通信时,矩阵系数
Figure QLYQS_25
ij
4.根据权利要求3所述的不依赖动态模型参数的无人潜航器切换拓扑编队控制方法,其特征在于,所述步骤S2,假设潜航器编队的编队中心为虚拟领导者,虚拟领导者以预设的轨迹航行,潜航器编队成员跟随虚拟领导者行进,虚拟领导者的动力学模型为:
Figure QLYQS_26
其中,
Figure QLYQS_27
为虚拟领导者的位置以及速度;
Figure QLYQS_28
为虚拟领导者的动力学矩阵;令c m,n 为第n行元素为1,其余全为0的m行的列向量,则
Figure QLYQS_29
Figure QLYQS_30
为虚拟领导者状态。
5.根据权利要求4所述的不依赖动态模型参数的无人潜航器切换拓扑编队控制方法,其特征在于,所述步骤S2,定义潜航器同虚拟领导者的通信关系矩阵为
Figure QLYQS_31
,具体展开如下:
Figure QLYQS_32
其中,
Figure QLYQS_33
为潜航器i在时刻
Figure QLYQS_34
与编队中心之间的连接因子,
Figure QLYQS_35
,且如果潜航器i能够从编队中心获取位置信息,则连接因子
Figure QLYQS_36
N为潜航器编队成员的数目。
6.根据权利要求5所述的不依赖动态模型参数的无人潜航器切换拓扑编队控制方法,其特征在于,所述步骤S3,所述分布式观测器为:
Figure QLYQS_37
其中,
Figure QLYQS_38
为潜航器i的位姿,
Figure QLYQS_39
为潜航器j的位姿,
Figure QLYQS_40
Figure QLYQS_41
分别为编队成员潜航器i和潜航器j、编队成员潜航器i和虚拟领导者的位置距离,
Figure QLYQS_42
是正比例因子,
Figure QLYQS_43
为潜航器在时刻
Figure QLYQS_44
的加权邻接矩阵系数。
7.根据权利要求6所述的不依赖动态模型参数的无人潜航器切换拓扑编队控制方法,其特征在于,所述步骤S4,所述位姿控制器为:
Figure QLYQS_45
其中,
Figure QLYQS_46
为控制输入量,
Figure QLYQS_47
是初值
Figure QLYQS_48
的连续函数;
Figure QLYQS_49
为潜航器状态向量。
8.根据权利要求7所述的不依赖动态模型参数的无人潜航器切换拓扑编队控制方法,其特征在于,所述步骤S4,基于强化学习算法求解HJB方程进而获得
Figure QLYQS_50
,其中HJB方程如下:
Figure QLYQS_51
其中,上标*表示最优解,
Figure QLYQS_54
为性能函数,
Figure QLYQS_59
为控制输入量,
Figure QLYQS_63
为等效扰动,
Figure QLYQS_55
为误差,
Figure QLYQS_58
Figure QLYQS_62
为对称矩阵,
Figure QLYQS_66
Figure QLYQS_52
为标称控制矩阵,
Figure QLYQS_56
为信息随时间的衰减系数,
Figure QLYQS_60
为正项常数,
Figure QLYQS_64
为标称误差矩阵,
Figure QLYQS_53
为标称动力学矩阵,
Figure QLYQS_57
为模型状态,
Figure QLYQS_61
为一个12行的列向量且第6行为1,
Figure QLYQS_65
为重力加速度。
9.根据权利要求8所述的不依赖动态模型参数的无人潜航器切换拓扑编队控制方法,其特征在于,所述强化学习算法的迭代方程如下:
Figure QLYQS_67
其中,
Figure QLYQS_68
为时间,
Figure QLYQS_69
为采样间隔,上标n表示步骤n,上标n+1表示步骤n+1,
Figure QLYQS_70
表示积分变量,
Figure QLYQS_71
为衰减系数,
Figure QLYQS_72
为衰减系数积分;
强化学习过程如下:
(1)初始化:在给定的位置动态等效扰动
Figure QLYQS_73
的影响下,对编队切换拓扑控制系统先给定一个包含探测噪声
Figure QLYQS_74
的控制输入量
Figure QLYQS_75
,并采集更新潜航器的状态数据、控制输入和等效扰动,并任意给定初始控制量
Figure QLYQS_76
以及等效扰动初始值
Figure QLYQS_77
(2)策略评估和策略更新:进行迭代,对于第n轮控制输入量
Figure QLYQS_80
以及第n轮等效扰动
Figure QLYQS_82
,将两者数值代入贝尔曼方程中,并同时求解第n轮性能函数
Figure QLYQS_84
、新的控制量
Figure QLYQS_79
以及等效扰动
Figure QLYQS_83
;如果新的控制量与等效扰动与上一步相等,即
Figure QLYQS_85
Figure QLYQS_86
,则停止算法运行,并返回新的控制量
Figure QLYQS_78
以及等效扰动
Figure QLYQS_81
,否则重复此步骤。
CN202310152588.1A 2023-02-23 2023-02-23 不依赖动态模型参数的无人潜航器切换拓扑编队控制方法 Active CN115826594B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310152588.1A CN115826594B (zh) 2023-02-23 2023-02-23 不依赖动态模型参数的无人潜航器切换拓扑编队控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310152588.1A CN115826594B (zh) 2023-02-23 2023-02-23 不依赖动态模型参数的无人潜航器切换拓扑编队控制方法

Publications (2)

Publication Number Publication Date
CN115826594A true CN115826594A (zh) 2023-03-21
CN115826594B CN115826594B (zh) 2023-05-30

Family

ID=85522128

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310152588.1A Active CN115826594B (zh) 2023-02-23 2023-02-23 不依赖动态模型参数的无人潜航器切换拓扑编队控制方法

Country Status (1)

Country Link
CN (1) CN115826594B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116360504A (zh) * 2023-05-31 2023-06-30 北京航空航天大学 无人机集群任务的确定方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108803321A (zh) * 2018-05-30 2018-11-13 清华大学 基于深度强化学习的自主水下航行器轨迹跟踪控制方法
CN108958294A (zh) * 2018-09-25 2018-12-07 北京航空航天大学 无人水下潜航器编队控制方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108803321A (zh) * 2018-05-30 2018-11-13 清华大学 基于深度强化学习的自主水下航行器轨迹跟踪控制方法
CN108958294A (zh) * 2018-09-25 2018-12-07 北京航空航天大学 无人水下潜航器编队控制方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
GUANGCANG WANG等: "Reinforcement learning-based tracking control for AUVs subject to disturbances" *
HAO LIU等: "Optimal Formation Control for A Quadrotor Team under Switching Topologies via Reinforcement Learning" *
HAO LIU等: "Robust Distributed Formation Controller Design for a Group of Unmanned Underwater Vehicles" *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116360504A (zh) * 2023-05-31 2023-06-30 北京航空航天大学 无人机集群任务的确定方法、装置、电子设备及存储介质
CN116360504B (zh) * 2023-05-31 2023-10-27 北京航空航天大学 无人机集群任务的确定方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN115826594B (zh) 2023-05-30

Similar Documents

Publication Publication Date Title
CN107168312B (zh) 一种补偿uuv运动学和动力学干扰的空间轨迹跟踪控制方法
Dierks et al. Output feedback control of a quadrotor UAV using neural networks
Tognon et al. Dynamics, control, and estimation for aerial robots tethered by cables or bars
Fossen et al. Kalman filtering for positioning and heading control of ships and offshore rigs
Do et al. Underactuated ships follow smooth paths with integral actions and without velocity measurements for feedback: theory and experiments
CN104898688B (zh) Uuv四自由度动力定位自适应抗扰滑模控制系统及控制方法
Yan et al. Consensus formation tracking for multiple AUV systems using distributed bioinspired sliding mode control
CN109634307A (zh) 一种无人水下航行器复合航迹跟踪控制方法
CN105929842A (zh) 一种基于动态速度调节的欠驱动uuv平面轨迹跟踪控制方法
CN109407671B (zh) 一种欠驱动无人船目标包围控制器结构及设计方法
CN111880409A (zh) 一种基于数据驱动的自主水下航行器轨迹跟踪控制方法
CN113670314B (zh) 基于pi自适应两级卡尔曼滤波的无人机姿态估计方法
CN114115262B (zh) 基于方位角信息的多auv执行器饱和协同编队控制系统和方法
CN115826594A (zh) 不依赖动态模型参数的无人潜航器切换拓扑编队控制方法
Mahapatra et al. Nonlinear matrix inequality approach based heading control for an autonomous underwater vehicle with experimental realization
Wang et al. Adaptive vector field guidance without a priori knowledge of course dynamics and wind
CN114967714A (zh) 一种自主式水下机器人抗扰运动控制方法及系统
Jarin-Lipschitz et al. Robust, perception based control with quadrotors
Zhang et al. AUV 3D docking control using deep reinforcement learning
CN116088311A (zh) 基于自适应神经网络扩张状态观测器的无人直升机二阶不确定滑模控制方法
Heo et al. A localization system of mobile robots using artificial landmarks
Sola et al. Evaluation of a deep-reinforcement-learning-based controller for the control of an autonomous underwater vehicle
CN116859981B (zh) 一种运载火箭姿态控制方法、装置及计算设备
Mughees et al. Conditioned adaptive barrier-based double integral super twisting SMC for trajectory tracking of a quadcopter and hardware in loop using IGWO algorithm
CN113985898B (zh) 一种欠驱动海洋航行器的非线性路径跟踪控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant