CN114721409B - 一种基于强化学习的水下航行器对接控制方法 - Google Patents
一种基于强化学习的水下航行器对接控制方法 Download PDFInfo
- Publication number
- CN114721409B CN114721409B CN202210638552.XA CN202210638552A CN114721409B CN 114721409 B CN114721409 B CN 114721409B CN 202210638552 A CN202210638552 A CN 202210638552A CN 114721409 B CN114721409 B CN 114721409B
- Authority
- CN
- China
- Prior art keywords
- underwater vehicle
- aircraft
- network
- docking
- coordinate system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003032 molecular docking Methods 0.000 title claims abstract description 102
- 238000000034 method Methods 0.000 title claims abstract description 62
- 230000002787 reinforcement Effects 0.000 title claims abstract description 32
- 238000012549 training Methods 0.000 claims abstract description 53
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 29
- 230000007246 mechanism Effects 0.000 claims abstract description 24
- 238000004088 simulation Methods 0.000 claims abstract description 14
- 230000006870 function Effects 0.000 claims description 63
- 239000000126 substance Substances 0.000 claims description 43
- 239000003795 chemical substances by application Substances 0.000 claims description 36
- 230000001133 acceleration Effects 0.000 claims description 30
- 230000009471 action Effects 0.000 claims description 23
- 230000005484 gravity Effects 0.000 claims description 19
- 210000002569 neuron Anatomy 0.000 claims description 19
- 230000003044 adaptive effect Effects 0.000 claims description 13
- 238000013528 artificial neural network Methods 0.000 claims description 11
- 238000005096 rolling process Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 230000009467 reduction Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000007613 environmental effect Effects 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 4
- 230000006399 behavior Effects 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 230000010354 integration Effects 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000003287 optical effect Effects 0.000 claims description 3
- 230000010363 phase shift Effects 0.000 claims description 3
- 239000013535 sea water Substances 0.000 claims description 3
- 238000001228 spectrum Methods 0.000 claims description 3
- 230000000087 stabilizing effect Effects 0.000 claims description 3
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims 2
- 238000002474 experimental method Methods 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 13
- 238000005457 optimization Methods 0.000 description 10
- 238000009795 derivation Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 241001229889 Metis Species 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000004069 differentiation Effects 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 101150064138 MAP1 gene Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 101150077939 mapA gene Proteins 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005312 nonlinear dynamic Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000012876 topography Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/04—Control of altitude or depth
- G05D1/06—Rate of change of altitude or depth
- G05D1/0692—Rate of change of altitude or depth specially adapted for under-water vehicles
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T90/00—Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
- Feedback Control In General (AREA)
Abstract
本发明涉及一种基于强化学习的水下航行器对接控制方法,属于海洋控制实验技术领域,本发明基于深度强化学习中的PPO算法框架,引入新旧策略更新的可靠边界,提升智能体学习的稳定性。同时,采用自适应回滚裁剪机制,根据收集到成功完成任务经验的情况自适应地调节回滚力度,从而调节新旧策略更新的上下限,从而鼓励智能体在训练初期进行探索,在训练后期稳定收敛。在仿真训练方面,本发明构建了考虑海流、海浪干扰的对接训练环境,使用此训练环境进行智能体的学习,大大提升了水下航行器的抗干扰能力。
Description
技术领域
本发明涉及一种基于强化学习的水下航行器对接控制方法,属于海洋控制实验技术领域。
背景技术
水下航行器作为特殊的海洋调查设备,已经被大量应用于海底地形测绘、海洋资源勘探、沉船古迹调查、油气管道维护、生命科学监测等诸多海洋工程领域,是人类探索海洋、利用海洋过程中不可或缺的手段。然而,由于要保证水下航行器自身的灵活性并还要携带相应设备,其自身携带的有限能源限制了其长期巡航的能力,定期补充能源是不可避免的。为了避免水下航行器依赖水面舰艇进行能源补充,使其具有全自动的长期运行能力,诸如中国专利文件CN201120224621.X等设计了自主水下航行器对接站作为其能量补充的必要装置。而真实的海洋环境中存在复杂的海流干扰和波浪干扰,发明一种水下航行器抗干扰、高鲁棒性的智能对接控制算法是十分必要的。
成功的对接控制需要航行器在波浪或海流的干扰下,按照智能的策略高成功率地引导、导航和控制自身进入对接站,整个过程如图1所示。但是,到目前为止,对于水下航行器智能对接控制仍然有很多困难点。传统的例如比例积分微分(PID)控制器等线性控制器,对于水下航行器这类具有复杂非线性动力学特性的系统,难以取得良好的控制性能。即便使用现有的非线性控制器,在实际的任务环境中水下航行器动态模型及任务环境模型都难以精确获取,所以也难以获得良好的控制效果。此外,复杂多变的洋流及存在于海面的海浪都会对水下航行器的对接过程带来干扰。所以需要一种可以不依赖于模型且能够进行自学习的智能控制算法来解决上述问题。
机器学习技术近些年的快速发展给水下航行器智能化控制带来更多可能。深度强化学习(DeepReinforcement Learning, DRL)作为一种可以解决无模型马尔可夫决策过程(Markov decision process, MDP)问题的算法框架,能够构建一个与海底任务环境不断交互的水下航行器智能体。基于DRL原理的控制器可以在无环境模型的情况下通过获取来自任务环境反馈的惩罚或奖励,最大化累积折损奖励来最终寻找到完成任务目标的最优策略,如图2所示。
然而,现有深度强化学习的算法存在着一些显著的缺陷,基于Q-学习的算法不适用于诸如水下航习器这类有着连续动作空间的控制对象。传统基于策略梯度的算法不能有效利用从环境中采集的数据,导致收敛速度过慢。在这些深度强化学习算法中,PPO(Proximal Policy Optimization,近端策略优化)算法很好地平衡了数据的利用和环境的探索,非常适合处理高维状态及动作空间中的控制问题。PPO在更新中使用的新旧策略概率之比作为更新裁剪的参考,这实际上不能很好地保持在预先给定的裁剪范围内,这将导致不适当的策略更新幅度,而回滚裁剪机制有助于提高学习能力。而其提出的回滚裁剪机制引入了新的超参数来调节回滚力度,此影响策略更新的超参数依然要凭借人工经验进行设定,这是很不具备普适性的。于是在本发明中,我们提出了一种基于训练进度的自适应回滚裁剪机制,在不设置新的超参数的前提下改进了PPO的策略更新,并基于此机制设计了基于深度强化学习算法的水下航行器对接控制方法。
发明内容
针对现有技术的不足,为了解决水下航行器对接控制问题,本发明基于深度强化学习中的PPO算法框架,提出一种基于自适应可靠边界回滚裁剪强化学习的水下航行器对接控制方法。本方法特点主要在于:1.引入新旧策略更新的可靠边界,提升智能体学习的稳定性。2. 采用自适应回滚裁剪机制,根据收集到成功完成任务经验的情况自适应地调节回滚力度,从而调节新旧策略更新的上下限,从而鼓励智能体在训练初期进行探索,在训练后期稳定收敛。
在仿真训练方面,本发明构建了考虑海流、海浪干扰的对接训练环境,使用此训练环境进行智能体的学习,大大提升了水下航行器的抗干扰能力。
本发明的技术方案如下:
一种基于自适应裁剪强化学习技术的水下航行器对接控制方法,包括步骤如下:
步骤1、定义任务环境及模型
1-1、构建水下航行器所在的任务环境及水下航行器动力学模型;
水下航行器包括三个执行机构,分别为艉部推进器、艉部水平舵以及艉部垂直舵;
通过在仿真中基于牛顿-欧拉运动方程推导,对水下航行器进行六自由度的动力
学建模,包括,在坐标系下对水下航行器坐标及姿态角进行描
述,使用固定在水下航行器上随水下航行器运动的、以其重心为原点的坐标系,
描述水下航行器的线速度及角速度,以完整描述水下航行器的运动
状态;其中,为固定坐标系下的三维坐标值;为固定坐标系绕三个坐标轴旋转的姿态角角度:艏向角、横滚角以及俯仰角,为
水下航行器在坐标系下沿三个坐标轴运动的线速度值,为坐标
系下绕三个坐标轴旋转的角速度,如图3所示;根据构建好的水下航行器动力学模型,已知时刻水下航行器的运动状态,由水下航行器艉部推进器输出力的大小及艉部水平舵、艉
部垂直舵的舵角偏转值,经四阶龙格库塔法解算微分方程可以得到时刻的运动状态;
四阶龙格库塔法解算微分方程示例说明如下:
为了使用基于强化学习的控制算法,所构建的任务环境需要定义明确任务环境给与水下航行器智能体的奖励函数以及水下航行器对任务环境观察量。
为了几何化地描述水下航行器的对接控制问题,将三维运动投影到穿过锥体对接
站中心轴的平面上,在这个投影平面上,原本三维的锥体对接站的入口形成入口三角形区
域PAB,优选的,以过中轴线的截面三角入口三角形区域PAB为正三角形,边长AB设定为1.2
米;是入口AB的半径;成功对接的基本要求是:当航行器头部到达AB时,小于;
由于锥形入口具有辅助导向作用,因此要求小于;考虑安全裕度,成功对接的最终
约束写为:
1-2、定义奖励函数
根据航行器对接控制任务的设定,构建如下奖励分量:
首先,根据水下航行器接近目标的行为进行奖励,设定该奖励分量为每一个仿真时间步长水下航行器到对接站终点距离的减小值,具体如式(1-3)至式(1-6):
其中,与表示水下航行器接近对接站终点及对接站中轴线的步进奖励,表示上一时刻水下航行器与终点的距离,表示当前时刻水下航行器与终点
的距离,表示上一时刻水下航行器与中轴线的距离,表示当前时刻水下航
行器与中轴线的距离;与均是带容差的惩罚函数,是权重,是容差,、是一个小于1的正常数,用于调整惩罚项;是航行器重心
到对接站坐标距离的次幂,设定此量来为智能体提供惩罚信息,是航行器重心到
对接站中轴线距离的次幂,设定此量来为智能体提供惩罚信息;
综合起来,奖励函数被设定为:
1-3、定义状态空间S
在本发明所构建的水下航行器仿真环境中,状态空间由水下航行器对环境的几个
观察分量构成,即状态空间可相应定义为,n为观察分量的
数量,其中包括:如图4所示,在每个时刻,以航行器重心到对接站的距离、航行器重心
到对接站中心轴的距离、航行器和最终期望姿态之间的角度,以及到终点P的导
航角作为观测值;最终,确定构成航行器智能体对环境的观察的形式为:
各个观察分量被加载到神经网络之前均进行了最大最小值归一化处理,具体的计算方式为:
1-4、定义动作空间
本发明所提出的水下航行器智能控制算法可以使用于各类型水下航行器,在后续
的举例仿真中,使用了一个运动在三维空间下、具有六个自由度,有三个执行机构的欠驱动
水下航行器。水下航行器的三个执行机构分别为艉部推进器、艉部水平舵以及艉部垂直舵;
本发明所提出的控制算法通过建立从水下航行器的各观察量到控制推进器输出力的大小、
两组舵面的偏转角度的非线性映射,实现了对水下航行器端到端的控制。同时,定义本发明
中举例仿真所使用的水下航行器的动作空间为其中,F为推进器输出力的
大小,为水平舵以及垂直舵的偏转角度。
1-5、海浪干扰
如果水下航行器在近水面进行对接,则有必要考虑海洋表面存在的波浪扰动。参考《Review of marine current speed and power coefficient—mathematical models》(Ćalasan, Martin, 等人于2015 4th Mediterranean Conference on EmbeddedComputing (MECO). IEEE会议上发表)中的波谱理论,我们构建了一个随机海浪模型,海浪波谱如下所示:
其中,g为重力加速度;U为航行器速度向量;为子谐波波长的倒数;是有效
波高(significant wave height,船舶工程领域专业术语,指按一定规则统计的实际波高
值,此处取最大的1/3部分波高的平均值),是海浪子谐波角频率;此外,是航行器遇
到波浪的遭遇角频率,是遭遇角;设定航行器尺寸相比海浪波长较小,参考莫里森方程,
考虑到滚转恢复力矩的存在和对接控制中的主要扰动,可以通过沿航行器长度积分获得波
浪力和力矩如下所示:
其中,是水下航行器的直径,是阻力系数,是附加质量系数,是海水密
度,是海浪在动系下的横移速度、即y方向速度,是航行器在动系下的横移速度、即y
方向速度,是海浪在动系下的横移加速度、即y方向加速度,是航行器在动系下的横
移加速度、即y方向加速度,是海浪引起的横向干扰力,是海浪引起的垂向干扰
力,是海浪引起的纵倾干扰力矩,是海浪在动系下的升沉速度、即z方向速度,是航行器在动系下的升沉速度、即z方向速度,是海浪在动系下的升沉加速度、即z方
向加速度,是航行器在动系下的升沉加速度、即z方向加速度,海浪子谐波的速度和加速
度可以通过叠加次谐波速度得到;
其中,是次谐波振幅,是次谐波波数,是谐波波数
与深度坐标的乘积,是每个子谐波的随机相移(0<<),是子谐波的序号,
是子谐波的周期,是海浪的主传播方向,t为仿真进行的时间,在仿真训练中,将上面计
算得到的海浪干扰力及干扰力矩叠加进水下航行器的动力学方程,得到受干扰的动力学模
型。
1-6、海流干扰
步骤2、定义基于深度强化学习的对接控制算法
2-1、基本近端策略优化方法:
其中,为裁剪因子(优选的,为小于1的正数,一般取0.1~0.2),为优势函
数,为一轮训练(一个episode内)t时刻智能体状态,为t时刻智能体所执行的动作,则为基于旧的策略函数计算得到的t时刻的优势函数值,t时刻的优势函数
为:
改进后的近端策略优化方法:
但实际上,这种简单粗暴的裁剪机制会导致不适当的策略更新,这种以新旧网络输出之比作为约束参考的方法也并不能很好地保持在预先给定的裁剪范围内。
2-2、定义算法流程
整个自适应可靠边界回滚裁剪近端策略优化算法(ARAB-PPO)流程包括步骤如下:
(1)循环开始,遍历k = 0, 1, 2 , …进行以下步骤:
(5)通过梯度下降法,基于均方根误差来拟合值网络:
(6)结束循环;
优选的,步骤2-2中,策略网络定义为含有三层全连接层的神经网络,输入层神经元数设定为9(对应公式(1-9)),输出层神经元设定为3(对应动作空间维度),中间层设定为128个神经元;值网络定义为含有三层全连接层的神经网络,输入层神经元数设定为9(对应公式(1-9)),输出层神经元设定为1,中间层设定为128个神经元。
步骤3、进行对接训练
3-1、初始化任务环境及水下航行器动力学模型;
3-2、根据设定好的海浪参数,根据式(1-11)至式(1-19)计算海浪产生的干扰力及干扰力矩;
3-3、根据设定好的海流参数及具体形式,根据式(1-20)至式(1-24)计算得到体坐标系下的海流速度在两个方向上的速度分量;
3-4、根据步骤2-2中所述初始化策略网络参数及值网络参数;
若不满足,且t小于等于设定的单轮最大步数,则重复步骤3-6;
若满足,且t小于等于设定的单轮最大步数,则进行3-7;
若不满足,且t大于设定的单轮最大步数,则进行3-7;
3-8、设定更新频率,判断是否满足更新频率:
当不满足更新频率时,重复步骤3-6;
3-10、对目标函数求取梯度,并根据步骤2-2中的步骤(4)更新策略网络参数;
3-11、根据步骤2-2中的步骤(5)更新值网络参数;
3-12、重复3-6,直到达到设定的收敛目标。
本发明的有益效果在于:
本发明提出了基于深度强化学习的水下航行器对接控制算法,航行器智能体在考虑海流、海浪的干扰环境下训练后能够高鲁棒性地完成对接操作。
具体来说,本发明使用了自适应可靠边界回滚裁剪近端策略优化算法,通过采用自适应的回滚裁剪机制,在训练初期促进智能体进行对环境的探索,并在成功达到任务目标后快速收敛,促进了训练后期的学习稳定性。最终提升了水下航行器在训练过程中的自学习能力,促进其高鲁棒性的完成对接任务。
附图说明
图1为水下航行器对接控制过程示意图;
图2为基于深度强化学习的水下航行器对接控制示意图;
图3为水下航行器坐标系定义示意图;
图4为对接控制几何化描述示意图;
图6为考虑海浪海流干扰的经过训练后的一次对接过程;
图7为本发明所提出的方法相对比与原始PPO算法的训练奖励曲线图;横坐标表示航行器智能体训练轮回(一个episode)的轮数,即训练了多少轮(episodes number),纵坐标表示该轮所获得的总奖励值;
图8为实施例1中设定的海浪参数产生的海浪波形图,该图表示航行器智能体在一个训练轮回(一个episode)中所遭遇的浪高,横坐标表示一个训练轮回中的时间步,纵坐标表示海浪高度。
具体实施方式
下面通过实施例并结合附图对本发明做进一步说明,但不限于此。
实施例1:
一种基于强化学习的水下航行器对接控制方法,包括步骤如下:
步骤1、定义任务环境及模型
1-1、构建水下航行器所在的任务环境及水下航行器动力学模型;
水下航行器包括三个执行机构,分别为艉部推进器、艉部水平舵以及艉部垂直舵;
通过在仿真中基于牛顿-欧拉运动方程推导,对一个长度为2.38米、直径为0.32
米、重量为167千克的流线型水下航行器进行六自由度的动力学建模,包括,在坐标
系下对水下航行器坐标及姿态角进行描述,使用固定在水下航行器上
随水下航行器运动的、以其重心为原点的坐标系,描述水下航行器的线速度及角速度,以完整描述水下航行器的运动状态;其中,为固定坐
标系下的三维坐标值;为固定坐标系绕三个坐标轴旋转的姿
态角角度:艏向角、横滚角以及俯仰角,为水下航行器在坐标系下沿
三个坐标轴运动的线速度值,为坐标系下绕三个坐标轴旋转的角速度,如
图3所示;根据构建好的水下航行器动力学模型,已知时刻水下航行器的运动状态,由水
下航行器艉部推进器输出力的大小及艉部水平舵、艉部垂直舵的舵角偏转值,经四阶龙格
库塔法解算微分方程可以得到时刻的运动状态;
四阶龙格库塔法解算微分方程示例说明如下:
为了使用基于强化学习的控制算法,所构建的任务环境需要定义明确任务环境给与水下航行器智能体的奖励函数以及水下航行器对任务环境观察量。
为了几何化地描述水下航行器的对接控制问题,将三维运动投影到穿过锥体对接
站中心轴的平面上,如图4所示,在这个投影平面上,原本三维的锥体对接站的入口形成入
口三角形区域PAB,P点为对接站,以过中轴线的截面三角入口三角形区域PAB为正三角形,
边长AB设定为1.2米;是入口AB的半径;成功对接的基本要求是:当航行器头部到达AB时,小于;由于锥形入口具有辅助导向作用,因此要求小于;考虑安全裕度,成
功对接的最终约束写为:
1-2、定义奖励函数
根据航行器对接控制任务的设定,构建如下奖励分量:
首先,根据水下航行器接近目标的行为进行奖励,设定该奖励分量为每一个仿真时间步长水下航行器到对接站终点距离的减小值,具体如式(1-3)至式(1-6):
其中,与表示水下航行器接近对接站终点及对接站中轴线的步进奖励,表示上一时刻水下航行器与终点的距离,表示当前时刻水下航行器与终点的
距离,表示上一时刻水下航行器与中轴线的距离,表示当前时刻水下航行器
与中轴线的距离;与均是带容差的惩罚函数,是权重,是容差,、是一个小于1的正常数,用于调整惩罚项;是航行器重
心到对接站坐标距离的次幂,设定此量来为智能体提供惩罚信息,是航行器重心
到对接站中轴线距离的次幂,设定此量来为智能体提供惩罚信息。
入口三角形区域PAB沿对接站中心轴向外延伸形成外部圆锥体区域,外部圆锥体
区域自定义范围大小,将对接站的坐标设定为(100,50,0.5),锥体开口的方向为坐标减
小的方向,外部圆锥体区域为(90,50,0.5)到(100,50,0.5)的圆锥体区域,当水下航行器到
达外部圆锥体区域时(图4中阴影区域),改变奖励分量的权重,并设置奖励分量,以帮助
航行器调整到所需的姿态。
综合起来,奖励函数被设定为:
本发明所提出的方法相对比与原始PPO算法的训练奖励曲线如图7所示。
1-3、定义状态空间S
在本发明所构建的水下航行器仿真环境中,状态空间由水下航行器对环境的几个
观察分量构成,即状态空间可相应定义为,n为观察分量的
数量,其中包括:如图4所示,在每个时刻,以航行器重心到对接站的距离、航行器重心到
对接站中心轴的距离、航行器和最终期望姿态之间的角度,以及到终点P的导航
角作为观测值;最终,确定构成航行器智能体对环境的观察的形式为:
各个观察分量被加载到神经网络之前均进行了最大最小值归一化处理,具体的计算方式为:
1-4、定义动作空间
本发明所提出的水下航行器智能控制算法可以使用于各类型水下航行器,在后续
的举例仿真中,使用了一个运动在三维空间下、具有六个自由度,有三个执行机构的欠驱动
水下航行器。水下航行器的三个执行机构分别为艉部推进器、艉部水平舵以及艉部垂直舵;
本发明所提出的控制算法通过建立从水下航行器的各观察量到控制推进器输出力的大小、
两组舵面的偏转角度的非线性映射,实现了对水下航行器端到端的控制。同时,定义本发明
中举例仿真所使用的水下航行器的动作空间为其中,F为推进器输出力的
大小,为水平舵以及垂直舵的偏转角度。
1-5、海浪干扰
如果水下航行器在近水面进行对接,则有必要考虑海洋表面存在的波浪扰动。参考《Review of marine current speed and power coefficient—mathematical models》(Ćalasan, Martin, 等人于2015 4th Mediterranean Conference on EmbeddedComputing (MECO). IEEE会议上发表)中的波谱理论,我们构建了一个随机海浪模型,海浪波谱如下所示:
其中,g为重力加速度;U为航行器速度向量;为子谐波波长的倒数;是有效
波高(significant wave height,船舶工程领域专业术语,指按一定规则统计的实际波高
值,此处取最大的1/3部分波高的平均值),是海浪子谐波角频率;此外,是航行器遇
到波浪的遭遇角频率,是遭遇角;设定航行器尺寸相比海浪波长较小,参考莫里森方
程,考虑到滚转恢复力矩的存在和对接控制中的主要扰动,可以通过沿航行器长度积分获
得波浪力和力矩如下所示:
其中,是水下航行器的直径,是阻力系数,是附加质量系数,是海水密
度,是海浪在动系下的横移速度、即y方向速度,是航行器在动系下的横移速度、即y
方向速度,是海浪在动系下的横移加速度、即y方向加速度,是航行器在动系下的横
移加速度、即y方向加速度,是海浪引起的横向干扰力,是海浪引起的垂向干扰
力,是海浪引起的纵倾干扰力矩,是海浪在动系下的升沉速度、即z方向速度,是航行器在动系下的升沉速度、即z方向速度,是海浪在动系下的升沉加速度、即z
方向加速度,是航行器在动系下的升沉加速度、即z方向加速度,海浪子谐波的速度和加
速度可以通过叠加次谐波速度得到;
其中,是次谐波振幅,是次谐波波数,是谐波波数与深
度坐标的乘积,是每个子谐波的随机相移(0<<),是子谐波的序号,是子
谐波的周期,是海浪的主传播方向,t为仿真进行的时间,在仿真训练中,将上面计算得
到的海浪干扰力及干扰力矩叠加进水下航行器的动力学方程,得到受干扰的动力学模型。
1-6、海流干扰
步骤2、定义基于深度强化学习的对接控制算法
2-1、基本近端策略优化方法:
其中,为裁剪因子(优选的,为小于1的正数,一般取0.1~0.2),为优势函数,为一轮训练(一个episode内)t时刻智能体状态,为t时刻智能体所执行的动作,则为基于旧的策略函数计算得到的t时刻的优势函数值,t时刻的优势函数为:
改进后的近端策略优化方法:
但实际上,这种简单粗暴的裁剪机制会导致不适当的策略更新,这种以新旧网络输出之比作为约束参考的方法也并不能很好地保持在预先给定的裁剪范围内。
其含义为,当目标函数中函数在超出裁剪上下边界时
的值变化,原始的是对的粗暴裁剪,即图5a图5b中的点断线变化,而本发
明使用自适应裁剪,使该函数的变化为图中实线所示。图5a表示当大于边界的裁
剪方式,图5b表示当小于边界的裁剪方式。
箭头表示超出范围的回滚裁剪函数会按照训练近期的成功率进行上旋转或者下旋转,当成功率高时,则上旋转接近原始的裁剪函数,当成功率低时,则下旋转。其目的是放大或缩小策略更新的变化范围,以使其在训练效果不好时扩大搜索空间,训练效果好时减少策略变化,减小搜索空间。
2-2、定义算法流程
整个自适应可靠边界回滚裁剪近端策略优化算法(ARAB-PPO)流程包括步骤如下:
(1)循环开始,遍历k = 0, 1, 2 , …进行以下步骤:
(5)通过梯度下降法,基于均方根误差来拟合值网络:
(6)结束循环;
步骤2-2中,策略网络定义为含有三层全连接层的神经网络,输入层神经元数设定为9(对应公式(1-9)),输出层神经元设定为3(对应动作空间维度),中间层设定为128个神经元;值网络定义为含有三层全连接层的神经网络,输入层神经元数设定为9(对应公式(1-9)),输出层神经元设定为1,中间层设定为128个神经元。
步骤3、进行对接训练
3-1、初始化任务环境及水下航行器动力学模型;
基于Khalil H, 哈里尔, Khalil等人在《非线性系统(第三版)》(电子工业出版
社,2005))中对牛顿-欧拉运动方程的推导,对一个长度为2.38米、直径为0.32米、重量为
167千克的流线型水下航行器进行六自由度的动力学建模。其中,在坐标系下对
水下航行器坐标及姿态角进行描述,使用固定在水下航行器上随水下
航行器运动的、以其重心为原点的坐标系,描述水下航行器的线速度及角速度,以完整描述水下航行器的运动状态,如图3所示。
3-2、根据设定好的海浪参数,选择1000个(0.01,5)rad/s范围内的次谐波进行叠加,有效波高为0.88m,产生的海浪波形如图8所示。根据式(1-11)至式(1-19)计算海浪产生的干扰力及干扰力矩;
3-4、根据步骤2-2中所述初始化策略网络参数及值网络参数;
若不满足,且t小于等于设定的单轮最大步数,则重复步骤3-6;
若满足,且t小于等于设定的单轮最大步数,则进行3-7;
若不满足,且t大于设定的单轮最大步数,则进行3-7;
3-8、设定更新频率,判断是否满足更新频率:频率设定为4,即每得到4次完整的训练轨迹,才进行以下更新;
当不满足更新频率时,重复步骤3-6;
3-11、根据步骤2-2中的步骤(5)更新值网络参数;
Claims (10)
1.一种基于强化学习的水下航行器对接控制方法,其特征在于,包括步骤如下:
步骤1、定义任务环境及模型
1-1、构建水下航行器所在的任务环境及水下航行器动力学模型;
水下航行器包括三个执行机构,分别为艉部推进器、艉部水平舵以及艉部垂直舵;
将三维运动投影到穿过锥体对接站中心轴的平面上,锥体对接站的入口形成入口三角形区域PAB,入口三角形区域PAB沿对接站中心轴向外延伸形成外部圆锥体区域,是入口AB的半径;设定成功对接的要求是:当航行器头部到达AB时,小于,小于;成功对接的最终约束为:
1-2、定义奖励函数
奖励函数设定为:
其中,为航行器重心到对接站的距离、为航行器重心到对接站中心轴的距离、为航行器和最终期望姿态之间的角度、为航行器到终点P的导航角、为俯仰角、是水下航行器艉部推进器的推力大小、为艉部水平舵的偏转角度、为艉部垂直舵的偏转角度;为航行器相对于固定坐标系的姿态角角度,即艏向角;
1-5、根据海浪干扰,构建一个随机海浪模型;
1-6、根据海流干扰,在水平面上构建一个包含两个分量的流场;
步骤2、定义基于深度强化学习的对接控制算法
为裁剪因子,为优势函数,为一轮训练t时刻智能体状态,为t时刻智能体所执行的动作,则为计算得到的t时刻的优势函数值,为自适应的回滚因子,为训练阶段近100轮的任务成功次数,通过自适应可靠边界回滚裁剪机制计算得到;
2-2、定义算法流程:
(1)循环开始,遍历k = 0, 1, 2 , …进行以下步骤:
其中,是一个求取参数的函数,即是使得取得最大值所对应的变量点或的集合,表示策略网络的网络参数,,,表示存储若干条完整的训练轨迹的集合,对用计算机内存中的一部分缓存空间,表示用于网络更新的轨迹的长度,即该条轨迹的总时间步数;
(5)通过梯度下降法,基于均方根误差来拟合值网络:
是是一个求取参数 的函数,即是使得取得最小值所对应的变量点或的集合,表示值网络的网络参数;表示用于网络更新的轨迹的长度,即该条轨迹的总时间步数,表示对值函数的估计值,表示第i个时间步的状态的值网络输出值;
(6)结束循环;
步骤3、进行对接训练
3-1、初始化任务环境及水下航行器动力学模型;
3-2、根据设定好的海浪参数,计算海浪产生的干扰力及干扰力矩;
3-3、根据设定好的海流参数及具体形式,计算得到体坐标系下的海流速度在两个方向上的速度分量;
3-4、根据步骤2-2中所述初始化策略网络参数及值网络参数;
若不满足,且t小于等于设定的单轮最大步数,则重复步骤3-6;
若满足,且t小于等于设定的单轮最大步数,则进行3-7;
若不满足,且t大于设定的单轮最大步数,则进行3-7;
3-8、设定更新频率,判断是否满足更新频率:
当不满足更新频率时,重复步骤3-6;
3-10、对目标函数求取梯度,并根据步骤2-2中的步骤(4)更新策略网络参数;
3-11、根据步骤2-2中的步骤(5)更新值网络参数;
3-12、重复3-6,直到达到设定的收敛目标。
2.根据权利要求1所述的基于强化学习的水下航行器对接控制方法,其特征在于,步骤1-1中,对水下航行器进行六自由度的动力学建模,包括,在坐标系下对水下航行器坐标及姿态角进行描述,使用固定在水下航行器上随水下航行器运动的、以其重心为原点的坐标系,描述水下航行器的线速度及角速度;其中,为固定坐标系下的三维坐标值;为固定坐标系绕三个坐标轴旋转的姿态角角度:艏向角、横滚角以及俯仰角,为水下航行器在坐标系下沿三个坐标轴运动的线速度值,为坐标系下绕三个坐标轴旋转的角速度;根据构建好的水下航行器动力学模型,已知时刻水下航行器的运动状态,由水下航行器艉部推进器输出力的大小及艉部水平舵、艉部垂直舵的舵角偏转值,经四阶龙格库塔法解算微分方程可以得到时刻的运动状态。
3.根据权利要求1所述的基于强化学习的水下航行器对接控制方法,其特征在于,步骤1-2中,构建奖励分量如下:
首先,根据水下航行器接近目标的行为进行奖励,设定该奖励分量为每一个仿真时间步长水下航行器到对接站终点距离的减小值,具体如式(1-3)至式(1-6):
其中,与表示水下航行器接近对接站终点及对接站中轴线的步进奖励,表示上一时刻水下航行器与终点的距离,表示当前时刻水下航行器与终点的距离,表示上一时刻水下航行器与中轴线的距离,表示当前时刻水下航行器与中轴线的距离;与均是带容差的惩罚函数,是权重,是容差,、是一个小于1的正常数,用于调整惩罚项;是航行器重心到对接站坐标距离的次幂,设定此量来为智能体提供惩罚信息,是航行器重心到对接站中轴线距离的次幂,设定此量来为智能体提供惩罚信息;
综合起来,奖励函数被设定为:
5.根据权利要求1所述的基于强化学习的水下航行器对接控制方法,其特征在于,步骤1-5中,构建一个随机海浪模型,海浪波谱如下所示:
其中g为重力加速度;U为航行器速度向量;为子谐波波长的倒数;是有效波高,是海浪子谐波角频率;此外,是航行器遇到波浪的遭遇角频率,是遭遇角;设定航行器尺寸相比海浪波长较小,通过沿航行器长度积分获得波浪力和力矩如下所示:
其中,是水下航行器的直径,是阻力系数,是附加质量系数,是海水密度,是海浪在动系下的横移速度、即y方向速度,是航行器在动系下的横移速度、即y方向速度,是海浪在动系下的横移加速度、即y方向加速度,是航行器在动系下的横移加速度、即y方向加速度,是海浪引起的横向干扰力,是海浪引起的垂向干扰力,是海浪引起的纵倾干扰力矩,是海浪在动系下的升沉速度、即z方向速度,是航行器在动系下的升沉速度、即z方向速度,是海浪在动系下的升沉加速度、即z方向加速度,是航行器在动系下的升沉加速度、即z方向加速度,海浪子谐波的速度和加速度可以通过叠加次谐波速度得到;
6.根据权利要求1所述的基于强化学习的水下航行器对接控制方法,其特征在于,步骤1-6中,在水平面上构建一个包含两个分量的流场,包括非定常均匀流和稳定循环流,在地理坐标系下,水平面上两个分量产生的流速简化为,具体描述如下:
8.根据权利要求1所述的基于强化学习的水下航行器对接控制方法,其特征在于,步骤1-1中,入口三角形区域PAB为正三角形,边长AB设定为1.2米。
10.根据权利要求1所述的基于强化学习的水下航行器对接控制方法,其特征在于,步骤2-2中,策略网络定义为含有三层全连接层的神经网络,输入层神经元数设定为9,输出层神经元设定为3,中间层设定为128个神经元;值网络定义为含有三层全连接层的神经网络,输入层神经元数设定为9,输出层神经元设定为1,中间层设定为128个神经元。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210638552.XA CN114721409B (zh) | 2022-06-08 | 2022-06-08 | 一种基于强化学习的水下航行器对接控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210638552.XA CN114721409B (zh) | 2022-06-08 | 2022-06-08 | 一种基于强化学习的水下航行器对接控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114721409A CN114721409A (zh) | 2022-07-08 |
CN114721409B true CN114721409B (zh) | 2022-09-20 |
Family
ID=82233088
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210638552.XA Active CN114721409B (zh) | 2022-06-08 | 2022-06-08 | 一种基于强化学习的水下航行器对接控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114721409B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116405111B (zh) * | 2023-06-09 | 2023-08-15 | 山东科技大学 | 一种基于深度强化学习的海上无人机辅助光数据收集方法 |
CN117590867B (zh) * | 2024-01-18 | 2024-03-26 | 吉林大学 | 基于深度强化学习的水下自主航行器接驳控制方法和系统 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104392279B (zh) * | 2014-11-19 | 2018-02-13 | 天津大学 | 一种多智能体结构的微电网优化运行方法 |
WO2018053187A1 (en) * | 2016-09-15 | 2018-03-22 | Google Inc. | Deep reinforcement learning for robotic manipulation |
CN111694365B (zh) * | 2020-07-01 | 2021-04-20 | 武汉理工大学 | 一种基于深度强化学习的无人船艇编队路径跟踪方法 |
CN111880535B (zh) * | 2020-07-23 | 2022-07-15 | 上海交通大学 | 一种基于强化学习的无人艇混合感知自主避障方法及系统 |
CN111829527B (zh) * | 2020-07-23 | 2021-07-20 | 中国石油大学(华东) | 一种基于深度强化学习且顾及海洋环境要素的无人船路径规划方法 |
CN112034711B (zh) * | 2020-08-31 | 2022-06-03 | 东南大学 | 一种基于深度强化学习的无人艇抗海浪干扰控制方法 |
CN112698646B (zh) * | 2020-12-05 | 2022-09-13 | 西北工业大学 | 一种基于强化学习的航行器路径规划方法 |
CN113010963B (zh) * | 2021-03-04 | 2022-04-29 | 山东大学 | 基于深度强化学习的变质量水下航行器避障方法及系统 |
CN112861442B (zh) * | 2021-03-10 | 2021-12-03 | 中国人民解放军国防科技大学 | 基于深度强化学习的多机协同空战规划方法及系统 |
CN113541192A (zh) * | 2021-07-27 | 2021-10-22 | 重庆大学 | 基于深度强化学习的海上风电场无功-电压协调控制方法 |
CN113900445A (zh) * | 2021-10-13 | 2022-01-07 | 厦门渊亭信息科技有限公司 | 基于多智能体强化学习的无人机协同控制训练方法及系统 |
CN114089762B (zh) * | 2021-11-22 | 2024-06-21 | 江苏科技大学 | 一种基于强化学习的水空两栖无人航行器路径规划方法 |
-
2022
- 2022-06-08 CN CN202210638552.XA patent/CN114721409B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN114721409A (zh) | 2022-07-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114721409B (zh) | 一种基于强化学习的水下航行器对接控制方法 | |
CN107168312B (zh) | 一种补偿uuv运动学和动力学干扰的空间轨迹跟踪控制方法 | |
CN110806756B (zh) | 基于ddpg的无人机自主引导控制方法 | |
CN109976349B (zh) | 一种含约束无人船的路径跟踪制导与控制结构的设计方法 | |
CN113033119B (zh) | 一种基于双评论家强化学习技术的水下航行器目标区域上浮控制方法 | |
Bhatta | Nonlinear stability and control of gliding vehicles | |
CN106444806A (zh) | 基于生物速度调节的欠驱动auv三维轨迹跟踪控制方法 | |
CN114253296B (zh) | 高超声速飞行器机载轨迹规划方法、装置、飞行器及介质 | |
Zhang et al. | AUV path tracking with real-time obstacle avoidance via reinforcement learning under adaptive constraints | |
CN106708068A (zh) | 仿生波动鳍推进水下航行器路径跟踪控制方法 | |
Shen et al. | Model predictive control for an AUV with dynamic path planning | |
CN113821035A (zh) | 无人船轨迹追踪控制方法和装置 | |
CN114879671A (zh) | 一种基于强化学习mpc的无人艇轨迹跟踪控制方法 | |
Amendola et al. | Navigation in restricted channels under environmental conditions: Fast-time simulation by asynchronous deep reinforcement learning | |
Zhang et al. | A hybrid path planning algorithm considering AUV dynamic constraints based on improved A* algorithm and APF algorithm | |
Song et al. | Surface path tracking method of autonomous surface underwater vehicle based on deep reinforcement learning | |
Yuan et al. | Deep reinforcement learning-based controller for dynamic positioning of an unmanned surface vehicle | |
Dong et al. | Gliding motion optimization for a biomimetic gliding robotic fish | |
CN114943168B (zh) | 一种水上浮桥组合方法及系统 | |
CN115903820A (zh) | 多无人艇追逃博弈控制方法 | |
Zhang et al. | A new hybrid path planning method for the sailboat architecture wave glider in the wind field environment | |
Li et al. | Prioritized experience replay based reinforcement learning for adaptive tracking control of autonomous underwater vehicle | |
Cobb | Economic iterative learning control with application to tethered energy systems | |
Ma et al. | Trajectory tracking of an underwater glider in current based on deep reinforcement learning | |
Liu et al. | Robust event-triggered formation control for underactuated ships under the practice constraint |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |