CN109828463A - 一种海流干扰自适应波浪滑翔器艏向控制方法 - Google Patents

一种海流干扰自适应波浪滑翔器艏向控制方法 Download PDF

Info

Publication number
CN109828463A
CN109828463A CN201910125027.6A CN201910125027A CN109828463A CN 109828463 A CN109828463 A CN 109828463A CN 201910125027 A CN201910125027 A CN 201910125027A CN 109828463 A CN109828463 A CN 109828463A
Authority
CN
China
Prior art keywords
bow
wave glider
ocean current
parameter
submerged body
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910125027.6A
Other languages
English (en)
Inventor
李晔
潘恺文
廖煜雷
王磊峰
张蔚欣
卢倪斌
漆池
武皓微
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN201910125027.6A priority Critical patent/CN109828463A/zh
Publication of CN109828463A publication Critical patent/CN109828463A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Feedback Control In General (AREA)

Abstract

本发明提供的是一种海流干扰自适应波浪滑翔器艏向控制方法。针对波浪滑翔器在不同期望潜体艏向下,海流相对波浪滑翔器流速、流向不同的特点,考虑波浪滑翔器在长航时、大航程作业过程中遭遇海流不断改变的工况,利用策略直接搜索的强化学习方法实现在艏向控制器中对环境干扰的动态补偿。所述策略直接搜索强化学习方法借助径向基神经网络拟合动作值函数,基于ITAE性能指标设计回报函数作为控制效果的评价指标。通过不依赖控制模型的、可以动态调整偏移的曲面控制器,提升波浪滑翔器在不同期望潜体艏向角、不同海流流速、流向下的艏向艏向控制精度。

Description

一种海流干扰自适应波浪滑翔器艏向控制方法
技术领域
本发明涉及的是一种波浪滑翔器艏向控制方法。
背景技术
波浪滑翔器是近年来新兴的一种海上观测平台。它不搭载传统的螺旋桨等推进装置,通过自身特殊的浮体、潜体机械结构,将海洋中的波浪能转化为自身航行的推进力。通过浮体上搭载的太阳能板维持自身控制系统与通信系统的供电。因此,相比传统的海上观测平台,波浪滑翔器具有运营成本低廉、无环境污染、生存能力强、具备执行长航时、大航程观测任务的能力等众多优点,现已广泛应用于海洋气象信息监测、海洋生物迁徙跟踪研究等诸多领域。由于波浪滑翔器长期工作于海洋环境中,且航程较远,因此航行过程必然会受到不同海流的影响。
在实际使用过程中,在不同的波浪滑翔器期望潜体艏向下,海流对波浪滑翔器的相对流速、流向不同,且当波浪滑翔器在长航时、大航程作业过程中,所遭受的海流必然发生变化。因此,为保证海流作用下波浪滑翔器具有良好的艏向控制效果,就需要波浪滑翔器艏向控制器对不同的海流干扰进行补偿。
强化学习的思想源于动物学习的过程,是一种重要的机器学习方法。它是指从环境状态到动作映射的学习。智能体通过采取不同的动作,根据从环境中获得的反馈进行对动作进行评价,根据评价修正自身动作以获得最大的奖励,使智能体获得最优动作策略。
策略直接搜索的强化学习方法不需要先验知识,不需要MDP状态转移概率和回报函数模型,直接通过智能体与环境的相互作用,在参数化策略空间搜索最优策略即可完成学习。传统的波浪滑翔器艏向曲面控制器中,为了应对海流影响,加入了曲面偏移值可以补偿海流影响对艏向控制的干扰,利用策略直接搜索强化学习方法可以实现波浪滑翔器艏向曲面控制器在不同期望潜体艏向角、不同海流流速、流向下的曲面偏移自整定。
赵冬斌等人提出的《基于监督式强化学习的最优控制方法》(公开号:CN103324085A)中,利用控制器(Actor)与评价器(Critic)两个人工神经网络实现监督式强化学习与最优控制。
赵婷婷等人提出的《引导型策略搜索强化学习算法》中通过重构目标函数,降低了因使用重要采样技术而降低算法稳定性能及收敛率的问题。定义引导型高质量学习样本,避免情况较坏的局部最优。
发明内容
本发明的目的在于提供一种能够提升波浪滑翔器在不同期望潜体艏向角、不同海流流速、流向下的艏向控制精度的海流干扰自适应波浪滑翔器艏向控制方法。
本发明的目的是这样实现的:
第一步:初始化波浪滑翔器期望潜体艏向角ψd以及策略直接搜索强化学习算法参数配置,包括策略参数θ、每一幕学习时间T、学习总幕数N、资格迹z、学习率α、折扣因子β、曲面偏移动作集A;
第二步:波浪滑翔器潜体上的艏向传感器与海流传感器将当前波浪滑翔器潜体艏向角ψG,海流流速v与流向φ反馈至主控计算机;
第三步:将波浪滑翔器当前状态st输入径向基神经网络,输出在策略参数为θt下选择各动作ai的概率oi
第四步:利用SoftMax函数将第三步中选择各动作ai的概率oi归一化,得到参数化策略π(st,at),依据π(st,at)选择当前时刻执行的动作at,主控计算机根据动作at调整波浪滑翔器艏向曲面控制器的偏移值;
第五步:利用调整偏移值后的艏向曲面控制器控制波浪滑翔器潜体艏向,根据下一时刻波浪滑翔器状态st+1计算回报rt+1
第六步:根据下一时刻回报rt+1、资格迹zt、学习率α、折扣因子β及策略参数θt计算下一时刻资格迹zt+1及策略参数θt+1,并更新策略参数θ;
第七步:判断当前学习时间是否达到每一幕学习时间T,如未达到则返回至第二步进行下一个采样时刻的学习,如达到则输出策略参数θ,并进入第八步;
第八步:判断当前学习幕数是否达到总幕数N,如未达到则将第七步中输出的策略参数θ作为初始策略参数,将资格迹z重新初始化为0,并返回至第二步进行下一幕的学习。如果当前学习幕数达到总幕数N,则保存第七步中输出的策略参数θ,并根据该策略参数计算波浪滑翔器期望潜体艏向角为ψd、海流流速为v、流向为φ的情况下的艏向曲面控制器偏移值ΔS。
本发明的波浪滑翔器潜体艏向采用具有偏差的曲面控制器:
其中,u为归一化的控制力输出,k1为比例项控制参数,k2为微分项控制参数,e、分别为偏差和偏差变化率,ΔS为曲面控制器的偏移值,表示适应海流干扰的调整项。
曲面控制器的比例项控制参数k1及微分项控制参数k2由操控人员在无海流作用下进行整定。曲面控制器的偏移值ΔS采用策略直接搜索强化学习方法由波浪滑翔器自主整定。
波浪滑翔器在具有不同期望潜体艏向角、受不同海流流速、流向影响下,艏向曲面控制器的具有与之相对应的曲面偏移,进而提升波浪滑翔器在海流作用下的艏向控制精度。
所述策略直接搜索强化学习方法具体包括:将波浪滑翔器潜体艏向曲面控制器偏移值的动态调整作为Markov决策过程(MDP),波浪滑翔器的当前期望潜体艏向角ψd、实际潜体艏向角与期望潜体艏向角偏差Δψ、海流流速v与流向φ作为波浪滑翔器的状态s,动作a为离散化的曲面偏移值ΔSi,动作值函数Qπ(s,a)通过径向基神经网络拟合,策略参数θ为径向基神经网络权值参数,优化指标J(θ)为各状态的折扣回报和的期望,即:
回报值函数基于ITAE性能指标选取,策略参数θ根据优化指标相对于策略参数θ的梯度进行更新。
本发明针对在不同的波浪滑翔器期望潜体艏向下,海流对波浪滑翔器的相对流速、流向不同,以及波浪滑翔器在长航时、大航程作业过程中遭遇海流不断改变的工况,利用策略直接搜索的强化学习方法实现在艏向控制器中对环境干扰的动态补偿。所述策略直接搜索强化学习方法借助径向基神经网络拟合动作值函数,基于ITAE性能指标设计回报函数作为控制效果的评价指标。通过可以动态调整偏移的曲面控制器,提升波浪滑翔器在不同期望潜体艏向角、不同海流流速、流向下的艏向艏向控制精度。
与现有技术相比,本发明的有益效果是:本发明的提供一种海流干扰自适应波浪滑翔器艏向控制方法。针对在不同的波浪滑翔器期望潜体艏向下,海流对波浪滑翔器的相对流速、流向不同,以及波浪滑翔器在长航时、大航程作业过程中遭遇海流不断改变的工况,利用波浪滑翔器长航时自主作业的特点,采用策略直接搜索的强化学习方法实现在艏向控制器中对环境干扰的动态补偿。所述策略直接搜索强化学习方法借助径向基神经网络拟合动作值函数,基于ITAE性能指标设计回报函数作为控制效果的评价指标。通过不依赖控制模型的、可以动态调整偏移的曲面控制器,提升波浪滑翔器在不同期望潜体艏向角、不同海流流速、流向下的艏向艏向控制精度。
与《基于监督式强化学习的最优控制方法》不同,本发明中采用基于单个人工神经网络的策略直接搜索的强化学习方法。
与《引导型策略搜索强化学习算法》不同,本发明基于策略直接搜索强化学习方法实现海流干扰下波浪滑翔器艏向曲面控制器整体偏移补偿。
附图说明
图1为本发明依托的波浪滑翔器硬件结构示意图;
图2为本发明中一种海流干扰自适应波浪滑翔器艏向控制方法流程图;
图3为本发明中一种海流干扰自适应波浪滑翔器艏向控制器结构图。
具体实施方式
下面举例对本发明做更详细的描述。
结合图1描述波浪滑翔器硬件结构。所述波浪滑翔器潜体3上安装有舵机4、艏向传感器6、海流传感器5,浮体1上安装有主控计算机3。艏向传感器6实时测量潜体艏向角ψG,海流传感器5实时测量海流流速v与流向φ。艏向传感器6与海流传感器5将测量数据反馈至主控计算机2。主控计算机2根据当前期望潜体艏向角ψd、当前实际潜体艏向角ψG及海流数据计算当前期望舵角δd,并控制舵机4旋转至期望舵角δd
结合图2,所述的一种海流干扰自适应波浪滑翔器艏向控制方法,其步骤特征在于:
第一步:初始化波浪滑翔器期望潜体艏向角ψd以及策略直接搜索强化学习算法参数配置,包括策略参数θ、每一幕学习时间T、学习总幕数N、资格迹z、学习率α、折扣因子β、曲面偏移动作集A等。策略直接搜索强化学习算法参数的初始值由操控依据强化学习算法的期望性能事先给出。
第二步:波浪滑翔器潜体上的艏向传感器与海流传感器将当前波浪滑翔器潜体艏向角ψG,海流流速v与流向φ反馈至主控计算机。
第三步:将波浪滑翔器当前状态st输入径向基神经网络,输出在策略参数为θt下选择各动作ai的概率oi
第四步:利用SoftMax函数将第三步中选择各动作ai的概率oi归一化,选择某一动作ai的概率为:
得到归一化的选择各动作的概率,即参数化策略π(st,at)后,依据π(st,at)选择当前时刻执行的动作at,主控计算机根据动作at调整波浪滑翔器艏向曲面控制器的曲面偏移值。
第五步:利用调整S偏移值后的艏向曲面控制器控制波浪滑翔器潜体艏向,根据下一时刻波浪滑翔器状态st+1计算回报rt+1。回报函数r的形式为:
其中Δt表示两个采样时刻之间的时间间隔。
第六步:根据下一时刻回报rt+1、资格迹zt、学习率α、折扣因子β及策略参数θt计算下一时刻资格迹zt+1及策略参数θt+1,并更新策略参数θ。其中:
θt+1=θt+αrt+1zt+1 (4)
第七步:判断当前学习时间是否达到每一幕学习时间T,如未达到则返回至第二步进行下一个采样时刻的学习,如达到则输出策略参数θ,并进入第八步。
第八步:判断当前学习幕数是否达到总幕数N,如未达到则将第七步中输出的策略参数θ作为初始策略参数,将资格迹z重新初始化为0,并返回至第二步进行下一幕的学习。如果当前学习幕数达到总幕数N,则保存第七步中输出的策略参数θ,并根据该策略参数计算波浪滑翔器期望潜体艏向角为ψd、海流流速为v、流向为φ的情况下的艏向曲面控制器曲面偏移值ΔS。
本发明中一种海流干扰自适应波浪滑翔器艏向控制方法,其特征在于:波浪滑翔器潜体艏向采用具有偏差的曲面控制器:
其中,u为归一化的控制力输出,k1为比例项控制参数,k2为微分项控制参数,e、分别为偏差和偏差变化率,ΔS为曲面控制器的偏移值,表示适应海流干扰的调整项。
结合图3,所述的一种海流干扰自适应波浪滑翔器艏向控制方法,其特征在于:曲面控制器的比例项控制参数k1及微分项控制参数k2由操控人员在无海流作用下进行整定。曲面控制器的偏移值ΔS采用策略直接搜索强化学习方法由波浪滑翔器自主整定。
所述的一种海流干扰自适应波浪滑翔器艏向控制方法,其特征在于:波浪滑翔器在具有不同期望潜体艏向角、受不同海流流速、流向影响下,艏向曲面控制器的具有与之相对应的曲面偏移,进而提升波浪滑翔器在海流作用下的艏向控制精度。
所述策略直接搜索强化学习方法,其特征在于:将波浪滑翔器潜体艏向曲面控制器偏移值的动态调整作为Markov决策过程(MDP),波浪滑翔器的当前期望潜体艏向角ψd、实际潜体艏向角与期望潜体艏向角偏差Δψ、海流流速v与流向φ作为波浪滑翔器的状态s,动作a为离散化的曲面偏移值ΔSi,动作值函数Qπ(s,a)通过径向基神经网络拟合,回报值函数基于ITAE性能指标选取,策略参数θ为径向基神经网络权值参数,优化指标J(θ)为各状态的折扣回报和的期望,即:
策略参数θ根据优化指标相对于策略参数θ的梯度进行更新。

Claims (4)

1.一种海流干扰自适应波浪滑翔器艏向控制方法,其特征是包括如下步骤:
第一步:初始化波浪滑翔器期望潜体艏向角ψd以及策略直接搜索强化学习算法参数配置,包括策略参数θ、每一幕学习时间T、学习总幕数N、资格迹z、学习率α、折扣因子β、曲面偏移动作集A;
第二步:波浪滑翔器潜体上的艏向传感器与海流传感器将当前波浪滑翔器潜体艏向角ψG、海流流速v与流向φ反馈至主控计算机;
第三步:将波浪滑翔器当前状态st输入径向基神经网络,输出在当前时刻策略参数为θt下选择各动作ai的概率oi
第四步:利用SoftMax函数将第三步中选择各动作ai的概率oi归一化,得到参数化策略π(st,at),依据π(st,at)选择当前时刻执行的动作at,主控计算机根据动作at调整波浪滑翔器艏向曲面控制器的偏移值;
第五步:利用调整偏移值后的艏向曲面控制器控制波浪滑翔器潜体艏向,根据下一时刻波浪滑翔器状态st+1计算回报rt+1
第六步:根据下一时刻回报rt+1、资格迹zt、学习率α、折扣因子β及当前时刻策略参数θt计算下一时刻资格迹zt+1及下一时刻策略参数θt+1,并更新策略参数θ;
第七步:判断当前学习时间是否达到每一幕学习时间T,如未达到则返回至第二步进行下一个采样时刻的学习,如达到则输出策略参数θ,并进入第八步;
第八步:判断当前学习幕数是否达到总幕数N,如未达到则将第七步中输出的策略参数θ作为初始策略参数,将资格迹z重新初始化为0,并返回至第二步进行下一幕的学习;如果当前学习幕数达到总幕数N,则保存第七步中输出的策略参数θ,并根据该策略参数计算波浪滑翔器期望潜体艏向角为ψd、海流流速为v、流向为φ的情况下的艏向曲面控制器偏移值ΔS。
2.根据权利要求1所述的海流干扰自适应波浪滑翔器艏向控制方法,其特征是第五步中,回报函数r的形式为:
其中Δt表示两个采样时刻之间的时间间隔,t为时间。
3.根据权利要求1或2所述的海流干扰自适应波浪滑翔器艏向控制方法,其特征是:曲面控制器的比例项及微分项控制参数在无海流作用下进行整定,曲面控制器的偏移值采用策略直接搜索强化学习方法由波浪滑翔器自主整定。
4.根据权利要求3所述的海流干扰自适应波浪滑翔器艏向控制方法,其特征是所述曲面控制器的偏移值采用策略直接搜索强化学习方法由波浪滑翔器自主整定具体包括:将波浪滑翔器潜体艏向曲面控制器偏移值的动态调整作为Markov决策过程,波浪滑翔器的当前期望潜体艏向角ψd、实际潜体艏向角与期望潜体艏向角偏差Δψ、海流流速v与流向φ作为波浪滑翔器的状态s,动作a为离散化的曲面偏移值ΔSi,动作值函数Qπ(s,a)通过径向基神经网络拟合,策略参数θ为径向基神经网络权值参数,优化指标J(θ)为各状态的折扣回报和的期望回报值函数基于ITAE性能指标选取,策略参数θ根据优化指标相对于策略参数θ的梯度进行更新。
CN201910125027.6A 2019-02-18 2019-02-18 一种海流干扰自适应波浪滑翔器艏向控制方法 Pending CN109828463A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910125027.6A CN109828463A (zh) 2019-02-18 2019-02-18 一种海流干扰自适应波浪滑翔器艏向控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910125027.6A CN109828463A (zh) 2019-02-18 2019-02-18 一种海流干扰自适应波浪滑翔器艏向控制方法

Publications (1)

Publication Number Publication Date
CN109828463A true CN109828463A (zh) 2019-05-31

Family

ID=66863856

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910125027.6A Pending CN109828463A (zh) 2019-02-18 2019-02-18 一种海流干扰自适应波浪滑翔器艏向控制方法

Country Status (1)

Country Link
CN (1) CN109828463A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111273677A (zh) * 2020-02-11 2020-06-12 哈尔滨工程大学 一种基于强化学习技术的自主水下机器人速度和艏向控制方法
CN112214023A (zh) * 2020-10-14 2021-01-12 哈尔滨工程大学 考虑波浪推进的自然能驱动无人艇的航线实时优化方法及航行方法
CN113799949A (zh) * 2020-06-11 2021-12-17 中国科学院沈阳自动化研究所 一种基于q学习的auv浮力调节方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107065569A (zh) * 2017-05-31 2017-08-18 哈尔滨工程大学 基于rbf神经网络补偿的船舶动力定位滑模控制系统及方法
CN108762281A (zh) * 2018-06-08 2018-11-06 哈尔滨工程大学 一种基于记忆关联强化学习的嵌入式实时水下机器人智能决策方法
CN108803321A (zh) * 2018-05-30 2018-11-13 清华大学 基于深度强化学习的自主水下航行器轨迹跟踪控制方法
CN108829102A (zh) * 2018-06-12 2018-11-16 哈尔滨工程大学 自适应艏向信息融合的波浪滑翔器航向控制方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107065569A (zh) * 2017-05-31 2017-08-18 哈尔滨工程大学 基于rbf神经网络补偿的船舶动力定位滑模控制系统及方法
CN108803321A (zh) * 2018-05-30 2018-11-13 清华大学 基于深度强化学习的自主水下航行器轨迹跟踪控制方法
CN108762281A (zh) * 2018-06-08 2018-11-06 哈尔滨工程大学 一种基于记忆关联强化学习的嵌入式实时水下机器人智能决策方法
CN108829102A (zh) * 2018-06-12 2018-11-16 哈尔滨工程大学 自适应艏向信息融合的波浪滑翔器航向控制方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
毛自民: "RBF网络Q-学习在水下机器人首向角锁定中的应用", 《舰船科学技术》 *
高延增: "超小型水下机器人关键性能提升技术研究", 《中国博士学位论文全文数据库 信息科技辑》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111273677A (zh) * 2020-02-11 2020-06-12 哈尔滨工程大学 一种基于强化学习技术的自主水下机器人速度和艏向控制方法
CN111273677B (zh) * 2020-02-11 2023-05-12 哈尔滨工程大学 基于强化学习技术的自主水下机器人速度和艏向控制方法
CN113799949A (zh) * 2020-06-11 2021-12-17 中国科学院沈阳自动化研究所 一种基于q学习的auv浮力调节方法
CN113799949B (zh) * 2020-06-11 2022-07-26 中国科学院沈阳自动化研究所 一种基于q学习的auv浮力调节方法
CN112214023A (zh) * 2020-10-14 2021-01-12 哈尔滨工程大学 考虑波浪推进的自然能驱动无人艇的航线实时优化方法及航行方法
CN112214023B (zh) * 2020-10-14 2021-05-14 哈尔滨工程大学 考虑波浪推进的自然能驱动无人艇的航线实时优化方法及航行方法

Similar Documents

Publication Publication Date Title
CN109976349B (zh) 一种含约束无人船的路径跟踪制导与控制结构的设计方法
CN110597069B (zh) 一种基于rbf神经网络的水下机器人自适应区域动力定位控制方法
Lee et al. Reinforcement learning-based adaptive PID controller for DPS
CN109828463A (zh) 一种海流干扰自适应波浪滑翔器艏向控制方法
CN102385316A (zh) 一种基于神经网络反步法的欠驱动自主水下航行器变深控制方法
CN103558854B (zh) 一种风帆助航船舶航向控制方法及系统
CN109100939A (zh) 考虑输入饱和的水面无人艇全状态约束轨迹跟踪控制方法
CN108563130A (zh) 一种欠驱动船舶自适应神经网络自动靠泊控制方法,设备及介质
CN110687918A (zh) 一种基于回归型神经网络在线逼近的水下机器人轨迹跟踪控制方法
CN109062058A (zh) 基于自适应模糊最优控制的船舶航向轨迹跟踪设计方法
CN109032136A (zh) 基于主从分布式模型预测控制的欠驱动多无人船编队跟踪方法
CN109189083B (zh) 一种具有垂推的低速水下航行器的定深控制方法
Zhang et al. ANFIS-based course-keeping control for ships using nonlinear feedback technique
Li et al. Improved active disturbance rejection heading control for unmanned wave glider
Wang et al. Ship motion control based on AMBPS-PID algorithm
CN117452827B (zh) 一种欠驱动无人艇轨迹跟踪控制方法
Ye et al. A modified predictive PID controller for dynamic positioning of vessels with autoregressive model
CN105446136A (zh) 基于不完全递归支集动态神经网络的船舶航向智能控制器
CN109828462A (zh) 波浪滑翔器变航速下自适应艏向控制器及控制方法
CN115903820A (zh) 多无人艇追逃博弈控制方法
Wang et al. NN-backstepping for diving control of an underactuated AUV
CN110703792B (zh) 基于增强学习的水下机器人姿态控制方法
Ngongi et al. Design of generalised predictive controller for dynamic positioning system of surface ships
CN114137826A (zh) 一种基于灰狼算法的船舶动力定位自抗扰控制方法
Bhattacharyya et al. Target Path Iteration method for trajectory control of ships

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190531

RJ01 Rejection of invention patent application after publication