CN109828467B - 一种数据驱动的无人船强化学习控制器结构及设计方法 - Google Patents
一种数据驱动的无人船强化学习控制器结构及设计方法 Download PDFInfo
- Publication number
- CN109828467B CN109828467B CN201910157559.8A CN201910157559A CN109828467B CN 109828467 B CN109828467 B CN 109828467B CN 201910157559 A CN201910157559 A CN 201910157559A CN 109828467 B CN109828467 B CN 109828467B
- Authority
- CN
- China
- Prior art keywords
- unmanned ship
- information
- module
- unknown
- control input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Feedback Control In General (AREA)
Abstract
本发明公开了一种数据驱动的无人船强化学习控制器结构及设计方法,所述的控制器结构包括未知信息提取模块、预测模型生成模块、奖励函数模块和滚动时域优化模块。本发明是基于数据驱动的,无需对被控无人船进行精确数学建模。控制器仅利用未知信息提取模块收集无人船的控制输入与输出状态数据信息并提取到动力学未知函数,通过预测模型生成模块对提取信息进行重构得到预测模型,控制器不依赖于精确无人船人工建模。本发明不需要针对运动学与动力学两级分别设计不同的控制器。通过预测模型和设定的奖励函数,对控制输入进行滚动时域优化达到最优的控制效果。本发明同时适用于全驱动无人船与欠驱动无人船。
Description
技术领域
本发明涉及涉及无人船运动控制技术领域,尤其是一种数据驱动的无人船强化学习控制器结构及设计方法。
背景技术
智能化无人船是船舶发展的趋势,21世纪,随着大数据、人工智能等新理念、新技术的突飞猛进,船舶智能化水平也不断提高,智能化无人船的发展与应用也有了科技支撑。在智能化无人船的关键技术领域中,运动控制技术是实现无人船自主航行的前提和基础。
针对无人船运动控制问题,已经有了一些可行的技术方案。例如,专利CN107015562A提出了一种满足预设跟踪性能的欠驱动水面船舶控制方法,针对欠驱动水面船舶非线性动态模型,设计跟踪误差稳态精度和暂态性能指标,构造横截函数引入额外控制输入,并完成跟踪控制器的设计。具体包括以下步骤:建立欠驱动水面船舶动态模型;设计控制系统的稳态及暂态性能要求;设计速度误差方程引入额外控制;设计扰动观测器补偿外部时变扰动;设计状态反馈跟踪控制器。专利CN108681246A公开了一种基于执行器故障的无人水面船航迹跟踪方法,该方案对无人船执行器故障进行建模,进而建立具有执行器故障的无人水面船数学模型,并根据航迹和航速跟踪误差模型建立积分滑模面的无人水面船航迹跟踪控制律。
上述的无人船运动控制方法都是对无人船进行精确数学建模,利用控制理论,人工调节设定控制器的参数。基于无人船模型的控制器设计方法具有可解释性和直观性等优点,己经被广泛地研究与应用,但是对于复杂多变的环境或者复杂被控对象来说,精确无人船数学模型的建立和控制器参数的设定将十分繁琐且不利于参数的调节。除此之外,传统控制器参数固定且不具备自适应学习能力,即使存在一些自适应参数调节方法,也往往会受限于人工建立的无人船模型与环境模型的表达能力,鲁棒性较差。
发明内容
为解决现有技术存在的不足,本发明要提出一种既能使无人船数学模型的建立和控制器参数的设定简单且易于参数的调节,又具备自适应学习能力且鲁棒性好的数据驱动的无人船强化学习控制器结构及设计方法。
为此,本发明的具体技术方案是:一种数据驱动的无人船强化学习控制器结构,包括未知信息提取模块、预测模型生成模块、奖励函数模块和滚动时域优化模块,所述的未知信息提取模块的输入端分别与无人船的输入端和无人船的输出端相连;所述的预测模型生成模块的输入端与未知信息提取模块的输出端相连;所述的滚动时域优化模块的输入端分别与预测模型生成模块的输出端和奖励函数模块的输出端相连;所述的奖励函数模块的输入端为外部给定跟踪目标;所述的滚动时域优化模块的输出端与无人船的输入端相连。
数据采集模块采集无人船的控制输入与输出状态信息数据,使用未知信息提取模块从收集到的数据信息中提取到无人船的动力学信息,将提取到的无人船未知动力学信息通过预测模型生成模块进行数据信息重构生成预测模型。最后通过滚动时域优化模块与奖励函数模块决策出最佳控制输入量给无人船。
一种数据驱动的无人船强化学习控制器结构的设计方法,所述的无人船采用如下黑箱方程表征:
其中:
s为无人船的输出状态数据信息;
ν=(u v r)T表示无人船的速度信息,u为无人船的纵向速度,v为无人船的横漂速度,r为无人船的艏摇角速度;
黑箱函数f=(fu fv fr)T表示动力学未知函数,fu、fv和fr分别为纵向未知函数、横向未知函数和艏摇角方向未知函数;
τ=(τu τv τr)T表示无人船的控制输入量,τu为纵向速度控制输入分量,τv为横向速度控制输入分量,τr为艏摇角速度控制输入分量;纵向速度控制输入分量τu分为n档位,横向速度控制输入分量分为m档位,横向速度控制输入分量分为j档位,不同挡位的纵向速度控制输入分量、横向速度控制输入分量和艏摇角速度控制输入分量组成有限的控制输入量τ,有限的控制输入量τ构成控制输入集Ω。
R(η)表示旋转矩阵:
所述的设计方法包括以下步骤:
A、未知信息提取模块设计
未知信息提取模块在每一采样时刻对无人船的控制输入数据信息τ与输出位置信息η进行采集并提取出动力学未知函数信息与速度信息,设计如下:
B、预测模型生成模块设计
预测模型生成模块对未知信息提取模块所提取的信息进行数据信息重构生成预测模型,具体设计如下:
其中:st为无人船在t时刻的输出状态数据信息采样值;T为一个控制周期;为t时刻的速度信息的提取值;为t时刻的动力学未知函数的提取值;τt为控制器在t时刻对无人船施加的控制输入量;st+T为无人船在t+T时刻的输出状态数据信息。
C、奖励函数模块设计
奖励函数模块的输入端为控制器外部给定的跟踪目标信息,用来表征某一时刻点的某一控制输入量对控制目标实现的影响,奖励函数rt(st+T,τt)具体设计如下:
其中,xr为目标在球体坐标系下X轴方向的位置信息,yr为目标在球体坐标系下Y轴方向的位置信息;为无人船在t+T时刻输出状态数据信息的位姿信息,xt+T为无人船在球体坐标系下X轴方向的位置信息,yt+T为无人船在球体坐标系下Y轴方向的位置信息,为无人船在球体坐标系下的艏摇角信息;λ1、λ2和λ3分别为三个负数权重因子;为t+T时刻的跟踪误差角,其中制导角θt+T计算方法如下:
D、滚动时域优化模块设计
滚动时域优化模块在每一采样时刻t通过预测模型生成模块生成的预测模型并结合奖励函数对无人船在未来N个控制周期的控制输入量进行滚动时域优化,具体如下式:
其中:st为无人船在t时刻的输出状态数据信息采样值;为t时刻无人船速度信息的提取值;为t时刻输出状态数据信息采样值中的位置信息;为t时刻的动力学未知函数的提取值;T为一个控制周期;为无人船在t+T时刻的输出状态预测值;无人船在t+T时刻的输出状态数据信息预测值中的速度信息;无人船在t+T时刻的输出状态数据信息预测值中的位置信息;为无人船在t+2T时刻的输出状态预测值;为无人船在t+(N-1)T时刻的输出状态数据信息预测值中的速度信息;为无人船在t+2T时刻的输出状态数据信息预测值中的位置信息;为无人船在t+NT时刻的输出状态预测值;Ω为有限的控制输入量组成的控制输入集,为滚动时域优化模块在t时刻通过奖励函数决策出的控制序列,并将控制序列中第一个元素输出给无人船。
相比现有技术,本发明的特点及有益效果是:
第一,本发明是基于数据驱动的,无需对被控无人船进行精确数学建模。控制器仅利用未知信息提取模块收集无人船的控制输入与输出状态数据信息并提取到动力学未知函数,通过预测模型生成模块对提取信息进行重构得到预测模型,控制器不依赖于精确无人船人工建模。
第二,本发明不需要针对运动学与动力学两级分别设计不同的控制器。通过预测模型和设定的奖励函数,对控制输入进行滚动时域优化达到最优的控制效果。
第三,本发明同时适用于全驱动无人船与欠驱动无人船。通过设定不同的奖励函数,可以达到不同的控制目的,如点目标跟踪、轨迹跟踪等。
附图说明
本发明共有附图7张,其中:
图1是数据驱动的无人船强化学习控制器结构示意图。
图2是纵向未知函数提取示意图。
图3是艏摇角方向未知函数提取示意图。
图4是纵向速度控制分量示意图。
图5是艏摇角速度方向控制分量示意图。
图6是位置误差示意图。
图7是艏摇角误差效果示意图。
具体实施方式
本发明涉及的一种数据驱动的无人船强化学习控制器结构如图1所示。下面针对一个具体的无人船跟踪一个移动目标仿真为例对本发明进行进一步说明。
一种数据驱动的无人船强化学习控制器结构的设计方法满足式(1)-(9),具体的参数如下:
本实施例中无人船为欠驱动无人船,即横向速度控制输入分量τv为0,纵向速度控制输入分量τu分为[-10 -4 -2 0 2 4 10]七档,艏摇角速度控制输入分量τr分为[-5 -1 01 2 5]六档。
跟踪目标为一个移动的目标,目标起始位姿状态为:
无人船起始位姿状态为:
起始纵向速度u0=0,起始横漂速度v0=0,起始艏摇角速度r0=0。
控制周期T=0.2。负数权重因子:λ1=-0.8,λ2=-0.3,λ3=-0.5
正定矩阵:K1=diag(12 23 40),K2=diag(14 18 13),K3=diag(55 58 58)。预测周期数N=3。
仿真结果如图2-7所示。图2是纵向未知函数提取示意图,其中实线为实际的纵向未知函数,虚线为未知信息观测模块提取出的纵向未知函数,由图2可以看出实线与虚线吻合程度很高;图3是艏摇角方向未知函数提取示意图,其中实线为实际艏摇角方向未知函数,虚线为未知信息观测模块提取出的艏摇角方向未知函数,由图3可以看出实线条与虚线吻合程度很高;由图2-3表明本发明所设计的方法能够准确提取出未知函数。图4是纵向速度控制分量示意图,0-10秒时无人船与目标位置距离较远,纵向速度速度控制输入量较大为10牛,10秒以后,无人船跟踪上目标,纵向速度控制输入量减小至2牛之内。图5是艏摇角速度方向控制分量示意图,艏摇角速度方向控制分量起始为5牛,无人船跟踪上目标后减小至2牛之内。图6是无人船与跟踪目标之间的位置误差示意图,由图6可以看出10秒之后无人船与跟踪目标之间的位置误差减小至0左右,表明无人船可以很快跟踪上目标。图7是无人船与跟踪目标之间的艏摇角误差示意图,由图7可以看出5秒之内无人船与跟踪目标之间的位置误差减小至0左右,表明无人船可以快速跟踪上目标的航向。
本发明不局限于本实施例,任何在本发明披露的技术范围内的等同构思或者改变,均列为本发明的保护范围。
Claims (2)
1.一种数据驱动的无人船强化学习控制器结构,其特征在于:包括未知信息提取模块、预测模型生成模块、奖励函数模块和滚动时域优化模块,所述的未知信息提取模块的输入端分别与无人船的输入端和无人船的输出端相连;所述的预测模型生成模块的输入端与未知信息提取模块的输出端相连;所述的滚动时域优化模块的输入端分别与预测模型生成模块的输出端和奖励函数模块的输出端相连;所述的奖励函数的输入端为外部给定跟踪目标;所述的滚动时域优化模块的输出端与无人船的输入端相连;
数据采集模块采集无人船的控制输入与输出状态信息数据,使用未知信息提取模块从收集到的数据信息中提取到无人船的动力学信息,将提取到的无人船未知动力学信息通过预测模型生成模块进行数据信息重构生成预测模型;最后通过滚动时域优化模块与奖励函数模块决策出最佳控制输入量给无人船。
2.一种数据驱动的无人船强化学习控制器结构的设计方法,其特征在于:所述的无人船采用如下黑箱方程表征:
其中:
s为无人船的输出状态数据信息;
ν=(u v r)T表示无人船的速度信息,u为无人船的纵向速度,v为无人船的横漂速度,r为无人船的艏摇角速度;
黑箱函数f=(fu fv fr)T表示动力学未知函数,fu、fv和fr分别为纵向未知函数、横向未知函数和艏摇角方向未知函数;
τ=(τu τv τr)T表示无人船的控制输入量,τu为纵向速度控制输入分量,τv为横向速度控制输入分量,τr为艏摇角速度控制输入分量;纵向速度控制输入分量τu分为n档位,横向速度控制输入分量分为m档位,横向速度控制输入分量分为j档位,不同挡位的纵向速度控制输入分量、横向速度控制输入分量和艏摇角速度控制输入分量组成有限的控制输入量τ,有限的控制输入量τ构成控制输入集Ω;
R(η)表示旋转矩阵:
所述的设计方法包括以下步骤:
A、未知信息提取模块设计
未知信息提取模块在每一采样时刻对无人船的控制输入数据信息τ与输出位置信息η进行采集并提取出动力学未知函数信息与速度信息,设计如下:
B、预测模型生成模块设计
预测模型生成模块对未知信息提取模块所提取的信息进行数据信息重构生成预测模型,具体设计如下:
其中:st为无人船在t时刻的输出状态数据信息采样值;T为一个控制周期;为t时刻的速度信息的提取值;为t时刻的动力学未知函数的提取值;τt为控制器在t时刻对无人船施加的控制输入量;st+T为无人船在t+T时刻的输出状态数据信息;
C、奖励函数模块设计
其中,xr为目标在球体坐标系下X轴方向的位置信息,yr为目标在球体坐标系下Y轴方向的位置信息;为无人船在t+T时刻输出状态数据信息的位姿信息,xt+T为无人船在球体坐标系下X轴方向的位置信息,yt+T为无人船在球体坐标系下Y轴方向的位置信息,为无人船在球体坐标系下的艏摇角信息;λ1、λ2和λ3分别为三个负数权重因子;为t+T时刻的跟踪误差角,其中制导角θt+T计算方法如下:
D、滚动时域优化模块设计
滚动时域优化模块在每一采样时刻t通过预测模型生成模块生成的预测模型并结合奖励函数对无人船在未来N个控制周期的控制输入量进行滚动时域优化,具体如下式:
其中:st为无人船在t时刻的输出状态数据信息采样值;为t时刻无人船速度信息的提取值;为t时刻输出状态数据信息采样值中的位置信息;为t 时刻的动力学未知函数的提取值;T为一个控制周期;为无人船在t+T时刻的输出状态预测值;无人船在t+T时刻的输出状态数据信息预测值中的速度信息;无人船在t+T时刻的输出状态数据信息预测值中的位置信息;为无人船在t+2T时刻的输出状态预测值;为无人船在t+(N-1)T时刻的输出状态数据信息预测值中的速度信息;为无人船在t+2T时刻的输出状态数据信息预测值中的位置信息;为无人船在t+NT时刻的输出状态预测值;Ω为有限的控制输入量组成的控制输入集,为滚动时域优化模块在t时刻通过奖励函数决策出的控制序列,并将控制序列中第一个元素输出给无人船。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910157559.8A CN109828467B (zh) | 2019-03-01 | 2019-03-01 | 一种数据驱动的无人船强化学习控制器结构及设计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910157559.8A CN109828467B (zh) | 2019-03-01 | 2019-03-01 | 一种数据驱动的无人船强化学习控制器结构及设计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109828467A CN109828467A (zh) | 2019-05-31 |
CN109828467B true CN109828467B (zh) | 2021-09-07 |
Family
ID=66864970
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910157559.8A Active CN109828467B (zh) | 2019-03-01 | 2019-03-01 | 一种数据驱动的无人船强化学习控制器结构及设计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109828467B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110647161B (zh) * | 2019-10-15 | 2022-07-15 | 哈尔滨工程大学 | 基于状态预测补偿的欠驱动uuv水平面轨迹跟踪控制方法 |
CN111308890B (zh) * | 2020-02-27 | 2022-08-26 | 大连海事大学 | 一种带有指定性能的无人船数据驱动强化学习控制方法 |
CN112558477B (zh) * | 2020-12-03 | 2022-04-01 | 大连海事大学 | 一种基于加速度信息的无人船状态和扰动观测器 |
CN112631305B (zh) * | 2020-12-28 | 2024-04-05 | 大连海事大学 | 一种多无人船编队防碰撞抗干扰控制系统 |
CN116400691B (zh) * | 2023-03-29 | 2023-11-21 | 大连海事大学 | 一种新型离散时间指定性能强化学习无人艇航向跟踪控制方法及系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109213204A (zh) * | 2018-10-15 | 2019-01-15 | 中国海洋大学 | 基于数据驱动的auv海底目标搜寻航行系统及方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11074495B2 (en) * | 2013-02-28 | 2021-07-27 | Z Advanced Computing, Inc. (Zac) | System and method for extremely efficient image and pattern recognition and artificial intelligence platform |
CN107748566B (zh) * | 2017-09-20 | 2020-04-24 | 清华大学 | 一种基于强化学习的水下自主机器人固定深度控制方法 |
CN108803321B (zh) * | 2018-05-30 | 2020-07-10 | 清华大学 | 基于深度强化学习的自主水下航行器轨迹跟踪控制方法 |
-
2019
- 2019-03-01 CN CN201910157559.8A patent/CN109828467B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109213204A (zh) * | 2018-10-15 | 2019-01-15 | 中国海洋大学 | 基于数据驱动的auv海底目标搜寻航行系统及方法 |
Non-Patent Citations (6)
Title |
---|
A Grassmannian Approach to Address View Change Problem in Gait Recognition;Tee Connie 等;《IEEE Transactions on Cybernetics 》;20170630;第47卷(第6期);第1395-1408页 * |
Adaptive line-of-sight guidance law for synchronized path-following of under-actuated unmanned surface vehicles based on low-frequency learning;Nan Gu 等;《2017 36th Chinese Control Conference (CCC)》;20170911;第6632-6637页 * |
包含执行器动力学的子空间预测动态控制分配方法;马建军 等;《自动化学报》;20100115(第01期);第132-140页 * |
基于可预测偏最小二乘算法的复杂工况过程的监控技术;王丹;《中国优秀硕士学位论文全文数据库 信息科技辑》;20160715(第07期);第1-69页 * |
基于数据挖掘的水面无人艇建模及航向控制研究;邓强;《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》;20150315(第03期);第1-60页 * |
张树凯.基于数据驱动的无人船艇航线自动生成.《中国博士学位论文全文数据库 工程科技Ⅱ辑》.2017,(第05期),第1-110页. * |
Also Published As
Publication number | Publication date |
---|---|
CN109828467A (zh) | 2019-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109828467B (zh) | 一种数据驱动的无人船强化学习控制器结构及设计方法 | |
CN109976349B (zh) | 一种含约束无人船的路径跟踪制导与控制结构的设计方法 | |
CN108008628B (zh) | 一种不确定欠驱动无人艇系统的预设性能控制方法 | |
Zhang et al. | Linear reduction of backstepping algorithm based on nonlinear decoration for ship course-keeping control system | |
CN110806759B (zh) | 一种基于深度强化学习的飞行器航线跟踪方法 | |
Su et al. | Attitude control of underwater glider combined reinforcement learning with active disturbance rejection control | |
CN102411305B (zh) | 单旋翼直升机/涡轴发动机综合抗扰控制系统设计方法 | |
CN108490788B (zh) | 一种基于双干扰观测的飞行器俯仰通道反演控制方法 | |
CN108594837A (zh) | 基于pd-smc和rise的无模型四旋翼无人机轨迹跟踪控制器及方法 | |
CN112631305B (zh) | 一种多无人船编队防碰撞抗干扰控制系统 | |
CN102331717A (zh) | 一种船舶航速智能控制方法 | |
An et al. | Proximate time optimal for the heading control of underactuated autonomous underwater vehicle with input nonlinearities | |
CN106681345A (zh) | 基于人群搜索算法的无人机自抗扰控制方法 | |
CN103558854A (zh) | 一种风帆助航船舶航向控制方法及系统 | |
CN106527462A (zh) | 无人机控制装置 | |
CN105843080A (zh) | 可变翼高超声速飞行器智能非线性控制系统 | |
CN113268059A (zh) | 一种基于有限时间扩张状态观测器的多无人艇编队控制方法 | |
CN112696319A (zh) | 利用准确在线模型的基于风力涡轮模型的控制和估计 | |
Zhang et al. | Tracking fault-tolerant control based on model predictive control for human occupied vehicle in three-dimensional underwater workspace | |
CN112051742A (zh) | 一种基于mpc的全驱动船舶航迹跟踪方法 | |
CN115220467A (zh) | 一种基于神经网络增量动态逆的飞翼飞行器姿态控制方法 | |
CN110262513A (zh) | 一种海洋机器人轨迹跟踪控制结构的设计方法 | |
CN105929825A (zh) | 一种基于神经动态模型的船舶动力定位反步控制方法 | |
CN117289709A (zh) | 基于深度强化学习的高超声速变外形飞行器姿态控制方法 | |
Juan et al. | Path following backstepping control of underactuated unmanned underwater vehicle |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |