CN109828467B

CN109828467B - 一种数据驱动的无人船强化学习控制器结构及设计方法

Info

Publication number: CN109828467B
Application number: CN201910157559.8A
Authority: CN
Inventors: 彭周华; 古楠; 王丹; 吕光颢; 刘陆
Original assignee: Dalian Maritime University
Current assignee: Dalian Maritime University
Priority date: 2019-03-01
Filing date: 2019-03-01
Publication date: 2021-09-07
Anticipated expiration: 2039-03-01
Also published as: CN109828467A

Abstract

本发明公开了一种数据驱动的无人船强化学习控制器结构及设计方法，所述的控制器结构包括未知信息提取模块、预测模型生成模块、奖励函数模块和滚动时域优化模块。本发明是基于数据驱动的，无需对被控无人船进行精确数学建模。控制器仅利用未知信息提取模块收集无人船的控制输入与输出状态数据信息并提取到动力学未知函数，通过预测模型生成模块对提取信息进行重构得到预测模型，控制器不依赖于精确无人船人工建模。本发明不需要针对运动学与动力学两级分别设计不同的控制器。通过预测模型和设定的奖励函数，对控制输入进行滚动时域优化达到最优的控制效果。本发明同时适用于全驱动无人船与欠驱动无人船。

Description

一种数据驱动的无人船强化学习控制器结构及设计方法

技术领域

本发明涉及涉及无人船运动控制技术领域，尤其是一种数据驱动的无人船强化学习控制器结构及设计方法。

背景技术

智能化无人船是船舶发展的趋势，21世纪，随着大数据、人工智能等新理念、新技术的突飞猛进，船舶智能化水平也不断提高，智能化无人船的发展与应用也有了科技支撑。在智能化无人船的关键技术领域中，运动控制技术是实现无人船自主航行的前提和基础。

针对无人船运动控制问题，已经有了一些可行的技术方案。例如，专利CN107015562A提出了一种满足预设跟踪性能的欠驱动水面船舶控制方法，针对欠驱动水面船舶非线性动态模型，设计跟踪误差稳态精度和暂态性能指标，构造横截函数引入额外控制输入，并完成跟踪控制器的设计。具体包括以下步骤：建立欠驱动水面船舶动态模型；设计控制系统的稳态及暂态性能要求；设计速度误差方程引入额外控制；设计扰动观测器补偿外部时变扰动；设计状态反馈跟踪控制器。专利CN108681246A公开了一种基于执行器故障的无人水面船航迹跟踪方法，该方案对无人船执行器故障进行建模，进而建立具有执行器故障的无人水面船数学模型，并根据航迹和航速跟踪误差模型建立积分滑模面的无人水面船航迹跟踪控制律。

上述的无人船运动控制方法都是对无人船进行精确数学建模，利用控制理论，人工调节设定控制器的参数。基于无人船模型的控制器设计方法具有可解释性和直观性等优点，己经被广泛地研究与应用，但是对于复杂多变的环境或者复杂被控对象来说，精确无人船数学模型的建立和控制器参数的设定将十分繁琐且不利于参数的调节。除此之外，传统控制器参数固定且不具备自适应学习能力，即使存在一些自适应参数调节方法，也往往会受限于人工建立的无人船模型与环境模型的表达能力，鲁棒性较差。

发明内容

为解决现有技术存在的不足，本发明要提出一种既能使无人船数学模型的建立和控制器参数的设定简单且易于参数的调节，又具备自适应学习能力且鲁棒性好的数据驱动的无人船强化学习控制器结构及设计方法。

为此，本发明的具体技术方案是：一种数据驱动的无人船强化学习控制器结构，包括未知信息提取模块、预测模型生成模块、奖励函数模块和滚动时域优化模块，所述的未知信息提取模块的输入端分别与无人船的输入端和无人船的输出端相连；所述的预测模型生成模块的输入端与未知信息提取模块的输出端相连；所述的滚动时域优化模块的输入端分别与预测模型生成模块的输出端和奖励函数模块的输出端相连；所述的奖励函数模块的输入端为外部给定跟踪目标；所述的滚动时域优化模块的输出端与无人船的输入端相连。

数据采集模块采集无人船的控制输入与输出状态信息数据，使用未知信息提取模块从收集到的数据信息中提取到无人船的动力学信息，将提取到的无人船未知动力学信息通过预测模型生成模块进行数据信息重构生成预测模型。最后通过滚动时域优化模块与奖励函数模块决策出最佳控制输入量给无人船。

一种数据驱动的无人船强化学习控制器结构的设计方法，所述的无人船采用如下黑箱方程表征：

其中：

s为无人船的输出状态数据信息；

表示无人船在球体坐标系下的位置信息，x为无人船在球体坐标系下X轴方向的位置信息，y为无人船在球体坐标系下Y轴方向的位置信息，

为无人船在球体坐标系下的艏摇角信息；

ν＝(u v r)^T表示无人船的速度信息，u为无人船的纵向速度，v为无人船的横漂速度，r为无人船的艏摇角速度；

黑箱函数f＝(f_u f_v f_r)^T表示动力学未知函数，f_u、f_v和f_r分别为纵向未知函数、横向未知函数和艏摇角方向未知函数；

τ＝(τ_u τ_v τ_r)^T表示无人船的控制输入量，τ_u为纵向速度控制输入分量，τ_v为横向速度控制输入分量，τ_r为艏摇角速度控制输入分量；纵向速度控制输入分量τ_u分为n档位，横向速度控制输入分量分为m档位，横向速度控制输入分量分为j档位，不同挡位的纵向速度控制输入分量、横向速度控制输入分量和艏摇角速度控制输入分量组成有限的控制输入量τ，有限的控制输入量τ构成控制输入集Ω。

R(η)表示旋转矩阵：

所述的设计方法包括以下步骤：

A、未知信息提取模块设计

未知信息提取模块在每一采样时刻对无人船的控制输入数据信息τ与输出位置信息η进行采集并提取出动力学未知函数信息与速度信息，设计如下：

其中：K₁和K₂为两个正定矩阵；τ和η分别为无人船的控制输入信息和输出位置信息；

为速度信息ν的提取值；

为未知信息提取模块对动力学未知函数f＝(f_u f_v f_r)^T的提取值。

B、预测模型生成模块设计

预测模型生成模块对未知信息提取模块所提取的信息进行数据信息重构生成预测模型，具体设计如下：

其中：s_t为无人船在t时刻的输出状态数据信息采样值；T为一个控制周期；

为t时刻的速度信息的提取值；

为t时刻的动力学未知函数的提取值；τ_t为控制器在t时刻对无人船施加的控制输入量；s_t+T为无人船在t+T时刻的输出状态数据信息。

C、奖励函数模块设计

奖励函数模块的输入端为控制器外部给定的跟踪目标信息，用来表征某一时刻点的某一控制输入量对控制目标实现的影响，奖励函数r_t(s_t+T,τ_t)具体设计如下：

其中，x_r为目标在球体坐标系下X轴方向的位置信息，y_r为目标在球体坐标系下Y轴方向的位置信息；

为无人船在t+T时刻输出状态数据信息的位姿信息，x_t+T为无人船在球体坐标系下X轴方向的位置信息，y_t+T为无人船在球体坐标系下Y轴方向的位置信息，

为无人船在球体坐标系下的艏摇角信息；λ₁、λ₂和λ₃分别为三个负数权重因子；

为t+T时刻的跟踪误差角，其中制导角θ_t+T计算方法如下：

D、滚动时域优化模块设计

滚动时域优化模块在每一采样时刻t通过预测模型生成模块生成的预测模型并结合奖励函数对无人船在未来N个控制周期的控制输入量进行滚动时域优化，具体如下式：

其中：s_t为无人船在t时刻的输出状态数据信息采样值；

为t时刻无人船速度信息的提取值；

为t时刻输出状态数据信息采样值中的位置信息；

为t时刻的动力学未知函数的提取值；T为一个控制周期；

为无人船在t+T时刻的输出状态预测值；

无人船在t+T时刻的输出状态数据信息预测值中的速度信息；

无人船在t+T时刻的输出状态数据信息预测值中的位置信息；

为无人船在t+2T时刻的输出状态预测值；

为无人船在t+(N-1)T时刻的输出状态数据信息预测值中的速度信息；

为无人船在t+2T时刻的输出状态数据信息预测值中的位置信息；

为无人船在t+NT时刻的输出状态预测值；Ω为有限的控制输入量组成的控制输入集，

为滚动时域优化模块在t时刻通过奖励函数决策出的控制序列，并将控制序列中第一个元素

输出给无人船。

相比现有技术，本发明的特点及有益效果是：

第一，本发明是基于数据驱动的，无需对被控无人船进行精确数学建模。控制器仅利用未知信息提取模块收集无人船的控制输入与输出状态数据信息并提取到动力学未知函数，通过预测模型生成模块对提取信息进行重构得到预测模型，控制器不依赖于精确无人船人工建模。

第二，本发明不需要针对运动学与动力学两级分别设计不同的控制器。通过预测模型和设定的奖励函数，对控制输入进行滚动时域优化达到最优的控制效果。

第三，本发明同时适用于全驱动无人船与欠驱动无人船。通过设定不同的奖励函数，可以达到不同的控制目的，如点目标跟踪、轨迹跟踪等。

附图说明

本发明共有附图7张，其中：

图1是数据驱动的无人船强化学习控制器结构示意图。

图2是纵向未知函数提取示意图。

图3是艏摇角方向未知函数提取示意图。

图4是纵向速度控制分量示意图。

图5是艏摇角速度方向控制分量示意图。

图6是位置误差示意图。

图7是艏摇角误差效果示意图。

具体实施方式

本发明涉及的一种数据驱动的无人船强化学习控制器结构如图1所示。下面针对一个具体的无人船跟踪一个移动目标仿真为例对本发明进行进一步说明。

一种数据驱动的无人船强化学习控制器结构的设计方法满足式(1)-(9)，具体的参数如下：

本实施例中无人船为欠驱动无人船，即横向速度控制输入分量τ_v为0，纵向速度控制输入分量τ_u分为[-10 -4 -2 0 2 4 10]七档，艏摇角速度控制输入分量τ_r分为[-5 -1 01 2 5]六档。

跟踪目标为一个移动的目标，目标起始位姿状态为：

纵向速度

横漂速度v_r＝0，艏摇角速度r_r＝0。

无人船起始位姿状态为：

起始纵向速度u₀＝0，起始横漂速度v₀＝0，起始艏摇角速度r₀＝0。

控制周期T＝0.2。负数权重因子：λ₁＝-0.8，λ₂＝-0.3，λ₃＝-0.5

正定矩阵：K₁＝diag(12 23 40)，K₂＝diag(14 18 13)，K₃＝diag(55 58 58)。预测周期数N＝3。

仿真结果如图2-7所示。图2是纵向未知函数提取示意图，其中实线为实际的纵向未知函数，虚线为未知信息观测模块提取出的纵向未知函数，由图2可以看出实线与虚线吻合程度很高；图3是艏摇角方向未知函数提取示意图，其中实线为实际艏摇角方向未知函数，虚线为未知信息观测模块提取出的艏摇角方向未知函数，由图3可以看出实线条与虚线吻合程度很高；由图2-3表明本发明所设计的方法能够准确提取出未知函数。图4是纵向速度控制分量示意图，0-10秒时无人船与目标位置距离较远，纵向速度速度控制输入量较大为10牛，10秒以后，无人船跟踪上目标，纵向速度控制输入量减小至2牛之内。图5是艏摇角速度方向控制分量示意图，艏摇角速度方向控制分量起始为5牛，无人船跟踪上目标后减小至2牛之内。图6是无人船与跟踪目标之间的位置误差示意图，由图6可以看出10秒之后无人船与跟踪目标之间的位置误差减小至0左右，表明无人船可以很快跟踪上目标。图7是无人船与跟踪目标之间的艏摇角误差示意图，由图7可以看出5秒之内无人船与跟踪目标之间的位置误差减小至0左右，表明无人船可以快速跟踪上目标的航向。

本发明不局限于本实施例，任何在本发明披露的技术范围内的等同构思或者改变，均列为本发明的保护范围。

Claims

1.一种数据驱动的无人船强化学习控制器结构，其特征在于：包括未知信息提取模块、预测模型生成模块、奖励函数模块和滚动时域优化模块，所述的未知信息提取模块的输入端分别与无人船的输入端和无人船的输出端相连；所述的预测模型生成模块的输入端与未知信息提取模块的输出端相连；所述的滚动时域优化模块的输入端分别与预测模型生成模块的输出端和奖励函数模块的输出端相连；所述的奖励函数的输入端为外部给定跟踪目标；所述的滚动时域优化模块的输出端与无人船的输入端相连；

数据采集模块采集无人船的控制输入与输出状态信息数据，使用未知信息提取模块从收集到的数据信息中提取到无人船的动力学信息，将提取到的无人船未知动力学信息通过预测模型生成模块进行数据信息重构生成预测模型；最后通过滚动时域优化模块与奖励函数模块决策出最佳控制输入量给无人船。

2.一种数据驱动的无人船强化学习控制器结构的设计方法，其特征在于：所述的无人船采用如下黑箱方程表征：

其中：

s为无人船的输出状态数据信息；

为无人船在球体坐标系下的艏摇角信息；

τ＝(τ_u τ_v τ_r)^T表示无人船的控制输入量，τ_u为纵向速度控制输入分量，τ_v为横向速度控制输入分量，τ_r为艏摇角速度控制输入分量；纵向速度控制输入分量τ_u分为n档位，横向速度控制输入分量分为m档位，横向速度控制输入分量分为j档位，不同挡位的纵向速度控制输入分量、横向速度控制输入分量和艏摇角速度控制输入分量组成有限的控制输入量τ，有限的控制输入量τ构成控制输入集Ω；

R(η)表示旋转矩阵：