CN110109355A

CN110109355A - 一种基于强化学习的无人艇异常工况自愈控制方法

Info

Publication number: CN110109355A
Application number: CN201910354486.1A
Authority: CN
Inventors: 王友清; 周子天; 王慧聪; 周东华
Original assignee: Shandong University of Science and Technology
Current assignee: Shandong University of Science and Technology
Priority date: 2019-04-29
Filing date: 2019-04-29
Publication date: 2019-08-09

Abstract

本发明属于无人艇控制技术领域，公开了一种基于强化学习的无人艇异常工况自愈控制方法。所述基于强化学习的无人艇异常工况自愈控制方法包括：初始模型的建立；利用典型强化学习方法设计得到u；u的训练以及对于无人艇的补偿；实现无人艇异常工况自愈。本发明的基于强化学习的无人艇异常工况自愈控制方法。针对天气、风浪、海草等复杂的海上工作情况，建立一个强化学习的模型反复训练；强化学习具有自我探索的能力，适用于搜索解决方案，将无人艇从异常工况中，恢复性能，实现自愈。

Description

一种基于强化学习的无人艇异常工况自愈控制方法

技术领域

本发明属于无人艇控制技术领域，尤其涉及一种基于强化学习的无人艇异常工况自愈控制方法。

背景技术

目前，业内常用的现有技术是这样的：

无人艇是一种响应快速灵活的高精度水面运动平台，以水面舰艇为支援平台，可长时间自主远程航行的无人智能设备。与常规舰船相比，无人艇的优点是吨位小、运输方便、速度快、机动灵活、造价低、环境适应能力强。在交通运输、军事行动、水文、航运、油气勘探与建设、海洋资料收集、科学技术等领域有着广泛的应用。在目标水域，无人艇可以通过无人遥控、按既定方案运行、自主运行等方式工作。在完全自主运行方式下，对无人艇的智能化程度要求较高，也相对更加容易产生异常工况。

无人艇的动态定位与控制通常基于一个远程陆基/母船控制站。控制站与设备之间通过通信网络连接。无人艇工作过程中易受到风浪、水草等因素的影响，实际工作过程中的复杂海况对于无人艇现有的控制方法提出了挑战。无人艇在完全自主运行的方式下，由于无人艇完全无人、自主式的工作特点，也会伴随着一些问题。当无人艇受到复杂海况的影响，进入严重异常工况时，很难及时的进行人工维修去排除异常工况问题。目前，从无人艇的发展技术以及实际操作情况来看，已有的方法都很难解决该问题。根据报道文献检索，目前没有针对无人艇的自愈控制方法。现有的针对无人艇的容错控制技术(改进卡尔曼滤波算法、自适应控制等)多是针对通信网络的异常(延时、丢包、乱序)进行容错控制，而对与无人艇本身的故障进行容错控制的研究成果较少。而对于无人艇的故障诊断的研究成果多为故障检测，故障估计和重构的结果相对较少，这样也给无人艇的容错控制工作带来了一定的难度。

综上所述，现有技术存在的问题是：

当无人艇受到复杂海况的影响，进入严重异常工况时，很难及时的进行人工维修去排除异常工况问题。目前，从无人艇的发展技术以及实际操作情况来看，已有的方法都很难解决该问题。

解决上述技术问题的难度：

由于无人艇完全无人、自主式的工作特点，当无人艇受到复杂海况的影响，进入异常工况时，很难及时的进行人工维修去排除异常工况问题。现有的控制算法多是采用对故障补偿的思想，其基本思路时利用故障诊断单元对故障幅值的最优估计并据此调整控制器参数，实现容错控制。现有基于故障补偿的容错控制直接将故障估计带入控制器进行补偿，并认为该补偿是精确的。事实上由于通信网络的引入，不可避免的会使故障估计结果存在一定延迟和误差，实际系统中这种误差往往不能忽略。

解决上述技术问题的意义：

无人艇的非线性、强耦合、变参数、强扰动、功率受限等特点决定了无人艇的自愈控制理论与方法是具有相当难度的前沿课题，对现有的自愈控制理论和方法提出了挑战。然而，无人艇的另一些特点又使得具备了比一般系统更多的设计裕量，使得可以通过发展新的理论方法解决这些国际前沿的问题。

发明内容

针对现有技术存在的问题，本发明提供了一种基于强化学习的无人艇异常工况自愈控制方法。

本发明是这样实现的，一种基于强化学习的无人艇异常工况自愈控制方法。基于强化学习的无人艇异常工况自愈控制方法包括：

第一步，初始模型的建立；

第二步，利用典型强化学习方法设计得到u；

第三步，u的训练以及对于无人艇的补偿；

第四步，实现无人艇异常工况自愈。

进一步，所述第一步的初始模型的建立具体包括：

根据以往的无人艇故障经验数据，建立一个大体上的强化学习训练模型。

进一步，所述第二步的利用典型强化学习方法设计得到u具体包括：

由于无人艇与环境的实时交互模型是未知的，第一步中建立的大体模型只是根据先前已有的数据建立的，用于对模型不断修正的初始模型。对于u的设计使用时间差分的方法来得到修正的值函数u。时间差分方法结合了蒙特卡罗的采样方法(即做试验)和动态规划方法的bootstrapping(利用后续状态的值函数估计当前的值函数)

时间差分方法的值函数公式更新为：

u(S_t)←u(S_t)+α(R_t+1+γu(S_t+1)-u(S_t))

式中u(S_t)为在状态时的值函数，γ为折扣因子，R_t+1+γu(S_t+1)为TD目标,δ_t＝R_t+1+γu(S_t+1)-u(S_t)为TD偏差；

u(s)＝E[G_t|S_t＝s]＝E[R_t+1+γG_t+1|S_t＝s]

进一步，所述第三步的u的训练以及对于无人艇的补偿具体包括：

u的训练采用TD(λ)的方法：

G_t ⁽¹⁾＝R_t+1+γu(S_t+1)

G_t ⁽²⁾＝R_t+1+γR(S_t+2)+γ²u(S_t+1)

G_t ⁽ⁿ⁾＝R_t+1+γR(S_t+2)+…+γ^n-1R(S_t+n)+γⁿu(S_t+n)

u补偿故障:

进一步，所述第二步中的典型强化学习设计方法包括：值函数强化学习方法，直接策略搜索方法，逆向强化学习等。

进一步，根据强化学习方法建立的训练自愈模型的传递函数也可以是状态空间模型。

本发明的另一目的在于提供状态空间模型算法。

下面对状态空间模型作进一步说明。

首先，设计无人艇的动力学模型如下：

其中，v为船体运动状态信息；为船体位置信息；u为主推进器及方向舵控制输入；ω为外部扰动，M、N、G为适当维数的矩阵。

在发生故障时的动力学模型如下：

其中，v为船体运动状态信息；为船体位置信息；u为主推进器及方向舵控制输入；ω为外部扰动；f为故障信息，M、N、G、F为适当维数的矩阵。

综上所述，本发明的优点及积极效果为：

本发明的基于强化学习的无人艇异常工况自愈控制方法。针对天气、风浪、海草等复杂的海上工作情况，建立一个强化学习的模型反复训练；强化学习具有自我探索的能力，适用于搜索解决方案，将无人艇从异常工况中，恢复性能，实现自愈。

附图说明

图1是本发明实施例提供的基于强化学习的无人艇异常工况自愈控制方法流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

下面结合附图对本发明的应用原理作详细的描述。

如图1所示，本发明实施例提供的基于强化学习的无人艇异常工况自愈控制方法包括以下步骤：

S101：初始模型的建立；

S102：利用典型强化学习方法设计得到u；

S103：u的训练以及对于无人艇的补偿；

S104：实现无人艇异常工况自愈。

进一步，所述第一步的初始模型的建立具体包括：

时间差分方法的值函数公式更新为：

u(S_t)←u(S_t)+α(R_t+1+γu(S_t+1)-u(S_t))

u(s)＝E[G_t|S_t＝s]＝E[R_t+1+γG_t+1|S_t＝s]

u的训练采用TD(λ)的方法：

G_t ⁽¹⁾＝R_t+1+γu(S_t+1)

G_t ⁽²⁾＝R_t+1+γR(S_t+2)+γ²u(S_t+1)

G_t ⁽ⁿ⁾＝R_t+1+γR(S_t+2)+…+γ^n-1R(S_t+n)+γⁿu(S_t+n)

u补偿故障:

下面对状态空间模型作进一步说明。

首先，设计无人艇的动力学模型如下：

在发生故障时的动力学模型如下：

作为本发明的实施例，当无人艇被水草缠住时，可以利用强化学习训练的得到模型控制来设计行进方向，实现解锁。

证明部分(具体实施例/实验/仿真/药理学分析/能够证明本发明创造性的正面实验数据、证据材料、鉴定报告、商业数据、研发证据、商业合作证据等)

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于强化学习的无人艇异常工况自愈控制方法，其特征在于，所述基于强化学习的无人艇异常工况自愈控制方法包括：

第一步，初始模型的建立；

第二步，利用典型强化学习方法设计得到u；

第三步，u的训练以及对于无人艇的补偿；

第四步，实现无人艇异常工况自愈。

2.如权利要求1所述的基于强化学习的无人艇异常工况自愈控制方法，其特征在于，所述第一步的初始模型的建立具体包括：

3.如权利要求1所述的基于强化学习的无人艇异常工况自愈控制方法，其特征在于，所述第二步的利用典型强化学习方法设计得到u具体包括：

由于无人艇与环境的实时交互模型是未知的，第一步中建立的大体模型只是根据先前已有的数据建立的，用于对模型不断修正的初始模型，对于u的设计使用时间差分的方法来得到修正的值函数u；时间差分方法结合了蒙特卡罗的采样方法和动态规划方法的利用后续状态的值函数估计当前的值函数；

时间差分方法的值函数公式更新为：

u(S_t)←u(S_t)+α(R_t+1+γu(S_t+1)-u(S_t))

u(s)＝E[G_t|S_t＝s]＝E[R_t+1+γG_t+1|S_t＝s]。

4.如权利要求1所述的基于强化学习的无人艇异常工况自愈控制方法，其特征在于，所述第三步的u的训练以及对于无人艇的补偿具体包括：

u的训练采用TD(λ)的方法：

C_t ⁽¹⁾＝R_t+1+γu(S_t+1)

G_t(2)＝R_t+1+γR(S_t+2)+γ²u(S_t+1)

C_t ⁽ⁿ⁾＝R_t+1+γR(S_t+2)+…+γ^n-1R(S_t+n)+γⁿu(S_t+n)

u补偿故障：

5.如权利要求1所述的基于强化学习的无人艇异常工况自愈控制方法，其特征在于，所述根据强化学习方法建立的训练自愈模型的传递函数可以是状态空间模型。

6.如权利要求5所述的基于强化学习的无人艇异常工况自愈控制方法，其特征在于，所述状态空间模型算法为：

设计无人艇的动力学模型：

其中，v为船体运动状态信息；为船体位置信息；u为主推进器及方向舵控制输入；ω为外部扰动，M、N、G为适当维数的矩阵；

在发生故障时的动力学模型如下：

7.一种应用权利要求1～5任意一项所述基于强化学习的无人艇异常工况自愈控制方法的无人艇。