CN109884886B

CN109884886B - 一种基于宽度学习的船舶运动无模型自适应最优控制方法

Info

Publication number: CN109884886B
Application number: CN201910252022.XA
Authority: CN
Inventors: 李铁山; 原梁恩; 陈俊龙; 左毅; 单麒赫; 肖杨; 高潇阳; 时权; 马玉琢
Original assignee: Dalian Maritime University
Current assignee: Dalian Maritime University
Priority date: 2019-03-29
Filing date: 2019-03-29
Publication date: 2021-09-28
Anticipated expiration: 2039-03-29
Also published as: CN109884886A

Abstract

本发明公开了一种基于宽度学习的船舶运动无模型自适应最优控制方法，包括以下步骤：S1:建立包含输入层和输出层的宽度学习模型，S2:根据控制目标构建船舶航向的最优控制目标函数；S3:根据被控船舶当前状态利用训练好的宽度学习模型获得船舶下一时刻航行状态的估计；S4:构建评价网和执行网的三层BP神经网络结构；S5:利用评价网权值更新公式进行权值更新；S6：利用执行网权值更新公式更新执行网的连接权重从而获得船舶当前时刻控制率S7：将更新后的船舶状态与当前控制率输入到宽度学习模型中重复S3‑S7，在此过程中评价网和执行网权值收敛得到船舶航向的近似最优控制。

Description

一种基于宽度学习的船舶运动无模型自适应最优控制方法

技术领域

本发明属于自适应最优控制技术领域，尤其涉及一种基于宽度学习的船舶运动无模型自适应最优控制方法。

背景技术

船舶在航行过程中由于受到风、浪、流等外部扰动以及设备磨损等因素的影响，往往其运动模型一种基于宽度学习的船舶运动无模型自适应最优控制方法并不是可靠的。这时，如何利用被控船舶的运行数据进行系统的在线辨识以及无模型控制就成了人们所关注的问题。传统的自适应动态规划方法在解决无模型船舶航向控制问题时，往往采用诸如神经网络、模糊逻辑系统等函数逼近结构来进行船舶未知模型的在线辨识过程。在线辨识过程通常需要进行计算量大、耗时长的迭代过程，这一过程增加了自适应动态规划算法的计算量以及计算时间，使得自适应动态规划算法在实际应用时，存在着计算量大、计算时间长、实时性不足等问题。

发明内容

根据现有技术存在的问题，本发明公开了一种基于宽度学习的船舶运动无模型自适应最优控制方法，具体包括以下步骤：

S1:建立包含输入层和输出层的宽度学习模型，将被控船舶的航行状态信息输入至宽度学习模型进行模型的训练，将航行状态信息生成特征节点和增强节点并将三者共同作为宽度学习模型的输入层，其中航行状态信息至少包括航向、转艏角速度和舵角信息；

S2:根据控制目标构建船舶航向的最优控制目标函数；

S3:根据被控船舶当前状态利用训练好的宽度学习模型获得船舶下一时刻航行状态的估计；

S4:构建评价网和执行网的三层BP神经网络结构；

S5:将船舶当前状态和估计状态以及最优控制目标函数的相关参数输入至评价网中，利用评价网权值更新公式进行权值更新；

S6：将船舶当前状态、估计状态、最优控制目标函数的相关参数和评价网输出值输入至执行网中，利用执行网权值更新公式更新执行网的连接权重从而获得船舶当前时刻控制率，根据当前时刻控制率更新船舶航行状态；

S7：将更新后的船舶状态与当前控制率输入到宽度学习模型中重复S3-S7，在此过程中评价网和执行网权值收敛得到船舶航向的近似最优控制。

进一步的，S1中具体采用如下方式：

S11:建立包含输入层和输出层结构的宽度学习模型，其中输入层包括特征节点和增强节点，设特征节点共有N2组，每组N1个；增强节点共有N3个；

S12:将船舶的航行状态信息转换为M×N的信息矩阵，其中M为状态信息种类数，N为采样数量；

S13:将舵角信息转换成N×1的宽度学习模型的输出层；

S13:将信息矩阵输入到宽度学习模型，生成N×(N1×N2+N3)的宽度学习模型的输入层；

S14:将输入层与输出层相连接，并通过伪逆运算求出连接权重矩阵。

进一步的，S2中具体采用如下方式：

S21:定义离散系统无限时域上的最优控制目标函数如下：

其中，J(x_k)为最优控制目标函数，x_n表示第n时刻的船舶状态，u_n表示第n时刻船舶控制器舵角状态，Q(x_n)是x_n的函数，R是半正定的系数矩阵，最小化J(x_k)即为最优控制的控制目标；

S22:根据贝尔曼最优性原理将S21中构建的目标函数转化为离散系统的哈密顿-雅克比-贝尔曼DTHJB方程，该方程的相关参数将用于评价网与执行网的权值更新公式中。

由于采用了上述技术方案，本发明提供的一种基于宽度学习的船舶运动无模型自适应最优控制方法，该方法针对模型未知的船舶运动控制问题，在传统自适应动态规划算法的基础上加以改进，将宽度学习模型引入到自适应动态规划算法结构中的模型网中，解决传统自适应动态规划算法建模过程的时间长、计算量大等问题，有效降低了算法的计算量，增强算法的实时性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明方法的流程图；

图2为本发明中宽度学习模型的结构示意图。

具体实施方式

为使本发明的技术方案和优点更加清楚，下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚完整的描述：

如图1和图2所示的一种基于宽度学习的船舶运动无模型自适应最优控制方法，具体包括以下步骤：

A建立宽度学习模型

首先，采集被控船舶的真实航行状态数据，航行状态数据包括被控船舶的状态变量(例如航向、转艏角速度等)与控制器输出信息即舵角信息，并将其用于宽度学习模型的建立与训练。用采集到的数据生成维度为(M+N)×P的矩阵X，其中M为被控对象状态变量数，N为控制器数量，P为采集到的数据的数量。

其次，利用采集到的数据形成标签数据集矩阵Y，该矩阵的维度为M×P。该矩阵的每一行数据均与X矩阵的数据一一对应，代表X矩阵中的状态变量在下一时刻的状态。

本发明中所使用的宽度学习模型共有两层结构：输入层和输出层。提取被控对象实时数据生成特征节点与增强节点共同作为宽度学习系统的输入层。特征节点与增强节点的生成方式如下：

特征节点Z_i表示第i个特征节点，生成n个特征节点的公式如下：

Z_i＝f_i(φ_i(XW_ei+β_i)),i＝1,…,n (1)

其中，W_ei与β_i分别表示权重系数与偏置项，二者均为随机产生；f_i与φ_i分别表示标准化公式与传递函数。为了方便起见，将n个特征节点表示为Zⁿ＝[Z₁...Z_n]。

增强节点H_m表示第m个增强节点，生成增强节点的公式如下：

H_m＝ξ_m(ZⁿW_hm+β_hm) (2)

其中，W_hm与β_hm分别表示随机产生的权重系数与偏置项；ξ_m表示传递函数，例如sigmoid函数。为了方便起见，将m个增强节点表示为H^m＝[H₁...H_m]。

将宽度学习模型的输入层记作A，A通过将特征节点与增强节点拼接在一起得到，即

此时，整个宽度学习模型可以表示为

Y＝A×W (3)

其中，Y表示宽度学习系统的输出，W表示宽度学习系统的连接权重。由上面的步骤可以看出，宽度学习模型采用单层结构，故连接权重W可以通过伪逆运算直接求得，免去了传统神经网络求解连接权重时的迭代过程。这一过程如下所示：

W＝(A^T×A+I^n+m×c)^-1×A^T×Y (4)

其中，c代表正则化参数，从此公式中，我们可以看出宽度学习系统的连接权重的求得是不需要任何迭代过程的。

B.基于宽度学习模型的自适应动态规划最优控制算法过程：

B1.构建最优控制的目标函数，即离散系统的Hamilton-Jacobi-Bellman(DTHJB)方程，控制目标转化为最小化此方程。

B2.根据船舶的当前状态x_k利用训练好的宽度学习模型得到下一时刻系统状态的估计

B3.将系统状态x_k、下一时刻状态估计

与DTHJB方程相关参数输入到评价网中，利用评价网权值更新公式进行权值更新。

B4.将系统状态x_k、下一时刻状态估计

DTHJB方程相关参数与评价网输出共同输入到执行网中，利用执行网权值更新公式更新执行网的连接权重，并得出当前时刻控制率。

B5.将系统更新后的状态与当前控制率输入到宽度学习系统中，重复B2步骤，直至评价网与执行网权值收敛。

C、实施控制策略

C1.采用PWM信号输出单元根据数模转换单元的输出数据产生相应的PWM波形。

C2.执行机构根据PWM波形脉冲将电脉冲信号转换为角位移或线位移，驱使转舵装置，完成对船舶运动的控制。

进一步的，S2中具体采用如下方式：

S21:定义离散系统无限时域上的最优控制目标函数如下：

其中，J(x_k)为最优控制目标函数，x_n表示第n时刻的船舶状态，u_n表示第n时刻船舶控制器(舵角)状态，Q(x_n)是x_n的函数，它始终是正定的。R是半正定的系数矩阵。目标函数J(x_k)是对船舶当前状态的一种性能标准，最小化J(x_k)即为最优控制的控制目标。

S22:根据贝尔曼最优性原理，可以将S21中构建的目标函数转化为离散系统的哈密顿-雅克比-贝尔曼(DTHJB)方程，该方程的部分参数将用于评价网与执行网的权值更新公式中。

本发明公开的一种基于宽度学习的船舶运动无模型自适应最优控制方法，该方法采用了宽度学习模型对船舶进行自适应动态规划，仅需进行一次伪逆运算便可以求解出宽度学习模型的权值，省去了传统函数近似结构如神经网络、模糊逻辑系统等建模时繁琐的迭代过程，因此该方法解了决传统自适应动态规划算法建模过程的时间长、计算量大等问题，所以该方法有效降低了算法的计算量，增强算法的实时性。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于宽度学习的船舶运动无模型自适应最优控制方法，其特征在于包括以下步骤：

S2:根据控制目标构建船舶航向的最优控制目标函数；

S4:构建评价网和执行网的三层BP神经网络结构；

S7：将更新后的船舶状态与当前控制率输入到宽度学习模型中重复S3-S7，在此过程中评价网和执行网权值收敛得到船舶航向的近似最优控制；

S1中具体采用如下方式：

S13:将舵角信息转换成N×1的宽度学习模型的输出层；

S14:将输入层与输出层相连接，并通过伪逆运算求出连接权重矩阵；

S2中具体采用如下方式：

S21:定义离散系统无限时域上的最优控制目标函数如下：