CN116400691B

CN116400691B - 一种新型离散时间指定性能强化学习无人艇航向跟踪控制方法及系统

Info

Publication number: CN116400691B
Application number: CN202310321516.5A
Authority: CN
Inventors: 白伟伟; 章文俊; 刘强
Original assignee: Dalian Maritime University
Current assignee: Dalian Maritime University
Priority date: 2023-03-29
Filing date: 2023-03-29
Publication date: 2023-11-21
Anticipated expiration: 2043-03-29
Also published as: CN116400691A

Abstract

本发明提供一种新型离散时间指定性能强化学习无人艇航向跟踪控制方法及系统。本发明方法包括：构建无人艇离散时间动力学模型；构建无人艇航向跟踪变化系统；根据航向角速度动态误差，将航向角速度动态误差约束在指定范围内，设计离散时间误差约束变换方法，计算无约束系统误差；根据无约束系统误差，设计无人艇强化学习评价模块；基于无人艇强化学习评价模块和无约束系统误差，设计无人艇航向跟踪控制器，得到无人艇舵角指令，将舵角指令传递给无人艇舵机输出无人艇航向角，实现无人艇航向指定性能跟踪控制。本发明解决了离散时间指定性能控制稳定分析难的问题，实现无人艇航向指定性能控制，突破了离散时间指定性能控制设计依赖滑模控制的限制。

Description

一种新型离散时间指定性能强化学习无人艇航向跟踪控制方法及系统

技术领域

本发明涉及船舶自动控制技术领域，具体而言，尤其涉及一种新型离散时间指定性能强化学习无人艇航向跟踪控制方法及系统。

背景技术

无人艇航向控制是船舶自动驾驶中重要的关键技术之一。受复杂海况影响，无人艇航向控制难以取得良好的控制效果，其根本原因在于控制器无法获得精确地补偿。指定性能控制能够为控制器提供较为精确地补偿，从而使控制器实现指定的控制性能。

现有的指定性能控制以连续时间变换方式进行变换，在稳定性分析时更多的依赖滑模控制，极大地限制了其在离散时间系统的发展和应用。本发明旨在提出一套新型的离散时间指定性能变换方法，实现无人艇航向指定性能控制，突破离散时间指定性能控制技术壁垒。

发明内容

根据上述提出的技术问题，提供一种新型离散时间指定性能强化学习无人艇航向跟踪控制方法及系统。本发明主要面向离散时间无人艇航向控制系统，通过航向动态误差变换，提出一种新型的离散时间指定性能强化学习无人艇航向跟踪控制方法，通过指定性能技术，能够有效提高控制精度。

本发明采用的技术手段如下：

一种新型离散时间指定性能强化学习无人艇航向跟踪控制方法，包括：

构建无人艇离散时间动力学模型；

对构建的无人艇离散时间动力学模型进行系统变换，构建无人艇航向跟踪变化系统；

根据航向角速度动态误差，将航向角速度动态误差约束在指定范围内，设计一种新型的离散时间误差约束变换方法，计算得到用于设计控制器的无约束系统误差；

根据得到的无约束系统误差，设计无人艇强化学习评价模块；

基于无人艇强化学习评价模块和无约束系统误差，设计无人艇航向跟踪控制器，得到无人艇系统舵角指令，将舵角指令传递给无人艇舵机输出无人艇航向角，实现无人艇航向指定性能跟踪控制。

进一步地，所述构建无人艇离散时间动力学模型，包括：

采集无人艇航向信息，并将采集到的无人艇航向信息发送至船载计算机，船载计算机考虑无人艇回转非线性特性，构建无人艇离散时间动力学模型，其中，无人艇航向信息包括无人艇舵机测量的舵角信息和罗经测量的航向角信息以及航向角速度信息，构建的无人艇离散时间动力学模型具体为：

其中，x₁(k)为无人艇航向角，角标1为第1个子系统，k为时刻；x₂(k)为航向角速度，角标2为第2个子系统；u(k)为舵角输入；y(k)为系统输出；为航向信息向量；f₁(x₁(k))和/>为未知光滑的非线性函数；g₁(x₁(k))和/>为未知有界光滑函数，并满足/>和/> 和/>是未知的正常数；d(k)为未知有界的外界干扰，并满足/> 是未知的正数。

进一步地，所述对构建的无人艇离散时间动力学模型进行系统变换，构建无人艇航向跟踪变化系统，具体包括：

无人艇船载计算机利用航向信息计算航向跟踪动态误差，如下：

e₁(k)＝x₁(k)-y_d(k)

e₂(k)＝x₂(k)-α(k)

其中，e₁(k)为无人艇航向角与参考信号的航向角动态误差；e₂(k)为无人艇航向角速度与虚拟控制律α(k)的误差信号；y_d(k)为光滑有界的参考信号；

为了便于对无人艇系统进行航向跟踪控制设计，并避免子系统无关联问题，对构建的无人艇离散时间动力学模型进行系统变换，建立无人艇航向跟踪变化系统，如下：

其中，F₁(·)和F₂(·)为非线性光滑未知函数；G₁(·)和G₂(·)为非线性光滑函数，并满足和/>

进一步地，所述根据航向角速度动态误差，将航向角速度动态误差约束在指定范围内，设计一种新型的离散时间误差约束变换方法，计算得到用于设计控制器的无约束系统误差，具体包括：

基于无人艇船载计算机的航向动态角误差e₁(k)，设计约束为：

-β_minφ(k)＜e₁(k)＜β_maxφ(k)

φ(k+1)＝(1-γ)φ(k)+γφ_∞

其中，β_min和β_max为设计的正常数并满足β_min≤β_max，φ(k)为光滑函数，γ∈(0,1)决定学习速率，φ(k)的初始值满足-φ(0)＜e₁(0)＜φ(0)；

为了实现指定性能-β_minφ(k)＜e₁(k)＜β_maxφ(k)，做如下变换：

其中，为转换后的无约束误差，/>为单调递增函数，满足

设计单调递增函数如下：

根据设计的单调递增函数计算得到转换后的无约束误差/>

根据设计的单调递增函数和转换后的无约束误差/>计算得到航向动态角误差e₁(k)：

e₁(k)＝h(k)(β_maxφ(k)-e₁(k))

其中，

进一步地，所述根据得到的无约束系统误差，设计无人艇强化学习评价模块，具体包括：

基于无人艇船载计算机的航向角动态误差e₁(k)和跟踪性能阈值μ，设计效用函数

其中，表示当前跟踪性能满足要求，/>表示当前跟踪性能不满足要求；

根据贝尔曼原理，利用效用函数设计策略效用函数q(k)，如下：

其中，0＜β＜1为设计参数，N为时间范围；

根据神经网络万能逼近定理，得到策略效用函数q(k)，如下：

其中，θ_c为期望权值向量，并满足表示未知的正常数，下角标c表示评价模块；上角标T表示转置运算；/>为有界的高斯基函数；δ_c为逼近误差，并满足/> 为未知的正常数；

定义贝尔曼误差Ξ_c(k)，如下：

其中，为策略效用函数q(k)的估计，/>表示理想权值θ_c的估计；

根据定义的贝尔曼误差Ξ_c(k)，定义代价函数采用梯度下降法最小化代价函数J_c(k)，得到评价模块神经网络自适应律，如下：

其中，λ_c为学习速率。

进一步地，所述基于无人艇强化学习评价模块，设计无人艇航向跟踪控制器，得到无人艇系统舵角指令，将舵角指令传递给无人艇舵机输出无人艇航向角，实现无人艇航向指定性能跟踪控制，包括：

设计无人艇强化学习系统执行模块中的虚拟控制律α(k)和神经网络自适应律

设计无人艇强化学习系统执行模块中的控制律u(k)和神经网络自适应律

进一步地，所述设计无人艇强化学习系统执行模块中的虚拟控制律α(k)和神经网络自适应律具体包括：

设计虚拟控制律α(k)，如下：

其中，为神经网络输入，/>表示理想权值θ₁的估计；

定义第一个执行模块中的策略效用函数Ξ₁(k)，如下：

其中，k₁＝k-1；

根据策略效用函数Ξ₁(k)，定义代价函数采用梯度下降法最小化代价函数J₁(k)，得到第一个执行模块神经网络自适应律，如下：

其中，λ₁为学习速率。

进一步地，所述设计无人艇强化学习系统执行模块中的控制律u(k)和神经网络自适应律具体包括：

设计控制律u(k)，如下：

其中，表示神经网络理想权值θ₂的估计，并满足/> 表示未知的正常数，下角标2表示第一个子系统；/>为神经网络的输入向量；

定义第二个执行模块中的策略效用函数Ξ₂(k)，如下：

其中，k₂＝k；

根据策略效用函数Ξ₂(k)，定义代价函数采用梯度下降法最小化代价函数J₂(k)，得到第二个执行模块神经网络自适应律，如下：

其中，λ₂为学习速率。

本发明还提供了一种基于上述新型离散时间指定性能强化学习无人艇航向跟踪控制方法的新型离散时间指定性能强化学习无人艇航向跟踪控制系统，包括：数据采集单元、数据传输单元、无人艇船载计算机以及数据反馈单元，其中：

所述数据采集单元，用于采集无人艇航向信息；

所述数据传输单元，用于将采集到的无人艇航向信息发送至无人艇船载计算机；

所述无人艇船载计算机，用于处理采集到的无人艇航向信息，实现无人艇强化学习控制；

所述数据反馈单元，用于将所述无人艇船载计算机输出的舵角指令传输给无人艇舵机输出无人艇舵角，实现对无人艇航向的跟踪控制。

进一步地，所述无人艇船载计算机包括无人艇航向系统动力学模型模块、无约束系统误差变换模块、无人艇评价模块、虚拟控制律模块、神经网络自适应更新率模块、强化学习控制律模块和数据反馈模块，其中：

所述无人艇航向系统动力学模型模块，用于基于所述无人艇航向信息构建系统输入与输出之间的无人艇离散时间非线性动力学模型和变换系统；

所述无人艇航向无约束系统误差变换模块，用于基于无人艇航向动态误差，设计一种新型的误差变换方法，实现受约束的无人艇航向动态误差变换为一种无约束的误差；

所述无人艇评价模块，用于根据无人艇航向误差，设计基于预设跟踪性能阈值的策略效用函数和代价函数，实现评价模块神经网络自适应更新率的设计；

所述虚拟控制律模块，用于利用参考信号和补偿模块信息设计无人艇系统的虚拟控制函数，设计虚拟控制律；

所述神经网络自适应更新率模块，用于基于所述评价模块、虚拟控制律模型、控制律模型信息和策略效用函数，得到神经网络自适应律；

所述强化学习控制律模块，用于基于系统误差信息和虚拟控制律模块信息，设计控制器；

所述数据反馈模块，用于将无人艇强化学习控制律模块输出信息传输至无人艇舵机，实现强化学习控制律模块对无人艇航向的控制。

较现有技术相比，本发明具有以下优点：

1、本发明提供的新型离散时间指定性能强化学习无人艇航向跟踪控制方法，针对离散时间系统，提出了一种新型的指定性能系统转换方法，有效解决了传统连续时间指定性能依赖滑模控制，解放了指定性能控制在离散时间系统领域的应用。

2、本发明提供的新型离散时间指定性能强化学习无人艇航向跟踪控制方法，针对无人艇面临复杂海况的问题，实现了航向指定性能跟踪控制，提高了无人艇航向控制精度。

基于上述理由本发明可在船舶运动智能控制等领域广泛推广。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明方法流程图。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。同时，应当清楚，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。对于相关领域普通技术人员己知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。在这里示出和讨论的所有示例中，任向具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

在本发明的描述中，需要理解的是，方位词如“前、后、上、下、左、右”、“横向、竖向、垂直、水平”和“顶、底”等所指示的方位或位置关系通常是基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，在未作相反说明的情况下，这些方位词并不指示和暗示所指的装置或元件必须具有特定的方位或者以特定的方位构造和操作，因此不能理解为对本发明保护范围的限制：方位词“内、外”是指相对于各部件本身的轮廓的内外。

为了便于描述，在这里可以使用空间相对术语，如“在……之上”、“在……上方”、“在……上表面”、“上面的”等，用来描述如在图中所示的一个器件或特征与其他器件或特征的空间位置关系。应当理解的是，空间相对术语旨在包含除了器件在图中所描述的方位之外的在使用或操作中的不同方位。例如，如果附图中的器件被倒置，则描述为“在其他器件或构造上方”或“在其他器件或构造之上”的器件之后将被定位为“在其他器件或构造下方”或“在其位器件或构造之下”。因而，示例性术语“在……上方”可以包括“在……上方”和“在……下方”两种方位。该器件也可以其他不同方式定位(旋转90度或处于其他方位)，并且对这里所使用的空间相对描述作出相应解释。

此外，需要说明的是，使用“第一”、“第二”等词语来限定零部件，仅仅是为了便于对相应零部件进行区别，如没有另行声明，上述词语并没有特殊含义，因此不能理解为对本发明保护范围的限制。

如图1所示，本发明提供了一种新型离散时间指定性能强化学习无人艇航向跟踪控制方法，包括：

S1、构建无人艇离散时间动力学模型；

S2、对构建的无人艇离散时间动力学模型进行系统变换，构建无人艇航向跟踪变化系统；

S3、根据航向角速度动态误差，将航向角速度动态误差约束在指定范围内，设计一种新型的离散时间误差约束变换方法，计算得到用于设计控制器的无约束系统误差；

S4、根据得到的无约束系统误差，设计无人艇强化学习评价模块；

S5、基于无人艇强化学习评价模块和无约束系统误差，设计无人艇航向跟踪控制器，得到无人艇系统舵角指令，将舵角指令传递给无人艇舵机输出无人艇航向角，实现无人艇航向指定性能跟踪控制。

具体实施时，作为本发明优选的实施方式，所述步骤S1中，构建无人艇离散时间动力学模型，包括：

具体实施时，作为本发明优选的实施方式，所述步骤S2中，对构建的无人艇离散时间动力学模型进行系统变换，构建无人艇航向跟踪变化系统，具体包括：

S21、无人艇船载计算机利用航向信息计算航向跟踪动态误差，如下：

e₁(k)＝x₁(k)-y_d(k)

e₂(k)＝x₂(k)-α(k)

S22、为了便于对无人艇系统进行航向跟踪控制设计，并避免子系统无关联问题，对构建的无人艇离散时间动力学模型进行系统变换，建立无人艇航向跟踪变化系统，如下：

具体实施时，作为本发明优选的实施方式，所述步骤S3中，根据航向角速度动态误差，将航向角速度动态误差约束在指定范围内，设计一种新型的离散时间误差约束变换方法，计算得到用于设计控制器的无约束系统误差，具体包括：

S31、基于无人艇船载计算机的航向动态角误差e₁(k)，设计约束为：

-β_minφ(k)＜e₁(k)＜β_maxφ(k)

φ(k+1)＝(1-γ)φ(k)+γφ_∞

S32、为了实现指定性能-β_minφ(k)＜e₁(k)＜β_maxφ(k)，做如下变换：

其中，为转换后的无约束误差，/>为单调递增函数，满足

S33、设计单调递增函数如下：

S34、根据设计的单调递增函数计算得到转换后的无约束误差/>

S35、根据设计的单调递增函数和转换后的无约束误差/>计算得到航向动态角误差e₁(k)：

e₁(k)＝h(k)(β_maxφ(k)-e₁(k))

其中，

具体实施时，作为本发明优选的实施方式，所述步骤S4中，根据得到的无约束系统误差，设计无人艇强化学习评价模块，具体包括：

S41、基于无人艇船载计算机的航向角动态误差e₁(k)和跟踪性能阈值μ，设计效用函数

S42、根据贝尔曼原理，利用效用函数设计策略效用函数q(k)，如下：

其中，0＜β＜1为设计参数，N为时间范围；

S43、根据神经网络万能逼近定理，得到策略效用函数q(k)，如下：

S44、定义贝尔曼误差Ξ_c(k)，如下：

S45、根据定义的贝尔曼误差Ξ_c(k)，定义代价函数采用梯度下降法最小化代价函数J_c(k)，得到评价模块神经网络自适应律，如下：

其中，λ_c为学习速率。

具体实施时，作为本发明优选的实施方式，所述步骤S5中，基于无人艇强化学习评价模块和无约束系统误差，设计无人艇航向跟踪控制器，得到无人艇系统舵角指令，将舵角指令传递给无人艇舵机输出无人艇航向角，实现无人艇航向指定性能跟踪控制，包括：

S51、设计无人艇强化学习系统执行模块中的虚拟控制律α(k)和神经网络自适应律在本实施例中，具体包括：

S511、设计虚拟控制律α(k)，如下：

其中，为神经网络输入，/>表示理想权值θ₁的估计；

S512、定义第一个执行模块中的策略效用函数Ξ₁(k)，如下：

其中，k₁＝k-1；

S513、根据策略效用函数Ξ₁(k)，定义代价函数采用梯度下降法最小化代价函数J₁(k)，得到第一个执行模块神经网络自适应律，如下：

其中，λ₁为学习速率。

S52、设计无人艇强化学习系统执行模块中的控制律u(k)和神经网络自适应律在本实施例中，具体包括：

S521、设计控制律u(k)，如下：

S522、定义第二个执行模块中的策略效用函数Ξ₂(k)，如下：

其中，k₂＝k；

S523、根据策略效用函数Ξ₂(k)，定义代价函数采用梯度下降法最小化代价函数J₂(k)，得到第二个执行模块神经网络自适应律，如下：

其中，λ₂为学习速率。

对应本申请中的新型离散时间指定性能强化学习无人艇航向跟踪控制方法，本申请还提供了一种新型离散时间指定性能强化学习无人艇航向跟踪控制系统，包括：数据采集单元、数据传输单元、无人艇船载计算机以及数据反馈单元，其中：

所述数据采集单元，用于采集无人艇航向信息；

在本实施例中，优选的，所述无人艇船载计算机包括无人艇航向系统动力学模型模块、无约束系统误差变换模块、无人艇评价模块、虚拟控制律模块、神经网络自适应更新率模块、强化学习控制律模块和数据反馈模块，其中：

对于本发明实施例的而言，由于其与上面实施例中的相对应，所以描述的比较简单，相关相似之处请参见上面实施例中部分的说明即可，此处不再详述。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种新型离散时间指定性能强化学习无人艇航向跟踪控制方法，其特征在于，包括：

构建无人艇离散时间动力学模型；

基于无人艇强化学习评价模块和无约束系统误差，设计无人艇航向跟踪控制器，得到无人艇系统舵角指令，将舵角指令传递给无人艇舵机输出无人艇航向角，实现无人艇航向指定性能跟踪控制，包括：

设计无人艇强化学习系统执行模块中的虚拟控制律α(k)和神经网络自适应律具体包括：

设计虚拟控制律α(k)，如下：

其中，为神经网络输入，/>表示理想权值θ₁的估计；β_max表示设计的正常数；φ表示为光滑函数；

定义第一个执行模块中的策略效用函数Ξ₁(k)，如下：

其中，k₁＝k-1；表示策略效用函数q(k)的估计；

其中，λ₁为学习速率；表示第一个执行模块的光滑函数；

设计无人艇强化学习系统执行模块中的控制律u(k)和神经网络自适应律具体包括：

设计控制律u(k)，如下：

其中，表示神经网络理想权值θ₂的估计，并满足/> 表示未知的正常数，下角标2表示第一个子系统；/>表示第二个执行模块的光滑函数；/>为神经网络的输入向量；/>表示航向信息向量；y_d(k+n)表示光滑有界的参考信号；α(k)表示虚拟控制律；

定义第二个执行模块中的策略效用函数Ξ₂(k)，如下：

其中，k₂＝k；

其中，λ₂为学习速率。

2.根据权利要求1所述的新型离散时间指定性能强化学习无人艇航向跟踪控制方法，其特征在于，所述构建无人艇离散时间动力学模型，包括：

3.根据权利要求1所述的新型离散时间指定性能强化学习无人艇航向跟踪控制方法，其特征在于，所述对构建的无人艇离散时间动力学模型进行系统变换，构建无人艇航向跟踪变化系统，具体包括：

e₁(k)＝x₁(k)-y_d(k)

e₂(k)＝x₂(k)-α(k)

其中，e₁(k)为无人艇航向角与参考信号的航向角动态误差；x₁(k)表示无人艇航向角，角标1为第1个子系统，k为时刻；e₂(k)为无人艇航向角速度与虚拟控制律α(k)的误差信号；y_d(k)为光滑有界的参考信号；x₂(k)表示为航向角速度，角标2为第2个子系统；

其中，F₁(·)和F₂(·)为非线性光滑未知函数；G₁(·)和G₂(·)为非线性光滑函数，并满足和/> 表示航向信息向量；u(k)表示舵角输入；/>和/>表示未知的正常数。

4.根据权利要求1所述的新型离散时间指定性能强化学习无人艇航向跟踪控制方法，其特征在于，所述根据航向角速度动态误差，将航向角速度动态误差约束在指定范围内，设计一种新型的离散时间误差约束变换方法，计算得到用于设计控制器的无约束系统误差，具体包括：

-β_minφ(k)＜e₁(k)＜β_maxφ(k)

φ(k+1)＝(1-γ)φ(k)+γφ_∞

其中，为转换后的无约束误差，/>为单调递增函数，满足

设计单调递增函数如下：

根据设计的单调递增函数计算得到转换后的无约束误差/>

e₁(k)＝h(k)(β_maxφ(k)-e₁(k))

其中，

5.根据权利要求1所述的新型离散时间指定性能强化学习无人艇航向跟踪控制方法，其特征在于，所述根据得到的无约束系统误差，设计无人艇强化学习评价模块，具体包括：

其中，0＜β＜1为设计参数，N为时间范围；

根据神经网络万能逼近定理，得到策略效用函数q(k)，如下：

定义贝尔曼误差Ξ_c(k)，如下：

其中，λ_c为学习速率。

6.一种基于权利要求1-5中任意一项权利要求所述新型离散时间指定性能强化学习无人艇航向跟踪控制方法的新型离散时间指定性能强化学习无人艇航向跟踪控制系统，其特征在于，包括：数据采集单元、数据传输单元、无人艇船载计算机以及数据反馈单元，其中：

所述数据采集单元，用于采集无人艇航向信息；

7.根据权利要求6所述的新型离散时间指定性能强化学习无人艇航向跟踪控制系统，其特征在于，所述无人艇船载计算机包括无人艇航向系统动力学模型模块、无约束系统误差变换模块、无人艇评价模块、虚拟控制律模块、神经网络自适应更新率模块、强化学习控制律模块和数据反馈模块，其中：