CN114371700B

CN114371700B - 一种概率滤波强化学习无人船控制方法、装置及终端设备

Info

Publication number: CN114371700B
Application number: CN202111538078.5A
Authority: CN
Inventors: 崔允端; 李慧云; 彭磊
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2021-12-15
Filing date: 2021-12-15
Publication date: 2023-07-18
Anticipated expiration: 2041-12-15
Also published as: CN114371700A

Abstract

本申请适用于无人驾驶控制技术领域，提供了一种概率滤波强化学习无人船控制方法、装置及终端设备，方法包括：获取t时刻的无人船的第一状态数据、第一控制信号和t‑1时刻的第二控制信号，对第一状态数据、第一控制信号及第二控制信号进行偏差补偿处理，得到偏差补偿信号，根据偏差补偿信号进行规划，得到目标控制信号，根据目标控制信号控制无人船在t+1时刻的运动状态，实现对不断变化复杂海洋环境中扰动因素的实时响应，从而提高应对复杂海洋环境的泛化能力、控制能力及稳定性能。

Description

一种概率滤波强化学习无人船控制方法、装置及终端设备

技术领域

本申请属于无人驾驶控制技术领域，尤其涉及一种概率滤波强化学习无人船控制方法、装置及终端设备。

背景技术

近年来，由于船舶在运动过程中，极易受到海洋环境中风、浪、流等多种难以观测、预测并且快速变化的扰动因素的影响，使得船舶的安全性不高，导致国际内航运业专业工作人士日益稀缺，航运成本增加，同时引起一些由于人工失误引发的各类海运事故，因此无人船艇的驾驶技术是在提高航运效率、加强航运安全、减少环境污染等多方面具有重大意义的一项技术。

相关的无人船艇的驾驶技术通常由现代信息技术、自动控制技术和人工智能技术等汇集而成的具有感知能力、记忆能力且能通过与环境相互作用学习适应环境并自主决策的无人船控制方法、传统的基于无模型强化学习算法的无人船控制方法，或传统的基于模型强化学习算法的无人船控制方法来实现。

其中，传统的自主决策无人船控制方法主要依赖于根据船舶的先验知识进行建模，再根据模型设计控制器。然而，这种方法高度依赖于参数，缺乏应对复杂的海洋环境下多种任务的泛化能力。

而传统的基于无模型强化学习算法的无人船控制方法无法支持服从随机分布的状态，因此难以在复杂的海洋环境下的无人船艇上完成强化学习收敛，应对复杂的海洋环境下多种任务的控制能力差。传统的基于模型强化学习算法的无人船控制方法(以概率推断学习控制算法(probabilistic inference for learning control，PILCO为代表)能够通过挂载概率模型实现对环境不确定性的量化，但需要执行大量的计算操作，应对复杂的海洋环境下多种任务的实时性能和稳定性能差。

发明内容

本申请实施例提供了一种概率滤波强化学习无人船控制方法、装置及终端设备，可以解决传统无人船控制方法应对复杂海洋环境的泛化能力、控制能力及稳定性能差的问题。

第一方面，本申请实施例提供了一种概率滤波强化学习无人船控制方法，包括：

获取t时刻的所述无人船的第一状态数据、第一控制信号和t-1时刻的第二控制信号，所述第一控制信号用于控制所述无人船在所述t时刻的运动状态，所述第二控制信号用于控制所述无人船在所述t-1时刻的运动状态；

对所述第一状态数据、所述第一控制信号及所述第二控制信号进行偏差补偿处理，得到偏差补偿信号；

根据所述偏差补偿信号进行规划，得到目标控制信号；

根据所述目标控制信号控制所述无人船在t+1时刻的运动状态。

第二方面，本申请实施例提供了一种概率滤波强化学习无人船控制装置，包括：

数据通信模块，用于获取t时刻的所述无人船的第一状态数据、第一控制信号和t-1时刻的第二控制信号，所述第一控制信号用于控制所述无人船在所述t时刻的运动状态，所述第二控制信号用于控制所述无人船在所述t-1时刻的运动状态；

数据处理模块，用于对所述第一状态数据、所述第一控制信号及所述第二控制信号进行偏差补偿处理，得到偏差补偿信号；

信号预测模块，用于根据所述偏差补偿信号进行规划，得到目标控制信号；

控制模块，用于根据所述目标控制信号控制所述无人船在t+1时刻的运动状态。

第三方面，本申请实施例提供了一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面中任一项所述的概率滤波强化学习无人船控制方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面中任一项所述的概率滤波强化学习无人船控制方法。

第五方面，本申请实施例提供了一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行上述第一方面中任一项所述的概率滤波强化学习无人船控制方法。

本申请实施例与现有技术相比存在的有益效果是：获取无人船在t时刻的第一状态数据、第一控制信号及t-1时刻的第二控制信号，对第一状态数据、第一控制信号和第二控制信号进行偏差补偿处理得到偏差补偿信号，从而根据偏差补偿信号规划得到t+1时刻的目标控制信号，以根据目标控制信号控制无人船艇在t+1时刻的驾驶状态，实现对不断变化复杂海洋环境中扰动因素的实时响应，从而提高应对复杂海洋环境的泛化能力、控制能力及稳定性能。

可以理解的是，上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例提供的概率滤波强化学习无人船控制系统的结构示意图；

图2是本申请一实施例提供的概率滤波强化学习无人船控制方法的流程示意图；

图3是本申请一实施例提供的概率滤波强化学习无人船控制系统的计算流程示意图。

图4是本申请一实施例提供的概率滤波强化学习无人船控制方法步骤S102的流程示意图；

图5是本申请一实施例提供的概率滤波强化学习无人船控制方法步骤S103的流程示意图；

图6是本申请另一实施例提供的概率滤波强化学习无人船控制方法的另一流程示意图；

图7是本申请一实施例提供的概率滤波强化学习无人船控制装置的结构示意图；

图8是本申请实施例提供的终端设备的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本申请说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

本申请实施例提供的概率滤波强化学习无人船控制方法可以应用于手机、平板电脑、船载设备、车载设备、笔记本电脑、超级移动个人计算机(ultra-mobile personalcomputer，UMPC)等，本申请实施例对终端设备的具体类型不作任何限制。

近年来，由于船舶在运动过程中，极易受到海洋环境中风、浪、流等多种难以观测、预测并且快速变化的扰动因素的影响，使得船舶的安全性不高，导致国际内航运业专业工作人士日益稀缺，航运成本增加，同时引起一些由于人工失误引发的各类海运事故，因此无人船艇的驾驶技术是在提高航运效率、加强航运安全、减少环境污染等多方面具有重大意义的一项技术。相关的无人船艇的驾驶技术通常由现代信息技术、自动控制技术和人工智能技术等汇集而成的具有感知能力、记忆能力且能通过与环境相互作用学习适应环境并自主决策的无人船控制方法、传统的基于无模型强化学习算法的无人船控制方法，或传统的基于模型强化学习算法的无人船控制方法来实现。上述方法存在应对复杂海洋环境的泛化能力、控制能力及稳定性能差的问题。为解决这一问题，本申请提出了一种概率滤波强化学习无人船控制方法、概率滤波强化学习无人船控制装置、终端设备及计算机可读存储介质，可在无人船驾驶过程中，通过实时获取无人船的驾驶状态数据，对状态数据进行偏差补偿处理得到偏差补偿信号，根据偏差补偿信号规划下一时刻的目标控制信号，根据目标控制信号来控制无人船艇在下一时刻的驾驶状态，实现对不断变化复杂海洋环境中扰动因素的实时响应，从而提高应对复杂海洋环境的泛化能力、控制能力及稳定性能。

为实现本申请所提出的技术方案，可先构建一概率滤波强化学习无人船控制系统。请参阅图1，该概率滤波强化学习无人船控制系统由一个控制处理器及预测处理器构成，且控制处理器与预测处理器通信。

其中，控制处理器为基于控制信号控制无人船艇驾驶状态的处理器，预测处理器为用于提供控制信号预测功能的处理器。在无人船艇的自动驾驶过程中，预测处理器用于实时获取控制处理器提供的第一状态数据、第一控制信号和第二控制信号，对上述第一控制信号、第一状态数据和第二控制信号进行偏差补偿处理得到偏差补偿信号，根据偏差补偿信号规划下一时刻的目标控制信号，并发送至控制处理器，控制处理器用于根据上述目标控制信号控制无人船艇在下一时刻的驾驶状态。

为了说明本申请所提供的技术方案，以下结合具体附图及实施例进行详细说明。

图2示出了本申请提供的概率滤波强化学习无人船控制方法的示意性流程图，作为示例而非限定，该方法可以应用于上述船载设备中。

S101、获取t时刻的所述无人船的第一状态数据、第一控制信号和t-1时刻的第二控制信号，所述第一控制信号用于控制所述无人船在所述t时刻的运动状态，所述第二控制信号用于控制所述无人船在所述t-1时刻的运动状态。

具体地，在驾驶过程中无人船是处于持续运动状态的，因此，用于控制无人船运动状态的控制信号也是一个持续的信号；即第一控制信号是指在t-1时刻经过预测确定的控制信号，用于控制无人船从t-1时刻到t时刻的运动状态，第二控制信号是指在t-2时刻经过预测确定的控制信号，用于控制无人船从t-2时刻到t-1时刻的运动状态；通过控制处理器获取已存储的t-1时刻预测处理器发送的第一控制信号，及t-2时刻预测处理器发送的第二控制信号，通过安装于无人船中的数据采集装置采集获得t时刻的第一状态数据，并发送至预测处理器；其中，数据采集装置包括但不限于GPS定位装置、位姿传感器、速度传感器、海风传感器(用于获取环境中的风速和风向数据)、海浪雷达(用于获取环境中的海浪、海波数据)中的至少两种；对应的，第一状态数据包括但不限于状态信号和外部环境数据；状态信号包括但不限于位置信息、位姿数据、运动速度和运动方向中的至少两种；外部环境数据包括但不限于风速、风向海浪及海波数据中的至少两种，第一控制信号/第二控制信号包括但不限于位置信息、位姿数据、运动速度、运动方向中的至少两种。

S102、对所述第一状态数据、所述第一控制信号及所述第二控制信号进行偏差补偿处理，得到偏差补偿信号。

具体地，对第二控制信号、第一状态数据和第一控制信号进行滤波处理及偏差补偿处理，计算得到下一时刻的预测状态信号，作为无人船在运动过程中产生的偏差补偿信号。

可以理解的是，在预测目标控制信号的过程中无人船处于持续运动状态，同时在驾驶过程中，无人船的驾驶状态易受到海洋环境中风、浪、流等多种扰动因素的影响，因此，上述偏差补偿信号仅表示在理想状态下的下一时刻无人船艇的状态信号。

S103、根据所述偏差补偿信号进行规划，得到目标控制信号。

具体地，将偏差补偿信号输入至预测控制器进行规划，得到t+1时刻的目标控制信号。通过对偏差补偿信号进行规划得到t+1时刻的目标控制信号，可以克服在计算过程中，由无人船连续的运动所(以及当前环境中存在的扰动因素对无人船驾驶状态的影响)产生的误差，使得确定的t+1时刻的目标控制信号可以表示在下一时刻无人船的最优状态数据，提高无人船的驾驶安全。

如图3所示，提供了一种概率滤波强化学习无人船控制系统的计算流程示意图。

图3中，以t时刻为例，控制处理器将第一控制信号和第二控制信号/>以及通过安装于无人船中的数据采集装置采集获得第一状态数据/>发送至预测处理器；预测处理器通过对第二控制信号和第一状态数据进行概率滤波处理，得到t时刻的预测状态信号(x_tt)，对预测状态信号和第一控制信号进行偏差补偿处理，得到t+1时刻的预测状态信号，作为偏差补偿信号(如图中的/>)，并输入至预测控制器中进行规划，得到t+1目标控制信号/>并发送至控制处理器；控制处理器根据目标控制信号/>控制无人船从t时刻到t+1时刻的运动状态。

S104、根据所述目标控制信号控制所述无人船在t+1时刻的运动状态。

具体地，将无人船的状态信号(如位姿数据、运动速度、运行方向等)更新为目标控制信号，以控制无人船从t时刻到t+1时刻的运动状态。

如图4所示，在一个实施例中，所述步骤S102，包括：

S1021、将所述第一状态数据和第二控制信号输入至预训练的基于概率滤波的强化学习模型，对所述第一状态数据和所述第二控制信号进行概率滤波处理，得到预测状态信号；

S1022、对所述预测状态信号和所述第一控制信号进行偏差补偿处理，得到偏差补偿信号。

具体地，基于概率滤波的强化学习模型具体为融合贝叶斯滤波迭代预测过程和高斯过程的概率模型。将第一状态数据和第二控制信号输入至预训练的基于概率滤波的强化学习模型，通过预训练的基于概率滤波的强化学习模型中的贝叶斯滤波迭代预测过程概率模型，对第一状态数据和第二控制信号进行概率滤波处理，得到t时刻的预测状态信号，然后利用基于概率滤波的强化学习模型中的高斯过程概率模型对第一控制信号和预测状态信号进行偏差补偿处理，得到t+1时刻的偏差补偿信号。

具体地，贝叶斯滤波迭代预测过程概率模型的运行方法：以时间t-1时刻为例，我们定义对t-1时刻的无人船的预测状态信号的先验信息为x_t-1|t-1～N(μ_t-1|t-1,Σ_t-1|t-1)，根据基于高斯过程的概率模型和矩匹配，在已知无人船将要执行的控制信号的情况下，来预测服从高斯分布的下一时刻的控制信号：

当无人船在t-1时刻执行了控制信号后，移动到第t步，并且获取t-1时刻包含噪声的状态数据y_t-1。根据当前模型预测状态信号N(μ_t|t-1,Σ_t|t-1)和获取的含噪声状态数据/>贝叶斯滤波迭代处理器将计算预测状态信号的后验信息x_t|t～N(μ_t|t,Σ_t|t)：

其中，Σ_y为预定义的状态数据的方差，W表示噪声数据(假设噪声数据服从高斯分布)，根据上述公式1-2执行迭计算，可以确定t-1时刻的无人船的预测状态信号x_t-1|t-1～N(μ_t-1|t-1,Σ_t-1|t-1)。

依此类推，在t时刻，将第二控制信号和第一状态数据输入基于概率滤波的强化学习模型，得到无人船的预测状态信号的先验信息为x_t|t～N(μ_t|t,Σ_t|t)(也即t时刻的预测状态信号，预测状态信号主要通过对应时刻的期望μ和方差∑表示)。

具体地，偏差补偿处理主要是在t时刻利用基于概率滤波的强化学习模型中的高斯过程概率模型，对第一控制信号和预测状态信号进行偏差补偿处理，规划得到t+1时刻无人船的预测状态信号(也即偏差补偿信号)，来补偿潜在的偏差。首先需要基于高斯过程建立一个无人船动态的概率模型：

该基于高斯过程的概率模型是一个随机变量的集合，假设该模型中任何有限数量的随机变量都服从一个联合高斯分布。定义t时刻的第一状态数据为x，下一时刻的控制信号通过高斯过程对每一个维度a＝1,...D进行概率建模，得到：

其中，是由t时刻的输入信号(x_t表示t时刻的预测状态信号(也即x_t|t～N(μ_t|t,Σ_t|t))，u_t表示t时刻的第一控制信号)。预测目标/>的值完全由均值函数/>和如下的协方差平方指数核函数确定，如下式：

其中，超参数和/>通过训练数据集(包括状态训练数据集/>和控制训练数据集Y＝[y_t+1,...,y_t+N])，利用梯度下降算法最大化边缘似然函数计算得到。对于任意新的输入数据/>利用高斯过程根据贝叶斯定理计算它的后验的均值和方差作为下一时刻的预测结果：

其中表示公式3中K^a对应的参数。

具体地，高斯过程模型并不支持输入状态/>包含不确定性，因此无法进行预测状态信号的不确定性的迭代，这是因为对服从分布的输入状态求解高斯过程后验均值和方差的结果服从没有解析解的非高斯分布：

通过积分精确计算的结果，难以应用在实际海洋环境中。因此，通过使用矩匹配来将非高斯分布拟合为一个具有相同均值和方差的高斯分布来进行近似计算。通过进一步假设不确定的状态和确定的预测状态信号/>是独立的以提升计算效率，如下式：

[μ_t+1,Σ_t+1]＝h(μ_t,Σ_t,u_t) (公式8)

k_a(x_i,u_i,x_j,u_j)＝k_a(u_i,u_j)×k_a(x_i,x_j) (公式9)

其中，i，j分别表示输出数据的不同维度；

通过公式(6)允许在输入状态数据x_t～N(μ_t,Σ_t)不确定的情况下对公式(1)中的动力学预测模型进行预测，将其与控制信号u_*一起考虑得到下式：

对于目标维度a，h(μ,Σ,u_*)的平均值下通过下式进行计算：

每两个维度之间的方差Σ_aa*和协方差Σ_ab*(其中a≠b)通过下式(公式(12)和公式(13))计算得到：

其中，向量l_a和矩阵L，Q的形式如下所示：

其中，a，b分别表示输入数据的不同维度。Σ为一个总维度*总维度的矩阵，Σaa表示上述矩阵的对角元素，Σab表示上述矩阵中第a行第b列的元素。p表示概率分布，Λ_a为一个对角矩阵，其尺度对应k_a(x_i,x_j)中训练时输入的长度的尺度，z'和R的定义如下式：

具体地，通过在基于高斯过程的概率模型中添加设计贝叶斯滤波迭代过程，通过对比无人船的数据采集装置回传的带有噪声的状态数据和基于概率滤波的强化学习模型的预测状态信号的差异，来动态更新当前模型对无人船所处状态的信念。通过滤波迭代处理得到的信念将作为基于高斯过程的概率模型进行多步预测的初始方差，可以提升基于高斯过程的概率模型预测的精准度。

具体地，从模型预测的角度来看，融合贝叶斯滤波迭代预测过程和高斯过程的概率模型以基于当前模型的置信度来限制状态空间，减轻了状态数据具有过大不确定性时解析矩匹配的无意义预测。从动态规划的角度上来看，贝叶斯滤波过程隐式地将系统动力学从马尔科夫决策过程转换为部分可观察马尔科夫决策过程，这使得融合贝叶斯滤波迭代预测过程和高斯过程的概率模型将不可观测的外部扰动因素建模为隐藏状态，从而提高预测控制器多步未来状态的能力，提升控制表现。

如图5所示，在一个实施例中，所述步骤S103，包括：

S1031、将所述偏差补偿信号输入至预测控制器并进行求解，使所述预测控制器的目标函数满足预设的约束条件，得到所述目标控制信号。

具体地，在无人船驾驶的过程中，会实时采集无人船的状态数据并基于上述状态数据预测下一时刻的控制信号。由于无人船的驾驶控制动作是连续执行的，而基于概率滤波的强化学习模型的滤波和决策过程均具有一定的计算复杂度。因此，虽然可以根据无人船在t时刻的第一控制信号和预测状态信号计算得到t+1时刻的预测状态信号(也即偏差补偿信号)，但在计算过程中，无人船的驾驶状态相对t时刻的驾驶状态已经发生了一定的偏差，这将会导致预测控制器性能的劣化。

具体地，通过预测控制器对t+1时刻的偏差补偿信号进行规划得到t+1时刻的目标控制信号，以解决在无人船实时驾驶控制过程中的延迟问题(即消除在计算过程中的运动偏差及外部因素的干扰)。

具体地，将上述融合贝叶斯滤波迭代预测过程和高斯过程的概率模型和预测控制器融合成为统一的并行模型预测控制(MPC)框架。通过预测控制器中的目标函数来实时规划满足预设的约束条件的目标控制信号。

在一个实施例中，所述目标函数为：

其中，s表示时间，H表示对于服从高斯分布的偏差补偿的预测分布，x_s表示第s时刻的偏差补偿信号，u_s表示第s时刻待优化的预设控制信号，表示目标控制信号序列，/>表示t+1时刻的目标控制信号。

具体地，将通过基于概率滤波的强化学习模型预测得到的t+1时刻的偏差补偿信号作为x_s输入至预测控制器并进行迭代计算来求解，使上述目标函数满足预设的约束条件，得到t+1时刻的目标控制信号，γ为遗忘参数，取值范围为(0,1]，s越大时，γ的乘方次数(如式中s-t+1)越大，导致γ^s-t+1的值越来越小。

具体地，在每一个时刻t+1，预测控制器将根据下式未来H步的优化控制序列(该序列中每一个元素都包含油门和舵角两个控制维度，对应控制运行速度和运行方向)，并将执行单步控制信号/>移动到时间步t+2，然后重复寻找最小化损失函数的优化控制序列，从而确定t+1时刻的目标控制信号/>其中，优化算法可以为分线性规划算法，如顺序二次规划(Sequential Quadratic Programming(SQP))其中，H可根据实际情况进行具体设定，例如，设定H为5。u_s可根据实际需求进行具体设定。

在一个实施例中，所述约束条件：所述目标控制信号位于预设数据范围内，所述预设数据范围包括最大预设数值和最小预设数值：

[μ_s+1,∑_s+1]＝h(μ_s,∑_s,u_s),x_s～N(μ_s,∑_s)； (公式20)

u_s∈[u_min,u_max]；

其中，μ表示期望，∑表示方差，N表示目标控制信号服从高斯分布，u_min表示最小预设数值，u_max表示最大预设数值。

具体地，约束条件为位于预设数据范围内且满足高斯分布的状态数据，其中预设数据范围包括最大预设数值和最小预设数值。对应的，通过预测控制器对偏差补偿信号进行迭代优化计算，得到服从高斯分布、小于最大预设数值且大于最小预设数值的目标控制信号；其中，最大预设数值、最小预设数值可根据实际需求进行具体设定。

如图6所示，在一个实施例中，所述方法，还包括：

S201、获取训练数据集；其中，所述训练数据集包括多个连续时刻的状态训练数据及与每个状态训练数据对应的下一时刻的控制训练数据；

S202、通过所述训练数据集对基于概率滤波的强化学习模型进行迭代训练，得到预训练的基于概率滤波的强化学习模型。

具体地，获取训练数据集，包括多个连续时刻的状态训练数据及与每个状态训练数据对应的下一时刻的控制训练数据Y＝[Y_t+1,Y_t+2,,,Y_t+H]，预先设定预测步长H，时间间隔Δt(可根据实际需求进行具体设定，例如设定时间间隔Δt＝0.1s)，通过对训练数据集对基于概率滤波的强化学习模型进行迭代训练，得到预训练的基于概率滤波的强化学习模型。

在一个实施例中，所述通过所述训练数据集对基于概率滤波的强化学习模型进行迭代训练，得到预训练的基于概率滤波的强化学习模型，包括：

通过所述训练数据集对所述基于概率滤波的强化学习模型进行迭代训练，得到与每个所述状态训练数据对应的下一时刻的预测训练数据；

确定每个时刻所述预测训练数据及对应的所述控制训练数据之间的误差；

在检测到所述误差均小于或等于预设阈值时，判定迭代训练完成，得到预训练的基于概率滤波的强化学习模型。

具体地，预先设定一个预设阈值作为迭代误差，通过训练数据集对基于概率滤波的强化学习模型进行迭代训练(通过对每个状态训练数据进行概率滤波处理)，得到与每个状态训练数据对应的下一时刻的预测训练数据，计算得到每个时刻的预测训练数据与对应的控制训练数据之间的误差，在检测到每个时刻的误差均小于或等于预设阈值时，判定迭代训练完成，得到预训练的基于概率滤波的强化学习模型。

其中，预设阈值可根据实际情况进行具体设定，例如，设定预设阈值为0.2，对应的在检测到误差为0.1时，判定迭代训练完成，得到预训练的基于概率滤波的强化学习模型。

通过所述训练数据集对所述基于概率滤波的强化学习模型进行迭代训练；

在检测到迭代次数达到预设次数时，判定迭代训练完成，得到预训练的基于概率滤波的强化学习模型。

具体地，预先设定迭代次数(即预设次数)，以及每次迭代的长度，通过训练数据集对基于概率滤波的强化学习模型进行迭代训练，在检测到迭代次数达到预设次数时，判定迭代训练完成，得到预训练的基于概率滤波的强化学习模型。

其中，预设次数可根据实际情况进行具体设定。例如，设定预设次数为10次，对应的在检测到迭代次数为10时，判定迭代训练完成，得到预训练的基于概率滤波的强化学习模型。

本申请通过获取无人船在t时刻的第一状态数据、第一控制信号及t-1时刻的第二控制信号，对第一状态数据、第一控制信号和第二控制信号进行偏差补偿处理得到偏差补偿信号，从而根据偏差补偿信号规划得到t+1时刻的目标控制信号，以根据目标控制信号控制无人船艇在t+1时刻的驾驶状态，实现对不断变化复杂海洋环境中扰动因素的实时响应，从而提高应对复杂海洋环境的泛化能力、控制能力及稳定性能。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

对应于上文实施例所述的概率滤波强化学习无人船控制方法，图7示出了本申请实施例提供的概率滤波强化学习无人船控制装置的结构框图，为了便于说明，仅示出了与本申请实施例相关的部分。

参照图7，该概率滤波强化学习无人船控制装置100包括：

数据通信模块101，用于获取t时刻的所述无人船的第一状态数据、第一控制信号和t-1时刻的第二控制信号，所述第一控制信号用于控制所述无人船在所述t时刻的运动状态，所述第二控制信号用于控制所述无人船在所述t-1时刻的运动状态；

数据处理模块102，用于对所述第一状态数据、所述第一控制信号及所述第二控制信号进行偏差补偿处理，得到偏差补偿信号；

信号预测模块103，用于根据所述偏差补偿信号进行规划，得到目标控制信号；

控制模块104，用于根据所述目标控制信号控制所述无人船在t+1时刻的运动状态。

在一个实施例中，所述数据处理模块，包括：

概率滤波处理单元，用于将所述第一状态数据和第二控制信号输入至预训练的基于概率滤波的强化学习模型，对所述第一状态数据和所述第二控制信号进行概率滤波处理，得到预测状态信号；

偏差补偿处理单元，用于对所述预测状态信号和所述第一控制信号进行偏差补偿处理，得到偏差补偿信号。

在一个实施例中，所述信号预测模块具体用于将所述偏差补偿信号输入至预测控制器并进行求解，使所述预测控制器的目标函数满足预设的约束条件，得到所述目标控制信号。

在一个实施例中，所述目标函数为：

[μ_s+1,∑_s+1]＝h(μ_s,∑_s,u_s),x_s～N(μ_s,∑_s)；

u_s∈[u_min,u_max]；

在一个实施例中，所述装置还包括：

训练数据通信模块，用于获取训练数据集；其中，所述训练数据集包括多个连续时刻的状态训练数据及与每个状态训练数据对应的下一时刻的控制训练数据；

预训练模块，用于通过所述训练数据集对基于概率滤波的强化学习模型进行迭代训练，得到预训练的基于概率滤波的强化学习模型。

需要说明的是，上述装置/单元之间的信息交互、执行过程等内容，由于与本申请方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

图8为本实施例提供的终端设备的结构示意图。如图8所示，该实施例的终端设备8包括：至少两个处理器80(图8中仅示出两个)第一处理器80和第二处理器83、存储器81以及存储在所述存储器81中并可在所述第一处理器80和/或第二处理器83上运行的计算机程序82，所述第一处理器80执行所述计算机程序82时实现上述任意各个概率滤波强化学习无人船控制方法实施例中的步骤S101和步骤S104，第二处理器83执行所述计算机程序82时实现上述任意各个概率滤波强化学习无人船控制方法实施例中的步骤S102、S103、S201和S202。

所述终端设备8可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。该终端设备可包括，但不仅限于，第一处理器80和第二处理器83、存储器81。本领域技术人员可以理解，图8仅仅是终端设备8的举例，并不构成对终端设备8的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如还可以包括输入输出设备、网络接入设备等。

所称处理器80可以是中央处理单元(Central Processing Unit，CPU)，该处理器80还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器81在一些实施例中可以是所述终端设备8的内部存储单元，例如终端设备8的硬盘或内存。所述存储器81在另一些实施例中也可以是所述终端设备8的外部存储设备，例如所述终端设备8上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字卡(Secure Digital,SD)，闪存卡(Flash Card)等。所述存储器81还可以既包括所述终端设备8的内部存储单元也包括外部存储设备。所述存储器81用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等，例如所述计算机程序的程序代码等。所述存储器81还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。

本申请实施例提供了一种计算机程序产品，当计算机程序产品在移动终端上运行时，使得移动终端执行时实现可实现上述各个方法实施例中的步骤。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括：能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区，根据立法和专利实践，计算机可读介质不可以是电载波信号和电信信号。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/网络设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/网络设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种概率滤波强化学习无人船控制方法，其特征在于，包括：

根据所述偏差补偿信号进行规划，得到目标控制信号；

根据所述目标控制信号控制所述无人船在t+1时刻的运动状态；

所述对所述第一状态数据、所述第一控制信号及所述第二控制信号进行偏差补偿处理，得到偏差补偿信号，包括：

将所述第一状态数据和第二控制信号输入至预训练的基于概率滤波的强化学习模型，对所述第一状态数据和所述第二控制信号进行概率滤波处理，得到预测状态信号；

对所述预测状态信号和所述第一控制信号进行偏差补偿处理，得到偏差补偿信号；

通过预训练的基于概率滤波的强化学习模型中的贝叶斯滤波迭代预测过程概率模型，在时间t-1的时刻，我们定义对t-1时刻的无人船的预测状态信号的先验信息，根据基于高斯过程的概率模型和矩匹配，在已知无人船将要执行的控制信号情况下，来预测服从高斯分布的下一时刻的控制信号；当无人船在t-1时刻执行了控制信号后，移到第t步，并且获取t-1时刻包含噪声的状态数据，根据当前模型预测状态信号和获取的含噪声状态数据，贝叶斯滤波迭代处理器将计算预测状态信号的后验信息，在t时刻，将第二控制信号和第一状态数据输入基于概率滤波的强化学习模型，得到无人船的预测状态信号的先验信息，即t时刻的预测状态信号，预测状态信号通过对应时刻的期望和方差表示；

所述根据所述偏差补偿信号进行规划，得到目标控制信号，包括：

将所述偏差补偿信号输入至预测控制器并进行求解，使所述预测控制器的目标函数满足预设的约束条件，得到所述目标控制信号；

所述目标函数为：

；

其中，s表示时间，H表示对于服从高斯分布的偏差补偿的预测分布，表示第s时刻的偏差补偿信号，/>表示第s时刻待优化的预设控制信号，/>表示目标控制信号序列，/>表示t+1时刻的目标控制信号，/>为遗忘参数。

2.如权利要求1所述的概率滤波强化学习无人船控制方法，其特征在于，所述约束条件：所述目标控制信号位于预设数据范围内，所述预设数据范围包括最大预设数值和最小预设数值：

；

其中，表示期望，/>表示方差，/>表示目标控制信号服从高斯分布，/>表示最小预设数值，/>表示最大预设数值。

3.如权利要求1所述的概率滤波强化学习无人船控制方法，其特征在于，所述方法，还包括：

获取训练数据集；其中，所述训练数据集包括多个连续时刻的状态训练数据及与每个状态训练数据对应的下一时刻的控制训练数据；

通过所述训练数据集对基于概率滤波的强化学习模型进行迭代训练，得到预训练的基于概率滤波的强化学习模型。

4.一种概率滤波强化学习无人船控制装置，其特征在于，包括：

控制模块，用于根据所述目标控制信号控制所述无人船在t+1时刻的运动状态；

所述目标函数为：

；

5.一种终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至3任一项所述的方法。

6.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至3任一项所述的方法。