CN115790608B

CN115790608B - 基于强化学习的auv路径规划算法及装置

Info

Publication number: CN115790608B
Application number: CN202310048358.0A
Authority: CN
Inventors: 陈德盛; 温家宝; 何景逸
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2023-01-31
Filing date: 2023-01-31
Publication date: 2023-05-30
Anticipated expiration: 2043-01-31
Also published as: CN115790608A

Abstract

本申请提供一种基于强化学习的AUV路径规划算法及装置。涉及水下无人潜航技术领域。包括：引入真实海洋测量数据，建立AUV三维水下海洋环境仿真模型，并根据高斯马尔科夫过程，模拟和控制海洋环境扰动，确定优化后的三维水下海洋环境仿真模型；采用最大熵强化学习算法SAC为框架，在优化后的三维水下海洋环境仿真模型的基础上对AUV的路径规划算法进行训练，得到训练好的路径规划算法；基于训练好的路径规划算法对AUV在海洋中的航行进行路径规划。以此实现对扰动海洋环境的鲁棒性，提升了路径规划的能力。

Description

基于强化学习的AUV路径规划算法及装置

技术领域

本申请涉及水下无人潜航技术领域，具体而言，涉及一种基于强化学习的AUV路径规划算法及装置。

背景技术

自主式水下航行器(Autonomous Underwater Vehicle，AUV)是人类认识海洋，探索海洋，开发海洋的重要手段和工具。因为其功能众多且无需投入人力实时操控，可以自主进行海洋水文观测，以及能源开采探测等多种任务，且不用担心工作人员的生命安全问题，因此在海洋探索开发中具有极强的优越性。一条适合的航路是AUV完成既定任务的重要一环，而合适的航路需要结合多种因素综合考虑才能得到并满足任务要求。但因为海洋环境具有很强的复杂性和不确定性，使得AUV的路径规划能力强弱，将对其航行的安全性，准确性以及探索效率等具有极大的影响，也对AUV路径规划研究提出了更多更高的要求。

发明内容

本申请实施例的目的在于提供一种基于强化学习的AUV路径规划算法及装置，用以提升路径规划的能力。

第一方面，本发明提供一种基于强化学习的AUV路径规划算法，包括：引入真实海洋测量数据，建立AUV三维水下海洋环境仿真模型，并根据高斯马尔科夫过程，模拟和控制海洋环境扰动，确定优化后的三维水下海洋环境仿真模型；采用最大熵强化学习算法SAC为框架，在优化后的三维水下海洋环境仿真模型的基础上对AUV的路径规划算法进行训练，得到训练好的路径规划算法；基于训练好的路径规划算法对AUV在海洋中的航行进行路径规划。

在可选的实施方式中，引入真实海洋测量数据，建立AUV三维水下海洋环境仿真模型，并根据高斯马尔科夫过程，模拟和控制海洋环境扰动，确定优化后的三维水下海洋环境仿真模型，包括：引入真实海洋测量数据，建立AUV三维水下海洋环境仿真模型；通过高斯马尔科夫过程，根据状态向量、模态函数的矩阵以及零均值的高斯白噪声模型，确定优化后的三维水下海洋环境仿真模型；所述零均值的高斯白噪声模型用于模拟和控制海洋环境扰动。

在可选的实施方式中，所述路径规划算法包括奖励函数，所述奖励函数基于距离变化奖励、边界碰撞奖励和最终目标奖励确定；其中，根据当前位置和目标点之间的距离与最后时刻位置和目标点之间的距离的距离差值，确定距离变化奖励；根据AUV执行任务时的范围限制确定边界碰撞奖励；AUV到达目标点后确定最终目标奖励。

在可选的实施方式中，所述路径规划算法包括温度系数，所述温度系数用于路径规划算法收敛控制以及AUV探索控制；初始设置最大的温度系数，以及构建目标熵，基于所述最大的温度系数、所述目标熵以及策略熵控制温度系数，其中，允许高度随机的动作，策略熵设定为始终小于目标熵。

第二方面，本发明提供一种基于强化学习的AUV路径规划装置，包括：确定模块，用于引入真实海洋测量数据，建立AUV三维水下海洋环境仿真模型，并根据高斯马尔科夫过程，模拟和控制海洋环境扰动，确定优化后的三维水下海洋环境仿真模型；训练模块，用于采用最大熵强化学习算法SAC为框架，在优化后的三维水下海洋环境仿真模型的基础上对AUV的路径规划算法进行训练，得到训练好的路径规划算法；规划模块，用于基于训练好的路径规划算法对AUV在海洋中的航行进行路径规划。

在可选的实施方式中，所述确定模块具体用于：引入真实海洋测量数据，建立AUV三维水下海洋环境仿真模型；通过高斯马尔科夫过程，根据状态向量、模态函数的矩阵以及零均值的高斯白噪声模型，确定优化后的三维水下海洋环境仿真模型；所述零均值的高斯白噪声模型用于模拟和控制海洋环境扰动。

第三方面，本发明提供一种电子设备，所述诊断设备连接器包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；存储器，用于存放计算机程序；处理器，用于执行存储器上所存储的程序时用于实现前述实施方式任一所述的算法。

第四方面，本发明提供一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现前述实施方式任一所述的算法步骤。

本申请的一种基于强化学习的AUV路径规划算法及装置。通过引入真实海洋测量数据，建立AUV三维水下海洋环境仿真模型，并根据高斯马尔科夫过程，模拟和控制海洋环境扰动，确定优化后的三维水下海洋环境仿真模型；采用最大熵强化学习算法SAC为框架，在优化后的三维水下海洋环境仿真模型的基础上对AUV的路径规划算法进行训练，得到训练好的路径规划算法；基于训练好的路径规划算法对AUV在海洋中的航行进行路径规划。以此实现对扰动海洋环境的鲁棒性，提升了路径规划的能力。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的一种基于强化学习的AUV路径规划算法流程示意图；

图2为本申请实施例提供的基于真实数据的三维海洋仿真环境图；

图3为本申请实施例提供的未加扰动的三维洋流局部图；

图4为本申请实施例提供的加扰动的三维洋流局部图；

图5为本申请实施例提供的修改前的温度系数收敛变化图；

图6为本申请实施例提供的修改后的温度系数收敛变化图；

图7为本申请实施例提供的强鲁棒性路径规划算法SRS整体框架图；

图8为本申请实施例提供的一种基于强化学习的AUV路径规划装置结构示意图；

图9为本申请实施例提供的一种电子设备结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

图1为本申请实施例提供的一种基于强化学习的AUV路径规划算法流程示意图。如图1所示，该方法包括：

S110，引入真实海洋测量数据，建立AUV三维水下海洋环境仿真模型，并根据高斯马尔科夫过程，模拟和控制海洋环境扰动，确定优化后的三维水下海洋环境仿真模型。

该初始的三维水下海洋环境仿真模型可以基于真实的海洋测量数据构建。

其中，引入真实海洋测量数据，建立AUV三维水下海洋环境仿真模型；通过高斯马尔科夫过程，根据状态向量、模态函数的矩阵以及零均值的高斯白噪声模型，确定优化后的三维水下海洋环境仿真模型；所述零均值的高斯白噪声模型用于模拟和控制海洋环境扰动。

S120，采用最大熵强化学习算法SAC为框架，在优化后的三维水下海洋环境仿真模型的基础上对AUV的路径规划算法进行训练，得到训练好的路径规划算法；

在一些实施例中，路径规划算法可以包括奖励函数，奖励函数基于距离变化奖励、边界碰撞奖励和最终目标奖励确定。

可以根据当前位置和目标点之间的距离与最后时刻位置和目标点之间的距离差值，确定距离变化奖励；根据AUV执行任务时的范围限制确定边界碰撞奖励；AUV到达目标点后确定最终目标奖励。

在一些实施例中，路径规划算法可以包括温度系数，温度系数用于路径规划算法收敛控制以及AUV探索控制；可以初始设置最大的温度系数，以及构建目标熵，基于最大的温度系数、目标熵以及策略熵控制温度系数，其中，允许高度随机的动作，策略熵设定为始终小于目标熵。

S130，基于训练好的路径规划算法对AUV在海洋中的航行进行路径规划。

通过本申请实施例，可以针对现有AUV海洋仿真环境不真实，数据由公式生成的问题，引入了真实海洋测量数据，构建了可靠的三维海洋仿真环境。能够解决在扰动海洋环境下，AUV无法正常进行路径规划的问题，增强了AUV对扰动海洋环境的鲁棒性。可帮助实现对AUV的智能化控制，赋予AUV根据海洋环境进行自主决策的能力。该方法经过大量的实验并进行了验证，有效地提高了该方法可靠性。

在一些实施例中，本申请实施例提供了一种基于强化学习的强鲁棒性AUV路径规划算法（SRS），包括以下步骤：

引入真实海洋测量数据，建立AUV三维水下海洋环境仿真模型；例如引入马里亚纳海沟部分海域的测量数据，测量区域位于(142°E∼142.5°E，11°N∼11.5°N，海平面10000M，其实际范围为54436.34m×55445.34m×10000m。通过Matlab构建三维海洋仿真环境，并划分为100×100×40的网格以方便展示，如图2所示。

为了模拟海洋环境的不确定性，我们在环境建模引入高斯马尔科夫模型，该模型是基于水声信号传播的原理。未加扰动的洋流局部图，如图3所示。

假设水声信号是一个简单的谐波，距离函数的近似解可以由汉克尔函数给出，因此，状态空间中的模态模型可以推导为可表示为：

其中

是状态向量，/>

是模态函数的矩阵。

其中

表示第n个状态，/>

表示第n个模态函数。它们的计算方式如下：

和c表示AUV的声源频率和声速。/>

为第n个模态函数。/>

为水平波数。

该方程显示了AUV声波在空间的变化情况。在考虑了海水不均匀性和其他因素的影响后，我们进一步加入了高斯马尔科夫过程模型。

其中

是零均值的高斯白噪声模型。从这个表述中，我们可以得到一个具有一定随机性且比较可靠的海洋模拟环境。同时，通过调整校正模型/>

的大小，可以控制洋流大小和方向的随机性。比如设置/>

，即扰动变化程度为原来的10%，如图4所示。

根据路径规划场景的需要，可以设置奖励函数，提高算法学习能力；奖励函数的设置主要包括以下三部分：距离变化奖励

、边界碰撞奖励/>

和最终目标奖励/>

。

对于

，首先分别计算当前位置（/>

）与目标点(/>

)的距离

，以及最后时刻位置（/>

）和目标点(/>

)的距离/>

。

/>

然后根据两个距离差值的变化，得到距离变化的奖励

：

其中，

是固定奖励，/>

是加权系数。距离变化奖励的目的是引导AUV减少与目标点的距离并逐渐接近目标点。

边界碰撞奖励

是对AUV执行任务时的范围限制，可以有效地帮助 AUV 减少探索范围。

最终目标奖励

是AUV到达目标点的最终奖励，它鼓励AUV尽快完成任务。

综上所述，奖励函数被设定为：

其中，

和/>

是两个奖励的触发条件。通过实验证明，奖励函数的设置可以有效加速算法训练，帮助AUV快速完成任务。当AUV触碰边界时，/>

=1，否则默认为0。当AUV到达目标点时，/>

=1，否则默认为0。具体来说，/>

=−100，/>

=1000。通过实验证明，奖励函数的设置可以有效加速算法训练，帮助AUV快速完成任务。

可以根据海洋环境的特点，修改温度系数，加快算法收敛速度；

温度系数是算法训练收敛和AUV探索控制的关键，其调节被构造为一个带约束的优化问题。假设

是在t时刻时AUV根据此时环境状态/>

采取动作/>

得到的奖励；/>

表示t时刻的策略，/>

表示策略熵，/>

表示熵阈值，E表示奖励的数学期望，T表示总训练时间。

伴随着期望奖励的最大化，要确保策略熵

大于阈值/>

。因此，温度系数的损失函数/>

可以表示为：

它通过拉格朗日乘数法和动态规划对温度系数

进行自动调节。由于海洋环境具有随机性大，无用信息多的特点，导致在探索过程中存在温度系数自动调节失效的问题。每次计算出的实际策略熵始终小于目标熵，使得温度系数不断增大，最终出现算法效果差，甚至无法收敛的情况。

为了适应随机性大的海洋环境，我们初始设置最大的温度系数，允许高度随机的动作，保证初始最大的探索度。因此构建了一个较小的目标熵，并将策略熵设定为始终小于目标熵。由此产生的差值将确保温度系数一直降低到收敛状态。

通过改变温度系数的自动调节方式，来控制算法在高随机环境下探索度设置。这种调整方式可以使AUV做出高度随机的动作选择，并保证在开始时进行最大限度的探索。随后直接降低温度系数，直到模型训练到收敛，有利于提高模型鲁棒性。修改前后的温度系数变化如图5和图6所示。

整体框架图如图7所示，采用最大熵强化学习算法SAC为框架，实现AUV在扰动环境下鲁棒性路径规划：对于强鲁棒性路径规划算法的设计，我们根据场景需要选择离散SAC作为基础框架，使用动作网络、软Q网络和目标Q网络进行数据处理，三种网络耦合可以提高算法的数据处理能力，经验池的设计可以提高样本利用率。结合最大熵强化学习算法SAC，将改进后的强鲁棒性强化学习算法SRS，应用于AUV路径规划场景中，实现对扰动海洋环境的鲁棒性。

图8为本申请实施例提供的一种基于强化学习的AUV路径规划装置结构示意图。如图8所示，该装置包括：确定模块801，用于引入真实海洋测量数据，建立AUV三维水下海洋环境仿真模型，并根据高斯马尔科夫过程，模拟和控制海洋环境扰动，确定优化后的三维水下海洋环境仿真模型；训练模块802，用于采用最大熵强化学习算法SAC为框架，在优化后的三维水下海洋环境仿真模型的基础上对AUV的路径规划算法进行训练，得到训练好的路径规划算法；规划模块803，用于基于训练好的路径规划算法对AUV在海洋中的航行进行路径规划。

在一些实施例中，确定模块801具体用于：引入真实海洋测量数据，建立AUV三维水下海洋环境仿真模型；通过高斯马尔科夫过程，根据状态向量、模态函数的矩阵以及零均值的高斯白噪声模型，确定优化后的三维水下海洋环境仿真模型；所述零均值的高斯白噪声模型用于模拟和控制海洋环境扰动。

在一些实施例中，路径规划算法包括奖励函数，奖励函数基于距离变化奖励、边界碰撞奖励和最终目标奖励确定；其中，根据当前位置和目标点之间的距离与最后时刻位置和目标点之间的距离的距离差值，确定距离变化奖励；根据AUV执行任务时的范围限制确定边界碰撞奖励；AUV到达目标点后确定最终目标奖励。

在一些实施例中，路径规划算法包括温度系数，温度系数用于路径规划算法收敛控制以及AUV探索控制；初始设置最大的温度系数，以及构建目标熵，基于最大的温度系数、目标熵以及策略熵控制温度系数，其中，允许高度随机的动作，策略熵设定为始终小于目标熵。

本申请实施例还提供了一种电子设备，如图9所示，包括处理器910、通信接口920、存储器930和通信总线940，其中，处理器910，通信接口920，存储器930通过通信总线940完成相互间的通信。

存储器930，用于存放计算机程序。

处理器910，用于执行存储器930上所存放的程序时，实现如上述任意一实施例的方法步骤。

上述提到的通信总线可以是外设部件互连标准（Peripheral ComponentInterconnect，PCI）总线或扩展工业标准结构（Extended Industry StandardArchitecture，EISA）总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器（Random Access Memory，RAM），也可以包括非易失性存储器（Non-Volatile Memory，NVM），例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器（Central Processing Unit，CPU）、网络处理器（Network Processor，NP）等；还可以是数字信号处理器（Digital SignalProcessing，DSP）、专用集成电路（Application Specific Integrated Circuit，ASIC）、现场可编程门阵列（Field-Programmable Gate Array，FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

由于上述实施例中电子设备的各器件解决问题的实施方式以及有益效果可以参见图1所示的实施例中的各步骤来实现，因此，本申请实施例提供的电子设备的具体工作过程和有益效果，在此不复赘述。

在本申请提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一的基于强化学习的AUV路径规划算法。

在本申请提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一的基于强化学习的AUV路径规划算法。

本领域内的技术人员应明白，本申请实施例中的实施例可提供为方法、系统、或计算机程序产品。因此，本申请实施例中可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例中可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本申请实施例中是参照根据本申请实施例中实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例中的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例中范围的所有变更和修改。

显然，本领域的技术人员可以对本申请实施例中实施例进行各种改动和变型而不脱离本申请实施例中实施例的精神和范围。这样，倘若本申请实施例中实施例的这些修改和变型属于本申请实施例中权利要求及其等同技术的范围之内，则本申请实施例中也意图包含这些改动和变型在内。