CN116295449A

CN116295449A - 水下自主航行器路径指示方法及装置

Info

Publication number: CN116295449A
Application number: CN202310593764.5A
Authority: CN
Inventors: 姜宇; 赵明浩; 齐红; 王光诚; 徐雹; 张凯欣
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2023-05-25
Filing date: 2023-05-25
Publication date: 2023-06-23
Anticipated expiration: 2043-05-25
Also published as: CN116295449B

Abstract

水下自主航行器路径指示方法及装置，涉及运动方向指示技术领域。为解决现有技术中存在的，水下自主航行器无法应对复杂的海洋环境的技术问题，本发明提供的技术方案为：水下自主航行器路径指示方法，包括：采集海洋环境对航行器的影响因素的步骤；采集航行器的可行动动作的步骤；建立奖励函数的步骤；根据奖励函数，建立强化网络的建模步骤；采集航行器的高不确定性动作策略和对应的航行器状态，得到经验元组集合的收集步骤；随机抽取集合中的经验元组对强化网络进行训练的训练步骤；重复收集步骤和训练步骤，至达到预设次数的步骤；根据训练后的强化网络确定航行器的最佳路径的步骤。适合应用于未知水下空间内的最优路径规划工作中。

Description

水下自主航行器路径指示方法及装置

技术领域

涉及运动方向指示技术领域，具体涉及复杂海洋场景下基于深度强化学习的局部路径规划方法。

背景技术

随着科技的进步和发展，人类逐渐向海洋探索，开展海洋环境与生物的科学研究，水下机器人是海洋技术领域的关键技术。水下自主航行器是水下航行器的一种，其自备能源，能够基于传感器自主导航、基于相关指令自主作业，相较于载人水下航行器和有缆水下航行器更具优势，目前在海底资源侦探、海底管道抢修等领域有着重要应用。

水下自主航行器的路径规划算法是水下自主航行器的核心技术之一，通过合适的建模方法建立易于计算机处理的环境模型，之后根据该抽象的环境模型规划出一条满足一定优化指标的最优路线，使水下自主航行器能够安全到达目标位置。根据水下自主航行器对海洋环境信息的掌握程度，路径规划算法又可以分为已知环境下的全局路径规划算法和未知环境下的局部路径规划算法。常见的全局路径算法包括栅格法、拓扑法、快速扩展随机树算法等；局部路径规划算法主要包括人工势场法、强化学习算法等。在实际任务中，由于实际环境存在洋流等随机因素，导致历史全局信息无法满足实时性和准确性要求；同时很多任务中无法事先具备全局信息，因此让水下自主航行器具备局部路径规划能力是水下自主航行器路径规划算法的重要组成部分。因此在解决实际问题时，往往将全局路径规划与局部路径规划相结合，使用水下自主航行器存储的海底环境地图作为全局环境信息进行整体指导，并使用水下自主航行器自身的探测设备，实时获取局部环境信息进行避障。

复杂的海洋场景指的是水下自主航行器运行的挑战性和动态环境。这些环境包括随机因素，如洋流、水下障碍物和变化的海洋条件。为了有效地导航，自主水下航行器依赖于全局和局部路径规划算法的结合，同时利用储存的海底环境地图和来自机载传感器的实时局部信息。

深度强化技术是深度学习技术和强化学习技术的结合，强化学习技术可以实现对环境的探索并选择最优动作；深度神经网络具备良好的拟合性能。通过神经网络的强大拟合能力来处理强化学习中状态、动作、价值函数，可以很方便地处理高维问题，使得算法准确性更高。

然而现有技术中的水下自主航行器路径规划算法对水下自主航行器的位置、方向，以及所处的海流、水深和海底地形等的考虑并不周全，导致下自主航行器无法应对复杂的海洋环境。

发明内容

为解决现有技术中存在的，水下自主航行器路径规划算法对水下自主航行器的位置、方向，以及所处的海流、水深和海底地形等的考虑并不周全，导致自主航行器无法应对复杂的海洋环境的技术问题，本发明提供的技术方案为：

水下自主航行器路径指示方法，所述方法包括：

采集海洋环境对航行器的影响因素的步骤；

采集航行器的可行动动作的步骤；

根据所述影响因素和可行动动作，建立奖励函数的步骤；

根据所述奖励函数，建立强化网络的建模步骤；

采集所述航行器的高不确定性动作策略和对应的航行器状态，得到经验元组集合的收集步骤；

随机抽取所述集合中的经验元组对所述强化网络进行训练的训练步骤；

重复所述收集步骤和训练步骤，至达到预设次数的步骤；

根据训练后的强化网络确定所述航行器的最佳路径的步骤。

进一步，提供一个优选实施方式，所述影响因素包括：水流、水温、水深和岩石。

进一步，提供一个优选实施方式，所述可行动动作包括：前进、左/右转、上升/下降和调整速度。

进一步，提供一个优选实施方式，所述建模步骤还包括：生成用于储存所述经验元组集合的重放缓冲器的步骤。

进一步，提供一个优选实施方式，所述得到经验元组的方式具体为：

为水下自主航行器制定策略，强调高不确定性行动，利用模拟器创建场景让水下自主航行器体验不同情境；

在模拟中收集经验元组，并计算优先权值；

将经验元组与优先权值合并为新数据结构，作为有效收集。

进一步，提供一个优选实施方式，计算优先权值的方式具体为：

根据时间差分算法得到所述经验元组的不确定性，根据所述不确定性得到优先权值。

进一步，提供一个优选实施方式，随机抽取经验元组的方式为：根据优先级加权随机抽样。

基于同一发明构思，本发明还提供了水下自主航行器路径指示装置，所述装置包括：

采集海洋环境对航行器的影响因素的模块；

采集航行器的可行动动作的模块；

根据所述影响因素和可行动动作，建立奖励函数的模块；

根据所述奖励函数，建立强化网络的建模模块；

采集所述航行器的高不确定性动作策略和对应的航行器状态，得到经验元组集合的收集模块；

随机抽取所述集合中的经验元组对所述强化网络进行训练的训练模块；

重复所述收集模块和训练模块的功能，至达到预设次数的模块；

根据训练后的强化网络确定所述航行器的最佳路径的模块。

基于同一发明构思，本发明还提供了计算机储存介质，用于储存计算机程序，当所述计算机程序被计算机读取时，所述计算机执行所述的水下自主航行器路径指示方法。

基于同一发明构思，本发明还提供了计算机，包括处理器和储存介质，当所述处理器读取所述储存介质中储存的计算机程序时，所述计算机执行所述的水下自主航行器路径指示方法。

与现有技术相比，本发明提供的技术方案的有益之处在于：

本发明提供的水下自主航行器路径指示方法，设计了多因素状态，如水下自主航行器的位置、方向，以及所处的海流、水深和海底地形等，使航行器得以更好地应对复杂的海洋环境。

本发明提供的水下自主航行器路径指示方法，充分考虑了海洋环境中的多样性和不确定性，为航行器提供了更稳定的导航基础。

本发明提供的水下自主航行器路径指示方法，采用设置优先级值和优先执行高不确定性动作的策略，有效地提高了训练效率。

本发明提供的水下自主航行器路径指示方法，通过计算优先级值并优先级加权随机抽取经验元组，利用抽取样本训练参数网络，从而在复杂环境下增强了航行器的应变能力和训练的可靠性。

本发明提供的水下自主航行器路径指示方法，适合应用于未知水下空间内的最优路径规划工作中，为提高水下航行器的自主避障能力和保证安全作业提供了稳健的技术支撑。

附图说明

图1为实施方式一提供的水下自主航行器路径指示方法的流程示意图；

图2为实施方式五提到的重放缓冲器应用于度强化网络的流程示意图。

具体实施方式

为使本发明提供的技术方案的优点和有益之处体现得更清楚，现结合附图对本发明提供的技术方案进行进一步详细地描述，具体的：

实施方式一、结合图1说明本实施方式，本实施方式提供了水下自主航行器路径指示方法，所述方法包括：

采集海洋环境对航行器的影响因素的步骤；

采集航行器的可行动动作的步骤；

根据所述影响因素和可行动动作，建立奖励函数的步骤；

根据所述奖励函数，建立强化网络的建模步骤；

重复所述收集步骤和训练步骤，至达到预设次数的步骤；

根据训练后的强化网络确定所述航行器的最佳路径的步骤。

具体的，方法包括：

步骤1、设计多因素状态应对复杂海洋环境，包括水下自主航行器的位置、方向等；

步骤2、根据水下自主航行器的运动情况确定可行动作，包括前进、左/右转、上升/下降和调整速度等行动；

步骤3、考虑到达目标、碰撞、深度限制、时间惩罚和能量惩罚等因素，根据实际问题建立奖励函数；

步骤4、依据状态空间与行动空间的维度，初始化深度强化网络，并准备一个用于存储经验元组的重放缓冲器；

步骤5、水下自主航行器采用优先执行高不确定性动作策略，模拟器生成新的状态，收集经验元组后，计算优先级值并合并存储至重放缓冲区；

步骤6、通过优先级加权随机抽取经验元组，利用抽取样本训练参数网络，根据时序差分误差调整样本优先级降低权重；

步骤7、重复步骤5和步骤6，直至达到预设的训练回合数或时间步上限或者训练曲线已经稳定收敛；

步骤8、根据经过训练的稳定模型确定水下自主航行器的最佳路径。

进一步地，步骤1通过以下方式实现：

步骤1.1、识别关键因素：首先要确定影响水下自主航行器在复杂海洋环境中性能的最关键因素，如水流、水温、水深以及岩石或碎片等障碍物；

步骤1.2、定义状态变量：基于关键因素，定义状态变量以代表水下自主航行器的当前情况。这些变量可能包括水下自主航行器的位置、方向、速度和其他传感器数据，如水温和深度；

步骤1.3、建立坐标系：建立一个合适的坐标系，如笛卡尔或极坐标，以表示水下自主航行器的位置和方向。这将有助于在不同情况下保持水下自主航行器状态的一致表示；

步骤1.4、纳入外部数据：利用外部数据源，如海洋学地图或实时海洋数据，以提供海洋环境信息，如障碍物的分布、水流和温度梯度；

步骤1.5、归一化和比例化状态变量：为了确保状态变量具有可比较的范围和幅度，对它们进行适当的标准化和缩放。这将有助于在深度强化学习算法中更好地学习；

步骤1.6、合并状态变量：将状态变量合并为一个单一的多因素状态表示。该表示法将被用作深度强化学习算法的输入，使其能够根据复杂的海洋环境和水下自主航行器的当前状态做出决定；

步骤1.7、动态地更新状态：实施一种方法，随着水下自主航行器的移动和海洋环境的变化，更新多因素状态表示。这种动态更新将使深度强化学习算法能够有效地应对不断变化的条件。

步骤2通过以下方式实现：

步骤2.1、确定可能的行动范围：列举水下自主航行器可以进行的所有基本动作，如向前运动、左/右转、上升/下降和速度调整。考虑水下自主航行器的推进和控制系统的限制和能力；

步骤2.2、定义行动参数：对于每一个基本动作，要明确支配该动作的参数，如左/右转的转角、上升/下降速度和速度调整范围；

步骤2.3、建立约束条件：确定适用于水下自主航行器运动和行动的约束条件，包括环境因素（如洋流、障碍物和压力限制）、能源消耗，以及水下自主航行器的物理和操作限制（如最大速度、转弯半径和深度等级）；

步骤2.4、开发一个运动模型：建立一个数学模型，根据选定的行动及其参数来描述水下自主航行器的运动。该模型应考虑水下自主航行器的动力学，包括其质量、阻力和浮力，以及环境的影响（例如，海流和湍流）；

步骤2.5、纳入安全系数：为了确保水下自主航行器的安全运行，为每个行动参数定义安全系数。例如，设置与障碍物的最小距离，限制最大转弯率，或限制上升/下降率，以防止可能损坏车辆的快速压力变化；

步骤2.6、优化动作组合：探索各种动作的组合，以确定实现所需运动的最有效方法。这可能涉及研究同时行动的效果，如在调整速度的同时转弯，以确定可以提高水下自主航行器性能的协同作用；

步骤2.7、验证可行性：使用模拟或实验测试所设计的可行行动，确保这些行动符合既定的约束条件，并确保运动模型准确预测水下自主航行器的行为；

步骤2.8、根据反馈完善行动：基于验证结果，根据需要完善和调整可行的动作及其参数，以提高其有效性和安全性，同时确保它们保持在规定的约束条件内。

步骤3通过以下方式实现：

步骤3.1、确定问题的关键目标和约束条件，如到达目标、避免碰撞、深度限制、时间和能量保存；

步骤3.2、给每个因素分配一个权重或数值，对期望的结果给予正的奖励，对不期望的结果给予负的奖励，并把它们合并成一个奖励函数；

步骤3.3、为奖励函数中的每个因素确定适当的数学表示，并对函数进行归一化处理，以便在不同情况下保持一致的奖励值；

步骤3.4、使用模拟、实验试验或专家意见来验证奖励函数，以确保它与问题的目标和约束相一致。

步骤4通过以下方式实现：

步骤4.1、定义状态空间和行动空间维度：确定代表水下自主航行器及其环境状态的输入特征的数量，以及水下自主航行器可以采取的离散行动的数量；

步骤4.2、设计深度强化网络架构：为深度强化网络算法创建一个神经网络架构，其输入层和输出层分别对应于状态空间和行动空间的维度。根据需要增加隐藏层，以实现复杂函数的逼近；

步骤4.3、初始化神经网络参数：使用随机或预先定义的值设置深度强化网络的初始权重和偏置，为学习过程提供一个起点；

步骤4.4、准备一个优先级的重放缓冲器：创建一个数据结构，如循环缓冲区或平衡和树，以存储具有额外优先级值的经验元组（状态、行动、奖励、下一个状态、完成标志和优先级）。根据可用的内存和期望的训练效率来定义缓冲区的大小。

步骤5通过以下方式实现：

步骤5.1、实施高不确定性行动的优先次序：为水下自主航行器制定一个策略，重点是执行具有高不确定性的行动，使车辆能够探索和学习陌生的情况；

步骤5.2、利用模拟器生成新的状态：利用模拟器创建各种水下场景，使水下自主航行器体验到它在运行过程中可能遇到的不同状态和情况；

步骤5.3、收集经验元组：当水下自主航行器在模拟场景中航行时，为车辆采取的每个行动收集经验元组（状态、行动、奖励、下一个状态和完成标志）;

步骤5.4、计算优先权值：实施时序差分或类似的算法来估计每个经验元组的不确定性或学习熟悉程度。优先权值通常被计算为时序差分误差的绝对值加上一个小的正常数，以避免零优先权；具体计算公式如下：

；

；

；

；

其中，

是优先级值；/>

是时序差分误差；/>

是通过深度强化网络计算出的目标/>

值；/>

是通过深度强化网络计算出的当前的/>

值，/>

是一个正实数，用于确保样本优先级的非零性，/>

是即时奖励，表示智能体在当前状态和动作下获得的奖励，/>

是是在状态s和动作a下的动作价值函数，用于估计在给定状态下采取特定动作的预期回报，/>

是折扣因子，表示未来奖励的相对重要性，通常取值在0到1之间；

步骤5.5、合并经验元组和优先级值：将经验元组与它们相应的优先权值合并，创建一个新的数据结构，包括状态、行动、奖励、下一个状态、完成标志和优先权。

步骤6通过以下方式实现：

步骤6.1、随机抽取经验元组：通过随机抽样从优先级的重放缓冲区中选择一批经验元组，选择的概率由优先级加权决定；具体计算公式如下：

；

其中，

是第/>

经验元组被选中的概率，/>

是第/>

个经验元组的优先级值，/>

是优先级重放缓冲区中的经验元组的总数，/>

是优先级抽样中的权重指数，用于调整优先级加权概率分布的形状。

步骤6.2、从样本中提取数据：对于抽样批次中的每个经验元组，提取状态、动作、奖励、下一个状态、完成标志和优先级值；

步骤6.3、训练参数化网络：使用提取的数据来计算损失，并根据优化算法更新深度强化网络的权重和偏差。损失函数通常包含了时序差分误差和重要性抽样权重，以减少优先抽样引入的偏差；

；

；

其中，

是与深度强化网络的参数/>

有关的损失函数，/>

是一批被抽样的经验元组，/>

是第/>

个经验元组的重要性抽样权重，/>

是第/>

个经验元组的时序差分误差，/>

是第

个经验元组的奖励；/>

是表示在深度强化网络中，在状态/>

下采取行动/>

的估计值，其中/>

是定义函数近似值的一组参数，/>

是目标网络的参数，用于稳定学习，

是目标网络的输出，用于计算下一个状态 si' 和动作ai’下的动作价值函数估计，/>

是表示在给定动作集合中，根据动作a’最大化表达式的操作，/>

是折扣因子，表示未来奖励的相对重要性，通常取值在0到1之间。

步骤6.4、重新计算时序差分误差：在更新深度强化网络之后，重新计算采样经验元组的时序差分误差，因为它们的值可能由于更新的网络参数而改变。

步骤7通过以下方式实现：

步骤7.1、重复步骤5和6，这些步骤涉及水下自主航行器对高不确定性行动使用优先执行策略，模拟新状态，并更新重放缓冲区。该过程继续通过优先权加权随机提取经验元组，训练参数网络，并根据时序差分误差调整样本优先权。

步骤7.2、判断是否满足以下条件之一：

a) 达到了预定的最大训练轮数，也就是说，算法已经完成了设定的迭代次数。

b) 达到了预定的时间步数，意味着算法已经花了一定的时间进行迭代。

c) 训练曲线已经稳定收敛，意味着模型的性能已经趋于平稳，表明进一步的迭代不会产生明显的改善。

步骤8通过以下方式实现：

步骤8.1、加载训练好的稳定性模型：将训练好的稳定性模型加载到模拟或测试环境中，确保所有必要的参数和设置都正确配置；

步骤8.2、输入任务约束条件和目标：在模拟或测试环境中输入任务约束和目标，包括诸如深度范围、速度、能源消耗、通信要求和有效载荷容量等因素；

步骤8.3、使用预测模型运行模拟：使用预测模型进行计算，选择在效率、稳定性和遵守任务约束之间提供最佳平衡的路径。这条路径应被认为是水下自主航行器的最佳路径。

实施方式二、本实施方式是对实施方式一提供的水下自主航行器路径指示方法的进一步限定，所述影响因素包括：水流、水温、水深和岩石。

具体的，多因素状态具体为，首先识别关键因素，如水流、水温、水深及岩石或碎片等障碍物，并根据这些因素定义状态变量以代表水下自主航行器的当前情况，例如位置、方向、速度和其他传感器数据（如水温和深度）。同时建立合适的坐标系统。接着，利用外部数据源获取海洋环境信息，同时对状态变量进行归一化、缩放并合并，以便输入到深度强化学习算法中。最后，采用动态更新方法使算法能够有效适应不断变化的条件。

实施方式三、本实施方式是对实施方式一提供的水下自主航行器路径指示方法的进一步限定，所述可行动动作包括：前进、左/右转、上升/下降和调整速度。

实施方式四、本实施方式是对实施方式一提供的水下自主航行器路径指示方法的进一步限定，所述建模步骤还包括：生成用于储存所述经验元组集合的重放缓冲器的步骤。

具体的，重放缓冲器设计方法具体为，构建优先级重放缓冲器，以存储具有优先级值的经验元组，同时根据内存及训练效率设定合适的缓冲区大小。

实施方式五、结合图2说明本实施方式，本实施方式是对实施方式一提供的水下自主航行器路径指示方法的进一步限定，所述得到经验元组的方式具体为：

在模拟中收集经验元组，并计算优先权值；

将经验元组与优先权值合并为新数据结构，作为有效收集。

实施方式六、本实施方式是对实施方式五提供的水下自主航行器路径指示方法的进一步限定，计算优先权值的方式具体为：

具体的，收集经验元组的方法具体为，首先为水下自主航行器制定策略，强调高不确定性行动，利用模拟器创建场景让水下自主航行器体验不同情境。然后，在模拟中收集经验元组，并用时间差分算法估计其不确定性。接着，计算优先权值。最后，将经验元组与优先权值合并为新数据结构，实现有效收集。

实施方式七、本实施方式是对实施方式一提供的水下自主航行器路径指示方法的进一步限定，随机抽取经验元组的方式为：根据优先级加权随机抽样。

具体的，抽取经验元组的方法具体为，首先依据优先级加权随机抽样，其中参数α决定抽样方式。然后，从抽样批次中提取各个经验元组的状态、动作、奖励、下一个状态和完成标志，从而有效地实现抽取目标。

实施方式八、本实施方式提供了水下自主航行器路径指示装置，所述装置包括：

采集海洋环境对航行器的影响因素的模块；

采集航行器的可行动动作的模块；

根据所述影响因素和可行动动作，建立奖励函数的模块；

根据所述奖励函数，建立强化网络的建模模块；

根据训练后的强化网络确定所述航行器的最佳路径的模块。

实施方式九、本实施方式提供了计算机储存介质，用于储存计算机程序，当所述计算机程序被计算机读取时，所述计算机执行实施方式一至七任意一项提供的水下自主航行器路径指示方法。

实施方式十、本实施方式提供了计算机，包括处理器和储存介质，当所述处理器读取所述储存介质中储存的计算机程序时，所述计算机执行实施方式一至七任意一项提供的水下自主航行器路径指示方法。

实施方式十一、本实施方式对实施方式一提供的水下自主航行器路径指示方法提供一个具体的实施方式，具体的：

步骤1、设计多因素状态应对复杂海洋环境，包括水下自主航行器的位置、方向等；该步骤包括：

步骤1.1、识别关键因素：确定影响水下自主航行器在复杂海洋环境中性能的最关键因素，如海流、水深以及海底的岩石或碎片等障碍物；

步骤1.2、定义状态变量：基于关键因素，定义状态变量以代表水下自主航行器的当前情况，包括位置

、姿态/>

、速度/>

、深度/>

、海流/>

和海底障碍物/>

；

步骤1.3、建立坐标系：使用地理坐标系（经度、纬度、高度）表示水下自主航行器的位置，欧拉角

表示姿态，将障碍物位置表示在同一地理坐标系下；

步骤1.4、纳入外部数据：利用卫星遥感数据获取实时海流信息，使用地形地貌数据识别海底障碍物的分布，将这些数据整合到状态变量中；

步骤1.5、归一化和比例化状态变量：将位置和速度数据除以最大范围（例如1000km和5m/s），将深度数据除以最大深度（例如5000m），将姿态数据除以360度，使状态变量值在0到1之间；

步骤1.6、合并状态变量：将归一化的状态变量组合成一个向量

，用作深度强化学习算法的输入；

步骤1.7、动态地更新状态：设计一个状态更新函数，输入为当前状态

和水下自主航行器的控制信号，输出为新的状态/>

。在每个时间步，根据水下自主航行器的运动和海洋环境的变化，使用该函数更新状态向量。

步骤2、根据水下自主航行器的运动情况确定可行动作，包括前进、左/右转、上升/下降和调整速度等行动；具体的步骤如下：

步骤2.1、确定可能的行动范围：水下自主航行器的基本动作包括向前运动、左/右转、上升/下降和速度调整；

步骤2.2、定义行动参数：为每个基本动作设置参数范围，例如左/右转角范围(±10°-±30°)、上升/下降速度范围(±0.5m/s-±1m/s)和速度调整范围(±0.5m/s-±1m/s)；

步骤2.3、建立约束条件：考虑最大速度为2m/s、转弯半径为10m和深度限制为100m；

步骤2.4、开发一个运动模型：使用二维运动模型描述水下自主航行器运动，位置更新为：

；

步骤2.5、纳入安全系数：设置与障碍物的最小距离为5m，限制最大转弯率为30°/s，限制上升/下降速率为1m/s；

步骤2.6、优化动作组合：探索向前运动、左/右转、上升/下降和速度调整的组合，以在满足约束条件的前提下提高水下自主航行器性能，比如：向前运动1m/s，左转15°，上升速度0.5m/s；向前运动1.5m/s，右转20°，下降速度0.5m/s；向前运动2m/s，左转10°，保持深度不变等；

步骤2.7、验证可行性：使用高保真仿真环境，如Gazebo或V-REP，测试所设计的可行行动，确保这些行动符合既定的约束条件，并确保运动模型准确预测水下自主航行器的行为；

步骤2.8、根据反馈完善行动：基于仿真验证结果，优化行动参数，如增大/减小转角范围，加大/减小速度调整范围，提高其有效性和安全性，同时确保它们保持在规定的约束条件内。

步骤3、考虑到达目标、碰撞、深度限制、时间惩罚和能量惩罚等因素，根据实际问题建立奖励函数；具体的步骤如下：

步骤3.1、确定关键目标和约束条件：到达目标点（距离为5km的海底测量点），避免碰撞（距离障碍物至少1m），深度限制（不超过100m深度，目标深度为80m），速度限制（最大速度不超过2m/s）和能量消耗（不超过500Wh）；

步骤3.2、分配权重：设置靠近目标点权重为1，避免碰撞权重为-10，维持目标深度权重为1，速度限制权重为-5，能量消耗权重为-0.01；正奖励用于期望结果，负奖励用于不期望结果；

步骤3.3、奖励函数表示：

；

；

；

；

；

；

其中：

、/>

、/>

、/>

和/>

分别表示接近目标点、与障碍物保持安全距离、接近目标深度、速度保持在限制范围内和能量消耗效率的奖励，/>

、/>

、/>

、/>

和/>

分别表示距离目标、靠近障碍物、深度偏离、速度超限和能量消耗的权重；/>

和/>

分别表示上一步和当前距离目标点的距离；/>

表示当前距离障碍物的最小距离；/>

表示当前速度；/>

表示每一步的能量消耗；/>

表示能量消耗的最大限制，表示在整个任务过程中智能体所允许消耗的最大能量。

步骤3.4、验证奖励函数：通过使用具体海洋环境的仿真软件，例如Gazebo或V-REP，进行模拟测试。在实验中设置障碍物、深度变化和时间限制等约束条件，观察水下自主航行器在尝试达到目标点的过程中是否遵循约束。同时，邀请专家对奖励函数及其效果进行评估，确保奖励函数与问题的目标和约束相一致。

步骤4、依据状态空间与行动空间的维度，初始化深度强化网络，并准备一个用于存储经验元组的重放缓冲器；具体的步骤如下：

步骤4.1、定义状态空间和行动空间维度：设状态空间维度为8（位置

、/>

，姿态角度，速度，深度，海流速度/>

、/>

，海底障碍物距离），行动空间维度为4（向前运动、左转、右转、上升/下降）。

步骤4.2、设计深度强化网络架构：为深度强化网络算法创建一个神经网络架构，输入层有8个神经元（对应状态空间维度），输出层有4个神经元（对应行动空间维度）。在输入层和输出层之间增加两个隐藏层，每层包含64个神经元，激活函数使用ReLU。

步骤4.3、初始化神经网络参数：使用正态分布随机初始化深度强化网络的初始权重（均值为0，标准差为0.01）和偏置（全零）。

步骤4.4、准备一个优先级的重放缓冲器：创建一个容量为10000的循环缓冲区，以存储具有额外优先级值的经验元组（状态、行动、奖励、下一个状态、完成标志和优先级）。根据可用的内存和期望的训练效率来定义缓冲区的大小。

步骤5、水下自主航行器采用优先执行高不确定性动作策略，模拟器生成新的状态，收集经验元组后，计算优先级值并合并存储至重放缓冲区；具体的步骤如下：

步骤5.1、我们将实施一种混合策略，包括贪心策略选择最优行动和利用优先级值进行加权随机选择。以下是公式描述：

；

；

；

其中

是行动/>

的优先级值，/>

是在状态s下采取动作a的概率，/>

是在给定状态下具有最大动作价值函数的最优动作，/>

是在状态s和动作a下的动作价值函数，用于估计在给定状态下采取特定动作的预期回报，/>

是在时刻t采取的动作，/>

是在下一时刻采取的动作。在训练过程中，可以逐渐降低/>

的值（例如，从 0.9 降低到 0.1），以便在探索阶段主要关注未知情况，而在利用阶段更加关注最优行动。这有助于更好地平衡探索和利用，并在复杂环境中获得更好的性能。

步骤5.2、利用模拟器生成新的状态：利用模拟器创建各种水下场景，使水下自主航行器体验到它在运行过程中可能遇到的不同状态和情况，如不同的海流强度、障碍物分布和目标位置。

步骤5.3、收集经验元组：当水下自主航行器在模拟场景中航行时，为车辆采取的每个行动收集经验元组（状态、行动、奖励、下一个状态和完成标志）。

步骤5.4、计算优先权值：使用时序差分误差的绝对值加上一个小的正常数来估计每个经验元组的优先权值。

步骤6、通过优先级加权随机抽取经验元组，利用抽取样本训练参数网络，根据时序差分误差调整样本优先级降低权重；具体的步骤如下：

步骤6.1、随机抽取经验元组：通过随机抽样从优先级重放缓冲区中选择一批经验元组，选择的概率由优先级加权决定；

步骤6.3、训练参数化网络：使用提取的数据来计算损失，并根据优化算法更新深度强化网络的权重和偏差。损失函数通常包含了时序差分误差和重要性抽样权重，以减少优先抽样引入的偏差；；

步骤7、重复步骤5和步骤6，直至达到预设的训练回合数或时间步上限或者训练曲线已经稳定收敛；具体的步骤如下：

步骤7.2、判断是否满足以下条件之一：

步骤8、根据经过训练的稳定模型确定水下自主航行器的最佳路径；具体的步骤如下：

步骤8.1、加载训练好的稳定性模型：将训练好的稳定性模型（例如已经训练了1000轮的深度强化网络模型）加载到模拟或测试环境中，确保所有必要的参数和设置都正确配置；

步骤8.2、输入任务约束条件和目标：在模拟或测试环境中输入任务约束和目标，例如设定深度范围为50-150米，速度不超过2米/秒，能源消耗不超过300瓦时，通信要求保持在200米内，有效载荷容量为5千克等因素；

步骤8.3、使用预测模型运行模拟：使用预测模型进行计算，选择在效率、稳定性和遵守任务约束之间提供最佳平衡的路径。例如，模拟可能显示水下自主航行器应沿深度为75米、速度为1.5米/秒的路径行驶，以最大程度地减少能源消耗和保持在通信范围内。这条路径应被认为是水下自主航行器的最佳路径。

以上通过几个具体实施方式对本发明提供的技术方案进行进一步详细地描述，是为了突出本发明提供的技术方案的优点和有益之处，不过以上所述的几个具体实施方式并不用于作为对本发明的限制，任何基于本发明的精神和原则范围内的，对本发明的合理修改和改进，实施方式的合理组合和等同替换等，均应当包含在本发明的保护范围之内。

Claims

1.水下自主航行器路径指示方法，其特征在于，所述方法包括：

采集海洋环境对航行器的影响因素的步骤；

采集航行器的可行动动作的步骤；

根据所述影响因素和可行动动作，建立奖励函数的步骤；

根据所述奖励函数，建立强化网络的建模步骤；

重复所述收集步骤和训练步骤，至达到预设次数的步骤；

根据训练后的强化网络确定所述航行器的最佳路径的步骤。

2.根据权利要求1所述的水下自主航行器路径指示方法，其特征在于，所述影响因素包括：水流、水温、水深和岩石。

3.根据权利要求1所述的水下自主航行器路径指示方法，其特征在于，所述可行动动作包括：前进、左/右转、上升/下降和调整速度。

4.根据权利要求1所述的水下自主航行器路径指示方法，其特征在于，所述建模步骤还包括：生成用于储存所述经验元组集合的重放缓冲器的步骤。

5.根据权利要求1所述的水下自主航行器路径指示方法，其特征在于，所述得到经验元组的方式具体为：

在模拟中收集经验元组，并计算优先权值；

将经验元组与优先权值合并为新数据结构，作为有效收集。

6.根据权利要求5所述的水下自主航行器路径指示方法，其特征在于，计算优先权值的方式具体为：

7.根据权利要求1所述的水下自主航行器路径指示方法，其特征在于，随机抽取经验元组的方式为：根据优先级加权随机抽样。

8.水下自主航行器路径指示装置，其特征在于，所述装置包括：

采集海洋环境对航行器的影响因素的模块；

采集航行器的可行动动作的模块；

根据所述影响因素和可行动动作，建立奖励函数的模块；

根据所述奖励函数，建立强化网络的建模模块；

根据训练后的强化网络确定所述航行器的最佳路径的模块。

9.计算机储存介质，用于储存计算机程序，其特征在于，当所述计算机程序被计算机读取时，所述计算机执行权利要求1-7任意一项所述的水下自主航行器路径指示方法。

10.计算机，包括处理器和储存介质，其特征在于，当所述处理器读取所述储存介质中储存的计算机程序时，所述计算机执行权利要求1-7任意一项所述的水下自主航行器路径指示方法。