CN117590867B

CN117590867B - 基于深度强化学习的水下自主航行器接驳控制方法和系统

Info

Publication number: CN117590867B
Application number: CN202410070527.5A
Authority: CN
Inventors: 姜宇; 齐红; 宁宸; 张凯欣; 赵明浩; 王凯
Original assignee: Jilin University
Current assignee: Jilin University
Priority date: 2024-01-18
Filing date: 2024-01-18
Publication date: 2024-03-26
Anticipated expiration: 2044-01-18
Also published as: CN117590867A

Abstract

基于深度强化学习的水下自主航行器接驳控制方法和系统，涉及水下航行器的接驳控制领域。解决现有水下自主航行器的接驳基于导航信息的Pid控制，控制稳定性受洋流影响大，面对未知障碍物时决策能力不足的问题。方法包括：根据海洋环境数据和接驳控制任务场景构建状态空间和动作空间以及仿真环境模型；设计奖励函数；构建基于SAC改进的深度神经网络模型；初始化深度神经网络模型参数和经验重放缓冲区；深度神经网络模型根据当前环境状态信息输入，输出当前时间步下的最优决策，并与模拟环境模型交互，产生新状态并存储；训练深度神经网络模型，利用模型为水下自主航行器提供接驳控制支持。应用于水下探测领域。

Description

基于深度强化学习的水下自主航行器接驳控制方法和系统

技术领域

本发明涉及水下航行器的接驳控制领域，具体涉及海洋场景下基于深度强化学习的接驳控制方法。

背景技术

水下自主航行器在对海洋的探索和开发中发挥着越来越重要的作用。水下自主航行器可以帮助人类完成许多复杂的水下任务，例如海洋水文监测、海洋生物勘探、海底管道检查和海底测绘、海防安全等。由于水下自主航行器在水下工作时存在功耗大和自身携带能源有限的问题，且如海洋检测等任务对水下自主航行器有长期活动的要求，为此需要对水下自主航行器进行周期性的能量补充以维持其在水下的长期活动。为保障水下自主航行器能够在水下长时间持续作业，需要水下自主航行器自行前往指定的回收坞站，完成接驳以及时补充能量，

水下自主航行器的接驳控制过程总共涉及两个方面：前往回收坞站的返航过程和与回收坞站精准对接过程。在返航过程，水下自主航行器需要从当前位置出发，实时探测并躲避周边的障碍物，快速到达目标回收坞站附近。在对接过程，水下自主航行器需要放慢速度，调整角度，以精确的姿态接入坞站，进行自主充能。整个过程中，还需要水下自主航行器具有抵抗海洋中存在的洋流、波浪等动态变化的干扰因素的能力。

现有的水下自主航行器的接驳技术主要基于导航信息的Pid控制。然而，这种控制方法的稳定性受到洋流的严重影响。在复杂的海洋环境中，洋流的快速变化会导致航行器偏离预定路径，甚至发生碰撞。此外，当航行器遇到未知障碍物时，现有的控制系统往往无法做出及时有效的决策，增加了航行器的安全风险。

发明内容

本发明针对现有水下自主航行器的接驳基于导航信息的Pid控制，控制稳定性受洋流影响大，面对未知障碍物时决策能力不足的问题，提出一种基于深度强化学习的水下自主航行器接驳控制方法，所述方案具体为：

一种基于深度强化学习的水下自主航行器接驳控制方法，所述方法包括：

S1：根据海洋环境数据和接驳控制任务场景构建状态空间和动作空间以及仿真环境模型；

S2：根据到达目标实际需求和接驳控制任务场景设计深度强化学习的奖励函数；

S3：根据所述基于深度强化学习的状态空间和动作空间，构建基于SAC改进的深度神经网络模型；

S4：初始化所述基于SAC改进的深度神经网络模型参数和经验重放缓冲区；

S5：基于SAC改进的深度神经网络模型根据当前环境状态信息输入，输出当前时间步下的最优决策，水下自主航行器基于所述最优决策与模拟环境模型交互，产生新状态，并将状态经验存储至经验重放缓冲区；

S6：根据经验重放缓冲区中经验训练基于SAC改进的深度神经网络模型；

S7：重复步骤S5和步骤S6，直至达到预设结束条件停止，获得收敛模型；

S8：利用收敛模型为水下自主航行器提供接驳控制支持。

进一步的，还提供一种优选方式，所述步骤S1包括：

根据历史海洋环境数据进行分析，获取数据变化范围；

构建地坐标系和随水下自主航行器运动的以其自身为中心的体坐标系；

定义水下自主航行器动作空间和状态空间；

根据坐标系和水下自主航行器动力学方程构建水下自主航行器动力学模型；

根据水下自主航行器动力学模型的自身状态更新和障碍物的碰撞检测构建仿真环境模型。

进一步的，还提供一种优选方式，所述历史海洋环境数据包括：洋流、波浪、海冰、深度、礁石和地形。

进一步的，还提供一种优选方式，所述步骤S2包括：

其中，是目标距离奖励函数；/>是目标角度奖励函数；/>是避障惩罚函数；/>是条件奖励函数，每一时间步的奖励R是4种奖励之和；/>是奖励函数对应的权重，/>，，/>，/>，/>是水下自主航行器当前时刻与目标之间的距离，/>是水下自主航行器上一时刻与目标之间的距离，/>是目标与水下自主航行器之间的相对偏航角，/>是目标与水下自主航行器之间的相对俯仰角，/>是与目标接驳所设置的最大安全偏航角，/>是与目标接驳所设置的最大安全俯仰角，/>是水下自主航行器与障碍物之间的距离，/>是水下自主航行器与障碍物的最小安全距离。

进一步的，还提供一种优选方式，所述步骤S3中基于SAC改进的深度神经网络模型包括：行动者网络和评论家网络；

所述行动者网络的输入层的输入为当前时刻水下自主航行器的状态；输入层与第一全连接层一端连接，第一全连接层输出端与GRU网络连接，所述GRU网络连接输出端连接第二全连接层，所述第二全连接层的两个输出端连接分别第三全连接层和第四全连接层，所述第三全连接层用于输出动作均值，所述第四全连接层用于输出动作标准差；

所述评论家网络的输入层的输入为当前时刻水下自主航行器的状态以及行动者网络输出的动作，输入层与全连接层连接，所述全连接层与GRU网络连接，所述GRU网络的输出端连接两个全连接层，获得动作价值。

进一步的，还提供一种优选方式，所述行动者网络的输入层的输入具体为：水下自主航行器的位置、姿态，水下自主航行器与障碍物的距离，水下自主航行器与目标的距离、相对角度以及上一时刻的动作控制量。

进一步的，还提供一种优选方式，所述评论家网络的输入层的输入具体为：水下自主航行器的位置、姿态，水下自主航行器与障碍物的距离，水下自主航行器与目标的距离、相对角度，上一时刻的动作控制量，以及当前时刻行动者网络输出的动作控制量。

基于同一发明构思，本发明一种基于深度强化学习的水下自主航行器接驳控制系统，所述系统包括：

仿真环境构建单元，用于根据海洋环境数据和接驳控制任务场景构建状态空间和动作空间以及仿真环境模型；

奖励函数设计单元，用于根据到达目标实际需求和接驳控制任务场景设计深度强化学习的奖励函数；

基于SAC改进的深度神经网络模型构建单元，用于根据所述基于深度强化学习的状态空间和动作空间，构建基于SAC改进的深度神经网络模型；

初始化单元，用于初始化所述基于SAC改进的深度神经网络模型参数和经验重放缓冲区；

决策交互单元，用于基于SAC改进的深度神经网络模型根据当前环境状态信息输入，输出当前时间步下的最优决策，水下自主航行器基于所述最优决策与模拟环境模型交互，产生新状态，并将状态经验存储至经验重放缓冲区；

训练单元，用于根据经验重放缓冲区中经验训练基于SAC改进的深度神经网络模型；

循环单元，用于重复决策交互单元和训练单元，直至达到预设结束条件停止，获得收敛模型；

接驳单元，用于利用收敛模型为水下自主航行器提供接驳控制支持。

基于同一发明构思，本发明还提出一种计算机可读存储介质，所述计算机可读存储介质用于储存计算机程序，所述计算机程序执行上述任一项所述的一种基于深度强化学习的水下自主航行器接驳控制方法。

基于同一发明构思，本发明还提出一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，当所述处理器运行所述存储器存储的计算机程序时，所述处理器执行根据上述中任一项中所述的一种基于深度强化学习的水下自主航行器接驳控制方法。

本发明的有益之处在于：

本发明解决了现有水下自主航行器的接驳基于导航信息的Pid控制，控制稳定性受洋流影响大，面对未知障碍物时决策能力不足的问题。

本发明提出的一种基于深度强化学习的水下自主航行器接驳控制方法，能够根据环境数据和任务场景自主学习，因此可以适应不同的海洋环境和接驳控制任务场景，提高了水下自主航行器的适应性。基于深度强化学习的方法允许水下自主航行器学习和优化决策策略，从而能够处理未知障碍物、洋流等复杂环境，并做出更智能的决策。该方法中设计的奖励函数能够有效地指导水下自主航行器学习所需的行为，促进系统快速、高效地达到预期目标。深度神经网络模型结合经验重放缓冲区，使得模型能够通过不断的交互和学习，不断优化策略，提高水下自主航行器接驳控制性能。

本发明提出的一种基于深度强化学习的水下自主航行器接驳控制方法，通过海洋环境数据和接驳控制任务场景，建立了水下自主航行器所需的状态空间和动作空间。这些空间的定义对于学习过程至关重要，因为它们定义了水下航行器在环境中的状态和可以执行的操作。奖励函数的设计是强化学习中的关键一步，它指导着学习算法向着期望的行为方向学习。通过根据实际需求设计奖励函数，可以引导水下自主航行器在学习过程中达到所期望的目标。基于深度神经网络的SAC改进模型利用改进的Soft Actor-Critic（SAC）算法构建了一个深度神经网络，作为学习水下自主航行器控制策略的基础。SAC算法在强化学习中被广泛应用，能够有效处理连续动作空间和探索-利用之间的平衡。经验重放缓冲区用于存储之前的经验，这些经验被用来训练神经网络模型，以优化其控制策略。通过反复在模拟环境中交互、存储经验和训练模型，逐渐优化。传统的PID控制在复杂环境中无法适应，而基于深度强化学习的方法能够让水下自主航行器更智能地做出决策，应对复杂多变的海洋环境，提高了控制能力和稳定性。这种方法通过神经网络模型结合经验重放缓冲区，能够不断学习、改进，并在面对未知情况时具有更好的泛化能力。本实施方式所述的基于深度强化学习的水下自主航行器接驳控制方法克服了传统PID控制方法在复杂海洋环境下的局限性，提升了水下自主航行器的智能化、适应性和稳定性。

本发明提出的一种基于深度强化学习的水下自主航行器接驳控制方法，通过对水下接驳场景的奖励函数的设计，训练完成的深度强化学习网络模型为智能体决策，使得水下自主航行器的自主决策能力能够满足接驳控制任务中的到达目标回收坞站、精确接入、实时探测避障、时间要求等实际需求；通过智能体与模拟仿真环境的不断交互，收集经验，训练深度强化学习网络，训练完成的网络模型可以帮助水下自主航行器自主决策，安全、高效地完成水下接驳控制；通过设计一种基于SAC的改进的深度神经网络模型，在行动者网络和评论家网络结构中添加GRU模块，提高网络模型对时序连贯决策的学习的能力，能够更加高效地完成接驳控制任务。

本发明应用于水下探测领域。

附图说明

图1为实施方式一所述的一种基于深度强化学习的水下自主航行器接驳控制方法流程图；

图2为实施方式十一所述的改进的行动者网络结构图；

图3为实施方式十一所述的改进的评论家网络结构图。

具体实施方式

为使本发明实施方式的目的、技术方案和优点更加清楚，下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本发明一部分实施方式，而不是全部的实施方式。

实施方式一、本实施方式所述的一种基于深度强化学习的水下自主航行器接驳控制方法，所述方法包括：

S8：利用收敛模型为水下自主航行器提供接驳控制支持。

本实施方式所述的一种基于深度强化学习的水下自主航行器接驳控制方法，能够根据环境数据和任务场景自主学习，因此可以适应不同的海洋环境和接驳控制任务场景，提高了水下自主航行器的适应性。基于深度强化学习的方法允许水下自主航行器学习和优化决策策略，从而能够处理未知障碍物、洋流等复杂环境，并做出更智能的决策。该方法中设计的奖励函数能够有效地指导水下自主航行器学习所需的行为，促进系统快速、高效地达到预期目标。深度神经网络模型结合经验重放缓冲区，使得模型能够通过不断的交互和学习，不断优化策略，提高水下自主航行器接驳控制性能。

本实施方式所述的一种基于深度强化学习的水下自主航行器接驳控制方法，通过海洋环境数据和接驳控制任务场景，建立了水下自主航行器所需的状态空间和动作空间。这些空间的定义对于学习过程至关重要，因为它们定义了水下航行器在环境中的状态和可以执行的操作。奖励函数的设计是强化学习中的关键一步，它指导着学习算法向着期望的行为方向学习。通过根据实际需求设计奖励函数，可以引导水下自主航行器在学习过程中达到所期望的目标。基于深度神经网络的SAC改进模型利用改进的Soft Actor-Critic（SAC）算法构建了一个深度神经网络，作为学习水下自主航行器控制策略的基础。SAC算法在强化学习中被广泛应用，能够有效处理连续动作空间和探索-利用之间的平衡。经验重放缓冲区用于存储之前的经验，这些经验被用来训练神经网络模型，以优化其控制策略。通过反复在模拟环境中交互、存储经验和训练模型，逐渐优化。传统的PID控制在复杂环境中无法适应，而基于深度强化学习的方法能够让水下自主航行器更智能地做出决策，应对复杂多变的海洋环境，提高了控制能力和稳定性。这种方法通过神经网络模型结合经验重放缓冲区，能够不断学习、改进，并在面对未知情况时具有更好的泛化能力。本实施方式所述的基于深度强化学习的水下自主航行器接驳控制方法克服了传统PID控制方法在复杂海洋环境下的局限性，提升了水下自主航行器的智能化、适应性和稳定性。

实施方式二、本实施方式是对实施方式一所述的一种基于深度强化学习的水下自主航行器接驳控制方法的进一步限定，所述步骤S1包括：

根据历史海洋环境数据进行分析，获取数据变化范围；

定义水下自主航行器动作空间和状态空间；

本实施方式中通过根据历史海洋环境数据进行分析，能够获取环境的变化范围，从而更准确地了解水下航行器所处的海洋环境。构建地坐标系和体坐标系，能够清晰地描述水下自主航行器相对于地面和自身的位置关系，有利于后续控制策略的设计和优化。定义水下自主航行器的动作空间和状态空间，有助于深度强化学习模型更好地理解航行器的行为和环境状态，提高学习效率。根据水下自主航行器的坐标系和动力学方程构建动力学模型，有助于更准确地模拟航行器在水下环境中的运动和响应。通过自身状态更新和障碍物碰撞检测，构建了仿真环境模型，使得水下自主航行器在仿真中可以与虚拟的环境进行交互，从而进行深度强化学习的训练。

本实施方式的目的在于为后续的深度强化学习提供准确的输入数据和模型基础。通过对环境数据的分析和坐标系的建模，为水下自主航行器提供了精准的环境感知和运动状态。构建的动力学模型和仿真环境模型为水下自主航行器在仿真中的训练提供了基础。这有助于在虚拟环境中模拟各种复杂情况，提高航行器在实际环境中的应对能力。通过准确建模环境和水下航行器的运动规律，为后续的深度强化学习提供了更好的基础，从而支持水下航行器控制策略的优化和智能化决策。

实施方式三、本实施方式是对实施方式二所述的一种基于深度强化学习的水下自主航行器接驳控制方法的进一步限定，所述历史海洋环境数据包括：洋流、波浪、海冰、深度、礁石和地形。

本实施方式引入洋流、波浪、海冰、深度、礁石和地形等历史海洋环境数据，使得水下自主航行器能够全面感知海洋环境的多个方面。这有助于提高对海洋复杂性的理解，使得水下航行器能够更智能地应对不同的海洋条件。通过分析历史海洋环境数据的变化范围，使得水下自主航行器具有更强的适应性。能够在各种不同的海况下做出灵活的决策，提高接驳控制的稳定性和成功率。考虑到洋流、波浪等因素，航行器能够更精准地制定航线和决策，以更有效地完成接驳任务。这对于水下自主航行器在复杂海洋环境中的任务执行至关重要。

实施方式四、本实施方式是对实施方式一所述的一种基于深度强化学习的水下自主航行器接驳控制方法的进一步限定，所述步骤S2包括：

本实施方式通过设计奖励函数，充分考虑到水下自主航行器的实际需求和接驳控制任务场景。这种定制化的奖励函数有助于提高深度强化学习模型在特定任务中的性能。奖励函数包含目标距离、目标角度、避障等多个方面的考虑。这使得水下航行器在学习过程中能够综合考虑多种因素，更全面地完成接驳任务。引入奖励函数对应的权重，可以根据任务特性进行灵活调整。这使得该方法能在不同场景下能够灵活适应，提高了方法的通用性。

本实施方式中目标距离奖励函数和目标角度奖励函数通过考虑水下航行器与目标之间的距离和角度，促使模型朝向目标移动。基于导向原理，确保航行器朝着目标方向正确前进。避障惩罚函数考虑水下航行器与障碍物的距离，防止航行器碰撞障碍物。这有助于提高航行器的安全性和避免意外碰撞。条件奖励函数通过设置最大安全偏航角和俯仰角，确保航行器与目标接驳时保持在安全范围内。这是为了避免在接驳过程中出现不安全的角度。每一时间步的奖励是四种奖励之和，通过权重的调整，综合考虑了多个因素。这种综合考虑使得模型能够更加全面地理解当前状态，做出更合理的决策。通过设计适用于具体任务的奖励函数，目的在于引导深度强化学习模型更有效地学习，提高水下自主航行器在接驳控制任务中的执行效率。通过避障惩罚和条件奖励函数，目的在于增加水下航行器在执行任务时的安全性，避免碰撞和不安全的接驳角度。引入权重的概念，目的在于使得模型能够灵活适应不同的任务场景，提高了系统的鲁棒性和通用性。

实施方式五、本实施方式是对实施方式一所述的一种基于深度强化学习的水下自主航行器接驳控制方法的进一步限定，所述步骤S3中基于SAC改进的深度神经网络模型包括：行动者网络和评论家网络；

本实施方式中引入了GRU（Gated Recurrent Unit）网络，用于处理水下自主航行器的状态信息，考虑了时序性。这有助于模型更好地理解状态之间的时间依赖关系，提高了对动态环境的建模能力。通过在行动者网络的输出中分别包含动作均值和动作标准差，使得输出更具灵活性。这种设计使得模型可以生成具有不同探索性质的动作，有助于更好地应对各种环境变化。采用深度神经网络结构，包括多个全连接层，有助于模型学习更复杂的状态和动作表示，提高了模型的表达能力。

本实施方式中输入为当前时刻水下自主航行器的状态，经过第一全连接层连接到GRU网络，再连接到第二全连接层。第二全连接层的输出分别连接到第三和第四全连接层，分别用于输出动作均值和动作标准差。这个结构使得行动者网络能够根据当前状态生成适当的动作。输入包括当前时刻水下自主航行器的状态以及行动者网络输出的动作。这些信息通过全连接层连接到GRU网络，再连接到两个全连接层，最终获得动作的价值。评论家网络用于评估采取特定动作的好坏，以引导行动者网络生成更优的动作。通过引入GRU网络，目的在于更好地处理水下航行器的状态信息，充分考虑状态之间的时序依赖关系，提高模型对动态环境的适应能力。通过输出动作均值和标准差，使得模型能够生成更灵活、多样化的动作，以适应不同的环境和任务需求。采用深度神经网络结构，增加模型的表达能力，使其能够学习更复杂的状态和动作表示，提高控制性能。

实施方式六、本实施方式是对实施方式五所述的一种基于深度强化学习的水下自主航行器接驳控制方法的进一步限定，所述行动者网络的输入层的输入具体为：水下自主航行器的位置、姿态，水下自主航行器与障碍物的距离，水下自主航行器与目标的距离、相对角度以及上一时刻的动作控制量。

本实施方式的输入包括水下自主航行器的位置、姿态，与障碍物的距离，与目标的距离和相对角度以及上一时刻的动作控制量等信息，使得模型能够更全面、准确地理解环境和航行器的状态，从而更有效地进行决策。包含了水下自主航行器与障碍物和目标的距离、相对角度等信息，有助于提高模型对环境的感知能力，使得智能体能够更好地规避障碍物、追踪目标。引入上一时刻的动作控制量，使得模型能够考虑到历史信息，从而更好地捕捉动态变化和持久的状态特征，提高了对复杂场景的适应能力。

本实施方式中通过接收水下自主航行器的位置、姿态，与障碍物的距离，与目标的距离和相对角度以及上一时刻的动作控制量。这些信息被送入神经网络进行处理，经过多个全连接层，最终输出动作均值和动作标准差。航行器的位置和姿态信息是航行过程中非常重要的状态信息，有助于模型理解航行器在空间中的具体位置和朝向。与障碍物和目标的距离提供了关键的环境感知信息，有助于模型做出避障和导航决策。相对角度信息反映了航行器与目标之间的方向关系，有助于进行精确的导航和目标追踪。历史动作控制量包含上一时刻的动作控制量，使得模型能够考虑到过去的动作信息，有助于处理动态变化和保持状态的特征。

通过更丰富的输入信息，使得模型能够更全面、准确地理解水下自主航行器的状态，提高对环境的感知。考虑到障碍物、目标、相对角度等信息，使得模型能够更智能地进行决策，更好地应对复杂的水下环境。引入历史动作控制量有助于处理长时序依赖性，提高模型对动态变化的适应性，使得模型更具鲁棒性。

实施方式七、本实施方式是对实施方式五所述的一种基于深度强化学习的水下自主航行器接驳控制方法的进一步限定，所述评论家网络的输入层的输入具体为：水下自主航行器的位置、姿态，水下自主航行器与障碍物的距离，水下自主航行器与目标的距离、相对角度，上一时刻的动作控制量，以及当前时刻行动者网络输出的动作控制量。

通过将当前时刻行动者网络输出的动作控制量引入评论者网络的输入，使评论者网络获得了关于智能体实际执行的动作的信息，从而提供更全面、准确的状态信息。考虑到当前时刻行动者网络输出的动作，评论者网络能够更准确地评估这个动作在当前环境中的效果，从而更好地指导强化学习过程。将行动者网络输出的动作控制量作为评论者网络的输入，有助于考虑智能体实际执行的动作与策略之间的关系，从而提高系统的学习效率。

评论者网络输入层接收水下自主航行器的位置、姿态，与障碍物的距离，与目标的距离，相对角度，上一时刻的动作控制量，以及当前时刻行动者网络输出的动作控制量。这些信息经过神经网络的处理，输出对当前动作的价值估计。行动者网络输出的动作控制量是来自行动者网络在当前时刻输出的控制动作，它反映了智能体当前策略的选择。包括水下自主航行器的位置、姿态，与障碍物和目标的距离，相对角度等，这些信息构成了智能体的状态。通过引入当前时刻行动者网络输出的动作，评论者网络的目的在于更精准地评估这个动作在当前状态下的优劣，为强化学习提供更有针对性的反馈。评论者网络的输出可以被用来更新策略，通过梯度上升的方式使得智能体的策略更趋向于输出更高价值的动作。考虑到实际执行的动作，有助于模型更快速、有效地学习到在不同状态下选择更优动作的策略。

实施方式八、本实施方式所述的一种基于深度强化学习的水下自主航行器接驳控制系统，所述系统包括：

实施方式九、本实施方式所述的一种计算机可读存储介质，所述计算机可读存储介质用于储存计算机程序，所述计算机程序执行实施方式一至实施方式七任一项所述的一种基于深度强化学习的水下自主航行器接驳控制方法。

实施方式十、本实施方式所述的一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，当所述处理器运行所述存储器存储的计算机程序时，所述处理器执行根据实施方式一至实施方式七中任一项中所述的一种基于深度强化学习的水下自主航行器接驳控制方法。

实施方式十一、参见图2和图3说明本实施方式。本实施方式为实施方式一所述的一种基于深度强化学习的水下自主航行器接驳控制方法提供一具体实施例，同时也用于解释实施方式二至实施方式七，具体的：

图1为本申请的实施例所提供的一种基于深度强化学习方法的接驳控制方法流程示意图，本实施例通过设计并构建海洋仿真环境模型，确定强化学习的动作空间和状态空间，设计奖励函数，设计深度网络模型，利用深度强化学习方法解决水下自主航行器的接驳控制问题。

如图1所示，本实施例的方法具体包括如下步骤：

步骤1、基于真实的复杂海洋环境数据，根据真实接驳控制任务场景设计深度强化学习的状态空间和动作空间，设计适用于深度强化学习的仿真环境模型；

该步骤具体包括：

步骤1.1、分析真实数据：从国家海洋科学数据中心收集整理真实海洋环境下影响水下航行如洋流、波浪、海冰等动态变化的不确定因素以及深度、礁石、地形等静态因素，分析真实数据，确定具体变化范围。

步骤1.2、构建坐标系：构建固定于地面的地坐标系和随水下自主航行器运动的以其自身为中心的体坐标系，并提供坐标系之间的转换方法。用x、y、z表示水下自主航行器在地坐标系下的绝对位置，用phi、theta、psi表示水下自主航行器在体坐标系下的横滚角、俯仰角和偏航角。

步骤1.3、定义动作空间：定义动作空间为A=（thrust，level，vertical），其中，thrust表示推力，是水下自主航行器前进的动力，范围在0到30N之间；level表示水平舵角，是控制水下自主航行器水平方向的转向，范围在-15到+15度；vertical是垂直舵角，是控制水下自主航行器垂直方向的转向，范围在-15到+15度。

步骤1.4、定义状态空间：基于上述影响水下航行的因素，结合水下接驳具体任务场景，设计状态空间表示水下自主航行器的当前信息，具体定义为S=（x，y，z，phi，theta，psi，u，v，w，p，q，r，，/>，/>，/>，thrust，level，vertical），其中，x、y、z表示水下自主航行器在地坐标系下的位置，phi、theta、psi表示水下自主航行器在体坐标系下的横滚角、俯仰角和偏航角，u、v、w表示水下自主航行器在地坐标系的三个维度x、y、z对应方向的速度，p、q、r表示水下自主航行器的横滚角、俯仰角和偏航角对应的角速度，表示水下自主航行器与当前探测到的障碍物之间的距离，/>表示水下自主航行器与目标之间的距离，/>、/>表示目标与水下自主航行器之间的相对偏航角和相对俯仰角，thrust、level、vertical表示上一时刻水下自主航行器的动作控制量。

步骤1.5、构建水下自主航行器动力学模型：构建坐标系后，结合Remus水下自主航行器动力学方程，构建6自由度的水下自主航行器动力学模型。在实践中，受复杂多变干扰的影响，难以准确测量其动态系数。使用模糊水动力参数训练agent来解决这个问题。具体来说，动力学模型中使用的每个水动力系数都是在上下10%的误差范围内随机选取的，包括添加的质量系数和阻尼系数。与固定系数相比，该方法提高了控制器对真实水下自主航行器的泛化能力。

步骤1.6、导入真实数据：将从国家海洋科学数据中心收集整理的真实海洋环境数据导入到模拟环境模型中，使用真实海底地形数据生成地形，使用真实洋流数据作为模拟环境中实时变化的洋流，使构建的模拟海洋环境更具真实性。

步骤1.7、设计环境状态初始化函数：设计一个环境状态初始化的函数，根据真实数据生成海底地形，生成时变洋流，初始化水下自主航行器初始位置、姿态，目标位置、姿态以及水下自主航行器和目标之间的距离等状态信息。

步骤1.8、设计环境状态转移函数：设计一个环境状态转移函数，支持环境状态动态变化。环境模型根据当前时刻水下自主航行器的控制输入，以及当前环境的状态信息，通过环境状态转移函数，生成下一时刻的环境状态信息。

步骤2、考虑到达目标回收坞站、精确接入、实时探测避障、时间要求等实际需求，根据真实接驳控制任务场景设计深度强化学习的奖励函数；

该步骤具体包括：

步骤2.1、确定任务完成条件和约束条件：接驳控制任务要求水下自主航行器能够从当前位置出发，快速到达目标回收坞站，并调整角度，准确接入对应位置，需要考虑返航过程中对实时探测到的障碍物的躲避以及接入角度限制等安全问题，还要考虑在较短时间内高效完成任务的需要。根据上述分析确定任务完成条件和约束条件。定义水下自主航行器到达目标点范围为0.5m并且与目标点相对偏航角和相对俯仰角在-30度和+30度之间的任务完成条件。定义距离障碍物0到1m为碰撞范围，1m到2m间为危险范围，2m为最小安全范围，的避障约束条件，根据初始化水下自主航行器与目标之间的距离设置限制时间，定义不超过规定时间的时间限制约束条件。

步骤2.2、构造奖励函数：奖励函数设计为，

其中，是目标距离奖励函数；/>是目标角度奖励函数；/>是避障惩罚函数，当水下自主航行器进入与障碍物的危险范围时，会给予惩罚；/>是条件奖励函数，当前时间步，判断水下自主航行器的状态，如果以正确的姿态（接入角度在安全角度范围内）到达目标，则给予100的奖励，并结束任务。如果与障碍物碰撞（距离在1m内）或者以错误的姿态到达目标，均视为碰撞，会给予-100的惩罚，并结束任务。如果已经到达最大时间步，未能及时完成任务，则给予-100的惩罚，并结束任务。如果不是上述特殊状态，则给予-0.1的普通奖励。每一时间步的奖励R是上述4种奖励之和。

奖励函数中的参数，是奖励函数对应的权重，其中/>，/>，/>，，/>和/>分别是水下自主航行器当前时刻和上一时刻与目标之间的距离。和/>分别是目标与水下自主航行器之间的相对偏航角和相对俯仰角，/>和/>分别是与目标接驳所设置的最大安全偏航角和最大安全俯仰角，它们的值都是30°。/>是水下自主航行器与障碍物之间的距离，/>是水下自主航行器与障碍物的最小安全距离，值为2m。

步骤3、根据所设计的状态空间和动作空间，设计出一种基于SAC的改进的深度神经网络模型；

该步骤具体包括：

步骤3.1、改进行动者网络：如图2所示，行动者网络的输入是当前时刻水下自主航行器的状态，包括水下自主航行器的位置、姿态，与障碍物的距离，与目标的距离、相对角度以及上一时刻的动作控制量，输入通过一层全连接层处理，之后通过GRU网络，GRU网络输出的隐藏状态再经过一层全连接层处理，再分别通过两个全连接层得到动作的均值输出和动作的标准差输出。

步骤3.2、改进评论家网络：如图3所示，评论家网络的输入是当前时刻水下自主航行器的状态以及行动者网络输出的动作，包括水下自主航行器的位置、姿态，与障碍物的距离，与目标的距离、相对角度，上一时刻的动作控制量，以及当前时刻行动者网络输出的动作控制量，输入通过一层全连接层处理，之后通过GRU网络，GRU网络输出的隐藏状态再经过一层全连接层处理，最后通过两个全连接层得到状态动作价值的估计输出。

步骤4、初始化网络模型参数和经验重放缓冲区；

该步骤具体包括：

步骤4.1、初始化深度神经网络模型参数：如果导入预训练模型，则使用预训练网络模型参数赋值初始化网络模型。如果没有导入预训练模型，则使用均值为0，标准差为0.1的正态分布随机初始化行动者网络和评论家网络的权重，并使用评论家网络的权重初始化目标评论家网络。

步骤4.2、初始化经验回放缓冲区：如果导入预训练模型，则使用预训练的经验回放缓冲区配置和保存的经验数据进行初始化。如果没有导入预训练模型，则初始化一个容量大小为10000的空的经验回放缓冲区。

步骤5、深度神经网络模型根据当前环境状态信息输入，输出当前时间步下的最优决策，水下自主航行器采样最优决策与模拟环境模型交互，产生新的状态，搜集新的时间步的经验，保存至经验重放缓冲区；

该步骤具体包括：

步骤5.1、网络模型输出最优决策：当前时刻下状态作为输入，通过行动者网络得到最优决策动作的均值输出和动作的标准差输出，通过均值和标准差随机采样最终得到当前时刻的动作/>。

步骤5.2、收集存储经验：将当前时刻由网络模型输出的动作和状态/>输入到环境状态转移函数中，输出下一时刻的状态/>与奖励/>，一条经验由/>，/>，/>，/>四部分组成，收集当前时刻的经验后，将经验储存到经验回放缓冲区中。

步骤6、从经验重放缓冲区中随机抽取一定数量的经验后，利用抽取样本训练参数网络；

该步骤具体包括：

步骤6.1、抽取经验：当经验重放缓冲区中搜集到的经验到达可训练数目64个时，从缓冲区中随机抽取64条经验，将这些经验合并形成一批经验，作为训练网络模型的输入。

步骤6.2、训练评论家网络：评论家网络的损失函数为，

/>

其中，Q是评论家网络，w是网络权重，使用从经验重放缓冲区B中所采样经验中的t时刻状态和实际使用的动作/>，得到状态/>的预测价值估计/>。/>是目标评论家网络，/>是网络权重，/>本身不参与更新。/>是行动者网络根据/>输出的预测动作，q由真实奖励/>和状态/>的预测价值估计/>相加而成，作为状态/>的真实价值估计。计算预测价值估计与真实价值估计之间的误差作为评价的损失，最终，将每个经验损失之和除以一批经验的总数/>求均值误差，构成整个损失函数。评论家网络根据损失函数更新参数，训练网络。

步骤6.3、训练行动者网络：行动者网络的损失函数为，

其中，是用行动者网络/>预测的所有可能的动作，/>是网络权重，/>是熵的系数，决定熵/>的重要性。评论家网络Q输出状态动作价值估计值，网络本身不参与更新。表示取期望值。行动者网络根据损失函数更新参数，训练网络。

步骤6.4、更新目标评论家网络：每经过10次网络更新，将目标评论家网络的权重更新为当前评论家网络的权重。

步骤7、重复步骤5和步骤6，直至达到指定的结束条件，得到收敛模型；

该步骤具体包括：

步骤7.1、判断是否满足结束条件：重复步骤5和步骤6，让智能体不断与环境交互，收集经验，抽取经验，更新网络模型，判断当前状态是否满足下述结束条件：

1.达到最大训练轮数，模型已经更新到设置的最大次数。

2.连续200次更新后得到的测试评估结果的奖励变化都保持在微小范围（设定为0.1）内，说明训练模型已经收敛，继续训练不会得到明显的提升。

步骤7.2、根据判断结果继续或结束当前训练：如果不满足结束条件，则重复步骤5和步骤6，直至达到指定的结束条件。如果已经满足结束条件，则保存当前训练的网络模型权重和重放经验缓冲区收集的经验，将训练收敛的模型供予后续使用。

步骤8、根据经过训练的稳定模型帮助水下自主航行器完成接驳控制；

该步骤具体包括：

步骤8.1、加载模型：使用训练完毕的稳定模型来初始化网络模型参数。

步骤8.2、使用深度强化学习方法完成水下接驳控制：初始化环境和加载模型后，网络模型会根据当前时刻水下自主航行器的状态，输出一个最合适（奖励最大化）的动作，水下自主航行器执行对应的动作，最终能够在有限的时间内安全、高效地完成水下接驳控制。

以上结合附图对本发明提供的技术方案进行进一步详细地描述，是为了突出优点和有益之处，并不用于作为对本发明的限制，任何基于本发明的精神原则范围内的，对本发明的修改、实施方式的组合、改进和等同替换等，均应当包含在本发明的保护范围之内。

Claims

1.一种基于深度强化学习的水下自主航行器接驳控制方法，其特征在于，所述方法包括：

S8：利用收敛模型为水下自主航行器提供接驳控制支持；

所述步骤S2包括：

其中，是目标距离奖励函数；/>是目标角度奖励函数；/>是避障惩罚函数；/>是条件奖励函数，每一时间步的奖励R是4种奖励之和；/>是奖励函数对应的权重，/>，，/>，/>，/>是水下自主航行器当前时刻与目标之间的距离，是水下自主航行器上一时刻与目标之间的距离，/>是目标与水下自主航行器之间的相对偏航角，/>是目标与水下自主航行器之间的相对俯仰角，/>是与目标接驳所设置的最大安全偏航角，/>是与目标接驳所设置的最大安全俯仰角，/>是水下自主航行器与障碍物之间的距离，/>是水下自主航行器与障碍物的最小安全距离；

所述步骤S3中基于SAC改进的深度神经网络模型包括：行动者网络和评论家网络；

2.根据权利要求1所述的一种基于深度强化学习的水下自主航行器接驳控制方法，其特征在于，所述步骤S1包括：

根据历史海洋环境数据进行分析，获取数据变化范围；

定义水下自主航行器动作空间和状态空间；

3.根据权利要求2所述的一种基于深度强化学习的水下自主航行器接驳控制方法，其特征在于，所述历史海洋环境数据包括：洋流、波浪、海冰、深度、礁石和地形。

4.根据权利要求1所述的一种基于深度强化学习的水下自主航行器接驳控制方法，其特征在于，所述行动者网络的输入层的输入具体为：水下自主航行器的位置、姿态，水下自主航行器与障碍物的距离，水下自主航行器与目标的距离、相对角度以及上一时刻的动作控制量。

5.根据权利要求1所述的一种基于深度强化学习的水下自主航行器接驳控制方法，其特征在于，所述评论家网络的输入层的输入具体为：水下自主航行器的位置、姿态，水下自主航行器与障碍物的距离，水下自主航行器与目标的距离、相对角度，上一时刻的动作控制量，以及当前时刻行动者网络输出的动作控制量。

6.一种基于深度强化学习的水下自主航行器接驳控制系统，其特征在于，所述系统包括：

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于储存计算机程序，所述计算机程序执行权利要求1-5任一项所述的一种基于深度强化学习的水下自主航行器接驳控制方法。

8.一种计算机设备，其特征在于：包括存储器和处理器，所述存储器中存储有计算机程序，当所述处理器运行所述存储器存储的计算机程序时，所述处理器执行根据权利要求1-5中任一项中所述的一种基于深度强化学习的水下自主航行器接驳控制方法。