CN117856904A

CN117856904A - 一种基于深度强化学习的多auv协同移动光通信方法

Info

Publication number: CN117856904A
Application number: CN202311697532.0A
Authority: CN
Inventors: 罗汉江; 李梦真; 李响; 马赛赛; 刘奎; 杨玉婷
Original assignee: Shandong University of Science and Technology
Current assignee: Shandong University of Science and Technology
Priority date: 2023-12-12
Filing date: 2023-12-12
Publication date: 2024-04-09

Abstract

本发明公开了一种基于深度强化学习的多AUV协同移动光通信方法，属于水下监测高速光通信技术领域，包括如下步骤：在不同深度区域部署多个自主水下航行器，并通过水下光通信建立初始实时的高速光通信传输链路；目标区域中部署的自主水下航行器接收初始观测状态；底层自主水下航行器从初始位置出发，追踪水下的移动目标；上层自主水下航行器预测下层自主水下航行器的位置；多个自主水下航行器根据惯性导航系统调整自身速度，实现水下实时监测数据高速光通信传输。本发明基于深度强化学习方法的多自主水下航行器协同移动光通信方法能够可靠快速地传输数据，可以适用于多个自主水下航行器等复杂环境下的水下高速数据传输需求。

Description

一种基于深度强化学习的多AUV协同移动光通信方法

技术领域

本发明属于水下监测高速光通信技术领域，具体涉及一种基于深度强化学习的多AUV协同移动光通信方法。

背景技术

水下目标的定位和跟踪，包括AUV(Autonomous Underwater Vehicle，自主水下潜航器)、海洋动物、冰山和海洋污染物，近年来引起了学术界和工业界的极大兴趣。因此，通过多个移动平台(如AUV和无人遥控潜水器)对水下目标进行实时监测越来越受到重视。然而，传统的声学通信技术存在着低数据速率、高延迟和高功耗等限制。为了解决声学通信系统的局限性，水下无线光通信(Underwater Wireless Optical Communications,UWOC)正在引起研究者的重视。由于水下无线光通信具有实施成本低、传输数据速率高、保密性好等特点，是水下高速数据传输的一种具有前景的无线通信技术。

然而，UWOC可靠的水下通信距离较短。为实现远距离传输，固定部署传感器节点作为多跳中继通信是最常见的解决方案，但在水下紧急情况和目标跟踪等场景下缺乏灵活性。因此，有必要设计多个AUV协同移动的策略，在移动场景下仍然能够保持稳定可靠的光通信。然而，光通信具有很强的方向性，很容易受到水下环境的影响。此外，多跳通信依赖于多个AUV之间的通信质量，因此需要对多个AUV之间的收发器进行有效对齐，以保持视线(Line of Sight，LOS)链路。在移动目标跟踪场景中，由于AUV位置的不确定性或恶劣海洋环境等外部干扰都将导致目标的无效跟踪，从而造成光通信的中断。这些问题使得利用多个AUV实现远距离UWOC更具挑战性。

一般来说，要实现多个AUV的协同运动，最常用的方法是领导者-追随者(Leader-Follower)和虚拟结构，但这些方法主要针对队列的运动，没有考虑AUV可能需要收集和发送大量实时监测数据(如图像和视频)的需求。此外，基于误差的自适应模型预测控制(MPC)和比例导数(PD)控制器通常用于引导AUV与目标船一起移动，然而，由于缺乏自主水下潜航器动态模型以及偏航运动之间复杂的相互作用的先验知识，因此通过传统的比例积分导数(PID)控制器无法得到有效解决。而深度强化学习(DRL)是一种通过与环境交互解决复杂非线性问题的一种有效技术，因而是解决水下多AUV移动中导致光学失准问题的一种有前景的方法。

发明内容

针对现有技术中存在的上述技术问题，本发明提出了一种基于深度强化学习的多AUV协同移动光通信方法，设计合理，克服了现有技术的不足，具有良好的效果。

为了实现上述目的，本发明采用如下技术方案：

一种基于深度强化学习的多AUV协同移动光通信方法，在AUV协同移动控制系统中采用深度确定性策略梯度的强化学习算法进行动作决策，使多个AUV在水下环境中根据当前环境状态自主完成动作决策，具体包括如下步骤：

步骤1：在不同深度区域部署多个AUV，并通过水下光通信建立实时的高速光通信传输链路；

步骤2：目标区域中部署的AUV将接收的初始观测状态输入AUV协同移动控制系统中，AUV协同移动控制系统做出动作决策，选择具体的动作；

步骤3：下层AUV从初始位置出发追踪水下的移动目标；上层AUV则预测下层AUV的位置，同时，AUV协同移动控制系统选择具体的动作后，根据自身的位置信息与接收信号强度传感器检测到的光强数据作为上层AUV下一步速度调整的依据；

步骤4：下层AUV在执行移动动作的同时向上发送光通信数据信号；当上层AUV检测到的来自下层的光信号后，对其进行解码并完成向上转发光信号，从而实现多个AUV之间的光通信数据传输；AUV协同移动控制系统实时判断多个AUV之间是否满足预定义的最小误码率，若不满足，则光通信传输失败，AUV将更新自身位置，并重新执行步骤2；否则，重复执行步骤3-步骤4，以保证连续的数据收集，AUV根据惯性导航系统调整自身速度，将海底数据通过光通信传输到海面，直到完成对监测区域的实时数据收集任务。

优选地，步骤1的具体过程为：

当AUV接到紧急事件通知时，多个带有摄像机的AUV分别部署到指定的深度，协作执行对移动目标的跟踪任务；每个AUV都配备一个压力传感器确保AUV在特定的深度；假设AUV的数量为I，从上到下的第i个AUV记为AUV_i,i∈{1,2,3,…I}；除了AUV_I，每个AUV_i是AUV_i+1的追随者；当AUV_I到达指定位置后，通过声学通信向上层AUV报告自身位置；上层的多个AUV根据AUV_I位置合理分配自身部署位置，通过声学导航到达初始部署位置，并建立实时的高速光通信传输链路。

优选地，步骤2中，AUV自身装备有发光二极管和接收信号强度传感器，多个AUV建立光学链路后，底层AUV将其监测数据块打包成长度为B的数据包发送给上层AUV，上层AUV通过接收信号强度传感器接收并解码光信号，经过多个AUV之间的光学链路向上将数据传输到水面基站；

初始观测状态包括当前t时刻AUV的初始位置、AUV移动过程中的航行速度、偏航角度、接收AUV与预定义光通信最佳点的距离d、当前t时刻下接收AUV检测到的光强I_t。

优选地，步骤2中，AUV协同移动控制系统采用基于深度确定性策略梯度的强化学习算法进行动作决策，具体的决策过程为：

对于每个AUV，AUV协同移动控制系统根据当前策略μ和噪声来选择一个动作a_t，使得对应的Q(s_t,a_t)值最大化；即/>其中Q代表Critic网络，μ代表Actor网络，s_t表示当前时间步下的状态，a_t表示在当前状态下应采取的动作，θ^μ是Actor网络参数，θ^Q是Critic网络参数，argmax则代表选取让Q值最大的动作；在训练阶段，输出的动作a_t会在最优动作的基础上添加一个服从正态分布的探索噪音/>即/>其中，/> 表示正态分布，σ²表示方差；AUV协同移动控制系统依据当前策略及探索噪声从动作集a中选择一个动作，选择的动作是在t时刻AUV调整速度的所有可能选项之一；设当前策略网络输出的最优动作为a_g，动作集表示为a＝{u_t,r_t|s_t}，u_t表示当前t时刻AUV移动中的航行速度，r_t表示当前t时刻AUV移动中的偏航角速度；u_t∈[-u_max,u_max]，r_t∈[-r_max,r_max]，u_t+1表示下一时刻AUV移动中的航行速度，r_t+1表示下一时刻AUV移动中的偏航角速度，u_max表示AUV移动中所能控制的最大航行速度；r_max表示AUV移动中所能控制的最大偏航角速度。

优选地，步骤2中，AUV协同移动控制系统在执行动作决策后，设置奖励函数如下：

其中，r_t表示当前t时刻状态下的奖励值；ρ₁、ρ₂、ρ₃和ρ₄均是常系数，分别表示AUV协同移动光通信中的不同重要性权重；I_Δ是t时刻通过光强接收器检测到的瞬时光强I_t与光强阈值I_th之间的差值；d_Δ表示跟随者AUV与预设光强最佳点A之间的距离；a_Δ是在t时刻的相对偏航方向；u_Δ是在t时刻的相对航行速度。

优选地，AUV在水下环境中根据当前环境状态自主完成动作决策时，需要不断更新Actor网络参数θ^μ、Critic网络参数θ^Q、目标Actor网络参数θ^μ′和目标Critic网络参数θ^Q′；

Critic网络通过最小化实际输出的值与目标值更新θ^Q参数，具体公式如下：

其中，y_t＝r_t+γQ′(s_t+1,μ′(s_t+1|θ^μ′)|θ^Q′(表示当前t时刻目标值，γ为折扣系数，s_t+1表示下一时刻状态，Q′表示目标Critic网络，μ′表示目标Actor网络，N表示从经验池中采样的元组数；

Actor网络执行梯度下降更新参数θ^μ，以改进策略网络的性能，具体公式为：

其中，表示对参数求导，J表示优化目标，μ(s_t|θ^μ)表示Actor网络下在当前t时刻状态s_t下所执行的策略，/>表示对动作求导，Q(s_t,a_t|θ^Q)表示Critic网络下在当前t时刻状态s_t采取动作a_t的函数值；

目标Critic网络参数θ^Q′和目标Actor网络参数θ^μ′通过软更新的方式不断逼近实际参数，具体公式如下所示：

其中，θ^μ′表示目标Actor网络参数，θ^Q′表示目标Critic网络参数，τ_s表示软更新的系数。

优选地，步骤3中，AUV协同移动控制系统采用扩展卡尔曼滤波算法对自身位置信息进行预测，具体的预测过程为：

AUV协同移动控制系统中上层的AUV采用光学传感器的测量值作为观测值，通过一个状态估计器来预测下层AUV的位置；首先定义了状态转移和观测模型以及用于处理非线性问题的雅可比矩阵；AUV的状态被定义为X＝[x_l,y_l,ψ_l]^T，是关于下层AUV的位置和方向的信息；在离散时域上的状态传递函数表示为：

其中，ω_t为过程噪声，服从均值为零且协方差为Q的高斯分布；和/>为上层AUV在t时刻的航行速度和偏航角速度；t_s为采样时间；因此，该模型的线性化状态转换矩阵能够写成/>将在不同位置监测的两个独立的光强测量作为观测，t时刻的观测关系Z_t表示为：

其中，v_t是观测噪声，服从均值为零且协方差为R的高斯分布；线性化观测矩阵J_H是函数h的雅可比矩阵，能够写成使用标准的EKF工具来估计近似的相对位置，经过多轮预测和更新得到下层AUV的预测位置。

优选地，步骤3中，AUV上安装有惯性导航系统，根据该惯性导航系统控制AUV的速度从而移动，AUV下一时刻移动位置表示为：

其中，cos表示三角函数中的余弦，sin表示三角函数中的正弦，x_t、y_t分别表示X、Y轴上的位置向量，ψ_t表示方向向量，其中，u_t、v_t和r_t分别表示航行速度、摇摆速度和偏航角速度，t是惯性导航传感器的采样周期；

AUV在选择具体动作后，调整相应的速度，并更新状态信息。

优选地，步骤4中，移动中的多个AUV持续将海底数据传输到海面舰艇，即移动中多个AUV之间不断调整速度，以控制自身在光圈中心处，以优化通信链路；其优化过程如下：

步骤4.1：通过光强接收器检测到的光强，计算检测到的光强与预设光强阈值的误差I_Δ为：

I_Δ＝I_t-I_th (5)；

其中，I_t表示瞬时光强，I_th表示光强阈值；

步骤4.2：根据t时刻的位置，计算AUV与预设最佳光强接受点的距离为：

其中，和/>分别表示跟随AUV和预设最佳接收点A在t时刻的位置；

步骤4.3：AUV将检测到的光信号，解码并不断检测传输过程中的光强度与距离信息，以不断调整速度优化通信链路。

本发明所带来的有益技术效果：

本发明可以控制AUV跟随光束的方向，在AUV协同运动的情况下实现可靠的水下光通信链路；为快速有效地收集数据，采用具有高带宽、抗电磁干扰特点的光通信技术，并利用AUV的灵活性实现实时、可靠、高速水下监测数据的传输。

本发明同时考虑环境光干扰、传输路径损耗、位置不确定等关键因素，提出了一种基于深度强化学习的多AUV协同移动光通信方法，属于首次提出在移动场景下通过多AUV实现可靠的水下光通信链路。与现有的领导者-追随者(Leader-Follower)队列移动方法相比较，本发明基于深度强化学习的多AUV协同移动光通信方法具有海洋环境的自适应能力，适用于复杂海洋环境下的水下高速实时数据传输。

附图说明

图1为本发明基于深度强化学习的海洋环境下多个AUV协同移动光通信方法的场景图。

图2为本发明仿真实验中建立两个AUV之间的视线连接示意图。

图3为本发明仿真实验中扩展卡尔曼算法对AUV位置预测的有效性示意图。

图4为本发明仿真实验中AUV集群跟踪轨迹的俯视图。

图5为本发明仿真实验中三维空间中AUV的轨迹图。

图6为本发明仿真实验中在每个时间步长中，两个相邻的AUV之间的光强对比图。

图7为本发明仿真实验中领导-追随者算法与DDPG算法跟踪中两个相邻的AUV之间的光强的比较图。

图8为本发明仿真实验中领导-追随者算法与DDPG算法跟踪中跟随AUV与预设光通信最佳点A之间的相对距离比较图。

图9为本发明仿真实验中针对不同数量的AUV的端到端误码率对比图。

具体实施方式

下面结合附图以及具体实施方式对本发明作进一步详细说明：

本发明中，AUV利用光学通信技术以及协同移动算法实现对水下移动监测目标数据的高速传输。首先，将数据收集问题表述为混合整数非线性问题，以实现多个AUV协同移动光通信数据传输。为保证数据传输可靠性，将数据传输问题表述为马尔可夫决策过程，然后，提出一种基于深度确定性策略梯度(Deep Deterministic Policy Gradient，DDPG)的多AUV协同移动光通信学习算法寻找最优策略。

本发明采用基于深度强化学习的方法，AUV根据接收信号强度传感器检测到的光强数据与自身位置信息作为输入信息，通过惯性导航系统智能地调整AUV的速度，同时考虑AUV位置预测、环境光噪声等其他干扰以最大限度地提高AUV移动中链路的稳定性。

本发明方法的主要过程为：在不同深度区域部署多个AUV，并通过水下光通信建立实时的高速光通信传输链路；目标区域中部署的AUV接收初始观测状态；底层AUV从初始位置出发，追踪移动目标，上层AUV预测下层AUV的位置，同时，上层AUV协同移动控制系统选择具体的动作后，根据自身位置信息与接收信号强度传感器检测到的光强数据调整下一步的速度；多个AUV根据惯性导航系统调整自身速度，通过多个自主水下航行器之间的协同移动，实现水下实时监测数据高速光通信传输。

本发明实施例的详细步骤如下：

步骤1：在不同深度区域部署多个AUV，并通过水下光通信建立初始的实时高速光通信传输链路。

如图1所示，当AUV接到紧急事件通知时，如对移动目标跟踪和监测，多个带有摄像机的AUV将分别部署到指定的深度，协作执行对移动目标的跟踪任务。每个AUV都配备一个压力传感器确保AUV在特定的深度，假设AUV的数量为I，从上到下的第i个AUV记为AUV_i,i∈{1,2,3,…I}。除了AUV_I，每个AUV_i是AUV_i+1的追随者。当AUV_I到达指定位置后，将通过声学通信向上层AUV报告自身位置。上层的多个AUV根据AUV_I位置合理分配自身部署位置，通过声学导航到达初始部署位置，并建立初始实时的高速光通信传输链路，多个AUV建立初始连接时，二者之间的角度关系为：底层AUV发射器视场半角为Ψ/2，上层AUV的接收器视场半角为Φ_1/2。

步骤2：目标区域中部署的AUV将初始观测状态输入AUV协同移动控制系统，AUV协同移动控制系统做出动作决策，选择具体的动作。

AUV自身装备发光二极管和接收信号强度传感器，多个AUV建立光学链路后，底层AUV将其监测数据块打包成长度为B的数据包发送给上层AUV，其上层AUV通过接收信号强度传感器接收并解码光信号，经过多个AUV之间的光学链路向上将数据传输到海面舰艇等水面基站。

AUV协同移动控制系统采用基于深度确定性策略梯度的强化学习算法进行动作决策，具体的决策过程为：

对于每个AUV，AUV协同移动控制系统根据当前策略μ和噪声来选择一个动作a_t，使得对应的Q(s_t,a_t)值最大化。即/>其中Q代表Critic网络，μ代表Actor网络，s_t表示当前时间步下的状态，a_t表示在当前状态下应采取的动作，θ^μ是Actor网络参数，θ^Q是Critic网络参数，argmax则代表选取让Q值最大的动作。在训练阶段，输出的动作a_t会在最优动作的基础上添加一个服从正态分布的探索噪音/>即/>从而让智能体具备一定的探索能力，其中，/> 表示正态分布，σ²表示方差。AUV协同移动控制系统依据当前策略及探索噪声从动作集a中选择一个动作，选择的动作是在t时刻AUV调整速度的所有可能的选项之一。设当前策略网络输出的最优动作为a_g，动作集表示为a＝{u_t,r_t|s_t}，u_t表示当前t时刻AUV移动中的航行速度，r_t表示当前t时刻AUV移动中的偏航角速度；u_t∈[-u_max,u_max]，r_t∈[-r_max,r_max]，u_t+1表示下一时刻AUV移动中的航行速度，r_t+1表示下一时刻AUV移动中的偏航角速度，u_max表示AUV移动中所能控制的最大航行速度；r_max表示AUV移动中所能控制的最大偏航角速度。

进一步地，步骤2中，AUV协同移动控制系统在执行一步动作后，设置奖励函数如下：

其中，r_t表示当前t时刻状态下的奖励值；ρ₁、ρ₂、ρ₃和ρ₄均是常系数，分别表示AUV协同移动光通信中的不同重要性权重；I_Δ是t时刻通过光强接收器检测到的瞬时光强I_t与光强阈值I_th之间的差值；d_Δ表示跟随者AUV与图2中预设光强最佳点A之间的距离；a_Δ是在t时刻的相对偏航方向；u_Δ是在t时刻的相对航行速度。

步骤3：底层AUV从初始位置出发，追踪移动目标，上层AUV预测下层AUV的位置，同时，AUV协同移动控制系统选择具体的动作后，并根据自身的位置信息与接收信号强度传感器检测到的光强数据作为AUV下一步的调整速度参考；

AUV协同移动控制系统采用扩展卡尔曼滤波算法对AUV位置进行预测，具体的预测过程为：

AUV协同移动控制系统中上层的AUV采用光学传感器的测量值作为观测值，通过一个状态估计器来预测下层AUV的位置。首先定义了状态转移和观测模型以及用于处理非线性问题的雅可比矩阵。AUV的状态被定义为X＝[x_l,y_l,ψ_l]^T，是关于下层AUV的位置和方向的信息。在离散时域上的状态传递函数表示为：

其中，ω_t为过程噪声，服从均值为零且协方差为Q的高斯分布；和/>为上层AUV在t时刻的航行速度和偏航角速度；t_s为采样时间。因此，该模型的线性化状态转换矩阵可写成/>将在不同位置监测的两个独立的光强测量作为观测，t时刻的观测关系Z_t表示为：

其中，ν_t是观测噪声，服从均值为零且协方差为R的高斯分布。线性化观测矩阵J_H是函数h的雅可比矩阵，可写成使用标准的EKF工具来估计近似的相对位置，经过多轮预测和更新得到下层AUV的预测位置。

AUV上安装惯性导航系统；根据该惯性导航系统控制AUV的速度从而移动，AUV下一时刻移动位置表示为：

其中，cos表示三角函数中的余弦，sin表示三角函数中的正弦，x_t、y_t分别表示X、Y轴上的位置向量，ψ_t表示方向向量，其中，u_t、v_t和r_t分别表示航行速度、摇摆速度和偏航角速度，t是传感器的采样周期。

AUV在选择具体动作后，调整相应的速度，并更新状态信息。

步骤4：下层AUV在执行移动动作的同时向上发送光通信数据信号。当上层AUV检测到的来自下层的光信号后，对其进行解码并完成向上转发光信号，从而实现多个AUV之间的光通信数据传输；AUV控制系统实时判断多个AUV之间是否满足预定义的最小误码率，若不满足，则光通信传输失败，AUV将更新自身位置，并重新执行步骤2；否则，重复执行步骤3-步骤4，以保证连续的数据收集，AUV根据惯性导航系统持续调整自身速度，以将海底数据通过光通信传输到海面，直到完成任务区域的数据收集。

移动中的多个AUV持续将海底数据传输到海面舰艇，即移动中多个AUV之间不断调整速度，以控制自身在光圈中心处，以优化通信链路。其优化过程如下：

步骤4.1：首先，通过光强接收器检测到的光强，计算检测到的光强与预设光强阈值的误差I_Δ为：

I_Δ＝I_t-I_th (5)；

其中，I_t表示瞬时光强，I_th表示光强阈值。

其中，和/>分别表示跟随AUV和预设最佳接收点A在t时刻的位置。

AUV在水下环境中根据当前环境状态自主完成动作决策时，需要不断更新Actor网络参数θ^μ、Critic网络参数θ^Q、目标Actor网络参数θ^μ′和目标Critic网络参数θ^Q′；

Critic网络通过最小化实际输出的值与目标值来更新θ^Q参数，具体公式如下：

其中，y_t＝r_t+γQ′(s_t+1,μ′(s_t+1|θ^μ′)|θ^Q′)表示当前t时刻目标值，γ为折扣系数，s_t+1表示下一时刻状态，Q′表示目标Critic网络，μ′表示目标Actor网络，N表示从经验池中采样的元组数。

Actor网络执行梯度下降来更新参数θ^μ，以改进策略网络的性能，具体公式为：

其中，表示对参数求导，J表示优化目标，μ(s_t|θ^μ)表示Actor网络下在当前t时刻状态s_t下所执行的策略，/>表示对动作求导，Q(s_t,a_t|θ^Q)表示Critic网络下在当前t时刻状态s_t采取动作a_t的函数值。

本发明主要目的是多个AUV在水下环境中根据当前环境状态自主完成动作决策，进而实现协同移动中数据的快速上传，本发明仿真过程如下：

(1)利用编程软件搭建基于深度强化学习的多个AUV协同移动控制仿真系统，通过仿真训练得到最优决策策略，具体步骤如下：

(1.1)确定AUV的状态，建立环境模型；

(1.2)确定多个AUV的初始位置和跟踪目标位置，初始化当前t时刻环境状态等算法参数；

(1.3)根据检测到的光强数据，预测AUV的相对位置；

(1.4)根据当前状态及探索噪声选择动作，确定调整速度变量；

(1.5)根据检测到的数据信息计算AUV下一时刻的速度；

(1.6)执行动作集a中的一个动作，得到奖励值r_t，观察新的状态s′；

(1.7)保存经验到经验池，并随机采样小批量经验训练神经网络；

(1.8)通过最小化损失函数来更新Critic网络参数θ^Q，并执行梯度下降来更新Actor网络参数θ^μ；

(1.9)软更新目标Critic网络参数θ^Q′和目标Actor网络参数θ^μ′；

(1.10)判断当前时刻传输误码率是否超过要求，若未超过，转(1.3)；否则转(1.11)；

(1.11)判断是否完成数据收集回合迭代，若是，终止并输出结果，否则转(1.2)；

(2)利用基于深度确定性策略梯度的控制器控制AUV完成调整进而输出动作，具体步骤如下：

(2.1)初始化参数，如Actor网络参数θ^μ、Critic网络参数θ^Q及其目标网络参数，经验池M，最大回合E，最大时间步T等，最大时间步T即对应预定义数据收集时间T；

(2.2)进行外部回合循环：

(2.2.1)进行内部时间步循环：

(2.2.1.1)运行深度确定性策略梯度算法，输出动作集a中一个动作；

(2.2.1.2)执行动作，根据奖励策略获取奖励值，具体计算方式为公式(1)；

(2.2.1.3)通过最小化损失函数L(θ^Q)更新Critic网络参数θ^Q，具体计算方式为公式(7)；

(2.2.1.4)执行梯度下降更新Actor网络参数θ^μ，具体计算方式为公式(8)；

(2.2.1.5)更新目标网络参数，具体计算方式为公式(9)；

(2.2.1.6)若数据收集时间超时，结束内部时间步循环；

(2.2.2)若达到外部循环步数，结束外部回合循环。

(2.3)输出多个AUV之间的接收光强度。

本发明的效果可以通过如下仿真实验进一步说明：

仿真条件如下：

在仿真中，我们通过模拟水下环境，建立一个可靠的光通信链路，用于不同水下场景下的多跳通信。AUV预先部署在给定的深度，满足在光通信条件下，当最底层的AUV移动时，位于它上面的AUV跟随以保持同步。我们将采样时间和模拟时间设置为0.1s和20秒。此外，深度确定性策略梯度DDPG由Python 3.9实现，使用基于Pytorch的开源模块StableBaselines3来模拟环境，相关参数的数值设置如下：

AUV接收器效率R的数值设置为0.6W/V；参数电子电荷量的数值设置为1.6×10^- ¹⁹C；参数发射器平均功率P_t的数值设置为0.1W；参数背景噪声功率密度p_bg的数值设置为5.8×10^-6W/cm²；参数接收器孔径面积A_r的数值设置为1cm²；参数光谱宽度Δλ的数值设置为100nm；AUV接收器视场半角Φ_1/2的数值设置为π/2rad。

仿真结果如下：

为了验证在复杂的海洋环境下基于扩展卡尔曼滤波估计器预测位置的有效性，我们对基于扩展卡尔曼滤波估计器预测的的位置和角度与实际值进行了对比，如图3所示。两个相邻的AUV之间的误差逐渐收敛，表明预测的位置可以作为其参考位置。

为了验证DDPG算法在复杂海洋环境下的奖励设计的有效性，我们将AUV的轨迹设计为圆形曲线，多个AUV在X-Y平面上的轨迹俯视图和X-Y-Z三维轨迹图分别如图4、5所示。可以看出，AUV集群一直跟随底部AUV，跟踪误差控制在一个小范围内，取得了良好的跟踪性能。

为了量化跟踪性能并进一步反映AUV集群之间的端到端光通信，每一层AUV都需要满足通信条件，因此我们测量每个时间步长中两个相邻AUV之间的光强，如图6所示，两个相邻AUV之间的光强在接近1.04×10^-7附近保持稳定。为了证明该算法的有效性，在图7、8中，我们比较了领导-跟随者算法和基于DDPG的跟踪算法。图7显示了基于DDPG的跟踪算法在AUV运动中检测到的光强数据波动较小，且总体优于领导者-跟随者算法，这是因为仅采用领导者-跟随者算法考虑了队列的移动，而没有考虑到通信的稳定性。图8显示，基于DDPG的跟踪算法得到的跟随者AUV和点A之间的相对距离更小、更稳定，确保了更好的通信性能。

最后，为了验证多跳通信的端到端性能，我们展示了在不同数量AUV下的端到端误码率性能，如图9所示。结果表明，其中当AUV数量为5时，端到端误码率浮动在2.5×10^-7左右，当AUV数量更少时，误码率更低，满足了多跳通信所需的通信要求，也证明了该移动光学链路跟踪方案的有效性。

上述仿真数值结果表明，本发明方案具有良好的性能，可实现多个AUV协同移动的可靠光通信。

当然，上述说明并非是对本发明的限制，本发明也并不仅限于上述举例，本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换，也应属于本发明的保护范围。

Claims

1.一种基于深度强化学习的多AUV协同移动光通信方法，其特征在于：具体包括如下步骤：

2.根据权利要求1所述的基于深度强化学习的多AUV协同移动光通信方法，其特征在于：步骤1的具体过程为：

3.根据权利要求1所述的基于深度强化学习的多AUV协同移动光通信方法，其特征在于：步骤2中，AUV自身装备有发光二极管和接收信号强度传感器，多个AUV建立光学链路后，底层AUV将其监测数据块打包成长度为B的数据包发送给上层AUV，上层AUV通过接收信号强度传感器接收并解码光信号，经过多个AUV之间的光学链路向上将数据传输到水面基站；

4.根据权利要求1所述的基于深度强化学习的多AUV协同移动光通信方法，其特征在于：步骤2中，AUV协同移动控制系统采用基于深度确定性策略梯度的强化学习算法进行动作决策，具体的决策过程为：

5.根据权利要求4所述的基于深度强化学习的多AUV协同移动光通信方法，其特征在于：步骤2中，AUV协同移动控制系统在执行动作决策后，设置奖励函数如下：

6.根据权利要求5所述的基于深度强化学习的多AUV协同移动光通信方法，其特征在于：AUV在水下环境中根据当前环境状态自主完成动作决策时，需要不断更新Actor网络参数θ^μ、Critic网络参数θ^Q、目标Actor网络参数θ^μ′和目标Critic网络参数θ^Q′；

其中，y_t＝r_t+γQ′(s_t+1,μ′(s_t+1|θ^μ′)|θ^Q′)表示当前t时刻目标值，γ为折扣系数，s_t+1表示下一时刻状态，Q′表示目标Critic网络，μ′表示目标Actor网络，N表示从经验池中采样的元组数；

7.根据权利要求1所述的基于深度强化学习的多AUV协同移动光通信方法，其特征在于：步骤3中，AUV协同移动控制系统采用扩展卡尔曼滤波算法对自身位置信息进行预测，具体的预测过程为：

其中，ω_t为过程噪声，服从均值为零且协方差为Q的高斯分布；和/>为上层AUV在t时刻的航行速度和偏航角速度；t_s为采样时间；因此，该模型的线性化状态转换矩阵能够写成将在不同位置监测的两个独立的光强测量作为观测，t时刻的观测关系Z_t表示为：

其中，ν_t是观测噪声，服从均值为零且协方差为R的高斯分布；线性化观测矩阵J_H是函数h的雅可比矩阵，能够写成使用标准的EKF工具来估计近似的相对位置，经过多轮预测和更新得到下层AUV的预测位置。

8.根据权利要求1所述的基于深度强化学习的多AUV协同移动光通信方法，其特征在于：步骤3中，AUV上安装有惯性导航系统，根据该惯性导航系统控制AUV的速度从而移动，AUV下一时刻移动位置表示为：

AUV在选择具体动作后，调整相应的速度，并更新状态信息。

9.根据权利要求1所述的基于深度强化学习的多AUV协同移动光通信方法，其特征在于：步骤4中，移动中的多个AUV持续将海底数据传输到海面舰艇，即移动中多个AUV之间不断调整速度，以控制自身在光圈中心处，以优化通信链路；其优化过程如下：

I_Δ＝I_t-I_th (5)；

其中，I_t表示瞬时光强，I_th表示光强阈值；