CN116405111B

CN116405111B - 一种基于深度强化学习的海上无人机辅助光数据收集方法

Info

Publication number: CN116405111B
Application number: CN202310678408.3A
Authority: CN
Inventors: 罗汉江; 马赛赛; 李梦真; 王京龙; 邓廷龙; 刘奎
Original assignee: Shandong University of Science and Technology
Current assignee: Shandong University of Science and Technology
Priority date: 2023-06-09
Filing date: 2023-06-09
Publication date: 2023-08-15
Anticipated expiration: 2043-06-09
Also published as: CN116405111A

Abstract

本发明公开了一种基于深度强化学习的海上无人机辅助光数据收集方法，属于海洋监测无线通信技术领域，包括如下步骤：步骤1、无人机通过无线电导引至待收集浮标的部署位置上方，并通过射频信号与浮标建立初始连接；步骤2、在目标区域中部署的浮标被唤醒后进行初始化，并接收初始观测状态；步骤3、浮标控制系统选择具体动作后，根据惯性测量单元测得的波浪数据作为下一步的调整角度参考；步骤4、浮标根据调整角度高效完成与无人机之间的光学数据收集。本发明基于深度强化学习方法的无人机辅助光学数据收集能够可靠收集数据并优化能量消耗，可以适用于波浪、环境光等复杂环境下的水面高速数据传输需求。

Description

一种基于深度强化学习的海上无人机辅助光数据收集方法

技术领域

本发明属于海洋监测无线通信技术领域，具体涉及一种基于深度强化学习的海洋环境下无人机辅助光学数据收集方法。

背景技术

由于恶劣的海洋环境，波浪和其他扰动导致浮标的漂移和不稳定，从而恶化甚至中断视距（Line-of-sight，LOS）光传输，使无人机（Unmanned Aerial Vehicles，UAV）和浮标之间很难实现实时数据收集。一般来说，数据采集可以通过无线电（Radio Frequency，RF）通信来实现，例如，以无人机作为中继节点的三层架构完成浮标数据采集任务，三层架构分别为搜索浮标的运动计划、采用无人机通信确保的服务质量和通过唤醒浮标进行的数据采集任务。然而，随着海洋大数据的快速发展以及有限的机载能量，与光通信相比，无线电通信存在传输速度低、易受电磁干扰等缺点。因此，为了实现高速数据收集，有必要考虑光学通信实现高速实时数据传输。

然而，当无人机到达浮标上方进行数据采集时，由于光束的精确方向要求、波干扰的不确定性以及机械设备的固有特性，使得建立稳健可靠的高速光传输成为一个重大挑战。因此，为保证在满足系统服务质量要求的同时，实现浮标与无人机之间有效的数据传输，必须解决由波面变化和机械误差引起的链路质量下降问题，以保持收发机之间的视距可靠通信。

在光学传输系统中，光束跟踪和自适应调整技术是应对波束动态变化的有效方法，可以通过高精度数学模型进行系统分析并实现控制，但由于这些系统的完整信息无法直接获得，它们的显式解很难找到，因此不能用来解决波浪、环境光等不确定扰动造成的环境多变性问题。而发射器方向及调整过程最终影响浮标和无人机之间数据传输的性能和能量消耗，如何根据波浪等干扰的影响来调整浮标发射器指向角是实现无人机辅助光学数据收集的关键问题。

发明内容

为了解决波浪等干扰水面光学数据收集问题，本发明提出了一种基于深度强化学习的海洋环境下无人机辅助的光学数据收集方法，采用深度强化学习算法来调整浮标发射器角度寻找最大化接收光强度和最小化能量消耗的优化策略。

本发明的技术方案如下：

一种基于深度强化学习的海上无人机辅助光数据收集方法，在浮标控制系统中采用深度确定性策略梯度的强化学习算法进行动作决策，使浮标在水面环境中根据当前环境状态自主完成动作决策，具体包括如下步骤：

步骤1、无人机从初始位置出发，通过无线电导引至目标区域中浮标的上方，并通过射频信号与浮标建立初始连接；

步骤2、浮标被无人机发送的射频信号唤醒后进行初始化，同步接收初始观测状态，将初始观测状态输入浮标控制系统，浮标控制系统做出动作决策，选择具体的动作；

步骤3、浮标控制系统选择具体动作后，根据惯性测量单元测得的波浪数据作为下一步的调整角度参考；

步骤4、浮标执行调整动作后，发送光信号；无人机接收检测到的光信号并进行解码，执行与浮标之间的数据收集；浮标同步更新数据收集时间，若收集时间超时，则重新执行步骤2；否则，重复执行步骤3-步骤4，直到无人机收集数据满足预定义最小误码率，数据收集完成。

进一步地，步骤1的具体过程为：

将浮标使用锚链静态部署在目标区域海面上，浮标监测海面情况或收集水下传感器的监测数据；船舶或基站将数据收集任务分配到无人机，然后无人机导航到目标浮标上方的预传输高度并维持悬停稳定，无人机通过无线电链路与浮标建立初始连接。

进一步地，步骤2中，浮标自身装备短程无线电收发器并另外连接一台无线电设备，浮标在无线电设备的请求下会被唤醒；浮标在被唤醒后使用装备的发光二极管发射光信号，无人机通过接收信号强度传感器接收并解码光信号；浮标的坐标位置为，/>表示浮标的横坐标，/>表示浮标的纵坐标，当无人机到达浮标上方悬停高度/>时，浮标将其监测数据块打包成长度为/>的数据包发送给无人机；

初始观测状态包括当前时刻浮标调整角/>、浮标调整过程中的角速度/>、距离无人机的距离/>、/>表示当前/>时刻下的波高。

进一步地，步骤2中，浮标控制系统采用深度确定性策略梯度的强化学习算法进行动作决策，具体的决策过程为：

浮标控制系统依据当前策略及探索噪声选择一个动作，通过策略找到使值最大的动作，即/>，此时/>是Critic网络，策略/>是Actor网络，其中，/>表示当前/>时刻状态，/>表示当前/>时刻状态下的动作，/>表示Actor网络参数，/>表示Critic网络参数，/>表示取得最大值；动作集是/>，浮标控制系统依据当前策略及探索噪声从动作集/>中选择一个动作，选择的动作是在/>时刻浮标调整角度的所有可能的变化之一，/>表示当前/>时刻浮标调整增量；/>并且/>，/>表示下一时刻调整后的角度，/>表示上一时刻调整后的角度，/>表示发射器的最大调整角度；设当前策略网络输出的最优动作为/>，在实际执行动作/>时，会在最优动作的基础上添加一个服从正态分布的探索噪音/>，即/>，，其中，/>表示正态分布，/>表示方差。

进一步地，步骤2中，浮标控制系统在执行一步动作后，设置奖励函数如下：

(1)；

其中，表示当前/>时刻状态下的奖励值，/>、/>、/>和/>均是常系数，分别表示数据收集过程中的不同重要性权重；/>表示浮标选择动作后的调整角度；/>表示浮标配备的惯性测量单元测量到的实际机械调整角度；/>表示当前/>时刻下的波高；/>和/>分别表示浮标调整过程中的角速度和角加速度；

浮标的能量消耗包括传感器模块、主控制模块和通信模块三个部分的能量消耗，将主控制模块的能量消耗表示为：

(2)；

其中，表示空气密度，/>表示机械旋转平台的半径，/>表示一个常数，依赖于机械旋转平台的阻力系数；

传感器模块的能量消耗和通信模块的能量消耗/>均取为常量。

进一步地，浮标在水面环境中根据当前环境状态自主完成动作决策时，需要不断更新Critic网络参数、Actor网络参数/>、目标Critic网络参数/>和目标Actor网络参数/>；

Critic网络参数通过最小化损失函数/>来更新，具体公式如下：

(7)；

其中，表示从经验池中采样的元组数，/>表示当前/>时刻目标值，，/>为折扣系数，/>表示目标Critic网络，/>表示下一时刻状态，/>表示目标Actor网络；

Actor网络参数执行梯度下降来更新，具体公式为：

(8)；

其中，表示对参数求导，/>表示优化目标，/>表示对动作求导，表示Critic网络下在当前/>时刻状态/>采取动作/>的函数值，/>表示Actor网络下在当前/>时刻状态/>下所执行的策略；

软更新目标Critic网络参数和目标Actor网络参数/>，具体公式如下所示：

(9)；

其中，表示软更新的系数，/>表示更新。

进一步地，步骤3中，浮标节点上安装一个由三轴陀螺仪和加速度计组成的惯性测量单元；根据该惯性测量单元测量的波浪数据，得到无人机悬停位置与机械调整角度的实际相对方向，进而将实际机械调整角度表示为：

(3)；

其中，表示取符号函数，/>表示反三角函数中的反余弦，/>表示当前时刻下的波高，/>表示三维波面法向量，/>、/>、/>分别表示/>、/>、轴上法向量；

浮标在选择具体动作后，与惯性测量单元监测的数据处理后的结果作差值，并更新浮标的状态信息。

进一步地，步骤4中，当一轮数据收集结束，浮标为满足光学传输链路的性能要求，进行如下优化过程：

步骤4.1、首先，计算浮标在调整过程中的总误差为：

(4)；

其中，表示预定义数据收集时间；

步骤4.2、根据时刻的调整角度变量，计算收集过程中主控制模块的总能量消耗为：

(5)；

角速度与浮标调整增量的关系为，/>表示浮标调整增量；

步骤4.3、无人机根据检测到的光信号，解码并计算传输过程中的光强度与误码率；而浮标总的能量消耗通过如下公式计算，

(6)；

其中，表示传感器模块的能量消耗，/>表示主控制模块的能量消耗，/>表示通信模块的能量消耗。

本发明所带来的有益技术效果如下。

本发明可以在不同波高的海洋条件下进行自适应地选择最佳的调整角度，同时平衡能耗完成浮标与无人机之间的数据收集；为了快速有效地收集数据，采用具有高带宽、抗电磁干扰特点的光通信技术，利用无人机的灵活性进行可靠和及时的数据收集；同时提出了一种浮标发射器角度调整算法，该算法根据惯性测量单元测得波浪数据和无人机悬停位置来确定浮标的调整角度，同时降低能源消耗。

本发明同时考虑环境光干扰、传输路径损耗和机械延迟等几个关键因素来优化加权调整角和能耗。在此基础上，提出了一种基于深度强化学习的海洋环境下无人机辅助的光学数据收集方法，属于首次提出通过光通信建立无人机和浮动浮标之间的高速数据收集链接。与现有的比例-积分-微分控制器（Proportional Integral Derivative，PID）调整角度方法相比较，本发明基于深度强化学习方法的数据收集方法的调整方差较小且不需要完整的系统信息，进而能够优化接收光强度和能量消耗，适用于复杂海洋环境下的高速数据传输。

附图说明

图1为本发明基于深度强化学习的海上无人机辅助光数据收集方法的流程图。

图2为本发明仿真实验中两种不同波形下的波形曲线图。

图3为本发明仿真实验中基于深度强化学习的光学数据收集算法收敛性示意图。

图4为本发明仿真实验中最大波高0.4m下目标值和深度确定性策略梯度算法估计的浮标调整角度对比图。

图5为本发明仿真实验中最大波高1m下目标值和深度确定性策略梯度算法估计的浮标调整角度对比图。

图6为本发明仿真实验中最大波高0.4m下的深度确定性策略梯度算法和比例-积分-微分控制器平均调整角度和方差对比图。

图7为本发明仿真实验中最大波高1m下的深度确定性策略梯度算法和比例-积分-微分控制器平均调整角度和方差对比图。

图8为本发明仿真实验中不同最大波高与无人机在不同悬停高度时接收光强的平均值对比图。

图9为本发明仿真实验中最大波高0.4m下的浮标是否平衡能量消耗对比图。

图10为本发明仿真实验中最大波高1m下的浮标是否平衡能量消耗对比图。

图11为本发明仿真实验中不同最大波高下的无人机收集数据误码率对比图。

具体实施方式

下面结合附图以及具体实施方式对本发明作进一步详细说明：

本发明中，浮标利用光学通信技术以及智能算法最大化采集数据的可靠性和最小化能量消耗。首先，将数据收集问题表述为混合整数非线性问题，以最大化无人机接收光强度并平衡能耗。为了保证收集数据可靠性，将数据采集问题表述为马尔可夫决策过程，然后，提出一种基于深度确定性策略梯度（Deep Deterministic Policy Gradient，DDPG）的学习算法来寻找最优策略。

本发明采用了基于深度强化学习的方法，浮标参考惯性测量单元（InertialMeasurement Unit，IMU）测量波浪数据并智能地调整发射器角度，同时考虑环境光噪声等其他干扰以最大限度地提高链路的稳定性并平衡调整过程中的能量消耗。

本发明方法的主要过程为：无人机通过无线电导引至待收集浮标的部署位置上方，并通过射频信号与浮标建立初始连接；在目标区域中部署的浮标被唤醒后进行初始化，并接收初始观测状态；浮标控制系统选择具体动作后，根据惯性测量单元测得的波浪数据作为下一步的调整角度参考；浮标根据调整角度高效完成与无人机之间的光学数据收集。

如图1所示，本发明实施例的详细步骤如下：

步骤1、无人机从初始位置出发，在无线电导引下到达目标区域浮标的部署位置上方，并通过射频信号与浮标建立初始连接。

将浮标使用锚链静态部署在目标区域海面上，浮标能够监测海面情况或收集水下传感器的监测数据，比如对于恶劣的海洋环境，浮标可以实时监控收集当下海面情况数据，或收集自主水下航行器等水下传感器传来的监测数据；船舶或基站将数据收集任务分配到无人机，然后无人机导航到目标浮标上方的预传输高度并维持悬停稳定，无人机通过无线电链路与浮标建立初始连接。

浮标与无人机建立初始连接时，二者之间的角度关系为：浮标发射器视场半角为，无人机接收器视场半角为/>，无人机接收角为/>，浮标配备的惯性测量单元测量到的实际机械调整角度为/>。

步骤2、浮标被无人机发送的射频信号唤醒后进行初始化，同步接收初始观测状态，将初始观测状态输入浮标控制系统，浮标控制系统做出动作决策，选择具体的动作。

浮标为了节省能源，通常装备一个短程无线电收发器，只有在另一台无线电设备的请求下才会被唤醒；浮标在被唤醒后使用装备的发光二极管（Light-emitting Diode，LED）发射光信号，无人机通过接收信号强度（Received Signal Strength，RSS）传感器接收并解码光信号，其中，浮标需要克服波浪、环境光噪声等干扰，以保证链路的稳定性；浮标的坐标位置为，/>表示浮标的横坐标，/>表示浮标的纵坐标，当无人机到达浮标上方悬停高度/>时，浮标将其监测数据块打包成长度为/>的数据包发送给无人机。

浮标控制系统采用深度确定性策略梯度的强化学习算法进行动作决策，具体的决策过程为：浮标控制系统依据当前策略及探索噪声选择一个动作，通过策略/>找到使值最大的动作，即/>，此时/>是Critic网络，策略/>是Actor网络，其中，/>表示当前/>时刻状态，/>表示当前/>时刻状态下的动作，/>表示Actor网络参数，/>表示Critic网络参数，/>表示取得最大值；动作集是/>，浮标控制系统依据当前策略及探索噪声从动作集/>中选择一个动作，选择的动作是在/>时刻浮标调整角度的所有可能的变化之一，/>表示当前/>时刻浮标调整增量；/>并且/>，/>表示下一时刻调整后的角度，/>表示上一时刻调整后的角度，/>表示发射器的最大调整角度。设当前策略网络输出的最优动作为/>，输出最优动作后，为保持智能体对环境的探索能力，实际执行动作/>时，会在最优动作的基础上添加一个服从正态分布的探索噪音/>，即/>，/>，其中，/>表示正态分布，/>表示方差。

浮标控制系统在执行一步动作后，设置奖励函数。整体上将数据收集过程中的奖励函数设置为两部分，当浮标调整角度的误差变小时，得到一个和数据传输链路性能相关的负奖励；同时浮标需要平衡调整过程中能量的消耗，避免过度调整，浪费机载能量。奖励函数设置如下：

(1)；

其中，表示当前/>时刻状态下的奖励值，/>、/>、/>和/>均是常系数，分别表示数据收集过程中的不同重要性权重，/>表示浮标选择动作后的调整角度，/>表示浮标配备的惯性测量单元测量到的实际机械调整角度，/>表示当前/>时刻下的波高；/>和/>分别表示浮标调整过程中的角速度和角加速度，目的是最小化所消耗的能量。

在海洋环境下，浮标的能量消耗主要包括传感器模块、主控制模块和通信模块三个部分的能量消耗，而主控制模块的能量消耗影响较大，表示为：

(2)；

传感器模块的能量消耗和通信模块的能量消耗较小，因此本发明中，传感器模块的能量消耗和通信模块的能量消耗/>均取为常量。

步骤3、浮标控制系统选择具体动作后，根据惯性测量单元测得的波浪数据作为下一步的调整角度参考。

浮标节点上通常安装一个由三轴陀螺仪和加速度计组成的惯性测量单元，以跟踪浮标上机械旋转平台的实时姿态，而这种实时姿态通常由滤波器方案计算得到；但根据该惯性测量单元测量的波浪数据，可以得到无人机悬停位置与机械调整角度的实际相对方向，进而可以将实际机械调整角度表示为：

(3)；

其中，表示取符号函数，/>表示反三角函数中的反余弦，/>表示当前时刻下的波高，/>表示三维波面法向量，/>、/>、/>分别表示/>、/>、轴上法向量。

浮标在选择具体动作后，与惯性测量单元监测的数据处理后的结果作差值，并更新浮标的状态信息，这将促进其快速学习下一时刻的调整角度。

步骤4、浮标执行调整动作后，以频率机械调整一个时隙/>并发送光信号；无人机接收检测到的光信号并进行解码，执行与浮标之间的数据收集；浮标同时更新数据收集时间，若收集时间超时，则重新执行步骤2；否则，重复执行步骤3-步骤4，直到无人机收集数据满足预定义最小误码率，数据收集完成。

当一轮数据收集结束，浮标为满足光学传输链路的性能要求，优化过程如下：

步骤4.1、首先，计算浮标在调整过程中的总误差为：

(4)；

其中，表示预定义数据收集时间；

(5)；

角速度与浮标调整增量的关系为，/>表示浮标调整增量；

步骤4.3、无人机根据检测到的光信号，解码并计算传输过程中的光强度与误码率；而浮标总的能量消耗通过如下公式计算，最终达到最大化接收光强度和最小化能量消耗的效果，

(6)；

浮标在水面环境中根据当前环境状态自主完成动作决策时，需要不断更新Critic网络参数、Actor网络参数/>、目标Critic网络参数/>和目标Actor网络参数/>；

(7)；

Actor网络参数执行梯度下降来更新，具体公式为：

(8)；

(9)；

其中，表示目标Critic网络参数，/>表示目标Actor网络参数，/>表示软更新的系数，/>表示更新。

本发明最主要的目的是让浮标在水面环境中根据当前环境状态自主完成动作决策，具体实现过程如下：

（1）利用编程软件搭建基于深度强化学习的智能浮标的控制仿真系统，通过仿真训练得到最优决策策略，具体步骤如下：

（1.1）确定无人机的状态，建立环境模型；

（1.2）确定初始位置和无人机目标位置，初始化当前时刻环境状态等算法参数；

（1.3）根据当前状态及探索噪声选择动作，确定调整角度变量；

（1.4）根据惯性测量单元测量的波浪数据计算浮标的参考角度；

（1.5）执行动作集中的一个动作，得到奖励值/>，观察新的状态/>；

（1.6）保存经验到经验池，并随机采样小批量经验训练神经网络；

（1.7）通过最小化损失函数来更新Critic网络参数，并执行梯度下降来更新Actor网络参数/>；

（1.8）软更新目标Critic网络参数和目标Actor网络参数/>；

（1.9）判断当前时刻状态是否超过数据收集时间，若未超过数据收集时间，转（1.3）；否则转（1.10）；

（1.10）判断是否完成数据收集回合迭代，若是，终止并输出结果，否则转（1.2）；

（2）利用基于深度确定性策略梯度的控制器控制浮标完成调整进而输出动作，具体步骤如下：

（2.1）初始化参数，如Actor网络参数、Critic网络参数/>及其目标网络参数，经验池/>，最大回合/>，最大时间步/>等，最大时间步/>即对应预定义数据收集时间/>；

（2.2）进行外部回合循环：

（2.2.1）进行内部时间步循环：

（2.2.1.1）运行深度确定性策略梯度算法，输出动作集中一个动作；

（2.2.1.2）根据Tessendorf方法模拟惯性测量单元测量的波浪数据，参考公式（3）计算实际机械调整角度，Tessendorf方法为模拟海水最经典的方法之一，其核心是将一片海域离散到在二维或三维网格的欧拉框架中进行计算，从而近似模拟波浪的变化；

（2.2.1.3）执行动作，根据奖励策略获取奖励值，具体计算方式为公式（1）；

（2.2.1.4）通过最小化损失函数来更新Critic网络参数/>，具体计算方式为公式（7）；

（2.2.1.5）执行梯度下降来更新Actor网络参数，具体计算方式为公式（8）；

（2.2.1.6）更新目标网络参数，具体计算方式为公式（9）；

（2.2.1.7）若数据收集时间超时，结束内部时间步循环；

（2.2.2）若达到外部循环步数，结束外部回合循环；

（2.3）输出无人机的接收光强度及浮标的能量消耗。

本发明的效果可以通过如下仿真实验进一步说明：

仿真条件如下：

在仿真中，通过模拟海面动力学，建立了浮标与无人机之间的视距光传输上行链路。考虑到无人机的局限性、浮标的有限能量和对高速数据传输的需要，将采样时间和模拟持续时间/>分别设置为0.1s和20s。此外，深度确定性策略梯度DDPG由Python 3.9实现，使用基于Pytorch的开源模块Stable Baselines3来模拟这个环境，相关参数的数值设置如下：

参数误码率阈值的数值设置为/>；参数采样频率/>的数值设置为100Hz；参数调整角度步长/>的数值设置为/>；参数无人机接收器效率/>的数值设置为0.6W/V；参数电子电荷量的数值设置为/>；参数发射器平均功率/>的数值设置为/>；参数背景噪声功率密度/>的数值设置为/>；参数接收器孔径面积/>的数值设置为/>；参数光谱宽度/>的数值设置为100nm；无人机接收器视场半角的数值设置为/>。

锚定的浮标会在外部风、波浪和水流的作用下随波浪受限移动。因此，为了验证所提出的数据收集方案的可靠性，在Tessendorf方法的基础上，比较了两种不同的波形场景，如图2所示，波形1和波形2分别为模拟的两种不同波形。波形1的最大波高为0.4m，波形2的最大波高为1m。

仿真结果如下：

为了验证在复杂海洋环境下浮标与无人机之间的光学数据传输的有效性，图3显示了基于DDPG浮标控制器训练时的累积奖励，其中水平坐标表示回合数，垂直坐标表示奖励值。可以看出，随着训练时间的增加，每回合奖励值和平均奖励值均呈上升趋势，且逐步达到稳定。

通过考虑波浪、能耗和环境光等干扰因素，浮标控制器可以根据Tessendorf方法从上一个时间步模拟的IMU测量数据，学习预测下一个时间步的调整角度，提高了基于深度确定性策略梯度的控制器（此处的控制器即为上述浮标控制系统）的效率。由于光通信的高数据传输速率，本发明假设采样周期为0.1s。因此，在浮标实时姿态的引导下，使用上述方案进行数据收集。

发射机旋转角度的学习结果如图4和图5所示，图4和图5分别对应最大波高0.4m和最大波高1m下采用深度确定性策略梯度算法估计的浮标调整角度与目标值的比较结果。图4和图5表明在不同波高下本发明方法均具有较好的预测性能。

同时，还比较了比例-积分-微分控制器在情景1和情景2下的性能，图6和图7分别对应最大波高0.4m和最大波高1m下的比例-积分-微分控制器与基于深度确定性策略梯度的控制器平均调整角度和方差的比较结果。与基于深度确定性策略梯度的控制器相比，比例-积分-微分控制器需要基于当前时刻的惯性测量单元的测量数据控制浮标调整角度，并且其方差较大。

为了进一步反映不同情况下的表现，测量了每个时间步长的光强度。图8为浮标与无人机在不同高度和不同最大波高下接收光强的平均值对比图。从这些线中可以看出，通过对各种情况的比较，平均强度会受到波面的影响。此外，随着无人机部署高度的增加，其接收到的光强度逐渐不能满足链路要求，受波高的影响较小。

为了评估无人机的接收强度，如图9和图10所示，分别在最大波高0.4m和最大波高1m下进行浮标是否平衡能量消耗的对比，将无人机部署在固定高度，分析浮标调整过程对能耗的影响，包括两种不同波高情景下是否考虑能耗的比较。从图9和图10可以看出，能量消耗随波高的增加而增加，深度确定性策略梯度算法相比不考虑能耗的贪婪算法更节能。同时，也证明了在所提出的数据采集方案中考虑能耗的重要性。

为了从无人机的接收误码率方面验证光链路的可用性，将误码率阈值设置为，并模拟了不同最大波高下的浮标和无人机之间的通信场景。在图11中，e-3即代表/>，比如4e-3即代表/>，从图11的仿真结果表明，在大多数时间步长都满足了所需的服务质量，这也验证了所提出的数据收集方案的有效性。

上述仿真验证结果表明，本发明方案具有良好的性能，可以在波浪等干扰下有效保证光学数据收集过程中的可靠性，同时降低能量消耗。

Claims

1.一种基于深度强化学习的海上无人机辅助光数据收集方法，其特征在于，在浮标控制系统中采用深度确定性策略梯度的强化学习算法进行动作决策，使浮标在水面环境中根据当前环境状态自主完成动作决策，具体包括如下步骤：

所述步骤2中，浮标控制系统采用深度确定性策略梯度的强化学习算法进行动作决策，具体的决策过程为：

浮标控制系统依据当前策略及探索噪声选择一个动作，通过策略找到使/>值最大的动作，即/>，此时/>是Critic网络，策略/>是Actor网络，其中，/>表示当前/>时刻状态，/>表示当前/>时刻状态下的动作，/>表示Actor网络参数，/>表示Critic网络参数，/>表示取得最大值；动作集是，浮标控制系统依据当前策略及探索噪声从动作集/>中选择一个动作，选择的动作是在/>时刻浮标调整角度的所有可能的变化之一，/>表示当前/>时刻浮标调整增量；/>并且/>，/>表示下一时刻调整后的角度，/>表示上一时刻调整后的角度，/>表示发射器的最大调整角度；设当前策略网络输出的最优动作为/>，在实际执行动作/>时，会在最优动作的基础上添加一个服从正态分布的探索噪音/>，即/>，/>，其中，/>表示正态分布，/>表示方差；

2.根据权利要求1所述基于深度强化学习的海上无人机辅助光数据收集方法，其特征在于，所述步骤1的具体过程为：

3.根据权利要求1所述基于深度强化学习的海上无人机辅助光数据收集方法，其特征在于，所述步骤2中，浮标自身装备短程无线电收发器并另外连接一台无线电设备，浮标在无线电设备的请求下会被唤醒；浮标在被唤醒后使用装备的发光二极管发射光信号，无人机通过接收信号强度传感器接收并解码光信号；浮标的坐标位置为，/>表示浮标的横坐标，/>表示浮标的纵坐标，当无人机到达浮标上方悬停高度/>时，浮标将其监测数据块打包成长度为/>的数据包发送给无人机；

4.根据权利要求1所述基于深度强化学习的海上无人机辅助光数据收集方法，其特征在于，所述步骤2中，浮标控制系统在执行一步动作后，设置奖励函数如下：

(1)；

(2)；

5.根据权利要求4所述基于深度强化学习的海上无人机辅助光数据收集方法，其特征在于，浮标在水面环境中根据当前环境状态自主完成动作决策时，需要不断更新Critic网络参数、Actor网络参数/>、目标Critic网络参数/>和目标Actor网络参数/>；

(7)；

Actor网络参数执行梯度下降来更新，具体公式为：

(8)；

其中，表示对参数求导，/>表示优化目标，/>表示对动作求导，/>表示Critic网络下在当前/>时刻状态/>采取动作/>的函数值，/>表示Actor网络下在当前/>时刻状态/>下所执行的策略；

(9)；

其中，表示软更新的系数，/>表示更新。

6.根据权利要求1所述基于深度强化学习的海上无人机辅助光数据收集方法，其特征在于，所述步骤3中，浮标节点上安装一个由三轴陀螺仪和加速度计组成的惯性测量单元；根据该惯性测量单元测量的波浪数据，得到无人机悬停位置与机械调整角度的实际相对方向，进而将实际机械调整角度表示为：

(3)；

其中，表示取符号函数，/>表示反三角函数中的反余弦，/>表示当前/>时刻下的波高，/>表示三维波面法向量，/>、/>、/>分别表示/>、/>、/>轴上法向量；

7.根据权利要求1所述基于深度强化学习的海上无人机辅助光数据收集方法，其特征在于，所述步骤4中，当一轮数据收集结束，浮标为满足光学传输链路的性能要求，进行如下优化过程：

步骤4.1、首先，计算浮标在调整过程中的总误差为：

(4)；

其中，表示预定义数据收集时间；

(5)；

角速度与浮标调整增量的关系为，/>表示浮标调整增量；

(6)；

其中，表示传感器模块的能量消耗，/>表示主控制模块的能量消耗，表示通信模块的能量消耗。