CN116405111A - 一种基于深度强化学习的海上无人机辅助光数据收集方法 - Google Patents

一种基于深度强化学习的海上无人机辅助光数据收集方法 Download PDF

Info

Publication number
CN116405111A
CN116405111A CN202310678408.3A CN202310678408A CN116405111A CN 116405111 A CN116405111 A CN 116405111A CN 202310678408 A CN202310678408 A CN 202310678408A CN 116405111 A CN116405111 A CN 116405111A
Authority
CN
China
Prior art keywords
buoy
representing
unmanned aerial
aerial vehicle
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310678408.3A
Other languages
English (en)
Other versions
CN116405111B (zh
Inventor
罗汉江
马赛赛
李梦真
王京龙
邓廷龙
刘奎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University of Science and Technology
Original Assignee
Shandong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University of Science and Technology filed Critical Shandong University of Science and Technology
Priority to CN202310678408.3A priority Critical patent/CN116405111B/zh
Publication of CN116405111A publication Critical patent/CN116405111A/zh
Application granted granted Critical
Publication of CN116405111B publication Critical patent/CN116405111B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B10/00Transmission systems employing electromagnetic waves other than radio-waves, e.g. infrared, visible or ultraviolet light, or employing corpuscular radiation, e.g. quantum communication
    • H04B10/07Arrangements for monitoring or testing transmission systems; Arrangements for fault measurement of transmission systems
    • H04B10/075Arrangements for monitoring or testing transmission systems; Arrangements for fault measurement of transmission systems using an in-service signal
    • H04B10/079Arrangements for monitoring or testing transmission systems; Arrangements for fault measurement of transmission systems using an in-service signal using measurements of the data signal
    • H04B10/0795Performance monitoring; Measurement of transmission parameters
    • H04B10/07953Monitoring or measuring OSNR, BER or Q
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B10/00Transmission systems employing electromagnetic waves other than radio-waves, e.g. infrared, visible or ultraviolet light, or employing corpuscular radiation, e.g. quantum communication
    • H04B10/07Arrangements for monitoring or testing transmission systems; Arrangements for fault measurement of transmission systems
    • H04B10/075Arrangements for monitoring or testing transmission systems; Arrangements for fault measurement of transmission systems using an in-service signal
    • H04B10/079Arrangements for monitoring or testing transmission systems; Arrangements for fault measurement of transmission systems using an in-service signal using measurements of the data signal
    • H04B10/0795Performance monitoring; Measurement of transmission parameters
    • H04B10/07955Monitoring or measuring power
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B10/00Transmission systems employing electromagnetic waves other than radio-waves, e.g. infrared, visible or ultraviolet light, or employing corpuscular radiation, e.g. quantum communication
    • H04B10/07Arrangements for monitoring or testing transmission systems; Arrangements for fault measurement of transmission systems
    • H04B10/075Arrangements for monitoring or testing transmission systems; Arrangements for fault measurement of transmission systems using an in-service signal
    • H04B10/079Arrangements for monitoring or testing transmission systems; Arrangements for fault measurement of transmission systems using an in-service signal using measurements of the data signal
    • H04B10/0795Performance monitoring; Measurement of transmission parameters
    • H04B10/07957Monitoring or measuring wavelength
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B10/00Transmission systems employing electromagnetic waves other than radio-waves, e.g. infrared, visible or ultraviolet light, or employing corpuscular radiation, e.g. quantum communication
    • H04B10/07Arrangements for monitoring or testing transmission systems; Arrangements for fault measurement of transmission systems
    • H04B10/075Arrangements for monitoring or testing transmission systems; Arrangements for fault measurement of transmission systems using an in-service signal
    • H04B10/079Arrangements for monitoring or testing transmission systems; Arrangements for fault measurement of transmission systems using an in-service signal using measurements of the data signal
    • H04B10/0799Monitoring line transmitter or line receiver equipment
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/14Relay systems
    • H04B7/15Active relay systems
    • H04B7/185Space-based or airborne stations; Stations for satellite systems
    • H04B7/18502Airborne stations
    • H04B7/18506Communications with or from aircraft, i.e. aeronautical mobile service
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/02Services making use of location information
    • H04W4/029Location-based management or tracking services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/38Services specially adapted for particular environments, situations or purposes for collecting sensor information
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Electromagnetism (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Astronomy & Astrophysics (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明公开了一种基于深度强化学习的海上无人机辅助光数据收集方法,属于海洋监测无线通信技术领域,包括如下步骤:步骤1、无人机通过无线电导引至待收集浮标的部署位置上方,并通过射频信号与浮标建立初始连接;步骤2、在目标区域中部署的浮标被唤醒后进行初始化,并接收初始观测状态;步骤3、浮标控制系统选择具体动作后,根据惯性测量单元测得的波浪数据作为下一步的调整角度参考;步骤4、浮标根据调整角度高效完成与无人机之间的光学数据收集。本发明基于深度强化学习方法的无人机辅助光学数据收集能够可靠收集数据并优化能量消耗,可以适用于波浪、环境光等复杂环境下的水面高速数据传输需求。

Description

一种基于深度强化学习的海上无人机辅助光数据收集方法
技术领域
本发明属于海洋监测无线通信技术领域,具体涉及一种基于深度强化学习的海洋环境下无人机辅助光学数据收集方法。
背景技术
由于恶劣的海洋环境,波浪和其他扰动导致浮标的漂移和不稳定,从而恶化甚至中断视距(Line-of-sight,LOS)光传输,使无人机(Unmanned Aerial Vehicles,UAV)和浮标之间很难实现实时数据收集。一般来说,数据采集可以通过无线电(Radio Frequency,RF)通信来实现,例如,以无人机作为中继节点的三层架构完成浮标数据采集任务,三层架构分别为搜索浮标的运动计划、采用无人机通信确保的服务质量和通过唤醒浮标进行的数据采集任务。然而,随着海洋大数据的快速发展以及有限的机载能量,与光通信相比,无线电通信存在传输速度低、易受电磁干扰等缺点。因此,为了实现高速数据收集,有必要考虑光学通信实现高速实时数据传输。
然而,当无人机到达浮标上方进行数据采集时,由于光束的精确方向要求、波干扰的不确定性以及机械设备的固有特性,使得建立稳健可靠的高速光传输成为一个重大挑战。因此,为保证在满足系统服务质量要求的同时,实现浮标与无人机之间有效的数据传输,必须解决由波面变化和机械误差引起的链路质量下降问题,以保持收发机之间的视距可靠通信。
在光学传输系统中,光束跟踪和自适应调整技术是应对波束动态变化的有效方法,可以通过高精度数学模型进行系统分析并实现控制,但由于这些系统的完整信息无法直接获得,它们的显式解很难找到,因此不能用来解决波浪、环境光等不确定扰动造成的环境多变性问题。而发射器方向及调整过程最终影响浮标和无人机之间数据传输的性能和能量消耗,如何根据波浪等干扰的影响来调整浮标发射器指向角是实现无人机辅助光学数据收集的关键问题。
发明内容
为了解决波浪等干扰水面光学数据收集问题,本发明提出了一种基于深度强化学习的海洋环境下无人机辅助的光学数据收集方法,采用深度强化学习算法来调整浮标发射器角度寻找最大化接收光强度和最小化能量消耗的优化策略。
本发明的技术方案如下:
一种基于深度强化学习的海上无人机辅助光数据收集方法,在浮标控制系统中采用深度确定性策略梯度的强化学习算法进行动作决策,使浮标在水面环境中根据当前环境状态自主完成动作决策,具体包括如下步骤:
步骤1、无人机从初始位置出发,通过无线电导引至目标区域中浮标的上方,并通过射频信号与浮标建立初始连接;
步骤2、浮标被无人机发送的射频信号唤醒后进行初始化,同步接收初始观测状态,将初始观测状态输入浮标控制系统,浮标控制系统做出动作决策,选择具体的动作;
步骤3、浮标控制系统选择具体动作后,根据惯性测量单元测得的波浪数据作为下一步的调整角度参考;
步骤4、浮标执行调整动作后,发送光信号;无人机接收检测到的光信号并进行解码,执行与浮标之间的数据收集;浮标同步更新数据收集时间,若收集时间超时,则重新执行步骤2;否则,重复执行步骤3-步骤4,直到无人机收集数据满足预定义最小误码率,数据收集完成。
进一步地,步骤1的具体过程为:
将浮标使用锚链静态部署在目标区域海面上,浮标监测海面情况或收集水下传感器的监测数据;船舶或基站将数据收集任务分配到无人机,然后无人机导航到目标浮标上方的预传输高度并维持悬停稳定,无人机通过无线电链路与浮标建立初始连接。
进一步地,步骤2中,浮标自身装备短程无线电收发器并另外连接一台无线电设备,浮标在无线电设备的请求下会被唤醒;浮标在被唤醒后使用装备的发光二极管发射光信号,无人机通过接收信号强度传感器接收并解码光信号;浮标的坐标位置为
Figure SMS_1
,/>
Figure SMS_2
表示浮标的横坐标,/>
Figure SMS_3
表示浮标的纵坐标,当无人机到达浮标上方悬停高度/>
Figure SMS_4
时,浮标将其监测数据块打包成长度为/>
Figure SMS_5
的数据包发送给无人机;
初始观测状态包括当前
Figure SMS_6
时刻浮标调整角/>
Figure SMS_7
、浮标调整过程中的角速度/>
Figure SMS_8
、距离无人机的距离/>
Figure SMS_9
、/>
Figure SMS_10
表示当前/>
Figure SMS_11
时刻下的波高。
进一步地,步骤2中,浮标控制系统采用深度确定性策略梯度的强化学习算法进行动作决策,具体的决策过程为:
浮标控制系统依据当前策略及探索噪声选择一个动作,通过策略
Figure SMS_26
找到使/>
Figure SMS_27
值最大的动作,即/>
Figure SMS_28
,此时/>
Figure SMS_29
是Critic网络,策略/>
Figure SMS_30
是Actor网络,其中,/>
Figure SMS_31
表示当前/>
Figure SMS_32
时刻状态,/>
Figure SMS_33
表示当前/>
Figure SMS_34
时刻状态下的动作,/>
Figure SMS_35
表示Actor网络参数,/>
Figure SMS_36
表示Critic网络参数,/>
Figure SMS_37
表示取得最大值;动作集是/>
Figure SMS_38
,浮标控制系统依据当前策略及探索噪声从动作集/>
Figure SMS_39
中选择一个动作,选择的动作是在/>
Figure SMS_40
时刻浮标调整角度的所有可能的变化之一,/>
Figure SMS_12
表示当前/>
Figure SMS_13
时刻浮标调整增量;/>
Figure SMS_14
并且/>
Figure SMS_15
,/>
Figure SMS_16
表示下一时刻调整后的角度,/>
Figure SMS_17
表示上一时刻调整后的角度,/>
Figure SMS_18
表示发射器的最大调整角度;设当前策略网络输出的最优动作为/>
Figure SMS_19
,在实际执行动作/>
Figure SMS_20
时,会在最优动作的基础上添加一个服从正态分布的探索噪音/>
Figure SMS_21
,即/>
Figure SMS_22
,/>
Figure SMS_23
,其中,/>
Figure SMS_24
表示正态分布,/>
Figure SMS_25
表示方差。
进一步地,步骤2中,浮标控制系统在执行一步动作后,设置奖励函数如下:
Figure SMS_41
(1);
其中,
Figure SMS_43
表示当前/>
Figure SMS_45
时刻状态下的奖励值,/>
Figure SMS_46
、/>
Figure SMS_49
、/>
Figure SMS_51
和/>
Figure SMS_52
均是常系数,分别表示数据收集过程中的不同重要性权重;/>
Figure SMS_53
表示浮标选择动作后的调整角度;/>
Figure SMS_42
表示浮标配备的惯性测量单元测量到的实际机械调整角度;/>
Figure SMS_44
表示当前/>
Figure SMS_47
时刻下的波高;/>
Figure SMS_48
和/>
Figure SMS_50
分别表示浮标调整过程中的角速度和角加速度;
浮标的能量消耗包括传感器模块、主控制模块和通信模块三个部分的能量消耗,将主控制模块的能量消耗
Figure SMS_54
表示为:
Figure SMS_55
(2);
其中,
Figure SMS_56
表示空气密度,/>
Figure SMS_57
表示机械旋转平台的半径,/>
Figure SMS_58
表示一个常数,依赖于机械旋转平台的阻力系数;
传感器模块的能量消耗
Figure SMS_59
和通信模块的能量消耗/>
Figure SMS_60
均取为常量。
进一步地,浮标在水面环境中根据当前环境状态自主完成动作决策时,需要不断更新Critic网络参数
Figure SMS_61
、Actor网络参数/>
Figure SMS_62
、目标Critic网络参数/>
Figure SMS_63
和目标Actor网络参数/>
Figure SMS_64
Critic网络参数
Figure SMS_65
通过最小化损失函数/>
Figure SMS_66
来更新,具体公式如下:
Figure SMS_67
(7);
其中,
Figure SMS_69
表示从经验池中采样的元组数,/>
Figure SMS_70
表示当前/>
Figure SMS_71
时刻目标值,
Figure SMS_72
,/>
Figure SMS_73
为折扣系数,/>
Figure SMS_74
表示目标Critic网络,/>
Figure SMS_75
表示下一时刻状态,/>
Figure SMS_68
表示目标Actor网络;
Actor网络参数
Figure SMS_76
执行梯度下降来更新,具体公式为:
Figure SMS_77
(8);
其中,
Figure SMS_80
表示对参数求导,/>
Figure SMS_82
表示优化目标,/>
Figure SMS_83
表示对动作求导,/>
Figure SMS_84
表示Critic网络下在当前/>
Figure SMS_85
时刻状态/>
Figure SMS_86
采取动作/>
Figure SMS_87
的函数值,/>
Figure SMS_78
表示Actor网络下在当前/>
Figure SMS_79
时刻状态/>
Figure SMS_81
下所执行的策略;
软更新目标Critic网络参数
Figure SMS_88
和目标Actor网络参数/>
Figure SMS_89
,具体公式如下所示:
Figure SMS_90
(9);
其中,
Figure SMS_91
表示软更新的系数,/>
Figure SMS_92
表示更新。
进一步地,步骤3中,浮标节点上安装一个由三轴陀螺仪和加速度计组成的惯性测量单元;根据该惯性测量单元测量的波浪数据,得到无人机悬停位置与机械调整角度的实际相对方向,进而将实际机械调整角度
Figure SMS_93
表示为:
Figure SMS_94
(3);
其中,
Figure SMS_99
表示取符号函数,/>
Figure SMS_100
表示反三角函数中的反余弦,/>
Figure SMS_101
表示当前
Figure SMS_102
时刻下的波高,/>
Figure SMS_103
表示三维波面法向量,/>
Figure SMS_104
、/>
Figure SMS_105
、/>
Figure SMS_95
分别表示/>
Figure SMS_96
、/>
Figure SMS_97
Figure SMS_98
轴上法向量;
浮标在选择具体动作后,与惯性测量单元监测的数据处理后的结果作差值,并更新浮标的状态信息。
进一步地,步骤4中,当一轮数据收集结束,浮标为满足光学传输链路的性能要求,进行如下优化过程:
步骤4.1、首先,计算浮标在调整过程中的总误差
Figure SMS_106
为:
Figure SMS_107
(4);
其中,
Figure SMS_108
表示预定义数据收集时间;
步骤4.2、根据
Figure SMS_109
时刻的调整角度变量,计算收集过程中主控制模块的总能量消耗
Figure SMS_110
为:
Figure SMS_111
(5);
角速度与浮标调整增量的关系为
Figure SMS_112
,/>
Figure SMS_113
表示浮标调整增量;
步骤4.3、无人机根据检测到的光信号,解码并计算传输过程中的光强度与误码率;而浮标总的能量消耗
Figure SMS_114
通过如下公式计算,
Figure SMS_115
(6);
其中,
Figure SMS_116
表示传感器模块的能量消耗,/>
Figure SMS_117
表示主控制模块的能量消耗,/>
Figure SMS_118
表示通信模块的能量消耗。
本发明所带来的有益技术效果如下。
本发明可以在不同波高的海洋条件下进行自适应地选择最佳的调整角度,同时平衡能耗完成浮标与无人机之间的数据收集;为了快速有效地收集数据,采用具有高带宽、抗电磁干扰特点的光通信技术,利用无人机的灵活性进行可靠和及时的数据收集;同时提出了一种浮标发射器角度调整算法,该算法根据惯性测量单元测得波浪数据和无人机悬停位置来确定浮标的调整角度,同时降低能源消耗。
本发明同时考虑环境光干扰、传输路径损耗和机械延迟等几个关键因素来优化加权调整角和能耗。在此基础上,提出了一种基于深度强化学习的海洋环境下无人机辅助的光学数据收集方法,属于首次提出通过光通信建立无人机和浮动浮标之间的高速数据收集链接。与现有的比例-积分-微分控制器(Proportional Integral Derivative,PID)调整角度方法相比较,本发明基于深度强化学习方法的数据收集方法的调整方差较小且不需要完整的系统信息,进而能够优化接收光强度和能量消耗,适用于复杂海洋环境下的高速数据传输。
附图说明
图1为本发明基于深度强化学习的海上无人机辅助光数据收集方法的流程图。
图2为本发明仿真实验中两种不同波形下的波形曲线图。
图3为本发明仿真实验中基于深度强化学习的光学数据收集算法收敛性示意图。
图4为本发明仿真实验中最大波高0.4m下目标值和深度确定性策略梯度算法估计的浮标调整角度对比图。
图5为本发明仿真实验中最大波高1m下目标值和深度确定性策略梯度算法估计的浮标调整角度对比图。
图6为本发明仿真实验中最大波高0.4m下的深度确定性策略梯度算法和比例-积分-微分控制器平均调整角度和方差对比图。
图7为本发明仿真实验中最大波高1m下的深度确定性策略梯度算法和比例-积分-微分控制器平均调整角度和方差对比图。
图8为本发明仿真实验中不同最大波高与无人机在不同悬停高度时接收光强的平均值对比图。
图9为本发明仿真实验中最大波高0.4m下的浮标是否平衡能量消耗对比图。
图10为本发明仿真实验中最大波高1m下的浮标是否平衡能量消耗对比图。
图11为本发明仿真实验中不同最大波高下的无人机收集数据误码率对比图。
具体实施方式
下面结合附图以及具体实施方式对本发明作进一步详细说明:
本发明中,浮标利用光学通信技术以及智能算法最大化采集数据的可靠性和最小化能量消耗。首先,将数据收集问题表述为混合整数非线性问题,以最大化无人机接收光强度并平衡能耗。为了保证收集数据可靠性,将数据采集问题表述为马尔可夫决策过程,然后,提出一种基于深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)的学习算法来寻找最优策略。
本发明采用了基于深度强化学习的方法,浮标参考惯性测量单元(InertialMeasurement Unit,IMU)测量波浪数据并智能地调整发射器角度,同时考虑环境光噪声等其他干扰以最大限度地提高链路的稳定性并平衡调整过程中的能量消耗。
本发明方法的主要过程为:无人机通过无线电导引至待收集浮标的部署位置上方,并通过射频信号与浮标建立初始连接;在目标区域中部署的浮标被唤醒后进行初始化,并接收初始观测状态;浮标控制系统选择具体动作后,根据惯性测量单元测得的波浪数据作为下一步的调整角度参考;浮标根据调整角度高效完成与无人机之间的光学数据收集。
如图1所示,本发明实施例的详细步骤如下:
步骤1、无人机从初始位置
Figure SMS_119
出发,在无线电导引下到达目标区域浮标的部署位置上方,并通过射频信号与浮标建立初始连接。
将浮标使用锚链静态部署在目标区域海面上,浮标能够监测海面情况或收集水下传感器的监测数据,比如对于恶劣的海洋环境,浮标可以实时监控收集当下海面情况数据,或收集自主水下航行器等水下传感器传来的监测数据;船舶或基站将数据收集任务分配到无人机,然后无人机导航到目标浮标上方的预传输高度并维持悬停稳定,无人机通过无线电链路与浮标建立初始连接。
浮标与无人机建立初始连接时,二者之间的角度关系为:浮标发射器视场半角为
Figure SMS_120
,无人机接收器视场半角为/>
Figure SMS_121
,无人机接收角为/>
Figure SMS_122
,浮标配备的惯性测量单元测量到的实际机械调整角度为/>
Figure SMS_123
步骤2、浮标被无人机发送的射频信号唤醒后进行初始化,同步接收初始观测状态,将初始观测状态输入浮标控制系统,浮标控制系统做出动作决策,选择具体的动作。
浮标为了节省能源,通常装备一个短程无线电收发器,只有在另一台无线电设备的请求下才会被唤醒;浮标在被唤醒后使用装备的发光二极管(Light-emitting Diode,LED)发射光信号,无人机通过接收信号强度(Received Signal Strength,RSS)传感器接收并解码光信号,其中,浮标需要克服波浪、环境光噪声等干扰,以保证链路的稳定性;浮标的坐标位置为
Figure SMS_124
,/>
Figure SMS_125
表示浮标的横坐标,/>
Figure SMS_126
表示浮标的纵坐标,当无人机到达浮标上方悬停高度/>
Figure SMS_127
时,浮标将其监测数据块打包成长度为/>
Figure SMS_128
的数据包发送给无人机。
初始观测状态包括当前
Figure SMS_129
时刻浮标调整角/>
Figure SMS_130
、浮标调整过程中的角速度/>
Figure SMS_131
、距离无人机的距离/>
Figure SMS_132
、/>
Figure SMS_133
表示当前/>
Figure SMS_134
时刻下的波高。
浮标控制系统采用深度确定性策略梯度的强化学习算法进行动作决策,具体的决策过程为:浮标控制系统依据当前策略及探索噪声
Figure SMS_136
选择一个动作,通过策略/>
Figure SMS_137
找到使
Figure SMS_138
值最大的动作,即/>
Figure SMS_139
,此时/>
Figure SMS_140
是Critic网络,策略/>
Figure SMS_142
是Actor网络,其中,/>
Figure SMS_143
表示当前/>
Figure SMS_146
时刻状态,/>
Figure SMS_148
表示当前/>
Figure SMS_150
时刻状态下的动作,/>
Figure SMS_152
表示Actor网络参数,/>
Figure SMS_154
表示Critic网络参数,/>
Figure SMS_156
表示取得最大值;动作集是/>
Figure SMS_158
,浮标控制系统依据当前策略及探索噪声从动作集/>
Figure SMS_160
中选择一个动作,选择的动作是在/>
Figure SMS_135
时刻浮标调整角度的所有可能的变化之一,/>
Figure SMS_141
表示当前/>
Figure SMS_144
时刻浮标调整增量;/>
Figure SMS_145
并且/>
Figure SMS_147
,/>
Figure SMS_149
表示下一时刻调整后的角度,/>
Figure SMS_151
表示上一时刻调整后的角度,/>
Figure SMS_153
表示发射器的最大调整角度。设当前策略网络输出的最优动作为/>
Figure SMS_155
,输出最优动作后,为保持智能体对环境的探索能力,实际执行动作/>
Figure SMS_157
时,会在最优动作的基础上添加一个服从正态分布的探索噪音/>
Figure SMS_159
,即/>
Figure SMS_161
,/>
Figure SMS_162
,其中,/>
Figure SMS_163
表示正态分布,/>
Figure SMS_164
表示方差。
浮标控制系统在执行一步动作后,设置奖励函数。整体上将数据收集过程中的奖励函数设置为两部分,当浮标调整角度的误差变小时,得到一个和数据传输链路性能相关的负奖励;同时浮标需要平衡调整过程中能量的消耗,避免过度调整,浪费机载能量。奖励函数设置如下:
Figure SMS_165
(1);
其中,
Figure SMS_167
表示当前/>
Figure SMS_168
时刻状态下的奖励值,/>
Figure SMS_169
、/>
Figure SMS_170
、/>
Figure SMS_171
和/>
Figure SMS_172
均是常系数,分别表示数据收集过程中的不同重要性权重,/>
Figure SMS_173
表示浮标选择动作后的调整角度,/>
Figure SMS_166
表示浮标配备的惯性测量单元测量到的实际机械调整角度,/>
Figure SMS_174
表示当前/>
Figure SMS_175
时刻下的波高;/>
Figure SMS_176
和/>
Figure SMS_177
分别表示浮标调整过程中的角速度和角加速度,目的是最小化所消耗的能量。
在海洋环境下,浮标的能量消耗主要包括传感器模块、主控制模块和通信模块三个部分的能量消耗,而主控制模块的能量消耗
Figure SMS_178
影响较大,表示为:
Figure SMS_179
(2);
其中,
Figure SMS_180
表示空气密度,/>
Figure SMS_181
表示机械旋转平台的半径,/>
Figure SMS_182
表示一个常数,依赖于机械旋转平台的阻力系数;
传感器模块的能量消耗和通信模块的能量消耗较小,因此本发明中,传感器模块的能量消耗
Figure SMS_183
和通信模块的能量消耗/>
Figure SMS_184
均取为常量。
步骤3、浮标控制系统选择具体动作后,根据惯性测量单元测得的波浪数据作为下一步的调整角度参考。
浮标节点上通常安装一个由三轴陀螺仪和加速度计组成的惯性测量单元,以跟踪浮标上机械旋转平台的实时姿态,而这种实时姿态通常由滤波器方案计算得到;但根据该惯性测量单元测量的波浪数据,可以得到无人机悬停位置与机械调整角度的实际相对方向,进而可以将实际机械调整角度
Figure SMS_185
表示为:
Figure SMS_186
(3);
其中,
Figure SMS_188
表示取符号函数,/>
Figure SMS_192
表示反三角函数中的反余弦,/>
Figure SMS_193
表示当前
Figure SMS_194
时刻下的波高,/>
Figure SMS_195
表示三维波面法向量,/>
Figure SMS_196
、/>
Figure SMS_197
、/>
Figure SMS_187
分别表示/>
Figure SMS_189
、/>
Figure SMS_190
Figure SMS_191
轴上法向量。
浮标在选择具体动作后,与惯性测量单元监测的数据处理后的结果作差值,并更新浮标的状态信息,这将促进其快速学习下一时刻的调整角度。
步骤4、浮标执行调整动作后,以频率
Figure SMS_198
机械调整一个时隙/>
Figure SMS_199
并发送光信号;无人机接收检测到的光信号并进行解码,执行与浮标之间的数据收集;浮标同时更新数据收集时间,若收集时间超时,则重新执行步骤2;否则,重复执行步骤3-步骤4,直到无人机收集数据满足预定义最小误码率,数据收集完成。
当一轮数据收集结束,浮标为满足光学传输链路的性能要求,优化过程如下:
步骤4.1、首先,计算浮标在调整过程中的总误差
Figure SMS_200
为:
Figure SMS_201
(4);
其中,
Figure SMS_202
表示预定义数据收集时间;
步骤4.2、根据
Figure SMS_203
时刻的调整角度变量,计算收集过程中主控制模块的总能量消耗
Figure SMS_204
为:
Figure SMS_205
(5);
角速度与浮标调整增量的关系为
Figure SMS_206
,/>
Figure SMS_207
表示浮标调整增量;
步骤4.3、无人机根据检测到的光信号,解码并计算传输过程中的光强度与误码率;而浮标总的能量消耗
Figure SMS_208
通过如下公式计算,最终达到最大化接收光强度和最小化能量消耗的效果,
Figure SMS_209
(6);
其中,
Figure SMS_210
表示传感器模块的能量消耗,/>
Figure SMS_211
表示主控制模块的能量消耗,/>
Figure SMS_212
表示通信模块的能量消耗。
浮标在水面环境中根据当前环境状态自主完成动作决策时,需要不断更新Critic网络参数
Figure SMS_213
、Actor网络参数/>
Figure SMS_214
、目标Critic网络参数/>
Figure SMS_215
和目标Actor网络参数/>
Figure SMS_216
Critic网络参数
Figure SMS_217
通过最小化损失函数/>
Figure SMS_218
来更新,具体公式如下:
Figure SMS_219
(7);
其中,
Figure SMS_221
表示从经验池中采样的元组数,/>
Figure SMS_222
表示当前/>
Figure SMS_223
时刻目标值,
Figure SMS_224
,/>
Figure SMS_225
为折扣系数,/>
Figure SMS_226
表示目标Critic网络,
Figure SMS_227
表示下一时刻状态,/>
Figure SMS_220
表示目标Actor网络;
Actor网络参数
Figure SMS_228
执行梯度下降来更新,具体公式为:
Figure SMS_229
(8);
其中,
Figure SMS_230
表示对参数求导,/>
Figure SMS_232
表示优化目标,/>
Figure SMS_233
表示对动作求导,/>
Figure SMS_234
表示Critic网络下在当前/>
Figure SMS_235
时刻状态/>
Figure SMS_236
采取动作/>
Figure SMS_238
的函数值,/>
Figure SMS_231
表示Actor网络下在当前/>
Figure SMS_237
时刻状态/>
Figure SMS_239
下所执行的策略;
软更新目标Critic网络参数
Figure SMS_240
和目标Actor网络参数/>
Figure SMS_241
,具体公式如下所示:
Figure SMS_242
(9);
其中,
Figure SMS_243
表示目标Critic网络参数,/>
Figure SMS_244
表示目标Actor网络参数,/>
Figure SMS_245
表示软更新的系数,/>
Figure SMS_246
表示更新。
本发明最主要的目的是让浮标在水面环境中根据当前环境状态自主完成动作决策,具体实现过程如下:
(1)利用编程软件搭建基于深度强化学习的智能浮标的控制仿真系统,通过仿真训练得到最优决策策略,具体步骤如下:
(1.1)确定无人机的状态,建立环境模型;
(1.2)确定初始位置和无人机目标位置,初始化当前
Figure SMS_247
时刻环境状态等算法参数;
(1.3)根据当前状态及探索噪声
Figure SMS_248
选择动作,确定调整角度变量;
(1.4)根据惯性测量单元测量的波浪数据计算浮标的参考角度;
(1.5)执行动作集
Figure SMS_249
中的一个动作,得到奖励值/>
Figure SMS_250
,观察新的状态/>
Figure SMS_251
(1.6)保存经验到经验池,并随机采样小批量经验训练神经网络;
(1.7)通过最小化损失函数来更新Critic网络参数
Figure SMS_252
,并执行梯度下降来更新Actor网络参数/>
Figure SMS_253
(1.8)软更新目标Critic网络参数
Figure SMS_254
和目标Actor网络参数/>
Figure SMS_255
(1.9)判断当前时刻状态是否超过数据收集时间,若未超过数据收集时间,转(1.3);否则转(1.10);
(1.10)判断是否完成数据收集回合迭代,若是,终止并输出结果,否则转(1.2);
(2)利用基于深度确定性策略梯度的控制器控制浮标完成调整进而输出动作,具体步骤如下:
(2.1)初始化参数,如Actor网络参数
Figure SMS_256
、Critic网络参数/>
Figure SMS_257
及其目标网络参数,经验池/>
Figure SMS_258
,最大回合/>
Figure SMS_259
,最大时间步/>
Figure SMS_260
等,最大时间步/>
Figure SMS_261
即对应预定义数据收集时间/>
Figure SMS_262
(2.2)进行外部回合循环:
(2.2.1)进行内部时间步循环:
(2.2.1.1)运行深度确定性策略梯度算法,输出动作集
Figure SMS_263
中一个动作;
(2.2.1.2)根据Tessendorf方法模拟惯性测量单元测量的波浪数据,参考公式(3)计算实际机械调整角度,Tessendorf方法为模拟海水最经典的方法之一,其核心是将一片海域离散到在二维或三维网格的欧拉框架中进行计算,从而近似模拟波浪的变化;
(2.2.1.3)执行动作,根据奖励策略获取奖励值,具体计算方式为公式(1);
(2.2.1.4)通过最小化损失函数
Figure SMS_264
来更新Critic网络参数/>
Figure SMS_265
,具体计算方式为公式(7);
(2.2.1.5)执行梯度下降来更新Actor网络参数
Figure SMS_266
,具体计算方式为公式(8);
(2.2.1.6)更新目标网络参数,具体计算方式为公式(9);
(2.2.1.7)若数据收集时间超时,结束内部时间步循环;
(2.2.2)若达到外部循环步数,结束外部回合循环;
(2.3)输出无人机的接收光强度及浮标的能量消耗。
本发明的效果可以通过如下仿真实验进一步说明:
仿真条件如下:
在仿真中,通过模拟海面动力学,建立了浮标与无人机之间的视距光传输上行链路。考虑到无人机的局限性、浮标的有限能量和对高速数据传输的需要,将采样时间
Figure SMS_267
和模拟持续时间/>
Figure SMS_268
分别设置为0.1s和20s。此外,深度确定性策略梯度DDPG由Python 3.9实现,使用基于Pytorch的开源模块Stable Baselines3来模拟这个环境,相关参数的数值设置如下:
参数误码率阈值
Figure SMS_272
的数值设置为/>
Figure SMS_273
;参数采样频率/>
Figure SMS_274
的数值设置为100Hz;参数调整角度步长/>
Figure SMS_276
的数值设置为/>
Figure SMS_277
;参数无人机接收器效率/>
Figure SMS_279
的数值设置为0.6W/V;参数电子电荷量的数值设置为/>
Figure SMS_283
;参数发射器平均功率/>
Figure SMS_269
的数值设置为/>
Figure SMS_271
;参数背景噪声功率密度/>
Figure SMS_275
的数值设置为/>
Figure SMS_278
;参数接收器孔径面积/>
Figure SMS_280
的数值设置为/>
Figure SMS_281
;参数光谱宽度/>
Figure SMS_282
的数值设置为100nm;无人机接收器视场半角
Figure SMS_284
的数值设置为/>
Figure SMS_270
锚定的浮标会在外部风、波浪和水流的作用下随波浪受限移动。因此,为了验证所提出的数据收集方案的可靠性,在Tessendorf方法的基础上,比较了两种不同的波形场景,如图2所示,波形1和波形2分别为模拟的两种不同波形。波形1的最大波高为0.4m,波形2的最大波高为1m。
仿真结果如下:
为了验证在复杂海洋环境下浮标与无人机之间的光学数据传输的有效性,图3显示了基于DDPG浮标控制器训练时的累积奖励,其中水平坐标表示回合数,垂直坐标表示奖励值。可以看出,随着训练时间的增加,每回合奖励值和平均奖励值均呈上升趋势,且逐步达到稳定。
通过考虑波浪、能耗和环境光等干扰因素,浮标控制器可以根据Tessendorf方法从上一个时间步模拟的IMU测量数据,学习预测下一个时间步的调整角度,提高了基于深度确定性策略梯度的控制器(此处的控制器即为上述浮标控制系统)的效率。由于光通信的高数据传输速率,本发明假设采样周期为0.1s。因此,在浮标实时姿态的引导下,使用上述方案进行数据收集。
发射机旋转角度的学习结果如图4和图5所示,图4和图5分别对应最大波高0.4m和最大波高1m下采用深度确定性策略梯度算法估计的浮标调整角度与目标值的比较结果。图4和图5表明在不同波高下本发明方法均具有较好的预测性能。
同时,还比较了比例-积分-微分控制器在情景1和情景2下的性能,图6和图7分别对应最大波高0.4m和最大波高1m下的比例-积分-微分控制器与基于深度确定性策略梯度的控制器平均调整角度和方差的比较结果。与基于深度确定性策略梯度的控制器相比,比例-积分-微分控制器需要基于当前时刻的惯性测量单元的测量数据控制浮标调整角度,并且其方差较大。
为了进一步反映不同情况下的表现,测量了每个时间步长的光强度。图8为浮标与无人机在不同高度和不同最大波高下接收光强的平均值对比图。从这些线中可以看出,通过对各种情况的比较,平均强度会受到波面的影响。此外,随着无人机部署高度的增加,其接收到的光强度逐渐不能满足链路要求,受波高的影响较小。
为了评估无人机的接收强度,如图9和图10所示,分别在最大波高0.4m和最大波高1m下进行浮标是否平衡能量消耗的对比,将无人机部署在固定高度,分析浮标调整过程对能耗的影响,包括两种不同波高情景下是否考虑能耗的比较。从图9和图10可以看出,能量消耗随波高的增加而增加,深度确定性策略梯度算法相比不考虑能耗的贪婪算法更节能。同时,也证明了在所提出的数据采集方案中考虑能耗的重要性。
为了从无人机的接收误码率方面验证光链路的可用性,将误码率阈值设置为
Figure SMS_285
,并模拟了不同最大波高下的浮标和无人机之间的通信场景。在图11中,e-3即代表/>
Figure SMS_286
,比如4e-3即代表/>
Figure SMS_287
,从图11的仿真结果表明,在大多数时间步长都满足了所需的服务质量,这也验证了所提出的数据收集方案的有效性。
上述仿真验证结果表明,本发明方案具有良好的性能,可以在波浪等干扰下有效保证光学数据收集过程中的可靠性,同时降低能量消耗。

Claims (8)

1.一种基于深度强化学习的海上无人机辅助光数据收集方法,其特征在于,在浮标控制系统中采用深度确定性策略梯度的强化学习算法进行动作决策,使浮标在水面环境中根据当前环境状态自主完成动作决策,具体包括如下步骤:
步骤1、无人机从初始位置出发,通过无线电导引至目标区域中浮标的上方,并通过射频信号与浮标建立初始连接;
步骤2、浮标被无人机发送的射频信号唤醒后进行初始化,同步接收初始观测状态,将初始观测状态输入浮标控制系统,浮标控制系统做出动作决策,选择具体的动作;
步骤3、浮标控制系统选择具体动作后,根据惯性测量单元测得的波浪数据作为下一步的调整角度参考;
步骤4、浮标执行调整动作后,发送光信号;无人机接收检测到的光信号并进行解码,执行与浮标之间的数据收集;浮标同步更新数据收集时间,若收集时间超时,则重新执行步骤2;否则,重复执行步骤3-步骤4,直到无人机收集数据满足预定义最小误码率,数据收集完成。
2.根据权利要求1所述基于深度强化学习的海上无人机辅助光数据收集方法,其特征在于,所述步骤1的具体过程为:
将浮标使用锚链静态部署在目标区域海面上,浮标监测海面情况或收集水下传感器的监测数据;船舶或基站将数据收集任务分配到无人机,然后无人机导航到目标浮标上方的预传输高度并维持悬停稳定,无人机通过无线电链路与浮标建立初始连接。
3.根据权利要求1所述基于深度强化学习的海上无人机辅助光数据收集方法,其特征在于,所述步骤2中,浮标自身装备短程无线电收发器并另外连接一台无线电设备,浮标在无线电设备的请求下会被唤醒;浮标在被唤醒后使用装备的发光二极管发射光信号,无人机通过接收信号强度传感器接收并解码光信号;浮标的坐标位置为
Figure QLYQS_1
,/>
Figure QLYQS_2
表示浮标的横坐标,/>
Figure QLYQS_3
表示浮标的纵坐标,当无人机到达浮标上方悬停高度/>
Figure QLYQS_4
时,浮标将其监测数据块打包成长度为/>
Figure QLYQS_5
的数据包发送给无人机;
初始观测状态包括当前
Figure QLYQS_6
时刻浮标调整角/>
Figure QLYQS_7
、浮标调整过程中的角速度/>
Figure QLYQS_8
、距离无人机的距离/>
Figure QLYQS_9
、/>
Figure QLYQS_10
表示当前/>
Figure QLYQS_11
时刻下的波高。
4.根据权利要求1所述基于深度强化学习的海上无人机辅助光数据收集方法,其特征在于,所述步骤2中,浮标控制系统采用深度确定性策略梯度的强化学习算法进行动作决策,具体的决策过程为:
浮标控制系统依据当前策略及探索噪声选择一个动作,通过策略
Figure QLYQS_13
找到使/>
Figure QLYQS_14
值最大的动作,即/>
Figure QLYQS_17
,此时/>
Figure QLYQS_19
是Critic网络,策略/>
Figure QLYQS_20
是Actor网络,其中,/>
Figure QLYQS_22
表示当前/>
Figure QLYQS_24
时刻状态,/>
Figure QLYQS_26
表示当前/>
Figure QLYQS_27
时刻状态下的动作,/>
Figure QLYQS_29
表示Actor网络参数,/>
Figure QLYQS_31
表示Critic网络参数,/>
Figure QLYQS_33
表示取得最大值;动作集是/>
Figure QLYQS_35
,浮标控制系统依据当前策略及探索噪声从动作集/>
Figure QLYQS_37
中选择一个动作,选择的动作是在/>
Figure QLYQS_39
时刻浮标调整角度的所有可能的变化之一,/>
Figure QLYQS_12
表示当前/>
Figure QLYQS_15
时刻浮标调整增量;
Figure QLYQS_16
并且/>
Figure QLYQS_18
,/>
Figure QLYQS_21
表示下一时刻调整后的角度,/>
Figure QLYQS_23
表示上一时刻调整后的角度,/>
Figure QLYQS_25
表示发射器的最大调整角度;设当前策略网络输出的最优动作为/>
Figure QLYQS_28
,在实际执行动作/>
Figure QLYQS_30
时,会在最优动作的基础上添加一个服从正态分布的探索噪音/>
Figure QLYQS_32
,即/>
Figure QLYQS_34
,/>
Figure QLYQS_36
,其中,/>
Figure QLYQS_38
表示正态分布,/>
Figure QLYQS_40
表示方差。
5.根据权利要求4所述基于深度强化学习的海上无人机辅助光数据收集方法,其特征在于,所述步骤2中,浮标控制系统在执行一步动作后,设置奖励函数如下:
Figure QLYQS_41
(1);
其中,
Figure QLYQS_43
表示当前/>
Figure QLYQS_45
时刻状态下的奖励值,/>
Figure QLYQS_48
、/>
Figure QLYQS_49
、/>
Figure QLYQS_50
和/>
Figure QLYQS_52
均是常系数,分别表示数据收集过程中的不同重要性权重;/>
Figure QLYQS_53
表示浮标选择动作后的调整角度;/>
Figure QLYQS_42
表示浮标配备的惯性测量单元测量到的实际机械调整角度;/>
Figure QLYQS_44
表示当前/>
Figure QLYQS_46
时刻下的波高;/>
Figure QLYQS_47
和/>
Figure QLYQS_51
分别表示浮标调整过程中的角速度和角加速度;
浮标的能量消耗包括传感器模块、主控制模块和通信模块三个部分的能量消耗,将主控制模块的能量消耗
Figure QLYQS_54
表示为:
Figure QLYQS_55
(2);
其中,
Figure QLYQS_56
表示空气密度,/>
Figure QLYQS_57
表示机械旋转平台的半径,/>
Figure QLYQS_58
表示一个常数,依赖于机械旋转平台的阻力系数;
传感器模块的能量消耗
Figure QLYQS_59
和通信模块的能量消耗/>
Figure QLYQS_60
均取为常量。
6.根据权利要求5所述基于深度强化学习的海上无人机辅助光数据收集方法,其特征在于,浮标在水面环境中根据当前环境状态自主完成动作决策时,需要不断更新Critic网络参数
Figure QLYQS_61
、Actor网络参数/>
Figure QLYQS_62
、目标Critic网络参数/>
Figure QLYQS_63
和目标Actor网络参数/>
Figure QLYQS_64
Critic网络参数
Figure QLYQS_65
通过最小化损失函数/>
Figure QLYQS_66
来更新,具体公式如下:
Figure QLYQS_67
(7);
其中,
Figure QLYQS_68
表示从经验池中采样的元组数,/>
Figure QLYQS_70
表示当前/>
Figure QLYQS_71
时刻目标值,
Figure QLYQS_72
,/>
Figure QLYQS_73
为折扣系数,/>
Figure QLYQS_74
表示目标Critic网络,/>
Figure QLYQS_75
表示下一时刻状态,/>
Figure QLYQS_69
表示目标Actor网络;
Actor网络参数
Figure QLYQS_76
执行梯度下降来更新,具体公式为:
Figure QLYQS_77
(8);
其中,
Figure QLYQS_79
表示对参数求导,/>
Figure QLYQS_81
表示优化目标,/>
Figure QLYQS_83
表示对动作求导,/>
Figure QLYQS_84
表示Critic网络下在当前/>
Figure QLYQS_85
时刻状态/>
Figure QLYQS_86
采取动作/>
Figure QLYQS_87
的函数值,/>
Figure QLYQS_78
表示Actor网络下在当前/>
Figure QLYQS_80
时刻状态/>
Figure QLYQS_82
下所执行的策略;
软更新目标Critic网络参数
Figure QLYQS_88
和目标Actor网络参数/>
Figure QLYQS_89
,具体公式如下所示:
Figure QLYQS_90
(9);
其中,
Figure QLYQS_91
表示软更新的系数,/>
Figure QLYQS_92
表示更新。
7.根据权利要求1所述基于深度强化学习的海上无人机辅助光数据收集方法,其特征在于,所述步骤3中,浮标节点上安装一个由三轴陀螺仪和加速度计组成的惯性测量单元;根据该惯性测量单元测量的波浪数据,得到无人机悬停位置与机械调整角度的实际相对方向,进而将实际机械调整角度
Figure QLYQS_93
表示为:
Figure QLYQS_94
(3);
其中,
Figure QLYQS_96
表示取符号函数,/>
Figure QLYQS_98
表示反三角函数中的反余弦,/>
Figure QLYQS_100
表示当前/>
Figure QLYQS_102
时刻下的波高,/>
Figure QLYQS_103
表示三维波面法向量,/>
Figure QLYQS_104
、/>
Figure QLYQS_105
、/>
Figure QLYQS_95
分别表示/>
Figure QLYQS_97
、/>
Figure QLYQS_99
、/>
Figure QLYQS_101
轴上法向量;
浮标在选择具体动作后,与惯性测量单元监测的数据处理后的结果作差值,并更新浮标的状态信息。
8.根据权利要求1所述基于深度强化学习的海上无人机辅助光数据收集方法,其特征在于,所述步骤4中,当一轮数据收集结束,浮标为满足光学传输链路的性能要求,进行如下优化过程:
步骤4.1、首先,计算浮标在调整过程中的总误差
Figure QLYQS_106
为:
Figure QLYQS_107
(4);
其中,
Figure QLYQS_108
表示预定义数据收集时间;
步骤4.2、根据
Figure QLYQS_109
时刻的调整角度变量,计算收集过程中主控制模块的总能量消耗
Figure QLYQS_110
为:
Figure QLYQS_111
(5);
角速度与浮标调整增量的关系为
Figure QLYQS_112
,/>
Figure QLYQS_113
表示浮标调整增量;
步骤4.3、无人机根据检测到的光信号,解码并计算传输过程中的光强度与误码率;而浮标总的能量消耗
Figure QLYQS_114
通过如下公式计算,
Figure QLYQS_115
(6);
其中,
Figure QLYQS_116
表示传感器模块的能量消耗,/>
Figure QLYQS_117
表示主控制模块的能量消耗,
Figure QLYQS_118
表示通信模块的能量消耗。
CN202310678408.3A 2023-06-09 2023-06-09 一种基于深度强化学习的海上无人机辅助光数据收集方法 Active CN116405111B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310678408.3A CN116405111B (zh) 2023-06-09 2023-06-09 一种基于深度强化学习的海上无人机辅助光数据收集方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310678408.3A CN116405111B (zh) 2023-06-09 2023-06-09 一种基于深度强化学习的海上无人机辅助光数据收集方法

Publications (2)

Publication Number Publication Date
CN116405111A true CN116405111A (zh) 2023-07-07
CN116405111B CN116405111B (zh) 2023-08-15

Family

ID=87014679

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310678408.3A Active CN116405111B (zh) 2023-06-09 2023-06-09 一种基于深度强化学习的海上无人机辅助光数据收集方法

Country Status (1)

Country Link
CN (1) CN116405111B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117376934A (zh) * 2023-12-08 2024-01-09 山东科技大学 一种基于深度强化学习的多无人机海上移动基站部署方法
CN117420849A (zh) * 2023-12-18 2024-01-19 山东科技大学 一种基于强化学习的海上无人机编队变粒度协同搜救方法
CN117707207A (zh) * 2024-02-06 2024-03-15 中国民用航空飞行学院 基于深度强化学习的无人机对地目标跟踪与避障规划方法

Citations (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050003865A1 (en) * 2003-07-03 2005-01-06 Roc Lastinger Method and apparatus for high throughput multiple radio sectorized wireless cell
KR101637560B1 (ko) * 2016-01-13 2016-07-08 한국해양과학기술원 해양 감시 네트워크에서의 자원 할당 방법
US20160204866A1 (en) * 2015-01-09 2016-07-14 Don M. Boroson Ground terminal design for high rate direct to earth optical communications
WO2020134507A1 (zh) * 2018-12-28 2020-07-02 北京邮电大学 无人机网络路由构建方法、无人机及存储介质
CN112073939A (zh) * 2020-08-19 2020-12-11 青岛杰瑞自动化有限公司 一种基于海洋浮动平台的通信方法及系统
CN112147653A (zh) * 2020-09-11 2020-12-29 桂林电子科技大学 基于可见光的无人机与水上浮标的定位方法及相关设备
CN112566060A (zh) * 2020-12-18 2021-03-26 天津工业大学 一种基于小浮子锚系链组网的海洋牧场水下水上一体化通信系统
CN112866911A (zh) * 2021-01-11 2021-05-28 燕山大学 基于q学习的自主水下航行器协助下水下数据收集方法
CN113033119A (zh) * 2021-03-11 2021-06-25 山东大学 一种基于双评论家强化学习技术的水下航行器目标区域上浮控制方法
CN113162679A (zh) * 2021-04-01 2021-07-23 南京邮电大学 基于ddpg算法的irs辅助无人机通信联合优化方法
US20220005359A1 (en) * 2016-01-15 2022-01-06 David Belu SOLOMON Novel vessel systems and methods relating thereto
US20220108262A1 (en) * 2020-10-04 2022-04-07 Strong Force Iot Portfolio 2016, Llc Industrial digital twin systems and methods with echelons of executive, advisory and operations messaging and visualization
KR20220050467A (ko) * 2020-10-16 2022-04-25 인천대학교 산학협력단 해수면 전파 반사율을 이용한 딥 러닝 해양 클러스터 데이터 측정 시스템
CN114422363A (zh) * 2022-01-11 2022-04-29 北京科技大学 一种无人机搭载ris辅助通信系统容量优化方法及装置
US20220179379A1 (en) * 2020-12-09 2022-06-09 Commissariat A L'energie Atomique Et Aux Energies Alternatives Method and system for controlling energy consuming operations
CN114721409A (zh) * 2022-06-08 2022-07-08 山东大学 一种基于强化学习的水下航行器对接控制方法
US20220327814A1 (en) * 2021-04-08 2022-10-13 Nec Laboratories America, Inc Learning ordinal representations for deep reinforcement learning based object localization
CN115278729A (zh) * 2022-06-29 2022-11-01 大连海事大学 一种海洋物联网中无人机协作数据收集与数据卸载方法
US20220355902A1 (en) * 2021-05-06 2022-11-10 Candela Technology Ab Method and controller unit for controlling motion of a hydrofoil watercraft
US20230078797A1 (en) * 2021-09-10 2023-03-16 X Development Llc Characterising wave properties based on measurement data using a machine-learning model
CN115835350A (zh) * 2022-11-21 2023-03-21 昆明理工大学 基于深度强化学习的传感器节点能量补充和数据采集方法
CN115843110A (zh) * 2022-09-27 2023-03-24 厦门大学 一种基于q学习的水声双跳网络介质访问控制方法
CN115941062A (zh) * 2022-12-06 2023-04-07 山东科技大学 一种基于深度强化学习的auv多模移动数据收集方法
CN116232478A (zh) * 2023-03-14 2023-06-06 中国人民解放军海军潜艇学院 基于深度学习和深度迁移学习的水下非固定节点通信方法

Patent Citations (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050003865A1 (en) * 2003-07-03 2005-01-06 Roc Lastinger Method and apparatus for high throughput multiple radio sectorized wireless cell
US20160204866A1 (en) * 2015-01-09 2016-07-14 Don M. Boroson Ground terminal design for high rate direct to earth optical communications
KR101637560B1 (ko) * 2016-01-13 2016-07-08 한국해양과학기술원 해양 감시 네트워크에서의 자원 할당 방법
US20220005359A1 (en) * 2016-01-15 2022-01-06 David Belu SOLOMON Novel vessel systems and methods relating thereto
WO2020134507A1 (zh) * 2018-12-28 2020-07-02 北京邮电大学 无人机网络路由构建方法、无人机及存储介质
CN112073939A (zh) * 2020-08-19 2020-12-11 青岛杰瑞自动化有限公司 一种基于海洋浮动平台的通信方法及系统
CN112147653A (zh) * 2020-09-11 2020-12-29 桂林电子科技大学 基于可见光的无人机与水上浮标的定位方法及相关设备
US20220108262A1 (en) * 2020-10-04 2022-04-07 Strong Force Iot Portfolio 2016, Llc Industrial digital twin systems and methods with echelons of executive, advisory and operations messaging and visualization
KR20220050467A (ko) * 2020-10-16 2022-04-25 인천대학교 산학협력단 해수면 전파 반사율을 이용한 딥 러닝 해양 클러스터 데이터 측정 시스템
US20220179379A1 (en) * 2020-12-09 2022-06-09 Commissariat A L'energie Atomique Et Aux Energies Alternatives Method and system for controlling energy consuming operations
CN112566060A (zh) * 2020-12-18 2021-03-26 天津工业大学 一种基于小浮子锚系链组网的海洋牧场水下水上一体化通信系统
CN112866911A (zh) * 2021-01-11 2021-05-28 燕山大学 基于q学习的自主水下航行器协助下水下数据收集方法
CN113033119A (zh) * 2021-03-11 2021-06-25 山东大学 一种基于双评论家强化学习技术的水下航行器目标区域上浮控制方法
CN113162679A (zh) * 2021-04-01 2021-07-23 南京邮电大学 基于ddpg算法的irs辅助无人机通信联合优化方法
US20220327814A1 (en) * 2021-04-08 2022-10-13 Nec Laboratories America, Inc Learning ordinal representations for deep reinforcement learning based object localization
US20220355902A1 (en) * 2021-05-06 2022-11-10 Candela Technology Ab Method and controller unit for controlling motion of a hydrofoil watercraft
US20230078797A1 (en) * 2021-09-10 2023-03-16 X Development Llc Characterising wave properties based on measurement data using a machine-learning model
CN114422363A (zh) * 2022-01-11 2022-04-29 北京科技大学 一种无人机搭载ris辅助通信系统容量优化方法及装置
CN114721409A (zh) * 2022-06-08 2022-07-08 山东大学 一种基于强化学习的水下航行器对接控制方法
CN115278729A (zh) * 2022-06-29 2022-11-01 大连海事大学 一种海洋物联网中无人机协作数据收集与数据卸载方法
CN115843110A (zh) * 2022-09-27 2023-03-24 厦门大学 一种基于q学习的水声双跳网络介质访问控制方法
CN115835350A (zh) * 2022-11-21 2023-03-21 昆明理工大学 基于深度强化学习的传感器节点能量补充和数据采集方法
CN115941062A (zh) * 2022-12-06 2023-04-07 山东科技大学 一种基于深度强化学习的auv多模移动数据收集方法
CN116232478A (zh) * 2023-03-14 2023-06-06 中国人民解放军海军潜艇学院 基于深度学习和深度迁移学习的水下非固定节点通信方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
谭智诚;孙山林;李云;姚;辛以利;: "基于可见光通信的无人机海洋生态采集系统", 数字通信世界, no. 07 *
陈斌;顾家骅;朱敏;晏春平;周怡君;顾萍萍;: "基于深度强化学习的OFDMA-PON三维资源分配研究与性能分析", 聊城大学学报(自然科学版), no. 06 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117376934A (zh) * 2023-12-08 2024-01-09 山东科技大学 一种基于深度强化学习的多无人机海上移动基站部署方法
CN117376934B (zh) * 2023-12-08 2024-02-27 山东科技大学 一种基于深度强化学习的多无人机海上移动基站部署方法
CN117420849A (zh) * 2023-12-18 2024-01-19 山东科技大学 一种基于强化学习的海上无人机编队变粒度协同搜救方法
CN117420849B (zh) * 2023-12-18 2024-03-08 山东科技大学 一种基于强化学习的海上无人机编队变粒度协同搜救方法
CN117707207A (zh) * 2024-02-06 2024-03-15 中国民用航空飞行学院 基于深度强化学习的无人机对地目标跟踪与避障规划方法
CN117707207B (zh) * 2024-02-06 2024-04-19 中国民用航空飞行学院 基于深度强化学习的无人机对地目标跟踪与避障规划方法

Also Published As

Publication number Publication date
CN116405111B (zh) 2023-08-15

Similar Documents

Publication Publication Date Title
CN116405111B (zh) 一种基于深度强化学习的海上无人机辅助光数据收集方法
CN113364495B (zh) 一种多无人机轨迹和智能反射面相移联合优化方法及系统
CN111612126A (zh) 强化学习的方法和装置
CN112698646B (zh) 一种基于强化学习的航行器路径规划方法
CN109784201A (zh) 基于四维风险评估的auv动态避障方法
Cao et al. Hunting algorithm for multi-auv based on dynamic prediction of target trajectory in 3d underwater environment
CN114690799A (zh) 基于信息年龄的空天地一体化无人机物联网数据采集方法
CN108919829A (zh) 无人机应对恶劣环境的自适应决策方法及相应的无人机
CN112363539B (zh) 多无人机协同目标搜索方法
Schneider et al. Model-based adaptive behavior framework for optimal acoustic communication and sensing by marine robots
Karthik Underwater vehicle for surveillance with navigation and swarm network communication
CN113382060B (zh) 一种物联网数据收集中的无人机轨迹优化方法及系统
CN117390498B (zh) 一种基于Transformer模型的固定翼集群无人机飞行能力评估方法
CN117724524A (zh) 一种基于改进球面向量粒子群算法的无人机航线规划方法
CN111551968B (zh) 基于深度学习运动预测的无人机对准系统及对准方法
Masmitja et al. A reinforcement learning path planning approach for range-only underwater target localization with autonomous vehicles
CN114943168B (zh) 一种水上浮桥组合方法及系统
CN115334165B (zh) 一种基于深度强化学习的水下多无人平台调度方法及系统
CN112867023B (zh) 一种通过动态调度无人终端最小化感知数据获取时延方法
CN117376934B (zh) 一种基于深度强化学习的多无人机海上移动基站部署方法
CN117156463A (zh) 一种物联网中基于qmix的多无人机协同数据收集方法与系统
Ma et al. Trajectory tracking of an underwater glider in current based on deep reinforcement learning
CN117856904A (zh) 一种基于深度强化学习的多auv协同移动光通信方法
Su et al. USV Aided Reliable and Efficient Data Collection in Maritime Monitoring System
Ma et al. UAV-assisted maritime data collection via optical communications using deep reinforcement learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant