CN111381499A

CN111381499A - 基于三维空间射频地图学习的网联飞行器自适应控制方法

Info

Publication number: CN111381499A
Application number: CN202010160686.6A
Authority: CN
Inventors: 曾勇; 徐晓莉; 金石; 张瑞
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2020-03-10
Filing date: 2020-03-10
Publication date: 2020-07-07
Anticipated expiration: 2040-03-10
Also published as: CN111381499B

Abstract

本发明公开了一种上述基于三维空间射频地图学习的网联飞行器自适应控制方法，其中蜂窝网络端构建三维空间射频地图，使网联飞行器用户在执行飞行任务前获取三维空间射频地图，规划飞行路径和通信策略，以保障在完成任务的情况下维持与蜂窝网络的通信连接，网联飞行器可以执行飞行路径和通信策略，在飞行过程中测量射频地图数据，将射频地图数据反馈至蜂窝网络端，使蜂窝网络端获取射频地图数据，更新三维空间射频地图，以解决网联飞行器面临的空中通信覆盖不连续的问题，通过利用射频地图学习，避免了传统的基于优化方法的模型不准确、参数难获取、问题难求解等实际问题，实现环境自适应网联飞行器控制和通信，以提高对网联飞行器的控制效果。

Description

基于三维空间射频地图学习的网联飞行器自适应控制方法

技术领域

本发明涉及通信技术领域，尤其涉及一种基于三维空间射频地图学习的网联飞行器自适应控制方法。

背景技术

无人飞行器，特别是无人机(UAV)，近年来在军事、民用及商业等领域获得了突飞猛进的发展，已成为支撑空中侦察、航空拍摄、遥感监测、精准农业、设施巡检、交通疏导、物流快递、紧急救援等应用的重要工具。在无人飞行器行业飞速发展的同时，也对飞行器通信链路提出了更高的要求。一般来讲，不同于传统的地面通信终端，飞行器通信涉及两类基本需求：控制与非载荷通信(control and non-payload communication,CNPC),以及载荷通信。前者主要用于传输支持飞行器安全、可靠和高效飞行的相关信息，如地面站对飞行器的控制命令、飞行器对地面站的状态汇报信息等，而后者则是与飞行器所执行的任务紧密相关的信息传输，如航空拍摄获取的实时图片和影像数据等。CNPC和载荷通信通常具有不同的通信速率、时延、可靠性、安全性等通信要求。然而，现有市场上的无人飞行器主要依赖基于非授权频谱(如ISM 2.4GHz)的点对点通信，具有通信容量低、作用距离短、可靠性差、安全性弱、抗干扰能力差、监管规范难等缺点。

为了解决上述问题，近年来网联飞行器技术受到了学术界和工业界越来越多的关注，即通过利用蜂窝网络基站和蜂窝通信技术支持飞行器的各种通信需求。相较于简单的点对点飞行器通信，网联飞行器通信具有显著的优点。(一)超远距离操控：通过利用世界范围内几乎无处不在的蜂窝基站、回传链路及骨干通信网络，网联飞行器可以实现超远距离通信，使得飞行器的控制理论上不再受距离限制；(二)高容量载荷信息传输：成熟高效的蜂窝移动网络技术及资源调配方案为支撑高可靠、高安全、高容量的飞行器信息传输奠定了基础；(三)易于监管规范：将所有飞行器接入网络有助于监管部门实施有效的空中交通监管和规范，减少黑飞事件，降低安全隐患；(四)更稳健的定位：目前飞行器主要依赖卫星进行定位，易受建筑物阻挡、恶劣天气等影响。蜂窝信号可以辅助卫星增强定位性能。因此，网联飞行器被认为是对无人飞行器和蜂窝产业双赢的技术，一方面有望打破制约无人飞行器大规模广泛应用的通信瓶颈，另一方面可以极大拓展蜂窝通信运营商的用户来源，创造新的商业机会。

然而，尽管其具有广阔的前景，但网联飞行器通信也面临着诸多新的挑战。尤其是，由于蜂窝网络主要被设计为面向地面用户，所以基站天线和信号通常向下倾斜，导致现有的长期演进(LTE)网络不能保证对空中实现无处不在的连续三维立体覆盖。实际上，即使对于正在商业部署的5G以及未来6G网络，以满足无处不在的空中连续覆盖(即使在某些中等高度范围内)为目标的设计，也可能因为经济效益和技术挑战而难以实现。此外，空中用户由于其位置高，往往与地面许多基站具有很强的视距链路，因而容易受到相邻非关联基站更严重的干扰，这加剧了空中覆盖盲区的问题，成为了制约实现网联飞行器广泛应用的重要瓶颈。

但另一方面，需要注意到，不同于传统的地面用户，飞行器用户的移动性具有更可预测性甚至是完全可控性，这为网联飞行器通信性能的提升提供了额外的设计自由度，在一定程度上可以解决蜂窝网络空中覆盖盲区的问题。具体而言，飞行器可以利用其所获信息，通过设计覆盖感知的轨迹规划和通信策略，以避开覆盖盲区并提高通信性能。该方法不需要对蜂窝网络进行大规模升级改造即可服务空中用户。学术界已对该方法进行了一些初步的研究。然而，已有方法主要是基于解决优化问题的算法，面临着严重的局限性和实用性问题。首先，建模优化问题需要精确且可分析处理的端到端通信模型，包括天线模型、信道模型、以及信号实际传播环境模型。其次，基于优化的设计还需要获取建模参数的全局精准值，在实践中难以实现。最后，即使有精确的建模和所有相关参数的精准值，现代通信系统中的大多数优化问题也是高度非凸的，难以有效地获得最优解，从而影响相应飞行器的控制效果。

发明内容

针对以上问题，本发明提出一种基于三维空间射频地图学习的网联飞行器自适应控制方法。

为实现本发明的目的，提供一种基于三维空间射频地图学习的网联飞行器自适应控制方法，包括如下步骤：

S10，蜂窝网络端构建三维空间射频地图；所述三维空间射频地图用深度神经网络进行表征；

S20，网联飞行器用户在执行飞行任务前获取三维空间射频地图，并根据飞行任务和三维空间射频地图规划飞行路径和通信策略，以保障在完成任务的情况下维持与蜂窝网络的通信连接；

S30，网联飞行器执行飞行路径和通信策略，并在飞行过程中测量射频地图数据，将所述射频地图数据反馈至蜂窝网络端；

S40，蜂窝网络端获取所述射频地图数据，利用所述射频地图数据进行深度学习，以更新三维空间射频地图。

进一步地，上述基于三维空间射频地图学习的网联飞行器自适应控制方法，还包括：

S50，网联飞行器获取蜂窝网络端更新后的三维空间射频地图，以修正飞行路径和通信策略。

进一步地，网联飞行器用户在执行飞行任务前获取三维空间射频地图，并根据飞行任务和三维空间射频地图规划飞行路径和通信策略包括：

网联飞行器根据探索系数ε对应的贪婪策略选择选择动作

进一步地，网联飞行器根据探索系数ε对应的贪婪策略选择选择动作

之前，还包括：

网联飞行器初始化学习步长N₁,探索系数ε,探索系数衰减因子α，虚拟和实际飞行次数比N₂，任务完成奖励R_des，从蜂窝网络端获取三维空间射频地图P_out(q_n；ξ)，记蜂窝网络端已存储的所有射频地图相关实测数据为{q,P_meas(q)}，构建数据库E，初始化经验回放存储器D，初始化表征飞行器状态动作函数值的Dueling DQN神经网络的参数θ,目标神经网络参数θ^-＝θ，初始化容量为N₁的滑动窗口队列W，初始化实际飞行经历初始状态q₀，q₀对应时隙n←0，初始化虚拟飞行经历初始状态q_V,0，q_V,0对应时隙i←0。

进一步地，网联飞行器执行飞行路径和通信策略，并在飞行过程中测量射频地图数据，将所述射频地图数据反馈至蜂窝网络端包括：

网联飞行器执行动作

观察下一个状态q_n+1及当前获得的奖励R_n,并测量射频地图数据{q_n+1,P_meas(q_n+1)}，将射频地图数据{q_n+1,P_meas(q_n+1)}反馈至蜂窝网络端，并将射频地图数据{q_n+1,P_meas(q_n+1)}存储至数据库E，将经历

存储至滑动窗口队列W。

进一步地，在将射频地图数据{q_n+1,P_meas(q_n+1)}存储至数据库E，将经历

存储至滑动窗口队列W之后，还包括：

网联飞行器检测到n≥N₁,利用存储在W中的数据计算N₁步长累计回报

并将对应的N₁步长经历

存储至经验回放器D；

网联飞行器从经验回放器D中任意选择若干数据

若

对应任务完成时的目标终点位置，设

否则设

其中

Q(q,k,θ)代表Dueling DQN神经网络的输出；

网联飞行器利用梯度下降法更新神经网络参数θ,最小化损失函数

更新时间系数索引n←n+1，更新探索系数ε←εα。

进一步地，蜂窝网络端获取所述射频地图数据，利用所述射频地图数据进行深度学习，以更新三维空间射频地图包括：

蜂窝网络端从数据库E任意选择若干测量数据，通过标准的梯度下降法更新三维空间射频地图的神经网络参数ξ。

上述基于三维空间射频地图学习的网联飞行器自适应控制方法中，蜂窝网络端构建三维空间射频地图，使网联飞行器用户在执行飞行任务前获取三维空间射频地图，并根据飞行任务和三维空间射频地图规划飞行路径和通信策略，以保障在完成任务的情况下维持与蜂窝网络的通信连接，网联飞行器可以执行飞行路径和通信策略，并在飞行过程中测量射频地图数据，将所述射频地图数据反馈至蜂窝网络端，使蜂窝网络端获取射频地图数据进行相应学习以更新三维空间射频地图，以解决网联飞行器面临的空中通信覆盖不连续的问题，通过利用射频地图学习，避免了传统的基于优化方法的模型不准确、参数难获取、问题难求解等实际问题，实现环境自适应网联飞行器控制和通信，以提高对网联飞行器的控制效果。

附图说明

图1是一个实施例的基于三维空间射频地图学习的网联飞行器自适应控制方法流程示意图；

图2是一个实施例的城市环境中网联飞行器示意图；

图3是一个实施例的覆盖感知飞行器路径规划示意图；

图4是一个实施例的表征飞行器状态动作函数值的Dueling DQN神经网络示意图；

图5是一个实施例的飞行器、蜂窝网络以及环境之间的交互示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了解决网联飞行器用户面临的空中通信覆盖不连续的问题，通过利用射频地图学习，避免了传统的基于优化方法的模型不准确、参数难获取、问题难求解等实际问题，实现环境自适应网联飞行器控制和通信。在一个实施例中，参考图1所示，提供一种基于三维空间射频地图学习的网联飞行器自适应控制方法，包括如下步骤：

S10，蜂窝网络端构建三维空间射频地图。

上述三维空间射频地图包含三维空间地理位置、时间、频率、蜂窝小区身份、接收信号强度、干扰强度、信号质量等信息。具体地，蜂窝网络端可以构建并及时更新包含三维空间地理位置、时间、频率、蜂窝小区身份、接收信号强度、干扰强度、信号质量等信息的三维空间射频地图。

S20，网联飞行器用户在执行飞行任务前获取三维空间射频地图，并根据飞行任务和三维空间射频地图规划飞行路径和通信策略，以保障在完成任务的情况下维持与蜂窝网络的通信连接。

上述步骤中，网联飞行器用户在执行飞行任务前获取射频地图，并根据具体任务规划其飞行路径和优化通信策略，以保障在完成任务的情况下维持与蜂窝网络的通信连接。

S30，网联飞行器执行飞行路径和通信策略，并在飞行过程中测量射频地图数据，将所述射频地图数据反馈至蜂窝网络端。

网联飞行器执行接下来时长为T的路径和通信规划，并在飞行过程中测量射频地图相关数据且反馈至网络，如参考信号接收功率(Reference Signal Received Power,RSRP)，参考信号接收质量(Reference Signal Received Quality,RSRQ)，参考信号信干噪比(RS SINR)。

蜂窝网络端构建并及时更新其所服务各区域的三维空间射频地图，网联飞行器(如无人机等)利用射频地图进行飞行路径和通信策略规划，并将任务执行过程中实测的射频地图相关数据反馈至网络，供其进一步更新射频地图，提高准确度，更新后的射频地图又可帮助飞行器修正其路径和通信策略，形成良性循环。相较于传统的蜂窝连接飞行器通信，通过利用三维空间射频地图学习和飞行器的可控移动性，所提方法能够主动规避蜂窝网络空中覆盖盲区，解决蜂窝网络空中覆盖不连续的问题，实现射频环境自适应网联飞行器通信和控制。

在一个实施例中，上述基于三维空间射频地图学习的网联飞行器自适应控制方法，还包括：

本实施例中，网联飞行器获取蜂窝网络端更新后的三维空间射频地图，以修正飞行路径和通信策略，以依据修正后的飞行路径和通信策略进行作业，进一步保证其作业的有效性。

进一步地，可以重复上述步骤S10至步骤S50，直至任务完成或超时，以保证所执行的飞行任务的完整性。

在一个实施例中，图2是根据一示例性实施例示出的一种城市环境中网联飞行器控制和通信场景，可以看出，飞行器和地面基站的信号传播链路受周围环境、特别是建筑物的阻挡影响较大。图3是根据一示例性实施例示出的覆盖感知飞行器路径规划示意图。飞行器需从各自的起始点位置，以最短时间飞至终点位置，但飞行过程中需要尽量保障与蜂窝网络的良好通信。本实施例用q_n表示飞行器在时隙n的状态，包含飞行器(网联飞行器)的三维空间坐标、剩余能量、当前时间等。假设在每个状态，飞行器有K种可能的动作选择，包括飞行控制和通信策略，如飞行方向、速度、关联基站、信道选择等。根据飞行器本身执行任务的性质，用Dueling DQN深度神经网络表征飞行器的状态动作函数值，如图4所示。该神经网络包括一个输入层、若干隐藏层、和一个输出层，网络中可训练参数用θ表示。输入层以飞行器的状态q_n作为输入信息，输出层对应每个可能动作在该状态下的函数值，即Q值，表示为Q(q_n,k；θ)。通过训练神经网络的参数θ，可不断完善飞行器的控制和通信策略。

另一方面，蜂窝网络端构建的三维空间射频地图也可用深度神经网络进行表征，包含一个输入层、若干隐藏层以及一个输出层。网络输入层输入三维空间位置坐标、时间、频率等信息，输出层对应从不同蜂窝小区接收到的信号强度、干扰强度、信号质量、通信中断率等。在本示例中，网络输入设为q，其包含三维位置坐标和时间信息，输出设为飞行器的通信中断率。用ξ表示该神经网络的可训练参数，则其网络输出值P_out(q；ξ)给出在任意三维空间和时间q的中断率预测值。

基于以上定义，上述网联飞行器用户在执行飞行任务前获取三维空间射频地图，并根据飞行任务和三维空间射频地图规划飞行路径和通信策略包括：

网联飞行器根据探索系数ε对应的贪婪策略选择选择动作

之前，还包括：

网联飞行器初始化学习步长N₁,探索系数ε,探索系数衰减因子α，虚拟和实际飞行次数比N₂，任务完成奖励R_des，从蜂窝网络端获取三维空间射频地图P_out(q_n；ξ)，记蜂窝网络端已存储的所有射频地图相关实测数据为{q,P_meas(q)}，构建数据库E，初始化经验回放存储器D，初始化表征飞行器状态动作函数值的Dueling DQN神经网络的参数θ,目标神经网络参数θ^-＝θ，初始化容量为N₁的滑动窗口队列W，初始化实际飞行经历初始状态q₀，q₀对应时隙n←0，初始化虚拟飞行经历初始状态q_V,0，q_V,0对应时隙i←0；其中符号←表示将左边的参数设置为右边的值。

网联飞行器执行动作

存储至滑动窗口队列W。

存储至滑动窗口队列W之后，还包括：

并将对应的N₁步长经历

存储至经验回放器D；

网联飞行器从经验回放器D中任意选择若干数据

若

对应任务完成时的目标终点位置，设

否则设

其中

Q(q,k,θ)代表Dueling DQN神经网络的输出；

更新时间系数索引n←n+1，更新探索系数ε←εα。

在一个示例中，上述基于三维空间射频地图学习的网联飞行器自适应控制方法的完整实现过程可以包括：

(1)初始化学习步长N₁,探索系数ε,探索系数衰减因子α，虚拟和实际飞行次数比N₂,任务完成奖励R_des。

(2)飞行器从网络端获取目前三维空间射频地图P_out(q_n；ξ)，另记网络端已存储的所有射频地图相关实测数据为{q,P_meas(q)}，其所组成的数据库为E。

(3)初始化经验回放存储器D。

(4)初始化如图4所示的Dueling DQN神经网络参数θ,目标神经网络参数θ^-＝θ；

(5)初始化容量为N₁的滑动窗口队列W。

(6)初始化实际飞行经历初始状态q₀,对应时隙n←0。

(7)初始化虚拟飞行经历初始状态q_V,0,对应时隙i←0。

(8)根据ε贪婪策略选择当前动作，即从所有K的可能动作中选择动作

即

有概率ε取值randi(K)，概率1-ε取值argmax_k＝1,...,KQ(q_n,k；θ)。

(9)飞行器执行动作

观察到下一个状态q_n+1及获得的奖励R_n,并测量射频地图相关数据{q_n+1,P_meas(q_n+1)}反馈给网络，存储至数据库E。

(10)将经历

存储至W。

(11)如果n≥N₁,利用存储在W中的数据计算N₁步长累计回报

并将对应的N₁步长经历

存储至经验回放器D。

(12)从经验回放器D中任意选择若干数据

若

对应任务完成时的目标终点位置，设

否则设

其中

(13)利用梯度下降法更新神经网络参数θ,最小化损失函数

(14)更新时间系数索引n←n+1，探索系数ε←εα。

(15)网络端从数据库E任意选择若干测量数据，通过标准的梯度下降法更新三维空间射频地图的神经网络参数ξ。

(16)根据类似于步骤(8)的ε贪婪策略，对虚拟飞行经历的当前状态q_V,i选择动作，并得到对应的下一状态。根据三维空间射频地图预测下一状态的信号中断率，并由此预测相应的奖励。

(17)对上述虚拟经历，执行类似于步骤(10)-(13)的算法。

(18)更新虚拟经历时隙索引i←i+1。

(19)如果虚拟任务完成或超时，依照步骤(7)重新初始化虚拟飞行经历。

(20)重复步骤(16)-(19)N₂次。

(21)重复步骤(8)-(20)直至实际飞行任务完成或超时。

(22)每完成若干次飞行任务，更新目标神经网络参数θ^-←θ。

(23)重复步骤(5)-(22)。

本示例既利用了飞行器的实际飞行经历和其测量的数据，也利用了根据三维空间射频地图获得的虚拟仿真经历数据(步骤(16)-(20))。飞行器在实际飞行过程中测得的数据一方面直接用于训练其控制和通信策略(步骤(10)-(13))，另一方面又用于更新网络端的三维空间射频地图，提高其精确度(步骤(15))。

在一个实施例中，对网联飞行器、相应蜂窝网络以及环境进行介绍，图5是本实施例提供的飞行器、蜂窝网络以及环境之间的交互示意图。在相应的通信环境中，三维空间射频地图可以一个或多个相邻基站为基本单元进行构建和更新，可对其服务区域内所有三维空间位置在不同时间、不同频率、从不同蜂窝小区接收到的信号强度、干扰强度、信号质量等信息进行预测；不同基本单元之间可通过回程链路进行射频地图共享。三维空间射频地图可以深度神经网络进行表征，包含一个输入层、若干隐藏层、一个输出层。网络输入层输入三维空间位置坐标、时间、频率等信息，输出层对应从不同蜂窝小区接收到的信号强度、干扰强度、信号质量等。

网联飞行器在执行飞行任务过程中，可利用蜂窝网络标准中定义的参考信号接收功率(Reference Signal Received Power,RSRP)，参考信号接收质量(Reference SignalReceived Quality,RSRQ)，参考信号信干噪比(RS SINR)等测量数据得到射频地图的相关数据。网络端(蜂窝网络端)的基本单元构建一个数据库，用于存储从网联飞行器用户获取的测量数据。网络端更新射频地图时，从数据库中随机选择若干数据，利用监督学习算法进行一次或多次网络训练，更新射频地图深度神经网络中的参数。

根据三维空间射频地图和飞行器的飞行任务性质，可通过动态规划、旅行商算法、迪杰斯特拉(Dijkstra)最短路径算法、时序差分状态函数学习、Q学习等算法进行路径规划和通信策略学习或优化，确定飞行器的飞行路径、信道选择、小区关联、信号发送功率等。飞行器端通过深度强化学习，结合三维空间射频地图进行飞行路径和通信策略的规划和修正(具体实施方式见以下实施例说明)。通过构建和训练Dueling深度Q网络(Dueling Deep QNetwork，Dueling DQN)来表征飞行器的飞行控制和通信策略。神经网络包括一个输入层、若干隐藏层、一个输出层。输入层输入飞行器的状态信息，包括其所在三维空间位置坐标、时间、任务完成情况、剩余能量等，输出层对应于每个可能动作(包括飞行状态控制如方向改变、通信信道选择等)在该状态下的函数值，即Q值。飞行器端构建一个经验回放缓存器，用于存储其飞行经历。飞行器在当前状态，选择并执行完一个动作之后，记录其当前状态、动作、获得的奖励、和观测到的下一状态等并存入经验回放缓存器。经验回放缓存器也用于存储基于三维空间射频地图而获得的虚拟仿真经验，即通过虚拟飞行器的飞行状态和执行动作，并根据三维空间射频地图预测其获得的奖励、下一状态等信息而获得的经验，并不需要实际执行飞行和通信动作。当飞行器训练上述的Dueling深度Q网络时，从经验回放缓存器中随机选择若干经验，通过Double Dueling DQN和Dyna算法进行参数更新。飞行器在飞行过程中所测量的射频地图相关数据，可以通过无线链路实时反馈至网络，亦可先在飞行器端缓存，待时机成熟或飞行器返回后再线下反馈至网络端。

上述基于三维空间射频地图学习的网联飞行器自适应控制方法适用于多飞行器用户场景，不同飞行器用户向网络端更新测量数据不必时间同步。具体具有如下优点：

能够充分利用飞行器的可控移动性，结合三维空间射频地图知识，规划飞行器路径和通信策略(详细步骤见具体实施方式的示例性说明)，规避空中覆盖盲区并提高通信性能，解决网联飞行器空中覆盖不连续的问题。

利用深度学习训练三维空间射频地图，以及深度强化学习不断完善飞行器的飞行路径和通信策略，避免了传统基于优化设计方法所面临的模型不准确、参数难获取、问题难求解等实际问题，实现环境自适应网联飞行器控制和通信。

能够充分利用蜂窝通信标准中已有的参考信号接收功率(Reference SignalReceived Power,RSRP)，参考信号接收质量(Reference Signal Received Quality,RSRQ)，参考信号信干噪比(RS SINR)等测量数据训练三维空间射频地图，具有很强的兼容性。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

需要说明的是，本申请实施例所涉及的术语“第一\第二\第三”仅仅是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序。应该理解“第一\第二\第三”区分的对象在适当情况下可以互换，以使这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

本申请实施例的术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块，而是可选地还包括没有列出的步骤或模块，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于三维空间射频地图学习的网联飞行器自适应控制方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于三维空间射频地图学习的网联飞行器自适应控制方法，其特征在于，还包括：

3.根据权利要求1所述的基于三维空间射频地图学习的网联飞行器自适应控制方法，其特征在于，网联飞行器用户在执行飞行任务前获取三维空间射频地图，并根据飞行任务和三维空间射频地图规划飞行路径和通信策略包括：

网联飞行器根据探索系数ε对应的贪婪策略选择选择动作

4.根据权利要求3所述的基于三维空间射频地图学习的网联飞行器自适应控制方法，其特征在于，网联飞行器根据探索系数ε对应的贪婪策略选择选择动作

之前，还包括：

5.根据权利要求4所述的基于三维空间射频地图学习的网联飞行器自适应控制方法，其特征在于，网联飞行器执行飞行路径和通信策略，并在飞行过程中测量射频地图数据，将所述射频地图数据反馈至蜂窝网络端包括：

网联飞行器执行动作

存储至滑动窗口队列W。

6.根据权利要求5所述的基于三维空间射频地图学习的网联飞行器自适应控制方法，其特征在于，在将射频地图数据{q_n+1,P_meas(q_n+1)}存储至数据库E，将经历

存储至滑动窗口队列W之后，还包括：

并将对应的N₁步长经历

存储至经验回放器D；

网联飞行器从经验回放器D中任意选择若干数据

若

对应任务完成时的目标终点位置，设

否则设

其中

Q(q,k,θ)代表Dueling DQN神经网络的输出；

更新时间系数索引n←n+1，更新探索系数ε←εα。

7.根据权利要求1至6任一项所述的基于三维空间射频地图学习的网联飞行器自适应控制方法，其特征在于，蜂窝网络端获取所述射频地图数据，利用所述射频地图数据进行深度学习，以更新三维空间射频地图包括：