CN117993475A

CN117993475A - 一种基于深度强化学习的能量效率无人机资源调度方法

Info

Publication number: CN117993475A
Application number: CN202410310272.5A
Authority: CN
Inventors: 尚凤军; 李炯傲; 李金洋
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2024-03-19
Filing date: 2024-03-19
Publication date: 2024-05-07

Abstract

本发明属于通信技术领域，特别涉及一种基于深度强化学习的能量效率无人机资源调度方法，包括设置在无人机上的传感器实时采集风速和空气密度数据，对采集的数据进行预处理；将预处理的数据输入预训练的GRU网络进行特征提取，对提取的特征与无人机观测信息拼接在一起作为无人机状态；将无人机状态输入智能体，智能体为无人机选择最佳资源调度策略；本发明一方面通过机载设备采集风速与空气密度信息等多模态数据，结合注意力机制，赋予无人机代理观测状态中各个分量不同的权重来突出重要且关键的信息，实现对周边飞行环境的预测，另一方面通过深度强化学习代理和历史数据的交互来学习数据中的关键信息，在每一个时间步中，代理能够更加关注有价值的环境状态，从而简化动作空间，将无人机飞行的连续动作与功率、频谱分配的离散动作合并作为混合动作空间，联合选取最佳动作，在保证服务质量的前提下最小化无人机功耗。

Description

一种基于深度强化学习的能量效率无人机资源调度方法

技术领域

本发明属于通信技术领域，特别涉及一种基于深度强化学习的能量效率无人机资源调度方法。

背景技术

无人驾驶飞机(Unmanned Aerial Vehicle,UAV)简称“无人机”，是利用无线电遥控设备和自编写程序执行指令的不载人飞机。与有人驾驶飞机相比，无人驾驶飞机更加“愚钝”，成本低廉，适合执行低难度、高危险、低容错的任务。

无人机在应急救灾方面的应用上，多聚焦于执行探测、搜索、支援等任务。搜索探测方面，局限于无人机的低智能、低算力。无人机的作用受到一定的局限，大多采用基于计算机视觉的检测方法，通过无人机自身搭载的各种传感器设备回传画面或者音视频，在支援方面，受限于无人机的低能量、低智能，大部分智能执行预定好的任务，难以面对错综复杂的灾后环境，同时也难以对动态变化的环境状况作出及时的调整。

综上所述，在无人机支援通信的资源调度方法的探索中，现在已经取得了不少的成就，但也仍然存在问题：

1.现在技术大多只考虑到无人机部署完毕后的资源调度，未综合考虑无人机前期部署导致的功耗问题；

2.在进行资源调度时未对无人机功耗进行建模，缺乏对无人机功耗的精确考量，难以估计实际应用中的功耗；

3.现有的基于深度强化学习资源调度方法中，主要是针对纯离散动作空间和纯连续动作空间，或者将连续的动作空间简化为离散动作空间，存在难以避免的偏差，并且没有考虑两部分之间的关系。

发明内容

针对以上问题，本发明提出一种基于深度强化学习的能量效率无人机资源调度方法，具体包括以下步骤：

设置在无人机上的传感器实时采集风速和空气密度数据，对采集的数据进行预处理；

将预处理的数据输入预训练的GRU网络进行特征提取，对提取的特征与无人机观测信息拼接在一起作为无人机状态；

将无人机状态输入智能体，智能体为无人机选择最佳资源调度策略。

本发明提出一种基于注意力机制与多模态融合离散-连续混合动作空间的无人机三维部署联合资源调度算法，加入对无人机飞行与悬停功耗的建模估计，一方面通过机载设备采集风速与空气密度信息等多模态数据，结合注意力机制，赋予无人机代理观测状态中各个分量不同的权重来突出重要且关键的信息，实现对周边飞行环境的预测，另一方面通过深度强化学习代理和历史数据的交互来学习数据中的关键信息，在每一个时间步中，代理能够更加关注有价值的环境状态，从而简化动作空间，将无人机飞行的连续动作与功率、频谱分配的离散动作合并作为混合动作空间，联合选取最佳动作，在保证服务质量的前提下最小化无人机功耗。

附图说明

图1为本发明一种基于深度强化学习的能量效率无人机资源调度方法应用场景示意图；

图2为本发明视距传输与非视距传输示意图；

图3为本发明GRU网络结构示意图；

图4为本发明混合动作空间模型示意图；

图5为本发基于注意力机制与多模态数据的混合动作空间的深度强化学习模型示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出一种基于深度强化学习的能量效率无人机资源调度方法，具体包括以下步骤：

本实施例中无人机资源调度方法大致可以分为两个阶段：第一阶段为无人机部署，在此阶段中需要对无人机飞行功耗进行建模估计，并根据用户分布划分目标区域，进行无人机三维部署；第二阶段通过深度强化学习，对无人机频谱、发射功率、用户关联进行分配决策。

假定目标区域为L m×L m的正方形,利用二维网格对目标区域进行单元分解。将目标区域划分为M个边长为l m的正方形，临时通信基站放置在目标区域中心I＝{λ_x,λ_y,0}，λ_x,λ_y,0分别为目标区域中心在三维坐标系中的坐标值，静态障碍物(比如建筑、树木等)在区域内随机分布；共架无人机i在t时刻的位置表示为/>其中/>表示无人机i在t时刻的水平位置，u_z表示无人机i的高度。地面用户在t时刻的位置表示为/>表示第k个地面用户的位置；本实施例假设所有无人机起飞之前对目标区域信息有充分的了解，为避免无线干扰采用FDMA，所有无人机从同一位置匀速出发，在满足转角约束的8个离散的方向中选择一个方向飞行，飞行过程中保证无碰撞，最终到达目的位置，应用场景如图1。

各无人机i在每个单位时间间隔上的运动取决于飞行速度V_i(t)和方位角θ_i(t)∈(0,2π),因此可以在每个单位时间间隔后更新无人机位置，具体包括以下步骤：

首先，本实施例以大规模广泛使用的四旋翼无人机作为研究对象进行飞行时功耗模型构建，无人机以速度V_i(t)飞行时的功耗模型构建如下:

其中，S、C为旋翼无人机机翼的密度和旋翼面积，是机身阻力比，S_FP为机身的等效平板面积；P₀和P_i是叶片功率和电感性负载功率，表示为：

其中，ρ、ω、R、W分别是空气的密度、叶片角速度、旋翼半径、无人机重量，δ为无人机等效平板面积的阻力系数；v₀是无人机旋翼的平均诱导速度，U_ti表示旋翼叶片的叶尖速度，表示为：

由此可求得当前无人机飞行速度：

其中，V_air为传感器采集的无人机当前位置风速。

当无人机做悬停动作时，其速度为V＝0，功耗计算方式为P＝P₀+P_i；

当无人机以速度V飞行时，其功耗计算方式为P(V)。因此，四旋翼无人机飞行和悬停所需的能量和可以用以下公式来计算：

E_V＝P(V)·T_飞行

E_悬停＝P(0)·T_悬停

其中，E_V为无人机以速度V飞行时所需能量，T_飞行为无人机以速度V飞行的飞行时间；E_悬停为无人机悬停时所需能量，T_悬停为无人机悬停的时间。

根据上式，可以求出无人机i在时间间隔Δt内飞行所消耗的能量：

接着可以更新无人机i的剩余能量：

无人机的通信信道即空对地(A2G)模型分为视距传播(LoS,line-of-sight)与非视距传播(NLos,non line-of-sight)两种。当收发端之间的传播信道没有遮挡的时候，信道模型为LoS，此时电磁波只会在传播过程中出现衰减，且与距离成正相关。当收发端之间的传播信道存在障碍物遮挡的时候，电磁波除了衰减，还会在障碍物之间进行反射、衍射和穿透，这些现象会导致波形的频移与失真，进一步增大损耗。因此可以确定，无人机与无人机(U2U)、无人机与基站(U2I)和无人机与地面用户(U2E)的通信信道模型是LoS和NLoS的发生概率取决于传播环境和无人机的仰角，如图2，无人机与地面左1之间的链路为LoS链路，与其他两个地面用户之间的链路为NLoS链路。

无人机i与用户k之间出现LoS的概率为：

其中，为t时刻无人机i与用户k之间出现LoS的概率；α表示目标区域中建筑物面积与总面积的比值，β表示单位面积内建筑物的数量(建筑/平方公里)。表示t时刻无人机i与地面用户之间的仰角，u_i(t)表示t时刻无人机i的三维位置坐标；e_k(t)表示t时刻地面用户位置坐标；u^z(t)表示t时刻无人机i的高度；‖·‖表示求两坐标点的欧氏距离。

t时刻无人机i与用户k之间出现NLoS的概率为：

因此，无人机i和地面用户k之间的路径损耗可以表示为：

其中，这表示自由空间路径损耗，f_c为载频，c为光速，η^LoS和η^NLoS分别表示LoS链路和NLoS链路平均额外的路径损失。

t时刻无人机i和用户k之间对应的信道增益为:

假设无人机总的发射功率定义为P_max，无人机分配给用户k的功率表示为p_k(t)，那么有：

其中，表示地面用户集合。

在t时刻更新无人机能量消耗公式更新为：

其中，

假设为用户接收信号的参考接收功率的阈值，因此当t时刻用户k接收到的功率/>小于/>那么表示该链接不会对系统的吞吐量造成影响，如果收到的功率/>大于则无人机网络与用户k之间的信息传输速率可以表示为：

其中，σ²表示子频带的高斯白噪声，B为无人机网络带宽，K为用户总数。

假设每个用户最多被一架无人机服务，那么就有下列约束：

其中ψ_i,k(t)＝1表示在时刻t，地面用户k被无人机i提供服务，反之ψ_i,k(t)＝0；K表示用户总数，规定每个用户同一时刻只能被一架无人机服务。

根据上述飞行功耗模型，信道模型的建立，要联合优化用户-无人机关联矩阵无人机轨迹/>和无人机功率/> 优化可以将问题归纳如下：

约束条件：

其中，N为截止时间；为单位时间内无人机最大位移距离；r为无人机安全半径；γ^t表示t时刻的汇报折扣率；r(t+1)表示t+1时刻从环境中获得的回报奖励；T表示总时间；b_i,k(t)表示t时刻无人机i分给地面用户k的频谱资源；τ表示从经验池抽取的经验集合，一组经验表示为(s,a,r,s′)，表示根据当前状态s选择动作a执行后获得奖励值r，并从状态s转移到状态s′。

约束(1)为保证QoS要求，η为每个地面用户所需的最小速率。约束(2)，(3)确保在一个时间单位内一个用户只能被一架无人机服务。约束(4)表示每架无人机在单个时间单位内最大的移动范围。约束(5)确保所有无人机不互相碰撞。约束(6)表示无人机的最大传输功率约束。约束(7)保证无人机分配给每个用户的带宽不超过自身所拥有的频谱资源。约束(8)保证无人机剩余能量足够降落地面。

本实施例中无人机的观测信息来自于地面边缘服务器与无人机自身搭载的机载气象传感器，在无人机飞行中，无人机当前状态必然受到前一时刻环境信息的影响，如果前一时刻无人机所处空域风力与空气密度受灾害影响导致突变，则无人机飞行状态与能量估计也必然会发生改变。因此，本发明采用GRU网络处理无人机代理的多模态观测数据，并且用来发现时间序列数据之间的相关性，用以对无人机飞行环境进行合理预测。

如图3，其中h_t-1表示上一时刻的隐藏状态，隐藏状态充当了神经网络的记忆，包含了之前节点见过的数据的信息。h_t表示传递到下一时刻的隐藏状态，表示候选隐藏状态，r_t为重置门，z_t为更新门。u(·)表示sigmod函数。由此结构可以得出，t时刻的网络隐藏状态h_t表达式如下：

表达式如下：

重置门、更新门表达式分别如下：

r_t＝u(W_rx_t+K_rh_t-1+b_r)

z_t＝u(W_zx_t+K_zh_t-1+b_z)

其中，W_h、K_h、b_h、W_r、K_r、b_r、W_z、K_z、b_z为GRU网络中各层的可学习矩阵；x_t表示t时刻GRU网络的输入，该输入包括无人机观测信息和传感器观测信息。

注意力机制是一种模拟人类在处理大量信息时如何选择性地关注某些重要部分的机制。在深度学习中，注意力机制允许模型学习到在特定时刻哪些部分是重要的，从而在处理信息时更加高效。它的本质在于学习出一个对输入特征的权重分布，再把这个权重分布施加在原来的特征上，使任务主要关注一些重点特征，忽略不重要特征，提高任务效率。设输入序列向量为：

Γ＝[Γ₁(t),…,Γ_Π(t)]

则注意力机制的计算公式如下：

其中：是权重矩阵，与输入序列Γ作矩阵运算再经过Softmax激活函数，最后和输入序列相乘得出新序列Γ′，Γ₁(t)表示t时刻输入序列的第1个分量，Π表示输入序列的分量数量；注意力机制能突出重要影响的特征，减小无用的特征影响，使模型作出更优的选择，提高预测的准确度。本实施例中，注意力网络由一个全连接层以及Softmax激活函数组成，首先，输入向量经过第一个全连接层，然后经过Softmax激活函数得出输入向量中各个分量的权重，再与输入向量作乘法得出新的向量。

无人机与地面用户通过无线信道进行交互，无人机作为代理，用户和无线信道作为环境，无人机的飞行会带来位置变化，进而导致无线信道的变化。因此，该过程可以被建模为马尔科夫决策过程MDP(Markov Decision Process)。它被定义为一个四元组即状态空间，动作空间，状态转移概率和奖励。在每一个单位时间间隔中，无人机根据动作和转移概率由当前状态转移到下一个状态，并获得奖励。无人机将迭代过程作为经验存放在缓冲区中，并随机采样训练神经网络。状态空间，动作空间，奖励定义如下：

状态空间：在发明利建立的模型中，环境状态s(t)主要通过所有无人机、地面用户、无人机基站的三维坐标、无人机剩余能量、传感器采集到的风速与空气密度数据构建。其中无人机和地面用户的坐标由地面基站和无人机与用户关联所感知，而传感器所采集的信息则是通过机载设备感知。因此存在多模态数据融合的过程，需要经过处理才能构成深度神经网络的输入序列，这里姑且将处理后的传感器采集到的风速与空气密度信息表示为向量V_air(t)与ρ(t)，此状态空间描述如下：

其中，为无人机的总数量，K为地面用户的总数量。

动作空间：强化学习代理通过观察状态信息，确定当前时间间隔t下的一个联合动作。本发明所描述的应用场景中，无人机的动作空间包含四个部分，其中包含用户关联策略A、无人机轨迹设计U、发射功率P以及频谱选择B。但由于无人机飞行状态下要调整的有倾斜角度、加速度、速度等多种维度。并且这些动作都是连续的，难以转化为离散的动作空间，因此无人机的动作空间是离散-连续动作的混合组成。定义离散动作空间a_d＝[A,P,B]，其次定义参数化连续动作空间a_c＝[dip_angle,acceleration]，其中dip_angle为无人机倾角，acceleration为无人机加速度，如图4，本发明中无人机代理的每一组离散动作选择对应一组连续参数化动作选择，即每一个离散动作对应一组连续动作参数。因此动作空间可以表示为：

a(t)＝{a_d(t)|a_c(t)}

其中每个离散动作a_d(t)都有一个对应的连续动作参数a_c(t)。

奖励函数：根据本发明提出的优化目标，目的是最大化奖励的累计期望，望能获得无人机支援网络系统的最大信息和速率。此外，还考虑到无人机节能的问题，因此提出的奖励函数如下：

r(t)＝r₁(t)+r₂(t)

其中，ζ和μ分别表示最大信息和速率奖励与能量消耗奖励的权重，t_complete表示最初预设的无人机网络维持的目标时间。

通常情况下无人机信号发射功率越大，其信道增益越大，所获得的信息速率也越大，但同时随着发射功率的增大其能量消耗也越大，无人机网络维持时间也越短，所以应当合理设置两个权重参数的大小，一般为了保证基本的服务质量，ζ要设置大于μ。当无人机在滞空时间大于等于预设时间且无人机剩余能量大于等于返回所消耗的能量时(认为无人机飞行到目的地和返回起点所消耗能量相等)，获得完成预设目标的最大奖励，否则不获得该奖励。对于现有的深度强化学习算法，它们中的大多数要求动作空间是离散的或连续的。例如，深度Q学习(DQL)及其变体适用于离散动作空间；而深度确定性策略梯度(DDPG)广泛用于连续动作空间。而无人机的飞行动作与功率、频谱的选择需要处理离散-连续混合动作空间的情况。此外，为了最大限度地节省无人机飞行功耗，通过结合注意力机制，针对性地学习地面用户分布、信道环境、无人机滞空时高空风速与空气密度的变化，及时预测状态变化来保证最佳信号覆盖。

DQN概念中的Q(s,a)表示了对于给定状态s中执行动作a的好坏。在处理离散-连续混合动作空间问题时同样也需要为混合动作空间定义类似的Q值，因此定义Q(s,a_d,a_c),表示在时间t时选择离散动作a_d和其关联的连续动作a_c。

通过结合DQN和DDPG直接在参数化动作空间(PAS)中操作，先得到所有离散动作对应的连续动作的参数化动作，使用Q网络用于输出离散动作的Q值，并为策略网络提供梯度，因此，贝尔曼方程可以重写为：

其中，表示贝尔曼期望方程；r_t表示在t时刻，状态s_t下采取动作a_d,a_c获得的奖励；/>表示以a_c为变量的Q函数上界。

现在的问题就在于，DQN在有限的动作中采用Q值最大的动作是很容易的,但是在连续动作空间a_c上取得最大值是棘手的，因为DQN需要迭代连续空间中的所有可能值来找出最大的Q(s_t,a_d,a_c)。对此，解决办法是使用确定性策略网络χ(s_t；θ)来近似a_c，对于离散动作，使用参数为的深度神经网络表示/>因此，当/>固定时，希望能够确定θ，使得：

先将无人机观测到的状态state输入到第一个策略网络χ(θ)，它采用深度确定性策略梯度(DDPG)算法，用于确定连续动作空间的动作参数，经过一些全连接层和激活函数后输出的是最优的连续参数的值。随后将state和最优连续参数值拼接，一起通过归一化层的处理，输入注意力层。在注意力层中，注意力机制将注意力以不同的权重分配到输入序列的不同分量上，有选择地关注最优动作参数与state的内在联系，忽略不太重要的状态。之后将输出的作为离散网络的输入，它可以视为一个DQN网络，同样经过一些全连接层和激活函数后输出DQN中最优的离散动作，并选用相应的连续参数。

同样地，损失函数也分为两部分：离散动作的Q网络部分使用类似DQN的TD-error优化：

其中s,a∈mini_batch,是从经验重放存储器中采样的小批量数据，y由给出,其中a′∈a_d(t)，γ为未来奖励折扣因子。而连续动作的策略网络部分，设计初衷是希望其可以确定性地给出最优的连续参数值，而在离散网络参数固定的情况下，离散网络可以充当类似“Critic”的角色，将连续参数输入离散网络得到多个相应的Q值，然后将所有Q值相加求和，去最大化这个结果来优化连续Q网络，表示为：

下面给出一个本发明在实际操作过程中的流程，如图5，具体包括以下步骤：

1.初始化地图与环境信息(α,β,ρ,σ²)，用户分布(K,e_k(t))，设置训练批量大小batch_size，ε-贪婪策略常量。

2.初始化信道模型、无人机功耗模型、无人机能量E、无人机数量无人机初始分布位置u_i、无人机与用户关联A。

3.构建代理的状态s、动作a、动作参数和奖励r，初始化奖励函数与损失函数，得到设置后的代理模型；

代理模型包括在线网络与目标网络，在线网络包含一个网络参数为θ的在线确定性策略网络χ(s；θ)和一个网络参数为的在线深度Q网络/>目标网络分别同样包含一个网络参数为θ′的目标确定性策略网络χ(s；θ′)和一个网络参数为/>的目标深度Q网络

代理的状态空间向量为s＝{s(t)＝{u_i(t),E_i(t),v_i(t),V_air(t),ρ(t)}}，其中u_i(t),E_i(t),v_i(t)是无人机通过与地面基站和用户数据交换和内置电池模块获得的观测信息，V_air(t),ρ(t)是由无人机机载传感器采集的信息数据并通过GRU网络预测得到的下一时刻的风速和下一时刻的空气密度，本发明中将当前时刻传感器采集的信息输入GRU网络预测下一时刻的风速和空气密度，再将预测的值作为当前无人机状态中的风速特征和空气密度特征。

GRU预先通过气象局提供的当地不同高度的历史气象信息数据集进行训练，并将模型保存，将无人机通过传感器采集到的信息经过数据预处理模块进行数据整合，作为输入序列，在特征提取过程中，GRU首先将输入序列逐时间步转换为向量表示，然后通过GRU网络进行建模；在GRU网络中，每个时间步的隐藏状态都是对前面信息的加权和，并且通过门控机制控制信息的流动，随着时间的推移，GRU能够逐渐捕捉到序列中的长期依赖关系，并学习到有用的特征，特征分别为空气风速与空气密度。

经过GRU的处理，将传感器采集信息作为输入序列，作为后续注意力层的输入序列。

4.将当前时刻初始状态s输入在线网络的策略网络χ(s；θ)，根据策略网络选取连续动作参数为了更加合理地探索，在连续动作参数中添加噪声N，将连续动作参数与当前状态一起经过归一化处理后输入注意力层，经过注意力层中对各个状态赋予不同的权重来捕捉关键信息，以作出对下一时刻环境状态的最佳预测；

随后将注意力层的输出内容输入在线网络的输出各个离散-连续混合动作组的Q值，并按照ε-贪婪策略进行合理探索及利用，确定下一个动作，并得到下一时刻的状态。

奖励函数被用于评价当前状态s下混合动作a的表现性能，目标有以下几点：(1)避免无人机碰撞；(2)调整无人机姿态与高度以最大化无人机网络系统信息速率；(3)尽可能的节省无人机能量以保证无人机网络维持寿命。

将获取到的[s,a_d,a_c,r_t,s’](s’表示在状态s下执行动作a_d,a_c后的状态)存入经验池中用以后续训练神经网络，当经验池中数据量达到batch_size时，提取经验池的经验，提取的经验表示为将输入在线Q网络中获得在状态s^memory下采取动作组的Q值/>和奖励r′，将s′^memory输入目标策略网络，获得目标连续动作参数集合/>将目标动作参数集合与状态s′^memory输入目标Q网络获得目标离散-连续混合动作的Q值/>接下来根据TD-error计算损失函数，利用梯度下降更新参数/>其中损失函数表示为：

根据梯度上升更新Loss(θ)＝∑χ(s,a_d,a_c；θ)。

5.目标网络参数θ′和通过软更新得到。

6.重复上述步骤直到达到最大训练步数，最后获得训练后的模型。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于深度强化学习的能量效率无人机资源调度方法，其特征在于，具体包括以下步骤：

2.根据权利要求1所述的一种基于深度强化学习的能量效率无人机资源调度方法，其特征在于，智能体选择最佳的资源调度策略的过程包括：

智能体将无人机状态输入在线确定性策略网络，获取连续动作空间的动作参数；

将连续动作空间的动作参数与无人机状态拼接后进行归一化，通过注意力机制对归一化后数据的每一个分量进行加权处理；

将加权处理后的数据输入在线深度Q网络，在线深度Q网络输出各个离散动作与参数化动作对的Q值；

智能体按照ε-贪婪策略随机选择一个离散-参数化动作对，按照1-ε概率选择最大Q值的离散-参数化动作对。

3.根据权利要求1或2所述的一种基于深度强化学习的能量效率无人机资源调度方法，其特征在于，无人机状态表示为：

s(t)＝{u_i(t),e_k(t),E_i(t),v_i(t),V_air(t),ρ(t)}

其中，s(t)表示t时刻无人机初始状态，u_i(t)为t时刻无人机i的位置；e_k(t)为t时刻地面用户k的位置坐标；E_i(t)为t时刻无人机i剩余的能量；v_i(t)为t时刻无人机i的速度；V_air(t)为t时刻无人机通过GRU网络提取的风速特征；ρ(t)为t时刻无人机通过GRU网络提取的空气密度特征。

4.根据权利要求2所述的一种基于深度强化学习的能量效率无人机资源调度方法，其特征在于，智能体的动作空间包括由离散动作选择和连续参数化动作选择构成的混合动作空间，离散动作选择包括用户关联策略A、发射功率P以及频谱选择B，连续参数化动作选择包括无人机轨迹U，每一组离散动作选择对应一组连续参数化动作选择，先通过在线确定性策略网络获取连续动作空间的动作参数，再通过在线深度Q网络确定离散动作选择，连续动作空间的动作参数包括无人机倾角和无人机加速度。

5.根据权利要求2所述的一种基于深度强化学习的能量效率无人机资源调度方法，其特征在于，智能体的奖励函数包括：

r(t)＝r₁(t)+r₂(t)

其中，r(t)为t时刻执行的动作的奖励值；r₁(t)为考虑最大化总信息速率和剩余能耗的奖励函数；r₂(t)为附加奖励，当无人机服务时间满足预定时间时获得一次性的附加奖励值r_complete，否则附加奖励值为0，r_complete为一个大于0的常数；ζ、μ分别表示最大信息和速率奖励、能量消耗奖励的权重；R_k(t)为t时刻无人机与用户k之间的信息传输速率；K为用户的总数量；E_i(0)为；E_i(t)为t时刻无人机i的能量消耗；为无人机的总数量；t_complete为预设的无人机网络维持的目标时间；E_rurn为无人机原路返回所需要的能量，理想状态下与无人机飞抵部署点时刻所消耗能量相同。

6.根据权利要求2所述的一种基于深度强化学习的能量效率无人机资源调度方法，其特征在于，对在线确定性策略网络进行参数优化的过程中，以最大化输入在线深度Q网络的连续参数的Q值之和作为在线确定性策略网络的损失函数，以梯度上升的方式对在线确定性策略网络进行参数优化，在线确定性策略网络的损失函数表示为：

Loss(θ)＝∑Q(s,a_d,a_c；θ)

其中，Loss(θ)为在线确定性策略网络的损失函数；Q(s,a_d,a_c；θ)表示在线深度Q网络输出的各个离散-连续参数化动作对的Q值；s为无人机状态；a_d为无人机选择的离散动作；a_c为无人机选择的连续动作；θ为在线确定性策略网络的网络参数。

7.根据权利要求2所述的一种基于深度强化学习的能量效率无人机资源调度方法，其特征在于，在线深度Q网络通过损失函数梯度下降更新网络参数，在线深度Q网络的损失函数表示为：

其中，为在线深度Q网络的损失函数；/>表示在线深度Q网络，s表示状态，a_d表示离散动作，a_c表示参数化的连续动作；/>表示求期望；r表示执行动作a_d,a_c后获得的奖励；γ表示时间相关折扣因子；/>表示目标Q网络的输出，s^′表示s后的下一个状态，a_d′表示在s^′作出的离散动作，/>表示目标Q网络的参数。

8.根据权利要求1所述的一种基于深度强化学习的能量效率无人机资源调度方法，其特征在于，GRU网络进行特征提取的过程包括：

r_t＝u(W_rx_t+K_rh_t-1+b_r)

z_t＝u(W_zx_t+K_zh_t-1+b_z)

其中，h_t为t时刻的隐藏状态，即GRU网络提取的特征；z_t为t时刻GRU网络更新门的输出；r_t为t时刻GRU网络重置门的输出；为t时刻GRU网络的候选隐藏状态，W_h、K_h和b_h为候选隐藏状态对应的可学习参数，x_t为t时刻传感器采集的风速和空气密度数据；u(·)为激活函数；W_r、K_r和b_r为GRU网络重置门的可学习参数；W_z、K_z和b_z为GRU网络更新门的可学习参数。