CN111385806B

CN111385806B - 一种无人机基站路径规划和带宽资源分配方法及装置

Info

Publication number: CN111385806B
Application number: CN202010099715.2A
Authority: CN
Inventors: 高飞飞; 丁瑞金; 张煜
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2020-02-18
Filing date: 2020-02-18
Publication date: 2021-10-26
Anticipated expiration: 2040-02-18
Also published as: CN111385806A

Abstract

本发明实施例公开了一种无人机基站路径规划和带宽资源分配方法及装置，方法包括：获取当前环境状态；基于所述当前环境状态和预置的动作网络，确定无人机基站的相关动作；根据所述相关动作，确定所述无人机基站的飞行路径和所述无人机基站分配给各个用户的带宽。本发明实施例基于获取的当前环境状态和预置的动作网络，确定无人机基站的相关动作；根据相关动作，确定无人机基站的飞行路径和无人机基站分配给各个用户的带宽。这种将深度强化学习用于无人机基站路径规划和带宽资源分配的方法，为用户提供了较好的通信服务，计算复杂度低，并且即使用户是移动的，无人机基站也能通过调整飞行路径很好地处理用户移动等问题。

Description

一种无人机基站路径规划和带宽资源分配方法及装置

技术领域

本发明涉及无人机基站通信技术领域，具体涉及一种无人机基站路径规划和带宽资源分配方法及装置。

背景技术

无人机基站由于其高移动性，可以在发生自然灾害后建立起应急通信。但是无人机基站却有着电池能量受限的缺点，无法长时间提供通信服务，因此，需要无人机基站提供高能效的服务。但是，相关的轨迹优化和资源分配问题往往是NP-Hard(Non-deterministicPolynomial hard problem，NP困难问题)问题，很难直接解决。

目前的无人机基站轨迹优化以及资源分配方法主要将原始难以优化的复杂的非凸的，通过不断地近似简化转变为可以通过迭代求解的凸的子问题，再借助CVX等工具解凸优化问题。然而，基于传统凸优化理论的计算方法复杂度大，对于问题有大量简化，以及难以处理用户移动等问题，很难在实际中进行应用。

发明内容

由于现有方法存在上述问题，本发明实施例提出一种无人机基站路径规划和带宽资源分配方法及装置。

第一方面，本发明实施例提出一种无人机基站路径规划和带宽资源分配方法，包括：

获取当前环境状态；

基于所述当前环境状态和预置的动作网络，确定无人机基站的相关动作；

根据所述相关动作，确定所述无人机基站的飞行路径和所述无人机基站分配给各个用户的带宽。

可选地，所述当前环境状态至少包括：所述各个用户的位置信息、所述无人机基站的当前位置信息、所述无人机基站的当前飞行速度、所述无人机基站的当前电池剩余电量和所述无人机基站的目标位置信息。

所述基于所述当前环境状态和预置的动作网络，确定无人机基站的相关动作，包括：

将所述各个用户的位置信息、所述无人机基站的当前位置信息、所述无人机基站的当前飞行速度、所述无人机基站的当前电池剩余电量和所述无人机基站的目标位置信息输入预置的动作网络中，得到所述无人机基站的相关动作。

可选地，所述相关动作至少包括：所述无人机基站的飞行速度、所述无人机基站的飞行方向和所述无人机基站分配给各个用户的带宽资源比例。

所述根据所述相关动作，确定所述无人机基站的飞行路径和所述无人机基站分配给各个用户的带宽，包括：

根据所述飞行速度和所述飞行方向，确定所述无人机基站飞行路径；

根据所述无人机基站分配给各个用户的带宽资源比例，确定所述无人机基站分配给所述各个用户的带宽。

可选地，所述预置的动作网络，是以环境状态作为动作网络的输入，在评价网络对其输出进行评价的基础上，进行训练得到。

可选地，所述无人机基站路径规划和带宽资源分配方法还包括：

在训练所述动作网络之前，复制所述无人机基站的电池剩余能量维度，直到所述无人机基站的电池剩余能量维度多于预设能量维度阈值。

在训练所述动作网络过程中，所述动作网络的前K-1个输出神经元与一个固定的值为0的参考神经元拼接；其中，K为所述动作网络的输出神经元的个数。

在训练所述动作网络过程中，在所述动作网络的损失函数中添加激活前神经元值大于预设阈值的损失，具体为

其中，κ_υ,

为损失系数，χ_υ,

分别为λ_υ；

激活前的值，

第二方面，本发明实施例还提出一种无人机基站路径规划和带宽资源分配装置，包括：状态获取模块、动作确定模块及路径和带宽确定模块；

所述状态获取模块，用于获取当前环境状态；

所述动作确定模块，用于基于所述当前环境状态和预置的动作网络，确定无人机基站的相关动作；

所述路径和带宽确定模块，用于根据所述相关动作，确定所述无人机基站的飞行路径和所述无人机基站分配给各个用户的带宽。

所述动作确定模块，具体用于：

所述路径和带宽确定模块，具体用于：

可选地，所述无人机基站路径规划和带宽资源分配装置还包括：复制模块；

所述复制模块，用于在训练所述动作网络之前，复制所述无人机基站的电池剩余能量维度，直到所述无人机基站的电池剩余能量维度多于预设能量维度阈值。

可选地，所述无人机基站路径规划和带宽资源分配装置还包括：拼接模块；

所述拼接模块，用于在训练所述动作网络过程中，所述动作网络的前K-1个输出神经元与一个固定的值为0的参考神经元拼接；其中，K为所述动作网络的输出神经元的个数。

可选地，所述无人机基站路径规划和带宽资源分配装置还包括：添加模块；

所述添加模块，用于在训练所述动作网络过程中，在所述动作网络的损失函数中添加激活前神经元值大于预设阈值的损失，具体为

其中，κ_υ,

为损失系数，χ_υ,

分别为λ_υ；

激活前的值，

第三方面，本发明实施例还提出一种电子设备，包括：

至少一个处理器；以及

与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行上述方法。

第四方面，本发明实施例还提出一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机程序，所述计算机程序使所述计算机执行上述方法。

由上述技术方案可知，本发明实施例通过基于获取的当前环境状态和预置的动作网络，确定无人机基站的相关动作；根据相关动作，确定无人机基站的飞行路径和无人机基站分配给各个用户的带宽。这种将深度强化学习用于无人机基站路径规划和带宽资源分配的方法，为用户提供了较好的通信服务，计算复杂度低，并且即使用户是移动的，无人机基站也能通过调整飞行路径很好地处理用户移动等问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些图获得其他的附图。

图1为本发明一实施例提供的一种无人机基站路径规划和带宽资源分配方法的流程示意图；

图2为本发明一实施例提供的一种无人机基站路径规划和带宽资源分配装置的结构示意图；

图3为本发明一实施例提供的电子设备的逻辑框图。

具体实施方式

下面结合附图，对本发明的具体实施方式作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

图1示出了本实施例提供的一种无人机基站路径规划和带宽资源分配方法的流程示意图，包括：

S11，获取当前环境状态。

在本发明实施例中，要使无人机基站进行路径规划和带宽资源分配，首先需要获取当前环境状态。无人机基站根据获取的当前环境状态，确定飞行路径以及向各个用户分配带宽资源。

在本发明实施例中，所述当前环境状态至少包括：所述各个用户的位置信息、所述无人机基站的当前位置信息、所述无人机基站的当前飞行速度、所述无人机基站的当前电池剩余电量和所述无人机基站的目标位置信息。

S12，基于所述当前环境状态和预置的动作网络，确定无人机基站的相关动作。

在本发明实施例中，所述预置的动作网络通过训练神经网络得到。基于所述当前环境状态和预置的动作网络，确定无人机基站的相关动作。具体地，将所述当前环境状态输入所述预置的动作网络中，得到所述无人机基站的相关动作。

在本发明实施例中，所述相关动作至少包括：所述无人机基站的飞行速度、所述无人机基站的飞行方向和所述无人机基站分配给各个用户的带宽资源比例。

S13，根据所述相关动作，确定所述无人机基站的飞行路径和所述无人机基站分配给各个用户的带宽。

在本发明实施例中，根据S12中得到的所述无人机基站的相关动作可以确定出所述无人机基站的飞行路径和所述无人机基站分配给各个用户的带宽。具体地，根据所述无人机基站的相关动作，例如飞行速度和飞行方向，可以确定出所述无人机基站的飞行路径。根据所述无人机基站的相关动作，例如所述无人机基站分配给各个用户的带宽资源比例，可以确定出所述无人机基站分配给各个用户的带宽。

本发明实施例基于获取的当前环境状态和预置的动作网络，确定无人机基站的相关动作；根据相关动作，确定无人机基站的飞行路径和无人机基站分配给各个用户的带宽。这种将深度强化学习用于无人机基站路径规划和带宽资源分配的方法，为用户提供了较好的通信服务，计算复杂度低，并且即使用户是移动的，无人机基站也能通过调整飞行路径很好地处理用户移动等问题。

进一步地，在上述方法实施例的基础上，所述当前环境状态至少包括：所述各个用户的位置信息、所述无人机基站的当前位置信息、所述无人机基站的当前飞行速度、所述无人机基站的当前电池剩余电量和所述无人机基站的目标位置信息。

在本发明实施例中，所述各个用户的位置信息由用户设备搭载的GPS传感器检测得到。所述无人机基站从所述用户设备搭载的GPS传感器获取各个用户的位置信息。所述无人机基站的当前位置信息由无人机基站的GPS传感器检测得到。所述无人机基站的当前飞行速度由所述无人机基站的速度传感器检测得到。所述无人机基站的当前电池剩余电量由所述无人机基站的电量检测传感器检测得到。所述无人机基站的目标位置信息是根据实际需要预先设定好的位置信息。

在本发明实施例中，n时刻当前环境状态s(n)表达式为

其中，

是所有用户的位置信息，

是用户集合，数量为k，u(n)为无人机基站的当前位置信息，υ(n)为无人机基站的当前飞行速度，u_c为无人机基站的目标位置信息，E(n)为无人机基站的当前电池剩余电量。

在本发明实施例中，将所述各个用户的位置信息、所述无人机基站的当前位置信息、所述无人机基站的当前飞行速度、所述无人机基站的当前电池剩余电量和所述无人机基站的目标位置信息作为预置的动作网络的输入，所述预置的动作网络的输出即为所述无人机基站的相关动作。

本发明实施例基于当前环境状态和预置的动作网络，确定无人机基站的相关动作。这种将预置的动作网络应用于无人机基站的方法，为用户提供了较好的通信服务。

进一步地，在上述方法实施例的基础上，所述相关动作至少包括：所述无人机基站的飞行速度、所述无人机基站的飞行方向和所述无人机基站分配给各个用户的带宽资源比例。

在本发明实施例中，所述相关动作至少包括：所述无人机基站的飞行速度、所述无人机基站的飞行方向和所述无人机基站分配给各个用户的带宽资源比例。其中，所述各个用户的带宽资源比例为无人机基站分配给用户的带宽占总带宽的比例。

在本发明实施例中，根据所述飞行速度和所述飞行方向，确定所述无人机基站飞行路径；根据所述无人机基站分配给各个用户的带宽资源比例，确定所述无人机基站分配给所述各个用户的带宽。具体地，有了无人机基站的飞行速度和飞行方向，可以确定无人机基站的飞行路径。无人机基站会为各个用户分配相应的带宽资源比例，将各个用户的相应的带宽资源比例分别乘以总的带宽，即可得到各个用户的带宽。

本发明实施例根据相关动作，确定无人机基站的飞行路径和无人机基站分配给各个用户的带宽，为各个用户提供了高能效且公平的服务。

进一步地，在上述方法实施例的基础上，所述预置的动作网络，是以环境状态作为动作网络的输入，在评价网络对其输出进行评价的基础上，进行训练得到。

在本发明实施例中，具体地，训练所述动作网络的过程如下：

将环境状态输入所述动作网络的输入层，并复制无人机基站的电池剩余能量维度，以解决环境状态中维度不平衡问题。将环境状态输入到所述动作网络中，经过神经元个数分别为100，150，150，50的四层隐藏层网络提取特征后，再经由所述动作网络的输出层输出所述无人机基站的相关动作a(n)，其表达式为

其中，

是用户集合，υ(n+1)为无人机基站下一时刻的速度矢量，其包括飞行速度大小和飞行方向，采用球坐标系

表示；飞行速度利用Sigmoid函数进行激活，输出λ_υ∈(0，1)，激活后乘上无人机基站最大速度υ_max得到无人机基站的飞行速度，即υ＝λ_υ·υ_max；飞行方向采用球坐标系表示，其中

为极角，利用Sigmoid函数进行激活，输出

为方位角，利用Tanh函数进行激活，输出

带宽分配比例

表示无人机基站分给用户k的带宽占总带宽B的比例，利用Softmax函数进行激活，最终分配给用户k的带宽为

所述动作网络输出神经元数量为(K-1)，与一个固定的值为0的参考神经元拼接，再经由Softmax函数激活，得到

以稳定训练过程。

无人机基站执行上述相关动作，根据传感器获取下一状态s(n+1)，然后计算奖励值。奖励值的设计充分考虑用户的吞吐量，用户之间的公平，无人机基站飞行至目标位置的飞行任务，高度和速度约束。具体地，将奖励值分为三部分，公平吞吐量部分，飞行任务部分，以及约束部分。

首先，公平吞吐量部分

综合考虑吞吐量和用户之间公平性，κ_th为该部分奖励值常系数，

为当前时刻用户之间公平系数，R_c(n)为当前信道总容量，δ_t为相邻时刻时间间隔。公平系数

定义为

其中，f_k(n)为当前时刻前用户k的吞吐量占总吞吐量的比重。

其次，飞行任务部分的奖励值旨在引导无人机在电量耗尽时抵达目标位置，目标位置可以是无人机基站的充电桩。

其中，d_dis是相邻时刻无人机基站与目标位置之间的距离差，ζ_rd是无人机基站电池剩余能量分级间隔，当无人机基站电池剩余能量充裕时，该部分奖励值较小，无人机基站更集中于优化公平吞吐量，当无人机基站电池剩余能量较小时，该部分奖励值增大，无人机基站更倾向于飞向目标位置。κ_rd为常系数，用以调整缩放比例，∈_rd是用来防止分母为0的量。除此之外，飞行任务部分还需要能够体现无人机基站电池剩余能量耗尽时是否抵达目标位置。

其中，N_t表示无人机基站电池剩余能量耗尽的时间，ξ_ar为1时，表示在无人机基站电池剩余能量耗尽时，无人机基站到达目标位置，反之为0。κ_ar为正常数，用以鼓励到达目标位置，而κ_nar为负常数来惩罚未到达目标位置的情况。

最后，约束部分的奖励值用来惩罚违反违法高度，加速度约束的情况。

r_ac(n)＝ξ_{ac_υ}(n)·κ_ac；

r_al(n)＝ξ_{al_υ}(n)·κ_al；

ξ_{ac_υ}(n)是加速度约束指示器，ξ_{ac_υ}(n)为1表示前后时刻速度差超过加速度限制，反之为0。类似地，ξ_{al_υ}(n)为高度约束指示器。κ_ac和κ_al为两个负常数，用来惩罚违反约束的情况。

综上，奖励值r(n)的表达式为

r(n)＝r_th(n)+r_rd(n)+r_ar(n)+r_ac(n)+r_al(n)

将产生的经验(s，a，r，s′)存入记忆库中。当记忆库中的经验足够多后，开始随机抽取小批量经验对评价网络和动作网络进行更新。

需要说明的是，评价网络与动作网络隐藏层结构一致，即神经元数量分别为100，150，100，50的四层隐藏层网络。输入层输入环境状态以及相关动作，经由隐藏层提取特征后，再由输出层输出对于该状态下选择该动作的评价。

需要说明的是，网络分为动作网络和评价网络两种，并且动作网络和评价网络均含有对应的目标网络。动作网络输入环境状态，输出无人机基站的相关动作，即π(s；θ^π)，网络权重为θ^π；评价网络输入环境状态以及相关动作，输出对于该状态下选择该动作的评价，即Q(s；a；θ^Q)，网络权重为θ^Q。动作目标网络和评价目标网络，π′(s；θ^π′)和Q′(s；a；θ^Q′)，是为了减少训练时数据之间的相关性以提高训练稳定性。其网络结构与其对应原网络一致，网络权重分别为θ^π′和θ^Q′，其初始化权重与原网络一致。当记忆库中经验存满后，从中随机抽取N_b条经验(s(i)；a(i)；r(i)；s(i+1))用于训练。首先利用自举法计算评价网络更新目标网络

y_t(i)＝r(i)+γQ′(s(i+1)；π′(s(i+1)；θ^π′)；θ^Q′)

对于评价网络来说，其损失函数为均方误差函数，具体为

利用Adam算法对损失函数进行优化，不断改进评价网络权重。动作网络的损失函数计算依赖于评价网络，利用策略梯度方法计算动作网络的更新梯度，其基础损失函数为

动作网络的输出层由于应用了Sigmoid和Tanh函数激活，会面临饱和问题，导致梯度消失。因此，在训练所述动作网络过程中，在所述动作网络损失函数中添加激活前神经元值大于预设阈值的损失，具体为

其中，κ_υ,

为损失系数，用以平衡各类损失之间的关系。χ_υ,

分别为λ_υ，

激活前的值，即

也就是说，在训练所述动作网络过程中，在所述动作网络中添加激活前惩罚机制。动作网络也利用Adam算法对损失函数进行优化，不断改进动作网络权重。再对动作目标网络和评价目标网络进行软更新，即

θ^Q′＝τθ^Q+(1-τ)θ^Q′

θ^π′＝τθ^π+(1-τ)θ^π′

其中，τ为软更新系数。

经过充足的训练后，单次任务累积奖励值不再有明显增加，则停止训练。训练好的动作网络，即预置的动作网络，可直接应用于无人机基站平台，给用户提供高能效且公平的服务，而评价网络只在训练阶段有效，实际部署并不需要。

本发明实施例通过对动作网络进行训练，将深度强化学习应用于无人机基站路径规划和带宽资源分配，为用户提供了较好的通信服务。

进一步地，在上述方法实施例的基础上，所述无人机基站路径规划和带宽资源分配方法还包括：

在本发明实施例中，若所述无人机基站的电池剩余能量维度较小，则可能被其他维度淹没。因此，在训练所述动作网络之前，先复制无人机基站的电池剩余能量维度，直到所述无人机基站的电池剩余能量维度多于所述预设能量维度阈值，从而防止了所述无人机基站的电池剩余能量维度被其他维度淹没。

本发明实施例通过在训练动作网络之前，复制无人机基站的电池剩余能量维度，使网络重视剩余能量信息，保证了在无人机基站电池剩余能量消耗前飞到终点。

在本发明实施例中，为稳定训练过程，在训练所述动作网络过程中，将所述动作网络的前K-1个输出神经元与一个固定的值为0的参考神经元进行拼接；其中，K为所述动作网络的输出神经元的个数。

本发明实施例通过将所述动作网络的前K-1个输出神经元与一个固定的值为0的参考神经元进行拼接，稳定了动作网络训练过程。

其中，κ_υ,

为损失系数，χ_υ,

分别为λ_υ；

激活前的值，

在本发明实施例中，为避免无人机基站乱飞以及提供较差的通信服务，在训练所述动作网络过程中，在所述动作网络的损失函数中添加激活前神经元值大于预设阈值的损失，具体为

其中，κ_υ,

为损失系数，χ_υ,

分别为λ_υ；

激活前的值，

也就是说，在训练所述动作网络过程中，添加激活前惩罚机制。

本发明实施例通过添加激活前惩罚机制，避免了无人机基站乱飞，为用户提供了较好的通信服务。

图2示出了本实施例提供的一种无人机基站路径规划和带宽资源分配装置的结构示意图，所述装置包括：状态获取模块21、动作确定模块22及路径和带宽确定模块23；

所述状态获取模块21，用于获取当前环境状态；

所述动作确定模块22，用于基于所述当前环境状态和预置的动作网络，确定无人机基站的相关动作；

所述路径和带宽确定模块23，用于根据所述相关动作，确定所述无人机基站的飞行路径和所述无人机基站分配给各个用户的带宽。

进一步地，在上述装置实施例的基础上，所述当前环境状态至少包括：所述各个用户的位置信息、所述无人机基站的当前位置信息、所述无人机基站的当前飞行速度、所述无人机基站的当前电池剩余电量和所述无人机基站的目标位置信息。

所述动作确定模块22，具体用于：

进一步地，在上述装置实施例的基础上，所述相关动作至少包括：所述无人机基站的飞行速度、所述无人机基站的飞行方向和所述无人机基站分配给各个用户的带宽资源比例。

所述路径和带宽确定模块23，具体用于：

进一步地，在上述装置实施例的基础上，所述预置的动作网络，是以环境状态作为动作网络的输入，在评价网络对其输出进行评价的基础上，进行训练得到。

进一步地，在上述装置实施例的基础上，所述无人机基站路径规划和带宽资源分配装置还包括：复制模块；

进一步地，在上述装置实施例的基础上，所述无人机基站路径规划和带宽资源分配装置还包括：拼接模块；

进一步地，在上述装置实施例的基础上，所述无人机基站路径规划和带宽资源分配装置还包括：添加模块；

其中，κ_υ,

为损失系数，χ_υ,

分别为λ_υ；

激活前的值，

本实施例所述的无人机基站路径规划和带宽资源分配装置可以用于执行上述方法实施例，其原理和技术效果类似，此处不再赘述。

参照图3，所述电子设备，包括：处理器(processor)31、存储器(memory)32和总线33；

其中，

所述处理器31和存储器32通过所述总线33完成相互间的通信；

所述处理器31用于调用所述存储器32中的程序指令，以执行上述各方法实施例所提供的方法。

本实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述各方法实施例所提供的方法。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种无人机基站路径规划和带宽资源分配方法，其特征在于，包括：

获取当前环境状态；

根据所述相关动作，确定所述无人机基站的飞行路径和所述无人机基站分配给各个用户的带宽；

所述当前环境状态至少包括：所述各个用户的位置信息、所述无人机基站的当前位置信息、所述无人机基站的当前飞行速度、所述无人机基站的当前电池剩余电量和所述无人机基站的目标位置信息；

将所述各个用户的位置信息、所述无人机基站的当前位置信息、所述无人机基站的当前飞行速度、所述无人机基站的当前电池剩余电量和所述无人机基站的目标位置信息输入预置的动作网络中，得到所述无人机基站的相关动作；

所述无人机基站路径规划和带宽资源分配方法还包括：

2.根据权利要求1所述的无人机基站路径规划和带宽资源分配方法，其特征在于，所述相关动作至少包括：所述无人机基站的飞行速度、所述无人机基站的飞行方向和所述无人机基站分配给各个用户的带宽资源比例；

3.根据权利要求1所述的无人机基站路径规划和带宽资源分配方法，其特征在于，所述预置的动作网络，是以环境状态作为动作网络的输入，在评价网络对其输出进行评价的基础上，进行训练得到。

4.根据权利要求3所述的无人机基站路径规划和带宽资源分配方法，其特征在于，所述无人机基站路径规划和带宽资源分配方法还包括：

5.根据权利要求3所述的无人机基站路径规划和带宽资源分配方法，其特征在于，所述无人机基站路径规划和带宽资源分配方法还包括：

其中，

为网络权重，

，

，

为损失系数，

，

，

分别为

，

，

激活前的值，

，

，

。

6.一种无人机基站路径规划和带宽资源分配装置，其特征在于，包括：状态获取模块、动作确定模块及路径和带宽确定模块；

所述状态获取模块，用于获取当前环境状态；所述当前环境状态至少包括：各个用户的位置信息、所述无人机基站的当前位置信息、所述无人机基站的当前飞行速度、所述无人机基站的当前电池剩余电量和所述无人机基站的目标位置信息；

所述动作确定模块，用于基于所述当前环境状态和预置的动作网络，确定无人机基站的相关动作；所述基于所述当前环境状态和预置的动作网络，确定无人机基站的相关动作，包括：

在训练所述动作网络之前，复制所述无人机基站的电池剩余能量维度，直到所述无人机基站的电池剩余能量维度多于预设能量维度阈值；

7.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5任一所述的无人机基站路径规划和带宽资源分配方法。

8.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至5任一所述的无人机基站路径规划和带宽资源分配方法。