CN114142912A

CN114142912A - 高动态空中网络时间覆盖连续性保障的资源管控方法

Info

Publication number: CN114142912A
Application number: CN202111424225.6A
Authority: CN
Inventors: 盛敏; 周城毅; 刘俊宇; 李建东; 史琰; 郑阳; 王伟; 文娟; 骆文磊
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2021-11-26
Filing date: 2021-11-26
Publication date: 2022-03-04
Anticipated expiration: 2041-11-26
Also published as: CN114142912B

Abstract

本发明公开了一种高动态空中网络时间覆盖连续性保障的资源管控方法，主要解决现有技术无法在高动态空中无线环境下保障时间覆盖连续性的问题。其实现方案是：在m个无人机上均搭载控制器和信号收发台，构成m个空中基站和一个中心节点；根据地面用户的覆盖需求为各个无人机设定飞行轨迹；中心节点通过深度强化学习训练获得子信道分配网络和功率分配网络；当覆盖需求发生变化时，将训练后的这两个网络参数分别迁移至新飞行轨迹下的子信道分配网络和功率分配网络；中心节点向各个空中基站部署已迁移后的两个网络；各空中基站将自身的这子信道和功率分配给地面用户。本发明能保障高动态空中网络的时间覆盖连续性，可用于高动态空中无线通信网络。

Description

高动态空中网络时间覆盖连续性保障的资源管控方法

技术领域

本发明属于无人机技术领域，更进一步涉及一种资源管控方法，可用于高动态空中网络下保障用户通信覆盖的时间连续性。

背景技术

利用空中基站对地面用户提供空时连续的覆盖是高动态空中无线通信网络中的关键技术。然而由于空中无线网络是具有高动态性的，使空地信道具有时变性，进而造成了信道状态信息不完整和过时，从而导致空中基站对地的覆盖在时间维度上的不连续性。在这种情况下，如何保障高动态空中无线网络中覆盖的时间连续性，对空中基站在6G网络中的实际应用具有重要意义。

湖北工业大学在其申请号202011079226.7的专利申请文献中公布了一种基于深度强化学习的无人机轨迹及功率联合优化方法。该方法首先建立无人机系统模型，对无人机轨迹控制和功率分配问题进行描述；再建立马尔可夫模型，包括通过设置状态、动作空间和奖励函数，确定马尔可夫决策过程；然后采用深度确定性策略梯度方法，实现轨迹控制和功率分配的联合优化。但是该方法需要实时的信道状态信息，无法适用面对高动态空中网络的过时信道状态信息。

南京航空航天大学在《China communication，vol.16,no.1,pp.47–56,Feb.2019.(中国通信期刊，2019年2月，第16期，第1卷，第47-56页)》上发表题为“Joint Subcarrierand Power Allocation for Multi-UAV Systems，即“多无人机系统的联合子载波和功率分配”一文，该文研究了多无人机正交频分复用技术OFDM系统中的子载波和功率分配。考虑了一种由于突发传输的预分配和某些子载波不可用于动态子载波分配的情况，首先提出了一种新颖的迭代算法来联合优化子载波和功率分配，从而最大化多无人机OFDM系统中上行链路传输的总速率；再将分配问题转化为加权均方误差问题；然后通过交替优化方法解决联合子信道和功率分配的问题。但是该方法的计算需要耗费大量时间，由于高动态空中网络下通信的实时性较强，较多的计算时间会导致信道状态信息过时的问题更加严重，导致资源管控速度慢。

此外，上述两种方法均无法保障高动态空中网络下用户通信覆盖的时间连续性。

发明内容

本发明的目的在于针对上述现有技术的不足，提出一种高动态空中网络下保障时间覆盖连续性的资源管控方法，以提升资源管控的速度，缓解过时信道状态信息对空中网络通信的影响，保障高动态空中网络下用户通信覆盖的时间连续性。

实现本发明目的的技术方案是：采用两步式的深度强化学习方法，即通过为地面用户先分配子信道，再通过功率来保障地面用户通信覆盖时间的连续性，并在设计深度强化学习的奖励函数时，通过考虑信道的时间相关性，以缓解过时的信道状态信息的影响。同时，通过设计能根据网络覆盖需求进行自适应调整神经网络层数和每层神经元个数的神经网络结构，以保障在网络覆盖需求变化时的通用性，并提升资源管控速度和精度。其具体实现包括如下：

(1)在m个无人机上均搭载控制器和信号收发台，构成m个空中基站，并调试飞行；

(2)在一个无人机上安装处理器、控制器和信号收发台，构成一个中心节点，并调试中心节点与m个空中基站相互通信；

(3)根据地面用户的覆盖需求为各个空中基站设置飞行轨迹；

(4)初始化各个空中基站的当前状态矩阵s^t、当前动作矩阵a^t、子信道分配的深度Q网络CDQN的参数和功率分配的深度Q网络PDQN的结构和参数，其中t表示当前时刻，设置最大学习次数λ，并设置当前学习次数为0；

(5)中心节点利用各个空中基站的状态矩阵s进行深度强化学习：

(5a)各个空中基站根据信道状态信息和用户与空中基站的相对距离获取当前状态矩阵s^t，并向中心节点传输获取的当前状态矩阵s^t；

(5b)中心节点的根据各个空中基站的当前状态矩阵s^t、子信道分配的深度Q网络CDQN和功率分配的深度Q网络PDQN，采用ε-greedy策略依次选择下一步子信道分配动作和功率分配动作；

(5c)中心节点将选择各个空中基站的信道分配动作和功率分配动作组成当前动作矩阵a^t发送给各个空中基站，各个空中基站进行相应的子信道分配和功率分配；

(5d)中心节点设定覆盖服务质量奖励函数，并根据覆盖服务质量奖励函数以及各个空中基站的当前动作矩阵a^t，获得各个空中基站的覆盖服务质量r^t反馈；

(6)中心节点结合各个空中基站的覆盖服务质量r^t反馈进行深度强化学习训练：

(6a)中心节点将各个空中基站的每一时刻的状态矩阵s^t，动作矩阵a^t，覆盖服务质量r^t和下一时刻的状态矩阵s^t+1组成元组<s^t,a^t,r^t,s^t+1>存储到存储器中，其中t∈[1,....,T]，T为最大时刻；

(6b)中心节点随机抽取存储器中的n个元组，并利用n个元组和自适应的动量估计算法更新各个空中基站的子信道分配的深度Q网络CDQN和功率分配的深度Q网络PDQN；

(6c)中心节点判断各个空中基站的覆盖服务质量奖励函数是否满足收敛，若是，本轮学习结束，当前学习次数加1，执行(6d)；否则，返回(5)；

(6d)中心节点判断当前学习次数是否达到最大学习次数：若是，则完成深度强化学习对各个空中基站子信道分配的深度Q网络CDQN和功率分配的深度Q网络PDQN的训练，执行(7)；否则，返回(4)；

(7)中心节点向各个空中基站部署已训练完的子信道分配的深度Q网络CDQN和功率分配的深度Q网络PDQN：

(7a)中心节点根据地面用户的实际覆盖需求重新设置各个空中基站的飞行参数；

(7b)中心节点判断各个空中基站用当前重新设置的飞行参数是否与已完成子信道分配的深度Q网络CDQN和功率分配的深度Q网络PDQN训练后的各个空中基站采用的飞行参数相同：若是，则执行(7d)；否则，执行(7c)；

(7c)中心节点利用新的飞行参数下各个空中基站的前h个时刻的状态矩阵s^t和迁移学习算法，将已完成训练的子信道分配深度Q网络CDQN和功率分配深度Q网络PDQN中的部分参数迁移到重新设置的飞行参数下的子信道分配深度Q网络CDQN_n和功率分配深度Q网络PDQN_n中，完成重新设置的飞行参数下的子信道分配深度Q网络CDQN_n和功率分配深度Q网络PDQN_n的迁移，其中h＜＜T；

(7d)中心节点将在新的飞行参数下已完成迁移的各空中基站的子信道分配的深度Q网络CDQN_n和功率分配的深度Q网络PDQN_n下发到各个空中基站；

(8)各空中基站将自身的当前状态矩阵s^t输入到中心节点下发的子信道分配深度Q网络CDQN和功率分配深度Q网络PDQN中，该子信道分配深度Q网络CDQN及功率分配深度Q网络PDQN的输出即为子信道分配方案和功率分配方案，各个空中基站按照此方案将自身的子信道和功率分配给地面用户。

与现有技术相比，本发明具有以下优点：

第一，本发明通过对覆盖服务质量奖励函数的设计，考虑到空中基站需要为地面用户提供在具有时间连续性的通信服务和空中基站需要为地面用户提供高速通信服务这两方因素，解决了现有技术无法保障高动态空中网络覆盖的时间连续性的问题；

第二，本发明由于设计了子信道分配深度Q网络结构和功率分配深度Q网络结构，可以根据地面用户的覆盖需求变化自适应的调整神经网络结构，在不同地面用户网络覆盖需求下能够通用，且减小了联合子信道和功率分配所消耗的时间，提高了资源管控计算速度和精度，进而保障了空中网络覆盖的时间连续性；

第三，本发明由于使用了迁移学习算法，将旧飞行参数下的已训练完成的子信道分配深度Q网络和功率分配深度Q网络的参数分别迁移至新飞行参数下的子信道分配深度Q网络和功率分配深度Q网络，减小了在地面用户的覆盖需求变化时重新训练子信道分配深度Q网络和功率分配深度Q网络的耗时，提高了训练速度，进一步提升了资源管控的速度。

附图说明

图1是本发明的实现流程图。

具体实施方式

下面结合附图对本发明的实施例作进一步的详细描述。

参照图1，本实例的实现步骤如下：

步骤1，构建空中基站，并调试飞行。

本实例空中基站设为m个，每个空中基站是通过在无人机上搭载控制器和信号收发台形成，m≥2。

所述无人机包括机翼固定的固定翼无人机和机翼旋转的旋翼无人机，本实例使用的是固定翼无人机，其包括机身主体、动力装置、电源装置，存储装置及处理器；

所述控制器，安装在无人机的机身，用于控制无人机的飞行轨迹；

所述收发台，包括天线和通信模块，用于对地面用户提供通信服务，该天线安装在无人机底部，朝向地面，以形成覆盖地面用户的波束，增强用户的接收信号强度；

通过调试控制器使空中基站能够按设定的飞行参数飞行。

步骤2，构建中心节点，并调试中心节点与空中基站相互通信。

本实例中心节点设为一个，其通过是在另一架无人机上安装处理器、控制器和信号收发台形成。

该无人机和控制器均与步骤1中所使用的相同；

所述处理器，用于对各个空中基站的子信道分配深度Q网络和功率分配深度Q网络进行训练；

所述收发台，包括天线和通信模块，用以对各个空中基站提供通信服务，该天线安装在无人机侧面，以形成覆盖其他空中基站的波束，增强空中基站的接收信号强度；

通过调试收发台使中心节点能够与各个空中基站的相互通信，即形成一对多的通信网络。

步骤3，中心节点设定各个空中基站的飞行轨迹；

根据地面用户的覆盖需求设定飞行参数并存储在无人机存储装置中，该参数包括空中基站的飞行方向、飞行高度和飞行速度，空中基站按照无人机存储装置中的飞行参数生成所述飞行轨迹。

步骤4，中心节点初始化各个空中基站的参数。

中心节点初始化空中基站参数，包括初始化各个空中基站的当前状态矩阵s^t、当前动作矩阵a^t、子信道分配的深度Q网络CDQN的参数和功率分配的深度Q网络PDQN的结构和参数，其中t表示当前时刻，设置最大学习次数λ，并设置当前学习次数为0；

所述当前状态矩阵s^t、动作矩阵a^t，分别表示如下：

s^t＝[CSI^t,L^t]，

a^t＝[ca^t,pa^t]，

其中，CSI^t表示信道状态信息，L^t表示用户与空中基站的相对距离，ca^t表示子信道分配动作，pa^t表示功率分配动作，s^t和a^t分别表示当前时刻t的状态矩阵和动作矩阵；

所述子信道分配的深度Q网络CDQN的参数和功率分配的深度Q网络PDQN的结构，其均由三个子网和一个比较器组成，其中三个子网的神经网络层数依次递减，即第一个子网的神经网络层数最多，第二个子网的神经网络层数次之，第三个子网的神经网络层数最少，比较器用于将各子网的输出分别与最大信干噪比算法的输出进行对比。

所述最大学习次数是根据场景规模设置，并将当前学习次数设置为0。

步骤5,中心节点开始深度强化学习。

5.1)各个空中基站根据信道状态信息和用户与空中基站的相对距离获取当前状态矩阵s^t，并向中心节点传输获取的当前状态矩阵s^t，空中基站的状态矩阵包括当前的信道状态信息和用户与空中基站的相对距离；

5.2)中心节点根据各个空中基站的当前状态矩阵s^t、子信道分配的深度Q网络CDQN和功率分配的深度Q网络PDQN，采用ε-greedy策略依次选择下一步子信道分配动作和功率分配动作：

5.2.1)中心节点设定概率ε∈[0,1]，并生成随机数x∈[0,1]，判断x是否大于ε：若x≤ε，则执行5.2.2)，否则，执行5.2.3)；

5.2.2)中心节点利用空中基站的当前状态矩阵s^t计算不同的子信道分配动作和功率分配动作下覆盖服务质量r^t，然后选择能获得最大覆盖服务质量r^t的子信道分配动作和功率分配动作作为当前执行的子信道分配动作和执行功率分配动作，如果存在多个子信道分配动作和功率分配动作都能获得覆盖服务质量r^t，则从这些动作中随机选择一个子信道分配动作和功率分配动作作为当前执行的子信道分配动作和执行功率分配动作；

5.2.3)在子信道分配动作空间和功率分配动作空间中随机选择一个子信道分配动作和功率分配动作作为当前执行的子信道分配动作和执行功率分配动作；

5.3)中心节点将选择各个空中基站的信道分配动作和功率分配动作组成当前动作矩阵a^t发送给各个空中基站，各个空中基站进行相应的子信道分配和功率分配；

5.4)中心节点设定覆盖服务质量奖励函数:

所述奖励函数的设计考虑到空中基站需要为地面用户提供在具有时间连续性的通信服务和空中基站需要为地面用户提供高速通信服务这两方因素，设计如下：

5.4.1)根据第t个时刻连接第n个空中基站的第i个用户的吞吐量

和子信道的带宽B_w分别计算连续T时间内空中基站的频谱效率S^T及用户吞吐量的方差V^T：

其中I表示连接第n个空中基站的用户总数，N表示空中基站的总数，VAR()，表示方差计算公式；

5.4.2)利用连续T时间内空中基站的频谱效率S^T及用户吞吐量的方差V^T得到覆盖服务质量奖励函数r^T：

r^T＝S^T-V^T；

5.5)中心节点根据覆盖服务质量奖励函数以及各个空中基站的当前动作矩阵a^t，获得各个空中基站的第t时刻的覆盖服务质量r^t反馈。

步骤6，中心节点进行深度强化学习训练。

6.1)中心节点将各个空中基站的每一时刻的状态矩阵s^t，动作矩阵a^t，覆盖服务质量r^t和下一时刻的状态矩阵s^t+1组成元组<s^t,a^t,r^t,s^t+1>存储到存储器中，并随机抽取存储器中的k个元组，其中t∈[1,....,T]，T为最大时刻；

6.2)，中心节点利用抽取的k个元组和自适应的动量估计算法更新各个空中基站的子信道分配的深度Q网络CDQN和功率分配的深度Q网络PDQN：

6.2.1)中心节点将空中基站的当前状态矩阵s^t分别输入到子信道分配的深度Q网络CDQN和功率分配的深度Q网络PDQN，这两个网络的输出分别为子信道分配动作ca^t和功率分配动作pa^t，将其组成动作矩阵a^t＝[ca^t,pa^t]；

6.2.2)中心节点根据各个空中基站的当前动作矩阵a^t＝[ca^t,pa^t]和覆盖服务质量奖励函数r^T，计算得到各个空中基站的当前的覆盖服务质量r^t：

r^t＝S^t-V^t，

6.2.3)中心节点将当前动作矩阵a^t下发到各个空中基站，各个空中基站根据当前动作矩阵a^t执行相应的子信道分配动作和功率分配动作后飞到下一个位置，并将自身状态信息s^t+1传送给中心节点；

6.2.4)中心节点将上述当前状态矩阵s^t、当前动作矩阵a^t、当前的覆盖服务质量r^t和下一时刻的状态矩阵s^t+1组成元组e^t＝<s^t,a^t,r^t,s^t+1>存储在存储器中，再从存储器中随机抽取k个元组，利用这些元组计算子信道分配深度Q网络CDQN的目标Q值

其中，Q(s^t,ca^t；θ_c′)是子信道分配的深度Q网络CDQN中的目标Q网络，θ_c′是子信道分配的目标Q网络的参数，A₁是子信道可选择的动作空间，γ是折扣因子；

6.2.5)中心节点根据目标的Q值

通过子信道分配深度Q网络CDQN的损失函数计算子信道分配深度Q网络CDQN的Q值的损失值L(θ_c)：

其中，Q(s^t,ca^t；θ_c)表示子信道分配的深度Q网络CDQN中的在线Q网络，θ_c是子信道分配的在线Q网络的参数；

6.2.6)中心节点对子信道分配深度Q网络CDQN的Q值的损失值进行最小化，得到子信道分配的深度Q网络CDQN中的参数θ_c，完成子信道分配的深度Q网络CDQN的一次训练；

6.2.7)按照6.2.4)-6.2.5)的过程，中心节点对功率分配深度Q网络PDQN的Q值的损失值进行最小化，得到功率分配的深度Q网络PDQN中的参数θ_p，完成功率分配的深度Q网络PDQN的一次训练；

6.3)中心节点判断各个空中基站的覆盖服务质量奖励函数是否满足收敛：若是，本轮学习结束，当前学习次数加1，执行6.4)；否则，返回步骤5；

6.4)中心节点判断当前学习次数是否达到最大学习次数：若是，则完成深度强化学习对各个空中基站子信道分配的深度Q网络CDQN和功率分配的深度Q网络PDQN的训练，执行步骤7；否则，返回步骤4。

步骤7，中心节点向各个空中基站部署已训练完的子信道分配的深度Q网络CDQN和功率分配的深度Q网络PDQN。

7.1)中心节点根据地面用户的实际覆盖需求重新设置各个空中基站的飞行参数；

7.2)中心节点判断当前各个基站重新设置的飞行参数是否与已训练完子信道分配的深度Q网络CDQN和功率分配的深度Q网络PDQN的各个空中基站所采用的飞行参数相同：若是，则执行7.4)；否则，执行7.3)；

7.3)中心节点利用新的飞行参数下各个空中基站的前h个时刻的状态矩阵s^t和迁移学习算法，将已完成训练的子信道分配深度Q网络CDQN和功率分配深度Q网络PDQN中的部分参数迁移到重新设置的飞行参数下的子信道分配深度Q网络CDQN_n和功率分配深度Q网络PDQN_n中，h＜＜T，其实现如下：

7.3.1)中心节点将已完成训练的子信道分配深度Q网络CDQN中的前k层神经网络参数θ_c复制到新飞行参数下各个空中基站的子信道分配深度Q网络CDQN_n的参数θ_nc中；

7.3.2)中心节点利用新飞行参数下各个空中基站的前h个时刻的状态矩阵s^t微调新飞行参数下的子信道分配深度Q网络CDQN_n剩余层神经网络，得到新飞行参数下的子信道分配的深度Q网络CDQN_n中参数θ_nc，完成子信道分配的深度Q网络CDQN_n的迁移；

7.3.3)中心节点将已完成训练的功率分配深度Q网络PDQN中的前k层神经网络参数θ_p复制到新飞行参数下各个空中基站的功率分配深度Q网络PDQN_n的参数θ_np中；

7.3.4)中心节点利用新飞行参数下各个空中基站的前h个时刻的状态矩阵s^t微调新飞行参数下的功率分配深度Q网络PDQN_n剩余层神经网络，得到新飞行参数下的功率分配的深度Q网络PDQN_n中参数θ_np，完成功率分配的深度Q网络PDQN_n的迁移；

7.4)中心节点将在新的飞行参数下已完成迁移的各空中基站的子信道分配的深度Q网络CDQN_n和功率分配的深度Q网络PDQN_n下发到各个空中基站。

步骤8，各空中基站将自身的当前状态矩阵s^t输入到中心节点下发的子信道分配深度Q网络CDQN_n和功率分配深度Q网络PDQN_n中，该子信道分配深度Q网络CDQN_n及功率分配深度Q网络PDQN_n的输出即为子信道分配方案和功率分配方案，各个空中基站按照此方案将自身的子信道和功率分配给地面用户。

以上描述仅是本发明的一个具体实例，并未构成对本发明的任何限制，显然对于本领域的专业人员来说，在了解了本发明内容和原理后，都可能在不背离本发明原理、结构的情况下，进行形式和细节上的各种修改和改变，但是这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围之内。

Claims

1.一种高动态空中网络时间覆盖连续性保障的资源管控方法，其特征在于，包括：

(3)根据地面用户的覆盖需求为各个空中基站设置飞行轨迹；

(6b)中心节点随机抽取存储器中的k个元组，并利用k个元组和自适应的动量估计算法更新各个空中基站的子信道分配的深度Q网络CDQN和功率分配的深度Q网络PDQN；

(7b)中心节点判断各个空中基站用当前重新设置的飞行参数是否与已完成子信道分配的深度Q网络CDQN和功率分配的深度Q网络PDQN训练后各个空中基站采用的飞行参数相同：若是，则执行(7d)；否则，执行(7c)；

2.根据权利要求1所述的方法，其特征在于，(4)中初始化的当前状态矩阵s^t、动作矩阵a^t，分别表示如下：

s^t＝[CSI^t,L^t]，

a^t＝[ca^t,pa^t]，

其中，CSI^t表示信道状态信息，L^t表示用户与空中基站的相对距离，ca^t表示子信道分配动作，pa^t表示功率分配动作，s^t和a^t分别表示当前时刻t的状态矩阵和动作矩阵。

3.根据权利要求1所述的方法，其特征在于，(4)中设置子信道分配的深度Q网络CDQN的参数和功率分配的深度Q网络PDQN的结构，其均由三个子网和一个比较器组成，其中三个子网的神经网络层数依次由多到少，比较器用于将各子网的输出分别与最大信干噪比算法的输出进行对比。

4.根据权利要求1所述的方法，其特征在于，(5b)中采用ε-greedy策略依次选择下一步子信道分配动作和功率分配动作，实现如下：

(5b1)中心节点设定概率ε∈[0,1]，并生成随机数x∈[0,1]，判断x是否大于ε：若x≤ε，则执行(5b2)，否则，执行(5b3)；

(5b2)中心节点利用空中基站的当前状态矩阵s^t计算不同的子信道分配动作和功率分配动作下覆盖服务质量r^t，然后选择能获得最大覆盖服务质量r^t的子信道分配动作和功率分配动作作为当前执行的子信道分配动作和执行功率分配动作，如果存在多个子信道分配动作和功率分配动作都能获得覆盖服务质量r^t，则从这些动作中随机选择一个子信道分配动作和功率分配动作作为当前执行的子信道分配动作和执行功率分配动作；

(5b3)在子信道分配动作空间和功率分配动作空间中随机选择一个子信道分配动作和功率分配动作作为当前执行的子信道分配动作和执行功率分配动作。

5.根据权利要求1所述的方法，其特征在于，(5d)中所述的覆盖服务质量奖励函数，是考虑到空中基站需要为地面用户提供在具有时间连续性的通信服务和空中基站需要为地面用户提供高速通信服务这两方因素，设计如下：

r^T＝S^T-V^T

其中，

表示连续T时间内空中基站的频谱效率，

表示连续T时间内的用户吞吐量的方差，其中Bw表示子信道的带宽，

表示第t个时刻连接第n个空中基站的第i个用户的吞吐量，VAR(),表示方差计算公式。

6.根据权利要求1所述的方法，其特征在于，(6b)中利用k个元组和自适应的动量估计算法更新各个空中基站的子信道分配的深度Q网络CDQN和功率分配的深度Q网络PDQN，实现如下：

(6b1)中心节点将空中基站的当前状态矩阵s^t分别输入到子信道分配的深度Q网络CDQN和功率分配的深度Q网络PDQN，这两个网络的输出分别为子信道分配动作ca^t和功率分配动作pa^t，将其组成动作矩阵a^t＝[ca^t,pa^t]；再根据各个空中基站的当前动作矩阵a^t和覆盖服务质量奖励函数，计算得到各个空中基站的覆盖服务质量r^t，并将当前动作矩阵a^t下发到各个空中基站；

(6b2)各个空中基站根据a^t执行相应的子信道分配动作和功率分配动作后飞到下一个位置，并将自身状态信息s^t+1传送给中心节点；

(6b3)中心节点将s^t、a^t、r^t和s^t+1组成元组e^t＝<s^t,a^t,r^t,s^t+1>存储在存储器中，再从存储器中随机抽取k个元组，利用其计算子信道分配深度Q网络CDQN的目标Q值

其中，Q(s^t,ca^t；θ′_c)是子信道分配的深度Q网络CDQN中的目标Q网络，θ′_c是子信道分配的目标Q网络的参数，A₁是子信道可选择的动作空间，γ是折扣因子；

(6b4)中心节点根据目标的Q值

(6b5)中心节点对子信道分配深度Q网络CDQN的Q值的损失值进行最小化，得到子信道分配的深度Q网络CDQN中的参数θ_c，完成子信道分配的深度Q网络CDQN的训练；

(6b6)按照(6b3)-(6b4)的过程，中心节点对功率分配深度Q网络PDQN的Q值的损失值进行最小化，得到功率分配的深度Q网络PDQN中的参数θ_p，完成功率分配的深度Q网络PDQN的训练。

7.根据权利要求1所述的方法，其特征在于，(7c)所述中心节点利用新的飞行参数下各个空中基站的前h个时刻的状态矩阵s^t和迁移学习算法将已完成训练的子信道分配深度Q网络CDQN和功率分配深度Q网络PDQN中的部分参数迁移到重新设置的飞行参数下的子信道分配深度Q网络CDQN_n和功率分配深度Q网络PDQN_n中，实现如下：

(7c1)中心节点将已完成训练的子信道分配深度Q网络CDQN中的前k层神经网络参数θ_c复制到新飞行参数下各个空中基站的子信道分配深度Q网络CDQN_n的参数θ_nc中；

(7c2)中心节点利用新飞行参数下各个空中基站的前h个时刻的状态矩阵s^t微调新飞行参数下的子信道分配深度Q网络CDQN_n剩余层神经网络，得到新飞行参数下的子信道分配的深度Q网络CDQN_n中参数θ_nc，完成子信道分配的深度Q网络φ_n的迁移；

(7c3)中心节点将已完成训练的功率分配深度Q网络PDQN中的前k层神经网络参数θ_p复制到新飞行参数下各个空中基站的功率分配深度Q网络PDQN_n的参数θ_np中；

(7c4)中心节点利用新飞行参数下各个空中基站的前h个时刻的状态矩阵s^t微调新飞行参数下的功率分配深度Q网络PDQN_n剩余层神经网络，得到新飞行参数下的功率分配的深度Q网络PDQN_n中参数θ_np，完成功率分配的深度Q网络PDQN_n的迁移。