CN112584347A

CN112584347A - Uav异构网络多维资源动态管理方法

Info

Publication number: CN112584347A
Application number: CN202011043077.9A
Authority: CN
Inventors: 乔冠华; 吴麒; 王翔
Original assignee: Southwest Electronic Technology Institute No 10 Institute of Cetc
Current assignee: Southwest Electronic Technology Institute No 10 Institute of Cetc
Priority date: 2020-09-28
Filing date: 2020-09-28
Publication date: 2021-03-30
Anticipated expiration: 2040-09-28
Also published as: CN112584347B

Abstract

本发明公开的UAV异构网络多维资源动态管理方法，旨在提供一种能够降低计算复杂度、提升学习模型泛化性的网络管理策略的方法。本发明通过下述技术方案予以实现：统一的联邦学习架构由地面基站集中汇聚层和UAV分布式执行层组成，地面基站计算平台基于任意UAV异构网络场景构建多智能体增强学习模型并初始化模型参数；分布式执行层利用多智能体增强学习算法输出多维资源管理行为，获得网络环境对智能体行为的奖励和状态转移反馈，同时将模型参数上传至与其关联的本地基站。地面基站通过交互获得所有局部模型参数并将更新后的参数下发至每个UAV学习模型。根据算法停止条件，统一联邦学习框架输出能够使局部和全局性能达到折中优化的模型参数。

Description

UAV异构网络多维资源动态管理方法

技术领域

本发明涉及一种无人机异构网络多维资源动态管理方法。

背景技术

随着无人机自主性和通信技术的快速发展，无人机(Unmanned Aerial Vehicle，UAV)组网越来越广泛地应用于多样化的民用、商用和军用场景中，如环境监测、边界监视、目标跟踪、紧急救援、精准打击等应用。针对无人机的快速部署和广阔覆盖能力，UAV异构网络融合了5G蜂窝网络和点对点通信网络的优点，即可以采用以地面基础设施为中继的U2I(UAV-to-Infrastructure)传输模式，又能够灵活地将视距范围内的UAV以链路直通的方式U2U(UAV-to-UAV)进行数据传输。针对高动态和复杂的空中网络环境，无人机群组网需要具备更加灵活和可靠的特点，不仅要在物理层拥有高速可靠的数据传输能力，而且也需要设计出适应高速移动、抗强干扰和高实时性的无线网络协议栈和资源管理框架。目前以互联网为基础的分层通信协议构架无法适应无人机的组网要求，而无人机网络预先规划的资源管理方式也不符合动态变化的无人机组网特点，其网络性能无法得到有效保障。

考虑一个典型的无人机异构网络，无人机应用中的业务类型主要分为遥测、协调和传感数据类型，无人机可以将采集到传感数据通过U2I链路发送至地面基站的计算平台进行实时处理生成网络态势感知结果。为了增强无人机间的协作以更好地完成任务，相邻无人机之间可以通过U2U链路交互遥测信息(位置信息)或协调信息(同步信息、任务交换计划、路由信息等)。这种无人机异构网络可以利用U2I和U2U链路特性，以满足不同的任务需求。

5G蜂窝网络采用OFDMA的接入机制为U2I通信链路分配正交的频谱资源，为了充分利用无人机的高机动性和空中通信的视距传输特性，U2U链路可以根据信道状态质量灵活地复用U2I频谱资源，通过频谱共享的方式提升资源利用率。UAV异构网络的资源优化问题需要设计一种有效的动态资源管理策略，包括频谱接入、功率分配和调制选择的联合优化，实现U2I和U2U各自的通信需求。

传统无人机异构网络资源管理解决方案是通过数学方法对无线信道和通信性能进行建模，并利用凸优化或启发式算法对所定义问题进行求解。这些解决方案均假设集中式节点(例如地面基站)拥有全网所有信道状态信息(Channel State Information，CSI)。然而，在实际高动态的UAV异构网络场景中，此类方法存在以下挑战：

(1)针对拓扑高动态变化的UAV网络，采用集中式的方式获得全网CSI是一件极具挑战的事情，难以满足时延敏感的业务传输需求。

(2)针对基于信道状态的资源管理策略，如果估计的CSI与实际的CSI不符，那么算法输出的频谱分配结果可能会降低网络性能或用户间公平性。在时变的信道环境下，很难寻求一种有效的方式获得准确的CSI。

(3)基于数学模型的资源管理策略优化通常属于非确定性多项式(non-deterministic polynomial，缩写NP)问题，目前通常采用贪婪方式、最优化理论或启发式算法进行求解。但是，随着UAV节点数和可调参数的规模不断增加，对应的计算复杂度和空间复杂度将以指数级的趋势增加，这种方案不适用于动态的UAV异构网络场景。

在高动态变化的UAV异构网络环境下，设计一种能以较小的通信和计算开销来支撑U2U和U2I各自业务传输需求的资源管理方法已成为UAV网络实际部署的主要挑战。通过研究发现，多智能体增强学习能够以分布式的方式执行资源管理策略。每个智能体通过与动态网络环境的交互，在UAV只具备部分CSI的情况下自主地学习到满足不同通信需求的资源管理策略。

发明内容

本发明的目的是为应对UAV异构网络高动态和复杂的特性，提供一种能够满足差异化任务需求，并能显著降低通信开销和计算复杂度、满足UAV数据安全、提升学习模型精度和泛化性的多维资源动态管理方法。

本发明是通过以下技术方案实现的：一种UAV异构网络多维资源动态管理方法，具有如下技术特征：在给定的无人机UAV异构网络场景中，采用地面基站集中式汇聚层学习模型和UAV智能体分布式执行层学习模型组成执行资源管理策略的联邦学习架构；在地面基站集中式汇聚层学习模型中，集中式汇聚层基于UAV异构网络场景构建多智能体增强学习模型并负责初始化模型参数；在UAV智能体分布式执行层学习模型中，分布式执行层通过多智能体增强学习模型对局部网络策略进行调整，每个UAV通过加装智能体模块在感知到局部的网络状态后，通过最小化损失函数并根据学习机制中设计的资源管理算法输出频谱共享、功率控制和调制选择策略，接收来自网络环境的奖励和网络状态转移反馈信号，并将计算后的模型参数发送给所关联的地面基站；地面基站通过交互获得所有局部模型参数并将更新后的参数下发至每个UAV学习模型，基于联邦学习的资源动态管理算法终止条件，统一联邦学习框架输出能够使局部和全局性能达到折中优化的模型参数。

从上述技术方案可以看出，本发明提出的适用于UAV异构网络的多维资源动态管理方法，相比于现有技术具有如下有益效果。

本发明中的集中式汇聚层和分布式执行层分别通过地面基站学习模型和分布式UAV学习模型构成联邦学习架构，每隔预先设定的时间，分布式执行层接收集中式汇聚层下发的模型参数并执行分布式资源管理策略，并将更新后的模型参数上传至集中式汇聚层进行融合。在没有全网CSI的条件下，以分布式在线的学习机制使每个UAV学习到满足任务目标的联合频谱共享、功率控制和调制选择优化结果。通过分层的联邦学习模型可以有效地学习到UAV异构网络的不同特征，包括多源数据、多样化通信需求和不同的网络状态，这种方式可以进一步提升资源管理模型的精度和泛化性，并使资源管理策略实现局部性能和全局性能的均衡优化。另一方面，本发明充分利用UAV高机动性和链路3D属性，地面基站计算平台基于UAV异构网络场景初始化各局部学习模型参数，分布式执行层通过多智能体增强学习模型实现局部网络策略的调整。基于联邦学习的汇聚层和执行层通过学习模型参数的交互实现多维资源的高效管理，这种方式避免了UAV与地面基站间大量数据(资源管理行为、奖惩信号、网络状态信息等)的直接交互，显著降低了通信开销和提升数据安全性。此外，由于多智能体增强学习模型中每个智能体的输入空间只是自身观察到的网络状态，这样可以避免集中式增强学习因高维输入空间产生难以容忍的计算复杂度。

本发明适用于UAV异构网络的动态资源管理策略。

附图说明

图1是本发明UAV异构网络多维资源动态管理机制的结构示意图；

图2为基于多智能体增强学习模型的局部无线资源管理原理示意图；

图3是一个典型的UAV异构网络的场景示意图；

图4是深度增强学习机制运行原理示意图。

具体实施方式

参阅图1。根据本发明，在给定的无人机UAV异构网络场景中，采用地面基站集中式汇聚层学习模型和UAV智能体分布式执行层学习模型组成执行资源管理策略的联邦学习架构；在地面基站集中式汇聚层学习模型中，集中式汇聚层基于UAV异构网络场景构建多智能体增强学习模型并负责初始化模型参数；在UAV智能体分布式执行层学习模型中，分布式执行层通过多智能体增强学习模型对局部网络策略进行调整，每个UAV通过加装智能体模块在感知到局部的网络状态后，通过最小化损失函数并根据学习机制中设计的资源管理算法输出频谱共享、功率控制和调制选择策略，接收来自网络环境的奖励和网络状态转移反馈信号，并将计算后的模型参数发送给所关联的地面基站；地面基站通过交互获得所有局部模型参数并将更新后的参数下发至每个UAV学习模型，基于联邦学习的资源动态管理算法终止条件，统一联邦学习框架输出能够使局部和全局性能达到折中优化的模型参数。

(1)无人机的本地模型更新规则

参阅图2。在典型的UAV异构网络的场景中，

无人机UAV-1…UAV-i…UAV-n分别感知到当前网络状态s₁(t)，…，s_i(t)，…，s_n(t)后，采取网络资源管理行为a₁(t)，…a_i(t)，…，a_n(t)，获得网络环境反馈的奖励信号r₁(t)，…r_i(t)，…r_n(t)并使网络状态发生转移。

无人机U_i在t时间内的网络状态s_i(t)＝{d_i,b_i,u_i,{G_i[p]}_p∈κ}，无人机U_i应用的数据类型d_i＝{cr_i,co_i,se_i}d_i所对应业务类型的通信需求u_i＝{re_i,la_i,ra_i}，无人机U_i感知到的局部信道状态信息

其中，b_i为d_i所对应业务类型的数据报文大小，cr_i为指控类，co_i为协调类，se_i为传感类；b_i为d_i所对应业务类型的数据报文大小；re_i为可靠性要求，la_i为传输时延要求，ra_i为通信速率要求。

在图3中所示的在UAV异构网络的场景中，设有子网-1和子网-2。子网-1存在多个无人机节点和通信链路，包含通过干扰链路与地面基站B₁进行通信的无人机U_i和无人机U_k，无人机U_k对U_j的干扰链路增益g_k,j[p]，通过U2U通信链路与无人机U_k进行通信的无人机U_m，通过U2U通信链路与无人机U_i进行通信的无人机U_j，无人机U_i和U_j的直通链路增益g_i[p]，通过干扰链路与无人机U_j进行通信的无人机U_p，无人机U_p对U_j的干扰链路增益g_p,j[p]。子网-2设有通过通信链路与地面基站进行通信的至少3架无人机和与子网-2无人机与地面基站B₁进行通信的无人机U_q，获得子网2中无人机U_q对B₁的干扰链路增益

无人机U_p通过系统分配的频谱资源p将采集到的传感数据发送给地面计算的计算平台进行处理，获得U_p与地面基站B₁的通信链路增益

无人机U_i和U_k通过复用U_p的频谱资源p分别将自身的位置信息和路由信息发送至无人机U_j和U_m。

资源管理行为可表示为每个智能体感知到网络状态后执行的频谱共享、功率控制和调制选择策略，对于无人机U_i，资源管理行为a_i(t)∈A，a_i(t)＝{spc_i,pow_i,mod_i}，其中，频谱共享行为spc_i＝α_i[p],α_i[p]∈{0,1},p∈K为是否复用已分配给K个U2I链路的频谱资源，α_i[k]∈{0,1}表示每对U2U链路最多只能复用一对U2I的频谱资源，需要满足∑_p∈Kα_i[p]＝1；功率控制行为pow_i∈[p_min,p_max]为分配给无人机U_i频谱资源的功率，p_min,p_max分别为系统规定的无人机U_i的最小和最大发送功率；调制选择行为mod_i∈[1,2,3,4]为无人机U_i生成通信波形可选择的调制方式，依次为二进制相移键控(Binary Phase Shift Keying，BPSK)、正交相移键控-Quadrature Phase Shift Keying，QPSK)、8-QAM和16-QAM(Quadrature Amplitude Modulation，QAM)。

奖励函数可表示为每个智能体U_i在执行完网络策略后，UAV异构网络环境反馈给智能体的奖励或惩罚值r_i＝{ra_i,re_i,la_i}，无人机U_i的数据传输速率ra_i[p]为：

其中，p为无人机U_p使用的频谱资源标识号，γ_i[p]为无人机U_i复用U_p频谱资源的信干噪比，W为频谱资源p的带宽，mod_i为U_i使用的调制方式，对于选定的调制方式，不同的信干噪比则对应不同的误码率，可靠性re_i由U_i产生信号的误码率进行换算，另外，假设资源管理行为的决策周期为τ，则用于传输U_i数据的时延la_i定义为如下的概率函数：

该概率函数的含义是期望通过资源管理策略使得U2U链路的传输时延尽可能的小于资源管理决策周期，其中，用于确定时延的ε＞0表示数据传输时延大于决策周期的上界值(ε＞0)，B为数据报文的大小。

综上，根据数据传输方式U2I和U2U的差异化通信需求，可定义如下的奖励函数：

其中，

和

分别为通过U2I链路传输数据的吞吐量和可靠性最低要求，

和

分别通过U2U链路传输信息的时延和可靠性的最低要求。

模型参数需要根据不同的学习模型进行配置，如果采用深度神经网络作为学习模型，则对应的模型参数主要为神经网络层数、每层的隐藏单元个数、激活函数、小批量样本数、学习率、精度等。

步骤2，每个多智能体强学习模型利用深度增强学习获得资源动态管理策略。本实施例基于深度强化学习(Deep Reinforcement Learning，DRL)模型，利用深度学习网络对值函数进行拟合评估，生成多维资源管理策略。当智能体处于网络状态s并采用资源管理行为a，带折扣因子

的系统期望收益可以表示为如下所示的值函数：

则最优值函数可表示为：

通过求解上式，可以得到最优的频谱共享、功率控制和模式选择策略。本实施例采用DRL求解上述方程。

在增强学习中，智能体需要通过与外界网络环境进行实时交互、不断地试错和迭代达到长期收益函数最优化。本实施例采用Q-learning算法通过学习近似值函数的动态-值函数，使系统性能达到最优或近似最优。不同于值函数V(s)，Q函数为每个智能体的状态-动作函数，定义如下：

Q-learning算法需要离散化系统的状态和行为，通过初始化状态-动作的二维表格对Q值进行存储，以逼近真实的值函数。随着网络规模的增加，Q算法容易陷入维度灾难而无法快速学习到有效的网络调整策略。

参阅图4。深度增强学习机制运行原理框架包括：主网络、目标网络和记忆槽，其中，记忆槽(χ_m＝[s，a，r，s′]∈D_m，记忆槽数据集大小为D_m)将当前时刻网络状态s′、资源管理行为a输入主网络，通过带有权值参数θ深度神经网络获得近似的动作-值函数的预测值Q(s，a；θ)≈Q(s，a)；记忆槽将下一个时刻的网络状态s′、资源管理行为a′输入目标网络并通过带有权值参数θ′深度神经网络获得真实值Q′_θ′(s′，a′)；第m个多智能体(无人机U_m)学习模型损失函数由记忆槽、奖励函数r_m、折扣因子

Q′_m(s′，a′；θ′)和Q_m(s，a；θ)组成，表示为

主网络通过最小化损失函数获得神经网络模型参数θ的更新；每隔一段时间，主网络将更新的模型参数θ直接复制给目标网络的模型参数θ′，无人机U_m为了更新智能体模型参数，定义图4中的误差函数：

为了得到全局模型和局部模型的优化折中，最优的模型参数定义为如下所定义的全局损失函数最小化问题，

其中，第m个多智能体(无人机U_m)的损失函数的权值

其中，D为所有数据集的大小，D_m为数据集χ_m的大小。

步骤3，每个多智能体强学习模型智能体从地面基站接收(t-1)时刻的反馈信息，最小化如下的代理损失函数

通过最小化代理损失函数，可以得到t时刻模型参数的近似解θ。从上式可以看出，参数更新通过对(t-1)时刻全局损失函数梯度的近似值

而非精确值

这就避免了将局部模型数据上传至地面基站所带来的巨大通信开销和数据被截获风险。此外，这种方法也不需要数据必须服从独立同分布的假设。

地面基站控制的全局模型更新规则

地面基站主要是每隔一定时间收集各个智能体的局部模型参数，工作流程如下

步骤4，每个局部的深度增强学习智能体将自身DRL的模型参数发送至地面基站控制器。全局模型参数的更新规则如下：

当前时刻t下，汇聚层模型参数为θ^t，第m个多智能体(无人机U_m)的模型参数为

和其对应的权值为c_m，M为网络中所有智能体(无人机)的个数，第m个多智能体(无人机U_m)损失函数的梯度值

汇聚层损失函数梯度值为

步骤5，对于任意足够小的值(用于算法停止检验)ξ，ξ≥0，算法终止条件需要满足以下条件：L(θ^t)-L(θ^*)≤ξ，当满足算法停止条件，则当前时刻的用于构建神经网络的θ^*为智能体学习模型的最优参数。

本说明书中公开的所有特征，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合。以上优选实施例仅用以说明本发明的技术方案而非限制，尽管通过上述优选实施例已经对本发明进行了详细的描述，但本领域技术人员应当理解，可以在形式上和细节上对其作出各种各样的改变，而不偏离本发明权利要求书所限定的范围。

Claims

1.一种UAV异构网络多维资源动态管理方法，具有如下技术特征：在给定的无人机UAV异构网络场景中，采用地面基站集中式汇聚层学习模型和UAV智能体分布式执行层学习模型组成执行资源管理策略的联邦学习架构；在地面基站集中式汇聚层学习模型中，集中式汇聚层基于UAV异构网络场景构建多智能体增强学习模型并负责初始化模型参数；在UAV智能体分布式执行层学习模型中，分布式执行层通过多智能体增强学习模型对局部网络策略进行调整，每个UAV通过加装智能体模块在感知到局部的网络状态后，通过最小化损失函数并根据学习机制中设计的资源管理算法输出频谱共享、功率控制和调制选择策略，接收来自网络环境的奖励和网络状态转移反馈信号，并将计算后的模型参数发送给所关联的地面基站；地面基站通过交互获得所有局部模型参数并将更新后的参数下发至每个UAV学习模型，基于联邦学习的资源动态管理算法终止条件，统一联邦学习框架输出能够使局部和全局性能达到折中优化的模型参数。

2.如权利要求1所述的UAV异构网络多维资源动态管理方法，其特征在于：在t时隙内，无人机UAV-1…UAV-i…UAV-n分别感知到当前网络状态s₁(t)，…，s_i(t)，…，s_n(t)后，采取网络资源管理行为a₁(t)，…a_i(t)，…，a_n(t)，获得网络环境反馈的奖励信号r₁(t)，…r_i(t)，…r_n(t)并使网络状态发生转移。

3.如权利要求2所述的UAV异构网络多维资源动态管理方法，其特征在于：无人机U_i在t时隙内的网络状态s_i(t)＝{d_i,b_i,u_i,{G_i[p]}_p∈κ}，无人机U_i应用的数据类型d_i＝{cr_i,co_i,se_i}d_i所对应业务类型的通信需求u_i＝{re_i,la_i,ra_i}，无人机U_i感知到的局部信道状态信息

其中，b_i为d_i所对应业务类型的数据报文大小，cr_i为指控类，co_i为协调类，se_i为传感类；re_i为可靠性要求，la_i为传输时延要求，ra_i为通信速率要求。

4.如权利要求1所述的UAV异构网络多维资源动态管理方法，其特征在于：在UAV异构网络的场景中，设有子网-1和子网-2，子网-1存在多个无人机节点和通信链路，包含通过干扰链路与地面基站B₁进行通信的无人机U_i和无人机U_k，无人机U_k对U_j的干扰链路增益g_k,j[p]，通过U2U通信链路与无人机U_k进行通信的无人机U_m，通过U2U通信链路与无人机U_i进行通信的无人机U_j，无人机U_i和U_j的直通链路增益g_i[p]，通过干扰链路与无人机U_j进行通信的无人机U_p，无人机U_p对U_j的干扰链路增益g_p,j[p]。

5.如权利要求4所述的UAV异构网络多维资源动态管理方法，其特征在于：子网-2设有通过通信链路与地面基站进行通信的至少3架无人机和与子网-2无人机与地面基站B₁进行通信的无人机U_q，获得子网2中无人机U_q对B₁的干扰链路增益

6.如权利要求5所述的UAV异构网络多维资源动态管理方法，其特征在于：无人机U_p通过系统分配的频谱资源p将采集到的传感数据发送给地面计算的计算平台进行处理，获得U_p与地面基站B₁的通信链路增益

7.如权利要求1所述的UAV异构网络多维资源动态管理方法，其特征在于：资源管理行为表示为每个智能体感知到网络状态后执行的频谱共享、功率控制和调制选择策略，对于无人机U_i，资源管理行为a_i(t)∈A，a_i(t)＝{spc_i,pow_i,mod_i}，其中，频谱共享行为spc_i＝α_i[p],α_i[p]∈{0,1},p∈K为是否复用已分配给K个U2I链路的频谱资源，α_i[k]∈{0,1}表示每对U2U链路最多只能复用一对U2I的频谱资源，需要满足∑_p∈Kα_i[p]＝1；功率控制行为pow_i∈[p_min,p_max]为分配给无人机U_i频谱资源的功率，p_min,p_max分别为系统规定的无人机U_i的最小和最大发送功率；调制选择行为mod_i∈[1,2,3,4]为无人机U_i生成通信波形可选择的调制方式，依次为二进制相移键控(BPSK)、正交相移键控(QPSK)、二进制正交振幅调制(4-QAM)和四进制正交振幅调制(16-QAM)。

8.如权利要求1所述的UAV异构网络多维资源动态管理方法，其特征在于：奖励函数表示为每个智能体U_i在执行完网络策略后，UAV异构网络环境反馈给智能体的奖励或惩罚值r_i＝{ra_i,re_i,la_i}，无人机U_i的数据传输速率ra_i[p]为：

其中，p为无人机U_p使用的频谱资源标识号，γ_i[p]为无人机U_i复用U_p频谱资源的信干噪比，W为频谱资源p的带宽，mod_i为U_i使用的调制方式，对于选定的调制方式，不同的信干噪比则对应不同的误码率，可靠性re_i由U_i产生信号的误码率进行换算。

9.如权利要求1所述的UAV异构网络多维资源动态管理方法，其特征在于：设资源管理行为的决策周期为τ，则用于传输U_i数据的时延la_i定义为如下的概率函数：

10.如权利要求1所述的UAV异构网络多维资源动态管理方法，其特征在于：根据数据传输方式U2I和U2U的差异化通信需求，定义如下的奖励函数：

其中，

和

分别为通过U2I链路传输数据的吞吐量和可靠性最低要求，

和

分别通过U2U链路传输信息的时延和可靠性的最低要求。