CN112584347B - Uav异构网络多维资源动态管理方法 - Google Patents

Uav异构网络多维资源动态管理方法 Download PDF

Info

Publication number
CN112584347B
CN112584347B CN202011043077.9A CN202011043077A CN112584347B CN 112584347 B CN112584347 B CN 112584347B CN 202011043077 A CN202011043077 A CN 202011043077A CN 112584347 B CN112584347 B CN 112584347B
Authority
CN
China
Prior art keywords
uav
network
resource
unmanned aerial
aerial vehicle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011043077.9A
Other languages
English (en)
Other versions
CN112584347A (zh
Inventor
乔冠华
吴麒
王翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest Electronic Technology Institute No 10 Institute of Cetc
Original Assignee
Southwest Electronic Technology Institute No 10 Institute of Cetc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest Electronic Technology Institute No 10 Institute of Cetc filed Critical Southwest Electronic Technology Institute No 10 Institute of Cetc
Priority to CN202011043077.9A priority Critical patent/CN112584347B/zh
Publication of CN112584347A publication Critical patent/CN112584347A/zh
Application granted granted Critical
Publication of CN112584347B publication Critical patent/CN112584347B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/40Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
    • H04W4/44Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P] for communication between vehicles and infrastructures, e.g. vehicle-to-cloud [V2C] or vehicle-to-home [V2H]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/02Arrangements for optimising operational condition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开的UAV异构网络多维资源动态管理方法,旨在提供一种能够降低计算复杂度、提升学习模型泛化性的网络管理策略的方法。本发明通过下述技术方案予以实现:统一的联邦学习架构由地面基站集中汇聚层和UAV分布式执行层组成,地面基站计算平台基于任意UAV异构网络场景构建多智能体增强学习模型并初始化模型参数;分布式执行层利用多智能体增强学习算法输出多维资源管理行为,获得网络环境对智能体行为的奖励和状态转移反馈,同时将模型参数上传至与其关联的本地基站。地面基站通过交互获得所有局部模型参数并将更新后的参数下发至每个UAV学习模型。根据算法停止条件,统一联邦学习框架输出能够使局部和全局性能达到折中优化的模型参数。

Description

UAV异构网络多维资源动态管理方法
技术领域
本发明涉及一种无人机异构网络多维资源动态管理方法。
背景技术
随着无人机自主性和通信技术的快速发展,无人机(Unmanned Aerial Vehicle,UAV)组网越来越广泛地应用于多样化的民用、商用和军用场景中,如环境监测、边界监视、目标跟踪、紧急救援、精准打击等应用。针对无人机的快速部署和广阔覆盖能力,UAV异构网络融合了5G蜂窝网络和点对点通信网络的优点,即可以采用以地面基础设施为中继的U2I(UAV-to-Infrastructure)传输模式,又能够灵活地将视距范围内的UAV以链路直通的方式U2U(UAV-to-UAV)进行数据传输。针对高动态和复杂的空中网络环境,无人机群组网需要具备更加灵活和可靠的特点,不仅要在物理层拥有高速可靠的数据传输能力,而且也需要设计出适应高速移动、抗强干扰和高实时性的无线网络协议栈和资源管理框架。目前以互联网为基础的分层通信协议构架无法适应无人机的组网要求,而无人机网络预先规划的资源管理方式也不符合动态变化的无人机组网特点,其网络性能无法得到有效保障。
考虑一个典型的无人机异构网络,无人机应用中的业务类型主要分为遥测、协调和传感数据类型,无人机可以将采集到传感数据通过U2I链路发送至地面基站的计算平台进行实时处理生成网络态势感知结果。为了增强无人机间的协作以更好地完成任务,相邻无人机之间可以通过U2U链路交互遥测信息(位置信息)或协调信息(同步信息、任务交换计划、路由信息等)。这种无人机异构网络可以利用U2I和U2U链路特性,以满足不同的任务需求。
5G蜂窝网络采用OFDMA的接入机制为U2I通信链路分配正交的频谱资源,为了充分利用无人机的高机动性和空中通信的视距传输特性,U2U链路可以根据信道状态质量灵活地复用U2I频谱资源,通过频谱共享的方式提升资源利用率。UAV异构网络的资源优化问题需要设计一种有效的动态资源管理策略,包括频谱接入、功率分配和调制选择的联合优化,实现U2I和U2U各自的通信需求。
传统无人机异构网络资源管理解决方案是通过数学方法对无线信道和通信性能进行建模,并利用凸优化或启发式算法对所定义问题进行求解。这些解决方案均假设集中式节点(例如地面基站)拥有全网所有信道状态信息(Channel State Information,CSI)。然而,在实际高动态的UAV异构网络场景中,此类方法存在以下挑战:
(1)针对拓扑高动态变化的UAV网络,采用集中式的方式获得全网CSI是一件极具挑战的事情,难以满足时延敏感的业务传输需求。
(2)针对基于信道状态的资源管理策略,如果估计的CSI与实际的CSI不符,那么算法输出的频谱分配结果可能会降低网络性能或用户间公平性。在时变的信道环境下,很难寻求一种有效的方式获得准确的CSI。
(3)基于数学模型的资源管理策略优化通常属于非确定性多项式(non-deterministic polynomial,缩写NP)问题,目前通常采用贪婪方式、最优化理论或启发式算法进行求解。但是,随着UAV节点数和可调参数的规模不断增加,对应的计算复杂度和空间复杂度将以指数级的趋势增加,这种方案不适用于动态的UAV异构网络场景。
在高动态变化的UAV异构网络环境下,设计一种能以较小的通信和计算开销来支撑U2U和U2I各自业务传输需求的资源管理方法已成为UAV网络实际部署的主要挑战。通过研究发现,多智能体增强学习能够以分布式的方式执行资源管理策略。每个智能体通过与动态网络环境的交互,在UAV只具备部分CSI的情况下自主地学习到满足不同通信需求的资源管理策略。
发明内容
本发明的目的是为应对UAV异构网络高动态和复杂的特性,提供一种能够满足差异化任务需求,并能显著降低通信开销和计算复杂度、满足UAV数据安全、提升学习模型精度和泛化性的多维资源动态管理方法。
本发明是通过以下技术方案实现的:一种UAV异构网络多维资源动态管理方法,具有如下技术特征:在给定的无人机UAV异构网络场景中,采用地面基站集中式汇聚层学习模型和UAV智能体分布式执行层学习模型组成执行资源管理策略的联邦学习架构;在地面基站集中式汇聚层学习模型中,集中式汇聚层基于UAV异构网络场景构建多智能体增强学习模型并负责初始化模型参数;在UAV智能体分布式执行层学习模型中,分布式执行层通过多智能体增强学习模型对局部网络策略进行调整,每个UAV通过加装智能体模块在感知到局部的网络状态后,通过最小化代理损失函数得到学习模型参数的近似解,并基于增强学习设计的资源管理算法输出频谱共享、功率控制和调制选择策略,接收来自网络环境的奖励和网络状态转移反馈信号,并将计算后的模型参数发送给所关联的地面基站;地面基站通过交互获得所有局部模型参数并将更新后的参数下发至每个UAV学习模型,基于联邦学习的资源动态管理算法终止条件,统一联邦学习框架输出能够使局部和全局性能达到折中优化的模型参数。
从上述技术方案可以看出,本发明提出的适用于UAV异构网络的多维资源动态管理方法,相比于现有技术具有如下有益效果。
本发明中的集中式汇聚层和分布式执行层分别通过地面基站学习模型和分布式UAV学习模型构成联邦学习架构,每隔预先设定的时间,分布式执行层接收集中式汇聚层下发的模型参数并执行分布式资源管理策略,并将更新后的模型参数上传至集中式汇聚层进行融合。在没有全网CSI的条件下,以分布式在线的学习机制使每个UAV学习到满足任务目标的联合频谱共享、功率控制和调制选择优化结果。通过分层的联邦学习模型可以有效地学习到UAV异构网络的不同特征,包括多源数据、多样化通信需求和不同的网络状态,这种方式可以进一步提升资源管理模型的精度和泛化性,并使资源管理策略实现局部性能和全局性能的均衡优化。另一方面,本发明充分利用UAV高机动性和链路3D属性,地面基站计算平台基于UAV异构网络场景初始化各局部学习模型参数,分布式执行层通过多智能体增强学习模型实现局部网络策略的调整。基于联邦学习的汇聚层和执行层通过学习模型参数的交互实现多维资源的高效管理,这种方式避免了UAV与地面基站间大量数据(资源管理行为、奖惩信号、网络状态信息等)的直接交互,显著降低了通信开销和提升数据安全性。此外,由于多智能体增强学习模型中每个智能体的输入空间只是自身观察到的网络状态,这样可以避免集中式增强学习因高维输入空间产生难以容忍的计算复杂度。
本发明适用于UAV异构网络的动态资源管理策略。
附图说明
图1是本发明UAV异构网络多维资源动态管理机制的结构示意图;
图2为基于多智能体增强学习模型的局部无线资源管理原理示意图;
图3是一个典型的UAV异构网络的场景示意图;
图4是深度增强学习机制运行原理示意图。
具体实施方式
参阅图1。根据本发明,在给定的无人机UAV异构网络场景中,采用地面基站集中式汇聚层学习模型和UAV智能体分布式执行层学习模型组成执行资源管理策略的联邦学习架构;在地面基站集中式汇聚层学习模型中,集中式汇聚层基于UAV异构网络场景构建多智能体增强学习模型并负责初始化模型参数;在UAV智能体分布式执行层学习模型中,分布式执行层通过多智能体增强学习模型对局部网络策略进行调整,每个UAV通过加装智能体模块在感知到局部的网络状态后,通过最小化代理损失函数得到学习模型参数的近似解,并基于增强学习设计的资源管理算法输出频谱共享、功率控制和调制选择策略,接收来自网络环境的奖励和网络状态转移反馈信号,并将计算后的模型参数发送给所关联的地面基站;地面基站通过交互获得所有局部模型参数并将更新后的参数下发至每个UAV学习模型,基于联邦学习的资源动态管理算法终止条件,统一联邦学习框架输出能够使局部和全局性能达到折中优化的模型参数。
(1)无人机的本地模型更新规则
参阅图2。在典型的UAV异构网络的场景中,
无人机UAV-1…UAV-i…UAV-n分别感知到当前网络状态s1(t),…,si(t),…,sn(t)后,采取网络资源管理行为a1(t),…ai(t),…,an(t),获得网络环境反馈的奖励信号r1(t),…ri(t),…rn(t)并使网络状态发生转移。
无人机Ui在t时间内的网络状态si(t)={di,bi,ui,{Gi[p]}p∈κ},无人机Ui应用的数据类型di={cri,coi,sei}di所对应业务类型的通信需求ui={rei,lai,rai},无人机Ui感知到的局部信道状态信息
Figure GDA0003646573700000041
其中,bi为di所对应业务类型的数据报文大小,cri为指控类,coi为协调类,sei为传感类;bi为di所对应业务类型的数据报文大小;rei为可靠性要求,lai为传输时延要求,rai为通信速率要求。
在图3中所示的在UAV异构网络的场景中,设有子网-1和子网-2。子网-1存在多个无人机节点和通信链路,包含通过干扰链路与地面基站B1进行通信的无人机Ui和无人机Uk,无人机Uk对Uj的干扰链路增益gk,j[p],通过U2U通信链路与无人机Uk进行通信的无人机Um,通过U2U通信链路与无人机Ui进行通信的无人机Uj,无人机Ui和Uj的直通链路增益gi[p],通过干扰链路与无人机Uj进行通信的无人机Up,无人机Up对Uj的干扰链路增益gp,j[p]。子网-2设有通过通信链路与地面基站进行通信的至少3架无人机和与子网-2无人机与地面基站B1进行通信的无人机Uq,获得子网2中无人机Uq对B1的干扰链路增益
Figure GDA0003646573700000051
无人机Up通过系统分配的频谱资源p将采集到的传感数据发送给地面计算的计算平台进行处理,获得Up与地面基站B1的通信链路增益
Figure GDA0003646573700000052
无人机Ui和Uk通过复用Up的频谱资源p分别将自身的位置信息和路由信息发送至无人机Uj和Um
资源管理行为可表示为每个智能体感知到网络状态后执行的频谱共享、功率控制和调制选择策略,对于无人机Ui,资源管理行为ai(t)∈A,ai(t)={spci,powi,modi},其中,频谱共享行为spci=αi[p],αi[p]∈{0,1},p∈K为是否复用已分配给K个U2I链路的频谱资源,αi[k]∈{0,1}表示每对U2U链路最多只能复用一对U2I的频谱资源,需要满足∑p∈Kαi[p]=1;功率控制行为powi∈[pmin,pmax]为分配给无人机Ui频谱资源的功率,pmin,pmax分别为系统规定的无人机Ui的最小和最大发送功率;调制选择行为modi∈[1,2,3,4]为无人机Ui生成通信波形可选择的调制方式,依次为二进制相移键控(Binary Phase Shift Keying,BPSK)、正交相移键控-Quadrature Phase Shift Keying,QPSK)、8-QAM和16-QAM(Quadrature Amplitude Modulation,QAM)。
奖励函数可表示为每个智能体Ui在执行完网络策略后,UAV异构网络环境反馈给智能体的奖励或惩罚值ri={rai,rei,lai},无人机Ui的数据传输速率rai[p]为:
Figure GDA0003646573700000061
其中,p为无人机Up使用的频谱资源标识号,γi[p]为无人机Ui复用Up频谱资源的信干噪比,W为频谱资源p的带宽,modi为Ui使用的调制方式,对于选定的调制方式,不同的信干噪比则对应不同的误码率,可靠性rei由Ui产生信号的误码率进行换算,另外,假设资源管理行为的决策周期为τ,则用于传输Ui数据的时延lai定义为如下的概率函数:
Figure GDA0003646573700000062
该概率函数的含义是期望通过资源管理策略使得U2U链路的传输时延尽可能的小于资源管理决策周期,其中,用于确定时延的ε>0表示数据传输时延大于决策周期的上界值(ε>0),B为数据报文的大小。
综上,根据数据传输方式U2I和U2U的差异化通信需求,可定义如下的奖励函数:
Figure GDA0003646573700000063
Figure GDA0003646573700000064
其中,
Figure GDA0003646573700000065
Figure GDA0003646573700000066
分别为通过U2I链路传输数据的吞吐量和可靠性最低要求,
Figure GDA0003646573700000067
Figure GDA0003646573700000068
分别通过U2U链路传输信息的时延和可靠性的最低要求。
模型参数需要根据不同的学习模型进行配置,如果采用深度神经网络作为学习模型,则对应的模型参数主要为神经网络层数、每层的隐藏单元个数、激活函数、小批量样本数、学习率、精度等。
步骤2,每个多智能体强学习模型利用深度增强学习获得资源动态管理策略。本实施例基于深度强化学习(Deep Reinforcement Learning,DRL)模型,利用深度学习网络对值函数进行拟合评估,生成多维资源管理策略。当智能体处于网络状态s并采用资源管理行为a,带折扣因子
Figure GDA0003646573700000071
的系统期望收益可以表示为如下所示的值函数:
Figure GDA0003646573700000072
则最优值函数可表示为:
Figure GDA0003646573700000073
通过求解上式,可以得到最优的频谱共享、功率控制和模式选择策略。本实施例采用DRL求解上述方程。
在增强学习中,智能体需要通过与外界网络环境进行实时交互、不断地试错和迭代达到长期收益函数最优化。本实施例采用Q-learning算法通过学习近似值函数的动态-值函数,使系统性能达到最优或近似最优。不同于值函数V(s),Q函数为每个智能体的状态-动作函数,定义如下:
Figure GDA0003646573700000074
Q-learning算法需要离散化系统的状态和行为,通过初始化状态-动作的二维表格对Q值进行存储,以逼近真实的值函数。随着网络规模的增加,Q算法容易陷入维度灾难而无法快速学习到有效的网络调整策略。
参阅图4。深度增强学习机制运行原理框架包括:主网络、目标网络和记忆槽,其中,记忆槽(χm=[s,a,r,s′]∈Dm,记忆槽数据集大小为Dm)将当前时刻网络状态s′、资源管理行为a输入主网络,通过带有权值参数θ深度神经网络获得近似的动作-值函数的预测值Q(s,a;θ)≈Q(s,a);记忆槽将下一个时刻的网络状态s′、资源管理行为a′输入目标网络并通过带有权值参数θ′深度神经网络获得真实值Q′θ′(s′,a′);第m个多智能体(无人机Um)学习模型损失函数由记忆槽、奖励函数rm、折扣因子
Figure GDA0003646573700000075
Q′m(s′,a′;θ′)和Qm(s,a;θ)组成,表示为
Figure GDA0003646573700000076
主网络通过最小化损失函数获得神经网络模型参数θ的更新;每隔一段时间,主网络将更新的模型参数θ直接复制给目标网络的模型参数θ′,无人机Um为了更新智能体模型参数,定义图4中的误差函数:
Figure GDA0003646573700000081
为了得到全局模型和局部模型的优化折中,最优的模型参数定义为如下所定义的全局损失函数最小化问题,
Figure GDA0003646573700000082
其中,第m个多智能体(无人机Um)的损失函数的权值
Figure GDA0003646573700000083
其中,D为所有数据集的大小,Dm为数据集χm的大小。
步骤3,每个多智能体强学习模型智能体从地面基站接收(t-1)时刻的反馈信息,最小化如下的代理损失函数
Figure GDA0003646573700000084
通过最小化代理损失函数,可以得到t时刻模型参数的近似解θ。从上式可以看出,参数更新通过对(t-1)时刻全局损失函数梯度的近似值
Figure GDA0003646573700000085
而非精确值
Figure GDA0003646573700000086
这就避免了将局部模型数据上传至地面基站所带来的巨大通信开销和数据被截获风险。此外,这种方法也不需要数据必须服从独立同分布的假设。
地面基站控制的全局模型更新规则
地面基站主要是每隔一定时间收集各个智能体的局部模型参数,工作流程如下
步骤4,每个局部的深度增强学习智能体将自身DRL的模型参数发送至地面基站控制器。全局模型参数的更新规则如下:
Figure GDA0003646573700000087
当前时刻t下,汇聚层模型参数为θt,第m个多智能体(无人机Um)的模型参数为
Figure GDA0003646573700000088
和其对应的权值为cm,M为网络中所有智能体(无人机)的个数,第m个多智能体(无人机Um)损失函数的梯度值
Figure GDA0003646573700000089
汇聚层损失函数梯度值为
Figure GDA00036465737000000810
步骤5,对于任意足够小的值(用于算法停止检验)ξ,ξ≥0,算法终止条件需要满足以下条件:L(θt)-L(θ*)≤ξ,当满足算法停止条件,则当前时刻的用于构建神经网络的θ*为智能体学习模型的最优参数。
本说明书中公开的所有特征,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。以上优选实施例仅用以说明本发明的技术方案而非限制,尽管通过上述优选实施例已经对本发明进行了详细的描述,但本领域技术人员应当理解,可以在形式上和细节上对其作出各种各样的改变,而不偏离本发明权利要求书所限定的范围。

Claims (10)

1.一种UAV异构网络多维资源动态管理方法,具有如下技术特征:在给定的无人机UAV异构网络场景中,采用地面基站集中式汇聚层学习模型和UAV智能体分布式执行层学习模型组成执行资源管理策略的联邦学习架构;在地面基站集中式汇聚层学习模型中,集中式汇聚层基于UAV异构网络场景构建多智能体增强学习模型并负责初始化模型参数;在UAV智能体分布式执行层学习模型中,分布式执行层通过多智能体增强学习模型对局部网络策略进行调整,每个UAV通过加装智能体模块在感知到局部的网络状态后,通过最小化代理损失函数得到学习模型参数的近似解,并基于增强学习设计的资源管理算法输出频谱共享、功率控制和调制选择策略,接收来自网络环境的奖励和网络状态转移反馈信号,并将计算后的模型参数发送给所关联的地面基站;地面基站通过交互获得所有局部模型参数并将更新后的参数下发至每个UAV学习模型,基于联邦学习的资源动态管理算法终止条件,统一联邦学习框架输出能够使局部和全局性能达到折中优化的模型参数。
2.如权利要求1所述的UAV异构网络多维资源动态管理方法,其特征在于:在典型的UAV异构网络的场景中,其特征在于:在t时隙内,无人机UAV-1…UAV-i…UAV-n分别感知到当前网络状态s1(t),…,si(t),…,sn(t)后,采取网络资源管理行为a1(t),…ai(t),…,an(t),获得网络环境反馈的奖励信号r1(t),…ri(t),…rn(t)并使网络状态发生转移。
3.如权利要求2所述的UAV异构网络多维资源动态管理方法,其特征在于:无人机Ui在t时隙内的网络状态si(t)={di,bi,ui,{Gi[p]}p∈κ},无人机Ui应用的数据类型di={cri,coi,sei}di所对应业务类型的通信需求ui={rei,lai,rai},无人机Ui感知到的局部信道状态信息
Figure FDA0003646573690000011
其中,bi为di所对应业务类型的数据报文大小,cri为指控类,coi为协调类,sei为传感类;rei为可靠性要求,lai为传输时延要求,rai为通信速率要求。
4.如权利要求1所述的UAV异构网络多维资源动态管理方法,其特征在于:在UAV异构网络的场景中,设有子网-1和子网-2,子网-1存在多个无人机节点和通信链路,包含通过干扰链路与地面基站B1进行通信的无人机Ui和无人机Uk,无人机Uk对Uj的干扰链路增益gk,j[p],通过U2U通信链路与无人机Uk进行通信的无人机Um,通过U2U通信链路与无人机Ui进行通信的无人机Uj,无人机Ui和Uj的直通链路增益gi[p],通过干扰链路与无人机Uj进行通信的无人机Up,无人机Up对Uj的干扰链路增益gp,j[p]。
5.如权利要求4所述的UAV异构网络多维资源动态管理方法,其特征在于:子网-2设有通过通信链路与地面基站进行通信的至少3架无人机和与子网-2无人机与地面基站B1进行通信的无人机Uq,获得子网2中无人机Uq对B1的干扰链路增益
Figure FDA0003646573690000021
6.如权利要求5所述的UAV异构网络多维资源动态管理方法,其特征在于:无人机Up通过系统分配的频谱资源p将采集到的传感数据发送给地面计算的计算平台进行处理,获得Up与地面基站B1的通信链路增益
Figure FDA0003646573690000022
无人机Ui和Uk通过复用Up的频谱资源p分别将自身的位置信息和路由信息发送至无人机Uj和Um
7.如权利要求1所述的UAV异构网络多维资源动态管理方法,其特征在于:资源管理行为表示为每个智能体感知到网络状态后执行的频谱共享、功率控制和调制选择策略,对于无人机Ui,资源管理行为ai(t)∈A,ai(t)={spci,powi,modi},其中,频谱共享行为spci=αi[p],αi[p]∈{0,1},p∈K为是否复用已分配给K个U2I链路的频谱资源,αi[k]∈{0,1}表示每对U2U链路最多只能复用一对U2I的频谱资源,需要满足∑p∈Kαi[p]=1;功率控制行为powi∈[pmin,pmax]为分配给无人机Ui频谱资源的功率,pmin,pmax分别为系统规定的无人机Ui的最小和最大发送功率;调制选择行为modi∈[1,2,3,4]为无人机Ui生成通信波形可选择的调制方式,依次为二进制相移键控(BPSK)、正交相移键控(QPSK)、二进制正交振幅调制(4-QAM)和四进制正交振幅调制(16-QAM)。
8.如权利要求1所述的UAV异构网络多维资源动态管理方法,其特征在于:奖励函数表示为每个智能体Ui在执行完网络策略后,UAV异构网络环境反馈给智能体的奖励或惩罚值ri={rai,rei,lai},无人机Ui的数据传输速率rai[p]为:
Figure FDA0003646573690000023
其中,p为无人机Up使用的频谱资源标识号,γi[p]为无人机Ui复用Up频谱资源的信干噪比,W为频谱资源p的带宽,modi为Ui使用的调制方式,对于选定的调制方式,不同的信干噪比则对应不同的误码率,可靠性rei由Ui产生信号的误码率进行换算。
9.如权利要求1所述的UAV异构网络多维资源动态管理方法,其特征在于:设资源管理行为的决策周期为τ,则用于传输Ui数据的时延lai定义为如下的概率函数:
Figure FDA0003646573690000031
该概率函数的含义是期望通过资源管理策略使得U2U链路的传输时延尽可能的小于资源管理决策周期,其中,用于确定时延的ε>0表示数据传输时延大于决策周期的上界值(ε>0),B为数据报文的大小。
10.如权利要求1所述的UAV异构网络多维资源动态管理方法,其特征在于:根据数据传输方式U2I和U2U的差异化通信需求,定义如下的奖励函数:
Figure FDA0003646573690000032
Figure FDA0003646573690000033
其中,
Figure FDA0003646573690000034
Figure FDA0003646573690000035
分别为通过U2I链路传输数据的吞吐量和可靠性最低要求,
Figure FDA0003646573690000036
Figure FDA0003646573690000037
分别通过U2U链路传输信息的时延和可靠性的最低要求。
CN202011043077.9A 2020-09-28 2020-09-28 Uav异构网络多维资源动态管理方法 Active CN112584347B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011043077.9A CN112584347B (zh) 2020-09-28 2020-09-28 Uav异构网络多维资源动态管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011043077.9A CN112584347B (zh) 2020-09-28 2020-09-28 Uav异构网络多维资源动态管理方法

Publications (2)

Publication Number Publication Date
CN112584347A CN112584347A (zh) 2021-03-30
CN112584347B true CN112584347B (zh) 2022-07-08

Family

ID=75119664

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011043077.9A Active CN112584347B (zh) 2020-09-28 2020-09-28 Uav异构网络多维资源动态管理方法

Country Status (1)

Country Link
CN (1) CN112584347B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113254200B (zh) * 2021-05-13 2023-06-09 中国联合网络通信集团有限公司 资源编排方法及智能体
CN113660304A (zh) * 2021-07-07 2021-11-16 北京邮电大学 一种基于双向拍卖博弈的无人机群分布式学习资源管控方法
CN113506040B (zh) * 2021-08-05 2022-06-03 重庆大学 一种uav蜂群中面向高性能联邦学习的调度和资源分配方法
CN113890564B (zh) * 2021-08-24 2023-04-11 浙江大学 基于联邦学习的无人机专用自组网跳频抗干扰方法及装置
CN113658689A (zh) * 2021-08-25 2021-11-16 深圳前海微众银行股份有限公司 多智能体模型的训练方法、装置、电子设备及存储介质
CN114142908B (zh) * 2021-09-17 2022-12-09 北京航空航天大学 一种面向覆盖侦察任务的多无人机通信资源分配方法
CN114339788B (zh) * 2022-01-06 2023-11-17 中山大学 一种多智能体自组网规划方法及系统
CN114900237B (zh) * 2022-04-11 2023-10-03 中国电子科技集团公司第十研究所 一种流量自适应分配的激光射频一体化通信系统
CN115329985B (zh) * 2022-09-07 2023-10-27 北京邮电大学 无人集群智能模型训练方法、装置和电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108521673A (zh) * 2018-04-09 2018-09-11 湖北工业大学 一种异构网络中基于强化学习的资源分配和功率控制联合优化方法
CN109190978A (zh) * 2018-09-01 2019-01-11 哈尔滨工程大学 一种基于量子鸟群演化机制的无人机资源分配方法
CN109729528A (zh) * 2018-12-21 2019-05-07 北京邮电大学 一种基于多智能体深度强化学习的d2d资源分配方法
CN109932677A (zh) * 2019-04-08 2019-06-25 南京航空航天大学 基于无人机和云gis系统的黑广播定位方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102645298B1 (ko) * 2019-07-02 2024-03-11 엘지전자 주식회사 자율주행시스템에서 차량간 p2p 방식을 활용한 데이터 처리방법 및 이를 위한 장치

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108521673A (zh) * 2018-04-09 2018-09-11 湖北工业大学 一种异构网络中基于强化学习的资源分配和功率控制联合优化方法
CN109190978A (zh) * 2018-09-01 2019-01-11 哈尔滨工程大学 一种基于量子鸟群演化机制的无人机资源分配方法
CN109729528A (zh) * 2018-12-21 2019-05-07 北京邮电大学 一种基于多智能体深度强化学习的d2d资源分配方法
CN109932677A (zh) * 2019-04-08 2019-06-25 南京航空航天大学 基于无人机和云gis系统的黑广播定位方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
5G无人机异构网络的初始波束关联方案研究;张少伟等;《电子技术应用》;20200306(第03期);全文 *
D2D通信中基于Q学习的联合资源分配与功率控制算法;王倩等;《南京大学学报(自然科学)》;20181130(第06期);全文 *
Efficient Resource Allocation Utilizing Q-Learning in Multiple UA Communications;Y. Kawamoto等;《IEEE Transactions on Network Science and Engineering》;20180531;全文 *
Resource Allocation and Trajectory Design for Cellular UAV-to-X Communication Networks in 5G;S. Zhang等;《018 IEEE Global Communications Conference (GLOBECOM)》;20190221;全文 *
异构无线网络资源分配算法研究综述;徐勇军等;《重庆邮电大学学报(自然科学版)》;20180615(第03期);全文 *

Also Published As

Publication number Publication date
CN112584347A (zh) 2021-03-30

Similar Documents

Publication Publication Date Title
CN112584347B (zh) Uav异构网络多维资源动态管理方法
Zhang et al. Beyond D2D: Full dimension UAV-to-everything communications in 6G
Promwongsa et al. A comprehensive survey of the tactile internet: State-of-the-art and research directions
Mlika et al. Network slicing with MEC and deep reinforcement learning for the Internet of Vehicles
Shi et al. Drone-cell trajectory planning and resource allocation for highly mobile networks: A hierarchical DRL approach
Cao et al. Deep reinforcement learning for multi-user access control in non-terrestrial networks
CN112737837B (zh) 一种高动态网络拓扑下无人机群带宽资源分配方法
US10433191B2 (en) Channel management in a virtual access point (VAP)
CN114339660B (zh) 一种无人机集群随机接入方法
Elsayed et al. Deep reinforcement learning for reducing latency in mission critical services
Du et al. Multi-agent reinforcement learning for dynamic resource management in 6G in-X subnetworks
Qiu et al. A data-driven packet routing algorithm for an unmanned aerial vehicle swarm: A multi-agent reinforcement learning approach
Ebrahimzadeh et al. Delay-constrained teleoperation task scheduling and assignment for human+ machine hybrid activities over FiWi enhanced networks
CN115499921A (zh) 面向复杂无人机网络的三维轨迹设计及资源调度优化方法
CN107567068B (zh) 一种超密集小型基站自适应fso回程网络构建方法
Wang et al. Bandwidth allocation and trajectory control in UAV-assisted IoV edge computing using multiagent reinforcement learning
CN113115451A (zh) 基于多智能体深度强化学习的干扰管理和资源分配方案
Yin et al. Routing and resource allocation for iab multi-hop network in 5g advanced
CN112020001A (zh) 无人机多站多机系统时隙资源分配方法
Xu et al. Joint topology construction and power adjustment for UAV networks: A deep reinforcement learning based approach
CN115802370A (zh) 一种通信方法及装置
Qidan et al. Cooperative artificial neural networks for rate-maximization in optical wireless networks
Kaur et al. Intelligent spectrum management based on reinforcement learning schemes in cooperative cognitive radio networks
Zhang et al. Joint computation offloading and trajectory design for aerial computing
Mehta Genetic algorithm based bi-objective optimization of sigmoidal utility and throughput in ad-hoc wireless networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant