CN114142912A - 高动态空中网络时间覆盖连续性保障的资源管控方法 - Google Patents
高动态空中网络时间覆盖连续性保障的资源管控方法 Download PDFInfo
- Publication number
- CN114142912A CN114142912A CN202111424225.6A CN202111424225A CN114142912A CN 114142912 A CN114142912 A CN 114142912A CN 202111424225 A CN202111424225 A CN 202111424225A CN 114142912 A CN114142912 A CN 114142912A
- Authority
- CN
- China
- Prior art keywords
- network
- sub
- deep
- base station
- central node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B7/00—Radio transmission systems, i.e. using radiation field
- H04B7/14—Relay systems
- H04B7/15—Active relay systems
- H04B7/185—Space-based or airborne stations; Stations for satellite systems
- H04B7/18502—Airborne stations
- H04B7/18504—Aircraft used as relay or high altitude atmospheric platform
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W16/00—Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
- H04W16/18—Network planning tools
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W72/00—Local resource management
- H04W72/04—Wireless resource allocation
- H04W72/044—Wireless resource allocation based on the type of the allocated resource
- H04W72/0453—Resources in frequency domain, e.g. a carrier in FDMA
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W72/00—Local resource management
- H04W72/04—Wireless resource allocation
- H04W72/044—Wireless resource allocation based on the type of the allocated resource
- H04W72/0473—Wireless resource allocation based on the type of the allocated resource the resource being transmission power
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Astronomy & Astrophysics (AREA)
- Aviation & Aerospace Engineering (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明公开了一种高动态空中网络时间覆盖连续性保障的资源管控方法,主要解决现有技术无法在高动态空中无线环境下保障时间覆盖连续性的问题。其实现方案是:在m个无人机上均搭载控制器和信号收发台,构成m个空中基站和一个中心节点;根据地面用户的覆盖需求为各个无人机设定飞行轨迹;中心节点通过深度强化学习训练获得子信道分配网络和功率分配网络;当覆盖需求发生变化时,将训练后的这两个网络参数分别迁移至新飞行轨迹下的子信道分配网络和功率分配网络;中心节点向各个空中基站部署已迁移后的两个网络;各空中基站将自身的这子信道和功率分配给地面用户。本发明能保障高动态空中网络的时间覆盖连续性,可用于高动态空中无线通信网络。
Description
技术领域
本发明属于无人机技术领域,更进一步涉及一种资源管控方法,可用于高动态空中网络下保障用户通信覆盖的时间连续性。
背景技术
利用空中基站对地面用户提供空时连续的覆盖是高动态空中无线通信网络中的关键技术。然而由于空中无线网络是具有高动态性的,使空地信道具有时变性,进而造成了信道状态信息不完整和过时,从而导致空中基站对地的覆盖在时间维度上的不连续性。在这种情况下,如何保障高动态空中无线网络中覆盖的时间连续性,对空中基站在6G网络中的实际应用具有重要意义。
湖北工业大学在其申请号202011079226.7的专利申请文献中公布了一种基于深度强化学习的无人机轨迹及功率联合优化方法。该方法首先建立无人机系统模型,对无人机轨迹控制和功率分配问题进行描述;再建立马尔可夫模型,包括通过设置状态、动作空间和奖励函数,确定马尔可夫决策过程;然后采用深度确定性策略梯度方法,实现轨迹控制和功率分配的联合优化。但是该方法需要实时的信道状态信息,无法适用面对高动态空中网络的过时信道状态信息。
南京航空航天大学在《China communication,vol.16,no.1,pp.47–56,Feb.2019.(中国通信期刊,2019年2月,第16期,第1卷,第47-56页)》上发表题为“Joint Subcarrierand Power Allocation for Multi-UAV Systems,即“多无人机系统的联合子载波和功率分配”一文,该文研究了多无人机正交频分复用技术OFDM系统中的子载波和功率分配。考虑了一种由于突发传输的预分配和某些子载波不可用于动态子载波分配的情况,首先提出了一种新颖的迭代算法来联合优化子载波和功率分配,从而最大化多无人机OFDM系统中上行链路传输的总速率;再将分配问题转化为加权均方误差问题;然后通过交替优化方法解决联合子信道和功率分配的问题。但是该方法的计算需要耗费大量时间,由于高动态空中网络下通信的实时性较强,较多的计算时间会导致信道状态信息过时的问题更加严重,导致资源管控速度慢。
此外,上述两种方法均无法保障高动态空中网络下用户通信覆盖的时间连续性。
发明内容
本发明的目的在于针对上述现有技术的不足,提出一种高动态空中网络下保障时间覆盖连续性的资源管控方法,以提升资源管控的速度,缓解过时信道状态信息对空中网络通信的影响,保障高动态空中网络下用户通信覆盖的时间连续性。
实现本发明目的的技术方案是:采用两步式的深度强化学习方法,即通过为地面用户先分配子信道,再通过功率来保障地面用户通信覆盖时间的连续性,并在设计深度强化学习的奖励函数时,通过考虑信道的时间相关性,以缓解过时的信道状态信息的影响。同时,通过设计能根据网络覆盖需求进行自适应调整神经网络层数和每层神经元个数的神经网络结构,以保障在网络覆盖需求变化时的通用性,并提升资源管控速度和精度。其具体实现包括如下:
(1)在m个无人机上均搭载控制器和信号收发台,构成m个空中基站,并调试飞行;
(2)在一个无人机上安装处理器、控制器和信号收发台,构成一个中心节点,并调试中心节点与m个空中基站相互通信;
(3)根据地面用户的覆盖需求为各个空中基站设置飞行轨迹;
(4)初始化各个空中基站的当前状态矩阵st、当前动作矩阵at、子信道分配的深度Q网络CDQN的参数和功率分配的深度Q网络PDQN的结构和参数,其中t表示当前时刻,设置最大学习次数λ,并设置当前学习次数为0;
(5)中心节点利用各个空中基站的状态矩阵s进行深度强化学习:
(5a)各个空中基站根据信道状态信息和用户与空中基站的相对距离获取当前状态矩阵st,并向中心节点传输获取的当前状态矩阵st;
(5b)中心节点的根据各个空中基站的当前状态矩阵st、子信道分配的深度Q网络CDQN和功率分配的深度Q网络PDQN,采用ε-greedy策略依次选择下一步子信道分配动作和功率分配动作;
(5c)中心节点将选择各个空中基站的信道分配动作和功率分配动作组成当前动作矩阵at发送给各个空中基站,各个空中基站进行相应的子信道分配和功率分配;
(5d)中心节点设定覆盖服务质量奖励函数,并根据覆盖服务质量奖励函数以及各个空中基站的当前动作矩阵at,获得各个空中基站的覆盖服务质量rt反馈;
(6)中心节点结合各个空中基站的覆盖服务质量rt反馈进行深度强化学习训练:
(6a)中心节点将各个空中基站的每一时刻的状态矩阵st,动作矩阵at,覆盖服务质量rt和下一时刻的状态矩阵st+1组成元组<st,at,rt,st+1>存储到存储器中,其中t∈[1,....,T],T为最大时刻;
(6b)中心节点随机抽取存储器中的n个元组,并利用n个元组和自适应的动量估计算法更新各个空中基站的子信道分配的深度Q网络CDQN和功率分配的深度Q网络PDQN;
(6c)中心节点判断各个空中基站的覆盖服务质量奖励函数是否满足收敛,若是,本轮学习结束,当前学习次数加1,执行(6d);否则,返回(5);
(6d)中心节点判断当前学习次数是否达到最大学习次数:若是,则完成深度强化学习对各个空中基站子信道分配的深度Q网络CDQN和功率分配的深度Q网络PDQN的训练,执行(7);否则,返回(4);
(7)中心节点向各个空中基站部署已训练完的子信道分配的深度Q网络CDQN和功率分配的深度Q网络PDQN:
(7a)中心节点根据地面用户的实际覆盖需求重新设置各个空中基站的飞行参数;
(7b)中心节点判断各个空中基站用当前重新设置的飞行参数是否与已完成子信道分配的深度Q网络CDQN和功率分配的深度Q网络PDQN训练后的各个空中基站采用的飞行参数相同:若是,则执行(7d);否则,执行(7c);
(7c)中心节点利用新的飞行参数下各个空中基站的前h个时刻的状态矩阵st和迁移学习算法,将已完成训练的子信道分配深度Q网络CDQN和功率分配深度Q网络PDQN中的部分参数迁移到重新设置的飞行参数下的子信道分配深度Q网络CDQNn和功率分配深度Q网络PDQNn中,完成重新设置的飞行参数下的子信道分配深度Q网络CDQNn和功率分配深度Q网络PDQNn的迁移,其中h<<T;
(7d)中心节点将在新的飞行参数下已完成迁移的各空中基站的子信道分配的深度Q网络CDQNn和功率分配的深度Q网络PDQNn下发到各个空中基站;
(8)各空中基站将自身的当前状态矩阵st输入到中心节点下发的子信道分配深度Q网络CDQN和功率分配深度Q网络PDQN中,该子信道分配深度Q网络CDQN及功率分配深度Q网络PDQN的输出即为子信道分配方案和功率分配方案,各个空中基站按照此方案将自身的子信道和功率分配给地面用户。
与现有技术相比,本发明具有以下优点:
第一,本发明通过对覆盖服务质量奖励函数的设计,考虑到空中基站需要为地面用户提供在具有时间连续性的通信服务和空中基站需要为地面用户提供高速通信服务这两方因素,解决了现有技术无法保障高动态空中网络覆盖的时间连续性的问题;
第二,本发明由于设计了子信道分配深度Q网络结构和功率分配深度Q网络结构,可以根据地面用户的覆盖需求变化自适应的调整神经网络结构,在不同地面用户网络覆盖需求下能够通用,且减小了联合子信道和功率分配所消耗的时间,提高了资源管控计算速度和精度,进而保障了空中网络覆盖的时间连续性;
第三,本发明由于使用了迁移学习算法,将旧飞行参数下的已训练完成的子信道分配深度Q网络和功率分配深度Q网络的参数分别迁移至新飞行参数下的子信道分配深度Q网络和功率分配深度Q网络,减小了在地面用户的覆盖需求变化时重新训练子信道分配深度Q网络和功率分配深度Q网络的耗时,提高了训练速度,进一步提升了资源管控的速度。
附图说明
图1是本发明的实现流程图。
具体实施方式
下面结合附图对本发明的实施例作进一步的详细描述。
参照图1,本实例的实现步骤如下:
步骤1,构建空中基站,并调试飞行。
本实例空中基站设为m个,每个空中基站是通过在无人机上搭载控制器和信号收发台形成,m≥2。
所述无人机包括机翼固定的固定翼无人机和机翼旋转的旋翼无人机,本实例使用的是固定翼无人机,其包括机身主体、动力装置、电源装置,存储装置及处理器;
所述控制器,安装在无人机的机身,用于控制无人机的飞行轨迹;
所述收发台,包括天线和通信模块,用于对地面用户提供通信服务,该天线安装在无人机底部,朝向地面,以形成覆盖地面用户的波束,增强用户的接收信号强度;
通过调试控制器使空中基站能够按设定的飞行参数飞行。
步骤2,构建中心节点,并调试中心节点与空中基站相互通信。
本实例中心节点设为一个,其通过是在另一架无人机上安装处理器、控制器和信号收发台形成。
该无人机和控制器均与步骤1中所使用的相同;
所述处理器,用于对各个空中基站的子信道分配深度Q网络和功率分配深度Q网络进行训练;
所述收发台,包括天线和通信模块,用以对各个空中基站提供通信服务,该天线安装在无人机侧面,以形成覆盖其他空中基站的波束,增强空中基站的接收信号强度;
通过调试收发台使中心节点能够与各个空中基站的相互通信,即形成一对多的通信网络。
步骤3,中心节点设定各个空中基站的飞行轨迹;
根据地面用户的覆盖需求设定飞行参数并存储在无人机存储装置中,该参数包括空中基站的飞行方向、飞行高度和飞行速度,空中基站按照无人机存储装置中的飞行参数生成所述飞行轨迹。
步骤4,中心节点初始化各个空中基站的参数。
中心节点初始化空中基站参数,包括初始化各个空中基站的当前状态矩阵st、当前动作矩阵at、子信道分配的深度Q网络CDQN的参数和功率分配的深度Q网络PDQN的结构和参数,其中t表示当前时刻,设置最大学习次数λ,并设置当前学习次数为0;
所述当前状态矩阵st、动作矩阵at,分别表示如下:
st=[CSIt,Lt],
at=[cat,pat],
其中,CSIt表示信道状态信息,Lt表示用户与空中基站的相对距离,cat表示子信道分配动作,pat表示功率分配动作,st和at分别表示当前时刻t的状态矩阵和动作矩阵;
所述子信道分配的深度Q网络CDQN的参数和功率分配的深度Q网络PDQN的结构,其均由三个子网和一个比较器组成,其中三个子网的神经网络层数依次递减,即第一个子网的神经网络层数最多,第二个子网的神经网络层数次之,第三个子网的神经网络层数最少,比较器用于将各子网的输出分别与最大信干噪比算法的输出进行对比。
所述最大学习次数是根据场景规模设置,并将当前学习次数设置为0。
步骤5,中心节点开始深度强化学习。
5.1)各个空中基站根据信道状态信息和用户与空中基站的相对距离获取当前状态矩阵st,并向中心节点传输获取的当前状态矩阵st,空中基站的状态矩阵包括当前的信道状态信息和用户与空中基站的相对距离;
5.2)中心节点根据各个空中基站的当前状态矩阵st、子信道分配的深度Q网络CDQN和功率分配的深度Q网络PDQN,采用ε-greedy策略依次选择下一步子信道分配动作和功率分配动作:
5.2.1)中心节点设定概率ε∈[0,1],并生成随机数x∈[0,1],判断x是否大于ε:若x≤ε,则执行5.2.2),否则,执行5.2.3);
5.2.2)中心节点利用空中基站的当前状态矩阵st计算不同的子信道分配动作和功率分配动作下覆盖服务质量rt,然后选择能获得最大覆盖服务质量rt的子信道分配动作和功率分配动作作为当前执行的子信道分配动作和执行功率分配动作,如果存在多个子信道分配动作和功率分配动作都能获得覆盖服务质量rt,则从这些动作中随机选择一个子信道分配动作和功率分配动作作为当前执行的子信道分配动作和执行功率分配动作;
5.2.3)在子信道分配动作空间和功率分配动作空间中随机选择一个子信道分配动作和功率分配动作作为当前执行的子信道分配动作和执行功率分配动作;
5.3)中心节点将选择各个空中基站的信道分配动作和功率分配动作组成当前动作矩阵at发送给各个空中基站,各个空中基站进行相应的子信道分配和功率分配;
5.4)中心节点设定覆盖服务质量奖励函数:
所述奖励函数的设计考虑到空中基站需要为地面用户提供在具有时间连续性的通信服务和空中基站需要为地面用户提供高速通信服务这两方因素,设计如下:
其中I表示连接第n个空中基站的用户总数,N表示空中基站的总数,VAR(),表示方差计算公式;
5.4.2)利用连续T时间内空中基站的频谱效率ST及用户吞吐量的方差VT得到覆盖服务质量奖励函数rT:
rT=ST-VT;
5.5)中心节点根据覆盖服务质量奖励函数以及各个空中基站的当前动作矩阵at,获得各个空中基站的第t时刻的覆盖服务质量rt反馈。
步骤6,中心节点进行深度强化学习训练。
6.1)中心节点将各个空中基站的每一时刻的状态矩阵st,动作矩阵at,覆盖服务质量rt和下一时刻的状态矩阵st+1组成元组<st,at,rt,st+1>存储到存储器中,并随机抽取存储器中的k个元组,其中t∈[1,....,T],T为最大时刻;
6.2),中心节点利用抽取的k个元组和自适应的动量估计算法更新各个空中基站的子信道分配的深度Q网络CDQN和功率分配的深度Q网络PDQN:
6.2.1)中心节点将空中基站的当前状态矩阵st分别输入到子信道分配的深度Q网络CDQN和功率分配的深度Q网络PDQN,这两个网络的输出分别为子信道分配动作cat和功率分配动作pat,将其组成动作矩阵at=[cat,pat];
6.2.2)中心节点根据各个空中基站的当前动作矩阵at=[cat,pat]和覆盖服务质量奖励函数rT,计算得到各个空中基站的当前的覆盖服务质量rt:
rt=St-Vt,
6.2.3)中心节点将当前动作矩阵at下发到各个空中基站,各个空中基站根据当前动作矩阵at执行相应的子信道分配动作和功率分配动作后飞到下一个位置,并将自身状态信息st+1传送给中心节点;
6.2.4)中心节点将上述当前状态矩阵st、当前动作矩阵at、当前的覆盖服务质量rt和下一时刻的状态矩阵st+1组成元组et=<st,at,rt,st+1>存储在存储器中,再从存储器中随机抽取k个元组,利用这些元组计算子信道分配深度Q网络CDQN的目标Q值
其中,Q(st,cat;θc′)是子信道分配的深度Q网络CDQN中的目标Q网络,θc′是子信道分配的目标Q网络的参数,A1是子信道可选择的动作空间,γ是折扣因子;
其中,Q(st,cat;θc)表示子信道分配的深度Q网络CDQN中的在线Q网络,θc是子信道分配的在线Q网络的参数;
6.2.6)中心节点对子信道分配深度Q网络CDQN的Q值的损失值进行最小化,得到子信道分配的深度Q网络CDQN中的参数θc,完成子信道分配的深度Q网络CDQN的一次训练;
6.2.7)按照6.2.4)-6.2.5)的过程,中心节点对功率分配深度Q网络PDQN的Q值的损失值进行最小化,得到功率分配的深度Q网络PDQN中的参数θp,完成功率分配的深度Q网络PDQN的一次训练;
6.3)中心节点判断各个空中基站的覆盖服务质量奖励函数是否满足收敛:若是,本轮学习结束,当前学习次数加1,执行6.4);否则,返回步骤5;
6.4)中心节点判断当前学习次数是否达到最大学习次数:若是,则完成深度强化学习对各个空中基站子信道分配的深度Q网络CDQN和功率分配的深度Q网络PDQN的训练,执行步骤7;否则,返回步骤4。
步骤7,中心节点向各个空中基站部署已训练完的子信道分配的深度Q网络CDQN和功率分配的深度Q网络PDQN。
7.1)中心节点根据地面用户的实际覆盖需求重新设置各个空中基站的飞行参数;
7.2)中心节点判断当前各个基站重新设置的飞行参数是否与已训练完子信道分配的深度Q网络CDQN和功率分配的深度Q网络PDQN的各个空中基站所采用的飞行参数相同:若是,则执行7.4);否则,执行7.3);
7.3)中心节点利用新的飞行参数下各个空中基站的前h个时刻的状态矩阵st和迁移学习算法,将已完成训练的子信道分配深度Q网络CDQN和功率分配深度Q网络PDQN中的部分参数迁移到重新设置的飞行参数下的子信道分配深度Q网络CDQNn和功率分配深度Q网络PDQNn中,h<<T,其实现如下:
7.3.1)中心节点将已完成训练的子信道分配深度Q网络CDQN中的前k层神经网络参数θc复制到新飞行参数下各个空中基站的子信道分配深度Q网络CDQNn的参数θnc中;
7.3.2)中心节点利用新飞行参数下各个空中基站的前h个时刻的状态矩阵st微调新飞行参数下的子信道分配深度Q网络CDQNn剩余层神经网络,得到新飞行参数下的子信道分配的深度Q网络CDQNn中参数θnc,完成子信道分配的深度Q网络CDQNn的迁移;
7.3.3)中心节点将已完成训练的功率分配深度Q网络PDQN中的前k层神经网络参数θp复制到新飞行参数下各个空中基站的功率分配深度Q网络PDQNn的参数θnp中;
7.3.4)中心节点利用新飞行参数下各个空中基站的前h个时刻的状态矩阵st微调新飞行参数下的功率分配深度Q网络PDQNn剩余层神经网络,得到新飞行参数下的功率分配的深度Q网络PDQNn中参数θnp,完成功率分配的深度Q网络PDQNn的迁移;
7.4)中心节点将在新的飞行参数下已完成迁移的各空中基站的子信道分配的深度Q网络CDQNn和功率分配的深度Q网络PDQNn下发到各个空中基站。
步骤8,各空中基站将自身的当前状态矩阵st输入到中心节点下发的子信道分配深度Q网络CDQNn和功率分配深度Q网络PDQNn中,该子信道分配深度Q网络CDQNn及功率分配深度Q网络PDQNn的输出即为子信道分配方案和功率分配方案,各个空中基站按照此方案将自身的子信道和功率分配给地面用户。
以上描述仅是本发明的一个具体实例,并未构成对本发明的任何限制,显然对于本领域的专业人员来说,在了解了本发明内容和原理后,都可能在不背离本发明原理、结构的情况下,进行形式和细节上的各种修改和改变,但是这些基于本发明思想的修正和改变仍在本发明的权利要求保护范围之内。
Claims (7)
1.一种高动态空中网络时间覆盖连续性保障的资源管控方法,其特征在于,包括:
(1)在m个无人机上均搭载控制器和信号收发台,构成m个空中基站,并调试飞行;
(2)在一个无人机上安装处理器、控制器和信号收发台,构成一个中心节点,并调试中心节点与m个空中基站相互通信;
(3)根据地面用户的覆盖需求为各个空中基站设置飞行轨迹;
(4)初始化各个空中基站的当前状态矩阵st、当前动作矩阵at、子信道分配的深度Q网络CDQN的参数和功率分配的深度Q网络PDQN的结构和参数,其中t表示当前时刻,设置最大学习次数λ,并设置当前学习次数为0;
(5)中心节点利用各个空中基站的状态矩阵s进行深度强化学习:
(5a)各个空中基站根据信道状态信息和用户与空中基站的相对距离获取当前状态矩阵st,并向中心节点传输获取的当前状态矩阵st;
(5b)中心节点的根据各个空中基站的当前状态矩阵st、子信道分配的深度Q网络CDQN和功率分配的深度Q网络PDQN,采用ε-greedy策略依次选择下一步子信道分配动作和功率分配动作;
(5c)中心节点将选择各个空中基站的信道分配动作和功率分配动作组成当前动作矩阵at发送给各个空中基站,各个空中基站进行相应的子信道分配和功率分配;
(5d)中心节点设定覆盖服务质量奖励函数,并根据覆盖服务质量奖励函数以及各个空中基站的当前动作矩阵at,获得各个空中基站的覆盖服务质量rt反馈;
(6)中心节点结合各个空中基站的覆盖服务质量rt反馈进行深度强化学习训练:
(6a)中心节点将各个空中基站的每一时刻的状态矩阵st,动作矩阵at,覆盖服务质量rt和下一时刻的状态矩阵st+1组成元组<st,at,rt,st+1>存储到存储器中,其中t∈[1,....,T],T为最大时刻;
(6b)中心节点随机抽取存储器中的k个元组,并利用k个元组和自适应的动量估计算法更新各个空中基站的子信道分配的深度Q网络CDQN和功率分配的深度Q网络PDQN;
(6c)中心节点判断各个空中基站的覆盖服务质量奖励函数是否满足收敛,若是,本轮学习结束,当前学习次数加1,执行(6d);否则,返回(5);
(6d)中心节点判断当前学习次数是否达到最大学习次数:若是,则完成深度强化学习对各个空中基站子信道分配的深度Q网络CDQN和功率分配的深度Q网络PDQN的训练,执行(7);否则,返回(4);
(7)中心节点向各个空中基站部署已训练完的子信道分配的深度Q网络CDQN和功率分配的深度Q网络PDQN:
(7a)中心节点根据地面用户的实际覆盖需求重新设置各个空中基站的飞行参数;
(7b)中心节点判断各个空中基站用当前重新设置的飞行参数是否与已完成子信道分配的深度Q网络CDQN和功率分配的深度Q网络PDQN训练后各个空中基站采用的飞行参数相同:若是,则执行(7d);否则,执行(7c);
(7c)中心节点利用新的飞行参数下各个空中基站的前h个时刻的状态矩阵st和迁移学习算法,将已完成训练的子信道分配深度Q网络CDQN和功率分配深度Q网络PDQN中的部分参数迁移到重新设置的飞行参数下的子信道分配深度Q网络CDQNn和功率分配深度Q网络PDQNn中,完成重新设置的飞行参数下的子信道分配深度Q网络CDQNn和功率分配深度Q网络PDQNn的迁移,其中h<<T;
(7d)中心节点将在新的飞行参数下已完成迁移的各空中基站的子信道分配的深度Q网络CDQNn和功率分配的深度Q网络PDQNn下发到各个空中基站;
(8)各空中基站将自身的当前状态矩阵st输入到中心节点下发的子信道分配深度Q网络CDQN和功率分配深度Q网络PDQN中,该子信道分配深度Q网络CDQN及功率分配深度Q网络PDQN的输出即为子信道分配方案和功率分配方案,各个空中基站按照此方案将自身的子信道和功率分配给地面用户。
2.根据权利要求1所述的方法,其特征在于,(4)中初始化的当前状态矩阵st、动作矩阵at,分别表示如下:
st=[CSIt,Lt],
at=[cat,pat],
其中,CSIt表示信道状态信息,Lt表示用户与空中基站的相对距离,cat表示子信道分配动作,pat表示功率分配动作,st和at分别表示当前时刻t的状态矩阵和动作矩阵。
3.根据权利要求1所述的方法,其特征在于,(4)中设置子信道分配的深度Q网络CDQN的参数和功率分配的深度Q网络PDQN的结构,其均由三个子网和一个比较器组成,其中三个子网的神经网络层数依次由多到少,比较器用于将各子网的输出分别与最大信干噪比算法的输出进行对比。
4.根据权利要求1所述的方法,其特征在于,(5b)中采用ε-greedy策略依次选择下一步子信道分配动作和功率分配动作,实现如下:
(5b1)中心节点设定概率ε∈[0,1],并生成随机数x∈[0,1],判断x是否大于ε:若x≤ε,则执行(5b2),否则,执行(5b3);
(5b2)中心节点利用空中基站的当前状态矩阵st计算不同的子信道分配动作和功率分配动作下覆盖服务质量rt,然后选择能获得最大覆盖服务质量rt的子信道分配动作和功率分配动作作为当前执行的子信道分配动作和执行功率分配动作,如果存在多个子信道分配动作和功率分配动作都能获得覆盖服务质量rt,则从这些动作中随机选择一个子信道分配动作和功率分配动作作为当前执行的子信道分配动作和执行功率分配动作;
(5b3)在子信道分配动作空间和功率分配动作空间中随机选择一个子信道分配动作和功率分配动作作为当前执行的子信道分配动作和执行功率分配动作。
6.根据权利要求1所述的方法,其特征在于,(6b)中利用k个元组和自适应的动量估计算法更新各个空中基站的子信道分配的深度Q网络CDQN和功率分配的深度Q网络PDQN,实现如下:
(6b1)中心节点将空中基站的当前状态矩阵st分别输入到子信道分配的深度Q网络CDQN和功率分配的深度Q网络PDQN,这两个网络的输出分别为子信道分配动作cat和功率分配动作pat,将其组成动作矩阵at=[cat,pat];再根据各个空中基站的当前动作矩阵at和覆盖服务质量奖励函数,计算得到各个空中基站的覆盖服务质量rt,并将当前动作矩阵at下发到各个空中基站;
(6b2)各个空中基站根据at执行相应的子信道分配动作和功率分配动作后飞到下一个位置,并将自身状态信息st+1传送给中心节点;
其中,Q(st,cat;θ′c)是子信道分配的深度Q网络CDQN中的目标Q网络,θ′c是子信道分配的目标Q网络的参数,A1是子信道可选择的动作空间,γ是折扣因子;
其中,Q(st,cat;θc)表示子信道分配的深度Q网络CDQN中的在线Q网络,θc是子信道分配的在线Q网络的参数;
(6b5)中心节点对子信道分配深度Q网络CDQN的Q值的损失值进行最小化,得到子信道分配的深度Q网络CDQN中的参数θc,完成子信道分配的深度Q网络CDQN的训练;
(6b6)按照(6b3)-(6b4)的过程,中心节点对功率分配深度Q网络PDQN的Q值的损失值进行最小化,得到功率分配的深度Q网络PDQN中的参数θp,完成功率分配的深度Q网络PDQN的训练。
7.根据权利要求1所述的方法,其特征在于,(7c)所述中心节点利用新的飞行参数下各个空中基站的前h个时刻的状态矩阵st和迁移学习算法将已完成训练的子信道分配深度Q网络CDQN和功率分配深度Q网络PDQN中的部分参数迁移到重新设置的飞行参数下的子信道分配深度Q网络CDQNn和功率分配深度Q网络PDQNn中,实现如下:
(7c1)中心节点将已完成训练的子信道分配深度Q网络CDQN中的前k层神经网络参数θc复制到新飞行参数下各个空中基站的子信道分配深度Q网络CDQNn的参数θnc中;
(7c2)中心节点利用新飞行参数下各个空中基站的前h个时刻的状态矩阵st微调新飞行参数下的子信道分配深度Q网络CDQNn剩余层神经网络,得到新飞行参数下的子信道分配的深度Q网络CDQNn中参数θnc,完成子信道分配的深度Q网络φn的迁移;
(7c3)中心节点将已完成训练的功率分配深度Q网络PDQN中的前k层神经网络参数θp复制到新飞行参数下各个空中基站的功率分配深度Q网络PDQNn的参数θnp中;
(7c4)中心节点利用新飞行参数下各个空中基站的前h个时刻的状态矩阵st微调新飞行参数下的功率分配深度Q网络PDQNn剩余层神经网络,得到新飞行参数下的功率分配的深度Q网络PDQNn中参数θnp,完成功率分配的深度Q网络PDQNn的迁移。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111424225.6A CN114142912B (zh) | 2021-11-26 | 2021-11-26 | 高动态空中网络时间覆盖连续性保障的资源管控方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111424225.6A CN114142912B (zh) | 2021-11-26 | 2021-11-26 | 高动态空中网络时间覆盖连续性保障的资源管控方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114142912A true CN114142912A (zh) | 2022-03-04 |
CN114142912B CN114142912B (zh) | 2023-01-06 |
Family
ID=80388639
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111424225.6A Active CN114142912B (zh) | 2021-11-26 | 2021-11-26 | 高动态空中网络时间覆盖连续性保障的资源管控方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114142912B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114630335A (zh) * | 2022-03-11 | 2022-06-14 | 西安电子科技大学 | 时效性保障的低能耗高动态空中网络覆盖方法 |
CN115379465A (zh) * | 2022-08-24 | 2022-11-22 | 西安电子科技大学 | 一种面向空地网络的接入回传一体化能效优化方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190014488A1 (en) * | 2017-07-06 | 2019-01-10 | Futurewei Technologies, Inc. | System and method for deep learning and wireless network optimization using deep learning |
CN109275094A (zh) * | 2018-11-02 | 2019-01-25 | 北京邮电大学 | 一种高能效无人机覆盖点连续覆盖方法和装置 |
CN109474980A (zh) * | 2018-12-14 | 2019-03-15 | 北京科技大学 | 一种基于深度增强学习的无线网络资源分配方法 |
CN110488861A (zh) * | 2019-07-30 | 2019-11-22 | 北京邮电大学 | 基于深度强化学习的无人机轨迹优化方法、装置和无人机 |
CN110809274A (zh) * | 2019-10-28 | 2020-02-18 | 南京邮电大学 | 一种面向窄带物联网的无人机基站增强网络优化方法 |
CN110958680A (zh) * | 2019-12-09 | 2020-04-03 | 长江师范学院 | 面向能量效率的无人机群多智能体深度强化学习优化方法 |
CN111786713A (zh) * | 2020-06-04 | 2020-10-16 | 大连理工大学 | 一种基于多智能体深度强化学习的无人机网络悬停位置优化方法 |
CN112564767A (zh) * | 2020-11-30 | 2021-03-26 | 北京邮电大学 | 无人机网络中基于自组织优化协作的连续覆盖方法 |
-
2021
- 2021-11-26 CN CN202111424225.6A patent/CN114142912B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190014488A1 (en) * | 2017-07-06 | 2019-01-10 | Futurewei Technologies, Inc. | System and method for deep learning and wireless network optimization using deep learning |
CN109275094A (zh) * | 2018-11-02 | 2019-01-25 | 北京邮电大学 | 一种高能效无人机覆盖点连续覆盖方法和装置 |
CN109474980A (zh) * | 2018-12-14 | 2019-03-15 | 北京科技大学 | 一种基于深度增强学习的无线网络资源分配方法 |
CN110488861A (zh) * | 2019-07-30 | 2019-11-22 | 北京邮电大学 | 基于深度强化学习的无人机轨迹优化方法、装置和无人机 |
CN110809274A (zh) * | 2019-10-28 | 2020-02-18 | 南京邮电大学 | 一种面向窄带物联网的无人机基站增强网络优化方法 |
CN110958680A (zh) * | 2019-12-09 | 2020-04-03 | 长江师范学院 | 面向能量效率的无人机群多智能体深度强化学习优化方法 |
CN111786713A (zh) * | 2020-06-04 | 2020-10-16 | 大连理工大学 | 一种基于多智能体深度强化学习的无人机网络悬停位置优化方法 |
CN112564767A (zh) * | 2020-11-30 | 2021-03-26 | 北京邮电大学 | 无人机网络中基于自组织优化协作的连续覆盖方法 |
Non-Patent Citations (3)
Title |
---|
CHENXI ZHAO等: "Multi-UAV Trajectory Planning for Energy-Efficient Content Coverage: A Decentralized Learning-Based Approach", 《IEEE JOURNAL ON SELECTED AREAS IN COMMUNICATIONS》 * |
WENJUN XU等: "Joint topology construction and power adjustment for UAV networks: A deep reinforcement learning based approach", 《CHINA COMMUNICATIONS》 * |
陈前斌等: "基于深度强化学习的异构云无线接入网自适应无线资源分配算法", 《电子与信息学报》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114630335A (zh) * | 2022-03-11 | 2022-06-14 | 西安电子科技大学 | 时效性保障的低能耗高动态空中网络覆盖方法 |
CN114630335B (zh) * | 2022-03-11 | 2023-09-08 | 西安电子科技大学 | 时效性保障的低能耗高动态空中网络覆盖方法 |
CN115379465A (zh) * | 2022-08-24 | 2022-11-22 | 西安电子科技大学 | 一种面向空地网络的接入回传一体化能效优化方法及系统 |
CN115379465B (zh) * | 2022-08-24 | 2023-08-01 | 西安电子科技大学 | 一种面向空地网络的接入回传一体化能效优化方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114142912B (zh) | 2023-01-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111786713B (zh) | 一种基于多智能体深度强化学习的无人机网络悬停位置优化方法 | |
Xu et al. | Overcoming endurance issue: UAV-enabled communications with proactive caching | |
CN113162682B (zh) | 一种基于pd-noma的多波束leo卫星系统资源分配方法 | |
CN112118556B (zh) | 基于深度强化学习的无人机轨迹及功率联合优化方法 | |
CN109831797B (zh) | 一种推动功率受限的无人机基站带宽和轨迹联合优化方法 | |
CN114142912B (zh) | 高动态空中网络时间覆盖连续性保障的资源管控方法 | |
US10939408B2 (en) | Method and system for positioning low altitude platform station (LAPS) drone cells | |
Zhan et al. | Energy-efficient data uploading for cellular-connected UAV systems | |
CN111479239B (zh) | 一种多天线无人机数据采集系统的传感器发射能耗优化方法 | |
CN111970709B (zh) | 一种基于粒子群优化算法的无人机中继部署方法及系统 | |
CN110730495A (zh) | 能量约束下的无人机数据分发优化方法 | |
CN113660681B (zh) | 一种应用于无人机集群辅助传输的多智能体资源优化方法 | |
CN111526592B (zh) | 一种用于无线干扰信道中的非协作多智能体功率控制方法 | |
CN113359480B (zh) | 基于mappo算法多无人机与用户协同通信优化方法 | |
Yan et al. | Safety-oriented resource allocation for space-ground integrated cloud networks of high-speed railways | |
CN114070379B (zh) | 基于安全能效公平性的无人机航迹优化与资源分配方法 | |
Cui et al. | Latency Optimization for Hybrid GEO–LEO Satellite-Assisted IoT Networks | |
CN113206701A (zh) | 一种无人机飞行基站的三维部署和功率分配联合优化方法 | |
CN115021799A (zh) | 一种基于多智能体协同的低轨卫星切换方法 | |
CN115499921A (zh) | 面向复杂无人机网络的三维轨迹设计及资源调度优化方法 | |
Liu et al. | Joint resource optimization for UAV-enabled multichannel Internet of Things based on intelligent fog computing | |
CN114900225A (zh) | 一种基于低轨巨星座的民航互联网业务管理与接入资源分配方法 | |
CN115441939A (zh) | 基于maddpg算法的多波束卫星通信系统资源分配方法 | |
CN115407794A (zh) | 基于强化学习的海域安全通信无人机轨迹实时规划方法 | |
CN115802318A (zh) | 一种基于无人机辅助车联网资源优化方法、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |