CN115038155B - 一种超密集多接入点的动态协同传输方法 - Google Patents

一种超密集多接入点的动态协同传输方法 Download PDF

Info

Publication number
CN115038155B
CN115038155B CN202210566314.2A CN202210566314A CN115038155B CN 115038155 B CN115038155 B CN 115038155B CN 202210566314 A CN202210566314 A CN 202210566314A CN 115038155 B CN115038155 B CN 115038155B
Authority
CN
China
Prior art keywords
agent
user
access
subcarrier
leaf node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210566314.2A
Other languages
English (en)
Other versions
CN115038155A (zh
Inventor
黄川�
崔曙光
王丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chinese University of Hong Kong Shenzhen
Original Assignee
Chinese University of Hong Kong Shenzhen
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chinese University of Hong Kong Shenzhen filed Critical Chinese University of Hong Kong Shenzhen
Priority to CN202210566314.2A priority Critical patent/CN115038155B/zh
Publication of CN115038155A publication Critical patent/CN115038155A/zh
Application granted granted Critical
Publication of CN115038155B publication Critical patent/CN115038155B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • H04W52/18TPC being performed according to specific parameters
    • H04W52/24TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters
    • H04W52/241TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters taking into account channel quality metrics, e.g. SIR, SNR, CIR, Eb/lo
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • H04W52/18TPC being performed according to specific parameters
    • H04W52/24TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters
    • H04W52/243TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters taking into account interferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • H04W52/18TPC being performed according to specific parameters
    • H04W52/26TPC being performed according to specific parameters using transmission rate or quality of service QoS [Quality of Service]
    • H04W52/267TPC being performed according to specific parameters using transmission rate or quality of service QoS [Quality of Service] taking into account the information rate
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • H04W52/30TPC using constraints in the total amount of available transmission power
    • H04W52/34TPC management, i.e. sharing limited amount of power among users or channels or data types, e.g. cell loading
    • H04W52/346TPC management, i.e. sharing limited amount of power among users or channels or data types, e.g. cell loading distributing total power among users or channels
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种超密集多接入点的动态协同传输方法,包括以下步骤:S1.在实时网络状态下的对多用户接入和功率分配问题进行建模;S2.根据步骤S1中的模型,基于树状结构策略梯度进行多智能体强化学习,得到成熟的神经网络;S3.利用成熟的神经网络,实现超密集多接入点的动态协同传输。本发明在多个用户竞争子载波资源时,实现了多接入点的协同传输,避免了用户竞争导致的资源冲突,从而避免了通信链路受到影响无法传输数据的情况,从而提高了用户服务质量。

Description

一种超密集多接入点的动态协同传输方法
技术领域
本发明涉及通信领域,特别是涉及一种超密集多接入点的动态协同传输方法,
背景技术
现有大多数研究方法只能解决静态网络环境中信道状态信息已知情况下UDN的用户接入问题。面对真实网络环境中,有限的回程容量以及快速变化的信道带来的挑战,近年来,深度强化学习(DRL)被广泛应用于大型网络,以解决信道状态信息不断变化的用户接入问题。根据采用的算法不同,基于DRL的用户接入和功率分配问题可分为基于值和基于策略的方法。其中,深度Q学习(DQN)是目前最流行的基于值的DRL方法。在DQN中,Q值代表了给定状态下执行动作的质量,并基于Q值选择当前的动作。在UDN中,研究基于DRL的用户接入和功率分配方案面临的主要挑战是,随着网络规模的增加,离散的动作空间将变得非常庞大。
在UDN中,用户密度将达到每平方千米数百个,其采取的离散动作随用户数呈指数增长。因此,基于DRL的UDN通信系统需要更多的训练样本才能达到统计效率,较大的动作空间也容易导致学习算法收敛到次优策略。为了降低复杂度,一种在连续空间选择离散动作的方法被提出,通过最近邻连续空间的候选项目选择动作。然而,该方法存在学习到的连续动作与实际期望的离散动作的不一致性,从而导致不满意的结果。针对这一问题,树状结构的策略梯度推荐架构运用在推荐系统中,所有待推荐的项目被分类构建一个平衡分层聚类树,选择推荐的项目则可以描述为寻找从根到树的某个叶节点的路径。结果表明,该架构大大降低了训练阶段和决策阶段的时间复杂度,然而聚类算法的选取也严重影响了系统的性能。
发明内容
本发明的目的在于克服现有技术的不足,提供一种超密集多接入点的动态协同传输方法。
本发明的目的是通过以下技术方案来实现的:一种超密集多接入点的动态协同传输方法,包括以下步骤:
S1.在实时网络状态下的对多用户接入和功率分配问题进行建模;
S2.根据步骤S1中的模型,基于树状结构策略梯度进行多智能体强化学习,得到成熟的神经网络;
S3.利用成熟的神经网络,实现超密集多接入点的动态协同传输。
进一步地,所述步骤S1包括:
考虑K个AP和N个用户,随机部署而组成的UDN场景,N个用户中包括Nu个UU和Nd个DU;网络中整个带宽被平均划分为C个子载波,记为
Figure GDA0003769999450000021
每个AP都具有C个正交的子载波资源;其中AP是指接入点,UU是指上行用户,DU是指下行用户,UDN是指超密集网络;
设用户能够在不同的子载波上接入多个AP,而每个AP同一子载波上最多允许接入一对UU和DU;所有AP工作在混合双工(SD)模式下与接入其中的半双工UU和DU进行通信;
考虑到在具有有限资源的UDN中,多个用户竞争子载波资源必然会出现冲突;一旦发生冲突,所涉及的通信链路将无法传输数据,从而影响用户服务质量,故构建上行传输模型和下行传输模型,并实现多用户接入和功率分配问题建模。
其中,所述构建上行传输模型包括:
对于上行传输,设在t时隙,第n个UU接入第k个AP的第c个子载波,并以功率为
Figure GDA0003769999450000022
发送信号,其中
Figure GDA0003769999450000023
第k个AP中第n个UU在第c个子载波上的上行SINR表示为
Figure GDA0003769999450000024
其中,SINR表示信干噪比,
Figure GDA0003769999450000025
表示子载波c上第n个UU到第k个AP的信道增益;
Figure GDA0003769999450000026
表示子载波c上第k个AP到第n个DU的发送功率;Δξ表示自干扰消除因子;σ2表示CSCG噪声功率;
Figure GDA0003769999450000027
表示子载波c上第n个UU收到的来自其他UU和AP的同频干扰,记为
Figure GDA0003769999450000028
其中,
Figure GDA0003769999450000029
是一个二进制变量,且当第n′个UU接入第k′个基站的第c个载波时
Figure GDA00037699994500000210
否则
Figure GDA00037699994500000211
因此,若第n个UU接入第k个AP中第c个子载波,其上行传输速率被计算为
Figure GDA00037699994500000212
第n个UU在上行传输中的总数据速率被计算为:
Figure GDA00037699994500000213
其中,所述构建下行传输模型包括:
对于下行传输,第n个DU接入第k个AP的第c个子载波,第k个AP以功率为
Figure GDA0003769999450000031
为第n个DU提供服务;第n个DU接入第k个AP的第c个子载波下行SINR表示为
Figure GDA0003769999450000032
其中,
Figure GDA0003769999450000033
表示子载波c上第k个AP到第n个DU的信道增益;
Figure GDA0003769999450000034
表示子载波c上第n个DU收到接入其他AP的UU以及其他AP的同频干扰,记为
Figure GDA0003769999450000035
因此,若第n个DU接入第k个AP的第c个子载波,其对应的下行传输速率被计算为
Figure GDA0003769999450000036
第n个DU在下行传输中的总数据速率被计算为:
Figure GDA0003769999450000037
其中,所述实现多用户接入和功率分配问题建模的过程包括:
考虑到多个AP之间的协同开销,每个UU和DU的接入成本被定义为接入AP数量的函数,即
Figure GDA0003769999450000038
Figure GDA0003769999450000039
其中,μ表示接入单位AP的固定成本;因此,对于上下行用户n而言,其收益函数被定义为传输速率与接入成本的差值,即
Figure GDA00037699994500000310
其中,符号(·)在上下行链路中分别用UL和DL代替;基于上述分析,时隙t用户满意率被定义为满意用户数与当前时刻所有具有请求状态用户数之比,即
Figure GDA00037699994500000311
其中,
Figure GDA0003769999450000041
Figure GDA0003769999450000042
分别表示每个UU和DU的最低收益,
Figure GDA0003769999450000043
表示指示函数,
Figure GDA0003769999450000044
Figure GDA0003769999450000045
是二进制变量,分别表示t时隙第n个UU和DU的请求状态,1表示请求而0表示非请求状态;相应的优化问题被表述为
Figure GDA0003769999450000046
s.t.C1:
Figure GDA0003769999450000047
C2:
Figure GDA0003769999450000048
C3:
Figure GDA0003769999450000049
C4:
Figure GDA00037699994500000410
其中,约束C1表示AP和UU在每个子载波上的发送功率预算,PUL和PDL分别表示上行和下行最大发送功率;约束C2表示每个UU和DU只能接入每个基站的其中一个子载波;约束C3表示每个UU和DU能够接入多个基站;约束C4是二进制符号的取值范围;
Figure GDA00037699994500000411
Figure GDA00037699994500000412
分别表示整个时隙T上所有UU和DU接入AP策略和发送功率集合。
进一步地,所述步骤S2包括以下子步骤:
S201.构建马尔可夫决策(MDP)过程:
将各个AP看作具有决策功能的智能体,将用户接入和功率分配作为智能体的动作集合;智能体k在时隙t观测到的状态记为用户的请求情况和特定范围内用户到该智能体的CSI,即
Figure GDA00037699994500000413
其中,
Figure GDA00037699994500000414
Figure GDA00037699994500000415
均被记为qn(t),且有qn(t)∈{0,1};其中,1表示用户处于请求状态;0表示用户处于非请求状态;另外子载波c上第n个UU到智能体k和智能体k到第n个DU的信道功率增益也被统一标记为gn,k,c(t);
智能体k根据当前时隙t观察到的状态,决定选择合适的UU和DU加入其某个子载波,并为它们分配相应的功率:因此,动作被记为
Figure GDA00037699994500000416
其中,
Figure GDA00037699994500000417
Figure GDA00037699994500000418
统一被标记为bn,k,c(t),
Figure GDA00037699994500000419
Figure GDA00037699994500000420
统一被标记为pn,k,c(t);考虑离散动作空间,pn,k,c(t)的取值被离散化为:
Figure GDA0003769999450000051
其中,
Figure GDA0003769999450000052
表示离散功率值的集合;L表示离散值的个数;Pmax表示最大发送功率;
各个智能体在t时隙采取行动后,从环境中获取当前时刻的用户满意度r(t)作为奖励函数;所有智能体
Figure GDA0003769999450000053
共享同一奖励函数,即
Figure GDA0003769999450000054
S202.构建多智能体强化学习的树状结构:
每一个智能体k都具备一个三层树状结构,分别由第一层1个非叶节点、第二层M个非叶节点、第三层M×L2C个叶节点组成,且每个非叶节点上都配备一个actor网络。因此,每个智能体都配备1+M个actor网络构成一个actor组群。具体而言,第一层只有一个非叶节点,智能体k在该节点上进行用户组合的选择,每一种选择都映射一组子载波分配的可能,对应原优化问题中的变量
Figure GDA0003769999450000055
Figure GDA0003769999450000056
共有M种选择;因此,第二层有M个非叶节点,且在每一个非叶节点上选择相应的功率组合,一种选择都映射一组功率分配的组合,对应原问题中的设计变量
Figure GDA0003769999450000057
Figure GDA0003769999450000058
共有L2C种选择;因此,第三层共有M×L2C个叶节点,每个m,m∈{1,…,M}非叶节点下对应的L2C叶节点都是L2C种功率分配组合。因此,对于每一个智能体k,从第一层非叶节点——第二层非叶节点——第三层叶节点的每一条路径,都映射了一组子载波分配和功率分配的动作选择ak(t)。
在第一层非叶节点上,智能体k首先输入状态sk(t)进编号为k0的actor网络,得到子载波分配策略πk0(sk(t);θk0),并根据这一策略选择相应的用户组合;针对具有Nu个UU、Nd个DU和C个子载波的UUDN,每个智能体上子载波全部分配给上下行用户的情况种类记为Nu个UU和Nd个DU分别在C个子载波上的排列数的乘积,即
Figure GDA0003769999450000059
其中,A代表排列数;
在第二层非叶节点上,智能体k得到当前用户组合下的功率分配策略πkm(sk(t);θkm),其中,m∈{1,…,M}为第一层非叶节点根据策略πk0(sk(t);θk0)选择的用户组合结果;由S201可知,功率变量pk,n,s的取值被离散成L个等级。对于具有1×2C维度的用户组合m,每一个元素的取值有L种可能。因此,每一个二层非叶节点m都有L2C个叶节点,每个叶节点代表一种功率分配组合,是一个1×2C维度的向量,由此得到设计变量pk,n,c(t)的值;因此,选择动作也即是在当前状态下从根节点移动到某个叶节点的路径;
将第m个非叶节点下的第υ个叶节点编号为mυ,υ∈{1,…,L2C};考虑路径结束在叶节点mυ,以当前状态为输入且与mυ关联的所有actor网络输出的概率分布则表示从k0移动到叶节点mυ的概率;
S203.进行多智能体的动态决策与训练;
在第t个时隙,各个智能体
Figure GDA0003769999450000061
在actor组群指导下输出的路径策略为两层非叶节点策略的乘积,即
πk(ak|sk;θk)=πk(wk|sk;θk)
=πk0(km|sk;θk0km(mυ|sk;θkm),
其中,wk={k0,km,mυ}表示动作ak对应的路径;θk=(θk0km)表示属于ak(t)路径上所有关联的actor神经网络参数;θk0和θkm则分别表示智能体k第一层非叶节点和第二层第m个非叶节点的actor神经网络参数,且均由第k个critic神经网络的输出值Qk指导训练;每个智能体k都配备一个critic网络,critic网络的输入为状态s和动作a,输出为
Figure GDA0003769999450000062
用于评价actor组群选择动作的好坏,即Qk值越大表明该动作越好;critic网络的参数为
Figure GDA0003769999450000063
用于指导actor组群网络参数θk的训练,让actor向更好的方向选择动作。
因此,各个智能体则分布式地根据路径策略选择动作,即
ak(t)~πk(sk(t);θk).
当所有智能体均执行完动作
Figure GDA0003769999450000064
环境返回该动作下的奖励rk(t),并跳转到下一状态sk(t+1);其中rk(t)按照公式
Figure GDA0003769999450000065
进行计算;
所有智能体上的actor组群和critic网络均部署在宏基站上,并利用历史经验进行集中训练,具体地,当分布式决策完成后,所有智能体将经验
Figure GDA0003769999450000066
均上传至宏基站,集中训练器再利用所有智能体的经验对actor组群和critic进行集中训练:
训练actor组群:与训练单个actor网络不同的是,actor组群的策略为两层非叶节点策略的乘积,因此,actor组群的训练通过最小化以下梯度,即
Figure GDA0003769999450000071
其中,a={a1,...,aK},s={s1,...,sK},
Figure GDA0003769999450000072
表示第k个智能体critic神经网络的参数;Jkk)表示θk的梯度,在更新过程中,使得Jkk)最小的θk值即为actor组群训练过程中得到参数更新值;
Figure GDA0003769999450000073
为第k个智能体critic神经网络的输出,用于评估第k个智能体actor组群选择的动作,并指导actor组群的训练向更快的梯度方向下降;
训练critic网络:第k个智能体的critic神经网络训练方式依然是通过最大化损失函数来更新
Figure GDA0003769999450000074
损失函数为:
Figure GDA0003769999450000075
其中,
Figure GDA0003769999450000076
s′和a′表示下一时刻的状态和动作;使得损失函数
Figure GDA0003769999450000077
最大的
Figure GDA0003769999450000078
即为更新后的
Figure GDA0003769999450000079
当训练结束后,训练后的actor神经网络参数被下载到本地actor网络中,用于分布式动作决策。
所述步骤S3包括以下子步骤:
S301.每个智能体基于当前状态sk(t)得到用户接入和功率分配的取值:
Figure GDA00037699994500000710
基于此值选择对应的用户n接入子载波c,并以pk,n,c(t)的功率在上下行之间传输信号;
S302.对于固定的用户n,若多个智能体k的bk,n,c(t)值为1时,表示这些智能体作为协同AP共同为此用户提供通信服务,保证该用户的服务质量。
本发明的有益效果是:本发明有效解决了具有大型离散动作空间的动态用户接入和功率分配问题,提高了密集网络中的平均用户满意率。
附图说明
图1为本发明的方法流程图;
图2为以用户为中心的UDN协同架构示意图;
图3为用户接入和功率分配的树状架构示意图;
图4为不同测试间隔下平均用户满意率随训练次数的变化示意图;
图5为不同接入点数量下的学习性能示意图;
图6为不同用户收益门限下平均用户满意率随接入点数量的变化情况示意图。
具体实施方式
下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。
如图1所示,一种超密集多接入点的动态协同传输方法,包括以下步骤:
S1.在实时网络状态下的对多用户接入和功率分配问题进行建模;
S2.根据步骤S1中的模型,基于树状结构策略梯度进行多智能体强化学习,得到成熟的神经网络;
S3.利用成熟的神经网络,实现超密集多接入点的动态协同传输。
进一步地,所述步骤S1包括:
如图2所示,考虑K个AP和N个用户,随机部署而组成的UDN场景,N个用户中包括Nu个UU和Nd个DU;网络中整个带宽被平均划分为C个子载波,记为
Figure GDA0003769999450000081
每个AP都具有C个正交的子载波资源;其中AP是指接入点,UU是指上行用户,DU是指下行用户,UDN是指超密集网络;
设用户能够在不同的子载波上接入多个AP,而每个AP同一子载波上最多允许接入一对UU和DU;所有AP工作在混合双工(SD)模式下与接入其中的半双工UU和DU进行通信;
考虑到在具有有限资源的UDN中,多个用户竞争子载波资源必然会出现冲突;一旦发生冲突,所涉及的通信链路将无法传输数据,从而影响用户服务质量,故构建上行传输模型和下行传输模型,并实现多用户接入和功率分配问题建模。
其中,所述构建上行传输模型包括:
对于上行传输,设在t时隙,第n个UU接入第k个AP的第c个子载波,并以功率为
Figure GDA0003769999450000082
发送信号,其中
Figure GDA0003769999450000083
第k个AP中第n个UU在第c个子载波上的上行SINR表示为
Figure GDA0003769999450000084
其中,SINR表示信干噪比,
Figure GDA0003769999450000085
表示子载波c上第n个UU到第k个AP的信道增益;
Figure GDA0003769999450000091
表示子载波c上第k个AP到第n个DU的发送功率;Δξ表示自干扰消除因子;σ2表示CSCG噪声功率;
Figure GDA0003769999450000092
表示子载波c上第n个UU收到的来自其他UU和AP的同频干扰,记为
Figure GDA0003769999450000093
其中,
Figure GDA0003769999450000094
是一个二进制变量,且当第n′个UU接入第k′个基站的第c个载波时
Figure GDA0003769999450000095
否则
Figure GDA0003769999450000096
因此,若第n个UU接入第k个AP中第c个子载波,其上行传输速率被计算为
Figure GDA0003769999450000097
第n个UU在上行传输中的总数据速率被计算为:
Figure GDA0003769999450000098
其中,所述构建下行传输模型包括:
对于下行传输,第n个DU接入第k个AP的第c个子载波,第k个AP以功率为
Figure GDA0003769999450000099
为第n个DU提供服务;第n个DU接入第k个AP的第c个子载波下行SINR表示为
Figure GDA00037699994500000910
其中,
Figure GDA00037699994500000911
表示子载波c上第k个AP到第n个DU的信道增益;
Figure GDA00037699994500000912
表示子载波c上第n个DU收到接入其他AP的UU以及其他AP的同频干扰,记为
Figure GDA00037699994500000913
因此,若第n个DU接入第k个AP的第c个子载波,其对应的下行传输速率被计算为
Figure GDA00037699994500000914
第n个DU在下行传输中的总数据速率被计算为:
Figure GDA00037699994500000915
其中,所述实现多用户接入和功率分配问题建模的过程包括:
考虑到多个AP之间的协同开销,每个UU和DU的接入成本被定义为接入AP数量的函数,即
Figure GDA0003769999450000101
Figure GDA0003769999450000102
其中,μ表示接入单位AP的固定成本;因此,对于上下行用户n而言,其收益函数被定义为传输速率与接入成本的差值,即
Figure GDA0003769999450000103
其中,符号(·)在上下行链路中分别用UL和DL代替;基于上述分析,时隙t用户满意率被定义为满意用户数与当前时刻所有具有请求状态用户数之比,即
Figure GDA0003769999450000104
其中,
Figure GDA0003769999450000105
Figure GDA0003769999450000106
分别表示每个UU和DU的最低收益,
Figure GDA0003769999450000107
表示指示函数,
Figure GDA0003769999450000108
Figure GDA0003769999450000109
是二进制变量,分别表示t时隙第n个UU和DU的请求状态,1表示请求而0表示非请求状态;相应的优化问题被表述为
Figure GDA00037699994500001010
s.t.C1:
Figure GDA00037699994500001011
C2:
Figure GDA00037699994500001012
C3:
Figure GDA00037699994500001013
C4:
Figure GDA00037699994500001014
其中,约束C1表示AP和UU在每个子载波上的发送功率预算,PUL和PDL分别表示上行和下行最大发送功率;约束C2表示每个UU和DU只能接入每个基站的其中一个子载波;约束C3表示每个UU和DU能够接入多个基站;约束C4是二进制符号的取值范围;
Figure GDA00037699994500001015
Figure GDA00037699994500001016
分别表示整个时隙T上所有UU和DU接入AP策略和发送功率集合。
进一步地,所述步骤S2包括以下子步骤:
S201.通过DRL的低复杂度动态决策机制,以解决上述优化问题;首先构建马尔可夫决策(MDP)过程:
将各个AP看作具有决策功能的智能体,将用户接入和功率分配作为智能体的动作集合;智能体k在时隙t观测到的状态记为用户的请求情况和特定范围内用户到该智能体的CSI,即
Figure GDA0003769999450000111
其中,
Figure GDA0003769999450000112
Figure GDA0003769999450000113
均被记为qn(t),且有qn(t)∈{0,1};另外子载波c上第n个UU到智能体k和智能体k到第n个DU的信道功率增益也被统一标记为gn,k,c(t);
智能体k根据当前时隙t观察到的状态,决定选择合适的UU和DU加入其某个子载波,并为它们分配相应的功率:因此,动作被记为
Figure GDA0003769999450000114
其中,
Figure GDA0003769999450000115
Figure GDA0003769999450000116
统一被标记为bn,k,c(t),
Figure GDA0003769999450000117
Figure GDA0003769999450000118
统一被标记为pn,k,c(t);考虑离散动作空间,pn,k,c(t)的取值被离散化为:
Figure GDA0003769999450000119
其中,
Figure GDA00037699994500001110
表示离散功率值的集合;L表示离散值的个数;Pmax表示最大发送功率;
各个智能体在t时隙采取行动后,从环境中获取当前时刻的用户满意度r(t)作为奖励函数;所有智能体
Figure GDA00037699994500001111
共享同一奖励函数,即
Figure GDA00037699994500001112
S202.构建多智能体强化学习的树状结构:
每一个智能体k都具备一个三层树状结构,分别由第一层1个非叶节点、第二层M个非叶节点、第三层M×L2C个叶节点组成,且每个非叶节点上都配备一个actor网络。因此,每个智能体都配备1+M个actor网络构成一个actor组群。具体而言,第一层只有一个非叶节点,智能体k在该节点上进行用户组合的选择,每一种选择都映射一组子载波分配的可能,对应原优化问题中的变量
Figure GDA00037699994500001113
Figure GDA00037699994500001114
共有M种选择;因此,第二层有M个非叶节点,且在每一个非叶节点上选择相应的功率组合,一种选择都映射一组功率分配的组合,对应原问题中的设计变量
Figure GDA00037699994500001115
Figure GDA00037699994500001116
共有L2C种选择;因此,第三层共有M×L2C个叶节点,每个m,m∈{1,…,M}非叶节点下对应的L2C叶节点都是L2C种功率分配组合。因此,对于每一个智能体k,从第一层非叶节点——第二层非叶节点——第三层叶节点的每一条路径,都映射了一组子载波分配和功率分配的动作选择ak(t)。
在第一层非叶节点上,智能体k首先输入状态sk(t)进编号为k0的actor网络,得到子载波分配策略πk0(sk(t);θk0),并根据这一策略选择相应的用户组合;针对具有Nu个UU、Nd个DU和C个子载波的UUDN,每个智能体上子载波全部分配给上下行用户的情况种类记为Nu个UU和Nd个DU分别在C个子载波上的排列数的乘积,即
Figure GDA0003769999450000121
其中,A代表排列数;
当C=Nu=Nd=2时,所有用户接入载波的4种情况示例如下表所示,
Figure GDA0003769999450000122
Figure GDA0003769999450000123
当智能体k根据策略πk0(sk(t);θk0)选择用户组合[2,1,2,1]时,有:
b2,k,1(t)=b1,k,2(t)=b4,k,1(t)=b3,k,2(t)=1,也即是
Figure GDA0003769999450000124
样地,选择其他用户组合,也可得到相应的设计变量bn,k,c(t)的值。
在第二层非叶节点上,智能体k得到当前用户组合下的功率分配策略πkm(sk(t);θkm),其中,m∈{1,…,M}为第一层非叶节点根据策略πk0(sk(t);θk0)选择的用户组合结果;由S201可知,功率变量pk,n,s的取值被离散成L个等级。对于具有1×2C维度的用户组合m,每一个元素的取值有L种可能。因此,每一个二层非叶节点m都有L2C个叶节点,每个叶节点代表一种功率分配组合,是一个1×2C维度的向量,由此得到设计变量pk,n,c(t)的值;因此,选择动作也即是在当前状态下从根节点移动到某个叶节点的路径;
将第m个非叶节点下的第υ个叶节点编号为mυ,υ∈{1,…,L2C};考虑路径结束在叶节点mυ,以当前状态为输入且与mυ关联的所有actor网络输出的概率分布则表示从k0移动到叶节点mυ的概率;
S203.进行多智能体的动态决策与训练;
在第t个时隙,各个智能体
Figure GDA0003769999450000131
在actor组群指导下输出的路径策略为两层非叶节点策略的乘积,即
πk(ak|sk;θk)=πk(wk|sk;θk)
=πk0(km|sk;θk0km(mυ|sk;θkm),
其中,wk={k0,km,mυ}表示动作ak对应的路径;θk=(θk0km)表示属于ak(t)路径上所有关联的actor神经网络参数;θk0和θkm则分别表示智能体k第一层非叶节点和第二层第m个非叶节点的actor神经网络参数,且均由第k个critic神经网络的输出值Qk指导训练;每个智能体k都配备一个critic网络,critic网络的输入为状态s和动作a,输出为
Figure GDA0003769999450000132
用于评价actor组群选择动作的好坏,即Qk值越大表明该动作越好;critic网络的参数为
Figure GDA0003769999450000133
用于指导actor组群网络参数θk的训练,让actor向更好的方向选择动作。因此,各个智能体则分布式地根据路径策略选择动作,即
ak(t)~πk(sk(t);θk).
当所有智能体均执行完动作
Figure GDA0003769999450000134
环境返回该动作下的奖励rk(t),并跳转到下一状态sk(t+1);其中rk(t)按照公式
Figure GDA0003769999450000135
进行计算;
为了提高训练效率和稳定性,所有智能体上的actor组群和critic网络均部署在宏基站上,并利用历史经验进行集中训练,具体地,当分布式决策完成后,所有智能体将经验:
Figure GDA0003769999450000136
均上传至宏基站,集中训练器再利用所有智能体的经验对actor组群和critic进行集中训练:
训练actor组群:与训练单个actor网络不同的是,actor组群的策略为两层非叶节点策略的乘积,因此,actor组群的训练通过最小化以下梯度,即
Figure GDA0003769999450000141
其中,a={a1,...,aK},s={s1,...,sK},
Figure GDA0003769999450000142
表示第k个智能体critic神经网络的参数;Jkk)表示θk的梯度,在更新过程中,使得Jkk)最小的θk值即为actor组群训练过程中得到参数更新值;
Figure GDA0003769999450000143
为第k个智能体critic神经网络的输出,用于评估第k个智能体actor组群选择的动作,并指导actor组群的训练向更快的梯度方向下降;
训练critic网络:第k个智能体的critic神经网络训练方式依然是通过最大化损失函数来更新
Figure GDA0003769999450000144
损失函数为:
Figure GDA0003769999450000145
其中,
Figure GDA0003769999450000146
s′和a′表示下一时刻的状态和动作;使得损失函数
Figure GDA0003769999450000147
最大的
Figure GDA0003769999450000148
即为更新后的
Figure GDA0003769999450000149
当训练结束后,训练后的actor神经网络参数被下载到本地actor网络中,用于分布式动作决策。
所述步骤S3包括以下子步骤:
S301.每个智能体基于当前状态sk(t)得到用户接入和功率分配的取值:
Figure GDA00037699994500001410
基于此值选择对应的用户n接入子载波c,并以pk,n,c(t)的功率在上下行之间传输信号;
S302.对于固定的用户n,若多个智能体k的bk,n,c(t)值为1时,表示这些智能体作为协同AP共同为此用户提供通信服务,保证该用户的服务质量。
在本申请的实施例中,考虑在25m×20m固定区域生成接入点个数为K=5的仿真环境,上行用户和下行用户的个数设置为Nu=Nd=10,且各个用户的位置均可在每个AP半径0.05m到10m范围内随机生成,AP半径0.05m以内的区域禁止部署任何用户。最大发送功率设置为PUL=PDL=25dB,高斯白噪声功率σ2设置为-30dB。子载波数设为C=2,上下行功率的离散等级为L=6,自干扰抑制因子设置为Δξ=10-4,每个用户接入单位接入点的固定成本设置为μ=0.05,上下行用户的最低收益门限设置为
Figure GDA0003769999450000151
此外,各个发送端到接收端之间的信道服从一阶复高斯-马尔可夫过程,各个用户的请求状态服从概率为0.7的二项分布。
接下来将定义神经网络的超参数。每个神经网络有一个输入层、三个隐藏层和一个输出层,每个隐藏层的神经元个数设置为128,每个隐藏层的激活函数设置为ReLU函数,奖励折扣因子设置为γ=0.95。为了简单起见,本章考虑每个智能体可以观测到与其距离最接近的4个UU和4个DU。因此,每个智能体具有4×(1+C)个状态神经元。动作神经元分为两类:在每一个actor群组中,第一层非叶节点的动作神经元为M个;而每个第二层非叶节点的动作神经元为L2C个。
图4中分别取Ts=1,10,50和100的四组测试间隔,神经网络每训练1次、10次、50次和100次后,各个智能体利用学到的策略在环境刷新后的T=1000个时隙里选择相应的动作,并计算整个时间轴上UUDN中的平均用户满意率。从图4可以看出,随着测试间隔的增加,神经网络训练出来的结果越来越平滑。在K=5,Nu=Nd=10的仿真环境中,本章所提MATSPG算法在测试间隔为Ts=1,10,50和100情况下都能达到85%的平均用户满意率。
图5所示也研究了不同接入点数量情况下所提算法的学习性能。结果表明,在测试间隔Ts=100设置下,随着接入点数量从K=5增加到K=7时,能够达到的平均用户满意率从85%上升到90%左右。另一方面,随着接入点数量的增加,本发明所提出的算法需要训练更多次才能达到收敛。
图6也给出了在不同收益门限值下平均用户满意率随网络中接入点数量的变化情况。可以看出,在收益门限值不变的情况下,本发明所提出的算法得到的平均用户满意率随网络中接入点数量的增加而不断增加,最后达到趋近于94%的饱和状态。另一方面,在相同接入点数量情况下,随着最低门限
Figure GDA0003769999450000152
从10不断增加到25时,网络中的平均用户满意率逐渐降低。这是由于随着最低门限值增大,能够满足其服务需求的用户数越来越少,要想保持平均用户满意率不变,则需要增加更多网络中接入点的数量。
以上所述是本发明的优选实施方式,应当理解本发明并非局限于本文所披露的形式,不应该看作是对其他实施例的排除,而可用于其他组合、修改和环境,并能够在本文所述构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (3)

1.一种超密集多接入点的动态协同传输方法,其特征在于:包括以下步骤:
S1.在实时网络状态下的对多用户接入和功率分配问题进行建模;
S2.根据步骤S1中的模型,基于树状结构策略梯度进行多智能体强化学习,得到成熟的神经网络;
S3.利用成熟的神经网络,实现超密集多接入点的动态协同传输;
所述步骤S1包括:
考虑K个AP和N个用户,随机部署而组成的UDN场景,N个用户中包括Nu个UU和Nd个DU;网络中整个带宽被平均划分为C个子载波,记为
Figure FDA0003977646540000011
每个AP都具有C个正交的子载波资源;其中AP是指接入点,UU是指上行用户,DU是指下行用户,UDN是指超密集网络;
设用户能够在不同的子载波上接入多个AP,而每个AP同一子载波上最多允许接入一对UU和DU;所有AP工作在SD模式下与接入其中的半双工UU和DU进行通信,其中,SD模式是指混合双工模式;
构建上行传输模型和下行传输模型,并实现多用户接入和功率分配问题建模;
所述构建上行传输模型包括:
对于上行传输,设在t时隙,第n个UU接入第k个AP的第c个子载波,并以功率为
Figure FDA0003977646540000012
发送信号,其中
Figure FDA0003977646540000013
第k个AP中第n个UU在第c个子载波上的上行SINR表示为
Figure FDA0003977646540000014
其中,SINR表示信干噪比,
Figure FDA0003977646540000015
表示子载波c上第n个UU到第k个AP的信道增益;
Figure FDA0003977646540000016
表示子载波c上第k个AP到第n个DU的发送功率;Δξ表示自干扰消除因子;σ2表示CSCG噪声功率;
Figure FDA0003977646540000017
表示子载波c上第n个UU收到的来自其他UU和AP的同频干扰,记为
Figure FDA0003977646540000018
其中,
Figure FDA0003977646540000019
是一个二进制变量,且当第n′个UU接入第k′个基站的第c个载波时
Figure FDA00039776465400000110
否则
Figure FDA00039776465400000111
因此,若第n个UU接入第k个AP中第c个子载波,其上行传输速率被计算为
Figure FDA0003977646540000021
第n个UU在上行传输中的总数据速率被计算为:
Figure FDA0003977646540000022
所述构建下行传输模型包括:
对于下行传输,第n个DU接入第k个AP的第c个子载波,第k个AP以功率为
Figure FDA0003977646540000023
为第n个DU提供服务;第n个DU接入第k个AP的第c个子载波下行SINR表示为
Figure FDA0003977646540000024
其中,
Figure FDA0003977646540000025
表示子载波c上第k个AP到第n个DU的信道增益;
Figure FDA0003977646540000026
表示子载波c上第n个DU收到接入其他AP的UU以及其他AP的同频干扰,记为
Figure FDA0003977646540000027
因此,若第n个DU接入第k个AP的第c个子载波,其对应的下行传输速率被计算为
Figure FDA0003977646540000028
第n个DU在下行传输中的总数据速率被计算为:
Figure FDA0003977646540000029
所述实现多用户接入和功率分配问题建模的过程包括:
考虑到多个AP之间的协同开销,每个UU和DU的接入成本被定义为接入AP数量的函数,即
Figure FDA00039776465400000210
Figure FDA00039776465400000211
其中,μ表示接入单位AP的固定成本;因此,对于上下行用户n而言,其收益函数被定义为传输速率与接入成本的差值,即
Figure FDA00039776465400000212
其中,符号(·)在上下行链路中分别用UL和DL代替;基于上述分析,时隙t用户满意率被定义为满意用户数与当前时刻所有具有请求状态用户数之比,即
Figure FDA0003977646540000031
其中,
Figure FDA0003977646540000032
Figure FDA0003977646540000033
分别表示每个UU和DU的最低收益,
Figure FDA0003977646540000034
表示指示函数,
Figure FDA0003977646540000035
Figure FDA0003977646540000036
是二进制变量,分别表示t时隙第n个UU和DU的请求状态,1表示请求而0表示非请求状态;相应的优化问题被表述为
Figure FDA0003977646540000037
s.t.C1:
Figure FDA0003977646540000038
C2:
Figure FDA0003977646540000039
C3:
Figure FDA00039776465400000310
C4:
Figure FDA00039776465400000311
其中,约束C1表示AP和UU在每个子载波上的发送功率预算,PUL和PDL分别表示上行和下行最大发送功率;约束C2表示每个UU和DU只能接入每个基站的其中一个子载波;约束C3表示每个UU和DU能够接入多个基站;约束C4是二进制符号的取值范围;
Figure FDA00039776465400000312
Figure FDA00039776465400000313
分别表示整个时隙T上所有UU和DU接入AP策略和发送功率集合。
2.根据权利要求1所述的一种超密集多接入点的动态协同传输方法,其特征在于:所述步骤S2包括以下子步骤:
S201.构建马尔可夫决策过程:
将各个AP看作具有决策功能的智能体,将用户接入和功率分配作为智能体的动作集合;智能体k在时隙t观测到的状态记为用户的请求情况和特定范围内用户到该智能体的CSI,即
Figure FDA00039776465400000314
其中,
Figure FDA00039776465400000315
Figure FDA00039776465400000316
均被记为qn(t),且有qn(t)∈{0,1},其中,1表示用户处于请求状态;0表示用户处于非请求状态;另外子载波c上第n个UU到智能体k和智能体k到第n个DU的信道功率增益也被统一标记为gn,k,c(t);
智能体k根据当前时隙t观察到的状态,决定选择合适的UU和DU加入其某个子载波,并为它们分配相应的功率:因此,动作被记为
Figure FDA0003977646540000041
其中,
Figure FDA0003977646540000042
Figure FDA0003977646540000043
统一被标记为bn,k,c(t),
Figure FDA0003977646540000044
Figure FDA0003977646540000045
统一被标记为pn,k,c(t);考虑离散动作空间,pn,k,c(t)的取值被离散化为:
Figure FDA0003977646540000046
其中,
Figure FDA0003977646540000047
表示离散功率值的集合;L表示离散值的个数;Pmax表示最大发送功率;
各个智能体在t时隙采取行动后,从环境中获取当前时刻的用户满意度r(t)作为奖励函数;所有智能体
Figure FDA0003977646540000048
共享同一奖励函数,即
Figure FDA0003977646540000049
S202.构建多智能体强化学习的树状结构:
每一个智能体k都具备一个三层树状结构,分别由第一层1个非叶节点、第二层M个非叶节点、第三层M×L2C个叶节点组成,且每个非叶节点上都配备一个actor网络;因此,每个智能体都配备1+M个actor网络构成一个actor组群;
第一层只有一个非叶节点,智能体k在该节点上进行用户组合的选择,每一种选择都映射一组子载波分配的选项,对应原优化问题中的变量
Figure FDA00039776465400000410
Figure FDA00039776465400000411
共有M种选择;因此,第二层有M个非叶节点,且在每一个非叶节点上选择相应的功率组合,一种选择都映射一组功率分配的组合,对应原问题中的设计变量
Figure FDA00039776465400000412
Figure FDA00039776465400000413
共有L2C种选择;因此,第三层共有M×L2C个叶节点,每个m,m∈{1,…,M}非叶节点下对应的L2C叶节点都是L2C种功率分配组合;对于每一个智能体k,从第一层非叶节点到第二层非叶节点,再到第三层叶节点的每一条路径,都映射了一组子载波分配和功率分配的动作选择ak(t);
在第一层非叶节点上,智能体k首先输入状态sk(t)进编号为k0的actor网络,得到子载波分配策略πk0(sk(t);θk0),并根据这一策略选择相应的用户组合;针对具有Nu个UU、Nd个DU和C个子载波的UUDN,每个智能体上子载波全部分配给上下行用户的情况种类记为Nu个UU和Nd个DU分别在C个子载波上的排列数的乘积,即
Figure FDA00039776465400000414
其中,A代表排列数;
在第二层非叶节点上,智能体k得到当前用户组合下的功率分配策略πkm(sk(t);θkm),其中,m∈{1,…,M}为第一层非叶节点根据策略πk0(sk(t);θk0)选择的用户组合结果;由S201可知,功率变量pk,n,s的取值被离散成L个等级;对于具有1×2C维度的用户组合m,每一个元素的取值有L种可能;因此,每一个二层非叶节点m都有L2C个叶节点,每个叶节点代表一种功率分配组合,是一个1×2C维度的向量,由此得到设计变量pk,n,c(t)的值;因此,选择动作也即是在当前状态下从根节点移动到某个叶节点的路径;
将第m个非叶节点下的第υ个叶节点编号为mυ,υ∈{1,…,L2C};考虑路径结束在叶节点mυ,以当前状态为输入且与mυ关联的所有actor网络输出的概率分布则表示从k0移动到叶节点mυ的概率;
S203.进行多智能体的动态决策与训练;
在第t个时隙,各个智能体
Figure FDA0003977646540000051
在actor组群指导下输出的路径策略为两层非叶节点策略的乘积,即
πk(ak|sk;θk)=πk(wk|sk;θk)
=πk0(km|sk;θk0km(mυsk;θkm),
其中,wk={k0,km,mυ}表示动作ak对应的路径;θk=(θk0km)表示属于ak(t)路径上所有关联的actor神经网络参数;θk0和θkm则分别表示智能体k第一层非叶节点和第二层第m个非叶节点的actor神经网络参数,且均由第k个critic神经网络的输出值Qk指导训练:
每个智能体k都配备一个critic网络,critic网络的输入为状态s和动作a,输出为
Figure FDA0003977646540000052
用于评价actor组群选择动作的好坏,即Qk值越大表明该动作越好;critic网络的参数为
Figure FDA0003977646540000053
用于指导actor组群网络参数θk的训练,让actor向更好的方向选择动作;
各个智能体分布式地根据路径策略选择动作,即
ak(t)~πk(sk(t);θk),
当所有智能体均执行完动作
Figure FDA0003977646540000054
环境返回该动作下的奖励rk(t),并跳转到下一状态sk(t+1);其中rk(t)按照公式
Figure FDA0003977646540000055
进行计算;
所有智能体上的actor组群和critic网络均部署在宏基站上,并利用历史经验进行集中训练,具体地,当分布式决策完成后,所有智能体将经验
Figure FDA0003977646540000061
均上传至宏基站,集中训练器再利用所有智能体的经验对actor组群和critic进行集中训练:
训练actor组群:与训练单个actor网络不同的是,actor组群的策略为两层非叶节点策略的乘积,因此,actor组群的训练通过最小化以下梯度,梯度函数为:
Figure FDA0003977646540000062
其中,a={a1,...,aK},s={s1,...,sK},
Figure FDA0003977646540000063
表示第k个智能体critic神经网络的参数;Jkk)表示θk的梯度,在更新过程中,使得Jkk)最小的θk值即为actor组群训练过程中得到参数更新值;
Figure FDA0003977646540000064
为第k个智能体critic神经网络的输出,用于评估第k个智能体actor组群选择的动作,并指导actor组群的训练向更快的梯度方向下降;
训练critic网络:第k个智能体的critic神经网络训练方式依然是通过最大化损失函数来更新
Figure FDA0003977646540000065
损失函数为:
Figure FDA0003977646540000066
其中,
Figure FDA0003977646540000067
s′和a′表示下一时刻的状态和动作;使得损失函数
Figure FDA0003977646540000068
最大的
Figure FDA0003977646540000069
即为更新后的
Figure FDA00039776465400000610
当训练结束后,训练后的actor神经网络参数被下载到本地actor网络中,用于分布式动作决策。
3.根据权利要求2所述的一种超密集多接入点的动态协同传输方法,其特征在于:所述步骤S3包括以下子步骤:
S301.每个智能体基于当前状态sk(t)得到用户接入和功率分配的取值
Figure FDA00039776465400000611
基于此值选择对应的用户n接入子载波c,并以pk,n,c(t)的功率在上下行之间传输信号;
S302.对于固定的用户n,若多个智能体k的bk,n,c(t)值为1时,表示这些智能体作为协同AP共同为此用户提供通信服务,保证该用户的服务质量。
CN202210566314.2A 2022-05-23 2022-05-23 一种超密集多接入点的动态协同传输方法 Active CN115038155B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210566314.2A CN115038155B (zh) 2022-05-23 2022-05-23 一种超密集多接入点的动态协同传输方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210566314.2A CN115038155B (zh) 2022-05-23 2022-05-23 一种超密集多接入点的动态协同传输方法

Publications (2)

Publication Number Publication Date
CN115038155A CN115038155A (zh) 2022-09-09
CN115038155B true CN115038155B (zh) 2023-02-07

Family

ID=83120955

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210566314.2A Active CN115038155B (zh) 2022-05-23 2022-05-23 一种超密集多接入点的动态协同传输方法

Country Status (1)

Country Link
CN (1) CN115038155B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117485410B (zh) * 2024-01-02 2024-04-02 成都工业学院 一种列车运行控制系统的数据通信系统及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104869649A (zh) * 2015-06-16 2015-08-26 江苏省邮电规划设计院有限责任公司 一种lte系统中多点协作传输多小区测量导频配置方法
CN113490219A (zh) * 2021-07-06 2021-10-08 香港中文大学(深圳) 一种面向超密集组网的动态资源分配方法
CN114189870A (zh) * 2021-12-08 2022-03-15 南京邮电大学 基于多智能体深度强化学习的多小区多业务资源分配方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108848561A (zh) * 2018-04-11 2018-11-20 湖北工业大学 一种基于深度强化学习的异构蜂窝网络联合优化方法
CN111786713B (zh) * 2020-06-04 2021-06-08 大连理工大学 一种基于多智能体深度强化学习的无人机网络悬停位置优化方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104869649A (zh) * 2015-06-16 2015-08-26 江苏省邮电规划设计院有限责任公司 一种lte系统中多点协作传输多小区测量导频配置方法
CN113490219A (zh) * 2021-07-06 2021-10-08 香港中文大学(深圳) 一种面向超密集组网的动态资源分配方法
CN114189870A (zh) * 2021-12-08 2022-03-15 南京邮电大学 基于多智能体深度强化学习的多小区多业务资源分配方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于干扰管理的异构VLC/WiFi网络子信道分配;刘焕淋等;《中国激光》;20191231(第12期);全文 *

Also Published As

Publication number Publication date
CN115038155A (zh) 2022-09-09

Similar Documents

Publication Publication Date Title
CN109729528B (zh) 一种基于多智能体深度强化学习的d2d资源分配方法
CN111010294A (zh) 一种基于深度强化学习的电力通信网路由方法
CN103916355B (zh) 一种认知ofdm网络中子载波的分配方法
CN113596785B (zh) 基于深度q网络的d2d-noma通信系统资源分配方法
CN111526592B (zh) 一种用于无线干扰信道中的非协作多智能体功率控制方法
Elsayed et al. Deep reinforcement learning for reducing latency in mission critical services
CN113795049B (zh) 一种基于深度强化学习的Femtocell异构网络功率自适应优化方法
CN115038155B (zh) 一种超密集多接入点的动态协同传输方法
CN106231610A (zh) Femtocell双层网络中基于分簇的资源分配方法
CN115499921A (zh) 面向复杂无人机网络的三维轨迹设计及资源调度优化方法
CN116347635A (zh) 一种基于NOMA和多智能体强化学习的NB-IoT无线资源分配方法
CN105490794A (zh) Ofdma毫微微小区双层网络基于分组的资源分配方法
Hossain et al. Soft frequency reuse with allocation of resource plans based on machine learning in the networks with flying base stations
Yin et al. Decentralized federated reinforcement learning for user-centric dynamic tfdd control
Coucheney et al. Multi-armed bandit for distributed inter-cell interference coordination
Iturria-Rivera et al. Cooperate or not Cooperate: Transfer Learning with Multi-Armed Bandit for Spatial Reuse in Wi-Fi
CN116567667A (zh) 一种基于深度强化学习的异构网络资源能效优化方法
Wang et al. Joint spectrum access and power control in air-air communications-a deep reinforcement learning based approach
CN116634450A (zh) 一种基于强化学习的动态空地异构网络用户关联增强方法
CN115811788B (zh) 一种深度强化学习联合无监督学习的d2d网络分布式资源分配方法
Wang et al. Resource allocation in multi-cell NOMA systems with multi-agent deep reinforcement learning
Wang et al. Trajectory design and bandwidth assignment for UAVs-enabled communication network with multi-agent deep reinforcement learning
CN115225142B (zh) 多无人机通信中用户匹配与频谱资源联合优化方法及系统
Rohoden et al. Evolutionary game theoretical model for stable femtocells’ clusters formation in hetnets
CN116112934A (zh) 一种基于机器学习的端到端网络切片资源分配方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant