CN115038155B - 一种超密集多接入点的动态协同传输方法 - Google Patents
一种超密集多接入点的动态协同传输方法 Download PDFInfo
- Publication number
- CN115038155B CN115038155B CN202210566314.2A CN202210566314A CN115038155B CN 115038155 B CN115038155 B CN 115038155B CN 202210566314 A CN202210566314 A CN 202210566314A CN 115038155 B CN115038155 B CN 115038155B
- Authority
- CN
- China
- Prior art keywords
- agent
- user
- access
- subcarrier
- leaf node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W52/00—Power management, e.g. TPC [Transmission Power Control], power saving or power classes
- H04W52/04—TPC
- H04W52/18—TPC being performed according to specific parameters
- H04W52/24—TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters
- H04W52/241—TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters taking into account channel quality metrics, e.g. SIR, SNR, CIR, Eb/lo
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W52/00—Power management, e.g. TPC [Transmission Power Control], power saving or power classes
- H04W52/04—TPC
- H04W52/18—TPC being performed according to specific parameters
- H04W52/24—TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters
- H04W52/243—TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters taking into account interferences
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W52/00—Power management, e.g. TPC [Transmission Power Control], power saving or power classes
- H04W52/04—TPC
- H04W52/18—TPC being performed according to specific parameters
- H04W52/26—TPC being performed according to specific parameters using transmission rate or quality of service QoS [Quality of Service]
- H04W52/267—TPC being performed according to specific parameters using transmission rate or quality of service QoS [Quality of Service] taking into account the information rate
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W52/00—Power management, e.g. TPC [Transmission Power Control], power saving or power classes
- H04W52/04—TPC
- H04W52/30—TPC using constraints in the total amount of available transmission power
- H04W52/34—TPC management, i.e. sharing limited amount of power among users or channels or data types, e.g. cell loading
- H04W52/346—TPC management, i.e. sharing limited amount of power among users or channels or data types, e.g. cell loading distributing total power among users or channels
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明公开了一种超密集多接入点的动态协同传输方法,包括以下步骤:S1.在实时网络状态下的对多用户接入和功率分配问题进行建模;S2.根据步骤S1中的模型,基于树状结构策略梯度进行多智能体强化学习,得到成熟的神经网络;S3.利用成熟的神经网络,实现超密集多接入点的动态协同传输。本发明在多个用户竞争子载波资源时,实现了多接入点的协同传输,避免了用户竞争导致的资源冲突,从而避免了通信链路受到影响无法传输数据的情况,从而提高了用户服务质量。
Description
技术领域
本发明涉及通信领域,特别是涉及一种超密集多接入点的动态协同传输方法,
背景技术
现有大多数研究方法只能解决静态网络环境中信道状态信息已知情况下UDN的用户接入问题。面对真实网络环境中,有限的回程容量以及快速变化的信道带来的挑战,近年来,深度强化学习(DRL)被广泛应用于大型网络,以解决信道状态信息不断变化的用户接入问题。根据采用的算法不同,基于DRL的用户接入和功率分配问题可分为基于值和基于策略的方法。其中,深度Q学习(DQN)是目前最流行的基于值的DRL方法。在DQN中,Q值代表了给定状态下执行动作的质量,并基于Q值选择当前的动作。在UDN中,研究基于DRL的用户接入和功率分配方案面临的主要挑战是,随着网络规模的增加,离散的动作空间将变得非常庞大。
在UDN中,用户密度将达到每平方千米数百个,其采取的离散动作随用户数呈指数增长。因此,基于DRL的UDN通信系统需要更多的训练样本才能达到统计效率,较大的动作空间也容易导致学习算法收敛到次优策略。为了降低复杂度,一种在连续空间选择离散动作的方法被提出,通过最近邻连续空间的候选项目选择动作。然而,该方法存在学习到的连续动作与实际期望的离散动作的不一致性,从而导致不满意的结果。针对这一问题,树状结构的策略梯度推荐架构运用在推荐系统中,所有待推荐的项目被分类构建一个平衡分层聚类树,选择推荐的项目则可以描述为寻找从根到树的某个叶节点的路径。结果表明,该架构大大降低了训练阶段和决策阶段的时间复杂度,然而聚类算法的选取也严重影响了系统的性能。
发明内容
本发明的目的在于克服现有技术的不足,提供一种超密集多接入点的动态协同传输方法。
本发明的目的是通过以下技术方案来实现的:一种超密集多接入点的动态协同传输方法,包括以下步骤:
S1.在实时网络状态下的对多用户接入和功率分配问题进行建模;
S2.根据步骤S1中的模型,基于树状结构策略梯度进行多智能体强化学习,得到成熟的神经网络;
S3.利用成熟的神经网络,实现超密集多接入点的动态协同传输。
进一步地,所述步骤S1包括:
考虑K个AP和N个用户,随机部署而组成的UDN场景,N个用户中包括Nu个UU和Nd个DU;网络中整个带宽被平均划分为C个子载波,记为每个AP都具有C个正交的子载波资源;其中AP是指接入点,UU是指上行用户,DU是指下行用户,UDN是指超密集网络;
设用户能够在不同的子载波上接入多个AP,而每个AP同一子载波上最多允许接入一对UU和DU;所有AP工作在混合双工(SD)模式下与接入其中的半双工UU和DU进行通信;
考虑到在具有有限资源的UDN中,多个用户竞争子载波资源必然会出现冲突;一旦发生冲突,所涉及的通信链路将无法传输数据,从而影响用户服务质量,故构建上行传输模型和下行传输模型,并实现多用户接入和功率分配问题建模。
其中,所述构建上行传输模型包括:
其中,SINR表示信干噪比,表示子载波c上第n个UU到第k个AP的信道增益;表示子载波c上第k个AP到第n个DU的发送功率;Δξ表示自干扰消除因子;σ2表示CSCG噪声功率;表示子载波c上第n个UU收到的来自其他UU和AP的同频干扰,记为
第n个UU在上行传输中的总数据速率被计算为:
其中,所述构建下行传输模型包括:
因此,若第n个DU接入第k个AP的第c个子载波,其对应的下行传输速率被计算为
第n个DU在下行传输中的总数据速率被计算为:
其中,所述实现多用户接入和功率分配问题建模的过程包括:
考虑到多个AP之间的协同开销,每个UU和DU的接入成本被定义为接入AP数量的函数,即
其中,μ表示接入单位AP的固定成本;因此,对于上下行用户n而言,其收益函数被定义为传输速率与接入成本的差值,即
其中,符号(·)在上下行链路中分别用UL和DL代替;基于上述分析,时隙t用户满意率被定义为满意用户数与当前时刻所有具有请求状态用户数之比,即
其中,约束C1表示AP和UU在每个子载波上的发送功率预算,PUL和PDL分别表示上行和下行最大发送功率;约束C2表示每个UU和DU只能接入每个基站的其中一个子载波;约束C3表示每个UU和DU能够接入多个基站;约束C4是二进制符号的取值范围;和分别表示整个时隙T上所有UU和DU接入AP策略和发送功率集合。
进一步地,所述步骤S2包括以下子步骤:
S201.构建马尔可夫决策(MDP)过程:
将各个AP看作具有决策功能的智能体,将用户接入和功率分配作为智能体的动作集合;智能体k在时隙t观测到的状态记为用户的请求情况和特定范围内用户到该智能体的CSI,即
其中,和均被记为qn(t),且有qn(t)∈{0,1};其中,1表示用户处于请求状态;0表示用户处于非请求状态;另外子载波c上第n个UU到智能体k和智能体k到第n个DU的信道功率增益也被统一标记为gn,k,c(t);
智能体k根据当前时隙t观察到的状态,决定选择合适的UU和DU加入其某个子载波,并为它们分配相应的功率:因此,动作被记为
S202.构建多智能体强化学习的树状结构:
每一个智能体k都具备一个三层树状结构,分别由第一层1个非叶节点、第二层M个非叶节点、第三层M×L2C个叶节点组成,且每个非叶节点上都配备一个actor网络。因此,每个智能体都配备1+M个actor网络构成一个actor组群。具体而言,第一层只有一个非叶节点,智能体k在该节点上进行用户组合的选择,每一种选择都映射一组子载波分配的可能,对应原优化问题中的变量和共有M种选择;因此,第二层有M个非叶节点,且在每一个非叶节点上选择相应的功率组合,一种选择都映射一组功率分配的组合,对应原问题中的设计变量和共有L2C种选择;因此,第三层共有M×L2C个叶节点,每个m,m∈{1,…,M}非叶节点下对应的L2C叶节点都是L2C种功率分配组合。因此,对于每一个智能体k,从第一层非叶节点——第二层非叶节点——第三层叶节点的每一条路径,都映射了一组子载波分配和功率分配的动作选择ak(t)。
在第一层非叶节点上,智能体k首先输入状态sk(t)进编号为k0的actor网络,得到子载波分配策略πk0(sk(t);θk0),并根据这一策略选择相应的用户组合;针对具有Nu个UU、Nd个DU和C个子载波的UUDN,每个智能体上子载波全部分配给上下行用户的情况种类记为Nu个UU和Nd个DU分别在C个子载波上的排列数的乘积,即其中,A代表排列数;
在第二层非叶节点上,智能体k得到当前用户组合下的功率分配策略πkm(sk(t);θkm),其中,m∈{1,…,M}为第一层非叶节点根据策略πk0(sk(t);θk0)选择的用户组合结果;由S201可知,功率变量pk,n,s的取值被离散成L个等级。对于具有1×2C维度的用户组合m,每一个元素的取值有L种可能。因此,每一个二层非叶节点m都有L2C个叶节点,每个叶节点代表一种功率分配组合,是一个1×2C维度的向量,由此得到设计变量pk,n,c(t)的值;因此,选择动作也即是在当前状态下从根节点移动到某个叶节点的路径;
将第m个非叶节点下的第υ个叶节点编号为mυ,υ∈{1,…,L2C};考虑路径结束在叶节点mυ,以当前状态为输入且与mυ关联的所有actor网络输出的概率分布则表示从k0移动到叶节点mυ的概率;
S203.进行多智能体的动态决策与训练;
πk(ak|sk;θk)=πk(wk|sk;θk)
=πk0(km|sk;θk0)πkm(mυ|sk;θkm),
其中,wk={k0,km,mυ}表示动作ak对应的路径;θk=(θk0,θkm)表示属于ak(t)路径上所有关联的actor神经网络参数;θk0和θkm则分别表示智能体k第一层非叶节点和第二层第m个非叶节点的actor神经网络参数,且均由第k个critic神经网络的输出值Qk指导训练;每个智能体k都配备一个critic网络,critic网络的输入为状态s和动作a,输出为用于评价actor组群选择动作的好坏,即Qk值越大表明该动作越好;critic网络的参数为用于指导actor组群网络参数θk的训练,让actor向更好的方向选择动作。
因此,各个智能体则分布式地根据路径策略选择动作,即
ak(t)~πk(sk(t);θk).
所有智能体上的actor组群和critic网络均部署在宏基站上,并利用历史经验进行集中训练,具体地,当分布式决策完成后,所有智能体将经验均上传至宏基站,集中训练器再利用所有智能体的经验对actor组群和critic进行集中训练:
训练actor组群:与训练单个actor网络不同的是,actor组群的策略为两层非叶节点策略的乘积,因此,actor组群的训练通过最小化以下梯度,即
其中,a={a1,...,aK},s={s1,...,sK},表示第k个智能体critic神经网络的参数;Jk(θk)表示θk的梯度,在更新过程中,使得Jk(θk)最小的θk值即为actor组群训练过程中得到参数更新值;为第k个智能体critic神经网络的输出,用于评估第k个智能体actor组群选择的动作,并指导actor组群的训练向更快的梯度方向下降;
所述步骤S3包括以下子步骤:
S301.每个智能体基于当前状态sk(t)得到用户接入和功率分配的取值:
S302.对于固定的用户n,若多个智能体k的bk,n,c(t)值为1时,表示这些智能体作为协同AP共同为此用户提供通信服务,保证该用户的服务质量。
本发明的有益效果是:本发明有效解决了具有大型离散动作空间的动态用户接入和功率分配问题,提高了密集网络中的平均用户满意率。
附图说明
图1为本发明的方法流程图;
图2为以用户为中心的UDN协同架构示意图;
图3为用户接入和功率分配的树状架构示意图;
图4为不同测试间隔下平均用户满意率随训练次数的变化示意图;
图5为不同接入点数量下的学习性能示意图;
图6为不同用户收益门限下平均用户满意率随接入点数量的变化情况示意图。
具体实施方式
下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。
如图1所示,一种超密集多接入点的动态协同传输方法,包括以下步骤:
S1.在实时网络状态下的对多用户接入和功率分配问题进行建模;
S2.根据步骤S1中的模型,基于树状结构策略梯度进行多智能体强化学习,得到成熟的神经网络;
S3.利用成熟的神经网络,实现超密集多接入点的动态协同传输。
进一步地,所述步骤S1包括:
如图2所示,考虑K个AP和N个用户,随机部署而组成的UDN场景,N个用户中包括Nu个UU和Nd个DU;网络中整个带宽被平均划分为C个子载波,记为每个AP都具有C个正交的子载波资源;其中AP是指接入点,UU是指上行用户,DU是指下行用户,UDN是指超密集网络;
设用户能够在不同的子载波上接入多个AP,而每个AP同一子载波上最多允许接入一对UU和DU;所有AP工作在混合双工(SD)模式下与接入其中的半双工UU和DU进行通信;
考虑到在具有有限资源的UDN中,多个用户竞争子载波资源必然会出现冲突;一旦发生冲突,所涉及的通信链路将无法传输数据,从而影响用户服务质量,故构建上行传输模型和下行传输模型,并实现多用户接入和功率分配问题建模。
其中,所述构建上行传输模型包括:
其中,SINR表示信干噪比,表示子载波c上第n个UU到第k个AP的信道增益;表示子载波c上第k个AP到第n个DU的发送功率;Δξ表示自干扰消除因子;σ2表示CSCG噪声功率;表示子载波c上第n个UU收到的来自其他UU和AP的同频干扰,记为
第n个UU在上行传输中的总数据速率被计算为:
其中,所述构建下行传输模型包括:
因此,若第n个DU接入第k个AP的第c个子载波,其对应的下行传输速率被计算为
第n个DU在下行传输中的总数据速率被计算为:
其中,所述实现多用户接入和功率分配问题建模的过程包括:
考虑到多个AP之间的协同开销,每个UU和DU的接入成本被定义为接入AP数量的函数,即
其中,μ表示接入单位AP的固定成本;因此,对于上下行用户n而言,其收益函数被定义为传输速率与接入成本的差值,即
其中,符号(·)在上下行链路中分别用UL和DL代替;基于上述分析,时隙t用户满意率被定义为满意用户数与当前时刻所有具有请求状态用户数之比,即
其中,约束C1表示AP和UU在每个子载波上的发送功率预算,PUL和PDL分别表示上行和下行最大发送功率;约束C2表示每个UU和DU只能接入每个基站的其中一个子载波;约束C3表示每个UU和DU能够接入多个基站;约束C4是二进制符号的取值范围;和分别表示整个时隙T上所有UU和DU接入AP策略和发送功率集合。
进一步地,所述步骤S2包括以下子步骤:
S201.通过DRL的低复杂度动态决策机制,以解决上述优化问题;首先构建马尔可夫决策(MDP)过程:
将各个AP看作具有决策功能的智能体,将用户接入和功率分配作为智能体的动作集合;智能体k在时隙t观测到的状态记为用户的请求情况和特定范围内用户到该智能体的CSI,即
智能体k根据当前时隙t观察到的状态,决定选择合适的UU和DU加入其某个子载波,并为它们分配相应的功率:因此,动作被记为
S202.构建多智能体强化学习的树状结构:
每一个智能体k都具备一个三层树状结构,分别由第一层1个非叶节点、第二层M个非叶节点、第三层M×L2C个叶节点组成,且每个非叶节点上都配备一个actor网络。因此,每个智能体都配备1+M个actor网络构成一个actor组群。具体而言,第一层只有一个非叶节点,智能体k在该节点上进行用户组合的选择,每一种选择都映射一组子载波分配的可能,对应原优化问题中的变量和共有M种选择;因此,第二层有M个非叶节点,且在每一个非叶节点上选择相应的功率组合,一种选择都映射一组功率分配的组合,对应原问题中的设计变量和共有L2C种选择;因此,第三层共有M×L2C个叶节点,每个m,m∈{1,…,M}非叶节点下对应的L2C叶节点都是L2C种功率分配组合。因此,对于每一个智能体k,从第一层非叶节点——第二层非叶节点——第三层叶节点的每一条路径,都映射了一组子载波分配和功率分配的动作选择ak(t)。
在第一层非叶节点上,智能体k首先输入状态sk(t)进编号为k0的actor网络,得到子载波分配策略πk0(sk(t);θk0),并根据这一策略选择相应的用户组合;针对具有Nu个UU、Nd个DU和C个子载波的UUDN,每个智能体上子载波全部分配给上下行用户的情况种类记为Nu个UU和Nd个DU分别在C个子载波上的排列数的乘积,即其中,A代表排列数;
当C=Nu=Nd=2时,所有用户接入载波的4种情况示例如下表所示,
样地,选择其他用户组合,也可得到相应的设计变量bn,k,c(t)的值。
在第二层非叶节点上,智能体k得到当前用户组合下的功率分配策略πkm(sk(t);θkm),其中,m∈{1,…,M}为第一层非叶节点根据策略πk0(sk(t);θk0)选择的用户组合结果;由S201可知,功率变量pk,n,s的取值被离散成L个等级。对于具有1×2C维度的用户组合m,每一个元素的取值有L种可能。因此,每一个二层非叶节点m都有L2C个叶节点,每个叶节点代表一种功率分配组合,是一个1×2C维度的向量,由此得到设计变量pk,n,c(t)的值;因此,选择动作也即是在当前状态下从根节点移动到某个叶节点的路径;
将第m个非叶节点下的第υ个叶节点编号为mυ,υ∈{1,…,L2C};考虑路径结束在叶节点mυ,以当前状态为输入且与mυ关联的所有actor网络输出的概率分布则表示从k0移动到叶节点mυ的概率;
S203.进行多智能体的动态决策与训练;
πk(ak|sk;θk)=πk(wk|sk;θk)
=πk0(km|sk;θk0)πkm(mυ|sk;θkm),
其中,wk={k0,km,mυ}表示动作ak对应的路径;θk=(θk0,θkm)表示属于ak(t)路径上所有关联的actor神经网络参数;θk0和θkm则分别表示智能体k第一层非叶节点和第二层第m个非叶节点的actor神经网络参数,且均由第k个critic神经网络的输出值Qk指导训练;每个智能体k都配备一个critic网络,critic网络的输入为状态s和动作a,输出为用于评价actor组群选择动作的好坏,即Qk值越大表明该动作越好;critic网络的参数为用于指导actor组群网络参数θk的训练,让actor向更好的方向选择动作。因此,各个智能体则分布式地根据路径策略选择动作,即
ak(t)~πk(sk(t);θk).
为了提高训练效率和稳定性,所有智能体上的actor组群和critic网络均部署在宏基站上,并利用历史经验进行集中训练,具体地,当分布式决策完成后,所有智能体将经验:均上传至宏基站,集中训练器再利用所有智能体的经验对actor组群和critic进行集中训练:
训练actor组群:与训练单个actor网络不同的是,actor组群的策略为两层非叶节点策略的乘积,因此,actor组群的训练通过最小化以下梯度,即
其中,a={a1,...,aK},s={s1,...,sK},表示第k个智能体critic神经网络的参数;Jk(θk)表示θk的梯度,在更新过程中,使得Jk(θk)最小的θk值即为actor组群训练过程中得到参数更新值;为第k个智能体critic神经网络的输出,用于评估第k个智能体actor组群选择的动作,并指导actor组群的训练向更快的梯度方向下降;
所述步骤S3包括以下子步骤:
S301.每个智能体基于当前状态sk(t)得到用户接入和功率分配的取值:
S302.对于固定的用户n,若多个智能体k的bk,n,c(t)值为1时,表示这些智能体作为协同AP共同为此用户提供通信服务,保证该用户的服务质量。
在本申请的实施例中,考虑在25m×20m固定区域生成接入点个数为K=5的仿真环境,上行用户和下行用户的个数设置为Nu=Nd=10,且各个用户的位置均可在每个AP半径0.05m到10m范围内随机生成,AP半径0.05m以内的区域禁止部署任何用户。最大发送功率设置为PUL=PDL=25dB,高斯白噪声功率σ2设置为-30dB。子载波数设为C=2,上下行功率的离散等级为L=6,自干扰抑制因子设置为Δξ=10-4,每个用户接入单位接入点的固定成本设置为μ=0.05,上下行用户的最低收益门限设置为此外,各个发送端到接收端之间的信道服从一阶复高斯-马尔可夫过程,各个用户的请求状态服从概率为0.7的二项分布。
接下来将定义神经网络的超参数。每个神经网络有一个输入层、三个隐藏层和一个输出层,每个隐藏层的神经元个数设置为128,每个隐藏层的激活函数设置为ReLU函数,奖励折扣因子设置为γ=0.95。为了简单起见,本章考虑每个智能体可以观测到与其距离最接近的4个UU和4个DU。因此,每个智能体具有4×(1+C)个状态神经元。动作神经元分为两类:在每一个actor群组中,第一层非叶节点的动作神经元为M个;而每个第二层非叶节点的动作神经元为L2C个。
图4中分别取Ts=1,10,50和100的四组测试间隔,神经网络每训练1次、10次、50次和100次后,各个智能体利用学到的策略在环境刷新后的T=1000个时隙里选择相应的动作,并计算整个时间轴上UUDN中的平均用户满意率。从图4可以看出,随着测试间隔的增加,神经网络训练出来的结果越来越平滑。在K=5,Nu=Nd=10的仿真环境中,本章所提MATSPG算法在测试间隔为Ts=1,10,50和100情况下都能达到85%的平均用户满意率。
图5所示也研究了不同接入点数量情况下所提算法的学习性能。结果表明,在测试间隔Ts=100设置下,随着接入点数量从K=5增加到K=7时,能够达到的平均用户满意率从85%上升到90%左右。另一方面,随着接入点数量的增加,本发明所提出的算法需要训练更多次才能达到收敛。
图6也给出了在不同收益门限值下平均用户满意率随网络中接入点数量的变化情况。可以看出,在收益门限值不变的情况下,本发明所提出的算法得到的平均用户满意率随网络中接入点数量的增加而不断增加,最后达到趋近于94%的饱和状态。另一方面,在相同接入点数量情况下,随着最低门限从10不断增加到25时,网络中的平均用户满意率逐渐降低。这是由于随着最低门限值增大,能够满足其服务需求的用户数越来越少,要想保持平均用户满意率不变,则需要增加更多网络中接入点的数量。
以上所述是本发明的优选实施方式,应当理解本发明并非局限于本文所披露的形式,不应该看作是对其他实施例的排除,而可用于其他组合、修改和环境,并能够在本文所述构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
Claims (3)
1.一种超密集多接入点的动态协同传输方法,其特征在于:包括以下步骤:
S1.在实时网络状态下的对多用户接入和功率分配问题进行建模;
S2.根据步骤S1中的模型,基于树状结构策略梯度进行多智能体强化学习,得到成熟的神经网络;
S3.利用成熟的神经网络,实现超密集多接入点的动态协同传输;
所述步骤S1包括:
考虑K个AP和N个用户,随机部署而组成的UDN场景,N个用户中包括Nu个UU和Nd个DU;网络中整个带宽被平均划分为C个子载波,记为每个AP都具有C个正交的子载波资源;其中AP是指接入点,UU是指上行用户,DU是指下行用户,UDN是指超密集网络;
设用户能够在不同的子载波上接入多个AP,而每个AP同一子载波上最多允许接入一对UU和DU;所有AP工作在SD模式下与接入其中的半双工UU和DU进行通信,其中,SD模式是指混合双工模式;
构建上行传输模型和下行传输模型,并实现多用户接入和功率分配问题建模;
所述构建上行传输模型包括:
其中,SINR表示信干噪比,表示子载波c上第n个UU到第k个AP的信道增益;表示子载波c上第k个AP到第n个DU的发送功率;Δξ表示自干扰消除因子;σ2表示CSCG噪声功率;表示子载波c上第n个UU收到的来自其他UU和AP的同频干扰,记为
第n个UU在上行传输中的总数据速率被计算为:
所述构建下行传输模型包括:
因此,若第n个DU接入第k个AP的第c个子载波,其对应的下行传输速率被计算为
第n个DU在下行传输中的总数据速率被计算为:
所述实现多用户接入和功率分配问题建模的过程包括:
考虑到多个AP之间的协同开销,每个UU和DU的接入成本被定义为接入AP数量的函数,即
其中,μ表示接入单位AP的固定成本;因此,对于上下行用户n而言,其收益函数被定义为传输速率与接入成本的差值,即
其中,符号(·)在上下行链路中分别用UL和DL代替;基于上述分析,时隙t用户满意率被定义为满意用户数与当前时刻所有具有请求状态用户数之比,即
2.根据权利要求1所述的一种超密集多接入点的动态协同传输方法,其特征在于:所述步骤S2包括以下子步骤:
S201.构建马尔可夫决策过程:
将各个AP看作具有决策功能的智能体,将用户接入和功率分配作为智能体的动作集合;智能体k在时隙t观测到的状态记为用户的请求情况和特定范围内用户到该智能体的CSI,即
其中,和均被记为qn(t),且有qn(t)∈{0,1},其中,1表示用户处于请求状态;0表示用户处于非请求状态;另外子载波c上第n个UU到智能体k和智能体k到第n个DU的信道功率增益也被统一标记为gn,k,c(t);
智能体k根据当前时隙t观察到的状态,决定选择合适的UU和DU加入其某个子载波,并为它们分配相应的功率:因此,动作被记为
S202.构建多智能体强化学习的树状结构:
每一个智能体k都具备一个三层树状结构,分别由第一层1个非叶节点、第二层M个非叶节点、第三层M×L2C个叶节点组成,且每个非叶节点上都配备一个actor网络;因此,每个智能体都配备1+M个actor网络构成一个actor组群;
第一层只有一个非叶节点,智能体k在该节点上进行用户组合的选择,每一种选择都映射一组子载波分配的选项,对应原优化问题中的变量和共有M种选择;因此,第二层有M个非叶节点,且在每一个非叶节点上选择相应的功率组合,一种选择都映射一组功率分配的组合,对应原问题中的设计变量和共有L2C种选择;因此,第三层共有M×L2C个叶节点,每个m,m∈{1,…,M}非叶节点下对应的L2C叶节点都是L2C种功率分配组合;对于每一个智能体k,从第一层非叶节点到第二层非叶节点,再到第三层叶节点的每一条路径,都映射了一组子载波分配和功率分配的动作选择ak(t);
在第一层非叶节点上,智能体k首先输入状态sk(t)进编号为k0的actor网络,得到子载波分配策略πk0(sk(t);θk0),并根据这一策略选择相应的用户组合;针对具有Nu个UU、Nd个DU和C个子载波的UUDN,每个智能体上子载波全部分配给上下行用户的情况种类记为Nu个UU和Nd个DU分别在C个子载波上的排列数的乘积,即其中,A代表排列数;
在第二层非叶节点上,智能体k得到当前用户组合下的功率分配策略πkm(sk(t);θkm),其中,m∈{1,…,M}为第一层非叶节点根据策略πk0(sk(t);θk0)选择的用户组合结果;由S201可知,功率变量pk,n,s的取值被离散成L个等级;对于具有1×2C维度的用户组合m,每一个元素的取值有L种可能;因此,每一个二层非叶节点m都有L2C个叶节点,每个叶节点代表一种功率分配组合,是一个1×2C维度的向量,由此得到设计变量pk,n,c(t)的值;因此,选择动作也即是在当前状态下从根节点移动到某个叶节点的路径;
将第m个非叶节点下的第υ个叶节点编号为mυ,υ∈{1,…,L2C};考虑路径结束在叶节点mυ,以当前状态为输入且与mυ关联的所有actor网络输出的概率分布则表示从k0移动到叶节点mυ的概率;
S203.进行多智能体的动态决策与训练;
πk(ak|sk;θk)=πk(wk|sk;θk)
=πk0(km|sk;θk0)πkm(mυsk;θkm),
其中,wk={k0,km,mυ}表示动作ak对应的路径;θk=(θk0,θkm)表示属于ak(t)路径上所有关联的actor神经网络参数;θk0和θkm则分别表示智能体k第一层非叶节点和第二层第m个非叶节点的actor神经网络参数,且均由第k个critic神经网络的输出值Qk指导训练:
每个智能体k都配备一个critic网络,critic网络的输入为状态s和动作a,输出为用于评价actor组群选择动作的好坏,即Qk值越大表明该动作越好;critic网络的参数为用于指导actor组群网络参数θk的训练,让actor向更好的方向选择动作;
各个智能体分布式地根据路径策略选择动作,即
ak(t)~πk(sk(t);θk),
所有智能体上的actor组群和critic网络均部署在宏基站上,并利用历史经验进行集中训练,具体地,当分布式决策完成后,所有智能体将经验均上传至宏基站,集中训练器再利用所有智能体的经验对actor组群和critic进行集中训练:
训练actor组群:与训练单个actor网络不同的是,actor组群的策略为两层非叶节点策略的乘积,因此,actor组群的训练通过最小化以下梯度,梯度函数为:
其中,a={a1,...,aK},s={s1,...,sK},表示第k个智能体critic神经网络的参数;Jk(θk)表示θk的梯度,在更新过程中,使得Jk(θk)最小的θk值即为actor组群训练过程中得到参数更新值;为第k个智能体critic神经网络的输出,用于评估第k个智能体actor组群选择的动作,并指导actor组群的训练向更快的梯度方向下降;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210566314.2A CN115038155B (zh) | 2022-05-23 | 2022-05-23 | 一种超密集多接入点的动态协同传输方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210566314.2A CN115038155B (zh) | 2022-05-23 | 2022-05-23 | 一种超密集多接入点的动态协同传输方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115038155A CN115038155A (zh) | 2022-09-09 |
CN115038155B true CN115038155B (zh) | 2023-02-07 |
Family
ID=83120955
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210566314.2A Active CN115038155B (zh) | 2022-05-23 | 2022-05-23 | 一种超密集多接入点的动态协同传输方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115038155B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117485410B (zh) * | 2024-01-02 | 2024-04-02 | 成都工业学院 | 一种列车运行控制系统的数据通信系统及方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104869649A (zh) * | 2015-06-16 | 2015-08-26 | 江苏省邮电规划设计院有限责任公司 | 一种lte系统中多点协作传输多小区测量导频配置方法 |
CN113490219A (zh) * | 2021-07-06 | 2021-10-08 | 香港中文大学(深圳) | 一种面向超密集组网的动态资源分配方法 |
CN114189870A (zh) * | 2021-12-08 | 2022-03-15 | 南京邮电大学 | 基于多智能体深度强化学习的多小区多业务资源分配方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108848561A (zh) * | 2018-04-11 | 2018-11-20 | 湖北工业大学 | 一种基于深度强化学习的异构蜂窝网络联合优化方法 |
CN111786713B (zh) * | 2020-06-04 | 2021-06-08 | 大连理工大学 | 一种基于多智能体深度强化学习的无人机网络悬停位置优化方法 |
-
2022
- 2022-05-23 CN CN202210566314.2A patent/CN115038155B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104869649A (zh) * | 2015-06-16 | 2015-08-26 | 江苏省邮电规划设计院有限责任公司 | 一种lte系统中多点协作传输多小区测量导频配置方法 |
CN113490219A (zh) * | 2021-07-06 | 2021-10-08 | 香港中文大学(深圳) | 一种面向超密集组网的动态资源分配方法 |
CN114189870A (zh) * | 2021-12-08 | 2022-03-15 | 南京邮电大学 | 基于多智能体深度强化学习的多小区多业务资源分配方法 |
Non-Patent Citations (1)
Title |
---|
基于干扰管理的异构VLC/WiFi网络子信道分配;刘焕淋等;《中国激光》;20191231(第12期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN115038155A (zh) | 2022-09-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109729528B (zh) | 一种基于多智能体深度强化学习的d2d资源分配方法 | |
CN111010294A (zh) | 一种基于深度强化学习的电力通信网路由方法 | |
CN103916355B (zh) | 一种认知ofdm网络中子载波的分配方法 | |
CN113596785B (zh) | 基于深度q网络的d2d-noma通信系统资源分配方法 | |
CN111526592B (zh) | 一种用于无线干扰信道中的非协作多智能体功率控制方法 | |
Elsayed et al. | Deep reinforcement learning for reducing latency in mission critical services | |
CN113795049B (zh) | 一种基于深度强化学习的Femtocell异构网络功率自适应优化方法 | |
CN115038155B (zh) | 一种超密集多接入点的动态协同传输方法 | |
CN106231610A (zh) | Femtocell双层网络中基于分簇的资源分配方法 | |
CN115499921A (zh) | 面向复杂无人机网络的三维轨迹设计及资源调度优化方法 | |
CN116347635A (zh) | 一种基于NOMA和多智能体强化学习的NB-IoT无线资源分配方法 | |
CN105490794A (zh) | Ofdma毫微微小区双层网络基于分组的资源分配方法 | |
Hossain et al. | Soft frequency reuse with allocation of resource plans based on machine learning in the networks with flying base stations | |
Yin et al. | Decentralized federated reinforcement learning for user-centric dynamic tfdd control | |
Coucheney et al. | Multi-armed bandit for distributed inter-cell interference coordination | |
Iturria-Rivera et al. | Cooperate or not Cooperate: Transfer Learning with Multi-Armed Bandit for Spatial Reuse in Wi-Fi | |
CN116567667A (zh) | 一种基于深度强化学习的异构网络资源能效优化方法 | |
Wang et al. | Joint spectrum access and power control in air-air communications-a deep reinforcement learning based approach | |
CN116634450A (zh) | 一种基于强化学习的动态空地异构网络用户关联增强方法 | |
CN115811788B (zh) | 一种深度强化学习联合无监督学习的d2d网络分布式资源分配方法 | |
Wang et al. | Resource allocation in multi-cell NOMA systems with multi-agent deep reinforcement learning | |
Wang et al. | Trajectory design and bandwidth assignment for UAVs-enabled communication network with multi-agent deep reinforcement learning | |
CN115225142B (zh) | 多无人机通信中用户匹配与频谱资源联合优化方法及系统 | |
Rohoden et al. | Evolutionary game theoretical model for stable femtocells’ clusters formation in hetnets | |
CN116112934A (zh) | 一种基于机器学习的端到端网络切片资源分配方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |