CN116095690A - 一种异构网络中基于强化学习的动态资源分配优化方法 - Google Patents
一种异构网络中基于强化学习的动态资源分配优化方法 Download PDFInfo
- Publication number
- CN116095690A CN116095690A CN202310065762.9A CN202310065762A CN116095690A CN 116095690 A CN116095690 A CN 116095690A CN 202310065762 A CN202310065762 A CN 202310065762A CN 116095690 A CN116095690 A CN 116095690A
- Authority
- CN
- China
- Prior art keywords
- base station
- heterogeneous network
- network
- macro base
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 238000013468 resource allocation Methods 0.000 title claims abstract description 33
- 238000005457 optimization Methods 0.000 title claims abstract description 26
- 230000002787 reinforcement Effects 0.000 title claims abstract description 22
- 230000006870 function Effects 0.000 claims abstract description 48
- 230000009471 action Effects 0.000 claims abstract description 36
- 238000012549 training Methods 0.000 claims abstract description 19
- 230000008569 process Effects 0.000 claims abstract description 7
- 230000008901 benefit Effects 0.000 claims abstract description 5
- 238000005516 engineering process Methods 0.000 claims description 5
- 238000005562 fading Methods 0.000 claims description 5
- 230000009467 reduction Effects 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 claims 1
- 210000004027 cell Anatomy 0.000 description 24
- 239000010410 layer Substances 0.000 description 9
- 230000001413 cellular effect Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000010267 cellular communication Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W16/00—Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
- H04W16/02—Resource partitioning among network components, e.g. reuse partitioning
- H04W16/10—Dynamic resource partitioning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B17/00—Monitoring; Testing
- H04B17/30—Monitoring; Testing of propagation channels
- H04B17/309—Measuring or estimating channel quality parameters
- H04B17/336—Signal-to-interference ratio [SIR] or carrier-to-interference ratio [CIR]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B17/00—Monitoring; Testing
- H04B17/30—Monitoring; Testing of propagation channels
- H04B17/382—Monitoring; Testing of propagation channels for resource allocation, admission control or handover
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W16/00—Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
- H04W16/14—Spectrum sharing arrangements between different networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W16/00—Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
- H04W16/18—Network planning tools
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W16/00—Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
- H04W16/24—Cell structures
- H04W16/32—Hierarchical cell structures
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W84/00—Network topologies
- H04W84/02—Hierarchically pre-organised networks, e.g. paging networks, cellular networks, WLAN [Wireless Local Area Network] or WLL [Wireless Local Loop]
- H04W84/04—Large scale networks; Deep hierarchical networks
- H04W84/042—Public Land Mobile systems, e.g. cellular systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W88/00—Devices specially adapted for wireless communication networks, e.g. terminals, base stations or access point devices
- H04W88/08—Access point devices
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Electromagnetism (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明公开了一种异构网络中基于强化学习的动态资源分配优化方法,步骤1:建立异构网络模型,明确以能量效率为最大的优化目标;将宏基站看作智能体,建立马尔可夫决策过程,确定状态空间、动作空间和奖励函数;划分宏基站覆盖区域和异构网络带宽;通过D3QN网络训练异构网络模型,设定宏基站和小基站的最大发射功率,计算宏基站到用户的信干噪比,最小化损失函数;在dueling DQN网络中引入double DQN网络以获得值函数和优势函数,确定最优的异构网络超参数K和β,最大化异构网络的能量效率,实现动态资源分配优化。本发明提出集中强化学习框架的异构网络模型,以实现动态资源分配的全局最优,提出用D3QN网络来优化负载均衡和干扰协调,最大化异构网络的能量效率,实现动态资源分配优化。
Description
技术领域
本发明涉及通信系统技术领域,特别是涉及一种异构网络中基于强化学习的动态资源分配优化方法。
背景技术
终端数量的不断增加和数据业务需求的快速增长,传统的单层网络已经不能满足当前科技的快速发展的需求,无线通信网络也面临着巨大的挑战。为了缓解通信网络的巨大压力,研究人员提出了异构网络。因此现在的无线接入网络发展成为了由满足广域接入需求的宏基站与满足小区域高密度接入需求的小基站共同组成的异构网络。为了支持高速移动数据服务并提供更好的覆盖,下一代蜂窝网络预计将广泛部署微蜂窝基站或小蜂窝基站,这些基站可以从传统的宏基站卸载一些用户和流量。虽然网络容量提升,网络覆盖有所增强,但异构网络面临负载均衡和干扰协调的挑战,需要通过有效的用户关联和资源分配方法来解决。
发明内容
本发明提供一种异构网络中基于强化学习的动态资源分配优化方法,以实现动态资源分配的全局最优。
为实现上述效果,本发明的技术方案如下:
一种异构网络中基于强化学习的动态资源分配优化方法,包括以下步骤:
步骤1:建立异构网络模型,明确以能量效率为最大的优化目标;将宏基站看作智能体,建立马尔可夫决策过程,确定状态空间、动作空间和奖励函数;
步骤2:划分宏基站覆盖区域和异构网络带宽;通过D3QN网络训练异构网络模型,所述D3QN网络包括double DQN网络和dueling DQN网络;
步骤3:计算宏基站到用户的信干噪比,设定宏基站和小基站的最大发射功率,最小化损失函数;
步骤4:在dueling DQN网络中引入double DQN网络以获得值函数和优势函数,确定最优的异构网络超参数K和β,最大化异构网络的能量效率,实现动态资源分配优化。
进一步的,步骤1中异构网络模型设有L个基站和多个用户n;基站包括L1个宏基站,L2个小基站,且满足L1+L2=L。
进一步的,步骤1之后还包括,每个宏基站与小基站的功率平均分配给子信道;信干噪比大于预设阈值β,预设阈值β为异构网络的超参数;动作空间的降维通过动作空间被设置为超参数的一系列离散值;资源分配采用部分共享部署的信道分配方案,K个子信道由宏基站和小基站共享,宏基站子信道数为M-K个,异构网络超参数K的范围为0<K<M。
进一步的,步骤2中划分宏基站覆盖区域具体为;根据宏基站与小基站的数量与分布情况确定小基站用户和宏基站用户位置;将宏基站覆盖区域作为宏小区,分为三个扇形,每个扇形区域部署相同数量的小基站,将宏小区分为中心区域C1、C2、C3和小区边缘区域E1、E2、E3。
进一步的,步骤2中划分异构网络带宽具体为,异构网络具有M个子信道,每个子信道的带宽为W;异构网络整个带宽被分为c、e两大部分,带宽e包括e1,e2,e3;将主子载波发射功率P1分为三部分,三部分带宽标记为e1,e2,e3;使用软频率复用技术为宏基站用户分配频域资源,使用全部带宽为小基站的小区用户进行资源分配;每个小区使用的子载波分为主子载波、次子载波;主子载波的发射功率大于次子载波,主子载波供小区边缘用户使用,次子载波供小区中心用户使用,克服正交频分多址系统中共信道干扰问题。
进一步的,步骤2中通过D3QN网络训练异构网络模型具体为,
步骤2.1:根据状态st、动作at和奖励rt,将产生的(st,at,rt,st+1)存储在异构网络回放池存储器D中;
步骤2.2:判断回放池存储器D中的数据是否达到一定数量,若达到一定数量,开始训练异构网络直到收敛;若没有达到一定数量,继续步骤2.1;
步骤2.3:智能体为宏基站,采用D3QN网络作为策略,智能体的状态输入为整个异构网络的测量值,动作空间输出为异构网络超参数K和β的值;
步骤2.4:智能体不断与异构网络交互,并根据反馈更新D3QN网络的权重;设定强化学习框架,状态设为所有用户和每个基站之间的信道增益,即st=Gln,{Gln},l=0,...,L,n=1,...,N;
步骤2.5:动作空间设为智能体需要选择的异构网络超参数K和β的值,作为联合UARA问题的解决方案,即动作空间为at={K1,...,Kp,β1,...,βQ},p为PSD共享信道数的可能值,Q为信干噪比阈值的可能值;输入状态,智能体计算每个超参数K值的概率和每个超参数β值的概率;动作空间为p*Q;
步骤2.7:按照迭代次数对异构网络模型进行训练,得到训练好的异构网络模型。
其中,Ppc=Ppico/K;Gln表示小基站到用户n的信道增益,包括天线增益、路径损耗和阴影衰落,假设所有子信道从基站到用户获得相同的信道增益。
进一步的,步骤3中宏基站和小基站的最大发射功率分别表示为Pmacro和Ppico;Pmacro和Ppico分别为:
在不丧失通用性的情况下,使用局部比例公平准则进行用户调度,即每个基站向其所有连接用户分配相同比例的时间;每个用户在任何时候都应该连接到一个且只有一个基站。
其中,为Double DQN网络中的目标值;st、st+1分别为t、t+1时刻智能体的状态,at、at+1分别为t、t+1时刻能体的动作空间;θ-是目标网络的权重;θ、γ分别为表示在线网络的网络参数、衰减因子;Rt、Qt分别为Double DQN网络的奖励、输出;在dueling DQN网络中引入异构网络以获得值函数V(s)和优势函数A(st,at)=Qt(st,at)-V(s);
将(st,at,rt,st+1)存储在回放池存储器D中,在训练过程中,异构网络从回放池存储器D中均匀随机的采样小批量数据来训练,减少训练实例之间的相关性,避免得到局部最优解。
步骤4中在dueling DQN网络中引入double DQN网络以获得值函数和优势函数具体为,在dueling DQN网络中,Double DQN网络的最后一层被分为两个子网络,分别估计dueling DQN网络的值函数V(s)和优势函数A(st,at),使用Double DQN网络对其连接层输出V(st;θ,μ)和A(st,at;θ,α),其中,α和μ均表示全连接层的权重;组合V(st;θ,μ)和A(st,at;θ,α),得到dueling DQN网络的输出Qt(st,at;θ,α,μ)为:
Qt(st,at;θ,α,μ)=V(st;θ,μ)+A(st,at;θ,α)
为提高D3QN网络的稳定性,在dueling DQN网络的输出Qt(st,at;θ,α,μ)减去一个常数,保证状态下动作空间的优势函数相对序列不变,缩小Q值的范围,即:
针对K个共享子信道,为达到最大的资源利用,选择的频率复用因子为1;当相邻小区的不同用户使用相同子载波时,会产生共信道干扰问题,小区边缘用户会收到更大影响。
上述方案中,本发明在异构网络中有效利用时间、空间、频率资源,D3QN网络结合了Double DQN网络和dueling DQN网络的思想。小基站的部署可以消除覆盖漏洞并创建热点,从而完善异构网络覆盖.
与现有技术相比,本发明技术方案的有益效果是:
本发明提出集中强化学习框架的异构网络模型,提出用D3QN网络来优化负载均衡和干扰协调,通过D3QN网络训练异构网络模型,计算宏基站到用户的信干噪比,设定宏基站和小基站的最大发射功率,最小化损失函数,最大化异构网络的能量效率,实现动态资源分配优化。
附图说明
附图仅用于示例性说明,不能理解为对本发明的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
图1为本发明实施例提供的优化方法流程示意图;
图2a是本发明实施例提供的宏基站带宽示意图;
图2b是本发明实施例提供的宏基站功率分配示意图;
图3是本发明实施例提供的异构网络具体实施流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都是本发明保护的范围。
在介绍本申请实施例之前首先对本申请实施例中涉及到的相关名词作如下释义:
D3QN:dueling double DQN,网络;
宏小区:又叫宏蜂窝,在蜂窝式移动电话的建网初期,采用蜂窝技术的小区被称为“宏蜂窝”小区;宏小区是面积很大的区域,基站发射天线通常架设在周围建筑物上方;通常,在收发之间没有直达路径。
软频率复用:蜂窝通信系统中解决频谱资源地区性分配的技术;频率复用是蜂窝通信系统中解决频谱资源地区性分配的重要技术。
实施例1
为了便于理解,请参阅图1,本发明提供的一种异构网络中基于强化学习的动态资源分配优化方法的一个实施例,包括以下步骤:
步骤1:建立异构网络模型,明确以能量效率为最大的优化目标;将宏基站看作智能体,建立马尔可夫决策过程,确定状态空间、动作空间和奖励函数;异构网络模型设有L个基站和多个用户n;基站包括L1个宏基站,L2个小基站,且满足L1+L2=L;
步骤2:划分宏基站覆盖区域和异构网络带宽;通过D3QN网络训练异构网络模型,在一段时间内优化长期网络效率;所述D3QN网络包括double DQN网络和dueling DQN网络;
步骤3:计算宏基站到用户的信干噪比,设定宏基站和小基站的最大发射功率,最小化损失函数;
步骤4:在dueling DQN网络中引入double DQN网络以获得值函数和优势函数,确定最优的异构网络超参数K和β,计算一段时间内异构网络的能量效率,实现动态资源分配优化,以实现动态资源分配的全局最优。
实施例2
具体地,在实施例1的基础上,结合具体的实施例子对方案进行说明,进一步体现本方案的技术效果。具体为:
具体的,步骤1之后还包括,每个宏基站与小基站的功率平均分配给子信道;信干噪比大于预设阈值β,预设阈值β为异构网络的超参数;将用户关联与资源分配的连接问题简化为异构网络超参数K和β的选择。
采用集中式深度强化学习来解决用户关联和资源分配的连接问题,限制动作空间以确保其可行性;动作空间的降维通过动作空间被设置为超参数的一系列离散值;资源分配采用部分共享部署的信道分配方案,K个子信道由宏基站和小基站共享,宏基站子信道数为M-K个,异构网络超参数K的范围为0<K<M。解决用户关联问题,即每个用户有限连接到具有最大信干噪比的小基站。
具体的,步骤2中划分宏基站覆盖区域具体为;根据宏基站与小基站的数量与分布情况确定小基站用户和宏基站用户位置;异构网络为由一个宏基站和几个小基站组成的双层异构网络;
如图2b所示;将宏基站覆盖区域作为宏小区,分为三个扇形,每个扇形区域部署相同数量的小基站,将宏小区分为中心区域C1、C2、C3和小区边缘区域E1、E2、E3,中心区域为整个宏小区面积的2/3,中心区域辅子载波频率的复用因子为1,边缘主子载波频率的复用因子为3。
具体的,如图2a所示;步骤2中划分异构网络带宽具体为,异构网络具有M个子信道,每个子信道的带宽为W;异构网络整个带宽被分为c、e两大部分,带宽e包括e1,e2,e3;将主子载波发射功率P1分为三部分,三部分带宽标记为e1,e2,e3;使用软频率复用技术为宏基站用户分配频域资源,使用全部带宽为小基站的小区用户进行资源分配;每个小区使用的子载波分为主子载波、次子载波;主子载波的发射功率大于次子载波,主子载波供小区边缘用户使用,次子载波供小区中心用户使用,克服正交频分多址系统中共信道干扰问题。
具体的,步骤2中通过D3QN网络训练异构网络模型具体为,
步骤2.1:根据状态st、动作at和奖励rt,将产生的(st,at,rt,st+1)存储在异构网络回放池存储器D中;
步骤2.2:判断回放池存储器D中的数据是否达到一定数量,若达到一定数量,开始训练异构网络直到收敛;若没有达到一定数量,继续步骤2.1;
步骤2.3:智能体为宏基站,采用D3QN网络作为策略,智能体的状态输入为整个异构网络的测量值,动作空间输出为异构网络超参数K和β的值;
步骤2.4:智能体不断与异构网络交互,并根据反馈更新D3QN网络的权重;状态设为所有用户和每个基站之间的信道增益,即st=Gln,{Gln},l=0,...,L,n=1,...,N;
步骤2.5:动作空间设为智能体需要选择的异构网络超参数K和β的值,作为联合UARA问题的解决方案,即动作空间为at={K1,...,Kp,β1,...,βQ},p为PSD共享信道数的可能值,Q为信干噪比阈值的可能值;输入状态,智能体计算每个超参数K值的概率和每个超参数β值的概率;动作空间为p*Q;
步骤2.7:训练10000个回合,每个回合循环100次,得到训练好的异构网络模型。
假设异构网络由一个宏基站和六个小基站组成,宏基站的扇区半径为500m,N个用户均匀分布在整个宏小区内,每个用户的移动速度为01m/s,移动方向为02π,宏基站的发射功率Pmacro=46dB,带宽为180kHz,阴影衰落为8dB,路径损耗为128.1+37.6lg(d/1000)dB,d≥35m;小基站的发射功率Ppico=30dB,带宽为100kHz,阴影衰落为8dB,路径损耗为140.7+36.7lg(d/1000)dB,d≥10m;
异构网络的一维卷积层神经元为128个,全连接层为256个;动作空间由10个K值和10个β值组成;γ=0.99,异构网络的优化器为RMSProp,actor的学习率为0.00001,critic的学习率为0.0001;。
具体的,步骤3中宏基站和小基站的最大发射功率分别表示为Pmacro和Ppico;Pmacro和Ppico分别为:
在不丧失通用性的情况下,使用局部比例公平准则进行用户调度,即每个基站向其所有连接用户分配相同比例的时间;每个用户在任何时候都应该连接到一个且只有一个基站。异构网络中网络效用最大化问题,网络速率效用使用对数形式,即U(Rn)=log(Rn)。
其中,Ppc=Ppico/K;Gln表示小基站到用户n的信道增益,包括天线增益、路径损耗和阴影衰落,假设所有子信道从基站到用户获得相同的信道增益。
最小化损失函数具体为,Q学习方法在较小的状态和动作空间中表现良好;当状态变化较大时,在巨大的Q表中找到最优策略变的十分困难;因此,异构网络被引入到Q学习框架中,DQN是最常用的方法;在DQN中,异构网络用于表示动作空间和状态;状态映射到动作空间的Q表表示为Qt(st,at),用权重为θ的异构网络逼近器 表示在线网络;DQN存在过估计问题;为了解决过估计提出了Double DQN网络;D3QN网络利用在线网络旁的目标网络来稳定整体D3QN网络性能;Q学习方法更新异构网络权重以最小化损失函数
其中,为Double DQN网络中的目标值;st、st+1分别为t、t+1时刻智能体的状态,at、at+1分别为t、t+1时刻能体的动作空间;θ-是目标网络的权重;θ、γ分别为表示在线网络的网络参数、衰减因子;Rt、Qt分别为Double DQN网络的奖励、输出;在dueling DQN网络中引入异构网络以获得值函数V(s)和优势函数A(st,at)=Qt(st,at)-V(s);
在DQN网络中,为了克服学习的不稳定性,采用经验回放策略;将(st,at,rt,st+1)存储在回放池存储器D中,在训练过程中,异构网络从回放池存储器D中均匀随机的采样小批量数据来训练,减少训练实例之间的相关性,避免得到局部最优解。
具体的,优势函数A(st,at)描述了与其他可能动作空间相比,动作空间at的优势;因此,步骤4中在dueling DQN网络中引入double DQN网络以获得值函数和优势函数具体为,在dueling DQN网络中,Double DQN网络的最后一层被分为两个子网络,分别估计dueling DQN网络的值函数V(s)和优势函数A(st,at),使用Double DQN网络对其连接层输出V(st;θ,μ)和A(st,at;θ,α),其中,α和μ均表示全连接层的权重;组合V(st;θ,μ)和A(st,at;θ,α),dueling DQN网络的输出Qt(st,at;θ,α,μ)表示为:
Qt(st,at;θ,α,μ)=V(st;θ,μ)+A(st,at;θ,α)
为了提高D3QN网络的稳定性,在dueling DQN网络的输出Qt(st,at;θ,α,μ)减去一个常数,保证状态下动作空间的优势函数相对序列不变,缩小Q值的范围,即:
用户关联和资源分配通常是耦合的,采用非凸混合整数规划形式难解决问题,在不丧失通用性的情况下,负载均衡和干扰协调问题可以简化为每个用户如何选择连接的基站以及每个基站占用多少子信道。
异构网络属于正交频分多址系统,本发明采用D3QN网络来优化问题;D3QN结合了double DQN和dueling DQN网络的思想;它与dueling DQN的不同在于目标值yt的计算方式上,D3QN中yt的计算采用的是double DQN中yt的计算方式;
如下所示,为本发明实施例中程序的伪代码:
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (10)
1.一种异构网络中基于强化学习的动态资源分配优化方法,其特征在于,包括以下步骤:
步骤1:建立异构网络模型,明确以能量效率为最大的优化目标,异构网络模型由宏基站、小基站以及用户组成;将宏基站看作智能体,建立马尔可夫决策过程,确定状态空间、动作空间和奖励函数;
步骤2:划分宏基站覆盖区域和异构网络带宽;通过D3QN网络训练异构网络模型,所述D3QN网络包括double DQN网络和dueling DQN网络;
步骤3:计算宏基站到用户的信干噪比,设定宏基站和小基站的最大发射功率,最小化损失函数;
步骤4:在dueling DQN网络中引入double DQN网络以获得值函数和优势函数,确定最优的异构网络超参数K和β,最大化异构网络的能量效率,实现动态资源分配优化。
2.根据权利要求1所述的一种异构网络中基于强化学习的动态资源分配优化方法,其特征在于,步骤1中异构网络模型设有L个基站和多个用户n;基站包括L1个宏基站,L2个小基站,且满足L1+L2=L;用户n包括宏基站用户和小基站用户。
3.根据权利要求2所述的一种异构网络中基于强化学习的动态资源分配优化方法,其特征在于,步骤1之后还包括,每个宏基站与小基站的功率平均分配给子信道;信干噪比大于预设阈值β,预设阈值β为异构网络的超参数;动作空间的降维通过动作空间被设置为超参数的一系列离散值;资源分配采用部分共享部署的信道分配方案,K个子信道由宏基站和小基站共享,宏基站子信道数为M-K个,异构网络超参数K的范围为0<K<M。
4.根据权利要求3所述的一种异构网络中基于强化学习的动态资源分配优化方法,其特征在于,步骤2中划分宏基站覆盖区域具体为;根据宏基站与小基站的数量与分布情况确定小基站用户和宏基站用户位置;将宏基站覆盖区域作为宏小区,分为三个扇形,每个扇形区域部署相同数量的小基站,将宏小区分为中心区域C1、C2、C3和小区边缘区域E1、E2、E3。
5.根据权利要求4所述的一种异构网络中基于强化学习的动态资源分配优化方法,其特征在于,步骤2中划分异构网络带宽具体为,异构网络具有M个子信道,每个子信道的带宽为W;异构网络整个带宽被分为c、e两大部分,带宽e包括e1,e2,e3;将主子载波发射功率P1分为三部分,三部分带宽标记为e1,e2,e3;使用软频率复用技术为宏基站用户分配频域资源,使用全部带宽为小基站的小区用户进行资源分配;每个小区使用的子载波分为主子载波、次子载波;主子载波的发射功率大于次子载波,主子载波供小区边缘用户使用,次子载波供小区中心用户使用,克服正交频分多址系统中共信道干扰问题。
6.根据权利要求5所述的一种异构网络中基于强化学习的动态资源分配优化方法,其特征在于,步骤2中通过D3QN网络训练异构网络模型具体为,
步骤2.1:根据状态st、动作at和奖励rt,将产生的(st,at,rt,st+1)存储在异构网络回放池存储器D中;
步骤2.2:判断回放池存储器D中的数据是否达到一定数量,若达到一定数量,开始训练异构网络直到收敛;若没有达到一定数量,继续步骤2.1;
步骤2.3:智能体为宏基站,采用D3QN网络作为策略,智能体的状态输入为整个异构网络的测量值,动作空间输出为异构网络超参数K和β的值;
步骤2.4:智能体不断与异构网络交互,并根据反馈更新D3QN网络的权重;设定强化学习框架,状态设为所有用户和每个基站之间的信道增益,即st=Gln,{Gln},l=0,...,L,n=1,...,N;
步骤2.5:动作空间设为智能体需要选择的异构网络超参数K和β的值,作为联合UARA问题的解决方案,即动作空间为at={K1,...,Kp,β1,...,,βQ},p为PSD共享信道数的可能值,Q为信干噪比阈值的可能值;输入状态,智能体计算每个超参数K值的概率和每个超参数β值的概率;动作空间为p*Q;
步骤2.7:按照迭代次数对异构网络模型进行训练,得到训练好的异构网络模型。
7.根据权利要求6所述的一种异构网络中基于强化学习的动态资源分配优化方法,其特征在于,步骤3中计算宏基站到用户的信干噪比具体为:所有基站的集合表示为其中宏基站的索引为0,其余L个为小基站;宏基站=0的独占占用子信道m上宏基站用户处的信干噪比为:
其中,Ppc=Ppico/K;Gln表示小基站到用户n的信道增益,包括天线增益、路径损耗和阴影衰落,假设所有子信道从基站到用户获得相同的信道增益。
9.根据权利要求8所述的一种异构网络中基于强化学习的动态资源分配优化方法,其特征在于,步骤3中最小化损失函数具体为,状态映射到动作空间的Q表表示为Qt(st,at),用权重为θ的异构网络逼近器 表示在线网络;采用Q学习方法更新异构网络权重以最小化损失函数:
其中,为Double DQN网络中的目标值;st、st+1分别为t、t+1时刻智能体的状态,at、at+1分别为t、t+1时刻能体的动作空间;θ-是目标网络的权重;θ、γ分别为表示在线网络的网络参数、衰减因子;Rt、Qt分别为DoubleDQN网络的奖励、输出;在dueling DQN网络中引入异构网络以获得值函数V(s)和优势函数A(st,at)=Qt(st,at)-V(s);
将(st,at,rt,st+1)存储在回放池存储器D中,在训练过程中,异构网络从回放池存储器D中均匀随机的采样小批量数据来训练,减少训练实例之间的相关性,避免得到局部最优解。
10.根据权利要求9所述的一种异构网络中基于强化学习的动态资源分配优化方法,其特征在于,步骤4中在dueling DQN网络中引入double DQN网络以获得值函数和优势函数具体为,在dueling DQN网络中,Double DQN网络的最后一层被分为两个子网络,分别估计dueling DQN网络的值函数V(s)和优势函数A(st,at),使用Double DQN网络对其连接层输出V(st;θ,μ)和A(st,at;θ,α),其中,α和μ均表示全连接层的权重;组合V(st;θ,μ)和A(st,at;θ,α),得到dueling DQN网络的输出Qt(st,at;θ,α,μ)为:
Qt(st,at;θ,α,μ)=V(st;θ,μ)+A(st,at;θ,α)
为提高D3QN网络的稳定性,在dueling DQN网络的输出Qt(st,at;θ,α,μ)减去一个常数,保证状态下动作空间的优势函数相对序列不变,缩小Q值的范围,即:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310065762.9A CN116095690A (zh) | 2023-01-17 | 2023-01-17 | 一种异构网络中基于强化学习的动态资源分配优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310065762.9A CN116095690A (zh) | 2023-01-17 | 2023-01-17 | 一种异构网络中基于强化学习的动态资源分配优化方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116095690A true CN116095690A (zh) | 2023-05-09 |
Family
ID=86209968
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310065762.9A Pending CN116095690A (zh) | 2023-01-17 | 2023-01-17 | 一种异构网络中基于强化学习的动态资源分配优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116095690A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116594971A (zh) * | 2023-07-17 | 2023-08-15 | 山东天意装配式建筑装备研究院有限公司 | 基于bim的装配式建筑数据优化存储方法 |
CN117156529A (zh) * | 2023-11-01 | 2023-12-01 | 唐人通信技术服务股份有限公司 | 一种基站供电管理方法及系统 |
CN117896779A (zh) * | 2023-11-30 | 2024-04-16 | 东莞理工学院 | 基于5.5g自治网络的负载均衡方法、装置及设备 |
-
2023
- 2023-01-17 CN CN202310065762.9A patent/CN116095690A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116594971A (zh) * | 2023-07-17 | 2023-08-15 | 山东天意装配式建筑装备研究院有限公司 | 基于bim的装配式建筑数据优化存储方法 |
CN116594971B (zh) * | 2023-07-17 | 2023-09-29 | 山东天意装配式建筑装备研究院有限公司 | 基于bim的装配式建筑数据优化存储方法 |
CN117156529A (zh) * | 2023-11-01 | 2023-12-01 | 唐人通信技术服务股份有限公司 | 一种基站供电管理方法及系统 |
CN117156529B (zh) * | 2023-11-01 | 2024-01-16 | 唐人通信技术服务股份有限公司 | 一种基站供电管理方法及系统 |
CN117896779A (zh) * | 2023-11-30 | 2024-04-16 | 东莞理工学院 | 基于5.5g自治网络的负载均衡方法、装置及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116095690A (zh) | 一种异构网络中基于强化学习的动态资源分配优化方法 | |
CN106604401B (zh) | 一种异构网络中的资源分配方法 | |
CN107466099B (zh) | 一种基于非正交多址接入的干扰管理自优化方法 | |
CN108366427B (zh) | D2d通信中基于功率控制的系统吞吐量与能效平衡方法 | |
Lee et al. | An efficient resource allocation in OFDMA femtocells networks | |
CN104378772B (zh) | 一种蜂窝网络中面向小区无定形覆盖的小基站部署方法 | |
CN106231610B (zh) | Femtocell双层网络中基于分簇的资源分配方法 | |
CN108965009B (zh) | 一种基于势博弈的负载已知用户关联方法 | |
CN107708157A (zh) | 基于能效的密集小蜂窝网络资源分配方法 | |
CN107205236B (zh) | 一种应用于小区间中继蜂窝网负载均衡的公平性提升方法 | |
JP5543670B2 (ja) | パレート最適電力制御を適用するためにセルラ環境においてユーザをスケジューリングする方法、スケジューラ、及び無線通信ネットワーク | |
Yu et al. | Dynamic resource allocation in TDD-based heterogeneous cloud radio access networks | |
CN105490794B (zh) | Ofdma毫微微小区双层网络基于分组的资源分配方法 | |
Ding et al. | Energy efficient user association and power control for dense heterogeneous networks | |
Lu et al. | Power control based time-domain inter-cell interference coordination scheme in DSCNs | |
CN107517464B (zh) | 一种异构网络中的干扰管理和资源分配方法 | |
Liu et al. | Game-theoretic hierarchical resource allocation in ultra-dense networks | |
CN108834158B (zh) | 一种用于超密集组网的干扰管理方法 | |
Gupta et al. | Power and subcarrier allocation for OFDMA femto-cell based underlay cognitive radio in a two-tier network | |
Isnawati et al. | Performance Analysis of Game Theoretical Approach for Power Control System in Heterogeneous Network. | |
Alnwaimi et al. | Machine learning based knowledge acquisition on spectrum usage for lte femtocells | |
CN103491620B (zh) | 一种异构网络中基于用户主导的分布式上行功控方法 | |
Teng et al. | Cell clustering-based resource allocation in ultra-dense networks | |
Lv et al. | A distributed power allocation algorithm with inter-cell interference coordination for multi-cell OFDMA systems | |
Aboagye et al. | Energy efficient power and flow control in millimeter wave backhaul heterogeneous networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |