CN116095690A - 一种异构网络中基于强化学习的动态资源分配优化方法 - Google Patents

一种异构网络中基于强化学习的动态资源分配优化方法 Download PDF

Info

Publication number
CN116095690A
CN116095690A CN202310065762.9A CN202310065762A CN116095690A CN 116095690 A CN116095690 A CN 116095690A CN 202310065762 A CN202310065762 A CN 202310065762A CN 116095690 A CN116095690 A CN 116095690A
Authority
CN
China
Prior art keywords
base station
heterogeneous network
network
macro base
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310065762.9A
Other languages
English (en)
Inventor
李君�
刘子怡
刘兴鑫
李晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuxi University
Original Assignee
Wuxi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuxi University filed Critical Wuxi University
Priority to CN202310065762.9A priority Critical patent/CN116095690A/zh
Publication of CN116095690A publication Critical patent/CN116095690A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/02Resource partitioning among network components, e.g. reuse partitioning
    • H04W16/10Dynamic resource partitioning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B17/00Monitoring; Testing
    • H04B17/30Monitoring; Testing of propagation channels
    • H04B17/309Measuring or estimating channel quality parameters
    • H04B17/336Signal-to-interference ratio [SIR] or carrier-to-interference ratio [CIR]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B17/00Monitoring; Testing
    • H04B17/30Monitoring; Testing of propagation channels
    • H04B17/382Monitoring; Testing of propagation channels for resource allocation, admission control or handover
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/14Spectrum sharing arrangements between different networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/18Network planning tools
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/24Cell structures
    • H04W16/32Hierarchical cell structures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W84/00Network topologies
    • H04W84/02Hierarchically pre-organised networks, e.g. paging networks, cellular networks, WLAN [Wireless Local Area Network] or WLL [Wireless Local Loop]
    • H04W84/04Large scale networks; Deep hierarchical networks
    • H04W84/042Public Land Mobile systems, e.g. cellular systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W88/00Devices specially adapted for wireless communication networks, e.g. terminals, base stations or access point devices
    • H04W88/08Access point devices
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Electromagnetism (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种异构网络中基于强化学习的动态资源分配优化方法,步骤1:建立异构网络模型,明确以能量效率为最大的优化目标;将宏基站看作智能体,建立马尔可夫决策过程,确定状态空间、动作空间和奖励函数;划分宏基站覆盖区域和异构网络带宽;通过D3QN网络训练异构网络模型,设定宏基站和小基站的最大发射功率,计算宏基站到用户的信干噪比,最小化损失函数;在dueling DQN网络中引入double DQN网络以获得值函数和优势函数,确定最优的异构网络超参数K和β,最大化异构网络的能量效率,实现动态资源分配优化。本发明提出集中强化学习框架的异构网络模型,以实现动态资源分配的全局最优,提出用D3QN网络来优化负载均衡和干扰协调,最大化异构网络的能量效率,实现动态资源分配优化。

Description

一种异构网络中基于强化学习的动态资源分配优化方法
技术领域
本发明涉及通信系统技术领域,特别是涉及一种异构网络中基于强化学习的动态资源分配优化方法。
背景技术
终端数量的不断增加和数据业务需求的快速增长,传统的单层网络已经不能满足当前科技的快速发展的需求,无线通信网络也面临着巨大的挑战。为了缓解通信网络的巨大压力,研究人员提出了异构网络。因此现在的无线接入网络发展成为了由满足广域接入需求的宏基站与满足小区域高密度接入需求的小基站共同组成的异构网络。为了支持高速移动数据服务并提供更好的覆盖,下一代蜂窝网络预计将广泛部署微蜂窝基站或小蜂窝基站,这些基站可以从传统的宏基站卸载一些用户和流量。虽然网络容量提升,网络覆盖有所增强,但异构网络面临负载均衡和干扰协调的挑战,需要通过有效的用户关联和资源分配方法来解决。
发明内容
本发明提供一种异构网络中基于强化学习的动态资源分配优化方法,以实现动态资源分配的全局最优。
为实现上述效果,本发明的技术方案如下:
一种异构网络中基于强化学习的动态资源分配优化方法,包括以下步骤:
步骤1:建立异构网络模型,明确以能量效率为最大的优化目标;将宏基站看作智能体,建立马尔可夫决策过程,确定状态空间、动作空间和奖励函数;
步骤2:划分宏基站覆盖区域和异构网络带宽;通过D3QN网络训练异构网络模型,所述D3QN网络包括double DQN网络和dueling DQN网络;
步骤3:计算宏基站到用户的信干噪比,设定宏基站和小基站的最大发射功率,最小化损失函数;
步骤4:在dueling DQN网络中引入double DQN网络以获得值函数和优势函数,确定最优的异构网络超参数K和β,最大化异构网络的能量效率,实现动态资源分配优化。
进一步的,步骤1中异构网络模型设有L个基站和多个用户n;基站包括L1个宏基站,L2个小基站,且满足L1+L2=L。
进一步的,步骤1之后还包括,每个宏基站与小基站的功率平均分配给子信道;信干噪比大于预设阈值β,预设阈值β为异构网络的超参数;动作空间的降维通过动作空间被设置为超参数的一系列离散值;资源分配采用部分共享部署的信道分配方案,K个子信道由宏基站和小基站共享,宏基站子信道数为M-K个,异构网络超参数K的范围为0<K<M。
进一步的,步骤2中划分宏基站覆盖区域具体为;根据宏基站与小基站的数量与分布情况确定小基站用户和宏基站用户位置;将宏基站覆盖区域作为宏小区,分为三个扇形,每个扇形区域部署相同数量的小基站,将宏小区分为中心区域C1、C2、C3和小区边缘区域E1、E2、E3。
进一步的,步骤2中划分异构网络带宽具体为,异构网络具有M个子信道,每个子信道的带宽为W;异构网络整个带宽被分为c、e两大部分,带宽e包括e1,e2,e3;将主子载波发射功率P1分为三部分,三部分带宽标记为e1,e2,e3;使用软频率复用技术为宏基站用户分配频域资源,使用全部带宽为小基站的小区用户进行资源分配;每个小区使用的子载波分为主子载波、次子载波;主子载波的发射功率大于次子载波,主子载波供小区边缘用户使用,次子载波供小区中心用户使用,克服正交频分多址系统中共信道干扰问题。
进一步的,步骤2中通过D3QN网络训练异构网络模型具体为,
步骤2.1:根据状态st、动作at和奖励rt,将产生的(st,at,rt,st+1)存储在异构网络回放池存储器D中;
步骤2.2:判断回放池存储器D中的数据是否达到一定数量,若达到一定数量,开始训练异构网络直到收敛;若没有达到一定数量,继续步骤2.1;
步骤2.3:智能体为宏基站,采用D3QN网络作为策略,智能体的状态输入为整个异构网络的测量值,动作空间输出为异构网络超参数K和β的值;
步骤2.4:智能体不断与异构网络交互,并根据反馈更新D3QN网络的权重;设定强化学习框架,状态设为所有用户和每个基站之间的信道增益,即st=Gln,{Gln},l=0,...,L,n=1,...,N;
步骤2.5:动作空间设为智能体需要选择的异构网络超参数K和β的值,作为联合UARA问题的解决方案,即动作空间为at={K1,...,Kp1,...,βQ},p为PSD共享信道数的可能值,Q为信干噪比阈值的可能值;输入状态,智能体计算每个超参数K值的概率和每个超参数β值的概率;动作空间为p*Q;
步骤2.6:奖励设为
Figure BDA0004062222860000031
为能量效率函数;wn为用户权重,异构网络中所有用户具有相同的优先级,wn=1/N,n=1,2,...,N;
步骤2.7:按照迭代次数对异构网络模型进行训练,得到训练好的异构网络模型。
进一步的,步骤3中计算宏基站到用户的信干噪比具体为:所有基站的集合表示为
Figure BDA00040622228600000312
其中宏基站的索引为0,其余L个为小基站;宏基站=0的独占占用子信道m上宏基站用户处的信干噪比
Figure BDA0004062222860000032
为:
Figure BDA0004062222860000033
其中,
Figure BDA0004062222860000034
Gon表示宏基站0到用户n的信道增益,N0表示带宽为W的子信道上的噪声功率;
宏基站=0的共享子信道上宏基站用户处的信干噪比
Figure BDA0004062222860000035
为:
Figure BDA0004062222860000036
其中,
Figure BDA0004062222860000037
小基站=1,...,L的共享子信道上小基站用户处的信干噪比
Figure BDA0004062222860000038
为:
Figure BDA0004062222860000039
其中,Ppc=Ppico/K;Gln表示小基站到用户n的信道增益,包括天线增益、路径损耗和阴影衰落,假设所有子信道从基站到用户获得相同的信道增益。
进一步的,步骤3中宏基站和小基站的最大发射功率分别表示为Pmacro和Ppico;Pmacro和Ppico分别为:
Figure BDA00040622228600000310
Figure BDA00040622228600000311
任何用户的数据速率为:
Figure BDA0004062222860000041
其中,
Figure BDA0004062222860000042
Figure BDA0004062222860000047
表示基站;Rmacro表示宏基站用户的数据速率;Rpico表示小基站用户的数据速率;如果用户n与基站
Figure BDA0004062222860000048
相关联,则
Figure BDA0004062222860000049
否则
Figure BDA00040622228600000410
Figure BDA00040622228600000411
为用户调度因子,即基站分配给其连接用户的时间比例;
在不丧失通用性的情况下,使用局部比例公平准则进行用户调度,即每个基站向其所有连接用户分配相同比例的时间;每个用户在任何时候都应该连接到一个且只有一个基站。
进一步的,步骤3中最小化损失函数具体为,状态映射到动作空间的Q表表示为Qt(st,at),用权重为θ的异构网络逼近器
Figure BDA0004062222860000043
表示在线网络;Q学习方法更新其权重以最小化损失函数
Figure BDA0004062222860000044
Figure BDA0004062222860000045
其中,
Figure BDA0004062222860000046
为Double DQN网络中的目标值;st、st+1分别为t、t+1时刻智能体的状态,at、at+1分别为t、t+1时刻能体的动作空间;θ-是目标网络的权重;θ、γ分别为表示在线网络的网络参数、衰减因子;Rt、Qt分别为Double DQN网络的奖励、输出;在dueling DQN网络中引入异构网络以获得值函数V(s)和优势函数A(st,at)=Qt(st,at)-V(s);
将(st,at,rt,st+1)存储在回放池存储器D中,在训练过程中,异构网络从回放池存储器D中均匀随机的采样小批量数据来训练,减少训练实例之间的相关性,避免得到局部最优解。
步骤4中在dueling DQN网络中引入double DQN网络以获得值函数和优势函数具体为,在dueling DQN网络中,Double DQN网络的最后一层被分为两个子网络,分别估计dueling DQN网络的值函数V(s)和优势函数A(st,at),使用Double DQN网络对其连接层输出V(st;θ,μ)和A(st,at;θ,α),其中,α和μ均表示全连接层的权重;组合V(st;θ,μ)和A(st,at;θ,α),得到dueling DQN网络的输出Qt(st,at;θ,α,μ)为:
Qt(st,at;θ,α,μ)=V(st;θ,μ)+A(st,at;θ,α)
为提高D3QN网络的稳定性,在dueling DQN网络的输出Qt(st,at;θ,α,μ)减去一个常数,保证状态下动作空间的优势函数相对序列不变,缩小Q值的范围,即:
Figure BDA0004062222860000051
针对K个共享子信道,为达到最大的资源利用,选择的频率复用因子为1;当相邻小区的不同用户使用相同子载波时,会产生共信道干扰问题,小区边缘用户会收到更大影响。
上述方案中,本发明在异构网络中有效利用时间、空间、频率资源,D3QN网络结合了Double DQN网络和dueling DQN网络的思想。小基站的部署可以消除覆盖漏洞并创建热点,从而完善异构网络覆盖.
与现有技术相比,本发明技术方案的有益效果是:
本发明提出集中强化学习框架的异构网络模型,提出用D3QN网络来优化负载均衡和干扰协调,通过D3QN网络训练异构网络模型,计算宏基站到用户的信干噪比,设定宏基站和小基站的最大发射功率,最小化损失函数,最大化异构网络的能量效率,实现动态资源分配优化。
附图说明
附图仅用于示例性说明,不能理解为对本发明的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
图1为本发明实施例提供的优化方法流程示意图;
图2a是本发明实施例提供的宏基站带宽示意图;
图2b是本发明实施例提供的宏基站功率分配示意图;
图3是本发明实施例提供的异构网络具体实施流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都是本发明保护的范围。
在介绍本申请实施例之前首先对本申请实施例中涉及到的相关名词作如下释义:
D3QN:dueling double DQN,网络;
宏小区:又叫宏蜂窝,在蜂窝式移动电话的建网初期,采用蜂窝技术的小区被称为“宏蜂窝”小区;宏小区是面积很大的区域,基站发射天线通常架设在周围建筑物上方;通常,在收发之间没有直达路径。
软频率复用:蜂窝通信系统中解决频谱资源地区性分配的技术;频率复用是蜂窝通信系统中解决频谱资源地区性分配的重要技术。
实施例1
为了便于理解,请参阅图1,本发明提供的一种异构网络中基于强化学习的动态资源分配优化方法的一个实施例,包括以下步骤:
步骤1:建立异构网络模型,明确以能量效率为最大的优化目标;将宏基站看作智能体,建立马尔可夫决策过程,确定状态空间、动作空间和奖励函数;异构网络模型设有L个基站和多个用户n;基站包括L1个宏基站,L2个小基站,且满足L1+L2=L;
步骤2:划分宏基站覆盖区域和异构网络带宽;通过D3QN网络训练异构网络模型,在一段时间内优化长期网络效率;所述D3QN网络包括double DQN网络和dueling DQN网络;
步骤3:计算宏基站到用户的信干噪比,设定宏基站和小基站的最大发射功率,最小化损失函数;
步骤4:在dueling DQN网络中引入double DQN网络以获得值函数和优势函数,确定最优的异构网络超参数K和β,计算一段时间内异构网络的能量效率,实现动态资源分配优化,以实现动态资源分配的全局最优。
在本实施例中,所有基站的集合表示为
Figure BDA0004062222860000061
其中宏基站的索引为0,其余L个为小基站;小基站的最大发射功率、天线增益和路径损耗是相同的;N个用户均匀的分布在宏小区中。
实施例2
具体地,在实施例1的基础上,结合具体的实施例子对方案进行说明,进一步体现本方案的技术效果。具体为:
具体的,步骤1之后还包括,每个宏基站与小基站的功率平均分配给子信道;信干噪比大于预设阈值β,预设阈值β为异构网络的超参数;将用户关联与资源分配的连接问题简化为异构网络超参数K和β的选择。
采用集中式深度强化学习来解决用户关联和资源分配的连接问题,限制动作空间以确保其可行性;动作空间的降维通过动作空间被设置为超参数的一系列离散值;资源分配采用部分共享部署的信道分配方案,K个子信道由宏基站和小基站共享,宏基站子信道数为M-K个,异构网络超参数K的范围为0<K<M。解决用户关联问题,即每个用户有限连接到具有最大信干噪比的小基站。
具体的,步骤2中划分宏基站覆盖区域具体为;根据宏基站与小基站的数量与分布情况确定小基站用户和宏基站用户位置;异构网络为由一个宏基站和几个小基站组成的双层异构网络;
如图2b所示;将宏基站覆盖区域作为宏小区,分为三个扇形,每个扇形区域部署相同数量的小基站,将宏小区分为中心区域C1、C2、C3和小区边缘区域E1、E2、E3,中心区域为整个宏小区面积的2/3,中心区域辅子载波频率的复用因子为1,边缘主子载波频率的复用因子为3。
具体的,如图2a所示;步骤2中划分异构网络带宽具体为,异构网络具有M个子信道,每个子信道的带宽为W;异构网络整个带宽被分为c、e两大部分,带宽e包括e1,e2,e3;将主子载波发射功率P1分为三部分,三部分带宽标记为e1,e2,e3;使用软频率复用技术为宏基站用户分配频域资源,使用全部带宽为小基站的小区用户进行资源分配;每个小区使用的子载波分为主子载波、次子载波;主子载波的发射功率大于次子载波,主子载波供小区边缘用户使用,次子载波供小区中心用户使用,克服正交频分多址系统中共信道干扰问题。
具体的,步骤2中通过D3QN网络训练异构网络模型具体为,
步骤2.1:根据状态st、动作at和奖励rt,将产生的(st,at,rt,st+1)存储在异构网络回放池存储器D中;
步骤2.2:判断回放池存储器D中的数据是否达到一定数量,若达到一定数量,开始训练异构网络直到收敛;若没有达到一定数量,继续步骤2.1;
步骤2.3:智能体为宏基站,采用D3QN网络作为策略,智能体的状态输入为整个异构网络的测量值,动作空间输出为异构网络超参数K和β的值;
步骤2.4:智能体不断与异构网络交互,并根据反馈更新D3QN网络的权重;状态设为所有用户和每个基站之间的信道增益,即st=Gln,{Gln},l=0,...,L,n=1,...,N;
步骤2.5:动作空间设为智能体需要选择的异构网络超参数K和β的值,作为联合UARA问题的解决方案,即动作空间为at={K1,...,Kp1,...,βQ},p为PSD共享信道数的可能值,Q为信干噪比阈值的可能值;输入状态,智能体计算每个超参数K值的概率和每个超参数β值的概率;动作空间为p*Q;
步骤2.6:奖励设为
Figure BDA0004062222860000081
为能量效率函数;wn为用户权重,异构网络中所有用户具有相同的优先级,wn=1/N,n=1,2,...,N;
步骤2.7:训练10000个回合,每个回合循环100次,得到训练好的异构网络模型。
假设异构网络由一个宏基站和六个小基站组成,宏基站的扇区半径为500m,N个用户均匀分布在整个宏小区内,每个用户的移动速度为0
Figure BDA0004062222860000089
1m/s,移动方向为0
Figure BDA00040622228600000810
2π,宏基站的发射功率Pmacro=46dB,带宽为180kHz,阴影衰落为8dB,路径损耗为128.1+37.6lg(d/1000)dB,d≥35m;小基站的发射功率Ppico=30dB,带宽为100kHz,阴影衰落为8dB,路径损耗为140.7+36.7lg(d/1000)dB,d≥10m;
异构网络的一维卷积层神经元为128个,全连接层为256个;动作空间由10个K值和10个β值组成;γ=0.99,异构网络的优化器为RMSProp,actor的学习率为0.00001,critic的学习率为0.0001;。
具体的,步骤3中宏基站和小基站的最大发射功率分别表示为Pmacro和Ppico;Pmacro和Ppico分别为:
Figure BDA0004062222860000082
Figure BDA0004062222860000083
任何用户的数据速率为:
Figure BDA0004062222860000084
其中,
Figure BDA0004062222860000085
Figure BDA0004062222860000086
表示基站;Rmacro表示宏基站用户的数据速率;Rpico表示小基站用户的数据速率;如果用户n与基站
Figure BDA0004062222860000087
相关联,则
Figure BDA0004062222860000088
否则
Figure BDA00040622228600000911
Figure BDA00040622228600000912
为用户调度因子,即基站分配给其连接用户的时间比例;
在不丧失通用性的情况下,使用局部比例公平准则进行用户调度,即每个基站向其所有连接用户分配相同比例的时间;每个用户在任何时候都应该连接到一个且只有一个基站。异构网络中网络效用最大化问题,网络速率效用使用对数形式,即U(Rn)=log(Rn)。
具体的,步骤3中计算宏基站到用户的信干噪比具体为:所有基站的集合表示为
Figure BDA00040622228600000913
其中宏基站的索引为0,其余L个为小基站;宏基站=0的独占占用子信道m上宏基站用户处的信干噪比
Figure BDA0004062222860000091
为:
Figure BDA0004062222860000092
其中,
Figure BDA0004062222860000093
Gon表示宏基站0到用户n的信道增益,N0表示带宽为W的子信道上的噪声功率;
宏基站=0的共享子信道上宏基站用户处的信干噪比
Figure BDA0004062222860000094
为:
Figure BDA0004062222860000095
其中,
Figure BDA0004062222860000096
小基站=1,...,L的共享子信道上小基站用户处的信干噪比
Figure BDA0004062222860000097
为:
Figure BDA0004062222860000098
其中,Ppc=Ppico/K;Gln表示小基站到用户n的信道增益,包括天线增益、路径损耗和阴影衰落,假设所有子信道从基站到用户获得相同的信道增益。
最小化损失函数具体为,Q学习方法在较小的状态和动作空间中表现良好;当状态变化较大时,在巨大的Q表中找到最优策略变的十分困难;因此,异构网络被引入到Q学习框架中,DQN是最常用的方法;在DQN中,异构网络用于表示动作空间和状态;状态映射到动作空间的Q表表示为Qt(st,at),用权重为θ的异构网络逼近器
Figure BDA0004062222860000099
Figure BDA00040622228600000910
表示在线网络;DQN存在过估计问题;为了解决过估计提出了Double DQN网络;D3QN网络利用在线网络旁的目标网络来稳定整体D3QN网络性能;Q学习方法更新异构网络权重以最小化损失函数
Figure BDA0004062222860000101
Figure BDA0004062222860000102
其中,
Figure BDA0004062222860000103
为Double DQN网络中的目标值;st、st+1分别为t、t+1时刻智能体的状态,at、at+1分别为t、t+1时刻能体的动作空间;θ-是目标网络的权重;θ、γ分别为表示在线网络的网络参数、衰减因子;Rt、Qt分别为Double DQN网络的奖励、输出;在dueling DQN网络中引入异构网络以获得值函数V(s)和优势函数A(st,at)=Qt(st,at)-V(s);
在DQN网络中,为了克服学习的不稳定性,采用经验回放策略;将(st,at,rt,st+1)存储在回放池存储器D中,在训练过程中,异构网络从回放池存储器D中均匀随机的采样小批量数据来训练,减少训练实例之间的相关性,避免得到局部最优解。
具体的,优势函数A(st,at)描述了与其他可能动作空间相比,动作空间at的优势;因此,步骤4中在dueling DQN网络中引入double DQN网络以获得值函数和优势函数具体为,在dueling DQN网络中,Double DQN网络的最后一层被分为两个子网络,分别估计dueling DQN网络的值函数V(s)和优势函数A(st,at),使用Double DQN网络对其连接层输出V(st;θ,μ)和A(st,at;θ,α),其中,α和μ均表示全连接层的权重;组合V(st;θ,μ)和A(st,at;θ,α),dueling DQN网络的输出Qt(st,at;θ,α,μ)表示为:
Qt(st,at;θ,α,μ)=V(st;θ,μ)+A(st,at;θ,α)
为了提高D3QN网络的稳定性,在dueling DQN网络的输出Qt(st,at;θ,α,μ)减去一个常数,保证状态下动作空间的优势函数相对序列不变,缩小Q值的范围,即:
Figure BDA0004062222860000104
用户关联和资源分配通常是耦合的,采用非凸混合整数规划形式难解决问题,在不丧失通用性的情况下,负载均衡和干扰协调问题可以简化为每个用户如何选择连接的基站以及每个基站占用多少子信道。
异构网络属于正交频分多址系统,本发明采用D3QN网络来优化问题;D3QN结合了double DQN和dueling DQN网络的思想;它与dueling DQN的不同在于目标值yt的计算方式上,D3QN中yt的计算采用的是double DQN中yt的计算方式;
如下所示,为本发明实施例中程序的伪代码:
Figure BDA0004062222860000111
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (10)

1.一种异构网络中基于强化学习的动态资源分配优化方法,其特征在于,包括以下步骤:
步骤1:建立异构网络模型,明确以能量效率为最大的优化目标,异构网络模型由宏基站、小基站以及用户组成;将宏基站看作智能体,建立马尔可夫决策过程,确定状态空间、动作空间和奖励函数;
步骤2:划分宏基站覆盖区域和异构网络带宽;通过D3QN网络训练异构网络模型,所述D3QN网络包括double DQN网络和dueling DQN网络;
步骤3:计算宏基站到用户的信干噪比,设定宏基站和小基站的最大发射功率,最小化损失函数;
步骤4:在dueling DQN网络中引入double DQN网络以获得值函数和优势函数,确定最优的异构网络超参数K和β,最大化异构网络的能量效率,实现动态资源分配优化。
2.根据权利要求1所述的一种异构网络中基于强化学习的动态资源分配优化方法,其特征在于,步骤1中异构网络模型设有L个基站和多个用户n;基站包括L1个宏基站,L2个小基站,且满足L1+L2=L;用户n包括宏基站用户和小基站用户。
3.根据权利要求2所述的一种异构网络中基于强化学习的动态资源分配优化方法,其特征在于,步骤1之后还包括,每个宏基站与小基站的功率平均分配给子信道;信干噪比大于预设阈值β,预设阈值β为异构网络的超参数;动作空间的降维通过动作空间被设置为超参数的一系列离散值;资源分配采用部分共享部署的信道分配方案,K个子信道由宏基站和小基站共享,宏基站子信道数为M-K个,异构网络超参数K的范围为0<K<M。
4.根据权利要求3所述的一种异构网络中基于强化学习的动态资源分配优化方法,其特征在于,步骤2中划分宏基站覆盖区域具体为;根据宏基站与小基站的数量与分布情况确定小基站用户和宏基站用户位置;将宏基站覆盖区域作为宏小区,分为三个扇形,每个扇形区域部署相同数量的小基站,将宏小区分为中心区域C1、C2、C3和小区边缘区域E1、E2、E3。
5.根据权利要求4所述的一种异构网络中基于强化学习的动态资源分配优化方法,其特征在于,步骤2中划分异构网络带宽具体为,异构网络具有M个子信道,每个子信道的带宽为W;异构网络整个带宽被分为c、e两大部分,带宽e包括e1,e2,e3;将主子载波发射功率P1分为三部分,三部分带宽标记为e1,e2,e3;使用软频率复用技术为宏基站用户分配频域资源,使用全部带宽为小基站的小区用户进行资源分配;每个小区使用的子载波分为主子载波、次子载波;主子载波的发射功率大于次子载波,主子载波供小区边缘用户使用,次子载波供小区中心用户使用,克服正交频分多址系统中共信道干扰问题。
6.根据权利要求5所述的一种异构网络中基于强化学习的动态资源分配优化方法,其特征在于,步骤2中通过D3QN网络训练异构网络模型具体为,
步骤2.1:根据状态st、动作at和奖励rt,将产生的(st,at,rt,st+1)存储在异构网络回放池存储器D中;
步骤2.2:判断回放池存储器D中的数据是否达到一定数量,若达到一定数量,开始训练异构网络直到收敛;若没有达到一定数量,继续步骤2.1;
步骤2.3:智能体为宏基站,采用D3QN网络作为策略,智能体的状态输入为整个异构网络的测量值,动作空间输出为异构网络超参数K和β的值;
步骤2.4:智能体不断与异构网络交互,并根据反馈更新D3QN网络的权重;设定强化学习框架,状态设为所有用户和每个基站之间的信道增益,即st=Gln,{Gln},l=0,...,L,n=1,...,N;
步骤2.5:动作空间设为智能体需要选择的异构网络超参数K和β的值,作为联合UARA问题的解决方案,即动作空间为at={K1,...,Kp1,...,,βQ},p为PSD共享信道数的可能值,Q为信干噪比阈值的可能值;输入状态,智能体计算每个超参数K值的概率和每个超参数β值的概率;动作空间为p*Q;
步骤2.6:奖励设为
Figure FDA0004062222850000021
U(Rn)=log(Rn)为能量效率函数;wn为用户权重,异构网络中所有用户具有相同的优先级,wn=1/N,n=1,2,...,N;
步骤2.7:按照迭代次数对异构网络模型进行训练,得到训练好的异构网络模型。
7.根据权利要求6所述的一种异构网络中基于强化学习的动态资源分配优化方法,其特征在于,步骤3中计算宏基站到用户的信干噪比具体为:所有基站的集合表示为
Figure FDA0004062222850000022
其中宏基站的索引为0,其余L个为小基站;宏基站=0的独占占用子信道m上宏基站用户处的信干噪比
Figure FDA0004062222850000023
为:
Figure FDA0004062222850000031
其中,
Figure FDA0004062222850000032
Gon表示宏基站0到用户n的信道增益,N0表示带宽为W的子信道上的噪声功率;
宏基站=0的共享子信道上宏基站用户处的信干噪比
Figure FDA0004062222850000033
为:
Figure FDA0004062222850000034
其中,
Figure FDA0004062222850000035
小基站=1,...,L的共享子信道上小基站用户处的信干噪比
Figure FDA0004062222850000036
为:
Figure FDA0004062222850000037
其中,Ppc=Ppico/K;Gln表示小基站到用户n的信道增益,包括天线增益、路径损耗和阴影衰落,假设所有子信道从基站到用户获得相同的信道增益。
8.根据权利要求7所述的一种异构网络中基于强化学习的动态资源分配优化方法,其特征在于,步骤3中宏基站和小基站的最大发射功率分别表示为Pmacro和Ppico;Pmacro和Ppico分别为:
Figure FDA0004062222850000038
Figure FDA0004062222850000039
任何用户的数据速率为:
Figure FDA00040622228500000310
其中,
Figure FDA00040622228500000311
Figure FDA00040622228500000312
表示基站;Rmacro表示宏基站用户的数据速率;Rpico表示小基站用户的数据速率;如果用户n与基站
Figure FDA00040622228500000316
相关联,则
Figure FDA00040622228500000313
否则
Figure FDA00040622228500000314
Figure FDA00040622228500000315
为用户调度因子,即基站分配给其连接用户的时间比例;
在不丧失通用性的情况下,使用局部比例公平准则进行用户调度,即每个基站向其所有连接用户分配相同比例的时间;每个用户在任何时候都应该连接到一个且只有一个基站。
9.根据权利要求8所述的一种异构网络中基于强化学习的动态资源分配优化方法,其特征在于,步骤3中最小化损失函数具体为,状态映射到动作空间的Q表表示为Qt(st,at),用权重为θ的异构网络逼近器
Figure FDA0004062222850000041
Figure FDA0004062222850000042
表示在线网络;采用Q学习方法更新异构网络权重以最小化损失函数:
Figure FDA0004062222850000043
其中,
Figure FDA0004062222850000044
为Double DQN网络中的目标值;st、st+1分别为t、t+1时刻智能体的状态,at、at+1分别为t、t+1时刻能体的动作空间;θ-是目标网络的权重;θ、γ分别为表示在线网络的网络参数、衰减因子;Rt、Qt分别为DoubleDQN网络的奖励、输出;在dueling DQN网络中引入异构网络以获得值函数V(s)和优势函数A(st,at)=Qt(st,at)-V(s);
将(st,at,rt,st+1)存储在回放池存储器D中,在训练过程中,异构网络从回放池存储器D中均匀随机的采样小批量数据来训练,减少训练实例之间的相关性,避免得到局部最优解。
10.根据权利要求9所述的一种异构网络中基于强化学习的动态资源分配优化方法,其特征在于,步骤4中在dueling DQN网络中引入double DQN网络以获得值函数和优势函数具体为,在dueling DQN网络中,Double DQN网络的最后一层被分为两个子网络,分别估计dueling DQN网络的值函数V(s)和优势函数A(st,at),使用Double DQN网络对其连接层输出V(st;θ,μ)和A(st,at;θ,α),其中,α和μ均表示全连接层的权重;组合V(st;θ,μ)和A(st,at;θ,α),得到dueling DQN网络的输出Qt(st,at;θ,α,μ)为:
Qt(st,at;θ,α,μ)=V(st;θ,μ)+A(st,at;θ,α)
为提高D3QN网络的稳定性,在dueling DQN网络的输出Qt(st,at;θ,α,μ)减去一个常数,保证状态下动作空间的优势函数相对序列不变,缩小Q值的范围,即:
Figure FDA0004062222850000051
CN202310065762.9A 2023-01-17 2023-01-17 一种异构网络中基于强化学习的动态资源分配优化方法 Pending CN116095690A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310065762.9A CN116095690A (zh) 2023-01-17 2023-01-17 一种异构网络中基于强化学习的动态资源分配优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310065762.9A CN116095690A (zh) 2023-01-17 2023-01-17 一种异构网络中基于强化学习的动态资源分配优化方法

Publications (1)

Publication Number Publication Date
CN116095690A true CN116095690A (zh) 2023-05-09

Family

ID=86209968

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310065762.9A Pending CN116095690A (zh) 2023-01-17 2023-01-17 一种异构网络中基于强化学习的动态资源分配优化方法

Country Status (1)

Country Link
CN (1) CN116095690A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116594971A (zh) * 2023-07-17 2023-08-15 山东天意装配式建筑装备研究院有限公司 基于bim的装配式建筑数据优化存储方法
CN117156529A (zh) * 2023-11-01 2023-12-01 唐人通信技术服务股份有限公司 一种基站供电管理方法及系统
CN117896779A (zh) * 2023-11-30 2024-04-16 东莞理工学院 基于5.5g自治网络的负载均衡方法、装置及设备

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116594971A (zh) * 2023-07-17 2023-08-15 山东天意装配式建筑装备研究院有限公司 基于bim的装配式建筑数据优化存储方法
CN116594971B (zh) * 2023-07-17 2023-09-29 山东天意装配式建筑装备研究院有限公司 基于bim的装配式建筑数据优化存储方法
CN117156529A (zh) * 2023-11-01 2023-12-01 唐人通信技术服务股份有限公司 一种基站供电管理方法及系统
CN117156529B (zh) * 2023-11-01 2024-01-16 唐人通信技术服务股份有限公司 一种基站供电管理方法及系统
CN117896779A (zh) * 2023-11-30 2024-04-16 东莞理工学院 基于5.5g自治网络的负载均衡方法、装置及设备

Similar Documents

Publication Publication Date Title
CN116095690A (zh) 一种异构网络中基于强化学习的动态资源分配优化方法
CN106604401B (zh) 一种异构网络中的资源分配方法
CN107466099B (zh) 一种基于非正交多址接入的干扰管理自优化方法
CN108366427B (zh) D2d通信中基于功率控制的系统吞吐量与能效平衡方法
Lee et al. An efficient resource allocation in OFDMA femtocells networks
CN104378772B (zh) 一种蜂窝网络中面向小区无定形覆盖的小基站部署方法
CN106231610B (zh) Femtocell双层网络中基于分簇的资源分配方法
CN108965009B (zh) 一种基于势博弈的负载已知用户关联方法
CN107708157A (zh) 基于能效的密集小蜂窝网络资源分配方法
CN107205236B (zh) 一种应用于小区间中继蜂窝网负载均衡的公平性提升方法
JP5543670B2 (ja) パレート最適電力制御を適用するためにセルラ環境においてユーザをスケジューリングする方法、スケジューラ、及び無線通信ネットワーク
Yu et al. Dynamic resource allocation in TDD-based heterogeneous cloud radio access networks
CN105490794B (zh) Ofdma毫微微小区双层网络基于分组的资源分配方法
Ding et al. Energy efficient user association and power control for dense heterogeneous networks
Lu et al. Power control based time-domain inter-cell interference coordination scheme in DSCNs
CN107517464B (zh) 一种异构网络中的干扰管理和资源分配方法
Liu et al. Game-theoretic hierarchical resource allocation in ultra-dense networks
CN108834158B (zh) 一种用于超密集组网的干扰管理方法
Gupta et al. Power and subcarrier allocation for OFDMA femto-cell based underlay cognitive radio in a two-tier network
Isnawati et al. Performance Analysis of Game Theoretical Approach for Power Control System in Heterogeneous Network.
Alnwaimi et al. Machine learning based knowledge acquisition on spectrum usage for lte femtocells
CN103491620B (zh) 一种异构网络中基于用户主导的分布式上行功控方法
Teng et al. Cell clustering-based resource allocation in ultra-dense networks
Lv et al. A distributed power allocation algorithm with inter-cell interference coordination for multi-cell OFDMA systems
Aboagye et al. Energy efficient power and flow control in millimeter wave backhaul heterogeneous networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination