CN113795049B - 一种基于深度强化学习的Femtocell异构网络功率自适应优化方法 - Google Patents
一种基于深度强化学习的Femtocell异构网络功率自适应优化方法 Download PDFInfo
- Publication number
- CN113795049B CN113795049B CN202111079364.XA CN202111079364A CN113795049B CN 113795049 B CN113795049 B CN 113795049B CN 202111079364 A CN202111079364 A CN 202111079364A CN 113795049 B CN113795049 B CN 113795049B
- Authority
- CN
- China
- Prior art keywords
- network
- state
- action
- femtocell
- actor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000005457 optimization Methods 0.000 title claims abstract description 26
- 230000002787 reinforcement Effects 0.000 title claims abstract description 21
- 230000009471 action Effects 0.000 claims abstract description 42
- 230000008569 process Effects 0.000 claims abstract description 18
- 238000012549 training Methods 0.000 claims abstract description 17
- 230000006870 function Effects 0.000 claims abstract description 16
- 230000005540 biological transmission Effects 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 6
- 230000003044 adaptive effect Effects 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 4
- 230000007704 transition Effects 0.000 claims description 4
- 238000013461 design Methods 0.000 claims description 3
- SLXKOJJOQWFEFD-UHFFFAOYSA-N 6-aminohexanoic acid Chemical compound NCCCCCC(O)=O SLXKOJJOQWFEFD-UHFFFAOYSA-N 0.000 claims description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 2
- 230000007613 environmental effect Effects 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims description 2
- 210000002569 neuron Anatomy 0.000 claims description 2
- 238000009827 uniform distribution Methods 0.000 claims description 2
- 230000015572 biosynthetic process Effects 0.000 claims 1
- 230000001629 suppression Effects 0.000 abstract description 5
- 230000003993 interaction Effects 0.000 abstract description 2
- 239000003795 chemical substances by application Substances 0.000 description 14
- 238000004891 communication Methods 0.000 description 7
- 238000009826 distribution Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 2
- 208000019061 glycogen storage disease due to GLUT2 deficiency Diseases 0.000 description 2
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W52/00—Power management, e.g. TPC [Transmission Power Control], power saving or power classes
- H04W52/04—TPC
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/10—Geometric CAD
- G06F30/18—Network design, e.g. design based on topological or interconnect aspects of utility systems, piping, heating ventilation air conditioning [HVAC] or cabling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2111/00—Details relating to CAD techniques
- G06F2111/02—CAD in a network environment, e.g. collaborative CAD or distributed simulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2111/00—Details relating to CAD techniques
- G06F2111/04—Constraint-based CAD
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2111/00—Details relating to CAD techniques
- G06F2111/08—Probabilistic or stochastic CAD
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2119/00—Details relating to the type or aim of the analysis or the optimisation
- G06F2119/06—Power analysis or power optimisation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Geometry (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Computational Mathematics (AREA)
- Computer Hardware Design (AREA)
- Mathematical Optimization (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Analysis (AREA)
- Biophysics (AREA)
- Pure & Applied Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computer Networks & Wireless Communication (AREA)
- Probability & Statistics with Applications (AREA)
- Algebra (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Signal Processing (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明公开了一种基于深度强化学习的Femtocell异构网络功率自适应优化方法。本发明包括如下步骤:步骤S1、建立Femtocell异构网络系统模型,并进行问题建模;步骤S2、将基于Femtocell异构网络的功率自适应优化问题建模成马尔科夫决策过程MDP,设计其状态空间、动作空间以及奖励函数;步骤S3、深度强化学习算法DDPG搭建;步骤S4、模型训练。深度强化学习利用智能体与环境的不断交互,从环境的反馈中进行自我优化,提升自身策略,可快速实现在复杂网络环境中的自适应学习与决策制定,用来求解Femtocell异构网络中的干扰抑制问题。
Description
技术领域
本发明涉及无线通信网络资源自适应优化领域,尤其涉及使用机器学习方法的资源优化方法。
背景技术
随着无线移动通信技术的飞速发展,移动用户以及移动设备的数量正在急剧增加。Femtocell作为一种小型移动基站,或称为家庭基站,以其体积小、即插即用、低成本、低功耗等优点,可实现在信号有效覆盖范围内为室内用户提供高速率的无线信号接入,是解决无线信号室内覆盖问题的重要手段。由传统的Macrocell层和Femtocell层构成Femtocell异构网络。由于频谱资源的稀缺性,往往Macrocell层和Femtocell层部署在同一频段,因此会导致在Femtocell异构网络中产生严重干扰,同时Femtocell基站的大量、随机部署会加剧网间干扰,也使得网络拓扑具有很强的随机特性,因此如何进行有效的干扰抑制是Femtocell异构网络大规模推广使用面临的重要技术难题。
功率资源是重要的无线网络通信资源,功率控制主要是指基站通过反馈得到的网络信息进行发射功率调整,旨在避免发射信号受到严重干扰,通过对发射功率的自适应调整可有效满足网络中移动用户高质量的通信需求,从而达到充分利用网络资源,提升网络性能的目的,功率控制是Femtocell异构网络干扰抑制中最重要的方式。
现阶段针对Femtocell异构网络干扰抑制的研究如凸优化、博弈论等离线迭代优化算法仅仅适用于一些静态网络模型,网络节点难以实现自组织、自优化,同时依赖准确的网络模型,对于无法刻画出准确网络模型的业务通常采用简化方式进行建模,导致优化结果与实际系统用于差别很大。
为了解决上述的问题,经检索,中国专利CN201910909800.8公开了一种基于深度学习的功率分配方法及分配装置,其中方法包括:获取用户的信道矩阵;对信道矩阵进行奇异值分解处理,得到等效信道特征值以及左酉矩阵;基于等效信道特征值以及用户的预设功率限制参数,生成用户的信道特征信息;将信道特征信息输入预先训练好的全连接神经网络模型中,得到用户的数据流数;基于用户的数据流数,等效信道特征值,以及左酉矩阵,构建用户的功率分配协方差矩阵;基于用户的功率分配协方差矩阵,为用户分配传输功率。
再如中国专利CN202110226156.1公开了一种基于深度学习的认知无线电功率控制方法,包括以下步骤:改进传统的WMMSE算法,得到满足主用户可容忍的干扰阈值并保证次用户通信质量的WMMSE算法;将改进的WMMSE算法的输入与输出作为训练集,利用深度学习模型得到主用户和次用户的功率分配。该专利能够保证主用户和次用户的通信质量的同时,还可以大大减少算法时间,提高系统的实时性。
再如中国专利CN202110149569.4公开了一种虚拟无线网络中吞吐量最大化的功率分配方法及装置,该方法应用在虚拟无线网络中,方法步骤如下:首先,针对吞吐量最大化功率分配策略建立一个系统模型,从而找到系统模型中的资源分配问题;其次,基于深度神经网络定义状态集、行动集、奖励三个变量;在定义的状态中,执行定义的行动并获得相应的奖励,从而进入下一个状态;这个周期被重复,直到达到吞吐量最大化的功率分配。
上述的专利均是为了提高网络质量而进行的研究,但仍有待进一步的改进和提升。
发明内容
1.发明要解决的技术问题
为了解决上述的问题,本发明的目的是提供一种基于深度强化学习的Femtocell异构网络功率自适应优化方法,该方法可以有效地在动态网络环境中实现Femtocell异构网络干扰抑制,提高网络通信容量,保证用户的网络质量。
2.技术方案
为达到上述目的,本发明提供的技术方案为:
本发明的基于深度强化学习的Femtocell异构网络功率自适应优化方法,包括如下步骤:
步骤S1、建立Femtocell异构网络系统模型,并进行问题建模:
具体为设计Femtocell异构网络中基站类型、数量、服务的用户数量、干扰的类型以及系统实现的目标,并就以上系统元素以及系统目标建立数学优化模型。
步骤S2、将基于Femtocell异构网络的功率自适应优化问题建模成马尔科夫决策过程MDP(Markov Decision Process),设计其状态空间、动作空间以及奖励函数:
将基于Femtocell异构网络的功率自适应优化问题建模成马尔科夫决策过程MDP(Markov Decision Process),设计其MDP元组元素,具体为一个基本的MDP模型通常是由<S,a,P,R,γ>五元组构成,其中S表示环境中的状态集合,a表示环境中可采取的动作集合,P是状态转移概率矩阵P(s′|s,a)表示在智能体状态S时执行动作a后转移到状态s′的概率,其中P(s′|s,a)=P(st+1=s′|st=s,at=a)∈[0,1],R是回报函数,Ra(s→s′)表示智能体在状态s时执行动作a后转移到状态s′时环境反馈回的回报值,γ为折扣系数,0≤γ≤1。该系统模型中智能体智状态的描述者,动作的执行者即femtocell基站FBS(Femtocell BaseStation)。强化学习框架求解问题要求问题具有马尔科夫性质,通过上述MDP建模过程即可利用强化学习框架进行任务求解。状态集是对智能体即FBS的一种属性描述,如距离、数量等。动作集合是对智能体FBS的资源描述,如功率资源、时间资源等。奖励函数反映系统目标,是智能体FBS学习的目标。
步骤S3、深度强化学习算法DDPG(Deep Deterministic Policy Gradient)搭建:
深度强化学习算法DDPG搭建,具体为设计DDPG算法中的Actor网络和Critic网络,其中Actor和Critic网络均具有当前策略网络和目标策略网络。
其中Actor当前策略网络μ负责策略网络参数θ的迭代更新,根据当前智能体感知的状态S选择当前动作A。
其中Actor目标网络μ′负责根据经验回放池中采用的下一状态S′选择动作A′,网络参数θ′定期从θ复制。
其中Critic当前策略网络Q负责网络参数ω的迭代更新,负责计算当前状态S、动作A的Q值Q(S,A,ω)。
其中Critic目标网络Q′负责计算下一状态S′、下一动作A′的Q′值Q′(S′,A′,ω′),网络参数ω′定期从ω复制。
主要包括各网络的具体结构、激活函数等。
步骤S4、模型训练:
具体为通过智能体利用Actor当前策略网络μ感知当前状态并产生执行动作,获得环境反馈的奖励以及下一状态,将上述信息存入经验回放池。
Actor当前策略网络参数μ的训练使用损失梯度
Critic当前策略网络参数ω的训练使用均方损失函数进行反向传播更新参数,其中yj=rj+γQ′(S′,A′,ω′)。
3.有益效果
采用本发明提供的技术方案,与现有技术相比,具有如下有益效果:
本发明的基于深度强化学习的异构网络功率自适应优化方法,深度强化学习利用智能体与环境的不断交互,从环境的反馈中进行自我优化,提升自身策略,在Femtocell异构网络的动态网络环境进行策略求解,并且深度强化学习是一种在线学习算法,可快速实现在复杂网络环境中的自适应学习与决策制定,用来求解Femtocell异构网络中的干扰抑制问题,提高网络通信容量,保证用户的网络质量。
附图说明
图1是本发明的方法中Femtocell异构网络系统模型。
图2是本发明的方法中模型训练流程图。
具体实施方式
为进一步了解本发明的内容,结合附图对本发明作详细描述。
实施例1
步骤S1、建立Femtocell异构网络系统模型,并进行问题建模:如图1所示的Femtocell异构网络系统模型所示,整个系统模型中设计的主体有宏基站MBS(Macro BaseStation)以及N个同频部署的Femtocell基站FBS。在同一时刻,MBS为覆盖范围内的1个活跃用户MUE进行服务,FBS为覆盖范围内的M个用户FUE提供信息服务。
其中,MBS--Macro Base Station Macrocell基站;
MUE--Macro User Equipment Macrocell基站用户;
FBS--Femto Base Station Femtocell基站;
FUE--Femto User Equipment Femtocell基站用户。
在该系统模型中,由于Femtocell与Macrocell同频部署,所以MBS对FUE存在网间干扰、FBS对MUE存在网间干扰、FBS对其他FBS用户存在同网干扰。系统的目标即优化目标是通过自适应的为每一个FBS基站分配合理的发射功率来最大化Femtocell基站群信息总容量,同时满足宏基站用户MUE以及femtocell基站用户FUE的信息容量QoS约束。
由香农公式可知,MUE信息容量为CMUE=log2(1+SINRMUE),其中其中PMBS表示MBS发射功率,Pi表示第i个FBS发射功率,hMBS,MUE表示MBS与MUE之间的信道增益,/>表示第i个FBS与MUE之间的信道增益,σ2表示加性高斯白噪声功率。
第i个FUE信息容量为其中 表示第i个FBS与其对应的FUE之间的信道增益,/>表示MBS与第i个FUE之间的信道增益,/>表示第j个FBS与第i个FUE之间的信道增益。
由上可得问题建模描述如下:
s.t.Pmin≤Pi≤Pmax,i=1,...,N (1)
CMUE≥lMUE (2)
其中为Femtocell基站群选择的发射功率集合,式(1)表示FBS发射功率约束,式(2)、式(3)分别表示MUE、FUE信息约束。
步骤S2、将基于Femtocell异构网络的功率自适应优化问题建模成马尔科夫决策过程MDP(Markov Decision Process),设计其状态空间、动作空间以及奖励函数:
基于步骤S1中建立的系统模型,建立MDP过程,智能体为每一个Femtocell基站,即FBSi,i∈{1,...,N};动作集合设计为智能体FBS允许分配的发射功率,DDPG算法可在连续合法功率取值空间中进行功率决策,即每一个FBS都将从动作集合Pmin≤a∈A≤Pmax中选择一个发射功率;状态集合定义主要考虑到距离因素和阈值约束因素,对于第i个智能体FBS,在时刻t定义其状态s∈S为其中/>表示MUE在时刻t的信息容量是否超过了指定阈值lMUE,即/>状态/>表示FUE在时刻t信息容量是否超过设定阈值/>即/> 表示在时刻t第i个FBS与MUE之间距离/> 可取0、1、2、3四个值,当/>取0时说明第i个FBS与MUE距离很近,同理/>取3时说明距两者相距较远,即/>类似的,/>表示在时刻t第i个FBS与MBS之间距离 可取0、1、2、3四个值,即/>奖励函数的设计主要考虑到网络容量和约束关系,每一个智能体FBS选择、执行完动作级发射功率后获得的奖励
步骤S3、深度强化学习算法DDPG(Deep Deterministic Policy Gradient)搭建:
Actor、Critic网络架构采用三层隐藏层架构,其中各层神经元个数分别为400、300、300;隐藏层激活函数使用Relu激活函数,Actor网络输出层为了映射动作空间使用Sigmoid函数;各层参数初始化使用均匀分布初始化,参数更新使用Adam方法。
步骤S4、模型训练:
如图2所示,模型训练的过程如下:(1)Actor当前策略网络μ感知当前智能体状态si,输出动作选择ai,智能体执行动作ai,返回奖励ri和智能体下一状态si+1,将元组<si,ai,ri,si+1>存入经验回放池中作为训练数据集;(2)当经验回放池数据量达到预定阈值,从经验回放池中取出N个元组数据;(3)Actor目标网络μ′接受输入si+1,输出新状态下选择的动作ai+1;(4)Critic当前策略网络Q接受输入si,ai,输出对该状态下动作选择的评价值;(5)Critic目标网络Q′接受输入si+1,ai+1,输出对该状态下动作选择的评价值;(6)利用均方损失函数对Cirtic当前策略网络ω反向传播更新参数,其中yj=ri+γQ′(si+1,ai+1,ω′);(7)利用梯度损失/>对Actor当前策略网络参数μ进行更新;(8)Actor目标网络μ′和Critic目标网络ω′的参数更新使用参数软更新;(9)重复上述过程直到达到训练次数。
以上示意性的对本发明及其实施方式进行了描述,该描述没有限制性,附图中所示的也只是本发明的实施方式之一,实际的结构并不局限于此。所以,如果本领域的普通技术人员受其启示,在不脱离本发明创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本发明的保护范围。
Claims (5)
1.一种基于深度强化学习的Femtocell异构网络功率自适应优化方法,其特征在于:包括如下步骤:
步骤S1、建立Femtocell异构网络系统模型,并进行问题建模
设计Femtocell异构网络中基站类型、数量、服务的用户数量、干扰的类型以及系统实现的目标,并就以上系统元素以及系统目标建立数学优化模型;
步骤S2、将基于Femtocell异构网络的功率自适应优化问题建模成马尔科夫决策过程MDP,设计其状态空间、动作空间以及奖励函数
设计其MDP元组元素,具体为一个基本的MDP模型通常是由<S,a,P,R,γ>五元组构成,其中S表示环境中的状态集合,a表示环境中可采取的动作集合,P是状态转移概率矩阵P(s′|s,a)表示在智能体状态s时执行动作a后转移到状态s′的概率,其中P(s′|s,a)=P(st+1=s′|st=s,at=a)∈[0,1],R是回报函数,Ra(s→s′)表示智能体在状态s时执行动作a后转移到状态s′时环境反馈回的回报值,γ为折扣系数,0≤γ≤1;
步骤S3、深度强化学习算法DDPG搭建
设计DDPG算法中的Actor网络和Critic网络,其中Actor和Critic网络均具有当前策略网络和目标策略网络;
其中Actor当前策略网络μ负责策略网络参数θ的迭代更新,根据当前智能体感知的状态S选择当前动作A;
其中Actor目标网络μ′负责根据经验回放池中采用的下一状态S′选择动作A′,网络参数θ′定期从θ复制;
其中Critic当前策略网络Q负责网络参数ω的迭代更新,负责计算当前状态S、动作A的Q值Q(S,A,ω);
其中Critic目标网络Q′负责计算下一状态S′、下一动作A′的Q′值Q′(S′,A′,ω′),网络参数ω′定期从ω复制;
步骤S4、模型训练
通过利用Actor当前策略网络μ感知当前状态并产生执行动作,获得环境反馈的奖励以及下一状态,将上述信息存入经验回放池;
Actor当前策略网络参数μ的训练使用损失梯度
Critic当前策略网络参数ω的训练使用均方损失函数进行反向传播更新参数,其中yj=rj+γQ′(S′,A′,ω′)。
2.根据权利要求1所述的基于深度强化学习的Femtocell异构网络功率自适应优化方法,其特征在于:问题建模的问题模型描述如下:
s.t.Pmin≤Pi≤Pmax,i=1,...,N (1)
CMUE≥lMUE (2)
其中为Femtocell基站群选择的发射功率集合,式(1)表示FBS发射功率约束,式(2)、式(3)分别表示MUE、FUE信息约束。
3.根据权利要求2所述的基于深度强化学习的Femtocell异构网络功率自适应优化方法,其特征在于:
在步骤S2中,基于步骤S1中建立的系统模型,建立MDP过程,智能体为每一个Femtocell基站,即FBSi,i∈{1,...,N};动作集合设计为智能体FBS允许分配的发射功率,DDPG算法可在连续合法功率取值空间中进行功率决策,即每一个FBS都将从动作集合Pmin≤a∈A≤Pmax中选择一个发射功率;状态集合定义考虑到距离因素和阈值约束因素,对于第i个智能体FBS,在时刻t定义其状态s∈S为其中/>表示MUE在时刻t的信息容量是否超过了指定阈值lMUE,即/>状态/>表示FUE在时刻t信息容量是否超过设定阈值/>即/>表示在时刻t第i个FBS与MUE之间距离/> 可取0、1、2、3四个值,当/>取0时说明第i个FBS与MUE距离很近,同理/>取3时说明距两者相距较远,即/>类似的,/>表示在时刻t第i个FBS与MBS之间距离/>可取0、1、2、3四个值,即/>奖励函数的设计主要考虑到网络容量和约束关系,每一个智能体FBS选择、执行完动作级发射功率后获得的奖励
4.根据权利要求3所述的基于深度强化学习的Femtocell异构网络功率自适应优化方法,其特征在于:所述Actor、Critic网络架构采用三层隐藏层架构,其中各层神经元个数分别为400、300、300;隐藏层激活函数使用Relu激活函数,Actor网络输出层为了映射动作空间使用Sigmoid激活函数;各层参数初始化使用均匀分布初始化,参数更新使用Adam方法。
5.根据权利要求4所述的基于深度强化学习的Femtocell异构网络功率自适应优化方法,其特征在于:训练过程如下:(1)Actor当前策略网络μ感知当前智能体状态si,输出动作选择ai,智能体执行动作ai,返回奖励ri和智能体下一状态si+1,将元组<si,ai,ri,si+1>存入经验回放池中作为训练数据集;(2)当经验回放池数据量达到预定阈值,从经验回放池中取出N个元组数据;(3)Actor目标网络μ′接受输入si+1,输出新状态下选择的动作ai+1;(4)Critic当前策略网络Q接受输入si,ai,输出对该状态下动作选择的评价值;(5)Critic目标网络Q′接受输入si+1,ai+1,输出对该状态下动作选择的评价值;(6)利用均方损失函数对Cirtic当前策略网络ω反向传播更新参数,其中yj=ri+γQ′(si+1,ai+1,ω′);(7)利用梯度损失/>对Actor当前策略网络参数μ进行更新;(8)Actor目标网络μ′和Critic目标网络ω′的参数更新使用参数软更新;(9)重复上述过程直到达到训练次数。/>
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111079364.XA CN113795049B (zh) | 2021-09-15 | 2021-09-15 | 一种基于深度强化学习的Femtocell异构网络功率自适应优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111079364.XA CN113795049B (zh) | 2021-09-15 | 2021-09-15 | 一种基于深度强化学习的Femtocell异构网络功率自适应优化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113795049A CN113795049A (zh) | 2021-12-14 |
CN113795049B true CN113795049B (zh) | 2024-02-02 |
Family
ID=79183390
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111079364.XA Active CN113795049B (zh) | 2021-09-15 | 2021-09-15 | 一种基于深度强化学习的Femtocell异构网络功率自适应优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113795049B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114375066B (zh) * | 2022-01-08 | 2024-03-15 | 山东大学 | 一种基于多智能体强化学习的分布式信道竞争方法 |
CN114980293B (zh) * | 2022-05-07 | 2023-08-11 | 电子科技大学长三角研究院(湖州) | 一种面向大规模ofdm系统的智能自适应功率控制方法 |
CN116996919B (zh) * | 2023-09-26 | 2023-12-05 | 中南大学 | 一种基于强化学习的单节点多域抗干扰方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20120043921A (ko) * | 2010-10-27 | 2012-05-07 | 에스케이 텔레콤주식회사 | 펨토셀 기지국의 초기 송신전력 설정을 위한 장치 및 방법 |
CN107276704A (zh) * | 2017-05-10 | 2017-10-20 | 重庆邮电大学 | 两层Femtocell网络中基于能效最大化的最优鲁棒功率控制方法 |
CN109862610A (zh) * | 2019-01-08 | 2019-06-07 | 华中科技大学 | 一种基于深度强化学习ddpg算法的d2d用户资源分配方法 |
CN112437020A (zh) * | 2020-10-30 | 2021-03-02 | 天津大学 | 一种基于深度强化学习的数据中心网络负载均衡方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10860926B2 (en) * | 2018-05-18 | 2020-12-08 | Deepmind Technologies Limited | Meta-gradient updates for training return functions for reinforcement learning systems |
-
2021
- 2021-09-15 CN CN202111079364.XA patent/CN113795049B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20120043921A (ko) * | 2010-10-27 | 2012-05-07 | 에스케이 텔레콤주식회사 | 펨토셀 기지국의 초기 송신전력 설정을 위한 장치 및 방법 |
CN107276704A (zh) * | 2017-05-10 | 2017-10-20 | 重庆邮电大学 | 两层Femtocell网络中基于能效最大化的最优鲁棒功率控制方法 |
CN109862610A (zh) * | 2019-01-08 | 2019-06-07 | 华中科技大学 | 一种基于深度强化学习ddpg算法的d2d用户资源分配方法 |
CN112437020A (zh) * | 2020-10-30 | 2021-03-02 | 天津大学 | 一种基于深度强化学习的数据中心网络负载均衡方法 |
Non-Patent Citations (2)
Title |
---|
Q-Learning-Based Adaptive Power Conrol in Wireless RF Energy Harvesting Heterogeneous Networks;Zhang Ruichen, et al;IEEE systems journal;第15卷(第2期);1861-1872 * |
无线RF能量收集异构网络中基于Q-Learning的自适应功率控制;郭伟;于小涵;张锐晨;熊轲;新型工业化(第001期);112-119 * |
Also Published As
Publication number | Publication date |
---|---|
CN113795049A (zh) | 2021-12-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113795049B (zh) | 一种基于深度强化学习的Femtocell异构网络功率自适应优化方法 | |
Li et al. | Multi-agent deep reinforcement learning based spectrum allocation for D2D underlay communications | |
CN109302262B (zh) | 一种基于深度确定梯度强化学习的通信抗干扰方法 | |
Shi et al. | Drone-cell trajectory planning and resource allocation for highly mobile networks: A hierarchical DRL approach | |
Wang et al. | A survey on applications of model-free strategy learning in cognitive wireless networks | |
CN111800828B (zh) | 一种超密集网络的移动边缘计算资源分配方法 | |
Zhang et al. | Power allocation in multi-cell networks using deep reinforcement learning | |
CN109862610A (zh) | 一种基于深度强化学习ddpg算法的d2d用户资源分配方法 | |
Wang et al. | Joint interference alignment and power control for dense networks via deep reinforcement learning | |
Zheng et al. | Stochastic game-theoretic spectrum access in distributed and dynamic environment | |
Yang et al. | Distributed deep reinforcement learning-based spectrum and power allocation for heterogeneous networks | |
Hussain et al. | A new block-based reinforcement learning approach for distributed resource allocation in clustered IoT networks | |
Wang et al. | Decentralized learning based indoor interference mitigation for 5G-and-beyond systems | |
Kim | Adaptive online power control scheme based on the evolutionary game theory | |
Rahmani et al. | Multi-agent reinforcement learning-based pilot assignment for cell-free massive MIMO systems | |
Shokri et al. | Leader–follower network aggregative game with stochastic agents’ communication and activeness | |
CN114375066A (zh) | 一种基于多智能体强化学习的分布式信道竞争方法 | |
Gao et al. | Multi-armed bandits scheme for tasks offloading in MEC-enabled maritime communication networks | |
Iturria-Rivera et al. | Cooperate or not Cooperate: Transfer Learning with Multi-Armed Bandit for Spatial Reuse in Wi-Fi | |
CN115038155B (zh) | 一种超密集多接入点的动态协同传输方法 | |
Wu et al. | Cooperation policy selection for energy-constrained ad hoc networks using correlated equilibrium | |
CN113286374A (zh) | 调度方法、调度算法的训练方法及相关系统、存储介质 | |
Naderializadeh et al. | When multiple agents learn to schedule: A distributed radio resource management framework | |
Rohoden et al. | Evolutionary game theoretical model for stable femtocells’ clusters formation in hetnets | |
CN113691334B (zh) | 一种基于次用户群体协作的认知无线电动态功率分配方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |