CN113795049B - 一种基于深度强化学习的Femtocell异构网络功率自适应优化方法 - Google Patents

一种基于深度强化学习的Femtocell异构网络功率自适应优化方法 Download PDF

Info

Publication number
CN113795049B
CN113795049B CN202111079364.XA CN202111079364A CN113795049B CN 113795049 B CN113795049 B CN 113795049B CN 202111079364 A CN202111079364 A CN 202111079364A CN 113795049 B CN113795049 B CN 113795049B
Authority
CN
China
Prior art keywords
network
state
action
femtocell
actor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111079364.XA
Other languages
English (en)
Other versions
CN113795049A (zh
Inventor
郭伟
汪玉冰
郭晓明
张丰丰
徐煜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Maanshan College
Original Assignee
Maanshan College
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Maanshan College filed Critical Maanshan College
Priority to CN202111079364.XA priority Critical patent/CN113795049B/zh
Publication of CN113795049A publication Critical patent/CN113795049A/zh
Application granted granted Critical
Publication of CN113795049B publication Critical patent/CN113795049B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/10Geometric CAD
    • G06F30/18Network design, e.g. design based on topological or interconnect aspects of utility systems, piping, heating ventilation air conditioning [HVAC] or cabling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/02CAD in a network environment, e.g. collaborative CAD or distributed simulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/04Constraint-based CAD
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/08Probabilistic or stochastic CAD
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2119/00Details relating to the type or aim of the analysis or the optimisation
    • G06F2119/06Power analysis or power optimisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Geometry (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Computational Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Mathematical Optimization (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Analysis (AREA)
  • Biophysics (AREA)
  • Pure & Applied Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于深度强化学习的Femtocell异构网络功率自适应优化方法。本发明包括如下步骤:步骤S1、建立Femtocell异构网络系统模型,并进行问题建模;步骤S2、将基于Femtocell异构网络的功率自适应优化问题建模成马尔科夫决策过程MDP,设计其状态空间、动作空间以及奖励函数;步骤S3、深度强化学习算法DDPG搭建;步骤S4、模型训练。深度强化学习利用智能体与环境的不断交互,从环境的反馈中进行自我优化,提升自身策略,可快速实现在复杂网络环境中的自适应学习与决策制定,用来求解Femtocell异构网络中的干扰抑制问题。

Description

一种基于深度强化学习的Femtocell异构网络功率自适应优 化方法
技术领域
本发明涉及无线通信网络资源自适应优化领域,尤其涉及使用机器学习方法的资源优化方法。
背景技术
随着无线移动通信技术的飞速发展,移动用户以及移动设备的数量正在急剧增加。Femtocell作为一种小型移动基站,或称为家庭基站,以其体积小、即插即用、低成本、低功耗等优点,可实现在信号有效覆盖范围内为室内用户提供高速率的无线信号接入,是解决无线信号室内覆盖问题的重要手段。由传统的Macrocell层和Femtocell层构成Femtocell异构网络。由于频谱资源的稀缺性,往往Macrocell层和Femtocell层部署在同一频段,因此会导致在Femtocell异构网络中产生严重干扰,同时Femtocell基站的大量、随机部署会加剧网间干扰,也使得网络拓扑具有很强的随机特性,因此如何进行有效的干扰抑制是Femtocell异构网络大规模推广使用面临的重要技术难题。
功率资源是重要的无线网络通信资源,功率控制主要是指基站通过反馈得到的网络信息进行发射功率调整,旨在避免发射信号受到严重干扰,通过对发射功率的自适应调整可有效满足网络中移动用户高质量的通信需求,从而达到充分利用网络资源,提升网络性能的目的,功率控制是Femtocell异构网络干扰抑制中最重要的方式。
现阶段针对Femtocell异构网络干扰抑制的研究如凸优化、博弈论等离线迭代优化算法仅仅适用于一些静态网络模型,网络节点难以实现自组织、自优化,同时依赖准确的网络模型,对于无法刻画出准确网络模型的业务通常采用简化方式进行建模,导致优化结果与实际系统用于差别很大。
为了解决上述的问题,经检索,中国专利CN201910909800.8公开了一种基于深度学习的功率分配方法及分配装置,其中方法包括:获取用户的信道矩阵;对信道矩阵进行奇异值分解处理,得到等效信道特征值以及左酉矩阵;基于等效信道特征值以及用户的预设功率限制参数,生成用户的信道特征信息;将信道特征信息输入预先训练好的全连接神经网络模型中,得到用户的数据流数;基于用户的数据流数,等效信道特征值,以及左酉矩阵,构建用户的功率分配协方差矩阵;基于用户的功率分配协方差矩阵,为用户分配传输功率。
再如中国专利CN202110226156.1公开了一种基于深度学习的认知无线电功率控制方法,包括以下步骤:改进传统的WMMSE算法,得到满足主用户可容忍的干扰阈值并保证次用户通信质量的WMMSE算法;将改进的WMMSE算法的输入与输出作为训练集,利用深度学习模型得到主用户和次用户的功率分配。该专利能够保证主用户和次用户的通信质量的同时,还可以大大减少算法时间,提高系统的实时性。
再如中国专利CN202110149569.4公开了一种虚拟无线网络中吞吐量最大化的功率分配方法及装置,该方法应用在虚拟无线网络中,方法步骤如下:首先,针对吞吐量最大化功率分配策略建立一个系统模型,从而找到系统模型中的资源分配问题;其次,基于深度神经网络定义状态集、行动集、奖励三个变量;在定义的状态中,执行定义的行动并获得相应的奖励,从而进入下一个状态;这个周期被重复,直到达到吞吐量最大化的功率分配。
上述的专利均是为了提高网络质量而进行的研究,但仍有待进一步的改进和提升。
发明内容
1.发明要解决的技术问题
为了解决上述的问题,本发明的目的是提供一种基于深度强化学习的Femtocell异构网络功率自适应优化方法,该方法可以有效地在动态网络环境中实现Femtocell异构网络干扰抑制,提高网络通信容量,保证用户的网络质量。
2.技术方案
为达到上述目的,本发明提供的技术方案为:
本发明的基于深度强化学习的Femtocell异构网络功率自适应优化方法,包括如下步骤:
步骤S1、建立Femtocell异构网络系统模型,并进行问题建模:
具体为设计Femtocell异构网络中基站类型、数量、服务的用户数量、干扰的类型以及系统实现的目标,并就以上系统元素以及系统目标建立数学优化模型。
步骤S2、将基于Femtocell异构网络的功率自适应优化问题建模成马尔科夫决策过程MDP(Markov Decision Process),设计其状态空间、动作空间以及奖励函数:
将基于Femtocell异构网络的功率自适应优化问题建模成马尔科夫决策过程MDP(Markov Decision Process),设计其MDP元组元素,具体为一个基本的MDP模型通常是由<S,a,P,R,γ>五元组构成,其中S表示环境中的状态集合,a表示环境中可采取的动作集合,P是状态转移概率矩阵P(s′|s,a)表示在智能体状态S时执行动作a后转移到状态s′的概率,其中P(s′|s,a)=P(st+1=s′|st=s,at=a)∈[0,1],R是回报函数,Ra(s→s′)表示智能体在状态s时执行动作a后转移到状态s′时环境反馈回的回报值,γ为折扣系数,0≤γ≤1。该系统模型中智能体智状态的描述者,动作的执行者即femtocell基站FBS(Femtocell BaseStation)。强化学习框架求解问题要求问题具有马尔科夫性质,通过上述MDP建模过程即可利用强化学习框架进行任务求解。状态集是对智能体即FBS的一种属性描述,如距离、数量等。动作集合是对智能体FBS的资源描述,如功率资源、时间资源等。奖励函数反映系统目标,是智能体FBS学习的目标。
步骤S3、深度强化学习算法DDPG(Deep Deterministic Policy Gradient)搭建:
深度强化学习算法DDPG搭建,具体为设计DDPG算法中的Actor网络和Critic网络,其中Actor和Critic网络均具有当前策略网络和目标策略网络。
其中Actor当前策略网络μ负责策略网络参数θ的迭代更新,根据当前智能体感知的状态S选择当前动作A。
其中Actor目标网络μ′负责根据经验回放池中采用的下一状态S′选择动作A′,网络参数θ′定期从θ复制。
其中Critic当前策略网络Q负责网络参数ω的迭代更新,负责计算当前状态S、动作A的Q值Q(S,A,ω)。
其中Critic目标网络Q′负责计算下一状态S′、下一动作A′的Q′值Q′(S′,A′,ω′),网络参数ω′定期从ω复制。
主要包括各网络的具体结构、激活函数等。
步骤S4、模型训练:
具体为通过智能体利用Actor当前策略网络μ感知当前状态并产生执行动作,获得环境反馈的奖励以及下一状态,将上述信息存入经验回放池。
Actor当前策略网络参数μ的训练使用损失梯度
Critic当前策略网络参数ω的训练使用均方损失函数进行反向传播更新参数,其中yj=rj+γQ′(S′,A′,ω′)。
3.有益效果
采用本发明提供的技术方案,与现有技术相比,具有如下有益效果:
本发明的基于深度强化学习的异构网络功率自适应优化方法,深度强化学习利用智能体与环境的不断交互,从环境的反馈中进行自我优化,提升自身策略,在Femtocell异构网络的动态网络环境进行策略求解,并且深度强化学习是一种在线学习算法,可快速实现在复杂网络环境中的自适应学习与决策制定,用来求解Femtocell异构网络中的干扰抑制问题,提高网络通信容量,保证用户的网络质量。
附图说明
图1是本发明的方法中Femtocell异构网络系统模型。
图2是本发明的方法中模型训练流程图。
具体实施方式
为进一步了解本发明的内容,结合附图对本发明作详细描述。
实施例1
步骤S1、建立Femtocell异构网络系统模型,并进行问题建模:如图1所示的Femtocell异构网络系统模型所示,整个系统模型中设计的主体有宏基站MBS(Macro BaseStation)以及N个同频部署的Femtocell基站FBS。在同一时刻,MBS为覆盖范围内的1个活跃用户MUE进行服务,FBS为覆盖范围内的M个用户FUE提供信息服务。
其中,MBS--Macro Base Station Macrocell基站;
MUE--Macro User Equipment Macrocell基站用户;
FBS--Femto Base Station Femtocell基站;
FUE--Femto User Equipment Femtocell基站用户。
在该系统模型中,由于Femtocell与Macrocell同频部署,所以MBS对FUE存在网间干扰、FBS对MUE存在网间干扰、FBS对其他FBS用户存在同网干扰。系统的目标即优化目标是通过自适应的为每一个FBS基站分配合理的发射功率来最大化Femtocell基站群信息总容量,同时满足宏基站用户MUE以及femtocell基站用户FUE的信息容量QoS约束。
由香农公式可知,MUE信息容量为CMUE=log2(1+SINRMUE),其中其中PMBS表示MBS发射功率,Pi表示第i个FBS发射功率,hMBS,MUE表示MBS与MUE之间的信道增益,/>表示第i个FBS与MUE之间的信道增益,σ2表示加性高斯白噪声功率。
第i个FUE信息容量为其中 表示第i个FBS与其对应的FUE之间的信道增益,/>表示MBS与第i个FUE之间的信道增益,/>表示第j个FBS与第i个FUE之间的信道增益。
由上可得问题建模描述如下:
s.t.Pmin≤Pi≤Pmax,i=1,...,N (1)
CMUE≥lMUE (2)
其中为Femtocell基站群选择的发射功率集合,式(1)表示FBS发射功率约束,式(2)、式(3)分别表示MUE、FUE信息约束。
步骤S2、将基于Femtocell异构网络的功率自适应优化问题建模成马尔科夫决策过程MDP(Markov Decision Process),设计其状态空间、动作空间以及奖励函数:
基于步骤S1中建立的系统模型,建立MDP过程,智能体为每一个Femtocell基站,即FBSi,i∈{1,...,N};动作集合设计为智能体FBS允许分配的发射功率,DDPG算法可在连续合法功率取值空间中进行功率决策,即每一个FBS都将从动作集合Pmin≤a∈A≤Pmax中选择一个发射功率;状态集合定义主要考虑到距离因素和阈值约束因素,对于第i个智能体FBS,在时刻t定义其状态s∈S为其中/>表示MUE在时刻t的信息容量是否超过了指定阈值lMUE,即/>状态/>表示FUE在时刻t信息容量是否超过设定阈值/>即/> 表示在时刻t第i个FBS与MUE之间距离/> 可取0、1、2、3四个值,当/>取0时说明第i个FBS与MUE距离很近,同理/>取3时说明距两者相距较远,即/>类似的,/>表示在时刻t第i个FBS与MBS之间距离 可取0、1、2、3四个值,即/>奖励函数的设计主要考虑到网络容量和约束关系,每一个智能体FBS选择、执行完动作级发射功率后获得的奖励
步骤S3、深度强化学习算法DDPG(Deep Deterministic Policy Gradient)搭建:
Actor、Critic网络架构采用三层隐藏层架构,其中各层神经元个数分别为400、300、300;隐藏层激活函数使用Relu激活函数,Actor网络输出层为了映射动作空间使用Sigmoid函数;各层参数初始化使用均匀分布初始化,参数更新使用Adam方法。
步骤S4、模型训练:
如图2所示,模型训练的过程如下:(1)Actor当前策略网络μ感知当前智能体状态si,输出动作选择ai,智能体执行动作ai,返回奖励ri和智能体下一状态si+1,将元组<si,ai,ri,si+1>存入经验回放池中作为训练数据集;(2)当经验回放池数据量达到预定阈值,从经验回放池中取出N个元组数据;(3)Actor目标网络μ′接受输入si+1,输出新状态下选择的动作ai+1;(4)Critic当前策略网络Q接受输入si,ai,输出对该状态下动作选择的评价值;(5)Critic目标网络Q′接受输入si+1,ai+1,输出对该状态下动作选择的评价值;(6)利用均方损失函数对Cirtic当前策略网络ω反向传播更新参数,其中yj=ri+γQ′(si+1,ai+1,ω′);(7)利用梯度损失/>对Actor当前策略网络参数μ进行更新;(8)Actor目标网络μ′和Critic目标网络ω′的参数更新使用参数软更新;(9)重复上述过程直到达到训练次数。
以上示意性的对本发明及其实施方式进行了描述,该描述没有限制性,附图中所示的也只是本发明的实施方式之一,实际的结构并不局限于此。所以,如果本领域的普通技术人员受其启示,在不脱离本发明创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本发明的保护范围。

Claims (5)

1.一种基于深度强化学习的Femtocell异构网络功率自适应优化方法,其特征在于:包括如下步骤:
步骤S1、建立Femtocell异构网络系统模型,并进行问题建模
设计Femtocell异构网络中基站类型、数量、服务的用户数量、干扰的类型以及系统实现的目标,并就以上系统元素以及系统目标建立数学优化模型;
步骤S2、将基于Femtocell异构网络的功率自适应优化问题建模成马尔科夫决策过程MDP,设计其状态空间、动作空间以及奖励函数
设计其MDP元组元素,具体为一个基本的MDP模型通常是由<S,a,P,R,γ>五元组构成,其中S表示环境中的状态集合,a表示环境中可采取的动作集合,P是状态转移概率矩阵P(s′|s,a)表示在智能体状态s时执行动作a后转移到状态s′的概率,其中P(s′|s,a)=P(st+1=s′|st=s,at=a)∈[0,1],R是回报函数,Ra(s→s′)表示智能体在状态s时执行动作a后转移到状态s′时环境反馈回的回报值,γ为折扣系数,0≤γ≤1;
步骤S3、深度强化学习算法DDPG搭建
设计DDPG算法中的Actor网络和Critic网络,其中Actor和Critic网络均具有当前策略网络和目标策略网络;
其中Actor当前策略网络μ负责策略网络参数θ的迭代更新,根据当前智能体感知的状态S选择当前动作A;
其中Actor目标网络μ′负责根据经验回放池中采用的下一状态S′选择动作A′,网络参数θ′定期从θ复制;
其中Critic当前策略网络Q负责网络参数ω的迭代更新,负责计算当前状态S、动作A的Q值Q(S,A,ω);
其中Critic目标网络Q′负责计算下一状态S′、下一动作A′的Q′值Q′(S′,A′,ω′),网络参数ω′定期从ω复制;
步骤S4、模型训练
通过利用Actor当前策略网络μ感知当前状态并产生执行动作,获得环境反馈的奖励以及下一状态,将上述信息存入经验回放池;
Actor当前策略网络参数μ的训练使用损失梯度
Critic当前策略网络参数ω的训练使用均方损失函数进行反向传播更新参数,其中yj=rj+γQ′(S′,A′,ω′)。
2.根据权利要求1所述的基于深度强化学习的Femtocell异构网络功率自适应优化方法,其特征在于:问题建模的问题模型描述如下:
s.t.Pmin≤Pi≤Pmax,i=1,...,N (1)
CMUE≥lMUE (2)
其中为Femtocell基站群选择的发射功率集合,式(1)表示FBS发射功率约束,式(2)、式(3)分别表示MUE、FUE信息约束。
3.根据权利要求2所述的基于深度强化学习的Femtocell异构网络功率自适应优化方法,其特征在于:
在步骤S2中,基于步骤S1中建立的系统模型,建立MDP过程,智能体为每一个Femtocell基站,即FBSi,i∈{1,...,N};动作集合设计为智能体FBS允许分配的发射功率,DDPG算法可在连续合法功率取值空间中进行功率决策,即每一个FBS都将从动作集合Pmin≤a∈A≤Pmax中选择一个发射功率;状态集合定义考虑到距离因素和阈值约束因素,对于第i个智能体FBS,在时刻t定义其状态s∈S为其中/>表示MUE在时刻t的信息容量是否超过了指定阈值lMUE,即/>状态/>表示FUE在时刻t信息容量是否超过设定阈值/>即/>表示在时刻t第i个FBS与MUE之间距离/> 可取0、1、2、3四个值,当/>取0时说明第i个FBS与MUE距离很近,同理/>取3时说明距两者相距较远,即/>类似的,/>表示在时刻t第i个FBS与MBS之间距离/>可取0、1、2、3四个值,即/>奖励函数的设计主要考虑到网络容量和约束关系,每一个智能体FBS选择、执行完动作级发射功率后获得的奖励
4.根据权利要求3所述的基于深度强化学习的Femtocell异构网络功率自适应优化方法,其特征在于:所述Actor、Critic网络架构采用三层隐藏层架构,其中各层神经元个数分别为400、300、300;隐藏层激活函数使用Relu激活函数,Actor网络输出层为了映射动作空间使用Sigmoid激活函数;各层参数初始化使用均匀分布初始化,参数更新使用Adam方法。
5.根据权利要求4所述的基于深度强化学习的Femtocell异构网络功率自适应优化方法,其特征在于:训练过程如下:(1)Actor当前策略网络μ感知当前智能体状态si,输出动作选择ai,智能体执行动作ai,返回奖励ri和智能体下一状态si+1,将元组<si,ai,ri,si+1>存入经验回放池中作为训练数据集;(2)当经验回放池数据量达到预定阈值,从经验回放池中取出N个元组数据;(3)Actor目标网络μ′接受输入si+1,输出新状态下选择的动作ai+1;(4)Critic当前策略网络Q接受输入si,ai,输出对该状态下动作选择的评价值;(5)Critic目标网络Q′接受输入si+1,ai+1,输出对该状态下动作选择的评价值;(6)利用均方损失函数对Cirtic当前策略网络ω反向传播更新参数,其中yj=ri+γQ′(si+1,ai+1,ω′);(7)利用梯度损失/>对Actor当前策略网络参数μ进行更新;(8)Actor目标网络μ′和Critic目标网络ω′的参数更新使用参数软更新;(9)重复上述过程直到达到训练次数。/>
CN202111079364.XA 2021-09-15 2021-09-15 一种基于深度强化学习的Femtocell异构网络功率自适应优化方法 Active CN113795049B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111079364.XA CN113795049B (zh) 2021-09-15 2021-09-15 一种基于深度强化学习的Femtocell异构网络功率自适应优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111079364.XA CN113795049B (zh) 2021-09-15 2021-09-15 一种基于深度强化学习的Femtocell异构网络功率自适应优化方法

Publications (2)

Publication Number Publication Date
CN113795049A CN113795049A (zh) 2021-12-14
CN113795049B true CN113795049B (zh) 2024-02-02

Family

ID=79183390

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111079364.XA Active CN113795049B (zh) 2021-09-15 2021-09-15 一种基于深度强化学习的Femtocell异构网络功率自适应优化方法

Country Status (1)

Country Link
CN (1) CN113795049B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114375066B (zh) * 2022-01-08 2024-03-15 山东大学 一种基于多智能体强化学习的分布式信道竞争方法
CN114980293B (zh) * 2022-05-07 2023-08-11 电子科技大学长三角研究院(湖州) 一种面向大规模ofdm系统的智能自适应功率控制方法
CN116996919B (zh) * 2023-09-26 2023-12-05 中南大学 一种基于强化学习的单节点多域抗干扰方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120043921A (ko) * 2010-10-27 2012-05-07 에스케이 텔레콤주식회사 펨토셀 기지국의 초기 송신전력 설정을 위한 장치 및 방법
CN107276704A (zh) * 2017-05-10 2017-10-20 重庆邮电大学 两层Femtocell网络中基于能效最大化的最优鲁棒功率控制方法
CN109862610A (zh) * 2019-01-08 2019-06-07 华中科技大学 一种基于深度强化学习ddpg算法的d2d用户资源分配方法
CN112437020A (zh) * 2020-10-30 2021-03-02 天津大学 一种基于深度强化学习的数据中心网络负载均衡方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10860926B2 (en) * 2018-05-18 2020-12-08 Deepmind Technologies Limited Meta-gradient updates for training return functions for reinforcement learning systems

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120043921A (ko) * 2010-10-27 2012-05-07 에스케이 텔레콤주식회사 펨토셀 기지국의 초기 송신전력 설정을 위한 장치 및 방법
CN107276704A (zh) * 2017-05-10 2017-10-20 重庆邮电大学 两层Femtocell网络中基于能效最大化的最优鲁棒功率控制方法
CN109862610A (zh) * 2019-01-08 2019-06-07 华中科技大学 一种基于深度强化学习ddpg算法的d2d用户资源分配方法
CN112437020A (zh) * 2020-10-30 2021-03-02 天津大学 一种基于深度强化学习的数据中心网络负载均衡方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Q-Learning-Based Adaptive Power Conrol in Wireless RF Energy Harvesting Heterogeneous Networks;Zhang Ruichen, et al;IEEE systems journal;第15卷(第2期);1861-1872 *
无线RF能量收集异构网络中基于Q-Learning的自适应功率控制;郭伟;于小涵;张锐晨;熊轲;新型工业化(第001期);112-119 *

Also Published As

Publication number Publication date
CN113795049A (zh) 2021-12-14

Similar Documents

Publication Publication Date Title
CN113795049B (zh) 一种基于深度强化学习的Femtocell异构网络功率自适应优化方法
Li et al. Multi-agent deep reinforcement learning based spectrum allocation for D2D underlay communications
CN109302262B (zh) 一种基于深度确定梯度强化学习的通信抗干扰方法
Shi et al. Drone-cell trajectory planning and resource allocation for highly mobile networks: A hierarchical DRL approach
Wang et al. A survey on applications of model-free strategy learning in cognitive wireless networks
CN111800828B (zh) 一种超密集网络的移动边缘计算资源分配方法
Zhang et al. Power allocation in multi-cell networks using deep reinforcement learning
CN109862610A (zh) 一种基于深度强化学习ddpg算法的d2d用户资源分配方法
Wang et al. Joint interference alignment and power control for dense networks via deep reinforcement learning
Zheng et al. Stochastic game-theoretic spectrum access in distributed and dynamic environment
Yang et al. Distributed deep reinforcement learning-based spectrum and power allocation for heterogeneous networks
Hussain et al. A new block-based reinforcement learning approach for distributed resource allocation in clustered IoT networks
Wang et al. Decentralized learning based indoor interference mitigation for 5G-and-beyond systems
Kim Adaptive online power control scheme based on the evolutionary game theory
Rahmani et al. Multi-agent reinforcement learning-based pilot assignment for cell-free massive MIMO systems
Shokri et al. Leader–follower network aggregative game with stochastic agents’ communication and activeness
CN114375066A (zh) 一种基于多智能体强化学习的分布式信道竞争方法
Gao et al. Multi-armed bandits scheme for tasks offloading in MEC-enabled maritime communication networks
Iturria-Rivera et al. Cooperate or not Cooperate: Transfer Learning with Multi-Armed Bandit for Spatial Reuse in Wi-Fi
CN115038155B (zh) 一种超密集多接入点的动态协同传输方法
Wu et al. Cooperation policy selection for energy-constrained ad hoc networks using correlated equilibrium
CN113286374A (zh) 调度方法、调度算法的训练方法及相关系统、存储介质
Naderializadeh et al. When multiple agents learn to schedule: A distributed radio resource management framework
Rohoden et al. Evolutionary game theoretical model for stable femtocells’ clusters formation in hetnets
CN113691334B (zh) 一种基于次用户群体协作的认知无线电动态功率分配方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant