CN108521673B - 一种异构网络中基于强化学习的资源分配和功率控制联合优化方法 - Google Patents

一种异构网络中基于强化学习的资源分配和功率控制联合优化方法 Download PDF

Info

Publication number
CN108521673B
CN108521673B CN201810309020.5A CN201810309020A CN108521673B CN 108521673 B CN108521673 B CN 108521673B CN 201810309020 A CN201810309020 A CN 201810309020A CN 108521673 B CN108521673 B CN 108521673B
Authority
CN
China
Prior art keywords
ith
reinforcement learning
state
strategy
channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810309020.5A
Other languages
English (en)
Other versions
CN108521673A (zh
Inventor
赵楠
贺潇
范孟林
田超
樊鹏飞
裴一扬
武明虎
蒋云昊
李利荣
常春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
First Construction and Installation Co Ltd of China Construction Third Engineering Bureau Co Ltd
Original Assignee
Hubei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hubei University of Technology filed Critical Hubei University of Technology
Priority to CN201810309020.5A priority Critical patent/CN108521673B/zh
Publication of CN108521673A publication Critical patent/CN108521673A/zh
Application granted granted Critical
Publication of CN108521673B publication Critical patent/CN108521673B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/20Control channels or signalling for resource management
    • H04W72/23Control channels or signalling for resource management in the downlink direction of a wireless link, i.e. towards a terminal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/04Wireless resource allocation
    • H04W72/044Wireless resource allocation based on the type of the allocated resource
    • H04W72/0473Wireless resource allocation based on the type of the allocated resource the resource being transmission power
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/53Allocation or scheduling criteria for wireless resources based on regulatory allocation policies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/54Allocation or scheduling criteria for wireless resources based on quality criteria
    • H04W72/541Allocation or scheduling criteria for wireless resources based on quality criteria using the level of interference
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W72/00Local resource management
    • H04W72/50Allocation or scheduling criteria for wireless resources
    • H04W72/54Allocation or scheduling criteria for wireless resources based on quality criteria
    • H04W72/543Allocation or scheduling criteria for wireless resources based on quality criteria based on requested quality, e.g. QoS

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明属于无线通信技术领域,具体涉及一种异构网络中基于强化学习的资源分配和功率控制联合优化方法。针对传输信道和传输功率等因素的动态和时变特性,在考虑异构网络中用户的自私性和运营商利益的前提下,在建立异构蜂窝网络系统模型基础上,通过建立多智能体强化学习框架,结合用户满意度和运营商追求利益的条件,利用分布式Q学习方法,获得最优的资源分配、用户关联和功率控制联合策略,从而实现整个网络的长期系统效用的最大化。

Description

一种异构网络中基于强化学习的资源分配和功率控制联合优 化方法
技术领域
本发明属于无线通信技术领域,具体涉及一种异构网络中基于强化学习的资源分配和功率控制联合优化方法。
背景技术
随着无线设备的迅猛发展和人们对无线业务需求的不断增大,蜂窝网络面临着日益增长的网络容量需求的巨大挑战。通过在宏基站(Macro Base Station,MBS)中部署多个具有不同发射功率、覆盖范围的家庭基站(Femto Base Station,FBS),不仅可以降低通信负载和运营商的成本,而且可使用与MBS相同的无线频率以提高无线频谱的利用率。因此,异构蜂窝网络有望改善下一代蜂窝网络的系统容量和资源利用率。
异构蜂窝网络存在着一些性能瓶颈,如用户关联、资源分配和功率控制问题。现有研究大多单独地考虑上述优化问题。同时,由于联合优化问题的非凸性和组合特性,获得全局最优策略非常困难。现有文献提出了博弈论、线性规划、马尔科夫近似等优化方法,但这些优化方法大多需要几乎所有的网络信息,然而,一般来说,这些信息很难获得。因此,本方法提出基于强化学习的异构蜂窝网络资源分配和功率控制联合优化方法。
发明内容
为了克服上述现有技术存在的不足,本发明的目的在于提出一种异构网络中基于强化学习的资源分配和功率控制联合优化方法。
为了达到上述目的,本发明所采用的技术方案是:一种异构网络中基于强化学习的资源分配和功率控制联合优化方法,其特征在于,所述方法包括如下步骤:
针对传输信道和传输功率等因素的动态和时变特性,在考虑到异构网络中用户的自私性和运营商的利益性的前提下,在建立异构蜂窝网络系统模型基础上,通过提出多智能体强化学习优化策略,结合用户满意度(Quality of service,Qos)和运营商追求利益的条件,利用分布式Q学习方法,获得最优的资源分配、用户关联和功率控制联合策略,从而实现整个网络长期系统效用的最大化。
进一步地,所述建立异构蜂窝网络系统模型实现过程包括:考虑由MBS、FBS和用户设备组成的两层异构蜂窝网络,假设某一个MBS信号覆盖范围内存在L个FBSs,即FBS1,...,FBSL,于是,所有基站可表示为BS={MBS,FBS1,...,FBSL},假设所有的基站和N个UEs都只有一个通信天线,BS可以在K个信道上工作;
对于任意一个UE,定义二元信道分配变量为:
Figure GDA0001755491480000021
其中,在时间t,如果第i个UE使用信道Ck,则
Figure GDA0001755491480000022
否则
Figure GDA0001755491480000023
虽然使用相同信道的UEs数量是不限的,但是UE每次只能选择一个信道。因此,对于每一个UE,有
Figure GDA0001755491480000024
此外,定义二元联合基站变量:
Figure GDA0001755491480000025
其中,在时间t,如果第i个用户连接到第l个基站,则
Figure GDA0001755491480000026
否则,
Figure GDA0001755491480000027
考虑到每个UE只能接入一个基站,对于每一个UE,有
Figure GDA0001755491480000028
假设在时间t时第i个UE使用信道Ck连接BSL的传输功率为
Figure GDA0001755491480000029
由于FBSs被部署在MBS的无线电覆盖范围内,于是,第i个UE处的瞬时信号干扰比(Signal to Interference Plus Noise Ratio,SINR)为:
Figure GDA00017554914800000210
其中,
Figure GDA00017554914800000211
是BSL和第i个用户在信道Ck上的即时连接增益,W是信道带宽,N0是噪声谱功率。
于是,第i个UE在信道Ck上收到的下行数据率为
Figure GDA0001755491480000031
因此,第i个UE获得的总数据率:
Figure GDA0001755491480000032
同时,为了保证每个UE的服务质量,第i个UE的瞬时信号干扰必须小于用户服务的最低要求Ωi,即
Figure GDA0001755491480000033
此外,假设第k个信道下行链路的数据传输成本为:
Figure GDA0001755491480000034
其中,λ1是BS传输功率的单位价格。于是,第i个UE总传输成本为:
Figure GDA0001755491480000035
于是,第i个UE的效用定义为:
Figure GDA0001755491480000036
其中,ρ>0为每个用户单位速率的收益。
于是,对于任意时间t,UE的长期效用由用户关联、信道分配和基站传输功率控制共同决定,即:
Figure GDA0001755491480000037
其中,γ是折扣因子,当γ∈[0,1)表示更重视长期收益。
进一步地,所述多智能体强化学习优化策略实现过程包括:联合优化问题可以形式化地定义为MDP(S;Ai;Ri;P),其中,S是一组离散的环境状态,A1,...,AN是一组离散的可能动作,R1,...,RN是奖励函数,P是状态转移矩阵。首先描述强化学习的基本模型,接着,提出基于多智能体强化学习的联合优化算法。
定义状态空间,行动空间和奖励函数有关的基本强化学习元素。在这种异构蜂窝网络中,每个UE都扮演着一个智能体的角色。因此,我们提出分布式多智能体强化学习优化策略。
状态空间:目标状态s(t)由N个UE的服务质量综合确定。s(t)={s1(t),s2(t),...,sN(t)},
当用户对服务质量满意时就等于1,不满意就是0。所有可能状态的数量是2N,随着N的增加,这个数目可能非常大。
动作空间:每个UE选择附近的BS、传输信道和功率水平。考虑到实际应用场景,发射功率一般为离散值。于是,考虑M个功率水平,即P1,...,PM。功率水平选择变量定义为:
Figure GDA0001755491480000041
其中,如果BS选择传输功率pm,则
Figure GDA0001755491480000042
否则,
Figure GDA0001755491480000043
考虑到BS传输时只能选择一种功率水平,于是有:
Figure GDA0001755491480000044
于是,每一个UE的动作空间中四个变量:
Figure GDA0001755491480000045
Figure GDA0001755491480000046
Figure GDA0001755491480000047
Figure GDA0001755491480000048
这样以来,每一UE的状态数量是2(L+1+K)M。随着L,K和M的增加,状态数量会非常大。
奖励函数:当UE采取动作时就会获得相应的奖励,UE的奖励函数为:
Figure GDA0001755491480000049
其中,ψi是动作选择成本。当UE的SINR大于最低Qos需求,则UE的效用就是其奖励。否则,UE的奖励就是其动作的选择成本。这一奖励函数保证了异构蜂窝网络最小的Qos需求和每个UE最大的效用。
进一步地,所述分布式Q学习方法,所采取的实现过程包括:单个智能体强化学习的目标是找到最优策略来最大化每个智能体的收益。然而,在多智能体强化学习中,智能体的训练还要考虑稳定性和适应性。考虑到其简单性和分布性特点,采用分布式多智能体强化学习。每个UE通过消息传递来获得全局状态空间,并基于全局状态空间以获得最优策略。每个UE不需要发送自身的最优策略,而是一个比特位(0或1)来发送其当前状态给其他UE。每个UE需要找到在每个状态下的最优策略,以获得累计收益的最大化。
第i个UE的累计收益定义为:
Figure GDA0001755491480000051
其中,E表示学习期望,它与时间t无关。
由于马尔可夫性质,随后的状态只由当前状态决定,与之前的状态无关。于是,值函数可简化为:
Figure GDA0001755491480000052
其中,ui(s,ai)是Ri(s,ai)的数学期望,Ps,s'(ai)表示从状态s到状态s'的转移概率。
于是,基于贝尔曼准则,最优策略
Figure GDA0001755491480000053
为:
Figure GDA0001755491480000054
于是,得到最优Q值函数
Figure GDA0001755491480000055
Figure GDA0001755491480000056
基于上述最优Q值函数
Figure GDA0001755491480000057
最优策略
Figure GDA0001755491480000058
可得:
Figure GDA0001755491480000059
一般来说,很难获得准确的转移概率Ps,s'(ai)。然而,基于可用信息(s,ai,s',E[ui(s,πi(s))]),利用Q学习,可以以递归方式获得最优策略。Q学习的迭代公式为:
Figure GDA0001755491480000061
其中,δ是学习速率,它决定了Qi(s,ai)的更新速度。
此外,在动作选择的利用与探索权衡策略中,选择ε-greedy策略,以概率1-ε选择最佳动作
Figure GDA0001755491480000062
以概率ε随机选择动作。
与现有技术相比,本发明的有益效果是:本发明针对用户关联,资源分配和下行链路传输功率的联合问题,提出了异构网络下基于强化学习联合优化问题的方法,引入了基于强化学习的分布式框架,通过用户联合基站,基站分配信道和控制发射功率,保证了最大化下行链路网络效用和用户服务质量,从而提高异构网络传输效率和网络容量。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
具体过程如下:联合优化问题可以形式化地定义为MDP(S;Ai;Ri;P),其中,S是一组离散的环境状态,A1,...,AN是一组离散的可能动作,R1,...,RN是奖励函数,P是状态转移矩阵。首先描述强化学习的基本模型,接着,提出基于多智能体强化学习的联合优化算法。
A.基础模型
定义状态空间,行动空间和奖励函数有关的基本强化学习元素。在这种异构蜂窝网络中,每个UE都扮演着一个智能体的角色。因此,提出分布式多智能体强化学习优化策略。
状态空间:目标状态s(t)由N个UE的服务质量综合确定。s(t)={s1(t),s2(t),...,sN(t)},
当用户对服务质量满意时就等于1,不满意就是0。所有可能状态的数量是2N,随着N的增加,这个数目可能非常大。
动作空间:每个UE选择附近的BS、传输信道和功率水平。考虑到实际应用场景,发射功率一般为离散值。于是,考虑M个功率水平,即P1,...,PM。功率水平选择变量定义为:
Figure GDA0001755491480000071
其中,如果BS选择传输功率pm,则
Figure GDA0001755491480000072
否则,
Figure GDA0001755491480000073
考虑到BS传输时只能选择一种功率水平,于是有:
Figure GDA0001755491480000074
于是,每一个UE的动作空间中四个变量:
Figure GDA0001755491480000075
Figure GDA0001755491480000076
Figure GDA0001755491480000077
Figure GDA0001755491480000078
这样以来,每一UE的状态数量是2(L+1+K)M。随着L,K和M的增加,状态数量会非常大。
奖励函数:当UE采取动作时就会获得相应的奖励,UE的奖励函数为:
Figure GDA0001755491480000079
其中,ψi是动作选择成本。当UE的SINR大于最低Qos需求,则UE的效用就是其奖励。否则,UE的奖励就是其动作的选择成本。这一奖励函数保证了异构蜂窝网络最小的Qos需求和每个UE最大的效用。
B.多智能体Q学习算法
单个智能体强化学习的目标是找到最优策略来最大化每个智能体的收益。然而,在多智能体强化学习中,智能体的训练还要考虑稳定性和适应性。考虑到其简单性和分布性特点,本发明采用分布式多智能体强化学习。每个UE通过消息传递来获得全局状态空间,并基于全局状态空间以获得最优策略。每个UE不需要发送自身的最优策略,而是一个比特位(0或1)来发送其当前状态给其他UE。每个UE需要找到在每个状态下的最优策略,以获得累计收益的最大化。
第i个UE的累计收益定义为:
Figure GDA0001755491480000081
其中,E表示学习期望,它与时间t无关。
由于马尔可夫性质,随后的状态只由当前状态决定,与之前的状态无关。于是,值函数可简化为:
Figure GDA0001755491480000082
其中,ui(s,ai)是Ri(s,ai)的数学期望,Ps,s'(ai)表示从状态s到状态s'的转移概率。
于是,基于贝尔曼准则,最优策略
Figure GDA0001755491480000083
为:
Figure GDA0001755491480000084
于是,得到最优Q值函数
Figure GDA0001755491480000085
Figure GDA0001755491480000086
基于上述最优Q值函数
Figure GDA0001755491480000087
最优策略
Figure GDA0001755491480000088
可得:
Figure GDA0001755491480000089
一般来说,很难获得准确的转移概率Ps,s'(ai)。然而,基于可用信息(s,ai,s',E[ui(s,πi(s))]),利用Q学习,可以以递归方式获得最优策略。Q学习的迭代公式为:
Figure GDA00017554914800000810
其中,δ是学习速率,它决定了Qi(s,ai)的更新速度。
此外,在动作选择的利用与探索权衡策略中,本发明选择ε-greedy策略,以概率1-ε选择最佳动作
Figure GDA00017554914800000811
以概率ε随机选择动作。
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

Claims (1)

1.一种异构网络中基于强化学习的资源分配和功率控制联合优化方法,其特征在于,所述方法包括如下步骤:
针对传输信道和传输功率的动态和时变特性,在考虑到异构网络中用户的自私性和运营商的利益性的前提下,在建立异构蜂窝网络系统模型基础上,通过提出多智能体强化学习优化策略,结合用户满意度Qos和运营商追求利益的条件,利用分布式Q学习方法,获得最优的资源分配、用户关联和功率控制联合策略,从而实现整个网络长期系统效用的最大化;
所述建立异构蜂窝网络系统模型实现过程包括:
考虑由MBS、FBS和用户设备组成的两层异构蜂窝网络,假设某一个MBS信号覆盖范围内存在L个FBSs,即FBS1,...,FBSL,于是,所有基站可表示为BS={MBS,FBS1,...,FBSL},假设所有的基站和N个UEs都只有一个通信天线,BS可以在K个信道上工作;
对于任意一个UE,定义二元信道分配变量为:
Figure FDA0003826146780000011
其中,在时间t,如果第i个UE使用信道Ck,则
Figure FDA0003826146780000012
否则
Figure FDA0003826146780000013
虽然使用相同信道的UEs数量是不限的,但是UE每次只能选择一个信道,因此,对于每一个UE,有
Figure FDA0003826146780000014
此外,定义二元联合基站变量:
Figure FDA0003826146780000015
其中,在时间t,如果第i个用户连接到第l个基站,则
Figure FDA0003826146780000016
否则,
Figure FDA0003826146780000017
考虑到每个UE只能接入一个基站,对于每一个UE,有
Figure FDA0003826146780000018
假设在时间t时第i个UE使用信道Ck连接第l个基站BSl的传输功率为
Figure FDA0003826146780000019
由于FBSs被部署在MBS的无线电覆盖范围内,于是,第i个UE处的瞬时信号干扰比SINR为:
Figure FDA0003826146780000021
其中,
Figure FDA0003826146780000022
是第l个基站BSl和第i个用户在信道Ck上的即时连接增益,W是信道带宽,N0是噪声谱功率;
于是,第i个UE在信道Ck上收到的下行数据率为
Figure FDA0003826146780000023
因此,第i个UE获得的总数据率:
Figure FDA0003826146780000024
同时,为了保证每个UE的服务质量,第i个UE的瞬时信号干扰比必须不小于用户服务的最低QoS要求Ωi,即
Figure FDA0003826146780000025
此外,假设第k个信道下行链路的数据传输成本为:
Figure FDA0003826146780000026
其中,λ1是BS传输功率的单位价格,于是,第i个UE总传输成本为:
Figure FDA0003826146780000027
于是,第i个UE的效用定义为:
Figure FDA0003826146780000028
其中,ρ>0为每个用户单位速率的收益;
于是,对于任意时间t,UE的长期效用由用户关联、信道分配和基站传输功率控制共同决定,即:
Figure FDA0003826146780000029
其中,γ是折扣因子,当γ∈[0,1)表示更重视长期收益;
所述多智能体强化学习优化策略实现过程包括:
联合优化问题可以形式化地定义为MDP(S;Ai;Ri;P),其中,S是一组离散的环境状态,A1,...,AN是一组离散的可能动作,R1,...,RN是奖励函数,P是状态转移矩阵,首先描述强化学习的基本模型,接着,提出基于多智能体强化学习的联合优化算法;
定义状态空间,行动空间和奖励函数有关的基本强化学习元素,在这种异构蜂窝网络中,每个UE都扮演着一个智能体的角色,因此,提出分布式多智能体强化学习优化策略;
状态空间:目标状态s(t)由N个UE的服务质量综合确定,s(t)={s1(t),s2(t),...,sN(t)},
当用户对服务质量满意时就等于1,不满意就是0,所有可能状态的数量是2N,随着N的增加,这个数目可能非常大;
动作空间:每个UE选择附近的BS、传输信道和功率水平,考虑到实际应用场景,发射功率一般为离散值,于是,假设有M个传输功率水平,即P1,...,PM,即
Figure FDA0003826146780000031
其中,如果BS选择传输功率pm,则
Figure FDA0003826146780000032
否则,
Figure FDA0003826146780000033
考虑到BS传输时只能选择一种功率水平,于是有:
Figure FDA0003826146780000034
于是,每一个UE的动作空间中四个变量:
Figure FDA0003826146780000035
Figure FDA0003826146780000036
Figure FDA0003826146780000037
Figure FDA0003826146780000038
这样以来,每一UE的状态数量是2(L+1+K)M,随着L,K和M的增加,状态数量会非常大;
奖励函数:当UE采取动作时就会获得相应的奖励,UE的奖励函数为:
Figure FDA0003826146780000041
其中,ψi是动作选择成本,
Figure FDA0003826146780000042
为第i个UE处的瞬时信号干扰比,当UE的信号干扰比不小于最低Qos要求Ωi,则UE的效用就是其奖励,否则,UE的奖励就是其动作选择成本ψi,这一奖励函数保证了异构蜂窝网络最小的Qos需求和每个UE最大的效用;
所述分布式Q学习方法,所采取的实现过程包括:
单个智能体强化学习的目标是找到最优策略来最大化每个智能体的收益,然而,在多智能体强化学习中,智能体的训练还要考虑稳定性和适应性,考虑到其简单性和分布性特点,采用分布式多智能体强化学习,每个UE通过消息传递来获得全局状态空间,并基于全局状态空间以获得最优策略,每个UE不需要发送自身的最优策略,而是一个比特位来发送其当前状态给其他UE,每个UE需要找到在每个状态下的最优策略,以获得累计收益的最大化;
第i个UE的值函数定义为:
Figure FDA0003826146780000043
其中,E表示学习期望,它与时间t无关;
由于马尔可夫性质,随后的状态只由当前状态决定,与之前的状态无关,于是,值函数可简化为:
Figure FDA0003826146780000044
其中,ui(s,ai)是Ri(s,ai)的数学期望,Pss'(ai)表示从状态s到状态s'的转移概率;
于是,基于贝尔曼准则,最优策略
Figure FDA0003826146780000045
值函数为:
Figure FDA0003826146780000046
于是,得到最优Q值函数
Figure FDA0003826146780000047
Figure FDA0003826146780000051
基于上述最优Q值函数
Figure FDA0003826146780000052
状态s下最优策略
Figure FDA0003826146780000053
可得:
Figure FDA0003826146780000054
一般来说,很难获得准确的转移概率Pss'(ai),然而,基于可用信息(s,ai,s',E[ui(s,πi(s))]),利用Q学习,可以以递归方式获得最优策略,Q学习的迭代公式为:
Figure FDA0003826146780000055
其中,δ是学习速率,它决定了Qi(s,ai)的更新速度;
此外,在动作选择的利用与探索权衡策略中,选择ε-greedy策略,以概率1-ε选择最佳动作
Figure FDA0003826146780000056
以概率ε随机选择动作。
CN201810309020.5A 2018-04-09 2018-04-09 一种异构网络中基于强化学习的资源分配和功率控制联合优化方法 Active CN108521673B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810309020.5A CN108521673B (zh) 2018-04-09 2018-04-09 一种异构网络中基于强化学习的资源分配和功率控制联合优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810309020.5A CN108521673B (zh) 2018-04-09 2018-04-09 一种异构网络中基于强化学习的资源分配和功率控制联合优化方法

Publications (2)

Publication Number Publication Date
CN108521673A CN108521673A (zh) 2018-09-11
CN108521673B true CN108521673B (zh) 2022-11-01

Family

ID=63430704

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810309020.5A Active CN108521673B (zh) 2018-04-09 2018-04-09 一种异构网络中基于强化学习的资源分配和功率控制联合优化方法

Country Status (1)

Country Link
CN (1) CN108521673B (zh)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108966330A (zh) * 2018-09-21 2018-12-07 西北大学 一种基于Q-learning的移动端音乐播放器动态调节能耗优化方法
CN109309539A (zh) * 2018-09-26 2019-02-05 中国人民解放军陆军工程大学 一种基于深度强化学习的信息聚合短波选频方法
CN109219025A (zh) * 2018-09-28 2019-01-15 北京邮电大学 一种无线终端直连通信资源分配方法及装置
CN109874154B (zh) * 2019-01-23 2023-05-23 南京邮电大学 一种基于深度强化学习的c-ran用户关联和计算资源分配方法
CN110798842B (zh) * 2019-01-31 2022-06-28 湖北工业大学 一种基于多用户深度强化学习的异构蜂窝网络流量卸载方法
CN109982434B (zh) * 2019-03-08 2022-04-01 西安电子科技大学 无线资源调度一体智能化控制系统及方法、无线通信系统
CN109975800B (zh) * 2019-04-01 2020-12-29 中国电子科技集团公司信息科学研究院 组网雷达资源管控方法及装置、计算机可读存储介质
CN110191489B (zh) * 2019-05-17 2020-07-24 北京科技大学 一种超密集网络中基于强化学习的资源分配方法及装置
CN110267338B (zh) * 2019-07-08 2020-05-22 西安电子科技大学 一种d2d通信中联合资源分配和功率控制方法
CN110531617B (zh) * 2019-07-30 2021-01-08 北京邮电大学 多无人机3d悬停位置联合优化方法、装置和无人机基站
CN111277437B (zh) * 2020-01-17 2022-11-22 全球能源互联网研究院有限公司 一种智能电网的网络切片资源分配方法
CN111867110B (zh) * 2020-06-17 2023-10-03 三明学院 一种基于开关切换策略的无线网络信道分离节能方法
CN112101728B (zh) * 2020-08-18 2024-07-26 华南理工大学 一种移动边缘计算系统能源优化分配方法
CN112188600B (zh) * 2020-09-22 2023-05-30 南京信息工程大学滨江学院 一种利用强化学习优化异构网络资源的方法
CN112584347B (zh) * 2020-09-28 2022-07-08 西南电子技术研究所(中国电子科技集团公司第十研究所) Uav异构网络多维资源动态管理方法
CN112272410B (zh) * 2020-10-22 2022-04-19 北京邮电大学 Noma网络中用户关联与资源分配的模型训练方法
CN112351433B (zh) * 2021-01-05 2021-05-25 南京邮电大学 一种基于强化学习的异构网络资源分配方法
CN112383932B (zh) * 2021-01-12 2021-04-09 华东交通大学 基于分簇的用户关联和资源分配联合优化方法
CN112822781B (zh) * 2021-01-20 2022-04-12 重庆邮电大学 一种基于q学习的资源分配方法
CN112801430B (zh) * 2021-04-13 2021-11-12 贝壳找房(北京)科技有限公司 任务下发方法、装置、电子设备及可读存储介质
CN114828193B (zh) * 2022-04-19 2024-04-26 北京邮电大学 一种无线网络上下行多业务并发功率分配方法及存储介质
CN115499852A (zh) * 2022-09-15 2022-12-20 西安邮电大学 基于机器学习的毫米波网络覆盖容量自优化方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102238631A (zh) * 2011-08-17 2011-11-09 南京邮电大学 基于强化学习的异构网络资源管理方法
CN106170131A (zh) * 2016-08-22 2016-11-30 中央军委装备发展部第六十三研究所 一种信道状态不确定条件下分层异构网络的稳健分层博弈学习资源分配方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140229210A1 (en) * 2013-02-14 2014-08-14 Futurewei Technologies, Inc. System and Method for Network Resource Allocation Considering User Experience, Satisfaction and Operator Interest

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102238631A (zh) * 2011-08-17 2011-11-09 南京邮电大学 基于强化学习的异构网络资源管理方法
CN106170131A (zh) * 2016-08-22 2016-11-30 中央军委装备发展部第六十三研究所 一种信道状态不确定条件下分层异构网络的稳健分层博弈学习资源分配方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于Q学习的异构网络选择新算法;赵彦清等;《计算机应用》;20110601(第06期);第0、2节 *
异构蜂窝网络中用户关联与基站功率的协同优化;苏恭超等;《电讯技术》;20160128(第01期);第1-2节 *

Also Published As

Publication number Publication date
CN108521673A (zh) 2018-09-11

Similar Documents

Publication Publication Date Title
CN108521673B (zh) 一种异构网络中基于强化学习的资源分配和功率控制联合优化方法
Micallef et al. Cell size breathing and possibilities to introduce cell sleep mode
US9769766B2 (en) Self-optimizing distributed antenna system using soft frequency reuse
CN108848561A (zh) 一种基于深度强化学习的异构蜂窝网络联合优化方法
Rasti et al. Pareto-efficient and goal-driven power control in wireless networks: A game-theoretic approach with a novel pricing scheme
Tian et al. An adaptive bias configuration strategy for range extension in LTE-advanced heterogeneous networks
US8463190B2 (en) System and method for interference reduction in self-optimizing networks
US10164690B2 (en) Method and device for forming multi-cell beam
Dahal et al. Energy saving technique and measurement in green wireless communication
Almgren et al. Capacity enhancements in a TDMA system
Portelinha et al. The impact of electric energy consumption from telecommunications systems on isolated microgrids
Chandhar et al. Energy saving in OFDMA cellular networks with multi-objective optimization
CN106550401B (zh) 一种小区偏置和abs比例的联合配置方法及装置
Chao et al. Distributed dynamic-TDD resource allocation in femtocell networks using evolutionary game
US11070275B1 (en) System and method for managing signal transmission characteristics in a wireless network
Hu et al. An adaptive energy consumption optimization method based on channel correlation information in massive mimo systems
Kastrinogiannis et al. Game theoretic distributed uplink power control for CDMA networks with real-time services
Farooq et al. Utilizing loss tolerance and bandwidth expansion for energy efficient user association in HetNets
Li et al. Deep Reinforcement Learning-Based Multi-Panel Beam Management in Massive MIMO Systems: Algorithm Design and System-Level Simulation
CN113796127A (zh) 多频率通信网络中的小区选择
Shi et al. User Association for on-grid Energy Minimizing in HetNets with Hybrid Energy Supplies
CN110312316B (zh) 一种上行蜂窝网络中的多小区协调调度方法及上行蜂窝系统
Li et al. Modeling and optimization of self-organizing energy-saving mechanism for HetNets
Akinlabi et al. Positioning algorithm for deployment of femtocell network in mobile network
Pawar et al. Power Control and Mode Selection Algorithm for D2D Communications

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230109

Address after: 518000 floor 21-22, building 2, Yicheng Huanzhi center, intersection of Renmin Road and Bayi Road, Jinglong community, Longhua street, Longhua District, Shenzhen, Guangdong Province

Patentee after: China Construction Third Engineering Bureau No.1 Construction and installation Co.,Ltd.

Address before: 430068 No. 28 Nanli Road, Hongshan District, Wuhan City, Hubei Province

Patentee before: HUBEI University OF TECHNOLOGY

TR01 Transfer of patent right