CN110191489B - 一种超密集网络中基于强化学习的资源分配方法及装置 - Google Patents

一种超密集网络中基于强化学习的资源分配方法及装置 Download PDF

Info

Publication number
CN110191489B
CN110191489B CN201910409339.XA CN201910409339A CN110191489B CN 110191489 B CN110191489 B CN 110191489B CN 201910409339 A CN201910409339 A CN 201910409339A CN 110191489 B CN110191489 B CN 110191489B
Authority
CN
China
Prior art keywords
base station
network
user
energy efficiency
association
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910409339.XA
Other languages
English (en)
Other versions
CN110191489A (zh
Inventor
张海君
李东
任冶冰
刘玮
董江波
姜春晓
皇甫伟
隆克平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology Beijing USTB
Original Assignee
University of Science and Technology Beijing USTB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology Beijing USTB filed Critical University of Science and Technology Beijing USTB
Priority to CN201910409339.XA priority Critical patent/CN110191489B/zh
Publication of CN110191489A publication Critical patent/CN110191489A/zh
Application granted granted Critical
Publication of CN110191489B publication Critical patent/CN110191489B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/02Traffic management, e.g. flow control or congestion control
    • H04W28/08Load balancing or load distribution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • H04W52/18TPC being performed according to specific parameters
    • H04W52/26TPC being performed according to specific parameters using transmission rate or quality of service QoS [Quality of Service]
    • H04W52/265TPC being performed according to specific parameters using transmission rate or quality of service QoS [Quality of Service] taking into account the quality of service QoS
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • H04W52/38TPC being performed in particular situations
    • H04W52/40TPC being performed in particular situations during macro-diversity or soft handoff

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明提供一种超密集网络中基于强化学习的资源分配方法及装置,能够实现网络的负载均衡,并提高网络的能量效率。所述方法包括:基于Q学习对网络的当前状态进行分析,得到使网络能量效率最大时的用户与基站的关联策略和基站的发射功率控制策略;根据得到的使网络能量效率最大时的用户与基站的关联策略进行用户与基站的关联;在用户与基站关联的基础上,根据得到的使网络能量效率最大时的基站的发射功率控制策略对网络中基站的发射功率进行控制。本发明涉及通信技术领域。

Description

一种超密集网络中基于强化学习的资源分配方法及装置
技术领域
本发明涉及通信技术领域,特别是指一种超密集网络中基于强化学习的资源分配方法及装置。
背景技术
随着移动终端的快速发展,对网络容量的需求急剧增加。部署大量小型基站,例如毫微微小区基站(BS),微小区BS和微微小区BS可以增强网络容量。超密集网络是第五代移动通信中的一种新型网络架构,能够缩短用户与低功率基站之间的距离,提高系统容量和频谱效率。当网络架构从传统架构转向超密集网络时,也面临着诸多新的挑战,例如网络设计、资源分配和用户关联。
超密集网络中用户与低功率基站分布都十分密集,资源管理是保证其系统性能的重要因素。在传统网络中,用户关联通常基于最大信噪比实现,然而,基于最大信噪比的方法在超密集网络中可能不像传统网络那样有效。如果在超密集网络中采用该方法,则连接到用户的基站的优先级往往是高功率宏基站,这将容易导致宏基站过载并将其有限资源划分给多个用户,同时会导致小型基站的利用率低下。移动负载均衡技术可以及时有效地解决超密集网络中小区间业务量不均衡的情况,在多个小区之间平衡负载量,使未过载的邻居小区能够分担过载小区的业务负载量,平衡小区间负载,从而提高资源的利用率和用户的满意度。因此针对用户与基站的负载均衡的关联技术研究有重要意义。
目前,将强化学习应用于超密集网络的资源分配的研究很少,现有研究大多针对一个小基站对一个用户的场景,无法满足超密集网络中密集连接的情况。
发明内容
本发明要解决的技术问题是提供一种超密集网络中基于强化学习的资源分配方法及装置,以解决现有技术所存在的强化学习无法满足超密集网络中密集连接的问题。
为解决上述技术问题,本发明实施例提供一种超密集网络中基于强化学习的资源分配方法,包括:
基于Q学习对网络的当前状态进行分析,得到使网络能量效率最大时的用户与基站的关联策略和基站的发射功率控制策略;
根据得到的使网络能量效率最大时的用户与基站的关联策略进行用户与基站的关联;
在用户与基站关联的基础上,根据得到的使网络能量效率最大时的基站的发射功率控制策略对网络中基站的发射功率进行控制。
进一步地,所述基于Q学习对网络的当前状态进行分析包括:
A1,初始化Q学习算法的Q表,其中,Q表用于存储每个网络状态所采取动作的经验值,所述动作包括:用户与基站的关联策略和基站的发射功率控制策略;
A2,在当前网络状态下随机采取一个动作,并计算在当前网络状态下采取该动作后的系统能量效率;
A3,建立用于负载均衡的用户关联和网络功率控制的强化学习模型,根据建立的强化学习模型对当前网络状态下的Q表进行更新,得到下一个网络状态下的Q表,其中,强化学习模型表示为:
Figure BDA0002062311010000021
其中,t表示迭代次数,Q(st,at)表示第t次迭代后的Q表,st和at分别表示第t次迭代后的网络状态和动作,α表示学习率,β表示折扣因子,α和β取值均在0到1之间,R(s,a)表示在网络状态s和动作a下的网络能量效率,A表示下一次迭代的动作集,b表示下一次迭代的动作,Q(st+1,b)表示第t+1次迭代后的Q表,st+1表示第t+1次迭代后的网络状态;
A4,返回重复执行A2、A3,直到当前迭代次数达到最大的迭代次数。
进一步地,网络能量效率为网络系统总容量与总功耗的比值。
进一步地,网络能量效率表示为;
Figure BDA0002062311010000031
其中,f(x,p)表示网络能量效率,x表示用户与基站的关联状态,p表示基站的发射功率,U表示用户集,B表示基站集合,xij表示第i个用户和第j个基站的关联状态,cij表示第i个用户和第j个基站间无线信道的容量,Uc(x,p)表示系统总功耗。
进一步地,每个基站的用户连接数小于Kj,其中,Kj表示基站j最大的连接数;
每个基站的发射功率小于
Figure BDA0002062311010000032
其中,
Figure BDA0002062311010000033
表示基站j最大的发射功率。
本发明实施例还提供一种超密集网络中基于强化学习的资源分配装置,包括:
强化学习模块,用于基于Q学习对网络的当前状态进行分析,得到使网络能量效率最大时的用户与基站的关联策略和基站的发射功率控制策略;
负载均衡模块,用于根据得到的使网络能量效率最大时的用户与基站的关联策略进行用户与基站的关联;
功率控制模块,用于在用户与基站关联的基础上,根据得到的使网络能量效率最大时的基站的发射功率控制策略对网络中基站的发射功率进行控制。
进一步地,所述强化学习模块包括:
初始化单元,用于初始化Q学习算法的Q表,其中,Q表用于存储每个网络状态所采取动作的经验值,所述动作包括:用户与基站的关联策略和基站的发射功率控制策略;
确定单元,用于在当前网络状态下随机采取一个动作,并计算在当前网络状态下采取该动作后的系统能量效率;
更新单元,用于建立用于负载均衡的用户关联和网络功率控制的强化学习模型,根据建立的强化学习模型对当前网络状态下的Q表进行更新,得到下一个网络状态下的Q表,其中,强化学习模型表示为:
Figure BDA0002062311010000041
其中,t表示迭代次数,Q(st,at)表示第t次迭代后的Q表,st和at分别表示第t次迭代后的网络状态和动作,α表示学习率,β表示折扣因子,α和β取值均在0到1之间,R(s,a)表示在网络状态s和动作a下的网络能量效率,A表示下一次迭代的动作集,b表示下一次迭代的动作,Q(st+1,b)表示第t+1次迭代后的Q表,st+1表示第t+1次迭代后的网络状态;
重复单元,用于返回重复执行确定单元和更新单元,直到当前迭代次数达到最大的迭代次数。
进一步地,网络能量效率为网络系统总容量与总功耗的比值。
进一步地,网络能量效率表示为;
Figure BDA0002062311010000042
其中,f(x,p)表示网络能量效率,x表示用户与基站的关联状态,p表示基站的发射功率,U表示用户集,B表示基站集合,xij表示第i个用户和第j个基站的关联状态,cij表示第i个用户和第j个基站间无线信道的容量,Uc(x,p)表示系统总功耗。
进一步地,每个基站的用户连接数小于Kj,其中,Kj表示基站j最大的连接数;
每个基站的发射功率小于
Figure BDA0002062311010000043
其中,
Figure BDA0002062311010000044
表示基站j最大的发射功率。
本发明的上述技术方案的有益效果如下:
上述方案中,基于Q学习对网络的当前状态进行分析,得到使网络能量效率最大时的用户与基站的关联策略和基站的发射功率控制策略;根据得到的使网络能量效率最大时的用户与基站的关联策略进行用户与基站的关联,实现网络负载均衡的用户关联,让每个用户都连接到最佳的基站上;在用户与基站关联的基础上,根据得到的使网络能量效率最大时的基站的发射功率控制策略对网络中基站的发射功率进行控制。这样,通过采用强化学习里的Q学习方法,考虑网络的高能效和负载均衡,以最大化网络能量效率为目标,计算出超密集网络中最优的用户关联和功率控制策略,从而实现网络用户关联的的负载均衡,并提高网络的能量效率。
附图说明
图1为本发明实施例提供的超密集网络中基于强化学习的资源分配方法的流程示意图;
图2为本发明实施例提供的超密集网络中基于强化学习的资源分配装置的结构示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明针对现有的强化学习无法满足超密集网络中密集连接的问题,提供一种超密集网络中基于强化学习的资源分配方法及装置。
实施例一
如图1所示,本发明实施例提供的超密集网络中基于强化学习的资源分配方法,包括:
S101,基于Q学习(Q-learning)对网络的当前状态进行分析,得到使网络能量效率最大时的用户与基站的关联策略和基站的发射功率控制策略;
S102,根据得到的使网络能量效率最大时的用户与基站的关联策略进行用户与基站的关联;
S103,在用户与基站关联的基础上,根据得到的使网络能量效率最大时的基站的发射功率控制策略对网络中基站的发射功率进行控制。
本发明实施例所述的超密集网络中基于强化学习的资源分配方法,基于Q学习对网络的当前状态进行分析,得到使网络能量效率最大时的用户与基站的关联策略和基站的发射功率控制策略;根据得到的使网络能量效率最大时的用户与基站的关联策略进行用户与基站的关联,实现网络负载均衡的用户关联,让每个用户都连接到最佳的基站上;在用户与基站关联的基础上,根据得到的使网络能量效率最大时的基站的发射功率控制策略对网络中基站的发射功率进行控制。这样,通过采用强化学习里的Q学习方法,考虑网络的高能效和负载均衡,以最大化网络能量效率为目标,计算出超密集网络中最优的用户关联和功率控制策略,从而实现网络用户关联的的负载均衡,并提高网络的能量效率。
为了实现本发明实施例所述的超密集网络中基于强化学习的资源分配方法,本发明实施例还提供了一种与之对应的装置,所述装置包括:
强化学习模块,用于基于Q学习(Q-learning)对网络的当前状态进行分析,得到使网络能量效率最大时的用户与基站的关联策略和基站的发射功率控制策略;
负载均衡模块,用于根据得到的使网络能量效率最大时的用户与基站的关联策略进行用户与基站的关联;
功率控制模块,用于在用户与基站关联的基础上,根据得到的使网络能量效率最大时的基站的发射功率控制策略对网络中基站的发射功率进行控制。
本实施例中,通过强化学习(Q学习),对超密集网络的用户关联和功率控制建立合适的强化学习模型,强化学习模型根据网络的状态确定最佳(使网络能量效率最大时)的用户与基站的关联策略和发射功率控制策略,然后,负载均衡模块按照强化学习模块得到的最佳关联策略进行用户关联,实现网络的负载均衡,功率控制模块根据强化学习模块得到的发射功率控制策略对基站的发射功率进行控制,从而实现在当前用户关联状态下的最优功率分配,使得系统的总的能量效率最大,并提高网络能效。
在强化学习模块的建模过程中,将根据当前网络状态进行Q学习的计算,最后收敛到一个最优状态,最优状态指:此状态下的发射功率分配,用户与基站的关联能够使得网络能量效率最大。将此状态下的用户关联和功率控制返回给负载均衡模块和功率控制模块以对网络进行控制。
在负载均衡模块,宏基站和小基站共同为用户提供服务,用户可以选择宏基站或者能覆盖它的小基站,并且宏基站的用户接入数量远大于小基站的。在负载均衡模块,基站根据强化学习模块得到的最佳关联策略进行密集网络中基站与用户连接时,需在保证用户服务质量的同时实现网络中基站的负载均衡。
本实施例中,所述网络状态包括:用户与基站的关联状态和基站的发射功率。
在前述超密集网络中基于强化学习的资源分配方法的具体实施方式中,进一步地,所述基于Q学习对网络的当前状态进行分析包括:
A1,初始化Q学习算法的Q表,其中,Q表用于存储每个网络状态所采取动作的经验值,值越大说明采取此动作越好,所述动作包括:用户与基站的关联策略和基站的发射功率控制策略;
A2,在当前网络状态下随机采取一个动作,即对网络用户进行随机的用户与基站的关联和基站的发射功率控制,并计算在当前网络状态下采取该动作后的系统能量效率;
A3,建立用于负载均衡的用户关联和网络功率控制的强化学习模型,根据建立的强化学习模型对当前网络状态下的Q表进行更新,得到下一个网络状态下的Q表,其中,强化学习模型表示为:
Figure BDA0002062311010000071
其中,t表示迭代次数,Q(st,at)表示第t次迭代后的Q表,st和at分别表示第t次迭代后的网络状态和动作,α表示学习率,β表示折扣因子,α和β取值均在0到1之间,R(s,a)表示在网络状态s和动作a下的网络能量效率,A表示下一次迭代的动作集,b表示下一次迭代的动作,Q(st+1,b)表示第t+1次迭代后的Q表,st+1表示第t+1次迭代后的网络状态;
A4,返回重复执行A2、A3,直到当前迭代次数达到最大的迭代次数。
本实施例中,α和β取值均在0到1之间。
本实施例中,将超密集网络中的移动终端和基站假设为智能体。为了保证移动用户的服务质量,在进行资源分配的时候,对每个信道上的信噪比设置了门限值,在Q学习计算中使得每个用户的接收信噪比都能大于门限值,在智能体与环境的互动过程中,每一次积累的经验将会对下一次采取的行动产生很大影响,每一次Q学习迭代都为了让网络能量效率最大,在Q学习的强化学习模型训练中,最后将收敛到一个最佳状态,即:使网络能量效率最大。
本实施例中,负载均衡模块根据强化学习模块得到的Q表与当前网络状态选取最优动作里面的用户关联策略进行用户关联。功率控制模块根据强化学习模块得到的Q表与当前网络状态选取最优动作里的功率分配策略进行发射功率控制,完成网路的功率分配,实现网络能效最大化。
本实施例中,结合超密集网络的特点建立强化学习的学习模型,并根据网络状态进行强化学习的训练,然后根据强化学习的结果,负载均衡模块对网络的用户关联进行控制,实现网络的负载均衡,最后在用户与基站关联的基础上,功率控制模块对基站的发射功率进行控制完成整个资源管理的过程。
本实施例中,智能体所采取的动作包括:用户与基站的关联以及基站的发射功率的调整,每次动作的回报为网络的能量效率,其中,网络能量效率为网络系统总容量与总功耗的比值。
本实施例中,网络能量效率的数学表达为:
Figure BDA0002062311010000081
其中,f(x,p)表示网络能量效率,x表示用户与基站的关联状态,p表示基站的发射功率,U表示用户集,B表示基站集合,xij表示第i个用户和第j个基站的关联状态,cij表示第i个用户和第j个基站间无线信道的容量,Uc(x,p)表示系统总功耗。
本实施例中,xij取值为1或0,1表示连接,0表示不连接;cij表示第i个用户和第j个基站间无线信道的容量,可根据香农公式得到;Uc(x,p)表示系统总功耗,与用户与基站的关联x和发射功率p有关,包括系统的电路功耗和基站的发射功率总和。
本实施例中,每个基站的用户连接数小于Kj,其中,Kj表示基站j最大的连接数,数学表示为
Figure BDA0002062311010000082
本实施例中,在超密集网络中,各基站间会存在同层干扰,每个基站在调整发射功率的同时会影响其它用户的接收信噪比,将每个基站的发射功率限制于最大值
Figure BDA0002062311010000083
即:每个基站的发射功率小于
Figure BDA0002062311010000084
其中,
Figure BDA0002062311010000085
表示基站j最大的发射功率。
实施例二
本发明还提供一种超密集网络中基于强化学习的资源分配装置的具体实施方式,由于本发明提供的超密集网络中基于强化学习的资源分配装置与前述超密集网络中基于强化学习的资源分配方法的具体实施方式相对应,该超密集网络中基于强化学习的资源分配装置可以通过执行上述方法具体实施方式中的流程步骤来实现本发明的目的,因此上述超密集网络中基于强化学习的资源分配方法具体实施方式中的解释说明,也适用于本发明提供的超密集网络中基于强化学习的资源分配装置的具体实施方式,在本发明以下的具体实施方式中将不再赘述。
如图2所示,本发明实施例还提供一种超密集网络中基于强化学习的资源分配装置,包括:
强化学习模块11,用于基于Q学习对网络的当前状态进行分析,得到使网络能量效率最大时的用户与基站的关联策略和基站的发射功率控制策略;
负载均衡模块12,用于根据得到的使网络能量效率最大时的用户与基站的关联策略进行用户与基站的关联;
功率控制模块13,用于在用户与基站关联的基础上,根据得到的使网络能量效率最大时的基站的发射功率控制策略对网络中基站的发射功率进行控制。
本发明实施例所述的超密集网络中基于强化学习的资源分配装置,基于Q学习对网络的当前状态进行分析,得到使网络能量效率最大时的用户与基站的关联策略和基站的发射功率控制策略;根据得到的使网络能量效率最大时的用户与基站的关联策略进行用户与基站的关联,实现网络负载均衡的用户关联,让每个用户都连接到最佳的基站上;在用户与基站关联的基础上,根据得到的使网络能量效率最大时的基站的发射功率控制策略对网络中基站的发射功率进行控制。这样,通过采用强化学习里的Q学习方法,考虑网络的高能效和负载均衡,以最大化网络能量效率为目标,计算出超密集网络中最优的用户关联和功率控制策略,从而实现网络用户关联的的负载均衡,并提高网络的能量效率。
在前述超密集网络中基于强化学习的资源分配装置的具体实施方式中,进一步地,所述强化学习模块包括:
初始化单元,用于初始化Q学习算法的Q表,其中,Q表用于存储每个网络状态所采取动作的经验值,所述动作包括:用户与基站的关联策略和基站的发射功率控制策略;
确定单元,用于在当前网络状态下随机采取一个动作,并计算在当前网络状态下采取该动作后的系统能量效率;
更新单元,用于建立用于负载均衡的用户关联和网络功率控制的强化学习模型,根据建立的强化学习模型对当前网络状态下的Q表进行更新,得到下一个网络状态下的Q表,其中,强化学习模型表示为:
Figure BDA0002062311010000101
其中,t表示迭代次数,Q(st,at)表示第t次迭代后的Q表,st和at分别表示第t次迭代后的网络状态和动作,α表示学习率,β表示折扣因子,α和β取值均在0到1之间,R(s,a)表示在网络状态s和动作a下的网络能量效率,A表示下一次迭代的动作集,b表示下一次迭代的动作,Q(st+1,b)表示第t+1次迭代后的Q表,st+1表示第t+1次迭代后的网络状态;
重复单元,用于返回重复执行确定单元和更新单元,直到当前迭代次数达到最大的迭代次数。
在前述超密集网络中基于强化学习的资源分配装置的具体实施方式中,进一步地,网络能量效率为网络系统总容量与总功耗的比值。
在前述超密集网络中基于强化学习的资源分配装置的具体实施方式中,进一步地,网络能量效率表示为;
Figure BDA0002062311010000102
其中,f(x,p)表示网络能量效率,x表示用户与基站的关联状态,p表示基站的发射功率,U表示用户集,B表示基站集合,xij表示第i个用户和第j个基站的关联状态,cij表示第i个用户和第j个基站间无线信道的容量,Uc(x,p)表示系统总功耗。
在前述超密集网络中基于强化学习的资源分配装置的具体实施方式中,进一步地,每个基站的用户连接数小于Kj,其中,Kj表示基站j最大的连接数;
每个基站的发射功率小于
Figure BDA0002062311010000111
其中,
Figure BDA0002062311010000112
表示基站j最大的发射功率。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (8)

1.一种超密集网络中基于强化学习的资源分配方法,其特征在于,包括:
基于Q学习对网络的当前状态进行分析,得到使网络能量效率最大时的用户与基站的关联策略和基站的发射功率控制策略;
根据得到的使网络能量效率最大时的用户与基站的关联策略进行用户与基站的关联;
在用户与基站关联的基础上,根据得到的使网络能量效率最大时的基站的发射功率控制策略对网络中基站的发射功率进行控制;
其中,所述基于Q学习对网络的当前状态进行分析包括:
A1,初始化Q学习算法的Q表,其中,Q表用于存储每个网络状态所采取动作的经验值,所述动作包括:用户与基站的关联策略和基站的发射功率控制策略;
A2,在当前网络状态下随机采取一个动作,并计算在当前网络状态下采取该动作后的系统能量效率;
A3,建立用于负载均衡的用户关联和网络功率控制的强化学习模型,根据建立的强化学习模型对当前网络状态下的Q表进行更新,得到下一个网络状态下的Q表,其中,强化学习模型表示为:
Figure FDA0002495146010000011
其中,t表示迭代次数,Q(st,at)表示第t次迭代后的Q表,st和at分别表示第t次迭代后的网络状态和动作,α表示学习率,β表示折扣因子,α和β取值均在0到1之间,R(s,a)表示在网络状态s和动作a下的网络能量效率,A表示下一次迭代的动作集,b表示下一次迭代的动作,Q(st+1,b)表示第t+1次迭代后的Q表,st+1表示第t+1次迭代后的网络状态;
A4,返回重复执行A2、A3,直到当前迭代次数达到最大的迭代次数。
2.根据权利要求1所述的超密集网络中基于强化学习的资源分配方法,其特征在于,网络能量效率为网络系统总容量与总功耗的比值。
3.根据权利要求1所述的超密集网络中基于强化学习的资源分配方法,其特征在于,网络能量效率表示为;
Figure FDA0002495146010000021
其中,f(x,p)表示网络能量效率,x表示用户与基站的关联状态,p表示基站的发射功率,U表示用户集,B表示基站集合,xij表示第i个用户和第j个基站的关联状态,cij表示第i个用户和第j个基站间无线信道的容量,Uc(x,p)表示系统总功耗。
4.根据权利要求1所述的超密集网络中基于强化学习的资源分配方法,其特征在于,每个基站的用户连接数小于Kj,其中,Kj表示基站j最大的连接数;
每个基站的发射功率小于
Figure FDA0002495146010000022
其中,
Figure FDA0002495146010000023
表示基站j最大的发射功率。
5.一种超密集网络中基于强化学习的资源分配装置,其特征在于,包括:
强化学习模块,用于基于Q学习对网络的当前状态进行分析,得到使网络能量效率最大时的用户与基站的关联策略和基站的发射功率控制策略;
负载均衡模块,用于根据得到的使网络能量效率最大时的用户与基站的关联策略进行用户与基站的关联;
功率控制模块,用于在用户与基站关联的基础上,根据得到的使网络能量效率最大时的基站的发射功率控制策略对网络中基站的发射功率进行控制;
其中,所述强化学习模块包括:
初始化单元,用于初始化Q学习算法的Q表,其中,Q表用于存储每个网络状态所采取动作的经验值,所述动作包括:用户与基站的关联策略和基站的发射功率控制策略;
确定单元,用于在当前网络状态下随机采取一个动作,并计算在当前网络状态下采取该动作后的系统能量效率;
更新单元,用于建立用于负载均衡的用户关联和网络功率控制的强化学习模型,根据建立的强化学习模型对当前网络状态下的Q表进行更新,得到下一个网络状态下的Q表,其中,强化学习模型表示为:
Figure FDA0002495146010000031
其中,t表示迭代次数,Q(st,at)表示第t次迭代后的Q表,st和at分别表示第t次迭代后的网络状态和动作,α表示学习率,β表示折扣因子,α和β取值均在0到1之间,R(s,a)表示在网络状态s和动作a下的网络能量效率,A表示下一次迭代的动作集,b表示下一次迭代的动作,Q(st+1,b)表示第t+1次迭代后的Q表,st+1表示第t+1次迭代后的网络状态;
重复单元,用于返回重复执行确定单元和更新单元,直到当前迭代次数达到最大的迭代次数。
6.根据权利要求5所述的超密集网络中基于强化学习的资源分配装置,其特征在于,网络能量效率为网络系统总容量与总功耗的比值。
7.根据权利要求5所述的超密集网络中基于强化学习的资源分配装置,其特征在于,网络能量效率表示为;
Figure FDA0002495146010000032
其中,f(x,p)表示网络能量效率,x表示用户与基站的关联状态,p表示基站的发射功率,U表示用户集,B表示基站集合,xij表示第i个用户和第j个基站的关联状态,cij表示第i个用户和第j个基站间无线信道的容量,Uc(x,p)表示系统总功耗。
8.根据权利要求5所述的超密集网络中基于强化学习的资源分配装置,其特征在于,每个基站的用户连接数小于Kj,其中,Kj表示基站j最大的连接数;
每个基站的发射功率小于
Figure FDA0002495146010000033
其中,
Figure FDA0002495146010000034
表示基站j最大的发射功率。
CN201910409339.XA 2019-05-17 2019-05-17 一种超密集网络中基于强化学习的资源分配方法及装置 Active CN110191489B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910409339.XA CN110191489B (zh) 2019-05-17 2019-05-17 一种超密集网络中基于强化学习的资源分配方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910409339.XA CN110191489B (zh) 2019-05-17 2019-05-17 一种超密集网络中基于强化学习的资源分配方法及装置

Publications (2)

Publication Number Publication Date
CN110191489A CN110191489A (zh) 2019-08-30
CN110191489B true CN110191489B (zh) 2020-07-24

Family

ID=67716467

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910409339.XA Active CN110191489B (zh) 2019-05-17 2019-05-17 一种超密集网络中基于强化学习的资源分配方法及装置

Country Status (1)

Country Link
CN (1) CN110191489B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110855403B (zh) * 2019-11-12 2022-05-31 哈尔滨工业大学(深圳) 空间信息网的高能效网络编码arq双向中继传输机制
CN111935753B (zh) * 2020-08-28 2022-03-29 重庆邮电大学 一种负载均衡的用户关联与资源分配方法
CN113038583A (zh) * 2021-03-11 2021-06-25 南京南瑞信息通信科技有限公司 适用于超密集网络的小区间下行链路干扰控制方法、装置和系统
CN113448425B (zh) * 2021-07-19 2022-09-09 哈尔滨工业大学 一种基于强化学习的动态并行应用程序能耗运行时优化方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102811443A (zh) * 2012-07-27 2012-12-05 南京邮电大学 家庭基站系统中基于频谱分配及功率控制的干扰管理方法
CN103906076A (zh) * 2014-03-26 2014-07-02 浙江工商大学 一种分布式自适应调节小基站发射功率偏置值的方法
CN108521673A (zh) * 2018-04-09 2018-09-11 湖北工业大学 一种异构网络中基于强化学习的资源分配和功率控制联合优化方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104113903B (zh) * 2014-07-31 2018-01-16 厦门大学 基于交互式认知学习的下行功率调整方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102811443A (zh) * 2012-07-27 2012-12-05 南京邮电大学 家庭基站系统中基于频谱分配及功率控制的干扰管理方法
CN103906076A (zh) * 2014-03-26 2014-07-02 浙江工商大学 一种分布式自适应调节小基站发射功率偏置值的方法
CN108521673A (zh) * 2018-04-09 2018-09-11 湖北工业大学 一种异构网络中基于强化学习的资源分配和功率控制联合优化方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Energy Efficient User Association and Power Allocation in Millimeter Wave Based Ultra Dense Networks with Energy Harvesting Base Stations;Haijun Zhang;《IEEE J.Sel. Areas Commun》;20170930;摘要,正文3-6页 *

Also Published As

Publication number Publication date
CN110191489A (zh) 2019-08-30

Similar Documents

Publication Publication Date Title
CN110191489B (zh) 一种超密集网络中基于强化学习的资源分配方法及装置
CN109474980B (zh) 一种基于深度增强学习的无线网络资源分配方法
CN109729528B (zh) 一种基于多智能体深度强化学习的d2d资源分配方法
Zhang et al. Computation offloading considering fronthaul and backhaul in small-cell networks integrated with MEC
CN111132191B (zh) 移动边缘计算服务器联合任务卸载、缓存及资源分配方法
CN107426773B (zh) 无线异构网络中面向能效的分布式资源分配方法和装置
CN106358308A (zh) 一种超密集网络中的强化学习的资源分配方法
CN109151864B (zh) 一种面向移动边缘计算超密集网络的迁移决策与资源优化分配方法
CN109600178B (zh) 一种边缘计算中能耗与时延和最小化的优化方法
CN107708197B (zh) 一种高能效的异构网络用户接入和功率控制方法
CN106792451B (zh) 一种基于多种群遗传算法的d2d通信资源优化方法
CN110519849B (zh) 一种针对移动边缘计算的通信和计算资源联合分配方法
CN112351433A (zh) 一种基于强化学习的异构网络资源分配方法
Tran et al. Dynamic radio cooperation for downlink cloud-RANs with computing resource sharing
CN108848045B (zh) 基于联合干扰对齐和功率优化的d2d通信干扰管理方法
Wang et al. Power-minimization computing resource allocation in mobile cloud-radio access network
Liu et al. Deep reinforcement learning-based MEC offloading and resource allocation in uplink NOMA heterogeneous network
Dai et al. Multi-objective intelligent handover in satellite-terrestrial integrated networks
CN114025359A (zh) 基于深度强化学习的资源分配与计算卸载方法、系统、设备及介质
Zhang et al. Energy efficient resource allocation over cloud-RAN based heterogeneous network
CN107995034B (zh) 一种密集蜂窝网络能量与业务协作方法
Zhang et al. Energy efficient resource allocation in millimeter-wave-based fog radio access networks
CN105873127A (zh) 基于随机决定的启发式用户连接的负载均衡方法
CN107172574B (zh) 一种d2d用户对与蜂窝用户共享频谱的功率分配方法
CN112887995B (zh) 在虚拟化多租户CF-mMIMO系统中的资源分配方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant