CN111405646B - 异构蜂窝网络中基于Sarsa学习的基站休眠方法 - Google Patents
异构蜂窝网络中基于Sarsa学习的基站休眠方法 Download PDFInfo
- Publication number
- CN111405646B CN111405646B CN202010184627.2A CN202010184627A CN111405646B CN 111405646 B CN111405646 B CN 111405646B CN 202010184627 A CN202010184627 A CN 202010184627A CN 111405646 B CN111405646 B CN 111405646B
- Authority
- CN
- China
- Prior art keywords
- state
- base station
- fbs
- value
- representing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000001413 cellular effect Effects 0.000 title claims abstract description 34
- 230000005059 dormancy Effects 0.000 title claims abstract description 34
- 230000007958 sleep Effects 0.000 claims abstract description 17
- 230000009471 action Effects 0.000 claims description 48
- 208000019061 glycogen storage disease due to GLUT2 deficiency Diseases 0.000 claims description 28
- 238000004422 calculation algorithm Methods 0.000 claims description 27
- 230000006870 function Effects 0.000 claims description 22
- 230000006399 behavior Effects 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 15
- 230000008901 benefit Effects 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 12
- 230000005540 biological transmission Effects 0.000 claims description 11
- 238000012546 transfer Methods 0.000 claims description 11
- 230000007704 transition Effects 0.000 claims description 7
- 238000004891 communication Methods 0.000 claims description 6
- 230000003595 spectral effect Effects 0.000 claims description 6
- 108010046685 Rho Factor Proteins 0.000 claims description 3
- 238000009825 accumulation Methods 0.000 claims description 3
- 230000001186 cumulative effect Effects 0.000 claims description 3
- 241000608924 Whitea Species 0.000 claims 1
- 230000000875 corresponding effect Effects 0.000 description 14
- 230000008859 change Effects 0.000 description 7
- 238000010295 mobile communication Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 239000010410 layer Substances 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000005265 energy consumption Methods 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 230000001276 controlling effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 125000000217 alkyl group Chemical group 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 239000002355 dual-layer Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W52/00—Power management, e.g. TPC [Transmission Power Control], power saving or power classes
- H04W52/02—Power saving arrangements
- H04W52/0203—Power saving arrangements in the radio access network or backbone network of wireless communication networks
- H04W52/0206—Power saving arrangements in the radio access network or backbone network of wireless communication networks in access points, e.g. base stations
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W52/00—Power management, e.g. TPC [Transmission Power Control], power saving or power classes
- H04W52/04—TPC
- H04W52/18—TPC being performed according to specific parameters
- H04W52/24—TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W52/00—Power management, e.g. TPC [Transmission Power Control], power saving or power classes
- H04W52/04—TPC
- H04W52/18—TPC being performed according to specific parameters
- H04W52/24—TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters
- H04W52/241—TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters taking into account channel quality metrics, e.g. SIR, SNR, CIR, Eb/lo
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明涉及异构蜂窝网络领域,具体涉及一种异构蜂窝网络中基于Sarsa学习的基站休眠方法,所述方法包括:建立系统能效模型;根据系统模型、能效模型以及用户重关联规则构建Sarsa学习中的四个要素;通过Sarsa学习模型求解每个状态的最优休眠决策;本发明相比于传统的基站休眠方法采用了无模型的方法,适用于现实生活中用户分布的多态性和复杂性,并且考虑了休眠基站所服务的用户的重关联保证用户的服务连续性,提出了基于Sarsa学习的FBS动态休眠策略,最大化累积回报值,达到提升网络能效的目的。
Description
技术领域
本发明涉及异构蜂窝网络技术域,具体涉及一种异构蜂窝网络中基于Sarsa学习的基站休眠方法。
背景技术
第五代通信技术(5G)是面向2020年以后移动通信需求而发展的新一代移动通信系统。随着5G时代的到来,移动用户数量和移动业务量的快速增长对蜂窝移动通信系统的容量提出了巨大的需求,同时,物联网、虚拟现实等应用的快速发展迫切需要移动通信系统提供差异化服务。采用小基站和宏基站重叠覆盖的异构蜂窝网络结构是应对上诉问题的重要途径,也是新一代移动通信的关键技术之一。移动互联网的快速发展给人们带来了全新的上网体验,在学习上、工作上、生活上全方位的影响着人们,由此带来的是宏基站和小基站的大量部署,然而用户分布的多态性,以及连接基站的不确定性,导致大量小基站的负载呈现一种不确定性,但是大多数小基站为了保证用户服务质量都保持在工作状态,带来的是能耗的增加。随着移动通信网络规模的增大,如何节约能源的消耗,提高网络能效已经成为网络优化的重要解决部分。
现有的基站休眠技术研究中,大多数是一种基于模型的公式推导和分析,现实世界中用户与基站的分布复杂性在简单易处理的模型中并不能很好的体现,使得模型难以在现实生活中合理应用。
发明内容
为了解决上述传统的基站休眠方法很难适应实际中基站用户数随机动态变化的问题,本发明采用双层Macro-Femto异构蜂窝网络,同时考虑基站所服务的用户数的随机动态变化、基站休眠和用户关联的相互影响,采用无模型的Sarsa强化学习方法进行基站休眠和用户关联联合优化,最大化Sarsa学习的累积回报,提供一种异构蜂窝网络中基于Sarsa学习的基站休眠方法,能够达到提升网络能效的目的,相比于传统的基站休眠方法更符合实际中基站用户数随机的动态变化的情况。
一种异构蜂窝网络中基于Sarsa学习的基站休眠方法,包括以下步骤:
根据全双工异构蜂窝网络场景建立系统能效模型;
根据系统能效模型以及用户重关联规则构建Sarsa学习中的四个要素,包括:状态空间,动作空间,收益函数,Q值函数;
根据Sarsa学习中的四个要素开始Sarsa学习过程:从状态空间的初始状态s开始,通过贪婪算法选择动作a,系统根据动作a转移到下一个状态s',并获得收益、更新Q值;通过不断的学习以及状态转移,得到每个状态-动作对的Q值累积回报值,直到到达终止状态,得到最优Q值;
根据最优Q值为状态空间中的每个状态选取Q值最大对应的动作作为该状态的最优休眠决策,根据最优休眠策略进行基站休眠;
基站休眠后,根据用户重关联规则对已休眠基站上一时隙中所关联的用户进行重新关联。
进一步的,所述系统能效模型包括:
η=ωηUL+(1-ω)ηDL
其中,η为系统能效,ω为效率权重因子,ηUL为上行信道能效,ηDL为下行信道能效。
进一步的,上行信道的总能效ηUL为异构蜂窝网络中所有用户能效之和与用户终端功耗之比,计算方式如下:
其中,K表示FBS数量,ζi表示基站fi(i≥0)的状态,当基站工作时为1,休眠时为0;表示当前基站fi(i≥0)所服务的用户集合;表示用户u到基站fi(i≥0)之间的距离,PUE表示用户终端的功耗,W表示系统带宽,表示用户u到基站fi(i≥0)的信干噪比,PCU表示用户终端的固定消耗,ξ表示功率消耗系数,Pu表示用户终端u的传输功率,表示用户u到基站fi(i≥0)之间的路损,表示用户u受到来自基站fi(i≥0)服务的其他用户的干扰,N0表示高斯白噪声信道的功率谱密度。
进一步的,下行信道的总能效ηDL为异构蜂窝网络中所有用户能效之和与基站总功耗之比,计算方式如下:
其中,K表示FBS的数量,ζi表示基站fi(i≥0)的状态,当基站工作时为1,休眠时为0;表示当前基站fi(i≥0)所服务的用户集合;表示用户u到基站fi(i≥0)之间的距离,W表示系统带宽,表示基站到用户的下行信道的信干噪比;表示基站fi(i≥0)的功率放大器的最大传输功率,且表示FBSfi的功率放大器的最大传输功率,φi表示直流到射频的转换因子;表示用户u到基站fi(i≥0)之间的路损,表示基站fi(i≥0)受到其他基站与用户u通信时的干扰,N0表示高斯白噪声信道的功率谱密度;P0表示MBS的动态功耗,且ρ0表示MBS的负载因子,表示宏基站MBS的功率放大器的最大传输功率,φ0表示MBS的直流到射频的转换因子;Pi表示FBSfi的功耗,PS表示FBS处于休眠状态时的功耗,PA表示FBS处于工作状态时的功耗,Pconst表示FBS处于工作状态时的固定功耗,表示FBSfi的功率放大器的最大传输功率,φi表示FBS的直流到射频的转换因子,ρi表示当前FBSfi的负载因子,且ni表示当前FBSfi正在服务的用户数,表示FBSfi的最大用户容量,ξ()表示基站的状态,当基站工作时为1,休眠时为0;nj表示当前FBSfj正在服务的用户数。
进一步的,状态空间中包含所有基站所服务的用户数量,反映基站的状态情况,在t时隙的状态空间S(t)的计算方式为:
进一步的,动作空间中包含异构蜂窝网络中所有基站的动作转移操作,动作转移操作主要包括3种:从工作状态进入休眠状态、从休眠状态进入工作状态、保持原状态不变,系统动作空间A(t)的计算方式包括:
进一步的,当前状态的Q值是从初始状态开始转移到当前状态过程中系统所获得的累积收益值,Q值函数的计算方式如下:
Qt+1(s,a)=(1-αt)Qt(s,a)+αt{R(s,a)+γ*Qt(s',a')}
其中,Qt+1(s,a)表示下一个时隙t+1的状态s对应动作a的Q值,αt表示时隙t的学习率,Qt(s,a)表示当前时隙t状态s对应动作a的Q值,γ为折扣率,R(s,a)表示状态s对应动作a的收益,Qt(s',a')表示当前时隙t状态s'对应动作a'的Q值。
进一步的,所述Sarsa学习过程包括:
输入状态空间S、动作空间A和收益函数R;
初始化Q值Q(s,a),初始化状态s;
在初始化状态s下,采用ε贪婪算法选择行为a,若采用ε贪婪算法无法选择行为a时,根据Q值最大选择行为a;
系统程序记录行为a和回报值R和下一状态s';
在状态s'根据ε贪婪算法选择行为a',否则根据Q值最大选择行为a';
根据Q值函数计算公式更新Q值中的Q(s,a)值;
令s=s',重复上述步骤,直到当前状态s为预先设定的终止状态,Sarsa学习结束,得到最优Q值。
进一步的,所述用户重关联规则包括:当FBS进入休眠状态时,将与FBS关联的用户优先分配给附近的FBSs,若附近的FBSs关联的用户数均超过了FBS的最大负载数,则将剩余用户与MBS关联,若MBS关联的用户数超过了MBS的最大负载数,则不进行关联。
本发明的有益效果:
1.本发明考虑了基站用户数的随机动态变化特性,使FBS的开关决策根据实时用户数的状态变化,区别于传统的静态休眠方法,本发明能够动态的制定基站休眠策略。
2.对基站休眠后的用户采用基于本发明的用户重关联规则,相比于传统的基站休眠方法更符合实际中基站用户数的动态变化的情况,不仅保证了用户服务的连续性,同时也更好地提升了系统能效。
附图说明
下面结合附图和具体实施方式对本发明做进一步详细的说明。
图1为本发明实施例的双层Macro-Femto异构网络环境模型图;
图2为本发明实施例的一种异构蜂窝网络中基于Sarsa学习的基站休眠和用户关联联合优化方法流程图;
图3为本发明实施例的Sarsa学习算法流程图;
图4为本发明实施例的系统的回报函数分析图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例采用双层Macro-Femto异构蜂窝网络,图1所示为建立的双层Macro-Femto异构蜂窝网络环境模型图,双层Macro-femto的异构蜂窝网络的基站集合为F={f0,f1,…,fk,…fK},其中,f0表示宏基站(MBS),f1,f2,…,fk,…fK表示K个家庭基站(FBS),第i个家庭基站FBS当前服务的用户数集合为Ufi(i∈(0,K)),K表示FBS的数量。假设系统采用非正交多址接入(OFDMA)技术,每个用户被服务时占用W的带宽,MBS服务的用户只会受到来自MBS服务的其他用户的干扰,FBS服务的用户只会受到同一个FBS服务的其他用户的干扰,来自其他基站服务的用户的干扰忽略不计。基站和用户的随机分布服从泊松分布。
图2为本发明实施例的一种异构蜂窝网络中基于Sarsa学习的基站休眠方法流程图,该方法通过进行Sarsa学习过程制定FBS的动态休眠策略,比模式固定的静态休眠方法更实用有效,此外,该方法的用户重关联规则能够在基站休眠后对其关联的用户进行重新关联,使之充分利用FBS的资源,保证用户服务的连续性,提升系统能效。该方法包含但不限于如下步骤:
根据全双工异构蜂窝网络场景建立系统能效模型。
根据全双工异构蜂窝网络场景,建立系统能效模型作为Sarsa学习算法的优化目标,所述系统能效模型为:
η=ωηUL+(1-ω)ηDL
其中,η为系统能效,ω为效率权重因子,ηUL为上行信道能效,ηDL为下行信道能效。
上行信道能效ηUL的计算方式包括:当基站fi(i≥0)和用户u进行全双工通信时,用户到基站的上行信道的信干噪比SINRUL为:
其中,表示用户u到基站fi(i≥0)的信干噪比,Pu表示用户终端u的传输功率,表示用户u到基站fi(i≥0)之间的路损,表示用户u受到来自基站fi(i≥0)服务的其他用户的干扰,N0表示高斯白噪声信道的功率谱密度,W表示系统带宽,表示用户u到基站fi(i≥0)之间的距离,α表示路损指数,表示当前基站fi(i≥0)所服务的用户集合,Pm表示户终端m的传输功率,表示用户m到基站fi(i≥0)之间的路损。
用户终端的功耗模型如下式所示:
PUE=PCU+ξPu
其中,PUE表示用户终端的功耗,PCU表示用户终端的固定消耗,ξ表示功率消耗系数,Pu表示用户终端u的传输功率。
用户u的能效为:
则上行信道的总能效为异构蜂窝网络中所有用户能效之和与用户终端功耗之比,计算方式如下:
其中,ζi表示基站fi(i≥0)的状态,当基站工作时为1,休眠时为0。
下行信道能效ηDL的计算方式包括:基站fi(i≥0)与用户u进行全双工通信时,基站到用户的下行信道的信干噪比SINRDL为:
式中,表示基站到用户的下行信道的信干噪比,简化为SINRDL,表示基站fi(i≥0)的功率放大器的最大传输功率,且表示FBSfi的功率放大器的最大传输功率,φi表示直流到射频的转换因子;表示用户u到基站fi(i≥0)之间的路损,表示基站fi(i≥0)受到其他基站与用户u通信时的干扰,N0表示高斯白噪声信道的功率谱密度,W表示系统带宽,表示用户u到基站fi(i≥0)之间的距离,α表示路损指数,K表示FBS的数量,ξi表示基站fi(i≥0)的状态,当其开启为1,关闭为0;Pj表示基站fj(j≥0,j≠i),PLj,u表示基站fj(j≥0,j≠i)到用户u之间的路损。
异构蜂窝网络内的基站总功耗为:
其中,P0表示MBS的动态功耗,且ρ0表示MBS的负载因子,表示宏基站MBS的功率放大器的最大传输功率,φ0表示MBS的直流到射频的转换因子;Pi表示FBSfi的功耗,PS表示FBS处于休眠状态时的功耗,PA表示FBS处于工作状态时的功耗,Pconst表示FBS处于工作状态时的固定功耗,表示FBSfi的功率放大器的最大传输功率,φi表示FBS的直流到射频的转换因子,ρi表示当前FBSfi的负载因子,且ni表示当前FBSfi正在服务的用户数,表示FBSfi的最大用户容量。
下行信道的总能效为异构蜂窝网络中所有用户能效之和与基站总功耗之比,计算方式如下:
根据系统能效模型以及用户重关联规则获得Sarsa学习中的四个要素,Sarsa学习过程的四个要素分别是:状态空间,动作空间,收益函数R,Q值函数。
在一个实施例中,系统通过从环境中进行信息的感知得到异构蜂窝网络中每个基站所服务的用户数量,所述状态空间S(t)用于存储每个状态下各个基站服务的用户数量,状态空间可以通过基站所服务的用户数量从而反映基站的状态情况。例如:系统中有4个基站,设置每个基站的最大用户数为10,状态空间:每个基站内的用户数包括{-1,0,1,……10},有12个状态,4个基站的状态空间为一个124的矩阵。基站的状态包括休眠状态和工作状态,当基站下关联有请求服务的用户时,基站处于工作状态并持续为所请求服务的用户终端提供相应服务;当基站下没有关联的请求服务的用户时,的值为-1,基站处于休眠状态。具体地,在t时隙的状态集合S(t)为:
在一个实施例中,所述动作空间A(t)中体现异构蜂窝网络中所有基站的动作转移操作,动作转移操作主要包括3种:从工作状态进去休眠状态、从休眠状态进入工作状态、保持原状态不变。动作转移操作主要是对FBS的状态进行控制,即由休眠状态转为工作状态或由工作状态转为休眠状态,FBS的状态发生变化后,基站服务的用户数也发生改变,即系统状态发生转移。
所述系统动作空间A(t)包括:
其中,表示在tk时隙的起始时刻对FBSfi的行为控制决策,其取值含义为:ai(tk)=-1表示FBSfi进入休眠状态;ai(tk)=0表示FBSfi保持状态不变;ai(tk)=1表示FBSfi进入工作状态。
在一个实施例中,系统在当前状态S下采取动作a(tk)进行状态转移操作时,为了提升系统能效,将系统由当前状态成功转移到另一状态s′过程中的系统能效作为系统的收益函数R,即将系统能耗模型作为系统的收益函数R。从当前状态s采取动作a(tk)转移到另一状态s'时,某些FBS可能被关闭进入休眠状态,另一些FBS可能被开启进入工作状态,导致部分用户可能会转移至MBS或者FBSfi进行服务,因此在一个系统状态转移过程中所有基站的用户数都会变化。所述系统的收益函数R为:
在一个实施例中,所述Sarsa学习过程的Q值函数用来预测环境中的未来收益。每个状态的Q值是从初始状态开始转移到该状态的过程中系统所获得的累积收益值,即当前状态的Q值=过去所有状态的Q值的加权累积和。Q值函数的计算方式如下:
Qt+1(s,a)=(1-αt)Qt(s,a)+αt{R(s,a)+γ*Qt(s',a')}
其中,Qt+1(s,a)表示下一个时隙t+1的状态s对应动作a的Q值,αt表示时隙t的学习率,且αt设置成很小的正值(αt<<1)使得动作值可以收敛,Qt(s,a)表示当前时隙t状态s对应动作a的Q值,γ为折扣率,R(s,a)表示状态s对应动作a的收益,Qt(s',a')表示当前时隙t状态s'对应动作a'的Q值,R(s,a)+γ*Qt(s',a')是从下一组状态中获得的折扣收益最大值。
Sarsa学习系统根据迭代后的累积值函数(Q值函数)来选择动作,一般选择累积值函数最大时相对应的动作。
根据Sarsa学习中的四个要素,开始Sarsa学习过程:从状态空间的初始状态s开始,基站通过贪婪算法选择动作a,系统根据选择的动作a进行相应的动作转移操作,动作转移过程中,基站状态会发生变化,基站所服务的用户也会相应发生变化,系统随着这些变化转移到下一个状态s',获得收益,根据Qt+1(s,a)=(1-αt)Qt(s,a)+αt{R(s,a)+γ*Qt(s',a')}更新Q值。在状态s'下,基站通过贪婪算法选择动作a'并作用于系统进行相应的动作转移操作,转移到下一个状态s”,获得收益,更新Q值。……通过不断的学习以及状态转移,得到每个状态-动作对的Q值累积回报值,直到到达在开始Sarsa学习时设置的终止状态,得到最优Q值。
基站通过贪婪算法为初始状态s选择动作a并作用于系统的具体实现方式如下:
本实例用ε贪婪算法作为动作选择策略,ε贪婪算法是基于贪婪算法的改进策略。在本发明实施例的ε贪婪算法中,系统有1-ε的概率选择当前状态下使Q值最大的动作,有ε的概率选择其他动作。
如图3所示,在一个实施例中,利用Sarsa学习算法得到最优Q值包括:根据每个基站的最大用户数设置状态空间S、动作空间A和收益函数R;初始化Q值Q(s,a),初始化状态s;在初始化状态s下,采用ε贪婪算法选择行为a,若采用ε贪婪算法无法选择行为时,则采用Q值最大选择行为a;根据Q值最大选择行为a的表达式为:a=argmaxaQt(s,a);系统程序记录行为a和回报值R和下一状态s';在状态s'根据ε贪婪算法选择行为a',否则根据Q值最大选择行为a';根据Qt+1(s,a)=(1-αt)Qt(s,a)+αt{R(s,a)+γ*Qt(s',a')}更新Q值中的Q(s,a)值;令s=s',重复上述步骤,直到当前状态s为预先设定的终止状态,Sarsa学习结束,经过Sarsa学习过程中不断迭代Q值中的Q(s,a)值,得到最优Q值,Q值中的每个Q(s,a)值都是累积收益值,从而可以根据最优Q值做出基站休眠的决策。
根据最优Q值从状态空间中的每个状态选取Q值最大对应的动作作为该状态的最优休眠决策。
根据最优Q值,得到最优休眠策略π*(s),所述FBSfi的最优休眠策略π*(s)包括:
其中,γ为折扣率,αt是时隙t的学习率,且αt设置成很小的正值(αt<<1)使得动作值可以收敛。R(s,a,s')+γ*Qt(s',a')是从下一组状态中获得的折扣收益最大值。
基站休眠后,根据用户重关联规则对该休眠基站上一时隙中所关联的用户进行重新关联。
所述用户重关联规则包括:当FBS进入休眠状态时前一时隙与其关联的用户优先分配给附近的FBSs,若附近的FBSs关联的用户数均超过了FBS的最大负载数,则将剩余用户与MBS关联,若MBS关联的用户数超过了MBS的最大负载数,则不进行关联。
为了进一步说明本发明所述方法的有效性,图4为Matlab环境下本发明与现有技术系统能效随着效用权重因子的对比仿真图。仿真主要参数设置如下,系统有两个家庭基站处于宏基站覆盖范围下,
φf=0.045,Pconst=4.8w,PS=0.3w,N0=10-7w/Hz,W=1MHz,α=3.4。图中SWS算法为L.Saker等人在文献Optimal Control of Wake UpMechanisms of Femtocells in Heterogeneous Networks中提出的基站休眠算法,本发明中称之为“SWS休眠策略”,该方法采用了马尔科夫决策过程(Markov Decision Process,MDP)思想,但具体建模与本发明完全不同,该算法基于模型分析系统,在小基站的负载不是很高时,宏基站可以在为用户提供服务的同时独自处理流量时,小基站被关闭。从图中可以看出,本发明提出的算法称作“OSS休眠策略”相比于SWS算法系统能效更高,因为基于无模型动态分析系统,灵活使用基站休眠策略,一定程度上提升系统能效,SWS算法基于模型分析系统并不能适应用户的随机分布。
本发明充分考虑了基站下用户数的动态变化,使用Sarsa学习模型建模成动态FBS休眠策略,相比模式固定的静态休眠方法更实用有效;此外,对于基站休眠后用户的关联问题采用本发明的用户关联机制进行处理,使之充分利用FBS的资源,保证用户服务的连续性,提升系统能效。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。
以上所举实施例,对本发明的目的、技术方案和优点进行了进一步的详细说明,所应理解的是,以上所举实施例仅为本发明的优选实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种异构蜂窝网络中基于Sarsa学习的基站休眠方法,其特征在于,包括以下步骤:
根据全双工异构蜂窝网络场景建立系统能效模型;所述系统能效模型包括:
η=ωηUL+(1-ω)ηDL
其中,η为系统能效,ω为效率权重因子,ηUL为上行信道的总能效,ηDL为下行信道的总能效;
上行信道的总能效ηUL为异构蜂窝网络中所有用户能效之和与用户终端功耗之比,计算方式如下:
其中,K表示FBS数量,ζi表示基站fi(i≥0)的状态,当基站工作时为1,休眠时为0;表示当前基站fi(i≥0)所服务的用户集合;表示用户u到基站fi(i≥0)之间的距离,PUE表示用户终端的功耗,W表示系统带宽,表示用户u到基站fi(i≥0)的信干噪比,PCU表示用户终端的固定消耗,ξ表示功率消耗系数,Pu表示用户终端u的传输功率,表示用户u到基站fi(i≥0)之间的路损,表示用户u受到来自基站fi(i≥0)服务的其他用户的干扰,N0表示高斯白噪声信道的功率谱密度;
下行信道的总能效ηDL为异构蜂窝网络中所有用户能效之和与基站总功耗之比,计算方式如下:
其中,K表示FBS的数量,ζi表示基站fi(i≥0)的状态,当基站工作时为1,休眠时为0;表示当前基站fi(i≥0)所服务的用户集合;表示用户u到基站fi(i≥0)之间的距离,W表示系统带宽,表示基站到用户的下行信道的信干噪比;表示基站fi(i≥0)的功率放大器的最大传输功率,且Pi max表示FBS fi的功率放大器的最大传输功率,φi表示直流到射频的转换因子;表示用户u到基站fi(i≥0)之间的路损,表示基站fi(i≥0)受到其他基站与用户u通信时的干扰,N0表示高斯白噪声信道的功率谱密度;P0表示MBS的动态功耗,且ρ0表示MBS的负载因子,表示宏基站MBS的功率放大器的最大传输功率,φ0表示MBS的直流到射频的转换因子;Pi表示FBS fi的功耗,PS表示FBS处于休眠状态时的功耗,PA表示FBS处于工作状态时的功耗,Pconst表示FBS处于工作状态时的固定功耗,Pi max表示FBS fi的功率放大器的最大传输功率,φi表示FBS的直流到射频的转换因子,ρi表示当前FBS fi的负载因子,且ni表示当前FBS fi正在服务的用户数,表示FBS fi的最大用户容量,ξ()表示基站的状态,当基站工作时为1,休眠时为0;nj表示当前FBS fj正在服务的用户数;
根据系统能效模型以及用户重关联规则构建Sarsa学习中的四个要素,包括:状态空间,动作空间,收益函数,Q值函数;
其中,所述用户重关联规则包括:当FBS进入休眠状态时,将与FBS关联的用户优先分配给附近的FBSs,若附近的FBSs关联的用户数均超过了FBS的最大负载数,则将剩余用户与MBS关联,若MBS关联的用户数超过了MBS的最大负载数,则不进行关联;
根据Sarsa学习中的四个要素开始Sarsa学习过程:从状态空间的初始状态s开始,通过贪婪算法选择动作a,系统根据动作a转移到下一个状态s',并获得收益、更新Q值;通过不断的学习以及状态转移,得到每个状态-动作对的Q值累积回报值,直到到达终止状态,得到最优Q值;
根据最优Q值为状态空间中的每个状态选取Q值最大对应的动作作为该状态的最优休眠决策,根据最优休眠策略进行基站休眠;
基站休眠后,根据用户重关联规则对已休眠基站上一时隙中所关联的用户进行重新关联。
4.根据权利要求1所述的一种异构蜂窝网络中基于Sarsa学习的基站休眠方法,其特征在于,当前状态的Q值是从初始状态开始转移到当前状态过程中系统所获得的累积收益值,Q值函数的计算方式如下:
Qt+1(s,a)=(1-αt)Qt(s,a)+αt{R(s,a)+γ*Qt(s',a')}
其中,Qt+1(s,a)表示下一个时隙t+1的状态s对应动作a的Q值,αt表示时隙t的学习率,Qt(s,a)表示当前时隙t状态s对应动作a的Q值,γ为折扣率,R(s,a)表示状态s对应动作a的收益,Qt(s',a')表示当前时隙t状态s'对应动作a'的Q值。
5.根据权利要求1所述的一种异构蜂窝网络中基于Sarsa学习的基站休眠方法,其特征在于,所述Sarsa学习过程包括:
输入状态空间S、动作空间A和收益函数R;
初始化Q值Q(s,a),初始化状态s;
在初始化状态s下,采用ε贪婪算法选择行为a,若采用ε贪婪算法无法选择行为a时,根据Q值最大选择行为a;
系统程序记录行为a和回报值R和下一状态s';
在状态s'根据ε贪婪算法选择行为a',否则根据Q值最大选择行为a';
根据Q值函数计算公式更新Q值中的Q(s,a)值;
令s=s',重复上述步骤,直到当前状态s为预先设定的终止状态,Sarsa学习结束,得到最优Q值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010184627.2A CN111405646B (zh) | 2020-03-17 | 2020-03-17 | 异构蜂窝网络中基于Sarsa学习的基站休眠方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010184627.2A CN111405646B (zh) | 2020-03-17 | 2020-03-17 | 异构蜂窝网络中基于Sarsa学习的基站休眠方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111405646A CN111405646A (zh) | 2020-07-10 |
CN111405646B true CN111405646B (zh) | 2022-06-03 |
Family
ID=71413425
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010184627.2A Active CN111405646B (zh) | 2020-03-17 | 2020-03-17 | 异构蜂窝网络中基于Sarsa学习的基站休眠方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111405646B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112788569B (zh) * | 2020-12-31 | 2022-09-02 | 中通服咨询设计研究院有限公司 | 无线供能蜂窝物联网中全双工基站的联合休眠与关联方法 |
CN114189877B (zh) * | 2021-12-06 | 2023-09-15 | 天津大学 | 一种面向5g基站的复合式能耗优化控制方法 |
CN114679772B (zh) * | 2022-04-15 | 2023-11-24 | 天津大学 | 一种基于用户关联的5g基站自寻优休眠方法及装置 |
CN115066006A (zh) * | 2022-05-28 | 2022-09-16 | 哈尔滨工业大学 | 一种基于强化学习的基站休眠方法、设备和介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108055678A (zh) * | 2018-02-26 | 2018-05-18 | 重庆邮电大学 | 异构蜂窝网络中基于smdp的家庭基站休眠方法 |
CN108701260A (zh) * | 2015-11-27 | 2018-10-23 | 泰勒斯公司 | 用于辅助决策的系统和方法 |
CN109474664A (zh) * | 2018-09-28 | 2019-03-15 | 北京邮电大学 | 一种异构无线网络中的主动预缓存方法及装置 |
CN109831808A (zh) * | 2019-02-25 | 2019-05-31 | 重庆邮电大学 | 一种基于机器学习的混合供电c-ran的资源分配方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR3075409B1 (fr) * | 2017-12-15 | 2020-01-03 | Commissariat A L'energie Atomique Et Aux Energies Alternatives | Dispositif electronique de traitement de signaux a optimisation integree de consommation d'energie electrique et procede correspondant |
-
2020
- 2020-03-17 CN CN202010184627.2A patent/CN111405646B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108701260A (zh) * | 2015-11-27 | 2018-10-23 | 泰勒斯公司 | 用于辅助决策的系统和方法 |
CN108055678A (zh) * | 2018-02-26 | 2018-05-18 | 重庆邮电大学 | 异构蜂窝网络中基于smdp的家庭基站休眠方法 |
CN109474664A (zh) * | 2018-09-28 | 2019-03-15 | 北京邮电大学 | 一种异构无线网络中的主动预缓存方法及装置 |
CN109831808A (zh) * | 2019-02-25 | 2019-05-31 | 重庆邮电大学 | 一种基于机器学习的混合供电c-ran的资源分配方法 |
Non-Patent Citations (3)
Title |
---|
Almuthanna Nassar.Reinforcement Learning for Traffic-Adaptive Sleep Mode Management in 5G Networks.《IEEE》.2019, * |
Qingmin Wang,F. Richard Yu,Yi Sun.Optimal joint base station and user equipment (BS-UE) admission control for energy-efficient green wireless cellular networks.《IEEE》.2013, * |
陈夏冰等.基于模糊神经网络Sarsa学习的多机器人任务分配.《计算机应用与软件》.2012,(第12期), * |
Also Published As
Publication number | Publication date |
---|---|
CN111405646A (zh) | 2020-07-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111405646B (zh) | 异构蜂窝网络中基于Sarsa学习的基站休眠方法 | |
CN109947545B (zh) | 一种基于用户移动性的任务卸载及迁移的决策方法 | |
Gong et al. | Base station sleeping and resource allocation in renewable energy powered cellular networks | |
Bousia et al. | " Green" distance-aware base station sleeping algorithm in LTE-Advanced | |
Wei et al. | Joint user scheduling and content caching strategy for mobile edge networks using deep reinforcement learning | |
CN109474980A (zh) | 一种基于深度增强学习的无线网络资源分配方法 | |
CN106604401B (zh) | 一种异构网络中的资源分配方法 | |
CN108322938B (zh) | 超密集组网下基于双层非合作博弈理论的功率分配方法及其建模方法 | |
Liu et al. | Deep reinforcement learning based dynamic resource allocation in 5G ultra-dense networks | |
CN109831819B (zh) | 一种基于异构蜂窝网络分簇smdp基站休眠方法 | |
CN114615730B (zh) | 回程受限密集无线网络面向内容覆盖的功率分配方法 | |
Munir et al. | A game theoretical network-assisted user-centric design for resource allocation in 5G heterogeneous networks | |
Asuhaimi et al. | Channel access and power control for energy-efficient delay-aware heterogeneous cellular networks for smart grid communications using deep reinforcement learning | |
CN104378772A (zh) | 一种蜂窝网络中面向小区无定形覆盖的小基站部署方法 | |
Malta et al. | Using reinforcement learning to reduce energy consumption of ultra-dense networks with 5G use cases requirements | |
Dlamini et al. | Online resource management in energy harvesting BS sites through prediction and soft-scaling of computing resources | |
AlSobhi et al. | QoS-aware resource allocation of two-tier HetNet: A Q-learning approach | |
CN105407520B (zh) | 一种集中式基站休眠决策方法及休眠系统 | |
Li et al. | An energy-effective network deployment scheme for 5G Cloud Radio Access Networks | |
Yao et al. | Data-driven resource allocation with traffic load prediction | |
Gu et al. | Traffic offloading and power allocation for green HetNets using reinforcement learning method | |
CN111065121B (zh) | 一种考虑小区差异的密集网络能耗及能效联合优化方法 | |
Ziaeddini et al. | An optimized multi-layer resource management in mobile edge computing networks: a joint computation offloading and caching solution | |
CN108965034A (zh) | 小小区基站超密集部署下的用户关联到网络的方法 | |
Sun et al. | Autonomous cell activation for energy saving in cloud-RANs based on dueling deep Q-network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |