CN111405646B - 异构蜂窝网络中基于Sarsa学习的基站休眠方法 - Google Patents

异构蜂窝网络中基于Sarsa学习的基站休眠方法 Download PDF

Info

Publication number
CN111405646B
CN111405646B CN202010184627.2A CN202010184627A CN111405646B CN 111405646 B CN111405646 B CN 111405646B CN 202010184627 A CN202010184627 A CN 202010184627A CN 111405646 B CN111405646 B CN 111405646B
Authority
CN
China
Prior art keywords
state
base station
fbs
value
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010184627.2A
Other languages
English (en)
Other versions
CN111405646A (zh
Inventor
吴静
李云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202010184627.2A priority Critical patent/CN111405646B/zh
Publication of CN111405646A publication Critical patent/CN111405646A/zh
Application granted granted Critical
Publication of CN111405646B publication Critical patent/CN111405646B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/02Power saving arrangements
    • H04W52/0203Power saving arrangements in the radio access network or backbone network of wireless communication networks
    • H04W52/0206Power saving arrangements in the radio access network or backbone network of wireless communication networks in access points, e.g. base stations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • H04W52/18TPC being performed according to specific parameters
    • H04W52/24TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • H04W52/18TPC being performed according to specific parameters
    • H04W52/24TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters
    • H04W52/241TPC being performed according to specific parameters using SIR [Signal to Interference Ratio] or other wireless path parameters taking into account channel quality metrics, e.g. SIR, SNR, CIR, Eb/lo
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明涉及异构蜂窝网络领域,具体涉及一种异构蜂窝网络中基于Sarsa学习的基站休眠方法,所述方法包括:建立系统能效模型;根据系统模型、能效模型以及用户重关联规则构建Sarsa学习中的四个要素;通过Sarsa学习模型求解每个状态的最优休眠决策;本发明相比于传统的基站休眠方法采用了无模型的方法,适用于现实生活中用户分布的多态性和复杂性,并且考虑了休眠基站所服务的用户的重关联保证用户的服务连续性,提出了基于Sarsa学习的FBS动态休眠策略,最大化累积回报值,达到提升网络能效的目的。

Description

异构蜂窝网络中基于Sarsa学习的基站休眠方法
技术领域
本发明涉及异构蜂窝网络技术域,具体涉及一种异构蜂窝网络中基于Sarsa学习的基站休眠方法。
背景技术
第五代通信技术(5G)是面向2020年以后移动通信需求而发展的新一代移动通信系统。随着5G时代的到来,移动用户数量和移动业务量的快速增长对蜂窝移动通信系统的容量提出了巨大的需求,同时,物联网、虚拟现实等应用的快速发展迫切需要移动通信系统提供差异化服务。采用小基站和宏基站重叠覆盖的异构蜂窝网络结构是应对上诉问题的重要途径,也是新一代移动通信的关键技术之一。移动互联网的快速发展给人们带来了全新的上网体验,在学习上、工作上、生活上全方位的影响着人们,由此带来的是宏基站和小基站的大量部署,然而用户分布的多态性,以及连接基站的不确定性,导致大量小基站的负载呈现一种不确定性,但是大多数小基站为了保证用户服务质量都保持在工作状态,带来的是能耗的增加。随着移动通信网络规模的增大,如何节约能源的消耗,提高网络能效已经成为网络优化的重要解决部分。
现有的基站休眠技术研究中,大多数是一种基于模型的公式推导和分析,现实世界中用户与基站的分布复杂性在简单易处理的模型中并不能很好的体现,使得模型难以在现实生活中合理应用。
发明内容
为了解决上述传统的基站休眠方法很难适应实际中基站用户数随机动态变化的问题,本发明采用双层Macro-Femto异构蜂窝网络,同时考虑基站所服务的用户数的随机动态变化、基站休眠和用户关联的相互影响,采用无模型的Sarsa强化学习方法进行基站休眠和用户关联联合优化,最大化Sarsa学习的累积回报,提供一种异构蜂窝网络中基于Sarsa学习的基站休眠方法,能够达到提升网络能效的目的,相比于传统的基站休眠方法更符合实际中基站用户数随机的动态变化的情况。
一种异构蜂窝网络中基于Sarsa学习的基站休眠方法,包括以下步骤:
根据全双工异构蜂窝网络场景建立系统能效模型;
根据系统能效模型以及用户重关联规则构建Sarsa学习中的四个要素,包括:状态空间,动作空间,收益函数,Q值函数;
根据Sarsa学习中的四个要素开始Sarsa学习过程:从状态空间的初始状态s开始,通过贪婪算法选择动作a,系统根据动作a转移到下一个状态s',并获得收益、更新Q值;通过不断的学习以及状态转移,得到每个状态-动作对的Q值累积回报值,直到到达终止状态,得到最优Q值;
根据最优Q值为状态空间中的每个状态选取Q值最大对应的动作作为该状态的最优休眠决策,根据最优休眠策略进行基站休眠;
基站休眠后,根据用户重关联规则对已休眠基站上一时隙中所关联的用户进行重新关联。
进一步的,所述系统能效模型包括:
η=ωηUL+(1-ω)ηDL
其中,η为系统能效,ω为效率权重因子,ηUL为上行信道能效,ηDL为下行信道能效。
进一步的,上行信道的总能效ηUL为异构蜂窝网络中所有用户能效之和与用户终端功耗之比,计算方式如下:
Figure BDA0002413699000000021
其中,K表示FBS数量,ζi表示基站fi(i≥0)的状态,当基站工作时为1,休眠时为0;
Figure BDA0002413699000000022
表示当前基站fi(i≥0)所服务的用户集合;
Figure BDA0002413699000000023
表示用户u到基站fi(i≥0)之间的距离,PUE表示用户终端的功耗,W表示系统带宽,
Figure BDA0002413699000000038
表示用户u到基站fi(i≥0)的信干噪比,PCU表示用户终端的固定消耗,ξ表示功率消耗系数,Pu表示用户终端u的传输功率,
Figure BDA00024136990000000312
表示用户u到基站fi(i≥0)之间的路损,
Figure BDA00024136990000000313
表示用户u受到来自基站fi(i≥0)服务的其他用户的干扰,N0表示高斯白噪声信道的功率谱密度。
进一步的,下行信道的总能效ηDL为异构蜂窝网络中所有用户能效之和与基站总功耗之比,计算方式如下:
Figure BDA0002413699000000031
其中,K表示FBS的数量,ζi表示基站fi(i≥0)的状态,当基站工作时为1,休眠时为0;
Figure BDA00024136990000000314
表示当前基站fi(i≥0)所服务的用户集合;
Figure BDA00024136990000000315
表示用户u到基站fi(i≥0)之间的距离,W表示系统带宽,
Figure BDA0002413699000000039
表示基站到用户的下行信道的信干噪比;
Figure BDA00024136990000000311
表示基站fi(i≥0)的功率放大器的最大传输功率,且
Figure BDA0002413699000000033
表示FBSfi的功率放大器的最大传输功率,φi表示直流到射频的转换因子;
Figure BDA0002413699000000034
表示用户u到基站fi(i≥0)之间的路损,
Figure BDA00024136990000000310
表示基站fi(i≥0)受到其他基站与用户u通信时的干扰,N0表示高斯白噪声信道的功率谱密度;P0表示MBS的动态功耗,且
Figure BDA0002413699000000035
ρ0表示MBS的负载因子,
Figure BDA0002413699000000036
表示宏基站MBS的功率放大器的最大传输功率,φ0表示MBS的直流到射频的转换因子;Pi表示FBSfi的功耗,
Figure BDA0002413699000000037
PS表示FBS处于休眠状态时的功耗,PA表示FBS处于工作状态时的功耗,Pconst表示FBS处于工作状态时的固定功耗,
Figure BDA0002413699000000041
表示FBSfi的功率放大器的最大传输功率,φi表示FBS的直流到射频的转换因子,ρi表示当前FBSfi的负载因子,且
Figure BDA0002413699000000042
ni表示当前FBSfi正在服务的用户数,
Figure BDA0002413699000000043
表示FBSfi的最大用户容量,ξ()表示基站的状态,当基站工作时为1,休眠时为0;nj表示当前FBSfj正在服务的用户数。
进一步的,状态空间中包含所有基站所服务的用户数量,反映基站的状态情况,在t时隙的状态空间S(t)的计算方式为:
Figure BDA00024136990000000413
其中,n0(t)为t时隙MBS服务的用户数,
Figure BDA0002413699000000044
表示MBS能服务的最大用户数,
Figure BDA0002413699000000045
表示t时隙FBS fi(i≥1)服务的用户数,
Figure BDA0002413699000000046
Figure BDA0002413699000000047
表示FBSfi(i≥1)能服务的最大用户数。
进一步的,动作空间中包含异构蜂窝网络中所有基站的动作转移操作,动作转移操作主要包括3种:从工作状态进入休眠状态、从休眠状态进入工作状态、保持原状态不变,系统动作空间A(t)的计算方式包括:
Figure BDA0002413699000000048
其中,动作
Figure BDA0002413699000000049
为在时隙t控制基站FBSfi(i≥1)的开关,当
Figure BDA00024136990000000410
时,FBS fi(i≥1)进入休眠状态,当
Figure BDA00024136990000000411
时,FBSfi(i≥1)进入工作状态,当
Figure BDA00024136990000000412
时,FBSfi(i≥1)保持状态不变,K表示FBS的数量。
进一步的,当前状态的Q值是从初始状态开始转移到当前状态过程中系统所获得的累积收益值,Q值函数的计算方式如下:
Qt+1(s,a)=(1-αt)Qt(s,a)+αt{R(s,a)+γ*Qt(s',a')}
其中,Qt+1(s,a)表示下一个时隙t+1的状态s对应动作a的Q值,αt表示时隙t的学习率,Qt(s,a)表示当前时隙t状态s对应动作a的Q值,γ为折扣率,R(s,a)表示状态s对应动作a的收益,Qt(s',a')表示当前时隙t状态s'对应动作a'的Q值。
进一步的,所述Sarsa学习过程包括:
输入状态空间S、动作空间A和收益函数R;
初始化Q值Q(s,a),初始化状态s;
在初始化状态s下,采用ε贪婪算法选择行为a,若采用ε贪婪算法无法选择行为a时,根据Q值最大选择行为a;
系统程序记录行为a和回报值R和下一状态s';
在状态s'根据ε贪婪算法选择行为a',否则根据Q值最大选择行为a';
根据Q值函数计算公式更新Q值中的Q(s,a)值;
令s=s',重复上述步骤,直到当前状态s为预先设定的终止状态,Sarsa学习结束,得到最优Q值。
进一步的,所述用户重关联规则包括:当FBS进入休眠状态时,将与FBS关联的用户优先分配给附近的FBSs,若附近的FBSs关联的用户数均超过了FBS的最大负载数,则将剩余用户与MBS关联,若MBS关联的用户数超过了MBS的最大负载数,则不进行关联。
本发明的有益效果:
1.本发明考虑了基站用户数的随机动态变化特性,使FBS的开关决策根据实时用户数的状态变化,区别于传统的静态休眠方法,本发明能够动态的制定基站休眠策略。
2.对基站休眠后的用户采用基于本发明的用户重关联规则,相比于传统的基站休眠方法更符合实际中基站用户数的动态变化的情况,不仅保证了用户服务的连续性,同时也更好地提升了系统能效。
附图说明
下面结合附图和具体实施方式对本发明做进一步详细的说明。
图1为本发明实施例的双层Macro-Femto异构网络环境模型图;
图2为本发明实施例的一种异构蜂窝网络中基于Sarsa学习的基站休眠和用户关联联合优化方法流程图;
图3为本发明实施例的Sarsa学习算法流程图;
图4为本发明实施例的系统的回报函数分析图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例采用双层Macro-Femto异构蜂窝网络,图1所示为建立的双层Macro-Femto异构蜂窝网络环境模型图,双层Macro-femto的异构蜂窝网络的基站集合为F={f0,f1,…,fk,…fK},其中,f0表示宏基站(MBS),f1,f2,…,fk,…fK表示K个家庭基站(FBS),第i个家庭基站FBS当前服务的用户数集合为Ufi(i∈(0,K)),K表示FBS的数量。假设系统采用非正交多址接入(OFDMA)技术,每个用户被服务时占用W的带宽,MBS服务的用户只会受到来自MBS服务的其他用户的干扰,FBS服务的用户只会受到同一个FBS服务的其他用户的干扰,来自其他基站服务的用户的干扰忽略不计。基站和用户的随机分布服从泊松分布。
图2为本发明实施例的一种异构蜂窝网络中基于Sarsa学习的基站休眠方法流程图,该方法通过进行Sarsa学习过程制定FBS的动态休眠策略,比模式固定的静态休眠方法更实用有效,此外,该方法的用户重关联规则能够在基站休眠后对其关联的用户进行重新关联,使之充分利用FBS的资源,保证用户服务的连续性,提升系统能效。该方法包含但不限于如下步骤:
根据全双工异构蜂窝网络场景建立系统能效模型。
根据全双工异构蜂窝网络场景,建立系统能效模型作为Sarsa学习算法的优化目标,所述系统能效模型为:
η=ωηUL+(1-ω)ηDL
其中,η为系统能效,ω为效率权重因子,ηUL为上行信道能效,ηDL为下行信道能效。
上行信道能效ηUL的计算方式包括:当基站fi(i≥0)和用户u进行全双工通信时,用户到基站的上行信道的信干噪比SINRUL为:
Figure BDA0002413699000000071
Figure BDA0002413699000000072
Figure BDA0002413699000000073
其中,
Figure BDA0002413699000000074
表示用户u到基站fi(i≥0)的信干噪比,Pu表示用户终端u的传输功率,
Figure BDA0002413699000000075
表示用户u到基站fi(i≥0)之间的路损,
Figure BDA0002413699000000076
表示用户u受到来自基站fi(i≥0)服务的其他用户的干扰,N0表示高斯白噪声信道的功率谱密度,W表示系统带宽,
Figure BDA0002413699000000077
表示用户u到基站fi(i≥0)之间的距离,α表示路损指数,
Figure BDA0002413699000000078
表示当前基站fi(i≥0)所服务的用户集合,Pm表示户终端m的传输功率,
Figure BDA0002413699000000079
表示用户m到基站fi(i≥0)之间的路损。
Figure BDA00024136990000000710
表示基站fi(i≥0)服务的用户u的上行吞吐量,表示如下:
Figure BDA00024136990000000711
用户终端的功耗模型如下式所示:
PUE=PCU+ξPu
其中,PUE表示用户终端的功耗,PCU表示用户终端的固定消耗,ξ表示功率消耗系数,Pu表示用户终端u的传输功率。
用户u的能效为:
Figure BDA00024136990000000712
则上行信道的总能效为异构蜂窝网络中所有用户能效之和与用户终端功耗之比,计算方式如下:
Figure BDA0002413699000000081
其中,ζi表示基站fi(i≥0)的状态,当基站工作时为1,休眠时为0。
下行信道能效ηDL的计算方式包括:基站fi(i≥0)与用户u进行全双工通信时,基站到用户的下行信道的信干噪比SINRDL为:
Figure BDA0002413699000000082
Figure BDA0002413699000000083
Figure BDA0002413699000000084
式中,
Figure BDA0002413699000000085
表示基站到用户的下行信道的信干噪比,简化为SINRDL
Figure BDA0002413699000000086
表示基站fi(i≥0)的功率放大器的最大传输功率,且
Figure BDA0002413699000000087
表示FBSfi的功率放大器的最大传输功率,φi表示直流到射频的转换因子;
Figure BDA0002413699000000088
表示用户u到基站fi(i≥0)之间的路损,
Figure BDA0002413699000000089
表示基站fi(i≥0)受到其他基站与用户u通信时的干扰,N0表示高斯白噪声信道的功率谱密度,W表示系统带宽,
Figure BDA00024136990000000810
表示用户u到基站fi(i≥0)之间的距离,α表示路损指数,K表示FBS的数量,ξi表示基站fi(i≥0)的状态,当其开启为1,关闭为0;Pj表示基站fj(j≥0,j≠i),PLj,u表示基站fj(j≥0,j≠i)到用户u之间的路损。
Figure BDA00024136990000000811
表示基站fi(i≥0)服务的用户u的下行吞吐量,表示如下:
Figure BDA00024136990000000812
异构蜂窝网络内的基站总功耗为:
Figure BDA0002413699000000091
其中,P0表示MBS的动态功耗,且
Figure BDA0002413699000000092
ρ0表示MBS的负载因子,
Figure BDA0002413699000000093
表示宏基站MBS的功率放大器的最大传输功率,φ0表示MBS的直流到射频的转换因子;Pi表示FBSfi的功耗,
Figure BDA0002413699000000094
PS表示FBS处于休眠状态时的功耗,PA表示FBS处于工作状态时的功耗,Pconst表示FBS处于工作状态时的固定功耗,
Figure BDA0002413699000000095
表示FBSfi的功率放大器的最大传输功率,φi表示FBS的直流到射频的转换因子,ρi表示当前FBSfi的负载因子,且
Figure BDA0002413699000000096
ni表示当前FBSfi正在服务的用户数,
Figure BDA0002413699000000097
表示FBSfi的最大用户容量。
下行信道的总能效为异构蜂窝网络中所有用户能效之和与基站总功耗之比,计算方式如下:
Figure BDA0002413699000000098
根据系统能效模型以及用户重关联规则获得Sarsa学习中的四个要素,Sarsa学习过程的四个要素分别是:状态空间,动作空间,收益函数R,Q值函数。
在一个实施例中,系统通过从环境中进行信息的感知得到异构蜂窝网络中每个基站所服务的用户数量,所述状态空间S(t)用于存储每个状态下各个基站服务的用户数量,状态空间可以通过基站所服务的用户数量从而反映基站的状态情况。例如:系统中有4个基站,设置每个基站的最大用户数为10,状态空间:每个基站内的用户数包括{-1,0,1,……10},有12个状态,4个基站的状态空间为一个124的矩阵。基站的状态包括休眠状态和工作状态,当基站下关联有请求服务的用户时,
Figure BDA0002413699000000101
基站处于工作状态并持续为所请求服务的用户终端提供相应服务;当基站下没有关联的请求服务的用户时,
Figure BDA0002413699000000102
的值为-1,基站处于休眠状态。具体地,在t时隙的状态集合S(t)为:
Figure BDA0002413699000000103
其中,n0(t)为t时隙MBS服务的用户数,
Figure BDA0002413699000000104
表示MBS能服务的最大用户数,
Figure BDA0002413699000000105
表示t时隙FBS fi(i≥1)服务的用户数,
Figure BDA0002413699000000106
表示FBSfi(i≥1)能服务的最大用户数。
在一个实施例中,所述动作空间A(t)中体现异构蜂窝网络中所有基站的动作转移操作,动作转移操作主要包括3种:从工作状态进去休眠状态、从休眠状态进入工作状态、保持原状态不变。动作转移操作主要是对FBS的状态进行控制,即由休眠状态转为工作状态或由工作状态转为休眠状态,FBS的状态发生变化后,基站服务的用户数也发生改变,即系统状态发生转移。
所述系统动作空间A(t)包括:
Figure BDA0002413699000000107
其中,动作
Figure BDA0002413699000000108
为在时隙t控制基站FBSfi(i≥1)的开关,当
Figure BDA0002413699000000109
时,FBSfi(i≥1)进入休眠状态,当
Figure BDA00024136990000001010
时,FBSfi(i≥1)进入工作状态,当
Figure BDA00024136990000001011
时,FBSfi(i≥1)保持状态不变,具体地:
Figure BDA00024136990000001012
其中,
Figure BDA00024136990000001013
表示在tk时隙的起始时刻对FBSfi的行为控制决策,其取值含义为:ai(tk)=-1表示FBSfi进入休眠状态;ai(tk)=0表示FBSfi保持状态不变;ai(tk)=1表示FBSfi进入工作状态。
在一个实施例中,系统在当前状态S下采取动作a(tk)进行状态转移操作时,为了提升系统能效,将系统由当前状态成功转移到另一状态s′过程中的系统能效作为系统的收益函数R,即将系统能耗模型作为系统的收益函数R。从当前状态s采取动作a(tk)转移到另一状态s'时,某些FBS可能被关闭进入休眠状态,另一些FBS可能被开启进入工作状态,导致部分用户可能会转移至MBS或者FBSfi进行服务,因此在一个系统状态转移过程中所有基站的用户数都会变化。所述系统的收益函数R为:
Figure BDA0002413699000000111
式中,ζi'表示状态s'时BSfi服务的用户情况,当ζi'为1时,表示BSfi服务的用户数大于0,当ζi'为0时,表示BSfi服务的用户数为0;
Figure BDA0002413699000000112
表示状态s'时的BSfi服务的用户集合。
在一个实施例中,所述Sarsa学习过程的Q值函数用来预测环境中的未来收益。每个状态的Q值是从初始状态开始转移到该状态的过程中系统所获得的累积收益值,即当前状态的Q值=过去所有状态的Q值的加权累积和。Q值函数的计算方式如下:
Qt+1(s,a)=(1-αt)Qt(s,a)+αt{R(s,a)+γ*Qt(s',a')}
其中,Qt+1(s,a)表示下一个时隙t+1的状态s对应动作a的Q值,αt表示时隙t的学习率,且αt设置成很小的正值(αt<<1)使得动作值可以收敛,Qt(s,a)表示当前时隙t状态s对应动作a的Q值,γ为折扣率,R(s,a)表示状态s对应动作a的收益,Qt(s',a')表示当前时隙t状态s'对应动作a'的Q值,R(s,a)+γ*Qt(s',a')是从下一组状态中获得的折扣收益最大值。
Sarsa学习系统根据迭代后的累积值函数(Q值函数)来选择动作,一般选择累积值函数最大时相对应的动作。
根据Sarsa学习中的四个要素,开始Sarsa学习过程:从状态空间的初始状态s开始,基站通过贪婪算法选择动作a,系统根据选择的动作a进行相应的动作转移操作,动作转移过程中,基站状态会发生变化,基站所服务的用户也会相应发生变化,系统随着这些变化转移到下一个状态s',获得收益,根据Qt+1(s,a)=(1-αt)Qt(s,a)+αt{R(s,a)+γ*Qt(s',a')}更新Q值。在状态s'下,基站通过贪婪算法选择动作a'并作用于系统进行相应的动作转移操作,转移到下一个状态s”,获得收益,更新Q值。……通过不断的学习以及状态转移,得到每个状态-动作对的Q值累积回报值,直到到达在开始Sarsa学习时设置的终止状态,得到最优Q值。
基站通过贪婪算法为初始状态s选择动作a并作用于系统的具体实现方式如下:
本实例用ε贪婪算法作为动作选择策略,ε贪婪算法是基于贪婪算法的改进策略。在本发明实施例的ε贪婪算法中,系统有1-ε的概率选择当前状态下使Q值最大的动作,有ε的概率选择其他动作。
Figure BDA0002413699000000121
如图3所示,在一个实施例中,利用Sarsa学习算法得到最优Q值包括:根据每个基站的最大用户数设置状态空间S、动作空间A和收益函数R;初始化Q值Q(s,a),初始化状态s;在初始化状态s下,采用ε贪婪算法选择行为a,若采用ε贪婪算法无法选择行为时,则采用Q值最大选择行为a;根据Q值最大选择行为a的表达式为:a=argmaxaQt(s,a);系统程序记录行为a和回报值R和下一状态s';在状态s'根据ε贪婪算法选择行为a',否则根据Q值最大选择行为a';根据Qt+1(s,a)=(1-αt)Qt(s,a)+αt{R(s,a)+γ*Qt(s',a')}更新Q值中的Q(s,a)值;令s=s',重复上述步骤,直到当前状态s为预先设定的终止状态,Sarsa学习结束,经过Sarsa学习过程中不断迭代Q值中的Q(s,a)值,得到最优Q值,Q值中的每个Q(s,a)值都是累积收益值,从而可以根据最优Q值做出基站休眠的决策。
根据最优Q值从状态空间中的每个状态选取Q值最大对应的动作作为该状态的最优休眠决策。
根据最优Q值,得到最优休眠策略π*(s),所述FBSfi的最优休眠策略π*(s)包括:
Figure BDA0002413699000000131
其中,γ为折扣率,αt是时隙t的学习率,且αt设置成很小的正值(αt<<1)使得动作值可以收敛。R(s,a,s')+γ*Qt(s',a')是从下一组状态中获得的折扣收益最大值。
基站休眠后,根据用户重关联规则对该休眠基站上一时隙中所关联的用户进行重新关联。
所述用户重关联规则包括:当FBS进入休眠状态时前一时隙与其关联的用户优先分配给附近的FBSs,若附近的FBSs关联的用户数均超过了FBS的最大负载数,则将剩余用户与MBS关联,若MBS关联的用户数超过了MBS的最大负载数,则不进行关联。
为了进一步说明本发明所述方法的有效性,图4为Matlab环境下本发明与现有技术系统能效随着效用权重因子的对比仿真图。仿真主要参数设置如下,系统有两个家庭基站处于宏基站覆盖范围下,
Figure BDA0002413699000000132
φf=0.045,Pconst=4.8w,PS=0.3w,N0=10-7w/Hz,W=1MHz,α=3.4。图中SWS算法为L.Saker等人在文献Optimal Control of Wake UpMechanisms of Femtocells in Heterogeneous Networks中提出的基站休眠算法,本发明中称之为“SWS休眠策略”,该方法采用了马尔科夫决策过程(Markov Decision Process,MDP)思想,但具体建模与本发明完全不同,该算法基于模型分析系统,在小基站的负载不是很高时,宏基站可以在为用户提供服务的同时独自处理流量时,小基站被关闭。从图中可以看出,本发明提出的算法称作“OSS休眠策略”相比于SWS算法系统能效更高,因为基于无模型动态分析系统,灵活使用基站休眠策略,一定程度上提升系统能效,SWS算法基于模型分析系统并不能适应用户的随机分布。
本发明充分考虑了基站下用户数的动态变化,使用Sarsa学习模型建模成动态FBS休眠策略,相比模式固定的静态休眠方法更实用有效;此外,对于基站休眠后用户的关联问题采用本发明的用户关联机制进行处理,使之充分利用FBS的资源,保证用户服务的连续性,提升系统能效。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。
以上所举实施例,对本发明的目的、技术方案和优点进行了进一步的详细说明,所应理解的是,以上所举实施例仅为本发明的优选实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种异构蜂窝网络中基于Sarsa学习的基站休眠方法,其特征在于,包括以下步骤:
根据全双工异构蜂窝网络场景建立系统能效模型;所述系统能效模型包括:
η=ωηUL+(1-ω)ηDL
其中,η为系统能效,ω为效率权重因子,ηUL为上行信道的总能效,ηDL为下行信道的总能效;
上行信道的总能效ηUL为异构蜂窝网络中所有用户能效之和与用户终端功耗之比,计算方式如下:
Figure FDA0003606910000000011
其中,K表示FBS数量,ζi表示基站fi(i≥0)的状态,当基站工作时为1,休眠时为0;
Figure FDA0003606910000000012
表示当前基站fi(i≥0)所服务的用户集合;
Figure FDA0003606910000000013
表示用户u到基站fi(i≥0)之间的距离,PUE表示用户终端的功耗,W表示系统带宽,
Figure FDA0003606910000000014
表示用户u到基站fi(i≥0)的信干噪比,PCU表示用户终端的固定消耗,ξ表示功率消耗系数,Pu表示用户终端u的传输功率,
Figure FDA0003606910000000015
表示用户u到基站fi(i≥0)之间的路损,
Figure FDA0003606910000000016
表示用户u受到来自基站fi(i≥0)服务的其他用户的干扰,N0表示高斯白噪声信道的功率谱密度;
下行信道的总能效ηDL为异构蜂窝网络中所有用户能效之和与基站总功耗之比,计算方式如下:
Figure FDA0003606910000000021
其中,K表示FBS的数量,ζi表示基站fi(i≥0)的状态,当基站工作时为1,休眠时为0;
Figure FDA0003606910000000022
表示当前基站fi(i≥0)所服务的用户集合;
Figure FDA0003606910000000023
表示用户u到基站fi(i≥0)之间的距离,W表示系统带宽,
Figure FDA0003606910000000024
表示基站到用户的下行信道的信干噪比;
Figure FDA0003606910000000025
表示基站fi(i≥0)的功率放大器的最大传输功率,且
Figure FDA0003606910000000026
Pi max表示FBS fi的功率放大器的最大传输功率,φi表示直流到射频的转换因子;
Figure FDA0003606910000000027
表示用户u到基站fi(i≥0)之间的路损,
Figure FDA0003606910000000028
表示基站fi(i≥0)受到其他基站与用户u通信时的干扰,N0表示高斯白噪声信道的功率谱密度;P0表示MBS的动态功耗,且
Figure FDA0003606910000000029
ρ0表示MBS的负载因子,
Figure FDA00036069100000000210
表示宏基站MBS的功率放大器的最大传输功率,φ0表示MBS的直流到射频的转换因子;Pi表示FBS fi的功耗,
Figure FDA00036069100000000211
PS表示FBS处于休眠状态时的功耗,PA表示FBS处于工作状态时的功耗,Pconst表示FBS处于工作状态时的固定功耗,Pi max表示FBS fi的功率放大器的最大传输功率,φi表示FBS的直流到射频的转换因子,ρi表示当前FBS fi的负载因子,且
Figure FDA00036069100000000212
ni表示当前FBS fi正在服务的用户数,
Figure FDA00036069100000000213
表示FBS fi的最大用户容量,ξ()表示基站的状态,当基站工作时为1,休眠时为0;nj表示当前FBS fj正在服务的用户数;
根据系统能效模型以及用户重关联规则构建Sarsa学习中的四个要素,包括:状态空间,动作空间,收益函数,Q值函数;
其中,所述用户重关联规则包括:当FBS进入休眠状态时,将与FBS关联的用户优先分配给附近的FBSs,若附近的FBSs关联的用户数均超过了FBS的最大负载数,则将剩余用户与MBS关联,若MBS关联的用户数超过了MBS的最大负载数,则不进行关联;
根据Sarsa学习中的四个要素开始Sarsa学习过程:从状态空间的初始状态s开始,通过贪婪算法选择动作a,系统根据动作a转移到下一个状态s',并获得收益、更新Q值;通过不断的学习以及状态转移,得到每个状态-动作对的Q值累积回报值,直到到达终止状态,得到最优Q值;
根据最优Q值为状态空间中的每个状态选取Q值最大对应的动作作为该状态的最优休眠决策,根据最优休眠策略进行基站休眠;
基站休眠后,根据用户重关联规则对已休眠基站上一时隙中所关联的用户进行重新关联。
2.根据权利要求1所述的一种异构蜂窝网络中基于Sarsa学习的基站休眠方法,其特征在于,状态空间中包含所有基站所服务的用户数量,反映基站的状态情况,在t时隙的状态空间S(t)的计算方式为:
Figure FDA0003606910000000031
其中,n0(t)为t时隙MBS服务的用户数,
Figure FDA0003606910000000032
Figure FDA0003606910000000033
表示MBS能服务的最大用户数,
Figure FDA0003606910000000034
表示t时隙FBS fi(i≥1)服务的用户数,
Figure FDA0003606910000000035
Figure FDA0003606910000000036
Figure FDA0003606910000000037
表示FBS fi(i≥1)能服务的最大用户数。
3.根据权利要求1所述的一种异构蜂窝网络中基于Sarsa学习的基站休眠方法,其特征在于,动作空间中包含异构蜂窝网络中所有基站的动作转移操作,动作转移操作主要包括3种:从工作状态进入休眠状态、从休眠状态进入工作状态、保持原状态不变,系统动作空间A(t)的计算方式包括:
Figure FDA0003606910000000041
其中,动作
Figure FDA0003606910000000042
为在时隙t控制基站FBS fi(i≥1)的开关,当
Figure FDA0003606910000000043
时,FBS fi(i≥1)进入休眠状态,当
Figure FDA0003606910000000044
时,FBS fi(i≥1)进入工作状态,当
Figure FDA0003606910000000045
时,FBS fi(i≥1)保持状态不变,K表示FBS的数量。
4.根据权利要求1所述的一种异构蜂窝网络中基于Sarsa学习的基站休眠方法,其特征在于,当前状态的Q值是从初始状态开始转移到当前状态过程中系统所获得的累积收益值,Q值函数的计算方式如下:
Qt+1(s,a)=(1-αt)Qt(s,a)+αt{R(s,a)+γ*Qt(s',a')}
其中,Qt+1(s,a)表示下一个时隙t+1的状态s对应动作a的Q值,αt表示时隙t的学习率,Qt(s,a)表示当前时隙t状态s对应动作a的Q值,γ为折扣率,R(s,a)表示状态s对应动作a的收益,Qt(s',a')表示当前时隙t状态s'对应动作a'的Q值。
5.根据权利要求1所述的一种异构蜂窝网络中基于Sarsa学习的基站休眠方法,其特征在于,所述Sarsa学习过程包括:
输入状态空间S、动作空间A和收益函数R;
初始化Q值Q(s,a),初始化状态s;
在初始化状态s下,采用ε贪婪算法选择行为a,若采用ε贪婪算法无法选择行为a时,根据Q值最大选择行为a;
系统程序记录行为a和回报值R和下一状态s';
在状态s'根据ε贪婪算法选择行为a',否则根据Q值最大选择行为a';
根据Q值函数计算公式更新Q值中的Q(s,a)值;
令s=s',重复上述步骤,直到当前状态s为预先设定的终止状态,Sarsa学习结束,得到最优Q值。
CN202010184627.2A 2020-03-17 2020-03-17 异构蜂窝网络中基于Sarsa学习的基站休眠方法 Active CN111405646B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010184627.2A CN111405646B (zh) 2020-03-17 2020-03-17 异构蜂窝网络中基于Sarsa学习的基站休眠方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010184627.2A CN111405646B (zh) 2020-03-17 2020-03-17 异构蜂窝网络中基于Sarsa学习的基站休眠方法

Publications (2)

Publication Number Publication Date
CN111405646A CN111405646A (zh) 2020-07-10
CN111405646B true CN111405646B (zh) 2022-06-03

Family

ID=71413425

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010184627.2A Active CN111405646B (zh) 2020-03-17 2020-03-17 异构蜂窝网络中基于Sarsa学习的基站休眠方法

Country Status (1)

Country Link
CN (1) CN111405646B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112788569B (zh) * 2020-12-31 2022-09-02 中通服咨询设计研究院有限公司 无线供能蜂窝物联网中全双工基站的联合休眠与关联方法
CN114189877B (zh) * 2021-12-06 2023-09-15 天津大学 一种面向5g基站的复合式能耗优化控制方法
CN114679772B (zh) * 2022-04-15 2023-11-24 天津大学 一种基于用户关联的5g基站自寻优休眠方法及装置
CN115066006A (zh) * 2022-05-28 2022-09-16 哈尔滨工业大学 一种基于强化学习的基站休眠方法、设备和介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108055678A (zh) * 2018-02-26 2018-05-18 重庆邮电大学 异构蜂窝网络中基于smdp的家庭基站休眠方法
CN108701260A (zh) * 2015-11-27 2018-10-23 泰勒斯公司 用于辅助决策的系统和方法
CN109474664A (zh) * 2018-09-28 2019-03-15 北京邮电大学 一种异构无线网络中的主动预缓存方法及装置
CN109831808A (zh) * 2019-02-25 2019-05-31 重庆邮电大学 一种基于机器学习的混合供电c-ran的资源分配方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR3075409B1 (fr) * 2017-12-15 2020-01-03 Commissariat A L'energie Atomique Et Aux Energies Alternatives Dispositif electronique de traitement de signaux a optimisation integree de consommation d'energie electrique et procede correspondant

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108701260A (zh) * 2015-11-27 2018-10-23 泰勒斯公司 用于辅助决策的系统和方法
CN108055678A (zh) * 2018-02-26 2018-05-18 重庆邮电大学 异构蜂窝网络中基于smdp的家庭基站休眠方法
CN109474664A (zh) * 2018-09-28 2019-03-15 北京邮电大学 一种异构无线网络中的主动预缓存方法及装置
CN109831808A (zh) * 2019-02-25 2019-05-31 重庆邮电大学 一种基于机器学习的混合供电c-ran的资源分配方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Almuthanna Nassar.Reinforcement Learning for Traffic-Adaptive Sleep Mode Management in 5G Networks.《IEEE》.2019, *
Qingmin Wang,F. Richard Yu,Yi Sun.Optimal joint base station and user equipment (BS-UE) admission control for energy-efficient green wireless cellular networks.《IEEE》.2013, *
陈夏冰等.基于模糊神经网络Sarsa学习的多机器人任务分配.《计算机应用与软件》.2012,(第12期), *

Also Published As

Publication number Publication date
CN111405646A (zh) 2020-07-10

Similar Documents

Publication Publication Date Title
CN111405646B (zh) 异构蜂窝网络中基于Sarsa学习的基站休眠方法
CN109947545B (zh) 一种基于用户移动性的任务卸载及迁移的决策方法
Gong et al. Base station sleeping and resource allocation in renewable energy powered cellular networks
Bousia et al. " Green" distance-aware base station sleeping algorithm in LTE-Advanced
Wei et al. Joint user scheduling and content caching strategy for mobile edge networks using deep reinforcement learning
CN109474980A (zh) 一种基于深度增强学习的无线网络资源分配方法
CN106604401B (zh) 一种异构网络中的资源分配方法
CN108322938B (zh) 超密集组网下基于双层非合作博弈理论的功率分配方法及其建模方法
Liu et al. Deep reinforcement learning based dynamic resource allocation in 5G ultra-dense networks
CN109831819B (zh) 一种基于异构蜂窝网络分簇smdp基站休眠方法
CN114615730B (zh) 回程受限密集无线网络面向内容覆盖的功率分配方法
Munir et al. A game theoretical network-assisted user-centric design for resource allocation in 5G heterogeneous networks
Asuhaimi et al. Channel access and power control for energy-efficient delay-aware heterogeneous cellular networks for smart grid communications using deep reinforcement learning
CN104378772A (zh) 一种蜂窝网络中面向小区无定形覆盖的小基站部署方法
Malta et al. Using reinforcement learning to reduce energy consumption of ultra-dense networks with 5G use cases requirements
Dlamini et al. Online resource management in energy harvesting BS sites through prediction and soft-scaling of computing resources
AlSobhi et al. QoS-aware resource allocation of two-tier HetNet: A Q-learning approach
CN105407520B (zh) 一种集中式基站休眠决策方法及休眠系统
Li et al. An energy-effective network deployment scheme for 5G Cloud Radio Access Networks
Yao et al. Data-driven resource allocation with traffic load prediction
Gu et al. Traffic offloading and power allocation for green HetNets using reinforcement learning method
CN111065121B (zh) 一种考虑小区差异的密集网络能耗及能效联合优化方法
Ziaeddini et al. An optimized multi-layer resource management in mobile edge computing networks: a joint computation offloading and caching solution
CN108965034A (zh) 小小区基站超密集部署下的用户关联到网络的方法
Sun et al. Autonomous cell activation for energy saving in cloud-RANs based on dueling deep Q-network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant