CN111405646A

CN111405646A - 异构蜂窝网络中基于Sarsa学习的基站休眠方法

Info

Publication number: CN111405646A
Application number: CN202010184627.2A
Authority: CN
Inventors: 吴静; 李云
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2020-03-17
Filing date: 2020-03-17
Publication date: 2020-07-10
Anticipated expiration: 2040-03-17
Also published as: CN111405646B

Abstract

本发明涉及异构蜂窝网络领域，具体涉及一种异构蜂窝网络中基于Sarsa学习的基站休眠方法，所述方法包括：建立系统能效模型；根据系统模型、能效模型以及用户重关联规则构建Sarsa学习中的四个要素；通过Sarsa学习模型求解每个状态的最优休眠决策；本发明相比于传统的基站休眠方法采用了无模型的方法，适用于现实生活中用户分布的多态性和复杂性，并且考虑了休眠基站所服务的用户的重关联保证用户的服务连续性，提出了基于Sarsa学习的FBS动态休眠策略，最大化累积回报值，达到提升网络能效的目的。

Description

异构蜂窝网络中基于Sarsa学习的基站休眠方法

技术领域

本发明涉及异构蜂窝网络技术域，具体涉及一种异构蜂窝网络中基于Sarsa学习的基站休眠方法。

背景技术

第五代通信技术(5G)是面向2020年以后移动通信需求而发展的新一代移动通信系统。随着5G时代的到来，移动用户数量和移动业务量的快速增长对蜂窝移动通信系统的容量提出了巨大的需求，同时，物联网、虚拟现实等应用的快速发展迫切需要移动通信系统提供差异化服务。采用小基站和宏基站重叠覆盖的异构蜂窝网络结构是应对上诉问题的重要途径，也是新一代移动通信的关键技术之一。移动互联网的快速发展给人们带来了全新的上网体验，在学习上、工作上、生活上全方位的影响着人们，由此带来的是宏基站和小基站的大量部署，然而用户分布的多态性，以及连接基站的不确定性，导致大量小基站的负载呈现一种不确定性，但是大多数小基站为了保证用户服务质量都保持在工作状态，带来的是能耗的增加。随着移动通信网络规模的增大，如何节约能源的消耗，提高网络能效已经成为网络优化的重要解决部分。

现有的基站休眠技术研究中，大多数是一种基于模型的公式推导和分析，现实世界中用户与基站的分布复杂性在简单易处理的模型中并不能很好的体现，使得模型难以在现实生活中合理应用。

发明内容

为了解决上述传统的基站休眠方法很难适应实际中基站用户数随机动态变化的问题，本发明采用双层Macro-Femto异构蜂窝网络，同时考虑基站所服务的用户数的随机动态变化、基站休眠和用户关联的相互影响，采用无模型的Sarsa强化学习方法进行基站休眠和用户关联联合优化，最大化Sarsa学习的累积回报，提供一种异构蜂窝网络中基于Sarsa学习的基站休眠方法，能够达到提升网络能效的目的，相比于传统的基站休眠方法更符合实际中基站用户数随机的动态变化的情况。

一种异构蜂窝网络中基于Sarsa学习的基站休眠方法，包括以下步骤：

根据全双工异构蜂窝网络场景建立系统能效模型；

根据系统能效模型以及用户重关联规则构建Sarsa学习中的四个要素，包括：状态空间，动作空间，收益函数，Q值函数；

根据Sarsa学习中的四个要素开始Sarsa学习过程：从状态空间的初始状态s开始，通过贪婪算法选择动作a，系统根据动作a转移到下一个状态s'，并获得收益、更新Q值；通过不断的学习以及状态转移，得到每个状态-动作对的Q值累积回报值，直到到达终止状态，得到最优Q值；

根据最优Q值为状态空间中的每个状态选取Q值最大对应的动作作为该状态的最优休眠决策，根据最优休眠策略进行基站休眠；

基站休眠后，根据用户重关联规则对已休眠基站上一时隙中所关联的用户进行重新关联。

进一步的，所述系统能效模型包括：

η＝ωη^UL+(1-ω)η^DL

其中，η为系统能效，ω为效率权重因子，η^UL为上行信道能效，η^DL为下行信道能效。

进一步的，上行信道的总能效η^UL为异构蜂窝网络中所有用户能效之和与用户终端功耗之比，计算方式如下：

其中，K表示FBS数量，ζ_i表示基站f_i(i≥0)的状态，当基站工作时为1，休眠时为0；

表示当前基站f_i(i≥0)所服务的用户集合；

表示用户u到基站f_i(i≥0)之间的距离，P_UE表示用户终端的功耗，W表示系统带宽，

表示用户u到基站f_i(i≥0)的信干噪比，P_CU表示用户终端的固定消耗，ξ表示功率消耗系数，P_u表示用户终端u的传输功率，

表示用户u到基站f_i(i≥0)之间的路损，

表示用户u受到来自基站f_i(i≥0)服务的其他用户的干扰，N₀表示高斯白噪声信道的功率谱密度。

进一步的，下行信道的总能效η^DL为异构蜂窝网络中所有用户能效之和与基站总功耗之比，计算方式如下：

其中，K表示FBS的数量，ζ_i表示基站f_i(i≥0)的状态，当基站工作时为1，休眠时为0；

表示当前基站f_i(i≥0)所服务的用户集合；

表示用户u到基站f_i(i≥0)之间的距离，W表示系统带宽，

表示基站到用户的下行信道的信干噪比；

表示基站f_i(i≥0)的功率放大器的最大传输功率，且

表示FBSf_i的功率放大器的最大传输功率，φ_i表示直流到射频的转换因子；

表示用户u到基站f_i(i≥0)之间的路损，

表示基站f_i(i≥0)受到其他基站与用户u通信时的干扰，N₀表示高斯白噪声信道的功率谱密度；P₀表示MBS的动态功耗，且

ρ₀表示MBS的负载因子，

表示宏基站MBS的功率放大器的最大传输功率，φ₀表示MBS的直流到射频的转换因子；P_i表示FBSf_i的功耗，

P_S表示FBS处于休眠状态时的功耗，P_A表示FBS处于工作状态时的功耗，P_const表示FBS处于工作状态时的固定功耗，

表示FBSf_i的功率放大器的最大传输功率，φ_i表示FBS的直流到射频的转换因子，ρ_i表示当前FBSf_i的负载因子，且

n_i表示当前FBSf_i正在服务的用户数，

表示FBSf_i的最大用户容量，ξ()表示基站的状态，当基站工作时为1，休眠时为0；n_j表示当前FBSf_j正在服务的用户数。

进一步的，状态空间中包含所有基站所服务的用户数量，反映基站的状态情况，在t时隙的状态空间S(t)的计算方式为：

其中，n₀(t)为t时隙MBS服务的用户数，

表示MBS能服务的最大用户数，

表示t时隙FBS f_i(i≥1)服务的用户数，

且

表示FBSf_i(i≥1)能服务的最大用户数。

进一步的，动作空间中包含异构蜂窝网络中所有基站的动作转移操作，动作转移操作主要包括3种：从工作状态进入休眠状态、从休眠状态进入工作状态、保持原状态不变，系统动作空间A(t)的计算方式包括：

其中，动作

为在时隙t控制基站FBSf_i(i≥1)的开关，当

时，FBS f_i(i≥1)进入休眠状态，当

时，FBSf_i(i≥1)进入工作状态，当

时，FBSf_i(i≥1)保持状态不变，K表示FBS的数量。

进一步的,当前状态的Q值是从初始状态开始转移到当前状态过程中系统所获得的累积收益值，Q值函数的计算方式如下：

Q_t+1(s,a)＝(1-α_t)Q_t(s,a)+α_t{R(s,a)+γ*Q_t(s',a')}

其中，Q_t+1(s,a)表示下一个时隙t+1的状态s对应动作a的Q值，α_t表示时隙t的学习率，Q_t(s,a)表示当前时隙t状态s对应动作a的Q值，γ为折扣率，R(s,a)表示状态s对应动作a的收益，Q_t(s',a')表示当前时隙t状态s'对应动作a'的Q值。

进一步的，所述Sarsa学习过程包括：

输入状态空间S、动作空间A和收益函数R；

初始化Q值Q(s,a)，初始化状态s；

在初始化状态s下，采用ε贪婪算法选择行为a，若采用ε贪婪算法无法选择行为a时，根据Q值最大选择行为a；

系统程序记录行为a和回报值R和下一状态s'；

在状态s'根据ε贪婪算法选择行为a'，否则根据Q值最大选择行为a'；

根据Q值函数计算公式更新Q值中的Q(s,a)值；

令s＝s',重复上述步骤，直到当前状态s为预先设定的终止状态，Sarsa学习结束，得到最优Q值。

进一步的，所述用户重关联规则包括：当FBS进入休眠状态时，将与FBS关联的用户优先分配给附近的FBSs，若附近的FBSs关联的用户数均超过了FBS的最大负载数，则将剩余用户与MBS关联，若MBS关联的用户数超过了MBS的最大负载数，则不进行关联。

本发明的有益效果：

1.本发明考虑了基站用户数的随机动态变化特性，使FBS的开关决策根据实时用户数的状态变化，区别于传统的静态休眠方法，本发明能够动态的制定基站休眠策略。

2.对基站休眠后的用户采用基于本发明的用户重关联规则，相比于传统的基站休眠方法更符合实际中基站用户数的动态变化的情况，不仅保证了用户服务的连续性，同时也更好地提升了系统能效。

附图说明

下面结合附图和具体实施方式对本发明做进一步详细的说明。

图1为本发明实施例的双层Macro-Femto异构网络环境模型图；

图2为本发明实施例的一种异构蜂窝网络中基于Sarsa学习的基站休眠和用户关联联合优化方法流程图；

图3为本发明实施例的Sarsa学习算法流程图；

图4为本发明实施例的系统的回报函数分析图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例采用双层Macro-Femto异构蜂窝网络，图1所示为建立的双层Macro-Femto异构蜂窝网络环境模型图，双层Macro-femto的异构蜂窝网络的基站集合为F＝{f₀,f₁,…,f_k,…f_K}，其中，f₀表示宏基站(MBS)，f₁,f₂,…,f_k,…f_K表示K个家庭基站(FBS)，第i个家庭基站FBS当前服务的用户数集合为U_fi(i∈(0,K))，K表示FBS的数量。假设系统采用非正交多址接入(OFDMA)技术，每个用户被服务时占用W的带宽，MBS服务的用户只会受到来自MBS服务的其他用户的干扰，FBS服务的用户只会受到同一个FBS服务的其他用户的干扰，来自其他基站服务的用户的干扰忽略不计。基站和用户的随机分布服从泊松分布。

图2为本发明实施例的一种异构蜂窝网络中基于Sarsa学习的基站休眠方法流程图，该方法通过进行Sarsa学习过程制定FBS的动态休眠策略，比模式固定的静态休眠方法更实用有效，此外，该方法的用户重关联规则能够在基站休眠后对其关联的用户进行重新关联，使之充分利用FBS的资源，保证用户服务的连续性，提升系统能效。该方法包含但不限于如下步骤：

根据全双工异构蜂窝网络场景建立系统能效模型。

根据全双工异构蜂窝网络场景，建立系统能效模型作为Sarsa学习算法的优化目标，所述系统能效模型为：

η＝ωη^UL+(1-ω)η^DL

上行信道能效η^UL的计算方式包括：当基站f_i(i≥0)和用户u进行全双工通信时，用户到基站的上行信道的信干噪比SINR^UL为：

其中，

表示用户u到基站f_i(i≥0)的信干噪比，P_u表示用户终端u的传输功率，

表示用户u到基站f_i(i≥0)之间的路损，

表示用户u受到来自基站f_i(i≥0)服务的其他用户的干扰，N₀表示高斯白噪声信道的功率谱密度，W表示系统带宽，

表示用户u到基站f_i(i≥0)之间的距离，α表示路损指数，

表示当前基站f_i(i≥0)所服务的用户集合，P_m表示户终端m的传输功率，

表示用户m到基站f_i(i≥0)之间的路损。

用

表示基站f_i(i≥0)服务的用户u的上行吞吐量，表示如下：

用户终端的功耗模型如下式所示：

P_UE＝P_CU+ξP_u

其中，P_UE表示用户终端的功耗，P_CU表示用户终端的固定消耗，ξ表示功率消耗系数，P_u表示用户终端u的传输功率。

用户u的能效为：

则上行信道的总能效为异构蜂窝网络中所有用户能效之和与用户终端功耗之比，计算方式如下：

其中，ζ_i表示基站f_i(i≥0)的状态，当基站工作时为1，休眠时为0。

下行信道能效η^DL的计算方式包括：基站f_i(i≥0)与用户u进行全双工通信时，基站到用户的下行信道的信干噪比SINR^DL为：

式中，

表示基站到用户的下行信道的信干噪比，简化为SINR^DL，

表示基站f_i(i≥0)的功率放大器的最大传输功率，且

表示用户u到基站f_i(i≥0)之间的路损，

表示基站f_i(i≥0)受到其他基站与用户u通信时的干扰，N₀表示高斯白噪声信道的功率谱密度，W表示系统带宽，

表示用户u到基站f_i(i≥0)之间的距离，α表示路损指数，K表示FBS的数量，ξ_i表示基站f_i(i≥0)的状态，当其开启为1，关闭为0；P_j表示基站f_j(j≥0,j≠i)，PL_j,u表示基站f_j(j≥0,j≠i)到用户u之间的路损。

用

表示基站f_i(i≥0)服务的用户u的下行吞吐量，表示如下：

异构蜂窝网络内的基站总功耗为：

其中，P₀表示MBS的动态功耗，且

ρ₀表示MBS的负载因子，

n_i表示当前FBSf_i正在服务的用户数，

表示FBSf_i的最大用户容量。

下行信道的总能效为异构蜂窝网络中所有用户能效之和与基站总功耗之比，计算方式如下：

根据系统能效模型以及用户重关联规则获得Sarsa学习中的四个要素，Sarsa学习过程的四个要素分别是：状态空间，动作空间，收益函数R，Q值函数。

在一个实施例中，系统通过从环境中进行信息的感知得到异构蜂窝网络中每个基站所服务的用户数量，所述状态空间S(t)用于存储每个状态下各个基站服务的用户数量，状态空间可以通过基站所服务的用户数量从而反映基站的状态情况。例如：系统中有4个基站，设置每个基站的最大用户数为10，状态空间：每个基站内的用户数包括{-1，0,1，……10}，有12个状态，4个基站的状态空间为一个12⁴的矩阵。基站的状态包括休眠状态和工作状态，当基站下关联有请求服务的用户时，

基站处于工作状态并持续为所请求服务的用户终端提供相应服务；当基站下没有关联的请求服务的用户时，

的值为-1，基站处于休眠状态。具体地，在t时隙的状态集合S(t)为：

其中，n₀(t)为t时隙MBS服务的用户数，

表示MBS能服务的最大用户数，

表示t时隙FBS f_i(i≥1)服务的用户数，

表示FBSf_i(i≥1)能服务的最大用户数。

在一个实施例中，所述动作空间A(t)中体现异构蜂窝网络中所有基站的动作转移操作，动作转移操作主要包括3种：从工作状态进去休眠状态、从休眠状态进入工作状态、保持原状态不变。动作转移操作主要是对FBS的状态进行控制，即由休眠状态转为工作状态或由工作状态转为休眠状态，FBS的状态发生变化后，基站服务的用户数也发生改变，即系统状态发生转移。

所述系统动作空间A(t)包括：

其中，动作

为在时隙t控制基站FBSf_i(i≥1)的开关，当

时，FBSf_i(i≥1)进入休眠状态，当

时，FBSf_i(i≥1)进入工作状态，当

时，FBSf_i(i≥1)保持状态不变，具体地：

其中，

表示在t_k时隙的起始时刻对FBSf_i的行为控制决策，其取值含义为：a_i(t_k)＝-1表示FBSf_i进入休眠状态；a_i(t_k)＝0表示FBSf_i保持状态不变；a_i(t_k)＝1表示FBSf_i进入工作状态。

在一个实施例中，系统在当前状态S下采取动作a(t_k)进行状态转移操作时，为了提升系统能效，将系统由当前状态成功转移到另一状态s′过程中的系统能效作为系统的收益函数R，即将系统能耗模型作为系统的收益函数R。从当前状态s采取动作a(t_k)转移到另一状态s'时，某些FBS可能被关闭进入休眠状态，另一些FBS可能被开启进入工作状态，导致部分用户可能会转移至MBS或者FBSf_i进行服务，因此在一个系统状态转移过程中所有基站的用户数都会变化。所述系统的收益函数R为：

式中，ζ_i'表示状态s'时BSf_i服务的用户情况，当ζ_i'为1时，表示BSf_i服务的用户数大于0，当ζ_i'为0时，表示BSf_i服务的用户数为0；

表示状态s'时的BSf_i服务的用户集合。

在一个实施例中，所述Sarsa学习过程的Q值函数用来预测环境中的未来收益。每个状态的Q值是从初始状态开始转移到该状态的过程中系统所获得的累积收益值，即当前状态的Q值＝过去所有状态的Q值的加权累积和。Q值函数的计算方式如下：

Q_t+1(s,a)＝(1-α_t)Q_t(s,a)+α_t{R(s,a)+γ*Q_t(s',a')}

其中，Q_t+1(s,a)表示下一个时隙t+1的状态s对应动作a的Q值，α_t表示时隙t的学习率，且α_t设置成很小的正值(α_t＜＜1)使得动作值可以收敛，Q_t(s,a)表示当前时隙t状态s对应动作a的Q值，γ为折扣率，R(s,a)表示状态s对应动作a的收益，Q_t(s',a')表示当前时隙t状态s'对应动作a'的Q值，R(s,a)+γ*Q_t(s',a')是从下一组状态中获得的折扣收益最大值。

Sarsa学习系统根据迭代后的累积值函数(Q值函数)来选择动作，一般选择累积值函数最大时相对应的动作。

根据Sarsa学习中的四个要素，开始Sarsa学习过程：从状态空间的初始状态s开始，基站通过贪婪算法选择动作a，系统根据选择的动作a进行相应的动作转移操作，动作转移过程中，基站状态会发生变化，基站所服务的用户也会相应发生变化，系统随着这些变化转移到下一个状态s'，获得收益，根据Q_t+1(s,a)＝(1-α_t)Q_t(s,a)+α_t{R(s,a)+γ*Q_t(s',a')}更新Q值。在状态s'下，基站通过贪婪算法选择动作a'并作用于系统进行相应的动作转移操作，转移到下一个状态s”，获得收益，更新Q值。……通过不断的学习以及状态转移，得到每个状态-动作对的Q值累积回报值，直到到达在开始Sarsa学习时设置的终止状态，得到最优Q值。

基站通过贪婪算法为初始状态s选择动作a并作用于系统的具体实现方式如下：

本实例用ε贪婪算法作为动作选择策略，ε贪婪算法是基于贪婪算法的改进策略。在本发明实施例的ε贪婪算法中，系统有1-ε的概率选择当前状态下使Q值最大的动作，有ε的概率选择其他动作。

如图3所示，在一个实施例中，利用Sarsa学习算法得到最优Q值包括：根据每个基站的最大用户数设置状态空间S、动作空间A和收益函数R；初始化Q值Q(s,a)，初始化状态s；在初始化状态s下，采用ε贪婪算法选择行为a，若采用ε贪婪算法无法选择行为时，则采用Q值最大选择行为a；根据Q值最大选择行为a的表达式为：a＝argmax_aQ_t(s,a)；系统程序记录行为a和回报值R和下一状态s'；在状态s'根据ε贪婪算法选择行为a'，否则根据Q值最大选择行为a'；根据Q_t+1(s,a)＝(1-α_t)Q_t(s,a)+α_t{R(s,a)+γ*Q_t(s',a')}更新Q值中的Q(s,a)值；令s＝s',重复上述步骤，直到当前状态s为预先设定的终止状态，Sarsa学习结束，经过Sarsa学习过程中不断迭代Q值中的Q(s,a)值，得到最优Q值，Q值中的每个Q(s,a)值都是累积收益值，从而可以根据最优Q值做出基站休眠的决策。

根据最优Q值从状态空间中的每个状态选取Q值最大对应的动作作为该状态的最优休眠决策。

根据最优Q值，得到最优休眠策略π^*(s)，所述FBSf_i的最优休眠策略π^*(s)包括：

其中，γ为折扣率，α_t是时隙t的学习率，且α_t设置成很小的正值(α_t＜＜1)使得动作值可以收敛。R(s,a,s')+γ*Q_t(s',a')是从下一组状态中获得的折扣收益最大值。

基站休眠后，根据用户重关联规则对该休眠基站上一时隙中所关联的用户进行重新关联。

所述用户重关联规则包括：当FBS进入休眠状态时前一时隙与其关联的用户优先分配给附近的FBSs，若附近的FBSs关联的用户数均超过了FBS的最大负载数，则将剩余用户与MBS关联，若MBS关联的用户数超过了MBS的最大负载数，则不进行关联。

为了进一步说明本发明所述方法的有效性，图4为Matlab环境下本发明与现有技术系统能效随着效用权重因子的对比仿真图。仿真主要参数设置如下，系统有两个家庭基站处于宏基站覆盖范围下，

φ_f＝0.045,P_const＝4.8w,P_S＝0.3w,N₀＝10^-7w/Hz,W＝1MHz,α＝3.4。图中SWS算法为L.Saker等人在文献Optimal Control of Wake UpMechanisms of Femtocells in Heterogeneous Networks中提出的基站休眠算法，本发明中称之为“SWS休眠策略”，该方法采用了马尔科夫决策过程(Markov Decision Process，MDP)思想，但具体建模与本发明完全不同，该算法基于模型分析系统，在小基站的负载不是很高时，宏基站可以在为用户提供服务的同时独自处理流量时，小基站被关闭。从图中可以看出，本发明提出的算法称作“OSS休眠策略”相比于SWS算法系统能效更高，因为基于无模型动态分析系统，灵活使用基站休眠策略，一定程度上提升系统能效，SWS算法基于模型分析系统并不能适应用户的随机分布。

本发明充分考虑了基站下用户数的动态变化，使用Sarsa学习模型建模成动态FBS休眠策略，相比模式固定的静态休眠方法更实用有效；此外，对于基站休眠后用户的关联问题采用本发明的用户关联机制进行处理，使之充分利用FBS的资源，保证用户服务的连续性，提升系统能效。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：ROM、RAM、磁盘或光盘等。

以上所举实施例，对本发明的目的、技术方案和优点进行了进一步的详细说明，所应理解的是，以上所举实施例仅为本发明的优选实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种异构蜂窝网络中基于Sarsa学习的基站休眠方法，其特征在于，包括以下步骤：

根据全双工异构蜂窝网络场景建立系统能效模型；

2.根据权利要求1所述的一种异构蜂窝网络中基于Sarsa学习的基站休眠方法，其特征在于，所述系统能效模型包括：

η＝ωη^UL+(1-ω)η^DL

3.根据权利要求2所述的一种异构蜂窝网络中基于Sarsa学习的基站休眠方法，其特征在于，上行信道的总能效η^UL为异构蜂窝网络中所有用户能效之和与用户终端功耗之比，计算方式如下：

表示当前基站f_i(i≥0)所服务的用户集合；

表示用户u到基站f_i(i≥0)之间的路损，

4.根据权利要求2所述的一种异构蜂窝网络中基于Sarsa学习的基站休眠方法，其特征在于，下行信道的总能效η^DL为异构蜂窝网络中所有用户能效之和与基站总功耗之比，计算方式如下：

表示当前基站f_i(i≥0)所服务的用户集合；

表示用户u到基站f_i(i≥0)之间的距离，W表示系统带宽，

表示基站到用户的下行信道的信干噪比；

表示基站f_i(i≥0)的功率放大器的最大传输功率，且

P_i ^max表示FBSf_i的功率放大器的最大传输功率，φ_i表示直流到射频的转换因子；

表示用户u到基站f_i(i≥0)之间的路损，

ρ₀表示MBS的负载因子，

P_S表示FBS处于休眠状态时的功耗，P_A表示FBS处于工作状态时的功耗，P_const表示FBS处于工作状态时的固定功耗，P_i ^max表示FBSf_i的功率放大器的最大传输功率，φ_i表示FBS的直流到射频的转换因子，ρ_i表示当前FBSf_i的负载因子，且

n_i表示当前FBSf_i正在服务的用户数，

5.根据权利要求1所述的一种异构蜂窝网络中基于Sarsa学习的基站休眠方法，其特征在于，状态空间中包含所有基站所服务的用户数量，反映基站的状态情况，在t时隙的状态空间S(t)的计算方式为：

其中，n₀(t)为t时隙MBS服务的用户数，

表示MBS能服务的最大用户数，

表示t时隙FBS f_i(i≥1)服务的用户数，

且

表示FBSf_i(i≥1)能服务的最大用户数。

6.根据权利要求1所述的一种异构蜂窝网络中基于Sarsa学习的基站休眠方法，其特征在于，动作空间中包含异构蜂窝网络中所有基站的动作转移操作，动作转移操作主要包括3种：从工作状态进入休眠状态、从休眠状态进入工作状态、保持原状态不变，系统动作空间A(t)的计算方式包括：

其中，动作

为在时隙t控制基站FBSf_i(i≥1)的开关，当

时，FBS f_i(i≥1)进入休眠状态，当

时，FBSf_i(i≥1)进入工作状态，当

时，FBSf_i(i≥1)保持状态不变，K表示FBS的数量。

7.根据权利要求1所述的一种异构蜂窝网络中基于Sarsa学习的基站休眠方法，其特征在于，当前状态的Q值是从初始状态开始转移到当前状态过程中系统所获得的累积收益值，Q值函数的计算方式如下：

Q_t+1(s,a)＝(1-α_t)Q_t(s,a)+α_t{R(s,a)+γ*Q_t(s',a')}

8.根据权利要求1所述的一种异构蜂窝网络中基于Sarsa学习的基站休眠方法，其特征在于，所述Sarsa学习过程包括：

输入状态空间S、动作空间A和收益函数R；

初始化Q值Q(s,a)，初始化状态s；

系统程序记录行为a和回报值R和下一状态s'；

根据Q值函数计算公式更新Q值中的Q(s,a)值；

9.根据权利要求1所述的一种异构蜂窝网络中基于Sarsa学习的基站休眠方法，其特征在于，所述用户重关联规则包括：当FBS进入休眠状态时，将与FBS关联的用户优先分配给附近的FBSs，若附近的FBSs关联的用户数均超过了FBS的最大负载数，则将剩余用户与MBS关联，若MBS关联的用户数超过了MBS的最大负载数，则不进行关联。