CN103220751B

CN103220751B - 基于q学习资源分配策略的异构网络准入控制方法

Info

Publication number: CN103220751B
Application number: CN201310167173.8A
Authority: CN
Inventors: 徐玉滨; 陈佳美; 马琳; 赵洪林; 崔扬; 杨松
Original assignee: Harbin Institute of Technology
Current assignee: Harbin University of technology high tech Development Corporation
Priority date: 2013-05-08
Filing date: 2013-05-08
Publication date: 2016-03-30
Anticipated expiration: 2033-05-08
Also published as: CN103220751A

Abstract

基于Q学习资源分配策略的异构网络准入控制方法，涉及一种异构网络准入控制方法。它是为了在兼顾网络整体性能和用户QoS需求，实现在异构网络的网络拥塞情况下进行用户呼叫准入控制。本发明采用Q学习方法控制门限控制模块中的门限设定，利用Q学习的自学习性质，动态的对有限的无线分配资源优先级分配。通过一段时间的学习，能够找到在不同的网络状态下，资源分配的最优策略。这样，用户的准入控制能够适应动态变化的网络环境，尤其在异构网络拥塞情况下，本发明的方法仍具有效性。本发明适用于异构网络下用户的准入控制。

Description

基于Q学习资源分配策略的异构网络准入控制方法

技术领域

本发明涉及一种异构网络准入控制方法。

背景技术

WCDMA/WLAN异构网络是下一代异构网络融合的主流趋势。两者存在技术上的完美互补特性：WCDMA网络覆盖范围广，QoS保障机制完善，但是数据速率低；WLAN数据速率高，价格便宜，但是覆盖范围有限，QoS保障机制不完善。若能将两者有效地结合，形成统一的网络，则能够实现在广泛覆盖范围内，为用户提供高质量且无缝的服务。

WCDMA/WLAN异构网络融合过程中，用户的准入控制机制是一个非常重要的研究内容。其性能将会直接影响到新用户的阻塞率以及切换用户的掉话率等用户的QoS质量，另外，其也会影响到网络整体的性能。所以，合理且高性能的网络准入控制机制一直是各界研究的热点。

传统异构网络准入控制方法大多从用户角度出发考虑接入策略。只要用户到达，无论网络处于何种状态，无论有无可用资源都进行接入判决。进行接入尝试后，若发现系统已无可用资源，才会拒绝该用户。实际上，如果网络出现拥塞状态，其对于网络状态参数的影响是很大的，对于用户接入控制判决条件的影响可能是颠覆性的。良好的资源分配与调度策略对于优化用户的接入策略是非常必要和有效的。

发明内容

本发明是为了在兼顾网络整体性能和用户QoS需求，实现在异构网络的网络拥塞情况下进行用户呼叫准入控制，从而提供一种基于Q学习资源分配策略的异构网络准入控制方法。

基于Q学习资源分配策略的异构网络准入控制方法，它由以下步骤实现：

步骤一、在离线阶段，

定义Q学习中的可执行动作集A，用于在Q学习过程中，设定两个不同的资源分配门限TH₁与TH₂；

定义系统的立即回报函数p_t(e，a)，用于在每个当前状态e_t下系统执行可用动作后，作为网络环境对系统执行动作的回报，来判断系统执行动作的正确程度；

初始化Q值表，对于每个可用的动作a分配一个对应的Q值，形成一个Q值表，对每个Q值在[0，1]区间内随机赋值；

步骤二、在在线阶段，

步骤二一、测量并记录WCDMA/WLAN异构网络当前时刻的网络状态e_t，作为门限估计模块的输入参数；t的初始值为1；

步骤二二、当用户发起新呼叫或者切换呼叫时，采用门限估计模块根据网络状态e_t和与可用动作A对应的Q值表中最大Q值相应的动作来进行门限设定；

并采用网络选择模块根据网络状态e_t和门限估计模块设定的门限接入或拒绝接入该用户，并记录当前的立即回报函数p_t(e，a)；

步骤二三、将t的值加1，测量并记录WCDMA/WLAN异构网络在t+1时刻下的网络状态e_t+1；

步骤二四、根据公式：

Q_t+1(e，a)＝(1-α)Q_t(e，a)+α{p_t(e，a)+βV_t(e)}

对Q值表进行更新；

式中：α是学习强度，α＝0.1～0.2；β为折扣因子，且0＜β＜1；Q_t+1(e，a)为异构网络在网络状态e_t+1下，更新后的Q值；Q_t(e，a)为前一网络状态为网络状态e_t下的Q值，V_t(e)为值函数，所述V_t(e)的值通过公式：

V_{t} (e) = \max_{b} {Q_{t} (e, b)}

获得，其中b是在状态e_t时的可选动作；

步骤二五、判断该时刻下网络状态e_t+1时Q值与上一时刻的网络状态e_t的Q值的差值ΔQ(e，a)，是否满足收敛条件ΔQ(e，a)＜ε，a∈A；如果判断结果为是，则令t的值加1，并返回执行步骤二一；如果判断结果为否，则执行步骤二六；

步骤二六、完成基于Q学习资源分配策略的异构网络准入控制。

步骤二四中V_t(e)的值是通过公式：

V_{t} (e) = \max_{b} {Q_{t} (e, b)}

获得的，其中b是在状态e_t时的可选动作。

离线阶段的可执行动作集A的表达式为：

A＝{[(TH₁-θ)，(TH₂-θ)]，[(TH₁-θ)，(TH₂+θ)]，[(TH₁-θ)，(TH₂+0)]，

[(TH₁+0)，(TH₂-θ)]，[(TH₁+0)，(TH₂+θ)]，[(TH₁+0)，(TH₂+0)]，

[(TH₁+θ)，(TH₂-θ)]，[(TH₁+θ)，(TH₂+θ)]，[(TH₁+θ)，(TH₂+0)]}

式中：θ是每次门限的变化量，θ的取值为0.5。

在离线阶段的立即回报函数p_t(e，a)的表达式为：

其中：n_{s_RT}是单覆盖区内RT用户数，n_{s_NRT}是单覆盖区内NRT用户数，n_{d_RT}是双覆盖区内RT用户数，n_{d_NRT}是是双覆盖区内NRT用户数。

在在线阶段的立即回报函数p_t(e，a)的获得方法：

p_t(e，a)＝p_t(e，a)_access+p_t(e，a)_QoS

其中：p_t(e，a)_QoS为用户QoS回报函数；

所述p_t(e，a)_QoS是根据公式：

p_{t} (e, a)_QoS = - {{[\frac{| R^{*} - R_{t} (e, a) |}{R^{*}}]}^{2} + {[\frac{| D_{t} (e, a) - D^{*} |}{D^{*}}]}^{2} + {[\frac{| E_{t} (e, a) - E^{*} |}{E^{*}}]}^{2}}

获得的，其中：R_t(e，a)、D_t(e，a)和E_t(e，a)分别是执行动作后用户的数据速率、传输延时和BER；

R^*、D^*和E^*分别是用户期望的数据速率、传输延时和BER。

步骤二二中当用户发起新呼叫或者切换呼叫时，采用门限估计模块根据网络状态e_t和与可用动作A对应的Q值表中最大Q值相应的动作来进行门限设定。

步骤二二中当用户发起新呼叫或者切换呼叫时，采用网络选择模块根据网络状态e_t和门限估计模块设定的门限接入或拒绝接入该用户，并记录当前的立即回报函数p_t(e，a)。

本发明是在兼顾网络整体性能和用户QoS需求条件下，能够在异构网络中对网络拥塞情况下进行的用户呼叫准入控制，本发明的降低系统复杂性，操作简单，估计精度高，性能稳定。

附图说明

图1为基于Q学习资源分配策略的异构网络准入控制原理示意图。

图2为用户准入流程示意图。

图3为门限控制模块的Q学习的原理示意图。

具体实施方式

具体实施方式一、基于Q学习资源分配策略的异构网络准入控制方法，其具体步骤如下：

第一步：在离线阶段，

定义Q学习中的可执行动作集A，用于在Q学习过程中，设定不同的资源分配门限TH₁与TH₂；

第二步：在线阶段，

步骤二一、首先记录系统当前状态e_t。

步骤二二、每当用户发起呼叫，新呼叫或者切换呼叫。门限估计模块根据e_t与设定的与可用动作A对应的Q值表中的Q值，选择与最大Q值相应的动作来执行门限设定；网络选择模块根据e_t和门限估计模块所设定的门限接入或拒绝该用户，记录立即回报函数p_t(e，a)。

步骤二三、网络进入下一状态e_t+1，记录该状态。

步骤二四、获得回报函数后，门限估计模块根据回报函数和新状态更新Q值表。更新公式为：

Q_t+1(e，a)＝(1-α)Q_t(e，a)+α{p_t(e，a)+βV_t(e)}(1)

其中，α是学习强度，α＝0.1～0.2，β为折扣因子，且0＜β＜1，Q_t+1(e，a)为网络进入下一状态e_t+1后，更新后的Q值，Q_t(e，a)为前一网络状态为e_t时的Q值，p_t(e，a)为立即回报，V_t(e)为值函数，其定义为：

V_{t} (e) = \max_{b} {Q_{t} (e, b)} - - - (2)

其中b是在状态e_t时的可选动作。

步骤二五、当满足收敛条件ΔQ(e，a)＜ε，a∈A，停止迭代，迭代门限ε＝0.005。ΔQ(e，a)为某个异构网络状态e选择动作为a的前后两次Q值的差值，ΔQ(e，a)＝|Q_t+1(e，a)-Q_t(e，a)|。

步骤二六、重复执行步骤二二至步骤二五，直至将Q值表中所有Q值都更新致收敛后，Q学习完毕。

以下，结合具体的参数说明本发明的效果：

一、测量并记录WCDMA/WLAN异构网络当前的网络状态e_t，作为门限估计模块的输入参数。本算法采用WCDMA与WLAN子网络当前各自已经接入的用户数n_WCDMA与n_WLAN作为WCDMA/WLAN异构网络的网络状态。其中0≤n_WCDMA≤N_WCDMA，0≤n_WLAN≤N_WLAN，N_WCDMA与N_WLAN是WCDMA与WLAN内能容纳最大用户数。两个网络不同用户数的组合就构成网络状态集E。

二、在门限估计模块中，如图1所示，对网络资源合理分配。这里网络资源分配包括对于切换用户和实时业务RT的资源预留策略。

1、首先，为了避免网络出现过于拥塞的情况，系统预留总资源的5％，即当接入用户已占用总资源的95％时，异构网络将拒绝所有新呼叫和切换用户的呼叫请求；

2、考虑到切换掉话对于用户来说比呼叫阻塞更加难以忍受，为切换用户预留总资源的百分之X_handoff的资源，专门用于接入切换用户的呼叫请求；

3、另外，考虑到非实时业务NRT对于业务延时比实时业务RT更加能够容忍。基于此，认为RT业务比NRT业务更重要，所以，剩下的资源为实时业务RT预留百分之X_RT，最后剩下的X_mix的资源，由RT业务与NRT业务共享。

如图1所示，X_handoff与X_RT之间的门限为TH₁，X_RT与X_mix之间的门限为TH₂。这个模块中控制者的目的是通过Q学习的方法找到每个不同的网络状态下设置TH₁与TH₂的最佳策略。

三、在网络选择模块中，将第二步中的两个门限设置作为输入参量，执行用户准入策略。假定网络总资源为百分之百，用B表示，B′为被已接入用户已经占用的资源的百分数。具体的接入策略为：

如果B′＜X_mix接入所有RT与NRT用户；

如果X_mix≤B′＜X_mix+X_RT，接入所有RT用户，拒绝所有NRT用户；

如果X_mix+X_RT≤B′＜X_mix+X_RT+X_handoff，拒绝所有新的RT与NRT用户，但是接受切换呼叫用户；

如果X_mix+X_RT+X_handoff≤B′＜95％拒绝所有呼叫请求。

四、在两个模块执行动作后，网络进行了用户的接入或拒绝，网络内用户数发生改变，即网络进入下一状态e_t+1。网络环境根据用户体验QoS会给出一个立即回报p_t(e，a)，反馈给系统，来判断两个模块所执行动作正确与否。

本发明为准入控制系统设计两个模块，门限估计模块和网络选择模块。门限控制模块用Q学习的方法为网络选择模块提供自适应网络状态的门限设置策略。这里的门限主要是负责异构网络资源分配的控制，通过Q学习的方法，能够实现对于网络资源预留的门限设置学习。从而根据网络状态的变化，动态的调整资源预留门限，自适应的进行网络资源分配。网络选择模块根据网络状态输入，以及门限估计的模块进行异构网络用户准入控制。

本发明从异构网络整体性能出发，以网络内已经接入用户数作为网络状态，综合考虑切换用户和实时业务的优先级资源分配策略，使得用户接入控制策略不仅能够在一般网络状态接入更多的用户，且在网络拥塞状态下仍能够保持良好的性能。另外，在用户准入动作执行后，将用户的QoS变化作为系统的回报反馈给控制系统，用来优化下一步的执行动作。这样，本发明能够兼顾考虑网络整体性能和用户QoS质量，做到全局优化。

该方法可降低系统复杂性，操作简单，估计精度高，性能稳定。

Claims

1.基于Q学习资源分配策略的异构网络准入控制方法，其特征是：它由以下步骤实现：

步骤一、在离线阶段，

定义系统的立即回报函数p_t(e,a)，用于在每个当前状态e_t下系统执行可用动作后，作为网络环境对系统执行动作的回报，来判断系统执行动作的正确程度，其中e为异构网络状态；

步骤二、在在线阶段，

步骤二一、测量并记录WCDMA/WLAN异构网络t时刻下的网络状态e_t，作为门限估计模块的输入参数；t的初始值为1；

步骤二二、当用户发起新呼叫或者切换呼叫时，采用门限估计模块根据t时刻下的网络状态e_t和与可用动作a对应的Q值表中最大Q值相应的动作来进行门限设定；

并采用网络选择模块根据t时刻下的网络状态e_t和门限估计模块设定的门限接入或拒绝接入该用户，并记录当前的立即回报函数p_t(e,a)；

步骤二四、根据公式：

Q_t+1(e,a)＝(1-α)Q_t(e,a)+α{p_t(e,a)+βV_t(e)}

对Q值表进行更新；

式中：α是学习强度，α＝0.1～0.2；β为折扣因子，且0<β<1；Q_t+1(e,a)为异构网络在t+1时刻下的网络状态e_t+1下，更新后的Q值；Q_t(e,a)为前一网络状态为t时刻下的网络状态e_t下的Q值，V_t(e)为值函数，所述V_t(e)的值通过公式：

V_{t} (e) = \underset{b}{m a x} {Q_{t} (e, b)}

获得，其中b是在t时刻下的网络状态e_t时的可选动作；

步骤二五、判断t+1时刻下的网络状态e_t+1时Q值与t时刻下的网络状态e_t的Q值的差值△Q(e,a)，是否满足收敛条件△Q(e,a)<ε,a∈A，其中E为网络状态集；如果判断结果为是，则令t的值加1，并返回执行步骤二一；如果判断结果为否，则执行步骤二六；

2.根据权利要求1所述的基于Q学习资源分配策略的异构网络准入控制方法，其特征在于离线阶段的可执行动作集A的表达式为：

A＝{[(TH₁-θ),(TH₂-θ)],[(TH₁-θ),(TH₂+θ)],[(TH₁-θ),(TH₂+0)],

[(TH₁+0),(TH₂-θ)],[(TH₁+0),(TH₂+θ)],[(TH₁+0),(TH₂+0)],

[(TH₁+θ),(TH₂-θ)],[(TH₁+θ),(TH₂+θ)],[(TH₁+θ),(TH₂+0)]}

式中：θ是每次门限的变化量。

3.根据权利要求1所述的基于Q学习资源分配策略的异构网络准入控制方法，其特征在于θ的取值为0.5。

4.根据权利要求1所述的基于Q学习资源分配策略的异构网络准入控制方法，其特征在于在离线阶段的立即回报函数p_t(e,a)的表达式为：

其中：NRT表示非实时业务，RT表示实时业务，n_{s_RT}是单覆盖区内RT用户数，n_{s_NRT}是单覆盖区内NRT用户数，n_{d_RT}是双覆盖区内RT用户数，n_{d_NRT}是是双覆盖区内NRT用户数。

5.根据权利要求4所述的基于Q学习资源分配策略的异构网络准入控制方法，其特征在于在在线阶段的立即回报函数p_t(e,a)的获得方法：

p_t(e,a)＝p_t(e,a)_access+p_t(e,a)_QoS

其中：p_t(e,a)_QoS为用户QoS回报函数；

所述p_t(e,a)_QoS是根据公式：

p_{t} (e, a)_Q o S = - {{[\frac{| R^{*} - R_{t} (e, a) |}{R^{*}}]}^{2} + {[\frac{| D_{t} (e, a) - D^{*} |}{D *}]}^{2} + {[\frac{| E_{t} (e, a) - E^{*} |}{E^{*}}]}^{2}}

获得的，其中：R_t(e,a)、D_t(e,a)和E_t(e,a)分别是执行动作后用户的数据速率、传输延时和BER；

R^*、D^*和E^*分别是用户期望的数据速率、传输延时和BER。