CN103220751B - 基于q学习资源分配策略的异构网络准入控制方法 - Google Patents
基于q学习资源分配策略的异构网络准入控制方法 Download PDFInfo
- Publication number
- CN103220751B CN103220751B CN201310167173.8A CN201310167173A CN103220751B CN 103220751 B CN103220751 B CN 103220751B CN 201310167173 A CN201310167173 A CN 201310167173A CN 103220751 B CN103220751 B CN 103220751B
- Authority
- CN
- China
- Prior art keywords
- network
- value
- heterogeneous network
- user
- network state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
基于Q学习资源分配策略的异构网络准入控制方法,涉及一种异构网络准入控制方法。它是为了在兼顾网络整体性能和用户QoS需求,实现在异构网络的网络拥塞情况下进行用户呼叫准入控制。本发明采用Q学习方法控制门限控制模块中的门限设定,利用Q学习的自学习性质,动态的对有限的无线分配资源优先级分配。通过一段时间的学习,能够找到在不同的网络状态下,资源分配的最优策略。这样,用户的准入控制能够适应动态变化的网络环境,尤其在异构网络拥塞情况下,本发明的方法仍具有效性。本发明适用于异构网络下用户的准入控制。
Description
技术领域
本发明涉及一种异构网络准入控制方法。
背景技术
WCDMA/WLAN异构网络是下一代异构网络融合的主流趋势。两者存在技术上的完美互补特性:WCDMA网络覆盖范围广,QoS保障机制完善,但是数据速率低;WLAN数据速率高,价格便宜,但是覆盖范围有限,QoS保障机制不完善。若能将两者有效地结合,形成统一的网络,则能够实现在广泛覆盖范围内,为用户提供高质量且无缝的服务。
WCDMA/WLAN异构网络融合过程中,用户的准入控制机制是一个非常重要的研究内容。其性能将会直接影响到新用户的阻塞率以及切换用户的掉话率等用户的QoS质量,另外,其也会影响到网络整体的性能。所以,合理且高性能的网络准入控制机制一直是各界研究的热点。
传统异构网络准入控制方法大多从用户角度出发考虑接入策略。只要用户到达,无论网络处于何种状态,无论有无可用资源都进行接入判决。进行接入尝试后,若发现系统已无可用资源,才会拒绝该用户。实际上,如果网络出现拥塞状态,其对于网络状态参数的影响是很大的,对于用户接入控制判决条件的影响可能是颠覆性的。良好的资源分配与调度策略对于优化用户的接入策略是非常必要和有效的。
发明内容
本发明是为了在兼顾网络整体性能和用户QoS需求,实现在异构网络的网络拥塞情况下进行用户呼叫准入控制,从而提供一种基于Q学习资源分配策略的异构网络准入控制方法。
基于Q学习资源分配策略的异构网络准入控制方法,它由以下步骤实现:
步骤一、在离线阶段,
定义Q学习中的可执行动作集A,用于在Q学习过程中,设定两个不同的资源分配门限TH1与TH2;
定义系统的立即回报函数pt(e,a),用于在每个当前状态et下系统执行可用动作后,作为网络环境对系统执行动作的回报,来判断系统执行动作的正确程度;
初始化Q值表,对于每个可用的动作a分配一个对应的Q值,形成一个Q值表,对每个Q值在[0,1]区间内随机赋值;
步骤二、在在线阶段,
步骤二一、测量并记录WCDMA/WLAN异构网络当前时刻的网络状态et,作为门限估计模块的输入参数;t的初始值为1;
步骤二二、当用户发起新呼叫或者切换呼叫时,采用门限估计模块根据网络状态et和与可用动作A对应的Q值表中最大Q值相应的动作来进行门限设定;
并采用网络选择模块根据网络状态et和门限估计模块设定的门限接入或拒绝接入该用户,并记录当前的立即回报函数pt(e,a);
步骤二三、将t的值加1,测量并记录WCDMA/WLAN异构网络在t+1时刻下的网络状态et+1;
步骤二四、根据公式:
Qt+1(e,a)=(1-α)Qt(e,a)+α{pt(e,a)+βVt(e)}
对Q值表进行更新;
式中:α是学习强度,α=0.1~0.2;β为折扣因子,且0<β<1;Qt+1(e,a)为异构网络在网络状态et+1下,更新后的Q值;Qt(e,a)为前一网络状态为网络状态et下的Q值,Vt(e)为值函数,所述Vt(e)的值通过公式:
获得,其中b是在状态et时的可选动作;
步骤二五、判断该时刻下网络状态et+1时Q值与上一时刻的网络状态et的Q值的差值ΔQ(e,a),是否满足收敛条件ΔQ(e,a)<ε,a∈A;如果判断结果为是,则令t的值加1,并返回执行步骤二一;如果判断结果为否,则执行步骤二六;
步骤二六、完成基于Q学习资源分配策略的异构网络准入控制。
步骤二四中Vt(e)的值是通过公式:
获得的,其中b是在状态et时的可选动作。
离线阶段的可执行动作集A的表达式为:
A={[(TH1-θ),(TH2-θ)],[(TH1-θ),(TH2+θ)],[(TH1-θ),(TH2+0)],
[(TH1+0),(TH2-θ)],[(TH1+0),(TH2+θ)],[(TH1+0),(TH2+0)],
[(TH1+θ),(TH2-θ)],[(TH1+θ),(TH2+θ)],[(TH1+θ),(TH2+0)]}
式中:θ是每次门限的变化量,θ的取值为0.5。
在离线阶段的立即回报函数pt(e,a)的表达式为:
其中:ns_RT是单覆盖区内RT用户数,ns_NRT是单覆盖区内NRT用户数,nd_RT是双覆盖区内RT用户数,nd_NRT是是双覆盖区内NRT用户数。
在在线阶段的立即回报函数pt(e,a)的获得方法:
pt(e,a)=pt(e,a)_access+pt(e,a)_QoS
其中:pt(e,a)_QoS为用户QoS回报函数;
所述pt(e,a)_QoS是根据公式:
获得的,其中:Rt(e,a)、Dt(e,a)和Et(e,a)分别是执行动作后用户的数据速率、传输延时和BER;
R*、D*和E*分别是用户期望的数据速率、传输延时和BER。
步骤二二中当用户发起新呼叫或者切换呼叫时,采用门限估计模块根据网络状态et和与可用动作A对应的Q值表中最大Q值相应的动作来进行门限设定。
步骤二二中当用户发起新呼叫或者切换呼叫时,采用网络选择模块根据网络状态et和门限估计模块设定的门限接入或拒绝接入该用户,并记录当前的立即回报函数pt(e,a)。
本发明是在兼顾网络整体性能和用户QoS需求条件下,能够在异构网络中对网络拥塞情况下进行的用户呼叫准入控制,本发明的降低系统复杂性,操作简单,估计精度高,性能稳定。
附图说明
图1为基于Q学习资源分配策略的异构网络准入控制原理示意图。
图2为用户准入流程示意图。
图3为门限控制模块的Q学习的原理示意图。
具体实施方式
具体实施方式一、基于Q学习资源分配策略的异构网络准入控制方法,其具体步骤如下:
第一步:在离线阶段,
定义Q学习中的可执行动作集A,用于在Q学习过程中,设定不同的资源分配门限TH1与TH2;
定义系统的立即回报函数pt(e,a),用于在每个当前状态et下系统执行可用动作后,作为网络环境对系统执行动作的回报,来判断系统执行动作的正确程度;
初始化Q值表,对于每个可用的动作a分配一个对应的Q值,形成一个Q值表,对每个Q值在[0,1]区间内随机赋值;
第二步:在线阶段,
步骤二一、首先记录系统当前状态et。
步骤二二、每当用户发起呼叫,新呼叫或者切换呼叫。门限估计模块根据et与设定的与可用动作A对应的Q值表中的Q值,选择与最大Q值相应的动作来执行门限设定;网络选择模块根据et和门限估计模块所设定的门限接入或拒绝该用户,记录立即回报函数pt(e,a)。
步骤二三、网络进入下一状态et+1,记录该状态。
步骤二四、获得回报函数后,门限估计模块根据回报函数和新状态更新Q值表。更新公式为:
Qt+1(e,a)=(1-α)Qt(e,a)+α{pt(e,a)+βVt(e)}(1)
其中,α是学习强度,α=0.1~0.2,β为折扣因子,且0<β<1,Qt+1(e,a)为网络进入下一状态et+1后,更新后的Q值,Qt(e,a)为前一网络状态为et时的Q值,pt(e,a)为立即回报,Vt(e)为值函数,其定义为:
其中b是在状态et时的可选动作。
步骤二五、当满足收敛条件ΔQ(e,a)<ε,a∈A,停止迭代,迭代门限ε=0.005。ΔQ(e,a)为某个异构网络状态e选择动作为a的前后两次Q值的差值,ΔQ(e,a)=|Qt+1(e,a)-Qt(e,a)|。
步骤二六、重复执行步骤二二至步骤二五,直至将Q值表中所有Q值都更新致收敛后,Q学习完毕。
以下,结合具体的参数说明本发明的效果:
一、测量并记录WCDMA/WLAN异构网络当前的网络状态et,作为门限估计模块的输入参数。本算法采用WCDMA与WLAN子网络当前各自已经接入的用户数nWCDMA与nWLAN作为WCDMA/WLAN异构网络的网络状态。其中0≤nWCDMA≤NWCDMA,0≤nWLAN≤NWLAN,NWCDMA与NWLAN是WCDMA与WLAN内能容纳最大用户数。两个网络不同用户数的组合就构成网络状态集E。
二、在门限估计模块中,如图1所示,对网络资源合理分配。这里网络资源分配包括对于切换用户和实时业务RT的资源预留策略。
1、首先,为了避免网络出现过于拥塞的情况,系统预留总资源的5%,即当接入用户已占用总资源的95%时,异构网络将拒绝所有新呼叫和切换用户的呼叫请求;
2、考虑到切换掉话对于用户来说比呼叫阻塞更加难以忍受,为切换用户预留总资源的百分之Xhandoff的资源,专门用于接入切换用户的呼叫请求;
3、另外,考虑到非实时业务NRT对于业务延时比实时业务RT更加能够容忍。基于此,认为RT业务比NRT业务更重要,所以,剩下的资源为实时业务RT预留百分之XRT,最后剩下的Xmix的资源,由RT业务与NRT业务共享。
如图1所示,Xhandoff与XRT之间的门限为TH1,XRT与Xmix之间的门限为TH2。这个模块中控制者的目的是通过Q学习的方法找到每个不同的网络状态下设置TH1与TH2的最佳策略。
三、在网络选择模块中,将第二步中的两个门限设置作为输入参量,执行用户准入策略。假定网络总资源为百分之百,用B表示,B′为被已接入用户已经占用的资源的百分数。具体的接入策略为:
如果B′<Xmix接入所有RT与NRT用户;
如果Xmix≤B′<Xmix+XRT,接入所有RT用户,拒绝所有NRT用户;
如果Xmix+XRT≤B′<Xmix+XRT+Xhandoff,拒绝所有新的RT与NRT用户,但是接受切换呼叫用户;
如果Xmix+XRT+Xhandoff≤B′<95%拒绝所有呼叫请求。
四、在两个模块执行动作后,网络进行了用户的接入或拒绝,网络内用户数发生改变,即网络进入下一状态et+1。网络环境根据用户体验QoS会给出一个立即回报pt(e,a),反馈给系统,来判断两个模块所执行动作正确与否。
本发明为准入控制系统设计两个模块,门限估计模块和网络选择模块。门限控制模块用Q学习的方法为网络选择模块提供自适应网络状态的门限设置策略。这里的门限主要是负责异构网络资源分配的控制,通过Q学习的方法,能够实现对于网络资源预留的门限设置学习。从而根据网络状态的变化,动态的调整资源预留门限,自适应的进行网络资源分配。网络选择模块根据网络状态输入,以及门限估计的模块进行异构网络用户准入控制。
本发明从异构网络整体性能出发,以网络内已经接入用户数作为网络状态,综合考虑切换用户和实时业务的优先级资源分配策略,使得用户接入控制策略不仅能够在一般网络状态接入更多的用户,且在网络拥塞状态下仍能够保持良好的性能。另外,在用户准入动作执行后,将用户的QoS变化作为系统的回报反馈给控制系统,用来优化下一步的执行动作。这样,本发明能够兼顾考虑网络整体性能和用户QoS质量,做到全局优化。
该方法可降低系统复杂性,操作简单,估计精度高,性能稳定。
Claims (5)
1.基于Q学习资源分配策略的异构网络准入控制方法,其特征是:它由以下步骤实现:
步骤一、在离线阶段,
定义Q学习中的可执行动作集A,用于在Q学习过程中,设定两个不同的资源分配门限TH1与TH2;
定义系统的立即回报函数pt(e,a),用于在每个当前状态et下系统执行可用动作后,作为网络环境对系统执行动作的回报,来判断系统执行动作的正确程度,其中e为异构网络状态;
初始化Q值表,对于每个可用的动作a分配一个对应的Q值,形成一个Q值表,对每个Q值在[0,1]区间内随机赋值;
步骤二、在在线阶段,
步骤二一、测量并记录WCDMA/WLAN异构网络t时刻下的网络状态et,作为门限估计模块的输入参数;t的初始值为1;
步骤二二、当用户发起新呼叫或者切换呼叫时,采用门限估计模块根据t时刻下的网络状态et和与可用动作a对应的Q值表中最大Q值相应的动作来进行门限设定;
并采用网络选择模块根据t时刻下的网络状态et和门限估计模块设定的门限接入或拒绝接入该用户,并记录当前的立即回报函数pt(e,a);
步骤二三、将t的值加1,测量并记录WCDMA/WLAN异构网络在t+1时刻下的网络状态et+1;
步骤二四、根据公式:
Qt+1(e,a)=(1-α)Qt(e,a)+α{pt(e,a)+βVt(e)}
对Q值表进行更新;
式中:α是学习强度,α=0.1~0.2;β为折扣因子,且0<β<1;Qt+1(e,a)为异构网络在t+1时刻下的网络状态et+1下,更新后的Q值;Qt(e,a)为前一网络状态为t时刻下的网络状态et下的Q值,Vt(e)为值函数,所述Vt(e)的值通过公式:
获得,其中b是在t时刻下的网络状态et时的可选动作;
步骤二五、判断t+1时刻下的网络状态et+1时Q值与t时刻下的网络状态et的Q值的差值△Q(e,a),是否满足收敛条件△Q(e,a)<ε,a∈A,其中E为网络状态集;如果判断结果为是,则令t的值加1,并返回执行步骤二一;如果判断结果为否,则执行步骤二六;
步骤二六、完成基于Q学习资源分配策略的异构网络准入控制。
2.根据权利要求1所述的基于Q学习资源分配策略的异构网络准入控制方法,其特征在于离线阶段的可执行动作集A的表达式为:
A={[(TH1-θ),(TH2-θ)],[(TH1-θ),(TH2+θ)],[(TH1-θ),(TH2+0)],
[(TH1+0),(TH2-θ)],[(TH1+0),(TH2+θ)],[(TH1+0),(TH2+0)],
[(TH1+θ),(TH2-θ)],[(TH1+θ),(TH2+θ)],[(TH1+θ),(TH2+0)]}
式中:θ是每次门限的变化量。
3.根据权利要求1所述的基于Q学习资源分配策略的异构网络准入控制方法,其特征在于θ的取值为0.5。
4.根据权利要求1所述的基于Q学习资源分配策略的异构网络准入控制方法,其特征在于在离线阶段的立即回报函数pt(e,a)的表达式为:
其中:NRT表示非实时业务,RT表示实时业务,ns_RT是单覆盖区内RT用户数,ns_NRT是单覆盖区内NRT用户数,nd_RT是双覆盖区内RT用户数,nd_NRT是是双覆盖区内NRT用户数。
5.根据权利要求4所述的基于Q学习资源分配策略的异构网络准入控制方法,其特征在于在在线阶段的立即回报函数pt(e,a)的获得方法:
pt(e,a)=pt(e,a)_access+pt(e,a)_QoS
其中:pt(e,a)_QoS为用户QoS回报函数;
所述pt(e,a)_QoS是根据公式:
获得的,其中:Rt(e,a)、Dt(e,a)和Et(e,a)分别是执行动作后用户的数据速率、传输延时和BER;
R*、D*和E*分别是用户期望的数据速率、传输延时和BER。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310167173.8A CN103220751B (zh) | 2013-05-08 | 2013-05-08 | 基于q学习资源分配策略的异构网络准入控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310167173.8A CN103220751B (zh) | 2013-05-08 | 2013-05-08 | 基于q学习资源分配策略的异构网络准入控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103220751A CN103220751A (zh) | 2013-07-24 |
CN103220751B true CN103220751B (zh) | 2016-03-30 |
Family
ID=48818085
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310167173.8A Active CN103220751B (zh) | 2013-05-08 | 2013-05-08 | 基于q学习资源分配策略的异构网络准入控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103220751B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105578486B (zh) * | 2016-02-29 | 2019-01-22 | 重庆邮电大学 | 一种异构密集网络中容量与覆盖联合优化方法 |
CN108139930B (zh) * | 2016-05-24 | 2021-08-20 | 华为技术有限公司 | 基于q学习的资源调度方法和装置 |
GB2551124B (en) * | 2016-06-02 | 2020-03-25 | Samsung Electronics Co Ltd | Improvements in and relating to network configuration |
CN107889195B (zh) * | 2017-11-16 | 2020-06-16 | 电子科技大学 | 一种区分业务的自学习异构无线网络接入选择方法 |
CN108112082B (zh) * | 2017-12-18 | 2021-05-25 | 北京工业大学 | 一种基于无状态q学习的无线网络分布式自主资源分配方法 |
CN108347744B (zh) * | 2018-01-19 | 2020-08-28 | 厦门大学 | 一种设备接入方法、装置及接入控制设备 |
CN108391272A (zh) * | 2018-03-04 | 2018-08-10 | 中国人民解放军陆军工程大学 | 动态分配回收的频谱服务模型及集中式动态频谱分配方法 |
CN109787696B (zh) * | 2018-12-11 | 2021-05-11 | 杭州电子科技大学 | 基于案例推理与合作q学习的认知无线电资源分配方法 |
CN113098771B (zh) * | 2021-03-26 | 2022-06-14 | 哈尔滨工业大学 | 基于Q学习的分布式自适应QoS路由方法 |
CN114845359A (zh) * | 2022-03-14 | 2022-08-02 | 中国人民解放军军事科学院战争研究院 | 一种基于Nash Q-Learning的多智能异构网络选择方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101321385A (zh) * | 2007-12-29 | 2008-12-10 | 北京邮电大学 | 异构无线网络中的协同资源管理方法及其系统 |
WO2010112086A1 (en) * | 2009-04-03 | 2010-10-07 | Nokia Siemens Networks Oy | Communication resource allocation strategy |
CN102665254A (zh) * | 2012-05-21 | 2012-09-12 | 哈尔滨工业大学 | 基于用户收益的cdma/wlan异构网络接入选择方法 |
CN102835052A (zh) * | 2010-04-13 | 2012-12-19 | 高通股份有限公司 | 用于异构网络的演进型b节点信道质量指示符(cqi)处理 |
-
2013
- 2013-05-08 CN CN201310167173.8A patent/CN103220751B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101321385A (zh) * | 2007-12-29 | 2008-12-10 | 北京邮电大学 | 异构无线网络中的协同资源管理方法及其系统 |
WO2010112086A1 (en) * | 2009-04-03 | 2010-10-07 | Nokia Siemens Networks Oy | Communication resource allocation strategy |
CN102835052A (zh) * | 2010-04-13 | 2012-12-19 | 高通股份有限公司 | 用于异构网络的演进型b节点信道质量指示符(cqi)处理 |
CN102665254A (zh) * | 2012-05-21 | 2012-09-12 | 哈尔滨工业大学 | 基于用户收益的cdma/wlan异构网络接入选择方法 |
Non-Patent Citations (2)
Title |
---|
异构无线网络中基于非合作博弈论的资源分配和接入控制;李明欣等;《软件学报》;20100831;第21卷(第8期);2037-2049 * |
异构无线网络联合呼叫接纳控制优化算法;冯晓峰等;《西安电子科技大学学报(自然科学版)》;20131031;第40卷(第5期);194-199 * |
Also Published As
Publication number | Publication date |
---|---|
CN103220751A (zh) | 2013-07-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103220751B (zh) | 基于q学习资源分配策略的异构网络准入控制方法 | |
Sun et al. | Autonomous resource slicing for virtualized vehicular networks with D2D communications based on deep reinforcement learning | |
Heikkinen | A potential game approach to distributed power control and scheduling | |
Niu et al. | Selecting proper wireless network interfaces for user experience enhancement with guaranteed probability | |
Liang et al. | A novel adaptive resource allocation model based on SMDP and reinforcement learning algorithm in vehicular cloud system | |
CN103298076A (zh) | 一种异构网络中的接入网络选择的方法 | |
CN106162680A (zh) | 扩容参数确定方法及装置 | |
CN102523585A (zh) | 基于改进遗传算法的认知无线电方法 | |
CN103888371A (zh) | 一种虚拟网络映射的方法和装置 | |
Kim | Multi-leader multi-follower Stackelberg model for cognitive radio spectrum sharing scheme | |
Barrachina-Muñoz et al. | Stateless reinforcement learning for multi-agent systems: The case of spectrum allocation in dynamic channel bonding WLANs | |
Yin et al. | Distributed spectrum and power allocation for D2D-U networks: a scheme based on NN and federated learning | |
Wang et al. | Application-value-awareness cross-layer MAC cooperative game for vehicular networks | |
Geng et al. | A reinforcement learning framework for vehicular network routing under peak and average constraints | |
Barrachina-Muñoz et al. | Multi-armed bandits for spectrum allocation in multi-agent channel bonding WLANs | |
Zhao et al. | Channel allocation optimization algorithm for hybrid wireless mesh networks for information physical fusion system | |
Bezerra et al. | A machine learning-based optimization for end-to-end latency in TSN networks | |
Zhu et al. | Optimal service rate in cognitive radio networks with different queue length information | |
CN102740475B (zh) | 一种动态信道分配方法和系统 | |
Hu et al. | Channel Selection Policy in Multi‐SU and Multi‐PU Cognitive Radio Networks with Energy Harvesting for Internet of Everything | |
CN117596605A (zh) | 一种面向智能应用的确定性网络架构及其工作方法 | |
CN113316174A (zh) | 一种非授权频谱智能接入方法 | |
Cui et al. | O-RAN slicing for multi-service resource allocation in vehicular networks | |
Liu et al. | Power rationing for tradeoff between energy consumption and profit in multimedia heterogeneous networks | |
Deng et al. | Rl-based radio resource slicing strategy for software-defined satellite networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20200327 Address after: 150001 No. 118 West straight street, Nangang District, Heilongjiang, Harbin Patentee after: Harbin University of technology high tech Development Corporation Address before: 150001 Harbin, Nangang, West District, large straight street, No. 92 Patentee before: HARBIN INSTITUTE OF TECHNOLOGY |
|
TR01 | Transfer of patent right |