CN102238631A

CN102238631A - 基于强化学习的异构网络资源管理方法

Info

Publication number: CN102238631A
Application number: CN2011102360296A
Authority: CN
Inventors: 朱琦; 赵彦清; 赵夙
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2011-08-17
Filing date: 2011-08-17
Publication date: 2011-11-09

Abstract

本发明的基于强化学习的异构网络资源管理方法，针对异构网络的多种业务需求和多样呼叫类型，将强化学习用于异构无线网络的资源管理中，将不同的呼叫类型区分对待，赋予不同的处理优先级，对不同的业务类型采取不同的资源分配策略，给出了基于负载的带宽自适应均衡因子和基于带宽的利润函数，并将二者联合作为回报函数，在尽量满足各种业务带宽需求的情况下实现了不同网络之间的负载均衡和同一网络内的自适应带宽分配，提高了资源利用率。

Description

基于强化学习的异构网络资源管理方法

技术领域

本发明涉及一种特别用于异构网络环境中的无线资源管理方法，并采用了强化学习的控制策略，属于通信技术领域。

背景技术

随着无线通信技术的快速发展，出现了多种无线接入技术并存的局面，由于这些无线接入系统都是专门针对某些特定的业务类型和用户群体而设计的，所以在网络的覆盖范围、可用带宽、资费水平、对用户移动性的支持和服务质量(QoS)保证等方面都存在一定的差异性，这种针对特定业务类型而专门设计的无线接入系统己经无法再满足用户日益复杂多变的业务需求。由于现在的各种无线接入系统在很多区域内都是重叠覆盖的，因此可以将这些相互重叠的不同类型的无线接入系统智能地融合在一起，共同为用户提供随时随地的无线接入服务，从而构成了一种异构无线网络(Heterogeneous Wireless Networks，HWN)。所谓异构(heterogenoous)其实是指两个无线接入系统采用了不同的无线接入技术，或者是采用相同的无线接入技术但属于不同的无线运营商。在异构无线网络中，用户可以根据业务需要和网络状态等因素随时选择接入到最合适的那个无线接入系统中，从而满足用户灵活多变的个性化业务需求。另外，通过合理的无线资源管理，可以充分利用异构无线网络中各种无线接入系统的基础设施和频率资源，充分激发这些系统的潜能，共同为用户提供单系统运营模式下所无法支持的业务和功能，从而在满足用户复杂多变的个性化业务需求的同时提高无线运营商的利润水平

为了实现异构网络的真正融合，无线资源管理已经成为异构网络中的关键技术之一。为此人们针对异构网络中的资源管理问题提出了很多方案和算法。强化学习(RL)可以从延迟的回报中获取最优的控制策略，一个可学习的智能体，它可以观察环境的状态并能做出一组动作改变这些状态，学习的任务是获得一个控制策略，以选择能达到目的的行为。RL以其自适应性和灵活性，被广泛的应用于机器人和自动控制领域，并被引入到动态频谱接入中。

发明内容

技术问题：本发明的目的是提出有一种基于强化学习的异构网络资源管理方法，针对异构网络的多种业务需求和多样呼叫类型，该算法将不同的呼叫类型区分对待，对不同的业务类型采取不同的资源分配策略，提出了基于负载的带宽自适应均衡因子和基于带宽的利润函数，并将二者联合作为回报函数。

技术方案：本发明的基于强化学习的异构网络资源管理方法将强化学习用于异构网络的资源管理中，具体包括以下内容：

a.状态空间由可用网络数量、当前的网络负载状况、呼叫类型及业务类型组成；

b.动作空间包括网络的选择以及带宽的分配，带宽分配是按照2^b个带宽单元来分配的，其中b＝0，1，2，......，所以在此用b的取值来定义动作空间A：A＝{0，1，2，......n·(K+1)-1}，其中n就是状态空间中的可用网络数量，K表示b的最大取值，K＝max(b)，如果当前只有一个网络覆盖，则A＝{0，1，2，......K}，分别表示当前网络所能够分配的不同带宽等级：2⁰个带宽单元，2¹个带宽单元，......2²个带宽单元，如果当前有两个网络覆盖，则A＝{0，1，2，...K，K+1，...2K+1}，分别表示不同的网络所能分配的不同带宽等级；

c.回报函数需要根据不同的业务进行定义：语音业务对带宽要求不高，只要B_vc个带宽单元就能满足其通信需求，不管接入哪个网络，只要给它分配的带宽多于B_vc个带宽单元，则回报就是0，如果给它分配的带宽是B_vc个带宽单元，则就获取相应的回报，B_vc为传输语音业务所需要的带宽单元数目；对于视频业务和数据业务就涉及到带宽需求的问题，用一个利润函数P来和每次分配动作相关联，则视频业务的回报函数定义为

r = \{\begin{matrix} β \cdot P + (1 - β) \cdot G & B_{\min vd} \leq 2^{b} \leq B_{\max vd} \\ 0 & else \end{matrix},

其中β是权重系数，G为自适应带宽均衡因子，B_minvd为视频业务所需的最小带宽，B_max vd为视频业务所需要的最大带宽；数据业务的回报函数定义为

r = \{\begin{matrix} β \cdot P + (1 - β) \cdot G & 2^{b} &GreaterEqual; B_{\min da} \\ 0 & else \end{matrix},

其中B_min da为数据业务所需的最小带宽。

所述的利润函数P＝g-σ·l，其中g表示这次分配动作相对于动作之前的带宽收益值，则g＝ΔB＝B_b-B_f，其中B_b表示动作之后的带宽，B_f表示动作之前的带宽；l表示这次动作所付出的代价值，l＝B_f·τ，其中τ表示切换时延；σ是时延敏感系数，σ越大，时延损失在利润函数中占得比重就越大；因此P＝g-σ·l＝B_b-B_f-σ·B_f·τ。

所述的自适应带宽均衡因子G定义为G＝(1-η_i)^b，其中b表示本次分配动作为该用户分配了2^b个带宽单元，η_i表示所选网络i的负载。

有益效果：本发明提供了一种基于Q学习的异构网络资源管理方法，该方法利用基于带宽的利润函数和基于负载的自适应带宽均衡因子共同作为回报函数，对不同的呼叫类型区分对待赋予了不同的优先级，使得切换中断率远小于始呼阻塞率，对不同的业务类型采取不同的资源管理方案，在尽量满足各种业务带宽需求的情况下实现了不同网络之间的负载均衡和同一网络内的自适应带宽分配，提高了资源利用率。

附图说明

图1网络覆盖模型。

具体实施方式

本发明以图1所示网络环境为背景，此异构网络由一个覆盖范围最大，可用带宽资源最少的网络N所覆盖，其网络覆盖范围是半径为R的圆，可用带宽资源数位B。同时为了满足一些热点地区的服务请求，在该网络范围内又重复覆盖了一些覆盖范围小但是带宽资源丰富的网络N_i，每一个网络的覆盖范围是一个半径为Ri的圆形。每一个网络的可用带宽资源数为B_i，其中B_i＞B(i≥1)。网络为每个用户分配的带宽资源以基本带宽单元(bandwidth units，BWU)为基数，按照2^b个BWU来分配(b＝0，1，2，......)。

根据3GPP(3rd Generation Partnership Project)对3G系统的业务类型的定义，我们选取了语音业务、视频业务和数据业务三个不同的业务作为本场景的业务类型。根据三种业务的服务质量(quality of service，QoS)特征分析如下：(1)语音业务要求时延低，仅需较低信道带宽。所以语音业务应该尽量选择覆盖范围大时延低的网络，如N₁，同时我们定义它的带宽需求是B_vc个BWU，即如果网络可以提供B_vc个BWU，就可以为语音业务服务。如果网络为语音业务分配的带宽资源多于B_vc个BWU，由于这不仅不会提高业务的QoS，反而会造成网络宝贵的带宽资源的浪费，所以这样的分配结果不可取。(2)视频业务要求时延低，并且需要足够的信道带宽。在现在的通信网络中，视频通信业务可以有多种级别的编码方式，对应不同级别的服务质量，同时也对应了不同程度的带宽需求。因此我们可以对视频业务的带宽需求分为不同的等级，其中用B_minvd个BWU表示最小带宽需求，即如果为视频业务分配的带宽小于该最小带宽需求量则不能建立该视频通信服务，由于视频通信受其编码方式的限制，QoS并不能随着带宽的增加无限的提高，所以我们用B_maxvd个BWU表示最大带宽需求，即如果为视频业务分配的带宽大于该最大带宽需求量，由于QoS不会再提高，反而造成频谱资源的浪费，所以这样的分配结果也不可取，然后在B_minvd和B_maxvd之间有几个不同的服务等级。(3)数据业务允许一定的时延，对带宽要求高。即数据业务是非实时带宽敏感性业务，所以对于数据业务而言带宽越多越好，因为获得的带宽越多，就越能够尽快的完成此次通信。所以我们定义B_minda个BWU为数据业务的最小需求带宽，只要网络能够给视频业务提供的带宽高于此最小带宽需求量就能够为数据业务服务，并且带宽越大，QoS越好。

在本发明中涉及到的呼叫类型有始呼、水平切换和垂直切换。其中刚刚发起的会话为始呼；当用户从同一网络的一个小区移动到相邻小区时为水平切换；当一个用户由当前网络转移到另一个不同类型的网络时为垂直切换。从用户的体验角度来讲，中断一个用户的切换请求比阻塞一个用户的始呼请求更加让人难以接受，这一点在实时性业务的应用上表现更加明显，所以网络在对待实时性业务的始呼和切换时，应该对其赋予不同的优先级，即优先处理切换业务。为此，本发明在处理时采用带宽预留策略，即首先预留一定的带宽资源给切换业务，对于始呼业务，只有网络剩余带宽资源在超过预留资源数量的基础上又能满足该业务的最少带宽需求的情况下才能接受该呼叫请求。

A.问题映射：

(1)状态空间S

本发明中的网络资源管理不仅对不同呼叫类型赋予不同的处理优先级，还要对不同的业务类型采取不同的资源分配方案，所以状态的定义一定要体现出呼叫类型和业务类型的差异。本发明对状态S的定义如下：

S＝{n，L，c，m} (1)

其中n表示当前的可用网络数量；L表示当前的网络负载状况；c表示呼叫类型，有始呼、水平切换、垂直切换三种情况；m表示业务类型，有语音业务、视频业务和数据业务三种不同业务。

(2)动作空间A

由于本发明不仅要为每一个通信请求选择一个网络进行接入，还要为其分配合适的带宽。所以动作空间中要把网络和带宽大小都要包含进去。本发明的带宽分配是按照2^b(b＝0，1，2，......)个BWU来分配的，所以在此用b的取值来定义动作空间A：

A＝{0，1，2，......n·(K+1)-1} (2)

其中n就是状态空间中的可见网络数量，K表示b的最大取值(K＝max(b))。如果当前只有一个网络覆盖，则A＝{0，1，2，......K}，分别表示当前网络所能够分配的不同带宽等级：2⁰个BWU，2¹个BWU，......2²个BWU.如果当前有两个网络覆盖，则A＝{0，1，2，...K，K+1，...2K+1}，分别表示不同的网络所能分配的不同带宽等级。

(3)回报函数r

对于语音业务，由于其对带宽要求不高，只要B_vc个BWU就能满足他的通信需求，所以不管接入哪个网络，只要给它分配的带宽多于B_vc个BWU，则回报就是0，如果给它分配的带宽是B_vc个BWU，则就获取相应的回报。

对于视频业务和数据业务就涉及到带宽需求的问题，本发明对视频业务和数据业务用一个利润函数P＝f(g，l)来和每次分配动作相关联。其中P表示此次分配动作的利润值，g表示这次分配动作相对于动作之前的带宽收益值，l表示这次动作所付出的代价值，则：

g＝ΔB＝B_b-B_f (3)

其中B_b表示动作之后的带宽，B_f表示动作之前的带宽。

l＝B_f·τ (4)

其中τ表示切换时延。

P＝g-σ·l

(5)

＝B_b-B_f-σ·B_f·τ

其中σ是时延敏感系数，σ越大，时延损失在利润函数中占得比重就越大。本发明为了体现视频业务与数据业务对时延的不同敏感度，在视频业务中σ＝0.7，在数据业务中σ＝0.2。

对于始呼业务，由于是初次接入网络，所以B_f＝0，τ＝0。所以对于始呼业务而言，其利润值只由所获得的带宽来决定，带宽越大，则利润值越大；对于切换业务(包括水平切换和垂直切换)利润值不仅取决于动作之后的带宽，还要看动作之前的带宽值，因为只有动作前后带宽增加才算是有所收获，同时由于是切换，所以切换时延肯定是存在的，所以最终利润要在带宽收益基础上减去切换时延这段时间内所能传输的比特量。

从利润函数的定义来看，如果每次分配动作都按照利润值最大化来执行，从用户的角度来说固然很好，因为它可以尽可能多的获取带宽资源，但是从系统阻塞率的角度来看，一味的给用户分配最大带宽必然造成系统阻塞率的增高，如果负载比较轻阻塞率的增高还不是很明显，但是一旦网络负载过重，阻塞率增高的问题就不可避免。

为了解决此问题本发明在此基础上给出了一个自适应带宽均衡因子G：

G＝(1-η_i)^b (6)

其中b表示本次分配动作为该用户分配了2^b个BWU；

B表示所选网络已经占用的带宽资源数，所以η_i就表示所选网络的负载情况，网络的负载不同，η_i就不同，从而反映到G的差异，因此可以实现不同网络间的负载均衡。在同一网络内部，b不同，G的大小也就不同，并且η_i越大，各个b所对应的G之间的比例相差越大，从而可以实现同一网络内的自适应带宽分配。

视频业务的回报函数定义如下：

r = \{\begin{matrix} β \cdot P + (1 - β) \cdot G & B_{\min vd} \leq 2^{a} \leq B_{\max vd} \\ 0 & else \end{matrix} - - - (7)

数据业务的回报函数定义如下：

r = \{\begin{matrix} β \cdot P + (1 - β) \cdot G & 2^{a} &GreaterEqual; B_{\min da} \\ 0 & else \end{matrix} - - - (8)

其中β是权重系数，从视频业务回报函数的定义可以看出，只有在网络为其分配的带宽介于视频业务所需要的最小与最大带宽之间是才会获得相应的回报，否则，获取的回报将是0，因为为视频业务分配的带宽小于其所需的最小带宽则不能建立此通信服务，故回报是0，如果分配的带宽大于所需的最大带宽，受视频业务编码方式的影响，已经不能再继续提高QoS，反而造成了频谱资源的浪费，故回报也应该是0。

权重系数β的大小直接决定了收益函数和自适应带宽均衡因子在回报中的各自比重大小。如果β＝1和β＝0就取了两个极限情况，即回报大小完全由收益函数决定和完全由自适应带宽均衡因子决定，对于前者就是本发明中涉及到的非自适应带宽分配，由于带宽越大，收益函数就越大，所以回报函数会驱使网络不断地分配最大带宽；对于后者，由于所分配的带宽越小，G越大，回报函数会驱使网络不断分配最小带宽，两种情况都不可取。所以只有给β赋予0到1之间的值时，就是本发明所提出的自适应带宽分配，才会使带宽分配策略综合考虑带宽和负载两种因素，在负载轻时，尽量满足业务的最大带宽需求，在负载重时，负载的影响作用将增强，为每个业务分配的带宽就会减小。将G融入回报函数中不仅能实现不同网络间的负载均衡，同时能实现同一网络内的自适应带宽分配。通过调节β的大小可以调整带宽和负载的影响比重，从而可以调整分配策略以改变系统性能。B准入条件：

从理论上说，只要网络所能够提供的带宽可以满足各个业务的最小带宽需求就能够将此次通信请求接入为其服务，但是为了体现实时性切换业务的优先性，本发明采用带宽预留机制，预留了B_re个BWU来为实时性切换业务服务，假定当前状态下网络所能提供的带宽资源为B_pr个BWU，B_min为当前申请业务所需要的最小BWU个数，即对于语音和视频业务的切换请求，只要满足式(9)就将其接入，而对于语音和视频业务的始呼请求，只有满足式(10)才能将其接入：

B_pr≥B_min (9)

B_pr≥B_min+B_re (10)

由于数据业务对实时性要求比较低，所以就不在对始呼和切换请求赋予不同的优先级，而是同等对待。故其准入条件均为式(1∶2)。

综合考虑了网络负载、业务类型以及呼叫类型等因素，基于Q学习方法，根据上述映射，得到了异构无线网络资源管理算法，具体步骤如下：

第一步：初始化Q(s，a)，比如0或者随机产生的值，设定折扣因子γ、初始学习率α以及动作选择算法中的初始探索概率ε；

第二步：获取当前状态s，包括当前各网络的负载情况，呼叫类型以及业务类型；

第三步：选择执行的动作a，观察当前的状态集合和动作集合，根据此状态的动作函数值Q_t(s，a)，按照一定的策略π选择动作a并执行；

第四步：获取回报r和下一时刻的状态s′，根据动作执行的结果按照式(7)(8)计算当前回报r，并找到下一状态的动作值函数最大值

根据式(1)更新Q_t(s，a)；

第五步：参数更新，每轮迭代结束以后，学习率和探索概率都要进行更新，为了满足Q学习的收敛性，本文设置它们以负指数规律随学习过程逐渐减小到0。

Claims

1.一种基于强化学习的异构网络资源管理方法，其特征在于该方法将强化学习用于异构网络的资源管理中，具体包括以下内容：

r = \{\begin{matrix} β \cdot P + (1 - β) \cdot G & B_{\min vd} \leq 2^{b} \leq B_{\max vd} \\ 0 & else \end{matrix},

其中β是权重系数，G为自适应带宽均衡因子，B_min vd为视频业务所需的最小带宽，B_max vd为视频业务所需要的最大带宽；数据业务的回报函数定义为

r = \{\begin{matrix} β \cdot P + (1 - β) \cdot G & 2^{b} &GreaterEqual; B_{\min da} \\ 0 & else \end{matrix},

其中B_min da为数据业务所需的最小带宽。

2.如权利要求1所述的基于强化学习的异构网络资源管理方法，其特征在于所述的利润函数P＝g-σ·l，其中g表示这次分配动作相对于动作之前的带宽收益值，则g＝ΔB＝B_b-B_f，其中B_b表示动作之后的带宽，B_f表示动作之前的带宽；l表示这次动作所付出的代价值，l＝B_f·τ，其中τ表示切换时延；σ是时延敏感系数，σ越大，时延损失在利润函数中占得比重就越大；因此P＝g-σ·l＝B_b-B_f-σ·B_f·τ。

3.如权利要求1所述的基于强化学习的异构网络资源管理方法，其特征在于所述的自适应带宽均衡因子G定义为G＝(1-η_i)^b，其中b表示本次分配动作为该用户分配了2^b个带宽单元，η_i表示所选网络i的负载。