CN110224861A

CN110224861A - 基于学习的自适应动态异构网络选择策略的实现方法

Info

Publication number: CN110224861A
Application number: CN201910415452.9A
Authority: CN
Inventors: 李晓红; 王莹
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-05-17
Filing date: 2019-05-17
Publication date: 2019-09-10

Abstract

本发明公开了一种基于学习的自适应动态异构网络选择策略的实现方法，步骤1、进行基于多智能体的网络选择场景建模；步骤2、对每个终端用户执行动态异构网络选择策略算法，该算法包含网络选择过程和网络评估过程，分别构建候选基站集合和备用基站集合，如果候选基站集合不为空，将拥有最多可用带宽的基站作为当前的最优接入基站；在选择过程完成之后，开始执行网络评估过程：即进行用户i对该基站的优劣评估；针对它的每个可用的基站k，计算检测该基站是否够能满足自身的特定需求。本发明能够达到如网络端的负载均衡、用户收益和总的网络带宽利用效率等更好的网络性能；另外，用户不服从该策略的情况下，系统仍具有良好的鲁棒性。

Description

基于学习的自适应动态异构网络选择策略的实现方法

技术领域

本发明涉及无线网络资源管理技术领域，特别是涉及一种动态异构网络选择方法。

背景技术

随着网络技术的快速发展，网络结构朝着异构化、智能化的方向发展。将多种无线接入技术集成到一起势在必行。移动终端智能设备终端用户数与其带宽需求的显著增加，这两者成为新网络环境的两大特征。

然而，新网络环境的两大特征在带来好处的同时，也引入了新的挑战。其中一个挑战就是在网络环境、无线资源动态变化的情况下，终端用户处于一个多终端用户、多网络技术、多应用设备、多供应商的异构网络环境中，需要先进的技术和标准来帮助用户自适应地做出最优网络选择决策，并且要充分利用网络资源，实现网络基站端的负载均衡等。对于传统异构网络选择问题，终端用户需要从不同的基站中选择合适的网络来接入以满足自身的需求。而这些网络基站在网络技术、覆盖范围、带宽供给量、价格等方面可能均不相同，甚至它们可能属于不同的网络运营商。从用户角度来看，用户终端设配有多种无线网络接口，可以在任何时间任何地点接入任何类型网络。在这种配置下，用户可以自由的从一个网络基站切入到另外一个基站。

商业解决办法通常采用的是一些简单的静态网络选择策略，如总是选择接入WLAN网络，或总是选择接入最便宜或最快的网络等，没有考虑到变化的网络特征和特定的用户偏好，导致了服务质量(QoS)的低下。而研究文献所记载的许多传统的方法大多采用多属性决策算法，如简单加权算法SAW，近似理想点法TOPSIS等，但当所有用户连接所谓的“最佳”网络时，也会造成拥塞的状况。

许多现有技术在研究如何帮助终端用户从许多可用的网络中，选择一个合适的接入网络来满足自身特定的需求。虽然目前针对网络选择的算法已经有许多，他们从各个网络性能角度和采用各种技术实现，然而仍存在以下两个方面的缺陷：一是网络信息的需求太大。这些已有的算法需要在进行网络选择之前掌握太多的网络状态信息，如基站端提供的网络带宽，参与网络的选择的终端用户数等。这些信息的获取需要耗费很高的代价，有些信息在实际网络环境中根本是无法获得的。二是对于动态网络环境的适应性差。现有的研究工作仅仅考虑静态无线网络资源，而没有考虑智能网络环境中网络资源的动态特征。这些工作可能在拥有充足网络状态信息，或网络环境保持稳定的情况下，有很好的系统性能，但是，当环境信息缺失，网络资源动态变化时，就不能很好的应对这类情况了。

故为了解决新的无线网络资源的选择策略是本发明亟待解决的技术难题。

发明内容

针对在网络环境、无线资源动态变化的情况下，终端用户如何做出最优网络选择以及如何充分利用网络资源的问题，本发明提出一种基于学习的异构网络选择策略的视线实现方法，利用到博弈论和强化学习的知识，通过抽象多智能体协作模型，采用自适应的动态异构网络选择算法，帮助终端用户在最少信息量的情况下，在诸多可用的接入网络中选择最合适的。

本发明的一种基于学习的自适应动态异构网络选择策略的实现方法，该方法包括以下步骤；

步骤1、进行基于多智能体的网络选择场景建模：基于多智能体的网络选择场景模型为一个六元组<BS,B_k(t),U,b_i(t),A_i,P_i(t,a)>，其中：BS＝{1,2,...,m}为在异构网络环境中可用的基站的集合；B_k(t)为基站k在t时刻能提供的带宽(随时间动态变化)，k∈BS；U＝{1,2,...,n}为参与网络选择的终端用户集合；b_i(t)为某一特定用户i在时刻t的带宽需求，其中i∈U，0<i<n；为用户i的可选执行决策a_i的有限集合，a_i代表用户i所采用的决策(即选择接入的基站)，a_i∈A_i；P_i(t,a)为某一特定用户i在时刻t的所有用户执行策略集a＝{a₁,...,a_i,...a_n}∈×_j＝UA_j下的收益函数，收益函数P_i(t,a)定义如下：

其中，α和β为用于控制收益函数的形状的常量，w_i(t,a)为某一特定用户i在时刻t得到的带宽量，b_i(t)为某一特定用户i在时刻t的带宽需求×_j∈UA_j为所有用户可选决策有限集合，×_j∈U为所有用户，j为任意用户；

步骤2、对每个终端用户执行动态异构网络选择策略算法，该算法包含网络选择过程和网络评估过程，其中：

所述网络选择操作具体包括：对于某一终端，当某一特定用户i向某基站发出连接请求，如果该请求中并没有保存任何该基站的历史信息，该基站被加入到备用基站集合中；如果预测的负载情况加上用户的需求低于预测的可用带宽量，那么该基站被加入候选基站集合中；如果候选基站集合不为空，将拥有最多可用带宽的基站作为当前的最优接入基站；如果候选基站集合为空，考虑备用基站集合；如果候选基站集合和备用基站集合都为空，用户将继续保持原有的连接不变，并将标志位flag置为-1；

所述网络评估操作具体包括：首先可根据用户选择的基站类型分为三种情况，情况一、如果被选择的基站是该终端用户首次访问，用户为该基站创建一个新的预测器集合并将其状态信息记录到相应的历史记录表中，所有的预测器从一个预定义集合中随机选取；情况二、如果标志位flag为-1，表明根据当前的历史记录，对旧的历史记录表进行更新；情况三、终端用户切入一个之前连接过基站，即该用户对该基站已有一些状态信息的记录，则评估操作包含两方面的处理：即评估预测器集合中所有预测器的性能，并处理遇到网络环境突变的情况：对预测器性能的评估采用的是Q-learning算法，通过Q-function来进行学习，以获得更高收益的决策被增强，Q-function参数定义为：

Q_p(t)＝(1-α)Q_p(t-1)+αr_p(t-1)

其中，p为预测器，Q_p(t)为预测器p的Q-value参数，α为学习率，r_p为预测器p的预测准确度；

使用布尔兹曼探索机制来选择应用预测器，则选择预测器p作为应用预测器的概率为x_p，由以下公式表示：

其中，T为用来均衡关于预测器的探索与利用程度：当T→0时，用户将采用贪心策略，即选择Q-value最大的预测器作为应用预测器，反之，如果T→∞，用户对于预测器的选择完全是随机的；

本步骤中网络带宽和负载的预测均采用时间序列预测技术，包括以下三个主要的步骤：1)创建预测集合，每个终端用户对每个基站k都拥有一个预测集合P(a,k)＝{pu|u,1≤u≤r}，其中包含r个预测器，预测器是在评估过程的情况一中预定义好的集合中选出来的；每个预测器都是一个从负载的历史信息的时间序列到预测的下一时刻的负载值的函数，即f:((ti,loadi)|i＝0,..,p)→predLoad；2)选择实际应用的预测器，预测集中的一个预测器p为应用预测器，是在评估过程的情况二、三中选择出来的，它将应用到实际的负载预测环节中；3)进行预测，通过基站的历史负载记录和应用预测器来预测该基站下一时刻的负载情况。

与现有技术相比，本发明提出的基于学习的自适应动态异构网络选择策略的实现方法，能很好地适应动态网络环境，保证终端用户的网络接入需求，实现异构网络间的负载均衡，总体来说本发明方法达到了以下有益效果：

1、本发明不需要任何的集中管理机制、资源统一分配层或者引入额外的终端用户通信等来决定怎么将用户分配到网络基站端，以及怎么将无线资源分配到不同需求的用户终端等；

2、本发明能够很好的适应存在大量用户的动态异构网络环境，在使用本策略的系统中，用户能更好地觉察到网络环境的变化，进而能更好地适应变化，并根据变化，迅速的调整接入网络的选择，即用户适应动态网络环境的能力很强；

3、本发明同时满足纳什均衡、帕累托最优和社会最优，保证了系统的稳定性和系统级别的最优值，故随着用户数量的增加，用户收益，网络切换率和带宽利用率仍然可以保持较好的性能；

4、本发明具有良好的健壮性、鲁棒性，即使在可能有某些博弈的参与者(终端用户，网络基站等)先加入或离开博弈环境的某些情况下，而网络的总体性能却不会受到太大影响；另外，即使在有许多终端用户不服从该策略或不知道该策略的情况下，系统的各方面网络性能仍能保持良好。

附图说明

图1为本发明的基于多智能体的网络选择场景示意图，n个终端用户竞争m个基站的网络带宽资源；

图2为本发明的基于学习的自适应动态异构网络选择策略的实现方法整体流程示意图；

图3为环境缓慢变化和突变情况下，不同算法下三个基站上的负载情况示意图；曲线1：RATSA算法，曲线2：QLA算法，曲线3：ALA算法，曲线4：提供的带宽；

图4为不同终端用户数量下，用户的收益、网络切换率及总体网络带宽利用率示意图；

图5为系统的收敛速度(包括首次收敛速度和再次收敛速度)示意图。

图6为基于学习的自适应动态异构网络选择算法的鲁棒性验证示意图。

具体实施方式

在实际网络环境中，每个终端用户独立地根据本地信息做出选择网络(基站)的决策，同其他竞争的用户之间不存在任何形式的信息传递。然而，每个用户的选择结果又对其他用户的选择存在潜在的影响，如多个用户选择同一基站，会降低该基站分配给这些用户的资源数，从而降低用户收益等。因此，本发明以这个问题为模型进行基于多智能体的网络选择模型的建模。依据该模型，大量用户处在相同或不同的服务区内，各个基站可用的网络带宽量是随时间动态变化的，他们在不知道其他用户的决策信息的情况下，通过与环境的多次交互，不断学习和竞争来最大化自身的收益。

下面结合附图和实施例对本发明技术方案进行详细描述。

本发明的一种基于学习的异构网络选择策略的实现方法，目的是建立基于多智能体的网络选择模型，具体步骤如下：

步骤1、进行基于多智能体的网络选择场景建模：基于多智能体的网络选择场景模型为一个六元组<BS,Bk(t),U,b_i(t),A_i,P_i(t,a)>，其中：

BS＝{1,2,...,m}为在异构网络环境中可用的基站的集合；

B_k(t)为基站k在t时刻能提供的带宽(随时间动态变化)，k∈BS；

U＝{1,2,...,n}为参与网络选择的终端用户集合；

b_i(t)为某一特定用户i，特定用户表示正在接入基站的用户，是为与之前的任意用户j做出区分，所以称为特定用户，其实并没有什么特殊含义，就是“某一用户”)在时刻t的带宽需求(随时间动态变化且各用户的需求不同)，其中i∈U，0<i<n；

为某一特定用户i的可选执行决策a_i的有限集合，a_i代表某一特定用户i所采用的决策(即选择接入的基站)，a_i∈A_i；

P_i(t,a)为某一特定用户i在时刻t的系统(所有用户)执行策略集a＝{a₁,...,a_i,...a_n}∈×_j∈UA_j下的收益函数，×_j∈UA_j为所有用户可选决策有限集合，×_j∈U为所有用户，j表示任意用户，i表示某一特定用户，某一特定用户i的收益函数P_i(t,a)定义如下：

其中，α和β常量，用于控制收益函数的形状；w_i(t,a)为某一特定用户i在时刻t得到的带宽量(这个带宽量只是一个理论值，没有考虑传输过程中的损害和其他因素的干扰)，b_i(t)为某一特定用户i在时刻t的带宽需求；该收益函数随着用户得到的带宽量的增加而单调增加，它适用于网络中多个应用场景(即弹性服务如使用传输控制协议的文件传输和Web浏览等)。

步骤2、对每个终端用户执行动态异构网络选择策略算法，该算法包含网络选择过程和网络评估过程。

在网络选择过程中，对于某一终端，当某一特定用户i向某基站发出连接请求，如果该请求中并没有保存任何该基站的历史信息；那么对于该基站的下一时刻的状态信息是不可被预测的，这个不可被预测的基站将被放置到备用基站集合中；否则，某一特定用户i通过历史记录预测出该基站在下一时刻的可用带宽和负载情况，如果预测的负载情况加上用户的需求低于预测的可用带宽量，那么该基站将被加入候选基站集合中；如此某一特定用户i通过不断学习来选择最优的候选基站，进而满足自己特定的带宽需求；当所有可用的基站都经过上述的检查后，分以下三种情况进行网络选择操作：

情况一：如果候选基站集合不为空，即候选基站集合中的基站都是被用户认定有充足的带宽满足其需求的，那么拥有最多可用带宽的基站被认定为当前的最优接入基站；

情况二、如果候选基站集合为空，即没有可用的候选基站，将考虑备用基站集合；因为备用基站集合众的基站都是没有历史信息的，所以无法判定这些基站的优劣，故用户将从该备用集合中随机选择一个作为目标基站，并通过此机会记录其状态信息；

情况三、如果候选基站集合和备用基站集合都为空，即该算法没有给用户推荐任何基站，即没有基站可以满足用户的需求，在这种情况下，用户将继续保持原有的连接不变，并将标志位flag置为-1。

一旦网络选择过程完成，用户i将从它所接入的基站得到上一次连接建立后的反馈信息，该信息是一个二元组<load,bandwidth>，作为用户i对该基站的历史记录。每个终端的用户对于连接过的基站都保存有一个历史记录表table_k。该表最多由m个元素组成。每个元素表示为h_p＝(t_p,load_p,bw_p)，其中t_j为观测时间，load_j为观测到的负载，bw_j为观测到的带宽值。如果元素值已经达到上限m，那么旧的元素将会被覆盖，因为动态的网络环境需要更多新的信息来做出更准确的预测。table_k表示为以下公式：

table_k＝(h₀,...,h_p)＝((t₀,load₀,bw₀),...,(t_p,load_p,bw_p)),(0≤p<m)(2)

在用户选择过程完成之后，网络评估过程开始执行。在网络评估过程中，进行用户i对该基站的优劣评估；针对它的每个可用的基站k，计算检测该基站是否够能满足自身的特定需求，该过程根据用户选择的基站类型分为以下三种情况进行网络评估操作：

情况一、如果被选择的基站是该终端用户首次访问，用户为该基站创建一个新的预测器集合并将其状态信息记录到相应的历史记录表中，所有的预测器从一个预定义集合中随机选取，因此每个用户的预测器集合各不相同。如表1所示，该预定义集合包含多种类型的时间序列预测方法，并且相同类型的方法区分不同窗口大小，不同类型的预测方法可能适应不同的网络环境和变化情况；

情况二、如果标志位flag为-1，表明根据当前的历史记录，算法没有向用户推荐合适的基站。在这种情况下，一些旧的记录需要从历史记录表中移除，记录更多新的信息为下一时刻能做出更加准确的预测。这种更新是必须的，它可以让自适应网络选择更加成功；否则，用户可能永远都无法接入一个能更好满足用户需求的基站；

情况三、终端用户切入一个之前连接过基站，即该用户对该基站已有一些状态信息的记录，这种情况是最普通的情况，接下来就能进行一些评估工作，该评估工作主要包含两方面：评估预测器集合中所有预测器的性能，并处理遇到网络环境突变的情况。对预测器性能的评估采用的是Q-learning算法。Q-learning算法是一个无模型的加强学习算法。它通过Q-function来进行学习，Q-function在用户与环境进行每次交互后更新，故能获得更高收益的决策被增强。Q-function定义为：

其中，p表示预测器，Q_p(t)为预测器p的Q-value，α为学习率。r_p表示预测器p的预测准确度(即观测值与预测值比较的误差)。

用观测到的收益能进行精准预测的预测器得到更高的收益，相反地，不太准确地预测器将获得较低的收益。布尔兹曼探索机制被用来选择应用预测器。选择预测器p作为应用预测器的概率为x_p，由以下公式表示：

其中，T(T>0)用来均衡关于预测器的探索与利用程度：当T→0时，用户将采用贪心策略，即选择Q-value最大的预测器作为应用预测器(纯利用策略)，反之，如果T→∞，用户对于预测器的选择完全是随机的(纯探索策略)。由于x_p(t)是关于Q-value的增函数，有更高预测准确度的预测器会被以更高的概率选择到。

表1

本步骤中网络带宽和负载的预测采用时间序列预测技术，包括以下三个主要的步骤：1)创建预测集合，每个终端用户对每个基站k都拥有一个预测集合P(a,k)＝{p_u|u,1≤u≤r}，其中包含r个预测器，预测器是在评估阶段(情况一)预定义好的集合中选出来的；每个预测器都是一个从负载的历史信息的时间序列到预测的下一时刻的负载值的函数，即f:((t_i,load_i)|i＝0,..,p)→predLoad；2)选择实际应用的预测器，预测集中的一个预测器p称为应用预测器(A∈P)，是在评估阶段(情况二、三)中选择出来的。它将应用到实际的负载预测环节中。3)进行预测，通过基站的历史负载记录和应用预测器来预测该基站下一时刻的负载情况。

以上策略在网络环境是缓慢变化(各个基站提供的带宽是逐渐变化)的情况下可以得到很好的效果。但当网络环境发生突变的时候，用户进行网络选择的效果就不太理想。在突变发生的时间点，用户对该基站的所有历史信息记录都无效了，甚至如果依旧使用这些信息进行预测会导致错误的预测结果。为了消除这种负面影响并使得系统能迅速地再次收敛到均衡状态，必须修正更新相应的历史信息记录表，为下一时刻的预测提供较准确的参考信息。此时简单有效的做法是，如果检测到某基站的带宽发生突增，则在原有记录的基础上加上这一增值，若发生突减，则在原有记录的基础上减去该差值。

本发明中，网络选择机制不要任何的集中管理机制、资源统一分配层或者引入额外的终端用户通信等来决定怎么将用户分配到网络基站端，以及怎么将无线资源分配到不同需求的用户终端等，能够很好的适应存在大量用户的动态异构网络环境。

实验结果分析如下。

实验环境：本实验在Matlab软件及DEV C++软件中进行模拟。表2给出了实验模拟环境的参数设置，文本的实验环境是异构网络环境，从无线接入技术类型、基站提供的带宽和用户带宽需求三个方面设计了网络选择场景。

表2

实验数据：本实验考虑了800个终端用户，实验所有数据都取自50次重复实验数据的平均值。

对于用户收益函数公式1，本实验设置参数α＝1，β＝1.7。在这种配置下，当用户得到的带宽等于其需求的带宽量时，用户的收益可以达到最大值1，这一最大值可以作为其他情况下用户收益的基线。除此之外，本实验还设计了一种基于比例的带宽分配机制，它可以由公式5简单表示：

其中j∈{j∈U|a_j＝a_i,a_j,a_i∈a}表示与用户i采用相同策略a_i的用户，即二者接入到同一个网络基站。在此，为了简单，实验定义用户得到的带宽是一个理论值，没有考虑带宽在传输中的损耗和干扰等。

实验结果分析

实验模拟了缓慢变化的网络环境和突变的网络环境；将本算法与其他算法(基于博弈论思想的网络选择算法和基于Q-learning的学习类网络选择算法)进行比较，从多个方面评估了算法的性能：包括用户适应性、用户收益，网络切换率、网络负载情况、网络带宽利用率等；然后模拟了不是所有终端用户都执行该策略的情况下算法的鲁棒性。

①负载均衡分析：图3显示了在网络环境缓慢变化和突变的情况下三基站的负载情况。本策略ALA经过学习，各个基站可实现负载均衡，值得注意的是，BS2上的抖动是因为用户通过接入或切出该基站以适应其他两个基站的突然变化，这是用户适应性的体现，而另外两个算法无法及时做出相应的策略调整适应变化的网络。

②用户收益(Userpayoff)，网络切换率(Switching rate)和带宽利用率(Bandwidth utilization)：从图4可看出随着用户对有限的网络基站和网络资源(带宽)的竞争愈加激烈，网络端总体的带宽利用率呈线性增长。当网络带宽发生突然变化时，用户收益、网络切换率及带宽利用率这三个性质因受到突变点的影响，性能稍有降低。

③收敛速度(Convergence Time)：当网络环境中所有的基站都不出现超负载的情况时，该系统可以收敛到纳什均衡，该收敛结果也是帕累托最优和社会最优的。如图5所示当网络带宽呈现缓慢变化或保持固定不变时，该均衡状态一旦收敛就保持稳定。当网络带宽出现突然变化时，经过极短时间的学习，系统能迅速地再次收敛到新的均衡状态。

④鲁棒性测试：如图6所示，显示了在有10％，20％，30％和50％不执行本策略的用户数，且网络环境缓慢动态变化的情况下，系统的各项性能。实验模拟不服从本策略的用户坚持原有OSA算法不变，或者采取随机选择基站接入的RSA算法。从图中可看出，在有一半的用户无法采用或者拒绝采用本策略时，本策略仍能保持良好的性能，即本策略有良好的鲁棒性。

Claims

1.一种基于学习的自适应动态异构网络选择策略的实现方法，其特征在于，该方法包括以下步骤；

步骤1、进行基于多智能体的网络选择场景建模：基于多智能体的网络选择场景模型为一个六元组<BS,B_k(t),U,b_i(t),A_i,P_i(t,a)>，其中，BS＝{1,2,...,m}为在异构网络环境中可用的基站的集合；B_k(t)为基站k在t时刻能提供的带宽(随时间动态变化)，k∈BS；U＝{1,2,...,n}为参与网络选择的终端用户集合；b_i(t)为某一特定用户i在时刻t的带宽需求，其中i∈U，0<i<n；为用户i的可选执行决策a_i的有限集合，a_i代表用户i所采用的决策(即选择接入的基站)，a_i∈A_i；P_i(t,a)为某一特定用户i在时刻t的所有用户执行策略集a＝{a₁,...,a_i,...a_n}∈×_j＝UA_j下的收益函数，收益函数P_i(t,a)定义如下：

其中，α和β为用于控制收益函数的形状的常量，w_i(t,a)为某一特定用户i在时刻t得到的带宽量，b_i(t)为某一特定用户i在时刻t的带宽需求，×_j∈UA_j为所有用户可选决策有限集合，×_j∈U为所有用户，j为任意用户；

所述网络评估操作具体包括：根据用户选择的基站类型分为三种情况，情况一、如果被选择的基站是该终端用户首次访问，用户为该基站创建一个新的预测器集合并将其状态信息记录到相应的历史记录表中，所有的预测器从一个预定义集合中随机选取；情况二、如果标志位flag为-1，表明根据当前的历史记录，对旧的历史记录表进行更新；情况三、终端用户切入一个之前连接过基站，即该用户对该基站已有一些状态信息的记录，则评估操作包含两方面的处理：即评估预测器集合中所有预测器的性能，并处理遇到网络环境突变的情况；对预测器性能的评估采用的是Q-learning算法，通过Q-function来进行学习，以获得更高收益的决策被增强，Q-function参数定义为：

Q_p(t)＝(1-α)Q_p(t-1)+αr_p(t-1)

本步骤中网络带宽和负载的预测均采用时间序列预测技术，包括以下三个主要的步骤：1)创建预测集合，每个终端用户对每个基站k都拥有一个预测集合P(a,k)＝{pu|u,1≤u≤r}，其中包含r个预测器，预测器是在评估过程的情况一中预定义好的集合中选出来的；每个预测器都是一个从负载的历史信息的时间序列到预测的下一时刻的负载值的函数，即f:((t_i,loadi)|i＝0,..,p)→predLoad；2)选择实际应用的预测器，预测集中的一个预测器p为应用预测器，是在评估过程的情况二、三中选择出来的，它将应用到实际的负载预测环节中；3)进行预测，通过基站的历史负载记录和应用预测器来预测该基站下一时刻的负载情况。