CN110213776A

CN110213776A - 一种基于Q学习和多属性决策的WiFi卸载方法

Info

Publication number: CN110213776A
Application number: CN201910445165.2A
Authority: CN
Inventors: 朱琦; 孙麟
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2019-05-27
Filing date: 2019-05-27
Publication date: 2019-09-06
Anticipated expiration: 2039-05-27
Also published as: CN110213776B

Abstract

本发明公开了一种基于Q学习和多属性决策的WiFi卸载方法，适用于LTE网络和WiFi网络共存的移动用户场景，该方法利用马尔可夫模型描述网络环境的变化，综合考虑用户吞吐量、终端功耗、用户花费和通信时延四种网络属性建立优化目标，并通过多属性决策方法中的AHP(层次分析法)和TOPSIS(逼近理想值排序法)获得反映各个网络属性之间内在联系以及奖励函数，利用Q学习模型结合当前网络状况和自己的卸载历史做出卸载判决，最终得到最优WiFi卸载方案。本发明可应用于异构网络，且处理速度更快。

Description

一种基于Q学习和多属性决策的WiFi卸载方法

技术领域

本发明涉及无线通信技术，尤其涉及一种适用于LTE网络的基于Q学习和多属性决策的WiFi卸载方法。

背景技术

随着智能设备的激增，移动数据流量正以前所未有的速度迅速增长，这种现象被称为数据流量爆炸。由于无线接入技术的发展，LTE网络能够高速率传输数据业务，且因为LTE网络存在移动性优势，应用和流量逐渐从传统的互联网迁移到无线网络。根据Ciscovisual network index预测，从2016年至2021年，全球移动数据流量将以47％的复合年增长率增长，到2021年达到每月49艾字节。事实上，正如思科所预测的那样，不仅智能手机和平板电脑的数量越来越多，而且新兴的机器对机器(M2M)模块也加剧了数据流量爆炸问题。移动数据流量的增长主要来自智能手机，而视频和音频数据将占总流量的三分之二以上。这就对LTE网络的有限容量造成了前所未有的压力，并最终降低用户的服务质量(QoS)。

面对数据流量爆炸性增长的问题，一种方案是将LTE网络升级到下一代高级网络来增加容量，例如长期演进(LTE)、LTE-Advanced(LTE-A)、WiMAX release2(IEEE802.16m)。另外一种方案则是增加LTE基站的个数并且缩小小区的半径来增加网络容量。然而，简单地增加LTE网络容量并不总是经济的，即使在第四代(4G)网络中，由于用户对视频等多媒体应用的需求快速增长，带宽资源仍然不足。不仅如此，这些解决方案需要昂贵的资本支出(CAPEX)和运营支出(OPEX)。而5G中异构网络融合渐渐成为主流，为了解决LTE频谱资源短缺的问题，人们公开了一系列LTE网络和WiFi的协作技术，例如授权辅助接入(licensed-assisted access)，LTE-WiFi聚合(LTE-WiFi aggregation)以及WiFi卸载(WiFi offloading)等。

WiFi卸载技术可以将部分LTE网络的负载转移到WiFi网络之中，以解决授权频段拥挤的问题，实现负载均衡和未授权频谱资源的充分利用。WiFi卸载正在成为运营商的一种高效的解决方案，以适应移动数据流量的巨大增长，因为安装新的WiFi接入点(AP)要比升级LTE网络设备便宜得多。此外，由于WiFi接入点目前已经被运营商和用户广泛部署，WiFi卸载被视为用于解决数据流量爆炸，授权频段资源紧缺问题的可行方案。

申请号为201910044142.0的案件公开了一种LTE网络中基于联盟博弈的WiFi卸载方法，该方法，首先定义了综合考虑用户通信速率、花费和时延的用户公平性效用函数，构造了包含两类联盟的联盟博弈模型，制定了同时提高用户个体效用和系统总效用的联盟转移准则，提出了联盟内保证系统资源的充分利用的信道分配方案，以使系统总效用最大化。但是该方法考虑的场景是静态的，小区内部的用户静止不动，这往往并不符合现实。此外该方法只根据即时的网络状态进行授权及未授权频段资源的分配，每次卸载判决都需要经过大量的运算，而本发明综合考虑即时网络状态和用户的接入历史，一旦Q学习收敛，卸载判决只需参考Q表即可，无需再进行重复的运算，这也是机器学习的优点之一。

发明内容

发明目的：本发明针对现有技术存在的问题，提供一种基于Q学习和多属性决策的WiFi卸载方法，实现流量卸载。

技术方案：本发明所述的基于Q学习和多属性决策的WiFi卸载方法包括：

(1)获取用户终端在LTE网络、WiFi网络重叠小区内部移动过程中经过的位置，并计算每个位置的网络属性，形成集合S＝{s_i＝(Posi_i,Envi_i)|i∈{1,2,...,N_p}}，其中，Posi_i表示位置i，Envi_i表示位置i的网络属性，包括吞吐量TP_i、功耗PC_i、花费C_i和时延D_i，N_p表示用户终端经过的位置数；

(2)建立用于获取最优WiFi卸载策略的Q学习模型，所述Q学习模型中，将用户终端视为智能体，将集合S定义为Q学习的状态，将WiFi卸载决策定义为Q学习中的动作选择过程，即A＝{a_k,k∈{0,1,2,...,N_AP}}，其中，a₀表示用户终端接入LTE网络基站，{a_k,k∈{1,2,...,N_AP}}表示用户终端卸载到对应下标的WiFi网络接入点；

(3)分别计算网络属性吞吐量TP_i、功耗PC_i、花费C_i和时延D_i的权重

(4)建立Q表，Q表中的元素为Q(s,a)，表示智能体在状态s下做出动作a所获得的累积折扣奖励，并设置初始时刻Q₀(s,a)＝0，其中，s∈S，a∈A；

(5)获取智能体的第一个状态s_i|i＝1；

(6)在当前状态s_i下进行Q学习的动作选择，具体为：智能体以概率ε随机选取一个网络进行接入，否则选择值maxQ(s_i,a)所对应的网络进行接入，将最终选择的动作采用a^表示；

(7)计算智能体在执行动作a^后的即时奖励，即：将实际吞吐量小于吞吐量阈值TP_i ^th的无效网络过滤，将被过滤掉的无效动作对应的即时奖励直接置零，对于过滤后得到的候选网络集合，根据权重采用多属性决策方法计算用户终端接入网络获得的即时奖励Rw(s_i,a^)；

(8)利用下列公式更新Q表中的元素Q(s_i,a^)：

其中，下标t表示当前时刻计算得到对应值，t-1表示上一次计算得到对应值，μ∈(0,1)为学习速度，为经验奖励，δ是经验奖励的折扣因子，s'是智能体接下来转移到的状态；

(9)将智能体的状态转移到下一个状态，即i＝i+1，并重复步骤(6)至步骤(8)，直至i＝N_p后执行(10)；

(10)判断智能体在每一个状态下的最大Q(s,a)值对应的动作是否改变，若不再改变，则迭代结束，执行步骤(11)，否则返回执行步骤(4)；

(11)根据最终的Q表控制WIFI卸载，即当用户终端经过位置Posi_i时，控制用户终端选择Q(s_i,a)的最大值所对应的网络进行WIFI卸载，其中，i∈{1,2,...,N_p}。

进一步的，步骤(1)中计算每个位置的吞吐量TP_i和功耗PC_i的方法具体为：

(1-1)根据以下公式计算位置i的吞吐量TP_i：

式中，表示网络收到的来自用户终端的信号功率，P^t为用户终端的发射功率，d₀为参考距离，L₀是当终端距离网络d₀时的路径损耗，α为路径损耗指数，d为网络与用户终端的距离，G(θ,β)为满足高斯分布的均值为θ，方差为β的阴影衰落，N₀为加性高斯白噪声功率谱密度，W为智能体的可用带宽；

(1-2)根据以下公式计算位置i的功耗PC_i：

PC_i＝P₀+P^t

式中，P₀是用户终端的固定运行功耗。

进一步的，步骤(3)中计算权重所采用的方法具体包括：

(3-1)由用户业务类型j和吞吐量、功耗、花费和时延四种属性建立成对比较矩阵B：

其中，b_mn表示第m个网络属性和第n个网络属性之间重要程度之比，j＝1表示流媒体业务，j＝2表示会话业务，j＝3表示后台业务，，n＝1,2,3,4分别表示吞吐量、功耗、花费和时延；

(3-2)获取B的最大特征值λ^*对应的特征向量，并将其归一化得到AHP权重向量

(3-3)计算成对比较矩阵B的一致性率CR：

式中，N是网络属性的个数，也是矩阵B的阶数，RI是平均随机性一致性指标；

(3-4)若一致性率CR>0.1，则返回步骤(3-1)调整矩阵B，重新计算AHP权重向量，直至CR<0.1，采用最终的AHP权重向量。

进一步的，所述成对比较矩阵B中的元素b_mn为1到9之间的整数或1到9的倒数，且有b_mn＝1/b_nm，对角线上的值为1。

进一步的，步骤(7)具体包括：

(7-1)将实际吞吐量小于吞吐量阈值TP_i ^th的无效网络过滤，被过滤掉的无效动作对应的即时奖励直接置零，设过滤后的候选网络集合为{Net₁,...,Net_l,...,Net_L}，即从动作集合A中提取出的L个有效动作；

(7-2)构造候选网络属性矩阵X：

式中，l代表候选网络的编号，n代表网络属性的编号形如表示候选网络Net_l的对应网络属性，x_ln表示网络属性矩阵X的第l行第n列的元素；

(7-3)根据候选网络属性矩阵X构造标准化判决矩阵H，其中H的元素h_ln为：

(7-4)根据属性权重得到加权判决矩阵Y，其中Y的元素y_ln为：

y_ln＝w_nh_ln；

(7-5)设置最理想方案Solution⁺为：

最不理想方案Solution^-为：

(7-6)利用TOPSIS方法的原理计算每个候选网络和最理想方案的相对接近程度，得到接入候选网络的即时奖励：

式中，为第l个候选网络和Solution⁺的欧几里得距离，为第l个候选网络和Solution^-的欧几里得距离。

有益效果：本发明与现有技术相比，其显著优点是：

1、与传统的只考虑用户吞吐量的WiFi卸载不同，本发明同时考虑用户吞吐量、终端功耗、用户花费和通信时延四种网络属性，利用两种多属性决策方法来获得各个网络属性的内在联系，即利用AHP定义了各个属性的权重，利用TOPSIS定义了Q学习中的奖励函数；考虑更全面，决策方案更适宜；

2、传统的WiFi卸载方法都只是根据当前的网络状况来做出即时的卸载决策，没有考虑到用户之前的接入历史。本发明同时考虑当前的网络状况和用户接入不同网络的连接历史，利用Q学习的方案来进行最终的卸载决策。通过考虑自身的接入历史，用户会不断地积累卸载的经验，这样不仅会避免卸载到之前接入过的较差网络，而且会依据最大的累积折扣奖励主动选择当前状态下最佳的WiFi AP点进行连接，继而提升用户的QoS。

3、传统的WiFi卸载方法大多都是考虑的固定用户场景，而本发明可适用于异构网络下的多模终端移动场景。

4、本发明对无效网络进行了提前过滤，可以加快Q学习的收敛速度，降低方法的复杂度。

附图说明

图1是本发明的应用场景图；

图2是本发明的Q学习模型图；

图3是本发明的流程示意图。

具体实施方式

一、系统模型

本发明的应用场景如图1所示，LTE基站位于半径为r_cell的小区中心，小区内存在N_AP个WiFi AP点，将其表示为AP_k,k∈{1,2,...,N_AP}。小区由重叠的LTE网络和WiFi网络覆盖，用户终端是一个多模终端，可以通过LTE网络或者WiFi网络进行数据传输。智能体在小区内部直线运动，将其经过的位置标记为Posi_i,i∈{1,2,...,N_p}，其中N_p表示用户经过的总位置数。由于用户终端的移动，其信道质量、可用带宽等网络环境不断变化，会引起用户端的网络属性发生变化。本发明利用Q学习模型，将用户终端作为智能体将用户终端在不同位置上的四种网络属性视为Q学习中的状态，包括吞吐量、功耗、花费和时延，此外，将卸载决策视为Q学习中的动作选择，若接入WiFi网络则进行卸载。

图2给出了本发明的系统模型。系统首先收集智能体移动到当前位置后所处的网络环境，并计算有效网络的用户吞吐量(TP)、终端功耗(PC)、用户花费(C)和通信时延(D)四种属性。利用AHP方法计算四种属性在不同业务下的权重，并通过TOPSIS计算当前网络状态下选择接入各个网络后所获得的即时奖励。结合即时奖励和用户接入历史的经验奖励进行Q学习迭代并更新Q表，依据Q表中的累积折扣奖励进行卸载的判决。

二、优化目标

本发明从吞吐量、功耗、花费和时延四个方面来体现网络的性能，吞吐量反映了用户进行无线传输的速率，定义终端智能体与LTE基站或WiFi AP点距离为d时的路径损耗L(d)为：

其中，d₀为参考距离，L₀是当终端距离基站或AP点d₀时的路径损耗，α为路径损耗指数，G(θ,β)为满足高斯分布的均值为θ，方差为β的阴影衰落。距离用户d处的基站或AP点收到来自终端的信号功率P^r表示为：

P^r＝P^t-L (2)

其中，P^r为终端的发射功率。通过香农容量公式计算智能体在第i个位置上接入某一网络的吞吐量TP_i为：

其中，N₀为加性高斯白噪声功率谱密度，W为智能体的可用带宽，由于网络的可用带宽在不断发生变化，本发明利用马尔可夫模型来描述W的变化，将连续的W量化为markov_n个状态，可用带宽以p_tr的概率转移到邻近的两个状态，以1-p_tr的概率保持不变。

功耗是移动终端正常工作所要考虑的重要属性，假设基站或AP点的最小接收功率阈值为当终端智能体的发射功率过小时，基站或AP点将接收不到终端的上行信号，为了保证数据的正常传输，定义距离基站或AP点d处的终端最小发射功率为：

终端实际发射功率P^t必须要大于本发明将智能体在位置i上接入某一网络的功耗表示为：

PC_i＝P₀+P^t (5)

其中，P₀是终端的固定运行功耗，P^t是终端的发射功率。

用户花费和通信时延也是用户评价网络好坏的重要指标，本发明将智能体在位置i上接入某一网络后的每秒费用和传输时延分别记为C_i和D_i。

本发明综合考虑上述四种网络属性来优化卸载决策使得用户效用值sat最大化。首先计算四种网络属性在N_p个位置上的平均值，即：然后将四种平均值进行归一化：

其中，U_max是属性可能的最大值，U_min是属性可能的最小值，对于优化目标来讲，吞吐量越大越好，属于正属性，而其他三种属性越小越好，属于代价类的负属性，四种网络属性的归一化值表示为：结合利用AHP方法得到的不同业务下属性权重数据，定义优化目标为各个网络属性的归一化加权和：

其中，j表示用户业务类型，j＝1表示流媒体业务，j＝2表示会话业务，j＝3表示后台业务，分别为当业务类型为j时，吞吐量、功耗、花费和时延的AHP权重。

因此，可以建立优化目标函数为：找出用户的最佳卸载决策以最大化整个移动场景下的用户效用值，即：

在公式(8)中，是用户在整个移动过程中的动作空间，即用户在运动到N_p个位置上动作集合的笛卡尔积，Π^*是整个移动过程的最佳卸载策略。在公式(9)中，c1、c2表示各个网络属性的权重限制在0到1且和为1；c3表示马尔可夫转移概率大于0且小于1；c4表示用户在每个位置上的吞吐量都要大于一个阈值，用于过滤无效的网络；c5表示用户的发射功率要大于最小的发射功率。然而，由于动作空间非常庞大且可用带宽等网络环境在不断地变化，传统的方法难以求解，于是我们采用Q学习来解决该优化问题。

三、优化求解方法

针对上述模型和分析，本实施例提供了一种基于Q学习和多属性决策的WiFi卸载方法，可以实现上述优化目标，如图3所示，具体包括以下步骤：

(1)获取用户终端在LTE网络、WiFi网络重叠小区内部移动过程中经过的位置，并计算每个位置的网络属性，形成集合S＝{s_i＝(Posi_i,Envi_i)|i∈{1,2,...,N_p}}，其中，Posi_i表示位置i，Envi_i表示位置i的网络属性，包括吞吐量TP_i、功耗PC_i、花费C_i和时延D_i，N_p表示用户终端经过的位置数。

(2)建立用于获取最优WiFi卸载策略的Q学习模型，所述Q学习模型中，将用户终端视为智能体，将集合S定义为Q学习的状态，将WiFi卸载决策定义为Q学习中的动作选择过程，即A＝{a_k,k∈{0,1,2,...,N_AP}}，其中，a₀表示用户终端接入LTE网络基站，{a_k,k∈{1,2,...,N_AP}}表示用户终端卸载到对应下标的WiFi网络接入点。

其中，权重的计算采用AHP方法，AHP是一种使用定性和定量计算的多属性决策方法，被广泛应用于网络评估和策略选择中。AHP方法有五个实现步骤：1)建立分层模型；2)构造成对比较矩阵；3)计算属性权重；4)检查一致性；5)网络选择。然而本发明只需要利用AHP计算不同网络属性的权重，于是步骤1)和步骤5)被省去，具体步骤如下：

其中，b_mn表示第m个网络属性和第n个网络属性之间重要程度之比，为1到9之间的整数或1到9的倒数，且有b_mn＝1/b_nm，对角线上的值为1，j＝1表示流媒体业务，j＝2表示会话业务，j＝3表示后台业务，，n＝1,2,3,4分别表示吞吐量、功耗、花费和时延；

(3-2)计算业务场景下各个网络属性的权重。利用矩阵论的理论可知，B有多个特征值和特征向量对(λ,V)，即：

B×V＝λ×V (11)

其中，λ是B的某一个特征值，V是该特征值对应的特征向量。选择最大特征值λ^*对应的特征向量并将其归一化可得向量这也是四种属性各自的AHP权值。

(3-3)计算成对比较矩阵B的一致性率CR：

(3-4)通常情况下无法一次就能获得最准确的AHP权值，因为矩阵B不一定满足一致性，即可能会发生b_mn≠b_ml/b_ln的情况，所以(3-3)中计算的权值就不一定准确。本发明用一致性比率CR来衡量B的合理性，若一致性率CR>0.1，则返回步骤(3-1)调整矩阵B，重新计算AHP权重向量，直至CR<0.1，采用最终的AHP权重向量。

(4)建立Q表，Q表中的元素为Q(s,a)，表示智能体在状态s下做出动作a所获得的累积折扣奖励，并设置初始时刻Q₀(s,a)＝0，其中，s∈S，a∈A。

(5)获取智能体的第一个状态s_i|i＝1。

(6)在当前状态s_i下进行Q学习的动作选择，具体为：智能体以概率ε随机选取一个网络进行接入，否则选择值maxQ(s_i,a)所对应的网络进行接入，将最终选择的动作采用a^表示。

(7)计算智能体在执行动作a^后的即时奖励，即：将实际吞吐量小于吞吐量阈值TP_i ^th的无效网络过滤，将被过滤掉的无效动作对应的即时奖励直接置零，对于过滤后得到的候选网络集合，根据权重采用多属性决策方法计算用户终端接入网络获得的即时奖励Rw(s_i,a^)。

其中，本发明利用TOPSIS多属性决策方法计算终端接入LTE网络或WiFi网络获得的即时奖励，原理是计算多个候选方案与理想方案的接近程度，并将这些候选方案进行排序和选择。利用TOPSIS方法计算Q学习奖励的具体步骤如下：

(7-1)在Q学习模型中，动作集合包含了所有可能的网络选择，然而这并不是候选网络集合，因此在进行TOPSIS方法前，本发明将实际吞吐量小于吞吐量阈值TP_i ^th的无效网络过滤，只需要利用TOPSIS计算接入候选网络对应的奖励。设过滤后的候选网络集合为{Net₁,...,Net_l,...,Net_L}，实际上这是从动作集合A中提取出的L个有效动作，被过滤掉的无效动作对应的奖励直接置零。

(7-2)构造候选网络属性矩阵X：

(7-3)根据候选网络属性矩阵X构造标准化判决矩阵H＝(h_ln)_L×N，其中H的元素h_ln为：

(7-4)根据属性权重得到加权判决矩阵Y＝(y_ln)_L×N，其中Y的元素y_ln为：

y_ln＝w_nh_ln (15)

(7-5)确定最理想方案和最不理想方案，由于吞吐量为正属性，功耗、花费和时延是负属性，则设置最理想方案Solution⁺为：

最不理想方案Solution^-为：

式中，为第l个候选网络和Solution⁺的欧几里得距离，为第l个候选网络和Solution^-的欧几里得距离，ED_l ^-越大，ED_l ⁺越小时，Rw越接近1，说明用户接入的网络距离最理想方案越近，相应反馈给用户的奖励Rw就越大。相反的，越小，越大时，说明用户接入的网络较差，Rw越接近0。

(8)利用下列公式更新Q表中的元素Q(s_i,a^)：

其中，下标t表示当前时刻计算得到对应值，t-1表示上一次计算得到对应值，μ∈(0,1)为学习速度，为经验奖励，δ是经验奖励的折扣因子，s'是智能体接下来转移到的状态；即在Q学习中，Q值会随着用户的学习不断更新。

(9)将智能体的状态转移到下一个状态，即i＝i+1，并重复步骤(6)至步骤(8)，直至i＝N_p后执行(10)。

(10)判断智能体在每一个状态下的最大Q(s,a)值对应的动作是否改变，若不再改变，则迭代结束，执行步骤(11)，否则返回执行步骤(4)。

以上所揭露的仅为本发明一种较佳实施例而已，不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种基于Q学习和多属性决策的WiFi卸载方法，其特征在于该方法包括：

(5)获取智能体的第一个状态s_i|i＝1；

(8)利用下列公式更新Q表中的元素Q(s_i,a^)：

2.根据权利要求1所述的基于Q学习和多属性决策的WiFi卸载方法，其特征在于：步骤(1)中计算每个位置的吞吐量TP_i和功耗PC_i的方法具体为：

(1-1)根据以下公式计算位置i的吞吐量TP_i：

(1-2)根据以下公式计算位置i的功耗PC_i：

PC_i＝P₀+P^t

式中，P₀是用户终端的固定运行功耗。

3.根据权利要求1所述的基于Q学习和多属性决策的WiFi卸载方法，其特征在于：步骤(3)中计算权重所采用的方法具体包括：

(3-3)计算成对比较矩阵B的一致性率CR：

4.根据权利要求3所述的基于Q学习和多属性决策的WiFi卸载方法，其特征在于：所述成对比较矩阵B中的元素b_mn为1到9之间的整数或1到9的倒数，且有b_mn＝1/b_nm，对角线上的值为1。

5.根据权利要求1所述的基于Q学习和多属性决策的WiFi卸载方法，其特征在于：步骤(7)具体包括：

(7-2)构造候选网络属性矩阵X：

(7-4)根据属性权重得到加权判决矩阵Y，其中Y的元素y_ln为：

y_ln＝w_nh_ln；

(7-5)设置最理想方案Solution⁺为：

最不理想方案Solution^-为：