CN103327556B

CN103327556B - 异构无线网络中优化用户QoE的动态网络选择方法

Info

Publication number: CN103327556B
Application number: CN201310280666.2A
Authority: CN
Inventors: 吴启晖; 王金龙; 杜智勇; 杨盘隆; 郑学强
Original assignee: COMMUNICATION ENGINEERING COLLEGE SCIENCE & ENGINEEIRNG UNIV PLA
Current assignee: COMMUNICATION ENGINEERING COLLEGE SCIENCE & ENGINEEIRNG UNIV PLA
Priority date: 2013-07-04
Filing date: 2013-07-04
Publication date: 2016-05-11
Anticipated expiration: 2033-07-04
Also published as: CN103327556A

Abstract

一种异构无线网络中优化用户QoE的动态网络选择方法，该方法结合传输的业务类型和当前用户接入的网络，周期的动态更新接入网络；该方法包括以下步骤：建立三种业务类型的用户QoE需求函数以及初始化Q学习中变量的步骤；采用Q学习方法进行网络选择决策及执行切换的步骤；和Q学习方法中变量更新的步骤。本发明从用户的角度出发，区分不同的业务特性，优化用户的QoE；本发明提供了一种动态的网络选择方法，能够高效的利用异构无线网络资源；本发明基于强化学习，不需要先验的网络状态信息，具有较强的灵活性，能够适应各种动态的网络环境。

Description

异构无线网络中优化用户QoE的动态网络选择方法

技术领域

本发明涉及通信网络中的无线接入网络领域，具体讲是在不依赖异构网络先验状态信息的条件下，基于强化学习，提出一种优化用户QoE的动态网络选择方法。

背景技术

随着无线通信技术的迅猛发展，全球无线通信数据业务快速增长。一方面，移动宽带数据业务已经超过语音业务并将持续增长（指数速度），预计2015年人均月消费1GB数据流量。另一方面，用户对于无线数据传输质量的期望越来越高。为了满足不断增长的无线数据传输需求，进一步提长无线通信系统的性能，异构无线网络架构是未来4G、B4G中一种有效的解决方案，它能够以较低的成本显著地提升网络容量和网络覆盖能力。异构无线网络可以认为是一种包含多种无线接入技术、协议类型、传输方式或者是不同发射功率基站的网络架构。与此同时，无线多模终端凭借其配备的多个空中接口，具有灵活接入多种不同类型无线网络的能力，能够高效地利用异构无线网络资源，从而极大的提升无线数据传输质量。无线多模终端的工作性能取决于合理、高效的网络接入选择和切换机制，目前已有大量的相关方面的研究成果。

现有异构无线网络选择/切换方面的研究主要围绕切换效用函数设计及切换算法设计两方面。切换效用函数是网络选择/切换中的关键性能评估指标，直接影响着最终的传输质量。在切换效用函数设计方面，最常用的效用为接收信号强度、接收信号的信干躁比、带宽、吞吐量、时延、网络负载等一个或多个与服务质量（qualityofservice,简称QoS）相关的指标。这些效用主要关注的是如何选择网络使得通信的性能得到提升。相比于以上的切换效用，近年来，以用户体验（qualityofexperience,简称QoE）作为网络选择/切换中的效用受到了研究人员的广泛关注。QoE表示用户对于其业务的服务质量感受，其应用于网络选择/切换的优势在于能够从更高的层次，更准确地反映用户的需求。QoE改变了传统效用与QoS的线性变化关系，以QoS指标的函数的形式反映用户的需求与系统性能的关系。目前将QoE引入网络选择/切换中的研究和应用还处于初级阶段，现有工作仅考虑用户具有一种特定的QoE需求，并没有完全考虑到在实际场景中，用户QoE的需求会随着应用的业务类型变化而变化的问题。因此如何根据用户动态变化的QoE需求做出合理的网络选择/切换是一个待解决的问题。

另一方面，在网络选择/切换算法设计相关的研究方面，通常是根据切换效用函数来确定的网络切换决策。常见的算法包括多属性决策算法、灰度相关算法和马尔可夫决策过程等。然而，现有算法往往假设终端对于网络状态信息是全部或部分先验已知的。这种假设在实际的场景中是比较苛刻的，主要原因在于现有的异构无线网络往往不是完全紧耦合的，而是由多个运营商（或服务提供商）所有的，所有权的不同导致不同的网络运营商间存在竞争关系，网络状态信息难以有效共享。此外，即使消除了竞争层面的问题，技术层面也有障碍：提供异构网络间信息共享并辅助资源共享决策的相关技术标准（如IEEE802.21协议）到目前并没有获得广泛的应用，现有的协议和技术限制了网络状态信息的有效共享。以上两个方面的问题直接导致网络状态信息不能共享，使得现有的算法在实际的场景中不能有效工作。

发明内容

本发明的目的是针对异构无线网络中动态变化的用户QoE需求以及网络状态先验信息未知的问题。以QoE回报为网络性能度量指标，利用强化学习，实现动态的无线网络选择/切换，最大化用户的累积期望净回报。这里的净回报是扣除网络切换开销的QoE回报

本发明的技术方案是：

一种异构无线网络中优化用户QoE的动态网络选择方法，该方法结合传输的业务类型和当前用户接入的网络，周期的动态更新接入网络。

本发明的方法包括以下步骤：建立三种业务类型的用户QoE需求函数以及初始化Q学习中变量的步骤；采用Q学习方法进行网络选择决策及执行切换的步骤；和Q学习方法中变量更新的步骤。

本发明的方法具体包括以下步骤：

步骤1.初始化，完成以下工作：

1.1建立三种业务类型的用户QoE需求函数，所述的三种业务类型包括视频业务、音频业务和弹性业务，QoE需求函数将网络服务质量性能参数映射成用户的QoE回报；前述QoE需求函数输入为QoS参数，输出为评分值，评分值的取值范围为1～5，评分越高，代表用户的体验好或满意度高，三种业务对应的QoE需求函数分别如下：

1)视频业务，记为s_video：视频业务的QoE取决于接收信号的峰值信躁比P_snr，其QoE需求函数F_video(P_snr)定义为

F_{video} (P_{snr}) = 4.5 - \frac{3.5}{1 + \exp (b_{1} (P_{snr} - b_{2}))}

其中，参数b₁确定QoE的增长速度；参数b₂确定函数的中点位置，即QoE取中间值2.75时所需的峰值信躁比；调整b₁和b₂能够满足不同用户对视频业务的个性化要求情况；

2)音频业务，记为s_audio：音频业务的QoE与数据包的丢包率e和时延d有关，丢包率和时延可以分别由下式计算

e=e_network+(1-e_network)e_playout

d=d_codec+d_playout+d_network

其中，e_network为网络传输中引起的丢包率，e_playout为播放缓冲时的丢包率，d_codec为编码器产生的时延，d_playout为播放缓冲导致的时延，d_network为网络传输中产生的时延；上述的丢包和时延导致的音频业务的性能损失I_e和I_d分别为

I_e=γ₁+γ₂ln(1+γ₃e)

I_d=0.024d+0.11(d-177.3)I_{d-177.3}

其中，参数γ₁，γ₂和γ₃取决于采用的编解码器，时延d的单位为毫秒，177.3毫秒为常用的时延门限值，I_{·}为指示函数，由I_e和I_d导致的总体性能损失定义为R_f指数，

R_f=94.2-I_e-I_d

由R_f指数，得到音频业务的QoE需求函数F_audio(R_f)

F_audio(R_f)=1+0.035R_f+7·10^-6R_f(R_f-60)(100-R_f)

3)弹性业务，记为s_elastic：弹性业务的QoE与吞吐量θ有关,其QoE需求函数F_elastic(θ)定义为

F_elastic(θ)=b₃log(b₄θ)

给定用户的最小期望吞吐量θ₁和最大期望吞吐量θ₂，参数

b_{3} = \frac{1}{\log (b_{4} θ_{1})};

1.2初始化Q学习中的变量：记业务类型集为可用网络集为定义x=[s,n]∈X为用户的状态，x表示的状态是用户当前所在网络为n且新到达的业务对应的类型为s，为用户状态空间，为切换目标网络，即切换到的网络，初始化Q值为Q(x,n)=0，系统时隙长度为T，初始化网络切换开销矩阵其中c_m,n≥0表示从网络m切换至网络n的切换开销，并且c_n,n=0；这里的开销表征的是网络切换中产生的协议开销；

步骤2.采用Q学习方法进行网络选择决策及执行切换，完成以下工作：

2.1在第t个时隙的起始时刻，t时隙传输的业务类型为s(t)；

2.2结合当前接入的网络n(t)，得到x(t)=[s(t),n(t)]，并按照下面的规则选择切换网络：以概率ε(t)随机选择一个网络接入；以概率1-ε(t)选择网络接入，ε(t)随着t会变小，始终大于0；

2.3执行网络切换，建立连接；

步骤3.Q学习方法中变量更新：

3.1建立连接后，进行业务传输；

3.2当第t个时隙的传输结束，根据所传输的业务类型，计算相应业务类型的QoE回报回报即F_s(t)，然后，计算用户的净回报r(x(t),δ(t))

r(x(t),δ(t))=F_s(t)-ρc_n(t),δ(t)

其中0≤ρ≤1为开销权重；

3.3在第t+1时隙的起始时刻，业务类型为s(t+1)，系统状态转移到新状态x(t+1)=[s(t+1),δ(t)]；

3.4按下式更新Q值

其中α_t<1为Q学习中的控制参数，随t增大而减小，满足

3.5t=t+1，回到步骤2。

本发明的步骤1中，参数γ₁，γ₂和γ₃取决于采用的编解码器，所述的编码器型号为G.729a或G.711，编码器型号为G.729a时，γ₁=11，γ₂=40，γ₃=10；编码器型号为G.711时，γ₁=0，γ₂=30，γ₃=15。

本发明的步骤2中，

ϵ (t) = \frac{3}{5 + \ln t}, t &GreaterEqual; 1 .

本发明的有益效果：

本发明从用户的角度出发，区分不同的业务特性，优化用户的QoE；本发明提供了一种动态的网络选择方法，能够高效的利用异构无线网络资源；本发明基于强化学习，不需要先验的网络状态信息，具有较强的灵活性，能够适应各种动态的网络环境。

附图说明

图1本发明的系统工作机制示意图。

图2本发明所提方法的工作流程图。

图3本发明所提方法与四种网络选择机制在不同的开销权重下的性能比较图。

图4本发明所提方法与四种网络选择机制在三种不同的业务类型转移矩阵下的性能比较图。

具体实施方式

下面结合附图和实施例对本发明作进一步的说明。

本发明提出的动态网络选择工作机制图1所示，所提的优化用户QoE的动态网络选择方法如图2所示，具体实施方式如下：

本发明采用如图1所示的动态网络选择工作机制。用户可以接入多个可用的无线网络，在传输业务的过程中，动态的选择切换网络。系统以固定长度为T的时隙，周期地进行网络选择/切换，所提的算法在每个时隙的起始时刻进行网络选择决策，确定了切换目标网络之后执行切换动作，然后接入网络进行传输，直至该时隙传输完毕。最后，通过该时隙业务传输反馈的QoE回报和切换开销，对Q学习进行更新。所提出的动态网络选择方法不同于现有的算法，主要体现在三个方面：（1）以优化用户的QoE为目标，从用户的QoE需求出发，并且考虑了实际系统中QoE需求的动态变化问题；（2）联合考虑了网络切换开销与QoE的折衷；（3）动态的网络选择机制，能够适应复杂动态的异构无线网络环境。

本发明采用如图2所示的流程。该流程主要由三个基本部分组成：参数初始化、网络选择决策及执行切换和Q学习变量更新。具体流程如下：

步骤1.初始化，完成以下工作：

4)视频业务，记为s_video：视频业务的QoE取决于接收信号的峰值信躁比P_snr，其QoE需求函数F_video(P_snr)定义为

F_{video} (P_{snr}) = 4.5 - \frac{3.5}{1 + \exp (b_{1} (P_{snr} - b_{2}))}

5)音频业务，记为s_audio：音频业务的QoE与数据包的丢包率e和时延d有关，丢包率和时延可以分别由下式计算

e=e_network+(1-e_network)e_playout

d=d_codec+d_playout+d_network

I_e=γ₁+γ₂ln(1+γ₃e)

I_d=0.024d+0.11(d-177.3)I_{d-177.3}

R_f=94.2-I_e-I_d

由R_f指数，得到音频业务的QoE需求函数F_audio(R_f)

F_audio(R_f)=1+0.035R_f+7·10^-6R_f(R_f-60)(100-R_f)

6)弹性业务，记为s_elastic：弹性业务的QoE与吞吐量θ有关,其QoE需求函数F_elastic(θ)定义为

F_elastic(θ)=b₃log(b₄θ)给定用户的最小期望吞吐量θ₁和最大期望吞吐量θ₂，参数

b_{3} = \frac{1}{\log (b_{4} θ_{1})};

2.1在第t个时隙的起始时刻，t时隙传输的业务类型为s(t)；

2.3执行网络切换，建立连接；

步骤3.Q学习方法中变量更新：

3.1建立连接后，进行业务传输；

r(x(t),δ(t))=F_s(t)-ρc_n(t),δ(t)

其中0≤ρ≤1为开销权重；

3.4按下式更新Q值

其中α_t<1为Q学习中的控制参数，随t增大而减小，满足

3.5t=t+1，回到步骤2。

实施例：

下面通过仿真实例来验证本发明的有效性。

首先简要介绍实施例的场景，假设由一个LTE网络和两个无线局域网络（WLAN，两个网络分别记为WLAN1和WLAN2）构成的异构无线网络，一个多模手机用户处于三个网络信号的覆盖区域，用户可以自由选择和切换接入任何一个网络。

网络参数模型：为了反映动态变化的网络状态，我们采用离散随机模型来建模各网络的QoS参数。由于峰值信躁比变化较慢，我们认为三个网络的峰值信躁比在仿真过程中保持不变。我们近似认为网络导致的丢包率e_network、网络中的传输时延d_network和吞吐量θ三个QoS参数在一个时隙内保持不变，而在不同的时隙间是独立的离散随机变量。其中，丢包率e_network有N_e个离散状态，

e_network=e_min+e_unitn_e,n_e=0,1,...,N_e-1

其中e_min为最小丢包率，e_unit为最小丢包率单位。类似的，传输时延d_network共有N_d个离散状态，

d_network=d_min+d_unitn_d,n_d=0,1,...,N_d-1

其中d_min为最小时延，d_unit为最小时延单位。吞吐量θ有共有N_θ个离散状态，

θ=θ_min+θ_unitn_θ,n_θ=0,1,...,N_θ-1

其中θ_min为最小吞吐量，θ_unit为最小吞吐量单位。在我们的实施例中，三个网络的参数设置见表1。

表1网络参数设置

e_min

e_unit

N_e

d_min

d_unit

N_d

θ_min

θ_unit

N_θ

P_snr

LTE

0.02

3

10ms

5

250kbps

50kbps

6

4dB

WLAN1

0.02

5

50ms

10ms

4

720kbps

60kbps

4

5dB

WLAN2

0.04

0.02

5

60ms

10ms

5

250kbps

50kbps

4

7dB

业务参数设置：前述的三种业务类型对应的QoE需求函数的参数设置为：在视频业务的QoE需求函数中，b₁=1，b₂=5。音频业务的QoE需求函数中，假设编解码采用的是G.711，则可知γ₁=0，γ₂=30，γ₃=15。此外，播放缓冲导致的丢包率和时延分别为e_playout=0.05，d_playerout=60ms，编解码导致的时延d_codec=25ms。弹性业务中，假设最大期望吞吐量为2Mbps，最小期望吞吐量为100kpbs，则可得到b₃=2.6949，b₄=0.0235。

相邻两个时隙中业务类型的转移概率矩阵P为

P = \begin{matrix} s_{br} & s_{st} & s_{el} \\ s_{br} & 0.5 & 0.2 & 0.3 \\ s_{st} & 0.2 & 0.6 & 0.2 \\ s_{el} & 0.2 & 0.3 & 0.5 \end{matrix}

网络切换开销矩阵为

C = \begin{matrix} LTE & WLAN 1 & WLAN 2 \\ LTE & 0 & 2 & 2 \\ WLAN 1 & 2 & 0 & 1 \\ WLAN 2 & 2 & 1 & 0 \end{matrix}

参数设置：Q学习算法的参数设置如下，开发与利用折衷概率此外，β=0.3，切换开销权重ρ=0.5，系统时隙长度T=20s。

为了验证本发明所提方法的有效性，我们以每时隙的平均净回报为指标来表征网络选择的性能。由于前提条件是网络的先验状态信息是未知的，因此在这里采用的对比网络选择算法有四种：三种固定选择策略，即固定选择LTE、WLAN1或WLAN2，不存在网络切换。最后是一种是随机选择，即有每个时隙随机选择三个网络中的一个接入。考虑到切换开销权重ρ以及用户的业务类型转移概率矩阵P会影响到净回报，下面从这两个方面因素来仿真分析各种算法的性能。

（1）切换开销权重ρ的影响：设置切换开销权重ρ从0到1变化，对应的5种网络选择或切换算法的平均净回报如图3所示。由图中可以看出来，本发明所提的方法在不同的切换开销权重下，相比于其它的4种算法，有较明显的性能优势。尽管随着切换开销权重的增大，切换开销的负面影响会使所提方法的平均净回报降低，但是其净回报不低于其它算法。虽然三种固定网络选择算法不会产生切换开销，但是它们不能有效的利用三个网络的差异性，性能始终受限，均劣于所提的方法。随机切换算法具有盲目性，因此，尽管它可以灵活的切换网络，由于它没有考虑切换开销的负面影响也没有学习能力，其性能随着切换开销的增加以接近线性的速度降低。当切换开销权重接近0.4时，随机选择算法的性能最差。

此外，我们将所提方法在不同切换开销权重下的网络切换策略记录下来，得到如下结果：

a)当0≤ρ≤0.4时，最优网络切换策略为

其中，3*3的矩阵中的元素表示当前接入的网络为其所在列对应的网络，新到达的业务类型为其所在的行对应的业务类型时，最优的网络切换目标。例如，当MT当前接入的网络为LTE，如果新到达的业务为脆性业务时，最优的网络切换目标为WLAN1；如果新到达的业务为媒体流业务时，最优的网络切换目标为LTE，相当于保持当前的连接，不需要切换。

b)当0.4<ρ≤0.9时，最优网络切换策略为

c)当0.9<ρ≤1时，最优网络切换策略为

由上述的结果可以发现，当切换开销权重较小时，切换开销的影响较小，最优的网络切换目标仅与业务类型有关。随着切换开销权重的增大，切换开销的负面影响变大，使得最优的网络切换目标不仅与业务类型有关，还与当前接入的网络有关。这一现象也表明了所提方法能够有效的在性能和切换开销之间取得折衷。

（2）业务类型转移概率矩阵P的影响：我们选择了三种不同的业务类型转移概率矩阵，分别为

P_{1} = \begin{matrix} s_{br} & s_{st} & s_{el} \\ s_{br} & 0.2 & 0.3 & 0.5 \\ s_{st} & 0.5 & 0.2 & 0.3 \\ s_{el} & 0.3 & 0.5 & 0.2 \end{matrix},

P_{2} = \begin{matrix} s_{br} & s_{st} & s_{el} \\ s_{br} & 0.33 & 0.34 & 0.33 \\ s_{st} & 0.33 & 0.34 & 0.33 \\ s_{el} & 0.33 & 0.34 & 0.33 \end{matrix},

P_{3} = \begin{matrix} s_{br} & s_{st} & s_{el} \\ s_{br} & 0.5 & 0.3 & 0.2 \\ s_{st} & 0.2 & 0.6 & 0.2 \\ s_{el} & 0.3 & 0.2 & 0.5 \end{matrix}

当切换开销权重ρ=0.3时，5种算法的性能对比如图4所示。我们可以发现，随机选择算法和固定选择网络的算法的性能随着转移概率矩阵的变化几乎保持不变，所提方法的性能有一定程度的降低。然而，我们所提的方法在三种转移概率中相对其它算法始终保持一定的优势，因此，本发明所提方法的性能优势对于转移概率矩阵的变化表现出相对的稳定性。

上述仿真证明了本发明所提的方法的有效性、合理性。

本发明未涉及部分均与现有技术相同或可采用现有技术加以实现。

Claims

1.一种异构无线网络中优化用户QoE的动态网络选择方法，其特征是该方法结合传输的业务类型和当前用户接入的网络，周期的动态更新接入网络；该方法包括以下步骤：建立三种业务类型的用户QoE需求函数以及初始化Q学习中变量的步骤；采用Q学习方法进行网络选择决策及执行切换的步骤；和Q学习方法中变量更新的步骤；

具体包括以下步骤：

步骤1.初始化，完成以下工作：

e＝e_network+(1-e_network)e_playout

d＝d_codec+d_playout+d_network

I_e＝γ₁+γ₂ln(1+γ₃e)

I_d＝0.024d+0.11(d-177.3)I_{d-177.3}

R_f＝94.2-I_e-I_d

由R_f指数，得到音频业务的QoE需求函数F_audio(R_f)

F_audio(R_f)＝1+0.035R_f+7·10^-6R_f(R_f-60)(100-R_f)

F_elastic(θ)＝b₃log(b₄θ)

给定用户的最小期望吞吐量θ₁和最大期望吞吐量θ₂，参数

1.2初始化Q学习中的变量：记业务类型集为S＝{s_video,s_audio,s_elastic}，可用网络集为定义x＝[s,n]∈X为用户的状态，x表示的状态是用户当前所在网络为n且新到达的业务对应的类型为s，为用户状态空间，为切换目标网络，即切换到的网络，初始化Q值为Q(x,n)＝0，系统时隙长度为T，初始化网络切换开销矩阵其中c_m,n≥0表示从网络m切换至网络n的切换开销，并且c_n,n＝0；这里的开销表征的是网络切换中产生的协议开销；

2.1在第t个时隙的起始时刻，t时隙传输的业务类型为s(t)；

2.2结合当前接入的网络n(t)，得到x(t)＝[s(t),n(t)]，并按照下面的规则选择切换网络：以概率ε(t)随机选择一个网络接入；以概率1-ε(t)选择网络接入，ε(t)随着t会变小，始终大于0；

2.3执行网络切换，建立连接；

步骤3.Q学习方法中变量更新：

3.1建立连接后，进行业务传输；

3.2当第t个时隙的传输结束，根据所传输的业务类型，计算相应业务类型的QoE回报即F_s(t)，然后，计算用户的净回报r(x(t),δ(t))

r(x(t),δ(t))＝F_s(t)-ρc_n(t),δ(t)

其中0≤ρ≤1为开销权重；

3.3在第t+1时隙的起始时刻，业务类型为s(t+1)，系统状态转移到新状态x(t+1)＝[s(t+1),δ(t)]；

3.4按下式更新Q值

其中α_t<1为Q学习中的控制参数，随t增大而减小，满足

3.5t＝t+1，回到步骤2。

2.根据权利要求1所述的异构无线网络中优化用户QoE的动态网络选择方法，其特征是步骤1中，参数γ₁，γ₂和γ₃取决于采用的编解码器，所述的编码器型号为G.729a或G.711，编码器型号为G.729a时，γ₁＝11，γ₂＝40，γ₃＝10；编码器型号为G.711时，γ₁＝0，γ₂＝30，γ₃＝15。

3.根据权利要求1所述的异构无线网络中优化用户QoE的动态网络选择方法，其特征是步骤2中，