CN110545563B

CN110545563B - 面向IPv6的基于动态能效的网络选择方法

Info

Publication number: CN110545563B
Application number: CN201910732159.5A
Authority: CN
Inventors: 何林波; 贾川; 蒋定德; 魏超; 岳亮; 乔少杰
Original assignee: Chengdu University of Information Technology; CERNET Corp
Current assignee: Chengdu University of Information Technology; CERNET Corp
Priority date: 2019-08-09
Filing date: 2019-08-09
Publication date: 2021-10-19
Anticipated expiration: 2039-08-09
Also published as: CN110545563A

Abstract

本公开涉及一种面向IPv6的基于动态能效的网络选择方法，包括：获取基于IPv6的网络的当前状态，当前状态包括当前连接的网络、网络业务类型和当前可连接的候选网络集合；基于候选网络集合得到用于表征网络切换动作的动作集合；统计动作集合中的动作元素的数量；若动作元素的数量为1，则将该动作元素对应的网络作为切换后的网络；若动作元素的数量大于1，生成随机数rand，判断该随机数rand与预设的折扣因子γ之间的大小；若rand＜γ，则随机选择动作集合中的动作元素，并将该动作元素对应的网络作为切换后的网络；若rand≥γ，则利用Q学习的方法，基于用户体验质量QoE收益、网络切换代价以及能量消耗进行Q学习以获得最佳的网络选择方案。

Description

面向IPv6的基于动态能效的网络选择方法

技术领域

本公开属于网络技术领域，具体涉及一种面向IPv6的基于动态能效的网络选择方法。

背景技术

网络选择是异构网络融合中的重要研究内容，已成为通信网络中的研究热点，引起了工业界和学术界的广泛关注。近年来，随着IPv6(Internet Protocol Version 6，互联网协议第6版)技术应用的发展，绝大部分的接入网络都在向IPv6网络过渡，网络中的业务呈多样化发展，网络向异构化、复杂化等方向快速演进。基于IPv6的异构无线网络中业务更表现出多样性和时变性，各种面向IPv6的网络接入技术并存，网络资源的可用情况、用户偏好、可提供服务的业务类型、网络通信质量、网络性能动态性等影响接入IPv6网络的性能。如何在多种不同基于IPv6的网络间动态选择符合用户需求的最佳接入模式，成为当前面向IPv6的异构网络需要解决的重要问题，对提高基于IPv6的异构网络接入的性能和可靠性具有重要意义。

近年来，设备选择接入网络的方法得到了广泛的研究，基于频谱带宽映射、延时感知、有效容量等网络选择方法已经被提出来并用于解决异构网络下的网络选择问题。基于多状态神经记忆方法也被提出并用于网络拓扑的选择；而对于动态变化的多跳网络，用户的动态需求被考虑来进行实时网络选择。在移动情况下，基于概率的方法被提出并用于异构网络下的网络选择。另外，局部协作的方法也被提出设计用于符合用户需求感知的网络选择方案。由于链路速率对网络性能有重要影响，基于链路质量参数的网络选择算法被提出来用于获得异构网络下的最佳网络选择结果。

尽管以上这些方法能获得较好的网络选择结果，但基于IPv6的异构接入网络环境复杂多样，现有接入网络选择方法并没有考虑用户体验质量(Quality of Experience，QoE)、能量消耗等对接入IPv6网络设备的用户体验和通信性能的重要影响，难以获得最优的IPv6接入网络选择方案。

发明内容

有鉴于此，本公开的主要目的在于提供一种面向IPv6的基于动态能效的网络选择方法，包括：

获取用户终端接入IPv6网络的当前状态，基于Q学习计算累积回报值，选择出最佳网络切换方案；所述当前状态包括用户终端当前连接的网络、用户的业务类型和当前可连接候选网络集合；

基于所述候选网络集合得到用于表征所述网络切换动作的动作集合，其中，所述动作集合包括至少一个动作元素，单个所述动作元素表示一个可接入的网络；

统计所述动作集合中的动作元素的数量；

若所述动作元素的数量为1，则将该动作元素对应的网络作为切换后的网络，并更新所述累积回报值；

若所述动作元素的数量大于1，生成随机数rand，判断该随机数rand与预设的折扣因子γ之间的大小；

若rand＜γ，则随机选择所述动作集合中的动作元素，将该动作元素对应的网络作为切换后的网络，并更新所述累积回报值；

若rand≥γ，则基于用户体验质量QoE收益、网络切换代价以及能量消耗并利用Q学习算法进行学习并选择出使得所述累积回报值最大的动作元素，将该动作元素对应的网络作为切换后的网络，并更新所述累积回报值。

可选地，所述累积回报值基于以下公式得到：

其中，s表示网络状态，a表示网络切换动作，Q_t+Δt(s，a)表示网络切换后的累积回报值，α为学习参数，Q_t(s，a)表示网络切换前的累积回报值，r(s，a)表示在网络状态s下执行动作a的回报值，γ表示折扣因子，A表示候选网络集合，a_c表示所述动作集合中的动作元素，Q_t(s，a_c)表示在切换前的网络状态s下执行动作a_c的累积回报值。

可选地，所述回报值r(s，a)基于用户终端于网络状态s采取动作a后获得的用户体验质量QoE收益，用户终端于状态s采取动作a的切换代价，以及用户终端于状态s采取动作a的能量消耗得到。

可选地，所述回报值r(s，a)基于以下公式得到：

其中，f(s，a)表示用户终端于网络状态s采取动作a后获得的用户体验质量QoE收益函数，g(s，a)表示用户终端于状态s采取动作a的切换代价函数，e(a)表示用户终端于状态s采取动作a的能量消耗函数，λ表示用户终端切换代价所占的权重，

表示用户终端能量消耗所占的权重，λ∈(0，1)，

可选地，所述网络业务类型包括实时业务和非实时业务，所述实时业务包括视频业务和音频业务。

可选地，所述网络业务类型为音频业务时，所述QoE收益函数f(s，a)基于以下方式得到：

f(s，a)：q_au(r)＝1+0.035r+7×10^-6r(r-60)(100-r)；

其中，q_au(r)用于表征表示音频业务下的QoE收益，r表示有网络丢包率和延时引起的网络质量损耗，r＝94.2-i_l-i_d，i_l表示丢包率引起的质量损耗，i_d表示延时引起的质量损耗。

可选地，所述网络业务类型为视频业务时，所述QoE收益函数f(s，a)基于以下方式得到：

其中，q_v(r)用于表征表示视频业务下的QoE收益，p表示峰值信号噪声，b₁和b₂为常量参数。

可选地，所述网络业务类型为非实时业务时，所述QoE收益函数f(s，a)基于以下方式得到：

f(s，a)：q_o(θ)＝b₃log(b₄*θ)；

其中，q_o(θ)用于表征表示非实时业务下的QoE收益，θ表示网络吞吐量，b₃表示网络最大吞吐量，b₄表示网络最小吞吐量。

通过上述技术方案，该面向IPv6的基于动态能效的网络选择方法结合当前连接的网络、网络业务类型和当前可连接的候选网络集合，通过引入用户体验质量QoE、网络能耗等网络选择评价参数，将QoE回报值以及能量消耗作为Q学习算法的反馈进行迭代。通过不断地学习，使得用户终端接入IPv6网络的QoE得到保证，同时节省终端的能量消耗，减少用户不必要的切换。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

图1根据一示例性实施例示出的一种面向IPv6的基于动态能效的网络选择方法的流程图。

图2是根据一示例性实施例示出的一种网络场景图。

图3是基于图2的网络得到的三种算法接入IPv6异构网络时的平均累积QoE回报值仿真结果图。

图4是基于图2的网络得到的三种算法在不同IPv6网络间的切换性能结果图。

图5基于图2的网络得到的四种业务组合下三种算法的平均能量消耗结果图。

图6基于图2的网络得到的四种业务组合下三种算法的平均QoE回报比结果图。

图7基于图2的网络得到的四种业务组合下三种算法的平均阻塞率结果图。

图8基于图2的网络得到的三种算法在IPv6网络选择过程中用户终端剩余能量的变化情况结果图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

图2是根据一示例性实施例示出的一种网络场景图，在图2中，RNC为无线网络控制器，RNC与基站(BS，base station)102连接，RNC连接于SGSN(GPRS服务支持节点)，SGSN连接于GGSN(网关GPRS支持点)，GGSN连接于网关，网关连接于第一无线访问接入点(WirelessAccess Point，AP)103和第二无线访问接入点104，其中，第一无线访问接入点103产生第一热点区域105，第二无线访问接入点104产生第二热点区域106，第一热点区域与第二热点区域位于热点地区覆盖区域107内，两个基站102产生蜂窝网络覆盖区域101。

图1是根据一示例性实施例示出的一种面向IPv6的基于动态能效的网络选择方法的流程图，该网络选择方法可以应用于图2中的示出的网络，该网络选择方法包括：

S10，基于Q学习建立累积回报值作为参考，并获取基于IPv6的网络的当前状态，所述当前状态包括当前连接的网络、网络业务类型和当前可连接的候选网络集合；

S20，基于所述候选网络集合得到用于表征所述网络切换动作的动作集合，其中，所述动作集合包括至少一个动作元素，单个所述动作元素表示一个可接入的网络；

S30，统计所述动作集合中的动作元素的数量；

S40，若所述动作元素的数量为1，则将该动作元素对应的网络作为切换后的网络，并更新所述累积回报值；

S50，若所述动作元素的数量大于1，生成随机数rand，判断该随机数rand与预设的折扣因子γ之间的大小；

S60，若rand＜γ，则随机选择所述动作集合中的动作元素，将该动作元素对应的网络作为切换后的网络，并更新所述累积回报值；

S70，若rand≥γ，则基于用户体验质量QoE收益、网络切换代价以及能量消耗进行Q学习，以选择使得所述累积回报值最大的动作元素，将该动作元素对应的网络作为切换后的网络，并更新所述累积回报值。

以MATLAB实现的一种仿真平台为例，在执行步骤S10之前，可以先搭建UMTS、WLAN1和WLAN2共3个相融合的异构网络环境，其网络状态参数如下表1所示，结合图2，图2中的基站102属于UMTS网络，第一无线访问接入点103和第二无线访问接入点104分别属于WLAN1和WLAN2网络。

表1网络状态参数

其中，丢包率e、网络延迟d(毫秒)和吞吐量θ均由以上三个参数表示，下标m表示参数的最小值、下标u表示参数的基本单元大小，以及下标k表示各参数的等级数，即上述参数e_m，e_u，e_k，d_m，d_u，d_k，θ_m，θ_u，θ_k分别表示丢包率的最小值、丢包率的基本单元大小、丢包率的等级数、网络延迟的最小值、网络延迟的基本单元大小、网络延迟的等级数、吞吐量的最小值、吞吐量的基本单元大小、吞吐量的等级数，p_snr表示峰值信号与噪声比。

搭建好该仿真平台后，执行步骤S10，可以进行网络状态初始化，基于Q学习(Q-learning)，初始化累积回报值Q(s，a)，以选择出最佳的网络切换方案，并设定Q学习算法中的折扣因子γ、学习速率α、下一次发起切换请求的时间间隔Δt、仿真时间t以及最大仿真时间t_max。

网络状态初始化之后，获取基于IPv6的网络的当前状态S_t，所述当前状态S_t包括当前连接的网络n、网络业务类型s和当前可连接的候选网络集合A。具体来讲，定义状态空间：(n，s)，其中n∈{1，2，3}，1表示基于IPv6的UMTS网络，2表示基于IPv6的WLAN1网络，3表示基于IPv6的WLAN2网络；s表示网络业务类型，该仿真平台上采用三种业务类型，包括音频业务、视频业务、非实时业务，其中，音频业务、视频业务属于实时业务，非实时业务可以为浏览网页、e-mail或者文件传输。当前可连接的候选网络集合A＝{UMTS，WLAN1，WLAN2}。

之后执行步骤S20，基于所述候选网络集合得到用于表征所述网络切换动作的动作集合；具体来讲，该动作集合可以通过切换后的网络来表示，例如动作集合A(s)＝{1，2，3}，其中，1表示网络切换至基于IPv6的UMTS网络，2表示网络切换至基于IPv6的WLAN1网络，3表示网络切换至基于IPv6的WLAN2网络。

得到动作集合后，执行步骤S30，统计所述动作集合中的动作元素的数量，若所述动作元素的数量为1，则在步骤S40中，将该动作元素对应的网络作为切换后的网络，并更新所述累积回报值；若所述动作元素的数量大于1，则在步骤S50中，生成随机数rand，判断该随机数rand与预设的折扣因子γ之间的大小，其中，γ∈[0，1]，表示状态转移对未来状态的影响程度。

若rand＜γ，在步骤S60中，随机选择所述动作集合中的动作元素，并将该动作元素对应的网络作为切换后的网络，即随机选择UMTS、WLAN1和WLAN2中的一种作为切换后的网络，并更新所述累积回报值。

若rand≥γ，在步骤S70中，基于用户体验质量QoE收益、网络切换代价以及能量消耗进行Q学习，以选择使得所述累积回报值最大的动作元素，将该动作元素对应的网络作为切换后的网络，并更新所述累积回报值。

具体来讲，所述累积回报值基于以下公式得到：

即在步骤S70中，选择使得Q_t(s，a_c)取最大值的动作a_c，切换网络，并对当前的累积回报值Q_t(s，a)进行更新，得到网络切换后的累积回报值Q_t+Δt(s，a)。

其中，所述回报值r(s，a)基于用户终端于网络状态s采取动作a后获得的用户体验质量QoE收益，用户终端于状态s采取动作a的切换代价，以及用户终端于状态s采取动作a的能量消耗得到。

具体来讲，所述回报值f(s，a)基于以下公式得到：

表示用户终端能量消耗所占的权重，λ∈(0，1)，

f(s，a)与当前状态和行动无关，而与不同的业务类型相关，针对不同的业务类型，分别用q_au，q_v，q_o来表示音频业务，视频业务和非实时业务。

在一种实施方式中，音频业务类型的QoE收益函数采用R-factor非线性映射模型来进行描述：

f(s，a):q_au(r)＝1+0·035r+7×10^-6r(r-60)(100-r)；

其中，q_au(r)用于表征表示音频业务下的QoE收益，r表示有网络丢包率和延时引起的网络质量损耗，r＝94.2-i_l-i_d，i_l表示丢包率引起的质量损耗，i_d表示延时引起的质量损耗。i_l和i_d的取值可以分别为0.1和10。

视频业务类型的QoE收益函数采用峰值信号噪声比函数进行描述：

其中，q_v(r)用于表征表示视频业务下的QoE收益，p表示峰值信号噪声，b₁和b₂为常量参数，b₁和b₂用于决定该函数的形状。在一种实施方式中，b₁的取值范围为[0.5-base，0.5+base]，b₂的取值范围为[1-base，1+base]，base<0.1。

非实时业务的QoE收益函数采用增函数描述：

f(s，a)：q_o(θ)＝b₃log(b₄*θ)；

其中，q_o(θ)用于表征表示非实时业务下的QoE收益，θ表示网络吞吐量，b₃表示网络最大吞吐量，b₄表示网络最小吞吐量。在一种实施方式中，b₃为10，b₄为0.1。

在一种可能的实施方式中，可以将g(s，a)设定为固定值，通过一个3×3的矩阵表示如下：

其中，从上之下每一行表示切换前的网络分别为UMTS，WLAN1，WLAN2，从左至右每一列表示切换后的网络分别为UMTS，WLAN1，WLAN2。进而第1行从左至右的3列分别表示UMTS网络保持不变的代价为0，由网络UMTS切换到WLAN1和WLAN2的代价均为2；第2行从左至右的3列分别表示由网络WLAN1切换到UMTS的代价为2，WLAN1网络保持不变的代价为0，由网络WLAN1切换到WLAN2的代价分别为1；第3行从左至右的3列分别表示由网络WLAN2切换至UMTS和WLAN1的代价分别为2和1，网络WLAN2保持不变的代价为0。

对于实时业务类型如音频业务或视频业务，能量消耗函数e(a)可如下表示：

其中，r_t(a)为终端接入到对应网络的功率消耗，

表示实时业务的持续时间。

r_t(a)与选择的网络及距离网络接入点的距离相关，具体如下：

其中，z表示终端到网络接入点例如基站102、第一无线访问接入点103或第二无线访问接入点104之间的距离，τ表示信道衰减因子，τ∈[1，4]，例如τ为2。

对于非实时业务类型，其延迟敏感度较低，能量消耗函数e(a)可如下表示：

其中，d表示非实时业务的数据量大小，R_cur为当前网络的可达速率，r_t(a)为终端接入到对应网络的功率消耗。

基于上述公式描述，可以计算出当前回报值r(s，a)并对Q_t(s，a)进行更新，得到更新后的状态和更新后的Q_t+Δt(s，a)，并可以重复上述步骤S10至步骤S70。

在该面向IPv6的基于动态能效的网络选择方法运行于上述仿真平台时，计算该方法的运行时间，如果其运行的仿真时间t大于最大仿真时间t_max，则停止该方法的运行。

基于上述仿真平台，测试该面向IPv6的基于动态能效的网络选择方法QBNS，随机接入网络选择算法RANDM，以及加权求和接入网络选择算法SAW，测试结果如图3至图8所示。在图3中，QBNS的平均累计QoE奖励明显高于RANDM或SAW，在图4中，QBNS的平均切换次数明显少于RANDM或SAW，在图5中，QBNS方法下的每个应用的能耗少于RANDM或SAW，在图6中，QBNS方法下每单位时间的平均QoE奖励多于RANDM或SAW，在图7中，QBNS方法下的平均阻塞概率小于RANDM或SAW，在图8中，QBNS方法下的剩余能量多于RANDM或SAW。结合图3至图8，QBNS方法的性能好于RANDM或SAW。需要说明的是，在图5至图7示出的4种业务组合方案中，从左至右，第一种方案中为概率分布为0.5的音频业务和概率分布为0.5的非实时业务的组合，第二种方案为概率分布为0.5的视频业务和概率分布为0.5的非实时业务的组合，第三种方案为概率分布为0.3的音频业务、概率分布为0.3的视频业务和概率分布为0.4的非实时业务的组合，第四种方案为0.5的音频业务和概率分布为0.5的视频业务的组合。

在上述技术方案中，结合当前连接的网络、网络业务类型和当前可连接的候选网络集合，通过引入用户体验质量QoE、网络能耗等网络选择评价参数，将QoE回报值以及能量消耗作为Q学习算法的反馈进行迭代。通过不断地学习，使得用户终端接入IPv6网络的QoE得到保证，同时节省终端的能量消耗，减少用户不必要的切换。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。

此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

Claims

1.一种面向IPv6的基于动态能效的网络选择方法，其特征在于，包括：

获取用户终端接入IPv6网络的当前状态，基于Q学习计算累积回报值，选择出最佳网络切换方案；所述当前状态包括用户终端当前连接的网络、用户所使用的网络业务类型和当前可连接候选网络集合；

统计所述动作集合中的动作元素的数量；

若所述动作元素的数量为1，则将该动作元素对应的网络作为切换后的网络；

若rand＜γ，则随机选择所述动作集合中的动作元素，将该动作元素对应的网络作为切换后的网络；

2.根据权利要求1所述的网络选择方法，其特征在于，所述累积回报值基于以下公式得到：

3.根据权利要求2所述的网络选择方法，其特征在于，所述回报值r(s，a)基于用户终端于网络状态s采取动作a后获得的用户体验质量QoE收益，用户终端于状态s采取动作a的切换代价，以及用户终端于状态s采取动作a的能量消耗得到。

4.根据权利要求3所述的网络选择方法，其特征在于，所述回报值r(s，a)基于以下公式得到：

表示用户终端能量消耗所占的权重，λ∈(0，1)，

5.根据权利要求4所述的网络选择方法，其特征在于，所述网络业务类型包括实时业务和非实时业务，所述实时业务包括视频业务和音频业务。

6.根据权利要求5所述的网络选择方法，其特征在于，所述网络业务类型为音频业务时，所述QoE收益函数f(s，a)基于以下方式得到：

f(s，a)：q_au(r)＝1+0.035r+7×10^-6r(r-60)(100-r)；

7.根据权利要求5所述的网络选择方法，其特征在于，所述网络业务类型为视频业务时，所述QoE收益函数f(s，a)基于以下方式得到：

8.根据权利要求5所述的网络选择方法，其特征在于，所述网络业务类型为非实时业务时，所述QoE收益函数f(s，a)基于以下方式得到：

f(s，a)：q_o(θ)＝b₃log(b₄*θ)；