CN108093425A

CN108093425A - 一种基于马尔科夫决策过程的移动数据分流方法

Info

Publication number: CN108093425A
Application number: CN201711373579.6A
Authority: CN
Inventors: 张�成; 张险峰; 陈庆武
Original assignee: Zhongshan Ma Lai Robot Technology Co Ltd
Current assignee: University of Electronic Science and Technology of China Zhongshan Institute
Priority date: 2017-12-19
Filing date: 2017-12-19
Publication date: 2018-05-29

Abstract

本发明公开一种基于马尔科夫决策过程的移动数据分流方法，包括以下步骤(1)移动数据分流的马尔科夫模型；(2)一种动态优化决策算法；(3)一种低时间复杂度的启发式分流算法；本发明从移动用户角度出发，构建多个不同容忍度的流，考虑用户偏向能量消耗，移动性，等待容忍度等多个方面，能更加全面考虑到系统内移动用户的服务质量，基于马尔科夫决策的移动数据分流方法，成功实现了数据分流，并且对系统整体的开销较小。

Description

一种基于马尔科夫决策过程的移动数据分流方法

技术领域

本发明涉及移动数据分流领域技术，尤其是指一种基于马尔科夫决策过程的移动数据分流方法。

背景技术

目前文献中还未发现相关专利。以数据分流作为关键字，在中国专利文献数据库中能搜索到相关主题的专利一篇。“辅助移动数据分流的方法及通信装置以及移动装置”(公开号：CN101612735A，2012年12月公开)，该专利提出一种辅助移动数据分流的方法和通信装置以及移动装置的实施。在移动通信模式下，通过一辅助通信装置对信号进行验证，构建第一通信连结，在第一通信上进行数据的分流。虽然此种方式能够实现分流，但是构建方式过于复杂，且耗能大。以Mobile Data Offloading作为关键字，能搜索到相关主题的专利多篇。“Method and Apparatus for Data Offloading”(公开号：US20110317571A，2011年12月公开),该专利通过设置多个设备对网络环境监听，对网络当中设备的数据使用进行比较，选择是否需要分流到其他网络。但是此方法对系统开销较大，并不具有实用性。“METHODAND SYSTEM FOR DATA OFFLOADING IN MOBILECOMMUNICATIONS”(公开号：US20120230191A，2012年9月公开)，该专利通过一个基础设置与数据分流控制器构成数据分流系统，通过基础设备对数据交换的监听，来判断是否需要进行数据分流，从而对数据分流控制器发出信号进行控制。此方法并未考虑到能量消耗及效率，并且复杂度较高，并不具实用性。已有的专利大多是从网络运营商来考虑数据分流的，这些策略并为考虑到移动用户的服务质量(QoS)。而已有的从移动用户考虑的策略，对整体系统的能量消耗和网络成本需求较高，效率并不明显。

发明内容

有鉴于此，本发明针对现有技术存在之缺失，其主要目的是提供一种基于马尔科夫决策过程的移动数据分流方法，其能有效解决现有之数据分流对整体系统的能量消耗和网络成本需求较高并且效率不明显的问题。

为实现上述目的，本发明采用如下之技术方案：

一种基于马尔科夫决策过程的移动数据分流方法，包括以下步骤(1)移动数据分流的马尔科夫模型；(2)一种动态优化决策算法；(3)一种低时间复杂度的启发式分流算法，

步骤(1)移动数据分流的马尔科夫模型：

移动用户使用手机应用进行数据下载时，由于时间限制，当发生网络阻塞问题，为提升用户体验，用户将进行数据分流用以解决上述问题，会自主性选择网络，考虑到手机能量消耗以及网络成本；对此，进行基于移动数据分流的马尔可夫决策的建模；

(1.1)模型环境：

为便于建模，步骤(1.1)对模型的使用环境进行相关介绍：

1)MUs从远程服务器下载M个文件，并且每个文件形成数据流(Flow)，则对应的数据流集定义为同时每个Flow都有相应的时间限制其中T＝(T¹，T²，...，T^M)表示为对于MU的M个文件的时间限制向量集，为便于建模，认为T¹≤T²≤…T^M并定义时间系统t∈7＝{1，...，T^M}；

2)为便于分析，限制MU只能在L可能性的位置移动，对应的位置集当蜂窝网络在上述位置集中出现的概率相等，而无线局域网出现的概率依赖于其位置

(1.2)马尔科夫决策模型的建立：

当用户下载文件，发生网络阻塞时，用户将根据网络使用成本、能量消耗以及剩余时间进行网络选择，从而完成数据传输；

(1.2.1)系统状态s_t

s_t＝{l_t，b_t}

其中表示通过GPS获取的MUs在t时的位置指数，表示位置集；为M个文件在t时的文件下载剩余量的向量集，并且而B^j表示第j个数据流的总的文件下载剩余量，因此则表示对应的剩余数据的向量集；

(1.2.2)用户动作：

用户动作a_t表示t时决定在处于无线局域网覆盖时，是否使用，或者使用蜂窝网络，或者继续等待空闲以及如何对M数据流进行网络数据率的分配，其定义如下：

a_t＝(a_t，c，a_t，ω)

1)其中，表示分配蜂窝网络的数据率的向量集，表示对于第j个数据使用蜂窝网络的分配数据率；则表示分配的无线局域网的数据率，而表示对于第j个数据使用无线局域网的分配的数据率；符号c和ω分别表示蜂窝网络和无线局域网；如果用户不在无线局域网覆盖的范围内时，可能为0；

2)所有数据流使用蜂窝网络和无线局域网的总的数据率分别定义

且a_t，c和a_t，ω需要满足以下条件：

其中，和分别表示在位置l时蜂窝网络和无线局域网的最大数据率；

3)在t时有以下因素影响用户的决策

a)网络成本即用户使用网络服务的成本：网络服务以基于使用量的价格计算模式，并且定义移动网络操作的价格为p_c，且认为无线局域网免费使用，则网络成本c_t(s_t，a_t)的定义如下：

b)能量消耗：通过使用无线局域网或蜂窝网络传输数据产生的能量消耗，其定义为：

其中，表示在位置1处使用蜂窝网络的能量消耗率，表示在位置1处使用无线局域网的能量消耗率，且两者都随输出为变小，即传输同等的数据量，低传输速度消耗更多的能量；θ_t表示MU在t时关注能量消耗的权重，θ_t值越小，表明MU对于能量消耗的关注度越小；

d)惩罚因子：如果数据传输没能在时间限制内完成，对于MU的惩罚因子其定义如下：

上式中函数g(·)具有非负非减的特性，T^j+1表示在时间限制T^j之后计算惩罚因子；

(1.2.3)状态转移概率：

Pr(s_t+1|s_t，a_t)

上式表明如果在状态s_t时进行选择动作a_t后，状态s_t+1的概率，为便于分析，假定数据传输的剩余量和位置改变相互独立，故

其中

上式中[x]⁺＝max{x，0}且认为用户从位置l_t到位置l_t+1的概率已知；

(1.2.4)策略π

上式中函数φ_t(l_t，b_t)将状态s_t＝(l_t，b_t)映射到在t时的动作决策，策略π的集合定义为∏；如果策略π被选中，则状态表示为

(1.3)用户目标函数

其目的是最小化从时间t＝1到t＝T^M的总成本，包括网络成本和能量消耗，且在t＝T^M+1时的惩罚因子具有最优的策略π^*，如下式所示：

上式中r_t(s_t，a_t)表示网络成本和能量消耗的总和，其计算公式如下：

r_t(s_t，a_t)＝c_t(s_t，a_t)+ξ_t(s_t，a_t)

步骤(2)一种动态优化决策算法：

通过步骤(1)建立用户选择网络和数据分配的MDP模型，其目的是为了通过做出相应的动作从而降低用户成本，为此，步骤(2)采用一种动态方法解决MDP问题。

优选的，所述步骤(2)进一步包括：

(2.1)MDP问题的最优化函数：

定义v_t(s_t)为用户在状态s_t处从t到T^M+1的总成本的最小期望值，如下式所示：

基于上式，采用一种动态方法解决MDP问题；

(2.2)一种动态解决MDP问题的方法，其过程如下：

(2.2.1)最优策略计算阶段：

(2.2.2)通过等式7,建立用户在位置l,下载剩余量b时，时间T^M+1的总成本最小期望值l属于位置集合

(2.2.3)定义时间T^M等于t；

(2.2.4)当t大于等于1时

(2.2.5)对于在时间t位置属于集合的l_t；

(2.2.6)定义时间t下载剩余量集合的向量集b_t等于0；

(2.2.7)对于时间t属于下载剩余量集合的向量集b_t；

(2.2.8)用公式14计算时间t时状态s_t，分配的蜂窝网络的数据率a_t时，总成本的期望值Q_t(s_t，a_t)；

(2.2.9)定义时间t时最小总成本期望值的变量值为

(2.2.10)定义时间t时最小总成本期望值v_t(l，b)等于变量值与Q_t的期望；

(2.2.11)定义M个文件在时间t时下载剩余量的向量集b_t等于b_t加上σ；

(2.2.12)结束循环；

(2.2.13)结束循环；

(2.2.14)定义时间t等于t-1；

(2.2.15)结束循环；

(2.2.16)最佳策略π^*是为了接下来的分流数据传输策略生成的；

(2.2.17)；

(2.2.18)分流数据传输策略；

(2.2.19)定义时间t＝1，下载剩余量b等于文件下载剩余量集合

(2.2.20)当时间t小于等于时间T^M并且b_t大于0；

(2.2.21)l_t由GPS确定；

(2.2.22)根据最佳策略π^*，定义用户动作

(2.2.23)定义b_t＝[b_t-a_t，c-a_t，ω]⁺；

(2.2.24)结束循环；

(2.2.25)定义t＝t+1；

(2.2.26)结束循环；

步骤(3)一种低时间复杂度的启发式分流算法：

步骤(2)成功实现了降低用户成本的功能；但是，其算法的时间复杂度很高；因此，步骤(2)仅作为最佳分流策略的离线算法；

针对上述问题，提出一种新的算法，实现两个目标：1.低时间复杂度；2.实时性计算；具体步骤：

(3.1.1)在时间间隙t；

(3.1.2)输入：截止时间矢量集合T，截止时间阈值T_th，通过GPS获取的Mus在t时的位置指数l_t，M个文件在时间t时下载剩余量的向量集b_t；

(3.1.3)对于属于集合T的矢量T^j；

(3.1.4)如果t<T^j；

(3.1.5)将T^j-t添加到截止时间保留表R；

(3.1.6)定义权重等于

(3.1.7)否则；

(3.1.8)定义权重等于0；

(3.1.9)将权重添加到分配率权重列表W_t；

(3.1.10)结束循环；

(3.1.11)结束循环；

(3.1.12)标准化W_t到

(3.1.13)标准化b_t到

(3.1.14)如果在位置l无线LAN网接入点可用而且速率比γ_th高，γ_th是由MUs的能量偏好定义的参数；

(3.1.15)根据分配无线LAN网数据接入率到每一个流；

(3.1.16)无线LAN网数据接入率a_t，w确定；

(3.1.17)如果R的最小值小于T_th；

(3.1.18)根据分配蜂窝网数据率到每一个流；

(3.1.19)蜂窝网数据接入率a_t，c确定；

(3.1.20)结束循环；

(3.1.21)根据a_t，c和a_t，w输出分配的蜂窝网络的数据率a_t；

从上述算法的结果可以看出，时间复杂度远远低于算法1；并且，算法2可以作为在线算法实现实时计算。

本发明与现有技术相比具有明显的优点和有益效果，具体而言，由上述技术方案可知：

本发明从移动用户角度出发，构建多个不同容忍度的流，考虑用户偏向能量消耗，移动性，等待容忍度等多个方面，能更加全面考虑到系统内移动用户的服务质量，基于马尔科夫决策的移动数据分流方法，成功实现了数据分流，并且对系统整体的开销较小。

具体实施方式

本发明揭示了一种基于马尔科夫决策过程的移动数据分流方法，包括以下步骤(1)移动数据分流的马尔科夫模型；(2)一种动态优化决策算法；(3)一种低时间复杂度的启发式分流算法，

步骤(1)移动数据分流的马尔科夫模型：

移动用户(Mobile User，MU)使用手机应用进行数据下载时，由于时间限制，当发生网络阻塞问题，为提升用户体验，用户将进行数据分流用以解决上述问题，会自主性选择网络，考虑到手机能量消耗以及网络成本；对此，进行基于移动数据分流的马尔可夫决策的建模；

(1.1)模型环境：

为便于建模，步骤(1.1)对模型的使用环境进行相关介绍：

1)MUs从远程服务器下载M个文件(File)，并且每个文件形成数据流(Flow)，则对应的数据流集定义为同时每个Flow都有相应的时间限制(Deadline)其中T＝(T¹，T²，...，T^M)表示为对于MU的M个文件的时间限制向量集，为便于建模，认为T¹≤T²≤…T^M并定义时间系统

2)为便于分析，限制MU只能在L可能性的位置移动，对应的位置集当蜂窝网络在上述位置集中出现的概率相等，而无线局域网(WirelessLAN Networks)出现的概率依赖于其位置

(1.2)马尔科夫决策模型的建立：

(1.2.1)系统状态s_t

s_t＝{l_t，b_t}

(1.2.2)用户动作(action)：

用户动作(action)a_t表示t时决定在处于无线局域网覆盖时，是否使用，或者使用蜂窝网络，或者继续等待空闲以及如何对M数据流进行网络数据率的分配，其定义如下：

a_t＝(a_t，c，a_t，ω)

且a_t，c和a_t，ω需要满足以下条件：

3)在t时有以下因素影响用户的决策

a)网络成本即用户使用网络服务的成本：网络服务以基于使用量的价格计算模式，并且定义移动网络操作(Mobile Networks Operators，MNOs)的价格为p_c，且认为无线局域网免费使用，则网络成本c_t(s_t，a_t)的定义如下：

其中，表示在位置l处使用蜂窝网络的能量消耗率，表示在位置l处使用无线局域网的能量消耗率，且两者都随输出为变小，即传输同等的数据量，低传输速度消耗更多的能量；θ_t表示MU在t时关注能量消耗的权重，θ_t值越小，表明MU对于能量消耗的关注度越小；

c)惩罚因子：如果数据传输没能在时间限制内完成，对于MU的惩罚因子其定义如下：

(1.2.3)状态转移概率：

Pr(s_t+1|s_t，a_t)

其中

(1.2.4)策略π

上式中函数φ_t(l_t，b_t)将状态s_t＝(l_t，b_t)映射到在t时的动作决策，策略π的集合定义为Π；如果策略π被选中，则状态表示为

(1.3)用户目标函数

r_t(s_t，Q_t)＝c_t(s_t，Q_t)+ξ_t(s_t，a_t)

步骤(2)一种动态优化决策算法：

所述步骤(2)进一步包括：

(2.1)MDP问题的最优化函数：

基于上式，采用一种动态方法解决MDP问题；

(2.2)一种动态解决MDP问题的方法，其过程如下：

(2.2.1)最优策略计算阶段：

(2.2.3)定义时间T^M等于t；

(2.2.4)当t大于等于1时

(2.2.5)对于在时间t位置属于集合的l_t；

(2.2.6)定义时间t下载剩余量集合的向量集b_t等于0；

(2.2.7)对于时间t属于下载剩余量集合的向量集b_t；

(2.2.9)定义时间t时最小总成本期望值的变量值为

(2.2.12)结束循环；

(2.2.13)结束循环；

(2.2.14)定义时间t等于t-1；

(2.2.15)结束循环；

(2.2.17)；

(2.2.18)分流数据传输策略；

(2.2.19)定义时间t＝1，下载剩余量b等于文件下载剩余量集合

(2.2.20)当时间t小于等于时间T^M并且b_t大于0；

(2.2.21)l_t由GPS确定；

(2.2.22)根据最佳策略π^*，定义用户动作

(2.2.23)定义b_t＝[b_t-a_t，c-a_t，ω]⁺；

(2.2.24)结束循环；

(2.2.25)定义t＝t+1；

(2.2.26)结束循环；

步骤(3)一种低时间复杂度的启发式分流算法：

针对上述问题，提出一种新的算法，实现两个目标： 1.低时间复杂度；2.实时性计算；具体步骤：

(3.1.1)在时间间隙t；

(3.1.3)对于属于集合T的矢量T^j；

(3.1.4)如果t<T^j；

(3.1.5)将T^j-t添加到截止时间保留表R；

(3.1.6 ) 定义权重等于

(3.1.7)否则；

(3.1.8)定义权重等于0；

(3.1.9)将权重添加到分配率权重列表W_t；

(3.1.10)结束循环；

(3.1.11)结束循环；

(3.1.12)标准化W_t到

(3.1.13)标准化b_t到

(3.1.15)根据分配无线LAN网数据接入率到每一个流；

(3.1.16)无线LAN网数据接入率a_t，w确定；

(3.1.17)如果R的最小值小于T_th；

(3.1.18)根据分配蜂窝网数据率到每一个流；

(3.1.19)蜂窝网数据接入率a_t，c确定；

(3.1.20)结束循环；

(3.1.21)根据a_t，c和a_t，w输出分配的蜂窝网络的数据率a_t；

本发明的设计重点是：本发明从移动用户角度出发，构建多个不同容忍度的流，考虑用户偏向能量消耗，移动性，等待容忍度等多个方面，能更加全面考虑到系统内移动用户的服务质量，基于马尔科夫决策的移动数据分流方法，成功实现了数据分流，并且对系统整体的开销较小。

以上结合具体实施例描述了本发明的技术原理。这些描述只是为了解释本发明的原理，而不能以任何方式解释为对本发明保护范围的限制。基于此处的解释，本领域的技术人员不需要付出创造性的劳动即可联想到本发明的其它具体实施方式，这些方式都将落入本发明的保护范围之内。

Claims

1.一种基于马尔科夫决策过程的移动数据分流方法，包括以下步骤(1)移动数据分流的马尔科夫模型；(2)一种动态优化决策算法；(3)一种低时间复杂度的启发式分流算法，其特征在于：

步骤(1)移动数据分流的马尔科夫模型：

(1.1)模型环境：

为便于建模，步骤(1.1)对模型的使用环境进行相关介绍：

1)MUs从远程服务器下载M个文件，并且每个文件形成数据流(Flow)，则对应的数据流集定义为同时每个Flow都有相应的时间限制其中T＝(T¹,T²,...,T^M)表示为对于MU的M个文件的时间限制向量集，为便于建模，认为T¹≤T²≤...T^M并定义时间系统

(1.2)马尔科夫决策模型的建立：

(1.2.1)系统状态s_t

s_t＝{l_t，b_t}

(1.2.2)用户动作：

a_t＝(a_t，c，a_t，ω)

且a_t，c和a_t，ω需要满足以下条件：

<mfenced open = "{" close = "}"> <mtable> <mtr> <mtd> <mrow> <msub> <mi>a</mi> <mrow> <mi>t</mi> <mo>,</mo> <mi>c</mi> </mrow> </msub> <mo>=</mo> <msubsup> <mi>&gamma;</mi> <mi>c</mi> <mi>l</mi> </msubsup> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>a</mi> <mrow> <mi>t</mi> <mo>,</mo> <mi>&omega;</mi> </mrow> </msub> <mo>=</mo> <msubsup> <mi>&gamma;</mi> <mi>&omega;</mi> <mi>l</mi> </msubsup> </mrow> </mtd> </mtr> </mtable> </mfenced>

3)在t时有以下因素影响用户的决策

(1.2.3)状态转移概率：

Pr(s_t+1|s_t，a_t)

其中

<mrow> <mi>Pr</mi> <mrow> <mo>(</mo> <msub> <mi>b</mi> <mrow> <mi>t</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>|</mo> <mo>(</mo> <mrow> <msub> <mi>l</mi> <mi>t</mi> </msub> <mo>,</mo> <msub> <mi>b</mi> <mi>t</mi> </msub> </mrow> <mo>)</mo> <mo>,</mo> <msub> <mi>a</mi> <mi>t</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mn>1</mn> </mtd> <mtd> <mtable> <mtr> <mtd> <mrow> <mi>i</mi> <mi>f</mi> </mrow> </mtd> <mtd> <mrow> <msub> <mi>b</mi> <mrow> <mi>t</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>=</mo> <msup> <mrow> <mo>&lsqb;</mo> <msub> <mi>b</mi> <mi>t</mi> </msub> <mo>-</mo> <msub> <mi>a</mi> <mrow> <mi>t</mi> <mo>,</mo> <mi>c</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>a</mi> <mrow> <mi>t</mi> <mo>,</mo> <mi>&omega;</mi> </mrow> </msub> <mo>&rsqb;</mo> </mrow> <mo>+</mo> </msup> </mrow> </mtd> </mtr> </mtable> </mtd> </mtr> <mtr> <mtd> <mn>0</mn> </mtd> <mtd> <mrow> <mi>o</mi> <mi>t</mi> <mi>h</mi> <mi>e</mi> <mi>r</mi> <mi>w</mi> <mi>i</mi> <mi>s</mi> <mi>e</mi> </mrow> </mtd> </mtr> </mtable> </mfenced> </mrow>

(1.2.4)策略π

(1.3)用户目标函数

r_t(s_t，a_t)＝c_t(s_t，a_t)+ζ_t(s_t，a_t)

步骤(2)一种动态优化决策算法：

2.如权利要求1所述的一种基于马尔科夫决策过程的移动数据分流方法，其特征在于：所述步骤(2)进一步包括：

(2.1)MDP问题的最优化函数：

基于上式，采用一种动态方法解决MDP问题；

(2.2)一种动态解决MDP问题的方法，其过程如下：

(2.2.1)最优策略计算阶段：

(2.2.3)定义时间T^M等于t；

(2.2.4)当t大于等于1时

(2.2.5)对于在时间t位置属于集合的l_t；

(2.2.6)定义时间t下载剩余量集合的向量集b_t等于0；

(2.2.7)对于时间t属于下载剩余量集合的向量集b_t；

(2.2.9)定义时间t时最小总成本期望值的变量值为

(2.2.12)结束循环；

(2.2.13)结束循环；

(2.2.14)定义时间t等于t-1；

(2.2.15)结束循环；

(2.2.17)；

(2.2.18)分流数据传输策略；

(2.2.19)定义时间t＝1，下载剩余量b等于文件下载剩余量集合

(2.2.20)当时间t小于等于时间T^M并且b_t大于0；

(2.2.21)l_t由GPS确定；

(2.2.22)根据最佳策略π^*，定义用户动作

(2.2.23)定义b_t＝[b_t-a_t，c-a_t，ω]⁺；

(2.2.24)结束循环；

(2.2.25)定义t＝t+1；

(2.2.26)结束循环；

步骤(3)一种低时间复杂度的启发式分流算法：

(3.1.1)在时间间隙t；

(3.1.2)输入：截止时间矢量集合T，截止时间阈值通过GPS获取的Mus在t时的位置指数l_t，M个文件在时间t时下载剩余量的向量集b_t；

(3.1.3)对于属于集合T的矢量T^j；

(3.1.4)如果t<T^j；

(3.1.5)将T^j-t添加到截止时间保留表R；

(3.1.6)定义权重等于

(3.1.7)否则；

(3.1.8)定义权重等于0；

(3.1.9)将权重添加到分配率权重列表W_t；

(3.1.10)结束循环；

(3.1.11)结束循环；

(3.1.12)标准化W_t到

(3.1.13)标准化b_t到

(3.1.15)根据分配无线LAN网数据接入率到每一个流；

(3.1.16)无线LAN网数据接入率a_t，w确定；

(3.1.17)如果R的最小值小于

(3.1.18)根据分配蜂窝网数据率到每一个流；

(3.1.19)蜂窝网数据接入率a_t，c确定；

(3.1.20)结束循环；

(3.1.21)根据a_t，c和a_t，w输出分配的蜂窝网络的数据率a_t；