CN108494632B

CN108494632B - 一种基于强化学习的移动数据流量卸载方法

Info

Publication number: CN108494632B
Application number: CN201810298887.5A
Authority: CN
Inventors: 江昊; 曾园园; 李倩; 刘冰清; 胡芷毅; 张毅; 彭铎
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2018-04-04
Filing date: 2018-04-04
Publication date: 2020-12-01
Anticipated expiration: 2038-04-04
Also published as: CN108494632A

Abstract

本发明公开了一种基于强化学习的移动数据流量卸载方法，首先基于手机用户上网记录数据，进行用户流量需求分析，分别针对用户总流量和可卸载流量进行统计分析；然后针对运营商、内容提供方和内容需求方，根据运营商效用函数、内容提供方效用函数、内容需求方效用函数和系统总效用函数，利用强化学习方法，求解令系统的总效用目标函数最优化的流量卸载策略。本发明利用强化学习中的Gradient Bandit算法，通过多天长期学习训练，做出最优的流量卸载决策。

Description

一种基于强化学习的移动数据流量卸载方法

技术领域

本发明属于移动互联网技术领域，特别涉及一种基于强化学习的移动数据流量卸载方法。

背景技术

根据思科的移动网络前景报告预测，全球移动数据流量将在2019年增长到292EB，并且97％的数据流量为智能流量。移动数据流量卸载是近年来兴起的一种新兴技术，利用互补网络分担原本在蜂窝网络上传输的数据流量，能够有效解决蜂窝网络流量负载问题，并且可以提升运营商的服务质量，保障用户的使用体验，减小用户的数据流量费用，提供更大的接入带宽。由于大部分互补网络已经存在或部署代价较小，相较于建设更多宏蜂窝网络基站，升级网络配置的传统措施，移动数据流量卸载在经济成本、建设周期等投入代价方面有着巨大的优势。因此，移动数据流量卸载的研究成为一个热点问题，引起了业界学者的广泛关注。

移动数据流量卸载是利用互补网络传输数据，从而降低蜂窝网络负载的一种技术。流量卸载的目标是在保障用户服务质量QoS的前提下，降低移动网络上对带宽需求较大的服务的成本，减小其对网络负载的影响。该技术可以有效解决移动数据量的激增所造成的资源竞争和用户体验指数下降的问题。基于机会连接的移动数据流量卸载，利用用户之间的机会通信进行流量卸载，可以减小回程链路的负载和传输代价。

发明内容

为了解决上述技术问题，本发明提出了一种基于强化学习的移动数据流量卸载方法。

本发明所采用的技术方案是：一种基于强化学习的移动数据流量卸载方法，其特征在于，包括以下步骤：

步骤1：基于手机用户上网记录数据，进行用户流量需求分析，分别针对用户总流量和可卸载流量进行统计分析；

步骤2：针对运营商、内容提供方和内容需求方，根据运营商效用函数、内容提供方效用函数、内容需求方效用函数和系统总效用函数，利用强化学习方法，求解令系统的总效用目标函数最优化的流量卸载策略。

本发明利用强化学习中的Gradient Bandit算法，通过多天长期学习训练，做出最优的流量卸载决策。

相对于现有技术，本发明的优点是：现有技术需要依赖于具体已知的流量负载情况，本发明可以在未来一天的流量负载是未知的情况下，通过分析流量负载的历史变化趋势，利用强化学习方法提前做出未来一天中最优的流量卸载决策。

附图说明

图1是本发明实施例的流程图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

请见图1，本发明提供的一种基于强化学习的移动数据流量卸载方法，包括以下步骤：

步骤1.1：基于手机用户上网记录数据，针对用户总流量进行统计分析，统计各天中每个时段的用户总流量需求；

步骤1.2：基于手机用户上网记录数据，针对可卸载流量进行统计分析，统计各天中每个时段的可卸载流量；利用用户之间的机会通信进行流量卸载，需要满足以下3个条件：用户对在时间、空间和内容维度有交集。因此对用户进行筛选，针对有相遇行为并且访问过相同类型的互联网内容的用户，进行流量需求统计，这一部分流量即为可卸载流量；

步骤2：针对运营商、内容提供方和内容需求方，根据运营商效用函数、内容提供方效用函数、内容需求方效用函数和系统总效用函数，利用强化学习方法，求解令系统的总效用目标函数最优化的流量卸载策略；

步骤2.1：设计运营商效用函数、内容提供方效用函数、内容需求方效用函数和系统总效用函数；

运营商的效用函数由提供流量的收益和成本两部分构成，令用户需求总流量为q，可卸载流量为f,流量卸载比例为x,则运营商的真实流量负载为q-fx,运营商的每单位流量定价为p,单位流量的成本为e,效用函数为：

U₁(x)＝(p-e)·(q-fx)；

内容提供方的效用函数由提供流量的收益和成本两部分构成，内容提供方提供的总流量为可卸载流量f和卸载比例x的乘积fx，令内容提供方的每单位流量定价为d，内容提供方的单位流量成本为g，则内容提供方的效用函数为：

U₂(x)＝(d-g)fx；

内容需求方的效用由获得的流量收益和支付的费用两部分组成，如下式所示：

U₃(x)＝αlog(1+q)-p(q-fx)-dfx

其中α是与用户体验相关的参数，第二项为支付给运营商的费用，第三项为支付给内容提供方的费用.

本发明的目标是制定流量卸载策略，使得系统中各时段运营商、内容提供方和内容需求方三方的总效用目标函数达到最优，系统总效用目标函数为：

U(x)＝λ₁·U₁(x)+λ₂·U₂(x)+λ₃·U₃(x)

s.t.λ₁+λ₂+λ₃＝1

λ₁≥0；λ₂≥0；λ₃≥0；

λ₁、λ₂和λ₃为三方效用函数的归一化权重，其中对三方的效用函数分别进行了归一化，并且限制了优化式中各权重的取值范围；

步骤2.2：利用强化学习中的Gradient Bandit算法，求解令系统的总效用目标函数最优化的流量卸载策略。

在强化学习模型中有2类行为action，在第t轮迭代中，当action为1时，表示选择从运营商获取内容，相应的收益为R_t(1)＝U(x_t＝0)，当action为2时，表示选择从内容提供方获取内容，相应的收益为R_t(2)＝U(x_t＝1)。这2类action的偏好因子分别记为H_t(1)和H_t(2)，初始时t＝0，令H_t(1)＝H_t(2)＝0，则选择这2类action的概率分别为

在后续t轮迭代中，π_t(1)和π_t(2)按照下式进行更新，假设当前t时刻的action为A_t,则迭代式为：

对于a≠A_t，则迭代式如下所示：

则选择行为a的概率为：

其中，α是可控参数，R_t是t时刻选择行为A_t的收益，

是前t时刻选择行为A_t获得收益的平均值。在t+1时刻根据t时刻的概率π_t(1)和π_t(2)，选择从运营商或内容提供方获取数据。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于强化学习的移动数据流量卸载方法，其特征在于，包括以下步骤：

步骤1的具体实现包括以下子步骤：

步骤1.2：基于手机用户上网记录数据，针对可卸载流量进行统计分析，统计各天中每个时段的可卸载流量；

步骤2的具体实现包括以下子步骤：

U₁(x)＝(p-e)·(q-fx)；

U₂(x)＝(d-g)fx；

U₃(x)＝αlog(1+q)-p(q-fx)-dfx；

其中α是与用户体验相关的参数，第二项为支付给运营商的费用，第三项为支付给内容提供方的费用；

系统总效用目标函数为：

U(x)＝λ₁·U₁(x)+λ₂·U₂(x)+λ₃·U₃(x)

s.t.λ₁+λ₂+λ₃＝1

λ₁≥0；λ₂≥0；λ₃≥0；

2.根据权利要求1所述的基于强化学习的移动数据流量卸载方法，其特征在于：步骤1.2中，利用用户之间的机会通信进行流量卸载，需要满足以下3个条件：用户对在时间、空间和内容维度有交集；因此对用户进行筛选，针对有相遇行为并且访问过相同类型的互联网内容的用户，进行流量需求统计，这一部分流量即为可卸载流量。

3.根据权利要求1-2任意一项所述的基于强化学习的移动数据流量卸载方法，其特征在于：步骤2中所述强化学习方法，在强化学习模型中有2类行为action，在第t轮迭代中，当action为1时，表示选择从运营商获取内容，相应的收益为R_t(1)＝U(x_t＝0)，当action为2时，表示选择从内容提供方获取内容，相应的收益为R_t(2)＝U(x_t＝1)；这2类action的偏好因子分别记为H_t(1)和H_t(2)，初始时t＝0，令H_t(1)＝H_t(2)＝0，则选择这2类action的概率分别为：

在后续t轮迭代中，π_t(1)和π_t(2)按照下式进行更新，假设当前t时刻的action为A_t，则迭代式为：

对于行为a≠A_t，则迭代式如下所示：

则选择行为a的概率为：

其中，α是可控参数，R_t是t时刻选择行为A_t的收益，

是前t时刻选择行为A_t获得收益的平均值；在t+1时刻根据t时刻的概率π_t(1)和π_t(2)，选择从运营商或内容提供方获取数据。