CN109982389A

CN109982389A - 一种基于多目标多臂赌博机在线学习的无线缓存方法

Info

Publication number: CN109982389A
Application number: CN201910162550.6A
Authority: CN
Inventors: 陈特; 董彬虹; 陈延涛; 曹蕾; 张存林
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-03-05
Filing date: 2019-03-05
Publication date: 2019-07-05
Anticipated expiration: 2039-03-05
Also published as: CN109982389B

Abstract

本发明公开了一种基于多目标多臂赌博机在线学习的无线缓存方法，属于移动通信领域，主要涉及移动通信中基站在无线网络闲暇时从内容提供商处提前缓存附近用户所需求内容并同时考虑了内容提供商收益的方法。本方法简单、算法复杂度为对数函数级别。其次，在优先考虑了无线缓存的核心目标的同时，(即在有限时间内，最大化卸载回程链路中的累计流量)，还考虑了内容提供商的收益，即具体表现在文件价值的重要性上。本方法兼顾多个目标，能较好符合无线通信收发双方的需求。

Description

一种基于多目标多臂赌博机在线学习的无线缓存方法

技术领域

本发明属于移动通信领域，主要涉及移动通信中基站在无线网络闲暇时从内容提供商处提前缓存附近用户所需求内容并同时考虑了内容提供商收益的方法。该方法具体为一种基于多目标多臂赌博机在线学习(Learning-Based Multi-Objective Multi-ArmedBandits,LB-MOMAB)的无线缓存方法。

背景技术

近年来，随着带有多媒体功能的移动设备(如智能手机，平板电脑等)逐渐普及，新型的无线服务应用也大量涌现，如微信，视频，淘宝，微博等。这使得无线移动通信的功能由最初的通话渗透到了娱乐，办公，社交领域等方方面面。与此同时，这也促使了在无线网络中数据流量的急速增长。

移动数据流量的爆发式增长对现有的蜂窝网络基础设施是个巨大的负担，特别是在通信的高峰期，容易出现延迟、中断等状况，导致用户体验变差。同时，根据最新的2018年思科移动流量趋势表明，在未来移动数据流量中，移动视频流量比重将超过七成。因此，基于视频本身的特性以及硬盘存储的现实，有学者提出了一种名为无线缓存的解决方案，其基本思想是在无线接入点处配置大容量的存储器，利用非高峰时段(如夜间)将受欢迎的视频提前缓存到接入点处的存储器中。通过这样的方式，用户在请求视频文件时，若缓存中有请求文件，无线接入点可以直接将文件传输给用户，使流量本地化。这种处理方式不仅能够大大降低数据在回程链路及核心网络的延迟，而且也降低了高峰期时回程链路及核心网络的负载。同时，这也降低了回程链路容量的占用量，可以释放更多的网络资源来为其他业务服务，间接地提升了系统的吞吐量。

另外，文件内容属性也是一个不能忽略的因素，目前各大视频网站(比如，爱奇艺，腾讯视频，优酷等)版权费用逐年提升，内容提供商们会将优质、热门的影片采用分级的方式进行播出，比如用劵、会员、收费等方式来赚取视频文件的费用，并且不同的视频的来源很可能不一样，这是由于版权决定的。以及各大移动网络运营商(移动、联通、电信)也与内容提供商们合作，采取定向流量包的方式吸引用户群，使之能培养用户的习惯，从而占据更高的流量入口。综上，这些都说明了不同视频文件的价值是不同的，而且文件价值的属性与用户、微基站、内容提供商的这三者的利益都息息相关。

传统上，以获取最大卸载网络流量为单目标进行缓存策略研究，常见的有两张方式，即等概率随机缓存(Equal Probability Random Caching,EPRC)和截断式随机缓存策略(Cut-off Random Caching,CTRC)。在等概率随机缓存中，所有文件都以相同的概率被用户随机缓存；而在截断式随机缓存策略中，通过截去文件库中的一部分请求概率较低的文件，形成一个缓存候选子文件库，用户可在该文件库中随机缓存文件，缓存命中率也优于等概率随机缓存。

尽管如此，这两种缓存方案也无法在实际系统中被采用。主要原因是因为它们仅仅考虑了卸载网络流量，它们都是用户、微基站的角度来考虑收益。这不可避免地忽略了文件价值的重要性，而文件价值属性取决于文件的来源，即内容提供商。

发明内容

为了解决以上问题，本发明提出了该方法具体为一种基于多目标的多臂老虎机在线学习的无线缓存方法。该方法在保证最大化卸载网络流量损失较小的情况下，同时考虑到不同文件价值差异的情况下，尽量最大化文件价值的累计收益。为了方便地描述本发明的内容，首先对本发明所使用的模型进行介绍，对本发明所使用的术语进行定义。

系统模型介绍：如图1所示，该模型的意义是：在闲暇时间段内，微基站的缓存控制器根据当前文件流行度趋势分析，从内容提供商处下载所需的缓存文件，当小区内的用户请求网络下载所需文件时，若该文件在微基站的存储内，则微基站服务于该用户，若否，则宏基站服务于该用户。一般来说，在无线电覆盖区域中，基站(Base Station，BS)是终端之间进行信息传输的无线收发电台。本发明考虑在基站中配置具有缓存一定数量文件能力的储存器，对流行文件进行缓存。假设文件集合为F＝{f₁,f₂,...f_n}，且所有文件的大小相同。基站的容量可描述为基站最大可在文件集合中缓存m个文件。时间间隙设置为t＝1,2,...,T，其中T表示时间终点，也可表示时隙长度。本发明的解决的问题是：在时间T内，保证在通信高峰期内卸载回程链路上的文件流量最大化(主目标：从通信运营商角度)，同时也能保证其卸载文件的收益最大化(次目标：从内容提供商角度)。

定义1、每个文件的估计奖赏向量值定义为其中，上标1,2分别表示当前时刻下的文件f的期望请求数、文件的期望价值。

定义2、定义当前时刻缓存文件的集合为M_t＝{f₁ ^*,...,f_m ^*}，该集合中的元素个数为m且m＜|F|。

定义3、定义每个文件的观察反馈奖赏值为r_f ^t＝(r_f ¹,r_f ²)，其中r_f ¹,r_f ²分别表示当前时刻下的文件f的请求量、文件f的价值。

定义4、定义每个文件的置信上界区间值为

定义5、定义文件的帕累托(Pareto)集合为A^*,满足该集合的文件的条件是：对于任意文件u,v，有X_u(t)＝(X_u ¹,X_u ²)，X_v(t)＝(X_v ¹,X_v ²)。若至少存在一个维度j,j∈{1,2}有X_u ^j＞X_v ^j，表示为则文件u属于集合A^*。

本发明技术方案如下：

该方法具体为一种基于多目标多臂赌博机在线学习的无线缓存方法，该方法是对标准UCB1(upper confidence bound)方法的改进，通过该改进的方法能够解决无线缓存中多目标优化问题：即保证在通信高峰期内卸载回程链路上的视频流量最大化(主目标：从通信运营商角度)，同时也能保证其卸载视频的收益最大化(次目标：从内容提供商角度)。

本方法是一种基于多目标多臂赌博机的在线学习无线缓存策略的方法，具体包括以下步骤：

步骤1、缓存当前内容提供商的所有文件至少一次，观察反馈奖赏向量r_f ^t，并且更新值和T_f值，其中，表示文件f的估计奖赏值，T_f代表的是文件f被缓存控制器选择的次数；设置t←F+1，其中文件集合为F＝{f₁,f₂,...f_n}，其中上标1,2分别表示当前时刻下的文件f的期望请求数、文件的期望价值；

步骤2、探寻满足条件的帕累托集合A^*，且即满足条件为：

则遍历完所有文件，找出符合条件的文件并放入帕累托集合A^*；设置u＝size(A^*)，其中，表示的是臂l的预估平均值，表示的是臂i的预估平均值；T_i表示臂i被选中的次数，T_l表示臂l被选中的次数；

步骤3、判断u≥m是否为真；若是，则从A^*集合中随机选择m个文件进行缓存，m表示当前时刻缓存文件库中文件的个数；若为否，将集合A^*中的u个文件放入缓存文件库中，即为集合M_t ^u，然后再进行步骤4；

步骤4、计算遍历所有的文件，按照降序方式排列不同文件的估计奖赏区间数值，然后选择前(m-u)个文件加入当前时刻的缓存文件库中；其中，F\{f₁ ^*,...,f_u ^*}表示的是从文件集合F中去掉步骤2中帕累托集合A^*中的文件后而余下的文件；

步骤5、观察反馈奖赏向量r_f ^t,其中每个文件的观察反馈奖赏值为r_f ^t＝(r_f ¹,r_f ²)，其中r_f ¹,r_f ²分别表示当前时刻下的文件f的请求量、文件f的价值；

步骤6、更新和T_f＝T_f+1，

步骤7、设置t＝t+1，返回步骤2。

本方法的有益效果：首先，本方法简单、算法复杂度为对数函数级别。其次，在优先考虑了无线缓存的核心目标的同时，(即在有限时间内，最大化卸载回程链路中的累计流量)，还考虑了内容提供商的收益，即具体表现在文件价值的重要性上。本方法兼顾多个目标，能较好符合无线通信收发双方的需求。

附图说明

图1为无线缓存场景图；

图2为本发明算法流程图；

图3为本发明的算法仿真图，图3-1为主目标累计收益图，图3-2为次目标累计收益图。

具体实施方式

下面根据一个具体实施案例详细叙述本发明的技术方案。但不应该将此理解为本发明上述主体的范围仅限于以下实例，凡基于本发明内容所实现的技术均属于本发明的范围。

首先对本发明的具体实施范例的数据设置进行介绍。假设本发明中的文件流行度与文件的价值皆服从Zipf分布。文件流行度Zipf值设置为0.58；文件价值Zipf值为0.95。时间T＝8000，用户人数为250，缓存文件数为m＝60，文件数为F＝1000。

如图2所示为算法的流程图，具体包括以下步骤：

步骤1、缓存当前内容提供商的所有文件至少一次，观察反馈奖赏向量r_f ^t，并且更新值和T_f值，其中，在时刻t为止，表示文件f的估计奖赏值，T_f代表的是文件f被缓存控制器选择的次数。设置t←F+1。

步骤2、探寻满足条件的帕累托集合A^*，且即满足条件为：则遍历完所有文件，找出符合条件的文件并放入帕累托集合A^*。设置u＝size(A^*)，u表示的是集合A^*中元素的个数。

步骤3、判断u≥m？，若是，则从A^*集合中随机选择m个文件(即当前时刻，执行缓存文件的集合M_t)进行缓存。若为否，将集合A^*中的u个文件放入缓存文件库中，即为集合M_t ^u，然后再进行步骤4。

步骤4、计算遍历所有的文件，按照降序方式排列不同文件的估计奖赏区间数值，然后选择前(m-u)个文件，从而构成当前时刻的缓存文件集M_t＝{f₁ ^*,...,f_u ^*,f_u+1 ^*,...,f_m ^*}，其中，F\{f₁ ^*,...,f_u ^*}表示的是从文件库F中去掉步骤2中帕累托集合A^*中的文件后而余下的文件。

步骤5、观察反馈奖赏向量r_f ^t,

步骤6、更新和T_f＝T_f+1，

步骤7、若t＜8000，则t＝t+1，返回步骤2。

算法的仿真性能如附图3所示，算法仿真分析如下：

仿真结果分析：从附图3中可知。在主目标(卸载流量)的累计收益图上，显然地，仅考虑了单目标的置信上界算法和贪婪算法的收益要略好于考虑了多目标的所提算法。而本专利提出的算法的性能分别在置信上界算法和贪婪算法上损失性能大约为10.6％和5.1％。至于随机算法，它的性能明显差于前面三种算法。另外，在次目标为文件价值的收益上，考虑了多目标的所提算法明显好于仅考虑单目标的其它算法，具体地，所提算法的累计收益优于贪婪算法和置信上界算法分别约为738.9％，787.9％。同时，所提算法的累计收益超过随机算法约为372.1％。

综上所述，本专利提出的LB-MOMAB方法在主目标损失不大的情况下(最大损失约为10.6％)，相较于其它算法，能较大提升了次目标文件累计收益的性能(上述已分析)。

Claims

1.一种基于多目标多臂赌博机在线学习的无线缓存方法，该方法是对标准UCB1(upperconfidence bound)方法的改进，通过该改进的方法能够解决无线缓存中多目标优化问题：即保证在通信高峰期内卸载回程链路上的视频流量最大化(主目标：从通信运营商角度)，同时也能保证其卸载视频的收益最大化(次目标：从内容提供商角度)。

步骤2、探寻满足条件的帕累托集合A^*，且即满足条件为：

步骤4、计算f∈F\{f₁ ^*,...,f_u ^*}，遍历所有的文件，按照降序方式排列不同文件的估计奖赏区间数值，然后选择前(m-u)个文件加入当前时刻的缓存文件库中；其中，F\{f₁ ^*,...,f_u ^*}表示的是从文件集合F中去掉步骤2中帕累托集合A^*中的文件后而余下的文件；

步骤6、更新和T_f＝T_f+1，

步骤7、设置t＝t+1，返回步骤2。