CN110012299B

CN110012299B - 一种基于线性加权原则的多目标主动缓存的在线学习方法

Info

Publication number: CN110012299B
Application number: CN201910162538.5A
Authority: CN
Inventors: 陈特; 董彬虹; 陈延涛; 张存林; 曹蕾
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-03-05
Filing date: 2019-03-05
Publication date: 2021-04-30
Anticipated expiration: 2039-03-05
Also published as: CN110012299A

Abstract

该发明公开了一种基于线性加权原则的多目标主动缓存的在线学习方法，该方法属于移动通信领域，主要涉及移动通信中基站在无线网络闲暇时从内容提供商处提前缓存附近用户所需求内容并同时考虑了内容提供商收益的方法。本方法简单、算法复杂度为对数函数级别。其次，在优先考虑了无线缓存的核心目标的同时，即在有限时间内，最大化卸载回程链路中的累计流量，还考虑了内容提供商的收益，即具体表现在文件价值的重要性上。本方法兼顾多个目标，能较好符合无线通信收发双方的需求。

Description

一种基于线性加权原则的多目标主动缓存的在线学习方法

技术领域

本发明属于移动通信领域，主要涉及移动通信中基站在无线网络闲暇时从内容提供商处提前缓存附近用户所需求内容并同时考虑了内容提供商收益的方法。该方法具体为一种基于线性加权原则的多目标主动缓存的在线学习方法。

背景技术

近年来，随着带有多媒体功能的移动设备(如智能手机，平板电脑等)逐渐普及，新型的无线服务应用也大量涌现，如微信，视频，淘宝，微博等。这使得无线移动通信的功能由最初的通话渗透到了娱乐，办公，社交领域等方方面面。与此同时，这也促使了在无线网络中数据流量的急速增长。

移动数据流量的爆发式增长对现有的蜂窝网络基础设施是个巨大的负担，特别是在通信的高峰期，容易出现延迟、中断等状况，导致用户体验变差。同时，根据最新的2018年思科移动流量趋势表明，在未来移动数据流量中，移动视频流量比重将超过七成。因此，基于视频本身的特性以及硬盘存储的现实，有学者提出了一种名为无线缓存的解决方案，其基本思想是在无线接入点处配置大容量的存储器，利用非高峰时段(如夜间)将受欢迎的视频提前缓存到接入点处的存储器中。通过这样的方式，用户在请求视频文件时，若缓存中有请求文件，无线接入点可以直接将文件传输给用户，使流量本地化。这种处理方式不仅能够大大降低数据在回程链路及核心网络的延迟，而且也降低了高峰期时回程链路及核心网络的负载。同时，这也降低了回程链路容量的占用量，可以释放更多的网络资源来为其他业务服务，间接地提升了系统的吞吐量。

另外，文件内容属性也是一个不能忽略的因素，目前各大视频网站(比如，爱奇艺，腾讯视频，优酷等)版权费用逐年提升，内容提供商们会将优质、热门的影片采用分级的方式进行播出，比如用券、会员、收费等方式来赚取视频文件的费用，并且不同的视频的来源很可能不一样，这是由于版权决定的。以及各大移动网络运营商(移动、联通、电信)也与内容提供商们合作，采取定向流量包的方式吸引用户群，使之能培养用户的习惯，从而占据更高的流量入口。综上，这些都说明了不同视频文件的价值是不同的，而且文件价值的属性与用户、微基站、内容提供商的这三者的利益都息息相关。

文件流行度分布是一个重要因素指导这着本地基站缓存哪些文件。大多数研究工作假设流行度已知并且设计出的缓存策略都是基于这种假设。然而实际上，流行度是未知并且需要预测的。最近，有研究人员利用机器学习的方式去预测文件流行度，他们将无线缓存问题构建为一个多臂老虎机模型，并基于预测的结果来设计缓存策略。

这些研究工作仅仅考虑了如何最大化直接从微基站中获取流量，这是从用户、微基站的角度来考虑流量收益。然而，这不可避免地忽略了每个文件价值的差异性，而文件价值属性取决于文件的来源，即内容提供商。

发明内容

为了解决以上问题，本发明提出的方法具体为一种基于线性加权原则的多目标主动缓存的在线学习的方法。该方法在保证最大化卸载网络流量损失较小的情况下，同时考虑到不同文件价值差异的情况下，尽可能地最大化文件价值的累计收益。为了方便地描述本发明的内容，首先对本发明所使用的模型进行介绍，对本发明所使用的术语进行定义。

系统模型介绍：如图1所示，该模型的意义是：在闲暇时间段内，微基站的缓存控制器根据当前文件流行度趋势分析，从内容提供商处下载所需的缓存文件，当小区内的用户请求网络下载所需文件时，若该文件在微基站的存储内，则微基站服务于该用户，若否，则宏基站服务于该用户。一般来说，在无线电覆盖区域中，基站(Base Station，BS)是终端之间进行信息传输的无线收发电台。本发明考虑在基站中配置具有缓存一定数量文件能力的储存器，对流行文件进行缓存。假设文件集合为F＝{f₁,f₂,...f_n}，且所有文件的大小相同。基站的容量可描述为基站最大可在文件集合中缓存m个文件。时间间隙设置为t＝1,2,...,T，其中T表示时间终点，也可表示时隙长度。本发明的解决的问题是：在时间T内，保证在通信高峰期内卸载回程链路上的文件流量最大化(主目标：从通信运营商角度)，同时也能保证其卸载文件的收益最大化(次目标：从内容提供商角度)。

定义1、每个文件的估计奖赏向量值定义为

其中，上标1,2分别表示当前时刻下的文件f的期望请求数、文件的期望价值。

定义2、定义当前时刻缓存文件的集合为C_t＝{f₁ ^*,...,f_m ^*}，该集合中的元素个数为 m且m＜|F|。

定义3、定义标量化函数集合S＝(h¹,h²,...,h^s)，

且

其中h^s表示的是第s组函数权重值，

分别表示卸载流量和文件收益的权重。

定义4、定义每个文件的观察反馈奖赏值为r_f ^t＝(r_f ¹,r_f ²)，其中r_f ¹,r_f ²分别表示当前时刻下的文件f的请求量、文件f的价值。

定义5、定义每个文件的置信上界区间值为

其中，

表示文件f在第j组权重值下的估计值，t^j表示的是第j权重被选中的次数，N_f,j表示的是文件f在第j组权重下被选中的次数。

本发明技术方案如下：

该方法具体为一种基于多目标多臂赌博机在线学习的无线缓存方法，该方法是对标准 UCB1(upper confidence bound)方法的改进，通过该改进的方法能够解决无线缓存中多目标优化问题：即保证在通信高峰期内卸载回程链路上的视频流量最大化(主目标：从通信运营商角度)，同时也能保证其卸载视频的收益最大化(次目标：从内容提供商角度)。

本方法是一种基于多目标多臂赌博机的在线学习无线缓存策略的方法，具体包括以下步骤：

步骤1、设置当前标量化函数集S＝(h¹,h²,...,h^s)，时间周期T，其中

且

h^s表示的是第s组函数权重值，

分别表示卸载流量和文件收益的权重；

步骤2、初始化阶段：缓存当前内容提供商的所有文件至少一次，观察反馈奖赏向量r_f ^t，并且更新

值和T_f,s值，

其中，

表示文件f在第s权重函数下的估计奖赏值，T_f,s代表的是文件f第s权重函数下被选中的次数；设置t←F+1，其中文件集合为F＝{f₁,f₂,...f_n}，其中

上标1,2分别表示当前时刻下的文件f的期望请求数、文件的期望价值；

步骤3、随机从当前标量化函数集S＝(h¹,h²,...,h^s)中选择一组权重函数h^j，计算得到

步骤4、计算每个文件的置信上界区间值

根据 X_f,j(t)计算结果，按照降序方式排列不同文件的估计奖赏区间数值，然后选择前m个文件构成当前时刻的缓存文件集C_t＝{f₁ ^*,f₂ ^*,...,f_m ^*}；

步骤5、观察反馈奖赏向量r_f ^t,

每个目标的观察反馈奖赏值为r_f ^t＝(r_f ¹,r_f ²)，其中，r_f ¹,r_f ²分别表示当前时刻下的文件f的请求量、文件f的价值；

步骤6、更新

和T_f,j＝T_f,j+1，

步骤7、设置t＝t+1，返回步骤3。

本方法的有益效果：首先，本方法简单、算法复杂度为对数函数级别。其次，在优先考虑了无线缓存的核心目标的同时，(即在有限时间内，最大化卸载回程链路中的累计流量)，还考虑了内容提供商的收益，即具体表现在文件价值的重要性上。本方法兼顾多个目标，能较好符合无线通信收发双方的需求。

附图说明

图1为无线缓存场景图；

图2为本发明算法流程图；

图3为本发明的算法仿真图,图3-1为主目标累计收益图,图3-2为次目标累计收益图。

具体实施方式

下面根据一个具体实施案例详细叙述本发明的技术方案。但不应该将此理解为本发明上述主体的范围仅限于以下实例，凡基于本发明内容所实现的技术均属于本发明的范围。

首先对本发明的具体实施范例的数据设置进行介绍。假设本发明中的文件流行度与文件的价值皆服从Zipf分布。文件流行度Zipf值设置为0.58；文件价值Zipf值为0.95。时间T＝8000，用户人数为250，缓存文件数为m＝60，文件数为F＝1000，h＝(0.55,0.45)。

如图2所示为算法的流程图，具体包括以下步骤：

步骤1、设置当前标量化函数集S＝(h¹,h²,...,h^s)，时间周期T。

值和T_f,s值，

其中，

表示文件f在第s权重函数下的估计奖赏值，T_f,s代表的是文件f第s权重函数下被选中的次数。设置t←F+1，其中文件集合为F＝{f₁,f₂,...f_n}，其中

步骤3、随机从当前标量化函数集S＝(h¹,h²,...,h^s)中选择一组权重函数h^j。

步骤4、计算

根据X_f,j(t)计算结果，按照降序方式排列不同文件的估计奖赏区间数值，然后选择前m个文件构成当前时刻的缓存文件集 C_t＝{f₁ ^*,f₂ ^*,...,f_m ^*}。

步骤5、观察反馈奖赏向量r_f ^t,

每个目标的观察反馈奖赏值为r_f ^t＝(r_f ¹,r_f ²)。其中，r_f ¹,r_f ²分别表示当前时刻下的文件f的请求量、文件f的价值；

步骤6、更新

和T_f,j＝T_f,j+1，

步骤7、设置t＝t+1，返回步骤3。

算法的仿真性能如附图3所示，算法仿真分析如下：

仿真结果分析：从附图3中可知。在主目标(卸载流量)的累计收益图上，显然地，仅考虑了单目标的置信上界算法和贪婪算法的收益要略好于考虑了多目标的所提算法。而本专利提出的算法的性能分别在置信上界算法和贪婪算法上损失性能大约为18.9％和13.9％。至于随机算法，它的性能明显差于前面三种算法。另外，在次目标为文件价值的收益上，考虑了多目标的所提算法明显好于仅考虑单目标的其它算法，具体地，所提算法的累计收益优于贪婪算法和置信上界算法分别约为1145.7％，1218.3％。同时，所提算法的累计收益超过随机算法约为 600.8％。

综上所述，本专利提出的LB-MOMAB方法在主目标损失不大的情况下(最大损失约为18.9％)，相较于其它算法，能较大提升了次目标文件累计收益的性能(上述已分析)。