CN110247953B

CN110247953B - 一种基于超级帕累托原则的多目标在线学习的无线缓存方法

Info

Publication number: CN110247953B
Application number: CN201910394182.8A
Authority: CN
Inventors: 陈特; 董彬虹; 李�昊; 蔡沅沅
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-05-13
Filing date: 2019-05-13
Publication date: 2022-03-15
Anticipated expiration: 2039-05-13
Also published as: CN110247953A

Abstract

该发明公开了一种基于超级帕累托原则的多目标在线学习的无线缓存方法，属于移动通信领域，主要涉及移动通信中基站在无线网络闲暇时从内容提供商处提前缓存附近用户所需求内容并同时兼顾了内容提供商收益的方法。该方法是对标准UCB单目标方法的继承与发展，通过该改进的方法能够解决无线缓存中多目标优化问题：即在通信闲暇时段内提前卸载回程链路上的文件流量最大化，同时也能兼顾其卸载文件的收益最大化。本方法简单、算法复杂度为对数函数级别。其次，在优先考虑了无线缓存的核心目标的同时，还考虑了内容提供商的收益，即具体表现在文件价值的重要性上。本方法兼顾多个目标，能较好符合无线通信收发双方的需求。

Description

一种基于超级帕累托原则的多目标在线学习的无线缓存方法

技术领域

本发明属于移动通信领域，主要涉及移动通信中基站在无线网络闲暇时从内容提供商处提前缓存附近用户所需求内容并同时兼顾了内容提供商收益的方法。

背景技术

近年来，随着带有多媒体功能的移动设备(如智能手机，平板电脑等)逐渐普及，新型的无线服务应用也大量涌现，如爱奇艺，优酷，淘宝，微博等。这使得无线移动通信的功能由最初的通话渗透到了娱乐，办公，社交领域等方方面面。与此同时，这也促使了在无线网络中数据流量的急速增长。

移动数据流量的爆发式增长对现有的蜂窝网络基础设施是个巨大的负担，特别是在通信的高峰期，容易出现延迟、中断等状况，导致用户体验变差。同时，根据最新的2018年思科移动流量趋势表明，在未来移动数据流量中，移动视频流量比重将超过七成。因此，基于视频本身的特性以及硬盘存储的现实，有学者提出了一种名为无线缓存的解决方案，其基本思想是在无线接入点处配置大容量的存储器，利用非高峰时段(如夜间、其它通信闲暇时段)将受欢迎的视频提前缓存到接入点处的存储器中。通过这样的方式，用户在请求视频文件时，若缓存中有请求文件，无线接入点可以直接将文件传输给用户，使流量本地化。这种处理方式不仅能够大大降低数据在回程链路与核心网络之间的传输延迟，而且也降低了高峰期时回程链路及核心网络的通信负载。同时，这也降低了回程链路容量的占用量，可以释放更多的网络资源来为其他业务服务，间接地提升了系统的吞吐量。

另外，文件内容属性也是一个不能忽略的因素，目前各大视频网站(比如，爱奇艺、腾讯视频、优酷等)版权费用逐年提升，内容提供商们会将优质、热门的影片采用分级的方式进行播出，比如用视频劵、会员、收费等方式来赚取视频文件的费用，并且不同的视频的来源很可能不一样，这可能是版权决定的。以及各大移动网络运营商(移动、联通、电信)也与内容提供商们合作，采取定向流量包的方式吸引用户群，使其培养用户的习惯，从而占据更高的流量入口。综上，这些都说明了不同视频文件的价值是不同的，而且文件价值的属性与用户、微基站、内容提供商的这三者的利益都息息相关。

传统上，以获取最大卸载网络流量为单目标进行缓存策略研究，研究的策略主要以预估文件流行度为主。有研究学者将机器学习引入无线缓存研究中来，利用机器学习强大的数据分析能力对文件流行度进行分层排名，然后将流行度排名最靠前的文件缓存在存储受限的基站内。

尽管如此，这仅以预估流行度的缓存方案也无法在实际系统中被采用。主要原因是因为它们仅仅考虑了卸载网络流量，它们是以用户、微基站的角度来考虑收益。这不可避免地忽略了文件价值的重要性，而文件价值属性取决于文件的来源，即内容提供商。

发明内容

为了解决以上问题，本发明提出了该方法具体为一种基于超级帕累托最优(superPareto optimality)原则的多目标在线学习的无线缓存方法。该方法在保证最大化卸载网络流量损失较小的情况下，同时在兼顾不同文件价值差异的情况下，也尽量最大化文件价值的累计收益。为了方便地描述本发明的内容，首先对本发明所使用的模型进行介绍，对本发明所使用的术语进行定义。

系统模型介绍：如图1所示，该模型的意义是：在闲暇时间段内，微基站的缓存控制器根据当前文件流行度趋势分析，从内容提供商处下载所需的缓存文件，当小区内的用户请求网络下载所需文件时，若该文件在微基站的存储内，则微基站服务于该用户，若否，则宏基站服务于该用户。一般来说，在无线电覆盖区域中，基站(Base Station，BS)是终端之间进行信息传输的无线收发电台。本发明考虑在基站中配置具有存储文件能力的服务器，在闲暇时段，根据缓存控制器的指示对流行文件进行下载并存储于缓存容器内。假设文件集合为F＝{f₁,f₂,...f_n}，且所有文件的大小相同，基站的容量可描述为基站最大可在文件集合中缓存L个文件。时间间隙设置为t＝1,2,...,T，其中T表示时间终点，也可表示时隙长度。本发明的解决的问题是：在时间T内，即通信闲暇时间内，提前卸载回程链路上的流行文件的流量最大化(主目标：从通信运营商角度)，同时兼顾其卸载文件的收益最大化(次目标：从内容提供商角度)。

定义1、假设在一段时间(几个小时或几天内)内，文件的流行度趋于稳定，即每个文件的期望奖赏向量为θ_f(t)＝(θ_f ¹,θ_f ²),

θ_f ¹表示表示在当前时隙t下的文件f的请求数,θ_f ²表示在当前时隙t下的文件f的价值；每个文件的估计奖赏向量值定义为:

其中，

表示在当前时隙t下的文件f的预估请求数、

表示在当前时隙t下的文件f的预估价值。

定义2、定义缓存控制器决策动作(action)为|F|维向量a:＝(a₁,...,a_f,...,a_|F|),f∈F，其集合为A＝{a₁,...,a_m}，m表示集合A中动作的最大数量。假设文件f是在动作a＝(a₁,...,a_f)内，即a_f＝1，若为否，则a_f＝0。动作向量a的含义表示的是一组待缓存文件的线性组合。

定义3、当前时隙缓存的文件集合，可定义为从集合A中选出合适的动作向量a，表示为Φ_nz(a):＝{f∈F:a_f＝1}，设动作向量a内选中的文件最大数量为：L＝max_a∈A|Φ_nz(a)|。

定义4、定义每个文件的观察反馈奖赏向量值为

其中r_f ¹,r_f ²分别表示当前时隙下的文件f的观察请求量、文件f的观察价值。每个动作向量的期望奖赏向量表示为

f∈F,a_f∈Φ_nz(a)。其中，θ_a表示动作向量a的期望奖赏值，其它参数含义如上定义所述。

定义5、定义每个文件的置信上界区间值为:

其中，d表示考虑的目标数，本发明默认为2；U,V分别表示时隙长度T内小区内的总人数和文件的总价值，L表示的是缓存的最大文件数。

定义6、定义文件的前点集合为O^*,满足该集合的动作的条件是：对于任意动作a,a′，有θ_a＝(θ_a ¹,θ_a ²)，θ_a′＝(θ_a′ ¹,θ_a′ ²)；若

j∈{1,2}有θ_aj≥θ_a′ ^j,a,a′∈A，表示为

则动作向量a属于前点集合O^*。

本发明技术方案如下：

该方法具体为一种基于超级帕累托最优性原则的多目标多臂赌博机在线学习的无线缓存方法，该方法是对标准UCB单目标(upper confidence bound)方法的继承与发展，通过该改进的方法能够解决无线缓存中多目标优化问题：即在通信闲暇时段内提前卸载回程链路上的文件流量最大化(主目标：从通信运营商角度)，同时也能兼顾其卸载文件的收益最大化(次目标：从内容提供商角度)。

本方法是一种基于超级帕累托原则的多目标在线学习的无线缓存方法，该方法包括以下步骤：

初始化步骤：

步骤1、初始化L,m,T,

T_f＝0,f∈F；其中，L表示的是单次动作最大的缓存文件数量；m表示的是动作集合A内的动作向量的最大数量；

表示的是文件f的奖赏预估值；T_f表示的是文件f被选中的次数；T表示的是缓存时期内的最大时隙，F表示内容提供商提供的文件库；

步骤2、保证缓存集合动作空间A:{a∈A,a＝(a₁,..,a_F)}内的所有动作至少被选中一次，计算反馈奖赏向量r_f，并更新参数

和T_f＝T_f+1，设置遍历动作空间内所需要的最少时隙t为|A|+1；其中T_f代表的是文件f被缓存控制器选中的次数；动作向量a表示为a＝{a₁,...,a_f,...a_F}；另外，

表示文件f的估计奖赏值，且

表示在当前时隙t下的文件f的预估请求数、

表示在当前时隙t下的文件f的预估价值；

主循环阶步骤：

步骤3、探寻满足多目标条件的预估前点集合

即为：

则

Φ_nz(a)表示动作a内选中的文件，遍历完动作集合A所有的动作向量，找出符合该条件的动作向量a并将其添加到预估前点集合

内；其中，

表示的是文件f的奖赏预估值，T_f表示文件f被选中的次数，另外，d表示的是目标数；U,V分别表示小区内的人数和文件的价值，L表示缓存文件的最大数量，F是内容提供商提供的文件库；

步骤4、为了保证公平性，从集合

中随机选择一个动作a,并执行缓存动作a，缓存该动作下的文件；

步骤5、计算反馈奖赏向量r_f ^t＝(r_f ¹,r_f ²),

其中r_f ¹,r_f ²分别表示当前时隙下，动作向量a内的文件f的观察请求数、文件f的观察价值；

步骤6、更新参数

和T_f＝T_f+1，

步骤7、设置t＝t+1，若t＜T，则返回步骤3；若否，则进行结束计算。

本方法的有益效果：首先，本方法简单、算法复杂度为对数函数级别。其次，在优先考虑了无线缓存的核心目标的同时，(即在有限时间内，最大化卸载回程链路中的累计流量)，还考虑了内容提供商的收益，即具体表现在文件价值的重要性上。本方法兼顾多个目标，能较好符合无线通信收发双方的需求。

附图说明

图1为无线缓存场景图；

图2为本发明算法流程图；

图3为本发明的算法仿真中主目标累计收益图；

图4为本发明的算法仿真中次目标累计收益图。

具体实施方式

下面根据一个具体实施案例详细叙述本发明的技术方案。但不应该将此理解为本发明上述主体的范围仅限于以下实例，凡基于本发明内容所实现的技术均属于本发明的范围。

首先对本发明的具体实施范例的数据设置进行介绍。假设本发明中的文件流行度与文件的价值皆服从Zipf分布，假设集合A中的动作数量为230且长度为L＝500(即缓存文件数)，文件流行度Zipf值设置为0.72；文件价值Zipf值为0.78。时间T＝8000，用户人数为1000，文件价值为1000，文件数为F＝10000，缓存占文件总量的5％.

如图2所示为算法的流程图，具体包括以下步骤：

初始化阶段

步骤1、设置L＝500,m＝230,T＝8000,

T_f＝0,f∈F。其中，L表示的是单次动作最大的缓存文件数量；m表示的是动作集合A内的动作向量的最大数量；

表示的是文件f的奖赏预估值；T_f表示的是文件f被选中的次数；T表示的是缓存时期内的最大时隙。

步骤2、保证缓存集合动作空间A:{a∈A,a＝(a₁,..,a_F)}内的所有动作至少被选中一次，观察反馈奖赏向量r_f，并更新参数

和T_f＝T_f+1，

设置t←|A|+1。其中，

表示文件f的估计奖赏值，T_f代表的是文件f被缓存控制器选中的次数；动作向量a表示为a＝{a₁,...,a_f,...a_F},a_f∈Φ_nz(a)；另外，

上标1,2分别表示当前时刻下的文件f的预估请求数、文件的预估价值。

主循环阶段

步骤3、探寻满足多目标条件的预估超级帕累托前点(super Pareto front)集合

即为：

则

需要遍历完动作集合A所有的动作向量，找出符合该条件的动作向量a并将其添加到预估超级帕累托前点集合

内。其中，

表示的是文件f的奖赏预估平均值，T_f表示文件f被选中的次数，另外，d表示的是目标数，本发明默认为2；U,V分别表示小区内的人数和文件的价值，L表示缓存文件的最大数量，F是内容提供商提供的文件库。

步骤4、为了保证公平性，从集合

中随机选择一个动作a,

并执行缓存动作a，缓存该动作下的文件。

步骤5、观察反馈奖赏向量r_f ^t＝(r_f ¹,r_f ²),

步骤6、更新参数

和T_f＝T_f+1，

步骤7、设置t＝t+1，若t＜T＝8000，则返回步骤3。若否，则进行步骤8。

步骤8、结束

算法的仿真性能如附图3，图4所示，算法仿真分析如下：

仿真结果分析：从附图3中可知。在主目标(卸载流量)的累计收益图上，显然地，仅考虑了单目标的置信上界算法和贪婪算法的收益要略好于考虑了多目标的所提算法。而本专利提出的方法的性能分别在置信上界算法和贪婪算法上损失性能大约为11.94％和7.29％，相比于仅考虑单目标的理论上界损失了19.1％。至于随机算法，它的性能明显差于前面三种算法。另外，图4所示在次目标为文件价值的收益上，考虑了多目标的所提方法明显好于仅考虑单目标的其它算法，具体地，所提方法的累计收益优于贪婪算法和置信上界算法分别约为53.83％，46.6％。同时，所提算法的累计收益超过随机算法约为37.96％，相比于仅考虑单目标的最优算法，也仅仅损失了26.41％。

综上所述，由于各目标之间是相互独立的，存在主目标与次目标之间的收益可能是冲突的，所以，与仅考虑了单目标的理论界相比分布损失了19.1％和26.41％，这是合理的。另外，本专利提出方法在主目标损失不大的情况下(最大损失约为11％)，相较于其它算法，能较大提升了次目标文件累计收益的性能(上述已分析)。