CN110247953B - 一种基于超级帕累托原则的多目标在线学习的无线缓存方法 - Google Patents
一种基于超级帕累托原则的多目标在线学习的无线缓存方法 Download PDFInfo
- Publication number
- CN110247953B CN110247953B CN201910394182.8A CN201910394182A CN110247953B CN 110247953 B CN110247953 B CN 110247953B CN 201910394182 A CN201910394182 A CN 201910394182A CN 110247953 B CN110247953 B CN 110247953B
- Authority
- CN
- China
- Prior art keywords
- file
- action
- wireless
- caching
- representing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 239000013598 vector Substances 0.000 claims description 34
- 239000000758 substrate Substances 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000004422 calculation algorithm Methods 0.000 abstract description 21
- 238000004891 communication Methods 0.000 abstract description 12
- 238000010295 mobile communication Methods 0.000 abstract description 5
- 230000006870 function Effects 0.000 abstract description 3
- 238000005457 optimization Methods 0.000 abstract description 2
- 238000004088 simulation Methods 0.000 description 5
- 230000001186 cumulative effect Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 208000001613 Gambling Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/56—Provisioning of proxy services
- H04L67/568—Storing data temporarily at an intermediate stage, e.g. caching
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W28/00—Network traffic management; Network resource management
- H04W28/02—Traffic management, e.g. flow control or congestion control
- H04W28/10—Flow control between communication endpoints
- H04W28/14—Flow control between communication endpoints using intermediate storage
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
该发明公开了一种基于超级帕累托原则的多目标在线学习的无线缓存方法,属于移动通信领域,主要涉及移动通信中基站在无线网络闲暇时从内容提供商处提前缓存附近用户所需求内容并同时兼顾了内容提供商收益的方法。该方法是对标准UCB单目标方法的继承与发展,通过该改进的方法能够解决无线缓存中多目标优化问题:即在通信闲暇时段内提前卸载回程链路上的文件流量最大化,同时也能兼顾其卸载文件的收益最大化。本方法简单、算法复杂度为对数函数级别。其次,在优先考虑了无线缓存的核心目标的同时,还考虑了内容提供商的收益,即具体表现在文件价值的重要性上。本方法兼顾多个目标,能较好符合无线通信收发双方的需求。
Description
技术领域
本发明属于移动通信领域,主要涉及移动通信中基站在无线网络闲暇时从内容提供商处提前缓存附近用户所需求内容并同时兼顾了内容提供商收益的方法。
背景技术
近年来,随着带有多媒体功能的移动设备(如智能手机,平板电脑等)逐渐普及,新型的无线服务应用也大量涌现,如爱奇艺,优酷,淘宝,微博等。这使得无线移动通信的功能由最初的通话渗透到了娱乐,办公,社交领域等方方面面。与此同时,这也促使了在无线网络中数据流量的急速增长。
移动数据流量的爆发式增长对现有的蜂窝网络基础设施是个巨大的负担,特别是在通信的高峰期,容易出现延迟、中断等状况,导致用户体验变差。同时,根据最新的2018年思科移动流量趋势表明,在未来移动数据流量中,移动视频流量比重将超过七成。因此,基于视频本身的特性以及硬盘存储的现实,有学者提出了一种名为无线缓存的解决方案,其基本思想是在无线接入点处配置大容量的存储器,利用非高峰时段(如夜间、其它通信闲暇时段)将受欢迎的视频提前缓存到接入点处的存储器中。通过这样的方式,用户在请求视频文件时,若缓存中有请求文件,无线接入点可以直接将文件传输给用户,使流量本地化。这种处理方式不仅能够大大降低数据在回程链路与核心网络之间的传输延迟,而且也降低了高峰期时回程链路及核心网络的通信负载。同时,这也降低了回程链路容量的占用量,可以释放更多的网络资源来为其他业务服务,间接地提升了系统的吞吐量。
另外,文件内容属性也是一个不能忽略的因素,目前各大视频网站(比如,爱奇艺、腾讯视频、优酷等)版权费用逐年提升,内容提供商们会将优质、热门的影片采用分级的方式进行播出,比如用视频劵、会员、收费等方式来赚取视频文件的费用,并且不同的视频的来源很可能不一样,这可能是版权决定的。以及各大移动网络运营商(移动、联通、电信)也与内容提供商们合作,采取定向流量包的方式吸引用户群,使其培养用户的习惯,从而占据更高的流量入口。综上,这些都说明了不同视频文件的价值是不同的,而且文件价值的属性与用户、微基站、内容提供商的这三者的利益都息息相关。
传统上,以获取最大卸载网络流量为单目标进行缓存策略研究,研究的策略主要以预估文件流行度为主。有研究学者将机器学习引入无线缓存研究中来,利用机器学习强大的数据分析能力对文件流行度进行分层排名,然后将流行度排名最靠前的文件缓存在存储受限的基站内。
尽管如此,这仅以预估流行度的缓存方案也无法在实际系统中被采用。主要原因是因为它们仅仅考虑了卸载网络流量,它们是以用户、微基站的角度来考虑收益。这不可避免地忽略了文件价值的重要性,而文件价值属性取决于文件的来源,即内容提供商。
发明内容
为了解决以上问题,本发明提出了该方法具体为一种基于超级帕累托最优(superPareto optimality)原则的多目标在线学习的无线缓存方法。该方法在保证最大化卸载网络流量损失较小的情况下,同时在兼顾不同文件价值差异的情况下,也尽量最大化文件价值的累计收益。为了方便地描述本发明的内容,首先对本发明所使用的模型进行介绍,对本发明所使用的术语进行定义。
系统模型介绍:如图1所示,该模型的意义是:在闲暇时间段内,微基站的缓存控制器根据当前文件流行度趋势分析,从内容提供商处下载所需的缓存文件,当小区内的用户请求网络下载所需文件时,若该文件在微基站的存储内,则微基站服务于该用户,若否,则宏基站服务于该用户。一般来说,在无线电覆盖区域中,基站(Base Station,BS)是终端之间进行信息传输的无线收发电台。本发明考虑在基站中配置具有存储文件能力的服务器,在闲暇时段,根据缓存控制器的指示对流行文件进行下载并存储于缓存容器内。假设文件集合为F={f1,f2,...fn},且所有文件的大小相同,基站的容量可描述为基站最大可在文件集合中缓存L个文件。时间间隙设置为t=1,2,...,T,其中T表示时间终点,也可表示时隙长度。本发明的解决的问题是:在时间T内,即通信闲暇时间内,提前卸载回程链路上的流行文件的流量最大化(主目标:从通信运营商角度),同时兼顾其卸载文件的收益最大化(次目标:从内容提供商角度)。
定义1、假设在一段时间(几个小时或几天内)内,文件的流行度趋于稳定,即每个文件的期望奖赏向量为θf(t)=(θf 1,θf 2),θf 1表示表示在当前时隙t下的文件f的请求数,θf 2表示在当前时隙t下的文件f的价值;每个文件的估计奖赏向量值定义为:其中,表示在当前时隙t下的文件f的预估请求数、表示在当前时隙t下的文件f的预估价值。
定义2、定义缓存控制器决策动作(action)为|F|维向量a:=(a1,...,af,...,a|F|),f∈F,其集合为A={a1,...,am},m表示集合A中动作的最大数量。假设文件f是在动作a=(a1,...,af)内,即af=1,若为否,则af=0。动作向量a的含义表示的是一组待缓存文件的线性组合。
定义3、当前时隙缓存的文件集合,可定义为从集合A中选出合适的动作向量a,表示为Φnz(a):={f∈F:af=1},设动作向量a内选中的文件最大数量为:L=maxa∈A|Φnz(a)|。
定义4、定义每个文件的观察反馈奖赏向量值为其中rf 1,rf 2分别表示当前时隙下的文件f的观察请求量、文件f的观察价值。每个动作向量的期望奖赏向量表示为f∈F,af∈Φnz(a)。其中,θa表示动作向量a的期望奖赏值,其它参数含义如上定义所述。
定义5、定义每个文件的置信上界区间值为:
其中,d表示考虑的目标数,本发明默认为2;U,V分别表示时隙长度T内小区内的总人数和文件的总价值,L表示的是缓存的最大文件数。
定义6、定义文件的前点集合为O*,满足该集合的动作的条件是:对于任意动作a,a′,有θa=(θa 1,θa 2),θa′=(θa′ 1,θa′ 2);若j∈{1,2}有θaj≥θa′ j,a,a′∈A,表示为则动作向量a属于前点集合O*。
本发明技术方案如下:
该方法具体为一种基于超级帕累托最优性原则的多目标多臂赌博机在线学习的无线缓存方法,该方法是对标准UCB单目标(upper confidence bound)方法的继承与发展,通过该改进的方法能够解决无线缓存中多目标优化问题:即在通信闲暇时段内提前卸载回程链路上的文件流量最大化(主目标:从通信运营商角度),同时也能兼顾其卸载文件的收益最大化(次目标:从内容提供商角度)。
本方法是一种基于超级帕累托原则的多目标在线学习的无线缓存方法,该方法包括以下步骤:
初始化步骤:
步骤1、初始化L,m,T,Tf=0,f∈F;其中,L表示的是单次动作最大的缓存文件数量;m表示的是动作集合A内的动作向量的最大数量;表示的是文件f的奖赏预估值;Tf表示的是文件f被选中的次数;T表示的是缓存时期内的最大时隙,F表示内容提供商提供的文件库;
步骤2、保证缓存集合动作空间A:{a∈A,a=(a1,..,aF)}内的所有动作至少被选中一次,计算反馈奖赏向量rf,并更新参数和Tf=Tf+1,设置遍历动作空间内所需要的最少时隙t为|A|+1;其中Tf代表的是文件f被缓存控制器选中的次数;动作向量a表示为a={a1,...,af,...aF};另外,表示文件f的估计奖赏值,且 表示在当前时隙t下的文件f的预估请求数、表示在当前时隙t下的文件f的预估价值;
主循环阶步骤:
则Φnz(a)表示动作a内选中的文件,遍历完动作集合A所有的动作向量,找出符合该条件的动作向量a并将其添加到预估前点集合内;其中, 表示的是文件f的奖赏预估值,Tf表示文件f被选中的次数,另外,d表示的是目标数;U,V分别表示小区内的人数和文件的价值,L表示缓存文件的最大数量,F是内容提供商提供的文件库;
步骤7、设置t=t+1,若t<T,则返回步骤3;若否,则进行结束计算。
本方法的有益效果:首先,本方法简单、算法复杂度为对数函数级别。其次,在优先考虑了无线缓存的核心目标的同时,(即在有限时间内,最大化卸载回程链路中的累计流量),还考虑了内容提供商的收益,即具体表现在文件价值的重要性上。本方法兼顾多个目标,能较好符合无线通信收发双方的需求。
附图说明
图1为无线缓存场景图;
图2为本发明算法流程图;
图3为本发明的算法仿真中主目标累计收益图;
图4为本发明的算法仿真中次目标累计收益图。
具体实施方式
下面根据一个具体实施案例详细叙述本发明的技术方案。但不应该将此理解为本发明上述主体的范围仅限于以下实例,凡基于本发明内容所实现的技术均属于本发明的范围。
首先对本发明的具体实施范例的数据设置进行介绍。假设本发明中的文件流行度与文件的价值皆服从Zipf分布,假设集合A中的动作数量为230且长度为L=500(即缓存文件数),文件流行度Zipf值设置为0.72;文件价值Zipf值为0.78。时间T=8000,用户人数为1000,文件价值为1000,文件数为F=10000,缓存占文件总量的5%.
如图2所示为算法的流程图,具体包括以下步骤:
初始化阶段
步骤1、设置L=500,m=230,T=8000,Tf=0,f∈F。其中,L表示的是单次动作最大的缓存文件数量;m表示的是动作集合A内的动作向量的最大数量;表示的是文件f的奖赏预估值;Tf表示的是文件f被选中的次数;T表示的是缓存时期内的最大时隙。
步骤2、保证缓存集合动作空间A:{a∈A,a=(a1,..,aF)}内的所有动作至少被选中一次,观察反馈奖赏向量rf,并更新参数和Tf=Tf+1,设置t←|A|+1。其中,表示文件f的估计奖赏值,Tf代表的是文件f被缓存控制器选中的次数;动作向量a表示为a={a1,...,af,...aF},af∈Φnz(a);另外,上标1,2分别表示当前时刻下的文件f的预估请求数、文件的预估价值。
主循环阶段
则需要遍历完动作集合A所有的动作向量,找出符合该条件的动作向量a并将其添加到预估超级帕累托前点集合内。其中, 表示的是文件f的奖赏预估平均值,Tf表示文件f被选中的次数,另外,d表示的是目标数,本发明默认为2;U,V分别表示小区内的人数和文件的价值,L表示缓存文件的最大数量,F是内容提供商提供的文件库。
步骤7、设置t=t+1,若t<T=8000,则返回步骤3。若否,则进行步骤8。
步骤8、结束
算法的仿真性能如附图3,图4所示,算法仿真分析如下:
仿真结果分析:从附图3中可知。在主目标(卸载流量)的累计收益图上,显然地,仅考虑了单目标的置信上界算法和贪婪算法的收益要略好于考虑了多目标的所提算法。而本专利提出的方法的性能分别在置信上界算法和贪婪算法上损失性能大约为11.94%和7.29%,相比于仅考虑单目标的理论上界损失了19.1%。至于随机算法,它的性能明显差于前面三种算法。另外,图4所示在次目标为文件价值的收益上,考虑了多目标的所提方法明显好于仅考虑单目标的其它算法,具体地,所提方法的累计收益优于贪婪算法和置信上界算法分别约为53.83%,46.6%。同时,所提算法的累计收益超过随机算法约为37.96%,相比于仅考虑单目标的最优算法,也仅仅损失了26.41%。
综上所述,由于各目标之间是相互独立的,存在主目标与次目标之间的收益可能是冲突的,所以,与仅考虑了单目标的理论界相比分布损失了19.1%和26.41%,这是合理的。另外,本专利提出方法在主目标损失不大的情况下(最大损失约为11%),相较于其它算法,能较大提升了次目标文件累计收益的性能(上述已分析)。
Claims (1)
1.一种基于超级帕累托原则的多目标在线学习的无线缓存方法,该方法包括以下步骤:
初始化步骤:
步骤1、初始化L,m,T,Tf=0,f∈F;其中,L表示的是单次动作最大的缓存文件数量;m表示的是动作集合A内的动作向量的最大数量;表示的是文件f的奖赏预估值;Tf表示的是文件f被选中的次数;T表示的是缓存时期内的最大时隙,F表示内容提供商提供的文件库;
步骤2、保证缓存集合动作空间A:{a∈A,a=(a1,..,a|F|)}内的所有动作至少被选中一次,计算反馈奖赏向量rf,并更新参数和Tf=Tf+1,设置遍历动作空间内所需要的最少时隙t为|A|+1;其中Tf代表的是文件f被缓存控制器选中的次数;动作向量a表示为a={a1,...,af,...aF};另外,表示文件f的奖赏预估值,且 表示在当前时隙t下的文件f的预估请求数、表示在当前时隙t下的文件f的预估价值,t=1,2,...,T;
主循环阶步骤:
则Φnz(a)表示动作a内选中的文件,遍历完动作集合A所有的动作向量,找出符合该条件的动作向量a并将其添加到预估前点集合内;其中, 表示的是文件f的奖赏预估值,Tf表示文件f被选中的次数,另外,d表示的是目标数;U,V分别表示小区内的人数和文件的价值,L表示缓存文件的最大数量,F是内容提供商提供的文件库;
步骤7、设置t=t+1,若t<T,则返回步骤3;若否,则进行结束计算。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910394182.8A CN110247953B (zh) | 2019-05-13 | 2019-05-13 | 一种基于超级帕累托原则的多目标在线学习的无线缓存方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910394182.8A CN110247953B (zh) | 2019-05-13 | 2019-05-13 | 一种基于超级帕累托原则的多目标在线学习的无线缓存方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110247953A CN110247953A (zh) | 2019-09-17 |
CN110247953B true CN110247953B (zh) | 2022-03-15 |
Family
ID=67884500
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910394182.8A Expired - Fee Related CN110247953B (zh) | 2019-05-13 | 2019-05-13 | 一种基于超级帕累托原则的多目标在线学习的无线缓存方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110247953B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115134830A (zh) * | 2022-06-14 | 2022-09-30 | 沈阳航空航天大学 | 一种面向实际的异构蜂窝网络的智能缓存方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108153830A (zh) * | 2017-12-13 | 2018-06-12 | 东南大学 | 无线通信网络中基于学习的主动缓存控制方法 |
CN108810139A (zh) * | 2018-06-12 | 2018-11-13 | 电子科技大学 | 一种基于蒙特卡洛树搜索辅助的无线缓存方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9307450B2 (en) * | 2013-07-11 | 2016-04-05 | Telefonaktiebolaget Lm Ericsson (Publ) | Method and apparatus for content caching in a wireless communication network |
-
2019
- 2019-05-13 CN CN201910394182.8A patent/CN110247953B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108153830A (zh) * | 2017-12-13 | 2018-06-12 | 东南大学 | 无线通信网络中基于学习的主动缓存控制方法 |
CN108810139A (zh) * | 2018-06-12 | 2018-11-13 | 电子科技大学 | 一种基于蒙特卡洛树搜索辅助的无线缓存方法 |
Non-Patent Citations (2)
Title |
---|
Multi-objective Contextual Multi-armed Bandit With a Dominant Objective;Cem Tekin 等;《IEEE》;20180715;第66卷(第14期);3799-3813 * |
大规模多臂赌博机算法研究与应用;周倩;《CNKI》;20190115;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110247953A (zh) | 2019-09-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhong et al. | A deep reinforcement learning-based framework for content caching | |
Jiang et al. | Multi-agent reinforcement learning based cooperative content caching for mobile edge networks | |
CN111901392B (zh) | 一种面向移动边缘计算的内容部署与分发方法及系统 | |
Jiang et al. | Learning-based cooperative content caching policy for mobile edge computing | |
CN108848395B (zh) | 基于果蝇优化算法的边缘协作缓存布置方法 | |
US20120149417A1 (en) | Resource profile adjustment for pre- fetching of assets to user equipment | |
CN114553963B (zh) | 移动边缘计算中基于深度神经网络的多边缘节点协作缓存方法 | |
CN114363962A (zh) | 一种协作式边缘服务器部署和资源调度方法、存储介质及系统 | |
CN116321307A (zh) | 一种无蜂窝网络中基于深度强化学习的双向缓存放置方法 | |
CN111935825B (zh) | 移动边缘计算系统中基于深度值网络的协作资源分配方法 | |
CN110247953B (zh) | 一种基于超级帕累托原则的多目标在线学习的无线缓存方法 | |
Jiang et al. | A reinforcement learning-based computing offloading and resource allocation scheme in F-RAN | |
Zhou et al. | Recommendation-driven multi-cell cooperative caching: A multi-agent reinforcement learning approach | |
CN108810139B (zh) | 一种基于蒙特卡洛树搜索辅助的无线缓存方法 | |
CN109982389B (zh) | 一种基于多目标多臂赌博机在线学习的无线缓存方法 | |
Li et al. | Video caching and scheduling with edge cooperation | |
CN113115362A (zh) | 协同边缘缓存方法及装置 | |
WO2021149230A1 (ja) | 最適化エンジン、最適化方法、及びプログラム | |
CN117202264A (zh) | Mec环境中面向5g网络切片的计算卸载方法 | |
Chen et al. | Proactive 3C resource allocation for wireless virtual reality using deep reinforcement learning | |
CN110012299B (zh) | 一种基于线性加权原则的多目标主动缓存的在线学习方法 | |
CN111901394B (zh) | 一种联合考虑用户偏好及活跃程度的移动边缘缓存的方法及系统 | |
Zhao et al. | Adaptive content placement in edge networks based on hybrid user preference learning | |
Fang et al. | Distributed caching popular services by using deep Q-learning in converged networks | |
CN115134418B (zh) | 一种多接入边缘计算的协同存储方法、系统及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220315 |
|
CF01 | Termination of patent right due to non-payment of annual fee |