CN113114756A - 一种移动边缘计算中自适应码率选择的视频缓存更新方法 - Google Patents

一种移动边缘计算中自适应码率选择的视频缓存更新方法 Download PDF

Info

Publication number
CN113114756A
CN113114756A CN202110379199.3A CN202110379199A CN113114756A CN 113114756 A CN113114756 A CN 113114756A CN 202110379199 A CN202110379199 A CN 202110379199A CN 113114756 A CN113114756 A CN 113114756A
Authority
CN
China
Prior art keywords
video
user
network
cache
mec server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110379199.3A
Other languages
English (en)
Other versions
CN113114756B (zh
Inventor
张家豪
覃少华
崔硕
卞圣强
谢志斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dragon Totem Technology Hefei Co ltd
Shanghai Xiaochao Tim Information Technology Co.,Ltd.
Original Assignee
Guangxi Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangxi Normal University filed Critical Guangxi Normal University
Priority to CN202110379199.3A priority Critical patent/CN113114756B/zh
Publication of CN113114756A publication Critical patent/CN113114756A/zh
Application granted granted Critical
Publication of CN113114756B publication Critical patent/CN113114756B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • H04L67/568Storing data temporarily at an intermediate stage, e.g. caching
    • H04L67/5682Policies or rules for updating, deleting or replacing the stored data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明公开了一种移动边缘计算中自适应码率选择的视频缓存更新方法,包括如下步骤:1)构建网络模型;2)构建请求模型;3)构建通信模型;4)构建系统收益模型;5)构建QoE收益模型;6)构建优化问题;7)构建马尔科夫决策过程;8)问题求解及方法设计。这种方法可减少网络拥塞,避免频繁的转码操作,节省网络带宽以及MEC服务器的计算资源。

Description

一种移动边缘计算中自适应码率选择的视频缓存更新方法
技术领域
本发明涉及移动边缘计算系统的应用领域,具体是一种移动边缘计算中自适应码率选择的视频缓存更新方法。
背景技术
随着智能设备的普及和移动网络的发展,视频流量从有线端(例如PC)转移到移动端(例如智能手机),视频业务取得了爆发性的增长,其在无线通信网络中所占的比例越来越大,由于视频业务需要传输的数据量较大,给传统网络架构造成了极大负载压力。首先是大量用户对资源的请求使得服务器的负载压力急剧增大,导致无法及时响应每一个用户的请求。其次,通过对移动视频流量的研究发现,大部分的视频流量请求是由少数内容产生的,很多地理位置相近且兴趣类似的用户在一段时间内对视频内容请求具有相似性,即用户对视频的请求存在复用性,比较流行的视频内容在一段时间内被重复的传输严重浪费了服务器的带宽。最后,在传统的网络中,用户请求先经过基站、网关,到中心服务器,由于基站和核心网络之间的回程链路受到传输带宽的限制,大量内容的传输导致了回程链路的拥塞。在无线侧,由于无线信道是时变的,且用户的网络吞吐量会受到用户的位置以及基站负载量的影响,实际视频传输速率受到无线信道状态的影响而变得难以估计。
为了满足视频业务的流量需求,研究者提出在靠近网络的边缘部署存储和计算资源,为用户提供缓存和转码功能,就近提供一部分热点的视频内容,以减轻回程流量,提高用户体验质量,降低部署成本和能耗。MEC(移动边缘计算)网络架构下基站具有大接入的特点,可以同时服务大量用户,但是其缓存容量和计算能力有限,难以满足其所服务用户的需求。因此,设计高效的缓存策略,对提高边缘节点的服务能力和用户体验具有重要意义。
视频业务是一种高带宽消耗的业务,而且近年来视频业务流量的剧烈增加,针对视频传输场景设计的资源调度算法成为近年来国内外研究者关注的热点。文献(Ioannou A,Weber S.A Survey of Caching Policies and Forwarding Mechanisms inInformation-Centric Networking[J].IEEE Communications Surveys&Tutorials,2016,18(4):2847-2886.)中提到使用CDN中缓存内容来缓解数据源服务器的压力。基于CDN的视频缓存分发方案首先将文件放置到离用户距离较近的缓存服务器上,使用DNS重定向给用户选择最合适的服务器进行响应。相比集中式的响应方式,基于CDN的视频分发方案一定程度上缓解了源服务器负载压力,提高了响应速度。但是CDN部署的位置和移动接入网的距离仍然较远,视频的传输还是需要经过核心网,时延高和链路传输质量无法保证等问题依然存在,此外,CDN缓存服务器只负责缓存内容,不提供转码服务,因此视频不同质量的版本需要全部缓存,缓存空间利用率较低。为此,研究者希望使用一些传统的缓存算法如LRU、LFU等来提高缓存效率。除此以外,有一些研究者也希望通过研究视频流行度变化规律与其他普通文件流行度变化规律的区别,提出一些专门针对于视频流行度变化规律的特殊缓存算法。
现有的缓存策略可以划分为内容放置策略和内容替换策略两种。内容放置策略是根据内容流行度信息选择一个文件集合,随后将热点内容提前放置到边缘节点,用户在之后请求相同的内容时就可以直接通过缓存获取;相比内容放置策略,缓存替换策略则是针对于每一个用户请求,当MEC服务器未缓存该请求内容时,通过云服务器获取到该内容后,决定是否需要将新到达的内容缓存到本地MEC服务器,替换掉哪个内容,使之后的请求命中率有所提升。Li等人(Sun S,Jiang W,Feng G,et al.Cooperative caching with contentpopularity prediction for mobile edge caching[J].
Figure BDA0003012330820000021
vjesnik,2019,26(2):503-509.)提出了一种基于文件优先级和LRU(最近最少使用)的缓存替换策略。此策略据文件访问概率、文件长度、缓存开销来计算文件优先权重,然后根据优先级权重将所有文件分为多个优先级队列。在每个优先级队列中使用LRU算法选择内容进行替换。最后通过实验证明缓存替换效率在缓存命中率、延迟节省率和成本节省率方面有较好的表现。文献(ChienW C,Weng H Y,Lai C F.Q-learning based collaborative cache allocation inmobile edge computing[J].Future generation computer systems,2020,102(Jan.):603-610.)在集成了MEC服务器和无线接入网云(C-RAN)的网络架构下,提出了一种基站协同缓存机制。文中指出,传统的基于规则和启发式方法难以考虑所有环境因素,且很难避免陷入局部最优,导致不能考虑整体情况。深度学习可以通过训练生成模型。这些模型不断调整参数以最大程度地减少损失。通过训练有机会找到最合适的模型。因此,使用Q学习来设计缓存机制,并针对缓存问题提出了一种动作选择策略,动作1是缓存最流行的数据在本地MEC服务器,动作2是为了避免重复缓存,将最流行数据缓存到核心MEC服务器,而动作3则是为了避免迅速陷入局部最优进行随机缓存。最后通过强化学习找到最优的缓存策略。仿真结果表明,该方法能有效提高单位缓存空间的效益。但是文中使用Q学习方法需要维护一个Q价值表,当视频数量或MEC服务器数量很大时,会消耗大量的内存资源,且查找Q值的速度也会明显降低。
视频缓存其他文件缓存不同,对于视频请求,需要根据用户设备性能和用户吞吐量,选择合适码率的视频以确保最佳用户体验。视频缓存带来了独特的挑战,而视频转码能够在一定程度上通过将视频较高码率版本转换为较低码率版本来解决这个问题。针对该问题,MEC服务器通过部署计算资源来提供视频转码服务,灵活调整视频质量版本,以适应网络的传输能力。文献(H.Wang,Y.Wang,R.Sun,S.Guo and H.Li,"Joint Video Caching andUser Association With Mobile Edge Computing,"2019IEEE Wireless Communicationsand Networking Conference Workshop(WCNCW),Marrakech,Morocco,2019,pp.1-6,doi:10.1109/WCNCW.2019.8902591.)提出在多基站下解决用户的接入策略和缓存策略问题,首先作者将缓存和转码节省的回程带宽视为系统增益,将消耗的系统资源视为成本,以最大化系统效用为目标,接着为用户、基站、视频集合添加了一个偏好列表,将该问题转变为优化用户与基站、视频片段与MEC服务器的匹配问题,最后设计了一个联合用户连接和缓存放置的多对多双层匹配算法解决该问题。该方案假设视频的流行度已知,根据假设的流行度计算出缓存每个视频带来的收益以确定偏好列表。但是流行度具有随时间变化的特性,需要采用更合适的方法来预测内容流行度。文献(Sun S,Jiang W,Feng G,etal.Cooperative caching with content popularity prediction for mobile edgecaching[J].
Figure BDA0003012330820000031
vjesnik,2019,26(2):503-509.)在移动边缘计算架构下提出了协作缓存视频文件的策略,针对视频流行度时变的特性,作者提出了使用机器学习的算法,通过学习用户的历史访问数据来对视频流行度进行预测,此外,作者在视频预测流行度时还考虑了视频的优先等级,然后将协作内容缓存问题建模为多智体的多臂机问题,把加权的用户下载时延减少量作为缓存增益,以最大化长期的内容缓存增益为目标,最后提出了一种多智体强化学习算法对所定义的问题进行求解。该研究有效地提高了视频流行度预测的准确性。但是该研究未考虑视频码率版本的选择。
此外,MEC服务器具有无线网络状态感知的能力,因此,MEC服务器可以根据信道的变化实时地更新视频清晰度的版本,减少网络状况波动给用户带来的卡顿和码率频繁切换的现象。文献(Kumar,S.,et al.(2020)."RAN-aware adaptive video caching in multi-access edge computing networks."Journal of Network and Computer Applications:102737)提出在缓存时如何选择合适的码率版本以避免频繁转码的问题。首先,作者将用户请求和缓存决策进行建模,将服务器处理能力和缓存大小作为约束条件,以最大程度地提高命中率为目标,将缓存问题公式化为一个整数线性规划问题。接着作者提出在进行缓存决策时,先利用MEC平台RNI(无线网络信息接口)提供的应用程序接口来测量小区中用户的可用吞吐量,来确定用户可能请求视频的码率,以满足尽量多的请求数量。但是文中利用当前时刻的网络吞吐量选择缓存的码率只能获取短期的最大收益,且根据当前时刻的网络信息选择下一时隙缓存的视频码率是不准确的。在实际情况中,用户是具有移动性的,处于不同位置会导致用户与基站之间的网络吞吐量发生变化,且变化的规律与用户的移动规律有关,如果能够根据到未来一段时间网络的吞吐量来选择合适的码率,能够满足更多的请求数量,显然这能带来更大的长期收益。
发明内容
本发明的目的是针对现有技术中存在的不足,提供了一种移动边缘计算中自适应码率选择的视频缓存更新方法。这种方法可减少网络拥塞,避免频繁的转码操作,节省网络带宽以及MEC服务器的计算资源。
实现本发明目的的技术方案是:
一种移动边缘计算中自适应码率选择的视频缓存更新方法,包括如下步骤:
1)构建网络模型:基于移动边缘计算网络架构下的视频缓存分发系统由云服务器、基站、MEC服务器、用户设备组成,用户通过无线接入网连接到基站,MEC服务器通过光纤与基站进行连接,基站与云服务器通过有线链路连接,缓存分发系统为边缘节点与云服务器之间分配了视频更新专用的带宽,其传输速度高于用户与云服务器的传输速度,云服务器是包含所有视频内容的数据中心,为用户请求提供所有视频,部署在基站旁边的MEC服务器就近提供边缘缓存所需的存储和计算能力,基站下用户的接入量是时变的,即视频业务使用量存在高低峰期,用户数会影响每个用户的可用带宽,此外,基站下的用户具有移动性,分布在不同位置的用户与基站的距离大小不同,该特性会导致不同位置用户的网络吞吐量不同,将缓存更新时刻的集合定义为T={0,1,2...,t,...T},在时隙t,用户u的网络吞吐量可用wu(t)表示,wu(t)的值可通过MEC平台应用程序接口获取;
在缓存分发系统中,MEC服务器的缓存空间大小设置为Z,计算能力为ρ,系统中用户数为U,视频被分割成相同大小的块,用集合V={1,2,...,V}表示,视频码率Q的版本用集合L={1,2,...,L}表示,MEC服务器以视频块为单位进行缓存,码率为l的视频v块用vl表示,视频块的时长设置为
Figure BDA0003012330820000041
则视频块的大小
Figure BDA0003012330820000042
其中
Figure BDA0003012330820000043
需满足限制条件
Figure BDA0003012330820000044
MEC服务器中视频块的缓存状态用向量
Figure BDA0003012330820000045
表示,其中
Figure BDA0003012330820000046
表示缓存了码率为l的视频块,反之
Figure BDA0003012330820000047
完成网络模型的构建;
2)构建请求模型:在每个时隙内,用户根据自己的网络吞吐量向基站请求指定码率的视频,而视频请求转化为对每个视频块的请求,所请求视频通过MEC服务器或者云服务器传输给用户,MEC服务器记录时隙t内的所有请求记录K={1,2,...,k,...K},视频块的请求信息包括视频块编号、视频的码率,视频vl在时隙t内的流行度可以根据其被请求的概率来估计,如公式(1)所示:
Figure BDA0003012330820000051
其中
Figure BDA0003012330820000052
Figure BDA0003012330820000053
表示请求k请求了视频块vl
Figure BDA0003012330820000054
表示未请求视频块vl,由此,MEC服务器在t时隙的请求状态可定义为:
Figure BDA0003012330820000055
Figure BDA0003012330820000056
表示视频块vl在时隙t的统计概率;
完成请求模型的构建;
3)构建通信模型:假设云服务器到MEC服务器,以及MEC服务器到用户之间的链路带宽分别为Bradio,Bbackhaul,云服务器与基站之间为有线链路,不存在干扰,而基站下的用户共享相同的频谱,因此,用户之间会存在干扰,用户n与基站之间的通信链路的信干噪比为:
Figure BDA0003012330820000057
其中,pn,j和hn,j分别是用户n与基站j之间的传输功率和信道增益,σ2为用户n接收到的高斯白噪声,t时隙用户和基站之间数据传输速率为:
r1=Bradiolog(1+SINRn,j) (4),
回程链路的传输速率为:
r2=Bbackhaul (5),
完成通信模型的构建;
4)构建系统收益模型:当MEC服务器缓存了用户请求的视频时,用以下两种命中模式均会给系统带来收益;
(1)直接命中模式
在接收到来自用户的视频请求k时,MEC服务器首先检查缓存记录表,若MEC服务器缓存了用户请求的视频块,且用户请求的视频块的码率小于MEC服务器已缓存的视频块的码率时,MEC服务器将请求视频直接返回,无需占用回程带宽,也没有额外消耗计算资源,此时获得的系统收益最大,假设回程带宽的单位价值为φ1,获得的系统收益用Gl表示:
Gl=φ1ql (6),
其中,ql为传输码率为l的视频所需带宽;
(2)转码命中模式
若MEC服务器缓存的视频质量高于请求的版本,MEC服务器通过将视频转码后传输给用户,用
Figure BDA0003012330820000061
表示缓存了更高码率的视频vh,此时需要消耗MEC服务器的计算资源,假设处理单位比特所需CPU周期数为c,单位为周期/比特,计算资源的单位代价为η1,则转码代价Ct可表示为:
Figure BDA0003012330820000062
由公式(6)和(7)得转码命中模式的系统收益Gh为:
Gh=Gl-Ct (8),
在公式(8)中,
Figure BDA0003012330820000063
为视频块的时长,qh为缓存视频的高码率版本,由分析可知,对于视频请求k,当缓存命中时带来的系统收益
Figure BDA0003012330820000064
为:
Figure BDA0003012330820000065
其中
Figure BDA0003012330820000066
为直接命中模式,而
Figure BDA0003012330820000067
表示转码命中模式,可以看出,直接命中模式和转码命中模式节省的回程链路带宽资源是一样的,但是转码后响应要消耗MEC服务器的计算资源,在流量高峰期,若是缓存了高码率版本的视频,大量的转码请求将会很快耗尽系统的计算资源,增大了响应的时延,甚至出现部分用户得不到响应的情况;
从上述两种命中模式可知,当MEC服务器缓存了指定码率或高版本码率的视频时均能为系统节省回程带宽资源,因此,可将系统在时隙t内得到的收益Gt定义为:
Figure BDA0003012330820000068
公式(10)表示时隙t内所有请求K的收益之和;
完成系统收益模型的构建;
5)构建QoE收益模型:QoE通常定义为用户在一定的客观环境中对所获得的服务或者业务的整体满意程度,在视频点播服务中,影响用户观看体验的主要因素是视频的码率以及等待时延,更高的质量能给用户带来更好的观影体验,但是高质量的视频增加了等待时延,因此,需要在视频质量和观看的流畅度之间找到一个折中的方案,本技术方案通过分析视频码率、等待时延与用户QoE的关系,并将这些影响因素建模成QoE收益函数:
(1)视频质量
视频的质量由视频的码率决定,视频的质量Qv与码率的关系可表示为:
Figure BDA0003012330820000071
其中qv为视频片段v的码率,δ1,δ2,δ3为经验参数,用于调整视频质量的取值范围;
(2)等待时延
等待时延包括视频的传输时延和转码时延,传输时延主要受到网络带宽、网络拥塞因素影响,在转码命中模式中,为了适配用户请求,MEC服务器需要对视频块进行转码,产生转码时延;
将等待时延Ddelay定义为从用户发送视频请求到视频开始播放之间的等待时延,等待时延由网络的传输时延和MEC服务器转码时延组成,传输时延包括回程传输时延和基站到用户之间的无线传输时延,根据缓存是否命中,等待时延的计算可以分以下三种情形:
①缓存命中且无须对视频块进行转码此时,等待时延等于基站到用户设备的传输时延;
②缓存命中且需要对视频块进行转码,此时等待时延等于基站到用户设备的传输时延和转码时延之和;
③缓存未命中,此时,等待时延等于回程时延与基站到设备的传输时延之和;
综合上述三种不同情况,等待时延的计算可表示如下:
Figure BDA0003012330820000072
其中,公式(12)的
Figure BDA0003012330820000073
表示直接命中模式的等待时延,
Figure BDA0003012330820000074
表示转码命中模式的等待时延,
Figure BDA0003012330820000075
为从云服务器获取视频所花费的等待时延,ρ为MEC服务器的计算能力;等待时延与QoE之间的关系可以用对数函数拟合,具体表达式如下:
Figure BDA0003012330820000076
其中
Figure BDA0003012330820000077
为国际电信联盟评估QoE方案中得分的最大值;
视频的质量Qv可以提高用户的QoE,等待延迟则会对QoE造成损伤,假设单位视频质量带来的增益为φ2,单位时延造成的QoE损伤为是η2,对于每个请求k的QoE收益可定义为:
Figure BDA0003012330820000081
在时隙t内系统的QoE收益为所有请求K的收益之和:
Figure BDA0003012330820000082
完成QoE收益模型的构建;
6)构建优化问题:缓存收益由两部分组成:第一部分是缓存和转码节省的回程带宽和节省下的计算资源,即系统收益;第二部分是用户QoE收益,由视频质量、等待时延决定,因此,将优化问题定义为:
Figure BDA0003012330820000083
在有限的资源下,最大化有限缓存资源带来的系统收益,优化目标定义为:
Figure BDA0003012330820000084
7)构建马尔科夫决策过程:马尔科夫决策过程(Markov Decision Process,简称MDP)模型由四个基本部分组成:状态、动作、转移概率、奖励,可将其定义为一个四元组:
M=(S,A,P,R)(18),
其中S表示的是系统的状态空间,A表示系统的动作空间,P则表示执行一个动作a∈A后,转移到某个状态s∈S的概率,R是表示执行完动作a∈A后获得的即时奖励;
(1)状态空间
在每个决策时刻t,MEC服务器从记录的请求信息中提取环境状态st,选取上一时隙每个视频块被请求的统计概率、视频块缓存状态、用户的网络吞吐量作为环境状态,因此,t时刻的系统状态st可定义为:
st={c(t),x(t),w(t)} (19),
其中:
·
Figure BDA0003012330820000085
表示时隙t时间内,每个视频块vl的统计请求概率;
·
Figure BDA0003012330820000086
表示时隙t时间内,视频块vl的缓存状态,
Figure BDA0003012330820000087
表示MEC服务器缓存了视频块vl
·w(t)={w1(t),w2(t),...,wu(t),...,wU(t)}表示时隙内t每个用户的网络吞吐量;
(2)动作空间
在t时刻,缓存系统决定是否缓存视频块vl,故将系统采取的动作向量at定义为:
Figure BDA0003012330820000091
其中
Figure BDA0003012330820000092
表示在t时刻缓存视频块vl的概率,在更新缓存视频内容时,MEC服务器按照
Figure BDA0003012330820000093
概率大小,依序选择对应的视频块vl缓存到MEC服务器中,若视频已存在,则无需进行操作,否则将视频块从云服务器取回后缓存;
(3)奖励函数
系统在状态st执行完动作at后,系统计算从t到t+1时刻可以获得的即时奖励R(st,at),缓存更新问题的目标是最大化系统和QoE收益,因此,奖励函数可以定义为:
Figure BDA0003012330820000094
其中,
Figure BDA0003012330820000095
Figure BDA0003012330820000096
分别为Δt时间内第k次请求获得的系统和用户QoE收益;
(4)状态转移
系统在t时刻更新缓存的内容后,接收用户的请求并记录信息,状态转移到st+1,在t+1时刻系统更新的状态有c(t),x(t),w(t),也就是更新t+1时刻每个视频块被请求的统计概率、视频块的缓存状态、用户的网络吞吐量;
强化学习的目标是最大化系统长期收益函数,即最大化累积折扣回报,将缓存更新的累积折扣回报期望定义为:
Figure BDA0003012330820000097
其中π表示缓存系统学习到的缓存策略,rt+1为时隙缓存系统在t+1时隙得到的奖励,γ∈[0,1]是折扣因子,表示未来奖励对当前决策的影响,缓存系统的目标是找到最优策略π*=(a|s)以最大化系统的长期收益函数,即:
Figure BDA0003012330820000098
8)问题求解及方法设计:采用一种无模型的DDPG强化学习方法求解最优的缓存更新策略;
DDPG算法由以下五个模块组成,包括四个神经网络和一个经验回放池:
·Actor当前网络π(s,a,θ):Actor当前网络根据系统观察到的当前状态st选择动作at,与环境交互得到下一状态st+1和即时奖励R(st,at);
·Critic当前网络Q(s,a,ω):Critic网络负责计算当前动作的Q值,用于评估Actor当前网络输出动作的好坏;
·目标Actor网络π′(s,a,θ′):目标Actor网络根据从经验回放池中采样的下一状态st+1,选择最优的动作at+1,用于目标Critic网络计算目标值中的Q′(st+1,at+1,ω′);
·目标Critic网络Q′(st,at,ω):目标Critic网络通过计算目标Q值yt=r+γQ′(st+1,at+1,ω′),与Critic当前网络计算得到的当前Q值构建损失函数,通过最小化损失函数来对Critic当前网络进行训练;
·经验回放池用于存放经验元组,每条经验元组由当前状态st,动作at,即时奖励R(st,at),以及下一状态st+1组成;
(1)Actor当前网络的训练和更新规则
Actor当前网络定义为带有参数θ的策略函数a=π(s|θ),用于代替强化学习中的策略函数π(s,a),其中a为Actor当前网络根据系统状态s,输出每个视频块被缓存的概率,此外,为了增强DDPG算法的探索能力,DDPG算法对Actor当前网络输出的动作增加均值回归(Ornstein-Uhlenbeck,OU)噪声ξt,最后得到策略函数的表达式为:
at=π(st|θ)+ξt (24),
在执行完Actor输出的动作后,Critic当前网络会计算当前的动作价值Q(st,at,ω),Actor的损失值由Critic当前网络输出的Q值决定,即反馈的Q值越大,则Actor当前网络的损失越小,反之损失越大,由此可将Actor当前网络的损失函数定义为:
Figure BDA0003012330820000101
Actor使用策略梯度来更新网络参数θ,J(θ)梯度可以表示为:
Figure BDA0003012330820000102
其中Q(s,a,ω)是动作价值函数,π(s|θ)为策略函数,系统在完成一轮迭代之后,将获取到的经验元组<st,at,R(st,at),st+1>添加到经验回放池中,当经验回访池的数量达到设定值时,DDPG算法将从经验池采样一个batch,批量地输入到Actor当前网络中进行训练和参数更新,具体更新策略可以表示为:
Figure BDA0003012330820000111
其中α是Actor网络的学习率;
(2)Critic当前网络的训练和更新规则
Critic当前网络可近似表示动作状态价值函数Q(s,a,ω),网络输出的估计值用于评价Actor动作的好坏,表示为:
Q(s,a,ω)=E[r(st,at)+γQ(st+1,π(st+1)|ω)] (28),
Critic当前网络利用当前状态与下一状态计算动作状态价值函数Q(s,a,ω),将损失函数定义为估计值与目标值差值的均方差:
L(w)=E[(Q(st,at|w)-yt)2] (29),
通过最小化损失函数对Critic当前网络参数w进行训练,损失函数L(w)的梯度可以由下式计算:
Figure BDA0003012330820000112
Critic当前网络的参数更新规则可以表示为:
Figure BDA0003012330820000113
其中β表示Critic网络的学习率;
(3)具体实现
首先,创建Actor和Critic网络并初始化网络参数,然后MEC服务器根据过去一段时间的视频请求历史、视频缓存状态、用户的网络吞吐量等信息得到系统状态并输入Actor当前网络,接着Actor当前网络π(st|θ)输出每个视频块被缓存的概率,MEC服务器按照视频块缓存概率大小依序选择对应的视频块vl缓存到MEC服务器中,若视频已存在,则无需进行操作,否则将视频块从云服务器取回后缓存,具体实现如下表所示;
Figure BDA0003012330820000114
Figure BDA0003012330820000121
完成问题求解。
这种方法可减少网络拥塞,避免频繁的转码操作,节省网络带宽以及MEC服务器的计算资源。
附图说明
图1为实施例的架构图;
图2为实施例中基于DDPG算法的视频更新策略学习过程示意图;
图3为实施例中请求响应模式示意图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步的详细描述,但不是对本发明的限定。
实施例:
参照图1,一种移动边缘计算中自适应码率选择的视频缓存更新方法,包括如下步骤:
1)构建网络模型:基于移动边缘计算网络架构下的视频缓存分发系统由云服务器、基站、MEC服务器、用户设备组成,用户通过无线接入网连接到基站,MEC服务器通过光纤与基站进行连接,基站与云服务器通过有线链路连接,缓存分发系统为边缘节点与云服务器之间分配了视频更新专用的带宽,其传输速度高于用户与云服务器的传输速度,云服务器是包含所有视频内容的数据中心,为用户请求提供所有视频,部署在基站旁边的MEC服务器就近提供边缘缓存所需的存储和计算能力,基站下用户的接入量是时变的,即视频业务使用量存在高低峰期,用户数会影响每个用户的可用带宽,此外,基站下的用户具有移动性,分布在不同位置的用户与基站的距离大小不同,该特性会导致不同位置用户的网络吞吐量不同,将缓存更新时刻的集合定义为T={0,1,2...,t,...T},在时隙t,用户u的网络吞吐量可用wu(t)表示,wu(t)的值可通过MEC平台应用程序接口获取(Kumar,S.,et al.(2020)."“RAN-aware adaptive video caching in multi-access edge computingnetworks."”Journal of Network and Computer Applications:102737.);
在缓存分发系统中,MEC服务器的缓存空间大小设置为Z,计算能力为ρ,系统中用户数为U,视频被分割成相同大小的块,用集合V={1,2,...,V}表示,视频码率Q的版本用集合L={1,2,...,L}表示,MEC服务器以视频块为单位进行缓存,码率为l的视频v块用vl表示,视频块的时长设置为
Figure BDA0003012330820000131
则视频块的大小
Figure BDA0003012330820000132
其中
Figure BDA0003012330820000133
需满足限制条件
Figure BDA0003012330820000134
MEC服务器中视频块的缓存状态用向量
Figure BDA0003012330820000135
表示,其中
Figure BDA0003012330820000136
表示缓存了码率为l的视频块,反之
Figure BDA0003012330820000137
完成网络模型的构建;
2)构建请求模型:在每个时隙内,用户根据自己的网络吞吐量向基站请求指定码率的视频,而视频请求转化为对每个视频块的请求,所请求视频通过MEC服务器或者云服务器传输给用户,MEC服务器记录时隙t内的所有请求记录K={1,2,...,k,...K},视频块的请求信息包括视频块编号、视频的码率,视频vl在时隙t内的流行度可以根据其被请求的概率来估计,如公式(1)所示:
Figure BDA0003012330820000141
其中
Figure BDA0003012330820000142
Figure BDA0003012330820000143
表示请求k请求了视频块vl
Figure BDA0003012330820000144
表示未请求视频块vl,由此,MEC服务器在t时隙的请求状态可定义为:
Figure BDA0003012330820000145
Figure BDA0003012330820000146
表示视频块vl在时隙t的统计概率;
完成请求模型的构建;
3)构建通信模型:假设云服务器到MEC服务器,以及MEC服务器到用户之间的链路带宽分别为Bradio,Bbackhaul,云服务器与基站之间为有线链路,不存在干扰,而基站下的用户共享相同的频谱,因此,用户之间会存在干扰,用户n与基站之间的通信链路的信干噪比为:
Figure BDA0003012330820000147
其中,pn,j和hn,j分别是用户n与基站j之间的传输功率和信道增益,σ2为用户n接收到的高斯白噪声,t时隙用户和基站之间数据传输速率为:
r1=Bradiolog(1+SINRn,j) (4),
回程链路的传输速率为:
r2=Bbackhaul (5),
完成通信模型的构建;
4)构建系统收益模型:当MEC服务器缓存了用户请求的视频时,用以下两种命中模式均会给系统带来收益,如图3所示;
(1)直接命中模式
在接收到来自用户的视频请求k时,MEC服务器首先检查缓存记录表,若MEC服务器缓存了用户请求的视频块,且用户请求的视频块的码率小于MEC服务器已缓存的视频块的码率时,MEC服务器将请求视频直接返回,无需占用回程带宽,也没有额外消耗计算资源,此时获得的系统收益最大,假设回程带宽的单位价值为=φ1,获得的系统收益用Gl表示:
Gl=φ1ql (6),
其中,ql为传输码率为l的视频所需带宽;
(2)转码命中模式
若MEC服务器缓存的视频质量高于请求的版本,MEC服务器通过将视频转码后传输给用户,用
Figure BDA0003012330820000151
表示缓存了更高码率的视频vh,此时需要消耗MEC服务器的计算资源,假设处理单位比特所需CPU周期数为c,单位为周期/比特,计算资源的单位代价为η1,则转码代价Ct可表示为:
Figure BDA0003012330820000152
由公式(6)和(7)得转码命中模式的系统收益Gh为:
Gh=Gl-Ct (8),
在公式(7)中,
Figure BDA0003012330820000153
为视频块的时长,qh为缓存视频的高码率版本,由分析可知,对于视频请求k,当缓存命中时带来的系统收益
Figure BDA0003012330820000154
为:
Figure BDA0003012330820000155
其中
Figure BDA0003012330820000156
为直接命中模式,而
Figure BDA0003012330820000157
表示转码命中模式,可以看出,直接命中模式和转码命中模式节省的回程链路带宽资源是一样的,但是转码后响应要消耗MEC服务器的计算资源,在流量高峰期,若是缓存了高码率版本的视频,大量的转码请求将会很快耗尽系统的计算资源,增大了响应的时延,甚至出现部分用户得不到响应的情况;
从上述两种命中模式可知,当MEC服务器缓存了指定码率或高版本码率的视频时均能为系统节省回程带宽资源,因此,可将系统在时隙t内得到的收益Gt定义为:
Figure BDA0003012330820000158
公式(10)表示时隙t内所有请求K的收益之和,完成系统收益模型的构建;
5)构建QoE收益模型:QoE通常定义为用户在一定的客观环境中对所获得的服务或者业务的整体满意程度(林闯,胡杰,孔祥震.用户体验质量(QoE)的模型与评价方法综述[J].计算机学报,2012,35(01):1-15),在视频点播服务中,影响用户观看体验的主要因素是视频的码率以及等待时延,更高的质量能给用户带来更好的观影体验,但是高质量的视频增加了等待时延,因此,需要在视频质量和观看的流畅度之间找到一个折中的方案,本例通过分析视频码率、等待时延与用户QoE的关系,并将这些影响因素建模成QoE收益函数:
(1)视频质量
视频的质量由视频的码率决定,根据文献(Honglei S,Qi L,Hao G,etal.Content-based Bitrate Model for Perceived Compression DistortionEvaluation of Mobile Video Services[J].Iet Image Processing,2017,11(11):1027-1033.),视频的质量Qv与码率的关系可表示为:
Figure BDA0003012330820000161
其中qv为视频片段v的码率,δ1,δ2,δ3为经验参数,用于调整视频质量的取值范围;
(2)等待时延
等待时延包括视频的传输时延和转码时延,传输时延主要受到网络带宽、网络拥塞因素影响,在转码命中模式中,为了适配用户请求,MEC服务器需要对视频块进行转码,产生转码时延;
将等待时延Ddelay定义为从用户发送视频请求到视频开始播放之间的等待时延,等待时延由网络的传输时延和MEC服务器转码时延组成,传输时延包括回程传输时延和基站到用户之间的无线传输时延,根据缓存是否命中,等待时延的计算可以分以下三种情形:
①缓存命中且无须对视频块进行转码此时,等待时延等于基站到用户设备的传输时延;
②缓存命中且需要对视频块进行转码,此时等待时延等于基站到用户设备的传输时延和转码时延之和;
③缓存未命中,此时,等待时延等于回程时延与基站到设备的传输时延之和;
综合上述三种不同情况,等待时延的计算可表示如下:
Figure BDA0003012330820000162
其中,公式(12)的
Figure BDA0003012330820000163
表示直接命中模式的等待时延,
Figure BDA0003012330820000164
表示转码命中模式的等待时延,
Figure BDA0003012330820000165
为从云服务器获取视频所花费的等待时延,ρ为MEC服务器的计算能力;
等待时延与QoE之间的关系可以用对数函数拟合,具体表达式如下:
Figure BDA0003012330820000175
其中
Figure BDA0003012330820000176
为国际电信联盟评估QoE方案中得分的最大值,(InternationalTelecommunication Union,Geneva.Methods for subjectivedetermination oftransmission quality.Report:ITU-T-P.800,1996);
视频的质量Qv可以提高用户的QoE,等待延迟则会对QoE造成损伤,假设单位视频质量带来的增益为φ2,单位时延造成的QoE损伤为是η2,对于每个请求k的QoE收益可定义为:
Figure BDA0003012330820000171
在时隙t内系统的QoE收益为所有请求K的收益之和:
Figure BDA0003012330820000172
完成QoE收益模型的构建;
6)构建优化问题:缓存收益由两部分组成:第一部分是缓存和转码节省的回程带宽和节省下的计算资源,即系统收益;第二部分是用户QoE收益,由视频质量、等待时延决定,因此,将优化问题定义为:
Figure BDA0003012330820000173
在有限的资源下,最大化有限缓存资源带来的系统收益,优化目标定义为:
Figure BDA0003012330820000174
7)构建马尔科夫决策过程:马尔科夫决策过程模型由四个基本部分组成:状态、动作、转移概率、奖励,可将其定义为一个四元组:
M=(S,A,P,R) (18),
其中S表示的是系统的状态空间,A表示系统的动作空间,P则表示执行一个动作a∈A后,转移到某个状态s∈S的概率,R是表示执行完动作a∈A后获得的即时奖励;
(1)状态空间
在每个决策时刻t,MEC服务器从记录的请求信息中提取环境状态st,选取上一时隙每个视频块被请求的统计概率、视频块缓存状态、用户的网络吞吐量作为环境状态,因此,t时刻的系统状态st可定义为:
st={c(t),x(t),w(t)} (19),
其中:
·
Figure BDA0003012330820000181
表示时隙t时间内,每个视频块vl的统计请求概率;
·
Figure BDA0003012330820000182
表示时隙t时间内,视频块vl的缓存状态,
Figure BDA0003012330820000183
表示MEC服务器缓存了视频块vl
·w(t)={w1(t),w2(t),...,wu(t),...,wU(t)}表示时隙内t每个用户的网络吞吐量;
(2)动作空间
在t时刻,缓存系统决定是否缓存视频块vl,故将系统采取的动作向量at定义为:
Figure BDA0003012330820000184
其中
Figure BDA0003012330820000185
表示在t时刻缓存视频块vl的概率,在更新缓存视频内容时,MEC服务器按照
Figure BDA0003012330820000186
概率大小,依序选择对应的视频块vl缓存到MEC服务器中,若视频已存在,则无需进行操作,否则将视频块从云服务器取回后缓存;
(3)奖励函数
系统在状态st执行完动作at后,系统计算从t到t+1时刻可以获得的即时奖励R(st,at),缓存更新问题的目标是最大化系统和QoE收益,因此,奖励函数可以定义为:
Figure BDA0003012330820000187
其中,
Figure BDA0003012330820000188
Figure BDA0003012330820000189
分别为Δt时间内第k次请求获得的系统和用户QoE收益;
(4)状态转移
系统在t时刻更新缓存的内容后,接收用户的请求并记录信息,状态转移到st+1,在t+1时刻系统更新的状态有c(t),x(t),w(t),也就是更新t+1时刻每个视频块被请求的统计概率、视频块的缓存状态、用户的网络吞吐量;
强化学习的目标是最大化系统长期收益函数,即最大化累积折扣回报,将自适应码率选择的缓存更新累积折扣回报期望定义为:
Figure BDA00030123308200001810
其中π表示缓存系统学习到的缓存策略,rt+1为时隙缓存系统在t+1时隙得到的奖励,γ∈[0,1]是折扣因子,表示未来奖励对当前决策的影响,缓存系统的目标是找到最优策略π*=(a|s)以最大化系统的长期收益函数,即:
Figure BDA0003012330820000191
8)问题求解及方法设计:采用一种无模型的DDPG强化学习方法求解最优的缓存更新策略;
如图2所示,DDPG算法由以下五个模块组成,包括四个神经网络和一个经验回放池:
·Actor当前网络π(s,a,θ):Actor当前网络根据系统观察到的当前状态st选择动作at,与环境交互得到下一状态st+1和即时奖励R(st,at);
·Critic当前网络Q(s,a,ω):Critic网络负责计算当前动作的Q值,用于评估Actor当前网络输出动作的好坏;
·目标Actor网络π′(s,a,θ′):目标Actor网络根据从经验回放池中采样的下一状态st+1,选择最优的动作at+1,用于目标Critic网络计算目标值中的Q′(st+1,at+1,ω′);
·目标Critic网络Q′(st,at,ω):目标Critic网络通过计算目标Q值yt=r+γQ′(st+1,at+1,ω′),与Critic当前网络计算得到的当前Q值构建损失函数,通过最小化损失函数来对Critic当前网络进行训练;
·经验回放池用于存放经验元组,每条经验元组由当前状态st,动作at,即时奖励R(st,at),以及下一状态st+1组成;
(1)Actor当前网络的训练和更新规则
Actor当前网络定义为带有参数θ的策略函数a=π(s|θ),用于代替强化学习中的策略函数π(s,a),其中a为Actor当前网络根据系统状态s,输出每个视频块被缓存的概率,此外,为了增强DDPG算法的探索能力,DDPG算法对Actor当前网络输出的动作增加均值回归(Ornstein-Uhlenbeck,OU)噪声ξt,最后得到策略函数的表达式为:
at=π(st|θ)+ξt (24),
在执行完Actor输出的动作后,Critic当前网络会计算当前的动作价值Q(st,at,ω),Actor的损失值由Critic当前网络输出的Q值决定,即反馈的Q值越大,则Actor当前网络的损失越小,反之损失越大,由此可将Actor当前网络的损失函数定义为:
Figure BDA0003012330820000201
Actor使用策略梯度来更新网络参数θ,J(θ)梯度可以表示为:
Figure BDA0003012330820000202
其中Q(s,a,ω)是动作价值函数,π(s|θ)为策略函数,系统在完成一轮迭代之后,将获取到的经验元组<st,at,R(st,at),st+1>添加到经验回放池中,当经验回访池的数量达到设定值时,DDPG算法将从经验池采样一个batch,批量地输入到Actor当前网络中进行训练和参数更新,具体更新策略可以表示为:
Figure BDA0003012330820000203
其中α是Actor网络的学习率;
(2)Critic当前网络的训练和更新规则
Critic当前网络可近似表示动作状态价值函数Q(s,a,ω),网络输出的估计值用于评价Actor动作的好坏,表示为:
Q(s,a,ω)=E[r(st,at)+γQ(st+1,π(st+1)|ω)] (28),
Critic当前网络利用当前状态与下一状态计算动作状态价值函数Q(s,a,ω),将损失函数定义为估计值与目标值差值的均方差:
L(w)=E[(Q(st,at|w)-yt)2] (29),
通过最小化损失函数对Critic当前网络参数w进行训练,损失函数L(w)的梯度可以由下式计算:
Figure BDA0003012330820000204
Critic当前网络的参数更新规则可以表示为:
Figure BDA0003012330820000205
其中β表示Critic网络的学习率;
(3)具体实现
首先,创建Actor和Critic网络并初始化网络参数,然后MEC服务器根据过去一段时间的视频请求历史、视频缓存状态、用户的网络吞吐量等信息得到系统状态并输入Actor当前网络,接着Actor当前网络π(st|θ)输出每个视频块被缓存的概率,MEC服务器按照视频块缓存概率大小依序选择对应的视频块vl缓存到MEC服务器中,若视频已存在,则无需进行操作,否则将视频块从云服务器取回后缓存,具体实现步骤如下表所示;
Figure BDA0003012330820000211
Figure BDA0003012330820000221
完成问题求解。

Claims (1)

1.一种移动边缘计算中自适应码率选择的视频缓存更新方法,其特征在于,包括如下步骤:
1)构建网络模型:基于移动边缘计算网络架构下的视频缓存分发系统由云服务器、基站、MEC服务器、用户设备组成,用户通过无线接入网连接到基站,MEC服务器通过光纤与基站进行连接,基站与云服务器通过有线链路连接,缓存分发系统为边缘节点与云服务器之间分配了视频更新专用的带宽,云服务器是包含所有视频内容的数据中心,为用户请求提供所有视频,部署在基站旁边的MEC服务器就近提供边缘缓存所需的存储和计算能力,基站下用户的接入量是时变的,即视频业务使用量存在高低峰期,用户数会影响每个用户的可用带宽,此外,基站下的用户具有移动性,分布在不同位置的用户与基站的距离大小不同,该特性会导致不同位置用户的网络吞吐量不同,将缓存更新时刻的集合定义为T={0,1,2...,t,...T},在时隙t,用户u的网络吞吐量可用wu(t)表示,wu(t)的值可通过MEC平台应用程序接口获取;
在缓存分发系统中,MEC服务器的缓存空间大小设置为Z,计算能力为ρ,系统中用户数为U,视频被分割成相同大小的块,用集合V={1,2,...,V}表示,视频码率Q的版本用集合L={1,2,...,L}表示,MEC服务器以视频块为单位进行缓存,码率为l的视频v块用vl表示,视频块的时长设置为
Figure FDA0003012330810000011
则视频块的大小
Figure FDA0003012330810000012
其中
Figure FDA0003012330810000013
需满足限制条件
Figure FDA0003012330810000014
MEC服务器中视频块的缓存状态用向量
Figure FDA0003012330810000015
表示,其中
Figure FDA0003012330810000016
表示缓存了码率为l的视频块v,反之
Figure FDA0003012330810000017
完成网络模型的构建;
2)构建请求模型:在每个时隙内,用户根据自己的网络吞吐量向基站请求指定码率的视频,而视频请求转化为对每个视频块的请求,所请求视频通过MEC服务器或者云服务器传输给用户,MEC服务器记录时隙t内的所有请求记录K={1,2,...,k,...K},视频块的请求信息包括视频块编号、视频的码率,视频vl在时隙t内的流行度可以根据其被请求的概率来估计,如公式(1)所示:
Figure FDA0003012330810000018
其中
Figure FDA0003012330810000019
Figure FDA00030123308100000110
表示请求k请求了视频块vl
Figure FDA00030123308100000111
表示未请求视频块vl,由此,MEC服务器在t时隙的请求状态可定义为:
Figure FDA0003012330810000021
Figure FDA0003012330810000022
表示视频块vl在时隙t的统计概率;
完成请求模型的构建;
3)构建通信模型:假设云服务器到MEC服务器,以及MEC服务器到用户之间的链路带宽分别为Bradio,Bbackhaul,云服务器与基站之间为有线链路,不存在干扰,而基站下的用户共享相同的频谱,因此,用户之间会存在干扰,用户n与基站之间的通信链路的信干噪比为:
Figure FDA0003012330810000023
其中,pn,j和hn,j分别是用户n与基站j之间的传输功率和信道增益,σ2为用户n接收到的高斯白噪声,t时隙用户和基站之间数据传输速率为:
r1=Bradiolog(1+SINRn,j) (4),
回程链路的传输速率为:
r2=Bbackhaul (5),
完成通信模型的构建;
4)构建系统收益模型:当MEC服务器缓存了用户请求的视频时,用以下两种命中模式均会给系统带来收益;
(1)直接命中模式
在接收到来自用户的视频请求k时,MEC服务器首先检查缓存记录表,若MEC服务器缓存了用户请求的视频块,且用户请求的视频块的码率小于MEC服务器已缓存的视频块的码率时,MEC服务器将请求视频直接返回,无需占用回程带宽,也没有额外消耗计算资源,此时获得的系统收益最大,假设回程带宽的单位价值为φ1,获得的系统收益用Gl表示:
Gl=φ1ql (6),
其中,ql为传输码率为l的视频所需带宽;
(2)转码命中模式
若MEC服务器缓存的视频质量高于请求的版本,MEC服务器通过将视频转码后传输给用户,用
Figure FDA0003012330810000024
表示缓存了更高码率的视频vh,此时需要消耗MEC服务器的计算资源,假设处理单位比特所需CPU周期数为c,单位为周期/比特,计算资源的单位代价为η1,则转码代价Ct可表示为:
Figure FDA0003012330810000031
由公式(6)和(7)得转码命中模式的系统收益Gh为:
Gh=Gl-Ct (8),
在公式(7)中,
Figure FDA0003012330810000032
为视频块的时长,qh为缓存视频的高码率版本,由分析可知,对于视频请求k,当缓存命中时带来的系统收益
Figure FDA0003012330810000033
为:
Figure FDA0003012330810000034
其中
Figure FDA0003012330810000035
为直接命中模式,而
Figure FDA0003012330810000036
表示转码命中模式,可以看出,直接命中模式和转码命中模式节省的回程链路带宽资源是一样的,但是转码后响应要消耗MEC服务器的计算资源,在流量高峰期,若是缓存了高码率版本的视频,大量的转码请求将会很快耗尽系统的计算资源,增大了响应的时延,甚至出现部分用户得不到响应的情况;
从上述两种命中模式可知,当MEC服务器缓存了指定码率或高版本码率的视频时均能为系统节省回程带宽资源,因此,可将系统在时隙t内得到的收益Gt定义为:
Figure FDA0003012330810000037
公式(10)表示时隙t内所有请求K的收益之和;
完成系统收益模型的构建;
5)构建QoE收益模型:QoE通常定义为用户在一定的客观环境中对所获得的服务或者业务的整体满意程度,在视频点播服务中,影响用户观看体验的主要因素是视频的码率以及等待时延,通过分析视频码率、等待时延与用户QoE的关系,并将这些影响因素建模成QoE收益函数:
(1)视频质量
视频的质量由视频的码率决定,视频的质量Qv与码率的关系可表示为:
Figure FDA0003012330810000038
其中qv为视频片段v的码率,δ1,δ2,δ3为经验参数;
(2)等待时延
等待时延包括视频的传输时延和转码时延,传输时延主要受到网络带宽、网络拥塞因素影响,在转码命中模式中,为了适配用户请求,MEC服务器需要对视频块进行转码,产生转码时延;
将等待时延Ddelay定义为从用户发送视频请求到视频开始播放之间的等待时延,等待时延由网络的传输时延和MEC服务器转码时延组成,传输时延包括回程传输时延和基站到用户之间的无线传输时延,根据缓存是否命中,等待时延的计算可以分以下三种情形:
①缓存命中且无须对视频块进行转码此时,等待时延等于基站到用户设备的传输时延;
②缓存命中且需要对视频块进行转码,此时等待时延等于基站到用户设备的传输时延和转码时延之和;
③缓存未命中,此时,等待时延等于回程时延与基站到设备的传输时延之和;
综合上述三种不同情况,等待时延的计算可表示如下:
Figure FDA0003012330810000041
其中,公式(12)的
Figure FDA0003012330810000042
表示直接命中模式的等待时延,
Figure FDA0003012330810000043
表示转码命中模式的等待时延,
Figure FDA0003012330810000044
为从云服务器获取视频所花费的等待时延,ρ为MEC服务器的计算能力;等待时延与QoE之间的关系可以用对数函数拟合,具体表达式如下:
Figure FDA0003012330810000047
其中
Figure FDA0003012330810000048
为国际电信联盟评估QoE方案中得分的最大值;
视频的质量Qv可以提高用户的QoE,等待延迟则会对QoE造成损伤,假设单位视频质量带来的增益为φ2,单位时延造成的QoE损伤为是η2,对于每个请求k的QoE收益可定义为:
Figure FDA0003012330810000045
在时隙t内系统的QoE收益为所有请求K的收益之和:
Figure FDA0003012330810000046
完成QoE收益模型的构建;
6)构建优化问题:缓存收益由两部分组成:第一部分是缓存和转码节省的回程带宽和节省下的计算资源,即系统收益;第二部分是用户QoE收益,由视频质量、等待时延决定,因此,将优化问题定义为:
Figure FDA0003012330810000051
在有限的资源下,最大化有限缓存资源带来的系统收益,优化目标定义为:
Figure FDA0003012330810000052
7)构建马尔科夫决策过程:马尔科夫决策过程模型由四个基本部分组成:状态、动作、转移概率、奖励,可将其定义为一个四元组:
M=(S,A,P,R) (18),
其中S表示的是系统的状态空间,A表示系统的动作空间,P则表示执行一个动作a∈A后,转移到某个状态s∈S的概率,R是表示执行完动作a∈A后获得的即时奖励;
(1)状态空间
在每个决策时刻t,MEC服务器从记录的请求信息中提取环境状态st,选取上一时隙每个视频块被请求的统计概率、视频块缓存状态、用户的网络吞吐量作为环境状态,因此,t时刻的系统状态st可定义为:
st={c(t),x(t),w(t)} (19),
其中:
·
Figure FDA0003012330810000053
表示时隙t时间内,每个视频块vl的统计请求概率;
·
Figure FDA0003012330810000054
表示时隙t时间内,视频块vl的缓存状态,
Figure FDA0003012330810000055
表示MEC服务器缓存了视频块vl
·w(t)={w1(t),w2(t),...,wu(t),...,wU(t)}表示时隙内t每个用户的网络吞吐量;
(2)动作空间
在t时刻,缓存系统决定是否缓存视频块vl,故将系统采取的动作向量at定义为:
Figure FDA0003012330810000056
其中
Figure FDA0003012330810000057
表示在t时刻缓存视频块vl的概率,在更新缓存视频内容时,MEC服务器按照
Figure FDA0003012330810000058
概率大小,依序选择对应的视频块vl缓存到MEC服务器中,若视频已存在,则无需进行操作,否则将视频块从云服务器取回后缓存;
(3)奖励函数
在状态st执行完动作at后,系统计算从t到t+1时刻可以获得的即时奖励R(st,at),缓存更新问题的目标是最大化系统和QoE收益,因此,奖励函数可以定义为:
Figure FDA0003012330810000061
其中,
Figure FDA0003012330810000062
Figure FDA0003012330810000063
分别为Δt时间内第k次请求获得的系统和用户QoE收益;
(4)状态转移
系统在t时刻更新缓存的内容后,接收用户的请求并记录信息,状态转移到st+1,在t+1时刻系统更新的状态有c(t),x(t),w(t),也就是更新t+1时刻每个视频块被请求的统计概率、视频块的缓存状态、用户的网络吞吐量;
强化学习的目标是最大化系统长期收益函数,即最大化累积折扣回报,将自适应码率选择的缓存更新累积折扣回报期望定义为:
Figure FDA0003012330810000064
其中π表示缓存系统学习到的缓存策略,rt+1为时隙缓存系统在t+1时隙得到的奖励,γ∈[0,1]是折扣因子,表示未来奖励对当前决策的影响,缓存系统的目标是找到最优策略π*=(a|s)以最大化系统的长期收益函数,即:
Figure FDA0003012330810000065
8)问题求解及方法设计:采用一种无模型的DDPG强化学习方法求解最优的缓存更新策略;
DDPG算法由以下五个模块组成,包括四个神经网络和一个经验回放池:
·Actor当前网络π(s,a,θ):Actor当前网络根据系统观察到的当前状态st选择动作at,与环境交互得到下一状态st+1和即时奖励R(st,at);
·Critic当前网络Q(s,a,ω):Critic网络负责计算当前动作的Q值,用于评估Actor当前网络输出动作的好坏;
·目标Actor网络π′(s,a,θ′):目标Actor网络根据从经验回放池中采样的下一状态st+1,选择最优的动作at+1,用于目标Critic网络计算目标值中的Q′(st+1,at+1,ω′);
·目标Critic网络Q′(st,at,ω):目标Critic网络通过计算目标Q值yt=r+γQ′(st+1,at+1,ω),与Critic当前网络计算得到的当前Q值构建损失函数,通过最小化损失函数来对Critic当前网络进行训练;
·经验回放池用于存放经验元组,每条经验元组由当前状态st,动作at,即时奖励R(st,at),以及下一状态st+1组成;
(1)Actor当前网络的训练和更新规则
Actor当前网络定义为带有参数θ的策略函数a=π(s|θ),用于代替强化学习中的策略函数π(s,a),其中a为Actor当前网络根据系统状态s,输出每个视频块被缓存的概率,此外,为了增强DDPG算法的探索能力,DDPG算法对Actor当前网络输出的动作增加均值回归(Ornstein-Uhlenbeck,OU)噪声ξt,最后得到策略函数的表达式为:
at=π(st|θ)+ξt (24),
在执行完Actor输出的动作后,Critic当前网络会计算当前的动作价值Q(st,at,ω),Actor的损失值由Critic当前网络输出的Q值决定,即反馈的Q值越大,则Actor当前网络的损失越小,反之损失越大,由此可将Actor当前网络的损失函数定义为:
Figure FDA0003012330810000071
Actor使用策略梯度来更新网络参数θ,J(θ)梯度可以表示为:
Figure FDA0003012330810000072
其中Q(s,a,ω)是动作价值函数,π(s|θ)为策略函数,系统在完成一轮迭代之后,将获取到的经验元组<st,at,R(st,at),st+1>添加到经验回放池中,当经验回访池的数量达到设定值时,DDPG算法将从经验池采样一个batch,批量地输入到Actor当前网络中进行训练和参数更新,具体更新策略可以表示为:
Figure FDA0003012330810000073
其中α是Actor网络的学习率;
(2)Critic当前网络的训练和更新规则
Critic当前网络可近似表示动作状态价值函数Q(s,a,ω),网络输出的估计值用于评价Actor动作的好坏,表示为:
Q(s,a,ω)=E[r(st,at)+γQ(st+1,π(st+1)|ω)] (28),
Critic当前网络利用当前状态与下一状态计算动作状态价值函数Q(s,a,ω),将损失函数定义为估计值与目标值差值的均方差:
L(w)=E[(Q(st,at|w)-yt)2] (29),
通过最小化损失函数对Critic当前网络参数w进行训练,损失函数L(w)的梯度可以由下式计算:
Figure FDA0003012330810000081
Critic当前网络的参数更新规则可以表示为:
Figure FDA0003012330810000082
其中β表示Critic网络的学习率;
(3)具体实现
首先,创建Actor和Critic网络并初始化网络参数,然后MEC服务器根据过去一段时间的视频请求历史、视频缓存状态、用户的网络吞吐量等信息得到系统状态并输入Actor当前网络,接着Actor当前网络π(st|θ)输出每个视频块被缓存的概率,MEC服务器按照视频块缓存概率大小依序选择对应的视频块vl缓存到MEC服务器中,若视频已存在,则无需进行操作,否则将视频块从云服务器取回后缓存,具体实现步骤如下表所示;
Figure FDA0003012330810000083
Figure FDA0003012330810000091
完成问题求解。
CN202110379199.3A 2021-04-08 2021-04-08 一种移动边缘计算中自适应码率选择的视频缓存更新方法 Active CN113114756B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110379199.3A CN113114756B (zh) 2021-04-08 2021-04-08 一种移动边缘计算中自适应码率选择的视频缓存更新方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110379199.3A CN113114756B (zh) 2021-04-08 2021-04-08 一种移动边缘计算中自适应码率选择的视频缓存更新方法

Publications (2)

Publication Number Publication Date
CN113114756A true CN113114756A (zh) 2021-07-13
CN113114756B CN113114756B (zh) 2022-05-03

Family

ID=76714686

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110379199.3A Active CN113114756B (zh) 2021-04-08 2021-04-08 一种移动边缘计算中自适应码率选择的视频缓存更新方法

Country Status (1)

Country Link
CN (1) CN113114756B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113687960A (zh) * 2021-08-12 2021-11-23 华东师范大学 一种基于深度强化学习的边缘计算智能缓存方法
CN113810931A (zh) * 2021-08-27 2021-12-17 南京邮电大学 一种面向移动边缘计算网络的自适应视频缓存方法
CN114170560A (zh) * 2022-02-08 2022-03-11 深圳大学 一种基于深度强化学习的多设备边缘视频分析系统
CN114647387A (zh) * 2022-05-23 2022-06-21 南京道成网络科技有限公司 一种适用于云端存储的缓存优化方法
CN114786137A (zh) * 2022-04-21 2022-07-22 重庆邮电大学 一种缓存使能的多质量视频分发方法
CN114885208A (zh) * 2022-03-21 2022-08-09 中南大学 Ndn网络下可伸缩流媒体传输的动态自适应方法、设备及介质
CN114979710A (zh) * 2022-07-14 2022-08-30 中国科学技术大学 针对高速移动场景的星地联合多媒体传输架构的传输方法
CN115022937A (zh) * 2022-07-14 2022-09-06 合肥工业大学 拓扑特征提取方法和考虑拓扑特征的多边缘协作调度方法
CN115190135A (zh) * 2022-06-30 2022-10-14 华中科技大学 一种分布式存储系统及其副本选择方法
CN115396955A (zh) * 2022-08-24 2022-11-25 广西电网有限责任公司 一种基于深度强化学习算法的资源分配方法及装置
CN115695390A (zh) * 2022-09-23 2023-02-03 昆明理工大学 一种基于移动边缘计算的矿山安全监控系统海量视频数据自适应流方法
CN116016987A (zh) * 2022-12-08 2023-04-25 上海大学 面向边缘蜂窝网络基于强化学习的视频码率自适应方法
CN116112708A (zh) * 2022-12-30 2023-05-12 山东大学 一种面向自适应流媒体的联合内容存储、码率转换与功率分配资源优化方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110049315A (zh) * 2019-04-26 2019-07-23 山西大学 一种提高直播视频系统用户体验质量的方法
CN111431941A (zh) * 2020-05-13 2020-07-17 南京工业大学 一种基于移动边缘计算的实时视频码率自适应方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110049315A (zh) * 2019-04-26 2019-07-23 山西大学 一种提高直播视频系统用户体验质量的方法
CN111431941A (zh) * 2020-05-13 2020-07-17 南京工业大学 一种基于移动边缘计算的实时视频码率自适应方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘伟, 张涛: "移动边缘计算中基于视频内容协作分发的联合激励机制", 《计算机应用研究》 *
唐吉深,覃少华: "大型数据库重复记录检测与优化研究", 《计算机应用研究》 *

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113687960A (zh) * 2021-08-12 2021-11-23 华东师范大学 一种基于深度强化学习的边缘计算智能缓存方法
CN113687960B (zh) * 2021-08-12 2023-09-29 华东师范大学 一种基于深度强化学习的边缘计算智能缓存方法
CN113810931A (zh) * 2021-08-27 2021-12-17 南京邮电大学 一种面向移动边缘计算网络的自适应视频缓存方法
CN113810931B (zh) * 2021-08-27 2023-08-22 南京邮电大学 一种面向移动边缘计算网络的自适应视频缓存方法
CN114170560A (zh) * 2022-02-08 2022-03-11 深圳大学 一种基于深度强化学习的多设备边缘视频分析系统
CN114170560B (zh) * 2022-02-08 2022-05-20 深圳大学 一种基于深度强化学习的多设备边缘视频分析系统
CN114885208A (zh) * 2022-03-21 2022-08-09 中南大学 Ndn网络下可伸缩流媒体传输的动态自适应方法、设备及介质
CN114885208B (zh) * 2022-03-21 2023-08-08 中南大学 Ndn网络下可伸缩流媒体传输的动态自适应方法、设备及介质
CN114786137B (zh) * 2022-04-21 2023-06-20 重庆邮电大学 一种缓存使能的多质量视频分发方法
CN114786137A (zh) * 2022-04-21 2022-07-22 重庆邮电大学 一种缓存使能的多质量视频分发方法
CN114647387A (zh) * 2022-05-23 2022-06-21 南京道成网络科技有限公司 一种适用于云端存储的缓存优化方法
CN115190135A (zh) * 2022-06-30 2022-10-14 华中科技大学 一种分布式存储系统及其副本选择方法
CN115190135B (zh) * 2022-06-30 2024-05-14 华中科技大学 一种分布式存储系统及其副本选择方法
CN115022937A (zh) * 2022-07-14 2022-09-06 合肥工业大学 拓扑特征提取方法和考虑拓扑特征的多边缘协作调度方法
CN114979710A (zh) * 2022-07-14 2022-08-30 中国科学技术大学 针对高速移动场景的星地联合多媒体传输架构的传输方法
CN115022937B (zh) * 2022-07-14 2022-11-11 合肥工业大学 拓扑特征提取方法和考虑拓扑特征的多边缘协作调度方法
CN115396955A (zh) * 2022-08-24 2022-11-25 广西电网有限责任公司 一种基于深度强化学习算法的资源分配方法及装置
CN115695390A (zh) * 2022-09-23 2023-02-03 昆明理工大学 一种基于移动边缘计算的矿山安全监控系统海量视频数据自适应流方法
CN115695390B (zh) * 2022-09-23 2024-03-05 昆明理工大学 一种基于移动边缘计算的矿山安全监控系统海量视频数据自适应流方法
CN116016987A (zh) * 2022-12-08 2023-04-25 上海大学 面向边缘蜂窝网络基于强化学习的视频码率自适应方法
CN116112708A (zh) * 2022-12-30 2023-05-12 山东大学 一种面向自适应流媒体的联合内容存储、码率转换与功率分配资源优化方法
CN116112708B (zh) * 2022-12-30 2024-05-07 山东大学 一种面向自适应流媒体的联合内容存储、码率转换与功率分配资源优化方法

Also Published As

Publication number Publication date
CN113114756B (zh) 2022-05-03

Similar Documents

Publication Publication Date Title
CN113114756B (zh) 一种移动边缘计算中自适应码率选择的视频缓存更新方法
Elbamby et al. Proactive edge computing in latency-constrained fog networks
CN112218337B (zh) 一种移动边缘计算中的缓存策略决策方法
AU2020103384A4 (en) Method for Constructing Energy-efficient Network Content Distribution Mechanism Based on Edge Intelligent Caches
CN110213627A (zh) 基于多小区用户移动性的流媒体缓存分配装置及其工作方法
CN108600998B (zh) 超密度蜂窝与d2d异构融合网络缓存优化决策方法
CN110312277B (zh) 一种基于机器学习的移动网络边缘协作缓存模型构造方法
CN114553963B (zh) 移动边缘计算中基于深度神经网络的多边缘节点协作缓存方法
CN111491331B (zh) 一种雾计算网络中基于迁移学习的网络感知自适应缓存方法
Zheng et al. 5G network-oriented hierarchical distributed cloud computing system resource optimization scheduling and allocation
CN108541025B (zh) 一种面向无线异构网络的基站与d2d共同缓存方法
CN114615730B (zh) 回程受限密集无线网络面向内容覆盖的功率分配方法
CN116321307A (zh) 一种无蜂窝网络中基于深度强化学习的双向缓存放置方法
CN114629928A (zh) 一种移动边缘计算中社交网络短视频放置方法
Li et al. DQN-enabled content caching and quantum ant colony-based computation offloading in MEC
Xiao et al. Transcoding-Enabled Cloud-Edge-Terminal Collaborative Video Caching in Heterogeneous IoT Networks: A Online Learning Approach with Time-Varying Information
CN111447506B (zh) 云边环境下基于延迟和成本均衡的流媒体内容放置方法
CN117202265A (zh) 边缘环境下基于dqn的服务迁移方法
CN114786200A (zh) 一种基于协作感知的数据智能缓存方法
CN112954026B (zh) 一种基于边缘计算的多约束内容协作缓存优化方法
CN112822727B (zh) 一种基于移动性和流行度感知的自适应边缘内容缓存方法
CN115720237A (zh) 边缘网络自适应比特率视频的缓存和资源调度方法
Yu Application of mobile edge computing technology in civil aviation express marketing
Wu et al. Hierarchical cooperative caching strategy in cached-enabled heterogeneous networks
Kabir Cooperative Content Caching and Distribution in Dense Networks.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20231108

Address after: Building 4, No. 302 North Zhuxin Village, Fengcheng Town, Fengxian District, Shanghai, 200000

Patentee after: Shanghai Xiaochao Tim Information Technology Co.,Ltd.

Address before: 230000 floor 1, building 2, phase I, e-commerce Park, Jinggang Road, Shushan Economic Development Zone, Hefei City, Anhui Province

Patentee before: Dragon totem Technology (Hefei) Co.,Ltd.

Effective date of registration: 20231108

Address after: 230000 floor 1, building 2, phase I, e-commerce Park, Jinggang Road, Shushan Economic Development Zone, Hefei City, Anhui Province

Patentee after: Dragon totem Technology (Hefei) Co.,Ltd.

Address before: 541004 No. 15 Yucai Road, Qixing District, Guilin, the Guangxi Zhuang Autonomous Region

Patentee before: Guangxi Normal University