CN111629218A - 一种vanet中基于时变线性的加速强化学习边缘缓存方法 - Google Patents

一种vanet中基于时变线性的加速强化学习边缘缓存方法 Download PDF

Info

Publication number
CN111629218A
CN111629218A CN202010356468.XA CN202010356468A CN111629218A CN 111629218 A CN111629218 A CN 111629218A CN 202010356468 A CN202010356468 A CN 202010356468A CN 111629218 A CN111629218 A CN 111629218A
Authority
CN
China
Prior art keywords
time
state
action
file
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010356468.XA
Other languages
English (en)
Inventor
赵海涛
段佳秀
冯天翼
曹浩彤
张晖
朱洪波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202010356468.XA priority Critical patent/CN111629218A/zh
Publication of CN111629218A publication Critical patent/CN111629218A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/2183Cache memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/222Secondary servers, e.g. proxy server, cable television Head-end
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/258Client or end-user data management, e.g. managing client capabilities, user preferences or demographics, processing of multiple end-users preferences to derive collaborative data
    • H04N21/25866Management of end-user data
    • H04N21/25891Management of end-user data being end-user preferences

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computer Graphics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种VANET中基于时变线性的加速强化学习边缘缓存方法,首先,构建动态的时变线性预测模型,通过考虑每个文件的动态老化,并根据历史内容请求来预测未来的内容请求;然后,构建文件缓存替换函数,并对该函数进行调整;最后,优化缓存策略函数,通过合成假设样本来增加每个时隙的样本数,以达到Q函数的快速收敛,并相应地替换缓存的内容,最大化总的缓存效益。本发明具有更高的缓存命中率和长期效益;通过线性时变预测模型,可以对车辆请求进行实时预测,同时实时的替换边缘服务器中的缓存文件,保证缓存文件的有效性。

Description

一种VANET中基于时变线性的加速强化学习边缘缓存方法
技术领域
本发明属于车联网技术领域与通信领域,具体涉及一种VANET中基于时变线性的加速强化学习边缘缓存方法。
背景技术
随着网络与通信技术的发展,车辆可以在行驶过程中下载的自己喜欢的音乐、电影或者其他文件,越来越多的物联网设备交换数据随之产生。飞速增长的移动流量给基于云的服务供应模式带来了巨大压力,因为将大量数据移入或移出云会消耗大量频谱资源,同时可能会导致大量延迟。将内容缓存在靠近客户端的边缘服务器中,可以有效减轻用户对移动接入网络容量带来的压力问题,减轻流量负担,减少内容访问延迟并提高用户体验,据预测,在网络边缘缓存内容最多可以减少35%的回程流量需求。但是,与不断增长的内容量相比,边缘节点上的存储始终受到限制,无法在本地缓存所有内容。因此,如何在有限容量的网络边缘有效的缓存内容是至关重要的。
发明内容
发明目的:本发明提出一种VANET中基于时变线性的加速强化学习边缘缓存方法,可以对车辆请求进行实时预测,同时实时的替换边缘服务器中的缓存文件,保证缓存文件的有效性。
发明内容:本发明提出一种VANET中基于时变线性的加速强化学习边缘缓存方法,包括以下步骤:
(1)构建动态的时变线性预测模型,通过考虑每个文件的动态老化,并根据历史内容请求来预测未来的内容请求;
(2)构建文件缓存替换函数,并对该函数进行调整;
(3)优化缓存策略函数,通过合成假设样本来增加每个时隙的样本数,以达到Q函数的快速收敛,并相应地替换缓存的内容,最大化总的缓存效益。
进一步地,所述步骤(1)包括以下步骤:
(11)设文件f的第一次请求时刻为τt,在t时刻请求文件的t-τt维特征向量Xt,f表示如下为:
Figure BDA0002473629320000011
(12)根据t时刻所观察到的历史请求内容,设置t时刻的预测内容f的请求如下:
Figure BDA0002473629320000021
(13)通过施加以下线性约束来估计最优参数向量θ:
Figure BDA0002473629320000022
Figure BDA0002473629320000023
Figure BDA0002473629320000024
其中,参数θi,j为第一次请求时刻为i的文件f,在时刻t-i和t-j处请求的相关系数,且0≤θi,j≤1,1≤j≤i。
进一步地,所述步骤(2)包括以下步骤:
(21)定义缓存策略函数为π:S→A,表示将状态的s∈S映射到动作a∈{0,...,s};对于t时刻的状态st,缓存向量由动作at=π(st)决定,表示时刻t处缓存更新的文件数;用Vt(s,a)表示在时刻t处状态s对应的执行动作a的平均奖励值;将一个完整的决策策略用π表示,则状态st的最优表示如下:
Figure BDA0002473629320000025
(22)为了使任意状态s的平均奖励值最大化,给出以下优化函数:
Figure BDA0002473629320000026
其中,Π为策略函数组成的集合;
(23)状态s服从策略π,因此奖励值满足以下方程:
Figure BDA0002473629320000027
其中,Tt(s,a,s')表示状态st在动作at作用下进入下一状态s't的跃迁概率。
进一步地,所述步骤(3)包括以下步骤:
(31)设Q*(s,a)是在状态s下采取行动a的预期奖励,之后通过选择最佳行动持续进行,G*(s)是假设最初采取最佳动作的状态s的值,因此,G*(s)=maxaQ*(s,a),其中,Q*(s,a)可以表示如下:
Figure BDA0002473629320000031
(32)时刻t的Q函数用随机近似方法更新为
Figure BDA0002473629320000032
其中,αt为学习速率;
(33)通过合成虚拟样本增加样本数,并用加速强化学习算法更新Q值。
有益效果:与现有技术相比,本发明的有益效果:1、在固定时隙值或文件数的条件下,本发明具有更高的缓存命中率和长期效益;2、通过线性时变预测模型,可以对车辆请求进行实时预测,同时实时的替换边缘服务器中的缓存文件,保证缓存文件的有效性。
附图说明
图1为本发明的流程图;
图2为VANET边缘缓存模型图。
具体实施方式
下面结合说明书附图对本发明的技术方案做进一步的详细说明。
本发明考虑典型的MEC系统模型,在该模型中,集群中的一组MEC服务器形成协作缓存域,以支持移动网络边缘的移动多媒体服务。通常,MEC服务器可以与蜂窝BS共存,MEC服务器负责为边缘服务区提供移动多媒体服务和应用。CP(内容提供商)拥有服务器的一些资源(例如存储容量,计算容量),提供低延迟本地云服务。CP定期在服务器的本地缓存中部署和更新流行的视频文件,以提高移动用户的体验质量。在特定域中,服务器以协作方式执行内容缓存和共享。例如,如果内容请求不能由图2的系统中的本地高速缓存C1完成,则它可以由C2或C3服务。通过使用服务器提供的内容缓存服务,车辆的内容请求可能不需要通过反向链接转发到数据中心,并且可以大大减少通信容量和冗余传输。域中的服务器可以通过BS之间的通信与其他服务器交换缓存信息或共享缓存的视频文件。虽然协作缓存是资源需求的,并且可能由于协作而导致一些延迟,但它可以大大提高缓存命中率并减少负载延迟(通过网络核心)作为回报。
将边缘服务器安置在路边单元上,如红绿灯、路边标识等。边缘服务器根据来玩车辆的历史请求内容预测出车辆的未来可能请求内容,并通过缓存策略决定预测的内容是否缓存在边缘服务器中。车子行驶进入数据缓存区并发送文件请求,位于红绿灯路口或者路边标识的边缘服务器接受文件请求,并检索本地是否缓存该文件,若该文件缓存在本地服务器中则直接发送到车辆,若本地服务器没有缓存该文件,则将请求任务发送协同缓存区中的其他服务器中。若整个协同缓存区内都没有缓存该文件,则将任务直接发送到云端。车子驶出高速缓存区,服务器缓存区根据车辆的请求内容更新缓存内容。
本发明所述的一种VANET中基于时变线性的加速强化学习边缘缓存方法,具体包括以下步骤,如图1所示:
步骤1:构建动态的时变线性预测模型,通过考虑每个文件的动态老化,并根据历史内容请求来预测未来的内容请求。
设边缘服务器的缓存容量为C,t时刻边缘服务器上的已有缓存文件集为Ot,新缓存的文件集为Nt,则t时刻边缘服务器上的缓存文件集为Ft={Ot,Nt},用户在t时刻的请求向量为qt(f't,et),其中f't表示t时刻边缘服务器已经缓存的请求文件,et表示边缘服务器中没缓存的请求文件。则t时刻用户可以请求到的文件数为:
St=qt×Ft (1)
边缘服务器缓存文件的准确率为:
Figure BDA0002473629320000041
在缓存已满的条件下,设文件更新带来的损耗率定义为:
Figure BDA0002473629320000042
则t时刻的缓存效益设为:
Vt=Zt-λdt (4)
其中,λ≥0是考虑了网络拥堵状况、文件更新替换时间等影响因素的加权参数。
给出以下优化问题,本文的目标是使所有时隙的缓存效益最大:
Figure BDA0002473629320000051
其中t∈{1,2,...,T}。
由于每个时隙的瞬时内容请求qt在作出缓存决定之前无法显示,因此上述问题是难以解决的。本文提出了一种新的时变分组线性预测模型,通过考虑每个文件的动态老化来请求内容。首先根据历史内容请求预测未来的内容请求。然后,通过学习制定了最优内容替换策略,以最大化总的缓存效益,并相应地替换缓存的内容。最后,观察内容请求并计算缓存效益。
设文件f的第一次请求时刻为τt,在t时刻请求文件的t-τt维特征向量Xt,f表示如下为:
Figure BDA0002473629320000056
Xt,f包含从文件第一次请求时刻到t时刻所观察到的历史请求,根据t时刻所观察到的历史请求内容。
设置t时刻的预测内容f的请求如下:
Figure BDA0002473629320000052
其中,θi=(θi,1i,2,...,θi,i)∈Ri是关于时长i=t-τ的未知参数向量。
参数θi,j为第一次请求时刻为i的文件f,在时刻t-i和t-j处请求的相关系数,且0≤θi,j≤1,1≤j≤i。由于较短时间间隔内的内容请求具有较强的相关性,因此,可以进一步假定θi,j是单调减的,并可以通过施加以下线性约束来估计最优参数向量θ:
Figure BDA0002473629320000053
Figure BDA0002473629320000054
Figure BDA0002473629320000055
步骤2:构建文件缓存替换函数,并对该函数进行调整。
利用Q-学习从问题(6)中获得非平稳马尔可夫决策过程的缓存策略,并将状态和动作定义如下:
状态:每个时刻的系统状态定义如下:
Figure BDA0002473629320000061
其中,
Figure BDA0002473629320000062
是由预测估计到的t时刻的缓存内容集,
Figure BDA0002473629320000063
中包含了根据预测的内容请求
Figure BDA0002473629320000064
缓存的内容。状态st表示在t时刻更新缓存文件数,由于边缘服务器的容量有限,缓存文件的更新数有限,总体状态空间为S=[0:C]。
动作:每个时刻t的动作定义为在时刻t中更新的缓存文件数,表示为at。由于缓存损耗是固定的,为了使缓存准确率最大化,在给定动作at时,用文件集Nt中流行度最高的文件更新文件集Nt-1中流行度最低的文件,每个时隙的动作空间为at∈[0:st]。
奖励:时刻t处的奖励定义为缓存效益Vt=Zt-λdt
定义缓存策略函数为π:S→A,表示将状态的s∈S映射到动作a∈{0,...,s}。对于t时刻的状态st,缓存向量由动作at=π(st)决定,它表示时刻t处缓存更新的文件数。用Vt(s,a)表示在时刻t处状态s对应的执行动作a的平均奖励值。将一个完整的决策策略用π表示,则状态st的最优表示如下:
Figure BDA0002473629320000065
为了使任意状态s的平均奖励值最大化,给出以下优化函数:
Figure BDA0002473629320000066
其中Π为所有可能的策略函数组成的集合。
由于状态s服从策略π,因此奖励值满足以下方程:
Figure BDA0002473629320000067
其中,Tt(s,a,s')表示状态st在动作at作用下进入下一状态s't的跃迁概率。
步骤3:优化缓存策略函数,通过合成假设样本来增加每个时隙的样本数,以达到Q函数的快速收敛,并相应地替换缓存的内容,最大化总的缓存效益。
设Q*(s,a)是在状态s下采取行动a的预期奖励,之后通过选择最佳行动持续进行。G*(s)是假设最初采取最佳动作的状态s的值,因此,G*(s)=maxaQ*(s,a),其中,Q*(s,a)可以表示如下:
Figure BDA0002473629320000071
最优策略为π*(s)=arg maxaQ*(s,a),公式(11)的更新称为完全备份,它考虑了所有可能的后续状态的信息。(s,a,r,s',t)表示一个有经验的样本,它描绘了环境中的单个过渡,这意味着在t时隙,处于状态s的代理采取一个动作a,从环境中接收标量奖励r。对平均奖励Vt(s,a)进行采样得到奖励r,和有界方差对,然后根据Tt(s,a,s'),环境进入下一个状态s’。设经验样本为(si,ai,ri,s'i,ti),则时刻t的Q函数用随机近似方法更新为
Figure BDA0002473629320000072
其中,αt为学习速率。
在环境平稳条件下,当αt满足
Figure BDA0002473629320000073
并且
Figure BDA0002473629320000074
时,公式(14)收敛到最优值Q*。但是,由于流行度和用户请求是动态变化的,
Figure BDA0002473629320000075
的值会随着流行度和用户请求的变化而变动,因此,(14)不能收敛到最优值
Figure BDA0002473629320000076
同时,在每个时隙产生样本的数量较少的情况下,由于经验样本的复杂度不够,仍不能保证Q函数的收敛,甚至会影响算法的准确性。
通过合成假设样本来增加收敛速度的方法,根据以往的车辆请求信息设置出最优的文件缓存方案,并对过去某时刻的采取预设出的动作,便能产生与当前时刻不同的假设样本。由于假设出的样本并不服从当前的奖励和转移概率的分布,因此本文采取了自适应学习速率
Figure BDA0002473629320000077
其中参数α0和β0满足0<α0<1,0<β0<1。学习速率的值受样本产生的时间影响,样本产生的时间距离目前时刻t越久,其带来的误差就越大。
从线性预测模型的参数初始化,缓冲器B中存储了所有车辆请求的真实经验样本,而假设的缓冲区Bi存储模型预测得到的假设样本。在每个时隙t中,遍历当前状态下所有可能的动作,利用Q函数的最大值来开发该动作。此外,在更新线性预测模型的参数后,在当前时隙t使用观察到的内容请求更新真实经验样本(st,at,rt,st+1,t),并存储在缓冲区B中。然后,本文首先将假设缓存向量N* t-Δt替换为Nt-Δt上的真实缓存向量,然后通过重复合成假设样本序列,不断的丰富样本空间。在生成假设样本时,本文通过采取动作的办法来丰富样本空间,最后使用真实样本空间B和假设样本空间Bi中的样本共同进行Q值更新。具体伪码如下:
1.初始化Q(s,a);
2.初始化缓冲区B、假设缓冲区Bi和模拟步长▽t←30;
3.初始化时变线性预测模型参数θ←0;
4.当t=1,2,...,T时,执行以下动作
5.观测状态si
6.采取动作at←arg minaQ(s,a);
7.通过动作at,用文件集Nt流行度最高的文件替换文件集Nt-1中流行度最低的文件;
8.观测内容请求qt
9.根据式子(4)更新缓存效益Vt
10.基于式子(9)用qt更新时变线性预测模型;
11.基于式子(8)用时变线性预测模型预测qt+1
12.通过对预测到的qt+1排序计算得到Nt+1
13.通过比较Nt与Nt+1计算st+1
14.把经验样本(st,at,rt,st+1,t)存入B;
15.当k=1,2,…,K时,执行以下步骤
16.重置假设缓存状态向量
Figure BDA0002473629320000091
17.根据历史请求内容请求数据模拟次状态转移;
18.把所有假设样本存入Bi;
19.结束
20.当(si,ai,ri,s,i,ti)∈Bi时,执行以下动作
21.基于公式(14)更新Q(si,ai);
22.结束
23.结束
以上所述仅为本发明的较佳实施方式,本发明的保护范围并不以上述实施方式为限,但凡本领域普通技术人员根据本发明所揭示内容所作的等效修饰或变化,皆应纳入权利要求书中记载的保护范围内。

Claims (4)

1.一种VANET中基于时变线性的加速强化学习边缘缓存方法,其特征在于,包括以下步骤:
(1)构建动态的时变线性预测模型,通过考虑每个文件的动态老化,并根据历史内容请求来预测未来的内容请求;
(2)构建文件缓存替换函数,并对该函数进行调整;
(3)优化缓存策略函数,通过合成假设样本来增加每个时隙的样本数,以达到Q函数的快速收敛,并相应地替换缓存的内容,最大化总的缓存效益。
2.根据权利要求1所述的一种VANET中基于时变线性的加速强化学习边缘缓存方法,其特征在于,所述步骤(1)包括以下步骤:
(11)设文件f的第一次请求时刻为τt,在t时刻请求文件的t-τt维特征向量Xt,f表示如下为:
Figure FDA0002473629310000011
(12)根据t时刻所观察到的历史请求内容,设置t时刻的预测内容f的请求如下:
Figure FDA0002473629310000012
(13)通过施加以下线性约束来估计最优参数向量θ:
Figure FDA0002473629310000013
Figure FDA0002473629310000014
Figure FDA0002473629310000015
其中,参数θi,j为第一次请求时刻为i的文件f,在时刻t-i和t-j处请求的相关系数,且0≤θi,j≤1,1≤j≤i。
3.根据权利要求1所述的一种VANET中基于时变线性的加速强化学习边缘缓存方法,其特征在于,所述步骤(2)包括以下步骤:
(21)定义缓存策略函数为π:S→A,表示将状态的s∈S映射到动作a∈{0,…,s};对于t时刻的状态st,缓存向量由动作at=π(st)决定,表示时刻t处缓存更新的文件数;用Vt(s,a)表示在时刻t处状态s对应的执行动作a的平均奖励值;将一个完整的决策策略用π表示,则状态st的最优表示如下:
Figure FDA0002473629310000021
(22)为了使任意状态s的平均奖励值最大化,给出以下优化函数:
Figure FDA0002473629310000022
其中,Π为策略函数组成的集合;
(23)状态s服从策略π,因此奖励值满足以下方程:
Figure FDA0002473629310000023
其中,Tt(s,a,s')表示状态st在动作at作用下进入下一状态s't的跃迁概率。
4.根据权利要求1所述的一种VANET中基于时变线性的加速强化学习边缘缓存方法,其特征在于,所述步骤(3)包括以下步骤:
(31)设Q*(s,a)是在状态s下采取行动a的预期奖励,之后通过选择最佳行动持续进行,G*(s)是假设最初采取最佳动作的状态s的值,因此,G*(s)=maxaQ*(s,a),其中,Q*(s,a)可以表示如下:
Figure FDA0002473629310000024
(32)时刻t的Q函数用随机近似方法更新为
Figure FDA0002473629310000025
其中,αt为学习速率;
(33)通过合成虚拟样本增加样本数,并用加速强化学习算法更新Q值。
CN202010356468.XA 2020-04-29 2020-04-29 一种vanet中基于时变线性的加速强化学习边缘缓存方法 Pending CN111629218A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010356468.XA CN111629218A (zh) 2020-04-29 2020-04-29 一种vanet中基于时变线性的加速强化学习边缘缓存方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010356468.XA CN111629218A (zh) 2020-04-29 2020-04-29 一种vanet中基于时变线性的加速强化学习边缘缓存方法

Publications (1)

Publication Number Publication Date
CN111629218A true CN111629218A (zh) 2020-09-04

Family

ID=72260611

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010356468.XA Pending CN111629218A (zh) 2020-04-29 2020-04-29 一种vanet中基于时变线性的加速强化学习边缘缓存方法

Country Status (1)

Country Link
CN (1) CN111629218A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112565377A (zh) * 2020-11-30 2021-03-26 北京邮电大学 车联网中一种面向用户服务体验的内容分级优化缓存方法
CN113573365A (zh) * 2021-06-17 2021-10-29 南京邮电大学 一种基于马尔科夫转移概率的车联网边缘缓存方法
CN114141033A (zh) * 2021-11-09 2022-03-04 南方科技大学 交通灯协作控制方法、装置、设备及计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107909108A (zh) * 2017-11-15 2018-04-13 东南大学 基于内容流行度预测的边缘缓存系统及其方法
CN109873869A (zh) * 2019-03-05 2019-06-11 东南大学 一种雾无线接入网中基于强化学习的边缘缓存方法
CN110312231A (zh) * 2019-06-28 2019-10-08 重庆邮电大学 一种车联网中基于移动边缘计算的内容缓存决策和资源分配联合优化方法
CN110381540A (zh) * 2019-07-22 2019-10-25 天津大学 基于dnn的实时响应时变文件流行度的动态缓存更新方法
US20200065157A1 (en) * 2018-08-27 2020-02-27 Vmware, Inc. Automated reinforcement-learning-based application manager that learns and improves a reward function

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107909108A (zh) * 2017-11-15 2018-04-13 东南大学 基于内容流行度预测的边缘缓存系统及其方法
US20200065157A1 (en) * 2018-08-27 2020-02-27 Vmware, Inc. Automated reinforcement-learning-based application manager that learns and improves a reward function
CN109873869A (zh) * 2019-03-05 2019-06-11 东南大学 一种雾无线接入网中基于强化学习的边缘缓存方法
CN110312231A (zh) * 2019-06-28 2019-10-08 重庆邮电大学 一种车联网中基于移动边缘计算的内容缓存决策和资源分配联合优化方法
CN110381540A (zh) * 2019-07-22 2019-10-25 天津大学 基于dnn的实时响应时变文件流行度的动态缓存更新方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张乃夫: "《无线网络中的内容分发与智能缓存策略研究》", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *
韩向春等: "基于预测的Web缓存替换算法", 《计算机工程与设计》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112565377A (zh) * 2020-11-30 2021-03-26 北京邮电大学 车联网中一种面向用户服务体验的内容分级优化缓存方法
CN113573365A (zh) * 2021-06-17 2021-10-29 南京邮电大学 一种基于马尔科夫转移概率的车联网边缘缓存方法
CN113573365B (zh) * 2021-06-17 2023-06-02 南京邮电大学 一种基于马尔科夫转移概率的车联网边缘缓存方法
CN114141033A (zh) * 2021-11-09 2022-03-04 南方科技大学 交通灯协作控制方法、装置、设备及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN111629218A (zh) 一种vanet中基于时变线性的加速强化学习边缘缓存方法
CN110460465B (zh) 面向移动边缘计算的服务功能链部署方法
Peng et al. Joint optimization of service chain caching and task offloading in mobile edge computing
CN113475089B (zh) 用于面向用户的内容流的方法和系统
CN113434212A (zh) 基于元强化学习的缓存辅助任务协作卸载与资源分配方法
CN113573320B (zh) 边缘网络中基于改进的演员-评论家算法的sfc部署方法
CN115665258B (zh) 一种基于深度强化学习的多目标服务功能链的优先级感知部署方法
Hao et al. A multi-update deep reinforcement learning algorithm for edge computing service offloading
Li et al. DQN-enabled content caching and quantum ant colony-based computation offloading in MEC
Ye et al. Joint cache size scaling and replacement adaptation for small content providers
CN115022684B (zh) 一种quic协议下基于深度强化学习的视频流自适应传输方法
CN113411826A (zh) 一种基于注意力机制强化学习的边缘网络设备缓存方法
CN113422812A (zh) 一种服务链部署方法及装置
CN117221403A (zh) 一种基于用户移动和联邦缓存决策的内容缓存方法
CN107276781B (zh) 一种带存储的路由器扩展内容分发网络的预部署方法
Gong et al. Slicing-based resource optimization in multi-access edge network using ensemble learning aided DDPG algorithm
Hafez et al. Reinforcement learning-based rate adaptation in dynamic video streaming
CN113193999A (zh) 一种基于深度确定性策略梯度的虚拟网络映射方法
CN110113418B (zh) 一种车联信息中心网络的协同缓存更新方法
Tong et al. VNF dynamic scaling and deployment algorithm based on traffic prediction
Fan et al. Service migration in mobile edge computing based on reinforcement learning
CN111901833A (zh) 一种面向不可靠信道传输的联合服务调度以及内容缓存方法
Gao et al. Dhp: A joint video download and dynamic bitrate adaptation algorithm for short video streaming
Peng et al. Task offloading in multiple-services mobile edge computing: A deep reinforcement learning algorithm
CN113596138B (zh) 一种基于深度强化学习的异构信息中心网络缓存分配方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 210003 Gulou District, Jiangsu, Nanjing new model road, No. 66

Applicant after: NANJING University OF POSTS AND TELECOMMUNICATIONS

Address before: Yuen Road Qixia District of Nanjing City, Jiangsu Province, No. 9 210046

Applicant before: NANJING University OF POSTS AND TELECOMMUNICATIONS

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200904