CN111629218A

CN111629218A - 一种vanet中基于时变线性的加速强化学习边缘缓存方法

Info

Publication number: CN111629218A
Application number: CN202010356468.XA
Authority: CN
Inventors: 赵海涛; 段佳秀; 冯天翼; 曹浩彤; 张晖; 朱洪波
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2020-04-29
Filing date: 2020-04-29
Publication date: 2020-09-04

Abstract

本发明公开了一种VANET中基于时变线性的加速强化学习边缘缓存方法，首先，构建动态的时变线性预测模型，通过考虑每个文件的动态老化，并根据历史内容请求来预测未来的内容请求；然后，构建文件缓存替换函数，并对该函数进行调整；最后，优化缓存策略函数，通过合成假设样本来增加每个时隙的样本数，以达到Q函数的快速收敛，并相应地替换缓存的内容，最大化总的缓存效益。本发明具有更高的缓存命中率和长期效益；通过线性时变预测模型，可以对车辆请求进行实时预测，同时实时的替换边缘服务器中的缓存文件，保证缓存文件的有效性。

Description

一种VANET中基于时变线性的加速强化学习边缘缓存方法

技术领域

本发明属于车联网技术领域与通信领域，具体涉及一种VANET中基于时变线性的加速强化学习边缘缓存方法。

背景技术

随着网络与通信技术的发展，车辆可以在行驶过程中下载的自己喜欢的音乐、电影或者其他文件，越来越多的物联网设备交换数据随之产生。飞速增长的移动流量给基于云的服务供应模式带来了巨大压力，因为将大量数据移入或移出云会消耗大量频谱资源，同时可能会导致大量延迟。将内容缓存在靠近客户端的边缘服务器中，可以有效减轻用户对移动接入网络容量带来的压力问题，减轻流量负担，减少内容访问延迟并提高用户体验，据预测，在网络边缘缓存内容最多可以减少35％的回程流量需求。但是，与不断增长的内容量相比，边缘节点上的存储始终受到限制，无法在本地缓存所有内容。因此，如何在有限容量的网络边缘有效的缓存内容是至关重要的。

发明内容

发明目的：本发明提出一种VANET中基于时变线性的加速强化学习边缘缓存方法，可以对车辆请求进行实时预测，同时实时的替换边缘服务器中的缓存文件，保证缓存文件的有效性。

发明内容：本发明提出一种VANET中基于时变线性的加速强化学习边缘缓存方法，包括以下步骤：

(1)构建动态的时变线性预测模型，通过考虑每个文件的动态老化，并根据历史内容请求来预测未来的内容请求；

(2)构建文件缓存替换函数，并对该函数进行调整；

(3)优化缓存策略函数，通过合成假设样本来增加每个时隙的样本数，以达到Q函数的快速收敛，并相应地替换缓存的内容，最大化总的缓存效益。

进一步地，所述步骤(1)包括以下步骤：

(11)设文件f的第一次请求时刻为τ_t，在t时刻请求文件的t-τ_t维特征向量X_t,f表示如下为：

(12)根据t时刻所观察到的历史请求内容，设置t时刻的预测内容f的请求如下：

(13)通过施加以下线性约束来估计最优参数向量θ：

其中，参数θ_i,j为第一次请求时刻为i的文件f，在时刻t-i和t-j处请求的相关系数，且0≤θ_i,j≤1,1≤j≤i。

进一步地，所述步骤(2)包括以下步骤：

(21)定义缓存策略函数为π:S→A,表示将状态的s∈S映射到动作a∈{0,...,s}；对于t时刻的状态st，缓存向量由动作a_t＝π(s_t)决定，表示时刻t处缓存更新的文件数；用V_t(s,a)表示在时刻t处状态s对应的执行动作a的平均奖励值；将一个完整的决策策略用π表示，则状态s_t的最优表示如下：

(22)为了使任意状态s的平均奖励值最大化，给出以下优化函数：

其中，Π为策略函数组成的集合；

(23)状态s服从策略π，因此奖励值满足以下方程：

其中，T_t(s,a,s')表示状态s_t在动作a_t作用下进入下一状态s'_t的跃迁概率。

进一步地，所述步骤(3)包括以下步骤：

(31)设Q^*(s,a)是在状态s下采取行动a的预期奖励，之后通过选择最佳行动持续进行，G^*(s)是假设最初采取最佳动作的状态s的值，因此，G^*(s)＝max_aQ^*(s,a)，其中，Q^*(s,a)可以表示如下：

(32)时刻t的Q函数用随机近似方法更新为

其中，α_t为学习速率；

(33)通过合成虚拟样本增加样本数，并用加速强化学习算法更新Q值。

有益效果：与现有技术相比，本发明的有益效果：1、在固定时隙值或文件数的条件下，本发明具有更高的缓存命中率和长期效益；2、通过线性时变预测模型，可以对车辆请求进行实时预测，同时实时的替换边缘服务器中的缓存文件，保证缓存文件的有效性。

附图说明

图1为本发明的流程图；

图2为VANET边缘缓存模型图。

具体实施方式

下面结合说明书附图对本发明的技术方案做进一步的详细说明。

本发明考虑典型的MEC系统模型，在该模型中，集群中的一组MEC服务器形成协作缓存域，以支持移动网络边缘的移动多媒体服务。通常，MEC服务器可以与蜂窝BS共存，MEC服务器负责为边缘服务区提供移动多媒体服务和应用。CP(内容提供商)拥有服务器的一些资源(例如存储容量，计算容量)，提供低延迟本地云服务。CP定期在服务器的本地缓存中部署和更新流行的视频文件，以提高移动用户的体验质量。在特定域中，服务器以协作方式执行内容缓存和共享。例如，如果内容请求不能由图2的系统中的本地高速缓存C1完成，则它可以由C2或C3服务。通过使用服务器提供的内容缓存服务，车辆的内容请求可能不需要通过反向链接转发到数据中心，并且可以大大减少通信容量和冗余传输。域中的服务器可以通过BS之间的通信与其他服务器交换缓存信息或共享缓存的视频文件。虽然协作缓存是资源需求的，并且可能由于协作而导致一些延迟，但它可以大大提高缓存命中率并减少负载延迟(通过网络核心)作为回报。

将边缘服务器安置在路边单元上，如红绿灯、路边标识等。边缘服务器根据来玩车辆的历史请求内容预测出车辆的未来可能请求内容，并通过缓存策略决定预测的内容是否缓存在边缘服务器中。车子行驶进入数据缓存区并发送文件请求，位于红绿灯路口或者路边标识的边缘服务器接受文件请求，并检索本地是否缓存该文件，若该文件缓存在本地服务器中则直接发送到车辆，若本地服务器没有缓存该文件，则将请求任务发送协同缓存区中的其他服务器中。若整个协同缓存区内都没有缓存该文件，则将任务直接发送到云端。车子驶出高速缓存区，服务器缓存区根据车辆的请求内容更新缓存内容。

本发明所述的一种VANET中基于时变线性的加速强化学习边缘缓存方法，具体包括以下步骤，如图1所示：

步骤1：构建动态的时变线性预测模型，通过考虑每个文件的动态老化，并根据历史内容请求来预测未来的内容请求。

设边缘服务器的缓存容量为C，t时刻边缘服务器上的已有缓存文件集为O_t，新缓存的文件集为N_t，则t时刻边缘服务器上的缓存文件集为F_t＝{O_t,N_t}，用户在t时刻的请求向量为q_t(f'_t,e_t),其中f'_t表示t时刻边缘服务器已经缓存的请求文件，e_t表示边缘服务器中没缓存的请求文件。则t时刻用户可以请求到的文件数为：

S_t＝q_t×F_t (1)

边缘服务器缓存文件的准确率为：

在缓存已满的条件下，设文件更新带来的损耗率定义为：

则t时刻的缓存效益设为：

V_t＝Z_t-λd_t (4)

其中，λ≥0是考虑了网络拥堵状况、文件更新替换时间等影响因素的加权参数。

给出以下优化问题,本文的目标是使所有时隙的缓存效益最大:

其中t∈{1,2,...,T}。

由于每个时隙的瞬时内容请求q_t在作出缓存决定之前无法显示，因此上述问题是难以解决的。本文提出了一种新的时变分组线性预测模型，通过考虑每个文件的动态老化来请求内容。首先根据历史内容请求预测未来的内容请求。然后，通过学习制定了最优内容替换策略，以最大化总的缓存效益，并相应地替换缓存的内容。最后，观察内容请求并计算缓存效益。

设文件f的第一次请求时刻为τ_t，在t时刻请求文件的t-τ_t维特征向量X_t,f表示如下为：

X_t,f包含从文件第一次请求时刻到t时刻所观察到的历史请求，根据t时刻所观察到的历史请求内容。

设置t时刻的预测内容f的请求如下：

其中，θ_i＝(θ_i,1,θ_i,2,...,θ_i,i)∈Rⁱ是关于时长i＝t-τ的未知参数向量。

参数θ_i,j为第一次请求时刻为i的文件f，在时刻t-i和t-j处请求的相关系数，且0≤θ_i,j≤1,1≤j≤i。由于较短时间间隔内的内容请求具有较强的相关性，因此，可以进一步假定θ_i,j是单调减的，并可以通过施加以下线性约束来估计最优参数向量θ：

步骤2：构建文件缓存替换函数，并对该函数进行调整。

利用Q-学习从问题(6)中获得非平稳马尔可夫决策过程的缓存策略，并将状态和动作定义如下：

状态：每个时刻的系统状态定义如下：

其中，

是由预测估计到的t时刻的缓存内容集，

中包含了根据预测的内容请求

缓存的内容。状态st表示在t时刻更新缓存文件数，由于边缘服务器的容量有限，缓存文件的更新数有限，总体状态空间为S＝[0：C]。

动作：每个时刻t的动作定义为在时刻t中更新的缓存文件数，表示为a_t。由于缓存损耗是固定的，为了使缓存准确率最大化，在给定动作a_t时，用文件集N_t中流行度最高的文件更新文件集N_t-1中流行度最低的文件，每个时隙的动作空间为at∈[0:st]。

奖励：时刻t处的奖励定义为缓存效益V_t＝Z_t-λd_t。

定义缓存策略函数为π:S→A,表示将状态的s∈S映射到动作a∈{0,...,s}。对于t时刻的状态st，缓存向量由动作a_t＝π(s_t)决定，它表示时刻t处缓存更新的文件数。用V_t(s,a)表示在时刻t处状态s对应的执行动作a的平均奖励值。将一个完整的决策策略用π表示，则状态s_t的最优表示如下：

为了使任意状态s的平均奖励值最大化，给出以下优化函数：

其中Π为所有可能的策略函数组成的集合。

由于状态s服从策略π，因此奖励值满足以下方程：

步骤3：优化缓存策略函数，通过合成假设样本来增加每个时隙的样本数，以达到Q函数的快速收敛，并相应地替换缓存的内容，最大化总的缓存效益。

设Q^*(s,a)是在状态s下采取行动a的预期奖励，之后通过选择最佳行动持续进行。G^*(s)是假设最初采取最佳动作的状态s的值，因此，G^*(s)＝max_aQ^*(s,a)，其中，Q^*(s,a)可以表示如下：

最优策略为π^*(s)＝arg max_aQ^*(s,a)，公式(11)的更新称为完全备份，它考虑了所有可能的后续状态的信息。(s,a,r,s',t)表示一个有经验的样本，它描绘了环境中的单个过渡，这意味着在t时隙，处于状态s的代理采取一个动作a，从环境中接收标量奖励r。对平均奖励V_t(s,a)进行采样得到奖励r,和有界方差对,然后根据T_t(s,a,s')，环境进入下一个状态s’。设经验样本为(s_i,a_i,r_i,s'_i,t_i)，则时刻t的Q函数用随机近似方法更新为

其中，α_t为学习速率。

在环境平稳条件下，当α_t满足

并且

时，公式(14)收敛到最优值Q^*。但是，由于流行度和用户请求是动态变化的，

的值会随着流行度和用户请求的变化而变动，因此，(14)不能收敛到最优值

同时，在每个时隙产生样本的数量较少的情况下，由于经验样本的复杂度不够，仍不能保证Q函数的收敛，甚至会影响算法的准确性。

通过合成假设样本来增加收敛速度的方法，根据以往的车辆请求信息设置出最优的文件缓存方案，并对过去某时刻的采取预设出的动作，便能产生与当前时刻不同的假设样本。由于假设出的样本并不服从当前的奖励和转移概率的分布，因此本文采取了自适应学习速率

其中参数α₀和β₀满足0＜α₀＜1,0＜β₀＜1。学习速率的值受样本产生的时间影响，样本产生的时间距离目前时刻t越久，其带来的误差就越大。

从线性预测模型的参数初始化，缓冲器B中存储了所有车辆请求的真实经验样本，而假设的缓冲区B_i存储模型预测得到的假设样本。在每个时隙t中，遍历当前状态下所有可能的动作，利用Q函数的最大值来开发该动作。此外，在更新线性预测模型的参数后，在当前时隙t使用观察到的内容请求更新真实经验样本(s_t,a_t,r_t,s_t+1,t)，并存储在缓冲区B中。然后，本文首先将假设缓存向量N^* _t-Δt替换为N_t-Δt上的真实缓存向量，然后通过重复合成假设样本序列，不断的丰富样本空间。在生成假设样本时，本文通过采取动作的办法来丰富样本空间，最后使用真实样本空间B和假设样本空间B_i中的样本共同进行Q值更新。具体伪码如下：

1.初始化Q(s,a)；

2.初始化缓冲区B、假设缓冲区Bi和模拟步长▽t←30；

3.初始化时变线性预测模型参数θ←0；

4.当t＝1,2,...,T时，执行以下动作

5.观测状态s_i；

6.采取动作a_t←arg min_aQ(s,a)；

7.通过动作a_t,用文件集N_t流行度最高的文件替换文件集N_t-1中流行度最低的文件；

8.观测内容请求q_t；

9.根据式子(4)更新缓存效益V_t；

10.基于式子(9)用q_t更新时变线性预测模型；

11.基于式子(8)用时变线性预测模型预测q_t+1；

12.通过对预测到的q_t+1排序计算得到N_t+1；

13.通过比较N_t与N_t+1计算s_t+1；

14.把经验样本(s_t,a_t,r_t,s_t+1,t)存入B；

15.当k＝1,2,…,K时，执行以下步骤

16.重置假设缓存状态向量

17.根据历史请求内容请求数据模拟次状态转移；

18.把所有假设样本存入Bi；

19.结束

20.当(s_i,a_i,r_i,s,i,t_i)∈B_i时，执行以下动作

21.基于公式(14)更新Q(s_i,a_i)；

22.结束

23.结束

以上所述仅为本发明的较佳实施方式，本发明的保护范围并不以上述实施方式为限，但凡本领域普通技术人员根据本发明所揭示内容所作的等效修饰或变化，皆应纳入权利要求书中记载的保护范围内。

Claims

1.一种VANET中基于时变线性的加速强化学习边缘缓存方法，其特征在于，包括以下步骤：

(2)构建文件缓存替换函数，并对该函数进行调整；

2.根据权利要求1所述的一种VANET中基于时变线性的加速强化学习边缘缓存方法，其特征在于，所述步骤(1)包括以下步骤：

(13)通过施加以下线性约束来估计最优参数向量θ：

3.根据权利要求1所述的一种VANET中基于时变线性的加速强化学习边缘缓存方法，其特征在于，所述步骤(2)包括以下步骤：

(21)定义缓存策略函数为π:S→A,表示将状态的s∈S映射到动作a∈{0,…,s}；对于t时刻的状态st，缓存向量由动作a_t＝π(s_t)决定，表示时刻t处缓存更新的文件数；用V_t(s,a)表示在时刻t处状态s对应的执行动作a的平均奖励值；将一个完整的决策策略用π表示，则状态s_t的最优表示如下：

其中，Π为策略函数组成的集合；

(23)状态s服从策略π，因此奖励值满足以下方程：

4.根据权利要求1所述的一种VANET中基于时变线性的加速强化学习边缘缓存方法，其特征在于，所述步骤(3)包括以下步骤：

(32)时刻t的Q函数用随机近似方法更新为

其中，α_t为学习速率；