CN113630742A

CN113630742A - 采用信源发布内容的请求率与动态性的移动边缘缓存替换方法

Info

Publication number: CN113630742A
Application number: CN202110894209.7A
Authority: CN
Inventors: 罗洪斌; 张珊; 王柳迪
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2020-08-05
Filing date: 2021-08-05
Publication date: 2021-11-09
Anticipated expiration: 2041-08-05
Also published as: CN113630742B

Abstract

本发明公开了一种采用信源发布内容的请求率与动态性的移动边缘缓存替换方法，路边通信单元是将缓存替换问题建模为马尔可夫决策过程，进而得到执行缓存替换条件；采用深度强化学习工具进行动态内容条目缓存替换；本发明通过联合考虑信源发布内容的请求率以及动态性的方式进行缓存替换，以最大化由路边通信单元缓存直接服务的数据量，从而显著减少冗余数据传输、减轻回程链路压力。在保证用户收到请求内容时效性的同时，显著减少冗余数据传输、减轻回程链路压力、降低平均服务延时。

Description

采用信源发布内容的请求率与动态性的移动边缘缓存替换方法

技术领域

本发明涉及在路边通信单元(RSU，road side unit)内进行信源发布内容(SPC，source publish content)的缓存替换处理方法，更特别地说，是指一种利用SPC的请求率与DC－SPC的动态性这两个特性进行边缘缓存替换的处理。

背景技术

在车联网(IOV，internet of vehicles)技术领域中，路边通信单元(RSU，roadside unit)就是建设在路边的基础设施，用来实现车辆和因特网之间的连接。RSU遵循国家标准为GB20851，通讯频率为5.8GHz进行服务。RSU是由高增益定向束控读写天线和射频控制器组成。高增益定向束控读写天线是一个微波收发模块，负责信号和数据的发送与接收、调制与解调、编码与解码、加密与解密；射频控制器是控制发射和接收数据以及处理向上位机收发信息的模块。

2020年09月18日公开的“Low-Latency and Fresh Content Provision inInformation-Centric Vehicular Networks”中，介绍了在车联网场景中，RSU能够用来缓存信源发布内容(SPC，source publish content)，以方便用户请求(user requests)到达时可直接提供服务，避免直接从信源处(source)获取信源发布内容，从而有效减少服务延时，提升用户(user)体验。所述的SPC可以是车联网IOV中的交通状况、道路状况、车辆状况以及辅助的服务设施等信息的总称。

近年来的车联网中，增强现实(AR)、虚拟现实(VR)、自动驾驶等新兴移动应用不断涌现，这些应用需要大量SPC来了解周围环境，例如，街道的实时3D地图以及周围街区的交通状况等。这类能够反映周围环境，并随环境及时间不断变化的信息称之为情境信息(CIF，context information)。情境信息具有信息量大、延时敏感、时效性强的特点。所缓存的情境信息应及时进行版本刷新，否则用户(user)可能会收到过时甚至无效的SPC，严重降低用户(user)体验。因此，除服务延时以外，信息时效性(information timeliness)成为衡量RSU服务性能的又一重要指标。在云游戏、自动驾驶等诸多应用场景中，信息时效性已引起越来越多的关注。RSU在提供动态内容服务时，应设计有效的SPC的内容交付机制(contentdelivery scheme，CDS)，以同时满足信息时效性和服务延时的要求。

考虑到RSU的缓存空间有限，将海量的SPC均缓存是不现实的。因此，RSU只能通过缓存替换策略将当前访问量低的内容替换出来，存储重复访问的内容。缓存替换策略是RSU缓存管理的重要组成，其用请求到达率高的内容替换请求到达率低的内容，从而获得更高的缓存命中率。目前，大量研究关注RSU中的缓存替换问题，在该类研究中常见的替换策略有：先进先出(FIFO)策略、最近最少使用(LRU)策略、最少频率使用(LFU)策略等，但其主要针对静态内容条目，即内容本身不随时间、环境变化。而对于情境信息来说，RSU应及时进行内容刷新，使得缓存内容为最新版本，否则用户可能收到过时信息甚至做出错误决策。但缓存刷新会消耗传输资源，尤其对于高动态性的内容来说。因此，在研究情境信息的缓存放置问题时，不仅要考虑SPC的请求到达率，还应关注DC－SPC的内容动态性。

发明内容

本发明解决的技术问题是：在路边通信单元(RSU)缓存空间有限的情况下，如何进行动态信源发布内容(DC-SPC)的缓存替换，以最大化由RCU边缘缓存直接服务的数据量，从而显著减少冗余数据传输、减轻回程链路压力、降低平均服务延时。

本发明采用的技术手段是：提出一种采用信源发布内容的请求率与动态信源发布内容(DC－SPC)的动态性的边缘缓存替换方法。本发明方法通过联合考虑请求率和动态性的方式进行缓存替换，旨在当RSU提供DC－SPC服务时最大限度地增加由RSU边缘缓存直接服务的数据量，从而在保证用户收到请求内容时效性的同时，显著减少冗余数据传输、减轻回程链路压力、降低平均服务延时。

本发明的一种采用信源发布内容的请求率与动态性的移动边缘缓存替换方法，其特征在于包括有下列步骤：

步骤一，对路边通信单元的信源节点进行属性设置；

步骤101，设置信源节点的属性；

在任意一个路边通信单元的周围部署有S个信源节点，得到的信源节点集合，记为PS^BS；

每一个信源节点只发布一种内容，记为发布内容I；

所述的信源节点集合PS^BS中的每一个信源节点只发布一种内容；得到的发布内容集合，记为MI；

设置任意一个信源节点P_s的发布内容

的请求概率

和过时概率

步骤102，设置移动用户的属性；

移动用户随机发出的请求信息，记为用户请求内容REQ^user；请求内容数量是小于等于发布内容集合中的发布内容，即REQ^user≤MI；

步骤103，设置路边通信单元的属性；

路边通信单元的缓存容量，记为C^RSU；

路边通信单元缓存的是发布内容集MI，然后按照先来先服务的方式服务于移动用户，向移动用户提供的服务依据的是用户请求内容REQ^user；

路边通信单元新旧版本内容缓存的更替为：若

表明发布内容

在路边通信单元中的缓存仍然有效；若

表明发布内容

在路边通信单元中的缓存无效，即内容缓存版本过时；

路边通信单元对过时的缓存进行直接删除；

路边通信单元对缓存仍然有效的发布内容形成了用户－反馈内容DATA^user，所述的用户－反馈内容DATA^user将直接传输给移动用户；然后执行步骤二；

步骤二，计算发布内容的长时缓存增益以及瞬时缓存增益；

步骤201，依据缓存容量进行发布内容缓存；

依据路边通信单元的缓存容量C^RSU大小从发布内容集MI中获取缓存内容，记为缓存内容

步骤202，依据用户请求选取命中－内容；

路边通信单元依据用户请求内容REQ^user从缓存内容

中选取出被请求的内容，记为命中－内容集MIY，且

将缓存内容

中未被请求的内容，记为余量缓存内容

步骤203，计算余量缓存内容的瞬时缓存增益；

计算余量缓存内容

中的各个发布内容的瞬时缓存增益；

第j种发布内容

的瞬时缓存增益，记为

且

步骤204，统计剩余的用户请求内容；

将用户请求内容REQ^user中的未命中的发布内容作为未命中－内容集，记为MIN，且MIN＝REQ^user-MIY；

步骤205，计算未命中发布内容的长时缓存增益；

第i种发布内容

的长时缓存增益，记为

且

步骤206，发布内容的替换充分条件；

当

时，则用发布内容

替换发布内容

当

时，RSU不对发布内容进行替换；

步骤三，路边通信单元利用深度强化学习工具进行缓存替换；

应用深度强化学习方法时用到的样本内容包括有：当前时刻的发布内容增益SO_t、下一时刻的发布内容增益SO_t+1、当前时刻的路边通信单元的对发布内容的替换个数DD、命中发布内容的条目数g_t；样本内容为四元组信息AA＝(SO_t,DD,g_t,SO_t+1)；

步骤301，设置DQN参数；

设置估计深度Q网络的权重参数，记为θ_估计；目标深度Q网络的权重参数，记为θ_目标；所述θ_目标的更新频率为

设置路边通信单元RSU的缓存容量C^RSU；

设置迭代最大次数为M，迭代次数的标识号，记为m，m＝1,2,3,…,M；

设置每次迭代的步长为N，迭代步数的标识号，记为n，n＝1,2,3,…,N；

将样本内容AA＝(SO_t,DD,g_t,SO_t+1)作为经验池，样本内容个数设置为K；从样本内容中抽样样本，记为AA_YB＝{YB₁,YB₂,…,YB_η,…,YB_μ}；YB_η表示任意一个抽样样本，下角标η表示抽样样本的标识号，YB_μ表示最后一个抽样样本，下角标μ表示抽样样本的总个数；探索概率为ε；折扣因子为γ；学习率为α；

步骤302，路边通信单元服务用户的请求；

路边通信单元向移动用户提供的服务为：

(A)移动用户向路边通信单元请求当前的用户请求内容

(B)路边通信单元依据缓存容量C^RSU从发布内容集合MI中抽取发布内容，形成当前的缓存内容

(C)根据

是否命中

将

划分为命中－内容集MIY和未命中－内容集MIN；

(D)对于命中－内容集MIY中的内容请求，RSU直接将用户－反馈内容DATA^user传输给用户；对于未命中－内容集MIN中的内容请求，RSU首先到信源节点处获取发布内容再将其传输给移动用户；

步骤303，DQN初始状态设置；

记录下当前的迭代次数m，m∈1,2,3,…,M；

在迭代次数n时的初始状态记为SO；初始状态SO包括有瞬时指标SO_瞬时和长时指标SO_长时两方面内容；

瞬时指标SO_瞬时是指

中的内容条目以瞬时缓存增益为指标，进行由大到小排序的递减序列；

长时指标SO_长时是指MIN中内容条目以长时缓存增益为指标，进行由大到小排序的递减序列；

步骤304，获取当前奖励；

当前奖励为命中－内容集MIY中发布内容的条目数，记为g_t；执行步骤305；在路边通信单元中将命中发布内容的条目数当作DQN的当前奖励；

步骤305，获取当前动作；

将当前状态SO_t输入到估计深度Q网络中，使用1-ε贪心的方法选择路边通信单元中替换条目个数作为DQN的动作，记为DD；

在本发明中，动作DD是以概率ε随机选择得到的动作DD_估计∈{0,1,2,…,C^RSU}、或者是以1-ε的概率选择所有输出中最大Q值对应的动作；

若步数n到达N，表明第m次迭代结束；然后执行第m+1次迭代，返回步骤302；

若步数n未到达N，执行步骤306；

步骤306，执行发布内容条目替换；

用SO_长时序列中前DD个内容替换SO_瞬时序列中后DD个内容，形成了后一时间缓存内容

在下一个时间t+1的用户请求集合为

则下一个时间t+1的状态为SO_t+1；执行步骤307；

步骤307，将元组信息置于经验池中；

若经验池中元组数小于K，则直接将元组AA＝(SO_t,DD,g_t,SO_t+1)放入经验池，执行步骤304；

若经验池中元组数等于K，用新元组AA_new＝(SO_t,DD,g_t,SO_t+1)覆盖旧元组AA＝(SO_t,DD,g_t,SO_t+1)，得到覆盖后AA_覆盖＝(SO_t,DD,g_t,SO_t+1)，执行步骤308；

步骤308，随机样本抽取并计算目标Q值；

随机从经验池中抽取μ个元组AA_YB＝{YB₁,YB₂,…,YB_η,…,YB_μ}；利用目标深度Q网络得到目标Q值记为，记为y，即y_η＝gg_η+γmax_DD(Q(SO_η+1,DD；θ_目标))；y_η表示抽取样本中的第η个样本的目标Q值；gg_η表示抽取样本中的第η个样本的命中发布内容条目数；SO_η+1表示抽取样本中的第η+1个样本的状态；执行步骤309；

步骤309，利用梯度下降方法优化估计深度Q网络的权重；

最小化均方误差损失函数D(θ_估计)＝E[(y_η-Q(SO_η,DD_η；θ_估计))²]，SO_η表示抽取样本中的第η个样本的状态；DD_η表示抽取的第η个样本中的替换条目数；利用梯度下降法更新估计深度Q网络的权重参数θ_估计；记录估计深度Q函数的参数更新次数，记为num；执行步骤310；

步骤310，更新目标深度Q网络的权重参数；

若num等于

则更新目标深度Q网络的权重参数θ_目标，即θ_估计替换θ_目标；执行步骤311；

若num小于

执行步骤302；

步骤311，最优解获取；

迭代到达最大次数时，DQN损失值趋于收敛时将输出最优解，包括：最优缓存替换动作集合以及最大缓存命中率。

本发明为一种采用信源发布内容的请求率与动态性的移动边缘缓存替换方法，其优点在于：

①本发明关注移动边缘缓存网络中缓存条目替换问题，聚焦于具有动态性情境信息，在路边通信单元RSU进行缓存替换决策时，联合考虑内容的请求到达率以及内容版本刷新；

②本发明将缓存替换的充分条件应用于深度强化学习过程中，极大削减动作空间，加快RSU进行缓存决策的时间；

③本发明在RSU提供动态内容服务过程中，在满足用户获取内容时效性的同时，最大化RSU本地缓存的命中率，从而增加由RSU缓存直接服务的数据量，减少冗余数据传输，减轻回环链路压力。

附图说明

图1是车联网的网络场景图。

图2是车联网中信息交互的流程图。

图3是本发明采用信源发布内容的请求率与动态性的移动边缘缓存替换方法的流程图。

图4是有本发明方法的路边通信单元进行发布内容缓存替换后的分流能力性能图。

图5是在车联网场景中有本发明方法的路边通信单元进行发布内容缓存替换后的分流能力性能图。

具体实施方式

下面将结合附图和实施例对本发明做进一步的详细说明。

图1为该发明的网络场景图；系统由单个路边通信单元(RSU)、RSU覆盖范围内的多个信源节点(source node)以及多个移动用户(user)组成，这三者通过无线进行通讯。

参见图1所示的车联网的网络场景图。车联网系统至少需要有路边通信单元(RSU)、以及设置在路边通信单元覆盖范围内的多个信源节点(source node)。车联网系统可以采用有线或无线通讯完成发布内容交互。在车联网系统中移动用户(user)通过向路边通信单元发出请求来获得所需内容。

参见图2所示的车联网络场景中信息交互图。移动用户通过向路边通信单元发出请求(所述的请求中至少有用户请求内容REQ^user)，然后路边通信单元依据所述REQ^user回馈给移动用户的用户－反馈内容DATA^user。路边通信单元接收信源节点的发布内容，并对发布内容进行本发明方法的边缘缓存替换处理，从而在保证用户收到请求内容时效性的同时，显著减少冗余数据传输、减轻回程链路压力、降低平均服务延时。

移动用户

在本发明中，移动用户user随机发出的请求信息，记为用户请求内容REQ^user，且

请求内容数量是小于等于发布内容集合中的发布内容，即REQ^user≤MI；

表示用户请求的第1种发布内容

表示用户请求的第2种发布内容

表示用户请求的第i种发布内容

表示用户请求的第s种发布内容

在本发明中，路边通信单元RSU针对所述用户请求内容REQ^user向用户传输的信源发布内容，记为用户－反馈内容DATA^user。

信源节点

在本发明中，在任意一个路边通信单元RSU的周围部署有S个信源节点，得到的信源节点集合，记为

P_i表示第i个信源节点；

P_j表示第j个信源节点；

P_s表示第s个信源节点；下角标s表示信源节点的标识号。

P_S表示最后一个信源节点。下角标S表示信源节点的总个数。

在本发明中，每一个信源节点只发布一种内容，记为发布内容I。

所述的信源节点集合

中的每一个信源节点只发布一种内容；得到的发布内容集合，记为

表示第i种发布内容；

表示第j种发布内容；

表示第s种发布内容；

表示最后一种发布内容。

在本发明中，设置任意一个信源节点P_s的发布内容

的请求概率

和过时概率

在本发明中，发布内容包括的属性有请求概率p和过时概率q。发布内容请求数服从均值为请求到达率的泊松分布。请求概率p是以Zipf分布和泊松分布计算得到。Zipf分布表征的是发布内容流行度的等级。

表示第1个信源节点P₁发布的内容，简称为第1种发布内容

第1种发布内容

的请求概率，记为

第1种发布内容

的过时概率，记为

表示第2个信源节点P₂发布的内容，简称为第2种发布内容

第2种发布内容

的请求概率，记为

第2种发布内容

的过时概率，记为

表示第s个信源节点P_s发布的内容，简称为第s种发布内容

第s种发布内容

的请求概率，记为

第s种发布内容

的过时概率，记为

为了方便说明，所述

也称为任意一种发布内容。

表示最后一个信源节点P_S发布的内容，简称为最后一种发布内容

最后一种发布内容

的请求概率，记为

最后一种发布内容

的过时概率，记为

在本发明中，任意一个信源节点P_s可以监测周围环境并发布相应的情境信息。情境信息是指能反映周围环境，并随着环境、时间不断变化的信息，其具有信息量大、延时敏感、时效性强的特点。

在本发明中，由于情境信息会随时间、环境不断变化，任意一个信源节点P_s需要不断地产生发布内容。信源节点发布内容的当前时间，记为t。位于当前时间t之前的时间，记为前一时间t-1；位于当前时间t之后的时间，记为后一时间t+1。

任意一个信源节点P_s在当前时间t产生的第s种发布内容

的版本，记为当前发布内容版本

同理，任意一个信源节点P_s在前一时间t-1产生的第s种发布内容

的版本，记为过时的发布内容版本

同理，任意一个信源节点P_s在后一时间t+1产生的第s种发布内容

的版本，记为新的发布内容版本

在本发明中，任意一个信源节点P_s发布新的发布内容版本

以反映最新情境信息，且用

或者

来判断。在任意一个信源节点P_s产生新的发布内容版本

后，会发布通告信息NP告知路边通信单元RSU中缓存的相应发布内容已无效，所述的相应发布内容指的是当前发布内容版本

在本发明中，依据发布内容是否会随时间变化将信源发布内容(SPC，sourcepublish content)分为静态内容条目(SC－SPC)和动态内容条目(DC－SPC)。而情境信息(CIF)体现了周围环境随时间的变化，其属于一种动态内容条目(DC－SPC)。由于CIF具有动态性，信源会产生新的内容版本以反映最新环境状态。当信源产生新的内容版本时会向RSU发送过时公告(NP)，RSU将过时内容删除，以避免用户获得过时无效的请求内容。对于所述的CIF本发明采用了请求概率与内容动态性这两个特性进行边缘缓存替换的处理。

路边通信单元

参见图3所示，本发明的一种在路边通信单元中采用信源发布内容的请求率与动态性进行边缘缓存替换的方法，包括有下列步骤：

步骤一，对路边通信单元的信源节点进行属性设置；

步骤101，设置信源节点的属性；

在任意一个路边通信单元RSU的周围部署有S个信源节点，得到的信源节点集合，记为

P_i表示第i个信源节点；

P_j表示第j个信源节点；

P_s表示第s个信源节点；

P_S表示最后一个信源节点。

所述的信源节点集合

表示第i种发布内容；

表示第j种发布内容；

表示第s种发布内容；

表示最后一种发布内容。

在本发明中，设置任意一个信源节点P_s的发布内容

的请求概率

和过时概率

步骤102，设置移动用户的属性；

移动用户user随机发出的请求信息，记为用户请求内容REQ^user，且

表示用户请求的第1种发布内容

表示用户请求的第2种发布内容

表示用户请求的第i种发布内容

表示用户请求的第s种发布内容

在本发明中，路边通信单元RSU针对所述用户请求REQ^user传输的内容，记为用户－反馈内容DATA^user。

步骤103，设置路边通信单元的属性；

在本发明中，路边通信单元RSU具有缓存能力，路边通信单元RSU的缓存容量，记为C^RSU。路边通信单元RSU缓存的是发布内容集MI，然后按照先来先服务的方式服务于移动用户，向移动用户提供的服务依据的是用户请求内容REQ^user。

在本发明中，路边通信单元RSU新旧版本内容缓存的更替为，若

表明发布内容

在路边通信单元RSU中的缓存仍然有效；若

表明发布内容

在路边通信单元RSU中的缓存无效，即内容缓存版本过时。

在本发明中，路边通信单元RSU对过时的缓存进行直接删除；路边通信单元RSU对缓存仍然有效的发布内容形成了用户－反馈内容DATA^user，所述的用户－反馈内容DATA^user将直接传输给移动用户user；然后执行步骤二。

步骤二，计算发布内容的长时缓存增益以及瞬时缓存增益；

步骤201，依据缓存容量进行发布内容缓存；

在本发明中，依据路边通信单元RSU的缓存容量C^RSU大小从发布内容集

中获取缓存内容，记为缓存内容

表示当前缓存于路边通信单元RSU的第1种发布内容

表示当前缓存于路边通信单元RSU的第2种发布内容

表示当前缓存于路边通信单元RSU的第3种发布内容

表示当前缓存于路边通信单元RSU的第j种发布内容

表示当前缓存于路边通信单元RSU的第s种发布内容

步骤202，依据用户请求选取命中－内容；

在本发明中，路边通信单元RSU依据用户请求内容

从缓存内容

中选取出被请求的内容，记为命中－内容集MIY，且

即

表示第1种发布内容

被命中。

表示第2种发布内容

被命中。

表示第s种发布内容

被命中。

将缓存内容

中未被请求的内容，记为余量缓存内容

步骤203，计算余量缓存内容的瞬时缓存增益；

在本发明中，瞬时缓存增益是指任意一种发布内容

被缓存时，后一个时间t+1由RSU直接服务的请求数目，该部分请求可直接被服务，而无须从远端信源处获取，能够有效分流，故产生缓存增益。

在本发明中，计算余量缓存内容

中的各个发布内容的瞬时缓存增益。

第j种发布内容

的瞬时缓存增益，记为

且

同理可得，第3种发布内容

的瞬时缓存增益，记为

第3种发布内容

的请求概率，记为

第3种发布内容

的过时概率，记为

同理可得，第7种发布内容

的瞬时缓存增益，记为

第7种发布内容

的请求概率，记为

第7种发布内容

的过时概率，记为

步骤204，统计剩余的用户请求内容；

在本发明中，将用户请求内容

中的未命中的发布内容作为未命中－内容集，记为MIN，且MIN＝REQ^user-MIY，即

表示第i种发布内容

未命中。

用户请求内容

命中－内容集

步骤205，计算未命中发布内容的长时缓存增益；

在本发明中，长时缓存增益是指任意一种发布内容

无论当前是否被缓存，经过长时间的缓存替换后，统计RSU直接服务的请求平均数目。该部分内容请求无须从远端信源处获取，能够有效分流，故产生缓存增益。

第i种发布内容

的长时缓存增益，记为

且

同理可得，第5种发布内容

的长时缓存增益，记为

且

第5种发布内容

的请求概率，记为

第5种发布内容

记为

步骤206，发布内容的替换充分条件；

在本发明中，当

时，则用发布内容

替换发布内容

在本发明中，当

时，RSU不对发布内容进行替换。

在本发明中，应用深度强化学习方法时用到的样本内容包括有：当前时刻的发布内容增益SO_t、下一时刻的发布内容增益SO_t+1、当前时刻的路边通信单元的对发布内容的替换个数DD、命中发布内容的条目数g_t。样本内容为四元组信息AA＝(SO_t,DD,g_t,SO_t+1)。

步骤301，设置DQN参数；

设置路边通信单元RSU的缓存容量C^RSU；

步骤302，路边通信单元服务用户的请求；

在本发明中，路边通信单元向移动用户提供的服务为：

(A)移动用户向路边通信单元请求当前的用户请求内容

(C)根据

是否命中

将

划分为命中－内容集MIY和未命中－内容集MIN。

(D)对于命中－内容集MIY中的内容请求，RSU直接将用户－反馈内容DATA^user传输给用户；对于未命中－内容集MIN中的内容请求，RSU首先到信源节点处获取发布内容再将其传输给移动用户。

在本发明中，路边通信单元收集的前一时间t-1的用户请求内容，记为

在本发明中，路边通信单元收集的当前时间t的用户请求内容，记为

在本发明中，路边通信单元收集的后一时间t+1的用户请求内容，记为

步骤303，DQN初始状态设置；

记录下当前的迭代次数m，m∈1,2,3,…,M；

在迭代次数n时的初始状态记为SO；初始状态SO包括有瞬时指标SO_瞬时和长时指标SO_长时两方面内容。

瞬时指标SO_瞬时是指

中的内容条目以瞬时缓存增益为指标，进行由大到小排序的递减序列。

长时指标SO_长时是指

中内容条目以长时缓存增益为指标，进行由大到小排序的递减序列。

步骤304，获取当前奖励；

当前奖励为命中－内容集

中发布内容的条目数，记为g_t；执行步骤305；在路边通信单元中将命中发布内容的条目数当作DQN的当前奖励。

步骤305，获取当前动作；

在本发明中，动作DD是以概率ε随机选择得到的动作DD_估计∈{0,1,2,…,C^RSU}、或者是以1-ε的概率选择所有输出中最大Q值对应的动作。

若步数n未到达N，执行步骤306；

步骤306，执行发布内容条目替换；

在下一个时间t+1的用户请求集合为

则下一个时间t+1的状态为SO_t+1；执行步骤307；

步骤307，将元组信息置于经验池中；

步骤308，随机样本抽取并计算目标Q值；

步骤309，利用梯度下降方法优化估计深度Q网络的权重；

步骤310，更新目标深度Q网络的权重参数；

若num等于

若num小于

执行步骤302；

步骤311，最优解获取；

深度Q网络(deep Q-network，DQN)参考《神经网络与深度学习》第343-344页，作者，邱锡鹏。

实施例1

本发明方法是采用Python语言开发，使用MySQL作为数据库支撑，强化学习使用PyTorch框架。

参见图3所示，本发明的一种采用信源发布内容的请求率与动态性的移动边缘缓存替换方法，其包含以下步骤：

步骤一，初始化；

步骤101，设置信源属性；

在路边通信单元RSU的周围部署有5个(即S＝5)信源节点，信源集合为PS^BS＝{P₁,P₂,P₃,P₄,P₅}；每个信源发布一种内容，发布内容集合为

内容大小相同均为1MB。

根据发布内容流行度以及随时间变化快慢的不同，设置了实施例1的请求概率和过时概率。

表1为发布内容的请求概率和过时概率

在本发明中，发布内容的请求概率为经过长时间收集用户请求计算得到，不同内容之间的请求概率相互独立，其表示在某时间片内内容是否被请求；发布内容的过时概率与内容种类有关，不同内容动态性之间存在差异，过时概率能够反映发布内容的新鲜度要求，过时概率较高说明内容刷新频率高，内容新鲜度要求高；反之，过时概率较低则表明内容能够容忍长时间不刷新，即内容的新鲜度要求较低；

步骤102：定义用户属性；

移动用户随机发出的用户请求内容

步骤103：定义路边通信单元属性；

设置路边通信单元RSU的缓存最大容量C^RSU＝3MB，即RSU最多可以存储3个内容条目；然后执行步骤二；

步骤二，计算发布内容的长时缓存增益以及瞬时缓存增益；

本发明目的为RSU设计缓存替换策略以最大化长时平均缓存命中率；为达到上述目的，则尽可能缓存平均可能被命中次数较多的内容；显然，若不考虑内容动态性的影响，请求概率较高的内容，其单位时间内被请求次数较多，则被命中次数也较多；此种情况下，尽可能将请求概率高的内容替换请求概率低的内容以增大缓存命中率；但对于具有动态性的发布内容来说，内容过时则需要进行刷新；显然，若不考虑请求概率的影响，内容的过时概率较高，则其被缓存的意义降低，因为每次用户请求到达大概率内容已过时，此时则需要从远端信源处获取相应内容；此种情况下，尽可能将过时概率低的内容替换过时概率高的内容以增大缓存命中率；综上所述，综合考虑内容请求概率以及过时概率，设计指标来衡量内容条目的缓存价值，即发布内容的平均命中次数。

利用长时缓存增益

和瞬时缓存增益

计算内容条目的缓存价值

表2为内容条目的长时缓存增益以及瞬时缓存增益。

步骤301，设置DQN参数；

应用深度强化学习方法时用到的样本内容包括有：当前时刻的发布内容增益SO_t、下一时刻的发布内容增益SO_t+1、当前时刻的路边通信单元的对发布内容的替换个数DD、命中发布内容的条目数g_t。样本内容为四元组信息AA＝(SO_t,DD,g_t,SO_t+1)。

初始化估计深度Q网络的权重参数θ_估计、目标深度Q网络的权重参数θ_目标，实施例1中设置θ_目标＝θ_估计；所述θ_目标的更新频率为

设置迭代最大次数为M＝10；

设置每次迭代的步长为N＝8000；

将样本内容AA＝(SO_t,DD,g_t,SO_t+1)作为经验池，样本内容个数为K＝10000；从样本内容中抽样样本，记为AA_YB＝{YB₁,YB₂,…,YB_η,…,YB_μ}；YB_η表示任意一个抽样样本，下角标η表示抽样样本的标识号，YB_μ表示最后一个抽样样本，下角标μ表示抽样样本的总个数，μ为64；探索概率为ε＝0.9；折扣因子为γ＝0.9；学习率为α＝0.01；

步骤302，路边通信单元服务用户的请求；

设初始时，RSU缓存的内容为

用户请求集合为

根据请求是否命中路边通信单元缓存，将请求集合分为命中缓存请求集合

以及未命中缓存内容集合

对于命中RSU缓存的请求集合

RSU直接将缓存内容传输给用户。对于未命中RSU缓存的请求集合

RSU首先从信源处获取内容然后再传输给用户；执行步骤303；

步骤303，DQN初始状态设置；

第1次迭代时(m＝1)，初始状态的发布内容增益SO＝{SO_瞬时,SO_长时}；执行步骤304；

步骤304，获取当前奖励；

当前奖励为命中缓存内容集合

中发布内容的条目数，即g₁＝3；执行步骤305；在路边通信单元中将命中发布内容的条目数当作DQN的当前奖励。

步骤305，获取发布内容替换动作；

将当前状态SO＝{SO_瞬时,SO_长时}输入到估计深度Q网络，使用1-ε贪心的方法选择路边通信单元中替换条目个数作为DQN的动作；

从0到1中随机抽取1个浮点数，浮点数选取0.4。在实施例1中，选取的浮点数小于探索概率，则替换个数DD选取1；

若步数到达8000，表明该次迭代结束；然后执行下一次迭代(m＝2)，返回步骤302；

若步数未到达8000，执行步骤306；

步骤306，执行发布内容条目替换；

用SO_长时中最大缓存增益的1个内容条目来替换SO_瞬时序列中最小缓存增益的条目，形成了后一时间的缓存内容

在后一时间的用户请求集合为

则后一时间的状态为SO_t+1；执行步骤307；

步骤307，将元组信息置于经验池中；

若经验池中元组数小于10000，则直接将元组AA＝(SO_t,DD,g_t,SO_t+1)放入经验池，执行步骤304；

若经验池中元组数等于10000，用新元组AA_new＝(SO_t,DD,g_t,SO_t+1)覆盖旧元组AA＝(SO_t,DD,g_t,SO_t+1)，得到覆盖后AA_覆盖＝(SO_t,DD,g_t,SO_t+1)，执行步骤308；

步骤308，随机样本抽取并计算目标Q值；

随机从经验池中抽取μ＝64个元组AA_YB＝{YB₁,YB₂,…,YB_η,…,YB_μ}；利用目标深度Q网络得到目标Q值记为，记为y，即y_η＝gg_η+γmax_DD(Q(SO_η+1,DD；θ_目标))；y_η表示抽取样本中的第η个样本的目标Q值；gg_η表示抽取样本中的第η个样本的命中发布内容条目数；SO_η+1表示抽取样本中的第η+1个样本的状态；执行步骤309；

步骤309，利用梯度下降方法优化估计深度Q网络的权重；

步骤310，更新目标深度Q网络的权重参数；

若num等于

则更新目标深度Q网络权重参数θ_目标，是将θ_估计赋值给θ_目标；执行步骤311；

若num小于

执行步骤302；

步骤311，最优解获取；

图4所示的路边通信单元有本发明方法进行发布内容缓存替换后的分流能力性能图，横坐标为请求到达率，纵坐标为分流流量。本发明方法记为Proposed，Popularity-based为基于内容流行度进行缓存替换的传统机制，LFU为最近最少使用缓存替换机制，ν表示用户请求的聚集程度。由于Popularity-based方法和LFU方法没有考虑内容的动态性，导致所缓存的内容较大概率过时失效，缓存效率不高；本发明Proposed方法的分流流量高于传统基于流行度的缓存替换方法以及最近最少使用缓存替换方法。与基于流行度的缓存替换方法相比，所提策略的分流流量约提升1倍。

图5所示为在车联网场景中路边通信单元有本发明方法进行发布内容缓存替换后的分流能力性能图，横坐标为车辆之间的间距，纵坐标为分流流量；其中Popularity-based为基于内容流行度进行缓存替换的传统机制，LFU为最近最少使用缓存替换机制。本发明Proposed方法的分流流量高于Popularity-based方法和LFU方法，当车辆分布较密集时所提策略的性能优势更加明显，且与基于流行度的缓存替换方法相比，所提策略的分流流量约提升50％。

本发明是一种采用信源发布内容的请求率与动态性的移动边缘缓存替换方法，所要解决的是在路边通信单元缓存空间有限的情况下，如何进行内容替换，以最大化路边通信单元缓存命中率，增大由路边通信单元直接服务的数据量，减轻回程链路压力；该方法通过联合考虑内容请求概率以及内容过时概率的方式进行缓存替换，能够在保证用户收到内容时效性的同时，最大化路边通信单元的缓存命中率，从而减轻回环链路压力，提升用户体验。