CN113114762B

CN113114762B - 一种数据缓存方法及系统

Info

Publication number: CN113114762B
Application number: CN202110388501.1A
Authority: CN
Inventors: 徐思雅; 邵苏杰; 郭少勇; 刘鑫; 王昭赫; 迟靖烨; 赵凌霄; 刘岩
Original assignee: State Grid Corp of China SGCC; Beijing University of Posts and Telecommunications; Information and Telecommunication Branch of State Grid Henan Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; Beijing University of Posts and Telecommunications; Information and Telecommunication Branch of State Grid Henan Electric Power Co Ltd
Priority date: 2021-04-12
Filing date: 2021-04-12
Publication date: 2022-06-03
Anticipated expiration: 2041-04-12
Also published as: CN113114762A

Abstract

本发明实施例提供的数据缓存方法及系统，可以获取边缘缓存服务器ECS存储的数据请求对应的请求信息；根据ECS或MCD服务的区域内MUE的总数量和ECS或MCD服务的区域内预设时间段内发送数据请求的MUE的数量，计算数据请求的流行度；将流行度输入预先训练好的深度强化学习模型DRL模型中，得到目标数据对应的分配策略；若分配策略为是，则根据分配策略向ECS或MCD缓存目标数据，以使ECS或MCD在接收到指定MUE发送的数据请求后向指定MUE反馈目标数据。从而可知保证数据请求的分配策略满足MCD服务的区域内数据请求的实际情况，在MCD接收到数据请求后反馈对应的请求数据，从而减小相应时延，提高用户体验。

Description

一种数据缓存方法及系统

技术领域

本发明涉及信息技术领域，特别是涉及一种数据缓存方法及系统。

背景技术

目前，随着通信网络技术的飞速发展，移动用户数量急剧增加，导致互联网服务的需求不断增加，核心网络的回程链路数据处理量也不断增大，从而导致核心网络的压力不但升高。

为了缓解核心网络的压力，目前一般通过内容缓存的方式，将核心网络的数据预先缓存到边缘缓存服务器(ECS)或移动缓存设备(MCD)中，从而当ECS或MCD接收到用户发送的数据请求时，可以直接反馈已经缓存的数据缓解核心网络的压力。当前在将核心网络的数据预先缓存到边缘缓存服务器中时，一般是将热门数据缓存到各个边缘缓存服务器中。而在实际使用过程中，各个区域用户发送的数据请求所对应的热门数据并不相同，在各个边缘缓存服务器中存储相同的数据，会导致数据缓存不合理，不但会造成存储空间的占用，还用增加相应时延，影响用户体验。

发明内容

本发明实施例的目的在于提供一种数据缓存方法及系统，用以解决数据缓存不合理的问题。具体技术方案如下：

本申请实施的第一方面，首先提供了一种数据缓存方法，所述方法包括：

获取ECS存储的数据请求对应的请求信息，其中，各所述数据请求为MUE发送的用于获取目标数据的请求，所述请求信息包括所述ECS或MCD服务的区域内所述MUE的总数量和所述ECS或所述MCD服务的区域内预设时间段内发送所述数据请求的所述MUE的数量；

根据所述ECS或所述MCD服务的区域内所述MUE的总数量和所述ECS或所述MCD服务的区域内预设时间段内发送所述数据请求的所述MUE的数量，计算所述数据请求的流行度；

将所述流行度输入预先训练好的深度强化学习模型DRL模型中，得到所述目标数据对应的分配策略，其中，所述分配策略包括是否向所述ECS或缓存所述目标数据；

若所述分配策略为是，则根据所述分配策略向所述ECS或所述MCD缓存所述目标数据，以使所述ECS或所述MCD在接收到指定MUE发送的所述数据请求后向所述指定MUE反馈所述目标数据。

本申请实施的第二方面，提供了一种数据缓存系统，所述系统包括：MUE、ECS、MCD、DRL，所述MUE位于所述ECS或所述MCD服务的区域内；

所述DRL，用于执行上述任一所述的数据缓存方法；

所述MUE，用于向所述ECS和所述MCD发送数据请求；

所述ECS，用于接收所述MUE发送的数据请求，并在所述ECS缓存有所述数据请求对应的请求数据时，向所述MUE反馈所述数据请求对应的请求数据；

所述MCD，用于接收所述MUE发送的数据请求，并在所述MCD缓存有所述数据请求对应的请求数据时，向所述MUE反馈所述数据请求对应的请求数据。

本申请实施的第三方面，提供了一种数据缓存装置，所述装置包括：

请求信息获取模块，用于获取ECS存储的数据请求对应的请求信息，其中，各所述数据请求为MUE发送的用于获取目标数据的请求，所述请求信息包括所述ECS或MCD服务的区域内所述MUE的总数量和所述ECS或所述MCD服务的区域内预设时间段内发送所述数据请求的所述MUE的数量；

流行度计算模块，用于根据所述ECS或所述MCD服务的区域内所述MUE的总数量和所述ECS或所述MCD服务的区域内预设时间段内发送所述数据请求的所述MUE的数量，计算所述数据请求的流行度；

分配策略获取模块，用于将所述流行度输入预先训练好的深度强化学习模型DRL模型中，得到所述目标数据对应的分配策略，其中，所述分配策略包括是否向所述ECS或MCD缓存所述目标数据；

目标数据缓存模块，用于若所述分配策略为是，则根据所述分配策略向所述ECS或所述MCD缓存所述目标数据，以使所述ECS或所述MCD在接收到指定MUE发送的所述数据请求后向所述指定MUE反馈所述目标数据。

本申请实施的另一方面，还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述任一数据缓存方法。

本申请实施的另一方面，还提供了一种计算机可读存储介质，计算机可读存储介质内存储有计算机程序，计算机程序被处理器执行时实现上述任一数据缓存方法。

本发明实施的另一方面，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一数据缓存方法。

本发明实施例有益效果：

本发明实施例提供的数据缓存方法及系统，可以获取边缘缓存服务器ECS存储的数据请求对应的请求信息；根据所述ECS或所述MCD服务的区域内所述MUE的总数量和所述ECS或所述MCD服务的区域内预设时间段内发送所述数据请求的所述MUE的数量，计算所述数据请求的流行度；将所述流行度输入预先训练好的深度强化学习模型DRL模型中，得到所述目标数据对应的分配策略；若所述分配策略为是，则根据所述分配策略向所述ECS或所述MCD缓存所述目标数据，以使所述ECS或所述MCD在接收到指定MUE发送的所述数据请求后向所述指定MUE反馈所述目标数据。由于各数据请求对应的流行度均为根据MCD服务的区域内数据请求的数量计算得到的流行度，并根据流行度确定各个数据请求的分配策略，从而可知保证数据请求的分配策略满足MCD服务的区域内数据请求的实际情况，在MCD接收到数据请求后反馈对应的请求数据，从而减小相应时延，提高用户体验。

当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的实施例。

图1为本申请实施例提供的数据缓存方法的一种流程示意图；

图2为本申请实施例提供的MECC框架的结构示意图；

图3为本申请实施例提供的内容缓存过程示意图；

图4为本申请实施例提供的内容缓存与内容交付时隙图；

图5为本申请实施例提供的MUE与MCD移动模型示意图；

图6为本申请实施例提供的DRL模型的训练过程的流程示意图；

图7为本申请实施例提供的DDPG算法的计算流程示意图；

图8为本申请实施例提供的各缓存算法时延成本比较示意图；

图9为本申请实施例提供的不同MCD数量下各算法平均命中率比较示意图；

图10a为本申请实施例提供的不同MCD数量下系统时延比较示意图；

图10b为本申请实施例提供的不同MUE数量下系统时延比较示意图；

图11为本申请实施例提供的不同缓存容量下系统时延比较示意图；

图12为本申请实施例提供的数据缓存系统的结构示意图；

图13为本申请实施例提供的数据缓存装置的结构示意图；

图14为本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员基于本申请所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施的第一方面，首先提供了一种数据缓存方法，参见图1，图1为本申请实施例的数据缓存方法的一种流程示意图，包括：

步骤S11，获取ECS存储的数据请求对应的请求信息。

其中，各数据请求为移动用户设备MUE发送的用于获取目标数据的请求，请求信息包括ECS(边缘缓存服务器)或MCD(移动缓存设备)服务的区域内MUE(移动请求设备)的总数量和ECS或MCD服务的区域内预设时间段内发送数据请求的MUE的数量。

本申请实施例的数据缓存方法应用于智能终端，该智能终端可以为独立的运行DRL模型(深度强化学习模型)的装置，也可以是ECS。当本申请实施例的方法应用于DRL时，上述DRL模型运行在ECS上。

其中，本申请实施例的ECS为基于DRL的移动边缘协作缓存(MECC，Mobile EdgeCollaborative Caching)框架中的ECS，具体的，该MECC框架的结构可以参见图2。其中，MECC框架包括一个CCS(内容中心服务器)，多个ECS和MCD。设集合

ε＝{1,2,…,E}分别表示ECS和MCD；其中，k＝0表示内容提供中心CCS，设集合

表示MUE。CCS存储所有内容对象，可以满足来自MUE的内容请求。可以通过光纤连接的ECS形成协作缓存域，实现云、边缘和移动设备之间的协作缓存。该框架中，使用DRL代理来监视环境，从收集的数据中提取移动用户设备特征和内容特征，以估计移动用户设备移动性和内容受欢迎程度。通过使用DDPG(深度确定性策略梯度)方法，可以在网络边缘缓存和交付内容。DDPG的计算和执行可以在ECS上执行或通过独立的设备执行，而缓存则放在ECS和MCD上。图中显示的框架的总体架构，其中一个是由DRL组成的学习模块，负责确定缓存和交付的最佳决策。另一部分是MECC网络，其中内容从CCS缓存到ECS和MCD，最后传递到MUE。图中，1表示收集请求信息，ECS可以收集MUE或MCD发送的请求信息；2表示计算流行度，ECS可以根据收集到的请求信息通过DRL模型计算流行度；3表示发送缓存请求，ECS向CCS发送缓存请求；4表示内容下载与缓存，MUE或MCD接收CCS反馈的缓存内容。

步骤S12，根据ECS或MCD服务的区域内MUE的总数量和ECS或MCD服务的区域内预设时间段内发送数据请求的MUE的数量，计算数据请求的流行度。

由于，现有的大多数工作都假定内容的流行度是遵循移动社交网络中的Zipf(齐夫定律)分布。而由于MUE在内容交付过程中可能会经过多个ECS区域，因此，为提供合理的内容流行度模型，本申请定义了基于内容请求概率的全局内容流行度。如图3所示，在内容缓存时隙t_x的开始，由ECS采集区域内所有MUE的内容请求信息，计算并更新内容流行度，并基于此流行度，更新α(t_x)，做出内容缓存决策，其中，定义缓存矩阵α(t_x)∈{0,1}，表示在t_x时隙初缓存节点对各缓存内容文件的缓存状态，α(t_x)[e][f]＝1表示内容f缓存在MCD_e上，α(t_x)[k][f]＝1表示内容f缓存在ECS_k上。

本申请中，DRL的计算可以在ECS上进行，也可以通过独立的智能设备，通过该独立的智能设备读取ECS中的数据，进行DRL的计算。

可选的，根据ECS或MCD服务的区域内MUE的总数量和ECS或MCD服务的区域内预设时间段内发送数据请求的MUE的数量，计算数据请求的流行度，包括：根据ECS或MCD服务的区域内MUE的总数量和ECS或MCD服务的区域内预设时间段内发送数据请求的MUE的数量，通过预设公式：

计算数据请求的流行度，其中，p_f(t_x)表示时隙t_x内数据请求的流行度，

表示ECS服务的区域内在时隙t_x内发送数据请求数据的MUE的数量，M表示ECS服务的区域内MUE的总数量。

步骤S13，将流行度输入预先训练好的深度强化学习模型DRL模型中，得到目标数据对应的分配策略，其中，分配策略包括是否向ECS或移动缓存设备MCD缓存目标数据。

本申请是实施例中，预测了MUE的运动路径，通过假设MUE只能在一个相邻的时间段内移动到相邻区域，且移动概率服从均匀分布。然后根据流行度和MUE移动路径的预测，由ECS进行内容缓存决策。然后向CCS发送缓存请求，请求的内容将被下载并缓存在ECS或MCD上。其中，分配策略包括是否向ECS或移动缓存设备MCD缓存目标数据。

步骤S14，若分配策略为是，则根据分配策略向ECS或MCD缓存目标数据，以使ECS或MCD在接收到指定MUE发送的数据请求后向指定MUE反馈目标数据。

本申请实施例中，ECS或MCD在接收到指定MUE发送的数据请求后向指定MUE反馈目标数据的过程可以定义为交付过程。由于内容流行度的时变特性以及MUE和MCD的位置不确定性，内容流行度更新的时变规模要远大于MUE和MCD位置变化的时变规模，因此应基于不同的时间粒度构建内容缓存过程与内容交付过程。在大时间尺度上，参见图4，对应内容缓存过程，设X＝{1,…,X}为内容缓存周期集合，t_x表示第x个缓存周期，在缓存周期的开始做出内容的缓存决策；在小时间尺度上，对应内容交付过程，将每个t_x时隙分为y个小时隙，设Y＝{1,…,Y}为缓存交付时隙集合，

表示第x个缓存周期上的第y个缓存交付时隙，在每个缓存交付时隙，对MUE的内容请求做出内容交付决策。本申请中定义缓存矩阵α(t_x)∈{0,1}表示在t_x时隙初缓存节点对各缓存内容文件的缓存状态。α(t_x)[e][f]＝1表示内容f缓存在MCD_e上，α(t_x)[k][f]＝1表示内容f缓存在ECS_k上；定义交付矩阵

表示在

时隙缓存节点处理MRV内容请求的状态，

表示在

时隙，MUE_m请求的内容由MCD_e交付，

表示在

时隙，MUE_m请求的内容由ECS_k交付。因此，在t_x时隙和

时隙，做出内容缓存决策和内容交付决策相当于分别完成对α(t_x)和

的更新。

本申请实施例中，ECS或MCD在接收到指定MUE发送的数据请求后向指定MUE反馈目标数据。当ECS中为缓存有数据请求对应的目标数据时，可以向相邻区域的ECS转发该数据请求，以使相邻区域的ECS反馈目标数据。

具体的，本申请是实施例中在所提出的MECC框架中，参见图2，本申请是实施例中通过收集环境信息并存储在经验回放池中，通过奖励机制输入神经网络，通过神经网络模型中的Actor网络和Critic网络进行计算，得到内容交付决策和内容缓存决策，从而依据缓存决策和交付决策进行缓存和交付。其中，MUE内容请求有四种内容交付模式：

ECS直接交付模式：MUE请求获取ECS3所在区域的内容f，如果ECS3缓存了f，ECS3直接将f传递给用户，该ECS直接交付模式可以参见图2中③；

ECS间接交付模式：用户请求获取ECS1所在区域的内容f，如果ECS1没有缓存f，而在ECS1和ECS2形成的协作域中，ECS2已经缓存了f，则可以先通过光纤链路将内容f从ECS2转发到ECS1，然后ECS1将f发送给用户，该ECS间接交付模式可以参见图2中①②；

MCD辅助交付模式：用户请求获取ECS4区域的内容f，如果MCD已经缓存了f，则MCD通过D2D通信向用户发送f，该MCD辅助交付模式可以参见图2中④；

CCS交付模式：当所有ECS和MCD都没有缓存请求的内容f时，即用户无法通过上述三种方式获取内容，所以用户只能直接从CCS获取内容，该CCS交付模式可以参见图2中⑤。

对于ECS间接发送方式，虽然可能会造成额外的延迟，但是移动用户通过回程链路转发到CCS的内容请求数量会减少，从而减少内容交付延迟和冗余传输。本申请实施例中，ECS1和ECS2可以构成一个通过光纤连接的协作缓存域。MUE在ECS1的通信范围内，ECS1和MCD都没有缓存MUE请求的内容，因此MUE无法通过ECS1或MCD获取内容。当ECS2缓存了请求的内容后，它可以通过ECS2将内容转发给ECS1，然后将内容传递给MUE。我们把这个过程称为ECS间接交付模式。

本申请实施例中，MUE与MCD移动模型的建模：通过假设MUE与MCD的位置分别为MUE_m(X_m,Y_m)，MCD_e(X_e,Y_e)，本申请实施例中MUE与MCD被认为是自由移动且无阻塞的，运动过程是相互独立的；各ECS和CCS的位置是固定的，设ECS和CCS的位置分别为ECS_k(X_k,Y_k)，CCS(X_c,Y_c)。

参见图5，通信场景中，以ECSk为原点构建指直角坐标系，(0,0)代表ECS_k的位置。ECS_k覆盖的通信范围半径为R_k；MUE_m通信范围半径为R_m；MCD_e通信范围半径为R_e，d_m,k表示MUE_m与ECS_k的距离，d_m,e表示ECS_k与MCD_e的距离。通过计算可得d_m,k,d_m,e分别为：

假设在数据传输的短暂过程中用户移动的最大速度是v，且用户的位置服从均匀分布，概率分布函数为：

其中，(X_i，Y_i)和(X_j，Y_j)表示在不同时隙所处的位置，i≠j，X′_i为X_i的下一个时隙中可能停留的最远位置，

当MUE_m与ECS_k的距离d_m,k小于两者的最大通信范围半径，即d_m,k<min{R_m,R_k}时，MUE_m与ECS_k可建立通信；同理，当MUE_m与MCD_e的距离小于两者的最大通信范围半径，即d_m,e<min{R_m,R_e}时，MUE_m与MCD_e可建立通信。

本申请实施例中，通信模型的建立：通过缓存节点(ECS、MCD)与MUE之间以及协作域内缓存节点间(ECS_k、ECS_k')的通信关联状态表示缓存节点处理内容请求的方式。

设

表示

时隙MUE_m和缓存节点i的直接关连状态，

表示MUE_m从缓存节点i获取内容f；设

表示

时隙处理

请求时缓存节点ECS_k与协作域内其他缓存节点ECS_k'的直接关联状态。当

且

表示关联，即域内协作处理MUE_m请求；当

且

表示不关联，即ECS_k没有通过协作交付缓存内容；当

时，

因此，在

时隙，通过关联状态

可以表示出各缓存节点对MRV_m内容请求的处理方式，分别为：

从CSS获取内容

从MUE_m当前区域内的MCD_e获取内容

从ECS_k直接获取内容

从ECS_k协作域内其他ECS_k'间接获取内容，ECS_k'负责转发内容。

本申请实施例中，信道传输模型的建立：通过基于实际移动网络场景，对MUE与各缓存节点以及协作域内ECS之间的链路状态分别进行分析，并构建基于带宽的时延模型。

本申请实施例中的信噪比的计算：通过MUE_m与缓存节点i之间为无线链路连接，

时隙MUE_m与缓存节点i间通信信噪比(SNR)可表示为：

其中，

是MUE_m与缓存节点i间的传输功率；

是缓存节点i的天线增益；

是MUE_m与缓存节点i间的距离；

是路径损耗；k是路径损耗指数；

是加性高斯白噪声。

由于协作域内ECS之间通过光纤链路连接，因此，设

时隙协作域内缓存节点ECS_k与ECS_k'之间协作通信信噪比为

当

时

本申请实施例中的带宽的计算：设

分别表示CCS与MUE、ECS、MCD之间的可用带宽资源，并设

表示缓存节点i在

时隙分配给MUE_m的带宽资源；

表示协作域内ECS_k与ECS_k'之间协作交付内容时的带宽资源；当

时，

本申请实施例中的数据传输速率的计算：由于CCS和ECS之间以及协作域内ECS之间为光纤链路连接，数据传输速率恒定，分别设为r_i、r_i,i',i,i′∈K，当

时，

MUE与缓存节点i之间为无线链路连接，因此，根据香农公式，MUE_m从缓存节点i获取一段内容f时的数据速率可表示为:

可选的，本申请实施例中，DRL模型的训练过程可以参见图6，包括：

步骤S61，将样本数据请求的流行度输入待训练的DRL模型；

步骤S62，得到样本数据请求的输出分配策略；

步骤S63，根据输出分配策略将样本数据请求对应的样本数据缓存到输出分配策略对应的ECS或MCD中；

步骤S64，通过输出分配策略对应的ECS或MCD接收样本数据请求，并获取输出分配策略对应的ECS或MCD反馈样本数据请求的时延；

步骤S65，根据时延计算待训练的DRL模型的损失；

步骤S66，根据损失对待训练的DRL模型的参数进行调整，并返回将样本数据请求的流行度输入待训练的DRL模型的步骤继续执行，直至损失小于预设阈值得到训练好的DRL模型。

具体的，在实施使用中，DRL模型的训练过程可以参见如下：

1、问题描述与转换。在MECC框架中，将内容缓存和内容分发的联合优化问题转化为马尔可夫决策过程(Markov decision process，MDP)。MUE请求内容的行为被建模为Markov链，每个MUE都以一定的概率改变其状态。在每个时间段内，MUE占据一个状态，对应于MUE的一个请求行为。系统尝试匹配不同的缓存和传递模式，并从环境中学习最佳策略。，MUE、MCD和ECS尝试不同的操作，并从周围环境中学习最佳策略。马尔可夫链将不断产生独立的顺序状态。本申请实施例中成本函数分为三部分：内容缓存成本、内容请求成本、罚项。

2、内容缓存时延计算。在t_x时隙，缓存节点ECS_k从CCS缓存内容f的时延为:

缓存节点MCD_e从CCS缓存内容f的时延为:

在t_x时隙缓存节点i更新的内容大小可表示为：

其中，ξ运算表示缓存周期t_x和t_x-1之间缓存节点中相同内容的内容大小。

内容缓存的成本对应各缓存节点从CCS缓存内容，回程链路传输更新内容时的时延成本。

因此，在t_x时隙，缓存节点RSU_k、MCD_e的缓存时延分别为：

3、内容交付时延。在

时隙，MUE_m从缓存节点i获取内容f的时延为:

当该内容交付为协作域内ECS_k、ECS_k'协作间接交付内容时，转发内容f产生的时延为：

因此，在

时隙，MUE_m内容交付过程的总时延为：

4、罚项。本申请实施例中，设定内容交付截止日期前未获得全部内容，会产生罚项，即

5、成本函数。基于上述各项时延成本，在

时隙，系统总成本函数可以表示为：

其中，λ₁-λ₅分别表示对不同成本函数影响的权重因子。

6、奖励函数。在采取动作

后，系统将获得奖励

对于随机过程。奖励可写成：

7、面向内容缓存和交付的成本最小化模型。在MECC框架中，将内容缓存和内容分发的联合优化问题转化为马尔可夫决策过程(Markov decision process，MDP)。MUE请求内容的行为被建模为Markov链，每个MUE都以一定的概率改变其状态。在每个时间段内，MUE占据一个状态，对应于MUE的一个请求行为。系统尝试匹配不同的缓存和传递模式，并从环境中学习最佳策略。MUE、MCD和ECS尝试不同的操作，并从周围环境中学习最佳策略。马尔可夫链将不断产生独立的顺序状态。对MDP进行特征化，其基本要素为：状态集S，动作集A，转移概率集P，奖励集R和折扣因子η；下面对各基本要素做出定义。

8、基于DDPG的缓存优化算法。本申请实施例基于DDPG的算法，以最小的时间消耗联合优化缓存和传递策略。具体的可以参见图7。

在DDPG中，对当前状态S在Actor当前网络选择动作A，Critic当前网络负责执行动作A，获得新状态S′和奖励R(奖励R为成本函数)，将样本放入经验回放池，对经验回放池中采样的下一状态S′通过Actor目标网络选择动作A′，供Critic目标网络计算目标Q值的一部分，当Critic目标网络计算出目标Q值的一部分后，Critic当前网络会计算目标Q值，并进行网络参数的更新，定期把最新网络参数复制到目标Critic网络。同时，Actor当前网络也会基于Critic目标网络计算出的目标Q值，进行网络参数的更新，并定期将网络参数复制到Actor目标网络。

基于DDPG的移动边缘协作缓存算法如下：

为了说明本申请实施例的有益效果，以下通过实验数据进行说明：

1、参数设置。本申请实施例中使用Python为MECC框架构建仿真环境。使用TensorFlow平台来实现基于DDPG的协作缓存方案。表1总结了模拟中采用的主要参数。

表1仿真参数

系统参数	取值
		Actor网络学习率	0.001
Critic网络学习率	0.002
		CCS数量	1
ECS数量	10
		MCD数量	[30,50]
MUE数量	[100,150]
		CCS发射功率	75dBm
ECS发射功率	60dBm
		ECS缓存容量	[5GBytes-10GBytes]
MCD发射功率	50dBm
		带宽范围	[10MHz-30MHz]
内容数	20
		内容大小	[300MBytes-500MBytes]

作为参考，本申请实施例实现了随机缓存方案和基于深度Q网络(DQN)的缓存方案(DQN缓存)。在随机缓存方案中，系统随机做出内容缓存和内容交付过程决策；在DQN缓存方案中，没有ECS协作缓存域，MUE的内容请求只能由所在区域内的ECS或MCD负责交付，这可能会增加交付延迟。

2、系统性能分析。图8为MUE＝100和MCD＝40时不同缓存方案累积系统总时延成本的比较。随着训练次数的增加。可以从图中得出以下观察结果：首先，随机缓存方案具有最高的平均系统时延成本，而且该时延成本并不随着训练次数的增加而减小。这是因为内容的随机缓存和交付决策并不是最优的系统决策，没有对系统时延做出任何改善，因此，随机缓存有着较高的时延成本，且不具有收敛性。其次，由于ECS的协作与MCD的辅助缓存提供了更有效的缓存与交付模式，因此MECC框架可以有效降低系统成本。与其他基准方案相比，我们提出的MECC框架通过DDPG强化学习算法，成功解决了联合优化问题中高维动作空间的复杂问题。使MECC能够找到最佳的缓存解决方案，提高了MECC的决策能力。

3、DQN缓存算法和DDPG协作缓存算法的比较。

设定内容命中率为内容命中次数与收到的用户请求总数之比。如图9所示，与非协作策略相比，MECC框架将内容命中率提高了约20％。随着MCD数量的增加，MECC可以为用户提供更多V2V内容交付的机会。同时，ECS收到的用户请求总数将减少。通过DRL代理做出的缓存决定，ECS可以缓存更多有价值的内容，并以较高的命中率交付内容。由于DQN在处理高维度空间问题时没有强大的学习能力，因此，MCD越多，基于DRL的MECC的内容命中率就越高。

4、系统时延比较。

如图10a和图10b所示，MECC框架具有最低的系统时延。由于在MECC框架中，边缘设备可以在边缘侧响应用户内容请求，可以通过减少传输距离和共享缓存的内容来缩短系统延迟。当有更多的MUE时，请求的数量将相应增加，因此系统时延也将增加；而MCD的增加会提供更多的V2V机会，所以系统时延会不断减小。由于随机缓存没有学习过程，每次执行的内容缓存和交付决策都是随机的而不是最优的，从而导致很大的系统时延。但是，对于DRL，当MUE和MCD的数量增加时，将会出现维数的灾难。因此，与DQN缓存算法相比，DRL代理可以通过DDPG算法避免维数灾难，并为MECC确定最佳的缓存和交付策略。因此，由DRL代理在MECC框架中做出的最佳缓存和传递决策仍可以使整个系统时延最小化。

4、不同缓存容量下系统时延比较

如图11所示，随着缓存容量的增大，系统时延不断降低，因为更多的内容可以缓存到边缘侧，MUE的内容请求会在更多的在边缘侧得到响应，通过回程链路转发到CCS的内容请求数量将大大减少，从而有效的减少了回程链路上的高昂时延成本。而DRL代理为MECC框架选择了最优的内容缓存与交付决策，使得缓存节点在有限的缓存容量下可以缓存更有可能被交付的内容，ECS和MCD有更多的内容交付机会，从而使系统有着最低的时延。

综上，本申请实施例提出的支持MEC和D2D辅助的移动边缘协作缓存框架(MECC)。引入了协同缓存域的概念，通过光纤连接的ECS共享缓存信息，协同处理用户请求，使得用户请求更容易在边缘被处理。通过在MECC中应用DRL，联合优化了内容缓存和内容分发过程，从而以较低的成本获得内容。仿真结果表明，所提出的MECC框架在内容命中率和系统整体延迟方面优于随机缓存算法和DQN缓存算法，证明了该机制的可行性。

本申请实施的第二方面，提供了一种数据缓存系统，参见图12，上述系统包括：MUE、ECS、MCD、DRL，MUE位于ECS或MCD服务的区域内；

DRL，用于执行上述任一的数据缓存方法；

MUE，用于向ECS和MCD发送数据请求；

ECS，用于接收MUE发送的数据请求，并在ECS缓存有数据请求对应的请求数据时，向MUE反馈数据请求对应的请求数据；

MCD，用于接收MUE发送的数据请求，并在MCD缓存有数据请求对应的请求数据时，向MUE反馈数据请求对应的请求数据。

可选的，DRL和ECS为相同或不同的和设备。

本申请实施的第三方面，提供了一种数据缓存装置，参见图13，上述装置包括：

请求信息获取模块1301，用于获取边缘缓存服务器ECS存储的数据请求对应的请求信息，其中，各数据请求为移动用户设备MUE发送的用于获取目标数据的请求，请求信息包括ECS或MCD服务的区域内MUE的总数量和ECS或MCD服务的区域内预设时间段内发送数据请求的MUE的数量；

流行度计算模块1302，用于根据ECS或MCD服务的区域内MUE的总数量和ECS或MCD服务的区域内预设时间段内发送数据请求的MUE的数量，计算数据请求的流行度；

分配策略获取模块1303，用于将流行度输入预先训练好的深度强化学习模型DRL模型中，得到目标数据对应的分配策略，其中，分配策略包括是否向ECS或移动缓存设备MCD缓存目标数据；

目标数据缓存模块1304，用于若分配策略为是，则根据分配策略向ECS或MCD缓存目标数据，以使ECS或MCD在接收到指定MUE发送的数据请求后向指定MUE反馈目标数据。

可选的，流行度计算模块1302，具体用于：根据ECS或MCD服务的区域内MUE的总数量和ECS或MCD服务的区域内预设时间段内发送数据请求的MUE的数量，通过预设公式：

可选的，DRL模型的训练过程包括：

将样本数据请求的流行度输入待训练的DRL模型；

得到样本数据请求的输出分配策略；

根据输出分配策略将样本数据请求对应的样本数据缓存到输出分配策略对应的ECS或MCD中；

通过输出分配策略对应的ECS或MCD接收样本数据请求，并获取输出分配策略对应的ECS或MCD反馈样本数据请求的时延；

根据时延计算待训练的DRL模型的损失；

根据损失对待训练的DRL模型的参数进行调整，并返回将样本数据请求的流行度输入待训练的DRL模型的步骤继续执行，直至损失小于预设阈值得到训练好的DRL模型。

本发明实施例还提供了一种电子设备，如图14所示，包括处理器1401、通信接口1402、存储器1403和通信总线1404，其中，处理器1401，通信接口1402，存储器1403通过通信总线1404完成相互间的通信，

存储器1403，用于存放计算机程序；

处理器1401，用于执行存储器1403上所存放的程序时，实现上述任一数据缓存方法。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一数据缓存方法的步骤。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一数据缓存方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统、装置、电子设备、存储介质、计算机程序产品实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种数据缓存方法，其特征在于，所述方法包括：

获取边缘缓存服务器ECS存储的数据请求对应的请求信息，其中，各所述数据请求为移动用户设备MUE发送的用于获取目标数据的请求，所述请求信息包括所述ECS或移动缓存设备MCD服务的区域内所述MUE的总数量和所述ECS或所述MCD服务的区域内预设时间段内发送所述数据请求的所述MUE的数量；

将所述流行度输入预先训练好的深度强化学习模型DRL模型中，得到所述目标数据对应的分配策略，其中，所述分配策略包括是否向所述ECS或MCD缓存所述目标数据；

若所述分配策略为是，则根据所述分配策略向所述ECS或所述MCD缓存所述目标数据，以使所述ECS或所述MCD在接收到指定MUE发送的所述数据请求后向所述指定MUE反馈所述目标数据；

所述根据所述ECS或所述MCD服务的区域内所述MUE的总数量和所述ECS或所述MCD服务的区域内预设时间段内发送所述数据请求的所述MUE的数量，计算所述数据请求的流行度，包括：

根据所述ECS或所述MCD服务的区域内所述MUE的总数量和所述ECS或所述MCD服务的区域内预设时间段内发送所述数据请求的所述MUE的数量，通过预设公式：

计算所述数据请求的流行度，其中，p_f(t_x)表示时隙t_x内数据请求的流行度，

2.根据权利要求1所述的方法，其特征在于，所述DRL模型的训练过程包括：

将样本数据请求的流行度输入待训练的DRL模型；

得到所述样本数据请求的输出分配策略；

根据所述输出分配策略将所述样本数据请求对应的样本数据缓存到所述输出分配策略对应的ECS或MCD中；

通过所述输出分配策略对应的ECS或MCD接收所述样本数据请求，并获取所述输出分配策略对应的ECS或MCD反馈所述样本数据请求的时延；

根据所述时延计算所述待训练的DRL模型的损失；

根据所述损失对所述待训练的DRL模型的参数进行调整，并返回所述将样本数据请求的流行度输入待训练的DRL模型的步骤继续执行，直至所述损失小于预设阈值得到训练好的DRL模型。

3.一种数据缓存系统，其特征在于，所述系统包括：MUE、ECS、MCD、DRL，所述MUE位于所述ECS或所述MCD服务的区域内；

所述DRL，用于执行如权利要求1-2任一所述的数据缓存方法；

所述MUE，用于向所述ECS和所述MCD发送数据请求；

4.根据权利要求3所述的系统，其特征在于，所述所述DRL和所述ECS为相同或不同的和设备。

5.一种数据缓存装置，其特征在于，所述装置包括：

目标数据缓存模块，用于若所述分配策略为是，则根据所述分配策略向所述ECS或所述MCD缓存所述目标数据，以使所述ECS或所述MCD在接收到指定MUE发送的所述数据请求后向所述指定MUE反馈所述目标数据；

所述流行度计算模块，具体用于：根据所述ECS或所述MCD服务的区域内所述MUE的总数量和所述ECS或所述MCD服务的区域内预设时间段内发送所述数据请求的所述MUE的数量，通过预设公式：

6.根据权利要求5所述的装置，其特征在于，所述DRL模型的训练过程包括：

将样本数据请求的流行度输入待训练的DRL模型；

得到所述样本数据请求的输出分配策略；

根据所述时延计算所述待训练的DRL模型的损失；

7.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-2任一所述的方法步骤。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-2任一所述的方法步骤。