CN115134418A

CN115134418A - 一种多接入边缘计算的协同存储方法、系统及电子设备

Info

Publication number: CN115134418A
Application number: CN202110309390.0A
Authority: CN
Inventors: 张锐; 王坚; 戴建东
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Group Jiangsu Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Group Jiangsu Co Ltd
Priority date: 2021-03-23
Filing date: 2021-03-23
Publication date: 2022-09-30
Anticipated expiration: 2041-03-23
Also published as: CN115134418B

Abstract

本发明提供一种多接入边缘计算的协同存储方法、系统及电子设备，属于多接入边缘计算技术领域，所述方法包括对协同缓存系统构建奖励模型，所述奖励模型包括主动缓存问题函数；基于所述奖励模型，使用底层缓存决策变量的预期回报计算第m个边缘服务器的奖励值；基于所述奖励值，计算由第n个边缘服务器选择的减少缓存决策向量的概率值，并根据所述概率值计算出第m个边缘服务器的预期奖励值；根据所述预期奖励值计算出偏置奖励值，并将所述偏置奖励值作为所述主动缓存问题函数的输入，得到最佳缓存决策向量，以实现所述最大化长期范围内累积的预期缓存奖励。本发明可实现提高内容缓存的命中率和减少内容下载延迟时间。

Description

一种多接入边缘计算的协同存储方法、系统及电子设备

技术领域

本发明涉及多接入边缘计算技术领域，尤其涉及一种多接入边缘计算的协同存储方法、系统及电子设备。

背景技术

随着通信与信息技术的高速发展，手机、平板电脑、智能手表等智能设备已成为生活中不可缺少的部分，而智能设备拥有量的快速增加，导致了移动数据流量产生了爆炸式的增长。数字化和智能化对终端算力需求的迅速增加，使终端的成本快速上升。MEC(Multi-Access Edge Computing，多接入边缘计算)技术的应用成为数字化和智能化时代的算力洼地，将业务和算力汇聚在边缘，能提升网络效率和用户体验。

在目前的MEC规划中，有根据用户请求偏好来部署缓存放置的边缘缓存方案，尽管用户请求偏好信息对于有效的内容缓存非常重要，但用户在下一时刻的请求偏好却通常不能提前获得；同时，在传统的Q学习(Q learning)算法中，Q表的空间是2^M+F，它是服务器数量和文件数量的指数，因此经典的多代理Q学习算法可能需要指数倍的步数来遍历Q表的所有值，效率极其低下。

其次，在选择缓存决策向量x_m之后，可以得到一些关于底层缓存决策变量x_m,f，f∈F的奖励的信息，这原本是可以由其他缓存决策向量共享的，然而，这些信息在经典的多代理Q学习算法中被丢弃，再一次降低了整体效率。

发明内容

本发明提供一种多接入边缘计算的协同存储方法、系统及电子设备，用以解决现有技术中网络延迟导致效率低下的缺陷，实现提高内容缓存的命中率和减少内容下载延迟时间。

本发明提供一种多接入边缘计算的协同存储方法，应用于服务器端，服务器端包括由M个边缘服务器组成协同缓存系统，包括：

对所述协同缓存系统构建奖励模型，所述奖励模型包括以最大化长期范围内累积的预期缓存奖励为目标的主动缓存问题函数；

基于所述奖励模型，使用底层缓存决策变量的预期回报计算第m(m∈M)个边缘服务器的奖励值；

基于所述奖励值，计算由第n(n∈M，n≠m)个边缘服务器选择的减少缓存决策向量的概率值，并根据所述概率值计算出第m个边缘服务器的预期奖励值；

根据所述预期奖励值计算出偏置奖励值，并将所述偏置奖励值作为所述主动缓存问题函数的输入，得到最佳缓存决策向量，以实现所述最大化长期范围内累积的预期缓存奖励。

根据本发明提供的一种多接入边缘计算的协同存储方法，对所述协同缓存系统构建奖励模型，包括：

使用下载延迟的加权减少作为第m个边缘服务器缓存文件f的时间周期t的奖励；

根据所述奖励，计算第m个边缘服务器缓存文件f的预期回报，并计算时间周期t第m个边缘服务器的历史缓存决策向量；

基于所述奖励、所述预期回报以及所述历史缓存决策向量，得到以最大化长期范围内累积的预期缓存奖励为目标的主动缓存问题函数。

根据本发明提供的一种多接入边缘计算的协同存储方法，所述奖励的计算式，定义为：

所述预期回报的计算式，定义为：

所述历史缓存决策向量的计算式，定义为：

所述主动缓存问题函数的计算式，定义为：

其中，M表示边缘服务器集合，U表示用户集合，T表示整个时间周期，

表示边缘服务器n在时间周期t中的用户集合，

表示第m个边缘服务器缓存文件f在时间周期t中的奖励，w_f表示文件f的权重，

表示用户u在时间t内请求文件f的次数，

表示与服务类型k相匹配的用户u的下载权重，

表示在时间t内用户u从源服务器下载文件f的下载延迟，

表示在时间t内用户u从第m个边缘服务器下载文件f的下载延迟，

表示指示用户u是否从第m个服务器检索文件f，θ_u,f表示用户u请求文件f的次数的预估值，X¹表示缓存决策向量初始值，k_u表示用户u的服务类型，F表示缓存文件f集合，

表示第m个服务器初始文件集，

表示在时间周期t内缓存在第m个边缘服务器中的文件集，

表示第m个服务器缓存文件f的奖励，

表示第m个边缘服务器缓存文件f在时间周期t中的缓存决策向量，s_f表示文件f的大小，S_m表示服务器中存储容量，

表示边缘第m个边缘服务器在时间周期t中缓存文件f的预期回报，

表示时间周期t中第m个边缘服务器的缓存决策向量历史。

根据本发明提供的一种多接入边缘计算的协同存储方法，所述基于所述奖励模型，使用底层缓存决策变量的预期回报计算第m(m∈M)个边缘服务器的奖励值，包括：

使用底层缓存决策变量的预期回报代替缓存决策向量的预期回报，即使用Q表的{Q_m,f(x_-m,f)|f∈F,x_-m,f∈χ-_m,f}代替

计算第m(m∈M)个边缘服务器的奖励值，以使每个边缘服务器的Q表的计算空间从2^M+F减少到F·2^M-1；

其中，Q_m,f表示边缘第m个服务器缓存文件f的Q表值，

表示第m个边缘服务器以减少的缓存决策向量为基础设定的Q表值，

表示第m个边缘服务器在时间段t中观察到的减少缓存决策向量，χ_m表示第m个边缘服务器的缓存决策向量，X_-m表示第m个边缘服务器的减少的缓存决策向量，χ_-m表示第m个边缘服务器的减少的缓存决策向量集合，

表示第m个边缘服务器在时间段t内观察到

的次数。

根据本发明提供的一种多接入边缘计算的协同存储方法，所述减少缓存决策向量的概率值的计算式，定义为：

根据所述概率值，计算第m个边缘服务器缓存文件f的预期奖励，所述预期奖励的计算式，定义为：

其中，Pr_m(x_-m,f)表示第m个边缘服务器在时间段t中观察到的减少缓存决策向量的概率值，Pr_m,n,f表示第m个边缘服务器假设第n个边缘服务器缓存文件f的概率，x_-m,f表示第m个边缘服务器观察到的减少缓存决策向量，Q_m,f表示第m个边缘服务器缓存文件f的预期奖励值。

根据本发明提供的一种多接入边缘计算的协同存储方法，所述偏置奖励值的计算式，定义为：

其中，

l表示一个跟第m个边缘服务器缓存文件i相关的常量，Q_m,i表示第m个边缘服务器缓存文件i的偏置奖励值，s_i表示文件i的容量，

表示第m个边缘服务器缓存文件f的偏置奖励值，C_m,f表示第m个边缘服务器缓存文件f的次数。

根据本发明提供的一种多接入边缘计算的协同存储方法，将所述偏置奖励值输入至所述主动缓存问题函数，得到最佳缓存决策向量，将所述偏置奖励值输入至所述主动缓存问题函数，包括：

根据所述偏置奖励值计算最佳缓存决策向量

计算

的主动缓存问题函数，如下：

其中，x_m,f表示第m个边缘服务器缓存文件f的缓存决策向量，x_m,f表示任意的第m个边缘服务器缓存文件f的缓存决策向量；

通过贪婪算法设定目标函数值，求得最佳缓存决策向量

本发明还提供一种多接入边缘计算的协同存储系统，应用于服务器端，服务器端包括由M个边缘服务器组成协同缓存系统，包括：

奖励模型构建模块，用于对所述协同缓存系统构建奖励模型，所述奖励模型包括以最大化长期范围内累积的预期缓存奖励为目标的主动缓存问题函数；

奖励值计算模块，用于基于所述奖励模型，使用底层缓存决策变量的预期回报计算第m(m∈M)个边缘服务器的奖励值；

预期奖励值计算模块，用于基于所述奖励值，计算由第n(n∈M，n≠m)个边缘服务器选择的减少缓存决策向量的概率值，并根据所述概率值计算出第m个边缘服务器的预期奖励值；

最佳缓存决策向量计算模块，用户根据所述预期奖励值计算出偏置奖励值，并将所述偏置奖励值作为所述主动缓存问题函数的输入，得到最佳缓存决策向量，以实现所述最大化长期范围内累积的预期缓存奖励。

本发明还提供了一种多接入边缘计算的协同存储方法，应用于客户端，包括：

向边缘服务器发送内容需求的下载请求；

收到由边缘服务器返回的所述下载请求对应的文件信息，所述边缘服务器是根据预设协同存储方法返回所述文件信息，所述预设协同存储方法包括：

对协同缓存系统构建奖励模型，所述奖励模型包括以最大化长期范围内累积的预期缓存奖励为目标的主动缓存问题函数，所述协同缓存系统是由M个边缘服务器组成；

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述多接入边缘计算的协同存储方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述多接入边缘计算的协同存储方法的步骤。

本发明提供的一种多接入边缘计算的协同存储方法、系统及电子设备，通过构建奖励模型，并通过对边缘服务器使用强化学习算法在多个边缘服务器中协调其缓存决策求得最佳缓存决策向量，从而能提高边缘服务器端的内容缓存命中率，并大大减少移动网络内容下载的延迟。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的多个边缘服务器的架构图；

图2是本发明提供的多接入边缘计算的协同存储方法的流程示意图；

图3是本发明提供的构建奖励模型的流程示意图；

图4是本发明提供的评估其他边缘服务器当前策略的流程示意图；

图5是本发明提供的计算最佳缓存决策向量的流程示意图；

图6是本发明提供的多接入边缘计算的协同存储系统的结构示意图；

图7是本发明提供的协同存储方法应用于客户端的流程示意图；

图8是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第m”、“第n”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。

以下对本发明涉及的技术术语进行描述：

Q-learning是强化学习里的一个算法。Q-learning，顾名思义，Q学习，即学习Q值，其表示遵循某个策略π时，在某个状态s下采取动作a所能得到的期望回报G，G表示是未来所能得到的总奖励。由于初始时刻并不知道准确的Q值，需要通过与环境的不断交互，并基于环境给与的反馈学习出正确的Q值。随着与环境的交互，随着一次次迭代，根据估算Q值采用贪婪算法收敛到正确的Q值，从而得到最优的缓存策略。

MEC(Multi-Access Edge Computing，多接入边缘计算)：欧洲电信标准化协会(ETSI)对MEC的定义是：在移动网络的边缘提供IT服务环境和云计算能力。MEC是边缘计算的一种，MEC运行于网络的边缘，逻辑上不依赖于网络的其他部分。MEC服务器常具有较高的计算能力，因此特别适合于分析处理大量数据。MEC距离用户或信息源在地里上非常接近，使得网络响应用户的请求的时延大大减小，同时也降低了传输网和核心网部分发生网络拥塞的可能性。而且，位于网络边缘的MEC能够实时获取例如基站ID、可用宽带等网络数据以及用户位置相关的信息，从而进行链路感知自适应，并且为基于位置的应用提供部署的可能性，可以极大的改善用户的服务质量体验。

贪心算法(又称贪婪算法)是指在对问题求解时，总是做出在当前看来是最好的选择。也就是说，不从整体最优上加以考虑，其所做出的是在某种意义上的局部最优解。贪心算法不是对所有问题都能得到整体最优解，关键是贪心策略的选择，选择的贪心策略必须具备无后效性，即某个状态以前的过程不会影响以后的状态，只与当前状态有关。

下面结合图1-图8描述本发明的多接入边缘计算的协同存储方法、系统及电子设备。

图1是本发明提供的多个边缘服务器的架构图，如图所示。基站a、基站b、基站C是移动设备接入网络的接口设备。深度学习是机器学习的一种，而机器学习是实现人工智能的必经路径，深度学习是学习样本数据的内在规律和表示层次，通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。

云端是用于云计算以及用以支撑云计算的基础设施及资源，是提供服务的中心节点。边缘节点，也就是边缘服务器，也称为MEC服务器，是离终端最近的服务节点，可缩短数据传输的距离。网络用于连接云端与边缘服务器的通信连接，以及边缘服务器和用户之间的通信连接。终端是云端、边缘服务器的服务对象，终端包括手机、平板电脑、电视等一切可以联网的设备，终端位于网络的最外围，是各种数据的消费者，也是内容(比如短视频、直播等)的生产者。云端、边缘服务器、网络以及终端构成多接入边缘计算(MEC)的组成部分，能让信息更快更好地传输。

将计算、存储等工作负载分散在边缘服务器的各个环境中，直接通过MEC来提供应用服务是5G时代的新选择，其核心是解决传输时延、网络拥堵的问题，同时带来管理功能的灵活性。数据显示，如果将应用服务器都部署在无线网络边缘，就能在无线接入网络与现有的应用服务器之间的回程线路上，节省约35％的带宽使用率。随着视频、游戏等高带宽占用率的负载占比越来越高，移动网络在边缘云架构的帮助下有望将网络延迟降低50％。

MEC通常用于描述将服务推向网络边缘的概念，5G网络具有高速率(其数据传输速率最高可达10Gbit/s)，比当前的有线互联网要快，比先前的4GLTE蜂窝网络快100倍、低延时——网络延迟低于1毫秒，而4G为30-70毫秒等的特点，使得MEC方案的实施越来越具应用价值。

图2是本发明提供的多接入边缘计算的协同存储方法的流程示意图，如图所示。一种多接入边缘计算的协同存储方法，应用于服务器端，服务器端包括由M个边缘服务器组成协同缓存系统，包括：

步骤201，对所述协同缓存系统构建奖励模型，所述奖励模型包括以最大化长期范围内累积的预期缓存奖励为目标的主动缓存问题函数。

构建奖励模型的目的是为了选择奖励模型和预期回报模型，并框定算法的主动缓存问题函数，以实现最小化下载延迟，减少用户端进行内容(比如视频、游戏等)下载的延迟。

可选的，由于M个边缘服务器性能等存在差异化，所以可通过不同的边缘服务器乘以不同的权重，即加权的方式减少下载延迟作为所述边缘服务器的缓存奖励，以实现最大化长期范围内累计的预期缓存奖励。

当用户有内容需求时，用户可以通过以下方式获得请求的文件：

1)本地传输：如果本地服务器已将所请求的文件存储在其缓存中，则请求的文件将直接从本地服务器传输到用户。

2)域内传输：如果文件未存储在本地服务器中，但域中至少有一个边缘服务器存储了该文件，则本地服务器从其他服务器获取所请求的文件。

3)外部传输：如果域中的所有服务器都不存储所请求的文件，则本地服务器从数据中心获取所请求的文件。

假设本发明所述协同缓存系统中每个边缘服务器都具有同一协同缓存域中其他边缘服务器的当前缓存文件的信息，并可定期向其他连接的用户广播。

由此可知，当用户有内容需求时，如果对应的边缘服务器有缓存用户需要的内容时，那么用户就可以向对应的边缘服务器下载对应的文件，这样就可减少下载的延迟。所以边缘服务器缓存内容的命中率也很重要，可确保其缓存的信息是用户需要下载的内容。

具体的，因为本发明中的奖励模型，使用了最小化加权下载延迟作为主要参数，通过学习算法保证了用户下载文件的延迟逐步降低，下载延迟降低即表示命中率上升。

步骤202，基于所述奖励模型，使用底层缓存决策变量的预期回报计算第m(m∈M)个边缘服务器的奖励值。

根据用户请求偏好来部署缓存放置的边缘缓存方案，尽管用户请求偏好信息对于边缘服务器有效的内容缓存是非常重要，但是用户在下一时刻的请求偏好却通常不能提前获得，所以有必要通过边缘服务器使用Q学习来学习如何在多边缘服务器中协调其缓存决策，并与其他边缘服务器一起学习自己的缓存决策的Q值。

由于Q表的空间很大，传统的边缘服务器进行Q学习算法需要指数步数来遍历所有Q值，本发明可通过使用组合上限置信区间算法(CUCB)来有效地减少Q表空间降低复杂性，即使用使用底层缓存决策变量的预期回报而不是缓存决策向量的预期回报，从而使Q表的空间从高速缓存决策向量的数量减少到底层高速缓存决策变量的数量。

上述中，组合上限置信区间算法(CUCB)是一种博弈树搜索算法，该算法将蒙特卡洛树搜索(Monte—Carlo Tree Search，MCTS)方法与UCB公式结合，在超大规模博弈树的搜索过程中相对于传统的搜索算法有着时间和空间方面的优势。

步骤203，基于所述奖励值，计算由第n(n∈M，n≠m)个边缘服务器选择的减少缓存决策向量的概率值，并根据所述概率值计算出第m个边缘服务器的预期奖励值。

虽然第m个边缘服务器当前具有所有减少的高速缓存决策向量的Q值，但是执行高速缓存决策向量的预期奖励取决于其他边缘服务器的当前策略。为了估计其他边缘服务器的当前策略，每个边缘服务器都会观察其他边缘服务器的历史缓存决策，所述历史缓存决策是指在之前的时间t内，边缘服务器缓存的决策方案。

可选的，第m个边缘服务器通过评估由其他边缘服务器选择的减少缓存决策向量的概率值以获得其他边缘服务器的当前策略，从而根据所述概率值计算出第m个边缘服务器缓存文件f的预期奖励。

步骤204，根据所述预期奖励值计算出偏置奖励值，并将所述偏置奖励值作为所述主动缓存问题函数的输入，得到最佳缓存决策向量，以实现所述最大化长期范围内累积的预期缓存奖励。

可选的，本发明可采用具有低复杂度的贪婪算法对所述主动缓存问题函数求近似解，所述近似解为最佳缓存决策向量。根据得到的最佳缓存决策向量，从而是的用户在请求内容下载时，边缘服务器可减少内容下载的延迟，并提高了内容缓存命中率。

以下将将结合本发明改进的算法针对上述步骤201～204进行具体描述。

图3是本发明提供的构建奖励模型的流程示意图，如图所示。所述步骤201中，对所述协同缓存系统构建奖励模型，包括：

步骤301，使用下载延迟的加权减少作为第m个边缘服务器缓存文件f的时间周期t的奖励。

假设一个有M个代理(即M个边缘服务器)的F“武装强盗”(即本发明所述系统缓存系统)，每个手臂和代理分别对应一个文件和一个服务器。在每个时间段内，代理都会选择几个要玩的武器，即边缘服务器会选择几个要缓存的文件，目的是最小化加权下载延迟。

具体的，本发明使用下载延迟的加权减少作为第m个服务器缓存文件f在时间周期t中的奖励。所述奖励的计算式，定义为：

步骤302，根据所述奖励，计算第m个边缘服务器缓存文件f的预期回报，并计算时间周期t第m个边缘服务器的历史缓存决策向量。

其中，第m个边缘服务器缓存文件f的预期回报是：

其中，在时间周期t中，第m个边缘服务器的历史缓存决策向量是：

根据所述历史缓存决策向量，所述奖励模型能够计算出缓存文件f的所有奖励值。

表示边缘服务器n在时间周期t中的用户集合，

表示用户u在时间t内请求文件f的次数，

表示与服务类型k相匹配的用户u的下载权重，

表示在时间t内用户u从源服务器下载文件f的下载延迟，

表示指示用户u是否从第m个服务器检索文件f，θ_u，f表示用户u请求文件f的次数的预估值，X¹表示缓存决策向量初始值，k_u表示用户u的服务类型，F表示缓存文件f的集合，

表示第m个服务器初始文件集，

表示在时间周期t内缓存在第m个边缘服务器中的文件集，

表示第m个服务器缓存文件f的奖励，

表示表示边缘第m个边缘服务器在时间周期t中缓存文件f的预期回报，

表示时间周期t中第m个边缘服务器的缓存决策向量历史。以下公式的有关参数说明同上，不再重复。

步骤303，基于所述奖励、所述预期回报以及所述历史缓存决策向量，得到以最大化长期范围内累积的预期缓存奖励为目标的主动缓存问题函数。

其中，所述预期缓存奖励是指在某一个时刻的某状态下，采取某个动作能够获得收益的期望，其是通过奖励值计算得到的。

可选的，在时间T内，基于第m个边缘服务器在时间周期t内缓存文件的奖励、预期回报以及所述第m个边缘服务器的历史缓存决策，得到以最大化长期范围内累积的预期缓存奖励为目标的主动缓存问题函数，所述主动缓存问题函数的计算式，定义如下：

其中，S_m表示服务器中存储容量，s_f表示文件f的大小。

通过构建所述奖励模型，目的是得到边缘服务器的最小化加权下载延迟，并通过减少下载延迟以达到提高缓存命中率的目的。

上述所述步骤202中，所述基于所述奖励模型，使用底层缓存决策变量的预期回报计算第m(m∈M)个边缘服务器的奖励值。

由于传统的Q学习算法中，Q表的空间是2^M+F，其是服务器数量和文件数量的指数，因此经典的多个边缘服务器的Q学习算法可能需要指数倍的步数来遍历Q表的所有值，效率极其低下。因此，本发明通过使用底层缓存决策变量的预期回报代替缓存决策向量的预期回报，即使用Q表的{Q_m，f(x_-m，f)|f∈F，x_-m，f∈χ-_m，f}代替

计算第m(m∈M)个边缘服务器的奖励值，以使每个边缘服务器的Q表的计算空间从2^M+F减少到F·2^M-1。

因此，替代Q表之后，对上述所述奖励值(即Q值)的计算式更新为：

其中，Q_m，f表示边缘第m个服务器缓存文件f的Q表值，

表示第m个边缘服务器在时间段t内观察到

的次数。

通过对上述Q表进行更新后，可有效地减少Q表空间降低的复杂性。

图4是本发明提供的评估其他边缘服务器当前策略的流程示意图，如图所示。上述所述步骤203中，基于所述奖励值，计算由第n(n∈M，n≠m)个边缘服务器选择的减少缓存决策向量的概率值，并根据所述概率值计算出第m个边缘服务器的预期奖励值，包括：

步骤401，第m个边缘服务器评估由其他边缘服务器选择的减少缓存决策向量的概率值。

由于第m个边缘服务器执行高速缓存决策向量的预期奖励需要取决于其他边缘服务器的当前策略，所以为了估计其他边缘服务器的当前策略，每个边缘服务器都会观察其他边缘服务器的历史缓存决策。

具体的，对于第m个边缘服务器，假设第n个边缘服务器(n∈M，n≠m)，将根据m关于n的当前经验(即，m的经验概率分布优先于n的缓存决策)来缓存文件。第m个边缘服务器将第n个边缘服务器的缓存选择的相对频率视为n当前策略的指示符。因此，第m个边缘服务器评估其他边缘服务器选择的所述减少缓存决策向量的概率值的计算式，定义为：

步骤402，根据所述概率值，计算第m个边缘服务器缓存文件f的预期奖励。

其中，第m个边缘服务器缓存文件f的预期奖励Q_m，f的计算式，定义为：

其中，Pr_m(x_-m，f)表示第m个边缘服务器在时间段t中观察到的减少缓存决策向量的概率值，Pr_m,n,f表示第m个边缘服务器假设第n个边缘服务器缓存文件f的概率，x_-m,f表示第m个边缘服务器观察到的减少缓存决策向量，Q_m,f表示第m个边缘服务器缓存文件f的预期奖励值(即Q表值)。

由此可知，虽然第m个边缘服务器当前具有所有减少的高速缓存决策向量的Q值，但是执行高速缓存决策向量的预期奖励取决于其他服务器的当前策略，因此需要通过执行上述步骤401～402估计其他边缘服务器的当前策略。

图5是本发明提供的计算最佳缓存决策向量的流程示意图，如图所示。上述所述步骤204中，所述根据所述预期奖励值计算出偏置奖励值，并将所述偏置奖励值作为所述主动缓存问题函数的输入，得到最佳缓存决策向量，以实现所述最大化长期范围内累积的预期缓存奖励，包括：

步骤501，根据所述第m个边缘服务器缓存文件f的预期奖励以及第m个边缘服务器缓存文件f的次数，计算偏置奖励值(即偏置Q值)。

其中，所述偏置奖励值的计算式，定义为：

其中，

l表示一个跟第m个边缘服务器缓存文件i相关的常量，Q_m，i表示第m个边缘服务器缓存文件i的偏置奖励值，s_i表示文件i的容量，

表示第m个边缘服务器缓存文件f的偏置奖励值，C_m，f表示第m个边缘服务器缓存文件f的次数。

步骤502，将所述偏置奖励值作为所述主动缓存问题函数的输入，得到最佳缓存决策向量

其中，将偏置的Q值作为输入来寻找最佳缓存决策向量

计算

的问题是0-1背包问题可以重写如下：

其中，x_m，f表示第m个边缘服务器缓存文件f的缓存决策向量，x_m，f表示任意的第m个边缘服务器缓存文件f的缓存决策向量；

通过贪婪算法设定目标函数值，求得最佳缓存决策向量

上述背包问题(Knapsack problem)是一种组合优化的NP完全问题。问题可以描述为：给定一组物品，每种物品都有自己的重量和价格，在限定的总重量内，我们如何选择，才能使得物品的总价格最高。各类复杂的背包问题可以变换为简单的0-1背包问题进行求解。

步骤503，通过贪婪算法设定目标函数值，求得最佳缓存决策向量

以实现所述最大化长期范围内累积的预期缓存奖励。

已知0-1背包问题是NP难的。

的精确解决方案需要巨大的计算资源。因此，本发明采用具有低复杂度的贪婪算法求近似解

其中，x_m表示第m个边缘服务器的最佳决策向量，

表示第m个边缘服务器的初始偏置Q值，

表示第m个边缘服务器的最后一次有效偏置Q值。

贪婪算法以可行解x_m＝(0，0,...,0)^T开始，并依次用零替换零，如果每次这样的改变都不会破坏可行性，便从Q_m,f/s_f值最大的开始。当获得最后的可行解时，该过程终止。

具体的，贪婪算法构造了一系列可行的解决方案，单调地增加了目标函数值，最后一个可行的解决方案是贪心解x_m。可通过以下列方式获得解x_m。本发明根据

按降序排序

令

对于k＝2,...F有：

其中，

表示第m个边缘服务器缓存任意文件f时的任意最佳缓存向量，

表示除去初始文件外的任意文件f的容量，

表示任意文件f的容量，

表示第m个边缘服务器缓存除去初始文件外的任意文件f时的任意最佳缓存向量。

设

是最优算法的目标函数值与贪心算法的目标函数值之间的比率，有：

即贪婪算法至少可以实现最优目标函数值的1/2。另外，如果最大文件大小小于存储容量，则δ≈1。

具体的，

表示第m个边缘服务器缓存文件f时的任意最佳缓存向量。将上一次的贪心算法值作为下一次的最优算法值，并且贪心算法值与最优算法比值不能小于0，如此反复计算比较，直到出现低于0的比值时，将上一个贪心算法值作为最佳决策向量

所述最佳决策向量

是一个反复变化的过程，即最佳缓存决策向量

是一个持续变化的过程量，可根据不同的文件、时间、用户和服务器的情况不停变化。最终决策向量

会体现在Q表中的Q值不断变化，文件缓存位置则根据Q表中的最佳路径进行选择。

综上所述，本发明所述多接入边缘计算的系统存储方法，是基于Q学习的主动协调存储方案，当内容流行度和用户偏好的先验信息未知时，通过利用组合多代理(一个代理对应一个边缘服务器)强化学习，在MEC边缘服务器中设计协调内容缓存方案。由于所述边缘服务器的服务存在差异性，本发明使用加权减少下载延迟作为奖励，旨在最大化长期范围内累积的预期缓存奖励。MEC边缘服务器与其他MEC边缘服务器一起学习自己的缓存决策的奖励值(Q值)，并提出了一种组合上限置信区间算法(CUCB)来有效地减少Q表空间降低复杂性，从而显着减少内容下载延迟，并提高内容缓存命中率。

下面对本发明提供的多接入边缘计算的协同存储系统进行描述，下文描述的多接入边缘计算的协同存储系统与上文描述的多接入边缘计算的协同存储方法可相互对应参照。

图6是本发明提供的多接入边缘计算的协同存储系统的结构示意图，如图所示。一种多接入边缘计算的协同存储系统600，应用于服务器端，服务器端包括由M个边缘服务器组成协同缓存系统，包括奖励模型构建模块610、奖励值计算模块620、预期奖励值计算模块630以及最佳缓存决策向量计算模块640。

奖励模型构建模块610，用于对所述协同缓存系统构建奖励模型，所述奖励模型包括以最大化长期范围内累积的预期缓存奖励为目标的主动缓存问题函数。

奖励值计算模块620，用于基于所述奖励模型，使用底层缓存决策变量的预期回报计算第m(m∈M)个边缘服务器的奖励值。

预期奖励值计算模块630，用于基于所述奖励值，计算由第n(n∈M，n≠m)个边缘服务器选择的减少缓存决策向量的概率值，并根据所述概率值计算出第m个边缘服务器的预期奖励值。

最佳缓存决策向量计算模块640，用户根据所述预期奖励值计算出偏置奖励值，并将所述偏置奖励值作为所述主动缓存问题函数的输入，得到最佳缓存决策向量，以实现所述最大化长期范围内累积的预期缓存奖励。

奖励模型构建模块610，用于执行如下步骤：

其中，所述奖励的计算式，定义为：

所述预期回报的计算式，定义为:

所述历史缓存决策向量的计算式，定义为：

所述主动缓存问题函数的计算式，定义为：

表示边缘服务器n在时间周期t中的用户集合，

表示用户u在时间t内请求文件f的次数，

表示与服务类型k相匹配的用户u的下载权重，

表示在时间t内用户u从源服务器下载文件f的下载延迟，

表示指示用户u是否从第m个服务器检索文件f，θ_u,f表示用户u请求文件f的次数的预估值，X¹表示缓存决策向量初始值，k_u表示用户u的服务类型，F表示缓存文件f的集合，

表示第m个服务器初始文件集，

表示在时间周期t内缓存在第m个边缘服务器中的文件集，

表示第m个服务器缓存文件f的奖励，

表示时间周期t中第m个边缘服务器的缓存决策向量历史。

预期奖励值计算模块630，还用于执行如下步骤：

将所述奖励值的计算式更新为：

其中，Q_m,f表示边缘第m个服务器缓存文件f的Q表值，

表示第m个边缘服务器在时间段t内观察到

的次数。

其中，所述减少缓存决策向量的概率值的计算式，定义为：

；

其中，Pr_m(x_-m,f)表示第m个边缘服务器在时间段t中观察到的减少缓存决策向量的概率值，Pr_m,n,f表示第m个边缘服务器假设第n个边缘服务器缓存文件f的概率，x_-m,f表示第m个边缘服务器观察到的减少缓存决策向量，Q_m,f表示第m个边缘服务器缓存文件f的预期奖励值(即Q表值)。

其中，所述偏置奖励值的计算式，定义为：

其中，

最佳缓存决策向量计算模块640，还用于执行如下步骤：

根据所述偏置奖励值计算最佳缓存决策向量

计算

的主动缓存问题函数，如下：

通过贪婪算法设定目标函数值，求得最佳缓存决策向量

图7是本发明提供的协同存储方法应用于客户端的流程示意图，如图所示。一种多接入边缘计算的协同存储方法，应用于客户端，包括：

步骤701，向边缘服务器发送内容需求的下载请求。

比如，用户想向边缘服务器下载某个视频等。

步骤702，收到由边缘服务器返回的所述下载请求对应的文件信息，所述边缘服务器是根据预设协同存储方法返回所述文件信息。

所述边缘服务器在内容流行度和用户偏好的先验信息未知的情况下，通过组合多代理强化学习，在MEC边缘服务器中设计协调内容缓存方案，可显著提高内容缓存命中率、减少内容下载的延迟。

可选的，所述预设协同存储方法包括：

图8示例了一种电子设备的实体结构示意图，如图8所示，该电子设备可以包括：处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行所述多接入边缘计算的协同存储方法，所述方法应用于服务器端，服务器端包括由M个边缘服务器组成协同缓存系统，包括：

此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的所述多接入边缘计算的协同存储方法，所述方法应用于服务器端，服务器端包括由M个边缘服务器组成协同缓存系统，包括：

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的所述多接入边缘计算的协同存储方法，所述方法应用于服务器端，服务器端包括由M个边缘服务器组成协同缓存系统，包括：

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。