CN114025017B

CN114025017B - 基于深度循环强化学习的网络边缘缓存方法、装置及设备

Info

Publication number: CN114025017B
Application number: CN202111284077.2A
Authority: CN
Inventors: 徐海涛; 孙悦隽; 邬惠峰; 戴翚
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2021-11-01
Filing date: 2021-11-01
Publication date: 2024-04-16
Anticipated expiration: 2041-11-01
Also published as: CN114025017A

Abstract

本发明提供一种基于深度循环强化学习的网络边缘缓存方法、装置及设备，在该方法中，通过采集获取当前时隙之前的连续多个时隙的系统状态信息，将多个时隙的系统状态信息输入深度循环神经网络中进行缓存动作选择处理，得到目标缓存动作，根据目标缓存动作执行缓存替换操作。其中深度循环神经网络是预先训练的用于根据多个连续时隙的系统状态信息确定缓存动作的计算模型，本方案中的深度循环神经网络利用多个连续时隙系统状态信息中的内容流行度进行计算，并且在缓存动作选择时考虑到缓存时间和缓存替换时从相邻边缘服务器获取还是从远程云数据中心获取，提高了缓存准确率，降低了缓存超时存储成本和缓存替换成本。

Description

基于深度循环强化学习的网络边缘缓存方法、装置及设备

技术领域

本发明涉及边缘计算和深度学习技术，尤其涉及一种基于深度循环强化学习的网络边缘缓存方法、装置及设备。

背景技术

随着第五代移动通信技术(5th Generation Mobile CommunicationTechnology，简称：5G)的发展，互联网接入设备和网络流量日益增多，边缘服务器通过边缘缓存提供计算和缓存服务，可以有效减缓回程链路的拥塞和延迟。

现有技术中，边缘缓存是通过采集系统信息，使用最近最少使用(Least RecentlyUsed，简称：LRU)算法进行缓存动作选择，即选择将上一时隙用户访问内容与边缘缓存服务器中最近最少使用的缓存内容进行替换的缓存动作，边缘服务器根据缓存动作执行缓存替换操作。若内容流行度发生变化，则边缘服务器中的缓存内容会与用户想要访问的内容有较大差别。

综上所述，现有的边缘缓存方法使用的LRU算法是一种静态方法，采用的是上一时隙用户访问内容进行缓存替换的，当内容流行度发生变化时，目前采用的边缘缓存方法使用的边缘服务器中的缓存内容仍是之前用户的访问内容，与用户想要访问的内容不同，之后边缘缓存服务器只能从相邻服务器或者云数据中心获取内容进行缓存替换，再将内容发送给用户，导致缓存准确率较低，缓存超时存储成本较高，缓存替换成本较高。

发明内容

本发明实施例提供一种基于深度循环强化学习的网络边缘缓存方法、装置及设备，用于解决现有技术中缓存准确率较低，缓存超时存储成本较高，缓存替换成本较高的问题。

第一方面，本发明实施例提供一种基于深度循环强化学习的网络边缘缓存方法，应用于边缘服务器，所述方法包括：

采集获取当前时隙之前的连续多个时隙的系统状态信息，每个时隙对应的系统状态信息包括所述时隙的内容流行度和所述边缘服务器缓存的内容；

将所述多个时隙的系统状态信息输入深度循环神经网络中进行缓存动作选择处理，得到目标缓存动作；其中，所述深度循环神经网络是预先训练的用于根据多个连续时隙的系统状态信息确定缓存动作的计算模型；

根据所述目标缓存动作执行缓存替换操作。

在一种具体的实施方式中，所述采集获取当前时隙之前的连续多个时隙的系统状态信息之前，所述方法还包括：

从重放缓冲池中获取预设数量的训练数据，所述重放缓冲池中包括预先获取的多组训练数据，每组训练数据中包括一时隙之前采集的多个连续时隙的系统状态信息，边缘服务器执行的缓存动作，所述缓存动作对应的奖励值以及所述时隙的下一个时隙系统状态；

根据所述预设数量的训练数据以及初始神经网络进行模型训练直至损失值小于预设阈值，得到所述深度循环神经网络。

在一种具体的实施方式中，从重放缓冲池中获取预设数量的训练数据之前，所述方法还包括：

针对多个采集时隙中的每个时隙，采集所述时隙之前多个连续时隙的系统状态信息；

随机选择一个随机数，若所述随机数大于预设的初始选择因子，则根据所述多个连续时隙的系统状态信息和初始神经网络选择一个缓存动作；

执行所述缓存动作，获取对应的奖励值和所述时隙的下一个时隙的系统状态；

将所述时隙之前多个连续时隙的系统状态信息，执行的所述缓存动作，所述奖励值，所述时隙的下一个时隙的系统状态作为一组训练数据放入所述重放缓冲池。

在一种具体的实施方式中，所述根据所述预设数量的训练数据以及初始神经网络进行模型训练直至损失值小于预设阈值，得到所述深度循环神经网络，包括：

根据所述预设数量的训练数据，Q网络和固定Q网络计算得到损失值；

若损失值大于或等于所述预设阈值，则根据所述奖励值更新所述Q网络的权重，并在所述Q网络的权重更新次数达到预设次数后更新所述固定Q网络的权重；

根据更新后的Q网络的权重，对所述初始神经网络模型进行训练，得到训练后的神经网络；

重新从所述重放缓冲池中获取预设数量的训练数据，根据新获取的预设数量的训练数据，更新后的Q网络，更新后的固定Q网络计算新的损失值，若新的损失值小于预设阈值，则得到深度循环神经网络，若新的损失值不小于预设阈值，则根据新的奖励值更新Q网络的权重，并在所述Q网络的权重更新次数达到预设次数后更新固定Q网络的权重，再根据更新后的Q网络的权重再次进行神经网络训练，重复本步骤直至所述损失值小于所述预设阈值，得到深度循环神经网络。

在一种具体的实施方式中，所述根据更新后的Q网络的权重，对所述初始神经网络模型进行训练，得到训练后的神经网络之后，所述方法还包括：

判断所述选择因子是否大于预设的选择因子最小值；

若所述选择因子大于所述选择因子最小值，则对所述选择因子乘以预设系数，得到新的选择因子，所述预设系数大于0且小于1。

在一种具体的实施方式中，所述执行所述缓存动作，获取对应的奖励值，包括：

检测确定所述边缘服务器的缓存内容中是否包含用户访问到的缓存内容信息；

所述边缘服务器的缓存内容中包含所述缓存内容信息，则获取第一奖励值；

若所述边缘服务器的缓存内容中不包含所述缓存内容信息，且与所述边缘服务器相邻的服务器的缓存内容中包含所述缓存内容信息，则获取第二奖励值；

若所述边缘服务器的缓存内容中不包含所述缓存内容信息，且与所述边缘服务器相邻的服务器的缓存内容中也不包含所述缓存内容信息，则获取第三奖励值；

若所述边缘服务器在所述时隙缓存内容中除所述缓存内容信息外的内容与在所述前一个时隙时缓存内容除所述前一时隙内用户访问到的缓存内容信息之外的内容有共同的缓存内容，则获取所述时隙对应的超时存储损失；

若所述边缘服务器在所述时隙执行缓存替换，则获取缓存替换损失；

根据所述第一奖励值、所述第二奖励值，所述第三奖励值，所述超时存储损失、所述缓存替换损失计算得到所述奖励值。

第二方面，本发明实施例提供一种基于深度循环强化学习的网络边缘缓存装置，包括：

获取模块，用于采集获取当前时隙之前的连续多个时隙的系统状态信息，每个时隙对应的系统状态信息包括所述时隙的内容流行度和所述边缘服务器缓存的内容；

第一处理模块，用于将所述多个时隙的系统状态信息输入深度循环神经网络中进行缓存动作选择处理，得到目标缓存动作；其中，所述深度循环神经网络是预先训练的用于根据多个连续时隙的系统状态信息确定缓存动作的计算模型；

第二处理模块，用于根据所述目标缓存动作执行缓存替换操作。

第三方面，本发明实施例提供一种边缘服务器，包括：

处理器，存储器，通信接口；

所述存储器用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行第一方面任一项提供的基于深度循环强化学习的网络边缘缓存的处理方法。

第四方面，本发明实施例提供一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面任一项提供的基于深度循环强化学习的网络边缘缓存的处理方法。

第五方面，本发明实施例提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时用于实现第一方面任一项提供的基于深度循环强化学习的网络边缘缓存的处理方法

本发明实施例提供的基于深度循环强化学习的网络边缘缓存方法、装置及设备，通过采集获取当前时隙之前的连续多个时隙的系统状态信息，将所述多个时隙的系统状态信息输入深度循环神经网络中进行缓存动作选择处理，得到目标缓存动作，根据所述目标缓存动作执行缓存替换操作。其中所述深度循环神经网络是预先训练的用于根据多个连续时隙的系统状态信息确定缓存动作的计算模型，该深度循环神经网络利用多个连续时隙系统状态信息中的内容流行度进行计算，并且在缓存动作选择时考虑到缓存时间和缓存替换时从相邻边缘服务器获取还是从远程云数据中心获取，提高了缓存准确率，降低了缓存超时存储成本和缓存替换成本。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的基于深度循环强化学习的网络边缘缓存方法的应用场景示意图；

图2为本发明提供的基于深度循环强化学习的网络边缘缓存存方法实施例一的流程示意图；

图3为本发明提供的基于深度循环强化学习的网络边缘缓存方法实施例一的时隙划分示意图；

图4为本发明提供的基于深度循环强化学习的网络边缘缓存方法实施例二的流程示意图；

图5为本发明提供的基于深度循环强化学习的网络边缘缓存方法实施例二的深度循环神经网络与环境交互示意图；

图6为本发明提供的基于深度循环强化学习的网络边缘缓存装置实施例的结构示意图；

图7为本发明提供的一种边缘服务器的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在根据本实施例的启示下作出的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

随着5G的发展，互联网接入设备和网络流量日益增多，边缘服务器通过边缘缓存提供计算和缓存服务，边缘缓存方法可以利用边缘服务器的一部分存储空间来缓存内容，可以有效减缓网络的拥塞和延迟。

由于现有的边缘缓存方法，是通过采集系统信息，使用最近最少使用(LeastRecently Used，简称：LRU)算法进行缓存动作选择，即选择将上一时隙用户访问内容与边缘缓存服务器中最近最少使用的缓存内容进行替换的缓存动作，边缘服务器根据缓存动作执行缓存替换操作。

当内容流行度发生变化时，目前采用的边缘缓存方法使用的边缘服务器中的缓存内容仍是之前用户的访问内容，与用户想要访问的内容不同，之后边缘缓存服务器只能从相邻服务器或者云数据中心获取内容进行缓存替换，再将内容发送给用户，导致缓存准确率较低，缓存超时存储成本较高，缓存替换成本较高。

针对现有技术中存在的问题，发明人提出一种端到端双深度循环Q网络(DoubleDeep Recurrent Q Network，简称：DDRQN)边缘缓存方法来最小化边缘缓存系统的系统成本以获取最大的系统收益。该方法基于边缘缓存系统中的网络通信的成本、缓存超时存储的成本和缓存替换的成本，将边缘缓存问题建模为马尔可夫决策过程(Markov DecisionProcess，简称：MDP)，并将MDP中的系统状态替换为由多时隙的历史状态和当前状态共同组成的状态矩阵。同时使用门控循环单元(Gated Recurrent Unit，简称：GRU)模块来学习历史状态中的内容流行度信息，并做出缓存动作选择。最后再通过系统奖励来评判缓存动作选择的优劣，以此让边缘服务器智能地调整缓存方案，来获取最大的系统收益。该方法可以提高缓存准确率，降低缓存超时存储成本和缓存替换成本。基于上述发明构思，设计了本发明的边缘缓存方案。

示例性的，图1为本发明提供的基于深度循环强化学习的网络边缘缓存方法的应用场景示意图。如图1所示，该应用场景可以包括：至少两个边缘服务器(图1示出了三个边缘服务器，分别为边缘服务器12、边缘服务器13、边缘服务器14)、远程云数据中心11。

示例性的，在图1所示的应用场景中，远程云数据中心可以接收来自边缘服务器的访问请求，将访问数据发送给边缘服务器。

边缘服务器12可以向远程云数据中心发送访问请求，也可以向其相邻的边缘服务器13发送访问请求，可以将接收来自远程云数据中心的数据，也可以接收来自边缘服务器13的数据。

可以理解的是，远程云数据中心可以是服务器，也可以是机房，本发明实施例不对远程云数据中心的具体形态进行限定，可以根据实际需求确定。

除此之外，在该基于深度循环强化学习的网络边缘缓存方法的具体应用过程中，还涉及到与用户之间的交互，因此，该场景中还可以包括：至少一个终端设备(图1示出了7个终端设备，分别为终端设备15、终端设备16、终端设备17、终端设备18、终端设备19、终端设备20、终端设备21)

用户通过终端设备15可以向边缘服务器12发送访问请求，终端设备15也可以接收来自边缘服务器12的数据。

可以理解的是，终端设备可以是智能手机，也可以是电脑，还可以是智能电视，本发明实施例不对终端设备的具体形态进行限定，可以根据实际需求确定。

下面，通过具体实施例对本发明的技术方案进行详细说明。需要说明的是，下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。

图2为本发明提供的基于深度循环强化学习的网络边缘缓存方法实施例一的流程示意图，如图2所示，该基于深度循环强化学习的网络边缘缓存方法具体包括以下步骤：

S201：采集获取当前时隙之前的连续多个时隙的系统状态信息，每个时隙对应的系统状态信息包括时隙的内容流行度和边缘服务器缓存的内容。

边缘服务器具有存储功能，可以存储内容流行度和缓存内容。因而，在本实施例中，边缘服务器可以采集获取当前时隙之前的连续多个时隙的系统状态信息，该系统状态信息包括所述时隙的内容流行度、所述边缘服务器缓存的内容和用户在所述时隙上一时隙访问的内容信息。

具体的，在本步骤中，边缘服务器可以在一定的触发条件下采集获取系统信息，例如，在有用户访问时进行触发，也可以实时采集系统信息。本发明实施例并不对边缘服务器采集获取系统信息的触发方式或采集方式进行限定，可根据实际情况确定。

S202：将多个时隙的系统状态信息输入深度循环神经网络中进行缓存动作选择处理，得到目标缓存动作；其中，深度循环神经网络是预先训练的用于根据多个连续时隙的系统状态信息确定缓存动作的计算模型。

在本实施例中，深度循环神经网络是利用多个连续时隙的系统状态来进行训练的，训练完成后输入多个时隙的系统状态信息，可以得到缓存动作。该深度循环神经网络的训练过程中，考虑到多时隙的系统状态信息和奖励值，根据系统状态信息经神经网络可得到缓存动作，边缘服务器执行缓存动作并得到奖励值和下一时隙的系统状态信息，根据奖励值进行神经网络训练。在奖励值的获取过程中，综合考虑了边缘服务器缓存到用户访问的内容的奖励值、缓存超时存储损失和缓存替换损失。相比于现有技术只考虑将指示上一时隙用户访问的内容与边缘缓存服务器中最近最少使用的缓存内容进行缓存替换的动作作为缓存动作，缓存准确率更高，缓存超时存储成本和缓存替换成本更低。

在本步骤中，边缘服务器在采集获取到当前时隙之前的连续多个时隙的系统状态信息之后，可以将这些连续多个时隙的系统状态信息输入深度循环神经网络中进行处理，深度循环神经网络会选择一个缓存动作作为目标缓存动作，这个目标缓存动作是边缘服务器确定出的对用户最有可能访问的内容进行缓存的一个动作。作为一种示例，深度循环网络将用户最有可能访问的内容按照概率进行排序，并且指示边缘服务器按照概率大小依次进行缓存的动作即为目标缓存动作。

在该方案的具体实现中，缓存动作可以指示边缘服务器执行缓存替换操作。示例性的，缓存动作可以通过如下方式中的任意一种或两种方式的组合形式实现：

作为一种示例，缓存动作可以是指示边缘服务器通过获取其相邻的边缘服务器的缓存内容的动作。

作为另外一种示例，缓存动作可以是指示边缘服务器通过获取远程云数据中心的缓存内容的动作。

S203：根据目标缓存动作执行缓存替换操作。

在本实施例中，边缘服务器得到来自深度循环神经网络的缓存动作后，进行缓存替换操作。具体的缓存替换操作可以通过如下方式中的任意一种或两种方式的组合形式实现：

第一种方式，将其自身的缓存内容替换为其相邻的边缘服务器的缓存内容。

第二种方式，将其自身的缓存内容替换为远程云数据中心的缓存内容。

需要说明的是，本发明实施例中的每个时隙t划分为r_t和c_t两个不同的阶段，如图3所示，边缘服务器在r_t阶段收集用户访问内容信息、系统状态信息并执行内容分发，在c_t阶段执行深度循环神经网络的推理和执行缓存动作。

本发明实施例提供给的基于深度循环强化学习的网络边缘缓存方法，采用多时隙的系统状态信息经过深度循环网络进行缓存动作的选择时，是利用多时隙系统状态信息中的内容流行度进行综合评判的，与现有技术中将指示上一时隙用户访问的内容与边缘缓存服务器中最近最少使用的缓存内容进行缓存替换的动作作为缓存动作相比，缓存准确率更高。另外，在进行缓存动作选择时，还综合考虑了边缘服务器缓存到用户访问的内容的奖励值、缓存超时存储损失和缓存替换损失，与现有技术相比，缓存超时存储成本和缓存替换成本更低。

在上述实施例的基础上，图4为本发明提供的基于深度循环强化学习的网络边缘缓存方法实施例二的流程示意图。如图4所示，在本实施例中，上述步骤S202中的深度循环神经网络的训练可以通过如下步骤实现：

S401：预设初始的选择因子、选择因子最小值，选择因子系数、第一奖励值、第二奖励值、第三奖励值、超时存储因子、重放缓冲池、损失阈值、初始的Q网络、固定Q网络。

在本实施例中，预设初始的选择因子、选择因子最小值、选择因子系数、的范围是在0到1之间，此范围不包括0和1，初始的选择因子大于选择因子最小值。预设的重放缓冲池中存放训练数据。预设初始的Q网络、固定Q网络时通过随机初始化进行的。

S402：针对多个采集时隙中的每个时隙，采集时隙之前多个连续时隙的系统状态信息。

在本实施例中，边缘服务器具有存储功能，可以存储内容流行度和缓存内容。因而，在本实施例中，边缘服务器可以采集获取当前时隙之前的连续多个时隙的系统状态信息，该系统状态信息包括所述时隙的内容流行度、所述边缘服务器缓存的内容和用户在所述时隙上一时隙访问的内容信息。

在本实施例中，内容流行度反映了缓存内容的受欢迎程度，示例性的，内容流行度越高，代表此缓存内容的受欢迎程度越高，进而此缓存内容被用户访问的可能性越高。

S403：随机选择一个随机数，将其与预设的初始的选择因子作比较，并根据比较结果进行缓存动作选择。

在本实施例中，在0到1之间随机选择一个随机数，此范围不包括0和1，将所述随机数与所述初始选择因子进行大小比较，如果所述随机数大于所述初始选择因子，则边缘服务器通过所述多个连续时隙的系统状态信息和初始神经网络选择一个缓存动作；如果所述随机数小于或等于所述初始选择因子，则边缘服务器随机选择一个缓存动作。

具体的，边缘服务器通过所述多个连续时隙的系统状态信息和初始神经网络选择一个缓存动作时，初始神经网络将不同类型的内容被选择作为缓存内容的概率进行大小排序，边缘服务器就可以根据系统状态信息和所述概率选择缓存动作。

S404：执行缓存动作，获取对应的奖励值和时隙的下一个时隙的系统状态，将训练数据放入重放缓冲池。

在本实施例中，边缘服务器得到缓存动作后，进行缓存替换操作。具体的缓存替换操作通过如下方式中的任意一种或两种方式的组合形式实现：

在本实施例中，奖励值可通过如下方式获取：

边缘服务器检测确定所述边缘服务器的缓存内容中是否包含用户访问到的缓存内容信息，若所述边缘服务器的缓存内容中包含所述缓存内容信息，则获取第一奖励值；若所述边缘服务器的缓存内容中不包含所述缓存内容信息，且与所述边缘服务器相邻的服务器的缓存内容中包含所述缓存内容信息，则获取第二奖励值；若所述边缘服务器的缓存内容中不包含所述缓存内容信息，且与所述边缘服务器相邻的服务器的缓存内容中也不包含所述缓存内容信息，则获取第三奖励值；

可以理解的是，为了使边缘服务器更加倾向于缓存更流行的内容，更加符合用户访问内容，提高缓存准确率，预设的所述第一奖励值大于所述第二奖励值，所述第二奖励值大于所述第三奖励值。

具体的，根据所述共同的缓存内容中的具体内容得到相应的内容大小值，将相应的内容大小值乘以超时存储因子，再将他们相加即可得到超时存储损失。

在一种具体实现中，超时存储损失的计算如下：

其中，和/>分别是t-1时隙和t时隙边缘服务器缓存了却没有被访问的内容对应的内容大小值集合，f_j为内容大小值，α为超时存储因子，C_RED为超时存储损失。

可以理解的是，根据所述共同的缓存内容中的具体内容得到相应的内容大小值时，可以根据具体内容占用的存储空间大小来得到相应的内容大小值，也可以将根据具体内容设定一个固定的内容大小值，本发明实施例并不对根据所述共同的缓存内容中的具体内容得到相应的内容大小值的方式进行限定。另外，本实施例中的超时存储因子用来反映存储的重要性，超时存储因子越大，边缘服务器中缓存了却没有被用户访问的内容越少，预设的超时存储因子大于0。

具体的，在边缘服务器执行缓存替换时，需要替换的内容缓存在相邻边缘服务器中或者缓存在远程云数据中心中，如果边缘服务器将自身内容替换为相邻边缘服务器的缓存内容，则获取第一缓存替换损失，如果边缘服务器将自身内容替换为远程云数据中心的缓存内容，则获取第二缓存替换损失；将所述第一缓存损失与所述第二缓存损失相加即可得到缓存替换损失。

在一种具体实现中，缓存替换损失的计算如下：

其中，D^repl为t时隙的执行缓存替换时替换内容集合，d为需要替换的内容，如果d缓存在相邻边缘服务器S_i中，则λ＝0；否则，λ＝1。为第二缓存替换损失，/>为第一缓存替换损失，C_REPL为缓存替换损失。

可以理解的是，为了使边缘缓存服务器降低缓存替换成本，所述第一缓存损失小于所述第二缓存损失。

具体的，将所述第一奖励值加上第二奖励值加上第三奖励值减去超时存储损失减去缓存替换损失即可得到奖励值。

在一种具体实现中，奖励值的计算如下：

其中，R_hit为第一奖励值，R_e为第二奖励值，R_c为第三奖励值，C_RED为缓存超时存储损失，C_REPL为缓存替换损失，为奖励值。

在本实施例中，缓冲池中的一组训练数据是由将所述时隙之前多个连续时隙的系统状态信息，执行的所述缓存动作，所述奖励值，所述时隙的下一个时隙的系统状态组成。

S405：从重放缓冲池中获取预设数量的训练数据，根据预设数量的训练数据以及初始神经网络进行模型训练直至损失值小于预设阈值，得到深度循环神经网络。

在本实施例中，从重放缓冲池中获取预设数量的训练数据，根据所述预设数量的训练数据，Q网络和固定Q网络计算得到损失值。

在一种具体的实现中，损失值的计算如下：

首先计算其中，j为从重放缓冲池中获取预设数量的训练数据的批次，δ_j为N*1维矩阵，N为从重放缓冲池中获取的训练数据的预设数量，/>为第j次获取到的N个训练数据中的奖励值构成的N*1维矩阵，γ为预设的折扣因子，Q′为固定Q网络对应的函数，Q为Q网络对应的函数，/>为第j次获取到的N个训练数据中的系统状态信息构成的具有N行的矩阵，/>为第j次获取到的N个训练数据中的缓存动作构成的具有N行的矩阵，特别的，/>为从预设的重放缓冲池随机获取到的N个训练数据中的系统状态信息构成的具有N行的矩阵，/>为从预设的重放缓冲池随机获取到的N个训练数据中的缓存动作构成的具有N行的矩阵，/>为使得/>得到的矩阵中每一行都取最大值的矩阵a。

得到δ_j后，取其中的N个数值的平均值即可得到损失值。

可以理解的是，本实施例中的重放缓冲池中的数据可以是第一次将训练数据放入预设的重放缓冲池后的数据，也可以是多次训练后将训练数据放入预设的重放缓冲池后的数据，本实施例并不对其进行限定。此外，从重放缓冲池中获取预设数量的训练数据是随机获取的，并不对其获取的数据进行限定。

在本实施例中，若损失值小于预设阈值，则得到深度循环神经网络，若损失值不小于预设阈值，则根据所述奖励值更新所述Q网络的权重，并在所述Q网络的权重更新次数达到预设次数后更新所述固定Q网络的权重。

具体的，边缘服务器根据所述奖励值更新所述Q网络的权重，如果在所述Q网络的权重更新次数达到预设次数后，将更新后的Q网络权重作为新的固定Q网络权重。

在本实施例中，根据更新后的Q网络的权重，对所述初始神经网络模型进行训练，得到训练后的神经网络；

具体的，根据更新后的Q网络权重，可以得到新的不同类型的内容被选择作为缓存内容的概率值，所述初始神经网络模型按照新的不同类型的内容被选择作为缓存内容的概率进行大小排序，即得到训练后的神经网络。

在本实施例中，得到训练后的神经网络之后，更新选择因子。

具体的，判断所述初始选择因子是否大于预设的选择因子最小值，若所述初始选择因子大于所述选择因子最小值，则对所述初始选择因子乘以预设选择因子系数，得到新的选择因子，所述预设系数大于0且小于1，若述初始选择因子小于或等于所述选择因子最小值，则将所述初始选择因子作为新的选择因子。

在本实施例中，针对多个采集时隙中的每个时隙，重新采集所述时隙之前多个连续时隙的系统状态信息，重新选择一个随机数，若随机数大于更新后的选择因子，则根据新的系统状态信息和训练后的神经网络选择一个缓存动作，若随机数小于或等于更新后的选择因子，则随机选择缓存动作，边缘服务器执行缓存动作，获取奖励值和所述时隙的下一个时隙的系统状态，将训练数据放入所述重放缓冲池中，重新从所述重放缓冲池中获取预设数量的训练数据，根据新获取的预设数量的训练数据，更新后的Q网络，更新后的固定Q网络计算新的损失值，若新的损失值小于预设阈值，则得到深度循环神经网络，若新的损失值不小于预设阈值，则根据新的奖励值更新Q网络的权重，并在所述Q网络的权重更新次数达到预设次数后更新固定Q网络的权重，再根据更新后的Q网络的权重再次进行神经网络训练，更新选择因子，重复本步骤直至所述损失值小于所述预设阈值，得到深度循环神经网络。

本实施例使用多个时隙的系统状态矩阵取代现有技术的单个系统状态，使边缘服务器能观察到多步的历史信息，同时使用GRU模块从多步的历史信息中学习内容流行度的时变特性，比现有的技术更好地观察内容流行度的变化。使用Double机制，解决了原始DQN算法Q值高估的问题，使边缘服务器更加鲁棒。使用动态的ε贪婪算法，让边缘服务器在训练的初期更多地选择探索未知的缓存动作，边缘智能体在训练的后期随着网路的收敛更多地选择当前已知的最优缓存动作，这平衡了强化学习中探索和利用的问题，使算法更快收敛。

本实施例不单单只考虑边缘服务器的缓存内容中是否包含用户访问到的缓存内容信息的问题，而同时考虑了缓存超时存储损失和缓存替换损失。后两者的考虑突出了边缘计算问题中边缘服务器计算能力和存储容量有限的特点。对于只考虑边缘服务器的缓存内容中是否包含用户访问到的缓存内容信息的问题的现有的边缘缓存方法，随着边缘服务器的存储容量上升，边缘服务器的缓存内容中包含用户访问到的缓存内容信息的概率必定同时上升，很难考虑边缘服务器存储容量有限的特性。本实施例设置奖励值，随着边缘服务器存储容量的上升，第一、第二和第三奖励值虽然也在上升，但是同时缓存超时存储损失会上涨，即更多的内容作为无效内容缓存在边缘服务器，导致总的系统奖励下降。因此本实施例能更好地在考虑有限的存储容量下权衡总的损失值。

下面通过一个具体的示例，来对本发明实施例提供的基于深度循环强化学习的网络边缘缓存方法进行示例说明。

本实施例同时训练3个边缘服务器，这3个边缘服务器之间互为相邻边缘服务器。深度循环神经网络和环境的交互如图5所示。其中使用了DDRQN方法深度循环神经网络输入层为GRU层，且神经网络一共有两层，后一层为全连接层。首先使用边缘服务器上收集的历史数据训练神经网络。设置边缘服务器在r_t阶段收集2000个用户访问请求，且一次收集T＝24个时隙作为系统状态，同时定义边缘服务器的缓存容量大小为N。则边缘服务器的神经网络的输入数据的形状为[24,(2000+N)]。如果一共有K种不同类型的内容，神经网络的输出数据的形状为[1,K]，输出表示K种不同类型的内容被选择作为缓存内容的概率大小。边缘服务器可以根据神经网络的输出从大到小选择N个内容作为下一时隙的缓存内容。设置第一奖励值R_hit＝1；第二奖励值R_e＝0.1；第三奖励值R_c＝0。这样设置奖励值符合边缘服务器靠近用户的特点，让边缘服务器倾向于缓存更流行的内容。设置超时存储因子α＝0.5，第二缓存替换损失第一缓存替换损失/>这样设置符合减少缓存替换成本要求，让边缘服务器倾向于优先与相邻边缘服务器进行缓存替换。设置预设选择因子ε＝0.9，这意味着边缘服务器有90％的概率随机选择动作，增加了训练前期探索更好的缓存动作的可能性。设置选择因子系数ε_decay＝0.999，选择因子最小值ε_min＝0.1，这样即使到训练的后期，边缘服务器也能以10％的概率探索更有的缓存动作。预设重放缓冲池的大小为N_M＝2000，即重放缓冲池能存储2000条动作选择记录，该值可以根据边缘服务器存储容量的大小适当增大或减小。同时定义固定Q网络的更新频次w＝200，即Q网络更新200次，固定Q网络更新一次。

可以理解的是，训练好的深度循环神经网络可以部署在边缘服务器上，并设置每次观察到系统环境都使用训练好的深度循环神经网络选择缓存动作。并且可以每隔一段时间，在用户使用量少、边缘服务器资源空闲大的时候，重新训练深度循环神经网络。这些部署工作都能通过编写简单的自动化脚本完成。

本发明提供一种技术方案，在进行边缘缓存时，利用多时隙的内容流行度综合评判后进行缓存动作选择，在神经网络训练过程中综合考虑奖励值的计算，有效提高了缓存准确率和降低了缓存超时存储成本和缓存替换成本。

下述为本发明装置实施例，可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节，请参照本发明方法实施例。

图6为本申请实施例提供的基于深度循环强化学习的网络边缘缓存装置实施例的结构示意图；如图6所示，该基于深度循环强化学习的网络边缘缓存装置60可以包括：

获取模块61，用于采集获取当前时隙之前的连续多个时隙的系统状态信息，每个时隙对应的系统状态信息包括所述时隙的内容流行度和所述边缘服务器缓存的内容；

第一处理模块62，用于将所述多个时隙的系统状态信息输入深度循环神经网络中进行缓存动作选择处理，得到目标缓存动作；其中，所述深度循环神经网络是预先训练的用于根据多个连续时隙的系统状态信息确定缓存动作的计算模型；

第二处理模块63，用于根据所述目标缓存动作执行缓存替换操作。

本实施例提供的基于深度循环强化学习的网络边缘缓存装置，用于执行前述任一方法实施例提供的技术方案，其实现原理和技术效果类似，边缘服务器将系统信息输入训练好的深度循环神经网络进行处理，得到缓存动作后进行缓存替换，其中使用的训练好的深度循环网络可以有效提高了缓存准确率和降低缓存超时存储成本和缓存替换成本。

进一步地，所述从重放缓冲池中获取预设数量的训练数据之前，所述获取模块61还用于针对多个采集时隙中的每个时隙，采集所述时隙之前多个连续时隙的系统状态信息；

所述第一处理模块62还用于随机选择一个随机数，若所述随机数大于预设的初始的选择因子，则根据所述多个连续时隙的系统状态信息和初始神经网络选择一个缓存动作，若所述随机数小于或等于所述初始选择因子，则随机选择一个缓存动作；

所述第二处理模块63还用于执行所述缓存动作，获取对应的奖励值；

所述获取模块61还用于获取所述时隙的下一个时隙的系统状态；

所述第一处理模块62还用于将所述时隙之前多个连续时隙的系统状态信息，执行的所述缓存动作，所述奖励值，所述时隙的下一个时隙的系统状态作为一组训练数据放入所述重放缓冲池。

在一种具体实施方式中，所述第一处理模块62具体用于：

进一步地，所述根据更新后的Q网络的权重，对所述初始神经网络模型进行训练，得到训练后的神经网络之后，所述第一处理模块62还用于判断所述选择因子是否大于预设的选择因子最小值，若所述选择因子大于所述选择因子最小值，则对所述选择因子乘以预设选择因子系数，得到新的选择因子，所述预设系数大于0且小于1。

在一种具体实施方式中，所述第二处理模块63具体用于：

若所述边缘服务器的缓存内容中包含所述缓存内容信息，则获取第一奖励值；

前述任一实施例提供的基于深度循环强化学习的网络边缘缓存装置，用于执行前述任一方法实施例提供的技术方案，其实现原理和技术效果类似，在此不再赘述。

图7为本发明提供的一种边缘服务器的结构示意图。如图7所示，该边缘服务器70包括：

处理器71，存储器72，以及通信接口73；

所述存储器72用于存储所述处理器71的可执行指令；

其中，所述处理器71配置为经由执行所述可执行指令来执行前述任一方法实施例中的边缘服务器的技术方案。

可选的，存储器72既可以是独立的，也可以跟处理器71集成在一起。

可选的，当所述存储器72是独立于处理器71之外的器件时，所述服务器70还可以包括：

总线，用于将上述器件连接起来。

该服务器用于执行前述任一方法实施例中边缘服务器的技术方案，其实现原理和技术效果类似，在此不再赘述。

本发明实施例还提供一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现前述任一实施例提供的边缘服务器的技术方案。

本发明实施例还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时用于实现前述任一方法实施例提供的边缘服务器的技术方案。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或对其中部分或全部技术特征进行等同替换；而这些修改或替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于深度循环强化学习的网络边缘缓存方法，其特征在于，应用于边缘服务器，所述方法包括：

针对多个采集时隙中的每个时隙，采集所述时隙之前多个连续时隙的系统状态信息；每个时隙对应的系统状态信息包括所述时隙的内容流行度和所述边缘服务器缓存的内容；

随机选择一个随机数，若所述随机数大于预设的初始的选择因子，则根据所述多个连续时隙的系统状态信息和初始神经网络选择一个缓存动作；

若所述随机数小于或等于所述初始的选择因子，则随机选择一个缓存动作；

将所述时隙之前多个连续时隙的系统状态信息，执行的所述缓存动作，所述奖励值，所述时隙的下一个时隙的系统状态作为一组训练数据放入重放缓冲池；

从所述重放缓冲池中获取预设数量的训练数据；

根据所述预设数量的训练数据以及初始神经网络进行模型训练直至损失值小于预设阈值，得到深度循环神经网络；

采集获取当前时隙之前的连续多个时隙的系统状态信息；

将所述多个时隙的系统状态信息输入所述深度循环神经网络中进行缓存动作选择处理，得到目标缓存动作；其中，所述深度循环神经网络是预先训练的用于根据多个连续时隙的系统状态信息确定缓存动作的计算模型；

根据所述目标缓存动作执行缓存替换操作；

其中，所述执行所述缓存动作，获取对应的奖励值，包括：

若所述边缘服务器在所述时隙的缓存内容中除所述缓存内容信息外的内容，与在所述时隙的前一个时隙的缓存内容中除所述前一个时隙内用户访问到的缓存内容信息外的内容，二者有共同的缓存内容，则获取所述时隙对应的超时存储损失；

2.根据权利要求1所述的方法，其特征在于，所述根据所述预设数量的训练数据以及初始神经网络进行模型训练直至损失值小于预设阈值，得到所述深度循环神经网络，包括：

根据更新后的Q网络的权重，对所述初始神经网络进行训练，得到训练后的神经网络；

3.根据权利要求2所述的方法，其特征在于，所述根据更新后的Q网络的权重，对所述初始神经网络进行训练，得到训练后的神经网络之后，所述方法还包括：

判断所述选择因子是否大于预设的选择因子最小值；

若所述选择因子大于所述选择因子最小值，则对所述选择因子乘以预设选择因子系数，得到新的选择因子，所述预设选择因子系数大于0且小于1。

4.一种基于深度循环强化学习的网络边缘缓存装置，其特征在于，包括：

获取模块，用于针对多个采集时隙中的每个时隙，采集所述时隙之前多个连续时隙的系统状态信息；每个时隙对应的系统状态信息包括所述时隙的内容流行度和边缘服务器缓存的内容；

第一处理模块，用于：

第二处理模块，用于执行所述缓存动作，获取对应的奖励值；

所述获取模块，还用于获取所述时隙的下一个时隙的系统状态；

所述第一处理模块，还用于将所述时隙之前多个连续时隙的系统状态信息，执行的所述缓存动作，所述奖励值，所述时隙的下一个时隙的系统状态作为一组训练数据放入重放缓冲池；

所述获取模块，还用于从所述重放缓冲池中获取预设数量的训练数据；

所述第一处理模块，还用于根据所述预设数量的训练数据以及初始神经网络进行模型训练直至损失值小于预设阈值，得到深度循环神经网络；

所述获取模块，还用于采集获取当前时隙之前的连续多个时隙的系统状态信息；

所述第一处理模块，还用于将所述多个时隙的系统状态信息输入所述深度循环神经网络中进行缓存动作选择处理，得到目标缓存动作；其中，所述深度循环神经网络是预先训练的用于根据多个连续时隙的系统状态信息确定缓存动作的计算模型；

所述第二处理模块，还用于根据所述目标缓存动作执行缓存替换操作；

所述第二处理模块，具体用于：

5.一种边缘服务器，其特征在于，包括：

处理器，存储器，通信接口；

所述存储器用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至3任一项所述的基于深度循环强化学习的网络边缘缓存的处理方法。

6.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至3任一项所述的基于深度循环强化学习的网络边缘缓存的处理方法。

7.一种计算机程序产品，其特征在于，包括计算机程序，所述计算机程序被处理器执行时用于实现权利要求1至3任一项所述的基于深度循环强化学习的网络边缘缓存的处理方法。