CN115714814A

CN115714814A - 一种基于多智能体强化学习的边缘缓存替换方法

Info

Publication number: CN115714814A
Application number: CN202210513240.6A
Authority: CN
Inventors: 范琪琳; 史若涵; 李秀华; 付澍; 陈蒙; 王悦阳; 刘奇峰
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2022-05-11
Filing date: 2022-05-11
Publication date: 2023-02-24
Anticipated expiration: 2042-05-11
Also published as: CN115714814B

Abstract

本发明公开一种基于多智能体强化学习的边缘缓存替换方法，包括以下步骤：1)从网络中获取基站覆盖范围下多名用户的请求内容；2)根据网络链路资源消耗量和用户本地缓存列表确定获取请求内容的方式，并计算网络中消耗的总传输链路资源K；3)用户在获得请求内容后，对比请求内容和自身当前缓存空间，利用多智能体强化学习算法生成缓存替换策略，并进行缓存更新；4)获取新的请求序列，并返回步骤2)。本发明在考虑满足总传输链路资源最小的状态下，研究了一种高效的边缘缓存替换算法，该算法基于多智能体强化学习，更好的贴合了用户需求，减少了链路资源消耗。

Description

一种基于多智能体强化学习的边缘缓存替换方法

技术领域

本发明涉及网络边缘缓存替换领域，具体是一种基于多智能体强化学习的边缘缓存替换方法。

背景技术

云服务计算在计算能力上是强大的，但很难满足人们对实时性的需求。为了应对日益增长的流量需求和更加严格的服务质量需求，移动边缘计算成为最有效的解决方案之一。

移动边缘计算的核心思想是通过将服务器部署在网络的“边缘”(即移动边缘)，将受欢迎的内容和计算资源分发到更靠近移动用户的地方，从而实现快速的数据处理和分析。边缘节点具有一定存储容量，节点在获取请求的内容后可以直接在本地进行存储。当本地用户再次请求相同的内容时，可以直接从本地列表中获取数据资源，而不是从上层服务器请求，这可以显著减少在请求过程中数据传输所需要的网络流量。

但是，目前的移动边缘计算方法大多没有考虑实际应用场景，会出现多次单播同一内容的情况，造成了不必要的网络资源浪费。

发明内容

本发明的目的是提供一种基于多智能体强化学习的边缘缓存替换方法，包括以下步骤：

1)从网络中获取基站覆盖范围下多名用户的请求内容；

2)根据网络链路资源消耗量和用户本地缓存列表确定获取请求内容的方式，并计算网络中消耗的总传输链路资源K；

3)用户在获得请求内容后，对比请求内容和自身当前缓存空间，利用多智能体强化学习算法生成缓存替换策略，并进行缓存更新；

4)获取新的请求序列，并返回步骤2)。

进一步的，所述请求内容包括多媒体视频文件。

进一步的，根据网络链路资源消耗量和用户本地缓存列表确定获取请求内容的方式的步骤包括：

1)获取每个用户的本地缓存列表，并判断当前请求内容是否存在于本地缓存列表中，若是，则进入步骤2)，否则。进入步骤3)；

2)利用本地传输从本地缓存列表中获取请求内容；

3)向上层服务器发送多媒体视频文件获取请求，使上层服务器将请求内容传输至用户的客户端。

进一步的，向上层服务器发送多媒体视频文件获取请求的步骤包括：

1)判断多名用户是否请求同一多媒体视频文件的多名用户，若是，则上层服务器通过组播传输方式将请求内容传输至基站覆盖范围内的用户客户端，否则，进入步骤2)；

2)判断基站覆盖范围下任意用户是否都存储了其他用户请求的多媒体视频文件，若是，则进入步骤3)，否则进入步骤4)；

3)上层服务器对所有用户的请求内容进行异或加密处理，并将加密后的请求内容通过组播传输方式传输给覆盖范围内的用户客户端；

每个客户端接收到加密的请求内容后，对请求内容进行解码处理获取自身请求的多媒体视频文件；

4)上层服务器通过点对点单播传输方式向每个用户传输请求内容，每次单播传输消耗一次网络传输链路资源。

进一步的，网络中消耗的总传输链路资源K如下所示：

K＝K_LC+K_MC+K_XC+K_UC(1)

式中，K_LC为通过本地传输获得的视频文件数目；K_MC为通过组播传输方式获得的视频文件数目；K_XC为在异或加密后通过组播传输方式的视频文件数目；K_UC为通过点对点单播传输获得的视频文件数目。

进一步的，进行缓存更新的步骤包括：

1)判断请求内容是否已在当前本地缓存列表中，若是，则保持本地缓存列表不变，否则，进入步骤2)；

2)判断当前本地缓存列表是否存满，若否，则将请求内容加入本地缓存列表中，若是，则利用多智能体强化学习算法生成最优缓存策略，并根据最优缓存策略进行缓存替换。

进一步的，利用多智能体强化学习算法生成最优缓存策略的步骤包括：

1)在基站覆盖范围内，将每个用户作为一个学习智能体；每个学习智能体均具有一个参与者网络和一个评论家网络；第i个用户的邻居记为

2)客户端读取当前物理网络和请求内容，获取当前每个智能体的观测值；

所述智能体观测值包括当前全局状态和其他智能体在上一个时刻的最优缓存策略，记为

全局状态

包括当前智能体的请求状态

和本地缓存状态

为缓存策略；

3)智能体的参与者网络将网络中消耗的总传输链路资源K的负值作为奖励，通过使奖励最大化来得到缓存策略

智能体的评论家网络利用状态价值函数V_π(s)和动作价值函数Q_π(s,a)选择出最优缓存策略。

进一步的，所述状态价值函数V_π(s)和动作价值函数Q_π(s,a)分别如下所示：

式中，A_t、a为动作；

为不同策略下的期望；G_t为从t时刻开始环境获得的总回报；s为状态值；γ为折扣因子；R_t+k+1为第t+k+1时刻环境获得的奖励值；

进一步的，最优缓存策略的状态价值函数V^*(s)和动作价值函数Q^*(s,a)分别如下所示：

式中，p(s′,r∣s,a)为从状态s经过动作a后转移为状态s′，并得到奖励r的概率；r为从当前状态s到状态s′，环境反馈获得的奖励值；Q^*(s′,a′)为从状态s′经过动作a’后的动作价值函数；V^*(s′)为状态s′的状态价值函数；

为动作价值函数。

进一步的，所述学习智能体通过小批量梯度下降算法进行了训练；

其中，参与者网络的参数θ_i和评论家网络的参数ω_i更新如下：

式中，β′为一个超参数；η_θ为参与者网络的更新参数；η_ω为评论家网络的更新参数；

为多智能体强化学习环境下第i个智能体在t时刻获得的奖励值；θ_i、θ_i’为更新前后的参与者网络参数；ω_i、ω_i’为更新前后的评论家网络参数；

学习智能体训练评价器为优势函数

即：

式中，

为价值函数。

4)获取新的请求序列，并返回步骤2)。

本发明的技术效果是毋庸置疑的，本发明具有以下有益效果：

1)将资源约束、边缘缓存替换、组播算法这几种因素共同结合，结合了实际场景，避免了数据传输资源冗余的问题。

2)保证了组播传输在网络传输中的应用，避免了多次单播同一内容导致不必要的网络资源消耗。

3)考虑在满足组播传输的同时，选择总传输链路资源最小的方案进行传输。

4)在考虑满足总传输链路资源最小的状态下，研究了一种高效的边缘缓存替换算法，该算法基于多智能体强化学习，更好的贴合了用户需求，减少了链路资源消耗。

附图说明

图1为基于多智能体强化学习的边缘缓存替换算法方法的流程图；

图2为多智能体强化学习算法流程图；

图3为用户请求已缓存在本地列表的本地传输；

图4为多用户请求同一资源状态下的组播传输；

图5为多用户请求经过异或聚合状态下的组播传输；

图6为多用户通过单播传输获取资源；

具体实施方式

下面结合实施例对本发明作进一步说明，但不应该理解为本发明上述主题范围仅限于下述实施例。在不脱离本发明上述技术思想的情况下，根据本领域普通技术知识和惯用手段，做出各种替换和变更，均应包括在本发明的保护范围内。

实施例1：

参见图1至图6，一种基于多智能体强化学习的边缘缓存替换方法，包括以下步骤：

1)从网络中获取基站覆盖范围下多名用户的请求内容；所述请求内容包括多媒体视频文件。

根据网络链路资源消耗量和用户本地缓存列表确定获取请求内容的方式的步骤包括：

2.1)获取每个用户的本地缓存列表，并判断当前请求内容是否存在于本地缓存列表中，若是，则进入步骤2.2)，否则。进入步骤2.3)；

2.2)利用本地传输从本地缓存列表中获取请求内容；

2.3)向上层服务器发送多媒体视频文件获取请求，使上层服务器将请求内容传输至用户的客户端。

向上层服务器发送多媒体视频文件获取请求的步骤包括：

2.3.1)判断多名用户是否请求同一多媒体视频文件的多名用户，若是，则上层服务器通过组播传输方式将请求内容传输至基站覆盖范围内的用户客户端，否则，进入步骤2.3.2)；

2.3.2)判断基站覆盖范围下任意用户是否都存储了其他用户请求的多媒体视频文件，若是，则进入步骤2.3.3)，否则进入步骤2.3.4)；

2.3.3)上层服务器对所有用户的请求内容进行异或加密处理，并将加密后的请求内容通过组播传输方式传输给覆盖范围内的用户客户端；

2.3.4)上层服务器通过点对点单播传输方式向每个用户传输请求内容，每次单播传输消耗一次网络传输链路资源。

网络中消耗的总传输链路资源K如下所示：

K＝K_LC+K_MC+K_XC+K_UC(1)

进行缓存更新的步骤包括：

3.1)判断请求内容是否已在当前本地缓存列表中，若是，则保持本地缓存列表不变，否则，进入步骤3.2)；

3.2)判断当前本地缓存列表是否存满，若否，则将请求内容加入本地缓存列表中，若是，则利用多智能体强化学习算法生成最优缓存策略，并根据最优缓存策略进行缓存替换。

利用多智能体强化学习算法生成最优缓存策略的步骤包括：

3.2.1)在基站覆盖范围内，将每个用户作为一个学习智能体；每个学习智能体均具有一个参与者网络和一个评论家网络；第i个用户的邻居记为

3.2.2)客户端读取当前物理网络和请求内容，获取当前每个智能体的观测值；

全局状态

包括当前智能体的请求状态

和本地缓存状态

为缓存策略；

3.2.3)智能体的参与者网络将网络中消耗的总传输链路资源K的负值作为奖励，通过使奖励最大化来得到缓存策略

所述状态价值函数V_π(s)和动作价值函数Q_π(s,a)分别如下所示：

式中，A_t、a为动作；

最优缓存策略的状态价值函数V^*(s)和动作价值函数Q^*(s,a)分别如下所示：

为动作价值函数。

学习智能体训练评价器为优势函数

即：

式中，

为价值函数。

4)获取新的请求序列，并返回步骤2)。

实施例2：

一种基于多智能体强化学习的边缘缓存替换方法，包括以下步骤：

1)当前时刻t,从网络中读取基站覆盖范围内n个用户对视频内容的请求

2)检查各个用户的本地缓存列表，考虑不同传播方式消耗不同链路资源。选择消耗网络链路资源最少的方式来获取请求内容：

2.1)对于当前请求内容已经被缓存在本地缓存列表中的用户，可以通过本地传输(Local-cast，LC)从本地存储列表获取视频内容，不消耗网络传输链路资源，通过本地传输获得的视频流数目记为K_LC。本地传输过程如图1所示。

2.2)如果多名用户同时请求同一视频流文件，则可以通过组播(Multicast，MC)传输方式，上层服务器将内容一次性传输给覆盖范围内的多个客户端，一次组播传输消耗一次网络传输链路资源，通过组播传输获得的视频流数记为K_MC。如图2所示，多名用户同时访问同一内容，则上层服务器通过组播传输将内容一次性发给多个用户。

2.3)对于一个多用户集合，并未请求同一视频流文件，如果集合中每个用户都存储了所有其他集合用户请求的视频文件，则上层服务器通过将这些用户需要的视频流进行异或加密处理，将加密后的流文件内容一次性传输给覆盖范围内的多个客户端，在每个客户端本地，每个客户端进行解码处理获取需要的视频内容，一次组播传输消耗一次网络传输链路资源，在异或加密后通过组播传输的视频流数记为K_XC。组播传输组成用户请求的内容能够通过异或操作加密，并能在传输完根据本地信息进行解密操作。

2.4)不同用户之间并未存在组播传输联系，则该用户群体直接向上层服务器获取视频内容，服务器通过单播传输向每个用户传输内容，每次单播传输消耗一次网络传输链路资源，通过点对点单播传输获得的视频流数记为K_UC。对于无法通过服务器组播传输获取资源的用户，服务器将通过单播传输将内容发给用户。

3)计算当前时刻网络中消耗的总传输链路资源K，计算为：

K＝K_LC+K_MC+K_XC+K_UC(1)

4)各个客户端在获得请求的内容之后，对比请求内容和自身当前缓存空间，结合缓存替换策略进行缓存更新。

4.1)请求内容缓存已在当前列表中，保持列表缓存不变。

4.2)当前缓存列表未满，将请求内容直接加入缓存列表。

4.3)缓存空间已经存满，根据缓存替换算法进行缓存替换。

5)基于MA2C(多智能体强化学习算法)做出策略

5)当需要进行缓存更新时，基于MA2C训练得到策略，制定缓存替换决策。

5.1)在基站覆盖范围内，考虑将每个用户作为一个学习智能体，具有一个参与者网络(actor)和一个评论家网络(critic)。参与者网络用于训练一个策略，用于制定缓存决策，而评论家网络则训练学习一个值函数，对预期总报酬进行估计，从而评价当前策略好坏。每个智能体共同工作。全局的奖励值和状态共享。

5.2)在读取了当前物理网络和请求内容后，可以获得当前每个智能体所能观测到的状态。每个智能体的状态包括当前智能体的请求状态和本地缓存状态，记为

回报奖励在全局共享。每个智能体将全局状态作为自己的观测值。智能体的观测值包括当前全局状态和其他智能体在上一个时刻的策略，记为

第i个用户的邻居记为

5.3)用MA2C算法来选择每次需要替换的内容。智能体的缓存大小为C，动作空间大小为C+1，动作空间A(t,i)＝{0,1,2,...,C}，表示每次选择从当前缓存列表中逐出某项缓存内容或是不做改变。

5.4)将网络中消耗的总传输链路资源K的负值作为奖励，通过使奖励最大化来得到最优缓存策略。

5.5)每个用户作为一个学习智能体，具有一个参与者网络(actor)和一个评论家网络(critic)。每个智能体通过actor网络得到自己的缓存策略

并通过critic网络得到对应的价值函数

5.6)每个智能体通过得到的缓存策略

随机抽样得到动作a,根据动作值对该部分缓存进行逐出，同时将当前请求内容加入缓存列表，计算得到当前奖励值。同时获取下一个时刻请求，重复该步骤。

5.8)每个智能体按照其本地策略收集经验，直到收集到足够样本进行小批量更新。

5.9)当收集到足够样本之后，对于每个智能体，通过小批量随机采样数据，通过策略梯度下降算法对每个智能体进行训练。

5.10)强化学习中使用了两种类型的价值函数来学习最优策略：状态价值函数V_π(s)和动作价值函数Q_π(s,a)。对于基于价值的生成策略方法来说，它是根据动作价值函数Q_π(s,a)，寻找能使得Q值最大的动作a。

5.11)状态价值函数用来描述当前状态的好坏，与动作无关。表示智能体从当前状态出发，使用策略π表示未来所获得的累计回报值，表示为：

根据当前状态下的最优动作可以选出最优策略，即：

动作价值函数也叫动作状态价值函数，用来描述当前动作的好坏。表示在当前状态下，根据策略π，执行某个动作的价值。表示为：

可以得到最优动作价值函数为：

5.12)对每次模型训练，用优势函数作为评价器，通过减少采样偏差来拟合策略。计算优势函数的估计值为：

5.13)应用小批量梯度，以自适应地学习速率更新每个智能体的actor网络参数和critic网络参数。

5.14)actor网络的参数更新为：

5.15)应用时序差分方法更新critic网络的参数为：

6)根据同步更新下的MA2C算法，动态的生成最优缓存策略。

6.1)在同步更新下，每个智能体通过actor网络和critic网络，actor网络生成策略，并通过动作价值函数选择最优缓存动作。

6.2)在同步更新下，每个智能体通过actor网络和critic网络，critic网络对当前策略进行评估。

6.3)智能体在获得缓存策略之后，执行缓存动作，并更新当前环境状态。

7)用户继续向网络获取请求，如果缓存请求没有终止，回到步骤1)。

Claims

1.一种基于多智能体强化学习的边缘缓存替换方法，其特征在于，包括以下步骤：

1)从网络中获取基站覆盖范围下多名用户的所述请求内容；

2)根据网络链路资源消耗量和用户本地缓存列表确定获取请求内容的方式，并计算网络中消耗的总传输链路资源K。

3)用户在获得请求内容后，对比请求内容和自身当前缓存空间，利用多智能体强化学习算法生成缓存替换策略，并进行缓存更新。

4)获取新的请求序列，并返回步骤2)。

2.根据权利要求1所述的一种基于多智能体强化学习的边缘缓存替换方法，其特征在于，所述请求内容包括多媒体视频文件。

3.根据权利要求1所述的一种基于多智能体强化学习的边缘缓存替换方法，其特征在于，根据网络链路资源消耗量和用户本地缓存列表确定获取请求内容的方式的步骤包括：

2)利用本地传输从本地缓存列表中获取请求内容；

4.根据权利要求3所述的一种基于多智能体强化学习的边缘缓存替换方法，其特征在于，向上层服务器发送多媒体视频文件获取请求的步骤包括：

5.根据权利要求1所述的一种基于多智能体强化学习的边缘缓存替换方法，其特征在于，网络中消耗的总传输链路资源K如下所示：

K＝K_LC+K_MC+K_XC+K_UC (1)

6.根据权利要求1所述的一种基于多智能体强化学习的边缘缓存替换方法，其特征在于，进行缓存更新的步骤包括：

7.根据权利要求1所述的一种基于多智能体强化学习的边缘缓存替换方法，其特征在于，利用多智能体强化学习算法生成最优缓存策略的步骤包括：

全局状态

包括当前智能体的请求状态

和本地缓存状态

为缓存策略；

智能体的评论家网络利用状态价值函数V_π(s)和动作价值函数Q_π(s，a)选择出最优缓存策略。

8.根据权利要求7所述的一种基于多智能体强化学习的边缘缓存替换方法，其特征在于，所述状态价值函数V_π(s)和动作价值函数Q_π(s，a)分别如下所示：

式中，A_t、a为动作；

为不同策略下的期望；G_t为从t时刻开始环境获得的总回报；s为状态值；γ为折扣因子；R_t+k+1为第t+k+1时刻环境获得的奖励值。

9.根据权利要求7所述的一种基于多智能体强化学习的边缘缓存替换方法，其特征在于，最优缓存策略的状态价值函数V^*(s)和动作价值函数Q^*(s，a)分别如下所示：

式中，p(s′，r|s，a)为从状态s经过动作a后转移为状态s′，并得到奖励r的概率；r为从当前状态s到状态s′，环境反馈获得的奖励值；Q^*(s′，a′)为从状态s′经过动作a’后的动作价值函数；V^*(s′)为状态s′的状态价值函数；

为动作价值函数。

10.根据权利要求7所述的一种基于多智能体强化学习的边缘缓存替换方法，其特征在于，所述学习智能体通过小批量梯度下降算法进行了训练；

为多智能体强化学习环境下第i个智能体在t时刻获得的奖励值；θ_i、θ_i′为更新前后的参与者网络参数；ω_i、ω_i′为更新前后的评论家网络参数；

学习智能体训练评价器为优势函数

即：

式中，

为价值函数。