CN113993168A

CN113993168A - 一种雾无线接入网中基于多智能体强化学习的协作缓存方法

Info

Publication number: CN113993168A
Application number: CN202111255936.5A
Authority: CN
Inventors: 蒋雁翔; 常琦
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2021-10-27
Filing date: 2021-10-27
Publication date: 2022-01-28
Anticipated expiration: 2041-10-27
Also published as: CN113993168B

Abstract

本发明公开了一种雾无线接入网中基于多智能体强化学习的协作缓存方法，包括：根据缓存节点的区域文件流行度，初始化各节点的缓存状态向量、动作向量、历史缓存记录向量以及深度强化学习参数；根据用户请求文件，每个节点的学习模型做出缓存决策；每个节点根据缓存决策更新其历史缓存记录，并与邻近的节点进行通信；缓存节点根据当前的缓存状态和邻近节点状态，选择传输路径应答用户请求，并且计算用户需求的传输时延；根据传输延迟，缓存节点计算全局的价值函数，对自身学习和邻近节点的学习模型参数进行更新；在遍历所有缓存节点后，一个训练周期结束。本发明加强缓存节点之间的交互，进一步的降低用户需求时延。

Description

一种雾无线接入网中基于多智能体强化学习的协作缓存方法

技术领域

本发明涉及移动通信系统中边缘网络的协作缓存领域，特别是涉及一种雾无线接入网中基于多智能体强化学习的协作缓存方法。

背景技术

随着5G时代的到来，智能设备和移动应用服务的不断发展，产生的海量信息数据给无线蜂窝网络带了巨大的流量压力。雾无线接入网络作为5G通信系统中的新型系统架构在提高带宽效率解决链路堵塞具有广阔的前景。在雾无线接入网络中，边缘缓存可以通过将流行的内容放在离用户更近的边缘节点，也称为缓存节点，降低回程链路的负载压力和传输延迟。由于缓存节点的缓存容量以及节点之间的通信资源限制，缓存内容决策问题是目前边缘缓存研究的重要方向。

近年来，强化学习已经成为在雾无线接入网络中优化协作缓存问题的重要算法。但是，大多数强化学习算法都是直接对所有缓存节点进行训练，缺乏缓存节点之间交互。此外，这些算法将学习代理部署在云服务器中，这将导致算法学习速度下降，且对缓存节点之间的协作能力考虑不足。如果能够在缓存节点之间建立通信过程，使每个缓存节点的缓存决策充分考虑其他协作节点的缓存状态。同时，将学习代理部署在每个缓存节点上，使节点通过对用户需求的预测和邻近节点的状态信息交互做出动态的缓存决策，降低用户请求延迟。

发明内容

有鉴于此，本发明的目的在于提供一种雾无线接入网中基于多智能体强化学习的协作缓存方法，以解决用户内容请求延迟高，缓存节点协作能力不充分的技术问题。

为了实现上述目的，本发明采用如下技术方案：

一种雾无线接入网中基于多智能体强化学习的协作缓存方法，所述协作缓存方法包括如下步骤：

步骤S1、根据所有缓存节点的区域内容流行度[P₁,P₂,...,P_n,...,P_N]，初始化缓存节点n的状态空间

历史缓存记录

对协作节点m的观测值

以及深度强化学习的当前网络参数

并设定深度强化学习的目标网络参数

得到所有缓存节点的联合状态空间

其中，N为雾无线接入网中的缓存节点的总个数，

协作节点m为通过后传链路与缓存节点n建立连接的节点；

步骤S2、在第t个时隙，定义缓存节点n的状态空间

其中，

表示缓存节点n的存储空间中第s个位置存储的文件索引，F表示文件库中文件总数，

表示缓存节点n所收集到的用户请求内容，S表示缓存节点n可缓存的文件最大数量；

并且定义缓存节点n的动作空间

其中，

表示缓存节点n将用收集到的用户请求文件

替代存储空间中的第s个文件，

表示缓存节点n所收集到的用户请求文件

不需要被缓存；

步骤S3、缓存节点n收集用户的文件请求，基于本地内容缓存信息，进行缓存动作

的选择，做出缓存决策：

步骤S4、缓存节点n根据选择的动作，更新缓存节点的历史缓存记录

并与邻近的节点建立通信过程，传递缓存节点的历史缓存记录，得到对协作节点的观察值

步骤S5、基于步骤S4中缓存节点n做出的缓存决策计算用户的文件传输时延，建立文件传输的优化问题，并转化为多智能体学习模型中的全局价值函数R^t进行求解；

步骤S6、利用梯度下降法对缓存节点n和其协作节点m的强化学习模型参数

和

进行训练，进入下一个缓存节点n＝n+1，遍历所有缓存节点，一个训练周期结束，t＝t+1。

进一步的，所述步骤S3具体包括：

步骤S301、缓存节点n获取其覆盖区域内的所有用户发送的文件请求，再根据获取的文件请求概率得到该区域内的文件流行度，其中，该文件请求为用户根据其自身文件喜好度来决定的，定义

为缓存节点n中的用户u对文件f的文件请求概率，则，缓存节点n根据所有用户的文件请求概率得到该区域内的文件流行度，表达式为：

公式中，U_n为缓存节点n覆盖区域内的用户集合，内容流行度向量为

步骤S302、缓存节点n的强化学习模型会根据事先设定的贪婪算法的贪婪因子ε，进行缓存动作

的选取：

公式中，

是缓存节点n中深度强化学习的当前网络的动作价值函数，

为深度强化学习的当前网络的参数；

步骤S303、缓存节点n根据选取的动作

进行缓存替代操作，得到一个新的状态空间

进一步的，所述步骤S4具体包括：

步骤S401、缓存节点n根据所选择的动作

计算缓存节点n的历史缓存记录，具体包括：

若

则表示缓存节点n不会发生文件的替换，即缓存节点n对文件f的历史缓存记录为

若

则表示缓存节点n将存储空间中的第

个文件替换为请求文件f，即缓存节点n对文件f的历史缓存记录为

同时被替换的文件进行更新

步骤S402、缓存节点n在完成对历史缓存记录的更新后，通过与邻近的节点的通信过程交互，得到对邻近的节点缓存状态信息：

公式中，N_n为可与缓存节点n进行协作的节点集合。

进一步的，所述步骤S5具体包括：

步骤S501、判断缓存节点n以及其邻近的节点是否有缓存文件f，其中，

若缓存节点n已经缓存文件f，则缓存节点n直接将内容发送给用户，产生的文件传输延迟为

其中，

表示将文件f发送给用户所需要的时间；

若缓存节点n没有缓存文件f，但缓存节点n的邻近节点m∈N_n缓存了文件f，则邻近节点m将文件f传输给缓存节点n，再通过缓存节点n发送给用户，产生的文件传输延迟为

其中，

表示将文件f从节点m发送到节点n所需要的时间；

若缓存节点n和其邻近的节点都没有缓存文件f，则文件f将从云服务器的文件库中发送给节点n，再由节点发送给用户，产生的文件传输时延为

其中，

表示将文件f从云服务器发送到节点n所需要的时间；

步骤S502、根据缓存节点n的缓存策略，在时隙t时，用户请求文件的平均时延为：

公式中，x_n,f为指示缓存节点n是否缓存文件f的二值变量，x_n,f＝1表示缓存节点n是否缓存文件f，否则，x_n,f＝0；

步骤S503、基于步骤S502中的用户请求时延得到如下的整数规划并求解：

公式中，S表示节点可缓存的文件数量上限；

步骤S504、缓存节点n根据用户请求的时延计算多智能学习中全局价值函数：

公式中，λ为保证价值函数归一化而设定的参数。

进一步的，所述步骤S6具体包括：

步骤S601、根据全局回报函数得到状态价值函数：

公式中，

为缓存节点n中深度强化学习目标网络的状态价值函数，γ定义为价值衰落因子，

为根据深度强化学习当前网络的状态价值函数选择的动作；

步骤S602、利用梯度下降法，对缓存节点n以及其邻近节点m(m∈N_n)的深度强化学习参数进行更新：

公式中，i＝n,m；

步骤S603、令n＝n+1，回到步骤S2进行下一个缓存节点的优化，当n＞N时，一个训练周期结束，n＝1，t＝t+1，进行下一时隙的训练。

本发明的有益效果是：

1、本发明通过在每个节点搭载一个深度强化学习模型进行缓存决策的学习，使得缓存节点可以根据用户内容请求和缓存内容即可做出最优的缓存决策，从而实现动态的缓存内容部署；

2、本发明通过引入缓存节点之间的通信过程，使缓存节点得到邻近节点的缓存状态信息，在决策中充分考虑协作节点的缓存内容，增强了节点之间的缓存协作，避免缓存内容的冗余；

3、本发明根据每个节点的缓存决策对缓存节点和其协作的节点进行的联合训练，加快了算法的收敛速度。

附图说明

图1为实施例1中提供的一种雾无线接入网中基于多智能体强化学习的协作缓存方法的流程示意图；

图2为实施例1中提供的协作缓存方法与传统边缘缓存策略在平均传输时延方面的仿真对比示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

参见图1和图2，本实施例提供一种雾无线接入网中基于多智能体强化学习的协作缓存方法，该方法具体包括：

历史缓存记录

对协作节点m的观测值

以及深度强化学习的当前网络参数

并设定深度强化学习的目标网络参数

得到所有缓存节点的联合状态空间

其中，N为雾无线接入网中的缓存节点的总个数，

协作节点m为通过后传链路与缓存节点n建立连接的节点；

步骤S2、在第t个时隙，定义缓存节点n的状态空间

其中，

定义缓存节点n的动作空间

其中，

表示缓存节点n将用收集到的用户请求文件

替代存储空间中的第s个文件，

表示缓存节点n所收集到的用户请求文件

不需要被缓存；

的选择，做出缓存决策：

具体的说，在本实施例中，该步骤S3具体包括：

的选取：

公式中，

是缓存节点n中深度强化学习的当前网络的动作价值函数，

为深度强化学习的当前网络的参数；

步骤S303、缓存节点n根据选取的动作

进行缓存替代操作，得到一个新的状态空间

具体的说，在本实施例中，该步骤S4具体包括：

步骤S401、缓存节点n根据所选择的动作

计算缓存节点n的历史缓存记录，具体包括：

若

若

则表示缓存节点n将存储空间中的第

同时被替换的文件进行更新

公式中，N_n为可与缓存节点n进行协作的节点集合。

具体的说，本实施例中，该步骤S5具体包括：

其中，

表示将文件f发送给用户所需要的时间；

其中，

表示将文件f从节点m发送到节点n所需要的时间；

其中，

表示将文件f从云服务器发送到节点n所需要的时间；

公式中，S表示节点可缓存的文件数量上限；

公式中，λ为保证价值函数归一化而设定的参数。

和

具体的说，在本实施例中，该步骤S6具体包括：

步骤S601、根据全局回报函数得到状态价值函数：

公式中，

为根据深度强化学习当前网络的状态价值函数选择的动作；

公式中，i＝n,m；

为了验证本实施例提供的一种雾无线接入网中基于多智能体强化学习的协作缓存方法的先进性，因此将本实施例提供的方法与最近最少使用缓存方法(Least RecentlyUsed，LRU),独立Q学习缓存方法(Independent QLearning，IQL)和深度Q网络缓存方法(Deep Q network，DQN)这三种缓存方法进行比较分析，具体的仿真结果如图2所示。

本实施例基于的多智能体强化学习方法的平均传输时延性能明显更优，其中多智能体强化学习方法具体为基于双层深度Q网络(Double Deep Q Network,DDQN)和多智能体系统(Multi Agent System，MAS)的协作缓存方法。

本发明未详述之处，均为本领域技术人员的公知技术。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。