CN114745396A

CN114745396A - 一种基于多智能体的端边云3c资源联合优化方法

Info

Publication number: CN114745396A
Application number: CN202210380792.4A
Authority: CN
Inventors: 刘燕; 黄太秦; 蔡君
Original assignee: Guangdong Polytechnic Normal University
Current assignee: Guangdong Polytechnic Normal University
Priority date: 2022-04-12
Filing date: 2022-04-12
Publication date: 2022-07-12
Anticipated expiration: 2042-04-12
Also published as: CN114745396B

Abstract

本发明涉及多智能体资源联合优化技术领域，且公开了一种基于多智能体的端边云3C资源联合优化方法，包括以下步骤：S1、计算任务信息、S2、学习算法模块、S3、优化目标定义、S4、状态定义、S5、动作定义、S6、奖励定义。一种基于多智能体的端边云3C资源联合优化方法，针对异构网络中不同用户产生不同类型的计算任务，研究一种端‑边‑云协同的计算缓存与卸载方法，以实现3C资源的联合优化，降低任务完成时延和资源开销，对计算任务进行建模，利用五元组描述任务特征；然后将计算缓存与卸载问题建模为以最小化网络整体时延为目标的优化问题；最后定义多智能体深度强化学习模型中的网络状态和全局奖励函数，有效降低了整体网络的时延。

Description

一种基于多智能体的端边云3C资源联合优化方法

技术领域

本发明涉及多智能体资源联合优化技术领域，具体为一种基于多智能体的端边云3C资源联合优化方法。

背景技术

3C联合优化算法一般是将热门内容缓存到离用户更近的位置，可以降低用户下载时延；将计算任务卸载到算力充足的计算节点可以降低计算完成时延，提升用户体验，云中心具有充沛的缓存和计算资源，但距离用户较远，传输时延高，带宽开销大，通过在边缘节点部署缓存和计算资源，可以降低内容下载和计算完成时延，缓解云中心和骨干网压力，将计算任务的输入或输出数据缓存在离用户更近的位置中，可以有效地降低任务完成时延，缓存的本质是利用缓存资源换取通信资源，计算卸载的本质则是利用通信资源换取计算资源，缓存、计算、通信资源三者息息相关，共同决定任务完成时延。

缓存的本质是利用缓存资源换取通信资源，计算卸载的本质则是利用通信资源换取计算资源，缓存、计算、通信资源三者息息相关，共同决定任务完成时延，因此，对三者进行联合优化至关重要，现有的3C联合优化算法大多针对某一特点类型应用，无法适应包含多种类型应用的异构网络，此外，大多联合优化算法仅针对端-边计算架构，没有充分利用云中心大量的计算和存储资源。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种基于多智能体的端边云3C资源联合优化方法，具备利用计算、缓存和全局奖励函数对3C资源之间的联系进行建模，以降低整体网络的时延。本发明定义的计算奖励用于衡量计算卸载决策为产生计算任务的用户带来的时延收益；缓存奖励函数用于衡量缓存决策为网络带来的计算资源收益等优点，解决了现有的3C联合优化算法大多针对某一特点类型应用，无法适应包含多种类型应用的异构网络，此外，大多联合优化算法仅针对端-边计算架构，没有充分利用云中心大量的计算和存储资源的问题。

(二)技术方案

为实现上述实现异构网络中端-边-云协同的3C资源联合优化，利用计算、缓存和全局奖励函数对3C资源之间的联系进行建模，以降低整体网络的时延目的，本发明提供如下技术方案：一种基于多智能体的端边云3C资源联合优化方法，包括以下步骤：

S1、计算任务信息

位于端层的用户u∈N＝{1，2，…，N}产生的计算任务i∈H＝{1，2，…，H}使用五元组ξ_i来表示，ξ_i＝{I_i，O_i，ω_i，τ_i，p_i}，其中I_i和O_i分别表示输入数据和计算结果，ω_i表示任务的计算密度；τ_i表示任务的约束时延；p_i表示任务流行度；输入数据I_i＝[I_i，1，I_i，2，I_i，3]，其中I_i，1∈{0，1}表示任务的输入数据来自于用户(I_i，1＝1)或云服务器(I_i，1＝0)；I_i，2表示输入数据量；I_i，3∈{0，1}表示缓存标识，当I_i，3＝1表示允许缓存，否则不允许缓存，计算结果O_i＝[O_i，1，O_i，2，O_i，3]，定义与输入数据I_i类似。

S2、学习算法模块

当本地计算资源无法满足任务需求时，可以将任务卸载到邻近的空闲终端、边缘服务器或是云服务器中执行，定义Z＝N∪{N+1，N+2}为计算节点集合，N+1和N+2分别表示边缘服务器E和云服务器C。

S3、优化目标定义

优化目标是最小化所有任务的完成时延，定义如下：

S4、状态定义

状态S(t)＝{ξ_i，ψ_D(t)，ψ_E(t)，ψ_E(t)，c_i(t)}。

S5、动作定义

MADRL由两个智能体组成，即计算智能体和缓存智能体，分别制定计算卸载和缓存决策。

S6、奖励定义

当智能体执行动作后，接收到即时奖励，为了实现3C资源优化，本文定义三种奖励：计算奖励r_com(t)，缓存奖励r_cac(t)，和全局奖励，r_b(t)。

优选的，所述步骤S3中，当用户u产生的计算任务i卸载到节点j处理时，任务完成时延

包含三部分：输入数据传输时延、计算时延和计算结果传输时延，定义如下：

优选的，所述步骤S3中，

表示将输入数据从数据源传输到计算节点的时延，

表示将输入数据从缓存节点k传输到计算节点j的时延，

表示任务的计算时延，

为计算节点j分配给任务i的计算资源，

表示将计算结果传输给目的地的时延，

R_l数据转发路径上第l条链路的数据率，c_i，j∈{0，1}表示任务i在节点j中的缓存状态，c_i，j＝1表示有缓存，否则无缓存。

优选的，所述步骤S3中，

为任务完成时延，约束条件C₂表示终端d分配给任务i的计算资源不得超过其可用计算资源，F_d，卸载到边缘服务器和云服务器的所有任务计算资源之和不得超过边缘服务器和云服务器的可用计算资源，即F_E和F_C，约束条件C₃表示缓存在节点j的任务数据不得超过节点j的缓存空间C_j。

优选的，所述步骤S4中，ξ_i为任务i的信息；ψ_D(t)为D2D网络可用的计算、缓存和带宽资源；ψ_E(t)为边缘服务器可用的计算、缓存和带宽资源；ψ_c(t)为云服务器可用的计算、缓存和带宽资源；c_i(t)为任务i在网络中的缓存状态。

优选的，所述步骤S5中，计算智能体的动作a_com(t)定义为：

a_com(t)＝[a_com，1(t)，a_com，2(t)，a_com，3(t)]，其中，a_com，i(t)∈{0，1}表示任务是否在端、边或者云执行，且

缓存智能体的动作a_cac(t)定义为：

a_cac(t)＝[a_cac，1(t)，a_cac，2(t)，a_cac，3(t)]。

其中a_cac，i(t)∈{0，1}表示任务数据是否缓存到端、边或者云中，且

当

定示不缓存任务数据。

优选的，所述步骤S6中，通过将任务卸载到计算资源充沛的节点，可以降低计算时延，本文将R_com(t)定义为计算时延减少量，即：

其中η＞0设计参数，表示当计算智能体的卸载决策不能满足约束条件时得到的惩罚。

优选的，所述步骤S6中，通过将任务数据缓存在网络中，可以减少数据传输时延，从而降低对计算资源的需求，本文将r_cac(t)定义为缓存带来的计算需求减少量，即：

其中

表示将输入数据缓存在位置j带来的传输时延减少量，

和

分别表示传输输入数据和计算结果的传输时延，j＝{1，2，3}分别表示端、边、云三个位置，p_i为任务i的内容流行度，为了实现3C资源的联合优化，将引入全局奖励r_b(t)来衡量计算和缓存决策不一致时导致的额外通信开销，每个智能体在获得本地奖励的同时，还会获得全局奖励r_b(t)，即：

其中α和β为设计参数，默认值为0.5，e^c为额外链路开销，定义如下：

其中m和n分别表示任务计算位置和任务缓存位置(m,n∈{1,2,3})，e^m，n表示将数据从位置m传输到位置n占用的链路，e^u，d表示将数据从本地传输给空闲终端占用的D2D通信链路。

(三)有益效果

与现有技术相比，本发明提供了一种基于多智能体的端边云3C资源联合优化方法，具备以下有益效果：

1、一种基于多智能体的端边云3C资源联合优化方法，针对异构网络中不同用户产生不同类型的计算任务，研究一种端-边-云协同的计算缓存与卸载方法，以实现3C资源的联合优化，降低任务完成时延和资源开销，对计算任务进行建模，利用五元组描述任务特征；然后将计算缓存与卸载问题建模为以最小化网络整体时延为目标的优化问题；最后定义多智能体深度强化学习模型中的网络状态、计算与缓存智能体的动作和奖励函数，和全局奖励函数，有效降低了整体网络的时延。

2、一种基于多智能体的端边云3C资源联合优化方法，与现有技术相比，本发明可以实现异构网络中端-边-云协同的3C资源联合优化，利用计算、缓存和全局奖励函数对3C资源之间的联系进行建模，以降低整体网络的时延，本发明定义的计算奖励用于衡量计算卸载决策为产生计算任务的用户带来的时延收益；缓存奖励函数用于衡量缓存决策为网络带来的计算资源收益；全局奖励函数用于衡量计算与缓存决策不同时消耗的额外通信资源。

具体实施方式

下面将结合本发明的实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供一种技术方案：一种基于多智能体的端边云3C资源联合优化方法，包括以下步骤：

S1、计算任务信息

S2、学习算法模块

S3、优化目标定义

优化目标是最小化所有任务的完成时延，定义如下：

3.

当用户u产生的计算任务i卸载到节点j处理时，任务完成时延

表示将输入数据从数据源传输到计算节点的时延，

定示将输入数据从缓存节点k传输到计算节点j的时延，

表示任务的计算时延，

为计算节点j分配给任务i的计算资源，

表示将计算结果传输给目的地的时延，R_l数据转发路径上第l条链路的数据率，c_i，j∈{0，1}表示任务i在节点j中的缓存状态，

c_i，j＝1表示有缓存，否则无缓存，

S4、状态定义

状态S(t)＝{ξ_i，ψ_D(t)，ψ_E(t)，ψ_E(t)，c_i(t)}，ξ_i为任务i的信息；ψ_D(t)为D2D网络可用的计算、缓存和带宽资源；ψ_E(t)为边缘服务器可用的计算、缓存和带宽资源；ψ_c(t)为云服务器可用的计算、缓存和带宽资源；c_i(t)为任务i在网络中的缓存状态。

S5、动作定义

MADRL由两个智能体组成，即计算智能体和缓存智能体，分别制定计算卸载和缓存决策，计算智能体的动作a_com(t)定义为：

a_com(t)＝[a_com，1(t)，a_com，2(t)，a_cam，3(t)]，其中，

a_com，i(t)∈{0，1}表示任务是否在端、边或者云执行，且

缓存智能体的动作a_cac(t)定义为：

a_cac(t)＝[a_cac，1(t)，a_cac，2(t)，a_cac，3(t)]。

当

表示不缓存任务数据。

S6、奖励定义

当智能体执行动作后，接收到即时奖励，为了实现3C资源优化，本文定义三种奖励：计算奖励r_com(t)，缓存奖励r_cac(t)，和全局奖励，r_b(t)，通过将任务卸载到计算资源充沛的节点，可以降低计算时延，本文将

R_com(t)定义为计算时延减少量，即：

其中η＞0设计参数，表示当计算智能体的卸载决策不能满足约束条件时得到的惩罚，通过将任务数据缓存在网络中，可以减少数据传输时延，从而降低对计算资源的需求，本文将r_cac(t)定义为缓存带来的计算需求减少量，即：

其中

表示将输入数据缓存在位置j带来的传输时延减少量，

和

分别表示传输输入数据和计算结果的传输时延，j＝{1，2，3}分别表示端、边、云三个位置，p_i为任务i的内容流行度，为了实现3C资源的联合优化，将引入全局奖励r_b(t)来衡量计算和缓存决策不一致时导致的额外通信开销，每个智能体在获得本地奖励的同时，还会获得全局奖励

r_b(t)，即：

其中m和n分别表示任务计算位置和任务缓存位置(m，n∈{1，2，3})，e_m，n表示将数据从位置m传输到位置n占用的链路，e_u，d表示将数据从本地传输给空闲终端占用的D2D通信链路。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于多智能体的端边云3C资源联合优化方法，其特征在于，包括以下步骤：

S1、计算任务信息

位于端层的用户u∈Ν＝{1,2,…,N}产生的计算任务i∈Η＝{1,2,…,H}使用五元组ξ_i来表示，ξ_i＝{I_i，O_i，ω_i，τ_i，p_i}，其中I_i和o_i分别表示输入数据和计算结果，ω_i表示任务的计算密度；τ_i表示任务的约束时延；p_i表示任务流行度；输入数据I_i＝[I_i，1，I_i，2，I_i，3]，其中I_i，1∈{0，1}表示任务的输入数据来自于用户(I_i，1＝1)或云服务器(I_i，1＝0)；I_i，2表示输入数据量；I_i，3∈{0，1}表示缓存标识，当I_i，3＝1表示允许缓存，否则不允许缓存，计算结果O_i＝[O_i，1，O_i，2，O_i，3]，定义与输入数据I_i类似。

S2、学习算法模块

S3、优化目标定义

优化目标是最小化所有任务的完成时延，定义如下：

s.t.C₁：

C₂：

C₃：

S4、状态定义

状态S(t)＝{ξ_i,ψ_D(t),ψ_E(t),ψ_E(t),c_i(t)}。

S5、动作定义

S6、奖励定义

2.根据权利要求1所述的一种基于多智能体的端边云3C资源联合优化方法，其特征在于，所述步骤S3中，当用户u产生的计算任务i卸载到节点j处理时，任务完成时延

3.根据权利要求2所述的一种基于多智能体的端边云3C资源联合优化方法，其特征在于，所述步骤S3中，

表示将输入数据从数据源传输到计算节点的时延，

表示将输入数据从缓存节点k传输到计算节点j的时延，

表示任务的计算时延，

为计算节点j分配给任务i的计算资源，

表示将计算结果传输给目的地的时延，R_l数据转发路径上第l条链路的数据率，c_i，j∈(0，1}表示任务i在节点j中的缓存状态，c_i，j＝1表示有缓存，否则无缓存。

4.根据权利要求1所述的一种基于多智能体的端边云3C资源联合优化方法，其特征在于，所述步骤S3中，

5.根据权利要求1所述的一种基于多智能体的端边云3C资源联合优化方法，其特征在于，所述步骤S4中，ξ_i为任务i的信息；ψ_D(t)为D2D网络可用的计算、缓存和带宽资源；ψ_E(t)为边缘服务器可用的计算、缓存和带宽资源；ψ_C(t)为云服务器可用的计算、缓存和带宽资源；c_i(t)为任务i在网络中的缓存状态。

6.根据权利要求1所述的一种基于多智能体的端边云3C资源联合优化方法，其特征在于，所述步骤S5中，计算智能体的动作a_com(t)定义为：

a_com(t)＝[a_com，1(t),a_com，2(t),a_com，3(t)]，其中，a_com，i(t)∈{0，1}表示任务是否在端、边或者云执行，且

缓存智能体的动作a_cac(t)定义为：

a_cac(t)＝[a_cac，1(t),a_cac，2(t),a_cac，3(t)]。

当

表示不缓存任务数据。

7.根据权利要求1所述的一种基于多智能体的端边云3C资源联合优化方法，其特征在于，所述步骤S6中，通过将任务卸载到计算资源充沛的节点，可以降低计算时延，本文将R_com(t)定义为计算时延减少量，即：

8.根据权利要求1所述的一种基于多智能体的端边云3C资源联合优化方法，其特征在于，所述步骤S6中，通过将任务数据缓存在网络中，可以减少数据传输时延，从而降低对计算资源的需求，本文将r_cac(t)定义为缓存带来的计算需求减少量，即：

其中

表示将输入数据缓存在位置j带来的传输时延减少量，

和

分别表示传输输入数据和计算结果的传输时延，j＝{1,2,3}分别表示端、边、云三个位置，p_i为任务i的内容流行度，为了实现3C资源的联合优化，将引入全局奖励r_b(t)来衡量计算和缓存决策不一致时导致的额外通信开销，每个智能体在获得本地奖励的同时，还会获得全局奖励r_b(t)，即：

其中m和n分别表示任务计算位置和任务缓存位置(m,n∈{1,2,3})，e_m，n表示将数据从位置m传输到位置n占用的链路，e_u，d表示将数据从本地传输给空闲终端占用的D2D通信链路。