CN113641504A

CN113641504A - 用于提升多智能体强化学习边缘计算效果的信息交互方法

Info

Publication number: CN113641504A
Application number: CN202111123522.7A
Authority: CN
Inventors: 刘志成; 李沅泽; 赵云凤; 宋金铎; 王晓飞; 仇超
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2021-09-24
Filing date: 2021-09-24
Publication date: 2021-11-12
Anticipated expiration: 2041-09-24
Also published as: CN113641504B

Abstract

本发明公开了一种用于提升多智能体强化学习边缘计算效果的信息交互方法，包括如下步骤：构建基于部分可观察马尔可夫决策过程的边缘计算通信模型；在每个边缘节点上建立用于执行内存读取、内存填充和内存写入操作的共享内存空间；根据用户成本最小化和边缘节点效用最大化目标设定目标优化函数；设置时隙长度，时间帧长度，初始化时隙和时间帧；获取边缘节点的资源分配策略，执行内存填充操作；用户执行内存读取和内存写入操作，同时获取每个用户的计算任务、计算任务数据量和计算能力，获取计算用户的任务卸载策略；利用参与者‑批评者模型对目标优化函数进行优化；对计算任务进行划分并处理。本发明可以使边缘节点和用户的决策效用最大化。

Description

用于提升多智能体强化学习边缘计算效果的信息交互方法

技术领域

本发明属于边缘计算技术领域，具体涉及一种用于提升多智能体强化学习边缘计算效果的信息交互方法。

背景技术

随着科学技术与工业生产能力的不断进步，移动设备的计算与通信能力不断提升，但各类崭新的移动应用也为移动设备提出了更高的业务需求。在一个多边缘多用户的集群中，用户可以选择将任务在本地进行计算或者卸载到边缘设备。为了响应对创新应用程序和用户体验日益增长的需求，计算卸载将计算密集型任务从用户迁移到边缘。边缘设备的计算能力一般强于用户，因此用户有可能通过卸载计算任务取得一些时延与功耗方面的好处。但是如果考虑到边缘可能分配给用户的计算资源过少或者选择卸载计算任务的用户过多造成的网络拥堵，卸载计算任务反而会损害用户的利益。因此用户需要决策是否卸载计算任务，通过哪个信道传输信息以及卸载到哪些边缘设备来最大化自身的利益。同时边缘设备与用户有着不同的利益追求，用户希望最大化自身利益，边缘设备通过配置分配给每一个用户的计算资源，来最大化自己的特定利益，但是边缘设备与用户、用户与用户之间缺少有效的信息交互，这为决策任务增加了困难。计算卸载作为一种具有前景的技术方法，可以帮助资源丰富的基础设施来增强用户设备，首先吸引了云计算领域的重要兴趣，然后在边缘计算中流行起来。边缘计算是云计算的一种发展，主张将集中的云资源推送到网络边缘，从处理延迟、能耗、节省带宽、数据隐私等方面得到好处。

从资源管理决策的角度来看，计算卸载解决了用户设备(以下简称用户)计算资源频繁短缺的问题，并提出了一种由边缘节点(以下简称边缘)制定的资源分配方案。由于单个边缘节点可能没有足够的资源，协同资源分配可以为用户提供服务，以维持服务性能，因此资源分配决策往往伴随着计算卸载决策一同产生。计算卸载与资源分配的联合决策构成了边缘计算中的一系列实际问题的基础，已有大量的论文与专利对这些问题进行了综合性的分析。实施集中决策控制是获得高质量解决方案的直接途径，它会面临理性遵从、用户隐私、决策可扩展性等方面的困境。另一方面，集中决策可能严重损害个体的理性，问题的复杂性逐渐超出传统方法的舒适区。因此，分布式决策方法是解决这一问题的一种有前途的方法。在此之上，已有的分布式工作认为将计算卸载和资源分配相结合能够进一步提高系统性能，但这往往无法通过优化单一类型的角色来实现，已有工作将综合计算卸载和资源分配问题建模为了非线性程序、stackelberg博弈、多时间尺度优化和markov决策过程，但是上述分布式决策的工作往往是从单一的关系来考虑问题，缺乏对不完全信息的关注。

因此，为了进一步协调计算卸载和资源分配，需要一种高效的协调机制来协调，以避免用户之间的竞争冲突，提高边缘的协作能力。近年来基于学习的方法已经逐渐证明了它们在处理边缘计算中一些复杂的资源管理问题上的有效性，其中，多智能体深度强化学习(Multi-agent Deep Reinforcement Learning,MADRL)可以实现智能的分布式决策。特别是，多智能体之间的显式信息交互，一些科研文献也将这种方法描述为“学习如何交流”，这被认为是一种有前途的方法来避免竞争冲突和促进合作行为。然而，针对边缘计算中多个用户和多个边缘节点的计算卸载与资源管理问题，提出一种高效与定制化的方法仍然是一个悬而未决的问题。另外，将多智能体学习应用到边缘计算的资源管理中，特别是扩展到多个决策者资源管理与计算卸载场景中，是近年研究者与工业界备受关注的问题。总的来说，一些已有的研究文献将多智能体学习应用到了协作、竞争或是混合的场景。然而，大多数论文(或专利)尚未发现(或保护)显式信息交互这一机制对提高系统性能的能力。

发明内容

针对现有技术中采用MADRL在资源管理与计算卸载时的性能较低问题，本发明提出了一种用于提升多智能体强化学习边缘计算效果的信息交互方法。

为解决以上技术问题，本发明所采用的技术方案如下：

一种用于提升多智能体强化学习边缘计算效果的信息交互方法，包括如下步骤：

S1，构建基于部分可观察马尔可夫决策过程的边缘计算通信模型，所述边缘计算通信模型包括M+N个智能体，M个智能体为边缘节点，N个智能体为用户；

S2，在每个边缘节点上建立用于执行内存读取、内存填充和内存写入操作的共享内存空间；

S3，根据用户成本最小化和边缘节点效用最大化目标设定目标优化函数；

S4，设置时隙长度τ_max，时间帧长度τ_s，初始化时隙s_t＝1和时间帧s＝1；

S5，调用智能体获取每个边缘节点的内存、算力，利用部分可观察马尔可夫决策过程获取边缘节点的资源分配策略，同时执行内存填充操作；

S6，用户执行内存读取和内存写入操作，同时获取每个用户的计算任务的任务信息，利用部分可观察马尔可夫决策过程获取计算用户的任务卸载策略；

S7，根据任务卸载策略和资源分配策略利用参与者-批评者模型对目标优化函数进行优化；

S8，根据优化后的目标优化函数将计算任务进行划分，划分后的子任务由本地直接处理或者远程卸载到边缘节点处理，待计算任务处理完成后判断时间帧s是否小于时间帧长度τ_s，若是执行s＝s+1并返回步骤S6，否则判断时隙s_t是否小于时隙长度τ_max，若是执行s_t＝s_t+1并返回步骤S5，否则结束。

在步骤S3中，所述目标优化函数的表达式为：

max_Λ(-U₁，-U₂，...，-U_n，...，-UN，V₁，V₂，...，V_m，...，V_M)；

目标优化函数的约束条件为：

式中，

代表笛卡尔积，

是边缘节点m的资源分配策略的所有可行解，U_n表示用户n在一个时隙内处理计算任务的总成本，V_m表示边缘节点m在一个时隙内的效用，Λ表示τ_s个时间帧内的联合决策，联合决策Λ＝

其中，a^[s]表示第s时间帧内所有用户的信道决策集合，b^[s]表示第s时间帧内所有用户的边缘节点选择配置集合，K表示用户的计算任务无线传输时的信道，f为资源分配策略。

边缘节点m在一个时隙内的效用V_m的计算公式如下：

效用V_m的约束条件为：

式中，

为递减函数，

表示边缘节点m在第s时间帧的效用，

表示用户n在第s时间帧的信道决策，

表示在第s时间帧用户n将计算任务的计算转移到边缘节点m的概率，

表示用户的集合，1_{·}为指标函数。

10.用户n在一个时隙内处理计算任务的总成本U_n的计算公式为：

式中，

表示用户n在第s时间帧的信道决策，

表示用户n在第s时间帧的本地计算成本，

表示用户n在第s时间帧的远程卸载成本，t_{·}为指标函数；

用户n在一个时间帧内的本地计算成本

的计算公式为：

式中，

表示用户n处理计算任务的执行时间

的权重因子，

表示用户n处理计算任务的能量消耗

的权重因子；

用户n在一个时间帧内的远程卸载成本

的计算公式为：

式中，

表示用户n完成计算任务远程卸载的需求时间，

表示用户n的计算任务在整个传输过程中的能量消耗。

当用户n的计算任务本地处理时，执行时间

的计算公式为：

式中，C_n(t)表示将用户n的计算任务划分为一个子任务时的处理周期，

表示用户n的计算能力。

当用户n的计算任务本地处理时，能量消耗

的计算公式为：

式中，

表示用户n本地处理计算任务时的计算功率。

当用户n的计算任务远程卸载处理时，所述需求时间

的计算公式为：

式中，

表示完成用户n计算任务用时最长的一个边缘节点所用时间，

表示用户n的计算任务的无线传输时间，

表示计算任务在关联边缘节点ω(n)与边缘节点m之间传输时的时延，

表示边缘节点m处理用户n卸载的计算任务的执行时间，b_n，m表示用户n将计算任务的计算转移到边缘节点m的概率；

当用户n的计算任务远程卸载处理时，计算任务在整个传输过程中的能量消耗

的计算公式为：

式中，p_n表示用户n的无线传输功率。

所述用户n的计算任务的无线传输时间

的计算公式为：

式中，D_n表示用户n通过信道卸载的计算任务的数据量，R_n(a)表示用户n与关联边缘节点ω(n)之间的无线传输速率，

为修复值。

在步骤S4中，所述资源分配策略表示为f＝[f_t，f₂，...，f_m，...，f_M]，其中，f_m表示边缘节点m的资源预算，资源预算f_m的表达式为：

f_m＝[f_m，1，f_m，2，...，f_m，n，...，f_m，N]^T；

资源预算f_m的约束条件为：

式中，f_m，n表示边缘节点m为与其相连的用户n所分配的算力，

表示边缘节点m的总算力，f_m表示边缘节点m的资源预算，

表示边缘节点的集合，

表示用户的集合。

在步骤S2中，所述内存写入操作的公式为：

内存写入操作公式的约束条件为:

式中，

表示共享内存空间中所存储信息向量的信息内容折扣的因子值，

表示用户n写入用户n的关联边缘节点ω(n)的信息向量在位置x处的值，

表示写入的信息向量在位置k处的值，

表示用户写入信息向量的长度，

表示共享内存空间中所存储的信息向量的行数。

本发明的有益效果：

本发明将部分可观察马尔可夫决策过程和参与者-批评者模型相结合能够显著提高MADRL在资源管理与计算卸载问题中的性能，能够有效减少计算任务完成时延，减少用户终端能量消耗，提升用户体验，对于时延敏感型任务的完成与提升能源受限的移动计算场景中的用户体验具有重要意义。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为边缘计算通信模型的示意图。

图2为每一时间帧下用户和边缘节点的奖励。

图3为不同用户计算能力下用户和边缘的平均奖励。

图4为卸载任务成功率的比较示意图。

图5为不同边缘计算能力下用户和边缘的平均奖励。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了应对终端设备处理能力不足、资源有限等问题，业界在移动边缘计算(MEC)中引入了计算卸载概念。边缘计算卸载即用户终端(UE)将计算任务卸载到MEC网络中，主要解决终端设备在资源存储、计算性能以及能效等方面的不足。计算卸载是MEC中的关键技术，主要包含卸载决策和资源分配两个部分，其通过有效的卸载决策和资源分配方案合理安排用户终端将计算任务卸载至MEC服务器，同时分配资源进行任务计算，以降低系统的时延和能耗。

一种用于提升多智能体强化学习边缘计算效果的信息交互方法，如图1所示，包括如下步骤：

S1，基于部分可观察马尔可夫决策过程(Partially Observable MarkovDecision Process，POMDP)构建边缘计算通信模型，所述边缘计算通信模型包括M+N个智能体，M个智能体为边缘节点，N个智能体为用户；

所述边缘计算通信模型设置在某一地理区域内，包括均为智能体的用户和边缘节点，用户采用

表示地理区域内所有用户的集合，边缘节点采用

表示地理区域内所有边缘节点的集合，用户与边缘节点之间基于OFDMA(Orthogonal Frequency Division MultipleAccess，正交频分多址)进行无线通信，不同的边缘节点之间通过光纤进行有线通信。用户n拥有一个密集型的计算任务要处理，每个边缘节点上均部署了一个用于论证用户n的计算能力的无线接入点，每个用户均通过无线通信与一个边缘节点上的无线接入点连接，该用户与其关联的无线接入点之间的距离为单跳，边缘节点通过有线光纤连接到其它边缘节点，且边缘节点之间有一个固定的时延

其中，边缘节点

和边缘节点

若边缘节点m和边缘节点m′相同，则时延

本实施例中，所述地理区域的范围为几百米；所述无线接入点为微型基站。

由于计算卸载决策和资源分配决策具有不同的时间敏感性，现将离散时间划分为两个时间尺度，并且假设场景是准静态的。每个时间尺度内包含τ_max个时隙，每个时隙均包含τ_s个时间帧，在一个时间帧内边缘节点和用户的状态均保持不变，每个用户n均拥有固定数量的计算能力

用于本地计算，边缘节点m分配给到用户n的计算资源

用于服务。资源分配决策是指在每个时隙的开始处，每个边缘节点决定分配给每个用户的计算资源的数量。计算卸载决策是指每个用户在每一个时间帧中，都需要考虑是否卸载计算任务以及将计算任务卸载到哪些边缘节点。

所述计算任务表示为[D_n，C_n(x′)]，其中，D_n表示用户n通过无线链路卸载计算任务的数据量，C_n(x′)是将用户n的计算任务划分为x′个子任务时，每个子任务的平均处理周期，且x′个子任务可以以平行且负载平衡的方式执行，其中，

表示一个计算任务中所包含最大子任务的数量，本实施例中，

所述基于OFDMA的无线通信考虑了多区域多用户的OFDMA网络的上行传输，OFDMA网络的频谱被划分为若干个信道，信道的集合采用

来表示。将a_n∈{0}∪K表示为用户n的信道决策，如果用户n的信道决策a_n＝0，表示用户n决定不访问任何信道并在本地处理计算任务，否则用户n通过a_n∈{0}∪K信道连接至用户n的关联边缘节点ω(n)，且关联边缘节点

即为用户n直接关联到的边缘节点，所有用户的信道决策集合为a＝[a₁，a₂，…a_n，...，a_N]。

所述共享内存空间用于存储信息向量，为

存在于边缘节点m上，大小为

用于边缘节点和用户之间进行信息交互，信息可以为边缘节点算力的利用情况、用户任务的到达频率等有助于任务决策的信息，

表示共享内存空间中所存储信息向量的行数，

表示共享内存空间中所存储信息向量的列数。

内存读取操作：在采取动作之前，每个边缘节点可以访问自己的内存，得到一个长度为

的信息向量

每个用户也可以从与它相连的边缘节点的共享内存空间中获得一个信息向量

表示信息向量所有可能的取值。利用这个信息向量可以使每个智能体对整个系统有更多的感知，从而提高其决策能力。

内存填充操作:每个边缘节点在读取内存信息后，执行一个内存填充操作，同时进行资源决策重写内存内容，即生成

并使

其中

的长度与

的长度相等。

内存写入操作:在每一个时间帧中，每一个用户读取共享内存空间生成一个长度为

的信息向量

之后执行下面的计算：

式中，

表示共享内存空间中所存储的信息向量的信息内容折扣的因子值，

表示用户n写入关联边缘节点ω(n)的信息向量在位置x处的值，

表示写入信息向量在位置k处的值，

表示写入信息向量的长度。

本实施例中，现有信息内容折扣的因子值

和

所述目标优化函数为：

max_Λ(-U₁，-U₂，…，-U_n，...，-U_N，V₁，V₂，...，V_m，...，V_M)；

目标优化函数的约束条件为：

式中，

代表笛卡尔积，

其中，a^[s]表示第s时间帧内所有用户的信道决策集合，b^[s]表示第s时间帧内所有用户的边缘节点选择配置集合，且b＝[b₁，b₂，...，b_n，...，b_N]。

所述边缘节点选择配置b_n＝[b_n，1，b_n，2，…，b_n，m，...，b_n，M]^T，b_n，m表示用户n将计算任务的计算转移到边缘节点m的概率，若用户n决定将计算任务的计算转移到边缘节点m，则b_n，m的值为1，否则为0。

本发明将每个时隙视为一个独立的边缘节点的决策过程，将每个时间帧视为用户独立决定是否卸载任务或卸载到哪些边缘节点的决策过程，目标优化函数综合考虑了用户的个体理性即每个用户都做出最小化处理自己计算任务的代价的决定、边缘节点的集体合理性即存在至少一个联合决策，其中每个边缘节点不能在减少另一个边缘节点效用的情况下提高其效用。这是一个高复杂度的多目标混合整数优化问题，一般为NP-hard问题，甚至不能保证存在一个稳定解。考虑到这种混合关系，专注于一个方面的优化可能会导致其他方面的性能下降。此外，由于通信延迟和用户隐私等原因，在层次结构中也很难实现信息完全的条件。

所述边缘节点m在一个时隙内的效用V_m的计算公式如下：

效用V_m的约束条件为：

式中，

为递减函数，

表示边缘节点m在第s时间帧的效用，

表示用户n在第s时间帧的信道决策，

表示在第s时间帧用户n将计算任务的计算转移到边缘节点m的概率，1_{·}为指标函数，如果指标函数对应的表达式为真则指标函数的值为1，否则其值为0。

所述递减函数

为平滑的、有界的单调递减函数，其公式为：

式中，

表示边缘节点m的权重因子，且

表示用户n在第s时间帧内完成计算任务远程卸载的需求时间，

表示用户n在第s时间帧本地处理计算任务的执行时间。

所述用户n在一个时隙内处理计算任务的总成本U_n的计算公式为：

式中，

表示用户n在第s时间帧的信道决策，

表示用户n在第s时间帧的本地计算成本，

表示用户n在第s时间帧的远程卸载成本。

用户n在一个时间帧内的本地计算成本的计算公式为：

式中，

表示用户n处理计算任务的执行时间

的权重因子，

表示用户n处理计算任务的能量消耗

的权重因子，且

两个权重因子可以定量地反映用户n在不同条件下的需求偏好，确保了执行时间和能量消耗之间的权衡，

表示用户n的本地计算成本，是指用户n本地处理计算任务时的成本也即信道决策a_n＝0时的成本。

当用户n的计算任务本地处理时，执行时间

的计算公式为：

式中，C_n(1)表示将用户n的计算任务划分为一个子任务时的处理周期，

表示用户n的计算能力。

当用户n的计算任务本地处理时，能量消耗

的计算公式为：

式中，

表示用户n本地处理计算任务时的计算功率。

用户n在一个时间帧内的远程卸载成本的计算公式为：

式中，

表示用户n的远程卸载成本，是指用户n的计算任务通过远程卸载完成也即信道决策a_n＞0时的成本，

表示用户n完成计算任务远程卸载的需求时间，

表示用户n的计算任务在整个传输过程中的能量消耗。

所述需求时间

是指计算任务在用户n和选择的边缘节点之间无线传输的无线传输时间、计算任务在边缘节点上处理的执行时间、计算任务在边缘节点之间有线传输的有线传输时间三者的加总，需求时间

的计算公式为：

式中，

表示完成用户n计算任务用时最长的一个边缘节点所用时间，也就是用户n完成计算任务花费的时间，

表示用户n的计算任务的无线传输时间，

表示边缘节点m处理用户n卸载的计算任务的执行时间。

所述无线传输时间

的计算公式为：

式中，D_n表示用户n通过信道卸载计算任务的数据量，R_n(a)表示用户n与关联边缘节点ω(n)之间的无线传输速率，

为修复值，表示卸载用户n的当前计算任务失败。

所述无线传输速率R_n(a)通过香农定理得到，其计算公式为：

式中，W表示信道带宽，I_n表示用户n和无线接入点之间的干扰，g_n表示用户n和关联边缘节点ω(n)上的无线接入点之间的信道增益，p_n表示用户n的无线传输功率，σ²表示高斯噪声。

所述用户n和无线接入点之间的干扰I_n的计算公式为：

式中，o_j表示用户j的无线传输功率，g_j表示用户n和关联边缘节点ω(j)上的无线接入点之间的信道增益，a_j表示用户j的信道决策，1_{·}为指标函数，如果指标函数对应的表达式为真则指标函数的值为1，否则其值为0。

所述边缘节点m处理用户n卸载的计算任务的执行时间

的计算公式为：

式中，f_n，m表示边缘节点m分配给用户n的算力，

表示将计算任务分配到所有被选择的边缘节点上时计算任务的计算量。

所述计算任务在整个传输过程中的能量消耗

的计算公式为：

当用户n决定远程卸载它的计算任务时，计算任务将被卸载到一个或多个边缘节点。在确定边缘节点选择后，将用户n的计算任务划分为对应的若干个子任务后通过无线链路和有线链路传输到选中的边缘节点，然后将相应的子任务独立并行处理，待所有处理过程结束后得到任务结果。

所述资源分配策略是指一个时隙内所有边缘节点的资源预算的集合，资源分配策略表示为f＝[f₁，f₂，...，f_m，...，f_M]，其中，f_m表示边缘节点m的资源预算。

所述资源预算f_m是指边缘节点m分配给每个用户的计算资源的数量，资源预算f_m的表达式为：

f_m＝[f_m，1，f_m，2，...，f_m，n，...，f_m，N]^T；

资源预算的约束条件为：

表示边缘节点m的总算力，f_m表示边缘节点m的资源预算。

所述POMDP可以表示为

其中，

包含环境中的所有状态包括但不限于用户的计算任务卸载策略，当前用户与边缘节点的资源占用情况，当前的网络拥塞情况，

包含N个用户智能体和M个边缘节点智能体的观测值，

是一组可能的行动，相当于资源分配策略和计算任务卸载策略。每一个智能体i根据一个以θ_i为参数的策略函数

执行一个行动，且边缘节点智能体每τ_s步做出一个决策，在其它时间保持之前的决策，用户在每个时间帧s中都需要做出一个决策，即需要考虑是否卸载计算任务及卸载到哪些边缘节点。多智能体将联合决策传递到环境中，根据状态转移方程

输出一个新状态

和一个立即的反馈

该反馈也即奖励由智能体i接收。每个智能体都致力于通过学习一项好的政策来最大化其预期的折扣未来奖励

其中，γ是长期收益的折现因子，

表示智能体i在t时刻的动作，i∈{1，2，…，M+N}，s^t表示在t时刻环境的状态。

边缘节点的观测空间

是每个边缘节点m可能观测的空间，其中

是环境最初提供给边缘节点m的观测，

包含内存读取操作返回的所有可能值。观测

元素

是长度为

的向量，元素

是长度为

的向量，元素

是长度为

的向量。对于元素

和元素

满足以下条件时，元素值为1，不满足条件时值为0，第一个条件是向量索引为i′的用户是否在边缘节点m的无线接入点的覆盖范围内，第二个条件是具有向量索引i′的用户是否与边缘节点m直接相关，其中向量索引

为集合

中第i′大的值。元素

的值包括集合

中的每个用户在过去的

的时隙内将计算任务加载到边缘节点m的百分比，这些值在决策开始时在0到1之间随机生成。

用户的观测空间

是每个用户n可能观测到的空间，其中

为环境最初提供的观测值，

是通过用户n执行内存读取操作获得的，

是通过基于消息的协调机制获得的信息向量。

其中

表示任务信息

表示将用户n的计算任务划分为

个子任务时，每个子任务的平均处理周期，

是长度为

的向量，向量

是采用one-hot形式表示了子任务的数量。例如[0，0，0，0，0，0，0，0，0，1]代表这个计算任务有十个子任务。

边缘节点的动作空间

是每个边缘节点m的可能的动作，

包含了所有可能的资源分配策略。

包含了所有可能的内存信息向量，

包含了所有的发送信息向量也即是指边缘节点发送给用户的联合信息。资源分配策略

其中，

是一个从0到10的离散值，表示除关联用户之外的用户可用资源的数量。

是一个长度为

的向量，在其集合中为非直接相连用户打分以便选择用户去服务。

给出所选用户和相关用户所分配资源的比例值，其中每个值在1到3之间，表示分配给所选用户的资源比例。

用户的动作空间

是每个用户n的可能操作空间

是一个离散空间，表示用户n可能的信道选择。

也是一个离散的空间，它列举了所有组合表明集合

中可能的任务卸载策略。

表示用户n对于内存消息向量的所有可能的写入操作。

边缘节点和用户的奖励：u_n和v_m分别作为用户n和边缘节点m的奖励。

所述基于消息的协调机制是针对边缘节点的决策所设计的一个额外的消息发送行动。即每个边缘节点需要去产生一个长度为

的信息向量

其中包括长度为

的公开信息与长度为

的私有信息。相应地，每个用户也将从集合

中的边缘节点收到一个长度为

的信息向量

所述消息发送行动过程为：每个边缘节点联合其公开信息和存在于集合

中的私有信息，联合后的消息分别发送给每个用户，每个用户可以从集合

中总共接收到

条信息，并根据发送边缘节点的索引对这些消息进行排序，将它们连接起来形成接收到的信息向量。

所述集合

与集合

的生成过程如下文所述：考虑到边缘节点和用户之间存在M×N个资源连接，当数量较大时，会严重影响状态和动作的维数。为了降低环境的维数，预设M个大小为

的集合，N个大小为

的集合，并保证

表示预设用户集合的大小，

表示预设边缘节点集合的大小。另定义了M个空集合

为了边缘节点和N个空集

为了用户。

集合

和集合

通过以下方法获得：

首先判断集合

的大小是否小于等于

集合

表示预设关联边缘节点集合。如果是，用户n被放入集和

关联边缘节点ω(n)被放入用户集合

根据用户集合

可以确认用户n的消息渠道。对于所有用户，设关联边缘节点ω(n)为m，当边缘关联节点集合

并且

时，

表示边缘节点m的集合，随机的选择用户n∈N并且边缘节点

执行上述两个操作直到

这样，每个用户n都有

个潜在资源提供者，其中大多数情况下包括了与其关联的边缘节点，所有边缘节点也得到了相同数量的用户去服务。

在强化学习算法的基础上，针对每个边缘节点和每个用户分别设计了一个参与者-批评者模型，并分别使用gumble-softmax和argmax离散神经网络在训练和推理过程中的连续输出。在每个参与者-批评者模型中，有两种神经网络用于逼近行为者，用策略函数P_i表示相应的批评，用行动-价值函数Q_i表示以最大化目标函数

学习的目标是通过在梯度方向上调整参数来实现的，例如

使J(θ_i)最大化的结果算法的梯度为：

式中，

是一个重放缓冲区，包含(o_i，α_i，r_i，o′_i)形式的转换。o_i，α_i，r_i和o′_i是智能体i在重放缓冲区

中的观测值、动作、奖励和下一个观测值，动作-价值函数Q_i被更新为：

式中，y表示目标Q值。

式中，P′_i是参数为θ′_i的策略函数，α′_i是智能体i的下一个动作，Q′_i是一个目标网络，该目标网络的参数使用Q′_i的当前参数进行周期性更新，使训练更加稳定。就整体而言，

最小化当前和目标动作状态函数之间的差异期望。

S8，根据优化后的目标优化函数将计算任务进行划分，划分后的子任务由本地直接处理或者远程卸载到边缘节点处理，待计算任务处理完成后判断时间帧s是否小于时间帧长度τ_s，若是执行s＝s+1并返回步骤S5，否则判断时隙s_t是否小于时隙长度τ_max，若是执行s_t＝s_t+1并返回步骤S4，否则结束。

工业智能制造领域出于提升产品质量的需求，往往需要通过人工智能技术实现图像识别，缺陷探测，危险预警等任务。处于工业制造环境与成本的考虑，工厂往往无法将全部的大量的深度学习任务在本地完成计算，需要将任务部分卸载到云端。在拥有多个本地设备与云端设备联合计算的情况下，本发明可以更合理的分配计算任务，带来整体的效益提升，以下基于真实EUA数据集进行模拟评估：

评价设置：考虑一个边长为300米的正方形区域，包括8个基站和42个移动设备。每个基站的覆盖半径在[100,150]米内随机生成，每个基站部署边缘服务器，提供资源支持计算卸载。在无线接入方面，设置用户设备的传输功率为0.1瓦特，通信信道的带宽为5mhz，信道数为5。所有信道的通信增益建模为独立的瑞利衰落，功率损耗系数为-4，背景噪声为-100dBm。在计算方面，用户设备的计算能力随机分配在[1,1.5]GHz，计算功率为1瓦特，边缘服务器的计算能力随机分配在[16,48]GHz。所有加权因子随机分布在[0,1]。对于计算任务，每个任务生成的数据大小在100～400kb之间，4成任务所需的CPU周期平均为1千兆周。每个用户在每一帧中生成任务的概率在0.4到0.8之间，并随着时间的推移而逐渐变化。

模式设置：对于每个学习智能体，采用了105个经验重放缓冲区，并选择了64个小批量进行训练。此外，使用ADAM作为优化器，参与者的学习率为10^-3，批评家的学习率为10^-4，折扣因子为0.95。为每种情况下的每个智能体训练了100次，每次有20个时隙和200时间帧，其中一半的时隙用于训练。为了在重放缓冲区中收集足够数量的样本进行学习，在第十次开始学习过程。

评估基线和度量：将本发明与以下四种基线方法进行比较。·Local:所有计算任务都在本地处理。·Direct:对于每个任务，用户有一半的机会执行本地处理，一半的机会通过随机访问通道将其任务卸载到连接的边缘服务器。每个边缘服务器将其资源平均分配给关联的用户。·Random随机:每个用户随机选择访问通道、任务划分策略和子任务卸载目的地，每个边缘服务器将自己的资源平均分配给可能申请资源的用户。·DDPG(DeepDeterministic Policy Gradient，深度确定性策略梯度):边缘服务器和用户都是通过DDPG来获得动作的。L6C:L6C即本发明，在DDPG的基础上加入了本发明所述的信息交互方法。

如图2所示展示了两种基于深度强化学习的学习方案在训练过程中的奖励，说明了本发明的积极作用。随着训练时间的增加，两种基于学习的方案首先做出随机决策，然后逐渐学习它们的行动模式，最后使奖励逐渐稳定。如图3所示显示了不同用户计算能力下用户和边缘的平均奖励。结果表明，基于学习的决策方法能够很好地解决复杂问题，本发明在平均用户奖励和平均边缘奖励方面都优于四种基线方法。

如图4所示显示了不同方案对卸载任务成功率的比较，所提出的框架也表现得很好。与DDPG相比，本发明的平均边缘奖励、平均用户奖励和卸载成功率分别提高了61.14％、7.31％和9.36％。此外，与Direct方法相比，L6C的卸载成功率提升了1.28％。

如图5所示，图(a)和图(b)分别是不同边缘计算能力下用户和边缘节点的平均奖励。通过合理的参数设置，将边缘计算能力的参数控制在0.75～1.25倍之间。此外，边缘节点的数量相对小于用户的数量。因此，增加系统的边缘计算资源对性能并没有明显的改善。然而，本发明在平均边缘奖励和平均用户奖励方面领先于其它4个基线。图(c)显示了边缘资源利用的变化情况，从图中可以看出基于学习的方法能够更好地利用边缘资源，本发明更是如此。与DDPG方案的边缘计算能力相比，本发明的平均边缘奖励、平均用户奖励和边缘资源利用率分别领先84.65％、15.51％和14.60％。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。