CN116341685B

CN116341685B - 基于联合注意力的分布式计算卸载模型训练方法和系统

Info

Publication number: CN116341685B
Application number: CN202310627166.5A
Authority: CN
Inventors: 魏振春; 杭大为; 吕增威; 徐娟; 石雷; 樊玉琦
Original assignee: Intelligent Manufacturing Institute of Hefei University Technology
Current assignee: Intelligent Manufacturing Institute of Hefei University Technology
Priority date: 2023-05-31
Filing date: 2023-05-31
Publication date: 2023-07-21
Anticipated expiration: 2043-05-31
Also published as: CN116341685A

Abstract

本发明涉及边缘计算技术领域，尤其是一种基于联合注意力的分布式计算卸载模型训练方法和系统。本发明提出的一种基于联合注意力的分布式计算卸载模型训练方法，首先结合全网状态对全局网络模型进行参数训练，将全局网络模型收敛后的参数泛用于各个边缘网络模型，然后再对各个边缘网络模型进行本地训练。通过全局网络模型的参数下放，大大提高了本地训练的收敛速度。本发明提出的一种基于联合注意力的分布式计算卸载方法，采用本发明训练方法训练子网决策模型决策子网中各计算任务的卸载位置，实现了更高的卸载成功率和更低的能耗。且本发明训练的子网决策模型在异构子网上的表现更加平均、稳定。

Description

基于联合注意力的分布式计算卸载模型训练方法和系统

技术领域

本发明涉及边缘计算技术领域，尤其是一种基于联合注意力的分布式计算卸载模型训练方法和系统。

背景技术

近些年来，移动通信技术飞速发展，各种计算密集型应用不断涌现，如：人脸识别、虚拟/增强现实（VR/AR）、自动驾驶等等。这些应用导致用户对移动设备的计算功能和存储功能的需求大大增加。然而，由于计算资源和电池容量的有限，移动设备无法支持计算密集型应用。针对上述问题，多接入边缘计算（MEC）是一种较有希望的解决方案。通过将车辆所携带的计算任务卸载到移动设备周围基站所配置的MEC服务器上，使得原本需要在移动设备上计算和分析的任务可以在周围进行。这有效地缓解了移动设备计算和存储能力不足的问题。

为使MEC在现实生活中有效落地，如何获得最优卸载决策成为一个重要的问题。最优卸载决策问题作为一个NP-hard（非确定性多项式）问题，利用传统的优化算法往往难以有效的获得最优卸载决策。得益于强化学习的出现，可以把计算卸载的过程看成一个马尔科夫决策过程，将边缘卸载问题抽象为马尔科夫模型，设计智能体，并在智能体和环境的交互过程中使得智能体学到适合当前边缘网络的决策过程。

然而，当使用强化学习做出边缘卸载决策问题，往往会产生两个问题：一方面，由于策略参数初始分布随机性过大，算法收敛速度较慢；另一方面，由于异构网络之间的环境差异较大，算法在一个环境收敛后得到的参数常常无法迁移到另一个网络。

发明内容

为了克服上述现有技术中边缘卸载决策收敛慢泛化性差的缺陷，本发明提出了一种基于联合注意力的分布式计算卸载模型训练方法，可结合强化学习提高全局网络模型的泛化性，获得快速收敛的子网决策模型。

本发明提出了一种基于联合注意力的分布式计算卸载模型训练方法，用于获取分布式网络中各子网的子网决策模型，子网决策模型用于根据子网的状态决定子网当前计算请求列表中第一个任务的卸载位置；

所述基于联合注意力的分布式计算卸载模型训练方法包括以下步骤：

S1、构建基础模型，基础模型包括：全局网络模型和边缘网络模型；全局网络模型运行在云端，全局网络模型包括全局动作网络、全局评价网络和全局注意力网络；边缘网络模型与子网一一对应，边缘网络模型运行在对应的子网中任一个边缘服务器上；边缘网络模型包括局部动作网络和局部评价网络；各边缘网络模型设有一一对应的经验池；

局部动作网络与全局动作网络的结构相同，局部评价网络与全局评价网络的结构相同；时隙t上，第n个子网的边缘网络模型中，局部动作网络的输入为该子网的状态S(n,t)，局部动作网络的输出为动作a(n,t)；局部评价网络的输入为子网的状态S(n,t)和动作a(n,t)，其输出为对动作a(n,t)的局部评价值V(n,t)；

S(n,t)={Ex(n,t);Tp(n,t);C(n,t);U(n,t)}

Ex(n,t)表示时隙t上第n个子网内各边缘服务器收到的用户的计算请求列表；Tp(n,t)表示时隙t上第n个子网内各边缘服务器间的传输功率矩阵；C(n,t)表示时隙t上第n个子网内各边缘服务器的计算能力列表；U(n,t)表示时隙t上第n个子网内各边缘服务器的计算速度列表；

a(n,t)∈{0,1,2…,g(n)…,G(n)}

a(n,t)=0，表示任务L(n,t)在云端上执行；L(n,t)表示Ex(n,t)中的第一计算任务；a(n,t)=g(n)，表示任务L(n,t)在第n个子网中第g(n)个边缘服务器上执行，g(n)表示第n个子网中的边缘服务器的序号，G(n)表示第n个子网中边缘服务器的总数，1≤g(n)≤G(n)；

时隙t上，全局注意力网络的输入为全局状态S(t)，全局注意力网络的输出为全局注意力状态SA(t)，全局评价网络的输入为SA(t)，全局评价网络的输出为全局评价值V(t)；

S(t)={S(1,t);S(2,t);…;S(n,t);…;S(N,t)}

N表示分布式网络中子网总数量，n为序数，1≤ n≤ N；

S2、初始化全局网络模型，将局部动作网络的参数同步为全局动作网络的参数，将局部评价网络的参数同步为全局评价网络的参数；

S3、各边缘网络模型基于对应的子网构建经验样本{S(n,t);a(n,t);S(n,t+1);r(n,t)}添加到对应的经验池中，直至各经验池更新的经验样本数量达到设定的第一阈值；S(n,t+1)表示第n个子网在状态为S(n,t)时执行动作a(n,t)后的状态，r(n,t)为第n个子网在状态为S(n,t)时决策的动作a(n,t)的奖励，r(n,t)根据设定的奖励函数计算获得；

S4、结合各边缘网络模型的经验池获取M个时隙上的全局状态，构建全局状态集合SM={S(t1),S(t2),…,S(tm),…S(tM)}，S(tm)表示时隙tm上的全局状态，S(tm)={S(n,tm);1≤n≤N}；m为序数，tm表示从经验池中随机选择的第m个时隙，1≤m≤M；

S5、从全局状态集合SM中随机选择时隙tm上的全局状态S(tm)输入全局注意力网络，全局注意力网络提取全局状态S(tm)的全局注意力状态SA(tm)并输入全局评价网络，全局评价网络根据全局注意力状态SA(tm)输出全局评价值V(tm)；

S6、结合设定的第一损失函数反向更新全局注意力网络和全局评价网络，将全局状态S(tm)从全局状态集合中删除；

S7、判断全局状态集合SM是否清空；否，则返回步骤S5；是，则结合第一损失函数对全局动作网络进行策略梯度更新；

S8、判断全局网络模型是否达到收敛条件；否，则将全局动作网络的参数赋予各边缘网络模型的局部动作网络，然后返回步骤S3；是，则将全局动作网络的参数赋予各边缘网络模型的局部动作网络，将全局评价网络的参数赋予各边缘网络模型的局部评价网络，然后各边缘网络模型进行本地学习；

当边缘网络模型本地学习结束，则提取局部动作网络作为子网决策模型。

优选的，S8之后，通过以下步骤S9-S13实现边缘网络模型本地学习；

S9、各边缘网络模型基于对应的子网构建经验样本{S(n,t);a(n,t);S(n,t+1);r(n,t)}添加到对应的经验池中，直至各经验池添加的经验样本数量达到设定的第二阈值；

S10、从经验池中随机选择一个经验样本{S(n,t);a(n,t);S(n,t+1);r(n,t)}，将状态S(n,t)和动作a(n,t)输入对应的局部评价网络，局部评价网络输出动作a(n,t)对应的局部评价V(n,t)；

S11、基于设定的第二损失函数对局部动作网络进行反向更新，基于第二损失函数对局部评价网络进行策略梯度更新；

S12、判断边缘网络模型的更新次数是否达到设定的第三阈值；否，则返回步骤S10；是，则执行以下步骤S13；

S13、判断边缘网络模型是否达到收敛条件；否，则返回步骤S9；是，则固定边缘网络模型参数，提取局部动作网络作为子网决策模型。

优选的，经验池中经验样本的更新包括以下步骤：

St1、初始化第n个子网的状态S(n,t)；

St2、将第n个子网的状态S(n,t)输入对应的边缘网络模型，边缘网络模型的局部动作网络输出动作a(n,t)；获取该子网在状态为S(n,t)时执行动作a(n,t)后的状态记作下一个状态S(n,t+1)，计算动作a(n,t)对应的奖励r(n,t)；

St3、构建经验样本{S(n,t);a(n,t);S(n,t+1);r(n,t)}存储到第n个子网的经验池中；

St4、判断生成的经验样本是否达到设定的样本阈值；否，则令t更新为t+1，然后返回步骤St2；是，则经验池更新完成。

优选的，第二损失函数的计算公式为：

Ld(n,t)=r(n,t)-V(n,t)

其中，Ld(n,t)表示第二损失函数值。

优选的，S13中，边缘网络模型的收敛条件为第二损失函数值小于设定的第二损失阈值；或者为S9-S12的执行次数大于或者等于设定的第二迭代阈值；

S8中全局网络模型的收敛条件为第一损失函数值小于设定的第一损失阈值；或者为S3-S7的执行次数大于或者等于设定的第一迭代阈值。

优选的，奖励函数为：

r(n,t)=-(α(n)×T(n,t)+β(n)×E(n,t))

其中，T(n,t)表示任务L(n,t)的传输时延；E(n,t)表示任务L(n,t)的卸载能耗；L(n,t)表示第n个子网时隙t上的计算请求列表Ex(n,t)中的第一个任务；α(n)为第n个子网设置的时延权重，β(n)为第n个子网设置的能耗权重。

优选的，第一损失函数的计算公式为：

TD=∑_n=1 ^N _r(n,tm)-V(tm)

其中，TD表示第一损失函数值，r(n,tm)表示状态S(n,tm)所在经验样本中的奖励。

本发明还提出了一种基于联合注意力的分布式计算卸载方法，可实现分布式网络中各子网计算任务的高成功率低能耗的快速卸载，该卸载方法包括以下步骤：

SA1、采用所述的基于联合注意力的分布式计算卸载模型训练方法，获取分布式网络中各子网的子网决策模型；

SA2、将各子网的当前状态输入子网决策模型，子网决策模型输出决策的动作；

SA3、子网将计算请求列表中的第一个计算任务发送到决策的动作指向的边缘服务器进行卸载。

本发明还提出了一种基于联合注意力的分布式计算卸载系统，用于承载上述的基于联合注意力的分布式计算卸载方法，该系统包括存储器，存储器中存储有计算机程序，所述计算机程序被执行时用于实现所述的基于联合注意力的分布式计算卸载方法。

优选的，还包括处理器，处理器与存储器连接，处理器用于执行所述计算机程序以实现所述的基于联合注意力的分布式计算卸载方法。

本发明的优点在于：

（1）本发明提出的一种基于联合注意力的分布式计算卸载模型训练方法，首先结合全网状态对全局网络模型进行参数训练，将全局网络模型收敛后的参数泛用于各个边缘网络模型，然后再对各个边缘网络模型进行本地训练。通过全局网络模型的参数下放，大大提高了本地训练的收敛速度。

（2）本发明在全局训练过程中，通过布置在子网中的子网智能体即边缘网络模型与异构子网环境进行交互，获得经验数据并上传；通过注意力机制实时更新对各子网环境的关注度，整合各子网环境，形成对全局环境的判断并训练全局智能体即全局网络模型。本发明中基于联合注意力训练全局网络模型，提供了一套适用于各异构子网场景下的内层算法模型参数为目标进行全局环境学习，使得算法能迅速适应各种场景的需要。子网智能体以子网马尔科夫模型下定义的优化函数为最终优化目标，即使得时延和能耗的加权和最小。

（3）采用本发明提出的联合注意力机制的分布式计算卸载算法（DAO）对分布式网络的计算任务进行求解，算法从宏观上分为两层，外层为全局训练，可提供一种适用于各异构子网的模型参数；内层为模型的本地训练，可使得模型在复制全局参数后进一步基于本地子网环境进行特异性学习。内外两层配合，即实现了模型的快速收敛，又保证了子网的决策优异性。

（4）本发明提出的一种基于联合注意力的分布式计算卸载方法，采用本发明训练方法训练子网决策模型决策子网中各计算任务的卸载位置，实现了更高的卸载成功率和更低的能耗。且本发明训练的子网决策模型在异构子网上的表现更加平均、稳定。

附图说明

图1(a)为一种基于联合注意力的分布式计算卸载模型训练方法的全局训练流程图；

图1(b)为一种基于联合注意力的分布式计算卸载模型训练方法的本地训练流程图；

图2为经验池更新流程图；

图3为实施例中算法收敛速度对比图；

图4为实施例中算法的平均卸载成功率对比图；

图5为实施例中算法的平均请求能耗对比图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

分布式网络包括：一个云端B(cloud)和多个子网，子网包括多个边缘服务器和多个用户设备；子网数量为N，第n个子网包括G(n)个边缘服务器，第n个子网对应的边缘网络模型运行在第n个子网中的任一个边缘服务器上；1≤ n≤ N。

定义分布式网络的马尔科夫模型如下。

第n个边缘网络模型的状态记作S(n,t)={Ex(n,t);Tp(n,t);C(n,t);U(n,t)}；

时隙t上的全局状态记作S(t)={S(1,t);S(2,t);…;S(n,t);…;S(N,t)}。

第n个边缘网络模型在时隙t上决策的动作记作a(n,t)∈{0,1,2…,g(n)…,G(n)}；

令时隙t上第n个子网的计算请求列表Ex(n,t)中的第一个任务记作L(n,t)，动作a(n,t)表示任务L(n,t)的卸载位置；

a(n,t)=0，表示任务L(n,t)在云端上执行；

a(n,t)=g(n)，表示任务L(n,t)在该子网中第g(n)个边缘服务器上执行；1≤g(n)≤G(n)，g(n)表示第n个子网中的边缘服务器的序号，G(n)表示第n个子网中边缘服务器的总数。

定义第n个子网在t时隙上调度任务L(n,t)而采取的行动的奖励记作r(n,t)=-(α(n)×T(n,t)+β(n)×E(n,t))；

T(n,t)表示任务L(n,t)的传输时延；E(n,t)表示任务L(n,t)的卸载能耗；α(n)为第n个子网设置的时延权重，β(n)为第n个子网设置的能耗权重。

当任务的卸载位置确定后，可根据现有技术结合卸载位置对应的边缘服务器的传输功率、计算能力和计算速度计算T(n,t)和E(n,t)。

如图1(a)和图1(b)所示，本实施方式提出的基于联合注意力的分布式计算卸载模型训练方法包括以下步骤S1-S13。

S1、构建基础模型，基础模型包括：全局网络模型和边缘网络模型。

全局网络模型运行在云端，全局网络模型包括全局动作网络、全局评价网络和全局注意力网络；边缘网络模型与子网一一对应，边缘网络模型运行在对应的子网中任一个边缘服务器上；边缘网络模型包括局部动作网络和局部评价网络；各边缘网络模型设有一一对应的经验池，经验池大小均为h。

局部动作网络与全局动作网络的结构相同，局部评价网络与全局评价网络的结构相同；时隙t上，第n个子网的边缘网络模型中，局部动作网络的输入为该子网的状态S(n,t)，局部动作网络的输出为动作a(n,t)；局部评价网络的输入为子网的状态S(n,t)和动作a(n,t)，其输出为对动作a(n,t)的局部评价值V(n,t)。

时隙t上，全局注意力网络的输入为全局状态S(t)，全局注意力网络的输出为全局注意力状态SA(t)，全局评价网络的输入为SA(t)，全局评价网络的输出为全局评价值V(t)。

S2、初始化全局网络模型；将局部动作网络的参数同步为全局动作网络的参数，将局部评价网络的参数同步为全局评价网络的参数。

S3、各边缘网络模型基于对应的子网构建经验样本添加到对应的经验池中，直至各经验池添加的经验样本更新数量达到设定的第一阈值；然后执行步骤S4。

如图2所示，边缘网络模型更新经验池的方法具体包括以下步骤St1-St4。

St1、初始化第n个子网的状态S(n,t)；

本实施方式中，采用St1-St4填充经验池，直至各经验池添加的经验样本数量达到设定的第一阈值，则St4中的样本阈值设置为第一阈值。

S4、结合各边缘网络模型的经验池获取M个时隙上的全局状态，构建全局状态集合SM={S(t1),S(t2),…,S(tm),…S(tM)}，S(tm)表示时隙tm上的全局状态，S(tm)={S(n,tm);1≤n≤N}；m为序数，tm表示从经验池中随机选择的第m个时隙，1≤m≤M。

S5、从全局状态集合SM中随机选择时隙tm上的全局状态S(tm)输入全局注意力网络，全局注意力网络提取全局注意力状态SA(tm)并输入全局评价网络，全局评价网络根据全局注意力状态SA(tm)输出全局评价值V(tm)。

S6、结合第一损失函数反向更新全局注意力网络和全局评价网络，将全局状态S(tm)从全局状态集合中删除。

第一损失函数采用TD误差，其计算公式如下：

TD=∑_n=1 ^N _r(n,tm)-V(tm)

r(n,tm)表示状态S(n,tm)所在经验样本中的奖励。

S7、判断全局状态集合SM是否清空；否，则返回步骤S5；是，则结合第一损失函数对全局动作网络进行策略梯度更新。

S8、判断全局网络模型是否收敛；否，则将全局动作网络的参数赋予各边缘网络模型的局部动作网络，然后返回步骤S3；是，则将全局动作网络的参数赋予各边缘网络模型的局部动作网络，将全局评价网络的参数赋予各边缘网络模型的局部评价网络，然后各边缘网络模型进行本地学习。

具体实施时，可设置如果第一损失函数值小于设定的第一损失阈值，则判断全局网络模型收敛；或者设置如果S3-S7的执行次数大于或者等于设定的第一迭代阈值，则判断全局网络模型收敛。

第n个子网的边缘网络模型的本地学习包括以下步骤S9-S13。

S9、令样本阈值为设定的第二阈值，执行步骤St1-St4更新边缘网络模型的经验池，使得经验池中更新第二阈值数量的经验样本。具体实施时，第一阈值可设定为经验池大小h；第二阈值均可设定为经验池大小h，或者设置为小于h的值。经验池可采用先进先出机制。

S10、从经验池中随机选择一个经验样本{S(n,t);a(n,t);S(n,t+1);r(n,t)}，将状态S(n,t)输入边缘网络模型，边缘网络模型的局部评价网络输出动作a(n,t)对应的局部评价V(n,t)。

S11、基于第二损失函数对局部动作网络进行反向更新，基于第二损失函数对局部评价网络进行策略梯度更新。

第二损失函数为：

Ld(n,t)=r(n,t)-V(n,t)

Ld(n,t)表示第二损失函数值。

S12、判断边缘网络模型的更新次数是否达到设定的第三阈值；否，则返回步骤S10；是，则执行以下步骤S13。

S13、判断边缘网络模型是否收敛；否，则返回步骤S9；是，则固定边缘网络模型参数，提取局部动作网络作为子网决策模型；子网决策模型用于决策子网在当前状态下的动作，即任务列表中第一个任务的卸载位置。

具体实施时，可设置如果第二损失函数值小于设定的第二损失阈值，则判断边缘网络模型收敛；或者设置如果S9-S12的执行次数大于或者等于设定的第二迭代阈值，则判断边缘网络模型收敛。

以下结合具体的实施例对本发明提供的子网决策模型的性能进行验证。

本实施例的应用场景为：分布式网络包括1个云端和4个子网，每个子网中包括5个边缘服务器，每个边缘服务器的计算能力、处理速度和单位能耗相同。

具体的，本实施例中不同子网的网络拓扑异构，但网络拓扑图皆属于连通图。即同一个子网中的任意两个边缘服务器之间均设有信道，具体可以是直接连接该两个边缘服务器的链路，也可以是通过其他一个或者多个边缘服务器中转的多段式链路。

本实施例中，设置第一个子网中生成的计算任务的大小的区间为0~100MB ，第二个子网中生成的计算任务的大小的区间为100~1000MB，第三个子网中生成的计算任务的大小的区间为1000~2000MB，第四个子网中生成的计算任务的大小的区间为 2000~5000MB。每个时隙中计算任务生成的概率服从泊松分布。

本实施例中，设置经验池大小h=1000，即经验池中最多可存储1000个经验样本。

本实施例中将本发明提供的基于联合注意力的分布式计算卸载模型训练方法简称为算法DAO；将本发明中步骤S9-S13所记载的边缘网络模型本地学习算法简称为算法Only_local。

本实施例中，针对设定的应用场景分别运行算法DAO、算法Only_local、算法DDPG（Deep Deterministic Policy Gradient，深度确定性策略梯度）和算法PPO（ProximalPolicy Optimization，近段策略优化），然后从收敛速度、平均卸载成功率和能耗上进行对比。

如图3所示，为完成全局训练赋值即步骤S2-S8之后的边缘网络模型进行S9-S13所示本地学习时的收敛速度与算法Only_local的收敛速度的对比。可见，经过全局训练赋值后的模型在迭代75次左右即可收敛，而算法Only_local迭代150次才开始收敛。可见，本发明大大提高了本地训练的收敛速度。而本发明中的全局训练只需要全局迭代，然后将参数分发给所有的子网，参数泛化性好。故而本实施例中采用算法DAO时全网总的迭代耗时远远小于算法Only_local。

具体试验过程中，首先分别通过四种算法针对该应用场景训练模型，模型固定后，各算法对应的各子网模型在对应的子网上运行，以决策子网动作，即计算任务的卸载位置。

本实施例中定义了平均卸载成功率和平均请求能耗作为模型的评价指标。

平均卸载成功率为设定的测试时间内各时隙上子网卸载成功的任务总数除以测试时间包含的时隙数量。

平均请求能耗为设定的测试时间内各时隙上子网卸载任务的能耗总和除以测试时间包含的时隙数量。

如图4所示，对比四种算法收敛后的模型应用于该分布式网络时各子网的平均卸载成功率可知，本发明提供的算法DAO获取的子网决策模型在对应子网上的平均卸载成功率都是最高的，尤其在子网2上，卸载成功率远远大于其他算法。且算法DAO在各子网上的平均卸载成功率相差最小，可见该算法DAO表现出了更优的泛化性和稳定性。

如图5所示为四种算法收敛后的模型应用于该分布式网络时各子网的平均请求能耗，对比可知随着子网数据量的增加，算法DAO、算法Only_local和算法PPO的能耗均在上升，算法DDPG的能耗较无规律。但算法DAO在任一子网中的能耗均小于其他三种算法，且算法DAO的上升趋势小于算法Only_local和算法PPO的能耗。可见，算法DAO实现了更小的能耗，且在各子网上的能耗表现更为稳定。

以上仅为本发明创造的较佳实施例而已，并不用以限制本发明创造，凡在本发明创造的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明创造的保护范围之内。

Claims

1.一种基于联合注意力的分布式计算卸载模型训练方法，其特征在于，用于获取分布式网络中各子网的子网决策模型，子网决策模型用于根据子网的状态决定子网当前计算请求列表中第一个任务的卸载位置；

S(n,t)={Ex(n,t);Tp(n,t);C(n,t);U(n,t)}

a(n,t)∈{0,1,2…,g(n)…,G(n)}

S(t)={S(1,t);S(2,t);…;S(n,t);…;S(N,t)}

N表示分布式网络中子网总数量，n为序数，1≤ n≤ N；

2.如权利要求1所述的基于联合注意力的分布式计算卸载模型训练方法，其特征在于，S8之后，通过以下步骤S9-S13实现边缘网络模型本地学习；

3.如权利要求2所述的基于联合注意力的分布式计算卸载模型训练方法，其特征在于，经验池中经验样本的更新包括以下步骤：

St1、初始化第n个子网的状态S(n,t)；

4.如权利要求2所述的基于联合注意力的分布式计算卸载模型训练方法，其特征在于，第二损失函数的计算公式为：

Ld(n,t)=r(n,t)-V(n,t)

其中，Ld(n,t)表示第二损失函数值。

5.如权利要求2所述的基于联合注意力的分布式计算卸载模型训练方法，其特征在于，S13中，边缘网络模型的收敛条件为第二损失函数值小于设定的第二损失阈值；或者为S9-S12的执行次数大于或者等于设定的第二迭代阈值；

6.如权利要求1所述的基于联合注意力的分布式计算卸载模型训练方法，其特征在于，奖励函数为：

r(n,t)=-(α(n)×T(n,t)+β(n)×E(n,t))

7.如权利要求1所述的基于联合注意力的分布式计算卸载模型训练方法，其特征在于，第一损失函数的计算公式为：

TD=∑_n=1 ^Nr(n,tm)-V(tm)

8.一种基于联合注意力的分布式计算卸载方法，其特征在于，包括以下步骤：

SA1、采用如权利要求1-7任一项所述的基于联合注意力的分布式计算卸载模型训练方法，获取分布式网络中各子网的子网决策模型；

9.一种基于联合注意力的分布式计算卸载系统，其特征在于，包括存储器，存储器中存储有计算机程序，所述计算机程序被执行时用于实现如权利要求8所述的基于联合注意力的分布式计算卸载方法。

10.如权利要求9所述的基于联合注意力的分布式计算卸载系统，其特征在于，还包括处理器，处理器与存储器连接，处理器用于执行所述计算机程序以实现如权利要求8所述的基于联合注意力的分布式计算卸载方法。