CN114968402A

CN114968402A - 边缘计算任务处理方法、装置及电子设备

Info

Publication number: CN114968402A
Application number: CN202210557780.4A
Authority: CN
Inventors: 任涛; 胡哲源; 牛建伟; 孙钢灿
Original assignee: Zhengzhou University Industrial Research Institute Co ltd; Hangzhou Innovation Research Institute of Beihang University
Current assignee: Zhengzhou University Industrial Research Institute Co ltd; Hangzhou Innovation Research Institute of Beihang University
Priority date: 2022-05-19
Filing date: 2022-05-19
Publication date: 2022-08-30

Abstract

本发明实施例提出一种边缘计算任务处理方法、装置及电子设备，属于边缘计算领域，方法包括：根据预设的关于多个移动设备的第一强化学习网络，获得各类边缘计算环境的卸载策略经验，并将每组卸载策略经验放入经验池，从而针对每个移动设备的待处理任务，根据移动设备的环境状态，从经验池中调取与环境状态匹配的目标经验，进而根据移动设备的环境状态和目标经验，利用预设的决策模型，得到移动设备的待处理任务的卸载决策，实现对于不同的移动设备的边缘计算环境，使用不同的目标经验和环境状态作为卸载决策的考虑因素，改善现有的任务计算卸载方法通常只适用于某一类边缘计算环境，对于不同边缘计算环境的适用性较差的问题。

Description

边缘计算任务处理方法、装置及电子设备

技术领域

本发明涉及边缘计算领域，具体而言，涉及一种边缘计算任务处理方法、装置及电子设备。

背景技术

移动边缘计算通过在边缘计算网络中设置边缘服务器，来为移动设备提供强大的计算能力和能源资源。移动设备可以选择将计算密集型任务或者时延关键性任务卸载到边缘服务器上，以减少任务的执行时延并节省本地设备消耗的电池能量。

在移动边缘计算网络中需要解决的关键问题之一是计算卸载问题，即移动设备选择将计算任务卸载到附近的MEC服务器上执行还是在本地执行。目前，用于处理计算卸载问题的任务计算卸载方法通常只适用于某一类边缘计算环境，对于不同边缘计算环境的适用性较差。

发明内容

本发明的目的在于提供一种边缘计算任务处理方法、装置及电子设备，其能够改善现有的用于处理计算卸载问题的任务计算卸载方法通常只适用于某一类边缘计算环境，对于不同边缘计算环境的适用性较差的问题。

为了实现上述目的，本发明实施例采用的技术方案如下。

第一方面，本发明实施例提供一种边缘计算任务处理方法，所述方法包括：

根据预设的关于多个移动设备的第一强化学习网络，获得各类边缘计算环境的卸载策略经验，并将每组所述卸载策略经验放入经验池；

针对每个所述移动设备的待处理任务，根据所述移动设备的环境状态，从所述经验池中调取与所述环境状态匹配的目标经验；

根据所述移动设备的环境状态和所述目标经验，利用预设的决策模型，得到所述移动设备的待处理任务的卸载决策。

进一步地，所述根据所述移动设备的环境状态和所述目标经验，利用预设的决策模型，得到所述移动设备的待处理任务的决策动作的步骤，包括：

基于所述目标经验和所述移动设备的环境状态，使用第二强化学习网络，获得第一状态转移元组；

以所述第一状态转移元组和所述环境状态作为所述决策模型的输入，得到所述待处理任务的卸载决策。

进一步地，所述决策模型包括第一编码器、第二编码器、评估器和第一解码器；

所述以所述第一状态转移元组和所述环境状态作为所述决策模型的输入，得到所述待处理任务的决策动作的步骤，包括：

以所述环境状态作为所述第一编码器的输入，得到策略向量；

以所述第一状态转移元组和所述环境状态作为所述第二编码器的输入，得到状态转移向量；

以所述策略向量和所述状态转移向量作为所述评估器的输入，得到优化后的策略向量；

以所述优化后的策略向量作为所述第一解码器的输入，得到所述待处理任务的卸载决策。

进一步地，所述方法还包括训练监督学习模型，得到决策模型的步骤，所述监督学习模型包括第一编码器、第一解码器、第二编码器、第二解码器和评估器；

所述训练监督学习模型，得到决策模型的步骤，包括：

基于所述卸载策略经验，得到多组状态动作，每组所述状态动作包括环境状态和决策动作；

使用多组所述状态动作，迭代更新所述第一编码器和第一解码器的参数，直至满足第一结束条件；

基于第二强化学习网络，利用所述卸载策略经验，得到关于各边缘计算环境的环境交互的第二状态转移元组；

使用所述第二状态转移元组，迭代更新所述第二编码器和所述第二解码器的参数，直至满足第二结束条件；

将训练完成的所述第一编码器的输出和所述第二编码器的输出作为所述评估器的输入，迭代更新所述评估器的参数，直至满足第三结束条件；

基于训练完成的第一编码器、第一解码器、第二编码器和评估器，得到决策模型。

进一步地，所述将训练完成的所述第一编码器的输出和所述第二编码器的输出作为所述评估器的输入，迭代更新所述评估器的参数，直至满足第三结束条件的步骤，包括：

基于所有所述状态动作和所述卸载策略经验，计算出关于各类边缘计算环境的各个状态的平均动作价值量；

每次迭代时，将训练完成的所述第一编码器的输出和所述第二编码器的输出作为所述评估器的输入，得到所述评估器预测的平均收益值，所述平均收益值表征当前边缘计算环境的多个状态的平均动作价值；

计算出所述平均收益值与所述平均动作价值量间的损失值，若所述损失值满足第三结束条件，则结束迭代，否则继续迭代直至损失值满足第三结束条件。

进一步地，所述根据所述移动设备的环境状态，从所述经验池中调取与所述环境状态匹配的目标经验的步骤，包括：

采用聚类算法，将所述经验池中的所述卸载策略经验划分为多个策略族；

计算所述环境状态与每个所述策略族间的距离，将所述多个策略族中所述距离最小的策略族作为目标策略族；

从所述目标策略族中选取卸载策略经验作为目标经验。

进一步地，所述方法还包括训练第一强化学习网络的步骤，该步骤包括：

构建包括多个移动设备的边缘计算网络系统模型；

基于所述边缘计算网络系统模型，构建关于计算成本的优化目标函数；

基于所述移动边缘计算网络系统模型，构建第一强化学习网络，其中，所述第一强化学习网络包括顺序连接的图神经网络、演员网络、评论家网络和混合网络；

结合所述优化目标函数，以及各移动设备的边缘计算环境的环境状态，训练所述第一强化学习网络。

进一步地，所述优化目标函数包括成本优化函数、卸载模式约束、能耗约束、时延约束和发射功率约束；

所述结合所述优化目标函数，以及各移动设备的边缘计算环境的环境状态，训练所述第一强化学习网络的步骤，包括：

基于所述优化目标函数，构建损失函数；

以各所述移动设备的边缘计算环境的环境状态作为第一强化学习网络的输入，结合所述损失函数，训练所述第一强化学习网络。

第二方面，本发明实施例提供一种边缘计算任务处理装置，包括第一准备模块、第二准备模块和处理模块；

所述第一准备模块，用于根据预设的关于多个移动设备的第一强化学习网络，获得各类边缘计算环境的卸载策略经验，并将每组所述卸载策略经验放入经验池；

所述第二准备模块，用于使针对每个所述移动设备的待处理任务，根据所述移动设备的环境状态，从所述经验池中调取与所述环境状态匹配的目标经验；

所述处理模块，用于根据所述移动设备的环境状态和所述经验池，利用所述决策模型，得到所述移动设备的待处理任务的卸载决策。

第三方面，本发明实施例还提供一种电子设备，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的机器可执行指令，所述处理器可执行所述机器可执行指令以实现如第一方面所述的边缘计算任务处理方法。

第四方面，本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的边缘计算任务处理方法。

本发明实施例提供的边缘计算任务处理方法、装置及电子设备，通过第一强化学习网络，获得各个移动设备的各类边缘计算环境对于计算任务的卸载策略经验，从而对于每个移动设备的待处理任务，从装有卸载策略经验的经验池中提取出目标经验，进而根据目标经验和移动设备的环境状态，利用决策模型，得到该待处理任务的卸载决策，即对于不同的移动设备的边缘计算环境，使用不同的目标经验和环境状态作为卸载决策的考虑因素，实现卸载决策与不同边缘计算环境间的适配，以能够改善现有的任务计算卸载方法通常只适用于某一类边缘计算环境，对于不同边缘计算环境的适用性较差的问题。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本发明实施例提供的边缘计算任务处理系统的方框示意图。

图2示出了本发明实施例提供的边缘计算任务处理方法的流程示意图之一。

图3示出了本发明实施例提供的边缘计算任务处理方法的流程示意图之二。

图4示出了本发明实施例提供的一种第一强化学习网络的结构示意图。

图5示出了图2中步骤S102的部分子步骤的流程示意图。

图6示出了本发明实施例提供的边缘计算任务处理方法的流程示意图之三。

图7示出了本发明实施例提供的决策模型的训练示意图。

图8示出了图2中步骤S106的部分子步骤的流程示意图。

图9示出了图8中步骤S106-2的部分子步骤的流程示意图。

图10示出了本发明实施例提供的边缘计算任务处理装置的方框示意图。

图11示出了本发明实施例提供的电子设备的方框示意图。

图标：100-边缘计算任务处理系统；110-基站；120-边缘服务器；130-移动设备；140-边缘计算任务处理装置；150-第一准备模块；160-第二准备模块；170-处理模块；180-电子设备。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

近年来，随着无线通信技术的飞速发展和智能移动设备的普及，各类移动应用的数量呈爆发增长的趋势，例如，人脸识别支付系统、在线云游戏和虚拟/增强现实等属于计算密集型与延时关键型应用。但是，运行这些计算密集型与延时关键型应用的移动设备通常只有有限的计算能力和电池电量。故而，移动边缘计算应运而生。

在移动边缘计算网络中需要解决的关键问题之一是计算卸载问题，即移动设备选择将计算任务卸载到附近的MEC服务器上执行还是在本地执行，以及如何为卸载到服务器的任务分配资源(例如，计算资源和能耗资源)。

一个好的计算卸载策略可以提高无线移动设备的整体计算能力，缩短系统处理任务的时延，降低无线移动设备的整体能耗，增强移动边缘计算系统的性能。目前，用于处理计算卸载问题的任务计算卸载方法通常只适用于某一类边缘计算环境。如果当前的边缘计算环境的某些环境参数(例如，处理任务的数据量、网络带宽、边缘服务器的计算能力、移动设备的通信数量等)变化时，面对新环境时，这些方法提供策略的适用性较差，即这些方法提供的策略的可迁移性差，难以应用到真实环境中。

基于上述考虑，本发明实施例提供一种边缘计算任务的处理方案，以能够改善目前的任务计算卸载方法通常适用于某一类边缘计算环境，存在适用性差、可迁移性差的问题。以下，将进行详细介绍。

本发明实施例提供的边缘计算任务的处理方法，可以应用于如图1所示的边缘计算任务处理系统100中，该边缘计算任务处理系统100包括基站110、边缘服务器120和多个移动设备130，每个移动设备130通过网络与基站110上的边缘服务器120通信连接。由于在线支付系统、在线云游戏和虚拟/增强现实等业务的使用，移动设备130上时常产生新的计算任务，该计算任务即待处理任务。移动设备130在产生待处理任务时，根据观测到自身所处的边缘计算环境的环境状态，从装有各类边缘计算环境的卸载策略经验的经验池中提取与该环境状态匹配的目标经验，从而根据环境状态和目标经验，利用决策模型得到该待处理任务的卸载决策。

若卸载决策是本地计算，则移动设备130将该待处理任务在本地执行，若卸载决策是卸载计算，则将该待处理任务卸载到边缘服务器120的边缘网络上执行。

其中，移动设备130包括但不限于是：手机、iPad、笔记本电脑、游戏机和个人可穿戴设备等。

在一个实施例中，参照图2，提供一种边缘计算任务处理方法，包括以下步骤。在本实施例中，以该边缘计算任务处理方法应用于图1的移动设备130来举例说明。

S102，根据预设的关于多个移动设备的第一强化学习网络，获得各类边缘计算环境的卸载策略经验，并将每组卸载策略经验放入经验池。

边缘计算环境指的是移动设备130与边缘服务器120间的交互环境，影响因素包括但不限于是：移动设备130处理任务的数据量，边缘服务器120处理任务的数据量，网络带宽，边缘服务器120的计算能力，移动设备130的通信数量，以及移动设备130的速度和范围。任一影响因素的改变，都会形成新的边缘计算环境。

经验池中的卸载策略经验为多组，每组卸载策略经验包含使用不同的随机种子初始化神经网络的参数，分别训练这些第一强化学习网络得到各个卸载策略经验。卸载策略经验实际指的是第一强化学习网络的训练的不同阶段时，第一强化学习网络的参数值。因此，卸载策略经验表征了第一强化学习网络对于不同边缘计算环境的决策逻辑。

其中，步骤S102可以由任一台服务器或者终端设备执行后，将经验池存入移动设备130内。即，步骤S102的执行主体可以不跟步骤S104和S106的执行主体一致。

S104，针对每个移动设备的待处理任务，根据移动设备的环境状态，从经验池中调取与环境状态匹配的目标经验。

移动设备130的环境状态为移动设备130观测到的此时的边缘计算环境的状态，即描述了移动设备130的边缘计算环境的状态。

环境状态包括移动设备130和基站110间的信道增益，待处理任务(即产生的计算任务)，时间片t开始时移动设备130的可用能量，待处理任务在移动设备130上本地计算时的排队时延，以及待处理任务在边缘服务器120上的排队时延(即待处理任务卸载计算时的排队时延)。

从经验池中提取的目标经验，与移动设备130的环境状态的适配度最高。

S106，根据移动设备的环境状态和目标经验，利用预设的决策模型，得到移动设备的待处理任务的卸载决策。

决策模型为预先搭建并训练的模型，决策模型以目标经验作为参数，以环境状态作为输出，输出待处理任务的卸载决策。

上述边缘计算任务处理方法的原理为：通过第一强化学习网络，获得各个移动设备130的各类边缘计算环境对于计算任务的卸载策略经验，从而对于每个移动设备130的待处理任务，移动设备130从装有卸载策略经验的经验池中提取出目标经验，进而根据目标经验和移动设备130的环境状态，利用决策模型，得到该待处理任务的卸载决策。

对于不同的移动设备130的边缘计算环境，使用不同的目标经验和环境状态作为卸载决策的考虑因素，实现卸载决策与不同边缘计算环境间的适配，以能够改善现有的任务计算卸载方法通常只适用于某一类边缘计算环境，对于不同边缘计算环境的适用性较差的问题。

对于步骤S102中的第一强化学习模型，在本实施例中，边缘计算任务处理方法还包括训练第一强化学习模型的步骤，参照图3，该步骤包括以下步骤。

S201，构建包括多个移动设备的边缘计算网络系统模型。

边缘计算网络系统模型包括系统模型、信号传输模型、通信模型和计算任务模型。以下，进行详细介绍。

1.系统模型

为了使本发明提供的边缘计算任务处理方法能适用于不同的边缘计算环境，即不同影响因素的边缘计算环境，不失一般性，提供的系统模型为如图1所示的边缘计算任务处理系统100，包含一个带有无线访问接入点(access point,AP)的边缘服务器120和

个移动设备130，其中

每个移动设备130都随机分布在基站110的一定范围内。每个移动设备130都配备有无线传输天线，可以与基站110进行数据传输。将整个边缘计算网络系统的时间划分为多个恒定的时间片，表示为t∈{1,2,...}，每个时间片的长度都为T秒。每个移动设备130会随着时间片移动，假设其移动速度V与移动方向θ分别满足均匀分布V～U(0,V_max)与θ～U(0,2π)。

每个移动设备130在时间片t产生一个计算密集型任务，即待处理任务。每个移动设备130可以选择通过计算卸载的方式在边缘服务器120上远程执行待处理任务，也可以选择在设备本地执行待处理任务。同时，由于网络中可能出现的繁重的工作负荷或不理想的通信条件导致的任务执行失败，边缘计算网络系统使用先进先出(first-in-first-out，FIFO)队列作为缓冲区存储当前时间片无法执行完的任务。

2.信号传输模型

信号传输模型包括信道增益计算公式，以及移动设备130与基站110在时间片t内的距离计算公式。

在每个时间片t，边缘基站110与移动设备n的信道增益为

可以通过信道增益计算公式计算。

信道增益计算公式包括：

其中，

表示小尺度瑞利衰落分量，

表示大尺度衰落分量，

在一个时间片内保持不变。

的计算方式为：

其中，对数正态随机变量z服从

本实施例中，采用三维笛卡尔直角坐标系来表示边缘计算网络中基站110和移动设备130的位置。因此，移动设备n与基站110在时间片t的距离

的计算方式为：

其中，

与

分别表示移动设备n与基站110的坐标。

3.通信模型

通信模型包括移动设备130到基站110的上行链路信噪比，以及移动设备130在时间片t内的上行数据传输率。

使用

表示移动设备n在时间片t的发射功率，移动设备n到基站110的上行链路的信噪比(SINR)可以计算为：

其中，σ²是附加噪声功率，

表示卸载时移动设备n间的干扰，

表示表示移动设备n的卸载决策。

给定无线信道的网络带宽W，移动设备n在时间片t的上行数据传输率

可以表示为：

4.计算任务模型

计算任务模型包括本地计算模型和边缘计算模型。

在本实施例中，将在时间片t内第n个移动设备130产生的待处理任务(即计算任务)

表示为

其中，

表示任务

的数据量(单位：比特)，

表示CPU处理1比特数据所需要时钟周期数，

是任务的最大容许时延，当待处理任务

的执行时间超过

时将被丢弃。

当一个移动设备130产生一个待处理任务时，该待处理任务会被缓冲在移动设备130的FIFO队列中，等待被调度计算。在本实施例中，本发明提供的边缘计算任务处理系统100使用完全卸载的方式，即待处理任务要么完全在移动设备130本地执行，要么通过计算卸载的方式在边缘服务器120上远程执行。

表示在时间片t移动设备n的卸载决策变量。其中，

表示待处理任务

被卸载到边缘服务器120，

表示本地计算待处理任务

在获得从边缘服务器120的无线访问接入点传输的能量后，每个移动设备130需要决定是将待处理任务卸载到边缘服务器120还是在本地执行，即边缘计算或者本地计算，从而优化调度降低总体任务的延迟和能耗。以下分别描述本地计算模型和边缘计算模型。

1)本地计算模型

本地计算模型包括本地计算延迟、移动设备130能量消耗和移动设备130计算成本。

在时间片t，移动设备n的本地计算频率表示为

待处理任务

的本地计算延迟

可以表示为：

其中，

表示移动设备n在时间片t的排队延迟，即处理任务在移动设备n本地计算时的排队时延，由前一个时隙的计算延迟

和时间片的长度T决定，即：

本地计算待处理任务

所消耗的能量

可以表示为：

其中，

表示移动设备n的一个CPU周期的能量消耗，表示为：

给定

和

用它们的加权和来表示本地计算待处理任务

的计算成本：ω₁+ω₂＝1。

其中，ω₁和ω₂分别表示时间成本和能源成本的权重，并且满足0≤ω₁,ω₂≤1。

2)边缘计算模型

边缘计算模型包括卸载时延，移动设备130能量消耗，待处理任务在边缘服务器120上的执行时间，移动设备130等待能量消耗和卸载计算成本。

如果移动设备130选择将待处理任务

卸载到边缘服务器120远程执行，那么计算卸载过程可以分为三个部分。

第一，移动设备n通过无线传输方式将待处理任务的任务数据卸载到边缘服务器120，需要的卸载时延表示为：

在待处理任务

上传过程中，移动设备n消耗的能量表示为：

第二，边缘服务器120将计算资源分配给卸载的待处理任务完成计算。与本地计算队列类似，基站110上的边缘服务器120也设置了一个任务队列。在时间片t，

个卸载任务(待处理任务)根据到达边缘服务器120的时间存储在FIFO队列

中，即：

其中，i表示待处理任务

的索引编号。

待处理任务

在基站110的边缘服务器120上的执行时间表示为：

其中，

表示边缘服务器120分配给待处理任务

的计算资源，

表示待处理任务

边缘服务器120上的排队时延，即等待被边缘服务器120执行的等待。

排队时延计算方式表示为：

其中，

是待处理任务

在FIFO队列

中的索引，

是基站110上的边缘服务器120在前一个时间片处理卸载任务的时间，可以表示为：

边缘服务器120远程执行待处理任务

期间，移动设备n等待所消耗的能量可以表示为：

其中，

表示处于空闲状态下移动设备n的功耗。

第三，将待处理任务的计算结果通过无线传输的方式发送回相应的移动设备130。由于，计算结果的量远小于任务数据的量，因此，本发明忽略了计算结果下载产生的传输延迟和能耗。

在此基础上，计算卸载的计算成本可以为：

其中，ω₃和ω₄满足0≤ω₃,ω₄≤1和ω₃+ω₄＝1。

S202，基于边缘计算网络系统模型，构建关于计算成本的优化目标函数。

通过对待处理任务的任务卸载和资源分配的联合优化，提出优化目标函数，优化目标函数的目的在于：使边缘计算网络系统的总成本最小化。

优化目标函数可以描述为：

其中，

表示边缘计算网络系统中所有移动设备130的二元卸载决策向量，

是每个移动设备130的发射功率。

如果移动设备130选择在本地执行待处理任务

那么边缘服务器120将不对其分配计算资源，即

时，那么

问题(P)(即函数(P))为成本优化函数。约束(a)为卸载模型约束，表示边缘计算网络系统使用0/1卸载模式。约束(b)为能耗约束，确保每个移动设备130的能量不应大于设备能提供的最大能量，或移动设备130的能量不应耗尽小于0。约束(c)为时延约束，表示一个待处理任务的处理时间不能超过最大可接受的延迟，若违反这个延迟会引入一个远大于任务成本的惩罚Ω。约束(d)为发射功能约束，确保每个移动设备130的发射功率不应超过其能发出的最大功率。

S203，基于移动边缘计算网络系统模型，构建第一强化学习网络。

其中，第一强化学习网络包括顺序连接的图神经网络、演员网络、评论家网络和混合网络。

详细地，基于上述边缘计算网络系统模型和优化目标函数，为了使学习到的计算卸载策略可以迁移到通信设备(通信设备和移动设备130)数量不同的网络环境。本发明首先将优化目标函数的目的转化为非中心部分可观马尔可夫决策过程(Dec-POMDP)问题，并定义边缘计算网络(MEC)系统模型的状态、行动和奖励。

由于不同的移动设备130之间的信号干扰，移动设备130之间的卸载决策和资源分配策略是紧密耦合在一起的，会影响整个边缘计算网络系统的性能。因此，本发明将每个移动设备130视为一个独立的智能体，并根据对当前环境的部分观测做出决策动作，与环境交互获得经验从而不断更新神经网络参数。本发明采用集中训练与分散执行(centralisedtraining with decentralised execution,CTDE)模式。每个移动设备130只把自己的行动观察历史(环境状态)作为输入，并使用学到的策略进行决策。在本实施例中，状态观测、动作和奖励设置如下。

状态观测：在时间片t，由于单个智能体(移动设备130)无法获得全局环境状态，智能体n即移动设备n只能观测自己对边缘计算环境的部分认知，本实施例中将该认知称为环境状态

环境状态具体包括：移动设备130和基站110之间的信道增益，产生的待处理任务(计算任务)，时间片t开始时移动设备的可用能量，待处理任务在移动设备130本地计算时的排队时延，以及待处理任务

边缘服务器120上的排队时延。因此，

可以表示为

动作：根据优化目标函数中的问题(P)，需要确定决策动作

决策动作包括每个移动设备130的计算卸载向量和发射功率资源分配向量，即

基于相应的环境状态

第一强化学习算法(即卸载算法)可以通过学习移动设备130的状态转移概率P(s′|s,u)，获得从环境状态

到决策动作

的近似最优映射。

奖励函数：已知决策行动

优化目标函数的目的是最小化系统成本的总和，所以第一强化学习网络(即卸载算法)的目标是获得最大的回报。为了满足问题(P)的约束，在本实施例中，引入各种惩罚项，以确保第一强化学习网络能够学习到合理的策略。

对于每个移动设备130，能量耗尽的惩罚项为：

任务执行超时的惩罚项为：

其中，指标函数1{a}表示满足条件a时该项值为1。

进而，对于每个移动设备130，其对应的奖励函数可以表示为：

表示移动设备130的奖励函数。

为了使每个移动设备130的第一强化学习网络能够更有效地学习策略，当前策略与任务完全本地计算策略之间的奖励函数的差异，可以表示为：

其中，

表示以最大计算能力的本地计算所能获得的奖励。

由于本发明属于基于多智能体的合作式移动边缘计算场景，不同的智能体需要相互合作以提高整个系统的性能，而不是贪婪地为了各自的利益而行动。因此，需要计算所有智能体的平均奖励来代表系统的整体性能，故而，最终的奖励函数可以表示为：

在此基础上，本发明基于自注意力机制实现对全局价值期望函数(Q函数)的计算，为了实现对不同数量设备的环境状态

的处理，每个时间片t，移动设备n的环境状态

映射为一个语义嵌入，表示为

由于移动边缘计算环境中计算卸载与资源分配的需要，决策动作既包含离散值也包含连续值，因此，本实施例中第一强化学习网络考虑基于“演员-评论家”(actor-critic)的架构进行策略学习，每个移动设备130在当前步的动作价值函数{Q₁,...,Q_n}可以表示为：

其中，

表示移动设备n的环境状态的嵌入映射函数，

是移动设备n在时间片t根据演员网络(actor网络)输出的决策动作，φ_n和ψ_n分别表示actor网络和critic网络的参数。

表示上一个时间片的时序隐状态，引入此变量是因为移动边缘计算环境的DEC-POMDP性质，它描述了该无线移动设备n的动作-观测历史信息。

本发明将时序隐状态

作为一个全局时间单元来表示智能体交互的动作历史信息，即它作为一个单独的输入喂入actor网络，全局时间单元以一种简单的方式保证了多智能体算法策略学习的稳定性。

为了保证移动边缘计算环境中不同设备的高效通信，减少设备之间不必要的信息交互可能导致的网络堵塞问题，本发明的多智能体算法没有引入智能体之间的通信机制。但是，为了在基于多智能体的算法中同样能学习到优秀的卸载策略，本发明考虑使用引入自注意力机制，让移动设备130能注意到其他设备的环境状态与决策动作，从而做出利于整体系统的决策。详细地，本发明将每个移动设备130的语义嵌入

看作一个token，通过自注意力机制使用Q，K，V分别表示每个token的query，key，value向量，相应地，注意力可以表示为：

其中，d_k表示key向量维度的缩放因数。本发明使用自注意力机制学习不同智能体的环境状态嵌入以及全局历史信息的特征的关系。为了在去中心化的多智能体强化学习中学习到各自的策略，本发明对每一个移动设备130定义了他们自己的Q_n,K_n,V_n向量，实现自注意力机制的神经网络称为Transformer网络。

Transformer网络包含多层，第l层的计算过程可以表示为：

以及

其中，

表示计算Q_n,K_n,V_n向量的线性全连接网络，

为包含嵌入信息

和时序隐状态

的向量，

表示环境状态嵌入特征。

将Transformer网络最后一层的环境状态嵌入特征

投影到动作价值函数Q_n的输出空间，使用一个线性函数P实现特征映射投影，表示为：

在获得每个用户设备各自的动作价值函数后，本发明使用一个集中的梯度预测器通过更新每个的critic网络来学习连续动作的合作任务。

当智能体的决策动作的数量或维度很大时，学习一个集中的、以全局状态和联合行动为条件的critic网络可能是困难的且不切实际的。因此，本发明在基于多智能体的actor-critic框架的基础上采用了动作价值函数分解的思想，该思想可以在智能体数量增多时，避免维度爆炸的问题，可以在Dec-POMDPs环境中有效地训练集中的critic网络，所有智能体的总体联合动作价值函数Q_tot可以表示为：

其中，ψ与ψ_n分别是总体联合动作价值函数Q_tot与每个智能体的动作价值函数Q_n的critic网络参数，o和o_n分别是总体联合动作价值函数Q_tot和每个智能体的动作价值函数Q_n的环境状态嵌入特征，u和u_n分别为总体联合动作价值函数Q_tot和每个智能体的动作价值函数Q_n的决策动作，φ_n是actor网络的参数，s是环境状态，g表示非线性单调混合函数，其网络参数η。

为了训练评估策略，使用下面的损失函数集中地训练各个critic网络：

其中，y^tot＝r+γQ_tot(o′,μ(o′；φ′)；ψ′,η′)，y^tot表示目标网络的奖励期望值，D表示经验池。φ′，ψ′和η′分别是目标actors网络，目标critic网络，以及目标混合网络的参数。o′是环境状态嵌入特征，r为奖励函数值，γ为折扣因子，折扣因子的值可以根据需要进行设置。

为了更新每个智能体各自的策略，即actor网络的参数，本发明设计了一个集中的梯度更新器，以实现智能体之间更好的合作。它可以对整个联合行动空间进行优化，而不是像现有方法那样对每个智能体的动作分别进行优化。此外，在计算策略梯度时，本发明在评估Q_tot时从所有智能体的当前策略μ中选择动作。因此，本发明的集中式策略梯度可以表示为：

其中，μ＝{o₁,μ₁(o₁；φ₁),...,o_n,μ_n(o_n；φ_n)}是所有智能体当前策略的集合，所有智能体的actor网络结构相同，参数为φ_n。

本发明的集中梯度估计器使用确定性策略在整个联合行动空间上进行优化，充分利用了集中critic网络更新的优势。

基于上述内容，参照图4，最终构建的第一强化学习网络(即目标网络)包括顺序连接的图神经网络、演员网络、评论家网络和混合网络，即顺序连接的transformer网络、actor网络、critic网络和混合网络。并且，图神经网络、演员网络、评论家网络均为多个，顺序连接的一个图神经网络、演员网络和评论家网络组成一个卸载算法，每个卸载算法对应一个智能体(即一个移动设备130)，每个卸载算法的评论家网络均与混合网络连接。

actor网络决定采取哪种各自的动作，即本地计算或卸载计算。critic网络，用于估计每个智能体的Q_n值。然后，通过混合网络(即非线性单调混合函数)将所有Q_n值合并为联合动作价值函数Q_tot。Q_tot使用集中式梯度估计器进行参数更新，以帮助actor网络学习卸载策略。

S204，结合优化目标函数，以及各移动设备的边缘计算环境的环境状态，训练第一强化学习网络。

基于上述内容可知，奖励函数与优化目标函数相关，损失函数与奖励函数相关。从而，根据损失函数迭代根更新第一强化学习网络，直至达到结束条件，即可得到最终的第一强化学习网络，即S102中预设的第一强化学习网络。

在一种实施方式中，可以通过如下方式训练第一强化学习网络：基于优化目标函数，构建损失函数；以各移动设备130的边缘计算环境的环境状态作为第一强化学习网络的输入，结合损失函数，训练第一强化学习网络。

将第一强化学习网络的训练过程中，每步(每次迭代)的第一强化学习网络的参数作为卸载策略经验，即可得到经验池。

进一步地，参照图5，为步骤S104的部分子步骤的流程示意图，可以以下步骤实现从经验池中调取与环境状态匹配的目标经验。

S104-1，采用聚类算法，将经验池中的卸载策略经验划分为多个策略族。

其中，聚类算法可以灵活选择，不作唯一限定。在一种实施方式中，可以为k-means算法。

S104-2，计算环境状态与每个策略族间的距离，将多个策略族中距离最小的策略族作为目标策略族。

计算产生待处理任务的移动设备130观测到的环境状态和各策略族间的距离(可以是欧式距离)，选择距离最小(距离最小，意味着关联性最高)的目标策略族。

S104-3，从目标策略族中选取卸载策略经验作为目标经验。

通过上述步骤S104-1至S104-3，可以选出与移动设备130的环境状态匹配的目标经验。

为了更详细地介绍步骤S106，先提供决策模型的获取方式，即本发明提供的边缘计算任务处理方法还包括训练监督学习模型，得到决策模型的步骤。

监督学习模型包括第一编码器、第一解码器、第二编码器、第二解码器和评估器。其中，第一编码器的输出为第一解码器的输入，第一解码器和第二解码用于得到卸载决策。第二编码器的输出为第二解码器的输入。训练完成后的第一编码器的输出和第二编码器的输出为评估器的输入，评估器用于优化第一编码器的输出。

更为详细地，参照图6和图7，通过以下步骤实现。

S301，基于卸载策略经验，得到多组状态动作。

其中，每组状态动作包括环境状态和决策动作。状态动作用{(s^t,u^t)}表示，s^t表示环境状态，u^t表示决策动作。

将卸载策略经验作为第二强化学习网络的参数，将环境状态输入第一强化学习网络，即可得到决策动作，以得到状态动作。第二强化学习网络可以为第一强化学习初始化参数后得到。

S302，使用多组状态动作，迭代更新第一编码器和第一解码器的参数，直至满足第一结束条件。

参见图7(a)，每次迭代，以状态动作作为第一编码器的输入，第一编码器输出策略嵌入向量e_μ至第一解码器，第一解码器预测出决策动作

可以表示为：e_μ＝E_μ({(s^t,u^t)}；θ_μ)，

其中，θ_μ为第一编码器的参数，δ_μ为第一解码器的参数。

第一结束条件可以为损失值满足用于最小化损失的阈值。

每次迭代后，计算预测的决策动作和实际的u^t的损失值。当损失值达到预设的用于最小化损失的阈值，则迭代结束。第一编码器和第一解码器训练完成。

S303，基于第二强化学习网络，利用卸载策略经验，得到关于各边缘计算环境的环境交互的第二状态转移元组。

将卸载策略经验作为第二强化学习网络的参数，将环境状态输入第一强化学习网络，即可得到决策动作，以得到移动设备130与边缘计算网络间的q前k次交互的交互轨迹，即第二状态转移元组。

第二状态转移元组可以表示为{(s^t,u^t,s^t+1)}。

S304，使用第二状态转移元组，迭代更新第二编码器和第二解码器的参数，直至满足第二结束条件。

参见图7(b)，每次迭代，以第二状态转移元组作为第二编码器的输入，得到第二编码器输出的转态转移嵌入向量e_t，转态转移嵌入向量e_t输入第二解码器，得到第二解码器预测出的下一个环境状态

可以表示为：e_t＝E_t({(s^t,u^t,s^t+1)}；θ_t)，和

其中，θ_t和δ_t分别为第二编码器和第二解码器的参数。

第二结束条件可以为损失值满足用于最小化

和s^t+1间的损失误差。

每次迭代后，计算

和s^t+1的损失误差。当损失误差达到第二结束条件时，迭代结束，第二编码器和第二解码器训练完成。

S305，将训练完成的第一编码器的输出和第二编码器的输出作为评估器的输入，迭代更新评估器的参数，直至满足第三结束条件。

参见图7(c)，更为详细地：

S1：基于所有状态动作和卸载策略经验，计算出关于各类边缘计算环境的各个状态的平均动作价值量。

采用上述

得到平均动作价值量G。

S2：每次迭代时，将训练完成的第一编码器的输出和第二编码器的输出作为评估器的输入，得到评估器预测的平均收益值

其中，平均收益值表征当前边缘计算环境的多个状态的平均动作价值。

评估器W实际是一个策略嵌入向量e_μ的评价函数，也可以理解为优化函数，在已知给定环境的转态转移嵌入向量e_t的条件下，允许根据估计的平均动作价值量G对e_μ进行更新优化，而不需要再与已知网络环境互动。

评估器可以表示为：

其中，矩阵A(s₀,e_t)是初始环境状态s₀以及动态嵌入e_t的一个函数，可以对其进行奇异值分解A＝USV^T，计算得到对当前新网络环境的最优的策略嵌入向量

使用编码器E_μ来推断策略嵌入向量e_μ，通过评估器W预测平均收益

最后，给定初始状态s₀、策略嵌入向量e_μ和状态转移嵌入向量e_t，以监督学习的方式最小化平均收益G与

的损失函数以训练评估器W。

S306，基于训练完成的第一编码器、第一解码器、第二编码器和评估器，得到决策模型。

通过上述步骤S301至S306，训练出的决策模型可以快速适应到全新的边缘计算环境。

在一种实施方式中，参照图8，步骤S106可以通过以下步骤实现。

S106-1，基于目标经验和移动设备的环境状态，使用第二强化学习网络，获得第一状态转移元组。

其中，第二强化学习网络可以为第一强化学习初始化参数后得到。

对第二强化学习网络进行参数更新，以将目标经验作为第二强化学习网络的参数。此时，更新后的第二强化学习模型能够学习到目标经验的卸载策略。

将移动设备130的环境状态输入更新后的第二强化学习模型，得到第一状态转移元组。

S106-2，以第一状态转移元组和环境状态作为决策模型的输入，得到待处理任务的卸载决策。

进一步地，决策模型包括第一编码器、第二编码器、评估器和第一解码器。第一编码器的输出和第二编码器的输出为评估器的输入，评估器的输出为第一解码器的输入，第一解码器输出卸载决策。

更为详细地，参照图9，S106-2可以包括以下步骤。

S401，以环境状态作为第一编码器的输入，得到策略向量。

产生待处理任务时，移动设备130将观测到的环境状态输入第一编码器，得到第一编码器输出的策略向量。

S402，以第一状态转移元组和环境状态作为第二编码器的输入，得到状态转移向量。

S403，以策略向量和状态转移向量作为评估器的输入，得到优化后的策略向量。

S404，以优化后的策略向量作为第一解码器的输入，得到待处理任务的卸载决策。

其中，卸载决策包括本地计算或卸载计算。

进而，通过上述步骤S401至S404，即可得到每个移动设备130的待处理任务的卸载决策。

本发明提供的边缘计算任务处理方法中，预设的第一强化学习网络为基于目的为边缘计算网络系统的总成本最小的优化目标函数进行训练得到，因此，考虑第一强化学习网络的卸载策略经验，以及关于各类边缘计算环境的各个状态的平均动作价值量，而训练得到用于根据环境状态计算出卸载决策的决策模型。因此，决策模型具有迁移学习能力，即面对不同的新的边缘计算环境，依旧具有适用性。

故而，本发明提供的边缘计算任务处理方法，能够通过决策模型实现适配不同环境状态得到卸载决策，且得到卸载决策符合边缘计算网络系统的总成本最小的条件。

应该理解的是，虽然图2-图9的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-图9中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

基于上述边缘计算任务处理方法的构思，在一个实施例中，参照图10，一种边缘计算任务处理装置140，包括第一准备模块150、第二准备模块160和处理模块170。

第一准备模块150，用于根据预设的关于多个移动设备130的第一强化学习网络，获得各类边缘计算环境的卸载策略经验，并将每组卸载策略经验放入经验池。

第二准备模块160，用于使针对每个移动设备130的待处理任务，根据移动设备130的环境状态，从经验池中调取与环境状态匹配的目标经验。

处理模块170，用于根据移动设备130的环境状态和经验池，利用决策模型，得到移动设备130的待处理任务的卸载决策。

上述边缘计算任务处理装置140可以应用于如图1所示的移动设备130中，通过第一准备模块150和第二准备模型准备出目标经验，从而处理模块170根据经验池和环境状态，得到卸载决策。利用决策模型，对于不同的移动设备130的边缘计算环境，使用不同的目标经验和环境状态作为卸载决策的考虑因素，实现卸载决策与不同边缘计算环境间的适配，以能够改善现有的任务计算卸载方法通常只适用于某一类边缘计算环境，对于不同边缘计算环境的适用性较差的问题。

关于边缘计算任务处理装置140的具体限定可以参见上文中对于边缘计算任务处理方法的限定，在此不再赘述。上述边缘计算任务处理装置140中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于边缘计算任务处理装置140中的处理器中，也可以以软件形式存储于边缘计算任务处理装置140中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种电子设备180，其内部结构图可以如图11所示。该电子设备180包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该电子设备180的处理器用于提供计算和控制能力。该电子设备180的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备180的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、近场通信(NFC)或其他技术实现。该计算机程序被处理器执行时以实现一种边缘计算任务处理方法。该电子设备180的显示屏可以是液晶显示屏或者电子墨水显示屏，该电子设备180的输入装置可以是显示屏上覆盖的触摸层，也可以是电子设备180外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图11中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的电子设备180的限定，具体的电子设备180可以包括比图11中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本发明提供的边缘计算任务处理方法可以实现为一种计算机程序的形式，计算机程序可在如图11所示的电子设备180上运行。电子设备180的存储器中可存储组成该边缘计算任务处理装置140的各个程序模块，比如，图10所示的第一准备模块150、第二准备模块160和处理模块170。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的边缘计算任务处理方法中的步骤。

例如，图11所示的电子设备180可以通过如图10所示的边缘计算任务处理方法中的第一准备执行步骤S102。电子设备180可以通过第二准备模块160执行步骤S104。电子设备180可以通过处理模块170执行步骤S106。

在一个实施例中，提供了一种电子设备180，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现以下步骤：根据预设的关于多个移动设备130的第一强化学习网络，获得各类边缘计算环境的卸载策略经验，并将每组卸载策略经验放入经验池；针对每个移动设备130的待处理任务，根据移动设备130的环境状态，从经验池中调取与环境状态匹配的目标经验；根据移动设备130的环境状态和目标经验，利用预设的决策模型，得到移动设备130的待处理任务的卸载决策。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：根据预设的关于多个移动设备130的第一强化学习网络，获得各类边缘计算环境的卸载策略经验，并将每组卸载策略经验放入经验池；针对每个移动设备130的待处理任务，根据移动设备130的环境状态，从经验池中调取与环境状态匹配的目标经验；根据移动设备130的环境状态和目标经验，利用预设的决策模型，得到移动设备130的待处理任务的卸载决策。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种边缘计算任务处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的边缘计算任务处理方法，其特征在于，所述根据所述移动设备的环境状态和所述目标经验，利用预设的决策模型，得到所述移动设备的待处理任务的决策动作的步骤，包括：

3.根据权利要求2所述的边缘计算任务处理方法，其特征在于，所述决策模型包括第一编码器、第二编码器、评估器和第一解码器；

4.根据权利要求1至3中任一项所述边缘计算任务的处理方法，其特征在于，所述方法还包括训练监督学习模型，得到决策模型的步骤，所述监督学习模型包括第一编码器、第一解码器、第二编码器、第二解码器和评估器；

所述训练监督学习模型，得到决策模型的步骤，包括：

5.根据权利要求4所述的边缘计算任务处理方法，其特征在于，所述将训练完成的所述第一编码器的输出和所述第二编码器的输出作为所述评估器的输入，迭代更新所述评估器的参数，直至满足第三结束条件的步骤，包括：

6.根据权利要求1至3中任一项所述的边缘计算任务处理方法，其特征在于，所述根据所述移动设备的环境状态，从所述经验池中调取与所述环境状态匹配的目标经验的步骤，包括：

从所述目标策略族中选取卸载策略经验作为目标经验。

7.根据权利要求1至3中任一项所述的边缘计算任务处理方法，其特征在于，所述方法还包括训练第一强化学习网络的步骤，该步骤包括：

构建包括多个移动设备的边缘计算网络系统模型；

8.根据权利要求7所述的边缘计算任务处理方法，其特征在于，所述优化目标函数包括成本优化函数、卸载模式约束、能耗约束、时延约束和发射功率约束；

基于所述优化目标函数，构建损失函数；

9.一种边缘计算任务处理装置，其特征在于，包括第一准备模块、第二准备模块和处理模块；

10.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的机器可执行指令，所述处理器可执行所述机器可执行指令以实现如权利要求1至8任一项所述的边缘计算任务处理方法。