CN114090108A

CN114090108A - 算力任务执行方法、装置、电子设备及存储介质

Info

Publication number: CN114090108A
Application number: CN202111088258.8A
Authority: CN
Inventors: 邵苏杰; 李强; 周东旭; 刘迪; 阮琳娜; 李温静; 郭少勇; 高昇宇; 朱正谊
Original assignee: State Grid Information and Telecommunication Co Ltd; Beijing University of Posts and Telecommunications; State Grid Jiangsu Electric Power Co Ltd; Nanjing Power Supply Co of State Grid Jiangsu Electric Power Co Ltd
Current assignee: State Grid Information and Telecommunication Co Ltd; Beijing University of Posts and Telecommunications; State Grid Jiangsu Electric Power Co Ltd; Nanjing Power Supply Co of State Grid Jiangsu Electric Power Co Ltd
Priority date: 2021-09-16
Filing date: 2021-09-16
Publication date: 2022-02-25
Anticipated expiration: 2041-09-16
Also published as: CN114090108B

Abstract

本发明提供一种算力任务执行方法、装置、电子设备及存储介质，该方法包括：将当前任务卸载情况和当前环境状态信息输入任务卸载模型，确定至少一个任务执行策略，确定每一个任务执行策略的奖励值，确定本地执行的第一任务和卸载至边缘服务器执行的第二任务；其中，当前环境状态信息包括终端的计算资源和/或传输功率，奖励函数和终端的任务执行总开支相关联，任务总开支包括本地执行任务产生的总开支和将任务卸载至边缘服务器上执行所产生的总开支。本发明通过采用对能耗和时延进行优化的任务卸载模型，基于任务卸载情况和环境状态信息确定本地执行的第一任务和卸载至边缘服务器执行的第二任务，实现终端能耗感知和任务时延感知的计算任务卸载。

Description

算力任务执行方法、装置、电子设备及存储介质

技术领域

本发明涉及边缘计算技术领域，尤其涉及一种算力任务执行方法、装置、电子设备及存储介质。

背景技术

随着物联网与可穿戴设备等移动技术的发展，智能移动设备为计算密集型任务提供一个强大的平台。与传统任务相比，计算密集型任务在终端上执行时，需要更多的能量与计算资源，但智能终端上有限的计算资源和电池寿命，为计算密集型任务在终端上执行带来了前所未有的挑战。

为解决上述挑战，算力网络应运而生，算力网络中边缘服务器与终端设备相互协作。但边缘服务器的计算能力也是受限的，在一些特定的计算卸载场景(超密集网络)下，可能存在干扰并导致期望外的传输延迟。但如何合理进行算力调度执行终端的待执行任务还不明确。

发明内容

本发明提供一种算力任务执行方法、装置、电子设备及存储介质，用以解决现有技术中如何合理进行算力调度执行终端的待执行任务还不明确的缺陷，实现具有终端能耗感知和任务时延感知的计算任务卸载。

第一方面，本发明提供一种算力任务执行方法，包括：

将当前任务卸载情况和当前环境状态信息，输入任务卸载模型，确定至少一个任务分别一一对应的至少一个任务执行策略；

基于奖励函数，确定所述至少一个任务执行策略中每一个任务执行策略的奖励值；

基于所述每一个任务执行策略的奖励值，确定本地执行的第一任务和卸载至边缘服务器执行的第二任务；

其中，所述当前环境状态信息包括终端的计算资源和/或传输功率，所述奖励函数和所述终端的任务执行总开支相关联，所述任务总开支包括所述终端本地执行任务所产生的总开支和所述终端将所述任务卸载至边缘服务器上执行所产生的总开支。

可选地，根据本发明提供的一种算力任务执行方法，所述基于所述每一个任务执行策略的奖励值，确定本地执行的第一任务和卸载至边缘服务器执行的第二任务，包括：

对所述至少一个任务执行策略中每一个任务执行策略的奖励值进行从大到小排序；

针对其中奖励值最大的任务，基于所述任务的任务执行策略执行所述任务，并更新所述当前任务卸载情况和当前环境状态信息。

可选地，根据本发明提供的一种算力任务执行方法，所述终端本地执行任务所产生的总开支，包括：

所述终端本地执行第一任务所产生的能耗和所述终端本地执行第一任务所产生的时延；

其中，所述终端本地执行第一任务所产生的能耗和所述终端的计算资源相关联。

可选地，根据本发明提供的一种算力任务执行方法，所述终端将所述任务卸载至边缘服务器上执行所产生的总开支，包括：

所述终端将第二任务卸载至边缘服务器时传输所产生的能耗、所述终端将第二任务卸载至边缘服务器时传输所产生的时延、和所述第二任务在所述边缘服务器被执行所产生的时延；

其中，所述终端将第二任务卸载至边缘服务器时传输所产生的时延和所述终端的传输功率相关联。

可选地，根据本发明提供的一种算力任务执行方法，所述方法还包括：

确定训练样本组；

基于至少一个所述训练样本组，训练所述任务卸载模型。

可选地，根据本发明提供的一种算力任务执行方法，所述确定训练样本组，包括：

确定所述终端的环境状态信息的初始值；

基于任一个任务，以所述初始值为输入，根据贪婪法确定所述任务的目标任务执行策略，确定执行所述目标任务执行策略后的环境状态信息，和执行所述目标任务执行策略获得的奖励值；

将所述初始值，所述目标任务执行策略，执行所述目标任务执行策略后的环境状态信息，和执行所述目标任务执行策略获得的奖励值，作为一个所述训练样本组。

第二方面，本发明还提供一种算力任务执行装置，包括：

第一确定模块，用于将当前任务卸载情况和当前环境状态信息，输入任务卸载模型，确定至少一个任务分别一一对应的至少一个任务执行策略；

第二确定模块，用于基于奖励函数，获得所述至少一个任务执行策略中每一个任务执行策略的奖励值；

第三确定模块，用于基于所述每一个任务执行策略的奖励值，确定本地执行的第一任务和卸载至边缘服务器执行的第二任务；

第三方面，本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述算力任务执行方法的步骤。

第四方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述算力任务执行方法的步骤。

第五方面，本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述算力任务执行方法的步骤。

本发明提供的算力任务执行方法、装置、电子设备及存储介质，通过采用针对任务卸载和任务执行阶段对能耗和时延进行优化的任务卸载模型，基于当前任务卸载情况和当前环境状态信息，确定至少一个任务执行策略，并基于每一个任务执行策略的奖励值确定本地执行的第一任务和卸载至边缘服务器执行的第二任务，可以实现具有终端能耗感知和任务时延感知的计算任务卸载。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的算力任务执行方法的流程示意图；

图2是本发明提供的算力任务执行装置的结构示意图；

图3示例了一种电子设备的实体结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1-图3描述本发明的算力任务执行方法、装置及电子设备。

图1是本发明提供的算力任务执行方法的流程示意图，如图1所示，该方法包括如下步骤：

步骤100，将当前任务卸载情况和当前环境状态信息，输入任务卸载模型，确定至少一个任务分别一一对应的至少一个任务执行策略；

步骤110，基于奖励函数，确定所述至少一个任务执行策略中每一个任务执行策略的奖励值；

步骤120，基于所述每一个任务执行策略的奖励值，确定本地执行的第一任务和卸载至边缘服务器执行的第二任务；

具体来说，与智能终端相比，云端具有更多的计算资源与存储资源，因此可以将计算任务卸载至云上。但是由于有限的通信带宽、不稳定的网络连接以及严格的时延要求等，仅靠云计算已无法支持无处不在且日渐强大的物联网部署和应用，为解决上述挑战，算力网络应运而生。

具体地，算力网络涉及云计算、雾计算、边缘计算技术间的相互协作，这些技术的特点和可调度的算力资源不同，可分别针对区域级别，设备级别的物联网应用和服务。基于算力网络，按需调度网络中的算力资源可显著提升应用程序的服务质量和用户体验，提高响应速度并节省能耗。

尽管算力网络相较传统网络具有上述优势，但多层次算力资源管理较为复杂，为解决上述挑战，算力网络通过云网融合技术及 SDN/NFV等新型网络技术，将边缘计算节点、云计算节点及广域网在内的各类网络资源融合在一起，减小边缘计算节点的管控复杂度，并通过集中控制或分布式调度方法与云计算节点的计算和存储资源、广域网的网络资源进行协同，组成新一代信息基础设施，为客户提供包含计算、存储和连接的整体算力服务，并根据业务特性提供灵活、可调度的按需服务。

本发明可以重点考虑边缘服务器与终端设备的算力调度，与云计算相比，边缘计算减小了数据传输时延，提高了计算卸载过程中的计算敏捷性。

但是，边缘服务器的计算能力也是受限的，在一些特定的计算卸载场景(超密集网络)下，可能存在干扰并导致期望外的传输延迟。因此不能将所有任务卸载至边缘服务器上执行，部分任务应该由智能终端设备(Smart Terminal Device，SMD)执行。尽管本地执行消耗了更多的能量，但无需考虑数据传输时间，因此大大提高了任务的响应速度。

因此，为实现上述目的，本发明提出一个具有终端能耗感知的任务卸载方案，并对边缘服务器和终端设备的算力进行调度。

具体地，本发明可以首先引入一个边端混合的多层次算力网络及计算卸载系统，该系统由多个智能终端设备(Smart Terminal Device， SMD)和一个边缘服务器共同组成，二者可以共同向终端任务提供计算服务，在程序运行过程中用户出于时延或能耗的考虑，可以将对应计算任务卸载到边缘服务上或在本地进行处理。上述两种处理方式相较而言，边缘服务器拥有更多的计算资源，但远离数据源，通信时延较大；直接在终端设备上执行可避免网络中的通信时延，提高应用程序的响应速度，但SMD的终端计算能力有限，用户如何根据自身不同时延、能耗的考虑决定任务的处理位置并对算力资源进行调度是本发明考虑的重点。

因此，本发明提出一个具有N个无线接入点和一个边缘服务器的边缘计算网络。边缘服务器配备足够的计算和存储资源，能够满足计算密集任务的时延需求，每个无线接入点连接一定数量的智能终端设备(SMD)，接入节点(Access Point，AP)与SMD之间可以通过无线链路连接，AP与边缘服务器可以通过有线链路连接，无线接入点物理位置位于终端与边缘服务器之间，可以负责终端与边缘服务器的接入。

本发明可以分别使用集合N＝{1,2,...,N}和D＝{1,2,...,D}表示AP集合和SMD集合。为方便建模，本发明可以假设每个时刻SMD只执行一个任务，并且每个任务被建模为三元组

其中i_n表示任务T_n的输入数据规模大小，c_n表示完成任务T_n所需的CPU全部 CPU周期数目，

表示完成任务T_n的最长执行时间。

具体地，在任务卸载期间，SMD集合可以保持不变。每个终端上的计算任务均存在两种执行策略：

1、计算任务在SMD本地执行；

2、将任务卸载至边缘服务器上，由边缘服务器协助SMD完成计算任务。

因此，本发明可以确定本地执行的第一任务和卸载至边缘服务器执行的第二任务，比如有10个待执行任务，可以确定其中4件任务由终端本地执行，6件任务由终端卸载至边缘服务器上执行。

可选地，至少一件任务可以是一个终端上的至少一件任务，也可以是多个终端的多件任务，其中每一个终端可以有一件或多件任务。

可选地，在对某一件任务确定其任务执行策略时，其对应的当前环境状态信息可以是该任务所在终端目前实时的环境状态信息，比如 CPU频率、存储资源、电池剩余容量和电池寿命。

因此，本发明可以将当前任务卸载情况和当前环境状态信息，输入任务卸载模型，确定适应于终端当前算力资源情况的至少一个任务分别一一对应的至少一个任务执行策略；

可选地，任务卸载模型可以是提前预先训练好的神经网络模型。

可选地，由于获得了多个可执行的任务，因此可以基于奖励函数，确定所述至少一个任务执行策略中每一个任务执行策略的奖励值，进而可以确定在终端当前算力资源情况下更加适合执行的任务执行策略；

可选地，在确定每一个任务执行策略的奖励值后，可以基于这些奖励值，确定本地执行的第一任务和卸载至边缘服务器执行的第二任务；比如可以将其中奖励值较大的任务执行策略首先执行，然后更新终端在执行完这些任务后的环境状态信息(算力资源情况)，进而可以再次获得一批适合执行的任务，实时适应终端的算力资源情况。

本发明在考虑环境状态信息(算力资源情况比如SMD可用电量) 和时延敏感任务的需求的情况下，可以实现结合资源分配的具有终端能耗感知的计算任务卸载方案。

本发明提供的算力任务执行方法，通过采用针对任务卸载和任务执行阶段对能耗和时延进行优化的任务卸载模型，基于当前任务卸载情况和当前环境状态信息，确定至少一个任务执行策略，并基于每一个任务执行策略的奖励值确定本地执行的第一任务和卸载至边缘服务器执行的第二任务，可以实现具有终端能耗感知和任务时延感知的计算任务卸载。

可选地，所述基于所述每一个任务执行策略的奖励值，确定本地执行的第一任务和卸载至边缘服务器执行的第二任务，包括：

可选地，在基于所述每一个任务执行策略的奖励值，确定本地执行的第一任务和卸载至边缘服务器执行的第二任务时，为了更好地适应终端的环境状态信息，因此可以每执行N件任务后更新当前任务卸载情况和当前环境状态信息，然后获得新的任务执行策略，重新基于新的任务执行策略的奖励值，确定执行N件任务，依次类推，直至任务被执行完毕。

可选地，N最优可以为1，每执行一次任务就更新一次当前任务卸载情况和当前环境状态信息，并获得新的任务执行策略，使得每次执行的任务执行策略都是最适应该任务执行策略被执行时刻的环境状态信息的任务，即每次执行的任务执行策略都是当时所有待执行任务的任务执行策略中奖励值最大的任务的任务执行策略。

可选地，N也可以为2，也可以为任意比“至少一个任务”的任务数量少的数，也可以和“至少一个任务”的任务数量相等。

可选地，在基于算法实现本发明时可以如以下边缘任务卸载算法的步骤所示：

输入:经预先训练得到的神经网络(任务卸载模型)，该网络权重参数为θ；待卸载的边缘任务集合ET，边缘服务器集合ES；

输出：边缘任务卸载动作(即任务执行策略指示是否卸载至边缘服务器执行)

本发明通过每执行一次任务就更新一次当前任务卸载情况和当前环境状态信息，并重新确定在新的任务卸载情况和环境状态信息下最适合执行的任务策略，有效保证了及时的终端能耗感知和任务时延感知

可选地，所述终端本地执行任务所产生的总开支，包括：

具体地，本发明可以使用二进制变量d_i,j表示与编号为j的AP的相连的编号为i的SMD上的计算卸载策略。

具体地，对于任务T_i，若d_i,j＝1，则可以认为其表示将对应设备上的任务卸载至边缘服务器上执行，反之d_i,j＝0则可以表示对应的计算任务在本地执行。

具体地，对于任务T_i，当d_i,j＝0时，SMD将在本地执行计算任务 T_i，在这种场景下，任务的执行时间可以被表示为：

上式(1)中，f_i ^l为SMD的计算能力(比如CPU计算频率)，该值取决于对应的任务类型。

SMD在执行任务过程中的终端能耗可以由SMD的CPU频率决定，如下式(2)所示：

上式(2)中，γ_i为SMD上CPU运行1个周期时消耗的全部能量，且γ_i＝κ·(f_i ^l)²，其中κ是一个依赖于CPU架构的因子。

为实现边缘任务卸载过程中的能耗与时延的联合优化，本发明首先引入一个权重参数

该参数代表SMD对执行时延的需求，该值越大，表明此时需优先满足任务卸载过程中的时延优化。除时延外，SMD的剩余电量同样影响卸载决策。

因此，本发明引入一个变量r_i ^p，该变量可以表示SMD中剩余电量比率的大小，如下式(3)所示：

上式中，P_i ^remain表示SMD当前剩余电量，P_i ^total表示SMD的全部电量。

此外，变量r_i ^p的值同样可以代表SMD针对时延优化和能耗优化的不同要求。例如，r_i ^p的值越小，表明SMD的剩余电量越少，此时可以保证计算任务在执行过程中消耗更少的能量以延长终端的电池使用时间，因此本发明对归一化参数可以重新定义如下：

同时，能耗的权重因子可计算为

因此本地执行计算任务时的全部开支可表示为：

可选地，所述终端将所述任务卸载至边缘服务器上执行所产生的总开支，包括：

具体地，对于任务T_i，若d_i,j＝1，可以表示SMD上的任务不在本地执行，而是卸载至边缘服务器上，由边缘服务器协助执行。

具体地，在计算任务的处理过程中，任务的响应时延包括：

1、将任务数据传输至边缘服务器上的传输时间；

2、边缘服务器执行计算任务的处理时间。

与计算密集任务(如模式识别)的输入数据规模相比，输出数据的规模可忽略不计，本发明在建模过程中忽略了任务结果的传输时延。

具体地，将任务数据传输至边缘服务器上包含两个传输时间： SMD与AP之间的传输时间、AP与边缘服务器间的传输时间。SMD 与AP之间通过无线链路连接，本发明可以使用r_i ^AP表示SMD与AP 间的数据传输速率，计算结果如下式(6)所示：

上式(6)中，ω_i表示SMDⁱ与AP之间的无线传输带宽，

和 σ分别表示SMD与AP之间的信道增益和噪声功率谱密度，p_i表示 SMDⁱ的传输功率。此外，本发明可以使用c表示AP与边缘服务器间的数据传输速率，因此将数据传输由SMD传输至边缘服务器的全部时延可表示为：

与本地执行类似，本发明可以使用f^EC表示边缘服务器的计算能力，因此任务的处理时延计算结果如下式所示：

综上，将任务卸载至边缘服务器上执行时的全部时延可表示为：

在这种计算模式下，SMD的全部能耗可表示为：

与任务在本地执行类似，将任务卸载至边缘服务器上执行时的 SMD的全部开支可表示为：

基于对本地计算模型和边缘计算模型的分析可知，SMD的不同卸载决策将产生不同计算开销，本发明可以使用○_i(d_i)表示SMD在某种卸载决策下的全部计算开销，如下式(12)所示：

考虑到实际应用场景，由于网络中可用带宽的限制，随着卸载至边缘服务器的任务数目的增加，数据的传输速率将下降。本发明的目标是设计有效的计算卸载方案，该方案同时对SMD的CPU计算频率和任务卸载决策进行优化，以期在满足边缘任务最大执行时间的条件下，使得系统架构中所有SMD的计算开销(包含任务执行时间和能耗)最小化。本发明的优化目标如下式(13)所示：

为便于具体描述每个SMD的卸载策略，本发明可以引入一个函数F(#)，括号内为判断条件，若判断条件判定为真返回1，否则返回 0，如下式(14)所示：

本发明首先对任务的执行时间进行限制，即任务的执行时间不能大于最大执行时间

如下式(15)所示：

无论SMD采用哪种计算任务执行方式，其消耗的能量均不能超过SMD的剩余电量，如下式(16)所示：

本发明同样对本地计算的CPU频率和传输功率的最大值进行限制分别如下式(17)和(18)所示：

C4:0≤p_i≤p_max (18)

由于每个终端任务的卸载决策均存在两种方式，因此：

C5:d_i∈{0,1} (19)

因此，本发明建立的最优化问题模型为：

s.t.C1,C2,C3,C4,C5 (20)

可选地，由于CPU的周期频率等环境状态信息是影响本地开销的重要因素，因此本发明考虑设计有效的环境状态调度策略比如CPU 周期频率调度策略以减小本地开销，终端i上的本地计算的全部开销表示为f_i ^l的函数如下式所示：

对上式函数进行分析可知式(21)为凸函数，对其进行求导，并令其导数值为0，求得此时的周期频率，如下式(22)所示：

对上式(22)分析可知，当f_i ^l＜f_i ^l′时，

的值单调递减，当f_i ^l＞f_i ^l′时，

的值单调递增。

根据式(15)、(16)、(17)，可以对(17)中f_i ^l的范围重新定义如下式(23)所示：

综上所述，终端i上开销可按照下式(24)进行计算：

具体地，可以对最优化问题模型求解，获得本地执行的第一任务和卸载至边缘服务器执行的第二任务。

具体地，本发明的目的在于研究多层次算力网络中具有能耗感知的计算卸载方案及算力资源的调度方案，本发明可以首先引入一个边端混合的多层次算力网络，然后引入深度强化学习开发基于DRL的计算卸载算法，实现不同层次算力资源的调度。其次，本发明可以建立多目标优化问题模型来最小化任务卸载过程中的终端能耗与服务延迟。为提高计算效率并避免过度估计，本发明基于DQN设计了任务卸载算法以获得最优解。

可选地，可以引入深度强化学习开发基于DRL的计算卸载算法，实现对该最优化问题模型的求解。

可选地，所述方法还包括：

确定训练样本组；

基于至少一个所述训练样本组，训练所述任务卸载模型。

具体地，由于边缘网络的复杂多变性，终端上的任务卸载策略需要随环境状态信息的变化而改变，基于深度强化学习(Deep Reinforcement learning，DRL)的卸载策略模块可与环境进行交互，学习任务卸载策略以获得最大回报。在面向边缘任务的卸载过程中，系统中的终端可作为智能体与外部环境交互，在执行任务卸载策略后，环境对当前状态更新得到下一状态与即时奖励。在某一时刻，执行动作后的环境状态信息只与当前状态有关，与当前时刻前的历史状态无关，具有无后效性，因此可将边缘任务卸载问题表述为一个MDP模型，并基于该模型求解任务策略。

具体地，MDP模型可以指马尔科夫决策过程，马尔可夫链是一种具有无后效性的概率模型，即未来的状态只与当前有关，与之前的状态无关。一个MDP过程可使用一个五元组(O,A,P,R,γ)表示。O其中代表智能体观测到的状态空间；A表示智能体可执行的动作空间； P代表转移概率的集合，即在某一状态下执行动作a_t∈A后进入特定状态的概率构成的有限集；R表示执行动作后即时奖励构成的有限集； γ表示折扣系数，用于衡量即时奖励与未来奖励。MDP模型通过不断探索位置环境下的动作，并记录动作执行后的奖励，使长期累计获得的正向激励越来越大，负向激励越来越小，进而可以获得最优策略。

本发明接下来给出基于MDP的任务卸载问题模型：

状态空间：对于o_l∈O有o_l＝<D,U_cpu(l),P_trans(l)>，表示已经卸载了个终端任务时，任务与对应设备的卸载策略以及各设备的资源使用情况。其中D表示前l个任务的卸载情况，U_cpu(l)表示各设备可用CPU 的状态，P_trans(l)表示各设备可用的传输功率。

动作空间：对于a_l∈A，有a_l＝f(o^l)，表示智能体根据特定的策略，并对当前的环境状态信息进行观测，选择是否将对应任务卸载至边缘服务器，由边缘服务器协助其完成终端任务的完成。

动作执行函数step(o_l,a)：step(o_l,a)＝<r_l',o_l',Υ,l'>，该函数表示智能体在状态o_l下执行任务卸载动作后a，智能体获得的即时奖励r_l'，执行对应动作后的状态后序o_l'、部署结果参量Υ以及已完成任务卸载后的终端数量l'。奖励函数表示在状态下执行部署动作获得的及时奖励，本发明的优化目标使对应终端任务的处理时延以及终端能耗，由于式 (12)同时对二者进行表述，因此奖励函数可表示为式(12)的函数。此外，奖励结果需指定为一正值，能耗与时延两方面因素均为负面指标，因此奖励函数的制定为下式(25)所示：

上式(25)中，A可以为一足够大的常数，该值可以保证奖励值不为负数，

为部署l个终端任务时，由任务卸载操作产生的全部开销。在采取某个策略中的动作后，若对应产生的开销(任务时延和终端能耗)越大，环境反馈给智能体的奖励值就越小，反之亦然。

状态行为值函数Q^π(o,a)可以定义在策略π下执行动作a的奖励的期望。对于学习率为α的MDP，由状态o开始获得的累计奖励期望可使用动态规划迭代计算得到对应的值：

Q^π(o,a)＝Q^π(o,a)+α[reward+γmax_a'Q^π(o',a')-Q^π(o,a)] (26)

上式中，γ表示奖励折扣因子。

具体地，可以基于建立的MDP过程，任务卸载策略可以对每个终端上的任务是否进行计算卸载进行决策，即是否将对应任务卸载至边缘服务器上。但终端任务的数目直接影响状态空间的大小，随着终端设备的增多，会使得状态空间随之同步增长。若基于Q-Learning 算法设计任务决策策略，在实际应用中，由于状态空间太大， Q-Learning算法的Q表会出现维度爆炸的现象，导致智能体在训练阶段很难实现收敛。

为解决实际应用中状态空间爆炸的问题，DQN算法可以对 Q-Learning进行修改，该算法可以构建一个权重为θ的神经网络对Q 值进行近似代替，使得Q(o,a,θ)≈Q(o,a)。该网络可以将状态s作为输入，然后经过激活函数为Relu的两个卷积层和两个全连接层，最后输出包含每个动作Q值的向量。该网络可以使用实际累计奖励作为目标值，预计获得的累计奖励作为预测值，训练该网络的目的可以使预测值尽量逼近目标值，因此定义损失函数可以如下所示：

L(θ)＝E[(R+γmax_a'Q(s',a'；θ')-Q(s,a；θ))²] (27)

具体地，DQN可以通过反向传播机制于随机梯度下降法对神经网络的参数进行更新，对式(27)进行求导，得到损失函数的梯度可以如下式(28)所示：

具体地，DQN算法可以由两个同结构的神经网络构成，一个是估计网络，一个是目标网络，为使DQN支持基于经验的学习并避免错误的陷阱，DQN在初始化时，可以构建经验回放库(包括至少一个训练样本组)，并给定目标网络参数的更新频率。然后可以基于至少一个所述训练样本组，训练所述任务卸载模型。

具体地，任务卸载模型的训练算法可以如下所示：

输入:最大训练步数N_e，学习率α，折扣系数γ，待卸载的边缘任务集合ET，边缘服务器集合ES

输出：权重为θ的神经网络

可选地，所述确定训练样本组，包括：

确定所述终端的环境状态信息的初始值；

具体地，可以在每个回合开始时，确定所述终端的环境状态信息的初始值s_l，基于任一个任务，以所述初始值为输入，DQN在状态s_l下使用探索方法，确定所述任务的目标任务执行策略(动作a_l)，执行任务卸载动作a_l后，智能体获得的即时奖励r_l，并更新执行动作a_l后的环境状态信息s_l'；其探索方法是以的β概率选择神经网络输出的动作，以1-β的概率选择随机产生的动作。在神经网络训练的开始阶段，为更多地探索潜在的动作，应将β的值设置为较低，待神经网络训练一定步数后，再将β的值增大。此外，在训练过程中将每步训练后的训练样本组(s_l,a_l,r_l,s_l')存入经验回放库中。

本发明提出了基于能耗感知的任务卸载及算力调度方法。引入了 DRL，并提出了基于DRL的智能化算法，实现了不同层次算力资源的调度；且开发了一种多目标优化问题模型，以最小化网络能耗和服务延迟。并且设计了DQN算法以获得最优解。

下面对本发明提供的算力任务执行装置进行描述，下文描述的算力任务执行装置与上文描述的算力任务执行方法可相互对应参照。

图2是本发明提供的算力任务执行装置的结构示意图，如图2所示，该执行装置包括：第一确定模块210，第二确定模块220和第三确定模块230，其中：

第一确定模块210用于将当前任务卸载情况和当前环境状态信息，输入任务卸载模型，确定至少一个任务分别一一对应的至少一个任务执行策略；

第二确定模块220用于基于奖励函数，获得所述至少一个任务执行策略中每一个任务执行策略的奖励值；

第三确定模块230用于基于所述每一个任务执行策略的奖励值，确定本地执行的第一任务和卸载至边缘服务器执行的第二任务；

本发明提供的算力任务执行装置，通过采用针对任务卸载和任务执行阶段对能耗和时延进行优化的任务卸载模型，基于当前任务卸载情况和当前环境状态信息，确定至少一个任务执行策略，并基于每一个任务执行策略的奖励值确定本地执行的第一任务和卸载至边缘服务器执行的第二任务，可以实现具有终端能耗感知和任务时延感知的计算任务卸载。

图3示例了一种电子设备的实体结构示意图，如图3所示，该电子设备可以包括：处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340，其中，处理器310，通信接口320，存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令，以执行算力任务执行方法，该方法包括：将当前任务卸载情况和当前环境状态信息，输入任务卸载模型，确定至少一个任务分别一一对应的至少一个任务执行策略；

此外，上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行算力任务执行方法，该方法包括：将当前任务卸载情况和当前环境状态信息，输入任务卸载模型，确定至少一个任务分别一一对应的至少一个任务执行策略；

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行算力任务执行方法，该方法包括：将当前任务卸载情况和当前环境状态信息，输入任务卸载模型，确定至少一个任务分别一一对应的至少一个任务执行策略；

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种算力任务执行方法，其特征在于，包括：

2.根据权利要求1所述的算力任务执行方法，其特征在于，所述基于所述每一个任务执行策略的奖励值，确定本地执行的第一任务和卸载至边缘服务器执行的第二任务，包括：

3.根据权利要求1所述的算力任务执行方法，其特征在于，所述终端本地执行任务所产生的总开支，包括：

4.根据权利要求1所述的算力任务执行方法，其特征在于，所述终端将所述任务卸载至边缘服务器上执行所产生的总开支，包括：

5.根据权利要求1-4任一项所述的算力任务执行方法，其特征在于，所述方法还包括：

确定训练样本组；

基于至少一个所述训练样本组，训练所述任务卸载模型。

6.根据权利要求5所述的算力任务执行方法，其特征在于，所述确定训练样本组，包括：

确定所述终端的环境状态信息的初始值；

7.一种算力任务执行装置，其特征在于，包括：

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述算力任务执行方法的步骤。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述算力任务执行方法的步骤。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述算力任务执行方法的步骤。