CN116743753A

CN116743753A - 一种任务处理方法、装置及设备

Info

Publication number: CN116743753A
Application number: CN202310709692.6A
Authority: CN
Inventors: 李英豪; 刘盼盼; 王文猛; 韩志勇; 刘成明; 李翠霞
Original assignee: Zhengzhou University
Current assignee: Zhengzhou University
Priority date: 2023-06-15
Filing date: 2023-06-15
Publication date: 2023-09-12

Abstract

本发明提供一种任务处理方法、装置及设备。所述任务处理方法，包括：获取预设时间序列中至少一个终端与至少一种边缘计算设备进行任务交互时的状态空间数据；根据预设时间序列中第一时刻的所述状态空间数据，输入至任务处理模型的第一处理网络中进行处理，得到第一评估数据；根据预设时间序列中第二时刻的所述状态空间数据，输入至任务处理模型的第二处理网络中进行处理，得到第二评估数据；所述第二时刻大于所述第一时刻；根据所述第一评估数据和所述第二评估数据，对所述任务处理模型的参数进行更新，得到更新结果。本发明的方案能够基于多终端多边缘计算设备之间的协作，充分利用边缘资源，通过任务处理模型，对任务进行处理，提高了计算效率。

Description

一种任务处理方法、装置及设备

技术领域

本发明涉及计算机信息处理技术领域，特别是指一种任务处理方法、装置及设备。

背景技术

随着手机、电脑等智能化计算设备的普及，以及人工智能算法的发展，各类应用任务的处理对于数据实时性的要求越来越高。对于此类应用业务，若在本地计算很可能出现能力不足或者电量消耗过快的情况；若在云端计算很有可能无法满足应用的延迟要求，当应用规模扩大时，云计算架构中网络带宽会成为瓶颈，难以支持大规模实时计算和海量的数据请求；

目前，任务卸载方法可以分为二进制计算卸载和部分计算卸载。具体的，二进制计算卸载指在本地设备上处理全部任务，或者在服务器上处理全部任务；部分卸载指终端设备可以将任务的一部分传输至服务器进行处理，在本地处理余下部分；目前关于任务卸载至少存在如下问题：

(1)任务到达情况不符合实际环境中动态变化的特征；

(2)在计算延迟时，不考虑底层排队系统带来的影响；

(3)MEC服务器间缺乏协作；

(4)经验回放时采样学习效率低。

发明内容

本发明要解决的技术问题是如何提供一种任务处理方法、装置及设备，能够基于多终端多边缘计算设备之间的协作，充分利用边缘资源，通过任务处理模型，对任务进行处理，提高了计算效率。

为解决上述技术问题，本发明的技术方案如下：

一种任务处理方法，所述方法包括：

获取预设时间序列中至少一个终端与至少一种边缘计算设备进行任务交互时的状态空间数据；

根据预设时间序列中第一时刻的所述状态空间数据，输入至任务处理模型的第一处理网络中进行处理，得到第一评估数据；

根据预设时间序列中第二时刻的所述状态空间数据，输入至任务处理模型的第二处理网络中进行处理，得到第二评估数据；所述第二时刻大于所述第一时刻；

根据所述第一评估数据和所述第二评估数据，对所述任务处理模型的参数进行更新，得到更新结果。

可选的，所述第一处理网络包括第一策略网络和第一评估网络；

其中，根据预设时间序列中第一时刻的所述状态空间数据，输入至任务处理模型的第一处理网络中进行处理，得到第一评估数据，包括：将第一时刻的所述状态空间数据输入至第一策略网络中进行处理，得到第一时刻的动作状态数据；

将第一时刻的所述状态空间数据和所述动作状态数据，输入至第一评估网络中进行处理，得到第一评估数据。

可选的，在将第一时刻的所述状态空间数据输入至第一策略网络中进行处理，得到第一时刻的动作状态数据之后，还包括：

根据第一时刻的动作状态数据，确定至少一个终端与至少一种边缘计算设备进行任务交互时的时延能耗数据。

可选的，所述第二处理网络包括第二策略网络和第二评估网络；

其中，根据预设时间序列中第二时刻的所述状态空间数据，输入至任务处理模型的第二处理网络中进行处理，得到第二评估数据，包括：

将第二时刻的所述状态空间数据输入至第二策略网络中进行处理，得到第二时刻的动作状态数据；

将第二时刻的所述状态空间数据和所述动作状态数据，输入至第二评估网络中进行处理，得到第二评估数据。

可选的，根据所述第一评估数据和所述第二评估数据，对所述任务处理模型的参数进行更新，得到更新结果，包括：

根据时延能耗数据和第一评估数据，对任务处理模型的第一策略网络的参数进行更新，得到第一更新结果；

通过最小化损失函数，对任务处理模型的第一评估网络的参数进行更新，得到第二更新结果；

根据所述第一更新结果，对任务处理模型的第二策略网络的参数进行更新，得到第三更新结果；

根据所述第二更新结果，对任务处理模型的第二评估网络的参数进行更新，得到第四更新结果。

可选的，根据所述第一更新结果，对任务处理模型的第二策略网络的参数进行更新，得到第三更新结果，包括：

根据θ^π′＝τθ^π+(1-τ)θ^π′，对任务处理模型的第二策略网络的参数进行更新，得到第三更新结果；

其中，θ^π′为任务处理模型的第二策略网络的参数，θ^π为第一更新结果，τ为预设变量。

可选的，根据所述第二更新结果，对任务处理模型的第二评估网络的参数进行更新，得到第四更新结果，包括：

根据θ^Q′＝τθ^Q+(1-τ)θ^Q′，对任务处理模型的第二评估网络的参数进行更新，得到第四更新结果；

其中，θ^Q′为任务处理模型的第二评估网络的参数，θ^Q为第二更新结果，τ为预设变量。

本发明还提供一种任务处理装置，所述装置包括：

获取模块，用于获取预设时间序列中至少一个终端与至少一种边缘计算设备进行任务交互时的状态空间数据；

处理模块，用于根据预设时间序列中第一时刻的所述状态空间数据，输入至任务处理模型的第一处理网络中进行处理，得到第一评估数据；

本发明还提供一种计算设备，包括：处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如上所述的方法的步骤。

本发明还提供一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如上所述的方法的步骤。

本发明的上述方案至少包括以下有益效果：

本发明的上述方案，通过获取预设时间序列中至少一个终端与至少一种边缘计算设备进行任务交互时的状态空间数据；根据预设时间序列中第一时刻的所述状态空间数据，输入至任务处理模型的第一处理网络中进行处理，得到第一评估数据；根据预设时间序列中第二时刻的所述状态空间数据，输入至任务处理模型的第二处理网络中进行处理，得到第二评估数据；所述第二时刻大于所述第一时刻；根据所述第一评估数据和所述第二评估数据，对所述任务处理模型的参数进行更新，得到更新结果。能够基于多终端多边缘计算设备之间的协作，充分利用边缘资源，通过任务处理模型，对任务进行处理，提高了计算效率。

附图说明

图1是本发明实施例提供的任务处理方法的流程示意图；

图2是本发明实施例的任务处理系统的架构图；

图3是本发明实施例的任务处理模型的处理过程示意图；

图4是本发明实施例的任务处理装置的模块框示意图。

具体实施方式

下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

如图1所示，本发明的实施例提供一种任务处理方法，所述方法包括：

步骤11，获取预设时间序列中至少一个终端与至少一种边缘计算设备进行任务交互时的状态空间数据；

步骤12，根据预设时间序列中第一时刻的所述状态空间数据，输入至任务处理模型的第一处理网络中进行处理，得到第一评估数据；

步骤13，根据预设时间序列中第二时刻的所述状态空间数据，输入至任务处理模型的第二处理网络中进行处理，得到第二评估数据；所述第二时刻大于所述第一时刻；

步骤14，根据所述第一评估数据和所述第二评估数据，对所述任务处理模型的参数进行更新，得到更新结果。

本发明的该实施例中，通过所述任务处理方法，能够基于多终端多边缘计算设备之间的协作，充分利用边缘资源，通过任务处理模型，对任务进行处理，提高了计算效率。

需要说明的是，所述终端包括但不限于：手机、计算机、平板电脑、智能手表等；所述边缘计算设备包括：至少一个基站，以及设置于至少一个所述基站旁的边缘服务器，即MEC(Mobile Edge Computing，移动边缘计算)服务器；对任务进行处理包括但不限于对任务进行卸载处理。

需要说明的是，在当前的MEC体系结构中，网络部署基于正交频分多址(OFDMA)，由于系统内的无线通信信道都是正交分离的，因此能够有效地缓解信道之间的相互干扰，则在时隙t用户i和基站m之间的传输速率可以通过如下方式计算：

其中，B_i(t)为在时隙t系统给用户i分配的带宽，P_i(t)为设备i在时隙t的传输功率，g_i,m(t)为在时隙t设备i和基站m间的信道增益，σ为数据传输的噪声功率，x_i,m(t)为A_i(t)是否卸载到MEC服务器m，A_i(t)为终端i在时隙t产生的应用程序，约束只可以选择一个MEC服务器，如果卸载到MEC服务器M_m，则设置x_i,m(t)＝1，否则x_i,m(t)＝0，为所有与A_i(t)的子任务同时到达并选择同一个MEC服务器的来自于其他设备的子任务。

值得注意的是，在对任务进行处理时，终端可以选择将部分任务发送给边缘计算设备进行处理，这样能够使得边缘计算设备帮助终端协同处理任务，从而提升任务处理效率；

终端可以将部分任务发送给附边缘计算设备进行处理，也可以将部分任务发送给其他边缘计算设备进行处理，若所述终端设置于所述边缘计算设备的有效服务半径内，则所述边缘计算设备为所述终端的附边缘计算设备；当终端将部分任务发送给附边缘计算设备进行处理时，终端可以直接将部分任务发送至附边缘计算设备进行处理；当终端将部分任务发送给其他的目标边缘计算设备进行处理时，终端先将部分任务发送给附边缘计算设备，再由附边缘计算设备将部分任务发送至目标边缘计算设备进行处理。

具体的，如图2所示，在时隙t∈{1,2,3…T}中，时隙长度定义为Δ。由于任务处理模型更符合环境动态变化的特性，因此假设应用程序的到达服从Poisson(泊松)分布，将λ_i(t)定义为t时隙终端i的任务到达率，A_i(t)为终端i在时隙t产生的应用程序，假设所述应用程序A_i(t)可以被划分为多个独立的子任务，所述子任务可以在终端本地运行，也可以卸载至MEC服务器端运行；应用程序集合为：A＝{A_i(1),A_i(2)…,A_i(t)…,A_i(t)}。应用程序的属性由二元组(W_i(t),I_i(t))构成。W_i(t)表示时隙t开始时新到达应用程序的负载量，I_i(t)表示W_i(t)输入数据大小。如果在时隙t开始没有应用程序到达，则W_i(t)＝I_i(t)＝0。定义ξ为CPU(Central Processing Unit，中央处理器)处理密度cpb，表示处理器执行每位需要的时钟周期数(cycles/bit)，则W_i(t)和I_i(t)的关系为：

W_i(t)＝ξ×I_i(t)

将应用程序A_i(t)大致划分为n个独立任务并计算每一部分任务数据量的占比/>并满足/>定义表示A_i(t)可以选择的卸载的百分比集合，/> 定义p_i(t)为A_i(t)实际选择的卸载率，/> 其中r＝0或1，且满足0＜p_i(t)≤1，表示任务一定会被卸载至MEC服务器。

假设边缘计算设备的有效服务半径为R，终端设备与边缘计算设备间的欧氏距离为Dis(U_i,M_m)。用集合表示终端设备U_i可以直接请求服务的MEC服务器。若选定的MEC服务器在该集合中，终端设备将根据卸载比率把1-p_i(t)由本地处理的部分放入本地计算队列/>将p_i(t)的部分放入本地传输队列/>并通过无线链路发送到目标MEC服务器的计算队列/>若选定的MEC服务器不在该集合中，则定义协作调度因子/>M_m'表示目标MEC服务器，/>表示距离终端用户最近的MEC服务器，当/>时，表示终端设备U_i的子任务需要通过距离最近的/>进行转发，首先将p_i(t)的部分放入/>的传输队列/>中，再由该传输队列转发至M_m'的计算队列/>

本发明一可选的实施例中，所述第一处理网络包括第一策略网络和第一评估网络；步骤12，可以包括：

步骤121，将第一时刻的所述状态空间数据输入至第一策略网络中进行处理，得到第一时刻的动作状态数据；

步骤122，将第一时刻的所述状态空间数据和所述动作状态数据，输入至第一评估网络中进行处理，得到第一评估数据。

具体实现时，在步骤121之后，还可以包括：

步骤1211，根据第一时刻的动作状态数据，确定至少一个终端与至少一种边缘计算设备进行任务交互时的时延能耗数据。

本实施例中，将某一时刻的状态空间数据输入至第一策略网络中进行处理，得到第一时刻的动作状态数据，将所述动作状态数据和所述状态空间数据，输入至第一评估网络中进行处理，得到第一评估数据，这样能够输出第一评估数据，从而实现对所述动作状态数据的评估。

需要说明的是，根据第一时刻的所述动作状态数据，计算出至少一个终端与至少一种边缘计算设备进行任务交互时的时延能耗数据，按照所述时延能耗数据，进行下一时刻的至少一个终端与至少一种边缘计算设备的任务交互过程，这样能够得到下一时刻的状态空间数据，可以将各时刻的状态空间数据、动作状态数据、实验能耗数据生成经验样本集，便于为任务处理模型提供输入数据。

具体的，在终端和边缘计算设备进行任务交互时，需要确定本地计算队列、本地传输队列、边缘计算队列和边缘传输队列对任务处理时的影响；

其中，本地计算队列的确定过程包括：

每个应用程序所包含的数据量不同，任务在本地处理器上的处理过程为单个服务过程，且各个任务的处理过程为单个服务过程，且各个任务的处理过程相互独立，互不影响；假设本地处理器采用DVFS(动态电压频率调整)技术，其计算能力由时钟频率即单位时间内CPU的转数进行衡量。将子任务在本地计算的时延定义为从产生到被完全处理所经历的时长。在本地计算的子任务所需的时延由在队列的等待时延/>和服务时延/>组成：

其中，为在本地计算队列处理所需的时间，/>为子任务在本地排队系统中需要等待的时隙数，/>为在时隙t之前放入到本地计算队列中的所有子任务被处理完毕的时刻；对于计算(或传输)队列，如果一个子任务的处理(或传输)在一个时隙中完成，那么队列中的下一个子任务将在下一个时隙的开始被处理(或传输)，所以/>等于/>减去子任务到达的时刻再加1，下式表示子任务在本地计算队列中将在时隙/>内被处理完毕：

其中，表示向上取整函数，/>表示子任务在本地计算队列被处理所需要的时隙数，在时刻0时对/>初始化，此时子任务不需要等待，因此/>故

在本地计算任务时终端设备消耗的能量为：

其中，表示本地每CPU周期消耗的能量，通常取值为/>

其中，本地传输队列的确定过程包括：

对于大多数应用程序，输出的数据量大小通常比输入小得多，而且下行数据速率比上行数据速率高得多，因此在计算中省略了结果传回至用户端的延迟，下行链路的时间忽略不计；故从本地传输队列发送到MEC服务器的计算或传输队列所需的时间由本地传输队列的等待时延和传输时延组成：

其中，表示A_i(t)传输至MEC的子任务在本地传输队列中需要等待的时隙数，/>表示在时隙t之前放入到传输队列中的所有子任务被处理完毕的时隙。

下式表示子任务在本地传输队列中将在时隙内被处理完毕：

其中，表示子任务在本地传输队列被处理所需要的时隙数，在时刻0时对/>初始化，此时/>故/>

在本地传输任务时终端设备所消耗的能量为：

其中，P_trans表示设备传输功率。

其中，边缘计算队列的确定过程包括：

假设被卸载的子任务到达边缘计算队列的时刻为t^，其在MEC计算队列中所需的时间由任务处理时间和在计算队列中的等待时间组成，即：

其中，表示卸载的子任务在MEC计算队列中需要等待的时隙数，其计算方式为：

其中，表示在时隙t^开始时队列的长度，其更新公式如下：

其中，是MEC服务器m在时隙t^-1开始的队列长度，表示t^-1时刻到达MEC服务器m的所有终端设备的任务量之和，/>表示MEC服务器m在单个时隙内可以处理的数据量大小。

由于来自不同终端设备的应用程序有可能同时到达同一台服务器。在这种情况下，MEC服务器将采用随机顺序将它们添加到计算队列中。故定义一个变量来表示MEC计算队列中设备i^*和设备i两部分任务的处理顺序。

故表示所有和A_i(t)的子任务同时到达同一个MEC服务器计算队列并且计算顺序先于A_i(t)子任务的其他子任务量之和。

在MEC服务器计算任务时终端设备所消耗的能量为：

其中，边缘传输队列的确定过程包括：

在时隙t的开始，当新的应用程序A_i(t)到达时，可以在本地处理，或者被卸载到附边缘计算设备，或者通过网络中的无延迟有线链路被进一步转发到附近的其他边缘计算设备。需要被转移到附近边缘计算设备的任务会被放置在可直接连接的边缘计算设备所配置的MEC服务器的传输队列中，假设被卸载的子任务到达边缘传输队列的时刻为t^*。边缘计算设备之间通过有线连接传输信息，其传输速率为Ω，则被卸载的应用程序从当前可直接连接的边缘计算设备转发到目标MEC服务器所需的时间表示为：

其中，表示卸载的子任务在MEC服务器的传输队列中需要等待的时隙数，表示在时隙t^*之前放入到MEC服务器的传输队列中的所有子任务被处理完毕的时隙。

下式表示子任务在MEC服务器传输队列中将在时隙内被处理完毕：

其中，表示卸载的子任务在MEC服务器传输队列被处理所需要的时隙数，在时刻0时对/>进行初始化，此时/>故/>

在MEC服务器传输任务时终端设备所消耗的能量为：

其中，P_idle表示设备空闲时功率。

终端设备执行一个任务所需要的能耗和时延的加权和反映了其进行任务卸载所花费的开销，对于在时隙t终端i与附边缘计算设备之间的应用程序进行卸载的时间开销为：

对于在时隙t终端i通过附边缘计算设备与目标边缘计算设备之间的应用程序进行卸载的时间开销为：

对于在时隙t终端i与附边缘计算设备之间的应用程序进行卸载的能耗开销为：

对于在时隙t终端i通过附边缘计算设备与目标边缘计算设备之间的应用程序进行卸载的能耗开销为：

当终端设备所选择目标MEC服务器不在其连接范围时，需要通过其所连边缘计算设备进行转发，此时的总开销相对于无协作时增加了MEC传输时的时间和能耗。

在多终端设备多MEC服务器的架构下，考虑队列等待时间约束、任务调度约束和MEC服务器计算资源约束，设置优化目标为最小化系统内所有用户设备所有时隙下的总开销。因此，本文建立如下模型：

s.t.

C3:μ+v＝1

其中，μ是时间的加权系数，单位是焦耳/秒，用来将时间消耗的单位转变成能量消耗的单位，v是是能量的加权系数，是无量量纲，C1表示任务的卸载比例不能超过1，C2表示每个任务只能在一个MEC服务器上处理，C3表示时间的比例μ和能耗的比例v相加必须为1，C4表示各个队列下任务等待时间的约束。

本发明又一可选的实施例中，所述第二处理网络包括第二策略网络和第二评估网络；步骤13，可以包括：

步骤131，将第二时刻的所述状态空间数据输入至第二策略网络中进行处理，得到第二时刻的动作状态数据；

步骤132，将第二时刻的所述状态空间数据和所述动作状态数据，输入至第二评估网络中进行处理，得到第二评估数据。

本实施例中，将第二时刻的状态空间数据输入至第二策略网络中进行处理，得到第二时刻的动作状态数据，将所述动作状态数据和所述状态空间数据，输入至第二评估网络中进行处理，得到第二评估数据，这样能够输出第二评估数据，从而实现对第二动作状态数据的评估。

本发明又一可选的实施例中，步骤14，可以包括：

步骤141，根据时延能耗数据和第一评估数据，对任务处理模型的第一策略网络的参数进行更新，得到第一更新结果；

步骤142，通过最小化损失函数，对任务处理模型的第一评估网络的参数进行更新，得到第二更新结果；

步骤143，根据所述第一更新结果，对任务处理模型的第二策略网络的参数进行更新，得到第三更新结果；

步骤144，根据所述第二更新结果，对任务处理模型的第二评估网络的参数进行更新，得到第四更新结果。

具体实现时，步骤143，可以包括：

步骤1431，根据θ^π′＝τθ^π+(1-τ)θ^π′，对任务处理模型的第二策略网络的参数进行更新，得到第三更新结果；

进一步的，步骤144，可以包括：

步骤1441，根据θ^Q′＝τθ^Q+(1-τ)θ^Q′，对任务处理模型的第二评估网络的参数进行更新，得到第四更新结果；

本实施例中，通过对所述任务处理模型的参数进行更新，能够优化任务处理时的时延和能耗，从而提高系统的运行效率。如图3所示，本发明一可选的具体实施例中，所述任务处理方法的具体实现过程包括：

终端与边缘计算设备进行任务交互的过程中所有的任务处理模型均由四个网络组成，分别是：第一策略网络Actor、第一评估网络Critic、第二策略网络TargetActor、第二评估网络Target Critic；具体以第i个任务处理模型的详细结构为例进行展示；

在执行时每个任务处理模型独立地进行处理，每个任务处理模型都有一个第一策略网络将当前终端与边缘计算设备的交互环境的观察值s_i(t)作为输入，根据第一策略网络的输出动作状态数据a_i(t)后，会得到时延能耗数据r_i(t)，同时状态发生改变，任务处理模型的第二策略网络获取下一个时刻的观察值s_i(t+1)，每个任务处理模型和终端与边缘计算设备的环境交互得到的单组经验(s_i(t),a_i(t),r_i(t,s_i(t+1))，存入本地经验缓存池，不断重复上述过程并计算每单组经验的优先级、采样概率和重要性采样权重，从而形成经验样本集。

使用当前任务处理模型的预测值与真正价值函数的具体差值作为经验的优先值来衡量其重要程度。差值越大，就表明当前任务处理模型的预测更加需要修正，从而表明该经验样本更加重要。因此选取TD-error(时序差分)作为评判经验样本重要性的标准，认为误差的绝对值越大，对梯度学习的贡献也越大，应该优先采样经验池中具有较大TD-error的经验样本，实现对重要经验数据的优先回放。任务处理模型不仅要考虑自身的状态和行为，还要考虑其他任务处理模型的动作对自身的影响，因此从其余任务处理模型的本地经验池中取出相同时刻的单组经验进行拼接得到经验(s(t),a(t),r(t),s(t+1))。对任务处理模型i本地经验池中的经验计算TD-error，如下式所示：

其中，y_h表示真正的价值函数，其计算方式为：

其中，Q表示质量函数，用于评判动作状态数据的好坏，由第一评估网络Critic输出，将(s(t),a(t))输入至第一评估网络Critic得到将s(t)+1)输入至任务处理模型i的第二策略网络TargetActor中，输出a(t+1)，与s(t+1)拼接得到(s(t+1),a(t+1))，并输入至第二评估网络Target Critic得到/>

为了防止网络过拟合，保证即使是TD-error＝0的经验也可以被抽取到，采用基于概率的训练样本采样技术，通过概率的方式对经验进行抽取，采样概率O_h的计算方法如下：

o_h＝|δ_h|+ε

其中，H表示当前本地经验池的总数，ε是一个小的正常数，α表示排序值的重要性，当α＝0时，表示所有的样本对于采样的贡献是一致的，即为均匀采样。当α无穷大时，只有o_h最大的样本才会得到采样。

在PER(优先经验回收)中使用TD-error的绝对值δ为经验样本进行优先级赋值，作为评价经验样本是否值得被采样的指标，就可以根据δ的值对存储的经验样本进行采样。但是会使得那些高δ的经验被经常抽取到并频繁回放，容易导致训练样本多样性下降，使任务处理模型的训练过程容易振荡甚至发散，故通过重要性采样权重来纠正，下式为基于TD-error的优先级对应的重要性采样权重：

w_h＝(H·O_h)^-β

其中，w_h为第h组经验对应的重要性采样权重，β为表示纠正程度的参数。当β＝0时，表示没有使用到重要性采样权重策略。当β＝1时，权重会消除PER采样概率带来的偏置，但是也有可能减慢模型的收敛速度，故调节β∈(0,1)，这样可以使采样有效，并且模型也能有效收敛。为了提高收敛时的稳定性，将w_h＝(H·O_h)^-β进行归一化处理得到下式：

每次抽样时如果直接根据经验概率排序来选取历史数据，将会大大增加计算量，为进一步提高采样速度，采用Sumtree(二叉树)的数据结构形式存储经验优先值。将δ_h作为Sumtree中每个叶节点的存储值，非叶子节点没有实际的含义，根节点是所有叶子结点存储优先级的和。存储优先级时，从叶节点开始，每存入一个数据，更新一次对应样本池数据以及根节点。进行数据采样时，用根节点的优先级除以需要抽取的样本数K，将优先级按顺序从0到优先级之和分成K个区间。然后从每个区间随机抽取一个数，按照一定规律向下搜索，每抽到一个叶节点，返回其优先级及对应的样本池数据。

当所有任务处理模型和终端与各边缘计算设备的交互环境交互结束后，开始利用经验池中的经验样本数据对任务处理模型进行训练。根据sumtree结构从任务处理模型i的本地缓存池中抽取K组样本，再从其余任务处理模型的本地经验池中取出同样时刻的单组经验，并进行拼接得到K组经验(s(t),a(t),r(t),s(t+1))，并使用梯度下降的方法更新第一策略网络Actor的参数，梯度的计算公式为：

所有任务处理模型的第一评估网络Critic的输入都相同，均为K组所有任务处理模型的状态和动作集合，假设被抽取到的第j组经验表示为(s^j(t),a^j(t))，其中通过最小化损失的值来更新价值网络Q(s,a；θ^Q)，其损失的计算公式为：

其中，w_j为抽取到的第j组经验对应的重要性采样权重。

任务处理模型i的第二策略网络TargetActor和第二评估网络TargetCritic的参数分别是均使用软更新的方式进行更新，即：/>

进一步的，对任务进行卸载处理的过程包括：

如图3所示，假设所有终端设备的应用程序是随机到达的，并服从泊松分布，对于在某个时隙某个终端设备上到达的应用程序，可以被划分并按照一定的比例进行卸载，被卸载的数据通过无线传输发送至目标MEC服务器。并对目标MEC服务器和目标比例做出卸载决策。

在不确定和随机环境下，大多数决策问题都可以用马尔可夫决策过程(MDP)建模，一个MDP由三种数据<S,A,R>来定义，其中S表示状态空间数据，是环境信息的集合；A为动作状态数据，是任务处理模型根据环境信息做出的行为集合；R为时延能耗数据，表示在状态s(t)执行某个动作后获得的即时奖励值。

对于状态空间数据S，由于强化学习的目的是不断从历史信息中学习策略，因此定义全面的状态对决策效率至关重要。将每个终端设备视为一个任务处理模型，综合考虑应用的数据量大小、网络条件和计算资源等因素，定义时隙t的第i个任务处理模型的状态为：

其中，W_i(t)表示终端设备i在时隙t时的任务量大小，表示本地的计算能力，{r_i,1(t),r_i,2(t),…,e_i,m(t)}表示终端设备i和所有MEC服务器间的上行传输速率，表示所有MEC服务器计算队列中待处理任务的数据量大小。

对于动作状态数据A，任务处理模型每次的动作包括了卸载行为集合，当每个终端接收到状态s_i(t)时，它将对目标MEC服务器和目标比例p_i(t)进行决策，将动作空间定义为a_i(t)＝(M_i(t),p_i(t))。

对于即时的实验能耗数据R，在每个时隙t，任务处理模型在某一状态s(t)执行动作a(t)后，将得到一个奖励R(s(t),a(t))。在实际中，奖励函数应该与目标函数正相关。奖励机制与任务处理总成本呈负相关，即奖励越大，处理总成本越低。任务处理模型在时隙t获得的瞬时回报为R_i(t)＝-(αT_i(t)+βE_i(t))。所有任务处理模型获得的总回报在时隙t可以表示为

对于每个任务处理模型，第一策略网络Actor的输入是其状态，表示为s_i(t)，然后通过两层全连接网络，在输出层经过一层softmax，输出的每个值代表相应动作的概率。第一评估网络Critic的输入是所有任务处理模型的状态(s₁(t),…,s₂(t),…,s_I(t)和动作(a₁(t),…,a₂(t),…,a_I(t)，经过两层全连接隐藏层和一个带有一个节点的输出层组成，输出Q值。第二策略网络TargetActor和第二评估网络Target Critic的网络结构分别与第一策略网络Actor和第一评估网络Critic相同，它们的网络参数使用软更新的方式进行更新。

本发明的上述实施例中，通过各网络之间的相互通信来彼此协调，并行的求解问题，通过历史经验迭代学习得到最优策略，提高体统的运行效率；所述任务处理方法在MADDPG算法中引入优先经验回放和重要性采样，来提高采样效率；

由于PER-MADDPG算法基于DDPG，而DDPG依赖于因此需要连续的动作空间。但是在本文中动作空间由目标MEC服务器和卸载比例组成，它们都是离散值。为了更加适应本场景，取消了MADDPG中Actor网络的确定性策略，并将输出层改为可以输出所有动作概率的网络，使算法可用于离散动作空间。

如图4所示，本发明的实施例还提供一种任务处理装置40，所述装置40包括：

获取模块41，用于获取预设时间序列中至少一个终端与至少一种边缘计算设备进行任务交互时的状态空间数据；

处理模块42，用于根据预设时间序列中第一时刻的所述状态空间数据，输入至任务处理模型的第一处理网络中进行处理，得到第一评估数据；

根据θ^Q′＝τθ^Q+(1-τθ^Q′，对任务处理模型的第二评估网络的参数进行更新，得到第四更新结果；

需要说明的是，该装置是与上述方法对应的装置，上述方法实施例中的所有实现方式均适用于该装置的实施例中，也能达到相同的技术效果。

本发明的实施例还提供一种计算设备，包括：处理器、存储有计算机程序的存储器，所述计算机程序被处理器运行时，执行如上所述的方法。上述方法实施例中的所有实现方式均适用于该实施例中，也能达到相同的技术效果。

本发明的实施例还提供一种计算机可读存储介质，包括指令，当所述指令在计算机上运行时，使得计算机执行如上所述的方法。上述方法实施例中的所有实现方式均适用于该实施例中，也能达到相同的技术效果。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

此外，需要指出的是，在本发明的装置和方法中，显然，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且，执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行，但是并不需要一定按照时间顺序执行，某些步骤可以并行或彼此独立地执行。对本领域的普通技术人员而言，能够理解本发明的方法和装置的全部或者任何步骤或者部件，可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中，以硬件、固件、软件或者它们的组合加以实现，这是本领域普通技术人员在阅读了本发明的说明的情况下运用他们的基本编程技能就能实现的。

因此，本发明的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此，本发明的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说，这样的程序产品也构成本发明，并且存储有这样的程序产品的存储介质也构成本发明。显然，所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。还需要指出的是，在本发明的装置和方法中，显然，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且，执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行，但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种任务处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的任务处理方法，其特征在于，所述第一处理网络包括第一策略网络和第一评估网络；

3.根据权利要求2所述的任务处理方法，其特征在于，在将第一时刻的所述状态空间数据输入至第一策略网络中进行处理，得到第一时刻的动作状态数据之后，还包括：

4.根据权利要求1所述的任务处理方法，其特征在于，所述第二处理网络包括第二策略网络和第二评估网络；

5.根据权利要求1所述的任务处理方法，其特征在于，根据所述第一评估数据和所述第二评估数据，对所述任务处理模型的参数进行更新，得到更新结果，包括：

6.根据权利要求5所述的任务处理方法，其特征在于，根据所述第一更新结果，对任务处理模型的第二策略网络的参数进行更新，得到第三更新结果，包括：

7.根据权利要求5所述的任务处理方法，其特征在于，根据所述第二更新结果，对任务处理模型的第二评估网络的参数进行更新，得到第四更新结果，包括：

8.一种任务处理装置，其特征在于，所述装置包括：

9.一种计算设备，其特征在于，包括：处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1-7任一项所述的方法的步骤。

10.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1-7任一项所述的方法的步骤。