CN114217881A

CN114217881A - 任务卸载方法及相关装置

Info

Publication number: CN114217881A
Application number: CN202210164281.9A
Authority: CN
Inventors: 任涛; 姚依明; 牛建伟; 谷宁波; 胡哲源; 胡舒程; 何航
Original assignee: Hangzhou Innovation Research Institute of Beihang University
Current assignee: Hangzhou Innovation Research Institute of Beihang University
Priority date: 2022-02-23
Filing date: 2022-02-23
Publication date: 2022-03-22
Anticipated expiration: 2042-02-23
Also published as: CN114217881B

Abstract

本申请提供的任务卸载方法及相关装置，应用于任务卸载领域，该电子设备获取多个移动终端在下一任务周期的预测位置；并将多个移动终端的预测位置以及多个移动终端的预设状态信息作为环境状态，然后，通过任务卸载模型为每个移动终端制定任务卸载策略，由于该任务卸载策略考虑了在制定任务卸载策略期间多个移动终端的移动特性，因此，克服了相关技术难以做出理想的计算卸载和资源分配决策的缺陷，从而使得制定的任务卸载策略更为合理。

Description

任务卸载方法及相关装置

技术领域

本申请涉及任务卸载领域，具体而言，涉及一种任务卸载方法及相关装置。

背景技术

随着移动终端的快速发展，开发了各式各样功能的移动应用。一般来说，移动终端的计算和能量资源有限，因此，诸如人脸识别、网络游戏、增强现实等计算密集型和延迟敏感型应用在移动终端中运行效果不够理想。

相关技术中，提出了将移动终端中的部分待执行任务卸载到边缘设备或者云端设备进行计算的方案，用以部分缓解移动终端能力和应用程序需求之间的巨大紧张关系。研究发现，相关用于制定任务卸载策略的技术方案，难以适应移动终端动态变化的场景。

发明内容

为了克服现有技术中的至少一个不足，本申请的目在于提供一种任务卸载方法及相关装置，包括：

第一方面，本申请提供一种任务卸载方法，应用于电子设备，所述电子设备配置有任务卸载模型，所述方法包括：

获取多个移动终端在下一任务分配周期中预测位置；

将所述预测位置以及预设状态信息作为环境状态；

将所述环境状态输入所述任务卸载模型，生成每个所述移动终端中的待执行任务在所述下一任务分配周期的任务卸载策略，其中，所述任务卸载策略用于指示所述待执行任务在多个任务执行设备之间的分配方式。

第二方面，本申请提供一种任务卸载装置，应用于电子设备，所述电子设备配置有任务卸载模型，所述任务卸载装置包括：

运动预测模块，用于获取多个移动终端在下一任务分配周期中预测位置；

卸载策略模块，用于将所述预测位置以及预设状态信息作为环境状态；

所述卸载策略模块，还用于将所述环境状态输入所述任务卸载模型，生成每个所述移动终端中的待执行任务在所述下一任务分配周期的任务卸载策略，其中，所述任务卸载策略用于指示所述待执行任务在多个任务执行设备之间的分配方式。

第三方面，本申请提供一种电子设备，所述电子设备包括处理器以及存储器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，实现所述的任务卸载方法。

第四方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时，实现所述的任务卸载方法。

相对于现有技术而言，本申请具有以下有益效果：

该电子设备获取多个移动终端在下一任务周期的预测位置；并将多个移动终端的预测位置以及多个移动终端的预设状态信息作为环境状态，然后，通过任务卸载模型为每个移动终端制定任务卸载策略。由于该任务卸载策略考虑了在制定任务卸载策略期间多个移动终端的移动特性，因此，克服了相关技术难以做出理想的计算卸载和资源分配决策的缺陷，从而使得制定的任务卸载策略更为合理。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的场景示意图；

图2为本申请实施例提供的电子设备结构示意图；

图3为本申请实施例提供的任务卸载方法流程示意图；

图4为本申请实施例提供的关联区域示意图；

图5为本申请实施例提供的第一关联向量示意图；

图6为本申请实施例提供的第二关联向量示意图；

图7为本申请实施例提供的运动预测模型结构示意图；

图8为本申请实施例提供的任务卸载装置结构示意图；

图9为本申请实施例提供的任务卸载模型结构示意图；

图10为本申请实施例提供的强化学习模型训练流程示意图。

图标：120-存储器；130-处理器；140-通信单元；210-运动预测模块；220-卸载策略模块。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

面对移动终端能力和应用程序需求之间的巨大紧张关系，提出了将移动终端中的部分待执行任务卸载到边缘设备或者云端设备进行计算的方案。然而，研究发现，现有的研究大多没有考虑到移动终端的移动性，因此，根据多个移动终端的状态，所制定的任务卸载策略难以适应实际场景。研究还发现，导致这一现象的一个主要原因是移动终端的移动性显著提高了系统的动态性，从而导致难以做出理想的计算卸载和资源分配决策。

示例性的，如图1所示的多个移动终端以及多个边缘设备（例如，基站）。假定在

时刻，多个移动终端各自具有待执行任务，而相关技术中，为这些待执行任务制定任务卸载策略时，多基于多个移动终端在

时刻位置。若制定该任务卸载策略需要的时长为

，而多个移动终端在

期间的位置可能会发生变化，因此，基于多个移动终端在

时刻位置所制定的任务卸载策略，难以适应多个移动终端在

时刻的实际状态。

鉴于上述问题，本实施提供一种应用于电子设备的任务卸载方法，将多个移动终端的预测位置以及多个移动终端的预设状态信息，为每个移动终端制定任务卸载策略。由于该任务卸载策略考虑了在制定任务卸载策略期间多个移动终端的移动特性，因此，克服了相关技术难以做出理想的计算卸载和资源分配决策的缺陷，从而使得制定的任务卸载策略更为合理。

其中，继续参见图1，该场景示意图中还包括通过边缘设备与多个移动终端通信连接的云端设备。因此，在一些实施方式中，用于执行该任务卸载方法的电子设备可以是图1中的云端设备，即该云端设备获取多个移动终端的预测位置以及多个移动终端的预设状态信息，为每个移动终端制定任务卸载策略，然后，根据每个移动终端的任务卸载策略向移动终端发送控制指令，用于指示移动终端将待执行任务卸载到目标设备进行执行。

在其他实施方式中，用于执行该任务卸载方法的电子设备可以是图1中的移动终端，即每个移动终端获取其他移动终端的预测位置以及预设状态信息；然后，基于多个移动终端的预测位置以及预设状态信息为自身制定任务卸载策略；最后，根据该任务卸载策略将自身待执行任务卸载到目标设备进行执行。

其中，该目标设备属于多个任务执行设备中的其中一个。而本实施例中的多个执行设备可以包括图1中的移动终端、边缘设备。或者，在一些实施方式中，多个执行设备还可以包括图1中的移动终端、边缘设备以及云端设备。

此外，该移动终端可以是，但不限于，智能手环、智能鞋带、智能头盔、智能手表、智能服装、智能背包、智能配件、智能手机、个人数字助理（Personal Digital Assistant，PDA）、游戏设备、导航设备、虚拟现实设备、或增强现实设备、平板计算机、膝上型计算机等。

为使本申请实施例的目的、技术方案和优点更加清楚，以便于技术人员实施本方案，本实施例还提供该电子设备的一结构示意图。如图2所示，该电子设备包括存储器120、处理器130、通信单元140。其中，该存储器120、处理器130以及通信单元140各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。

该存储器120可以是，但不限于，随机存取存储器，只读存储器，可编程只读存储器，可擦除只读存储器，电可擦除只读存储器等。其中，存储器120用于存储程序，该处理器130在接收到执行指令后，执行该程序。

该通信单元140用于通过网络收发数据。该网络可以包括有线网络、无线网络、光纤网络、远程通信网络、局域网、广域网、蓝牙网络、ZigBee网络等。在一些实施例中，网络可以包括一个或多个网络接入点。例如，网络可以包括有线或无线网络接入点，例如基站和/或网络交换节点。

该处理器130可能是一种集成电路芯片，具有信号的处理能力，并且，该处理器可以包括一个或多个处理核（例如，单核处理器或多核处理器）。仅作为举例，上述处理器可以包括中央处理单元、专用集成电路、专用指令集处理器、图形处理单元、物理处理单元、数字信号处理器、现场可编程门阵列、可编程逻辑器件、控制器、微控制器单元、简化指令集计算机、或微处理器等。

在上述相关介绍的基础上，下面结合图3对本实施例提供的任务卸载方法的各步骤进行详细描述。应该理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。如图3所示，该方法包括：

S101，获取多个移动终端在下一任务分配周期中预测位置。

其中，应理解的是，面对移动终端能力和应用程序需求之间的巨大紧张关系，可以将移动终端中的待执行任务卸载到目标设备进行执行。而任务需要的执行时长与任务本身需要的计算量、任务卸载到目标设备这一个过程所需要的时长以及目标计算设备的计算能力相关。因此，针对多个移动终端中的待执行任务，采用不同的任务卸载策略，导致完成这些待执行任务所需要的耗时各不相同。

因此，针对多个移动终端中具有的待执行任务，本实施例会周期性为每个移动终端生成任务卸载策略，以确定用于执行该移动终端对应待执行任务的目标设备；使得经过多轮的任务卸载之后，完成这些待执行任务的耗时最小。

示例性的，假定多个移动终端的数量为5个，每个移动终端包括有10件待执行任务。其中，若当前任务分配周期中，从每个移动终端选取了1个待执行任务，并为这5个待执行任务制定了相应的任务卸载策略，因此，当按照该任务卸载策略将5个待执行任务执行完成之后，则进入下一任务分配周期。或者，每个任务分配周期为一固定时长的时间片，为每个时间片内的待执行任务制定任务卸载策略，使得实际完成这些待执行任务的总耗时最小。

S102，将预测位置以及预设状态信息作为环境状态。

正如上述实施例所描述的，任务需要的执行时长与任务本身需要的计算量、任务卸载到目标设备这一个过程所需要的时长以及目标计算设备的计算能力相关。而任务卸载到目标设备这一个过程所需要的时长则与多个移动终端各自的预测位置相关。

S103，将环境状态输入任务卸载模型，生成每个移动终端中的待执行任务在下一任务分配周期的任务卸载策略。

其中，任务卸载策略用于指示待执行任务在多个任务执行设备之间的分配方式。因此，基于上述设计，该电子设备获取多个移动终端在下一任务周期的预测位置；并将多个移动终端的预测位置以及多个移动终端的预设状态信息作为环境状态，然后，通过任务卸载模型为每个移动终端制定任务卸载策略。由于该任务卸载策略考虑了在制定任务卸载策略期间多个移动终端的移动特性，因此，克服了相关技术难以做出理想的计算卸载和资源分配决策的缺陷，从而使得制定的任务卸载策略更为合理。

研究发现，移动终端在移动过程中，其在下一任务分配周期的预测位置不仅与当前任务分配周期的位置、运动方向以及运动速度相关，而且还与周围的其他移动终端之间的相对位置关系以及相对运动趋势相关。例如，当用户手持移动终端走动时，移动方向存在人群障碍，则该用户可能会绕过人群。或者，当手持移动终端的用户处在人群当中时，其移动方向以及移动速度会与人群移动方向以及移动速度保持同步。

因此，在对多个移动终端在下一任务分配周期的位置进行预测之前，需要为每个移动终端确定出影响该移动终端运动方向以及运动距离的相邻终端。而本示例中，步骤S101可以通过以下实施方式为每个移动终端确定出相邻终端：

S101-1，获取移动终端的位置信息。

S101-2，根据位置信息构建预设尺寸的关联区域。

可选地实施方式中，可以以移动终端的当前位置为中心，构建该关联区域，其中，该关联区域的形状可以是矩形、圆形、多边形等，本实施例不做具体限制。

S101-3，根据关联区域，从多个移动终端中确定出邻近终端。

其中，邻近终端表示位于关联区域内的移动终端。示例性的，假定图4中的每个圆圈代表一个移动终端，并且，该关联区域的形状为正方形。以其中一个移动终端为例，将该移动终端当前的位置作为正方形的中心，以

为正方形的边长构建一该关联区域，其中，

表示移动终端在预设时长内移动的最大距离。因此，将以

为边长的正方形所包围的移动终端作为中心位置的移动终端的临近终端。

正如上述实施方式所描述的，移动距离以及移动方向与周围的其他移动终端之间的相对位置关系以及相对运动趋势相关。因此，该电子设备还配置有运动预测模型，基于该运动预测模型，步骤S101可以通过以下实施方式互动多个移动终端的预测位置：

S101-4，针对每个移动终端，获取移动终端与相邻终端之间的静态关联信息以及动态关联信息。

其中，相邻终端表示与移动终端满足预设距离关系的移动终端，静态关联信息表示移动终端与相邻终端之间在空间位置上相对关系，动态关联信息表示移动终端与相邻终端之间运动趋势之间的相对关系。

可选地实施方式，该电子设备可以将关联区域分割成多个网格；然后，根据移动终端以及相邻终端在多个网格中的分布信息，生成静态关联信息；以及移动终端以及相邻终端在多个网格中的运动信息，生成动态关联信息。

其中，静态关联信息为与多个网格一一对应的第一关联向量，第一关联向量中的每个元素用于指示对应网格是否存在移动终端或者相邻终端。动态关联信息为与多个网格一一对应的第二关联向量，第二关联向量中的每个元素用于指示对应网格中的移动终端或者相邻终端的运动速度以及运动方向。

继续以图4中的关联区域为例，可以按照

的方式对关联区域进行分解，其中，

表示用于容纳用户的网格所对应的边长。因此，假定将图4中的关联区域分割成如图5所示的9个网格。本示例中规定，当网格中存在移动终端，则将该网格对应的向量元素标记为1，反之，则标记为0，因此，可以得到如图5所示的第一关联向量。

考虑到持有移动终端的用户，其运动方向可以是水平面的任意方向，因此，为便于将任意方向的运动速度统一到同一纬度进行分析，本示例构建用于对移动终端的移动速度进行分解的平面坐标系。基于该平面坐标系，用于表示动态关联信息的第二关联向量，其中，第二关联向量的数量可以为多个，包括第一运动方向的第一运动向量以及第二方向的第二运动向量。本实施例中，第一运动方向可以是水平向东（

轴），第二运动方向可以是水平向南（

轴）。

因此，针对每个网格中的移动终端，将该移动终端的移动速度沿第一运动方向以及第二运动方向进行矢量分解，最后，将对应网格中移动终端的速度值作为对应向量元素的值。因此，可以得到如图6所示的第一运动向量以及第二运动向量。

S101-5，分别将每个移动终端的静态关联信息以及动态关联信息输入到运动预测模型，获得多个移动终端在下一任务分配周期中预测位置。

由此，在预测多个移动终端各自的预测位置时，从动态与静态方面考虑移动终端与邻近终端之间的影响关系，从而提高预测位置的精度。

研究还发现，移动终端在下一任务分配周期的预测位置，不仅与当前任务周期的位置、运动速度、运动方向以周围的相邻终端相关；而且与移动终端的在当前任务任务分配周期之前的历史轨迹相关，即该历史轨迹能够反映出移动终端的运动趋势。

因此，为了发掘出移动终端的运动趋势，该运动预测模型包括ConvLSTM层以及特征提取层，基于该运动预测模型，步骤S101-5可以包括以下实施方式：

S101-51，针对每个移动终端，将移动终端的静态关联信息以及动态关联信息输入到ConvLSTM层，获得包含运动趋势的运动记忆特征。

其中，应理解的是，由于每个移动终端的历史运动轨迹各不相同，也就意味着每个移动终端的运动趋势各不相同，因此，为每个移动终端配置有一个运动预测模型。

S101-52，将运动记忆特征输入到特征提取层，获得移动终端在下一任务分配周期中的预测位置。

示例性的，在图5以及图6所示第一关联向量以及第二关联向量（包括第一运动向量以及第二运动向量）的基础上，下面结合图7对运动预测模型的结构进行详细介绍。如图7所示，ConvLSTM层每次将第一关联向量以及第二关联向量（第一运动向量以及第二运动向量）作为3通道的特征向量

，输入到ConvLSTM层，获得高维度的运动记忆特征。而移动终端的预测位置为2维的特征信息

，因此，如图7所示，用于对运动记忆特征再次进行特征提取的特征提取层包括卷积层以及全连接层。该电子设备通过该卷积层以及全连接层将高维度的运动记忆特征压缩到2维的预测位置。

基于与上述任务卸载方法相同的发明构思，本实施例还提供一种应用于电子设备的任务卸载装置。该任务卸载装置包括至少一个可以软件形式存储于存储器中的功能模块。其中，电子设备配置有任务卸载模型，请参照图8，从功能上划分，任务卸载装置可以包括：

运动预测模块210，用于获取多个移动终端在下一任务分配周期中预测位置。

本实施例中，该运动预测模块210用于实现图3中的步骤S101，关于运动预测模块210的详细描述，可以参见步骤S101的详细描述。

卸载策略模块220，用于将预测位置以及预设状态信息作为环境状态。

卸载策略模块220，还用于将环境状态输入任务卸载模型，生成每个移动终端中的待执行任务在下一任务分配周期的任务卸载策略，其中，任务卸载策略用于指示待执行任务在多个任务执行设备之间的分配方式。

本实施例中，该卸载策略模块220用于实现图3中的步骤S102-S103，关于卸载策略模块220的详细描述，可以参见步骤S102-S103的详细描述。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

本实施例还提供一种电子设备，电子设备包括处理器以及存储器，存储器存储有计算机程序，计算机程序被处理器执行时，实现所述的任务卸载方法。

本实施例还提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时，实现所述的任务卸载方法。其中，而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，RandomAccess Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

继续参见图7，图7中的任务卸载模型经强化学习模型进行预先训练获得，而本实例中，强化学习模型的训练方法包括：

S201，生成多个移动终端的样本环境状态；

S202，将样本环境状态输入到强化学习模型，获得与样本环境状态相匹配的任务卸载策略；

S203，评估与样本环境状态相匹配的任务卸载策略的奖励值；

S204，根据奖励值，更新强化学习模型的参数；

若更新后的强化学习模型满足预设终止条件，则执行步骤S205。

S205，将更新后的强化学习模型作为任务卸载模型。

若更新后的强化学习模型不满足预设终止条件，则返回执行步骤S201，直到更新后的强化学习模型满足预设终止条件。

本实施例选择通过对强化学习模型进行训练，以获得该任务卸载模型的原因在于，本实施例所涉及的任务卸载领域，研究发现，主流的任务卸载方式主要包括移动云计算以及移动边缘计算。其中，移动云计算（Mobile Cloud Computing，MCC）表示将计算密集的待执行任务传输到远程云服务器以获得足够的计算。MCC的一个不可忽视的问题是它无法保证应用程序的任务延迟，这主要是由于广域网中的传输条件不可控。

而移动边缘计算(Mobile Edge Computing, MEC)则表示通过将待执行任务卸载到位于网络边缘、部署了适度计算资源的基站(BS)进行边缘计算，从而为应用程序提供可接受的计算资源和任务延迟。但受于基站部署条件的影响，边缘服务器的计算能力普遍低于云服务器的计算能力。

因此，单独使用MCC或MEC并不是某些场景的最佳选择，本实施例采用了端边云协同计算(EECOC)。即针对每个移动终端，可以用于为该移动终端中的待执行任务提供计算服务任务执行设备包括该移动终端本身、基站以及云端设备。

为使本申请实施例的目的、技术方案和优点更加清楚，下面结合端边云协同计算(EECOC)这一具体场景，对任务卸载模型的构建过程进行详细介绍，包括以下3个部分：

第一部分：建立端边云协同计算(EECOC)的数学模型。

1.建立系统模型

EECOC网络由End、Edge和Cloud三层组成，其中，End对应移动终端MD，Edge对应边缘设备，并且假定本实施例中的边缘设备为基站BS，Cloud对应云端设备CS。并且，选择将系统时间分为

个时间片，即

，每一个时间片的时间长度都相同。

在End层，有多个移动终端，用集合

表示，

表示移动终端的个数。在每个时间片

中，将每个移动终端的位置

表示为

，依次表示

轴坐标位置，

轴坐标位置和高度。

每个移动终端中的计算能力和电池能量预算分别表示为

和

。另外，每个移动终端的空闲功率表示为

。在每个时间片

中，待执行任务的属性信息表示为

，包括三个元素组成，即

，其中，

依次表示待执行任务的任务数据(以比特为单位)、每比特任务数据的CPU周期和最大可容忍的任务延迟。

值得说明的是，每个待执行任务都被认为是不可分割的，只能作为一个整体在移动终端的本地执行或在Edge/Cloud层上远程执行。因此，将第

个时间片处的第

个移动终端的边缘卸载策略表示为

，其中0表示本地执行，

表示基站的集合。

每个基站通过点对点高速光纤连接到该基站的附加计算资源。并将基站的集合表示为

，其中，

代表基站的个数。而每个基站都是作为地面基础设施部署的，将表示每个基站的位置表示为

，依次表示

轴方向的坐标位置，

轴方向的坐标位置和基站的高度。为了不失一般性，约定所有的基站都具有相同的高度

。同样，约定每个BS的对应的附加计算资源具有相同的计算能力，表示为

。

由于基站通过点对点高速光纤连接到附加计算资源，因此与移动终端以及基站之间的无线传输时延相比，每个基站与对应附加计算资源之间的传输时延被忽略不计。

每个基站可以自己执行已卸载的待执行任务，即

；该基站也可以进一步将以卸载的待执行任务卸载到云端设备进行，本实施例将位于时间片

的待执行任务

卸载到云端设备的策略表示

，即

，其中，0表示边缘设备中已卸载的待执行任务在本地执行（边缘计算），1表示将已卸载的待执行任卸载到云端设备执行（云计算）。

在Cloud层中，约定只有一个云端设备，位于远离基站层的位置，并通过广域网与基站连接。由于本实施例研究的场景聚焦于移动终端可以跨不同基站进行移动的本地区域，因此，约定每个基站和云端设备之间的网络带宽是相同的，并以

(单位为bps)表示。云端节点的计算能力表示为

，其中，云端节点的计算能力

通常比附加计算资源的计算能力

大得多。

2.建立本地计算模型

如果任务卸载策略

为0，则表示将待执行任务

在移动终端的本地执行。则待执行任务在本地执行所需要的耗时

以及能耗

分别表示为：

，

。

式中，

表示与移动终端的芯片相关的计算系数，

表示与移动终端在时间片

期间的计算频率，其中，

不能超过移动终端的最大计算能力，相应的表达式为：

。

3.建立边缘计算模型

若任务卸载策略

，则表示待执行任务

将被卸载到基站进行执行，或者进一步卸载到云端设备进行执行。而为了完成任务卸载，待执行任务

需要通过移动终端和基站之间的无线连接进行传输，并且，约定每个移动终端和基站连接之间只有一个通信通道，则每个时间片

上的任务卸载策略应满足：

。

式中，符号“

”可以理解为如果括号里的等式成立，则括号里的结果则为1，求和符号表示所有的

与

相等的次数必须小于等于1。

此外，由于同一时间片可能存在多个“移动终端-基站”连接，需要考虑信号干扰，因此，将白高斯噪声功率表示为

,移动终端-基站之间的信道增益表示为

, 则基站接收待执行任务

时的信噪比(SNIR)可以表示为：

。

式中，

表示移动终端的发射功率，并且，考虑到路径损耗、多路径衰落和对数正态阴影分量，将信道增益

表示为:

。

式中，

依次表示路径损耗系数、路径损耗指数、瑞利衰减系数，

的表达式为：

。

式中，

，

服从

，

表示标准差。还需要注意的是，考虑到移动终端的移动性，

可以在一个时间片内以相对较小的变化来观察，因此，

在一个时间片期间视为恒定的，

在一个时间片上同样保持不变的。

本实施例将

表示为每个移动终端的无线信道带宽，利用香农公式可以计算出从移动终端到基站之间的无线发射速率

：

。

基于无线发射速率

，可以得到待执行任务

的边缘卸载时间

：

，此外，移动终端量待执行任务

卸载到基站能耗可计算为：

。

由于大多数移动应用的任务输出比输入小得多，所以从基站下载任务输出到移动终端的时间和能量成本忽略不计。

若基站中已卸载的待执行(即

)任务

被再次卸载到云端设备(即

)执行，则待执行

的基站中的边缘计算时间可以表示为：

。

本实施例考虑到基站通常基于基础设施的电网供应，因此，基站执行卸载任务的能源消耗在本实施例中不做考虑。当待执行任务

在基站上执行时，移动终端的空闲能耗可以表示为：

。

4.建立云计算模型

若待执行任务

被基站进一步卸载到云端设备上执行(即

)，则通过广域网从将待执行任务卸载到云端设备的传输时间为：

，式中，

表示广域网的带宽。

云端设备完成待执行任务

的云计算时间可以表示为：

。式中，

表示云端设备分配给待执行任务

的云计算资源，应满足：

。

在对待执行任务

进行传输和云计算时，移动终端中的空闲能量消耗可以表示为：

。

与基站将待执行任务

卸载给云端设备所消耗的能量、云端设备将待执行任务

任务输出下载给移动终端所消耗的能量相同，云端设备执行任务所消耗的能量、云端设备将任务输出下载到基站所消耗的时间同样忽略不计。

5.问题公式化

本实施例的目的最小化执行任务所需要的耗时，而基于上述分析，待执行任务所需要的耗时包括3种情况：情况1：本地的计算时间。情况2：边缘卸载时间+边缘计算时间。情况2：边缘卸载时间+广域网传输时间+云计算时间。因此，目标函数定义为：

。

式中，

表示待执行任务

的延迟（耗时），表达式为：

在制定任务卸载策略时候，还需要考虑约束条件，本实施例给出的显式约束条件包括：

边缘卸载策略的离散值(C1)；云卸载策略的离散值(C2)；每个基站在一个时间片上只有一个无线连接(C3)；移动终端的可用计算资源不超过该移动终端计算资源的上限(C4)；云端设备的可分配计算资源不超过云端设备计算资源的上限(C5)；任意时间片

的每个移动终端的已使用能量预算应该是非负值(C6)；每个待执行任务

的耗时小于时长阈值(C7)。其中，C1和C2的含义为针对每个移动终端中的待执行任务，待执行任务只允许在移动终端、边缘设备或者云端设备中执行。

其中，任意时间片

的每个移动终端的已使用能量预算的表达式为：

式中，

表示在时间片

，完成待执行任务

需要的能量消耗。

在上述目标函数和约束条件下，将所研究的EECOC网络中的任务卸载和资源分配问题转换为以下表达式：

需要说明的是，式中为了简便起见，省略

中的隐式变量

。

由上述表达式可知，目标函数

包含整数和连续混合优化变量，即

和

为整数变量，

和

为连续变量。此外，

与

之间的乘法运算以及

在

中的平方运算，目标函数

的约束条件C3，C4，C5，C6，C7是非线性的。因此，该优化问题

是一个混合整数的非线性规划(MINLP)问题，通常是NP-hard。一般来说，其计算复杂度难以接受，特别是在本实施例中，约束条件规模较大。

第二部分：将原优化问题转化为马尔可夫决策问题(MDP)，通过深度确定性策略梯度(DDPG)算法求解。

本实施例的目的是为了最小化所有移动终端中待执行任务在所有时间片中的耗时。而在每个时间片中，最小化当前时间片的任务耗时，所提供的任务卸载决策可能不利于最小化未来的任务耗时，这主要是与依赖于时间片的过去能量预算约束具有高度耦合关系。

例如，在时间片

中，无线传输条件可能不是很理想，即

，这就导致了采用高

的待执行任务

在本地计算，以最小化任务耗时。尽管如此,高

在本地计算可能会消耗能量，并导致未来可用能量的减少，从而导致本地计算必须以很低

执行，或者待执行任务必须在不需要本地计算的情况下卸载，以节省有限的能量。

其结果是，未来时间片的任务耗时可能会大幅增加，这将导致

极大大提高。因此，在最贪婪的情况下，早期的时间片可能会消耗大部分的能量预算，以获得最小的任务耗时，使后期的时间片的能量不足，甚至任务失败。

在这种情况下，当前的调度决策将对未来的状态

和决策产生影响。因此，我们将问题

转化为由以下四个要素定义的马尔可夫决策过程(MDP)：

• 定义预设状态信息

是一个有限集合，主要包括动态变化的信息，

。在每个时间片

中，

中的元素可以表示

为。根据以上分析，未来的状态

取决于当前状态

以及动作，因为涉及到元素

。

• 动作A是调度变量的集合，包括生成任务卸载策略。在每个时间片

中，A的元素

可以用

。

• 转移概率

是采取行动

时从状态

跃迁到状态

的概率，即

。

虽然状态元素

的转移动力可以进行数学计算，但由于

和

的动力未知，仍难以解析求解

。

• 奖励函数

是一个决定在状态

下采取行动

过渡到状态

时应立即给予多少价值的函数，用

表示，需要根据经验进行设计。

• 折扣因子

是一个0到1之间的小数，它决定了当前位置上未来奖励的权重，其中，

，是一个需要根据实际经验进行设计的经验值。

在定义MDP的基础上，将问题

转化为追求最优确定性行动决策策略

，即在上述约束条件下，使得期望的长期报酬(即累计折扣报酬)最大化的马尔可夫决策问题，如下：

本实施例中，

分别表示是由策略

决定执行的动作。此外在设计奖励功能时，可以进一步消除上式中的约束，当约束条件被违反时，给即时奖励分配一个较大的负值，或者一个与约束条件违反程度成正比的负值。因此，该奖励与所违反约束条件的数量成反比。

为了消除问题

中的显式约束，我们将其转化为隐式形式，将其纳入行为和奖励的分析操作中。

• 约束C1、C2和C4与执行任务卸载策略的动作

的值直接相关，本实施例将

和

根据其连续值与最大可用值的比例进行离散化，即：

，

，其中，运算符号“

”表示向下取整。用同样的方法将移动终端执行待执行任务时的频率映射为可接受的值，即

。

• 约束C3与

的值有关，不仅依赖于它自己，也依赖于其他移动终端的

。因此，通过在奖励函数中引入惩罚来解决，具体方式是引入的惩罚也是根据约束C3违反的程度来设计的，即

。式中，

表示预先定义的惩罚单位。

• 约束C5、C6、C7与所有移动终端执行任务卸载策略的动作相关

的值有关。因此，也可以通过负惩罚来解决，如下:

第三部分：鉴于奖励的稀疏性，本实施例将深度确定性策略梯度(DDPG)算法与NoisyNet相结合。

在给定转换后的问题和约束条件的基础上，基于当前最先进的DRL算法(DDPG)建立了EECOC中计算卸载和资源分配的调度模型。然后，将DDPG与NoisyNet相结合，进一步提高了勘探效率和调度性能。其中，深度确定性策略梯度(DDPG)网络与NoisyNet网络相结合后的模型结构如图9所示。

继续参见图9，深度确定性策略梯度网络中利用两个神经网络（

网络和

网络），用于逼近长期报酬(即累计折扣报酬)最大化的马尔可夫决策问题中的函数

。其中，

网络又名Critic网络，包括TargetCritic网络（模型参数用

表示）以及EvalCritic网络（模型参数用

表示）。

网络又名Actor网络，包括TargetActor网络（模型参数用

表示）以及EvalActor网络（模型参数用于

表示）。EvalCritic网络的损失函数

采用一步时间差分蒙特卡罗采样定义，表达式如下:

式中，

表示从经验池（Experience Buffer）采集的蒙特卡罗样本个数（Ksamples），而经验池中的数据则源自于强化学习模型在训练期间为环境（Environment）中的多个移动终端所制定的历史任务卸载策略，

表示下一任务分配周期的

值。如图9所示，深度确定性策略梯度网络中，通过使用EvalCritic网络以及EvalActor网络的模型参数定期更新（update）对应的目标神经网络，以提高神经网络训练的稳定性。

继续参见图9，用于产生噪声(Nosie)的噪声网络NoisyNet包括两组可学习的参数

和

，用于对深度确定性策略梯度网络中的两个神经网络的权值和偏差产生噪声

，相应的表达式为：

式中，

和

分别表示表示

网络和

网络的权重和偏差，

和

为噪声随机变量。在

网络上直接引入噪声可以提高对经验池的探索效率，从而加快深度学习网路的收敛速度。

第四部分：提供运动预测模型，用于提取移动终端的时空分布特征并预测其移动。

由于移动终端的移动性，与现有的大多数任务卸载方法一样，将移动终端当前位置的

参与到状态

中，可能不足以生成合理的任务卸载策略。

例如，当一个移动终端远离所有基站时，则前期应该偏向于将待执行任务卸载到边缘/云计算，以节省本地能量消耗，从而支持移动终端在远离基站的位置对待执行任务在本地进行计算。

又例如，当一个移动终端正在远离一个基站，接近另一个基站时，则前期或者后期应该偏向于将待执行任务卸载到边缘/云计算，以节省本地能量消耗，从而支持移动终端在中间位置对待执行任务在本地进行计算。

因此，本实施例采用基于ConvLSTM的运动预测模型，用于预测多个移动终端在下一任务分配周期的预测位置。

基于以上建立的数学模型以及图9所示的强化学习模型，下面结合图10所示的示例性步骤（Exemplary steps）对强化学习模型的训练流程详细介绍：

ES1，初始化相关参数。

该示例步骤，具体包括初始化3通道的向量；初始化经验池以及随机噪声集；初始化EvalCritic网络和EvalActor网络的参数；通过将EvalCritic网络以及EvalActor网络的网络参数与各自对应的目标网络进行同步来实现初始化。

其中，初始化的3通道的向量表示为

，该向量的尺寸为

。将经验池表示为

，将随机噪声集表示为

。EvalCritic网络表示

网络，其网络参数用

表示；将EvalActor网络表示为

网络，其网络参数用

表示。

ES2，重置EECOC环境和环境状态。

ES3，判断当前时间片的序号是否小于第一阈值，若是，则执行步骤ES4若否，则执行步骤ES12。

其中，本示例中将第一阈值表示为

。

ES4，获取多个移动终端的移动速度以及位置，并将输入到基于ConvLSTM网络的运动预测模型中。

本示例中，将第

个移动终端的当前的移动速度以及移动位置表示为

，因此，将输入ConvLSTM网络的三通道向量

赋值为

。

ES5，判断运动预测模型的运算次数是否大于第二阈值，若是，则执行步骤ES6，若否，则执行步骤ES7。

本示例中，将第二阈值表示为

。

ES6，将运动预测模型输出的预测位置与预设状态信息结合成环境状态。

本示例中，将预测位置表示为

，预设状态信息表示为

。

ES7，从噪声变量集中采样一个噪声变量，并在噪声变量的影响下生成一个针对当前环境状态的任务卸载策略。

本示例中，将噪声标量表示为

，强化学习模型指示移动终端执行的任务卸载策略动作表示为

。

ES8，执行相应的任务卸载策略后，评估该任务卸载策略的奖励值以及观察新的环境状态，将其打包到经验池；从经验池采样预设数量个历史任务卸载策略，并分别为Eval网络和Target网络各自采样一个噪声变量。

本示例中，将奖励值表示为

，将新的环境状态表示为

，然后将以上信息打包成

存入经验池。采样的历史任务卸载策略表示为

，其数量表示为

，Eval网络（EvalCritic网络、EvalActor网络）和Target网络（TargetCritic网络、TargetActor网络）各自采样点噪声变量表示为

。

ES9，计算此时所期望的最大长期奖励，对EvalCritic网络的损失函数进行计算。

本实施例将最大长期奖励表示为

，相应的表达式为：

，该损失函数的表达式为：

。

ES10，通过梯度下降算法对EvalActor网络的参数进行更新，以及周期性更新目标网络的参数。

本示例中的梯度下降算法，其表达式为：

。

其中，该目标网络包括TargetCritic网络、TargetActor网络，更新方式的表达式为：

。

ES11，对强化学习模型的迭代次数以及时间片的序号进行累加。

ES12，判断强化学习模型的迭代次数是否小于迭代阈值，若是，返回执行ES2，若否，则结束对强化学习模型的训练。

需要说明的是，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。还应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上所述，仅为本申请的各种实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种任务卸载方法，其特征在于，应用于电子设备，所述电子设备配置有任务卸载模型，所述方法包括：

获取多个移动终端在下一任务分配周期中预测位置；

将所述预测位置以及预设状态信息作为环境状态；

2.根据权利要求1所述的任务卸载方法，其特征在于，所述电子设备还配置有运动预测模型，所述获取多个移动终端在下一任务分配周期中预测位置，包括：

针对每个所述移动终端，获取所述移动终端与相邻终端之间的静态关联信息以及动态关联信息，其中，所述相邻终端表示与所述移动终端满足预设距离关系的移动终端，所述静态关联信息表示所述移动终端与所述相邻终端之间在空间位置上相对关系，所述动态关联信息表示所述移动终端与所述相邻终端之间运动趋势之间的相对关系；

分别将每个所述移动终端的静态关联信息以及动态关联信息输入到所述运动预测模型，获得所述多个移动终端在下一任务分配周期中预测位置。

3.根据权利要求2所述的任务卸载方法，其特征在于，所述获取所述移动终端与相邻终端之间的静态关联信息以及动态关联信息之前，所述方法还包括：

获取所述移动终端的位置信息；

根据所述位置信息构建预设尺寸的关联区域；

根据所述关联区域，从所述多个移动终端中确定出所述邻近终端，其中，所述邻近终端表示位于所述关联区域内的移动终端。

4.根据权利要求3所述的任务卸载方法，其特征在于，所述获取所述移动终端与相邻终端之间的静态关联信息以及动态关联信息，包括：

将所述关联区域分割成多个网格；

根据所述移动终端以及所述相邻终端在所述多个网格中的分布信息，生成所述静态关联信息，其中，所述静态关联信息为与所述多个网格一一对应的第一关联向量，所述第一关联向量中的每个元素用于指示对应网格是否存在所述移动终端或者所述相邻终端；

所述移动终端以及所述相邻终端在所述多个网格中的运动信息，生成所述动态关联信息，其中，所述动态关联信息为与所述多个网格一一对应的第二关联向量，所述第二关联向量中的每个元素用于指示对应网格中的移动终端或者相邻终端的运动速度以及运动方向。

5.根据权利要求2所述的任务卸载方法，其特征在于，所述运动预测模型包括ConvLSTM层以及特征提取层，所述分别将每个所述移动终端的静态关联信息以及动态关联信息输入到所述运动预测模型，获得所述多个移动终端在下一任务分配周期中预测位置，包括：

针对每个所述移动终端，将所述移动终端的静态关联信息以及动态关联信息输入到所述ConvLSTM层，获得包含运动趋势的运动记忆特征；

将所述运动记忆特征输入到所述特征提取层，获得所述移动终端在下一任务分配周期中的预测位置。

6.根据权利要求1所述的任务卸载方法，其特征在于，所述任务卸载模型经强化学习模型进行预先训练获得，所述强化学习模型的训练方法包括：

生成所述多个移动终端的样本环境状态；

将所述样本环境状态输入到所述强化学习模型，获得与所述样本环境状态相匹配的任务卸载策略；

评估与所述样本环境状态相匹配的任务卸载策略的奖励值；

根据所述奖励值，更新所述强化学习模型的参数；

若更新后的所述强化学习模型满足预设终止条件，则将更新后的所述强化学习模型作为所述任务卸载模型；

若更新后的所述强化学习模型不满足所述预设终止条件，则返回所述生成多个样本设备的样本环境状态的步骤执行，直到更新后的所述强化学习模型满足所述预设终止条件。

7.根据权利要求6所述的任务卸载方法，其特征在于，所述多个任务执行设备包括所述任务卸载策略对应的移动终端、边缘设备以及云端设备，所述评估与所述样本环境状态相匹配的任务卸载策略的奖励值，包括：

根据预设约束条件，评估与所述样本环境状态相匹配的任务卸载策略的奖励值，其中，与所述样本环境状态相匹配的任务卸载策略违背所述约束条件的数量与所述奖励值成负相关；

所述预设约束条件，包括：

针对每个所述移动终端中的待执行任务，所述待执行任务只允许在所述移动终端、所述边缘设备或者所述云端设备中执行；

针对每个所述移动终端中的待执行任务，所述待执行任务的执行时长小于时长阈值；

针对每个所述移动终端中的待执行任务，所述待执行任务需要的计算资源小于目标设备剩余计算资源的上限，所述目标设备为所述任务卸载策略指定的设备；

每个所述移动终端已使用计算资源为非负值；

每个所述边缘设备在所述下一任务分配周期内只有一个无线连接；

云端设备可分配的计算资源小于所云端设备剩余计算资源的上限。

8.一种任务卸载装置，其特征在于，应用于电子设备，所述电子设备配置有任务卸载模型，所述任务卸载装置包括：

9.一种电子设备，其特征在于，所述电子设备包括处理器以及存储器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，实现权利要求1-7任意一项所述的任务卸载方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时，实现权利要求1-7任意一项所述的任务卸载方法。