CN113778691A

CN113778691A - 一种任务迁移决策的方法、装置及系统

Info

Publication number: CN113778691A
Application number: CN202111323172.9A
Authority: CN
Inventors: 陈钊; 章磊; 裴玉奎; 殷柳国
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-11-10
Filing date: 2021-11-10
Publication date: 2021-12-10
Anticipated expiration: 2041-11-10
Also published as: CN113778691B

Abstract

本发明提供了一种任务迁移决策的方法、装置及系统，其中，该方法包括：获取多个终端上传的至少一个时段的本地经验信息，将同一时段的多个本地经验信息进行整合，生成时段的全局经验信息；将从多个时段的全局经验信息中选取来自不同决策组的训练参数进行整合，生成训练经验信息，并根据训练经验信息对所有在线执行网络进行训练，确定每个在线执行网络的网络参数；根据终端的分组信息，将决策组对应的网络参数发送至决策组中的终端。通过本发明实施例提供的任务迁移决策的方法、装置及系统，能够更新大量终端的网络参数，提高了训练的稳定性和训练结果的性能，可以保证终端的任务迁移决策效果。

Description

一种任务迁移决策的方法、装置及系统

技术领域

本发明涉及无线通信技术领域，具体而言，涉及一种任务迁移决策的方法、装置及系统。

背景技术

随着移动通信技术的发展，特别是5G时代的到来，移动设备的数量预计将出现爆炸式增长。同时，由于终端设备的发展和用户需求的增加，一些计算密集型的任务也应运而生，如增强现实（AR）、虚拟现实（VR）、在线人工智能和物联网。这些新型的任务通常需要对大量数据进行处理并且对延时敏感，而终端设备一般是资源受限的低功耗设备。仅仅依靠终端本地的有限的计算能力很难满足需求，因此人们提出移动边缘计算的方法来解决移动终端资源受限的问题。

移动边缘计算不同于传统的云计算数据中心，其将计算服务器转移到网络边缘的基站。因此，移动用户可以直接将计算工作负载转移到与基站相关联的MEC（Mobile EdgeComputing，移动边缘计算）服务器上，不仅显著的减低了延时和功耗，而且减低了核心网的负载。在移动边缘计算系统中，功率受限的移动终端将不仅通过本地的计算资源处理数据，同样可以通过无线信道将需要计算的数据资源迁移到基站端进行处理。对于移动用户，其主要关注点是移动终端的功率开销和延时，其中，移动终端过高的功率开销会导致其待机时间变短，进而影响用户体验，同样过高的延时也会导致用户的体验变差。所以对于移动终端而言，如何合理地对本地计算和迁移计算的决策可以在保证延时的情况下达到功率的最低便是一项值得研究的课题。

为了解决边缘计算系统中计算迁移和本地处理的功率分配问题，很多传统的方法已经被研究。如以凸优化对偶理论为基础，引入椭球法来决定本地处理的计算迁移的功率，进一步最小化能量消耗，其相比于全部迁移或全部本地处理有明显的功耗降低；除此之外，李雅普诺夫最优化理论也被用于MEC系统中来获取分布式的能量管理优化方法，即通过本地处理和计算迁移的合理功率分配来管理各用户的能量消耗。

进一步的，深度强化学习同样也被用于解决该问题。该方法可以在没有系统的先验知识下学习到动态的计算迁移策略，可以避免传统算法在复杂环境下的建模问题。比如利用Deep Q Network（DQN）算法来学习在任务不可分割的MEC系统中的迁移算法来使延时的功耗最小，其相比于贪婪算法和Q-learn算法有明显的优势。

但是无论是传统的算法还是深度强化学习方法在学习迁移策略时都没有考虑的多用户之间的合作和竞争，在系统的总的开销（延时和功耗）方面不一定是最优的。当应用于基于NOMA（非正交多址接入）的MEC系统时，由于用户之间存在严重干扰，其迁移算法可能无法有效进行决策甚至出现训练不稳定。

发明内容

为解决现有存在的技术问题，本发明实施例提供一种任务迁移决策的方法、装置及系统。

第一方面，本发明实施例提供了一种任务迁移决策的方法，包括：

获取多个终端上传的至少一个时段的本地经验信息，将同一所述时段的多个所述本地经验信息进行整合，生成所述时段的全局经验信息；其中，终端d在时段t的所述本地经验信息包括：所述时段t的状态参数s_d,t、所述时段t的决策参数a_d,t、所述时段t的奖励参数r_d,t和时段t+1的状态参数s_d,t+1；所述决策参数a_d,t包括所述终端d在时段t的本地处理功率p_l,d(t)，以及所述终端d在时段t的迁移计算功率p_o,d(t)；所述时段t的所述全局经验信息包括：所述时段t的全局状态向量

、所述时段t的全局决策向量

、所述时段t的全局奖励向量

以及所述时段t+1的全局状态向量

，M为终端总数量，且d∈[1,M]；

为了解决大规模用户下系统维护和训练的存储和计算开销问题，本发明实施例根据每个所述终端的信道衰落和任务达到速率，将多个所述终端分为G个决策组，为每个所述决策组设置在线执行网络，不同的所述在线执行网络具有相同的结构；同时，分组的策略可以有效地应对终端数量的变化，对于加入通信系统的新用户终端，可以通过分组策略将其分至最相似的组中，同时后续的训练也会利用该新用户终端的信息，从而逐渐使其性能达到较优；

将从多个所述时段的所述全局经验信息中选取来自不同所述决策组的训练参数进行整合，生成训练经验信息，并根据所述训练经验信息对所有所述在线执行网络进行训练，确定每个所述在线执行网络的网络参数；

根据终端的分组信息，将所述决策组对应的所述网络参数发送至所述决策组中的所述终端，指示所述终端根据所述边缘服务器发送的所述网络参数更新本地执行网络，所述本地执行网络与所述在线执行网络的结构相同，且所述本地执行网络的输入为所述终端的状态参数，输出为所述终端的决策参数；其中，属于同一所述决策组的不同终端的所述本地执行网络的网络参数相同。

第二方面，本发明实施例还提供了一种任务迁移决策的装置，设置在边缘服务器侧，包括：

整合模块，用于获取多个终端上传的至少一个时段的本地经验信息，将同一所述时段的多个所述本地经验信息进行整合，生成所述时段的全局经验信息；其中，终端d在时段t的所述本地经验信息包括：所述时段t的状态参数s_d,t、所述时段t的决策参数a_d,t、所述时段t的奖励参数r_d,t和时段t+1的状态参数s_d,t+1；所述决策参数a_d,t包括所述终端d在时段t的本地处理功率p_l,d(t)，以及所述终端d在时段t的迁移计算功率p_o,d(t)；所述时段t的所述全局经验信息包括：所述时段t的全局状态向量

、所述时段t的全局决策向量

、所述时段t的全局奖励向量

以及所述时段t+1的全局状态向量

，M为终端总数量，且d∈[1,M]；

分组模块，用于根据每个所述终端的信道衰落和任务达到速率，将多个所述终端分为G个决策组，为每个所述决策组设置在线执行网络，不同的所述在线执行网络具有相同的结构；

训练模块，用于将从多个所述时段的所述全局经验信息中选取来自不同所述决策组的训练参数进行整合，生成训练经验信息，并根据所述训练经验信息对所有所述在线执行网络进行训练，确定每个所述在线执行网络的网络参数；

参数发送模块，用于根据终端的分组信息，将所述决策组对应的所述网络参数发送至所述决策组中的所述终端，指示所述终端根据所述边缘服务器发送的所述网络参数更新本地执行网络，所述本地执行网络与所述在线执行网络的结构相同，且所述本地执行网络的输入为所述终端的状态参数，输出为所述终端的决策参数；其中，属于同一所述决策组的不同终端的所述本地执行网络的网络参数相同。

第三方面，本发明实施例还提供了一种任务迁移决策的系统，包括边缘服务器和接入所述边缘服务器的终端；所述边缘服务器用于执行如上所述的任务迁移决策的方法。

本发明实施例提供的任务迁移决策的方法、装置及系统，边缘服务器将多个终端上传的本地经验信息重新整合为以时段为单位的全局经验信息，基于该全局经验信息可以对多个在线执行网络进行中心化训练，并训练得到每个在线执行网络对应的分布式的迁移算法，通过更新终端的本地执行网络的方式向终端下发迁移算法，实现多终端分布式执行。将终端分为多个决策组，可以为信道衰落和任务达到速率相似的终端设置相同的在线执行网络，能够更新大量终端的网络参数，也可以保证终端的任务迁移决策效果，适用于终端规模较大的情况。该中心化训练的方式能够考虑不同用户间的干扰和竞争，提高了训练的稳定性和训练结果的性能，能够应对终端间的强干扰；尤其是对于终端间存在强干扰的NOMA系统，可以稳定地训练出相比非合作式深度强化学习更优的迁移算法，从而可以优化终端的能耗和延时。终端分布式执行有效提高计策的实时性，减低终端延时，同时避免终端进行计算密集型的训练任务，有效减低终端的功耗。分组的策略可以有效地应对终端数量的变化，对于加入通信系统的新用户终端，可以通过分组策略将其分至最相似的组中，同时后续的训练也会利用该新用户终端的信息，从而逐渐使其性能达到较优。

附图说明

为了更清楚地说明本发明实施例或背景技术中的技术方案，下面将对本发明实施例或背景技术中所需要使用的附图进行说明。

图1示出了本发明实施例所提供的边缘服务器实现的任务迁移决策的方法的流程图；

图2示出了本发明实施例所提供的终端实现的任务迁移决策的方法的流程图；

图3示出了本发明实施例所提供的任务迁移决策的方法的一种应用场景示意图；

图4A示出了本发明实施例所提供的任务迁移决策的一种整体方法流程图；

图4B示出了本发明实施例所提供的一种训练结果的示意图；

图5示出了本发明实施例所提供的一种任务迁移决策的装置的结构示意图；

图6示出了本发明实施例所提供的一种用于执行任务迁移决策的方法的电子设备的结构示意图。

具体实施方式

下面结合本发明实施例中的附图对本发明实施例进行描述。

在由基站等边缘服务器向用户提供迁移算法的情况下，若用户终端数量较多、规模较大，对于深度学习方法而言，为每一个用户终端维持和训练一个神经网络会导致系统的存储和计算开销很大。本发明实施例提供了一种任务迁移决策，以能够适应大规模用户终端的情况。其中，该方法由边缘服务器执行，如图1所示，该方法包括：

步骤101：获取多个终端上传的至少一个时段的本地经验信息，将同一时段的多个本地经验信息进行整合，生成该时段的全局经验信息。

其中，终端d在时段t的本地经验信息包括：时段t的状态参数s_d,t、时段t的决策参数a_d,t、时段t的奖励参数r_d,t和时段t+1的状态参数s_d,t+1；决策参数a_d,t包括终端d在时段t的本地处理功率p_l,d(t)，以及终端d在时段t的迁移计算功率p_o,d(t)；时段t的全局经验信息包括：时段t的全局状态向量

、时段t的全局决策向量

、时段t的全局奖励向量

以及时段t+1的全局状态向量

，M为终端总数量，且d∈[1,M]。

本发明实施例中，若M个终端接入该边缘服务器，每个终端在每个时段会将相应的本地经验信息发送至边缘服务器，该边缘服务器能够以时段为单位，将同一时段的本地经验信息整合为一组全局经验信息。例如，在时段t，每个终端d（d∈[1,M]）向边缘服务器上传时段t状态参数s_d,t、时段t的决策参数a_d,t、时段t的奖励参数r_d,t和时段t+1的状态参数s_d,t+1，边缘服务器可以接收到M个终端上传的所有信息{s_1,t, a_1,t, r_1,t, s_1,t+1}、…、{s_d,t,a_d,t, r_d,t, s_d,t+1}、…、{s_M,t, a_M,t, r_M,t, s_M,t+1}，通过对该时段t的所有本地经验信息进行整合，即可确定时段t的全局经验信息

，且

，

，

，

。

步骤102：根据每个终端的信道衰落参数n和任务达到速率m，将多个终端分为G个决策组，为每个决策组设置在线执行网络，不同的在线执行网络具有相同的结构。其中可以利用K-mean的聚类方式对所有终端进行分组。具体而言，将所有终端根据（n,m）将其绘制在二维坐标系中，设置合适的分组个数G和初始的聚类中心，后续根据每个样本到其聚类中心的距离将其分到对应的聚类中，然后重新计算聚类中心，多次迭代直至完成终端的分类。其中，该任务到达速率可以为平均任务到达速率。

本发明实施例中，可以对多个终端（例如M个终端）按照信道衰落和任务达到速率进行分组，共分为G组，每个分组为一个决策组，对于其中任意一个决策组k（

），其包含的用户数为

；若将M个终端分为G组，则有

。

本发明实施例中，边缘服务器至少为每个决策组k均设置相应的在线执行网络，且不同决策组对应的在线执行网络的结构相同。例如，若决策组的总数量为G，则边缘服务器至少设置G个在线执行网络。不同的在线执行网络，其网络结构相同，但所具有的网络参数一般不同。

此外，每个决策组k中的终端在信道衰落和任务达到速率上具有相似性，故同一决策组中的不同终端，采用参数共享的方法，即同一决策组中所有终端的本地执行网络采用相同的网络参数，共享一个计算迁移策略。对于不同的决策组k，其信道衰落和任务达到速率等具有较大的差异性，在策略的选取上应当具有差异性。本发明实施例中，分组的方式减少了边缘服务器端训练网络的数目，减低了训练的开销，能够应对大规模用户终端的情景。对于同一分组中的终端，其具有相似的信道衰落和任务达到速率，可以通过参数共享的方式来使用相同的决策策略。尤其在具有较大的终端规模的情况下，参数共享可以有效降低边缘服务器上的在线执行网络的数目，进一步大幅度降低训练的规模和开销。

步骤103：将从多个时段的全局经验信息中选取来自不同决策组的训练参数进行整合，生成训练经验信息，并根据训练经验信息对所有在线执行网络进行训练，确定每个在线执行网络的网络参数。

本发明实施例中，边缘服务器在获取到多个时段的全局经验信息后，即可根据该多个时段的全局经验信息对每个在线执行网络进行训练，从而可以更新每个在线执行网络的网络参数；一般情况下，不同的在线执行网络具有不同的网络参数。在需要训练在线执行网络时，从全局经验信息中为每一决策组选取出相应的训练参数，从而整合成训练经验信息，基于该训练经验信息进行训练，以确定每个在线执行网络的网络参数。其中，生成训练经验信息的过程可参见下述的步骤1031。本实施例通过采样的方式，从全局经验信息中选取出部分参数（即训练参数）来训练在线执行网络，可以简化训练过程，提高训练效率。

步骤104：根据终端的分组信息，将决策组对应的网络参数发送至决策组中的终端，指示终端根据边缘服务器发送的网络参数更新本地执行网络，本地执行网络与在线执行网络的结构相同，且本地执行网络的输入为终端的状态参数，输出为终端的决策参数；其中，属于同一决策组的不同终端的本地执行网络的网络参数相同。

本发明实施例中，每个终端也设有与在线执行网络结构相同的执行网络，即本地执行网络；边缘服务器在更新每个在线执行网络的网络参数之后，即可更新每个决策组的在线执行网络的网络参数，并将更新后的网络参数发送到属于该决策组的任意终端，使得终端可以更新自身的本地执行网络，进而该终端可以基于更新后的本地执行网络确定决策参数，并执行相应的任务迁移操作；并且，该终端也可以将决策参数再发送到边缘服务器，使得边缘服务器可以再次训练在线执行网络。其中，属于同一决策组的每个终端的本地执行网络具有相同的网络参数。

本发明实施例提供的一种任务迁移决策的方法，边缘服务器将多个终端上传的本地经验信息重新整合为以时段为单位的全局经验信息，基于该全局经验信息可以对多个在线执行网络进行中心化训练，并训练得到每个在线执行网络对应的分布式的迁移算法，通过更新终端的本地执行网络的方式向终端下发迁移算法，实现多终端分布式执行。将终端分为多个决策组，可以为信道衰落和任务达到速率相似的终端设置相同的在线执行网络，能够更新大量终端的网络参数，也可以保证终端的任务迁移决策效果。该中心化训练的方式能够考虑不同用户间的干扰和竞争，提高了训练的稳定性和训练结果的性能，能够应对终端间的强干扰；尤其是对于终端间存在强干扰的NOMA系统，可以稳定地训练出相比非合作式深度强化学习更优的迁移算法，从而可以优化终端的能耗和延时。终端分布式执行有效提高计策的实时性，减低终端延时，同时避免终端进行计算密集型的训练任务，有效减低终端的功耗。

在具有较大的终端规模的情况下，参数共享的采用可以有效降低边缘服务器上的在线执行网络的数目，进一步大幅度降低训练的规模和开销；此外，分组策略有效地保证了系统的可拓展性，对于新加入的终端，可以根据其信道衰落和任务达到速率将其分组到对应的决策组，而不用对边缘服务器的训练方式和结构进行较大调整。在新终端加入后，也可以通过采样式的训练方式可以将新终端的经验信息加入后续的网络训练中。

在上述实施例的基础上，接入该边缘服务器的任意终端可以基于边缘服务器发送的网络参数更新本地执行网络，执行任务迁移决策操作，并能够将该过程所确定的本地经验信息上传至边缘服务器。具体地，终端中本地执行网络的网络参数是动态调整的，参见图2所示，终端实现任务迁移决策的过程包括：

步骤201：获取边缘服务器发送的网络参数，网络参数为边缘服务器基于该终端和其他终端之前上传的本地经验信息训练相应的在线执行网络所得到的参数。

步骤202：根据边缘服务器发送的网络参数更新本地执行网络，本地执行网络与在线执行网络的结构相同，且本地执行网络的输入为终端的状态参数，输出为终端的决策参数。

本发明实施例中，包含该终端在内的多个终端均可接入边缘服务器，且所有的终端每间隔一段时间可以将本地观测到的本地经验信息发送至该边缘服务器，使得边缘服务器可以基于多个终端上传的本地经验信息训练相应的在线执行网络，进而得到该在线执行网络的网络参数，并将该网络参数下发至相应的终端；并且，终端设有与该在线执行网络结构相同的执行网络，即本地执行网络，终端在接收到该网络参数后，即可基于该网络参数更新本地执行网络的参数，使得本地执行网络与实时训练好的在线执行网络的结构和参数均一致。其中，本地执行网络和在线执行网络均为一种执行网络，例如Actor网络等。

边缘服务器为可以执行边缘计算、且具有一定处理能力的设备，例如基站等，该边缘服务器可以接入多个终端。例如，基站接入有M个终端，对于M个终端中的终端d，其可以每间隔一段时间（例如周期性地）将本地经验信息上传至基站，使得基站可以更新该终端d对应的在线执行网络。对于M个终端中的其他终端，其也可以向基站上传本地经验信息，此处不做赘述。其中，本地经验信息为终端在一段时间内观测到的信息集合，后续将对该本地经验信息展开详细解释。

其中，上述步骤202“根据边缘服务器发送的网络参数更新本地执行网络”，包括：

对于属于决策组k的终端d，终端d根据上一时段边缘服务器发送的决策组k训练后的网络参数

更新本地执行网络

的网络参数

，且更新公式如下：

。

步骤203：确定在当前时段终端的当前状态参数，将当前状态参数输入至本地执行网络，确定当前决策参数，并执行与当前决策参数相应的任务迁移操作；当前决策参数包括在当前时段的本地处理功率和迁移计算功率。

本发明实施例中，终端可以每间隔一段时间即可执行任务迁移决策；以当前时段为例，终端可以确定当前时段的状态参数，即当前状态参数。其中，状态参数用于表示该终端在某个时段的状态，该状态参数可以包括本地任务缓冲区的队列长度、信道矢量、边缘服务器接收到的归一化信噪比（SINR）、该终端收到的干扰和、该终端对其他终端造成的干扰和、该终端的任务到达平均速率等。此外，本地执行网络基于该状态参数也可以确定相应时段的决策参数，即该本地执行网络的输入为终端的状态参数，输出为终端的决策参数。相应地，在确定该终端的当前状态参数之后，将该当前状态参数输入至本地执行网络，即可以确定当前时段的决策参数，即当前决策参数。其中，时段为一个时间段，例如，一个时段可以为一个时隙，其对应1ms的时长。

本发明实施例中，该决策参数用于执行任务迁移操作，该决策参数包括在相应时段的本地处理功率和迁移计算功率，通过本地处理功率和迁移计算功率的大小即可确定需要将哪些任务迁移至服务器侧（例如边缘服务器等）进行计算，哪些任务可以直接在本地计算。

例如，若执行该方法的终端为属于决策组k的终端d，在当前时段为时段t的情况下，可以将终端d的当前状态参数s_d,t输入至本地执行网络

，确定本地执行网络

的输出

；其中，

表示本地执行网络

的网络参数。之后生成当前决策参数a_d,t，且

；其中，Δμ为随机扰动。需要说明的是，由于不同的终端可能被分至同一决策组，而每个决策组内的所有终端的本地执行网络是相同的；故对于属于决策组k的终端d，其本地执行网络可以用

表示，也可以用

表示，两种不同的表示方式并不意味着本地执行网络不同。

本发明实施例中，为当前决策参数a_d,t增加随机扰动Δμ，可以扩展训练时的探索空间，提高训练效果。其中，当前决策参数a_d,t包括终端d在时段t的本地处理功率p_l,d(t)和迁移计算功率p_o,d(t)，终端d基于该本地处理功率p_l,d(t)和迁移计算功率p_o,d(t)即可执行计算迁移的操作。一般情况下，本地处理具有最大功率P_l,d，迁移计算具有最大功率P_o,d；即，p_l,d(t)∈[0, P_l,d]，p_o,d(t)∈[0, P_o,d]。

需要说明的是，对于网络G，若其网络参数为θ^G，其输入为x，则本实施例中将该网络G的输出表示为G(x|θ^G)；其中，网络G具有运算函数G( )的功能。上述的本地执行网络以及下述的其他网络，均采用如上的表示方式。

步骤204：根据当前决策参数确定在当前时段的当前奖励参数，并确定在下一时段终端的下一状态参数。

本发明实施例中，在每个时段，可以基于相应的决策参数来计算相应的奖励参数；例如，可以根据当前决策参数计算当前时段的奖励参数，即当前奖励参数。其中，该奖励参数用于表示相应的决策参数所返回的短期奖励，考虑到最小化系统在功耗和延时方面的长期开销，奖励函数定义为功耗和延时的加权和；例如，终端d在时段t的奖励可以表示为：

其中，w_d,1、w_d,2为预设的加权因子，p_l,d(t)表示终端d在时段t的本地处理功率，p_o,d(t)表示终端d在时段t的迁移计算功率，B_d(t)表示终端d在时段t的本地任务缓冲区的队列长度，其能够代表时延。

此外，本发明实施例还确定下一时段的状态参数，即下一状态参数；其中，下一状态参数与当前状态参数均为状态参数。例如，若当前状态参数为s_d,t，则下一时段为时段t+1，相应的下一状态参数可以表示为s_d,t+1。

步骤205：将包含当前状态参数、当前决策参数、当前奖励参数和下一状态参数的本地经验信息发送至边缘服务器。

本发明实施例中，在确定当前时段的当前状态参数、当前决策参数、当前奖励参数和下一时段的下一状态参数后，可以生成包含该当前状态参数、当前决策参数、当前奖励参数和下一状态参数的本地经验信息，并将该当前时段对应的本地经验信息发送至边缘服务器，例如，在时段t末（或者时段t+1初），终端d收集本地信息，其中包括状态参数

，状态参数

，决策参数

和奖励参数

，并将其组成经验信息

上传到边缘服务器，使得边缘服务器可以基于该当前时段多个终端上传的本地经验信息训练边缘服务器中的在线执行网络并更新，进而可以确定更新后的在线执行网络的网络参数，并将该网络参数返回给终端，实现对终端的本地执行网络的更新。在之后的时段，上述所谓的当前时段对应的本地经验信息即为该终端之前上传至边缘服务器的本地经验信息。

本发明实施例中，终端可以向边缘服务器发送本地经验信息，使得边缘服务器可以结合多个终端的本地经验信息进行中心化训练，训练得到分布式的迁移算法，通过更新终端的本地执行网络的方式向终端下发迁移算法，实现多终端分布式执行。本地经验信息中包含本地执行网络输出的决策参数，使得边缘服务器能够基于执行网络实际的输出结果进行训练，能够提高训练效果。该中心化训练的方式能够考虑不同用户间的干扰和竞争，从而可以优化能耗和延时；终端不需要执行开销大的训练，也能够优化终端的性能。

在上述实施例的基础上，如上所述，状态参数可以包括本地任务缓冲区的队列长度、信道矢量、边缘服务器接收到的归一化信噪比（SINR）、该终端收到的干扰和、该终端对其他终端造成的干扰和、该终端的任务到达平均速率等。对于终端d，若当前时段为时段t，则终端d的当前状态参数为状态参数s_d,t。本发明实施例中，状态参数s_d,t包括：终端d在时段t的本地任务缓冲区的队列长度B_d(t)、终端d在时段t的信道矢量h_d(t)、上一时段边缘服务器接收到所述终端d信号的归一化信噪比γ_d(t-1)、上一时段终端d收到的干扰和ϕ_d(t-1)、上一时段终端d对其他终端造成的干扰和η_d(t-1)以及终端d的任务到达平均速率λ_d。其中，每个参数的一种具体含义可以如下：

其中，d_l,d(t-1)表示终端d在上一时段本地计算的数据量，d_o,d(t-1)表示终端d在上一时段迁移计算的数据量，a_d(t-1)表示终端d在上一时段的任务到达量。

其中，ρ_d表示终端d的归一化信道相关系数，e_d(t)表示终端d的误差向量。

其中，

表示噪声功率，I为单位矩阵，p_o,i(t)表示终端i在时段t的发射功率，h_i(t)表示终端i在时段t的信道矢量；ϕ_i(t)表示终端i在时段t收到的干扰和，p_o,d(t)表示终端d在时段t的发射功率，

表示在p_o,d(t)=0的情况下终端i在时段t收到的干扰和；在i∈[1,m]时，终端i的信号强度小于终端d的信号强度，m为信号强度小于终端d的其他终端的数量；在i∈[m+2,M]时，终端i的信号强度大于终端d的信号强度，M为终端总数量。

本发明实施例中，可以基于上一时段本地计算的数据量d_l,d(t-1)和迁移计算的数据量d_o,d(t-1)等来确定本地任务缓冲区的队列长度B_d(t)；其中，可以基于边缘服务器确定每个终端（包括终端d）在上一时段t-1的数据量接收速率，且终端d对应的数据量接收速率为r_d(t-1)，则上一时段的迁移计算的数据量d_o,d(t-1)=Δt×r_d(t-1)，该Δt表示一个时段对应的时长。

对于本地处理，根据动态电压频率调整技术，可以得到在本地处理功耗为p_l,d(t-1)时处理的数据量d_l,d(t-1)表示为：

其中，τ₀表示时隙长度，C_d表示在终端d，每个任务bit需要的CPU周期数，κ表示有效切换电容。

并且，信道矢量h_d(t)可以根据上一时刻的信道矢量h_d(t-1)进行估计；基于上一时段t-1的信道矢量h_d(t-1)，以及其他终端i的信道矢量h_i(t-1)可以确定时段t的信道矢量h_d(t)、上一时段边缘服务器接收到的归一化信噪比γ_d(t-1)、上一时段终端d收到的干扰和ϕ_d(t-1)、上一时段终端d对其他终端造成的干扰和η_d(t-1)等，详见上述表述的公式。其中，在M个终端中，若存在m个其他终端，其信号强度小于该终端d的信号强度；相应的，存在M-m-1个其他终端，其信号强度大于该终端d的信号强度。即，若对M个终端按照信号强度从小到大进行排列，则该终端d为第m+1个终端，其前面的m个终端（终端1至终端m）的信号强度较小，后面的M-m-1个终端（终端m+2至终端M）的信号强度较大。

该任务到达平均速率λ_d可以根据之前时刻的任务到达情况进行估计。一般情况下，任务到达量a_d(t)遵循均值为该λ_d的泊松分布，即a_d(t)∼Pois(λ_d)。

此外，上面示出了时段t的γ_d(t)、ϕ_d(t)、η_d(t)的计算方式，基于此，本领域技术人员可以知道如何计算上一时段t-1的γ_d(t-1)、ϕ_d(t-1)、η_d(t-1)，此处不做详述。在条件允许的情况，也可以采用其他方式计算时段t的γ_d(t)、ϕ_d(t)、η_d(t)等，本实施例对此不作限定。本发明实施例中，状态参数包括本地本身的参数，以及由边缘服务器返回的与其他终端相关的参数，例如上一时段终端d收到的干扰和ϕ_d(t-1)、上一时段终端d对其他终端造成的干扰和η_d(t-1)等，使得边缘服务器的训练包含其他用户的相关信息，能够充分考虑用户之间的协作和竞争。

可选地，当存在新增的终端需要接入该边缘服务器时，在不改变边缘服务器的情况下，可以很容易地接入该新增的终端。此时，新增的终端用于将本身的信道衰落和任务达到速率上传到边缘服务器；边缘服务器还用于根据新增的终端的信道衰落和任务达到速率确定新增的终端所属的决策组，并根据决策组的网络参数更新新增的终端的本地执行网络的网络参数，将新增的终端作为接入边缘服务器的一个终端。

本发明实施例中，在确定新增的终端所属的决策组之后，即可将该新增的终端作为与已经接入终端服务器的其他终端相似的终端，即该新增的终端也可以通过执行上述步骤201-205等实现计算迁移决策。一般情况下，决策组的数量G是不变的。分组的策略可以有效地应对终端数量的变化，对于加入通信系统的新用户终端，可以通过分组策略将其分至最相似的组中，同时后续的训练也会利用该新用户终端的信息，从而逐渐使其性能达到较优。

在上述实施例的基础上，边缘服务器为每个在线执行网络设置相应的在线评价网络，用于实现辅助训练。具体地，上述步骤103“将从多个时段的全局经验信息中选取来自不同决策组的训练参数进行整合，生成训练经验信息，并根据训练经验信息对所有在线执行网络进行训练，确定每个在线执行网络的网络参数”包括：

步骤1031：为每个决策组k的在线执行网络μ_k设置在线评价网络Q_k；其中，在线执行网络μ_k的输入为决策组k中某个终端在时段i的状态参数

，输出为

，

表示在线执行网络μ_k的网络参数；在线评价网络Q_k的输入为在时段i的训练状态向量s_i和训练决策向量a_i，输出为

，

表示在线评价网络Q_k的网络参数。

本发明实施例中，将决策组k对应的在线执行网络表示为μ_k，并且为每个在线执行网络μ_k设置相应的在线评价网络Q_k。若在线执行网络μ_k的输入为决策组k在时段i的状态参数

，则其输出为

；若在线评价网络Q_k的输入为在时段i的训练状态向量s_i和训练决策向量a_i，则输出为

。其中，该训练状态向量s_i和训练决策向量a_i均为训练经验信息中的一部分。该边缘服务器的一种结构可参见图3所示，图3以边缘服务器为基站为例说明，对于M个终端，其被分为G组，终端1为决策组1的一个终端，终端d为决策组k的一个终端，终端M为决策组G的一个终端。该边缘服务器分别设有G个在线执行网络μ₁,μ₂,…,μ_k,…,μ_G和G个在线评价网络Q₁,Q₂,…,Q_k,…,Q_G，每个在线评价网络Q_k对应一个在线执行网络μ_k。其中，在线评价网络为一种评价网络，具体可以为Critic网络。

步骤1032：根据每个决策组k的随机变量Z_k，从全局经验信息中随机选取决策组k的训练参数，生成每个时段的训练经验信息；其中，Z_k∈{1,2,3,…,M_k}，M_k表示决策组k中的终端数量，且时段i的训练经验信息包括：时段i的训练状态向量

、时段i的训练决策向量

、时段i的训练奖励向量

以及时段i+1的训练状态向量

。其中，

表示属于决策组k的终端Z_k在时段i的状态参数，

表示属于决策组k的终端Z_k在时段i的决策参数，

表示属于决策组k的终端Z_k在时段i的奖励参数，

表示属于决策组k的终端Z_k在时段i+1的状态参数。

本发明实施例中，在需要训练时，从全局经验信息

中为每一决策组随机选取出相应的训练参数。具体地，其中，将决策组所对应的一个参数作为随机选取出来的一个训练参数，全局经验信息包括四种参数（时段t的状态参数、时段t的决策参数、时段t的奖励参数和时段t+1的状态参数）的集合，故可以为每个决策组选出四个训练参数。其中，每个决策组包含一个或多个终端，对于全局经验信息中的任意一种参数，也可以按照决策组进行划分。例如，决策组k包含的终端数为M_k，对于时段i的全局状态向量

，其中与该决策组k相对应的状态参数可以是s_p+1,i,s_p+2,i,…,s_p+Mk,i共M_k个参数，可以从M_k个参数中随机选取出一个作为该决策组的一个训练参数。

具体地，可以采用随机采样的方式，从决策组的所有终端的参数中选取一个参数作为相应的训练参数。例如，为决策组设置至少一个随机变量Z_k，Z_k∈{1,2,3,…,M_k}，M_k表示决策组k中的终端数量；例如，决策组k中包含100个终端（即M_k=100），则可以随机生成1-100的一个整数作为随机变量Z_k。将属于决策组k的某个终端Z_k在时段i的状态参数s_a,i作为该决策组k的状态参数

，将属于决策组k的某个终端Z_k在时段i的决策参数a_b,i作为该决策组k的决策参数

，将属于决策组k的某个终端Z_k在时段i的奖励参数r_c,i作为该决策组k的奖励参数

，将属于决策组k的某个终端Z_k在时段i+1的状态参数s_d,i+1作为该决策组k的状态参数

。以此确定的状态参数

、决策参数

、奖励参数

、状态参数

即为该决策组k的四个训练参数。

在确定每个决策组的训练参数之后，即可将所有决策组的训练参数组合成训练时所需的训练经验信息。与全局经验信息类似，该训练经验信息也是以时段为单位进行组合的，具体地，时段i的训练经验信息包括时段i的训练状态向量

、时段i的训练决策向量

、时段i的训练奖励向量

以及时段i+1的训练状态向量

，每个向量中包含G个参数。

其中，在训练时，可以选取多个时段的训练经验信息生成训练集；例如，若需要T组训练经验信息，则选取的训练集A可以表示为

，基于该训练集A对在线执行网络进行训练。

步骤1033：对于每个决策组k，通过最小化损失函数更新在线评价网络Q_k的网络参数

，并利用更新后的网络参数

，通过策略梯度更新在线执行网络μ_k的网络参数

。

本发明实施例中，首先利用最小化损失函数确定在线评价网络Q_k更新后的网络参数

，之后再基于策略梯度更新在线执行网络μ_k的网络参数

。在确定该网络参数

之后，即可更新决策组k的本地执行网络

的网络参数

，即

。其中，“←”表示将后者赋值给前者。

此外可选地，本发明实施例中，边缘服务器还为每个在线网络设置相应的目标网络，例如，为在线执行网络μ_k设置目标执行网络μ' _k，为在线评价网络Q_k设置目标评价网络Q' _k，以实现训练过程。具体的，上述步骤1033“通过最小化损失函数更新在线评价网络Q_k的网络参数

”包括：

步骤B1：基于为每个决策组k预设的目标执行网络μ' _k确定时段i的第一决策预测参数a'_k,i，并生成第一决策预测向量a' _i=(a'_1,i,a'_2,i,…,a'_G,i)；其中，目标执行网络μ' _k的输入为决策组k在时段i+1的状态参数

，输出

为第一决策预测参数a'_k,i，

表示目标执行网络的网络参数；目标执行网络μ' _k与在线执行网络μ_k的结构相同。

本发明实施例中，与本地执行网络类似，在线执行网络μ_k和目标执行网络μ' _k均用于预测相应的决策参数；例如，目标执行网络μ' _k的输入为决策组k在时段i+1的状态参数

，其输出

可以用于表示一种决策参数，即第一决策预测参数a'_k,i。在线执行网络μ_k的输入为决策组k在时段i的状态参数

，则其输出

也能够表示相应的决策参数。本发明实施例中，基于G个目标执行网络μ' _k的输出结果a'_k,i，可以生成在时段i的第一决策预测向量a' _i，且a' _i=(a'_1,i,a'_2,i,…,a'_G,i)。

步骤B2：基于为决策组k预设的目标评价网络Q' _k，计算相应的在线评价网络Q_k的目标值y_k,i，且：

其中，

表示决策组k在时段i的奖励参数，目标评价网络Q' _k的输入包括时段i+1的训练状态向量s' _i和时段i的第一决策预测向量a' _i，输出为

，

表示目标评价网络Q' _k的网络参数；γ为预设的奖励折扣因子调整系数，γ∈(0,1)；目标评价网络Q' _k与在线评价网络Q_k的结构相同。

本发明实施例中，与在线评价网络Q_k相似，通过向目标评价网络Q' _k输入时段i+1的训练状态向量s' _i和上述步骤B21确定的第一决策预测向量a' _i，可以得到该目标评价网络Q' _k的输出

，进而基于上述步骤B2的式子可以确定所需的决策组k在时段i的目标值y_k,i。

步骤B3：设置在线评价网络Q_k的最小化损失函数L_k，通过选取的训练集

和最小化损失函数L_k更新在线评价网络Q_k的网络参数

，且最小化损失函数L_k为：

其中，T为训练集A的大小。

本发明实施例中，边缘服务器选取之前的T个时段的训练经验信息生成训练集A，

。基于该训练集A对每个在线评价网络Q_k进行训练，从而可以确定在线评价网络Q_k训练后的的网络参数

。

此外，上述步骤1033中“利用更新后的网络参数

，通过策略梯度更新在线执行网络μ_k的网络参数

”可以包括：

步骤B4：将多个决策组k的在线执行网络μ_k的输出

作为第二决策预测参数

，并生成第二决策预测向量

。

步骤B5：通过选取的训练集

和如下的策略梯度更新在线执行网络μ_k的网络参数

：

其中，

表示长期预测奖励，

表示对

求偏导，

表示对决策参数

求偏导，其中，决策参数

∈训练决策向量

。

本发明实施例中，与上述基于目标执行网络μ' _k确定第一决策预测向量的过程相似，本实施例基于在线执行网络μ_k来生成第二决策预测向量

，进而基于该以及训练后的在线评价网络Q_k训练得到在线执行网络μ_k的网络参数

，进而能够更新决策组k的本地执行网络。

其中，初始的目标网络与相应的在线网络相同，二者具有相同的网络参数。即在初始时，

。之后，在更新在线网络后，采用如下的方式更新相应的目标网络的网络参数。本实施例中，更新目标网络的网络参数的过程包括：

步骤C1：根据在线评价网络Q_k更新后的网络参数

对目标评价网络Q' _k的网络参数

进行更新：

。

步骤C2：根据在线执行网络μ_k更新后的网络参数

对目标执行网络μ' _k的网络参数

进行更新：

。其中，τ为软更新系数，且τ∈(0,1)。

本发明实施例还提供一种任务迁移决策的系统，该系统包括如上任一实施例所提供的边缘服务器和多个如上任一实施例所提供的终端。下面通过一个实施例详细介绍该系统的工作流程。

参见图3所示，该任务迁移决策的系统包括边缘服务器和M个终端，该边缘服务器具体为基站，该基站设有G个在线执行网络μ_k和G个在线评价网络Q_k，每个终端中设有相应的本地执行网络

，k∈[1,G]。参见图4A所示，以属于决策组k的终端d为例，该终端d与基站之间交互过程具体包括：

步骤401：为属于决策组k的终端d设置本地执行网络

。

其中，在初始化时，终端d可以自行设置该本地执行网络

的网络参数

，也可以通过基站下发的决策组k的网络参数

来更新其网络参数

，本实施例对初始化不做限定。M个终端中的其他终端也设置相应的网络参数。

步骤402：若当前时段为时段t，终端d确定在时段t的本地任务缓冲区的队列长度B_d(t)、在时段t的信道矢量h_d(t)、上一时段边缘服务器接收到的归一化信噪比γ_d(t-1)、上一时段终端d收到的干扰和ϕ_d(t-1)、上一时段终端d对其他终端造成的干扰和η_d(t-1)以及终端d的任务到达平均速率λ_d，从而生成当前状态参数s_d,t，且s_d,t={ B_d(t), h_d(t), γ_d(t-1), ϕ_d(t-1), η_d(t-1), λ_d}。

步骤403：将当前状态参数s_d,t输入至本地执行网络

，确定当前决策参数a_d,t，并执行与当前决策参数a_d,t相应的任务迁移操作。

其中，

。

步骤404：在时段t末，根据当前决策参数a_d,t确定在时段t的当前奖励参数r_d,t，并确定在下一时段终端的下一状态参数s_d,t+1。

步骤405：将包含当前状态参数s_d,t、当前决策参数a_d,t、当前奖励参数r_d,t和下一状态参数s_d,t+1的本地经验信息发送至基站。

其中，终端d在时段i上传的本地经验信息为四者组成的元组{s_d,t，a_d,t，r_d,t，s_d,t+1}。其余终端也向基站上传相应的本地经验信息，如图3所示，终端1上传{s_1,t，a_1,t，r_1,t，s_1,t+1}，终端M上传{s_M,t，a_M,t，r_M,t，s_M,t+1}。

步骤406：基站通过整合器对该时段t接收到的本地经验信息进行整合，生成时段t的全局经验信息

，并将全局经验信息存到缓冲区。

步骤407：从缓冲区中提取T个训练经验信息形成训练集A，

。

其中，可以从缓冲区中缓存的全局经验信息中选出（例如随机选取）T个训练经验信息，形成该训练集A。可选地，在缓冲区中数据较多时，可以删除较旧的数据。

步骤408：通过最小化损失函数更新每个在线评价网络Q_k的网络参数

。

其中，可以利用目标评价网络Q' _k更新该在线评价网络Q_k的网络参数

，详见上述的步骤B1-B3，此处不做赘述。

步骤409：利用更新后的网络参数

，通过策略梯度更新在线执行网络μ_k的网络参数

。

其中，可以基于上述的步骤B4-B5训练得到在线执行网络μ_k的网络参数

，此处不做赘述。

步骤410：在确定每个在线执行网络μ_k的网络参数

的后，将网络参数

下发至属于相应的决策组k的终端d，使得终端d能够更新本地的执行网络

。

例如，本发明实施例中的基站端所设置的参数如下：最大的训练集数Mmax=2000，每个训练集中包含的时隙数Tmax=200。评价网络和执行网络均为四层全连接网络，其中两层隐含层的网络参数分别为400和300。隐含层激活函数使用的RELU，即f(x)=max(0,x)，执行网络输出层使用的sigmod函数来约束输出的大小。在评价网络中，决策参数是在第二层网络处输入的。神经网络的优化是使用自适应估计方法（Adam），执行网络和评价网络的学习率为1×10^-5和0.001，目标网络的软更新参数τ= 0.001。训练中执行网络的噪声满足Ornstein-Uhlenbeck过程，其输出噪声x_t满足下述的随机微分方程：

其中μ是均值，W_t是维纳过程（布朗运动），参数θ= 0.15、σ= 0.12。缓存区的大小|B|=1.0×10⁵。对于奖励函数中的延时和功耗的折中因子（加权因子）均为0.5，对于系统训练中发送更新数据的时隙周期（也称为更新延时）的取值为两个值，且分别为1、1000。

对比的算法有基于DDPG（Deep Deterministic Policy Gradient，深度确定性策略梯度）的计算迁移算法，和两种贪婪算法。两种贪婪算法中其一为本地处理优先的贪婪算法（GD-Local），优先本地处理，多余的任务进行计算迁移。还有一个为计算迁移优先的贪婪算法（GD-Offload），优先计算迁移，多余的任务进行本地处理。

训练结果如图4B所示，虽然在少数终端的奖励上基于DDPG的算法要更优，但是在系统总的奖励上，本发明实施例提供的方法要明显优于DDPG，远远优于贪婪算法。可以看到基于合作式的深度强化学习可以有效的解决NOMA系统中不同终端之间干扰对决策的影响，有效的提高系统的总的长期奖励，即减低系统在延时和功率方面的开销。

本发明实施例提供的一种任务迁移决策的系统，采用的中心式训练方式，使得每个终端的计算迁移算法的训练不仅仅包含自己的信息，还包含了其他终端的信息，在训练的时候充分考虑了终端之间的协作和竞争，提高了训练的稳定性和训练结果的性能；尤其是对于终端间存在强干扰的NOMA系统，可以稳定地训练出相比非合作式深度强化学习更优的迁移算法，从而可以优化终端的能耗和延时。边缘服务器利用高性能计算能力收集全局信息来应用于网络的训练，可以使终端避免复杂的、计算量大的和高能耗的策略网络训练；多个终端分布式执行，在终端执行的时候仅仅只需要本地的观测，无需其他终端的信息，可以实时地有效地进行计算数据的迁移。该系统采用中心式训练、分布式执行的框架，可以有效的契合合作式深度强化学习的使用，能够将计算开销大的训练放在边缘服务器侧，将训练后的计算迁移策略部署到每个终端的本地执行网络，相比于中心化的算法有效地降低了计算迁移延时，相比于分布式算法避免了本地训练的开销。

上文详细描述了本发明实施例提供的任务迁移决策的方法，该方法也可以通过相应的装置实现，下面详细描述本发明实施例提供的任务迁移决策的装置。

图5示出了本发明实施例所提供的一种任务迁移决策的装置的结构示意图。如图5所示，该任务迁移决策的装置包括：

整合模块51，用于获取多个终端上传的至少一个时段的本地经验信息，将同一所述时段的多个所述本地经验信息进行整合，生成所述时段的全局经验信息；其中，终端d在时段t的所述本地经验信息包括：所述时段t的状态参数s_d,t、所述时段t的决策参数a_d,t、所述时段t的奖励参数r_d,t和时段t+1的状态参数s_d,t+1；所述决策参数a_d,t包括所述终端d在时段t的所述本地处理功率p_l,d(t)，以及所述终端d在时段t的所述迁移计算功率p_o,d(t)；所述时段t的所述全局经验信息包括：所述时段t的全局状态向量

、所述时段t的全局决策向量

、所述时段t的全局奖励向量

以及所述时段t+1的全局状态向量

，M为终端总数量，且d∈[1,M]；

分组模块52，用于根据每个所述终端的信道衰落和任务达到速率，将多个所述终端分为G个决策组，为每个所述决策组设置在线执行网络，不同的所述在线执行网络具有相同的结构；

训练模块53，用于将从多个所述时段的所述全局经验信息中选取来自不同所述决策组的训练参数进行整合，生成训练经验信息，并根据所述训练经验信息对所有所述在线执行网络进行训练，确定每个所述在线执行网络的网络参数；

参数发送模块54，用于根据终端的分组信息，将所述决策组对应的所述网络参数发送至所述决策组中的所述终端，指示所述终端根据所述边缘服务器发送的所述网络参数更新本地执行网络，所述本地执行网络与所述在线执行网络的结构相同，且所述本地执行网络的输入为所述终端的状态参数，输出为所述终端的决策参数；其中，属于同一所述决策组的不同终端的所述本地执行网络的网络参数相同。

在上述实施例的基础上，所述训练模块53包括：

设置单元，用于为每个所述决策组k的所述在线执行网络μ_k设置在线评价网络Q_k；其中，所述在线执行网络μ_k的输入为所述决策组k中某个终端在时段i的状态参数

，输出为

，

表示所述在线执行网络μ_k的网络参数；所述在线评价网络Q_k的输入为在时段i的训练状态向量s_i和训练决策向量a_i，输出为

，

表示所述在线评价网络Q_k的网络参数；

生成单元，用于根据每个所述决策组k的随机变量Z_k，从所述全局经验信息中随机选取所述决策组k的训练参数，生成每个时段的训练经验信息；其中，Z_k∈{1,2,3,…,M_k}，M_k表示所述决策组k中的终端数量，且时段i的所述训练经验信息包括：所述时段i的训练状态向量

、所述时段i的训练决策向量

、所述时段i的训练奖励向量

以及所述时段i+1的训练状态向量

；其中，

表示属于决策组k的终端Z_k在时段i的状态参数，

表示属于决策组k的终端Z_k在时段i的决策参数，

表示属于决策组k的终端Z_k在时段i的奖励参数，

表示属于决策组k的终端Z_k在时段i+1的状态参数；

训练单元，用于对于每个所述决策组k，通过最小化损失函数更新所述在线评价网络Q_k的网络参数

，并利用更新后的所述网络参数

，通过策略梯度更新所述在线执行网络μ_k的网络参数

。

在上述实施例的基础上，所述训练单元通过最小化损失函数更新所述在线评价网络Q_k的网络参数

，包括：

基于为每个所述决策组k预设的目标执行网络μ' _k确定时段i的第一决策预测参数a'_k,i，并生成第一决策预测向量a' _i=(a'_1,i,a'_2,i,…,a'_G,i)；其中，所述目标执行网络μ' _k的输入为所述决策组k中某个终端在所述时段i+1的状态参数

，输出

为所述第一决策预测参数a'_k,i，

表示所述目标执行网络的网络参数；所述目标执行网络μ' _k与所述在线执行网络μ_k的结构相同；

基于为所述决策组k预设的目标评价网络Q' _k，计算相应的在线评价网络Q_k的目标值y_k,i，且：

其中，

表示决策组k在时段i的奖励参数，所述目标评价网络Q' _k的输入包括所述时段i+1的训练状态向量s' _i和时段i的第一决策预测向量a' _i，输出为

，

表示所述目标评价网络Q' _k的网络参数；γ为预设的奖励折扣因子调整系数，γ∈(0,1)；所述目标评价网络Q' _k与所述在线评价网络Q_k的结构相同；

设置所述在线评价网络Q_k的最小化损失函数L_k，通过选取的训练集

和所述最小化损失函数L_k更新所述在线评价网络Q_k的网络参数

，且最小化损失函数L_k为：

其中，T为所述训练集A的大小。

在上述实施例的基础上，所述训练单元利用更新后的所述网络参数

，通过策略梯度更新所述在线执行网络μ_k的网络参数

，包括：

将多个所述决策组k的所述在线执行网络μ_k的输出

作为第二决策预测参数

，并生成第二决策预测向量

；

通过选取的训练集

和如下的策略梯度更新所述在线执行网络μ_k的网络参数

：

其中，

表示长期预测奖励，

表示对

求偏导，

表示对决策参数

求偏导。

在上述实施例的基础上，该装置还包括更新模块，所述更新模块用于：

根据所述在线评价网络Q_k更新后的网络参数

对所述目标评价网络Q' _k的网络参数

进行更新：

；

根据所述在线执行网络μ_k更新后的网络参数

对所述目标执行网络μ' _k的网络参数

进行更新：

；

其中，τ为软更新系数，且τ∈(0,1)。

此外，本发明实施例还提供了一种电子设备，包括总线、收发器、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，该收发器、该存储器和处理器分别通过总线相连，计算机程序被处理器执行时实现上述任务迁移决策的方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

具体的，参见图6所示，本发明实施例还提供了一种电子设备，该电子设备包括总线1110、处理器1120、收发器1130、总线接口1140、存储器1150和用户接口1160。

在本发明实施例中，该电子设备还包括：存储在存储器1150上并可在处理器1120上运行的计算机程序，计算机程序被处理器1120执行时实现上述任务迁移决策的方法实施例的各个过程。

收发器1130，用于在处理器1120的控制下接收和发送数据。

本发明实施例中，总线架构（用总线1110来代表），总线1110可以包括任意数量互联的总线和桥，总线1110将包括由处理器1120代表的一个或多个处理器与存储器1150代表的存储器的各种电路连接在一起。

总线1110表示若干类型的总线结构中的任何一种总线结构中的一个或多个，包括存储器总线以及存储器控制器、外围总线、加速图形端口（Accelerate Graphical Port，AGP）、处理器或使用各种总线体系结构中的任意总线结构的局域总线。作为示例而非限制，这样的体系结构包括：工业标准体系结构（Industry Standard Architecture，ISA）总线、微通道体系结构（Micro Channel Architecture，MCA）总线、扩展ISA（Enhanced ISA，EISA）总线、视频电子标准协会（Video Electronics Standards Association，VESA）、外围部件互连（Peripheral Component Interconnect，PCI）总线。

处理器1120可以是一种集成电路芯片，具有信号处理能力。在实现过程中，上述方法实施例的各步骤可以通过处理器中硬件的集成逻辑电路或软件形式的指令完成。上述的处理器包括：通用处理器、中央处理器（Central Processing Unit，CPU）、网络处理器（Network Processor，NP）、数字信号处理器（Digital Signal Processor，DSP）、专用集成电路（Application Specific Integrated Circuit，ASIC）、现场可编程门阵列（FieldProgrammable Gate Array，FPGA）、复杂可编程逻辑器件（Complex Programmable LogicDevice，CPLD)、可编程逻辑阵列（Programmable Logic Array，PLA）、微控制单元（Microcontroller Unit，MCU）或其他可编程逻辑器件、分立门、晶体管逻辑器件、分立硬件组件。可以实现或执行本发明实施例中公开的各方法、步骤及逻辑框图。例如，处理器可以是单核处理器或多核处理器，处理器可以集成于单颗芯片或位于多颗不同的芯片。

处理器1120可以是微处理器或任何常规的处理器。结合本发明实施例所公开的方法步骤可以直接由硬件译码处理器执行完成，或者由译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存取存储器（Random Access Memory，RAM）、闪存（FlashMemory）、只读存储器（Read-Only Memory，ROM）、可编程只读存储器（Programmable ROM，PROM）、可擦除可编程只读存储器（Erasable PROM，EPROM）、寄存器等本领域公知的可读存储介质中。所述可读存储介质位于存储器中，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

总线1110还可以将，例如外围设备、稳压器或功率管理电路等各种其他电路连接在一起，总线接口1140在总线1110和收发器1130之间提供接口，这些都是本领域所公知的。因此，本发明实施例不再对其进行进一步描述。

收发器1130可以是一个元件，也可以是多个元件，例如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。例如：收发器1130从其他设备接收外部数据，收发器1130用于将处理器1120处理后的数据发送给其他设备。取决于计算机系统的性质，还可以提供用户接口1160，例如：触摸屏、物理键盘、显示器、鼠标、扬声器、麦克风、轨迹球、操纵杆、触控笔。

以上所述，仅为本发明实施例的具体实施方式，但本发明实施例的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明实施例披露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明实施例的保护范围之内。因此，本发明实施例的保护范围应以权利要求的保护范围为准。

Claims

1.一种任务迁移决策的方法，由边缘服务器执行，其特征在于，包括：

、所述时段t的全局决策向量

、所述时段t的全局奖励向量

以及所述时段t+1的全局状态向量

，M为终端总数量，且d∈[1,M]；

根据每个所述终端的信道衰落和任务达到速率，将多个所述终端分为G个决策组，为每个所述决策组设置在线执行网络，不同的所述在线执行网络具有相同的结构；

2.根据权利要求1所述的方法，其特征在于，所述将从多个所述时段的所述全局经验信息中选取来自不同所述决策组的训练参数进行整合，生成训练经验信息，并根据所述训练经验信息对所有所述在线执行网络进行训练，确定每个所述在线执行网络的网络参数，包括：

为每个所述决策组k的所述在线执行网络μ_k设置在线评价网络Q_k；其中，所述在线执行网络μ_k的输入为所述决策组k中某个终端在时段i的状态参数

，输出为

，

，

表示所述在线评价网络Q_k的网络参数；

根据每个所述决策组k的随机变量Z_k，从所述全局经验信息中随机选取所述决策组k的训练参数，生成每个时段的训练经验信息；其中，Z_k∈{1,2,3,…,M_k}，M_k表示所述决策组k中的终端数量，且时段i的所述训练经验信息包括：所述时段i的训练状态向量

、所述时段i的训练决策向量

、所述时段i的训练奖励向量

以及所述时段i+1的训练状态向量

；其中，

表示属于决策组k的终端Z_k在时段i的状态参数，

表示属于决策组k的终端Z_k在时段i的决策参数，

表示属于决策组k的终端Z_k在时段i的奖励参数，

表示属于决策组k的终端Z_k在时段i+1的状态参数；

对于每个所述决策组k，通过最小化损失函数更新所述在线评价网络Q_k的网络参数

，并利用更新后的所述网络参数

，通过策略梯度更新所述在线执行网络μ_k的网络参数

。

3.根据权利要求2所述的方法，其特征在于，所述通过最小化损失函数更新所述在线评价网络Q_k的网络参数

，包括：

基于为每个所述决策组k预设的目标执行网络μ' _k确定时段i的第一决策预测参数a'_k,i，并生成第一决策预测向量

；其中，所述目标执行网络μ' _k的输入为所述决策组k中某个终端在所述时段i+1的状态参数

，输出

为所述第一决策预测参数a'_k,i，

其中，

，

，且最小化损失函数L_k为：

其中，T为所述训练集A的大小。

4.根据权利要求3所述的方法，其特征在于，所述利用更新后的所述网络参数

，通过策略梯度更新所述在线执行网络μ_k的网络参数

，包括：

将多个所述决策组k的所述在线执行网络μ_k的输出

作为第二决策预测参数

，并生成第二决策预测向量

；

通过选取的训练集

和如下的策略梯度更新所述在线执行网络μ_k的网络参数

：

其中，

表示长期预测奖励，

表示对

求偏导，

表示对决策参数

求偏导。

5.根据权利要求4所述的方法，其特征在于，还包括：

根据所述在线评价网络Q_k更新后的网络参数

对所述目标评价网络Q' _k的网络参数

进行更新：

；

根据所述在线执行网络μ_k更新后的网络参数

对所述目标执行网络μ' _k的网络参数

进行更新：

；

其中，τ为软更新系数，且τ∈(0,1)。

6.一种任务迁移决策的装置，设置在边缘服务器侧，其特征在于，包括：

、所述时段t的全局决策向量

、所述时段t的全局奖励向量

以及所述时段t+1的全局状态向量

，M为终端总数量，且d∈[1,M]；

7.一种任务迁移决策的系统，其特征在于，包括边缘服务器和接入所述边缘服务器的终端；

所述边缘服务器用于执行如权利要求1-5任意一项所述的任务迁移决策的方法。

8.根据权利要求7所述的系统，其特征在于，所述终端中本地执行网络的网络参数是动态调整的，且所述终端用于：

获取边缘服务器发送的网络参数，所述网络参数为所述边缘服务器基于所述终端和其他终端之前上传的本地经验信息训练相应的在线执行网络所得到的参数；

根据所述边缘服务器发送的所述网络参数更新本地执行网络，所述本地执行网络与所述在线执行网络的结构相同，且所述本地执行网络的输入为终端的状态参数，输出为所述终端的决策参数；

确定在当前时段所述终端的当前状态参数，将所述当前状态参数输入至所述本地执行网络，确定当前决策参数，并执行与所述当前决策参数相应的任务迁移操作；所述当前决策参数包括在所述当前时段的本地处理功率和迁移计算功率；

根据所述当前决策参数确定在所述当前时段的当前奖励参数，并确定在下一时段所述终端的下一状态参数；

将包含所述当前状态参数、所述当前决策参数、所述当前奖励参数和所述下一状态参数的本地经验信息发送至所述边缘服务器。

9.根据权利要求8所述的系统，其特征在于，所述根据所述边缘服务器发送的所述网络参数更新本地执行网络，包括：

对于属于决策组k的终端d，所述终端d根据上一时段所述边缘服务器发送的所述决策组k训练后的所述网络参数

更新本地执行网络

的网络参数

，且更新公式如下：

所述将所述当前状态参数输入至所述本地执行网络，确定当前决策参数，包括：

在所述当前时段为时段t的情况下，将属于决策组k的终端d的所述当前状态参数s_d,t输入至所述终端d的本地执行网络

，确定所述本地执行网络

的输出

；其中，

表示所述本地执行网络

的网络参数；生成当前决策参数a_d,t，且

；其中，Δμ为随机扰动。

10.根据权利要求7-9任意一项所述的系统，其特征在于，还包括新增的终端；

所述新增的终端用于将本身的信道衰落和任务达到速率上传到所述边缘服务器；

所述边缘服务器还用于根据所述新增的终端的信道衰落和任务达到速率确定所述新增的终端所属的决策组，并根据所述决策组的网络参数更新所述新增的终端的本地执行网络的网络参数，将所述新增的终端作为接入所述边缘服务器的一个终端。