CN113778691A - 一种任务迁移决策的方法、装置及系统 - Google Patents

一种任务迁移决策的方法、装置及系统 Download PDF

Info

Publication number
CN113778691A
CN113778691A CN202111323172.9A CN202111323172A CN113778691A CN 113778691 A CN113778691 A CN 113778691A CN 202111323172 A CN202111323172 A CN 202111323172A CN 113778691 A CN113778691 A CN 113778691A
Authority
CN
China
Prior art keywords
network
decision
terminal
time period
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111323172.9A
Other languages
English (en)
Other versions
CN113778691B (zh
Inventor
陈钊
章磊
裴玉奎
殷柳国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN202111323172.9A priority Critical patent/CN113778691B/zh
Publication of CN113778691A publication Critical patent/CN113778691A/zh
Application granted granted Critical
Publication of CN113778691B publication Critical patent/CN113778691B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system
    • G06F9/5088Techniques for rebalancing the load in a distributed system involving task migration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明提供了一种任务迁移决策的方法、装置及系统,其中,该方法包括:获取多个终端上传的至少一个时段的本地经验信息,将同一时段的多个本地经验信息进行整合,生成时段的全局经验信息;将从多个时段的全局经验信息中选取来自不同决策组的训练参数进行整合,生成训练经验信息,并根据训练经验信息对所有在线执行网络进行训练,确定每个在线执行网络的网络参数;根据终端的分组信息,将决策组对应的网络参数发送至决策组中的终端。通过本发明实施例提供的任务迁移决策的方法、装置及系统,能够更新大量终端的网络参数,提高了训练的稳定性和训练结果的性能,可以保证终端的任务迁移决策效果。

Description

一种任务迁移决策的方法、装置及系统
技术领域
本发明涉及无线通信技术领域,具体而言,涉及一种任务迁移决策的方法、装置及系统。
背景技术
随着移动通信技术的发展,特别是5G时代的到来,移动设备的数量预计将出现爆炸式增长。同时,由于终端设备的发展和用户需求的增加,一些计算密集型的任务也应运而生,如增强现实(AR)、虚拟现实(VR)、在线人工智能和物联网。这些新型的任务通常需要对大量数据进行处理并且对延时敏感,而终端设备一般是资源受限的低功耗设备。仅仅依靠终端本地的有限的计算能力很难满足需求,因此人们提出移动边缘计算的方法来解决移动终端资源受限的问题。
移动边缘计算不同于传统的云计算数据中心,其将计算服务器转移到网络边缘的基站。因此,移动用户可以直接将计算工作负载转移到与基站相关联的MEC(Mobile EdgeComputing,移动边缘计算)服务器上,不仅显著的减低了延时和功耗,而且减低了核心网的负载。在移动边缘计算系统中,功率受限的移动终端将不仅通过本地的计算资源处理数据,同样可以通过无线信道将需要计算的数据资源迁移到基站端进行处理。对于移动用户,其主要关注点是移动终端的功率开销和延时,其中,移动终端过高的功率开销会导致其待机时间变短,进而影响用户体验,同样过高的延时也会导致用户的体验变差。所以对于移动终端而言,如何合理地对本地计算和迁移计算的决策可以在保证延时的情况下达到功率的最低便是一项值得研究的课题。
为了解决边缘计算系统中计算迁移和本地处理的功率分配问题,很多传统的方法已经被研究。如以凸优化对偶理论为基础,引入椭球法来决定本地处理的计算迁移的功率,进一步最小化能量消耗,其相比于全部迁移或全部本地处理有明显的功耗降低;除此之外,李雅普诺夫最优化理论也被用于MEC系统中来获取分布式的能量管理优化方法,即通过本地处理和计算迁移的合理功率分配来管理各用户的能量消耗。
进一步的,深度强化学习同样也被用于解决该问题。该方法可以在没有系统的先验知识下学习到动态的计算迁移策略,可以避免传统算法在复杂环境下的建模问题。比如利用Deep Q Network(DQN)算法来学习在任务不可分割的MEC系统中的迁移算法来使延时的功耗最小,其相比于贪婪算法和Q-learn算法有明显的优势。
但是无论是传统的算法还是深度强化学习方法在学习迁移策略时都没有考虑的多用户之间的合作和竞争,在系统的总的开销(延时和功耗)方面不一定是最优的。当应用于基于NOMA(非正交多址接入)的MEC系统时,由于用户之间存在严重干扰,其迁移算法可能无法有效进行决策甚至出现训练不稳定。
发明内容
为解决现有存在的技术问题,本发明实施例提供一种任务迁移决策的方法、装置及系统。
第一方面,本发明实施例提供了一种任务迁移决策的方法,包括:
获取多个终端上传的至少一个时段的本地经验信息,将同一所述时段的多个所述本地经验信息进行整合,生成所述时段的全局经验信息;其中,终端d在时段t的所述本地经验信息包括:所述时段t的状态参数sd,t、所述时段t的决策参数ad,t、所述时段t的奖励参数rd,t和时段t+1的状态参数sd,t+1;所述决策参数ad,t包括所述终端d在时段t的本地处理功率pl,d(t),以及所述终端d在时段t的迁移计算功率po,d(t);所述时段t的所述全局经验信息包括:所述时段t的全局状态向量
Figure 100002_DEST_PATH_IMAGE002
、所述时段t的全局决策向量
Figure 100002_DEST_PATH_IMAGE004
、所述时段t的全局奖励向量
Figure 100002_DEST_PATH_IMAGE006
以及所述时段t+1的全局状态向量
Figure 100002_DEST_PATH_IMAGE008
,M为终端总数量,且d∈[1,M];
为了解决大规模用户下系统维护和训练的存储和计算开销问题,本发明实施例根据每个所述终端的信道衰落和任务达到速率,将多个所述终端分为G个决策组,为每个所述决策组设置在线执行网络,不同的所述在线执行网络具有相同的结构;同时,分组的策略可以有效地应对终端数量的变化,对于加入通信系统的新用户终端,可以通过分组策略将其分至最相似的组中,同时后续的训练也会利用该新用户终端的信息,从而逐渐使其性能达到较优;
将从多个所述时段的所述全局经验信息中选取来自不同所述决策组的训练参数进行整合,生成训练经验信息,并根据所述训练经验信息对所有所述在线执行网络进行训练,确定每个所述在线执行网络的网络参数;
根据终端的分组信息,将所述决策组对应的所述网络参数发送至所述决策组中的所述终端,指示所述终端根据所述边缘服务器发送的所述网络参数更新本地执行网络,所述本地执行网络与所述在线执行网络的结构相同,且所述本地执行网络的输入为所述终端的状态参数,输出为所述终端的决策参数;其中,属于同一所述决策组的不同终端的所述本地执行网络的网络参数相同。
第二方面,本发明实施例还提供了一种任务迁移决策的装置,设置在边缘服务器侧,包括:
整合模块,用于获取多个终端上传的至少一个时段的本地经验信息,将同一所述时段的多个所述本地经验信息进行整合,生成所述时段的全局经验信息;其中,终端d在时段t的所述本地经验信息包括:所述时段t的状态参数sd,t、所述时段t的决策参数ad,t、所述时段t的奖励参数rd,t和时段t+1的状态参数sd,t+1;所述决策参数ad,t包括所述终端d在时段t的本地处理功率pl,d(t),以及所述终端d在时段t的迁移计算功率po,d(t);所述时段t的所述全局经验信息包括:所述时段t的全局状态向量
Figure 100002_DEST_PATH_IMAGE010
、所述时段t的全局决策向量
Figure 100002_DEST_PATH_IMAGE012
、所述时段t的全局奖励向量
Figure 100002_DEST_PATH_IMAGE014
以及所述时段t+1的全局状态向量
Figure 100002_DEST_PATH_IMAGE016
,M为终端总数量,且d∈[1,M];
分组模块,用于根据每个所述终端的信道衰落和任务达到速率,将多个所述终端分为G个决策组,为每个所述决策组设置在线执行网络,不同的所述在线执行网络具有相同的结构;
训练模块,用于将从多个所述时段的所述全局经验信息中选取来自不同所述决策组的训练参数进行整合,生成训练经验信息,并根据所述训练经验信息对所有所述在线执行网络进行训练,确定每个所述在线执行网络的网络参数;
参数发送模块,用于根据终端的分组信息,将所述决策组对应的所述网络参数发送至所述决策组中的所述终端,指示所述终端根据所述边缘服务器发送的所述网络参数更新本地执行网络,所述本地执行网络与所述在线执行网络的结构相同,且所述本地执行网络的输入为所述终端的状态参数,输出为所述终端的决策参数;其中,属于同一所述决策组的不同终端的所述本地执行网络的网络参数相同。
第三方面,本发明实施例还提供了一种任务迁移决策的系统,包括边缘服务器和接入所述边缘服务器的终端;所述边缘服务器用于执行如上所述的任务迁移决策的方法。
本发明实施例提供的任务迁移决策的方法、装置及系统,边缘服务器将多个终端上传的本地经验信息重新整合为以时段为单位的全局经验信息,基于该全局经验信息可以对多个在线执行网络进行中心化训练,并训练得到每个在线执行网络对应的分布式的迁移算法,通过更新终端的本地执行网络的方式向终端下发迁移算法,实现多终端分布式执行。将终端分为多个决策组,可以为信道衰落和任务达到速率相似的终端设置相同的在线执行网络,能够更新大量终端的网络参数,也可以保证终端的任务迁移决策效果,适用于终端规模较大的情况。该中心化训练的方式能够考虑不同用户间的干扰和竞争,提高了训练的稳定性和训练结果的性能,能够应对终端间的强干扰;尤其是对于终端间存在强干扰的NOMA系统,可以稳定地训练出相比非合作式深度强化学习更优的迁移算法,从而可以优化终端的能耗和延时。终端分布式执行有效提高计策的实时性,减低终端延时,同时避免终端进行计算密集型的训练任务,有效减低终端的功耗。分组的策略可以有效地应对终端数量的变化,对于加入通信系统的新用户终端,可以通过分组策略将其分至最相似的组中,同时后续的训练也会利用该新用户终端的信息,从而逐渐使其性能达到较优。
附图说明
为了更清楚地说明本发明实施例或背景技术中的技术方案,下面将对本发明实施例或背景技术中所需要使用的附图进行说明。
图1示出了本发明实施例所提供的边缘服务器实现的任务迁移决策的方法的流程图;
图2示出了本发明实施例所提供的终端实现的任务迁移决策的方法的流程图;
图3示出了本发明实施例所提供的任务迁移决策的方法的一种应用场景示意图;
图4A示出了本发明实施例所提供的任务迁移决策的一种整体方法流程图;
图4B示出了本发明实施例所提供的一种训练结果的示意图;
图5示出了本发明实施例所提供的一种任务迁移决策的装置的结构示意图;
图6示出了本发明实施例所提供的一种用于执行任务迁移决策的方法的电子设备的结构示意图。
具体实施方式
下面结合本发明实施例中的附图对本发明实施例进行描述。
在由基站等边缘服务器向用户提供迁移算法的情况下,若用户终端数量较多、规模较大,对于深度学习方法而言,为每一个用户终端维持和训练一个神经网络会导致系统的存储和计算开销很大。本发明实施例提供了一种任务迁移决策,以能够适应大规模用户终端的情况。其中,该方法由边缘服务器执行,如图1所示,该方法包括:
步骤101:获取多个终端上传的至少一个时段的本地经验信息,将同一时段的多个本地经验信息进行整合,生成该时段的全局经验信息。
其中,终端d在时段t的本地经验信息包括:时段t的状态参数sd,t、时段t的决策参数ad,t、时段t的奖励参数rd,t和时段t+1的状态参数sd,t+1;决策参数ad,t包括终端d在时段t的本地处理功率pl,d(t),以及终端d在时段t的迁移计算功率po,d(t);时段t的全局经验信息包括:时段t的全局状态向量
Figure 100002_DEST_PATH_IMAGE018
、时段t的全局决策向量
Figure 100002_DEST_PATH_IMAGE020
、时段t的全局奖励向量
Figure 100002_DEST_PATH_IMAGE022
以及时段t+1的全局状态向量
Figure 100002_DEST_PATH_IMAGE024
,M为终端总数量,且d∈[1,M]。
本发明实施例中,若M个终端接入该边缘服务器,每个终端在每个时段会将相应的本地经验信息发送至边缘服务器,该边缘服务器能够以时段为单位,将同一时段的本地经验信息整合为一组全局经验信息。例如,在时段t,每个终端d(d∈[1,M])向边缘服务器上传时段t状态参数sd,t、时段t的决策参数ad,t、时段t的奖励参数rd,t和时段t+1的状态参数sd,t+1,边缘服务器可以接收到M个终端上传的所有信息{s1,t, a1,t, r1,t, s1,t+1}、…、{sd,t,ad,t, rd,t, sd,t+1}、…、{sM,t, aM,t, rM,t, sM,t+1},通过对该时段t的所有本地经验信息进行整合,即可确定时段t的全局经验信息
Figure 100002_DEST_PATH_IMAGE026
,且
Figure 100002_DEST_PATH_IMAGE028
Figure 100002_DEST_PATH_IMAGE030
Figure 100002_DEST_PATH_IMAGE032
Figure 100002_DEST_PATH_IMAGE034
步骤102:根据每个终端的信道衰落参数n和任务达到速率m,将多个终端分为G个决策组,为每个决策组设置在线执行网络,不同的在线执行网络具有相同的结构。其中可以利用K-mean的聚类方式对所有终端进行分组。具体而言,将所有终端根据(n,m)将其绘制在二维坐标系中,设置合适的分组个数G和初始的聚类中心,后续根据每个样本到其聚类中心的距离将其分到对应的聚类中,然后重新计算聚类中心,多次迭代直至完成终端的分类。其中,该任务到达速率可以为平均任务到达速率。
本发明实施例中,可以对多个终端(例如M个终端)按照信道衰落和任务达到速率进行分组,共分为G组,每个分组为一个决策组,对于其中任意一个决策组k(
Figure 100002_DEST_PATH_IMAGE036
),其包含的用户数为
Figure 100002_DEST_PATH_IMAGE038
;若将M个终端分为G组,则有
Figure 100002_DEST_PATH_IMAGE040
本发明实施例中,边缘服务器至少为每个决策组k均设置相应的在线执行网络,且不同决策组对应的在线执行网络的结构相同。例如,若决策组的总数量为G,则边缘服务器至少设置G个在线执行网络。不同的在线执行网络,其网络结构相同,但所具有的网络参数一般不同。
此外,每个决策组k中的终端在信道衰落和任务达到速率上具有相似性,故同一决策组中的不同终端,采用参数共享的方法,即同一决策组中所有终端的本地执行网络采用相同的网络参数,共享一个计算迁移策略。对于不同的决策组k,其信道衰落和任务达到速率等具有较大的差异性,在策略的选取上应当具有差异性。本发明实施例中,分组的方式减少了边缘服务器端训练网络的数目,减低了训练的开销,能够应对大规模用户终端的情景。对于同一分组中的终端,其具有相似的信道衰落和任务达到速率,可以通过参数共享的方式来使用相同的决策策略。尤其在具有较大的终端规模的情况下,参数共享可以有效降低边缘服务器上的在线执行网络的数目,进一步大幅度降低训练的规模和开销。
步骤103:将从多个时段的全局经验信息中选取来自不同决策组的训练参数进行整合,生成训练经验信息,并根据训练经验信息对所有在线执行网络进行训练,确定每个在线执行网络的网络参数。
本发明实施例中,边缘服务器在获取到多个时段的全局经验信息后,即可根据该多个时段的全局经验信息对每个在线执行网络进行训练,从而可以更新每个在线执行网络的网络参数;一般情况下,不同的在线执行网络具有不同的网络参数。在需要训练在线执行网络时,从全局经验信息中为每一决策组选取出相应的训练参数,从而整合成训练经验信息,基于该训练经验信息进行训练,以确定每个在线执行网络的网络参数。其中,生成训练经验信息的过程可参见下述的步骤1031。本实施例通过采样的方式,从全局经验信息中选取出部分参数(即训练参数)来训练在线执行网络,可以简化训练过程,提高训练效率。
步骤104:根据终端的分组信息,将决策组对应的网络参数发送至决策组中的终端,指示终端根据边缘服务器发送的网络参数更新本地执行网络,本地执行网络与在线执行网络的结构相同,且本地执行网络的输入为终端的状态参数,输出为终端的决策参数;其中,属于同一决策组的不同终端的本地执行网络的网络参数相同。
本发明实施例中,每个终端也设有与在线执行网络结构相同的执行网络,即本地执行网络;边缘服务器在更新每个在线执行网络的网络参数之后,即可更新每个决策组的在线执行网络的网络参数,并将更新后的网络参数发送到属于该决策组的任意终端,使得终端可以更新自身的本地执行网络,进而该终端可以基于更新后的本地执行网络确定决策参数,并执行相应的任务迁移操作;并且,该终端也可以将决策参数再发送到边缘服务器,使得边缘服务器可以再次训练在线执行网络。其中,属于同一决策组的每个终端的本地执行网络具有相同的网络参数。
本发明实施例提供的一种任务迁移决策的方法,边缘服务器将多个终端上传的本地经验信息重新整合为以时段为单位的全局经验信息,基于该全局经验信息可以对多个在线执行网络进行中心化训练,并训练得到每个在线执行网络对应的分布式的迁移算法,通过更新终端的本地执行网络的方式向终端下发迁移算法,实现多终端分布式执行。将终端分为多个决策组,可以为信道衰落和任务达到速率相似的终端设置相同的在线执行网络,能够更新大量终端的网络参数,也可以保证终端的任务迁移决策效果。该中心化训练的方式能够考虑不同用户间的干扰和竞争,提高了训练的稳定性和训练结果的性能,能够应对终端间的强干扰;尤其是对于终端间存在强干扰的NOMA系统,可以稳定地训练出相比非合作式深度强化学习更优的迁移算法,从而可以优化终端的能耗和延时。终端分布式执行有效提高计策的实时性,减低终端延时,同时避免终端进行计算密集型的训练任务,有效减低终端的功耗。
在具有较大的终端规模的情况下,参数共享的采用可以有效降低边缘服务器上的在线执行网络的数目,进一步大幅度降低训练的规模和开销;此外,分组策略有效地保证了系统的可拓展性,对于新加入的终端,可以根据其信道衰落和任务达到速率将其分组到对应的决策组,而不用对边缘服务器的训练方式和结构进行较大调整。在新终端加入后,也可以通过采样式的训练方式可以将新终端的经验信息加入后续的网络训练中。
在上述实施例的基础上,接入该边缘服务器的任意终端可以基于边缘服务器发送的网络参数更新本地执行网络,执行任务迁移决策操作,并能够将该过程所确定的本地经验信息上传至边缘服务器。具体地,终端中本地执行网络的网络参数是动态调整的,参见图2所示,终端实现任务迁移决策的过程包括:
步骤201:获取边缘服务器发送的网络参数,网络参数为边缘服务器基于该终端和其他终端之前上传的本地经验信息训练相应的在线执行网络所得到的参数。
步骤202:根据边缘服务器发送的网络参数更新本地执行网络,本地执行网络与在线执行网络的结构相同,且本地执行网络的输入为终端的状态参数,输出为终端的决策参数。
本发明实施例中,包含该终端在内的多个终端均可接入边缘服务器,且所有的终端每间隔一段时间可以将本地观测到的本地经验信息发送至该边缘服务器,使得边缘服务器可以基于多个终端上传的本地经验信息训练相应的在线执行网络,进而得到该在线执行网络的网络参数,并将该网络参数下发至相应的终端;并且,终端设有与该在线执行网络结构相同的执行网络,即本地执行网络,终端在接收到该网络参数后,即可基于该网络参数更新本地执行网络的参数,使得本地执行网络与实时训练好的在线执行网络的结构和参数均一致。其中,本地执行网络和在线执行网络均为一种执行网络,例如Actor网络等。
边缘服务器为可以执行边缘计算、且具有一定处理能力的设备,例如基站等,该边缘服务器可以接入多个终端。例如,基站接入有M个终端,对于M个终端中的终端d,其可以每间隔一段时间(例如周期性地)将本地经验信息上传至基站,使得基站可以更新该终端d对应的在线执行网络。对于M个终端中的其他终端,其也可以向基站上传本地经验信息,此处不做赘述。其中,本地经验信息为终端在一段时间内观测到的信息集合,后续将对该本地经验信息展开详细解释。
其中,上述步骤202“根据边缘服务器发送的网络参数更新本地执行网络”,包括:
对于属于决策组k的终端d,终端d根据上一时段边缘服务器发送的决策组k训练后的网络参数
Figure 100002_DEST_PATH_IMAGE042
更新本地执行网络
Figure 100002_DEST_PATH_IMAGE044
的网络参数
Figure 100002_DEST_PATH_IMAGE046
,且更新公式如下:
Figure 100002_DEST_PATH_IMAGE048
步骤203:确定在当前时段终端的当前状态参数,将当前状态参数输入至本地执行网络,确定当前决策参数,并执行与当前决策参数相应的任务迁移操作;当前决策参数包括在当前时段的本地处理功率和迁移计算功率。
本发明实施例中,终端可以每间隔一段时间即可执行任务迁移决策;以当前时段为例,终端可以确定当前时段的状态参数,即当前状态参数。其中,状态参数用于表示该终端在某个时段的状态,该状态参数可以包括本地任务缓冲区的队列长度、信道矢量、边缘服务器接收到的归一化信噪比(SINR)、该终端收到的干扰和、该终端对其他终端造成的干扰和、该终端的任务到达平均速率等。此外,本地执行网络基于该状态参数也可以确定相应时段的决策参数,即该本地执行网络的输入为终端的状态参数,输出为终端的决策参数。相应地,在确定该终端的当前状态参数之后,将该当前状态参数输入至本地执行网络,即可以确定当前时段的决策参数,即当前决策参数。其中,时段为一个时间段,例如,一个时段可以为一个时隙,其对应1ms的时长。
本发明实施例中,该决策参数用于执行任务迁移操作,该决策参数包括在相应时段的本地处理功率和迁移计算功率,通过本地处理功率和迁移计算功率的大小即可确定需要将哪些任务迁移至服务器侧(例如边缘服务器等)进行计算,哪些任务可以直接在本地计算。
例如,若执行该方法的终端为属于决策组k的终端d,在当前时段为时段t的情况下,可以将终端d的当前状态参数sd,t输入至本地执行网络
Figure 100002_DEST_PATH_IMAGE050
,确定本地执行网络
Figure 949627DEST_PATH_IMAGE050
的输出
Figure 100002_DEST_PATH_IMAGE052
;其中,
Figure 100002_DEST_PATH_IMAGE054
表示本地执行网络
Figure 742134DEST_PATH_IMAGE050
的网络参数。之后生成当前决策参数ad,t,且
Figure 100002_DEST_PATH_IMAGE056
;其中,Δμ为随机扰动。需要说明的是,由于不同的终端可能被分至同一决策组,而每个决策组内的所有终端的本地执行网络是相同的;故对于属于决策组k的终端d,其本地执行网络可以用
Figure 895772DEST_PATH_IMAGE050
表示,也可以用
Figure 100002_DEST_PATH_IMAGE058
表示,两种不同的表示方式并不意味着本地执行网络不同。
本发明实施例中,为当前决策参数ad,t增加随机扰动Δμ,可以扩展训练时的探索空间,提高训练效果。其中,当前决策参数ad,t包括终端d在时段t的本地处理功率pl,d(t)和迁移计算功率po,d(t),终端d基于该本地处理功率pl,d(t)和迁移计算功率po,d(t)即可执行计算迁移的操作。一般情况下,本地处理具有最大功率Pl,d,迁移计算具有最大功率Po,d;即,pl,d(t)∈[0, Pl,d],po,d(t)∈[0, Po,d]。
需要说明的是,对于网络G,若其网络参数为θG,其输入为x,则本实施例中将该网络G的输出表示为G(x|θG);其中,网络G具有运算函数G( )的功能。上述的本地执行网络以及下述的其他网络,均采用如上的表示方式。
步骤204:根据当前决策参数确定在当前时段的当前奖励参数,并确定在下一时段终端的下一状态参数。
本发明实施例中,在每个时段,可以基于相应的决策参数来计算相应的奖励参数;例如,可以根据当前决策参数计算当前时段的奖励参数,即当前奖励参数。其中,该奖励参数用于表示相应的决策参数所返回的短期奖励,考虑到最小化系统在功耗和延时方面的长期开销,奖励函数定义为功耗和延时的加权和;例如,终端d在时段t的奖励可以表示为:
Figure 100002_DEST_PATH_IMAGE060
其中,wd,1、wd,2为预设的加权因子,pl,d(t)表示终端d在时段t的本地处理功率,po,d(t)表示终端d在时段t的迁移计算功率,Bd(t)表示终端d在时段t的本地任务缓冲区的队列长度,其能够代表时延。
此外,本发明实施例还确定下一时段的状态参数,即下一状态参数;其中,下一状态参数与当前状态参数均为状态参数。例如,若当前状态参数为sd,t,则下一时段为时段t+1,相应的下一状态参数可以表示为sd,t+1
步骤205:将包含当前状态参数、当前决策参数、当前奖励参数和下一状态参数的本地经验信息发送至边缘服务器。
本发明实施例中,在确定当前时段的当前状态参数、当前决策参数、当前奖励参数和下一时段的下一状态参数后,可以生成包含该当前状态参数、当前决策参数、当前奖励参数和下一状态参数的本地经验信息,并将该当前时段对应的本地经验信息发送至边缘服务器,例如,在时段t末(或者时段t+1初),终端d收集本地信息,其中包括状态参数
Figure 100002_DEST_PATH_IMAGE062
,状态参数
Figure 100002_DEST_PATH_IMAGE064
,决策参数
Figure 100002_DEST_PATH_IMAGE066
和奖励参数
Figure 347439DEST_PATH_IMAGE062
,并将其组成经验信息
Figure 100002_DEST_PATH_IMAGE068
上传到边缘服务器,使得边缘服务器可以基于该当前时段多个终端上传的本地经验信息训练边缘服务器中的在线执行网络并更新,进而可以确定更新后的在线执行网络的网络参数,并将该网络参数返回给终端,实现对终端的本地执行网络的更新。在之后的时段,上述所谓的当前时段对应的本地经验信息即为该终端之前上传至边缘服务器的本地经验信息。
本发明实施例中,终端可以向边缘服务器发送本地经验信息,使得边缘服务器可以结合多个终端的本地经验信息进行中心化训练,训练得到分布式的迁移算法,通过更新终端的本地执行网络的方式向终端下发迁移算法,实现多终端分布式执行。本地经验信息中包含本地执行网络输出的决策参数,使得边缘服务器能够基于执行网络实际的输出结果进行训练,能够提高训练效果。该中心化训练的方式能够考虑不同用户间的干扰和竞争,从而可以优化能耗和延时;终端不需要执行开销大的训练,也能够优化终端的性能。
在上述实施例的基础上,如上所述,状态参数可以包括本地任务缓冲区的队列长度、信道矢量、边缘服务器接收到的归一化信噪比(SINR)、该终端收到的干扰和、该终端对其他终端造成的干扰和、该终端的任务到达平均速率等。对于终端d,若当前时段为时段t,则终端d的当前状态参数为状态参数sd,t。本发明实施例中,状态参数sd,t包括:终端d在时段t的本地任务缓冲区的队列长度Bd(t)、终端d在时段t的信道矢量hd(t)、上一时段边缘服务器接收到所述终端d信号的归一化信噪比γd(t-1)、上一时段终端d收到的干扰和ϕd(t-1)、上一时段终端d对其他终端造成的干扰和ηd(t-1)以及终端d的任务到达平均速率λd。其中,每个参数的一种具体含义可以如下:
Figure 100002_DEST_PATH_IMAGE070
其中,dl,d(t-1)表示终端d在上一时段本地计算的数据量,do,d(t-1)表示终端d在上一时段迁移计算的数据量,ad(t-1)表示终端d在上一时段的任务到达量。
Figure 100002_DEST_PATH_IMAGE072
其中,ρd表示终端d的归一化信道相关系数,ed(t)表示终端d的误差向量。
Figure 100002_DEST_PATH_IMAGE074
Figure 100002_DEST_PATH_IMAGE076
Figure 100002_DEST_PATH_IMAGE078
其中,
Figure 100002_DEST_PATH_IMAGE080
表示噪声功率,I为单位矩阵,po,i(t)表示终端i在时段t的发射功率,hi(t)表示终端i在时段t的信道矢量;ϕi(t)表示终端i在时段t收到的干扰和,po,d(t)表示终端d在时段t的发射功率,
Figure 100002_DEST_PATH_IMAGE082
表示在po,d(t)=0的情况下终端i在时段t收到的干扰和;在i∈[1,m]时,终端i的信号强度小于终端d的信号强度,m为信号强度小于终端d的其他终端的数量;在i∈[m+2,M]时,终端i的信号强度大于终端d的信号强度,M为终端总数量。
本发明实施例中,可以基于上一时段本地计算的数据量dl,d(t-1)和迁移计算的数据量do,d(t-1)等来确定本地任务缓冲区的队列长度Bd(t);其中,可以基于边缘服务器确定每个终端(包括终端d)在上一时段t-1的数据量接收速率,且终端d对应的数据量接收速率为rd(t-1),则上一时段的迁移计算的数据量do,d(t-1)=Δt×rd(t-1),该Δt表示一个时段对应的时长。
对于本地处理,根据动态电压频率调整技术,可以得到在本地处理功耗为pl,d(t-1)时处理的数据量dl,d(t-1)表示为:
Figure 100002_DEST_PATH_IMAGE084
其中,τ0表示时隙长度,Cd表示在终端d,每个任务bit需要的CPU周期数,κ表示有效切换电容。
并且,信道矢量hd(t)可以根据上一时刻的信道矢量hd(t-1)进行估计;基于上一时段t-1的信道矢量hd(t-1),以及其他终端i的信道矢量hi(t-1)可以确定时段t的信道矢量hd(t)、上一时段边缘服务器接收到的归一化信噪比γd(t-1)、上一时段终端d收到的干扰和ϕd(t-1)、上一时段终端d对其他终端造成的干扰和ηd(t-1)等,详见上述表述的公式。其中,在M个终端中,若存在m个其他终端,其信号强度小于该终端d的信号强度;相应的,存在M-m-1个其他终端,其信号强度大于该终端d的信号强度。即,若对M个终端按照信号强度从小到大进行排列,则该终端d为第m+1个终端,其前面的m个终端(终端1至终端m)的信号强度较小,后面的M-m-1个终端(终端m+2至终端M)的信号强度较大。
该任务到达平均速率λd可以根据之前时刻的任务到达情况进行估计。一般情况下,任务到达量ad(t)遵循均值为该λd的泊松分布,即ad(t)∼Pois(λd)。
此外,上面示出了时段t的γd(t)、ϕd(t)、ηd(t)的计算方式,基于此,本领域技术人员可以知道如何计算上一时段t-1的γd(t-1)、ϕd(t-1)、ηd(t-1),此处不做详述。在条件允许的情况,也可以采用其他方式计算时段t的γd(t)、ϕd(t)、ηd(t)等,本实施例对此不作限定。本发明实施例中,状态参数包括本地本身的参数,以及由边缘服务器返回的与其他终端相关的参数,例如上一时段终端d收到的干扰和ϕd(t-1)、上一时段终端d对其他终端造成的干扰和ηd(t-1)等,使得边缘服务器的训练包含其他用户的相关信息,能够充分考虑用户之间的协作和竞争。
可选地,当存在新增的终端需要接入该边缘服务器时,在不改变边缘服务器的情况下,可以很容易地接入该新增的终端。此时,新增的终端用于将本身的信道衰落和任务达到速率上传到边缘服务器;边缘服务器还用于根据新增的终端的信道衰落和任务达到速率确定新增的终端所属的决策组,并根据决策组的网络参数更新新增的终端的本地执行网络的网络参数,将新增的终端作为接入边缘服务器的一个终端。
本发明实施例中,在确定新增的终端所属的决策组之后,即可将该新增的终端作为与已经接入终端服务器的其他终端相似的终端,即该新增的终端也可以通过执行上述步骤201-205等实现计算迁移决策。一般情况下,决策组的数量G是不变的。分组的策略可以有效地应对终端数量的变化,对于加入通信系统的新用户终端,可以通过分组策略将其分至最相似的组中,同时后续的训练也会利用该新用户终端的信息,从而逐渐使其性能达到较优。
在上述实施例的基础上,边缘服务器为每个在线执行网络设置相应的在线评价网络,用于实现辅助训练。具体地,上述步骤103“将从多个时段的全局经验信息中选取来自不同决策组的训练参数进行整合,生成训练经验信息,并根据训练经验信息对所有在线执行网络进行训练,确定每个在线执行网络的网络参数”包括:
步骤1031:为每个决策组k的在线执行网络μk设置在线评价网络Qk;其中,在线执行网络μk的输入为决策组k中某个终端在时段i的状态参数
Figure 100002_DEST_PATH_IMAGE086
,输出为
Figure 100002_DEST_PATH_IMAGE088
Figure 100002_DEST_PATH_IMAGE090
表示在线执行网络μk的网络参数;在线评价网络Qk的输入为在时段i的训练状态向量si和训练决策向量ai,输出为
Figure 100002_DEST_PATH_IMAGE092
Figure 100002_DEST_PATH_IMAGE094
表示在线评价网络Qk的网络参数。
本发明实施例中,将决策组k对应的在线执行网络表示为μk,并且为每个在线执行网络μk设置相应的在线评价网络Qk。若在线执行网络μk的输入为决策组k在时段i的状态参数
Figure 971931DEST_PATH_IMAGE086
,则其输出为
Figure 794393DEST_PATH_IMAGE088
;若在线评价网络Qk的输入为在时段i的训练状态向量si和训练决策向量ai,则输出为
Figure 378871DEST_PATH_IMAGE092
。其中,该训练状态向量si和训练决策向量ai均为训练经验信息中的一部分。该边缘服务器的一种结构可参见图3所示,图3以边缘服务器为基站为例说明,对于M个终端,其被分为G组,终端1为决策组1的一个终端,终端d为决策组k的一个终端,终端M为决策组G的一个终端。该边缘服务器分别设有G个在线执行网络μ12,…,μk,…,μG和G个在线评价网络Q1,Q2,…,Qk,…,QG,每个在线评价网络Qk对应一个在线执行网络μk。其中,在线评价网络为一种评价网络,具体可以为Critic网络。
步骤1032:根据每个决策组k的随机变量Zk,从全局经验信息中随机选取决策组k的训练参数,生成每个时段的训练经验信息;其中,Zk∈{1,2,3,…,Mk},Mk表示决策组k中的终端数量,且时段i的训练经验信息包括:时段i的训练状态向量
Figure 100002_DEST_PATH_IMAGE096
、时段i的训练决策向量
Figure 100002_DEST_PATH_IMAGE098
、时段i的训练奖励向量
Figure DEST_PATH_IMAGE100
以及时段i+1的训练状态向量
Figure DEST_PATH_IMAGE102
。其中,
Figure 889355DEST_PATH_IMAGE086
表示属于决策组k的终端Zk在时段i的状态参数,
Figure DEST_PATH_IMAGE104
表示属于决策组k的终端Zk在时段i的决策参数,
Figure DEST_PATH_IMAGE106
表示属于决策组k的终端Zk在时段i的奖励参数,
Figure DEST_PATH_IMAGE108
表示属于决策组k的终端Zk在时段i+1的状态参数。
本发明实施例中,在需要训练时,从全局经验信息
Figure DEST_PATH_IMAGE110
中为每一决策组随机选取出相应的训练参数。具体地,其中,将决策组所对应的一个参数作为随机选取出来的一个训练参数,全局经验信息包括四种参数(时段t的状态参数、时段t的决策参数、时段t的奖励参数和时段t+1的状态参数)的集合,故可以为每个决策组选出四个训练参数。其中,每个决策组包含一个或多个终端,对于全局经验信息中的任意一种参数,也可以按照决策组进行划分。例如,决策组k包含的终端数为Mk,对于时段i的全局状态向量
Figure DEST_PATH_IMAGE112
,其中与该决策组k相对应的状态参数可以是sp+1,i,sp+2,i,…,sp+Mk,i共Mk个参数,可以从Mk个参数中随机选取出一个作为该决策组的一个训练参数。
具体地,可以采用随机采样的方式,从决策组的所有终端的参数中选取一个参数作为相应的训练参数。例如,为决策组设置至少一个随机变量Zk,Zk∈{1,2,3,…,Mk},Mk表示决策组k中的终端数量;例如,决策组k中包含100个终端(即Mk=100),则可以随机生成1-100的一个整数作为随机变量Zk。将属于决策组k的某个终端Zk在时段i的状态参数sa,i作为该决策组k的状态参数
Figure 620551DEST_PATH_IMAGE086
,将属于决策组k的某个终端Zk在时段i的决策参数ab,i作为该决策组k的决策参数
Figure 676232DEST_PATH_IMAGE104
,将属于决策组k的某个终端Zk在时段i的奖励参数rc,i作为该决策组k的奖励参数
Figure 430561DEST_PATH_IMAGE106
,将属于决策组k的某个终端Zk在时段i+1的状态参数sd,i+1作为该决策组k的状态参数
Figure 479157DEST_PATH_IMAGE108
。以此确定的状态参数
Figure 64859DEST_PATH_IMAGE086
、决策参数
Figure 307753DEST_PATH_IMAGE104
、奖励参数
Figure 611695DEST_PATH_IMAGE106
、状态参数
Figure 28481DEST_PATH_IMAGE108
即为该决策组k的四个训练参数。
在确定每个决策组的训练参数之后,即可将所有决策组的训练参数组合成训练时所需的训练经验信息。与全局经验信息类似,该训练经验信息也是以时段为单位进行组合的,具体地,时段i的训练经验信息包括时段i的训练状态向量
Figure DEST_PATH_IMAGE114
、时段i的训练决策向量
Figure DEST_PATH_IMAGE116
、时段i的训练奖励向量
Figure DEST_PATH_IMAGE118
以及时段i+1的训练状态向量
Figure DEST_PATH_IMAGE120
,每个向量中包含G个参数。
其中,在训练时,可以选取多个时段的训练经验信息生成训练集;例如,若需要T组训练经验信息,则选取的训练集A可以表示为
Figure DEST_PATH_IMAGE122
,基于该训练集A对在线执行网络进行训练。
步骤1033:对于每个决策组k,通过最小化损失函数更新在线评价网络Qk的网络参数
Figure 921220DEST_PATH_IMAGE094
,并利用更新后的网络参数
Figure 318703DEST_PATH_IMAGE094
,通过策略梯度更新在线执行网络μk的网络参数
Figure 860674DEST_PATH_IMAGE090
本发明实施例中,首先利用最小化损失函数确定在线评价网络Qk更新后的网络参数
Figure 1806DEST_PATH_IMAGE094
,之后再基于策略梯度更新在线执行网络μk的网络参数
Figure 499783DEST_PATH_IMAGE090
。在确定该网络参数
Figure 583014DEST_PATH_IMAGE090
之后,即可更新决策组k的本地执行网络
Figure 595970DEST_PATH_IMAGE058
的网络参数
Figure DEST_PATH_IMAGE124
,即
Figure DEST_PATH_IMAGE126
。其中,“←”表示将后者赋值给前者。
此外可选地,本发明实施例中,边缘服务器还为每个在线网络设置相应的目标网络,例如,为在线执行网络μk设置目标执行网络μ' k,为在线评价网络Qk设置目标评价网络Q' k,以实现训练过程。具体的,上述步骤1033“通过最小化损失函数更新在线评价网络Qk的网络参数
Figure 353841DEST_PATH_IMAGE094
”包括:
步骤B1:基于为每个决策组k预设的目标执行网络μ' k确定时段i的第一决策预测参数a'k,i,并生成第一决策预测向量a' i=(a'1,i,a'2,i,…,a'G,i);其中,目标执行网络μ' k的输入为决策组k在时段i+1的状态参数
Figure 17910DEST_PATH_IMAGE108
,输出
Figure DEST_PATH_IMAGE128
为第一决策预测参数a'k,i
Figure DEST_PATH_IMAGE130
表示目标执行网络的网络参数;目标执行网络μ' k与在线执行网络μk的结构相同。
本发明实施例中,与本地执行网络类似,在线执行网络μk和目标执行网络μ' k均用于预测相应的决策参数;例如,目标执行网络μ' k的输入为决策组k在时段i+1的状态参数
Figure 898141DEST_PATH_IMAGE108
,其输出
Figure 336076DEST_PATH_IMAGE128
可以用于表示一种决策参数,即第一决策预测参数a'k,i。在线执行网络μk的输入为决策组k在时段i的状态参数
Figure 74136DEST_PATH_IMAGE086
,则其输出
Figure 609023DEST_PATH_IMAGE088
也能够表示相应的决策参数。本发明实施例中,基于G个目标执行网络μ' k的输出结果a'k,i,可以生成在时段i的第一决策预测向量a' i,且a' i=(a'1,i,a'2,i,…,a'G,i)。
步骤B2:基于为决策组k预设的目标评价网络Q' k,计算相应的在线评价网络Qk的目标值yk,i,且:
Figure DEST_PATH_IMAGE132
其中,
Figure 597839DEST_PATH_IMAGE106
表示决策组k在时段i的奖励参数,目标评价网络Q' k的输入包括时段i+1的训练状态向量s' i和时段i的第一决策预测向量a' i,输出为
Figure DEST_PATH_IMAGE134
Figure DEST_PATH_IMAGE136
表示目标评价网络Q' k的网络参数;γ为预设的奖励折扣因子调整系数,γ∈(0,1);目标评价网络Q' k与在线评价网络Qk的结构相同。
本发明实施例中,与在线评价网络Qk相似,通过向目标评价网络Q' k输入时段i+1的训练状态向量s' i和上述步骤B21确定的第一决策预测向量a' i,可以得到该目标评价网络Q' k的输出
Figure 896971DEST_PATH_IMAGE134
,进而基于上述步骤B2的式子可以确定所需的决策组k在时段i的目标值yk,i
步骤B3:设置在线评价网络Qk的最小化损失函数Lk,通过选取的训练集
Figure 934328DEST_PATH_IMAGE122
和最小化损失函数Lk更新在线评价网络Qk的网络参数
Figure 995825DEST_PATH_IMAGE094
,且最小化损失函数Lk为:
Figure DEST_PATH_IMAGE138
其中,T为训练集A的大小。
本发明实施例中,边缘服务器选取之前的T个时段的训练经验信息生成训练集A,
Figure DEST_PATH_IMAGE140
。基于该训练集A对每个在线评价网络Qk进行训练,从而可以确定在线评价网络Qk训练后的的网络参数
Figure DEST_PATH_IMAGE142
此外,上述步骤1033中“利用更新后的网络参数
Figure 529443DEST_PATH_IMAGE142
,通过策略梯度更新在线执行网络μk的网络参数
Figure DEST_PATH_IMAGE144
”可以包括:
步骤B4:将多个决策组k的在线执行网络μk的输出
Figure 4287DEST_PATH_IMAGE088
作为第二决策预测参数
Figure DEST_PATH_IMAGE146
,并生成第二决策预测向量
Figure DEST_PATH_IMAGE148
步骤B5:通过选取的训练集
Figure 219237DEST_PATH_IMAGE122
和如下的策略梯度更新在线执行网络μk的网络参数
Figure 400819DEST_PATH_IMAGE090
Figure DEST_PATH_IMAGE150
其中,
Figure DEST_PATH_IMAGE152
表示长期预测奖励,
Figure DEST_PATH_IMAGE154
表示对
Figure 833900DEST_PATH_IMAGE090
求偏导,
Figure DEST_PATH_IMAGE156
表示对决策参数
Figure DEST_PATH_IMAGE158
求偏导,其中,决策参数
Figure 107625DEST_PATH_IMAGE158
∈训练决策向量
Figure 736052DEST_PATH_IMAGE116
本发明实施例中,与上述基于目标执行网络μ' k确定第一决策预测向量的过程相似,本实施例基于在线执行网络μk来生成第二决策预测向量
Figure DEST_PATH_IMAGE160
,进而基于该以及训练后的在线评价网络Qk训练得到在线执行网络μk的网络参数
Figure 850770DEST_PATH_IMAGE144
,进而能够更新决策组k的本地执行网络。
其中,初始的目标网络与相应的在线网络相同,二者具有相同的网络参数。即在初始时,
Figure DEST_PATH_IMAGE162
。之后,在更新在线网络后,采用如下的方式更新相应的目标网络的网络参数。本实施例中,更新目标网络的网络参数的过程包括:
步骤C1:根据在线评价网络Qk更新后的网络参数
Figure 585245DEST_PATH_IMAGE142
对目标评价网络Q' k的网络参数
Figure DEST_PATH_IMAGE164
进行更新:
Figure DEST_PATH_IMAGE166
步骤C2:根据在线执行网络μk更新后的网络参数
Figure 847730DEST_PATH_IMAGE144
对目标执行网络μ' k的网络参数
Figure DEST_PATH_IMAGE168
进行更新:
Figure DEST_PATH_IMAGE170
。其中,τ为软更新系数,且τ∈(0,1)。
本发明实施例还提供一种任务迁移决策的系统,该系统包括如上任一实施例所提供的边缘服务器和多个如上任一实施例所提供的终端。下面通过一个实施例详细介绍该系统的工作流程。
参见图3所示,该任务迁移决策的系统包括边缘服务器和M个终端,该边缘服务器具体为基站,该基站设有G个在线执行网络μk和G个在线评价网络Qk,每个终端中设有相应的本地执行网络
Figure DEST_PATH_IMAGE172
,k∈[1,G]。参见图4A所示,以属于决策组k的终端d为例,该终端d与基站之间交互过程具体包括:
步骤401:为属于决策组k的终端d设置本地执行网络
Figure 653750DEST_PATH_IMAGE044
其中,在初始化时,终端d可以自行设置该本地执行网络
Figure 357395DEST_PATH_IMAGE044
的网络参数
Figure DEST_PATH_IMAGE174
,也可以通过基站下发的决策组k的网络参数
Figure 534211DEST_PATH_IMAGE144
来更新其网络参数
Figure 205363DEST_PATH_IMAGE174
,本实施例对初始化不做限定。M个终端中的其他终端也设置相应的网络参数。
步骤402:若当前时段为时段t,终端d确定在时段t的本地任务缓冲区的队列长度Bd(t)、在时段t的信道矢量hd(t)、上一时段边缘服务器接收到的归一化信噪比γd(t-1)、上一时段终端d收到的干扰和ϕd(t-1)、上一时段终端d对其他终端造成的干扰和ηd(t-1)以及终端d的任务到达平均速率λd,从而生成当前状态参数sd,t,且sd,t={ Bd(t), hd(t), γd(t-1), ϕd(t-1), ηd(t-1), λd}。
步骤403:将当前状态参数sd,t输入至本地执行网络
Figure 378856DEST_PATH_IMAGE044
,确定当前决策参数ad,t,并执行与当前决策参数ad,t相应的任务迁移操作。
其中,
Figure 202586DEST_PATH_IMAGE056
步骤404:在时段t末,根据当前决策参数ad,t确定在时段t的当前奖励参数rd,t,并确定在下一时段终端的下一状态参数sd,t+1
步骤405:将包含当前状态参数sd,t、当前决策参数ad,t、当前奖励参数rd,t和下一状态参数sd,t+1的本地经验信息发送至基站。
其中,终端d在时段i上传的本地经验信息为四者组成的元组{sd,t,ad,t,rd,t,sd,t+1}。其余终端也向基站上传相应的本地经验信息,如图3所示,终端1上传{s1,t,a1,t,r1,t,s1,t+1},终端M上传{sM,t,aM,t,rM,t,sM,t+1}。
步骤406:基站通过整合器对该时段t接收到的本地经验信息进行整合,生成时段t的全局经验信息
Figure DEST_PATH_IMAGE176
,并将全局经验信息存到缓冲区。
步骤407:从缓冲区中提取T个训练经验信息形成训练集A,
Figure 544444DEST_PATH_IMAGE140
其中,可以从缓冲区中缓存的全局经验信息中选出(例如随机选取)T个训练经验信息,形成该训练集A。可选地,在缓冲区中数据较多时,可以删除较旧的数据。
步骤408:通过最小化损失函数更新每个在线评价网络Qk的网络参数
Figure 702893DEST_PATH_IMAGE142
其中,可以利用目标评价网络Q' k更新该在线评价网络Qk的网络参数
Figure 414497DEST_PATH_IMAGE142
,详见上述的步骤B1-B3,此处不做赘述。
步骤409:利用更新后的网络参数
Figure 92734DEST_PATH_IMAGE142
,通过策略梯度更新在线执行网络μk的网络参数
Figure 293908DEST_PATH_IMAGE144
其中,可以基于上述的步骤B4-B5训练得到在线执行网络μk的网络参数
Figure 188921DEST_PATH_IMAGE144
,此处不做赘述。
步骤410:在确定每个在线执行网络μk的网络参数
Figure 438636DEST_PATH_IMAGE144
的后,将网络参数
Figure 486227DEST_PATH_IMAGE144
下发至属于相应的决策组k的终端d,使得终端d能够更新本地的执行网络
Figure 609035DEST_PATH_IMAGE044
例如,本发明实施例中的基站端所设置的参数如下:最大的训练集数Mmax=2000,每个训练集中包含的时隙数Tmax=200。评价网络和执行网络均为四层全连接网络,其中两层隐含层的网络参数分别为400和300。隐含层激活函数使用的RELU,即f(x)=max(0,x),执行网络输出层使用的sigmod函数来约束输出的大小。在评价网络中,决策参数是在第二层网络处输入的。神经网络的优化是使用自适应估计方法(Adam),执行网络和评价网络的学习率为1×10-5和0.001,目标网络的软更新参数τ= 0.001。训练中执行网络的噪声满足Ornstein-Uhlenbeck过程,其输出噪声xt满足下述的随机微分方程:
Figure DEST_PATH_IMAGE178
其中μ是均值,Wt是维纳过程(布朗运动),参数θ= 0.15、σ= 0.12。缓存区的大小|B|=1.0×105。对于奖励函数中的延时和功耗的折中因子(加权因子)均为0.5,对于系统训练中发送更新数据的时隙周期(也称为更新延时)的取值为两个值,且分别为1、1000。
对比的算法有基于DDPG(Deep Deterministic Policy Gradient,深度确定性策略梯度)的计算迁移算法,和两种贪婪算法。两种贪婪算法中其一为本地处理优先的贪婪算法(GD-Local),优先本地处理,多余的任务进行计算迁移。还有一个为计算迁移优先的贪婪算法(GD-Offload),优先计算迁移,多余的任务进行本地处理。
训练结果如图4B所示,虽然在少数终端的奖励上基于DDPG的算法要更优,但是在系统总的奖励上,本发明实施例提供的方法要明显优于DDPG,远远优于贪婪算法。可以看到基于合作式的深度强化学习可以有效的解决NOMA系统中不同终端之间干扰对决策的影响,有效的提高系统的总的长期奖励,即减低系统在延时和功率方面的开销。
本发明实施例提供的一种任务迁移决策的系统,采用的中心式训练方式,使得每个终端的计算迁移算法的训练不仅仅包含自己的信息,还包含了其他终端的信息,在训练的时候充分考虑了终端之间的协作和竞争,提高了训练的稳定性和训练结果的性能;尤其是对于终端间存在强干扰的NOMA系统,可以稳定地训练出相比非合作式深度强化学习更优的迁移算法,从而可以优化终端的能耗和延时。边缘服务器利用高性能计算能力收集全局信息来应用于网络的训练,可以使终端避免复杂的、计算量大的和高能耗的策略网络训练;多个终端分布式执行,在终端执行的时候仅仅只需要本地的观测,无需其他终端的信息,可以实时地有效地进行计算数据的迁移。该系统采用中心式训练、分布式执行的框架,可以有效的契合合作式深度强化学习的使用,能够将计算开销大的训练放在边缘服务器侧,将训练后的计算迁移策略部署到每个终端的本地执行网络,相比于中心化的算法有效地降低了计算迁移延时,相比于分布式算法避免了本地训练的开销。
上文详细描述了本发明实施例提供的任务迁移决策的方法,该方法也可以通过相应的装置实现,下面详细描述本发明实施例提供的任务迁移决策的装置。
图5示出了本发明实施例所提供的一种任务迁移决策的装置的结构示意图。如图5所示,该任务迁移决策的装置包括:
整合模块51,用于获取多个终端上传的至少一个时段的本地经验信息,将同一所述时段的多个所述本地经验信息进行整合,生成所述时段的全局经验信息;其中,终端d在时段t的所述本地经验信息包括:所述时段t的状态参数sd,t、所述时段t的决策参数ad,t、所述时段t的奖励参数rd,t和时段t+1的状态参数sd,t+1;所述决策参数ad,t包括所述终端d在时段t的所述本地处理功率pl,d(t),以及所述终端d在时段t的所述迁移计算功率po,d(t);所述时段t的所述全局经验信息包括:所述时段t的全局状态向量
Figure DEST_PATH_IMAGE180
、所述时段t的全局决策向量
Figure DEST_PATH_IMAGE182
、所述时段t的全局奖励向量
Figure DEST_PATH_IMAGE184
以及所述时段t+1的全局状态向量
Figure DEST_PATH_IMAGE186
,M为终端总数量,且d∈[1,M];
分组模块52,用于根据每个所述终端的信道衰落和任务达到速率,将多个所述终端分为G个决策组,为每个所述决策组设置在线执行网络,不同的所述在线执行网络具有相同的结构;
训练模块53,用于将从多个所述时段的所述全局经验信息中选取来自不同所述决策组的训练参数进行整合,生成训练经验信息,并根据所述训练经验信息对所有所述在线执行网络进行训练,确定每个所述在线执行网络的网络参数;
参数发送模块54,用于根据终端的分组信息,将所述决策组对应的所述网络参数发送至所述决策组中的所述终端,指示所述终端根据所述边缘服务器发送的所述网络参数更新本地执行网络,所述本地执行网络与所述在线执行网络的结构相同,且所述本地执行网络的输入为所述终端的状态参数,输出为所述终端的决策参数;其中,属于同一所述决策组的不同终端的所述本地执行网络的网络参数相同。
在上述实施例的基础上,所述训练模块53包括:
设置单元,用于为每个所述决策组k的所述在线执行网络μk设置在线评价网络Qk;其中,所述在线执行网络μk的输入为所述决策组k中某个终端在时段i的状态参数
Figure 991343DEST_PATH_IMAGE086
,输出为
Figure 373913DEST_PATH_IMAGE088
Figure 213693DEST_PATH_IMAGE090
表示所述在线执行网络μk的网络参数;所述在线评价网络Qk的输入为在时段i的训练状态向量si和训练决策向量ai,输出为
Figure 756669DEST_PATH_IMAGE092
Figure 862160DEST_PATH_IMAGE094
表示所述在线评价网络Qk的网络参数;
生成单元,用于根据每个所述决策组k的随机变量Zk,从所述全局经验信息中随机选取所述决策组k的训练参数,生成每个时段的训练经验信息;其中,Zk∈{1,2,3,…,Mk},Mk表示所述决策组k中的终端数量,且时段i的所述训练经验信息包括:所述时段i的训练状态向量
Figure 781574DEST_PATH_IMAGE096
、所述时段i的训练决策向量
Figure 787445DEST_PATH_IMAGE098
、所述时段i的训练奖励向量
Figure 439006DEST_PATH_IMAGE100
以及所述时段i+1的训练状态向量
Figure DEST_PATH_IMAGE188
;其中,
Figure 359689DEST_PATH_IMAGE086
表示属于决策组k的终端Zk在时段i的状态参数,
Figure 817215DEST_PATH_IMAGE104
表示属于决策组k的终端Zk在时段i的决策参数,
Figure 677593DEST_PATH_IMAGE106
表示属于决策组k的终端Zk在时段i的奖励参数,
Figure 827951DEST_PATH_IMAGE108
表示属于决策组k的终端Zk在时段i+1的状态参数;
训练单元,用于对于每个所述决策组k,通过最小化损失函数更新所述在线评价网络Qk的网络参数
Figure 94985DEST_PATH_IMAGE094
,并利用更新后的所述网络参数
Figure 106934DEST_PATH_IMAGE094
,通过策略梯度更新所述在线执行网络μk的网络参数
Figure 572550DEST_PATH_IMAGE090
在上述实施例的基础上,所述训练单元通过最小化损失函数更新所述在线评价网络Qk的网络参数
Figure 143078DEST_PATH_IMAGE094
,包括:
基于为每个所述决策组k预设的目标执行网络μ' k确定时段i的第一决策预测参数a'k,i,并生成第一决策预测向量a' i=(a'1,i,a'2,i,…,a'G,i);其中,所述目标执行网络μ' k的输入为所述决策组k中某个终端在所述时段i+1的状态参数
Figure 959724DEST_PATH_IMAGE108
,输出
Figure 696736DEST_PATH_IMAGE128
为所述第一决策预测参数a'k,i
Figure 33171DEST_PATH_IMAGE130
表示所述目标执行网络的网络参数;所述目标执行网络μ' k与所述在线执行网络μk的结构相同;
基于为所述决策组k预设的目标评价网络Q' k,计算相应的在线评价网络Qk的目标值yk,i,且:
Figure 525332DEST_PATH_IMAGE132
其中,
Figure 818822DEST_PATH_IMAGE106
表示决策组k在时段i的奖励参数,所述目标评价网络Q' k的输入包括所述时段i+1的训练状态向量s' i和时段i的第一决策预测向量a' i,输出为
Figure 421842DEST_PATH_IMAGE134
Figure 65313DEST_PATH_IMAGE136
表示所述目标评价网络Q' k的网络参数;γ为预设的奖励折扣因子调整系数,γ∈(0,1);所述目标评价网络Q' k与所述在线评价网络Qk的结构相同;
设置所述在线评价网络Qk的最小化损失函数Lk,通过选取的训练集
Figure 213528DEST_PATH_IMAGE122
和所述最小化损失函数Lk更新所述在线评价网络Qk的网络参数
Figure 4767DEST_PATH_IMAGE094
,且最小化损失函数Lk为:
Figure 395166DEST_PATH_IMAGE138
其中,T为所述训练集A的大小。
在上述实施例的基础上,所述训练单元利用更新后的所述网络参数
Figure 955460DEST_PATH_IMAGE142
,通过策略梯度更新所述在线执行网络μk的网络参数
Figure 274577DEST_PATH_IMAGE144
,包括:
将多个所述决策组k的所述在线执行网络μk的输出
Figure 490795DEST_PATH_IMAGE088
作为第二决策预测参数
Figure 435617DEST_PATH_IMAGE146
,并生成第二决策预测向量
Figure DEST_PATH_IMAGE190
通过选取的训练集
Figure 162002DEST_PATH_IMAGE122
和如下的策略梯度更新所述在线执行网络μk的网络参数
Figure 917600DEST_PATH_IMAGE090
Figure 355534DEST_PATH_IMAGE150
其中,
Figure 838468DEST_PATH_IMAGE152
表示长期预测奖励,
Figure 622622DEST_PATH_IMAGE154
表示对
Figure 532810DEST_PATH_IMAGE090
求偏导,
Figure 271090DEST_PATH_IMAGE156
表示对决策参数
Figure DEST_PATH_IMAGE192
求偏导。
在上述实施例的基础上,该装置还包括更新模块,所述更新模块用于:
根据所述在线评价网络Qk更新后的网络参数
Figure 557714DEST_PATH_IMAGE142
对所述目标评价网络Q' k的网络参数
Figure 190516DEST_PATH_IMAGE164
进行更新:
Figure 537183DEST_PATH_IMAGE166
根据所述在线执行网络μk更新后的网络参数
Figure 949710DEST_PATH_IMAGE144
对所述目标执行网络μ' k的网络参数
Figure 525179DEST_PATH_IMAGE168
进行更新:
Figure 769079DEST_PATH_IMAGE170
其中,τ为软更新系数,且τ∈(0,1)。
此外,本发明实施例还提供了一种电子设备,包括总线、收发器、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该收发器、该存储器和处理器分别通过总线相连,计算机程序被处理器执行时实现上述任务迁移决策的方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
具体的,参见图6所示,本发明实施例还提供了一种电子设备,该电子设备包括总线1110、处理器1120、收发器1130、总线接口1140、存储器1150和用户接口1160。
在本发明实施例中,该电子设备还包括:存储在存储器1150上并可在处理器1120上运行的计算机程序,计算机程序被处理器1120执行时实现上述任务迁移决策的方法实施例的各个过程。
收发器1130,用于在处理器1120的控制下接收和发送数据。
本发明实施例中,总线架构(用总线1110来代表),总线1110可以包括任意数量互联的总线和桥,总线1110将包括由处理器1120代表的一个或多个处理器与存储器1150代表的存储器的各种电路连接在一起。
总线1110表示若干类型的总线结构中的任何一种总线结构中的一个或多个,包括存储器总线以及存储器控制器、外围总线、加速图形端口(Accelerate Graphical Port,AGP)、处理器或使用各种总线体系结构中的任意总线结构的局域总线。作为示例而非限制,这样的体系结构包括:工业标准体系结构(Industry Standard Architecture,ISA)总线、微通道体系结构(Micro Channel Architecture,MCA)总线、扩展ISA(Enhanced ISA,EISA)总线、视频电子标准协会(Video Electronics Standards Association,VESA)、外围部件互连(Peripheral Component Interconnect,PCI)总线。
处理器1120可以是一种集成电路芯片,具有信号处理能力。在实现过程中,上述方法实施例的各步骤可以通过处理器中硬件的集成逻辑电路或软件形式的指令完成。上述的处理器包括:通用处理器、中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(FieldProgrammable Gate Array,FPGA)、复杂可编程逻辑器件(Complex Programmable LogicDevice,CPLD)、可编程逻辑阵列(Programmable Logic Array,PLA)、微控制单元(Microcontroller Unit,MCU)或其他可编程逻辑器件、分立门、晶体管逻辑器件、分立硬件组件。可以实现或执行本发明实施例中公开的各方法、步骤及逻辑框图。例如,处理器可以是单核处理器或多核处理器,处理器可以集成于单颗芯片或位于多颗不同的芯片。
处理器1120可以是微处理器或任何常规的处理器。结合本发明实施例所公开的方法步骤可以直接由硬件译码处理器执行完成,或者由译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存取存储器(Random Access Memory,RAM)、闪存(FlashMemory)、只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、寄存器等本领域公知的可读存储介质中。所述可读存储介质位于存储器中,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
总线1110还可以将,例如外围设备、稳压器或功率管理电路等各种其他电路连接在一起,总线接口1140在总线1110和收发器1130之间提供接口,这些都是本领域所公知的。因此,本发明实施例不再对其进行进一步描述。
收发器1130可以是一个元件,也可以是多个元件,例如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。例如:收发器1130从其他设备接收外部数据,收发器1130用于将处理器1120处理后的数据发送给其他设备。取决于计算机系统的性质,还可以提供用户接口1160,例如:触摸屏、物理键盘、显示器、鼠标、扬声器、麦克风、轨迹球、操纵杆、触控笔。
以上所述,仅为本发明实施例的具体实施方式,但本发明实施例的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明实施例披露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明实施例的保护范围之内。因此,本发明实施例的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种任务迁移决策的方法,由边缘服务器执行,其特征在于,包括:
获取多个终端上传的至少一个时段的本地经验信息,将同一所述时段的多个所述本地经验信息进行整合,生成所述时段的全局经验信息;其中,终端d在时段t的所述本地经验信息包括:所述时段t的状态参数sd,t、所述时段t的决策参数ad,t、所述时段t的奖励参数rd,t和时段t+1的状态参数sd,t+1;所述决策参数ad,t包括所述终端d在时段t的本地处理功率pl,d(t),以及所述终端d在时段t的迁移计算功率po,d(t);所述时段t的所述全局经验信息包括:所述时段t的全局状态向量
Figure DEST_PATH_IMAGE002
、所述时段t的全局决策向量
Figure DEST_PATH_IMAGE004
、所述时段t的全局奖励向量
Figure DEST_PATH_IMAGE006
以及所述时段t+1的全局状态向量
Figure DEST_PATH_IMAGE008
,M为终端总数量,且d∈[1,M];
根据每个所述终端的信道衰落和任务达到速率,将多个所述终端分为G个决策组,为每个所述决策组设置在线执行网络,不同的所述在线执行网络具有相同的结构;
将从多个所述时段的所述全局经验信息中选取来自不同所述决策组的训练参数进行整合,生成训练经验信息,并根据所述训练经验信息对所有所述在线执行网络进行训练,确定每个所述在线执行网络的网络参数;
根据终端的分组信息,将所述决策组对应的所述网络参数发送至所述决策组中的所述终端,指示所述终端根据所述边缘服务器发送的所述网络参数更新本地执行网络,所述本地执行网络与所述在线执行网络的结构相同,且所述本地执行网络的输入为所述终端的状态参数,输出为所述终端的决策参数;其中,属于同一所述决策组的不同终端的所述本地执行网络的网络参数相同。
2.根据权利要求1所述的方法,其特征在于,所述将从多个所述时段的所述全局经验信息中选取来自不同所述决策组的训练参数进行整合,生成训练经验信息,并根据所述训练经验信息对所有所述在线执行网络进行训练,确定每个所述在线执行网络的网络参数,包括:
为每个所述决策组k的所述在线执行网络μk设置在线评价网络Qk;其中,所述在线执行网络μk的输入为所述决策组k中某个终端在时段i的状态参数
Figure DEST_PATH_IMAGE010
,输出为
Figure DEST_PATH_IMAGE012
Figure DEST_PATH_IMAGE014
表示所述在线执行网络μk的网络参数;所述在线评价网络Qk的输入为在时段i的训练状态向量si和训练决策向量ai,输出为
Figure DEST_PATH_IMAGE016
Figure DEST_PATH_IMAGE018
表示所述在线评价网络Qk的网络参数;
根据每个所述决策组k的随机变量Zk,从所述全局经验信息中随机选取所述决策组k的训练参数,生成每个时段的训练经验信息;其中,Zk∈{1,2,3,…,Mk},Mk表示所述决策组k中的终端数量,且时段i的所述训练经验信息包括:所述时段i的训练状态向量
Figure DEST_PATH_IMAGE020
、所述时段i的训练决策向量
Figure DEST_PATH_IMAGE022
、所述时段i的训练奖励向量
Figure DEST_PATH_IMAGE024
以及所述时段i+1的训练状态向量
Figure DEST_PATH_IMAGE026
;其中,
Figure 689251DEST_PATH_IMAGE010
表示属于决策组k的终端Zk在时段i的状态参数,
Figure DEST_PATH_IMAGE028
表示属于决策组k的终端Zk在时段i的决策参数,
Figure DEST_PATH_IMAGE030
表示属于决策组k的终端Zk在时段i的奖励参数,
Figure DEST_PATH_IMAGE032
表示属于决策组k的终端Zk在时段i+1的状态参数;
对于每个所述决策组k,通过最小化损失函数更新所述在线评价网络Qk的网络参数
Figure 668708DEST_PATH_IMAGE018
,并利用更新后的所述网络参数
Figure 635396DEST_PATH_IMAGE018
,通过策略梯度更新所述在线执行网络μk的网络参数
Figure 968289DEST_PATH_IMAGE014
3.根据权利要求2所述的方法,其特征在于,所述通过最小化损失函数更新所述在线评价网络Qk的网络参数
Figure 782661DEST_PATH_IMAGE018
,包括:
基于为每个所述决策组k预设的目标执行网络μ' k确定时段i的第一决策预测参数a'k,i,并生成第一决策预测向量
Figure DEST_PATH_IMAGE034
;其中,所述目标执行网络μ' k的输入为所述决策组k中某个终端在所述时段i+1的状态参数
Figure 729757DEST_PATH_IMAGE032
,输出
Figure DEST_PATH_IMAGE036
为所述第一决策预测参数a'k,i
Figure DEST_PATH_IMAGE038
表示所述目标执行网络的网络参数;所述目标执行网络μ' k与所述在线执行网络μk的结构相同;
基于为所述决策组k预设的目标评价网络Q' k,计算相应的在线评价网络Qk的目标值yk,i,且:
Figure DEST_PATH_IMAGE040
其中,
Figure 314234DEST_PATH_IMAGE030
表示决策组k在时段i的奖励参数,所述目标评价网络Q' k的输入包括所述时段i+1的训练状态向量s' i和时段i的第一决策预测向量a' i,输出为
Figure DEST_PATH_IMAGE042
Figure DEST_PATH_IMAGE044
表示所述目标评价网络Q' k的网络参数;γ为预设的奖励折扣因子调整系数,γ∈(0,1);所述目标评价网络Q' k与所述在线评价网络Qk的结构相同;
设置所述在线评价网络Qk的最小化损失函数Lk,通过选取的训练集
Figure DEST_PATH_IMAGE046
和所述最小化损失函数Lk更新所述在线评价网络Qk的网络参数
Figure 575451DEST_PATH_IMAGE018
,且最小化损失函数Lk为:
Figure DEST_PATH_IMAGE048
其中,T为所述训练集A的大小。
4.根据权利要求3所述的方法,其特征在于,所述利用更新后的所述网络参数
Figure DEST_PATH_IMAGE050
,通过策略梯度更新所述在线执行网络μk的网络参数
Figure DEST_PATH_IMAGE052
,包括:
将多个所述决策组k的所述在线执行网络μk的输出
Figure 555915DEST_PATH_IMAGE012
作为第二决策预测参数
Figure DEST_PATH_IMAGE054
,并生成第二决策预测向量
Figure DEST_PATH_IMAGE056
通过选取的训练集
Figure 673912DEST_PATH_IMAGE046
和如下的策略梯度更新所述在线执行网络μk的网络参数
Figure 365925DEST_PATH_IMAGE014
Figure DEST_PATH_IMAGE058
其中,
Figure DEST_PATH_IMAGE060
表示长期预测奖励,
Figure DEST_PATH_IMAGE062
表示对
Figure 414521DEST_PATH_IMAGE014
求偏导,
Figure DEST_PATH_IMAGE064
表示对决策参数
Figure DEST_PATH_IMAGE066
求偏导。
5.根据权利要求4所述的方法,其特征在于,还包括:
根据所述在线评价网络Qk更新后的网络参数
Figure 56681DEST_PATH_IMAGE050
对所述目标评价网络Q' k的网络参数
Figure DEST_PATH_IMAGE068
进行更新:
Figure DEST_PATH_IMAGE070
根据所述在线执行网络μk更新后的网络参数
Figure 548842DEST_PATH_IMAGE052
对所述目标执行网络μ' k的网络参数
Figure DEST_PATH_IMAGE072
进行更新:
Figure DEST_PATH_IMAGE074
其中,τ为软更新系数,且τ∈(0,1)。
6.一种任务迁移决策的装置,设置在边缘服务器侧,其特征在于,包括:
整合模块,用于获取多个终端上传的至少一个时段的本地经验信息,将同一所述时段的多个所述本地经验信息进行整合,生成所述时段的全局经验信息;其中,终端d在时段t的所述本地经验信息包括:所述时段t的状态参数sd,t、所述时段t的决策参数ad,t、所述时段t的奖励参数rd,t和时段t+1的状态参数sd,t+1;所述决策参数ad,t包括所述终端d在时段t的本地处理功率pl,d(t),以及所述终端d在时段t的迁移计算功率po,d(t);所述时段t的所述全局经验信息包括:所述时段t的全局状态向量
Figure DEST_PATH_IMAGE076
、所述时段t的全局决策向量
Figure DEST_PATH_IMAGE078
、所述时段t的全局奖励向量
Figure DEST_PATH_IMAGE080
以及所述时段t+1的全局状态向量
Figure DEST_PATH_IMAGE082
,M为终端总数量,且d∈[1,M];
分组模块,用于根据每个所述终端的信道衰落和任务达到速率,将多个所述终端分为G个决策组,为每个所述决策组设置在线执行网络,不同的所述在线执行网络具有相同的结构;
训练模块,用于将从多个所述时段的所述全局经验信息中选取来自不同所述决策组的训练参数进行整合,生成训练经验信息,并根据所述训练经验信息对所有所述在线执行网络进行训练,确定每个所述在线执行网络的网络参数;
参数发送模块,用于根据终端的分组信息,将所述决策组对应的所述网络参数发送至所述决策组中的所述终端,指示所述终端根据所述边缘服务器发送的所述网络参数更新本地执行网络,所述本地执行网络与所述在线执行网络的结构相同,且所述本地执行网络的输入为所述终端的状态参数,输出为所述终端的决策参数;其中,属于同一所述决策组的不同终端的所述本地执行网络的网络参数相同。
7.一种任务迁移决策的系统,其特征在于,包括边缘服务器和接入所述边缘服务器的终端;
所述边缘服务器用于执行如权利要求1-5任意一项所述的任务迁移决策的方法。
8.根据权利要求7所述的系统,其特征在于,所述终端中本地执行网络的网络参数是动态调整的,且所述终端用于:
获取边缘服务器发送的网络参数,所述网络参数为所述边缘服务器基于所述终端和其他终端之前上传的本地经验信息训练相应的在线执行网络所得到的参数;
根据所述边缘服务器发送的所述网络参数更新本地执行网络,所述本地执行网络与所述在线执行网络的结构相同,且所述本地执行网络的输入为终端的状态参数,输出为所述终端的决策参数;
确定在当前时段所述终端的当前状态参数,将所述当前状态参数输入至所述本地执行网络,确定当前决策参数,并执行与所述当前决策参数相应的任务迁移操作;所述当前决策参数包括在所述当前时段的本地处理功率和迁移计算功率;
根据所述当前决策参数确定在所述当前时段的当前奖励参数,并确定在下一时段所述终端的下一状态参数;
将包含所述当前状态参数、所述当前决策参数、所述当前奖励参数和所述下一状态参数的本地经验信息发送至所述边缘服务器。
9.根据权利要求8所述的系统,其特征在于,所述根据所述边缘服务器发送的所述网络参数更新本地执行网络,包括:
对于属于决策组k的终端d,所述终端d根据上一时段所述边缘服务器发送的所述决策组k训练后的所述网络参数
Figure DEST_PATH_IMAGE084
更新本地执行网络
Figure DEST_PATH_IMAGE086
的网络参数
Figure DEST_PATH_IMAGE088
,且更新公式如下:
Figure DEST_PATH_IMAGE090
所述将所述当前状态参数输入至所述本地执行网络,确定当前决策参数,包括:
在所述当前时段为时段t的情况下,将属于决策组k的终端d的所述当前状态参数sd,t输入至所述终端d的本地执行网络
Figure DEST_PATH_IMAGE092
,确定所述本地执行网络
Figure 475953DEST_PATH_IMAGE092
的输出
Figure DEST_PATH_IMAGE094
;其中,
Figure DEST_PATH_IMAGE096
表示所述本地执行网络
Figure 875710DEST_PATH_IMAGE092
的网络参数;生成当前决策参数ad,t,且
Figure DEST_PATH_IMAGE098
;其中,Δμ为随机扰动。
10.根据权利要求7-9任意一项所述的系统,其特征在于,还包括新增的终端;
所述新增的终端用于将本身的信道衰落和任务达到速率上传到所述边缘服务器;
所述边缘服务器还用于根据所述新增的终端的信道衰落和任务达到速率确定所述新增的终端所属的决策组,并根据所述决策组的网络参数更新所述新增的终端的本地执行网络的网络参数,将所述新增的终端作为接入所述边缘服务器的一个终端。
CN202111323172.9A 2021-11-10 2021-11-10 一种任务迁移决策的方法、装置及系统 Active CN113778691B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111323172.9A CN113778691B (zh) 2021-11-10 2021-11-10 一种任务迁移决策的方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111323172.9A CN113778691B (zh) 2021-11-10 2021-11-10 一种任务迁移决策的方法、装置及系统

Publications (2)

Publication Number Publication Date
CN113778691A true CN113778691A (zh) 2021-12-10
CN113778691B CN113778691B (zh) 2022-03-25

Family

ID=78957000

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111323172.9A Active CN113778691B (zh) 2021-11-10 2021-11-10 一种任务迁移决策的方法、装置及系统

Country Status (1)

Country Link
CN (1) CN113778691B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114118300A (zh) * 2022-01-21 2022-03-01 苏州浪潮智能科技有限公司 服务迁移模型训练方法以及车联网服务迁移方法、系统
CN115174584A (zh) * 2022-06-30 2022-10-11 北京信息科技大学 边云协同计算管理方法、装置、电子设备及存储介质
WO2023179010A1 (zh) * 2022-03-22 2023-09-28 南京邮电大学 一种noma-mec系统中的用户分组和资源分配方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109976909A (zh) * 2019-03-18 2019-07-05 中南大学 边缘计算网络中基于学习的低延时任务调度方法
CN111726826A (zh) * 2020-05-25 2020-09-29 上海大学 一种基站密集型边缘计算网络中的在线任务卸载方法
US20200320397A1 (en) * 2019-04-04 2020-10-08 Cisco Technology, Inc. Learning-based service migration in mobile edge computing
CN111858009A (zh) * 2020-07-30 2020-10-30 航天欧华信息技术有限公司 基于迁移和强化学习的移动边缘计算系统任务调度方法
CN112511336A (zh) * 2020-11-05 2021-03-16 上海大学 一种边缘计算系统中的在线服务放置方法
CN113504987A (zh) * 2021-06-30 2021-10-15 广州大学 基于迁移学习的移动边缘计算任务卸载方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109976909A (zh) * 2019-03-18 2019-07-05 中南大学 边缘计算网络中基于学习的低延时任务调度方法
US20200320397A1 (en) * 2019-04-04 2020-10-08 Cisco Technology, Inc. Learning-based service migration in mobile edge computing
CN111726826A (zh) * 2020-05-25 2020-09-29 上海大学 一种基站密集型边缘计算网络中的在线任务卸载方法
CN111858009A (zh) * 2020-07-30 2020-10-30 航天欧华信息技术有限公司 基于迁移和强化学习的移动边缘计算系统任务调度方法
CN112511336A (zh) * 2020-11-05 2021-03-16 上海大学 一种边缘计算系统中的在线服务放置方法
CN113504987A (zh) * 2021-06-30 2021-10-15 广州大学 基于迁移学习的移动边缘计算任务卸载方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王凌 等: "边缘计算资源分配与任务调度优化综述", 《系统仿真学报》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114118300A (zh) * 2022-01-21 2022-03-01 苏州浪潮智能科技有限公司 服务迁移模型训练方法以及车联网服务迁移方法、系统
WO2023179010A1 (zh) * 2022-03-22 2023-09-28 南京邮电大学 一种noma-mec系统中的用户分组和资源分配方法及装置
CN115174584A (zh) * 2022-06-30 2022-10-11 北京信息科技大学 边云协同计算管理方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN113778691B (zh) 2022-03-25

Similar Documents

Publication Publication Date Title
CN113778691B (zh) 一种任务迁移决策的方法、装置及系统
US20220391771A1 (en) Method, apparatus, and computer device and storage medium for distributed training of machine learning model
Liu et al. FedCPF: An efficient-communication federated learning approach for vehicular edge computing in 6G communication networks
CN113950066B (zh) 移动边缘环境下单服务器部分计算卸载方法、系统、设备
Iftikhar et al. HunterPlus: AI based energy-efficient task scheduling for cloud–fog computing environments
CN106933649B (zh) 基于移动平均和神经网络的虚拟机负载预测方法及系统
WO2022063247A1 (zh) 神经网络结构搜索方法及装置
CN112416554A (zh) 一种任务迁移方法、装置、电子设备及存储介质
CN113128678A (zh) 神经网络的自适应搜索方法及装置
CN114065863B (zh) 联邦学习的方法、装置、系统、电子设备及存储介质
CN110968426A (zh) 一种基于在线学习的边云协同k均值聚类的模型优化方法
CN113760511B (zh) 一种基于深度确定性策略的车辆边缘计算任务卸载方法
CN113645637B (zh) 超密集网络任务卸载方法、装置、计算机设备和存储介质
CN112667400A (zh) 边缘自治中心管控的边云资源调度方法、装置及系统
Hu et al. Dynamic task offloading in MEC-enabled IoT networks: A hybrid DDPG-D3QN approach
CN116541106A (zh) 计算任务卸载方法、计算设备及存储介质
CN114936708A (zh) 基于边云协同任务卸载的故障诊断优化方法及电子设备
CN113965569B (zh) 一种高能效、低时延的边缘节点计算迁移配置系统
Cui et al. Multi-Agent Reinforcement Learning Based Cooperative Multitype Task Offloading Strategy for Internet of Vehicles in B5G/6G Network
CN113382066B (zh) 基于联邦边缘平台的车辆用户选择方法及系统
CN110743164B (zh) 一种用于降低云游戏中响应延迟的动态资源划分方法
CN113504949A (zh) Mar客户端在边缘计算中的任务卸载与参数优化方法及系统
CN116915869A (zh) 基于云边协同的时延敏感型智能服务快速响应方法
CN117202264A (zh) Mec环境中面向5g网络切片的计算卸载方法
Jeon et al. Intelligent resource scaling for container based digital twin simulation of consumer electronics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant