CN111858009A - 基于迁移和强化学习的移动边缘计算系统任务调度方法 - Google Patents

基于迁移和强化学习的移动边缘计算系统任务调度方法 Download PDF

Info

Publication number
CN111858009A
CN111858009A CN202010748707.6A CN202010748707A CN111858009A CN 111858009 A CN111858009 A CN 111858009A CN 202010748707 A CN202010748707 A CN 202010748707A CN 111858009 A CN111858009 A CN 111858009A
Authority
CN
China
Prior art keywords
network
server
strategy
layer
reinforcement learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010748707.6A
Other languages
English (en)
Other versions
CN111858009B (zh
Inventor
冷立雄
马占国
宫业国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aerospace Ouhua Information Technology Co Ltd
Northwestern Polytechnical University
Original Assignee
Aerospace Ouhua Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aerospace Ouhua Information Technology Co ltd filed Critical Aerospace Ouhua Information Technology Co ltd
Priority to CN202010748707.6A priority Critical patent/CN111858009B/zh
Publication of CN111858009A publication Critical patent/CN111858009A/zh
Application granted granted Critical
Publication of CN111858009B publication Critical patent/CN111858009B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明针对边缘计算服务器的任务调度问题,提出一种基于迁移和强化学习的移动边缘计算系统任务调度方法,首先为每个服务器构建一个Actor‑Critic网络来训练它的调度策略;其中,Actor网络通过自身状态来决定动作,而Critic网络则根据所有服务器的动作和状态来评价该动作的好坏。所有服务器共享一个Critic网络。在使用多智能体强化学习训练多个边缘服务器调度策略的时候,为每个服务器的调度策略构建相同结构的策略网络。这些策略网络不仅拥有相同的网络层,并且每层的节点数目也相同。使用集中训练分散执行的机制来训练这些策略,以此来避免因为服务器数目过多而引起的维数灾难问题。

Description

基于迁移和强化学习的移动边缘计算系统任务调度方法
技术领域
本发明用于实现移动边缘计算的任务分配调度,属于机器学习与边缘计算领域,具体涉及一种基于迁移和强化学习的移动边缘计算系统任务调度方法。
背景技术
以智能手机和平板电脑为主的移动设备已经成了人们的必需品。随着移动设备的不断升级,5G和AI技术的不断成熟,人们对移动设备的要求越来越高,用移动设备来进行网络游戏,图像处理和虚拟现实等应用的呼声也日益增多。由于移动设备自身大小的限制,难以依靠独立的处理器实现复杂计算,更何况对于计算密集和资源密集的计算。为了着手解决这一问题,研究人员提出了移动云计算和移动边缘计算(Mobile Edge Computing,MEC)。
云计算与边缘计算为独立用户处理复杂计算任务提供了可能。用户通过基站将计算任务传输给相应的边缘服务器,并接受服务器计算得到的结果,这个过程让只拥有移动设备的用户能够实现更多的应用。相比起云计算,边缘计算减少了经过骨干网络的多跳传输。移动边缘计算的理念是在移动云计算的基础上,通过把计算数据中心中的一部分计算任务和资源存储需求下放到边缘网络。离用户近的边缘服务器在与用户进行通信时更高效且开销更低。数据处理需求的返回结果通过用户边缘的服务器返回,无需经历核心网络去处理。
在移动边缘计算中,一个用户周围往往有多个边缘服务器,同样地一个边缘网络服务器常常需要处理不止一个用户的任务。因此移动边缘计算上的资源分配成了一个全新的挑战。尽管已有研究通过多智能体强化学习来处理任务调度,并且产生了不错的结果。但在移动边缘计算中,随着用户数量的提高、用户需求越来越大,多个边缘计算服务器往往存在于一个时常变化的环境中。这些变化包含但不限于用户数目的增加、用户需求的扩大、服务器个数的变动、服务器位置的变化。为每次移动边缘计算网络变化而从头使用多智能体强化学习训练是不现实的,因此需要在已有的基础上充分利用先前策略,减少强化学习的时间花费和资源消耗。
迁移学习旨在用已有的知识来学习新的知识,通过寻找源任务和目标任务的相似性,来加速目标任务的训练并减少训练花费。作为深度学习中的热点技术,迁移学习已经被成功地应用到自然语言处理以及计算机视觉等领域,并且强化学习中的迁移学习也逐渐被研究者们重视。与监督学习和非监督学习不同,用于强化学习的迁移学习主要从经验、策略、特征以及奖励函数上进行知识重用。
尽管有很多通用的迁移学习方法可以在强化学习问题上取得不错的成果,但在将多智能体强化学习技术应用到边缘计算的任务调度问题上,存在很多新的问题。例如,源任务中多个策略如何分配,如何协调新策略与原策略的关系。因此,目前需要一种适用于边缘计算的多智能体强化学习迁移技术。
发明内容
针对边缘计算服务器的任务调度问题,本发明提出一种基于迁移和强化学习的移动边缘计算系统任务调度方法,其具体技术内容如下:
一种基于迁移和强化学习的移动边缘计算系统任务调度方法,其特征在于,包括如下步骤:
步骤1,为移动边缘计算服务器组构建多智能体强化学习优化目标;
设定环境中有N个用户,第n个用户的计算任务为Rn
在同一个基站中,有M个服务器被同时部署在不同位置为用户服务,用第m个基站处理Rn的综合延迟和能耗的加权总开销可以表示为:cm,n=λ1Tm.n2Em,n,其中λ1和λ2是权重因子,Tm.n和Em.n分别是第m个服务器处理第n个任务的延迟和能耗;
在以服务器为学习智能体的该多智能体强化学习模型中,智能体的目的是最小化总消耗:C=∑mEn~π(m)(cm,n)+∑n∈N′ln,其中π(m)是第m个服务器的部署策略,N′是未获得服务器的用户集合,ln是该用户在本地执行的消耗;
步骤2,建立完整的多智能体强化学习模型;
其中,智能体的状态s为服务器到基站的相对位置,用户的相对位置和任务量;策略π是状态到动作的映射函数;动作a=π(s)是根据策略π在当前状态s下所执行的任务调度方案;回报函数r与总消耗C负相关;γ为折扣因子,用来平衡当前奖励和延时奖励的关系;α是学习效率,即一个单步更新时的更新程度;
步骤3,构建每个服务器的策略;
用集中的critic网络来估计值函数,分散的actor网络来进行决策;所有服务器共享一个critic网络,在这个网络中,输入是状态s以及所有服务器在当前状态下的动作(a1,a2,...,aM),输出的是联合动作值Q(s,a1,a2,...,aM),每个服务器的actor网络则根据状态s输出一个确定性的动作a;
步骤4,建立横向链接;
每个服务器被随机分配一个预训练的策略π′,在actor网络的每个网络层,都与策略π′的actor网络在该层输出的隐藏状态用线性层整合;
在第i层,上一层传递下来的隐藏值为hi-1,而π′的第i-1层输出为h′i-1,线性层处理得到ui-1=Linear(hi-1,h′i-1),则actor网络第i层的输出为hi=f(ui-1;θi),其中θi是第i层的参数;
步骤5,根据步骤2、3和4构造的训练模型开始训练;
每个时隙,先从环境中得到状态s,然后每个智能体都根据自己的策略网络选择动作,其探索和利用的平衡用ε-greedy算法来实现;
在获得联合动作(a1,a2,...,aM)后执行,并返回一个r,并获得下一个状态s′;最后,将经验元组<s,s′,(a1,a2,...,aM),r>存入经验回放池中;
步骤6,策略网络通过采样经验进行更新;
在更新时,预训练的策略π′被冻结,其参数不会改变;
集中的Critic网络计算出状态值函数v(s′),每个Actor网络计算对应的梯度,网络参数和横向链接的线性层通过反向传播更新,Critic网络则根据环境真实反馈的奖励r,用均方误差计算损失函数;
步骤7,通过观察平均回报是否增加来判断训练是否结束,如果没有结束则重复步骤5和6;如果结束则训练完成。
于本发明的一个或多个实施例当中,在步骤1和2当中,建立多智能体模拟训练环境,构建环境的回报函数r,其跟总消耗负相关:
r=K·e-C
其中K是可调节系数,将回报函数的值域约束在(0,K)之间;
训练环境时间步设置为T;
在连续的T时间内,服务器组要学习合适的任务调度策略来使得
Figure BDA0002609294990000041
最大。
于本发明的一个或多个实施例当中,在步骤2当中,服务器的任务调度策略为确定性策略a=π(s),因此每个策略π的状态值函数
v(s)=Ea~π(s)[π(a|s)Q(s,a)]需要改写成
v(s)=Q(s,a)|a=π(s);强化学习中的折扣因子γ和学习效率α取值在(0,1)范围内;在确定性策略的设置下,每个智能体的优化函数为累计期望奖励
Figure BDA0002609294990000051
于本发明的一个或多个实施例当中,在步骤3当中,为每个服务器构建一个Actor网络,网络结构为多层全连接层,输入的维度与状态s一致,输出为一个确定性策略;
为所有服务器构建一个Critic网络,第一个输入为状态s,经过一个全连接层处理;第二个输入为所有服务器的联合动作(a1,a2,...,aM),同样被一个全连接层提取特征;将两个输入处理后的特征合并,之后是多层全连接层,输出一个一维的标量,即为Q(s,a1,a2,...,aM);
在这种集中训练分散执行的机制下,每个Actor网络用于独立的选择动作,而Critic网络集中来判断联合动作的好坏。
于本发明的一个或多个实施例当中,在步骤4当中,为目标任务选取合适的源任务,即为每个目标任务中的服务器从源任务中随机分配一个策略(π′1,π′2,...,π′M),π′k为第k个服务器被分配的策略;
在一个服务器的策略π中,一共有L层网络,第i层的输出为
hi=f(ui-1;θi);其中θi为第i层的参数;
ui-1=Linear(hi-1,h′i-1);
因此策略网络π的输出a=π(s)=f(uL-1;θL);
对于被分配的策略π′来说,在每个时间步,它都需要对当前状态做出响应,将自己每层网络计算得到的特征传递到目标策略中去。
于本发明的一个或多个实施例当中,在步骤5当中,首先得到环境状态s,然后在[0,1]中取一个随机数η,如果η≤ε,则每个服务器根据自己的策略网络生成联合动作(a1,a2,...,aM);反之,每个服务器随机选择一个任务调度方案执行;
在执行结束后,状态转移到s′,返回一个回报reward,将<s,s′,(a1,a2,...,aM),r>存储到经验回放池中,所述经验回放池用于消除样本间的序列相关性,避免在一个回合中的过拟合,以及用于在神经网络更新时批处理更新。
于本发明的一个或多个实施例当中,在训练初期,服务器们在环境中探索,随着策略的慢慢收敛,ε逐渐变大,服务器们不断地优化自身策略,直到学习结束为止。
于本发明的一个或多个实施例当中,在步骤6当中,随机从经验回放池中采样经验;
先计算Critic网络的误差,使用均方误差函数计算:
L(θ)=Es,a,r,s′[(Q(s,a1,a2,...,aM)-y)2],其中Q(s,a1,a2,...,aM)通过Critic网络输出得到,且
Figure BDA0002609294990000061
Actor网络的梯度计算如下:
Figure BDA0002609294990000062
critic网络借用了全局信息学习,actor网络用了局部观测信息;
在更新时,预训练的策略π′被冻结,横向链接中的线性层需要反向传播更新。
于本发明的一个或多个实施例当中,在步骤7当中,记录一个回合内的平均回报mr=∑trt/T,在多个回合内如果mr不再增加,且损失函数L(θ)不再减小,则服务器组的策略训练结束。
本发明的有益效果包括:
(1)通过集中训练分散执行机制来训练移动边缘计算服务器组的调度策略。在这种机制的多智能体强化学习中,每个智能体分散训练自己的Actor,不会因为智能体数目增多而导致维数灾难的问题。而多个智能体又通过一个集中的Critic网络来指导Actor网络,因此随着训练的进行能够适应彼此的动作。
(2)在训练时,用经验回放算法打破连续样本间的序列相关性,提高样本使用率。强化学习中探索与执行的平衡用来完成,避免收敛到局部最优解的情况。
(3)将横向链接引入到多智能体强化学习中。与策略重用,经验重用等传统的应用于强化学习的迁移学习方法不同,横向链接是对特征的迁移。在Actor网络的每一层都重用预训练网络的特征,并于自身的特征通过线性层整合。在源任务与目标任务相似的情况下,即源任务中各个服务器的部署方案和配置与目标任务相似,重用已有特征能够大大加快训练效率。当源任务与目标任务差别较大,这种特征在目标任务中并不重要时,智能体又能训练新的特征,因此几乎不会造成负迁移。
附图说明
图1为本发明的执行流程图。
具体实施方式
如下结合附图1,对本申请方案作进一步描述:
针对边缘计算服务器的任务调度问题,本发明提出一种基于迁移和强化学习的移动边缘计算系统任务调度方法,其包括如下步骤:
步骤1,建立多智能体模拟训练环境,构建环境的回报函数r,其跟总消耗负相关:r=K·e-C,其中K是可调节系数,将回报函数的值域约束在(0,K)之间,而C则根据综合延迟和能耗计算:
C=∑mEn~π(m)(cm,n)+∑n∈N′ln (1)
其中π(m)是第m个服务器的部署策略,N′是未获得服务器的用户集合,ln是该用户在本地执行的消耗。cm,n=λ1Tm.n2Em,n,Tm.n和Em,n分别是第m个服务器处理第n个任务的延迟和能耗。λ1和λ2为权重因子。训练环境时间步设置为T,在连续的T时间内,服务器组要学习合适的任务调度策略来使得
Figure BDA0002609294990000081
最大。由于所有服务器的目标一致,都是为了让整个服务器组的资源消耗最少,总回报最大,因此集中的回报可以用于所有服务器的策略训练。在每个时间步,所有服务器获得的回报是一致的。
步骤2,服务器的任务调度策略为确定性策略a=π(s),因此每个策略π的状态值函数
v(s)=Ea~π(s)[π(a|s)Q(s,a)] (2)
需要改写成
v(s)=Q(s,a)|a=π(s) (3)
强化学习中的折扣因子γ和学习效率α取值在(0,1)范围内。在确定性策略的设置下,每个智能体的优化函数为累计期望奖励
Figure BDA0002609294990000082
步骤3,为每个服务器构建一个Actor网络,网络结构为多层全连接层,输入的维度与状态s一致,输出为一个确定性策略。为所有服务器构建一个Critic网络,第一个输入为状态s,经过一个全连接层处理;第二个输入为所有服务器的联合动作(a1,a2,...,aM),同样被一个全连接层提取特征。将两个输入处理后的特征合并,之后是多层全连接层,输出一个一维的标量,即为Q(s,a1,a2,...,aM)。在这种集中训练分散执行的机制下,每个Actor独立的选择动作,而Critic网络集中来判断联合动作的好坏。多智能体系统的不稳定性可以通过这种方式来解决。
步骤4,为目标任务选取合适的源任务,为每个目标任务中的服务器从源任务中随机分配一个策略(π′1,π′2,...,π′M),π′k为第k个服务器被分配的策略。在一个服务器的策略π中,一共有L层网络,第i层的输出为
hi=f(ui-1;θi) (5)
其中θi为第i层的参数。
ui-1=Linear(hi-1,h′i-1) (6)
因此策略网络π的输出
a=π(s)=f(uL-1;θL) (7)
对于被分配的策略π′来说,在每个时间步,它都需要对当前状态做出响应,将自己每层网络计算得到的特征传递到目标策略中去。但它的输出则不需要做出任何处理。
步骤5,根据步骤2,3和4构造的训练模型开始训练。首先得到环境状态s,然后在[0,1]中取一个随机数η,如果η≤ε,则每个服务器根据自己的策略网络生成联合动作(a1,a2,...,aM)。反之,每个服务器随机选择一个任务调度方案执行。在训练初期,ε可以很小,服务器们尽可能多的在环境中探索;而随着策略的慢慢收敛,ε逐渐变大,服务器们不断地优化自身策略,直到学习结束为止。
在执行结束后,状态转移到s′,并返回一个回报r,将<s,s′,(a1,a2,...,aM),r>存储到经验回放池中。经验回放池的建立一是为了消除样本间的序列相关性,避免在一个回合中的过拟合,另外是为了在神经网络更新时批处理更新。
步骤6,在经验回放池中的经验足够之后,随机从经验回放池中采样经验。先计算Critic网络的误差,使用均方误差函数计算:
L(θ)=Es,a,r,s′[(Q(s,a1,a2,...,aM)-y)2] (8)
其中Q(s,a1,a2,...,aM)通过Critic网络输出得到,且
Figure BDA0002609294990000101
Actor网络的梯度计算如下:
Figure BDA0002609294990000102
如上可以看出critic借用了全局信息学习,actor只是用了局部观测信息。在更新时,预训练的策略π′被冻结。但横向链接中的线性层需要反向传播更新。
步骤7,记录一个回合内的平均回报mr=∑trt/T,在多个回合内如果mr不再增加,且损失函数L(θ)不再减小,则服务器组的策略训练结束。
由于边缘计算服务器的任务调度问题已经被研究者通过多智能体强化学习技术解决,但是多智能体强化学习的训练花费通常巨大,并且要耗费很长时间。当多智能体环境发生变化时,重新训练调度策略不是必需的。
为了使用已有策略来加速调度策略的训练,本发明针对边缘计算服务器的任务调度问题,在使用多智能体强化学习训练多个边缘服务器调度策略的时候,为每个服务器的调度策略构建相同结构的策略网络。
这些策略网络不仅拥有相同的网络层,并且每层的节点数目也相同。使用集中训练分散执行的机制来训练这些策略,以此来避免因为服务器数目过多而引起的维数灾难问题。
首先,为每个服务器构建一个Actor-Critic网络来训练它的调度策略。其中,Actor网络通过自身状态来决定动作,而Critic网络则根据所有服务器的动作和状态来评价该动作的好坏。在本发明中,所有服务器共享一个Critic网络,因为它们的目标是一致的:用尽可能少的资源完成所有用户的任务。每个服务器拥有自己独立的Actor网络,因此各个服务器被允许存在差异。在训练新的边缘计算服务器组调度任务时,将源任务中的策略重用,通过横向链接来迁移策略网络中的特征。
训练时,每个目标任务中的策略被随机分配一个源任务中已训练的策略。在横向链接中,源任务中的策略将自己每个隐含层的输出链接到目标任务策略的相应层中。因此,在目标任务训练时,每个智能体的状态不仅被自身的策略网络处理,也被所分配给它的源任务中的策略网络进行处理。
在横向链接末端,用一个线性层来将被迁移的特征和训练的特征整合起来,并处理成与下一层维度相同的数据。在目标任务训练时,源任务中的策略是被冻结的,并不会随着梯度的反向传播更新。同时新策略不仅接受被迁移的特征,也学习新的特征,因此不仅能够加速训练,而且几乎不会造成较差的局部最优解和负迁移。
当源任务和目标任务中服务器数目发生改变,或者用户数目增多或者减少,又或者服务器部署发生变动,本发明提出的多智能体迁移学习能够充分利用训练好的调度策略,在短时间完成新的调度策略训练。
上述优选实施方式应视为本申请方案实施方式的举例说明,凡与本申请方案雷同、近似或以此为基础作出的技术推演、替换、改进等,均应视为本专利的保护范围。

Claims (9)

1.一种基于迁移和强化学习的移动边缘计算系统任务调度方法,其特征在于,包括如下步骤:
步骤1,为移动边缘计算服务器组构建多智能体强化学习优化目标;
设定环境中有N个用户,第n个用户的计算任务为Rn
在同一个基站中,有M个服务器被同时部署在不同位置为用户服务,用第m个基站处理Rn的综合延迟和能耗的加权总开销可以表示为:cm,n=λ1Tm.n2Em,n,其中λ1和λ2是权重因子,Tm.n和Em.n分别是第m个服务器处理第n个任务的延迟和能耗;
在以服务器为学习智能体的该多智能体强化学习模型中,智能体的目的是最小化总消耗:C=∑mEn~π(m)(cm,n)+∑n∈N′ln,其中π(m)是第m个服务器的部署策略,N′是未获得服务器的用户集合,ln是该用户在本地执行的消耗;
步骤2,建立完整的多智能体强化学习模型;
其中,智能体的状态s为服务器到基站的相对位置,用户的相对位置和任务量;策略π是状态到动作的映射函数;动作a=π(s)是根据策略π在当前状态s下所执行的任务调度方案;回报函数r与总消耗C负相关;γ为折扣因子,用来平衡当前奖励和延时奖励的关系;α是学习效率,即一个单步更新时的更新程度;
步骤3,构建每个服务器的策略;
用集中的critic网络来估计值函数,分散的actor网络来进行决策;所有服务器共享一个critic网络,在这个网络中,输入是状态s以及所有服务器在当前状态下的动作(a1,a2,...,aM),输出的是联合动作值Q(s,a1,a2,...,aM),每个服务器的actor网络则根据状态s输出一个确定性的动作a;
步骤4,建立横向链接;
每个服务器被随机分配一个预训练的策略π′,在actor网络的每个网络层,都与策略π′的actor网络在该层输出的隐藏状态用线性层整合;
在第i层,上一层传递下来的隐藏值为hi-1,而π′的第i-1层输出为h′i-1,线性层处理得到ui-1=Linear(hi-1,h′i-1),则actor网络第i层的输出为hi=f(ui-1;θi),其中θi是第i层的参数;
步骤5,根据步骤2、3和4构造的训练模型开始训练;
每个时隙,先从环境中得到状态s,然后每个智能体都根据自己的策略网络选择动作,其探索和利用的平衡用ε-greedy算法来实现;
在获得联合动作(a1,a2,...,aM)后执行,环境返回一个reward,并获得下一个状态s′;最后,将经验元组<s,s′,(a1,a2,...,aM),r>存入经验回放池中;
步骤6,策略网络通过采样经验进行更新;
在更新时,预训练的策略π′被冻结,其参数不会改变;集中的Critic网络计算出状态值函数v(s′),每个Actor网络计算对应的梯度,网络参数和横向链接的线性层通过反向传播更新,Critic网络则根据环境真实反馈的奖励r,用均方误差计算损失函数;
步骤7,通过观察平均回报是否增加来判断训练是否结束,如果没有结束则重复步骤5和6;如果结束则训练完成。
2.根据权利要求1所述的基于迁移和强化学习的移动边缘计算系统任务调度方法,其特征在于:在步骤1和2当中,建立多智能体模拟训练环境,构建环境的回报函数r,其跟总消耗负相关:r=K·e-C,其中K是可调节系数,将回报函数的值域约束在(0,K)之间;
训练环境时间步设置为T,在连续的T时间内,服务器组要学习合适的任务调度策略来使得
Figure FDA0002609294980000031
最大。
3.根据权利要求2所述的基于迁移和强化学习的移动边缘计算系统任务调度方法,其特征在于:在步骤2当中,服务器的任务调度策略为确定性策略a=π(s),因此每个策略π的状态值函数
v(s)=Ea~π(s)[π(a|s)Q(s,a)]需要改写成
v(s)=Q(s,a)|a=π(s);强化学习中的折扣因子γ和学习效率α取值在(0,1)范围内;在确定性策略的设置下,每个智能体的优化函数为累计期望奖励
Figure FDA0002609294980000032
4.根据权利要求1所述的基于迁移和强化学习的移动边缘计算系统任务调度方法,其特征在于:在步骤3当中,为每个服务器构建一个Actor网络,网络结构为多层全连接层,输入的维度与状态s一致,输出为一个确定性策略;为所有服务器构建一个Critic网络,第一个输入为状态s,经过一个全连接层处理;第二个输入为所有服务器的联合动作(a1,a2,...,aM),同样被一个全连接层提取特征;将两个输入处理后的特征合并,之后是多层全连接层,输出一个一维的标量,即为Q(s,a1,a2,...,aM);在这种集中训练分散执行的机制下,每个Actor网络用于独立的选择动作,而Critic网络集中来判断联合动作的好坏。
5.根据权利要求1所述的基于迁移和强化学习的移动边缘计算系统任务调度方法,其特征在于:在步骤4当中,为目标任务选取合适的源任务,即为每个目标任务中的服务器从源任务中随机分配一个策略(π′1,π′2,...,π′M),π′k为第k个服务器被分配的策略;
在一个服务器的策略π中,一共有L层网络,第i层的输出为
hi=f(ui-1;θi);其中θi为第i层的参数;
ui-1=Linear(hi-1,h′i-1);
因此策略网络π的输出a=π(s)=f(uL-1;θL);
对于被分配的策略π′来说,在每个时间步,它都需要对当前状态做出响应,将自己每层网络计算得到的特征传递到目标策略中去。
6.根据权利要求1所述的基于迁移和强化学习的移动边缘计算系统任务调度方法,其特征在于:在步骤5当中,首先得到环境状态s,然后在[0,1]中取一个随机数η,如果η≤ε,则每个服务器根据自己的策略网络生成联合动作(a1,a2,...,aM);反之,每个服务器随机选择一个任务调度方案执行;
在执行结束后,状态转移到s′,并返回一个回报r,将<s,s′,(a1,a2,...,aM),r>存储到经验回放池中,所述经验回放池用于消除样本间的序列相关性,避免在一个回合中的过拟合,以及用于在神经网络更新时批处理更新。
7.根据权利要求6所述的基于迁移和强化学习的移动边缘计算系统任务调度方法,其特征在于:在训练初期,服务器们在环境中探索,随着策略的慢慢收敛,ε逐渐变大,服务器们不断地优化自身策略,直到学习结束为止。
8.根据权利要求1所述的基于迁移和强化学习的移动边缘计算系统任务调度方法,其特征在于:在步骤6当中,随机从经验回放池中采样经验;
先计算Critic网络的误差,使用均方误差函数计算:
L(θ)=Es,a,r,s′[(Q(s,a1,a2,...,aM)-y)2],其中Q(s,a1,a2,...,aM)通过Critic网络输出得到,且
Figure FDA0002609294980000051
Actor网络的梯度计算如下:
Figure FDA0002609294980000052
critic网络借用了全局信息学习,actor网络用了局部观测信息;
在更新时,预训练的策略π′被冻结,横向链接中的线性层需要反向传播更新。
9.根根据权利要求1所述的基于迁移和强化学习的移动边缘计算系统任务调度方法,其特征在于:在步骤7当中,记录一个回合内的平均回报mr=∑trt/T,在多个回合内如果mr不再增加,且损失函数L(θ)不再减小,则服务器组的策略训练结束。
CN202010748707.6A 2020-07-30 2020-07-30 基于迁移和强化学习的移动边缘计算系统任务调度方法 Active CN111858009B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010748707.6A CN111858009B (zh) 2020-07-30 2020-07-30 基于迁移和强化学习的移动边缘计算系统任务调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010748707.6A CN111858009B (zh) 2020-07-30 2020-07-30 基于迁移和强化学习的移动边缘计算系统任务调度方法

Publications (2)

Publication Number Publication Date
CN111858009A true CN111858009A (zh) 2020-10-30
CN111858009B CN111858009B (zh) 2022-06-17

Family

ID=72946297

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010748707.6A Active CN111858009B (zh) 2020-07-30 2020-07-30 基于迁移和强化学习的移动边缘计算系统任务调度方法

Country Status (1)

Country Link
CN (1) CN111858009B (zh)

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112306641A (zh) * 2020-11-18 2021-02-02 中国科学院计算技术研究所 一种用于虚拟机迁移模型的训练方法
CN112612604A (zh) * 2020-12-14 2021-04-06 上海哔哩哔哩科技有限公司 基于Actor模型的任务调度方法、装置
CN112734286A (zh) * 2021-01-22 2021-04-30 东华大学 一种基于多策略深度强化学习的车间调度方法
CN112764936A (zh) * 2021-01-29 2021-05-07 北京邮电大学 基于深度强化学习的边缘计算服务器信息处理方法及装置
CN112764932A (zh) * 2021-01-27 2021-05-07 西安电子科技大学 基于深度强化学习的计算密集型工作负载高能效分配方法
CN112804107A (zh) * 2021-01-28 2021-05-14 南京邮电大学 一种物联网设备能耗自适应控制的分层联邦学习方法
CN112969155A (zh) * 2021-02-02 2021-06-15 南京邮电大学 一种面向林火检测传感器网络节点的任务调度方法
CN113015196A (zh) * 2021-02-23 2021-06-22 重庆邮电大学 一种基于状态感知的网络切片故障愈合方法
CN113064671A (zh) * 2021-04-27 2021-07-02 清华大学 基于多智能体的边缘云可扩展任务卸载方法
CN113189983A (zh) * 2021-04-13 2021-07-30 中国人民解放军国防科技大学 一种面向开放场景的多机器人协同多目标采样方法
CN113269329A (zh) * 2021-04-30 2021-08-17 北京控制工程研究所 一种多智能体分布式强化学习方法
CN113504987A (zh) * 2021-06-30 2021-10-15 广州大学 基于迁移学习的移动边缘计算任务卸载方法及装置
CN113572647A (zh) * 2021-07-30 2021-10-29 同济大学 一种基于强化学习的区块链-边缘计算联合系统
CN113778691A (zh) * 2021-11-10 2021-12-10 清华大学 一种任务迁移决策的方法、装置及系统
CN113973113A (zh) * 2021-10-27 2022-01-25 天津理工大学 一种面向移动边缘计算的分布式服务迁移方法
CN114066232A (zh) * 2021-11-15 2022-02-18 内蒙古北方重工业集团有限公司 基于分布式强化学习和边缘计算的工厂调度方法及系统
CN114202168A (zh) * 2021-11-18 2022-03-18 中山大学 一种基于多智能体强化学习的协同充电方法
CN114546608A (zh) * 2022-01-06 2022-05-27 上海交通大学 一种基于边缘计算的任务调度方法
CN114757362A (zh) * 2022-04-11 2022-07-15 西安交通大学 一种基于边缘增强的多智能体系统通信方法及相关装置
CN115202210A (zh) * 2022-07-29 2022-10-18 南开大学 一种基于多任务强化学习的流固耦合系统控制方法
CN115484304A (zh) * 2022-08-02 2022-12-16 重庆邮电大学 一种基于轻量级学习的实时服务迁移方法
WO2023082552A1 (zh) * 2021-11-10 2023-05-19 北京航空航天大学杭州创新研究院 分布式模型训练方法、系统及相关装置
CN117041330A (zh) * 2023-10-10 2023-11-10 三峡高科信息技术有限责任公司 一种基于强化学习的边缘微服务细粒度部署方法及系统
CN117933353A (zh) * 2024-01-25 2024-04-26 南栖仙策(南京)科技有限公司 强化学习模型训练方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2008202871A1 (en) * 2008-06-30 2010-01-14 Autonomous Solutions, Inc. Vehicle dispatching method and system
US20170123867A1 (en) * 2013-02-01 2017-05-04 Introspective Power, Inc. Generic distributed processing for multi-agent systems
CN109857534A (zh) * 2019-02-12 2019-06-07 浙江方正印务有限公司 一种基于策略梯度强化学习的智能任务调度策略训练方法
CN110347495A (zh) * 2019-07-24 2019-10-18 张�成 一种使用深度强化学习进行移动边缘计算的任务迁移方法
CN111461347A (zh) * 2020-04-02 2020-07-28 中国科学技术大学 优化经验回放采样策略的强化学习方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2008202871A1 (en) * 2008-06-30 2010-01-14 Autonomous Solutions, Inc. Vehicle dispatching method and system
US20170123867A1 (en) * 2013-02-01 2017-05-04 Introspective Power, Inc. Generic distributed processing for multi-agent systems
CN109857534A (zh) * 2019-02-12 2019-06-07 浙江方正印务有限公司 一种基于策略梯度强化学习的智能任务调度策略训练方法
CN110347495A (zh) * 2019-07-24 2019-10-18 张�成 一种使用深度强化学习进行移动边缘计算的任务迁移方法
CN111461347A (zh) * 2020-04-02 2020-07-28 中国科学技术大学 优化经验回放采样策略的强化学习方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
官国飞等: "基于边缘计算与强化学习的配电物联网体系架构研究与应用", 《机械与电子》 *

Cited By (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112306641A (zh) * 2020-11-18 2021-02-02 中国科学院计算技术研究所 一种用于虚拟机迁移模型的训练方法
CN112306641B (zh) * 2020-11-18 2023-07-21 中国科学院计算技术研究所 一种用于虚拟机迁移模型的训练方法
CN112612604A (zh) * 2020-12-14 2021-04-06 上海哔哩哔哩科技有限公司 基于Actor模型的任务调度方法、装置
CN112734286A (zh) * 2021-01-22 2021-04-30 东华大学 一种基于多策略深度强化学习的车间调度方法
CN112764932A (zh) * 2021-01-27 2021-05-07 西安电子科技大学 基于深度强化学习的计算密集型工作负载高能效分配方法
CN112764932B (zh) * 2021-01-27 2022-12-02 西安电子科技大学 基于深度强化学习的计算密集型工作负载高能效分配方法
CN112804107A (zh) * 2021-01-28 2021-05-14 南京邮电大学 一种物联网设备能耗自适应控制的分层联邦学习方法
CN112804107B (zh) * 2021-01-28 2023-04-28 南京邮电大学 一种物联网设备能耗自适应控制的分层联邦学习方法
CN112764936A (zh) * 2021-01-29 2021-05-07 北京邮电大学 基于深度强化学习的边缘计算服务器信息处理方法及装置
CN112764936B (zh) * 2021-01-29 2022-06-14 北京邮电大学 基于深度强化学习的边缘计算服务器信息处理方法及装置
CN112969155A (zh) * 2021-02-02 2021-06-15 南京邮电大学 一种面向林火检测传感器网络节点的任务调度方法
CN113015196B (zh) * 2021-02-23 2022-05-06 重庆邮电大学 一种基于状态感知的网络切片故障愈合方法
CN113015196A (zh) * 2021-02-23 2021-06-22 重庆邮电大学 一种基于状态感知的网络切片故障愈合方法
CN113189983A (zh) * 2021-04-13 2021-07-30 中国人民解放军国防科技大学 一种面向开放场景的多机器人协同多目标采样方法
CN113064671A (zh) * 2021-04-27 2021-07-02 清华大学 基于多智能体的边缘云可扩展任务卸载方法
CN113269329B (zh) * 2021-04-30 2024-03-19 北京控制工程研究所 一种多智能体分布式强化学习方法
CN113269329A (zh) * 2021-04-30 2021-08-17 北京控制工程研究所 一种多智能体分布式强化学习方法
CN113504987B (zh) * 2021-06-30 2023-08-18 广州大学 基于迁移学习的移动边缘计算任务卸载方法及装置
CN113504987A (zh) * 2021-06-30 2021-10-15 广州大学 基于迁移学习的移动边缘计算任务卸载方法及装置
CN113572647B (zh) * 2021-07-30 2022-05-13 同济大学 一种基于强化学习的区块链-边缘计算联合系统
CN113572647A (zh) * 2021-07-30 2021-10-29 同济大学 一种基于强化学习的区块链-边缘计算联合系统
CN113973113B (zh) * 2021-10-27 2023-08-22 天津理工大学 一种面向移动边缘计算的分布式服务迁移方法
CN113973113A (zh) * 2021-10-27 2022-01-25 天津理工大学 一种面向移动边缘计算的分布式服务迁移方法
WO2023082552A1 (zh) * 2021-11-10 2023-05-19 北京航空航天大学杭州创新研究院 分布式模型训练方法、系统及相关装置
CN113778691A (zh) * 2021-11-10 2021-12-10 清华大学 一种任务迁移决策的方法、装置及系统
CN114066232B (zh) * 2021-11-15 2022-07-22 内蒙古北方重工业集团有限公司 基于分布式强化学习和边缘计算的工厂调度方法及系统
CN114066232A (zh) * 2021-11-15 2022-02-18 内蒙古北方重工业集团有限公司 基于分布式强化学习和边缘计算的工厂调度方法及系统
CN114202168A (zh) * 2021-11-18 2022-03-18 中山大学 一种基于多智能体强化学习的协同充电方法
CN114546608A (zh) * 2022-01-06 2022-05-27 上海交通大学 一种基于边缘计算的任务调度方法
CN114546608B (zh) * 2022-01-06 2024-06-07 上海交通大学 一种基于边缘计算的任务调度方法
CN114757362A (zh) * 2022-04-11 2022-07-15 西安交通大学 一种基于边缘增强的多智能体系统通信方法及相关装置
CN114757362B (zh) * 2022-04-11 2024-10-15 西安交通大学 一种基于边缘增强的多智能体系统通信方法及相关装置
CN115202210A (zh) * 2022-07-29 2022-10-18 南开大学 一种基于多任务强化学习的流固耦合系统控制方法
CN115484304A (zh) * 2022-08-02 2022-12-16 重庆邮电大学 一种基于轻量级学习的实时服务迁移方法
CN115484304B (zh) * 2022-08-02 2024-03-19 重庆邮电大学 一种基于轻量级学习的实时服务迁移方法
CN117041330A (zh) * 2023-10-10 2023-11-10 三峡高科信息技术有限责任公司 一种基于强化学习的边缘微服务细粒度部署方法及系统
CN117041330B (zh) * 2023-10-10 2023-12-15 三峡高科信息技术有限责任公司 一种基于强化学习的边缘微服务细粒度部署方法及系统
CN117933353A (zh) * 2024-01-25 2024-04-26 南栖仙策(南京)科技有限公司 强化学习模型训练方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN111858009B (zh) 2022-06-17

Similar Documents

Publication Publication Date Title
CN111858009B (zh) 基于迁移和强化学习的移动边缘计算系统任务调度方法
CN111625361B (zh) 一种基于云端服务器和IoT设备协同的联合学习框架
CN111367657B (zh) 一种基于深度强化学习的计算资源协同合作方法
CN113098714B (zh) 基于强化学习的低时延网络切片方法
US12059619B2 (en) Information processing method and apparatus, computer readable storage medium, and electronic device
CN112631717B (zh) 基于异步强化学习的网络服务功能链动态部署系统及方法
CN113191484A (zh) 基于深度强化学习的联邦学习客户端智能选取方法及系统
CN108111335B (zh) 一种调度和链接虚拟网络功能的方法及系统
CN113434212A (zh) 基于元强化学习的缓存辅助任务协作卸载与资源分配方法
Xiao et al. Fast deep learning training through intelligently freezing layers
CN111585811B (zh) 一种基于多智能体深度强化学习的虚拟光网络映射方法
CN114338504A (zh) 一种基于网络边缘系统的微服务部署和路由方法
CN111274036A (zh) 一种基于速度预测的深度学习任务的调度方法
CN112788605B (zh) 基于双延迟深度确定性策略边缘计算资源调度方法和系统
CN114546608B (zh) 一种基于边缘计算的任务调度方法
CN113570039A (zh) 一种基于强化学习的优化共识的区块链系统
Wang et al. Multiagent deep reinforcement learning for cost-and delay-sensitive virtual network function placement and routing
CN117994635B (zh) 一种噪声鲁棒性增强的联邦元学习图像识别方法及系统
CN117436485A (zh) 基于权衡时延和精度的多退出点的端-边-云协同系统及方法
CN117395687A (zh) 一种星地融合网络节点资源部署方法、系统及电子设备
CN115499440A (zh) 基于经验共享深度强化学习的无服务器边缘任务卸载方法
CN116367190A (zh) 一种面向6g移动网络的数字孪生功能虚拟化方法
CN116566891A (zh) 时延敏感的服务功能链并行路由优化方法、装置及介质
CN110450164A (zh) 机器人控制方法、装置、机器人及存储介质
CN115150335A (zh) 一种基于深度强化学习的最优流量分割的方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20220428

Address after: 710000 No. 127 Youyi West Road, Shaanxi, Xi'an

Applicant after: Northwestern Polytechnical University

Applicant after: Aerospace Ouhua Information Technology Co., Ltd

Address before: 518000 floor 8, building A5, Nanshan Zhiyuan, No. 1001, Xueyuan Avenue, Taoyuan Street, Nanshan District, Shenzhen, Guangdong

Applicant before: Aerospace Ouhua Information Technology Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant