CN114860337A - 一种基于元强化学习算法的计算卸载方法 - Google Patents

一种基于元强化学习算法的计算卸载方法 Download PDF

Info

Publication number
CN114860337A
CN114860337A CN202210534342.6A CN202210534342A CN114860337A CN 114860337 A CN114860337 A CN 114860337A CN 202210534342 A CN202210534342 A CN 202210534342A CN 114860337 A CN114860337 A CN 114860337A
Authority
CN
China
Prior art keywords
task
model
internet
meta
unloading
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210534342.6A
Other languages
English (en)
Other versions
CN114860337B (zh
Inventor
杨钊
王廷
蔡海滨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN202210534342.6A priority Critical patent/CN114860337B/zh
Publication of CN114860337A publication Critical patent/CN114860337A/zh
Application granted granted Critical
Publication of CN114860337B publication Critical patent/CN114860337B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/445Program loading or initiating
    • G06F9/44594Unloading
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/485Task life-cycle, e.g. stopping, restarting, resuming execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/509Offload
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于元强化学习算法的计算卸载方法,其特点是该方法采用在物联网设备、边缘服务器和云服务器协作式应用场景下建立任务卸载决策和资源分配模型,获取当前卸载系统的状态,然后通过元学习获取学习模型,最后通过训练获取任务卸载决策。本发明与现有技术相比具有降低物联网设备计算任务的时延和功耗,从而提升用户体验,有效解决了传统的深度强化学习算法对新任务采样效率低的问题,实现在动态环境中的快速计算卸载决策。

Description

一种基于元强化学习算法的计算卸载方法
技术领域
本发明涉及移动边缘计算技术领域,特别是一种基于元强化学习算法的计算卸载方法。
背景技术
随着物联网设备,如智能手机、传感器和可穿戴设备等的快速增长和应用,大量的计算密集型任务需要从IoT设备转移到云服务器上执行。然而,这些密集行任务的转移过程会涉及到大量的数据传输,这将导致物联网应用的高延迟。移动边缘计算(MEC)的出现可以有效缓解这一挑战。移动边缘计算可以将复杂任务从物联网设备中的计算密集型任务迁移到边缘服务器中,从而为物联网设备提供计算服务。通过利用边缘服务器以及云服务器的计算和决策能力来减少计算延迟和能源,从而提升用户的体验质量。
但是,任务卸载的过程会受到不同因素的影响,如用户习惯、无线信道通信、连接质量、移动设备可用性和云服务器性能等等。因此,做出最优决策是边缘卸载的最关键问题。它需要决定任务是否应该被卸载到边缘服务器或云服务器。如果大量的任务被卸载到云服务器上,带宽将被占用,这将大大增加传输延迟。因此,需要有一个合理的卸载决策方案,使其能够合理地将每个任务分配给处理服务器。一方面,物联网环境中存在大量重复或类似的任务,往往需要从头开始重新训练,导致卸载决策效率低下;另一方面,一些物联网应用场景对任务决策有严格的时间限制,卷积神经网络(CNN)的学习速度慢,不适合满足MEC系统中资源异质性和实时性的要求。
面对快速变化的物联网应用场景,不能在每次MEC环境变化时通过重新计算来重新调整任务卸载决策和无线资源分配,否则会造成更高的服务延迟和成本。虽然,通过引入深度强化学习等智能算法,在MEC的卸载决策方面取得了一些良好的效果,但仍然存在学习速度慢、模型环境变化时原始网络参数失效等挑战。在实际应用场景中,MEC的环境往往随时随地受到很多因素的影响。传统的智能算法通常是基于神经网络的,当MEC环境发生变化时,其原有参数将全部失效,需要大量的训练数据从头开始训练,这使得学习效率很低,重复训练会消耗资源,削弱MEC系统的性能。同时,为了提高效率,还需要高配置的设备来适应高强度的训练。考虑到物联网的延迟和能源消耗,可以对具有一系列依赖性任务的工作流进行卸载决策。然而这个问题是NP-hard的,传统的优化方法很难有效地取得结果。解决上述问题的一个有希望的方法是将深度学习技术,如深度强化学习(DRL)引入边缘云协作的计算范式。由于传统的DRL算法存在着学习速度较慢的缺点,导致训练好的模型不能很好的适应变化的环境,从而影响用户的体验质量。
发明内容
本发明的目的是针对现有技术的不足而设计的一种基于元强化学习算法的计算卸载方法,采用在物联网设备、边缘服务器和云服务器协作式应用场景下建立任务卸载决策和资源分配模型的方法,获取当前卸载系统的状态,通过元学习获取学习模型,然后通过模型训练获取任务卸载决策,该方法综合考虑物联网设备中任务流情况以及各个设备的状态能够优化卸载决策,使用元强化学习的算法,大大降低了物联网设备计算任务的时延和功耗,方法简便,效率高,有效解决了边缘卸载系统中的任务卸载决策和资源分配,以及传统的深度强化学习算法对新任务采样效率低的问题,进一步降低物联网设备处理计算任务的时延和能耗,从而能够提升用户的体验质量。
本发明的目的是这样实现的:一种基于元强化学习算法的计算卸载方法,其特点是采用构建任务卸载决策和资源分配模型的方法,获取当前卸载系统的状态,将其通过元学习获取学习模型,然后通过模型训练获取任务卸载决策,计算卸载具体包括以下四个步骤:
S1、在物联网设备、边缘服务器和云服务器协作式应用场景下建立任务卸载决策和资源分配模型,该模型包括:移动边缘计算卸载环境模型、计算任务模型、计算任务决策模型、计算任务时延模型、计算任务能耗模型和具有马尔可夫决策过程的计算任务卸载模型。
S2、获取当前卸载系统的状态,具体包括以下步骤:
S201:获取当前卸载系统中物联网设备、边缘服务器和云服务器的状态,包括物联网设备的任务状况,以及各设备的计算能力和各个设备之间的传输带宽。
S3:获取学习模型,具体包括以下步骤:
S301:获取物联网设备任务状态;
S302:采样k个学习任务,初始化元策略参数φ0
S303:采样获得状态和行为的集合,并采取相应的动作,评估获得的奖励;
S304:判断奖励是否收敛或者是否达到迭代次数上限。当奖励收敛或已达到迭代次数上限时,即可获取参数,否则继续执行训练;
S305:更新元策略参数;
S306:判断是否收敛或者是否达到迭代次数上限。当奖励收敛或已达到迭代次数上限时,即可获取学习模型,否则继续执行训练。
S4、获取卸载决策,具体包括以下步骤:
S401:采样获得状态和行为的集合,并采取相应的动作,评估获得的奖励;
S402:判断奖励是否收敛或者是否达到迭代次数上限。当奖励收敛或已达到迭代次数上限时,即可获取卸载决策,否则继续执行训练。
所述步骤S1中计算卸载环境模型的建立方法为:在物联网设备、边缘服务器和云服务器协作式应用场景下,该场景包括一个云服务器,多个边缘服务器和多个物联网设备,边缘服务器用M={1,2,...,m}来表示。并且由物联网设备、边缘服务器建立任务计算协作集群,由物联网设备和云服务器建立任务决策集群。
所述步骤S1中的计算任务模型的建立方法为:将每个物联网设备中的计算程序分为连续的工作流,假设第x个工作流的定义如下述(a)式:
Tx={v1,e1,2,v2,…,vi,ei,j,vj,…,en-1,n,vn} (a);
其中,Tx表示物联网设备中第x个工作程序,vi表示工作程序中第i个工作流;ei,j表示工作流vi和工作流vj之间需要传输的数据量。
所述步骤S1中的计算任务决策模型建立方法为:为工作程序中每个工作流分别制定不同的卸载策略,并且用矩阵变量来表示不同的的卸载决策。如工作流vi的卸载决策可由下述(b)式表示为:
dx,i∈(d0,d1,d2,...,dm) (b);
其中,dx,i表示物联网设备中第x个工作程序中第i个工作流的卸载决策,更具体地,d0=[1,0,...,0]T,d1=[0,1,...,0]T,d0=[0,1,...,1]T。d0表示第i个工作流在本地运行,dk(k∈[1,m])表示第i个工作流卸载到边缘服务器k上执行。
所述步骤S1的计算任务时延模型建立方法为:当工作程序中第i个工作流在物联网设备本地运行或者卸载到边缘服务器上执行时,首先需要经过一段时间的计算时延,然后不同工作流传输数据需要经过一段时间的传输时延。因此,任务vi的计算延迟由以下述(c)式计算:
Figure BDA0003647082710000041
其中,f0和fk(k∈[1,m])分别表示物联网设备和服务器k的计算能力。
任务vi和vi之间的传输延迟则由下述(d)式表示为:
Figure BDA0003647082710000042
其中,Wk1,k2表示不同设备之间的传输带宽。
因此,总的传输时延则由下述(e)式表示为:
Figure BDA0003647082710000043
所述步骤S1的计算任务能耗模型建立方法为:当工作程序中第i个工作流在物联网设备本地运行或者卸载到边缘服务器上执行时,首先在物联网设备和边缘服务器上进行计算需要消耗一定的能量,然后不同工作流传输数据需要消耗一定的能量。因此,任务vi的计算能量消耗由下述(f)式计算:
Figure BDA0003647082710000044
其中,δ0和δ1分别表示物联网设备和服务器为处理数据每个CPU计算周期需要消耗的能量。因此,任务vi和vj之间传输数据所消耗的能量由下述(g)式计算:
Figure BDA0003647082710000045
其中,en单位时间传输数据所消耗的能量。因此,总的能量消耗则由下述(h)式计算:
Figure BDA0003647082710000046
本发明总的优化目标为最小化时延和能量消耗,可以将优化目标由下述(k)表示为:
Figure BDA0003647082710000047
其中,w1和w2分别是关于时延和能量的目标系数。
所述步骤S1中具有马尔可夫决策过程的计算任务卸载模型建立方法由下述(j)式表示为:
Tn=(S,A,R,π) (j);
式中,元素从左到右依次表示问题的状态空间、动作空间状态转移矩阵、奖励函数和策略;为了求解上述马尔可夫决策过程,本发明通过使用神经网络来拟合策略函数和价值函数。首先对策略网络输入当前马尔可夫决策过程的状态Si,并逐步输出策略函数与价值函数的拟合结果,以确定下一步动作Ai,直到获得最后一个动作为止。本发明的任务协作卸载算法的训练过程包括深度强化学习和元学习两部分,其中深度强化学习部分基于PPO算法对网络进行训练;元学习部分采用MAML(Model-Agnostic Meta-Learning)算法进行训练。
本发明与现有技术相比具有以下显著的技术进步和有益效果:
1)本发明能够根据卸载系统的状态分别制定不同的决策策略,取得更有效的优化效果。
2)采用元强化学习算法能够有效解决计算卸载与资源分配问题,并且还能解决传统深度强化学习算法对新任务的采样效率低的问题,从而实现在动态环境中的快速计算卸载决策。
3)有效解决了传统的深度强化学习算法对新任务采样效率低的问题,大大降低了物联网设备计算任务的时延和功耗,从而提升用户体验质量。
附图说明
图1为本发明的模型图;
图2为本发明流程图。
具体实施方式
为了更好地理解本技术方案,下面结合附图对本发明作进一步详细描述。
实施例1
参阅图1,本发明在物联网设备、边缘服务器和云服务器协作式应用场景下建立任务卸载决策和资源分配模型,模型构建的具体步骤如下:
1)计算环境:根据云服务器、边缘服务器和物联网设备的地理位置将边缘服务器和云服务器分组为不同的协作集群共同完成物联网设备中任务的。
假设该集群中有一个云服务器、多个边缘服务器以及多个物联网设备。边缘服务器用M={1,2,...,m}来表示。
2)计算任务:假设物联网设备上会产生不同的计算密集型任务,每个计算任务可以分成不同的工作流,每个计算密集型任务可以由下述(a)式表示为:
Tx={v1,e1,2,v2,…,vi,ei,j,vj,…,ek-1,k,vk} (a)。
其中,Tx表示物联网设备中第x个工作程序;vi表示工作程序中第i个工作流;ei,j表示工作流vi和工作流vj之间需要传输的数据量。
3)计算任务执行方式:采用任务本地执行和卸载到边缘服务器上执行的两种执行方式计算密集型任务中不同的工作流,本发明将工作流vi的卸载决策由下述(b)式表示为:
dx,i∈(d0,d1,d2,...,dm) (b)。
其中,dx,i表示物联网设备中第x个工作程序中第i个工作流的卸载决策,更具体地,d0=[1,0,...,0]T,d1=[0,1,...,0]T,d0=[0,1,...,0]T。d0表示第i个工作流在本地运行,dk(k∈[1,m])表示第i个工作流卸载到边缘服务器k上执行。
4)时延模型:本发明在计算密集型任务中不同的工作流会有不同的执行方式,当工作程序中第i个工作流在物联网设备本地运行或者卸载到边缘服务器上执行时,首先要经过一段时间的计算时延,然后不同工作流传输数据需要经过一段时间的传输时延。因此,任务υi的计算延迟由下述(c)式计算:
Figure BDA0003647082710000061
其中,f0和fk(k∈[1,m])分别表示物联网设备和服务器k的计算能力。
任务υi和vj之间的传输延迟由下述(d)式计算:
Figure BDA0003647082710000062
其中,Wk1,k2表示不同设备之间的传输带宽。因此,总的传输时延由下述(e)式计算:
Figure BDA0003647082710000063
5)本发明计算密集型任务中不同的工作流会有不同的执行方式,当工作程序中第i个工作流在物联网设备本地运行或者卸载到边缘服务器上执行时,首先在物联网设备和边缘服务器上进行计算需要消耗一定的能量,然后不同工作流传输数据需要消耗一定的能量。因此,任务vi的计算能量消耗通过下述(f)式计算:
Figure BDA0003647082710000071
其中,δ0和δ1分别表示物联网设备和服务器为处理数据每个CPU计算周期需要消耗的能量。因此,任务υi和υj之间传输数据所消耗的能量由下述(g)式计算:
Figure BDA0003647082710000072
其中,en单位时间传输数据所消耗的能量。因此,总的能量消耗为下述(h)式计算:
Figure BDA0003647082710000073
本发明总的优化目标为最小化时延和能量消耗,可以将优化目标表示为下述(k)式:
Figure BDA0003647082710000074
其中,w1和w2分别是关于时延和能量的目标系数。
6)具有马尔可夫决策过程卸载模型:根据整个边缘卸载系统中的任务卸载协作集群的任务情况和各个设备的资源状况,将整个边缘卸载系统的卸载决策和卸载过程建模为具有马尔可夫决策过程卸载模型,并将该过程参数化为下述(j)式:
Tn=(S,A,R,π) (j);
式中,元素从左到右依次表示问题的状态空间、动作空间状态转移矩阵、奖励函数和策略。
所述状态空间由下述(m)式定义示为:
St={Tx,f0,f1,f2,...,fm,Wk1,k2} (m);
其中,Tx={υ1,e1,2,υ2,…,υi,ei,j,υj,…,en-1,n,υn}表示物联网设备中工作程序不同的工作流;f0,f1,f2,...,fm分别表示物理网设备和边缘服务器的计算能力;Wk1,k2表示不同设备之间的带宽,例如W0,1表示物联网设备和边缘服务器1之间的带宽。
所述动作空间由下述(n)式定义为:
At={dx,0,dx,1,...,dx,n} (n)。
其中,dx,i(i∈[1,n])表示不同工作流的卸载决策,更具体地,每个工作流的卸载决策又可以由下述(p)式定义为:
dx,i∈(d0,d1,d2,...,dm) (p)。
其中,d0=[1,0,...,0]T,d1=[0,1,...,0]T,d0=[0,1,...,0]T;d0表示第i个工作流在本地运行;dk(k∈[1,m])表示第i个工作流卸载到边缘服务器k上执行。
所述奖励,由于系统目标是最小化边缘卸载系统的任务处理延迟和能量消耗,所以本发明将马尔可夫决策过程的奖励分为两部分,第一部分与处理任务的时间延迟相关,第二部分与为了完成任务所消耗的能量有关。
与处理任务的时间延迟相关的奖励由下述(q)式定义为:
Figure BDA0003647082710000081
其中,LLocal表示工作程序完全在本地执行所花费的时间;Lx表示工作程序通过边缘卸载系统进行计算所消耗的时间。
与完成任务所消耗的能量部分的奖励由下述(r)式定义为:
Figure BDA0003647082710000082
其中,ELocal表示工作程序完全在本地执行所消耗的能量;Ex表示工作程序通过边缘卸载系统进行计算所消耗的能量。
因此,可以将奖励定义为下述(s)式:
Figure BDA0003647082710000083
其中,wL和wE分别是关于时延和能量的奖励系数。
所述策略为当任务Tx到达时整个系统的策略为π(Ai|Si),从初始状态S0开始,根据策略π(Ai|Si),每执行一个动作,系统即进入一个新的状态并得到一个奖励,直到物联网设备中最后一个任务决策完成。
为了求解上述马尔可夫决策过程,本发明通过使用神经网络来拟合策略函数和价值函数,首先对策略网络输入当前马尔可夫决策过程的状态Si,并逐步输出策略函数与价值函数的拟合结果,以确定下一步动作Ai,直到获得最后一个动作为止。
本发明的任务协作卸载算法的训练过程包括深度强化学习和元学习两部分,下面会分别对这两部分进行详细阐述。
1)算法训练的深度强化学习部分
本发明基于PPO(Proximal Policy Optimization)算法对上述网络进行训练,PPO算法是目前OpenAI基线集强化学习基准算法的默认算法,它通过简单的clip机制选择目标函数的保守下限,不需要计算TRPO算法约束,从而提高算法的数据采样效率,以及算法的鲁棒性,降低超参数选择的复杂性。PPO算法的具体过程是为待优化的策略维护两个策略网络。第一个策略网络是优化的策略网络,第二个策略网络是以前用来收集样本的策略网络,现在还没有被更新。然后根据收集的样本,计算出优势估计值
Figure BDA0003647082710000091
最后,通过最大化的目标函数来更新网络参数,从而优化策略πθ。
所述PPO算法的目标函数如下述(t)式定义为:
Figure BDA0003647082710000092
其中,clip函数用来限制的πθ的范围;rt(θ)为采样策略与目标策略的比值,且由下述(u)式定义为:
Figure BDA0003647082710000093
其中,πθold(at|st)固定用来采样数据;πθ(at|st)不断更新用来训练网络;
Figure BDA0003647082710000094
为下述(v)式定义的优势估计值:
Figure BDA0003647082710000095
综上所述,策略网络参数优化的更新规则为下述(w)式定义为:
Figure BDA0003647082710000096
其中,α为Inner Loop训练的学习率。在经过一定数量的样本学习之后,目标策略网络会将该网络的参数赋给采样策略网络,即θold←θ。
2)算法训练的元学习部分
本发明基于MAML(Model-Agnostic Meta-Learning)算法按下述步骤进行训练:
a、首先准备多个个训练任务(Train Task),再准备几个测试任务(Test Task),测试任务用于评估meta learning学习到的参数的效果,训练任务和测试任务均从采样中产生。
b、初始化一个meta网络的参数为φ0,meta网络是最终要用来应用到新的测试任务中的网络,该网络中存储了“先验知识”。
c、开始执行迭代预训练并得到meta网络的参数。
d、使用测试任务对meta learning的效果进行评估。
参阅图2,本发明提出了基于元强化学习算法的计算卸载方法,该方法主要分为三个主要阶段:(1)获取当前卸载系统的状态、(2)获得学习模型、(3)获取卸载决策。
(1)获取当前卸载系统的状态
获取当前卸载系统中物联网设备、边缘服务器和云服务器的状态,包括物联网设备的任务状况,以及各设备的计算能力和各个设备之间的传输带宽。
(2)获取学习模型
步骤一:获取物联网设备任务状态;
步骤二:采样k个学习任务,初始化元策略参数φ0
步骤三:采样获得状态和行为的集合,并采取相应的动作,评估获得的奖励;
步骤四:判断奖励是否收敛或者是否达到迭代次数上限,当奖励收敛或已达到迭代次数上限时,即可获取参数,否则继续执行训练;
步骤五:更新元策略参数;
步骤六:判断是否收敛或者是否达到迭代次数上限,当奖励收敛或已达到迭代次数上限时,即可获取学习模型,否则继续执行训练。
(3)获取卸载决策
步骤一:采样获得状态和行为的集合,并采取相应的动作,评估获得的奖励;
步骤二:判断奖励是否收敛或者是否达到迭代次数上限,当奖励收敛或已达到迭代次数上限时,即可获取卸载决策,否则继续执行训练。
综上,本发明中的计算卸载方法旨在解决边缘卸载系统中的任务卸载决策和资源分配问题,进一步降低物联网设备处理计算任务的时延和能耗。该计算卸载方法首先在物联网设备、边缘服务器和云服务器协作式应用场景下建立任务卸载决策和资源分配模型,接着获取当前卸载系统的状态,然后通过元学习获取学习模型,最后通过训练获取任务卸载决策。本发明综合考虑物联网设备中任务流情况以及各个设备的状态能够优化卸载决策,最后基于元强化学习的算法能够解决传统的深度强化学习算法对新任务采样效率低的问题。
以上只是本发明的较佳实现而已,并非对本发明做任何形式上的限制,故凡未脱离本发明技术方案的内容,依据本发明的技术实质对以上实现方法所做的任何的简单修改、等同变化与修饰,凡为本发明等效实施,均应包含于本专利的权利要求范围之内。

Claims (8)

1.一种基于元强化学习算法的计算卸载方法,其特征在于采用构建任务卸载决策和资源分配模型的方法,获取当前卸载系统的状态,将其通过元学习获取学习模型,然后通过模型训练获取任务卸载决策,计算卸载具体包括以下四个步骤:
S1、在物联网设备、边缘服务器和云服务器协作式应用场景下,建立任务卸载决策和资源分配模型,该模型具体包括:移动边缘的计算卸载环境模型、计算任务模型、计算任务决策模型、计算任务时延模型、计算任务能耗模型,以及具有马尔可夫决策过程的计算任务卸载模型;
S2、获取当前卸载系统中物联网设备、边缘服务器和云服务器的状态,具体包括:物联网设备的任务状况,以及各设备的计算能力和各个设备之间的传输带宽;
S3:获取学习模型,具体包括以下步骤:
S301:获取物联网设备任务状态;
S302:采样k个学习任务,初始化元策略参数φ0
S303:采样获得状态和行为的集合,评估获得的奖励;
S304:判断奖励是否收敛,或是否达到迭代次数上限,当奖励收敛或已达到迭代次数上限时,即可获取参数,否则继续执行训练;
S305:更新元策略参数;
S306:判断是否收敛或是否达到迭代次数上限,当奖励收敛或已达到迭代次数上限时,即可获取学习模型,否则继续执行训练;
S4、获取卸载决策,具体包括以下步骤:
S401:采样获得状态和行为的集合,评估获得的奖励;
S402:判断奖励是否收敛或是否达到迭代次数上限,当奖励收敛或已达到迭代次数上限时,即可获取卸载决策,否则继续执行训练。
2.根据权利要求1所述的一种基于元强化学习算法的计算卸载方法,其特征在于所述步骤S1中的计算卸载环境模型是在物联网设备、边缘服务器和云服务器协作式应用场景下构建的,该场景包括:一个云服务器,多个边缘服务器和多个物联网设备,所述边缘服务器用M={1,2,...,m}来表示,并由物联网设备、边缘服务器建立任务计算协作集群、物联网设备和云服务器建立任务决策集群。
3.根据权利要求1所述的一种基于元强化学习算法的计算卸载方法,其特征在于所述步骤S1中的计算任务模型将每个物联网设备中的计算程序分为连续的工作流,并定义第x个工作流由下述(a)式表示为:
Tx={υ1,e1,2,υ2,…,υi,ei,j,υj,…,en-1,n,υn} (a);
其中,Tx表示物联网设备中第x个工作程序;υi表示工作程序中第i个工作流;ei,j表示工作流υi和工作流υj之间需要传输的数据量。
4.根据权利要求1所述的一种基于元强化学习算法的计算卸载方法,其特征在于所述步骤S1中的计算任务决策模型为工作程序中每个工作流分别制定不同的卸载策略,所述不同的卸载策略由下述(b)式的矩阵变量来表示:
dx,i∈(d0,d1,d2,...,dm) (b);
其中,dx,i表示物联网设备中第x个工作程序中第i个工作流的卸载决策;dk(k∈[1,m])表示第i个工作流卸载到边缘服务器k上执行。
5.根据权利要求1所述的一种基于元强化学习算法的计算卸载方法,其特征在于所述步骤S1中的计算任务时延模型当工作程序中第i个工作流在物联网设备本地运行或卸载到边缘服务器上执行时的计算时延、传输延迟以及总传输时延分别由下述(c)~(e)式计算:
Figure FDA0003647082700000021
其中,f0和fk(k∈[1,m])分别表示物联网设备和边缘服务器k的计算能力;υi为第i任务;
Figure FDA0003647082700000022
其中,Wk1,k2表示不同设备之间的传输带宽;
Figure FDA0003647082700000023
6.根据权利要求1所述的一种基于元强化学习算法的计算卸载方法,其特征在于所述步骤S1中的计算任务能耗模型当工作程序中第i个工作流在物联网设备本地运行或卸载到边缘服务器上执行时的计算能量消耗、传输能量消耗以及总能量消耗分别由下述(f)~(h)式计算:
Figure FDA0003647082700000024
其中,δ0和δ1分别表示物联网设备和边缘服务器为处理数据每个CPU计算周期需要消耗的能量;
Figure FDA0003647082700000031
其中,en单位时间传输数据所消耗的能量;
Figure FDA0003647082700000032
7.根据权利要求1所述的一种基于元强化学习算法的计算卸载方法,其特征在于所述步骤S1中具有马尔可夫决策过程的计算任务卸载模型由下述(j)式表示为:
Tn=(S,A,R,π) (j);
式中,元素从左到右依次表示问题的状态空间、动作空间状态转移矩阵、奖励函数和策略;
所述马尔可夫决策过程的求解使用神经网络来拟合策略函数和价值函数,首先对策略网络输入当前马尔可夫决策过程的状态Si,并逐步输出策略函数与价值函数的拟合结果,以确定下一步动作Ai,直到获得最后一个动作为止,
所述计算任务卸载模型的训练过程包括:深度强化学习和元学习两部分,其中深度强化学习部分基于PPO算法对网络进行训练;元学习部分采用MAML(Model-Agnostic Meta-Learning)算法进行训练。
8.根据权利要求1或权利要求6所述的一种基于元强化学习算法的计算卸载方法,其特征在于所述计算任务能耗模型由下述(k)式优化为最小化时延和能量消耗:
Figure FDA0003647082700000033
其中,ω1和ω2分别是关于时延和能量的目标系数。
CN202210534342.6A 2022-05-17 2022-05-17 一种基于元强化学习算法的计算卸载方法 Active CN114860337B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210534342.6A CN114860337B (zh) 2022-05-17 2022-05-17 一种基于元强化学习算法的计算卸载方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210534342.6A CN114860337B (zh) 2022-05-17 2022-05-17 一种基于元强化学习算法的计算卸载方法

Publications (2)

Publication Number Publication Date
CN114860337A true CN114860337A (zh) 2022-08-05
CN114860337B CN114860337B (zh) 2023-07-25

Family

ID=82637339

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210534342.6A Active CN114860337B (zh) 2022-05-17 2022-05-17 一种基于元强化学习算法的计算卸载方法

Country Status (1)

Country Link
CN (1) CN114860337B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115934298A (zh) * 2023-01-12 2023-04-07 南京南瑞信息通信科技有限公司 一种前后端协作的电力监控mec卸载方法、系统及存储介质
CN115934298B (zh) * 2023-01-12 2024-05-31 南京南瑞信息通信科技有限公司 一种前后端协作的电力监控mec卸载方法、系统及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113434212A (zh) * 2021-06-24 2021-09-24 北京邮电大学 基于元强化学习的缓存辅助任务协作卸载与资源分配方法
CN114281718A (zh) * 2021-12-18 2022-04-05 中国科学院深圳先进技术研究院 一种工业互联网边缘服务缓存决策方法及系统
US20220105624A1 (en) * 2019-01-23 2022-04-07 Google Llc Efficient adaption of robot control policy for new task using meta-learning based on meta-imitation learning and meta-reinforcement learning

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220105624A1 (en) * 2019-01-23 2022-04-07 Google Llc Efficient adaption of robot control policy for new task using meta-learning based on meta-imitation learning and meta-reinforcement learning
CN113434212A (zh) * 2021-06-24 2021-09-24 北京邮电大学 基于元强化学习的缓存辅助任务协作卸载与资源分配方法
CN114281718A (zh) * 2021-12-18 2022-04-05 中国科学院深圳先进技术研究院 一种工业互联网边缘服务缓存决策方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
马骋乾;谢伟;孙伟杰;: "强化学习研究综述", 指挥控制与仿真, no. 06 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115934298A (zh) * 2023-01-12 2023-04-07 南京南瑞信息通信科技有限公司 一种前后端协作的电力监控mec卸载方法、系统及存储介质
CN115934298B (zh) * 2023-01-12 2024-05-31 南京南瑞信息通信科技有限公司 一种前后端协作的电力监控mec卸载方法、系统及存储介质

Also Published As

Publication number Publication date
CN114860337B (zh) 2023-07-25

Similar Documents

Publication Publication Date Title
CN111405568B (zh) 基于q学习的计算卸载和资源分配方法及装置
CN111405569A (zh) 基于深度强化学习的计算卸载和资源分配方法及装置
CN112181666A (zh) 一种基于边缘智能的设备评估和联邦学习重要性聚合方法、系统、设备和可读存储介质
CN110096362B (zh) 一种基于边缘服务器协作的多任务卸载方法
CN111130911B (zh) 一种基于移动边缘计算的计算卸载方法
CN113220356B (zh) 一种移动边缘计算中的用户计算任务卸载方法
CN114285853B (zh) 设备密集型工业物联网中基于端边云协同的任务卸载方法
CN113064671A (zh) 基于多智能体的边缘云可扩展任务卸载方法
CN114205353B (zh) 一种基于混合动作空间强化学习算法的计算卸载方法
CN112105062A (zh) 时敏条件下移动边缘计算网络能耗最小化策略方法
CN113867843B (zh) 一种基于深度强化学习的移动边缘计算任务卸载方法
CN113645637B (zh) 超密集网络任务卸载方法、装置、计算机设备和存储介质
CN114189936A (zh) 一种基于深度强化学习的协作边缘计算任务卸载方法
CN116390125A (zh) 一种基于ddpg-d3qn的工业物联网云边协同卸载及资源分配方法
CN115065728B (zh) 一种基于多策略强化学习的多目标内容存储方法
CN113973113B (zh) 一种面向移动边缘计算的分布式服务迁移方法
CN115473896A (zh) 基于dqn算法的电力物联网卸载策略和资源配置优化方法
Chen et al. Joint optimization of task offloading and resource allocation via deep reinforcement learning for augmented reality in mobile edge network
CN113741999B (zh) 一种基于移动边缘计算的面向依赖型任务卸载方法及装置
CN115408072A (zh) 基于深度强化学习的快速适应模型构建方法及相关装置
CN117436485A (zh) 基于权衡时延和精度的多退出点的端-边-云协同系统及方法
CN114860337B (zh) 一种基于元强化学习算法的计算卸载方法
CN116828541A (zh) 基于多智能体强化学习的边缘计算依赖任务动态卸载方法及系统
CN114172558B (zh) 一种车辆网络中基于边缘计算和无人机集群协同的任务卸载方法
CN113452625B (zh) 基于深度强化学习的卸载调度与资源分配方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant