CN112905315A - 移动边缘计算mec网络中的任务处理方法、装置及设备 - Google Patents

移动边缘计算mec网络中的任务处理方法、装置及设备 Download PDF

Info

Publication number
CN112905315A
CN112905315A CN202110125013.1A CN202110125013A CN112905315A CN 112905315 A CN112905315 A CN 112905315A CN 202110125013 A CN202110125013 A CN 202110125013A CN 112905315 A CN112905315 A CN 112905315A
Authority
CN
China
Prior art keywords
task
state information
processed
mobile device
mobile
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110125013.1A
Other languages
English (en)
Inventor
王冬宇
田心乔
王思野
崔浩然
李琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202110125013.1A priority Critical patent/CN112905315A/zh
Publication of CN112905315A publication Critical patent/CN112905315A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明实施例提供了一种移动边缘计算MEC网络中的任务处理方法、装置及设备,应用于通信技术领域,可以确定当前状态信息;从预先建立的Q表中查找当前状态信息对应的动作和系统收益,动作包括各个移动设备本地处理自身存在的待处理任务或者通过边缘服务器处理自身存在的待处理任务;预先建立的Q表包括多个状态信息对应的动作以及系统收益;预先建立的Q表是根据多个状态信息下执行不同动作,通过强化学习迭代得到的;选取系统效益最大所对应的动作为当前状态信息对应的目标动作,以使各个移动设备按照目标动作处理自身存在的待处理任务。以实现移动设备可以按照系统效益最大所对应的动作处理任务,如此能够提高移动设备所处系统的系统效益。

Description

移动边缘计算MEC网络中的任务处理方法、装置及设备
技术领域
本发明涉及通信技术领域,特别是涉及一种移动边缘计算MEC网络中的任务处理方法、装置及设备。
背景技术
近几年来,智能终端在移动网络中的应用越来越普遍,虚拟现实(VirtualReality,VR)/增强现实(Augmented Reality,AR)、图像识别、生物特征识别等各种新应用层出不穷。这些应用通常是资源密集型的,即运行时需要消耗大量的计算资源,对服务质量的要求很高。尽管智能终端的处理器的性能不断提升,但仍难以在短时间内满足处理高性能应用的需求,这严重影响了智能终端为用户提供的服务质量。因此,如何扩展智能终端资源来满足高性能任务执行的需求是当前亟待解决的问题。
云计算为海量数据存储和处理提供了既经济又高效的解决方案。借助于高速且可靠的无线接口,移动云计算(Mobile Cloud Computing,MCC)允许移动应用程序任务在远程数据中心中运行。然而长距离传播导致的时延开销大,导致MCC体系结构并不适合解决当代的时延敏感型任务。为了解决上述问题,移动边缘计算(Mobile Edge Computing,MEC)应运而生。MEC技术将计算和存储的资源部署在网络边缘以提升移动网络计算能力,建立低延迟、高带宽的网络服务解决方案。与MCC相比,MEC规避了由于长距离传输导致的移动应用程序的隐私性、安全性问题,例如平台中信息的高度集中性、易受攻击性以及因用户数据的所有权和经营权分离所造成的私有数据泄露和丢失。
对于移动网络中的智能终端,也即移动设备来讲,移动设备可以本地对其自身存在的待处理任务进行处理,也可以将自身存在的待处理任务卸载至边缘计算服务器,通过边缘计算服务器进行处理。本地处理会占用移动设备的资源等,而将通过边缘计算服务器处理则会产生时间成本的消耗等,即不同的处理方式会带来不同的收益和成本,如此,确定采用何种方式处理任务则是任务处理过程中的重要内容。
发明内容
本发明实施例的目的在于提供一种移动边缘计算MEC网络中的任务处理方法、装置及设备,以实现移动设备可以按照系统效益最大所对应的动作处理任务,如此能够提高移动设备所处系统的系统效益。具体技术方案如下:
第一方面,本发明实施例提供了一种移动边缘计算MEC网络中的任务处理方法,包括:
确定当前状态信息,所述当前状态信息包括当前时刻系统中存在待处理任务的移动设备数量、待处理任务的任务特征信息和存在待处理任务的各个移动设备的移动特征信息;
从预先建立的Q表中查找所述当前状态信息对应的动作和系统收益,所述动作包括各个移动设备本地处理自身存在的待处理任务或者通过边缘服务器处理自身存在的待处理任务;所述预先建立的Q表包括多个状态信息对应的动作以及系统收益;所述预先建立的Q表是根据多个状态信息下执行不同动作,通过强化学习迭代得到的;
选取系统效益最大所对应的动作为所述当前状态信息对应的目标动作,以使各个移动设备按照所述目标动作处理自身存在的待处理任务。
第二方面,本发明实施例提供了一种移动边缘计算MEC网络中的任务处理装置,包括:
第一确定模块,用于确定当前状态信息,所述当前状态信息包括当前时刻系统中存在待处理任务的移动设备数量、待处理任务的任务特征信息和存在待处理任务的各个移动设备的移动特征信息;
查找模块,用于从预先建立的Q表中查找所述当前状态信息对应的动作和系统收益,所述动作包括各个移动设备本地处理自身存在的待处理任务或者通过边缘服务器处理自身存在的待处理任务;所述预先建立的Q表包括多个状态信息对应的动作以及系统收益;所述预先建立的Q表是根据多个状态信息下执行不同动作,通过强化学习迭代得到的;
选取模块,用于选取系统效益最大所对应的动作为所述当前状态信息对应的目标动作,以使各个移动设备按照所述目标动作处理自身存在的待处理任务。
第三方面,本发明实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现第一方面所述的方法步骤。
本发明实施例提供的MEC网络中的任务处理方法、装置及设备,可以确定当前状态信息;从预先建立的Q表中查找所述当前状态信息对应的动作和系统收益;所述预先建立的Q表包括多个状态信息对应的动作以及系统收益;所述预先建立的Q表是根据多个状态信息下执行不同动作,通过强化学习迭代得到的;选取系统效益最大所对应的动作为所述当前状态信息对应的目标动作,以使各个移动设备按照所述目标动作处理自身存在的待处理任务。通过预先建立的Q表中查找当前状态信息对应的动作和系统收益,选取系统效益最大所对应的动作为当前状态信息对应的目标动作,以使各个移动设备按照目标动作处理自身存在的待处理任务,使得移动设备可以按照系统效益最大所对应的动作处理任务,如此能够提高移动设备所处系统的系统效益。当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
图1为本发明实施例提供的MEC网络中的任务处理方法的流程图;
图2为本发明实施例中双层蜂窝网络的结构示意图;
图3为本发明实施例中强化学习中智能体与环境的交互示意图;
图4为本发明实施中RLBA和GABA的收敛性对比分析图;
图5为不同ME数量下的总效益示意图;
图6为不同MEC服务器计算资源情况下的总效益示意图;
图7为不同的迁移成本下所有的系统总效益示意图;
图8为本发明实施例提供的MEC网络中的任务处理装置的结构示意图;
图9为本发明实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明中考虑移动设备(ME)的位置可变性,如果设备在移动过程中离开微蜂窝网络(SCN)的覆盖范围,则计算卸载结果需要基站间的迁移,从而给系统增添额外的成本。本发明可以应用于考虑移动设备的位置可变性的双层蜂窝网络架构中;针对设备处理任务的时延和功耗模型,构建系统总效益函数,也即期望效用函数;将该系统总效益函数的混合整数非线性规划问题描述为马尔可夫决策过程,提出一种基于强化学习的优化框架来替代传统的优化方法;采用强化学习中经典的Q-learning算法对优化问题求解。本发明能显著地提高系统的总效益,系统即移动设备处于双层蜂窝网络架构中而构成的系统,其中总效益是指系统因时延与能耗降低而获得的收益。
下面对本发明实施例提供的移动边缘计算MEC网络中的任务处理方法进行详细说明。
本发明实施例提供了的移动边缘计算MEC网络中的任务处理方法,可以包括:
确定当前状态信息,当前状态信息包括当前时刻系统中存在待处理任务的移动设备数量、待处理任务的任务特征信息和存在待处理任务的各个移动设备的移动特征信息;
从预先建立的Q表中查找当前状态信息对应的动作和系统收益,动作包括各个移动设备本地处理自身存在的待处理任务或者通过边缘服务器处理自身存在的待处理任务;预先建立的Q表包括多个状态信息对应的动作以及系统收益;预先建立的Q表是根据多个状态信息下执行不同动作,通过强化学习迭代得到的;
选取系统效益最大所对应的动作为当前状态信息对应的目标动作,以使各个移动设备按照目标动作处理自身存在的待处理任务。
本发明实施例中,通过预先建立的Q表中查找当前状态信息对应的动作和系统收益,选取系统效益最大所对应的动作为当前状态信息对应的目标动作,以使各个移动设备按照目标动作处理自身存在的待处理任务,使得移动设备可以按照系统效益最大所对应的动作处理任务,如此能够提高移动设备所处系统的系统效益。
图1为本发明实施例提供的移动边缘计算MEC网络中的任务处理方法的流程图,参照图1,对本发明实施例提供的移动边缘计算MEC网络中的任务处理方法进行详细说明。
S101,确定当前状态信息,当前状态信息包括当前时刻系统中存在待处理任务的移动设备数量、待处理任务的任务特征信息和存在待处理任务的各个移动设备的移动特征信息。
系统可以为双层蜂窝网络,双层蜂窝网络包括:宏基站和多个微基站,各个微基站分别位于一微蜂窝网络SCN的中心,各个微基站分别所在的微蜂窝网络SCN中部署有移动边缘计算MEC服务器,多个移动设备随机分布在多个SCN的覆盖范围内。
本发明实施例提供的移动边缘计算MEC网络中的任务处理方法可以由基站执行,例如宏基站。宏基站可以获取系统中各个移动设备的设备信息,然后可以对系统中所存在的移动设备的设备信息进行统计,得到系统对应的当前状态信息。
任务特征信息可以包括待处理任务的数据量、完成待处理任务所需的计算资源量和所需满足的最大时延;移动特征信息包括移动设备在服务覆盖区域的逗留时间,服务覆盖区域为移动设备当前所处的微蜂窝网络SCN所覆盖的区域。
例如,状态信息可以表示为S=[Sn,Sd,Sm],其中,Sn表示双层蜂窝网络中有任务需要处理的ME的数量;Sd表示待处理任务的任务特征信息,也可以理解为待处理任务的特性可以表示为
Figure BDA0002923684480000061
指待处理任务所需分配的MEC计算资源的大小;Sm表示移动设备的移动特征信息,也可以理解为ME的移动性,可以表示为
Figure BDA0002923684480000062
用于展示设备的移动特性。
S102,从预先建立的Q表中查找当前状态信息对应的动作和系统收益。
动作包括各个移动设备本地处理自身存在的待处理任务或者通过边缘服务器处理自身存在的待处理任务。
预先建立的Q表包括多个状态信息对应的动作以及系统收益;预先建立的Q表是根据多个状态信息下执行不同动作,通过强化学习迭代得到的。
系统收益可以表示系统中移动设备处理任务所产生的时延和能量消耗。
建立Q表的步骤,可以包括:
确定一历史时刻对应的状态信息,时刻对应的状态信息包括时刻下系统中存在待处理任务的移动设备数量、待处理任务的任务特征信息和存在待处理任务的各个移动设备的移动特征信息;
步骤1,针对状态信息,按照预设策略,选择状态信息对应的动作。
预设策略可以包括贪心算法策略。贪心算法策略通用性强,易于实现。
步骤2,确定在状态信息下执行动作对应的期望系统收益。
一种可选的实施例中,步骤2可以包括:
通过期望效用函数
Figure BDA0002923684480000063
确定期望系统收益。
其中,
Figure BDA0002923684480000064
为第一效用函数,
Figure BDA0002923684480000065
为第一效用函数对应的概率,
Figure BDA0002923684480000066
为第二效用函数,
Figure BDA0002923684480000067
为第二效用函数对应的概率,
Figure BDA0002923684480000068
为系统中存在待处理任务的移动设备的数量。
步骤3,基于确定的期望系统收益更新待建立的Q表中状态信息和动作对应的期望系统收益;
分别确定多个历史时刻的状态信息,重复执行步骤1至步骤3,直至针对每一状态信息和每一动作的期望系统收益收敛,得到建立好的Q表;其中,针对每一状态信息,Q表中包括每一状态信息分别与各个动作组合起来对应的期望系统收益。
一种可选的实施例中,步骤3中基于确定的期望系统收益以及奖励值更新待建立的Q表中状态信息和动作对应的期望系统收益,可以包括:
通过预设公式
Figure BDA0002923684480000071
更新待建立的Q表中状态信息和动作对应的期望系统收益。
其中,NewQ(s,a)为更新后的期望系统收益,Q(s,a)为前次迭代得到的期望系统收益,Q(s',a')为当前次迭代所确定的期望系统收益,α、γ为预设参数,0≤α,γ≤1,r为奖励值。
S103,选取系统效益最大所对应的动作为当前状态信息对应的目标动作,以使各个移动设备按照目标动作处理自身存在的待处理任务。
Q表对应每个状态-动作对得到的Q值,可以根据Q表做出使得系统收益最高的选择,能够根据Q值获得最大的系统利益。
图2为本发明实施例中双层蜂窝网络的结构示意图。参见图2,具有宏基站(MBS)和许多微蜂窝网络(SCN)的双层蜂窝网络,每个微蜂窝网络都配备了一个微基站(SBS)。MEC服务器部署在附加到SBS的微蜂窝网络中心,ME随机分布在服务区域。当ME移动时,它们不是固定不动的,而是可能离开当前所接受服务的单元。此外,由于不同ME的差异性,ME在网络中的状态也有很大不同。一些ME(比如ME1)任务计算的时间小于受当前SCN覆盖的时间,而另外一些ME(比如ME2)则在任务完成处理之前,就会移动到另一个单元中。对后者来说,计算结果无法直接发送给ME,需要通过宏基站中转的方式传输至目标单元,即产生任务迁移过程,这将导致额外的迁移成本。
在该双层蜂窝网络的系统结构下,假设ME在双层蜂窝网络中的集合为
Figure BDA0002923684480000072
并且设定它的数量集为
Figure BDA0002923684480000073
ME1的任务可以描述为
Figure BDA0002923684480000081
其中Hi表示计算数据的大小,也可以理解为任务的大小,Di表示任务所请求的计算资源大小,
Figure BDA0002923684480000082
表示任务的最大延迟。其中,Di由可以CPU转数衡量,满足Di=εHi的条件,其中ε表示任务所需计算资源大小与计算数据大小的比例系数。
为了更清楚地描述该系统架构的不同模型功能,可以将其分解为三个子系统,分别为通信模型、移动性模型和卸载模型。
通信模型:
假设MEi的传输功率为常数pi,并且利用di表示MEi到SBS的距离,hi表示MEi到SBS的信道增益。系统也即双层蜂窝网络的信噪比SNRi的计算公式为:
Figure BDA0002923684480000083
其中,θ表示标准路径损耗传播指数,σ2表示加性高斯白噪声的功率。
由此可以得到任务上传的传输速率Ri的计算公式为:
Ri=Blog2(1+SNRi)
其中,B为ME与SBS的通信带宽。
移动性模型:
由于SBS位于微蜂窝的中心,一旦ME离开当前提供服务的区域,即di超过SCN的半径Rs,就会出现因为微蜂窝切换而导致的任务迁移。反之,如果始终满足di≤Rs,则表示直到任务完成ME都不会离开该区域。因此,将di超过限制之前的持续时间用一段时间来记录,也可以称为ME的单元逗留时间。
单元逗留时间是指移动用户在指定单元停留的时间,它是规划网络资源和提高QoS的重要性能指标。可以使用指数函数表示逗留时间,以此来衡量ME的发生迁移的可能性。因此,逗留时间t的概率密度函数
Figure BDA0002923684480000091
可以表示为:
Figure BDA0002923684480000092
其中,τi指的是MEi的平均逗留时间,对于不同的ME是有差异性的。参数τi服从高斯分布,通过收集ME的历史数据可以得到可靠的参数τi
卸载模型:
当ME需要计算密集型任务时,卸载这类任务不仅可以加快进程,还可以减少设备的运行时间和能量消耗。本发明实施例中,任务可由移动设备本地计算或在SBS侧的MEC服务器处理。可以将
Figure BDA0002923684480000093
作为任务卸载的决策变量,例如,ai=1表示任务卸载到MEC服务器,ai=0表示任务在本地执行,因此,
Figure BDA0002923684480000094
是ME的卸载决策集合。
卸载模型可以细化为本地计算卸载模型和边缘计算卸载模型两种模式。
本地计算卸载模型:如果ai=0,ME根据其自身的计算能力进行本地计算,其中本地计算能力设为
Figure BDA0002923684480000098
则MEi执行的计算时间
Figure BDA0002923684480000095
表示为:
Figure BDA0002923684480000096
以及本地计算带来的能量消耗可表示为:
Figure BDA0002923684480000097
其中,κ是有关开关电容的系数。
边缘计算卸载模型:如果ai=1,通过ME和SBS之间的无线信道将任务卸载到边缘节点,此时任务是由连接到SBS处的MEC服务器计算的。将任务卸载到MEC服务器的过程可以视为传输与执行两部分。将任务相关的数据上传到MEC服务器的传输时间记为
Figure BDA0002923684480000101
与需要进行上传的数据相比,计算得到的结果非常微小,以至于下载或迁移的传输时间可以忽略。从ME的角度而言,无需考虑任务计算和结果传输的功耗,因此能耗(也即能量消耗)
Figure BDA0002923684480000102
为:
Figure BDA0002923684480000103
通过
Figure BDA0002923684480000104
表示MEC服务器计算资源分配的集合,fi标识分配给MEi的边缘计算资源。MEC服务器处理任务的时间
Figure BDA0002923684480000105
的计算公式可以表示为
Figure BDA0002923684480000106
由于MEC服务器的计算最大容量CMEC不是无限的,所以部分任务可能无法被卸载,资源分配必须满足约束条件
Figure BDA0002923684480000107
因此,此种情况下时延的计算公式为:
Figure BDA0002923684480000108
基于ME的计算任务参数、ME的移动特性以及ME、MEC服务器的计算能力,根据包括本地计算和边缘计算的任务卸载模式,提出系统总效益函数,构建优化问题模型。
卸载资源优化问题的效益函数可以包括收益和成本两部分。收益由两部分组成:节省的时间和节省的本地功耗。结合上述系统架构中的计算公式,描述下述收益和成本。
节省时间是指用户因选择边缘计算而节省的时间
Figure BDA0002923684480000109
可以表示为:
Figure BDA00029236844800001010
其中,θt为节省时间的收益系数。
节省的本地功耗
Figure BDA00029236844800001011
可以表示为公式:
Figure BDA00029236844800001012
其中,θE为节约本地功耗的收益系数,也即单位能耗价格。
同时,成本来源包括ME选择边缘计算模式和可能出现的任务迁移两种情况。选择卸载模式的资源成本包括要传输的数据的能耗和要分配的MEC服务器执行资源。所以总成本为:
Figure BDA0002923684480000111
其中,θf为要分配的MEC服务器执行资源的单位价格。
根据边缘计算时间与预估逗留时间的时长关系,可以包括以下两种情景下边缘计算方式的效用函数。
1)在离开当前微蜂窝之前,ME的任务在MEC服务器上顺利完成。这种情况可以描述为整个任务卸载过程的时间小于ME的逗留时间,如图2中的ME1。也就是说,此时不会发生任务迁移。根据逗留时间的概率密度函数的计算公式,这种情况的概率可以描述为
Figure BDA0002923684480000112
因此,对应部分的效用函数为:
Figure BDA0002923684480000113
2)由于ME的移动特性,MEC服务器上也存在另一种情况,即ME在前一个微蜂窝中停留的时间较短,例如图2中的ME2,在任务完成前就会离开相应的微蜂窝,其概率为
Figure BDA0002923684480000114
则执行结果不能直接传回,须经由宏基站中转传输到ME所在的新SCN,然后再将结果传送给ME。这个传输过程将产生额外的迁移成本
Figure BDA0002923684480000115
与计算数据Hi的大小有关,设定为
Figure BDA0002923684480000116
其中δ表示迁移成本与计算数据的比例系数。因此,对应部分的效用函数记为:
Figure BDA0002923684480000117
结合
Figure BDA0002923684480000118
Figure BDA0002923684480000119
的计算公式,可以得到效用函数的表达式为:
Figure BDA0002923684480000121
根据移动性模型,计算出相应的概率为:
Figure BDA0002923684480000122
Figure BDA0002923684480000123
可以通过期望效用
Figure BDA0002923684480000124
来描述MEi的性能,可以表示为:
Figure BDA0002923684480000125
其中,在ai=0时设置
Figure BDA0002923684480000126
因为在本地计算任务时,ME不会从MEC服务器产生收益。
本发明实施例所提出的考虑移动设备位置可变性的MEC网络中有关计算卸载和资源分配的联合优化问题,其目标是最大化所有ME的长期效益值。考虑到完成任务的时延期限和MEC服务器计算资源负荷,则相应的约束性优化问题可表示如下:
Figure BDA0002923684480000127
s.t.C1:
Figure BDA0002923684480000128
以确保每个ME选择本地计算或边缘计算;
C2:
Figure BDA0002923684480000129
保证边缘计算的时间必须为正数,且不超过任务延迟的最后期限;
C3:
Figure BDA00029236844800001210
以确保分配给每个ME的MEC服务器计算资源是非负的;
C4:
Figure BDA00029236844800001211
保证分配的计算资源不超过MEC服务器容量的总量。
具体地,确定期望效用函数,可以包括:
步骤A,确定节省时间、节省功耗和总成本。
其中,节省时间是将待处理任务从移动设备卸载至边缘计算服务器相比较于移动设备自身处理待处理任务而节省的时间;节省功耗是将待处理任务从移动设备卸载至MEC服务器相比较于移动设备处理待处理任务而节省的本地功耗;总成本是MEC服务器处理待处理任务所需的功耗以及资源。
通过公式
Figure BDA0002923684480000131
确定节省时间。
其中,
Figure BDA0002923684480000132
为节省时间,θt为节省时间的收益系数,
Figure BDA0002923684480000133
为移动设备自身处理待处理任务所需的时间,
Figure BDA0002923684480000134
为将待处理任务从移动设备卸载至边缘计算服务器所消耗的时间。
通过公式
Figure BDA0002923684480000135
确定节省功耗。
其中,
Figure BDA0002923684480000136
为节省功耗,θE为节约本地功耗的收益系数,
Figure BDA0002923684480000137
为移动设备自身处理待处理任务所产生的能量消耗。
通过公式
Figure BDA0002923684480000138
确定总成本。
其中,
Figure BDA0002923684480000139
为总成本,
Figure BDA00029236844800001310
为MEC服务器处理的能量消耗,θf为分配的MEC服务器执行资源的单位价格,fi为分配给MEi的边缘计算资源。
步骤B,确定迁移成本。
迁移成本表示在MEC服务器处理完成待处理任务之前,移动设备从当前微蜂窝网络SCN移动到另一SCN所需的传输过程产生的成本,传输过程表示MEC服务器将处理待处理任务得到的处理结果通过宏基站转发至移动设备移动到的另一SCN,并由另一SCN发送至移动设备的过程;
步骤C,计算节省时间和节省功耗之和与总成本的差值,并将差值作为第一效用函数。
其中,第一效用函数表示在移动设备从当前微蜂窝网络SCN移动到另一SCN之前,MEC服务器已处理完成待处理任务所对应的效用函数。
通过公式
Figure BDA00029236844800001311
确定第一效用函数
Figure BDA00029236844800001312
步骤D,计算节省时间和节省功耗之和,与总成本和迁移成本之和的差值,并将差值作为第二效用函数。
其中,第二效用函数表示在MEC服务器处理完成待处理任务之前,移动设备从当前微蜂窝网络SCN移动到另一SCN所对应的效用函数。
通过公式
Figure BDA0002923684480000141
确定第二效用函数
Figure BDA0002923684480000143
其中,
Figure BDA0002923684480000142
为迁移成本。
步骤E,确定第一概率和第二概率。
第一概率表示在移动设备从当前微蜂窝网络SCN移动到另一SCN之前,MEC服务器已处理完成待处理任务的概率,第二概率表示在MEC服务器处理完成待处理任务之前,移动设备从当前微蜂窝网络SCN移动到另一SCN的概率。
步骤F,将第一效用函数和第一概率的乘积,以及第二效用函数和第二概率的乘积之和作为处理待处理任务的期望效用函数。
由于上述约束性优化问题中的整数约束ai∈{0,1},上述优化问题是MINLP(混合整数非线性规划)问题。它的可行集和目标函数都是非凸的,因此也是NP-难的。为了解决上述问题,本发明实施例提出通过强化学习方法以寻找最优的A和F参数,来替代使用传统的NP困难问题的优化方法。
具体来讲,首先以马尔可夫决策过程的理论为基础,说明发明实施例中强化学习方法的状态空间、动作空间和奖励函数,然后基于经典强化学习算法Q-learning的优化算法来解决上述问题。
1)马尔可夫决策过程:在移动边缘计算网络中,传统的任务联合分布问题对于任务卸载和资源分配的求解方法包括穷举搜索算法和博弈论。但是,这些方法也存在很多局限性。一方面,算法复杂度高,效率低;另一方面,计算资源消耗大、容错性低,使其难以应用于大规模网络场景。若是采用强化学习方法求解联合优化问题,在一定程度上能够规避传统算法的局限性和弊端。
一般来说,强化学习模型是基于马尔可夫决策过程,旨在提供一个直观的框架,从交互中学习,以实现目标。在强化学习中,智能体指的是学习者或决策者。任何与智能体有交互作用而不与智能体本身产生交互作用的东西都称为环境。在交互过程中,智能体通过策略选择并执行一个状态下的动作,环境通过将智能体转向下一个新状态来响应这个动作,然后对这个动作给出反馈并产生奖励。
在连续迭代后,智能体通过选择不同的行为来优化报酬值,并收敛到最优状态。如图3所示,强化学习是在智能体与环境的动态交互中进行的。
可以用
Figure BDA0002923684480000151
表示状态空间,用
Figure BDA0002923684480000152
表示动作空间,用
Figure BDA0002923684480000153
表示奖励空间。在没有特殊说明的情况下,强化学习解决的问题通常基于有限的模型驱动程序设计(Model-DrivenProgramming,MDP)模型。即MDP的状态、动作和奖励空间都是有限集。智能体对特定任务的决策,如在状态下选择的行动,是根据策略函数确定和执行的。一般来说,策略函数大多是一种概率分布。在每次交互中,智能体都有一个初始状态st,在这个初始状态下,可以根据策略函数选择并执行动作at。环境给动作反馈,然后产生一个奖励值rt+1,使智能体进入下一个新的状态st+1,它将被智能体用作下一轮交互的新初始状态。智能体的下一个状态是随机的,其状态转移概率具有马尔可夫性。马尔可夫性可以理解为状态转移概率与过去无关。智能体根据新观察到的状态做出新的决定,这些状态依次重复,然后迭代,直到最终收敛。
2)强化学习的三个关键要素:本发明的实施例中,假设ME作为MDP的决策者,试图访问附近的MEC服务器以与环境交互。环境由信道条件和MEC服务器条件组成。尽管环境存在不确定性,在整个交互过程中,ME试图最大化系统的效用。ME的动作会影响环境的未来状态,进而影响ME下一个时间的动作选择和状态空间。在结果部分随机且由决策者控制的情况下,MDP为建模提供了良好的数学框架,然后通过强化学习的方法完成整个决策过程。
本发明实施例中,可以将基站作为智能体。
更具体地说,更具体地说,任务分配决策过程被建模为模型驱动程序设计(Model-Driven Programming,MDP)模型。将智能体与环境之间的完整交互周期称为T,T可以分为多个时间步长,系统在每个时间步长t(t=1,2,...)有一个状态st。MDP从一个随机的初始状态迭代,直到它最终收敛。作为决策者,系统根据不同算法所采用的不同策略选择状态st下的可选动作并执行。同时,根据选择的动作,系统获取相应的奖励,然后进入下一个状态st+1。如前,在这个MDP中未来的状态只依赖于当前状态,和历史状态无关,这保证了无记忆的马尔可夫性。
本发明实施例中状态空间、动作空间和奖励函数可以表示如下:
状态空间:为了使整个系统的总效益最大化,网络场景的状态需要反映当前系统中ME待解决任务的数量,以及SCN中ME的移动状态。因此状态主要由ME的数量、待解决任务的特性和ME的移动性三个量组成。ME的数量Sn表示微蜂窝中有任务需要解决的ME的数量;待解决任务的特性
Figure BDA0002923684480000161
指待解决任务所需分配的MEC服务器计算资源的大小;ME的移动性
Figure BDA0002923684480000162
用于展示用户移动特性;对于此发明中的无线网络场景,状态可以被定义为
Figure BDA0002923684480000163
动作空间:对于每一个时间步长t,ME按照所使用的策略在当前状态下选择并执行一个动作。采用贪心算法作为策略,原因是该策略通用性强,易于实现。同时,ME从现状st移动到下一个状态
Figure BDA0002923684480000164
Figure BDA0002923684480000165
Figure BDA0002923684480000166
代表MDP的动作空间.,对于
Figure BDA0002923684480000167
Ai=0表示选择在本地执行计算任务,Ai=1表示该任务是由当前微蜂窝中分配的MEC服务器计算的。
奖励函数:每次智能体与环境交互后,ME作为一个智能体会从环境获得反馈,即回报r,用来反映ME在某一状态下执行某项行为的好或坏的结果。一般而言,RL的回报应与优化公式相关。由于本实施优化问题的目标是最大化所有ME的总效益,而RL的目标是获得最大奖励。所以根据它们之间存在的正相关关系,制定奖励函数为:
Figure BDA0002923684480000171
其中,
Figure BDA0002923684480000172
是系统奖励的参数。
基于Q-learning的优化算法,Q-learning是一种经典的基于价值的RL算法。Q(s,a),即Q值是状态s执行动作a可以获得的期望收益,也即系统收益。对于每一步而言,环境根据智能体的动作向其提供奖励r。因此,Q-learning算法的关键步骤是建立一个Q表,Q表对应每个状态-动作对得到的Q值。然后根据Q表做出使收益最高的选择,智能体能够根据Q值获得最大的利益。Q(s,a)可以表示为:
Figure BDA0002923684480000173
其中,s,a是当前的状态和动作,s′,a′是下一状态和动作。α、γ作为Q-learning的参数满足0≤α,γ≤1。引入α来衡量最后一次学习与当前学习的价值。如果设置的太低,智能体就会只关注之前学习到的内容,而不关注新的回报。通常,用0.5来平衡先验知识和新回报。定义γ为学习参数。值得注意的是,γ→0表示智能体更倾向于考虑眼前的报酬,而γ→1则表示智能体关注未来的报酬。一般取γ=0.9,这样可以充分考虑未来的报酬。
本发明实施例中基于Q-learning的优化算法得到Q表具体可以通过如下算法1实现:基于Q-learning方法的RL算法(RL-Based Algorithm with Q-learning method,RLBA):
初始化Q(s,a)
随机配置状态st
for每个时间步长t:do
在当前状态st选择某一动作at
执行at并计算Q值Q(st,at)
更新Q表:Q(st,at)←Q(st,at)+α[Rt+1+γmaxa Q(st+1,at)-Q(st,at)]
使st←st+1
until达到期望状态sterminal
end for
该算法1的算法过程为:首先,初始化Q(s,a)为0。基站控制器根据收集到的设备信息,配置当前状态为st。然后,由于移动设备可能选择本地或边缘计算卸载模式,系统将会采选择某一动作at并执行。针对当前的状态-动作对(st,at),基站控制器奖励值R,进而得到Q值Q(st,at)。然后根据更新Q表(存储Q值的二维表),并且转移到下一状态st+1。重复上述过程,Q表将会不断地更新。根据设定的期望状态,系统在做选择时倾向于从Q表中选择使得Q值更高的动作执行。经过多次迭代,Q值将会收敛于最优值,相应的得到满足系统效益最大化的计算卸载决策和MEC服务器计算资源分配的配置。
为了获得正确的收敛,Q-learning需要多个状态-动作对,即Q(s,a)不断更新,且经过验证其与无限策略探索得到的最优Q值基本一致。因此,Q-learning会在无限次的探索之后,找到每一步最优的行动选择策略。如果用I表示算法1的迭代次数,则算法的计算复杂度可以表示为
Figure BDA0002923684480000191
本发明中使用贪心策略在有限状态空间中随机探索从而得到一个接近最优的方案。
如此,在后续确定系统的状态,也即状态信息之后,可以从Q表中Q值最大的行动选择策略,以确定状态信息对应的行动选择策略。
下面结合具体的实验数据对本发明实施例提供的MEC网络中的任务处理方法的技术效果进行验证。其中,表1表示仿真过程所使用的参数。
表1
Figure BDA0002923684480000192
Figure BDA0002923684480000201
在仿真过程中,本发明实施例考虑RS=80m。假设ME的传输功率服从分布
Figure BDA0002923684480000202
其中μ1=20dBm,σ1=2。考虑到移动性模型,ME的平均逗留时间服从分布
Figure BDA0002923684480000203
其中μ2=40seconds,σ2=20。根据表1,可以设置强化学习的参数,其中,α=0.5,γ=0.9。
通过在Matlab上进行仿真来评估所提出的MEC网络中的任务处理方法,也即MEC网络中考虑移动设备位置可变性的任务卸载和迁移方法(简称为RLBA算法)的性能。可以将RLBA算法与以下三种算法进行性能比较。
(1)遗传算法(Genetic Algorithm-Based Algorithm,GABA)具有良好的全局搜索性能,是解决优化问题的传统次优算法。
(2)随机卸载算法(Randomly Offloading Algorithm,ROA)和完全卸载算法(Fully Offloading Algorithm,FOA)都考虑了ME的可移动性。
其中,ROA表示ME随机选择本地计算或边缘计算,算法分配的任务的比例是0.5。FOA表示所有任务都卸载到边缘节点,算法分配的任务的比例是1。
可以比较RLBA和GABA的收敛性能。图4为本发明实施中RLBA和GABA的收敛性对比分析图;其中,纵坐标表示系统总效益,横坐标表示迭代次数。如图4表明,无论是本发明实施例提出的基于Q-learning的方法,也即RLBA,还是GABA方法,ME的总效益都随着迭代次数的增加而增加,直到达到一个相对稳定的值,说明其都是可以收敛的。在ME数量较少的情况下,遗传算法的收敛速度较快,基本在200次迭代之内。但可以观察到,一旦RLBA收敛,总是比GABA获得更高的系统效益。
图5为不同ME数量下的总效益示意图;其中纵坐标表示系统总效益,横坐标为ME数量。图5展示了在ME数量逐渐增加的情况下,总效益和性能的显著变化。随着ME数量从4个增加到8个,RLBA、GABA和ROA保持持续增长的趋势,FOA则是先增长后很快下降。对于RLBA和GABA而言,最初的计算资源是充足的,因此随着ME数量的增加,可以卸载更多的任务。然而,当数量达到5时,总效益开始缓慢变化。这是由于MEC服务器的计算能力不是无限的,它只能为一定数量的ME提供服务,ME越多,任务越多,决策选择也就越多,所以总效益增长速度开始放缓。ROA的原因也是相似的,但是因为它要卸载的任务数量较少,所以总效益相对较低。对于FOA,系统收益最初上涨的原因是充足的资源。然而随着迁移任务变得更加频繁,增加的迁移成本将超过节省时间和精力带来的增量收益。当系统中有6个ME时,总收入同时开始下降。然而,随着用户数量的增加,FOA的迁移成本仍在增加。而因节省时间带来的收益开始下降,所以总效益开始下降。
图6为不同MEC服务器计算资源情况下的总效益示意图;其中,纵坐标表示系统总效益,横坐标为MEC服务器计算能力。图6所示在不同边缘计算能力情况下的总效益。参见图7可以看出,随着MEC服务器计算资源能力的提升,每种算法都能够获得更高的效益。然而,取决于卸载和迁移的任务的数量,它们的增长率显然是不同的。根据环境的反馈,RLBA和GABA通过不同的策略选择性地分担任务,目的是降低迁移成本。正因为如此,RLBA和GABA相比其他方案获得更高的总收入。当MEC服务器的容量足够时,两种算法都通过尽可能多的向边缘卸载来提高效益。与GABA相比,RLBA的总效益更高的原因是Q-learning算法的卸载决策更优越。此外,ROA的总收益增长缓慢。ROA的增长率接近于两种最优算法,但由于卸载任务的不确定性,其收益略低一些。FOA速度提升的原因不尽相同。FOA持续向边缘卸载,但随着MEC服务器计算能力的提高,越来越多的任务不再需要迁移,迁移成本的降低可以快速地提高总效益。
图7为不同的迁移成本下所有的系统总效益示意图;其中,纵坐标表示系统总效益,横坐标为迁移成本。在图7中,系统总效益都随着迁移成本的增加而下降。其中,RLBA和GABA下降缓慢,即迁移成本的增加对系统没有明显影响。可以看出,RLBA和GABA的总收益高于其他三种方案,RLBA略优于GABA,这也再一次验证了强化学习比传统方法有着更优越的性能。在采用ROA方案的情况下,选择边缘节点计算任务的ME并不多,因此发生迁移的可能性也就相对较低。在使用FOA的情况下,大部分ME选择边缘计算方式,这导致MEC服务器的计算资源不足,需要迁移的任务数量上升。随着迁移成本的增加,总效益会显著下降。
对应于上述实施例提供的移动边缘计算MEC网络中的任务处理方法,本发明实施例还提供了一种移动边缘计算MEC网络中的任务处理装置,如图8所示,可以包括:
第一确定模块801,用于确定当前状态信息,当前状态信息包括当前时刻系统中存在待处理任务的移动设备数量、待处理任务的任务特征信息和存在待处理任务的各个移动设备的移动特征信息;
查找模块802,用于从预先建立的Q表中查找当前状态信息对应的动作和系统收益,动作包括各个移动设备本地处理自身存在的待处理任务或者通过边缘服务器处理自身存在的待处理任务;预先建立的Q表包括多个状态信息对应的动作以及系统收益;预先建立的Q表是根据多个状态信息下执行不同动作,通过强化学习迭代得到的;
选取模块803,用于选取系统效益最大所对应的动作为当前状态信息对应的目标动作,以使各个移动设备按照目标动作处理自身存在的待处理任务。
可选的,装置还包括:
第二确定模块(图中未示出),用于确定一历史时刻对应的状态信息,时刻对应的状态信息包括时刻下系统中存在待处理任务的移动设备数量、待处理任务的任务特征信息和存在待处理任务的各个移动设备的移动特征信息;
选择模块(图中未示出),用于针对状态信息,按照预设策略,选择状态信息对应的动作;
第三确定模块(图中未示出),用于确定在状态信息下执行动作对应的期望系统收益;
更新模块(图中未示出),用于基于确定的期望系统收益更新待建立的Q表中状态信息和动作对应的期望系统收益;
重复模块(图中未示出),用于分别确定多个历史时刻的状态信息,重复执行选择模块、第三确定模块和更新模块的步骤,直至针对每一状态信息和每一动作的期望系统收益收敛,得到建立好的Q表;其中,针对每一状态信息,Q表中包括每一状态信息分别与各个动作组合起来对应的期望系统收益。
可选的,更新模块(图中未示出),具体用于通过预设公式
Figure BDA0002923684480000231
更新待建立的Q表中状态信息和动作对应的期望系统收益;
其中,NewQ(s,a)为更新后的期望系统收益,Q(s,a)为前次迭代得到的期望系统收益,Q(s',a')为当前次迭代所确定的期望系统收益,α、γ为预设参数,0≤α,γ≤1,r为奖励值。
可选的,系统为双层蜂窝网络,双层蜂窝网络包括:宏基站和多个微基站,各个微基站分别位于一微蜂窝网络SCN的中心,各个微基站分别所在的微蜂窝网络SCN中部署有移动边缘计算MEC服务器,多个移动设备随机分布在多个SCN的覆盖范围内。
可选的,任务特征信息包括待处理任务的数据量、完成待处理任务所需的计算资源量和所需满足的最大时延;移动特征信息包括移动设备在服务覆盖区域的逗留时间,服务覆盖区域为移动设备当前所处的微蜂窝网络SCN所覆盖的区域;
第三确定模块(图中未示出),具体用于通过期望效用函数
Figure BDA0002923684480000232
确定期望系统收益;
其中,
Figure BDA0002923684480000233
为第一效用函数,
Figure BDA0002923684480000234
为第一效用函数对应的概率,
Figure BDA0002923684480000235
为第二效用函数,
Figure BDA0002923684480000236
为第二效用函数对应的概率,
Figure BDA0002923684480000237
为系统中存在待处理任务的移动设备的数量。
可选的,第三确定模块(图中未示出),具体用于确定节省时间、节省功耗和总成本,其中,节省时间是将待处理任务从移动设备卸载至边缘计算服务器相比较于移动设备自身处理待处理任务而节省的时间;节省功耗是将待处理任务从移动设备卸载至MEC服务器相比较于移动设备处理待处理任务而节省的本地功耗;总成本是MEC服务器处理待处理任务所需的功耗以及资源;确定迁移成本,迁移成本表示在MEC服务器处理完成待处理任务之前,移动设备从当前微蜂窝网络SCN移动到另一SCN所需的传输过程产生的成本,传输过程表示MEC服务器将处理待处理任务得到的处理结果通过宏基站转发至移动设备移动到的另一SCN,并由另一SCN发送至移动设备的过程;计算节省时间和节省功耗之和与总成本的差值,并将差值作为第一效用函数;其中,第一效用函数表示在移动设备从当前微蜂窝网络SCN移动到另一SCN之前,MEC服务器已处理完成待处理任务所对应的效用函数;计算节省时间和节省功耗之和,与总成本和迁移成本之和的差值,并将差值作为第二效用函数,其中,第二效用函数表示在MEC服务器处理完成待处理任务之前,移动设备从当前微蜂窝网络SCN移动到另一SCN所对应的效用函数;确定第一概率和第二概率,第一概率表示在移动设备从当前微蜂窝网络SCN移动到另一SCN之前,MEC服务器已处理完成待处理任务的概率,第二概率表示在MEC服务器处理完成待处理任务之前,移动设备从当前微蜂窝网络SCN移动到另一SCN的概率,将第一效用函数和第一概率的乘积,以及第二效用函数和第二概率的乘积之和作为处理待处理任务的期望效用函数。
可选的,第三确定模块(图中未示出),具体用于通过公式
Figure BDA0002923684480000241
确定节省时间;
其中,
Figure BDA0002923684480000242
为节省时间,θt为节省时间的收益系数,
Figure BDA0002923684480000243
为移动设备自身处理待处理任务所需的时间,
Figure BDA0002923684480000244
为将待处理任务从移动设备卸载至边缘计算服务器MEC服务器所消耗的时间;
通过公式
Figure BDA0002923684480000245
确定节省功耗;
其中,
Figure BDA0002923684480000246
为节省功耗,θE为节约本地功耗的收益系数,
Figure BDA0002923684480000247
为移动设备自身处理待处理任务所产生的能量消耗;
通过公式
Figure BDA0002923684480000248
确定总成本;
其中,
Figure BDA0002923684480000249
为总成本,
Figure BDA00029236844800002410
为MEC服务器处理的能量消耗,θf为分配的MEC服务器执行资源的单位价格,fi为分配给MEi的边缘计算资源;
通过公式
Figure BDA00029236844800002411
确定第一效用函数
Figure BDA00029236844800002412
通过公式
Figure BDA00029236844800002413
确定第二效用函数
Figure BDA00029236844800002414
其中,
Figure BDA0002923684480000251
为迁移成本。
本发明实施例还提供了一种电子设备,如图9所示,包括处理器901、通信接口902、存储器903和通信总线904,其中,处理器901,通信接口902,存储器903通过通信总线904完成相互间的通信。
存储器903,用于存放计算机程序;
处理器901,用于执行存储器903上所存放的程序时,实现上述移动边缘计算MEC网络中的任务处理方法的方法步骤。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述移动边缘计算MEC网络中的任务处理方法的方法步骤。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述移动边缘计算MEC网络中的任务处理方法的方法步骤。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备、计算机可读存储介质以及计算机程序产品实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种移动边缘计算MEC网络中的任务处理方法,其特征在于,包括:
确定当前状态信息,所述当前状态信息包括当前时刻系统中存在待处理任务的移动设备数量、待处理任务的任务特征信息和存在待处理任务的各个移动设备的移动特征信息;
从预先建立的Q表中查找所述当前状态信息对应的动作和系统收益,所述动作包括各个移动设备本地处理自身存在的待处理任务或者通过边缘服务器处理自身存在的待处理任务;所述预先建立的Q表包括多个状态信息对应的动作以及系统收益;所述预先建立的Q表是根据多个状态信息下执行不同动作,通过强化学习迭代得到的;
选取系统效益最大所对应的动作为所述当前状态信息对应的目标动作,以使各个移动设备按照所述目标动作处理自身存在的待处理任务。
2.根据权利要求1所述的方法,其特征在于,建立所述Q表的步骤,包括:
确定一历史时刻对应的状态信息,所述时刻对应的状态信息包括所述时刻下所述系统中存在待处理任务的移动设备数量、待处理任务的任务特征信息和存在待处理任务的各个移动设备的移动特征信息;
步骤1,针对所述状态信息,按照预设策略,选择所述状态信息对应的动作;
步骤2,确定在所述状态信息下执行所述动作对应的期望系统收益;
步骤3,基于确定的所述期望系统收益更新待建立的Q表中所述状态信息和所述动作对应的期望系统收益;
分别确定多个历史时刻的状态信息,重复执行步骤1至步骤3,直至针对每一状态信息和每一动作的期望系统收益收敛,得到建立好的Q表;其中,针对每一状态信息,所述Q表中包括每一状态信息分别与各个动作组合起来对应的期望系统收益。
3.根据权利要求2所述的方法,其特征在于,所述基于确定的所述期望系统收益以及奖励值更新待建立的Q表中所述状态信息和所述动作对应的期望系统收益,包括:
通过预设公式
Figure FDA0002923684470000021
更新待建立的Q表中所述状态信息和所述动作对应的期望系统收益;
其中,所述NewQ(s,a)为更新后的期望系统收益,Q(s,a)为前次迭代得到的期望系统收益,Q(s',a')为当前次迭代所确定的所述期望系统收益,α、γ为预设参数,0≤α,γ≤1,r为奖励值。
4.根据权利要求2所述的方法,其特征在于,所述系统为双层蜂窝网络,所述双层蜂窝网络包括:宏基站和多个微基站,各个微基站分别位于一微蜂窝网络SCN的中心,各个微基站分别所在的微蜂窝网络SCN中部署有MEC服务器,多个移动设备随机分布在多个SCN的覆盖范围内。
5.根据权利要求4所述的方法,其特征在于,所述任务特征信息包括待处理任务的数据量、完成待处理任务所需的计算资源量和所需满足的最大时延;所述移动特征信息包括移动设备在服务覆盖区域的逗留时间,所述服务覆盖区域为所述移动设备当前所处的微蜂窝网络SCN所覆盖的区域;
所述确定在所述状态信息下执行所述动作对应的期望系统收益,包括:
通过期望效用函数
Figure FDA0002923684470000022
确定期望系统收益;
其中,
Figure FDA0002923684470000023
为第一效用函数,
Figure FDA0002923684470000024
为所述第一效用函数对应的概率,
Figure FDA0002923684470000025
为第二效用函数,
Figure FDA0002923684470000026
为所述第二效用函数对应的概率,
Figure FDA0002923684470000027
为所述系统中存在待处理任务的移动设备的数量。
6.根据权利要求5所述的方法,其特征在于,确定所述期望效用函数,包括:
确定节省时间、节省功耗和总成本,其中,所述节省时间是将待处理任务从移动设备卸载至MEC服务器相比较于移动设备自身处理所述待处理任务而节省的时间;所述节省功耗是将待处理任务从移动设备卸载至MEC服务器相比较于移动设备处理所述待处理任务而节省的本地功耗;所述总成本是所述MEC服务器处理所述待处理任务所需的功耗以及资源;
确定迁移成本,所述迁移成本表示在所述MEC服务器处理完成所述待处理任务之前,所述移动设备从当前微蜂窝网络SCN移动到另一SCN所需的传输过程产生的成本,所述传输过程表示所述MEC服务器将处理所述待处理任务得到的处理结果通过宏基站转发至移动设备移动到的所述另一SCN,并由所述另一SCN发送至所述移动设备的过程;
计算所述节省时间和所述节省功耗之和与所述总成本的差值,并将所述差值作为第一效用函数;其中,所述第一效用函数表示在所述移动设备从当前微蜂窝网络SCN移动到另一SCN之前,所述MEC服务器已处理完成所述待处理任务所对应的效用函数;
计算所述节省时间和所述节省功耗之和,与所述总成本和所述迁移成本之和的差值,并将所述差值作为第二效用函数,其中,所述第二效用函数表示在所述MEC服务器处理完成所述待处理任务之前,所述移动设备从当前微蜂窝网络SCN移动到另一SCN所对应的效用函数;
确定第一概率和第二概率,所述第一概率表示在所述移动设备从当前微蜂窝网络SCN移动到另一SCN之前,所述MEC服务器已处理完成所述待处理任务的概率,所述第二概率表示在所述MEC服务器处理完成所述待处理任务之前,所述移动设备从当前微蜂窝网络SCN移动到另一SCN的概率,
将所述第一效用函数和所述第一概率的乘积,以及所述第二效用函数和所述第二概率的乘积之和作为处理所述待处理任务的期望效用函数。
7.根据权利要求6所述的方法,其特征在于,所述确定节省时间、节省功耗和总成本,包括:
通过公式
Figure FDA0002923684470000031
确定所述节省时间;
其中,
Figure FDA0002923684470000032
为所述节省时间,θt为节省时间的收益系数,
Figure FDA0002923684470000033
为移动设备自身处理所述待处理任务所需的时间,
Figure FDA0002923684470000034
为将待处理任务从移动设备卸载至MEC服务器所消耗的时间;
通过公式
Figure FDA0002923684470000041
确定节省功耗;
其中,
Figure FDA0002923684470000042
为所述节省功耗,θE为节约本地功耗的收益系数,
Figure FDA0002923684470000043
为移动设备自身处理所述待处理任务所产生的能量消耗;
通过公式
Figure FDA0002923684470000044
确定总成本;
其中,
Figure FDA0002923684470000045
为总成本,
Figure FDA0002923684470000046
为MEC服务器处理的能量消耗,θf为分配的MEC服务器执行资源的单位价格,fi为分配给MEi的边缘计算资源;
所述计算所述节省时间和所述节省功耗之和与所述总成本的差值,并将所述差值作为第一效用函数,包括:
通过公式
Figure FDA0002923684470000047
确定第一效用函数Qi 1
所述计算所述节省时间和所述节省功耗之和,与所述总成本和所述迁移成本之和的差值,并将所述差值作为第二效用函数,包括:
通过公式
Figure FDA0002923684470000048
确定第二效用函数
Figure FDA0002923684470000049
其中,
Figure FDA00029236844700000410
为所述迁移成本。
8.一种移动边缘计算MEC网络中的任务处理装置,其特征在于,包括:
第一确定模块,用于确定当前状态信息,所述当前状态信息包括当前时刻系统中存在待处理任务的移动设备数量、待处理任务的任务特征信息和存在待处理任务的各个移动设备的移动特征信息;
查找模块,用于从预先建立的Q表中查找所述当前状态信息对应的动作和系统收益,所述动作包括各个移动设备本地处理自身存在的待处理任务或者通过边缘服务器处理自身存在的待处理任务;所述预先建立的Q表包括多个状态信息对应的动作以及系统收益;所述预先建立的Q表是根据多个状态信息下执行不同动作,通过强化学习迭代得到的;
选取模块,用于选取系统效益最大所对应的动作为所述当前状态信息对应的目标动作,以使各个移动设备按照所述目标动作处理自身存在的待处理任务。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
第二确定模块,用于确定一历史时刻对应的状态信息,所述时刻对应的状态信息包括所述时刻下所述系统中存在待处理任务的移动设备数量、待处理任务的任务特征信息和存在待处理任务的各个移动设备的移动特征信息;
选择模块,用于针对所述状态信息,按照预设策略,选择所述状态信息对应的动作;
第三确定模块,用于确定在所述状态信息下执行所述动作对应的期望系统收益;
更新模块,用于基于确定的所述期望系统收益更新待建立的Q表中所述状态信息和所述动作对应的期望系统收益;
重复模块,用于分别确定多个历史时刻的状态信息,重复执行选择模块、第三确定模块和更新模块的步骤,直至针对每一状态信息和每一动作的期望系统收益收敛,得到建立好的Q表;其中,针对每一状态信息,所述Q表中包括每一状态信息分别与各个动作组合起来对应的期望系统收益。
10.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-7任一所述的方法步骤。
CN202110125013.1A 2021-01-29 2021-01-29 移动边缘计算mec网络中的任务处理方法、装置及设备 Pending CN112905315A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110125013.1A CN112905315A (zh) 2021-01-29 2021-01-29 移动边缘计算mec网络中的任务处理方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110125013.1A CN112905315A (zh) 2021-01-29 2021-01-29 移动边缘计算mec网络中的任务处理方法、装置及设备

Publications (1)

Publication Number Publication Date
CN112905315A true CN112905315A (zh) 2021-06-04

Family

ID=76120799

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110125013.1A Pending CN112905315A (zh) 2021-01-29 2021-01-29 移动边缘计算mec网络中的任务处理方法、装置及设备

Country Status (1)

Country Link
CN (1) CN112905315A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113535390A (zh) * 2021-06-28 2021-10-22 山东师范大学 多接入边缘计算节点资源分配方法、系统、设备及介质
CN113946428A (zh) * 2021-11-02 2022-01-18 Oppo广东移动通信有限公司 一种处理器动态控制方法、电子设备和存储介质
CN116647880A (zh) * 2023-07-26 2023-08-25 国网冀北电力有限公司 面向差异化电力业务的基站协作边缘计算卸载方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109120457A (zh) * 2018-09-13 2019-01-01 余利 基于分布式软件定义架构的智能云的业务处理方法
CN110365787A (zh) * 2019-07-19 2019-10-22 南京工业大学 一种应用容器并基于微服务框架的边缘计算最优化布局方法
CN110798849A (zh) * 2019-10-10 2020-02-14 西北工业大学 一种超密网边缘计算的计算资源分配与任务卸载方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109120457A (zh) * 2018-09-13 2019-01-01 余利 基于分布式软件定义架构的智能云的业务处理方法
CN110365787A (zh) * 2019-07-19 2019-10-22 南京工业大学 一种应用容器并基于微服务框架的边缘计算最优化布局方法
CN110798849A (zh) * 2019-10-10 2020-02-14 西北工业大学 一种超密网边缘计算的计算资源分配与任务卸载方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
DONGYU WANG等: "《Reinforcement Learning-Based Joint Task Offloading and Migration Schemes Optimization in Mobility-Aware MEC Network》", 《CHINA COMMUNICATIONS》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113535390A (zh) * 2021-06-28 2021-10-22 山东师范大学 多接入边缘计算节点资源分配方法、系统、设备及介质
CN113535390B (zh) * 2021-06-28 2024-03-26 山东师范大学 多接入边缘计算节点资源分配方法、系统、设备及介质
CN113946428A (zh) * 2021-11-02 2022-01-18 Oppo广东移动通信有限公司 一种处理器动态控制方法、电子设备和存储介质
CN113946428B (zh) * 2021-11-02 2024-06-07 Oppo广东移动通信有限公司 一种处理器动态控制方法、电子设备和存储介质
CN116647880A (zh) * 2023-07-26 2023-08-25 国网冀北电力有限公司 面向差异化电力业务的基站协作边缘计算卸载方法和装置
CN116647880B (zh) * 2023-07-26 2023-10-13 国网冀北电力有限公司 面向差异化电力业务的基站协作边缘计算卸载方法和装置

Similar Documents

Publication Publication Date Title
CN113242568B (zh) 一种不确定网络环境中的任务卸载和资源分配方法
Baek et al. Managing fog networks using reinforcement learning based load balancing algorithm
CN111405568B (zh) 基于q学习的计算卸载和资源分配方法及装置
CN112860350B (zh) 一种边缘计算中基于任务缓存的计算卸载方法
Li et al. Energy-aware task offloading with deadline constraint in mobile edge computing
CN112416554B (zh) 一种任务迁移方法、装置、电子设备及存储介质
CN112905315A (zh) 移动边缘计算mec网络中的任务处理方法、装置及设备
CN109818786B (zh) 一种云数据中心应用可感知的分布式多资源组合路径最优选取方法
CN109951873B (zh) 一种物联网雾计算中信息不对称不确定下的任务卸载机制
CN109286664A (zh) 一种基于拉格朗日的计算迁移终端能耗优化方法
Mostafavi et al. A stochastic approximation approach for foresighted task scheduling in cloud computing
CN113645637A (zh) 超密集网络任务卸载方法、装置、计算机设备和存储介质
Li et al. DQN-enabled content caching and quantum ant colony-based computation offloading in MEC
CN113573363A (zh) 基于深度强化学习的mec计算卸载与资源分配方法
Li et al. Computation offloading and service allocation in mobile edge computing
Zhang et al. A deep reinforcement learning approach for online computation offloading in mobile edge computing
Wang et al. Resource allocation based on Radio Intelligence Controller for Open RAN towards 6G
Lyu et al. Multi-leader multi-follower Stackelberg game based resource allocation in multi-access edge computing
Gong et al. Dependent Task‐Offloading Strategy Based on Deep Reinforcement Learning in Mobile Edge Computing
CN117880122A (zh) 一种基于madfpg的任务卸载和资源分配联合优化方法
CN116455903A (zh) 一种利用深度强化学习优化车联网中依赖性任务卸载方法
Zhang et al. A Clustering Offloading Decision Method for Edge Computing Tasks Based on Deep Reinforcement Learning
Xie et al. The offloading algorithm of mobile edge computing considering mobility in the intelligent inspection scenario
Yao et al. Performance Optimization in Serverless Edge Computing Environment using DRL-Based Function Offloading
Zheng et al. Distributed algorithm for computation offloading in mobile edge computing considering user mobility and task randomness

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210604

RJ01 Rejection of invention patent application after publication