CN112835715A - 基于强化学习的无人机任务卸载策略的确定方法和装置 - Google Patents

基于强化学习的无人机任务卸载策略的确定方法和装置 Download PDF

Info

Publication number
CN112835715A
CN112835715A CN202110135702.0A CN202110135702A CN112835715A CN 112835715 A CN112835715 A CN 112835715A CN 202110135702 A CN202110135702 A CN 202110135702A CN 112835715 A CN112835715 A CN 112835715A
Authority
CN
China
Prior art keywords
task
unmanned aerial
aerial vehicle
computing
calculation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110135702.0A
Other languages
English (en)
Other versions
CN112835715B (zh
Inventor
罗晶晶
李慧
郑福春
高林
张钦宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Graduate School Harbin Institute of Technology
Original Assignee
Shenzhen Graduate School Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Graduate School Harbin Institute of Technology filed Critical Shenzhen Graduate School Harbin Institute of Technology
Priority to CN202110135702.0A priority Critical patent/CN112835715B/zh
Publication of CN112835715A publication Critical patent/CN112835715A/zh
Application granted granted Critical
Publication of CN112835715B publication Critical patent/CN112835715B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5072Grid computing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/502Proximity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/509Offload

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Traffic Control Systems (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本申请提供基于强化学习的无人机任务卸载策略的确定方法和装置,所述方法包括:S1:将无人机的计算任务建模为DAG模型,计算任务由多个不可再拆分且有序执行的子计算任务组成;S2:确定无人机产生的每个计算任务的任务卸载策略以最小化无人机工作期间内所有计算任务的平均计算代价,所述任务卸载策略用于确定计算任务的所有子计算任务中需要卸载到边缘服务器计算处理的子计算任务和在无人机本地计算处理的子计算任务。本申请所提出的基于强化学习的无人机用户自适应任务卸载策略,能够有效地降低无人机用户在时变通信信道条件下任务卸载的计算代价。

Description

基于强化学习的无人机任务卸载策略的确定方法和装置
技术领域
本申请涉及无人机与边缘计算技术领域,具体而言,涉及基于强化学习的无人机任务卸载策略的确定方法和装置。
背景技术
近年来,无人机由于高移动性、易于部署、低成本和独特的空中视角特性被广泛地应用在生活中的各个领域,例如公共安全监控、石油与天然气领域等。在这些领域中无人机可以替代人类做一些繁冗或危险的服务应用任务,例如对一片区域内的物体或场景进行探测、分类和识别。在这些应用中,无人机通过高分辨率摄像头对作业区域实时地采集图片,并立即执行图像特征识别算法对采集到的图片中的特征进行检测、分类和识别。这类计算任务是计算密集型的,需要专用的、功能强大的处理器。尽管近几年无人机的计算能力和本地车载电池能量技术有所提高,但是无人机本地的车载能量和计算能力依旧是十分有限的,在无人机本地执行计算密度大的计算任务会导致任务的响应时间和无人机的电池使用寿命大大受损。
为了解决上述问题,研究者们考虑将无人机用户计算密集的任务卸载到云服务器处理,然而由于云服务器距离用户端较远且近几年移动用户设备呈爆炸式增长,将无人机计算任务卸载到云服务器可能会导致服务延时比较大。移动边缘计算的出现解决了云服务器距离用户端较远的问题,边缘计算将云服务器的计算资源下降到用户端附近,用户通过边缘接入网络即可利用到额外的计算资源辅助计算,这样可以大大降低用户的服务延时。
然而,由于移动边缘网络的动态性和复杂性,无人机用户和边缘网络接入点的无线通信信道受干扰、路径损耗、阴影和衰落现象的影响,通信信道状态通常是时变的,时变的通信信道给无人机用户的任务卸载带来一定的挑战性。当信道状态较好时,无人机将计算任务直接卸载到边缘服务器所需要的传输能量较少,可能是一种比较好的卸载策略;但当信道状态较差时,将计算任务直接卸载到边缘服务器处理会导致无人机传输能量损耗和任务服务延时会很大。
因此,在时变通信信道环境下,如何确定任务卸载策略以减小无人机传输能量损耗和任务服务延时具有重要意义。
发明内容
有鉴于此,本申请提供基于强化学习的无人机任务卸载策略的确定方法和装置,以克服现有技术的缺陷。
为实现上述目的,本申请采用的技术方案如下:
第一方面,本申请提供基于强化学习的无人机任务卸载策略的确定方法,所述方法应用于移动边缘网络系统,所述移动边缘网络系统包括基站,以及在移动边缘网络区域执行应用服务并生成计算任务的无人机,所述基站配置了用于为无人机提供边缘计算服务的边缘服务器,所述任务卸载策略包括任务卸载决策和本地资源分配决策,所述方法包括:
S1:将无人机的计算任务建模为DAG模型,计算任务由多个不可再拆分且有序执行的子计算任务组成;
S2:确定无人机产生的每个计算任务的任务卸载策略以最小化无人机工作期间内所有计算任务的平均计算代价,所述任务卸载策略用于确定计算任务的所有子计算任务中需要卸载到边缘服务器计算处理的子计算任务和在无人机本地计算处理的子计算任务。
可选的,所述步骤S2中确定无人机产生的每个计算任务的任务卸载策略之前还包括为无人机产生的每个计算任务搭建任务卸载模型,具体为:
定义一个指示变量mj∈{0,1,2,...,M}来表示第j个计算任务的任务卸载决策,即计算任务前mj个子计算任务在无人机本地计算处理,后M-mj个子计算任务在边缘服务器计算处理;
具体的DAG拆分模型如下:
A(mj)={L(mj),B(mj),Z(mj)}
其中L(mj)表示第j个计算任务的拆分后所需的无人机本地计算资源; B(mj)表示第j个计算任务的拆分后所需的边缘服务器计算资源;Z(mj)表示第j个计算任务的拆分后无人机需要传输的输入比特量。
可选的,所述无人机计算任务的计算代价为计算任务的延时损耗T(j)和无人机处理计算任务的能量损耗E(j)的加权值,对于无人机第j个计算任务,计算代价如下式所示:
C(j)=αT(j)+βE(j)
其中,α,β为两个权重因子α,β∈(0,1)且α+β=1,分别表示计算任务延时损耗和无人机处理计算任务的能量损耗的加权系数。
可选的,所述计算任务的延时损耗包括:计算任务在本地计算处理时间,无人机传输计算任务需要卸载的数据到边缘服务器的时间,以及计算任务在边缘服务器计算处理的时间;对于无人机第j个计算任务:
根据任务拆分模型,第j个计算任务在本地计算处理的时间为:
Figure BDA0002926856350000041
无人机用户传输第j个计算任务需要卸载的数据到边缘服务器的时间为:
Figure BDA0002926856350000042
第j个计算任务在边缘服务器计算处理的时间为:
Figure BDA0002926856350000043
因此,无人机第j个计算任务计算处理的总时间如下式所示:
Figure BDA0002926856350000044
无人机处理计算任务的能量损耗包括:无人机计算处理计算任务的能量损耗,以及无人机卸载计算任务需要传输的数据到边缘服务器的能量损耗。对于无人机的第j个计算任务:
根据任务拆分模型,无人机计算处理第j个计算任务的能量损耗为:
El(j)=L(mj)kfu 2
其中,kfu 2表示无人机单位计算周期的能量损耗,k为系数,其值取决于芯片的架构;
无人机用户传输第j个计算任务需要卸载的数据到边缘服务器的能量损耗为:
Eoff(j)=Toff(j)P;
因此第j个计算任务计算计算处理所需的无人机总能量消耗如下式所示:
Figure BDA0002926856350000051
可选的,所述步骤S2中确定无人机产生的每个计算任务的任务卸载策略的具体方法为:
S2-1:利用强化学习工具,将无人机计算任务的任务卸载策略问题以强化学习的角度建模,定义强化学习关键要素如下:
1)代理人:无人机用户
2)行为空间:无人机不同的卸载策略和本地资源分配的组合集合
Figure BDA0002926856350000058
行为
Figure BDA0002926856350000052
其中mj∈{0,1,...,M},
Figure BDA0002926856350000053
为无人机用户分配给第j个计算任务的CPU频率,
Figure BDA0002926856350000054
行为空间的大小为M×N;
3)收益:每个行为的收益为计算任务计算代价的相反数,
Figure BDA0002926856350000055
Figure BDA0002926856350000056
π为无人机用户的选择行为策略,a*为在策略π下最优的行为;
4)价值函数:每个行为的价值函数为行为收益的平均值,
Figure BDA0002926856350000057
q(a*)表示无人机在策略π下给第j个计算任务选择的最优的行为a*的价值函数,N(a*)为无人机选择最优行为a*的次数;当无人机选择某个行为,就可以获得该行为的增益R(j,π);
S2-2:确定基于强化学习的任务卸载策略为:
1.初始化:J=total,j=0;对于任意的a∈A,N(a)=0,q(a)=0,total为计算任务的总数;设置探索系数ε=0.01;
2.重复:当有一个计算任务到达无人机上时,j=j+1;
1)第j个计算任务的卸载决策和资源分配决策为,
Figure BDA0002926856350000061
Figure BDA0002926856350000062
为行为的置信度不确定项,j为目前到达的任务数,N(a)为目前选择行为a的次数,系数ε是探索系数,它的值越大,代表行为的不确定项占比越大,代理人对行为的探索越多;
2)得到动作
Figure BDA0002926856350000063
的reward,
Figure BDA0002926856350000064
3)更新N(a*)+=1,
Figure BDA0002926856350000065
3.直到:J=total
其中fb为边缘服务器CPU频率,P为无人机用户的传输功率,R(j)为无人机和基站之间的通信信道传输速率。
第二方面,本申请提供基于强化学习的无人机任务卸载策略的确定装置,所述装置应用于移动边缘网络系统,所述移动边缘网络系统包括基站,以及在移动边缘网络区域执行应用服务并生成计算任务的无人机,所述基站配置了用于为无人机提供边缘计算服务的边缘服务器,所述任务卸载策略包括任务卸载决策和本地资源分配决策,所述装置包括:
建模模块,用于将无人机的计算任务建模为DAG模型,计算任务由多个不可再拆分且有序执行的子计算任务组成;
确定模块,用于确定无人机产生的每个计算任务的任务卸载策略以最小化无人机工作期间内所有计算任务的平均计算代价,所述任务卸载策略用于确定计算任务的所有子计算任务中需要卸载到边缘服务器计算处理的子计算任务和在无人机本地计算处理的子计算任务。
本申请的有益效果是:
1、将无人机每个计算任务拆分成本地计算处理部分和边缘计算处理部分,减少了无人机通信传输的数据量大小,进而减少了无人机通信的延时损耗和能量损耗,系统达到了更加优良的性能;
2、本申请中所构建的无人机用户计算任务DAG拆分模型具有可操作性强和精确度高等特点,可为无人机用户任务卸载研究提供一定的启发意义;
3、本申请所提出的基于强化学习的无人机用户任务卸载策略是一种自适应的任务卸载策略,能够有效地降低无人机用户在时变通信信道条件下任务卸载的计算代价;
4、基于强化学习的无人机用户自适应任务卸载策略可以实时地根据历史经验学习最优的任务卸载决策,可以有效减少系统实时的信令开销。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为基于强化学习的无人机任务卸载策略的确定方法流程图;
图2为本申请移动边缘网络系统架构图;
图3为本申请图片特征识别的DAG举例模型图;
图4为基于强化学习的无人机任务卸载策略的确定装置结构框图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。
图1为基于强化学习的无人机任务卸载策略的确定方法流程图;
如图1所示,本申请提供基于强化学习的无人机任务卸载策略的确定方法,所述方法应用于如图2所示的移动边缘网络系统,所述移动边缘网络系统包括基站,以及在移动边缘网络区域执行应用服务并生成计算任务的无人机,所述基站配置了用于为无人机提供边缘计算服务的边缘服务器;所述任务卸载策略包括任务卸载决策和本地资源分配决策。
在图2所示的系统架构中,无人机用户在移动边缘网络区域执行应用服务任务,在执行任务的过程中会不断地生成计算任务。无人机本地CPU 频率记为fu,fu∈{f1,f2,...,fN}。该移动边缘网络由单基站覆盖,基站配置了边缘服务器可为无人机提供边缘计算服务,边缘服务器CPU频率记为fb。无人机可以与基站进行无线通信,由于边缘环境和无人机的动态性,无人机和基站的通信信道状态是时变的。
所述确定方法包括:
S1:将无人机的计算任务建模为DAG模型,计算任务由多个不可再拆分且有序执行的子计算任务组成;
首先构造无人机用户的计算任务模型。根据无人机用户实际的应用背景,将无人机的计算任务建模为DAG模型,计算任务由多个不可再拆分且有序执行的子计算任务组成。
S2:确定无人机产生的每个计算任务的任务卸载策略以最小化无人机工作期间内所有计算任务的平均计算代价,所述任务卸载策略用于确定计算任务的所有子计算任务中需要卸载到边缘服务器计算处理的子计算任务和在无人机本地计算处理的子计算任务。
将无人机每个计算任务进行拆分计算处理,例如,将计算任务先在本地预处理一些计算密度小的子计算任务以寻求减少输入数据量后再将中间数据卸载到边缘服务器处理,以使得无人机用户能高效地利用本地和边缘的计算资源。此外,将任务在本地预处理后,可以减少无人机通信传输的数据量大小,进而减少无人机通信的延时损耗和能量损耗,以达到系统更加优良的性能。
作为可选的实施方式,所述步骤S2中确定无人机产生的每个计算任务的任务卸载策略之前还包括为无人机产生的每个计算任务搭建任务卸载模型,具体为:
定义一个指示变量mj∈{0,1,2,...,M}来表示第j个计算任务的任务卸载决策,即计算任务前mj个子计算任务在无人机本地计算处理,后M-mj个子计算任务在边缘服务器计算处理;
具体的DAG拆分模型如下:
A(mj)={L(mj),B(mj),Z(mj)} (1)
其中L(mj)表示第j个计算任务的拆分后所需的无人机本地计算资源; B(mj)表示第j个计算任务的拆分后所需的边缘服务器计算资源;Z(mj)表示第j个计算任务的拆分后无人机需要传输的输入比特量。
本申请中,搭建任务卸载模型之前可以先对无人机计算任务进行建模。
考虑无人机执行的应用服务是计算密集型的,例如农作物生长状态识别、电网线路状态识别等。在这些应用服务中,无人机通过配置的高分辨率摄像头对工作区域进行持续的图片采集,无人机的计算任务是对采集到的一组图片进行特征识别,如图3所示,该计算任务由多个互相依赖且有序执行的子计算任务组成。
使用DAG(Directed Acyclic Graph)模型来描述无人机的计算任务,记为G={V,E},V表示图表中所有顶点的集合,V={1,2,...,i...,M},顶点i表示计算任务的第i个子计算任务,与顶点i相关的两个参数是
Figure DEST_PATH_GDA0003015822480000101
和fi(·),其中
Figure DEST_PATH_GDA0003015822480000102
表示第i个子计算任务的计算密度,即单位比特输入数据所需要的CPU计算周期数;fi(·)表示第i个子计算任务输出数据量和输入数据量的数学关系,使用符号ωi表示第i个子计算任务的计算输入比特量,φi表示第i个子计算任务的计算输出比特量,则φi=fii)。E表示图表边缘的集合,每个边缘 (i,i+1)∈E表示第i+1个子计算任务必须在第i个子计算任务处理完成后才可以开始执行,与边缘相关的一个参数是q(i,i+1),表示从第i个子计算任务到第 i+1个子计算任务需要传输的数据比特量。根据计算任务的结构易知,第i个子计算任务到第i+1个子计算任务需要传输的数据比特量就是第i个子计算任务的计算输入比特量,即q(i,i+1)=φi=ωi+1,i∈(1,...,M-1)。
假设无人机在服务期间生成的计算任务总数是有限的,记为J,但计算任务是任意到达的。无人机每个计算任务j∈{1,2,...,J}的DAG模型是相同的,但是每个计算任务的初始输入比特量是不同的,即每个计算任务异构。假设无人机第j个计算任务的初始输入比特量为Ij,使用符号
Figure BDA0002926856350000111
表示无人机第 j个计算任务的第i个子计算任务的计算输入比特量,则
Figure BDA0002926856350000112
Figure BDA0002926856350000113
其中
Figure BDA0002926856350000114
表示无人机第j个计算任务的第i个子计算任务的计算输出比特量,则
Figure BDA0002926856350000115
对于公式(1)所示的DAG拆分模型,当mj=0时,表示计算任务全部卸载到边缘服务器计算处理,则L(mj)=0,
Figure BDA0002926856350000116
当 mj∈{1,...,M-1}时,表示计算任务首先在本地计算处理一部分步骤,再将本地计算处理的结果卸载到边缘服务器继续计算处理接下来的步骤,则
Figure BDA0002926856350000117
当mj=M时,表示计算任务全部在无人机本地处理,则
Figure BDA0002926856350000118
B(mj)=0,Zj(m)=0。
根据无人机用户实际应用背景,将无人机用户的计算任务建模为DAG 模型,并在DAG拆分模型下构建了无人机用户在移动边缘网络中部分任务卸载模型,本申请中所构建的无人机用户计算任务模型和计算任务拆分模型具有可操作性强和精确度高等特点,可以为无人机用户任务卸载研究提供一定的启发意义。
作为可选的实施方式,所述无人机计算任务的计算代价为计算任务的延时损耗T(j)和无人机处理计算任务的能量损耗E(j)的加权值,对于无人机第j个计算任务,计算代价如下式所示:
C(j)=αT(j)+βE(j) (2)
其中,α,β为两个权重因子α,β∈(0,1)且α+β=1,分别表示计算任务延时损耗和无人机处理计算任务的能量损耗的加权系数。
本申请关注的无人机任务卸载的性能指标不仅包括了无人机计算任务的延时损耗,还关注了无人机处理计算任务的能量消耗(忽略计算结果反馈的时间和能量消耗)。
由于延时损耗和能量损耗均与无人机与基站之间的信道状态相关,因此,先建立信道状态模型。
当计算任务需要卸载到边缘服务器计算处理时,无人机传输计算输入数据给边缘基站。我们假设无人机用户使用固定的传输功率,记为P,无人机和基站通信信道带宽固定为W。根据香农公式,当第j个计算任务到达无人机时,无人机和基站的通信信道传输速率为:
Figure BDA0002926856350000121
N0表示加性高斯白噪声的功率谱密度,h(j)表示第j个计算任务到达时无人机和基站通信信道的功率增益,其值与无人机和基站通信信道的干扰、路径损耗、阴影和衰落现象有关。由于无人机和边缘网络环境的动态性,无人机和基站的通信信道增益是时变的。
下面基于上述建立的信道状态模型来分别计算延时损耗和能量损耗。
1、延时损耗
无人机计算任务的延时损耗主要包括四个部分:(a)计算任务在本地计算处理时间;(b)无人机传输计算任务需要卸载的数据到边缘服务器的时间;(c)计算任务在边缘服务器计算处理的时间;(d)计算结果回传时间,由于计算结果较少,回传时间忽略不计。对于无人机第j个计算任务:
根据任务拆分模型,第j个计算任务在本地计算处理的时间为:
Figure BDA0002926856350000131
无人机用户传输第j个计算任务需要卸载的数据到边缘服务器的时间为:
Figure BDA0002926856350000132
第j个计算任务在边缘服务器计算处理的时间为:
Figure BDA0002926856350000133
因此,无人机第j个计算任务计算处理的总时间如下式所示:
Figure BDA0002926856350000134
2、能量损耗
无人机处理计算任务的能量损耗主要包括两个部分:(a)无人机计算处理计算任务的能量损耗;(b)无人机卸载计算任务需要传输的数据到边缘服务器的能量损耗。对于无人机的第j个计算任务:
根据任务拆分模型,无人机计算处理第j个计算任务的能量损耗为:
El(j)=L(mj)kfu 2 (8)
其中,kfu 2表示无人机单位计算周期的能量损耗,k为系数,其值取决于芯片的架构。
无人机用户传输第j个计算任务需要卸载的数据到边缘服务器的能量损耗为:
Eoff(j)=Toff(j)P (9)
因此第j个计算任务计算计算处理所需的无人机总能量消耗如下式所示:
Figure BDA0002926856350000141
3、计算代价
如公式(2)所示,对于无人机第j个计算任务,计算代价为 C(j)=αT(j)+βE(j),在该式中,若α值较大,说明此系统更关注无人机计算任务延时损耗的影响;若β值较大,则说明此系统更关注无人机处理计算任务的能量消耗。研究表明,用户更高的CPU频率可以缩短计算任务处理的时间,但单位CPU的能量损耗又与CPU频率的平方成正比,因此当 CPU频率增加时,用户计算处理任务的能量损耗也会增加。由于边缘服务器有持续稳定的能量供应,其可以为无人机用户持续提供最高的CPU频率fb以最小化任务延时损耗。然而,由于无人机用户车载能量是有限,可以应用动态电压和频率缩放(dynamic voltage and frequencyscaling,DVFS) 技术来优化无人机用户分配给第j个计算任务的CPU频率
Figure BDA0002926856350000142
Figure BDA0002926856350000143
以便在计算任务的延时损耗和能量损耗之间达到性能平衡。
无人机工作期间内所有计算任务的平均计算代价如下式所示:
Figure BDA0002926856350000151
通过优化每个计算任务的任务卸载决策mj和本地资源分配决策
Figure BDA0002926856350000152
最小化无人机工作期间内所有计算任务的平均计算代价,定义优化问题如下:
Figure BDA0002926856350000153
Figure BDA0002926856350000154
Figure BDA0002926856350000155
第一个限制条件约束了每个计算任务的卸载决策,第二个限制条件约束了本地CPU频率的取值范围。
为了达到最小化无人机工作期间内所有计算任务的平均计算代价,需要对无人机产生的每个计算任务,做出在线的任务卸载决策。在实际网络中,时变的通信信道状态难以实时获取,当实时的信道状态未知时,本申请提出一种基于强化学习的自适应任务卸载策略来求解上述优化问题。将无人机在线的任务卸载决策问题以强化学习的角度建模。强化学习关键要素如下:
1)代理人:无人机用户
2)行为空间:无人机不同的卸载策略和本地资源分配的组合集合
Figure BDA0002926856350000156
行为
Figure BDA0002926856350000157
其中mj∈{0,1,...,M},
Figure BDA0002926856350000158
为无人机用户分配给第j个计算任务的CPU频率,
Figure BDA0002926856350000159
行为空间的大小为M×N;
3)收益:每个行为的收益为计算任务计算代价的相反数,
Figure BDA00029268563500001510
π是无人机为每个到达的任务选择任务卸载决策和本地资源分配决策的一种策略,即无人机选择行为的策略,
Figure BDA0002926856350000161
是无人机在策略π下为第j个计算任务做出的最优的任务卸载决策mj *和本地资源分配决策
Figure BDA0002926856350000162
的组合,即无人机最优的行为记为a*
4)价值函数:每个行为的价值函数为行为收益的平均值,
Figure BDA0002926856350000163
q(a)为无人机的每个行为a的价值函数,N(a)为无人机选择行为a的次数;q(a*)表示无人机在策略π下给第j个计算任务选择的最优的行为a*的价值函数,N(a*)为无人机选择最优行为a*的次数;当无人机选择某个行为,就可以获得该行为的增益R(j,π),获取新的增益后该行为的价值函数(增益的均值)就需要更新。
在强化学习中,代理人的最终目标是最大化长期累计的收益,因此我们将优化问题重新构建成:
Figure BDA0002926856350000164
Figure BDA0002926856350000165
Figure BDA0002926856350000166
从强化学习的角度解决上述的优化问题,每当有一个计算任务到达无人机时,无人机用户根据历史经验评估每个卸载决策的潜力选择最优的卸载策略,再根据反馈的收益更新每个卸载策略的价值。通过这种方式,无人机无需获取时变的通信信道状态,利用历史卸载经验确定任务卸载策略。具体的算法流程如下:
1.初始化:J=total,j=0;对于任意的a∈A,N(a)=0,q(a)=0,total为计算任务的总数;设置探索系数ε=0.01;
2.重复:当有一个计算任务到达无人机上时,j=j+1;
1)第j个计算任务的卸载决策和资源分配决策为,
Figure BDA0002926856350000171
在以强化学习的角度对问题建模中,将无人机的任务卸载决策和本地资源分配决策的组合作为无人机的一个行为
Figure BDA0002926856350000172
A为所有行为的集合。此时需要设计策略π以使得根据设计出的策略π能够找出最优的行为a*。本申请使用的策略是基于强化学习的置信度上限的行为选择思想,即使用公式
Figure BDA0002926856350000173
来衡量行为的置信度以选择最优的行为。其中q(a) 为每个行为的价值,用于衡量行为能够获取的平均增益大小;
Figure BDA0002926856350000174
为行为的置信度不确定项,j为目前到达的任务数,N(a)为目前选择行为a的次数。当一个行为被选中时,分母项N(a)增加,不确定性下降,但其余未选中的行为由于分母项不变,分子项增加,未选中的行为的不确定性增加,因此可以使用置信度不确定项来实现行为的探索和利用,系数ε是探索系数,它的值越大,代表行为的不确定项占比越大,代理人对行为的探索越多。
2)得到动作
Figure BDA0002926856350000175
的reward,
Figure BDA0002926856350000176
3)更新N(a*)+=1,
Figure BDA0002926856350000177
3.直到:J=total
其中fb为边缘服务器CPU频率,P为无人机用户的传输功率,R(j)为无人机和基站之间的通信信道传输速率。在实际操作中,上述计算任务的总数例如可设置为300,也可设置为其他的合理数值,本申请对此不作限定。
本申请所提出的基于强化学习的无人机用户自适应任务卸载策略,能够有效地降低无人机用户在时变通信信道条件下任务卸载的计算代价;基于强化学习的无人机用户自适应任务卸载策略可以实时地根据历史经验学习最优的任务卸载决策,可以有效减少系统实时的信令开销。
图4为基于强化学习的无人机任务卸载策略的确定装置结构框图,所述装置应用于移动边缘网络系统,所述移动边缘网络系统包括基站,以及在移动边缘网络区域执行应用服务并生成计算任务的无人机,所述基站配置了用于为无人机提供边缘计算服务的边缘服务器,所述任务卸载策略包括任务卸载决策和本地资源分配决策,如图4所示,所述装置包括:
建模模块410,用于将无人机的计算任务建模为DAG模型,计算任务由多个不可再拆分且有序执行的子计算任务组成;
首先构造无人机用户的计算任务模型。根据无人机用户实际的应用背景,将无人机的计算任务建模为DAG模型,计算任务由多个不可再拆分且有序执行的子计算任务组成。
确定模块420,用于确定无人机产生的每个计算任务的任务卸载策略以最小化无人机工作期间内所有计算任务的平均计算代价,所述任务卸载策略用于确定计算任务的所有子计算任务中需要卸载到边缘服务器计算处理的子计算任务和在无人机本地计算处理的子计算任务。
将无人机每个计算任务进行拆分计算处理,例如,将计算任务先在本地预处理一些计算密度小的子计算任务以寻求减少输入数据量后再将中间数据卸载到边缘服务器处理,以使得无人机用户能高效地利用本地和边缘的计算资源。此外,将任务在本地预处理后,可以减少无人机通信传输的数据量大小,进而减少无人机通信的延时损耗和能量损耗,以达到系统更加优良的性能。
在本申请所提供的实施例中,应该理解到,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (6)

1.基于强化学习的无人机任务卸载策略的确定方法,其特征在于,所述方法应用于移动边缘网络系统,所述移动边缘网络系统包括基站,以及在移动边缘网络区域执行应用服务并生成计算任务的无人机,所述基站配置了用于为无人机提供边缘计算服务的边缘服务器,所述任务卸载策略包括任务卸载决策和本地资源分配决策,所述方法包括:
S1:将无人机的计算任务建模为DAG模型,计算任务由多个不可再拆分且有序执行的子计算任务组成;
S2:确定无人机产生的每个计算任务的任务卸载策略以最小化无人机工作期间内所有计算任务的平均计算代价,所述任务卸载策略用于确定计算任务的所有子计算任务中需要卸载到边缘服务器计算处理的子计算任务和在无人机本地计算处理的子计算任务。
2.如权利要求1所述的基于强化学习的无人机任务卸载策略的确定方法,其特征在于,所述步骤S2中确定无人机产生的每个计算任务的任务卸载策略之前还包括为无人机产生的每个计算任务搭建任务卸载模型,具体为:
定义一个指示变量mj∈{0,1,2,...,M}来表示第j个计算任务的任务卸载决策,即计算任务前mj个子计算任务在无人机本地计算处理,后M-mj个子计算任务在边缘服务器计算处理;
具体的DAG拆分模型如下:
A(mj)={L(mj),B(mj),Z(mj)}
其中L(mj)表示第j个计算任务的拆分后所需的无人机本地计算资源;B(mj)表示第j个计算任务的拆分后所需的边缘服务器计算资源;Z(mj)表示第j个计算任务的拆分后无人机需要传输的输入比特量。
3.如权利要求1或2所述的基于强化学习的无人机任务卸载策略的确定方法,其特征在于,所述无人机计算任务的计算代价为计算任务的延时损耗T(j)和无人机处理计算任务的能量损耗E(j)的加权值,对于无人机第j个计算任务,计算代价如下式所示:
C(j)=αT(j)+βE(j)
其中,α,β为两个权重因子α,β∈(0,1)且α+β=1,分别表示计算任务延时损耗和无人机处理计算任务的能量损耗的加权系数。
4.如权利要求3所述的基于强化学习的无人机任务卸载策略的确定方法,其特征在于,所述计算任务的延时损耗包括:计算任务在本地计算处理时间,无人机传输计算任务需要卸载的数据到边缘服务器的时间,以及计算任务在边缘服务器计算处理的时间;对于无人机第j个计算任务:
根据任务拆分模型,第j个计算任务在本地计算处理的时间为:
Figure FDA0002926856340000021
无人机用户传输第j个计算任务需要卸载的数据到边缘服务器的时间为:
Figure FDA0002926856340000022
第j个计算任务在边缘服务器计算处理的时间为:
Figure FDA0002926856340000031
因此,无人机第j个计算任务计算处理的总时间如下式所示:
Figure FDA0002926856340000032
无人机处理计算任务的能量损耗包括:无人机计算处理计算任务的能量损耗,以及无人机卸载计算任务需要传输的数据到边缘服务器的能量损耗。对于无人机的第j个计算任务:
根据任务拆分模型,无人机计算处理第j个计算任务的能量损耗为:
El(j)=L(mj)kfu 2
其中,kfu 2表示无人机单位计算周期的能量损耗,k为系数,其值取决于芯片的架构;
无人机用户传输第j个计算任务需要卸载的数据到边缘服务器的能量损耗为:
Eoff(j)=Toff(j)P;
因此第j个计算任务计算计算处理所需的无人机总能量消耗如下式所示:
Figure FDA0002926856340000033
5.如权利要求4所述的基于强化学习的无人机任务卸载策略的确定方法,其特征在于,所述步骤S2中确定无人机产生的每个计算任务的任务卸载策略的具体方法为:
S2-1:利用强化学习工具,将无人机计算任务的任务卸载策略问题以强化学习的角度建模,定义强化学习关键要素如下:
1)代理人:无人机用户
2)行为空间:无人机不同的卸载策略和本地资源分配的组合集合
Figure FDA0002926856340000041
行为
Figure FDA0002926856340000042
其中mj∈{0,1,...,M},
Figure FDA0002926856340000043
为无人机用户分配给第j个计算任务的CPU频率,
Figure FDA0002926856340000044
行为空间的大小为M×N;
3)收益:每个行为的收益为计算任务计算代价的相反数,
Figure FDA0002926856340000045
π为无人机用户的任务卸载策略,a*为在策略π下最优的任务卸载策略;
4)价值函数:每个行为的价值函数为行为收益的平均值,
Figure FDA0002926856340000046
q(a*)表示无人机在策略π下给第j个计算任务选择的最优的行为a*的价值函数,N(a*)为无人机选择最优行为a*的次数;当无人机选择某个行为,就可以获得该行为的增益R(j,π);
S2-2:确定基于强化学习的任务卸载策略为:
1.初始化:J=total,j=0;对于任意的a∈A,N(a)=0,q(a)=0,total为计算任务的总数;设置探索系数ε=0.01;
2.重复:当有一个计算任务到达无人机上时,j=j+1;
1)第j个计算任务的卸载决策和资源分配决策为,
Figure FDA0002926856340000047
Figure FDA0002926856340000051
为行为的置信度不确定项,j为目前到达的任务数,N(a)为目前选择行为a的次数,系数ε是探索系数,它的值越大,代表行为的不确定项占比越大,代理人对行为的探索越多;
2)得到动作
Figure FDA0002926856340000052
的reward,
Figure FDA0002926856340000053
3)更新N(a*)+=1,
Figure FDA0002926856340000054
3.直到:J=total
其中fb为边缘服务器CPU频率,P为无人机用户的传输功率,R(j)为无人机和基站之间的通信信道传输速率。
6.基于强化学习的无人机任务卸载策略的确定装置,其特征在于,所述装置应用于移动边缘网络系统,所述移动边缘网络系统包括基站,以及在移动边缘网络区域执行应用服务并生成计算任务的无人机,所述基站配置了用于为无人机提供边缘计算服务的边缘服务器,所述任务卸载策略包括任务卸载决策和本地资源分配决策,所述装置包括:
建模模块,用于将无人机的计算任务建模为DAG模型,计算任务由多个不可再拆分且有序执行的子计算任务组成;
确定模块,用于确定无人机产生的每个计算任务的任务卸载策略以最小化无人机工作期间内所有计算任务的平均计算代价,所述任务卸载策略用于确定计算任务的所有子计算任务中需要卸载到边缘服务器计算处理的子计算任务和在无人机本地计算处理的子计算任务。
CN202110135702.0A 2021-02-01 2021-02-01 基于强化学习的无人机任务卸载策略的确定方法和装置 Active CN112835715B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110135702.0A CN112835715B (zh) 2021-02-01 2021-02-01 基于强化学习的无人机任务卸载策略的确定方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110135702.0A CN112835715B (zh) 2021-02-01 2021-02-01 基于强化学习的无人机任务卸载策略的确定方法和装置

Publications (2)

Publication Number Publication Date
CN112835715A true CN112835715A (zh) 2021-05-25
CN112835715B CN112835715B (zh) 2022-12-09

Family

ID=75931274

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110135702.0A Active CN112835715B (zh) 2021-02-01 2021-02-01 基于强化学习的无人机任务卸载策略的确定方法和装置

Country Status (1)

Country Link
CN (1) CN112835715B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113296963A (zh) * 2021-07-27 2021-08-24 南京信息工程大学 一种考虑用户移动性的无人机辅助的边缘计算方法
CN114116050A (zh) * 2021-11-16 2022-03-01 天津市英贝特航天科技有限公司 一种边缘计算的选择性卸载方法及系统
CN114172558A (zh) * 2021-11-24 2022-03-11 上海大学 一种车辆网络中基于边缘计算和无人机集群协同的任务卸载方法
CN114520991A (zh) * 2022-01-27 2022-05-20 重庆邮电大学 基于无人机集群的边缘网络自适应部署方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140287754A1 (en) * 2013-03-24 2014-09-25 Mariana Goldhamer Offloading mobile applications to base stations
US20150261274A1 (en) * 2014-03-14 2015-09-17 Samsung Electronics Co., Ltd. Electronic system with offloading mechanism and method of operation thereof
CN109358953A (zh) * 2018-09-20 2019-02-19 中南大学 一种微云中的多任务应用卸载方法
CN109819046A (zh) * 2019-02-26 2019-05-28 重庆邮电大学 一种基于边缘协作的物联网虚拟计算资源调度方法
CN110798858A (zh) * 2019-11-07 2020-02-14 华北电力大学(保定) 基于代价效率的分布式任务卸载方法
CN111787509A (zh) * 2020-07-14 2020-10-16 中南大学 边缘计算中基于强化学习的无人机任务卸载方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140287754A1 (en) * 2013-03-24 2014-09-25 Mariana Goldhamer Offloading mobile applications to base stations
US20150261274A1 (en) * 2014-03-14 2015-09-17 Samsung Electronics Co., Ltd. Electronic system with offloading mechanism and method of operation thereof
CN109358953A (zh) * 2018-09-20 2019-02-19 中南大学 一种微云中的多任务应用卸载方法
CN109819046A (zh) * 2019-02-26 2019-05-28 重庆邮电大学 一种基于边缘协作的物联网虚拟计算资源调度方法
CN110798858A (zh) * 2019-11-07 2020-02-14 华北电力大学(保定) 基于代价效率的分布式任务卸载方法
CN111787509A (zh) * 2020-07-14 2020-10-16 中南大学 边缘计算中基于强化学习的无人机任务卸载方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JINGJING LUO ET.AL: "Learning-Based Computation Offloading for Edge Networks with Heterogeneous Resources", 《IEEE XPLORE》 *
YING SHANG ET.AL: "DAG-based Task Scheduling in Mobile Edge Computing", 《2020 7TH INTERNATIONAL CONFERENCE ON INFORMATION SCIENCE AND CONTROL ENGINEERING》 *
李阳: "移动边缘计算中节能高效的资源联合优化若干问题研究", 《中国博士学位论文全文数据库电子期刊》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113296963A (zh) * 2021-07-27 2021-08-24 南京信息工程大学 一种考虑用户移动性的无人机辅助的边缘计算方法
CN114116050A (zh) * 2021-11-16 2022-03-01 天津市英贝特航天科技有限公司 一种边缘计算的选择性卸载方法及系统
CN114172558A (zh) * 2021-11-24 2022-03-11 上海大学 一种车辆网络中基于边缘计算和无人机集群协同的任务卸载方法
CN114172558B (zh) * 2021-11-24 2024-01-19 上海大学 一种车辆网络中基于边缘计算和无人机集群协同的任务卸载方法
CN114520991A (zh) * 2022-01-27 2022-05-20 重庆邮电大学 基于无人机集群的边缘网络自适应部署方法
CN114520991B (zh) * 2022-01-27 2023-07-28 重庆邮电大学 基于无人机集群的边缘网络自适应部署方法

Also Published As

Publication number Publication date
CN112835715B (zh) 2022-12-09

Similar Documents

Publication Publication Date Title
CN112835715B (zh) 基于强化学习的无人机任务卸载策略的确定方法和装置
Huang et al. Deep reinforcement learning for online computation offloading in wireless powered mobile-edge computing networks
CN111245950B (zh) 基于深度学习的工业物联网边缘资源智能调度系统及方法
CN110475224B (zh) 一种基于边缘计算的传感器数据处理与协同预测方法
US11956307B1 (en) Distributed task offloading and computing resources management method based on energy harvesting
WO2022063247A1 (zh) 神经网络结构搜索方法及装置
CN112988285B (zh) 任务卸载方法和装置、电子设备及存储介质
CN111401744B (zh) 一种移动边缘计算中不确定性环境下的动态任务卸载方法
CN114520768B (zh) 一种用于工业物联网中随机任务的ai卸载优化方法
US20220414432A1 (en) Method and system for splitting and bit-width assignment of deep learning models for inference on distributed systems
CN110531996B (zh) 一种多微云环境下基于粒子群优化的计算任务卸载方法
CN113778691B (zh) 一种任务迁移决策的方法、装置及系统
WO2022242468A1 (zh) 任务卸载方法、调度优化方法和装置、电子设备及存储介质
CN114595049A (zh) 一种云边协同任务调度方法及装置
CN112561199A (zh) 天气参数预测模型训练方法、天气参数预测方法及装置
Mohammad et al. Adaptive task allocation for asynchronous federated mobile edge learning
CN115065992A (zh) 一种基于边缘计算的协同感知与资源分配方法
CN114007231B (zh) 异构无人机数据卸载方法、装置、电子设备及存储介质
CN111343602B (zh) 基于进化算法的联合布局与任务调度优化方法
Chen et al. A game theoretic approach to task offloading for multi-data-source tasks in mobile edge computing
Khan et al. Distributed inference in resource-constrained iot for real-time video surveillance
Samie et al. Fast operation mode selection for highly efficient iot edge devices
CN111158918B (zh) 支撑点并行枚举负载均衡方法、装置、设备及介质
CN115984084B (zh) 一种基于动态可拆分网络的遥感分布式数据处理方法
CN114077482B (zh) 一种工业智能制造边缘智能计算优化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant