CN116009990B - 基于宽注意力机制的云边协同元强化学习计算卸载方法 - Google Patents

基于宽注意力机制的云边协同元强化学习计算卸载方法 Download PDF

Info

Publication number
CN116009990B
CN116009990B CN202310088345.6A CN202310088345A CN116009990B CN 116009990 B CN116009990 B CN 116009990B CN 202310088345 A CN202310088345 A CN 202310088345A CN 116009990 B CN116009990 B CN 116009990B
Authority
CN
China
Prior art keywords
task
representing
resource pool
energy consumption
unloading
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310088345.6A
Other languages
English (en)
Other versions
CN116009990A (zh
Inventor
王晓飞
刘铸滔
仇超
赵云凤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202310088345.6A priority Critical patent/CN116009990B/zh
Publication of CN116009990A publication Critical patent/CN116009990A/zh
Application granted granted Critical
Publication of CN116009990B publication Critical patent/CN116009990B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于宽注意力机制的云边协同元强化学习计算卸载方法,包括:根据用户设备生成的各计算任务之间的依赖关系构建任务执行图;以任务总延迟、任务处理总能耗以及计算任务与所卸载资源池之间的匹配度的权衡为目标构建卸载目标函数;将任务的卸载过程建模为马尔可夫决策过程,根据卸载目标函数、执行任务图定义状态、动作和奖励函数;构建宽注意力机制的seq2seq神经网络,将任务执行图输入seq2seq神经网络中,利用近端策略优化方法对卸载目标函数进行优化输出最优调度决策,同时利用元强化学习算法对近端策略优化方法的参数进行更新。本发明使具有依赖关系的任务可以在本地执行,也可在细粒度资源池上执行,提高了能效。

Description

基于宽注意力机制的云边协同元强化学习计算卸载方法
技术领域
本发明属于计算机网络技术领域,具体涉及一种基于宽注意力机制的云边协同元强化学习计算卸载方法。
背景技术
随着数字经济的大规模发展,对算力服务的需求快速增长,包括更快的速度、更高的精度、更大的规模和更短的延迟。算力网络(Computing Power Network,CPN)是一种将计算和网络深度融合的新型体系结构,已成为前沿研究热点。然而,由于碳纳米管的激增,能源消耗急剧加剧。据报道,数据中心的碳排放量已达到16.5亿吨,约占二氧化碳排放总量的1.54%。但是由于对任务和资源的粗粒度分析,比如粗粒度任务考虑及粗粒度资源集成,使得大部分能量都被浪费了,这对绿色CPN是致命的伤害。
由于CPN中有各种任务,若毫无区别地考虑所有任务粒度是不合适的,这种对任务的粗粒度考虑将导致资源和能量的重复使用,甚至浪费。同时,随着CPN中资源的增长,在大量资源中安排一个合适的资源具有挑战性,会导致竞争冲突和任务卸载的不确定性,因此,有效的资源整合是必要的。另外,解决任务卸载问题的传统方法严重依赖于专家知识和精确的数学模型,它们对意外扰动或未知情况的适应性较弱,也很难将注意力集中在具有高维输入数据的有用信息上,这导致了严重的计算负担和低能效。
发明内容
针对以上问题,本发明提出了一种基于宽注意力机制的云边协同元强化学习计算卸载方法。为解决以上技术问题,本发明所采用的技术方案如下:
一种基于宽注意力机制的云边协同元强化学习计算卸载方法,包括如下步骤:
S1,根据用户设备生成的各计算任务之间的依赖关系利用有向无环图构建任务执行图;
S2,以任务总延迟、任务处理总能耗以及计算任务与所卸载资源池之间的匹配度的权衡为目标构建卸载目标函数;
S3,将任务的卸载过程建模为马尔可夫决策过程,根据步骤S2得到的卸载目标函数、步骤S1建立的执行任务图定义状态、动作和奖励函数;
S4,构建宽注意力机制的seq2seq神经网络,将任务执行图输入seq2seq神经网络中,利用近端策略优化方法对卸载目标函数进行优化输出最优调度决策,同时利用元强化学习算法对近端策略优化方法的参数进行更新。
在步骤S2中,所述卸载目标函数的表达式为:
式中,α1表示任务总延迟的权重,α2表示任务处理总能耗的权重,α3表示匹配度的权重,表示任务调度决策A1:T的任务总延迟,表示任务调度决策A1:T的任务处理总能耗,表示任务调度决策A1:T的匹配度,任务调度决策A1:T={ai,i=1,2,...,T},ai表示任务ti的卸载决策,T表示任务总数。
所述任务调度决策A1:T的任务总延迟的计算公式为:
式中,表示任务tk的结果在无线下行链路信道上传输完成的时间,表示任务tk卸载到UE上本地执行时任务处理完成的时间,且k∈P(ti),P(ti)表示任务执行图中任务ti的父任务集合,表示资源池的集合。
所述任务调度决策A1:T的任务处理总能耗的计算公式为:
式中,sgn(·)为指示函数,表示任务ti在UE上运行时本地计算的能耗,表示将任务ti远程卸载到资源池x后并下载结果的能耗。
所述将任务ti远程卸载到资源池x后并下载结果的能耗的计算公式为:
式中,表示将任务ti通过无线上行链路信道卸载到资源池x的上传能耗,表示资源池xx计算任务ti所需的处理能耗,表示将任务ti从资源池x通过无线下行链路信道卸载结果的下载能耗;
任务ti在UE上运行时本地计算的能耗的计算公式为:
式中,κUE表示UE的转换参数,Mi表示任务ti的任务类型,fUE表示UE分配给任务的计算能力,Ci表示运行任务ti所需的CPU周期。
所述任务调度决策A1:T的匹配度的计算公式为:
式中,表示任务ti和UE之间的匹配度,表示任务ti和资源池x的之间的匹配度,sgn(·)为指示函数。
匹配度采用如下公式计算:
di,x=1/(1+d′i,x);
式中,d′i,x表示任务ti的因子向量和资源池x的因子向量之间的欧几里得距离,di,x表示任务ti与资源池x之间的匹配度。
在步骤S3中,所述状态采用S表示,其表达式为:
其中i∈[1,2,...,T];
式中,A1:i表示前i个任务的任务调度决策,T表示任务总数,表示任务执行图,表示顶点也即任务的集合,ε表示边的集合,si表示执行前i个任务的任务调度决策后的状态;
动作采用A表示,其表达式为:
A:={0,1,2,...,x,...,X};
当动作值为0时,表示任务在UE上本地执行,当动作值为x时,表示任务卸载到对应的资源池上执行,X表示资源池的总数;
奖励函数采用R表示,当任务ti采用任务调度决策A1:i时,表达式为:
式中,表示任务调度决策A1:i的任务总延迟,表示任务调度决策A1:i的任务处理总能耗,表示任务调度决策A1:i的匹配度,表示任务调度决策A1:i-1的任务总延迟,表示任务调度决策A1:i-1的任务处理总能耗,表示任务调度决策A1:i-1的匹配度,α1表示任务总延迟的权重,α2表示任务处理总能耗的权重,α3表示匹配度的权重。
所述宽注意力机制的seq2seq神经网络包括依次连接的第一注意力层、编码器层、第二注意力层以及解码器层。
本发明的有益效果:
在细粒度任务角度,本申请将分散的资源集成到细粒度资源池中,将任务建模为细粒度的有向无环图,构建了绿色CPN的细粒度DAG相关任务的卸载问题,使得具有依赖关系的任务可以在本地执行,也可以在细粒度资源池上执行,大幅度提高了能效。
为了将依赖DAG的任务分配给适当的资源池,设计了一种新的宽注意力元强化学习方法,即Bat-MRL,设计的seq2seq神经网络可以减少任务的延迟和能量消耗,与传统的强化学习算法相比,有着更快的学习速率与更好的泛化性,能够适应快速变化环境。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为算力网络中任务卸载的示意图。
图2为宽注意力机制seq2seq神经网络的结构示意图。
图3为当DAG较宽且任务数为20时,不同情况和算法对延迟和能耗的影响。
图4为当DAG较宽且任务数为30时,不同情况和算法对延迟和能耗的影响。
图5为本申请与其它算法的效果比较示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
算力网络利用云网融合技术以及SDN(Software Defined Network,软件定义网络)/NFV(Network Functions Virtualization,网络功能虚拟化)等新型网络技术,将边缘计算节点、云计算节点以及含广域网在内的各类网络资源深度融合在一起,形成了根据距离进行简单资源聚合而形成的粗粒度资源池、根据距离和资源类型进行划分的细粒度资源池,比如更适合处理图片任务的资源池,更适合处理视频任务的资源池,更适合处理文本任务的资源池,减少了边缘计算节点的管控复杂度,并通过集中控制或者分布式调度方法与云计算节点的计算和存储资源、广域网的网络资源进行协同,组成新一代信息基础设施,为客户提供包含计算、存储和连接的整体算力服务,并根据业务特性提供灵活、可调度的按需服务。
实施例1:一种基于宽注意力机制的云边协同元强化学习计算卸载方法,如图1所示,包括如下步骤:
S1,根据用户设备生成的各计算任务之间的依赖关系利用有向无环图(DirectedAcyclic Graph,DAG)构建任务执行图;
在不失一般性的情况下,用户设备(User Equipment,UE)的某一个应用程序执行时,有相关的计算任务需要完成,该计算任务包含若干个任务,不同的任务可能属于同一类型,也可能属于不同类型,比如人脸识别、目标检测等不同的任务,都有需要将数据发送到CPU资源上进行运算的操作,即他们都是需要图片识别类型的计算资源。任何的应用程序都可以根据他们的功能划分出更适合不同类别资源的任务。同一类的任务之间或者不同类的任务之间会有一定的依赖关系,也即该任务依赖于另一任务(下称父任务)的执行结果,只有在后者完成之后,前者才能开始。基于有向无环图和任务之间的先后关系构建任务执行图,所述任务执行图采用表示, 表示顶点也即任务的集合,ε表示边的集合, ti表示第i个任务,T表示任务的总数,每条边e(i,j)∈ε,e(i,j)反映了任务ti和任务tj之间的依赖性。
任务类型的集合采用表示,Y表示任务类型的总数,y表示第y类任务。资源池的集合采用表示,X表示资源池的总数,x表示第x个资源池,资源池x的CPU频率采用fx表示,fx={fx,y},fx,y表示资源池x处理第y类任务的计算能力。本申请中设定每个资源池均部署了具有不同计算性能的用于对每种类型的任务进行处理的特定服务集,因此,任务即可以在本地执行,也可以通过无线信道卸载到缓存了相应服务的细粒度资源池上执行。
一般情况下,对于任一任务ti,如果它被卸载,有三个主要步骤要处理:(i)UE通过无线链路上行信道向资源池发送任务ti;(ii)卸载的资源池运行所接收的任务ti;(iii)将任务ti的运行结果返回给UE。在每个步骤中,任务的延迟均与任务配置、CPN资源状态有关。采用Fi表示任务ti的任务配置,其中,Ci表示运行任务ti所需的CPU周期,表示发送任务ti时的数据大小,表示接收任务ti的结果时的数据大小,Mi表示任务ti的任务类型,是维单位向量,如果它的第y个元素是1,其余元素都是0,则此任务属于y类任务。任务ti传输到资源池x的资源状态采用Bi,x表示, 表示将任务ti通过无线上行链路信道上传到资源池x时的传输速率,表示通过无线下行链路信道从资源池x下载任务ti结果时的传输速率,fi,x表示资源池x对任务ti的计算能力向量,也即资源池x分配给任务ti的CPU频率,fi,x,y表示资源池x分配给任务ti中第y类计算任务的计算能力。
将任务ti卸载到资源池x的总等待时间采用表示,其计算公式为:
式中,表示通过无线上行链路信道向资源池x发送任务ti的上传时间,表示资源池x处理任务ti的计算等待时间,表示通过无线下行链路信道从资源池x下载任务ti结果的下载完成时间。
所述通过无线上行链路信道向资源池x发送任务ti的上传时间的计算公式为:
所述资源池x处理任务ti的计算等待时间的计算公式为:
所述通过无线下行链路信道从资源池x下载任务ti结果的下载时间的计算公式为:
当任务在UE上本地执行时,在用户设备上只有运行延迟,总的等待时间也即运行延迟时间的计算公式为:
式中,fUE表示UE分配给任务的计算能力, 表示用户设备分配给y类任务的计算能力。例如的大小为4,则表示的含义就是用户设备的本地资源对于任务类型1的计算能力是对于任务类型2的计算能力是
S2,以任务总延迟、任务处理总能耗以及计算任务与所卸载资源池之间的匹配度的权衡为目标构建卸载目标函数;
在本申请中,所有的任务都是基于调度决策进行调度的,其中,所有父任务都是在其任务之前进行调度的。所述卸载目标函数的表达式为:
式中,α1表示任务总延迟的权重,α2表示任务处理总能耗的权重,α3表示匹配度的权重,分别反映了对优化目标的重视程度,表示任务调度决策A1:T的任务总延迟,表示任务调度决策A1:T的任务处理总能耗,表示任务调度决策A1:T的匹配度,任务调度决策A1:T={ai,i=1,2,...,T},ai表示任务ti的卸载决策,且当ai=0时,表示将任务ti卸载到UE处理,当ai=x时,表示将任务ti卸载到资源池x处理。通过求解卸载目标函数可以为任务执行图找到一个有效的卸载决策,以获得总延迟、总能耗和匹配度之间的权衡,其中,公式(6)的求解问题是一个NP难题,由于DAG拓扑和CPN系统状态的高度动态,寻找最佳卸载决策可能极具挑战性。
所述任务调度决策A1:T的任务总延迟的计算公式为:
式中,表示任务tk的结果在无线下行链路信道上传输完成的时间,表示任务tk卸载到UE上本地执行时任务处理完成的时间,且k∈P(ti),P(ti)表示任务执行图中任务ti的父任务也即箭头指向顶点ti的集合。
任务ti调度在UE上本地执行时任务的完成时间的计算公式为:
式中,表示任务ti在UE上的启动时间, 表示任务ti-1在UE上的启动时间,表示任务ti-1卸载到UE上本地执行时任务处理完成的时间,表示任务tk卸载到UE上本地执行时任务处理完成的时间,表示任务tk的结果从资源池x输出后在无线下行链路信道上传输完成的时间。
所述任务ti的结果从资源池x输出后在无线下行链路信道上传输完成的时间的计算公式为:
式中,表示资源池x输出的任务ti的结果在下行无线链路信道上开始传输的启动时间,表示任务ti在资源池x中的处理完成时间,表示通过无线下行链路信道从资源池x下载任务ti结果的下载完成时间。
资源池x输出的任务ti的结果在下行无线链路信道上开始传输的启动时间的计算公式为:
式中,表示资源池x输出的任务ti-1的结果在下行无线链路信道上开始传输的启动时间,表示任务ti-1的结果从资源池x输出后在无线下行链路信道上传输完成的时间。
任务ti在资源池xx中的完成时间的计算公式为:
式中,表示任务ti在资源池x上的启动时间,表示通过无线上行链路信道发送任务ti到资源池x的完成时间,表示资源池x处理任务ti的计算等待时间。
任务ti在资源池x上的启动时间的计算公式为:
式中,表示任务ti-1在资源池x上的启动时间,表示任务ti-1在资源池x中的处理完成时间。
所述通过无线上行链路信道发送任务ti到资源池x的完成时间的计算公式为:
式中,表示任务ti在无线上行链路信道开始传输的启动时间,表示任务ti的父任务k的结果从资源池x输出后在无线下行链路信道上传输完成的时间,表示通过无线上行链路信道向资源池x发送任务ti的上传时间。
任务ti在无线上行链路信道开始传输的启动时间的计算公式为:
式中,表示任务ti-1在无线上行链路信道开始传输的启动时间,表示通过无线上行链路信道发送任务ti-1到资源池x的完成时间。
所述任务调度决策A1:T的任务处理总能耗的计算公式为:
式中,sgn(·)为指示函数,表示任务ti在UE上运行时本地计算的能耗,表示将任务ti远程卸载到资源池x后并下载结果的能耗。其中,在构建任务执行图时,将资源状态Bi,x、任务配置Fi、本地能耗远程能耗均作为对应顶点ti也即任务的顶点属性。
任务ti在UE上运行时本地计算的能耗的计算公式为:
式中,κUE表示UE的转换参数,取决于芯片架构的固定值(effective switchedcapacitance)。
在计算卸载中,通过无线上行链路信道和无线下行链路信道向资源池传输和卸载比特均会产生能量开销,在此过程中的总消耗也即将任务ti卸载到资源池x后并下载结果的能耗的计算公式为:
式中,表示将任务ti通过无线上行链路信道卸载到资源池x的上传能耗,表示资源池xx计算任务ti所需的处理能耗,表示将任务ti从资源池x通过无线下行链路信道卸载结果的下载能耗。
所述将任务ti通过无线上行链路信道卸载到资源池x的上传能耗的计算公式为:
式中,表示无线上行链路信道的发射功率。
所述将任务ti从资源池x通过无线下行链路信道卸载结果的下载能耗的计算公式为:
式中,表示无线下行链路信道的发射功率。
本申请中资源池具有各种计算能力,通过虚拟化利用并行计算每个资源池的独立计算任务,其中,资源池x计算任务ti所需的处理能耗的计算公式为:
式中,表示资源池xx的转换参数。
参考向量分类方法的思想,假设L维0-1因子向量的2L个形式构成不同的任务类型,即|Mi|=2L。于是,虽然资源池可以处理不同的任务,但它们更喜欢不同类型的任务,并为它们提供不同的计算能力。因此,本申请可以使用任务的L维因子向量来对资源池进行标记,同时选择优选任务的因子向量,以尽可能将任务卸载到优选资源池中。因此,卸载任务匹配的问题也可以基本上是对象之间的距离测量,这可以通过扩展传统的欧几里德距离测量方法来测量两个向量之间的相似度来解决。
任务与资源池之间的匹配度与任务的因子向量、资源池的因子向量之间的欧几里得距离有关,其计算公式为:
di,x=1/(1+d′i,x); (21)
式中,d′i,x表示任务ti的因子向量和资源池x的因子向量之间的欧几里得距离,di,x表示任务ti与资源池x之间的匹配度。
所述任务ti的因子向量和资源池x的因子向量之间的欧几里得距离的计算公式为:
式中,Ji表示任务ti的因子向量,表示资源池x的因子向量。L表示向量的维度,l是公式中求和符号的下标,因为向量的第一个维度是0,公式中为了便于理解表示为1,所以在计算的时候要减1。含义就是,把两个向量的每一位都进行作差再平方的操作,然后求和并开方,即欧氏距离的含义。
所述任务调度决策A1:T的匹配度的计算公式为:
式中,表示任务ti和UE之间的匹配度,表示任务ti和资源池x的之间的匹配度,两者均可通过公式(21)可以计算对应的匹配度。UE的因子向量采用JUE表示,同样地,任务ti的因子向量和UE的因子向量之间的欧几里得距离也可以采用上述方法计算得到。
S3,将任务的卸载过程建模为马尔可夫决策过程,根据步骤S2得到的卸载目标函数、步骤s1建立的执行任务图定义状态、动作和奖励函数;
为了使用MRL(Meta-Reinforcement Learning,元强化学习)解决CPN中的计算卸载问题,在此首先将任务卸载过程建模为马尔可夫决策过程(Markov Decision Process,MDP)。考虑一个学习任务它服从资源池中的分布,结合元强化学习的概念,本申请中,学习任务就是做出最优的卸载决策,输出任务卸载结果,所以一个学习任务就是一次强化学习的过程,而每个学习任务是采样获得的,本文的采样是随机采样,因此,“服从资源池中的分布”也是随机分布,即每次进行强化学习的训练数据有所不同。对于学习任务的MDP,定义其状态、动作和奖励如下:
状态采用S表示,其表达式为:
式中,A1:i表示前i个任务的任务调度决策,si表示执行前i个任务的任务调度决策后所对应的状态。仿真建模时,可以根据任务的先后关系和等级值对任务执行图中的任务进行排序和索引,将状态值转换为序列,便于输入执行。由于对于任务ti,CPN的资源能耗和运行任务的延迟取决于任务配置、任务执行图、资源状态,而资源状态与任务ti之前调度的任务的卸载决策有关,因此,本申请将编码的任务执行图和部分任务调度决策的组合定义为状态。
所述等级值的定义为:
式中,表示任务执行图中的任务ti所在路径的任务执行顺序, 表示任务ti上传到随机资源池上的发送所需时间,表示任务ti在随机资源池上的运行所需时间,表示任务ti的结果从随机资源池发送回来的所需时间,Q表示任务执行图中的退出任务点的集合,child(tj)表示任务tj的直接任务的集合,所述直接任务是指示任务执行图中待执行的下一任务。
动作采用A表示,其表达式为:
A:={0,1,2,...,x,...,X}; (26)
当动作值为0时,表示任务在UE上本地执行,当动作值为x时,表示任务卸载到对应的资源池上执行。
本申请将奖励函数定义为公式(6)的估计负增量,奖励采用R表示,当任务ti采用任务调度决策A1:i时,其表达式为:
式中,表示任务调度决策A1:i的任务总延迟,表示任务调度决策A1:i的任务处理总能耗,表示任务调度决策A1:i的匹配度,表示任务调度决策A1:i-1的任务总延迟,表示任务调度决策A1:i-1的任务处理总能耗,表示任务调度决策A1:i-1的匹配度。
基于以上MDP定义,将调度任务ti时的策略表示为对于具有n个任务的DAG,设表示给定图的卸载计划A1:n的概率。因此,通过对每个策略应用概率链规则,获得
S4,构建宽注意力机制的seq2seq神经网络,将任务执行图输入seq2seq(Sequenceto Sequence,序列到序列)神经网络中,利用近端策略优化(PPO)方法对卸载目标函数进行优化输出最优调度决策,同时利用元强化学习算法对近端策略优化(PPO)方法的参数进行更新;
如图2所示,所述宽注意力机制的seq2seq神经网络包括依次连接的第一注意力层、编码器层、第二注意力层以及解码器层,嵌入神经网络的任务首先通过第一注意力层,第一注意力层的输出结果作为输入传输到seq2seq网络的编码器,编码器将输出任务嵌入作为向量,并将它们传递给第二注意力层。在第二层关注之后,第二注意力层的输出传送到解码器,卸载决策将从解码器的输出获得。PPO算法是一种基于策略的强化学习算法,其包括策略网络和评价网络,所述策略网络和评价网络均采用宽注意力机制的seq2seq神经网络结构。
本申请采用了MRL,它比深度强化学习具有更好的适应性和更好的效果。其次,使用近端策略优化方法作为本申请的主干RL算法。所述利用近端策略优化(PPO)方法对卸载目标函数进行优化输出最优调度决策,同时利用元强化学习算法对近端策略优化(PPO)方法的参数进行更新,包括如下步骤:
S4.1,随机初始化元策略参数θ,初始化迭代轮数z=1,设置总训练轮数h;
S4.2,从资源池分布函数中随机选取u个学习任务
S4.3,从学习任务中随机选取一个学习任务作为
S4.4,利用元策略参数θ初始化PPO-clip方法的策略网络的参数向量和评价网络的参数向量θz
S4.5,使用采样策略和学习任务获取采样轨迹集合B,基于策略梯度法更新策略网络参数;
对于一个学习任务PPO使用采样策略生成轨迹,并更新多个时期的目标策略其中,在开始时将设置为等于并且PPO使用裁剪的替代目标来避免目标策略的大更新,
式中,表示学习任务的使用裁剪的PPO损失目标函数,ε表示超参数,表示生成轨迹τ的概率,所述轨迹是指状态和动作交互的序列,Prt是样本策略和目标策略之间的概率比,其定义为:
剪裁函数可以限制Prt的值,这可以消除将Prt移动到区间[1-ε,1+ε]之外的激励,是时间步长t处的优势函数。特别地,本申请使用一般优势估计器作为优势函数,其定义为:
其中,λ∈[0,1]用于控制偏差和方差之间的权衡,γ表示优势估计器参数,该参数允许通过降低与延迟效应相对应的奖赏的权重来减少方差,而代价是引入偏差,且γ∈[0,1],rt+k表示t+k时刻的即时奖励,st+k+1表示t+k+1时刻的状态,vπ(st+k)表示st+k状态下的价值函数。损失目标函数定义为:
式中,vπ(st)表示st状态下的价值函数。
一般地,结合公式(29)和公式(32),每个深度强化学习的目标函数定义为:
式中,c1是值函数损失系数,表示PPO损失目标函数,表示采用了一般优势估计器的损失目标函数。
所述更新策略网络参数的公式为:
式中,ω表示主干强化学习训练的学习率,θ′z表示元策略中间参数也即更新后的策略网络参数。
S4.6,判断z<h,如果是,执行z=z+1,返回步骤S4.3,否则执行步骤S4.7;
S4.7,基于Adam优化算法更新元策略参数θ;
根据梯度MRL的目标和目标函数公式(34),本申请设计的MRL训练目标表示为:
其中,表示生成轨迹的概率。接下来,进行梯度上升以最大化为了解决组合复杂神经网络时的巨大计算成本和实现困难,使用一阶近似代替二阶导数,即:
式中,u表示元学习中采样学习任务的数量。
所述更新元策略参数θ的表达式为:
θ←θ+βgBat-MRL
式中,β表示元学习训练的学习率。
S4.8,以卸载目标函数最小化为目标输出最优调度决策;
以下利用本申请实现依据不同的算力网络需求降低整体网络环境的能耗,并且降低任务时延。下面阐述进行该策略必要性:例如,传统算力网络直接将未拆解的用户任务依据传统方法发送到算力网络中的服务器资源上进行处理,再将运行结果通过网络发送回用户,在这个过程中,用户等待任务完成的时间将受到是否由算力网络进行卸载、发送的时间、服务器运行时间、返回时间和选择资源不同等多种因素考虑,同时由于发送数据,运算结果都是产生一定能耗的。可以看出,在这一过程中,合理细化拆解任务,整合资源池,进行合适的符合算网服务需求的策略能降低算网环境的整体能耗,降低时延。
考虑到各种细粒度DAG,以下将本申请与传统的深度学习技术相比较,以在设置不同的权重α时获得不同的能耗和延迟结果。下面基于以下算法进行比较:所有任务都随机卸载到远程资源、所有任务都在本地运行以及一种用于更短估计延迟的贪婪算法和PPO(Proximal Policy Optimization,近端策略优化)。当DAG中的任务数为20时,在情况1(α1=0.8,α2=0.1,α3=0.1)下,本申请(Broad ATtention based Fine-G rained MetaReinforcement Lea rning,Bat-MRL,基于宽注意力的元强化学习)更加关注延迟,与基线方法(即全卸载到远程)相比,延迟减少了72.6%。在情况2(α1=0.4,α2=0.4,α3=0.1)中,本申请比较注意延迟和能量消耗之间的平衡,潜伏期比基线低52.3%,能耗比基线低34.6%。在情况3(α1=0.3,α2=0.7,α3=0.1)中,本申请更加关注能量消耗,与基线相比,这减少了25.6%的任务延迟和72.9%的能量消耗。当DAG中的任务数为30并且拓扑与上述DAG不同时,对于上述三种情况,在情况1中,延迟减少69.8%;在情况2中,延迟减少了49%,能耗减少了15.8%,而情况3的能耗减少了99%。
上述实验表明,对于不同形式的DAG和环境要求,本申请比其他方法表现得更好,并且考虑了延迟和能耗要求。通过考虑细粒度资源池、计算卸载、能耗、任务依赖性等因素设计的方案可以在CPN中获得比其他方法更好的结果,并且更适合于真实场景,实验结果如图3和图4所示。
考虑到细粒度资源集成,以下比较了不同学习算法的学习效果。如图5中的(a)所示,通过计算DAG任务和细粒度资源池的匹配度,本申请具有更高的回报,在复杂环境中更好地使用信息,并可以制定更好的卸载策略。考虑到关注有用的信息,将本申请与基于seq2seq神经网络而没有宽注意力机制的那些和基于PPO而没有MRL的那些进行了比较,实验结果如图5中的(b)所示。Bat-MRL比没有注意机制的算法实现更快的收敛,并且收敛后的奖励值比没有宽注意力机制的算法更高。与PPO算法相比,Bat-MRL算法更快地收敛到稳定的结果。宽注意力机制允许神经网络更专注于有用的信息,并提高输出质量。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.基于宽注意力机制的云边协同元强化学习计算卸载方法,其特征在于,包括如下步骤:
S1,根据用户设备生成的各计算任务之间的依赖关系利用有向无环图构建任务执行图;
S2,以任务总延迟、任务处理总能耗以及计算任务与所卸载资源池之间的匹配度的权衡为目标构建卸载目标函数;
S3,将任务的卸载过程建模为马尔可夫决策过程,根据步骤S2得到的卸载目标函数、步骤S1建立的执行任务图定义状态、动作和奖励函数;
S4,构建宽注意力机制的seq2seq神经网络,将任务执行图输入seq2seq神经网络中,利用近端策略优化方法对卸载目标函数进行优化输出最优调度决策,同时利用元强化学习算法对近端策略优化方法的参数进行更新;
在步骤S2中,所述卸载目标函数的表达式为:
式中,α1表示任务总延迟的权重,α2表示任务处理总能耗的权重,α3表示匹配度的权重,表示任务调度决策A1:T的任务总延迟,表示任务调度决策A1:t的任务处理总能耗,表示任务调度决策A1:T的匹配度,任务调度决策A1:T={ai,i=1,2,…,T},ai表示任务ti的卸载决策,T表示任务总数;
所述任务调度决策A1:T的匹配度的计算公式为:
式中,表示任务ti和UE之间的匹配度,表示任务ti和资源池x的之间的匹配度,sgn(·)为指示函数;
匹配度采用如下公式计算:
di,x=1/(1+d′i,x);
式中,d′i,x表示任务ti的因子向量和资源池x的因子向量之间的欧几里得距离,di,x表示任务ti与资源池x之间的匹配度。
2.根据权利要求1所述的基于宽注意力机制的云边协同元强化学习计算卸载方法,其特征在于,所述任务调度决策A1:T的任务总延迟的计算公式为:
式中,表示任务tk的结果在无线下行链路信道上传输完成的时间,表示任务tk卸载到UE上本地执行时任务处理完成的时间,且k∈P(ti),P(ti)表示任务执行图中任务ti的父任务集合,表示资源池的集合。
3.根据权利要求1所述的基于宽注意力机制的云边协同元强化学习计算卸载方法,其特征在于,所述任务调度决策A1:T的任务处理总能耗的计算公式为:
式中,sgn(·)为指示函数,表示任务ti在UE上运行时本地计算的能耗,表示将任务ti远程卸载到资源池x后并下载结果的能耗。
4.根据权利要求3所述的基于宽注意力机制的云边协同元强化学习计算卸载方法,其特征在于,所述将任务ti远程卸载到资源池x后并下载结果的能耗的计算公式为:
式中,表示将任务ti通过无线上行链路信道卸载到资源池x的上传能耗,表示资源池xx计算任务ti所需的处理能耗,表示将任务ti从资源池x通过无线下行链路信道卸载结果的下载能耗;
任务ti在UE上运行时本地计算的能耗的计算公式为:
式中,κUE表示UE的转换参数,Mi表示任务ti的任务类型,fUE表示UE分配给任务的计算能力,Ci表示运行任务ti所需的CPU周期。
5.根据权利要求1所述的基于宽注意力机制的云边协同元强化学习计算卸载方法,其特征在于,在步骤S3中,所述状态采用S表示,其表达式为:
其中i∈[1,2,…,T];
式中,A1:i表示前i个任务的任务调度决策,T表示任务总数,表示任务执行图,表示顶点也即任务的集合,ε表示边的集合,si表示执行前i个任务的任务调度决策后的状态;
动作采用A表示,其表达式为:
A:={0,1,2,…,x,…,X};
当动作值为0时,表示任务在UE上本地执行,当动作值为x时,表示任务卸载到对应的资源池上执行,X表示资源池的总数;
奖励函数采用R表示,当任务ti采用任务调度决策A1:i时,表达式为:
式中,表示任务调度决策A1:i的任务总延迟,表示任务调度决策A1:i的任务处理总能耗,表示任务调度决策A1:i的匹配度,表示任务调度决策A1:i-1的任务总延迟,表示任务调度决策A1:i-1的任务处理总能耗,表示任务调度决策A1:i-1的匹配度,α1表示任务总延迟的权重,α2表示任务处理总能耗的权重,α3表示匹配度的权重。
6.根据权利要求1所述的基于宽注意力机制的云边协同元强化学习计算卸载方法,其特征在于,所述宽注意力机制的seq2seq神经网络包括依次连接的第一注意力层、编码器层、第二注意力层以及解码器层。
CN202310088345.6A 2023-02-01 2023-02-01 基于宽注意力机制的云边协同元强化学习计算卸载方法 Active CN116009990B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310088345.6A CN116009990B (zh) 2023-02-01 2023-02-01 基于宽注意力机制的云边协同元强化学习计算卸载方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310088345.6A CN116009990B (zh) 2023-02-01 2023-02-01 基于宽注意力机制的云边协同元强化学习计算卸载方法

Publications (2)

Publication Number Publication Date
CN116009990A CN116009990A (zh) 2023-04-25
CN116009990B true CN116009990B (zh) 2024-03-29

Family

ID=86024879

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310088345.6A Active CN116009990B (zh) 2023-02-01 2023-02-01 基于宽注意力机制的云边协同元强化学习计算卸载方法

Country Status (1)

Country Link
CN (1) CN116009990B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116341685B (zh) * 2023-05-31 2023-07-21 合肥工业大学智能制造技术研究院 基于联合注意力的分布式计算卸载模型训练方法和系统
CN118113367A (zh) * 2024-01-18 2024-05-31 天津大学 一种基于超图分区的算力网络任务卸载的方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111756812A (zh) * 2020-05-29 2020-10-09 华南理工大学 一种能耗感知的边云协同动态卸载调度方法
CN113128702A (zh) * 2021-04-15 2021-07-16 杭州电子科技大学 一种基于强化学习的神经网络自适应分布式并行训练方法
CN113434212A (zh) * 2021-06-24 2021-09-24 北京邮电大学 基于元强化学习的缓存辅助任务协作卸载与资源分配方法
CN113778648A (zh) * 2021-08-31 2021-12-10 重庆理工大学 分层边缘计算环境中基于深度强化学习的任务调度方法
CN113821346A (zh) * 2021-09-24 2021-12-21 天津大学 基于深度强化学习的边缘计算中计算卸载与资源管理方法
CN113867843A (zh) * 2021-10-08 2021-12-31 浙江工商大学 一种基于深度强化学习的移动边缘计算任务卸载方法
WO2022027776A1 (zh) * 2020-08-03 2022-02-10 威胜信息技术股份有限公司 边缘计算网络任务调度与资源分配方法和边缘计算系统
CN114401532A (zh) * 2022-01-24 2022-04-26 天津大学 算力网络中基于贡献感知的网内池化资源分配优化方法
CN115175217A (zh) * 2022-06-30 2022-10-11 重庆邮电大学 一种基于多智能体的资源分配和任务卸载优化方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111756812A (zh) * 2020-05-29 2020-10-09 华南理工大学 一种能耗感知的边云协同动态卸载调度方法
WO2022027776A1 (zh) * 2020-08-03 2022-02-10 威胜信息技术股份有限公司 边缘计算网络任务调度与资源分配方法和边缘计算系统
CN113128702A (zh) * 2021-04-15 2021-07-16 杭州电子科技大学 一种基于强化学习的神经网络自适应分布式并行训练方法
CN113434212A (zh) * 2021-06-24 2021-09-24 北京邮电大学 基于元强化学习的缓存辅助任务协作卸载与资源分配方法
CN113778648A (zh) * 2021-08-31 2021-12-10 重庆理工大学 分层边缘计算环境中基于深度强化学习的任务调度方法
CN113821346A (zh) * 2021-09-24 2021-12-21 天津大学 基于深度强化学习的边缘计算中计算卸载与资源管理方法
CN113867843A (zh) * 2021-10-08 2021-12-31 浙江工商大学 一种基于深度强化学习的移动边缘计算任务卸载方法
CN114401532A (zh) * 2022-01-24 2022-04-26 天津大学 算力网络中基于贡献感知的网内池化资源分配优化方法
CN115175217A (zh) * 2022-06-30 2022-10-11 重庆邮电大学 一种基于多智能体的资源分配和任务卸载优化方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
卢海峰 ; 顾春华 ; 罗飞 ; 丁炜超 ; 杨婷 ; 郑帅 ; .基于深度强化学习的移动边缘计算任务卸载研究.计算机研究与发展.2020,(第07期),全文. *
基于深度强化学习的移动边缘计算任务卸载研究;卢海峰;顾春华;罗飞;丁炜超;杨婷;郑帅;;计算机研究与发展;20200707(第07期);全文 *
强化学习与生成式对抗网络结合方法研究进展;吴宏杰;戴大东;傅启明;陈建平;陆卫忠;;计算机工程与应用;20190307(第10期);全文 *

Also Published As

Publication number Publication date
CN116009990A (zh) 2023-04-25

Similar Documents

Publication Publication Date Title
Jiang et al. Deep-learning-based joint resource scheduling algorithms for hybrid MEC networks
Qi et al. Knowledge-driven service offloading decision for vehicular edge computing: A deep reinforcement learning approach
CN116009990B (zh) 基于宽注意力机制的云边协同元强化学习计算卸载方法
Ebrahim et al. A deep learning approach for task offloading in multi-UAV aided mobile edge computing
Qi et al. Vehicular edge computing via deep reinforcement learning
CN113946423A (zh) 基于图注意力网络的多任务边缘计算调度优化方法
CN115002123A (zh) 基于移动边缘计算的快速适应任务卸载系统和方法
CN115033359A (zh) 一种基于时延控制的物联代理多任务调度方法和系统
CN116755882A (zh) 一种边缘计算中具有依赖关系任务的计算卸载方法及系统
CN117331693A (zh) 基于dag的边缘云的任务卸载方法、装置及设备
CN117707795B (zh) 基于图的模型划分的边端协同推理方法及系统
CN116185523A (zh) 一种任务卸载和部署的方法
CN118193209A (zh) 一种基于阶段性策略梯度的预测式云平台资源调度方法
CN117880122A (zh) 一种基于madfpg的任务卸载和资源分配联合优化方法
CN117858109A (zh) 基于数字孪生的用户关联、任务卸载和资源分配优化方法
CN117640378A (zh) 云边环境下性能感知的微服务自适应部署和资源分配方法及系统
Xie et al. Backscatter-aided hybrid data offloading for mobile edge computing via deep reinforcement learning
Zhao et al. Energy-efficient partial offloading in mobile edge computing under a deadline constraint
CN117202264A (zh) Mec环境中面向5g网络切片的计算卸载方法
CN117436485A (zh) 基于权衡时延和精度的多退出点的端-边-云协同系统及方法
Liu et al. Multi-objective robust workflow offloading in edge-to-cloud continuum
CN116455903A (zh) 一种利用深度强化学习优化车联网中依赖性任务卸载方法
CN114217881B (zh) 任务卸载方法及相关装置
Talha et al. A chaos opposition‐based dwarf mongoose approach for workflow scheduling in cloud
CN116431326A (zh) 一种基于边缘计算和深度强化学习的多用户依赖性任务卸载方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant