CN115114030A - 一种基于强化学习的在线多工作流调度方法 - Google Patents
一种基于强化学习的在线多工作流调度方法 Download PDFInfo
- Publication number
- CN115114030A CN115114030A CN202210857988.8A CN202210857988A CN115114030A CN 115114030 A CN115114030 A CN 115114030A CN 202210857988 A CN202210857988 A CN 202210857988A CN 115114030 A CN115114030 A CN 115114030A
- Authority
- CN
- China
- Prior art keywords
- node
- nodes
- action
- server
- workflow
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 82
- 230000002787 reinforcement Effects 0.000 title claims abstract description 21
- 230000009471 action Effects 0.000 claims abstract description 85
- 238000013528 artificial neural network Methods 0.000 claims abstract description 25
- 230000006870 function Effects 0.000 claims abstract description 8
- 239000003795 chemical substances by application Substances 0.000 claims description 29
- 239000013598 vector Substances 0.000 claims description 25
- 230000005540 biological transmission Effects 0.000 claims description 11
- 230000007613 environmental effect Effects 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 8
- 230000002776 aggregation Effects 0.000 claims description 6
- 238000004220 aggregation Methods 0.000 claims description 6
- 238000012546 transfer Methods 0.000 claims description 6
- 239000002699 waste material Substances 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 5
- 238000009826 distribution Methods 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 4
- 239000002131 composite material Substances 0.000 claims description 3
- 230000001186 cumulative effect Effects 0.000 claims description 3
- 230000007774 longterm Effects 0.000 claims description 3
- 230000000379 polymerizing effect Effects 0.000 claims description 3
- 239000002243 precursor Substances 0.000 claims description 3
- 230000001960 triggered effect Effects 0.000 claims description 3
- 238000003062 neural network model Methods 0.000 claims description 2
- 238000013468 resource allocation Methods 0.000 abstract description 5
- 238000004422 calculation algorithm Methods 0.000 abstract description 3
- 230000007423 decrease Effects 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000004904 shortening Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012733 comparative method Methods 0.000 description 1
- 238000012067 mathematical method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
- G06N5/025—Extracting rules from data
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
- G06F9/5038—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the execution order of a plurality of tasks, e.g. taking priority or time dependency constraints into consideration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/48—Program initiating; Program switching, e.g. by interrupt
- G06F9/4806—Task transfer initiation or dispatching
- G06F9/4843—Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
- G06F9/4881—Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06311—Scheduling, planning or task assignment for a person or group
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0633—Workflow analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/103—Workflow collaboration or project management
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Quality & Reliability (AREA)
- Data Mining & Analysis (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Operations Research (AREA)
- Marketing (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Educational Administration (AREA)
- Development Economics (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Game Theory and Decision Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Computer And Data Communications (AREA)
Abstract
本发明公开了一种基于强化学习的在线多工作流调度方法。本发明首先建立系统模型来表征移动设备、边缘服务器、任务和节点。其次建立节点卸载规则,移动设备可选择将节点卸载到边缘服务器上或者留在本地执行。然后建立时间线模型,记录所有任务的到达事件以及节点的执行完成事件。再建立基于强化学习的在线多工作流调度策略,定义调度问题的状态空间和动作空间,并设计调度问题的奖励函数。最后设计一种基于策略梯度的求解在线多工作流调度问题算法用于调度策略实现。本发明基于图卷积神经网络提取的特征进行卸载决策与资源分配,能够实时分析当前的工作流以及服务器的状态,复杂度低,尽可能地降低所有工作流的平均完成时间。
Description
技术领域
本发明属于移动边缘计算领域,主要涉及一种基于强化学习的在线多工作流调度方法。
背景技术
移动边缘计算(Mobile Edge Computing,MEC)网络在网络的边缘处部署具有一定计算能力的边缘服务器,通过将计算任务卸载到靠近本地用户的网络边缘处的边缘服务器上,以提供更高的服务质量。该网络具有较低的延迟、较强的安全性以及减少网络拥塞等显著优势,解决了传统云计算模式算力有限以及时延较高的问题。有效且合理的卸载决策与资源分配将有助于提高MEC网络的性能,为企业带来可观的利润。
但是,以有向无环图(Directed Acyclic Graph,DAG)表征的工作流在MEC网络环境中的在线卸载决策与资源分配的联合优化问题为非凸的NP-hard问题,传统数学方法解该类问题计算量大,复杂性高,这为MEC网络带来巨大的负担。因此在移动边缘计算环境下如何得出较好的卸载决策与资源分配,也引起了国内外学者的广泛关注。
发明内容
为了解决上述问题,本发明提出一种基于强化学习的在线多工作流调度方法。
本发明包括如下步骤:
S1.建立系统模型:
移动边缘计算网络由多个移动设备和多个边缘服务器组成,移动设备的处理器频率与核数以fn和cpun表示,边缘服务器的处理器频率与核数以fm和cpum表示,边缘服务器之间的带宽以及移动设备与边缘服务器之间的带宽以B表示。
每个移动设备都会在线产生相互独立的、以DAG表征的任务。每个DAG可以用一个二元组G=(V,E)来表示,其中V=(v1,…,vk,…,vK)表示该DAG里所包含的节点,E={ekl|vk∈V,vl∈V}表示节点之间表征连接关系的边,边ekl表示节点之间的约束依赖关系,即只有在节点vk执行完毕后,节点vl才能开始执行。每一个节点都可以表征为一个三元组其中Wk表示节点vk的工作负载,表示节点vk的输入数据大小,表示节点vk的输出数据大小。每个移动设备和边缘服务器都有一个自己的等待队列,用于存储即将在该移动设备或边缘服务器上执行的节点。
S2.建立节点卸载规则:
移动设备以节点为单位进行卸载,可选择将节点卸载到边缘服务器上或者留在本地执行。只有在当前节点的所有前驱节点执行完毕并且数据传输完成后,当前节点才可以开始执行。本发明所提出的调度策略在触发调度动作后,将选出一个待分配的节点并决定其所要分配的边缘服务器或移动设备。节点vk在移动设备或边缘服务器上的完成时刻可由公式(1)计算:
其中公式(1)中avail表示移动设备或边缘服务器的可用时刻,表示取和avail的较大值。公式(2)表示当前节点vk所有前驱节点执行完成并且输出数据传输完成的时刻,其中表示节点vl执行完成的时刻,表示遍历节点vk的所有前驱节点vl,取与Ttran(vl,vk)之和的最大值。公式(3)表示传输数据所需时间,若前驱节点和当前节点处在相同的移动设备或边缘服务器上执行则不需要进行数据的传输,反之则需要,公式(4)表示节点的执行所要花费的时间。
S3.建立时间线模型:
本发明提出了一种时间线模型,其上记录了所有DAG任务的到达事件以及节点的执行完成事件。移动设备上任务的到达过程服从参数为λ的泊松分布,即任务达到率为λ。时间线上离当前时刻最近的事件会不断被抓取,并根据被抓取的事件更新当前时刻,直到满足触发调度动作的条件。调度动作触发的条件是有可调度的节点并且边缘服务器或该节点所属的移动设备空闲时,调度动作结束后,则会继续抓取时间线上的事件。
S4.基于强化学习的在线多工作流调度策略:
需要定义调度问题的状态空间和动作空间,并设计调度问题的奖励函数,使用梯度策略进行训练,目标是使期望奖励最大化。具体包含以下子步骤:
S41.定义状态空间:
在以DAG表征的多工作流在线调度的环境下,与环境交互的智能体采用图卷积神经网络提取所有DAG的特征。通过图卷积神经网络,每个节点会自上而下聚合自己子节点的信息,同时自身作为父节点的子节点也会被其对应的父节点所聚合。通过消息一步步传递聚合可以得到每个节点的嵌入向量,其中包含每个节点关键路径值的信息。同时基于这些节点的嵌入向量,智能体可以进一步聚合而成节点所属DAG的嵌入向量,其中包括该DAG的剩余工作量的信息。再基于这些DAG的嵌入向量,智能体可以聚合得到全局的嵌入向量,其中包含全局的工作量的信息。
智能体观测环境而得的环境状态分为两部分:
在选择所要调度的节点时,智能体可观测环境状态Onode表示为公式(5):
Onode=[Enode,EDAG,Egloba,Tstay,Twaste,Di,o,Wnode,Wpre] (5)
其中Enode、EDAG、Egloba分别表示节点、节点所属DAG、全局级别的嵌入向量;Tstay表示节点所属DAG在环境中的停留时间;Twaste表示节点在移动设备或边缘服务器上执行会等待多长时间以及移动设备或边缘服务器会等待多长时间;Di,o表示节点的输入与输出数据;Wnode表示节点的工作负载;Wpre表示节点的所有父节点的工作负载之和。
在选择本次所要分配的服务器时,智能体可观测环境状态Oserver表示为公式(6):
Oserver=[stpre,stserver,Texec,numchild,Wchild] (6)
其中stpre表示该节点的前驱节点数据传输完成的时刻;stserver表示各个服务器的可用时刻;Texec表示节点在各个服务器上的执行时间;numchild表示节点的所有子节点总数以及所有后代节点总数;Wchild表示节点的所有子节点以及所有后代节点的工作负载之和。
S42.定义动作空间:
本发明提出的策略将动作分为两部分,智能体将上述观测到的状态Onode与Oserver分别输入基于梯度策略的两个神经网络,即策略网络,以从待调度的节点里选出当次要调度的节点node,以及从可用的服务器里选出所要给该节点分配的服务器server,可由公式(7)表示:
A=[node,server] (7)
其中A表示定义的动作空间。
S43.定义奖励函数:
在多工作流在线调度过程中,每个动作会得到一个即刻奖励以评估该动作的好坏。以所有DAG任务的平均完成时间作为最终的长期优化目标,根据利特尔法则,即刻奖励设定为当次动作开始到下一个动作触发的这段时间内,所有DAG任务在环境内的存在时间,可由公式(8)(9)表示:
R=-∑Tstay(G) (8)
Tstay(G)=min(Tnow,Tfinish(G))-max(Tpre,Tarrive(G)) (9)
其中Tnow表示当前时刻,Tfinish(G)表示工作流G的完成时刻,Tpre表示上一个动作执行的时刻,Tarrive(G)表示工作流G的到达时刻,min(Tnow,Tfinish(G))表示取Tnow,Tfinish(G)的最小值,max(Tpre,Tarrive(G))表示取Tpre,Tarrive(G)的最大值。
S44.问题形式化:
在线多工作流调度策略可以考虑基于梯度策略的神经网络模型,它的主要目标是最大化所有动作的累积奖励,可由公式(10)表示:
其中,T表示本次策略实施共有T个动作,k表示第k个动作,Rk表示第k个动作的奖励。
由于梯度策略的目标是最大化奖励,因此对神经网络参数执行梯度上升来进行参数的学习。
S5.策略实现:
本发明设计了一种基于策略梯度的求解在线多工作流调度问题算法(PG-OMWS)用于策略实现,策略实现的详细过程为:
(1)在策略实施阶段,首先初始化环境参数和网络参数。环境参数主要包括执行队列长度、移动设备和边缘服务器之间的带宽以及在环境内和即将到达环境的DAG任务结构。网络参数主要包括两个策略网络以及图卷积神经网络中的网络参数。然后,智能体观测环境里每个节点的基本特征,送入图卷积神经网络中经过两次聚合得到Enode,根据这些Enode再经过聚合得到EDAG,根据所有EDAG再次经过聚合得到Egloba,结合当前环境得到Onode与Oserver,并根据这两个观测结果选择本次动作所要分配的节点和要给该节点分配的服务器。该节点的完成事件会记录到时间线中,同时计算出该动作的奖励。每次观测到的环境状态、动作以及奖励都会被保存下来。接下来判断触发调度动作的条件是否被满足,满足则继续触发调度动作,不满足,则去抓取时间线上离当前时刻最近的事件并根据该事件更新当前时刻,直到再次满足触发调度动作的条件。持续进行调度动作与抓取时间线事件的循环,直到环境内所有DAG任务执行完成。
(2)在训练阶段,智能体根据之前保存的环境状态、动作以及奖励,使用梯度策略由公式(11)去更新网络参数,得到最终的工作流调度策略:
其中θ表示网络参数,α表示学习率,T表示本次策略实施共有T个动作,k表示第k个动作,πθ(ok,ak)表示以θ为参数的神经网络在环境状态ok下做出动作ak的概率,rk表示基于即刻奖励进一步经过衰减得到的综合奖励,表示对lnπθ(sk,ak)rk求梯度,表示对所有动作求得的梯度进行累加。
(3)策略执行阶段:环境中有工作流动态到达时,通过最终的工作流调度策略去选择执行该工作流中节点的边缘服务器或移动设备,作为执行该节点的服务器,依次执行完成工作流中的节点。
本发明有益效果:采取图卷积神经网络提取工作流的结构特征,并基于提取的特征进行卸载决策与资源分配,首次在移动边缘计算的多工作流在线调度环境下提出了一种结合梯度策略的解决方案。当环境中有工作流动态到达时,本发明能够实时分析当前的工作流以及服务器的状态,并调度工作流的节点到某个服务器上去执行。本方法复杂度低,并且实现了尽可能地降低所有工作流的平均完成时间。
附图说明
图1为本发明基于强化学习的在线多工作流调度策略的流程图;
图2为在任务到达率λ影响下,本发明与FIFO方法、SJF方法、Random方法、LocalEx方法以及EdgeEx方法的实验结果对比图;
图3为在边缘服务器处理器核数影响下,本发明与FIFO方法、SJF方法、Random方法、LocalEx方法以及EdgeEx方法的实验结果对比图;
图4为在移动设备处理器核数影响下,本发明与FIFO方法、SJF方法、Random方法、LocalEx方法以及EdgeEx方法的实验结果对比图;
图5为在边缘服务器个数影响下,本发明与FIFO方法、SJF方法、Random方法、LocalEx方法以及EdgeEx方法的实验结果对比图;
图6为在移动设备个数影响下,本发明与FIFO方法、SJF方法、Random方法、LocalEx方法以及EdgeEx方法的实验结果对比图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图对本发明进行进一步详细说明。
如图1所示,本发明提出的一种基于强化学习的在线多工作流调度方法,包括以下步骤:
S1.建立系统模型:
移动边缘计算网络由多个移动设备和多个边缘服务器组成,移动设备的处理器频率与核数以fn和cpun表示,边缘服务器的处理器频率与核数以fm和cpum表示,边缘服务器之间的带宽以及移动设备与边缘服务器之间的带宽以B表示。
每个移动设备都会在线产生相互独立的、以DAG表征的任务。每个DAG可以用一个二元组G=(V,E)来表示,其中V=(v1,…,vk,…,vK)表示该DAG里所包含的节点,E={ekl|vk∈V,vl∈V}表示节点之间表征连接关系的边。边ekl表示节点之间的约束依赖关系,即只有在节点vk执行完毕后,节点vl才能开始执行。每一个节点都可以表征为一个三元组其中Wk表示节点的工作负载,表示节点vk的输入数据大小,表示节点输出数据大小。每个移动设备和边缘服务器都有一个自己的等待队列,用于存储即将在该移动设备或边缘服务器上执行的节点。
S2.建立节点卸载规则:
移动设备以节点为单位进行卸载,可选择将节点卸载到边缘服务器上或者留在本地执行。只有在当前节点所有前驱节点执行完毕并且数据传输完成后当前节点才可以开始执行。本发明所提出的调度策略在触发调度动作后,将选出一个待分配的节点并决定其所要分配的边缘服务器或移动设备。节点vk在移动设备或边缘服务器上的完成时刻可由公式(1)计算:
其中公式(1)中avail表示移动设备或边缘服务器的可用时刻,公式(2)表示当前节点vk所有前驱节点执行完成并且输出数据传输完成的时刻。公式(3)表示传输数据所需时间,若前驱节点和当前节点处在相同的移动设备或边缘服务器上执行则不需要进行数据的传输,反之则需要。公式(4)表示节点的执行所要花费的时间。
S3.建立时间线模型:
本发明提出了一种时间线模型,其上记录了所有DAG任务的到达事件以及节点的执行完成事件。移动设备上任务的到达过程服从参数为λ的泊松分布。时间线上离当前时刻最近的事件会不断被抓取并根据被抓取的事件更新当前时刻,直到满足触发调度动作的条件。调度动作触发的条件是有可调度的节点并且边缘服务器或该节点所属的移动设备空闲时。调度动作结束后,则会继续抓取时间线上的事件。
S4.基于强化学习的在线多工作流调度策略:需要定义调度问题的状态空间和动作空间,并设计调度问题的奖励函数,使用梯度策略进行训练,目标是使期望奖励最大化。具体包含以下子步骤:
S41.定义状态空间:
在以DAG形式表征的多工作流在线调度的环境下,与环境交互的智能体采用图卷积神经网络提取所有DAG的特征,每个节点会自上而下聚合自己子节点的信息,同时自身作为父节点的子节点也会被自身的父节点所聚合。通过消息一步步传递聚合可以得到每个节点的嵌入向量,其包含每个节点关键路径值的信息。同时基于这些节点的嵌入向量,智能体可以进一步聚合而成节点所属DAG的嵌入向量,其包括该DAG的剩余工作量的信息。再基于这些DAG的嵌入向量,智能体可以聚合得到全局的嵌入向量,其包含全局的工作量的信息。有了节点的嵌入向量,智能体才能判断沿着该节点向下关键路径的工作量,有了DAG以及全局级别的嵌入向量,智能体才能识别作业剩余工作量的相对大小。
智能体观测环境而得的环境状态分为两部分:
在选择所要调度的节点时,智能体可观测环境状态Onode表示为公式(5):
Onode=[Enode,EDAG,Egloba,Tstay,Twaste,Di,o,Wnode,Wpre] (5)
其中Enode,EDAG,Egloba分别表示节点、节点所属DAG以及全局级别的嵌入向量;Tstay表示节点所属DAG在环境中的停留时间;Twaste表示节点在移动设备或边缘服务器上执行会等待多长时间以及移动设备或边缘服务器会等待多长时间;Di,o表示节点的输入与输出数据;Wnode表示节点的工作负载,Wpre表示节点的所有父节点的工作负载之和。
在选择本次所要分配的服务器时,智能体可观测环境状态空间Oserver可表示为公式(6):
Oserver=[stpre,stserver,Texec,numchild,Wchild] (6)
其中stpre表示该节点的前驱节点数据传输完成的时刻;stserver表示各个服务器的可用时刻;Texec表示节点在各个服务器上的执行时间;numchild表示节点的所有子节点总数以及所有后代节点总数;Wchild表示节点的所有子节点以及所有后代节点的工作负载之和。
S42.定义动作空间:
本发明提出的策略将动作分为两部分,智能体将上述观测到的状态Onode与Oserver分别输入梯度策略的两个神经网络以从待调度的节点里选出当次要调度的节点node,以及从可用的服务器里选出所要给该节点分配的服务器server,可由公式(7)表示:
A=[node,server] (7)
其中A表示定义的动作空间。
S43.定义奖励函数:
在多工作流在线调度过程中,每个动作会得到一个即刻奖励以评估该动作的好坏。以所有DAG任务的平均完成时间作为最终的长期优化目标,根据利特尔法则,即刻奖励设定为当次动作开始到下一个动作触发的这段时间内,所有DAG任务在环境内的存在时间,可由公式(8)(9)表示:
R=-∑Tstay(G) (8)
Tstay(G)=min(Tnow,Tfinish(G))-max(Tpre,Tarrive(G)) (9)
其中Tnow表示当前时刻,Tfinish(G)表示工作流G的完成时刻,Tpre表示上一个动作执行的时刻,Tarrive(G)表示工作流G的到达时刻,min(Tnow,Tfinish(G))表示取Tnow,Tfinish(G)的最小值,max(Tpre,Tarrive(G))表示取Tpre,Tarrive(G)的最大值。根据利特尔法则,由于任务到达的速率由外界决定,任务在环境中逗留时间越短,环境中平均任务数量就越少,所有任务平均完成时间就越低。因此该即刻奖励能较好地评估该动作的好坏。
S44.问题形式化:
在线多工作流调度策略可以考虑基于梯度策略模型,它的主要目标是最大化所有动作的累积奖励,可由公式(10)表示:
其中,T表示本次策略实施共有T个动作,k表示第k个动作,Rk表示第k个动作的奖励。
由于梯度策略的目标是最大化奖励,因此对神经网络参数执行梯度上升来进行参数的学习。
S5.策略实现:
本发明设计了一种基于策略梯度的求解在线多工作流调度问题算法(PG-OMWS)用于策略实现,策略实现的详细过程为:
(1)在策略执行阶段,首先初始化环境参数和网络参数。环境参数主要包括执行队列长度,移动设备和边缘服务器之间的带宽,已经在环境内和即将到达环境的DAG任务结构。网络参数主要包括两个策略网络以及图卷积神经网络中的网络参数。然后,智能体观测环境下每个节点的基本特征,送入图卷积神经网络中经过两次聚合得到Enode,根据这些Enode再经过聚合得到EDAG,根据所有EDAG再次经过聚合得到Egloba,结合当前环境得到Onode与Oserver,并根据这两个观测结果选择本次动作所要分配的节点和要给该节点分配的服务器。该节点的完成事件会记录到时间线中,同时计算出该动作的奖励R。每次观测到的环境状态、动作以及奖励都会被保存下来。接下来判断触发调度动作的条件是否被满足,满足则继续触发调度动作,不满足,则去抓取时间线上离当前时刻最近的事件并根据该事件更新当前时刻,直到再次满足触发调度动作的条件。持续进行调度动作与抓取时间线事件的循环直到环境内所有DAG执行完成。
(2)在训练阶段,智能体根据之前保存的环境状态、动作以及奖励,使用梯度策略由公式(11)去更新网络参数,得到最终的工作流调度策略:
其中θ表示网络参数,α表示学习率,T表示本次策略实施共有T个动作,k表示第k个动作,πθ(ok,ak)表示以θ为参数的神经网络在环境状态ok下做出动作ak的概率,rk表示基于即刻奖励进一步经过衰减得到的综合奖励,表示对lnπθ(sk,ak)rk求梯度,表示对所有动作求得的梯度进行累加。
(3)策略执行阶段:环境中有工作流动态到达时,通过最终的工作流调度策略去选择执行该工作流中节点的边缘服务器或移动设备,作为执行该节点的服务器,依次执行完成工作流中的节点。
实施例
本实施例步骤与具体实施方式相同,在此不再进行赘述。
作为优选,S1所述移动设备个数为3,其处理器核数cpun=4,处理器频率fn=2.0GHZ。边缘服务器的个数为6,其处理器核数cpum=6,处理器频率fm=2.5GHZ。移动设备和边缘服务器之间的带宽、边缘服务器与边缘服务器之间的带宽在[10,100]MB/s之间随机取值。DAG任务初始在环境内有10个,后续由移动设备在线产生15个。DAG里节点的工作负载在[10,100]GHZ·S之间随机取值。节点的输出数据数值上设置为工作负载的0.1倍,单位为MB,输入数据为其所有父节点输出数据之和。
作为优选,S2中所述的泊松分布参数,即任务到达率λ设置为5。
作为优选,S5中所述的图卷积神经网络聚合所经过的神经网络隐藏层结构均相同,都有两层隐藏层,神经元个数都分别是16和8,两个策略网络隐藏层结构也相同,都有三层隐藏层,神经元个数都分别是32、16和8。本发明采用Adam优化器来更新目标网络,激活函数均采用leakyRelu,学习率设置为0.0003,奖励衰减系数γ设置为1。
下面就对比方法的实施和实施结果进行展示:
为了评估提出的方法框架的有效性,使用了另外五种方法(SJF、FIFO、Random、LocalEx、EdgeEx)进行对比。下面简要介绍这五种方法:
(1)SJF:该方法根据短作业优先原则选择要执行的节点,将DAG中节点工作负载之和作为该DAG的工作量,工作量越少越早进行调度,并选择执行该节点完成时间最早的边缘服务器或移动设备作为执行该节点的服务器。
(2)FIFO:该方法根据先进先出的原则选择要执行的节点,并选择执行该节点完成时间最早的边缘服务器或移动设备作为执行该节点的服务器。
(3)LocalEx:该方法总是选择移动设备来执行节点,执行节点的顺序遵循先进先出的原则。
(4)EdgeEx:此缩写表示节点总是卸载到边缘服务器,即除了开始节点和结束节点外,该方法始终选择执行该节点完成时间最早的边缘服务器,执行节点顺序遵循先到先出的原则。
(5)Random:该方法随机选择当次分配的节点与边缘服务器或移动设备作为执行该节点的服务器。
分别就任务到达率、边缘服务器处理器核数、移动设备处理器核数、边缘服务器个数和移动设备个数这几个因素对所有任务平均完成时间的影响进行评估与分析。
为了检验不同任务到达间隔对性能的影响,将任务到达间隔从3变到7个单位时间,增量为1。六种方法得到的平均完成时间如图2所示。从图2中观察到,与其他方法相比,本发明提出的以PG-OMWS实现的方法具有更低的平均完成时间,随着任务到达间隔的增加,平均完成时间也逐渐降低。这是因为随着任务到达间隔的增加,需要同时处理的节点数量减少,从而令平均完成时间减少。
为了研究边缘服务器计算能力对性能的影响,将边缘服务器的处理器核数也就是CPU核数从4核变到8核,增量为1。实验中六种方法得到的平均完成时间如图3所示。可以看出,本发明提出的以PG-OMWS实现的方法可以得到最低的平均完成时间,并且平均完成时间随着CPU核数的增加而逐渐减少。这是因为CPU核数的增加使节点的处理延迟大大缩短,从而令平均完成时间缩短。
为了研究移动设备计算能力的影响,将移动设备的CPU核数从2核变到6核,增量为1。六种方法得到的平均完成时间如图4所示。与其他方法相比,本发明提出的以PG-OMWS实现的方法能得到更低的平均完成时间。随着移动设备CPU核数的增加,平均完成时间逐渐降低。这是因为随着移动设备CPU核数的增长,节点的处理速度大大加快,以使平均完成时间缩短。
为了研究不同数量的边缘服务器对方法性能的影响,令边缘服务器的数量设置为1到5,增量为1。通过六种方法得到的平均完成时间如图5所示。图5的结果表明,在边缘服务器个数变化的情况下,本发明提出的以PG-OMWS实现的方法始终优于其他方法。平均完成时间随着边缘服务器数量的增加而减少。其原因是更多的边缘服务器提供了更多的计算资源,从而降低了平均完成时间。此外,LocalEx方法的曲线是平坦的。这是因为LocalEx方法在本地执行所有节点,与边缘服务器的数量无关。
为了研究移动设备数量对性能的影响,基于不同数量的移动设备进行了实验。令边缘服务器的数量设置为4到8,增量为1。相关结果如图6所示。从图6可以看出,在移动设备个数变化的情况下,本发明提出的以PG-OMWS实现的方法始终优于其他方法。随着移动设备数量的增加,平均完成时间逐渐减少。其原因是,更多的移动设备提供了更多的计算资源,从而缩短了平均完成时间。此外,当移动设备的数量过度增加时,EdgeEx方法不会相应地继续减少。这是因为EdgeEx方法会将大部分节点卸载到边缘服务器,而移动设备的数量与此无关。
Claims (10)
1.一种基于强化学习的在线多工作流调度方法,其特征在于包括以下步骤:
S1.建立系统模型:
移动边缘计算网络由多个移动设备和多个边缘服务器组成,移动设备的处理器频率与核数以fn和cpun表示,边缘服务器的处理器频率与核数以fm和cpum表示,边缘服务器之间的带宽以及移动设备与边缘服务器之间的带宽以B表示;
将每个移动设备在线产生相互独立的任务用有向无环图DAG表征,则每个有向无环图DAG表示为一个二元组G=(V,E)表示,其中V=(v1,...,vk,...,vK)表示该DAG里所包含的节点,E={ekl|vk∈V,vl∈V}表示节点之间表征连接关系的边,边ekl表示节点之间的约束依赖关系,即只有在节点vk执行完毕后,节点vl才能开始执行;
S2.建立节点卸载规则:
调度策略在触发调度动作后,选出一个待分配的节点并决定其所要分配的边缘服务器或移动设备;
S3.建立时间线模型:
所述时间线模型记录了所有DAG任务的到达事件以及节点的执行完成事件;
移动设备上任务的到达过程服从参数为λ的泊松分布,即任务达到率为λ,时间线上离当前时刻最近的事件不断被抓取,并根据被抓取的事件更新当前时刻,直到满足触发调度动作的条件;调度动作结束后,则会继续抓取时间线上的事件;
S4.基于强化学习的在线多工作流调度策略:
定义调度问题的状态空间和动作空间,并设计调度问题的奖励函数,使用梯度策略进行训练;
S41.定义状态空间:
智能体观测环境而得的环境状态分为两部分:
在选择所要调度的节点时,智能体可观测环境状态Onode表示为公式(5):
Onode=[Enode,EDAG,Egloba,Tstay,Twaste,Di,o,Wnode,Wpre] (5)
其中Enode、EDAG、Egloba分别表示节点、节点所属DAG以及全局级别的嵌入向量;Tstay表示节点所属DAG在环境中的停留时间;Twaste表示节点在移动设备或边缘服务器上执行会等待多长时间以及移动设备或边缘服务器会等待多长时间;Di,o表示节点的输入与输出数据;Wnode表示节点的工作负载;Wpre表示节点的所有父节点的工作负载之和;
在选择所要分配的服务器时,智能体可观测环境状态Oserver表示为公式(6):
Oserver=[stpre,stserver,Texec,numchild,Wchild] (6)
其中stpre表示该节点的前驱节点数据传输完成的时刻;stserver表示各个服务器的可用时刻;Texec表示节点在各个服务器上的执行时间;numchild表示节点的所有子节点总数以及所有后代节点总数;Wchild表示节点的所有子节点以及所有后代节点的工作负载之和;
S42.定义动作空间:
智能体将上述观测到的状态Onode与Oserver分别输入基于梯度策略的两个神经网络,以从待调度的节点里选出当次要调度的节点node,以及从可用的服务器里选出所要给该节点分配的服务器server,由公式(7)表示:
A=[node,server] (7)
其中A表示定义的动作空间;
S43.定义奖励函数:
即刻奖励设定为当次动作开始到下一个动作触发的这段时间内,所有DAG任务在环境内的存在时间R,由公式(8)(9)表示:
R=-∑Tstay(G) (8)
Tstay(G)=min(Tnow,Tfinish(G))-max(Tpre,Tarrive(G)) (9)
其中Tnow表示当前时刻;Tfinish(G)表示工作流G的完成时刻;Tpre表示上一个动作执行的时刻;Tarrive(G)表示工作流G的到达时刻;min(Tnow,Tfinish(G))表示取Tnow,Tfinish(G)的最小值;max(Tpre,Tarrive(G))表示取Tpre,Tarrive(G)的最大值;
S44.问题形式化:
在线多工作流调度策略基于梯度策略的神经网络模型的主要目标是最大化所有动作的累积奖励,由公式(10)表示:
其中,T表示本次策略实施共有T个动作,k表示第k个动作,Rk表示第k个动作的奖励;
对神经网络参数执行梯度上升来进行参数的学习;
S5.策略实现:
(1)首先初始化环境参数和网络参数,然后智能体观测环境里每个节点的基本特征,送入图卷积神经网络中经过两次聚合得到Enode,根据这些Enode再经过聚合得到EDAG,根据所有EDAG再次经过聚合得到Egloba,结合当前环境得到Onode与Oserver,选择本次动作所要分配的节点和要给该节点分配的服务器,该节点的完成事件会记录到时间线中,同时计算出该动作的奖励;每次观测到的环境状态、动作以及奖励都会被保存下来;
然后判断触发调度动作的条件是否被满足,满足则继续触发调度动作,不满足,则去抓取时间线上离当前时刻最近的事件并根据该事件更新当前时刻,直到再次满足触发调度动作的条件;
持续进行调度动作与抓取时间线事件的循环,直到环境内所有DAG任务执行完成;
(2)智能体根据之前保存的环境状态、动作以及奖励,使用梯度策略由公式(11)去更新网络参数,得到最终的工作流调度策略:
其中θ表示网络参数,α表示学习率,T表示本次策略实施共有T个动作,k表示第k个动作,πθ(ok,ak)表示以θ为参数的神经网络在环境状态ok下做出动作ak的概率,rk表示基于即刻奖励进一步经过衰减得到的综合奖励,表示对lnπθ(sk,ak)rk求梯度,表示对所有动作求得的梯度进行累加;
环境中有工作流动态到达时,通过最终的工作流调度策略去选择执行该工作流中节点的边缘服务器或移动设备,作为执行该节点的服务器,依次执行完成工作流中的节点。
2.根据权利要求1所述的一种基于强化学习的在线多工作流调度方法,其特征在于:步骤S1所述的移动设备和边缘服务器都有一个自己的等待队列,用于存储将在该移动设备或边缘服务器上执行的节点。
3.根据权利要求1所述的一种基于强化学习的在线多工作流调度方法,其特征在于:步骤S2所述的移动设备以节点为单位进行卸载,选择将节点卸载到边缘服务器上或者留在本地执行。
4.根据权利要求1所述的一种基于强化学习的在线多工作流调度方法,其特征在于:在步骤S2中只有在当前节点所有前驱节点执行完毕并且数据传输完成后当前节点才可以开始执行。
5.根据权利要求1所述的一种基于强化学习的在线多工作流调度方法,其特征在于:在步骤S2中节点vk在移动设备或边缘服务器上的完成时刻由公式(1)计算:
其中公式(1)中avail表示移动设备或边缘服务器的可用时刻,表示取和avail的较大值;公式(2)表示当前节点vk所有前驱节点执行完成并且输出数据传输完成的时刻,其中表示节点vl执行完成的时刻,表示遍历节点vk的所有前驱节点vl,取与Ttran(vl,vk)之和的最大值;公式(3)表示传输数据所需时间,若前驱节点和当前节点处在相同的移动设备或边缘服务器上执行则不进行数据的传输,反之则进行数据传输,其中B表示边缘服务器之间的带宽以及移动设备与边缘服务器之间的带宽,表示节点vl输出数据大小;公式(4)表示节点的执行所要花费的时间,其中fn和cpun分别表示移动设备的处理器频率与核数,fm和cpum分别表示边缘服务器的处理器频率与核数。
6.根据权利要求1所述的一种基于强化学习的在线多工作流调度方法,其特征在于:步骤S3所述的触发调度动作的条件是有可调度的节点并且边缘服务器或该节点所属的移动设备空闲时。
7.根据权利要求1所述的一种基于强化学习的在线多工作流调度方法,其特征在于:在步骤S4中以DAG表征的多工作流在线调度的环境下,与环境交互的智能体采用图卷积神经网络提取所有DAG的特征。
8.根据权利要求1所述的一种基于强化学习的在线多工作流调度方法,其特征在于:在步骤S41中通过图卷积神经网络,每个节点会自上而下聚合自己子节点的信息,同时自身作为父节点的子节点也会被其对应的父节点所聚合,得到每个节点的嵌入向量,其包含每个节点关键路径值的信息;
同时基于这些节点的嵌入向量,智能体进一步聚合而成节点所属DAG的嵌入向量,其中包括该DAG的剩余工作量的信息;
再基于这些DAG的嵌入向量,智能体聚合得到全局的嵌入向量,其包含全局的工作量的信息。
9.根据权利要求1所述的一种基于强化学习的在线多工作流调度方法,其特征在于:在步骤S43中在多工作流在线调度过程中,每个动作得到一个即刻奖励以评估该动作的好坏,以所有DAG任务的平均完成时间作为最终的长期优化目标。
10.根据权利要求1所述的一种基于强化学习的在线多工作流调度方法,其特征在于:步骤S5所述的环境参数和网络参数:
所述的环境参数主要包括执行队列长度、移动设备和边缘服务器之间的带宽以及在环境内和即将到达环境的DAG任务结构;
所述的网络参数主要包括两个策略网络以及图卷积神经网络中的网络参数。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210857988.8A CN115114030B (zh) | 2022-07-20 | 2022-07-20 | 一种基于强化学习的在线多工作流调度方法 |
GB2311034.9A GB2624736A (en) | 2022-07-20 | 2023-07-19 | Online multi-workflow scheduling method based on reinforcement learning |
JP2023118563A JP2024014837A (ja) | 2022-07-20 | 2023-07-20 | 強化学習に基づくオンラインマルチワークフローのスケジューリング方法 |
US18/355,420 US20240137404A1 (en) | 2022-07-20 | 2023-07-20 | Online multi-workflow scheduling method based on reinforcement learning |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210857988.8A CN115114030B (zh) | 2022-07-20 | 2022-07-20 | 一种基于强化学习的在线多工作流调度方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115114030A true CN115114030A (zh) | 2022-09-27 |
CN115114030B CN115114030B (zh) | 2023-06-16 |
Family
ID=83334291
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210857988.8A Active CN115114030B (zh) | 2022-07-20 | 2022-07-20 | 一种基于强化学习的在线多工作流调度方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20240137404A1 (zh) |
JP (1) | JP2024014837A (zh) |
CN (1) | CN115114030B (zh) |
GB (1) | GB2624736A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111756653A (zh) * | 2020-06-04 | 2020-10-09 | 北京理工大学 | 基于图神经网络深度强化学习的多coflow调度方法 |
CN112905312A (zh) * | 2021-01-20 | 2021-06-04 | 杭州电子科技大学 | 边缘计算环境中基于深度q神经网络的工作流调度方法 |
CN113778648A (zh) * | 2021-08-31 | 2021-12-10 | 重庆理工大学 | 分层边缘计算环境中基于深度强化学习的任务调度方法 |
US11206221B1 (en) * | 2021-06-04 | 2021-12-21 | National University Of Defense Technology | Online task dispatching and scheduling system and method thereof |
-
2022
- 2022-07-20 CN CN202210857988.8A patent/CN115114030B/zh active Active
-
2023
- 2023-07-19 GB GB2311034.9A patent/GB2624736A/en active Pending
- 2023-07-20 JP JP2023118563A patent/JP2024014837A/ja active Pending
- 2023-07-20 US US18/355,420 patent/US20240137404A1/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111756653A (zh) * | 2020-06-04 | 2020-10-09 | 北京理工大学 | 基于图神经网络深度强化学习的多coflow调度方法 |
CN112905312A (zh) * | 2021-01-20 | 2021-06-04 | 杭州电子科技大学 | 边缘计算环境中基于深度q神经网络的工作流调度方法 |
US11206221B1 (en) * | 2021-06-04 | 2021-12-21 | National University Of Defense Technology | Online task dispatching and scheduling system and method thereof |
CN113778648A (zh) * | 2021-08-31 | 2021-12-10 | 重庆理工大学 | 分层边缘计算环境中基于深度强化学习的任务调度方法 |
Non-Patent Citations (2)
Title |
---|
YUANDOU WANG等: "Multi-Objective Workflow Scheduling With Deep-Q-Network-Based Multi-Agent Reinforcement Learning", 《 IEEE ACCESS 》, pages 39974 * |
马堉银等: "一种基于深度强化学习与概率性能感知的边缘计算环境多工作流卸载方法", 《计算机科学》, vol. 48, no. 1, pages 40 - 48 * |
Also Published As
Publication number | Publication date |
---|---|
GB2624736A (en) | 2024-05-29 |
GB202311034D0 (en) | 2023-08-30 |
CN115114030B (zh) | 2023-06-16 |
JP2024014837A (ja) | 2024-02-01 |
US20240137404A1 (en) | 2024-04-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111858009B (zh) | 基于迁移和强化学习的移动边缘计算系统任务调度方法 | |
Han et al. | Tailored learning-based scheduling for kubernetes-oriented edge-cloud system | |
CN109753751B (zh) | 一种基于机器学习的mec随机任务迁移方法 | |
CN109101339A (zh) | 异构集群中视频任务并行化方法、装置及异构集群系统 | |
CN115237581B (zh) | 一种面向异构算力的多策略智能调度方法和装置 | |
CN114546608B (zh) | 一种基于边缘计算的任务调度方法 | |
CN116069512B (zh) | 一种基于强化学习的Serverless高效资源分配方法及系统 | |
CN114237869B (zh) | 基于强化学习的Ray双层调度方法、装置和电子设备 | |
CN114661466A (zh) | 用于边缘计算环境中面向智能工作流应用的任务卸载方法 | |
CN113867843A (zh) | 一种基于深度强化学习的移动边缘计算任务卸载方法 | |
CN111740925A (zh) | 一种基于深度强化学习的Coflow调度方法 | |
CN111352713A (zh) | 边缘环境面向时延优化的自动驾驶推理任务工作流调度方法 | |
CN111061565A (zh) | 一种Spark环境下的两段式流水线任务调度方法及系统 | |
Tang et al. | Collaborative cloud-edge-end task offloading with task dependency based on deep reinforcement learning | |
CN109976873A (zh) | 容器化分布式计算框架的调度方案获取方法及调度方法 | |
CN116954866A (zh) | 基于深度强化学习的边缘云下任务调度方法及系统 | |
CN115114030B (zh) | 一种基于强化学习的在线多工作流调度方法 | |
CN116582407A (zh) | 一种基于深度强化学习的容器化微服务编排系统及方法 | |
CN116932198A (zh) | 资源调度方法、装置、电子设备及可读存储介质 | |
CN116112488A (zh) | 一种面向mec网络的细粒度任务卸载及资源分配方法 | |
CN113157344B (zh) | 移动边缘计算环境下基于drl的能耗感知任务卸载方法 | |
CN116501483A (zh) | 基于多智能体强化学习的车辆边缘计算任务调度方法 | |
CN112698911B (zh) | 一种基于深度强化学习的云作业调度方法 | |
CN115220818A (zh) | 基于深度强化学习的实时依赖型任务卸载方法 | |
Gao et al. | Deep reinforcement learning and markov decision problem for task offloading in mobile edge computing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |