CN110780974B - 一种移动边缘计算环境下面向工作流的容错调度方法 - Google Patents

一种移动边缘计算环境下面向工作流的容错调度方法 Download PDF

Info

Publication number
CN110780974B
CN110780974B CN201910851811.5A CN201910851811A CN110780974B CN 110780974 B CN110780974 B CN 110780974B CN 201910851811 A CN201910851811 A CN 201910851811A CN 110780974 B CN110780974 B CN 110780974B
Authority
CN
China
Prior art keywords
task
workflow
time
execution
executed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910851811.5A
Other languages
English (en)
Other versions
CN110780974A (zh
Inventor
李忠金
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN201910851811.5A priority Critical patent/CN110780974B/zh
Publication of CN110780974A publication Critical patent/CN110780974A/zh
Application granted granted Critical
Publication of CN110780974B publication Critical patent/CN110780974B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Retry When Errors Occur (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明公开了一种移动边缘计算环境下面向工作流调度的容错方法。本发明步骤:构建移动边缘环境下容错调度框架;建立故障模型;计算复制延迟执行机制和检查点延迟执行机制所需的计算资源;当服务工作流任务到达时,首先将任务放在工作流队列中并且按照先到先服务策略执行,容器调度器判断工作流是否执行执行;选择最佳的容错策略,如果找不到任何调度方案来满足任务的子完工时间,则拒绝执行整个工作流应用;6、如果步骤5没有足够虚拟机执行任务,则采用资源扩展策略新开虚拟机满足资源要求;步骤7、当工作流完成时,则通过资源缩减策略提高资源利用率。本发明在满足工作流的时间约束和存在VM故障情况下使得MEC的资源利用率最大化。

Description

一种移动边缘计算环境下面向工作流的容错调度方法
技术领域
本发明涉及移动边缘计算领域,具体涉及一种移动边缘计算环境下面向工作流调度的容错方法。
背景技术
随着通信、网络和智能产品的发展,如手机、平板和笔记本等移动便携式的用户设备(User Equipment,UE)越来越受欢迎。新型移动应用如人脸识别、自然语言处理、增强现实等不断涌出,引起了人们的广泛关注。这些移动应用的执行需要较高的计算资源,并消耗较大的电力能源。然而移动设备由于物理尺寸的限制,通常只具有有限的计算能力和电量。因此,如何在资源受限的移动设备上高效地运行新型移动应用是当前移动网络环境下的一个挑战。
移动边缘计算(Mobile Edge Computing,MEC)的出现为该问题的解决提供了新的平台和机遇。MEC通过与内容提供商和应用开发商深度合作,在靠近移动用户侧就近提供内容存储计算及分发服务,使应用、服务和内容部署在高度分布的环境中,以更好地满足低延时的需要。所以在MEC环境中,执行计算和存储的服务器都部署在网络边缘,MEC服务器通过网络功能虚拟化(Network Functions Virtualization,NFV)技术产生多个虚拟机(Virtual Machines,VM)来并行执行不同的计算任务。用户设备通过将移动应用的一部分任务卸载到虚拟机上执行,来提高移动应用的服务质量以及减少UE的能源消耗。一个移动应用一般包括多个任务,任务之间存在先序和数据依赖关系,这些任务可以建模成一个工作流。与并行任务相比,MEC环境下的工作流应用调度问题更具有复杂性和挑战性,比如任务的执行顺序以及执行位置都会对移动应用的完成时间和能耗产生重大影响。
可靠性需求是最重要的服务质量(Quality ofService,QoS)评价标准之一,在MEC下工作流调度应该满足可靠性需求。随着MEC的功能和系统复杂度增加,MEC在可靠性方面存在挑战。这是因为通过NFV技术虚拟化的VM会以一定的概率发生故障,这种故障是一种可以在短时间内恢复的软件故障。服务工作流应用如网页加速、人脸识别和虚拟现实,不仅需要执行准确还要保证较低的时延。如果执行任务时发生了VM故障,则需要重新执行该任务,这不可避免推迟了任务的完成时间,影响了服务质量。容错技术可以满足系统的可靠性需求,然而不合理的容错策略将会使用较多的资源,这不仅影响了服务质量而且会增加MEC服务器的负载。然而,现有的容错方法只考虑主机故障忽略了VM故障
发明内容
本发明针对现有方法的不足,提出了一种移动边缘计算环境下面向工作流的容错调度算法。
本发明所提出一种移动边缘计算环境下面向工作流的容错调度方法,其实现过程中使用有故障模型、容错机制和资源动态调整策略。
故障模型测量了虚拟机的可靠性,构建了任务的服务时间和虚拟机故障的到达率计算的关系。
容错机制包括了两种容错机制:复制延迟执行机制和检查点延迟执行机制。复制延迟执行机制是指通过复制方法产生多个任务副本然后并行执行任务副本。检查点延迟执行机制是指将任务任意地分割成独立的块,每个块成功执行后记录执行状态。与检查点延迟执行容错机制相比,复制延迟执行需要较多的计算资源较少执行时间。
资源动态调整策略由资源扩展和资源缩减组成。如果任务的主副本或者备份副本无法映射到现有的虚拟机,则资源扩展策略需要从现有活动主机创建一组新的虚拟机来执行多个任务副本。当虚拟机短时间空闲则通过动态电压频率调节以降低计算资源和能耗,如果虚拟机长时间处于空闲状态,则会关闭虚拟机以提高资源利用率。
本发明的具体步骤如下:
一种移动边缘计算环境下面向工作流调度的容错方法,包括如下步骤:
步骤1、构建移动边缘环境下容错调度框架;
步骤2、建立故障模型;
通过任务的服务时间和故障到达率计算虚拟机的可靠性;
步骤3、计算复制延迟执行机制所需计算资源;
复制延迟执行机制是通过复制方法产生多个任务副本,然后并行执行这些副本;任务副本分为主副本和备份副本,主副本的执行结果分为成功和失败,通过计算概率统计整个的复制延迟执行的所需的期望计算资源;
步骤4、计算检查点延迟执行机制所需的计算资源;
检查点延迟执行机制的任务执行时间主要由数据接受时间、块执行时间、检查点时间、虚拟机恢复时间和数据传输时间组成;通过计算任务的执行时间得到采用该机制的计算资源;
步骤5、当一批服务工作流任务到达时,首先将任务放在工作流队列中并且按照先到先服务策略执行,容器调度器判断工作流是否执行执行;根据步骤3和步骤4选择最佳的容错策略,如果找不到任何调度方案来满足任务的子完工时间,则拒绝执行整个工作流应用;
步骤6、如果步骤5没有足够虚拟机(VM)执行任务,则采用资源扩展策略新开虚拟机满足资源要求;
步骤7、当工作流完成时,则通过资源缩减策略提高资源利用率。
当一批服务工作流任务到达时,首先放入到工作流队列中并且按照先到先服务策略执行;然后调度器分析工作流的结构,并将截止时间分成若干个子完工时间;子完工时间表示分配给任务的执行时间,首先将服务工作流中任务映射到最大计算单元CU(K)执行;然后根据下面公式计算任务tj的最小执行时间;
Figure BDA0002197193910000031
假设工作流的任务都在VM(K)上执行,公式(1)能够计算得到整个工作流的最短完工时间
Figure BDA0002197193910000032
通常服务工作流的指定期限TDL必须大于等于最短完工时间,即
Figure BDA0002197193910000041
因此任务ti的子完工时间定义如公式(2)所示,由公式(2)可知如果每个任务的执行时间小于其子完工时间,那么整个工作流的完工时间将不会超过截止时间;
Figure BDA0002197193910000042
VM在执行服务工作流任务时可能发生故障导致任务执行失败;通过使用可用的故障信号和测试用例能够立即检测VM的故障;假设VM在任务执行过程中遇到多个故障,通过应用恢复机制在很短时间内恢复执行;VM的可靠性Pvm(T)根据下面的公式计算,其中T表示一个任务服务时间,λvm表示VM故障的到达率且服从泊松分布;
Pvm(T)=exp(-λvm·T) (3)。
所述的计算复制延迟执行机制是指通过复制方法产生多个任务副本然后并行执行任务副本;假设复制系数为∈,∈是一个预设的很小的正整数,从而得到公式(4)不等式,其中N(ti)表示任务ti的副本的个数;公式(4)表示在采用复制技术情况下Nrepl(ti)个副本在VM上执行,成功的概率至少为1-∈;
Figure BDA0002197193910000043
将N(ti)个任务副本划分为主副本和备份副本,其中主副本优先执行,然后执行备份副本,主副本和备份副本在不同的VM上执行,主副本的数量根据公式(5)计算,备份副本Nb(ti)可由公式(6)计算得到;
Figure BDA0002197193910000044
Nb(ti)=N(ti)-Np(ti) (6)
所述的计算复制延迟执行机制有两种延迟执行的情况;第一种情况:当Tserv(ti,VM(k))≤TsubM(ti)<2·Tserv(ti,VM(k))时,备份副本在主副本执行过程中开始执行,如果有一个主副本执行成功,备份副本则立即停止执行;第二种情况:当TsubM(ti)≥2·Tserv(ti,VM(k))时,如果所有的主副本执行失败,备份副本才开始执行。
进一步,在第一种情况下计算复制延迟执行机制(R-CE)的具体实现如下:
当Tserv(ti,VM(k))≤TsubM(ti)<2·Tserv(ti,VM(k)),主副本的执行结果分为成功和失败,接下来计算这两种情况的计算资源;假设至少有一个主副本执行成功,发生的概率为公式(7);在这种情况下,备份副本只执行一段时间就被中断执行,R-CE的计算资源如公式(8);
Figure BDA0002197193910000051
Figure BDA0002197193910000052
假设所有主副本都执行失败;发生概率如公式(9)所示,这时所有备份副本都需要执行,在这种情况下计算资源通过公式(10)得到;
Figure BDA0002197193910000053
Figure BDA0002197193910000054
根据公式(7)、(8)、(9)和(10),第一种情况下所需要的计算资源如下:
Figure BDA0002197193910000055
进一步,在第二种情况下计算复制延迟执行机制(R-CE)的具体实现如下:
当TsubM(ti)≥2·Tserv(ti,VM(k)),主副本的执行结果也有两种情况,假设至少有一个主副本执行成功,那么发生的概率为公式(12);同第一种情况不同,第二种情况的备份副本不需要全部执行,根据公式(13)得到计算资源;
P21=P11 (12)
Figure BDA0002197193910000056
假设所有主副本都执行失败,概率如公式(13)所示,这时所有备份副本都需要执行,在这种情况计算资源通过公式(14)得到;
P22=P12 (14)
Figure BDA0002197193910000061
因此第二种情况下所需要的总计算资源表示如下:
Figure BDA0002197193910000062
进一步,检查点延迟执行机制是指将任务任意地分割成独立的块,然后在成功执行每个块之后记录状态;如果在块执行过程中VM发生了故障,则需要重新执行块;任务ti的执行时间为C,Cl表示每个块的执行时间;因此可得公式(17);在发生VM故障情况下具有检查点方法的任务ti的服务时间表示如公式(18)所示;
Figure BDA0002197193910000063
Figure BDA0002197193910000064
其中,Tchec和Treco分别表示执行检查点和VM恢复所需的时间;参数nl表示块Cl执行的次数,此外nl≥1,因为每个块必须至少执行一次。
进一步,每个任务的执行时间分为数据接受时间、块执行时间、检查点时间、VM恢复时间和数据传输时间;如果在任务执行过程没有发生VM故障,则VM恢复时间为0;T(C|τ)用来测量成功执行C个单元的工作量所需时间的随机变量;C1表示第一块的大小,从而得到如下递归方程;
Figure BDA0002197193910000065
任务的期望服务时间如公式(20)所示,此外根据上述理论分析,计算检查点延迟执行机制(C-DE机制)所需的预期计算资源根据公式(21)计算;
Tserv(ti,VM(k))=E{T*(C)}+Trece(ti)+Ttrans(ti) (20)
Figure BDA0002197193910000071
进一步,如果任务的主副本或者备份副本无法映射到现有的VM,则资源扩展策略需要从现有活动主机创建一组新的VM来执行多个任务副本;对于给定任务ti,首先根据R-DE机制和C-DE机制选择最佳VM类型,然后计算最小预期计算资源需求,最后从现有活动主机创建新的VM实例;如果没有满足VM分配要求的主机,则需打开新的主机。
进一步,如果虚拟机有一小段时间空闲时,系统将通过动态电压频率调整技术降低CPU频率来节省计算资源和能耗;如果VM在长时间内处于空闲状态,则会关闭VM以提高资源利用率;此外,如果主副本执行成功,那么备份副本会被回收,回收的VM将用来执行其他副本任务或者降低CPU频率又或者会被回收。
本发明有益效果
本发明提出了一种移动边缘计算环境下面向工作流的容错调度算法,该算法结合了两种容错机制和资源调整策略,在满足工作流的时间约束和存在VM故障情况下使得MEC的资源利用率最大化。首先介绍了两种容错机制:延迟执行复制和延迟执行检查点来确保发生VM故障时工作流能够执行成功。然后提出了资源调整策略来动态调整计算资源的需求。
附图说明
图1为本发明服务工作流任务到达后流程图;
图2为本发明R-DE运行过程图;
图3为本发明C-DE执行过程图;
具体实施方式
下面将对本发明所提供的容错调度算法作出具体说明。
步骤1、如图1所示,当一批服务工作流任务到达时,它们首先放入到工作流队列中并且按照先到先服务策略执行。然后调度器分析工作流的结构,并将截止时间分成若干个子完工时间。子完工时间表示分配给任务的执行时间,首先将服务工作流中任务映射到最大计算单元CU(K)执行。然后根据下面公式计算任务ti的最小执行时间。
Figure BDA0002197193910000081
假设工作流的任务都在VM(K)上执行,公式(1)可以计算得到整个工作流的最短完工时间
Figure BDA0002197193910000082
通常服务工作流的指定期限TDL必须不小于最短完工时间,即
Figure BDA0002197193910000083
因此任务ti的子完工时间定义如公式(2)所示,由公式(2)可知如果每个任务的执行时间小于其子完工时间,那么整个工作流的完工时间将不会超过截止时间。
Figure BDA0002197193910000084
步骤2、VM在执行服务工作流任务时可能发生故障导致任务执行失败。通过使用可用的故障信号和测试用例可以立即检测VM的故障。假设VM在任务执行过程中遇到多个故障,通过应用恢复机制在很短时间内恢复执行。此外VM的故障是独立的,这意味着VM的故障不干扰其他VM正常运行。VM的可靠性Pvm(T)根据下面的公式计算,其中T表示一个任务服务时间,λvm表示VM故障的到达率且服从泊松分布。
Pvm(T)=exp(-λvm·T) (3)
步骤3、.R-DE容错机制是指通过复制方法产生多个任务副本然后并行执行任务副本。假设复制系数为∈,∈是一个很小的正整数,可以得到公式(4)不等式,其中N(ti)表示任务ti的副本的个数。公式(4)表示在采用复制技术情况下Nrepl(ti)个副本在VM上执行,成功的概率至少为1-∈。
Figure BDA0002197193910000085
与并行执行多个任务副本的传统复制方法不同,R-DE方法将N(ti)个任务副本划分为主副本和备份副本,其中主副本优先执行,然后执行备份副本,主副本和备份副本在不同的VM上执行,R-DE运行过程如图2所示。主副本的数量根据公式(5)计算,备份副本Nb(ti)可由公式(6)计算得到。
Figure BDA0002197193910000091
Nb(ti)=N(ti)-Np(ti) (6)
从图2可以看出R-DE机制有两种延迟执行的情况。第一种情况:当Tserv(ti,vm(k))≤TsubM(ti)<2·Tserv(ti,vm(k))时,备份副本在主副本执行过程中开始执行,如果有一个主副本执行成功,备份副本则立即停止执行;第二种情况:当TsubM(ti)≥2·Tserv(ti,vm(k))时,如果所有的主副本执行失败,备份副本才开始执行。
接下来分别计算R-DE的两种情况下的计算资源。
(1)情况1:Tserv(ti,VM(k))≤TsubM(ti)<2·Tserv(ti,VM(k)),主副本的执行结果分为成功和失败,接下来计算这两种情况的计算资源。假设至少有一个主副本执行成功,发生的概率为公式(7)。在这种情况下,备份副本只执行一段时间就被中断执行。R-CE的计算资源如公式(8)。
Figure BDA0002197193910000092
Figure BDA0002197193910000093
假设所有主副本都执行失败。发生概率如公式(9)所示,这时所有备份副本都需要执行,在这种情况下计算资源通过公式(10)得到。
Figure BDA0002197193910000094
Figure BDA0002197193910000095
根据公式(7)、(8)、(9)和(10)计算第一种情况下理论上所需要的计算资源如下:
Figure BDA0002197193910000101
(2)情况2:TsubM(ti)≥2·Tserv(ti,VM(k)),同情况1一样,主副本的执行结果也有两种情况,接下来分别讨论这两种情况的计算资源。假设至少有一个主副本执行成功,那么发生的概率为公式(12)。同情况1不同,情况2的备份副本不需要全部执行,根据公式(13)得到计算资源。
P21=P11 (12)
Figure BDA0002197193910000102
假设所有主副本都执行失败,概率如公式(13)所示,这时所有备份副本都需要执行,在这种情况计算资源通过公式(14)得到。
P22=P12 (14)
Figure BDA0002197193910000103
因此理论上R-DE所需的总计算资源表示如下
Figure BDA0002197193910000104
步骤4、检查点机制是指将任务任意地分割成独立的块,然后在成功执行每个块之后记录状态。如果在块执行过程中VM发生了故障,则需要重新执行块。任务ti的执行时间为C,Cl表示每个块的执行时间。因此可得公式(17)。在发生VM故障情况下具有检查点方法的任务ti的服务时间表示如公式(18)所示。
Figure BDA0002197193910000105
Figure BDA0002197193910000106
其中Tchec和Treco分别表示执行检查点和VM恢复所需的时间;参数nl表示块Cl执行的次数,此外nl≥1,这是因为每个块必须至少执行一次。
图3、展示了C-DE执行过程,从图中可知一个任务的执行时间分为数据接受时间、块执行时间、检查点时间、VM恢复时间和数据传输时间。注意,如果在任务执行过程没有发生VM故障,则VM恢复时间为0。T(C|τ)用来测量成功执行C个单元的工作量所需时间的随机变量。C1表示第一块的大小,可以得到如下递归方程。
Figure BDA0002197193910000111
任务的期望服务时间如公式(20)所示,此外根据上述理论分析,C-DE机制所需的预期计算资源根据公式(21)计算。
Tserv(ti,VM(k))=E{T*(C)}+Trece(ti)+Ttrans(ti) (20)
Figure BDA0002197193910000112
步骤5、当一批服务工作流任务到达时,它们首先将任务放在工作流队列中并且按照先到先服务策略执行,容器调度器判断工作流是否执行执行。根据步骤3和步骤4选择容错策略,如果找不到任何调度方案来满足任务的子完工时间,则拒绝执行整个工作流应用。
步骤6、如果任务的主副本或者备份副本无法映射到现有的VM,则资源扩展策略需要从现有活动主机创建一组新的VM来执行多个任务副本。对于给定任务ti,首先根据R-DE机制和C-DE机制选择最佳VM类型,然后计算最小预期计算资源需求,最后从现有活动主机创建新的VM实例。如果没有满足VM分配要求的主机,则需打开新的主机。
步骤7、如果虚拟机有一小段时间空闲时,系统将通过动态电压频率调整技术降低CPU频率来节省计算资源和能耗。如果VM在长时间内处于空闲状态,则会关闭VM以提高资源利用率。此外,如果主副本执行成功,那么备份副本会被回收,回收的VM将用来执行其他副本任务或者降低CPU频率又或者会被回收。

Claims (9)

1.一种移动边缘计算环境下面向工作流调度的容错方法,其特征在于包括如下步骤:
步骤1、构建移动边缘环境下容错调度框架;
步骤2、建立故障模型;
通过任务的服务时间和故障到达率计算虚拟机的可靠性;
步骤3、计算复制延迟执行机制所需计算资源;
复制延迟执行机制是通过复制方法产生多个任务副本,然后并行执行这些副本;任务副本分为主副本和备份副本,主副本的执行结果分为成功和失败,通过计算概率统计整个的复制延迟执行的所需的期望计算资源;
步骤4、计算检查点延迟执行机制所需的计算资源;
检查点延迟执行机制的任务执行时间主要由数据接受时间、块执行时间、检查点时间、虚拟机恢复时间和数据传输时间组成;通过计算任务的执行时间得到采用该机制的计算资源;
步骤5、当一批服务工作流任务到达时,首先将任务放在工作流队列中并且按照先到先服务策略执行,容器调度器判断工作流是否执行;根据步骤3和步骤4选择最佳的容错策略,如果找不到任何调度方案来满足任务的子完工时间,则拒绝执行整个工作流应用;
步骤6、如果步骤5没有足够虚拟机(VM)执行任务,则采用资源扩展策略新开虚拟机满足资源要求;
步骤7、当工作流完成时,则通过资源缩减策略提高资源利用率;
检查点延迟执行机制是指将任务任意地分割成独立的块,然后在成功执行每个块之后记录状态;如果在块执行过程中VM发生了故障,则需要重新执行块;任务ti的执行时间为C,Cl表示每个块的执行时间;因此可得公式(17);在发生VM故障情况下具有检查点方法的任务ti的服务时间表示如公式(18)所示;
Figure FDA0003454923760000011
Figure FDA0003454923760000012
Figure FDA0003454923760000021
其中,Tchec和Treco分别表示执行检查点和VM恢复所需的时间;参数nl表示块Cl执行的次数,此外nl≥1,因为每个块必须至少执行一次。
2.根据权利要求1所述的一种移动边缘计算环境下面向工作流调度的容错方法,其特征在于
当一批服务工作流任务到达时,首先放入到工作流队列中并且按照先到先服务策略执行;然后容器调度器分析工作流的结构,并将截止时间分成若干个子完工时间;子完工时间表示分配给任务的执行时间,首先将服务工作流中任务映射到最大计算单元CU(K)执行;然后根据下面公式计算任务ti的最小执行时间;
Figure FDA0003454923760000022
假设工作流的任务都在VM(K)上执行,公式(1)能够计算得到整个工作流的最短完工时间
Figure FDA0003454923760000023
通常服务工作流的指定期限TDL必须大于等于最短完工时间,即
Figure FDA0003454923760000024
因此任务ti的子完工时间定义如公式(2)所示,由公式(2)可知如果每个任务的执行时间小于其子完工时间,那么整个工作流的完工时间将不会超过截止时间;
Figure FDA0003454923760000025
3.根据权利要求2所述的一种移动边缘计算环境下面向工作流调度的容错方法,其特征在于
VM在执行服务工作流任务时可能发生故障导致任务执行失败;通过使用可用的故障信号和测试用例能够立即检测VM的故障;假设VM在任务执行过程中遇到多个故障,通过应用恢复机制在很短时间内恢复执行;VM的可靠性Pvm(T)根据下面的公式计算,其中T表示一个任务服务时间,λvm表示VM故障的到达率且服从泊松分布;
Pvm(T)=exp(-λvm·T) (3)。
4.根据权利要求3所述的一种移动边缘计算环境下面向工作流调度的容错方法,其特征在于
所述的计算复制延迟执行机制是指通过复制方法产生多个任务副本然后并行执行任务副本;假设复制系数为∈,∈是一个预设的很小的正整数,从而得到公式(4)不等式,其中N(ti)表示任务ti的副本的个数;公式(4)表示在采用复制技术情况下Nrepl(ti)个副本在VM上执行,成功的概率至少为1-∈;
Figure FDA0003454923760000034
将N(ti)个任务副本划分为主副本和备份副本,其中主副本优先执行,然后执行备份副本,主副本和备份副本在不同的VM上执行,主副本的数量根据公式(5)计算,备份副本数量Nb(ti)可由公式(6)计算得到;
Figure FDA0003454923760000031
Nb(ti)=N(ti)-Np(ti) (6)
所述的计算复制延迟执行机制有两种延迟执行的情况;第一种情况:当Tserv(ti,VM(k))≤TsubM(ti)<2·Tserv(ti,VM(k))时,备份副本在主副本执行过程中开始执行,如果有一个主副本执行成功,备份副本则立即停止执行;第二种情况:当TsubM(ti)≥2·Tserv(ti,VM(k))时,如果所有的主副本执行失败,备份副本才开始执行。
5.根据权利要求4所述的一种移动边缘计算环境下面向工作流调度的容错方法,其特征在于在第一种情况下计算复制延迟执行机制(R-CE)的具体实现如下:
当Tserv(ti,VM(k))≤TsubM(ti)<2·Tserv(ti,VM(k)),主副本的执行结果分为成功和失败,接下来计算这两种情况的计算资源;假设至少有一个主副本执行成功,发生的概率为公式(7);在这种情况下,备份副本只执行一段时间就被中断执行,R-CE的计算资源如公式(8);
Figure FDA0003454923760000032
Figure FDA0003454923760000033
假设所有主副本都执行失败;发生概率如公式(9)所示,这时所有备份副本都需要执行,在这种情况下计算资源通过公式(10)得到;
Figure FDA0003454923760000041
Figure FDA0003454923760000042
根据公式(7)、(8)、(9)和(10),第一种情况下所需要的计算资源如下:
Figure FDA0003454923760000043
6.根据权利要求4或5所述的一种移动边缘计算环境下面向工作流调度的容错方法,其特征在于在第二种情况下计算复制延迟执行机制(R-CE)的具体实现如下:
当TsubM(ti)≥2·Tserv(ti,VM(k)),主副本的执行结果也有两种情况,假设至少有一个主副本执行成功,那么发生的概率为公式(12);同第一种情况不同,第二种情况的备份副本不需要全部执行,根据公式(13)得到计算资源;
P21=P11 (12)
Figure FDA0003454923760000044
假设所有主副本都执行失败,概率如公式(14)所示,这时所有备份副本都需要执行,在这种情况计算资源通过公式(15)得到;
P22=P12 (14)
Figure FDA0003454923760000045
因此第二种情况下所需要的总计算资源表示如下:
Figure FDA0003454923760000046
7.根据权利要求6所述的一种移动边缘计算环境下面向工作流调度的容错方法,其特征在于每个任务的执行时间分为数据接受时间、块执行时间、检查点时间、VM恢复时间和数据传输时间;如果在任务执行过程没有发生VM故障,则VM恢复时间为0;T(C|τ)用来测量成功执行C个单元的工作量所需时间的随机变量;C1表示第一块的大小,从而得到如下递归方程;
Figure FDA0003454923760000051
任务的期望服务时间如公式(20)所示,此外根据上述理论分析,计算检查点延迟执行机制(C-DE机制)所需的预期计算资源根据公式(21)计算;
Tserv(ti,VM(k))=E{T*(C)}+Trece(ti)+Ttrans(ti) (20)
Figure FDA0003454923760000052
8.根据权利要求7所述的一种移动边缘计算环境下面向工作流调度的容错方法,其特征在于如果任务的主副本或者备份副本无法映射到现有的VM,则资源扩展策略需要从现有活动主机创建一组新的VM来执行多个任务副本;对于给定任务ti,首先根据R-DE机制和C-DE机制选择最佳VM类型,然后计算最小预期计算资源需求,最后从现有活动主机创建新的VM实例;如果没有满足VM分配要求的主机,则需打开新的主机。
9.根据权利要求7或8所述的一种移动边缘计算环境下面向工作流调度的容错方法,其特征在于如果虚拟机有一小段时间空闲时,系统将通过动态电压频率调整技术降低CPU频率来节省计算资源和能耗;如果VM在长时间内处于空闲状态,则会关闭VM以提高资源利用率;此外,如果主副本执行成功,那么备份副本会被回收,回收的VM将用来执行其他副本任务或者降低CPU频率又或者会被回收。
CN201910851811.5A 2019-09-10 2019-09-10 一种移动边缘计算环境下面向工作流的容错调度方法 Active CN110780974B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910851811.5A CN110780974B (zh) 2019-09-10 2019-09-10 一种移动边缘计算环境下面向工作流的容错调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910851811.5A CN110780974B (zh) 2019-09-10 2019-09-10 一种移动边缘计算环境下面向工作流的容错调度方法

Publications (2)

Publication Number Publication Date
CN110780974A CN110780974A (zh) 2020-02-11
CN110780974B true CN110780974B (zh) 2022-03-01

Family

ID=69384147

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910851811.5A Active CN110780974B (zh) 2019-09-10 2019-09-10 一种移动边缘计算环境下面向工作流的容错调度方法

Country Status (1)

Country Link
CN (1) CN110780974B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112492032B (zh) * 2020-11-30 2022-09-23 杭州电子科技大学 一种移动边缘环境下的工作流协作调度方法
CN113220462B (zh) * 2021-05-28 2024-02-06 赵庆林 一种基于边缘计算的集中式故障检测方法
CN116795603B (zh) * 2023-08-22 2024-03-29 北京遥感设备研究所 一种数据库系统中备份事务的高效发布时间分配方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009018526A1 (en) * 2007-08-02 2009-02-05 L-3 Communications Security And Detection Systems, Inc. Reducing latency in a detection system
CN103064728A (zh) * 2012-12-13 2013-04-24 河南工业大学 一种MapReduce任务的容错调度方法
CN107885577A (zh) * 2017-11-08 2018-04-06 滁州学院 一种基于任务主副本和重提交结合的云计算资源混合式容错调度方法
CN109783213A (zh) * 2018-12-28 2019-05-21 杭州电子科技大学 一种边缘计算环境下针对可靠性的工作流容错调度方法
CN109976890A (zh) * 2019-03-28 2019-07-05 东南大学 一种最小化异构私有云计算资源能耗的变频方法
CN110190991A (zh) * 2019-05-21 2019-08-30 华中科技大学 一种多应用场景下的分布式流处理系统的容错方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9436552B2 (en) * 2014-06-12 2016-09-06 International Business Machines Corporation Checkpoint triggering in a computer system

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009018526A1 (en) * 2007-08-02 2009-02-05 L-3 Communications Security And Detection Systems, Inc. Reducing latency in a detection system
CN103064728A (zh) * 2012-12-13 2013-04-24 河南工业大学 一种MapReduce任务的容错调度方法
CN107885577A (zh) * 2017-11-08 2018-04-06 滁州学院 一种基于任务主副本和重提交结合的云计算资源混合式容错调度方法
CN109783213A (zh) * 2018-12-28 2019-05-21 杭州电子科技大学 一种边缘计算环境下针对可靠性的工作流容错调度方法
CN109976890A (zh) * 2019-03-28 2019-07-05 东南大学 一种最小化异构私有云计算资源能耗的变频方法
CN110190991A (zh) * 2019-05-21 2019-08-30 华中科技大学 一种多应用场景下的分布式流处理系统的容错方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Mobile Edge Computing and Networking for Green and Low-Latency Internet of Things;Ke Zhang.et.al.;《IEEE Communications Magazine》;20180531;全文 *
边缘计算环境下应用驱动的网络延迟测量与优化技术;符永铨等;《计算机研究与发展》;20181231;第55卷(第3期);全文 *

Also Published As

Publication number Publication date
CN110780974A (zh) 2020-02-11

Similar Documents

Publication Publication Date Title
CN110780974B (zh) 一种移动边缘计算环境下面向工作流的容错调度方法
Hasan et al. Fault tolerance in cloud computing environment: A systematic survey
Sun et al. A new technique for efficient live migration of multiple virtual machines
CN104794015B (zh) 一种实时流计算流速感知弹性执行容错系统
Li et al. Real-time and dynamic fault-tolerant scheduling for scientific workflows in clouds
US10229008B2 (en) Increasing disaster resiliency by having a PoD backed up to other peer PoDs in a site or beyond
Amoon A fault-tolerant scheduling system for computational grids
CN105740085A (zh) 容错处理方法及装置
Meroufel et al. Adaptive time-based coordinated checkpointing for cloud computing workfl ows
CN106547607B (zh) 一种虚拟机动态迁移方法和装置
Tran et al. Proactive stateful fault-tolerant system for kubernetes containerized services
Kumar T et al. Intelligent fault-tolerant mechanism for data centers of cloud infrastructure
Meroufel et al. Optimization of checkpointing/recovery strategy in cloud computing with adaptive storage management
Li et al. Fault-Tolerant Scheduling for Scientific Workflow with Task Replication Method in Cloud.
Gupta et al. Dynamic fault tolerant scheduling with response time minimization for multiple failures in cloud
Luo et al. Exploiting redundancies to enhance schedulability in fault-tolerant and real-time distributed systems
Wu et al. An integrated security-aware job scheduling strategy for large-scale computational grids
Ibrahim et al. Improving mapreduce performance with progress and feedback based speculative execution
CN110928659B (zh) 一种具有自适应功能的数值水池系统远程多平台接入方法
Mahato Cpns based reliability modeling for on-demand computing based transaction processing
US11803440B2 (en) Automated methods and systems for troubleshooting and optimizing performance of applications running in a distributed computing system
Marahatta et al. Energy-aware fault-tolerant scheduling scheme based on intelligent prediction model for cloud data center
US20230176859A1 (en) Automated methods and systems for predicting behavior of a distributed application in response to a proposed change to the distributed application
Jing et al. Reliability-aware DAG scheduling with primary-backup in cloud computing
CN114915460A (zh) 一种面向容器云的异构动态扩缩容装置及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant