CN113778625A - 一种跨云计算中心的多副本容错任务调度方法 - Google Patents

一种跨云计算中心的多副本容错任务调度方法 Download PDF

Info

Publication number
CN113778625A
CN113778625A CN202111008470.9A CN202111008470A CN113778625A CN 113778625 A CN113778625 A CN 113778625A CN 202111008470 A CN202111008470 A CN 202111008470A CN 113778625 A CN113778625 A CN 113778625A
Authority
CN
China
Prior art keywords
task
copy
container
execution
computing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111008470.9A
Other languages
English (en)
Other versions
CN113778625B (zh
Inventor
付雄
谈继凯
王云
邓松
王俊昌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202111008470.9A priority Critical patent/CN113778625B/zh
Publication of CN113778625A publication Critical patent/CN113778625A/zh
Application granted granted Critical
Publication of CN113778625B publication Critical patent/CN113778625B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/4557Distribution of virtual machine instances; Migration and load balancing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45587Isolation or security of virtual machine instances
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明涉及一种跨云计算中心的多副本容错任务调度方法,通过容器为云计算任务提供隔离环境,能够动态根据计算任务要求创建相应的容器,并通过关于计算任务副本的创建,引入容错机制,同时针对副本应用于区分计算任务的执行容器进行执行,保证了执行结果的准确性,并通过副本控制器为任务设置主要副本和备用副本进行容错,使得在计算任务出错或容器宕机时,云计算平台有更快的响应时间;同时设计通过概率算法为计算任务选择合适的容器执行,提高系统的稳定性和资源利用率;整个设计方案实现了系统计算任务的备份容错、以及云计算中心的负载均衡,提高整个云计算平台的资源利用效率、以及其可靠性和安全性。

Description

一种跨云计算中心的多副本容错任务调度方法
技术领域
本发明涉及一种跨云计算中心的多副本容错任务调度方法,属于云计算技术领域。
背景技术
随着并行计算、分布式计算的迅速发展,云计算平台可以将用户的计算任务进行分解,并分发给不同的主机进行计算。为了预防计算过程中发生故障导致的计算出错,云计算中心需要为每个计算主机配备一台备用的容错主机,当某台主机发生故障时,会在备用容错主机上重新执行原主机上的计算任务,用以保证最终的计算任务可以被正确完成。但这种做法也会带来一定的缺陷,例如:成本过高,需要为每个子系统配备备用主机,某些计算任务甚至可能需要多台备用主机;资源利用率过低,不同的子任务所需的物理资源也不同,对于一些所需资源不多的子任务,单独分配一台物理主机可能会导致资源浪费。
随着虚拟化技术的出现,通过硬件的虚拟化,可以实现在一台物理机上运行多个不同的操作系统,它们之间互不干扰,且大大提高了资源的使用效率,降低了成本,也为云计算的发展带来了新的机遇。但是随着虚拟化技术的不断发展,一种更加轻量级的虚拟化技术——容器,应运而生。传统的虚拟机技术是虚拟出一套硬件设备后,在这基础上实现一个完整的操作系统,最后在系统上再运行所需的应用程序;而容器内的应用进程直接运行于宿主的内核,容器内没有自己的内核,而且也没有进行硬件虚拟。因此容器要比传统虚拟机更为轻便,消耗更少的资源,这意味着可以在实现等同于虚拟机的效果的前提下,可以大大提高容错和迁移的效率,从而充分满足可靠性和实时性的要求。同时,由于不同的容器之间运行环境相互隔离,可以保证计算子任务的独立性。
发明内容
本发明所要解决的技术问题是提供一种跨云计算中心的多副本容错任务调度方法,在实现容错的基础上,动态为用户计算任务选择或创建符合任务需求的运行环境,并提高云计算平台整体的资源利用率。
本发明为了解决上述技术问题采用以下技术方案:本发明设计了一种跨云计算中心的多副本容错任务调度方法,基于不同位置分布设置各个分别由至少一个服务器组成的云计算中心、且各服务器上分别拥有至少一个容器,选择目标容器执行终端所承载的计算任务;多副本容错任务调度方法包括如下步骤:
步骤A.获得计算任务所对应的计算任务第一副本、计算任务第二副本,同时根据各云计算中心分别与终端之间的距离,按距离由小至大的顺序针对各云计算中心进行排序,并初始化参数n=1,选择云计算中心排序中第n个云计算中心作为第一云计算中心,然后进入步骤B;
步骤B.分别针对执行计算任务所需的预设各个参考资源类型,获得计算任务对应参考资源类型的需求量与第一云计算中心中各容器分别对应该参考资源类型的拥有量之和的比值,即获得计算任务关于第一云计算中心分别对应该各参考资源类型的比值,并选择最大比值所对应的参考资源类型,作为计算任务所对应的主要资源类型,然后进入步骤C;
步骤C.判断第一云计算中心中是否存在各参考资源类型拥有量分别均不小于计算任务所对应相应参考资源类型需求量的容器,是则若该容器的数量等于1,则将该容器作为计算任务所对应的执行容器,并进入步骤F,若该容器的数量大于1,则进入步骤D;否则进入步骤G;
步骤D.针对满足步骤C判断的各容器按其对应主要资源类型的拥有量进行降序排序,并顺序选择前
Figure BDA0003237909480000021
数量个容器,作为计算任务所对应的各个待选容器,若待选容器的数量等于1,则将该待选容器作为计算任务所对应的执行容器,并进入步骤E;若待选容器的数量大于1,则根据各待选容器分别关于主要资源类型的被选概率,选择最大被选概率所对应的待选容器作为计算任务所对应的执行容器,并进入步骤E;其中,a表示预设百分比参数,A表示满足步骤C判断的容器的数量,
Figure BDA0003237909480000022
表示向上取整;
步骤E.判断满足步骤C判断的各容器中除计算任务所对应执行容器以外其余各容器中、是否存在属于除该执行容器所属服务器以外其它服务器的容器,是则若该容器的数量等于1,则将该容器作为计算任务第一副本所对应的执行容器,然后进入步骤H,若该容器的数量大于1,则针对该各个容器,应用步骤D的方法,选择其中最大被选概率所对应的容器作为计算任务第一副本所对应的执行容器,然后进入步骤H;否则进入步骤F;
步骤F.判断第一云计算中心中除计算任务所对应执行容器所属服务器以外、其余各服务器分别对应各参考资源类型的拥有量,是否满足计算任务第一副本对应各参考资源类型的需求量,是则由满足的各服务器分别按计算任务第一副本对应各参考资源类型的需求量分配相应资源构建各容器,若该构建容器的数量等于1,则将该构建容器作为计算任务第一副本所对应的执行容器,然后进入步骤H,若该构建容器的数量大于1,则针对该各个构建容器,应用步骤D的方法,选择其中最大被选概率所对应的构建容器作为计算任务第一副本所对应的执行容器,然后进入步骤H;否则定义计算任务第一副本所对应的执行容器为空,然后进入步骤H;
步骤G.判断第一云计算中心中各服务器分别对应各参考资源类型的拥有量,是否满足计算任务对应各参考资源类型的需求量,是则由满足的各服务器分别按计算任务对应各参考资源类型的需求量分配相应资源构建各容器,并针对该各个构建容器,引用步骤C至步骤F的方法,获得计算任务所对应的执行容器、以及计算任务第一副本所对应的执行容器,然后进入步骤H;否则定义计算任务所对应的执行容器为空,以及定义计算任务第一副本所对应的执行容器为空,然后进入步骤H;
步骤H.选择云计算中心排序中第n+1个云计算中心作为第二云计算中心,针对第二云计算中心,按步骤C至步骤G中获得计算任务所对应执行容器的方法,获得或更新计算任务第二副本所对应的执行容器,并进入步骤I;
步骤I.判断n+1是否等于云计算中心的总数,是则进入步骤J;否则进一步判断计算任务第二副本所对应的执行容器是否为空,是则针对n的值进行加1,并返回步骤H;否则直接进入步骤J;
步骤J.控制由计算任务所对应的执行容器针对计算任务进行执行,若执行计算任务成功,则取消计算任务第一副本所对应执行容器对计算任务第一副本的执行、以及取消计算任务第二副本所对应执行容器对计算任务第二副本的执行,方法结束;
若执行计算任务失败,控制由计算任务第一副本所对应执行容器对计算任务第一副本进行执行,若执行计算任务第一副本成功,则取消计算任务第二副本所对应执行容器对计算任务第二副本的执行,方法结束;
若执行计算任务第一副本失败,控制由计算任务第二副本所对应执行容器对计算任务第二副本进行执行,方法结束。
作为本发明的一种优选技术方案,所述步骤D中,按如下公式:
Figure BDA0003237909480000031
获得各待选容器分别关于主要资源类型的被选概率,其中,pi表示云计算中心中第i个待选容器关于主要资源类型的被选概率,Resi,rem表示云计算中心中第i个待选容器中所承载任务所需主要资源类型的剩余使用率,Resj,rem表示云计算中心中第j个待选容器中所承载任务所需主要资源类型的剩余使用率,I表示云计算中心中待选容器的数量。
作为本发明的一种优选技术方案:所述预设各个参考资源类型包括单字长定点指令平均执行速度MIPS、随机存储RAM、带宽。
本发明所述一种跨云计算中心的多副本容错任务调度方法,采用以上技术方案与现有技术相比,具有以下技术效果:
本发明所设计一种跨云计算中心的多副本容错任务调度方法,引入容器思想,通过容器为云计算任务提供隔离环境,能够动态根据计算任务要求创建相应的容器,并通过关于计算任务副本的创建,引入容错机制,同时针对副本应用于区分计算任务的执行容器进行执行,保证了执行结果的准确性,并通过副本控制器为任务设置主要副本和备用副本进行容错,使得在计算任务出错或容器宕机时,云计算平台有更快的响应时间;同时设计通过概率算法为计算任务选择合适的容器执行,提高系统的稳定性和资源利用率;整个设计方案实现了系统计算任务的备份容错、以及云计算中心的负载均衡,提高整个云计算平台的资源利用效率、以及其可靠性和安全性。
附图说明
图1是本发明所设计跨云计算中心的多副本容错任务调度方法的流程示意图;
图2是本发明所设计跨云计算中心的多副本容错任务调度方法的应用架构示意图。
具体实施方式
下面结合说明书附图对本发明的具体实施方式作进一步详细的说明。
本发明设计了一种跨云计算中心的多副本容错任务调度方法,基于不同位置分布设置各个分别由至少一个服务器组成的云计算中心、且各服务器上分别拥有至少一个容器,选择目标容器执行终端所承载的计算任务;实际应用当中,如图1和图2所示,多副本容错任务调度方法具体执行如下步骤A至步骤:
步骤A.应用副本控制器,获得计算任务所对应的计算任务第一副本、计算任务第二副本,并结合计算任务发送至资源控制器;同时根据各云计算中心分别与终端之间的距离,按距离由小至大的顺序针对各云计算中心进行排序,并初始化参数n=1,选择云计算中心排序中第n个云计算中心作为第一云计算中心,然后进入步骤B。
步骤B.分别针对执行计算任务所需预设诸如单字长定点指令平均执行速度MIPS(单位百万指令数/秒)、随机存储RAM(单位MB)、带宽(单位bit/s)的各个参考资源类型,获得计算任务对应参考资源类型的需求量与第一云计算中心中各容器分别对应该参考资源类型的拥有量之和的比值,即获得计算任务关于第一云计算中心分别对应该各参考资源类型的比值,并选择最大比值所对应的参考资源类型,作为计算任务所对应的主要资源类型,然后进入步骤C。
步骤C.资源控制器判断第一云计算中心中是否存在各参考资源类型拥有量分别均不小于计算任务所对应相应参考资源类型需求量的容器,是则若该容器的数量等于1,则将该容器作为计算任务所对应的执行容器,并进入步骤F,若该容器的数量大于1,则进入步骤D;否则进入步骤G。
步骤D.资源控制器针对满足步骤C判断的各容器按其对应主要资源类型的拥有量进行降序排序,并顺序选择前
Figure BDA0003237909480000053
数量个容器,作为计算任务所对应的各个待选容器,若待选容器的数量等于1,则将该待选容器作为计算任务所对应的执行容器,并进入步骤E;若待选容器的数量大于1,则按如下公式:
Figure BDA0003237909480000051
获得各待选容器分别关于主要资源类型的被选概率,根据各待选容器分别关于主要资源类型的被选概率,选择最大被选概率所对应的待选容器作为计算任务所对应的执行容器,并进入步骤E;其中,a表示预设百分比参数,A表示满足步骤C判断的容器的数量,
Figure BDA0003237909480000052
表示向上取整,pi表示云计算中心中第i个待选容器关于主要资源类型的被选概率,Resi,rem表示云计算中心中第i个待选容器中所承载任务所需主要资源类型的剩余使用率,Resj,rem表示云计算中心中第j个待选容器中所承载任务所需主要资源类型的剩余使用率,I表示云计算中心中待选容器的数量。
步骤E.资源控制器判断满足步骤C判断的各容器中除计算任务所对应执行容器以外其余各容器中、是否存在属于除该执行容器所属服务器以外其它服务器的容器,是则若该容器的数量等于1,则将该容器作为计算任务第一副本所对应的执行容器,然后进入步骤H,若该容器的数量大于1,则针对该各个容器,应用步骤D的方法,选择其中最大被选概率所对应的容器作为计算任务第一副本所对应的执行容器,然后进入步骤H;否则进入步骤F。
步骤F.资源控制器判断第一云计算中心中除计算任务所对应执行容器所属服务器以外、其余各服务器分别对应各参考资源类型的拥有量,是否满足计算任务第一副本对应各参考资源类型的需求量,是则由满足的各服务器分别按计算任务第一副本对应各参考资源类型的需求量分配相应资源构建各容器,若该构建容器的数量等于1,则将该构建容器作为计算任务第一副本所对应的执行容器,然后进入步骤H,若该构建容器的数量大于1,则针对该各个构建容器,应用步骤D的方法,选择其中最大被选概率所对应的构建容器作为计算任务第一副本所对应的执行容器,然后进入步骤H;否则定义计算任务第一副本所对应的执行容器为空,然后进入步骤H。
步骤G.资源控制器判断第一云计算中心中各服务器分别对应各参考资源类型的拥有量,是否满足计算任务对应各参考资源类型的需求量,是则由满足的各服务器分别按计算任务对应各参考资源类型的需求量分配相应资源构建各容器,并针对该各个构建容器,引用步骤C至步骤F的方法,获得计算任务所对应的执行容器、以及计算任务第一副本所对应的执行容器,然后进入步骤H;否则定义计算任务所对应的执行容器为空,以及定义计算任务第一副本所对应的执行容器为空,然后进入步骤H。
步骤H.资源控制器选择云计算中心排序中第n+1个云计算中心作为第二云计算中心,针对第二云计算中心,按步骤C至步骤G中获得计算任务所对应执行容器的方法,获得或更新计算任务第二副本所对应的执行容器,并进入步骤I。
步骤I.判断n+1是否等于云计算中心的总数,是则进入步骤J;否则进一步判断计算任务第二副本所对应的执行容器是否为空,是则针对n的值进行加1,并返回步骤H;否则直接进入步骤J。
步骤J.控制由计算任务所对应的执行容器针对计算任务进行执行,若执行计算任务成功,则取消计算任务第一副本所对应执行容器对计算任务第一副本的执行、以及取消计算任务第二副本所对应执行容器对计算任务第二副本的执行,方法结束;
若执行计算任务失败,控制由计算任务第一副本所对应执行容器对计算任务第一副本进行执行,若执行计算任务第一副本成功,则取消计算任务第二副本所对应执行容器对计算任务第二副本的执行,方法结束;
若执行计算任务第一副本失败,控制由计算任务第二副本所对应执行容器对计算任务第二副本进行执行,方法结束。
实际应用当中,当存在多个计算任务时,则依次分别针对各个计算任务,分别执行上述步骤A之步骤J的方法,实现跨云计算中心的多副本容错任务调度处理。
上述技术方案所设计跨云计算中心的多副本容错任务调度方法,通过容器为云计算任务提供隔离环境,能够动态根据计算任务要求创建相应的容器,并通过关于计算任务副本的创建,引入容错机制,同时针对副本应用于区分计算任务的执行容器进行执行,保证了执行结果的准确性,并通过副本控制器为任务设置主要副本和备用副本进行容错,使得在计算任务出错或容器宕机时,云计算平台有更快的响应时间;同时设计通过概率算法为计算任务选择合适的容器执行,提高系统的稳定性和资源利用率;整个设计方案实现了系统计算任务的备份容错、以及云计算中心的负载均衡,提高整个云计算平台的资源利用效率、以及其可靠性和安全性。
下面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims (3)

1.一种跨云计算中心的多副本容错任务调度方法,其特征在于:基于不同位置分布设置各个分别由至少一个服务器组成的云计算中心、且各服务器上分别拥有至少一个容器,选择目标容器执行终端所承载的计算任务;多副本容错任务调度方法包括如下步骤:
步骤A.获得计算任务所对应的计算任务第一副本、计算任务第二副本,同时根据各云计算中心分别与终端之间的距离,按距离由小至大的顺序针对各云计算中心进行排序,并初始化参数n=1,选择云计算中心排序中第n个云计算中心作为第一云计算中心,然后进入步骤B;
步骤B.分别针对执行计算任务所需的预设各个参考资源类型,获得计算任务对应参考资源类型的需求量与第一云计算中心中各容器分别对应该参考资源类型的拥有量之和的比值,即获得计算任务关于第一云计算中心分别对应该各参考资源类型的比值,并选择最大比值所对应的参考资源类型,作为计算任务所对应的主要资源类型,然后进入步骤C;
步骤C.判断第一云计算中心中是否存在各参考资源类型拥有量分别均不小于计算任务所对应相应参考资源类型需求量的容器,是则若该容器的数量等于1,则将该容器作为计算任务所对应的执行容器,并进入步骤F,若该容器的数量大于1,则进入步骤D;否则进入步骤G;
步骤D.针对满足步骤C判断的各容器按其对应主要资源类型的拥有量进行降序排序,并顺序选择前
Figure FDA0003237909470000011
数量个容器,作为计算任务所对应的各个待选容器,若待选容器的数量等于1,则将该待选容器作为计算任务所对应的执行容器,并进入步骤E;若待选容器的数量大于1,则根据各待选容器分别关于主要资源类型的被选概率,选择最大被选概率所对应的待选容器作为计算任务所对应的执行容器,并进入步骤E;其中,a表示预设百分比参数,A表示满足步骤C判断的容器的数量,
Figure FDA0003237909470000012
表示向上取整;
步骤E.判断满足步骤C判断的各容器中除计算任务所对应执行容器以外其余各容器中、是否存在属于除该执行容器所属服务器以外其它服务器的容器,是则若该容器的数量等于1,则将该容器作为计算任务第一副本所对应的执行容器,然后进入步骤H,若该容器的数量大于1,则针对该各个容器,应用步骤D的方法,选择其中最大被选概率所对应的容器作为计算任务第一副本所对应的执行容器,然后进入步骤H;否则进入步骤F;
步骤F.判断第一云计算中心中除计算任务所对应执行容器所属服务器以外、其余各服务器分别对应各参考资源类型的拥有量,是否满足计算任务第一副本对应各参考资源类型的需求量,是则由满足的各服务器分别按计算任务第一副本对应各参考资源类型的需求量分配相应资源构建各容器,若该构建容器的数量等于1,则将该构建容器作为计算任务第一副本所对应的执行容器,然后进入步骤H,若该构建容器的数量大于1,则针对该各个构建容器,应用步骤D的方法,选择其中最大被选概率所对应的构建容器作为计算任务第一副本所对应的执行容器,然后进入步骤H;否则定义计算任务第一副本所对应的执行容器为空,然后进入步骤H;
步骤G.判断第一云计算中心中各服务器分别对应各参考资源类型的拥有量,是否满足计算任务对应各参考资源类型的需求量,是则由满足的各服务器分别按计算任务对应各参考资源类型的需求量分配相应资源构建各容器,并针对该各个构建容器,引用步骤C至步骤F的方法,获得计算任务所对应的执行容器、以及计算任务第一副本所对应的执行容器,然后进入步骤H;否则定义计算任务所对应的执行容器为空,以及定义计算任务第一副本所对应的执行容器为空,然后进入步骤H;
步骤H.选择云计算中心排序中第n+1个云计算中心作为第二云计算中心,针对第二云计算中心,按步骤C至步骤G中获得计算任务所对应执行容器的方法,获得或更新计算任务第二副本所对应的执行容器,并进入步骤I;
步骤I.判断n+1是否等于云计算中心的总数,是则进入步骤J;否则进一步判断计算任务第二副本所对应的执行容器是否为空,是则针对n的值进行加1,并返回步骤H;否则直接进入步骤J;
步骤J.控制由计算任务所对应的执行容器针对计算任务进行执行,若执行计算任务成功,则取消计算任务第一副本所对应执行容器对计算任务第一副本的执行、以及取消计算任务第二副本所对应执行容器对计算任务第二副本的执行,方法结束;
若执行计算任务失败,控制由计算任务第一副本所对应执行容器对计算任务第一副本进行执行,若执行计算任务第一副本成功,则取消计算任务第二副本所对应执行容器对计算任务第二副本的执行,方法结束;
若执行计算任务第一副本失败,控制由计算任务第二副本所对应执行容器对计算任务第二副本进行执行,方法结束。
2.根据权利要求1所述一种跨云计算中心的多副本容错任务调度方法,其特征在于,所述步骤D中,按如下公式:
Figure FDA0003237909470000021
获得各待选容器分别关于主要资源类型的被选概率,其中,pi表示云计算中心中第i个待选容器关于主要资源类型的被选概率,Resi,rem表示云计算中心中第i个待选容器中所承载任务所需主要资源类型的剩余使用率,Resj,rem表示云计算中心中第j个待选容器中所承载任务所需主要资源类型的剩余使用率,I表示云计算中心中待选容器的数量。
3.根据权利要求1或2所述一种跨云计算中心的多副本容错任务调度方法,其特征在于:所述预设各个参考资源类型包括单字长定点指令平均执行速度MIPS、随机存储RAM、带宽。
CN202111008470.9A 2021-08-31 2021-08-31 一种跨云计算中心的多副本容错任务调度方法 Active CN113778625B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111008470.9A CN113778625B (zh) 2021-08-31 2021-08-31 一种跨云计算中心的多副本容错任务调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111008470.9A CN113778625B (zh) 2021-08-31 2021-08-31 一种跨云计算中心的多副本容错任务调度方法

Publications (2)

Publication Number Publication Date
CN113778625A true CN113778625A (zh) 2021-12-10
CN113778625B CN113778625B (zh) 2023-07-04

Family

ID=78840148

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111008470.9A Active CN113778625B (zh) 2021-08-31 2021-08-31 一种跨云计算中心的多副本容错任务调度方法

Country Status (1)

Country Link
CN (1) CN113778625B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114936086A (zh) * 2022-07-26 2022-08-23 之江实验室 一种多计算中心场景下的任务调度器、调度方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150178117A1 (en) * 2013-12-24 2015-06-25 Kt Corporation Selecting cloud computing resource based on fault tolerance and network efficiency
CN107885577A (zh) * 2017-11-08 2018-04-06 滁州学院 一种基于任务主副本和重提交结合的云计算资源混合式容错调度方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150178117A1 (en) * 2013-12-24 2015-06-25 Kt Corporation Selecting cloud computing resource based on fault tolerance and network efficiency
CN107885577A (zh) * 2017-11-08 2018-04-06 滁州学院 一种基于任务主副本和重提交结合的云计算资源混合式容错调度方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈志佳;朱元昌;邸彦强;冯少冲;: "云训练中基于自适应副本策略的容错研究", 微电子学与计算机, no. 02 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114936086A (zh) * 2022-07-26 2022-08-23 之江实验室 一种多计算中心场景下的任务调度器、调度方法及装置

Also Published As

Publication number Publication date
CN113778625B (zh) 2023-07-04

Similar Documents

Publication Publication Date Title
US10764125B2 (en) Method and device for training model in distributed system
US9542223B2 (en) Scheduling jobs in a cluster by constructing multiple subclusters based on entry and exit rules
CN107273185B (zh) 一种基于虚拟机的负载均衡控制方法
Jin et al. Adapt: Availability-aware mapreduce data placement for non-dedicated distributed computing
CN109582433B (zh) 一种资源调度方法、装置、云计算系统及存储介质
US20190220319A1 (en) Usage instrumented workload scheduling
CN111381950A (zh) 一种面向边缘计算环境基于多副本的任务调度方法和系统
CN107168770B (zh) 一种低能耗的云数据中心工作流调度与资源供给方法
CN112416585A (zh) 面向深度学习的gpu资源管理与智能化调度方法
Wang et al. An efficient and non-intrusive GPU scheduling framework for deep learning training systems
CN110990154B (zh) 一种大数据应用优化方法、装置及存储介质
Li et al. An effective scheduling strategy based on hypergraph partition in geographically distributed datacenters
CN107885577A (zh) 一种基于任务主副本和重提交结合的云计算资源混合式容错调度方法
CN104794239A (zh) 一种云平台数据处理方法
CN115599512A (zh) 在图形处理单元上调度作业
CN113778625B (zh) 一种跨云计算中心的多副本容错任务调度方法
CN113448714B (zh) 基于云平台的计算资源控制系统
Singh et al. Artificial Intelligence Based Virtual Machine Allocation and Migration Policy using Improved MBFD
CN107070965A (zh) 一种虚拟化容器资源下的多工作流资源供给方法
CN113608858A (zh) 一种基于MapReduce架构的数据同步用块任务执行系统
CN110928659B (zh) 一种具有自适应功能的数值水池系统远程多平台接入方法
Ibrahim et al. Improving mapreduce performance with progress and feedback based speculative execution
Marahatta et al. Energy-aware fault-tolerant scheduling scheme based on intelligent prediction model for cloud data center
CN108446165A (zh) 一种云计算中的任务预取方法
Huang et al. Improving speculative execution performance with coworker for cloud computing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant