CN113778625B

CN113778625B - 一种跨云计算中心的多副本容错任务调度方法

Info

Publication number: CN113778625B
Application number: CN202111008470.9A
Authority: CN
Inventors: 付雄; 谈继凯; 王云; 邓松; 王俊昌
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-08-31
Filing date: 2021-08-31
Publication date: 2023-07-04
Anticipated expiration: 2041-08-31
Also published as: CN113778625A

Abstract

本发明涉及一种跨云计算中心的多副本容错任务调度方法，通过容器为云计算任务提供隔离环境，能够动态根据计算任务要求创建相应的容器，并通过关于计算任务副本的创建，引入容错机制，同时针对副本应用于区分计算任务的执行容器进行执行，保证了执行结果的准确性，并通过副本控制器为任务设置主要副本和备用副本进行容错，使得在计算任务出错或容器宕机时，云计算平台有更快的响应时间；同时设计通过概率算法为计算任务选择合适的容器执行，提高系统的稳定性和资源利用率；整个设计方案实现了系统计算任务的备份容错、以及云计算中心的负载均衡，提高整个云计算平台的资源利用效率、以及其可靠性和安全性。

Description

一种跨云计算中心的多副本容错任务调度方法

技术领域

本发明涉及一种跨云计算中心的多副本容错任务调度方法，属于云计算技术领域。

背景技术

随着并行计算、分布式计算的迅速发展，云计算平台可以将用户的计算任务进行分解，并分发给不同的主机进行计算。为了预防计算过程中发生故障导致的计算出错，云计算中心需要为每个计算主机配备一台备用的容错主机，当某台主机发生故障时，会在备用容错主机上重新执行原主机上的计算任务，用以保证最终的计算任务可以被正确完成。但这种做法也会带来一定的缺陷，例如：成本过高，需要为每个子系统配备备用主机，某些计算任务甚至可能需要多台备用主机；资源利用率过低，不同的子任务所需的物理资源也不同，对于一些所需资源不多的子任务，单独分配一台物理主机可能会导致资源浪费。

随着虚拟化技术的出现，通过硬件的虚拟化，可以实现在一台物理机上运行多个不同的操作系统，它们之间互不干扰，且大大提高了资源的使用效率，降低了成本，也为云计算的发展带来了新的机遇。但是随着虚拟化技术的不断发展，一种更加轻量级的虚拟化技术——容器，应运而生。传统的虚拟机技术是虚拟出一套硬件设备后，在这基础上实现一个完整的操作系统，最后在系统上再运行所需的应用程序；而容器内的应用进程直接运行于宿主的内核，容器内没有自己的内核，而且也没有进行硬件虚拟。因此容器要比传统虚拟机更为轻便，消耗更少的资源，这意味着可以在实现等同于虚拟机的效果的前提下，可以大大提高容错和迁移的效率，从而充分满足可靠性和实时性的要求。同时，由于不同的容器之间运行环境相互隔离，可以保证计算子任务的独立性。

发明内容

本发明所要解决的技术问题是提供一种跨云计算中心的多副本容错任务调度方法，在实现容错的基础上，动态为用户计算任务选择或创建符合任务需求的运行环境，并提高云计算平台整体的资源利用率。

本发明为了解决上述技术问题采用以下技术方案：本发明设计了一种跨云计算中心的多副本容错任务调度方法，基于不同位置分布设置各个分别由至少一个服务器组成的云计算中心、且各服务器上分别拥有至少一个容器，选择目标容器执行终端所承载的计算任务；多副本容错任务调度方法包括如下步骤：

步骤A.获得计算任务所对应的计算任务第一副本、计算任务第二副本，同时根据各云计算中心分别与终端之间的距离，按距离由小至大的顺序针对各云计算中心进行排序，并初始化参数n＝1，选择云计算中心排序中第n个云计算中心作为第一云计算中心，然后进入步骤B；

步骤B.分别针对执行计算任务所需的预设各个参考资源类型，获得计算任务对应参考资源类型的需求量与第一云计算中心中各容器分别对应该参考资源类型的拥有量之和的比值，即获得计算任务关于第一云计算中心分别对应该各参考资源类型的比值，并选择最大比值所对应的参考资源类型，作为计算任务所对应的主要资源类型，然后进入步骤C；

步骤C.判断第一云计算中心中是否存在各参考资源类型拥有量分别均不小于计算任务所对应相应参考资源类型需求量的容器，是则若该容器的数量等于1，则将该容器作为计算任务所对应的执行容器，并进入步骤F，若该容器的数量大于1，则进入步骤D；否则进入步骤G；

步骤D.针对满足步骤C判断的各容器按其对应主要资源类型的拥有量进行降序排序，并顺序选择前

数量个容器，作为计算任务所对应的各个待选容器，若待选容器的数量等于1，则将该待选容器作为计算任务所对应的执行容器，并进入步骤E；若待选容器的数量大于1，则根据各待选容器分别关于主要资源类型的被选概率，选择最大被选概率所对应的待选容器作为计算任务所对应的执行容器，并进入步骤E；其中，a表示预设百分比参数，A表示满足步骤C判断的容器的数量，/>

表示向上取整；

步骤E.判断满足步骤C判断的各容器中除计算任务所对应执行容器以外其余各容器中、是否存在属于除该执行容器所属服务器以外其它服务器的容器，是则若该容器的数量等于1，则将该容器作为计算任务第一副本所对应的执行容器，然后进入步骤H，若该容器的数量大于1，则针对该各个容器，应用步骤D的方法，选择其中最大被选概率所对应的容器作为计算任务第一副本所对应的执行容器，然后进入步骤H；否则进入步骤F；

步骤F.判断第一云计算中心中除计算任务所对应执行容器所属服务器以外、其余各服务器分别对应各参考资源类型的拥有量，是否满足计算任务第一副本对应各参考资源类型的需求量，是则由满足的各服务器分别按计算任务第一副本对应各参考资源类型的需求量分配相应资源构建各容器，若该构建容器的数量等于1，则将该构建容器作为计算任务第一副本所对应的执行容器，然后进入步骤H，若该构建容器的数量大于1，则针对该各个构建容器，应用步骤D的方法，选择其中最大被选概率所对应的构建容器作为计算任务第一副本所对应的执行容器，然后进入步骤H；否则定义计算任务第一副本所对应的执行容器为空，然后进入步骤H；

步骤G.判断第一云计算中心中各服务器分别对应各参考资源类型的拥有量，是否满足计算任务对应各参考资源类型的需求量，是则由满足的各服务器分别按计算任务对应各参考资源类型的需求量分配相应资源构建各容器，并针对该各个构建容器，引用步骤C至步骤F的方法，获得计算任务所对应的执行容器、以及计算任务第一副本所对应的执行容器，然后进入步骤H；否则定义计算任务所对应的执行容器为空，以及定义计算任务第一副本所对应的执行容器为空，然后进入步骤H；

步骤H.选择云计算中心排序中第n+1个云计算中心作为第二云计算中心，针对第二云计算中心，按步骤C至步骤G中获得计算任务所对应执行容器的方法，获得或更新计算任务第二副本所对应的执行容器，并进入步骤I；

步骤I.判断n+1是否等于云计算中心的总数，是则进入步骤J；否则进一步判断计算任务第二副本所对应的执行容器是否为空，是则针对n的值进行加1，并返回步骤H；否则直接进入步骤J；

步骤J.控制由计算任务所对应的执行容器针对计算任务进行执行，若执行计算任务成功，则取消计算任务第一副本所对应执行容器对计算任务第一副本的执行、以及取消计算任务第二副本所对应执行容器对计算任务第二副本的执行，方法结束；

若执行计算任务失败，控制由计算任务第一副本所对应执行容器对计算任务第一副本进行执行，若执行计算任务第一副本成功，则取消计算任务第二副本所对应执行容器对计算任务第二副本的执行，方法结束；

若执行计算任务第一副本失败，控制由计算任务第二副本所对应执行容器对计算任务第二副本进行执行，方法结束。

作为本发明的一种优选技术方案，所述步骤D中，按如下公式：

获得各待选容器分别关于主要资源类型的被选概率，其中，p_i表示云计算中心中第i个待选容器关于主要资源类型的被选概率，Res_i,rem表示云计算中心中第i个待选容器中所承载任务所需主要资源类型的剩余使用率，Res_j,rem表示云计算中心中第j个待选容器中所承载任务所需主要资源类型的剩余使用率,I表示云计算中心中待选容器的数量。

作为本发明的一种优选技术方案：所述预设各个参考资源类型包括单字长定点指令平均执行速度MIPS、随机存储RAM、带宽。

本发明所述一种跨云计算中心的多副本容错任务调度方法，采用以上技术方案与现有技术相比，具有以下技术效果：

本发明所设计一种跨云计算中心的多副本容错任务调度方法，引入容器思想，通过容器为云计算任务提供隔离环境，能够动态根据计算任务要求创建相应的容器，并通过关于计算任务副本的创建，引入容错机制，同时针对副本应用于区分计算任务的执行容器进行执行，保证了执行结果的准确性，并通过副本控制器为任务设置主要副本和备用副本进行容错，使得在计算任务出错或容器宕机时，云计算平台有更快的响应时间；同时设计通过概率算法为计算任务选择合适的容器执行，提高系统的稳定性和资源利用率；整个设计方案实现了系统计算任务的备份容错、以及云计算中心的负载均衡，提高整个云计算平台的资源利用效率、以及其可靠性和安全性。

附图说明

图1是本发明所设计跨云计算中心的多副本容错任务调度方法的流程示意图；

图2是本发明所设计跨云计算中心的多副本容错任务调度方法的应用架构示意图。

具体实施方式

下面结合说明书附图对本发明的具体实施方式作进一步详细的说明。

本发明设计了一种跨云计算中心的多副本容错任务调度方法，基于不同位置分布设置各个分别由至少一个服务器组成的云计算中心、且各服务器上分别拥有至少一个容器，选择目标容器执行终端所承载的计算任务；实际应用当中，如图1和图2所示，多副本容错任务调度方法具体执行如下步骤A至步骤：

步骤A.应用副本控制器，获得计算任务所对应的计算任务第一副本、计算任务第二副本，并结合计算任务发送至资源控制器；同时根据各云计算中心分别与终端之间的距离，按距离由小至大的顺序针对各云计算中心进行排序，并初始化参数n＝1，选择云计算中心排序中第n个云计算中心作为第一云计算中心，然后进入步骤B。

步骤B.分别针对执行计算任务所需预设诸如单字长定点指令平均执行速度MIPS(单位百万指令数/秒)、随机存储RAM(单位MB)、带宽(单位bit/s)的各个参考资源类型，获得计算任务对应参考资源类型的需求量与第一云计算中心中各容器分别对应该参考资源类型的拥有量之和的比值，即获得计算任务关于第一云计算中心分别对应该各参考资源类型的比值，并选择最大比值所对应的参考资源类型，作为计算任务所对应的主要资源类型，然后进入步骤C。

步骤C.资源控制器判断第一云计算中心中是否存在各参考资源类型拥有量分别均不小于计算任务所对应相应参考资源类型需求量的容器，是则若该容器的数量等于1，则将该容器作为计算任务所对应的执行容器，并进入步骤F，若该容器的数量大于1，则进入步骤D；否则进入步骤G。

步骤D.资源控制器针对满足步骤C判断的各容器按其对应主要资源类型的拥有量进行降序排序，并顺序选择前

数量个容器，作为计算任务所对应的各个待选容器，若待选容器的数量等于1，则将该待选容器作为计算任务所对应的执行容器，并进入步骤E；若待选容器的数量大于1，则按如下公式：

获得各待选容器分别关于主要资源类型的被选概率，根据各待选容器分别关于主要资源类型的被选概率，选择最大被选概率所对应的待选容器作为计算任务所对应的执行容器，并进入步骤E；其中，a表示预设百分比参数，A表示满足步骤C判断的容器的数量，

表示向上取整，p_i表示云计算中心中第i个待选容器关于主要资源类型的被选概率，Res_i,rem表示云计算中心中第i个待选容器中所承载任务所需主要资源类型的剩余使用率，Res_j,rem表示云计算中心中第j个待选容器中所承载任务所需主要资源类型的剩余使用率,I表示云计算中心中待选容器的数量。

步骤E.资源控制器判断满足步骤C判断的各容器中除计算任务所对应执行容器以外其余各容器中、是否存在属于除该执行容器所属服务器以外其它服务器的容器，是则若该容器的数量等于1，则将该容器作为计算任务第一副本所对应的执行容器，然后进入步骤H，若该容器的数量大于1，则针对该各个容器，应用步骤D的方法，选择其中最大被选概率所对应的容器作为计算任务第一副本所对应的执行容器，然后进入步骤H；否则进入步骤F。

步骤F.资源控制器判断第一云计算中心中除计算任务所对应执行容器所属服务器以外、其余各服务器分别对应各参考资源类型的拥有量，是否满足计算任务第一副本对应各参考资源类型的需求量，是则由满足的各服务器分别按计算任务第一副本对应各参考资源类型的需求量分配相应资源构建各容器，若该构建容器的数量等于1，则将该构建容器作为计算任务第一副本所对应的执行容器，然后进入步骤H，若该构建容器的数量大于1，则针对该各个构建容器，应用步骤D的方法，选择其中最大被选概率所对应的构建容器作为计算任务第一副本所对应的执行容器，然后进入步骤H；否则定义计算任务第一副本所对应的执行容器为空，然后进入步骤H。

步骤G.资源控制器判断第一云计算中心中各服务器分别对应各参考资源类型的拥有量，是否满足计算任务对应各参考资源类型的需求量，是则由满足的各服务器分别按计算任务对应各参考资源类型的需求量分配相应资源构建各容器，并针对该各个构建容器，引用步骤C至步骤F的方法，获得计算任务所对应的执行容器、以及计算任务第一副本所对应的执行容器，然后进入步骤H；否则定义计算任务所对应的执行容器为空，以及定义计算任务第一副本所对应的执行容器为空，然后进入步骤H。

步骤H.资源控制器选择云计算中心排序中第n+1个云计算中心作为第二云计算中心，针对第二云计算中心，按步骤C至步骤G中获得计算任务所对应执行容器的方法，获得或更新计算任务第二副本所对应的执行容器，并进入步骤I。

步骤I.判断n+1是否等于云计算中心的总数，是则进入步骤J；否则进一步判断计算任务第二副本所对应的执行容器是否为空，是则针对n的值进行加1，并返回步骤H；否则直接进入步骤J。

实际应用当中，当存在多个计算任务时，则依次分别针对各个计算任务，分别执行上述步骤A之步骤J的方法，实现跨云计算中心的多副本容错任务调度处理。

上述技术方案所设计跨云计算中心的多副本容错任务调度方法，通过容器为云计算任务提供隔离环境，能够动态根据计算任务要求创建相应的容器，并通过关于计算任务副本的创建，引入容错机制，同时针对副本应用于区分计算任务的执行容器进行执行，保证了执行结果的准确性，并通过副本控制器为任务设置主要副本和备用副本进行容错，使得在计算任务出错或容器宕机时，云计算平台有更快的响应时间；同时设计通过概率算法为计算任务选择合适的容器执行，提高系统的稳定性和资源利用率；整个设计方案实现了系统计算任务的备份容错、以及云计算中心的负载均衡，提高整个云计算平台的资源利用效率、以及其可靠性和安全性。

下面结合附图对本发明的实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.一种跨云计算中心的多副本容错任务调度方法，其特征在于：基于不同位置分布设置各个分别由至少一个服务器组成的云计算中心、且各服务器上分别拥有至少一个容器，选择目标容器执行终端所承载的计算任务；多副本容错任务调度方法包括如下步骤：

表示向上取整；

2.根据权利要求1所述一种跨云计算中心的多副本容错任务调度方法，其特征在于，所述步骤D中，按如下公式：

3.根据权利要求1或2所述一种跨云计算中心的多副本容错任务调度方法，其特征在于：所述预设各个参考资源类型包括单字长定点指令平均执行速度MIPS、随机存储RAM、带宽。