CN110532090B - 私有云计算业务恢复调度方法及装置 - Google Patents

私有云计算业务恢复调度方法及装置 Download PDF

Info

Publication number
CN110532090B
CN110532090B CN201910756592.2A CN201910756592A CN110532090B CN 110532090 B CN110532090 B CN 110532090B CN 201910756592 A CN201910756592 A CN 201910756592A CN 110532090 B CN110532090 B CN 110532090B
Authority
CN
China
Prior art keywords
cloud computing
service
determining
computing service
resources
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910756592.2A
Other languages
English (en)
Other versions
CN110532090A (zh
Inventor
张�浩
郭子明
宁文元
施贵荣
赵淑珍
阎博
戚岳
穆永铮
李新鹏
张鹏
曹良晶
刘蒙
王伟
于磊
王旭升
王轶
吕铭刚
田新成
王双
宋轶
孙文宇
陈素华
张岩
李膨源
李烜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Jibei Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
State Grid Jibei Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Jibei Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN201910756592.2A priority Critical patent/CN110532090B/zh
Publication of CN110532090A publication Critical patent/CN110532090A/zh
Application granted granted Critical
Publication of CN110532090B publication Critical patent/CN110532090B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • G06F11/1464Management of the backup or restore process for networked environments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • G06F11/1469Backup restoration techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5072Grid computing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Hardware Redundancy (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种私有云计算业务恢复调度方法及装置,其中,该方法包括:在接收到私有云计算业务恢复调度触发指令时,获取私有云计算集群信息;根据私有云计算集群信息,确定私有云的存量资源;确定存量资源是否能满足所有云计算业务的运行需求;在确定存量资源不能满足所有云计算业务的运行需求时,循环执行确定最优待恢复云计算业务的步骤,直到找到所有最优待恢复云计算业务;该最优待恢复云计算业务为同等资源占用和约束条件下,可获得最大权重值的业务恢复组合。上述技术方案保障了云计算业务的全面持续性。

Description

私有云计算业务恢复调度方法及装置
技术领域
本发明涉及云计算技术领域,特别涉及一种私有云计算业务恢复调度方法及装置。
背景技术
目前,在实际系统运行过程中,可能出现私有云计算集群内失效资源过多等原因导致计算资源不足的情况,从而难以满足所有云计算业务的运行及恢复需求,从而导致难以保障云计算业务的全面持续性。
针对上述问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种私有云计算业务恢复调度方法,用以保障云计算业务的全面持续性,该方法包括:
在接收到私有云计算业务恢复调度触发指令时,获取私有云计算集群信息;所述私有云计算集群信息包括:私有云计算集群发生部分节点失效前的每一计算节点的资源量和运行的云计算业务,以及每一云计算业务对应的权重和运行需要占用的资源量;
根据私有云计算集群发生部分节点失效前所有计算节点的总资源量,以及所有失效节点的资源量总和,确定私有云的存量资源;
根据所有云计算业务运行需要占用的资源量,确定所述存量资源是否能满足所有云计算业务的运行需求;
在确定所述存量资源不能满足所有云计算业务的运行需求时,循环执行确定最优待恢复云计算业务的步骤,每个循环周期均执行以下操作:计算当前循环轮次的优选待恢复云计算业务集合信息;根据当前循环轮次的优选待恢复云计算业务集合信息,以及每一云计算业务对应的权重,确定当前循环轮次的最优待恢复云计算业务;直到找到所有最优待恢复云计算业务;所述最优待恢复云计算业务为同等资源占用和约束条件下,可获得最大权重值的业务恢复组合。
本发明实施例还提供了一种私有云计算业务恢复调度装置,用以保障云计算业务的全面持续性,该装置包括:
获取单元,用于在接收到私有云计算业务恢复调度触发指令时,获取私有云计算集群信息;所述私有云计算集群信息包括:私有云计算集群发生部分节点失效前的每一计算节点的资源量和运行的云计算业务,以及每一云计算业务对应的权重和运行需要占用的资源量;
存量资源确定单元,用于根据私有云计算集群发生部分节点失效前所有计算节点的总资源量,以及所有失效节点的资源量总和,确定私有云的存量资源;
运行需求判断单元,用于根据所有云计算业务运行需要占用的资源量,确定所述存量资源是否能满足所有云计算业务的运行需求;
调度单元,用于在确定所述存量资源不能满足所有云计算业务的运行需求时,循环执行确定最优待恢复云计算业务的步骤,每个循环周期均执行以下操作:计算当前循环轮次的优选待恢复云计算业务集合信息;根据当前循环轮次的优选待恢复云计算业务集合信息,以及每一云计算业务对应的权重,确定当前循环轮次的最优待恢复云计算业务;直到找到所有最优待恢复云计算业务;所述最优待恢复云计算业务为同等资源占用和约束条件下,可获得最大权重值的业务恢复组合。
本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述私有云计算业务恢复调度方法。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有执行私有云计算业务恢复调度方法的计算机程序。
本发明实施例提供的技术方案通过:在接收到私有云计算业务恢复调度触发指令时,获取私有云计算集群信息;根据私有云计算集群发生部分节点失效前所有计算节点的总资源量,以及所有失效节点的资源量总和,确定私有云的存量资源;根据所有云计算业务运行需要占用的资源量,确定所述存量资源是否能满足所有云计算业务的运行需求;在确定所述存量资源不能满足所有云计算业务的运行需求时,循环执行确定最优待恢复云计算业务的步骤,每个循环周期均执行以下操作:计算当前循环轮次的优选待恢复云计算业务集合信息;根据当前循环轮次的优选待恢复云计算业务集合信息,以及每一云计算业务对应的权重,确定当前循环轮次的最优待恢复云计算业务;直到找到所有最优待恢复云计算业务;该最优待恢复云计算业务为同等资源占用和约束条件下,可获得最大权重值的业务恢复组合,实现了在存量资源不能满足所有云计算业务的运行需求时,循环执行确定最优待恢复云计算业务的步骤,优先调度执行同等资源下最大权重值对应的恢复业务,从而最大限度保障了云计算业务的全面持续性。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的限定。在附图中:
图1是本发明实施例中私有云计算业务恢复调度方法的流程示意图;
图2是本发明又一实施例中私有云计算业务恢复调度方法的流程示意图;
图3是本发明实施例中私有云计算业务恢复调度装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施方式和附图,对本发明做进一步详细说明。在此,本发明的示意性实施方式及其说明用于解释本发明,但并不作为对本发明的限定。
在介绍本发明实例提供的方案之前,首先对本发明涉及的技术名称进行介绍。
1、资源:可以是物理的计算或存储单位,例如:各类CPU或GPU芯片、计算板卡、计算设备、内存、存储空间等,也可以是虚拟的计算能力单位,例如:各类虚拟计算单元、软件、功能、计算线程或进程等。仅需要选取一个可量化的单位即可采用本方法进行计算。
2、业务恢复:业务是需要处理的事物或专业工作。业务恢复是指业务的正常实施或运转状态被改变后,再次回到正常实施或运转状态。例如:某个功能、设备、芯片、板卡、程序、部件等正常运行或运转,由于元件故障等原因其正常运行或运转被改变后,需要回到正常运行或运转状态。
3、云计算业务本体和云计算业务备份(分别简称为“业务本体”和“业务备份”):业务备份和业务本体都是业务,对于一个业务而言,它的业务本体和业务备份实现相同的功能或目标。在业务本体正常运行时,业务结果以业务本体为准;在业务本体失效后,选择任意一个业务备份作为业务本体。这种通过业务备份和业务本体同步运行的方式可以实现业务的持续可靠运行。
发明人发现:私有云计算通常会对云计算业务进行备份以保证其可靠性,当私有云计算集群内的一个或多个节点失效时,会通过节点业务调度保障各云计算业务的运行需求。在实际系统运行过程中,可能出现私有云计算集群内失效资源过多等原因导致计算资源不足的情况,从而难以满足所有业务本体及业务备份的恢复需求。
由于发明人发现以上技术问题,提出了一种私有云计算业务恢复调度方案,该方案实现了在优先保障云计算业务全面持续性的基础上,同时最大限度恢复重要的业务备份以保障系统的可靠性。下面对该私有云计算业务恢复调度方案进行详细介绍如下。
图1是本发明实施例中私有云计算业务恢复调度方法的流程示意图,如图1所示,该方法包括如下步骤:
步骤201:在接收到私有云计算业务恢复调度触发指令时,获取私有云计算集群信息;所述私有云计算集群信息包括:私有云计算集群发生部分节点失效前的每一计算节点的资源量和运行的云计算业务,以及每一云计算业务对应的权重和运行需要占用的资源量;
步骤203:根据私有云计算集群发生部分节点失效前所有计算节点的总资源量,以及所有失效节点的资源量总和,确定私有云的存量资源;
步骤205:根据所有云计算业务运行需要占用的资源量,确定所述存量资源是否能满足所有云计算业务的运行需求;
步骤207:在确定所述存量资源不能满足所有云计算业务的运行需求时,循环执行确定最优待恢复云计算业务的步骤,每个循环周期均执行以下操作:计算当前循环轮次的优选待恢复云计算业务集合信息;根据当前循环轮次的优选待恢复云计算业务集合信息,以及每一云计算业务对应的权重,确定当前循环轮次的最优待恢复云计算业务;直到找到所有最优待恢复云计算业务;所述最优待恢复云计算业务为同等资源占用和约束条件下,可获得最大权重值的业务恢复组合。
本发明实施例提供的技术方案通过:在接收到私有云计算业务恢复调度触发指令时,获取私有云计算集群信息;根据私有云计算集群发生部分节点失效前所有计算节点的总资源量,以及所有失效节点的资源量总和,确定私有云的存量资源;根据所有云计算业务运行需要占用的资源量,确定所述存量资源是否能满足所有云计算业务的运行需求;在确定所述存量资源不能满足所有云计算业务的运行需求时,循环执行确定最优待恢复云计算业务的步骤,每个循环周期均执行以下操作:计算当前循环轮次的优选待恢复云计算业务集合信息;根据当前循环轮次的优选待恢复云计算业务集合信息,以及每一云计算业务对应的权重,确定当前循环轮次的最优待恢复云计算业务;直到找到所有最优待恢复云计算业务;该最优待恢复云计算业务为同等资源占用和约束条件下,可获得最大权重值的业务恢复组合,实现了在存量资源不能满足所有云计算业务的运行需求时,循环执行确定最优待恢复云计算业务的步骤,优先调度执行同等资源下最大权重值对应的恢复业务,从而最大限度保障了云计算业务的全面持续性。
下面结合附图2,详细介绍本发明实施例涉及的各个步骤。
一、首先介绍上述步骤201。
在上述步骤201中,首先,系统有业务恢复调度需求,启动业务恢复调度计算,具体实施时,该私有云计算业务恢复调度方法可以为一种可周期执行的方法,可以定时、定周期启动,以动态的优化调度各项业务,也可以根据需要触发启动,按需对业务进行调度。其次,获取私有云计算集群相关信息,包括集群发生部分节点失效前的集群各节点资源、运行的计算业务、以及各业务对应的权重和占用资源信息等。
二、其次介绍上述步骤203。
具体实施时,私有云计算集群发生部分节点失效前所有计算节点的总资源量可以根据私有云计算集群发生部分节点失效前的每一计算节点的资源量的累加得到。
在一个实施例中,根据私有云计算集群发生部分节点失效前所有计算节点的总资源量,以及所有失效节点的资源量总和,确定私有云的存量资源,可以包括:根据私有云计算集群发生部分节点失效前所有计算节点的总资源量,所有失效节点的资源量总和,以及系统可靠性系数,确定私有云的存量资源。
具体实施时,在计算私有云的存量资源时,考虑了系统可靠性系数,保证了系统运行的稳定性。
在一个实施例中,根据私有云计算集群发生部分节点失效前所有计算节点的总资源量,以及所有失效节点的资源量总和,确定私有云的存量资源,可以包括:按照如下公式,确定私有云的存量资源:
Sa=α×(Sall-Sb); (1)
式中,Sa为私有云计算集群在部分节点失效后的存量资源;Sall为私有云计算集群发生节点失效前所有计算节点的总资源;Sb为所有失效节点的资源之和;α为系统可靠系数,优选取值0.3~0.95,根据发明人大量的实验表明,系统可靠系数优选取值为0.8。
三、再次介绍上述步骤205。
在上述步骤205中,可以对每一云计算业务运行需要占用的资源量进行累加,得到所有云计算业务运行需要占用的资源量(如下面公式(2)右半部分所示)。该步骤205为判断存量资源是否能保障所有业务运行的步骤。
在一个实施例中,根据所有云计算业务运行需要占用的资源量,确定所述存量资源是否能满足所有云计算业务的运行需求,可以包括:
根据所有云计算业务运行需要占用的资源量,确定所述存量资源是否能满足所有云计算业务本体的运行需求;
在确定所述存量资源不能满足所有云计算业务的运行需求时,循环执行确定最优待恢复云计算业务的步骤,可以包括:
在确定存量资源不能恢复所有业务本体时,执行所述循环执行确定最优待恢复云计算业务的步骤(详见下面步骤207的介绍);所述最优待恢复云计算业务包括:最优待恢复云计算业务本体。
在一个实施例中,根据所有云计算业务本体运行需要占用的资源量,确定所述存量资源是否能满足所有云计算业务本体的运行需求,可以包括:按照如下公式确定所述存量资源是否能满足所有云计算业务本体的运行需求,即判断下式(2)是否成立:
Figure BDA0002168925220000061
式中,rwork-j为第j项业务运行需要占用的资源;n为业务数量。如图2所示,若是,进入步骤S105-S106;若否,则进入步骤S107-S112。
接着考虑最大限度恢复重要业务备份以保障系统可靠性的步骤(即上述提到的步骤S105-S106)。
在一个实施例中,根据所有云计算业务运行需要占用的资源量,确定所述存量资源是否能满足所有云计算业务的运行需求,可以包括:
在确定存量资源能满足所有云计算业务本体运行需求时,恢复所有云计算业务本体,确定更新的存量资源;
判断更新的存量资源是否能恢复所有业务备份;
在确定所述存量资源不能满足所有云计算业务的运行需求时,循环执行确定最优待恢复云计算业务的步骤,可以包括:
在确定更新的存量资源不能恢复所有业务备份时,执行所述循环执行确定最优待恢复云计算业务的步骤(详见下面步骤207的介绍);所述最优待恢复云计算业务包括:最优待恢复云计算业务备份。
具体实施时,通过应用该实施例的技术方案,实现了在优先保障私有云计算业务的全面持续性的基础上,同时最大限度恢复重要业务的备份以保障系统的可靠性。
具体实施时,本发明实施例中的业务包括:业务本体和业务备份,在计算过程中进行了区分,即在图2中,步骤S107-S112中的“业务”可以是:业务本体或业务备份。
具体实施时,如图2所示,首先,在确定存量资源能满足所有云计算业务本体运行需求时,恢复所有业务本体,具体地,对每一项业务本体进行校核,确认其是否正常运行,对未运行的业务予以恢复,保障每个业务都有一个业务本体在运行,并更新存量资源,可以按照如下公式,计算更新的存量资源Sc
Figure BDA0002168925220000071
式中,Sc为更新的存量资源。
具体实施时,恢复过程中若空闲资源不足,可中止部分业务备份来调度资源,优先中止正在运行的数量最多的业务备份,正在运行的业务备份数量相同时按业务权重递增顺序并辅助业务序号递增的顺序中止。该方案保证了系统运行的稳定性,保障了私有云计算业务的全面持续性。
具体实施时,如图2所示,其次,判断更新的存量资源是否能恢复所有业务备份,具体地,可以按照如下公式判断更新的存量资源是否能恢复所有业务备份,即判断下式(4)是否成立:
Figure BDA0002168925220000081
式中,m为每个业务的备份数量。如图2所示,若是,进入步骤S113输出调度结果;若否,则进入步骤S107-S112。
四、接着介绍步骤207,该步骤为循环执行确定最优待恢复云计算业务的步骤,即在资源不足的情况下,找到整体价值最高的业务恢复方法(即上述提到的步骤S107-S112,见图2)。
1、首先,配置循环计算初始信息(见图2中的S107)。
具体实施时,可以按照如下公式配置循环计算初始信息:
Figure BDA0002168925220000082
式中,r0为循环计算初始资源;D()表示对括号内的数据不进行舍入直接取整;S0为循环计算初始存量资源,当S107由S104触发(由判断存量资源是否能恢复业务本体的步骤触发)而来时,S0=Sa,当S107由S106(由判断存量资源是否能恢复业务备份的步骤触发)触发而来时,S0=Sc
2、其次,计算本轮次(当前轮次)可恢复(待恢复)业务信息(见图2中的S108)。
具体实施时,可以按照如下公式确定可恢复业务信息:
Figure BDA0002168925220000083
Figure BDA0002168925220000084
式中:
Figure BDA0002168925220000085
表示第i-1轮次计算中选择恢复业务gi-1所需的资源;ri-1为计算到第i-1轮次时的存量资源,且有
Figure BDA0002168925220000086
pi为计算到第i轮次时的资源信息及前i-1轮次的累计选择恢复业务信息;用Gi表示进行第i轮次计算时,对应的备选业务集合,U(Gi)为Gi的优选业务集合(优选待恢复云计算业务集合)。
3、再次,进行优化计算,并记录每个ri及所选的业务gi(见图2中S109)。
具体实施时,可以按照如下公式确定最优待恢复云计算业务:
Figure BDA0002168925220000087
Figure BDA0002168925220000091
式中:Pi表示可能的pi的集合;W[]表示方括号中的业务信息,以及业务对应的权重信息和所需资源信息;Ti(pi)按照权重值进行筛选,得到同等资源下最大权重值对应的业务信息;
Figure BDA0002168925220000092
表示所有可能Ti(pi)的优选结果。
4、接着,介绍循环终止条件的步骤(见图2中的S110)。
具体实施时,判断计算轮次是否与业务数量相同。如图2所示,若是,则进入步骤S112;若否,进入步骤S111。
具体实施时,步骤S111为循环进入下一轮次的业务计算,转入图2中的S108。步骤S112为业务选择的步骤,即对于每一项业务,包括业务本体和业务备份在内,其对应的最终运行数量为:
Figure BDA0002168925220000093
式中,H为某一项业务最终运行的数量;若T(Pi)中包含该业务,则{h|h∈T(Pi)}=1,否则{h|h∈T(Pi)}=0。
具体实施时,上述业务选择的含义是:根据前面计算的结果,将结果对应的业务选出来。因为结果是包含了业务信息的,但是不只是业务信息,可能还有别的信息,但是这些信息并不关键。所以需要做一个简单的对应和选择,从而找到最优待恢复云计算业务。
具体实施时,举一例子,说明上述最终运行的数量的含义是:通过应用本发明实施例提供的私有云计算业务恢复调度方法,恢复了最大价值的业务和数量。如果资源不够,那么一定会有一些业务没有恢复。那么,某个业务最终到底恢复了多少个(包括备份),通过上述公式(10)即可确定出到底恢复多少个业务(包括业务本体和业务备份)。例如:某个私有云内有4个业务:A、B、C、D,假设每个业务都有2个备份。那么在资源足够的情况下,每个业务都同时有3个在运行(1个业务本体,2个业务备份)。现在因为故障,要恢复,资源不够了,通过计算,得出结果是A和B业务恢复到故障前状态,也就是每个业务有3个运行。C和D业务由于资源不够,只能每个业务有2个运行。那对于A和B而言,其最终运行的数量就是3,对于C和D而言,其最终运行的数量就是2。下面的“实例”包括了另一个业务恢复计算过程的介绍。
图2中所示的步骤S113为输出调度结果的步骤。
本发明是一种私有云计算业务恢复调度方法,该方法实现了在优先保障私有云计算业务的全面持续性的基础上,同时最大限度恢复重要业务的备份以保障系统的可靠性,可以用于云计算的业务调度方法研究。
下面再结合图2举一“实例”,以说明本发明如何实施。
假设某私有云计算系统中包含15项业务,即n=15。某一运行业务占用4颗型号为AMD Opteron(tm)Processor 3344、主频为2.9GHz、12核CPU的60%计算资源。为便于计算,以该业务占用的计算资源为一个量化单位,假设每项业务均由大量占用资源极小的线程组成,各线程均可配置在不同CPU上,即业务可依据CPU的计算资源任意划分。每项业务均有另外两个业务备份同时运行,即m=2。私有云总计算资源为240,即Sall=240。失效损失资源110,即Sb=110。以表1所示业务计算信息为例。
表1私有云运行业务表
Figure BDA0002168925220000101
根据本发明所述方法,实现步骤如下:
启动计算,获取私有云计算集群相关信息,计算存量资源:
Sa=α×(Sall-Sb);
其中,α选用0.8,得Sa=0.8×(240-110)=104;
判断存量资源是否能保障所有业务运行。计算
Figure BDA0002168925220000102
满足下式:
Figure BDA0002168925220000103
不考虑业务备份的情况下,恢复所有业务本体,计算Sc
Figure BDA0002168925220000111
判断更新的存量资源是否足够恢复所有业务备份,计算
Figure BDA0002168925220000112
下方判别式不成立:
Figure BDA0002168925220000113
配置循环计算初始信息。循环计算初始资源如下式所示:
Figure BDA0002168925220000114
设从第1轮次进行可恢复业务信息计算,定义p0=φ,rg0=φ有:
p1={(25.48),(φ)};
U(G1)=G1={A;B;C;D;E;F;G;H;I;J;K;L;M;N;O}
计算最优函数T1(p1),定义T0(p0)=φ,有:
Figure BDA0002168925220000115
T(P1)={(E,9.53,6.03);}。
可见,由于第1轮次计算前没有任何选择可能,U(G1)与G1相同,为任意可选业务,是一个包括所有业务的集合;p1仅为单信息一种可能,而非多种可能信息组成的信息矩阵,而对应的T1(p1)也仅为一个可能的数据组,而非多种可能的数据组矩阵。
接着进行第2轮次的计算时,对应该轮次每一个p2,分别与各T1(p1)进行组合计算。这样求出T(P2),确定当前循环轮次的最优待恢复云计算业务,并进而求取各轮次最优结果T(Pi),即确定了每一循环轮次的最优待恢复云计算业务。
本例中获得T(P15)={(ABCEFGLMNO,37.14,25.11);},即得到了所有最优待恢复云计算业务,并结束轮次循环计算。
恢复业务选择计算。对每一项业务进行H函数计算,则其业务备份数量为H-1个。得出表2所示优化计算后运行业务表,按照该优化计算后运行业务表进行云计算业务恢复调度,在优先保障私有云计算业务的全面持续性的基础上,同时最大限度恢复重要业务的备份以保障系统的可靠性。
表2优化计算后运行业务表
Figure BDA0002168925220000121
依据计算结果,D、H、I、J、K几个业务仅恢复了1个业务备份,其余的业务均能恢复2个业务备份。
综上所述,本发明实施例提供的私有云计算业务恢复调度方案实现了在优先保障私有云计算业务的全面持续性的基础上,同时最大限度恢复重要业务的备份以保障系统的可靠性。
基于同一发明构思,本发明实施例中还提供了一种私有云计算业务恢复调度装置,如下面的实施例。由于私有云计算业务恢复调度装置解决问题的原理与上述私有云计算业务恢复调度方法相似,因此私有云计算业务恢复调度装置的实施可以参考上述私有云计算业务恢复调度方法的实施,重复之处不再赘述。以下所使用的,术语“模块”或者“单元”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图3是本发明实施例中私有云计算业务恢复调度装置的结构示意图,如图3所示,该装置包括:
获取单元01,用于在接收到私有云计算业务恢复调度触发指令时,获取私有云计算集群信息;所述私有云计算集群信息包括:私有云计算集群发生部分节点失效前的每一计算节点的资源量和运行的云计算业务,以及每一云计算业务对应的权重和运行需要占用的资源量;
存量资源确定单元03,用于根据私有云计算集群发生部分节点失效前所有计算节点的总资源量,以及所有失效节点的资源量总和,确定私有云的存量资源;
运行需求判断单元05,用于根据所有云计算业务运行需要占用的资源量,确定所述存量资源是否能满足所有云计算业务的运行需求;
调度单元07,用于在确定所述存量资源不能满足所有云计算业务的运行需求时,循环执行确定最优待恢复云计算业务的步骤,每个循环周期均执行以下操作:计算当前循环轮次的优选待恢复云计算业务集合信息;根据当前循环轮次的优选待恢复云计算业务集合信息,以及每一云计算业务对应的权重,确定当前循环轮次的最优待恢复云计算业务;直到找到所有最优待恢复云计算业务;所述最优待恢复云计算业务为同等资源占用和约束条件下,可获得最大权重值的业务恢复组合。
在一个实施例中,运行需求判断单元具体可以用于:
根据所有云计算业务运行需要占用的资源量,确定所述存量资源是否能满足所有云计算业务本体的运行需求;
调度单元具体可以用于:
在确定存量资源不能恢复所有业务本体时,执行所述循环执行确定最优待恢复云计算业务的步骤;所述最优待恢复云计算业务包括:最优待恢复云计算业务本体。
在一个实施例中,运行需求判断单元还可以用于:
在确定存量资源能满足所有云计算业务本体运行需求时,恢复所有云计算业务本体,确定更新的存量资源;
判断更新的存量资源是否能恢复所有业务备份;
调度单元还可以用于:
在确定更新的存量资源不能恢复所有业务备份时,执行所述循环执行确定最优待恢复云计算业务的步骤;所述最优待恢复云计算业务包括:最优待恢复云计算业务备份。
在一个实施例中,存量资源确定单元具体可以用于:根据私有云计算集群发生部分节点失效前所有计算节点的总资源量,所有失效节点的资源量总和,以及系统可靠性系数,确定私有云的存量资源。
在一个实施例中,可以按照如下公式配置循环执行确定最优待恢复云计算业务的步骤的初始资源信息:
Figure BDA0002168925220000131
其中,r0为循环计算初始资源信息,D()表示对括号内的数据不进行舍入直接取整,S0为循环计算初始存量资源,rwork-j为第j项业务运行需要占用的资源,n为业务数量。
本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述私有云计算业务恢复调度方法。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有执行私有云计算业务恢复调度方法的计算机程序。
本发明实施提供的技术方案的有益技术效果为:上述技术方案实现了在优先保障私有云计算业务的全面持续性的基础上,同时最大限度恢复重要业务的备份以保障系统的可靠性。
显然,本领域的技术人员应该明白,上述的本发明实施例的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明实施例不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种私有云计算业务恢复调度方法,其特征在于,包括:
在接收到私有云计算业务恢复调度触发指令时,获取私有云计算集群信息;所述私有云计算集群信息包括:私有云计算集群发生部分节点失效前的每一计算节点的资源量和运行的云计算业务,以及每一云计算业务对应的权重和运行需要占用的资源量;
根据私有云计算集群发生部分节点失效前所有计算节点的总资源量,以及所有失效节点的资源量总和,确定私有云的存量资源;私有云计算集群发生部分节点失效前所有计算节点的总资源量根据私有云计算集群发生部分节点失效前的每一计算节点的资源量的累加得到;
根据所有云计算业务运行需要占用的资源量,确定所述存量资源是否能满足所有云计算业务的运行需求;
在确定所述存量资源不能满足所有云计算业务的运行需求时,循环执行确定最优待恢复云计算业务的步骤,每个循环周期均执行以下操作:计算当前循环轮次的优选待恢复云计算业务集合信息;根据当前循环轮次的优选待恢复云计算业务集合信息,以及每一云计算业务对应的权重,确定当前循环轮次的最优待恢复云计算业务;直到找到所有最优待恢复云计算业务;所述最优待恢复云计算业务为同等资源占用和约束条件下,可获得最大权重值的业务恢复组合;
所述私有云计算业务恢复调度方法为一种可周期执行的方法。
2.如权利要求1所述的私有云计算业务恢复调度方法,其特征在于,根据所有云计算业务运行需要占用的资源量,确定所述存量资源是否能满足所有云计算业务的运行需求,包括:
根据所有云计算业务运行需要占用的资源量,确定所述存量资源是否能满足所有云计算业务本体的运行需求;
在确定所述存量资源不能满足所有云计算业务的运行需求时,循环执行确定最优待恢复云计算业务的步骤,包括:
在确定存量资源不能恢复所有业务本体时,执行所述循环执行确定最优待恢复云计算业务的步骤;所述最优待恢复云计算业务包括:最优待恢复云计算业务本体。
3.如权利要求2所述的私有云计算业务恢复调度方法,其特征在于,根据所有云计算业务运行需要占用的资源量,确定所述存量资源是否能满足所有云计算业务的运行需求,包括:
在确定存量资源能满足所有云计算业务本体运行需求时,恢复所有云计算业务本体,确定更新的存量资源;
判断更新的存量资源是否能恢复所有业务备份;
在确定所述存量资源不能满足所有云计算业务的运行需求时,循环执行确定最优待恢复云计算业务的步骤,包括:
在确定更新的存量资源不能恢复所有业务备份时,执行所述循环执行确定最优待恢复云计算业务的步骤;所述最优待恢复云计算业务包括:最优待恢复云计算业务备份。
4.如权利要求1所述的私有云计算业务恢复调度方法,其特征在于,根据私有云计算集群发生部分节点失效前所有计算节点的总资源量,以及所有失效节点的资源量总和,确定私有云的存量资源,包括:根据私有云计算集群发生部分节点失效前所有计算节点的总资源量,所有失效节点的资源量总和,以及系统可靠性系数,确定私有云的存量资源。
5.如权利要求1所述的私有云计算业务恢复调度方法,其特征在于,按照如下公式配置循环执行确定最优待恢复云计算业务的步骤的初始资源信息:
Figure FDA0003491630300000021
其中,r0为循环计算初始资源信息,D()表示对括号内的数据不进行舍入直接取整,S0为循环计算初始存量资源,rwork-j为第j项业务运行需要占用的资源,n为业务数量。
6.一种私有云计算业务恢复调度装置,其特征在于,包括:
获取单元,用于在接收到私有云计算业务恢复调度触发指令时,获取私有云计算集群信息;所述私有云计算集群信息包括:私有云计算集群发生部分节点失效前的每一计算节点的资源量和运行的云计算业务,以及每一云计算业务对应的权重和运行需要占用的资源量;
存量资源确定单元,用于根据私有云计算集群发生部分节点失效前所有计算节点的总资源量,以及所有失效节点的资源量总和,确定私有云的存量资源;私有云计算集群发生部分节点失效前所有计算节点的总资源量根据私有云计算集群发生部分节点失效前的每一计算节点的资源量的累加得到;
运行需求判断单元,用于根据所有云计算业务运行需要占用的资源量,确定所述存量资源是否能满足所有云计算业务的运行需求;
调度单元,用于在确定所述存量资源不能满足所有云计算业务的运行需求时,循环执行确定最优待恢复云计算业务的步骤,每个循环周期均执行以下操作:计算当前循环轮次的优选待恢复云计算业务集合信息;根据当前循环轮次的优选待恢复云计算业务集合信息,以及每一云计算业务对应的权重,确定当前循环轮次的最优待恢复云计算业务;直到找到所有最优待恢复云计算业务;所述最优待恢复云计算业务为同等资源占用和约束条件下,可获得最大权重值的业务恢复组合;
所述私有云计算业务恢复调度装置为一种可周期执行的装置。
7.如权利要求6所述的私有云计算业务恢复调度装置,其特征在于,所述运行需求判断单元具体用于:
根据所有云计算业务运行需要占用的资源量,确定所述存量资源是否能满足所有云计算业务本体的运行需求;
所述调度单元具体用于:
在确定存量资源不能恢复所有业务本体时,执行所述循环执行确定最优待恢复云计算业务的步骤;所述最优待恢复云计算业务包括:最优待恢复云计算业务本体。
8.如权利要求7所述的私有云计算业务恢复调度装置,其特征在于,所述运行需求判断单元还用于:
在确定存量资源能满足所有云计算业务本体运行需求时,恢复所有云计算业务本体,确定更新的存量资源;
判断更新的存量资源是否能恢复所有业务备份;
所述调度单元还用于:
在确定更新的存量资源不能恢复所有业务备份时,执行所述循环执行确定最优待恢复云计算业务的步骤;所述最优待恢复云计算业务包括:最优待恢复云计算业务备份。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5任一所述方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有执行权利要求1至5任一所述方法的计算机程序。
CN201910756592.2A 2019-08-16 2019-08-16 私有云计算业务恢复调度方法及装置 Active CN110532090B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910756592.2A CN110532090B (zh) 2019-08-16 2019-08-16 私有云计算业务恢复调度方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910756592.2A CN110532090B (zh) 2019-08-16 2019-08-16 私有云计算业务恢复调度方法及装置

Publications (2)

Publication Number Publication Date
CN110532090A CN110532090A (zh) 2019-12-03
CN110532090B true CN110532090B (zh) 2022-03-15

Family

ID=68663353

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910756592.2A Active CN110532090B (zh) 2019-08-16 2019-08-16 私有云计算业务恢复调度方法及装置

Country Status (1)

Country Link
CN (1) CN110532090B (zh)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101321115B (zh) * 2007-06-07 2010-10-13 华为技术有限公司 一种业务路径建立的方法和系统以及节点设备
CN102413186B (zh) * 2011-12-02 2014-07-30 北京星网锐捷网络技术有限公司 基于私有云计算的资源调度方法、装置和云管理服务器
CN103873516B (zh) * 2012-12-14 2018-02-16 中兴通讯股份有限公司 提高云计算资源池中物理服务器使用率的ha方法和系统
CN105095001B (zh) * 2014-05-08 2018-01-30 中国银联股份有限公司 分布式环境下虚拟机异常恢复方法
CN105808343B (zh) * 2014-12-31 2019-01-04 中国科学院沈阳自动化研究所 用于复杂生产管理系统中的群集资源控制方法

Also Published As

Publication number Publication date
CN110532090A (zh) 2019-12-03

Similar Documents

Publication Publication Date Title
CN109885389B (zh) 一种基于容器的并行深度学习调度训练方法及系统
EP0143125A2 (en) Computer system
CN111988203B (zh) 节点选举方法、装置及存储介质
CN107621973B (zh) 一种跨集群的任务调度方法及装置
CN105373431B (zh) 一种计算机系统资源的管理方法及计算机资源管理系统
US20130103835A1 (en) Resource management method, resource management device, and program product
CN111932257B (zh) 一种区块链并行化处理方法及装置
CN111459641B (zh) 一种跨机房的任务调度和任务处理的方法及装置
JP4491482B2 (ja) 障害回復方法、計算機、クラスタシステム、管理計算機及び障害回復プログラム
CN102135901A (zh) 带有动态数量工作者的并行查询引擎
CN111400104B (zh) 数据同步方法及装置、电子设备、存储介质
CN111930493A (zh) 集群中NodeManager状态管理方法、装置及计算设备
CN113778650A (zh) 任务调度方法、装置、电子设备及存储介质
CN110532090B (zh) 私有云计算业务恢复调度方法及装置
CN113703929B (zh) 一种任务调度方法、系统、计算设备和存储介质
CN116483546A (zh) 分布式训练任务调度方法、装置、设备及存储介质
JP5672521B2 (ja) コンピュータシステム、およびそのチェックポイントリスタート方法
CN111158956A (zh) 一种集群系统的数据备份方法及相关装置
Chtepen et al. Evaluation of replication and rescheduling heuristics for gird systems with varying resource availability
CN106155770A (zh) 任务调度方法和电子设备
WO2018188958A1 (en) A method and a host for managing events in a network that adopts event-driven programming framework
CN114489970A (zh) Kubernetes中利用Coscheduling插件实现队列排序的方法及系统
CN111752911A (zh) 一种基于Flume的数据传输方法、系统、终端及存储介质
CN106844021B (zh) 计算环境资源管理系统及其管理方法
Ochi et al. A group-based job scheduling method for parallel volunteer computing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant