CN105487946B - 一种故障计算机自动切换方法及装置 - Google Patents

一种故障计算机自动切换方法及装置 Download PDF

Info

Publication number
CN105487946B
CN105487946B CN201510856843.6A CN201510856843A CN105487946B CN 105487946 B CN105487946 B CN 105487946B CN 201510856843 A CN201510856843 A CN 201510856843A CN 105487946 B CN105487946 B CN 105487946B
Authority
CN
China
Prior art keywords
computer
delay machine
idle
run
application program
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510856843.6A
Other languages
English (en)
Other versions
CN105487946A (zh
Inventor
来振宇
张亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing State Owned Financial Leasing Co.,Ltd.
Original Assignee
STAR SOFTWARE TECHNOLOGY CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by STAR SOFTWARE TECHNOLOGY CO LTD filed Critical STAR SOFTWARE TECHNOLOGY CO LTD
Priority to CN201510856843.6A priority Critical patent/CN105487946B/zh
Publication of CN105487946A publication Critical patent/CN105487946A/zh
Application granted granted Critical
Publication of CN105487946B publication Critical patent/CN105487946B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2041Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant with more than one idle spare processing component

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Hardware Redundancy (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供一种故障计算机自动切换方法及装置,其中,该方法包括以下步骤:根据计算机上运行的应用程序所需的计算机性能和/或计算机特性,对私有云环境中的所有计算机进行分组,得到多个个主机组;实时监测私有云环境中所有计算机的运行状态;当监测到宕机计算机时,在宕机计算机所属的主机组中查找空闲计算机,将宕机计算机上运行的应用程序迁移到空闲计算机上运行。使用本发明方法进行故障计算机切换,能够选择出符合需求的计算机;无需人工选择计算机,减少了运维难度,节省了人力,减少了宕机计算机上应用程序服务中断的时间。

Description

一种故障计算机自动切换方法及装置
技术领域
本发明涉及计算机技术领域,特别涉及一种故障计算机自动切换方法及装置。
背景技术
云计算是一种革新的IT运用模式,它透过硬件的虚拟化将大量的服务器硬件抽象成为一个巨大的资源池,可以动态的为用户提供基础设施、平台和应用三种形式的服务。
私有云是建立在企业自有设施的基础之上的,是为一个企业客户单独使用而构建的,因而能够提供对数据、安全性和服务质量的最有效控制。企业拥有基础设施,并可以控制在此基础设施上部署应用程序的方式。更重要的是,很多企业在建立私有云之前,已经建立了较为完善的硬件设施,虽然硬件设施性能、特性各异,但只要进行必要的升级和改造,这些硬件资源是可以在私有云的建设中被充分利用起来的。
在私有云环境中,计算机设备未必都是同批次采购,品牌、型号等也各不相同。这势必带来一些差异,比如:部分计算机拥有很好的IO处理能力,但计算能力未必很高;部分计算机拥有高性能网卡,但硬盘容量不容乐观;部分计算机拥有GPU(Graphic ProcessingUnit,图形处理器)加速能力,但不适合高并发网络连接等等。
当私有云中某台计算机宕机(即死机)之后,需要将宕机计算机上运行的应用程序迁移到其他正常运行的计算机上,即进行故障设备的切换。目前采用的故障设备切换方案为:
(1)在私有云环境中所有正常运行的计算机中随机选择一台空闲的计算机,将宕机计算机上的应用程序迁移到该随机选择的空闲计算机上。
(2)人工在私有云环境中选择符合需要迁移的应用程序对计算机特性要求的计算机,比如:推流服务器应用需要运行在拥有万兆网卡的计算机上,则通过人工在私有云环境中选择拥有万兆网卡且空闲的计算机,并将推流服务器应用迁移到该计算机上。
但是,上述两种设备切换方案分别存在以下缺陷:方案(1)由于随机选择计算机,无法保证能够选择出符合需要迁移的应用程序对计算机特性需求的计算机,例如推流服务器应用需要运行在拥有万兆网卡的计算机上,若随机选择的计算机只拥有普通的网卡,则势必会影响应用服务质量。方案(2)由于需要人工选择计算机,不仅在增加运维难度的同时浪费人力,也势必增大宕机计算机上应用服务中断的时间。
发明内容
本发明实施例提供了一种故障计算机自动切换方法,能够选择出符合需求的计算机;无需人工选择计算机,减少了运维难度,节省了人力,减少了宕机计算机上应用服务中断的时间。
该故障计算机自动切换方法包括:
根据计算机上运行的应用程序所需的计算机性能和/或计算机特性,对私有云环境中的所有计算机进行分组,得到多个主机组;
实时监测私有云环境中所有计算机的运行状态;
当监测到宕机计算机时,在宕机计算机所属的主机组中查找空闲计算机,将宕机计算机上运行的应用程序迁移到空闲计算机上运行。
在一个实施例中,该故障计算机自动切换方法还包括:
当监测到宕机计算机时,发送宕机告警。
在一个实施例中,所述在宕机计算机所属的主机组中查找空闲计算机,将宕机计算机上运行的应用程序迁移到空闲计算机上运行具体包括:
若宕机计算机属于单一主机组,则:
当在宕机计算机所属主机组中查找到一台空闲计算机时,将宕机计算机上运行的应用程序迁移到该台空闲计算机上运行;
当在宕机计算机所属主机组中查找到多台空闲计算机时,按照空闲计算机所属的主机组数进行排序,将宕机计算机上运行的应用程序迁移到所属主机组数最少的空闲计算机上运行。
在一个实施例中,所述在宕机计算机所属的主机组中查找空闲计算机,将宕机计算机上运行的应用程序迁移到空闲计算机上运行具体包括:
若宕机计算机属于多个主机组,则:
在宕机计算机所属的多个主机组共有的计算机中查找空闲计算机,若找到一台空闲的计算机,将宕机计算机上运行的应用程序迁移到该台空闲计算机上运行;
若找到多台空闲计算机,按照空闲计算机所属的主机组数进行排序,将宕机计算机上运行的应用程序迁移到所属主机组数最少的空闲计算机上运行。
在一个实施例中,该故障计算机自动切换方法还包括:
实时记录私有云环境中各个计算机上运行的全部应用程序;
当监测到宕机计算机时,在实时记录中查找宕机计算机在宕机时刻运行的应用程序;在宕机计算机所属的主机组中查找空闲计算机,将宕机计算机在宕机时刻运行的应用程序迁移到空闲计算机上运行。
本发明实施例还提供了一种故障计算机自动切换装置,能够选择出符合需求的计算机;无需人工选择计算机,减少了运维难度,节省了人力,减少了宕机计算机上应用程序服务中断的时间。
该故障计算机自动切换装置包括:
计算机分组模块,用于根据计算机上运行的应用程序所需的计算机性能和/或计算机特性,对私有云环境中的所有计算机进行分组,得到多个个主机组;
计算机运行状态监测模块,用于实时监测私有云环境中所有计算机的运行状态;
计算机查找替换模块,用于当监测到宕机计算机时,在宕机计算机所属的主机组中查找空闲计算机,将宕机计算机上运行的应用程序迁移到空闲计算机上运行。
在一个实施例中,该故障计算机自动切换装置还包括:
告警模块,用于当监测到宕机计算机时,发送宕机告警。
在一个实施例中,所述计算机查找替换模块具体用于:
若宕机计算机属于单一主机组,则:
当在宕机计算机所属主机组中查找到一台空闲计算机时,将宕机计算机上运行的应用程序迁移到该台空闲计算机上运行;
当在宕机计算机所属主机组中查找到多台空闲计算机时,按照空闲计算机所属的主机组数进行排序,将宕机计算机上运行的应用程序迁移到所属主机组数最少的空闲计算机上运行。
在一个实施例中,所述计算机查找替换模块具体用于:
若宕机计算机属于多个主机组,则:
在宕机计算机所属的多个主机组共有的计算机中查找空闲计算机,若找到一台空闲的计算机,将宕机计算机上运行的应用程序迁移到该台空闲计算机上运行;
若找到多台空闲计算机,按照空闲计算机所属的主机组数进行排序,将宕机计算机上运行的应用程序迁移到所属主机组数最少的空闲计算机上运行。
在一个实施例中,该故障计算机自动切换装置还包括:
记录模块,用于实时记录私有云环境中各个计算机上运行的全部应用程序;
所述计算机查找替换模块还用于当监测到宕机计算机时,在实时记录中查找宕机计算机在宕机时刻运行的应用程序;在宕机计算机所属的主机组中查找空闲计算机,将宕机计算机在宕机时刻运行的应用程序迁移到空闲计算机上运行。
在本发明实施例中,根据计算机上运行的应用程序所需的计算机性能,对私有云环境中的所有计算机进行分组,得到多个个主机组;在宕机计算机所属的主机组中查找空闲计算机,将宕机计算机上运行的应用程序迁移到空闲计算机上运行,这样就能够选择出符合需求的计算机;上述对空闲计算机的选择无需人工进行操作,减少了运维难度,节省了人力;上述选择空闲计算机用时少,减少了宕机计算机上应用服务中断的时间。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的限定。在附图中:
图1是本发明实施例提供的一种故障计算机自动切换方法流程图;
图2是本发明实施例提供的一种查找空闲计算机方法示意图;
图3是本发明实施例提供的一种查找空闲计算机方法示意图;
图4是本发明实施例提供的一种查找空闲计算机方法示意图;
图5是本发明实施例提供的一种查找空闲计算机方法示意图;
图6是本发明实施例提供的一种故障计算机自动切换装置结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施方式和附图,对本发明做进一步详细说明。在此,本发明的示意性实施方式及其说明用于解释本发明,但并不作为对本发明的限定。
现有的对宕机计算机的切换方法包括:1)在私有云环境中所有正常运行的计算机中随机选择一台空闲的计算机,该方法由于随机选择计算机,无法保证能够选择出符合需要迁移的应用程序对计算机特性需求的计算机;2)人工在私有云环境中选择符合需要迁移的应用程序对计算机特性要求的计算机,该方法由于需要人工选择计算机,不仅在增加运维难度的同时浪费人力,也势必增大宕机计算机上应用服务中断的时间。如果是有针对性的选择替换计算机,且不用人工来选择,这样就能够解决上述现有技术中存在的问题。基于此,本发明提出一种故障计算机自动切换方法及装置。
图1是本发明实施例提供的一种故障计算机自动切换方法流程图,如图1所示,该故障计算机自动切换方法具体包括:
步骤101:根据计算机上运行的应用程序所需的计算机性能和/或计算机特性,对私有云环境中的所有计算机进行分组,得到多个主机组;
步骤102:实时监测私有云环境中所有计算机的运行状态;
步骤103:当监测到宕机计算机时,在宕机计算机所属的主机组中查找空闲计算机,将宕机计算机上运行的应用程序迁移到空闲计算机上运行。
具体实施时,计算机上运行的应用程序都需要一定的计算机性能,比如某种应用程序需要计算机拥有很好的IO处理能力;某种应用程序需要计算机拥有高性能网卡;某种应用程序需要计算机拥有GPU(Graphic Processing Unit,图形处理器)加速能力,等等。某些计算机具有一定的特性,比如:具有被外网访问的能力等。因此,可以按照计算机特性和/或计算机上运行的应用程序所需的计算机性能,来对私有云环境中的所有计算机进行分组,获得多个主机组,其中一个计算机相当于一个主机。例如,可以将配置有万兆网卡的计算机分为一组,为万兆网卡主机组;将配置有SSD(固态硬盘)的计算机分为一组,为SSD主机组;将可对公网用户提供服务的计算机分为一组,为可对公网用户提供服务主机组;将配置有GPU的计算机分为一组,为GPU主机组;将配置有RAID(Redundant Arrays ofIndependent Disks,独立磁盘冗余阵列)的计算机分为一组,为RAID主机组等等。
在实际对计算机进行配置时,每台计算机可能不只包括一种计算机性能和/或计算机特性,因此,一台计算机可能属于多个主机组。比如,某台计算机配置有万兆网卡,还可对公网用户提供服务,则该台计算机既属于万兆网卡主机组,又属于可对公网用户提供服务主机组。某台计算机配置有SSD,配置有GPU,还配置有RAID,则该台计算机同时属于SSD主机组、GPU主机组和RAID主机组。上述说明主机组之间允许重合。
具体实施时,私有云管理平台会实时记录私有云环境中所有计算机上运行的应用程序,同时实时监控私有云环境中所有计算机的运行状态。当私有云管理平台监测到某计算机宕机时,就发送计算机宕机告警,同时在实时记录中查找宕机时刻在宕机计算机上运行的应用程序,在宕机计算机所属的主机组中查找空闲计算机,将宕机计算机上运行的应用程序迁移到空闲计算机上继续运行。
具体的,在宕机计算机所属的主机组中查找空闲计算机包括以下两种:
第一种:当宕机计算机只属于单一主机组时:若在宕机计算机所属的主机组中未查找到空闲计算机,则发送未找到空闲计算机告警,通知运维人员处理;若查找到一台空闲计算机,则选择该计算机来替换宕机计算机;若查找到多台计算机,按照计算机所属的主机组数进行排序,优先选择主机组数最少的计算机。
例如,Server6属于万兆网卡主机组,属于单一主机组。某应用程序运行在Server6上,该应用程序运行时需要万兆网卡。当Server6宕机时,查找与Server6处于相同组内的(即万兆网卡主机组)、空闲的计算机,得到结果为Server2,则将Server6上运行的应用程序,重新在Server2之上运行。
如图2所示,Server3属于GPU主机组,属于单一主机组。某应用程序运行在Server3上,该应用程序运行时需要GPU加速处理。当Server3宕机时,查找与Server3处于相同组内的(即GPU加速主机组)、空闲的计算机,得到结果为Server2和Server5,由于Server5对应一个主机组中,而Server2对应两个主机组中,Server2所属的主机组数多于Server5所属的主机组数,则优先选择Server5。将Server3上运行的应用程序,重新在Server5之上运行。
如图3所示,Server3属于GPU主机组,属于单一主机组。某应用程序运行在Server3上,该应用程序需要GPU加速处理。当Server3宕机时,查找与Server3处于相同组内的(即GPU主机组)、空闲的计算机,得到结果为Server1、Server4和Server5,由于Server4和Server5分别对应一个主机组中,而Server1对应两个主机组中,则Server1所属的主机组数多于Server4和Server5所属的主机组数,优先选择Server4和Server5。最终,在Server4和Server5中随机选取一台计算机,重新运行Server3上的应用程序。
第二种:当宕机计算机属于多个主机组时,此时表示宕机计算机处于多个主机组的重合部分。若在这些主机组共有的计算机中(就是说重合部分),未查找到空闲计算机,则发送未找到空闲计算机告警,通知运维人员处理;若查找到一台空闲计算机,则选择该计算机来替换宕机计算机;若查找到多台计算机,按照计算机所属的主机组数进行排序,优先选择主机组数最少的计算机。
例如,如图4所示,Server1属于万兆网卡主机组和GPU主机组,Server1处于万兆网卡主机组和GPU主机组的重合部分。某应用程序运行在Server1上,该应用程序运行时需要GPU加速及万兆网卡。当Server1宕机时,查找与Server1处于相同组内的(即GPU加速主机组、万兆网卡主机组)、空闲的计算机,得到结果为Server2,则将Server1上运行的应用程序,重新在Server2之上运行。
如图5所示,Server1属于万兆网卡主机组和GPU主机组,Server1处于万兆网卡主机组和GPU主机组的重合部分。某应用程序运行在Server1上,该应用程序运行时需要GPU加速及万兆网卡。当Server1宕机时,查找与Server1处于相同组内的(即GPU加速主机组、万兆网卡主机组)、空闲的计算机,得到结果为Server2、Server9和Server10,由于Server2对应两个主机组中,而Server9和Server10分别对应三个主机组中,Server9和Server10所属的主机组数多于Server2所属的主机组数,则优先选择Server2。将Server3上的应用程序,重新在Server2之上运行。
具体实施时,在替换宕机计算机时,如果空闲计算机上存在宕机计算机在宕机时刻运行的所有应用程序,则直接启动运行这些应用程序即可。如果空闲计算机上只有一部分应用程序与宕机计算机在宕机时刻运行的应用程序相同,则需要首先连接应用仓库,从应用仓库中下载空闲计算机上缺少的对应宕机计算机在宕机前运行的应用程序,下载完成之后,启动应用程序。
基于同一发明构思,本发明实施例中还提供了一种故障计算机自动切换装置,如下面的实施例所述。由于故障计算机自动切换装置解决问题的原理与故障计算机自动切换方法相似,因此故障计算机自动切换装置的实施可以参见故障计算机自动切换方法的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图6是本发明实施例中提出的一种故障计算机自动切换装置结构示意图,如图6所示,该故障计算机自动切换装置包括:
计算机分组模块601,用于根据计算机上运行的应用程序所需的计算机性能和/或计算机特性,对私有云环境中的所有计算机进行分组,得到多个主机组;
计算机运行状态监测模块602,用于实时监测私有云环境中所有计算机的运行状态;
计算机查找替换模块603,用于当监测到宕机计算机时,在宕机计算机所属的主机组中查找空闲计算机,将宕机计算机上运行的应用程序迁移到空闲计算机上运行。
在一个实施例中,该故障计算机自动切换装置还包括:
告警模块,用于当监测到宕机计算机时,发送宕机告警。
在一个实施例中,所述计算机查找替换模块603具体用于:
若宕机计算机属于单一主机组,则:
当在宕机计算机所属主机组中查找到一台空闲计算机时,将宕机计算机上运行的应用程序迁移到该台空闲计算机上运行;
当在宕机计算机所属主机组中查找到多台空闲计算机时,按照空闲计算机所属的主机组数进行排序,将宕机计算机上运行的应用程序迁移到所属主机组数最少的空闲计算机上运行。
在一个实施例中,所述计算机查找替换模块603具体用于:
若宕机计算机属于多个主机组,则:
在宕机计算机所属的多个主机组共有的计算机中查找空闲计算机,若找到一台空闲的计算机,将宕机计算机上运行的应用程序迁移到该台空闲计算机上运行;
若找到多台空闲计算机,按照空闲计算机所属的主机组数进行排序,将宕机计算机上运行的应用程序迁移到所属主机组数最少的空闲计算机上运行。
在一个实施例中,该故障计算机自动切换装置还包括:
记录模块,用于实时记录私有云环境中各个计算机上运行的全部应用程序;
所述计算机查找替换模块603还用于当监测到宕机计算机时,在实时记录中查找宕机计算机在宕机时刻运行的应用程序;在宕机计算机所属的主机组中查找空闲计算机,将宕机计算机在宕机时刻运行的应用程序迁移到空闲计算机上运行。
综上所述,本发明提出的故障计算机自动切换方法及装置,根据计算机上运行的应用程序所需的计算机性能和/或计算机特性,对私有云环境中的所有计算机进行分组,得到多个主机组;在宕机计算机所属的主机组中查找空闲计算机,将宕机计算机上运行的应用程序迁移到空闲计算机上运行,这样就能够选择出符合需求的计算机;上述对空闲计算机的选择无需人工进行操作,减少了运维难度,节省了人力;上述选择空闲计算机用时少,减少了宕机计算机上应用服务中断的时间。
显然,本领域的技术人员应该明白,上述的本发明实施例的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明实施例不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种故障计算机自动切换方法,其特征在于,包括:
根据计算机上运行的应用程序所需的计算机性能和/或计算机特性,对私有云环境中的所有计算机进行分组,得到多个主机组;
实时监测私有云环境中所有计算机的运行状态;
当监测到宕机计算机时,在宕机计算机所属的主机组中查找空闲计算机,将宕机计算机上运行的应用程序迁移到空闲计算机上运行,具体包括:
若宕机计算机属于单一主机组,则:
当在宕机计算机所属主机组中查找到一台空闲计算机时,将宕机计算机上运行的应用程序迁移到该台空闲计算机上运行;
当在宕机计算机所属主机组中查找到多台空闲计算机时,按照空闲计算机所属的主机组数进行排序,将宕机计算机上运行的应用程序迁移到所属主机组数最少的空闲计算机上运行;
若宕机计算机属于多个主机组,则:
在宕机计算机所属的多个主机组共有的计算机中查找空闲计算机,若找到一台空闲的计算机,将宕机计算机上运行的应用程序迁移到该台空闲计算机上运行;
若找到多台空闲计算机,按照空闲计算机所属的主机组数进行排序,将宕机计算机上运行的应用程序迁移到所属主机组数最少的空闲计算机上运行。
2.如权利要求1所述的故障计算机自动切换方法,其特征在于,还包括:
当监测到宕机计算机时,发送宕机告警。
3.如权利要求1所述的故障计算机自动切换方法,其特征在于,还包括:
实时记录私有云环境中各个计算机上运行的全部应用程序;
当监测到宕机计算机时,在实时记录中查找宕机计算机在宕机时刻运行的应用程序;在宕机计算机所属的主机组中查找空闲计算机,将宕机计算机在宕机时刻运行的应用程序迁移到空闲计算机上运行。
4.一种故障计算机自动切换装置,其特征在于,包括:
计算机分组模块,用于根据计算机上运行的应用程序所需的计算机性能和/或计算机特性,对私有云环境中的所有计算机进行分组,得到多个主机组;
计算机运行状态监测模块,用于实时监测私有云环境中所有计算机的运行状态;
计算机查找替换模块,用于当监测到宕机计算机时,在宕机计算机所属的主机组中查找空闲计算机,将宕机计算机上运行的应用程序迁移到空闲计算机上运行;
所述计算机查找替换模块具体用于:
若宕机计算机属于单一主机组,则:
当在宕机计算机所属主机组中查找到一台空闲计算机时,将宕机计算机上运行的应用程序迁移到该台空闲计算机上运行;
当在宕机计算机所属主机组中查找到多台空闲计算机时,按照空闲计算机所属的主机组数进行排序,将宕机计算机上运行的应用程序迁移到所属主机组数最少的空闲计算机上运行;
若宕机计算机属于多个主机组,则:
在宕机计算机所属的多个主机组共有的计算机中查找空闲计算机,若找到一台空闲的计算机,将宕机计算机上运行的应用程序迁移到该台空闲计算机上运行;
若找到多台空闲计算机,按照空闲计算机所属的主机组数进行排序,将宕机计算机上运行的应用程序迁移到所属主机组数最少的空闲计算机上运行。
5.如权利要求4所述的故障计算机自动切换装置,其特征在于,还包括:
告警模块,用于当监测到宕机计算机时,发送宕机告警。
6.如权利要求4所述的故障计算机自动切换装置,其特征在于,还包括:
记录模块,用于实时记录私有云环境中各个计算机上运行的全部应用程序;
所述计算机查找替换模块还用于当监测到宕机计算机时,在实时记录中查找宕机计算机在宕机时刻运行的应用程序;在宕机计算机所属的主机组中查找空闲计算机,将宕机计算机在宕机时刻运行的应用程序迁移到空闲计算机上运行。
CN201510856843.6A 2015-11-30 2015-11-30 一种故障计算机自动切换方法及装置 Active CN105487946B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510856843.6A CN105487946B (zh) 2015-11-30 2015-11-30 一种故障计算机自动切换方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510856843.6A CN105487946B (zh) 2015-11-30 2015-11-30 一种故障计算机自动切换方法及装置

Publications (2)

Publication Number Publication Date
CN105487946A CN105487946A (zh) 2016-04-13
CN105487946B true CN105487946B (zh) 2019-03-12

Family

ID=55674939

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510856843.6A Active CN105487946B (zh) 2015-11-30 2015-11-30 一种故障计算机自动切换方法及装置

Country Status (1)

Country Link
CN (1) CN105487946B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106357427A (zh) * 2016-08-26 2017-01-25 广西小草信息产业有限责任公司 一种故障计算机的处理方法及处理系统
CN106708666A (zh) * 2017-01-05 2017-05-24 河南工程学院 一种故障计算机自动切换方法及装置
CN108345519A (zh) * 2018-01-31 2018-07-31 河南职业技术学院 计算机硬盘故障的处理方法及装置
CN109766209A (zh) * 2019-01-10 2019-05-17 广州科技贸易职业学院 一种提高云计算环境稳定性的方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101227315A (zh) * 2007-01-17 2008-07-23 上海市医疗保险信息中心 动态服务器集群及其控制方法
CN102193824A (zh) * 2010-03-18 2011-09-21 微软公司 虚拟机均质化以实现跨异构型计算机的迁移
CN102325192A (zh) * 2011-09-30 2012-01-18 上海宝信软件股份有限公司 云计算实现方法和系统
CN102819465A (zh) * 2012-06-29 2012-12-12 华中科技大学 一种虚拟化环境中故障恢复的方法
CN104506589A (zh) * 2014-12-10 2015-04-08 上海爱数软件有限公司 一种基于超融合存储的资源迁移调度方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9569274B2 (en) * 2012-10-16 2017-02-14 Microsoft Technology Licensing, Llc Distributed application optimization using service groups

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101227315A (zh) * 2007-01-17 2008-07-23 上海市医疗保险信息中心 动态服务器集群及其控制方法
CN102193824A (zh) * 2010-03-18 2011-09-21 微软公司 虚拟机均质化以实现跨异构型计算机的迁移
CN102325192A (zh) * 2011-09-30 2012-01-18 上海宝信软件股份有限公司 云计算实现方法和系统
CN102819465A (zh) * 2012-06-29 2012-12-12 华中科技大学 一种虚拟化环境中故障恢复的方法
CN104506589A (zh) * 2014-12-10 2015-04-08 上海爱数软件有限公司 一种基于超融合存储的资源迁移调度方法

Also Published As

Publication number Publication date
CN105487946A (zh) 2016-04-13

Similar Documents

Publication Publication Date Title
US11258725B2 (en) Distributed stream-based database triggers
Zhou et al. On cloud service reliability enhancement with optimal resource usage
CN106528327B (zh) 一种数据处理方法以及备份服务器
US9424274B2 (en) Management of intermediate data spills during the shuffle phase of a map-reduce job
CN112099918A (zh) 容器化环境中的集群的实时迁移
US11570243B2 (en) Decommissioning, re-commissioning, and commissioning new metadata nodes in a working distributed data storage system
Gao et al. System design of cloud computing based on mobile learning
US9852161B2 (en) Autonomic data partition placement in an in-memory data grid
CN105487946B (zh) 一种故障计算机自动切换方法及装置
US20170160965A1 (en) Optimization of in-memory data grid placement
US20140279884A1 (en) Systems and methods for distributing replication tasks within computing clusters
CN103618627B (zh) 一种管理虚拟机的方法、装置及系统
US20150135255A1 (en) Client-configurable security options for data streams
US10616313B2 (en) Scalable monitoring of long running multi-step data intensive workloads
US20100122199A1 (en) Using Accelerators in a Hybrid Architecture for System Checkpointing
CN107368358A (zh) 实现客户端所在虚拟机在不同主机间迁移的装置和方法
US20120166492A1 (en) Database transfers using constraint free data
US9800484B2 (en) Optimizing resource utilization in a networked computing environment
CN104123183B (zh) 集群作业调度方法和装置
US20190179807A1 (en) Table and index communications channels
US11768814B2 (en) Data transmissions between two databases
US8225009B1 (en) Systems and methods for selectively discovering storage devices connected to host computing devices
CN106708599A (zh) 虚拟机镜像下发系统及方法
US8954780B1 (en) Systems and methods for transferring input/output operations within computer clusters
CN108153484A (zh) 一种虚拟化环境下的共享式存储系统及其管理方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220113

Address after: 100010 8th floor, longfu building, No. 95, longfushi street, Dongcheng District, Beijing

Patentee after: Beijing State Owned Financial Leasing Co.,Ltd.

Address before: 100085 No. 002, Section C, third floor, building 1, Third Street, Shangdi Information Industry base, Haidian District, Beijing

Patentee before: BEIJING STARTIMES SOFTWARE TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right