CN106537354B - 虚拟化基础设施管理装置、系统、方法和记录介质 - Google Patents

虚拟化基础设施管理装置、系统、方法和记录介质 Download PDF

Info

Publication number
CN106537354B
CN106537354B CN201580039881.0A CN201580039881A CN106537354B CN 106537354 B CN106537354 B CN 106537354B CN 201580039881 A CN201580039881 A CN 201580039881A CN 106537354 B CN106537354 B CN 106537354B
Authority
CN
China
Prior art keywords
physical
failure
physical machine
machine
machines
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201580039881.0A
Other languages
English (en)
Other versions
CN106537354A (zh
Inventor
油科亮太
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of CN106537354A publication Critical patent/CN106537354A/zh
Application granted granted Critical
Publication of CN106537354B publication Critical patent/CN106537354B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/203Failover techniques using migration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/1438Restarting or rejuvenating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1479Generic software techniques for error detection or fault masking
    • G06F11/1482Generic software techniques for error detection or fault masking by means of middleware or OS functionality
    • G06F11/1484Generic software techniques for error detection or fault masking by means of middleware or OS functionality involving virtual machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5077Logical partitioning of resources; Management or configuration of virtualized resources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/4557Distribution of virtual machine instances; Migration and load balancing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45591Monitoring or debugging support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/81Threshold
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/815Virtual

Abstract

本发明使得能够在用于构建虚拟化环境的计算机系统中有效地使用可用的物理机。虚拟化基础设施管理装置(40)配备有:检测单元(41),用于检测能够执行虚拟机(51‑i)的物理机(50‑i)中的不是物理的固定故障的偶然故障的发生;登记单元(42),用于在存储物理机(50‑1~50‑n)的状态的管理信息存储单元(44)中登记物理机(50‑i)处于待机状态;以及分配单元(43),用于在物理机(50‑j)中发生了故障的情况下,将由于所述故障而停止的虚拟机(51‑j)重新分配给在管理信息存储单元(44)中登记为处于待机状态中的物理机中的任一物理机。

Description

虚拟化基础设施管理装置、系统、方法和记录介质
技术领域
本发明涉及在构建虚拟化环境的计算机系统中进行管理以将虚拟机分配给物理机的虚拟化基础设施管理装置等。
背景技术
近年来,诸如IaaS(基础设施即服务)等的云服务已经在世界范围内普及。在云服务中,服务事业提供者提供构建虚拟化环境的计算机系统,并且用户通过使用在计算机系统中分配的虚拟机来建立各种服务。作为示例,作为标准化组织的ETSI(欧洲电信标准协会)论述了NFV(网络功能虚拟化)的概念,并且NFV的标准化正逐渐普及。NFV是利用虚拟机来提供通信运营商通过使用专用装置所提供的服务的方法。在这种背景下,期望用于分配虚拟机以有效地使用计算机系统的技术。
作为这种技术的示例,专利文献1公开了如下装置,其中该装置能够基于通过多个物理服务器建立虚拟服务器的虚拟化系统中的设计策略,来对虚拟机进行重新分配。存在该设计策略的一个示例、即“由于虚拟服务器2是虚拟服务器1的待机系统服务器,因此这两者不分配给同一物理服务器”。存在该设计策略的另一示例,“由于虚拟服务器3和虚拟服务器4所处理的作业的负荷小,因此这两者可以分配在同一物理服务器中”。
专利文献2公开了在实施物理机的维护的情况下或者物理机中发生故障的情况下、在不降低资源池的总量的状态下继续系统操作的虚拟化系统。该虚拟化系统设置一个或多个物理机建立虚拟机的一个或多个资源池以及作为这些资源池间共享的池的恢复池。虚拟化系统在维护物理机的情况下或者在物理机中发生故障的情况下使用该恢复池。
引用文献列表
专利文献
专利文献1日本特开2009-199395
专利文献2日本特开2013-210745
发明内容
技术问题
一般的虚拟化系统包括多个物理机。在物理机中工作的虚拟机提供各种服务。在物理机其中任一发生故障的情况下,虚拟化系统将在该物理机中工作的虚拟机重新分配给另一物理机以继续提供服务。
物理机中发生的故障包括与硬件有关的物理的固定故障以及不是固定故障的偶然的故障。该偶然的故障(以下称为“偶然故障”)例如包括由于BIOS (基本输入/输出系统)或OS(操作系统)中所包括的软件漏洞(bug)而引起的故障。偶然故障还可以包括向物理机的电力供给的暂时中断和由于温度的异常而引起的故障等。
这些偶然故障并不是与硬件有关的固定故障,而是可以通过重新启动发生故障的物理机来修复的故障。因此,在所发生的故意是偶然故障的情况下,本来可以通过重新启动来使用发生了这种故障的物理机。然而,一般的虚拟化系统将发生了偶然故障的物理机作为故障机来管理,并且在该物理机的维护作业完成之前不使用该物理机。由于一般的虚拟化系统无法使用本来可使用的物理机,因此可使用的物理机减少。专利文献1和专利文献2中所公开的技术无法解决该问题。
本发明的主要目的是提供能够解决该问题的虚拟化基础设施装置。
用于解决问题的方案
根据本发明的一个方面,本发明的一种虚拟化基础设施管理装置,包括:检测部件,用于检测能够执行一个或多个虚拟机的一个或多个物理机中所包括的第一物理机中的不是物理的固定故障的偶然故障的发生;登记部件,用于在所述检测部件检测到所述偶然故障的情况下,在用于存储所述物理机的状态的管理信息存储部件中登记为所述第一物理机处于待机状态;以及分配部件,用于在所述一个或多个物理机中的第二物理机中发生了故障的情况下,将由于该故障而停止的虚拟机重新分配给在所述管理信息存储部件中登记为处于待机状态的物理机中的任一物理机。
在用于实现上述目的的另一观点中,本发明的一种虚拟化基础设施管理方法,包括:检测能够执行一个或多个虚拟机的一个或多个物理机中所包括的第一物理机中的不是物理的固定故障的偶然故障的发生;在检测到所述偶然故障的情况下,在用于存储所述物理机的状态的管理信息存储部件中登记为所述第一物理机处于待机状态;以及在所述一个或多个物理机中的第二物理机中发生了故障的情况下,将由于所述故障而停止的虚拟机重新分配给在所述管理信息存储部件中登记为处于待机状态的物理机中的任一物理机。
在用于实现上述目的的又一观点中,本发明的一种非瞬态可读计算机记录介质,用于记录使计算机执行以下处理的虚拟化基础设施管理程序:检测处理,用于检测能够执行一个或多个虚拟机的一个或多个物理机中所包括的第一物理机中的不是物理的固定故障的偶然故障的发生;登记处理,用于在所述检测处理中检测到所述偶然故障的情况下,在用于存储所述物理机的状态的管理信息存储部件中登记为所述第一物理机处于待机状态;以及分配处理,用于在所述一个或多个物理机中的第二物理机中发生了故障的情况下,将由于所述故障而停止的虚拟机重新分配给在所述管理信息存储部件中登记为处于待机状态的物理机中的任一物理机。
此外,本发明能够通过在记录介质中记录的计算机程序来执行。
发明的效果
本发明可以在构建虚拟化环境的计算机系统中有效地使用可使用的物理机。
附图说明
图1是示出与本发明的第一示例实施例有关的虚拟化基础设施管理装置的结构的框图。
图2是示出与本发明的第一示例实施例有关的服务管理表的结构的示例的图。
图3是例示与本发明的第一示例实施例有关的物理机管理表的结构和物理机管理表的更新的流程的图。
图4是示出与本发明的第一示例实施例的物理机有关的状态转变图的图。
图5是示出与本发明的第一示例实施例有关的虚拟化基础设施管理装置在物理机中发生故障的情况下更新物理机管理表的操作的流程图。
图6是示出与本发明的第一示例实施例有关的虚拟化基础设施管理装置将由于发生故障而停止的虚拟机重新分配给物理机的操作的流程图。
图7是示出与本发明的第二示例实施例有关的虚拟化基础设施管理装置的结构的框图。
图8是示出能够执行与本发明的各示例实施例有关的虚拟化基础设施管理装置的信息处理装置的结构的框图。
具体实施方式
通过参考附图来详细说明本发明的示例实施例。
第一示例实施例
图1是概念地示出与第一示例实施例有关的虚拟化基础设施管理系统1 的结构的框图。与本示例实施例有关的虚拟化基础设施管理系统1包括虚拟化基础设施管理装置10、n(n是等于2或大于2的整数)个物理机20-1~20-n和维护装置30。
虚拟化基础设施管理装置10、物理机20-1~20-n和维护装置30相连接,从而能够彼此相通信。这些构件通过使用例如HTML(超文本标记语言)或XML (可扩展标记语言)来进行通信。
维护装置30是用于管理虚拟化基础设施管理系统1中的维护功能的装置,并且是如OSS(运营支撑系统)的装置。
物理机20-1~20-n是例如具有Linux(注册商标)KVM(基于内核的虚拟机) 和IPMI(智能平台管理接口)的多用途服务器装置。物理机20-1~20-n可以具有 NFV。物理机20-1~20-n各自可以是具有离散的壳体或离散的模块的物理独立的服务器装置。物理机20-1~20-n可以是虚拟构造的服务器装置,其中向这些服务器装置分配了如CPU(中央处理单元)、存储器和硬盘装置中的一部分资源。
如图1所示,物理机20-1驱动虚拟机21-1,并且物理机20-1包括故障信息收集单元22-1。物理机20-1~20-n同样驱动虚拟机21-2~21-n,并且物理机 20-1~20-n同样包括故障信息收集单元22-2~22-n。物理机20-1~20-n可以驱动多个虚拟机。在物理机20-1(20-2~20-n)中发生故障的情况下,故障信息收集单元22-1(22-2~22-n)收集与正发生的故障有关的信息,并且将所收集的与该故障有关的信息发送至虚拟化基础设施管理装置10。
虚拟化基础设施管理装置10包括用于向物理机20-1~20-n分配虚拟机的功能。虚拟化基础设施管理装置10例如是NFV标准中定义的 NFV_Management_and_Orchestration。虚拟化基础设施管理装置10包括检测单元11、登记单元12、分配单元13和管理信息存储单元14。检测单元11、登记单元12和分配单元13可以是电子电路或者可以通过计算机程序以及执行该计算机程序的处理器来实现。管理信息存储单元14是如存储器或磁盘等的存储装置。
检测单元11从物理机20-i(i是1~n中的任一整数)中的故障信息收集单元 22-i接收与物理机20-i中发生的故障有关的信息。检测单元11基于所接收到的与故障有关的信息来检测物理机20-i中发生的偶然故障。如果与故障有关的信息表示如物理机20-i中所包括的存储器的2位错误那样的无法修复的硬件故障,则检测单元11判断为所发生的故障是固定故障。而另一方面,如果故障信息表示如下情况之一,则检测单元11判断为所发生的故障是偶然故障。
■由于软件漏洞而发生的故障
■向物理机20-i的电力供给的暂时停止
■由于物理机20-i中的任何位置的温度的异常所引起的误动作。
检测单元11向登记单元12和分配单元13通知物理机20-i中的固定故障或者偶然故障的发生。
在接收到物理机20-i中发生故障的通知的情况下,登记单元12基于所接收到的内容来更新管理信息存储单元14中所存储的信息。如图1所示,管理信息存储单元14存储服务管理表140和物理机管理表141。
图2是例示服务管理表140的结构的图。服务管理表140包括将能够标识虚拟机的标识符与修复优先指示信息相关联的记录。该修复优先指示信息是如下信息,其中该信息表示在虚拟机21-i由于故障而停止的情况下,是否要优先快速修复虚拟机21-i并且继续虚拟机21-i所提供的服务。如果修复优先指示信息是无效的,则修复优先指示信息表示该服务的可靠提供优先于虚拟机 21-i的快速修复,以使得虚拟机21-i所提供的服务将不再停止。管理虚拟化基础设施管理系统1的系统管理者等在服务管理表140中预先设置表示数值或文字的信息。
图3是例示物理机管理表141的结构的图。物理机管理表141包括使如下内容之间相关联的记录:能够标识物理机的标识符、表示与物理机有关的状态的信息、偶然故障发生数和能够标识该物理机所执行的虚拟机的标识符。图3中的箭头表示物理机管理表141的内容的转变。
在本示例实施例中,物理机20-1~20-n具有“操作中”、“故障中”和“待机中”这三种状态。图4示出与本示例实施例的物理机20-1~20-n有关的状态转变图。
如图4所示,在物理机20-i运行虚拟机21-i的操作中状态200下发生故障的情况下,物理机20-i变成作为由于故障而停止的状态的故障中状态201。如果正发生的故障是固定故障,则物理机20-i维持故障中状态201。如果正发生的故障是偶然故障,则物理机20-i变成作为等待重新启动的状态的待机中状态 202。在虚拟化基础设施管理装置10向处于待机中状态202的物理机20-i分配虚拟机21-j(j是1~n中的任一整数)的情况下,处于待机中状态202的物理机 20-i启动虚拟机21-j并变成操作中状态200。
以下说明在物理机20-1处于图3的(a)所示的物理机管理表141所表示的状态下物理机20-1中发生偶然故障的情况下、登记单元12更新物理机管理表 141的操作。如图3的(b)所示,登记单元12针对物理机20-1将状态从“操作中”改变成“故障中”,并且清除能够标识被登记为操作中的虚拟机的虚拟机21-1 的标识符。
如图3的(c)所示,登记单元12针对物理机20-1通过将偶然故障发生数所表示的值加一来将偶然故障发生数所表示的值设置为“1”,并且将状态从“故障中”改变成“待机中”。之后,分配单元13将停止的虚拟机21-1重新分配给物理机20-1,并且物理机20-1启动虚拟机21-1。接着,如图3的(d)所示,登记单元12针对物理机20-1将状态从“待机中”改变成“操作中”,并且将虚拟机21-1登记为处于操作中的虚拟机。
在接收到物理机20-i中发生故障的情况下,分配单元13基于所接收到的内容、服务管理表140和物理机管理表141,将由于该故障而停止的虚拟机21-i 分配给物理机20-j。
这里,考虑物理机20-1中发生偶然故障的情况,在图2中表示服务管理表140的内容,并且在图3的(c)中表示物理机管理表141的内容。在这种情况下,以下说明分配单元13将停止的虚拟机21-1分配给物理机20-j的操作。
分配单元13参考服务管理表140,并且确认与停止的虚拟机21-1有关的修复优先指示信息所表示的值是“有效”。分配单元13能够将修复优先指示信息所表示的值是“有效”的虚拟机分配给具有发生了偶然故障的结果并且状态是“待机中”的物理机。分配单元13不能将修复优先指示信息所表示的值是“无效”的虚拟机分配给具有发生了偶然故障的结果并且状态是“待机中”的物理机。因此,在这种情况下,分配单元13能够将该停止的虚拟机21-1 分配给具有发生了偶然故障的结果并且状态是“待机中”的物理机。
分配单元13参考物理机管理表141,并且搜索状态是“待机中”的物理机。如图3的(c)所示,如果物理机20-1处于“待机中”并且除此之外不存在状态是“待机中”的物理机,则分配单元13将该停止的虚拟机21-1重新分配给物理机20-1。
在将该停止的虚拟机重新分配给状态是“待机中”的物理机时,分配单元13可以将该虚拟机重新分配给物理机管理表141所示的偶然故障发生数满足预定标准的物理机。该预定标准可以是偶然故障发生数在物理机20-1~20-n 中最低(最小)的标准,或者偶然故障发生数等于或小于预定值的标准。
通过参考图5的流程图来详细说明本示例实施例的虚拟化基础设施管理装置10在物理机其中任一发生故障的情况下更新物理机管理表141的操作 (处理)。
故障信息收集单元22-i检测到虚拟机21-i由于物理机20-i中发生了故障而停止(步骤S101)。故障信息收集单元22-i收集与正发生的故障有关的信息,并且将与正发生的故障有关的信息发送至虚拟化基础设施管理装置10(步骤 S102)。登记单元12在物理机管理表141中将物理机20-i的状态从“操作中”更新成“故障中”(步骤S103)。
检测单元11确认从故障信息收集单元22-i接收到的与正发生的故障有关的信息的内容,并且将确认结果输入至登记单元12中(步骤S104)。如果正发生的故障不是偶然故障(即是固定故障)(步骤S105中为“否”),则整个处理完成。如果正发生的故障是偶然故障(步骤S105中为“是”),则登记单元12 在物理机管理表141中将物理机20-i的状态从“故障中”更新成“待机中”(步骤S106),并且整个处理完成。
通过参考图6的流程图,来详细说明本示例实施例的虚拟化基础设施管理装置10将由于发生了故障而停止的虚拟机重新分配给物理机的操作(处理)。
在从检测单元11得到与物理机20-i上的故障有关的信息之后,分配单元 13参考物理机管理表141,并且搜索偶然故障发生数是0并且状态是“待机中”的物理机(步骤S201)。如果搜索到物理机20-j(步骤S202中为“是”),则分配单元13将由于发生了故障而停止的虚拟机21-i分配给物理机20-j,并且重新启动虚拟机21-i(步骤S203)。
如果虚拟机21-i重新启动成功(步骤S204中为“是”),则登记单元12在物理机管理表141中将物理机20-j的状态从“待机中”更新成“操作中”(步骤S205),并且整个处理完成。如果虚拟机21-i重新启动失败(步骤S204中为“否”),则分配单元13向维护装置30通知虚拟机21-i重新启动失败(步骤 S209),并且整个处理完成。
如果作为分配单元13对物理机管理表141进行搜索的结果没有搜索到物理机(步骤S202中为“否”),则分配单元13参考服务管理表140,并且确认与虚拟机21-i有关的修复优先指示信息是否为有效。如果与虚拟机21-i有关的修复优先指示信息为无效(步骤S206中为“否”),则分配单元13进行步骤S209 的处理,并且整个处理完成。
如果与虚拟机21-i有关的修复优先指示信息为有效(步骤S206中为“是”),则分配单元13在物理机管理表141中搜索偶然故障发生数为一或多于一并且状态是“待机中”的物理机(步骤S207)。如果搜索到物理机20-j(步骤S208中为“是”),则进行S203中的处理。如果没有搜索到物理机(步骤S208 中为“否”),则分配单元13进行S209中的处理,并且整个处理完成。
本示例实施例的虚拟化基础设施管理系统1可以在构建虚拟化环境的计算机系统中有效地使用可使用的物理机。这是因为,在检测单元11检测到物理机中发生的故障是偶然故障的情况下,登记单元12在管理信息存储单元14 中将该物理机登记为处于待机状态中的机器,并且分配单元13将停止的虚拟机分配给处于待机状态中的物理机其中任一。
以下详细说明本示例实施例的虚拟化基础设施管理系统1所实现的效果。
通常,物理机中发生的故障包括与硬件有关的物理的固定故障和不是固定故障的偶然故障。在例如更换发生了故障的部件等的维护作业完成之前,不能使用发生了固定故障的物理机。可以通过例如重新启动来使用发生了偶然故障的物理机,而无需上述维护作业。在构建虚拟化环境的计算机系统中,经常将发生了偶然故障的物理机与发生了固定故障的物理机同样作为故障中来管理。在这种计算机系统中,由于无法将虚拟机分配给本来可使用的发生了偶然故障的物理机,因此无法有效地使用可使用的物理机。
本示例实施例的虚拟化基础设施管理装置10确认物理机中发生的故障是固定故障还是偶然故障,并且如果发生偶然故障则将该物理机作为待机中来管理。虚拟化基础设施管理装置10将虚拟机新分配给偶然故障发生之后处于待机状态中的物理机。由此,本示例实施例的虚拟化基础设施管理系统1 有效地使用了可使用的物理机。
本示例实施例的管理信息存储单元14将包括与物理机20-1~20-n有关的偶然故障发生数的信息作为物理机管理表141存储。虚拟化基础设施管理装置10能够将虚拟机分配给偶然故障发生数最小的物理机或者偶然故障发生数等于或小于预定值的物理机。因此,本示例实施例的虚拟化基础设施管理系统1可以通过优选使用故障发生可能性低的物理机来提高可用性。
以下说明在作为要分配的物理机的标准是偶然故障发生数不是最小而是等于或小于预定值的物理机的情况下所获得的优点。在这种情况下,假定在物理机管理表141中将偶然故障发生数最小的特定物理机登记为“待机中”,并且是在与该特定物理机不同的其它物理机之后登记的。在这种情况下,假定即使在该特定物理机中偶然故障发生数最小的情况下,系统管理者也不立即设置虚拟机,并且系统管理者想要观看该特定物理机的操作情景。这是因为,假定与该特定物理机有关的偶然故障发生数可能突然增加。在这种情况下,由于系统通过使用标准“等于或小于预定值”来更灵活地选择物理机,因此可以使系统的可用性更实际。
本示例实施例的管理信息存储单元14将与虚拟机21-1~21-n有关的修复优先指示信息作为服务管理表140存储。在虚拟机所提供的服务中,存在快速修复重要的服务以及在修复之后故障不会再次发生重要的服务。在由于故障而停止服务的提供的情况下,该区别是基于服务的内容。例如,在虚拟机提供频繁接收并处理信息处理量小的请求的服务(服务A)的情况下,需要减小对频繁接收到的请求的影响。因此,在这种情况下,服务的快速修复是重要的。如果虚拟机提供不常接收并处理信息处理量很大的请求的服务(服务 B)的情况下,需要避免在完成需要长处理时间的请求之前故障再次发生,并且需要避免之前的处理变得无用。因此,在这种情况下,在服务修复之后故障不会再次发生是重要的。在本示例实施例中,针对提供服务A的虚拟机,将修复优先指示信息设置为有效,并且针对提供服务B的虚拟机将修复优先指示信息设置为无效。
与没有发生过偶然故障的物理机相比,发生过偶然故障的物理机由于与先前偶然故障的原因相同的原因而发生偶然故障的可能性高。因此,本示例实施例的虚拟化基础设施管理装置10仅针对需要快速修复且修复优先指示信息有效的虚拟机、将发生过偶然故障的物理机添加至虚拟机要分配至的对象。也就是说,针对修复优先指示信息无效的虚拟机,虚拟化基础设施管理装置10不将发生过偶然故障的物理机作为虚拟机要分配至的对象。由此,本示例实施例的虚拟化基础设施管理系统1能够在考虑到各虚拟机所提供的服务的特性而进行灵活系统管理的情况下有效地使用可用的物理机。针对修复优先指示信息无效的虚拟机,虚拟化基础设施管理系统1可以不将偶然故障发生数等于或大于预定值的物理机作为虚拟机要分配至的对象。
在特定物理机中偶然故障频繁发生的情况下,由于难以在系统操作中使用该物理机,因此应当将该偶然故障作为固定故障来处理。在这种情况下,在物理机中偶然故障发生数等于或大于预定值的情况下,本示例实施例的登记单元12可以将该物理机处于故障状态登记在物理机管理表141中。
本示例实施例的登记单元12可以从各物理机接收与未使用的资源量有关的信息,并且将所获取到的信息登记在管理信息存储单元14中。未使用的资源量例如是处理器的未使用的核的数量、未使用的存储器容量或未使用的盘容量等。在这种情况下,本示例实施例的分配单元13具有针对管理信息存储单元14中的特定物理机将未使用的资源量与被分配的虚拟机所需的资源量进行比较的功能。如果未使用的资源量等于或大于被分配的虚拟机所需的资源量,则即使在该物理机处于操作状态中的情况下,分配单元13也可以将该虚拟机分配给该物理机。由此,本示例实施例的虚拟化基础设施管理系统 1有效地使用了可使用的物理机。
第二示例实施例
图7是示意性示出与第二示例实施例有关的虚拟化基础设施管理装置40 的结构的框图。
第二示例实施例的虚拟化基础设施管理装置40包括检测单元41、登记单元42、分配单元43和管理信息存储单元44。
检测单元41检测能够执行一个或多个虚拟机的一个或多个物理机50-1 ~50-n中所包括的物理机50-i(i是1~n中任一整数)中的不是物理的固定故障的偶然故障的发生。物理机50-1(50-2~50-n)执行虚拟机51-1(51-2~51-n)。
在检测单元41检测到偶然故障的情况下,登记单元42将物理机50-i处于待机状态登记至用于存储物理机50-1~50-n的状态的管理信息存储单元44中。
在物理机50-j(j是1~n中任一整数)中发生了故障的情况下,分配单元43 将由于该故障而停止的虚拟机51-j重新分配给在管理信息存储单元44中被登记为待机状态的物理机中的任一个。
本示例实施例的虚拟化基础设施管理装置40可以在构建虚拟化环境的计算机系统中有效地使用可使用的物理机。原因在于:在检测单元41检测到物理机中发生的故障是偶然故障的情况下,登记单元42将该物理机作为处于待机状态的机器而登记在管理信息存储单元44中,并且分配单元43将停止的虚拟机分配给处于待机状态的物理机中的任一个。
硬件结构的示例
在示例实施例中,可以通过专用的HW(硬件)(电子电路)来实现图1和图7 所示的各部分。检测单元11、41,登记单元12、42以及分配单元13、43可以被认为是软件程序的功能(处理)单位(软件模块)。在这些附图中所示的各部分的区块是便于说明的结构,并且在实现中可以被认为是各种结构。通过参考图8来说明这种情况下的硬件环境的示例。
图8是例示能够执行与本发明的典型示例实施例有关的虚拟化基础设施管理装置的信息处理装置900(计算机)的结构的图。图8示出能够实现图1和图7所示的虚拟化基础设施管理装置的计算机(信息处理装置)的结构,并且表示能够实现上述的示例实施例中的各功能的硬件环境。
图8所示的信息处理装置900包括以下构件。
■CPU 901、
■ROM(只读存储器)902、
■RAM(随机存取存储器)903、
■硬盘904(存储装置)、
■至外部装置905的通信接口、
■能够读写如CD_ROM(紧凑型盘只读储存器)的记录介质907中所存储的数据的读/写器908、
■输入/输出接口909、
■总线906(通信线)。
具有上述构件的信息处理装置900是构件经由总线906而彼此连接的通用计算机。
通过上述的示例实施例所例示的本发明将能够实现以下功能的计算机程序提供至图8所示的信息处理装置900。这些功能是检测单元11、41;登记单元12、42;和分配单元13、43;或流程图(图5~图6)的功能。装置中所提供的计算机程序可以存储在如可读/写的易失性存储器(RAM 903)或者如硬盘 904等的非易失性存储装置等的存储装置中。
在上述情况下,可以使用一般过程来向硬件提供计算机程序。这些过程例如可以包括通过使用如CD-ROM等的各种记录介质907将计算机程序安装在装置中,或者通过通信线从如因特网的外部下载。在这种情况下,本发明可以被认为是通过构建计算机程序的代码而构成或通过用于存储代码的记录介质而构成。
尽管已经参考本发明的典型实施例而特别示出和说明了本发明,但是本发明不限于这些实施例。可以在不背离权利要求书所限定的本发明的精神和范围的情况下,对本发明进行本领域普通技术人员应当理解的形式和细节方面的各种变化。
本申请基于并要求2014年7月22日提交的日本专利2014-148948的优选权,通过引用将其全部内容包含于此。
附图标记说明
1 虚拟化基础设施管理系统
10 虚拟化基础设施管理装置
11 检测单元
12 登记单元
13 分配单元
14 管理信息存储单元
140 服务管理表
141 物理机管理表
20-1~20-n 物理机
21-1~21-n 虚拟机
22-1~22-n 故障信息收集单元
30 维护装置
200 操作中状态
201 故障中状态
202 待机中状态
40 虚拟化基础设施管理装置
41 检测单元
42 登记单元
43 分配单元
44 管理信息存储单元
50-1~50-n 物理机
51-1~51-n 虚拟机
900 信息处理装置
901 CPU
902 ROM
903 RAM
904 硬盘
905 通信接口
906 总线
907 记录介质
908 读/写器
909 输入/输出接口

Claims (10)

1.一种虚拟化基础设施管理装置,包括:
检测部件,用于检测能够执行一个或多个虚拟机的一个或多个物理机中所包括的第一物理机中的不是物理的固定故障的偶然故障的发生;
登记部件,用于在所述检测部件检测到所述偶然故障的情况下,在用于存储所述物理机的状态的管理信息存储部件中登记为所述第一物理机处于待机状态;以及
分配部件,用于在所述一个或多个物理机中的第二物理机中发生了故障的情况下,将由于该故障而停止的虚拟机重新分配给在所述管理信息存储部件中登记为处于待机状态的物理机中的任一物理机。
2.根据权利要求1所述的虚拟化基础设施管理装置,其中,
所述登记部件针对所述第一物理机将所述偶然故障的发生数登记在所述管理信息存储部件中,以及
所述分配部件将由于所述故障而停止的虚拟机重新分配给在所述管理信息存储部件中登记为处于待机状态的所述第一物理机中的、所述偶然故障的发生数满足预定标准的物理机。
3.根据权利要求2所述的虚拟化基础设施管理装置,其中,
所述管理信息存储部件针对所述虚拟机存储修复优先指示信息,所述修复优先指示信息表示优先修复该虚拟机所执行的处理是否有效,以及
在由于所述故障而停止的虚拟机的修复优先指示信息表示无效的情况下,所述分配部件将该虚拟机重新分配给所述偶然故障的发生数等于或小于第一阈值的所述第一物理机。
4.根据权利要求2或3所述的虚拟化基础设施管理装置,其中,针对所述第一物理机,在所述偶然故障的发生数等于或大于第二阈值的情况下,所述登记部件登记为所述第一物理机处于故障状态。
5.根据权利要求1至3中任一项所述的虚拟化基础设施管理装置,其中,
所述登记部件针对所述第一物理机将与未使用的资源的量有关的信息登记在所述管理信息存储部件中,以及
针对所述管理信息存储部件中未使用的资源的量等于或大于所述虚拟机所需的资源的量的所述第一物理机中的第三物理机,即使在该第三物理机处于操作状态中的情况下,所述分配部件也能够将由于所述故障而停止的虚拟机重新分配给该第三物理机。
6.根据权利要求5所述的虚拟化基础设施管理装置,其中,
针对所述第一物理机,所述登记部件将未使用的处理器核的数量、未使用的存储器容量和未使用的盘容量至少之一作为与未使用的资源的量有关的信息登记在所述管理信息存储部件中。
7.根据权利要求1至3中任一项所述的虚拟化基础设施管理装置,其中,
在所述虚拟机所执行的软件中所包括的逻辑不一致存在的情况下、在向所述第一物理机的电力供给停止的情况下、或者在由于所述第一物理机中发生的温度异常而导致所述虚拟机停止的情况下,所述检测部件判断为在所述第一物理机中发生了所述偶然故障。
8.一种虚拟化基础设施管理系统,包括根据权利要求1至3中任一项所述的虚拟化基础设施管理装置以及所述一个或多个物理机。
9.一种虚拟化基础设施管理方法,包括:
检测能够执行一个或多个虚拟机的一个或多个物理机中所包括的第一物理机中的不是物理的固定故障的偶然故障的发生;
在检测到所述偶然故障的情况下,在用于存储所述物理机的状态的管理信息存储部件中登记为所述第一物理机处于待机状态;以及
在所述一个或多个物理机中的第二物理机中发生了故障的情况下,将由于所述故障而停止的虚拟机重新分配给在所述管理信息存储部件中登记为处于待机状态的物理机中的任一物理机。
10.一种非瞬态可读计算机记录介质,用于记录使计算机执行以下处理的虚拟化基础设施管理程序:
检测处理,用于检测能够执行一个或多个虚拟机的一个或多个物理机中所包括的第一物理机中的不是物理的固定故障的偶然故障的发生;
登记处理,用于在所述检测处理中检测到所述偶然故障的情况下,在用于存储所述物理机的状态的管理信息存储部件中登记为所述第一物理机处于待机状态;以及
分配处理,用于在所述一个或多个物理机中的第二物理机中发生了故障的情况下,将由于所述故障而停止的虚拟机重新分配给在所述管理信息存储部件中登记为处于待机状态的物理机中的任一物理机。
CN201580039881.0A 2014-07-22 2015-07-17 虚拟化基础设施管理装置、系统、方法和记录介质 Active CN106537354B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2014-148948 2014-07-22
JP2014148948 2014-07-22
PCT/JP2015/003628 WO2016013199A1 (ja) 2014-07-22 2015-07-17 仮想化基盤管理装置、仮想化基盤管理システム、仮想化基盤管理方法、及び、仮想化基盤管理プログラムが記録された記録媒体

Publications (2)

Publication Number Publication Date
CN106537354A CN106537354A (zh) 2017-03-22
CN106537354B true CN106537354B (zh) 2020-01-07

Family

ID=55162743

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580039881.0A Active CN106537354B (zh) 2014-07-22 2015-07-17 虚拟化基础设施管理装置、系统、方法和记录介质

Country Status (4)

Country Link
US (1) US10353786B2 (zh)
JP (1) JP6288275B2 (zh)
CN (1) CN106537354B (zh)
WO (1) WO2016013199A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9898321B2 (en) * 2015-07-23 2018-02-20 At&T Intellectual Property I, L.P. Data-driven feedback control system for real-time application support in virtualized networks
CN107179957B (zh) * 2016-03-10 2020-08-25 阿里巴巴集团控股有限公司 物理机故障分类处理方法、装置和虚拟机恢复方法、系统
KR102375064B1 (ko) * 2018-05-18 2022-03-17 주식회사 케이티 가상 머신과의 연결을 관리하는 서버 및 방법
US10769007B2 (en) * 2018-06-08 2020-09-08 Microsoft Technology Licensing, Llc Computing node failure and health prediction for cloud-based data center
JP7239828B2 (ja) * 2019-08-02 2023-03-15 富士通株式会社 システム管理方法、システム管理プログラム、およびシステム管理装置
JP7122332B2 (ja) * 2020-02-26 2022-08-19 株式会社日立製作所 情報処理システム及び方法
CN112395046B (zh) * 2020-07-30 2021-06-04 上海有孚智数云创数字科技有限公司 虚拟机迁移规划调度方法及其系统与介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102111303A (zh) * 2009-12-28 2011-06-29 北京安码科技有限公司 无人值守系统自动监护方法及装置
US8874952B2 (en) * 2010-01-05 2014-10-28 Hitachi, Ltd. Computer system and availability method thereof

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7243267B2 (en) * 2002-03-01 2007-07-10 Avaya Technology Llc Automatic failure detection and recovery of applications
JP2004133496A (ja) * 2002-10-08 2004-04-30 Hitachi Ltd コンピュータシステム
JP5035011B2 (ja) 2008-02-22 2012-09-26 日本電気株式会社 仮想サーバ管理装置および仮想サーバ管理方法
WO2009110111A1 (ja) * 2008-03-04 2009-09-11 三菱電機株式会社 サーバ装置及びサーバ装置の異常検知方法及びサーバ装置の異常検知プログラム
JP5211766B2 (ja) 2008-03-10 2013-06-12 富士通株式会社 資源割り当て装置及びプログラム
US20110078797A1 (en) * 2008-07-29 2011-03-31 Novell, Inc. Endpoint security threat mitigation with virtual machine imaging
JP5285045B2 (ja) * 2010-06-04 2013-09-11 日本電信電話株式会社 仮想環境における故障復旧方法及びサーバ及びプログラム
JP5732893B2 (ja) * 2011-02-17 2015-06-10 日本電気株式会社 リソース管理装置
JP2013210745A (ja) 2012-03-30 2013-10-10 Nec Corp 仮想化システム、制御サーバ、仮想マシン配置方法、仮想マシン配置プログラム
US20160357647A1 (en) * 2014-02-10 2016-12-08 Hitachi, Ltd. Computer, hypervisor, and method for allocating physical cores
TWI603266B (zh) * 2014-03-03 2017-10-21 廣達電腦股份有限公司 虛擬機器之資源調整方法及系統

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102111303A (zh) * 2009-12-28 2011-06-29 北京安码科技有限公司 无人值守系统自动监护方法及装置
US8874952B2 (en) * 2010-01-05 2014-10-28 Hitachi, Ltd. Computer system and availability method thereof

Also Published As

Publication number Publication date
US10353786B2 (en) 2019-07-16
JP6288275B2 (ja) 2018-03-07
JPWO2016013199A1 (ja) 2017-05-25
US20170212815A1 (en) 2017-07-27
CN106537354A (zh) 2017-03-22
WO2016013199A1 (ja) 2016-01-28

Similar Documents

Publication Publication Date Title
CN106537354B (zh) 虚拟化基础设施管理装置、系统、方法和记录介质
US9594582B2 (en) Detection and management of dynamic migration of virtual environments
US7574627B2 (en) Memory dump method, memory dump program and computer system
CN110083494B (zh) 在多核心环境中管理硬件错误的方法和装置
US20170017511A1 (en) Method for memory management in virtual machines, and corresponding system and computer program product
US9483782B2 (en) Automating capacity upgrade on demand
JP2004318885A (ja) 故障プロセッサを置き換える方法、媒体およびシステム
WO2008078334A2 (en) Computer system and method of control thereof
US9329937B1 (en) High availability architecture
US11733866B2 (en) Electronic storage system
WO2015114816A1 (ja) 管理計算機および管理プログラム
JP5998577B2 (ja) クラスタ監視装置、クラスタ監視方法、及びプログラム
JP2007133544A (ja) 障害情報解析方法及びその実施装置
JP4649341B2 (ja) 計算機制御方法、情報処理システムおよび計算機制御プログラム
JP5597293B2 (ja) 計算機システム及びプログラム
JP5540890B2 (ja) 障害処理プログラム、制御方法、及び情報処理装置
CN115114023A (zh) 线程池的线程分配方法、系统、终端及存储介质
JP2014010731A (ja) 計算機、計算機システム、及びioデバイス構成の引継ぎ方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant