CN103036711A - 状态检测方法及系统、管理节点设备 - Google Patents

状态检测方法及系统、管理节点设备 Download PDF

Info

Publication number
CN103036711A
CN103036711A CN2012105174015A CN201210517401A CN103036711A CN 103036711 A CN103036711 A CN 103036711A CN 2012105174015 A CN2012105174015 A CN 2012105174015A CN 201210517401 A CN201210517401 A CN 201210517401A CN 103036711 A CN103036711 A CN 103036711A
Authority
CN
China
Prior art keywords
node device
management node
state information
computing node
node equipment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012105174015A
Other languages
English (en)
Other versions
CN103036711B (zh
Inventor
谢朝阳
郑少斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianyi Cloud Technology Co Ltd
Original Assignee
Cloud Computing Branch of China Telecom Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cloud Computing Branch of China Telecom Corp Ltd filed Critical Cloud Computing Branch of China Telecom Corp Ltd
Priority to CN201210517401.5A priority Critical patent/CN103036711B/zh
Publication of CN103036711A publication Critical patent/CN103036711A/zh
Application granted granted Critical
Publication of CN103036711B publication Critical patent/CN103036711B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明实施例提供一种状态检测方法及系统、管理节点设备。本发明实施例通过管理节点设备创建的第二VM,对第一计算节点设备上运行的第一VM的状态进行监控,以获得所述第一VM的状态信息,使得在所述管理节点设备确定所述第一VM与所述管理节点设备之间的通信发生故障时,所述管理节点设备能够获取第二VM提供的所述第一VM的状态信息,能够避免现有技术中由于管理节点设备无法获取计算节点设备上运行的VM的状态信息而导致的所述管理节点设备误认为是VM出现故障的问题,从而提高了状态检测的可靠性。

Description

状态检测方法及系统、管理节点设备
【技术领域】
本发明涉及云计算技术,尤其涉及一种状态检测方法及系统、管理节点设备。 
【背景技术】
云计算(Cloud Computing)系统中,每个计算节点设备上可运行多个虚拟机(Virtual Machine,简称VM),云终端即瘦终端(Thin Client,简称TC)可以登录到对应的VM上,例如:TC通过远程桌面协议登录到对应的VM上,进行通信业务。现有技术中,为了提高虚拟机的可用性,管理节点设备可以通过计算节点设备获取运行在个该计算节点设备上的VM的状态信息,对VM进行状态检测,如果检测到VM出现故障,则可以对VM进行迁移或者故障修复。 
然而,当计算节点设备上运行的VM与管理节点设备之间的通信发生故障时,例如,计算节点设备与管理节点设备之间的通信连接故障,或者计算节点设备上运行的VM与计算节点设备之间的通信连接故障等,会使得所述管理节点设备无法获取所述计算节点设备上运行的VM的状态信息,致使所述管理节点设备误认为是VM出现故障,从而导致了状态检测的可靠性的降低。 
【发明内容】
本发明的多个方面提供一种状态检测方法及系统、管理节点设备,用以提高状态检测的可靠性。 
本发明的一方面,提供一种状态检测方法,包括: 
管理节点设备确定第一计算节点设备上运行的第一VM与所述管理节点设 备之间的通信发生故障; 
所述管理节点设备获取第二VM提供的所述第一VM的状态信息,所述第二VM用于对所述第一VM的状态进行监控,以获得所述第一VM的状态信息。 
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述管理节点设备确定第一计算节点设备上运行的第一VM与所述管理节点设备之间的通信发生故障,包括: 
所述管理节点设备确定无法获取所述第一计算节点设备提供的所述第一VM的状态信息,以确定所述第一VM与所述管理节点设备之间的通信发生故障。 
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述管理节点设备获取第二VM提供的所述第一VM的状态信息,包括: 
所述管理节点设备向所述第二VM发送请求消息,用以请求获取所述第一VM的状态信息; 
所述管理节点设备接收所述第二VM根据所述请求消息,发送的所述第一VM的状态信息。 
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述管理节点设备获取第二VM提供的所述第一VM的状态信息之前,还包括: 
所述管理节点设备创建所述第二VM。 
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述管理节点设备创建所述第二VM,包括: 
所述管理节点设备在所述第一计算节点设备上创建所述第二VM;或者 
所述管理节点设备在第二计算节点设备上创建所述第二VM,所述第二计算节点设备与所述第一计算节点设备为不同的计算节点设备。 
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,在所述管理节点设备在所述第二计算节点设备上创建所述第二VM之后,所述管理节点设备获取第二VM提供的所述第一VM的状态信息之前,还包括: 
所述第二VM通过所述第一计算节点设备与所述第二计算节点设备之间的管理网络,获取所述第一VM的状态信息;或者 
所述第二VM通过所述第一计算节点设备与所述第二计算节点设备之间的业务网络,获取所述第一VM的状态信息。 
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述管理节点设备获取第二VM提供的所述第一VM的状态信息之后,还包括: 
所述管理节点设备确定所述第一VM与所述管理节点设备之间的通信恢复正常; 
所述管理节点设备获取所述第一计算节点设备提供的所述第一VM的状态信息。 
本发明的另一方面,提供一种管理节点设备,包括: 
确定单元,用于确定第一计算节点设备上运行的第一VM与所述管理节点设备之间的通信发生故障; 
获取单元,用于获取第二VM提供的所述第一VM的状态信息,所述第二VM用于对所述第一VM的状态进行监控,以获得所述第一VM的状态信息。 
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述确定单元具体用于 
确定所述获取单元无法获取所述第一计算节点设备提供的所述第一VM的状态信息,以确定所述第一VM与所述管理节点设备之间的通信发生故障。 
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述获取单元具体用于 
向所述第二VM发送请求消息,用以请求获取所述第一VM的状态信息;以及接收所述第二VM根据所述请求消息,发送的所述第一VM的状态信息。 
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述管理节点设备还包括创建单元,用于 
在所述获取单元获取第二VM提供的所述第一VM的状态信息之前,创建所述第二VM。 
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述创建单元具体用于 
在所述第一计算节点设备上创建所述第二VM;或者 
在第二计算节点设备上创建所述第二VM,所述第二计算节点设备与所述第一计算节点设备为不同的计算节点设备。 
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式, 
所述确定单元,还用于 
确定所述第一VM与所述管理节点设备之间的通信恢复正常; 
所述获取单元,还用于 
获取所述第一计算节点设备提供的所述第一VM的状态信息。 
本发明的另一方面,提供一种状态检测系统,包括: 
第一计算节点设备,用于运行第一VM; 
管理节点设备,用于确定所述第一计算节点设备上运行的第一VM与所述管理节点设备之间的通信发生故障,以及获取第二VM提供的所述第一VM的状态信息,所述第二VM用于对所述第一VM的状态进行监控,以获得所述第一VM的状态信息。 
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述管理节点设备具体用于 
确定无法获取所述第一计算节点设备提供的所述第一VM的状态信息,以确定所述第一VM与所述管理节点设备之间的通信发生故障。 
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述管理节点设备具体用于 
向所述第二VM发送请求消息,用以请求获取所述第一VM的状态信息;以及接收所述第二VM根据所述请求消息,发送的所述第一VM的状态信息。 
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述管理节点设备还用于 
在获取第二VM提供的所述第一VM的状态信息之前,创建所述第二VM。 
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述管理节点设备具体用于 
在所述第一计算节点设备上创建所述第二VM;或者 
在第二计算节点设备上创建所述第二VM,所述第二计算节点设备与所述第一计算节点设备为不同的计算节点设备,所述系统还包括第二计算节点设备,用于运行所述第二VM。 
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式, 
所述第二VM通过所述第一计算节点设备与所述第二计算节点设备之间的管理网络,获取所述第一VM的状态信息;或者 
所述第二VM通过所述第一计算节点设备与所述第二计算节点设备之间的业务网络,获取所述第一VM的状态信息。 
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述管理节点设备还用于 
确定所述第一VM与所述管理节点设备之间的通信恢复正常;以及获取所述第一计算节点设备提供的所述第一VM的状态信息。 
由上述技术方案可知,本发明实施例通过管理节点设备创建的第二VM,对第一计算节点设备上运行的第一VM的状态进行监控,以获得所述第一VM的状态信息,使得在所述管理节点设备确定所述第一VM与所述管理节点设备之间的通信发生故障时,所述管理节点设备能够获取第二VM提供的所述第一VM的状态信息,能够避免现有技术中由于管理节点设备无法获取计算节点设备上运行的VM的状态信息而导致的所述管理节点设备误认为是VM出现故障的问题,从而提高了状态检测的可靠性。 
【附图说明】
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。 
图1为本发明一实施例提供的状态检测方法的流程示意图; 
图2为本发明另一实施例提供的状态检测方法的流程示意图; 
图3为本发明另一实施例提供的管理节点设备的结构示意图; 
图4为本发明另一实施例提供的管理节点设备的结构示意图; 
图5为本发明另一实施例提供的状态检测系统的结构示意图; 
图6为本发明另一实施例提供的状态检测系统的结构示意图。 
【具体实施方式】
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。 
另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。 
图1为本发明一实施例提供的状态检测方法的流程示意图,如图1所示。 
101、管理节点设备确定第一计算节点设备上运行的第一VM与所述管理节点设备之间的通信发生故障。 
102、所述管理节点设备获取第二VM提供的所述第一VM的状态信息,所述第二VM用于对所述第一VM的状态进行监控,以获得所述第一VM的状态信息。 
本实施例中,第一计算节点设备上运行的第一VM与所述管理节点设备之间的通信发生故障,可以有多种情况。例如,所述第一计算节点设备与所述管理节点设备之间的通信连接出现故障;再例如,所述第一计算节点设备与该第一计算节点设备上运行的VM之间的通信连接出现故障;再例如,所述第一计算节点设备的用于所述管理网络的网卡出现故障等情况。 
这样,当管理节点设备确定第一计算节点设备上运行的第一VM与所述管理节点设备之间的通信发生故障时,可以通过第二VM对所述第一VM的状态进行监控,以获得所述第一VM的状态信息,使得所述管理节点设备能够获取第二VM提供的所述第一VM的状态信息,能够避免现有技术中由于管理节点设备无法获取计算节点设备上运行的VM的状态信息而导致的所述管理节点设备误认为是VM出现故障的问题,从而提高了状态检测的可靠性。 
可选地,在本实施例的一个可能的实现方式中,在101中,所述管理节点设备具体可以通过确定无法获取所述第一计算节点设备提供的所述第一VM的状态信息,以确定所述第一VM与所述管理节点设备之间的通信发生故障。 
可选地,在本实施例的一个可能的实现方式中,在102中,所述管理节点设备具体可以向所述第二VM发送请求消息,用以请求获取所述第一VM的状态信息;然后,所述管理节点设备则可以接收所述第二VM根据所述请求消息,发送的所述第一VM的状态信息。 
可选地,在本实施例的一个可能的实现方式中,在102之前,所述管理节点设备还可以进一步创建所述第二VM。 
其中,所述第二VM还可以成为所述第一VM的影子VM。为了节省云计算资源,所述第二VM所消耗的资源可以配置为小于或等于预先配置的资源阈值,例如,0.1核(c)的CPU,10兆(M)字节~100M字节的内存等。当第一计算节点设备上运行的第一VM与管理节点设备之间的通信正常时,所述第二VM可以处于休眠状态。当第一计算节点设备上运行的第一VM与管理节点设备之间的通信出现故障时,所述第二VM则被所述管理节点设备唤醒,对所述第一VM的状态进行监控,以获得所述第一VM的状态信息。这样,对整个系统的性能影响很小,能够进一步降低能量消耗。 
具体地,所述管理节点设备具体可以在所述第一计算节点设备上创建所述第二VM。这样,如果出现了所述第一计算节点设备与该第一计算节点设备上运行的第一VM之间的通信连接出现故障的情况,致使所述第一计算节点设备上运行的第一VM与所述管理节点设备之间的通信发生故障,所述管理节点设备 则可以通过执行102,来检测所述第一VM的状态。 
具体地,所述管理节点设备具体还可以在第二计算节点设备上创建所述第二VM,所述第二计算节点设备与所述第一计算节点设备为不同的计算节点设备。这样,如果出现了所述第一计算节点设备与所述管理节点设备之间的通信连接出现故障,或者所述第一计算节点设备的用于所述管理网络的网卡出现故障等的情况,致使所述第一计算节点设备上运行的第一VM与所述管理节点设备之间的通信发生故障,所述管理节点设备则可以通过执行102,来检测所述第一VM的状态。 
进一步可选地,在所述管理节点设备在所述第二计算节点设备上创建所述第二VM之后,所述第二VM可以通过所述第一计算节点设备与所述第二计算节点设备之间的管理网络,获取所述第一VM的状态信息,或者所述第二VM还可以通过所述第一计算节点设备与所述第二计算节点设备之间的业务网络,获取所述第一VM的状态信息。这样,所述管理节点设备则可以获取第二VM提供的所述第一VM的状态信息。 
例如,所述第二VM具体可以通过因特网包探索器(Packet Internet Grope,PING)命令、简单网络管理协议(Simple Network Management Protocol,SNMP)等方式,检测所述第一VM上安装的操作系统的运行状态,以获取所述第一VM的状态信息。 
再例如,所述第二VM具体还可以根据所述第一VM上运行的业务的业务类型,例如,超文本传输协议(Hypertext Transfer Protocol,HTTP)服务或数据库服务等,对所述服务类型的业务进行监控,以检测所述第一VM上运行的业务的运行状态,以获取所述第一VM的状态信息。 
可选地,在本实施例的一个可能的实现方式中,在所述管理节点设备执行101和102之后,所述管理节点设备还可以进一步确定所述第一VM与所述管理节点设备之间的通信恢复正常;然后,所述管理节点设备则可以采用现有技术中的技术方案,即获取所述第一计算节点设备提供的所述第一VM的状态信息。 
本实施例中,通过管理节点设备创建的第二VM,对第一计算节点设备上运行的第一VM的状态进行监控,以获得所述第一VM的状态信息,使得在所述管理节点设备确定所述第一VM与所述管理节点设备之间的通信发生故障时,所述管理节点设备能够获取第二VM提供的所述第一VM的状态信息,能够避免现有技术中由于管理节点设备无法获取计算节点设备上运行的VM的状态信息而导致的所述管理节点设备误认为是VM出现故障的问题,从而提高了状态检测的可靠性。 
为使得本发明实施例提供的方法更加清楚,下面将以管理节点设备需要检测运行在计算节点设备A上的VM A的状态作为举例。图2为本发明另一实施例提供的状态检测方法的流程示意图,如图2所示。 
201、管理节点设备在计算节点设备A上创建VM A,用以执行用户向云计算中心租用的服务。 
202、管理节点设备在计算节点设备B上创建VM B即VM A的影子VM。 
具体地,VM B初始创建之后,可以处于休眠状态。 
203、管理节点设备判断是否能够通过计算节点设备A,获取所述VM A的状态信息,如果是,则继续执行203,以对所述VM A的状态进行检测;否则,则执行204。 
204、管理节点设备唤醒VM B,以进入唤醒状态,以对所述VM A的状态进行监控,以获得所述VM A的状态信息。 
205、管理节点设备获取VM B提供的所述VM A的状态信息。 
206、管理节点设备根据所述VM A的状态信息,对VM A执行管理操作。 
具体地,如果所述VM A的状态信息指示VM A的状态正常,那么,所述管理节点设备则继续执行205,以对所述VM A的状态进行检测;如果所述VM A的状态信息指示VM A的状态不正常,那么,所述管理节点设备则可以对VM A进行迁移或者故障修复。 
本实施例中,通过管理节点设备在计算节点设备B上创建的VM B,对 计算节点设备A上运行的VM A的状态进行监控,以获得所述VM A的状态信息,使得在所述管理节点设备确定所述VM A与所述管理节点设备之间的通信发生故障时,所述管理节点设备能够获取VM B提供的所述VM A的状态信息,能够避免现有技术中由于管理节点设备无法获取计算节点设备上运行的VM的状态信息而导致的所述管理节点设备误认为是VM出现故障的问题,从而提高了状态检测的可靠性。 
进一步地,过了一段预先配置的时间之后,管理节点设备还可以进一步判断是否能够通过计算节点设备A,获取所述VM A的状态信息,如果是,则休眠VM B,并通过计算节点设备A,获取所述VM A的状态信息,以对所述VM A的状态进行检测,恢复采用现有技术中的技术方案。 
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。 
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。 
图3为本发明另一实施例提供的管理节点设备的结构示意图,如图3所示。本实施例的管理节点设备可以包括确定单元31和获取单元32。其中,确定单元31,用于确定第一计算节点设备上运行的第一VM与所述管理节点设备之间的通信发生故障;获取单元32,用于获取第二VM提供的所述第一VM的状态信息,所述第二VM用于对所述第一VM的状态进行监控,以获得所述第一VM的状态信息。 
本实施例中,第一计算节点设备上运行的第一VM与所述管理节点设备之间的通信发生故障,可以有多种情况。例如,所述第一计算节点设备与所述管理节点设备之间的通信连接出现故障;再例如,所述第一计算节点设备与该第一计算节点设备上运行的VM之间的通信连接出现故障;再例如,所述第一计 算节点设备的用于所述管理网络的网卡出现故障等情况。 
这样,当确定单元31确定第一计算节点设备上运行的第一VM与所述管理节点设备之间的通信发生故障时,可以通过第二VM对所述第一VM的状态进行监控,以获得所述第一VM的状态信息,使得获取单元32能够获取第二VM提供的所述第一VM的状态信息,能够避免现有技术中由于管理节点设备无法获取计算节点设备上运行的VM的状态信息而导致的所述管理节点设备误认为是VM出现故障的问题,从而提高了状态检测的可靠性。 
可选地,在本实施例的一个可能的实现方式中,所述确定单元31具体可以用于确定所述获取单元32无法获取所述第一计算节点设备提供的所述第一VM的状态信息,以确定所述第一VM与所述管理节点设备之间的通信发生故障。 
可选地,在本实施例的一个可能的实现方式中,所述获取单元32具体可以用于向所述第二VM发送请求消息,用以请求获取所述第一VM的状态信息;以及接收所述第二VM根据所述请求消息,发送的所述第一VM的状态信息。 
可选地,在本实施例的一个可能的实现方式中,如图4所示,所述管理节点设备还可以进一步包括创建单元41,用于在所述获取单元32获取第二VM提供的所述第一VM的状态信息之前,创建所述第二VM。 
其中,所述第二VM还可以成为所述第一VM的影子VM。为了节省云计算资源,所述第二VM所消耗的资源可以配置为小于或等于预先配置的资源阈值,例如,0.1核(c)的CPU,10兆(M)字节~100M字节的内存等。当第一计算节点设备上运行的第一VM与管理节点设备之间的通信正常时,所述第二VM可以处于休眠状态。当第一计算节点设备上运行的第一VM与管理节点设备之间的通信出现故障时,所述第二VM则被所述管理节点设备唤醒,对所述第一VM的状态进行监控,以获得所述第一VM的状态信息。这样,对整个系统的性能影响很小,能够进一步降低能量消耗。 
具体地,所述创建单元41具体可以用于在所述第一计算节点设备上创建所述第二VM。这样,如果出现了所述第一计算节点设备与该第一计算节点设备上 运行的第一VM之间的通信连接出现故障的情况,致使所述确定单元31确定所述第一计算节点设备上运行的第一VM与所述管理节点设备之间的通信发生故障,所述获取单元32则可以通过执行对应的操作,来实现所述管理节点设备检测所述第一VM的状态。 
具体地,所述创建单元41具体还可以用于在第二计算节点设备上创建所述第二VM,所述第二计算节点设备与所述第一计算节点设备为不同的计算节点设备。这样,如果出现了所述第一计算节点设备与所述管理节点设备之间的通信连接出现故障,或者所述第一计算节点设备的用于所述管理网络的网卡出现故障等的情况,致使所述确定单元31确定所述第一计算节点设备上运行的第一VM与所述管理节点设备之间的通信发生故障,所述获取单元32则可以通过执行对应的操作,来实现所述管理节点设备检测所述第一VM的状态。 
进一步可选地,在所述创建单元41在所述第二计算节点设备上创建所述第二VM之后,所述第二VM可以通过所述第一计算节点设备与所述第二计算节点设备之间的管理网络,获取所述第一VM的状态信息,或者所述第二VM还可以通过所述第一计算节点设备与所述第二计算节点设备之间的业务网络,获取所述第一VM的状态信息。这样,所述获取单元32则可以获取第二VM提供的所述第一VM的状态信息。 
例如,所述第二VM具体可以通过因特网包探索器(Packet Internet Grope,PING)命令、简单网络管理协议(Simple Network Management Protocol,SNMP)等方式,检测所述第一VM上安装的操作系统的运行状态,以获取所述第一VM的状态信息。 
再例如,所述第二VM具体还可以根据所述第一VM上运行的业务的业务类型,例如,超文本传输协议(Hypertext Transfer Protocol,HTTP)服务或数据库服务等,对所述服务类型的业务进行监控,以检测所述第一VM上运行的业务的运行状态,以获取所述第一VM的状态信息。 
可选地,在本实施例的一个可能的实现方式中,所述确定单元31,还可以进一步用于确定所述第一VM与所述管理节点设备之间的通信恢复正常;然后, 所述获取单元32,则可以采用现有技术中的技术方案,即获取所述第一计算节点设备提供的所述第一VM的状态信息。 
需要说明的是,本实施例提供的管理节点设备具体可以分别部署两个管理单元,一个用于管理第一VM,即第一管理单元;另一个用于管理第二VM,即第二管理单元。其中,所述第一管理单元可以用于负责第一VM的创建、启动、休眠、唤醒、检测、迁移以及调用第二管理单元等;所述第二管理单元根据第一管理单元的调用,负责第二VM的创建、休眠以及唤醒。其中,所述调用的接口可以包括但不限于以下三种: 
1、创建接口,用于根据第一管理单元的调用,创建所述第二VM; 
2、休眠接口,用于根据第一管理单元的调用,休眠所述第二VM;以及 
3、唤醒接口,用于根据第一管理单元的调用,唤醒所述第二VM,以执行相应的操作。 
本实施例中,管理节点设备通过创建的第二VM,对第一计算节点设备上运行的第一VM的状态进行监控,以获得所述第一VM的状态信息,使得在确定单元确定所述第一VM与所述管理节点设备之间的通信发生故障时,获取单元能够获取第二VM提供的所述第一VM的状态信息,能够避免现有技术中由于管理节点设备无法获取计算节点设备上运行的VM的状态信息而导致的所述管理节点设备误认为是VM出现故障的问题,从而提高了状态检测的可靠性。 
图5为本发明另一实施例提供的状态检测系统的结构示意图,如图5所示。本实施例的状态检测系统可以包括第一计算节点设备51和管理节点设备52。其中,第一计算节点设备51,用于运行第一VM;管理节点设备52,用于确定所述第一计算节点设备51上运行的第一VM与所述管理节点设备52之间的通信发生故障,以及获取第二VM提供的所述第一VM的状态信息,所述第二VM用于对所述第一VM的状态进行监控,以获得所述第一VM的状态信息。 
本实施例中,第一计算节点设备51上运行的第一VM与所述管理节点设备52之间的通信发生故障,可以有多种情况。例如,所述第一计算节点设备51与所述管理节点设备52之间的通信连接出现故障;再例如,所述第一计算节点 设备51与该第一计算节点设备51上运行的VM之间的通信连接出现故障;再例如,所述第一计算节点设备51的用于所述管理网络的网卡出现故障等情况。 
这样,当管理节点设备52确定第一计算节点设备51上运行的第一VM与所述管理节点设备52之间的通信发生故障时,可以通过第二VM对所述第一VM的状态进行监控,以获得所述第一VM的状态信息,使得所述管理节点设备52能够获取第二VM提供的所述第一VM的状态信息,能够避免现有技术中由于管理节点设备52无法获取计算节点设备上运行的VM的状态信息而导致的所述管理节点设备52误认为是VM出现故障的问题,从而提高了状态检测的可靠性。 
可选地,在本实施例的一个可能的实现方式中,所述管理节点设备52具体可以用于确定无法获取所述第一计算节点设备51提供的所述第一VM的状态信息,以确定所述第一VM与所述管理节点设备52之间的通信发生故障。 
可选地,在本实施例的一个可能的实现方式中,所述管理节点设备52具体可以用于向所述第二VM发送请求消息,用以请求获取所述第一VM的状态信息;以及接收所述第二VM根据所述请求消息,发送的所述第一VM的状态信息。 
可选地,在本实施例的一个可能的实现方式中,所述管理节点设备52还可以进一步用于在获取第二VM提供的所述第一VM的状态信息之前,创建所述第二VM。 
其中,所述第二VM还可以成为所述第一VM的影子VM。为了节省云计算资源,所述第二VM所消耗的资源可以配置为小于或等于预先配置的资源阈值,例如,0.1核(c)的CPU,10兆(M)字节~100M字节的内存等。当第一计算节点设备51上运行的第一VM与管理节点设备52之间的通信正常时,所述第二VM可以处于休眠状态。当第一计算节点设备51上运行的第一VM与管理节点设备52之间的通信出现故障时,所述第二VM则被所述管理节点设备52唤醒,对所述第一VM的状态进行监控,以获得所述第一VM的状态信息。这样,对整个系统的性能影响很小,能够进一步降低能量消耗。 
具体地,所述管理节点设备52具体可以在所述第一计算节点设备51上创建所述第二VM。这样,如果出现了所述第一计算节点设备51与该第一计算节点设备51上运行的第一VM之间的通信连接出现故障的情况,致使所述第一计算节点设备51上运行的第一VM与所述管理节点设备52之间的通信发生故障,所述管理节点设备52则可以通过执行102,来检测所述第一VM的状态。 
具体地,所述管理节点设备52具体可以用于在所述第一计算节点设备51上创建所述第二VM。这样,如果出现了所述第一计算节点设备51与该第一计算节点设备51上运行的第一VM之间的通信连接出现故障的情况,致使所述第一计算节点设备51上运行的第一VM与所述管理节点设备52之间的通信发生故障,所述管理节点设备52则可以通过执行对应的操作,来检测所述第一VM的状态。 
具体地,如图6所示,所述管理节点设备52具体还可以用于在第二计算节点设备61上创建所述第二VM,所述第二计算节点设备61与所述第一计算节点设备51为不同的计算节点设备;相应地,本实施例提供的状态检测系统还可以进一步包括第二计算节点设备61,用于运行所述第二VM。这样,如果出现了所述第一计算节点设备51与所述管理节点设备52之间的通信连接出现故障,或者所述第一计算节点设备51的用于所述管理网络的网卡出现故障等的情况,致使所述第一计算节点设备51上运行的第一VM与所述管理节点设备52之间的通信发生故障,所述管理节点设备52则可以通过执行对应的操作,来检测所述第一VM的状态。 
进一步可选地,在所述管理节点设备52在所述第二计算节点设备61上创建所述第二VM之后,所述第二VM可以通过所述第一计算节点设备51与所述第二计算节点设备61之间的管理网络,获取所述第一VM的状态信息,或者所述第二VM还可以通过所述第一计算节点设备51与所述第二计算节点设备61之间的业务网络,获取所述第一VM的状态信息。这样,所述管理节点设备52则可以获取第二VM提供的所述第一VM的状态信息。 
例如,所述第二VM具体可以通过因特网包探索器(Packet Internet Grope, PING)命令、简单网络管理协议(Simple Network Management Protocol,SNMP)等方式,检测所述第一VM上安装的操作系统的运行状态,以获取所述第一VM的状态信息。 
再例如,所述第二VM具体还可以根据所述第一VM上运行的业务的业务类型,例如,超文本传输协议(Hypertext Transfer Protocol,HTTP)服务或数据库服务等,对所述服务类型的业务进行监控,以检测所述第一VM上运行的业务的运行状态,以获取所述第一VM的状态信息。 
可选地,在本实施例的一个可能的实现方式中,所述管理节点设备52还可以进一步用于确定所述第一VM与所述管理节点设备52之间的通信恢复正常;以及可以采用现有技术中的技术方案,即获取所述第一计算节点设备51提供的所述第一VM的状态信息。 
需要说明的是,管理节点设备52具体可以分别部署两个管理单元,一个用于管理第一VM,即第一管理单元;另一个用于管理第二VM,即第二管理单元。其中,所述第一管理单元可以用于负责第一VM的创建、启动、休眠、唤醒、检测、迁移以及调用第二管理单元等;所述第二管理单元根据第一管理单元的调用,负责第二VM的创建、休眠以及唤醒。其中,所述调用的接口可以包括但不限于以下三种: 
1、创建接口,用于根据第一管理单元的调用,创建所述第二VM; 
2、休眠接口,用于根据第一管理单元的调用,休眠所述第二VM;以及 
3、唤醒接口,用于根据第一管理单元的调用,唤醒所述第二VM,以执行相应的操作。 
本实施例中,通过管理节点设备创建的第二VM,对第一计算节点设备上运行的第一VM的状态进行监控,以获得所述第一VM的状态信息,使得在所述管理节点设备确定所述第一VM与所述管理节点设备之间的通信发生故障时,所述管理节点设备能够获取第二VM提供的所述第一VM的状态信息,能够避免现有技术中由于管理节点设备无法获取计算节点设备上运行的VM的状态信息而导致的所述管理节点设备误认为是VM出现故障的问题,从而提高了状态 检测的可靠性。 
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。 
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。 
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。 
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。 
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。 
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其 限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。 

Claims (20)

1.一种状态检测方法,其特征在于,包括:
管理节点设备确定第一计算节点设备上运行的第一虚拟机VM与所述管理节点设备之间的通信发生故障;
所述管理节点设备获取第二VM提供的所述第一VM的状态信息,所述第二VM用于对所述第一VM的状态进行监控,以获得所述第一VM的状态信息。
2.根据权利要求1所述的方法,其特征在于,所述管理节点设备确定第一计算节点设备上运行的第一VM与所述管理节点设备之间的通信发生故障,包括:
所述管理节点设备确定无法获取所述第一计算节点设备提供的所述第一VM的状态信息,以确定所述第一VM与所述管理节点设备之间的通信发生故障。
3.根据权利要求1或2所述的方法,其特征在于,所述管理节点设备获取第二VM提供的所述第一VM的状态信息,包括:
所述管理节点设备向所述第二VM发送请求消息,用以请求获取所述第一VM的状态信息;
所述管理节点设备接收所述第二VM根据所述请求消息,发送的所述第一VM的状态信息。
4.根据权利要求1~3任一权利要求所述的方法,其特征在于,所述管理节点设备获取第二VM提供的所述第一VM的状态信息之前,还包括:
所述管理节点设备创建所述第二VM。
5.根据权利要求4所述的方法,其特征在于,所述管理节点设备创建所述第二VM,包括:
所述管理节点设备在所述第一计算节点设备上创建所述第二VM;或者
所述管理节点设备在第二计算节点设备上创建所述第二VM,所述第二计算节点设备与所述第一计算节点设备为不同的计算节点设备。
6.根据权利要求5所述的方法,其特征在于,在所述管理节点设备在所述第二计算节点设备上创建所述第二VM之后,所述管理节点设备获取第二VM提供的所述第一VM的状态信息之前,还包括:
所述第二VM通过所述第一计算节点设备与所述第二计算节点设备之间的管理网络,获取所述第一VM的状态信息;或者
所述第二VM通过所述第一计算节点设备与所述第二计算节点设备之间的业务网络,获取所述第一VM的状态信息。
7.根据权利要求1~6任一权利要求所述的方法,其特征在于,所述管理节点设备获取第二VM提供的所述第一VM的状态信息之后,还包括:
所述管理节点设备确定所述第一VM与所述管理节点设备之间的通信恢复正常;
所述管理节点设备获取所述第一计算节点设备提供的所述第一VM的状态信息。
8.一种管理节点设备,其特征在于,包括:
确定单元,用于确定第一计算节点设备上运行的第一虚拟机VM与所述管理节点设备之间的通信发生故障;
获取单元,用于获取第二VM提供的所述第一VM的状态信息,所述第二VM用于对所述第一VM的状态进行监控,以获得所述第一VM的状态信息。
9.根据权利要求8所述的管理节点设备,其特征在于,所述确定单元具体用于
确定所述获取单元无法获取所述第一计算节点设备提供的所述第一VM的状态信息,以确定所述第一VM与所述管理节点设备之间的通信发生故障。
10.根据权利要求8或9所述的管理节点设备,其特征在于,所述获取单元具体用于
向所述第二VM发送请求消息,用以请求获取所述第一VM的状态信息;以及接收所述第二VM根据所述请求消息,发送的所述第一VM的状态信息。
11.根据权利要求8~10任一权利要求所述的管理节点设备,其特征在于,所述管理节点设备还包括创建单元,用于
在所述获取单元获取第二VM提供的所述第一VM的状态信息之前,创建所述第二VM。
12.根据权利要求11所述的管理节点设备,其特征在于,所述创建单元具体用于
在所述第一计算节点设备上创建所述第二VM;或者
在第二计算节点设备上创建所述第二VM,所述第二计算节点设备与所述第一计算节点设备为不同的计算节点设备。
13.根据权利要求8~12任一权利要求所述的管理节点设备,其特征在于,
所述确定单元,还用于
确定所述第一VM与所述管理节点设备之间的通信恢复正常;
所述获取单元,还用于
获取所述第一计算节点设备提供的所述第一VM的状态信息。
14.一种状态检测系统,其特征在于,包括:
第一计算节点设备,用于运行第一虚拟机VM;
管理节点设备,用于确定所述第一计算节点设备上运行的第一VM与所述管理节点设备之间的通信发生故障,以及获取第二VM提供的所述第一VM的状态信息,所述第二VM用于对所述第一VM的状态进行监控,以获得所述第一VM的状态信息。
15.根据权利要求14所述的系统,其特征在于,所述管理节点设备具体用于
确定无法获取所述第一计算节点设备提供的所述第一VM的状态信息,以确定所述第一VM与所述管理节点设备之间的通信发生故障。
16.根据权利要求14或15所述的系统,其特征在于,所述管理节点设备具体用于
向所述第二VM发送请求消息,用以请求获取所述第一VM的状态信息;以及接收所述第二VM根据所述请求消息,发送的所述第一VM的状态信息。
17.根据权利要求14~16任一权利要求所述的系统,其特征在于,所述管理节点设备还用于
在获取第二VM提供的所述第一VM的状态信息之前,创建所述第二VM。
18.根据权利要求17所述的系统,其特征在于,所述管理节点设备具体用于
在所述第一计算节点设备上创建所述第二VM;或者
在第二计算节点设备上创建所述第二VM,所述第二计算节点设备与所述第一计算节点设备为不同的计算节点设备,所述系统还包括第二计算节点设备,用于运行所述第二VM。
19.根据权利要求18所述的系统,其特征在于,
所述第二VM通过所述第一计算节点设备与所述第二计算节点设备之间的管理网络,获取所述第一VM的状态信息;或者
所述第二VM通过所述第一计算节点设备与所述第二计算节点设备之间的业务网络,获取所述第一VM的状态信息。
20.根据权利要求14~19任一权利要求所述的系统,其特征在于,所述管理节点设备还用于
确定所述第一VM与所述管理节点设备之间的通信恢复正常;以及获取所述第一计算节点设备提供的所述第一VM的状态信息。
CN201210517401.5A 2012-12-05 2012-12-05 状态检测方法及系统、管理节点设备 Active CN103036711B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210517401.5A CN103036711B (zh) 2012-12-05 2012-12-05 状态检测方法及系统、管理节点设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210517401.5A CN103036711B (zh) 2012-12-05 2012-12-05 状态检测方法及系统、管理节点设备

Publications (2)

Publication Number Publication Date
CN103036711A true CN103036711A (zh) 2013-04-10
CN103036711B CN103036711B (zh) 2016-03-16

Family

ID=48023224

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210517401.5A Active CN103036711B (zh) 2012-12-05 2012-12-05 状态检测方法及系统、管理节点设备

Country Status (1)

Country Link
CN (1) CN103036711B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106096379A (zh) * 2016-06-29 2016-11-09 浪潮电子信息产业股份有限公司 一种计算节点的安全加固的方法及装置
CN106708678A (zh) * 2016-12-13 2017-05-24 郑州云海信息技术有限公司 一种模拟应用程序智能诊断系统及诊断检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101021800A (zh) * 2006-02-16 2007-08-22 Sap股份公司 虚拟机监控
US20100318610A1 (en) * 2009-06-16 2010-12-16 Sun Microsystems, Inc. Method and system for a weak membership tie-break
CN102455951A (zh) * 2011-07-21 2012-05-16 中标软件有限公司 一种虚拟机容错方法和系统
CN102693177A (zh) * 2011-03-23 2012-09-26 中国移动通信集团公司 虚拟机故障诊断方法、处理方法及其装置和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101021800A (zh) * 2006-02-16 2007-08-22 Sap股份公司 虚拟机监控
US20100318610A1 (en) * 2009-06-16 2010-12-16 Sun Microsystems, Inc. Method and system for a weak membership tie-break
CN102693177A (zh) * 2011-03-23 2012-09-26 中国移动通信集团公司 虚拟机故障诊断方法、处理方法及其装置和系统
CN102455951A (zh) * 2011-07-21 2012-05-16 中标软件有限公司 一种虚拟机容错方法和系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106096379A (zh) * 2016-06-29 2016-11-09 浪潮电子信息产业股份有限公司 一种计算节点的安全加固的方法及装置
CN106708678A (zh) * 2016-12-13 2017-05-24 郑州云海信息技术有限公司 一种模拟应用程序智能诊断系统及诊断检测方法
CN106708678B (zh) * 2016-12-13 2019-12-17 苏州浪潮智能科技有限公司 一种模拟应用程序智能诊断系统及诊断检测方法

Also Published As

Publication number Publication date
CN103036711B (zh) 2016-03-16

Similar Documents

Publication Publication Date Title
TWI746512B (zh) 實體機器故障分類處理方法、裝置和虛擬機器恢復方法、系統
CN104170323A (zh) 基于网络功能虚拟化的故障处理方法及装置、系统
CN110581852A (zh) 一种高效型拟态防御系统及方法
EP3142011A1 (en) Anomaly recovery method for virtual machine in distributed environment
CN104899095A (zh) 虚拟机器的资源调整方法及系统
CN103559124B (zh) 故障快速检测方法及装置
CN105243004A (zh) 一种故障资源检测方法及装置
CN111726413B (zh) 设备连接方法和装置
CN115277566B (zh) 数据访问的负载均衡方法、装置、计算机设备及介质
US10102088B2 (en) Cluster system, server device, cluster system management method, and computer-readable recording medium
CN105893134A (zh) 一种信息处理方法及电子设备
CN115145769A (zh) 一种智能网卡及其供电方法、装置以及介质
CN103309764A (zh) 虚拟机的容错机制的保护方法和装置
CN107277245A (zh) 打卡提醒方法及装置
CN105354127A (zh) 基于云管理平台的监控方法
CN103036711B (zh) 状态检测方法及系统、管理节点设备
CN103064702A (zh) 应用程序提供方法及管理节点设备
CN109710492A (zh) 应用程序运行监控方法、介质及电子设备
CN106210101B (zh) 消息管理系统及消息管理方法
CN109947576B (zh) 一种虚拟机内部代理程序管理的方法
US20230336444A1 (en) Method and Apparatus for Determining Application Service Dependency and Processor
JP6775452B2 (ja) 監視システム、プログラムおよび監視方法
CN113535368A (zh) 任务处理方法、装置和电子设备
CN102412948A (zh) 数据震荡环境下的高可靠性备份的实现方法及装置
CN112735059A (zh) 一种自助设备部件状态提示方法、装置及介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: CHINA TELECOMMUNICATION CO., LTD.

Free format text: FORMER OWNER: CLOUD COMPUTING BRANCH OF CHINA TELECOM CORPORATION LTD.

Effective date: 20140819

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 100093 HAIDIAN, BEIJING TO: 100033 XICHENG, BEIJING

TA01 Transfer of patent application right

Effective date of registration: 20140819

Address after: 100033 Beijing Finance Street, No. 31, Xicheng District

Applicant after: China Telecommunication Co., Ltd.

Address before: 100093, Beijing, Haidian District apricot Road, No. 99, West win government house, E block, 4

Applicant before: Cloud Computing Branch of China Telecom Corporation Limited

C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220126

Address after: 100007 room 205-32, floor 2, building 2, No. 1 and No. 3, qinglonghutong a, Dongcheng District, Beijing

Patentee after: Tianyiyun Technology Co.,Ltd.

Address before: No.31, Financial Street, Xicheng District, Beijing, 100033

Patentee before: CHINA TELECOM Corp.,Ltd.