CN103701627B - 一种云计算平台故障检测方法、装置及解决方法、装置 - Google Patents

一种云计算平台故障检测方法、装置及解决方法、装置 Download PDF

Info

Publication number
CN103701627B
CN103701627B CN201210370060.3A CN201210370060A CN103701627B CN 103701627 B CN103701627 B CN 103701627B CN 201210370060 A CN201210370060 A CN 201210370060A CN 103701627 B CN103701627 B CN 103701627B
Authority
CN
China
Prior art keywords
virtual machine
detection
running status
host
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210370060.3A
Other languages
English (en)
Other versions
CN103701627A (zh
Inventor
刘宇航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sohu New Media Information Technology Co Ltd
Original Assignee
Beijing Sohu New Media Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sohu New Media Information Technology Co Ltd filed Critical Beijing Sohu New Media Information Technology Co Ltd
Priority to CN201210370060.3A priority Critical patent/CN103701627B/zh
Publication of CN103701627A publication Critical patent/CN103701627A/zh
Application granted granted Critical
Publication of CN103701627B publication Critical patent/CN103701627B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种云计算平台故障检测方法、装置及解决方法、装置以实现自动发现和解决云计算平台故障的目的,由于本发明将云计算平台分为各个检测层,通过检测初始检测层运行状态是否正常,将初始检测层运行状态不正常作为进入各级检测层的入口,逐级将下一级检测层作为当前检测层进行检测获得当前检测层运行状态,进而寻找到运行状态不正常的最低级检测层,确定最终故障所在检测层,实现了自动发现故障的目的;其次,在故障解决方面,本发明还通过判断故障所在检测层,针对各级检测层问题做出不同的解决机制,尽可能的减少故障时间,实现了快速恢复服务的目的。

Description

一种云计算平台故障检测方法、装置及解决方法、装置
技术领域
本发明涉及云计算领域,特别涉及一种云计算平台故障检测方法、装置及解决方法、装置。
背景技术
随着云计算平台服务器部署规模越来越大,机器数量越来越多,及时发现并解决虚拟机故障成为维护云计算平台服务的重中之重。
从故障检测方面来看,目前云计算平台检测虚拟机故障的方法主要以人工发现为主:当用户使用虚拟机时发现虚拟机的服务不成功时,由用户通知数据中心管理员,数据中心管理员判断虚拟机运行于哪一台物理机上,然后检查物理机和虚拟机,确定物理机故障还是虚拟机故障,当管理员确定为虚拟机故障时,人工检查配置,确定故障原因,当管理员确定为物理机故障时,人工检查物理机故障位置,确定故障原因。但是,人工发现故障的方法,需要人为的去做故障检测,耗时较长,在云计算平台的规模越来越大时,会导致大量的人力和时间耗费在故障的检测中,浪费宝贵的人力物力。
目前还有一种故障自动检测技术,这种检测技术只检测服务是否正常,通过服务的检测来获得故障的机器并将故障信息报警至管理员,由管理员检查故障机器,确定具体故障原因。这种检测技术在一定程度比人工发现故障加快了发现故障的时间,但是,需要人为判断故障原因,而在云计算平台,很多服务器故障都是有共通性的,故障的原因往往是几种相同的问题,这就造成很多可确定的故障仍需要人工重复工作来发现。
从故障解决方面来看,由于很多服务器故障都是有共通性的,故障的原因往往是几种相同的问题,同样造成很多可确定的故障仍需要人工重复工作来解决。
可见,人工发现和人工解决虚拟机故障处理不仅工作量巨大,也会由于人工操作时间过长而导致服务中断时间过长,无法保证服务质量。
发明内容
有鉴于此,本发明的主要目的在于提供一种云计算平台故障检测方法、装置及解决方法、装置以实现自动发现和解决云计算平台故障的目的。
本发明提供了一种云计算平台故障检测方法,该方法具体包括初始检测步骤和下级检测步骤:
所述初始检测步骤包括:
检测初始检测层运行状态是否正常,如果是,则反馈该初始检测层运行状态正常信息,并结束流程;否则,确定初始检测层的下一级检测层作为当前检测层;
所述下级检测步骤包括:
获取当前检测层的运行状态,判断当前检测层运行状态是否正常;
如果是,则返回当前检测层上一级检测层故障的信息,结束流程;
如果否,将所述当前检测层的下一级检测层作为所述当前检测层,返回所述下级检测步骤,直至检测到各级检测层的最低级一层运行状态不正常,返回该最低级一层故障的信息。
优选地,所述初始检测层具体为虚拟机检测层;
所述检测虚拟机检测层运行状态是否正常具体通过对虚拟机所在宿主物理机的xend端口访问虚拟机获得所述虚拟机运行状态。
优选地,所述Hypervisor检测层为虚拟机的下一级检测层;
所述检测Hypervisor检测层运行状态是否正常具体通过以下步骤获得Hypervisor检测层运行状态:
判断所述虚拟机所在宿主物理机xend端口是否开放;
如果开放,则hypervisor检测层运行状态正常;
如果不开放,则hypervisor检测层运行状态不正常。
优选地,该方法还包括:
接收来自于所述虚拟机所在宿主物理机硬件相连的传感器的数据,如果所述数据超过预设安全数据范围,则:
触发所述虚拟机所在宿主物理机上的虚拟机迁移至第二物理机;
并且,若所述虚拟机所在宿主物理机装载了Intel的NodeManager,强制将所述虚拟机所在宿主物理机的功耗降到最低。
优选地,该方法还包括:
监测所述虚拟机所在宿主物理机CPU负载,若所述虚拟机所在宿主物理机CPU处于负载超负荷状态且负载超负荷状态持续时间超过允许时间,则:
通过触发所述虚拟机所在宿主物理机上的至少一个虚拟机迁移至第二物理机使所述第一物理机CPU负载在负荷范围之内。
本发明还提供一种云计算平台故障检测装置,该装置包括:
初始检测单元:用于检测初始检测层运行状态是否正常,如果是,则反馈该初始检测层运行状态正常信息,并结束流程;否则,确定初始检测层的下一级检测层作为当前检测层;
下级检测单元:用于获取当前检测层的运行状态,判断当前检测层运行状态是否正常,如果是,则返回当前检测层上一级检测层故障的信息,结束流程;否则,将所述当前检测层的下一级检测层作为所述当前检测层,返回所述下级检测单元,直至检测到各级检测层的最低级一层运行状态不正常,返回该最低级一层故障的信息。
本发明还提供一种云计算平台故障解决方法,包括:
获取应用如权利要求1所述的一种云计算平台故障检测方法进行检测返回的故障信息;
根据所述故障信息,查询出故障所在检测层对应的故障解决指令;
执行故障解决指令。
优选地,当故障所在检测层具体为虚拟机检测层时,所述查询出的对应的故障解决指令具体为重新启动虚拟机;
当故障所在检测层具体为hypervisor检测层时,所述查询出的对应的故障解决指令具体为对所述虚拟机所在宿主物理机hypervisor层xend重启;
当故障所在检测层具体为硬件检测层时,所述查询出的对应的故障解决指令具体为通过IPMI重新启动所述虚拟机所在宿主物理机。
优选地,还包括:
在重新启动虚拟机之后,通过虚拟机xend端口访问虚拟机判断所述虚拟机运行状态是否正常,若所述虚拟机运行状态不正常,且重新启动所述虚拟机次数大于或等于预设允许重启虚拟机次数范围,返回虚拟机故障需人工接入消息;若所述虚拟机运行状态不正常,且重新启动所述虚拟机次数在预设允许重启虚拟机次数范围内,重新启动虚拟机;
在对所述虚拟机所在宿主物理机hypervisor层xend重启之后,通过对所述虚拟机所在宿主物理机xend端口访问判断hypervisor检测层运行状态,若所述hypervisor检测层运行状态仍不正常,且重新启动所述虚拟机所在宿主物理机hypervisor层xend的次数大于或等于预设允许重启hypervisor层xend次数范围,返回hypervisor层故障需人工介入消息;若所述虚拟机运行状态不正常,且重新启动所述虚拟机所在宿主物理机hypervisor层xend的次数在预设允许重启hypervisor层xend次数范围内,对所述虚拟机所在宿主物理机hypervisor层xend重启;
在重新启动所述虚拟机所在宿主物理机之后,通过对所述虚拟机所在宿主物理机IPMI接口的访问判断硬件检测层运行状态是否正常,若所述硬件检测层运行状态不正常,且重新启动所述虚拟机所在宿主物理机次数大于或等于预设允许重启物理机次数范围,返回硬件层故障需人工介入消息;若所述硬件检测层运行状态不正常,且重新启动所述虚拟机所在宿主物理机次数在预设允许重启物理机次数范围内,重新启动所述虚拟机所在宿主物理机。
本发明还提供一种云计算平台故障解决装置,该装置包括:
查询单元:用于获取应用如权利要求1所述的一种云计算平台故障检测方法进行检测返回的故障信息,根据所述故障信息,查询出故障所在检测层对应的故障解决指令;
执行单元:用于执行故障解决指令。
可见本发明具有如下有益效果:
由于本发明将云计算平台分为各个检测层,通过检测初始检测层运行状态是否正常,将初始检测层运行状态不正常作为进入各级检测层的入口,逐级将下一级检测层作为当前检测层进行检测获得当前检测层运行状态,进而寻找到运行状态不正常的最低级检测层,确定最终故障所在检测层,实现了自动发现故障的目的;
其次,在故障解决方面,本发明还通过判断故障所在检测层,针对各级检测层问题做出不同的解决机制,尽可能的减少故障时间,实现了快速恢复服务的目的;
而且,在故障预警方面,本发明还通过获取虚拟机所在宿主物理机硬件相连的传感器的数据,在传感器数据超过预设安全数据范围时,例如硬件主板温度超过安全温度,即散热系统出现故障时,可第一时间发现并降低其使用功耗,延长服务时间,并将虚拟机迁移至其他物理机上以保证服务不间断。
附图说明
图1是本发明一种云计算平台故障检测方法流程图;
图2是本发明一种云计算平台故障检测装置组成图;
图3是本发明一种云计算平台故障解决方法流程图;
图4是本发明一种云计算平台故障解决装置组成图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明实施例作进一步详细的说明。
参见图1,为本发明提供了一种云计算平台故障检测方法的流程图,该方法包括:
S101、初始检测步骤,所述初始检测步骤包括:检测初始检测层运行状态是否正常,如果是,则反馈该初始检测层运行状态正常信息,并结束流程;否则,确定初始检测层的下一级检测层作为当前检测层;
S102、下级检测步骤,所述下级检测步骤包括:获取当前检测层的运行状态,判断当前检测层运行状态是否正常;
S103、如果是,则返回当前检测层上一级检测层故障的信息,结束流程;
S104、如果否,将所述当前检测层的下一级检测层作为所述当前检测层,返回所述下级检测步骤S102,直至检测到各级检测层的最低级一层运行状态不正常,返回该最低级一层故障的信息。
需要说明的是,所述各级检测层具体可以按照各级检测层故障逻辑关系预先设置,下面通过预先设置的各级检测层故障逻辑关系的几个实施例对本发明进行详细说明:
实施例(一):将虚拟机作为初始检测层:
在该实施例中,将虚拟机作为云计算平台中预先设置的各级检测层中的初始检测层进行检测;
所述检测虚拟机检测层运行状态是否正常具体通过对虚拟机所在宿主物理机的xend端口访问虚拟机获得所述虚拟机运行状态;
再具体地,通过网络向虚拟机所在宿主物理机发送查询虚拟机运行状态的命令,通过xend端口返回虚拟机所在宿主物理机上的虚拟机运行状况,可以借此判定虚拟机状态,包括运行或者关机等状态。
实施例(二):所述Hypervisor检测层为虚拟机的下一级检测层;
所述检测Hypervisor检测层运行状态是否正常具体通过以下步骤获得Hypervisor检测层运行状态:
判断所述虚拟机所在宿主物理机xend端口是否开放;
如果开放,则hypervisor检测层运行状态正常;
如果不开放,则hypervisor检测层运行状态不正常。
实施例(三):
在以上实施例(二)的基础上,按照hypervisor检测层的故障逻辑关系,将SSH服务检测层做为hypervisor检测层的下一级检测层;
所述检测SSH服务检测层运行状态是否正常具体通过以下步骤获得SSH服务检测层运行状态:
通过对所述虚拟机所在宿主物理机SSH端口进行访问判断SSH服务是否可用;
若SSH服务可用,则SSH服务检测层运行状态正常;
若SSH服务不可用,则SSH服务检测层运行状态不正常。
实施例(四):
在以上实施例(三)的基础上,在SSH服务检测层运行状态不正常时,有可能是SSH服务本身有故障,也有可能是网络故障,按照SSH服务检测层的故障逻辑关系,在该实施例中,将网络检测层作为SSH服务检测层的下一级检测层;
所述检测网络检测层运行状态是否正常具体通过以下步骤获得网络检测层运行状态:
通过虚拟机对目标物理机进行ping的询问判断网络是否连通;
若网络连通,则网络检测层运行状态正常;
若网络不连通,则网络检测层运行状态不正常。
实施例(五):
在以上实施例(四)的基础上,在网络检测层运行状态不正常时,有可能是网络本身有故障,也有可能是物理机硬件故障,按照故障逻辑关系,在该实施例中,将硬件检测层作为网络检测层的下一级检测层;
所述硬件检测层为所述网络检测层的下一级检测层;
所述检测硬件检测层运行状态是否正常具体通过以下步骤获得硬件检测层运行状态:
通过对所述虚拟机所在宿主物理机IPMI接口访问判断电源状态;
若电源状态开启,则所述硬件检测层运行状态正常;
若电源状态关闭,则所述硬件检测层运行状态不正常。
通过以上各实施例可见,本发明通过逐级将下一级检测层作为当前级检测层进行检测获得当前级检测层运行状态,又通过判断当前级检测层运行状态是否正常,最终确定故障所在检测层,实现自动发现故障的目的。
而且,在故障预警方面,本发明还提出以下两个实施例以实现对云计算中心故障的预测:
实施例(六)基于硬件传感器的预警策略
在该实施例中,本发明方法还包括:
接收来自于所述虚拟机所在宿主物理机硬件相连的传感器的数据,如果所述数据超过预设安全数据范围,则:
触发所述虚拟机所在宿主物理机上的虚拟机迁移至第二物理机;
并且,若所述虚拟机所在宿主物理机装载了Intel的NodeManager,强制将所述虚拟机所在宿主物理机的功耗降到最低。
实施例(七)基于CPU负载的预警策略
在该实施例中,本发明方法还包括:
监测所述虚拟机所在宿主物理机CPU负载,若所述虚拟机所在宿主物理机CPU处于负载超负荷状态且负载超负荷状态持续时间超过允许时间,则:
通过触发所述虚拟机所在宿主物理机上的至少一个虚拟机迁移至第二物理机使所述第一物理机CPU负载在负荷范围之内。
从以上实施例(六)、(七)可见,本发明提出的两种预警策略能够在故障发生之前,及时的将虚拟机转移至其他物理机上,保证服务的持续可用性。
本发明还提供一种云计算平台故障检测装置,参见图2,该装置包括:
初始检测单元201:用于检测初始检测层运行状态是否正常,如果是,则反馈该初始检测层运行状态正常信息,并结束流程;否则,确定初始检测层的下一级检测层作为当前检测层;
下级检测单元202:用于获取当前检测层的运行状态,判断当前检测层运行状态是否正常,如果是,则返回当前检测层上一级检测层故障的信息,结束流程;否则,将所述当前检测层的下一级检测层作为所述当前检测层,返回所述下级检测单元,直至检测到各级检测层的最低级一层运行状态不正常,返回该最低级一层故障的信息。
由于以上各实施例返回的故障代码,对有针对性的故障解决提供了有效信息,本发明针对不同的故障代码,还提出了相应的故障解决策略,因此,本发明还提供一种云计算平台故障解决方法,参见图3,该方法包括:
S301、获取应用如权利要求1所述的一种云计算平台故障检测方法进行检测返回的故障信息;
S302、根据所述故障信息,查询出故障所在检测层对应的故障解决指令;
S303、执行故障解决指令。
具体通过以下几个实施例对故障所在具体检测层对应的故障解决策略进行详细说明:
实施例(八):该实施例采用重启相关设备或者端口实现故障解决目的,包括:
当故障所在检测层具体为虚拟机检测层时,所述查询出的对应的故障解决指令具体为重新启动虚拟机;
当故障所在检测层具体为hypervisor检测层时,所述查询出的对应的故障解决指令具体为对所述虚拟机所在宿主物理机hypervisor层xend重启;
当故障所在检测层具体为硬件检测层时,所述查询出的对应的故障解决指令具体为通过IPMI重新启动所述虚拟机所在宿主物理机。
实施例(九):在以上实施例(八)重启相关设备或者端口未解决故障时,该实施例通过继续重启相关设备或者端口、并预设重启次数范围,增加故障解决的机会,因此,该方法还包括:
在重新启动虚拟机之后,通过虚拟机xend端口访问虚拟机判断所述虚拟机运行状态是否正常,若所述虚拟机运行状态不正常,且重新启动所述虚拟机次数大于或等于预设允许重启虚拟机次数范围,返回虚拟机故障需人工接入消息;若所述虚拟机运行状态不正常,且重新启动所述虚拟机次数在预设允许重启虚拟机次数范围内,重新启动虚拟机;
在对所述虚拟机所在宿主物理机hypervisor层xend重启之后,通过对所述虚拟机所在宿主物理机xend端口访问判断hypervisor检测层运行状态,若所述hypervisor检测层运行状态仍不正常,且重新启动所述虚拟机所在宿主物理机hypervisor层xend的次数大于或等于预设允许重启hypervisor层xend次数范围,返回hypervisor层故障需人工介入消息;若所述虚拟机运行状态不正常,且重新启动所述虚拟机所在宿主物理机hypervisor层xend的次数在预设允许重启hypervisor层xend次数范围内,对所述虚拟机所在宿主物理机hypervisor层xend重启;
在重新启动所述虚拟机所在宿主物理机之后,通过对所述虚拟机所在宿主物理机IPMI接口的访问判断硬件检测层运行状态是否正常,若所述硬件检测层运行状态不正常,且重新启动所述虚拟机所在宿主物理机次数大于或等于预设允许重启物理机次数范围,返回硬件层故障需人工介入消息;若所述硬件检测层运行状态不正常,且重新启动所述虚拟机所在宿主物理机次数在预设允许重启物理机次数范围内,重新启动所述虚拟机所在宿主物理机。
另外,由于通过硬件检测层故障检测可以确定物理机的状态,当出现硬件检测层故障时,故障物理机上的虚拟机需要进行迁移,迁移时有两种可配置的选择,第一种为迁移到同一服务器池中的其他物理机上,并可选择是否在故障物理机修复后迁回;第二种为迁移到指定的备用物理机上。虚拟机的迁移顺序是由虚拟机的优先级来决定的,因此本发明还包括:
预先指定目标物理机;
预先设置虚拟机的优先级;
预先设置所述虚拟机所在宿主物理机故障修复后是否迁回;
当所述硬件层运行状态不正常,且重新启动所述虚拟机所在宿主物理机次数大于或等于预设允许重启物理机次数范围时,触发所述虚拟机迁移至目标物理机,具体按照所述虚拟机的优先级顺序迁移虚拟机。
若预先设置所述虚拟机所在宿主物理机故障修复后迁回,在所述虚拟机所在宿主物理机故障修复后,将所述虚拟机由所述目标物理机迁回所述虚拟机所在宿主物理机。
实施例(十):由于当SSH服务层、网络层故障将导致很多服务的实效,宿主物理机上的虚拟机均为状态错误或不可知状态,鉴于此种状态下错误有多种可能性,所以,在该实施例中不能自动解决故障,需要向管理员发送警告,通知其人工介入解决此类问题,具体为:
当故障所在检测层具体为SSH服务检测层时,所述查询出的对应的故障解决指令具体为返回SSH服务检测层故障需人工介入消息;
当故障所在检测层具体为网络检测层时,所述查询出的对应的故障解决指令具体为返回网络层故障需人工介入消息。
通过以上实施例(八)到(十)可见,在故障解决方面,本发明还通过判断故障代码具体所在检测层,针对不同检测层的故障问题做出不同的恢复机制,尽可能的减少故障时间,实现了快速恢复的目的
本发明还提供一种云计算平台故障解决装置,参见图4,该装置包括:
查询单元401:用于获取应用如权利要求1所述的一种云计算平台故障检测方法进行检测返回的故障信息,根据所述故障信息,查询出故障所在检测层对应的故障解决指令;
执行单元402:用于执行故障解决指令。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (14)

1.一种云计算平台故障检测方法,其特征在于,包括初始检测步骤和下级检测步骤:
所述初始检测步骤包括:
检测初始检测层运行状态是否正常,如果是,则反馈该初始检测层运行状态正常信息,并结束流程;否则,确定初始检测层的下一级检测层作为当前检测层;
所述下级检测步骤包括:
获取当前检测层的运行状态,判断当前检测层运行状态是否正常;
如果是,则返回当前检测层上一级检测层故障的信息,结束流程;
如果否,将所述当前检测层的下一级检测层作为所述当前检测层,返回所述下级检测步骤,直至检测到各级检测层的最低级一层运行状态不正常,返回该最低级一层故障的信息;
还包括:
接收来自于虚拟机所在宿主物理机硬件相连的传感器的数据,如果所述数据超过预设安全数据范围,则:
触发所述虚拟机所在宿主物理机上的虚拟机迁移至第二物理机;
并且,若所述虚拟机所在宿主物理机装载了Intel的NodeManager,强制将所述虚拟机所在宿主物理机的功耗降到最低。
2.根据权利要求1所述的方法,其特征在于,所述初始检测层具体为虚拟机检测层;
检测虚拟机检测层运行状态是否正常具体通过对虚拟机所在宿主物理机的xend端口访问虚拟机获得所述虚拟机运行状态。
3.根据权利要求2所述的方法,其特征在于,
Hypervisor检测层为虚拟机检测层的下一级检测层;
检测Hypervisor检测层运行状态是否正常具体通过以下步骤获得Hypervisor检测层运行状态:
判断所述虚拟机所在宿主物理机xend端口是否开放;
如果开放,则hypervisor检测层运行状态正常;
如果不开放,则hypervisor检测层运行状态不正常。
4.根据权利要求3所述的方法,其特征在于,
SSH服务检测层为所述Hypervisor检测层的下一级检测层;
检测SSH服务检测层运行状态是否正常具体通过以下步骤获得SSH服务检测层运行状态:
通过对所述虚拟机所在宿主物理机SSH端口进行访问判断SSH服务是否可用;
若SSH服务可用,则SSH服务检测层运行状态正常;
若SSH服务不可用,则SSH服务检测层运行状态不正常。
5.根据权利要求4所述的方法,其特征在于,
网络检测层为所述SSH服务检测层的下一级检测层;
检测网络检测层运行状态是否正常具体通过以下步骤获得网络检测层运行状态:
通过虚拟机对目标物理机进行ping的询问判断网络是否连通;
若网络连通,则网络检测层运行状态正常;
若网络不连通,则网络检测层运行状态不正常。
6.根据权利要求5所述的方法,其特征在于,
硬件检测层为所述网络检测层的下一级检测层;
检测硬件检测层运行状态是否正常具体通过以下步骤获得硬件检测层运行状态:
通过对所述虚拟机所在宿主物理机IPMI接口访问判断电源状态;
若电源状态开启,则所述硬件检测层运行状态正常;
若电源状态关闭,则所述硬件检测层运行状态不正常。
7.根据权利要求1所述的方法,其特征在于,还包括:
监测虚拟机所在宿主物理机CPU负载,若所述虚拟机所在宿主物理机CPU处于负载超负荷状态且负载超负荷状态持续时间超过允许时间,则:
通过触发所述虚拟机所在宿主物理机上的至少一个虚拟机迁移至第二物理机使第一物理机CPU负载在负荷范围之内。
8.一种云计算平台故障检测装置,其特征在于,包括:
初始检测单元:用于检测初始检测层运行状态是否正常,如果是,则反馈该初始检测层运行状态正常信息,并结束流程;否则,确定初始检测层的下一级检测层作为当前检测层;
下级检测单元:用于获取当前检测层的运行状态,判断当前检测层运行状态是否正常,如果是,则返回当前检测层上一级检测层故障的信息,结束流程;否则,将所述当前检测层的下一级检测层作为所述当前检测层,返回所述下级检测单元,直至检测至预先设置的各级检测层的最低级一层,返回该最低级一层故障的信息;
还包括:
接收单元,用于接收来自于虚拟机所在宿主物理机硬件相连的传感器的数据,如果所述数据超过预设安全数据范围,则:触发所述虚拟机所在宿主物理机上的虚拟机迁移至第二物理机;并且,若所述虚拟机所在宿主物理机装载了Intel的NodeManager,强制将所述虚拟机所在宿主物理机的功耗降到最低。
9.一种云计算平台故障解决方法,其特征在于,包括:
获取应用如权利要求1所述的一种云计算平台故障检测方法进行检测返回的故障信息;
根据所述故障信息,查询出故障所在检测层对应的故障解决指令;
执行故障解决指令。
10.根据权利要求9所述的方法,其特征在于,包括:
当故障所在检测层具体为虚拟机检测层时,所述查询出的对应的故障解决指令具体为重新启动虚拟机;
当故障所在检测层具体为hypervisor检测层时,所述查询出的对应的故障解决指令具体为对所述虚拟机所在宿主物理机hypervisor层xend重启;
当故障所在检测层具体为硬件检测层时,所述查询出的对应的故障解决指令具体为通过IPMI重新启动所述虚拟机所在宿主物理机。
11.根据权利要求10所述的方法,其特征在于,还包括:
在重新启动虚拟机之后,通过虚拟机xend端口访问虚拟机判断所述虚拟机运行状态是否正常,若所述虚拟机运行状态不正常,且重新启动所述虚拟机次数大于或等于预设允许重启虚拟机次数范围,返回虚拟机故障需人工接入消息;若所述虚拟机运行状态不正常,且重新启动所述虚拟机次数在预设允许重启虚拟机次数范围内,重新启动虚拟机;
在对所述虚拟机所在宿主物理机hypervisor层xend重启之后,通过对所述虚拟机所在宿主物理机xend端口访问判断hypervisor检测层运行状态,若所述hypervisor检测层运行状态仍不正常,且重新启动所述虚拟机所在宿主物理机hypervisor层xend的次数大于或等于预设允许重启hypervisor层xend次数范围,返回hypervisor层故障需人工介入消息;若所述虚拟机运行状态不正常,且重新启动所述虚拟机所在宿主物理机hypervisor层xend的次数在预设允许重启hypervisor层xend次数范围内,对所述虚拟机所在宿主物理机hypervisor层xend重启;
在重新启动所述虚拟机所在宿主物理机之后,通过对所述虚拟机所在宿主物理机IPMI接口的访问判断硬件检测层运行状态是否正常,若所述硬件检测层运行状态不正常,且重新启动所述虚拟机所在宿主物理机次数大于或等于预设允许重启物理机次数范围,返回硬件层故障需人工介入消息;若所述硬件检测层运行状态不正常,且重新启动所述虚拟机所在宿主物理机次数在预设允许重启物理机次数范围内,重新启动所述虚拟机所在宿主物理机。
12.根据权利要求11所述的方法,其特征在于,还包括:
预先指定目标物理机;
预先设置虚拟机的优先级;
预先设置所述虚拟机所在宿主物理机故障修复后是否迁回;
当所述硬件检测层运行状态不正常,且重新启动所述虚拟机所在宿主物理机次数大于或等于预设允许重启物理机次数范围时,触发所述虚拟机迁移至目标物理机,具体按照所述虚拟机的优先级顺序迁移虚拟机;
若预先设置所述虚拟机所在宿主物理机故障修复后迁回,在所述虚拟机所在宿主物理机故障修复后,将所述虚拟机由所述目标物理机迁回所述虚拟机所在宿主物理机。
13.根据权利要求9所述的方法,其特征在于,
当故障所在检测层具体为SSH服务检测层时,所述查询出的对应的故障解决指令具体为返回SSH服务检测层故障需人工介入消息;
当故障所在检测层具体为网络检测层时,所述查询出的对应的故障解决指令具体为返回网络层故障需人工介入消息。
14.一种云计算平台故障解决装置,其特征在于,包括:
查询单元:用于获取应用如权利要求1所述的一种云计算平台故障检测方法进行检测返回的故障信息,根据所述故障信息,查询出故障所在检测层对应的故障解决指令;
执行单元:用于执行故障解决指令。
CN201210370060.3A 2012-09-27 2012-09-27 一种云计算平台故障检测方法、装置及解决方法、装置 Active CN103701627B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210370060.3A CN103701627B (zh) 2012-09-27 2012-09-27 一种云计算平台故障检测方法、装置及解决方法、装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210370060.3A CN103701627B (zh) 2012-09-27 2012-09-27 一种云计算平台故障检测方法、装置及解决方法、装置

Publications (2)

Publication Number Publication Date
CN103701627A CN103701627A (zh) 2014-04-02
CN103701627B true CN103701627B (zh) 2017-08-11

Family

ID=50363030

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210370060.3A Active CN103701627B (zh) 2012-09-27 2012-09-27 一种云计算平台故障检测方法、装置及解决方法、装置

Country Status (1)

Country Link
CN (1) CN103701627B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105224382A (zh) * 2014-06-18 2016-01-06 中标软件有限公司 一种虚拟机应用服务的管理方法及系统
CN105607973B (zh) * 2014-11-19 2020-03-17 中国移动通信集团公司 一种虚拟机系统中设备故障处理的方法、装置及系统
CN105024879B (zh) * 2015-07-15 2018-03-23 中国船舶重工集团公司第七0九研究所 虚拟机故障检测、恢复系统及虚拟机检测、恢复、启动方法
CN106982148B (zh) * 2016-01-19 2020-02-18 中国移动通信集团浙江有限公司 一种服务器宕机的监测方法、装置及系统
CN105959145B (zh) * 2016-06-04 2019-05-17 广东中兴新支点技术有限公司 一种适用高可用性集群的并行管理服务器的方法及系统
CN106789407A (zh) * 2016-12-05 2017-05-31 国云科技股份有限公司 一种云平台检查虚拟机连接状态的方法
CN106603330A (zh) * 2016-12-07 2017-04-26 国云科技股份有限公司 一种云平台检查虚拟机连接状态的方法
CN106708678B (zh) * 2016-12-13 2019-12-17 苏州浪潮智能科技有限公司 一种模拟应用程序智能诊断系统及诊断检测方法
US10157076B2 (en) * 2016-12-27 2018-12-18 Nanning Fugui Precision Industrial Co., Ltd. Virtual machine migration device and method
CN108632103B (zh) * 2017-03-17 2021-04-06 中兴通讯股份有限公司 系统异常诊断的方法和装置
CN107656156B (zh) * 2017-09-22 2019-11-29 安徽科技学院 一种基于云平台的设备故障诊断及运行状态评估方法与系统
CN107704314B (zh) * 2017-11-09 2023-09-12 北京百度网讯科技有限公司 用于迁移虚拟机的方法和装置
CN109408325B (zh) * 2018-09-29 2020-11-03 华为技术有限公司 进行报警操作的方法和装置
CN111769976B (zh) * 2020-06-11 2021-09-21 北京邮电大学 一种电力物联网终端故障自适应恢复方法及系统
CN111953566B (zh) * 2020-08-13 2022-03-11 北京中电兴发科技有限公司 一种基于分布式故障监控的方法和虚拟机高可用系统
CN112395047A (zh) * 2020-11-20 2021-02-23 华云数据控股集团有限公司 虚拟机故障疏散方法、系统及计算机可读介质
CN113608825A (zh) * 2021-06-29 2021-11-05 济南浪潮数据技术有限公司 虚拟机高可用迁移控制方法、系统、终端及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1633082A (zh) * 2004-12-21 2005-06-29 中国联合通信有限公司 一种用于通信网络中的故障定位方法及装置
CN1832434A (zh) * 2005-03-10 2006-09-13 华为技术有限公司 一种网络故障的诊断方法及其装置
CN1917454A (zh) * 2005-08-17 2007-02-21 华为技术有限公司 一种网络故障检测的系统及方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1633082A (zh) * 2004-12-21 2005-06-29 中国联合通信有限公司 一种用于通信网络中的故障定位方法及装置
CN1832434A (zh) * 2005-03-10 2006-09-13 华为技术有限公司 一种网络故障的诊断方法及其装置
CN1917454A (zh) * 2005-08-17 2007-02-21 华为技术有限公司 一种网络故障检测的系统及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《A Self-tuning Failure Detection Scheme for Cloud Computing Service》;Naixue Xiong 等;《2012 IEEE 26th International Parallel and Distributed Processing Symposium》;20120525;第668-679页 *
《虚拟化技术在容灾系统中的应用》;刘其成 等;《小型微型计算机系统》;20101031;第31卷(第10期);第1954-1958页 *

Also Published As

Publication number Publication date
CN103701627A (zh) 2014-04-02

Similar Documents

Publication Publication Date Title
CN103701627B (zh) 一种云计算平台故障检测方法、装置及解决方法、装置
US9952891B2 (en) Anomalous usage of resources by a process in a software defined data center
TWI746512B (zh) 實體機器故障分類處理方法、裝置和虛擬機器恢復方法、系統
Nagarajan et al. Proactive fault tolerance for HPC with Xen virtualization
EP2077499B1 (en) Method, article of manufacture and system for assigning security ratings and enforcing minimum security requirements during virtual machine failover.
US9304849B2 (en) Implementing enhanced error handling of a shared adapter in a virtualized system
US8984651B1 (en) Integrated physical security control system for computing resources
US8639991B2 (en) Optimizing performance of an application
CN103886259B (zh) 基于Xen虚拟化环境的内核级rootkit检测和处理方法
US11201853B2 (en) DNS cache protection
TW201419156A (zh) 擷取輕型虛擬機器管理員中錯誤條件的方法、系統及設備
US11368372B2 (en) Detection of outlier nodes in a cluster
JP2009282714A (ja) 仮想マシンコンピュータシステム及び仮想マシンコンピュータシステムのフェールセーフ方法
CN104486406A (zh) 一种基于云数据中心的分层式资源监控方法
CN106528415A (zh) 一种软件兼容性测试方法、业务平台及系统
CN107453888B (zh) 高可用性的虚拟机集群的管理方法及装置
KR102410151B1 (ko) 서버 시스템 로그를 이용한 머신러닝 기반의 관측레벨 측정 및 이에 따른 위험도 산출 방법, 장치 및 컴퓨터-판독 가능 기록 매체
CN110018932B (zh) 一种容器磁盘的监控方法及装置
US20140067912A1 (en) System for Remote Server Diagnosis and Recovery
KR101060596B1 (ko) 악성 파일 탐지 시스템, 악성 파일 탐지 장치 및 그 방법
CN101488175B (zh) 基于轮询机制的防止可信客户虚拟域启动崩溃的方法
CN105224426A (zh) 物理主机故障检测方法、装置及虚机管理方法、系统
CN109472147A (zh) 一种虚拟化平台的安全检测方法及装置
CN104991809A (zh) 一种基于可信计算的虚拟机准入方法及装置
CN107168819A (zh) 一种操作系统重启方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder

Address after: 100086 12, 1201, 3 building, 2 South Road, Haidian District Academy of Sciences, Beijing.

Patentee after: Beijing Sohu New Media Information Technology Co., Ltd.

Address before: 100084 Beijing Haidian District Zhongguancun East Road 1 hospital 9 building Sohu cyber building 15 Floor

Patentee before: Beijing Sohu New Media Information Technology Co., Ltd.

CP02 Change in the address of a patent holder