CN103701627B

CN103701627B - 一种云计算平台故障检测方法、装置及解决方法、装置

Info

Publication number: CN103701627B
Application number: CN201210370060.3A
Authority: CN
Inventors: 刘宇航
Original assignee: Beijing Sohu New Media Information Technology Co Ltd
Current assignee: Beijing Sohu New Media Information Technology Co Ltd
Priority date: 2012-09-27
Filing date: 2012-09-27
Publication date: 2017-08-11
Anticipated expiration: 2032-09-27
Also published as: CN103701627A

Abstract

本发明公开了一种云计算平台故障检测方法、装置及解决方法、装置以实现自动发现和解决云计算平台故障的目的，由于本发明将云计算平台分为各个检测层，通过检测初始检测层运行状态是否正常，将初始检测层运行状态不正常作为进入各级检测层的入口，逐级将下一级检测层作为当前检测层进行检测获得当前检测层运行状态，进而寻找到运行状态不正常的最低级检测层，确定最终故障所在检测层，实现了自动发现故障的目的；其次，在故障解决方面，本发明还通过判断故障所在检测层，针对各级检测层问题做出不同的解决机制，尽可能的减少故障时间，实现了快速恢复服务的目的。

Description

一种云计算平台故障检测方法、装置及解决方法、装置

技术领域

本发明涉及云计算领域，特别涉及一种云计算平台故障检测方法、装置及解决方法、装置。

背景技术

随着云计算平台服务器部署规模越来越大，机器数量越来越多，及时发现并解决虚拟机故障成为维护云计算平台服务的重中之重。

从故障检测方面来看，目前云计算平台检测虚拟机故障的方法主要以人工发现为主：当用户使用虚拟机时发现虚拟机的服务不成功时，由用户通知数据中心管理员，数据中心管理员判断虚拟机运行于哪一台物理机上，然后检查物理机和虚拟机，确定物理机故障还是虚拟机故障，当管理员确定为虚拟机故障时，人工检查配置，确定故障原因，当管理员确定为物理机故障时，人工检查物理机故障位置，确定故障原因。但是，人工发现故障的方法，需要人为的去做故障检测，耗时较长，在云计算平台的规模越来越大时，会导致大量的人力和时间耗费在故障的检测中，浪费宝贵的人力物力。

目前还有一种故障自动检测技术，这种检测技术只检测服务是否正常，通过服务的检测来获得故障的机器并将故障信息报警至管理员，由管理员检查故障机器，确定具体故障原因。这种检测技术在一定程度比人工发现故障加快了发现故障的时间，但是，需要人为判断故障原因，而在云计算平台，很多服务器故障都是有共通性的，故障的原因往往是几种相同的问题，这就造成很多可确定的故障仍需要人工重复工作来发现。

从故障解决方面来看，由于很多服务器故障都是有共通性的，故障的原因往往是几种相同的问题，同样造成很多可确定的故障仍需要人工重复工作来解决。

可见，人工发现和人工解决虚拟机故障处理不仅工作量巨大，也会由于人工操作时间过长而导致服务中断时间过长，无法保证服务质量。

发明内容

有鉴于此，本发明的主要目的在于提供一种云计算平台故障检测方法、装置及解决方法、装置以实现自动发现和解决云计算平台故障的目的。

本发明提供了一种云计算平台故障检测方法，该方法具体包括初始检测步骤和下级检测步骤：

所述初始检测步骤包括：

检测初始检测层运行状态是否正常，如果是，则反馈该初始检测层运行状态正常信息，并结束流程；否则，确定初始检测层的下一级检测层作为当前检测层；

所述下级检测步骤包括：

获取当前检测层的运行状态，判断当前检测层运行状态是否正常；

如果是，则返回当前检测层上一级检测层故障的信息，结束流程；

如果否，将所述当前检测层的下一级检测层作为所述当前检测层，返回所述下级检测步骤，直至检测到各级检测层的最低级一层运行状态不正常，返回该最低级一层故障的信息。

优选地，所述初始检测层具体为虚拟机检测层；

所述检测虚拟机检测层运行状态是否正常具体通过对虚拟机所在宿主物理机的xend端口访问虚拟机获得所述虚拟机运行状态。

优选地，所述Hypervisor检测层为虚拟机的下一级检测层；

所述检测Hypervisor检测层运行状态是否正常具体通过以下步骤获得Hypervisor检测层运行状态：

判断所述虚拟机所在宿主物理机xend端口是否开放；

如果开放，则hypervisor检测层运行状态正常；

如果不开放，则hypervisor检测层运行状态不正常。

优选地，该方法还包括：

接收来自于所述虚拟机所在宿主物理机硬件相连的传感器的数据，如果所述数据超过预设安全数据范围，则：

触发所述虚拟机所在宿主物理机上的虚拟机迁移至第二物理机；

并且，若所述虚拟机所在宿主物理机装载了Intel的NodeManager，强制将所述虚拟机所在宿主物理机的功耗降到最低。

优选地，该方法还包括：

监测所述虚拟机所在宿主物理机CPU负载，若所述虚拟机所在宿主物理机CPU处于负载超负荷状态且负载超负荷状态持续时间超过允许时间，则：

通过触发所述虚拟机所在宿主物理机上的至少一个虚拟机迁移至第二物理机使所述第一物理机CPU负载在负荷范围之内。

本发明还提供一种云计算平台故障检测装置，该装置包括：

初始检测单元：用于检测初始检测层运行状态是否正常，如果是，则反馈该初始检测层运行状态正常信息，并结束流程；否则，确定初始检测层的下一级检测层作为当前检测层；

下级检测单元：用于获取当前检测层的运行状态，判断当前检测层运行状态是否正常，如果是，则返回当前检测层上一级检测层故障的信息，结束流程；否则，将所述当前检测层的下一级检测层作为所述当前检测层，返回所述下级检测单元，直至检测到各级检测层的最低级一层运行状态不正常，返回该最低级一层故障的信息。

本发明还提供一种云计算平台故障解决方法，包括：

获取应用如权利要求1所述的一种云计算平台故障检测方法进行检测返回的故障信息；

根据所述故障信息，查询出故障所在检测层对应的故障解决指令；

执行故障解决指令。

优选地，当故障所在检测层具体为虚拟机检测层时，所述查询出的对应的故障解决指令具体为重新启动虚拟机；

当故障所在检测层具体为hypervisor检测层时，所述查询出的对应的故障解决指令具体为对所述虚拟机所在宿主物理机hypervisor层xend重启；

当故障所在检测层具体为硬件检测层时，所述查询出的对应的故障解决指令具体为通过IPMI重新启动所述虚拟机所在宿主物理机。

优选地，还包括：

在重新启动虚拟机之后，通过虚拟机xend端口访问虚拟机判断所述虚拟机运行状态是否正常，若所述虚拟机运行状态不正常，且重新启动所述虚拟机次数大于或等于预设允许重启虚拟机次数范围，返回虚拟机故障需人工接入消息；若所述虚拟机运行状态不正常，且重新启动所述虚拟机次数在预设允许重启虚拟机次数范围内，重新启动虚拟机；

在对所述虚拟机所在宿主物理机hypervisor层xend重启之后，通过对所述虚拟机所在宿主物理机xend端口访问判断hypervisor检测层运行状态，若所述hypervisor检测层运行状态仍不正常，且重新启动所述虚拟机所在宿主物理机hypervisor层xend的次数大于或等于预设允许重启hypervisor层xend次数范围，返回hypervisor层故障需人工介入消息；若所述虚拟机运行状态不正常，且重新启动所述虚拟机所在宿主物理机hypervisor层xend的次数在预设允许重启hypervisor层xend次数范围内，对所述虚拟机所在宿主物理机hypervisor层xend重启；

在重新启动所述虚拟机所在宿主物理机之后，通过对所述虚拟机所在宿主物理机IPMI接口的访问判断硬件检测层运行状态是否正常，若所述硬件检测层运行状态不正常，且重新启动所述虚拟机所在宿主物理机次数大于或等于预设允许重启物理机次数范围，返回硬件层故障需人工介入消息；若所述硬件检测层运行状态不正常，且重新启动所述虚拟机所在宿主物理机次数在预设允许重启物理机次数范围内，重新启动所述虚拟机所在宿主物理机。

本发明还提供一种云计算平台故障解决装置，该装置包括：

查询单元：用于获取应用如权利要求1所述的一种云计算平台故障检测方法进行检测返回的故障信息，根据所述故障信息，查询出故障所在检测层对应的故障解决指令；

执行单元：用于执行故障解决指令。

可见本发明具有如下有益效果：

由于本发明将云计算平台分为各个检测层，通过检测初始检测层运行状态是否正常，将初始检测层运行状态不正常作为进入各级检测层的入口，逐级将下一级检测层作为当前检测层进行检测获得当前检测层运行状态，进而寻找到运行状态不正常的最低级检测层，确定最终故障所在检测层，实现了自动发现故障的目的；

其次，在故障解决方面，本发明还通过判断故障所在检测层，针对各级检测层问题做出不同的解决机制，尽可能的减少故障时间，实现了快速恢复服务的目的；

而且，在故障预警方面，本发明还通过获取虚拟机所在宿主物理机硬件相连的传感器的数据，在传感器数据超过预设安全数据范围时，例如硬件主板温度超过安全温度，即散热系统出现故障时，可第一时间发现并降低其使用功耗，延长服务时间，并将虚拟机迁移至其他物理机上以保证服务不间断。

附图说明

图1是本发明一种云计算平台故障检测方法流程图；

图2是本发明一种云计算平台故障检测装置组成图；

图3是本发明一种云计算平台故障解决方法流程图；

图4是本发明一种云计算平台故障解决装置组成图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明实施例作进一步详细的说明。

参见图1，为本发明提供了一种云计算平台故障检测方法的流程图，该方法包括：

S101、初始检测步骤，所述初始检测步骤包括：检测初始检测层运行状态是否正常，如果是，则反馈该初始检测层运行状态正常信息，并结束流程；否则，确定初始检测层的下一级检测层作为当前检测层；

S102、下级检测步骤，所述下级检测步骤包括：获取当前检测层的运行状态，判断当前检测层运行状态是否正常；

S103、如果是，则返回当前检测层上一级检测层故障的信息，结束流程；

S104、如果否，将所述当前检测层的下一级检测层作为所述当前检测层，返回所述下级检测步骤S102，直至检测到各级检测层的最低级一层运行状态不正常，返回该最低级一层故障的信息。

需要说明的是，所述各级检测层具体可以按照各级检测层故障逻辑关系预先设置，下面通过预先设置的各级检测层故障逻辑关系的几个实施例对本发明进行详细说明：

实施例(一)：将虚拟机作为初始检测层：

在该实施例中，将虚拟机作为云计算平台中预先设置的各级检测层中的初始检测层进行检测；

所述检测虚拟机检测层运行状态是否正常具体通过对虚拟机所在宿主物理机的xend端口访问虚拟机获得所述虚拟机运行状态；

再具体地，通过网络向虚拟机所在宿主物理机发送查询虚拟机运行状态的命令，通过xend端口返回虚拟机所在宿主物理机上的虚拟机运行状况，可以借此判定虚拟机状态，包括运行或者关机等状态。

实施例(二)：所述Hypervisor检测层为虚拟机的下一级检测层；

判断所述虚拟机所在宿主物理机xend端口是否开放；

如果开放，则hypervisor检测层运行状态正常；

如果不开放，则hypervisor检测层运行状态不正常。

实施例(三)：

在以上实施例(二)的基础上，按照hypervisor检测层的故障逻辑关系，将SSH服务检测层做为hypervisor检测层的下一级检测层；

所述检测SSH服务检测层运行状态是否正常具体通过以下步骤获得SSH服务检测层运行状态：

通过对所述虚拟机所在宿主物理机SSH端口进行访问判断SSH服务是否可用；

若SSH服务可用，则SSH服务检测层运行状态正常；

若SSH服务不可用，则SSH服务检测层运行状态不正常。

实施例(四)：

在以上实施例(三)的基础上，在SSH服务检测层运行状态不正常时，有可能是SSH服务本身有故障，也有可能是网络故障，按照SSH服务检测层的故障逻辑关系，在该实施例中，将网络检测层作为SSH服务检测层的下一级检测层；

所述检测网络检测层运行状态是否正常具体通过以下步骤获得网络检测层运行状态：

通过虚拟机对目标物理机进行ping的询问判断网络是否连通；

若网络连通，则网络检测层运行状态正常；

若网络不连通，则网络检测层运行状态不正常。

实施例(五)：

在以上实施例(四)的基础上，在网络检测层运行状态不正常时，有可能是网络本身有故障，也有可能是物理机硬件故障，按照故障逻辑关系，在该实施例中，将硬件检测层作为网络检测层的下一级检测层；

所述硬件检测层为所述网络检测层的下一级检测层；

所述检测硬件检测层运行状态是否正常具体通过以下步骤获得硬件检测层运行状态：

通过对所述虚拟机所在宿主物理机IPMI接口访问判断电源状态；

若电源状态开启，则所述硬件检测层运行状态正常；

若电源状态关闭，则所述硬件检测层运行状态不正常。

通过以上各实施例可见，本发明通过逐级将下一级检测层作为当前级检测层进行检测获得当前级检测层运行状态，又通过判断当前级检测层运行状态是否正常，最终确定故障所在检测层，实现自动发现故障的目的。

而且，在故障预警方面，本发明还提出以下两个实施例以实现对云计算中心故障的预测：

实施例(六)基于硬件传感器的预警策略

在该实施例中，本发明方法还包括：

实施例(七)基于CPU负载的预警策略

在该实施例中，本发明方法还包括：

从以上实施例(六)、(七)可见，本发明提出的两种预警策略能够在故障发生之前，及时的将虚拟机转移至其他物理机上，保证服务的持续可用性。

本发明还提供一种云计算平台故障检测装置，参见图2，该装置包括：

初始检测单元201：用于检测初始检测层运行状态是否正常，如果是，则反馈该初始检测层运行状态正常信息，并结束流程；否则，确定初始检测层的下一级检测层作为当前检测层；

下级检测单元202：用于获取当前检测层的运行状态，判断当前检测层运行状态是否正常，如果是，则返回当前检测层上一级检测层故障的信息，结束流程；否则，将所述当前检测层的下一级检测层作为所述当前检测层，返回所述下级检测单元，直至检测到各级检测层的最低级一层运行状态不正常，返回该最低级一层故障的信息。

由于以上各实施例返回的故障代码，对有针对性的故障解决提供了有效信息，本发明针对不同的故障代码，还提出了相应的故障解决策略，因此，本发明还提供一种云计算平台故障解决方法，参见图3，该方法包括：

S301、获取应用如权利要求1所述的一种云计算平台故障检测方法进行检测返回的故障信息；

S302、根据所述故障信息，查询出故障所在检测层对应的故障解决指令；

S303、执行故障解决指令。

具体通过以下几个实施例对故障所在具体检测层对应的故障解决策略进行详细说明：

实施例(八)：该实施例采用重启相关设备或者端口实现故障解决目的，包括：

当故障所在检测层具体为虚拟机检测层时，所述查询出的对应的故障解决指令具体为重新启动虚拟机；

实施例(九)：在以上实施例(八)重启相关设备或者端口未解决故障时，该实施例通过继续重启相关设备或者端口、并预设重启次数范围，增加故障解决的机会，因此，该方法还包括：

另外，由于通过硬件检测层故障检测可以确定物理机的状态，当出现硬件检测层故障时，故障物理机上的虚拟机需要进行迁移，迁移时有两种可配置的选择，第一种为迁移到同一服务器池中的其他物理机上，并可选择是否在故障物理机修复后迁回；第二种为迁移到指定的备用物理机上。虚拟机的迁移顺序是由虚拟机的优先级来决定的，因此本发明还包括：

预先指定目标物理机；

预先设置虚拟机的优先级；

预先设置所述虚拟机所在宿主物理机故障修复后是否迁回；

当所述硬件层运行状态不正常，且重新启动所述虚拟机所在宿主物理机次数大于或等于预设允许重启物理机次数范围时，触发所述虚拟机迁移至目标物理机，具体按照所述虚拟机的优先级顺序迁移虚拟机。

若预先设置所述虚拟机所在宿主物理机故障修复后迁回，在所述虚拟机所在宿主物理机故障修复后，将所述虚拟机由所述目标物理机迁回所述虚拟机所在宿主物理机。

实施例(十)：由于当SSH服务层、网络层故障将导致很多服务的实效，宿主物理机上的虚拟机均为状态错误或不可知状态，鉴于此种状态下错误有多种可能性，所以，在该实施例中不能自动解决故障，需要向管理员发送警告，通知其人工介入解决此类问题，具体为：

当故障所在检测层具体为SSH服务检测层时，所述查询出的对应的故障解决指令具体为返回SSH服务检测层故障需人工介入消息；

当故障所在检测层具体为网络检测层时，所述查询出的对应的故障解决指令具体为返回网络层故障需人工介入消息。

通过以上实施例(八)到(十)可见，在故障解决方面，本发明还通过判断故障代码具体所在检测层，针对不同检测层的故障问题做出不同的恢复机制，尽可能的减少故障时间，实现了快速恢复的目的

本发明还提供一种云计算平台故障解决装置，参见图4，该装置包括：

查询单元401：用于获取应用如权利要求1所述的一种云计算平台故障检测方法进行检测返回的故障信息，根据所述故障信息，查询出故障所在检测层对应的故障解决指令；

执行单元402：用于执行故障解决指令。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种云计算平台故障检测方法，其特征在于，包括初始检测步骤和下级检测步骤：

所述初始检测步骤包括：

所述下级检测步骤包括：

如果否，将所述当前检测层的下一级检测层作为所述当前检测层，返回所述下级检测步骤，直至检测到各级检测层的最低级一层运行状态不正常，返回该最低级一层故障的信息；

还包括：

接收来自于虚拟机所在宿主物理机硬件相连的传感器的数据，如果所述数据超过预设安全数据范围，则：

2.根据权利要求1所述的方法，其特征在于，所述初始检测层具体为虚拟机检测层；

检测虚拟机检测层运行状态是否正常具体通过对虚拟机所在宿主物理机的xend端口访问虚拟机获得所述虚拟机运行状态。

3.根据权利要求2所述的方法，其特征在于，

Hypervisor检测层为虚拟机检测层的下一级检测层；

检测Hypervisor检测层运行状态是否正常具体通过以下步骤获得Hypervisor检测层运行状态：

判断所述虚拟机所在宿主物理机xend端口是否开放；

如果开放，则hypervisor检测层运行状态正常；

如果不开放，则hypervisor检测层运行状态不正常。

4.根据权利要求3所述的方法，其特征在于，

SSH服务检测层为所述Hypervisor检测层的下一级检测层；

检测SSH服务检测层运行状态是否正常具体通过以下步骤获得SSH服务检测层运行状态：

若SSH服务可用，则SSH服务检测层运行状态正常；

若SSH服务不可用，则SSH服务检测层运行状态不正常。

5.根据权利要求4所述的方法，其特征在于，

网络检测层为所述SSH服务检测层的下一级检测层；

检测网络检测层运行状态是否正常具体通过以下步骤获得网络检测层运行状态：

通过虚拟机对目标物理机进行ping的询问判断网络是否连通；

若网络连通，则网络检测层运行状态正常；

若网络不连通，则网络检测层运行状态不正常。

6.根据权利要求5所述的方法，其特征在于，

硬件检测层为所述网络检测层的下一级检测层；

检测硬件检测层运行状态是否正常具体通过以下步骤获得硬件检测层运行状态：

若电源状态开启，则所述硬件检测层运行状态正常；

若电源状态关闭，则所述硬件检测层运行状态不正常。

7.根据权利要求1所述的方法，其特征在于，还包括：

监测虚拟机所在宿主物理机CPU负载，若所述虚拟机所在宿主物理机CPU处于负载超负荷状态且负载超负荷状态持续时间超过允许时间，则：

通过触发所述虚拟机所在宿主物理机上的至少一个虚拟机迁移至第二物理机使第一物理机CPU负载在负荷范围之内。

8.一种云计算平台故障检测装置，其特征在于，包括：

下级检测单元：用于获取当前检测层的运行状态，判断当前检测层运行状态是否正常，如果是，则返回当前检测层上一级检测层故障的信息，结束流程；否则，将所述当前检测层的下一级检测层作为所述当前检测层，返回所述下级检测单元，直至检测至预先设置的各级检测层的最低级一层，返回该最低级一层故障的信息；

还包括：

接收单元，用于接收来自于虚拟机所在宿主物理机硬件相连的传感器的数据，如果所述数据超过预设安全数据范围，则：触发所述虚拟机所在宿主物理机上的虚拟机迁移至第二物理机；并且，若所述虚拟机所在宿主物理机装载了Intel的NodeManager，强制将所述虚拟机所在宿主物理机的功耗降到最低。

9.一种云计算平台故障解决方法，其特征在于，包括：

执行故障解决指令。

10.根据权利要求9所述的方法，其特征在于，包括：

11.根据权利要求10所述的方法，其特征在于，还包括：

12.根据权利要求11所述的方法，其特征在于，还包括：

预先指定目标物理机；

预先设置虚拟机的优先级；

预先设置所述虚拟机所在宿主物理机故障修复后是否迁回；

当所述硬件检测层运行状态不正常，且重新启动所述虚拟机所在宿主物理机次数大于或等于预设允许重启物理机次数范围时，触发所述虚拟机迁移至目标物理机，具体按照所述虚拟机的优先级顺序迁移虚拟机；

13.根据权利要求9所述的方法，其特征在于，

14.一种云计算平台故障解决装置，其特征在于，包括：

执行单元：用于执行故障解决指令。