CN102932196B

CN102932196B - 一种主机系统状态的检测方法和装置

Info

Publication number: CN102932196B
Application number: CN201110229716.5A
Authority: CN
Inventors: 王晓征; 陈航; 戴伟; 胡宏波
Original assignee: China Mobile Group Zhejiang Co Ltd
Current assignee: China Mobile Group Zhejiang Co Ltd
Priority date: 2011-08-11
Filing date: 2011-08-11
Publication date: 2015-10-07
Anticipated expiration: 2031-08-11
Also published as: CN102932196A

Abstract

本发明提供了一种主机系统状态的检测方法和装置，方法包括：a、监控平台预先建立与目标主机间的安全外壳(SSH)隧道；b、监控平台检测SSH隧道连接是否断开；c、如果SSH隧道连接断开，则监控平台触发SSH隧道重建；当重建失败时，如果失败的原因为安全外壳守护进程异常，则重新步骤c，否则判定目标主机死机；d、如果SSH隧道连接没有断开，或SSH隧道连接断开后，监控平台触发SSH隧道重建成功，则监控平台通过向目标主机发送保持激活keep alive命令，确定目标主机是否处于系统无响应状态，并在成功接收到keep alive命令的响应信息后，重新执行步骤b。本发明能实时地对系统无响应情况进行准确监控。

Description

一种主机系统状态的检测方法和装置

技术领域

本发明涉及操作系统监控技术，特别是涉及用于检测主机系统状态的方法和装置。

背景技术

在通常的系统监控中，系统的监控平台对主机系统的状态监控是一个最基础的核心监控指标，属于监控体系中非常重要的部分。如何在第一时间最快发现主机死机，更进一步，如何在第一时间发现主机系统异常是系统监控的重要组成部分。目前业界主要采用的主机系统监控方法，从监控方式来说，可以分为Ping主动式监控方式和Agent代理式被动式监控方式。

具体来说，Ping主动式监控方式主要是：采用标准Internet控制报文协议(ICMP)Ping的方法，定期向目标主机发送ICMP数据包，如果目标主机正常响应返回ICMP数据包，则判定主机Alive。这是最常用的对于主机是否死机的标准。

Agent代理式被动式监控方式目前主要采用在目标主机上安装Agent代理程序，定期向监控管理服务器返回被监控主机的信息，即Keep Alive信息。监控管理服务器通过收到目标主机的Keep Alive信息来了解主机是否死机。这种方法一般用在大型的厂商开发的监控软件上面。

目前上述两种监控方法被绝大多数的监控平台采用，在实际应用中，特别是电信级系统中，上述监控方法暴露出了比较明显的缺点，具体如下：

1、两种监控方法均采用定期检查的方式，Ping主动式监控是由监控管理服务器定期向目标主机发送信息；Agent代理式被动式监控方法则采用目标主机定期向监控管理器发送信息的方式。而定期检查的方式必然存在一定的检查周期，另外，考虑监控管理服务器的负载压力，被监控的服务器数量越多，其检查周期将越长，因此，检查周期在一般的系统上面必须是分钟级的。如此，将无法及时地监控到主机的死机。

2、对于PING主动式监控方式而言，该方式只是通过检查到目标主机网络是否断开来判断主机是否死机，而实际应用中，会存在网络通畅，但是主机系统异常的情况，这样，采用PING主动式监控方式，将无法判断主机系统是否异常。而在实际的主机系统监控中，主机系统无响应的判断也是十分重要的一个监控项，主机系统无响应的情况下，上层业务系统大多无法正常对外提供服务。

3、对于Agent代理式被动式监控方法而言，需要在被监控主机上安装Agent代理程序，虽然从理论上来说，这种方式可以把系统状态返回给监控管理服务器，但是从实际的应用效果来看，在主机的网络通信功能正常但系统无响应的情况下，大多是系统资源消耗的时候，此时在目标主机上的Agent也无法对外发送信息，因为Agent本身也需要消耗系统资源对外提供服务。因此Agent代理式被动监控方法也无法实现对系统无响应进行及时监控。

由此可见，上述现有的主机监控方法均存在监控的迟滞性以及无法对主机系统无响应情况进行监控的问题。

发明内容

有鉴于此，本发明的主要目的在于提供一种主机系统状态的检测方法和装置，能实现对系统无响应情况的准确监控，且具有实时性。

为了达到上述目的，本发明提出的技术方案为：

一种主机系统状态的检测方法，该方法包括以下步骤：

a、监控平台预先建立与目标主机之间的安全外壳SSH隧道；

b、所述监控平台检测所述SSH隧道连接是否断开；

c、如果所述SSH隧道连接断开，则监控平台触发SSH隧道重建；当所述重建失败时，如果所述失败的原因为安全外壳守护进程异常，则重新执行本步骤，否则判定所述目标主机死机；

d、如果所述SSH隧道连接没有断开，或所述SSH隧道连接断开后，监控平台触发所述SSH隧道重建成功，则所述监控平台通过向所述目标主机发送保持激活keep alive命令，确定所述目标主机是否处于系统无响应状态，并在成功接收到所述keep alive命令的响应信息后，重新执行步骤b。

一种主机系统状态的检测装置，该装置设于系统的监控平台中，包括：

安全外壳SSH隧道建立模块，用于建立与目标主机之间的安全外壳SSH隧道，并将建立结果通知给第一检测模块；

第一检测模块，用于检测所述SSH隧道连接是否断开，在检测到所述SSH隧道连接断开时，触发SSH隧道建立模块重新建立所述SSH隧道，在所述SSH隧道重新建立成功时，触发第二检测模块执行，在所述SSH隧道重新建立失败时，根据SSH隧道建立模块的所述通知，判断所述SSH隧道建立失败的原因是否为安全外壳守护进程异常，如果是，则触发SSH隧道建立模块重新建立所述SSH隧道，否则，判定所述目标主机死机；在检测到所述SSH隧道正常连接时，触发第二检测模块执行；

第二检测模块，用于通过向所述目标主机发送keep alive命令，确定所述目标主机是否处于系统无响应状态，并在成功接收到所述keep alive命令的响应信息后，触发第一检测模块检测所述SSH隧道连接是否断开。

综上所述，本发明提出的主机系统状态的检测方法和装置，通过建立监控平台到目标主机的安全外壳(SSH)隧道，并实时检测该SSH隧道的状态以及是否可以在该SSH隧道上成功发送KeepAlive命令，可以实时地对主机系统无响应情况进行准确监控。

附图说明

图1为本发明实施例一的方法流程示意图；

图2为本发明实施例二的装置结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图及具体实施例对本发明作进一步地详细描述。

本发明的核心思想在于，建立检测装置与主机系统之间的安全外壳(SSH)隧道，通过实时检测该SSH隧道的状态以及是否可以在该SSH隧道上成功发送KeepAlive命令，来判断主机系统是否死机，从而可以及时准确的对主机系统的状态进行监控。

图1为本发明实施例一的方法流程示意图，如图1所示，该方法包括以下步骤：

步骤101、监控平台预先建立与目标主机之间的安全外壳SSH隧道。

本步骤，用于建立监控平台与目标主机间的SSH隧道，以便在后续过程中通过实时检测该SSH隧道的状态即可可主机是否死机，而不需要等待主机死机时Agent所发送的监控信息，从而可以确保及时、准确地检测到目标主机死机的状态。

具体地，建立SSH隧道方法可采用现有技术实现，在此不再赘述。

步骤102、所述监控平台检测所述SSH隧道连接是否断开，如果是，则执行步骤103，否则执行步骤106。

这里，如果SSH隧道连接断开则可能存在SSH隧道本身的维护异常所致的情况，因此，需要进一步执行步骤103通过重建SSH隧道根据重建结果来确认；如果SSH隧道连接正常，则说明目标主机与监控平台之间的通路是正常的，但是，还可能存在主机系统死机的情况，因此，这里需要进一步执行步骤104通过发送keep alive命令，进一步进行判断。

步骤103、所述监控平台触发所述SSH隧道的重建过程，如果所述SSH隧道重建成功，则执行步骤106；否则，执行步骤104。

这里，如果所述SSH隧道重建成功，则说明该SSH隧道可能被人为取消，目标主机可以正常，因此，这里建立成功后，将执行步骤106通过发送keep alive命令，进一步判断该目标主机的系统是否正常。

步骤104、判断所述SSH隧道建立失败的原因是否为安全外壳守护进程异常，如果是，则重新执行步骤103，否则，执行步骤105。

这里，当重建SSH隧道返回的结果指示所述SSH隧道建立失败的原因为安全外壳守护进程异常(如SSHD服务端被停止、SSH key被删除等)所致时，需要重新触发建立SSH隧道的过程，在实际应用中，可设置一时间间隔，在该时间间隔后再触发该重新建立SSH隧道的过程。当重建SSH隧道返回的结果指示所述SSH隧道建立失败的原因非安全外壳守护进程异常所致时，则可以判断目标主机死机。

步骤105、判定所述目标主机死机。

步骤106、所述监控平台通过向所述目标主机发送keep alive命令，确定所述目标主机是否处于系统无响应状态，并在成功接收到所述keep alive命令的响应信息后，重新执行步骤102。

本步骤用于在SSH隧道正常时，通过在该隧道上发送keep alive命令，来检测目标主机的系统是否正常，以排除与目标主机的网络通路正常但主机系统异常的情况。具体的，可采用下述步骤实现本步骤：

所述监控平台通过向所述目标主机发送keep alive命令，如果所述监控平台接收所述keep alive命令的响应信息超时，则判断所述超时原因是否为安全外壳守护进程异常，如果是，则执行步骤103，否则，判定所述目标主机处于系统无响应状态。

具体的，keep alive命令可以为echo命令。

这里需要说明的是，在判断接收所述keep alive命令的响应信息超时的原因为安全外壳守护进程异常时，则较佳地，需要通过执行步骤103触发所述SSH隧道的重建过程，重新建立SSH隧道。

较佳的，在实际应用中，还可以根据发送keep alive命令后接收到相应的响应信息所需要的时间，来对主机无法响应的趋势进行预测，以便当预测到该趋势时通过报警信息提醒维护者对此进行关注。具体的方法如下：

所述监控平台成功接收到所述keep alive命令的响应信息后，确定本次发送所述keep alive命令后接收到相应的响应信息所需要的时间t_n，并确定所述t_n与上一次发送所述keep alive命令后接收到相应的响应信息所需要的时间t_n-1之间的差值Δt_n，计算所述目标主机所属网段上的各目标主机当前的Δt_n的平均值如果所述Δt_n满足：则判断所述目标主机存在无法响应的趋势，其中，Δt_n-1和Δt_n-2分别为前两次得到的所述差值，a为预设的调整系数，a＞0。

与上述方法的实施例相对应，下文给出一种用于实现上述方法的装置，该装置设于监控平台中，如图2所示，该装置包括以下模块：

安全外壳SSH隧道建立模块，用于建立与目标主机之间的安全外壳SSH隧道，并将建立结果通知给第一检测模块。

第一检测模块，用于检测所述SSH隧道连接是否断开，在检测到所述SSH隧道连接断开时，触发SSH隧道建立模块重新建立所述SSH隧道，在所述SSH隧道重新建立成功时，触发第二检测模块执行，在所述SSH隧道重新建立失败时，根据SSH隧道建立模块的所述通知，判断所述SSH隧道建立失败的原因是否为安全外壳守护进程异常，如果是，则触发SSH隧道建立模块重新建立所述SSH隧道，否则，判定所述目标主机死机；在检测到所述SSH隧道正常连接时，触发第二检测模块执行。

较佳的，所述第二检测模块包括以下两个单元：

keep alive命令发送单元，用于向所述目标主机发送keep alive命令；

系统无响应判断单元，在接收所述keep alive命令的响应信息超时时，判断所述超时原因是否为安全外壳守护进程异常，如果是，则触发SSH隧道建立模块重新建立所述SSH隧道，否则，判定所述目标主机死机；在成功接收到所述keep alive命令的响应信息时，触发第一检测模块执行。

进一步地，为了对主机无法响应的趋势进行预测，所述第二检测模块还可以进一步用于：在成功接收到所述keep alive命令的响应信息后，确定本次发送所述keep alive命令后接收到相应的响应信息所需要的时间t_n，并确定所述t_n与上一次发送所述keep alive命令后接收到相应的响应信息所需要的时间t_n-1之间的差值Δt_n，计算所述目标主机所属网段上的各目标主机当前的Δt_n的平均值如果所述Δt_n满足：则判断所述目标主机存在无法响应的趋势，其中，Δt_n-1和Δt_n-2分别为前两次得到的所述差值，a为预设的调整系数，用于限定当Δt_n值大于较多时，确定目标主机存在无法响应的趋势，a＞0，具体地，本领域技术人员可以根据实际应用需要，设置合适的a值。

通过上述方案可以看出，本发明通过建立检测装置与主机系统之间的SSH隧道，利用该SSH隧道对目标主机的系统状态进行监控，易于实现且监控消耗的资源低，具有良好的扩展性和监控的实时性等优点。

综上所述，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种主机系统状态的检测方法，其特征在于，该方法包括以下步骤：

a、监控平台预先建立与目标主机之间的安全外壳SSH隧道；

b、所述监控平台检测所述SSH隧道连接是否断开；

d、如果所述SSH隧道连接没有断开，或所述SSH隧道连接断开后，监控平台触发所述SSH隧道重建成功，则所述监控平台通过向所述目标主机发送保持激活keep alive命令，确定所述目标主机是否处于系统无响应状态，并在成功接收到所述keep alive命令的响应信息后，确定本次发送所述keep alive命令后接收到相应的响应信息所需要的时间t_n，并确定所述t_n与上一次发送所述keepalive命令后接收到相应的响应信息所需要的时间t_n-1之间的差值Δt_n，计算所述目标主机所属网段上的各目标主机当前的Δt_n的平均值如果所述Δt_n满足：则判断所述目标主机存在无法响应的趋势，其中，Δt_n-1和Δt_n-2分别为前两次得到的所述差值，a为预设的调整系数，a＞0，重新执行步骤b。

2.根据权利要求1所述的方法，其特征在于，步骤d中确定所述目标主机是否处于系统无响应状态为：

如果所述监控平台接收所述keep alive命令的响应信息超时，则判断所述超时原因是否为安全外壳守护进程异常，如果是，则执行步骤c，否则，判定所述目标主机处于系统无响应状态。

3.一种主机系统状态的检测装置，该装置设于系统的监控平台中，其特征在于，该装置包括：

第二检测模块，用于通过向所述目标主机发送keep alive命令，确定所述目标主机是否处于系统无响应状态，并在成功接收到所述keep alive命令的响应信息后，触发第一检测模块检测所述SSH隧道连接是否断开，在成功接收到所述keep alive命令的响应信息后，确定本次发送所述keep alive命令后接收到相应的响应信息所需要的时间t_n，并确定所述t_n与上一次发送所述keep alive命令后接收到相应的响应信息所需要的时间t_n-1之间的差值Δt_n，计算所述目标主机所属网段上的各目标主机当前的Δt_n的平均值如果所述Δt_n满足：则判断所述目标主机存在无法响应的趋势，其中，Δt_n-1和Δt_n-2分别为前两次得到的所述差值，a为预设的调整系数，a＞0。

4.根据权利要求3所述的装置，其特征在于，所述第二检测模块包括：

keep alive命令发送模块，用于向所述目标主机发送keep alive命令；

系统无响应判断模块，在接收所述keep alive命令的响应信息超时时，判断所述超时原因是否为安全外壳守护进程异常，如果是，则触发SSH隧道建立模块重新建立所述SSH隧道，否则，判定所述目标主机死机；在成功接收到所述keep alive命令的响应信息时，触发第一检测模块执行。