CN102684936A

CN102684936A - 用于监测服务器的运行状态的方法、设备和系统

Info

Publication number: CN102684936A
Application number: CN2011100682064A
Authority: CN
Inventors: 闫志东; 马帅
Original assignee: Beijing Oak Pacific Interactive Technology Development Co Ltd
Current assignee: Beijing Oak Pacific Interactive Technology Development Co Ltd
Priority date: 2011-03-11
Filing date: 2011-03-11
Publication date: 2012-09-19

Abstract

本发明涉及用于监测服务器的运行状态的方法、设备和系统。具体地，提供一种用于监测网络中的服务器的运行状态的方法，所述服务器运行有至少一个应用。该方法包括：从所述服务器收集由所述至少一个应用产生的异常信息；以及基于所收集的异常信息来监测所述服务器的运行状态。还公开了相应的设备和系统。利用本发明的实施方式，可以更为有效地监测服务器的运行状态。

Description

用于监测服务器的运行状态的方法、设备和系统

技术领域

本发明的实施方式总体上涉及网络信息技术领域，更具体地，涉及用于监测服务器的运行状态的方法、设备和系统。

背景技术

在信息技术领域，监测计算设备是否以正常状态运行是一个重要的问题。特别是随着网络技术的发展，越来越多的计算设备以服务器的形式出现，这些服务器通过其上运行的应用来为其他设备(称为客户端设备)提供相应的服务和/或数据。作为示例，常见的服务器包括但不限于：电子邮件(email)服务器、消息收发服务器、文件服务器、应用服务器、数据库服务器，等等。监测这些服务器的运行状态对于维持正常的网络服务和通信而言至关重要。

应当理解，在此使用的术语“服务器”意在表示能够通过网络向其他设备提供数据、信息、服务等的任何适当的计算设备，包括但不限于：主机计算机、个人计算机、膝上型计算机、移动计算设备、个人数字助理(PDA)，等等。而且，还应理解，在此提及的“服务器”和“客户端”是相对的。特定的计算设备可能在某些情况下充当服务器，而在另一些情况下充当客户端。而且，计算设备同时充当服务器和客户端也是可能的。

在现有技术中，网络中服务器的运行状态通常是通过监测该服务器的网络端口来实现的。例如，对于提供Web服务的服务器而言，根据现有技术的方案，对服务器运行状态的监测可以这样实现：监测应用服务器提供Web服务的端口(例如，超文本传输协议HTTP端口)，并且通过端口的状态(例如，是否正常响应)来确定该服务器是否正常运行。

然而，现有技术的此类方案存在明显的缺陷。通过这种方式，只能确保服务器与外部通信的网络端口处于正常状态，即，端口是可达和可响应的。但是，端口处于正常状态并不总是等同于服务器处于正常运行状态。例如，在某些情况下，尽管服务器的端口尚以正常状态工作，但是其中运行的应用或者服务器的系统平台可能已经发生了错误或者异常。如果这种情况得不到及时、有效的处理，则可能影响所提供服务的正确性和/或响应速度。

考虑一个具体示例，假定服务器上提供Web服务的Web应用需要使用特定量的存储资源。但是，服务器上的存储资源可能由于某些原因(例如，由于资源竞争)而变得不可获得。此时，尽管该服务器的网络端口处于正常状态，但是Web应用由于无法获得操作所需的资源，可能已经无法为客户端提供正确、及时的服务。

目前，在这种情况下，服务器的异常状态需要往往需要以人工方式来确定和处理。具体而言，接受服务的用户可以向有关负责人员(例如，服务器管理员、网络管理员、客户服务人员，等等)反馈服务异常，而负责人员通过查看服务器的系统运行日志来评估服务器的状态，并采取相应的措施。这不利于快速、及时地应对服务器的异常状态，并且将耗费可观的人力和物力成本。

由此，本领域中需要一种以更为有效、快速和准确的方式监测网络中服务器的运行状态的方法和设备。

发明内容

为了克服现有技术中的上述缺陷，本发明的实施方式提供用于监测服务器的运行状态的方法、设备和系统。

在本发明的一个方面，提供一种用于监测网络中的服务器的运行状态的方法，所述服务器运行有至少一个应用。该方法包括：从所述服务器收集由所述至少一个应用产生的异常信息；以及基于所收集的异常信息来监测所述服务器的运行状态。

在本发明的某些实施方式中，所述异常信息被所述服务器存储在存储库中，并且所述收集包括从所述存储库收集所述异常信息。在本发明的某些实施方式中，所述异常信息以推送或者拉取模式被收集。备选地或附加地，所述异常信息被定期收集。

根据本发明的某些实施方式，其中所述监测包括基于以下至少一个来确定所述服务器是否处于正常运行状态：单位时间内产生的异常的数目；产生的异常的类型；以及产生异常的应用的特性。在这种实施方式中，该方法还可以包括：响应于确定所述服务器未处于正常运行状态而向用户发送警示消息。警报可以通过以下一个或多个来发送：电子邮件，短消息服务SMS消息，以及多媒体消息MMS。

在本发明的另一方面，提供一种用于监测网络中的服务器的运行状态的设备，所述服务器运行有至少一个应用。所述设备包括：收集装置，配置为用于从所述服务器收集由所述至少一个应用产生的异常信息；以及监测装置，配置为用于基于所收集的异常信息来监测所述服务器的运行状态。

在本发明的又一方面，提供一种系统。该系统包括：服务器，其运行至少一个应用；存储库，其耦合至所述服务器，配置为用于存储由所述服务器上的所述至少一个应用产生的异常信息；以及监测设备，其耦合至所述存储库，配置为用于监测所述服务器的运行状态，其中所述监测设备包括如上文所述的设备。

根据本发明的各种实施方式，除了监测服务器的网络端口之外或者作为替代，可以通过收集服务器上运行的应用的异常信息来监测服务器的运行状态。具体地，运行于服务器之上的应用所抛出的异常信息可被写入预先确定的可访问位置。这些异常信息继而可以基于预定的策略被提供给负责监测服务器运行状态的设备。由此，可以通过分析服务器上的应用抛出的异常信息，来确定服务器的当前运行状态，并且在服务器未处于正常运行状态时通知有关用户和/或采取必要措施。以此方式，可以改进对服务器的运行状态监测和报警机制。

附图说明

通过参考附图阅读下文的详细描述，本发明实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1示出了根据本发明的实施方式可在其中实现的网络环境100的示意图；

图2示出了根据本发明的实施方式用于监测网络中的服务器的运行状态的方法200的流程图；

图3示出了根据本发明的实施方式用于监测网络中的服务器的运行状态的设备301的框图；以及

图4示出了适合用来实践本发明实施方式的计算机系统400的框图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。

总体上，本发明的实施方式涉及用于监测服务器的运行状态的方法和装置。通过下文详细描述将会理解，可以通过收集服务器上运行的应用所产生的异常信息来监测服务器的运行状态。具体地，运行于服务器之上的应用所抛出的异常信息可被提供给负责监测服务器运行状态的设备。由此，可以通过分析服务器上的应用抛出的异常信息来确定服务器的当前运行状态，并且在服务器未处于正常运行状态时通知有关用户和/或采取必要措施。以此方式，可以改进对服务器的运行状态监测和报警机制。下面将详细描述本发明的各种实施方式。

首先参考图1，其示出了根据本发明的实施方式可在其中实现的网络环境100的示意图。如图所示，根据本发明的实施方式，网络环境100可以包括：监测设备101，服务器102，以及存储库103。

根据本发明的实施方式，监测设备101可配置为用于监测服务器102的运行状态，其可以与服务器102和/或存储库103通信。关于监测设备101的详细描述将在下文给出。

服务器102是通过网络向被称作客户端的其他设备(图1中未示出)提供服务的计算设备。服务器102可以包括目前已知或者将来开发的任何类型的网络服务器，包括但不限于：电子邮件(email)服务器、消息收发服务器、文件服务器、应用服务器、数据库服务器，等等。此外，服务器102可以通过任何适当的设备来实现，包括但不限于：主机计算机、个人计算机、膝上型计算机、移动计算设备、个人数字助理(PDA)，等等。应当理解，上文列举的示例仅仅出于说明而非限制的目的，本发明的范围在此方面不受限制。

如图1所示，服务器102上可以运行有至少一个应用，例如应用102-1、应用102-2到应用102-N。取决于服务器102的所提供的功能和服务，这些应用可以是任何适当类型的应用。当这些应用在服务器102上运行时，其实现服务器102所要提供的部分或者全部功能。

在应用102-1到应用102-N的运行期间，如果出现例如存储器访问错误、资源操作失败、存储器溢出、非法操作等任何意外或者异常情况，则这些程序可以抛出异常(exception)。所抛出的异常可以由特定的模块来处理，并且关于异常的信息可以存储在特定的位置。在现有技术中，服务器102上运行的应用102-1到102-N所产生的异常信息可被存储于服务器102本地的系统运行日志(未示出)。

根据本发明的实施方式，除了将应用产生的异常信息存储于系统运行日志，或者作为替代，这些异常信息还可以被保存于存储库103。存储库103可以是用于存储信息的任何适当介质，并且其可以通过任何适当的数据结构来保存信息，包括但不限于：列表、队列、栈、堆、数据库的表、文件，等等。根据本发明的实施方式103，存储库103可与监测设备101和/或服务器102通信，并且是这二者可访问的。

应当注意，尽管在图2中将监测设备101、服务器102以及存储库103示为独立的设备，但这仅仅是为了说明目的而进行的逻辑划分。在实践中，设备101-103可以根据需要具有不同的实现方式。例如，尽管在图2中存储库103处于监测设备101和服务器102二者的外部，但是在备选实施方式中，存储库103可以包含在监测设备101和服务器102之一中。实际上，在某些实施方式中，监测设备101本身也可以与服务器102定位在同一物理计算设备上，这将在下文详述。

在监测设备101、服务器102和/或存储库103彼此独立的实施方式中，它们之间的通信可以通过网络来实现。网络可以包括有线网络、无线网络或其组合，包括但不限于：蜂窝电话网络，以太网，基于IEEE 802.11、802.16、802.20等的无线局域网(WLAN)，和/或全球微波接入互操作性(WiMAX)网络。此外，网络可以是公共网络(诸如，因特网)、专用网络(诸如，企业内部网)或其组合。在分层式网络通信架构下，网络的传输层可以按照传输控制协议(TCP)、实时传输协议(RTP)或其他传输逻辑进行操作。网络层可以基于网际协议v4、v6(即，IPv4或IPv6)或其他网络层协议来路由信息。数据链路层可以包括有线或无线链路，如异步传输模式(ATM)、光纤分布式数据接口(FDDI)、光纤、同轴电缆、双绞线或其他物理层上的其他数据链路层。

本领域技术人员将会理解，图1中仅仅示出了网络环境中与本发明的主题有关的设备和元件。网络环境还可以包括诸如接入点、路由器、防火墙等各种网元。

下面将参考图2详细描述根据本发明实施方式的用于监测网络中的服务器的运行状态的方法200的流程图。出于说明目的，下文将主要结合图1中示出的环境100来描述方法200的实施方式。特别地，根据本发明的实施方式，方法200例如可以由参考图1描述的网络环境100中的监测设备101来实现。然而，应当理解，方法200也可以在其他环境中和/或由其他设备来实现。

方法200开始之后，在步骤S202，从所述服务器收集由所述至少一个应用产生的异常信息。如上文所述，为了提供适当的功能和/或服务，服务器(例如，图1中的服务器102)上可运行有至少一个应用(例如，应用102-1到102-N)。在运行期间，如果某个应用遇到了错误或者意外，则其可以相应地抛出异常。作为示例，关于应用所抛出的异常的信息(称为“异常信息”)可以包括：抛出异常的应用的标识，异常发生的时间，异常的类型，异常是否得到处理，异常造成的影响，等等。

根据本发明的实施方式，这些异常信息除了被写入服务器102的本地系统运行日志之外，还可以被保存在特定的存储库(例如，图1中的存储库103)。根据本发明的实施方式，来自服务器102的异常信息例如可以被保存在存储库103处的消息队列(MQ)中。注意，这仅仅是示例性的，本发明的实施方式在此不受限制。

在异常信息被保存在存储库103中的情况下，在步骤S202中，这些异常信息例如可由负责监测服务器102运行状态的监测设备(例如，图1中的监测设备101)从其收集。根据本发明的实施方式，监测设备101可以通过各种模式从存储库103收集这些异常信息。例如，从监测设备101的角度考虑，异常信息可以按照推送(push)模式被收集。在这种实施方式中，异常信息由存储库103主动向监控设备101发送。又如，根据本发明的另一些实施方式，异常信息可以按照拉取(pull)模式被收集。换言之，在这种实施方式中，监测设备101主动地访问存储库103以获取其中保存的异常信息。

应当注意，不论是按照推送还是拉取模式来收集异常信息，步骤S202中的收集可以被周期性地执行。具体而言，在推送模式下，存储库103可以按照预定的时间间隔向监测设备101发送异常信息。类似地，在拉取模式下，监测设备101可以按照预定的时间间隔访问存储库103并且取回异常信息。可以理解，从监测设备101的角度考虑，定期拉取存储库103中保存的异常信息可被理解为一种轮询。

备选地或附加地，根据本发明的实施方式，除了周期性地执行获取之外，步骤S202处的收集还可以基于各种不同的策略来执行。例如，在某些实施方式中，如果单位时间中达到存储库103的异常信息(即，单位时间内由服务器102上的应用产生的异常信息)超过了某个阈值水平，则存储库103可以向监控设备101发送这些异常信息。

又如，根据服务器102的功能和服务，可以为其上运行的应用102-1到102-N划分重要性等级。对于实现服务器102的服务目的比较重要的应用具有较高的重要性等级，而相对而言对服务器102的功能影响不大的应用具有较低的重要性等级。此时，一旦确定达到存储库103的异常信息由重要性登记较高(例如，高于某个预定的阈值水平)的应用产生，存储库103便可以立即向监测设备101发送相应的异常信息。

如上文所述，为了收集异常信息，监测设备101需要与存储库103进行通信。然而应当注意，如上文所述，存储库103可以位于服务器102外部，也可以与服务器102处于同一物理机器上。在后一种情况下，监测设备101可以通过直接与服务器102通信来收集异常信息。甚至在某些情况下，监测设备101本身也可以与服务器102位于相同的物理机器上。此时，二者之间的通信例如可以是模块间或进程间通信。本发明的范围在此方面不受限制。

此外，应当理解，上文描述的仅仅是收集异常信息的几个示例性实施方式。基于在此给出的教导和启示，本领域的技术人员可以想到任何适当的技术手段来实现步骤S202处的收集。

接下来，方法200进行到步骤S204，在此基于收集的异常信息来监测服务器的运行状态。根据本发明的实施方式，可以为服务器102设置多个运行状态。例如，根据本发明的一个实施方式，可以将服务器的运行状态划分为正常运行状态和非正常运行状态，而非正常运行状态又可进一步划分为报警状态、紧急状态、未知状态，等等。注意，这仅仅示例性的，本领域技术人员可以根据具体情况为服务器102划分不同的和/或附加的运行状态。在此基础上，可以基于步骤S202中收集的异常信息来确定服务器102目前处于哪个状态。

根据本发明的某些实施方式，在步骤S204处，可以基于步骤S202中收集的异常信息的数目来确定服务器的当前运行状态。可以理解，可以计算得出服务器102上的应用在任意给定的时间内抛出的异常的数目。继而，可以将单位时间内的异常次数与一个或多个预定的阈值进行比较。例如，在某些实施方式中，服务器的每个运行状态可以与特定的阈值相关联。通过与阈值的比较，即可确定服务器的当前运行状态。

作为一个示例，例如可以规定：如果服务器102上的应用在1分钟内抛出100次以上异常，则服务器102处于紧急状态；如果1分钟内抛出10-100次异常，则服务器102处于报警状态；如果1分钟内抛出10次以下异常，则服务器102处于正常运行状态。应当理解，这些具体数字仅仅是示例性的，本发明的范围在此方面不受限制。

备选地或附加地，在步骤S204处，还可以基于步骤S202中收集的异常信息的类型来确定服务器的当前运行状态。具体地，根据本发明的实施方式，异常信息中可以包含指示该异常的类型的参数。如果监测设备101发现服务器102上的一个或多个应用遭遇了严重的异常，则可以确定监测设备101处于紧急状态。作为示例，将导致服务器102处于紧急状态的示例性异常包括但不限于：骨干网络故障，诸如主网络异常，各服务结点无法访问；服务器系统级故障，诸如中央处理单元(CPU)利用率过高、存储器占用率过高、交换分区使用率过高、磁盘满、磁盘故障等；服务级故障，诸如服务不可访问，相应的端口或地址无法访问；服务级虚拟机(包括但不限于java虚拟机)异常，诸如虚拟机内存溢出、堆栈溢出、虚拟机其他问题；服务内部所依赖服务的网络异常，诸如域名无法解析、连接超时、连接中断、请求响应超时等。

另一方面，如果所发生的异常是不会对服务器102的运行和功能造成过于严重的影响，则可以认定服务器102处于警报状态。此类异常的示例包括但不限于：服务内部IO异常，诸如日志等服务无法操作、目录文件等资源不存在；数据库相关异常，诸如语法错误、数据库无法连接、数据库响应超时、其它数据库异常；服务运行时异常，诸如编码解码异常、数据格式化异常、数据校验异常、转换异常、及其它运行时异常。

另外，由于某些异常不会对服务器102的功能造成任何实质影响或者影响很小，即使该类异常发生，仍然可以认为服务器102处于正常运行状态。此类异常的示例包括但不限于：HTTP请求级异常；以及其他协议级自定义异常。

应当理解，上文提及的异常类型仅仅是示例性的，并非意在限制本发明的范围。基于在此给出的教导和启示，本领域技术人员可以为异常类型与服务器的运行状态建立附加的和/或不同的关联关系。

除此之外，在步骤S204处，还可以基于产生异常信息的应用的特性来确定服务器的当前运行状态。例如，如上所述，服务器202上运行的应用可被指派以不同的重要性。当重要性较高的应用抛出异常，有可能导致服务器102和/或其上运行的其他应用受到影响，甚至导致所要提供的服务无法实现。由此，如果监测设备101确定服务器上的某些重要的应用抛出异常，则可以认定服务器102处于紧急状态。反之，如果某些不太重要的应用发生异常，则可以认定服务器102处于警报状态甚至正常运行状态。

除了重要性之外，应用的特性还可以包括可能对服务器102的运行造成影响的任何其他因素，例如应用是否是计算密集型的、资源密集型的、网络操作密集型的，等等。

应当理解，上文描述的仅仅是确定服务器状态的几种示例性实施方式，其他实施方式同样是可行的。而且，上文描述的实施方式可以结合使用。例如，可以基于单位时间内产生的异常数目以及产生异常的应用的特性二者，来确定服务器的运行状态。本领域的技术人员还可以想到其他适当的方式对这些因素进行组合。本发明的范围在这些方面不受限制。

在某些实施方式中，方法200继而进行到步骤S206，在此确定服务器是否未处于正常运行状态(例如，上文提及的警报状态、紧急状态或者未知状态)。如果确定结果为“否”，表明服务器目前处于正常运行状态，则方法100返回步骤S202以继续执行监测。

另一方面，如果在步骤S206确定服务器目前未处于正常运行状态，则方法100进行到步骤S208，在此，向有关用户发送警示消息。用户可以是负责服务器运行的管理员、网络管理员、客户服务人员或者任何其他有关人员。根据本发明的实施方式，警示消息可以利用多种手段来发送，包括但不限于：电子邮件，短消息服务(SMS)消息，多媒体消息(MMS)，等等。在所发送的警示消息中，可以包含有指示系统当前运行状态的信息，所发生异常的具体信息，和/或可能的解决方案建议。

在步骤S208之后，方法100可以返回步骤S202继续进行监测。或者，在某些情况下(例如，服务器102的问题比较严重以至于需要立即停机处理，等等)，方法100可以结束。随后，方法100可以自动地或者响应于用户指令而重新开始执行。

现在参考图3，其示出了根据本发明的实施方式用于监测网络中的服务器的运行状态的设备301的框图。根据本发明的实施方式，设备301可以对应于上文参考图1描述的监测设备101，或者作为部分被包括在监测设备101中。

如图3所示，设备301可以包括收集装置302以及监测装置304。收集装置302可配置为用于从该服务器收集由该至少一个应用产生的异常信息。监测装置304可配置为用于基于所收集的异常信息来监测该服务器的运行状态。

根据本发明的某些实施方式，异常信息被所述服务器存储在存储库中，并且收集装置302可配置为用于从该存储库收集异常信息。备选地或附加地，收集装置302可配置为用于以推送或者拉取模式从该服务器收集该异常信息。此外，收集装置302可配置为用于定期收集该异常信息。

根据本发明的某些实施方式，监测装置304配置为用于根据以下至少一个来确定该服务器是否处于正常运行状态：单位时间内产生的异常的数目；产生的异常的类型；以及产生异常的应用的特性。

在这种实施方式中，设备301还可以包括警示装置306，其可配置为用于响应于确定该服务器未处于正常运行状态而向用户发送警示消息。例如，警示装置306可配置为用于通过以下一个或多个来发送该警示消息：电子邮件，短消息服务SMS消息，以及多媒体消息MMS。

为清晰起见，在图3中并未示出各个装置所包含的子装置。然而，应当理解，设备301中记载的装置302-306及其子装置分别与参考图2描述的方法200中的步骤相对应。由此，上文针对图2中的方法200描述的操作和特征同样适用于设备300及其中包含的装置和子装置，在此不再赘述。

还应当理解，设备300可以利用各种方式来实现。例如，在某些实施方式中，设备300可以利用软件和/或固件模块来实现。此外，设备300也可以利用硬件模块来实现。例如，设备300可以实现为集成电路(IC)芯片或专用集成电路(ASIC)。设备300也可以实现为片上系统(SOC)。现在已知或者将来开发的其他方式也是可行的，本发明的范围在此方面不受限制。

图4示出了适于用来实践本发明实施方式的计算机系统的示意性框图。图4示出了适于用来实践本发明实施方式的计算机系统的示意性框图。如图4所示，计算机系统可以包括：CPU(中央处理单元)401、RAM(随机存取存储器)402、ROM(只读存储器)403、系统总线404、硬盘控制器405、键盘控制器406、串行接口控制器407、并行接口控制器408、显示控制器409、硬盘410、键盘411、串行外部设备412、并行外部设备413和显示器414。在这些设备中，与系统总线404耦合的有CPU 401、RAM 402、ROM 403、硬盘控制器405、键盘控制器406、串行控制器407、并行控制器408和显示控制器409。硬盘410与硬盘控制器405耦合，键盘411与键盘控制器406耦合，串行外部设备412与串行接口控制器407耦合，并行外部设备413与并行接口控制器408耦合，以及显示器414与显示控制器409耦合。应当理解，图4所述的结构框图仅仅为了示例的目的而示出的，而不是对本发明范围的限制。在某些情况下，可以根据具体情况而增加或者减少某些设备。

应当理解，图4所述的结构框图仅仅为了示例的目的而示出的，而不是对本发明范围的限制。在某些情况下，可以根据具体情况而增加或者减少某些设备。

特别地，除硬件实施方式之外，本发明的实施方式可以通过计算机程序产品的形式实现。例如，参考图2描述的方法200可以通过计算机程序产品来实现。该计算机程序产品可以存储在例如图4所示的RAM 404、ROM 404、硬盘410和/或任何适当的存储介质中，或者通过网络从适当的位置下载到计算机系统400上。计算机程序产品可以包括计算机代码部分，其包括可由适当的处理设备(例如，图4中示出的CPU 401)执行的程序指令。该计算机程序产品可用于监测服务器的运行状态，其中该服务器上运行有至少一个应用。根据本发明的实施方式，计算机程序产品中包含的程序指令至少可以包括：用于从服务器收集由至少一个应用产生的异常信息的指令；以及用于基于所收集的异常信息来监测服务器的运行状态的指令。

上文已经结合若干具体实施方式阐释了本发明的精神和原理。根据本发明的实施方式，可以通过收集服务器上运行的应用所产生的异常信息来监测服务器的运行状态。具体地，运行于服务器之上的应用所抛出的异常信息可被提供给负责监测服务器运行状态的设备。由此，可以通过分析服务器上的应用抛出的异常信息，来确定服务器的当前运行状态，并且在服务器未处于正常运行状态时通知有关用户和/或采取必要措施。以此方式，可以改进对服务器的运行状态监测和报警机制。下面将详细描述本发明的各种实施方式。

应当注意，本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现；软件部分可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合例如固件来实现。

说明书中提及的通信网络可以包括各类网络，包括但不限于局域网(“LAN”)，广域网(“WAN”)，根据IP协议的网络(例如，因特网)以及端对端网络(例如，ad hoc对等网络)。

应当注意，尽管在上文详细描述中提及了设备的若干装置或子装置，但是这种划分仅仅并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多装置的特征和功能可以在一个装置中具体化。反之，上文描述的一个装置的特征和功能可以进一步划分为由多个装置来具体化。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，流程图中描绘的步骤可以改变执行顺序。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本发明，但是应该理解，本发明并不限于所公开的具体实施方式。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。所附权利要求的范围符合最宽泛的解释，从而包含所有这样的修改及等同结构和功能。

Claims

1.一种用于监测网络中的服务器的运行状态的方法，所述服务器运行有至少一个应用，所述方法包括：

从所述服务器收集由所述至少一个应用产生的异常信息；以及

基于所收集的异常信息来监测所述服务器的运行状态。

2.如权利要求1所述的方法，其中所述异常信息被所述服务器存储在存储库中，并且所述收集包括从所述存储库收集所述异常信息。

3.如权利要求1所述的方法，其中所述异常信息以推送或者拉取模式被收集。

4.如权利要求1至3任一项所述的方法，其中所述异常信息被定期收集。

5.如权利要求1所述的方法，其中所述监测包括基于以下至少一个来确定所述服务器是否处于正常运行状态：

单位时间内产生的异常的数目；

所产生的异常的类型；以及

产生异常的应用的特性。

6.如权利要求5所述的方法，还包括：响应于确定所述服务器未处于正常运行状态而向用户发送警示消息。

7.如权利要求6所述的方法，其中所述警示消息通过以下一个或多个来发送：电子邮件，短消息服务SMS消息，以及多媒体消息MMS。

8.一种用于监测网络中的服务器的运行状态的设备，所述服务器运行有至少一个应用，所述设备包括：

收集装置，配置为用于从所述服务器收集由所述至少一个应用产生的异常信息；以及

监测装置，配置为用于基于所收集的异常信息来监测所述服务器的运行状态。

9.如权利要求8所述的设备，其中所述异常信息被所述服务器存储在存储库中，并且其中所述收集装置进一步配置为用于从所述存储库收集所述异常信息。

10.如权利要求8所述的设备，其中所述收集装置进一步配置为用于以推送或者拉取模式从所述服务器收集所述异常信息。

11.如权利要求8到10任一项所述的设备，其中所述收集装置进一步配置为用于定期收集所述异常信息。

12.如权利要求8所述的设备，其中所述监测装置进一步配置为用于基于以下至少一个来确定所述服务器是否处于正常运行状态：

单位时间内产生的异常的数目；

所产生的异常的类型；以及

产生异常的应用的特性。

13.如权利要求12所述的设备，还包括：

警示装置，配置为用于响应于确定所述服务器未处于正常运行状态而向用户发送警示消息。

14.如权利要求13所述的设备，其中所述警示装置进一步配置为用于通过以下一个或多个来发送所述警示消息：电子邮件，短消息服务SMS消息，以及多媒体消息MMS。

15.一种系统，包括：

服务器，其上运行有至少一个应用；

存储库，其耦合至所述服务器，配置为用于存储由所述服务器上的所述至少一个应用产生的异常信息；以及

监测设备，其耦合至所述存储库，配置为用于监测所述服务器的运行状态，其中所述监测设备包括如权利要求8-14任一项所述的设备。