CN104426696B

CN104426696B - 一种故障处理的方法、服务器及系统

Info

Publication number: CN104426696B
Application number: CN201310385351.4A
Authority: CN
Inventors: 郑萌; 温凯; 徐凡
Original assignee: Shenzhen Tencent Computer Systems Co Ltd
Current assignee: Shenzhen Tencent Computer Systems Co Ltd
Priority date: 2013-08-29
Filing date: 2013-08-29
Publication date: 2018-09-07
Anticipated expiration: 2033-08-29
Also published as: CN104426696A

Abstract

本发明公开了一种故障处理的方法，包括：获取集群中发生过故障的服务器的平均安全运行时长和未发生过故障的服务器的首次平均安全运行时长，以及所述集群中每台服务器的硬件运行异常参数；根据所述平均安全运行时长和所述首次平均安全运行时长，以及所述集群中每台服务器的硬件运行异常参数，计算所述每台服务器发生故障的概率；当所述概率超过预置阈值时，按照预置方案处理所述概率超过所述预置阈值的服务器。本发明实施例还提供相应的服务器及系统。本发明实施例提供的故障处理的方法，可以预测并提前处理可能发生故障的服务器，从而提高数据系统的稳定性。

Description

一种故障处理的方法、服务器及系统

技术领域

本发明涉及互联网技术领域，具体涉及一种故障处理的方法及装置。

背景技术

由于信息大爆炸，互联网上的数据也在成几何级数增长。随着海量数据的产生，对这些数据进行存储、分析也消耗着大量的硬件服务器。由于互联网的应用特性，在硬件上主要使用PC server类的小型服务器设备，单机存储20T，最多不超过50T。而在数据量已是100PB级的集群，其设备量将超过5000台。而随着数据量的增长，设备规模还将继续增多，而这些设备的硬件故障时时刻刻都可能发生，时时刻刻都在影响着整个集群的可用情况和效率。

在对现有技术的研究和实践过程中，本发明的发明人发现，目前解决这些故障往往以人工跟进为主，因为无法做到预测，故障发生后能及时发现并处理非常不易，因为设备总量的庞大，故障的设备也越来越多，对故障的处理消耗了巨大的人力，并且当故障设备数超过一定阀值时，会影响整个系统的稳定运行。

发明内容

本发明实施例提供一种故障处理方法，可以预测并提前处理可能发生故障的服务器，从而提高数据系统的稳定性。本发明实施例还提供了相应的服务器及系统。

本发明第一方面提供一种故障处理的方法，包括：

获取集群中发生过故障的服务器的平均安全运行时长和未发生过故障的服务器的首次平均安全运行时长，以及所述集群中每台服务器的硬件运行异常参数；

根据所述平均安全运行时长和所述首次平均安全运行时长，以及所述集群中每台服务器的硬件运行异常参数，计算所述每台服务器发生故障的概率；

当所述概率超过预置阈值时，按照预置方案处理所述概率超过所述预置阈值的服务器。

结合第一方面，在第一种可能的实现方式中，所述获取所述集群中每台服务器的硬件运行异常参数，包括：

获取所述集群中每台服务器的硬件运行参数；

将所述硬件运行参数与预存储的标准的硬件运行参数进行比对，确定所述硬件运行异常参数。

结合第一方面，在第二种可能的实现方式中，所述获取集群中发生过故障的服务器的平均安全运行时长，包括：

获取所述发生过故障的服务器中每台服务器的安全运行时长；

根据所述发生过故障的服务器中每台服务器的安全运行时长，计算所述发生过故障的服务器的平均安全运行时长。

结合第一方面，在第三种可能的实现方式中，所述获取未发生过故障的服务器的首次平均安全运行时长，包括：

获取发生过故障的服务器中每台服务器的首次安全运行时长；

根据所述发生过故障的服务器中每台服务器的首次安全运行时长，计算所述发生过故障的服务器的平均首次安全运行时长，并将所述发生过故障的服务器的平均首次安全运行时长作为所述未发生过故障的服务器的首次平均安全运行时长。

结合第一方面、第一方面第一种至第三种可能的实现方式中的任意一种，在第四种可能的实现方式中，所述当所述概率超过预置阈值时，按照预置方案处理所述概率超过所述预置阈值的服务器，包括：

当所述概率超过所述预置阈值中的第一数值时，触发输出所述概率超过所述第一数值的服务器的告警信息。

结合第一方面、第一方面第一种至第三种可能的实现方式中的任意一种，在第五种可能的实现方式中，所述当所述概率超过预置阈值时，按照预置方案处理所述概率超过所述预置阈值的服务器，包括：

当所述概率超过所述预置阈值中的第二数值时，停止使用所述概率超过所述第二数值的服务器。

本发明第二方面提供一种服务器，包括：

获取单元，用于获取集群中发生过故障的服务器的平均安全运行时长和未发生过故障的服务器的首次平均安全运行时长，以及所述集群中每台服务器的硬件运行异常参数；

计算单元，用于根据所述获取单元获取的平均安全运行时长和所述首次平均安全运行时长，以及所述集群中每台服务器的硬件运行异常参数，计算所述每台服务器发生故障的概率；

处理单元，用于当所述计算单元计算出的概率超过预置阈值时，按照预置方案处理所述概率超过所述预置阈值的服务器。

结合第二方面，在第一种可能的实现方式中，所述获取单元包括：

第一获取子单元，用于获取所述集群中每台服务器的硬件运行参数；

确定子单元，用于将所述第一获取子单元获取的硬件运行参数与预存储的标准的硬件运行参数进行比对，确定所述硬件运行异常参数。

结合第二方面，在第二种可能的实现方式中，所述获取单元包括：

第二获取子单元，用于获取所述发生过故障的服务器中每台服务器的安全运行时长；

第一计算子单元，用于根据所述第二获取子单元获取的发生过故障的服务器中每台服务器的安全运行时长，计算所述发生过故障的服务器的平均安全运行时长。

结合第二方面，在第三种可能的实现方式中，所述获取单元包括：

第三获取子单元，用于获取发生过故障的服务器中每台服务器的首次安全运行时长；

第二计算子单元，用于根据所述第三获取子单元获取的发生过故障的服务器中每台服务器的首次安全运行时长，计算所述发生过故障的服务器的平均首次安全运行时长，并将所述发生过故障的服务器的平均首次安全运行时长作为所述未发生过故障的服务器的首次平均安全运行时长。

结合第二方面、第二方面第一种至第三种可能的实现方式中的任意一种，在第四种可能的实现方式中，所述处理单元，用于当所述概率超过所述预置阈值中的第一数值时，触发输出所述概率超过所述第一数值的服务器的告警信息。

结合第二方面、第二方面第一种至第三种可能的实现方式中的任意一种，在第五种可能的实现方式中，所述处理单元，用于当所述概率超过所述预置阈值中的第二数值时，停止使用所述概率超过所述第二数值的服务器。

本发明第三方面提供一种集群系统，包括：控制服务器和多台集群服务器；

所述控制服务器为上述技术方案所述的服务器。

本发明实施例采用获取集群中发生过故障的服务器的平均安全运行时长和未发生过故障的服务器的首次平均安全运行时长，以及所述集群中每台服务器的硬件运行异常参数；根据所述平均安全运行时长和所述首次平均安全运行时长，以及所述集群中每台服务器的硬件运行异常参数，计算所述每台服务器发生故障的概率；当所述概率超过预置阈值时，按照预置方案处理所述概率超过所述预置阈值的服务器。与现有技术中只能等到故障发生后再进行处理相比，本发明实施例提供的故障处理的方法，可以预测并提前处理可能发生故障的服务器，从而提高数据系统的稳定性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例中故障处理的方法的一实施例示意图；

图2是本发明实施例中故障处理的方法的另一实施例示意图；

图3是本发明实施例中服务器的一实施例示意图；

图4是本发明实施例中服务器的另一实施例示意图；

图5是本发明实施例中服务器的另一实施例示意图；

图6是本发明实施例中服务器的另一实施例示意图；

图7是本发明实施例中服务器的另一实施例示意图；

图8是本发明实施例中集群系统的一实施例示意图。

具体实施方式

本发明实施例提供一种故障处理方法，可以预测并提前处理可能发生故障的服务器，从而提高数据系统的稳定性。本发明实施例还提供了相应的服务器及系统。以下分别进行详细说明。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参阅图1，本发明实施例提供的故障处理的方法的一实施例包括：

101、获取集群中发生过故障的服务器的平均安全运行时长和未发生过故障的服务器的首次平均安全运行时长，以及所述集群中每台服务器的硬件运行异常参数。

集群中有很多台服务器，可能几千台，甚至上万台，有的服务器可能发生过一次或者多次故障，有个服务器可能未发生过故障，从投入使用到发生第一次故障的时间理解为首次安全运行时长，发生过故障的设备两次故障的时间间隔为安全运行时长。

服务器的硬件运行参数可以包括中央处理器（Central Processing Unit，CPU）的温度、硬盘通电时长、硬盘温度、硬盘输入输出错误（Input/Output error，ioerr）次数、内存温度和主板温度等，本处只是举例，实际上不限于以上硬件运行参数，还可以包括其他参数。

本发明实施例中的硬件运行异常参数是指以上硬件运行参数与标准值比对后确定有异常的硬件运行参数。

102、根据所述平均安全运行时长和所述首次平均安全运行时长，以及所述集群中每台服务器的硬件运行异常参数，计算所述每台服务器发生故障的概率。

本发明实施例中的平均安全运行时长为所有发生过两次以上故障的服务器的第一次故障之后的两次故障间的时间的平均值；

首次平均安全运行时长为每台发生过故障的服务器的首次安全运行时长的平均值。

103、当所述概率超过预置阈值时，按照预置方案处理所述概率超过所述预置阈值的服务器。

预置阈值可以为一具体数值，如：50%、60%、70%、80%等等。

可选地，在上述图1对应的实施例的基础上，本发明实施例提供的故障处理的方法的一可选实施例中，所述获取所述集群中每台服务器的硬件运行异常参数，可以包括：

获取所述集群中每台服务器的硬件运行参数；

本发明实施例中，服务器的硬件运行参数可以包括中央处理器（CentralProcessing Unit，CPU）的温度、硬盘通电时长、硬盘温度、硬盘ioerr次数、内存温度和主板温度等，本处只是举例，实际上不限于以上硬件运行参数，还可以包括其他参数。

可选地，在上述图1对应的实施例的基础上，本发明实施例提供的故障处理的方法的一可选实施例中，所述获取集群中发生过故障的服务器的平均安全运行时长，可以包括：

本发明实施例中，发生过故障的设备两次故障的时间间隔为安全运行时长。

平均安全运行时长为所有发生过两次以上故障的服务器的第一次故障之后的两次故障间的时间的平均值。

可选地，在上述图1对应的实施例的基础上，本发明实施例提供的故障处理的方法的一可选实施例中，所述获取未发生过故障的服务器的首次平均安全运行时长，可以包括：

本发明实施例中，首次平均安全运行时长为每台发生过故障的服务器的首次安全运行时长的平均值。

可选地，在上述图1对应的实施例的基础上，本发明实施例提供的故障处理的方法的一可选实施例中，所述当所述概率超过预置阈值时，按照预置方案处理所述概率超过所述预置阈值的服务器，可以包括：

本发明实施例中，当第一数值为50%时，可以触发输出发生故障的概率超过50%的服务器的告警信息，以提示维修人员注意这些服务器。本实施了中对第一数值的具体取值不做限定，也可以为其他数值。

本发明实施例中，当第二数值为80%时，则表名服务器故障的可能性大增，即可直接停止使用该服务器，可以从集群中剔除设备，挪为他用。本实施了中对第二数值的具体取值不做限定，也可以为其他数值。

为了便于理解，下面以一个应用场景为例，说明本发明实施例中故障处理的过程：

参阅图2，负责控制集群服务器故障检测的控制服务器获取集群服务器中发生过故障的服务器的首次安全运行时长，两次故障间的安全运行时长，设备上一次安全运行时长以及设备累计故障次数，该控制服务器根据获取的以上参数，得到发生过故障的服务器的平均安全运行时长和未发生过故障的服务器的首次平均安全运行时长。

该控制服务器采集集群服务器的硬件运行参数，例如：CPU的温度、硬盘通电时长、硬盘温度、硬盘ioerr次数、内存温度和主板温度。通过对硬件运行参数的与这些参数对应的标准值的比对，确定集群服务器的硬件运行异常参数，尤其是，可以将发生过故障的集群服务器在故障之前的硬件运行参数来作为参考，通过硬件运行参数来预测集群服务器发生故障的概率。

获取集群中发生过故障的服务器的平均安全运行时长和未发生过故障的服务器的首次平均安全运行时长，以及所述集群中每台服务器的硬件运行异常参数后，通过预先设置的算法库、模型比对等方式，确定集群服务器发生故障的概率，当预测失败时，可以重新执行上述数据统计及计算流程，当预测到集群服务器的故障发生概率在50%以上时，可以触发输出告警信息，以提示工作人员注意故障发生概率在50%以上的服务器，当预测到集群服务器的故障发生概率在80%以上时，可以直接停止使用所述概率超过所述第二数值的服务器。

参阅图3，本发明实施例提供的服务器的一实施例包括：

获取单元201，用于获取集群中发生过故障的服务器的平均安全运行时长和未发生过故障的服务器的首次平均安全运行时长，以及所述集群中每台服务器的硬件运行异常参数；

计算单元202，用于根据所述获取单元201获取的平均安全运行时长和所述首次平均安全运行时长，以及所述集群中每台服务器的硬件运行异常参数，计算所述每台服务器发生故障的概率；

处理单元203，用于当所述计算单元202计算出的概率超过预置阈值时，按照预置方案处理所述概率超过所述预置阈值的服务器。

本发明实施例中，获取单元201获取集群中发生过故障的服务器的平均安全运行时长和未发生过故障的服务器的首次平均安全运行时长，以及所述集群中每台服务器的硬件运行异常参数；计算单元202根据所述获取单元201获取的平均安全运行时长和所述首次平均安全运行时长，以及所述集群中每台服务器的硬件运行异常参数，计算所述每台服务器发生故障的概率；处理单元203当所述计算单元202计算出的概率超过预置阈值时，按照预置方案处理所述概率超过所述预置阈值的服务器。与现有技术中只能等到故障发生后再进行处理相比，本发明实施例提供的服务器，可以预测并提前处理可能发生故障的服务器，从而提高数据系统的稳定性。

可选地，在上述图3对应的实施例的基础上，参阅图4，本发明实施例提供的服务器的另一实施例中，所述获取单元201包括：

第一获取子单元2011，用于获取所述集群中每台服务器的硬件运行参数；

确定子单元2012，用于将所述第一获取子单元2011获取的硬件运行参数与预存储的标准的硬件运行参数进行比对，确定所述硬件运行异常参数。

可选地，在上述图3对应的实施例的基础上，参阅图5，本发明实施例提供的服务器的另一实施例中，所述获取单元201包括：

第二获取子单元2013，用于获取所述发生过故障的服务器中每台服务器的安全运行时长；

第一计算子单元2014，用于根据所述第二获取子单元2013获取的发生过故障的服务器中每台服务器的安全运行时长，计算所述发生过故障的服务器的平均安全运行时长。

可选地，在上述图3对应的实施例的基础上，参阅图6，本发明实施例提供的服务器的另一实施例中，所述获取单元201包括：

第三获取子单元2015，用于获取发生过故障的服务器中每台服务器的首次安全运行时长；

第二计算子单元2016，用于根据所述第三获取子单元2015获取的发生过故障的服务器中每台服务器的首次安全运行时长，计算所述发生过故障的服务器的平均首次安全运行时长，并将所述发生过故障的服务器的平均首次安全运行时长作为所述未发生过故障的服务器的首次平均安全运行时长。

可选地，在上述任一服务器的实施例的基础上，本发明实施例提供的服务器的另一实施例中，

所述处理单元203，用于当所述概率超过所述预置阈值中的第一数值时，触发输出所述概率超过所述第一数值的服务器的告警信息。

所述处理单元203，用于当所述概率超过所述预置阈值中的第二数值时，停止使用所述概率超过所述第二数值的服务器。

本发明实施例还提供一种计算机存储介质，该存储介质存储有程序，该程序执行时包括上述故障处理的方法的部分或者全部步骤。

参阅图7，图7是本发明实施例服务器20的结构示意图。服务器20可包括输入设备210、输出设备220、处理器230和存储器240。

存储器240可以包括只读存储器和随机存取存储器，并向处理器230提供指令和数据。存储器240的一部分还可以包括非易失性随机存取存储器（NVRAM）。

存储器240存储了如下的元素，可执行模块或者数据结构，或者它们的子集，或者它们的扩展集:

操作指令：包括各种操作指令，用于实现各种操作。

操作系统：包括各种系统程序，用于实现各种基础业务以及处理基于硬件的任务。

在本发明实施例中，处理器230通过调用存储器240存储的操作指令（该操作指令可存储在操作系统中），执行如下操作：

与现有技术中只能等到故障发生后再进行处理相比，本发明实施例提供的故障处理的方法，可以预测并提前处理可能发生故障的服务器，从而提高数据系统的稳定性。

处理器230控制服务器20的操作，处理器230还可以称为CPU（Central ProcessingUnit，中央处理单元）。存储器240可以包括只读存储器和随机存取存储器，并向处理器230提供指令和数据。存储器240的一部分还可以包括非易失性随机存取存储器（NVRAM）。具体的应用中，服务器20的各个组件通过总线系统250耦合在一起，其中总线系统250除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见，在图中将各种总线都标为总线系统250。

上述本发明实施例揭示的方法可以应用于处理器230中，或者由处理器230 实现。处理器230可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器230中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器230可以是通用处理器、数字信号处理器（DSP）、专用集成电路（ASIC）、现成可编程门阵列（FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器240，处理器230读取存储器240中的信息，结合其硬件完成上述方法的步骤。

可选地，处理器230具体可获取所述集群中每台服务器的硬件运行参数；将所述硬件运行参数与预存储的标准的硬件运行参数进行比对，确定所述硬件运行异常参数。

可选地，处理器230具体可获取所述发生过故障的服务器中每台服务器的安全运行时长；根据所述发生过故障的服务器中每台服务器的安全运行时长，计算所述发生过故障的服务器的平均安全运行时长。

可选地，处理器230具体可获取发生过故障的服务器中每台服务器的首次安全运行时长；根据所述发生过故障的服务器中每台服务器的首次安全运行时长，计算所述发生过故障的服务器的平均首次安全运行时长，并将所述发生过故障的服务器的平均首次安全运行时长作为所述未发生过故障的服务器的首次平均安全运行时长。

可选地，处理器230具体可当所述概率超过所述预置阈值中的第一数值时，触发输出所述概率超过所述第一数值的服务器的告警信息。

可选地，处理器230具体可当所述概率超过所述预置阈值中的第二数值时，停止使用所述概率超过所述第二数值的服务器。

参阅图8，本发明实施例提供的集群系统的一实施例包括：控制服务器20 和多台集群服务器30，集群服务器为负责存储、分析数据的服务器；控制服务器为负责管理集群服务器的服务器；图8中只画出了三个集群服务器，但实际上集群系统中可以有成千上万个这样的集群服务器。

控制服务器20，用于获取集群中发生过故障的服务器的平均安全运行时长和未发生过故障的服务器的首次平均安全运行时长，以及所述集群中每台服务器的硬件运行异常参数；根据所述平均安全运行时长和所述首次平均安全运行时长，以及所述集群中每台服务器的硬件运行异常参数，计算所述每台服务器发生故障的概率；当所述概率超过预置阈值时，按照预置方案处理所述概率超过所述预置阈值的服务器。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：ROM、RAM、磁盘或光盘等。

以上对本发明实施例所提供的故障处理的方法、服务器以及系统进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种故障处理的方法，其特征在于，包括：

获取集群中发生过故障的服务器的平均安全运行时长和未发生过故障的服务器的首次平均安全运行时长，以及所述集群中每台服务器的硬件运行异常参数；其中，所述发生过故障的服务器的平均安全运行时长为所有发生过两次以上故障的服务器的第一次故障之后的每两次故障间的时间的平均值；所述未发生过故障的服务器的首次平均安全运行时长为每台发生过故障的服务器的首次安全运行时长的平均值；

2.根据权利要求1所述的方法，其特征在于，所述获取所述集群中每台服务器的硬件运行异常参数，包括：

获取所述集群中每台服务器的硬件运行参数；

3.根据权利要求1所述的方法，其特征在于，所述获取集群中发生过故障的服务器的平均安全运行时长，包括：

4.根据权利要求1所述的方法，其特征在于，所述获取未发生过故障的服务器的首次平均安全运行时长，包括：

5.根据权利要求1-4任一所述的方法，其特征在于，所述当所述概率超过预置阈值时，按照预置方案处理所述概率超过所述预置阈值的服务器，包括：

6.根据权利要求1-4任一所述的方法，其特征在于，所述当所述概率超过预置阈值时，按照预置方案处理所述概率超过所述预置阈值的服务器，包括：

7.一种服务器，其特征在于，包括：

获取单元，用于获取集群中发生过故障的服务器的平均安全运行时长和未发生过故障的服务器的首次平均安全运行时长，以及所述集群中每台服务器的硬件运行异常参数；其中，所述发生过故障的服务器的平均安全运行时长为所有发生过两次以上故障的服务器的第一次故障之后的每两次故障间的时间的平均值；所述未发生过故障的服务器的首次平均安全运行时长为每台发生过故障的服务器的首次安全运行时长的平均值；

8.根据权利要求7所述的服务器，其特征在于，所述获取单元包括：

9.根据权利要求7所述的服务器，其特征在于，所述获取单元包括：

10.根据权利要求7所述的服务器，其特征在于，所述获取单元包括：

11.根据权利要求7-10任一所述的服务器，其特征在于，

所述处理单元，用于当所述概率超过所述预置阈值中的第一数值时，触发输出所述概率超过所述第一数值的服务器的告警信息。

12.根据权利要求7-10任一所述的服务器，其特征在于，

所述处理单元，用于当所述概率超过所述预置阈值中的第二数值时，停止使用所述概率超过所述第二数值的服务器。

13.一种集群系统，其特征在于，包括：控制服务器和多台集群服务器；

所述控制服务器为上述权利要求7-12中任一所述的服务器。