CN113010394A

CN113010394A - 一种用于数据中心的机房故障检测方法

Info

Publication number: CN113010394A
Application number: CN202110227525.9A
Authority: CN
Inventors: 赵希峰
Original assignee: Beijing Zhongda Kehui Technology Development Co ltd
Current assignee: Beijing Zhongda Kehui Technology Development Co ltd
Priority date: 2021-03-01
Filing date: 2021-03-01
Publication date: 2021-06-22
Anticipated expiration: 2041-03-01
Also published as: CN113010394B

Abstract

本发明提供了一种用于数据中心的机房故障检测方法，包括：基于数据采集平台，获得数据中心中各个设备的检测数据，并发送至故障检测平台；基于故障检测平台，对检测数据进行分析，得到异常数据；对异常数据进行分析，确定发生故障的设备，并进行报警提醒；对所述发生故障的设备进行分析，确定发生故障的类型；通过采集数据，确定故障发生的设备和故障发生的类型，辅助对后续的故障维修，免去工作人员的排查，提高检测效率。

Description

一种用于数据中心的机房故障检测方法

技术领域

本发明涉及故障检测领域，具体涉及一种用于数据中心的机房故障检测方法。

背景技术

机房普遍指的是电信、网通、移动、双线、电力以及政府或者企业等，存放服务器的，为用户以及员工提供IT服务的地方。

目前机房故障的检测通常是利用视频监控或传感器报警，可能造成故障检测出现误判等情况，并且像一些不能由传感器直接检测获得的故障，若发生故障，需要由工作人员进行逐个排查，会浪费大量的人力和时间，导致故障维修的效率低下。

发明内容

针对上述所显示出来的问题，本发明提供了一种用于数据中心的机房故障检测方法，通过采集数据，确定故障发生的设备和故障发生的类型，辅助对后续的故障维修，免去工作人员的排查，提高检测效率。

本发明提供一种一种用于数据中心的机房故障检测方法，包括：

步骤1：基于数据采集平台，获得数据中心中各个设备的检测数据，并发送至故障检测平台；

步骤2：基于故障检测平台，对检测数据进行分析，得到异常数据；

步骤3：对异常数据进行分析，确定发生故障的设备，并进行报警提醒；

步骤4：对所述发生故障的设备进行分析，确定发生故障的类型。

在一种可能实现的方式中，

步骤1中，获得数据中心中各个设备的检测数据，并发送至故障检测平台包括：

基于数据采集平台在各个设备中设置与对应设备相匹配的数据采集单元；

基于所述数据采集平台，控制所述数据采集单元进行数据采集，获取采集数据，并获取所述采集数据所对应设备的设备类型，生成特定标识；

将所述采集数据与对应的特定标识进行组合，得到检测数据，并发送至故障检测平台。

在一种可能实现的方式中，

步骤2中，基于故障检测平台，对检测数据进行分析，得到异常数据包括：

对所述检测数据进行特征提取，得到特征集合，并将所述特征集合输入至异常检测模型中，得到输出结果，获得所述输出结果所对应的检测数据，作为异常数据；

对所述异常数据进行分析，获得所述异常数据的存在时长、出现次数；

判断所述存在时长是否大于预设时长，或所述出现次数大于预设次数；

若是，对所述异常数据进一步检测；

否则，不对所述异常数据进行任何操作。

在一种可能实现的方式中，

还包括：所述异常检测模型的建立过程如下：

获取各个设备中每个数据采集单元下的检测数据的正常数据范围；

基于所述故障检测平台，获取历史检测数据，并按照数据采集单元采集的数据类型对所述历史检测数据进行分类，获得分类数据，提取出所述分类数据中不在正常数据范围内的数据，作为历史异常数据；

获得所述历史异常数据、正常数据范围之间的关系，并基于所述关系建立初步分类模型；

将包含异常数据的历史检测数据进行随机划分，分为多组数据组；

分别将多组数据组作为训练样本，输入至初步分类模型中进行多次训练，得到多个检测模型，并获取每个检测模型的输出结果为历史异常数据的概率；

从多个检测模型选择输出结果为历史异常数据的概率最大的检测模型，并判断输出结果为历史异常数据的概率是否大于预设概率；

若是，将所述检测模型作为异常检测模型；

否则，对所述检测模型进行修正，重新训练，直到所述历史异常数据的概率大于预设概率，并将调整后的检测模型作为异常检测模型。

在一种可能实现的方式中，

步骤3中，对异常数据进行分析，确定发生故障的设备，并进行报警提醒包括：

对所述异常数据进行解析，获得采集数据和特定标识；

基于所述特定标识，确定采集所述异常数据的设备类型，即为发生故障的设备类型；

基于故障检测平台，获取所述设备类型下的第一设备；

获取所述第一设备下的第一数据采集单元，获取与所述采集数据相匹配的第二数据采集单元；

将所述第一数据采集单元与所述第二数据采集单元进行对比，获得同时属于第一数据采集单元和第二数据采集单元的第三数据采集单元；

所述第三数据采集单元所检测的设备，即为发生故障的设备；

基于故障检测平台，获取所述发生故障的设备的具体位置信息并进行显示，且进行报警提醒。

在一种可能实现的方式中，

步骤4中，对所述发生故障的设备进行分析，确定发生故障的类型包括：

获取所述发生故障的设备的参数信息，从设备故障数据库中获取与所述参数信息匹配的相关设备，并获取所述相关设备的第一故障类型集合；

基于述发生故障的设备的异常数据进行分析，获的所述异常数据的数据类型，基于所述数据类型，对所述第一故障类型集合进行筛选得到第二故障类型集合；

获取所述异常数据的波动变化率，并从所述第二故障集合中获取与所述波动变化率相匹配的故障类型，作为第三故障类型集合；

获取所述第三故障类型集合中历史异常数据和标准数据的差异值与故障类型的对应关系，建立差异值-故障类型匹配表；

获取所述异常数据与标准数据之间的差异值，对所述差异值按照预设规则进行扩展，获得差异值取值范围，并基于所述立差异值-故障类型匹配表获取所述差异值范围所对应的故障类型，作为第四故障类型集合；

根据所述第四故障类型集合中故障类型，对所述发生故障的设备进行排查，确定发生故障的类型。

在一种可能实现的方式中，

步骤4中，确定发生故障的类型后还包括，对故障发生的原因进行检测，其过程如下：

获取故障发生类型所对应的设备参数，并基于所述设备参数确定可能导致故障发生类型的故障原因信息；

对所述故障原因信息进行分析，提取出关于故障原因的有效信息，并对所述有效信息进行归一化处理，获得名称格式一致的第一故障原因；

从历史故障记录中，获取在所述故障发生类型下，多个第一故障原因分别出现的次数，并对多个第一故障原因按照预设方法设置对应的加权值，基于所述加权值，计算得到多个第一故障原因分别与所述故障发生类型的关联度；

基于所述关联度，从多个第一故障原因中选择满足关联度要求的第一故障原因；

基于所述第一个故障原因，从故障原因数据库中查找与第一故障原因相关联的第二故障原因，其中，所述第一故障原因的等级大于第二故障原因；

基于所述第一个故障原因的关联度大小，为所述第一故障原因设置优先级，并按照优先级顺序对第一故障原因进行遍历，直到确定导致故障发生类型的第一故障原因；

获取在第一故障原因下的第二故障原因，并按照第二故障原因在故障原因数据库的出现频率设置遍历顺序，对第二故障原因进行遍历，直到确定在第一故障原因下的第二故障原因，并从故障原因数据库中调取出现第二故障原因的修复方案。

在一种可能实现的方式中，

步骤3中，确定发生故障的设备后还包括：对发生故障的设备进行评估和维护，其过程如下：

基于所述故障检测平台，获取与所述故障发生的设备相关的历史故障发生次数、历史故障发生类型、历史故障发生原因；

根据所述历史故障发生类型对设备的伤害程度，为所述历史故障发生类型设置强度值；

基于所述历史故障发生原因，对发生故障的设备设置修复难度值；

根据如下公式，计算所述发生故障的设备发生历史故障的平均修复时间：

其中，T表示所述发生故障的设备发生历史故障的平均修复时间，T_i表示所述发生故障的设备在第i次历史故障发生时，基于所述故障类型对应的标准修复时间，ε表示所述发生故障的设备的开机正常运行次数，N表示所述发生故障的设备的历史故障发生次数，e表示自然常数，Q_i表示所述发生故障在第i次历史故障的故障类型所对应的的强度值，取值为[0.3,1]，τ_i表示第i次故障发生的修复难度值，取值范围为[0.5,1.0]；

基于所述发生故障的设备发生历史故障的平均修复时间，并根据如下公式计算所述发生故障的设备的老化程度值：

其中，

表示所述发生故障的设备的老化程度值，μ表示历史维护的次数，α表示所述发生故障的设备与初始设备的外形差异比，取值范围为[0.4,0.8]，β表示所述发生故障的设备与初始设备的性能差异比,取值范围为[0.2,0.6]，T₁表示所述发生故障的设备的使用时间，T_A表示发生故障的设备的标定使用寿命；

基于所述老化程度值，从设备维护方案中选取与所述发生故障的设备的老化程度相匹配的维护方案；

基于所述维护方案，对所述发生故障的设备进行维护。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中用于检测机房故障方法的流程图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

实施例1

本发明实施例提供一种用于数据中心的机房故障检测方法，如图1所示，包括：

在在实施例中，所述各个设备包括高压柜、低压柜、电容柜、变压器、空调、定压补水装置等。

上述设计方案的有益效果是：通过设置数据采集平台采集各个设备的检测数据，提高采集数据的精度，从而提高故障检测的精度，将检测数据发送至故障检测平台进行分析，确定故障发生的设备和故障发生的类型，辅助对后续的故障维修，免去工作人员的排查，节省了人力和时间，提高检测效率。

实施例2

基于实施例1的基础上，本发明实施例提供一种用于数据中心的机房故障检测方法，步骤1中，获得数据中心中各个设备的检测数据，并发送至故障检测平台包括：

在该实施例中，对于高压柜、低压柜、电容柜等电气设备，对应的数据采集单元采集的数据为电压数据、电流数据、温度数据；对于空调、加湿器、定压补水装置等空调暖通系统，对应的数据采集单元采集的数据为温度数据、压力数据、水位数据等。

在该实施例中，所述特定标识用于表示设备的类型，且一一对应。

上述设计方案的有益效果是：通过设置数据采集单元，采集各个设备不同类型的数据，保证了获取数据的精度，从而提高了故障检测的精度，同时，将检测数据与表示设备类型的特定标识组合在一起，方便之后确定故障发生的设备。

实施例3

基于实施例1的基础上，本发明实施例提供一种用于数据中心的机房故障检测方法，步骤2中，基于故障检测平台，对检测数据进行分析，得到异常数据包括：

若是，对所述异常数据进一步检测；

否则，不对所述异常数据进行任何操作。

在该实施例中，所述特征集合表示从所述检测数据提取的数值大小、运行状态、信号波动等特征。

上述设计方案的有益效果是：通过将检测数据输入至异常检测模型中，得到异常数据，并对所述异常数据的存在时长、出现次数进行分析，确保所述异常数据为故障所导致，避免出现故障检测失误，提高故障检测的精度。

实施例4

基于实施例3的基础上，本发明实施例提供一种用于数据中心的机房故障检测方法，还包括：所述异常检测模型的建立过程如下：

基于所述故障检测平台，获取历史检测数据，并按照数据采集单元采集的数据类型采集的数据类型对所述历史检测数据进行分类，获得分类数据，提取出所述分类数据中不在正常数据范围内的数据，作为历史异常数据；

若是，将所述检测模型作为异常检测模型；

在该实施例中，所述数据采集单元采集的数据类型包括电压数据、电流数据、温度数据、压力数据、水位数据等。

在该实施例中，所述述历史异常数据、正常数据范围之间的关系为函数关系。

在该实施例中，对所述检测模型的修正包括正则化、梯度优化、调整迭代次数，降低模型自由度等。

上述设计方案的有益效果是：通过对历史检测数据进行划分后，训练检测模型，选择训练效果最好的检测模型作为异常检测模型，从而提高对异常数据的判断精度。

实施例5

基于实施例1的基础上，本发明实施例提供一种用于数据中心的机房故障检测方法，步骤3中，对异常数据进行分析，确定发生故障的设备，并进行报警提醒包括：

对所述异常数据进行解析，获得采集数据和特定标识；

基于故障检测平台，获取所述设备类型下的第一设备；

在该实施例中，所述第一设备为多个，且所述第一设备的设备类型相同。

在该实施例中，所述第一数据采集单元检测的设备类型相同。

在该实施例中，所述第二数据采集单元检测的数据类型相同。

上述设计方案的有益效果是：通过对设备类型和数据类型进行判定，确定故障发生的设备，并确定故障设备的具体位置，进行报警提醒，提醒工作人员故障发生设备及所在位置，方便工作人员快速锁定故障设备，节省了排查时间。

实施例6

基于实施例1的基础上，本发明实施例提供一种用于数据中心的机房故障检测方法，步骤4中，对所述发生故障的设备进行分析，确定发生故障的类型包括：

在该实施例中，所述发生故障设备的参数信息包括设备名称、设备用途、设备大小等可以表示设备特征的参数。

在该实施例中，所述异常数据的数据类型包括包括电压数据、电流数据、温度数据、压力数据、水位数据等。

在该实施例中，所述异常数据不同的波动变化率，可以表示不同的故障类型，例如导致电流数据在不同的范围内波动的故障类型有电压不稳、线路故障等。

在该实施例中，所述预设规则为根据所述异常数据的数据类型，确定数量级，对所述差异值按照所述数量级向上向下进行扩展。

上述设计方案的有益效果是：通过根据设备参数、异常数据分析一层一层的缩小故障类型的范围，然后基于故障类型的范围进行对设备进行特定的检测，确定发生故障的类型，提高了故障类型检测的效率，节约了人力和时间。

实施例7

基于实施例1的基础上，本发明实施例提供一种用于数据中心的机房故障检测方法，其特征在于，步骤4中，确定发生故障的类型后还包括，对故障发生的原因进行检测，其过程如下：

在该实施例中，所述预设方法为：基于历史故障记录，获取多个故障原因的发生时间，按照发生时间的先后顺序，为对应的故障原因设置权重值，发生时间越靠后，设置的权重值越大。

在该实施例中，所述故障原因信息包括故障发生的原因、故障类型与故障原因之间的关系、故障原理等。

在该实施例中，所述有效信息为表示故障原因的数据或文字。

在该实施例中，对有效信息进行归一化处理，获取名称格式一致的故障原因，便于分析。

在该实施例中，所述第一故障原因与第二故障原因的关系例如可以是：第一故障原因为水位异常，则第二故障原因为水位过高、水位过低。

在该实施例中，所述第一个故障原因的关联度越大，优先级越高。

上述设计方案的有益效果是：通过基于设备参数、故障类型来确定第一故障原因，并在第一故障原因的基础上进行检测，确定第二故障原因，提高了故障原因检测的效率，节约了人力和时间。

实施例8

基于实施例1的基础上，本发明实施例提供一种用于数据中心的机房故障检测方法，步骤3中，确定发生故障的设备后还包括：对发生故障的设备进行评估和维护，其过程如下：

其中，

基于所述维护方案，对所述发生故障的设备进行维护。

在该实施例中，所述历史故障发生类型对设备的伤害程度越大，强度值越大。

在该实施例中，所述历史故障发生原因与已有故障原因的相关度越小，修复难度值越大。

上述设计方案的有益效果是：通过根据与修复时间相关的历史故障对设备的伤害程度、修复难度来计算所述发生故障的设备发生历史故障的平均修复时间，使计算得到的平均修复时间更具有可靠度，利用平均修复时间作为参考指标，计算发生故障的设备的老化程度值，提高检测的精度，并根据老化程度值来确定维护方案，保护了设备，减少设备的故障发生率，延长了设备的使用时间。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种用于数据中心的机房故障检测方法，其特征在于，包括：

2.根据权利要求1所述的一种用于数据中心的机房故障检测方法，其特征在于，步骤1中，获得数据中心中各个设备的检测数据，并发送至故障检测平台包括：

3.根据权利要求1所述的一种用于数据中心的机房故障检测方法，其特征在于，步骤2中，基于故障检测平台，对检测数据进行分析，得到异常数据包括：

若是，对所述异常数据进一步检测；

否则，不对所述异常数据进行任何操作。

4.根据权利要求3所述的一种用于数据中心的机房故障检测方法，其特征在于，所述异常检测模型的建立过程如下：

若是，将所述检测模型作为异常检测模型；

5.根据权利要求1所述的一种用于数据中心的机房故障检测方法，其特征在于，步骤3中，对异常数据进行分析，确定发生故障的设备，并进行报警提醒包括：

对所述异常数据进行解析，获得采集数据和特定标识；

基于故障检测平台，获取所述设备类型下的第一设备；

6.根据权利要求1所述的一种用于数据中心的机房故障检测方法，其特征在于，步骤4中，对所述发生故障的设备进行分析，确定发生故障的类型包括：

获取所述异常数据与标准数据之间的差异值，对所述差异值按照预设规则进行扩展，获得差异值取值范围，并基于所述差异值-故障类型匹配表获取所述差异值范围所对应的故障类型，作为第四故障类型集合；

根据所述第四故障类型集合中故障类型，对所述发生故障的设备进行排查确定发生故障的类型。

7.根据权利要求1所述的一种用于数据中心的机房故障检测方法，其特征在于，步骤4中，确定发生故障的类型后还包括，对故障发生的原因进行检测，其过程如下：

对所述故障原因信息进行分析，提取关于故障原因的有效信息，并对所述有效信息进行归一化处理，获得名称格式一致的第一故障原因；

8.根据权利要求1所述的一种用于数据中心的机房故障检测方法，其特征在于，步骤3中，确定发生故障的设备后还包括：对发生故障的设备进行评估和维护，其过程如下：

其中，

基于所述维护方案，对所述发生故障的设备进行维护。