CN113190421B

CN113190421B - 一种用于数据中心的设备健康状态的检测分析方法

Info

Publication number: CN113190421B
Application number: CN202110282220.8A
Authority: CN
Inventors: 赵希峰
Original assignee: Beijing Zhongda Kehui Technology Development Co ltd
Current assignee: Beijing Zhongda Kehui Technology Development Co ltd
Priority date: 2021-03-16
Filing date: 2021-03-16
Publication date: 2024-03-29
Anticipated expiration: 2041-03-16
Also published as: CN113190421A

Abstract

本发明提供了一种用于数据中心的设备健康状态的检测分析方法，包括：采集数据中心设备的实时运行数据，并将实时运行数据传输至数据分析终端；数据分析终端对所述实时运行数据进行分析，并判断数据中心设备的健康状态是否异常；若数据中心设备的健康状态异常，将判定结果传输至运维终端，查找数据中心设备发生异常的故障原因；若数据中心设备的健康状态正常，根据分析结果对所述数据中心设备健康状态的发展趋势进行预测，并查出与潜在故障有关的因素。通过对机房设备的实时运行数据进行分析，并根据分析结果找出设备异常的原因，同时将可能发生的故障提前发现并处理，提高了检测设备健康状态的工作效率，达到防患于未然的目的。

Description

一种用于数据中心的设备健康状态的检测分析方法

技术领域

本发明涉及设备健康状态检测技术领域，特别涉及一种用于数据中心的设备健康状态的检测分析方法。

背景技术

目前，机房的设备越来越多，包含空调、UPS、开关电源、传输设备等众多设备。设备的正常运行需要投入人员进行维护和巡查，随着业务和设备的增加，越来越多的设备造成维护工作量和成本的增加，同时也考验着维护人员的应对能力和工作强度。

因此，本发明提供一种用于数据中心的设备健康状态的检测分析方法，通过对机房设备的实时运行数据进行分析，判断机房设备的健康状态是否正常，并根据分析结果找出设备异常的原因，同时将可能发生的故障提前发现并处理，提高设备工作效率，降低维护成本和达到防患于未然的目的。

发明内容

本发明提供一种用于数据中心的设备健康状态的检测分析方法，用以对机房设备的实时运行数据进行分析，并在设备异常情况下，根据分析结果找出设备异常的原因，同时将可能发生的故障提前发现并处理，准确的确定了设备的健康状态，提高了提高设备工作效率，降低维护成本和达到防患于未然的目的。

本发明提供了一种用于数据中心的设备健康状态的检测分析方法，包括：

步骤1：采集数据中心设备的实时运行数据，并将所述实时运行数据传输至数据分析终端；

步骤2：基于数据分析终端对所述实时运行数据进行深度分析，并判断数据中心设备的健康状态是否异常；

步骤3：若判定所述数据中心设备的健康状态异常，将判定结果传输至运维终端，查找所述数据中心设备发生异常时的故障原因；

步骤4：若判定所述数据中心设备的健康状态正常，根据分析结果对所述数据中心设备健康状态的发展趋势进行预测，并查出与潜在故障有关的因素。

优选的，一种用于数据中心的设备健康状态的检测分析方法，包括：步骤1中，采集数据中心设备的实时运行数据，并将所述实时运行数据传输至数据分析终端，包括：

获取数据中心设备的实时运行数据，其中所述实时运行数据包括数据中心设备的工作电流数据、工作电压数据、工作功率数据以及数据中心设备工作时的性能数据；

提取所述实时运行数据的属性信息，并将提取到的属性信息与预设的属性标识列表进行匹配，确定所述实时运行数据属性信息对应的属性标识；

基于所述属性标识，按照预设的编码规则将所述实时运行数据进行编码，得到编码数据；

基于所述编码数据，确定数据传输任务，且所述数据传输任务具有任务标识；

其中，任务标识唯一表征当前数据传输任务；

基于数据传输任务标识，从多路数据传输链路中确定目标传输链路，并通过所述目标传输链路将所述编码数据传输至数据分析终端。

优选的，一种用于数据中心的设备健康状态的检测分析方法，步骤2中，所述数据分析终端对所述实时运行数据进行深度分析，包括：

构建设备健康状态评估模型，并基于所述设备健康状态评估模型提取采集到的数据中心设备的实时运行数据中的特征信息；

确定所述特征信息的权重值，并根据所述权重值确定符合预设条件的特征信息；

通过预设的分类神经网络模型对不符合所述预设条件的特征信息进行剔除，得到目标特征信息；

获取预设的标准数据中心设备实时运行数据，并将所述目标特征信息与所述预设的标准数据中心设备实时运行数据进行对比，确定所述数据中心设备的实时运行数据与预设的标准数据中心设备实时运行数据之间的差异值，得到最终的分析结果。

优选的，一种用于数据中心的设备健康状态的检测分析方法，步骤2中，判断数据中心设备的健康状态是否异常，包括：

获取预设的设备健康运行数据，同时，获取所述数据分析终端对实时运行数据的分析结果，并将所述预设的设备健康运行数据以及分析结果进行一致性处理；

判断一致性处理后两数据的属性是否相同，且在属性相同的条件下，将所述预设的设备健康运行数据以及分析结果按照预设的索引项进行分块；

其中索引项包含：所述预设的设备健康运行数据以及分析结果中的一个或多个字段；

将每一设备健康运行数据块与分析结果块进行匹配，得到匹配对，并按照预设比较规则计算每一匹配对中设备健康运行数据块与分析结果块的相似度，且在相似度大于或者等于预设阈值时，判定匹配成功；

提取匹配成功的设备健康运行数据块与分析结果块的原码以及反码，并根据所述原码以及反码对一致性处理后的设备健康运行数据块与分析结果块中的每一位进行逻辑化简，得到目标匹配对；

提取目标匹配对中设备健康运行数据块与分析结果块的有效权值，并将两者的有效权值进行比较，得到目标差异值；

将所述目标差异值与预设差异值进行比较；

若所述目标差异值小于或者等于预设差异值，判定数据中心设备的健康状态正常；

否则，判定数据中心设备的健康状态异常。

优选的，一种用于数据中心的设备健康状态的检测分析方法，步骤3中，若判定所述数据中心设备的健康状态异常，将判定结果传输至运维终端，查找所述数据中心设备发生异常时的故障原因，包括：

当所述数据中心设备的健康状态异常时，获取所述数据中心设备异常的实时运行数据；

将所述设备异常时的实时运行数据与设备正常时的实时运行数据进行比对，确定所述设备异常时的实时运行数据中的异常数据信息；

基于预设数据转换规则，将所述异常数据信息转换为对应的异常数据向量；

构建故障原因决策模型，并将所述异常数据向量输入所述故障原因决策模型，得到所述数据中心设备发生异常时的故障原因；

基于故障原因，从预设的故障类型库中查找与所述故障原因对应的解决方案，并将结果方案通过预设的通信链路传输至工作人员的手机终端。

优选的，一种用于数据中心的设备健康状态的检测分析方法，判定数据中心设备的健康状态异常，还包括：

获取目标匹配对中设备健康运行数据块与分析结果块的有效权值的目标差异值，并确定所述目标差异值与预设差异值的差值范围；

当所述目标差异值与预设差异值的差值范围在第一范围时，将判定结果传输至声音报警机制，进行声音报警提醒；

当所述目标差异值与预设差异值的差值范围在第二范围时，将判定结果传输至声音报警机制与灯光报警机制，进行声光报警提醒，且将差值范围通过预设的通信链路传输至工作人员的手机终端。

优选的，一种用于数据中心的设备健康状态的检测分析方法，步骤4中，若判定所述数据中心设备的健康状态正常，根据分析结果对所述数据中心设备健康状态的发展趋势进行预测，并查出与潜在故障有关的因素，包括：

获取分析结果，并对所述分析结果进行预处理，去除所述分析结果中的非相关数据，得到第一数据；

从所述第一数据中选取关键字，并提取所述关键字对应的设备的运行属性信息，统计预设的设备历史数据库中所述关键字对应的设备的运行属性信息在预设时间段内出现的频率，并将频率大于预设频率的设备的运行属性信息进行整合，得到设备的运行属性信息集合；

基于所述设备的运行属性信息集合，构建设备运行属性的有权无向网络，并通过所述设备运行属性的有权无向网络提取所述设备的运行属性信息的特征数据；

其中所述设备的运行属性信息的特征数据包括网络特征以及相关属性特征；

基于预设规则，对所述设备的运行属性信息的特征数据进行训练，得到设备健康状态发展趋势预测模型；

将获取到的设备的实时运行数据输入所述设备健康状态发展趋势预测模型，所述设备健康状态发展趋势预测模型确定所述设备的实时运行数据所属的设备领域，并将属于同一设备领域的实时运行数据组成设备数据集合，得到M个设备数据集合；

同时，所述设备健康状态发展趋势预测模型对M个设备数据集合进行正向运算，得到数据中心设备健康状态的发展趋势；

基于所述数据中心设备健康状态的发展趋势，确定所述数据中心设备健康状态的临界值，并确定在临界值时数据中心设备对应的运行数据；

其中所述数据中心设备健康状态的临界值表示数据中心设备恰好发生故障；

提取处于临界值时的数据中心设备对应的运行数据中的目标字符串，以从预设的故障树中查找潜在的目标故障节点；

确定所述目标故障节点包含的故障数据，并将所述故障数据与预设标准数据进行比较，确定与所述数据中心设备潜在故障相关的数据；

基于所述数据中心设备潜在故障相关的数据从预设的故障因素数据库中查找造成所述数据中心设备发生潜在故障的相关因素。

优选的，一种用于数据中心的设备健康状态的检测分析方法，步骤3中，若判定所述数据中心设备的健康状态异常，还包括：

计算所述数据中心设备发生故障时的故障系数，并根据所述故障系数计算所述数据中心设备的剩余使用寿命，具体步骤包括：

根据如下公式计算所述数据中心设备发生故障时的故障系数：

其中，α表示所述数据中心设备发生故障时的故障系数；δ表示故障因子，且取值范围为(0.1，0.15)；ε表示所述数据中心设备当前的工作性能值；μ表示所述数据中心设备的理想工作性能值；θ表示所述数据中心设备发生故障的概率，且取值范围为(0.2，0.4)；v表示所述数据中心设备发生故障时两端的电压值；V表示所述数据中心设备的额定电压值；i表示所述数据中心设备发生故障时的工作电流值；I表示所述数据中心设备的额定电流值；

根据如下公式计算所述数据中心设备的剩余使用寿命：

其中，β表示所述数据中心设备的剩余使用寿命；α表示所述数据中心设备发生故障时的故障系数；T表示所述数据中心设备的理想使用寿命；σ表示寿命衰减因子，且取值范围为(0.1，0.2)；τ表示所述数据中心设备开机使用次数；q表示所述数据中心设备历史维修次数，且q的取值大于1；k表示所述数据中心设备的当前维修次数，且取值范围为(0，q]；t_k表示第k次维修花费的时间值；H_k表示第k次维修时，所述数据中心设备发生故障的严重程度值；

将计算得到的剩余使用寿命与预设剩余使用寿命进行比较；

若所述剩余使用寿命大于或者等于所述预设剩余使用寿命，判定所述数据中心设备自然老化；

否则，判定所述数据中心设备发生异常现象，并将计算结果传输至运维终端；

所述运维终端基于计算结果，对所述数据中心设备进行故障检修以及潜在问题排查，直至所述剩余使用寿命大于或者等于所述预设剩余使用寿命。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中一种用于数据中心的设备健康状态的检测分析方法的流程图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

实施例1

本实施例提供了一种用于数据中心的设备健康状态的检测分析方法，如图1所示，包括：

步骤3：若判定所述数据中心设备的健康状态异常，将判定结果传输至运维终端，查找所述数据中心设备发生异常的故障原因；

该实施例中，深度分析指的是对数据中心设备的实时运行数据进行筛选，剔除实时运行数据中与检测不相关的数据。

该实施例中，运维终端指的是一个平台，可以根据分析结果查找出数据中心设备的故障原因。

该实施例中，发展趋势指的是数据中设备在一定时间段内的性能变化趋势，此变化趋势表示的是数据中心设备性能逐渐降低的。

该实施例中，潜在故障有关的因素指的是在未来一段时间段内可能会造成数据中心设备发生故障的因素。

上述技术方案的有益效果是：通过对机房设备的实时运行数据进行分析，并在设备异常情况下，根据分析结果找出设备异常的原因，同时将可能发生的故障提前发现并处理，提高了检测设备健康状态的工作效率，降低维护成本和达到防患于未然的目的。

实施例2：

在上述实施例1的基础上，本实施例提供了一种用于数据中心的设备健康状态的检测分析方法，步骤1中，采集数据中心设备的实时运行数据，并将所述实时运行数据传输至数据分析终端，包括：

其中，任务标识唯一表征当前数据传输任务；

该实施例中，性能数据指的是数据中心设备在工作时的运行能力参数。

该实施例中，属性信息指的是数据中心设备实时运行数据的数据类型以及具体取值等。

该实施例中，属性标识是用来区分不同数据类型的属性信息，是一个具有指导作用的标签。

该实施例中，预设的编码规则是预先设定好的，用来将设备的实时运行数据进行编码，可以是按字段为单位进行编码，也可以是逐句进行编码。

该实施例中，目标传输链路指的是从多个传输链路中确定出一条适合传输设备实时运行数据的传输链路。

上述技术方案的有益效果是：通过将确定数据中心设备实时运行数据的属性信息以及属性信息对应的属性标识，根据属性标识确定对应编码规则，将设备的实时运行数据编码传输至数据分析终端，便于数据终端准确对设备的实时运行数据进行分析，确保对设备分析结果的准确性，准确判断出设备是否发生异常。

实施例3：

在上述实施例1的基础上，本实施例提供了一种用于数据中心的设备健康状态的检测分析方法，步骤2中，所述数据分析终端对所述实时运行数据进行深度分析，包括：

该实施例中，特征信息指的是设备实时运行数据中的关键字段数据信息。

该实施例中，权重值指的是特征信息在设备实时运行数据中所占的重要程度。

该实施例中，预设条件是预先设定好的，用来确定符合要求的特征信息的数量。

该实施例中，预设的标准数据中心设备实时运行数据是经过训练得到的，表示的是数据中心设备正常时的运行数据。

该实施例中，差异值指的是数据中心设备当前的实时运行数据与标准运行数据之间的区别。

上述技术方案的有益效果是：通过确定数据中心设备实时运行数据的特征信息，并根据特征信息与预设条件，将设备实时运行数据中不符合预设条件的数据进行剔除，并将最终得到的数据与设备的标准运行数据进行比较，确保了对设备当前实时运行数据的准确分析，便于准确判断设备当前的健康状态。

实施例4：

在上述实施例1的基础上，本实施例提供了一种用于数据中心的设备健康状态的检测分析方法，步骤2中，判断数据中心设备的健康状态是否异常，包括：

将所述目标差异值与预设差异值进行比较；

否则，判定数据中心设备的健康状态异常。

该实施例中，一致性处理是为了便于将预设的设备健康运行数据以及分析结果转换为格式相同的数据，便于进行比较。

该实施例中，两数据的属性指的是两数据的数据类别。

该实施例中，预设的索引项是提前设定好的，选取的是预设的设备健康运行数据以及分析结果中具有代表性的一个或者多个数据字段。

该实施例中，预设阈值是用来衡量设备健康运行数据块与分析结果块的相似度，大于预设阈值的判定匹配成功。

该实施例中，目标匹配对指的是将成功配对的设备健康运行数据块与分析结果块中的每一位进行逻辑化简后得到的匹配对。

该实施例中，有效权值指的是设备健康运行数据块与分析结果占整个设备健康运行数据以及整个分析结果的重要程度。

上述技术方案的有益效果是：通过将设备健康运行数据与分析结果进行分块，且将分块后的两者进行对应的配对，且在匹配成功后比较两者之间的差异，准确的判断出设备当前的运行数据是否满足设备健康运行数据，准确的确定出设备当前的健康状态。

实施例5：

在上述实施例1的基础上，本实施例提供了一种用于数据中心的设备健康状态的检测分析方法，步骤3中，若判定所述数据中心设备的健康状态异常，将判定结果传输至运维终端，查找所述数据中心设备发生异常的故障原因，包括：

当所述数据中心设备的健康状态异常时，获取所述数据中心设备异常时的实时运行数据；

该实施例中，异常数据信息指的是设备异常时的实时运行数据与设备正常时的实时运行数据中不相同的数据片段。

该实施例中，异常数据向量是将异常数据转换为向量形式，便于对异常数据分析，查找出设备异常的原因。

该实施例中，预设数据转换规则是经过多次训练得到的用来将数据转换对应的向量形式。

上述技术方案的有益效果是：通过确定设备异常时运行数据与设备正常时运行数据不同的数据片段，准确查找出异常数据，并将异常数据进行处理分析，得到设备异常的原因，提高了确定造成设备健康状态异常的原因，便于根据原因及时对设备进行维修。

实施例6：

在上述实施例4的基础上，本实施例提供了一种用于数据中心的设备健康状态的检测分析方法，判定数据中心设备的健康状态异常，还包括：

该实施例中，第一范围的取值可以是(2，5)。

该实施例中，第二范围的取值可以是(5，10)。

上述技术方案的有益效果是：通过确定设备健康运行数据块与分析结果块的有效权值的目标差异值的差值范围，便于准确确定设备健康状态异常的程度，便于工作人员及时对异常的设备采取相应的维修措施。

实施例7：

在上述实施例1的基础上，本实施例提供了一种用于数据中心的设备健康状态的检测分析方法，步骤4中，若判定所述数据中心设备的健康状态正常，根据分析结果对所述数据中心设备健康状态的发展趋势进行预测，并查出与潜在故障有关的因素，包括：

该实施例中，非相关数据指的是分析结果中与检测设备健康状态无关的数据，例如可以是设备的型号信息。

该实施例中，关键字指的是去除非相关数据后，数据中的具有重要信息的数据字段。

该实施例中，设备的运行属性信息指的是与关键子对应的设备在工作时的运行状态信息。

该实施例中，预设时间段是提前设定好的，可以是一年或者两年。

该实施例中，设备的运行属性信息的特征数据指的是设备运行状态中，能够代表设备运行状态的关键字段信息。

该实施例中，设备领域可以是通信设备领域、信号处理设备领域、供电设备领域。

该实施例中，设备数据集合指的是将同一类型设备的实时运行数据进行整合得到的，内部包含设备的工作性能参数、工作时的电流电压值。

该实施例中，正向运算指的通过一定手段或算法计算设备在一定时间段内工作性能参数降低的程度。

该实施例中，目标字符串指的是设备在临界值发生故障时，运行数据中能够代表设备发生故障的数据片段。

该实施例中，故障树用来存储多种故障原因以及故障类型。

该实施例中，目标故障节用来存储描述故障原因以及故障类型的数据。

上述技术方案的有益效果是：通过对设备无异常时的分析结果进行处理，并对处理结果进行设备健康状态发展趋势的预测，查找出设备在未来一段时间内可能会发生的故障，并针对该故障确定造成该故障的相关因素，便于工作人员对潜在故障进行排除，确保数据中心设备健康状态处于良好，提高了对数据中心设备健康状态的检测效果，达到防患于未然的目的。

实施例8：

在上述实施例1的基础上，本实施例提供了一种用于数据中心的设备健康状态的检测分析方法，步骤3中，若判定所述数据中心设备的健康状态异常，还包括：

其中，α表示所述数据中心设备发生故障的故障系数；δ表示故障因子，且取值范围为(0.1，0.15)；ε表示所述数据中心设备当前的工作性能值；μ表示所述数据中心设备的理想工作性能值；θ表示所述数据中心设备发生故障的概率，且取值范围为(0.2，0.4)；v表示所述数据中心设备发生故障时两端的电压值；V表示所述数据中心设备的额定电压值；i表示所述数据中心设备发生故障时的工作电流值；I表示所述数据中心设备的额定电流值；

根据如下公式计算所述数据中心设备的剩余使用寿命：

将计算得到的剩余使用寿命与预设剩余使用寿命进行比较；

该实施例中，工作性能值指的是数据中心设备在工作时处理数据的能力。

该实施例中，预设剩余使用寿命是经过多次训练得到的，根据数据中心正常使用时间确定出来对应的剩余使用寿命。

上述技术方案的有益效果是：通过计算数据中心设备发生故障时的故障系数，并根据故障系数计算数据中心设备的剩余使用寿命。在计算故障系数时，涉及数据中心设备当前的性能参数以及设备的理想性能参数、故障因子以及设备发生故障时的电流、电压值与正常工作时电流电压之比，确保设备在发生故障时的故障系数准确可靠，在计算剩余使用寿命时，涉及设备的寿命衰减因子、理想使用寿命以及设备的维修次数和每次维修时的故障严重程度，使得计算得到的剩余使用寿命准确可信，此方案确保了对发生故障的剩余使用寿命进行准确的计算，便于准确了解数据中心设备当前的健康状态。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种用于数据中心的设备健康状态的检测分析方法，其特征在于，包括：

步骤2：基于数据分析终端对所述实时运行数据进行深度分析，并判断数据中心设备的健康状态是否异常；其中，

将所述目标差异值与预设差异值进行比较；

否则，判定数据中心设备的健康状态异常；

步骤3：若判定所述数据中心设备的健康状态异常，将判定结果传输至运维终端，查找所述数据中心设备发生异常的故障原因；其中，

基于故障原因，从预设的故障类型库中查找与所述故障原因对应的解决方案，并将结果方案通过预设的通信链路传输至工作人员的手机终端；

步骤4：若判定所述数据中心设备的健康状态正常，根据分析结果对所述数据中心设备健康状态的发展趋势进行预测，并查出与潜在故障有关的因素；其中，

2.根据利要求1所述的一种用于数据中心的设备健康状态的检测分析方法，其特征在于，步骤1中，采集数据中心设备的实时运行数据，并将所述实时运行数据传输至数据分析终端，包括：

获取数据中心设备的实时运行数据，其中所述实时运行数据包括：数据中心设备的工作电流数据、工作电压数据、工作功率数据以及数据中心设备工作时的性能数据；

其中，任务标识唯一表征当前数据传输任务；

3.根据利要求1所述的一种用于数据中心的设备健康状态的检测分析方法，其特征在于，步骤2中，基于数据分析终端对所述实时运行数据进行深度分析，包括：

4.根据利要求1所述的一种用于数据中心的设备健康状态的检测分析方法，其特征在于，判定数据中心设备的健康状态异常，还包括：

5.根据利要求1所述的一种用于数据中心的设备健康状态的检测分析方法，其特征在于，步骤3中，若判定所述数据中心设备的健康状态异常，还包括：

根据如下公式计算所述数据中心设备发生故障的故障系数：

根据如下公式计算所述数据中心设备的剩余使用寿命：

将计算得到的剩余使用寿命与预设剩余使用寿命进行比较；