CN111061581B

CN111061581B - 一种故障检测方法、装置及设备

Info

Publication number: CN111061581B
Application number: CN201811202950.7A
Authority: CN
Inventors: 何诚; 王喜凤
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2018-10-16
Filing date: 2018-10-16
Publication date: 2023-06-27
Anticipated expiration: 2038-10-16
Also published as: CN111061581A

Abstract

本申请提供一种故障检测方法、装置及设备，该方法包括：获取物理硬件的监控数据和工单数据；利用所述工单数据为所述监控数据设置标签值；根据所述监控数据和所述标签值检测物理硬件是否发生故障。通过本申请的技术方案，可以采用监控数据和工单数据自动关联分析，获取样本数据和标签值。

Description

一种故障检测方法、装置及设备

技术领域

本申请涉及互联网技术领域，尤其涉及一种故障检测方法、装置及设备。

背景技术

随着大规模数据中心和云计算的飞速发展，互联网厂商和云计算厂商通常可以维护百万级的服务器，并采用百万级甚至千万级的磁盘，对内或者对外提供PB(petabyte，存储单位)级以上的存储能力。在这种规模下，作为服务器的核心部件之一，磁盘的故障经常出现。据统计，磁盘故障一般占服务器的故障总量的50％左右，是引发服务器宕机、数据丢失等严重问题的主要原因之一。

现有的运维方案，在磁盘发生故障后，可以根据工程师和技术专家的领域知识，对磁盘进行故障检测，以分析磁盘故障的原因，并解决磁盘故障等问题。但是，这种方式会对业务带来一定影响，甚至会导致服务器宕机和数据丢失。

发明内容

本申请提供一种故障检测方法，所述方法包括：

获取物理硬件的监控数据和工单数据；

利用所述工单数据为所述监控数据设置标签值；

根据所述监控数据和所述标签值检测物理硬件是否发生故障。

本申请提供一种故障检测方法，所述方法包括：

针对待检测的物理硬件，获取所述物理硬件的监控数据；

根据所述监控数据确定所述物理硬件的硬件特征；

通过所述硬件特征查询映射关系，得到所述硬件特征对应的标签值；其中，所述映射关系是根据监控数据和标签值确定的特征向量与标签值的映射关系；

根据所述标签值检测所述物理硬件是否发生故障。

本申请提供一种故障检测方法，所述方法包括：

获取物理硬件的监控数据和工单数据；

利用所述工单数据为所述监控数据设置标签值；

根据所述监控数据和所述标签值确定特征向量与标签值的映射关系；其中，所述映射关系用于检测物理硬件是否发生故障。

本申请提供一种故障检测装置，所述装置包括：

获取模块，用于获取物理硬件的监控数据和工单数据；

添加模块，用于利用所述工单数据为所述监控数据设置标签值；

检测模块，用于根据所述监控数据和标签值检测物理硬件是否发生故障。

本申请提供一种故障检测装置，所述装置包括：

获取模块，用于针对待检测的物理硬件，获取所述物理硬件的监控数据；

确定模块，用于根据所述监控数据确定所述物理硬件的硬件特征；

所述获取模块，还用于通过所述硬件特征查询映射关系，得到所述硬件特征对应的标签值；其中，所述映射关系是根据监控数据和标签值确定的特征向量与标签值的映射关系；

检测模块，用于根据所述标签值检测所述物理硬件是否发生故障。

本申请提供一种故障检测设备，包括：

处理器和机器可读存储介质，所述机器可读存储介质上存储有若干计算机指令，所述处理器执行所述计算机指令时进行如下处理：

获取物理硬件的监控数据和工单数据；

利用所述工单数据为所述监控数据设置标签值；

本申请提供一种故障检测设备，包括：

针对待检测的物理硬件，获取所述物理硬件的监控数据；

根据所述监控数据确定所述物理硬件的硬件特征；

根据所述标签值检测所述物理硬件是否发生故障。

基于上述技术方案，本申请实施例中，可以获取物理硬件的监控数据和工单数据，利用工单数据为监控数据设置标签值，根据监控数据和标签值检测物理硬件是否发生故障。基于上述方式，可以采用监控数据和工单数据自动关联分析，获取样本数据和标签值。可以预测未来一段时间窗口内，物理硬件是否发生故障，构建预测性维护体系，提前准确进行相应的扫描检测、数据备份、业务迁移等相关操作，减轻对业务的影响，减少服务器宕机和数据丢失等问题。

附图说明

为了更加清楚地说明本申请实施例或者现有技术中的技术方案，下面将对本申请实施例或者现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据本申请实施例的这些附图获得其它的附图。

图1是本申请一种实施方式中的故障检测方法的流程图；

图2是本申请另一种实施方式中的故障检测方法的流程图；

图3A是本申请一种实施方式中的故障检测方法的示意图；

图3B是本申请一种实施方式中的特定训练模型的示意图；

图4是本申请一种实施方式中的故障检测装置的结构图；

图5是本申请另一种实施方式中的故障检测装置的结构图。

具体实施方式

在本申请实施例使用的术语仅仅是出于描述特定实施例的目的，而非限制本申请。本申请和权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其它含义。还应当理解，本文中使用的术语“和/或”是指包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请实施例可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，此外，所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

本申请实施例中提出一种故障检测方法，参见图1所示，为本申请实施例中的故障检测方法的流程图，该方法可以应用于服务器，该方法可以包括：

步骤101，获取物理硬件的监控数据和工单数据。

具体的，基于物理硬件的序列号，将该物理硬件的监控数据与该物理硬件的工单数据进行关联，得到该物理硬件的监控数据和工单数据，即，可以通过将监控数据和工单数据进行关联，得到同一个物理硬件的监控数据和工单数据。

步骤102，利用该工单数据为该监控数据设置标签值。

具体的，从该工单数据中获取物理硬件的故障时间；若该监控数据的产生时间位于该故障时间之前，则可以为监控数据设置第一标签值，该第一标签值表示物理硬件未发生故障；若该监控数据的产生时间位于该故障时间之后，则可以为监控数据设置第二标签值，该第二标签值表示物理硬件已经发生故障。

步骤103，根据该监控数据和该标签值检测物理硬件是否发生故障。

步骤103可以包括但不限于：可以根据该监控数据和该标签值确定特征向量与标签值的映射关系，并根据该映射关系检测物理硬件是否发生故障。

在一个例子中，在根据该监控数据和该标签值检测物理硬件是否发生故障之前，若不存在物理硬件的工单数据，则还可以为该物理硬件的监控数据设置第一标签值，其中，该第一标签值表示该物理硬件未发生故障。

在一个例子中，根据该监控数据和该标签值确定特征向量与标签值的映射关系，可以包括但不限于：根据该监控数据构造特征集合，其中，该特征集合可以包括多个特征；然后，根据该特征集合确定特征向量，并根据该特征向量与该监控数据对应的标签值，确定特征向量与标签值的映射关系。根据该特征集合确定特征向量，可以包括但不限于：将该特征集合包括的所有特征均确定为特征向量；或者，从该特征集合包括的所有特征中筛选出部分特征向量。

其中，从该特征集合包括的所有特征中筛选出部分特征向量，可以包括以下之一或任意组合：基于统计相关性，从该特征集合包括的所有特征中筛选出部分特征向量；基于统计模型，从该特征集合包括的所有特征中筛选出部分特征向量；基于机器学习模型，从该特征集合包括的所有特征中筛选出部分特征向量；基于变化点检测模型，从该特征集合包括的所有特征中筛选出部分特征向量；基于特定的策略，从该特征集合包括的所有特征中筛选出部分特征向量。

在上述实施例中，特征向量可以包括但不限于以下之一或任意组合：统计特征；时域特征；模型特征；频域特征；经验特征(即根据经验配置的特征)。

在上述实施例中，在利用该工单数据为该监控数据设置标签值之前，还可以从所有工单数据中获取发生异常的工单数据，并过滤发生异常的工单数据；从所有监控数据中获取发生异常的监控数据，并过滤发生异常的监控数据。

在上述实施例中，在根据该监控数据和该标签值确定特征向量与标签值的映射关系之前，还可以对监控数据进行重采样，以使具有第一标签值的监控数据的数量，与具有第二标签值的监控数据的数量之间的差值，不大于预设数值。

在上述实施例中，根据该映射关系检测物理硬件是否发生故障，可以包括但不限于：针对待检测的物理硬件，可以获取物理硬件的监控数据，并根据该监控数据确定物理硬件的硬件特征，并通过该硬件特征查询该映射关系，得到该硬件特征对应的标签值，并根据该标签值检测物理硬件是否发生故障。

根据该监控数据确定物理硬件的硬件特征，包括：根据该监控数据构造特征集合，特征集合包括多个特征；根据该特征集合确定物理硬件的硬件特征。

在一个例子中，根据该特征集合确定物理硬件的硬件特征，可以包括但不限于：可以将该特征集合包括的所有特征均确定为物理硬件的硬件特征；或者，可以从该特征集合包括的所有特征中筛选出物理硬件的硬件特征。

进一步的，从该特征集合包括的所有特征中筛选出物理硬件的硬件特征，可以包括但不限于以下之一或任意组合：基于统计相关性，从该特征集合包括的所有特征中筛选出硬件特征；基于统计模型，从该特征集合包括的所有特征中筛选出硬件特征；基于机器学习模型，从该特征集合包括的所有特征中筛选出硬件特征；基于变化点检测模型，从该特征集合包括的所有特征中筛选出硬件特征；基于特定的策略，从该特征集合包括的所有特征中筛选出硬件特征。

在上述实施例中，硬件特征可以包括但不限于以下之一或任意组合：统计特征；时域特征；模型特征；频域特征；经验特征(即根据经验配置的特征)。

在上述实施例中，根据该标签值检测物理硬件是否发生故障，可以包括但不限于：若该标签值是第一标签值，则可以确定物理硬件未发生故障；若该标签值是第二标签值，则可以确定物理硬件已经发生故障；其中，该第一标签值用于表示物理硬件未发生故障；该第二标签值表示物理硬件已经发生故障。

在上述实施例中，该监控数据可以包括但不限于：SMART(Self-MonitoringAnalysis and Reporting Technology，自监测分析与报告技术)数据，和/或，KPI(KeyPerformance Indicator，关键性能指标)数据；该物理硬件可以包括但不限于：磁盘，或者，内存，或者，CPU(Central Processing Unit，中央处理器)。

在一个例子中，上述执行顺序只是为了方便描述给出的一个示例，在实际应用中，还可以改变步骤之间的执行顺序，对此执行顺序不做限制。而且，在其它实施例中，并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤，其方法所包括的步骤可以比本说明书所描述的更多或更少。此外，本说明书中所描述的单个步骤，在其它实施例中可能被分解为多个步骤进行描述；本说明书中所描述的多个步骤，在其它实施例也可能被合并为单个步骤进行描述。

基于上述技术方案，本申请实施例中，可以采用监控数据和工单数据自动关联分析，获取样本数据和标签值。可以预测未来一段时间窗口内，物理硬件是否发生故障，构建预测性维护体系，提前准确进行相应的扫描检测、数据备份、业务迁移等操作，减轻对业务的影响，减少服务器宕机和数据丢失等问题。

本申请实施例中提出另一种故障检测方法，参见图2所示，为本申请实施例中的故障检测方法的流程图，该方法可以应用于服务器，该方法可以包括：

步骤201，针对待检测的物理硬件，获取该物理硬件的监控数据。

步骤202，根据该监控数据确定物理硬件的硬件特征。

具体的，根据该监控数据构造特征集合，所述特征集合可以包括多个特征；然后，可以根据该特征集合确定物理硬件的硬件特征。

步骤203，通过该硬件特征查询映射关系，得到该硬件特征对应的标签值；其中，映射关系是根据监控数据和标签值确定的特征向量与标签值的映射关系。

步骤204，根据该标签值检测物理硬件是否发生故障。

具体的，若该标签值是第一标签值，则可以确定物理硬件未发生故障；若该标签值是第二标签值，则可以确定物理硬件已经发生故障；其中，该第一标签值用于表示物理硬件未发生故障；该第二标签值表示物理硬件已经发生故障。

在上述实施例中，该监控数据可以包括但不限于：KPI数据，和/或，SMART数据；该物理硬件可以包括但不限于：磁盘，或者，内存，或者，CPU。

本申请实施例中提出另一种故障检测方法，可以包括：获取物理硬件的监控数据和工单数据；利用该工单数据为该监控数据设置标签值；根据该监控数据和该标签值确定特征向量与标签值的映射关系；其中，该映射关系用于检测物理硬件是否发生故障。本实施例的各步骤可以参见图1，在此不再赘述。

以下结合具体应用场景，对故障检测方法进行说明。本应用场景中，以物理硬件是磁盘为例，即故障检测方法用于检测磁盘是否故障，如预测磁盘是否故障，当物理硬件是CPU或内存时，其处理流程类似，本应用场景中不再赘述。

参见图3A所示，为故障检测方法的示意图，该故障检测方法可以包括离线处理和在线处理，离线处理可以包括但不限于：数据关联、样本标注、离线特征工程、模型训练等步骤，而在线处理可以包括但不限于：在线特征提取、特征库、模型部署、模型分类预测等步骤，以下对各个步骤进行详细说明。

一、离线处理过程中的数据关联，即获取监控数据和工单数据，将同一磁盘的监控数据和工单数据进行关联，得到同一个磁盘的监控数据和工单数据。

其中，监控数据可以包括但不限于：KPI数据和/或SMART数据。KPI数据是磁盘的关键性能指标，如磁盘读写数据的速度、磁盘读写数据的总量、磁盘的吞吐量等，对此KPI数据不做限制。SMART数据是磁盘故障预测的重要数据，如磁盘的温度、磁盘的转速、磁盘的故障扇区数量等，对此SMART数据不做限制。工单数据是磁盘故障时产生的维修数据，表示磁盘发生故障，需要对磁盘进行维修，而维修系统可以处理工单数据，并安排人员对磁盘进行维修。

其中，可以定期的收集磁盘的KPI数据、SMART数据和工单数据，对此收集过程不做限制，只要能够得到KPI数据、SMART数据和工单数据即可。

其中，在KPI数据中包括磁盘的序列号(Serial-number)，在SMART数据中也包括磁盘的序列号，在工单数据中也包括磁盘的序列号，基于此，针对存在工单数据的磁盘，则可以基于磁盘的序列号，将该磁盘的KPI数据、SMART数据和工单数据进行关联，从而得到该磁盘的KPI数据、SMART数据和工单数据。针对不存在工单数据的磁盘，则可以基于磁盘的序列号，将该磁盘的KPI数据和SMART数据进行关联，从而得到该磁盘的KPI数据和SMART数据。

例如，在数据的收集过程中，可以收集到磁盘1的KPI数据1、磁盘1的SMART数据1、磁盘1的KPI数据2、磁盘1的SMART数据2、磁盘1的工单数据1、磁盘2的KPI数据3、磁盘2的SMART数据3、磁盘2的工单数据2、磁盘3的KPI数据4、磁盘3的SMART数据4。当然，上述只是收集数据的几个示例，对此不做限制，实际应用中，收集的数据远远多于上述数据。

由于KPI数据1、SMART数据1、KPI数据2、SMART数据2、工单数据1均携带磁盘1的序列号，因此，可以将KPI数据1、SMART数据1、KPI数据2、SMART数据2、工单数据1进行关联，得到磁盘1的监控数据(如KPI数据1、SMART数据1、KPI数据2、SMART数据2)和工单数据(如工单数据1)。同理，可以得到磁盘2的监控数据(如KPI数据3、SMART数据3)和工单数据(如工单数据2)，磁盘3的监控数据(如KPI数据4、SMART数据4)。

二、离线处理过程中的样本标注，即为监控数据设置标签值，该标签值可以为第一标签值或者第二标签值，该第一标签值用于表示磁盘未发生故障，该第二标签值用于表示磁盘已经发生故障。具体的，如果监控数据对应有工单数据，则可以利用该工单数据为该监控数据设置第一标签值或者第二标签值，如果监控数据没有对应工单数据，则可以直接为该监控数据设置第一标签值。

在一个例子中，如果监控数据(如KPI数据和SMART数据等)对应有工单数据，则可以从该工单数据中获取磁盘的故障时间；若该监控数据的产生时间位于该故障时间之前，则可以为该监控数据设置第一标签值；或者，若该监控数据的产生时间位于该故障时间之后，则可以为该监控数据设置第二标签值。若监控数据没有对应工单数据，则可以直接为该监控数据设置第一标签值。

例如，针对磁盘1来说，假设在磁盘1故障之前的时间A1，收集到磁盘1的KPI数据1和SMART数据1，则KPI数据1和SMART数据1的产生时间可以是时间A1。在时间A1之后的时间A2，假设磁盘1发生故障，并产生磁盘1的工单数据1，则工单数据1可以包括磁盘1的故障时间A2。假设磁盘1发生故障后，磁盘1没有立即下线或被替换，则仍然能够收集到磁盘1的KPI数据和SMART数据，如在磁盘1故障之后的时间A3，收集到磁盘1的KPI数据2和SMART数据2，则KPI数据2和SMART数据2的产生时间是时间A3。

综上所述，由于KPI数据1和SMART数据1的产生时间A1位于故障时间A2之前，因此，可以为KPI数据1和SMART数据1设置第一标签值(如数值0)。由于KPI数据2和SMART数据2的产生时间A3位于故障时间A2之前，因此，可以为KPI数据2和SMART数据2设置第二标签值(如数值1)。

又例如，针对磁盘2来说，假设在磁盘2故障之前的时间B1，收集到磁盘2的KPI数据3和SMART数据3，则KPI数据3和SMART数据3的产生时间是时间B1。在时间B1之后的时间B2，假设磁盘2发生故障，并产生磁盘2的工单数据2，则工单数据2可以包括磁盘2的故障时间B2。假设磁盘2发生故障后，磁盘2下线或被替换，则不再收集到磁盘2的KPI数据和SMART数据。综上所述，由于KPI数据3和SMART数据3的产生时间B1位于故障时间B2之前，因此，可以为KPI数据3和SMART数据3设置第一标签值(如数值0)。

又例如，针对磁盘3来说，假设磁盘3没有发生故障，即不存在磁盘3的工单数据，则可以为磁盘3的KPI数据4和SMART数据4设置第一标签值。

在另一个例子中，如果监控数据(如KPI数据和SMART数据)对应工单数据，则为该监控数据设置第二标签值，表示磁盘已经发生故障。如果监控数据没有对应工单数据，则为该监控数据设置第一标签值，表示磁盘未发生故障。

例如，针对磁盘1来说，由于存在磁盘1的工单数据1，因此，可以为磁盘1的KPI数据1、SMART数据1、KPI数据2和SMART数据2设置第二标签值。针对磁盘2来说，由于存在磁盘2的工单数据2，因此，可以为磁盘2的KPI数据3和SMART数据3设置第二标签值。针对磁盘3来说，由于不存在磁盘3的工单数据，因此，为磁盘3的KPI数据4和SMART数据4设置第一标签值。

在上述实施例中，在利用工单数据为监控数据设置标签值之前，还可以从所有工单数据中获取发生异常的工单数据，并过滤发生异常的工单数据；和/或，从所有监控数据中获取发生异常的监控数据，并过滤发生异常的监控数据。

例如，可以采用异常检测或者统计分析等方法，从所有工单数据中获取噪音样本，并对噪音样本进行过滤处理。具体的，在所有工单数据中，可能存在磁盘故障产生的工单数据，也可能存在其它故障(如CPU故障、内存故障、软件故障等)产生的工单数据，因此，在对磁盘故障进行检测时，其它故障产生的工单数据就是噪音样本，是异常的工单数据，需要过滤异常的工单数据。当然，还可以采用其它方式确定工单数据中的噪音样本，对此不做限制。

又例如，可以采用异常检测或者统计分析等方法，从所有监控数据中获取噪音样本，并对噪音样本进行过滤处理。具体的，在所有监控数据中，可能存在错误数据，如磁盘的温度一般处于10度-70度，而监控数据中的某个温度达到1000度，显然是错误数据，即该监控数据就是噪音样本，需要过滤该监控数据。当然，还可以采用其它方式确定监控数据中的噪音样本，对此不做限制。

在上述实施例中，还可以对监控数据进行重采样(例如，过采样和欠采样等)，以使得具有第一标签值的监控数据的数量，与具有第二标签值的监控数据的数量之间的差值，不大于预设数值，该预设数值可以根据经验配置。

具体的，可以将具有第一标签值(表示磁盘未发生故障)的监控数据称为正样本，将具有第二标签值(表示磁盘已经发生故障)的监控数据称为负样本，在后续训练过程中，为了提高训练结果的准确性，正样本的数量和负样本的数量应该相同或者近似相同，即二者的差值不大于预设数值。在实际应用中，发生故障的磁盘数量会小于未发生故障的磁盘数量，即负样本的数量会小于正样本的数量，因此，为了解决正样本和负样本不均衡的问题，还可以对样本进行重采样，例如，可以对负样本进行过采样(over-sampling)，以增加负样本的比例，并对正样本进行欠采样(under-sampling)，以减少正样本的比例，经过上述重采样的处理，就可以使得负样本的数量与正样本的数量尽量均衡。

三、离线处理过程中的离线特征工程，即可以根据监控数据构造特征集合，该特征集合可以包括多个特征，并根据该特征集合确定特征向量；或者，可以根据该监控数据和该标签值构造特征集合，该特征集合可以包括多个特征，并根据该特征集合确定特征向量。具体的，根据该特征集合确定特征向量，可以包括但不限于：可以将该特征集合包括的所有特征均确定为特征向量；或者，可以从该特征集合包括的所有特征中筛选出部分特征向量，对此不做限制。

在一个例子中，可以将监控数据和标签值输出给特定训练模型，该特定训练模型用于根据监控数据构造特征集合，或者，根据监控数据和标签值构造特征集合，然后，可以获取该特定训练模型的输出结果，该输出结果可以包括特征集合，并根据该输出结果确定特征集合，该特征集合可以包括多个特征。

其中，特定训练模型包括特征工程中的任意训练模型，对此特定训练模型的类型不做限制，只要特定训练模型能够构建特征即可，该特定训练模型用于从大量输入数据中找出对因变量有明显影响作用的特征，从而可以实现特征构建。例如，在将KPI数据1和SMART数据1输出给特定训练模型后，特定训练模型可以利用KPI数据1和SMART数据1进行训练，得到特征集合A，特征集合A包括特定训练模型构建的大量特征。在将KPI数据2和SMART数据2输出给特定训练模型后，特定训练模型可以利用KPI数据2和SMART数据2进行训练，得到特征集合B，特征集合B包括特定训练模型构建的大量特征。

在一个例子中，特征集合中的特征包括但不限于以下之一或任意组合：统计特征；时域特征；模型特征；频域特征；经验特征。为了使特征集合中包括统计特征，则特定训练模型需要具有构建统计特征的功能；为了使特征集合中包括时域特征，则特定训练模型需要具有构建时域特征的功能；为了使特征集合中包括模型特征，则特定训练模型需要具有构建模型特征的功能；为了使特征集合中包括频域特征，则特定训练模型需要具有构建频域特征的功能；为了使特征集合中包括经验特征，则特定训练模型需要具有构建经验特征的功能。

参见图3B所示，为特定训练模型的示意图，该特定训练模型用于构建统计特征、时域特征、模型特征、频域特征、经验特征，也就是说，在将数据(如KPI数据1和SMART数据1等)输出给特定训练模型后，特定训练模型可以构建与该数据对应的统计特征、时域特征、模型特征、频域特征、经验特征。

其中，统计特征可以包括但不限于：均值、方差、标准差、抖动等，对此统计特征不做限制。特定训练模型在获取到KPI数据1和SMART数据1等输入数据后，就可以利用这些输入数据确定统计特征，对此不做限制。

其中，时域特征可以包括但不限于：滑动平均值、指数加权滑动平均值等，对此时域特征不做限制。特定训练模型在获取到KPI数据1和SMART数据1等输入数据后，就可以利用这些输入数据确定时域特征，对此不做限制。

其中，模型特征可以包括但不限于：基于序列模式构造的特征、基于CNN构造的特征、基于VAE(Variational autoencoder，变分自编码器)构造的特征、基于GAN(GenerativeAdversarial Network，生成对抗网络)构造的特征、基于VAE和GAN构造的特征、基于LSTM(Long Short Term Memory，长短期记忆)构造的特征等，对此不做限制。特定训练模型在获取到KPI数据1和SMART数据1等输入数据后，就可以利用这些输入数据确定模型特征，对此不做限制。

其中，频域特征可以包括但不限于：频谱特征、频率特征等，可以通过小波变化、傅立叶变换等，将时域特征转换为频域特征，对此频域特征不做限制。特定训练模型在获取到KPI数据1和SMART数据1等输入数据后，就可以利用这些输入数据确定时域特征，并将时域特征转换为频域特征，对此不做限制。

其中，经验特征可以是用户配置的任意特征，对此经验特征不做限制，是用户根据经验配置的特征。特定训练模型在获取到KPI数据1和SMART数据1等输入数据后，就可以确定这些输入数据的经验特征，对此不做限制。

经过上述处理，特定训练模型可以产生特征集合，该特征集合可以包括大量特征，如1000个特征。然后，可以将特征集合包括的所有特征均确定为特征向量，或者，从特征集合包括的所有特征中筛选出部分特征向量，如从1000个特征中筛选出20个特征，将这20个特征确定为特征向量。本实施例中，参见图3B所示，以从特征集合包括的所有特征中筛选出部分特征向量为例。

进一步，为了从特征集合包括的所有特征中筛选出部分特征向量，则可以采用以下方式的一种或者多种：基于统计相关性，从特征集合包括的所有特征中筛选出部分特征向量；基于统计模型，从特征集合包括的所有特征中筛选出部分特征向量；基于机器学习模型，从特征集合包括的所有特征中筛选出部分特征向量；基于变化点检测模型，从特征集合包括的所有特征中筛选出部分特征向量；基于特定的策略，从特征集合包括的所有特征中筛选出部分特征向量。

其中，基于统计相关性，从特征集合包括的所有特征中筛选出部分特征向量，可以包括：从特征集合包括的所有特征中，查询到具有相关性的特征，并对具有相关性的特征进行过滤，然后，可以将剩余的特征确定为特征向量。

其中，基于统计模型，从特征集合包括的所有特征中筛选出部分特征向量，可以包括：将特征集合包括的所有特征输出给统计模型，由统计模型对这些特征进行处理，具体处理方式不做限制；然后，可以获取该统计模型的输出结果，该输出结果可以包括部分特征，这样，可以将所述部分特征确定为特征向量。

其中，基于机器学习模型，从特征集合包括的所有特征中筛选出部分特征向量，可以包括：将特征集合包括的所有特征输出给机器学习模型，由机器学习模型对这些特征进行处理，具体处理方式不做限制；获取该机器学习模型的输出结果，该输出结果可以包括部分特征，并将所述部分特征确定为特征向量。

其中，基于变化点检测模型，从特征集合包括的所有特征中筛选出部分特征向量，可以包括：在特征集合包括的所有特征中，保留发生明显变化的特征，并过滤未发生明显变化的特征，这样，可以将剩余的特征确定为特征向量。

其中，基于特定的策略，从特征集合包括的所有特征中筛选出部分特征向量，可以包括：基于用户设置的特定策略(用户根据经验配置，对此不做限制)，从特征集合包括的所有特征中选择特征，将选择的特征确定为特征向量。

四、离线处理过程中的模型训练。其中，在离线特征工程阶段，输入数据是监控数据和标签值，在该阶段的处理过程中，可以根据监控数据构造特征集合，并根据该特征集合确定特征向量，因此，输出数据是特征向量和标签值。在模型训练阶段，输入数据是特征向量和标签值，在该阶段的处理过程中，可以根据特征向量和标签值，确定特征向量与标签值的映射关系，该映射关系也就是一个模型，因此，输出数据是特征向量与标签值的映射关系。

例如，假设输入数据是特征向量A与第一标签值(如0)，则根据特征向量A与第一标签值，确定特征向量A与第一标签值(如0)的映射关系，该映射关系表示特征向量A与第一标签值之间的模型。假设输入数据是特征向量B与第二标签值(如1)，则可以根据特征向量B与第二标签值，确定特征向量B与第二标签值(如1)的映射关系，即特征向量B与第二标签值之间的模型。

在一个例子中，基于大量输入数据可以训练出一个最终模型，如模型R，该模型R可以包括特征向量与标签值的映射关系，如特征向量A与第一标签值的映射关系，特征向量B与第二标签值的映射关系，然后，将模型R部署到在线阶段，以利用模型R预测磁盘是否发生故障，预测过程参见后续实施例。其中，模型R可以包括但不限于CNN(ConvolutionalNeural Network，卷积神经网络)模型、线性回归模型、随机森林模型、梯度提升树模型、XGBoost(eXtreme Gradient Boosting，极值梯度提升)模型，对此模型R的类型不做限制。

其中，在根据大量输入数据训练最终模型时，可以选择多种基础模型，并在训练过程中采用时间序列数据上的交叉验证(cross validation)和网格搜索(grid search)等方式，进行参数选择，使得最终训练出的模型R的参数，可以满足时间序列的要求。此外，还可以采用不同的集成学习方案(如bagging，boosting，stacking等)将多个基础弱分类器进行集成，使得最终训练出的模型R包括多个基础弱分类器。当然，上述方式只是训练模型R的示例，对此不做限制。

五、在线处理过程中的在线特征提取。具体的，针对待检测的磁盘，可以获取该磁盘的监控数据，并根据该监控数据确定该磁盘的硬件特征。

其中，在线处理过程中的监控数据，可以是全部数据，也可以是增量数据。例如，在离线处理过程中，是利用历史监控数据进行处理，如历史监控数据是过去60天的监控数据，但不包括当天的监控数据，而在线处理过程中的监控数据，可以是当天的监控数据和过去59天的监控数据，也可以是当天的监控数据。例如，假设待检测的磁盘是磁盘A，则获取磁盘A当天的监控数据，或者，当天的监控数据和过去59天的监控数据，如KPI数据和/或SMART数据等。

当然，上述实施例是以“天”为周期的监控数据，在实际应用中，还可以以其它时间单位为周期，例如，以“小时”为周期，以“周”为周期等，对此不做限制，为了方便描述，后续实施例中，以“天”为周期为例进行说明。

然后，可以根据该监控数据构造特征集合，该特征集合可以包括多个特征，并根据该特征集合确定磁盘的硬件特征。具体的，可以将该特征集合包括的所有特征均确定为硬件特征，或者，可以从该特征集合包括的所有特征中筛选出部分硬件特征，当然，上述只是确定硬件特征的两个示例，对此不做限制。

进一步的，从该特征集合包括的所有特征中筛选出部分硬件特征，可以包括但不限于以下之一或者任意组合：基于统计相关性，从该特征集合包括的所有特征中筛选出硬件特征；基于统计模型，从该特征集合包括的所有特征中筛选出硬件特征；基于机器学习模型，从该特征集合包括的所有特征中筛选出硬件特征；基于变化点检测模型，从该特征集合包括的所有特征中筛选出硬件特征；基于特定的策略，从该特征集合包括的所有特征中筛选出硬件特征。

其中，在线处理过程中的在线特征提取，与离线处理过程中的离线特征工程类似，在此不再重复赘述，二者的不同之处在于：在离线处理过程中的离线特征工程，其输入数据可以是历史监控数据(如过去60天的监控数据)和标签值，而在线处理过程中的在线特征提取，其输入数据可以是当天的监控数据，或者当天的监控数据和过去59天的监控数据，且输入数据不包括标签值。

六、在线处理过程中的特征库。在离线处理过程中，还可以将特征向量存储到特征库，基于此，在线处理过程中，在得到磁盘的硬件特征后，可以根据该硬件特征和特征库中的特征向量，确定在线处理过程中的特征向量，并可以将在线处理过程中的特征向量输出给模型进行后续处理。或者，在线处理过程中，在得到磁盘的硬件特征后，可以将该硬件特征确定为在线处理过程中的特征向量，并可以将在线处理过程中的特征向量输出给模型进行后续处理。

例如，假设在线处理过程中的监控数据，是当天的监控数据和过去59天的监控数据，则该监控数据对应的硬件特征，是60天的监控数据对应的硬件特征，因此，可以将该硬件特征确定为在线处理过程中的特征向量，并将在线处理过程中的特征向量输出给模型进行后续处理。假设在线处理过程中的监控数据，是当天的监控数据，则该监控数据对应的硬件特征，是当天的监控数据对应的硬件特征，因此，可以根据该硬件特征和特征库中的特征向量，确定在线处理过程中的特征向量，并将在线处理过程中的特征向量输出给模型进行后续处理。

其中，在根据该硬件特征和特征库中的特征向量，确定在线处理过程中的特征向量时，是一个增量更新过程，通过滑动时间窗的方式，将新的特征添加到特征向量，并去除特征向量中已经无效的特征。例如，特征库中的特征向量A是过去60天的方差和，即第1天的监控数据对应的方差、第2天的监控数据对应的方差、…、与第60天的监控数据对应的方差之和，假设硬件特征是当天的监控数据(即第61天的监控数据)对应的方差，则将特征向量A减去第1天的监控数据对应的方差，再加上当天的监控数据对应的方差，可以得到特征向量B，而特征向量B就是在线处理过程中的特征向量，并将特征向量B输出给模型进行后续处理。而且，还可以将特征库中的特征向量A更新为特征向量B。

当然，上述实现方式，只是“根据该硬件特征和特征库中的特征向量，确定在线处理过程中的特征向量”的一个示例，对此不做限制，只要根据该硬件特征和特征库中的特征向量，可以确定在线处理过程中的特征向量即可。

在上述实施例中，针对不需要关联历史监控数据的特征向量，即基于当前周期的监控数据，或少数几个周期的监控数据，就可以得到硬件特征，并将该硬件特征确定为在线处理过程中的特征向量，则可以不使用特征库中的特征向量，而是采集这些周期的监控数据，利用这些监控数据直接确定硬件特征即可。

针对需要关联历史监控数据的特征向量，即基于多个周期的监控数据(如60个周期的监控数据)，才能够确定在线处理过程中的特征向量，则可以使用特征库中的特征向量，例如，基于当前周期的监控数据得到硬件特征，并根据该硬件特征和特征库中的特征向量，确定在线处理过程中的特征向量。

针对需要关联历史监控数据的特征向量，通过维护特征库，并将离线处理过程中的特征向量存储到特征库，将离线处理过程中的特征向量作为中间状态进行保留，然后通过滑动时间窗的方式，增量的获取数据并更新保留的中间状态，避免从头开始的基于全量数据的特征生成和更新，极大的提升处理效率。

七、在线处理过程中的模型部署和模型分类预测。在离线处理过程中，可以训练一个模型，如模型R，并部署模型R，这样，可以通过模型R预测磁盘是否发生故障。具体的，可以将在线处理过程中的特征向量输出给模型R，由于模型R用于记录特征向量和标签值的映射关系，因此，针对在线处理过程中的特征向量，可以得到与该特征向量对应的标签值。例如，若标签值是第一标签值，则确定磁盘未发生故障；若标签值是第二标签值，则确定磁盘已经发生故障；其中，第一标签值用于表示未发生故障，第二标签值表示已经发生故障。

其中，在磁盘未发生故障时，则可以将该磁盘的监控数据(如当天的监控数据)存储为历史监控数据，并参与到离线处理的数据关联、样本标注、离线特征工程、模型训练等步骤，在此不再赘述。在磁盘发生故障时，则可以将该磁盘的监控数据(如当天的监控数据)存储为历史监控数据，并参与到离线处理的数据关联、样本标注、离线特征工程、模型训练等步骤，在此不再赘述；以及，产生工单数据，该工单数据可以包括该磁盘的序列号、该磁盘的故障时间等信息，且该工单数据可以参与到离线处理的数据关联、样本标注等步骤。

可以根据模型预测分析结果，自动生成工单，应对磁盘磨损性故障问题，对磁盘问题和故障进行高效准确的预测分析，并能通过模型效果的测量和评估，进行动态更新，适配数据和环境的变化。可以采用全量磁盘的SMART数据(天级别粒度)和工单数据，自动关联分析，获取样本和标签值；可以引入KPI数据，与SMART数据一起，进行时域和频域的多重维度特征抽取和特征选择；可以叠加统计分析、深度神经网络和继承学习在内的模型，进行综合建模；可以采用在线特征增量更新和模型评估方案，进行模型动态更新和应用。

基于与上述方法同样的申请构思，本申请实施例还提供一种故障检测装置，如图4所示，为所述故障检测装置的结构图，所述装置可以包括：

获取模块41，用于获取物理硬件的监控数据和工单数据；

添加模块42，用于利用所述工单数据为所述监控数据设置标签值；

检测模块43，用于根据所述监控数据和标签值检测物理硬件是否发生故障。

所述添加模块42利用所述工单数据为所述监控数据设置标签值时具体用于：从所述工单数据中获取所述物理硬件的故障时间；

若所述监控数据的产生时间位于所述故障时间之前，则为所述监控数据设置第一标签值，所述第一标签值表示所述物理硬件未发生故障；

若所述监控数据的产生时间位于所述故障时间之后，则为所述监控数据设置第二标签值，所述第二标签值表示所述物理硬件已经发生故障。

所述检测模块43根据所述监控数据和标签值检测物理硬件是否发生故障时具体用于：根据所述监控数据和所述标签值确定特征向量与标签值的映射关系；根据所述映射关系检测物理硬件是否发生故障。

所述检测模块43根据所述映射关系检测物理硬件是否发生故障时具体用于：针对待检测的物理硬件，获取所述物理硬件的监控数据；

根据所述监控数据确定所述物理硬件的硬件特征；

通过所述硬件特征查询所述映射关系，得到所述硬件特征对应的标签值；

根据所述标签值检测所述物理硬件是否发生故障。

基于与上述方法同样的申请构思，本申请实施例还提供一种故障检测设备，包括：处理器和机器可读存储介质；其中，所述机器可读存储介质上存储有若干计算机指令，所述处理器执行所述计算机指令时进行如下处理：

获取物理硬件的监控数据和工单数据；

利用所述工单数据为所述监控数据设置标签值；

本申请实施例还提供一种机器可读存储介质，所述机器可读存储介质上存储有若干计算机指令，所述计算机指令被执行时进行如下处理：

获取物理硬件的监控数据和工单数据；

利用所述工单数据为所述监控数据设置标签值；

基于与上述方法同样的申请构思，本申请实施例还提供一种故障检测装置，如图5所示，为所述故障检测装置的结构图，所述装置可以包括：

获取模块51，用于针对待检测的物理硬件，获取所述物理硬件的监控数据；

确定模块52，用于根据所述监控数据确定所述物理硬件的硬件特征；

所述获取模块15，还用于通过所述硬件特征查询映射关系，得到所述硬件特征对应的标签值；其中，所述映射关系是根据监控数据和标签值确定的特征向量与标签值的映射关系；

检测模块53，用于根据所述标签值检测所述物理硬件是否发生故障。

针对待检测的物理硬件，获取所述物理硬件的监控数据；

根据所述监控数据确定所述物理硬件的硬件特征；

根据所述标签值检测所述物理硬件是否发生故障。

针对待检测的物理硬件，获取所述物理硬件的监控数据；

根据所述监控数据确定所述物理硬件的硬件特征；

根据所述标签值检测所述物理硬件是否发生故障。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可以由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其它可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其它可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

而且，这些计算机程序指令也可以存储在能引导计算机或其它可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或者多个流程和/或方框图一个方框或者多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其它可编程数据处理设备上，使得在计算机或者其它可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其它可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种故障检测方法，其特征在于，所述方法包括：

获取物理硬件的监控数据和工单数据；

利用所述工单数据为所述监控数据设置标签值；

根据所述监控数据和所述标签值检测物理硬件是否发生故障；

其中，所述根据所述监控数据和所述标签值检测物理硬件是否发生故障，包括：根据所述监控数据和所述标签值确定特征向量与标签值的映射关系；根据所述映射关系检测物理硬件是否发生故障。

2.根据权利要求1所述的方法，其特征在于，

所述获取物理硬件的监控数据和工单数据，包括：

基于所述物理硬件的序列号，将所述物理硬件的监控数据与所述物理硬件的工单数据进行关联，得到所述物理硬件的监控数据和工单数据。

3.根据权利要求1所述的方法，其特征在于，

所述利用所述工单数据为所述监控数据设置标签值，包括：

从所述工单数据中获取所述物理硬件的故障时间；

4.根据权利要求1所述的方法，其特征在于，所述根据所述监控数据和所述标签值检测物理硬件是否发生故障之前，所述方法还包括：

若不存在物理硬件的工单数据，则为所述物理硬件的监控数据设置第一标签值，其中，所述第一标签值表示所述物理硬件未发生故障。

5.根据权利要求1所述的方法，其特征在于，

根据所述监控数据和所述标签值确定特征向量与标签值的映射关系，包括：

根据所述监控数据构造特征集合，所述特征集合包括多个特征；

根据所述特征集合确定特征向量，并根据所述特征向量与所述监控数据对应的标签值，确定特征向量与标签值的映射关系。

6.根据权利要求5所述的方法，其特征在于，

所述根据所述特征集合确定特征向量，包括：

将所述特征集合包括的特征确定为特征向量；或者，

从所述特征集合包括的特征中筛选出特征向量。

7.根据权利要求6所述的方法，其特征在于，所述从所述特征集合包括的特征中筛选出特征向量，具体包括以下之一或者任意组合：

基于统计相关性，从所述特征集合包括的特征中筛选出特征向量；

基于统计模型，从所述特征集合包括的特征中筛选出特征向量；

基于机器学习模型，从所述特征集合包括的特征中筛选出特征向量；

基于变化点检测模型，从所述特征集合包括的特征中筛选出特征向量；

基于特定的策略，从所述特征集合包括的特征中筛选出特征向量。

8.根据权利要求5-7任一所述的方法，其特征在于，所述特征向量包括以下之一或任意组合：统计特征；时域特征；模型特征；频域特征；经验特征。

9.根据权利要求1所述的方法，其特征在于，

所述根据所述映射关系检测物理硬件是否发生故障，包括：

针对待检测的物理硬件，获取所述物理硬件的监控数据；

根据所述监控数据确定所述物理硬件的硬件特征；

根据所述标签值检测所述物理硬件是否发生故障。

10.根据权利要求9所述的方法，其特征在于，

所述根据所述监控数据确定所述物理硬件的硬件特征，包括：

根据所述特征集合确定所述物理硬件的硬件特征。

11.根据权利要求10所述的方法，其特征在于，

所述根据所述特征集合确定所述物理硬件的硬件特征，包括：

将所述特征集合包括的特征确定为所述物理硬件的硬件特征；或者，

从所述特征集合包括的特征中筛选出所述物理硬件的硬件特征。

12.根据权利要求11所述的方法，其特征在于，所述从所述特征集合包括的特征中筛选出所述物理硬件的硬件特征，包括以下之一或任意组合：

基于统计相关性，从所述特征集合包括的特征中筛选出所述硬件特征；

基于统计模型，从所述特征集合包括的特征中筛选出所述硬件特征；

基于机器学习模型，从所述特征集合包括的特征中筛选出所述硬件特征；

基于变化点检测模型，从所述特征集合包括的特征中筛选出所述硬件特征；

基于特定的策略，从所述特征集合包括的特征中筛选出所述硬件特征。

13.根据权利要求9-12任一所述的方法，其特征在于，所述硬件特征包括以下一种或多种：统计特征；时域特征；模型特征；频域特征；经验特征。

14.根据权利要求9所述的方法，其特征在于，

所述根据所述标签值检测所述物理硬件是否发生故障，还包括：

若所述标签值是第一标签值，则确定所述物理硬件未发生故障；

若所述标签值是第二标签值，则确定所述物理硬件已经发生故障；

其中，所述第一标签值用于表示所述物理硬件未发生故障；

所述第二标签值表示所述物理硬件已经发生故障。

15.一种故障检测方法，其特征在于，所述方法包括：

针对待检测的物理硬件，获取所述物理硬件的监控数据；

根据所述监控数据确定所述物理硬件的硬件特征；

根据所述标签值检测所述物理硬件是否发生故障。

16.根据权利要求15所述的方法，其特征在于，

将所述特征集合包括的特征确定为所述物理硬件的硬件特征；或者，从所述特征集合包括的特征中筛选出所述物理硬件的硬件特征。

17.根据权利要求16所述的方法，其特征在于，所述从所述特征集合包括的特征中筛选出所述物理硬件的硬件特征，包括以下之一或任意组合：

18.一种故障检测方法，其特征在于，所述方法包括：

获取物理硬件的监控数据和工单数据；

利用所述工单数据为所述监控数据设置标签值；

19.一种故障检测装置，其特征在于，所述装置包括：

获取模块，用于获取物理硬件的监控数据和工单数据；

检测模块，用于根据所述监控数据和标签值检测物理硬件是否发生故障；

其中，所述检测模块根据所述监控数据和标签值检测物理硬件是否发生故障时具体用于：根据所述监控数据和所述标签值确定特征向量与标签值的映射关系；根据所述映射关系检测物理硬件是否发生故障。

20.根据权利要求19所述的装置，其特征在于，

所述添加模块利用所述工单数据为所述监控数据设置标签值时具体用于：

从所述工单数据中获取所述物理硬件的故障时间；

21.根据权利要求19所述的装置，其特征在于，

所述检测模块根据所述映射关系检测物理硬件是否发生故障时具体用于：

针对待检测的物理硬件，获取所述物理硬件的监控数据；

根据所述监控数据确定所述物理硬件的硬件特征；

根据所述标签值检测所述物理硬件是否发生故障。

22.一种故障检测装置，其特征在于，所述装置包括：

23.一种故障检测设备，其特征在于，包括：

获取物理硬件的监控数据和工单数据；

利用所述工单数据为所述监控数据设置标签值；

24.一种故障检测设备，其特征在于，包括：

针对待检测的物理硬件，获取所述物理硬件的监控数据；

根据所述监控数据确定所述物理硬件的硬件特征；

根据所述标签值检测所述物理硬件是否发生故障。