CN114691403A

CN114691403A - 一种服务器故障诊断方法、装置、电子设备及存储介质

Info

Publication number: CN114691403A
Application number: CN202210273093.XA
Authority: CN
Inventors: 刘毅; 李昕; 刘炯宙; 陈润青; 徐凡; 李元鹏; 胡鋆笑; 胡颖
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2022-03-18
Filing date: 2022-03-18
Publication date: 2022-07-01

Abstract

本说明书实施例提供一种服务器故障诊断方法、装置、电子设备及存储介质，所述方法包括：获取待诊断的服务器的运行数据，其中，所述运行数据包括与所述服务器中包括的各个服务器部件相关的运行数据；从所述服务器的运行数据中提取出用于进行故障诊断的运行特征；将所述运行特征作为输入数据，输入已训练完成的诊断模型进行在线故障诊断，得到所述服务器的故障诊断结果；其中，所述诊断模型为利用自动机器学习框架从基于运行特征样本自动训练出的多个诊断模型中筛选出的目标模型，所述运行特征样本是从所述服务器的历史运行数据中提取出的；所述服务器的故障诊断结果，用于指示所述服务器中发生故障的服务器部件。

Description

一种服务器故障诊断方法、装置、电子设备及存储介质

技术领域

本说明书一个或多个实施例涉及故障诊断技术领域，尤其涉及一种服务器故障诊断方法、装置、电子设备及机器可读存储介质。

背景技术

随着数据中心的规模不断扩大，硬件资源的规模不断扩展，上层业务的复杂程度不断提高，服务器出现故障的可能性也随之提高，进而可能严重影响业务的正常运行。

当前，服务器故障诊断能力主要依赖于专家经验和厂商规则。例如，通常可以由硬件专家或厂商对脚本日志进行分析，以沉淀出针对不同服务器部件的诊断规则，形成专家规则库；后续，在服务器出现故障时，用户通常可以基于所述专家规则库进行诊断，并且可能需要结合用户自身的经验，进行反复的验证和测试，以定位出实际发生故障的服务器部件，有助于尽快排除故障，恢复业务的正常运行。

由此可见，基于专家经验和厂商规则进行服务器故障诊断时，需要耗费大量的时间成本和人力成本，还容易存在漏诊、误诊的问题；另外，随着服务器固件版本的迭代升级，已有的专家规则可能会失效，而且专家规则的更新速度较慢，严重影响了服务器故障诊断的准确性。

发明内容

本申请提供一种服务器故障诊断方法，所述方法包括：

获取待诊断的服务器的运行数据；其中，所述运行数据，包括与所述服务器中包括的各个服务器部件相关的运行数据；

从所述服务器的运行数据中提取出用于进行故障诊断的运行特征；

将所述运行特征作为输入数据，输入已训练完成的诊断模型进行在线故障诊断，得到所述服务器的故障诊断结果；其中，所述诊断模型为利用自动机器学习框架从基于运行特征样本自动训练出的多个诊断模型中筛选出的目标模型，所述运行特征样本是从所述服务器的历史运行数据中提取出的；所述服务器的故障诊断结果，用于指示所述服务器中发生故障的服务器部件。

可选的，所述获取待诊断的服务器的运行数据之前，所述方法还包括：

获取所述服务器的历史运行数据；

从所述服务器的历史运行数据中提取出用于进行模型自动训练的运行特征样本；

利用自动机器学习框架，基于所述运行特征样本自动训练预设的多个诊断模型，并从训练完成的多个诊断模型中自动筛选出所述目标模型。

可选的，所述从训练完成的多个诊断模型中自动筛选出所述目标模型，包括：

从用于作为测试集的所述服务器的历史运行数据作为输入数据，分别输入训练完成的所述多个诊断模型进行故障诊断，预测出相应的多个故障诊断结果；其中，用于作为测试集的所述服务器的历史运行数据被标记了所述服务器中实际发生故障的服务器部件；

将所述多个故障诊断结果指示的发生故障的服务器部件分别与所述实际发生故障的服务器部件进行匹配，以从训练完成的所述多个诊断模型中自动筛选出预测的故障诊断结果最准确的所述目标模型。

可选的，所述服务器的运行数据，包括以下示出的一个或多个的组合：所述服务器的日志数据，所述服务器的metrics时序数据，所述服务器的categorical类别数据；

所述从所述服务器的运行数据中提取出用于进行故障诊断的运行特征，包括以下示出的一个或多个的组合：

从所述服务器的日志数据中提取出日志特征；

从所述服务器的时序数据中提取出时序特征；

从所述服务器的类别数据中提取出类别特征。

可选的，所述从所述服务器的日志数据中提取出日志特征，包括以下示出的一个或多个的组合：

将所述服务器的日志数据输入预训练的语言处理模型进行文本向量化处理，以得到与所述日志数据对应的日志向量，作为所述日志特征；

利用预设的日志模板对所述服务器的日志数据进行结构化解析，对所述日志数据的解析结果进行统计分析，以得到相应的统计指标作为所述日志特征。

可选的，所述从所述服务器的时序数据中提取出时序特征，包括：

划分出至少一个时间窗口，针对位于每个时间窗口的时序数据分别进行统计分析，以得到相应的统计指标作为所述时序特征。

可选的，所述从所述服务器的类别数据中提取出类别特征，包括：

对所述服务器的类别数据进行编码，生成对应的编码串，作为所述类别特征。

可选的，所述对所述服务器的类别数据进行编码，生成对应的编码串，作为所述类别特征，包括：

将所述服务器的类别数据输入已训练完成的类别特征编码器进行编码，得到所述服务器的类别数据对应的编码串，作为所述类别特征；其中，所述类别特征编码器为利用自动机器学习框架从基于类别特征样本自动训练出的多个类别特征编码器中筛选出的目标编码器，所述类别特征样本是从所述服务器的历史类别数据中提取出的。

本申请还提供一种服务器故障诊断装置，所述装置包括：

数据获取模块，用于获取待诊断的服务器的运行数据；其中，所述运行数据，包括与所述服务器中包括的各个服务器部件相关的运行数据；

特征提取模块，用于从所述服务器的运行数据中提取出用于进行故障诊断的运行特征；

在线诊断模块，用于将所述运行特征作为输入数据，输入已训练完成的诊断模型进行在线故障诊断，得到所述服务器的故障诊断结果；其中，所述诊断模型为利用自动机器学习框架从基于运行特征样本自动训练出的多个诊断模型中筛选出的目标模型，所述运行特征样本是从所述服务器的历史运行数据中提取出的；所述服务器的故障诊断结果，用于指示所述服务器中发生故障的服务器部件。

本申请还提供一种电子设备，包括通信接口、处理器、存储器和总线，所述通信接口、所述处理器和所述存储器之间通过总线相互连接；

所述存储器中存储机器可读指令，所述处理器通过调用所述机器可读指令，执行上述方法。

本申请还提供一种机器可读存储介质，所述机器可读存储介质存储有机器可读指令，所述机器可读指令在被处理器调用和执行时，实现上述方法。

上述实施例中，一方面，可以基于已训练完成的诊断模型进行在线故障诊断，得到待诊断服务器的故障诊断结果，所述故障诊断结果可以指示所述服务器中发生故障的服务器部件，从而能够快速、准确地定位出发生故障的服务器部件，并且降低了对用户技术水平的要求，能够节约大量的时间成本和人力成本；另一方面，由于用于在线进行服务器故障诊断的所述诊断模型，可以是利用自动机器学习框架从基于运行特征样本自动训练出的多个诊断模型中筛选出的目标模型，因此能够保证所述诊断模型具备最佳的服务器故障诊断能力，并且，随着服务器固件版本的迭代升级，所述诊断模型还可以不断自动学习到新的故障模式。

附图说明

为了更清楚地说明本说明书实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本说明书一实施例中服务器故障诊断系统的框架示意图；

图2是本说明书一实施例中服务器故障诊断方法的流程图；

图3是本说明书一实施例中服务器故障诊断装置所在电子设备的结构示意图；

图4是本说明书一实施例中服务器故障诊断装置的框图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本说明书保护的范围。

为了使本技术领域的人员更好地理解本说明书实施例中的技术方案，下面先对本说明书实施例涉及的服务器故障诊断的相关技术，进行简要说明。

服务器上往往运行着非常关键的业务应用，因此，对服务器的可靠性有较高的要求。随着数据中心的规模不断扩大，硬件资源的规模不断扩展，上层业务的复杂程度不断提高，服务器出现故障的可能性也随之提高，进而可能严重影响业务的正常运行。

当前，服务器故障诊断能力主要依赖于专家经验和厂商规则。例如，通常可以由硬件专家或厂商对脚本日志进行分析，以沉淀出针对不同服务器部件的诊断规则，形成专家规则库；后续，在服务器出现故障时，用户(如：运维人员等)通常可以基于已有的专家规则进行诊断，并且可能需要结合用户自身的经验，进行反复的验证和测试，以定位出实际发生故障的服务器部件，有助于尽快排除故障，恢复业务的正常运行。

由此可见，在以上示出的实施例中，基于专家经验和厂商规则进行服务器故障诊断时，一方面，由于服务器机型种类繁多，因此在有限时间内，专家难以枚举出与所有可能发生的故障相应的诊断规则，导致耗费了大量的时间成本和人力成本，还容易存在漏诊、误诊的问题；另一方面，随着服务器固件版本的迭代升级，可能出现新的故障模式，已有的专家规则可能会失效，而且专家规则的更新速度较慢，严重影响了服务器故障诊断的准确性，不利于尽快恢复业务的正常运行。

有鉴于此，本说明书旨在提出一种基于已自动训练完成的诊断模型，在线进行服务器故障诊断的技术方案。

在实现时，可以获取待诊断的服务器的运行数据，所述运行数据可以包括与各个服务器部件相关的运行数据；进一步地，可以从所述服务器的运行数据中提取出用于进行故障诊断的运行特征；进一步地，可以将所述运行特征作为输入数据，输入已自动训练完成的诊断模型进行在线故障诊断，得到所述服务器的故障诊断结果，所述故障诊断结果用于指示所述服务器中发生故障的服务器部件。其中，所述诊断模型，可以为利用自动机器学习框架从基于运行特征样本自动训练出的多个诊断模型中筛选出的目标模型；所述运行特征样本，可以是从所述服务器的历史运行数据中提取出的。

例如，请参见图1，图1是本说明书一实施例中服务器故障诊断系统的框架示意图。如图1所示的服务器故障诊断系统，主要可以包括在线运行和离线运行两个部分。

其中，在线运行时，可以从一个或多个数据源中，获取待诊断服务器的新增运行数据，所述运行数据具体可以包括但不限于所述待诊断服务器的日志数据(logs)、时序数据(metrics)、类别数据(categorical data)等；进一步地，通过特征工程可以从获取到的新增运行数据中提取出用于进行故障诊断的运行特征；进一步地，可以将提取出的运行特征作为输入数据，输入已自动训练完成的诊断模型进行在线故障诊断，以得到所述服务器的故障诊断结果；进一步地，还可以将得到的故障诊断结果提供给用户(如：所述服务器的运维方、诊断服务的消费方等等)。

其中，离线运行时，可以从一个或多个数据源中，获取所述服务器的历史运行数据；进一步地，通过特征工程可以从获取到的历史运行数据中提取出用于训练所述诊断模型的运行特征样本；另外，根据所述诊断模型输出的所述历史运行数据对应的故障诊断结果，还可以为所述运行特征样本打上标签，也即，可以为所述运行特征样本标记出实际发生故障的服务器部件；进一步地，可以利用自动机器学习框架，基于所述运行特征样本自动训练预设的多个诊断模型，并且可以从已自动训练完成的所述多个诊断模型中筛选出预测结果最准确的目标模型，作为用于进行在线故障诊断的所述诊断模型。

由此可见，在本说明书中的技术方案中，一方面，可以基于已训练完成的诊断模型进行在线故障诊断，得到待诊断服务器的故障诊断结果，所述故障诊断结果可以指示所述服务器中发生故障的服务器部件，从而能够快速、准确地定位出发生故障的服务器部件，并且降低了对用户技术水平的要求，能够节约大量的时间成本和人力成本；另一方面，由于用于在线进行服务器故障诊断的所述诊断模型，可以是利用自动机器学习框架从基于运行特征样本自动训练出的多个诊断模型中筛选出的预测结果最准确的目标模型，因此能够保证所述诊断模型具备最佳的服务器故障诊断能力，并且，随着服务器固件版本的迭代升级，所述诊断模型还可以不断自动学习到新的故障模式。

下面通过具体实施例，并结合具体的应用场景对本说明书中的技术方案进行描述。

请参见图2，图2是本说明书一实施例中服务器故障诊断方法的流程图。所述方法可以执行以下步骤：

步骤202：获取待诊断的服务器的运行数据；其中，所述运行数据，包括与所述服务器中包括的各个服务器部件相关的运行数据；

步骤204：从所述服务器的运行数据中提取出用于进行故障诊断的运行特征；

步骤206：将所述运行特征作为输入数据，输入已训练完成的诊断模型进行在线故障诊断，得到所述服务器的故障诊断结果；其中，所述诊断模型为利用自动机器学习框架从基于运行特征样本自动训练出的多个诊断模型中筛选出的目标模型，所述运行特征样本是从所述服务器的历史运行数据中提取出的；所述服务器的故障诊断结果，用于指示所述服务器中发生故障的服务器部件。

在本说明书中，所述服务器故障诊断方法可以应用于故障诊断设备，所述故障诊断设备搭载了自动机器学习框架。

其中，所述故障诊断设备，可以包括用于针对待诊断的服务器进行在线故障诊断的网络设备。具体地，所述故障诊断设备可以是独立于待诊断的所述服务器之外的其他网络设备，如：用于对业务服务器进行故障监测的监测服务器、搭载有诊断服务的服务端等；所述故障设备也可以是待诊断的所述服务器本身，如：待诊断的所述服务器上安装了用于进行自我诊断的服务器故障诊断系统。

其中，所述自动机器学习框架，具体可以包括但不限于Auto ML(AutomatedMachine Learning，自动化机器学习)、Auto Sklearn、Auto Keras等等，本说明书不做限制。

需要说明的是，在以上示出的实施方式中，由于所述故障诊断设备搭载了自动机器学习框架，因此，除了在基于已自动训练完成的诊断模型进行在线故障诊断之前，可以通过离线运行的方式，自动筛选出最佳模型，也即预测结果最准确的预设模型作为所述目标模型，从而保证所述故障诊断设备具备最佳的服务器故障诊断能力；在线运行期间，还可以利用实时获得的新增运行数据，通过所述自动机器学习框架，不断地对所述诊断模型进行训练或筛选，从而保证所述诊断模型能够不断学习到新的故障模式，保持最佳的服务器故障诊断能力。

在本说明书中，可以获取待诊断的服务器的运行数据；其中，所述运行数据，可以包括与所述服务器中包括的各个服务器部件相关的运行数据。

其中，所述待诊断的服务器，可以理解为，所述服务器中包括的一个或多个服务器部件发生故障，导致所述服务器无法正常运行业务，如：所述服务器出现宕机问题。

其中，所述服务器部件，具体可以包括但不限于：内存、CPU(Central ProcessingUnit，中央处理器)、主板、PCIE(Peripheral Component Interconnect Express，一种高速串行计算机扩展总线标准)部件等等，本说明书不做限制。

例如，如图1所示，可以从一个或多个数据源中，获取待诊断的服务器的运行数据，如：与内存、CPU、主板、网卡、RAID(Redundant Arrays of Independent Disks，磁盘阵列)卡等服务器部件分别相关的运行数据。

在示出的一种实施方式中，所述服务器的运行数据，具体可以包括以下示出的一个或多个的组合：所述服务器的日志数据，所述服务器的时序数据，所述服务器的类别数据。

例如，可以仅获取待诊断的服务器的日志数据或时序数据；又例如，可以获取所述服务器的日志数据和时序数据；又例如，可以获取所述服务器的日志数据和类别数据；又例如，可以获取所述服务器的日志数据、时序数据和类别数据。

需要说明的是，在以上示出的实施例中，所述日志数据、时序数据、类别数据可以从一个或多个数据源获取；另外，所述服务器的运行数据还可以包括用于进行服务器故障诊断的其他数据，本说明书不做限制。

其中，所述服务器的日志数据，可以用于记录在所述服务器的操作系统运行中发生的各种事件。例如，所述服务器的日志数据中记录了依次发生的事件A、事件B和事件C。

需要说明的是，关于所述日志数据的具体形式，本说明书不做限制。例如，可以收集所述服务器的CSR(Control and Status Register，控制和状态寄存器)日志。

其中，所述服务器的时序数据，可以用于记录所述服务器中包括的各个服务器部件在不同时刻的部件状态信息。例如，所述服务器的时序数据中分别记录了在t1、t2、t3时刻的CPU使用率；又例如，所述服务器的时序数据中分别记录了在t1、t2、t3时刻的主板温度。

需要说明的是，关于所述部件状态信息的具体内容和获取方式，本领域技术人员可以根据实际需求灵活配置，本说明书不做限制。例如，通过用于采集服务器部件的部件状态信息的各类传感器、用于监测服务器部件的部件状态信息的线程等，可以获取各个服务器部件在不同时刻的部件状态信息。

其中，所述服务器的类别数据，可以用于记录所述服务器中包括的各个服务器部件的属性信息、配置信息等。例如，所述服务器的类别数据中记录了所述服务器的机型、所在机房、BMC(Baseboard Management Controller，基板管理控制器)版本等。

在示出的一种实施方式中，在从所述服务器的运行数据中提取出运行特征之前，还可以对获取到的所述服务器的运行数据进行数据预处理。

例如，针对获取到的日志数据，可以进行剔除无效单词、缩写词标准化、同义词转化等数据预处理。

又例如，针对获取到的时序数据，可以进行缺失值填充、样本过滤等数据预处理。

需要说明的是，在以上示出的实施例中，关于数据预处理的具体实现方式，仅仅是一种示例性的描述方式，本说明书不做限制。在实际应用中，本领域技术人员可以根据需求，针对不同的运行数据、不同的特征工程等，灵活配置不同的数据预处理方式。

在本说明书中，在获取待诊断的所述服务器的运行数据之后，可以从所述服务器的运行数据中提取出用于进行故障诊断的运行特征。

例如，如图1所示，通过特征工程可以从获取到的所述服务器的运行数据中，提取出用于进行故障诊断的运行特征。

在示出的一种实施方式中，在获取到所述服务器的运行特征之后，相应地，所述从所述服务器的运行数据中提取出用于进行故障诊断的运行特征，可以包括以下示出的一个或多个的组合：从所述服务器的日志数据中提取出日志特征；从所述服务器的时序数据中提取出时序特征；从所述服务器的类别数据中提取出类别特征。

其中，所述从所述服务器的日志数据中提取出日志特征，具体可以包括以下示出的任一方式：

方式一：基于预训练模型提取日志特征。具体地，可以将所述服务器的日志数据输入预训练的语言处理模型进行文本向量化处理，以得到与所述日志数据对应的日志向量，作为所述日志特征。

例如，可以将获取到的每条日志数据分别作为输入数据，输入预训练的BERT模型等语言处理模型进行文本向量化处理，以得到每条日志数据分别对应的embedding向量；进一步地，可以通过max/avg pooling的方式，获得与整个所述日志数据对应的日志向量，作为从所述日志数据中提取出来的日志特征。

需要说明的是，在以上示出的实施方式中，通过获得与整个日志数据对应的日志向量，作为所述日志向量，使得所述诊断模型不仅能够学习到所述日志数据中的语义信息，还可以学习到所述日志数据中的上下文关联，从而能够提高服务器故障诊断的准确性。而相关技术中基于专家规则进行匹配的实现方式，若服务器部件故障对应的日志数据中同时出现多条日志，单一的专家规则匹配可能无法理解日志的全文信息，增大误报的风险。

方式二：基于模板挖掘日志特征。具体地，可以利用预设的日志模板对所述服务器的日志数据进行结构化解析，对所述日志数据的解析结果进行统计分析，以得到相应的统计指标作为所述日志特征。

例如，可以利用预设的日志模板对获取到的日志数据进行结构化解析，得到所述日志数据的解析结果；进一步地，可以对得到的解析结果进行统计分析，以得到相应的统计指标，如count等，作为从所述日志数据中提取出来的日志特征。其中，所述统计指标可以用于指示某个变量的变化趋势；比如，在一段时长内的日志数据中出现事件A的次数。

需要说明的是，在以上示出的实施方式中，所述预设的日志模板，可以是利用Drain3等日志模版生成器，从获取到的历史日志数据中构造出的日志模板；关于利用日志模板对日志数据进行结构化解析的具体实现方式，可以参见相关技术，在此不再赘述。

(3)同时采用所述方式一和方式二。

其中，所述从所述服务器的时序数据中提取出时序特征，具体可以包括：划分出至少一个时间窗口，针对位于每个时间窗口的时序数据分别进行统计分析，以得到相应的统计指标作为所述时序特征。

例如，可以针对位于不同时间窗口的时序数据，进行统计分析，得到STD(StandardDeviation，标准差)、EWMA(Exponentially Weighted Moving-Average，指数加权移动平均)等统计指标，作为从所述时序数据中提取出来的时序特征。

需要说明的是，在以上示出的实施方式中，关于所述时间窗口的大小、以及所述统计指标的具体内容，本说明书不做限制，本领域技术人员根据需求可以灵活设置。

其中，所述从所述服务器的类别数据中提取出类别特征，具体可以包括：对所述服务器的类别数据进行编码，生成对应的编码串，作为所述类别特征。

例如，可以将所述服务器的类别数据输入已训练完成的类别特征编码器进行编码，得到所述服务器的类别数据对应的编码串，作为从所述类别数据中提取出来的类别特征；其中，所述类别特征编码器可以为利用自动机器学习框架从基于类别特征样本自动训练出的多个类别特征编码器中筛选出的目标编码器，所述类别特征样本是从所述服务器的历史类别数据中提取出的。

需要说明的是，在以上示出的实施方式中，由于用于对所述类别数据进行编码的所述类别特征编码器，可以是利用自动机器学习框架从基于类别特征样本自动训练出的多个类别特征编码器中筛选出的目标编码器，因此能够保证提取出来的类别特征可以具备最佳的表征能力，进而可以将至少包括所述类别特征的运行特征作为所述诊断模型的输入数据，从而提高故障诊断结果的准确性。

在本说明书中，在从所述服务器的运行数据中提取出运行特征之后，可以将所述运行特征作为输入数据，输入已训练完成的诊断模型进行在线故障诊断，得到所述服务器的故障诊断结果。

其中，所述诊断模型可以为利用自动机器学习框架从基于运行特征样本自动训练出的多个诊断模型中筛选出的目标模型，所述运行特征样本可以是从所述服务器的历史运行数据中提取出的。所述诊断模型可以包括多分类模型；所述诊断模型的输出结果可以用于指示所述服务器的故障类型，也即，所述故障诊断结果可以用于指示所述服务器中发生故障的服务器部件。

例如，如图1所示，可以将从所述服务器的运行数据中提取出的运行特征作为输入数据，输入已自动训练完成的诊断模型进行在线故障诊断，以得到所述诊断模型输出的所述服务器的故障诊断结果；其中，所述故障诊断结果可以分为内存故障、CPU故障、主板故障、PCIE部件故障等。

在示出的一种实施方式中，所述诊断模型的输入数据，具体可以包括以下示出的任一：

(1)可以将所述日志特征作为所述诊断模型的输入数据；

(2)可以将所述时序特征作为所述诊断模型的输入数据；

(3)可以将所述日志特征和所述时序特征拼接在一起，作为所述诊断模型的输入数据；

(4)可以将所述日志特征和所述类别特征拼接在一起，作为所述诊断模型的输入数据；

(5)可以将所述日志特征、所述时序特征和所述类别特征拼接在一起，作为所述诊断模型的输入数据。

需要说明的是，在以上示出的实施方式中，所述诊断模型除了可以自动学习到不同数据源下的故障模式，通过同时引入多种特征作为所述诊断模型的输入数据，还可以自动学习到多个数据源共同作用下的故障模式，从而提高服务器故障诊断的准确性。而在相关技术中，本领域技术人员很难通过人工的方式挖掘出多个数据源共同作用下的故障模式，难以提炼出相应的专家规则。

在示出的一种实施方式中，在基于所述诊断模型进行在线故障诊断之前，可以先对所述诊断模型进行自动训练。在实现时，所述获取待诊断的服务器的运行数据之前，所述方法还可以包括：获取所述服务器的历史运行数据；从所述服务器的历史运行数据中提取出用于进行模型自动训练的运行特征样本；利用自动机器学习框架，基于所述运行特征样本自动训练预设的多个诊断模型，并从训练完成的多个诊断模型中自动筛选出所述目标模型。

例如，如图1所示，在离线运行时，可以定时从所述服务器的历史运行数据库中，读取所述服务器的历史运行数据；进一步地，通过特征工程可以从获取到的历史运行数据中提取出用于进行模型自动训练的运行特征样本；另外，所述运行特征样本被标记了相应的实际发生故障的服务器部件；进一步地，可以利用自动机器学习框架，基于所述运行特征样本自动训练预设的多个诊断模型，并且可以从已自动训练完成的所述多个诊断模型中筛选出目标模型，作为用于进行在线故障诊断的所述诊断模型。

其中，所述从训练完成的多个诊断模型中自动筛选出所述目标模型，具体可以包括：将用于作为测试集的所述服务器的历史运行数据作为输入数据，分别输入训练完成的所述多个诊断模型进行故障诊断，预测出相应的多个故障诊断结果；其中，用于作为测试集的所述服务器的历史运行数据被标记了所述服务器中实际发生故障的服务器部件；进一步地，可以将所述多个故障诊断结果指示的发生故障的服务器部件，分别与标记的实际发生故障的服务器部件进行匹配，以从训练完成的所述多个诊断模型中自动筛选出预测的故障诊断结果最准确的所述目标模型。

需要说明的是，在以上示出的实施方式中，所述预设的多个诊断模型，可以包括随机森林、LightGBM(Light Gradient Boosting Machine)等，本说明书不做限制。关于利用所述自动机器学习框架来自动训练所述诊断模型的具体实现方式，可以参见相关技术，在此不再赘述。

在示出的另一种实施方式中，在基于已训练完成的类别特征编码器，从所述服务器的类别数据中提取类别特征之前，可以先对所述类别特征编码器进行自动训练。在实现时，所述服务器的历史运行数据至少可以包括历史类别数据；所述利用自动机器学习框架，基于所述运行特征样本自动训练预设的多个诊断模型，并从训练完成的多个诊断模型中自动筛选出所述目标模型，具体可以包括：利用自动机器学习框架，基于所述运行特征样本自动训练预设的多个类别特征编码器，并从训练完成的多个类别特征编码器中自动筛选出所述目标编码器，作为用于提取类别特征的所述类别特征编码器。

其中，所述从训练完成的多个类别特征编码器中自动筛选出所述目标编码器，具体可以包括：将用于作为测试集的所述服务器的历史运行数据作为输入数据，分别输入训练完成的所述多个类别特征编码器进行类别特征提取，得到相应的多个类别特征提取结果；进一步地，可以将至少包括所述类别特征提取结果的运行特征样本作为输入数据输入所述诊断模型进行故障诊断，预测出相应的多个故障诊断结果；其中，用于作为测试集的所述服务器的历史运行数据被标记了所述服务器中实际发生故障的服务器部件；进一步地，可以将所述多个故障诊断结果指示的发生故障的服务器部件，分别与标记的实际发生故障的服务器部件进行匹配，以从训练完成的所述多个类别特征编码器中自动筛选出预测的故障诊断结果最准确的所述目标编码器。

需要说明的是，在以上示出的实施例中，利用自动机器学习框架，可以分别自动训练所述诊断模型和所述类别特征编码器，也可以通过两层循环一起训练所述诊断模型和所述类别特征编码器，本说明书不做限制。

通过以上实施例可知，一方面，可以基于已训练完成的诊断模型进行在线故障诊断，得到待诊断服务器的故障诊断结果，所述故障诊断结果可以指示所述服务器中发生故障的服务器部件，从而能够快速、准确地定位出发生故障的服务器部件，并且降低了对用户技术水平的要求，能够节约大量的时间成本和人力成本；另一方面，由于用于在线进行服务器故障诊断的所述诊断模型，可以是利用自动机器学习框架从基于运行特征样本自动训练出的多个诊断模型中筛选出的目标模型，因此能够保证所述诊断模型具备最佳的服务器故障诊断能力，并且，随着服务器固件版本的迭代升级，所述诊断模型还可以不断自动学习到新的故障模式。

与上述服务器故障诊断方法的实施例对应的，本说明书还提供了一种服务器故障诊断装置的实施例。

请参见图3，图3是本说明书一实施例中服务器故障诊断装置所在电子设备的结构示意图。在硬件层面，该设备包括处理器302、内部总线304、网络接口306、内存308以及非易失性存储器310，当然还可能包括其他业务所需要的硬件。本说明书一个或多个实施例可以基于软件方式来实现，比如由处理器302从非易失性存储器310中读取对应的计算机程序到内存308中然后运行。当然，除了软件实现方式之外，本说明书一个或多个实施例并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

请参见图4，图4是本说明书一实施例中服务器故障诊断装置的框图。该服务器故障诊断装置可以应用于如图3所示的电子设备中，以实现本说明书的技术方案。其中，所述服务器故障诊断装置可以包括：

数据获取模块402，用于获取待诊断的服务器的运行数据；其中，所述运行数据，包括与所述服务器中包括的各个服务器部件相关的运行数据；

特征提取模块404，用于从所述服务器的运行数据中提取出用于进行故障诊断的运行特征；

在线诊断模块406，用于将所述运行特征作为输入数据，输入已训练完成的诊断模型进行在线故障诊断，得到所述服务器的故障诊断结果；其中，所述诊断模型为利用自动机器学习框架从基于运行特征样本自动训练出的多个诊断模型中筛选出的目标模型，所述运行特征样本是从所述服务器的历史运行数据中提取出的；所述服务器的故障诊断结果，用于指示所述服务器中发生故障的服务器部件。

在本实施例中，所述数据获取模块402，还用于获取所述服务器的历史运行数据；

所述特征提取模块404，用于从所述服务器的历史运行数据中提取出用于进行模型自动训练的运行特征样本；

所述装置还包括：

自动训练模块，用于利用自动机器学习框架，基于所述运行特征样本自动训练预设的多个诊断模型，并从训练完成的多个诊断模型中自动筛选出所述目标模型。

在本实施例中，所述自动训练模块，具体用于：

在本实施例中，所述服务器的运行数据，包括以下示出的一个或多个的组合：所述服务器的日志数据，所述服务器的metrics时序数据，所述服务器的categorical类别数据；

所述特征提取模块404，包括以下示出的一个或多个的组合：

日志特征提取子模块，用于从所述服务器的日志数据中提取出日志特征；

时序特征提取子模块，用于从所述服务器的时序数据中提取出时序特征；

类别特征提取子模块，用于从所述服务器的类别数据中提取出类别特征。

在本实施例中，所述日志特征提取子模块，具体用于以下示出的一个或多个的组合：

在本实施例中，所述时序特征提取子模块，具体用于：

在本实施例中，所述类别特征提取子模块，具体用于：

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例只是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为服务器系统。当然，本申请不排除随着未来计算机技术的发展，实现上述实施例功能的计算机例如可以为个人计算机、膝上型计算机、车载人机交互设备、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

虽然本说明书一个或多个实施例提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的装置或终端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境，甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下，并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。例如若使用到第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本说明书一个或多个时可以把各模块的功能在同一个或多个软件和/或硬件中实现，也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

本发明是参照根据本发明实施例的方法、装置(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储、石墨烯存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

本领域技术人员应明白，本说明书一个或多个实施例可提供为方法、系统或计算机程序产品。因此，本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本本说明书一个或多个实施例，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

以上所述仅为本说明书一个或多个实施例的实施例而已，并不用于限制本说明书一个或多个实施例。对于本领域技术人员来说，本说明书一个或多个实施例可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在权利要求范围之内。

Claims

1.一种服务器故障诊断方法，所述方法包括：

2.根据权利要求1所述的方法，所述获取待诊断的服务器的运行数据之前，所述方法还包括：

获取所述服务器的历史运行数据；

3.根据权利要求2所述的方法，所述从训练完成的多个诊断模型中自动筛选出所述目标模型，包括：

4.根据权利要求1所述的方法，所述服务器的运行数据，包括以下示出的一个或多个的组合：所述服务器的日志数据，所述服务器的metrics时序数据，所述服务器的categorical类别数据；

从所述服务器的日志数据中提取出日志特征；

从所述服务器的时序数据中提取出时序特征；

从所述服务器的类别数据中提取出类别特征。

5.根据权利要求4所述的方法，所述从所述服务器的日志数据中提取出日志特征，包括以下示出的一个或多个的组合：

6.根据权利要求4所述的方法，所述从所述服务器的时序数据中提取出时序特征，包括：

7.根据权利要求4所述的方法，所述从所述服务器的类别数据中提取出类别特征，包括：

8.根据权利要求7所述的方法，所述对所述服务器的类别数据进行编码，生成对应的编码串，作为所述类别特征，包括：

9.一种服务器故障诊断装置，所述装置包括：

10.一种电子设备，包括通信接口、处理器、存储器和总线，所述通信接口、所述处理器和所述存储器之间通过总线相互连接；

所述存储器中存储机器可读指令，所述处理器通过调用所述机器可读指令，执行权利要求1至8任一项所述的方法。

11.一种机器可读存储介质，所述机器可读存储介质存储有机器可读指令，所述机器可读指令在被处理器调用和执行时，实现权利要求1至8任一项所述的方法。