CN113835918A

CN113835918A - 一种服务器故障分析方法及装置

Info

Publication number: CN113835918A
Application number: CN202111100911.8A
Authority: CN
Inventors: 韩颖
Original assignee: Jinan Inspur Data Technology Co Ltd
Current assignee: Jinan Inspur Data Technology Co Ltd
Priority date: 2021-09-18
Filing date: 2021-09-18
Publication date: 2021-12-24

Abstract

本申请实施例公开了一种服务器故障分析方法，具体为，获取该服务器的日志数据，该日志数据包括服务器中所包括的各个硬件的基本参数和运行参数。基于预先定义的实体库以及关系库从日志数据中提取各个实体以及各个实体之间的关系，并根据各实体之间的关系建立服务器知识图谱，该服务器知识图谱为展示各个实体之间关系的语义网络。在服务器出现故障，获取故障数据，基于该故障数据以及服务器知识图谱确定与故障相关的信息。其中，与故障相关的信息可以包括故障原因、故障点以及一个或多个可能将要发生故障的模块的标识。即，通过服务器知识图谱不仅可以关注故障本身，还可以关注服务器中各个模块的使用状态，提升故障诊断和预测的全面性、准确性。

Description

一种服务器故障分析方法及装置

技术领域

本申请涉及计算机技术领域，具体涉及一种服务器故障分析方法及装置。

背景技术

在云计算技术不断被应用，服务器的需求量与日剧增，大量服务器长时间运行必然导致故障率的提升，怎样快速定位和处理故障成为了亟待解决的问题。虽然很多厂商都有相关的检测平台，但大多使用不同的协议和操作系统等，无法统一监管和统一输出。而且大多数平台仅关注故障本身，但是在实际的运维场景中，服务器各模块的故障有时是相关联的，例如中央处理器(central processing unit，CPU)出现问题时，可能会导致硬盘模块日志异常，单个模块故障的诊断分析缺乏整体性和全面性。

发明内容

有鉴于此，本申请实施例提供一种服务器故障分析方法及装置，以实现故障分析和预测的全面性、准确性。

为实现上述目的，本申请实施例提供的技术方案如下：

在本申请实施例第一方面，提供了一种服务器故障分析方法，所述方法包括：

获取服务器的日志数据，所述日志数据至少包括所述服务器中各硬件的基本参数和运行参数；

根据预先定义的实体库和关系库从所述日志数据中提取各个实体以及所述各个实体之间的关系；

根据所述各个实体以及所述各个实体之间的关系建立服务器知识图谱，所述服务器知识图谱为展示所述各个实体之间关系的语义网络；

响应于所述服务器出现故障，基于故障数据以及所述服务器知识图谱确定与故障相关的信息。

在一种具体的实现方式中，所述与故障相关的信息包括故障原因、故障点以及一个或多个目标模块的标识，所述一个或多个目标模块为预测的可能发生故障的模块。

在一种具体的实现方式中，所述方法还包括：

获取任一硬件的日志数据，基于所述日志数据以及所述服务器知识图谱预测所述硬件的使用寿命和/或所述硬件可能产生的故障。

在一种具体的实现方式中，所述服务器知识图谱存储到Neo4j图形数据库中。

在一种具体的实现方式中，所述根据预先定义的实体库从所述日志数据中提取各个实体，包括：

根据预先定义的实体库中所述日志数据中提取多个实体名称；

将所述多个实体名称中指代同一实体的实体名称进行统一化处理。

在一种具体的实现方式中，所述方法还包括：

对所述各个实体进行分类，获取所述各个实体中每个实体的分类结果，所述分类结果包括硬件和硬件属性，所述硬件属性用于指示所述硬件对应的配置信息。

在一种具体的实现方式中，所述日志数据包括带内日志数据和带外日志数据，所述带内日志数据通过监控软件收集，所述带外日志数据同基本管理控制器BMC收集。

在本申请实施例第二方面，提供了一种服务器故障分析装置，所述装置包括：

获取单元，用于获取服务器的日志数据，所述日志数据至少包括所述服务器中各硬件的基本参数和运行参数；

提取单元，用于根据预先定义的实体库和关系库从所述日志数据中提取各个实体以及所述各个实体之间的关系；

建立单元，用于根据所述各个实体以及所述各个实体之间的关系建立服务器知识图谱，所述服务器知识图谱为展示所述各个实体之间关系的语义网络；

确定单元，用于响应于所述服务器出现故障，基于故障数据以及所述服务器知识图谱确定与故障相关的信息。

在本申请实施例第三方面，提供了一种电子设备，包括：处理器，存储器；

所述存储器，用于存储计算机可读指令或者计算机程序；

所述处理器，用于读取所述计算机可读指令或所述计算机程序，以使得所述设备实现第一方面所述的服务器故障分析方法。

在本申请实施例第四方面，提供了一种计算机可读存储介质，包括指令或计算机程序，当其在计算机上运行时，使得计算机执行第一方面所述的服务器故障分析方法。

在本申请实施例第五方面，提供了一种计算机程序产品，所述计算机程序产品在处理器上运行时，实现第一方面所述的服务器故障分析方法。

由此可见，本申请实施例具有如下有益效果：

本申请实施例中，针对服务器的故障分析，获取该服务器的日志数据，该日志数据包括服务器中所包括的各个硬件的基本参数和运行参数。基于预先定义的实体库以及关系库从日志数据中提取各个实体以及各个实体之间的关系，并根据各实体之间的关系建立服务器知识图谱，该服务器知识图谱为展示各个实体之间关系的语义网络，通过该服务器知识图谱可以挖掘各个实体之间的隐藏关系。在服务器出现故障，获取故障数据，基于该故障数据以及服务器知识图谱确定与故障相关的信息。其中，与故障相关的信息可以包括故障原因、故障点以及一个或多个可能将要发生故障的模块的标识。也就是，通过服务器知识图谱不仅可以关注故障本身，还可以关注服务器中各个模块的使用状态，提升故障诊断和预测的全面性、准确性。

附图说明

图1为本申请实施例提供的一种服务器故障分析方法流程图；

图2为本申请实施例提供的一种实体关系图；

图3为本申请实施例提供的一种服务器知识图谱构建框架图；

图4为本申请实施例提供的一种服务器故障分析装置结构图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请实施例作进一步详细的说明。

发明人在对传统的服务器故障分析方法研究中发现，目前的服务器故障分析仅关注故障本身，但是在实际的运维场景中，服务器各模块的故障有时是相关联的，单个模块故障的诊断分析缺乏整体性和全面性。

经过研究发现，服务器的日志数据是不同硬件的时序信息集合，提供维持、追硬件表现、参数调整、系统修复、紧急事件等大量信息。而且在服务器管理中，服务器的日志数据有便于收集、分析和识别等优点。基于此，本申请实施例提出了一种基于服务器的日志数据进行故障分析的方法，具体为，从收集的服务器日志数据中抽取实体和关系，以构建服务器知识图谱，通过在服务器知识图谱的路径上进行推理获取隐藏关系，从而提升故障分析的全面性和准确性。

为便于理解本申请实施例提出的技术方案，将对本申请实施例涉及的技术术语进行说明。

知识图谱，本质上是一种语义网络，其结点代表实体(entity)或者概念(concept)，边代表实体/概念之间的各种语义关系。在实际应用中，通过对实体之间的语义关系进行推理挖掘实体之间的隐藏联系。

知识图谱的存储方式，一种是基于资源描述框架(ResourceDescriptionFramework，RDF)进行存储；另一种是基于图形数据库进行存储。其中，RDF是一种资源描述语言，其受到元数据标注、框架系统、面向对象语言等多方面的影响，被用来描述各种网络资源，为用户在Web上发布结构化数据提供一个标准的数据描述框架。图形数据库，是NoSQL数据库的一种类型，它应用图形理论存储实体之间的关系信息。例如，Neo4j图数据库、FlockDB图数据库。

带内日志数据和带外日志数据，从技术的角度，网络管理可分为带外管理(out-of-band)和带内管理(in-band)两种管理模式。所谓带内管理，是指网络的管理控制信息与用户网络的承载业务信息通过同一个逻辑信道传送；而在带外管理模式中，网络的管理控制信息与用户网络的承载业务信息在不同的逻辑信道传送。带内日志是指带内管理所对应的日志数据，带外日志数据是指带外管理所对应的日志数据。

为便于理解本申请实施例所提供的技术方案，下面将结合附图进行说明。

参见图1，该图为本申请实施例提供的一种服务器故障分析方法流程图，如图1所示，该方法可以包括：

S101：获取服务器的日志数据，该日志数据至少包括服务器中各硬件的基本参数和运行参数。

本实施例中，为建立服务器知识图谱，获取服务器的日志数据，该日志数据包括服务器所包括的各个硬件的基本参数和运行参数。其中，服务器所包括的硬件可以包括电源、CPU、内存、硬盘、风扇、光驱等。基本参数可以包括硬件的型号、厂商等信息。运行参数可以包括硬件的负载、利用率、启停状态等，例如CPU的负载、内存的利用率、硬盘的容量、网卡的流量等运行信息。

其中，服务器的日志数据包括带内日志数据和带外日志数据。具体地，针对带内日志数据，可以通过下发监控软件到操作系统，以实时记录各个硬件的使用状态等信息，再通过日志转发的功能定时将监控日志转发给处理器。针对带外日志数据，可以使用日志收集工具，通过基板管理控制器(Baseboard Manager Controller，BMC)接口收集带外日志数据。

需要说明是，由于所采集的日志数据的数据量非常大，若利用所有的数据构建知识图谱，不仅占用较大的存储空间，还可能对故障分析造成干扰。例如，对于CPU而言，负载、温度等参数均是影响其寿命的关键参数，而编号等常规参数则是无用信息。基于此，在利用日志数据构建服务器知识图谱之前，可以对日志数据进行预处理，消除重复信息和冗余信息。

S102：根据预先定义的实体库和关系库从日志数据中提取各个实体以及各个实体之间的关系。

在获取到服务器的日志数据后，根据预先定义的实体库和关系库从日志数据中提取各个实体以及各个实体之间的关系。其中，实体库和关系库可以由运维人员根据工作经验定义出与服务器故障分析相关的实体和关系的规则库。

具体地，根据实体库从日志数据中识别出实体，再根据关系库确定所识别出的实体之间的关系。其中，在识别出各实体后，还可以对各实体进行分类，获取各实体对应的分类结果。分类结果可以包括硬件和硬件属性。也就是，确定所识别出的实体是硬件，还是硬件属性。其中，硬件属性用于指示硬件所对应的配置信息。例如，图2所示，从日志数据中提取实体为CPU、型号为Intel(R)Xeon、核数为4核，即共识别出3个实体。其中，CPU的分类为硬件、型号和核数为硬件属性。图中箭头代表实体间的关系，表示含义为“拥有属性”。再例如，从日志数据中提取实体为CPU、内存、风扇、转速为x、容量为y，则上述实体中CPU、内存和风扇的分类均为硬件，转速为风扇属性，容量为内存属性，并根据关系库确定上述实体之间的关系。

在一种具体的实现方式中，由于日志数据来源不同，可能会出现使用不同的名词指代同一实体，例如Mem和Memory均指代内存，为简化后续构建服务器知识图谱的工作，则对不同的实体命名进行统一化处理，以使得同一实体的实体名称相同。

S103：根据各个实体以及各个实体之间的关系建立服务器知识图谱，该服务器知识图谱为展示所述各个实体之间关系的语义网络。

在识别出日志数据中的各个实体以及实体之间的关系后，根据上述实体以及实体间的关系构建服务器知识图谱，该服务器知识图谱为展示各个时间之间关系的语义网络。其中，考虑到查询和搜索的需求，可以将服务器知识图谱存储到图形数据库中，例如Neo4j图形数据库。

S104：响应于服务器出现故障，基于故障数据以及服务器知识图谱确定与故障相关的信息。

本实施例中，当服务器出现故障时，获取故障数据，基于该故障数据以及服务器知识图谱确定与故障相关的信息。也就是，服务器知识图谱可以作为服务器信息和故障的搜索引擎，在出现故障时，可以根据故障数据进行故障分析，获取与故障相关的信息。其中，与故障相关的信息可以包括故障原因、故障点以及一个或多个目标模块的标识，该一个或多个目标模块为预测的可能发生故障的模块。

在一种具体的实现方式中，还可以获取任一硬件的日志数据，基于该日志数据以及服务器知识图谱预测该硬件的使用寿命和/该硬件可能产生的故障。其中，硬件的日志数据包括该硬件的基本参数和运行参数。例如，服务器知识图谱可以根据硬件的型号、使用率、任务类型等信息，预测该硬件产生的故障和使用寿命。

可见，本实施例通过获取该服务器的日志数据，该日志数据包括服务器中所包括的各个硬件的基本参数和运行参数。基于预先定义的实体库以及关系库从日志数据中提取各个实体以及各个实体之间的关系，并根据各实体之间的关系建立服务器知识图谱，该服务器知识图谱为展示各个实体之间关系的语义网络，通过该服务器知识图谱可以挖掘各个实体之间的隐藏关系。在服务器出现故障，获取故障数据，基于该故障数据以及服务器知识图谱确定与故障相关的信息。其中，与故障相关的信息可以包括故障原因、故障点以及一个或多个可能将要发生故障的模块的标识。也就是，通过服务器知识图谱不仅可以关注故障本身，还可以关注服务器中各个模块的使用状态，提升故障诊断和预测的全面性、准确性。

为便于理解本申请实施例中服务器知识图谱的构建，如图3所示的构建框架图。首先获取服务器的日志数据(原始数据)，该日志数据中可以包括结构化数据、半结构化数据和非结构化数据。对于结构化数据可以直接进行数据整合，进行初步知识表示。对于半结构化数据和非结构化数据可以进行实体抽取、关系抽取以及属性抽取等操作，从而进行初步知识表示。在获得初步知识表示后，可以进行实体对齐，进而构建标准知识表示。其中，实体对齐可以包括实体消歧、共指消解等。其中，实体的歧义指的是一个实体名称可对应到多个真实世界实体，确定一个实体名称所指向的真实世界实体，这就是实体消歧。共指消解是指将现实世界中同一实体的不同描述合并到一起。在获得标准知识表示后，可以利用标准知识表示以及实体之间的关系构建服务器知识图谱。

基于上述方法实施例，本申请实施例提供了一种服务器故障分析装置，下面将结合附体进行说明。

参见图4，该图为本申请实施例提供的一种服务器故障分析装置结构图，如图4所示，该装置400可以包括：获取单元401、提取单元402、建立单元403和确定单元404。

获取单元401，用于获取服务器的日志数据，所述日志数据至少包括所述服务器中各硬件的基本参数和运行参数；

提取单元402，用于根据预先定义的实体库和关系库从所述日志数据中提取各个实体以及所述各个实体之间的关系；

建立单元403，用于根据所述各个实体以及所述各个实体之间的关系建立服务器知识图谱，所述服务器知识图谱为展示所述各个实体之间关系的语义网络；

确定单元404，用于响应于所述服务器出现故障，基于故障数据以及所述服务器知识图谱确定与故障相关的信息。

在一种具体的实现方式中，所述装置还包括：预测单元；

所述预测单元，用于获取任一硬件的日志数据，基于所述日志数据以及所述服务器知识图谱预测所述硬件的使用寿命和/或所述硬件可能产生的故障。

在一种具体的实现方式中，所述提取单元，具体用于根据预先定义的实体库中所述日志数据中提取多个实体名称；将所述多个实体名称中指代同一实体的实体名称进行统一化处理。

在一种具体的实现方式中，所述获取单元，具体还用于对所述各个实体进行分类，获取所述各个实体中每个实体的分类结果，所述分类结果包括硬件和硬件属性，所述硬件属性用于指示所述硬件对应的配置信息。

在一种具体的实现方式中，所述日志数据包括带内日志数据和带外日志数据，所述带内日志数据通过监控软件收集，所述带外日志数据通过基板管理控制器BMC收集。

需要说明的是，本实施例中各个单元的实现可以参见上述方法实施例中的相关描述，本实施例在此不再赘述。

另外，本申请实施例还提供了一种电子设备，包括：处理器，存储器；

所述存储器，用于存储计算机可读指令或者计算机程序；

所述处理器，用于读取所述计算机可读指令或所述计算机程序，以使得所述设备实现所述的服务器故障分析方法。

本申请实施例提供了一种计算机可读存储介质，包括指令或计算机程序，当其在计算机上运行时，使得计算机执行所述的服务器故障分析方法。

本申请实施例提供了一种计算机程序产品，所述计算机程序产品在处理器上运行时，实现所述的服务器故障分析方法。

需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统或装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种服务器故障分析方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述与故障相关的信息包括故障原因、故障点以及一个或多个目标模块的标识，所述一个或多个目标模块为预测的可能发生故障的模块。

3.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求1-3任一项所述的方法，其特征在于，所述服务器知识图谱存储到Neo4j图形数据库中。

5.根据权利要求1-4任一项所述的方法，其特征在于，所述根据预先定义的实体库从所述日志数据中提取各个实体，包括：

6.根据权利要求1-5任一项所述的方法，其特征在于，所述方法还包括：

7.根据权利要求1-6任一项所述的方法，其特征在于，所述日志数据包括带内日志数据和带外日志数据，所述带内日志数据通过监控软件收集，所述带外日志数据通过基板管理控制器BMC收集。

8.一种服务器故障分析装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括：处理器，存储器；

所述存储器，用于存储计算机可读指令或者计算机程序；

所述处理器，用于读取所述计算机可读指令或所述计算机程序，以使得所述设备实现如权利要求1-7中任意一项所述的服务器故障分析方法。

10.一种计算机可读存储介质，包括指令或计算机程序，当其在计算机上运行时，使得计算机执行以上权利要求1-7任意一项所述的服务器故障分析方法。