CN112698977B

CN112698977B - 服务器故障定位方法方法、装置、设备及介质

Info

Publication number: CN112698977B
Application number: CN202011609838.2A
Authority: CN
Inventors: 黄友俊; 李星; 吴建平; 李川
Original assignee: CERNET Corp
Current assignee: CERNET Corp
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2024-03-29
Anticipated expiration: 2040-12-29
Also published as: CN112698977A

Abstract

本公开提供一种服务器故障定位方法，包括：获取所述服务器的原始日志数据，提取所述原始日志数据中的纯文本信息；根据所述纯文本信息将所述原始日志数据划分为不同类别的日志事件，并根据所述不同类别的日志事件及所述原始日志数据生成第一日志数据；对所述第一日志数据进行向量化操作，将所述第一日志数据从文本格式转换为向量格式；获取故障问题，根据所述故障问题推导得到所述服务器发生该故障问题的所有可能故障原因，并将所述故障原因转化为故障向量；将所述向量格式的日志数据及所述故障向量输入动态记忆网络模型进行迭代计算，生成情节记忆，根据所述情节记忆生成故障分析结果。本公开还提供一种服务器故障定位装置、设备及介质。

Description

服务器故障定位方法方法、装置、设备及介质

技术领域

本公开涉及智能化运维技术领域，更具体地，涉及一种服务器故障定位方法方法、装置、设备及介质。

背景技术

随着现代服务器系统的日志的数量日益增加，日志数据呈现一种海量的态势。在应对这些海量的日志数据时候，借助于人工检测的传统日志分析方法无法满足现实生产的需要。这种传统日志分析的方法不仅浪费大量的人力，还会造成很多分析错误。

为了解决上述的问题，很多研究人员提出使用数据挖掘技术来实现自动化日志分析的方案，其中典型的方案包括自动化日志分析进行系统异常检测、程序验证和一些保证系统安全的方案。但是由于为了方便开发人员使用并且使得开发人员在开发时候更加灵活，开发人员通常被允许使用自定义的文本信息记录系统信息，也就是说这些从服务器的系统中获取的日志都是无格式的原始数据，其中包含很多干扰日志分析的信息。所以，在进行自动化日志分析之前，首先需要做的就是对这些原始日志数据进行数据解析，去除干扰日志分析的无关信息。

因此，在实现本公开构思的过程中，发明人发现现有技术至少包括以下技术缺陷：从服务器中获取的日志都是无格式的原始数据，其中包含很多干扰日志分析的信息，影响分析结果。大部分服务器日志的数据格式基本都是自然语言格式的文本数据，所以可以利用自然语言处理方面的深度学习模型进行日志分析。但是，由于日志数据都是文本格式，无法输入到深度学习模型进行训练和分析。缺乏一个适用于通过日志数据准确找出服务器故障原因的深度学习模型。通常情况下，深度学习模型通常有大量的权重参数，而权重参数的调节过程比较费时，所以深度学习模型的训练会消耗大量的时间。

发明内容

有鉴于此，本公开提供了一种服务器故障定位方法方法、装置、设备及介质。

本公开的一个方面提供了一种服务器故障定位方法，包括：获取所述服务器的原始日志数据，提取所述原始日志数据中的纯文本信息；根据所述纯文本信息将所述原始日志数据划分为不同类别的日志事件，并根据所述不同类别的日志事件及所述原始日志数据生成第一日志数据；对所述第一日志数据进行向量化操作，将所述第一日志数据从文本格式转换为向量格式；获取故障问题，根据所述故障问题推导得到所述服务器发生该故障问题的所有可能故障原因，并将所述故障原因转化为故障向量；将所述向量格式的日志数据及所述故障向量输入动态记忆网络模型进行迭代计算，生成情节记忆，根据所述情节记忆生成故障分析结果。

根据本公开的实施例，所述根据所述纯文本信息将所述原始日志数据划分为不同类别的日志事件，并根据所述不同类别的日志事件及所述原始日志数据生成第一日志数据包括：基于所述纯文本信息，将每条原始日志数据拆分为多个单词对；基于上述单词对，通过局部搜索策略将所述原始日志数据划分为多个日志数据组，其中，每个日志数据组包含的公共单词对的数量大于预设数值；根据每个日志数据组中的公共单词对生成其对应的日志事件，得生成日志事件列表；将每个日志数据组中各日志数据组标注为该日志数据组对应的日志事件，生成结构化日志列表；根据所述日志事件列表与结构化日志列表生成第一日志数据。

根据本公开的实施例，所述对所述第一日志数据进行向量化操作包括：构建Skip-Gram神经网络模型；获取训练日志数据；将所述训练日志数据输入所述Skip-Gram神经网络模型进行训练，使得所述Skip-Gram神经网络模型输出层输出的每个单词对应的概率与1之间差值的绝对值小于预设值；提取所述Skip-Gram神经网络模型的隐藏层的权重矩阵，建立嵌入空间映射；在所述嵌入空间映射中搜索所述第一日志数据中的每个单词对应的向量，将所述第一日志数据从文本格式转换为向量格式。

根据本公开的实施例，根据所述故障问题推导得到所述服务器发生该故障问题的所有可能故障原因包括：根据专家知识和/或领域知识建立推理规则；基于所述推理规则，生成发生所述故障问题的所有可能故障原因。

根据本公开的实施例，所述根据所述情节记忆生成故障分析结果包括：将所述情节记忆输入门控循环网络生成故障分析结果。

根据本公开的实施例，在所述将所述向量格式的日志数据及所述故障向量输入动态记忆网络模型进行迭代计算之前，所述方法还包括：获取训练数据集；采用训练数据集训练所述动态记忆网络模型，直至所述动态记忆网络模型损失函数不再降低。

根据本公开的实施例，采用梯度下降算法训练所述动态记忆网络模型。

本公开另一方面提供一种服务器故障定位装置，包括：获取模块，用于获取所述服务器的原始日志数据，提取所述原始日志数据中的纯文本信息；生成模块，用于根据所述纯文本信息将所述原始日志数据划分为不同类别的日志事件，并根据所述不同类别的日志事件及所述原始日志数据生成第一日志数据；转换模块，用于对所述第一日志数据进行向量化操作，将所述第一日志数据从文本格式转换为向量格式；推导模块，用于获取故障问题，根据所述故障问题推导得到所述服务器发生该故障问题的所有可能故障原因，并将所述故障原因转化为故障向量；计算模块，用于将所述向量格式的日志数据及所述故障向量输入动态记忆网络模型进行迭代计算，生成情节记忆，根据所述情节记忆生成故障分析结果。

本公开的另一个方面提供了一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序，其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上所述的方法。

本公开的另一方面提供了一种计算机可读存储介质，存储有计算机可执行指令，所述指令在被执行时用于实现如上所述的方法。

本公开的另一方面提供了一种计算机程序，所述计算机程序包括计算机可执行指令，所述指令在被执行时用于实现如上所述的方法。

附图说明

通过以下参照附图对本公开实施例的描述，本公开的上述以及其他目的、特征和优点将更为清楚，在附图中：

图1示意性示出了根据本公开实施例的可以实现服务器故障定位方法示例性系统架构100；

图2示意性示出了根据本公开实施例的服务器103的结构框图；

图3示意性示出了根据本公开实施例的服务器故障定位方法的流程图；

图4示意性示出了根据本公开实施例的基于改进的LogSig算法对日志数据进行解析的过程图。

图5示意性示出了根据本公开实施例的，Skip-Gram神经网络模型的结构框图；

图6示意性示出了根据本公开实施例的改进的动态记忆网络模型的结构框图；

图7示意性示出了根据本公开实施例的服务器故障定位装置的框图

图8示意性示出了根据本公开实施例的适于实现上文描述的方法的电子设备的框图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本公开实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。

本公开的实施例提供了一种服务器故障定位方法以及能够应用该方法的装置。该方法包括获取服务器的原始日志数据，提取原始日志数据中的纯文本信息。根据纯文本信息将原始日志数据划分为不同类别的日志事件，并根据不同类别的日志事件及原始日志数据生成第一日志数据。对第一日志数据进行向量化操作，将第一日志数据从文本格式转换为向量格式。获取故障问题，根据故障问题推导得到服务器发生该故障问题的所有可能故障原因，并将故障原因转化为故障向量。将向量格式的日志数据及故障向量输入动态记忆网络模型进行迭代计算，生成情节记忆，根据情节记忆生成故障分析结果。

图1示意性示出了根据本公开实施例的可以实现服务器故障定位方法示例性系统架构100。需要注意的是，图1所示仅为可以应用本公开实施例的系统架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。

如图1所示，根据该实施例的系统架构100可以包括数据库101、网络102和服务器103。网络102用以在数据库100和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型，例如有线和/或无线通信链路等等。

数据库100中例如可以存储有服务器的相关日志数据，网络102可以将相关日志数据输入服务器103，服务器103可以是提供各种服务的服务器，例如根据服务器的日志数据对服务器的故障进行定位。

图2示意性示出了根据本公开实施例的服务器103的结构框图。

如图3所示，服务器103上可以设有六个组成模块：输入模块210、无格式日志数据解析模块220、日志数据向量化模块230、模型训练模块240、日志分析模块250以及输出模块260。

根据本公开的实施例，整个框架中，模型训练需要的数据、日志分析需要的数据都是通过输入模块获取210。输入模块210主要是向用户提供上传原始日志数据的接口，用户通过提供的接口将用于模型训练的日志数据或者用于日志分析的日志数据上传到框架中。该部分的接口包括：训练数据上传接口、验证数据上传接口和分析数据上传接口。通过该模块上传的日志数据会被分离为原始日志数据和服务器故障数据，这两部分数据会被发送到无格式日志数据解析模块220。

根据本公开的实施例，由输入模块210发送到本模块的日志数据都是原始日志数据，这些原始日志数据中包含训练数据、验证数据和分析数据三种类型的数据。这些从服务器的系统日志中获取的数据都是无格式的原始日志数据，其中包含很多干扰模型训练过程和日志分析过程的文本信息，所以需要无格式日志数据解析模块将干扰文本信息去除掉，从而加快模型训练速率和提高日志分析的准确率。无格式日志数据解析模块220的主要功能可以是通过将原始日志数据中的不变部分和可变部分分离，来实现对系统事件关键信息的提取，进一步地将每条日志数据划分为特定的系统事件，从而去除干扰模型训练和日志分析的无关文本信息，最终加快模型训练速率和提高日志分析的准确率。

根据本公开的实施例，如果把每个单词用唯一的离散编码进行表示，所有文本数据会变得很稀疏，这通常意味着自然语言处理的系统需要更多的文本数据才能成功地训练模型。但是，如果使用向量来表示单词，在一个特定的空间中，存在关系的单词所对应的向量之间的距离会很小，系统可以通过这种向量之间的距离来获得单词之间关系的有用信息。所以在将无格式日志数据解析模块220解析后的日志数据输入到动态记忆网络模型训练和分析之前，需要将日志数据从文本格式转换为向量格式，也就是对日志数据进行向量化操作。日志数据向量化模块230的主要功能是通过计算单词向量的Skip-Gram模型，获得嵌入空间映射，根据该映射，将输入的日志数据中的单词用向量表示，然后将日志数据向量输入到动态记忆网络模型中训练和分析。

根据本公开的实施例，模型训练模块240的主要功能是构建该改进后的动态记忆网络模型，并且使用经过无格式日志数据解析模块220和日志数据向量化模块230处理后的日志数据向量训练该模型。在模型训练好之后，将模型持久化存储，便于日志分析模块调用。

根据本公开的实施例，日志分析模块250的主要功能是将经过无格式日志数据解析模块220和日志数据向量化模块230处理后的日志数据向量，输入到模型训练模块240训练好的改进后的动态记忆网络模型中进行日志分析，最终将服务器故障原因的分析结果输出到输出模块260。

根据本公开的实施例，服务器故障原因分析结果都是从输出模块260发送给用户，由日志分析模块输出的分析结果向量在本模块中通过嵌入空间映射转换为文本语句。然后用户通过本模块提供的输出接口，可以将分析结果输出到终端或者其他显示的地方。

应该理解，图1中的数据库、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的数据库、网络和服务器。

图3示意性示出了根据本公开实施例的服务器故障定位方法的流程图。

如图3所示，该服务器故障定位方法例如可以包括操作S301～S304。

在操作S301，获取服务器的原始日志数据，提取原始日志数据中的纯文本信息。

一般情况下，日志数据会用一组字段记录一个特定的系统事件，例如：“2008-12-1912：35：52，2552INFO dfs.DataNodeDataXceiver：10.251.194.213.50010Server blockblk_-7724713468912166542to/10.251.203.80”。这种日志数据timestamp(记录事件发生的时间)、verbosity level(表示事件的严重级别，比如例子中的INFO)和原始的信息内容(记录在系统操作时候发生了什么)。原始的日志数据的内容可以被分为两部分：不变部分和可变部分。不变部分主要由固定的纯文本组成，并且该部分在这种事件每次发生的时候都保持不变，所以这部分可以用来表示日志数据的事件类型。可变部分主要是表示运行时的一些信息，例如状态值和一些参数的值，比方说上面例子中的IP地址和端口是10.251.194.213：50010，这种可变部分在事件每次发生的时候会发生变化。因此，本公开的实施例通过提取原始日志数据中的纯文本信息以保证日志事件的类型。

在操作S302，根据纯文本信息将原始日志数据划分为不同类别的日志事件，并根据不同类别的日志事件及原始日志数据生成第一日志数据。

根据本公开的实施例，可以基于改进的LogSig算法对日志数据进行解析。该解析方法例如可以包括：基于纯文本信息，将每条原始日志数据拆分为多个单词对。基于上述单词对，通过局部搜索策略将原始日志数据划分为多个日志数据组，其中，每个日志数据组包含的公共单词对的数量大于预设数值。根据每个日志数据组中的公共单词对生成其对应的日志事件，得生成日志事件列表；将每个日志数据组中各日志数据组标注为该日志数据组对应的日志事件，生成结构化日志列表。根据日志事件列表与结构化日志列表生成第一日志数据。

例如，如图4所示，在图片中的原始日志数据是从Ama-zon EC2平台提取出的HDFS日志数据。这些日志数据是无格式的数据，主要包含原始的系统操作信息。在现实生产环境中，一个日志文件会包含几百万条这样类型的日志数据。在日志数据解析的过程中，首先是运用LogSig算法将原始日志数据中的不变部分(即固定的纯文本信息)和可变部分(例如图中的IP地址和端口信息)分离。然后所有不变部分信息可以划分成几种日志事件，然后每一条原始日志数据可以划分为对应的某个日志事件。举例来说，第一条原始日志数据被划分为日志事件1，该日志事件包含的内容是“BLOCK*NameSystem.addStoredBlock：blockMapupdated：*is added to*size*”。LogSig算法将原始日志数据分离为两个列表，一个是日志事件列表，一个是结构化日志列表，其中日志事件列表记录从原始日志数据中提取划分出的所有日志事件类型，结构化日志列表内包含的是每个原始日志数据记录和日志事件对应关系。在此基础上，还将根据结构化日志列表内的对应关系，将日志事件列表和结构化日志列表内容合并，输出一个经过解析后的日志数据，过程如图中虚线所示，

在操作S303，对第一日志数据进行向量化操作，将第一日志数据从文本格式转换为向量格式。

根据本公开的实施例，该格式转换的方法例如可以包括：构建Skip-Gram神经网络模型。获取训练日志数据。将训练日志数据输入Skip-Gram神经网络模型进行训练，使得Skip-Gram神经网络模型输出层输出的每个单词对应的概率与1之间差值的绝对值小于预设值。提取Skip-Gram神经网络模型的隐藏层的权重矩阵，建立嵌入空间映射；在嵌入空间映射中搜索第一日志数据中的每个单词对应的向量，将第一日志数据从文本格式转换为向量格式。

其中，Skip-Gram神经网络模型的结构如图5所示，输入是一个n维的向量，经过隐藏层神经元和Softmax分类器的处理后，输出一个n维的向量。n是系统预先定义的词汇表的单词数量，对于词汇表中的每个单词进行one-hot编码，那么每个单词就被转换为一个n维的向量，向量的每个维度的值只有0或者1，如果一个单词出现在词汇表中的第p个位置，那么该单词对应的向量就是一个第p维取值为1，其他维都是0的n维向量。神经网络中的输入向量就是每个单词对应的n维向量。“隐藏层内实际上是一个n*m的权重矩阵，其中n就是词汇表的单词数量，m是系统预先定义的特征维度，也就是说系统设定使用m个特征来表示一个单词，每个单词将被表示为m维的向量。该权重矩阵就是嵌入空间映射。神经网络的输出是一个n维向量，该向量包含的是n个概率值，每一个位置的概率值表示该位置对应的单词作为输出词的概率”。

下面以一个经过无格式日志数据解析模块解析后的日志数据“BLOCK*NameSystem.addStoredBlock：blockMap updated：*is added to*size*”为例子来说明上述基于Skip-Gram神经网络模型具体转换过程。

首先，需要从输入的用于训练Skip-Gram模型的文本数据中，生成(输入单词，输出单词)形式的训练数据。每次选取训练Skip-Gram模型的文本数据中的一个单词作为输入单词，例如选取例子中的“blockMap”为输入单词(input word)。其中，获取Skip-Gram模型训练数据的算法例如可以为：

一共生成batch_size大小的训练数据集

返回输入词列表和对应的输出词列表

return batch，abel.

其中，data表示用于训练Skip-Gram模型的文本数据，skip_window表示从当前输入单词的以便选取单词的数量，num_skip表示从窗口中选取多少各不同的单词作为输出单词，batch_size表示建立训练数据的数据集大小，batch表示选取的输入词列表，label表示和batch输入词对应的输出词列表。

基于上述算法，定义一个参数叫做skip_window，这个参数表示从当前输入单词的一边选取单词的数量。然后根据skip_window返回一个窗口的单词。如果skip_window参数被设置为1，那么得到的窗口中的单词(包括输入单词)是[‘addStoredBlock’，‘blockMap’，‘updated’]，该窗口的大小就是2*skip_window+1＝2*1+1＝3。再定义一个参数叫做num_skips，这个参数表示从2*skip_window+1窗口中选取多少个不同的单词作为输出单词(output word)，然后将输入单词和输出单词组合成(输入单词，输出单词)形式的训练数据。如果num_skips设置为2，那么得到的训练数据为(‘blockMap’，‘addStoredBlock’)和(‘blockMap’，‘updated’)。获得了Skip-Gram模型的训练数据之后，将训练数据输入到图5所示的神经网络中，经过神经网络不断调整隐藏层的权重矩阵，使得输出层中每个输出单词对应的概率尽可能接近1。例如，将(‘blockMap’，‘addStoredBlock’)和(‘blockMap’，‘updated’)训练数据集中的“addStoredBlock”和“updated”两个输出单词对应的概率尽可能接近1。训练完成后，将神经网络中隐藏层的权重矩阵输出，即获得了嵌入空间映射。

嵌入空间映射的建立完成之后，利用已经建立的嵌入空间映射，将输入的日志数据进行向量化操作。对于日志数据中文本语句的每个单词w，在已经建立的嵌入空间映射中搜索单词w对应的向量，如果存在该映射关系则返回对应的向量，不存在的话，则随机建立一个向量返回，并且更新嵌入空间映射。其算法例如可以为：

若嵌入空间映射中存在日志数据中文本语句的单词的映射

其中，E表示已建立的嵌入空间映射，w表示日志数据文本语句的单词，v表示日志数据中文本语句的单词对应的向量。

在操作S304中，获取故障问题，根据故障问题推导得到服务器发生该故障问题的所有可能故障原因，并将故障原因转化为故障向量，将向量格式的日志数据及故障向量输入动态记忆网络模型进行迭代计算，生成情节记忆，根据情节记忆生成故障分析结果。

根据本公开的实施例，可根据根据专家知识和/或领域知识建立推理规则。基于推理规则，生成发生故障问题的所有可能故障原因。

为了使动态记忆网络模型应用在日志分析方面的准确率更高，并且该模型在训练过程中收敛的速度更快，本公开的实施例在动态记忆网络模型中加入基于规则的推理模块，也就是将专家知识和/或领域知识引入到模型中。

该在动态记忆网络模型架构如图6所示，主要包括日志数据向量输入模块、基于规则的推理模块、服务器故障向量输入模块、情节记忆模块和分析结果输出模块这五个模块。

日志数据向量输入模块将上述通过解析及格式转化后的向量数据直接输入到情节记忆模块，参与情节记忆的生成过程。

服务器故障向量输入模块将服务器故障数据转换为向量数据，不需要做过多的操作，只需要将服务器故障的向量输入到基于规则的推理模块中进行推理即可。

基于规则的推理模块的主要功能是利用预先建立的规则将服务器故障向量进行替换，从而使得每次情节记忆产生的过程更加准确，并且希望能够加速整个情节记忆模块查找故障原因的速率。

基于规则的推理模块中的规则是人为创建，主要是通过专家知识和领域知识来构建，然后将这些预先建立的规则保存到一个存储器中，该存储器内主要存储服务器故障和故障对应的可能原因组成的键值对(key-value)，例如“服务器连接失败”和“服务器IP地址无效”构成一组服务器故障和故障原因键值对。在这种键值对的存储形式中，键是服务器故障向量，值是一个列表，该列表内保存服务器故障对应的可能原因的向量。因为服务器故障对应的可能原因会出现不止一种原因的情况，所以值使用一个列表保存对应的可能原因的向量。为了在推理过程中不会对同一个原因进行重复推理，值中列表内的每个元素都包含两个属性，一个属性是可能原因的向量，另一个属性是表示该原因是否已经推理过的标志位。

基于规则的推理过程算法例如可以为：

如果规则键值对集合不存在向量v^F对应的可能原因的向量列表

返回向量v^F本身

v←v^F

return v

其中，v^F表示服务器故障向量，R服务器故障和故障对应的可能原因组成的规则键值对集合，v表示故障对应的可能原因的向量。

也即，在规则键值对集合中查找服务器故障向量v^F是否有对应的可能原因的向量列表，如果规则键值对集合中存在向量v^F对应的可能原因的向量列表，在规则键值对集合中向量v^F对应的可能原因的向量列表中搜索，搜索到没有被推理过的可能原因的向量为止，然后将该向量作为返回值返回，该返回值将作为情节记忆模块中的服务器故障问题向量去生成新的情节记忆。如果规则键值对集合中不存在向量v^F对应的可能原因的向量列表，或者向量v^F对应的可能原因的向量列表中的向量都被推理过，那么就将向量v^F作为返回值返回。基于规则的推理过程可以提高模型的分析速度，并且提升模型分析的准确率。

情节记忆模块主要由注意力机制(attention mechanism)和门控循环网络组成，情节记忆模块迭代遍历经日志数据向量输入模块输出的日志数据向量序列，利用门控循环网络不断地更新情节记忆。在每次的迭代过程中，情节记忆模块通过注意力机制，根据当前迭代所对应的日志数据向量l服务器故障向量q和上一次迭代产生的记忆m^i-1，生成新的情节记忆eⁱ。如公式：需要注意的是，公式中的服务器故障向量q实际上是由基于规则的推理模块推理获得，该向量是故障对应的可能原因的向量。

并且，为了能够使得迭代日志数据向量能够终止，情节记忆模块中设定了最大的迭代次数，以此来避免情节记忆模块陷入死循环。

实质上，动态记忆网络模型中的情节记忆模块里面的每次迭代过程，是将日志数据向量输入模块的输出中的每条日志数据向量依次输入到门控循环网络中，并且每次都将服务器故障向量输入模块的输出作为额外的信息参与计算，最终输出这个门控循环网络的最后一个时间步长的隐藏状态。这个过程的目的是输出与问题向量语义最接近的事实向量，以此获得问题的答案。这个机制在处理简单的逻辑推理任务时可以取得很好的效果，但是在日志分析应用场景却存在缺陷。在日志分析应用场景中，输入的问题向量和该问题答案对应的向量可能在嵌入空间中的距离很远，换句话说就是输入的问题的答案和输入的问题中的单词可能语义相差很多，这种直接利用问题向量生成情节记忆的方案可能无法找到服务器故障的原因。举个例子来说，例如输入的问题是“服务器当机”，输入的事实数据是“进程A占用xxx内存”和“进程B向xxx发送xxx”等等类似这种的系统事件信息。如果直接利用动态记忆网络模型中的情节记忆模块生成情节记忆，那么所有事实数据在注意力机制中的得分都比较低，因为事实数据中的单词与“服务器当机”这个问题中的单词在语义上相差很多，所以在嵌入空间内对应的向量之间的距离也相差很多。但是，由于动态记忆网络模型中的情节记忆模块是根据问题向量和事实向量生成事实的分数，所以这种机制在日志分析这种应用场景中准确率会很低。于是，本公开将动态记忆网络模型中的情节记忆模块进行了修改，在每次的迭代过程中，不再让输入的问题向量q参与生成新的情节记忆e，而是在每次迭代之前，将输入的问题向量q经过基于规则的推理模块进行推理。该推理过程是通过推理模块中存储的预先建立的规则，将问题向量q对应的可能原因的向量作为返回值返回。也就是在每次迭代之前，问题向量q会被替换为可能原因的向量。接着前面提到的例子来说，在第一次迭代之前，输入的问题“服务器当机”会被替换为“内存占用过高”，然后情节记忆模块将利用“内存占用过高”对应的向量与“进程A占用xxx内存”和“进程B向xxx发送xxx”等日志数据对应的向量进行计算，最终确定“进程A占用xxx内存”是问题的答案，也就是服务器故障的原因。

分析结果输出模块的主要功能是根据情节记忆模块输出的最后的记忆向量，生成一个分析结果的向量。本模块使用门控循环网络来生成分析结果的向量。在每个时间步长t时，根据输入的问题向量q、上一次时间步长t-1的隐藏状态at-1和上一次时间步长t-1的分析结果向量yt-1，来生成当前时间步长t的分析结果向量yt”。需要注意的是，这里的问题向量q是情节记忆模块最后一次迭代中，基于规则的推理模块推理后的向量。

根据本公开的实施例，在将所述向量格式的日志数据及故障向量输入动态记忆网络模型进行迭代计算之前，方法还包括：获取训练数据集。采用训练数据集训练动态记忆网络模型，直至动态记忆网络模型损失函数不再降低。

具体的，训练过程可以看作是训练一个有监督的分类问题，目标函数使用的是交叉熵损失函数(cross-entropy loss function)，训练的目标就是最小化损失函数。整个改进后的动态记忆网络的训练使用梯度下降算法(gradient descent)。

通过本公开的实施例提供的故障定位方法，首先，通过使用LogSig算法把原始的无格式日志数据中的不变部分和可变部分分离，将所有不变部分信息被划分成几种日志事件，每一条原始日志数据被划分为对应的某个日志事件，并根据结构化日志列表内的对应关系，将日志事件列表和结构化日志列表合并，输出经过无格式日志数据解析后的日志数据，解决了现有技术中从服务器中获取的日志都是无格式的原始数据，其中包含很多干扰日志分析的信息，影响分析结果的问题。其次，通过训练Skip-Gram模型，获得嵌入空间映射，根据该映射，将日志数据从文本格式转换为向量格式，解决了现有技术中由于日志数据都是文本格式，无法输入到深度学习模型进行训练和分析的问题。最后，在动态记忆网络模型中加入基于规则的推理模块，也就是将专家知识引入到模型中，可使的日志分析方面的准确率更高，并且使得该改进的动态记忆网络模型在训练过程中收敛的速度更快，解决了现有技术中深度学习模型通常有大量的权重参数，而权重参数的调节过程比较费时，所以深度学习模型的训练会消耗大量的时间的问题。

基于同一发明构思，本公开实施例提供一种服务器故障定位装置。

图7示意性示出了根据本公开实施例的服务器故障定位装置的框图。

如图7所示，该服务器故障定位装置700例如可以包括：获取模块710、生成模块720、转换模块730、推导模块740及计算模块750。

获取模块710，用于获取服务器的原始日志数据，提取原始日志数据中的纯文本信息。

生成模块720，用于根据纯文本信息将所述原始日志数据划分为不同类别的日志事件，并根据不同类别的日志事件及原始日志数据生成第一日志数据。

转换模块730，用于对第一日志数据进行向量化操作，将第一日志数据从文本格式转换为向量格式。

推导模块740，用于获取故障问题，根据故障问题推导得到服务器发生该故障问题的所有可能故障原因，并将故障原因转化为故障向量。

计算模块750，用于将向量格式的日志数据及故障向量输入动态记忆网络模型进行迭代计算，生成情节记忆，根据情节记忆生成故障分析结果。

根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

例如，获取模块710、生成模块720、转换模块730、推导模块740及计算模块750中的任意多个可以合并在一个模块/单元/子单元中实现，或者其中的任意一个模块/单元/子单元可以被拆分成多个模块/单元/子单元。或者，这些模块/单元/子单元中的一个或多个模块/单元/子单元的至少部分功能可以与其他模块/单元/子单元的至少部分功能相结合，并在一个模块/单元/子单元中实现。根据本公开的实施例，获取模块710、生成模块720、转换模块730、推导模块740及计算模块750中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，获取模块710、生成模块720、转换模块730、推导模块740及计算模块750中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

需要说明的是，本公开的实施例中的服务器故障定位装置部分与本公开的实施例中服务器故障定位方法部分是相对应的，其具体实施细节及带来的技术效果也是相同的，在此不再赘述。

图8示意性示出了根据本公开实施例的适于实现上文描述的方法的电子设备的框图。图8示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图8所示，根据本公开实施例的电子设备800包括处理器801，其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。处理器801例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))，等等。处理器801还可以包括用于缓存用途的板载存储器。处理器801可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

在RAM 803中，存储有电子设备800操作所需的各种程序和数据。处理器801、ROM802以及RAM803通过总线804彼此相连。处理器801通过执行ROM 802和/或RAM 803中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意，所述程序也可以存储在除ROM802和RAM 803以外的一个或多个存储器中。处理器801也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。

根据本公开的实施例，电子设备800还可以包括输入/输出(I/O)接口805，输入/输出(I/O)接口805也连接至总线804。电子设备800还可以包括连接至I/O接口805的以下部件中的一项或多项：包括键盘、鼠标等的输入部分806；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807；包括硬盘等的存储部分808；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器810上，以便于从其上读出的计算机程序根据需要被安装入存储部分808。

根据本公开的实施例，根据本公开实施例的方法流程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读存储介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分809从网络上被下载和安装，和/或从可拆卸介质81l被安装。在该计算机程序被处理器801执行时，执行本公开实施例的系统中限定的上述功能。根据本公开的实施例，上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。

本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的方法。

根据本公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质。例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

例如，根据本公开的实施例，计算机可读存储介质可以包括上文描述的ROM 802和/或RAM 803和/或ROM 802和RAM 803以外的一个或多个存储器。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合，即使这样的组合或结合没有明确记载于本公开中。特别地，在不脱离本公开精神和教导的情况下，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。

以上对本公开的实施例进行了描述。但是，这些实施例仅仅是为了说明的目的，而并非为了限制本公开的范围。尽管在以上分别描述了各实施例，但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围，本领域技术人员可以做出多种替代和修改，这些替代和修改都应落在本公开的范围之内。

Claims

1.一种服务器故障定位方法，包括：

获取所述服务器的原始日志数据，提取所述原始日志数据中的纯文本信息；

根据所述纯文本信息将所述原始日志数据划分为不同类别的日志事件，并根据所述不同类别的日志事件及所述原始日志数据生成第一日志数据，包括：基于所述纯文本信息，将每条原始日志数据拆分为多个单词对；基于上述单词对，通过局部搜索策略将所述原始日志数据划分为多个日志数据组，其中，每个日志数据组包含的公共单词对的数量大于预设数值；根据每个日志数据组中的公共单词对生成其对应的日志事件，得生成日志事件列表；将每个日志数据组中各日志数据组标注为该日志数据组对应的日志事件，生成结构化日志列表；根据所述日志事件列表与结构化日志列表生成第一日志数据；

对所述第一日志数据进行向量化操作，将所述第一日志数据从文本格式转换为向量格式；

获取故障问题，根据所述故障问题推导得到所述服务器发生该故障问题的所有可能故障原因，并将所述故障原因转化为故障向量；其中，根据所述故障问题推导得到所述服务器发生该故障问题的所有可能故障原因包括：根据专家知识和/或领域知识建立推理规则；基于所述推理规则，生成发生所述故障问题的所有可能故障原因；

将所述向量格式的日志数据及所述故障向量输入动态记忆网络模型进行迭代计算，生成情节记忆，根据所述情节记忆生成故障分析结果。

2.根据权利要求1所述的服务器故障定位方法，其中，所述对所述第一日志数据进行向量化操作包括：

构建Skip-Gram神经网络模型；

获取训练日志数据；

将所述训练日志数据输入所述Skip-Gram神经网络模型进行训练，使得所述Skip-Gram神经网络模型输出层输出的每个单词对应的概率与1之间差值的绝对值小于预设值；

提取所述Skip-Gram神经网络模型的隐藏层的权重矩阵，建立嵌入空间映射；

在所述嵌入空间映射中搜索所述第一日志数据中的每个单词对应的向量，将所述第一日志数据从文本格式转换为向量格式。

3.根据权利要求1所述的服务器故障定位方法，其中，所述根据所述情节记忆生成故障分析结果包括：

将所述情节记忆输入门控循环网络生成故障分析结果。

4.根据权利要求1所述的服务器故障定位方法，在所述将所述向量格式的日志数据及所述故障向量输入动态记忆网络模型进行迭代计算之前，所述方法还包括：

获取训练数据集；

采用训练数据集训练所述动态记忆网络模型，直至所述动态记忆网络模型损失函数不再降低。

5.根据权利要求4所述的故障定位方法，其中，采用梯度下降算法训练所述动态记忆网络模型。

6.一种服务器故障定位装置，包括：

获取模块，用于获取所述服务器的原始日志数据，提取所述原始日志数据中的纯文本信息；

生成模块，用于根据所述纯文本信息将所述原始日志数据划分为不同类别的日志事件，并根据所述不同类别的日志事件及所述原始日志数据生成第一日志数据，包括：基于所述纯文本信息，将每条原始日志数据拆分为多个单词对；基于上述单词对，通过局部搜索策略将所述原始日志数据划分为多个日志数据组，其中，每个日志数据组包含的公共单词对的数量大于预设数值；根据每个日志数据组中的公共单词对生成其对应的日志事件，得生成日志事件列表；将每个日志数据组中各日志数据组标注为该日志数据组对应的日志事件，生成结构化日志列表；根据所述日志事件列表与结构化日志列表生成第一日志数据；

转换模块，用于对所述第一日志数据进行向量化操作，将所述第一日志数据从文本格式转换为向量格式；

推导模块，用于获取故障问题，根据所述故障问题推导得到所述服务器发生该故障问题的所有可能故障原因，并将所述故障原因转化为故障向量；其中，根据所述故障问题推导得到所述服务器发生该故障问题的所有可能故障原因包括：根据专家知识和/或领域知识建立推理规则；基于所述推理规则，生成发生所述故障问题的所有可能故障原因；

计算模块，用于将所述向量格式的日志数据及所述故障向量输入动态记忆网络模型进行迭代计算，生成情节记忆，根据所述情节记忆生成故障分析结果。

7.一种电子设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序，

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现权利要求1至5中任一项所述的方法。

8.一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器实现权利要求1至5中任一项所述的方法。