CN117454190A

CN117454190A - 日志数据分析方法和装置

Info

Publication number: CN117454190A
Application number: CN202311168537.4A
Authority: CN
Inventors: 雷小辉; 马坤; 童小敏; 赵培源
Original assignee: Xi'an Clover Cyber Technology Co ltd
Current assignee: Xi'an Clover Cyber Technology Co ltd
Priority date: 2023-09-11
Filing date: 2023-09-11
Publication date: 2024-01-26

Abstract

本发明公开了一种日志数据分析方法和装置，该方法包括：获取当前日志数据集；其中，当前日志数据集中包括至少一种日志类型对应的当前日志数据，且当前日志数据集中包括多条当前日志数据；将当前日志数据集输入至预设日志分析模型中进行计算，生成与当前日志数据集中的各条当前日志数据对应的分析结果。本方案通过预设日志分析模型对当前日志数据集中的多条当前日志数据进行处理分析，实现了对当前日志数据的批量处理，提高了进行日志数据分析的效率；另外，由于可以直接通过预先训练得到的预设日志分析模型对当前日志数据集进行分析，就能够得到与各条当前日志数据对应的分析结果，进一步提高了进行日志数据分析的准确性及效率。

Description

日志数据分析方法和装置

技术领域

本发明涉及网络安全技术领域，尤其涉及日志数据分析方法和装置。

背景技术

随着计算机网络技术的不断发展，在系统运行过程中，为了记录系统的操作、异常等行为，通常将在系统的运行过程中发生的一些时间记录在日志数据中，以便在需要时查阅日志数据。而原始的日志数据不能直接提供有效信息，需要对日志数据进行分析后，才能够提取出相应的有效信息。

传统地，在对日志数据进行分析时，通常是基于特定的日志格式，对采用该日志格式的日志数据进行分析，从而得到分析结果。

然而，采用上述日志数据分析的方式存在效率较低的问题。

发明内容

本发明旨在至少解决现有技术中存在的技术问题，为此，本发明第一方面提出一种日志数据分析方法，该方法包括：

获取当前日志数据集；其中，当前日志数据集中包括至少一种日志类型对应的当前日志数据，且当前日志数据集中包括多条当前日志数据；

将当前日志数据集输入至预设日志分析模型中进行计算，生成与当前日志数据集中的各条当前日志数据对应的分析结果。

在一种可能的实施方式中，将当前日志数据集输入至预设日志分析模型中进行计算，生成与当前日志数据集中的各条当前日志数据对应的分析结果，包括：

针对当前日志数据集中的各条当前日志数据，采用预设日志分析模型中的预处理器模块对当前日志数据进行计算，生成当前预处理结果；

采用预设日志分析模型中的预设卷积神经网络模型对当前预处理结果进行计算，得到第一计算结果；

对当前日志数据与预设日志数据集中的历史日志数据进行相似度计算，得到第二计算结果；其中，预设日志数据集中包括多种日志类型分别对应的多条历史日志数据；

基于第一计算结果及第二计算结果，生成与当前日志数据集中的各条当前日志数据对应的分析结果。

在一种可能的实施方式中，当前预处理结果包括日志关联集、日志关联序列及日志关联度，第一计算结果包括当前预处理结果、当前日志数据对应的日志种类及事件类型，第二计算结果包括当前日志数据的可信度；其中，日志关联集中包括与当前日志数据关联的其他当前日志数据，日志关联序列包括与当前日志数据关联的日志数据序列，日志关联度用于表征日志关联序列中的各日志数据序列与当前日志数据的关联程度。

在一种可能的实施方式中，针对当前日志数据集中的各条当前日志数据，采用预设日志分析模型中的预处理器模块对当前日志数据进行计算，生成当前预处理结果，包括：

针对当前日志数据集中的各种日志类型，提取与日志类型对应的特征数据；

基于当前日志数据集及特征数据，获取与当前日志数据集对应的标注数据；

针对当前日志数据集中的各条当前日志数据，基于标注数据计算当前日志数据的当前预处理结果。

在一种可能的实施方式中，预设卷积神经网络模型的构建过程，包括：

获取日志数据样本集及与日志数据样本集对应的历史预处理结果；其中，日志数据样本集是基于预设日志数据集确定的，历史预处理结果是基于预处理器模块对日志数据样本集进行计算后所生成的；

确定目标卷积核大小，并基于目标卷积核大小及初始卷积神经网络模型生成中间卷积神经网络模型；其中，初始卷积神经网络模型为包括初始化参数的模型；

将日志数据样本集及历史预处理结果输入至中间卷积神经网络模型中进行训练，生成预设卷积神经网络模型。

在一种可能的实施方式中，获取日志数据样本集，包括：

获取预设日志数据集；

针对预设日志数据集中的各种日志类型，提取与日志类型对应的特征数据；

基于预设日志数据集及特征数据，获取与预设日志数据集对应的标注数据；

基于标注数据，生成日志数据样本集。

在一种可能的实施方式中，初始化参数包括最大关联系数，确定目标卷积核大小，包括：

针对日志数据样本集中的各条日志数据样本，基于标注数据获取日志数据样本对应的多个后继关联日志及后继关联日志的数量；

获取日志数据样本对应的各后继关联日志的平均长度值及总长度值；

基于最大关联系数、后继关联日志的数量、平均长度值及总长度值，确定目标卷积核大小。

本发明第二方面提出一种日志数据分析装置，该装置包括：

获取模块，用于获取当前日志数据集；其中，当前日志数据集中包括至少一种日志类型对应的当前日志数据，且当前日志数据集中包括多条当前日志数据；

生成模块，用于将当前日志数据集输入至预设日志分析模型中进行计算，生成与当前日志数据集中的各条当前日志数据对应的分析结果。

在一种可能的实施方式中，上述生成模块具体用于：

在一种可能的实施方式中，上述生成模块还用于：

在一种可能的实施方式中，上述日志数据分析装置还用于：

获取预设日志数据集；

基于标注数据，生成日志数据样本集。

在一种可能的实施方式中，上述日志数据分析装置还用于：

本发明第三方面提出一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如第一方面所述的日志数据分析方法。

本发明第四方面提出一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如第一方面所述的日志数据分析方法。

本发明实施例具有以下有益效果：

本发明实施例提供的日志数据分析方法及装置，该方法包括：获取当前日志数据集；其中，当前日志数据集中包括至少一种日志类型对应的当前日志数据，且当前日志数据集中包括多条当前日志数据；将当前日志数据集输入至预设日志分析模型中进行计算，生成与当前日志数据集中的各条当前日志数据对应的分析结果。本方案通过预设日志分析模型对当前日志数据集中的多条当前日志数据进行处理分析，实现了对当前日志数据的批量处理，提高了进行日志数据分析的效率；另外，由于可以直接通过预先训练得到的预设日志分析模型对当前日志数据集进行分析，就能够得到与各条当前日志数据对应的分析结果，进一步提高了进行日志数据分析的准确性及效率。

附图说明

图1为本申请实施例提供的一种计算机设备的框图；

图2为本发明实施例提供的日志数据分析方法的步骤流程图；

图3为本发明实施例提供的一种生成分析结果的步骤流程图；

图4为本发明实施例提供的一种生成当前预处理结果的步骤流程图；

图5为本发明实施例提供的一种构建预设卷积神经网络模型的步骤流程图；

图6为本发明实施例提供的一种生成日志数据样本集的步骤流程图；

图7为本发明实施例提供的一种确定目标卷积核大小的步骤流程图；

图8为本发明实施例提供的一种日志数据分析方法的整体框架图；

图9为本发明实施例提供的日志数据分析装置的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本公开实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。另外，“基于”或“根据”的使用意味着开放和包容性，因为“基于”或“根据”一个或多个所述条件或值的过程、步骤、计算或其他动作在实践中可以基于额外条件或超出所述的值。

本申请提供的日志数据分析方法可以应用于计算机设备(电子设备)中，计算机设备可以是服务器，也可以是终端，其中，服务器可以为一台服务器也可以为由多台服务器组成的服务器集群，本申请实施例对此不作具体限定，终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。

以计算机设备是服务器为例，图1示出了一种服务器的框图，如图1所示，服务器可以包括通过系统总线连接的处理器和存储器。其中，该服务器的处理器用于提供计算和控制能力。该服务器的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序以及数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机程序被处理器执行时以实现一种日志数据分析方法。

本领域技术人员可以理解，图1中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的服务器的限定，可选地服务器可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

需要说明的是，本申请实施例的执行主体可以是计算机设备，也可以是日志数据分析装置，下述方法实施例中就以计算机设备为执行主体进行说明。

图2为本发明实施例提供的日志数据分析方法的步骤流程图。如图2所示，该方法包括以下步骤：

步骤202、获取当前日志数据集。

在对日志数据进行分析时，需要先获取当前日志数据集，当前日志数据集中包括至少一种日志类型对应的当前日志数据，且当前日志数据集中包括多条当前日志数据。可选地，当前日志数据集的类型可以包括但不限于操纵日志数据、网络日志、应用程序日志等。

在获取当前日志数据集时，可以从各种系统、应用程序中获取到多种日志数据，从而形成当前日志数据集。

步骤204、将当前日志数据集输入至预设日志分析模型中进行计算，生成与当前日志数据集中的各条当前日志数据对应的分析结果。

其中，预设日志分析模型是用于对当前日志数据集进行计算，从而得到分析结果的模型。在获取到当前日志数据集后，可以将当前日志数据集输入至预设日志分析模型中进行计算，从而生成与当前日志数据集中的各条当前日志数据对应的分析结果。

在一些可选地实施例中，如图3所示，图3为本发明实施例提供的一种生成分析结果的步骤流程图，包括：

步骤302、针对当前日志数据集中的各条当前日志数据，采用预设日志分析模型中的预处理器模块对当前日志数据进行计算，生成当前预处理结果。

其中，预处理器模块是用于计算当前日志数据对应的日志关联集、日志关联序列及日志关联度的处理器。当前预处理结果可以包括各条当前日志数据对应的日志关联集、日志关联序列及日志关联度。其中，日志关联集中包括与当前日志数据关联的其他当前日志数据，日志关联序列包括与当前日志数据关联的日志数据序列，日志数据序列中的各当前日志数据具有一定的顺序，日志关联度用于表征日志关联序列中的各日志数据序列与当前日志数据的关联程度。

在一些可选地实施例中，需要对预处理器模块进行预先构建，具体构建过程可以包括：先收集预设日志数据集，预设日志数据集中可以包括多种日志类型分别对应的多条历史日志数据。其中，可以从各种系统及应用程序中收集大量历史日志数据，日志类型可以包括但不限于操纵日志数据、网络日志、应用程序日志等，每一种日志类型对应的历史日志数据的数据量至少在数十万条。

接着，需要对获取到的预设日志数据集中的历史日志数据进行数据预处理，数据预处理的过程可以包括但不限于清洗、去重、编码、统一量纲、去噪等过程。

针对进行数据预处理后的预设日志数据集，需要提取每一种日志类型对应的特征数据，接着基于特征数据进行数据标注，生成标注数据。该提取特征数据的过程可以采用相关特征提取算法实现，该数据标注的过程可以通过专家进行标注，数据标注的过程可以包括标注预设日志数据集中各历史日志数据的唯一编号、上述特征数据对应的特征值、各历史日志数据对应的日志类型、事件类型、后继关联日志及关联度。

其中，各历史日志数据对应的日志类型即为上述操纵日志数据、网络日志、应用程序日志等类型，事件类型可以包括但不限于错误事件、告警事件、信息事件和调试事件等，后继关联日志即为与该历史日志数据有一定相关度的其他历史日志数据，关联度即为与该历史日志数据的相关程度值。

从而基于上述标注数据计算各历史日志数据的历史预处理结果，历史预处理结果可以包括日志关联集、日志关联序列及日志关联度。其中，日志关联集中包括与历史日志数据关联的其他历史日志数据，日志关联序列包括与历史日志数据关联的日志数据序列，日志关联度用于表征日志关联序列中的各日志数据序列与历史日志数据的关联程度。

其中，上述日志关联度z可以通过公式(1)计算得到。

其中，z为日志关联度，k为日志关联序列中的各日志数据序列与历史日志数据之间的距离，例如，与历史日志数据相邻时，则k＝1；若与历史日志数据间隔一个日志数据序列，则k＝2。

上述计算日志关联集、日志关联序列及日志关联度的过程即为预处理器模块所要执行的步骤，将预处理器模块进行封装后，即可融合至预设日志分析模型中。预处理器模块封装的过程可以包括但不限于异常处理、稀疏矩阵优化、输入参数值域确定、参数格式校验等过程。

进而，在构建完成预处理器模块后，采用预设日志分析模型中的预处理器模块对当前日志数据进行计算，生成当前预处理结果时，如图4所示，图4为本发明实施例提供的一种生成当前预处理结果的步骤流程图，包括：

步骤402、针对当前日志数据集中的各种日志类型，提取与日志类型对应的特征数据。

步骤404、基于当前日志数据集及特征数据，获取与当前日志数据集对应的标注数据。

步骤406、针对当前日志数据集中的各条当前日志数据，基于标注数据计算当前日志数据的当前预处理结果。

其中，当前日志数据集中的各种日志类型可以包括但不限于操纵日志数据、网络日志、应用程序日志等，每一种日志类型都要对应的特征数据，可以采用相关特征提取算法提取与日志类型对应的特征数据。

基于当前日志数据集及特征数据，可以获取与当前日志数据集对应的标注数据，数据标注的过程可以包括标注当前日志数据集中各当前日志数据的唯一编号、上述特征数据对应的特征值、各当前日志数据对应的日志类型、事件类型、后继关联日志及关联度。

从而可以针对当前日志数据集中的各条当前日志数据，计算日志关联集、日志关联序列及日志关联度这三种数据，即作为当前日志数据的当前预处理结果。具体计算的过程可以参考上述预处理器模块的构建过程，在此不再赘述。

本实施例中，通过计算当前日志数据的当前预处理结果，即日志关联集、日志关联序列及日志关联度这三种数据，可以充分考虑日志数据之间的关联关系和日志数据序列关系，由于单独日志的分析无法挖掘日志数据之间的内在联系，日志数据的产生是多维度、多场景的，只有在较全面的场景下分析日志，才能最大限度的从日志数据中分析出更加有意义的信息，因此，采用本实施例中的方式可以准确计算当前日志数据的当前预处理结果，从而提高后续对日志进行分析的准确性。

步骤304、采用预设日志分析模型中的预设卷积神经网络模型对当前预处理结果进行计算，得到第一计算结果。

其中，预设卷积神经网络模型的构建过程如图5所示，图5为本发明实施例提供的一种构建预设卷积神经网络模型的步骤流程图，包括：

步骤502、获取日志数据样本集及与日志数据样本集对应的历史预处理结果。

步骤504、确定目标卷积核大小，并基于目标卷积核大小及初始卷积神经网络模型生成中间卷积神经网络模型。

步骤506、将日志数据样本集及历史预处理结果输入至中间卷积神经网络模型中进行训练，生成预设卷积神经网络模型。

其中，日志数据样本集是基于预设日志数据集确定的，历史预处理结果是基于预处理器模块对日志数据样本集进行计算后所生成的，历史预处理结果也可以包括日志关联集、日志关联序列及日志关联度这三种数据。日志数据样本集的生成过程如图6所示，图6为本发明实施例提供的一种生成日志数据样本集的步骤流程图，包括：

步骤602、获取预设日志数据集。

步骤604、针对预设日志数据集中的各种日志类型，提取与日志类型对应的特征数据。

步骤606、基于预设日志数据集及特征数据，获取与预设日志数据集对应的标注数据。

步骤608、基于标注数据，生成日志数据样本集。

其中，预设日志数据集中包括多种日志类型分别对应的多条历史日志数据，针对预设日志数据集中的各种日志类型，每一种日志类型都要对应的特征数据，可以采用相关特征提取算法提取与日志类型对应的特征数据。预设日志数据集中的各种日志类型也可以包括但不限于操纵日志数据、网络日志、应用程序日志等。

基于预设日志数据集及特征数据，可以获取与预设日志数据集对应的标注数据，数据标注的过程可以包括标注预设日志数据集中各历史日志数据的唯一编号、上述特征数据对应的特征值、各历史日志数据对应的日志类型、事件类型、后继关联日志及关联度。

接着，可以将上述标注后的数据采用词嵌入技术进行数字化后，得到日志数据样本集，该日志数据样本集用于后续生成预设卷积神经网络模型。

本实施例中，通过包括多种日志类型以及各种日志类型对应的大量日志数据的预设日志数据集，来生成日志数据样本集，使得所生成的日志数据样本集的数据种类更多样化，可以提高数据的全面性，提高了后续训练得到的预设卷积神经网络模型的准确性。

由于初始卷积神经网络模型为包括初始化参数的模型，通常初始化参数可以包括设置模型的误差阈值b、迭代次数c、最大关联系数k、可变卷积层层数r等参数。在构建初始卷积神经网络模型时，可以通过标准一般的卷积神经网络模型(Convolutional NeuralNetworks，简称CNN)，该CNN模型具有输入层、若干卷积层、隐藏层和输出层。

在一些可选地实施例中，可以将初始卷积神经网络模型中的每个卷积层抽象为动态卷积层，即对卷积层中的卷积核大小进行动态调整，如图7所示，图7为本发明实施例提供的一种确定目标卷积核大小的步骤流程图，包括：

步骤702、针对日志数据样本集中的各条日志数据样本，基于标注数据获取日志数据样本对应的多个后继关联日志及后继关联日志的数量。

步骤704、获取日志数据样本对应的各后继关联日志的平均长度值及总长度值。

步骤706、基于最大关联系数、后继关联日志的数量、平均长度值及总长度值，确定目标卷积核大小。

其中，目标卷积核大小可以包括宽度a0和高度a1，其中，宽度a0通常是一个由经验预先确定的固定数值，例如，可以为3、5、7。高度a1需要通过计算得到。

在计算高度a1时，由于在数据标注过程中已经对所有历史日志数据标注了后继关联日志，从而针对日志数据样本集中的各条日志数据样本，基于标注数据先获取到日志数据样本对应的多个后继关联日志及后继关联日志的数量s0。

接着，可以根据各后继关联日志的长度值len(si)，计算日志数据样本对应的各后继关联日志的平均长度值avg(len(si))及总长度值sum(len(si))。其中，si表示日志数据样本在日志关联集中的第i条日志数据，假设日志关联集中有10条日志数据，那么i的取值范围即为(1，10)。需要说明的是，这里的日志关联集是采用预处理器模块对日志数据样本集进行计算得到的，也即历史预处理结果中所包含的日志关联集。

再基于最大关联系数k、后继关联日志的数量s0、平均长度值avg(len(si))及总长度值sum(len(si))，采用公式(2)计算得到确定高度a1时所需要用到的一个参数a2。

a2＝min(k,s0)*avg(len(si))/sum(len(si)) (2)

计算得到参数a2后，可以基于公式(3)计算高度a1，即高度a1为3～24之间的一个动态数字。

a1＝max(3,min(a2,24)) (3)

在得到宽度a0和高度a1后，即可确定每个卷积层的目标卷积核大小，从而目标卷积核大小及初始卷积神经网络模型生成中间卷积神经网络模型。

另外，还可以对初始卷积神经网络模型的输入层进行改进，由于初始卷积神经网络模型的输入层仅支持特定格式和参数的输入，因此需要对其进行增强。从而可以将日志数据样本集及历史预处理结果融合为输入参数，输入至中间卷积神经网络模型中进行训练，生成预设卷积神经网络模型。通过在训练模型时的输入参数中引入日志数据的关联度，在训练中可以表征日志数据之间关系的不同重要程度，使用不同重要程度表征日志数据之间的不同权重，具有更好的业务意义。

由于日志数据样本集可以划分为训练集和测试集，因此可以将训练集及训练集对应的历史预处理结果融合后，对中间卷积神经网络模型中进行训练，训练后采用测试集及测试集对应的历史预处理结果进行测试，若满足预设条件，例如达到所设置的误差阈值b，则停止训练生成预设卷积神经网络模型，若不满足预设条件则需要继续进行模型训练，直到满足预设条件。

进而，在构建成功预设卷积神经网络模型后，可以将该预设卷积神经网络模型融合在预设日志分析模型中。在采用预设日志分析模型中的预设卷积神经网络模型对当前预处理结果进行计算，得到第一计算结果时，第一计算结果包括当前日志数据对应的日志类型、事件类型、后继关联日志及关联度。

需要说明的是，这里的日志类型即为上述操纵日志数据、网络日志、应用程序日志等类型，事件类型可以包括但不限于错误事件、告警事件、信息事件和调试事件等，后继关联日志即为与该当前日志数据有一定相关度的其他当前日志数据，关联度即为与该当前日志数据的相关程度值。

本实施例中，由于初始卷积神经网络模型具有参数共享、局部感受野、层次表示学习、数据增广等特性，常用于自然语言处理和图像处理领域，已经成为深度学习中的重要工具之一。通过基于对初始卷积神经网络模型的输入层和卷积层进行改进，既利用了初始卷积神经网络模型强大的文本处理能力，即命名实体识别、词义理解、降维等能力，又针对卷积层进行优化，增强了预设卷积神经网络模型针对多维日志数据，即当前日志数据集进行分析的能力。

步骤306、对当前日志数据与预设日志数据集中的历史日志数据进行相似度计算，得到第二计算结果。

其中，第二计算结果即为对当前日志数据与预设日志数据集中的历史日志数据进行相似度计算得到的相似度值，可选地，可以计算当前日志数据与预设日志数据集中的历史日志数据的余弦相似度。通常认为与历史日志数据越相似，则当前日志数据的可信度越高，及相似度值即可认为是当前日志数据的可信度。

由于预设日志数据集中的历史日志数据的数据量通常比较大，为了提高计算相似度值的效率，可选地，可以根据当前日志数据的数据长度与历史日志数据进行匹配，将与当前日志数据的数据长度相差较小或相同的部分历史日志数据确定出来，再将当前日志数据与匹配出来的部分历史日志数据进行相似度计算即可。

步骤308、基于第一计算结果及第二计算结果，生成与当前日志数据集中的各条当前日志数据对应的分析结果。

其中，在计算得到第二计算结果后，可以将第二计算结果融合到预设日志分析模型的分析结果中，从而可以基于第一计算结果及第二计算结果，生成与当前日志数据集中的各条当前日志数据对应的分析结果。也即该分析结果包括当前日志数据对应的日志类型、事件类型、后继关联日志、关联度及可信度。

本实施例中，首先通过将基于日志数据之间的内在关联关系和基于预设卷积神经网络模型的日志数据的本身含义信息联合起来进行分析，提高了预设日志分析模型对日志数据进行分析的能力以及准确性；另外，针对预设日志分析模型对训练集依赖性较大导致产生过拟合的问题，引入后续计算第二计算结果即得到当前日志数据对应的可信度，进一步提高了预设日志分析模型进行日志数据分析的准确性与可靠性。

图8为本发明实施例提供的一种日志数据分析方法的整体框架图，通过预设日志分析模型对当前日志数据集中的多条当前日志数据进行处理分析，实现了对当前日志数据的批量处理，提高了进行日志数据分析的效率；另外，由于可以直接通过预先训练得到的预设日志分析模型对当前日志数据集进行分析，就能够得到与各条当前日志数据对应的分析结果，进一步提高了进行日志数据分析的准确性及效率。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

图9为本发明实施例提供的一种日志数据分析装置的结构框图。

如图9所示，该日志数据分析装置900包括：

获取模块902，用于获取当前日志数据集；其中，所述当前日志数据集中包括至少一种日志类型对应的当前日志数据，且所述当前日志数据集中包括多条当前日志数据。

生成模块904，用于将所述当前日志数据集输入至预设日志分析模型中进行计算，生成与所述当前日志数据集中的各条所述当前日志数据对应的分析结果。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。上述日志数据分析装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块的操作。

在本申请的一个实施例中，提供了一种计算机设备，该计算机设备包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

在本申请的一个实施例中，处理器执行计算机程序时还实现以下步骤：

在本申请的一个实施例中，当前预处理结果包括日志关联集、日志关联序列及日志关联度，第一计算结果包括当前预处理结果、当前日志数据对应的日志种类及事件类型，第二计算结果包括当前日志数据的可信度；其中，日志关联集中包括与当前日志数据关联的其他当前日志数据，日志关联序列包括与当前日志数据关联的日志数据序列，日志关联度用于表征日志关联序列中的各日志数据序列与当前日志数据的关联程度。

获取预设日志数据集；

基于标注数据，生成日志数据样本集。

在本申请的一个实施例中，初始化参数包括最大关联系数，处理器执行计算机程序时还实现以下步骤：

本申请实施例提供的计算机设备，其实现原理和技术效果与上述方法实施例类似，在此不再赘述。

在本申请的一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

在本申请的一个实施例中，计算机程序被处理器执行时还实现以下步骤：

获取预设日志数据集；

基于标注数据，生成日志数据样本集。

在本申请的一个实施例中，初始化参数包括最大关联系数，计算机程序被处理器执行时还实现以下步骤：

本实施例提供的计算机可读存储介质，其实现原理和技术效果与上述方法实施例类似，在此不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种日志数据分析方法，其特征在于，所述方法包括：

获取当前日志数据集；其中，所述当前日志数据集中包括至少一种日志类型对应的当前日志数据，且所述当前日志数据集中包括多条当前日志数据；

将所述当前日志数据集输入至预设日志分析模型中进行计算，生成与所述当前日志数据集中的各条所述当前日志数据对应的分析结果。

2.根据权利要求1所述的方法，其特征在于，所述将所述当前日志数据集输入至预设日志分析模型中进行计算，生成与所述当前日志数据集中的各条所述当前日志数据对应的分析结果，包括：

针对所述当前日志数据集中的各条所述当前日志数据，采用所述预设日志分析模型中的预处理器模块对所述当前日志数据进行计算，生成当前预处理结果；

采用所述预设日志分析模型中的预设卷积神经网络模型对所述当前预处理结果进行计算，得到第一计算结果；

对所述当前日志数据与预设日志数据集中的历史日志数据进行相似度计算，得到第二计算结果；其中，所述预设日志数据集中包括多种日志类型分别对应的多条历史日志数据；

基于所述第一计算结果及所述第二计算结果，生成与所述当前日志数据集中的各条所述当前日志数据对应的分析结果。

3.根据权利要求2所述的方法，其特征在于，所述当前预处理结果包括日志关联集、日志关联序列及日志关联度，所述第一计算结果包括所述当前预处理结果、所述当前日志数据对应的日志种类及事件类型，所述第二计算结果包括所述当前日志数据的可信度；其中，所述日志关联集中包括与所述当前日志数据关联的其他当前日志数据，所述日志关联序列包括与所述当前日志数据关联的日志数据序列，所述日志关联度用于表征所述日志关联序列中的各日志数据序列与所述当前日志数据的关联程度。

4.根据权利要求2或3所述的方法，其特征在于，所述针对所述当前日志数据集中的各条所述当前日志数据，采用所述预设日志分析模型中的预处理器模块对所述当前日志数据进行计算，生成当前预处理结果，包括：

针对所述当前日志数据集中的各种日志类型，提取与所述日志类型对应的特征数据；

基于所述当前日志数据集及所述特征数据，获取与所述当前日志数据集对应的标注数据；

针对所述当前日志数据集中的各条所述当前日志数据，基于所述标注数据计算所述当前日志数据的当前预处理结果。

5.根据权利要求2或3所述的方法，其特征在于，所述预设卷积神经网络模型的构建过程，包括：

获取日志数据样本集及与所述日志数据样本集对应的历史预处理结果；其中，所述日志数据样本集是基于所述预设日志数据集确定的，所述历史预处理结果是基于所述预处理器模块对所述日志数据样本集进行计算后所生成的；

确定目标卷积核大小，并基于所述目标卷积核大小及初始卷积神经网络模型生成中间卷积神经网络模型；其中，所述初始卷积神经网络模型为包括初始化参数的模型；

将所述日志数据样本集及所述历史预处理结果输入至所述中间卷积神经网络模型中进行训练，生成所述预设卷积神经网络模型。

6.根据权利要求5所述的方法，其特征在于，所述获取日志数据样本集，包括：

获取预设日志数据集；

针对所述预设日志数据集中的各种日志类型，提取与所述日志类型对应的特征数据；

基于所述预设日志数据集及所述特征数据，获取所述与预设日志数据集对应的标注数据；

基于所述标注数据，生成所述日志数据样本集。

7.根据权利要求6所述的方法，其特征在于，所述初始化参数包括最大关联系数，所述确定目标卷积核大小，包括：

针对所述日志数据样本集中的各条日志数据样本，基于所述标注数据获取所述日志数据样本对应的多个后继关联日志及所述后继关联日志的数量；

获取所述日志数据样本对应的各所述后继关联日志的平均长度值及总长度值；

基于所述最大关联系数、所述后继关联日志的数量、所述平均长度值及所述总长度值，确定所述目标卷积核大小。

8.一种日志数据分析装置，其特征在于，所述装置包括：

获取模块，用于获取当前日志数据集；其中，所述当前日志数据集中包括至少一种日志类型对应的当前日志数据，且所述当前日志数据集中包括多条当前日志数据；

生成模块，用于将所述当前日志数据集输入至预设日志分析模型中进行计算，生成与所述当前日志数据集中的各条所述当前日志数据对应的分析结果。

9.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1-7任一项所述的日志数据分析方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1-7任一项所述的日志数据分析方法。