CN113282920A

CN113282920A - 日志异常检测方法、装置、计算机设备和存储介质

Info

Publication number: CN113282920A
Application number: CN202110595200.6A
Authority: CN
Inventors: 黄道旭; 赵星; 张之浩; 姜宇诠
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-05-28
Filing date: 2021-05-28
Publication date: 2021-08-20
Anticipated expiration: 2041-05-28
Also published as: CN113282920B

Abstract

本申请涉及安全监控领域，实现基于日志数据的数据量、时效性以及完整性等特性，有针对性地调用不同性能的日志分类模型对日志数据进行分类预测，提高了日志数据异常检测的效率与准确性。涉及一种日志异常检测方法、装置、计算机设备和存储介质，该方法包括：获取待检测的目标日志数据；将第一日志数据输入第一日志分类模型进行分类预测，获得第一日志数据对应的第一日志分类结果，以及将第二日志数据输入第二日志分类模型进行分类预测，获得第二日志数据对应的第二日志分类结果；根据第一日志分类结果与第二日志分类结果，确定目标日志数据中是否存在异常日志数据。此外，本申请还涉及区块链技术，目标日志数据可存储于区块链中。

Description

日志异常检测方法、装置、计算机设备和存储介质

技术领域

本申请涉及安全监控领域，尤其涉及一种日志异常检测方法、装置、计算机设备和存储介质。

背景技术

随着网络技术的普及，如何加强网络安全成为网络与信息建设中的紧要任务。在黑客的攻击型行为中，主机失陷是一个过程；黑客往往在信息收集、漏洞探测、漏洞验证等过程中有大量组合的敏感命令行，并且命令行之间有强相关性，包括隐藏网络代理字符串、攻击类字符串等等。由于日志数据记录这些命令行，因此可以通过日志数据检测出黑客的攻击型行为。现有日志数据检测过程中，常常采用特征匹配方法对单一或少量日志数据进行特征匹配，例如通过正则式进行特征匹配或简单统计实现对日志数据进行异常检测，这种特征匹配方法会导致误报率和漏报率较高。另外，这种特征匹配方法检测日志数据的效率低，对于海量日志数据，无法及时检测出异常的日志数据。

因此，如何提高日志数据异常检测的效率与准确性成为亟需解决的问题。

发明内容

本申请提供了一种日志异常检测方法、装置、计算机设备和存储介质，通过获取由不同采集周期采集得到的第一日志数据与第二日志数据，可以实现基于日志数据的数据量、时效性以及完整性等特性，有针对性地调用不同性能的日志分类模型对日志数据进行分类预测，提高了日志数据异常检测的效率与准确性。

第一方面，本申请提供了一种日志异常检测方法，所述方法包括：

获取待检测的目标日志数据，所述目标日志数据包括基于第一采集周期采集的第一日志数据以及基于第二采集周期采集的第二日志数据，所述第一采集周期大于所述第二采集周期；

将所述第一日志数据输入第一日志分类模型进行分类预测，获得所述第一日志数据对应的第一日志分类结果，以及将所述第二日志数据输入第二日志分类模型进行分类预测，获得所述第二日志数据对应的第二日志分类结果；

根据所述第一日志分类结果与所述第二日志分类结果，确定所述目标日志数据中是否存在异常日志数据。

第二方面，本申请还提供了一种日志异常检测装置，所述装置包括：

日志数据采集模块，用于获取待检测的目标日志数据，所述目标日志数据包括基于第一采集周期采集的第一日志数据以及基于第二采集周期采集的第二日志数据，所述第一采集周期大于所述第二采集周期；

分类预测模块，用于将所述第一日志数据输入第一日志分类模型进行分类预测，获得所述第一日志数据对应的第一日志分类结果，以及将所述第二日志数据输入第二日志分类模型进行分类预测，获得所述第二日志数据对应的第二日志分类结果；

异常数据确定模块，用于根据所述第一日志分类结果与所述第二日志分类结果，确定所述目标日志数据是否存在异常日志数据。

第三方面，本申请还提供了一种计算机设备，所述计算机设备包括存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于执行所述计算机程序并在执行所述计算机程序时实现如上述的日志异常检测方法。

第四方面，本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器实现如上述的日志异常检测方法。

本申请公开了一种日志异常检测方法、装置、计算机设备和存储介质，通过获取待检测的目标日志数据，可以得到基于第一采集周期采集的第一日志数据和基于第二采集周期采集的第二日志数据，由于第一采集周期大于第二采集周期，因此采集得到的第一日志数据的数据量较大、完整性较高但时效性低，采集得到的第二日志数据的数据量较小、完整性较低但时效性较高；通过将第一日志数据输入第一日志分类模型进行分类预测和将第二日志数据输入第二日志分类模型进行分类预测，实现基于日志数据的数据量、时效性以及完整性等特性，有针对性地调用不同性能的日志分类模型对日志数据进行分类预测，提高了日志数据异常检测的效率与准确性；通过根据第一日志分类结果与第二日志分类结果，确定目标日志数据中是否存在异常日志数据，可以根据异常日志数据及时地发现攻击型行为。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种日志异常检测方法的示意性流程图；

图2是本申请实施例提供的一种获取目标日志数据的示意图；

图3是本申请实施例提供的一种训练第一日志分类模型的子步骤的示意性流程图；

图4是本申请实施例提供的第一日志分类模型的示意图；

图5是本申请实施例提供的一种对目标日志数据进行分类预测的示意图；

图6是本申请实施例提供的一种将异常日志数据发送至预警服务器的示意性流程图；

图7是本申请实施例提供的一种日志异常检测装置的示意性框图；

图8是本申请实施例提供的一种计算机设备的结构示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。

应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

本申请的实施例提供了一种日志异常检测方法、装置、计算机设备和存储介质。其中，该日志异常检测方法可以应用于日志服务器中，通过获取由不同采集周期采集得到的第一日志数据与第二日志数据，可以实现基于日志数据的数据量、时效性以及完整性等特性，有针对性地调用不同性能的日志分类模型对日志数据进行分类预测，提高了日志数据异常检测的效率与准确性。

其中，日志服务器可以为独立的服务器，也可以为服务器集群。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

如图1所示，日志异常检测方法包括步骤S10至步骤S30。

步骤S10、获取待检测的目标日志数据，所述目标日志数据包括基于第一采集周期采集的第一日志数据以及基于第二采集周期采集的第二日志数据，所述第一采集周期大于所述第二采集周期。

需要说明的是，本申请实施例提供的日志异常检测方法可以应用于检测目标设备是否出现异常日志数据的场景中。其中，目标设备可以是具备安全需求的服务器或终端。例如，日志服务器可以与目标设备建立通信连接，获取待检测的目标日志数据，并对目标日志数据进行分类预测，从而可以确定目标日志数据是否存在异常日志数据。

在一些实施例中，获取待检测的目标日志数据，可以包括：与目标设备进行日志数据同步，获得目标设备的原始日志数据；基于第一采集周期，对原始日志数据进行采集，获得第一日志数据；基于第二采集周期，对原始日志数据进行采集，获得第二日志数据。

需要说明的是，目标设备可以包括客户端与服务端。其中，客户端可以是采集器软件，用于采集目标设备中的原始日志数据；服务端用于临时存储客户端采集的原始日志数据，例如存储7-10天的原始日志数据。服务端还可以与日志服务器进行日志数据同步，将临时存储的原始日志数据实时同步到日志服务器。其中，日志服务器可以存储海量数据。

请参阅图2，图2是本申请实施例提供的一种获取目标日志数据的示意图。如图2所示，日志服务器可以与目标设备中的服务端进行日志数据同步，获得目标设备的原始日志数据；日志服务器对原始日志数据进行采集，获取待检测的目标日志数据，并对目标日志数据进行分类预测，从而可以确定目标日志数据是否存在异常日志数据。然后，可以将异常日志数据发送至预警服务器中显示。

示例性的，原始日志数据如下所示：

'logcloud_archive':'true','agent_id':'766b783e9888e8a7','type':'monitor','ppuid':'0','path':'/usr/bin/bash','action':'add','uname':'root','group_name':'test','pname':'sh','input_type':'log','gname':'root','ppid':'31928','cmd':'masscan127.0.0.1','datatime':'1598255641','euname':'root','uid':'0','datatype':'proc_create','pppath':'/usr/sbin/crond','timestamp':'2020-08-24T07:25:44.997Z','severity':'0','os':'linux'。

在本申请实施例中，可以对采集完整的原始日志数据作为待检测的目标日志数据；还可以采集原始日志数据中的命令行字段以及命令行字段对应的明细信息作为待检测的目标日志数据。示例性的，得到的目标日志数据如下所示：

'cmd':'masscan127.0.0.1','datatime':'1598255641','euname':'root','uid':'0','datatype':'proc_create','pppath':'/usr/sbin/crond','timestamp':'2020-08-24T07:25:44.997Z','seve rity':'0','os':'linux'。其中，'cmd'表示命令行字段；'datatime'、'euname'、'uid'等字段为命令行字段对应的明细信息。

示例性的，可以基于第一采集周期，对原始日志数据进行采集，获得第一日志数据；基于第二采集周期，对原始日志数据进行采集，获得第二日志数据。其中，第一采集周期远大于第二采集周期。可以理解的是，基于第一采集周期采集的第一日志数据相当于实时采集日志数据，单次采集的数据量小，但第一日志数据的总数据量较大；基于第二采集周期采集的第二日志数据相当于定时采集日志数据，单次采集日志数据的数据量大于基于第一采集周期单次采集的数据量，但第二日志数据的总数据量较小。

示例性的，第一采集周期可以是1天，也可以是2天等等，例如采集的当天第0点至第24点的原始日志数据作为第一日志数据。第二采集周期可以是10分钟，也可以是1小时等等，例如采集当天第10点0分至第10点10分的原始日志数据作为第二日志数据。

为进一步保证上述原始日志数据的私密和安全性，上述原始日志数据可以存储于一区块链的节点中。

需要说明的是，长的采集周期，采集得到日志数据的数据量大且完整性高，可以提高日志数据异常检测的准确性；而短的采集周期，采集得到的日志数据的时效性高，可以及时检测出短时间内的异常日志数据，检测效率高；通过采用不同采集周期对原始日志数据进行采集，可以基于日志数据的数据量、时效性以及完整性等特性，有针对性地调用不同性能的日志分类模型对日志数据进行分类预测，进而可以提高日志异常检测的效率与准确性。

步骤S20、将所述第一日志数据输入第一日志分类模型进行分类预测，获得所述第一日志数据对应的第一日志分类结果，以及将所述第二日志数据输入第二日志分类模型进行分类预测，获得所述第二日志数据对应的第二日志分类结果。

在本申请实施例中，在对第一日志数据和第二日志数据进行分类预测之前，还可以分别对第一日志数据和第二日志数据进行预处理，获得预处理后的第一日志数据和预处理后的第二日志数据。然后，将预处理后的第一日志数据第一日志分类模型进行分类预测，将预处理后的第二日志数据第二日志分类模型进行分类预测。

示例性的，预处理可以包括字段解析、数据切分以及噪声去除中的至少一项。例如，可以对第一日志数据进行字段解析，也可以对第一日志数据进行字段解析和数据切分。

需要说明的是，字段解析是指解析日志数据中有价值的字符串数据，并单独存储为一个字段，比如解析日志数据中的明文密码、明文host地址等等。数据切分是指对日志数据中的特定字符进行切分。噪声去除还可以将日志数据中的连续重复命令行行为去除或移除系统命令行为等等。

通过对第一日志数据与第二日志数据进行预处理，可以去除日志数据中的无关信息以及提取有用信息，进而提高了后续的日志数据异常检测的准确性。

在一些实施例中，在预处理后的第一日志数据和预处理后的第二日志数据之后，还可以将预处理后的第一日志数据和预处理后的第二日志数据存储至Kafka系统。需要说明的是，Kafka系统是一种高吞吐量的分布式发布订阅消息系统，可以实时处理大量数据以满足各种需求场景。

通过将预处理后的第一日志数据和预处理后的第二日志数据存储至Kafka系统，便于后续通过计算引擎从Kafka系统中读取预处理后的第一日志数据和预处理后的第二日志数据，并输入对应的日志分类模型进行分类预测，提高了数据处理效率。

需要说明的是，第一日志分类模型与第二日志数据模型都是预先训练好的模型。在本申请实施例中，将详细说明如何对初始的第一日志分类模型进行训练至收敛，得到训练好的第一日志分类模型。

请参阅图3，图3是本申请实施例提供的一种训练第一日志分类模型的子步骤的示意性流程图，具体可以包括以下步骤S201至步骤S205。

步骤S201、获取待训练的样本日志数据，所述样本日志数据为基于所述第一采集周期采集的。

示例性的，可以将目标设备历史的原始日志数据，作为待训练的样本日志数据。其中，可以基于第一采集周期对历史的原始日志数据进行采集，得到样本日志数据。例如，可以采集时间长度为1天的原始日志数据，作为样本日志数据。

示例性的，可以对样本日志数据进行日志类别标注，得到携带日志类别标签的样本日志数据。其中，日志类别标签可以包括0和1。其中，0表示正常日志数据，1表示异常日志数据。

步骤S202、根据所述样本日志数据，确定每一轮训练的训练样本数据，将当前轮训练样本数据分别输入每个所述第一提升树模型与每个所述第二提升树模型进行日志分类训练，获得所述当前轮训练样本数据对应的第一训练结果与第二训练结果。

在一些实施例中，根据样本日志数据，确定每一轮训练的训练样本数据，可以包括：基于预设的向量化模型，对样本日志数据进行向量化，获得样本日志数据对应的样本词向量；将样本词向量确定为训练样本数据。

示例性的，向量化模型可以是BERT(Bidirectional Encoder Representationsfrom Transformer)模型，也可以是其它模型，在此不作限定。

请参阅图4，图4是本申请实施例提供的第一日志分类模型的示意图。如图4所示，第一日志分类模型可以包括至少一个第一提升树模型与至少一个第二提升树模型。其中，第一提升树模型可以是LightGBM模型；第二提升树模型可以是XGBoost模型。LightGBM模型是一种基于Histogram的决策树算法，数据处理速度快于XGBoost模型；XGBoost模型是以CART回归树为基学习器的梯度提升算法，学习效果更好。通过结合LightGBM模型和XGBoost模型各自的优点，可以使得第一日志分类模型的处理速度快、更加预测效果更好，适合处理数据总量较大的第一日志数据。

示例性的，第一提升树模型的个数与第二提升树模型的个数可以根据实际需求设定。例如，第一提升树模型的个数为5，第二提升树模型的个数为5。

示例性的，可以将当前轮训练样本数据分别输入每个第一提升树模型与每个第二提升树模型进行日志分类训练，获得当前轮训练样本数据对应的第一训练结果与第二训练结果。其中，第一训练结果、第二训练结果可以包括预测类别与预测类别对应的预测概率。

步骤S203、根据所述第一训练结果与所述第二训练结果，确定所述当前轮训练样本数据对应的目标训练结果。

在一些实施例中，根据第一训练结果与第二训练结果，确定当前轮训练样本数据对应的目标训练结果，可以包括：根据第一训练结果中的第一预测类别与第二训练结果中的第二预测类别，确定目标预测类别；对第一训练结果中的第一预测概率与第二训练结果中的第二预测概率进行累加，并对得到的累加值求平均值，获得平均预测概率；根据平均预测概率与目标预测类别，确定目标训练结果。

可以理解的是，由于将当前轮训练样本数据分别输入每个第一提升树模型与每个第二提升树模型进行日志分类训练，因此，第一训练结果中的第一预测类别与第二训练结果中的第二预测类别是相同的。例如，若第一训练结果中的第一预测类别为0，则第二训练结果中的第二预测类别也为0。此外，由于有多个第一提升树模型，对应的第一训练结果也有多个第一预测类别。例如，当第一提升树模型的个数为5，对应的第一预测类别可以是0，0，0，0，0。

示例性的，根据第一训练结果中的第一预测类别与第二训练结果中的第二预测类别，确定目标预测类别。例如，确定的目标预测类别为0。

示例性的，当第一训练结果中的第一预测概率分别为0.9，0.85，0.7，0.98，0.87；第二训练结果中的第二预测概率分别为0.84，0.85，0.75，0.95，0.83时，可以确定平均预测概率为0.852。从而可以确定目标训练结果为“0，0.852”。

步骤S204、基于预设的损失函数，确定所述目标训练结果对应的损失函数值。

示例性的，预设的损失函数可以包括但不限于0-1损失函数、绝对值损失函数、对数损失函数、平方损失函数以及指数损失函数等等。

示例性的，可以基于损失函数，根据目标训练结果与样本日志数据携带日志类别标签，确定对应的损失函数。其中，具体的计算过程，在此不作限定。

步骤S205、若所述损失函数值大于预设的损失值阈值，则调整每个所述第一提升树模型和每个所述第二提升树模型的参数，并进行下一轮训练，直至得到的损失函数值小于或等于所述损失值阈值，结束训练，得到训练好的所述第一日志分类模型。

其中，预设的损失值阈值可以根据实际情况进行设定，具体数值在此不作限定。

示例性的，可以通过梯度下降算法或反向传播算法，调整每个第一提升树模型和每个第二提升树模型的参数。

为进一步保证上述训练好的第一日志分类模型的私密和安全性，上述训练好的第一日志分类模型可以存储于一区块链的节点中。在需要使用第一日志分类模型时，可以从区块链节点中调用训练好的第一日志分类模型。

在本申请实施例中，在得到训练好的第一日志分类模型之后，可以将第一日志数据输入训练好的第一日志分类模型进行分类预测，得到第一日志分类结果。

示例性的，还可以对第二日志分类模型进行训练至收敛，得到训练好的第二日志分类模型。其中，第二日志分类模型可以是全连接神经网络模型，当然也可以是其它分类模型。需要说明的是，全连接神经网络模型的计算能力强、准确度高，但是计算速度较低，因此适合处理数据总量较小的第二日志数据。

示例性的，可以基于第二采集周期，对目标设备历史的原始日志数据进行采集；并将采集得到的日志数据作为样本日志数据，对第二日志分类模型进行训练至收敛，得到训练好的第二日志分类模型。其中，具体的训练过程，在此不作限定。

请参阅图5，图5是本申请实施例提供的一种对目标日志数据进行分类预测的示意图。如图5所示，可以将第一日志数据输入训练好的第一日志分类模型进行分类预测，得到第一日志分类结果；以及将第二日志数据输入训练好的第二日志分类模型进行分类预测，得到第二日志分类结果。然后根据第一日志分类结果与第二日志分类结果，判断目标日志数据中是否存在异常日志数据。在本申请实施例中，

在一些实施方式中，可以调用第一计算引擎，通过第一计算引擎将第一日志数据输入第一日志分类模型进行分类预测，获得第一日志分类结果。可以调用第二计算引擎，通过第二计算引擎将第二日志数据输入第二日志分类模型进行分类预测，获得第二日志分类结果。

示例性的，可以通过第一计算引擎，从Kafka系统中读取预处理后的第一日志数据，以及通过第二计算引擎，从Kafka系统中读取预处理后的第二日志数据。

示例性的，第一计算引擎可以是Spark计算引擎，第二计算引擎可以是Flink计算引擎。需要说明的是，Spark计算引擎和Flink计算引擎都支持批处理和流处理。其中，Spark计算引擎基于微批量处理，把流数据看成是一个个小的批处理数据块分别处理，延迟性只能做到秒级；因此，Spark计算引擎适用于数据量非常大而且逻辑复杂的批数据处理，并且对计算效率有较高要求的场景。Flink计算引擎基于每个事件处理，每当有新的数据输入都会立刻处理，是真正的流式计算，支持毫秒级计算。Flink计算引擎适用于各种需要非常低延迟(微秒到毫秒级)的实时数据处理场景。在本申请实施例中，由于第一日志数据的数据量较大且实时性要求较低，第二日志数据的数据量较小且实时性要求较高，因此，采用Spark计算引擎处理第一日志数据，采用Flink计算引擎处理第二日志数据。通过采用第一计算引擎和第二计算引擎，可以提高日志分类模型的分类预测的处理速度，节省时间。

在一些实施例中，将第一日志数据输入第一日志分类模型进行分类预测之前，还可以包括：将第一日志数据输入向量化模型进行向量化，获得第一日志数据对应的第一词向量。示例性的，可以将预处理后的第一日志数据输入BERT模型进行向量化，得到第一词向量；然后将第一词向量输入第一日志分类模型进行分类预测。

在一些实施例中，将第二日志数据输入第二日志分类模型进行分类预测之前，还可以包括：将第二日志数据输入向量化模型进行向量化，获得第二日志数据对应的第二词向量。示例性的，可以将预处理后的第二日志数据输入BERT模型进行向量化，得到第二词向量；然后将第二词向量输入第二日志分类模型进行分类预测。

需要说明的是，由于日志数据中存在大量不同语义的相同词组，因此通过将第一日志数据与第二日志数据分别输入BERT模型进行向量化，可以得到语义增强的第一词向量与第二词向量，从而可以提高日志分类模型进行日志分类的准确性。

示例性的，若第一日志数据包括日志数据1、日志数据2、日志数据3，则对应的第一日志分类结果可以为“0，0.95”，“1，0.8”，“0，0.85”。

示例性的，若第二日志数据包括日志数据4、日志数据5、日志数据6，则对应的第二日志分类结果可以为“1，0.95”，“0，0.83”，“0，0.86”。

步骤S30、根据所述第一日志分类结果与所述第二日志分类结果，确定所述目标日志数据中是否存在异常日志数据。

示例性的，对于第一日志分类结果与第二日志分类结果，可以将预测类别为1对应的日志数据，确定为异常日志数据。例如，将第一日志数据中的日志数据2以及第二日志数据中的日志数据4，确定为异常日志数据。

需要说明的是，异常日志数据是指具有攻击型行为的敏感命令行的日志数据。

通过根据第一日志分类结果与第二日志分类结果，可以准确地判断目标日志数据中是否存在异常日志数据，进而根据异常日志数据及时地发现攻击型行为，有效降低了误报率和漏报率。

在一些实施例中，在确定目标日志数据中是否存在异常日志数据之后，还可以包括：若确定目标日志数据存在异常日志数据，则将异常日志数据发送至搜索服务引擎，以使搜索服务引擎将异常日志数据同步至预警服务器，预警服务器用于显示异常日志数据。

示例性的，搜索服务引擎可以安装在日志服务器上，也可以安装在搜索服务器上。其中，搜索服务引擎可以是ElasticSearch引擎。Elasticsearch引擎是一个分布式可扩展的实时搜索和分析引擎，以JSON文档的形式存储数据。例如，每个文档都会在一组键(字段或属性的名称)和它们对应的值(字符串、数字、布尔值、日期、数值组、地理位置或其他类型的数据)之间建立联系。

请参阅图6，图6是本申请实施例提供的一种将异常日志数据发送至预警服务器的示意性流程图。如图6所示，可以先将异常日志数据存储至Kafka系统，由Kafka系统将异常日志数据发送至搜索服务引擎，以使搜索服务引擎将异常日志数据同步至预警服务器。

需要说明的是，预警服务器用于显示异常日志数据，预警服务器还可以根据作业人员的标记操作，对异常日志数据添加异常标签。此外，添加异常标签的异常日志数据，还可以作为第一日志分类模型与第二日志分类模型的训练样本数据。从而可以不断地优化第一日志分类模型与第二日志分类模型。

通过将异常日志数据发送至预警服务器上显示，实现自动对目标设备进行安全监控，确保作业人员在目标设备未失陷前即可发现攻击型行为，进而可以采用人工措施进行处理。

上述实施例提供的日志异常检测方法，通过采用不同采集周期对原始日志数据进行采集，可以基于日志数据的数据量、时效性以及完整性等特性，有针对性地调用不同性能的日志分类模型对日志数据进行分类预测，进而可以提高日志异常检测的效率与准确性；通过对第一日志数据与第二日志数据进行预处理，可以去除日志数据中的无关信息以及提取有用信息，进而提高了后续的日志数据异常检测的准确性；通过将预处理后的第一日志数据和预处理后的第二日志数据存储至Kafka系统，有效提高了数据处理效率；通过结合LightGBM模型和XGBoost模型各自的优点，可以使得第一日志分类模型的处理速度快、更加预测效果更好，适合处理数据总量较大的第一日志数据；通过采用第一计算引擎和第二计算引擎，可以提高日志分类模型的分类预测的处理速度，节省时间；通过将第一日志数据与第二日志数据分别输入BERT模型进行向量化，可以得到语义增强的第一词向量与第二词向量，从而可以提高日志分类模型进行日志分类的准确性；通过根据第一日志分类结果与第二日志分类结果，可以准确地判断目标日志数据中是否存在异常日志数据，进而根据异常日志数据及时地发现攻击型行为，有效降低了误报率和漏报率；通过将异常日志数据发送至预警服务器上显示，实现自动对目标设备进行安全监控，确保作业人员在目标设备未失陷前即可发现攻击型行为，进而可以采用人工措施进行处理。

请参阅图7，图7是本申请的实施例还提供一种日志异常检测装置1000的示意性框图，该日志异常检测装置用于执行前述的日志异常检测方法。其中，该日志异常检测装置可以配置于日志服务器中。

如图7所示，该日志异常检测装置1000，包括：日志数据采集模块1001、分类预测模块1002和异常数据确定模块1003。

日志数据采集模块1001，用于获取待检测的目标日志数据，所述目标日志数据包括基于第一采集周期采集的第一日志数据以及基于第二采集周期采集的第二日志数据，所述第一采集周期大于所述第二采集周期。

分类预测模块1002，用于将所述第一日志数据输入第一日志分类模型进行分类预测，获得所述第一日志数据对应的第一日志分类结果，以及将所述第二日志数据输入第二日志分类模型进行分类预测，获得所述第二日志数据对应的第二日志分类结果。

异常数据确定模块1003，用于根据所述第一日志分类结果与所述第二日志分类结果，确定所述目标日志数据是否存在异常日志数据。

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和各模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

上述的装置可以实现为一种计算机程序的形式，该计算机程序可以在如图8所示的计算机设备上运行。

请参阅图8，图8是本申请实施例提供的一种计算机设备的结构示意性框图。

请参阅图8，该计算机设备包括通过系统总线连接的处理器和存储器，其中，存储器可以包括非易失性存储介质和内存储器。

处理器用于提供计算和控制能力，支撑整个计算机设备的运行。

内存储器为非易失性存储介质中的计算机程序的运行提供环境，该计算机程序被处理器执行时，可使得处理器执行任意一种日志异常检测方法。

应当理解的是，处理器可以是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

其中，在一个实施例中，所述处理器用于运行存储在存储器中的计算机程序，以实现如下步骤：

获取待检测的目标日志数据，所述目标日志数据包括基于第一采集周期采集的第一日志数据以及基于第二采集周期采集的第二日志数据，所述第一采集周期大于所述第二采集周期；将所述第一日志数据输入第一日志分类模型进行分类预测，获得所述第一日志数据对应的第一日志分类结果，以及将所述第二日志数据输入第二日志分类模型进行分类预测，获得所述第二日志数据对应的第二日志分类结果；根据所述第一日志分类结果与所述第二日志分类结果，确定所述目标日志数据中是否存在异常日志数据。

在一个实施例中，所述第一日志分类模型包括至少一个第一提升树模型与至少一个第二提升树模型；所述处理器在实现将所述第一日志数据输入第一日志分类模型进行分类预测之前，还用于实现：

获取待训练的样本日志数据，所述样本日志数据为基于所述第一采集周期采集的；根据所述样本日志数据，确定每一轮训练的训练样本数据，将当前轮训练样本数据分别输入每个所述第一提升树模型与每个所述第二提升树模型进行日志分类训练，获得所述当前轮训练样本数据对应的第一训练结果与第二训练结果；根据所述第一训练结果与所述第二训练结果，确定所述当前轮训练样本数据对应的目标训练结果；基于预设的损失函数，确定所述目标训练结果对应的损失函数值；若所述损失函数值大于预设的损失值阈值，则调整每个所述第一提升树模型和每个所述第二提升树模型的参数，并进行下一轮训练，直至得到的损失函数值小于或等于所述损失值阈值，结束训练，得到训练好的所述第一日志分类模型。

在一个实施例中，所述处理器在实现将所述第一日志数据输入第一日志分类模型进行分类预测时，用于实现：

将所述第一日志数据输入训练好的所述第一日志分类模型进行分类预测。

在一个实施例中，所述处理器在实现根据所述第一训练结果与所述第二训练结果，确定所述当前轮训练样本数据对应的目标训练结果时，用于实现：

根据所述第一训练结果中的第一预测类别与所述第二训练结果中的第二预测类别，确定目标预测类别；对所述第一训练结果中的第一预测概率与所述第二训练结果中的第二预测概率进行累加，并对得到的累加值求平均值，获得平均预测概率；根据所述平均预测概率与所述目标预测类别，确定所述目标训练结果。

调用第一计算引擎，通过所述第一计算引擎将所述第一日志数据输入所述第一日志分类模型进行分类预测，获得所述第一日志分类结果。

在一个实施例中，所述处理器在实现将所述第二日志数据输入第二日志分类模型进行分类预测，获得所述第二日志数据对应的第二日志分类结果时，用于实现：

调用第二计算引擎，通过所述第二计算引擎将所述第二日志数据输入所述第二日志分类模型进行分类预测，获得所述第二日志分类结果。

在一个实施例中，所述处理器在实现将所述第一日志数据输入所述第一日志分类模型进行分类预测之前，还用于实现：

将所述第一日志数据输入向量化模型进行向量化，获得所述第一日志数据对应的第一词向量。

在一个实施例中，所述处理器在实现将所述第一日志数据输入所述第一日志分类模型进行分类预测时，用于实现：

将所述第一词向量输入所述第一日志分类模型进行分类预测。

在一个实施例中，所述处理器在实现确定所述目标日志数据中是否存在异常日志数据之后，还用于实现：

若确定所述目标日志数据存在异常日志数据，则将所述异常日志数据发送至搜索服务引擎，以使所述搜索服务引擎将所述异常日志数据同步至预警服务器，所述预警服务器用于显示所述异常日志数据。

在一个实施例中，所述处理器在实现获取待检测的目标日志数据时，用于实现：

与目标设备进行日志数据同步，获得所述目标设备的原始日志数据；基于所述第一采集周期，对所述原始日志数据进行采集，获得所述第一日志数据；基于所述第二采集周期，对所述原始日志数据进行采集，获得所述第二日志数据。

本申请的实施例中还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序中包括程序指令，所述处理器执行所述程序指令，实现本申请实施例提供的任一项日志异常检测方法。

其中，所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元，例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备，例如所述计算机设备上配备的插接式硬盘，智能存储卡(SmartMedia Card，SMC)，安全数字卡(Secure Digital Card，SD Card)，闪存卡(Flash Card)等。

进一步地，所述计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种日志异常检测方法，其特征在于，包括：

2.根据权利要求1所述的日志异常检测方法，其特征在于，所述第一日志分类模型包括至少一个第一提升树模型与至少一个第二提升树模型；

所述将所述第一日志数据输入第一日志分类模型进行分类预测之前，还包括：

获取待训练的样本日志数据，所述样本日志数据为基于所述第一采集周期采集的；

根据所述样本日志数据，确定每一轮训练的训练样本数据，将当前轮训练样本数据分别输入每个所述第一提升树模型与每个所述第二提升树模型进行日志分类训练，获得所述当前轮训练样本数据对应的第一训练结果与第二训练结果；

根据所述第一训练结果与所述第二训练结果，确定所述当前轮训练样本数据对应的目标训练结果；

基于预设的损失函数，确定所述目标训练结果对应的损失函数值；

若所述损失函数值大于预设的损失值阈值，则调整每个所述第一提升树模型和每个所述第二提升树模型的参数，并进行下一轮训练，直至得到的损失函数值小于或等于所述损失值阈值，结束训练，得到训练好的所述第一日志分类模型；

所述将所述第一日志数据输入第一日志分类模型进行分类预测，包括：

3.根据权利要求2所述的日志异常检测方法，其特征在于，所述根据所述第一训练结果与所述第二训练结果，确定所述当前轮训练样本数据对应的目标训练结果，包括：

根据所述第一训练结果中的第一预测类别与所述第二训练结果中的第二预测类别，确定目标预测类别；

对所述第一训练结果中的第一预测概率与所述第二训练结果中的第二预测概率进行累加，并对得到的累加值求平均值，获得平均预测概率；

根据所述平均预测概率与所述目标预测类别，确定所述目标训练结果。

4.根据权利要求1所述的日志异常检测方法，其特征在于，所述将所述第一日志数据输入第一日志分类模型进行分类预测，包括：

调用第一计算引擎，通过所述第一计算引擎将所述第一日志数据输入所述第一日志分类模型进行分类预测，获得所述第一日志分类结果；

所述将所述第二日志数据输入第二日志分类模型进行分类预测，获得所述第二日志数据对应的第二日志分类结果，包括：

5.根据权利要求4所述的日志异常检测方法，其特征在于，所述将所述第一日志数据输入所述第一日志分类模型进行分类预测之前，还包括：

将所述第一日志数据输入向量化模型进行向量化，获得所述第一日志数据对应的第一词向量；

所述将所述第一日志数据输入所述第一日志分类模型进行分类预测，包括：

6.根据权利要求1所述的日志异常检测方法，其特征在于，所述确定所述目标日志数据中是否存在异常日志数据之后，所述方法还包括：

7.根据权利要求1-6任一项所述的日志异常检测方法，其特征在于，所述获取待检测的目标日志数据，包括：

与目标设备进行日志数据同步，获得所述目标设备的原始日志数据；

基于所述第一采集周期，对所述原始日志数据进行采集，获得所述第一日志数据；

基于所述第二采集周期，对所述原始日志数据进行采集，获得所述第二日志数据。

8.一种日志异常检测装置，其特征在于，包括：

9.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于执行所述计算机程序并在执行所述计算机程序时实现如权利要求1至7任一项所述的日志异常检测方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器实现如权利要求1至7任一项所述的日志异常检测方法。