CN114385468A

CN114385468A - 一种日志分析方法、系统及相关组件

Info

Publication number: CN114385468A
Application number: CN202111594119.2A
Authority: CN
Inventors: 龙文洁; 吴小珍
Original assignee: Hangzhou Anheng Information Security Technology Co Ltd
Current assignee: Hangzhou Anheng Information Security Technology Co Ltd
Priority date: 2021-12-23
Filing date: 2021-12-23
Publication date: 2022-04-22

Abstract

本申请公开了一种日志分析方法、系统及相关组件，该方法包括：获取告警日志；将所述告警日志通过聚类算法的特征检测模型，以确定所述告警日志是否存在目标特征；若是，则将所述告警日志标记为目标日志；若否，则将所述告警日志标记为非目标日志；其中，所述特征检测模型具体为聚类训练模型。本申请利用训练好的特征检验模型对告警日志进行分析，从而确定告警日志是否存在目标特征，以将其判定为目标日志或非目标日志，过程快捷简便，结果准确，不需要用户手动添加筛选，大幅节省了人力成本和时间成本，日志分析效率获得提升。

Description

一种日志分析方法、系统及相关组件

技术领域

本发明涉及日志监测领域，特别涉及一种日志分析方法、系统及相关组件。

背景技术

当前，大数据安全分析或其他行业内，大数据平台通常收集到海量的日志，并生成海量的告警信息，这些告警信息中存在大量告警误报，从而容易干扰真实告警，导致真实告警无法及时有效地发送给用户。为了解决误报问题，传统做法采用在发现误报后手动删除误报告警，或者手动添加告警过滤白名单的方式进行处理，这种方式费时费力，需要大量人工操作进行处理，处理的效率较低。

因此，如何提供一种解决上述技术问题的方案是目前本领域技术人员需要解决的问题。

发明内容

有鉴于此，本发明的目的在于提供一种高效智能的日志分析方法、系统及相关组件。其具体方案如下：

一种日志分析方法，包括：

获取告警日志；

将所述告警日志通过聚类算法的特征检测模型，以确定所述告警日志是否存在目标特征；

若是，则将所述告警日志标记为目标日志；

若否，则将所述告警日志标记为非目标日志；

其中，所述特征检测模型具体为聚类训练模型。

优选的，所述获取告警日志之前，还包括：

利用标记为所述目标日志的第一告警日志样本训练集、标记为所述非目标日志的第二告警日志样本训练集对所述特征检测模型进行k-means算法训练。

优选的，所述利用标记为所述目标日志的第一告警日志样本训练集、标记为所述非目标日志的第二告警日志样本训练集对所述特征检测模型进行k-means算法训练的过程，包括：

步骤一：在所述特征检测模型中随机确定多个聚类中心；

步骤二：对所述第一告警日志样本训练集和所述第二告警日志样本训练集中的所有告警日志样本，按照距离最近原则确定每个所述告警日志样本对应的所述聚类中心；

步骤三：对于同一个所述聚类中心对应的所有所述告警日志样本求取中心值，利用其中心值更新该聚类中心的位置；

重复所述步骤二和所述步骤三，直至满足训练要求；

步骤四：根据所有所述聚类中心，确定非目标特征聚类范围和/或目标特征聚类范围，以用于判断所述告警日志是否存在所述目标特征。

优选的，所述对所述第一告警日志样本训练集和所述第二告警日志样本训练集中的所有告警日志样本，按照距离最近原则确定每个所述告警日志样本对应的所述聚类中心的过程，包括：

对所述第一告警日志样本训练集和所述第二告警日志样本训练集中的所有告警日志样本，根据每个所述告警日志样本的日志信息，按照距离最近原则确定每个所述告警日志样本对应的所述聚类中心；

所述日志信息包括源IP、目的IP、源端口、目的端口、应用协议、告警内容、告警类型、用户行业信息、告警标记、告警等级、处置信息中的一种或多种。

优选的，所述训练要求具体为聚类准确度或重复次数。

优选的，所述非目标特征聚类范围或所述目标特征聚类范围具体根据对应的所述聚类中心与其对应的所述告警日志样本的平均距离确定。

优选的，所述获取告警日志的过程，包括：

获取被用户标记为所述目标日志或所述非目标日志的告警日志；

获取未被所述用户标记的所述告警日志。

相应的，本申请公开了一种日志分析系统，包括：

获取模块，用于获取告警日志；

检测模块，用于将所述告警日志通过聚类算法的特征检测模型，以确定所述告警日志是否存在目标特征；

动作模块，用于若存在所述目标特征，则将所述告警日志标记为目标日志，还用于若不存在所述目标特征，则将所述告警日志标记为非目标日志；

其中，所述特征检测模型具体为聚类训练模型。

相应的，本申请公开了一种日志分析装置，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上文任一项所述日志分析方法的步骤。

相应的，本申请公开了一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上文任一项所述日志分析方法的步骤。

本申请公开了一种日志分析方法，包括：获取告警日志；将所述告警日志通过聚类算法的特征检测模型，以确定所述告警日志是否存在目标特征；若是，则将所述告警日志标记为目标日志；若否，则将所述告警日志标记为非目标日志；其中，所述特征检测模型具体为聚类训练模型。本申请利用训练好的特征检验模型对告警日志进行分析，从而确定告警日志是否存在目标特征，以将其判定为目标日志或非目标日志，过程快捷简便，结果准确，不需要用户手动添加筛选，大幅节省了人力成本和时间成本，日志分析效率获得提升。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例中一种日志分析方法的步骤流程图；

图2为本发明实施例中一种日志分析方法的子步骤流程图；

图3为本发明实施例中一种日志分析系统的结构分布图；

图4为本发明实施例中一种日志分析装置的结构分布图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了解决误报问题，传统做法采用在发现误报后手动删除误报告警，或者手动添加告警过滤白名单的方式进行处理，这种方式费时费力，需要大量人工操作进行处理，处理的效率较低。

本申请利用训练好的特征检验模型对告警日志进行分析，从而确定告警日志是否存在目标特征，以将其判定为目标日志或非目标日志，过程快捷简便，结果准确，不需要用户手动添加筛选，大幅节省了人力成本和时间成本，日志分析效率获得提升。

本发明实施例公开了一种日志分析方法，参见图1所示，包括：

S1：获取告警日志；

可以理解的是，获取告警日志的过程，包括：

获取被用户标记为目标日志或非目标日志的告警日志；

获取未被用户标记的告警日志。

可以理解的是，除了告警日志，其他具有大数据量、多维度信息的日志也可利用本实施例中的日志分析方法进行分析，此处不作限制。

S2：将告警日志通过聚类算法的特征检测模型，以确定告警日志是否存在目标特征；

具体的，该目标特征可以是误报特征，也即该告警日志属于系统误报日志，该目标特征也可以是用户终端检索需要的自定义特征，还可以根据其他应用场景进行实际选择。

S3：若是，则将告警日志标记为目标日志；

S4：若否，则将告警日志标记为非目标日志；

可以理解的是，如果目标特征为误报特征，则目标日志为误报日志，非目标日志为非误报的真实告警日志，可将其发送到用户终端或服务器的目的端口。

其中，特征检测模型具体为聚类训练模型。

可以理解的是，该聚类训练模型为利用有标记的日志样本进行训练后确定的训练模型，具体的训练算法可选k-means算法、CNN算法等，具体根据告警日志的信息形式和目标特征的特性进行选择，此处不做设定。

进一步的，步骤S1获取告警日志之前，还包括：

利用标记为目标日志的第一告警日志样本训练集、标记为非目标日志的第二告警日志样本训练集对特征检测模型进行k-means算法训练。

具体的，参见图2所示，对特征检测模型的训练过程包括：

S01：在特征检测模型中随机确定多个聚类中心；

S02：对第一告警日志样本训练集和第二告警日志样本训练集中的所有告警日志样本，按照距离最近原则确定每个告警日志样本对应的聚类中心；

具体的，该步骤包括：

对第一告警日志样本训练集和第二告警日志样本训练集中的所有告警日志样本，根据每个告警日志样本的日志信息，按照距离最近原则确定每个告警日志样本对应的聚类中心；

日志信息包括源IP、目的IP、源端口、目的端口、应用协议、告警内容、告警类型、用户行业信息、告警标记、告警等级、处置信息中的一种或多种。

S03：对于同一个聚类中心对应的所有告警日志样本求取中心值，利用其中心值更新该聚类中心的位置；

重复S02和S03，直至满足训练要求；通常，训练要求具体为聚类准确度或重复次数，除此外也可根据实际需求设置训练要求。

S04：根据所有聚类中心，确定非目标特征聚类范围和/或目标特征聚类范围，以用于判断告警日志是否存在目标特征。

非目标特征聚类范围或目标特征聚类范围具体根据对应的聚类中心与其对应的告警日志样本的平均距离确定。

可以理解的是，对于一个聚类中心K，其对应的所有告警日志样本的平均距离为Dk，可直接按照该平均距离确定该聚类中心的聚类范围为：聚类中心K为中心、半径为平均距离Dk的球形范围，或者，可以进一步根据该聚类中心K对应的所有告警日志样本的位置确定一个半径在[Dkmin，Dkmax]的环带作为聚类范围，进一步的，该环带的半径可以平均距离Dk和一个调控范围σ确定，具体为[Dk-σ，Dk+σ]，也可以聚类中心K与对应的所有告警日志样本的距离的最大值、最小值分别作为Dkmax和Dkmin。具体的聚类范围的设置，根据实际训练时的日志样本的位置分布特点进行即可，此处不作限制。

本申请实施例公开了一种日志分析方法，包括：获取告警日志；将所述告警日志通过聚类算法的特征检测模型，以确定所述告警日志是否存在目标特征；若是，则将所述告警日志标记为目标日志；若否，则将所述告警日志标记为非目标日志；其中，所述特征检测模型具体为聚类训练模型。本申请利用训练好的特征检验模型对告警日志进行分析，从而确定告警日志是否存在目标特征，以将其判定为目标日志或非目标日志，过程快捷简便，结果准确，不需要用户手动添加筛选，大幅节省了人力成本和时间成本，日志分析效率获得提升。

相应的，本申请实施例公开了一种日志分析系统，参见图3所示，包括：

获取模块1，用于获取告警日志；

检测模块2，用于将所述告警日志通过聚类算法的特征检测模型，以确定所述告警日志是否存在目标特征；

动作模块3，用于若存在所述目标特征，则将所述告警日志标记为目标日志，还用于若不存在所述目标特征，则将所述告警日志标记为非目标日志；

其中，所述特征检测模型具体为聚类训练模型。

本申请实施例利用训练好的特征检验模型对告警日志进行分析，从而确定告警日志是否存在目标特征，以将其判定为目标日志或非目标日志，过程快捷简便，结果准确，不需要用户手动添加筛选，大幅节省了人力成本和时间成本，日志分析效率获得提升。

在一些具体的实施例中，日志分析系统还包括：

训练模块，用于利用标记为所述目标日志的第一告警日志样本训练集、标记为所述非目标日志的第二告警日志样本训练集对所述特征检测模型进行k-means算法训练。

在一些具体的实施例中，训练模块具体用于：

步骤一：在所述特征检测模型中随机确定多个聚类中心；

重复所述步骤二和所述步骤三，直至满足训练要求；

在一些具体的实施例中，训练模块所述对所述第一告警日志样本训练集和所述第二告警日志样本训练集中的所有告警日志样本，按照距离最近原则确定每个所述告警日志样本对应的所述聚类中心的过程，包括：

在一些具体的实施例中，所述训练要求具体为聚类准确度或重复次数。

在一些具体的实施例中，所述非目标特征聚类范围或所述目标特征聚类范围具体根据对应的所述聚类中心与其对应的所述告警日志样本的平均距离确定。

在一些具体的实施例中，获取模块1用于：

获取未被所述用户标记的所述告警日志。

相应的，本申请公开了一种日志分析装置，参见图4所示，包括处理器11和存储器12；其中，所述处理器11执行所述存储器12中保存的计算机程序时实现以下步骤：

获取告警日志；

若是，则将所述告警日志标记为目标日志；

若否，则将所述告警日志标记为非目标日志；

其中，所述特征检测模型具体为聚类训练模型。

在一些具体的实施例中，所述处理器11执行所述存储器12中保存的计算机子程序时，具体可以实现以下步骤：

步骤一：在所述特征检测模型中随机确定多个聚类中心；

步骤二：对所述第一告警日志样本训练集和第二告警日志样本训练集中的所有告警日志样本，按照距离最近原则确定每个所述告警日志样本对应的所述聚类中心；

重复所述步骤二和所述步骤三，直至满足训练要求；

对所述第一告警日志样本训练集和第二告警日志样本训练集中的所有告警日志样本，根据每个所述告警日志样本的日志信息，按照距离最近原则确定每个所述告警日志样本对应的所述聚类中心；

获取未被所述用户标记的所述告警日志。

进一步的，本实施例中的日志分析装置，还可以包括：

输入接口13，用于获取外界导入的计算机程序，并将获取到的计算机程序保存至所述存储器12中，还可以用于获取外界终端设备传输的各种指令和参数，并传输至处理器11中，以便处理器11利用上述各种指令和参数展开相应的处理。本实施例中，所述输入接口13具体可以包括但不限于USB接口、串行接口、语音输入接口、指纹输入接口、硬盘读取接口等。

输出接口14，用于将处理器11产生的各种数据输出至与其相连的终端设备，以便于与输出接口14相连的其他终端设备能够获取到处理器11产生的各种数据。本实施例中，所述输出接口14具体可以包括但不限于USB接口、串行接口等。

通讯单元15，用于在日志分析装置和外部服务器之间建立远程通讯连接，以便于日志分析装置能够将镜像文件挂载到外部服务器中。本实施例中，通讯单元15具体可以包括但不限于基于无线通讯技术或有线通讯技术的远程通讯单元。

键盘16，用于获取用户通过实时敲击键帽而输入的各种参数数据或指令。

显示器17，用于对日志分析过程的相关信息进行实时显示，以便于用户及时地了解当前日志分析情况。

鼠标18，可以用于协助用户输入数据并简化用户的操作。

进一步的，本申请实施例还公开了一种可读存储介质，这里所说的可读存储介质包括随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动硬盘、CD-ROM或技术领域内所公知的任意其他形式的存储介质。可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取告警日志；

若是，则将所述告警日志标记为目标日志；

若否，则将所述告警日志标记为非目标日志；

其中，所述特征检测模型具体为聚类训练模型。

在一些具体的实施例中，所述可读存储介质中存储的计算机子程序被处理器执行时，具体可以实现以下步骤：

步骤一：在所述特征检测模型中随机确定多个聚类中心；

重复所述步骤二和所述步骤三，直至满足训练要求；

获取未被所述用户标记的所述告警日志。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本发明所提供的一种日志分析方法、系统及相关组件进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种日志分析方法，其特征在于，包括：

获取告警日志；

若是，则将所述告警日志标记为目标日志；

若否，则将所述告警日志标记为非目标日志；

其中，所述特征检测模型具体为聚类训练模型。

2.根据权利要求1所述日志分析方法，其特征在于，所述获取告警日志之前，还包括：

3.根据权利要求2所述日志分析方法，其特征在于，所述利用标记为所述目标日志的第一告警日志样本训练集、标记为所述非目标日志的第二告警日志样本训练集对所述特征检测模型进行k-means算法训练的过程，包括：

步骤一：在所述特征检测模型中随机确定多个聚类中心；

重复所述步骤二和所述步骤三，直至满足训练要求；

4.根据权利要求3所述日志分析方法，其特征在于，所述对所述第一告警日志样本训练集和所述第二告警日志样本训练集中的所有告警日志样本，按照距离最近原则确定每个所述告警日志样本对应的所述聚类中心的过程，包括：

5.根据权利要求3所述日志分析方法，其特征在于，所述训练要求具体为聚类准确度或重复次数。

6.根据权利要求3所述日志分析方法，其特征在于，所述非目标特征聚类范围或所述目标特征聚类范围具体根据对应的所述聚类中心与其对应的所述告警日志样本的平均距离确定。

7.根据权利要求1至6任一项所述日志分析方法，其特征在于，所述获取告警日志的过程，包括：

获取未被所述用户标记的所述告警日志。

8.一种日志分析系统，其特征在于，包括：

获取模块，用于获取告警日志；

其中，所述特征检测模型具体为聚类训练模型。

9.一种日志分析装置，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至7任一项所述日志分析方法的步骤。

10.一种可读存储介质，其特征在于，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述日志分析方法的步骤。