CN113065130A

CN113065130A - 一种日志分类方法及相关装置

Info

Publication number: CN113065130A
Application number: CN202110406633.2A
Authority: CN
Inventors: 刘源; 王红涛; 张运滔; 林思宏
Original assignee: Sangfor Technologies Co Ltd
Current assignee: Sangfor Technologies Co Ltd
Priority date: 2021-04-15
Filing date: 2021-04-15
Publication date: 2021-07-02

Abstract

本申请公开了一种日志分类方法，包括：根据攻击特征分类配置文件对待分类日志数据进行分类，得到所述待分类日志数据对应的攻击特征类别；其中，所述待分类日志数据为从多个数据源获取到的待分类日志数据；其中，所述攻击特征分类配置文件为采用日志数据样本进行攻击特征提取分类得到的配置文件。解决安全日志遗漏和未知日志无法分类的问题，提高日志分类的效果。本申请还公开了一种日志分类装置、服务器以及计算机可读存储介质，具有以上有益效果。

Description

一种日志分类方法及相关装置

技术领域

本申请涉及计算机技术领域，特别涉及一种日志分类方法，日志分类装置、服务器以及计算机可读存储介质。

背景技术

随着信息技术的不断发展，被应用在越来越多的领域中。相应的，为了保持信息技术对应的设备使用状态良好，会从海量的设备中产生源源不断的日志数据。面对海量的日志数据时就需要将日志数据进行相应的分类处理，以便针对不同类别的日志数据进一步的进行日志分析。

相关技术中，为了提高日志分类和日志分析的效果，主要是对日志数据中与系统和终端的安全相关的日志进行分类，即对安全日志进行分类，以便更好的对系统和终端的安全情况进行分析和掌控。目前，针对安全日志的分类操作主要是对已知安全特征的安全日志进行人工分类，以便确定已知安全特征的安全日志中不同攻击的分类。但是，在实际情况中还存在大量的未知安全特征的日志数据被遗漏，也无法进行相应的人工分类，降低日志分类的效果。

因此，如何实现对未知安全特征的日志数据进行分类是本领域技术人员关注的重点问题。

发明内容

本申请的目的是提供一种日志分类方法，日志分类装置、服务器以及计算机可读存储介质，主要解决安全日志遗漏和未知日志无法分类的问题，提高日志分类的效果。

为解决上述技术问题，本申请提供一种日志分类方法，包括：

根据攻击特征分类配置文件对待分类日志数据进行分类，得到所述待分类日志数据对应的攻击特征类别；

其中，所述待分类日志数据为从多个数据源获取到的待分类日志数据；

其中，所述攻击特征分类配置文件为采用日志数据样本进行攻击特征提取分类得到的配置文件。

可选的，所述采用日志数据样本进行攻击特征提取分类得到所述攻击特征分类配置文件的步骤，包括：

获取所述日志数据样本；

对所述日志数据样本进行日志特征提取，得到日志特征；其中，所述日志特征为表征日志内容的特征；

对所述日志特征中的文本描述信息进行攻击特征提取，得到攻击特征；其中，所述攻击特征为表征日志攻击内容的特征；

对所述攻击特征进行分类整理，得到所述攻击特征分类配置文件。

可选的，对所述攻击特征进行分类整理，得到所述攻击特征分类配置文件，包括：

根据所述攻击特征中相同的字段对所述攻击特征进行分类整理，得到所述攻击特征分类配置文件。

可选的，在所述对所述日志数据样本进行日志特征提取，得到日志特征的步骤之前，还包括：

对所述日志数据样本进行去重处理，得到已去重日志数据样本；

按照厂商信息对所述已去重日志数据样本进行分类，得到已分类的日志数据样本；

相应的，所述对所述日志数据样本进行日志特征提取，得到日志特征的步骤，包括：

对所述已分类的日志数据样本进行日志特征提取，得到所述日志特征。

可选的，根据攻击特征分类配置文件对待分类日志数据进行分类，得到所述待分类日志数据对应的攻击特征类别，包括：

判断接收到的所述待分类日志数据是否存在安全信息字段；

若是，则对所述待分类日志数据进行日志特征提取，得到日志特征；

根据所述攻击特征分类配置文件对所述日志特征进行分类，得到所述待分类日志数据对应的攻击特征类别。

可选的，对所述待分类日志数据进行日志特征提取，得到日志特征，包括：

当所述待分类日志数据存在结构化数据时，对所述待分类日志数据进行结构匹配，得到结构信息；

根据结构信息对所述待分类日志数据进行拆解，得到所述日志特征。

当所述待分类日志数据不存在结构化数据时，根据特征提取正则表达式对所述待分类日志数据进行特征提取，得到所述日志特征。

可选的，还包括：

对获取到的所述日志数据样本进行日志特征提取，得到日志特征；

根据接收到的选择指令和/或预设的正则表达式对所述日志特征进行字段提取，得到所述安全信息字段。

本申请还提供一种日志分类装置，包括：

日志分类模块，用于根据攻击特征分类配置文件对待分类日志数据进行分类，得到所述待分类日志数据对应的攻击特征类别；其中，所述待分类日志数据为从多个数据源获取到的待分类日志数据；其中，所述攻击特征分类配置文件为采用日志数据样本进行攻击特征提取分类得到的配置文件。

本申请还提供一种服务器，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上所述的日志分类方法的步骤。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的日志分类方法的步骤。

本申请所提供的一种日志分类方法，包括：根据攻击特征分类配置文件对待分类日志数据进行分类，得到所述待分类日志数据对应的攻击特征类别；其中，所述待分类日志数据为从多个数据源获取到的待分类日志数据；其中，所述攻击特征分类配置文件为采用日志数据样本进行攻击特征提取分类得到的配置文件。

通过采用攻击特征分类配置文件对待分类日志数据进行分类，实现了从未知的日志数据直接进行攻击特征分类，也就是对未知安全特征的日志数据进行攻击类别分类，避免出现安全日志遗漏和未知日志无法分类的问题，提高日志分类的效果。

本申请还提供一种日志分类装置、服务器以及计算机可读存储介质，具有以上有益效果，在此不做赘述。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例所提供的一种日志分类方法的流程图；

图2为本申请实施例所提供的一种日志分类方法中配置文件获取的流程图；

图3为本申请实施例所提供的一种日志分类装置的结构示意图。

具体实施方式

本申请的核心是提供一种日志分类方法，日志分类装置、服务器以及计算机可读存储介质，主要解决安全日志遗漏和未知日志无法分类的问题，提高日志分类的效果。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

相关技术中，为了提高日志分类和日志分析的效果，主要是对日志数据中与系统和终端的安全相关的日志进行分类，即对安全日志进行分类，以便更好的对系统和终端的安全情况进行分析和掌控。目前，针对安全日志的分类操作主要是对已知安全特征的安全日志进行人工分类，以便确定已知安全特征的安全日志中不同攻击的分类。但是，在实际情况中还存在大量的未知安全特征的日志数据被遗漏，也就是这些没有被识别为安全日志的日志数据被遗漏，并且也无法在安全特征未知的情况下对未知安全特征的日志数据进行人工分类，降低日志分类的效果。

因此，本申请提供一种日志分类方法，通过采用攻击特征分类配置文件对待分类日志数据进行分类，实现了从未知的日志数据直接进行攻击特征分类，也就是对未知安全特征的日志数据进行攻击类别分类，避免出现安全日志遗漏和未知日志无法分类的问题，提高日志分类的效果。

以下通过一个实施例，对本申请提供的一种日志分类方法进行说明。

本实施例中，该方法可以包括：

根据攻击特征分类配置文件对待分类日志数据进行分类，得到所述待分类日志数据对应的攻击特征类别。

其中，所述待分类日志数据为从多个数据源获取到的待分类日志数据。其中，多个数据源包括不同厂商的不同设备。其中，不同设备包括但不限于数据库、数据探针或防火墙等。可见，本申请技术方案中获取到的日志数据十分丰富且数量极大。如果采用人工分类，不仅效率极低，还容易出现分类错误等问题。

可见，本实施例中主要是采用已经得到的攻击特征分类配置文件对待分类日志数据进行分类，得到对应的攻击特征类别。也就是说，当服务器或计算设备获取到待分类日志数据时，即可采用攻击特征分类配置文件对待分类日志数据进行分类，实现日志分类。而不用进行人工分类操作。其中，可以是将待分类日志数据的字段与攻击特征分类配置文件进行匹配的方式确定攻击特征类别，也可以是将待分类日志数据中的日志特征与攻击特征分类配置文件进行匹配的方式确定攻击特征类别，还可以是将待分类日志数据的关键词或关键字与攻击特征分类配置文件进行匹配的方式确定攻击特征类别。

综上所述，本实施例通过采用攻击特征分类配置文件对待分类日志数据进行分类，实现了从未知的日志数据直接进行攻击特征分类，也就是对未知安全特征的日志数据进行攻击类别分类，避免出现安全日志遗漏和未知日志无法分类的问题，提高日志分类的效果。

为了从获取到的未知的日志数据中确定出安全日志，进一步在对安全日志按照攻击特征进行分类，以便对未知安全特征的日志数据的攻击特征分类操作。因此，以下通过另一个实施例，对本申请提供的一种日志分类方法进行说明，实现对未知安全特征的日志数据进行分类，提高分类效果。

请参考图1，图1为本申请实施例所提供的一种日志分类方法的流程图。

本实施例中，该方法可以包括：

S101，判断接收到的待分类日志数据是否存在安全信息字段；

本步骤旨在判断接收到的待分类日志数据是否存在安全信息字段。其中，待分类日志数据是从日志数据产生设备发送来的日志数据。即本实施例中可以从不同的日志数据产生设备接收该待分类日志数据。

其中，日志数据产生设备可以是网关设备，也可以是集群节点服务器，还可以是边缘计算节点。可见，本实施例中的日志数据产生设备并不唯一，在网络中可以产生日志数据的设备都可以作为本实施例中的日志数据产生设备。

进一步的，本步骤中获取待分类日志数据的方式，可以是通过网络的方式获取，也可以是直接从移动硬盘中读取，还可以是在网络中的有线方式获取。进一步的，还可以通过Logstash的实时管道功能获取到待分类日志数据。

其中，Logstash是一个开源数据收集引擎，具有实时管道功能，可以同时从多个数据源获取数据并进行实时转换，将数据发送到预期的存储中。

进一步的，当接收到上述待分类日志数据时，即可判断该待分类日志数据是否存在安全信息字段，也就是判断接收到的待分类日志数据是否为安全日志，即包含安全信息的日志数据。

其中，安全信息字段是表示存在安全信息的字段，一般存在多个字段为安全信息字段，例如：注入、攻击、警告、超限等字段。当一个日志数据中存在安全信息字段时，则可以表示该日志数据是一条与安全相关的日志数据，在日志数据分类的过程中存在被分类并分析的价值。

进一步的，该安全信息字段可以是技术人员按照经验记录并保存到的安全

S102，若是，则对待分类日志数据进行日志特征提取，得到日志特征；

在S101的基础上，本步骤旨在当该待分类日志数据中存在安全信息字段时，对待分类日志数据进行日志特征提取，得到日志特征。由于在日志数据中存在较多的结构数据和非记录内容的数据，因此需要从待分类日志数据中剔除无用的数据，提取对应的日志特征。

其中，所述日志特征为表征日志内容的特征。也就是说，该日志特征主要表征为日志内容，以便通过日志特征快速确定日志数据的主要内容。例如，日志数据的日志内容主要是数据写入，那么对应的日志特征为数据写入以及写入数据的类型等信息。当日志数据的日志内容主要是收到攻击，那么对应的日志特征为网络攻击以及攻击内容等信息，快速确定该日志内容是关于攻击的内容。

进一步的，待分类日志数据由于是从不同的数据生产设备、不同的数据源以及不同的厂家中获取。因此，该待分类日志数据之间的格式以及内容的形式存在很大区别。主要是的区别可以是结构化数据和非结构化数据之间的区别。其中，当待分类日志数据中保存有结构化数据时，表示该日志数据中的内容是按照一定的数据结构进行记录的。相应的，按照预定的结构就可以从中提取出目标结构下的数据作为该日志特征。当待分类体脂数据中不存在结构化数据时，也就是该待分类日志数据中的数据不以结构化的方式进行记录，导致数据的结构不清晰，可以采用预设的脚本从该日志数据中提取出对应的日志数据。其中，预设的脚本可以是预设好的正则表达式。此外，为了进一步提高日志特征提取的精度，可以通过技术人员人工操作的方式从中提取对应的日志特征，以便提高日志特征提取的精确度。

进一步的，为了提高提取日志特征的效果，在处理结构化数据时可以准确的提取出对应的日志信息，本步骤可以包括：

步骤1，当待分类日志数据存在结构化数据时，对待分类日志数据进行结构匹配，得到结构信息；

步骤2，根据结构信息对待分类日志数据进行拆解，得到日志特征。

可见，本可选方案中主要是对如何针对结构清晰的日志数据进行特征提取进行说明。本可选方案中首先当待分类日志数据存在结构化数据时，对待分类日志数据进行结构匹配，得到结构信息。也就是，当该待分类日志数据为结构不清晰的日志数据时，确定该待分类日志数据对应的结构。即进行结构匹配，得到与该待分类日志数据的结构相对应的结构信息。例如：key-value键值结构、JSON(JavaScript Object Notation，JS对象简谱)结构。然后，根据结构信息对待分类日志数据进行拆解，得到日志特征。也就是，在确定了该待分类日志数据的结构信息后，即可根据该结构信息所对应的结构对该待分类日志数据进行拆解，将拆解后得到的字段内容作为该日志特征。

很显然，通过本可选方案，可以从包含结构化数据的日志数据中提取出对应的日志特征，以便更有针对性的进行特征提取，提高特征提取的效率和精确度。

进一步的，为了提高提取日志特征的效果，在处理非结构化数据时可以准确的提取出对应的日志信息，而不是采用人工的方式提取日志特征，提高特诊提取的效率，本步骤可以包括：

当待分类日志数据不存在结构化数据时，根据特征提取正则表达式对待分类日志数据进行特征提取，得到日志特征。

可见，本可选方案中主要是对如何针对结构不清晰的日志数据进行特征提取进行说明。本可选方案中档待分类日志数据中不存在结构化数据，或该待分类日志数据的结构不清晰时，根据特征提取正则表达式对待分类日志数据进行特征提取，得到日志特征。其中，特征提取正则表达式是根据日志特征的字段特点设置的正则表达式。其中，日志特征的字段特点可以是较高频率出现的字段内容，也可以是特定的字段内容，还可以是特定的字符串标识。可见，本可选方案中特征提取正则表达式的设置方式并不唯一，在此不作具体限定。

很显然，通过本可选方案，可以从不包含结构化数据的日志数据中提取出对应的日志特征，以便更有针对性的进行特征提取，提高特征提取的效率和精确度。

S103，根据所述攻击特征分类配置文件对所述日志特征进行分类，得到所述待分类日志数据对应的攻击特征类别；其中，攻击特征分类配置文件为采用日志数据样本进行攻击特征提取分类得到的配置文件。

在S102的基础上，本步骤旨在根据攻击特征分类配置文件对日志特征进行分类，得到待分类日志数据对应的攻击特征类别，也就是实现对该待分类日志数据进行攻击特征的分类，即按照不同的攻击类别进行分类。

其中，攻击特征分类配置文件是对日志样本按照不同的攻击特征进行分类提取，并整理得到的配置文件。通过该攻击特征分类配置文件就可以对日志数据进行攻击特征分类，确定该日志数据对应的攻击特征类别。例如，确定某条日志数据的攻击特征类别是sql注入攻击还是webshell上传攻击，亦或是其他的攻击。因此，该攻击特征分类配置文件中的形式可以是某个攻击特征的字段集合属于一个攻击特征的类别，存在多个类似的字段集合，每个字段集合都对应了一个攻击特征的类别，以便对待分类日志数据中的日志特征匹配对应的攻击特征类别。

相应的，在攻击特征分类配置文件的基础上，对提取到的日志特征进行分类的过程可以是将该日志特征与攻击特征分类配置文件中的不同类别的字段集合进行匹配的过程。

此外，为了使本实施例中的安全信息字段更新，提高安全信息字段的准确性，避免出现安全信息遗漏的问题，本实施例还可以包括：

步骤1，对获取到的日志数据样本进行日志特征提取，得到日志特征；

步骤2，根据接收到的选择指令和/或预设的正则表达式对日志特征进行字段提取，得到安全信息字段。

可见，本可选方案中主要是对如何获取到安全信息字段进行说明。本实施例中的安全信息字段可以是以集合的形式进行使用，该安全信息字段的集合中包含了多个安全信息的字段，每个安全信息字段均作为该集合中的一个元素。

本可选方案中，首先对获取到的日志数据样本进行日志特征提取，得到日志特征。其中，对日志数据样本进行日志特征提取的操作可以参考上述的特征提取操作，在此不做赘述。然后，根据接收到的选择指令和/或预设的正则表达式对日志特征进行字段提取，得到安全信息字段。也就是说，可以通过人工选择的方式和/或正则表达式挑选的方式从中确定安全信息字段。为了提高确定安全信息字段的准确性，本可选方案中可以采用技术人员输入选择指令的方式确定安全信息字段。为了提高确定安全信息字段的效率，本可选方案中可以采用预设的正则表达式对日志特征进行字段提取，得到安全信息字段。进一步的，为了保持准确性和效率，本可选方案中可以先采用预设的正则表达式对日志特征进行字段提取，得到初级安全信息字段，在根据接收到的选择指令从初级安全信息字段中确定该安全信息字段。

综上，本实施例首先判断接收到的待分类日志数据是否存在安全信息字段，若是，则进一步进行日志特征提取得到日志特征，最后采用攻击特征分类配置文件对日志特征进行分类，实现了从未知的日志数据中选出安全日志，再进一步对安全日志进行攻击特征分类，也就是对未知安全特征的日志数据进行攻击类别分类，避免出现安全日志遗漏和未知日志无法分类的问题，提高日志分类的效果。

以下通过另一实施例对本申请中如何获取到攻击特征分类配置文件进行说明。本实施例主要是通过该攻击特征分类配置文件解决无法识别未知安全特征的日志数据以及未知日志数据进行攻击分类的问题，避免遗漏含有安全信息的日志数据，提高日志数据分类的效率。

请参考图2，图2为本申请实施例所提供的一种日志分类方法中配置文件获取的流程图。

本实施例中，主要是说明如何获取到攻击特征分类配置文件，该方法可以包括：

S201，获取日志数据样本；

可见，本步骤旨在获取到该日志数据样本。

其中，日志数据样本可以是获取到的新日志数据，也可以是已经进行过分类处理后的旧日志数据。其中，可以只包括已经进行分类后的已知日志数据，也可以只包括未知结构信息的未知日志数据，还可以是包括已知日志数据和未知日志数据的日志数据。其中，为了提高对日志特征获取的准确性和后期分类的效果，本步骤中的日志数据样本可以是混合已知日志数据和未知日志数据的日志数据，并且其中的未知日志数据的样本量可以大于已知日志数据的样本量。

S202，对日志数据样本进行日志特征提取，得到日志特征；其中，所述日志特征为表征日志内容的特征；

在S201的基础上，本步骤旨在对日志数据样本进行日志特征提取，得到日志特征。其中，对日志数据样本进行的日志特征提取可以参考以上上述说明提供的日志特征提取操作，在此不做赘述。进一步的，为了提高日志特征的提取精度可以采用人工提取方式进行提取。

进一步的，为了提高攻击特征分类的准确度和便利程度，在对日志数据样本进行日志特征提取，得到日志特征的步骤之前，还包括：

步骤1，对日志数据样本进行去重处理，得到已去重日志数据样本；

步骤2，按照厂商信息对已去重日志数据样本进行分类，得到已分类的日志数据样本；

相应的，所述对所述日志数据样本进行日志特征提取，得到日志特征的步骤，包括：对所述已分类的日志数据样本进行日志特征提取，得到所述日志特征。

可见，本可选方案中首先对日志数据样本进行去重处理，得到已去重日志数据样本。也就是，去除该日志数据样本中的重复的数据，避免冗余的数据影响数据的处理速度，提高日志特征提取的效率。然后，按照厂商信息对已去重日志数据样本进行分类，得到已分类的日志数据样本。也就是说，此刻得到了按照不同厂商分类的日志数据样本，以便后续步骤中按照不同厂商进行处理，以便在相同厂商的日志数据样本中快速确定该厂商特定的攻击特征，提高攻击特征进行分类整理的效率，最后再将不同厂商的攻击特征进行分类整理的结果，整理为一个配置文件，得到最终的攻击特征分类配置文件。

S203，根据结构化特征对日志特征进行筛选，得到已筛选日志特征；

在S202的基础上，本步骤旨在根据结构化特征对日志特征进行筛选，得到已筛选日志特征。也就是说，在获取到的日志特征中存在多种日志特征，包括与安全无关的特征，在处理过程会影响数据处理的速度和效率。因此，为了提高特征处理的速度，本实施例中通过对日志特征进行筛选，减少不必要的数据处理数量，提高处理效率。

其中，结构化特征可以是设备信息的部分字段，例如某个产品型号的前几个字母。也可以是设备硬件配置信息的部分字段，例如该产品中的采用硬件的型号的前几个字母。还可以是日志数据中采用的格式信息的部分字段，例如将日志数据进行分隔的相对固定不会变化的字段，可以是字符也可以是符号还可以是字符和符号的组合。可见，本步骤中获取到的结构化字段的形式并不唯一，在此不作具体限定。

进一步的，结构化特征可以是安全信息字段和归一化特征，以便从提取出的日志特征中筛选出存在有安全信息字段和归一化特征的日志特征。也就是，提取出具有安全信息和可以被归一化处理的特征。其中，归一化特征是指该特征具备可以被归一化处理的特性，也就是与其他特征存在相同的特征字段。其中，安全信息字段是指该特征是与安全相关的特征。

S204，对已筛选日志特征中的文本描述信息进行攻击特征提取，得到攻击特征；其中，所述攻击特征为表征日志攻击内容的特征；

在S203的基础上，本步骤旨在对已筛选日志特征中的文本描述信息进行攻击特征提取，得到攻击特征。也就是从已筛选日志特征中提取出存在攻击特性的特征，以便得到多个攻击特征。

其中，所述攻击特征为表征日志攻击内容的特征。具体的，该攻击特征为日志特征的子集。当日志内容为攻击事件的内容时，对其进行特征提取就可以得到的攻击特征，并根据攻击特征快速确定攻击事件的主要内容。

其中，可以通过人工挑选的方式从已筛选日志特征中挑选出具有“攻击事件”文本描述信息的特征作为攻击特征，也可以是根据预设脚本从已筛选日志特征中挑选出具有“攻击事件”文本描述信息的特征作为攻击特征，还可以通过预设脚本和人工挑选共同操作挑选出具有“攻击事件”文本描述信息的特征作为攻击特征。

S205，对攻击特征进行分类整理，得到攻击特征分类配置文件。

在S204的基础上，本步骤旨在对攻击特征进行分类整理，得到攻击特征分类配置文件。也就是，按照攻击特征中的具体内容对获取到的攻击特征进行分类。可以是根据攻击特征中具体内容表示的攻击类别将得到的攻击进行分类。例如，得到的攻击特征包括sql，inject，注入，webshell，upload，上传等，可以分类为表示sql注入攻击的sql，inject，注入；表示webshell上传攻击的webshell，upload，上传。

进一步的，为了提高分类整理的效率，本步骤可以包括：

根据攻击特征中相同的字段对攻击特征进行分类整理，得到攻击特征分类配置文件。

可见，本可选方案中主要是通过攻击特征中相同的字段对攻击特征进行分类整理，以便提高分类整理的速度。

很显然，本实施例通过从日志数据样本中进行日志特征提取，进而再筛选出攻击特征，最后将得到的攻击特征分类整理为攻击特征分类配置文件，实现从日志数据样本中提取出攻击特征分类配置文件，以便实现日志数据的分类处理，提高日志分类的效果。

以下通过一个具体的实施例，对本申请中获取日志特征文件的过程做进一步说明。

本实施例中，该方法可以包括：

步骤1，获取日志数据样本；

步骤2，对日志数据样本进行去重处理，得到已去重日志数据样本；

步骤3，按照厂商信息对已去重日志数据样本进行分类，得到已分类的日志数据样本

步骤4，对日志数据样本进行日志特征提取，得到日志特征；

其中，当待分类日志数据存在结构化数据时，对待分类日志数据进行结构匹配，得到结构信息；根据结构信息对待分类日志数据进行拆解，得到日志特征；当待分类日志数据不存在结构化数据时，根据特征提取正则表达式对待分类日志数据进行特征提取，得到日志特征。

步骤5，根据安全信息字段和归一化特征对日志特征进行筛选，得到已筛选日志特征；

步骤6，对已筛选日志特征中的文本描述信息进行攻击特征提取，得到攻击特征；

步骤7，对攻击特征进行分类整理，得到攻击特征分类配置文件

其中，也可以根据技术人员的经验对攻击特征进行分类整理。

步骤8，判断接收到的待分类日志数据是否存在安全信息字段；若是，则执行步骤8；若否，则执行步骤10；

步骤9，对待分类日志数据进行日志特征提取，得到日志特征；根据攻击特征分类配置文件对日志特征进行分类，得到待分类日志数据对应的攻击特征类别；其中，攻击特征分类配置文件为采用日志数据样本进行攻击特征提取分类得到的配置文件。

步骤10，对待分类日志进行人工分类，保存人工分类的结果。

可见，本实施例从日志数据样本中提取出攻击特征分类配置文件，然后判断接收到的待分类日志数据是否存在安全信息字段，若是，则进一步进行日志特征提取得到日志特征，最后采用攻击特征分类配置文件对日志特征进行分类，实现了从未知的日志数据中选出安全日志，再进一步对安全日志进行攻击特征分类，也就是对未知安全特征的日志数据进行攻击类别分类，避免出现安全日志遗漏和未知日志无法分类的问题，提高日志分类的效果。

下面对本申请实施例提供的日志分类装置进行介绍，下文描述的日志分类装置与上文描述的日志分类方法可相互对应参照。

请参考图3，图3为本申请实施例所提供的一种日志分类装置的结构示意图。

本实施例中，该装置可以包括：

日志分类模块100，用于根据攻击特征分类配置文件对待分类日志数据进行分类，得到所述待分类日志数据对应的攻击特征类别；其中，所述待分类日志数据为从多个数据源获取到的待分类日志数据；其中，所述攻击特征分类配置文件为采用日志数据样本进行攻击特征提取分类得到的配置文件。

可选的，该日志分类模块100，可以包括：

未知日志判断单元，用于判断接收到的所述待分类日志数据是否存在安全信息字段；

日志特征提取单元，用于当待分类日志数据中存在安全信息字段时，对所述待分类日志数据进行日志特征提取，得到日志特征；

日志分类单元，用于根据所述攻击特征分类配置文件对所述日志特征进行分类，得到所述待分类日志数据对应的攻击特征类别。

可选的，该装置还可以包括：分类配置文件获取模块；

其中，该分类配置文件获取模块，可以包括：

样本获取单元，用于获取日志数据样本；

特征提取单元，用于对日志数据样本进行日志特征提取，得到日志特征；

特征筛选单元，用于根据结构化特征对日志特征进行筛选，得到已筛选日志特征；其中，所述日志特征为表征日志内容的特征；

攻击特征提取单元，用于对已筛选日志特征中的文本描述信息进行攻击特征提取，得到攻击特征；其中，所述攻击特征为表征日志攻击内容的特征；

攻击特征分类单元，用于对攻击特征进行分类整理，得到攻击特征分类配置文件。

可选的，该攻击特征分类单元，具体用于根据攻击特征中相同的字段对攻击特征进行分类整理，得到攻击特征分类配置文件。

可选的，该分类配置文件获取模块，还可以包括：

去重单元，用于对日志数据样本进行去重处理，得到已去重日志数据样本；按照厂商信息对已去重日志数据样本进行分类，得到已分类的日志数据样本。

可选的，该日志特征提取单元，具体用于当待分类日志数据存在结构化数据时，对待分类日志数据进行结构匹配，得到结构信息；根据结构信息对待分类日志数据进行拆解，得到日志特征。

可选的，该日志特征提取单元，具体用于当待分类日志数据不存在结构化数据时，根据特征提取正则表达式对待分类日志数据进行特征提取，得到日志特征。

可选的，该装置还可以包括：

安全信息字段提取模块，用于对获取到的日志数据样本进行日志特征提取，得到日志特征；根据接收到的选择指令和/或预设的正则表达式对日志特征进行字段提取，得到安全信息字段。

本申请实施例还提供一种服务器，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如以上实施例所述的日志分类方法的步骤。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如以上实施例所述的日志分类方法的步骤。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本申请所提供的一种日志分类方法，日志分类装置、服务器以及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

Claims

1.一种日志分类方法，其特征在于，包括：

2.根据权利要求1所述的日志分类方法，其特征在于，所述采用日志数据样本进行攻击特征提取分类得到所述攻击特征分类配置文件的步骤，包括：

获取所述日志数据样本；

3.根据权利要求2所述的日志分类方法，其特征在于，对所述攻击特征进行分类整理，得到所述攻击特征分类配置文件，包括：

4.根据权利要求1所述的日志分类方法，其特征在于，根据攻击特征分类配置文件对待分类日志数据进行分类，得到所述待分类日志数据对应的攻击特征类别，包括：

判断接收到的所述待分类日志数据是否存在安全信息字段；

5.根据权利要求4所述的日志分类方法，其特征在于，对所述待分类日志数据进行日志特征提取，得到日志特征，包括：

6.根据权利要求4所述的日志分类方法，其特征在于，对所述待分类日志数据进行日志特征提取，得到日志特征，包括：

7.根据权利要求1至6任一项所述的日志分类方法，其特征在于，还包括：

8.一种日志分类装置，其特征在于，包括：

9.一种服务器，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至7任一项所述的日志分类方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的日志分类方法的步骤。