CN111367874A

CN111367874A - 一种日志处理方法、装置、介质和设备

Info

Publication number: CN111367874A
Application number: CN202010128223.1A
Authority: CN
Inventors: 李�浩
Original assignee: NSFOCUS Information Technology Co Ltd; Nsfocus Technologies Inc
Current assignee: NSFOCUS Information Technology Co Ltd; Nsfocus Technologies Inc
Priority date: 2020-02-28
Filing date: 2020-02-28
Publication date: 2020-07-03
Anticipated expiration: 2040-02-28
Also published as: CN111367874B

Abstract

本发明涉及一种日志处理方法、装置、介质和设备。本发明实施例提供的方案中，可以通过与解析规则的匹配，对日志进行第一次分类，并利用决策树模型，对日志进行第二次分类，通过两次分类，使得具有相同或类似业务含义的日志可以被划分为一个日志子类型，保存到对应的数据库中。即使针对第三方日志，也可以实现对第三方日志的准确分类，进而可以针对每个日志子类型的第三方日志进行业务处理，提高第三方日志的利用率。

Description

一种日志处理方法、装置、介质和设备

技术领域

本发明涉及互联网技术领域，特别涉及一种日志处理方法、装置、介质和设备。

背景技术

随着互联网技术发展，服务器规模也越来越大。日志作为服务器基本的输出数据，可以对服务器状态监控和问题排查起到重要作用。而如何有效地利用日志数据就成为了日志管理的关键部分。

第三方日志，即为事先不知道日志格式和字段类型的日志数据。日志格式可以分为字符串类型、xml类型、文本类型、json类型等格式，字段类型可以分为数值型、字符串型、日期型等类型。

当前，安全大数据平台的日志接入大多数是针对已知日志格式和字段类型的日志数据进行，而针对未知日志格式和字段类型的第三方日志往往不会接入。

而即便是接入第三方日志，由于日志格式和字段类型的不确定性，后续也很难对第三方日志进行有效利用，第三方日志利用率较低。

发明内容

本发明实施例提供一种日志处理方法、装置、介质和设备，用于解决第三方日志利用率较低的问题。

本发明提供了一种日志处理方法，所述方法包括：

确定接收到的日志满足的解析规则，根据接收到的日志满足的解析规则，确定所述日志对应的日志类型，其中，每一种日志类型对应的解析规则为，包括一个键值对组合中的至少一个键值对，该键值对组合根据该种日志类型的日志对应的训练样本集中，词频最高的键值对中的至少两个键值对确定，一个键值对包括一个业务字段的名称和字段值；

根据确定出的日志类型对应的决策树模型，将接收到的日志分类保存到对应的日志子类型所对应的数据库，其中，每一种日志类型对应的决策树模型，根据该种日志类型的日志对应的训练样本集确定。

本发明还提供了一种日志处理装置，所述装置包括：

第一分类模块，用于确定接收到的日志满足的解析规则，根据接收到的日志满足的解析规则，确定所述日志对应的日志类型，其中，每一种日志类型对应的解析规则为，包括一个键值对组合中的至少一个键值对，该键值对组合根据该种日志类型的日志对应的训练样本集中，词频最高的键值对中的至少两个键值对确定，一个键值对包括一个业务字段的名称和字段值；

第二分类模块，用于根据确定出的日志类型对应的决策树模型，将接收到的日志分类保存到对应的日志子类型所对应的数据库，其中，每一种日志类型对应的决策树模型，根据该种日志类型的日志对应的训练样本集确定。

本发明还提供了一种非易失性计算机存储介质，所述计算机存储介质存储有可执行程序，该可执行程序被处理器执行实现如上所述的方法。

本发明还提供了一种日志处理设备，包括处理器、通信接口、存储器和通信总线，其中，所述处理器，所述通信接口，所述存储器通过所述通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存储的程序时，实现如上所述的方法步骤。

考虑到安全业务对日志的利用，往往是基于具有相同或类似业务含义的日志来进行的，本发明实施例提供的方案中，可以通过与解析规则的匹配，对日志进行第一次分类，并利用决策树模型，对日志进行第二次分类，通过两次分类，使得具有相同或类似业务含义的日志可以被划分为一个日志子类型，保存到对应的数据库中。即使针对第三方日志，也可以实现对第三方日志的准确分类，进而可以针对每个日志子类型的第三方日志进行业务处理，提高第三方日志的利用率。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一提供的日志处理方法的流程示意图；

图2为本发明实施例一提供的决策树模型的示意图；

图3为本发明实施例二提供的日志处理装置的结构示意图；

图4为本发明实施例三提供的日志处理设备的结构示意图。

具体实施方式

本发明实施例提供的方案中，可以通过根据训练样本集生成的解析规则以及决策树模型，实现对第三方日志的准确分类，使得后续可以针对每个日志子类型的第三方日志进行业务处理，提高第三方日志的利用率。

当然，需要说明的是，本发明实施例提供的方案同样适用于对非第三方日志进行分类。

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在本文中提及的“多个或者若干个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一

本发明实施例一提供一种日志处理方法，该方法的步骤流程可以如图1所示，包括：

步骤101、根据解析规则进行第一次分类。

在本实施例中，以接收到的日志为第三方日志为例进行说明。

在本步骤中，可以确定接收到的第三方日志满足的解析规则，根据接收到的第三方日志满足的解析规则，确定所述第三方日志对应的日志类型。

其中，每一种日志类型对应的解析规则为，包括一个键值对组合中的至少一个键值对，该键值对组合根据该种日志类型的第三方日志对应的训练样本集中，词频最高的键值对中的至少两个键值对确定，一个键值对包括一个业务字段的名称和字段值。

需要说明的是，一种日志类型对应一个训练样本集，每种日志类型对应的解析规则可以理解为，体现了对应的训练样本集中的特征键值对。这样就可以根据第三方日志满足的解析规则，确定与第三方日志更相似的训练样本集，确定出第三方日志的日志类型。

在本实施例中，日志类型可以用日志编号(LOG_ID)表示，一种日志类型对应一个日志编号。

在本实施例中，根据第三方日志满足的解析规则，确定第三方日志对应的日志类型，可以实现对指定日志类型的第三方日志的准确识别，当然，还可以对不满足解析规则的噪声数据进行有效过滤，在本实施例中，可以理解为如果接收到的第三方日志没有满足的解析规则，则无需进行后续处理。

在一种可能的实现方式中，每一种日志类型对应的解析规则通过以下方式确定：

确定该种日志类型的第三方日志对应的训练样本集中是否存在词频不小于设定值的键值对，若确定存在词频不小于设定值的至少两个键值对，利用词频不小于设定值的至少两个键值对，确定每个键值对同时在同一个训练样本中出现的频率，不低于门限值的键值对组合中，键值对最多的一个键值对组合，该种日志类型对应的解析规则为包括该键值对组合中的每个键值对；

若确定对应的训练样本集中不存在词频不小于设定值的键值对，或者确定对应的训练样本集中存在词频不小于设定值的键值对，但不存在词频不小于设定值的至少两个键值对，或者确定存在词频不小于设定值的至少两个键值对，但不存在每个键值对同时在同一个训练样本中出现的频率，不低于门限值的键值对组合，利用该种日志类型的第三方日志对应的训练样本集中词频最高的前N个键值对，确定任意一个键值对在一个训练样本中出现的频率，不低于指定值的键值对组合中，键值对最少的一个键值对组合，所述N为不小于2的正整数，该种日志类型对应的解析规则为包括该键值对组合中的至少一个键值对。

进一步的，在一种可能的实现方式中，所述词频最高的前N个键值对可以满足，其中每个键值对在训练样本集中出现次数之和，不小于训练样本集中训练样本数量的两倍。

步骤102、根据决策树模型进行第二次分类。

在本步骤中，可以根据确定出的日志类型对应的决策树模型，将接收到的第三方日志分类保存到对应的日志子类型所对应的数据库。

其中，每一种日志类型对应的决策树模型，可以根据该种日志类型的第三方日志对应的训练样本集确定。

即在本实施例中，可以利用每种日志类型对应的训练样本集，确定对应的决策树模型，并利用决策树模型对日志类型进一步进行细分，以确定第三方日志的日志子类型，相同日志子类型的第三方日志可以理解为具有类似或相同的业务含义，例如，日志子类型可以为网络入侵、攻击入侵、恶意样本、异常行为、网站监测等等。

通过决策树模型将第三方日志分类为具有类似或相同的业务含义的日志子类型，有利于后续对准确分类后的第三方日志进行业务处理，提高第三方日志的利用率。且通过决策树模型确定第三方日志的日志子类型，还可以保证对第三方日志分类的准确性。

需要说明的是，在一种可能的实现方式中，在步骤101之后，步骤102之前，还可以包括步骤102’：

步骤102’、对接收到的第三方日志进行标准化。

在本步骤中，可以将接收到的第三方日志中的业务字段的格式转换为标准格式，和/或，将指定的字段值转换为标准值。

不同的第三方日志中的业务字段格式往往不统一，例如，不同的第三方日志中，相同业务含义的业务字段往往有不同的英文名称，将业务字段的格式转换为标准格式，可以将不同的第三方日志中，不同英文名称的业务字段中的英文名称统一为同一种英文名称。比如源IP这个业务字段，可以有sip、s_ip、sourcIP、src_ip、srcIP等多种英文名称，可以将不同的第三方日志中，源IP这个业务字段的英文名称统一转换为sip英文名称。将业务字段的格式转换为标准格式可以理解为对业务字段进行矫正。

在一种可能的实现方式中，将接收到的第三方日志中的业务字段的格式转换为标准格式，可以是通过与预先建立的元数据库的匹配来实现的。

其中，元数据库中可以按照元数据的类型进行多级分类，例如，元数据库的第一层元素类别，可以包括公共类、日志类、事件类、漏洞类等多种元数据集。每种元数据集又可以包括第二层元素类别，第二层元素类别可以包括多种类型的元数据，例如，公共类元数据集又可以包括公共平台类、网络类、地理位置类等多种类型的元数据，日志类元数据集又可以包括公共类、会话类、web访问类等多种类型的元数据。而每种类型的元数据可以包括第三层元素类别，第三层元素类别可以包含对应的元素编码、英文名称、中文名称、数据类型、元素长度、元素类型、默认值等字段。元数据库整体呈现树状结构。

将第三方日志与元数据库进行匹配时，可以先根据第三方日志的日志类型(LOG_ID)映射第一层元数据类别，不同的元数据类别对应相应的第二层元素类别，然后匹配第三层元素类别，从而可以将第三方日志中的业务字段格式转换为匹配到的元数据格式。

另外，需要说明的是，不同的第三方日志中，相同业务字段的某些字段值标准可能不同，将指定的字段值转换为标准值，可以将不同的第三方日志中，不同标准的字段值转换为系统兼容的标准值。例如，不同的第三方日志中，不同系统定义的威胁等级值标准是不同的，可以将不同系统定义的威胁等级值转换为统一的标准值。将字段值转换为标准值可以理解为对字段值进行映射。

在一种可能的实现方式中，可以将各种不同标准下，特定业务字段指定的字段值，与标准值的转换关系(可以理解为映射关系)存储在一个关系映射表中，针对某个第三方日志，可以根据关系映射表，将特定业务字段的指定的字段值转换为标准值。

可以理解为，在本实施例中，可以定义三层元数据库模型，将进行日志类型识别之后的第三方日志和元数据库模型进行匹配，对业务字段的格式进行转换，并可以通过配置字段值的映射关系，将字段值转换为标准值，使得进行日志类型识别之后的第三方日志业务字段统一、规范化。

此时，步骤102可以包括：根据确定出的日志类型对应的决策树模型，将业务字段格式转换为标准格式，和/或，指定的字段值转换为标准值的第三方日志分类保存到对应的日志子类型所对应的数据库。

经过对第三方日志业务字段格式的标准化处理，经决策树模型进行分类后，相同的日志子类型的第三方日志拥有统一的业务字段格式，方便进行格式化数据存储，而无需定义一张宽表对第三方日志进行存储，同时，也提高了后续对相同的日志子类型的第三方日志的使用便利性，例如，由于每种日志子类型的第三方日志的业务字段格式是固定的，所以非常方便进行条件检索和自定义查询。

可以理解为，通过训练样本集生成的决策树模型，可以自动基于日志内容，对第三方日志进行分类和路由，不同日志子类型的第三方日志可以对应相应的元数据格式。

另外，经过对第三方日志字段值的标准化处理，由于字段值标准统一，所以非常方便进行数据处理和分析，例如，数据融合、比较等。

进一步的，本实施例还可以包括步骤103：

步骤103、在第三方日志中进行信息增强。

在本步骤中，可以针对指定的日志子类型所对应的数据库中的第三方日志，根据第三方日志中指定的业务字段的字段值，确定对应的信息，并将确定出的信息作为特定的业务字段的字段值。

可以理解为，在对第三方日志按照日志子类型进行分类之后，可以根据每个日志子类型的需要，根据对应的第三方日志中已有的信息，进一步确定出对应的信息，在第三方日志中进行信息增强，使得指定的日志子类型的第三方日志可以涵盖更多的信息，包括更多的业务含义，更加方便上层业务的使用。

例如，可以根据第三方日志的源IP字段的字段值和/或目的IP字段的字段值，进行地理库匹配，获取到对应的国家、省、市、区以及经纬度信息，并通过字段添加形式，将这些信息作为添加字段的字段值，添加至第三方日志，此时，可以理解为在第三方日志中，对地理位置信息进行增强。

又如，可以根据第三方日志的sip字段的字段值和/或dip字段的字段值，匹配IP黑名单，将匹配结果作为ti_hit_fields字段(该字段可以理解为第三方日志中已有字段)的字段值，保存在第三方日志中，此时，可以理解为在第三方日志中，对IP情报信息进行增强。

又如，可以根据第三方日志的源IP字段的字段值和/或目的IP字段的字段值，匹配对应的主机资产库，获取资产的名称、资产类型、资产ID、资产责任人等一系列信息，并将这些信息赋值给相应的字段，保存在第三方日志中，此时，可以理解为在第三方日志中，对资产信息进行增强。

当然，还可以根据第三方日志其它字段的字段值，确定对应的信息，从而在第三方日志中，进行其它信息的增强，本实施例不再一一列举。

需要说明的是，在一种可能的实现方式中，可以针对指定的日志子类型，通过选择需要增强的信息的方式，其中，可以但不限于通过下拉框方式来选择需要增强的信息，来设定指定的日志子类型所对应的数据库中的第三方日志对应的需要增强的信息。

例如，针对某个日志子类型的第三方日志，需要进行IP情报信息增强时，可以通过下拉框选择IP情报信息，从而设定该日志子类型所对应的数据库中的第三方日志，对应的需要增强的信息为IP情报信息。

此时，可以根据sip字段和/或dip字段的字段值，匹配IP黑名单，将匹配结果作为ti_hit_fields字段的字段值，对该日志子类型对应的数据库中保存的第三方日志进行IP情报信息增强。

经本实施例处理之后的第三方日志，相同日志子类型的第三方日志具有相似或相同的业务含义，且可以具有统一的业务字段格式，另外，第三方日志中还可以包括用于描述增强信息的字段，具有良好的可扩展性。

此外，经本实施例处理之后的第三方日志还具有良好的易用性，主要体现在：

由于已经对第三方日志进行了准确的分类，进行业务处理时，无需对第三方日志再次进行分类和过滤，可以直接读取不同日志子类型对应的数据库中的第三方日志进行业务处理；

另外，如果第三方日志经过了标准化步骤，具有统一的业务字段格式，非常方便格式化存储，可以根据第三方日志的日志子类型，将其写入对应的格式化数据库中，实现第三方日志的分库分表存储；

同时，如果第三方日志经过了标准化步骤，由于每种日志子类型的第三方日志的业务字段格式是固定的，可以很方便地在数据库中进行条件检索和自定义查询。

下面进一步对步骤101中涉及的一种可能的实现方式中，解析规则的确定过程进行说明。

第一步、可以读取训练样本集，例如，通过spark Streaming读取一个batch集的训练样本数据，该训练样本集可以理解为对应一个日志类型，此处可以记为LOG_ID，例如，LOG_0010。

第二步、可以对训练样本数据进行扁平格式化处理。对样本训练数据进行扁平格式化处理，可以理解为去掉每个训练样本数据(即每个训练样本)中的特殊字符，形成格式化数据。

例如，训练样本数据为：

[{"hash":"D9C3-3PU4-CA8B-ABF4","product":"uts","msgtype":12,"dev_ip":"100.104.22.2"},{"dmac":"","tcpflag":0,"sip":"90.1.30.237","first_time":1574750562000,"rx_bytes":100,"rx_pkts":2,"app":2680,"direct":3,"tx_bytes":20,"app_proto":25,"smac":"","tx_pkts":1,"alert_flag":0,"sid":"5e123kajvadadflkba","dport":34270,"protocol":6,"sport":9812,"dip":"90.1.43.222","last_time":1574750562000}]

进行扁平格式化处理之后，训练样本数据为：

"hash":"D9C3-3PU4-CA8B-ABF4","product":"uts","msgtype":12,"dev_ip":"100.104.22.2","dmac":"","tcpflag":0,"sip":"90.1.30.237","first_time":1574750562000,"rx_bytes":100,"rx_pkts":2,"app":2680,"direct":3,"tx_bytes":20,"app_proto":25,"smac":"","tx_pkts":1,"alert_flag":0,"sid":"5e123kajvadadflkba","dport":34270,"protocol":6,"sport":9812,"dip":"90.1.43.222","last_time":1574750562000

第三步、对扁平格式化处理之后得到的训练样本数据进行分词，形成键值对形式的数据。

对扁平格式化处理之后得到的训练样本数据进行分词得到的一个键值对，可以理解为包括一个业务字段的名称和字段值。

例如，一个键值对为"hash":"D9C3-3PU4-CA8B-ABF4"。

第四步、对键值对进行词频统计。

此时，可以形成({“field_name”:value},count)形式的统计项，对训练样本集中的所有键值对进行词频统计，并可以确定出训练样本集中词频不小于设定值的键值对，例如，确定出训练样本集中每个出现的次数(即count)不小于第一设定值的键值对。

当然，确定出训练样本集中词频不小于设定值的键值对可以有多种形式，例如，还可以记录训练样本集对应的训练样本数(即第三方日志数)为LOG_TOTAL，可以确定每个键值对对应的count值与LOG_TOTAL的比值，并确定出训练样本集中每个对应的比值不小于第二设定值的键值对。

第五步、确定解析规则。

若确定训练样本集中存在词频不小于设定值的至少两个键值对，可以对词频不小于设定值的至少两个键值对进行组合，键值对组合中不区分键值对的顺序。

进一步的，可以确定满足每个键值对同时在同一个训练样本中出现的频率，不低于门限值的键值对组合，进而确定包括的键值对最多的一个键值对组合，该键值对组合可以记为最长键值对组合。此时，对应的解析规则即可以理解为，第三方日志中包括最长键值对组合中的每个键值对。该解析规则即可以理解为日志类型为LOG_0010的第三方日志需要满足的条件，也就是说，满足该解析规则的第三方日志的日志类型即为LOG_0010。

需要说明的是，以满足每个键值对同时在同一个训练样本中出现的频率，不低于门限值的键值对组合为{"product":"uts","msgtype":12}为例，该键值对组合中包括两个键值对，分别为"product":"uts"和"msgtype":12，可以理解为，"product":"uts"和"msgtype":12同时在同一个训练样本中出现的频率，在训练样本集中不低于门限值，即可以理解为训练样本集中，同时包括"product":"uts"和"msgtype":12的训练样本数量不低于设定数值。

另外，需要说明的是，经试验测试，对应的解析规则为，第三方日志中包括最长键值对组合中的每个键值对时，可以大大减少噪音数据(噪音数据可以理解为异常的第三方日志或者设备产生的异常格式数据)进入后续处理的几率，从而有效提高对第三方日志进行分类的准确性。

当然，如果训练样本集中不存在词频不小于设定值的键值对，或者训练样本集中存在词频不小于设定值的键值对，但不存在词频不小于设定值的至少两个键值对，或者存在词频不小于设定值的至少两个键值对，但不存在每个键值对同时在同一个训练样本中出现的频率，不低于门限值的键值对组合，那么还可以进一步通过以下方式确定解析规则：

对训练样本集中词频最高的前N个键值对进行组合，所述N为不小于2的正整数，键值对组合中不区分键值对的顺序。

确定任意一个键值对在一个训练样本中出现的频率，不低于指定值的键值对组合，进而确定包括的键值对最少的一个键值对组合，该键值对组合可以记为最短键值对组合。此时，对应的解析规则即可以理解为，第三方日志中包括最短键值对组合中的至少一个键值对。

需要说明的是，以满足任意一个键值对在一个训练样本中出现的频率，不低于指定值的键值对组合为{"product":"uts","msgtype":12}为例，该键值对组合中包括两个键值对，分别为"product":"uts"和"msgtype":12，可以理解为，"product":"uts"和"msgtype":12中的任意一个在一个训练样本中出现的频率，在训练样本集中不低于指定值，即可以理解为训练样本集中，包括"product":"uts"或"msgtype":12的训练样本数量不低于设定数值。

对应的解析规则为，第三方日志中包括最短键值对组合中的至少一个键值对，可以作为无法确定出最长键值对组合的有效补充，对第三方日志的日志类型进行识别。

在一种可能的实现方式中，所述词频最高的前N个键值对满足，其中每个键值对在训练样本集中出现次数之和，不小于训练样本集中训练样本数量(LOG_TOTAL)的两倍。从而进一步提高对应的解析规则为，第三方日志中包括最短键值对组合中的至少一个键值对时，对第三方日志进行分类的准确性。

需要说明的是，本案发明人通过实际测试确定，所述词频最高的前N个键值对满足，其中每个键值对在训练样本集中出现次数之和，不小于训练样本集中训练样本数量(LOG_TOTAL)的两倍时，可以有效提高对应的解析规则为，第三方日志中包括最短键值对组合中的至少一个键值对时，对第三方日志进行分类的准确性。

确定出解析规则之后，可以通过spark Streaming流式数据的解析处理，确定接收到的第三方日志满足的解析规则。

需要说明的是，在本实施例中，解析规则的确定可以基于大数据平台实现。根据本实施例提供的方案，对于未知结构的第三方日志，进行扁平化处理之后，可以通过分词以及关联分析(Aprior)算法思想，通过对比解析规则的可靠性，自动生成合适的解析规则结构，使得生成的解析规则具有较好的解析效率和准确性。

通过步骤101根据解析规则进行第一次分类之后，可以进一步通过步骤102根据决策树模型进行第二次分类，下面对步骤102中涉及的决策树模型的确定过程进行说明。

在本实施例中，一个日志类型对应一个决策树模型，该决策树模型可以根据该种日志类型的第三方日志对应的训练样本集确定。以日志类型为LOG_0014为例进行说明，该日志类型的训练样本集中可以包括多个日志子类型，例如在一种可能的分类方式下，日志子类型可以包括恶意后门、僵尸网络、通用入侵、暴力破解、拒绝服务、端口扫描等等。

则，在一种可能的实现方式中，可以利用ID3算法，确定训练样本集中每个业务字段，对应于每个日志子类型的信息熵。通过计算每个业务字段的信息获取量，决定每个业务字段在决策树模型中，作为分类条件的层次。计算公式可以表示如下：

Gain(A)＝Info(D)-Info_A(D) (1)

其中，Gain()表示信息获取量；

A表示一个业务字段；

Gain(A)表示A的信息获取量；

Info()表示信息熵；

D表示一个日志子类型；

Info(D)表示D的信息熵；

Info_A(D)表示按照A的字段值将日志分类为D的信息熵。

需要说明的是，在一种可能的实现方式中，在根据第三方日志满足的解析规则，确定第三方日志对应的日志类型之后，可以将LOG_ID添加到第三方日志中，然后，可以根据第三方日志中的LOG_ID，确定对应的决策树模型，进而利用确定出的决策树模型，确定该第三方日志对应的日志子类型。

也可以理解为，LOG_ID可以作为总的决策树模型(可以理解为各个日志类型对应的决策树模型构成总的决策树模型)的第一个分类条件。

如图2为示，为本发明实施例一提供的决策树模型的示意图。在图2中，可以将LOG_ID作为总的决策树模型的第一个分类条件，根据LOG_ID进行分类后，再进一步根据该LOG_ID对应的决策树模型，依据每个分类条件进行分类。

例如，针对LOG_0004，在对应的决策树模型中，可以根据rep_type字段，根据对应的字段值为1000或0010，将第三方日志分类为僵尸网络或者信誉日志。

又如，针对LOG_0014，在对应的决策树模型中，可以根据msg字段，根据对应的字段值为暴力破解或认证绕过，将第三方日志分类为账号口令爆破或者身份认证绕过，若根据对应的字段值为拒绝服务，则可以进一步根据gr_type字段的值为0或1，将第三方日志分类为拒绝服务漏洞攻击或者权限提升。

需要说明的是，可以进一步根据第二次分类得到的第三方日志，补充预先建立的元数据库，使得元数据库更加多元化，能够更好地对业务字段的格式进行标准化。

如图2所示，在一种可能的分类方式中，僵尸网络可以归类于恶意样本分类下的一个分类，信誉日志可以归类于其他分类下的一个分类。账号口令爆破、身份认证绕过、拒绝服务漏洞攻击或者权限提升可以均属于其他分类下的信誉日志分类。

此时，可以利用分类为僵尸网络的第三方日志，补充预先建立的元数据库中对应的僵尸网络元数据，利用分类为信誉日志、账号口令爆破、身份认证绕过、拒绝服务漏洞攻击或者权限提升的第三方日志，补充预先建立的元数据库中对应的信誉日志元数据。

需要说明的是，由于篇幅所限，如图2所示的决策树模型仅展示了部分日志类型对应的决策树模型的部分内容。根据训练出的决策树模型，第三方日志可以根据字段条件映射到对应的日志子类型所对应的数据库中。

根据样本训练集的扩展，非常容易进行决策树模型的扩展，增加新的日志子类型。当然，增加新的日志子类型之后，还可以更好地对元数据库进行补充，新增元数据库中的元数据。

此外，需要说明的是，在对第三方日志进行第二次分类之后，由于第三方日志的分类更加细化，此时，可以根据第三方日志对应的日志子类型，再次利用预先建立的元数据库，对第三方日志进行标准化。将第三方日志中的业务字段的格式转换为标准格式。

当然，若之前没有将指定的字段值转换为标准值，也可以在此时将指定的字段值转换为标准值。

根据本发明实施例提供的方案，可以根据第三方日志的样例，形成自定义识别规则算法的训练样本集，对训练样本集的数据进行分词和计算，自定义组合生成合适的解析规则，用于对第三方日志进行日志类型的识别和解析。

另外，还可以通过业务字段矫正规则将业务字段格式矫正为元数据对应的标准格式，通过字段值映射规则将指定的字段值映射为标准值，进一步可以利用根据训练样本集生成的决策树模型，对第三方日志的日志子类型进行识别。

分类得到的同一日志子类型的第三方日志业务字段格式统一，可以写入格式化数据库中，并可以进行信息增强，当然，还可以进一步生成安全事件，作为实现第三方日志安全存储、检索以及上层安全事件业务的基础，使得上层的业务处理更加智能和高效，有效提高第三方日志的利用率。

与实施例一提供的方法对应的，提供以下的装置。

实施例二

本发明实施例二提供一种日志处理装置，该装置的结构可以如图3所示，包括：

第一分类模块11用于确定接收到的日志满足的解析规则，根据接收到的日志满足的解析规则，确定所述日志对应的日志类型，其中，每一种日志类型对应的解析规则为，包括一个键值对组合中的至少一个键值对，该键值对组合根据该种日志类型的日志对应的训练样本集中，词频最高的键值对中的至少两个键值对确定，一个键值对包括一个业务字段的名称和字段值；第二分类模块12用于根据确定出的日志类型对应的决策树模型，将接收到的日志分类保存到对应的日志子类型所对应的数据库，其中，每一种日志类型对应的决策树模型，根据该种日志类型的日志对应的训练样本集确定。

在一种可能的实现方式中，所述装置还包括：

标准化模块13用于将接收到的日志中的业务字段格式转换为标准格式，和/或，将指定的字段值转换为标准值；

所述第二分类模块12具体用于根据确定出的日志类型对应的决策树模型，将业务字段格式转换为标准格式，和/或，指定的字段值转换为标准值的日志分类保存到对应的日志子类型所对应的数据库。

确定该种日志类型的日志对应的训练样本集中是否存在词频不小于设定值的键值对，若确定存在词频不小于设定值的至少两个键值对，利用词频不小于设定值的至少两个键值对，确定每个键值对同时在同一个训练样本中出现的频率，不低于门限值的键值对组合中，键值对最多的一个键值对组合，该种日志类型对应的解析规则为包括该键值对组合中的每个键值对；

若确定对应的训练样本集中不存在词频不小于设定值的键值对，或者确定对应的训练样本集中存在词频不小于设定值的键值对，但不存在词频不小于设定值的至少两个键值对，或者确定存在词频不小于设定值的至少两个键值对，但不存在每个键值对同时在同一个训练样本中出现的频率，不低于门限值的键值对组合，利用该种日志类型的日志对应的训练样本集中词频最高的前N个键值对，确定任意一个键值对在一个训练样本中出现的频率，不低于指定值的键值对组合中，键值对最少的一个键值对组合，所述N为不小于2的正整数，该种日志类型对应的解析规则为包括该键值对组合中的至少一个键值对。

在一种可能的实现方式中，所述词频最高的前N个键值对满足，其中每个键值对在训练样本集中出现次数之和，不小于训练样本集中训练样本数量的两倍。

在一种可能的实现方式中，所述装置还包括：

增强模块14用于针对指定的日志子类型所对应的数据库中的日志，根据日志中指定的业务字段的字段值，确定对应的信息，并将确定出的信息作为特定的业务字段的字段值。

根据本发明实施例一和实施例二提供的方案，可以有效接入并利用第三方日志。

通过样本训练生成解析规则，减少平台新建解析规则的繁琐步骤，并根据当前识别规则调整最长识别规则和最短识别规则，拥有较好的场景适用性和解析效率。通过训练生成的分类决策树模型，拥有较强的扩展性，能自动对日志进行分类处理，减少人为的干预，简化处理逻辑。

对第三方日志进行日志子类型的分类后，相同日志子类型的日志业务字段格式统一，字段值便于统一融合处理，易于存储，并易于上层业务有效利用。

另外通过简单配置，还可以实现日志地理位置、威胁情报、资产等信息的增强，赋予第三方日志更多的业务含义，配置灵活，适用于各种日志子类型的第三方日志。整个方案可以在不改动任何代码的情况下，可以实现第三方日志的接入和有效利用，配置功能丰富，场景适用性强。

基于同一发明构思，本发明实施例提供以下的设备和介质。

实施例三

本发明实施例三提供一种日志处理设备，该设备的结构可以如图4所示，包括处理器21、通信接口22、存储器23和通信总线24，其中，所述处理器21，所述通信接口22，所述存储器23通过所述通信总线24完成相互间的通信；

所述存储器23，用于存放计算机程序；

所述处理器21，用于执行所述存储器上所存储的程序时，实现本发明实施例一所述的方法步骤。

可选的，所述处理器21具体可以包括中央处理器(CPU)、特定应用集成电路(ASIC，Application Specific Integrated Circuit)，可以是一个或多个用于控制程序执行的集成电路，可以是使用现场可编程门阵列(FPGA，Field Programmable Gate Array)开发的硬件电路，可以是基带处理器。

可选的，所述处理器21可以包括至少一个处理核心。

可选的，所述存储器23可以包括只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)和磁盘存储器。存储器23用于存储至少一个处理器21运行时所需的数据。存储器23的数量可以为一个或多个。

本发明实施例四提供一种非易失性计算机存储介质，所述计算机存储介质存储有可执行程序，当可执行程序被处理器执行时，实现本发明实施例一提供的方法。

在具体的实施过程中，计算机存储介质可以包括：通用串行总线闪存盘(USB，Universal Serial Bus Flash Drive)、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的存储介质。

在本发明实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性或其它的形式。

在本发明实施例中的各功能单元可以集成在一个处理单元中，或者各个单元也可以均是独立的物理模块。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备，例如可以是个人计算机，服务器，或者网络设备等，或处理器(processor)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：通用串行总线闪存盘(Universal Serial Bus Flash Drive)、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、装置(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种日志处理方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，确定所述日志对应的日志类型之后，根据确定出的日志类型对应的决策树模型，将接收到的日志分类保存到对应的日志子类型所对应的数据库之前，所述方法还包括：

将接收到的日志中的业务字段格式转换为标准格式，和/或，将指定的字段值转换为标准值；

根据确定出的日志类型对应的决策树模型，将接收到的日志分类保存到对应的日志子类型所对应的数据库，包括：

根据确定出的日志类型对应的决策树模型，将业务字段格式转换为标准格式，和/或，指定的字段值转换为标准值的日志分类保存到对应的日志子类型所对应的数据库。

3.如权利要求1所述的方法，其特征在于，每一种日志类型对应的解析规则通过以下方式确定：

4.如权利要求3所述的方法，其特征在于，所述词频最高的前N个键值对满足，其中每个键值对在训练样本集中出现次数之和，不小于训练样本集中训练样本数量的两倍。

5.如权利要求1～4任一所述的方法，其特征在于，所述方法还包括：

针对指定的日志子类型所对应的数据库中的日志，根据日志中指定的业务字段的字段值，确定对应的信息，并将确定出的信息作为特定的业务字段的字段值。

6.一种日志处理装置，其特征在于，所述装置包括：

7.如权利要求6所述的装置，其特征在于，所述装置还包括：

标准化模块，用于将接收到的日志中的业务字段格式转换为标准格式，和/或，将指定的字段值转换为标准值；

所述第二分类模块，具体用于根据确定出的日志类型对应的决策树模型，将业务字段格式转换为标准格式，和/或，指定的字段值转换为标准值的日志分类保存到对应的日志子类型所对应的数据库。

8.如权利要求6所述的装置，其特征在于，每一种日志类型对应的解析规则通过以下方式确定：

9.如权利要求8所述的装置，其特征在于，所述词频最高的前N个键值对满足，其中每个键值对在训练样本集中出现次数之和，不小于训练样本集中训练样本数量的两倍。

10.如权利要求6～9任一所述的装置，其特征在于，所述装置还包括：

增强模块，用于针对指定的日志子类型所对应的数据库中的日志，根据日志中指定的业务字段的字段值，确定对应的信息，并将确定出的信息作为特定的业务字段的字段值。

11.一种非易失性计算机存储介质，其特征在于，所述计算机存储介质存储有可执行程序，该可执行程序被处理器执行实现权利要求1～5任一所述的方法。

12.一种日志处理设备，其特征在于，所述设备包括处理器、通信接口、存储器和通信总线，其中，所述处理器，所述通信接口，所述存储器通过所述通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存储的程序时，实现权利要求1～5任一所述的方法步骤。