CN105790967B

CN105790967B - 一种网络日志处理方法和装置

Info

Publication number: CN105790967B
Application number: CN201410795769.7A
Authority: CN
Inventors: 才宇东
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2014-12-18
Filing date: 2014-12-18
Publication date: 2020-04-14
Anticipated expiration: 2034-12-18
Also published as: CN105790967A

Abstract

本发明提供一种网络日志处理方法和装置，涉及通信领域，能够实现对网络日志的自动结构化。所述方法包括：采用自学习的方式生成每种类别的网络日志的正则表达式规则；在接收到网络日志时，确定所述网络日志所属的类别，并确定所述类别对应的正则表达式规则；根据确定的所述正则表达式规则对所述网络日志进行结构化处理。本发明用于网络日志处理。

Description

一种网络日志处理方法和装置

技术领域

本发明涉及通信领域，特别涉及一种网络日志处理方法和装置。

背景技术

在当前互联网极度发达的时代，各种IT系统、网络设备、安全设备都会产生大量的非结构化网络日志，非结构化网络日志是指没有固定的结构化特征的网络日志。为便于进行业务分析，在面对海量的非结构化网络日志时，日志系统需要对这些非结构化的网络日志进行处理。

当前在对非结构化网络日志进行处理时，需要开发人员手动地针对每一种类别的网络日志都做大量的分析和处理工作，这样会增加开发人员的工作量，网络日志处理效率低下。

发明内容

本发明提供一种网络日志处理方法和装置，能够实现网络日志的自动处理，从而降低开发人员的工作量，提高网络日志的处理效率。

第一方面，提供一种网络日志处理方法，所述方法包括：

采用自学习的方式生成每种类别的网络日志的正则表达式规则；

在接收到网络日志时，确定所述网络日志所属的类别，并确定所述类别对应的正则表达式规则；

根据确定的所述正则表达式规则对所述网络日志进行处理。

结合第一方面，在第一种可能的实现方式中，所述针对每种类别的网络日志，采用自学习的方式生成对应的正则表达式规则包括：

针对每种类别的网络日志，生成对应的日志样本库，所述日志样本库中包括多个日志样本；

根据所述日志样本库中的多个日志样本，确定样本标识结构交集和最终子串识别数据结构；

根据所述子串识别数据结构和样本标识结构交集，确定对应的正则表达式规则。

结合第一方面的第一种可能的实现方式，在第一方面的第二种可能的实现方式中，所述针对每种类别的网络日志，生成对应的日志样本库包括：

针对每种类别的网络日志，根据样本相似度算法，生成对应的日志样本库。

结合第一方面的第二种可能的实现方式，在第一方面的第三种可能的实现方式中，所述针对每种类别的网络日志，根据样本相似度算法，生成对应的日志样本库包括：

针对每种类别的网络日志，选取属于所述类别的种子日志；

将属于所述类别的网络日志与所述种子日志进行相似度对比；

若相似度小于第一预设阈值，则将所述网络日志作为日志样本加入所述日志样本库。

结合第一方面的第三种可能的实现方式，在第一方面的第四种可能的实现方式中，在所述将属于所述类别的日志样本与所述种子日志进行相似度对比之后，所述方法还包括：

若相似度大于第一预设阈值，则比较所述网络日志和所述种子日志的相似特征，所述相似特征包括相似度子序列位置和相似度子序列长度；

若所述相似特征小于第二预设阈值，则将所述网络日志作为日志样本加入日志样本库。

结合第一方面的第一种至第四种可能的实现方式中的任意一种，在第一方面的第五种可能的实现方式中，所述日志样本库中包括第一日志样本、第二日志样本…第n日志样本，所述根据所述日志样本库中的日志样本，确定最终子串识别数据结构包括：

查找所述第一日志样本和所述第二日志样本的最长相同特征子串，形成第一子串识别数据结构；

查找所述第一子串识别数据结构和所述第三日志样本的最长相同特征子串，形成第二子串识别数据结构；

后续继续查找，直至查找到第n-2子串识别数据结构和所述第n日志样本的最长相同特征子串时，形成最终子串识别数据结构；

其中，n为大于2的整数。

结合第一方面的第一种至第五种可能的实现方式中的任意一种，在第一方面的第六种可能的实现方式中，所述根据所述日志样本库中的日志样本，确定样本标识结构交集包括：

根据所述日志样本库中的日志样本，确定每个日志样本的样本标识结构，所述样本标识结构由特征子串和所述特征子串到不重复的其他特征子串的相对位置向量集合构成；

根据每个日志样本的样本标识结构，生成样本标识结构交集。

结合第一方面的第六种可能的实现方式，在第一方面的第七种可能的实现方式中，所述根据所述日志样本库中的日志样本，确定每个日志样本的样本标识结构包括：

根据所述日志样本库中的所有日志样本，生成子串识别数据结构，所述子串识别数据结构由所述日志样本库中所有日志样本间的相同特征子串形成，所述相同特征子串包括至少一个特征子串；

根据所述子串识别数据结构，确定所述日志样本库中每个日志样本的样本标识结构；

其中，所述样本标识结构由所述相同特征子串中的每个特征子串和所述特征子串到日志样本中的其他不重复特征子串的相对位置向量集合形成。

结合第一方面的第七种可能的实现方式，在第一方面的第八种可能的实现方式中，所述根据每个日志样本的样本标识结构，生成样本标识结构交集包括：

根据排扰规则，对每个日志样本的样本标识结构进行排扰，所述排扰是指去除所述样本标识结构中重复的特征子串；；

根据排扰后的每个日志样本的样本标识结构，形成样本标识结构交集。

结合第一方面的第八种可能的实现方式，在第一方面的第九种可能的实现方式中，所述样本标识结构中的特征子串包括第一特征子串和第二特征子串，第一特征子串和第二特征子串相同，所述排扰规则为：

若所述第一特征子串和所述第二特征子串在日志样本中关联在一起，确定所述第一特征子串和所述第二特征子串二者中处于右边的特征子串为干扰特征子串，并在所述样本标识结构中去除所述干扰特征子串；

若所述第一特征子串和所述第二特征子串在日志样本中未关联在一起，根据所述第一特征子串和所述第二特征子串各自的相对位置向量集合，分别计算它们的正态分布，并计算其他日志样本中与所述第一特征子串相同的特征子串的正态分布，从所述第一特征子串和所述第二特征子串中确定正态分布与基于其他日志样本计算的正态分布不同的特征子串为干扰特征子串，并在所述样本标识结构中去除所述干扰特征子串。

第二方面，提供一种网络日志处理装置，所述装置包括：

生成模块，用于采用自学习的方式生成每种类别的网络日志的正则表达式规则；

确定模块，用于在接收到网络日志时，确定所述网络日志所属的类别，并确定所述类别对应的正则表达式规则；

处理模块，用于根据确定的所述正则表达式规则对所述网络日志进行处理。

结合第二方面，在第二方面的第一种可能的实现方式中，所述生成模块具体用于：

结合第二方面的第一种可能的实现方式，在第二方面的第二种可能的实现方式中，当针对每种类别的网络日志，生成对应的日志样本库时，所述生成模块具体用于：

结合第二方面的第二种可能的实现方式，在第二方面的第三种可能的实现方式中，当针对每种类别的网络日志，根据样本相似度算法，生成对应的日志样本库时，所述生成模块具体用于：

针对每种类别的网络日志，选取属于所述类别的种子日志；

结合第二方面的第三种可能的实现方式，在第二方面的第四种可能的实现方式中，所述生成模块还用于：

结合第二方面的第一种至第四种可能的实现方式中的任意一种，在第二方面的第五种可能的实现方式中，所述日志样本库中包括第一日志样本、第二日志样本…第n日志样本，当根据所述日志样本库中的日志样本，确定最终子串识别数据结构时，所述生成模块具体用于：

其中，n为大于2的整数。

结合第二方面的第一种至第五种可能的实现方式中的任意一种，在第二方面的第六种可能的实现方式中，当根据所述日志样本库中的日志样本，确定样本标识结构交集时，所述生成模块具体用于：

根据所述日志样本库中的日志样本，确定每个日志样本的样本标识结构；

根据每个日志样本的样本标识结构，生成所述样本标识结构交集。

结合第二方面的第六种可能的实现方式，在第二方面的第七种可能的实现方式中，当根据所述日志样本库中的日志样本，确定每个日志样本的样本标识结构时，所述生成模块具体用于：

结合第二方面的第七种可能的实现方式，在第二方面的第八种可能的实现方式中，所述生成模块具体用于：

根据排扰规则，对每个日志样本的样本标识结构进行排扰，所述排扰是指去除所述样本标识结构中重复的特征子串；

结合第二方面的第八种可能的实现方式，在第二方面的第九种可能的实现方式中，所述样本标识结构中的特征子串包括第一特征子串和第二特征子串，所述排扰规则为：

本发明提供的网络日志处理方法，在对网络日志进行处理之前，通过自学习的方式来生成每种类别的网络日志的正则表达式规则，这样，在接收到网络日志时即可确定所述网络日志对应类别的正则表达式并应用所述正则表达式对网络日志进行处理。在此过程中，开发人员无需对不同种类的网络日志进行大量的开发工作，网络日志能够实现自动处理，降低了开发人员的工作量，提高了网络日志的处理效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种网络日志处理方法的流程图；

图2是本发明实施例提供的另一种网络日志处理方法的流程图；

图3是对日志样本库中的日志样本进行特征提取的过程示意图；

图4是本发明实施例提供的网络日志处理装置的结构示意图；

图5是本发明实施例提供的服务器的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

图1是本发明实施例提供的一种网络日志处理方法的流程图，所述方法具体可以由服务器执行。参照图1，所述方法包括：

11、采用自学习的方式生成每种类别的网络日志的正则表达式规则；

12、在接收到所述网络日志时，确定所述网络日志所属的类别，并确定所述类别对应的正则表达式规则；

13、根据确定的所述正则表达式规则对所述网络日志进行处理。

其中，本发明实施例中提出的“自学习的方式”是指，站在服务器的角度，服务器能够根据陆续接收到的网络日志，不断地对正则表达式进行调整和优化，从而在接收到设定的网络日志数量时生成最终的正则表达式规则。换言之就是，根据下一次接收到的网络日志不断地对根据上一次接收到的网络日志生成的正则表达式规则进行优化。其中，一次接收到的网络日志可以是一个或多个。在第一次接收到网络日志时，即可根据这些接收到的网络日志生成初始的正则表达式规则，之后再根据后续接收的网络日志逐步进行调整和优化。整个过程就是不断地从上一次接收的网络日志优化当前的正则表达式规则，就像是“学习”一样。

本发明实施例中提出的“对所述网络日志进行处理”包括，对所述网络日志进行识别和结构化等。

本发明实施例提供的网络日志处理方法，在对网络日志进行处理之前，通过自学习的方式来生成每种类别的网络日志的正则表达式规则，这样，在接收到网络日志时即可确定该网络日志对应的正则表达式，并应用所述正则表达式对网络日志进行处理。在此过程中，开发人员无需对不同种类的网络日志进行大量的开发工作，网络日志能够实现自动处理，降低了开发人员的工作量，提高了网络日志的处理效率。

在本发明实施例中，若需要处理的网络日志只涉及一种类别，则在生成正则表达式时，只需生成针对该类别网络日志的正则表达式规则。若需要处理的网络日志涉及多种类别，则在生成正则表达式时，需要针对每种类别的网络日志，生成该类别对应的正则表达式规则。本发明实施例中的网络日志类别包括：入侵防御系统日志、防病毒日志、登陆日志等。

在需要处理的网络日志涉及到多种类别的情形下，步骤11中所述采用自学习的方式生成网络日志的正则表达式规则可包括：

针对每种类别的网络日志，采用自学习的方式生成对应所述类别的正则表达式规则。

这样一来，每种类别的网络日志都会有与该类别对应的正则表达式规则。此时，步骤12中所述在接收到网络日志时，确定所述网络日志对应的正则表达式规则可具体包括：

在接收到网络日志时，确定所述网络日志所属的类别，以及该类别对应的正则表达式规则。

在确定网络日志所属类别的过程中，由于网络日志具有日志标识，因而可基于日志标识来进行确定。即，所述确定所述网络日志所属的类别可包括：根据所述网络日志的日志标识，确定所述网络日志所属的类别。

可选地，在本发明实施例中，对于每种类别的网络日志，可采用如下自学习的方式生成对应的正则表达式规则：

针对每种类别的网络日志，生成对应所述类别的日志样本库，所述日志样本库中包括多个日志样本；

根据所述子串识别数据结构和样本标识结构交集，确定对应所述类别的正则表达式规则。

其中，子串识别数据结构表示，通过样本分析出来的日志样本间相同的特征子串。样本标识结构由每一个样本中的每一个特征子串以及该特征子串到不重复的其他特征子串的相对位置向量集合构成。样本标识结构交集由对各个样本标识结构取交集而得来。

其中，所述针对每种类别的网络日志，生成对应所述类别的日志样本库可包括：针对每种类别的网络日志，根据样本相似度算法，生成对应所述类别的日志样本库。

在本发明实施例中，相似度算法可包含三要素：相似度百分比，相似度子序列位置和相似度子序列长度。其中，相似度子序列长度是指，网络日志中的特征子串的字符长度；相似度子序列位置是指，网络日志中的特征子串在整个网络日志中所处的位置。相似度子序列位置和相似度子序列长度可以合称为相似特征。

在本发明的一个实施例中，所述针对每种类别的网络日志，根据样本相似度算法，生成对应所述类别的日志样本库可包括：针对每种类别的网络日志，选取属于所述类别的种子日志；将属于所述类别的网络日志与所述种子日志进行相似度对比；若相似度小于第一预设阈值，则将所述网络日志作为日志样本加入所述日志样本库。

其中，日志相似度对比可采用最长公共子序列方式进行。所述第一预设阈值可以根据需要进行设定。

当然，在相似度对比的过程中，若相似度大于第一预设阈值，则不将所述网络日志加入日志样本库。可将属于所述类别的下一网络日志继续与所述种子日志进行相似度对比。最终保证加入日志样本库中的所有网络日志均是与所述种子日志进行比较后，相似度小于第一预设阈值的那些网络日志，相似度大于第一预设阈值的那些网络日志并不加入日志样本库。

进一步地，在本发明的另一个实施例中，在比较相似度百分比的过程中，若相似度大于第一预设阈值，并不直接将所述网络日志排除于日志样本库外，而是进一步比较所述网络日志和种子日志之间的相似特征。在将属于所述类别的网络日志与所述种子日志进行相似度对比之后，本实施例提供的网络日志自处理方法还可包括：

若相似度大于第一预设阈值，则比较所述网络日志和所述种子日志的相似特征，所述相似特征包括相似度子序列位置和相似度子序列长度；若所述相似特征小于第二预设阈值，则将所述网络日志作为日志样本加入日志样本库。其中，所述第二预设阈值也可以根据需要进行设定。

当然，在相似特征对比的过程中，若相似特征大于第二预设阈值，则不将所述网络日志加入日志样本库。转而将属于所述类别的下一网络日志继续与所述种子日志进行相似度对比。

如此，通过同时判定日志间的相似度百分比和相似特征，可以保证日志样本库中的日志样本的选取更加合理。

在日志样本库生成之后，后续即可根据所述日志样本库中的多个日志样本来确定样本标识结构交集和最终子串识别数据结构。

在本发明的一个实施例中，可选地，所述日志样本库中包括第一日志样本、第二日志样本…第n日志样本，所述根据所述日志样本库中的日志样本，确定最终子串识别数据结构可包括：

查找所述第一日志样本和所述第二日志样本的最长相同特征子串，形成第一子串识别数据结构；查找所述第一子串识别数据结构和所述第三日志样本的最长相同特征子串，形成第二子串识别数据结构；后续继续查找，直至查找到第n-2子串识别数据结构和所述第n日志样本的最长相同特征子串时，形成最终子串识别数据结构，即，第n-1子串识别数据结构；其中，n为大于2的整数。

在本发明的一个实施例中，可选地，所述根据所述日志样本库中的日志样本，确定样本标识结构交集可包括：根据所述日志样本库中的日志样本，确定每个日志样本的样本标识结构；根据每个日志样本的样本标识结构，生成所述样本标识结构交集。

可选地，所述根据所述日志样本库中的日志样本，确定每个日志样本的样本标识结构包括：根据所述日志样本库中的所有日志样本，生成子串识别数据结构，所述子串识别数据结构由所述日志样本库中所有日志样本间的相同特征子串形成，所述相同特征子串包括至少一个特征子串；根据所述子串识别数据结构，确定所述日志样本库中每个日志样本的样本标识结构；其中，所述样本标识结构由所述相同特征子串中的每个特征子串和所述特征子串到日志样本中的其他不重复特征子串的相对位置向量集合形成。

在本发明的一个实施例中，为了对日志样本库中的日志样本进行标准化清理，删除无用字符。在根据样本标识结构生成样本标识结构交集的过程中，可先对日志样本的样本标识结构进行排扰。其中，排扰是指，消除样本标识结构中重复的特征子串。此时，所述根据每个日志样本的样本标识结构，生成样本标识结构交集包括：根据排扰规则，对每个日志样本的样本标识结构进行排扰；根据排扰后的每个日志样本的样本标识结构，形成所述样本标识结构交集。

其中，所述样本标识结构中的特征子串包括相同的第一特征子串和第二特征子串，所述排扰规则可以为：

若第一特征子串和第二特征子串关联在一起，确定所述第一特征子串和所述第二特征子串二者中处于右边的特征子串为干扰特征子串，并在所述样本标识结构中去除所述干扰特征子串；若第一特征子串和第二特征子串未关联在一起，根据所述第一特征子串和所述第二特征子串各自的相对位置向量集合，分别计算它们的正态分布，并计算其他日志样本中与所述第一特征子串相同的特征子串的正态分布，从所述第一特征子串和所述第二特征子串中确定正态分布与基于其他日志样本计算的正态分布不同的特征子串为干扰特征子串，并在所述样本标识结构中去除所述干扰特征子串。其中，所述第一特征子串和第二特征子串关联在一起包括，有分割符号显著特征等关联，例如，第一特征子串和第二特征子串通过等号等隔开。

在本发明实施例中，步骤13中所述根据确定的所述正则表达式规则对所述网络日志进行处理可包括：根据确定的所述正则表达式规则和基于知识库式的特征匹配方法，对所述网络日志进行结构化。

在本发明实施例中，基于知识库式的特征匹配方法表示，用知识库来匹配正则表达式规则中的特征子串。其中，知识库中包括特征子串的集合，以便指定特征子串的值用什么方式去解析。

举例而言，若正则表达式规则中含有的特征子串为srcip，dstip；且知识库中记录这些特征子串对应的解析类型是long型，那么正则表达式规则中srcip，dstip对应的内容就用long型来进行解析。

在本发明实施例中，在采用自学习的方式预先生成网络日志的正则表达式规则之后，以及在对所述网络日志进行处理之前，可由用户对确定出的正则表达式规则的效果进行测试和确认。若效果不符合预期，用户可进行微调，直至达到预期效果。用户可对达到预期效果的正则表达式规则进行确认，并在日志系统使能。之后，便可对接收到的网络日志进行自动处理。

为更好地理解本发明，下面以具体实施例为例来对本发明进行进一步阐述。图2是本发明实施例提供的另一种网络日志处理方法的流程图。参照图2，本发明实施例提供的网络日志处理方法包括：

21、接收网络日志，并确定所述网络日志所属的类别。

22、针对所述类别，生成该类别对应的日志样本库，所述日志样本库中包括多个日志样本。

其中，所述日志样本库的生成过程可如下：

选取属于该类别的种子日志，其中，可以将接收到的属于该类别的第一个网络日志作为该类别的种子日志，并加入日志样本库；

将所述网络日志与所述种子日志进行相似度对比；

若相似度小于第一预设阈值，则将所述网络日志作为日志样本加入对应所述类别的日志样本库。

若相似度大于第一预设阈值，则进一步比较所述网络日志和所述种子日志的相似特征，所述相似特征包括相似度子序列位置和相似度子序列长度；

若所述相似特征小于第二预设阈值，则将所述网络日志作为日志样本加入所述日志样本库；

若所述相似特征大于第二预设阈值，则不将所述网络日志加入所述日志样本库。

举例而言，假定种子日志为(srcip＝1.1.1.1dstip＝2.2.2.2username＝zhangsan)，接收的第一个网络日志为(srcip＝1.1.1.1dstip＝5.5.5.5username＝lisi)，接收的第二个网络日志为(srcip＝4.4.4.4dstip＝2.2.2.2username＝lisi)，第一预设阈值为80％。

将第一个网络日志与所述种子日志进行相似度对比之后的结果如下：

即，两条日志的相似度为78％，小于第一预设阈值80％，因而将第一个网络日志作为日志样本加入样本库。

将第二个网络日志与所述种子日志进行相似度对比之后的结果如下：

即，两条日志的相似度为78％，小于第一预设阈值80％，因而将第二个网络日志也作为日志样本加入样本库。

当然，在本发明的其他实施例中，在相似度大于第一预设阈值时，还可以进一步比较所述日志样本和所述种子日志的相似特征，过程与上面类似，在此不作赘述。

23、根据所述日志样本库中的多个日志样本，确定样本标识结构交集和最终子串识别数据结构。

其中，子串识别数据结构表示，通过日志样本分析出来的日志样本间相同的特征子串。样本标识结构由每一个样本中的每一个特征子串以及该特征子串到不重复的其他特征子串的相对位置向量集合构成。样本标识结构交集由对各个样本标识结构取交集而得来。

其中，以日志样本库中存在n个日志样本为例，其中，n为大于2的整数。确定最终子串识别数据结构的过程可如下：

后续继续查找，直至查找到第n-2子串识别数据结构和所述第n日志样本的最长相同特征子串时，形成最终子串识别数据结构。

确定样本标识结构交集的过程可如下：

其中，确定每个日志样本的样本标识结构的过程可如下：根据所述日志样本库中的所有日志样本，生成子串识别数据结构，所述子串识别数据结构由所述日志样本库中所有日志样本间的相同特征子串形成，所述相同特征子串包括至少一个特征子串；根据所述子串识别数据结构，确定所述日志样本库中每个日志样本的样本标识结构；其中，所述样本标识结构由所述相同特征子串中的每个特征子串和所述特征子串到日志样本中的其他不重复特征子串的相对位置向量集合形成。

确定最终子串识别数据结构和样本标识结构的具体过程可参照图3。图3中的第n-1子串识别数据结构即为最终子串识别数据结构，对图3中最右侧的n个样本标识结构取交集之后的结果即为样本标识结构交集。

当然，为删除日志的无用字符，在所述根据每个日志样本的样本标识结构，生成样本标识结构交集的过程中，本发明实施例还可根据排扰规则，对每个日志样本的样本标识结构进行排扰，以去除样本标识结构中多余特征子串。排扰后，即可根据排扰后的每个日志样本的样本标识结构，形成样本标识结构交集。

其中，所述样本标识结构中的特征子串包括第一特征子串和第二特征子串，所述排扰规则为：

若第一特征子串和第二特征子串关联在一起，确定所述第一特征子串和所述第二特征子串二者中处于右边的特征子串为干扰特征子串，并在所述样本标识结构中去除所述干扰特征子串；

若第一特征子串和第二特征子串未关联在一起，根据所述第一特征子串和所述第二特征子串各自的相对位置向量集合，分别计算它们的正态分布，并计算其他日志样本中与所述第一特征子串相同的特征子串的正态分布，从所述第一特征子串和所述第二特征子串中确定正态分布与基于其他日志样本计算的正态分布不同的特征子串为干扰特征子串，并在所述样本标识结构中去除所述干扰特征子串。

下面以如下两个日志样本为例来对干扰特征子串(第一特征子串)和被干扰特征子串(第二特征子串)未关联在一起情形下的排扰方式进行说明：

1)srcip＝1.1.1.1des＝name dstip＝5.5.5.5name＝zhangsan

2)srcip＝1.1.1.1des＝device dstip＝5.5.5.5name＝zhangsan

其中，1)中从左往后的第一个name相对其他特征子串(即，scrip、des，dstip)的相对位置向量集合为：21,6,-5。即，以第一个name的左边为正，右边为负，分别计算第一个name到srcip的字符长度为21，第一个name到des的字符长度为6，以及第一个name到dstip的字符长度为-5。

类似地，1)中从左往后的第二个name的相对位置向量集合为：42,27,16。

2)中name的相对位置向量集合为：44,29,16。

然后，根据1)中第一个name的相对位置向量集合，计算1)中第一个name的正态分布；根据1)中第二个name的相对位置向量集合，计算1)中第二个name的正态分布；以及根据2)中name的相对位置向量集合计算2)中name的正态分布。

由1)中第一个name计算得出的正态分布及其视图与计算出的其他两个name(即，1)中的第二个name与2)中的name)的正态分布及其视图不同，因而，可确定1)中的第一个name为干扰特征串，需要在所述样本标识结构中去除。

24、根据所述子串识别数据结构和样本标识结构交集，确定该类别对应的正则表达式规则。

当然在此步骤中，用户可对正则表达式规则效果进行测试和确认，待确认后，正则表达式规则即可启用生效。

25、后续在接收到网络日志时，确定后续接收的所述网络日志所属类别对应的正则表达式规则。

26、根据确定的所述正则表达式规则和基于知识库式的特征匹配方法，对后续接收的所述网络日志进行处理。

在本发明实施例中，基于知识库式的特征匹配方法表示，用知识库来匹配正则表达式规则中的特征子串。其中，知识库中包括特征子串的集合，以便指定特征串的值用什么方式去解析。举例而言，若正则表达式规则中含有的特征子串为port和IP，且在知识库中记录了如下对应关系：IP为整型；port为整型等，那么正则表达式规则中port和IP对应的内容就用整型来进行解析。

本发明实施例提供的网络日志处理方法，通过特有的样本采集分析技术自学习网络上非结构化文本信息，使得网络日志分析系统智能化地对网络日志进行结构化，不但降低了开发人员的工作量，大大缩减了系统的定制成本，而且使用户达到零学习成本使用系统，体验上更加友好、便捷。

相应地，本发明实施例还提供一种网络日志处理装置，所述装置具体可以为服务器。参照图4，本发明实施例提供的网络日志处理装置40可包括生成模块41、确定模块42和处理模块43。其中：

生成模块41，用于采用自学习的方式生成每种类别的网络日志的正则表达式规则；

确定模块42，用于在接收到网络日志时，确定所述网络日志所属的类别，并确定所述类别对应的正则表达式规则；

处理模块43，用于根据确定的所述正则表达式规则对所述网络日志进行处理。

本发明实施例提供的网络日志处理方法，在对网络日志进行处理之前，通过自学习的方式来生成网络日志的正则表达式规则，这样，在接收到网络日志时即可确定该网络日志对应的正则表达式并应用所述正则表达式对网络日志进行处理。在此过程中，开发人员无需对不同种类的网络日志进行大量的开发工作，网络日志能够实现自动处理，降低了开发人员的工作量，提高了网络日志的处理效率。

可选地，所述生成模块41可具体用于：

当针对每种类别的网络日志，生成对应的日志样本库时，可选地，所述生成模块41可具体用于：

其中，当针对每种类别的网络日志，根据样本相似度算法，生成对应的日志样本库时，所述生成模块41可具体用于：

针对每种类别的网络日志，选取属于所述类别的种子日志；

可选地，所述生成模块还可用于：

在本发明的一个实施例中，所述日志样本库中包括第一日志样本、第二日志样本…第n日志样本，所述根据所述日志样本库中的日志样本，当根据所述日志样本库中的日志样本，确定最终子串识别数据结构时，所述生成模块41可具体用于：

其中，n为大于2的整数。

在本发明的一个实施例中，所述生成模块41可具体用于：

可选地，当根据所述日志样本库中的日志样本，确定样本标识结构交集时，所述生成模块41具体用于：

进一步可选地，当根据每个日志样本的样本标识结构，生成样本标识结构交集时，所述生成模块41可具体用于：

其中，所述样本标识结构中的特征子串可包括相同的第一特征子串和第二特征子串，所述排扰规则可以为：

可选地，在本发明的一个实施例中，所述处理模块43可具体用于：

根据确定的所述正则表达式规则和基于知识库式的特征匹配装置，对所述网络日志进行结构化。

本发明实施例提供的网络日志处理方法，通过特有的样本采集分析技术自学习网络上非结构化文本信息，使得网络日志分析系统智能化地对网络日志进行自动结构化，不但降低了开发人员的工作量，大大缩减了系统的定制成本，而且使用户达到零学习成本使用系统，体验上更加友好、便捷。

图5是本发明实施例提供的服务器的示意图。参照图5，本发明实施例提供的服务器包括处理器501、存储器502、通信接口503和总线。其中，处理器501、存储器502、通信接口503通过总线完成相互间的通信。

所述总线可以是工业标准体系结构(Industry Standard Architecture，简称为ISA)总线、外部设备互连(Peripheral Component，简称为PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture，简称为EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图5中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。其中：

存储器502用于存储可执行程序代码，该程序代码包括计算机操作指令。存储器502可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

在一个实施例中，处理器501通过读取存储器502中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于：

根据确定的所述正则表达式规则对所述网络日志进行处理。

在另一个实施例中，处理器501通过读取存储器502中存储的可执行程序代码来运行与所述可执行程序代码对应的程序，以用于：

处理器501可能是一个中央处理器(Central Processing Unit，简称为CPU)，或者是专用集成电路(Application Specific Integrated Circuit，简称为ASIC)，或者是被配置成实施本发明实施例的一个或多个集成电路。

需说明的是，上述处理器501除了具有上述功能之外，还可用于执行上述方法实施例中的其他流程，在此不再赘述。

通信接口503主要用于实现本实施例的流量来源确定设备与其他设备或装置之间的通信。

本发明实施例提供的服务器，通过特有的样本采集分析技术自学习网络上非结构化文本信息，使得网络日志分析系统智能化地对网络日志进行结构化，不但降低了开发人员的工作量，大大缩减了系统的定制成本，而且使用户达到零学习成本使用系统，体验上更加友好、便捷。

相应地，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括用以执行上述方法实施例中的各种操作的指令。

相应地，本发明实施例还提供一种存储介质，所述存储介质用于存储上述计算机程序产品。

需要说明的是：上述实施例提供的网络日志处理装置在对网络日志进行处理时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将真正的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的网络日志处理装置与网络日志处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的原则之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种网络日志处理方法，其特征在于，所述方法包括：

根据所述最终子串识别数据结构和样本标识结构交集，确定对应所述类别的正则表达式规则；

根据确定的所述正则表达式规则对所述网络日志进行处理。

2.根据权利要求1所述的方法，其特征在于，所述针对每种类别的网络日志，生成对应所述类别的日志样本库包括：

针对每种类别的网络日志，根据样本相似度算法，生成对应所述类别的日志样本库。

3.根据权利要求2所述的方法，其特征在于，所述针对每种类别的网络日志，根据样本相似度算法，生成对应所述类别的日志样本库包括：

针对每种类别的网络日志，选取属于所述类别的种子日志；

4.根据权利要求3所述的方法，其特征在于，在所述将属于所述类别的日志样本与所述种子日志进行相似度对比之后，所述方法还包括：

若所述相似特征小于第二预设阈值，则将所述网络日志作为日志样本加入所述日志样本库。

5.根据权利要求1-4中任意一项所述的方法，其特征在于，所述日志样本库中包括第一日志样本、第二日志样本…第n日志样本，所述根据所述日志样本库中的日志样本，确定最终子串识别数据结构包括：

查找所述第一日志样本和所述第二日志样本的相同特征子串，形成第一子串识别数据结构；

查找所述第一子串识别数据结构和第三日志样本的相同特征子串，形成第二子串识别数据结构；

后续继续查找，直至查找到第n-2子串识别数据结构和所述第n日志样本的相同特征子串时，形成最终子串识别数据结构；

其中，n为大于2的整数。

6.根据权利要求1-5中任意一项所述的方法，其特征在于，所述根据所述日志样本库中的日志样本，确定样本标识结构交集包括：

7.根据权利要求6所述的方法，其特征在于，所述根据所述日志样本库中的日志样本，确定每个日志样本的样本标识结构包括：

8.根据权利要求7所述的方法，其特征在于，所述根据每个日志样本的样本标识结构，生成样本标识结构交集包括：

根据排扰后的每个日志样本的样本标识结构，生成所述样本标识结构交集。

9.根据权利要求8所述的方法，其特征在于，所述样本标识结构中的特征子串包括相同的第一特征子串和第二特征子串，所述排扰规则为：

若所述第一特征子串和所述第二特征子串在日志样本中未关联在一起，根据所述第一特征子串和所述第二特征子串各自的相对位置向量集合，分别计算所述第一特征子串和第二特征子串的正态分布，并计算其他日志样本中与所述第一特征子串相同的特征子串的正态分布，从所述第一特征子串和所述第二特征子串中确定正态分布与基于其他日志样本计算的正态分布不同的特征子串为干扰特征子串，并在所述样本标识结构中去除所述干扰特征子串。

10.一种网络日志处理装置，其特征在于，所述装置包括：

生成模块，用于针对每种类别的网络日志，生成对应的日志样本库，所述日志样本库中包括多个日志样本；根据所述日志样本库中的多个日志样本，确定样本标识结构交集和最终子串识别数据结构；根据所述最终子串识别数据结构和样本标识结构交集，确定对应所述类别的正则表达式规则；

11.根据权利要求10所述的装置，其特征在于，当针对每种类别的网络日志，生成对应的日志样本库时，所述生成模块具体用于：

12.根据权利要求11所述的装置，其特征在于，当针对每种类别的网络日志，根据样本相似度算法，生成对应的日志样本库时，所述生成模块具体用于：

针对每种类别的网络日志，选取属于所述类别的种子日志；

13.根据权利要求12所述的装置，其特征在于，所述生成模块还用于：

14.根据权利要求10-13中任意一项所述的装置，其特征在于，所述日志样本库中包括第一日志样本、第二日志样本…第n日志样本，当根据所述日志样本库中的日志样本，确定最终子串识别数据结构时，所述生成模块具体用于：

其中，n为大于2的整数。

15.根据权利要求10-14中任意一项所述的装置，其特征在于，当根据所述日志样本库中的日志样本，确定样本标识结构交集时，所述生成模块具体用于：

16.根据权利要求15所述的装置，其特征在于，当根据所述日志样本库中的日志样本，确定每个日志样本的样本标识结构时，所述生成模块具体用于：

17.根据权利要求16所述的装置，其特征在于，当根据每个日志样本的样本标识结构，生成样本标识结构交集时，所述生成模块具体用于：

18.根据权利要求17所述的装置，其特征在于，所述样本标识结构中的特征子串包括相同的第一特征子串和第二特征子串，所述排扰规则为：