CN109543739A

CN109543739A - 一种日志分类方法、装置、设备及可读存储介质

Info

Publication number: CN109543739A
Application number: CN201811362667.0A
Authority: CN
Inventors: 张欢; 范渊; 刘博�; 龙文洁
Original assignee: Hangzhou Dbappsecurity Technology Co Ltd
Current assignee: DBAPPSecurity Co Ltd; Hangzhou Dbappsecurity Technology Co Ltd
Priority date: 2018-11-15
Filing date: 2018-11-15
Publication date: 2019-03-29

Abstract

本发明公开了一种日志分类方法，包括：获取待分类的日志数据，并提取日志数据中的日志特征值，得到日志特征值集合；通过KNN算法和基于均值漂移算法处理得到的样本类别，对日志特征值集合中的日志特征值进行分类，得到日志数据的分类结果；将分类结果进行可视化展示并存储。该方法中使用的KNN算法可以提高分类效率，且样本类别基于均值漂移算法处理得到，降低了数据处理量，还避免了过拟合现象的出现。因此上述方法减少了分类过程的数据处理量，提高了分类效率和准确性。相应地，本发明公开的一种日志分类装置、设备及可读存储介质，也同样具有上述技术效果。

Description

一种日志分类方法、装置、设备及可读存储介质

技术领域

本发明涉及计算机技术领域，更具体地说，涉及一种日志分类方法、装置、设备及可读存储介质。

背景技术

计算机运行产生的日志数据里蕴含着有价值的信息，为了提取和管理这些信息，需要对日志进行分类。具体的，网络设备、系统及服务程序等，在运作时都会产生一个叫log的事件记录，即日志，日志中记录着时间、操作对象及操作信息等内容。

在现有技术中，一般采用神经网络等庞大复杂的算法对日志进行分类，但由于神经网络算法的训练时间较长，不容易实现，且分类过程中需要将当前待处理的数据与样本中的每一个类别数据进行比对，从而增加了分类过程的数据处理量，降低了分类效率；并且还可能出现过拟合现象，造成分类结果的准确性降低。其中，过拟合现象为训练出来的神经网络模型在训练集上表现良好，但是在测试集上表现较差的现象。

因此，如何提高日志分类效率和准确率，是本领域技术人员需要解决的问题。

发明内容

本发明的目的在于提供一种日志分类方法、装置、设备及可读存储介质，以提高日志分类效率和准确率。

为实现上述目的，本发明实施例提供了如下技术方案：

一种日志分类方法，包括：

获取待分类的日志数据，并提取所述日志数据中的日志特征值，得到日志特征值集合；

通过KNN算法和基于均值漂移算法处理得到的样本类别，对所述日志特征值集合中的日志特征值进行分类，得到所述日志数据的分类结果；

将所述分类结果进行可视化展示并存储。

其中，所述通过KNN算法和基于均值漂移算法处理得到的样本类别，对所述日志特征值集合中的日志特征值进行分类，得到所述日志数据的分类结果，包括：

针对所述日志特征值集合中的每个日志特征值，按照下述步骤确定日志特征值所属的类别：

计算当前日志特征值与所述样本类别中的每个类别的中心点的距离；

将得到的多个距离进行冒泡排序，并取预设数目个目标距离；

根据每个目标距离对应的模式在所述样本类别中的模式出现频率，确定当前日志特征值所属的类别；

其中，所述样本类别由多个类别组成，每个类别由多个模式组成，每个模式对应有特征向量。

其中，还包括：

当存在多个目标距离对应的模式在所述样本类别中的模式出现频率相同时，确定所述多个目标距离中的最小距离所属的类别，并将所述最小距离所属的类别作为当前日志特征值所属的类别。

其中，基于所述均值漂移算法处理得到样本类别，包括：

S1、获取样本数据，并提取所述样本数据中的样本特征值；

S2、在所述样本特征值中随机选取目标特征值，并以所述目标特征值为圆心，按照预设的半径确定目标集合；分别计算所述目标集合中除所述目标特征值以外的其他特征值的向量，并对所有向量求和，得到目标向量；

S3、按照所述目标向量移动所述圆心，并重复执行所述以所述目标特征值为圆心，按照预设的半径确定目标集合；分别计算所述目标集合中除所述目标特征值以外的其他特征值的向量，并对所有向量求和，得到目标向量的步骤；

S4、当所述目标向量满足预设的条件时，确定一个目标簇；

S5、判断所有样本特征值是否已被归类；若否，则返回S2；若是，则执行S6；

S6、根据得到的目标簇生成所述样本类别。

其中，还包括：

若当前样本特征值被归类至多个目标簇，则将覆盖当前样本特征值次数最多的目标簇确定为当前样本特征值的簇。

一种日志分类装置，包括：

获取模块，用于获取待分类的日志数据，并提取所述日志数据中的日志特征值，得到日志特征值集合；

分类模块，用于通过KNN算法和基于均值漂移算法处理得到的样本类别，对所述日志特征值集合中的日志特征值进行分类，得到所述日志数据的分类结果；

执行模块，用于将所述分类结果进行可视化展示并存储。

其中，所述分类模块包括：

计算单元，用于针对所述日志特征值集合中的每个日志特征值，计算当前日志特征值与所述样本类别中的每个类别的中心点的距离；

排序单元，用于将得到的多个距离进行冒泡排序，并取预设数目个目标距离；

确定单元，用于根据每个目标距离对应的模式在所述样本类别中的模式出现频率，确定当前日志特征值所属的类别；其中，所述样本类别由多个类别组成，每个类别由多个模式组成，每个模式对应有特征向量。

其中，所述分类模块还包括：

分类单元，用于当存在多个目标距离对应的模式在所述样本类别中的模式出现频率相同时，确定所述多个目标距离中的最小距离所属的类别，并将所述最小距离所属的类别作为当前日志特征值所属的类别。

一种日志分类设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现上述任意一项所述的日志分类方法的步骤。

一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项所述的日志分类方法的步骤。

通过以上方案可知，本发明实施例提供的一种日志分类方法，包括：获取待分类的日志数据，并提取所述日志数据中的日志特征值，得到日志特征值集合；通过KNN算法和基于均值漂移算法处理得到的样本类别，对所述日志特征值集合中的日志特征值进行分类，得到所述日志数据的分类结果；将所述分类结果进行可视化展示并存储。

可见，所述方法利用KNN算法对待分类的日志数据进行处理，其中使用了基于均值漂移算法处理得到的样本类别。具体的，KNN算法作为轻量级的分类算法，可以提高分类效率，且样本类别基于均值漂移算法处理得到，减少了待分类的日志数据与样本类别的对比处理过程的数据处理量，还避免了过拟合现象的出现。因此上述方法减少了分类过程的数据处理量，提高了分类效率和准确性。

相应地，本发明实施例提供的一种日志分类装置、设备及可读存储介质，也同样具有上述技术效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例公开的一种日志分类方法流程图；

图2为本发明实施例公开的一种确定日志特征值所属类别的方法流程图；

图3为本发明实施例公开的一种基于均值漂移算法获得样本类别的方法流程图；

图4为本发明实施例公开的一种日志分类装置示意图；

图5为本发明实施例公开的一种日志分类设备示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种日志分类方法、装置、设备及可读存储介质，以提高日志分类效率和准确率。

参见图1，本发明实施例提供的一种日志分类方法，包括：

S101、获取待分类的日志数据，并提取日志数据中的日志特征值，得到日志特征值集合；

具体的，待分类的日志数据即为计算机运行时产生的log事件记录。日志数据中的日志特征值即为每条log事件记录中的访问端口、IP、访问结果、访问路径等各种具体信息。

S102、通过KNN算法和基于均值漂移算法处理得到的样本类别，对日志特征值集合中的日志特征值进行分类，得到日志数据的分类结果；

优选地，所述通过KNN算法和基于均值漂移算法处理得到的样本类别，对所述日志特征值集合中的日志特征值进行分类，得到所述日志数据的分类结果，包括：针对所述日志特征值集合中的每个日志特征值，按照下述步骤确定日志特征值所属的类别，确定日志特征值所属类别的方法流程图请参见图2。

S201、计算当前日志特征值与样本类别中的每个类别的中心点的距离；

S202、将得到的多个距离进行冒泡排序，并取预设数目个目标距离；

S203、根据每个目标距离对应的模式在样本类别中的模式出现频率，确定当前日志特征值所属的类别。

其中，还包括：当存在多个目标距离对应的模式在所述样本类别中的模式出现频率相同时，确定所述多个目标距离中的最小距离所属的类别，并将所述最小距离所属的类别作为当前日志特征值所属的类别。

S103、将分类结果进行可视化展示并存储。

请参见图3，图3为基于均值漂移算法获得样本类别的方法流程图。具体的。基于所述均值漂移算法处理得到样本类别，包括：

S1、获取样本数据，并提取样本数据中的样本特征值；

S2、在样本特征值中随机选取目标特征值，并以目标特征值为圆心，按照预设的半径确定目标集合；分别计算目标集合中除目标特征值以外的其他特征值的向量，并对所有向量求和，得到目标向量；

S3、按照目标向量移动圆心，并重复执行以目标特征值为圆心，按照预设的半径确定目标集合；分别计算目标集合中除目标特征值以外的其他特征值的向量，并对所有向量求和，得到目标向量的步骤；

S4、当目标向量满足预设的条件时，确定一个目标簇；

S6、根据得到的目标簇生成样本类别。

其中，还包括：若当前样本特征值被归类至多个目标簇，则将覆盖当前样本特征值次数最多的目标簇确定为当前样本特征值的簇。

具体的，均值漂移算法的原理是：在一个有N个样本点的特征空间，初始确定一个中心点，计算在设置的半径为D的圆形区域内所有的点与中心点的向量，并计算整个圆形区域内所有向量的平均值，得到一个偏移均值，按偏移均值的方向和模大小将中心点移动到偏移均值位置，如此重复移动，直到满足预设的条件。

具体的，半径一般取值小于1。对半径内的其他特征值的向量求和的公式为：

其中，M(x)表示偏移向量；K表示圆形区域内除目标特征值之外的特征值的个数；s_h表示整个圆形区域，h为圆形区域的半径，该圆形区域为高维球区域；X表示圆形区域内的其他特征值，X_i为目标特征值，即中心点。也就是说，圆形区域内的各个特征值可以看作各个点。

移动中心点时，可按照公式X^t+1＝M^t+x^t执行，其中，M^t为t状态下求得的偏移均值；x^t为t状态下的中心点，X^t+1表示移动方向和移动距离。

计算过程中，如果收敛时当前簇c的中心点与其它已经存在的簇c2的中心的距离小于阈值，那么把c2和c合并；否则，把c作为新的聚类，增加1类。

可见，本实施例提供了一种日志分类方法，所述方法利用KNN算法对待分类的日志数据进行处理，其中使用了基于均值漂移算法处理得到的样本类别。具体的，KNN算法作为轻量级的分类算法，可以提高分类效率，且样本类别基于均值漂移算法处理得到，减少了待分类的日志数据与样本类别的对比处理过程的数据处理量，还避免了过拟合现象的出现。因此上述方法减少了分类过程的数据处理量，提高了分类效率和准确性。

基于上述实施例，需要说明的是，通过KNN算法处理待分类日志数据的具体过程包括：

设样本类别的模式集合为C＝{C₁，C₂，...，C_m}，1m＜1000，模式的特征向量为X＝{x₁，x₂，...，x_n}，n＜20，x_n的取值为0或1，0表示无该特征，1表示有该特征。

对于待分类的日志数据，提取其中的特征数据，即日志特征值，得到集合Y。每个日志特征值用1或0表示。计算日志特征值与样本类别中的每个样本之间的距离。距离计算公式为：

其中，x_k表示样本类别中的样本，y_k表示日志特征值，d(x，y)表示距离。将集合Y与集合C中的样本进行计算，求得距离矩阵D＝{d1，d2，d3…dm}，dm指的是Y与C之间的距离。

将矩阵D按照dm的递增关系进行冒泡排序，并选取距离最小的K个点，K的取值一般不大于20；从矩阵D排序后的结果中选取前K个值。确定前K个点所在类别的出现频率；将选取的前K个值映射到集合C中，找到所对应的K个模式，计算这K个模式所属类别的出现频率。

其中，出现频率的计算公式为：

其中，f表示出现频率，a表示样本数据中K模式出现的次数，b表示样本数据的总数。特别指出，若在前K个值中所属类别的出现频率相同，则选取与Y距离最近的模式所属类别作为结果。

例如：选取10个值，其中有5个属于模式A，5个属于模式B，那么看最小距离落在模式A中还是模式B中；若最小距离落在模式A中，则将模式A对应的类别确定为当前特征值的类别；若最小距离落在模式B中，则将模式B对应的类别确定为当前特征值的类别。

下面对本发明实施例提供的一种日志分类装置进行介绍，下文描述的一种日志分类装置与上文描述的一种日志分类方法可以相互参照。

参见图4，本发明实施例提供的一种日志分类装置，包括：

获取模块401，用于获取待分类的日志数据，并提取所述日志数据中的日志特征值，得到日志特征值集合；

分类模块402，用于通过KNN算法和基于均值漂移算法处理得到的样本类别，对所述日志特征值集合中的日志特征值进行分类，得到所述日志数据的分类结果；

执行模块403，用于将所述分类结果进行可视化展示并存储。

其中，所述分类模块包括：

其中，所述分类模块还包括：

其中，还包括处理模块，所述处理模块用于基于所述均值漂移算法处理得到样本类别，包括：

获取单元，用于获取样本数据，并提取所述样本数据中的样本特征值；

向量计算单元，用于在所述样本特征值中随机选取目标特征值，并以所述目标特征值为圆心，按照预设的半径确定目标集合；分别计算所述目标集合中除所述目标特征值以外的其他特征值的向量，并对所有向量求和，得到目标向量；

求和单元，用于按照所述目标向量移动所述圆心，并重复执行所述以所述目标特征值为圆心，按照预设的半径确定目标集合；分别计算所述目标集合中除所述目标特征值以外的其他特征值的向量，并对所有向量求和，得到目标向量的步骤；

簇确定单元，用于当所述目标向量满足预设的条件时，确定一个目标簇；

判断单元，用于判断所有样本特征值是否已被归类；若否，则执行所述计算单元中的步骤；若是，则执行生成单元中的步骤；

生成单元，用于根据得到的目标簇生成所述样本类别。

其中，还包括：

确定模块，用于若当前样本特征值被归类至多个目标簇，则将覆盖当前样本特征值次数最多的目标簇确定为当前样本特征值的簇。

可见，本实施例提供了一种日志分类装置，包括：获取模块、分类模块以及执行模块。首先由获取模块获取待分类的日志数据，并提取所述日志数据中的日志特征值，得到日志特征值集合；然后分类模块通过KNN算法和基于均值漂移算法处理得到的样本类别，对所述日志特征值集合中的日志特征值进行分类，得到所述日志数据的分类结果；最后执行模块将所述分类结果进行可视化展示并存储。如此各个模块之间分工合作，各司其职，从而减少了分类过程的数据处理量，提高了分类效率和准确性。

下面对本发明实施例提供的一种日志分类设备进行介绍，下文描述的一种日志分类设备与上文描述的一种日志分类方法及装置可以相互参照。

参见图5，本发明实施例提供的一种日志分类设备，包括：

存储器501，用于存储计算机程序；

处理器502，用于执行所述计算机程序时实现上述任意实施例所述的日志分类方法的步骤。

下面对本发明实施例提供的一种可读存储介质进行介绍，下文描述的一种可读存储介质与上文描述的一种日志分类方法、装置及设备可以相互参照。

一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任意实施例所述的日志分类方法的步骤。

为了说明本发明的实施效果，现列举如下实验过程，本次实验的样本数据为：

1)过多的出站流量：EOT

2)过多的入站流量：EIT

3)下班时间VPN登录：VPNLI

4)防火墙接受：FWA

5)防火墙拒接：FWD

6)从内部网络之外登录：LOIN

7)连续多次失败登录：MFL

8)至少一次成功登录：SL

9)单一来源探查多个目标IP：SSPMD

10)单一来源探查多个目标IP和端口：SSPMDP

各个模式和每个模式拥有的特征集(空白表示这模式没有该特征)请参见表1。

表1

设置拥有特征表示为1，没有特表示为0，则样本数据的矩阵A为：

对于待分类的日志数据，其特征表示请参见表2。

表2

EOT

EIT

VPNLI

FWA

FWD

LOIN

MFL

SL

SSPMD

SSPMDP

Yes

依据表2可知，待分类数据的矩阵B为：

计算矩阵A中各个元素与矩阵B中的各个元素之间的距离，并递增冒泡排序，得到的距离矩阵C为：

选取距离最小的K个点：此处的样本数值较少，所以K的取值为1。并确定前K个点所在类别的出现频率：为k的取值为1，则前K个点所在类别的出现频率都为100％，那么得到的分类结果请参见表3。

表3

其中，需要说明的是，由于上述过程中的样本数据较少，因此未采用均值漂移算法对样本数据进行处理。但在实际应用过程中，为提高计算效率，可以利用均值漂移算法对样本数据进行处理。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种日志分类方法，其特征在于，包括：

将所述分类结果进行可视化展示并存储。

2.根据权利要求1所述的日志分类方法，其特征在于，所述通过KNN算法和基于均值漂移算法处理得到的样本类别，对所述日志特征值集合中的日志特征值进行分类，得到所述日志数据的分类结果，包括：

3.根据权利要求2所述的日志分类方法，其特征在于，还包括：

4.根据权利要求3所述的日志分类方法，其特征在于，基于所述均值漂移算法处理得到样本类别，包括：

S1、获取样本数据，并提取所述样本数据中的样本特征值；

S4、当所述目标向量满足预设的条件时，确定一个目标簇；

S6、根据得到的目标簇生成所述样本类别。

5.根据权利要求4所述的日志分类方法，其特征在于，还包括：

6.一种日志分类装置，其特征在于，包括：

执行模块，用于将所述分类结果进行可视化展示并存储。

7.根据权利要求6所述的日志分类装置，其特征在于，所述分类模块包括：

8.根据权利要求7所述的日志分类装置，其特征在于，所述分类模块还包括：

9.一种日志分类设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1-5任意一项所述的日志分类方法的步骤。

10.一种可读存储介质，其特征在于，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-5任意一项所述的日志分类方法的步骤。