CN109388711A

CN109388711A - 日志流聚类的方法和装置

Info

Publication number: CN109388711A
Application number: CN201811032904.7A
Authority: CN
Inventors: 方建生
Original assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd
Current assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd
Priority date: 2018-09-05
Filing date: 2018-09-05
Publication date: 2019-02-26

Abstract

本发明涉及计算机设备日志处理技术领域。为了解决目前对日志数据的分析挖掘计算成本高昂、准确率低的问题，本发明实施例提供了一种日志流聚类的方法和装置，该日志流聚类的方法包括以下步骤：基于历史日志训练聚类模型；设置日志流的增量日志大小；当日志流汇集至增量日志大小时，基于增量日志更新训练聚类模型；使用增量更新后的聚类模型对日志流中的每条日志进行分类。本发明实施例实现了日志数据分析挖掘计算成本小、准确率高的目的。

Description

日志流聚类的方法和装置

技术领域

本发明涉及计算机设备日志处理技术领域，具体而言，涉及一种日志流聚类的方法和装置。

背景技术

本发明对于背景技术的描述属于与本发明相关的相关技术，仅仅是用于说明和便于理解本发明的发明内容，不应理解为申请人明确认为或推定申请人认为是本发明在首次提出申请的申请日的现有技术。

IT运维中服务器、网络设备、Web中间件等会产生日志数据，利用大数据技术和机器学习方法对日志数据进行分析挖掘，可应用于运维的监控、审计、告警等场景。但是，目前对日志数据的分析挖掘计算成本高昂，且准确率低。

发明内容

为了解决目前对日志数据的分析挖掘计算成本高昂、准确率低的问题，本发明实施例提供了一种日志流聚类的方法和装置，实现了日志数据分析挖掘计算成本小、准确率高的目的。

第一方面，本发明提供了一种日志流聚类的装置，包括：第一训练单元，所述第一训练单元用于基于历史日志训练聚类模型；设置单元，所述设置单元用于设置日志流的增量日志大小；第二训练单元，所述第二训练单元用于当所述日志流汇集至所述增量日志大小时，基于所述增量日志训练所述聚类模型；分类单元，所述分类单元用于使用所述聚类模型对所述日志流进行分类。

优选地，所述第一训练单元包括：采集模块，所述采集模块用于采集历史日志；第一处理模块，所述第一处理模块用于对所述历史日志进行文本处理；第二处理模块，所述第二处理模块用于对所述历史日志进行哈希特征向量化；训练模块，所述训练模块用于使用所述历史日志训练所述聚类模型；保存模块，所述保存模块用于保存所述聚类模型。

优选地，所述第一训练单元还用于选择所述聚类模型的参数；所述第二训练单元还用于基于所述增量日志训练所述聚类模型时应用所述参数。

优选地，所述聚类模型包括k-means聚类模型，所述参数包括K值。

优选地，所述第二训练单元还用于对所述增量日志进行文本处理及哈希特征向量化。

优选地，所述第一训练单元还用于定期基于历史日志训练聚类模型。

第二方面，本发明实施例提供了一种日志流聚类的方法，包括以下步骤：

基于历史日志训练聚类模型；设置日志流的增量日志大小；当所述日志流汇集至所述增量日志大小时，基于所述增量日志训练所述聚类模型；使用所述聚类模型对所述日志流进行分类。

优选地，所述基于历史日志训练聚类模型的步骤包括：采集历史日志；对所述历史日志进行文本处理；对所述历史日志进行哈希特征向量化；使用所述历史日志训练所述聚类模型；保存所述聚类模型。

优选地，所述基于历史日志训练聚类模型的步骤包括选择所述聚类模型的参数；所述步骤基于所述增量日志训练所述聚类模型中应用所述参数。

优选地，所述使用所述增量日志训练所述聚类模型之前还包括：对所述增量日志进行文本处理及哈希特征向量化。

优选地，定期执行所述基于历史日志训练聚类模型的步骤。

第三方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述的方法的步骤。

第四方面，本发明实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述的方法的步骤。

本发明实施例日志流聚类的装置具有如下有益效果：

本发明实施例日志流聚类的装置实现了对实时日志流的聚类，第一训练单元基于历史日志训练聚类模型，随着时间的推移，日志的内容会发生变化，第二训练单元基于增量日志训练上述聚类模型，经过增量学习后更新聚类模型，分类单元利用更新后的聚类模型对本批日志进行分类，也就是说本发明实施例采用模型增量学习，这样一方面避免了因日志流的数据已变化但聚类模型未更新而出现的错误分类问题，另一方面每次小批量(即增量)训练模型，计算成本小。本发明实施例日志流聚类的装置实现了对实时日志流的聚类，而且计算成本小、准确率高。

附图说明

图1为本发明实施例日志流聚类的装置的结构示意图；

图2为图1所示的日志流聚类的装置的工作流程图；

图3为本发明优选实施例中第一训练单元的结构示意图；

图4为图3所示的第一训练单元的工作流程图。

具体实施方式

下面结合附图和实施例对本申请进行进一步的介绍。

在下述介绍中，术语“第一”、“第二”仅为用于描述的目的，而不能理解为指示或暗示相对重要性。下述介绍提供了本发明的多个实施例，不同实施例之间可以替换或者合并组合，因此本申请也可认为包含所记载的相同和/或不同实施例的所有可能组合。因而，如果一个实施例包含特征A、B、C，另一个实施例包含特征B、D，那么本申请也应视为包括含有A、B、C、D的一个或多个所有其他可能的组合的实施例，尽管该实施例可能并未在以下内容中有明确的文字记载。

下面的描述提供了示例，并且不对权利要求书中阐述的范围、适用性或示例进行限制。可以在不脱离本申请内容的范围的情况下，对描述的元素的功能和布置做出改变。各个示例可以适当省略、替代或添加各种过程或组件。例如所描述的方法可以以所描述的顺序不同的顺序来执行，并且可以添加、省略或组合各种步骤。此外，可以将关于一些示例描述的特征组合到其他示例中。

本发明实施例提供了一种日志流聚类的装置，包括：第一训练单元，该第一训练单元用于基于历史日志训练聚类模型；设置单元，该设置单元用于设置日志流的增量日志大小；第二训练单元，该第二训练单元用于当日志流汇集至增量日志大小时，基于增量日志训练聚类模型；分类单元，该分类单元用于使用聚类模型对日志流进行分类。

下面对本发明实施例进行详细介绍。

图1为本发明实施例日志流聚类的装置的结构示意图，如图1所示，本发明实施例日志流聚类的装置10包括：第一训练单元11，该第一训练单元11用于基于历史日志训练聚类模型；设置单元12，该设置单元12用于设置日志流的增量日志大小；第二训练单元13，该第二训练单元13用于当日志流汇集至增量日志大小时，基于增量日志训练聚类模型；分类单元14，该分类单元14用于使用聚类模型对日志流进行分类。

图2为图1所示的日志流聚类的装置的工作流程图，如图2所示，本发明实施例日志流聚类的工作流程包括：步骤101，基于历史日志训练聚类模型；步骤102，设置日志流中的增量日志大小；步骤103，当日志流汇集至增量日志大小时，基于增量日志训练聚类模型；步骤104，使用聚类模型对日志流进行分类。

步骤101，基于历史日志训练聚类模型。

在本发明的一个实施例中，第一训练单元11基于历史日志训练聚类模型。本步骤采集历史日志以用于训练聚类模型，通过设置不同的参数来训练模型，从而选择出较佳的参数，该较佳的参数可以作为后续模型增量训练的依据。

图3为本发明优选实施例中第一训练单元的结构示意图，如图3所示，第一训练单元11包括：采集模块111，该采集模块111用于采集历史日志；第一处理模块112，该第一处理模块112用于对历史日志进行文本处理；第二处理模块113，该第二处理模块113用于对历史日志进行哈希特征向量化；训练模块114，该训练模块114用于使用历史日志训练聚类模型；保存模块115，该保存模块115用于保存聚类模型。

图4为图3所示第一训练单元11的工作流程图，如图4所示，第一训练单元11的工作流程包括：步骤201，采集历史日志；步骤202，对历史日志进行文本处理；步骤203，对历史日志进行哈希特征向量化；步骤204，使用历史日志训练聚类模型；步骤205，保存聚类模型。下面介绍步骤201-步骤205。

步骤201，采集历史日志。

在本发明的一个实施例中，采集模块111采集历史日志，历史日志采集可以根据业务场景来定义，对于服务器日志，由于服务器日志信息相对稳定，可采用年为周期，对于web中间件日志，要根据web中间件应用版本发布周期来确定，因为web中间件版本变更后其日志内容也会跟着变化。

步骤202，对历史日志进行文本处理。

在本发明的一个实施例中，第一处理模块112对历史日志进行文本处理。采集一定周期的日志后，需要对每条日志的文本内容进行处理，包括中英文分词、停用词过滤、词干抽取等，最终将日志文本形成一个词汇列表，即将一个日志文本序列切分成一个一个单独的词。

步骤203，对历史日志进行哈希特征向量化。

在本发明的一个实施例中，第二处理模块113对历史日志进行哈希特征向量化。对历史日志文本切割出的所有词，建立哈希(Hash)映射，即每个词都有一个独一无二的映射，用<key,value>表示，其中，key即特征，value即特征值。假设Hash表有1000个词，则每个日志文本有1000个特征，如果特征对应的词在文本中没有，则特征值value为0。

步骤204，使用历史日志训练聚类模型。

在本发明的一个实施例中，训练模块114使用历史日志训练聚类模型。历史日志文本在哈希特征向量化后即形成训练集，使用该训练集训练聚类模型，通过启发式方法来估计最优聚类数量。在本发明的一个优选实施例，聚类模型可以为k-means模型、层次聚类、密度聚类或者谱聚类等聚类模型，下面以原型聚类k-means模型为例进行介绍。在本发明的一个优选实施例中，第一训练单元11还用于选择聚类模型的参数，例如最佳簇类K值。在本发明的另一个优选实施例中，采用肘部法则来选择最佳簇类K值。选择最佳簇类K值实际就是设置不同K值来训练模型，并通过性能评价指标来估计聚类质量，从而确定最佳簇类K值。聚类质量以簇内相似度高、簇间相似度低为原则来评估。

在本发明的一个优选实施例中，本步骤确定的最佳(或较佳)K值可以作为后面模型增量训练的依据，也就是说，在后面模型增量训练中(步骤103)也将使用本步骤选择的最佳簇类K值，这样有利于降低日志流聚类的计算成本，提高日志流分类的准确率。

步骤205，保存聚类模型。

在本发明的一个实施例中，保存模块115保存经过历史日志训练的聚类模型，后续模型增量学习时导入并根据实时日志流训练更新。同时最佳簇类K值也要作为后续模型增量训练的参数。

在本发明的一个优选实施例中，第一训练单元11还用于定期执行步骤基于历史日志训练聚类模型，也就是说，随着日志内容的变更，对于历史日志的训练也可以定期进行以优化最佳簇类K值。

步骤102-104的作用主要是基于历史日志训练的聚类模型对实时日志流进行增量学习并对实时日志记录进行分类。下面逐一介绍步骤102-104。

步骤102，设置日志流的增量日志大小。

在本发明的一个实施例中，设置单元12设置日志流中的增量日志大小。在本发明的一个优选实施例中，设置每批增量学习的日志数batch_size，可综合日志生成的时间和处理性能时长来定义。例如每秒生成10000万条日志，且模型增量更新和日志分类在1秒内可完成，则设置batch_size＝10000。每一批实时汇聚既定的batch_size日志即可。

步骤103，当日志流汇集至增量日志大小时，基于增量日志训练聚类模型。

在本发明的一个实施例中，第二训练单元13用于当日志流汇集至增量日志大小时，基于增量日志更新训练聚类模型。在本发明的一个优选实施例中，第二训练单元13还用于对增量日志进行文本处理及哈希特征向量化，也就是说，当日志流汇集至增量日志大小时，首先对增量日志进行文本处理及哈希特征向量化，文本处理及哈希特征向量化的步骤请参考步骤202和步骤203。为支持模型增量学习，对日志文本的特征向量化通过哈希机制来完成，这样文本向量化不依赖具体数据。采用哈希映射的好处就是哈希映射采用同样映射函数所得到的特征向量是一样，和具体数据无关，不受历史数据内容的影响。

如果实时日志流相比于历史日志的文本中增加了词，则哈希映射会相应扩展新增词的特征及其特征值，增量学习后的聚类模型就基于扩展后的特征，这样日志分类的准确率高，能够满足日志分类的要求。否则如果特征没扩展，聚类模型没有增量更新，则对新的日志就无法准确分类，因为基于历史日志训练所得的模型并没有新的日志中的词所对应的特征。

当日志流汇集至增量日志大小时，首先对增量日志进行文本处理及哈希特征向量化，然后使用增量日志更新训练聚类模型。在本发明的一个实施例中，基于增量日志训练聚类模型时，应用步骤101选择的参数，例如最佳聚类K值，这样有利于降低日志流聚类的计算成本，提高日志流分类的准确率。在本发明的一个优选实施例中，第二训练单元13还用于保存更新后的聚类模型，以将该聚类模型用于下一批量日志流的更新和分类。在本发明的另一个优选实施例中，建立一个后台服务实时接受日志流，并批量更新模型和分类。后台服务一直运行不关闭，当日志流汇聚至设定的增量日志大小batch_size时，就开始对增量日志进行文本处理和哈希特征向量化，进行聚类模型增量学习。k-means模型增量学习的基本原理是对每个样本优化目标函数，使模型随着每个样本的特征而更新簇类的中心点。

步骤104，使用聚类模型对日志流进行分类。

在本发明的一个实施例中，分类单元14使用增量更新后的聚类模型对日志流中的每条日志进行分类，即模型增量训练后实时对日志流中的每条日志进行分类。

本发明实施例针对实时日志流的文本聚类需求，提出日志流聚类的装置，具有以下优点，首先，聚类模型采用增量学习，模型的训练性能大为提升，满足了日志文本分类的实时需求；其次，模型增量学习支持日志文本新增词的特征，模型实时更新，降低分类错误率；最后，模型增量学习采用小批量训练和增量更新模型，避免大数据集的存储和计算需求，降低硬件资源投入。

本发明实施例还提供了一种日志流聚类的方法，包括以下步骤：基于历史日志训练聚类模型；设置日志流的增量日志大小；当日志流汇集至增量日志大小时，基于增量日志训练聚类模型；使用聚类模型对日志流进行分类。

优选地，基于历史日志训练聚类模型的步骤包括：采集历史日志；对历史日志进行文本处理；对历史日志进行哈希特征向量化；使用历史日志训练聚类模型；保存聚类模型。

优选地，基于历史日志训练聚类模型的步骤包括选择聚类模型的参数；步骤基于增量日志训练聚类模型中应用参数。

优选地，聚类模型包括k-means聚类模型，参数包括K值。

优选地，使用增量日志训练聚类模型之前还包括：对增量日志进行文本处理及哈希特征向量化。

优选地，定期执行基于历史日志训练聚类模型的步骤。

本说明书中，对于日志流聚类的方法实施例而言，由于其基本相似于日志流聚类的装置实施例，相关之处请参见日志流聚类的装置实施例的介绍。

本领域的技术人员可以清楚地了解到本发明实施例的技术方案可借助软件和/或硬件来实现。本说明书中的“单元”是指能够独立完成或与其他部件配合完成特定功能的软件和/或硬件，其中硬件例如可以是FPGA(Field－Programmable Gate Array，现场可编程门阵列)、IC(Integrated Circuit，集成电路)等。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述日志流聚类的方法的步骤。其中，计算机可读存储介质可以包括但不限于任何类型的盘，包括软盘、光盘、DVD、CD-ROM、微型驱动器以及磁光盘、ROM、RAM、EPROM、EEPROM、DRAM、VRAM、闪速存储器设备、磁卡或光卡、纳米系统(包括分子存储器IC)，或适合于存储指令和/或数据的任何类型的媒介或设备。

本发明实施例还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现日志流聚类的方法的步骤。在本发明实施例中，处理器为计算机系统的控制中心，可以是实体机的处理器，也可以是虚拟机的处理器。

以上介绍仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种日志流聚类的装置，其特征在于，包括：

第一训练单元，所述第一训练单元用于基于历史日志训练聚类模型；

设置单元，所述设置单元用于设置日志流的增量日志大小；

第二训练单元，所述第二训练单元用于当所述日志流汇集至所述增量日志大小时，基于所述增量日志训练所述聚类模型；

分类单元，所述分类单元用于使用所述聚类模型对所述日志流进行分类。

2.根据权利要求1所述的日志流聚类的装置，其特征在于，所述第一训练单元包括：

采集模块，所述采集模块用于采集历史日志；

第一处理模块，所述第一处理模块用于对所述历史日志进行文本处理；

第二处理模块，所述第二处理模块用于对所述历史日志进行哈希特征向量化；

训练模块，所述训练模块用于使用所述历史日志训练所述聚类模型；

保存模块，所述保存模块用于保存所述聚类模型。

3.根据权利要求1所述的日志流聚类的装置，其特征在于，所述第一训练单元还用于选择所述聚类模型的参数；所述第二训练单元还用于基于所述增量日志训练所述聚类模型时应用所述参数。

4.根据权利要求3所述的日志流聚类的装置，其特征在于，所述聚类模型包括k-means聚类模型，所述参数包括K值。

5.根据权利要求1所述的日志流聚类的装置，其特征在于，所述第二训练单元还用于对所述增量日志进行文本处理及哈希特征向量化。

6.根据权利要求1所述的日志流聚类的装置，其特征在于，所述第一训练单元还用于定期基于历史日志训练聚类模型。

7.一种日志流聚类的方法，其特征在于，包括以下步骤：

基于历史日志训练聚类模型；

设置日志流的增量日志大小；

当所述日志流汇集至所述增量日志大小时，基于所述增量日志训练所述聚类模型；

使用所述聚类模型对所述日志流进行分类。

8.根据权利要求7所述的日志流聚类的方法，其特征在于，所述基于历史日志训练聚类模型的步骤包括：

采集历史日志；

对所述历史日志进行文本处理；

对所述历史日志进行哈希特征向量化；

使用所述历史日志训练所述聚类模型；

保存所述聚类模型。

9.根据权利要求7所述的日志流聚类的方法，其特征在于，所述基于历史日志训练聚类模型的步骤包括选择所述聚类模型的参数；

所述步骤基于所述增量日志训练所述聚类模型中应用所述参数。

10.根据权利要求9所述的日志流聚类的方法，其特征在于，所述聚类模型包括k-means聚类模型，所述参数包括K值。

11.根据权利要求7所述的日志流聚类的方法，其特征在于，所述使用所述增量日志训练所述聚类模型之前还包括：对所述增量日志进行文本处理及哈希特征向量化。

12.根据权利要求7所述的日志流聚类的方法，其特征在于，定期执行所述基于历史日志训练聚类模型的步骤。

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现所述权利要求7-12中任一项所述方法的步骤。

14.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现所述权利要求7-12中任一项所述方法的步骤。