CN115225471A

CN115225471A - 一种日志分析方法及装置

Info

Publication number: CN115225471A
Application number: CN202210830623.6A
Authority: CN
Inventors: 屠彧; 李家炎; 许广洋
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2022-07-15
Filing date: 2022-07-15
Publication date: 2022-10-21

Abstract

本发明提供了一种日志分析方法及装置，涉及金融领域，方法包括：获取待处理的日志数据；根据预设的切分规则将所述日志数据切分为日志文档；根据所述的待处理的日志数据、日志文档进行TF‑IDF统计生成日志分析结果。本发明根据预设的切分规则将所述日志数据切分为日志文档，根据所述的待处理的日志数据、日志文档进行TF‑IDF统计生成日志分析结果。使用TF‑IDF算法，简单快速，易于理解，无需对文本进行向量化、词嵌入操作。相比神经网络的方法，减少了大量的训练时间。利用TF‑IDF的计算结果进行日志分析，突出重点日志、折叠非重点日志，便于运维。

Description

一种日志分析方法及装置

技术领域

本发明涉及数据处理技术，具体的讲是一种日志分析方法及装置。

背景技术

人工智能和机器学习算法凭借其准确性、可扩展性、开源案例多等特性，广泛应用到各个企业中，其中自然语言处理在运维方面起到了较大的作用。目前日志信息量大的企业都开始使用此方面技术，对集中监控系统中的日志使用各种方法进行分析。

网络设备的日志多样，容易出现一个故障引发多条告警日志、甚至告警日志风暴的情况。另外，网络设备的日志也存在大量无需运维人员关心的日志。所以在日志分析中，需要做到突出重点、减少重复。现有技术汇总，通过聚类等技术可以将网络设备日志进行大概分类，但是对于频繁出现的非重要日志没有很好的自动过滤方法，主要通过专业人员手动定义级别来实现。

发明内容

针对现有技术中，日志统计存在的缺陷，为至少克服其中一缺陷，本发明提供了一种日志分析方法，包括：

获取待处理的日志数据；

根据预设的切分规则将所述日志数据切分为日志文档；

根据所述的待处理的日志数据、日志文档进行TF-IDF统计生成日志分析结果。

本发明实施例中，所述的获取待处理的日志数据包括：

按行读取日志文件获取待处理日志；

利用utf-8格式进行对待处理日志进行编码；

按预设的属性替换规则对编码后的待处理日志进行属性变量替换确定待处理的日志数据。

本发明实施例中，所述的按预设的属性替换规则对编码后的待处理日志进行属性变量替换确定待处理的日志数据包括：

利用正则化脚本将编码后的待处理日志中的预设属性变量替换为对应的属性字符；所述预设属性变量包括：时间、IP地址、以太网接口及规则名。

本发明实施例中，所述的按预设的属性替换规则对编码后的待处理日志进行属性变量替换确定待处理的日志数据还包括：

对进行属性变量替换前后的日志分别进行编号，建立属性变量替换前的日志与替换后的日志的对应关系。

本发明实施例中，所述的根据预设的切分规则将所述日志数据切分为日志文档包括：

按预设的时间段对所述日志数据进行切分，将所述日志数据切分为日志文档。

本发明实施例中，所述的根据所述的待处理的日志数据、日志文档进行TF-IDF统计生成日志分析结果包括：

根据所述的待处理的日志数据、日志文档的确定日志的词频及逆文档频率；

根据确定的词频、逆文档频率以及预设的日志分析阈值生成日志分析结果。

同时，本发明还提供一种日志分析装置，包括：

数据获取模块，用于获取待处理的日志数据；

切分模块，用于根据预设的切分规则将所述日志数据切分为日志文档；

分析模块，用于根据所述的待处理的日志数据、日志文档进行TF-IDF统计生成日志分析结果。

本发明实施例中，所述的数据获取模块包括：

读取单元，用于按行读取日志文件获取待处理日志；

编码单元，用于利用utf-8格式进行对待处理日志进行编码；

替换单元，用于按预设的属性替换规则对编码后的待处理日志进行属性变量替换确定待处理的日志数据。

本发明实施例中，所述的替换单元利用正则化脚本将编码后的待处理日志中的预设属性变量替换为对应的属性字符；所述预设属性变量包括：时间、IP地址、以太网接口及规则名。

本发明实施例中，所述的数据获取模块还包括：

变化单元，用于对进行属性变量替换前后的日志分别进行编号，建立属性变量替换前的日志与替换后的日志的对应关系。

本发明实施例中，所述的切分模块按预设的时间段对所述日志数据进行切分，将所述日志数据切分为日志文档。

本发明实施例中，所述的分析模块包括：

词频确定单元，用于根据所述的待处理的日志数据、日志文档的确定日志的词频及逆文档频率；

分析单元，用于根据确定的词频、逆文档频率以及预设的日志分析阈值生成日志分析结果。

同时，本发明还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述方法。

同时，本发明还提供一种计算机可读存储介质，计算机可读存储介质存储有执行上述方法的计算机程序。

本发明提供的日志分析方法及装置，根据预设的切分规则将所述日志数据切分为日志文档，根据所述的待处理的日志数据、日志文档进行TF-IDF统计生成日志分析结果。使用TF-IDF算法，简单快速，易于理解，无需对文本进行向量化、词嵌入操作。相比神经网络的方法，减少了大量的训练时间。利用TF-IDF的计算结果进行日志分析，突出重点日志、折叠非重点日志，便于运维。

为让本发明的上述和其他目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附图式，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的日志分析方法的流程图；

图2为本发明实施例中的框图；

图3为本发明实施例中的流程图；

图4为本发明实施例中的流程图；

图5为本发明实施例中的流程图；

图6为本发明提供的日志分析装置的框图；

图7为本发明实施例提供的电子设备示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明提供了一种日志分析方法，其包括：

步骤S101，获取待处理的日志数据；

步骤S102，根据预设的切分规则将所述日志数据切分为日志文档；

步骤S103，根据所述的待处理的日志数据、日志文档进行TF-IDF统计生成日志分析结果。

本发明提供的日志分析方法，根据预设的切分规则将待处理日志数据切分为日志文档，根据待处理的日志数据、日志文档进行TF-IDF统计生成日志分析结果。使用TF-IDF算法，简单快速，易于理解，无需对文本进行向量化、词嵌入操作。相比神经网络的方法，减少了大量的训练时间。利用TF-IDF的计算结果进行日志分析，突出重点日志、折叠非重点日志，便于运维。

TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的加权技术，常用于挖掘文章中的关键词，而且算法简单高效，常被工业用于最开始的文本数据清洗。

TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF的主要思想是：如果某个单词在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。

本发明实施例中，将网络设备的日志进行标准化处理后，将每条日志作为一个词汇，使用TF-IDF模型，过滤频繁出现的无关项，突出一段时间内的重点日志信息并进行还原。

具体的，本发明实施例中，所述的获取待处理的日志数据包括：

按行读取日志文件获取待处理日志；

利用utf-8格式进行对待处理日志进行编码；

日志文件中有时会因为中文的编码不同出现乱码情况，本发明实施例中，按行读取日志文件，统一使用utf-8格式进行编码，对于无法识别的文本进行丢弃，防止后续处理出错，影响分析的准确度。

进一步，本发明实施例中，所述的按预设的属性替换规则对编码后的待处理日志进行属性变量替换确定待处理的日志数据包括：

网络设备日志中，存在时间、IP地址、以太网口、规则名等特有属性。本发明实施例中，使用正则化脚本，将预设的特有属性替换为TIME,IP,ETH,RULE。从而实现将模板相同、变量不同的日志转变为一类日志，通过对日志进行特有属性的替换可以有效减少唯一日志的数量。

通过对进行属性变量替换前后的日志分别进行编号，建立属性变量替换前的日志与替换后的日志的对应关系，以实现在日志分析后对日志还原，以实现展现给用户的是原始日志。

具体的，本发明实施例中，根据待处理的日志数据、日志文档确定各条日志在文档中的出现次数、各文档中的日志条数。

根据各条日志在文档中出现的次数以及当前文档中的总日志条数确定词频。

根据日志文档总数和包含该日志的文档数据确定逆文档频率。

具体的根据下式分别计算词频：

根据下式计算逆文档频率：

本发明实施例中，根据确定的词频、逆文档频率以及预设的日志分析阈值生成日志分析结果，具体的，根据确定的词频和逆文档频率确定TF-IDF值，根据TF-IDF值输出预设排名的日志标记为重要日志，其余日志标记为次要日志，向用户展示所述分析结果，如展示标记的重要日志。

本发明实施例提供的实现基于TF-IDF的日志分析方法的装置主要包含三大模块：日志预处理模块201，TF-IDF分析模块202，日志还原模块203。如图2所示。

具体的，本发明实施例中对日志的预处理步骤包括：

日志预处理模块201对日志数据的处理包括：数据清洗、特有属性替换、日志标识三个步骤。如图3所示。

步骤S001，数据清洗。日志文件中有时会因为中文的编码不同出现乱码情况，按行读取日志文件，统一使用utf-8格式进行编码，对于无法识别的文本进行丢弃，防止后续处理出错，影响分析的度。

步骤S002，特有属性替换。网络设备日志中，存在时间、IP地址、以太网口、规则名等特有属性。使用正则化脚本，将这些特有属性替换为TIME,IP,ETH,RULE。这个步骤可以将模板相同、变量不同的日志转变为一类日志，可以有效减少唯一日志的数量。

步骤S003，日志标识和切分。在S002中，已经将日志的变量进行了统一替换。由于最终需要展现给用户的是原始日志，所以日志变量替换前后的日志进行标号，方便日志还原模块203进行日志还原。

根据不同时间段，将日志切分为多个文档。

TF-IDF分析模块202对日志数据的处理包括：建立语料库、TF-IDF运算、输出结果三个步骤。如图4所示。

S4001，建立语料库。将上述步骤S003中输出的所有文档加入语料库。

S4002，TF-IDF运算。

输入为步骤S003中输出的一个文档。

计算词频TF：

计算逆文档频率IDF：

计算TF-IDF：

TF-IDF＝TF×IDF

S4003，输出结果。根据S4002计算出的TF-IDF值，本实施例中，根据计算的TF-IDF值输出排名前20％的日志，对输出的日志进行标识。

日志还原模块203的操作步骤分为：日志原文匹配、日志文档更新展示2个步骤。如图5所示。

S5001，日志原文匹配。根据S4003中的标识，将输出的日志(变量已被替换)关联到文档的日志原文中，即对日志原文中步骤S4003中输出日志的格式的条目进行标记，标记为“重要日志”；其余日志标记为“次要日志”。

S5002，日志文档更新展示。在日志文档中，对标记为“重要日志”的内容进行突出展示，对标记为“次要日志”的内容进行折叠展示。

本实施例利用了网络设备日志具有规范化的特点，在预处理中进行少量的人工干预，替换变量信息，可以大大减少日志的种类，提高TF-IDF计算的准确度。

使用TF-IDF算法，简单快速，易于理解，无需对文本进行向量化、词嵌入操作。相比神经网络的方法，减少了大量的训练时间。

将TF-IDF的计算结果进行转换，直接显示在运维人员查看的页面中，突出重点日志、折叠非重点日志，便于运维人员查看。结合轻量化算法模型，使整个处理分析过程无感知。

同时，本发明还提供一种日志分析装置，如图6所示包括：

数据获取模块601，用于获取待处理的日志数据；

切分模块602，用于根据预设的切分规则将所述日志数据切分为日志文档；

分析模块603，用于根据所述的待处理的日志数据、日志文档进行TF-IDF统计生成日志分析结果。

本发明实施例中，所述的数据获取模块包括：

读取单元，用于按行读取日志文件获取待处理日志；

编码单元，用于利用utf-8格式进行对待处理日志进行编码；

本发明实施例中，所述的数据获取模块还包括：

本发明实施例中，所述的分析模块包括：

本发明提供的日志分析装置，根据预设的切分规则将待处理日志数据切分为日志文档，根据待处理的日志数据、日志文档进行TF-IDF统计生成日志分析结果。使用TF-IDF算法，简单快速，易于理解，无需对文本进行向量化、词嵌入操作。相比神经网络的方法，减少了大量的训练时间。利用TF-IDF的计算结果进行日志分析，突出重点日志、折叠非重点日志，便于运维。

需要说明的是，本公开日志分析方法和装置可用于金融领域，也可用于除金融领域之外的任意领域，本公开日志分析的方法和装置的应用领域不做限定。

同时，本实施例还提供一种电子设备，该电子设备可以是台式计算机、平板电脑及移动终端等，本实施例不限于此。在本实施例中，该电子设备可以参照前述方法及装置的实施例，其内容被合并于此，重复之处不再赘述。

图7为本发明实施例的电子设备600的系统构成的示意框图。如图7所示，该电子设备600可以包括中央处理器100和存储器140；存储器140耦合到中央处理器100。值得注意的是，该图是示例性的；还可以使用其他类型的结构，来补充或代替该结构，以实现电信功能或其他功能。

一实施例中，日志分析功能可以被集成到中央处理器100中。其中，中央处理器100可以被配置为进行如下控制：

获取待处理的日志数据；

根据预设的切分规则将所述日志数据切分为日志文档；

在另一个实施方式中，日志分析装置可以与中央处理器100分开配置，例如可以将日志分析装置配置为与中央处理器100连接的芯片，通过中央处理器的控制来实现日志分析功能。

如图7所示，该电子设备600还可以包括：通信模块110、输入单元120、音频处理单元130、显示器160、电源170。值得注意的是，电子设备600也并不是必须要包括图7中所示的所有部件；此外，电子设备600还可以包括图7中没有示出的部件，可以参考现有技术。

如图7所示，中央处理器100有时也称为控制器或操作控件，可以包括微处理器或其他处理器装置和/或逻辑装置，该中央处理器100接收输入并控制电子设备600的各个部件的操作。

其中，存储器140，例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息，此外还可存储执行有关信息的程序。并且中央处理器100可执行该存储器140存储的该程序，以实现信息存储或处理等。

输入单元120向中央处理器100提供输入。该输入单元120例如为按键或触摸输入装置。电源170用于向电子设备600提供电力。显示器160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器，但并不限于此。

该存储器140可以是固态存储器，例如，只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器，其即使在断电时也保存信息，可被选择性地擦除且设有更多数据，该存储器的示例有时被称为EPROM等。存储器140还可以是某种其它类型的装置。存储器140包括缓冲存储器141(有时被称为缓冲器)。存储器140可以包括应用/功能存储部142，该应用/功能存储部142用于存储应用程序和功能程序或用于通过中央处理器100执行电子设备600的操作的流程。

存储器140还可以包括数据存储部143，该数据存储部143用于存储数据，例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器140的驱动程序存储部144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。

通信模块110即为经由天线111发送和接收信号的发送机/接收机110。通信模块(发送机/接收机)110耦合到中央处理器100，以提供输入信号和接收输出信号，这可以和常规移动通信终端的情况相同。

基于不同的通信技术，在同一电子设备中，可以设置有多个通信模块110，如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)110还经由音频处理器130耦合到扬声器131和麦克风132，以经由扬声器131提供音频输出，并接收来自麦克风132的音频输入，从而实现通常的电信功能。音频处理器130可以包括任何合适的缓冲器、解码器、放大器等。另外，音频处理器130还耦合到中央处理器100，从而使得可以通过麦克风132能够在本机上录音，且使得可以通过扬声器131来播放本机上存储的声音。

本发明实施例还提供一种计算机可读程序，其中当在电子设备中执行所述程序时，所述程序使得计算机在所述电子设备中执行如上面实施例所述的日志分析方法。

本发明实施例还提供一种存储有计算机可读程序的存储介质，其中所述计算机可读程序使得计算机在电子设备中执行上面实施例所述的日志分析。

以上参照附图描述了本发明的优选实施方式。这些实施方式的许多特征和优点根据该详细的说明书是清楚的，因此所附权利要求旨在覆盖这些实施方式的落入其真实精神和范围内的所有这些特征和优点。此外，由于本领域的技术人员容易想到很多修改和改变，因此不是要将本发明的实施方式限于所例示和描述的精确结构和操作，而是可以涵盖落入其范围内的所有合适修改和等同物。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种日志分析方法，其特征在于，所述的日志分析方法包括：

获取待处理的日志数据；

根据预设的切分规则将所述日志数据切分为日志文档；

2.如权利要求1所述的日志分析方法，其特征在于，所述的获取待处理的日志数据包括：

按行读取日志文件获取待处理日志；

利用utf-8格式进行对待处理日志进行编码；

3.如权利要求2所述的日志分析方法，其特征在于，所述的按预设的属性替换规则对编码后的待处理日志进行属性变量替换确定待处理的日志数据包括：

4.如权利要求2所述的日志分析方法，其特征在于，所述的获取待处理的日志数据还包括：

5.如权利要求1所述的日志分析方法，其特征在于，所述的根据预设的切分规则将所述日志数据切分为日志文档包括：

6.如权利要求1所述的日志分析方法，其特征在于，所述的根据所述的待处理的日志数据、日志文档进行TF-IDF统计生成日志分析结果包括：

7.一种日志分析装置，其特征在于，所述的日志分析装置包括：

数据获取模块，用于获取待处理的日志数据；

8.如权利要求7所述的日志分析装置，其特征在于，所述的分析模块包括：

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6任一项所述方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有执行权利要求1至6任一项所述方法的计算机程序。