CN114090850A

CN114090850A - 日志分类方法、电子设备及计算机可读存储介质

Info

Publication number: CN114090850A
Application number: CN202111350287.7A
Authority: CN
Inventors: 王琳嵛; 唐蠡; 曾琳铖曦; 吴海英; 蒋宁; 郭剑霓
Original assignee: Mashang Xiaofei Finance Co Ltd
Current assignee: Mashang Xiaofei Finance Co Ltd
Priority date: 2021-11-15
Filing date: 2021-11-15
Publication date: 2022-02-25

Abstract

本申请公开了日志分类方法、电子设备及计算机可读存储介质。该方法包括：获取日志数据；根据日志数据中多个日志之间的相似度，对日志数据进行聚类，得到多个日志组；根据每一日志组中的日志与已分类的最终日志分类集合中各类日志的相似度，将相似度满足预设阈值的日志组中的日志聚类至对应的最终日志分类集合中。通过上述方式，能够减少与最终日志分类集合中各类日志进行相似度计算的次数，进而提升对日志数据的分类效率。

Description

日志分类方法、电子设备及计算机可读存储介质

技术领域

本申请涉及日志处理技术领域，特别涉及日志分类方法、电子设备及计算机可读存储介质。

背景技术

随着应用系统越来越多，每个系统都有记录日志，日志在各种业务服务中都占据有非常重要的地位。业务量的增长，带动了流量迅速增长。系统记录到日志不断增多，每个系统记录了各式各样的日志，日志内容会存在多种多样，存储日志的数据量也巨增。

系统日志通常是无结构的文本数据，相关的现有技术方案是在应用出现异常后，用关键字去查询、或者基于规则去过滤所有日志，并没有很好的日志分类策略。

发明内容

为了解决上述问题，本申请提供日志分类方法、电子设备及计算机可读存储介质，能够减少与已分类的最终日志分类集合中各类日志进行相似度计算的次数，进而提升对日志数据的分类效率。

为解决上述技术问题，本申请采用的一个技术方案是：提供1.一种日志分类方法，该方法包括：获取日志数据；根据日志数据中多个日志之间的相似度，对日志数据进行聚类，得到多个日志组；根据每一日志组中的日志与已分类的最终日志分类集合中各类日志的相似度，将相似度满足预设阈值的日志组中的日志聚类至对应的最终日志分类集合中。

其中，获取日志数据，包括：获取原始日志数据；对原始日志数据进行预处理，以得到日志数据；其中，日志数据的数据量小于原始日志数据的数据量，日志数据包括多个日志以及每一日志对应的数量。

其中，原始日志数据包括多个原始日志；对原始日志数据进行预处理，以得到日志数据，包括：根据预设规则对原始日志数据中的多个原始日志进行处理，得到多个规则日志；将多个规则日志中相同的日志进行合并，以得到日志数据。

其中，根据预设规则对原始日志数据中的多个原始日志进行处理，得到多个规则日志，包括：提取原始日志数据中的多个原始日志的日志属性，日志属性包括日志时间、日志来源、日志级别、日志线程、日志类、日志事件和日志异常状态中的至少一种；根据预设规则日志模版和每一日志的日志属性，对应生成多个规则日志。

其中，根据日志数据中多个日志之间的相似度，对日志数据进行聚类，得到多个日志组，包括：确定日志数据中的多个日志的特征向量；根据多个日志的特征向量确定多个日志之间的向量编辑距离；根据多个日志之间的向量编辑距离对多个日志进行聚类，得到多个日志组。

其中，日志数据包括特征字段，确定日志数据中的多个日志的特征向量，包括：根据日志数据中的每一日志的特征字段和文本特征，确定每一日志对应的特征向量。

其中，根据每一日志组中的日志与已分类的最终日志分类集合中各类日志的相似度，将相似度满足预设阈值的日志组中的日志聚类至对应的最终日志分类集合中，包括：获取多个日志组中的每一日志组的来源；以及获取与每一日志组的来源相同的最终日志分类集合；计算每一日志组中的日志与最终日志分类集合中各类日志的向量编辑距离，将每一日志组中的日志聚类至目标日志分类集合中，目标日志分类集合为与日志组中的对应的日志的向量编辑距离最小的最终日志分类集合。

其中，该方法还包括：获取最终日志分类集合中每类日志在预设时间内的增量；若增量超过预设值，则进行预警提示。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种电子设备，该电子设备包括处理器以及与处理器耦接的存储器，存储器中存储有计算机程序，处理器用于执行计算机程序以实现如上述技术方案提供的方法。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，计算机程序在被处理器执行时，实现如上述技术方案提供的方法。

本申请实施例的有益效果是：区别于现有技术，本申请提供的日志分类方法，该方法包括：获取日志数据；根据日志数据中多个日志之间的相似度，对日志数据进行聚类，得到多个日志组；根据每一日志组中的日志与已分类的最终日志分类集合中各类日志的相似度，将相似度满足预设阈值的日志组中的日志聚类至对应的最终日志分类集合中。通过上述方式，先对日志数据聚类成多个日志组，然后以较少日志组为基准与对应的已分类的最终日志分类集合进行最终分类，能够减少与已分类的最终日志分类集合中各类日志进行相似度计算的次数，进而提升对日志数据的分类效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。其中：

图1是本申请提供的日志分类方法第一实施例的流程示意图；

图2是本申请提供的日志分类方法第二实施例的流程示意图；

图3是本申请提供的步骤22一实施例的流程示意图；

图4是本申请提供的步骤221一实施例的流程示意图；

图5是本申请提供的日志分类方法第三实施例的流程示意图；

图6是本申请提供的步骤52一实施例的流程示意图；

图7是本申请提供的步骤55一实施例的流程示意图；

图8是本申请提供的电子设备一实施例的结构示意图；

图9是本申请提供的计算机可读存储介质一实施例的结构示意图；

图10是本申请提供的相关技术的应用示意图；

图11是本申请提供的本申请技术方案的应用示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。可以理解的是，此处所描述的具体实施例仅用于解释本申请，而非对本申请的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本申请相关的部分而非全部结构。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

随着公司业务的发展，系统越来越多，每个系统都有记录日志，日志在各种业务服务中都占据有非常重要的地位。通常情况下，日志主要用于记录关键的执行点、程序执行错误时的信息等。当系统出现故障时，开发人员可以通过错误日志定位故障的原因。

业务量的增长，带动了流量迅速增长。系统记录到日志不断增多，每个系统记录了各式各样的日志，日志内容会存在多种多样，存储日志的量也巨增，相关技术方案为把所有的日志全部记录到存储系统，如Elasticsearch，缺点非常明显：开发人员无法知道日志到底记录了多少条，比如，无法实时得知，当前应用记录最多的日志，也不知道全公司所有应用，哪个应用记录了最多的日志，哪些是需要记录的，哪些是不需要记录的。

系统日志通常是无结构的文本数据，相关的现有技术方案是在应用出现异常后，用关键字去查询、或者基于规则去过滤所有日志。出现异常时也没有第一时间通知到业务方，没有及时告警功能。传统的方法对经验依赖性强，当新的日志种类出现，关键字匹配的未必适用。这时候需要一套方式，自动找出新对日志，并且知道同种日志同比环比变化多少。针对海量日志实时更新场景下，日志变化，需要人工手动关键字查找比较需要较长的时间，不能满足日志告警处理需求。

基于此，本申请通过先对日志数据聚类成多个日志组，然后以较少日志组为基准与对应的已分类的最终日志分类集合进行最终分类的方案，来解决上述提及的至少一个问题。具体参阅下述任一实施例。

参阅图1，图1是本申请提供的日志分类方法一实施例的流程示意图。该方法包括：

步骤11：获取日志数据。

其中，每个系统都有记录日志数据，日志数据在各种业务服务中都占据有非常重要的地位。如应用程序日志，安全日志、系统日志、Scheduler服务日志、FTP日志、WWW日志、DNS服务器日志等等。通常情况下，日志数据用于记录系统中硬件、软件和系统问题的信息，同时还可以监视系统中发生的事件。用户可以通过它来检查错误发生的原因，或者寻找受到攻击时攻击者留下的痕迹。比如说有人对系统进行了IPC探测，系统就会在安全日志里迅速地记下探测者探测时所用的IP、时间、用户名等，用FTP探测后，就会在FTP日志中记下IP、时间、探测所用的用户名等。如，还用于记录关键的执行点、程序执行错误时的信息等，如，记录用户的每一操作，如，在XX时刻，进行了的文件下载；在YY时刻，上传了文件，又如，记录程序执行错误，如，在zz时刻，文件下载失败。当系统出现故障时，相关人员可以通过错误日志数据定位故障的原因。

当一个系统拥有众多的用户时，存在同一时间产生多个日志数据的现象。

步骤12：根据日志数据中多个日志之间的相似度，对日志数据进行聚类，得到多个日志组。

在一些实施例中，可以利用K-Means(K均值)聚类的方式，对日志数据进行聚类，如，先在多个日志中随机确定至少一个日志为初始中心点，然后计算其余日志与至少一个初始中心点的距离，并将该日志划分至距离最近的初始中心点对应的日志组。在初步分类后，再次从每一日志组中确定中心点，重新计算其余日志与至少一个初始中心点的距离一类，重新划分，以此迭代，直至日志组的变化趋于平缓，则确定此时的日志组为聚类后的日志组。其中，日志组是日志的集合，一个集合里可以有至少一个日志。

如，一共有20个日志，如日志A-日志T，先确定三个初始中心点，分别为日志A、日志B和日志C，然后计算其余日志与这三个初始中心点的距离，得到三个日志组，分别为第一日志组、第二日志组和第三日志组。其中，第一日志组包括日志A以及日志D-日志I，共7个日志；第二日志组包括日志B以及日志J-日志O，共7个日志；第三日志组包括日志C以及日志P-日志T，共6个日志。

在第二次迭代计算时，从第一日志组、第二日志组和第三日志组中重新确定中心点，并重新计算其余17个日志与新的中心点之间的距离，得到新的三个日志组。通过这种方式，迭代多次，以确定最终的日志组。

在其他实施例中，可以每次都重新随机确定中心点，得到相应的日志组，根据迭代次数，每一次迭代后均会得到日志组。然后每一次的日志组进行计算，选择最佳的一个日志组为最终日志组。

在其他实施例中，还可以采用均值漂移聚类方法、基于密度的聚类方法、用高斯混合模型的最大期望聚类方法、凝聚层次聚类方法以及图团体检测方法中任一种方法进行数据聚类。

步骤13：根据每一日志组中的日志与已分类的最终日志分类集合中各类日志的相似度，将相似度满足预设阈值的日志组中的日志聚类至对应的最终日志分类集合中。

在本实施例中，具有多个已分类的最终日志分类集合，每一最终日志分类集合中具有不同类型的日志。如，具有最终日志分类集合A、最终日志分类集合B和最终日志分类集合C。最终日志分类集合A中具有类型为A1、A2、A3的日志，最终日志分类集合B中具有类型为B1、B2、B3的日志和最终日志分类集合C中具有类型为C1、C2、C3的日志。

在步骤13中，可以将每一日志组中的日志与最终日志分类集合中各类日志进行遍历比较，以确定每一日志组中的日志与最终日志分类集合中各类日志的相似度。在日志组中的该日志与最终日志分类集中的目标类型日志的相似度满足预设阈值时，将日志组中的该日志与该目标类型的日志分为一类。若该日志与最终日志分类集合中各类日志的相似度不满足预设阈值时，将该日志单独作为一类，添加至最终日志分类集合中，以此，将每一日志组的日志在对应的最终日志分类集合中进行分类。

在本实施例中，通过获取日志数据；根据日志数据中多个日志之间的相似度，对日志数据进行聚类，得到多个日志组；根据每一日志组中的日志与对应的最终日志分类集合中各类日志的相似度，将每一日志组中的日志聚类至对应的最终日志分类集合中的方式，先对日志数据聚类成多个日志组，然后以较少日志组为基准与对应的最终日志分类集合进行最终分类，能够减少与最终日志分类集合中各类日志进行相似度计算的次数，进而提升对日志数据的分类效率。

参阅图2，图2是本申请提供的日志分类方法一实施例的流程示意图。该方法包括：

步骤21：获取原始日志数据。

其中，原始日志数据包括多个原始日志。在本实施例中，原始日志为非结构日志，每一条日志都包含时间戳、应用、日志级别以及类名。系统在一天中会产生成千上万条类似这样的日志。

步骤22：对原始日志数据进行预处理，以得到日志数据。

其中，该日志数据的数据量小于原始日志数据的数据量，日志数据包括多个日志以及每一日志对应的数量。

如，可以将原始日志数据中同应用同内容的日志进行合并，得到新的日志数据，并对该日志数据进行数量统计。这些同应用同内容的日志只存在产生时间的不同，则可以进行合并。因对多个日志的原始日志数据进行合并，则日志数据的数据量小于原始日志数据的数据量。

在一些实施例中，可以对原始日志数据中的数据进行关键字提取，利用提取的关键字组成新的日志，即日志数据，由于关键字提取，新的日志数据量减小。

在一些实施例中，参阅图3，步骤22可以是以下流程：

步骤221：根据预设规则对原始日志数据中的多个原始日志进行处理，得到多个规则日志。

因原始日志为非结构日志，则利用预设规则对原始日志数据中的多个原始日志进行处理，得到多个规则日志。

如，一条原始日志的内容为“2021-06-11 11:32:01.579[vayhapi][应用程序wapi]ERROR[http-nio-8080-exec-74]SignChecker：判断是否是学生，身份证号错误：null异常”。

预设规则可以为“Time+应用名+日志级别+线程+类名+*身份证号错误*异常”。按照预设规则对原始日志的内容进行提取，得到多个规则日志。在此过程中，存在对内容的提取，能够减小规则日志的数据量。

在一些实施例中，参阅图4，步骤221可以是以下流程：

步骤2221：提取原始日志数据中的多个原始日志的日志属性。

其中，日志属性包括日志时间、日志来源、日志级别、日志线程、日志类、日志事件和日志异常状态中的至少一种。

提取原始日志数据中的日志属性对应的内容，如，日志时间则为日志产生的具体时间，日志来源则为日志产生的应用或者出处，日志级别可以为高级、中级以及初级，日志线程则为产生该日志对应的线程，日志类可以是日志产生时所应用的类名方法，日志事件可以是与日志产生相关联的事件，如输入错误事件、输入正确事件，日志异常状态表示执行该日志类后得到的结果，如，异常或正常。

以一条原始日志的内容为“2021-06-11 11:32:01.579[vayhapi][应用程序wapi]ERROR[http-nio-8080-exec-74]SignChecker：判断是否是学生，身份证号错误：null异常”。提取的日志属性为：日志时间为2021-06-11 11:32:01.579，日志来源为应用程序wapi，日志级别为ERROR，日志线程为http-nio-8080-exec-74，日志类为SignChecker：判断是否是学生，日志事件为身份证号错误：null以及日志异常状态为异常。

步骤2222：根据预设规则日志模版和每一日志的日志属性，对应生成多个规则日志。

按照预设规则日志模版，将每一日志的日志属性的内容对应填入，生成对应的多个规则日志。

步骤222：将多个规则日志中相同的日志进行合并，以得到日志数据。

因日志数据已经调整为了规则日志，则能够确定出是否存在相同的日志。这里的相同日志指的是除产生时间不同以外的其余内容均相同的日志。如，第一时间产生的日志，日志内容为“异常”。第二时间产生的日志，日志内容为“异常”。则可以将这两个日志确定为相同的日志，将其进行合并。这里合并的意思是只保留一条日志内容，并对该日志的数量进行统计。

步骤23：根据日志数据中多个日志之间的相似度，对日志数据进行聚类，得到多个日志组。

在本实施例中，可以通过计算日志数据中多个日志的日志特征字段，采用文本频次的统计方法，来提取每个日志中的特征词，在日志中出现频次越高的词，越能表现出日志特征，如应用名，具体异常出现越高，越能代表日志出现的日志特征为异常。

基于TF-IDF(term frequency–inverse document frequency，词频-逆向文件频率)算法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

可以采用以下公式表达：

其中，TF_w表示词条w的词频。

基于日志本身可以提取的特征包括：字数、非重复单次数量、长度、停止词数量统计、标点符号数量、大写单词数量、标题式单词数量以及单词的平均长度。

其中，字数表示每一行日志文本的词汇数量。

非重复单词数量表示每一行文本中只出现一次的单词个数。

长度表示每一行文本的长度，占了多少存储空间。

停止词数量表示统计：between、but、about、very等词汇的数量统计。

标点符号数量表示每一行文本中包含的标点符号数量。

大写单词数量表示统计大写单词数量。

标题式单词数量表示统计单词拼写首字母是否为大写，且其他字母为小写的单词数量。

单词的平均长度表示每一行文本中每个单词长度的平均值。

然后将特征词进行特征向量的提取。如，设所有的特征字集合为S＝{fw1，fw2，…，fwn}，并且依次构成n维向量空间。对于日志数据中多个日志L及其特征字段集合WL，特征向量定义为：VL＝[v1，v2，…，vn]；其中：vi＝1，fwi∈WL，i＝1，2，…，n；vi＝0，

对日志数据中的每一日志求其特征向量，日志求特征向量后，如其中一条日志可表示为：L1＝[1，0，0，1，0，1]。

然后根据多个日志的特征向量确定多个日志之间的向量编辑距离。

以下对字符串编辑距离进行说明：

字符串编辑距离是一种字符串之间相似度计算的方法，给定两个字符串S、T，将S转换成T所需要的删除、插入、替换操作的集合就叫作S到T的编辑路径。而最短的编辑路径就叫作字符串S和T的编辑距离。操作集合包含三个操作动作：删除一节点、插入一节点、替换两节点的标签。以a→Λ表示删去a节点，Λ表示空节点；以Λ→b表示插入b节点；以a→b表示将节点a的标签换成节点b的标签。

上述所提的三个操作中，每一个操作都有一个成本，分别以成本函数λ(a→Λ)、λ(Λ→b)、λ(a→b)代表删除a节点的成本、插入b节点的成本、更换a节点标签为b节点标签的成本。成本为一非负的实数。成本函数值大小基本上由用户自定义。

欲将字符串S转换成字符串T，需要经过{e1 e2 e3 e4...en}个操作，每个ei(i＝1，2，...，n)为一次操作。取E＝{e1 e2 e3 e4...en}为一连续的操作序列。所以，将S经由操作集合E转换成T总共需要成本为λ(E)＝∑λ(ei)＝λ(e1)+i＝1λ(e2)+...+λ(en)，由此式便可求将S经由E转换成T所需要的成本。则由S到T的编辑距离可以定义为：stringdist(S，T)＝min{λ(E)|E是其中的一条路径}。

可以看出字符S、T，将S转换成T所需要的编辑路径与S、T的长度正相关，S、T越长，计算编辑路径需要的时间越长，效率越低。

使用动态规划可以求两个字符的编辑距离，对于字符S、T，可以很快求出时间复杂度是O(|S|×|T|)。其花费大量时间去计算无关文本区域，时间效率比较低，而本实施例提出的特征向量法，可以提取S、T中特征字段，再把特征字段转换为0，1，再次求得特征向量，可大大减小S、T的长度，由于S、T长度大大减小，计算编辑距离时间可大幅度降低，进而大大提高计算效率。

把特征向量转换为常量字符，带入编辑距离算法，计算编辑距离。本实施例中对于两个不同的日志，会首先计算它们的编辑距离，如果大于(相似度)阈值，则它们之间具有联系，将所有两两之间具有联系的日志分为一个组。如阈值可以为80％，超出80％则分为一组。

步骤24：根据每一日志组中的日志与已分类的最终日志分类集合中各类日志的相似度，将相似度满足预设阈值的日志组中的日志聚类至对应的最终日志分类集合中。

在本实施例中，通过将利用规则日志模板，将原始日志数据预处理得到日志数据，以此减少日志数据的数据量。规则化的日志数据能够在计算相似度时减少相应的计算次数，提升计算效率，且规则化的日志数据在计算相似度时，能够提高相似度计算的准确性，进而以较少日志组为基准与对应的已分类的最终日志分类集合进行最终分类，能够减少与最终日志分类集合中各类日志进行相似度计算的次数，进而提升对日志数据的分类效率。

参阅图5，图5是本申请提供的日志分类方法一实施例的流程示意图。该方法包括：

步骤51：获取日志数据。

其中，日志数据可以是通过上述任一实施例中的技术方案得到的日志数据。如，本实施例的日志数据为上述实施中的预处理后的日志数据。

步骤52：确定日志数据中的多个日志的特征向量。

其中，日志数据包括特征字段。

在一些实施例中，参阅图6，步骤52可以是以下流程：

步骤521：确定日志数据的特征字段。

步骤522：根据日志数据中的每一日志的特征字段和文本特征，确定每一日志对应的特征向量。

步骤53：根据多个日志的特征向量确定多个日志之间的向量编辑距离。

在本实施例中，可以通过计算日志数据中多个日志的日志特征字段，采用文本频次的统计方法，来提取每个日志中的特征词，在日志中出现频次越高的词，越能表现出日志特征，如应用名，具体异常出现越高，越能代表日志出现的特征为异常。

可以采用以下公式表达：

其中，TF_w表示词条w的词频。

基于日志本身可以提取特征包括：字数、非重复单次数量、长度、停止词数量统计、标点符号数量、大写单词数量、标题式单词数量以及单词的平均长度。

其中，字数表示每一行日志文本的词汇数量。

非重复单词数量表示每一行文本中只出现一次的单词个数。

长度表示每一行文本的长度,占了多少存储空间。

标点符号数量表示每一行文本中包含的标点符号数量。

大写单词数量表示统计大写单词数量。

单词的平均长度表示每一行文本中每个单词长度的平均值。

以下对字符串编辑距离进行说明：

欲将字符串S转换成字符串T，需要经过{e1 e2 e3 e4...en}个操作，每个ei(i＝1，2，...，n)为一次操作。取E＝{e1 e2 e3 e4...en}为一连续的操作序列。所以，将S经由操作集n合E转换成T总共需要成本为λ(E)＝∑λ(ei)＝λ(e1)+i＝1λ(e2)+...+λ(en)，由此式便可求将S经由E转换成T所需要的成本。则由S到T的编辑距离可以定义为：stringdist(S，T)＝min{λ(E)|E是其中的一条路径}。

使用动态规划可以求两个字符的编辑距离，对于字符S、T，可以很快求出时间复杂度是O(|S|×|T|)。其花费大量时间去计算无关文本区域，时间效率比较低，本实施例提出的特征向量法，可以提取S、T中特征字段，再把特征字段转换为0，1，再次求得特征向量，可大大减小S、T的长度，由于S、T长度大大减小，计算编辑距离时间可大幅度降低，进而大大提高计算效率。

步骤54：根据多个日志之间的向量编辑距离对多个日志进行聚类，得到多个日志组。

把特征向量转换为常量字符，带入编辑距离算法，计算编辑距离。本实施例中对于两个不同的日志，会首先计算它们的编辑距离来判断两者之间的相似度，如果相似度大于阈值，则它们之间具有联系，将所有两两之间具有联系的日志分为一个组。如阈值可以为80％，超出80％则分为一组。

步骤55：根据每一日志组中的日志与对应的已分类的最终日志分类集合中各类日志的相似度，将每一日志组中的日志聚类至对应的最终日志分类集合中。

在一些实施例中，参阅图7，步骤55可以是以下流程：

步骤551：获取多个日志组中的每一日志组的来源。

在一些实施例中，每一日志组的来源可以定义为产生日志的应用。如，应用A，应用B和应用C。

步骤552：获取与每一日志组的来源相同的最终日志分类集合。

最终日志分类集合也以应用进行区分。

步骤553：计算每一日志组中的日志与最终日志分类集合中各类日志的向量编辑距离，将每一日志组中的日志聚类至目标日志分类集合中，目标日志分类集合为与日志组中的对应的日志的向量编辑距离最小的最终日志分类集合。

具体地，将需要参与计算的日志进行向量转换，得到对应的特征向量。如，对目标日志组中的日志A进行向量转换，得到第一特征向量。目标类型日志中的日志B进行向量转换，得到第二特征向量。

按照上述任一实施例的计算方式，计算第一特征向量和第二特征向量的向量编辑距离。通过此形式，将每一日志组中的每一日志与日志分类集合中各类日志进行向量编辑距离的计算，得到若干个向量编辑距离。即每一日志组中的每一日志对应若干个向量编辑距离。

从若干个向量编辑距离中确定出最小的向量编辑距离。将该日志聚类至最小的向量编辑距离对应的目标日志分类集合的相应的日志类中。需要说明的是，编辑距离越小，说明两者之间的相似度越大。本实施例提出的特征向量法，可以提取将日志进行向量转换，再次求得编辑距离，使得计算编辑距离时间可大幅度降低，进而大大提高计算效率。

其中，对于一个应用的日志，对于每一行的具体日志，去和该应用的最终分类集合的每一行的具体日志去计算向量编辑距离。

在一应用场景中，将计算的向量编辑距离作为对应相似度的评分，如果计算出的日志间的评分S1超过了阈值F，则这两个日志即归为一个分类，把这条日志累计次数+1。

如果和最终日志分类集合中各类日志里的任何一行具体的日志的评分S都低于阈值F，则相当于是一个新的类型，在最终日志分类集合里加入一行记录，累计计数为1。

重复上述流程，直到日志所有行日志执行完成，计算出日志分类集合D'i＝[x1，x2...xN]。

计算完全量日志，可以得所有应用的聚类结果P'i＝[D1，D2...DN]。

参阅图8，图8是本申请提供的电子设备一实施例的结构示意图。该电子设备80包括处理器81以及与处理器81耦接的存储器82，存储器82中存储有计算机程序，处理器81用于执行计算机程序以实现以下方法：

获取日志数据；根据日志数据中多个日志之间的相似度，对日志数据进行聚类，得到多个日志组；根据每一日志组中的日志与已分类的最终日志分类集合中各类日志的相似度，将相似度满足预设阈值的日志组中的日志聚类至对应的最终日志分类集合中。

可以理解，处理器81还用于执行计算机程序以实现上述任一实施例的方法，具体请参阅上述任一技术方案，这里不做赘述。

参阅图9，图9是本申请提供的计算机可读存储介质一实施例的结构示意图。该计算机可读存储介质90存储有计算机程序91，计算机程序91在被处理器执行时，实现以下方法：

可以理解，计算机程序91在被处理器执行时，还用于实现上述任一实施例的方法，具体请参阅上述任一技术方案，这里不做赘述。

在一应用场景中，结合图10和图11进行说明：

为了验证算法的有效性，本申请实现了一个验证工具，验证工具首先下载业务系统全量日志文件，使用本申请的上述任一技术方案日志进行分类，以用来证明本申请的技术方案可大大提高计算效率，对日志进行聚类是有效的。

首先，从业务系统选取虚拟卡跑批系统、虚拟卡接口系统、数据平台服务系统、外部数据源接入服务系统、支付代扣路由系统的业务日志作为实验数据源，分别对相关技术方案和本申请的技术方案进行对比。

如图10所示，展示了使用相关技术方案在5个核心业务系统的业务日志测试结果，其中，日志平均长度为180-310，计算速度在6万条日志每秒左右。日志长度和处理速度大致呈现负相关，即处理随着日志长度增加，处理速度越慢。

如图11所示，展示了使用本申请的技术方案在5个核心业务系统的业务日志测试结果，其中，日志条数和图10中的相同，不同在于经过本申请技术方案的转换，将原日志的长度变为了1/10，以此计算速度可达到30万条日志每秒左右，大幅度提升了处理速度，为全量日志聚类提升巨大效率。其也反应了日志长度与聚类速度负相关，长度越短处理速度越快，但是远远优于相关技术，聚类速度大幅度提升。

在一应用场景中，基于flink获取所有应用日志数据流，日志集群kafka消费全量日志。如，采集日志的原始内容得到数据，如下：

1.2021-10-21 11:32:01.579[vayhapi][应用程序w api]ERROR[http-nio-8080-exec-74]SignChecker：判断是否是学生，身份证号错误：null异常。

2.2021-10-21 11:33:03.579[vayhapi][应用程序w api]ERROR[http-nio-8080-exec-74]SignChecker：判断是否是学生，身份证号错误：null异常。

3.2021-10-21 11:33:23.579[vayhapi][应用程序w api]ERROR[http-nio-8080-exec-74]AfEventUploadAspect：反欺诈2.0上报获取参数消息id:msgid错误：ReadTimeOut超时异常。

4.2021-10-21 11:33:13.579[crm][客户关系系统]INFO[http-nio-8080-exec-74]CouponService：用户领取了618大促的优惠券1张。

然后利用flink实时进行原始日志数据清洗，把错误的数据清洗，只保留有用的日志，以及每条日志里面不需要展示的信息给剔除掉，清洗后的日志如下：

1.2021-10-21 11:32:01.579[vayhapi][应用程序w api]ERROR SignChecker：判断是否是学生，身份证号错误：null异常。

2.2021-10-21 11:33:03.579[vayhapi][应用程序w api]ERROR SignChecker：判断是否是学生，身份证号错误：null异常。

3.2021-10-21 11:33:21.579[vayhapi][应用程序w api]ERRORAfEventUploadAspect：反欺诈2.0上报获取参数消息id：msgid错误：ReadTimeOut超时异常。

4.2021-10-21 11:33:13.579[crm][客户关系系统]INFO CouponService：用户领取了618大促的优惠券1张。

然后把清洗后的日志放入待处理队列，等待核心线程处理。

然后按照上述任一实施例的技术方案进行聚类。聚类后的日志：

1.2021-10-21 11:32:01.579[vayhapi][应用程序w api]ERROR SignChecker:判断是否是学生，身份证号错误：null异常；累计条数：2。

2.2021-10-21 11:33:21.579[vayhapi][应用程序w api]ERRORAfEventUploadAspect:反欺诈2.0上报获取参数消息id:msgid错误：ReadTimeOut超时异常；累计条数：1。

3.2021-10-21 11:33:13.579[crm][客户关系系统]INFO CouponService：用户领取了618大促的优惠券1张；累计条数：1。

然后把计算后的结果，按照应用分组，每个应用数据通过发送到Elasticsearch存储，用于后续查看日志量的排行展示，以及用于同比、环比告警。具体的分组可以如下：

1、应用：[vayhapi][应用程序w api]日志类型：ERROR SignChecker:判断是否是学生，身份证号错误：null异常；累计条数：2。

2、应用：[vayhapi][应用程序w api]日志类型：ERROR AfEventUploadAspect:反欺诈2.0上报获取参数消息id：msgid错误：ReadTimeOut超时异常；累计条数：1。

3、应用：[crm][客户关系系统]日志类型：INFO CouponService：用户领取了618大促的优惠券1张；累计条数：1。

根据每个应用日志变化数量，配置告警阈值，配置告警类型，配置告警周期，当触发了阈值就发送告警通知。比如告警规则如下：

1、应用程序w告警-查询接口异常同比变化率[判断是否是学生，身份证号错误]。

2、客户关系系统告警-用户领取优惠券数量-近一小时环比比率。

告警通道接收到告警事件，通过告警级别，有电话通知、短信通知、微信通知以及邮件通知给业务系统负责人。如收到微信通知：

1、最近五分钟和前一天相比：应用程序w日志告警-查询接口异常同比增长50％[判断是否是学生，身份证号错误]，最近五分钟日志条数：2条。

2、客户关系系统告警-用户领取优惠券数量-[用户领取了618大促的优惠券]-近一小时环比下降80％。

在其他实施例中，通过可视化大屏，展示每个应用的日志条数排行，实时查询聚合后的日志，可以展示每个应用日志，从大到小排列。

如，应用程序w当前5分钟日志排行：

1.2021-10-21 11:32:01.579[vayhapi][应用程序w api]ERROR SignChecker:判断是否是学生，身份证号错误：null异常；累计条数：98757。

2.2021-10-21 11:33:21.579[vayhapi][应用程序w api]ERRORAfEventUploadAspect：反欺诈2.0上报获取参数消息id：msgid错误：ReadTimeOut超时异常；累计条数：8765。

在上述flink实时计算中，使用flink流式计算引擎实现：先创建一个FlinkKafkaConsumer010对象，用来从kafka消费指标数据；然后将日志对象作为数据源添加到flink执行环境中，得到DataStreamSource；调用flink的flatMap方法，将kafka的消息数据清洗为可以进行计算的日志数据，数据类型为Tuple2<String，Map>。调用flink对象的assignTimestampsAndWatermarks方法，统一以时间戳字段timestamp作为时间水印，所有时间相关的计算都以指标的这个字段为准；调用flink对象的keyBy(0)方法，以每个指标的应用名字段进行分流，保证每个数据流里面进行计算的数据都是同一个应用的数据；调用flink对象的timeWindow(Time.minutes(5)，Time.minutes(1))方法，在应用流数据的基础上，创建滑动时间窗口，窗口长度为5分钟，窗口滑动长度为1分钟。也就是应用5分钟内的数据会聚合到一个窗口内部，计算完成之后，窗口时间往前走动一分钟；调用flink对象的apply()方法，在方法内实现根据日志，按照日志聚类方法，字符串相似度方法累加每条日志的条数；调用flink对象的map()方法，在方法内对数据封装，然后发送到elasticsearch。

综上，本申请提供的日志分类方法、电子设备及计算机可读存储介质，通过获取日志数据；根据日志数据中多个日志之间的相似度，对日志数据进行聚类，得到多个日志组；根据每一日志组中的日志与对应的最终日志分类集合中各类日志的相似度，将每一日志组中的日志聚类至对应的最终日志分类集合中的方式，先对日志数据聚类成多个日志组，然后以较少日志组为基准与对应的最终日志分类集合进行最终分类，能够减少与最终日志分类集合中各类日志进行相似度计算的次数，进而提升对日志数据的分类效率。

在本申请所提供的几个实施方式中，应该理解到，所揭露的方法以及设备，可以通过其它的方式实现。例如，以上所描述的设备实施方式仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施方式中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是根据本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种日志分类方法，其特征在于，所述方法包括：

获取日志数据；

根据所述日志数据中多个日志之间的相似度，对所述日志数据进行聚类，得到多个日志组；

根据每一日志组中的日志与已分类的最终日志分类集合中各类日志的相似度，将相似度满足预设阈值的所述日志组中的日志聚类至对应的所述最终日志分类集合中。

2.根据权利要求1所述的方法，其特征在于，

所述获取日志数据，包括：

获取原始日志数据；

对所述原始日志数据进行预处理，以得到所述日志数据；其中，所述日志数据的数据量小于所述原始日志数据的数据量，所述日志数据包括多个日志以及每一所述日志对应的数量。

3.根据权利要求2所述的方法，其特征在于，

所述原始日志数据包括多个原始日志；

所述对所述原始日志数据进行预处理，以得到所述日志数据，包括：

根据预设规则对所述原始日志数据中的多个原始日志进行处理，得到多个规则日志；

将所述多个规则日志中相同的日志进行合并，以得到所述日志数据。

4.根据权利要求3所述的方法，其特征在于，

所述根据预设规则对所述原始日志数据中的多个原始日志进行处理，得到多个规则日志，包括：

提取所述原始日志数据中的多个原始日志的日志属性，所述日志属性包括日志时间、日志来源、日志级别、日志线程、日志类、日志事件和日志异常状态中的至少一种；

根据预设规则日志模版和每一所述日志的日志属性，对应生成多个规则日志。

5.根据权利要求1所述的方法，其特征在于，

所述根据所述日志数据中多个日志之间的相似度，对所述日志数据进行聚类，得到多个日志组，包括：

确定所述日志数据中的所述多个日志的特征向量；

根据所述多个日志的特征向量确定所述多个日志之间的向量编辑距离；

根据所述多个日志之间的向量编辑距离对所述多个日志进行聚类，得到多个日志组。

6.根据权利要求5所述的方法，其特征在于，所述日志数据包括特征字段；

所述确定所述日志数据中的所述多个日志的特征向量，包括：

根据所述日志数据中的每一所述日志的所述特征字段和文本特征，确定每一所述日志对应的特征向量。

7.根据权利要求5所述的方法，其特征在于，

所述根据每一日志组中的日志与已分类的最终日志分类集合中各类日志的相似度，将相似度满足预设阈值的所述日志组中的日志聚类至对应的所述最终日志分类集合中，包括：

获取所述多个日志组中的每一日志组的来源；以及

获取与所述每一日志组的来源相同的最终日志分类集合；

计算所述每一日志组中的日志与所述最终日志分类集合中各类日志的向量编辑距离，将每一所述日志组中的日志聚类至目标日志分类集合中，所述目标日志分类集合为与日志组中的对应的日志的向量编辑距离最小的所述最终日志分类集合。

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取所述最终日志分类集合中每类日志在预设时间内的增量；

若所述增量超过预设值，则进行预警提示。

9.一种电子设备，其特征在于，所述电子设备包括处理器以及与所述处理器耦接的存储器，所述存储器中存储有计算机程序，所述处理器用于执行所述计算机程序以实现如权利要求1-8任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序在被处理器执行时，实现如权利要求1-8任一项所述的方法。