CN112612887A - 日志处理方法、装置、设备和存储介质 - Google Patents

日志处理方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN112612887A
CN112612887A CN202011565760.9A CN202011565760A CN112612887A CN 112612887 A CN112612887 A CN 112612887A CN 202011565760 A CN202011565760 A CN 202011565760A CN 112612887 A CN112612887 A CN 112612887A
Authority
CN
China
Prior art keywords
log
logs
preset number
clustering
sets
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011565760.9A
Other languages
English (en)
Inventor
赵旭
王卓
周晓阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Topsec Technology Co Ltd
Beijing Topsec Network Security Technology Co Ltd
Beijing Topsec Software Co Ltd
Original Assignee
Beijing Topsec Technology Co Ltd
Beijing Topsec Network Security Technology Co Ltd
Beijing Topsec Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Topsec Technology Co Ltd, Beijing Topsec Network Security Technology Co Ltd, Beijing Topsec Software Co Ltd filed Critical Beijing Topsec Technology Co Ltd
Priority to CN202011565760.9A priority Critical patent/CN112612887A/zh
Publication of CN112612887A publication Critical patent/CN112612887A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开实施例涉及一种日志处理方法、装置、设备和存储介质,其中,该方法可以包括:获取待处理日志,并对待处理日志进行聚类处理,得到第一预设数量的候选日志分类集合;计算每个候选日志分类集合中各日志的熵值;其中,熵值用于表征日志的信息量;根据熵值,从每个候选日志分类集合中筛选第二预设数量的日志,得到第一预设数量的目标日志分类集合;计算第一预设数量的目标日志分类集合对应的日志分布稳定度;如果日志分布稳定度大于稳定度阈值,且重新聚类得到的集合数量大于第一预设数量,则进行日志预警处理。本公开实施例减少了日志预警处理的时间延迟,基于日志分布稳定度和重新聚类得到的分类数量进行双重验证,保证了日志预警的准确性。

Description

日志处理方法、装置、设备和存储介质
技术领域
本公开涉及数据处理技术领域,尤其涉及一种日志处理方法、装置、设备和存储介质。
背景技术
系统日志通常是无结构的文本数据,在使用数据挖掘算法对系统日志建立模型训练之前,需要使用日志解析算法将原始的日志数据结构化。日志解析技术是日志挖掘的关键一环。传统的日志解析算法包括正则表达式匹配方式、基于源代码的方式、或者基于规则式的方式,这些方法对专家经验知识依赖性强,当新的日志格式出现时,解析规则容易变得不适用。因此,分析服务器日志变化并及时预警已经成为系统管理员评估系统运行状况的重要手段之一。
针对海量日志实时更新场景下,现有方案在日志预警处理过程中存在较长的时间延迟,不能满足日志预警的处理需求。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开实施例提供了一种日志处理方法、装置、设备和存储介质。
第一方面,本公开实施例提供了一种日志处理方法,包括:
获取待处理日志,并对所述待处理日志进行聚类处理,得到第一预设数量的候选日志分类集合;
计算每个候选日志分类集合中各日志的熵值;其中,所述熵值用于表征日志的信息量;
根据所述熵值,从每个候选日志分类集合中筛选第二预设数量的日志,得到所述第一预设数量的目标日志分类集合;
计算所述第一预设数量的目标日志分类集合对应的日志分布稳定度;
如果所述日志分布稳定度大于稳定度阈值,则对所述待处理日志重新进行所述聚类处理,确定重新聚类得到的集合数量;
如果所述重新聚类得到的集合数量大于所述第一预设数量,则进行日志预警处理。
第二方面,本公开实施例还提供了一种日志处理装置,包括:
日志聚类模块,用于获取待处理日志,并对所述待处理日志进行聚类处理,得到第一预设数量的候选日志分类集合;
熵值计算模块,用于计算每个候选日志分类集合中各日志的熵值;其中,所述熵值用于表征日志的信息量;
日志筛选模块,用于根据所述熵值,从每个候选日志分类集合中筛选第二预设数量的日志,得到所述第一预设数量的目标日志分类集合;
分布稳定度计算模块,用于计算所述第一预设数量的目标日志分类集合对应的日志分布稳定度;
重新聚类模块,用于如果所述日志分布稳定度大于稳定度阈值,则对所述待处理日志重新进行所述聚类处理,确定重新聚类得到的集合数量;
日志预警模块,用于如果所述重新聚类得到的集合数量大于所述第一预设数量,则进行日志预警处理。
第三方面,本公开实施例还提供了一种电子设备,包括存储器和处理器,其中:所述存储器中存储有计算机程序,当所述计算机程序被所述处理器执行时,使得所述电子设备实现本公开实施例提供的任一日志处理方法。
第四方面,本公开实施例还提供了一种计算机可读存储介质,所述存储介质中存储有计算机程序,当所述计算机程序被计算设备执行时,使得所述计算设备实现本公开实施例提供的任一日志处理方法。
本公开实施例提供的技术方案与现有技术相比至少具有如下优点:
在本公开实施例中,针对海量日志实时更新的场景下,在获取到待处理日志后,依次对待处理日志进行聚类和熵值计算,然后针对每个日志分类筛选出熵值较大的日志,作为具有代表性的日志,参与日志分布稳定度的计算,进而根据日志分布稳定度和重新聚类得到的分类数量确定是否进行日志预警处理,相比于日志预警处理过程对全量日志进行处理的情况,提高了日志处理效率,而且熵值计算和日志分布稳定度计算耗费的系统资源均较少,可以实现实时计算,可以及时检测日志分布是否发生变化,因此,本方案减少了日志预警处理的时间延迟;同时基于熵值进行日志筛选,保证了基于筛选后的日志进行日志处理的结果准确性;最后基于日志分布稳定度和重新聚类得到的分类数量进行双重验证,进一步保证了日志预警的准确性。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本公开实施例提供的一种日志处理方法的流程图;
图2为本公开实施例提供的另一种日志处理方法的流程图;
图3为本公开实施例提供的一种日志处理装置的结构示意图;
图4为本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
图1为本公开实施例提供的一种日志处理方法的流程图,可以适用于如何对日志进行处理,以确定是否进行日志预警处理的情况。该日志处理方法可以由日志处理装置执行,该装置可以采用软件和/或硬件实现,并可集成在任意具有计算能力的电子设备上,例如终端或服务器等。
如图1所示,本公开实施例提供的日志处理方法可以包括:
S101、获取待处理日志,并对待处理日志进行聚类处理,得到第一预设数量的候选日志分类集合。
在本公开实施例中,可以从日志源中实时获取待处理日志,然后对待处理日志中的各日志进行向量化表示,得到各日志的日志向量,然后基于日志向量,对待处理日志进行聚类处理。聚类处理过程中采用的聚类算法可以是任意可用的聚类算法,例如K-Means(K均值)聚类算法等,聚类得到的每个候选日志分类集合均对应一个聚类中心。
S102、计算每个候选日志分类集合中各日志的熵值;其中,熵值用于表征日志的信息量。
熵作为一种度量标准,可以用于衡量日志分布的混乱程度。日志的熵值越大,表示该日志的信息量越大,进而将该日志用于日志分析处理的价值越大。关于熵值的计算,可以利用现有技术中任意可用的计算方式实现,本公开实施例不作具体限定。
示例性的,假设对待处理日志进行聚类处理,预测得到k个聚类簇,即第一预设数量为k,一个聚类簇对应一个候选日志分类集合,各个候选日志分类集合的聚类中心点可以表示为[k1,k2...kk],则每个候选日志分类集合中各条日志xi距离各个聚类中心点的距离可以表示为[d1,d2...dk],示例性的,该距离可以是欧式距离,相应的,各条日志xi被预测为各类别的概率可以表示为[p1,p2...pk],其中,各个概率值可以表示如下:
Figure BDA0002861706770000051
概率值中的下标i=1、2、3……k;
进而,根据以下熵值计算公式H(xi),可以得到各条日志xi的熵值。
Figure BDA0002861706770000052
S103、根据熵值,从每个候选日志分类集合中筛选第二预设数量的日志,得到第一预设数量的目标日志分类集合。
由于日志数量通常较大,而且实时新增,如果直接基于全量的日志数据进行处理,必然导致日志处理效率较低,而且导致日志预警处理存在较长的时间延迟,因此,根据日志的熵值进行日志筛选,可以解决前述问题,达到提高日志处理效率,减少日志预警处理的时间延迟的效果;同时基于熵值进行日志筛选,还可以保证基于筛选后的日志进行日志处理的结果准确性。
可选的,根据熵值,从每个候选日志分类集合中筛选第二预设数量的日志,得到第一预设数量的目标日志分类集合,包括:
对每个候选日志分类集合中的日志按照熵值递减顺序进行排序;
基于每个候选日志分类集合中排序在前的第二预设数量的日志,得到第一预设数量的目标日志分类集合;或者,
从每个候选日志分类集合中确定熵值超过熵值阈值的第二预设数量的日志,得到第一预设数量的目标日志分类集合。
示例性的,假设第二预设数量为N,即从每个候选日志分类集合中根据熵值筛选出N条日志,作为一个目标日志分类集合D'i=[x1,x2...xN],进而第一预设数量的目标日志分类集合可以表示为D'=[D'1,D'2...D'k]。其中,第二预设数量以及熵值阈值的具体取值,均可以根据需求而定,本公开实施例不作具体限定。
S104、计算第一预设数量的目标日志分类集合对应的日志分布稳定度。
日志分布稳定度(Population Stability Index,PSI)可以用于衡量当前日志处理周期内与历史日志处理周期内(例如上一日志处理周期内)日志分布的差异性,从而确定当前处理周期内待处理日志的稳定性。
可选的,计算第一预设数量的目标日志分类集合对应的日志分布稳定度,包括:
按照日志向量维度m,将第一预设数量的目标日志分类集合中的日志划分至第三预设数量q的日志区间,即日志区间为q个;
计算每个日志向量维度j下每个日志区间对应的当前日志占比p1f
具体的,
Figure BDA0002861706770000061
其中,M表示在当前日志处理周期内第一预设数量的目标日志分类集合对应的日志总数,即分类数量k与每个目标日志分类集合中日志数量N的乘积,
Figure BDA0002861706770000062
表示在当前日志处理周期内第f个日志区间内的日志的数量,f=1、2、3……q;
获取每个日志向量维度下每个日志区间对应的历史日志占比
Figure BDA0002861706770000063
其中,历史日志占比是将第一预设数量的历史日志分类集合按照日志向量维度划分至第三预设数量的日志区间后得到,第一预设数量的历史日志分类集合对应的各个日志区间的边界与第一预设数量的目标日志分类集合对应的各个日志区间的边界相同;
具体的,
Figure BDA0002861706770000064
其中,M表示在历史日志处理周期内(例如上一日志处理周期)第一预设数量的历史日志分类集合对应的日志总数(与当前日志处理周期内参与稳定度计算的日志总数相同),即分类数量k与每个历史日志分类集合中日志数量N的乘积,
Figure BDA0002861706770000065
表示在历史日志处理周期内第f个日志区间内的日志的数量;
根据当前日志占比和历史日志占比,计算每个日志向量维度j下的日志分布稳定度psij
具体的,
Figure BDA0002861706770000071
其中,j=1、2、3……m;
计算各个日志向量维度下的日志分布稳定度的均值,作为第一预设数量的目标日志分类集合对应的日志分布稳定度psi;
具体的,
Figure BDA0002861706770000072
S105、如果日志分布稳定度大于稳定度阈值,则对待处理日志重新进行聚类处理,确定重新聚类得到的集合数量。
S106、如果重新聚类得到的集合数量大于第一预设数量,则进行日志预警处理。
该稳定度阈值可以适应性设置,本公开实施例不作具体限定,例如可以设置为0.25。如果日志分布稳定度大于稳定度阈值,说明当前日志处理周期内日志分布与历史日志处理周期内日志分布存在差异的概率性较大,然后对待处理日志重新进行聚类处理,确定重新聚类得到的集合数量,如果重新聚类得到的集合数量大于第一预设数量,说明产生了新格式(或新类型)的日志,则需要进行日志预警处理,例如发送日志预警提示信息或者对待处理日志进行分析,确定产生的新格式(或新类型)的日志、确定系统是否发生故障、故障类型、故障原因或者给出故障处理建议等。其中,日志预警提示信息可以采用文字、图像或者音频等形式实现,以提示技术人员执行相应的预警操作,例如提示技术人员产生了新格式的日志或者采用新的日志解析方式对日志进行解析,或者提示技术人员根据日志类型,进行分析日志,确认系统是否发生故障以及故障类型、故障原因等。如果日志分布稳定度小于或等于稳定度阈值,说明当前日志处理周期内日志分布与历史日志处理周期内日志分布存在差异的概率性较小,则不需要重新进行聚类处理,不需要进行日志预警处理,或者如果重新聚类得到的集合数量小于或等于第一预设数量,说明未产生新格式的日志,则不需要进行日志预警处理。此处需要说明的是,每次聚类过程中得到的分类数可以不一样。
在本公开实施例中,针对海量日志实时更新的场景下,在获取到待处理日志后,依次对待处理日志进行聚类和熵值计算,然后针对每个日志分类筛选出熵值较大的日志,作为具有代表性的日志,参与日志分布稳定度的计算,进而根据日志分布稳定度和重新聚类得到的分类数量确定是否进行日志预警处理,相比于日志预警处理过程对全量日志进行处理的情况,提高了日志处理效率,而且熵值计算和日志分布稳定度计算耗费的系统资源均较少,可以实现实时计算,因此,本方案减少了日志预警处理的时间延迟;同时基于熵值进行日志筛选,保证了基于筛选后的日志进行日志处理的结果准确性;最后基于日志分布稳定度和重新聚类得到的分类数量进行双重验证,进一步保证了日志预警的准确性。
图2为本公开实施例提供的另一种日志处理方法的流程图,基于上述技术方案进一步优化与扩展,并可以与上述各个可选实施方式进行结合。如图2所示,本公开实施例提供的日志处理方法可以包括:
S201、获取待处理日志。
S202、按照预设日志解析规则,确定待处理日志中各日志所属的勿连约束集合。
预设日志解析规则可以用于对待处理日志中的各日志进行初步的二分类处理,例如,预设日志解析规则可以是正则表达式,如果利用该正则表达式对日志解析通过,则该日志可以被划分至第一勿连约束集合L1,如果利用该正则表达式对日志解析不通过,则该日志可以被划分至第二勿连约束集合L2
S203、基于勿连约束集合,对待处理日志进行聚类处理,得到第一预设数量的候选日志分类集合;其中,属于不同勿连约束集合中的日志聚类至不同的候选日志分类集合中。
属于不同勿连约束集合的日志,在聚类处理过程中,将被聚类至不同的候选日志分类集合中,即本公开实施例采用半监督学习的方式,在日志聚类过程中引入辅助信息,提高聚类结果的准确性。
可选的,基于勿连约束集合,对待处理日志进行聚类处理,得到第一预设数量的候选日志分类集合,包括:
对待处理日志中的各日志进行分词处理,并确定分词处理得到的各日志中所有词的词向量;例如可以利用词向量模型(word2vector)确定各日志中所有词的词向量;
对各日志中所有词的词向量求平均,得到各日志的日志向量;
基于勿连约束集合和日志向量,对待处理日志进行聚类处理,得到第一预设数量的候选日志分类集合。
示例性的,待处理日志中的日志x1属于第一勿连约束集合L1,待处理日志中的日志x2属于第二勿连约束集合L2,在基于日志的日志向量与聚类中心点的距离分别对日志x1和日志x2进行聚类过程中,日志x1被聚类至第一候选日志分类集合C1,此时,尽管在日志x2的日志向量与各个聚类中心的距离中,日志x2的日志向量与第一候选日志分类集合C1的聚类中心的距离最小,本公开实施例不会将日志x2和日志x1同时划分至一个候选日志分类集合中,而是将日志x2划分至日志x2的日志向量与聚类中心的距离为次最小的候选日志分类集合中,从而提高日志聚类的准确性。
进一步的,在聚类处理过程中,可以利用Davies-Boulding指数(DBI)计算聚类效果的优劣,DBI越小说明聚类效果越好,因此选择DBI最小的分类数k作为分类标准。假设经过聚类处理,得到第一预设数量k的候选日志分类集合可以表示为C={C1,C2...Ck},则DBI计算公式参考如下:
Figure BDA0002861706770000101
Figure BDA0002861706770000102
Figure BDA0002861706770000103
其中,avg(C)表示任意候选日志分类集合中日志之间的平均距离,例如avg(Ci)表示候选日志分类集合Ci中日志之间的平均距离,avg(Cj)表示候选日志分类集合Cj中日志之间的平均距离;μ表示聚类中心,dist(μij)表示候选日志分类集合Ci的聚类中心μi和候选日志分类集合Cj的聚类中心μj之间的距离。前述提及的各个距离均是指代欧式距离。关于DBI的具体原理可以参考现有技术,本公开实施例不作具体限定。
S204、计算每个候选日志分类集合中各日志的熵值;其中,熵值用于表征日志的信息量。
S205、根据熵值,从每个候选日志分类集合中筛选第二预设数量的日志,得到第一预设数量的目标日志分类集合。
S206、计算第一预设数量的目标日志分类集合对应的日志分布稳定度。
S207、确定日志分布稳定度是否大于稳定度阈值。
如果是,则执行操作S208,如果否,则返回操作S201,继续获取新的待处理日志。
S208、对待处理日志重新进行聚类处理,确定重新聚类得到的集合数量。
即在本公开实施例中,如果在当前日志处理周期内,最终计算的日志分布稳定度大于稳定度阈值,则可以利用前述聚类处理方式,对待处理日志重新进行聚类处理,例如基于待处理日志中各日志所属的勿连约束集合,重新对待处理日志进行聚类处理,确定重新聚类得到的集合数量k2。此处需要说明的是,每次聚类过程中得到的分类数可以不一样。
S209、确定重新聚类得到的集合数量是否大于第一预设数量。
如果是,即k2大于第一预设数量k1,说明产生了新格式(或新类型)的日志,则执行操作S210;如果否,即k2小于或等于第一预设数量k1,说明未产生新格式的日志,则返回操作S201,继续获取新的待处理日志。即本公开实施例可以根据日志分布稳定度和日志分类的变化,进行双重验证(即确定日志分布是否发生变化),进一步提高日志预警的准确性。
S210、进行日志预警处理。
进一步的,本公开实施例提供的日志处理方法还包括:
基于重新聚类得到的各个新日志分类集合,按照熵值从各个新日志分类集合中筛选第四预设数量(取值可以适应性确定)的日志,得到各个新目标日志分类集合;其中,各个新目标日志分类集合用于用户验证聚类处理的有效性。
关于日志熵值计算和日志筛选原理可以参考前述介绍。在得到各个新目标日志分类集合后,用户(即技术人员)可以将这些集合中的日志作为参考样本,人工判断聚类处理的有效性,也即判断当前日志处理周期中日志聚类模型是否有效,确保日志聚类结果的可靠性。如果确定聚类处理有效,则可以进一步观察分类集合中的日志规律,编写新的解析日志代码,以用于对新产生的日志进行解析。如果确定聚类处理无效,则可以对聚类处理进行改进,以使得聚类结果具有可靠性。
在本公开实施例中,针对待处理日志,采用半监督学习的方式,在日志聚类过程中引入辅助信息,提高了聚类结果的准确性;根据熵值筛选日志,保证了基于筛选后的日志进行日志处理的结果准确性,即保证了日志预警的准确性,同时相比于日志预警处理过程对全量日志进行处理的情况,提高了日志处理效率;熵值计算和日志分布稳定度计算耗费的系统资源均较少,可以实现实时计算,因此,本方案减少了日志预警处理的时间延迟;进一步的,根据日志分布稳定度和日志分类的变化,进行双重验证,给出了更加准确的日志预警结果。
图3为本公开实施例提供的一种日志处理装置的结构示意图,该装置可以采用软件和/或硬件实现,并可集成在任意具有计算能力的电子设备上。
如图3所示,本公开实施例提供的日志处理装置300可以包括日志聚类模块301、熵值计算模块302、日志筛选模块303、分布稳定度计算模块304、重新聚类模块305和日志预警模块306,其中:
日志聚类模块301,用于获取待处理日志,并对待处理日志进行聚类处理,得到第一预设数量的候选日志分类集合;
熵值计算模块302,用于计算每个候选日志分类集合中各日志的熵值;其中,熵值用于表征日志的信息量;
日志筛选模块303,用于根据熵值,从每个候选日志分类集合中筛选第二预设数量的日志,得到第一预设数量的目标日志分类集合;
分布稳定度计算模块304,用于计算第一预设数量的目标日志分类集合对应的日志分布稳定度;
重新聚类模块305,用于如果日志分布稳定度大于稳定度阈值,则对待处理日志重新进行聚类处理,确定重新聚类得到的集合数量;
日志预警模块306,用于如果重新聚类得到的集合数量大于第一预设数量,则进行日志预警处理。
可选的,分布稳定度计算模块304包括:
日志划分单元,用于按照日志向量维度,将第一预设数量的目标日志分类集合中的日志划分至第三预设数量的日志区间;
当前日志占比计算单元,用于计算每个日志向量维度下每个日志区间对应的当前日志占比;
历史日志占比获取单元,用于获取每个日志向量维度下每个日志区间对应的历史日志占比;其中,历史日志占比是将第一预设数量的历史日志分类集合按照日志向量维度划分至第三预设数量的日志区间后得到;
第一稳定度计算单元,用于根据当前日志占比和历史日志占比,计算每个日志向量维度下的日志分布稳定度;
第二稳定度计算单元,用于计算各个日志向量维度下的日志分布稳定度的均值,作为第一预设数量的目标日志分类集合对应的日志分布稳定度。
可选的,日志聚类模块301包括:
日志获取单元,用于获取待处理日志;
勿连约束集合确定单元,用于按照预设日志解析规则,确定待处理日志中各日志所属的勿连约束集合;
日志聚类单元,用于基于勿连约束集合,对待处理日志进行聚类处理,得到第一预设数量的候选日志分类集合;其中,属于不同勿连约束集合中的日志聚类至不同的候选日志分类集合中。
可选的,日志筛选模块303包括:
日志排序单元,用于对每个候选日志分类集合中的日志按照熵值递减顺序进行排序;
第一日志筛选单元,用于基于每个候选日志分类集合中排序在前的第二预设数量的日志,得到第一预设数量的目标日志分类集合;或者,
第二日志筛选单元,用于从每个候选日志分类集合中确定熵值超过熵值阈值的第二预设数量的日志,得到第一预设数量的目标日志分类集合。
可选的,日志聚类单元包括:
词向量确定子单元,用于对待处理日志中的各日志进行分词处理,并确定分词处理得到的各日志中所有词的词向量;
日志向量确定子单元,用于对各日志中所有词的词向量求平均,得到各日志的日志向量;
日志聚类子单元,用于基于勿连约束集合和日志向量,对待处理日志进行聚类处理,得到第一预设数量的候选日志分类集合。
可选的,本公开实施例提供的日志处理装置300还包括:
日志重筛选模块,用于基于重新聚类得到的各个新日志分类集合,按照熵值从各个新日志分类集合中筛选第四预设数量的日志,得到各个新目标日志分类集合;其中,各个新目标日志分类集合用于用户验证聚类处理的有效性。
本公开实施例所提供的日志处理装置可执行本公开实施例所提供的任意日志处理方法,具备执行方法相应的功能模块和有益效果。本公开装置实施例中未详尽描述的内容可以参考本公开任意方法实施例中的描述。
图4为本公开实施例提供的一种电子设备的结构示意图,用于对实现本公开实施例提供的日志处理方法的电子设备进行示例性说明。本公开实施例中的电子设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机、智能家居设备、可穿戴电子设备、服务器等等的固定终端。图4示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和占用范围带来任何限制。
如图4所示,电子设备400包括一个或多个处理器401和存储器402。
处理器401可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备400中的其他组件以执行期望的功能。
存储器402可以包括一个或多个计算机程序产品,计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器401可以运行程序指令,以实现本公开实施例提供的日志处理方法,还可以实现其他期望的功能。在计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
其中,本公开实施例提供的日志处理方法可以包括:获取待处理日志,并对待处理日志进行聚类处理,得到第一预设数量的候选日志分类集合;计算每个候选日志分类集合中各日志的熵值;其中,熵值用于表征日志的信息量;根据熵值,从每个候选日志分类集合中筛选第二预设数量的日志,得到第一预设数量的目标日志分类集合;计算第一预设数量的目标日志分类集合对应的日志分布稳定度;如果日志分布稳定度大于稳定度阈值,则对待处理日志重新进行聚类处理,确定重新聚类得到的集合数量;如果重新聚类得到的集合数量大于第一预设数量,则进行日志预警处理。
应当理解,电子设备400还可以执行本公开方法实施例提供的其他可选实施方案。
在一个示例中,电子设备400还可以包括:输入装置403和输出装置404,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
此外,该输入装置403还可以包括例如键盘、鼠标等等。
该输出装置404可以向外部输出各种信息,包括确定出的距离信息、方向信息等。该输出装置404可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图4中仅示出了该电子设备400中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备400还可以包括任何其他适当的组件。
除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,其包括计算机程序指令,计算机程序指令在被处理器运行时使得计算设备实现本公开实施例所提供的任意日志处理方法。
计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户电子设备上执行、部分地在用户电子设备上执行、作为一个独立的软件包执行、部分在用户电子设备上且部分在远程电子设备上执行、或者完全在远程电子设备上执行。
此外,本公开实施例还可以提供一种计算机可读存储介质,其上存储有计算机程序指令,计算机程序指令在被处理器运行时使得计算设备实现本公开实施例所提供的任意日志处理方法。
其中,本公开实施例提供的日志处理方法可以包括:获取待处理日志,并对待处理日志进行聚类处理,得到第一预设数量的候选日志分类集合;计算每个候选日志分类集合中各日志的熵值;其中,熵值用于表征日志的信息量;根据熵值,从每个候选日志分类集合中筛选第二预设数量的日志,得到第一预设数量的目标日志分类集合;计算第一预设数量的目标日志分类集合对应的日志分布稳定度;如果日志分布稳定度大于稳定度阈值,则对待处理日志重新进行聚类处理,确定重新聚类得到的集合数量;如果重新聚类得到的集合数量大于第一预设数量,则进行日志预警处理。
应当理解,计算机程序指令在被处理器运行时,还可以使得处理器执行本公开方法实施例提供的其他可选实施方案。
计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种日志处理方法,其特征在于,包括:
获取待处理日志,并对所述待处理日志进行聚类处理,得到第一预设数量的候选日志分类集合;
计算每个候选日志分类集合中各日志的熵值;其中,所述熵值用于表征日志的信息量;
根据所述熵值,从每个候选日志分类集合中筛选第二预设数量的日志,得到所述第一预设数量的目标日志分类集合;
计算所述第一预设数量的目标日志分类集合对应的日志分布稳定度;
如果所述日志分布稳定度大于稳定度阈值,则对所述待处理日志重新进行所述聚类处理,确定重新聚类得到的集合数量;
如果所述重新聚类得到的集合数量大于所述第一预设数量,则进行日志预警处理。
2.根据权利要求1所述的方法,其特征在于,所述计算所述第一预设数量的目标日志分类集合对应的日志分布稳定度,包括:
按照日志向量维度,将所述第一预设数量的目标日志分类集合中的日志划分至第三预设数量的日志区间;
计算每个日志向量维度下每个日志区间对应的当前日志占比;
获取每个日志向量维度下每个日志区间对应的历史日志占比;其中,所述历史日志占比是将所述第一预设数量的历史日志分类集合按照所述日志向量维度划分至所述第三预设数量的日志区间后得到;
根据所述当前日志占比和所述历史日志占比,计算每个日志向量维度下的日志分布稳定度;
计算各个日志向量维度下的日志分布稳定度的均值,作为所述第一预设数量的目标日志分类集合对应的日志分布稳定度。
3.根据权利要求1所述的方法,其特征在于,所述对所述待处理日志进行聚类处理,得到第一预设数量的候选日志分类集合,包括:
按照预设日志解析规则,确定所述待处理日志中各日志所属的勿连约束集合;
基于所述勿连约束集合,对所述待处理日志进行聚类处理,得到所述第一预设数量的候选日志分类集合;其中,属于不同勿连约束集合中的日志聚类至不同的候选日志分类集合中。
4.根据权利要求1所述的方法,其特征在于,所述根据所述熵值,从每个候选日志分类集合中筛选第二预设数量的日志,得到所述第一预设数量的目标日志分类集合,包括:
对每个候选日志分类集合中的日志按照熵值递减顺序进行排序;
基于每个候选日志分类集合中排序在前的所述第二预设数量的日志,得到所述第一预设数量的目标日志分类集合;或者,
从每个候选日志分类集合中确定所述熵值超过熵值阈值的所述第二预设数量的日志,得到所述第一预设数量的目标日志分类集合。
5.根据权利要求3所述的方法,其特征在于,所述基于所述勿连约束集合,对所述待处理日志进行聚类处理,得到所述第一预设数量的候选日志分类集合,包括:
对所述待处理日志中的各日志进行分词处理,并确定分词处理得到的各日志中所有词的词向量;
对各日志中所有词的词向量求平均,得到各日志的日志向量;
基于所述勿连约束集合和所述日志向量,对所述待处理日志进行聚类处理,得到所述第一预设数量的候选日志分类集合。
6.根据权利要求1所述的方法,其特征在于,还包括:
基于重新聚类得到的各个新日志分类集合,按照熵值从各个新日志分类集合中筛选第四预设数量的日志,得到各个新目标日志分类集合;其中,所述各个新目标日志分类集合用于用户验证聚类处理的有效性。
7.一种日志处理装置,其特征在于,包括:
日志聚类模块,用于获取待处理日志,并对所述待处理日志进行聚类处理,得到第一预设数量的候选日志分类集合;
熵值计算模块,用于计算每个候选日志分类集合中各日志的熵值;其中,所述熵值用于表征日志的信息量;
日志筛选模块,用于根据所述熵值,从每个候选日志分类集合中筛选第二预设数量的日志,得到所述第一预设数量的目标日志分类集合;
分布稳定度计算模块,用于计算所述第一预设数量的目标日志分类集合对应的日志分布稳定度;
重新聚类模块,用于如果所述日志分布稳定度大于稳定度阈值,则对所述待处理日志重新进行所述聚类处理,确定重新聚类得到的集合数量;
日志预警模块,用于如果所述重新聚类得到的集合数量大于所述第一预设数量,则进行日志预警处理。
8.根据权利要求7所述的装置,其特征在于,所述日志聚类模块包括:
日志获取单元,用于获取所述待处理日志;
勿连约束集合确定单元,用于按照预设日志解析规则,确定所述待处理日志中各日志所属的勿连约束集合;
日志聚类单元,用于基于所述勿连约束集合,对所述待处理日志进行聚类处理,得到所述第一预设数量的候选日志分类集合;其中,属于不同勿连约束集合中的日志聚类至不同的候选日志分类集合中。
9.一种电子设备,其特征在于,包括存储器和处理器,其中:
所述存储器中存储有计算机程序,当所述计算机程序被所述处理器执行时,使得所述电子设备实现权利要求1-6中任一项所述的日志处理方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有计算机程序,当所述计算机程序被计算设备执行时,使得所述计算设备实现权利要求1-6中任一项所述的日志处理方法。
CN202011565760.9A 2020-12-25 2020-12-25 日志处理方法、装置、设备和存储介质 Pending CN112612887A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011565760.9A CN112612887A (zh) 2020-12-25 2020-12-25 日志处理方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011565760.9A CN112612887A (zh) 2020-12-25 2020-12-25 日志处理方法、装置、设备和存储介质

Publications (1)

Publication Number Publication Date
CN112612887A true CN112612887A (zh) 2021-04-06

Family

ID=75248177

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011565760.9A Pending CN112612887A (zh) 2020-12-25 2020-12-25 日志处理方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN112612887A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113238922A (zh) * 2021-06-02 2021-08-10 南京领行科技股份有限公司 一种日志分析方法、装置、电子设备及介质
CN113254255A (zh) * 2021-07-15 2021-08-13 苏州浪潮智能科技有限公司 一种云平台日志的分析方法、系统、设备及介质
CN113791946A (zh) * 2021-08-31 2021-12-14 北京达佳互联信息技术有限公司 一种日志处理方法、装置、电子设备及存储介质
WO2023040300A1 (zh) * 2021-09-14 2023-03-23 中兴通讯股份有限公司 数据处理方法、电子设备、存储介质及程序产品

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104283737A (zh) * 2014-09-30 2015-01-14 杭州华为数字技术有限公司 数据流的处理方法和装置
CN108696486A (zh) * 2017-04-10 2018-10-23 中国移动通信集团公司 一种异常操作行为检测处理方法及装置
CN109783638A (zh) * 2018-12-17 2019-05-21 南京航空航天大学 一种基于半监督学习的用户评论聚类方法
CN110288004A (zh) * 2019-05-30 2019-09-27 武汉大学 一种基于日志语义挖掘的系统故障诊断方法及装置
CN110674014A (zh) * 2019-09-16 2020-01-10 中国银联股份有限公司 一种确定异常查询请求的方法及装置
CN110750412A (zh) * 2019-09-02 2020-02-04 北京云集智造科技有限公司 日志异常检测方法
CN111209153A (zh) * 2019-12-31 2020-05-29 联想(北京)有限公司 异常检测处理方法、装置及电子设备
CN111538642A (zh) * 2020-07-02 2020-08-14 杭州海康威视数字技术股份有限公司 一种异常行为的检测方法、装置、电子设备及存储介质
CN111611146A (zh) * 2020-06-18 2020-09-01 南方电网科学研究院有限责任公司 一种微服务故障预测方法和装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104283737A (zh) * 2014-09-30 2015-01-14 杭州华为数字技术有限公司 数据流的处理方法和装置
CN108696486A (zh) * 2017-04-10 2018-10-23 中国移动通信集团公司 一种异常操作行为检测处理方法及装置
CN109783638A (zh) * 2018-12-17 2019-05-21 南京航空航天大学 一种基于半监督学习的用户评论聚类方法
CN110288004A (zh) * 2019-05-30 2019-09-27 武汉大学 一种基于日志语义挖掘的系统故障诊断方法及装置
CN110750412A (zh) * 2019-09-02 2020-02-04 北京云集智造科技有限公司 日志异常检测方法
CN110674014A (zh) * 2019-09-16 2020-01-10 中国银联股份有限公司 一种确定异常查询请求的方法及装置
CN111209153A (zh) * 2019-12-31 2020-05-29 联想(北京)有限公司 异常检测处理方法、装置及电子设备
CN111611146A (zh) * 2020-06-18 2020-09-01 南方电网科学研究院有限责任公司 一种微服务故障预测方法和装置
CN111538642A (zh) * 2020-07-02 2020-08-14 杭州海康威视数字技术股份有限公司 一种异常行为的检测方法、装置、电子设备及存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113238922A (zh) * 2021-06-02 2021-08-10 南京领行科技股份有限公司 一种日志分析方法、装置、电子设备及介质
CN113238922B (zh) * 2021-06-02 2022-08-26 南京领行科技股份有限公司 一种日志分析方法、装置、电子设备及介质
CN113254255A (zh) * 2021-07-15 2021-08-13 苏州浪潮智能科技有限公司 一种云平台日志的分析方法、系统、设备及介质
CN113254255B (zh) * 2021-07-15 2021-10-29 苏州浪潮智能科技有限公司 一种云平台日志的分析方法、系统、设备及介质
CN113791946A (zh) * 2021-08-31 2021-12-14 北京达佳互联信息技术有限公司 一种日志处理方法、装置、电子设备及存储介质
WO2023040300A1 (zh) * 2021-09-14 2023-03-23 中兴通讯股份有限公司 数据处理方法、电子设备、存储介质及程序产品

Similar Documents

Publication Publication Date Title
CN106897428B (zh) 文本分类特征提取方法、文本分类方法及装置
CN107992596B (zh) 一种文本聚类方法、装置、服务器和存储介质
CN112612887A (zh) 日志处理方法、装置、设备和存储介质
CN110909222B (zh) 基于聚类的用户画像建立方法、装置、介质及电子设备
CN111371853B (zh) 资源信息推送方法、装置、服务器及存储介质
CN112131322B (zh) 时间序列分类方法及装置
CN110825894A (zh) 数据索引建立、数据检索方法、装置、设备和存储介质
CN112883990A (zh) 数据分类方法及装置、计算机存储介质、电子设备
CN114116973A (zh) 多文档的文本查重方法、电子设备及存储介质
CN111639493A (zh) 一种地址信息标准化方法、装置、设备及可读存储介质
CN112070559A (zh) 状态获取方法和装置、电子设备和存储介质
CN109582906B (zh) 数据可靠度的确定方法、装置、设备和存储介质
JP6563350B2 (ja) データ分類装置、データ分類方法、及びプログラム
CN112101024B (zh) 基于app信息的目标对象识别系统
CN113515593A (zh) 基于聚类模型的话题检测方法、装置和计算机设备
CN112632000A (zh) 日志文件聚类方法、装置、电子设备和可读存储介质
CN115643094A (zh) 一种威胁情报融合方法、装置、电子设备及存储介质
CN110852078A (zh) 生成标题的方法和装置
CN112801226A (zh) 数据筛选方法和装置、计算机可读存储介质、电子设备
CN110688508B (zh) 图文数据扩充方法、装置及电子设备
CN113946566A (zh) Web系统指纹库的构建方法、装置和电子设备
CN113591881A (zh) 基于模型融合的意图识别方法、装置、电子设备及介质
CN113254800A (zh) 信息推荐方法、装置、电子设备及存储介质
CN112463964A (zh) 文本分类及模型训练方法、装置、设备及存储介质
JP2008097147A (ja) 主要なクラスタを判定する方法及びコンピュータ

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination