CN113723542A - 一种日志聚类处理方法及系统 - Google Patents

一种日志聚类处理方法及系统 Download PDF

Info

Publication number
CN113723542A
CN113723542A CN202111028390.XA CN202111028390A CN113723542A CN 113723542 A CN113723542 A CN 113723542A CN 202111028390 A CN202111028390 A CN 202111028390A CN 113723542 A CN113723542 A CN 113723542A
Authority
CN
China
Prior art keywords
clustering
log
layer
correlation
logs
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111028390.XA
Other languages
English (en)
Inventor
周暐
钱飞扬
巩珊珊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Qiniu Information Technology Co ltd
Original Assignee
Shanghai Qiniu Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Qiniu Information Technology Co ltd filed Critical Shanghai Qiniu Information Technology Co ltd
Priority to CN202111028390.XA priority Critical patent/CN113723542A/zh
Publication of CN113723542A publication Critical patent/CN113723542A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/1734Details of monitoring file system events, e.g. by the use of hooks, filter drivers, logs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种日志聚类处理方法和系统,所述方法包括:获取并切分日志数据;依次对每二条日志的相关性进行分析;对相关性强的日志数据进行聚类处理,获得各层聚类的结果;对各层聚类结果进行评价,获得聚类的最终评价结果。本发明采取的技术方案,不仅仅对聚类层级进行适当的抽象,得到足够合理的聚类数量,也能够提高了聚类的准确性。

Description

一种日志聚类处理方法及系统
技术领域
本发明涉及数据处理技术领域,尤其涉及一种日志聚类处理方法及系统。
背景技术
云计算的飞速发展,催生了大量的云平台的应用和服务,大量网络用户的信息都存储在各种各样的云平台上,随着用户的增加,各种云平台产生的日志数据也大规模的喷发,如何对这些海量的用户日志或者平台服务系统的日志进行分析和挖掘,是云平台所要面对和解决的技术问题之一。
聚类算法是目前解决这类海量日志的有效解决办法,对于日志行为的分析,目前主要的聚类算法主要有基于业务逻辑和先验知识,设计一些规则对日志进行聚类,还有一种是基于无监督学习的算法,对海量数据标签进行算法聚类。
基于不同的算法,或者不同的模型,或者设定不同的目标函数等等的差异,都会产生不同的聚类结果,每种聚类算法都有其特定的适用场景和优劣,没有一种万能的聚类算法是适合所有的场景和应用的。因此,如何评价哪种聚类结果是最佳或者最合适的的聚类,是目前业界需要解决的更深层技术问题。
发明内容
本发明为解决现有技术中存在的技术问题,提供一种日志聚类处理方法,包括以下步骤:
S1:获取并切分日志数据;
S2:依次对每二条日志的相关性进行分析;
S3:对相关性强的日志数据进行聚类处理,获得各层聚类的结果;
S4:对各层聚类结果进行评价,获得聚类的最终评价结果。
进一步地,步骤S1获取日志数据包括:
获取日志数据;
对日志数据进行清洗;
通过正则表达式将清洗后的日志数据进行结构化处理。
进一步地,步骤S2中相关性分析,计算相关系数的公式为:
Figure BDA0003244191730000021
进一步地,步骤S3对相关性强的日志数据进行聚类处理,获得各层聚类的结果,其步骤包括:
获得底层聚类;
在底层聚类基础上,进行若干次聚类,直至聚合为一类,获得各层聚类结果;
其中,底层聚类的步骤包括:
在底层聚类前先设定相关系数的预设阈值;
根据日志顺序,依次计算其相关系数,将最先相关系数大于预设阈值的二条日志归为一类,并将其第1条日志作为代表日志;
依次计算后续的日志与代表日志的相关系数,如果相关系数大于预设阈值,则继续归为一类,若小于预设阈值,则新建一类,直至全部计算完毕,获得底层聚类。
进一步地,步骤S4中对聚类结果进行评价,其步骤包括:
获取聚类结果中每一层聚类中的类别数量NC、每一类中的日志总数Qi、类型相同且值相等的日志数量Valuei、类型相同且值不相等的日志数量Typei、两者均不相同的日志数量Nonei
设置用户偏好的类别数量NP、类型相同且值相等的日志影响系数b1、类型相同且值不相等的日志影响系数b2、两者均不相同的日志影响系数b3
计算每一层聚类分析的难度系数Difficulty,其公式为:
Figure BDA0003244191730000022
将Difficulty的值最小时对应的聚类层次作为最终推荐的聚类结果。
本发明还提供一种聚类处理装置,包括获取单元、日志分析单元、聚类单元、评价单元,其中:
获取单元用以获取并切分日志数据;
日志分析单元用以依次对每二条日志的相关性进行分析;
聚类单元用以对相关性强的日志数据进行聚类处理,获得各层聚类的结果;
评价单元用以对各层聚类结果进行评价,获得聚类的最终评价结果。
进一步地,日志分析单元中对相关性分析的公式为:
Figure BDA0003244191730000031
进一步地,评价单元中,计算每一层聚类分析的难度系数Difficulty,其公式为:
Figure BDA0003244191730000032
本发明还提供一种电子设备,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如上述日志聚类处理方法。
本发明还提供一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如上述日志聚类处理方法。
本发明公开的方法和系统中所述模块,在实际应用中,即可以在一台目标服务器上部署多个模块,也可以每一模块独立部署在不同的目标服务器上,特别的,根据需要,为了提供更强大的计算处理能力,也可以根据需要将模块部署到集群目标服务器上。
由此可见,本发明采取的技术方案,不仅仅对聚类层级进行适当的抽象,得到足够合理的聚类数量,也能够提高了聚类的准确性。
为了对本发明有更清楚全面的了解,下面结合附图,对本发明的具体实施方式进行详细描述。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例的一种日志聚类处理方法的流程示意图。
具体实施方式
请参阅图1,图1示出了一种日志聚类处理方法的流程示意图,其步骤包括:
S1:获取并切分日志数据;
S2:依次对每二条日志的相关性进行分析;
S3:对相关性强的日志数据进行聚类处理,获得各层聚类的结果;
S4:对各层聚类结果进行评价,获得聚类的最终评价结果。
具体如下:
步骤S1:获取并切分日志数。
在实际的场景中,无论是用户的行为产生的日志,还是机器运行软件系统产生的日志数据,虽然包含有很多文本,但是这类日志数据和普通的文本不一样,常规的文本如中文或者英文,基本都是文字型的文本,即使有少部分的非文字的符号,也不是这类文本的分析重点,因此常规的自然语言处理流程先对句子进行分词,然后清洗,然后做词向量的转化,再进行聚类分析等,并且有成熟的工具模型或者框架如word2vector,bert等进行特征分析和判断。
但是对于本申请中所述的日志数据,除了文字以外,还有很多非文字的符号,而且这些符号对分析具有重要的意义,对于不同的机器或者不同的系统,产生的日志数据格式也不一样,因此并没有成熟的工具来进行分析。
为了更好地对日志进行分析,首先需要对日志的数据进行处理,作为一种优选的实施方式,在获取日志数据,还需要对日志数据进行清洗,将一些和本申请要解决问题无关的信息清洗掉,清洗之后,在对清洗后的日志数据进行结构化的处理,比如通过正则表达式的方法将清洗后的日志数据进行结构化处理。还可以根据需要对这些结构化的数据进行降维或者升维处理,便于后续的数据处理。
步骤S2:依次对每二条日志的相关性进行分析。
本申请实施例中,作为一种优选的实施方式,获得结构化之后,在对日志数据进行聚类分析之前,需要对各条日志进行相关性分析,本申请实施例中的相关性分析,以比较各条日志的相似性来作为评估的,在具体比较的二条日志中,判断每一对字段的类型、数值是否相等来判断两者的相似性,越相似的日志,其相关性越大,反之其相关性越小。
为此,本申请提出一种计算的方法,采用相关系数的数值来作为评价其相关性,其相关系数的公式为:
Figure BDA0003244191730000051
其中,Similar(Ai,Bi)的值,有三种情况,当其值为t1表示二者类型相同且值相等,t2表示二者类型相同且值不相等,t3表示二者类型不相同。len(A)和len(B)分别表示日志A和日志B的长度,Min(len(A),len(B))表示日志A长度和日志B长度中的最小值,Max(len(A),len(B))表示日志A长度和日志B长度中的最大值。
本申请实施例的公式,可以依次对日志中的每一对字段的类型、数值是否相等来进行判断。由于本申请的技术方案是针对日志的特殊性,即日志可能会包含各种如日期、时间、IP地址、数值、字符串等,而不是像传统的自然语言处理那样对语义经分析,可以把这些特殊符号纳入分析,从而可以挖掘更多的日志背后的规律。
本计算方法中,考虑到更能表达日志数据的各种各样的特殊情况,为了既提高该公式的泛化能力(即可以适用在不同日志数据的场景),又能提高聚类结果的准确性,中的参数K1和K2参数的设置,对于计算日志的相关性具有重要的影响,本申请实施例提出了一种优选的实施方式,在创建k1、k2这两个参数时,并没有固定这二个参数值(如1或0.5等)的数值变量,而是给与其更丰富的表达方式,即设置有多个可选项目来调整K1和K2值,比如可以设置包含有默认值=1、特定类型和数值=其他值、元素数量不限的组合,为日志分析提供灵活定制和后期其他功能的扩展,具体实现的一种方式如下,将参数设置为一组字典,如下:
values_weights={
'default':1.0,
'timeout':1.1,
'404':1.1}
types_weights={
'default':1.0,
'string':0.5,
'url':0.7}
步骤S3:对相关性强的日志数据进行聚类处理,获得各层聚类的结果。
在进行相关性分析之后,获得了各条日志的相关性,下一阶段即可对这些日志进行聚类分析,具体的聚类算法,可以根据日志数据的特点,使用不同的聚类算法来实现,比如K-means、或者采用基于层次的聚类算法,对日志数据集进行层次似的分解,直到某种条件满足为止,也可以基于密度的方法如DBSCAN算法、OPTICS算法、DENCLUE算法等,也可以使用其他的模型实现自动聚类。
作为一种优选的实施方式,本申请实施例采取的技术方案如下:
获得底层聚类;
在底层聚类基础上,进行若干次聚类,直至聚合为一类,获得各层聚类结果;
其中,底层聚类的步骤包括:
在底层聚类前先设定相关系数的预设阈值,比如设置的阈值为0.8。
根据日志顺序,依次计算其相关系数,将最先相关系数大于预设阈值的二条日志归为一类,假设最早的二条日志的相关系数大于0.8,则归为一类,并将其第1条日志作为代表日志;然后计算第3条日志与代表日志的相关系数,如果相关系数大于0.8,则继续归为一类,反之新建一类。如此计算直至最后一天日志结束。
底层聚类完成后,接着对各类的代表日志进行第二层聚类,再对第二层聚类后各类的代表日志进行第三层聚类,直至聚合为一类,完成层次聚类。
最后,步骤S4:对各层聚类结果进行评价,获得聚类的最终评价结果。
一般来说,聚类得到的分类结果越多,细粒度越好,但是对于在项目时间中,海量的分类结果,实际上并没有意义,首先这些聚类结果太多,无法判断日志中那些是重要的信息,那些是次要的信息,那些是不需要关注的信息,假设在某个时间点,聚类出几千条异常的日志信息,也会让数据分析人员无法进行轻重缓急的判断,同时也消耗浪费大量的计算资源。
因此,在聚类的同时,在算力和时间成本之间取得平衡,如何对聚类的数量进行合理的收敛,需要对聚类进行评价,本申请提出了一种优选的实施方式。
获取聚类结果中每一层聚类中的类别数量NC、每一类中的日志总数Qi、类型相同且值相等的日志数量Valuei、类型相同且值不相等的日志数量Typei、两者均不相同的日志数量Nonei
设置用户偏好的类别数量NP、类型相同且值相等的日志影响系数b1、类型相同且值不相等的日志影响系数b2、两者均不相同的日志影响系数b3
计算每一层聚类分析的难度系数Difficulty,其公式为:
Figure BDA0003244191730000081
将Difficulty的值最小时对应的聚类层次作为最终推荐的聚类结果,并向用户展现默认最佳的日志聚类结果,取得更佳的技术效果。
基于上述实施例的方法,本申请还提供了一种实现上述方法的聚类处理装置,包括获取单元、日志分析单元、聚类单元、评价单元,其中:
获取单元用以获取并切分日志数据;
日志分析单元用以依次对每二条日志的相关性进行分析;
聚类单元用以对相关性强的日志数据进行聚类处理,获得各层聚类的结果;
评价单元用以对各层聚类结果进行评价,获得聚类的最终评价结果。
具体实施请参阅上述方法实施例。
本申请实施例还提供一种电子设备,所述电子设备中包括处理器及存储器,所述存储器中存储有可执行程序,当所述可执行程序在计算机上运行时,所述计算机执行上述任一实施例所述方法和系统。
需要说明的是,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过计算机程序来指令相关的硬件来完成,所述计算机程序可以存储于计算机可读存储介质中,所述存储介质可以包括但不限于:只读存储器(ROM,Read OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁盘或光盘等。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种日志聚类处理方法,其特征是,包括以下步骤:
S1:获取并切分日志数据;
S2:依次对每二条日志的相关性进行分析;
S3:对相关性强的日志数据进行聚类处理,获得各层聚类的结果;
S4:对各层聚类结果进行评价,获得聚类的最终评价结果。
2.如权利要求1所述的日志聚类处理方法,其特征是,步骤S1获取日志数据包括:
获取日志数据;
对日志数据进行清洗;
通过正则表达式将清洗后的日志数据进行结构化处理。
3.如权利要求1所述的日志聚类处理方法,其特征是,步骤S2中相关性分析,计算相关系数的公式为:
Figure FDA0003244191720000011
4.如权利要求1所述的日志聚类处理方法,其特征是,步骤S3对相关性强的日志数据进行聚类处理,获得各层聚类的结果,其步骤包括:
获得底层聚类;
在底层聚类基础上,进行若干次聚类,直至聚合为一类,获得各层聚类结果;
其中,底层聚类的步骤包括:
在底层聚类前先设定相关系数的预设阈值;
根据日志顺序,依次计算其相关系数,将最先相关系数大于预设阈值的二条日志归为一类,并将其第1条日志作为代表日志;
依次计算后续的日志与代表日志的相关系数,如果相关系数大于预设阈值,则继续归为一类,若小于预设阈值,则新建一类,直至全部计算完毕,获得底层聚类。
5.如权利要求1所述的日志聚类处理方法,其特征是,步骤S4中对聚类结果进行评价,其步骤包括:
获取聚类结果中每一层聚类中的类别数量NC、每一类中的日志总数Qi、类型相同且值相等的日志数量Valuei、类型相同且值不相等的日志数量Typei、两者均不相同的日志数量Nonei
设置用户偏好的类别数量NP、类型相同且值相等的日志影响系数b1、类型相同且值不相等的日志影响系数b2、两者均不相同的日志影响系数b3
计算每一层聚类分析的难度系数Difficulty,其公式为:
Figure FDA0003244191720000021
将Difficulty的值最小时对应的聚类层次作为最终推荐的聚类结果。
6.一种聚类处理装置,其特征在于,包括获取单元、日志分析单元、聚类单元、评价单元,其中:
获取单元用以获取并切分日志数据;
日志分析单元用以依次对每二条日志的相关性进行分析;
聚类单元用以对相关性强的日志数据进行聚类处理,获得各层聚类的结果;
评价单元用以对各层聚类结果进行评价,获得聚类的最终评价结果。
7.如权利要求6所述的聚类处理装置、其特征在于,日志分析单元中对相关性分析的公式为:
Figure FDA0003244191720000022
8.如权利要求6所述的聚类处理装置、其特征在于,评价单元中,计算每一层聚类分析的难度系数Difficulty,其公式为:
Figure FDA0003244191720000023
9.一种电子设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如权利要1至5任一所述的日志聚类处理方法。
10.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至5任一所述的日志聚类处理方法。
CN202111028390.XA 2021-09-02 2021-09-02 一种日志聚类处理方法及系统 Pending CN113723542A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111028390.XA CN113723542A (zh) 2021-09-02 2021-09-02 一种日志聚类处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111028390.XA CN113723542A (zh) 2021-09-02 2021-09-02 一种日志聚类处理方法及系统

Publications (1)

Publication Number Publication Date
CN113723542A true CN113723542A (zh) 2021-11-30

Family

ID=78681167

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111028390.XA Pending CN113723542A (zh) 2021-09-02 2021-09-02 一种日志聚类处理方法及系统

Country Status (1)

Country Link
CN (1) CN113723542A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114741673A (zh) * 2022-06-13 2022-07-12 深圳竹云科技股份有限公司 行为风险检测方法、聚类模型构建方法、装置
CN117033334A (zh) * 2023-10-08 2023-11-10 吉林省高速公路集团有限公司 高速公路收费车道日志采集处理方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114741673A (zh) * 2022-06-13 2022-07-12 深圳竹云科技股份有限公司 行为风险检测方法、聚类模型构建方法、装置
CN114741673B (zh) * 2022-06-13 2022-08-26 深圳竹云科技股份有限公司 行为风险检测方法、聚类模型构建方法、装置
CN117033334A (zh) * 2023-10-08 2023-11-10 吉林省高速公路集团有限公司 高速公路收费车道日志采集处理方法及系统
CN117033334B (zh) * 2023-10-08 2023-12-22 吉林省高速公路集团有限公司 高速公路收费车道日志采集处理方法及系统

Similar Documents

Publication Publication Date Title
US11741361B2 (en) Machine learning-based network model building method and apparatus
CN110069709B (zh) 意图识别方法、装置、计算机可读介质及电子设备
CN112070138B (zh) 多标签混合分类模型的构建方法、新闻分类方法及系统
CN107844533A (zh) 一种智能问答系统及分析方法
CN111666350B (zh) 一种基于bert模型的医疗文本关系抽取的方法
CN114818643B (zh) 一种保留特定业务信息的日志模板提取方法及装置
CN112182219A (zh) 一种基于日志语义分析的在线服务异常检测方法
CN113723542A (zh) 一种日志聚类处理方法及系统
CN110019653B (zh) 一种融合文本和标签网络的社交内容表征方法和系统
US20230214679A1 (en) Extracting and classifying entities from digital content items
CN110264311B (zh) 一种基于深度学习的商业推广信息精准推荐方法及系统
CN104008177B (zh) 面向图像语义标注的规则库结构优化与生成方法及系统
WO2023208136A1 (zh) 一种kpi异常检测方法、装置、设备及介质
CN110347827A (zh) 面向异构文本运维数据的事件提取方法
CN110929028A (zh) 一种日志分类方法及装置
Bhutada et al. Semantic latent dirichlet allocation for automatic topic extraction
CN115828180A (zh) 一种基于解析优化和时序卷积网络的日志异常检测方法
CN116029280A (zh) 一种文档关键信息抽取方法、装置、计算设备和存储介质
CN117874662A (zh) 基于图模式的微服务日志异常检测方法
CN117252186A (zh) 基于xai的信息处理方法、装置、设备及存储介质
CN116578700A (zh) 日志分类方法、日志分类装置、设备及介质
CN114090850A (zh) 日志分类方法、电子设备及计算机可读存储介质
JP2004326465A (ja) 文書分類用の学習装置、及びこれを用いた文書分類方法並びに文書分類装置
CN115203500A (zh) 一种用户标签的丰富方法、装置、计算机设备和存储介质
CN111930883A (zh) 一种文本聚类方法、装置、电子设备和计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination