CN113535955A - 一种日志快速归类方法及装置 - Google Patents

一种日志快速归类方法及装置 Download PDF

Info

Publication number
CN113535955A
CN113535955A CN202110804922.8A CN202110804922A CN113535955A CN 113535955 A CN113535955 A CN 113535955A CN 202110804922 A CN202110804922 A CN 202110804922A CN 113535955 A CN113535955 A CN 113535955A
Authority
CN
China
Prior art keywords
log
template
matching
text
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110804922.8A
Other languages
English (en)
Other versions
CN113535955B (zh
Inventor
屠彧
李家炎
许广洋
徐晨灿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202110804922.8A priority Critical patent/CN113535955B/zh
Publication of CN113535955A publication Critical patent/CN113535955A/zh
Application granted granted Critical
Publication of CN113535955B publication Critical patent/CN113535955B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/113Details of archiving
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/1734Details of monitoring file system events, e.g. by the use of hooks, filter drivers, logs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本文涉及计算机技术领域,适用于金融领域、银行领域等,尤其涉及一种日志快速归类方法及装置。其中方法包括:对日志库进行文本向量化处理,得到日志文本向量集,将所述日志文本向量集进行聚类,得到日志聚类结果,分析所述日志聚类结果,得到日志模板,根据所述日志模板,对输入的日志进行匹配,得到日志匹配模板列表,根据所述日志匹配模板列表,得到日志关联模板,所述日志关联模板用于完成日志归类。通过本文方法和装置,实现了对日志的快速归类,提高了日志归类的效率。

Description

一种日志快速归类方法及装置
技术领域
本文涉及计算机技术领域,可以适用于金融领域,尤其涉及一种日志快速归类方法及装置。
背景技术
随着科技的不断发展,科技类服务的质量不断提高,为了高效运维,在服务器出现故障时会上报大量的日志,运维人员可以通过日志分析故障原因,但大批量的日志带来了日志快速归类的难题,此外,由于同一故障可能会上报多条日志,运维人员很难在大批量日志中快速定位故障原因。
目前,人工凭借经验对日志进行归类的方法存在效率低、工作量大等问题。使用机器学习的聚类算法对日志进行归类是一个比较普遍的方法,但是常规的聚类算法只能通过再次聚类的方式对新增的日志进行归类,无法实现日志匹配模板的方式快速归类,日志聚类的计算量巨大。
现在亟需一种能够将日志快速归类的方法,从而解决现有技术中对日志归类效率低、计算量大的问题。
发明内容
为解决现有技术中对日志归类效率低、计算量大的问题,本文实施例提供了一种日志快速归类方法及装置,能够更精准地对日志进行聚类,生成日志模板,进而得到日志关联模板,通过日志关联模板实现对日志的快速归类,达到快速定位故障的目的。
本文提供了一种日志快速归类方法,包括,
对日志库进行文本向量化处理,得到日志文本向量集;
将所述日志文本向量集进行聚类,得到日志聚类结果;
分析所述日志聚类结果,得到日志模板;
根据所述日志模板,对输入的日志进行匹配,得到日志匹配模板列表;
根据所述日志匹配模板列表,得到日志关联模板,所述日志关联模板用于完成日志归类。
本文实施例还提供了一种日志快速归类装置,包括,
文本向量化单元,对日志库进行文本向量化处理,得到日志文本向量集;
日志聚类单元,将所述日志文本向量集进行聚类,得到日志聚类结果;
日志模板生成单元,分析所述日志聚类结果,得到日志模板;
日志匹配单元,根据所述日志模板,对输入的日志进行匹配,得到日志匹配模板列表;
日志关联模板生成单元,根据所述日志匹配模板列表,得到日志关联模板,所述日志关联模板用于完成日志归类。
本文实施例还提供了一种计算机设备,包括存储器、处理器、以及存储在所述存储器上的计算机程序,所述处理器执行所述计算机程序时实现上述的方法。
本文实施例还提供了一种计算机存储介质,其上存储有计算机程序,所述计算机程序被计算机设备的处理器运行时,执行上述的方法。
利用本文实施例,文本向量化单元对日志库中的日志进行文本向量化处理,得到日志文本向量集,然后将所述日志文本向量集进行聚类,得到日志聚类结果,所述日志聚类结果中包括多个日志类别,然后对所述日志聚类结果中的多个类别分别进行分析,得到每个类别的日志模板,根据日志模板,对输入的日志进行匹配,得到日志匹配模板列表,所述日志匹配模板列表中可以但不限于包括日志与日志模板的对应关系,然后根据日志模板匹配列表,得到日志关联模板,最后根据日志关联模板对日志进行归类,快速定位故障。通过生成日志关联模板的方式实现了对输入日志的快速归类,提高了日志归类的效率。
附图说明
为了更清楚地说明本文实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本文的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1所示为本文实施例一种日志快速归类装置的结构示意图;
图2所示为本文实施例一种日志快速归类方法的流程图;
图3所示为本文实施例一种日志快速归类装置的详细结构图;
图4所示为本文实施例对日志快速归类的流程图;
图5所示为本文实施例生成日志模板的流程图;
图6所示为本文实施例生成日志关联模板的流程图;
图7所示为本文实施例计算设备的结构示意图。
【附图标记说明】:
101、文本向量化单元;
102、日志聚类单元;
103、日志模板生成单元;
104、日志匹配单元;
105、日志关联模板生成单元;
301、文本向量化单元;
3011、数据清理模块;
3012、公有属性替换模块;
3013、文本编码模块;
302、日志聚类单元;
3021、日志聚类模块;
3022、相似度计算模块;
3023、相似度比较模块;
303、日志模板生成单元;
3031、离散向量剔除模块;
3032、词汇量计算模块;
3033、日志模板生成模块;
304、日志匹配单元;
3041、待归类日志文本向量化模块;
3042、日志模板匹配模块;
305、日志关联模板生成单元;
3051、日志模板组合模块;
3052、关联模板选择模块;
3053、日志归类模块;
701、计算机设备;
702、处理器;
703、存储器;
704、驱动机构;
705、输入/输出模块;
706、输入设备;
707、输出设备;
708、呈现设备;
709、图形用户接口;
710、网络接口;
711、通信链路;
712、通信总线。
具体实施方式
下面将结合本文实施例中的附图,对本文实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本文一部分实施例,而不是全部的实施例。基于本文中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本文保护的范围。
如图1所示为本文实施例一种日志快速归类装置结构示意图,在本图中,包括文本向量化单元101、日志聚类单元102、日志模板生成单元103、日志匹配单元104、日志关联模板生成单元105,在本文中,日志模板生成单元103根据日志聚类单元102得到的日志聚类结果生成所述日志聚类结果中各类别对应的日志模板,通过日志关联模板生成单元105生成的日志关联模板对输入的日志进行归类,并得到日志关联模板所代表的故障原因。
文本向量化单元101对日志库中的日志进行文本向量化处理,得到日志文本向量集,日志聚类单元102对日志文本向量集进行聚类,得到日志类别和该类别中包括的日志文本向量,日志模板生成单元103根据日志聚类单元102得到的日志聚类结果生成所述日志聚类结果中各类别对应的日志模板,日志匹配单元104对输入的日志与各日志模板进行正则匹配,得到输入日志与日志模板的对应关系,构建日志模板匹配列表,日志关联模板生成单元105根据日志匹配模板列表,得到日志关联模板,根据日志关联模板对输入的日志进行归类,并得到故障原因。其中,本文实施例所述的日志可以但不限于网络设备告警日志。
如图2所示为本文实施例一种日志快速归类方法,在本图中描述了对日志库进行文本向量化处理,然后对日志进行聚类,生成聚类结果中各日志类别的日志模板,然后根据日志模板对输入的日志进行匹配并得到日志关联模板,通过日志关联模板对输入的日志进行归类,得到故障原因,该方法包括:
步骤201:对日志库进行文本向量化处理,得到日志文本向量集;
步骤202:将所述日志文本向量集进行聚类,得到日志聚类结果;
步骤203:分析所述日志聚类结果,得到日志模板;
步骤204:根据所述日志模板,对输入的日志进行匹配,得到日志匹配模板列表;
步骤205:根据所述日志匹配模板列表,得到日志关联模板,所述日志关联模板用于完成日志归类。
通过本文实施例的方法,首先对日志库中的日志进行文本向量化处理,按照空格、标点符号、特殊符号对日志文本进行分割,将日志分割出的每个单词进行编码,转变成能够被机器学习算法识别的文本向量,得到日志库对应的日志文本向量集,然后对日志文本向量集进行聚类,得到日志聚类结果,其中包括日志类别和属于该类别的日志文本向量,然后对聚类结果进行分析,生成日志聚类结果中各类别对应的日志模板,将输入的日志与各日志模板进行正则匹配,得到输入日志与日志模板的对应关系,构建日志匹配模板列表,所述输入的日志即为待归类的日志,根据日志匹配模板列表,得到日志关联模板,根据日志关联模板对输入的日志进行归类,并得到故障原因。
根据本文的一个实施例,对日志库进行文本向量化处理,得到日志文本向量集进一步包括,对所述日志库进行数据清洗,分割所述日志库中各日志的特有字段,得到日志文本,对所述日志文本进行编码,得到日志文本向量集。
在本步骤中,日志文件中有时会因为中文的编码不同出现乱码情况,按行读取日志文件,统一使用utf-8格式进行编码,对于无法识别的文本进行丢弃,防止后续处理出错,影响训练精度。
在日志文本中,会存在一些公有字段,这些共有字段对日志的聚类以及日志模板的生成没有实际的作用,但由于这些共有字段的存在,会增加日志文本向量集的词汇量,因此需要将日志的公有字段替换为通配符,保留日志的特有字段。例如,在网络设备日志中,会有时间、IP地址、以太网口、规则名等公有字段,使用正则化脚本,将这些公有字段替换为TIME,IP,ETH,RULE,减少日志中的词汇量,进而减少聚类的计算量。
然后进行文本向量化处理,按照空格、标点符号、特殊符号对日志进行分割,使用tokenizer工具提取日志中的每一个单词,然后使用独热编码算法one-hot encoding将日志分割出的每个单词进行编码,使得机器学习算法能够对日志进行处理。
所述one-hot encoding算法采用N位状态寄存器来对N个状态进行编码。每个状态都对应独立的寄存器位,并且在任意时刻,独热编码只有一个寄存器位有效。例如:
性别:["male","famale"]
地区:["Europe","US","Asia"]
浏览器:["Firefox","Chrome","Safari","Internet Explorer"]
采用one-hot编码方式对上述样本["male","US","Internet Explorer"]编码,“male”则对应着[1,0],同理“US”对应着[0,1,0],“Internet Explorer”对应着[0,0,0,1]。则完整的特征数字化的结果为:[1,0,0,1,0,0,0,0,1]。
再使用word-embedding算法将每个单词的维度进行压缩,将所述日志转换为相等维度的向量,提高模型训练的效率。
word-embedding算法的输入是原始文本中的一组不重叠的词汇,例如,句子Appleon an apple tree,那么为了便于处理,将这些词汇放置到一个字典中[“apple”,“on”,“a”,“tree”],这个字典就可以看做是word-embedding算法的一个输入;word-embedding算法上的输出就是每个单词对应的一种数值表示,例如,apple对应的vector就是[1,0,0,0],an对应的vector就是[0,0,1,0],使得及机器学习算法可以基于这种单词的数值表示来构建模型。
根据本文的一个实施例,将所述日志文本向量集进行聚类,得到日志聚类结果进一步包括,通过k-means算法对所述日志文本向量集进行多次聚类,得到多组日志分类结果,分别计算每组日志分类结果的余弦cosine相似度,选取所述cosine相似度之和最大的日志分类结果作为日志聚类结果。
在本步骤中,为增加日志聚类的精确度,通过k-means算法对所述日志文本向量集进行多次聚类,得到多组日志分类结果,每组日志分类结果中包括质心、该质心所在的簇以及每个簇中的日志个数,所述质心即日志分类结果中的分类类别,认为每个簇中的日志均属于相同日志类别。
虽然各类别中的日志存在相似性,但各类别中的日志仍为单独的个体,因此需要计算每个类别的相似度,得到每个分类结果的相似度。在本文的实施例中,采用余弦cosine相似度确定日志聚类结果,cosine相似度为通过测量两个向量的夹角的余弦值来度量各向量之间的相似性,0度角的余弦值是1,而其他任何角的余弦值均不大于1,从而两个向量之间的角度的余弦值确定两个向量是否大致指向相同的方向。
所述cosine相似度的计算公式为:
Figure BDA0003165971370000071
Figure BDA0003165971370000072
其中,K为聚类的数量,x为日志文本向量,Ci为第i个簇,ci为簇Ci的质心,mi为第i个簇中日志的个数。
最后将分类结果中各类别的cosine相似度进行求和,选择cosine相似度之和最大的分类结果作为日志聚类结果。
根据本文的一个实施例,通过k-means算法对所述日志文本向量集进行多次聚类进一步包括,在所述日志文本向量集中选择K个点作为质心,所述K各点表示K个聚类结果,将所述日志文本向量集中各日志向量指派到最近的所述质心,形成K个簇,重新计算所述每个簇的质心,直到所述质心不再发生变化,得到日志分类结果。
在本步骤中,
(1)随机选择K个样本点作为初始聚类质心,所述聚类质心为日志文本向量集中的数据点:
a=a1+a2+…+aK
其中,a表示类别。
(2)针对日志文本向量集中每个日志向量xi计算它到K个聚类中心的距离,并将其分配到距离最小的聚类中心所对应的分类中。
(3)针对每个类别aj,重新计算它的聚类中心,即属于该类的所有样本的质心:
Figure BDA0003165971370000081
其中,ci为第i个簇,表示属于第i个类别的向量的集合。
(4)重复步骤(2)-(3),直到所述质心不再发生变化,
根据本文的一个实施例,分析所述日志聚类结果,得到日志模板进一步包括,
计算所述日志聚类结果中不同类别的词汇量,选取出现次数最多的k个单词生成所述类别对应的日志模板,其中,k为大于等于1的自然数,通过所述日志模板对所述类别中的日志文本向量进行匹配,当不能匹配全部日志文本向量时,减小k的取值,重新生成所述类别对应的日志模板。
在本步骤中,计算所述日志聚类结果中不同类别的词汇量进一步包括,对所述日志聚类结果中各类别的日志文本向量进行正则化操作,剔除离散的日志文本向量。在本实施中,选择每个类别中所有的日志文本向量,计算日志文本向量长度的均值X和标准差S,保留长度在X+/-S范围内的日志文本向量,其他日志文本向量从该类别中删除。
然后分别计算所述日志聚类结果中各类别的词汇量,按照出现次数递减的顺序对单词进行排序,得到每个类别的排序列表;
设置初始长度k为所述类别中最长日志的长度+1,在所述类别的排序列表中选取前k个单词,以正则表达式的形式生成所述类别的日志模板;
通过所述类别的日志模板对所述类别中的日志文本向量进行匹配;
当所述类别的日志模板可以匹配该类别中所有日志文本向量时,则将其确定为该类别最终的日志模板。
当所述类别的日志模板不能匹配该类别中所有日志文本向量时,计算k=k-1,再次在该类别的排序列表中选取前k个单词生成正则表达式进行匹配,得到可以匹配该类别中所有日志文本向量的日志模板。同时,后台工作人员分析各日志模板的正则表达式得出故障原因,并分别标记在各日志模板上。
根据本文的一个实施例,根据所述日志模板,对输入的日志进行匹配,得到日志匹配模板列表进一步包括,将输入的日志进行文本向量化处理,得到日志文本向量,遍历所述聚类结果中各类别对应的日志模板,对所述日志文本向量进行匹配,将日志与日志模板的对应关系记录在所述日志匹配模板列表中。
在本步骤中,所述输入的日志为待归类日志,利用基于日志库得到的日志模板对输入的日志进行归类,增加日志的归类速度,提高归类效率。
首先对输入的日志进行文本向量化处理,处理方式和对日志库中日志进行文本向量化处理方式相同,得到日志文本向量,然后遍历聚类结果中各类别对应的日志模板,通过日志模板对日志文本向量进行正则匹配,得到可以匹配该日志文本向量的日志模板,然后在日志匹配模板列表中记录该日志和匹配到的模板的对应关系。
根据本文的一个实施例,根据所述日志匹配模板列表,计算日志模板间的关联性,得到日志关联模板进一步包括,在所述日志模板匹配列表中连续选取m个日志模板得到多个日志模板组合,记录各日志模板组合的出现次数,其中,m为根据需求设定的日志模板个数,选择出现次数大于等于设定的出现次数阈值的日志模板组合作为日志关联模板,根据所述日志关联模板对日志进行归类,快速定位故障。
在本步骤中,首先根据需求设定日志模板组合中的日志模板个数m;
在所述日志模板匹配列表中连续选取m个日志模板,并进行或操作得到多个日志模板组合,记录各日志模板组合在日志模板匹配列表中出现的次数;
选取出现次数大于等于设定的出现次数阈值的模板组合作为日志关联模板;
最后基于日志模板匹配列表,将各日志关联模板对应的日志进行归类,同时,后台工作人员根据日志关联模板中各日志模板标记的故障原因分别得出各日志关联模板的故障原因,进而定位所述输入日志的故障原因。
如图3所示为本文实施例一种日志快速归类装置的详细结构图,在本图中描述了日志快速归类装置的详细结构,具体包括文本向量化单元301、日志聚类单元302、日志模板生成单元303、日志匹配单元304、日志关联模板生成单元305。
根据本文的一个实施例,所述文本向量化单元301进一步包括数据清理模块3011,用于对日志库进行数据清理。
根据本文的一个实施例,所述文本向量化单元301进一步包括公有属性替换模块3012,将日志库中各日志的公有属性替换为通配符,减少日志中的词汇量,进而减少聚类的计算量。
根据本文的一个实施例,所述文本向量化单元301进一步包括文本编码模块3013,对替换公有属性后的日志进行文本向量化处理,按照空格、标点符号、特殊符号对日志进行分割,使用tokenizer工具提取日志中的每一个单词,然后使用独热编码算法one-hotencoding将日志分割出的每个单词进行编码,使得机器学习算法能够处理日志中的每一个单词,再使用word-embedding算法将每个单词的维度进行压缩,将所述日志转换为相等维度的向量,提高模型训练的效率。
根据本文的一个实施例,所述日志聚类单元302进一步包括日志聚类模块3021,根据文本向量化单元301得到的日志文本向量集进行多次聚类,得到多组日志分类结果,每组日志分类结果中包括质心、该质心所在的簇以及每个簇中的日志个数。通过计算每个分类结果的余弦cosine相似度确定文本向量集的分类结果。
根据本文的一个实施例,所述日志聚类单元302进一步包括相似度计算模块3022,用于计算日志聚类模块3021对日志文本向量集进行多次聚类得到的多组日志分类结果的cosine相似度,最后将分类结果中各类别的cosine相似度进行求和,得到每组日志分类结果的cosine相似度和。
根据本文的一个实施例,所述日志聚类单元302进一步包括相似度比较模块3023,用于比较由相似度计算模块3022得到的每组日志分类结果的cosine相似度和的大小,选择cosine相似度和最大的分类结果作为日志聚类结果。
根据本文的一个实施例,所述日志模板生成单元303进一步包括离散向量剔除模块3031,对由日志聚类单元302得到的日志聚类结果中各类别的日志文本向量进行正则化操作,剔除离散的日志文本向量。
根据本文的一个实施例,所述日志模板生成单元303进一步包括词汇量计算模块3032,计算由离散向量剔除模块3031保留的日志聚类结果中各类别的词汇量,按照出现次数递减的顺序对单词进行排序,得到每个类别的排序列表。
例如,日志库中的某条日志为:Feb 23 15:38:17:%LINK-3-UPDOWN:Lineprotocol on Interface GigabitEthernet 0/8,changed state to down.
通过词汇量计算模块3032的计算结果为:出现次数的排名依次是Interface,protocol,down,GigabitEthernet,changed,state,to,其余词汇出现次数过低(例如低于10次)则不统计。
根据本文的一个实施例,所述日志模板生成单元303进一步包括日志模板生成模块3033,用于生成日志模板。首先设置初始长度k为所述类别中最长日志的长度+1,在所述类别的排序列表中选取前k个单词,以正则表达式的形式生成所述类别的日志模板。
例如,根据上述实施例得到的排序列表,假定所述类别中最长的日志长度为6,则初始长度为7,得到排序列表中的前7个单词Interface,protocol,down,GigabitEthernet,changed,state,to。
通过所述类别的日志模板对所述类别中的日志文本向量进行匹配。
当所述类别的日志模板可以匹配该类别中全部日志文本向量时,则将其确定为该类别最终的日志模板。
当所述类别的日志模板不能匹配该类别中全部日志文本向量时,计算k=k-1,再次在该类别的排序列表中选取前k个单词生成正则表达式进行匹配,得到可以匹配该类别中所有日志文本向量的日志模板。例如,根据上述实施例的日志内容和上述排序列表:
第一次匹配该条日志Feb 23 15:38:17:%LINK-3-UPDOWN:Line protocol onInterface GigabitEthernet 0/8,changed state to down:保留7个单词,得到匹配结果如下:
.*protocol.*Interface GigabitEthernet.*,changed state to down.
若该条日志所在的日志分类中的其他日志均能匹配上述7个单词,则将上述7个单词生成正则表达式,得到该分类的日志模板。
若该条日志所在的日志分类中的其他日志中存在至少一条日志不能匹配上述7个单词,则执行7-1,即将单词to舍去,保留6个单词进入下一次匹配,得到的匹配结果为:
.*protocol.*Interface GigabitEthernet.*,changed state.*down.
直到保留的单词数k能够匹配该条日志所在的日志分类中的所有日志,则k个单词生成正则表达式,得到该分类的日志模板。
根据本文的一个实施例,所述日志匹配单元304进一步包括待归类日志文本向量化模块3041,通过文本向量化单元301中的方法,对待归类的在日志进行文本向量化处理,得到日志文本向量。
根据本文的一个实施例,所述日志匹配单元304进一步包括日志模板匹配模块3042,根据日志模板生成单元303生成的日志模板,对待归类日志文本向量化模块3041得到的日志文本向量进行正则匹配,得到可以匹配该日志文本向量的日志模板,然后在日志匹配模板列表中记录该日志和匹配到的模板的对应关系。如表1所示为本文实施例日志模板匹配列表。
表1
日志编号 1 2 3 4 5 6 7 8 9 10
模板编号 100 102 101 100 102 103 100 104 103 100
根据本文的一个实施例,所述日志关联模板生成单元305进一步包括日志模板组合模块,在由日志匹配单元304得到的日志模板匹配列表中连续选取m个日志模板进行或操作,得到多个日志模板组合,并记录各模板组合的出现次数,所述m为用户设定的日志模板个数,用户可根据需求调整m的取值。例如,根据上述实施例的日志匹配模板列表,日志模板编号为:
100,102,101,100,102,103,100,104,103,100
若用户设定m=2,则得到表2所示的日志模板组合,如表2所示为本文实施例日志模板组合列表。
表2
模板组合编号 1001 1002 1003 1001 1004 1005 1006 1007 1005
成员 100|102 102|101 101|100 100|102 102|103 103|100 100|104 104|103 103|100
并计算模板组合出现的次数。
根据本文的一个实施例,所述日志关联模板生成单元305进一步包括关联模板选择模块3052,根据由日志模板组合模块3051得到的各模板组合在由日志匹配单元304生成的日志模板匹配列表中出现的次数,根据用户设定的阈值,选取出现次数大于等于所述阈值的模板组合,得到多个日志关联模板,例如,根据上述实施例的日志匹配模板列表,若用户设定的阈值为2,则日志模板组合编号1001和1005出现的次数大于等于2,因此日志模板组合1001所表示的日志模板100与102的或运算为日志关联模板1001,日志模板组合1005所表示的日志模板103与100的或运算为日志关联模板1005。
根据本文的一个实施例,所述日志关联模板生成单元305进一步包括日志归类模块3053,根据由关联模板选择模块3052得到的日志关联模板对日志进行归类,例如,根据上述实施例,得到如表3所示的日志关联模板,如表3所示为本文实施例日志关联模板列表。
表3
Figure BDA0003165971370000131
因此,日志编号1、2、4、5归类为日志关联模板1001,进而可定位日志编号1、2、4、5的故障原因为日志关联模板1001所表示的故障原因;日志编号6、7、9、10归类为日志关联模板1005,进而可定位日志编号6、7、9、10的故障原因为日志关联模板1005所表示的故障原因;日志编号3归类为日志模板101,进而可定位日志编号3的故障原因为日志模板101所表示的故障原因;日志编号8归类为日志模板104,进而可定位日志编号8的故障原因为日志模板104所表示的故障原因。
图4所示为本文实施例对日志快速归类的流程图,在本图所示的实施例中描述了对日志库中日志进行聚类,然后生成聚类结果中各分类的日志模板,通过日志模板对输入的日志进行匹配,根据匹配的结果得到日志关联模板,最后根据日志关联模板对输入的日志进行归类,具体过程为:
步骤401:提取日志库中的日志。
在本步骤中,首先提取日志库中记录的所有日志,对日志库中的日志进行聚类分析。
步骤402:对日志进行清理。
在本步骤中,步骤401提取的日志文本中有时会因为中文的编码不同出现乱码情况,对于无法识别的文本进行丢弃。
步骤403:替换日志中的公有字段为通配符。
在本步骤中,对步骤402清理后的日志中的公有字段替换为通配符,保留日志的特有字段,减少日志中的词汇量,进而减少聚类的计算量。
步骤404:文本向量化处理。
在本步骤中,对步骤403保留特有字段的日志进行文本向量化处理,得到能被机器学习算法识别的日志文本向量集。
步骤405,对日志文本向量集进行聚类。
在本步骤中,通过k-means算法对步骤404的日志文本向量集进行多次聚类,然后分别计算每组日志分类结果的余弦cosine相似度,选取所述cosine相似度之和最大的日志分类结果作为日志聚类结果。
步骤406,生成日志模板。
在本步骤中,生成步骤405得到的聚类结果中各类别的日志模板,首先计算述日志聚类结果中不同类别的词汇量,选取出现次数最多的k个单词生成正则表达式,做为所述类别对应的日志模板,其中,k为大于等于1的自然数,通过日志模板对各类别中的日志文本向量进行匹配,当不能匹配全部日志文本向量时,减小k的取值,重新生成所述类别对应的日志模板,最终得到能够匹配该类别中所有日志文本向量的日志模板。把各类别的日志模板存储到日志模板集中。
步骤407,对输入的日志进行匹配。
在本步骤中,通过步骤406存储的日志模板集,对输入的日志进行正则匹配,得到输入日志与日志模板集中各日志模板的对应关系,存储到日志模板匹配列表中,得到匹配结果。
步骤408,根据匹配结果得到日志关联模板。
在本步骤中,在步骤407得到的匹配结果中连续选取m个日志模板得到多个日志模板组合,记录各模板组合的出现次数,其中,m为根据需求设定的日志模板个数,选择出现次数大于等于设定的出现次数阈值的日志模板组合作为日志关联模板。
步骤409,根据日志关联模板对输入的日志进行归类。
在本步骤中,根据步骤408得到的多个日志关联模板,将各日志关联模板对应的输入日志进行归类。
图5所示为本文实施例生成日志模板的流程图,在本图所示的实施例中描述了通过日志聚类结果生成日志模板的过程,为便于详细说明,本图所示为日志聚类结果中的一个类别的计算过程,其余类别的计算过程与本图所述的流程相同,具体过程为:
步骤501:输入日志聚类结果中的一个类别。
步骤502:剔除离散日志文本向量。
在本步骤中,选择该类别中所有的日志文本向量,计算日志文本向量长度的均值X和标准差S,保留长度在X+/-S范围内的日志文本向量,其他日志文本向量从该类别中删除。
步骤503:计算词汇量。
在本步骤中,计算步骤502剔除离散日志文本向量后的词汇量。
步骤504:对单词按出现次数递减进行排序,得到排序列表。
在本步骤中,根据步骤503得到的词汇量结果,按照出现次数递减的顺序对单词进行排序,得到该类别的排序列表。
步骤505:设定k的初始值为最长日志长度+1.
在本步骤中,设置初始长度k为该类别中最长日志的长度+1。
步骤506:在步骤504得到的排序列表中选取前k个单词。
步骤507:生成包括前k个单词的正则表达式,作为日志模板。
在本步骤中,根据步骤506选取的前k个单词,生成正则表达式,作为日志模板。
步骤508:通过该日志模板对该类别中所有日志文本向量进行匹配。
步骤509:判断是否成功匹配所有日志。
在本步骤中,若该日志模板成功匹配该类别中的所有日志,将该日志模板作为该类别日志模板;若该日志模板未成功匹配该类别中的所有日志,则计算k=k-1,重复步骤506-508,直到生成的日志模板可以成功匹配该类别中的所有日志。
步骤510:将该日志模板作为该类别的日志模板。
图6所示为本文实施例生成日志关联模板的流程图,在本图所示的实施例中描述了通过聚类结果中所有类别的日志模板,对输入的日志进行匹配并生成日志关联模板,根据日志关联模板对输入的日志归类的过程,在本图所示实施例中,输入的日志可以为多条日志的集合,对其中的每条日志进行归类,具体过程为:
步骤601:输入待归类的日志。
在本步骤中,待归类的日志可以为多条日志的集合。
步骤602:对日志进行文本向量化处理。
在本步骤,对步骤601输入的日志进行文本向量化处理,所述文本向量化处理的方法与图4中步骤402-404相同。
步骤603:通过日志模板进行匹配,得到日志匹配模板列表。
在本步骤中,对步骤602得到的日志文本向量与所有的日志模板进行正则匹配,得到日志文本向量和日志模板的对应关系,存入到日志匹配模板列表中。
步骤604:用户根据需求设定m=2。
步骤605:在日志匹配模板列表中连续选取m个日志模板,得到多个日志模板组合。
在本步骤中,在由步骤603得到的日志模板匹配列表中连续选取m个日志模板进行或操作,得到多个日志模板组合。
步骤606:记录各日志模板组合在日志匹配模板列表中出现的次数。
步骤607:根据用户设定的出现次数阈值,比较各日志模板组合的出现次数。
步骤608:选择出现次数大于等于用户设定的阈值的日志模板组合作为日志关联模板。
步骤609:根据日志关联模板对输入的日志进行归类。
如图7所示为本文实施例计算机设备的结构示意图,在本中的日志快速归类装置可以为本实施例中的计算设备,执行上述本文的方法,计算机设备701可以包括一个或多个处理器702,诸如一个或多个中央处理单元(CPU),每个处理单元可以实现一个或多个硬件线程。计算机设备701还可以包括任何存储器703,其用于存储诸如代码、设置、数据等之类的任何种类的信息。非限制性的,比如,存储器703可以包括以下任一项或多种组合:任何类型的RAM,任何类型的ROM,闪存设备,硬盘,光盘等。更一般地,任何存储器都可以使用任何技术来存储信息。进一步地,任何存储器可以提供信息的易失性或非易失性保留。进一步地,任何存储器可以表示计算机设备701的固定或可移除部件。在一种情况下,当处理器702执行被存储在任何存储器或存储器的组合中的相关联的指令时,计算机设备701可以执行相关联指令的任一操作。计算机设备701还包括用于与任何存储器交互的一个或多个驱动机构704,诸如硬盘驱动机构、光盘驱动机构等。
计算机设备701还可以包括输入/输出模块705(I/O),其用于接收各种输入(经由输入设备706)和用于提供各种输出(经由输出设备707))。一个具体输出机构可以包括呈现设备708和相关联的图形用户接口(GUI)709。在其他实施例中,还可以不包括输入/输出模块705(I/O)、输入设备706以及输出设备707,仅作为网络中的一台计算机设备。计算机设备701还可以包括一个或多个网络接口710,其用于经由一个或多个通信链路711与其他设备交换数据。一个或多个通信总线712将上文所描述的部件耦合在一起。
通信链路711可以以任何方式实现,例如,通过局域网、广域网(例如,因特网)、点对点连接等、或其任何组合。通信链路711可以包括由任何协议或协议组合支配的硬连线链路、无线链路、路由器、网关功能、名称服务器等的任何组合。
本文实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如下步骤:
对日志库进行文本向量化处理,得到日志文本向量集;
将所述日志文本向量集进行聚类,得到日志聚类结果;
分析所述日志聚类结果,得到日志模板;
根据所述日志模板,对输入的日志进行匹配,得到日志匹配模板列表;
根据所述日志匹配模板列表,得到日志关联模板,所述日志关联模板用于完成日志归类。
本文实施例提供的计算机设备还可以实现如图2、图4-图6中的方法。
对应于图2、图4-图6中的方法,本文实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法的步骤。
本文实施例还提供一种计算机可读指令,其中当处理器执行所述指令时,其中的程序使得处理器执行如图2、图4-图6所示的方法。
应理解,在本文的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本文实施例的实施过程构成任何限定。
还应理解,在本文实施例中,术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系。例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本文的范围。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本文所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本文实施例方案的目的。
另外,在本文各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本文的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本文各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本文中应用了具体实施例对本文的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本文的方法及其核心思想;同时,对于本领域的一般技术人员,依据本文的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本文的限制。

Claims (13)

1.一种日志快速归类方法,其特征在于包括,
对日志库进行文本向量化处理,得到日志文本向量集;
将所述日志文本向量集进行聚类,得到日志聚类结果;
分析所述日志聚类结果,得到日志模板;
根据所述日志模板,对输入的日志进行匹配,得到日志匹配模板列表;
根据所述日志匹配模板列表,得到日志关联模板,所述日志关联模板用于完成日志归类。
2.根据权利要求1所述的一种日志快速归类方法,其特征在于,对日志库进行文本向量化处理,得到日志文本向量集进一步包括,
对所述日志库进行数据清洗;
分割所述日志库中各日志的特有字段,得到日志文本;
对所述日志文本进行编码,得到日志文本向量集。
3.根据权利要求1所述的一种日志快速归类方法,其特征在于,将所述日志文本向量集进行聚类,得到日志聚类结果进一步包括,
通过k-means算法对所述日志文本向量集进行多次聚类,得到多组日志分类结果;
分别计算每组日志分类结果的余弦cosine相似度;
选取所述cosine相似度之和最大的日志分类结果作为日志聚类结果。
4.根据权利要求3所述的一种日志快速归类方法,其特征在于,通过k-means算法对所述日志文本向量集进行多次聚类进一步包括,
在所述日志文本向量集中选择K个点作为质心,所述K个点表示K个聚类结果;
将所述日志文本向量集中各日志向量指派到最近的所述质心,形成K个簇;
重新计算每个簇的质心,直到所述质心不再发生变化,得到日志分类结果。
5.根据权利要求3所述的一种日志快速归类方法,其特征在于,分别计算每组日志分类结果的cosine相似度的计算公式为,
Figure FDA0003165971360000011
Figure FDA0003165971360000021
其中,K为聚类的数量,x为日志文本向量,Ci为第i个簇,ci为簇Ci的质心,mi为第i个簇中日志的个数。
6.根据权利要求1所述的一种日志快速归类方法,其特征在于,分析所述日志聚类结果,得到日志模板进一步包括,
计算所述日志聚类结果中不同类别的词汇量,选取出现次数最多的k个单词生成所述类别对应的日志模板,其中,k为大于等于1的自然数;
通过所述日志模板对所述类别中的日志文本向量进行匹配,当不能匹配全部日志文本向量时,减小k的取值,重新生成所述类别对应的日志模板。
7.根据权利要求1所述的一种日志快速归类方法,其特征在于,根据所述日志模板,对输入的日志进行匹配,得到日志匹配模板列表进一步包括,
将输入的日志进行文本向量化处理,得到日志文本向量;
遍历所述聚类结果中各类别对应的日志模板,对所述日志文本向量进行匹配,将日志与日志模板的对应关系记录在所述日志匹配模板列表中。
8.根据权利要求1所述的一种日志快速归类方法,其特征在于,根据所述日志匹配模板列表,计算日志模板间的关联性,得到日志关联模板进一步包括,
在所述日志模板匹配列表中连续选取m个日志模板得到多个日志模板组合,记录各日志模板组合的出现次数,其中,m为根据需求设定的日志模板个数;
选择出现次数大于等于设定的出现次数阈值的日志模板组合作为日志关联模板;
根据所述日志关联模板对日志进行归类。
9.根据权利要求1所述的一种日志快速归类方法,其特征在于,分析所述日志聚类结果,得到日志模板进一步包括,分析日志模板,得到所述日志模板对应的故障原因。
10.根据权利要求9所述的一种日志快速归类方法,其特征在于,根据所述日志匹配模板列表,得到日志关联模板进一步包括,根据所述日志关联模板中关联的各日志模板对应的故障原因得到所述日志关联模板的故障原因,快速定位故障。
11.一种日志快速归类装置,其特征在于,包括,
文本向量化单元,对日志库进行文本向量化处理,得到日志文本向量集;
日志聚类单元,将所述日志文本向量集进行聚类,得到日志聚类结果;
日志模板生成单元,分析所述日志聚类结果,得到日志模板;
日志匹配单元,根据所述日志模板,对输入的日志进行匹配,得到日志匹配模板列表;
日志关联模板生成单元,根据所述日志匹配模板列表,得到日志关联模板,所述日志关联模板用于完成日志归类。
12.一种计算机设备,包括存储器、处理器、以及存储在所述存储器上的计算机程序,其特征在于,所述计算机程序被所述处理器运行时,执行根据权利要求1-8任意一项所述方法的指令。
13.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被计算机设备的处理器运行时,执行根据权利要求1-8任意一项所述方法的指令。
CN202110804922.8A 2021-07-16 2021-07-16 一种日志快速归类方法及装置 Active CN113535955B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110804922.8A CN113535955B (zh) 2021-07-16 2021-07-16 一种日志快速归类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110804922.8A CN113535955B (zh) 2021-07-16 2021-07-16 一种日志快速归类方法及装置

Publications (2)

Publication Number Publication Date
CN113535955A true CN113535955A (zh) 2021-10-22
CN113535955B CN113535955B (zh) 2022-10-28

Family

ID=78128361

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110804922.8A Active CN113535955B (zh) 2021-07-16 2021-07-16 一种日志快速归类方法及装置

Country Status (1)

Country Link
CN (1) CN113535955B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105653444A (zh) * 2015-12-23 2016-06-08 北京大学 基于互联网日志数据的软件缺陷故障识别方法和系统
US20170185576A1 (en) * 2015-12-28 2017-06-29 International Business Machines Corporation Categorizing Log Records at Run-Time
CN110096411A (zh) * 2019-03-22 2019-08-06 西安电子科技大学 基于关联分析和时间窗的日志模板快速提取方法及系统
CN110175158A (zh) * 2019-05-23 2019-08-27 湖南大学 一种基于向量化的日志模板提取方法和系统
CN110263009A (zh) * 2019-06-21 2019-09-20 深圳前海微众银行股份有限公司 日志分类规则的生成方法、装置、设备及可读存储介质
CN110399597A (zh) * 2018-04-24 2019-11-01 西门子股份公司 模板提取系统、装置和方法
CN110659175A (zh) * 2018-06-30 2020-01-07 中兴通讯股份有限公司 日志的主干提取方法、分类方法、设备及存储介质
US20210034497A1 (en) * 2019-08-01 2021-02-04 Red Hat, Inc. Log record analysis based on log record templates
CN112506750A (zh) * 2020-09-28 2021-03-16 国网甘肃省电力公司信息通信公司 一种用于海量日志分析预警的大数据处理系统
WO2021068547A1 (zh) * 2019-10-12 2021-04-15 华为技术有限公司 日志模板提取方法及装置
WO2021088385A1 (zh) * 2019-11-06 2021-05-14 国网上海市电力公司 一种在线日志解析方法、系统及其电子终端设备
CN113032226A (zh) * 2021-05-28 2021-06-25 北京宝兰德软件股份有限公司 异常日志的检测方法、装置、电子设备及存储介质

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105653444A (zh) * 2015-12-23 2016-06-08 北京大学 基于互联网日志数据的软件缺陷故障识别方法和系统
US20170185576A1 (en) * 2015-12-28 2017-06-29 International Business Machines Corporation Categorizing Log Records at Run-Time
CN110399597A (zh) * 2018-04-24 2019-11-01 西门子股份公司 模板提取系统、装置和方法
CN110659175A (zh) * 2018-06-30 2020-01-07 中兴通讯股份有限公司 日志的主干提取方法、分类方法、设备及存储介质
CN110096411A (zh) * 2019-03-22 2019-08-06 西安电子科技大学 基于关联分析和时间窗的日志模板快速提取方法及系统
CN110175158A (zh) * 2019-05-23 2019-08-27 湖南大学 一种基于向量化的日志模板提取方法和系统
CN110263009A (zh) * 2019-06-21 2019-09-20 深圳前海微众银行股份有限公司 日志分类规则的生成方法、装置、设备及可读存储介质
US20210034497A1 (en) * 2019-08-01 2021-02-04 Red Hat, Inc. Log record analysis based on log record templates
WO2021068547A1 (zh) * 2019-10-12 2021-04-15 华为技术有限公司 日志模板提取方法及装置
WO2021088385A1 (zh) * 2019-11-06 2021-05-14 国网上海市电力公司 一种在线日志解析方法、系统及其电子终端设备
CN112506750A (zh) * 2020-09-28 2021-03-16 国网甘肃省电力公司信息通信公司 一种用于海量日志分析预警的大数据处理系统
CN113032226A (zh) * 2021-05-28 2021-06-25 北京宝兰德软件股份有限公司 异常日志的检测方法、装置、电子设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
TONG XIAO 等: "《LPV: A Log Parser Based on Vectorization for Offline and Online Log Parsing》", 《IEEE》 *
崔元等: "基于大规模网络日志的模板提取研究", 《计算机科学》 *
王智远等: "基于日志模板的异常检测技术", 《智能计算机与应用》 *

Also Published As

Publication number Publication date
CN113535955B (zh) 2022-10-28

Similar Documents

Publication Publication Date Title
CN107391772B (zh) 一种基于朴素贝叶斯的文本分类方法
CN107145516B (zh) 一种文本聚类方法及系统
CN110781671A (zh) 一种智能ietm故障维修记录文本的知识挖掘方法
WO2022121163A1 (zh) 用户行为倾向识别方法、装置、设备及存储介质
CN113254255B (zh) 一种云平台日志的分析方法、系统、设备及介质
WO2017091985A1 (zh) 停用词识别方法与装置
CN109934251B (zh) 一种用于小语种文本识别的方法、识别系统及存储介质
CN111274388B (zh) 一种文本聚类的方法及装置
CN110659175A (zh) 日志的主干提取方法、分类方法、设备及存储介质
CN112651296A (zh) 一种无先验知识数据质量问题自动探查方法及系统
CN111460114A (zh) 检索方法、装置、设备及计算机可读存储介质
CN115221012B (zh) 一种日志的聚类解析方法、装置及设备
CN114818643A (zh) 一种保留特定业务信息的日志模板提取方法
CN114610881A (zh) 应用日志分析方法、装置、设备和存储介质
WO2024031930A1 (zh) 一种异常日志检测方法、装置、电子设备及存储介质
CN112417893A (zh) 一种基于语义层次聚类的软件功能需求分类方法及系统
CN114610838A (zh) 文本情感分析方法、装置、设备及存储介质
CN115146062A (zh) 融合专家推荐与文本聚类的智能事件分析方法和系统
CN116910599A (zh) 数据聚类方法、系统、电子设备及存储介质
CN111723206A (zh) 文本分类方法、装置、计算机设备和存储介质
Gueddah et al. The filtered combination of the weighted edit distance and the Jaro-Winkler distance to improve spellchecking Arabic texts
CN117235137B (zh) 一种基于向量数据库的职业信息查询方法及装置
CN112632000A (zh) 日志文件聚类方法、装置、电子设备和可读存储介质
CN113535955B (zh) 一种日志快速归类方法及装置
CN114610882A (zh) 一种基于电力短文本分类的异常设备编码检测方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant