CN114968933A - 数据中心的日志的分类方法和装置 - Google Patents

数据中心的日志的分类方法和装置 Download PDF

Info

Publication number
CN114968933A
CN114968933A CN202210535701.XA CN202210535701A CN114968933A CN 114968933 A CN114968933 A CN 114968933A CN 202210535701 A CN202210535701 A CN 202210535701A CN 114968933 A CN114968933 A CN 114968933A
Authority
CN
China
Prior art keywords
log
word
effective
sequence
template
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210535701.XA
Other languages
English (en)
Inventor
汪琤
李睿
羌毅
周维
朱婉怡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Alibaba China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba China Co Ltd filed Critical Alibaba China Co Ltd
Priority to CN202210535701.XA priority Critical patent/CN114968933A/zh
Publication of CN114968933A publication Critical patent/CN114968933A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种数据中心的日志的分类方法和装置。其中,该方法包括:对数据中心的待分类的第一日志文件进行处理,得到第一有效词集合和第一有效词集合中每个第一有效词对应的第一词频;依据每个第一有效词对应的第一词频,通过第一预设算法计算每个第一有效词对应的第一权重值,得到多个第一权重值;依据多个第一权重值对每个第一有效词进行排序处理,得到第一序列;获取日志解析模型,并通过日志解析模型中的日志模板树对第一序列进行匹配,得到第一日志文件的分类结果。本申请解决了相关技术中根据词频对故障日志进行解析和分析,导致处理效率比较低的技术问题。

Description

数据中心的日志的分类方法和装置
技术领域
本申请涉及大数据技术领域,具体而言,涉及一种数据中心的日志的分类方法和装置。
背景技术
对于庞大的数据中心网络来说,设备日志是获取网络状态的重要途径之一,但是庞大的日志量,多种多样格式的日志,对于有效信息的提取有着巨大的挑战。主流的日志分析方法包括日志存储、日志解析、日志挖掘等步骤。大规模数据中心的运维人员可通过高效的方法对海量日志进行分析,获得迅速而准确的异常告警、故障诊断、故障修复决策等能力。日志解析是日志分析流程的重要环节,其原理是对原始日志中的变量和不变的部分(模板)进行识别,从而用日志模板对原始日志进行表示,极大的减少了冗余信息。通过日志解析、原始的日志数据将会被收敛成日志模板或日志事件,为后续进一步分析提供了基础;公开的传统日志解析算法主要基于频繁项挖掘,词频树、聚类算法等,现有技术的缺点主要存在以下几个方面:
1.基于实验室数据集,数据较为规则,未总结归纳统一的数据清洗技术。
2.在实际工业环境中仅仅以词频来构筑模板会导致模型急剧膨胀导致后续链路无法运维处理。
3.由于变更、升级和节假日等因素工业级日志数据的词频变化非常剧烈,现有技术通过词频进行更新和解析,词频变化剧烈会导致存在过多无效模板等问题。
4.在工业日志中,存在反常的高词频变量(例如时间日期、大客户UID等),单纯依赖词频无法识别这些变量。
5.现有的技术方案存在日志解析模板生成和日志解析速度较慢、无法适应工业数据的问题。
针对上述相关技术中根据词频对故障日志进行解析和分析,导致处理效率比较低的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种数据中心的日志的分类方法和装置,以至少解决相关技术中根据词频对故障日志进行解析和分析,导致处理效率比较低的技术问题。
根据本申请实施例的一个方面,提供了一种数据中心的日志的分类方法,包括:对数据中心的待分类的第一日志文件进行处理,得到第一有效词集合和所述第一有效词集合中每个第一有效词对应的第一词频,其中,所述第一有效词为对所述第一日志文件按照第一预设规则处理后剩余的词语;依据每个第一有效词对应的第一词频,通过第一预设算法计算每个第一有效词对应的第一权重值,得到多个第一权重值;依据所述多个第一权重值对每个第一有效词进行排序处理,得到第一序列,其中,所述第一序列由每个第一有效词及每个第一有效词对应的第一权重值组成;获取日志解析模型,并通过所述日志解析模型中的日志模板树对所述第一序列进行匹配,得到所述第一日志文件的分类结果。
根据本申请实施例的一个方面,提供了一种日志的分类方法,包括:对待分类的第一日志文件进行处理,得到第一有效词集合和所述第一有效词集合中每个第一有效词对应的第一词频,其中,所述第一有效词为对所述第一日志文件按照第一预设规则处理后剩余的词语;依据每个第一有效词对应的第一词频,通过第一预设算法计算每个第一有效词对应的第一权重值,得到多个第一权重值;依据所述多个第一权重值对每个第一有效词进行排序处理,得到第一序列,其中,所述第一序列由每个第一有效词及每个第一有效词对应的第一权重值组成;获取日志解析模型,并通过所述日志解析模型中的日志模板树对所述第一序列进行匹配,得到所述第一日志文件的分类结果。
进一步地,对待分类的第一日志文件进行处理,得到第一有效词集合和所述第一有效词集合中每个第一有效词对应的第一词频包括:通过预设的正则表达式对所述第一日志文件进行数据清洗,得到处理后的第一日志文件;对所述处理后的第一日志文件进行初始有效词统计,得到所述多个初始有效词;通过第二预设算法对所述多个初始有效词进行降噪处理,得到第一有效词集合和所述第一有效词集合中每个第一有效词对应的第一词频。
进一步地,通过第二预设算法对所述多个初始有效词进行降噪处理,得到第一有效词集合和所述第一有效词集合中每个第一有效词对应的第一词频包括:通过所述第二预设算法对所述多个初始有效词进行识别筛选,得到所述第一有效词集合;通过所述第二预设算法对所述第一有效词集合中每个第一有效词的词频进行降噪处理,得到每个第一有效词对应的第一词频。
进一步地,所述第一预设算法的形式为:
Figure BDA0003647988020000021
其中,为所述第一有效词的第一权重值,为在上一次对所述第一日志文件进行分类处理时每个第一有效词的词频,为所述第一词频,为0-1之间的常数,
Figure BDA0003647988020000022
Figure BDA0003647988020000023
c为0-7之间的常数,为有效词i连续未出现的次数。
进一步地,依据所述多个第一权重值对每个第一有效词进行排序处理,得到第一序列包括:从所述多个第一权重值中筛选出大于第一预设数值的第一权重值,得到筛选后的多个第一权重值;依据所述筛选后的多个第一权重值对每个第一有效词进行排序处理,得到所述第一序列。
进一步地,在获取日志解析模型,并通过所述日志解析模型中的日志模板树对所述第一序列进行匹配,得到所述第一日志文件的分类结果之后,所述方法还包括:依据所述第一日志文件的分类结果,对所述日志解析模型进行迭代更新。
进一步地,获取日志解析模型包括:获取多个样本日志文件,并对所述样本日志文件进行处理得到多个第二有效词集合和所述第二有效词集合中每个第二有效词对应的第二词频,其中,所述第二有效词为对所述样本日志文件按照所述第一预设规则处理后剩余的词语;依据每个第二有效词对应的第二词频,通过所述第一预设算法计算每个第二有效词对应的第二权重值,得到多个第二权重值;依据所述多个第二权重值对所述每个第二有效词集合中的第二有效词进行排序处理,得到多个第二序列,其中,所述第二序列由所述样本日志文件的第二有效词和所述第二有效词的第二权重值组成;依据每个第二序列构建所述第二序列对应的模板树,得到多个第一日志模板树,并将所述多个第一日志模板树保存至模板库中;对所述模板库中的多个日志模板树进行组建得到日志模板森林,并将所述日志模板森林作为所述日志解析模型。
进一步地,依据每个第二序列构建所述第二序列对应的模板树,得到多个第一日志模板树包括:判断所述模板库中是否存在与所述第二序列的根节点相同的第二日志模板树;若不存在所述第二日志模板树,则依据所述第二序列构建所述第一日志模板树。
进一步地,所述方法还包括:若存在所述第二日志模板树,则将所述第二序列中的第二有效词和所述第二有效词对应的第二权重值插入到所述第二日志模板树中。
进一步地,在对所述模板库中的多个日志模板树进行组建得到日志模板森林之前,所述方法还包括:遍历模板库中的每棵日志模板树,得到多个第三序列,其中,所述第三序列由所述每棵日志模板树中的有效词组成;依据第二预设规则对所述多个第三序列中的有效词进行剪枝处理,得到处理后的第三序列;依据所述处理后的第三序列中的有效词的首字母的顺序对所述处理后的第三序列中的有效词进行排序,得到多个第四序列;通过第三预设算法对所述多个第四序列进行相似度计算,得到多个相似度系数;从所述多个相似度系数中筛选出大于第二预设数值的相似度系数,得到多个目标相似度系数;将每个目标相似度系数对应的日志模板树进行合并处理,得到合并后的日志模板树,并将所述合并后的日志模板树保存至所述模板库中。
根据本申请实施例的另一方面,还提供了一种数据中心的日志的分类方法,包括:接收客户端发送的数据中心的待分类的第一日志文件;在云服务器中对所述第一日志文件进行处理,得到第一有效词集合和所述第一有效词集合中每个第一有效词对应的第一词频,其中,所述第一有效词为对所述第一日志文件按照第一预设规则处理后剩余的词语,依据每个第一有效词对应的第一词频,通过第一预设算法计算每个第一有效词对应的第一权重值,得到多个第一权重值;依据所述多个第一权重值对每个第一有效词进行排序处理,得到第一序列,其中,所述第一序列由每个第一有效词及每个第一有效词对应的第一权重值组成,通过日志解析模型中的日志模板树对所述第一序列进行匹配,得到所述第一日志文件的分类结果;将所述分类结果返回至所述客户端。
根据本申请实施例的另一方面,还提供了一种数据中心的日志的分类装置,包括:第一处理单元,用于对数据中心的待分类的第一日志文件进行处理,得到第一有效词集合和所述第一有效词集合中每个第一有效词对应的第一词频,其中,所述第一有效词为对所述第一日志文件按照第一预设规则处理后剩余的词语;第一计算单元,用于依据每个第一有效词对应的第一词频,通过第一预设算法计算每个第一有效词对应的第一权重值,得到多个第一权重值;第二处理单元,用于依据所述多个第一权重值对每个第一有效词进行排序处理,得到第一序列,其中,所述第一序列由每个第一有效词及每个第一有效词对应的第一权重值组成;匹配单元,用于获取日志解析模型,并通过所述日志解析模型中的日志模板树对所述第一序列进行匹配,得到所述第一日志文件的分类结果。
进一步地,所述第一处理单元包括:清洗模块,用于通过预设的正则表达式对所述第一日志文件进行数据清洗,得到处理后的第一日志文件;统计模块,用于对所述处理后的第一日志文件进行初始有效词统计,得到所述多个初始有效词;第一处理模块,用于通过第二预设算法对所述多个初始有效词进行降噪处理,得到第一有效词集合和所述第一有效词集合中每个第一有效词对应的第一词频。
进一步地,所述第一处理模块包括:筛选子模块,用于通过所述第二预设算法对所述多个初始有效词进行识别筛选,得到所述第一有效词集合;处理子模块,用于通过所述第二预设算法对所述第一有效词集合中每个第一有效词的词频进行降噪处理,得到每个第一有效词对应的第一词频。
进一步地,所述第一预设算法的形式为:
Figure BDA0003647988020000041
其中,wi为所述第一有效词的第一权重值,pi为在上一次对所述第一日志文件进行分类处理时每个第一有效词的词频,Ti为所述第一词频,α为0-1之间的常数,
Figure BDA0003647988020000042
Figure BDA0003647988020000043
c为0-7之间的常数,xi为有效词i连续未出现的次数。
进一步地,所述第二处理单元包括:筛选模块,用于从所述多个第一权重值中筛选出大于第一预设数值的第一权重值,得到筛选后的多个第一权重值;第一排序模块,用于依据所述筛选后的多个第一权重值对每个第一有效词进行排序处理,得到所述第一序列。
进一步地,所述装置还包括:更新单元,用于在获取日志解析模型,并通过所述日志解析模型中的日志模板树对所述第一序列进行匹配,得到所述第一日志文件的分类结果之后,依据所述第一日志文件的分类结果,对所述日志解析模型进行迭代更新。
进一步地,所述匹配单元包括:第二处理模块,用于获取多个样本日志文件,并对所述样本日志文件进行处理得到多个第二有效词集合和所述第二有效词集合中每个第二有效词对应的第二词频,其中,所述第二有效词为对所述样本日志文件按照所述第一预设规则处理后剩余的词语;计算模块,用于依据每个第二有效词对应的第二词频,通过所述第一预设算法计算每个第二有效词对应的第二权重值,得到多个第二权重值;第二排序模块,用于依据所述多个第二权重值对所述每个第二有效词集合中的第二有效词进行排序处理,得到多个第二序列,其中,所述第二序列由所述样本日志文件的第二有效词和所述第二有效词的第二权重值组成;构建模块,用于依据每个第二序列构建所述第二序列对应的模板树,得到多个第一日志模板树,并将所述多个第一日志模板树保存至模板库中;组建模块,用于对所述模板库中的多个日志模板树进行组建得到日志模板森林,并将所述日志模板森林作为所述日志解析模型。
进一步地,所述构建模块包括:判断子模块,用于判断所述模板库中是否存在与所述第二序列的根节点相同的第二日志模板树;构建子模块,用于若不存在所述第二日志模板树,则依据所述第二序列构建所述第一日志模板树。
进一步地,所述装置还包括:插入模块,用于若存在所述第二日志模板树,则将所述第二序列中的第二有效词和所述第二有效词对应的第二权重值插入到所述第二日志模板树中。
进一步地,所述装置还包括:遍历单元,用于在对所述模板库中的多个日志模板树进行组建得到日志模板森林之前,遍历模板库中的每棵日志模板树,得到多个第三序列,其中,所述第三序列由所述每棵日志模板树中的有效词组成;剪枝单元,用于依据第二预设规则对所述多个第三序列中的有效词进行剪枝处理,得到处理后的第三序列;排序单元,用于依据所述处理后的第三序列中的有效词的首字母的顺序对所述处理后的第三序列中的有效词进行排序,得到多个第四序列;第二计算单元,用于通过第三预设算法对所述多个第四序列进行相似度计算,得到多个相似度系数;筛选单元,用于从所述多个相似度系数中筛选出大于第二预设数值的相似度系数,得到多个目标相似度系数;第三处理单元,用于将每个目标相似度系数对应的日志模板树进行合并处理,得到合并后的日志模板树,并将所述合并后的日志模板树保存至所述模板库中。
根据本发明实施例的另一方面,还提供了一种计算机可读存储介质,所述存储介质存储程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述任意一项所述的日志的分类方法。
根据本发明实施例的另一方面,还提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述任意一项所述的日志的分类方法。
在本申请实施例中,采用对数据中心的待分类的第一日志文件进行处理,得到第一有效词集合和第一有效词集合中每个第一有效词对应的第一词频,其中,第一有效词为对第一日志文件按照第一预设规则处理后剩余的词语;依据每个第一有效词对应的第一词频,通过第一预设算法计算每个第一有效词对应的第一权重值,得到多个第一权重值;依据多个第一权重值对每个第一有效词进行排序处理,得到第一序列,其中,第一序列由每个第一有效词及每个第一有效词对应的第一权重值组成;获取日志解析模型,并通过日志解析模型中的日志模板树对第一序列进行匹配,得到第一日志文件的分类结果,解决了相关技术中根据词频对故障日志进行解析和分析,导致处理效率比较低的技术问题。通过第一日志文件的第一有效词和第一有效词的第一权重值能够有效快速的与日志解析模型中的日志模板树进行匹配,得到第一日志文件的分类结果,进而达到了提高日志处理效率的效果。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本发明实施例一提供的计算机终端的示意图;
图2是根据本申请实施例一提供的数据中心的日志的分类方法的流程图;
图3是根据本申请实施例一提供的获取日志解析模型的流程图;
图4是根据本申请实施例一提供的日志模板树的示意图;
图5是根据本申请实施例一提供的构建日志模板树的示意图;
图6是根据本申请实施例二提供的日志的分类方法的流程图;
图7是根据本申请实施例三提供的日志的分类方法的流程图;
图8是根据本申请实施例四提供的日志的分类装置的示意图;
图9是根据本发明实施例五提供的计算机终端的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本申请实施例,还提供了一种数据中心的日志的分类方法,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现数据中心的日志的分类方法的计算机终端(或移动设备)的硬件结构框图。如图1所示,计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b,……,102n来示出)处理器(处理器可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为BUS总线的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
应当注意到的是上述一个或多个处理器和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器104可用于存储应用软件的软件程序以及模块,如本申请实施例中的数据中心的日志的分类方法对应的程序指令/数据存储装置,处理器通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的数据中心的日志的分类方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。
在上述运行环境下,本申请提供了如图2所示的数据中心的日志的分类方法。图2是根据本申请实施例一的数据中心的日志的分类方法的流程图。
步骤S201,对数据中心的待分类的第一日志文件进行处理,得到第一有效词集合和第一有效词集合中每个第一有效词对应的第一词频,其中,第一有效词为对第一日志文件按照第一预设规则处理后剩余的词语。
具体地,对需要进行分类的第一日志文件进行处理,去掉冗余信息,得到第一有效词集合和第一有效词集合中每个第一有效词对应的第一词频,例如,对某一日志处理后的第一有效词集合为{DIAG(有效词):25(词频),DEVIP:55,STA:22,DELETED:8,DETECTION:5,SESS:10},其中,有效词为除去了冗余信息(例如,变量/特殊符号等信息)后的数据信息。
步骤S202,依据每个第一有效词对应的第一词频,通过第一预设算法计算每个第一有效词对应的第一权重值,得到多个第一权重值。
具体地,通过第一预设算法,根据上述的第一词频计算每一个第一有效词的第一权重值。例如,针对上述的第一有效词集合进行权重计算,得到的结果为:{DIAG(有效词):80(权重),DEVIP:100,STA:75,DELETED:30,DETECTION:20,SESS:60}。
步骤S203,依据多个第一权重值对每个第一有效词进行排序处理,得到第一序列,其中,第一序列由每个第一有效词及每个第一有效词对应的第一权重值组成。
具体地,通过上述得到第一权重值,对第一有效词进行排序得到第一序列,例如,第一序列为:{DEVIP(词):100(权重),DIAG:80,STA:75,SESS:60,DELETED:30,DETECTION:20}。
步骤S204,获取日志解析模型,并通过日志解析模型中的日志模板树对第一序列进行匹配,得到第一日志文件的分类结果。
具体地,将第一序列输入到日志解析模型中,与日志解析模型中的日志模板树进行匹配,得到第一日志文件的分类结果。
综上所述,通过第一日志文件的第一有效词和第一有效词的第一权重值能够有效快速的与日志解析模型中的日志模板树进行匹配,得到第一日志文件的分类结果,既提高了处理效率,也提高了日志分类的准确性。
可选地,在本发明实施例一提供的数据中心的日志的分类方法中,对数据中心的待分类的第一日志文件进行处理,得到第一有效词集合和第一有效词集合中每个第一有效词对应的第一词频包括:通过预设的正则表达式对第一日志文件进行数据清洗,得到处理后的第一日志文件;对处理后的第一日志文件进行初始有效词统计,得到多个初始有效词;通过第二预设算法对多个初始有效词进行降噪处理,得到第一有效词集合和第一有效词集合中每个第一有效词对应的第一词频。
具体地,采用正则表达式将第一日志文件中符合条件的变量/特殊符号进行去除动作,然后对处理后的第一日志文件进行初始有效词的统计工作,得到多个初始有效词,为避免初始有效词中还包括不符合要求的词组,通过词频降噪算法(即上述的第二预设算法)对初始有效词进行处理,得到第一有效词集合和第一有效词的第一词频。通过上述步骤,对第一日志文件进行数据清洗,能够有效去除冗余无效的信息,提高后续的匹配效率。
可选地,在本发明实施例一提供的数据中心的日志的分类方法中,通过第二预设算法对多个初始有效词进行降噪处理,得到第一有效词集合和第一有效词集合中每个第一有效词对应的第一词频包括:通过第二预设算法对多个初始有效词进行识别筛选,得到第一有效词集合;通过第二预设算法对第一有效词集合中每个第一有效词的词频进行降噪处理,得到每个第一有效词对应的第一词频。
具体地,词频降噪算法对初始有效词的噪音词(高词频变量)进行识别剔除,得到第一有效词,然后对第一有效词的词频进行处理,平滑词频的变动幅度,得到第一词频。通过上述的词频降噪算法,对词频进行平滑处理,解决了工业级日志词频变化剧烈的问题;以及通过剔除高词频变量,极大的提高了日志分类的准确率。需要说明的是,对于噪音词并不是一直不变,随着对日志的分类工作的进行,会对噪音词不断的进行改进和更新。
可选地,在本发明实施例一提供的数据中心的日志的分类方法中,第一预设算法的形式为:
Figure BDA0003647988020000101
其中,wi为第一有效词的第一权重值,pi为在上一次对第一日志文件进行分类处理时每个第一有效词的词频,Ti为第一词频,α为0-1之间的常数,
Figure BDA0003647988020000102
c为0-7之间的常数,xi为有效词i连续未出现的次数。
具体地,第一预设算法的形式为:
Figure BDA0003647988020000103
上述算法降低了降低词频波动对分类结果的影响。对于第一次进行分类的日志文件,其pi值为0。对于每一个日志文件并不是只进行一次分类处理,通过反复分类的处理,能够进一步提高权重值的准确性,进而提高了日志分类的准确率。
可选地,在本发明实施例一提供的数据中心的日志的分类方法中,依据多个第一权重值对每个第一有效词进行排序处理,得到第一序列包括:从多个第一权重值中筛选出大于第一预设数值的第一权重值,得到筛选后的多个第一权重值;依据筛选后的多个第一权重值对每个第一有效词进行排序处理,得到第一序列。
具体地,对于得到所有的第一权重值会再一次的进行筛选。通过门限值(即上述的第一预设数值)进行过滤,对于权重值不大于门限值的有效词不进排序工作。通过这一步骤,进一步的对有效词进行筛选,提高了匹配效率。
可选地,在本发明实施例一提供的数据中心的日志的分类方法中,在获取日志解析模型,并通过日志解析模型中的日志模板树对第一序列进行匹配,得到第一日志文件的分类结果之后,该方法还包括:依据第一日志文件的分类结果,对日志解析模型进行迭代更新。
具体地,通过第一日志文件的分类结果对日志解析模型进行迭代更新工作,提高日志解析模型的准确度。
可选地,在本发明实施例一提供的数据中心的日志的分类方法中,获取日志解析模型包括:获取多个样本日志文件,并对样本日志文件进行处理得到多个第二有效词集合和第二有效词集合中每个第二有效词对应的第二词频,其中,第二有效词为对样本日志文件按照第一预设规则处理后剩余的词语;依据每个第二有效词对应的第二词频,通过第一预设算法计算每个第二有效词对应的第二权重值,得到多个第二权重值;依据多个第二权重值对每个第二有效词集合中的第二有效词进行排序处理,得到多个第二序列,其中,第二序列由样本日志文件的第二有效词和第二有效词的第二权重值组成;依据每个第二序列构建第二序列对应的模板树,得到多个第一日志模板树,并将多个第一日志模板树保存至模板库中;对模板库中的多个日志模板树进行组建得到日志模板森林,并将日志模板森林作为日志解析模型。
具体地,获取日志解析模型的流程图如图3所示,对样本日志文件进行预处理,主要进行数据清洗,清洗过程中将变量、符号等进行清除,以及还可以通过黑名单算法对当前词进行过滤,随后对样本日志文件中的有效词进行统计,并利用词频降噪算法对词频进行处理,得到多个第二有效词集合和第二有效词集合中每个第二有效词对应的第二词频;然后使用第二词频,利用权重算法(即上述的第一预设算法)计算第二有效词的第二权重值,根据第二权重值对第二有效词进行排序,得打第二序列;利用第二序列构建日志树,得到多个第一日志模板树,例如,图4所示的日志模板树的示意图;最后通过所有的日志模板树形成最终日志模板森林,日志模板森林即为日志解析模型。通过上述步骤,得到到日志解析模型极大的提高了日志分类的处理速度和能力,可以短时间内并发处理数十亿量级的工业日志。
可选地,在本发明实施例一提供的数据中心的日志的分类方法中,依据每个第二序列构建第二序列对应的模板树,得到多个第一日志模板树包括:判断模板库中是否存在与第二序列的根节点相同的第二日志模板树;若不存在第二日志模板树,则依据第二序列构建第一日志模板树。
具体地,在构建第一日志模板树时,首先要判断当前模板库是否存在与第二序列的根节点相同的第二日志模板树,如果不存在则通过第二序列形成从根节点到叶节点的第一日志模板树。通过上述步骤,能够避免产生无效冗余数据,提高后续与日志文件的匹配效率。
可选地,在本发明实施例一提供的数据中心的日志的分类方法中,该方法还包括:若存在第二日志模板树,则将第二序列中的第二有效词和第二有效词对应的第二权重值插入到第二日志模板树中。
具体地,当存在第二日志模板树时,通过以下两个序列为例进行说明:序列1:{DEVIP(词):100(权重),DIAG:80,STA:75,SESS:60,DELETED:30,DETECTION:20};序列2:{DEVIP:100,CONTROL:90,DIAG:80,EXPIRED,TIME:30,DETECTION:20}。处理过程如图5所示,将序列2的有效词按照顺序插入到序列1对应的日志模板树中。通过上述步骤,对于具有相同根节点的日志模板树,只保留一棵,能够有效减轻日志解析模型的存储压力。
可选地,在本发明实施例一提供的数据中心的日志的分类方法中,在对模板库中的多个日志模板树进行组建得到日志模板森林之前,该方法还包括:遍历模板库中的每棵日志模板树,得到多个第三序列,其中,第三序列由每棵日志模板树中的有效词组成;依据第二预设规则对多个第三序列中的有效词进行剪枝处理,得到处理后的第三序列;依据处理后的第三序列中的有效词的首字母的顺序对处理后的第三序列中的有效词进行排序,得到多个第四序列;通过第三预设算法对多个第四序列进行相似度计算,得到多个相似度系数;从多个相似度系数中筛选出大于第二预设数值的相似度系数,得到多个目标相似度系数;将每个目标相似度系数对应的日志模板树进行合并处理,得到合并后的日志模板树,并将合并后的日志模板树保存至模板库中。
具体地,由于日志解析模型形成后会定期进行更新,更新后的有效词的权重会发生变化,进而日志模板树也会发生变化,所以需要对无效或者冗余的日志模板树进行合并和淘汰工作,合并流程为:从每颗日志模板树根节点遍历到叶子结点,得到这颗树的第三序列,将该序列中权重值小于阈值的有效词(即上述的第二预设规则)进行删除处理,得到处理后的第三序列。对有效词进行有选择的删除,能够有效提高相似度系数的计算效率。按照处理后的第三序列的有效词的首字母进行排序,得到新的序列,然后进行相似度计算,得到多个相似度系数,最后根据相似性系数来进行日志模板树的合并工作。如果相似度系数高于第二预设数值(例如,90%)那么就将该相似度系数对应的日志模板树进行合并处理。例如,有两个日志模板的序列为{A-B-D-F-E}–排序-->{A-B-C-D-E-F};{B-D-E-F-A}–排序-->{A-B-C-D-E-F},那么可以看出这两个序列是一致的可以进行相互合并操作。
日志模板树的淘汰是基于日志模板树的生命周期控制,若某日志模板树长时间未能匹配到新的日志,则该日志模板树会被淘汰,这样的做法进一步降低了日志模板森林中日志模板树的数量。通过对日志模板树的合并和淘汰能够有效收敛日志解析模型,提高匹配效率。
综上,在本发明实施例一提供的数据中心的日志的分类方法中,通过对数据中心的待分类的第一日志文件进行处理,得到第一有效词集合和第一有效词集合中每个第一有效词对应的第一词频,其中,第一有效词为对第一日志文件按照第一预设规则处理后剩余的词语;依据每个第一有效词对应的第一词频,通过第一预设算法计算每个第一有效词对应的第一权重值,得到多个第一权重值;依据多个第一权重值对每个第一有效词进行排序处理,得到第一序列,其中,第一序列由每个第一有效词及每个第一有效词对应的第一权重值组成;获取日志解析模型,并通过日志解析模型中的日志模板树对第一序列进行匹配,得到第一日志文件的分类结果,解决了相关技术中根据词频对故障日志进行解析和分析,导致处理效率比较低的技术问题。通过第一日志文件的第一有效词和第一有效词的第一权重值能够有效快速的与日志解析模型中的日志模板树进行匹配,得到第一日志文件的分类结果,进而达到了提高日志处理效率的效果。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例的方法。
实施例2
本申请提供了如图6所示的日志的分类方法。图6是根据本申请实施例二的日志的分类方法的流程图。
步骤S601,对待分类的第一日志文件进行处理,得到第一有效词集合和第一有效词集合中每个第一有效词对应的第一词频,其中,第一有效词为对第一日志文件按照第一预设规则处理后剩余的词语。
具体地,对需要进行分类的第一日志文件进行处理,去掉冗余信息,得到第一有效词集合和第一有效词集合中每个第一有效词对应的第一词频,例如,对某一日志处理后的第一有效词集合为{DIAG(有效词):25(词频),DEVIP:55,STA:22,DELETED:8,DETECTION:5,SESS:10},其中,有效词为除去了冗余信息(例如,变量/特殊符号等信息)后的数据信息。
步骤S602,依据每个第一有效词对应的第一词频,通过第一预设算法计算每个第一有效词对应的第一权重值,得到多个第一权重值。
具体地,通过第一预设算法,根据上述的第一词频计算每一个第一有效词的第一权重值。例如,针对上述的第一有效词集合进行权重计算,得到的结果为:{DIAG(有效词):80(权重),DEVIP:100,STA:75,DELETED:30,DETECTION:20,SESS:60}。
步骤S603,依据多个第一权重值对每个第一有效词进行排序处理,得到第一序列,其中,第一序列由每个第一有效词及每个第一有效词对应的第一权重值组成。
具体地,通过上述得到第一权重值,对第一有效词进行排序得到第一序列,例如,第一序列为:{DEVIP(词):100(权重),DIAG:80,STA:75,SESS:60,DELETED:30,DETECTION:20}。
步骤S604,获取日志解析模型,并通过日志解析模型中的日志模板树对第一序列进行匹配,得到第一日志文件的分类结果。
具体地,将第一序列输入到日志解析模型中,与日志解析模型中的日志模板树进行匹配,得到第一日志文件的分类结果。
综上所述,通过第一日志文件的第一有效词和第一有效词的第一权重值能够有效快速的与日志解析模型中的日志模板树进行匹配,得到第一日志文件的分类结果,既提高了处理效率,也提高了日志分类的准确性。
可选地,在本发明实施例二提供的日志的分类方法中,对待分类的第一日志文件进行处理,得到第一有效词集合和第一有效词集合中每个第一有效词对应的第一词频包括:通过预设的正则表达式对第一日志文件进行数据清洗,得到处理后的第一日志文件;对处理后的第一日志文件进行初始有效词统计,得到多个初始有效词;通过第二预设算法对多个初始有效词进行降噪处理,得到第一有效词集合和第一有效词集合中每个第一有效词对应的第一词频。
具体地,采用正则表达式将第一日志文件中符合条件的变量/特殊符号进行去除动作,然后对处理后的第一日志文件进行初始有效词的统计工作,得到多个初始有效词,为避免初始有效词中还包括不符合要求的词组,通过词频降噪算法(即上述的第二预设算法)对初始有效词进行处理,得到第一有效词集合和第一有效词的第一词频。通过上述步骤,对第一日志文件进行数据清洗,能够有效去除冗余无效的信息,提高后续的匹配效率。
可选地,在本发明实施例二提供的日志的分类方法中,通过第二预设算法对多个初始有效词进行降噪处理,得到第一有效词集合和第一有效词集合中每个第一有效词对应的第一词频包括:通过第二预设算法对多个初始有效词进行识别筛选,得到第一有效词集合;通过第二预设算法对第一有效词集合中每个第一有效词的词频进行降噪处理,得到每个第一有效词对应的第一词频。
具体地,词频降噪算法对初始有效词的噪音词(高词频变量)进行识别剔除,得到第一有效词,然后对第一有效词的词频进行处理,平滑词频的变动幅度,得到第一词频。通过上述的词频降噪算法,对词频进行平滑处理,解决了工业级日志词频变化剧烈的问题;以及通过剔除高词频变量,极大的提高了日志分类的准确率。需要说明的是,对于噪音词并不是一直不变,随着对日志的分类工作的进行,会对噪音词不断的进行改进和更新。
可选地,在本发明实施例二提供的日志的分类方法中,第一预设算法的形式为:
Figure BDA0003647988020000141
其中,wi为第一有效词的第一权重值,pi为在上一次对第一日志文件进行分类处理时每个第一有效词的词频,Ti为第一词频,α为0-1之间的常数,
Figure BDA0003647988020000142
c为0-7之间的常数,xi为有效词i连续未出现的次数。
具体地,第一预设算法的形式为:
Figure BDA0003647988020000151
上述算法降低了降低词频波动对分类结果的影响。对于第一次进行分类的日志文件,其pi值为0。对于每一个日志文件并不是只进行一次分类处理,通过反复分类的处理,能够进一步提高权重值的准确性,进而提高了日志分类的准确率。
可选地,在本发明实施例二提供的日志的分类方法中,依据多个第一权重值对每个第一有效词进行排序处理,得到第一序列包括:从多个第一权重值中筛选出大于第一预设数值的第一权重值,得到筛选后的多个第一权重值;依据筛选后的多个第一权重值对每个第一有效词进行排序处理,得到第一序列。
具体地,对于得到所有的第一权重值会再一次的进行筛选。通过门限值(即上述的第一预设数值)进行过滤,对于权重值不大于门限值的有效词不进排序工作。通过这一步骤,进一步的对有效词进行筛选,提高了匹配效率。
可选地,在本发明实施例二提供的日志的分类方法中,在获取日志解析模型,并通过日志解析模型中的日志模板树对第一序列进行匹配,得到第一日志文件的分类结果之后,该方法还包括:依据第一日志文件的分类结果,对日志解析模型进行迭代更新。
具体地,通过第一日志文件的分类结果对日志解析模型进行迭代更新工作,提高日志解析模型的准确度。
可选地,在本发明实施例二提供的日志的分类方法中,获取日志解析模型包括:获取多个样本日志文件,并对样本日志文件进行处理得到多个第二有效词集合和第二有效词集合中每个第二有效词对应的第二词频,其中,第二有效词为对样本日志文件按照第一预设规则处理后剩余的词语;依据每个第二有效词对应的第二词频,通过第一预设算法计算每个第二有效词对应的第二权重值,得到多个第二权重值;依据多个第二权重值对每个第二有效词集合中的第二有效词进行排序处理,得到多个第二序列,其中,第二序列由样本日志文件的第二有效词和第二有效词的第二权重值组成;依据每个第二序列构建第二序列对应的模板树,得到多个第一日志模板树,并将多个第一日志模板树保存至模板库中;对模板库中的多个日志模板树进行组建得到日志模板森林,并将日志模板森林作为日志解析模型。
具体地,获取日志解析模型的流程图如图3所示,对样本日志文件进行预处理,主要进行数据清洗,清洗过程中将变量、符号等进行清除,以及还可以通过黑名单算法对当前词进行过滤,随后对样本日志文件中的有效词进行统计,并利用词频降噪算法对词频进行处理,得到多个第二有效词集合和第二有效词集合中每个第二有效词对应的第二词频;然后使用第二词频,利用权重算法(即上述的第一预设算法)计算第二有效词的第二权重值,根据第二权重值对第二有效词进行排序,得打第二序列;利用第二序列构建日志树,得到多个第一日志模板树,例如,图4所示的日志模板树的示意图;最后通过所有的日志模板树形成最终日志模板森林,日志模板森林即为日志解析模型。通过上述步骤,得到到日志解析模型极大的提高了日志分类的处理速度和能力,可以短时间内并发处理数十亿量级的工业日志。
可选地,在本发明实施例二提供的日志的分类方法中,依据每个第二序列构建第二序列对应的模板树,得到多个第一日志模板树包括:判断模板库中是否存在与第二序列的根节点相同的第二日志模板树;若不存在第二日志模板树,则依据第二序列构建第一日志模板树。
具体地,在构建第一日志模板树时,首先要判断当前模板库是否存在与第二序列的根节点相同的第二日志模板树,如果不存在则通过第二序列形成从根节点到叶节点的第一日志模板树。通过上述步骤,能够避免产生无效冗余数据,提高后续与日志文件的匹配效率。
可选地,在本发明实施例二提供的日志的分类方法中,该方法还包括:若存在第二日志模板树,则将第二序列中的第二有效词和第二有效词对应的第二权重值插入到第二日志模板树中。
具体地,当存在第二日志模板树时,通过以下两个序列为例进行说明:序列1:{DEVIP(词):100(权重),DIAG:80,STA:75,SESS:60,DELETED:30,DETECTION:20};序列2:{DEVIP:100,CONTROL:90,DIAG:80,EXPIRED,TIME:30,DETECTION:20}。处理过程如图5所示,将序列2的有效词按照顺序插入到序列1对应的日志模板树中。通过上述步骤,对于具有相同根节点的日志模板树,只保留一棵,能够有效减轻日志解析模型的存储压力。
可选地,在本发明实施例二提供的日志的分类方法中,在对模板库中的多个日志模板树进行组建得到日志模板森林之前,该方法还包括:遍历模板库中的每棵日志模板树,得到多个第三序列,其中,第三序列由每棵日志模板树中的有效词组成;依据第二预设规则对多个第三序列中的有效词进行剪枝处理,得到处理后的第三序列;依据处理后的第三序列中的有效词的首字母的顺序对处理后的第三序列中的有效词进行排序,得到多个第四序列;通过第三预设算法对多个第四序列进行相似度计算,得到多个相似度系数;从多个相似度系数中筛选出大于第二预设数值的相似度系数,得到多个目标相似度系数;将每个目标相似度系数对应的日志模板树进行合并处理,得到合并后的日志模板树,并将合并后的日志模板树保存至模板库中。
具体地,由于日志解析模型形成后会定期进行更新,更新后的有效词的权重会发生变化,进而日志模板树也会发生变化,所以需要对无效或者冗余的日志模板树进行合并和淘汰工作,合并流程为:从每颗日志模板树根节点遍历到叶子结点,得到这颗树的第三序列,将该序列中权重值小于阈值的有效词(即上述的第二预设规则)进行删除处理,得到处理后的第三序列。对有效词进行有选择的删除,能够有效提高相似度系数的计算效率。按照处理后的第三序列的有效词的首字母进行排序,得到新的序列,然后进行相似度计算,得到多个相似度系数,最后根据相似性系数来进行日志模板树的合并工作。如果相似度系数高于第二预设数值(例如,90%)那么就将该相似度系数对应的日志模板树进行合并处理。例如,有两个日志模板的序列为{A-B-D-F-E}–排序-->{A-B-C-D-E-F};{B-D-E-F-A}–排序-->{A-B-C-D-E-F},那么可以看出这两个序列是一致的可以进行相互合并操作。
日志模板树的淘汰是基于日志模板树的生命周期控制,若某日志模板树长时间未能匹配到新的日志,则该日志模板树会被淘汰,这样的做法进一步降低了日志模板森林中日志模板树的数量。通过对日志模板树的合并和淘汰能够有效收敛日志解析模型,提高匹配效率。
综上,在本发明实施例二提供的日志的分类方法中,通过对待分类的第一日志文件进行处理,得到第一有效词集合和第一有效词集合中每个第一有效词对应的第一词频,其中,第一有效词为对第一日志文件按照第一预设规则处理后剩余的词语;依据每个第一有效词对应的第一词频,通过第一预设算法计算每个第一有效词对应的第一权重值,得到多个第一权重值;依据多个第一权重值对每个第一有效词进行排序处理,得到第一序列,其中,第一序列由每个第一有效词及每个第一有效词对应的第一权重值组成;获取日志解析模型,并通过日志解析模型中的日志模板树对第一序列进行匹配,得到第一日志文件的分类结果,解决了相关技术中根据词频对故障日志进行解析和分析,导致处理效率比较低的技术问题。通过第一日志文件的第一有效词和第一有效词的第一权重值能够有效快速的与日志解析模型中的日志模板树进行匹配,得到第一日志文件的分类结果,进而达到了提高日志处理效率的效果。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例的方法。
实施例3
根据本申请实施例,还提供了一种数据中心的日志的分类方法的流程图,如图7所示,该方法包括:
步骤701,接收客户端发送的数据中心的待分类的第一日志文件。
具体地,通过客户端将需要进行分类的第一日志文件发送至云服务器。
步骤702,在云服务器中对第一日志文件进行处理,得到第一有效词集合和第一有效词集合中每个第一有效词对应的第一词频,其中,第一有效词为对第一日志文件按照第一预设规则处理后剩余的词语,依据每个第一有效词对应的第一词频,通过第一预设算法计算每个第一有效词对应的第一权重值,得到多个第一权重值;依据多个第一权重值对每个第一有效词进行排序处理,得到第一序列,其中,第一序列由每个第一有效词及每个第一有效词对应的第一权重值组成,通过日志解析模型中的日志模板树对第一序列进行匹配,得到第一日志文件的分类结果。
具体地,在云服务器中对第一日志文件进行处理,得到第一有效词集合和第一有效词对应的第一词频;根据第一词频,通过第一预设算法计算每个第一有效词对应的第一权重值,然后根据多个第一权重值对每个第一有效词进行排序处理,得到第一序列,通过日志解析模型中的日志模板树对第一序列进行匹配,得到第一日志文件的分类结果。
步骤703,将分类结果返回至客户端。
通过云服务器进行日志的分类工作,提高了日志的分类工作的效率,并且减少了本地终端的存储压力。
在云服务器中,对日志的分类工作的具体方法与实施例一中的方法相同,在此不再赘述。
实施例4
根据本申请实施例,还提供了一种用于实施上述数据中心的日志的分类装置,如图8所示,该装置包括:第一处理单元801,第一计算单元802,第二处理单元803和匹配单元804。
第一处理单元801,用于对数据中心的待分类的第一日志文件进行处理,得到第一有效词集合和第一有效词集合中每个第一有效词对应的第一词频,其中,第一有效词为对第一日志文件按照第一预设规则处理后剩余的词语。
第一计算单元802,用于依据每个第一有效词对应的第一词频,通过第一预设算法计算每个第一有效词对应的第一权重值,得到多个第一权重值。
第二处理单元803,用于依据多个第一权重值对每个第一有效词进行排序处理,得到第一序列,其中,第一序列由每个第一有效词及每个第一有效词对应的第一权重值组成。
匹配单元804,用于获取日志解析模型,并通过日志解析模型中的日志模板树对第一序列进行匹配,得到第一日志文件的分类结果。
本发明实施例三提供的数据中心的日志的分类装置,通过第一处理单元801对数据中心的待分类的第一日志文件进行处理,得到第一有效词集合和第一有效词集合中每个第一有效词对应的第一词频,其中,第一有效词为对第一日志文件按照第一预设规则处理后剩余的词语;第一计算单元802依据每个第一有效词对应的第一词频,通过第一预设算法计算每个第一有效词对应的第一权重值,得到多个第一权重值;第二处理单元803依据多个第一权重值对每个第一有效词进行排序处理,得到第一序列,其中,第一序列由每个第一有效词及每个第一有效词对应的第一权重值组成;匹配单元804获取日志解析模型,并通过日志解析模型中的日志模板树对第一序列进行匹配,得到第一日志文件的分类结果,解决了相关技术中根据词频对故障日志进行解析和分析,导致处理效率比较低的技术问题。通过第一日志文件的第一有效词和第一有效词的第一权重值能够有效快速的与日志解析模型中的日志模板树进行匹配,得到第一日志文件的分类结果,进而达到了提高日志处理效率的效果。
可选地,在本发明实施例三提供的数据中心的日志的分类装置中,第一处理单元801包括:清洗模块,用于通过预设的正则表达式对第一日志文件进行数据清洗,得到处理后的第一日志文件;统计模块,用于对处理后的第一日志文件进行初始有效词统计,得到多个初始有效词;第一处理模块,用于通过第二预设算法对多个初始有效词进行降噪处理,得到第一有效词集合和第一有效词集合中每个第一有效词对应的第一词频。
可选地,在本发明实施例三提供的数据中心的日志的分类装置中,第一处理模块包括:筛选子模块,用于通过第二预设算法对多个初始有效词进行识别筛选,得到第一有效词集合;处理子模块,用于通过第二预设算法对第一有效词集合中每个第一有效词的词频进行降噪处理,得到每个第一有效词对应的第一词频。
可选地,在本发明实施例三提供的日志的分类装置中,第一预设算法的形式为:
Figure BDA0003647988020000191
其中,wi为第一有效词的第一权重值,pi为在上一次对第一日志文件进行分类处理时每个第一有效词的词频,Ti为第一词频,α为0-1之间的常数,
Figure BDA0003647988020000192
c为0-7之间的常数,xi为有效词i连续未出现的次数。
可选地,在本发明实施例三提供的数据中心的日志的分类装置中,第二处理单元803包括:筛选模块,用于从多个第一权重值中筛选出大于第一预设数值的第一权重值,得到筛选后的多个第一权重值;第一排序模块,用于依据筛选后的多个第一权重值对每个第一有效词进行排序处理,得到第一序列。
可选地,在本发明实施例三提供的数据中心的日志的分类装置中,装置还包括:更新单元,用于在获取日志解析模型,并通过日志解析模型中的日志模板树对第一序列进行匹配,得到第一日志文件的分类结果之后,依据第一日志文件的分类结果,对日志解析模型进行迭代更新。
可选地,在本发明实施例三提供的数据中心的日志的分类装置中,匹配单元包括:第二处理模块,用于获取多个样本日志文件,并对样本日志文件进行处理得到多个第二有效词集合和第二有效词集合中每个第二有效词对应的第二词频,其中,第二有效词为对样本日志文件按照第一预设规则处理后剩余的词语;计算模块,用于依据每个第二有效词对应的第二词频,通过第一预设算法计算每个第二有效词对应的第二权重值,得到多个第二权重值;第二排序模块,用于依据多个第二权重值对每个第二有效词集合中的第二有效词进行排序处理,得到多个第二序列,其中,第二序列由样本日志文件的第二有效词和第二有效词的第二权重值组成;构建模块,用于依据每个第二序列构建第二序列对应的模板树,得到多个第一日志模板树,并将多个第一日志模板树保存至模板库中;组建模块,用于对模板库中的多个日志模板树进行组建得到日志模板森林,并将日志模板森林作为日志解析模型。
可选地,在本发明实施例三提供的数据中心的日志的分类装置中,构建模块包括:判断子模块,用于判断模板库中是否存在与第二序列的根节点相同的第二日志模板树;构建子模块,用于若不存在第二日志模板树,则依据第二序列构建第一日志模板树。
可选地,在本发明实施例三提供的日志的分类装置中,装置还包括:插入模块,用于若存在第二日志模板树,则将第二序列中的第二有效词和第二有效词对应的第二权重值插入到第二日志模板树中。
可选地,在本发明实施例三提供的数据中心的日志的分类装置中,装置还包括:遍历单元,用于在对模板库中的多个日志模板树进行组建得到日志模板森林之前,遍历模板库中的每棵日志模板树,得到多个第三序列,其中,第三序列由每棵日志模板树中的有效词组成;剪枝单元,用于依据第二预设规则对多个第三序列中的有效词进行剪枝处理,得到处理后的第三序列;排序单元,用于依据处理后的第三序列中的有效词的首字母的顺序对处理后的第三序列中的有效词进行排序,得到多个第四序列;第二计算单元,用于通过第三预设算法对多个第四序列进行相似度计算,得到多个相似度系数;筛选单元,用于从多个相似度系数中筛选出大于第二预设数值的相似度系数,得到多个目标相似度系数;第三处理单元,用于将每个目标相似度系数对应的日志模板树进行合并处理,得到合并后的日志模板树,并将合并后的日志模板树保存至模板库中。
此处需要说明的是,上述第一处理单元801,第一计算单元802,第二处理单元803和匹配单元804对应于实施例1中的步骤S201至步骤S204,两个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。
需要说明的是,本申请上述实施例中涉及到的优选实施方案与实施例1提供的方案以及应用场景、实施过程相同,但不仅限于实施例1所提供的方案。
本发明实施例三还提供了一种日志的分类系统,该系统包括:词频计算处理模块、构建模块和分类模块,其中,词频计算处理模块用于对日志文件的处理,得到对应的有效词,有效词的词频以及有效词的权重值等。构建模块用于构建日志模板树和日志模板森林,分类模块用于实现对日志文件的分类工作。该系统的不同模块可部署在各自合适的计算平台中,这样可以提高日志模板解析模型的处理速度和能力。
实施例5
本申请的实施例可以提供一种计算机终端,该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地,在本实施例中,上述计算机终端也可以替换为移动终端等终端设备。
可选地,在本实施例中,上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。
在本实施例中,上述计算机终端可以执行日志的分类方法中以下步骤的程序代码:对待分类的第一日志文件进行处理,得到第一有效词集合和第一有效词集合中每个第一有效词对应的第一词频,其中,第一有效词为对第一日志文件按照第一预设规则处理后剩余的词语;依据每个第一有效词对应的第一词频,通过第一预设算法计算每个第一有效词对应的第一权重值,得到多个第一权重值;依据多个第一权重值对每个第一有效词进行排序处理,得到第一序列,其中,第一序列由每个第一有效词及每个第一有效词对应的第一权重值组成;获取日志解析模型,并通过日志解析模型中的日志模板树对第一序列进行匹配,得到第一日志文件的分类结果。
上述计算机终端还可以执行日志的分类方法中以下步骤的程序代码:对待分类的第一日志文件进行处理,得到第一有效词集合和第一有效词集合中每个第一有效词对应的第一词频包括:通过预设的正则表达式对第一日志文件进行数据清洗,得到处理后的第一日志文件;对处理后的第一日志文件进行初始有效词统计,得到多个初始有效词;通过第二预设算法对多个初始有效词进行降噪处理,得到第一有效词集合和第一有效词集合中每个第一有效词对应的第一词频。
上述计算机终端还可以执行日志的分类方法中以下步骤的程序代码:通过第二预设算法对多个初始有效词进行降噪处理,得到第一有效词集合和第一有效词集合中每个第一有效词对应的第一词频包括:通过第二预设算法对多个初始有效词进行识别筛选,得到第一有效词集合;通过第二预设算法对第一有效词集合中每个第一有效词的词频进行降噪处理,得到每个第一有效词对应的第一词频。
上述计算机终端还可以执行日志的分类方法中以下步骤的程序代码:第一预设算法的形式为:
Figure BDA0003647988020000221
其中,wi为第一有效词的第一权重值,pi为在上一次对第一日志文件进行分类处理时每个第一有效词的词频,Ti为第一词频,α为0-1之间的常数,
Figure BDA0003647988020000222
c为0-7之间的常数,xi为有效词i连续未出现的次数。
上述计算机终端还可以执行日志的分类方法中以下步骤的程序代码:依据多个第一权重值对每个第一有效词进行排序处理,得到第一序列包括:从多个第一权重值中筛选出大于第一预设数值的第一权重值,得到筛选后的多个第一权重值;依据筛选后的多个第一权重值对每个第一有效词进行排序处理,得到第一序列。
上述计算机终端还可以执行日志的分类方法中以下步骤的程序代码:在获取日志解析模型,并通过日志解析模型中的日志模板树对第一序列进行匹配,得到第一日志文件的分类结果之后,方法还包括:依据第一日志文件的分类结果,对日志解析模型进行迭代更新。
上述计算机终端还可以执行日志的分类方法中以下步骤的程序代码:获取日志解析模型包括:获取多个样本日志文件,并对样本日志文件进行处理得到多个第二有效词集合和第二有效词集合中每个第二有效词对应的第二词频,其中,第二有效词为对样本日志文件按照第一预设规则处理后剩余的词语;依据每个第二有效词对应的第二词频,通过第一预设算法计算每个第二有效词对应的第二权重值,得到多个第二权重值;依据多个第二权重值对每个第二有效词集合中的第二有效词进行排序处理,得到多个第二序列,其中,第二序列由样本日志文件的第二有效词和第二有效词的第二权重值组成;依据每个第二序列构建第二序列对应的模板树,得到多个第一日志模板树,并将多个第一日志模板树保存至模板库中;对模板库中的多个日志模板树进行组建得到日志模板森林,并将日志模板森林作为日志解析模型。
上述计算机终端还可以执行日志的分类方法中以下步骤的程序代码:依据每个第二序列构建第二序列对应的模板树,得到多个第一日志模板树包括:判断模板库中是否存在与第二序列的根节点相同的第二日志模板树;若不存在第二日志模板树,则依据第二序列构建第一日志模板树。
上述计算机终端还可以执行日志的分类方法中以下步骤的程序代码:若存在第二日志模板树,则将第二序列中的第二有效词和第二有效词对应的第二权重值插入到第二日志模板树中。
上述计算机终端还可以执行日志的分类方法中以下步骤的程序代码:在对模板库中的多个日志模板树进行组建得到日志模板森林之前,方法还包括:遍历模板库中的每棵日志模板树,得到多个第三序列,其中,第三序列由每棵日志模板树中的有效词组成;依据第二预设规则对多个第三序列中的有效词进行剪枝处理,得到处理后的第三序列;依据处理后的第三序列中的有效词的首字母的顺序对处理后的第三序列中的有效词进行排序,得到多个第四序列;通过第三预设算法对多个第四序列进行相似度计算,得到多个相似度系数;从多个相似度系数中筛选出大于第二预设数值的相似度系数,得到多个目标相似度系数;将每个目标相似度系数对应的日志模板树进行合并处理,得到合并后的日志模板树,并将合并后的日志模板树保存至模板库中。
可选地,图9是根据本申请实施例的一种计算机终端的结构框图。如图9所示,该计算机终端10可以包括:一个或多个(图9中仅示出一个)处理器、存储器。
其中,存储器可用于存储软件程序以及模块,如本申请实施例中的日志的分类方法和装置对应的程序指令/模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的日志的分类方法。存储器可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:对待分类的第一日志文件进行处理,得到第一有效词集合和第一有效词集合中每个第一有效词对应的第一词频,其中,第一有效词为对第一日志文件按照第一预设规则处理后剩余的词语;依据每个第一有效词对应的第一词频,通过第一预设算法计算每个第一有效词对应的第一权重值,得到多个第一权重值;依据多个第一权重值对每个第一有效词进行排序处理,得到第一序列,其中,第一序列由每个第一有效词及每个第一有效词对应的第一权重值组成;获取日志解析模型,并通过日志解析模型中的日志模板树对第一序列进行匹配,得到第一日志文件的分类结果。
可选的,上述处理器还可以执行如下步骤的程序代码:对待分类的第一日志文件进行处理,得到第一有效词集合和第一有效词集合中每个第一有效词对应的第一词频包括:通过预设的正则表达式对第一日志文件进行数据清洗,得到处理后的第一日志文件;对处理后的第一日志文件进行初始有效词统计,得到多个初始有效词;通过第二预设算法对多个初始有效词进行降噪处理,得到第一有效词集合和第一有效词集合中每个第一有效词对应的第一词频。
可选的,上述处理器还可以执行如下步骤的程序代码:通过第二预设算法对多个初始有效词进行降噪处理,得到第一有效词集合和第一有效词集合中每个第一有效词对应的第一词频包括:通过第二预设算法对多个初始有效词进行识别筛选,得到第一有效词集合;通过第二预设算法对第一有效词集合中每个第一有效词的词频进行降噪处理,得到每个第一有效词对应的第一词频。
可选的,上述处理器还可以执行如下步骤的程序代码:第一预设算法的形式为:
Figure BDA0003647988020000241
其中,wi为第一有效词的第一权重值,pi为在上一次对第一日志文件进行分类处理时每个第一有效词的词频,Ti为第一词频,α为0-1之间的常数,
Figure BDA0003647988020000242
c为0-7之间的常数,xi为有效词i连续未出现的次数。
可选的,上述处理器还可以执行如下步骤的程序代码:依据多个第一权重值对每个第一有效词进行排序处理,得到第一序列包括:从多个第一权重值中筛选出大于第一预设数值的第一权重值,得到筛选后的多个第一权重值;依据筛选后的多个第一权重值对每个第一有效词进行排序处理,得到第一序列。
可选的,上述处理器还可以执行如下步骤的程序代码:在获取日志解析模型,并通过日志解析模型中的日志模板树对第一序列进行匹配,得到第一日志文件的分类结果之后,该方法还包括:依据第一日志文件的分类结果,对日志解析模型进行迭代更新。
可选的,上述处理器还可以执行如下步骤的程序代码:获取日志解析模型包括:获取多个样本日志文件,并对样本日志文件进行处理得到多个第二有效词集合和第二有效词集合中每个第二有效词对应的第二词频,其中,第二有效词为对样本日志文件按照第一预设规则处理后剩余的词语;依据每个第二有效词对应的第二词频,通过第一预设算法计算每个第二有效词对应的第二权重值,得到多个第二权重值;依据多个第二权重值对每个第二有效词集合中的第二有效词进行排序处理,得到多个第二序列,其中,第二序列由样本日志文件的第二有效词和第二有效词的第二权重值组成;依据每个第二序列构建第二序列对应的模板树,得到多个第一日志模板树,并将多个第一日志模板树保存至模板库中;对模板库中的多个日志模板树进行组建得到日志模板森林,并将日志模板森林作为日志解析模型。
可选的,上述处理器还可以执行如下步骤的程序代码:依据每个第二序列构建第二序列对应的模板树,得到多个第一日志模板树包括:判断模板库中是否存在与第二序列的根节点相同的第二日志模板树;若不存在第二日志模板树,则依据第二序列构建第一日志模板树。
可选的,上述处理器还可以执行如下步骤的程序代码:若存在第二日志模板树,则将第二序列中的第二有效词和第二有效词对应的第二权重值插入到第二日志模板树中。
可选的,上述处理器还可以执行如下步骤的程序代码:在对模板库中的多个日志模板树进行组建得到日志模板森林之前,遍历模板库中的每棵日志模板树,得到多个第三序列,其中,第三序列由每棵日志模板树中的有效词组成;依据第二预设规则对多个第三序列中的有效词进行剪枝处理,得到处理后的第三序列;依据处理后的第三序列中的有效词的首字母的顺序对处理后的第三序列中的有效词进行排序,得到多个第四序列;通过第三预设算法对多个第四序列进行相似度计算,得到多个相似度系数;从多个相似度系数中筛选出大于第二预设数值的相似度系数,得到多个目标相似度系数;将每个目标相似度系数对应的日志模板树进行合并处理,得到合并后的日志模板树,并将合并后的日志模板树保存至模板库中。
本领域普通技术人员可以理解,图9所示的结构仅为示意,计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(MobileInternet Devices,MID)、PAD等终端设备。图9其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图9中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图9所示不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
实施例6
本申请的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于保存上述实施例一所提供的日志的分类方法所执行的程序代码。
可选地,在本实施例中,上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:对待分类的第一日志文件进行处理,得到第一有效词集合和第一有效词集合中每个第一有效词对应的第一词频,其中,第一有效词为对第一日志文件按照第一预设规则处理后剩余的词语;依据每个第一有效词对应的第一词频,通过第一预设算法计算每个第一有效词对应的第一权重值,得到多个第一权重值;依据多个第一权重值对每个第一有效词进行排序处理,得到第一序列,其中,第一序列由每个第一有效词及每个第一有效词对应的第一权重值组成;获取日志解析模型,并通过日志解析模型中的日志模板树对第一序列进行匹配,得到第一日志文件的分类结果。
上述存储介质还被设置为存储用于执行以下步骤的程序代码:对待分类的第一日志文件进行处理,得到第一有效词集合和第一有效词集合中每个第一有效词对应的第一词频包括:通过预设的正则表达式对第一日志文件进行数据清洗,得到处理后的第一日志文件;对处理后的第一日志文件进行初始有效词统计,得到多个初始有效词;通过第二预设算法对多个初始有效词进行降噪处理,得到第一有效词集合和第一有效词集合中每个第一有效词对应的第一词频。
上述存储介质还被设置为存储用于执行以下步骤的程序代码:通过第二预设算法对多个初始有效词进行降噪处理,得到第一有效词集合和第一有效词集合中每个第一有效词对应的第一词频包括:通过第二预设算法对多个初始有效词进行识别筛选,得到第一有效词集合;通过第二预设算法对第一有效词集合中每个第一有效词的词频进行降噪处理,得到每个第一有效词对应的第一词频。
上述存储介质还被设置为存储用于执行以下步骤的程序代码:第一预设算法的形式为:
Figure BDA0003647988020000261
其中,wi为第一有效词的第一权重值,pi为在上一次对第一日志文件进行分类处理时每个第一有效词的词频,Ti为第一词频,α为0-1之间的常数,
Figure BDA0003647988020000262
c为0-7之间的常数,xi为有效词i连续未出现的次数。
上述存储介质还被设置为存储用于执行以下步骤的程序代码:依据多个第一权重值对每个第一有效词进行排序处理,得到第一序列包括:从多个第一权重值中筛选出大于第一预设数值的第一权重值,得到筛选后的多个第一权重值;依据筛选后的多个第一权重值对每个第一有效词进行排序处理,得到第一序列。
上述存储介质还被设置为存储用于执行以下步骤的程序代码:在获取日志解析模型,并通过日志解析模型中的日志模板树对第一序列进行匹配,得到第一日志文件的分类结果之后,方法还包括:依据第一日志文件的分类结果,对日志解析模型进行迭代更新。
上述存储介质还被设置为存储用于执行以下步骤的程序代码:获取日志解析模型包括:获取多个样本日志文件,并对样本日志文件进行处理得到多个第二有效词集合和第二有效词集合中每个第二有效词对应的第二词频,其中,第二有效词为对样本日志文件按照第一预设规则处理后剩余的词语;依据每个第二有效词对应的第二词频,通过第一预设算法计算每个第二有效词对应的第二权重值,得到多个第二权重值;依据多个第二权重值对每个第二有效词集合中的第二有效词进行排序处理,得到多个第二序列,其中,第二序列由样本日志文件的第二有效词和第二有效词的第二权重值组成;依据每个第二序列构建第二序列对应的模板树,得到多个第一日志模板树,并将多个第一日志模板树保存至模板库中;对模板库中的多个日志模板树进行组建得到日志模板森林,并将日志模板森林作为日志解析模型。
上述存储介质还被设置为存储用于执行以下步骤的程序代码:依据每个第二序列构建第二序列对应的模板树,得到多个第一日志模板树包括:判断模板库中是否存在与第二序列的根节点相同的第二日志模板树;若不存在第二日志模板树,则依据第二序列构建第一日志模板树。
上述存储介质还被设置为存储用于执行以下步骤的程序代码:若存在第二日志模板树,则将第二序列中的第二有效词和第二有效词对应的第二权重值插入到第二日志模板树中。
上述存储介质还被设置为存储用于执行以下步骤的程序代码:在对模板库中的多个日志模板树进行组建得到日志模板森林之前,遍历模板库中的每棵日志模板树,得到多个第三序列,其中,第三序列由每棵日志模板树中的有效词组成;依据第二预设规则对多个第三序列中的有效词进行剪枝处理,得到处理后的第三序列;依据处理后的第三序列中的有效词的首字母的顺序对处理后的第三序列中的有效词进行排序,得到多个第四序列;通过第三预设算法对多个第四序列进行相似度计算,得到多个相似度系数;从多个相似度系数中筛选出大于第二预设数值的相似度系数,得到多个目标相似度系数;将每个目标相似度系数对应的日志模板树进行合并处理,得到合并后的日志模板树,并将合并后的日志模板树保存至模板库中。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (14)

1.一种数据中心的日志的分类方法,其特征在于,包括:
对数据中心的待分类的第一日志文件进行处理,得到第一有效词集合和所述第一有效词集合中每个第一有效词对应的第一词频,其中,所述第一有效词为对所述第一日志文件按照第一预设规则处理后剩余的词语;
依据每个第一有效词对应的第一词频,通过第一预设算法计算每个第一有效词对应的第一权重值,得到多个第一权重值;
依据所述多个第一权重值对每个第一有效词进行排序处理,得到第一序列,其中,所述第一序列由每个第一有效词及每个第一有效词对应的第一权重值组成;
获取日志解析模型,并通过所述日志解析模型中的日志模板树对所述第一序列进行匹配,得到所述第一日志文件的分类结果。
2.一种日志的分类方法,其特征在于,包括:
对待分类的第一日志文件进行处理,得到第一有效词集合和所述第一有效词集合中每个第一有效词对应的第一词频,其中,所述第一有效词为对所述第一日志文件按照第一预设规则处理后剩余的词语;
依据每个第一有效词对应的第一词频,通过第一预设算法计算每个第一有效词对应的第一权重值,得到多个第一权重值;
依据所述多个第一权重值对每个第一有效词进行排序处理,得到第一序列,其中,所述第一序列由每个第一有效词及每个第一有效词对应的第一权重值组成;
获取日志解析模型,并通过所述日志解析模型中的日志模板树对所述第一序列进行匹配,得到所述第一日志文件的分类结果。
3.根据权利要求2所述的方法,其特征在于,对待分类的第一日志文件进行处理,得到第一有效词集合和所述第一有效词集合中每个第一有效词对应的第一词频包括:
通过预设的正则表达式对所述第一日志文件进行数据清洗,得到处理后的第一日志文件;
对所述处理后的第一日志文件进行初始有效词统计,得到多个初始有效词;
通过第二预设算法对所述多个初始有效词进行降噪处理,得到第一有效词集合和所述第一有效词集合中每个第一有效词对应的第一词频。
4.根据权利要求3所述的方法,其特征在于,通过第二预设算法对所述多个初始有效词进行降噪处理,得到第一有效词集合和所述第一有效词集合中每个第一有效词对应的第一词频包括:
通过所述第二预设算法对所述多个初始有效词进行识别筛选,得到所述第一有效词集合;
通过所述第二预设算法对所述第一有效词集合中每个第一有效词的词频进行降噪处理,得到每个第一有效词对应的第一词频。
5.根据权利要求2所述的方法,其特征在于,所述第一预设算法的形式为:
Figure FDA0003647988010000021
其中,wi为所述第一有效词的第一权重值,
pi为在上一次对所述第一日志文件进行分类处理时每个第一有效词的词频,Ti为所述第一词频,α为0-1之间的常数,
Figure FDA0003647988010000022
c为0-7之间的常数,xi为有效词i连续未出现的次数。
6.根据权利要求2所述的方法,其特征在于,依据所述多个第一权重值对每个第一有效词进行排序处理,得到第一序列包括:
从所述多个第一权重值中筛选出大于第一预设数值的第一权重值,得到筛选后的多个第一权重值;
依据所述筛选后的多个第一权重值对每个第一有效词进行排序处理,得到所述第一序列。
7.根据权利要求2所述的方法,其特征在于,在获取日志解析模型,并通过所述日志解析模型中的日志模板树对所述第一序列进行匹配,得到所述第一日志文件的分类结果之后,所述方法还包括:
依据所述第一日志文件的分类结果,对所述日志解析模型进行迭代更新。
8.根据权利要求2所述的方法,其特征在于,获取日志解析模型包括:
获取多个样本日志文件,并对所述样本日志文件进行处理得到多个第二有效词集合和所述第二有效词集合中每个第二有效词对应的第二词频,其中,所述第二有效词为对所述样本日志文件按照所述第一预设规则处理后剩余的词语;
依据每个第二有效词对应的第二词频,通过所述第一预设算法计算每个第二有效词对应的第二权重值,得到多个第二权重值;
依据所述多个第二权重值对所述每个第二有效词集合中的第二有效词进行排序处理,得到多个第二序列,其中,所述第二序列由所述样本日志文件的第二有效词和所述第二有效词的第二权重值组成;
依据每个第二序列构建所述第二序列对应的模板树,得到多个第一日志模板树,并将所述多个第一日志模板树保存至模板库中;
对所述模板库中的多个日志模板树进行组建得到日志模板森林,并将所述日志模板森林作为所述日志解析模型。
9.根据权利要求8所述的方法,其特征在于,依据每个第二序列构建所述第二序列对应的模板树,得到多个第一日志模板树包括:
判断所述模板库中是否存在与所述第二序列的根节点相同的第二日志模板树;
若不存在所述第二日志模板树,则依据所述第二序列构建所述第一日志模板树。
10.根据权利要求9所述的方法,其特征在于,所述方法还包括:
若存在所述第二日志模板树,则将所述第二序列中的第二有效词和所述第二有效词对应的第二权重值插入到所述第二日志模板树中。
11.根据权利要求8所述的方法,其特征在于,在对所述模板库中的多个日志模板树进行组建得到日志模板森林之前,所述方法还包括:
遍历模板库中的每棵日志模板树,得到多个第三序列,其中,所述第三序列由所述每棵日志模板树中的有效词组成;
依据第二预设规则对所述多个第三序列中的有效词进行剪枝处理,得到处理后的第三序列;
依据所述处理后的第三序列中的有效词的首字母的顺序对所述处理后的第三序列中的有效词进行排序,得到多个第四序列;
通过第三预设算法对所述多个第四序列进行相似度计算,得到多个相似度系数;
从所述多个相似度系数中筛选出大于第二预设数值的相似度系数,得到多个目标相似度系数;
将每个目标相似度系数对应的日志模板树进行合并处理,得到合并后的日志模板树,并将所述合并后的日志模板树保存至所述模板库中。
12.一种数据中心的日志的分类方法,其特征在于,包括:
接收客户端发送的数据中心的待分类的第一日志文件;
在云服务器中对所述第一日志文件进行处理,得到第一有效词集合和所述第一有效词集合中每个第一有效词对应的第一词频,其中,所述第一有效词为对所述第一日志文件按照第一预设规则处理后剩余的词语,依据每个第一有效词对应的第一词频,通过第一预设算法计算每个第一有效词对应的第一权重值,得到多个第一权重值;依据所述多个第一权重值对每个第一有效词进行排序处理,得到第一序列,其中,所述第一序列由每个第一有效词及每个第一有效词对应的第一权重值组成,通过日志解析模型中的日志模板树对所述第一序列进行匹配,得到所述第一日志文件的分类结果;
将所述分类结果返回至所述客户端。
13.一种数据中心的日志的分类装置,其特征在于,包括:
第一处理单元,用于对数据中心的待分类的第一日志文件进行处理,得到第一有效词集合和所述第一有效词集合中每个第一有效词对应的第一词频,其中,所述第一有效词为对所述第一日志文件按照第一预设规则处理后剩余的词语;
第一计算单元,用于依据每个第一有效词对应的第一词频,通过第一预设算法计算每个第一有效词对应的第一权重值,得到多个第一权重值;
第二处理单元,用于依据所述多个第一权重值对每个第一有效词进行排序处理,得到第一序列,其中,所述第一序列由每个第一有效词及每个第一有效词对应的第一权重值组成;
匹配单元,用于获取日志解析模型,并通过所述日志解析模型中的日志模板树对所述第一序列进行匹配,得到所述第一日志文件的分类结果。
14.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1所述的数据中心的日志的分类方法,或者,权利要求2至11中任意一项所述的日志的分类方法。
CN202210535701.XA 2022-05-17 2022-05-17 数据中心的日志的分类方法和装置 Pending CN114968933A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210535701.XA CN114968933A (zh) 2022-05-17 2022-05-17 数据中心的日志的分类方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210535701.XA CN114968933A (zh) 2022-05-17 2022-05-17 数据中心的日志的分类方法和装置

Publications (1)

Publication Number Publication Date
CN114968933A true CN114968933A (zh) 2022-08-30

Family

ID=82982439

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210535701.XA Pending CN114968933A (zh) 2022-05-17 2022-05-17 数据中心的日志的分类方法和装置

Country Status (1)

Country Link
CN (1) CN114968933A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115757068A (zh) * 2022-11-17 2023-03-07 中电云数智科技有限公司 一种基于eBPF的进程日志采集及自动降噪方法和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106055452A (zh) * 2016-05-25 2016-10-26 北京百度网讯科技有限公司 创建交换机日志模板的方法和装置
CN109388707A (zh) * 2017-08-11 2019-02-26 腾讯科技(深圳)有限公司 短文本分类方法及装置
CN109408640A (zh) * 2018-11-02 2019-03-01 东软集团股份有限公司 日志分类方法、装置及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106055452A (zh) * 2016-05-25 2016-10-26 北京百度网讯科技有限公司 创建交换机日志模板的方法和装置
CN109388707A (zh) * 2017-08-11 2019-02-26 腾讯科技(深圳)有限公司 短文本分类方法及装置
CN109408640A (zh) * 2018-11-02 2019-03-01 东软集团股份有限公司 日志分类方法、装置及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115757068A (zh) * 2022-11-17 2023-03-07 中电云数智科技有限公司 一种基于eBPF的进程日志采集及自动降噪方法和系统
CN115757068B (zh) * 2022-11-17 2024-03-05 中电云计算技术有限公司 一种基于eBPF的进程日志采集及自动降噪方法和系统

Similar Documents

Publication Publication Date Title
CN107992490B (zh) 一种数据处理方法以及数据处理设备
CN110209660B (zh) 欺诈团伙挖掘方法、装置及电子设备
CN112052151A (zh) 故障根因分析方法、装置、设备及存储介质
CN108319888B (zh) 视频类型的识别方法及装置、计算机终端
CN110046889B (zh) 一种异常行为主体的检测方法、装置及服务器
US20170206458A1 (en) Computer-readable recording medium, detection method, and detection apparatus
CN110457704B (zh) 目标字段的确定方法、装置、存储介质及电子装置
CN112364014A (zh) 数据查询方法、装置、服务器及存储介质
CN114722091A (zh) 数据处理方法、装置、存储介质以及处理器
CN111460315B (zh) 社群画像构建方法、装置、设备及存储介质
CN114461644A (zh) 一种数据采集方法、装置、电子设备及存储介质
CN105550253A (zh) 一种类型关系的获取方法及装置
CN113204716A (zh) 可疑洗钱用户交易关系确定方法及装置
CN113313280A (zh) 云平台的巡检方法、电子设备及非易失性存储介质
CN104484391A (zh) 字符串相似度的计算方法和装置
CN116881430A (zh) 一种产业链识别方法、装置、电子设备及可读存储介质
CN114968933A (zh) 数据中心的日志的分类方法和装置
US20230230081A1 (en) Account identification method, apparatus, electronic device and computer readable medium
CN106304084B (zh) 信息处理方法及装置
CN110278565B (zh) 一种基站设计方法及装置
CN110851486A (zh) 数据存储方法及装置
CN113434611A (zh) 一种基于人工智能的销售分类方法及装置
CN111723872B (zh) 行人属性识别方法及装置、存储介质、电子装置
CN114282598A (zh) 多源异构电网数据融合方法、装置、设备及计算机介质
CN106372071A (zh) 数据仓库的信息获取方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination