CN111930701A - 日志结构化处理方法及装置 - Google Patents

日志结构化处理方法及装置 Download PDF

Info

Publication number
CN111930701A
CN111930701A CN202010810640.4A CN202010810640A CN111930701A CN 111930701 A CN111930701 A CN 111930701A CN 202010810640 A CN202010810640 A CN 202010810640A CN 111930701 A CN111930701 A CN 111930701A
Authority
CN
China
Prior art keywords
log
original
similar
mode
original log
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010810640.4A
Other languages
English (en)
Other versions
CN111930701B (zh
Inventor
崔林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
ICBC Technology Co Ltd
Original Assignee
ICBC Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ICBC Technology Co Ltd filed Critical ICBC Technology Co Ltd
Priority to CN202010810640.4A priority Critical patent/CN111930701B/zh
Publication of CN111930701A publication Critical patent/CN111930701A/zh
Application granted granted Critical
Publication of CN111930701B publication Critical patent/CN111930701B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种日志结构化处理方法及装置,可用于金融领域或其他领域,该方法包括:查找原始日志对应的第一相似日志模式;根据最大公共单词串分别将所述原始日志和所述第一相似日志模式转化成同样数量个token;根据转化结果分别对所述原始日志和所述第一相似日志模式进行数值化处理;计算所述原始日志与所述第一相似日志模式的相似度;若所述相似度大于预设阈值,则确定所述第一相似日志模式为所述原始日志对应的第二相似日志模式;确定所述原始日志与所述第二相似日志模式之间token不相同的位置,并在所述原始日志中采用预设的标识替换所述不相同的位置处的token。本发明实现了自动对日志进行结构化处理。

Description

日志结构化处理方法及装置
技术领域
本发明涉及日志处理技术领域,具体而言,涉及一种日志结构化处理方法及装置。
背景技术
日志作为记录系统运行时的重要信息,广泛用于服务人员和技术人员确定系统的可用性、正确性、稳定性等。现有技术在自动化运维中,将原有分散在各机器管理的日志进行集中式管理,专家通过定义正则表达式的方式对日志进行结构化处理并获取日志中的关键信息,以进行监控告警。这虽然解决了绝大部分日志监控的需求,但随着日志量的逐渐增大、分布式系统的使用、以及多系统间调用产生的不可预知的日志的增多,导致通过单一领域专家定义正则的方式已经逐渐无法满足现有日志监控的运维场景,同时一般日志运维中运维专家与应用开发人员非同一批人,所以很多日志监控规则无法由运维专家单独设置,这将导致日志运维监控指标不全,增加日志监控的难度。所以现有技术急需一种新型的不强依赖于专家设置正则表达式的日志结构化处理方法。
发明内容
本发明为了解决上述背景技术中的技术问题,提出了一种日志结构化处理方法及装置。
为了实现上述目的,根据本发明的一个方面,提供了一种日志结构化处理方法,该方法包括:
获取原始日志,并通过分别统计所述原始日志与已有的各日志模式之间相同单词的数量查找所述原始日志对应的第一相似日志模式;
根据所述原始日志与所述第一相似日志模式的最大公共单词串分别将所述原始日志和所述第一相似日志模式转化成同样数量个token;
根据转化结果分别对所述原始日志和所述第一相似日志模式进行数值化处理;
根据数值化处理结果计算所述原始日志与所述第一相似日志模式的相似度;
若所述相似度大于预设阈值,则确定所述第一相似日志模式为所述原始日志对应的第二相似日志模式;
确定所述原始日志与所述第二相似日志模式之间token不相同的位置,并在所述原始日志中采用预设的标识替换所述不相同的位置处的token。
可选的,该日志结构化处理方法,还包括:
分别对所述原始日志、采用所述预设的标识替换所述不相同的位置处的token后的所述原始日志以及所述原始日志中所述不相同的位置处的原单词以MAPPING结构进行存储。
可选的,该日志结构化处理方法,还包括:
在所述第二相似日志模式中采用所述预设的标识替换所述不相同的位置处的token,以对所述第二相似日志模式进行更新。
可选的,所述通过分别统计所述原始日志与已有的各日志模式之间相同单词的数量查找所述原始日志对应的第一相似日志模式,包括:
若已有的日志模式中存在与所述原始日志长度相同的日志模式,通过将相同位置处的单词进行对比得到所述原始日志与所述长度相同的日志模式之间相同单词的数量;
若所述相同单词的数量占所述原始日志的单词总量的比例大于预设的第一比例,则确定所述长度相同的日志模式为所述第一相似日志模式。
可选的,所述通过分别统计所述原始日志与已有的各日志模式之间相同单词的数量确定所述原始日志对应的第一相似日志模式,还包括:
若已有的日志模式中不存在与所述原始日志长度相同的日志模式,则分别提取所述原始日志与已有的各日志模式的最大公共单词串;
若所述原始日志与某个日志模式的最大公共单词串中的单词数量占所述原始日志的单词总量和该日志模式的单词总量两者中较小者的比例大于预设的第二比例,则确定该日志模式为所述第一相似日志模式。
可选的,所述根据所述原始日志与所述第一相似日志模式的最大公共单词串分别将所述原始日志和所述第一相似日志模式转化成同样数量个token,包括:
将所述最大公共单词串中的每个单词分别作为一个token;
将所述原始日志和所述第一相似日志模式中的夹在所述最大公共单词串中相邻两个单词之间的所有单词作为一个token。
可选的,该日志结构化处理方法,还包括:
若无法查找到所述原始日志对应的第一相似日志模式,则将所述原始日志确定为一个新的日志模式。
可选的,该日志结构化处理方法,还包括:
若所述原始日志与多个所述第一相似日志模式的相似度均大于所述预设阈值,则确定多个所述第一相似日志模式中长度最短的第一相似日志模式为所述原始日志对应的第二相似日志模式。
可选的,所述根据转化结果分别对所述原始日志和所述第一相似日志模式进行数值化处理,包括:
将token中包含的单词的字母数量作为该token对应的数值。
为了实现上述目的,根据本发明的另一方面,提供了一种日志结构化处理装置,该装置包括:
第一相似日志模式查找单元,用于获取原始日志并通过分别统计所述原始日志与已有的各日志模式之间相同单词的数量查找所述原始日志对应的第一相似日志模式;
转化单元,用于根据所述原始日志与所述第一相似日志模式的最大公共单词串分别将所述原始日志和所述第一相似日志模式转化成同样数量个token;
数值化处理单元,用于根据转化结果分别对所述原始日志和所述第一相似日志模式进行数值化处理;
相似度计算单元,用于根据数值化处理结果计算所述原始日志与所述第一相似日志模式的相似度;
第二相似日志模式确定单元,用于在所述相似度大于预设阈值时,确定所述第一相似日志模式为所述原始日志对应的第二相似日志模式;
标识替换单元,用于确定所述原始日志与所述第二相似日志模式之间token不相同的位置,并在所述原始日志中采用预设的标识替换所述不相同的位置处的token。
为了实现上述目的,根据本发明的另一方面,还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述日志结构化处理方法中的步骤。
为了实现上述目的,根据本发明的另一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序在计算机处理器中执行时实现上述日志结构化处理方法中的步骤。
本发明的有益效果为:本发明提供一种自动进行的日志结构化处理方法,与传统通过正则表达式对日志进行结构的方式对比来说,能够更加全面的对系统中所有日志进行结构化处理,能够有效减少人工介入,降低专业壁垒,降低人工操作复杂度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1是本发明实施例日志结构化处理方法的流程图;
图2是本发明实施例查找第一相似日志模式的第一流程图;
图3是本发明实施例查找第一相似日志模式的第二流程图;
图4是本发明实施例确定token的流程图;
图5是本发明实施例日志结构化处理装置的结构框图;
图6是本发明实施例日志结构化处理系统示意图;
图7是本发明实施例计算机设备示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,本发明的日志结构化处理方法及装置可用于金融领域,也可用于除金融领域之外的任意领域,本发明的日志结构化处理方法及装置的应用领域不做限定。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
下面对本发明权利要求书和说明书中的部分术语进行解释。
日志:日志是由程序输出,包含程序运行过程中的核心状态信息的文本文件,日志帮助我们了解程序后端正在发生的各种事务,其内容通常为非结构化文本串。
史密斯-沃特曼算法:Smith-Waterman算法是一种进行局部序列对比的算法,该算法的目的不是进行全序列的比对,而是找出两个序列中具有高相似度的片段。
Drains算法:An Online Log Parsing Approach with Fixed Depth Tree算法是根据日志的长度、开始字段、最大相似度等特征,进行的日志聚类分析。通过生成聚类层次树,保留日志的基本特征,以加快日志聚类速度的日志结构化算法。
正则表达式:又称规则表达式,通常用来检索、替换某些符合某种模式的文本。
日志聚类:按照所有日志按照相似度片段的大小,聚集成多种类型集合的过程称为日志聚类。
日志流式处理:按照日志数据出现的时间顺序依次处理日志结构化的过程叫做日志流式处理。
日志结构化:日志本身是无结构化的文本串,需要进行结构化处理提取出文本串中存在的变量部分和固定部分。同时给变量部分赋予一个变量名称,形成MAPPING结构中的K-VALUE对,并存入ES中。对于剩余部分,则通过日志聚类函数进行日志聚类处理,生成日志模式。整个过程称为日志结构化
日志模式:日志经过聚类处理以后的日志模型,其中日志中固定的部分不做变换,仍然以原有单词表示,变量部分以*表示(例如附录中原始日志以及日志模式)。
最大公共单词串:表示两行日志原始文件中,共有的单词生成的列表集合
Token:日志原始文件中每个单词表示一个token,同时多个单词也可以合并看成是一个token。
日志模式树:将日志模式存放成树状结构,根节点为开始节点。从根节点出发,第一层子节点存放日志模式的token长度。第二层子节点存放日志模式的第一个单词。第三层子节点存放日志模式的第二个单词,以此类推,直到存满所有的日志模式。
ES:Elasticsearch是一个基于Lucene的搜索服务器。它提供一个分布式多用户能力的全文搜索引擎,基于Restful接口方式。用于日志存储的分布式存储工具,他以KEY-VALUE形式保存数据。
MAPPING结构:原始日志部分记录的是原始日志抽取出的变量名称和变量值的KEY-VALUE结构。模型模块中定义的是已有的日志模式中变量部分的位置信息和变量名称信息的key-value对。
图1是本发明实施例日志结构化处理方法的流程图,如图1所示,在本发明实施例中,本发明的日志结构化处理方法包括步骤S101至步骤S106。
步骤S101,获取原始日志,并通过分别统计所述原始日志与已有的各日志模式之间相同单词的数量查找所述原始日志对应的第一相似日志模式。
在本发明实施例中,通过预设的转发模块将来自系统的流式日志数据输入到预设的数据预处理模块。数据预处理模块根据预先定义的日志输出规范,将日志头部分和日志主体部分进行分离,其中,日志主体部分即为原始日志。
在本发明实施例中,已有的日志模式存储在预设的模型模块中,本步骤根据相同单词的数量查找原始日志对应的所有第一相似日志模式,查找出的所有第一相似日志模式的数量可以为0个、1个或多个。
在本发明实施例中,日志模式包含固定部分和变量部分,其中,变量部分通常用预设的标识来表示,例如用星号*表示。在确定原始日志与日志模式的相同单词时,预设的标识可以认为为万用词,即可以认为与任意单词相同。
在本发明一实施例中,若无法查找到所述原始日志对应的第一相似日志模式,则将原始日志确定为一个新的日志模式,并添加到模型模块中。
在本发明一实施例中,若不存在已有的日志模式,则将原始日志确定为一个新的日志模式,并添加到模型模块中。
步骤S102,根据所述原始日志与所述第一相似日志模式的最大公共单词串分别将所述原始日志和所述第一相似日志模式转化成同样数量个token。
在本发明一实施例中,在上述步骤S102之前先使用史密斯-沃特曼算法提取所述原始日志与所述第一相似日志模式的最大公共单词串。
在本发明实施例中,将原始日志和所述第一相似日志模式转化成同样数量个token,具体的可以将所述最大公共单词串中的每个单词分别作为一个token,此外将所述原始日志和所述第一相似日志模式中的夹在所述最大公共单词串中相邻两个单词之间的所有单词作为一个token。
步骤S103,根据转化结果分别对所述原始日志和所述第一相似日志模式进行数值化处理。
在本发明实施例中,本步骤通过确定每个token对应的数值,以对所述原始日志和所述第一相似日志模式进行数值化处理。
在本发明一实施例中,本步骤的数值化处理可以通过将token中包含的单词的字母数量作为该token对应的数值,实现对各token的数值化处理。
步骤S104,根据数值化处理结果计算所述原始日志与所述第一相似日志模式的相似度。
在本发明实施例中,本步骤根据原始日志的数值化处理结果以及第一相似日志模式的数值化处理结果计算原始日志与第一相似日志模式之间的相似程度。具体的,可以采用余弦相似度算法进行相似度计算。
步骤S105,若所述相似度大于预设阈值,则确定所述第一相似日志模式为所述原始日志对应的第二相似日志模式;
在本发明实施例中,若相似度大于预设阈值说明该第一相似日志模式为原始日志对应的日志模式,也可以说原始日志与该第一相似日志模式为同样的日志模式,因此确定该第一相似日志模式为第二相似日志模式。在本发明实施例中,第二相似日志模式为与原始日志相同的日志模式。
在本发明一实施例中,若所述原始日志与多个所述第一相似日志模式的相似度均大于所述预设阈值,则确定多个所述第一相似日志模式中长度最短的第一相似日志模式为所述原始日志对应的第二相似日志模式。
在本发明一实施例中,若不存在所述相似度大于预设阈值的第一相似日志模式,则将原始日志确定为一个新的日志模式,添加到模型模块中。
步骤S106,确定所述原始日志与所述第二相似日志模式之间token不相同的位置,并在所述原始日志中采用预设的标识替换所述不相同的位置处的token。
在本发明实施例中,本步骤用预设的标识替换所述不相同的位置处的token将原始日志划分为变量部分和固定部分,变量部分为所述不相同的位置处的token,已用预设的标识来表示,固定部分为除去所述不相同的位置的token外的其他部分
在本发明一个实施例中,在步骤S106中,本发明还在所述第二相似日志模式中采用所述预设的标识替换所述不相同的位置处的token,以对所述第二相似日志模式进行更新。
在本发明可选实施例中,上述预设的标识可以为*(星号)。
在本发明实施例中,本发明在所述原始日志中以及所述第二相似日志模式中采用预设的标识替换所述不相同的位置处的token,使所述原始日志与所述第二相似日志模式进行对应,后续读取该采用所述预设的标识替换所述不相同的位置处的token后的所述原始日志时就可以直接确定该原始日志对应的日志模式。
在本发明一个实施例中,在步骤S106中,本发明还分别对所述原始日志、采用所述预设的标识“*”替换所述不相同的位置处的token后的所述原始日志以及所述原始日志中所述不相同的位置处的原单词以MAPPING结构进行存储。具体的,将上述三者分别存储到MAPPING结构中作为value值,并确定value值对应的key值形成key-value对,最后将MAPPING结构中的key值定义作为key-value字段存入ES中。
由以上描述可以看出,本发明提供一种自动进行的日志结构化处理方法,与传统通过正则表达式对日志进行结构的方式对比来说,能够更加全面的对系统中所有日志进行结构化处理,能够有效减少人工介入,降低专业壁垒,降低人工操作复杂度。
图2是本发明实施例查找第一相似日志模式的第一流程图,如图2所示,在本发明一实施例中,上述步骤S101的通过分别统计所述原始日志与已有的各日志模式之间相同单词的数量查找所述原始日志对应的第一相似日志模式,具体包括步骤S201和步骤S202。
步骤S201,若已有的日志模式中存在与所述原始日志长度相同的日志模式,通过将相同位置处的单词处的单词进行对比得到所述原始日志与所述长度相同的日志模式之间相同单词的数量。
在本发明实施例中,日志模式与原始日志长度相同表示,日志模式与原始日志中单词数量相等,由于日志模式中某些单词(变量)已经用“*”替换,因此每个*看作一个单词。
在本发明一实施例中,日志模式可以采用日志模式树的形式,在进行各位置处的单词对比时,可以从头开始比较,并对比第一个单词是否一致,如果一致则对比第二个,对比完所有的单词。
步骤S202,若所述相同单词的数量占所述原始日志的单词总量的比例大于预设的第一比例,则确定所述长度相同的日志模式为所述第一相似日志模式。
在本发明可选实施例中,第一比例可以为百分之五十。
在本发明实施例中,在确定出原始日志对应的第一相似日志模式后,使用史密斯-沃特曼提取出原始日志与第一相似日志模式的最大公共单词串。
图3是本发明实施例查找第一相似日志模式的第二流程图,如图3所示,在本发明一实施例中,上述步骤S101的通过分别统计所述原始日志与已有的各日志模式之间相同单词的数量查找所述原始日志对应的第一相似日志模式,具体还包括步骤S301和步骤S302。
步骤S301,若已有的日志模式中不存在与所述原始日志长度相同的日志模式,则分别提取所述原始日志与已有的各日志模式的最大公共单词串。
步骤S302,若所述原始日志与某个日志模式的最大公共单词串中的单词数量占所述原始日志的单词总量和该日志模式的单词总量两者中较小者的比例大于预设的第二比例,则确定该日志模式为所述第一相似日志模式。
在本发明可选实施例中,第二比例可以为百分之五十。
图4是本发明实施例确定token的流程图,如图4所示,在本发明一实施例中,上述步骤S102的根据所述原始日志与所述第一相似日志模式的最大公共单词串分别将所述原始日志和所述第一相似日志模式转化成同样数量个token,具体包括步骤S401和步骤S402。
步骤S401,将所述最大公共单词串中的每个单词分别作为一个token。
步骤S402,将所述原始日志和所述第一相似日志模式中的夹在所述最大公共单词串中相邻两个单词之间的所有单词作为一个token。
在本发明一实施例中,还提供了一种日志结构化处理系统示意图,如图6所述,该日志结构化处理系统包括:
ES存储库,用于存储结构化日志和原始日志。
转发模块,用于接收原始日志并交由数据预处理模块进行处理。
数据预处理模块,用于切割日志头部分和日志正文部分。
结构化处理模块,基于算法对日志进行结构化处理,用于实现本发明的上述日志结构化处理方法。
模型模块,用于保存日志模式以及日志模式的命名规范。
结构调整模块,用于更新MAPPING结构中的KEY值。
由以上实施例可以看出,本发明是基于算法的日志结构化处理方法,与传统通过正则表达式对日志进行结构的方式对比来说,能够更加全面的对系统中所有日志进行结构化处理,能够有效减少人工介入,降低专业壁垒,降低人工操作复杂度。同时基于改进的史密斯-沃特曼距离算法,实现日志间多片段距离计算的功能,解决单一依靠最长日志共享片段造成日志间距离增大而导致的日志无法聚集的情况。使用改进的Drains算法,通过设置专家阈值以及模型动态调整的方式,实现日志结构化的流式快速处理。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
基于同一发明构思,本发明实施例还提供了一种日志结构化处理装置,可以用于实现上述实施例所描述的日志结构化处理方法,如下面的实施例所述。由于日志结构化处理装置解决问题的原理与日志结构化处理方法相似,因此日志结构化处理装置的实施例可以参见日志结构化处理方法的实施例,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图5是本发明实施例日志结构化处理装置的结构框图,如图5所示,在本发明一实施例中,本发明实施例日志结构化处理装置包括:
第一相似日志模式查找单元1,用于获取原始日志并通过分别统计所述原始日志与已有的各日志模式之间相同单词的数量查找所述原始日志对应的第一相似日志模式;
转化单元2,用于根据所述原始日志与所述第一相似日志模式的最大公共单词串分别将所述原始日志和所述第一相似日志模式转化成同样数量个token;
数值化处理单元3,用于根据转化结果分别对所述原始日志和所述第一相似日志模式进行数值化处理;
相似度计算单元4,用于根据数值化处理结果计算所述原始日志与所述第一相似日志模式的相似度;
第二相似日志模式确定单元5,用于在所述相似度大于预设阈值时,确定所述第一相似日志模式为所述原始日志对应的第二相似日志模式;
标识替换单元6,用于确定所述原始日志与所述第二相似日志模式之间token不相同的位置,并在所述原始日志中采用预设的标识替换所述不相同的位置处的token。
在本发明一实施例中,本发明的日志结构化处理装置,还包括:
储存单元,用于分别对所述原始日志、采用所述预设的标识替换所述不相同的位置处的token后的所述原始日志以及所述原始日志中所述不相同的位置处的原单词以MAPPING结构进行存储。
在本发明一实施例中,本发明的日志结构化处理装置,还包括:
更新单元,用于在所述第二相似日志模式中采用所述预设的标识替换所述不相同的位置处的token,以对所述第二相似日志模式进行更新。
在本发明一实施例中,所述第一相似日志模式查找单元1包括:
对比模块,用于若已有的日志模式中存在与所述原始日志长度相同的日志模式,通过将相同位置处的单词进行对比得到所述原始日志与所述长度相同的日志模式之间相同单词的数量;
第一确定模块,用于若所述相同单词的数量占所述原始日志的单词总量的比例大于预设的第一比例,则确定所述长度相同的日志模式为所述第一相似日志模式。
在本发明一实施例中,所述第一相似日志模式查找单元1还包括:
最大公共单词串提取模块,用于若已有的日志模式中不存在与所述原始日志长度相同的日志模式,则分别提取所述原始日志与已有的各日志模式的最大公共单词串;
第二确定模块,用于若所述原始日志与某个日志模式的最大公共单词串中的单词数量占所述原始日志的单词总量和该日志模式的单词总量两者中较小者的比例大于预设的第二比例,则确定该日志模式为所述第一相似日志模式。
为了实现上述目的,根据本申请的另一方面,还提供了一种计算机设备。如图7所示,该计算机设备包括存储器、处理器、通信接口以及通信总线,在存储器上存储有可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述实施例方法中的步骤。
处理器可以为中央处理器(Central Processing Unit,CPU)。处理器还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及单元,如本发明上述方法实施例中对应的程序单元。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及作品数据处理,即实现上述方法实施例中的方法。
存储器可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
所述一个或者多个单元存储在所述存储器中,当被所述处理器执行时,执行上述实施例中的方法。
上述计算机设备具体细节可以对应参阅上述实施例中对应的相关描述和效果进行理解,此处不再赘述。
为了实现上述目的,根据本申请的另一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序在计算机处理器中执行时实现上述日志结构化处理方法中的步骤。本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(RandomAccessMemory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (13)

1.一种日志结构化处理方法,其特征在于,包括:
获取原始日志,并通过分别统计所述原始日志与已有的各日志模式之间相同单词的数量查找所述原始日志对应的第一相似日志模式;
根据所述原始日志与所述第一相似日志模式的最大公共单词串分别将所述原始日志和所述第一相似日志模式转化成同样数量个token;
根据转化结果分别对所述原始日志和所述第一相似日志模式进行数值化处理;
根据数值化处理结果计算所述原始日志与所述第一相似日志模式的相似度;
若所述相似度大于预设阈值,则确定所述第一相似日志模式为所述原始日志对应的第二相似日志模式;
确定所述原始日志与所述第二相似日志模式之间token不相同的位置,并在所述原始日志中采用预设的标识替换所述不相同的位置处的token。
2.根据权利要求1所述的日志结构化处理方法,其特征在于,还包括:
分别对所述原始日志、采用所述预设的标识替换所述不相同的位置处的token后的所述原始日志以及所述原始日志中所述不相同的位置处的原单词以MAPPING结构进行存储。
3.根据权利要求1所述的日志结构化处理方法,其特征在于,还包括:
在所述第二相似日志模式中采用所述预设的标识替换所述不相同的位置处的token,以对所述第二相似日志模式进行更新。
4.根据权利要求1所述的日志结构化处理方法,其特征在于,所述通过分别统计所述原始日志与已有的各日志模式之间相同单词的数量查找所述原始日志对应的第一相似日志模式,包括:
若已有的日志模式中存在与所述原始日志长度相同的日志模式,通过将相同位置处的单词进行对比得到所述原始日志与所述长度相同的日志模式之间相同单词的数量;
若所述相同单词的数量占所述原始日志的单词总量的比例大于预设的第一比例,则确定所述长度相同的日志模式为所述第一相似日志模式。
5.根据权利要求4所述的日志结构化处理方法,其特征在于,所述通过分别统计所述原始日志与已有的各日志模式之间相同单词的数量确定所述原始日志对应的第一相似日志模式,还包括:
若已有的日志模式中不存在与所述原始日志长度相同的日志模式,则分别提取所述原始日志与已有的各日志模式的最大公共单词串;
若所述原始日志与某个日志模式的最大公共单词串中的单词数量占所述原始日志的单词总量和该日志模式的单词总量两者中较小者的比例大于预设的第二比例,则确定该日志模式为所述第一相似日志模式。
6.根据权利要求1所述的日志结构化处理方法,其特征在于,所述根据所述原始日志与所述第一相似日志模式的最大公共单词串分别将所述原始日志和所述第一相似日志模式转化成同样数量个token,包括:
将所述最大公共单词串中的每个单词分别作为一个token;
将所述原始日志和所述第一相似日志模式中的夹在所述最大公共单词串中相邻两个单词之间的所有单词作为一个token。
7.根据权利要求1所述的日志结构化处理方法,其特征在于,还包括:
若无法查找到所述原始日志对应的第一相似日志模式,则将所述原始日志确定为一个新的日志模式。
8.根据权利要求1所述的日志结构化处理方法,其特征在于,还包括:
若所述原始日志与多个所述第一相似日志模式的相似度均大于所述预设阈值,则确定多个所述第一相似日志模式中长度最短的第一相似日志模式为所述原始日志对应的第二相似日志模式。
9.根据权利要求1所述的日志结构化处理方法,其特征在于,还包括:
使用史密斯-沃特曼算法提取所述原始日志与所述第一相似日志模式的最大公共单词串。
10.根据权利要求1所述的日志结构化处理方法,其特征在于,所述根据转化结果分别对所述原始日志和所述第一相似日志模式进行数值化处理,包括:
将token中包含的单词的字母数量作为该token对应的数值。
11.一种日志结构化处理装置,其特征在于,包括:
第一相似日志模式查找单元,用于获取原始日志并通过分别统计所述原始日志与已有的各日志模式之间相同单词的数量查找所述原始日志对应的第一相似日志模式;
转化单元,用于根据所述原始日志与所述第一相似日志模式的最大公共单词串分别将所述原始日志和所述第一相似日志模式转化成同样数量个token;
数值化处理单元,用于根据转化结果分别对所述原始日志和所述第一相似日志模式进行数值化处理;
相似度计算单元,用于根据数值化处理结果计算所述原始日志与所述第一相似日志模式的相似度;
第二相似日志模式确定单元,用于在所述相似度大于预设阈值时,确定所述第一相似日志模式为所述原始日志对应的第二相似日志模式;
标识替换单元,用于确定所述原始日志与所述第二相似日志模式之间token不相同的位置,并在所述原始日志中采用预设的标识替换所述不相同的位置处的token。
12.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至10任一项所述的方法。
13.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序在计算机处理器中执行时实现如权利要求1至10任意一项所述的方法。
CN202010810640.4A 2020-08-13 2020-08-13 日志结构化处理方法及装置 Active CN111930701B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010810640.4A CN111930701B (zh) 2020-08-13 2020-08-13 日志结构化处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010810640.4A CN111930701B (zh) 2020-08-13 2020-08-13 日志结构化处理方法及装置

Publications (2)

Publication Number Publication Date
CN111930701A true CN111930701A (zh) 2020-11-13
CN111930701B CN111930701B (zh) 2023-08-18

Family

ID=73311759

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010810640.4A Active CN111930701B (zh) 2020-08-13 2020-08-13 日志结构化处理方法及装置

Country Status (1)

Country Link
CN (1) CN111930701B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112286896A (zh) * 2020-11-19 2021-01-29 北京百家科技集团有限公司 一种日志文件处理方法、装置、计算机设备和存储介质
CN115329748A (zh) * 2022-10-14 2022-11-11 北京优特捷信息技术有限公司 一种日志解析方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101950293A (zh) * 2010-08-11 2011-01-19 东软集团股份有限公司 日志萃取方法及装置
CN106844143A (zh) * 2016-12-27 2017-06-13 微梦创科网络科技(中国)有限公司 一种日志去重处理方法及装置
KR101964412B1 (ko) * 2018-12-12 2019-04-01 주식회사 모비젠 이동통신데이터 처리시스템의 이상로그 발생을 진단하는 방법 및 그 시스템

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101950293A (zh) * 2010-08-11 2011-01-19 东软集团股份有限公司 日志萃取方法及装置
CN106844143A (zh) * 2016-12-27 2017-06-13 微梦创科网络科技(中国)有限公司 一种日志去重处理方法及装置
KR101964412B1 (ko) * 2018-12-12 2019-04-01 주식회사 모비젠 이동통신데이터 처리시스템의 이상로그 발생을 진단하는 방법 및 그 시스템

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112286896A (zh) * 2020-11-19 2021-01-29 北京百家科技集团有限公司 一种日志文件处理方法、装置、计算机设备和存储介质
CN112286896B (zh) * 2020-11-19 2024-02-06 北京百家科技集团有限公司 一种日志文件处理方法、装置、计算机设备和存储介质
CN115329748A (zh) * 2022-10-14 2022-11-11 北京优特捷信息技术有限公司 一种日志解析方法、装置、设备及存储介质
CN115329748B (zh) * 2022-10-14 2023-01-10 北京优特捷信息技术有限公司 一种日志解析方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN111930701B (zh) 2023-08-18

Similar Documents

Publication Publication Date Title
CN111241241B (zh) 基于知识图谱的案件检索方法、装置、设备及存储介质
WO2021068547A1 (zh) 日志模板提取方法及装置
US11461354B2 (en) Systems and methods for data analytics
US20230396633A1 (en) Method and Apparatus for Detecting Security Event, and Computer-Readable Storage Medium
CN112306787B (zh) 报错日志处理方法、装置、电子设备和智能音箱
CN110888981B (zh) 基于标题的文档聚类方法、装置、终端设备及介质
CN111930701B (zh) 日志结构化处理方法及装置
CN112347501A (zh) 数据处理方法、装置、设备及存储介质
CN112906826A (zh) 基于多维度的知识图谱的融合方法、装置及计算机设备
WO2024114655A1 (zh) 一种规则表达式匹配方法、装置及计算机可读存储介质
CN110008419A (zh) 网页去重方法、装置及设备
CN111190873B (zh) 一种用于云原生系统日志训练的日志模式提取方法及系统
CN113128213A (zh) 日志模板提取方法及装置
CN117407505A (zh) 一种融合文档知识和问答对数据的问答检索方法及系统
Fang et al. Quicklogs: A quick log parsing algorithm based on template similarity
CN117251414B (zh) 一种基于异构技术的数据存储及处理方法
CN117763077A (zh) 数据查询方法及装置
CN111522918A (zh) 数据汇聚方法、装置、电子设备及计算机可读存储介质
CN107577690B (zh) 海量信息数据的推荐方法及推荐装置
Emery et al. Full Bitcoin blockchain data made easy
JP5944867B2 (ja) 検索意図辞書作成装置、検索意図辞書作成方法及び検索意図辞書作成プログラム
CN110543622A (zh) 文本相似度检测方法、装置、电子设备及可读存储介质
CN116361517B (zh) 一种企业字号查重方法、装置、设备和介质
CN115563150B (zh) Hive SQL与执行引擎DAG的映射方法、设备及存储介质
US12014169B2 (en) Software recognition using tree-structured pattern matching rules for software asset management

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210122

Address after: 100140, 55, Fuxing Avenue, Xicheng District, Beijing

Applicant after: INDUSTRIAL AND COMMERCIAL BANK OF CHINA

Applicant after: ICBC Technology Co.,Ltd.

Address before: 071700 unit 111, 1st floor, building C, enterprise office area, xiong'an Civic Service Center, Rongcheng County, xiong'an District, Baoding pilot Free Trade Zone, Hebei Province

Applicant before: ICBC Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant