CN114721861A - 一种基于日志差异化比对的故障定位方法与系统 - Google Patents

一种基于日志差异化比对的故障定位方法与系统 Download PDF

Info

Publication number
CN114721861A
CN114721861A CN202210563123.0A CN202210563123A CN114721861A CN 114721861 A CN114721861 A CN 114721861A CN 202210563123 A CN202210563123 A CN 202210563123A CN 114721861 A CN114721861 A CN 114721861A
Authority
CN
China
Prior art keywords
time interval
log
fault
comparison
occurrence time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210563123.0A
Other languages
English (en)
Other versions
CN114721861B (zh
Inventor
曹立
殷康璘
刘大鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Bishi Technology Co ltd
Original Assignee
Beijing Bishi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Bishi Technology Co ltd filed Critical Beijing Bishi Technology Co ltd
Priority to CN202210563123.0A priority Critical patent/CN114721861B/zh
Publication of CN114721861A publication Critical patent/CN114721861A/zh
Application granted granted Critical
Publication of CN114721861B publication Critical patent/CN114721861B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开一种基于日志差异化比对的故障定位方法和系统,其中所述方法包括:记录故障发生当前时间;以所述故障发生当前时间为基准,设定第一故障发生时间区间,以及与所述第一故障发生时间区间相关第一正常时间区间;分别获取所述第一故障发生时间区间的日志和所述第一正常时间区间日志;对所述第一故障发生时间区间的日志和所述第一正常时间区间日志分别进行结构化日志数据对比和非结构化日志数据对比;输出对比结果。本发明提供有触发式的日志异常检测算法,通过多维度的日志对比,自动准确地找出故障期间表现异常、和故障相关的日志,显著减少运维人员手工筛查海量日志的时间,快速地找到和故障相关的线索,提升故障诊断和根因定位效率。

Description

一种基于日志差异化比对的故障定位方法与系统
技术领域
本发明属于大数据分析与数据挖掘领域,尤其涉及一种基于日志差异化比对的故障定位方法与系统。
背景技术
由于大规模在线服务的复杂性,故障总是不可避免的会发生。服务故障会导师系统无法稳定运行,严重影响用户体验并带来经济损失。因此,及时、准确的故障诊断,定位到故障的根因,从而解决问题、止损故障、恢复系统正常运行是至关重要的。
日志数据是软件系统中的一类重要数据源,详细记录了系统的运行状态和用户行为。当故障发生时,工程师通常会检查故障发生前的相关日志数据,从日志中找到相关故障线索,从而定位到根因。但是由于软件服务的规模较大,系统日志的规模也很庞大,通常每分钟有成千上万条日志产生。想从海量的日志数据中找到故障线索,之前的方式通常为:。
(1)手工检查。在排障过程中,工程师通常采用手工检查的方法,比如通过grep 搜索日志中的一些关键字(如warning, error),但是这种手工方法在实际中效果也不够理想,主要有以下几点原因:1)异常关键字难以枚举;2)由于软件服务存在复杂的拓扑依赖关系,通常满足关键字的日志有很多,因此通过grep筛查之后的异常日志数量仍然很多,肉眼排查工作量很大。
(2)日志异常检测。学术界目前已有较多日志异常检测的工作,旨在实时检测在线日志的异常。但是,流式的异常检测开销很大,面临实际中的海量日志,流式异常检测会消耗大量的系统资源,伴随着经常发生的误报和漏报,所以在实际中效果并不好。
发明内容
本发明要解决的技术问题是面向日志数据的故障诊断与根因定位,旨在系统发生故障时,准确、自动地从海量的日志数据中发现可疑日志表现,为故障诊断和根因定位提供全面的线索。
因此,本发明提供一种基于日志差异化比对的故障定位方法,包括以下步骤:
在系统发生故障时,记录故障发生当前时间;
以所述故障发生当前时间为基准,设定第一故障发生时间区间,以及与所述第一故障发生时间区间相关第一正常时间区间;
分别获取所述第一故障发生时间区间的日志和所述第一正常时间区间日志;
对所述第一故障发生时间区间的日志和所述第一正常时间区间日志分别进行结构化日志数据对比和非结构化日志数据对比;
输出对比结果。
其中,所述以所述故障发生当前时间为基准,设定第一故障发生时间区间,以及与所述第一故障发生时间区间相关第一正常时间区间,包括:
假设故障发生当前时间为t,则所述第一故障发生时间区间为sa=[t-w:t],所述第一正常时间区间为sn=[t-w-p,t-p],其中p>w。
其中,p为24小时,w为1小时。
其中,在所述对所述第一故障发生时间区间的日志和所述第一正常时间区间日志分别进行结构化日志数据对比和非结构化日志数据对比之前,包括:
离线模板学习;
基于学习的模板,将非结构化的日志转换为结构化的模板和变量。
其中,所述非结构化日志数据对比为语义对比。
其中,基于LDA主题模型进行日志的语义对比。
其中,所述结构化日志数据对比包括:
模板数量对比;
关键变量对比;
执行工作流对比。
其中,所述输出对比结果包括:
基于KL散度计算对比结果,并按顺序示出。
其中,若在设定的第一故障发生时间区间内未找到故障根因,则设定第二故障发生时间区间,所述第二故障发生时间区间为与所述第一故障发生时间区间相邻,且粒度相同。
本发明还提出了一种基于日志差异化比对的故障定位系统,其包括:
计时模块,其用于在系统发生故障时,记录故障发生当前时间;
时间定位模块,其用于以所述故障发生当前时间为基准,设定第一故障发生时间区间,以及与所述第一故障发生时间区间相关第一正常时间区间;
日志获取模块,其用于分别获取所述第一故障发生时间区间的日志和所述第一正常时间区间日志;
日志数据对比模块,其用于对所述第一故障发生时间区间的日志和所述第一正常时间区间日志分别进行结构化日志数据对比和非结构化日志数据对比;
结果输出模块,其用于输出对比结果。
与现有技术相比,本发明提供了有触发式的日志异常检测算法,通过多维度的日志对比,可以自动准确地找出故障期间表现异常、和故障相关的日志,显著减少运维人员手工筛查海量日志的时间,快速地找到和故障相关的线索,提升故障诊断和根因定位效率。
附图说明
通过参考附图阅读下文的详细描述,本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本公开的若干实施方式,并且相同或对应的标号表示相同或对应的部分,其中:
图1是示出根据本发明实施例的一种基于日志差异化比对的故障定位方法流程图;
图2(a)示出根据本发明某一实施例的工作流对比中,正常时刻工作流图;
图2(b)示出根据本发明某一实施例的工作流对比中,异常时刻工作流图;以及
图3是示出根据本发明实施例的一种基于日志差异化比对的故障定位系统的示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种。
应当理解,尽管在本发明实施例中可能采用术语第一、第二、第三等来描述……,但这些……不应限于这些术语。这些术语仅用来将……区分开。例如,在不脱离本发明实施例范围的情况下,第一……也可以被称为第二……,类似地,第二……也可以被称为第一……。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者装置中还存在另外的相同要素。
下面结合附图详细说明本发明的可选实施例。
实施例一、
如图1所示,本发明公开了
在系统发生故障时,记录故障发生当前时间;
以所述故障发生当前时间为基准,设定第一故障发生时间区间,以及与所述第一故障发生时间区间相关第一正常时间区间;
分别获取所述第一故障发生时间区间的日志和所述第一正常时间区间日志;
对所述第一故障发生时间区间的日志和所述第一正常时间区间日志分别进行结构化日志数据对比和非结构化日志数据对比;
输出对比结果。
实施例二、
本发明提出了一种基于日志差异化比对的故障定位方法,包括以下步骤:
在系统发生故障时,记录故障发生当前时间;
以所述故障发生当前时间为基准,设定第一故障发生时间区间,以及与所述第一故障发生时间区间相关第一正常时间区间;
分别获取所述第一故障发生时间区间的日志和所述第一正常时间区间日志;
对所述第一故障发生时间区间的日志和所述第一正常时间区间日志分别进行结构化日志数据对比和非结构化日志数据对比;
输出对比结果。
其中,所述以所述故障发生当前时间为基准,设定第一故障发生时间区间,以及与所述第一故障发生时间区间相关第一正常时间区间,包括:
假设故障发生当前时间为t,则所述第一故障发生时间区间为sa=[t-w:t],所述第一正常时间区间为sn=[t-w-p,t-p],其中p>w。
其中,p为24小时,w为1小时。
例如,假设故障发生的时间为t,我们把sa=[t-w:t]这段实际的日志作为故障期间的日志(w设置为1小时),sn=[t-w-p,t-p]作为正常期间的日志(p为周期,通常设置为1天)。直观而言,sa中不同于sn的表现即为故障相关,也是查找故障中需要找到的线索。
基于实际数据分析,和故障相关的异常日志通常有几种表现,例如:模板数量的异常(如模板A在sn中没有出现,但是在sa中出现;模板B在sa中的数量显著多于sn);关键变量异常(如日志变量中的GC耗时在sa中明显大于sn,推测可能是OOM问题);工作流异常(如sn中日志执行顺序是ABC,但sa中任务执行到AB后中断)。
其中,在所述对所述第一故障发生时间区间的日志和所述第一正常时间区间日志分别进行结构化日志数据对比和非结构化日志数据对比之前,包括:
离线模板学习;
基于学习的模板,将非结构化的日志转换为结构化的模板和变量。
日志通常是非结构化的文本,为了后续算法方便处理,需要先采用模板提取算法学习到日志的模板,将非结构化的日志转换成结构化的模板和变量。通常,采用Drain算法做模板提取,Drain也是目前学术界表现最好的模板提取算法,已经在多个公开数据集上个得到了验证。
首先通过足量的历史日志学习到准确的模板,基于学习到的模板,在故障发生的时候,为非结构化日志匹配到对应的模板。由于模板学习是离线完成的,而模板匹配的时间复杂度可以忽略不计,因此,这部分的时间开销对故障定位的时效性几乎没有影响。
其中,所述非结构化日志数据对比为语义对比。
其中,基于LDA主题模型进行日志的语义对比。
通常,可以从日志语义层面抽象地对窗口内的日志进行信息概括。传统判断两个文档相似性的方法是通过查看两个文档共同出现的单词的多少,如TF-IDF等,这种方法没有考虑到文字背后的语义关联,可能在两个文档共同出现的单词很少甚至没有,但两个文档是相似的。而将LDA主题模型应用到日志数据中,提取出故障期间和正常期间的日志主题,并进行展示对比。从主题及其对应的关键字中,可以推测出系统的大致行为。主题模型的核心思想可以用下面的式子来表示:
Figure 617991DEST_PATH_IMAGE001
其中”文档-词语(doc-word)”矩阵表示每个文档中每个单词的词频,即出现的概率;”主题-词语(topic-word)”矩阵表示每个主题中每个单词的出现概率;”文档-主题(doc-topic)”矩阵表示每个文档中每个主题出现的概率。
给定一系列文档,通过对文档进行分词,计算各个文档中每个单词的词频就可以得到左边”文档-词语”矩阵。主题模型就是通过左边这个矩阵进行训练,学习出右边两个矩阵。
详细来说,一个窗口中的日志数据可以看成是一个文档,LDA的目的则是找到日志数据的主题分布和每一个主题中词的分布。首先给定一个主题数K (K在实际使用中可以根据一致性分数来定义),LDA通过对历史数据的学习,可以建模出每个主题中的词分布,之后再应用到我们对比的时间窗口中,即可得到这个窗口中的主题分布。比如,下面展示了K=4的情况下,一个窗口(文档)的主题分布,括号里代表这个文档属于该主题的概率。例如:
Topic1(0.34): PacketResponder block terminating, …
Topic2 (0.26) : Receving, block, dest, src, …
Topic3 (0.21) : updated, added, size, namesystem, addStoredBlock, …
Topic4 (0.19): Verification, succeeded, for block, …
其中,所述结构化日志数据对比包括:
模板数量对比;
关键变量对比;
执行工作流对比。
(1)日志模板数量对比
模板的数量是可枚举的,因此我们可以采用直方图的形式对比故障期间和正常期间模板数量。特别地,我们把数量差异明显的模板和新增的模板高亮显示,作为异常模式提示给运维人员
(2)关键变量对比
变量通常是连续型数值,因此我们采用变量分布对比的方式来检查故障期间和正常期间变量的差异情况。特别地,我们可以采用KL散度来对比两组变量的分布差异,对于差异较大的高亮提示。
Figure 646252DEST_PATH_IMAGE002
(3)执行工作流对比
执行工作流通常刻画了任务的执行顺序,如果故障期间的执行工作流表现和正常期间不一样(如任务执行中断或者分叉到别的路径),则很有可能与故障相关。在本发明中,我们采用不变量挖掘算法从日志中挖掘执行工作流。不变量挖掘的核心思路是通过模板之间的数量关系构建工作流图,比如n(模板A)=n(模板B)+n(模板C), n()表示数量,则可以推测出工作流是A->B/C。如下式中,n(T1)+n(T2)=n(T3)=n(T4)=n(T5)+n(T6)。
因此,我们可以对正常期间和故障期间窗口内的日志分别用算法挖掘出工作流图,然后对两张图做对比,找出丢失的边和新增的边,即为工作流异常。如图2(a)和2(b)所示,异常时刻的工作流图缺少了T4->T5这条边,表明这段路径的任务执行失败。
其中,所述输出对比结果包括:
基于KL散度计算对比结果,并按顺序示出。
其中,若在设定的第一故障发生时间区间内未找到故障根因,则设定第二故障发生时间区间,所述第二故障发生时间区间为与所述第一故障发生时间区间相邻,且粒度相同。
在某一实施例中,对比结果的输出,通常对模板数量而言,日志模板的数量也是一种离散分布,假设窗口中有x种模板,第i种模板有n(x_i)条,日志总数为n条,因此,从频率角度来看,p(x_i)=n(x_i)/n。所以两个窗口模板数量的difference score可以转换为模板分布的距离,用KL散度来计算。
变量对比:如前所述,用KL散度来刻画变量距离。
工作流对比:直观地,图可以用邻接矩阵来表示,因此图之间的差异性可以用邻接矩阵的距离来度量。直接用欧式距离来计算两个矩阵之间的距离即可作为differencescore。
语义对比:如前所述,对于每个窗口,都可以提取出属于K个主题的概率。因此两个日志窗口的语义差异性可以用着两个窗口的主题概率分布距离来度量,我们采用KL散度来计算分布距离。
最终,我们可以difference score的大小进行排序,展示我们最终的对比结果,从而帮助运维人员快速定位出故障期间日志的异常模式,提高故障诊断和根因定位的效率。
实施例三、
如图3所示,本发明还提出了一种基于日志差异化比对的故障定位系统,其包括:
计时模块,其用于在系统发生故障时,记录故障发生当前时间;
时间定位模块,其用于以所述故障发生当前时间为基准,设定第一故障发生时间区间,以及与所述第一故障发生时间区间相关第一正常时间区间;
日志获取模块,其用于分别获取所述第一故障发生时间区间的日志和所述第一正常时间区间日志;
日志数据对比模块,其用于对所述第一故障发生时间区间的日志和所述第一正常时间区间日志分别进行结构化日志数据对比和非结构化日志数据对比;
结果输出模块,其用于输出对比结果。
所述系统还包括:
离线模板学习模块,其用于离线模板学习;
日志转换模块,其用于基于学习的模板,将非结构化的日志转换为结构化的模板和变量。
所述日志数据对比模块包括:
结构化日志数据对比子模块,其用于结构化日志数据的对比。
非结构化日志数据对比子模块,其用于语义对比。
其中,所述非结构化日志数据对比为语义对比。
其中,基于LDA主题模型进行日志的语义对比。
其中,所述结构化日志数据对比模块包括:
模板数量对比单元,其用于模板数量对比;
关键变量对比单元,其用于关键变量对比;
执行工作流对比单元,其用于执行工作流对比。
实施例四、
本公开实施例提供了一种非易失性计算机存储介质,所述计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行如上实施例所述的方法步骤。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(AN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定。
以上介绍了本发明的较佳实施方式,旨在使得本发明的精神更加清楚和便于理解,并不是为了限制本发明,凡在本发明的精神和原则之内,所做的修改、替换、改进,均应包含在本发明所附的权利要求概括的保护范围之内。

Claims (10)

1.一种基于日志差异化比对的故障定位方法,包括以下步骤:
在系统发生故障时,记录故障发生当前时间;
以所述故障发生当前时间为基准,设定第一故障发生时间区间,以及与所述第一故障发生时间区间相关第一正常时间区间;
分别获取所述第一故障发生时间区间的日志和所述第一正常时间区间日志;
对所述第一故障发生时间区间的日志和所述第一正常时间区间日志分别进行结构化日志数据对比和非结构化日志数据对比;
输出对比结果。
2.如权利要求1所述方法,其中所述以所述故障发生当前时间为基准,设定第一故障发生时间区间,以及与所述第一故障发生时间区间相关第一正常时间区间,包括:
假设故障发生当前时间为t,则所述第一故障发生时间区间为sa=[t-w:t],所述第一正常时间区间为sn=[t-w-p,t-p],其中p>w。
3.如权利要求2所述方法,其中p为24小时,w为1小时。
4.如权利要求1所述方法,其中在所述对所述第一故障发生时间区间的日志和所述第一正常时间区间日志分别进行结构化日志数据对比和非结构化日志数据对比之前,包括:
离线模板学习;
基于学习的模板,将非结构化的日志转换为结构化的模板和变量。
5.如权利要求1所述方法,其中所述非结构化日志数据对比为语义对比。
6.如权利要求5所述方法,其中基于LDA主题模型进行日志的语义对比。
7.如权利要求4所述方法,其中所述结构化日志数据对比包括:
模板数量对比;
关键变量对比;
执行工作流对比。
8.如权利要求1所述方法,其中所述输出对比结果包括:
基于KL散度计算对比结果,并按顺序示出。
9.如权利要求8所述方法,其中若在设定的第一故障发生时间区间内未找到故障根因,则设定第二故障发生时间区间,所述第二故障发生时间区间为与所述第一故障发生时间区间相邻,且粒度相同。
10.一种基于日志差异化比对的故障定位系统,其包括:
计时模块,其用于在系统发生故障时,记录故障发生当前时间;
时间定位模块,其用于以所述故障发生当前时间为基准,设定第一故障发生时间区间,以及与所述第一故障发生时间区间相关第一正常时间区间;
日志获取模块,其用于分别获取所述第一故障发生时间区间的日志和所述第一正常时间区间日志;
日志数据对比模块,其用于对所述第一故障发生时间区间的日志和所述第一正常时间区间日志分别进行结构化日志数据对比和非结构化日志数据对比;
结果输出模块,其用于输出对比结果。
CN202210563123.0A 2022-05-23 2022-05-23 一种基于日志差异化比对的故障定位方法与系统 Active CN114721861B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210563123.0A CN114721861B (zh) 2022-05-23 2022-05-23 一种基于日志差异化比对的故障定位方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210563123.0A CN114721861B (zh) 2022-05-23 2022-05-23 一种基于日志差异化比对的故障定位方法与系统

Publications (2)

Publication Number Publication Date
CN114721861A true CN114721861A (zh) 2022-07-08
CN114721861B CN114721861B (zh) 2022-10-04

Family

ID=82231669

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210563123.0A Active CN114721861B (zh) 2022-05-23 2022-05-23 一种基于日志差异化比对的故障定位方法与系统

Country Status (1)

Country Link
CN (1) CN114721861B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170083390A1 (en) * 2015-09-17 2017-03-23 Netapp, Inc. Server fault analysis system using event logs
CN107872353A (zh) * 2017-12-27 2018-04-03 北京奇艺世纪科技有限公司 一种故障定位方法及装置
CN108509793A (zh) * 2018-04-08 2018-09-07 北京明朝万达科技股份有限公司 一种基于用户行为日志数据的用户异常行为检测方法及装置
CN108880847A (zh) * 2017-05-16 2018-11-23 北京微影时代科技有限公司 一种定位故障的方法及装置
CN109347688A (zh) * 2018-11-26 2019-02-15 锐捷网络股份有限公司 一种在无线局域网中定位故障的方法和装置
CN110224850A (zh) * 2019-04-19 2019-09-10 北京亿阳信通科技有限公司 电信网络故障预警方法、装置及终端设备
CN110719199A (zh) * 2019-09-30 2020-01-21 深圳市元征科技股份有限公司 一种网络自动测试及故障定位方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170083390A1 (en) * 2015-09-17 2017-03-23 Netapp, Inc. Server fault analysis system using event logs
CN108880847A (zh) * 2017-05-16 2018-11-23 北京微影时代科技有限公司 一种定位故障的方法及装置
CN107872353A (zh) * 2017-12-27 2018-04-03 北京奇艺世纪科技有限公司 一种故障定位方法及装置
CN108509793A (zh) * 2018-04-08 2018-09-07 北京明朝万达科技股份有限公司 一种基于用户行为日志数据的用户异常行为检测方法及装置
CN109347688A (zh) * 2018-11-26 2019-02-15 锐捷网络股份有限公司 一种在无线局域网中定位故障的方法和装置
CN110224850A (zh) * 2019-04-19 2019-09-10 北京亿阳信通科技有限公司 电信网络故障预警方法、装置及终端设备
CN110719199A (zh) * 2019-09-30 2020-01-21 深圳市元征科技股份有限公司 一种网络自动测试及故障定位方法及装置

Also Published As

Publication number Publication date
CN114721861B (zh) 2022-10-04

Similar Documents

Publication Publication Date Title
CN113282461B (zh) 传输网的告警识别方法和装置
CN108256074B (zh) 校验处理的方法、装置、电子设备和存储介质
CN111435366A (zh) 设备故障诊断方法、装置和电子设备
CN103761173A (zh) 一种基于日志的计算机系统故障诊断方法及装置
US10628250B2 (en) Search for information related to an incident
CN113391943B (zh) 一种基于因果推断的微服务故障根因定位方法及装置
US20200204428A1 (en) System and method of automated fault correction in a network environment
CN114785666B (zh) 一种网络故障排查方法与系统
CN111190804A (zh) 一种云原生系统的多层次的深度学习日志故障检测方法
CN112445775B (zh) 一种光刻机的故障分析方法、装置、设备和存储介质
CN109669844A (zh) 设备故障处理方法、装置、设备和存储介质
CN113064873B (zh) 一种高召回率的日志异常检测方法
CN109284331B (zh) 基于业务数据资源的制证信息获取方法、终端设备及介质
CN115455429A (zh) 基于大数据的漏洞分析方法及系统
CN115514627A (zh) 一种故障根因定位方法、装置、电子设备及可读存储介质
CN113065580B (zh) 一种基于多信息融合的电厂设备管理方法及系统
CN114647558A (zh) 一种日志异常检测的方法和装置
CN117251559B (zh) 基于自然语言大模型的工程标准规范获取方法及系统
EP4071616A1 (en) Method for generating topology diagram, anomaly detection method, device, apparatus, and storage medium
CN114721861B (zh) 一种基于日志差异化比对的故障定位方法与系统
CN112948215A (zh) 基于分布式数据库日志数据的实时异常检测方法及系统
US20170242932A1 (en) Theft detection via adaptive lexical similarity analysis of social media data streams
CN115757062A (zh) 一种基于句嵌入以及Transformer-XL的日志异常检测方法
CN115495587A (zh) 一种基于知识图谱的告警分析方法及装置
CN114881112A (zh) 一种系统异常检测方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant