CN110034948B - 排查系统故障的方法和装置 - Google Patents

排查系统故障的方法和装置 Download PDF

Info

Publication number
CN110034948B
CN110034948B CN201910029983.4A CN201910029983A CN110034948B CN 110034948 B CN110034948 B CN 110034948B CN 201910029983 A CN201910029983 A CN 201910029983A CN 110034948 B CN110034948 B CN 110034948B
Authority
CN
China
Prior art keywords
log
matching
application
fault
processing method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910029983.4A
Other languages
English (en)
Other versions
CN110034948A (zh
Inventor
张婷婷
高江
赵文怡
于岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Advanced New Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Advanced New Technologies Co Ltd filed Critical Advanced New Technologies Co Ltd
Priority to CN201910029983.4A priority Critical patent/CN110034948B/zh
Publication of CN110034948A publication Critical patent/CN110034948A/zh
Application granted granted Critical
Publication of CN110034948B publication Critical patent/CN110034948B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/1734Details of monitoring file system events, e.g. by the use of hooks, filter drivers, logs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本说明书实施例提供一种排查系统故障的方法和装置,系统的功能通过多应用间调用实现,方法包括:首先当所述系统的功能出现异常时,获取所述系统的标准化日志;其中,所述标准化日志为按照所述系统的日志标准化匹配模板生成的;然后基于所述标准化日志,查询所述多应用中每个应用的应用日志;再根据所述多应用的调用关系,确定应用日志的匹配顺序;以及利用预先设定的匹配算法,按照所述匹配顺序依次确定每个应用对应的应用日志是否为异常日志,将最后确定出的应用对应的异常日志作为匹配日志;最后基于所述匹配日志,处理系统故障。从而实现故障的自动排查。

Description

排查系统故障的方法和装置
技术领域
本说明书一个或多个实施例涉及计算机领域,尤其涉及排查系统故障的方法和装置。
背景技术
网络设备、系统及服务程序等,在运作时都会产生一个叫日志(log)的事件记录;每一行日志都记载着日期、时间、使用者及动作等相关操作的描述。
系统通常设计有各种各样的日志文件,如应用程序日志,安全日志、系统日志、调度程序(scheduler)服务日志、文件传输协议(file transfer protocol,FTP)日志、万维网(world wide web,WWW)日志、域名系统(domain name system,DNS)服务器日志等等,这些根据系统开启的服务的不同而有所不同。在系统上进行一些操作时,这些日志文件通常会记录下操作的一些相关内容,这些内容对系统安全工作人员相当有用。
后台日志并没有完全标准化,辨识度不高。当系统的功能通过多应用间调用实现时,应用故障人工支持率较多,而且人工支持在排查问题时,需要占用大部分时间去查找异常日志,最终根据异常日志才能定位到某个系统的问题。过程中有2个难点:1.对于系统不熟悉,排查系统问题需要花费大量的时间。2.排查问题的过程中,查找故障的异常日志对人依赖性较大。
因此,希望能有改进的方案,能够实现故障的自动排查。
发明内容
本说明书一个或多个实施例描述了一种排查系统故障的方法和装置,能够实现故障的自动排查。
第一方面,提供了一种排查系统故障的方法,系统的功能通过多应用间调用实现,方法包括:
当所述系统的功能出现异常时,获取所述系统的标准化日志;其中,所述标准化日志为按照所述系统的日志标准化匹配模板生成的;
基于所述标准化日志,查询所述多应用中每个应用的应用日志;
根据所述多应用的调用关系,确定应用日志的匹配顺序;
利用预先设定的匹配算法,按照所述匹配顺序依次确定每个应用对应的应用日志是否为异常日志,将最后确定出的应用对应的异常日志作为匹配日志;
基于所述匹配日志,处理系统故障。
在一种可能的实施方式中,所述标准化日志包含可以反映系统调用情况的参数信息,所述参数信息至少包括调用接口、调用方法、返回参数数据、调用结果数据、唯一追踪号和日志级别。
进一步地,所述调用结果数据,包括:
系统处理码或业务处理码。
进一步地,所述标准化日志包括唯一追踪号;
所述基于所述标准化日志,查询所述多应用中每个应用的应用日志,包括:
基于所述标准化日志中的唯一追踪号,查询所述多应用中每个应用的应用日志。
在一种可能的实施方式中,所述基于所述匹配日志,处理系统故障,包括:
基于所述匹配日志,在预先存储的匹配日志与故障处理方法的对应关系表中查找是否已存在相应的故障处理方法;
当判断出已存在相应的故障处理方法时,按照所述故障处理方法,处理系统故障。
进一步地,所述基于所述匹配日志,处理系统故障,还包括:
当判断出不存在相应的故障处理方法时,显示所述匹配日志;
接收人工输入的故障处理方法;
按照所述故障处理方法,处理系统故障。
进一步地,所述接收人工输入的故障处理方法之后,所述方法还包括:
将所述匹配日志与所述故障处理方法对应存储在匹配日志与故障处理方法的对应关系表中。
进一步地,所述接收人工输入的故障处理方法之后,所述方法还包括:
将所述匹配日志和人工输入的故障处理方法作为神经网络模型的一组训练样本,利用所述训练样本对所述神经网络模型进行训练。
在一种可能的实施方式中,所述基于所述匹配日志,处理系统故障,包括:
基于所述匹配日志,利用预先训练的神经网络模型确定故障处理方法;
按照所述故障处理方法,处理系统故障。
第二方面,提供了一种排查系统故障的装置,系统的功能通过多应用间调用实现,装置包括:
获取单元,用于当所述系统的功能出现异常时,获取所述系统的标准化日志;其中,所述标准化日志为按照所述系统的日志标准化匹配模板生成的;
查询单元,用于基于所述获取单元获取的标准化日志,查询所述多应用中每个应用的应用日志;
确定单元,用于根据所述多应用的调用关系,确定所述查询单元得到的应用日志的匹配顺序;
匹配单元,用于利用预先设定的匹配算法,按照所述确定单元确定的匹配顺序依次确定所述查询单元得到的每个应用对应的应用日志是否为异常日志,将最后确定出的应用对应的异常日志作为匹配日志;
处理单元,用于基于所述匹配单元得到的匹配日志,处理系统故障。
第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面的方法。
第四方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面的方法。
通过本说明书实施例提供的方法和装置,在排查系统故障时,针对系统的功能通过多应用间调用实现这一特点,首先当所述系统的功能出现异常时,获取所述系统的标准化日志;其中,所述标准化日志为按照所述系统的日志标准化匹配模板生成的;然后基于所述标准化日志,查询所述多应用中每个应用的应用日志;再根据所述多应用的调用关系,确定应用日志的匹配顺序;以及利用预先设定的匹配算法,按照所述匹配顺序依次确定每个应用对应的应用日志是否为异常日志,将最后确定出的应用对应的异常日志作为匹配日志;最后基于所述匹配日志,处理系统故障。由上可见,本说明书实施例中,针对后台日志辨识度不高的问题,预先对日志进行了处理得到标准化日志,以利于根据匹配算法来确定异常日志,以及根据多应用的调用关系,确定匹配日志,再基于所述匹配日志,处理系统故障,从而实现故障的自动排查。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本说明书披露的一个实施例的实施场景示意图;
图2示出根据一个实施例的排查系统故障的方法流程图;
图3示出根据另一个实施例的排查系统故障的方法流程图;
图4示出根据一个实施例的排查系统故障的装置的示意性框图。
具体实施方式
下面结合附图,对本说明书提供的方案进行描述。
图1为本说明书披露的一个实施例的实施场景示意图。该实施场景涉及对系统故障进行排查,系统的功能通过多应用间调用实现。参照图1,在一个示例中,系统的功能实现过程中,应用A先调用了应用B,应用B又调用了应用C,也就是说,应用A为顶层应用,应用C为底层应用。当系统的功能出现异常时,需要逐个排查各应用的应用日志,从而确定异常日志,并最终确定用于进行故障诊断的异常日志(即匹配日志)。例如,应用A对应日志A,应用B对应日志B,应用C对应日志C,最终确定的异常日志与匹配日志的对应关系如表一所示。
表一:异常日志与匹配日志的对应关系表
日志A 日志B 日志C 匹配日志
异常日志 异常日志 异常日志 日志C
异常日志 异常日志 正常日志 日志B
异常日志 正常日志 正常日志 日志A
参见表一,其中,当日志A、日志B和日志C均为异常日志时,说明底层应用即应用C出现了故障,确定匹配日志为日志C,后续可以根据日志C,处理系统故障。当日志A、日志B均为异常日志且日志C为正常日志时,说明应用B出现了故障,确定匹配日志为日志B,后续可以根据日志B,处理系统故障。当日志A为异常日志且日志B和日志C均为正常日志时,说明应用A出现了故障,确定匹配日志为日志A,后续可以根据日志A,处理系统故障。
本说明书实施例中,由于系统的功能通过多应用的调用实现,而后台日志的辨识度不高,因此排查系统故障时,预先针对系统的日志进行了处理,得到系统的标准化日志,以利于根据匹配算法来确定异常日志,以及根据多应用的调用关系,确定匹配日志,再基于所述匹配日志,处理系统故障,从而实现故障的自动排查。
图2示出根据一个实施例的排查系统故障的方法流程图,所述系统的功能通过多应用间调用实现。如图2所示,该实施例中排查系统故障的方法包括以下步骤:步骤21,当所述系统的功能出现异常时,获取所述系统的标准化日志;其中,所述标准化日志为按照所述系统的日志标准化匹配模板生成的;步骤22,基于所述标准化日志,查询所述多应用中每个应用的应用日志;步骤23,根据所述多应用的调用关系,确定应用日志的匹配顺序;步骤24,利用预先设定的匹配算法,按照所述匹配顺序依次确定每个应用对应的应用日志是否为异常日志,将最后确定出的应用对应的异常日志作为匹配日志;步骤25,基于所述匹配日志,处理系统故障。下面描述以上各个步骤的具体执行方式。
首先在步骤21,当所述系统的功能出现异常时,获取所述系统的标准化日志;其中,所述标准化日志为按照所述系统的日志标准化匹配模板生成的。可以理解的是,所述标准化日志用于排查系统故障,因此包含了排查系统故障所必须的信息。并且,针对不同的系统可以采取不同的日志标准化匹配模板,以生成该系统特有的标准化日志。
其中,系统的功能出现异常,可以包括如下两种情况:日志中有异常抛出,导致系统处理失败。或者,业务上有异常抛出,导致业务处理失败。
本说明书实施例中,所述标准化日志应包含可以反映系统调用情况的参数信息。在一个示例中,所述参数信息至少包括调用接口、调用方法、返回参数数据、调用结果数据、唯一追踪号和日志级别。
进一步地,其中,所述调用结果数据,可以包括:系统处理码或业务处理码。
其中,唯一追踪号用于追踪系统。
其中,日志级别可以用于指示系统运行状态。
在一个示例中,日志级别由低到高:debug<info<warn<Error<Fatal;
debug级别最低,可以随意的使用于任何觉得有利于在调试时更详细的了解系统运行状态的信息;
info重要,输出信息用来反馈系统的当前状态给最终用户;
后三个,分别代表警告、错误、严重错误,这三者应该都在系统运行时检测到了一个不正常的状态。
warn,可修复,系统可继续运行下去;
Error,可修复性,但无法确定系统会正常的工作下去;
Fatal,相当严重,可以肯定这种错误已经无法修复,并且如果系统继续运行下去的话后果严重。
每一条错误日志都是独立的,尽可能完整、具体、直接说明何种场景下发生了什么错误,由什么原因导致,要采用什么措施或步骤。
错误日志是排查问题的重要手段之一。
接着在步骤22,基于所述标准化日志,查询所述多应用中每个应用的应用日志。
在一个示例中,所述标准化日志包括唯一追踪号;基于所述标准化日志中的唯一追踪号,查询所述多应用中每个应用的应用日志。
然后在步骤23,根据所述多应用的调用关系,确定应用日志的匹配顺序。
可以理解的是,多应用的调用关系决定了,哪个应用为顶层应用,哪个应用为底层应用,本说明书实施例中,不仅要确定异常日志,而且要确定最终用于故障处理的匹配日志,而确定匹配日志与多应用的调用关系紧密联系。
再在步骤24,利用预先设定的匹配算法,按照所述匹配顺序依次确定每个应用对应的应用日志是否为异常日志,将最后确定出的应用对应的异常日志作为匹配日志。
可以理解的是,确定匹配日志实质上就是尽量找到底层的异常日志,也就是说,找到系统故障的根源。
最后在步骤25,基于所述匹配日志,处理系统故障。
本说明书实施例中,在确定出匹配日志后,可以采取人工的方式处理系统故障,也可以自动处理故障。
在一个示例中,基于所述匹配日志,在预先存储的匹配日志与故障处理方法的对应关系表中查找是否已存在相应的故障处理方法;当判断出已存在相应的故障处理方法时,按照所述故障处理方法,处理系统故障。
进一步地,当判断出不存在相应的故障处理方法时,显示所述匹配日志;接收人工输入的故障处理方法;按照所述故障处理方法,处理系统故障。
进一步地,在所述接收人工输入的故障处理方法之后,将所述匹配日志与所述故障处理方法对应存储在匹配日志与故障处理方法的对应关系表中。
进一步地,在所述接收人工输入的故障处理方法之后,将所述匹配日志和人工输入的故障处理方法作为所述神经网络模型的一组训练样本,利用所述训练样本对所述神经网络模型进行训练。
在另一个示例中,基于所述匹配日志,利用预先训练的神经网络模型确定故障处理方法;按照所述故障处理方法,处理系统故障。
通过本说明书实施例提供的方法,在排查系统故障时,针对系统的功能通过多应用间调用实现这一特点,首先当所述系统的功能出现异常时,获取所述系统的标准化日志;其中,所述标准化日志为按照所述系统的日志标准化匹配模板生成的;然后基于所述标准化日志,查询所述多应用中每个应用的应用日志;再根据所述多应用的调用关系,确定应用日志的匹配顺序;以及利用预先设定的匹配算法,按照所述匹配顺序依次确定每个应用对应的应用日志是否为异常日志,将最后确定出的应用对应的异常日志作为匹配日志;最后基于所述匹配日志,处理系统故障。由上可见,本说明书实施例中,针对后台日志辨识度不高的问题,预先对日志进行了处理得到标准化日志,以利于根据匹配算法来确定异常日志,以及根据多应用的调用关系,确定匹配日志,再基于所述匹配日志,处理系统故障,从而实现故障的自动排查。
图3示出根据另一个实施例的排查系统故障的方法流程图,所述系统的功能通过多应用间调用实现。如图3所示,该方法包括如下处理过程:
日志标准化:设置系统的日志标准化匹配模板,通过技术手段自动匹配日志。
日志自动追踪:根据日志唯一追踪号追踪系统。
故障反馈:将最终导致故障的原因反馈,同时将有效日志(即异常日志)反馈。
智能推荐:通过积累人工处理故障操作,通过推荐算法,推送处理方式,完成故障排查。
本说明书实施例提供的方法可以自动排查,节省排查时间,提升工作效率,不依赖于排查人的经验情况,可快速定位。可根据现有处理方式,自动推荐,自主学习处理故障。
根据另一方面的实施例,还提供一种排查系统故障的装置,所述系统的功能通过多应用间调用实现。图4示出根据一个实施例的排查系统故障的装置的示意性框图。如图4所示,该装置400包括:
获取单元41,用于当所述系统的功能出现异常时,获取所述系统的标准化日志;其中,所述标准化日志为按照所述系统的日志标准化匹配模板生成的;
查询单元42,用于基于所述获取单元41获取的标准化日志,查询所述多应用中每个应用的应用日志;
确定单元43,用于根据所述多应用的调用关系,确定所述查询单元42得到的应用日志的匹配顺序;
匹配单元44,用于利用预先设定的匹配算法,按照所述确定单元43确定的匹配顺序依次确定所述查询单元42得到的每个应用对应的应用日志是否为异常日志,将最后确定出的应用对应的异常日志作为匹配日志;
处理单元45,用于基于所述匹配单元44得到的匹配日志,处理系统故障。
可选地,作为一个实施例,所述获取单元41获取的标准化日志包含可以反映系统调用情况的参数信息,所述参数信息至少包括调用接口、调用方法、返回参数数据、调用结果数据、唯一追踪号和日志级别。
进一步地,所述调用结果数据,包括:
系统处理码或业务处理码。
进一步地,所述标准化日志包括唯一追踪号;
所述查询单元42,具体用于基于所述标准化日志中的唯一追踪号,查询所述多应用中每个应用的应用日志。
可选地,作为一个实施例,所述处理单元45,具体用于:
基于所述匹配日志,在预先存储的匹配日志与故障处理方法的对应关系表中查找是否已存在相应的故障处理方法;
当判断出已存在相应的故障处理方法时,按照所述故障处理方法,处理系统故障。
进一步地,所述处理单元45,还用于:
当判断出不存在相应的故障处理方法时,显示所述匹配日志;
接收人工输入的故障处理方法;
按照所述故障处理方法,处理系统故障。
进一步地,所述装置还包括:
存储单元,用于在所述处理单元45接收人工输入的故障处理方法之后,将所述匹配日志与所述故障处理方法对应存储在匹配日志与故障处理方法的对应关系表中。
进一步地,所述装置还包括:
训练单元,用于在所述处理单元45接收人工输入的故障处理方法之后,将所述匹配日志和人工输入的故障处理方法作为神经网络模型的一组训练样本,利用所述训练样本对所述神经网络模型进行训练。
可选地,作为一个实施例,所述处理单元45,具体用于:
基于所述匹配日志,利用预先训练的神经网络模型确定故障处理方法;
按照所述故障处理方法,处理系统故障。
通过本说明书实施例提供的装置,在排查系统故障时,针对系统的功能通过多应用间调用实现这一特点,首先由获取单元41当所述系统的功能出现异常时,获取所述系统的标准化日志;其中,所述标准化日志为按照所述系统的日志标准化匹配模板生成的;然后由查询单元42基于所述标准化日志,查询所述多应用中每个应用的应用日志;再由确定单元43根据所述多应用的调用关系,确定应用日志的匹配顺序;以及由匹配单元44利用预先设定的匹配算法,按照所述匹配顺序依次确定每个应用对应的应用日志是否为异常日志,将最后确定出的应用对应的异常日志作为匹配日志;最后由处理单元45基于所述匹配日志,处理系统故障。由上可见,本说明书实施例中,针对后台日志辨识度不高的问题,预先对日志进行了处理得到标准化日志,以利于根据匹配算法来确定异常日志,以及根据多应用的调用关系,确定匹配日志,再基于所述匹配日志,处理系统故障,从而实现故障的自动排查。
根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行结合图2或图3所描述的方法。
根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现结合图2或图3所描述的方法。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (18)

1.一种排查系统故障的方法,所述系统的功能通过多应用间调用实现,所述方法包括:
当所述系统的功能出现异常时,获取所述系统的标准化日志;其中,所述标准化日志为按照所述系统的日志标准化匹配模板生成的;所述标准化日志包含可以反映系统调用情况的参数信息,所述参数信息包括唯一追踪号;
基于所述唯一追踪号,查询所述多应用中每个应用的应用日志;
根据所述参数信息所反映的所述多应用的调用关系,确定应用日志的匹配顺序;
利用预先设定的匹配算法,按照所述匹配顺序依次确定每个应用对应的应用日志是否为异常日志,将最后确定出的应用对应的异常日志作为匹配日志;
基于所述匹配日志,处理系统故障。
2.如权利要求1所述的方法,其中,所述参数信息还包括调用接口、调用方法、返回参数数据、调用结果数据和日志级别。
3.如权利要求2所述的方法,其中,所述调用结果数据,包括:
系统处理码或业务处理码。
4.如权利要求1所述的方法,其中,所述基于所述匹配日志,处理系统故障,包括:
基于所述匹配日志,在预先存储的匹配日志与故障处理方法的对应关系表中查找是否已存在相应的故障处理方法;
当判断出已存在相应的故障处理方法时,按照所述故障处理方法,处理系统故障。
5.如权利要求4所述的方法,其中,所述基于所述匹配日志,处理系统故障,还包括:
当判断出不存在相应的故障处理方法时,显示所述匹配日志;
接收人工输入的故障处理方法;
按照所述故障处理方法,处理系统故障。
6.如权利要求5所述的方法,其中,所述接收人工输入的故障处理方法之后,所述方法还包括:
将所述匹配日志与所述故障处理方法对应存储在匹配日志与故障处理方法的对应关系表中。
7.如权利要求5所述的方法,其中,所述接收人工输入的故障处理方法之后,所述方法还包括:
将所述匹配日志和人工输入的故障处理方法作为神经网络模型的一组训练样本,利用所述训练样本对所述神经网络模型进行训练。
8.如权利要求1所述的方法,所述基于所述匹配日志,处理系统故障,包括:
基于所述匹配日志,利用预先训练的神经网络模型确定故障处理方法;
按照所述故障处理方法,处理系统故障。
9.一种排查系统故障的装置,所述系统的功能通过多应用间调用实现,所述装置包括:
获取单元,用于当所述系统的功能出现异常时,获取所述系统的标准化日志;其中,所述标准化日志为按照所述系统的日志标准化匹配模板生成的;所述标准化日志包含可以反映系统调用情况的参数信息,所述参数信息包括唯一追踪号;
查询单元,用于基于所述获取单元获取的所述唯一追踪号,查询所述多应用中每个应用的应用日志;
确定单元,用于根据所述参数信息所反映的所述多应用的调用关系,确定所述查询单元得到的应用日志的匹配顺序;
匹配单元,用于利用预先设定的匹配算法,按照所述确定单元确定的匹配顺序依次确定所述查询单元得到的每个应用对应的应用日志是否为异常日志,将最后确定出的应用对应的异常日志作为匹配日志;
处理单元,用于基于所述匹配单元得到的匹配日志,处理系统故障。
10.如权利要求9所述的装置,其中,所述参数信息还包括调用接口、调用方法、返回参数数据、调用结果数据和日志级别。
11.如权利要求10所述的装置,其中,所述调用结果数据,包括:
系统处理码或业务处理码。
12.如权利要求9所述的装置,其中,所述处理单元,具体用于:
基于所述匹配日志,在预先存储的匹配日志与故障处理方法的对应关系表中查找是否已存在相应的故障处理方法;
当判断出已存在相应的故障处理方法时,按照所述故障处理方法,处理系统故障。
13.如权利要求12所述的装置,其中,所述处理单元,还用于:
当判断出不存在相应的故障处理方法时,显示所述匹配日志;
接收人工输入的故障处理方法;
按照所述故障处理方法,处理系统故障。
14.如权利要求13所述的装置,其中,所述装置还包括:
存储单元,用于在所述处理单元接收人工输入的故障处理方法之后,将所述匹配日志与所述故障处理方法对应存储在匹配日志与故障处理方法的对应关系表中。
15.如权利要求13所述的装置,其中,所述装置还包括:
训练单元,用于在所述处理单元接收人工输入的故障处理方法之后,将所述匹配日志和人工输入的故障处理方法作为神经网络模型的一组训练样本,利用所述训练样本对所述神经网络模型进行训练。
16.如权利要求9所述的装置,所述处理单元,具体用于:
基于所述匹配日志,利用预先训练的神经网络模型确定故障处理方法;
按照所述故障处理方法,处理系统故障。
17.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-8中任一项的所述的方法。
18.一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-8中任一项的所述的方法。
CN201910029983.4A 2019-01-11 2019-01-11 排查系统故障的方法和装置 Active CN110034948B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910029983.4A CN110034948B (zh) 2019-01-11 2019-01-11 排查系统故障的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910029983.4A CN110034948B (zh) 2019-01-11 2019-01-11 排查系统故障的方法和装置

Publications (2)

Publication Number Publication Date
CN110034948A CN110034948A (zh) 2019-07-19
CN110034948B true CN110034948B (zh) 2021-09-21

Family

ID=67235545

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910029983.4A Active CN110034948B (zh) 2019-01-11 2019-01-11 排查系统故障的方法和装置

Country Status (1)

Country Link
CN (1) CN110034948B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11841758B1 (en) 2022-02-14 2023-12-12 GE Precision Healthcare LLC Systems and methods for repairing a component of a device

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110825926A (zh) * 2019-11-22 2020-02-21 深圳供电局有限公司 一种电网异常信号自动监视的分析方法及系统
CN111177095B (zh) * 2019-12-10 2023-10-27 中移(杭州)信息技术有限公司 日志分析方法、装置、计算机设备及存储介质
CN111104242A (zh) * 2019-12-20 2020-05-05 青岛海尔科技有限公司 基于深度学习的操作系统的异常日志的处理方法及装置
CN111209153B (zh) * 2019-12-31 2021-10-22 联想(北京)有限公司 异常检测处理方法、装置及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105978723A (zh) * 2016-05-11 2016-09-28 广州唯品会信息科技有限公司 网络信息管理方法及装置
US9552249B1 (en) * 2014-10-20 2017-01-24 Veritas Technologies Systems and methods for troubleshooting errors within computing tasks using models of log files
CN107066519A (zh) * 2017-02-13 2017-08-18 阿里巴巴集团控股有限公司 一种任务检测方法及装置
CN107229619A (zh) * 2016-03-23 2017-10-03 阿里巴巴集团控股有限公司 互联网业务链路调用情况的统计、展示方法及装置
CN107483221A (zh) * 2016-06-08 2017-12-15 阿里巴巴集团控股有限公司 一种跨应用问题排查方法、装置及系统
CN108768752A (zh) * 2018-06-25 2018-11-06 华为技术有限公司 故障定位方法、装置以及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9552249B1 (en) * 2014-10-20 2017-01-24 Veritas Technologies Systems and methods for troubleshooting errors within computing tasks using models of log files
CN107229619A (zh) * 2016-03-23 2017-10-03 阿里巴巴集团控股有限公司 互联网业务链路调用情况的统计、展示方法及装置
CN105978723A (zh) * 2016-05-11 2016-09-28 广州唯品会信息科技有限公司 网络信息管理方法及装置
CN107483221A (zh) * 2016-06-08 2017-12-15 阿里巴巴集团控股有限公司 一种跨应用问题排查方法、装置及系统
CN107066519A (zh) * 2017-02-13 2017-08-18 阿里巴巴集团控股有限公司 一种任务检测方法及装置
CN108768752A (zh) * 2018-06-25 2018-11-06 华为技术有限公司 故障定位方法、装置以及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11841758B1 (en) 2022-02-14 2023-12-12 GE Precision Healthcare LLC Systems and methods for repairing a component of a device

Also Published As

Publication number Publication date
CN110034948A (zh) 2019-07-19

Similar Documents

Publication Publication Date Title
CN110034948B (zh) 排查系统故障的方法和装置
US7984334B2 (en) Call-stack pattern matching for problem resolution within software
US9891971B1 (en) Automating the production of runbook workflows
CN112631913B (zh) 应用程序的运行故障监控方法、装置、设备和存储介质
CN109669844B (zh) 设备故障处理方法、装置、设备和存储介质
US10552242B2 (en) Runtime failure detection and correction
CN112737800B (zh) 服务节点故障定位方法、调用链生成方法及服务器
CN110275992B (zh) 应急处理方法、装置、服务器及计算机可读存储介质
CN111078447A (zh) 一种微服务架构中的异常定位方法、装置、设备、介质
CN108304276B (zh) 一种日志处理方法、装置及电子设备
CN113609119A (zh) 一种数据对账修复方法、装置、存储介质及电子设备
CN111090658A (zh) 异常事务处理方法、系统及其设备
US11874728B2 (en) Software application diagnostic aid
CN112235128B (zh) 一种交易路径分析方法、装置、服务器及存储介质
CN111124828B (zh) 一种数据处理方法、装置、设备及存储介质
CN109857629B (zh) 一种扫描检测方法及装置
CN113886122B (zh) 一种系统运行异常处理方法、装置、设备及存储介质
CN111427736A (zh) 日志监控方法、装置、设备及计算机可读存储介质
CN110119319A (zh) 一种接口匹配方法及装置
CN115587046A (zh) 代码异常的处理方法、装置、存储介质及计算机设备
CN110134559B (zh) 一种bmc故障检测方法、系统及相关组件
CN113918204A (zh) 一种元数据脚本管理方法、装置、电子设备和存储介质
CN110362464B (zh) 软件分析方法及设备
CN113179180A (zh) 一种玄武盾客户端灾难故障修复方法、装置和存储介质
CN112631929A (zh) 测试用例生成方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20201014

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20201014

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant