CN110995468B - 待分析系统的系统故障处理方法、装置、设备和存储介质 - Google Patents

待分析系统的系统故障处理方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN110995468B
CN110995468B CN201911104696.1A CN201911104696A CN110995468B CN 110995468 B CN110995468 B CN 110995468B CN 201911104696 A CN201911104696 A CN 201911104696A CN 110995468 B CN110995468 B CN 110995468B
Authority
CN
China
Prior art keywords
node
fault
log
link node
link
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911104696.1A
Other languages
English (en)
Other versions
CN110995468A (zh
Inventor
杨磊
谢代锦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Junzheng Network Technology Co Ltd
Original Assignee
Shanghai Junzheng Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Junzheng Network Technology Co Ltd filed Critical Shanghai Junzheng Network Technology Co Ltd
Priority to CN201911104696.1A priority Critical patent/CN110995468B/zh
Publication of CN110995468A publication Critical patent/CN110995468A/zh
Application granted granted Critical
Publication of CN110995468B publication Critical patent/CN110995468B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请涉及一种待分析系统的系统故障处理方法、装置、计算机设备和存储介质。所述方法包括:周期性获取待分析系统的异常日志,其中,所述异常日志携带有与待分析系统的链路节点对应的节点标识,所述节点标识根据上一链路节点的节点标识和所述链路节点的业务标识生成的;将所述异常日志中的节点标识进行比对,确定所述待分析系统的故障链路节点和故障类型;统计每一所述故障链路节点对应的所述故障类型的故障频次;根据预警阈值和所述故障频次生成预警信息,并将所述预警信息发送给维护终端。采用本方法能够能够快速定位待分析系统的故障链路节点和故障类型。

Description

待分析系统的系统故障处理方法、装置、设备和存储介质
技术领域
本申请涉及待分析系统技术领域,特别是涉及一种待分析系统的系统故障处理方法、装置、计算机设备和存储介质。
背景技术
微服务架构是一个新兴的软件架构,就是把一个大型的单个应用程序和服务拆分为数十个可支持的微服务。每个前端的服务请求需要经过后台几到几十个服务器的服务。由于微服务之间存在大量的依赖关系,因而在待分析的微服务架构系统中一旦某一链路节点发生报错,后台服务器可能接收到大规模的报错报文。当待分析系统中某一个服务的调用发生异常时,系统无法判断是当前微服务出现异常还是下游微服务出现异常,故而需要调用海量的资源来查找定位故障节点,系统定位故障节点的效率低下且无法及时地对故障节点进行处理。
发明内容
基于此,有必要针对上述技术问题,提供一种能够快速定位待分析系统的故障链路节点和故障类型的待分析系统的日志处理方法、装置、计算机设备和存储介质。
一种待分析系统的系统故障处理方法,所述方法包括:
周期性获取待分析系统的异常日志,其中,所述异常日志携带有与待分析系统的链路节点对应的节点标识,所述节点标识根据上一链路节点的节点标识和所述链路节点的业务标识生成的;
将所述异常日志中的节点标识进行比对,确定所述待分析系统的故障链路节点和故障类型;
统计每一所述故障链路节点对应的所述故障类型的故障频次;
根据预警阈值和所述故障频次生成预警信息,并将所述预警信息发送给维护终端。
在其中一个实施例中,所述异常日志的生成方法,包括:
获取业务触发指令,并根据所述业务触发指令生成请求标识;
将所述请求标识发送给与所述业务触发指令对应的微服务链路的链路节点;
控制所述链路节点根据上一链路节点的节点标识和所述链路节点的业务标识生成的节点标识,并根据所述请求标识处理业务生成调用信息;
当调用信息未携带报错状态码时,将所述节点标识发送给下一链路节点;
当调用信息携带报错状态码时,根据所述节点标识和所述调用信息生成异常日志。
在其中一个实施例中,所述将所述异常日志中的节点标识进行比对,确定所述待分析系统的故障链路节点和故障类型,包括:
根据所述节点标识对所述异常日志进行分组;
对同一分组的异常日志进行分析,确定故障链路节点,并根据所述故障链路节点确定故障类型。
在其中一个实施例中,所述对同一分组的异常日志进行分析,确定故障链路节点,并根据所述故障链路节点确定故障类型,包括:
比对同一分组的所述异常日志中的错误代码,确定故障链路节点;
获取所述故障链路节点的相邻链路节点;
根据所述相邻链路节点的异常日志和所述故障链路节点的异常日志确定故障类型。
在其中一个实施例中,所述根据所述异常日志确定所述待分析系统的故障链路节点和故障类型,包括:
将所述异常日志转化成日志元组,所述日志元组用于描述所述异常日志特性的键值对数据;
根据所述节点标识对所述日志元组进行分组;
对同一分组的日志元组进行分析,确定故障链路节点,并根据所述故障链路节点确定故障类型。
一种待分析系统的系统故障处理装置,所述装置包括:
日志获取模块,用于周期性获取待分析系统的异常日志,其中,所述异常日志携带有与待分析系统的链路节点对应的节点标识,所述节点标识根据上一链路节点的节点标识和所述链路节点的业务标识生成的;
故障分析模块,用于根据所述异常日志确定所述待分析系统的故障链路节点和故障类型;
故障统计模块,用于统计每一所述故障链路节点对应的所述故障类型的故障频次;
预警模块,用于根据预警阈值和所述故障频次生成预警信息,并将所述预警信息发送给维护终端。
在其中一个实施例中,所述日志处理装置,包括:
标识生成单元,用于获取业务触发指令,并根据所述业务触发指令生成请求标识;
节点获取单元,用于将所述请求标识发送给与所述业务触发指令对应的微服务链路的链路节点;
反馈信息生成单元,用于控制所述链路节点根据上一链路节点的节点标识和所述链路节点的业务标识生成的节点标识,并根据所述请求标识处理业务生成调用信息;
日志生成单元,用于当调用信息未携带报错状态码时,将所述节点标识发送给下一链路节点;当调用信息携带报错状态码时,根据所述节点标识和所述调用信息生成异常日志。
在其中一个实施例中,所述故障分析模块包括:
日志分组单元,用于根据所述节点标识对所述异常日志进行分组;
日志分析单元,用于对同一分组的异常日志进行分析,确定故障链路节点,并根据所述故障链路节点确定故障类型。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
上述待分析系统的日志处理方法、装置、计算机设备和存储介质,获取待分析系统的异常日志,异常日志携带有与待分析系统的链路节点对应的节点标识,节点标识根据上一链路节点的节点标识和所述链路节点的业务标识生成的;根据异常日志确定待分析系统的故障链路节点和故障类型;统计每一故障链路节点对应的故障类型的故障频次;根据预警阈值和故障频次生成预警信息,不仅通过节点标识快速定位故障链路节点,并可以识别出故障类型,让系统对故障链路节点进行处理,还可统计故障链路节点和故障类型出现的故障频次,及时对待分析系统进行预警,减少系统崩溃的概率。
附图说明
图1为一个实施例中待分析系统的系统故障处理方法的应用场景图;
图2为一个实施例中待分析系统的系统故障处理方法的流程示意图;
图3为一个实施例中待分析系统的异常日志的生成方法的流程示意图;
图4为另一个实施例中待分析系统的系统故障处理方法的流程示意图;
图5为另一个实施例中待分析系统的系统故障处理方法的流程示意图;
图6为一个实施例中待分析系统的系统故障处理装置的结构框图;
图7为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的待分析系统的系统故障处理方法,可以应用于如图1所示的应用环境中。其中,终端102、维护终端106通过网络与服务器104进行通信。终端102将业务获取指令发送给服务器104。服务器104接收业务获取指令,并根据业务获取指令执行业务,并生成待分析系统的异常日志。服务器104周期性获取待分析系统的异常日志,其中,异常日志携带有与待分析系统的链路节点对应的节点标识,节点标识根据上一链路节点的节点标识和链路节点的业务标识生成的;服务器104将异常日志中的节点标识进行比对,确定待分析系统的故障链路节点和故障类型;服务器104统计每一故障链路节点对应的故障类型的故障频次;服务器104根据预警阈值和故障频次生成预警信息,并将预警信息发送给维护终端106。维护终端106可以根据预警信息对负载有微服务架构的服务器104进行维护。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式智能设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种待分析系统的系统故障处理方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤202,周期性获取待分析系统的异常日志,其中,异常日志携带有与待分析系统的链路节点对应的节点标识,节点标识根据上一链路节点的节点标识和链路节点的业务标识生成的。
异常日志是待分析系统的链路节点错误执行任务而生成的报错报文。异常日志携带有与待分析系统的链路节点对应的节点标识。节点标识根据上一链路节点的节点标识和链路节点的业务标识生成的,并可以传递到下游服务中用于生成新的节点标识(rpcid)。微服务架构接收业务触发指令,并根据业务触发指令生成请求标识。在整个微服务链路中仅存在一个请求标识(Reqid)。节点标识可以携带有请求标识,或是与请求标识对应。每个微服务节点都有对应的唯一业务标识和名称、主题、日志索引等,能够根据上下游关系组成调用链图。
服务器周期性地获取待分析系统的异常日志。服务器可以在预设时间段内获取待分析系统的异常日志,也可以分时间段周期获取待分析系统的异常日志。例如,服务器可以每5分钟获取异常日志;服务器也可以获取最近20秒的异常日志的同时,获取之前4分40秒的异常日志。服务器可以通过设置spark计算集群对异常日志进行分析,当接收到异常日志时,服务器可以启动一个spark streaming的任务来进行服务故障的分析。服务器可以通过spark的window函数将前面4分40秒的异常日志和最近20秒的异常日志合并在一起。window函数的窗口时间为300秒,滑动时间为20秒,这样能够保证每20秒统计一次300秒内的异常日志,保证数据分析的即时性。
步骤204,将异常日志中的节点标识进行比对,确定待分析系统的故障链路节点和故障类型。
服务器将异常日志中的节点标识进行比对,确定待分析系统的故障链路节点和故障类型。服务器通过异常日志中的错误码确定故障链路节点,而后根据故障链路节点以及相邻链路节点的错误码确定故障类型。服务器可以根据节点标识对异常日志进行分组;对同一分组的异常日志进行分析,确定故障链路节点,并根据故障链路节点确定故障类型。服务器也可以将异常日志转化成日志元组,日志元组用于描述异常日志特性的键值对数据;根据节点标识对日志元组进行分组;对同一分组的日志元组进行分析,确定故障链路节点,并根据故障链路节点确定故障类型。
步骤206,统计每一故障链路节点对应的故障类型的故障频次。
故障类型是微服务系统发生的故障,可以包括系统运行故障和网络故障。系统运行故障是指待分析系统中微服务节点运行失误等。网络故障是指待分析系统中节点连接异常等。服务器统计每一故障链路节点对应的故障类型的故障频次。服务器可以对每一故障链路节点对应的故障类型的出现次数进行累加,得到故障类型的故障频次;服务器也可以根据故障类型以及故障类型的出现时间,对每一故障链路节点对应的故障类型的故障频次进行统计,并计算故障类型出现的周期。服务器可以根据故障频次对故障类型进行降序排列。
步骤208,根据预警阈值和故障频次生成预警信息,并将预警信息发送给维护终端。
预警阈值用于警示待分析系统系统故障的最大频次,不同故障链路节点和不同故障类型对应的预警阈值可以不相同。服务器获取预警阈值,服务器根据预警阈值和故障频次生成预警信息,并将预警信息发送给维护终端。当故障频次不小于预警阈值时,待分析系统需要进行维护,服务器生成的预警信息可以是“待分析系统中XX故障链路节点出现的XXX故障类型的故障频次大于预警阈值,请尽快维护待分析系统”;当故障频次小于预警阈值时,待分析系统将每一故障链路节点的故障类型的故障频次进行存储,以便后续查询。
上述待分析系统的系统故障处理方法中,服务器获取待分析系统的异常日志,异常日志携带有与待分析系统的链路节点对应的节点标识,节点标识根据上一链路节点的节点标识和链路节点的业务标识生成的;根据异常日志确定待分析系统的故障链路节点和故障类型;统计每一故障链路节点对应的故障类型的故障频次;根据预警阈值和故障频次生成预警信息,不仅通过节点标识快速定位故障链路节点,并可以识别出故障类型,让系统对故障链路节点进行处理,还可统计故障链路节点和故障类型出现的故障频次,及时对待分析系统进行预警,减少系统崩溃的概率。
在一个实施例中,如图3所示,异常日志的生成方法,包括以下步骤:
步骤302,获取业务触发指令,并根据业务触发指令生成请求标识。
业务触发指令用于触发待分析系统中的微服务实现业务。服务器获取业务触发指令,并根据业务触发指令生成请求标识(Reqid)。请求标识在整个调用链路中共享,服务器可以在服务器连接微服务链路节点的连接端口处生成。请求标识可以但不局限于使用通用唯一识别码(uuid)来生成。
步骤304,将请求标识发送给与业务触发指令对应的微服务链路的链路节点。
服务器将请求标识发送给与业务触发指令对应的微服务链路的链路节点。各微服务链路的链路节点接收上一个链路节点传输的请求标识。在本实施例中,服务器是由多个服务器组成的服务器集群来实现,不同的微服务由不同的服务器进行支持并允许。控制业务运行的服务器为客户机侧服务器(client服务器);运行业务的服务器为服务器侧服务器(server服务器)。
步骤306,控制链路节点根据上一链路节点的节点标识和链路节点的业务标识生成的节点标识,并根据请求标识处理业务生成调用信息。
节点标识用于标识各链路节点与请求标识之间的对应关系,可以用数字表示,例如,节点标识可以采用“n.n.n”的格式,n为数字。业务标识用于标识链路节点在微服务链路中的第几个分支,可以是数字表示。节点标识可以根据请求标识按照预设规则生成,并传输到下游节点用于生成新的节点标识。只有在调用服务的时候才生成新的节点标识,被调用的服务端可以根据客户机侧服务器传递过来的rpcid。第一个链路节点生成的rpcid可以为"1"。服务在被调用时如果调用了别的服务,则生成一个新的rpcid,新的链路节点标识要在原来的节点标识上加一级,比如当前rpcid为“1”,则新生成的rpcid为“1.1”,如果继续调用了其它服务,则新的rpcid为“1.2”,以此类推。例如,当请求标识为“XXX”时,服务器可以根据请求标识生成第一链路节点的节点标识“1.1”。
调用信息用于记录实现业务的链路节点以及链路节点运行状况。调用信息可以包含业务名称、服务器的IP地址、服务器运行的状态码等。服务器将节点标识发送给下一链路节点,并控制下一链路节点根据节点标识“1.1”和业务标识“1”生成下一链路节点的节点标识“1.1.1”。服务器控制链路节点根据上一链路节点的节点标识和链路节点的业务标识生成的节点标识,并根据请求标识处理业务生成调用信息。服务器根据请求标识处理业务控制链路节点生成调用信息。
步骤308,当调用信息未携带报错状态码时,将节点标识发送给下一链路节点;当调用信息携带报错状态码时,根据节点标识和调用信息生成异常日志。
报错状态码是根据链路节点运行业务时发生错误而生成的状态码,可以用数字或字符表示。例如,报错状态码404可以表示请求的网页不存在,意味着链路节点连接可能失效;报错状态码503可以表示业务不可用,意味着链路节点运行故障。当调用信息未携带报错状态码时,服务器可以将节点标识发送给下一链路节点;服务器也可以将携带有节点标识的调用信息发送给下一链路节点,在调用信息中,节点标识和请求标识可以作为消息头进行传输。当调用信息携带报错状态码时,服务器根据节点标识和调用信息生成异常日志。服务器生成的异常日志的格式可以使用但不局限于json格式。异常日志携带的信息可以有业务名称、服务器的物理ip地址、发生异常的接口名称、reqid、rpcid和客户机侧服务器的id等。服务器可以通过事先设置的java应用logagent。服务器生成异常日志后,服务器通过日志收集组件logagent将异常日志发送给kafka日志收集集群中。服务器通过logagent可以以“tail-f”的方式将待分析系统的所有链路节点的异常日志全部收集并发送到一个kafka集群。日志组件logagent可以选择开源方案filebeat。在后续分析处理中,服务器从kafka日志收集集群获取异常日志。
在上述待分析系统的系统故障处理方法中,服务器生成待分析系统的异常日志,异常日志携带有与待分析系统的链路节点对应的节点标识,节点标识根据上一链路节点的节点标识和链路节点的业务标识生成的,从而实现对故障链路节点快速定位,并可以识别出故障类型,让系统对故障链路节点进行处理。
在一个实施例中,如图4所示,将异常日志中的节点标识进行比对,确定待分析系统的故障链路节点和故障类型,包括以下步骤:
步骤402,根据节点标识对异常日志进行分组。
服务器根据节点标识对异常日志进行分组。服务器根据节点标识确定异常日志是否属于同一链路下。当两个节点标识为包含或被包含关系时,与节点标识对应的链路节点属于同一链路下;当两个节点标识不存在包含关系时,与节点标识对应的链路节点不属于同一链路下。例如,节点标识为“1.1”的异常日志和节点标识为“1.1.1”的异常日志属于同一链路下,节点标识为“1.1”的异常日志和节点标识为“1.1.2”的异常日志属于同一链路下,节点标识为“1.1.1”的异常日志和节点标识为“1.1.1”的异常日志不属于同一链路下。
步骤404,对同一分组的异常日志进行分析,确定故障链路节点,并根据故障链路节点确定故障类型。
服务器对同一分组的异常日志进行分析,确定故障链路节点,并根据故障链路节点确定故障类型。当同一分支下的多个链路节点都发生异常时,服务器就根据上游链路节点的异常类型来判断是不是因为下游链路节点的异常导致的上游链路节点异常。当判定为是时,服务器就把上游链路节点的异常剔除掉,并对下游链路节点进行分析,确定故障链路节点以及对应的故障类型;当判定为否时,服务器就判定上游链路节点为故障链路节点,并根据故障链路节点确定故障类型。
在一个实施例中,步骤404还可以包含以下步骤:比对同一分组的异常日志中的错误代码,确定故障链路节点;获取故障链路节点的相邻链路节点;根据相邻链路节点的异常日志和故障链路节点的异常日志确定故障类型。
服务器比对同一分组的异常日志中的错误代码,确定故障链路节点。例如,当同一分支下的多个链路节点都发生异常时,服务器根据上游链路节点的异常类型来判断是不是因为下游链路节点的异常导致的上游链路节点异常。当判定为是时,服务器就把上游链路节点的异常剔除掉,并对下游链路节点进行分析,确定故障链路节点以及对应的故障类型。服务器再获取故障链路节点的相邻链路节点。服务器根据相邻链路节点的异常日志和故障链路节点的异常日志确定故障类型。服务器通过从前到后依次比对前一链路节点和后一链路节点的异常日志,直到该链路上的异常日志都被比较,服务器判定异常链路节点。实现对同一链路的分析。例如,当存在链路节点标识为“1.1”、“1.1.1”和“1.1.1.1”的异常日志时,服务器先比对节点标识“1.1”和“1.1.1”的异常日志,再比对“1.1.1”和“1.1.1.1”的异常日志。
在上述待分析系统的系统故障处理方法中,服务器根据链路对异常日志进行分析,可以准确地确定造成异常日志的故障链路节点和故障类型,避免被误导,提高了分析的准确率。
在一个实施例中,如图5所示,根据异常日志确定待分析系统的故障链路节点和故障类型,包括以下步骤:
步骤502,将异常日志转化成日志元组,日志元组用于描述异常日志特性的键值对数据。
服务器将异常日志转化成日志元组,日志元组用于描述异常日志特性的键值对数据。服务器可以通过mapToPair方法将日志数据转换为日志元组,mapToPair可以将一个长度为N的、每个元素都是T类型的对象,转换成另一个长度为N的、每个元素都是<Key,Value>类型的键值对数据。其中,key是日志的reqid,value是日志本身的元素。
步骤504,根据节点标识对日志元组进行分组。
服务器根据节点标识对日志元组进行分组。服务器可以采用groupByKey将属于同一条链路的异常日志划分成一组。
步骤506,对同一分组的日志元组进行分析,确定故障链路节点,并根据故障链路节点确定故障类型。
服务器对同一分组的日志元组进行分析,确定故障链路节点,并根据故障链路节点确定故障类型。
应该理解的是,虽然图2-5的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-5中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图6所示,提供了一种待分析系统的系统故障处理装置,包括:日志获取模块602、故障分析模块604、故障统计模块606和预警模块608,其中:
日志获取模块602,用于周期性获取待分析系统的异常日志,其中,异常日志携带有与待分析系统的链路节点对应的节点标识,节点标识根据上一链路节点的节点标识和链路节点的业务标识生成的。
故障分析模块604,用于根据异常日志确定待分析系统的故障链路节点和故障类型。
故障统计模块606,用于统计每一故障链路节点对应的故障类型的故障频次。
预警模块608,用于根据预警阈值和故障频次生成预警信息,并将预警信息发送给维护终端。
在一个实施例中,日志处理装置包括标识生成单元、节点获取单元、反馈信息生成单元和日志生成单元,其中:
标识生成单元,用于获取业务触发指令,并根据业务触发指令生成请求标识。
节点获取单元,用于将请求标识发送给与业务触发指令对应的微服务链路的链路节点。
反馈信息生成单元,用于控制链路节点根据上一链路节点的节点标识和链路节点的业务标识生成的节点标识,并根据请求标识处理业务生成调用信息。
日志生成单元,用于当调用信息未携带报错状态码时,将节点标识发送给下一链路节点。当调用信息携带报错状态码时,根据节点标识和调用信息生成异常日志。
在另一个实施例中,故障分析模块604包括日志分组单元和日志分析单元,其中:
日志分组单元,用于根据节点标识对异常日志进行分组。
日志分析单元,用于对同一分组的异常日志进行分析,确定故障链路节点,并根据故障链路节点确定故障类型。
在一个实施例中,故障分析模块604包括故障节点确定单元、相邻节点获取单元和故障类型确定单元,其中:
故障节点确定单元,用于比对同一分组的异常日志中的错误代码,确定故障链路节点。
相邻节点获取单元,用于获取故障链路节点的相邻链路节点。
故障类型确定单元,用于根据相邻链路节点的异常日志和故障链路节点的异常日志确定故障类型。
在一些实施例中,故障分析模块604包括元组转化单元、元组分组单元和元组分析单元,其中:
元组转化单元,用于将异常日志转化成日志元组,日志元组用于描述异常日志特性的键值对数据。
元组分组单元,用于根据节点标识对日志元组进行分组。
元组分析单元,用于对同一分组的日志元组进行分析,确定故障链路节点,并根据故障链路节点确定故障类型。
关于待分析系统的系统故障处理装置的具体限定可以参见上文中对于待分析系统的系统故障处理方法的限定,在此不再赘述。上述待分析系统的系统故障处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储与待分析系统的系统故障的异常日志。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种待分析系统的系统故障处理方法。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:周期性获取待分析系统的异常日志,其中,异常日志携带有与待分析系统的链路节点对应的节点标识,节点标识根据上一链路节点的节点标识和链路节点的业务标识生成的;将异常日志中的节点标识进行比对,确定待分析系统的故障链路节点和故障类型;统计每一故障链路节点对应的故障类型的故障频次;根据预警阈值和故障频次生成预警信息,并将预警信息发送给维护终端。
在一个实施例中,处理器执行计算机程序时实现的异常日志的生成方法,包括:获取业务触发指令,并根据业务触发指令生成请求标识;将请求标识发送给与业务触发指令对应的微服务链路的链路节点;控制链路节点根据上一链路节点的节点标识和链路节点的业务标识生成的节点标识,并根据请求标识处理业务生成调用信息;当调用信息未携带报错状态码时,将节点标识发送给下一链路节点;当调用信息携带报错状态码时,根据节点标识和调用信息生成异常日志。
在一个实施例中,处理器执行计算机程序时实现的将异常日志中的节点标识进行比对,确定待分析系统的故障链路节点和故障类型,包括:根据节点标识对异常日志进行分组;对同一分组的异常日志进行分析,确定故障链路节点,并根据故障链路节点确定故障类型。
在一个实施例中,处理器执行计算机程序时实现的对同一分组的异常日志进行分析,确定故障链路节点,并根据故障链路节点确定故障类型,包括:比对同一分组的异常日志中的错误代码,确定故障链路节点;获取故障链路节点的相邻链路节点;根据相邻链路节点的异常日志和故障链路节点的异常日志确定故障类型。
在一个实施例中,处理器执行计算机程序时实现的根据异常日志确定待分析系统的故障链路节点和故障类型,包括:将异常日志转化成日志元组,日志元组用于描述异常日志特性的键值对数据;根据节点标识对日志元组进行分组;对同一分组的日志元组进行分析,确定故障链路节点,并根据故障链路节点确定故障类型。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:周期性获取待分析系统的异常日志,其中,异常日志携带有与待分析系统的链路节点对应的节点标识,节点标识根据上一链路节点的节点标识和链路节点的业务标识生成的;将异常日志中的节点标识进行比对,确定待分析系统的故障链路节点和故障类型;统计每一故障链路节点对应的故障类型的故障频次;根据预警阈值和故障频次生成预警信息,并将预警信息发送给维护终端。
在一个实施例中,计算机程序被处理器执行时实现的异常日志的生成方法,包括:获取业务触发指令,并根据业务触发指令生成请求标识;将请求标识发送给与业务触发指令对应的微服务链路的链路节点;控制链路节点根据上一链路节点的节点标识和链路节点的业务标识生成的节点标识,并根据请求标识处理业务生成调用信息;当调用信息未携带报错状态码时,将节点标识发送给下一链路节点;当调用信息携带报错状态码时,根据节点标识和调用信息生成异常日志。
在一个实施例中,计算机程序被处理器执行时实现的将异常日志中的节点标识进行比对,确定待分析系统的故障链路节点和故障类型,包括:根据节点标识对异常日志进行分组;对同一分组的异常日志进行分析,确定故障链路节点,并根据故障链路节点确定故障类型。
在一个实施例中,计算机程序被处理器执行时实现的对同一分组的异常日志进行分析,确定故障链路节点,并根据故障链路节点确定故障类型,包括:比对同一分组的异常日志中的错误代码,确定故障链路节点;获取故障链路节点的相邻链路节点;根据相邻链路节点的异常日志和故障链路节点的异常日志确定故障类型。
在一个实施例中,计算机程序被处理器执行时实现的根据异常日志确定待分析系统的故障链路节点和故障类型,包括:将异常日志转化成日志元组,日志元组用于描述异常日志特性的键值对数据;根据节点标识对日志元组进行分组;对同一分组的日志元组进行分析,确定故障链路节点,并根据故障链路节点确定故障类型。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种待分析系统的系统故障处理方法,所述方法包括:
周期性获取待分析系统的异常日志,其中,所述异常日志携带有与待分析系统的链路节点对应的节点标识,所述节点标识根据上一链路节点的节点标识和所述链路节点的业务标识生成的;
将所述异常日志中的节点标识进行比对后分组,并基于分组确定所述待分析系统的故障链路节点和故障类型;
统计每一所述故障链路节点对应的所述故障类型的故障频次;
根据预警阈值和所述故障频次生成预警信息,并将所述预警信息发送给维护终端。
2.根据权利要求1所述的方法,其特征在于,所述异常日志的生成方法,包括:
获取业务触发指令,并根据所述业务触发指令生成请求标识;
将所述请求标识发送给与所述业务触发指令对应的微服务链路的链路节点;
控制所述链路节点根据上一链路节点的节点标识和所述链路节点的业务标识生成的节点标识,并根据所述请求标识处理业务生成调用信息;
当调用信息未携带报错状态码时,将所述节点标识发送给下一链路节点;当调用信息携带报错状态码时,根据所述节点标识和所述调用信息生成异常日志。
3.根据权利要求1所述的方法,其特征在于,所述将所述异常日志中的节点标识进行比对后分组,并基于分组确定所述待分析系统的故障链路节点和故障类型,包括:
根据所述节点标识对所述异常日志进行分组;
对同一分组的异常日志进行分析,确定故障链路节点,并根据所述故障链路节点确定故障类型。
4.根据权利要求3所述的方法,其特征在于,所述对同一分组的异常日志进行分析,确定故障链路节点,并根据所述故障链路节点确定故障类型,包括:
比对同一分组的所述异常日志中的错误代码,确定故障链路节点;
获取所述故障链路节点的相邻链路节点;
根据所述相邻链路节点的异常日志和所述故障链路节点的异常日志确定故障类型。
5.根据权利要求1所述的方法,其特征在于,所述将所述异常日志中的节点标识进行比对后分组,并基于分组确定所述待分析系统的故障链路节点和故障类型,包括:
将所述异常日志转化成日志元组,所述日志元组用于描述所述异常日志特性的键值对数据;
根据所述节点标识对所述日志元组进行分组;
对同一分组的日志元组进行分析,确定故障链路节点,并根据所述故障链路节点确定故障类型。
6.一种待分析系统的日志处理装置,其特征在于,所述装置包括:
日志获取模块,用于周期性获取待分析系统的异常日志,其中,所述异常日志携带有与待分析系统的链路节点对应的节点标识,所述节点标识根据上一链路节点的节点标识和所述链路节点的业务标识生成的;
故障分析模块,用于将所述异常日志中的节点标识进行比对后分组,并基于分组确定所述待分析系统的故障链路节点和故障类型;
故障统计模块,用于统计每一所述故障链路节点对应的所述故障类型的故障频次;
预警模块,用于根据预警阈值和所述故障频次生成预警信息,并将所述预警信息发送给维护终端。
7.根据权利要求6所述的装置,其特征在于,所述日志处理装置,包括:
标识生成单元,用于获取业务触发指令,并根据所述业务触发指令生成请求标识;
节点获取单元,用于将所述请求标识发送给与所述业务触发指令对应的微服务链路的链路节点;
反馈信息生成单元,用于控制所述链路节点根据上一链路节点的节点标识和所述链路节点的业务标识生成的节点标识,并根据所述请求标识处理业务生成调用信息;
日志生成单元,用于当调用信息未携带报错状态码时,将所述节点标识发送给下一链路节点;用于当调用信息携带报错状态码时,根据所述节点标识和所述调用信息生成异常日志。
8.根据权利要求6所述的装置,其特征在于,所述故障分析模块包括:
日志分组单元,用于根据所述节点标识对所述异常日志进行分组;
日志分析单元,用于对同一分组的异常日志进行分析,确定故障链路节点,并根据所述故障链路节点确定故障类型。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。
CN201911104696.1A 2019-11-13 2019-11-13 待分析系统的系统故障处理方法、装置、设备和存储介质 Active CN110995468B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911104696.1A CN110995468B (zh) 2019-11-13 2019-11-13 待分析系统的系统故障处理方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911104696.1A CN110995468B (zh) 2019-11-13 2019-11-13 待分析系统的系统故障处理方法、装置、设备和存储介质

Publications (2)

Publication Number Publication Date
CN110995468A CN110995468A (zh) 2020-04-10
CN110995468B true CN110995468B (zh) 2022-07-26

Family

ID=70084094

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911104696.1A Active CN110995468B (zh) 2019-11-13 2019-11-13 待分析系统的系统故障处理方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN110995468B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111722952A (zh) * 2020-05-25 2020-09-29 中国建设银行股份有限公司 业务系统的故障分析方法、系统、设备和存储介质
CN111796955B (zh) * 2020-05-28 2024-05-14 中国建设银行股份有限公司 故障根源定位方法、系统、装置及存储介质
CN111740860B (zh) * 2020-06-15 2023-06-09 中国工商银行股份有限公司 日志数据传输链路监控方法及装置
CN111832943B (zh) * 2020-07-14 2023-11-28 北京思特奇信息技术股份有限公司 硬件设备故障管理方法、装置、电子设备及存储介质
CN111897723A (zh) * 2020-07-20 2020-11-06 腾讯科技(深圳)有限公司 一种测试应用的方法及装置
CN114422340B (zh) * 2020-10-12 2023-10-10 华为技术有限公司 日志上报方法、电子设备及存储介质
CN112732476B (zh) * 2021-01-26 2022-10-21 长威信息科技发展股份有限公司 一种基于微服务的故障定位分析方法及系统
CN113259427B (zh) * 2021-05-08 2022-05-03 德微电技术(深圳)有限公司 一种系统故障快速排查方法、装置及计算机设备
CN113269648A (zh) * 2021-06-10 2021-08-17 中国建设银行股份有限公司 故障节点定位方法及装置、存储介质及电子设备
CN114185502B (zh) * 2021-12-15 2024-05-14 平安科技(深圳)有限公司 基于产线环境的日志打印方法、装置、设备及介质
CN114968637B (zh) * 2022-05-19 2024-03-26 苏州轻棹科技有限公司 一种自动驾驶异常分析系统
CN115190001B (zh) * 2022-07-22 2024-03-08 天翼云科技有限公司 一种网络异常状态分析方法及装置
CN116071049B (zh) * 2023-03-06 2023-12-12 广州疆海科技有限公司 储能设备故障排除方法、装置、计算机设备和存储介质
CN116346590B (zh) * 2023-05-30 2023-07-25 国网汇通金财(北京)信息科技有限公司 一种全链路故障的定位系统
CN117149887A (zh) * 2023-11-01 2023-12-01 建信金融科技有限责任公司 一种异常处理方法、装置、电子设备及计算机可读介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108768752A (zh) * 2018-06-25 2018-11-06 华为技术有限公司 故障定位方法、装置以及系统
CN109710439A (zh) * 2018-12-12 2019-05-03 百度在线网络技术(北京)有限公司 故障处理方法和装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10536347B2 (en) * 2017-06-09 2020-01-14 International Business Machines Corporation Mechanism for fault diagnosis and recovery of network service chains
CN108600045A (zh) * 2018-04-05 2018-09-28 厦门快商通信息技术有限公司 一种服务链路监控方法及装置
CN109697456B (zh) * 2018-11-21 2021-02-09 华为技术有限公司 业务分析方法、装置、设备及存储介质
CN110351136B (zh) * 2019-07-04 2022-06-28 创新先进技术有限公司 一种故障定位方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108768752A (zh) * 2018-06-25 2018-11-06 华为技术有限公司 故障定位方法、装置以及系统
CN109710439A (zh) * 2018-12-12 2019-05-03 百度在线网络技术(北京)有限公司 故障处理方法和装置

Also Published As

Publication number Publication date
CN110995468A (zh) 2020-04-10

Similar Documents

Publication Publication Date Title
CN110995468B (zh) 待分析系统的系统故障处理方法、装置、设备和存储介质
CN110113224B (zh) 容量监控方法、装置、计算机设备及存储介质
CN111143163B (zh) 数据监控方法、装置、计算机设备和存储介质
CN107678869B (zh) 客户端异常定位方法、装置、计算机设备和存储介质
EP2800024A1 (en) System and methods for identifying applications in mobile networks
CN111176941B (zh) 一种数据处理的方法、装置和存储介质
US11809406B2 (en) Event records in a log file
CN111193608B (zh) 网络质量探测监控方法、装置、系统和计算机设备
CN110149421B (zh) 域名系统的异常监测方法、系统、装置和计算机设备
CN112491659B (zh) 一种流量回放测试方法、装置、计算机设备和存储介质
CN108965049B (zh) 提供集群异常解决方案的方法、设备、系统及存储介质
CN112434039A (zh) 数据的存储方法、装置、存储介质以及电子装置
CN110674028A (zh) 故障注入方法及其装置、业务服务系统
CN111475324A (zh) 日志信息的分析方法、装置、计算机设备和存储介质
CN111585837A (zh) 物联网数据链路监控方法、装置、计算机设备和存储介质
CN113704018A (zh) 应用运维数据处理方法、装置、计算机设备及存储介质
CN113709126A (zh) 网络协议安全模糊测试方法、装置、设备以及存储介质
CN111224939B (zh) 任务请求的拦截方法、装置、计算机设备和存储介质
CN111752819B (zh) 一种异常监控方法、装置、系统、设备和存储介质
CN110609761B (zh) 确定故障源的方法、装置、存储介质和电子设备
CN115242621B (zh) 网络专线监控方法、装置、设备及计算机可读存储介质
CN110555017A (zh) 区块链数据清理方法、装置、计算机设备和存储介质
CN115328814A (zh) 基于镜像对的故障注入方法、装置、设备和存储介质
CN114385498A (zh) 性能测试方法、系统、计算机设备及可读存储介质
CN107968720B (zh) 一种信息传输方法及云系统、组件

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant