CN111666173B - 报错信息处理方法、装置、监控系统和介质 - Google Patents
报错信息处理方法、装置、监控系统和介质 Download PDFInfo
- Publication number
- CN111666173B CN111666173B CN202010526305.1A CN202010526305A CN111666173B CN 111666173 B CN111666173 B CN 111666173B CN 202010526305 A CN202010526305 A CN 202010526305A CN 111666173 B CN111666173 B CN 111666173B
- Authority
- CN
- China
- Prior art keywords
- cluster
- error reporting
- time period
- error
- reporting information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0706—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
- G06F11/0709—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0751—Error or fault detection not based on redundancy
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0766—Error or fault reporting or storing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Debugging And Monitoring (AREA)
Abstract
本公开提供了一种集群系统的报错信息处理方法,集群系统包括至少一个集群。该方法包括:针对上述至少一个集群中的任一集群A,监测该集群A在预定时间周期中的预定时段内生成的多个报错信息。基于上述多个报错信息,确定该集群A在预定时间周期内的报错特征。然后,确定该集群A在预定时间周期内的报错特征与该集群A在预定时间周期的在前预定时间周期内的报错特征之间的第一差异。当第一差异符合第一预定条件时,确定该集群A在预定时间周期内发生异常。本公开还提供了一种集群系统的报错信息处理装置、监控系统和介质。
Description
技术领域
本公开涉及计算机技术领域,更具体地,涉及一种报错信息处理方法、装置、监控系统和介质。
背景技术
目前针对集群系统的监控方案大多是针对一个或多个预定报错代码进行监控。例如扫描某个指定的系统错误报错信息,针对一段时间内监测到的该系统错误报错信息后,进行统计,报错次数达到阀值后进行报警。这种方式需要预先明确知道需要监控的特定报错信息。上述特定报错信息往往是通过以下方式获取到的:在被监控的集群系统出现问题后,对所出现问题相关的报错信息进行梳理,从而可以获知针对该问题而产生的特定报错信息,再将该特定报错信息存入监控系统。监控系统基于已存的一个或多个特定报错信息进行上文所述的监控过程。可以理解,该监控过程相对于问题的产生具有滞后性,针对集群系统中首次出现的一些问题,无法及时监控发现,可能影响正常业务运行。
发明内容
本公开的一个方面提供了一种集群系统的报错信息处理方法,集群系统包括至少一个集群。该方法包括:针对上述集群系统中的任一集群A,监测该集群A在预定时间周期中的预定时段内生成的多个报错信息。基于上述多个报错信息,确定该集群A在预定时间周期内的报错特征。然后,确定该集群A在预定时间周期内的报错特征与该集群A在预定时间周期的在前预定时间周期内的报错特征之间的第一差异。当第一差异符合第一预定条件时,确定该集群A在预定时间周期内发生异常。
可选地,上述至少一个集群包括M个集群,M为大于1的整数。该方法还包括:针对上述任一集群A,确定该集群A在预定时间周期内的报错特征与上述M个集群中除该集群A之外的M-1个集群在预定时间周期内的报错特征之间的第二差异。当第二差异符合第二预定条件时,确定该集群A在预定时间周期内发生异常。
可选地,上述基于多个报错信息,确定任一集群A在预定时间周期内的报错特征包括:按照报错次数降序从上述多个报错信息中选取第一预定数量个报错信息,以得到集群A在所述预定时间周期内的报错序列。
可选地,上述确定任一集群A在预定时间周期内的报错特征与该集群A在预定时间周期的在前预定时间周期内的报错特征之间的第一差异包括:确定该集群A在预定时间周期内的第一报错序列与该集群A在上述在前预定时间周期内的第二报错序列之间的第一差异。上述确定任一集群A在预定时间周期内的报错特征与上述M个集群中除该集群A之外的M-1个集群在预定时间周期内的报错特征之间的第二差异包括:确定该集群A在预定时间周期内的第一报错序列与上述M-1个集群各自在预定时间周期内的第三报错序列之间的第二差异。
可选地,第一差异符合第一预定条件包括:上述多个报错信息中存在任一报错信息满足以下情况:该任一报错信息在第一报错序列中的位置相比于该任一报错信息在第二报错序列中的位置前进了第一数量位、且第一数量大于第二预定数量。并且/或者,第一报错序列中存在任一报错信息而第二报错序列中不存在该任一报错信息。
可选地,第二差异符合第二预定条件包括:所述多个报错信息中存在任一报错信息满足以下情况:该任一报错信息在第一报错序列中的位置相比于该任一报错信息在上述M-1个集群各自的第三报错序列中的位置均前进了第二数量位、且第二数量大于第三预定数量。并且/或者,第一报错序列中存在任一报错信息而上述M-1个集群各自的第三报错序列中均不存在该任一报错信息。
可选地,上述多个报错信息包括:至少一个系统错误报错信息和至少一个业务错误报错信息。上述方法还包括:从上述多个报错信息中筛除上述至少一个业务错误报错信息。上述基于多个报错信息,确定任一集群A在预定时间周期内的报错特征包括:基于上述至少一个系统错误报错信息,确定该集群A在预定时间周期内的报错特征。
本公开的另一方面提供了一种集群系统的报错信息处理装置,所述集群系统包括至少一个集群。该装置包括:监测模块、特征确定模块、差异确定模块和异常确定模块。监测模块用于针对上述集群系统中的任一集群A,监测该集群A在预定时间周期中的预定时段内生成的多个报错信息。特征确定模块用于基于上述多个报错信息,确定该集群A在预定时间周期内的报错特征。差异确定模块用于确定该集群A在预定时间周期内的报错特征与该集群A在预定时间周期的在前预定时间周期内的报错特征之间的第一差异。异常确定模块用于当第一差异符合第一预定条件时,确定该集群A在预定时间周期内发生异常。
本公开的另一方面提供了一种监控系统,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时用于实现如上所述的方法。
本公开的另一方面提供了一种计算机可读存储介质,存储有计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。
本公开的另一方面提供了一种计算机程序,所述计算机程序包括计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。
根据本公开的实施例,报错信息处理方法实现了基于报错信息的变化来针对集群系统进行异常监控的监控方案。根据本公开的实施例,针对集群系统中的任一集群A,基于该集群A在预定时间周期内产生的报错信息来确定该集群A在该预定时间周期内的报错特征。并基于该集群A在不同预定时间周期内的报错特征的变化来确定该集群A是否出现异常。该过程无需专门针对特定报错信息进行监控,故无需预置特定报错信息,进而也就无需等待集群出现问题后再获取特定报错信息。在集群每次运行出现异常时,均会导致报错信息的变化,可以及时地监控到集群当前的运行状态,并在出现异常后及时进行处理,提高了监控方案的时效性。
附图说明
为了更完整地理解本公开及其优势,现在将参考结合附图的以下描述,其中:
图1示意性示出了根据本公开实施例的应用报错信息处理方法和装置的示例性系统架构;
图2示意性示出了根据本公开实施例的集群系统的报错信息处理方法的流程图;
图3示意性示出了根据本公开另一实施例的集群系统的报错信息处理方法的流程图;
图4示意性示出了根据本公开实施例的第一报错序列和第二报错序列的示例示意图;
图5示意性示出了根据本公开实施例的集群系统的报错信息处理装置的框图;以及
图6示意性示出了根据本公开实施例的监控系统的框图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。
本公开的实施例提供了一种集群系统的报错信息处理方法和装置,用于针对集群系统进行监控,该集群系统可以包括至少一个集群。该报错信息处理方法可以包括监测过程、特征确定过程、差异确定过程和异常确定过程。针对上述集群系统中的任一集群A,在监测过程中,监测该集群A在预定时间周期中的预定时段内生成的多个报错信息。然后进行特征确定过程,基于上述多个报错信息,确定该集群A在预定时间周期内的报错特征。在差异确定过程,可以确定该集群A在预定时间周期内的报错特征与该集群A在预定时间周期的在前预定时间周期内的报错特征之间的第一差异。当第一差异符合第一预定条件时,进行异常确定过程,确定该集群A在预定时间周期内发生异常。
图1示意性示出了根据本公开实施例的可以应用报错信息处理方法和装置的示例性系统架构100。需要注意的是,图1所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。
如图1所示,根据该实施例的系统架构100可以包括集群系统110和监控系统120。集群系统110例如可以是用于提供各种服务支持的大型主机系统(仅为示例),具有较高的可靠性和稳定性,用于进行业务相关的各种数据的分析处理等。本例中,集群系统110可以包括集群111~115。监控系统120可以是具有计算能力的各种电子设备,包括但不限于服务器、膝上型便携计算机和台式计算机等等。
监控系统120上可以安装有各种客户端应用,例如监控类应用等(仅为示例)。监控系统120可以通过以上客户端应用与集群系统110对外暴露的安全端口进行交互,以在集群系统110运行过程中从集群系统110的各个集群实时获取监控数据存放至数据库并进行分析处理以得到集群系统110中各个集群的运行状态。
需要说明的是,本公开实施例所提供的报错信息处理方法一般可以由监控系统120执行。相应地,本公开实施例所提供的报错信息处理装置一般可以设置于监控系统120中。本公开实施例所提供的报错信息处理方法也可以由不同于监控系统120且能够与监控系统120和/或集群系统110通信的服务器或服务器集群执行。相应地,本公开实施例所提供的报错信息处理装置也可以设置于不同于监控系统120且能够与监控系统120和/或集群系统110通信的服务器或服务器集群中。在另一实施例中,本公开实施例所提供的报错信息处理方法也可以由集群系统110自身执行。相应地,本公开实施例所提供的报错信息处理装置可以设置于集群系统110的一个或多个集群中。
应该理解,图1中的监控系统、集群系统和集群的数目和类型仅仅是示意性的。根据实际需要,可以具有任意数目的监控系统、集群系统和集群。
目前针对集群系统的监控方案大多是针对一个或多个预定报错代码进行监控。例如扫描某个指定的系统错误报错信息,针对一段时间内监测到的该系统错误报错信息后,进行统计,报错次数达到阀值后进行报警。这种方式需要预先明确知道需要监控的特定报错信息。上述特定报错信息往往是通过以下方式获取到的:在被监控的集群系统出现问题后,对所出现问题相关的报错信息进行梳理,从而可以获知针对该问题而产生的特定报错信息,再将该特定报错信息存入监控系统。监控系统基于已存的一个或多个特定报错信息进行上文所述的监控过程。可以理解,该监控过程相对于问题的产生具有滞后性,针对集群系统中首次出现的一些问题,无法及时监控发现,可能影响正常业务运行。
根据本公开的实施例,提供了一种报错信息处理方法,可以用于提高监控方案的时效性。下面结合附图进行示例性说明。应注意,以下方法中各个操作的序号仅作为该操作的表示以便描述,而不应被看作表示该各个操作的执行顺序。除非明确指出,否则该方法不需要完全按照所示顺序来执行。
图2示意性示出了根据本公开实施例的报错信息处理方法的流程图,可以用于针对集群系统进行监控,该集群系统可以包括至少一个集群,该至少一个集群可以用于提供各种功能和服务。
如图2所示,该报错信息处理方法可以包括操作S210~S240,以下操作均可以针对上述至少一个集群中的任一集群执行,下面以集群A为例进行说明。
在操作S210,监测集群A在预定时间周期中的预定时段内生成的多个报错信息。
其中,集群系统中的任一集群A在运行过程中会不断产生日志消息以记录自身的运行情况。当出现运行错误时,会产生相应的报错信息(属于一种类别的日志消息)。报错信息例如可以包括系统错误报错信息和业务错误报错信息。系统错误报错信息为应用系统技术层面的报错信息,例如程序错误、连接某个第三方系统失败、程序返回信息不符合原设计等等。业务错误报错信息为遵循业务逻辑产生的正常报错信息,例如某理财产品销售已达到限额,无法继续购买,某业务非业务办理时间等等。
一个预定时间周期可以包括一个或多个预定时段。本操作S210所监测的对象为:集群系统中的任一集群A在每个预定时间周期中的预定时段内所产生的报错信息。在该预定时段内,同一报错信息的出现次数为该报错信息的报错次数。预定时间周期和预定时段可以根据监控需求和监控粒度进行设置,在此不做限制。
在操作S220,基于上述多个报错信息,确定该集群A在预定时间周期内的报错特征。
示例性地,例如预定时间周期为1天,预定时段为每天0点至12点。针对集群A,基于该集群A在第i天的预定时段内产生的报错信息,可以确定该集群A在第i天内的报错特征。同理地,基于该集群A在第i-1天的预定时段内产生的报错信息,可以确定该集群A在第i-1天内的报错特征。其中i为大于1的整数。
在操作S230,确定该集群A在预定时间周期内的报错特征与该集群A在预定时间周期的在前预定时间周期内的报错特征之间的第一差异。
其中,预定时间周期的在前预定时间周期是指预定时间周期的前一个预定时间周期。在上文中的例子中,预定时间周期第i天的在前预定时间周期为第i-1天。如果预定时间周期为1个小时,预定时间周期第i个小时的在前预定时间周期为第i-1个小时。本操作S230将同一集群在前后两个预定时间周期内的报错特征进行比较,以确定该集群在相邻两个预定时间周期中报错特征的变化,即确定二者之间的第一差异。
在操作S240,当第一差异符合第一预定条件时,确定该集群A在预定时间周期内发生异常。
示例性地,第一预定条件用于定义变化趋势和变化幅度。当第一差异符合第一预定条件时,表征同一集群在前后两个预定时间周期内报错信息发生了较为剧烈和/或突然的变化,说明该集群在预定时间周期内发生异常。
本领域技术人员可以理解,根据本公开实施例的报错信息处理方法实现了基于报错信息的变化来针对集群系统进行异常监控的监控方案。根据本公开的实施例,针对集群系统中的任一集群,基于该集群在预定时间周期内产生的报错信息来确定该集群在该预定时间周期内的报错特征。并基于该集群在不同预定时间周期内的报错特征的变化来确定该集群是否出现异常。该过程无需专门针对特定报错信息进行监控,故无需预置特定报错信息,进而也就无需等待集群出现问题后再获取特定报错信息。在集群每次运行出现异常时,均会导致报错信息的变化,可以及时地监控到集群当前的运行状态,并在出现异常后及时进行处理,提高了监控方案的时效性。
图3示意性示出了根据本公开另一实施例的报错信息处理方法的流程图,可以用于针对集群系统进行监控,该集群系统可以包括包括M个集群,M为大于1的整数。
如图3所示,该报错信息处理方法可以包括操作S310~S340。
在操作S310,监测M个集群中的每个集群在预定时间周期中的预定时段内生成的多个报错信息。
在操作S320,基于每个集群在预定时间周期中的预定时段内生成的多个报错信息,确定每个集群在预定时间周期内的报错特征。
通过上述操作S310~操作S320,可以获得M个集群各自在预定时间周期内的报错特征,例如确定第1个集群的报错特征为C1,第2个集群的报错特征为C2,……,第M个集群的报错特征为CM。针对每个集群的监测过程和确定报错特征的过程在上文中已说明,在此不再赘述。接着针对M个集群中的任一集群A可以执行如下操作。
在操作S330,确定该集群A在预定时间周期内的报错特征与上述M个集群中除该集群A之外的M-1个集群在预定时间周期内的报错特征之间的第二差异。
其中,将不同集群在同一预定时间周期内的报错特征进行比较,以确定同一预定时间周期内不同集群的报错特征的变化,即确定二者之间的第二差异。根据本公开的实施例,针对集群A,该集群A与其他M-1个集群中的每个集群之间的第二差异均可比较得到,即可以确定一个或多个第二差异。
在操作S340,当第二差异符合第二预定条件时,确定该集群A在预定时间周期内发生异常。
示例性地,第二预定条件用于定义变化趋势和变化幅度。当第二差异符合第一预定条件时,表征在同一预定时间周期内,一个集群与其他集群相比发生了较为剧烈和/或突然的变化,说明该集群在预定时间周期内发生异常。
本领域技术人员可以理解,根据本公开实施例的报错信息处理方法实现了基于报错信息的变化来针对集群系统进行异常监控的监控方案。根据本公开的实施例,针对集群系统中的任一集群,基于该集群在预定时间周期内产生的报错信息来确定该集群在该预定时间周期内的报错特征。并基于同一预定时间周期内该集群与其他集群相比的报错特征的变化来确定该集群是否出现异常。该过程无需专门针对特定报错信息进行监控,故无需预置特定报错信息,进而也就无需等待集群出现问题后再获取特定报错信息。在集群每次运行出现异常时,均会导致报错信息的变化,可以及时地监控到集群当前的运行状态,并在出现异常后及时进行处理,提高了监控方案的时效性。
根据本公开的实施例,上述基于预定时间周期内的多个报错信息,确定集群A在预定时间周期内的报错特征的过程可以包括:按照报错次数降序从上述多个报错信息中选取第一预定数量个报错信息,以得到集群A在预定时间周期内的报错序列。
上文已经提到,在实际业务场景中,报错信息例如可以包括系统错误报错信息和业务错误报错信息。通常情况下,业务错误报警信息针对业务逻辑错误,一般不涉及被监控的集群系统的自身性能问题。为提高监控效率,可以仅针对系统错误报错信息执行如图2和图3所示的操作。示例性地,上述多个报错信息包括:至少一个系统错误报错信息和至少一个业务错误报错信息。根据本公开实施例的报错信息处理方法还可以包括:从上述多个报错信息中筛除上述至少一个业务错误报错信息,仅保留至少一个系统错误报错信息。在此基础上,上述基于多个报错信息,确定任一集群A在预定时间周期内的报错特征包括:基于上述至少一个系统错误报错信息,确定该集群A在预定时间周期内的报错特征。
例如,可以在设计阶段对业务错误报错信息和系统错误报错信息进行标识、区分,以便于后续分析时做不同对待。对预定时间周期的预定时段(例如1天或1小时)的报错信息进行统计、排名,剔除其中的业务错误报错信息,获取系统错误报错信息中报错次数最多的10个报错信息(TOP10),并按照报错次数从高至低的顺序进行排列,以形成报错序列。将每一个预定时间周期的系统错误报错信息TOP10保存下来,每一次统计最新时段的系统错误报错信息TOP10后,将其与前一个相似时段的系统错误报错信息TOP10进行纵向对比,或者进行与其他集群在同一时段的横向对比。
在此基础上,根据本公开的实施例,上述确定任一集群A在预定时间周期内的报错特征与该集群A在预定时间周期的在前预定时间周期内的报错特征之间的第一差异的过程可以包括:确定该集群A在预定时间周期内的第一报错序列与该集群A在上述在前预定时间周期内的第二报错序列之间的第一差异。
示例性地,根据本公开实施例的报错信息处理方法还可以包括:确定第一差异是否符合第一预定条件。该过程可以包括:针对任一报错信息,如果该任一报错信息在第一报错序列中的位置相比于该任一报错信息在第二报错序列中的位置前进了第一数量位、且第一数量大于第二预定数量,则确定第一差异符合第一预定条件。并且/或者,如果第一报错序列中存在任一报错信息而第二报错序列中不存在该任一报错信息,则确定第一差异符合第一预定条件。
图4示意性示出了根据本公开实施例的第一报错序列和第二报错序列的示例示意图。
如图4所示,展示了集群A在预定时间周期内的第一报错序列410和集群A在预定时间周期的在前预定时间周期内的第二报错序列420。比较第一报错序列410和第二报错序列420可知,一个报错信息a在第二报错序列420的排序位置为第9位,而该报错信息a在第一报错序列410的排序位置为第2位。第一差异表征:相比于第二报错序列420,报错信息a在第一报错序列410中的位置前进了9-2=7位,表征报错信息a的排序位置突然大幅提前。例如预先设置第二预定数量为5,则可以确定第一差异符合第一预定条件,进而确定集群A在预定时间周期内发生异常,更为具体地,是集群A中报错信息a所针对的功能和/或设备发生异常。在另一例子中,如果第一差异表征:相比于第二报错序列420,第一报错序列410中出现了第二报错序列420所没有的报错信息b,表征报错信息b突然出现,则可以确定第一差异符合第一预定条件,进而确定集群A在预定时间周期内发生异常,更为具体地,是集群A中报错信息b所针对的功能和/或设备发生异常。
可以理解,本实施例根据每个报错信息的排名差异情况,判断是否出现异常。例如某一个报错信息排名突然大幅提前和/或某个报错信息突然出现,如有此类情况,则确定该集群出现异常,并针对此报错及该报错对应的功能或系统进行自动报警,技术人员接收到报警信息后针对该功能或系统进行排查、应急等处理。
相应地,根据本公开的实施例,上述确定任一集群A在预定时间周期内的报错特征与上述M个集群中除该集群A之外的M-1个集群在预定时间周期内的报错特征之间的第二差异的过程可以包括:确定该集群A在预定时间周期内的第一报错序列与上述M-1个集群各自在预定时间周期内的第三报错序列之间的第二差异。
示例性地,根据本公开实施例的报错信息处理方法还可以包括:确定第二差异是否符合第二预定条件。该过程可以包括:针对任一报错信息,如果该任一报错信息在第一报错序列中的位置相比于该任一报错信息在上述M-1个集群各自的第三报错序列中的位置均前进了第二数量位、且第二数量大于第三预定数量,则确定第二差异符合第二预定条件。并且/或者,如果第一报错序列中存在任一报错信息而上述M-1个集群各自的第三报错序列中均不存在该任一报错信息,则确定第二差异符合第二预定条件。
确定第二差异是否表征某个报错信息的排名是否大幅提前,或者某个报错信息是否突然出现等的过程,与上文中图4所示的判定方法类似,在此不再赘述。针对集群A,可以将集群A在预定时间周期内的第一报错序列与其他M-1个集群中的每个集群在预定时间周期内的第三报错序列进行比较,以得到集群A与每个其他集群之间的第二差异。如果集群A与其他M-1个集群中的任一集群之间的第二差异均符合上文所述判定条件,则可以确定第二差异符合第二预定条件,进而确定集群A在预定时间周期内发生异常,更为具体地,是集群A中报错信息b所针对的功能和/或设备发生异常。
可以理解,目前重点应用系统普遍拥有多个提供相同功能和服务的集群。在这种环境下,每个时段的系统错误报错信息TOP10还要进行横向对比,即在多个集群间进行同一时段的报错量TOP10对比,判断是否有某个集群单独出现问题。例如某一个报错信息排名在某个集群突然大幅提前和/或某个报错信息突然出现,且只出现在某个集群等。如有此类情况,则确定该集群出现异常,并针对此报错及该报错对应的功能或系统及所属集群进行自动报警,技术人员接收到报警信息后针对该功能或系统以及所属集群进行排查、应急等处理。
根据本公开的实施例,针对敏感应用系统,以报错信息为切入点,对报错信息进行宏观统计和分析。从大量数据中通过排除正常业务报错信息,筛选出非正常业务报错的变化趋势,并通过对比前一时段的变化趋势,分析应用系统异常情况,提升监控时效,尽早发现敏感应用的系统级问题。
图5示意性示出了根据本公开实施例的集群系统的报错信息处理装置的框图,可以针对各种类型的集群系统进行监控。集群系统可以包括至少一个集群。
如图5所示,报错信息处理装置500可以包括:监测模块510、特征确定模块520、差异确定模块530和异常确定模块540。
监测模块510用于针对上述集群系统中的任一集群A,监测该集群A在预定时间周期中的预定时段内生成的多个报错信息。
特征确定模块520用于基于上述多个报错信息,确定该集群A在预定时间周期内的报错特征。
差异确定模块530用于确定该集群A在预定时间周期内的报错特征与该集群A在预定时间周期的在前预定时间周期内的报错特征之间的第一差异。
异常确定模块540用于当第一差异符合第一预定条件时,确定该集群A在预定时间周期内发生异常。
需要说明的是,装置部分实施例中各模块/单元/子单元等的实施方式、解决的技术问题、实现的功能、以及达到的技术效果分别与方法部分实施例中各对应的步骤的实施方式、解决的技术问题、实现的功能、以及达到的技术效果相同或类似,在此不再赘述。
根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
例如,监测模块510、特征确定模块520、差异确定模块530和异常确定模块540中的任意多个可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本公开的实施例,监测模块510、特征确定模块520、差异确定模块530和异常确定模块540中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,监测模块510、特征确定模块520、差异确定模块530和异常确定模块540中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
图6示意性示出了根据本公开实施例的适于实现上文描述的方法的监控系统的方框图。图6示出的监控系统仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图6所示,根据本公开实施例的监控系统600包括处理器601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。处理器601例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC)),等等。处理器601还可以包括用于缓存用途的板载存储器。处理器601可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 603中,存储有系统600操作所需的各种程序和数据。处理器601、ROM 602以及RAM 603通过总线604彼此相连。处理器601通过执行ROM 602和/或RAM 603中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除ROM 602和RAM 603以外的一个或多个存储器中。处理器601也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
根据本公开的实施例,系统600还可以包括输入/输出(I/O)接口605,输入/输出(I/O)接口605也连接至总线604。系统600还可以包括连接至I/O接口605的以下部件中的一项或多项:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
根据本公开的实施例,根据本公开实施例的方法流程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被处理器601执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,尽管已经参照本公开的特定示例性实施例示出并描述了本公开,但是本领域技术人员应该理解,在不背离所附权利要求及其等同物限定的本公开的精神和范围的情况下,可以对本公开进行形式和细节上的多种改变。因此,本公开的范围不应该限于上述实施例,而是应该不仅由所附权利要求来进行确定,还由所附权利要求的等同物来进行限定。
Claims (9)
1.一种集群系统的报错信息处理方法,所述集群系统包括至少一个集群,所述方法包括:
针对所述集群系统中的任一集群A,其中,所述集群系统包括M个集群,M为大于1的整数;
监测所述集群A在预定时间周期中的预定时段内生成的多个报错信息;
基于所述多个报错信息,确定所述集群A在所述预定时间周期内的报错特征;
确定所述集群A在所述预定时间周期内的报错特征与所述集群A在所述预定时间周期的在前预定时间周期内的报错特征之间的第一差异;
当所述第一差异符合第一预定条件时,确定所述集群A在所述预定时间周期内发生异常;
确定所述集群A在所述预定时间周期内的报错特征与所述M个集群中除所述集群A之外的M-1个集群在所述预定时间周期内的报错特征之间的第二差异;以及
当所述第二差异符合第二预定条件时,确定所述集群A在所述预定时间周期内发生异常。
2.根据权利要求1所述的方法,其中,所述基于所述多个报错信息,确定所述集群A在所述预定时间周期内的报错特征包括:
按照报错次数降序从所述多个报错信息中选取第一预定数量个报错信息,得到集群A在所述预定时间周期内的报错序列。
3.根据权利要求2所述的方法,其中,
所述确定所述集群A在所述预定时间周期内的报错特征与所述集群A在所述预定时间周期的在前预定时间周期内的报错特征之间的第一差异包括:确定所述集群A在所述预定时间周期内的第一报错序列与所述集群A在所述在前预定时间周期内的第二报错序列之间的第一差异;
所述确定所述集群A在所述预定时间周期内的报错特征与所述M个集群中除所述集群A之外的M-1个集群在所述预定时间周期内的报错特征之间的第二差异包括:确定所述集群A在所述预定时间周期内的第一报错序列与所述M-1个集群各自在所述预定时间周期内的第三报错序列之间的第二差异。
4.根据权利要求3所述的方法,其中,所述第一差异符合第一预定条件包括:所述多个报错信息中存在任一报错信息满足
在所述第一报错序列中的位置相比于所述任一报错信息在所述第二报错序列中的位置前进了第一数量位、且所述第一数量大于第二预定数量;并且/或者
在所述第一报错序列中存在而所述第二报错序列中不存在的情况。
5.根据权利要求3所述的方法,其中,所述第二差异符合第二预定条件包括:所述多个报错信息中存在任一报错信息满足
在所述第一报错序列中的位置相比于所述任一报错信息在所述M-1个集群各自的第三报错序列中的位置均前进了第二数量位、且所述第二数量大于第三预定数量;并且/或者
在所述第一报错序列中存在而所述M-1个集群各自的第三报错序列中均不存在的情况。
6.根据权利要求1所述的方法,其中,所述多个报错信息包括:至少一个系统错误报错信息和至少一个业务错误报错信息;
所述方法还包括:从所述多个报错信息中筛除所述至少一个业务错误报错信息;
所述基于所述多个报错信息,确定所述集群A在所述预定时间周期内的报错特征包括:基于所述至少一个系统错误报错信息,确定所述集群A在所述预定时间周期内的报错特征。
7.一种集群系统的报错信息处理装置,所述集群系统包括至少一个集群,所述装置包括:
监测模块,用于针对所述集群系统中的任一集群A,监测所述集群A在预定时间周期中的预定时段内生成的多个报错信息,其中,所述集群系统包括M个集群,M为大于1的整数;
特征确定模块,用于基于所述多个报错信息,确定所述集群A在所述预定时间周期内的报错特征;
差异确定模块,用于:确定所述集群A在所述预定时间周期内的报错特征与所述集群A在所述预定时间周期的在前预定时间周期内的报错特征之间的第一差异;以及,确定所述集群A在所述预定时间周期内的报错特征与所述M个集群中除所述集群A之外的M-1个集群在所述预定时间周期内的报错特征之间的第二差异;以及
异常确定模块,用于当所述第一差异符合第一预定条件或者所述第二差异符合第二预定条件时,确定所述集群A在所述预定时间周期内发生异常。
8.一种监控系统,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时用于实现如权利要求1~6任一项所述的方法。
9.一种计算机可读介质,存储有计算机程序,所述计算机程序被执行时用于实现如权利要求1~6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010526305.1A CN111666173B (zh) | 2020-06-10 | 2020-06-10 | 报错信息处理方法、装置、监控系统和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010526305.1A CN111666173B (zh) | 2020-06-10 | 2020-06-10 | 报错信息处理方法、装置、监控系统和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111666173A CN111666173A (zh) | 2020-09-15 |
CN111666173B true CN111666173B (zh) | 2023-09-05 |
Family
ID=72386812
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010526305.1A Active CN111666173B (zh) | 2020-06-10 | 2020-06-10 | 报错信息处理方法、装置、监控系统和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111666173B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103793284A (zh) * | 2012-10-29 | 2014-05-14 | 伊姆西公司 | 基于共同序列模式的、用于智能客户服务的分析系统和方法 |
CN108599995A (zh) * | 2018-03-28 | 2018-09-28 | 北京大米科技有限公司 | 网络线路故障判定方法及服务器 |
CN109614291A (zh) * | 2018-12-11 | 2019-04-12 | 上海连尚网络科技有限公司 | 报警方法和装置 |
CN110008077A (zh) * | 2018-11-06 | 2019-07-12 | 阿里巴巴集团控股有限公司 | 一种异常报警监控方法及装置、一种计算设备及存储介质 |
CN110471822A (zh) * | 2019-08-15 | 2019-11-19 | 中国工商银行股份有限公司 | 用于监控主机系统的方法、装置、计算机系统和介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11683234B2 (en) * | 2015-07-14 | 2023-06-20 | Netflix, Inc. | Server outlier detection |
-
2020
- 2020-06-10 CN CN202010526305.1A patent/CN111666173B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103793284A (zh) * | 2012-10-29 | 2014-05-14 | 伊姆西公司 | 基于共同序列模式的、用于智能客户服务的分析系统和方法 |
CN108599995A (zh) * | 2018-03-28 | 2018-09-28 | 北京大米科技有限公司 | 网络线路故障判定方法及服务器 |
CN110008077A (zh) * | 2018-11-06 | 2019-07-12 | 阿里巴巴集团控股有限公司 | 一种异常报警监控方法及装置、一种计算设备及存储介质 |
CN109614291A (zh) * | 2018-12-11 | 2019-04-12 | 上海连尚网络科技有限公司 | 报警方法和装置 |
CN110471822A (zh) * | 2019-08-15 | 2019-11-19 | 中国工商银行股份有限公司 | 用于监控主机系统的方法、装置、计算机系统和介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111666173A (zh) | 2020-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022068645A1 (zh) | 数据库故障发现方法、装置、电子设备及存储介质 | |
US11061756B2 (en) | Enabling symptom verification | |
US10263833B2 (en) | Root cause investigation of site speed performance anomalies | |
KR101114093B1 (ko) | 컴퓨터 시스템의 컨피규레이션 오류를 다른 컴퓨터 시스템의 컨피규레이션에 기초하여 문제 해결하기 위한 방법 및시스템 | |
US20170155570A1 (en) | Analysis of site speed performance anomalies caused by server-side issues | |
JP7069399B2 (ja) | コンピュータセキュリティインシデントを報告するためのシステムおよび方法 | |
US11567756B2 (en) | Causality determination of upgrade regressions via comparisons of telemetry data | |
US11886285B2 (en) | Cross-correlation of metrics for anomaly root cause identification | |
US10019309B2 (en) | Analytics-based dynamic adaptation of client-server mobile applications | |
US10504026B2 (en) | Statistical detection of site speed performance anomalies | |
US11934972B2 (en) | Configuration assessment based on inventory | |
CN110062926B (zh) | 设备驱动器遥测 | |
CN111581055B (zh) | 业务系统的控制方法及装置、电子设备和可读存储介质 | |
CN115495424A (zh) | 数据处理的方法、电子设备和计算机程序产品 | |
CN111666173B (zh) | 报错信息处理方法、装置、监控系统和介质 | |
US10467082B2 (en) | Device driver verification | |
CN114676020A (zh) | 缓存系统的性能监控方法、装置、电子设备及存储介质 | |
CN111581044A (zh) | 集群优化方法、装置、服务器及介质 | |
US11900179B1 (en) | Detection of abnormal application programming interface (API) sessions including a sequence of API requests | |
US11921847B1 (en) | Detection of abnormal application programming interface (API) sessions including a sequence of API requests using space partitioning data structures | |
CN114844810B (zh) | 心跳数据处理方法、装置、设备及介质 | |
CN117130880A (zh) | 数据处理方法、装置、设备、存储介质和程序产品 | |
CN117130887A (zh) | 数据处理方法、数据处理装置、电子设备及存储介质 | |
CN117170914A (zh) | 故障定位方法、装置、计算机系统和可读存储介质 | |
CN116225714A (zh) | 信息处理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |