CN107301125A - 一种寻找根源错误的方法、装置及电子设备 - Google Patents

一种寻找根源错误的方法、装置及电子设备 Download PDF

Info

Publication number
CN107301125A
CN107301125A CN201710464925.5A CN201710464925A CN107301125A CN 107301125 A CN107301125 A CN 107301125A CN 201710464925 A CN201710464925 A CN 201710464925A CN 107301125 A CN107301125 A CN 107301125A
Authority
CN
China
Prior art keywords
error
type
hierarchical relationship
root
target service
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710464925.5A
Other languages
English (en)
Other versions
CN107301125B (zh
Inventor
匡凌轩
黄华
黄一华
陈高昌
邱吉雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Huaduo Network Technology Co Ltd
Original Assignee
Guangzhou Huaduo Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Huaduo Network Technology Co Ltd filed Critical Guangzhou Huaduo Network Technology Co Ltd
Priority to CN201710464925.5A priority Critical patent/CN107301125B/zh
Publication of CN107301125A publication Critical patent/CN107301125A/zh
Application granted granted Critical
Publication of CN107301125B publication Critical patent/CN107301125B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/3604Software analysis for verifying properties of programs
    • G06F11/3608Software analysis for verifying properties of programs using formal methods, e.g. model checking, abstract interpretation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/302Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3447Performance evaluation by modeling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/465Distributed object oriented systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请提供一种寻找根源错误的方法、装置及电子设备,所述方法包括:接收到目标业务进程独立上报的错误类型和对应于所述错误类型的属性数据;基于预设的错误模型确定所述目标业务进程上报的各错误类型之间的层级关系;其中,所述错误模型包括若干具有层级关系的错误类型,其中任一层级的错误类型,为下一层级错误类型的发生原因;基于所述层级关系确定所述目标业务进程上报的各错误类型中的根源错误类型,并基于该根源错误类型对应的属性数据进一步确定所述目标业务进程的根源错误。本申请可以通过预设的错误模型,及时确定目标业务进程的根源错误。

Description

一种寻找根源错误的方法、装置及电子设备
技术领域
本申请涉及计算机技术领域,特别涉及寻找系统错误的技术。
背景技术
在大型分布式系统中,执行任务往往需要涉及多个业务进程,如果单个业务进程或多个业务进程中出现错误,则任务无法完成。因此,需要对执行任务过程中出现的错误进行准确定位,确定发生错误的业务进程,从而解决进程内的错误。大部分系统通过简单的错误日志去收集各业务进程上报的错误类型和对应于错误类型的属性数据。
然而,由于各业务进程独立上报错误类型和对应于错误类型的属性数据,系统从错误日志中获得的各个错误类型相互独立,因此很难确定各个错误类型的关联关系,进而确定任务执行过程中的根源错误类型,以及基于根源错误类型和对应于该根源错误类型的属性数据确定根源错误。而没有找到根源错误就无法直接解决问题,延缓了找出根源错误并进行解决的时机。
发明内容
有鉴于此,本申请提供一种寻找根源错误的方法、装置及电子设备,用以及时找出任务执行过程中的根源错误。
具体地,本申请是通过如下技术方案实现的:
一种寻找根源错误的方法,包括:
接收到目标业务进程上报的错误类型和对应于所述错误类型的属性数据;
基于预设的错误模型确定所述目标业务进程上报的各错误类型之间的层级关系;其中,所述错误模型包括若干具有层级关系的错误类型,其中任一层级的错误类型,为下一层级错误类型的发生原因;
基于所述层级关系确定所述目标业务进程上报的各错误类型中的根源错误类型,并基于与该根源错误类型对应的属性数据进一步确定所述目标业务进程的根源错误。
在所述寻找根源错误的方法中,所述层级关系包括业务进程内的错误类型之间的层级关系;以及,业务进程内的错误类型与跨进程的错误类型之间的层级关系。
在所述寻找根源错误的方法中,所述基于预设的错误模型确定所述目标业务进程上报的各错误类型之间的层级关系,包括:
当接收到多个具有调用关系的目标业务进程上报的错误类型和对应于所述错误类型的属性数据时,基于预设的错误模型分别确定各目标业务进程上报的各错误类型之间的层级关系;
在确定出各目标业务进程上报的各错误类型之间的层级关系后,基于所述调用关系,对多个层级关系进行连接,获得跨进程的层级关系。
在所述寻找根源错误的方法中,所述基于所述层级关系确定所述目标业务进程上报的各错误类型中的根源错误类型,包括:
基于所述层级关系,确定层级最高的错误类型为根源错误类型。
在所述寻找根源错误的方法中,所述方法还包括:
输出所述根源错误对应的查找路径上的各错误类型和对应于各错误类型的属性数据。
在所述寻找根源错误的方法中,所述方法还包括:
获取用户输入的扩展错误类型;其中,所述扩展错误类型为用户为扩展所述错误模型而新增的错误类型;
将所述扩展错误类型添加至所述错误模型,并更新所述错误模型中的层级关系。
一种寻找根源错误的装置,包括:
接收单元,用于接收到目标业务进程上报的错误类型和对应于所述错误类型的属性数据;
第一确定单元,用于基于预设的错误模型确定所述目标业务进程上报的各错误类型之间的层级关系;其中,所述错误模型包括若干具有层级关系的错误类型,其中任一层级的错误类型,为下一层级错误类型的发生原因;
第二确定单元,用于基于所述层级关系确定所述目标业务进程上报的各错误类型中的根源错误类型,并基于与该根源错误类型对应的属性数据进一步确定所述目标业务进程的根源错误。
在所述寻找根源错误的装置中,所述层级关系包括业务进程内的错误类型之间的层级关系;以及,业务进程内的错误类型与跨进程的错误类型之间的层级关系。
在所述寻找根源错误的装置中,所述第一确定单元,进一步用于:
当接收到多个具有调用关系的目标业务进程上报的错误类型和对应于所述错误类型的属性数据时,基于预设的错误模型分别确定各目标业务进程上报的各错误类型之间的层级关系;
在确定出各目标业务进程上报的各错误类型之间的层级关系后,基于所述调用关系,对多个层级关系进行连接,获得跨进程的层级关系。
在所述寻找根源错误的装置中,所述第二确定单元,进一步用于:
基于所述层级关系,确定层级最高的错误类型为根源错误类型。
在所述寻找根源错误的装置中,所述装置还包括:
输出单元,用于输出所述根源错误对应的查找路径上的各错误类型和对应于各错误类型的属性数据。
在所述寻找根源错误的装置中,所述装置还包括:
获取单元,用于获取用户输入的扩展错误类型;其中,所述扩展错误类型为用户为扩展所述错误模型而新增的错误类型;
添加单元,用于将所述扩展错误类型添加至所述错误模型,并更新所述错误模型中的层级关系。
一种电子设备,所述电子设备搭载了处理器,以及,用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为:
接收到目标业务进程上报的错误类型和对应于所述错误类型的属性数据;
基于预设的错误模型确定所述目标业务进程上报的各错误类型之间的层级关系;其中,所述错误模型包括若干具有层级关系的错误类型,其中任一层级的错误类型,为下一层级错误类型的发生原因;
基于所述层级关系确定所述目标业务进程上报的各错误类型中的根源错误类型,并基于与该根源错误类型对应的属性数据进一步确定所述目标业务进程的根源错误。
在本申请实施例中,电子设备接收到目标业务进程上报的错误类型和对应于所述错误类型的属性数据;然后基于预设的错误模型确定所述目标业务进程上报的各错误类型之间的层级关系;其中,所述错误模型包括若干具有层级关系的错误类型,其中任一层级的错误类型,为下一层级错误类型的发生原因;接着基于所述层级关系确定所述目标业务进程上报的各错误类型中的根源错误类型,并基于该根源错误类型对应的属性数据进一步确定所述目标业务进程的根源错误;
由于错误模型预先定义了多种错误类型之间的层级关系,因此,上述电子设备可以基于该错误模型确定目标业务进程上报的各错误类型之间的层级关系,并可以根据该层级关系和对应于各错误类型的属性数据,确定目标业务进程的根源错误。
附图说明
图1是本申请示出的一种寻找根源错误的方法的流程图;
图2是本申请示出的一种错误模型的示意图;
图3是本申请示出的一种寻找根源错误的实例示意图;
图4是本申请示出的另一种寻找根源错误的实例示意图;
图5是本申请示出的一种寻找根源错误的装置的实施例框图;
图6是本申请示出的一种电子设备的硬件结构图。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例中的技术方案,并使本发明实施例的上述目的、特征和优点能够更加明显易懂,下面结合附图对现有技术方案和本发明实施例中的技术方案作进一步详细的说明。
大型分布式系统在执行任务时通常会涉及多个业务进程,如果其中单个业务进程或多个业务进程发生错误,则任务无法完成。此时系统会从错误日志中收集各业务进程独立上报的错误类型和对应于错误类型的属性数据,然后找出根源错误类型,进而定位出系统问题并告警输出,以由系统维护人员针对输出的问题进行处理。
然而,系统从错误日志中获得的各业务进程上报的错误类型相互独立,系统缺少对各个错误类型之间的关联分析,因此很难确定各个错误类型的关联关系,进而确定任务执行过程中的根源错误。可见,现有技术被各业务进程独立上报的错误类型延缓了找出根源错误的时机。
有鉴于此,本申请实施例的技术方案通过预设的错误模型,预先定义用户和系统可识别的多种错误类型以及各错误类型之间的层级关系;系统获得各业务进程上报的错误类型和对应于错误类型的属性数据后,可以基于上述错误模型查找各业务进程上报的错误类型的层级关系,进而确定根源错误类型,并结合对应于该根源错误类型的属性数据及时确定根源错误。
参见图1,为本申请示出的一种寻找根源错误的方法的流程图,所述方法包括以下步骤:
步骤101:接收到目标业务进程上报的错误类型和对应于所述错误类型的属性数据。
步骤102:基于预设的错误模型确定所述目标业务进程上报的各错误类型之间的层级关系;其中,所述错误模型包括若干具有层级关系的错误类型,其中任一层级的错误类型,为下一层级错误类型的发生原因。
步骤103:基于所述层级关系确定所述目标业务进程上报的各错误类型中的根源错误类型,并基于与该根源错误类型对应的属性数据进一步确定所述目标业务进程的根源错误。
其中,上述方法可以应用于大型分布式系统(比如:网站的后台系统)的服务器或服务器集群上,上述方法的具体执行设备可以是被指定专用于分析系统错误的电子设备。
参见图2,为本申请示出的一种错误模型的示意图,如图2所示,该错误模型包括多种错误类型,各错误类型之间的层级关系以箭头表示,各错误类型通过箭头指向上一层级的错误类型;任一层级的错误类型,为下一层级错误类型的发生原因。例如:“线程执行超时”的下一层级为“请求队列堵”和“定时任务超时”,“线程执行超时”也是“请求队列堵”和“定时任务超时”的发生原因。
进一步地,高层级的错误类型,为低层级的错误类型的发生原因。例如:目标业务进程只上报“定时任务超时”和“线程阻塞超时”,“线程阻塞超时”为“定时任务超时”的高层级的错误类型,即使目标业务进程未上报“线程执行超时”,仍可以确定“线程阻塞超时”为“定时任务超时”的发生原因。
需要指出的是,上述错误模型可以根据实际应用场景进行扩展。当用户扩展上述错误模型时,可以向配置上述错误模型的电子设备输入扩展错误类型;其中,该扩展错误类型为用户为扩展上述错误模型而新增的错误类型。
上述电子设备可以获取用户输入的上述扩展错误类型,并将上述错误扩展类型添加至预配置的错误模型中,然后基于上述扩展错误类型与其它错误类型的层级关系,更新该错误模型中的层级关系。
其中,上述错误模型中的层级关系包括业务进程内的错误类型之间的层级关系。如图2所示,如果执行任务涉及的业务进程未调用其它业务进程,则其上报的错误类型之间的层级关系不会包括图中标注“RPC调用下一进程”箭头所表示的层级关系。
此外,上述错误模型中的错误类型还包括各业务进程发生跨进程调用错误时,由发生调用错误的业务进程上报的错误类型之间的层级关系。如图2所示,如果执行任务涉及的业务进程之间存在调用关系,则各业务进程上报的错误类型之间的层级关系包括图中标注“RPC调用下一进程”箭头所表示的层级关系。
在本申请实施例中,系统在执行任务的过程中,如果发生错误,则发生错误的目标业务进程可以独立地向上述电子设备上报错误。其中,为了详尽地说明错误的具体情况,目标业务进程可以向电子设备上报本次错误的错误类型和对应于该错误类型的属性数据;其中,上述属性数据可以包括上述目标业务进程所在主机的IP地址、统计次数、错误发生次数和错误率等。
上述电子设备可以接收到上述目标业务进程上报的错误类型和对应于上述错误类型的属性数据。
在示出的另一种实施方式中,上述电子设备也可以依照现有技术的做法,在系统发生错误时,从错误日志中获取目标业务进程上报的错误类型和对应于错误类型的属性数据。
在本申请实施例中,上述电子设备获得上述目标业务进程上报的错误类型和对应于上述错误类型的属性数据后,可以基于预设的错误模型,查找上述目标业务进程上报的各错误类型之间的层级关系。
为进一步说明查找目标业务进程上报的各错误类型之间的层级关系的过程,请参见图3,为本申请示出的一种寻找根源错误的实例示意图,如图3所示,直播网站的后台系统接收到用户通过直播客户端发起的赠送礼物的操作请求。后台系统响应赠送礼物的操作请求,在执行任务时,礼物服务进程发生错误。因此,礼物服务进程向集成在上述电子设备的错误分析进程上报两种错误类型和对应于两种错误类型的属性数据;其中,两种错误类型分别为“请求队列堵”和“线程阻塞超时”。
上述电子设备接收到礼物服务进程上报的“请求队列堵”和“线程阻塞超时”这两种错误类型后,可以基于图2示出的错误模型,确定礼物服务进程上报的“线程阻塞超时”为“请求队列堵”的高层级的错误类型。
在示出的一种实施方式中,当上述电子设备接收到多个具有调用关系的目标业务进程上报的错误类型和对应于上述错误类型的属性数据时,可以基于预设的错误模型分别确定各目标业务进程上报的各错误类型之间的层级关系,并在确定出各目标业务进程上报的各错误类型之间的层级关系后,基于上述调用关系,对多个层级关系进行连接,获得跨进程的层级关系。其中,上述调用关系可以在上述属性数据中获得。
请继续参见图4,为本申请示出的另一种寻找根源错误的实例示意图,该示意图示出了跨进程错误发生的情况。如图4所示,直播网站的后台系统接收到用户通过直播客户端发起的赠送礼物的操作请求。后台系统响应赠送礼物的操作请求,在执行任务时,礼物服务进程和扣费服务进程发生错误。
因此,礼物服务进程和扣费服务进程分别上报两种错误类型和对应于两种错误类型的属性数据至集成在上述电子设备的错误分析进程;其中,两种错误类型分别为“请求队列堵”和“RPC调用超时”。
上述电子设备接收到礼物服务进程和扣费服务进程分别上报的“请求队列堵”和“RPC调用超时”这两种错误类型后,首先可以基于图2所示的错误模型分别确定礼物服务进程上报的“RPC调用超时”为“请求队列堵”的高层级的错误类型;以及,扣费服务进程上报的“RPC调用超时”为“请求队列堵”的高层级的错误类型。
在确定礼物服务进程和扣费服务进程上报的各错误类型的层级关系后,可以基于礼物服务进程和扣费服务进程之间的调用关系,对两个层级关系进行连接。
图4的示例,在礼物服务进程中,对应于“请求队列堵”的属性数据如下所示:
Queue ID:1(队列标识);
Max Size:1000(队列大小);
Count:800(当前请求数);
Rate:80%(请求在队列中的总占比);
reqURL:[“/sendGift”:90%,“/getGiftList”:10%](请求url在队列中的占比);
对应于“RPC调用超时”的属性数据可以如下所示:
Host:192.168.0.2:8080(远程调用的IP和端口);
Total Count:1000(总的RPC请求数);
Error Count:800(超时错误数);
Error Rate:80%(超时错误率);
reqURL:[“/costMoney”:90%,……](请求url的超时错误占比)。
上述电子设备可以根据对应于“RPC调用超时”的属性数据,确定礼物服务进程远程调用了扣费服务进程,进而可以对两个层级关系进行连接。
因此,上述电子设备可以查找到礼物服务进程和扣费服务进程上报的错误类型的层级关系从高到低依次为:扣费服务进程上报的“RPC调用超时”、扣费服务进程上报的“请求队列堵”、礼物服务进程上报的“RPC调用超时”和礼物服务进程上报的“请求队列堵”。
在本申请实施例中,上述电子设备在确定出上述目标业务进程上报的各错误类型之间的层级关系后,可以确定出上述目标业务进程上报的各错误类型中的根源错误类型,并基于与该根源错误类型对应的属性数据,进一步确定上述目标业务进程的根源错误。
在示出的一种实施方式中,上述电子设备可以基于查找到的上述层级关系,确定层级最高的错误类型为根源错误类型。
仍以图4的示例进行说明,上述电子设备在确定出礼服服务进程和扣费服务进程上报的错误类型的层级关系后,可以确定根源错误类型为扣费服务进程上报的“RPC调用超时”。
上述电子设备可以进一步基于与该根源错误类型对应的属性数据,确定礼物服务进程和扣费服务进程的根源错误是扣费服务进程上的“RPC调用超时”;其中,上述属性数据包括扣费服务进程所在主机的IP地址。
在本申请实施例中,上述电子设备在确定上述目标业务进程的根源错误后,可以输出上述根源错误对应的查找路径上的各错误类型和对应于各错误类型的属性数据,以由用户基于输出结果对系统中的错误进行处理。
在示出的一种实施方式中,上述电子设备可以将查找路径上的各错误类型和对应于各错误类型的属性数据倒序整体输出,在这种实施方式中,上述电子设备会将根源错误类型和对应该根源错误类型的属性数据在第一行输出,便于用户直观地获知上述目标业务进程的根源错误,此外,除根源错误类型以外的错误类型可以视为根源错误类型的影响范围。
以发生进程内错误为例:业务进程所在主机192.168.0.1上报了“线程阻塞超时”的错误类型和对应的属性数据,以及,“请求队列堵”的错误类型和对应的属性数据。上述电子设备基于错误模型确定本次错误的根源错误类型为“线程阻塞超时”的错误类型,然后将查找路径上的各错误类型和对应的属性数据倒序整体输出,如下所示:
线程阻塞超时(Count:1000,Rate:0.7),业务进程(192.168.0.1:8080);
——请求队列堵(Queue ID:1,Count:4000,Rate:0.8)。
用户可以从输出结果中直观地获知本次错误的根源错误是主机192.168.0.1上的线程阻塞超时,从而对本次错误进行处理。
以发生跨进程错误为例:第一业务进程远程调用第二业务进程,发生错误,第一业务进程所在主机192.168.0.1上报了“请求队列堵”的错误类型和对应的属性数据,以及,“RPC调用超时”的错误类型和对应的属性数据;第二业务进程所在主机192.168.0.2上报了“请求队列堵”的错误类型和对应的属性数据,以及,“线程阻塞超时”的错误类型和对应的属性数据。
上述电子设备基于错误模型确定本次错误的根源错误为第二业务进程上报的对应“线程阻塞超时”的错误,然后将查找路径上的各错误类型和对应于各错误类型的属性数据倒序整体输出,如下所示:
线程阻塞超时(Count:1000,Rate:0.7),业务进程(192.168.0.2:8080);
——请求队列堵(Queue ID:1,Count:4000,Rate:0.8);
————RPC调用超时(Host:192.168.0.1:8080,Count:1000,Rate:0.7,top3:uri),业务进程(192.168.0.1:8080);
——————请求队列堵(Queue ID:1,Count:4000,Rate:0.8)。
用户可以从输出结果中直观地获知本次错误的根源错误是主机192.168.0.2上的线程阻塞超时,从而对本次错误进行处理。
在示出的另一种实施方式中,上述电子设备可以将查找路径上隶属于相同的业务进程的错误类型和对应于错误类型的属性数据分别进行输出,在这种实施方式中,用户可以清楚地从输出结果中获知产生错误的各业务进程,以及,各业务进程分别产生的错误。
仍以图4的示例进行说明,上述电子设备可以将查找路径上隶属于礼物服务进程和扣费服务进程的错误类型和对应于错误类型的属性数据分别进行输出,如下所示:
扣费服务进程(192.168.0.2:8080)
请求队列堵(Queue ID:1,Max Size:1000,Count:800,Rate:0.8,reqURL:[“/costMoney”:90%]);
——RPC调用超时(Host:192.168.0.3:8080,Total Count:1000,Error Count:800,Error Rate:80%,reqURL[“/other”:90%,……]);
礼物服务进程(192.168.0.1:8080)调用扣费服务进程(192.168.0.2:8080)
请求队列堵(Queue ID:1,Max Size:1000,Count:800,Rate:0.8,reqURL:[“/sendGift”:90%,“/getGiftList”:10%])
——RPC调用超时(Host:192.168.0.2:8080,Total Count:1000,Error Count:800,Error Rate:80%,reqURL[“/costMoney”:90%,……])
综上所述,在本申请实施例中,用于分析系统错误的电子设备可以接收到目标业务进程上报的错误类型和对应于上述错误类型的属性数据;然后基于预设的错误模型确定上述目标业务进程上报的各错误类型之间的层级关系;并基于查找到的上述层级关系确定上述目标业务进程上报的各错误类型中的根源错误类型,进而基于与该根源错误类型对应的属性数据确定上述目标业务进程的根源错误;
由于错误模型预先定义了多种错误类型之间的层级关系,因此,上述电子设备可以基于错误模型确定目标业务进程上报的各错误类型之间的层级关系,并根据该层级关系确定目标业务进程的根源错误类型,进而根据该根源错误类型和对应于该根源错误类型的属性数据,确定目标业务进程的根源错误。
与本申请寻找根源错误的方法相对应,本申请还提供了用于执行上述方法实施例的装置的实施例。
参见图5,为本申请示出的一种寻找根源错误的装置的实施例框图:
如图5所示,该寻找根源错误的装置50包括:
接收单元510,用于接收到目标业务进程上报的错误类型和对应于所述错误类型的属性数据。
第一确定单元520,用于基于预设的错误模型确定所述目标业务进程上报的各错误类型之间的层级关系;其中,所述错误模型包括若干具有层级关系的错误类型,其中任一层级的错误类型,为下一层级错误类型的发生原因。
第二确定单元530,用于基于所述层级关系确定所述目标业务进程上报的各错误类型中的根源错误类型,并基于与该根源错误类型对应的属性数据进一步确定所述目标业务进程的根源错误。
在本例中,所述层级关系包括业务进程内的错误类型之间的层级关系;以及,业务进程内的错误类型与跨进程的错误类型之间的层级关系。
在本例中,所述第一确定单元520,进一步用于:
当接收到多个具有调用关系的目标业务进程上报的错误类型和对应于所述错误类型的属性数据时,基于预设的错误模型分别确定各目标业务进程上报的各错误类型之间的层级关系;
在确定出各目标业务进程上报的各错误类型之间的层级关系后,基于所述调用关系,对多个层级关系进行连接,获得跨进程的层级关系。
在本例中,所述第二确定单元530,进一步用于:
基于所述层级关系,确定层级最高的错误类型为根源错误类型。
在本例中,所述装置还包括:
输出单元540(图中未示出),用于输出所述根源错误对应的查找路径上的各错误类型和对应于各错误类型的属性数据。
在本例中,所述装置还包括:
获取单元550(图中未示出),用于获取用户输入的扩展错误类型;其中,所述扩展错误类型为用户为扩展所述错误模型而新增的错误类型。
添加单元560(图中未示出),用于将所述扩展错误类型添加至所述错误模型,并更新所述错误模型中的层级关系。
本申请寻找根源错误的装置的实施例可以应用在电子设备上。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在电子设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。
从硬件层面而言,如图6所示,为本申请示出的一种电子设备的硬件结构图,除了图6所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中电子设备通常根据该寻找根源错误的装置的实际功能,还可以包括其他硬件,对此不再赘述。其中,该电子设备的内存和非易失性存储器中还分别搭载了上述接收单元510对应的机器可执行指令、上述第一确定单元520对应的机器可执行指令、上述第二确定单元530对应的机器可执行指令、上述输出单元540(图中未示出)对应的机器可执行指令、上述获取单元550(图中未示出)对应的机器可执行指令和上述添加单元560(图中未示出)对应的机器可执行指令。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。

Claims (13)

1.一种寻找根源错误的方法,其特征在于,包括:
接收到目标业务进程上报的错误类型和对应于所述错误类型的属性数据;
基于预设的错误模型确定所述目标业务进程上报的各错误类型之间的层级关系;其中,所述错误模型包括若干具有层级关系的错误类型,其中任一层级的错误类型,为下一层级错误类型的发生原因;
基于所述层级关系确定所述目标业务进程上报的各错误类型中的根源错误类型,并基于与该根源错误类型对应的属性数据进一步确定所述目标业务进程的根源错误。
2.根据权利要求1所述的方法,其特征在于,所述层级关系包括业务进程内的错误类型之间的层级关系;以及,业务进程内的错误类型与跨进程的错误类型之间的层级关系。
3.根据权利要求2所述的方法,其特征在于,所述基于预设的错误模型确定所述目标业务进程上报的各错误类型之间的层级关系,包括:
当接收到多个具有调用关系的目标业务进程上报的错误类型和对应于所述错误类型的属性数据时,基于预设的错误模型分别确定各目标业务进程上报的各错误类型之间的层级关系;
在确定出各目标业务进程上报的各错误类型之间的层级关系后,基于所述调用关系,对多个层级关系进行连接,获得跨进程的层级关系。
4.根据权利要求1所述的方法,其特征在于,所述基于所述层级关系确定所述目标业务进程上报的各错误类型中的根源错误类型,包括:
基于所述层级关系,确定层级最高的错误类型为根源错误类型。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
输出所述根源错误对应的查找路径上的各错误类型和对应于各错误类型的属性数据。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取用户输入的扩展错误类型;其中,所述扩展错误类型为用户为扩展所述错误模型而新增的错误类型;
将所述扩展错误类型添加至所述错误模型,并更新所述错误模型中的层级关系。
7.一种寻找根源错误的装置,其特征在于,包括:
接收单元,用于接收到目标业务进程上报的错误类型和对应于所述错误类型的属性数据;
第一确定单元,用于基于预设的错误模型确定所述目标业务进程上报的各错误类型之间的层级关系;其中,所述错误模型包括若干具有层级关系的错误类型,其中任一层级的错误类型,为下一层级错误类型的发生原因;
第二确定单元,用于基于所述层级关系确定所述目标业务进程上报的各错误类型中的根源错误类型,并基于与该根源错误类型对应的属性数据进一步确定所述目标业务进程的根源错误。
8.根据权利要求7所述的装置,其特征在于,所述层级关系包括业务进程内的错误类型之间的层级关系;以及,业务进程内的错误类型与跨进程的错误类型之间的层级关系。
9.根据权利要求8所述的装置,其特征在于,所述第一确定单元,进一步用于:
当接收到多个具有调用关系的目标业务进程上报的错误类型和对应于所述错误类型的属性数据时,基于预设的错误模型分别确定各目标业务进程上报的各错误类型之间的层级关系;
在确定出各目标业务进程上报的各错误类型之间的层级关系后,基于所述调用关系,对多个层级关系进行连接,获得跨进程的层级关系。
10.根据权利要求7所述的装置,其特征在于,所述第二确定单元,进一步用于:
基于所述层级关系,确定层级最高的错误类型为根源错误类型。
11.根据权利要求7所述的装置,其特征在于,所述装置还包括:
输出单元,用于输出所述根源错误对应的查找路径上的各错误类型和对应于各错误类型的属性数据。
12.根据权利要求7所述的装置,其特征在于,所述装置还包括:
获取单元,用于获取用户输入的扩展错误类型;其中,所述扩展错误类型为用户为扩展所述错误模型而新增的错误类型;
添加单元,用于将所述扩展错误类型添加至所述错误模型,并更新所述错误模型中的层级关系。
13.一种电子设备,其特征在于,所述电子设备搭载了处理器,以及,用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为:
接收到目标业务进程上报的错误类型和对应于所述错误类型的属性数据;
基于预设的错误模型确定所述目标业务进程上报的各错误类型之间的层级关系;其中,所述错误模型包括若干具有层级关系的错误类型,其中任一层级的错误类型,为下一层级错误类型的发生原因;
基于所述层级关系确定所述目标业务进程上报的各错误类型中的根源错误类型,并基于与该根源错误类型对应的属性数据进一步确定所述目标业务进程的根源错误。
CN201710464925.5A 2017-06-19 2017-06-19 一种寻找根源错误的方法、装置及电子设备 Active CN107301125B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710464925.5A CN107301125B (zh) 2017-06-19 2017-06-19 一种寻找根源错误的方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710464925.5A CN107301125B (zh) 2017-06-19 2017-06-19 一种寻找根源错误的方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN107301125A true CN107301125A (zh) 2017-10-27
CN107301125B CN107301125B (zh) 2021-08-24

Family

ID=60134815

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710464925.5A Active CN107301125B (zh) 2017-06-19 2017-06-19 一种寻找根源错误的方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN107301125B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110609761A (zh) * 2019-09-06 2019-12-24 北京三快在线科技有限公司 确定故障源的方法、装置、存储介质和电子设备
CN110875832A (zh) * 2018-08-31 2020-03-10 北京京东尚科信息技术有限公司 异常业务监控方法、装置、系统及计算机可读存储介质
CN115983393A (zh) * 2022-12-30 2023-04-18 北京百度网讯科技有限公司 量子电路任务超时原因确定方法、装置、设备及存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070101324A1 (en) * 2005-10-31 2007-05-03 Microsoft Corporation Instrumentation to find the thread or process responsible for an application failure
CN101060683A (zh) * 2006-04-20 2007-10-24 大唐移动通信设备有限公司 通信系统中告警信息的生成方法及装置
CN101355451A (zh) * 2008-09-09 2009-01-28 中兴通讯股份有限公司 一种告警相关性分析方法及系统
CN101651576A (zh) * 2009-08-28 2010-02-17 曙光信息产业(北京)有限公司 告警信息处理方法和系统
CN101778017A (zh) * 2010-01-05 2010-07-14 中国工商银行股份有限公司 一种大型机联机交易的故障事件处理方法及服务器
US20120005534A1 (en) * 2010-07-02 2012-01-05 Fulu Li Method and apparatus for dealing with accumulative behavior of some system observations in a time series for bayesian inference with a static bayesian network model
CN104009854A (zh) * 2013-02-21 2014-08-27 中兴通讯股份有限公司 一种告警处理方法及装置、告警关联信息设置方法
CN105095048A (zh) * 2015-07-23 2015-11-25 上海新炬网络信息技术有限公司 一种基于业务规则的监控系统告警关联处理方法
CN105243023A (zh) * 2015-11-24 2016-01-13 无锡江南计算技术研究所 并行运行时错误检测方法
CN106603264A (zh) * 2015-10-20 2017-04-26 阿里巴巴集团控股有限公司 一种定位故障根源的方法和设备

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070101324A1 (en) * 2005-10-31 2007-05-03 Microsoft Corporation Instrumentation to find the thread or process responsible for an application failure
CN101060683A (zh) * 2006-04-20 2007-10-24 大唐移动通信设备有限公司 通信系统中告警信息的生成方法及装置
CN101355451A (zh) * 2008-09-09 2009-01-28 中兴通讯股份有限公司 一种告警相关性分析方法及系统
CN101651576A (zh) * 2009-08-28 2010-02-17 曙光信息产业(北京)有限公司 告警信息处理方法和系统
CN101778017A (zh) * 2010-01-05 2010-07-14 中国工商银行股份有限公司 一种大型机联机交易的故障事件处理方法及服务器
US20120005534A1 (en) * 2010-07-02 2012-01-05 Fulu Li Method and apparatus for dealing with accumulative behavior of some system observations in a time series for bayesian inference with a static bayesian network model
CN104009854A (zh) * 2013-02-21 2014-08-27 中兴通讯股份有限公司 一种告警处理方法及装置、告警关联信息设置方法
CN105095048A (zh) * 2015-07-23 2015-11-25 上海新炬网络信息技术有限公司 一种基于业务规则的监控系统告警关联处理方法
CN106603264A (zh) * 2015-10-20 2017-04-26 阿里巴巴集团控股有限公司 一种定位故障根源的方法和设备
CN105243023A (zh) * 2015-11-24 2016-01-13 无锡江南计算技术研究所 并行运行时错误检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
L.L. PULLUM等: ""Fault tree models for the analysis of complex computer-based systems"", 《PROCEEDINGS OF 1996 ANNUAL RELIABILITY AND MAINTAINABILITY SYMPOSIUM》 *
张林: ""基于故障树的网络环境主机故障检测系统的设计与实现"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
王文: ""面向服务的网络故障管理技术研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110875832A (zh) * 2018-08-31 2020-03-10 北京京东尚科信息技术有限公司 异常业务监控方法、装置、系统及计算机可读存储介质
CN110609761A (zh) * 2019-09-06 2019-12-24 北京三快在线科技有限公司 确定故障源的方法、装置、存储介质和电子设备
CN115983393A (zh) * 2022-12-30 2023-04-18 北京百度网讯科技有限公司 量子电路任务超时原因确定方法、装置、设备及存储介质
CN115983393B (zh) * 2022-12-30 2024-05-24 北京百度网讯科技有限公司 量子电路任务超时原因确定方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN107301125B (zh) 2021-08-24

Similar Documents

Publication Publication Date Title
US11789943B1 (en) Configuring alerts for tags associated with high-latency and error spans for instrumented software
US11924021B1 (en) Actionable event responder architecture
CN107102941B (zh) 一种测试用例的生成方法及装置
WO2020233015A1 (zh) 一种链路跟踪方法及装置
US12007866B2 (en) System and method for database replication benchmark testing using a pipeline-based microservices model
CN106487596A (zh) 分布式服务跟踪实现方法
US20100145978A1 (en) Techniques to provide unified logging services
CN107301125A (zh) 一种寻找根源错误的方法、装置及电子设备
CN108460068B (zh) 报表导入导出的方法、装置、存储介质及终端
CN103257852B (zh) 一种分布式应用系统的开发环境搭建的方法和装置
US20230123539A1 (en) Stitching event data using identity mappings
CN110489317A (zh) 基于工作流的云系统任务运行故障诊断方法与系统
US20170220218A1 (en) Automatic Generation of Regular Expression Based on Log Line Data
CN112559525B (zh) 数据检查系统、方法、装置和服务器
US11615363B2 (en) Digital chat conversation and virtual agent analytics
CN109359109A (zh) 一种基于分布式流计算的数据处理方法及系统
CN110188083B (zh) 接口信息挖掘方法及装置
CN110442782B (zh) 一种云资源检索方法与装置
CN107704362A (zh) 一种基于Ambari监控大数据组件的方法及装置
CN107330031A (zh) 一种数据存储的方法、装置及电子设备
CN110046319A (zh) 社交媒体信息采集方法、装置、系统、设备及存储介质
CN112612823B (zh) 一种基于PySpark和Pandas融合的大数据时序分析方法
CN111752677B (zh) 一种云资源配置方法、系统、终端及存储介质
CN111143177B (zh) Ibm主机的rmf iii数据的收集方法、系统、装置及存储介质
CN113256271B (zh) 财务营销对账用rpa机器人系统及工作方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant