CN102129372B - 通过事件相关来进行根本原因问题标识 - Google Patents

通过事件相关来进行根本原因问题标识 Download PDF

Info

Publication number
CN102129372B
CN102129372B CN201110055059.7A CN201110055059A CN102129372B CN 102129372 B CN102129372 B CN 102129372B CN 201110055059 A CN201110055059 A CN 201110055059A CN 102129372 B CN102129372 B CN 102129372B
Authority
CN
China
Prior art keywords
event
life
life event
group
basic reason
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110055059.7A
Other languages
English (en)
Other versions
CN102129372A (zh
Inventor
Z·卡斯皮
R·E·D·兹夫
Y·奥林
A·斯劳特斯凯
I·弗兰可
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN102129372A publication Critical patent/CN102129372A/zh
Application granted granted Critical
Publication of CN102129372B publication Critical patent/CN102129372B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0715Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a system implementing multitasking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • H04L41/064Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis involving time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0686Additional information in the notification, e.g. enhancement of specific meta-data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)

Abstract

提供了通过事件相关来进行根本原因问题标识的各个实施例。将活动事件相关以标识进程失败的根本原因。从在计算设备上执行的进程接收活动事件数据。活动事件数据对应于多个活动事件。每个活动事件具有与其相关联的相关标识符、解决状态、以及发生时间值。基于活动事件的相关标识符为每个活动事件分配多个事件组中的一个。之后,将至少一个事件组确定为含有具有指示进程失败的解决状态的活动事件。基于发生时间值将所确定的事件组中的活动事件之一选为根本原因活动事件。在一些实施方式中,向计算设备的用户标识根本原因活动事件。

Description

通过事件相关来进行根本原因问题标识
技术领域
本发明涉及自动化根本原因标识技术。
背景技术
根本原因标识是解决问题领域中用于标识问题或事件的根本原因的一类方法。一般而言,能够通过解决问题的根本原因,而不是通过解决不断从该问题导出的症状来对问题求解。理想地,当解决了根本原因时,随着该根本原因而来的症状就会消失。传统的根本原因分析是以系统性方式执行的,其中结论和根本原因得到证据以及根本原因和问题之间建立的因果关系的支持。然而,在根本原因标识期间,很难区分需要服务/产品的工作团队的手动干预的事件以及不需要手动干预的事件。这一区分在例如软件服务和企业IT部门中是重要的,因为服务的正在进行的运行成本与系统发出的支持权证(support ticket)的数量是成比例的。
一些现有系统通过假设发生在进程的分析窗口执行期间的第一个或最后一个错误事件是根本原因来检测进程中的错误。然而,这一方法缺乏精确性,并且可能产生假警报(例如,如果错误事件并不严重,或者只是临时的,或者如果事件能自我解决)。此外,通过追踪代码路径来理解每次失败的原因是困难和费时的。
发明内容
本发明的各个实施方式提供了自动化根本原因标识。一些实施方式从在计算设备上执行的进程接收活动事件数据,其中每个活动事件具有与其相关联的相关标识符、解决状态以及发生时间值。基于所述相关标识符和活动的类型将所述多个活动事件中的每一个分配至多个事件组中的一个。将一个事件组标识为指示进程的失败,并且选择来自所标识的事件组的一个活动事件并向用户标识该活动事件作为根本原因活动事件。
提供本发明内容是为了以简化的形式介绍将在以下具体实施方式中进一步描述的一些概念。本发明内容并非旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。
附图说明
图1是监视多个设备上的多个进程的系统的示例性框图。
图2是示出与活动事件相关联的数据的示例性框图。
图3是示出用于标识问题的根本原因的过程的示例性流程图。
图4是示出将活动事件选为问题的根本原因的示例性流程图。
在附图中,对应的附图标记指示对应的部分。
具体实施方式
参见附图,本发明的实施方式提供了用于监视多个受监视计算设备(例如,受监视计算设备#1至受监视计算设备#N)上的多个进程(例如,进程#1至进程#N)的系统100。本发明的实施方式提供了通过将活动事件(例如,诸如“连接至数据库失败”之类的低级原因事件与系统级失败事件(例如登记活动在一预定时间段中95%的尝试失败))相关来自动确定根本原因标识的能力。具有了将低级原因事件与系统级失败事件相关的能力,可以更有效地提供支持权证和故障诊断以最小化发出的支持权证的数量以及花费在故障诊断上的时间,并由此降低成本。
进程被分成多个活动事件(例如,活动/进程开始、活动/进程结束(失败)、活动/进程结束(成功)、以及错误事件)。用唯一的相关标识符以及其他活动事件标识符来标记作为错误事件或活动/进程结束(失败)的活动事件。相关标识符被用于跟踪并相关每个活动事件。相关标识符在差错第一次出现时创建并被附加到该差错。例如,相关标识符被“标记”给产生错误事件的第一活动事件。因此,每个由于产生错误的第一活动事件而产生错误的活动事件都被用与产生错误事件的第一活动事件相同的相关标识符来标记。具有相同相关标识符的活动事件都被视为在同一事件组内。用解决状态来标识每个事件组,例如,“失败“、”成功”或“从错误中成功恢复”(例如,系统100自动解决了导致错误的问题)。使用这一技术,系统100能够“忽略”系统100成功从中恢复的活动事件(例如,具有“成功恢复”解决状态的事件组)并且专注于系统100未能成功从中恢复的、导致失败的事件组。
本发明的各个实施方式还提供了区分系统100中指示本地或内部组件的问题的差错以及指示远程或外部组件的问题的差错(例如,当系统由于外部组件故障而不工作时)的能力。通过确定失败的位置/范围来进行区分。例如,本发明的各方面可将后端确定为失败场所,尽管失败是从前端发生过来的。
再次参见图1,提供了系统100的示例性框图。该系统包括计算设备112、一个或多个网络110、以及受监视计算设备102(例如,受监视计算设备#1至受监视计算设备#N)。计算设备112被配置为通过一个或多个网络110与受监视计算设备102通信。
尽管参考作为服务器计算设备的计算设备112示出并且描述了本发明的一些实施方式,但本发明的各方面可用于执行本文示出并且描述的功能的任何设备或其等价物。例如,本发明的实施方式可用于上网本、台式计算设备、膝上型计算机、以及其他计算设备。在这些实施方式中,数据可由云服务来存储并可由实现本发明的功能的任何计算设备来访问。此外,在一些实施方式中,受监视计算机设备102、网络110以及计算设备112可位于同一物理机器上。在这一拓扑结构下,可能存在多个系统,每个系统负责单独地报告各自系统的失败。由于以上讨论的本地化/范围,在这些实施方式中消除了对来自数个系统的失败的重复报告。因此,第一次遭遇失败的系统报告该失败。
再次参考图1,示例性框图示出了具有存储器区域116的计算设备112,所述存储器区域116用于存储用于自动标识根本原因活动事件的组件。计算设备112还包括显示器115和至少一个处理器114。显示器115可以是例如电容式触摸屏显示器,该电容式触摸屏显示器被集成到计算设备112中的、外置于计算设备112或者是保存设备112上的失败的历史以便进一步处理的任何种类的日志。在显示器115中提供用户输入功能,其用作为用户输入选择设备以及向用户提供根本原因活动事件的标识的装置。在各实施方式中,显示器115被配置为响应于显示器115上的用户按压接触以选择性地执行功能。因此,用户可通过接触显示器115的表面来操作对于计算设备112可用的所需故障诊断功能以及在此所提供的其它功能。
存储器区域116存储活动事件数据118以及一个或多个计算机可执行组件。示例性组件包括但不限于接口组件120、相关组件122、定位组件124、过滤组件126、以及显示组件128。虽然活动事件数据118和组件120-128被示为存储在存储器区域116中,但活动事件数据118和组件120-128可被存储在远离计算设备112的存储器区域中并从中执行。例如,活动事件数据118可被存储在云服务、数据库或可由计算设备112访问的其他存储器区域中。这些实施方式减轻了计算设备112上的计算和存储负担。
处理器114执行用于实现本发明的各方面的计算机可执行指令。在某些实施方式中,处理器114通过执行计算机可执行指令或通过以其他方式编程来变换成专用微处理器。例如,接口组件120在由处理器114执行时使处理器114接收活动事件数据118。活动事件数据118对应于多个活动事件(例如,活动/进程开始、活动/进程结束(失败)、活动/进程结束(成功)、以及错误事件)。
参考图2,示出了例示与活动事件数据118相关联的数据的示例性框图。示例性数据包括用于追踪和相关活动事件的相关标识符202、用于将活动事件标识为“失败”、“成功”或“成功从错误中恢复”的解决状态204、用于将活动事件与具体进程相关联的进程标识符206、以及用于确定活动事件的时间顺序的发生时间值208,该数据随后被用于标识根本原因活动事件。例如,发生时间值是时间戳或者从时间戳导出的值。
在一些实施方式中,受监视计算设备102提供活动事件数据118。在其它实施方式中,其它设备或应用程序提供、计算、或分配活动事件118的一个或多个元素。
重新参考图1,相关组件112当由处理器114执行时使处理器114基于活动事件的相关标识符202来将多个活动事件中的每一个分配给多个事件组中的一个。在一个实施方式中,相关组件122将相关标识符标记到被标识为错误事件的第一活动事件,并将同一相关标识符标记到被标识为由被标识为错误事件的第一活动事件所导致的错误事件的任何活动事件。在各实施方式中,相关标识符202将具有同一相关标识符的活动事件中的每一个分配到一个事件组中。进程可具有构成该进程的一个或多个事件组,其中每个事件组代表具有同一相关标识符的一个或多个活动事件。
定位组件124在由处理器114执行时使处理器114标识多个事件组中的至少一个,该至少一个事件组具有分配给其的、具有指示进程失败的解决状态的至少一个活动事件,该进程由该至少一个活动事件的进程标识符来标识。因此,具有指示失败的解决状态的事件组被审阅,而具有指示成功解决的解决状态的事件组被忽略。在实施方式中,在预定义的时间段之间对具有“成功”解决状态的事件组进行审阅以确定每个事件组在预定义时间段内出现了错误事件但成功恢复的次数。将这一次数与阈值次数或阈值百分比相比较,以确定错误事件/成功解决是否在足够频繁的基础上发生(例如,在每个五分钟的三个预定义时间段内登记活动在95%的尝试中失败),以引发支持权证、故障诊断或用户的进一步审阅。
过滤组件126在由处理器114执行时使处理器114基于每个活动事件的发生时间值来将来自所标识的事件组中的至少一个活动事件中的一个选为根本原因活动事件。例如,进程中将被标识为错误事件的第一活动事件被分配发生时间值“1”。之后,被标识为错误事件的下一活动事件被分配发生时间值“2”,以此类推因此,可假设每个事件组中最小发生时间值就是根本原因活动事件。在实施方式中,过滤组件126还确定多个活动事件的重要性级别,并基于所确定的多个活动事件的重要性级别发出服务权证。多个活动事件的重要性级别基于事件组类型、或者基于事件组类型和根本原因活动事件两者。显示组件128在由处理器114执行时使处理器114向用户呈现与根本原因活动事件相关联的活动事件数据118。另外,处理器114还可用如此处参考图3和图4所描述的指令编程。
接着参考图3,示例性流程图示出了用于根本原因活动事件标识的过程。在302,从在受监视计算设备(例如,受监视计算设备102中的一个)上执行的进程接收活动事件数据(例如,活动事件数据118)。活动事件数据对应于多个活动事件(例如,活动/进程开始、活动/进程结束(失败)、活动/进程结束(成功)、以及错误事件)。每个活动事件包括以下各项中的一个或多个:活动类型(例如,存储器访问、数据操作、数据通信等等)、活动实例标识符、相关标识符、解决状态、以及发生时间值。在各实施方式中,基于事件组类型、或者基于事件组类型和根本原因活动事件两者、或者基于事件组类型和活动类型两者来确定多个活动事件的重要性级别,因此,被认为被其他活动事件更重要和/或更紧急的活动事件能够在被认为没有这么重要和/或紧急的其它活动事件之前被解决。
在306,基于活动事件的相关标识符来将多个活动事件中的每一个分配到多个事件组中的一个。在一个实施方式中,相关标识符被标记/分配给被标识为错误事件的第一活动事件,并且同一相关标识符被标记/分配给被标识为由此产生的错误事件的任何活动事件,并且具有相同相关标识符的每个活动事件被分配给同一事件组。进程可具有构成该进程的一个或多个事件组,其中每个事件组代表具有相同相关标识符的一个或多个活动事件。
在308,标识多个事件组中的至少一个,该至少一个事件组含有分配给其的、具有指示进程失败的解决状态的至少一个活动事件。在实施方式中,确定在一预定义时间段中进程失败的次数以及进程失败的时间段的量,并且提供服务权证。然而,这一审阅过程不限于已经失败并且没有恢复的进程,具有“成功”解决状态的进程或事件组也可在预定义时间段之间被审阅,以确定每个事件组在预定义时间段之间发生错误但成功恢复的次数。如上所述,将这一次数与阈值次数或阈值百分比相比较,以确定错误事件/成功解决是否在足够频繁的基础上发生(例如,在一个星期的预定时间段内登记活动95%的尝试失败),以引发支持权证、故障诊断或用户的进一步审阅。
在312,基于发生时间值从所标识的事件组中选择至少一个活动事件中的一个作为根本原因活动事件。在其中所标识的事件组中的第一错误事件被分配发生时间值“1”,且之后同一事件组中的下一错误事件被分配发生时间值“2”,以此类推的实施方式中,具有最低发生时间值的错误事件被标识为根本原因活动事件。在其中发生时间值是时间戳的实施方式中,所标识的事件组中具有最早的时间戳值的错误事件被标识为根本原因活动事件。
在314,向计算设备的用户标识根本原因活动事件。在各实施方式中,根据重要性顺序将每个错误事件呈现给用户,并且每个事件组与解决状态一起被呈现。在其它实施方式中,根本原因活动事件被存储在日志中以供后续访问。
接着参考图4,示出了例示用于根本原因活动事件标识的过程400的示例性流程图。过程400开始于被标识为“活动/进程开始”的活动事件402。过程400继续到其中标识错误事件的活动事件404。因此,活动事件404被标记为“错误事件”。由于活动事件404是过程400中的第一个错误事件,因此相关标识符“X”被分配给活动事件404。此外,活动事件404被分配发生时间值“1”,因为活动事件404是过程400中的第一个错误事件。过程400继续,并且在活动事件406指示附加错误事件,且活动事件406被标记为“错误事件”。然而,因为活动事件406的所指示的错误事件是从活动事件404的所指示的错误事件生成的,所以406处的活动事件被分配与分配给活动事件404的相关标识符相同的相关标识符(例如,相关标识符“X”)。活动事件406还被分配发生时间值“2”,因为活动事件406是过程400中的第二个错误事件。
过程400继续到活动事件408。活动事件408被标识为“错误被解决”活动事件。因此,由于起始于活动事件404的错误被解决,因此活动事件408不被分配相关标识符或发生标识符值(在一些实施方式中)。然而,被标识为是错误事件的下一活动事件被分配与当前过程之前提供的任何其它相关标识符不同的相关标识符。例如,当过程400继续时,活动事件410被标识为错误事件。因此,由于活动事件410是解决了前一错误事件后的第一个错误事件,因此分配不同的相关标识符“Y”。相关标识符“Y”还与分配给该进程(或被监视的进程组)的任何其它相关标识符不同。活动事件410还被分配发生时间值“3”,因为活动事件410是过程400中的第三个错误事件。
过程400前进到被标识为错误事件的活动事件412。然而,因为活动事件412的所指示的错误事件是从活动事件410的所指示的错误事件生成的,所以活动事件412被分配与分配给活动事件410的相关标识符相同的相关标识符(例如,相关标识符“Y”)。活动事件412还被分配发生时间值“4”,因为活动事件412是过程400中的第四个错误事件。
进程400继续到活动事件414,在那里确定过程400以“失败”结束。活动事件414被标识为错误事件,并且因为活动事件414的所指示的错误事件是从活动事件412和410的所指示的错误事件生成的,所以活动事件414被分配与分配给活动事件412和410的相关标识符相同的相关标识符(例如,相关标识符“Y”)活动事件414还被分配发生时间值“5”,因为活动事件414是过程400中的第五个错误事件。
过程400可被分为两个事件组。包括具有相关标识符“X”的每个活动事件的第一事件组,以及包括具有相关标识符“Y”的每个活动事件的第二事件组。在确定过程400的根本原因事件时,第一事件组被忽略,因为第一事件组被标识为“成功恢复”,而第二事件组被审阅,因为第二事件组被标识为“失败”。使用结合图3所述的规则,第二事件组中的最低发生时间值是过程400的根本原因活动事件。因此,具有发生时间值“3”的活动事件410是过程400的失败的根本原因活动事件。
示例性操作环境
诸如此处所描述的计算机或计算设备具有一个或多个处理器或处理单元、系统存储器和某种形式的计算机可读介质。作为示例而非限制,计算机可读介质包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其它数据的信息的任何方法或技术实现的易失性与非易失性、可移动与不可移动介质。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据,并且包括任何信息传递介质。以上的任一种的组合也包括在计算机可读介质的范围之内。
计算机可使用至一个或多个远程计算机,如远程计算机的逻辑连接在网络化环境中操作。尽管结合示例性计算系统环境进行了描述,但本发明的各实施方式可用于众多其它通用或专用计算系统环境或配置。计算系统环境并非旨在对本发明的任何方面的使用范围或功能提出任何限制。此外,计算机环境也不应被解释成对于示例性操作环境中所示出的任一组件或其组合有任何依赖或要求。适用于本发明的各方面的公知的计算系统、环境和/或配置的示例包括,但不仅限于:个人计算机、服务器计算机、手持式或膝上型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、移动电话、网络PC、小型计算机、大型计算机、包括上面的系统或设备的中的任何一种的分布式计算环境等等。
可以在由一台或多台计算机或其他设备执行的诸如程序模块之类的计算机可执行的指令的一般上下文中来描述本发明的各实施方式。计算机可执行指令可以被组织成一个或多个计算机可执行组件或模块。一般而言,程序模块包括,但不限于,执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件,以及数据结构。可以利用任何数量的这样的组件或模块及其组织来实现本发明的各方面。例如,本发明的各方面不仅限于附图中所示出并且在此处所描述的特定计算机可执行指令或特定组件或模块。本发明的其他实施方式可以包括具有比此处所示出和描述的功能更多或更少功能的不同的计算机可执行指令或组件。本发明的各方面也可以在其中任务由通过通信网络链接的远程处理设备执行的分布式计算环境中实现。在分布式计算环境中,程序模块可以位于包括存储器存储设备在内的本地和远程计算机存储介质中。
本发明的各方面当被配置成执行此处所描述的指令时将通用计算机变换成专用计算设备。
此处所示出并描述的实施方式以及此处没有详细描述但是属于本发明范畴内的实施方式构成了用于确定根本原因活动事件的示例性手段。
此处所示出和描述的本发明的各实施方式中的操作的执行或实现的顺序不是必需的,除非另外指定。即,除非另外指定,否则操作可以按任何顺序执行,且本发明的各实施方式可以包括比此处所公开的操作更多或更少的操作。例如,构想了在一个操作之前、同时或之后执行另一个操作是在本发明的各方面的范围之内的。
当介绍本发明的各方面的元素或其实施方式时,冠词“一”、“一个”、“该”、“所述”旨在表示有元素中的一个或多个。术语“包括”、“包含”以及“具有”旨在是包含性的,并意味着除所列出的元素以外还可以有额外的元素。
已经详细地描述了本发明的各方面,显然,在不偏离所附权利要求书所定义的本发明的各方面的范围的情况下,可以进行各种修改和变化。在不偏离本发明的各方面的范围的情况下,可以对上面的构造、产品以及方法作出各种更改,上面的描述中所包含的和各个附图中所示出的所有主题应该解释为说明性的,而不是限制性的。

Claims (14)

1.一种用于自动化根本原因标识的系统,所述系统包括:
用于从在计算设备(102)上执行的进程(106)接收活动事件数据(118)的装置,所述活动事件数据(118)对应于多个活动事件,所述活动事件中的每一个都具有与其相关联的相关标识符(202)、解决状态(204)、以及发生时间值(208);
用于基于所述活动事件的相关标识符(202)将所述多个活动事件中的每一个分配至多个事件组中的一个的装置,其中每个事件组代表具有同一相关标识符的一个或多个活动事件;
用于标识所述多个事件组中的至少一个的装置,所述至少一个事件组具有分配给其的、具有指示所述进程(106)的失败的解决状态(204)的至少一个活动事件;
用于基于所述发生时间值(208)从所标识的事件组中选择所述至少一个活动事件中的一个作为根本原因活动事件的装置;以及
用于向所述计算设备(102)的用户标识所述根本原因活动事件的装置。
2.如权利要求1所述的系统,其特征在于,所述根本原因活动事件是包括具有指示所述在计算设备上执行的进程的失败的解决状态的至少一个活动事件的事件组中的第一个活动事件。
3.如权利要求1所述的系统,其特征在于,所述系统还包括用于确定所述多个活动事件的重要性级别的装置。
4.如权利要求3所述的系统,其特征在于,所述多个活动事件的重要性级别基于事件组类型、或者基于事件组类型和根本原因活动事件两者。
5.如权利要求1所述的系统,其特征在于,从其它活动事件生成的活动事件用相同的相关标识符来标记。
6.如权利要求1所述的系统,其特征在于,所述活动事件包括错误事件,其中如果所述错误事件是在不具有之前相关联的错误事件的情况下生成的,则所述错误事件用新相关标识符来标记。
7.一种用于自动化根本原因标识的方法,所述方法包括:
从在计算设备(102)上执行的进程(106)接收活动事件数据(118),所述活动事件数据(118)对应于多个活动事件,所述活动事件中的每一个都具有与其相关联的相关标识符(202)、解决状态(204)、以及发生时间值(208);
基于所述活动事件的相关标识符(202)将所述多个活动事件中的每一个分配至多个事件组中的一个,其中每个事件组代表具有同一相关标识符的一个或多个活动事件;
标识所述多个事件组中的至少一个,所述至少一个事件组具有分配给其的、具有指示所述进程(106)的失败的解决状态(204)的至少一个活动事件;
基于所述发生时间值(208)从所标识的事件组中选择所述至少一个活动事件中的一个作为根本原因活动事件;以及
向所述计算设备(102)的用户标识所述根本原因活动事件。
8.如权利要求7所述的方法,其特征在于,一个或多个事件组对应于动作。
9.如权利要求8所述的方法,其特征在于,还包括基于分配给对应于进程的一个或多个事件组的一个或多个活动事件来确定所述进程是否失败。
10.如权利要求9所述的方法,其特征在于,还包括确定在预定义时间段期间进程失败的次数。
11.如权利要求10所述的方法,其特征在于,还包括基于所确定的在预定义时间段期间进程失败的次数来提供服务权证。
12.如权利要求7所述的方法,其特征在于,还包括将所述根本原因活动事件呈现给用户。
13.如权利要求7所述的方法,其特征在于,还包括确定所述多个活动事件的重要性级别,并且其中所述多个活动事件的重要性级别基于事件组类型、或者基于事件组类型和根本原因活动事件两者。
14.如权利要求7所述的方法,其特征在于,所述根本原因活动事件是包括不能自动恢复的一个或多个活动事件的事件组中的第一个活动事件。
CN201110055059.7A 2010-03-01 2011-02-28 通过事件相关来进行根本原因问题标识 Active CN102129372B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US12/714,842 2010-03-01
US12/714,842 US8060782B2 (en) 2010-03-01 2010-03-01 Root cause problem identification through event correlation

Publications (2)

Publication Number Publication Date
CN102129372A CN102129372A (zh) 2011-07-20
CN102129372B true CN102129372B (zh) 2014-10-29

Family

ID=44267463

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110055059.7A Active CN102129372B (zh) 2010-03-01 2011-02-28 通过事件相关来进行根本原因问题标识

Country Status (2)

Country Link
US (1) US8060782B2 (zh)
CN (1) CN102129372B (zh)

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8719636B2 (en) * 2010-02-15 2014-05-06 Nec Corporation Apparatus method, and storage medium for fault cause extraction utilizing performance values
US9336380B2 (en) * 2010-12-15 2016-05-10 Microsoft Technology Licensing Llc Applying activity actions to frequent activities
JP5267749B2 (ja) * 2010-12-20 2013-08-21 日本電気株式会社 運用管理装置、運用管理方法、及びプログラム
US8464102B2 (en) * 2010-12-23 2013-06-11 GM Global Technology Operations LLC Methods and systems for diagnosing hardware and software faults using time-stamped events
US9344465B2 (en) 2012-12-04 2016-05-17 International Business Machines Corporation Correlating computing network events
US20140282426A1 (en) * 2013-03-12 2014-09-18 Microsoft Corporation Divide and conquer approach to scenario timeline activity attribution
US9354964B2 (en) * 2014-05-13 2016-05-31 Netapp, Inc. Tag based selection of test scripts for failure analysis
GB201417129D0 (en) * 2014-09-29 2014-11-12 Ibm A method of processing data errors for a data processing system
US9588868B2 (en) * 2014-10-08 2017-03-07 International Business Machines Corporation Correlating multiple disjoint events via an operation identifier
US9594622B2 (en) 2015-02-04 2017-03-14 International Business Machines Corporation Contacting remote support (call home) and reporting a catastrophic event with supporting documentation
US20170147931A1 (en) * 2015-11-24 2017-05-25 Hitachi, Ltd. Method and system for verifying rules of a root cause analysis system in cloud environment
US20170168881A1 (en) * 2015-12-09 2017-06-15 Sap Se Process chain discovery across communication channels
US9417949B1 (en) 2015-12-10 2016-08-16 International Business Machines Corporation Generic alarm correlation by means of normalized alarm codes
US10110419B2 (en) * 2015-12-17 2018-10-23 Ca, Inc. Alarm to event tracing
US10067984B2 (en) * 2016-02-24 2018-09-04 Bank Of America Corporation Computerized system for evaluating technology stability
CN107124289B (zh) * 2016-02-24 2021-06-01 华为技术有限公司 网络日志时间对齐方法、装置及主机
US10216798B2 (en) * 2016-02-24 2019-02-26 Bank Of America Corporation Technical language processor
US10275182B2 (en) * 2016-02-24 2019-04-30 Bank Of America Corporation System for categorical data encoding
US10223425B2 (en) * 2016-02-24 2019-03-05 Bank Of America Corporation Operational data processor
US10366338B2 (en) 2016-02-24 2019-07-30 Bank Of America Corporation Computerized system for evaluating the impact of technology change incidents
US10430743B2 (en) 2016-02-24 2019-10-01 Bank Of America Corporation Computerized system for simulating the likelihood of technology change incidents
US10366337B2 (en) 2016-02-24 2019-07-30 Bank Of America Corporation Computerized system for evaluating the likelihood of technology change incidents
US10275183B2 (en) * 2016-02-24 2019-04-30 Bank Of America Corporation System for categorical data dynamic decoding
US10387230B2 (en) * 2016-02-24 2019-08-20 Bank Of America Corporation Technical language processor administration
US10366367B2 (en) 2016-02-24 2019-07-30 Bank Of America Corporation Computerized system for evaluating and modifying technology change events
US10019486B2 (en) * 2016-02-24 2018-07-10 Bank Of America Corporation Computerized system for analyzing operational event data
US10338986B2 (en) * 2016-10-28 2019-07-02 Microsoft Technology Licensing, Llc Systems and methods for correlating errors to processing steps and data records to facilitate understanding of errors
US11087638B2 (en) 2017-01-26 2021-08-10 Telefonaktiebolaget Lm Ericsson (Publ) System and method for analysing sports performance data
WO2018137765A1 (en) * 2017-01-26 2018-08-02 Telefonaktiebolaget Lm Ericsson (Publ) System and method for analyzing network performance data
US10771314B2 (en) 2017-09-15 2020-09-08 Accenture Global Solutions Limited Learning based incident or defect resolution, and test generation
WO2019114947A1 (en) * 2017-12-13 2019-06-20 Telefonaktiebolaget Lm Ericsson (Publ) Technique for analyzing quality of service in a telecommunications network
US10767886B2 (en) * 2018-02-20 2020-09-08 Johnson Controls Technology Company Building management system with saturation detection and removal for system identification
CN108446184B (zh) * 2018-02-23 2021-09-07 北京天元创新科技有限公司 分析故障根原因的方法和系统
US11454940B2 (en) 2019-05-21 2022-09-27 Johnson Controls Tyco IP Holdings LLP Building control system with heat load estimation using deterministic and stochastic models
US11215375B2 (en) 2019-05-21 2022-01-04 Johnson Controls Tyco IP Holdings LLP Building control system with heat disturbance estimation and prediction
CN110443451B (zh) * 2019-07-03 2022-12-30 深圳壹师城科技有限公司 事件定级方法、装置、计算机设备和存储介质
US11085663B2 (en) 2019-07-19 2021-08-10 Johnson Controls Tyco IP Holdings LLP Building management system with triggered feedback set-point signal for persistent excitation
US11651254B2 (en) * 2020-07-07 2023-05-16 Intuit Inc. Inference-based incident detection and reporting

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1549969A (zh) * 2001-07-06 2004-11-24 关联并确定系统和企业事件的根本原因的方法和系统
CN1550989A (zh) * 2003-05-07 2004-12-01 有计划的计算机问题诊断和解决及其自动报告和更新
US7526758B2 (en) * 2005-06-30 2009-04-28 Microsoft Corporation Execution failure investigation using static analysis

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6072777A (en) 1996-06-28 2000-06-06 Mci Communications Corporation System and method for unreported root cause analysis
US6694364B1 (en) * 2000-06-16 2004-02-17 Cisco Technology, Inc. System and method for suppressing out-of-order side-effect alarms in heterogeneous integrated wide area data and telecommunication networks
US7047291B2 (en) 2002-04-11 2006-05-16 International Business Machines Corporation System for correlating events generated by application and component probes when performance problems are identified
CA2381737A1 (en) * 2002-04-15 2003-10-15 Ibm Canada Limited-Ibm Canada Limitee Framework for managing data that provides correlation information in a distributed computing system
US7096459B2 (en) 2002-09-11 2006-08-22 International Business Machines Corporation Methods and apparatus for root cause identification and problem determination in distributed systems
AU2004225190A1 (en) * 2003-04-01 2004-10-14 General Dynamics C4 Systems, Inc System and method for decision analysis and resolution
US20040250261A1 (en) * 2003-06-05 2004-12-09 Huibregtse Thomas P. Method and system for displaying event information correlated with a performance parameter of a managed system
GB0325560D0 (en) * 2003-10-31 2003-12-03 Seebyte Ltd Intelligent integrated diagnostics
US7529974B2 (en) 2006-11-30 2009-05-05 Microsoft Corporation Grouping failures to infer common causes
US8230269B2 (en) * 2008-06-17 2012-07-24 Microsoft Corporation Monitoring data categorization and module-based health correlations

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1549969A (zh) * 2001-07-06 2004-11-24 关联并确定系统和企业事件的根本原因的方法和系统
CN1550989A (zh) * 2003-05-07 2004-12-01 有计划的计算机问题诊断和解决及其自动报告和更新
US7526758B2 (en) * 2005-06-30 2009-04-28 Microsoft Corporation Execution failure investigation using static analysis

Also Published As

Publication number Publication date
US8060782B2 (en) 2011-11-15
CN102129372A (zh) 2011-07-20
US20110214020A1 (en) 2011-09-01

Similar Documents

Publication Publication Date Title
CN102129372B (zh) 通过事件相关来进行根本原因问题标识
US9298525B2 (en) Adaptive fault diagnosis
CN102436376B (zh) 用于分布式应用确认的模型检查
AU660661B2 (en) Knowledge based machine initiated maintenance system
EP3734520A1 (en) Fault analysis and prediction using empirical architecture analytics
CA2101926A1 (en) Hierarchical distributed knowledge based machine initiated maintenance system
CN103069749B (zh) 虚拟环境中的问题的隔离的方法和系统
CN107533504A (zh) 用于软件分发的异常分析
CN104809030A (zh) 一种基于Android的异常处理系统及处理方法
CN104583968A (zh) 管理系统及管理程序
CN111858254B (zh) 数据的处理方法、装置、计算设备和介质
CN106030456A (zh) 自动异步切换标识
Kanoun et al. Reliability growth of fault-tolerant software
Bauer et al. Practical system reliability
CN116089482A (zh) 分析大规模数据处理作业
CN105607973A (zh) 一种虚拟机系统中设备故障处理的方法、装置及系统
CN102271054A (zh) 用于网络软件部署评估的书签和性能历史
CN108173711A (zh) 企业内部系统数据交换监控方法
CN112506802A (zh) 测试数据的管理方法及系统
CN110968456B (zh) 分布式存储系统中故障磁盘的处理方法及装置
US9354962B1 (en) Memory dump file collection and analysis using analysis server and cloud knowledge base
CN109150596A (zh) 一种scada系统实时数据转储方法和装置
Mishra et al. Model based approach for autonomic availability management
AU2014200806B1 (en) Adaptive fault diagnosis
CN102469104B (zh) 用于维护客户关怀指标的私密性的方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150429

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20150429

Address after: Washington State

Patentee after: Micro soft technique license Co., Ltd

Address before: Washington State

Patentee before: Microsoft Corp.