CN115280343A - 故障事件管理中的事件相关性 - Google Patents

故障事件管理中的事件相关性 Download PDF

Info

Publication number
CN115280343A
CN115280343A CN202180022123.3A CN202180022123A CN115280343A CN 115280343 A CN115280343 A CN 115280343A CN 202180022123 A CN202180022123 A CN 202180022123A CN 115280343 A CN115280343 A CN 115280343A
Authority
CN
China
Prior art keywords
events
group
event
processors
resource
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180022123.3A
Other languages
English (en)
Inventor
P·米尔斯
J·R·巴金斯
M·R·桑希尔
J·苏克克林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN115280343A publication Critical patent/CN115280343A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/008Reliability or availability analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0778Dumping, i.e. gathering error/state information after a fault for later diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Debugging And Monitoring (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Hardware Redundancy (AREA)
  • Maintenance And Management Of Digital Transmission (AREA)
  • Alarm Systems (AREA)

Abstract

一种用于在故障事件管理中预测事件相关性的成本降低的方法包括:一个或多个处理器接收故障事件集合中的多个候选相关事件组。该方法还包括:对于每个候选相关事件组,一个或多个处理器预测解决相应的相关事件组相较于单独解决相应的相关组中的所有事件的资源成本降低。该方法还包括:一个或多个处理器分析针对多个候选相关事件组的所预测的资源成本降低。该方法还包括:一个或多个处理器基于对所预测的资源成本降低的分析来选择候选相关组。

Description

故障事件管理中的事件相关性
技术领域
本发明一般涉及故障事件管理领域,尤其涉及在故障事件管理中预测事件相关性的成本降低。
背景技术
数据中心、系统管理和网络管理包括故障事件管理和根本原因分析,以解决和管理故障事件。当在数据中心中发生故障或非常规事件时,例如以警报的形式向事件管理器发送通知。在事件管理器处,事件可以被消除重复、相关和丰富。可以基于规则引擎来处理事件,或者事件可以提示生成帮助台的门票。为了降低操作成本,已知使共同发生的警报相关,以便允许操作者仅对一个问题进行处理。
对于事件相关性,事件捕获用于相关性的事件信息。该信息取决于感兴趣的事件域,并且取决于相关性的分析类型。事件信息可以包括事件时间、类型、资源、相关的对象、受影响的应用、注释、指令等。
事件可以源自许多不同的源,并且可以跨源进行比较。事件相关性可以包括用于移除被认为不相关的事件的事件过滤、用于组合类似事件的事件聚合、以及用于合并相同事件的精确副本的事件消除重复。然后,根本原因分析可以分析事件之间的依赖性,以检测某些事件是否可以被其他事件解释。
在事件管理中,将多个事件相关在一起以减少操作者诊断和解决问题所需的工作量是有益的。存在能够自动推断事件之间的关系并执行这种类型的相关性的现有系统。
通常,操作团队将想要在使用推断以执行事件相关之前审阅这些推断以验证准确性。当存在大量推断时,团队将花费很长时间来审阅所有这些推断。
在许多情况下,大量的推断尽管准确,但在减少解决问题所需的工作量方面可能对操作团队没有太多益处。相反,其中的一些推断可以提供解决问题所需的努力的实质减少。在没有指示每个推断的益处的机制的情况下,团队可能浪费时间来检查价值低的推断。
发明内容
本发明的各方面公开了一种用于在故障事件管理中预测事件相关性的成本降低的方法、计算机程序产品和系统。该方法包括一个或多个处理器接收故障事件集合中的多个候选相关事件组。该方法还包括:对于每个候选相关事件组,一个或多个处理器预测解决相应的相关事件组相较于单独解决相应的相关组中的所有事件的资源成本降低。该方法还包括一个或多个处理器分析针对多个候选相关事件组所预测的资源成本降低。该方法还包括一个或多个处理器基于对所预测的资源成本降低的分析来选择候选相关组。
本发明的实施例可以提供量化部署相关性的成本效益的优点。该方法可以获得相关性的成本效益的预测,从而导致对审阅故障事件的多个相关性的优化。
在进一步的方面,针对事件组的每个候选相关性预测资源成本降低进一步包括:一个或多个处理器预测作为组解决相关事件组的第一资源成本;一个或多个处理器预测单独解决组中的事件的成本之和的第二资源成本;以及一个或多个处理器计算第一预测资源成本和第二预测资源成本的差以获得所预测的资源成本降低。
分析预测资源成本降低可以进一步包括:通过所预测的资源成本降低对候选相关事件组进行排序,这在候选相关组是离散的事件组时提供了优点。
候选相关组可以是具有包括事件子组的重叠事件的组。分析所预测的资源成本降低可以包括:计算事件子组的组合预测成本降低,以及将结果与整个事件组的所预测的成本降低进行比较。
可以针对事件或事件组将资源成本测量为以下的组中的一个或多个:解决所需的人员时间;要解决的资源停机时间;以及要解决的服务成本损失。
在附加的方面,预测第一资源成本可以应用第一机器学习模型,该第一机器学习模型被训练为基于定义相关性的特征的输入向量来预测用于解决相关事件组的资源成本,这可以提供使预测基于解决相关的事件的历史成本的优点。输入向量可以采用以下的组中的一个或多个的形式定义相关性的特征:组中的事件的严重性;组中的每个事件的源;组中的事件的数量;受影响的资源的数量;组发生的时间模式;组的持续时间;组中的词的频率;与组中的拓扑的资源相匹配的事件的连接程度。进一步地,该方法可以向第一机器学习模型提供解决相关事件组的资源成本的反馈以用于该模型的继续训练。
在附加的方面,预测第二资源成本可以应用第二机器学习模型,该第二机器学习模型被训练为基于定义个体事件的特征的输入向量来预测用于解决个体事件的资源成本。输入向量可以采用以下的组中的一个或多个的形式定义个体事件的特征:事件发生的时间;事件的严重性;事件的位置;事件的描述。进一步地,该方法可以向第二机器学习模型提供解决个体事件的资源成本的反馈以用于模型的继续训练。
故障事件集合中的事件组的多个候选相关性可以由相关性系统提供,并基于事件之间的不同的所发现的推断。
本发明的另一个方面公开了一种用于故障事件管理中预测事件相关性的成本降低的方法、计算机程序产品和系统。该方法包括:提供第一机器学习模型,该第一机器学习模型被训练为基于定义相关事件组的特征的输入向量来预测用于解决相关组的资源成本;以及提供第二机器学习模型,该第二机器学习模型被训练为基于定义个体事件的特征的输入向量来预测用于解决个体事件的资源成本。该方法还包括:对于事件组的所发现的相关性,一个或多个处理器应用第一机器学习模型以预测用于作为相关组解决事件组的资源成本,以及一个或多个处理器应用第二机器学习模型以预测用于作为个体事件解决事件组的资源成本。该方法还包括:一个或多个处理器预测解决事件组的相关性相较于单独解决组中的所有事件的总资源成本的资源成本降低。
提供被训练为基于定义相关事件组的特征的输入向量来预测用于解决相关组的资源成本的第一机器学习模型可以包括:基于包括相关事件组的资源成本反馈的已解决相关组事件分析,训练第一机器学习模型。提供被训练为基于定义个体事件的特征的输入向量来预测用于解决个体事件的资源成本的第二机器学习模型可以包括:基于包括个体事件的资源成本反馈的已解决事件分析,训练第二机器学习模型。
本发明的另一方面公开了一种用于在故障事件管理中预测事件相关性的成本降低的方法、计算机程序产品和系统。该方法包括:一个或多个处理器训练第一机器学习模型以基于定义相关事件组的特征的输入向量来预测用于解决相关组的资源成本。该方法还包括:一个或多个处理器训练第二机器学习模型以基于定义个体事件的特征的输入向量来预测用于解决个体事件的资源成本。该方法还包括:一个或多个处理器提供第一机器学习模型以用于预测用于作为输入相关组解决事件组的资源成本。该方法还包括:一个或多个处理器提供第二机器学习模型以用于预测用于作为个体事件解决输入相关组中的事件组的资源成本。该方法还包括:一个或多个处理器预测作为相关组解决相关事件组相较于单独解决组中的所有事件的总资源成本的资源成本降低。
训练第一机器学习模型以预测用于解决相关事件组的资源成本可以基于包括相关事件组的资源成本反馈的已解决相关组事件分析,并且训练第二机器学习模型以预测用于解决个体事件的资源成本可以基于包括个体事件的资源成本反馈的已解决事件分析。
该方法可以包括:接收对第一机器学习模型的解决相关事件组的资源成本的反馈以用于该模型的继续训练,以及接收对第二机器学习模型的解决个体事件的资源成本的反馈以用于该模型的继续训练。
附图说明
在说明书的结论部分特别指出并清楚地要求保护被视为本发明的主题。当结合附图阅读时,通过参考以下详细描述,可以最好地理解本发明的组织和操作方法以及目的、特征和优点。
图1A是根据本发明的实施例的根据本发明的一个方面的方法的示例实施例的流程图。
图1B是根据本发明的实施例的图1A的方法的更详细示例的流程图。
图2是根据本发明的实施例的方法的另一个示例实施例的流程图。
图3A是根据本发明的实施例的方法的示例实施例的流程图。
图3B是根据本发明的实施例的方法的示例实施例的流程图。
图4是根据本发明的实施例的系统的示例实施例的框图。
图5是根据本发明的实施例的在其中可以实现本发明的计算机系统或云服务器的实施例的框图。
图6是根据本发明的实施例的在其中可以实现本发明的云计算环境的示意图。
图7是根据本发明的实施例的在其中可实现本发明的云计算环境的抽象模型层的示图。
应当理解,为了图示的简单和清楚,图中所示的元件并不一定按比例绘制。例如,为了清楚起见,一些元件的尺寸可能相对于其他元件被放大。进一步地,在认为适当的情况下,附图标记可以在附图中重复以指示对应或类似的特征。
具体实施方式
提供了一种基于先前事件和事故的历史成本分析来预测在故障事件管理中部署所建议的相关组的相对益处的方法和系统。本发明的实施例认识到操作团队的价值以在选择相关组以用于处理故障事件解决时能够准确地量化每个推断的益处。
所描述的方法和系统的各种实施例提供了对解决相关事件组相较于单独或在相关组内的一个或多个事件子组的不同选择中解决组中的所有事件的资源成本降低的预测。该预测基于用于相关事件组和个体事件的资源成本的监督学习。监督学习可以提供被训练为基于包括解决相关事件组和个体事件所花费的时间和成本的来自已解决事件的根本原因分析的反馈来创建事件与成本之间的映射的模型。
所提出的针对事件组的相关性的推断可以经过该模型以给出解决不同相关性的事件组的预测成本。不相关事件可以经过该模型以给出单独解决每个事件的预测成本。使用解决相关事件组的成本与解决不相关事件的组合成本之间的比较,以便确定每个相关性推断的成本降低。
可以分析不同相关性的成本降低以选择事件组的最佳相关性。具有较高成本差的相关性比具有较小差的相关性排序更高,从而允许操作团队优先审阅将导致最大成本降低的推断。还可以分析成本降低以确定相关性中的事件的最优分组或子分组。
参考图1A,流程图100示出了所描述的由计算机系统执行的用于在故障事件管理中预测事件相关性的成本降低的方法的示例实施例。在各种实施例中,流程图100可以表示根据本发明的实施例的(在图4中描绘的)系统400执行的程序和/或应用的过程和步骤。
在流程图100的步骤110中,该方法包括接收故障事件集合。进一步地,在步骤111中,该方法包括接收对故障事件集合内的事件组应用推断的事件组的多个候选相关性。事件组的多个候选相关性可以由相关性系统提供,并且基于事件之间的不同的所发现的推断。候选相关性可以由相关性系统发现,该相关性系统可以被集成在同一计算机系统中或者可以被远程提供(例如,关于图4进一步详细讨论的)。故障事件集合中的事件组的多个候选相关性可以包括用于故障事件集合内的不同事件组的候选相关性。
在一个实施例中,事件组的候选相关性可以包括在相关组之间没有共同事件的离散的相关组。每个相关组是潜在有效的,并且独立地工作。在另一个实施例中,组的候选相关性可以与在另一个相关组中包括的一个相关组的一些或所有事件重叠。另外,一个或多个相关组也可以是另一个相关组的事件的子组。
在进一步的实施例中,流程图100的方法包括针对事件组的每个候选相关性执行步骤113、步骤114和步骤115(即,作为过程112)。在进一步的方面,流程图100的过程112包括预测解决相关事件组相较于单独解决组中的所有事件的资源成本降低。
因此,过程112包括:预测解决相关事件组的资源成本降低(在步骤113中),以及预测单独解决组内的事件的总成本(步骤114)。进一步地,过程112包括计算两个预测成本的差(步骤115)。在各种实施例中,所预测的资源成本可以与系统停机时间、人员时间成本、以及解决事件的服务损失有关。在另一个实施例中,资源成本降低可以是负的,显示解决相关事件相较于单独解决事件更多的资源成本。
当(例如,在过程112中)处理每个相关组以获得所预测的资源成本降低时,流程图100的方法根据所预测的相较于其它候选相关组的资源成本降低来分析相关组(步骤116)。进一步地,在步骤117中,流程图100的方法可以利用该分析来选择组的候选相关性,优先或偏好具有更大成本降低的相关性。在另外的实施例中,(步骤116的)分析可以是比较离散的相关组的排序,或者可以是考虑相关组之间的事件重叠的基于事件的分析。
一旦相关事件组被选择并用于解决事件组,流程图100的方法则向预测提供成本反馈以提高未来预测的准确性(步骤118)。
参考图1B,流程图120描绘了图1A所描述的方法的更详细的示例实施例。在各种实施例中,流程图120可以表示根据本发明的实施例的(在图4中描绘的)系统400执行的程序和/或应用的过程和步骤。
对于事件组的每个候选相关性,流程图120的方法可以执行过程130,其包括(在图1B中描绘的)两个分支,第一分支用于相关事件组,第二分支用于相关组中的个体事件。
在一个分支中,流程图120的方法可以将相关事件组的特性馈送到相关组成本预测模型140中(步骤131),并且可以将所预测的解决相关事件组的资源成本确定为Cgroup(步骤132)。
在该实施例中,相关组成本预测模型140是被训练为基于定义相关性的特征的输入向量和经训练的资源成本输出来预测用于解决相关事件组的资源成本的机器学习模型。
在该方法的另一个分支中,流程图120的方法可执行过程133,以针对相关组中的每个事件将个体事件的特性馈送到不相关事件成本预测模型150中(步骤134)。然后,过程133可以确定所预测的解决个体事件的资源成本Cn(步骤135)。流程图120的方法的与过程133对应的分支对所有所预测的个体事件的成本求和(在步骤136中),以获得单独解决事件的总预测成本Cevents,其中,
Figure BDA0003848572090000081
在进一步的实施例中,不相关事件成本预测模型150是被训练为基于定义个体事件的特征的输入向量和经训练的资源成本输出来预测用于解决个体事件的资源成本的机器学习模型。
然后,流程图120的方法组合两个分支以计算所预测的相关组成本Cgroup与单独解决事件的总预测成本Cevents之间的差,从而给出成本降低度量ΔC(步骤137)。
进一步地,流程图120的方法通过成本降低度量ΔC对所推断的相关组的列表排序,其中,首先列出具有最大潜在成本降低的推断(步骤138)。在示例实施例中,步骤138允许用户优先在成本降低方面最有益的推断。
流程图120的方法还包括选择和处理相关组或个体事件(步骤139)。进一步地,在处理之后,步骤139可包括适当地向相关组事件成本预测模型140和不相关事件成本预测模型150提供解决方案的成本反馈。
参考图2,流程图200示出了所描述的由计算机系统执行的用于在故障事件管理中预测事件相关性的成本降低的方法的另一个示例实施例。在各种实施例中,流程图200可以表示根据本发明的实施例的(在图4中描绘的)系统400执行的程序和/或应用的过程和步骤。
如在图1A的第一示例性实施例中,流程图200的方法可以接收故障事件集合(步骤210),并接收对故障事件集合内的事件组应用推断的多个候选相关事件组(步骤211)。在各种实施例中,多个候选事件相关组可以由相关性系统提供,并且基于事件之间的不同的所发现的推断。
在该示例实施例中,对于每个候选相关事件组,流程图200的方法预测解决所有事件的全相关组相较于相关事件组的一个或多个子组的资源成本降低(步骤212)。子组可以具有相关组内的不同的事件成员分组。在各种实施例中,可以选择子组以确定相关组中的事件的最佳组合。
根据本发明的各种实施例,(步骤212的)针对组和子组的资源成本降低的预测可以使用先前描述的将组或子组的成本降低与个体事件的成本降低的总和进行比较的方法。
此外,流程图200的方法可以分析相关事件组和相关事件子组的成本降低的差(步骤213)。步骤213可以包括将相关组的成本降低与构成完整事件组的相关子组的总和进行比较。进一步地,流程图200的方法可以利用该分析以基于成本降低来选择候选相关组或者一个或多个相关子组(步骤214)。
一旦相关事件组被选择并用于解决事件组,流程图200的方法则可以向预测提供成本反馈(步骤215)。在各种实施例中,提供成本反馈可以提高未来预测的准确性。
为了进一步说明所描述的方法的示例实施例,提供了以下简化示例。
接收故障事件集合,其中每个事件具有与该事件相关的信息。该信息被用于找出推断并使来自集合内的事件组相关。相关性在该相关性覆盖的事件中可以是离散的或者可以是重叠的。
场景1找到离散的相关组。相关性1是针对事件组[A,B,C,D,E,F]的,其中推断是公共资源P。相关性2是针对事件组[G,H,I,J,K]找到的,其中推断是Q型事件。相关性3是针对事件组[L,M,N]找到的,其中推断是它影响应用R。
场景2找到重叠的相关组。相关性4是针对事件组[A,B,C,D,E,F]的,其中推断是公共资源P。相关性5是针对事件组[A,C,E,G,H]找到的,其中推断是Q型事件。相关性6是针对事件组[B,C,D,H,F]找到的,其中推断是它影响应用R。
对于每个相关组,本发明的实施例将所预测的解决相关性1的组[A,B,C,D,E,F]的成本与解决个体事件A、B、C、D、E、F并对个体成本求和的所预测的成本进行比较。
可以在离散相关性场景中使用指示使用相关性的成本节省的差异得分,以相对于其它相关性的差异得分(诸如相关性2的差异得分和相关性3的差异得分)而对相关性1排序。进一步地,本发明的实施例可以识别具有最大成本节省的相关性。每个相关组是潜在有效的,并且独立地工作。排序的原因可以是纯粹帮助优化验证组所花费的时间与成本降低的比率。
在另一个实施例中,可以使用相同的技术来比较部署相关组与其它类似的重叠相关组(例如,上面的相关性4、5、6)相比的相对益处。可以使用排序以选择相关性来代替由于重叠而引起的不同的相关性。
在另一个实施例中,可以考虑相关事件组的事件子组,并且如下所述地比较成本节省。
本发明的各种实施例可以将所预测的解决相关性1的组[A,B,C,D,E,F]的成本与解决子组[A,B,C]和[D,E,F]的成本进行比较。例如,将每个子组[A,B,C]的所预测的成本与A、B、C的个体事件成本之和进行比较,从而分析子组的相关性的成本节省。
在进一步的实施例中,可存在其中要解决的子组成本比整个组更少的场景。例如,由于跨团队的信息孤岛(information silos),两个团队独立解决两个事情然后集合在一起更好,而不是一个团队在他们不知道所有事实时尝试解决所有事件。在该示例中,会有三个成本降低数字:1.[A,B,C,D,E,F];2.[A,B,C];3.[D,E,F]。
如果基于与子组[A,B,C]和[D,E,F]相比更大的相关组[A,B,C,D,E,F]进行排序,则所预测的成本会是不同的。
对于这种情况,可以比较组的每个可能划分的总成本降低,并且提出最高的成本节省以供审阅。分析可以考虑相关组和/或子组中的事件的大小和重叠。
较小的相关组可以单独在已排序列表中呈现(例如,[A,B,C]和[D,E,F]),其中,相应的排名是个体的成本降低。可替代地,较小的相关组可以在排序内作为子组的组呈现(例如,[A,B,C][D,E,F]),其中,相应的排名是两个成本降低的总和,其可以与完整组[A,B,C,D,E,F]的成本降低相比较。
该实施例的优点是提供关于哪些相关性是最有益的附加信息,并且如果较大的相关性是错误的,则可以提供帮助。例如,事件A、B、C源自正引起事件D、E、F(其源自应用监视)的网络问题。系统将其检测为相关组:[A,B,C,D,E,F];[A,B,C],[D,E,F]。
过去,由于网络团队与应用团队之间的通信问题,因此,解决包含所有事件的组的成本由于花费时间在团队之间进行协调而已经增加。然而,当网络相关的事件与应用事件分开分组时,成本较低。应用团队能够快速围绕问题工作并恢复服务,并且网络团队快速得到针对深层原因的解决方案。
参考图3A,流程图300示出根据本发明的各种实施例所描述的训练不相关事件成本预测模型150的方法的方面的示例实施例。在示例实施例中,训练不相关事件成本预测模型150的过程可以用具有修正线性单元(ReLU)激活函数的长短期记忆(LSTM)或循环神经网络(RNN)来实现。替代的实施例可以利用线性回归模型。在各种实施例中,流程图300可以表示根据本发明的实施例的(在图4中描绘的)系统400执行的程序和/或应用的过程和步骤。
对于每个不相关事件,流程图300的方法执行过程310,其包括:解决不相关事件(步骤311),确定与不相关事件的解决相关联的成本(例如,在解决事件所花费的时间、资源停机时间等方面)(步骤312),以及将所确定的成本映射到事件(步骤313)。在各种实施例中,事件的成本可以由操作者输入或者可以自动估计。例如,每当作为根本原因分析(RCA)的一部分解决事件时,执行RCA的操作者可指定解决事件的成本。自动的实施例可以收集在事件上花费的总时间量乘以对事件进行工作的操作者的数量。然而,要求确认该成本或者要求手动输入可以提供更准确的结果。
在步骤314中,流程图300的方法使用与不相关事件的特性相关的输入向量来训练机器学习模型。在步骤315中,流程图300的方法使用所映射的成本作为用于解决事件的目标输出以更新模型的权重。此外,在步骤316中,流程图300的方法可以用另外的已解决相关事件组的成本反馈来更新机器学习模型。
参考图3B,流程图350示出了所描述的根据本发明的各种实施例的训练相关事件成本预测模型140的方法的方面的示例实施例。在示例实施例中,训练相关事件成本预测模型140的过程可以用具有修正线性单元(ReLU)激活函数的长短期记忆(LSTM)或循环神经网络(RNN)来实现。可替代的实施例可以利用线性回归模型。在各种实施例中,流程图350可以表示根据本发明的实施例的(在图4中描绘的)系统400执行的程序和/或应用的过程和步骤。
针对基于推断的每个相关事件组,流程图350的方法执行过程360,其包括:解决相关事件组(步骤361),确定与事件组的解决相关联的成本(例如,在解决事件组所花费的时间、资源停机时间等方面)(步骤362),以及将事件组映射到成本(步骤363)。
在步骤364中,流程图350的方法使用与相关事件组的特性有关的输入向量来训练机器学习模型。在示例实施例中,还可以针对相关事件组的子组来训练机器学习模型。在步骤365中,流程图350的方法使用所映射的成本作为用于解决事件的目标输出以更新机器学习模型的权重。
在示例实施例中,每当作为根本原因分析(RCA)的一部分解决相关事件组时,执行RCA的操作者可指定解决事件的成本。自动的示例实施例可以确定在相关事件组上花费的总时间量乘以对相关事件组工作的操作者的数量。然而,要求确认该成本或者要求手动输入可以提供更准确的结果。进一步地,在步骤366中,流程图350的方法可以用另外的已解决相关事件组的成本的反馈来更新机器学习模型。
在各种实施例中,针对事件或事件组测量的资源成本可以包括:解决所需的人员时间;要解决的资源停机时间;以及要解决的服务成本的损失。在进一步的实施例中,输入向量定义事件组的相关性的特征或特性。例如,组中的事件的严重性、组的源(例如,位置列表)、组中的事件的数量、受影响的资源数量、该组趋于发生的时间模式、事件组的持续时间、组中的词的频率(例如,标记化独热编码词计数)、组中的与拓扑的资源匹配的事件的连接程度等。
在另外的实施例中,输入向量定义个体事件的特征或特性。例如,当故障发生(例如,最后一次发生/第一次发生)时,故障有多严重(例如,严重性),故障发生的地方(例如,节点、节点别名、位置等),故障的描述(例如,标识符、概要、警报组等)等。
训练事件成本预测模型:
在示例实施例中,不相关事件成本预测模型是使用事件的输入向量(诸如在下面表1中给出的示例)训练的机器学习模型,具有在服务停机时间方面的关联成本和诸如人时(person hours)的货币成本和服务损失成本的目标输出,如在下面表2中所示的。在各种实施例中,每当作为根本原因分析(RCA)的一部分解决事件时,需要执行RCA的操作者指定解决事件的成本。在进一步的实施例中,每当解决事件并执行RCA过程时,事件成本预测模型的权重将更新。
表1-事件的输入向量:
Figure BDA0003848572090000131
Figure BDA0003848572090000141
表2-事件的目标输出:
名称 描述
人时 解决事件所需的人时数。
服务损失成本 该事件所涉及的中断的成本。
训练相关组成本预测模型:
在示例实施例中,相关组成本预测模型是使用相关组的输入向量(诸如在下面表3中给出的示例)训练的机器学习模型,具有在服务停机时间方面的相关成本和诸如人时的货币成本和服务损失成本的目标输出,如下面表4中所示的。在另外的实施例中,每当作为根本原因分析(RCA)的一部分解决事件组时,需要执行RCA的操作者指定解决事件组的成本。在进一步的实施例中,每当解决相关组并执行该RCA过程时,相关组成本预测模型的权重将更新。
表3-相关组的输入向量:
Figure BDA0003848572090000151
Figure BDA0003848572090000161
表4-事件组的目标输出:
名称 描述
人时 解决事件组所需的人时数。
服务损失成本 该事件组所涉及的(一个或多个)中断的成本。
所描述的方法和系统致力于优化审阅生成用于事件故障的相关性规则的系统的结果所需的努力。该方法获得系统中的自动生成的相关故障组的解决与在故障不相关时解决故障的成本之间的成本比较。该方法基于解决相关故障相对不相关故障的历史成本模型来获得部署相关性规则的成本效益。通过解决组相较于单独解决事件的成本的更高差异来对针对组相关性的推断进行排序允许操作团队优先审阅将导致最大成本降低的推断。
该方法估计操作团队在要基于分析系统所做出的推断来部署相关性规则的情况下收到的成本效益。为了实现这一点,本发明的实施例可以利用三阶段过程。
在阶段一,在解决每个不相关事件之后,要求操作团队提供解决问题所花费的时间以及服务的成本。例如,作为根本原因分析的一部分提供。本发明的实施例可以利用所提供的信息来训练创建事件与成本之间的映射的模型。
在阶段二,在解决每个相关事件组之后,询问与阶段一相同的问题。本发明的实施例可以利用所提供的信息来训练创建事件组特性与成本之间的映射的模型。
在阶段三,当操作团队要审阅推断列表时,将每个推断通过模型以给出所预测的相关成本和所预测的不相关成本。本发明的实施例可以利用这两个度量之间的差以便确定每个推断可以有多有益。具有较大差的推断将被系统排序得比具有较小差的推断更高。在示例实施例中,排序将允许操作团队优先审阅将导致最大成本降低的推断。
参考图4,所描绘的框图示出了系统400的示例实施例,其中可以实现所描述的系统,包括由计算机系统提供的故障事件管理系统410,并且包括所描述的相关性成本预测系统420、相关联的相关性系统430和根本原因分析系统440。
故障事件管理系统410的计算系统包括至少一个处理器411、硬件模块、或用于执行所描述的组件的功能的电路,该电路可以是在至少一个处理器上执行的软件单元。可以提供运行并行处理线程的多个处理器,使得能够并行处理组件的一些或全部功能。存储器412可以被配置为向至少一个处理器411提供计算机指令413以执行组件的功能。
机器学习系统450可以在本地提供或相对故障事件管理系统410远程地提供(例如,经由网络通信连接,未示出),以训练和提供相关组事件预测模型140和不相关事件成本预测模型150。机器学习系统450可以由计算机系统提供,包括至少一个处理器451、硬件模块、或用于执行所描述的组件的功能的电路,该电路可以是在至少一个处理器上执行的软件单元。可以提供运行并行处理线程的多个处理器,使得能够并行处理组件的一些或全部功能。存储器452可以被配置为向至少一个处理器451提供计算机指令453以执行组件的功能。
机器学习系统450可以包括相关组训练组件455和个体事件训练组件454。相关组训练组件455和个体事件训练组件454可以从故障事件管理系统410的根本原因分析系统440接收训练反馈。
相关性成本预测系统420可以包括相关性接收组件421,用于从相关性系统430接收故障事件集合中的事件组的多个候选相关性。故障事件集合中的事件组的多个候选相关性由相关性系统430提供,并且基于事件之间的不同的所发现的推断。
相关性成本预测系统420可以包括成本预测组件422,对于事件组的每个候选相关性,预测解决相关事件组相较于单独解决组中的所有事件的资源成本降低。成本预测组件422可包括相关性预测组件423,其用于预测作为组解决相关事件组的第一资源成本,并且应用相关组事件成本预测模型140,该相关组事件成本预测模型140被训练为基于定义相关组的特征的输入向量来预测用于解决相关事件组的资源成本。
成本预测组件422还可包括个体事件预测组件424,其用于预测单独解决组中的事件的成本之和的第二资源成本,并且应用不相关事件成本预测模型150,该不相关事件成本预测模型150被训练为基于定义个体事件的特征的输入向量来预测用于解决个体事件的资源成本。成本预测组件422还包括成本降低预测组件425,其用于计算所预测的第一资源成本和第二资源成本的差以获得所预测的资源成本降低。
相关性成本预测系统420可以包括用于分析事件组的多个候选相关性的所预测的资源成本降低的分析组件426和用于基于所预测的资源成本降低的排序来选择组的候选相关性的选择组件427。
图5示出了根据本发明的实施例的图4的故障事件管理系统410和机器学习系统450的计算系统的组件的框图。应当理解,图5仅提供了一种实现的图示,并不暗示针对其中可实现不同实施例的环境的任何限制。可以对所描述的环境进行许多修改。
计算系统可以包括一个或多个处理器502、一个或多个计算机可读RAM 504、一个或多个计算机可读ROM 506、一个或多个计算机可读存储介质508、设备驱动器512、读/写驱动器或接口514、以及网络适配器或接口516,所有这些都通过通信结构518互连。通信结构518可以用被设计用于在处理器(诸如微处理器、通信和网络处理器等)、系统存储器、外围设备、和系统内的任何其它硬件组件之间传递数据和/或控制信息的任何架构来实现。
一个或多个操作系统510和应用程序511(诸如相关性成本预测系统420、相关性系统430和根本原因分析系统440)被存储在一个或多个计算机可读存储介质508上,以由一个或多个处理器502经由一个或多个相应的RAM 504(其通常包括高速缓冲存储器)执行。在所示的实施例中,根据本发明的实施例,每个计算机可读存储介质508可以是内部硬盘驱动器的磁盘存储设备、CD-ROM、DVD、记忆棒、磁带、磁盘、光盘、诸如RAM、ROM、EPROM、闪存之类的半导体存储设备、或者可以存储计算机程序和数字信息的任何其它计算机可读存储介质。
计算系统还可包括R/W驱动器或接口514以从一个或多个便携式计算机可读存储介质526读取和向其写入。计算系统上的应用程序511可被存储在一个或多个便携式计算机可读存储介质526上,经由相应的R/W驱动器或接口514读取并被加载到相应的计算机可读存储介质508中。
计算系统还可以包括网络适配器或接口516,诸如TCP/IP适配卡或无线通信适配器。计算系统上的应用程序511可以从外部计算机或外部存储设备经由网络(例如,因特网、局域网或其他广域网或无线网络)和网络适配器或接口516下载到计算设备。程序可以从网络适配器或接口516加载到计算机可读存储介质508中。网络可以包括铜线、光纤、无线传输、路由器、防火墙、交换机、网关计算机和边缘服务器。
计算系统还可以包括显示屏520、键盘或小键盘522、以及计算机鼠标或触摸板524。设备驱动器512与用于成像的显示屏520、键盘或小键盘522、计算机鼠标或触摸板524、和/或用于字母数字字符输入和用户选择的压力感测的显示屏520相接口。设备驱动器512、R/W驱动器或接口514以及网络适配器或接口516可包括硬件和在计算机可读存储介质508和/或ROM 506中存储的软件。
本发明可以是任何可能的技术细节集成水平的系统、方法和/或计算机程序产品。计算机程序产品可以包括在其上具有计算机可读程序指令的(一个或多个)计算机可读存储介质,计算机可读程序指令用于使处理器执行本发明的各方面。
计算机可读存储介质可以是可保持并存储由指令执行设备使用的指令的有形设备。计算机可读存储介质可以是例如但不限于电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备、或前述存储设备的任何合适的组合。计算机可读存储介质的更具体示例的非穷举列表包括以下:便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式光盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、诸如在上面记录有指令的打孔卡或凹槽中的凸起结构的机械编码设备、以及上述设备的任何适当的组合。如本文所使用的计算机可读存储介质不应被解释为是暂时性信号本身,诸如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如,通过光纤线缆的光脉冲)、或通过导线传输的电信号。
本文描述的计算机可读程序指令可以从计算机可读存储介质下载到相应的计算/处理设备,或者经由网络(例如互联网、局域网、广域网和/或无线网络)下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或网络接口从网络接收计算机可读程序指令,并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。
用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路的配置数据、或者以一种或多种编程语言(包括面向对象的编程语言,例如Smalltalk、C++等)和过程编程语言(例如“C”编程语言或类似的编程语言)的任意组合编写的源代码或目标代码。计算机可读程序指令可以完全在用户的计算机上执行、部分在用户的计算机上执行、作为独立的软件包执行、部分在用户的计算机上并且部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在后一种场景下,远程计算机可以通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接到用户的计算机,或者可以连接到外部计算机(例如,使用互联网服务提供商通过互联网)。在一些实施例中,包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来执行计算机可读程序指令以使电子电路个性化,以便执行本发明的各方面。
在此参考根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明的各方面。将理解,流程图和/或框图的每个框以及流程图和/或框图中的框的组合可以由计算机可读程序指令来实现。
这些计算机可读程序指令可以被提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器以产生机器,以使得经由计算机或其他可编程数据处理装置的处理器而执行的指令创建用于实现流程图和/或框图的一个或多个框中指定的功能/动作的装置。这些计算机可读程序指令还可以存储在计算机可读存储介质中,其可以引导计算机、可编程数据处理装置和/或其他设备以特定方式工作,以使得在其中存储有指令的计算机可读存储介质包括制品,该制品包括实现流程图和/或框图的一个或多个框中指定的功能/动作的各方面的指令。
计算机可读程序指令还可以被加载到计算机、其他可编程数据处理装置或其他设备上,以使一系列操作步骤将在计算机、其他可编程装置或其他设备上执行,以产生计算机实现的过程,以使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图的一个或多个框中指定的功能/动作。
附图中的流程图和框图示出了根据本发明的各种实施例的系统、方法和计算机程序产品的可能实现的架构、功能和操作。在这点上,流程图或框图中的每个框可以表示指令的模块、段或部分,其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些替代实施方案中,框中所注明的功能可不按图中所注明的次序发生。例如,连续示出的两个框实际上可以基本上同时执行,或者这些框有时可以以相反的顺序执行,这取决于所涉及的功能。还将注意,框图和/或流程图图示的每个框以及框图和/或流程图图示中的框的组合可以由执行指定功能或动作或执行专用硬件和计算机指令的组合的专用的基于硬件的系统来实现。
云计算:
应当理解,尽管本公开包括关于云计算的详细描述,但是本文所记载的教导的实现不限于云计算环境。相反,本发明的实施例能够结合现在已知或以后开发的任何其它类型的计算环境来实现。
云计算是一种服务交付模式,用于实现对共享的可配置计算资源(例如,网络、网络带宽、服务器、处理、存储器、存储、应用、VM和服务)池池的方便、按需的网络访问,可配置计算资源可以以最小的管理成本或与服务提供商进行最少的交互来快速供应和释放。这种云模式可以包括至少五个特性、至少三个服务模型和至少四个部署模型。
特征如下:
按需自助式服务:云的消费者可以单方面自动地按需提供计算能力(诸如服务器时间和网络存储),而无需与服务提供者进行人工交互。
广泛的网络接入:能力在网络上可用并通过促进异构的瘦或厚客户端平台(例如,移动电话、膝上型计算机和PDA)的使用的标准机制来接入。
资源池:提供商的计算资源被归入资源池以使用多租户模型来服务多个消费者,其中不同的物理和虚拟资源根据需求被动态地分配和再分配。一般情况下,消费者不能控制或不知道所提供的资源的确切位置,但是可以在较高抽象程度上指定位置(例如国家、州或数据中心),因此具有位置无关性。
迅速弹性:可以迅速且有弹性地(在一些情况下自动地)提供能力以快速向外扩展并被迅速释放以快速缩小。对于消费者,可用于提供的能力通常看起来是无限的,并可以在任何时间以任何数量购买。
可测量的服务:云系统通过利用在适于服务类型(例如,存储、处理、带宽和活动用户账户)的某一抽象程度的计量能力,自动地控制和优化资源使用。可以监视、控制和报告资源使用情况,为所利用的服务的提供者和消费者双方提供透明度。
服务模型如下:
软件即服务(SaaS):向消费者提供的能力是使用提供者在云基础架构上运行的应用。可通过诸如网络浏览器的瘦客户机接口(例如,基于网络的电子邮件)来从各种客户机设备访问应用。除了有限的特定于用户的应用配置设置以外,消费者既不管理也不控制包括网络、服务器、操作系统、存储、或甚至单个应用能力等的底层云基础架构。
平台即服务(PaaS):向消费者提供的能力是在云基础架构上部署消费者创建或获得的应用,这些应用是使用由提供商支持的编程语言和工具创建的。消费者既不管理也不控制包括网络、服务器、操作系统或存储的底层云基础架构,但对其部署的应用具有控制权,对应用托管环境配置可能也具有控制权。
基础架构即服务(IaaS):向消费者提供的能力是提供消费者能够在其中部署并运行包括操作系统和应用的任意软件的处理、存储、网络和其它基础计算资源。消费者既不管理也不控制底层云基础架构,但对操作系统、存储、所部署的应用具有控制权,对所选择的网络组件(例如,主机防火墙)可能具有有限的控制权。
部署模型如下:
私有云:云基础架构单独为某个组织运行。它可以由该组织或第三方管理,并且可以存在于该组织内部或外部。
共同体云:云基础架构被若干组织共享,并支持具有共同利害关系(例如,任务、安全要求、政策和合规考虑)的特定共同体。它可以由该组织或第三方管理,并且可以存在于该组织内部或外部。
公共云:云基础架构可用于一般公众或大型产业群,并由销售云服务的组织拥有。
混合云:云基础架构由两个或更多云(私有云、共同体云或公共云)组成,这些云依然是独特实体,但是通过使数据和应用能够移植的标准化技术或私有技术(例如,用于云之间的负载平衡的云突发)绑定在一起。
云计算环境是面向服务的,特点集中在无状态性、低耦合性、模块性和语义的互操作性。计算的核心是包括互连节点网络的基础架构。
现在参考图6,描述了说明性的云计算环境50。如图所示,云计算环境50包括云消费者使用的本地计算设备可以与其通信的一个或多个云计算节点10,本地计算设备例如是个人数字助理(PDA)或蜂窝电话54A、台式计算机54B、膝上型计算机54C和/或汽车计算机系统54N。节点10可以彼此通信。它们可以被物理地或虚拟地分组(未示出)在一个或多个网络(诸如如上文所描述的私有云、共同体云、公共云或混合云或其组合)中。这允许云计算环境50提供基础架构即服务、平台即服务和/或软件即服务,而云消费者不需要为其在本地计算设备上维护资源。应当理解,图6中所示的各类计算设备54A-N仅仅是示意性的,计算节点10和云计算环境50可以在任何类型的网络和/或网络可寻址连接上(例如,使用网络浏览器)与任何类型的计算设备通信。
现在参考图7,示出了由云计算环境50(图6)提供的一组功能抽象层。首先应当理解,图7所示的组件、层和功能仅仅是示意性的,本发明的实施例不限于此。如图所示,提供了以下层和相应的功能:
硬件和软件层60包括硬件和软件组件。硬件组件的示例包括:大型机61;基于RISC(精简指令集计算机)架构的服务器62;服务器63;刀片服务器64;存储设备65;以及网络和网络组件66。在一些实施例中,软件组件包括网络应用服务器软件67和数据库软件68。
虚拟化层70提供抽象层,从该抽象层可以提供虚拟实体的以下示例:虚拟服务器71;虚拟存储器72;虚拟网络73,包括虚拟专用网络;虚拟应用程序和操作系统74;以及虚拟客户端75。
在一个示例中,管理层80可以提供以下描述的功能。资源供应功能81提供用于在云计算环境中执行任务的计算资源和其它资源的动态获取。计量和定价功能82提供对在云计算环境内使用资源的成本跟踪,并为这些资源的消耗提供账单或发票。在一个示例中,这些资源可以包括应用软件许可。安全功能为云消费者和任务提供身份认证,并为数据和其他资源提供保护。用户门户功能83为消费者和系统管理员提供对云计算环境的访问。服务水平管理功能84提供云计算资源的分配和管理,以满足所需的服务水平。服务水平协议(SLA)计划和履行功能85提供对根据SLA针对其预测未来需求的云计算资源的预安排和采购。
工作负载层90提供可以利用云计算环境的功能的示例。在该层中,可提供的工作负载和功能的示例包括:地图绘制与导航91;软件开发及生命周期管理92;虚拟教室的教学提供93;数据分析处理94;交易处理95;以及故障管理处理96。
本发明的计算机程序产品包括一个或多个计算机可读硬件存储设备,在其中存储有计算机可读程序代码,所述程序代码可由一个或多个处理器执行以实现本发明的方法。
本发明的计算机系统包括一个或多个处理器、一个或多个存储器以及一个或多个计算机可读硬件存储设备,所述一个或多个硬件存储设备包含可由一个或多个处理器经由一个或多个存储器执行以实现本发明的方法的程序代码。
已经出于说明的目的给出了本发明的各种实施例的描述,但是其并不旨在是穷尽的或限于所公开的实施例。在不背离所描述的实施例的范围的情况下,许多修改和变化对于本领域的普通技术人员将是显而易见的。选择本文所使用的术语以最好地解释实施例的原理、实际应用或对市场上发现的技术的技术改进,或者使本领域的普通技术人员能够理解本文所公开的实施例。
在不背离本发明的范围的情况下,可以对前述内容进行改进和修改。

Claims (25)

1.一种计算机实现的方法,包括:
由一个或多个处理器接收故障事件集合中的多个候选相关事件组;
对于每个候选相关事件组,由一个或多个处理器预测解决相应的相关事件组相比较于单独解决相应的相关组中的所有事件的资源成本降低;
由一个或多个处理器分析针对所述多个候选相关事件组的所预测的资源成本降低;以及
由一个或多个处理器基于对所预测的资源成本降低的分析来选择候选相关组。
2.根据权利要求1所述的方法,其中,预测用于解决事件组的每个候选相关性的资源成本降低进一步包括:
由一个或多个处理器预测作为组解决所述相关事件组的第一资源成本;
由一个或多个处理器将第二资源成本预测为单独解决所述组中的所述事件的成本的总和;以及
由一个或多个处理器计算所述第一预测资源成本与所述第二预测资源成本之差,以确定所预测的资源成本降低。
3.根据权利要求1所述的方法,其中,分析所预测的资源成本降低进一步包括:
由一个或多个处理器通过所预测的资源成本降低来对所述候选相关事件组进行排序。
4.根据权利要求1所述的方法,其中,所述候选相关组是离散的事件组或者是具有包括事件子组的重叠事件的组。
5.根据权利要求4所述的方法,其中,分析所预测的资源成本降低进一步包括:
由一个或多个处理器计算事件子组的组合预测成本降低;以及
由一个或多个处理器将所述结果与整个事件组的所预测的成本降低进行比较。
6.根据权利要求2所述的方法,其中,针对事件或事件组,所述资源成本被测量为从由以下各项组成的组中选择的一项或多项:解决所需的人员时间,要解决的资源停机时间,以及要解决的服务损失成本。
7.根据权利要求2所述的方法,其中,预测第一资源成本进一步包括:
由一个或多个处理器应用第一机器学习模型,所述第一机器学习模型被训练为基于定义所述相关性的特征的输入向量预测用于解决相关事件组的资源成本。
8.根据权利要求7所述的方法,其中,所述输入向量以从由以下各项组成的组中选择的一项或多项的形式定义所述相关性的特征:所述组中的事件的严重性,所述组中的每个事件的源,所述组中的事件的数量,受影响的资源的数量,所述组发生的时间模式,所述组的持续时间,所述组中的词的频率,以及所述组中的与拓扑的资源相匹配的事件的连接程度。
9.根据权利要求7所述的方法,还包括:
由一个或多个处理器向所述第一机器学习模型提供解决相关事件组的资源成本的反馈以用于所述模型的继续训练。
10.根据权利要求2所述的方法,其中,预测第二资源成本进一步包括:
由一个或多个处理器应用第二机器学习模型,所述第二机器学习模型被训练为基于定义个体事件的特征的输入向量预测用于解决所述个体事件的资源成本。
11.根据权利要求10所述的方法,其中,所述输入向量以从由以下各项组成的组中选择的一项或多项的形式定义所述个体事件的特征:所述事件发生的时间;所述事件的严重性;所述事件的位置;所述事件的描述。
12.根据权利要求10所述的方法,还包括:
由一个或多个处理器向所述第二机器学习模型提供解决个体事件的资源成本的反馈以用于所述模型的继续训练。
13.根据权利要求1所述的方法,其中,故障事件集合中的事件组的所述多个候选相关性由相关性系统提供,并且基于事件之间的不同的所发现的推断。
14.一种计算机系统,包括:
一个或多个计算机处理器;
一个或多个计算机可读存储介质;以及
在所述计算机可读存储介质上存储的用于由所述一个或多个处理器中的至少一个处理器执行的程序指令,所述程序指令包括:
用于接收故障事件集合中的多个候选相关事件组的程序指令;
用于针对每个候选相关事件组,预测解决相应的相关事件组相较于单独解决相应的相关组中的所有事件的资源成本降低的程序指令;
用于分析针对所述多个候选相关事件组的所预测的资源成本降低的程序指令;以及
用于基于对所预测的资源成本降低的分析来选择候选相关组的程序指令。
15.根据权利要求14所述的计算机系统,其中,用于预测用于解决事件组的每个候选相关性的资源成本降低的程序指令进一步包括用于以下操作的程序指令:
预测作为组解决所述相关事件组的第一资源成本;
将第二资源成本预测为单独解决所述组中的所述事件的成本的总和;以及
计算所述第一预测资源成本与所述第二预测资源成本之差,以确定所预测的资源成本降低。
16.根据权利要求15所述的计算机系统,其中,用于预测所述第一资源成本的程序指令进一步包括用于以下操作的程序指令:
应用第一机器学习模型,所述第一机器学习模型被训练为基于定义所述相关性的特征的输入向量预测用于解决相关事件组的资源成本。
17.根据权利要求15所述的计算机系统,其中,用于预测所述第一资源成本的程序指令进一步包括用于以下操作的程序指令:
应用第二机器学习模型,所述第二机器学习模型被训练为基于定义个体事件的特征的输入向量预测用于解决所述个体事件的资源成本。
18.一种计算机程序产品,包括:
一个或多个计算机可读存储介质和被存储在所述一个或多个计算机可读存储介质上的程序指令,所述程序指令包括:
用于接收故障事件集合中的多个候选相关事件组的程序指令;
用于针对每个候选相关事件组,预测解决相应的相关事件组相较于单独解决相应的相关组中的所有事件的资源成本降低的程序指令;
用于分析针对所述多个候选相关事件组的所预测的资源成本降低的程序指令;以及
用于基于对所预测的资源成本降低的分析来选择候选相关组的程序指令。
19.一种计算机实现的方法,包括:
提供第一机器学习模型,所述第一机器学习模型被训练为基于定义相关事件组的特征的输入向量预测用于解决所述相关组的资源成本;
提供第二机器学习模型,所述第二机器学习模型被训练为基于定义个体事件的特征的输入向量预测用于解决所述个体事件的资源成本;
对于事件组的所发现的相关性:
由一个或多个处理器应用所述第一机器学习模型以预测用于作为相关组解决所述事件组的资源成本;
由一个或多个处理器应用所述第二机器学习模型以预测用于作为个体事件解决所述事件组的资源成本;以及
由一个或多个处理器预测解决相关的事件组相较于单独解决所述组中的所有事件的总资源成本的资源成本降低。
20.根据权利要求19所述的方法,其中,提供被训练为基于定义相关事件组的特征的输入向量预测用于解决所述相关组的资源成本的第一机器学习模型进一步包括:
由一个或多个处理器基于包括相关事件组的资源成本反馈的已解决相关组事件分析来训练所述第一机器学习模型。
21.根据权利要求19所述的方法,其中,提供被训练为基于定义个体事件的特征的输入向量预测用于解决所述个体事件的资源成本的第二机器学习模型进一步包括:
由一个或多个处理器基于包括个体事件的资源成本反馈的已解决事件分析来训练所述第二机器学习模型。
22.一种计算机实现的方法,包括:
由一个或多个处理器训练第一机器学习模型以基于定义相关事件组的特征的输入向量预测用于解决所述相关组的资源成本;
由一个或多个处理器训练第二机器学习模型以基于定义个体事件的特征的输入向量预测用于解决所述个体事件的资源成本;
由一个或多个处理器提供所述第一机器学习模型以用于预测用于作为输入相关组解决事件组的资源成本;
由一个或多个处理器提供所述第二机器学习模型以用于预测用于作为个体事件解决所述输入相关组中的所述事件组的资源成本;以及
由一个或多个处理器预测作为相关组解决所述相关事件组相较于单独解决所述组中的所有事件的总资源成本的资源成本降低。
23.根据权利要求22所述的方法,其中,训练所述第一机器学习模型以预测用于解决相关事件组的资源成本是基于包括相关事件组的资源成本反馈的已解决相关组事件分析。
24.根据权利要求22所述的方法,其中,训练所述第二机器学习模型以预测用于解决个体事件的资源成本是基于包括个体事件的资源成本反馈的已解决事件分析。
25.根据权利要求22所述的方法,还包括:
由一个或多个处理器接收对所述第一机器学习模型的解决相关事件组的资源成本的反馈,以用于所述模型的继续训练;以及
由一个或多个处理器接收对所述第二机器学习模型的解决个体事件的资源成本的反馈,以用于所述模型的继续训练。
CN202180022123.3A 2020-03-18 2021-03-09 故障事件管理中的事件相关性 Pending CN115280343A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/823,213 US20210294682A1 (en) 2020-03-18 2020-03-18 Predicting cost reduction of event correlation in fault event management
US16/823,213 2020-03-18
PCT/IB2021/051933 WO2021186291A1 (en) 2020-03-18 2021-03-09 Event correlation in fault event management

Publications (1)

Publication Number Publication Date
CN115280343A true CN115280343A (zh) 2022-11-01

Family

ID=77748118

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180022123.3A Pending CN115280343A (zh) 2020-03-18 2021-03-09 故障事件管理中的事件相关性

Country Status (9)

Country Link
US (1) US20210294682A1 (zh)
JP (1) JP2023517520A (zh)
KR (1) KR20220134621A (zh)
CN (1) CN115280343A (zh)
AU (1) AU2021236966A1 (zh)
CA (1) CA3165155A1 (zh)
GB (1) GB2610075A (zh)
IL (1) IL295346A (zh)
WO (1) WO2021186291A1 (zh)

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102136922B (zh) * 2010-01-22 2014-04-16 华为技术有限公司 相关性分析的方法、设备及系统
US20140236666A1 (en) * 2013-02-19 2014-08-21 International Business Machines Corporation Estimating, learning, and enhancing project risk
US20140351649A1 (en) * 2013-05-24 2014-11-27 Connectloud, Inc. Method and Apparatus for Dynamic Correlation of Large Cloud Compute Fault Event Stream
US9354963B2 (en) * 2014-02-26 2016-05-31 Microsoft Technology Licensing, Llc Service metric analysis from structured logging schema of usage data
US10241853B2 (en) * 2015-12-11 2019-03-26 International Business Machines Corporation Associating a sequence of fault events with a maintenance activity based on a reduction in seasonality
US10860405B1 (en) * 2015-12-28 2020-12-08 EMC IP Holding Company LLC System operational analytics
US10067815B2 (en) * 2016-06-21 2018-09-04 International Business Machines Corporation Probabilistic prediction of software failure
US10207184B1 (en) * 2017-03-21 2019-02-19 Amazon Technologies, Inc. Dynamic resource allocation for gaming applications
US11449379B2 (en) * 2018-05-09 2022-09-20 Kyndryl, Inc. Root cause and predictive analyses for technical issues of a computing environment
US10922163B2 (en) * 2018-11-13 2021-02-16 Verizon Patent And Licensing Inc. Determining server error types
US20200310897A1 (en) * 2019-03-28 2020-10-01 Marketech International Corp. Automatic optimization fault feature generation method
US11823562B2 (en) * 2019-09-13 2023-11-21 Wing Aviation Llc Unsupervised anomaly detection for autonomous vehicles
US11099928B1 (en) * 2020-02-26 2021-08-24 EMC IP Holding Company LLC Utilizing machine learning to predict success of troubleshooting actions for repairing assets
US11570038B2 (en) * 2020-03-31 2023-01-31 Juniper Networks, Inc. Network system fault resolution via a machine learning model

Also Published As

Publication number Publication date
KR20220134621A (ko) 2022-10-05
US20210294682A1 (en) 2021-09-23
WO2021186291A1 (en) 2021-09-23
CA3165155A1 (en) 2021-09-23
JP2023517520A (ja) 2023-04-26
AU2021236966A1 (en) 2022-09-01
GB202215192D0 (en) 2022-11-30
IL295346A (en) 2022-10-01
GB2610075A (en) 2023-02-22

Similar Documents

Publication Publication Date Title
US11119878B2 (en) System to manage economics and operational dynamics of IT systems and infrastructure in a multi-vendor service environment
US11474905B2 (en) Identifying harmful containers
US11171825B2 (en) Context-based resource allocation with extended user concepts
US10691516B2 (en) Measurement and visualization of resiliency in a hybrid IT infrastructure environment
US20220198362A1 (en) Generation of dashboard templates for operations management
US11683391B2 (en) Predicting microservices required for incoming requests
US11947519B2 (en) Assigning an anomaly level to a non-instrumented object
US9785464B2 (en) Intellective switching between tasks
US20220215286A1 (en) Active learning improving similar task recommendations
US11494718B2 (en) Runbook deployment based on confidence evaluation
US11601347B2 (en) Identification of incident required resolution time
US11256598B2 (en) Automated selection of performance monitors
US20230267323A1 (en) Generating organizational goal-oriented and process-conformant recommendation models using artificial intelligence techniques
US20220180289A1 (en) Cognitive user selection
CN115280343A (zh) 故障事件管理中的事件相关性
US11025704B2 (en) Methods and systems for enhanced component relationships in representations of distributed computing systems
CN116194889A (zh) 确定应用对系统性能的影响
CN114629675B (zh) 做出安全推荐的方法、系统和存储介质
US20220138614A1 (en) Explaining machine learning based time series models
AU2021363719B2 (en) Generating and updating a performance report
US12032706B2 (en) Application security scoring
US20240064068A1 (en) Risk mitigation in service level agreements
US11150971B1 (en) Pattern recognition for proactive treatment of non-contiguous growing defects
US11151121B2 (en) Selective diagnostics for computing systems
US20220019708A1 (en) Vehicle asset modeling using language processing methods

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination