CN117157955A - 识别信息技术基础设施网络中的问题图 - Google Patents

识别信息技术基础设施网络中的问题图 Download PDF

Info

Publication number
CN117157955A
CN117157955A CN202280025985.6A CN202280025985A CN117157955A CN 117157955 A CN117157955 A CN 117157955A CN 202280025985 A CN202280025985 A CN 202280025985A CN 117157955 A CN117157955 A CN 117157955A
Authority
CN
China
Prior art keywords
nodes
historical
node
state
topology
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280025985.6A
Other languages
English (en)
Inventor
L·塔希尔
K·D·J·科伦德
J·A·迪亚兹加西亚
C·J·斯凯茨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN117157955A publication Critical patent/CN117157955A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/147Network analysis or design for predicting network behaviour
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/12Discovery or management of network topologies

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Debugging And Monitoring (AREA)

Abstract

提供了用于识别信息技术基础设施网络中的问题图的方法和系统。该方法包括:选择拓扑中的节点集合,其中所述拓扑的节点表示信息技术基础设施网络中的资源;查询所选节点的历史时间序列数据,其中所述时间序列数据记录由所述节点表示的资源的状态的改变;以及分析所选节点在问题时间段上的时间序列数据,以产生定义一个或多个历史问题图的历史有向规则集合。该方法可以在历史问题图中搜索当前问题状态节点,以确定当前问题的可能原因节点和受影响节点。

Description

识别信息技术基础设施网络中的问题图
背景技术
本发明涉及信息技术(IT)系统的管理,并且更具体地涉及识别在IT基础设施网络中可以从其获得问题树的问题图。
对于具有扩展的IT基础设施的大型组织,信息技术(IT)系统的管理是日益复杂的问题。许多组织采用网络操作中心(NOC),其中受过训练的操作员利用IT操作管理软件来在IT基础设施内发生问题(称为事件(incident))时实时地诊断和修复这些问题。事件是由通常发生在IT基础设施内的物理或虚拟设备上的问题引起的,这些资源常常被基础设施中的一个或多个其他资源依赖,这些其他资源将被称为子资源,子资源进而可以被它们自己的子资源依赖。因此,事件可能包括来自多个资源的警报,每个指示本地问题。
通常,事件在单个问题资源上具有单个根本原因问题。IT基础设施中的每个资源通常具有一系列问题状态,每个问题状态具有对子资源的唯一结果集。操作员通常能够通过检查与给定事件相关联的警报来确定对子资源的影响,从而诊断根本原因问题。
如同资源一样,资源之间的依赖关系也可以被表示为虚拟或物理链接,诸如依赖于虚拟容器运行时的微服务应用或依赖于到网络交换机的物理连接的裸机服务器。
这些关系可以使用扩展IT网络拓扑图表示,扩展IT网络拓扑图是IT网络作为具有建模为节点的资源和建模为边的资源之间的连接的图的表示。
在事件期间,警报跨扩展IT网络拓扑图发生。事件通常由一个或多个资源进入问题状态而引起,该问题状态可以级联到子资源以形成问题图,或者实际上该问题图可以由一个或多个进入问题状态的子资源向上游级联而形成。
目前,操作员利用领域知识来手动地识别问题图。操作员的目的在于通过检查网络拓扑并手动识别通过问题图所呈现的模式来诊断根本原因问题来查找根本原因。这允许操作者在所识别的图中收集相关事情(event)以简化事件的复杂性,并因此减少平均了解时间(MTTK)。
发明内容
根据本发明的一个方面,提供了一种用于识别信息技术基础设施网络中的问题图的计算机实现的方法,包括:选择拓扑中的节点集合,其中所述拓扑的所述节点表示信息技术(IT)基础设施网络中的资源;查询所选节点的历史时间序列数据,其中所述时间序列数据记录由所述节点表示的资源的状态的改变;以及分析所选节点在问题时间段上的时间序列数据,以产生定义一个或多个历史问题图的历史有向规则集合。
这基于来自历史状态改变数据的时间模式推断问题图,而不需要准备好的启发式规则。这可以发现否则可能被忽略的关系。
历史有向规则集合中的每个规则可以识别指示性问题子图和由具有方向依赖性的节点-状态对的子集形成的结果问题子图。
分析所选节点的时间序列数据可以包括:识别问题时间段,在所述问题时间段中,相邻或接近的节点改变指示因果关系的问题状态;并且通过应用关联规则挖掘算法确定因果关系是否一致地发生。
分析所选节点的时间序列数据可以包括:基于所述问题时间段产生事务;以及对事务执行关联规则挖掘以识别节点-状态对形式的项的子集以及它们之间的有向依赖性,这些节点-状态对通常跨多个事务共同发生;以及基于节点-状态对的子集及其有向依赖性产生定义历史问题图的历史有向规则集合。基于问题时间段产生事务可以包括定义静默时段阈值以定义单个问题时间段,以及定义与同一问题相关的节点的距离阈值。
该方法可以包括基于为历史有向规则产生的分数,为历史问题图的每个边分配置信度分数。
该方法可以包括搜索历史问题图以寻找当前问题状态节点,以确定当前问题的可能原因节点和受影响节点。该方法可以对历史问题图排序并且读取历史问题图以找到问题节点下(off)的根节点和/或子节点,从而确定问题的根本原因和/或预测受影响的资源。图的排序可以基于历史问题图的每个边所分配的置信度分数的组合,该分配的置信度分数基于为每个历史有向规则产生的分数。根节点和/或子节点的预测可以基于历史问题图中的边的分配的置信度分数。
该方法可以定义信息技术基础设施网络的拓扑,其中节点表示具有由拓扑中的边定义的连通性的虚拟或物理资源,包括标记节点以描绘域和定义子拓扑。选择拓扑中的节点集合可以通过标记的域来选择节点。该方法可以包括周期性地从由节点表示的资源收集状态数据,并将其存储在适于查询的时间序列图数据储存库中。该方法可以包括配置时间序列数据的时间间隔和问题时间段。
根据本发明的另一方面,提供了一种用于识别信息技术基础设施网络中的问题图的计算机实现的方法,包括:检测具有当前问题状态的拓扑中的节点集合,其中所述拓扑的节点表示信息技术基础设施网络中的资源;在一个或多个历史问题图中查找问题状态节点;按普遍性对历史问题图排序;读取一个或多个排序的历史问题图,以找到问题节点下的根节点和/或子节点;以及获得具有问题节点状态变化的问题树,以产生可能原因的有序列表和/或可能受影响节点的有序列表。
该方法的优点在于,当评估IT基础设施网络中的类似问题现场活动(live event)时使用历史问题图表来匹配异常拓扑模式。这可以用于预测根本原因问题节点和/或通过基于历史问题图读取问题树来预测受影响的节点。
根据本发明的另一方面,提供了一种用于识别信息技术基础设施网络中的问题图的系统,包括:处理器和存储器,所述存储器被配置为向所述处理器提供计算机程序指令以执行以下组件的功能:节点选择组件,用于选择拓扑中的一组节点,其中所述拓扑的节点表示信息技术基础设施网络中的资源;状态改变数据查询组件,用于查询所选节点的历史时间序列数据,其中所述时间序列数据记录由所述节点表示的资源的状态的改变;以及分析组件,用于分析所选节点在问题时间段上的时间序列数据,以产生定义一个或多个历史问题图的历史有向规则集合。
分析组件可以包括规则组件,用于产生定义历史问题图的历史有向规则集合,其中历史有向规则集合中的每个规则识别指示性问题子图和由具有方向依赖性的节点-状态对的子集形成的结果问题子图。
分析组件还可以包括:问题时段组件,用于识别其中相邻或接近的节点改变指示因果关系的问题状态的问题时段;以及关联规则挖掘组件,用于通过应用关联规则挖掘算法来确定因果关系是否一致地发生。
分析组件可以包括:事务组件,用于基于问题时间段产生事务;并且其中关联规则挖掘组件可以对事务执行关联规则挖掘以识别节点-状态对形式的项的子集以及它们之间的有向依赖性,所述节点-状态对通常跨多个事务共同发生,并且基于节点-状态对的子集和它们的有向依赖性产生定义历史问题图的历史有向规则集合。
事务组件可基于问题时间段产生事务,包括定义静默时段阈值以定义单个问题时间段,以及定义与同一问题相关的节点的距离阈值。
该系统还可以包括当前问题分析组件,用于搜索历史问题图以寻找当前问题状态节点,以确定当前问题的可能原因节点和受影响节点。
该系统可以包括拓扑定义组件,用于定义信息技术基础设施网络的拓扑,其中节点表示具有由拓扑中的边定义的连通性的虚拟或物理资源,包括标记节点以描绘域和定义子拓扑。用于选择拓扑中的节点集合的节点选择组件可以通过标记的域来选择节点。
该系统可以包括状态数据收集组件,用于周期性地从由所述节点表示的资源收集状态数据,并将其存储在适于查询的时间序列图数据储存库中。该系统可以包括用于配置时间序列数据的时间间隔和问题时间段的配置组件。
根据本发明的另一方面,提供了一种用于识别信息技术基础设施网络中的问题图的系统,包括:处理器和存储器,所述存储器被配置为向所述处理器提供计算机程序指令以执行以下组件的功能:节点检测组件,用于检测具有当前问题状态的拓扑中的节点集合,其中所述拓扑的节点表示信息技术基础设施网络中的资源;节点搜索组件,用于在一个或多个历史问题图中搜索问题状态节点;问题图排序组件,用于按照普遍性对历史问题图进行排序;问题图读取组件,用于读取一个或多个排序的历史问题图,以找到问题节点下的根节点和/或子节点;以及报告组件,用于获得具有问题节点状态改变的问题树,以产生可能原因的有序列表和/或可能受影响节点的有序列表。
根据本发明的另一方面,提供了一种用于识别信息技术基础设施网络中的问题图的计算机程序产品,该计算机程序产品包括具有与其一起实现的程序指令的计算机可读存储介质,该程序指令可由处理器执行以使处理器:选择拓扑中的节点集合,其中所述拓扑的节点表示信息技术基础设施网络中的资源;查询所选节点的历史时间序列数据,其中所述时间序列数据记录由所述节点表示的资源的状态的改变;以及分析所选节点在问题时间段上的时间序列数据,以产生定义一个或多个历史问题图的历史有向规则集合。
所述计算机程序产品可以包括可由处理器执行以使所述处理器执行以下操作的程序指令:检测拓扑中具有当前问题状态的节点集合,其中拓扑的节点表示信息技术基础设施网络中的资源;在一个或多个历史问题图中搜索问题状态节点;按普遍性排序历史问题图;读取一个或多个排序的历史问题图以找到问题节点下的根节点和/或子节点;并获得具有问题节点状态变化的问题树,以产生可能原因的有序列表和/或可能受影响节点的有序列表。
在本发明的一些实施例中,计算机可读存储介质是非暂时性计算机可读存储介质,并且计算机可读程序代码可由处理电路(或一组处理器)执行。
附图说明
图1是根据本发明的方法的一个方面的示例实施例的示意图;
图2A和2B是在本发明的各方面中使用的子拓扑的图示;
图3A是根据本发明的方法的一个方面的示例实施例的流程图;
图3B是示出了图3A的方法的图示的示意性流程图;
图4A是根据本发明的方法的另一方面的示例实施例的流程图;
图4B是示出图4A的方法的图示的示意性流程图;
图5是根据本发明的系统的示例实施例的框图;
图6是其中可以实现本发明的计算机系统或云服务器的实施例的框图;
图7是其中可以实现本发明的云计算环境的示意图;以及
图8是其中可实现本发明的云计算环境的抽象模型层的示图。
应当理解,为了说明的简单和清楚,图中所示的元件不一定按比例绘制。例如,为了清楚起见,一些元件的尺寸可能相对于其他元件被放大。此外,在认为适当的情况下,附图标记可以在附图中重复以指示对应或类似的特征。
具体实施方式
提供了一种方法和系统,用于通过利用网络资源之间的历史时间关系及其状态的时间变化来推断用于预测将来出现相似事件的根本原因的规则,从而自动识别出问题图。规则挖掘识别问题图,并且在现场活动期间使用问题图来识别问题树。
在本说明书中使用以下定义。“网络拓扑”是IT网络的图形表示,其中资源被建模为节点,并且资源之间的连接被建模为边。“网络子拓扑”是表示IT网络的图的子图。“问题图”是仅包含处于问题状态的节点的网络子拓扑。“问题树”是问题图的节点,其仅具有边,该边表示描述通过网络子拓扑的问题状态流的问题的因果关系。
所描述的方法隔离连接的拓扑组件的相关区域,并且产生表示在给定时间间隔的节点状态的节点-状态对。这些对随后在相同的时间间隔与来自相关拓扑中的其他节点的对成组。关联规则学习在这些组上执行,以便以规则的形式识别节点-状态对之间的时间关系。这些规则用于为给定拓扑构造一个或多个问题图。这些节点-状态对在现场环境中的稍后出现可以用于确定或预测给定事件的问题树。
所描述的方法提供了对问题图的自动识别,而不管问题上下文如何。这减少了诊断问题图所需的操作员领域知识。可以通过在时间段上应用规则挖掘算法来在现有的有状态网络拓扑内识别问题图。
问题图用于使用由先前事件定义的规则来识别问题的根本原因,以帮助操作员快速解决事件。这是通过使用静态图形式的网络拓扑结构以及该网络拓扑内的问题状态改变的历史实例来完成的。连接拓扑被用作引导规则挖掘算法和产生基础结构以在将来应用于等效拓扑结构的基础。
该方法将网络资源的拓扑连通性与其状态的时间变化相结合,以推断出预测未来出现类似事件的根本原因的规则。它使用随时间的时间状态变化,结合连通性来确定与根本原因相关的问题图,从而允许系统在没有外部影响的情况下挖掘规则。
最终目标可以是向操作者显示什么被认为是问题的根本原因和受影响资源。
该方法使用先前的相似事件和结构来紧密地匹配异常拓扑模式。从而在已建立的拓扑结构中提供了一种鲁棒的识别方法。
所描述的方法帮助操作员找到给定问题的根本原因,而不需要准备好的启发式规则。通过对历史数据的规则挖掘来推断问题图,可以发现系统中组件之间的关系,作为可以以其他方式忽略的事件的结果。
参考图1,示意图100示出了用于收集数据的方法的示例实施例,该方法用于在识别IT基础设施网络中的问题的根本原因的所述方法中使用。
该方法定义101IT基础设施网络的拓扑120,包括可以用于定义子拓扑的描绘的域。拓扑表示IT基础设施网络,其具有表示基础设施中的物理和虚拟实体的节点,其中在拓扑中定义了实体的连通性。拓扑图在节点方面可以是稳定的,或者可以随时间而改变,例如,用相同或相似类型的其他节点来代替节点。在一些实例中,由节点表示的资源可能显著地改变,并且可能需要进一步的训练来更新现有的发现的规则。
在所定义的拓扑图中,其节点的状态由于事件而随时间改变,并且这些时间改变被用在所描述的方法中。作为识别出的故障状态的事件的概念向由拓扑图监视的数据添加了另一维度。
在该示例中,拓扑120具有服务器121、盘122和中央处理单元(CPU)123这三个节点。实际上,拓扑可以是跨多个域的大得多的网络。节点的状态是服务器121的高I/O等待、盘122的盘故障以及CPU 123的在线状态。
通过监视诸如经由中央发现服务而持久存储在图形数据库中的环境的探测器111、112、113,从活动子拓扑120周期性地收集102每个节点的状态数据。
在适于查询的时间序列图数据储存库110中以时间序列形式编译103历史拓扑状态数据。该数据允许在给定的节点集合上随着状态改变而对问题图建模。图形数据储存库可以允许自由地查询子拓扑。
虽然所描述的方法可以应用于完整的拓扑,但是拓扑通常由子图组成,子图表示由诸如商业所有者、应用或管理团队的域概念描绘的子拓扑。通常还对照这些描绘来调查事件及其相关联的问题图,因此拓扑系统可以具有使用这些描绘来标记和分离子拓扑的方法,并且可以隔离这些子拓扑内的问题图而不是作为整体的图。子拓扑200的图示在图2A中示出,并且子拓扑200内的问题图210在图2B中示出。
参考图3A,流程图300示出了所描述的识别IT基础设施网络中的资源的问题图的方法的示例实施例。
如关于图1所描述的,参考静态信息技术基础设施网络的定义的拓扑120,其中节点表示具有由拓扑中的边定义的连通性的虚拟或物理资源。还引用了相关联的时间序列图数据储存库110,其中间隔和采样周期作为可配置参数。时间序列数据的收集和存储作为与图3A的流程图300中描述的历史问题图的识别无关的离散过程来执行。
该方法可以查询301在图1的方法中为拓扑120生成的历史时间序列数据储存库110,以检索所选节点集合的历史时间序列数据。节点集合可以是整个拓扑或拓扑内的感兴趣的子拓扑,诸如给定域的子拓扑或域的子集。该节点集合可以被称为子拓扑。拓扑内的节点的所选择集合以相等的时间间隔将其相关联的状态存储在历史时间序列数据中。
可以自由地查询拓扑数据的现有时间序列图数据储存库110,以在给定时间内检索所连接的拓扑组件的数据。这些查询还提供了图中每个节点的数据,包括但不限于名称、唯一标识的方法以及由给定节点表示的设备的当前状态。
以这种方式收集在每个时间间隔具有状态信息的每个子拓扑图,以便识别每个子拓扑内的历史问题时段。
对于每个子拓扑,执行时间间隔数据的分析302,以识别子拓扑中的问题时段,其中相邻或接近的节点在相似的时间进入、在问题状态之间转换或退出问题状态。这些问题时段潜在地直接或传递地指示因果关系。
为了确定这些因果关系是否是有形的,确定它们是否一致地发生。使用已知的关联规则挖掘技术在问题时间段上执行303该任务,以识别问题时间段上的节点-状态对的子集。
为了利用关联规则挖掘,该方法首先形成所谓的“事务”,其是用于关联规则挖掘的标准化输入。该方法在以下伪代码中描述。
关联规则挖掘中的事务表示项集合的实例。关联规则挖掘算法识别通常跨多个事务共同发生的项的子集以及它们之间的有向依赖性。支持度和置信度超参数允许调整算法的行为,以分别设置规则的最小发生次数和共同发生的可能性。
对节点-状态对的项的集合的事务执行关联规则挖掘,其中每一事务是来自先前步骤的问题之一。这产生了一组有向关联规则。关联规则每个都包括前提条件和结果。前提是表示环境中的初始问题子图的节点-状态对的集合。结果是表示预测问题图的节点-状态对的集合,该预测问题图已经被识别为通常与先前问题子图同时出现。
该方法可以基于节点-状态对的子集及其有向依赖性来产生304定义问题图的历史有向规则集。历史有向规则集合中的每个规则可以识别指示性问题子图和由具有方向依赖性的节点-状态对的子集形成的结果问题子图。
每个关联规则表示问题图的两个部分;先行(或指示性)问题子图和结果问题子图。这些一起形成完整的问题图,其可以用于识别和预测现场事件中的问题图。
关联规则挖掘过程的输出是一组历史有向规则。每个规则表示两个节点之间的边,并且所有连接的规则一起形成历史问题图。
可以将关联规则挖掘算法为每个规则产生的置信度分数分配305给历史问题图的对应边。
在图4A和图4B的流程图400和410中进一步描述的方法可以分别使用识别出的历史问题图来预测和识别306现场事件中的问题树。网络拓扑的问题树可以从问题图中获得,该问题图仅具有指示问题状态的流的边,并且因此不具有使它们成树而不是成图的循环(环路)。
所描述的关联规则挖掘应用基于相邻资源遇到的问题周期从历史子拓扑图中产生事务。每个事务由表示图中的节点-状态对的项组成。
示例伪代码
下面提供的伪代码概述了基于历史子拓扑数据中的问题周期形成节点-状态对的关联规则挖掘事务的示例方法。
在这个阶段引入两个附加的超参数。
QUIET_PERIOD_THRESHOLD-静默时段阈值是可配置的时间段,其充当被认为是表示相同问题的候选的资源状态改变之间的上限。
MAX_DIST_THRESHOLD-最大距离阈值表示将被认为是表示相同问题的候选的资源之间的最大距离。该距离由表示为“dist”的给定距离函数计算,该给定距离函数可以是基于图中资源之间的跳数、问题资源之间的跳数,或者更复杂的度量编码域知识的标准距离度量。
伪代码:
输入:res_pairs#在每个时间间隔的子拓扑(资源、状态)对。
间隔#采样的间隔时间的列表。
#创建问题时段和有效问题时段的空列表。
问题=[]
active_problems=[]
#在每个时间间隔t内迭代。
对于间隔中的t:
#在时间t获得子拓扑的(资源,状态)对。
sub_topo_t=res_pairs[t]
#以该时间间隔在每个(资源,状态)对上迭代。
对于sub_topo_t中的(资源,状态):
#创建与该资源相关联的空问题数组。
merge_problems=[]
#在有效问题上迭代
对于active_problems中的curr_problem_period:
#如果问题不再有效(在静默时段阈值之外)
#如通过当前问题的active_t确定的,
#然后将其从活动列表中移除并跳到下一个问题。
如果t-curr_problem_period.active_t>QUIET_PERIOD_THRESHOLD:
problems.add(curr_problem_period)
active_problems.remove(curr_problem_period)
继续
#在问题中的节点上迭代。
对于curr_problem_period.nodes中的p_node:
#检查问题是否已经包含该资源。
如果res==p_node.res:
#如果该节点不再处于问题状态,则将其标记为已解决
#并且跳到下一个节点。
如果不是isProblemState(状态):
p_node.resolved=真
继续
#否则,用新的状态和时间更新节点,然后
#将其加入到所看到的问题的阵列中。
p_node.state=状态
p_node.t=t
merge_problems.add(curr_problem_period)
继续
#如果节点不同,检查当前节点是否处于
#问题状态中,两个节点在距离
#阈值之内,并且在静默时段内处于问题状态。
如果是isProblemState(状态)且t-p_node.t<=QUIET_PERIOD_THRESHOLD
并且dist(res,p_node.res)<=MAX_DIST_THRESHOLD:
#如果是,则将当前节点添加到问题中并更新所看见的
#问题列表。
curr_problem_period.nodes().put({res,状态,t,已解决:假})
curr_problem_period.active_t=t
merge_problems.add(curr_problem_period)
#一旦我们已经迭代了活动问题,检查该资源是否
#已经与一个以上的问题相关。
#如果len(merge_problems)>1:
#如果是,则需要将它们合并成单个连接问题。
new_problem={active_t:t,节点:[]}
active_problems.add(new_problem)
参考图3B,示意性流程图310进一步示出了图3A的方法。
查询311选定节点集合的选定子拓扑321-323的时间序列数据。在时间序列中的每个时间间隔,子拓扑321-323中的一些节点可能处于问题状态(用与该节点相邻的X表示)。
问题时间段被识别312为时间序列数据中的持续时间,在该持续时间期间一个或多个节点处于问题状态。在该图示中,从322中所示的子拓扑状态到323中所示的子拓扑状态的时间段被认为是问题时间段。假设这些问题状态可能是相关的。
关联规则挖掘算法在表示为处于问题状态的节点-状态对324的节点上运行,以识别313定义为不同节点上的节点-状态对之间的规则的关系。例如,规则可以被识别为“当节点A处于错误状态1时,节点B趋向于处于错误状态2”的形式。
在图3B的图示中,所识别的节点-状态规则313指示:
虚拟网络上的错误状态指示(一个或多个)虚拟机上的错误状态;
虚拟机上的错误状态指示基带单元上的错误状态;
虚拟机上的错误状态指示虚拟CPU上的错误状态;
基带单元上的错误状态指示虚拟网络上的错误状态;
基带单元上的错误状态指示远程无线电头端上的错误状态;以及
虚拟机上的错误状态指示虚拟存储装置上的错误状态。
这些规则被用作被定义314的新图的边,该新图被称为历史问题图325,其表示基于已经被识别313的节点-状态对规则通过所选子拓扑的可能的问题流。问题图325可以被认为表示问题可以通过其级联通过网络的所有可能路由。
一旦定义了314历史问题图325,则当在所选子拓扑330上出现新的、现场的问题331时,可以在将来使用该图。历史问题图325用于识别和预测错误状态,因为它们实时展开,这由问题树326识别315。在问题树326中,符号(X)用于指示节点327处于问题状态,而符号(!)用于指示被预测进入问题状态的节点328。
在图中的示例中,虚拟网络的节点327被示为处于错误状态。通过参考历史问题图325,已知这通常指示虚拟机的问题,而该问题又指示虚拟CPU和虚拟存储装置的问题。因此,可以为用户预测,表示虚拟机、虚拟CPU和虚拟存储装置的节点328将很可能很快进入错误/问题状态。
参考图4A,流程图400示出了识别用于活动节点状态改变的问题树的方法的示例实施例。
给定使用关于图3A和图3B描述的方法构建的IT基础设施网络的历史问题图,并且给定一些节点到问题状态的一些状态改变,该方法可以自动识别相关联的问题图,并且由此识别问题树,从而允许操作者更好地找到该问题状态的原因,并且还预测可能受该问题影响的资源。
假设为拓扑的IT基础设施网络提供了相当多的历史数据,从该拓扑中,历史问题图已经从所生成的关联规则中被构造。
该方法可以检测401网络中的一些节点已经进入问题状态。这可以触发在历史问题图中对给定问题状态节点的搜索402。找到一个或多个历史问题图,并且如果找到多个图,则按照普遍性对这些图进行排序403。可以通过组合分配给图的边的置信度分数来获得每个图的图分数,从而对图排序,其中,置信度分数是由关联规则挖掘算法为对应于图的边的每个规则产生的。
该方法可以读取404最高排序的问题图,该问题图可以具有问题节点下的根节点并且可能的子节点。给定的问题状态节点可以是预测可能受影响的子节点的多个关联规则的前提。给定的问题状态节点也可以是或可替代地是预测可能的问题根节点的关联规则的结果。边置信度分数可用于确定预测的受影响子节点和/或预测的可能问题根节点的权重。
在一些实施例中,可以读取多个最高排序的问题图以获得多个可能的预测。
该方法可以向操作者示出405问题树,该问题树具有问题节点状态改变以及可能原因(问题图的根)的有序列表以及可能受该问题影响的节点(问题图中问题节点的子节点)的有序列表。在一些实施例中,问题树本身可能不被呈现给操作者,并且可提供可能根节点和受影响节点的简单列表。
所提出的方法可以用于帮助操作者进行根本原因分析(RCA)以及根据相同的计算的问题图进行预测分析。
参考图4B,示意性流程图410进一步示出了图4A的方法。
该方法检测411处于子拓扑420中所示的问题状态中的活动节点,其中问题节点用符号(X)示出。在该示例中,虚拟网络421和虚拟机422在活动子拓扑420中处于错误状态。
匹配的历史问题图430被用于从问题节点431、432中找出412子节点433、434。这预测可能看到虚拟CPU 433和虚拟存储装置434进入错误状态(以灰色突出显示),因为它们是虚拟机432下的子节点。进行该预测是因为在问题图430中在虚拟机432与虚拟CPU 433和虚拟存储装置434之间存在因果边435。
可以向操作者显示413示出问题节点441、442和预测的受影响节点443、444的问题树440。
在虚拟机网络421不处于现场问题状态而虚拟机422处于问题状态的另一场景中,可以预测机器网络421是所显示的问题树中的根本原因节点。
参考图5,框图示出了包括问题图识别系统510的计算机系统500的示例实施例。
计算机系统500包括至少一个处理器501、硬件模块或用于执行所描述的组件的功能的电路,该组件可以是在至少一个处理器上执行的软件单元。可以提供运行并行处理线程的多个处理器,以使得能够并行处理组件的一些或全部功能。存储器502可以被配置为向至少一个处理器501提供计算机指令503以执行组件的功能。
问题图识别系统510包括:拓扑定义组件511,用于定义静态信息技术基础设施网络的拓扑505,其中节点表示具有由拓扑中的边定义的连通性的虚拟或物理资源,包括标记节点以描绘域并定义子拓扑;以及状态数据收集组件512,用于周期性地从由节点表示的资源收集状态数据并将其存储在适合于查询的时间序列图数据储存库中。
问题图识别系统510包括节点选择组件513,用于选择拓扑中的节点集合,其中拓扑的节点表示信息技术基础设施网络中的资源;节点选择组件513可以通过标记的域来选择拓扑中的节点集合。
问题图识别系统510包括状态改变数据查询组件514,用于查询所选节点的历史时间序列数据,其中所述时间序列数据记录由所述节点表示的资源的状态改变。配置组件515可以配置时间序列数据的时间间隔和问题时间段。
问题图识别系统510包括分析组件520,用于分析所选节点在问题时间段上的时间序列数据,以产生定义历史问题图的历史有向规则集合,以及规则组件516,用于产生定义历史问题图的历史有向规则集合,其中历史有向规则集合中的每个规则识别指示性问题子图以及由具有方向依赖性的资源-状态对的子集形成的结果问题子图。规则组件516可以基于为历史有向规则产生的分数,将置信度分数分配给历史问题图的每个边。
分析组件520可以包括问题时段组件521,用于识别其中相邻节点改变指示因果关系的问题状态的问题时间段;以及关联规则挖掘组件523,用于通过应用关联规则挖掘算法来确定因果关系是否一致地发生。
问题时段组件521可以包括用于基于问题时间段产生事务的事务组件522;并且其中关联规则挖掘组件对事务执行关联规则挖掘以识别资源-状态对形式的项的子集和它们之间的有向依赖性,这些资源-状态对通常跨多个事务共同发生,并且基于资源状态对的子集和它们的有向依赖性产生定义问题图的历史有向规则集。事务组件522可基于问题时间段产生事务,包括定义静默时段阈值以定义单个问题时间段,以及定义与同一问题相关的节点的距离阈值。
可以提供当前问题分析系统530,用于通过搜索当前问题状态节点的历史问题图来分析具有当前问题状态的网络资源,以确定当前问题的可能原因节点和受影响节点。
当前问题分析系统530包括节点检测组件531,用于检测具有当前问题状态的拓扑中的节点集合,其中拓扑的节点表示信息技术基础设施网络中的资源;节点搜索组件532,用于在历史问题图中搜索问题状态节点;问题图排序组件533,用于按照普遍性对历史问题图进行排序;问题图读取组件534,用于读取历史问题图以找到问题节点下的根节点和子节点;以及报告组件535,用于用可能的原因的有序列表和可能受影响的节点的有序列表来显示问题节点状态改变。
图6描绘了根据本发明的实施例的用于计算系统500的计算系统的组件的框图600。应当理解,图6仅提供了一种实现的说明,而不暗示对其中可实现不同实施例的环境的任何限制。可以对所描述的环境进行许多修改。
本发明的一些实施例提供了一种用于识别信息技术基础设施网络中的问题图的计算机实现的方法。该方法的操作如下(并且不必按照以下顺序):(i)检测具有当前问题状态的拓扑中的节点集合,其中所述拓扑的节点表示信息技术基础设施网络中的资源;(ii)在一个或多个历史问题图中查找问题状态节点;(iii)按普遍性对历史问题图排序;(iv)读取一个或多个排序的历史问题图,以找到问题节点下的根节点和/或子节点;以及(v)获得具有问题节点状态改变的问题树,以产生可能原因的有序列表和/或可能受影响节点的有序列表。
本发明的一些实施例包括以下特征、特性和/或优点:(i)基于为历史有向规则产生的分数,为历史问题图的每个边分配置信度分数;(ii)定义信息技术基础设施网络的拓扑,其中节点表示具有由拓扑中的边定义的连通性的虚拟或物理资源,包括标记节点以描绘域和定义子拓扑;以及(iii)通过标记的域选择拓扑中的节点集合。
计算系统可以包括一个或多个处理器602、一个或多个计算机可读RAM 604、一个或多个计算机可读ROM 606、一个或多个计算机可读存储介质608、设备驱动器612、读/写驱动器或接口614以及网络适配器或接口616,所有这些都通过通信结构618互连。通信结构618可以用被设计用于在处理器(例如微处理器、通信和网络处理器等)、系统存储器、外围设备和系统内的任何其它硬件组件之间传递数据和/或控制信息的任何架构来实现。
一个或多个操作系统610和应用程序611,例如问题图识别系统510和当前问题分析系统530,存储在一个或多个计算机可读存储介质608上,以便由一个或多个处理器602通过一个或多个相应的RAM 604(通常包括高速缓冲存储器)执行。在所示实施例中,根据本发明的实施例,每个计算机可读存储介质608可以是内部硬盘驱动器的磁盘存储设备、CD-ROM、DVD、记忆棒、磁带、磁盘、光盘、诸如RAM、ROM、EPROM、闪存之类的半导体存储设备、或可以存储计算机程序和数字信息的任何其它计算机可读存储介质。
计算系统还可以包括R/W驱动器或接口614,以从一个或多个便携式计算机可读存储介质626读取和向其写入。计算系统上的应用程序611可以存储在一个或多个便携式计算机可读存储介质626上,经由相应的R/W驱动器或接口614读取,并且加载到相应的计算机可读存储介质608中。
计算系统还可以包括网络适配器或接口616,例如TCP/IP适配卡或无线通信适配器。计算系统上的应用程序611可以经由网络(例如,因特网、局域网或其他广域网或无线网络)和网络适配器或接口616从外部计算机或外部存储设备下载到计算设备。程序可以从网络适配器或接口616加载到计算机可读存储介质608中。网络可以包括铜线、光纤、无线传输、路由器、防火墙、交换机、网关计算机和边缘服务器。
计算系统还可以包括显示屏620、键盘或小键盘622、以及计算机鼠标或触摸板624。设备驱动器612与用于成像的显示屏620、键盘或小键盘622、计算机鼠标或触摸板624和/或用于字母数字字符输入和用户选择的压力感测的显示屏620接口。设备驱动程序612、R/W驱动器或接口614、以及网络适配器或接口616可包括存储在计算机可读存储介质608和/或ROM 606中的硬件和软件。
本发明可以是任何可能的技术细节集成水平的系统、方法和/或计算机程序产品。计算机程序产品可以包括其上具有计算机可读程序指令的计算机可读存储介质(一个或多个介质),所述计算机可读程序指令用于使处理器执行本发明的各方面。
计算机可读存储介质可以是能够保留和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质可以是例如但不限于电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或前述的任何合适的组合。计算机可读存储介质的更具体示例的非穷举列表包括以下:便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式光盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、诸如上面记录有指令的打孔卡或凹槽中的凸起结构的机械编码装置,以及上述的任何适当组合。如本文所使用的计算机可读存储介质不应被解释为暂时性信号本身,诸如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如,通过光纤线缆的光脉冲)、或通过导线传输的电信号。
本文描述的计算机可读程序指令可以从计算机可读存储介质下载到相应的计算/处理设备,或者经由网络,例如因特网、局域网、广域网和/或无线网络,下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或网络接口从网络接收计算机可读程序指令,并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。
用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路的配置数据,或者以一种或多种编程语言(包括面向对象的编程语言,例如Smalltalk、C++等)和过程编程语言(例如“C”编程语言或类似的编程语言)的任意组合编写的源代码或目标代码。计算机可读程序指令可以完全在用户的计算机上执行,部分在用户的计算机上执行,作为独立的软件包执行,部分在用户的计算机上并且部分在远程计算机上执行,或者完全在远程计算机或服务器上执行。在后一种情况下,远程计算机可以通过任何类型的网络连接到用户的计算机,包括局域网(LAN)或广域网(WAN),或者可以连接到外部计算机(例如,使用因特网服务提供商通过因特网)。在一些实施例中,为了执行本发明的各方面,包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来执行计算机可读程序指令以使电子电路个性化。
在此参考根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明的各方面。将理解,流程图和/或框图的每个框以及流程图和/或框图中的框的组合可以由计算机可读程序指令来实现。
这些计算机可读程序指令可以被提供给计算机或其他可编程数据处理装置的处理器以产生机器,使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现流程图和/或框图的一个或多个框中指定的功能/动作的装置。这些计算机可读程序指令还可以存储在计算机可读存储介质中,其可以引导计算机、可编程数据处理装置和/或其他设备以特定方式工作,使得其中存储有指令的计算机可读存储介质包括制品,该制品包括实现流程图和/或框图的一个或多个框中指定的功能/动作的方面的指令。
计算机可读程序指令还可以被加载到计算机、其他可编程数据处理装置或其他设备上,以使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤,以产生计算机实现的过程,使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图的一个或多个框中指定的功能/动作。
附图中的流程图和框图示出了根据本发明的各种实施例的系统、方法和计算机程序产品的可能实现的架构、功能和操作。在这点上,流程图或框图中的每个框可以表示指令的模块、片段或部分,其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些替代实施方案中,框中所注明的功能可不按图中所注明的次序发生。例如,连续示出的两个框实际上可以作为一个步骤来实现,同时、基本同时、以部分或全部时间重叠的方式执行,或者这些框有时可以以相反的顺序执行,这取决于所涉及的功能。还将注意,框图和/或流程图图示的每个框以及框图和/或流程图图示中的框的组合可以由执行指定功能或动作或执行专用硬件和计算机指令的组合的专用的基于硬件的系统来实现。
云计算
应当理解,尽管本公开包括关于云计算的详细描述,但是本文所陈述的教导的实现不限于云计算环境。相反,本发明的实施例能够结合现在已知或以后开发的任何其它类型的计算环境来实现。
云计算是一种服务递送模型,用于实现对可配置计算资源(例如,网络、网络带宽、服务器、处理、存储器、存储、应用、虚拟机和服务)的共享池的方便的按需网络访问,所述可配置计算资源可以以最小的管理努力或与服务的提供者的交互来快速供应和释放。该云模型可以包括至少五个特性、至少三个服务模型和至少四个部署模型。
特征如下:
按需自助:云消费者可以单方面地自动地根据需要提供计算能力,诸如服务器时间和网络存储,而不需要与服务的提供者进行人工交互。
广域网接入:能力在网络上可用,并且通过促进由异构的薄或厚客户端平台(例如,移动电话、膝上型计算机和PDA)使用的标准机制来访问。
资源池化:供应商的计算资源被集中以使用多租户模型来服务多个消费者,其中不同的物理和虚拟资源根据需求被动态地分配和重新分配。存在位置无关的意义,因为消费者通常不控制或不知道所提供的资源的确切位置,但是能够在较高抽象级别(例如国家、州或数据中心)指定位置。
快速弹性:在一些情况下,可以快速且弹性地提供快速向外扩展的能力和快速向内扩展的能力。对于消费者,可用于提供的能力通常看起来不受限制,并且可以在任何时间以任何数量购买。
测量服务:云系统通过利用在适合于服务类型(例如,存储、处理、带宽和活动用户账户)的某一抽象级别的计量能力来自动地控制和优化资源使用。可以监视、控制和报告资源使用,从而为所利用服务的提供者和消费者两者提供透明性。
服务模型如下:
软件即服务(SaaS):提供给消费者的能力是使用在云基础设施上运行的提供者的应用。应用程序可通过诸如web浏览器(例如,基于web的电子邮件)等瘦客户机界面从各种客户机设备访问。消费者不管理或控制包括网络、服务器、操作系统、存储、或甚至个别应用能力的底层云基础结构,可能的例外是有限的用户专用应用配置设置。
平台即服务(PaaS):提供给消费者的能力是将消费者创建或获取的应用部署到云基础设施上,该消费者创建或获取的应用是使用由提供商支持的编程语言和工具创建的。消费者不管理或控制包括网络、服务器、操作系统或存储的底层云基础设施,但具有对部署的应用和可能的应用托管环境配置的控制。
基础设施即服务(IaaS):提供给消费者的能力是提供处理、存储、网络和消费者能够部署和运行任意软件的其它基本计算资源,所述软件可以包括操作系统和应用。消费者不管理或控制底层云基础设施,但具有对操作系统、存储、部署的应用的控制,以及可能对选择的联网组件(例如,主机防火墙)的有限控制。
部署模型如下:
私有云:云基础设施仅为组织操作。它可以由组织或第三方管理,并且可以存在于建筑物内或建筑物外。
社区云:云基础设施由若干组织共享,并且支持具有共享关注(例如,任务、安全要求、策略和合规性考虑)的特定社区。它可以由组织或第三方管理,并且可以存在于场所内或场所外。
公有云:云基础设施可用于一般公众或大型工业群体,并且由销售云服务的组织拥有。
混合云:云基础设施是两个或更多云(私有、共同体或公共)的组合,所述云保持唯一实体,但是通过使数据和应用能够移植的标准化或私有技术(例如,用于云之间的负载平衡的云突发)绑定在一起。
云计算环境是面向服务的,其焦点在于无状态、低耦合、模块性和语义互操作性。在云计算的核心是包括互连节点的网络的基础设施。
现在参考图7,描绘了说明性云计算环境50。如图所示,云计算环境50包括云消费者使用的本地计算设备可以与其通信的一个或多个云计算节点10,所述本地计算设备例如个人数字助理(PDA)或蜂窝电话54A、台式计算机54B、膝上型计算机54C和/或汽车计算机系统54N。节点10可以彼此通信。它们可以被物理地或虚拟地分组(未示出)在一个或多个网络中,诸如如上文描述的私有云、社区云、公共云或混合云或其组合。这允许云计算环境50提供基础设施、平台和/或软件作为服务,云消费者不需要为其维护本地计算设备上的资源。应当理解,图7中所示的计算设备54A-N的类型仅旨在说明,并且计算节点10和云计算环境50可以在任何类型的网络和/或网络可寻址连接上(例如,使用web浏览器)与任何类型的计算设备通信。
现在参考图8,示出了由云计算环境50(图7)提供的一组功能抽象层。应当预先理解,图8中所示的组件、层和功能仅旨在说明,并且本发明的实施例不限于此。如所描绘的,提供了以下层和相应的功能:
硬件和软件层60包括硬件和软件组件。硬件组件的示例包括:主机61;基于RISC(精简指令集计算机)架构的服务器62;服务器63;刀片服务器64;存储装置65;以及网络和网络组件66。在一些实施例中,软件组件包括网络应用服务器软件67和数据库软件68。
虚拟化层70提供抽象层,从该抽象层可以提供虚拟实体的以下示例:虚拟服务器71;虚拟存储器72;虚拟网络73,包括虚拟专用网络;虚拟应用和操作系统74;以及虚拟客户机75。
在一个示例中,管理层80可以提供以下描述的功能。资源供应81提供用于在云计算环境内执行任务的计算资源和其它资源的动态采购。计量和定价82提供了在云计算环境中利用资源时的成本跟踪,以及针对消耗这些资源的帐单或发票。在一个示例中,这些资源可以包括应用软件许可证。安全性为云消费者和任务提供身份验证,以及为数据和其他资源提供保护。用户门户83为消费者和系统管理员提供对云计算环境的访问。服务级别管理84提供云计算资源分配和管理,使得满足所需的服务级别。服务水平协议(SLA)规划和履行85提供对云计算资源的预安排和采购,其中根据SLA预期未来需求。
工作负载层90提供了可以利用云计算环境的功能的示例。可以从该层提供的工作负载和功能的示例包括:绘图和导航91;软件开发和生命周期管理92;虚拟教室教育传送93;数据分析处理94;事务处理95;以及根本原因分析和问题图识别处理96。
本发明的计算机程序产品包括一个或多个计算机可读硬件存储设备,其中存储有计算机可读程序代码,所述程序代码可由一个或多个处理器执行以实现本发明的方法。
本发明的计算机系统包括一个或多个处理器、一个或多个存储器以及一个或多个计算机可读硬件存储设备,所述一个或多个硬件存储设备包含可由所述一个或多个处理器经由所述一个或多个存储器执行以实现本发明的方法的程序代码。
已经出于说明的目的给出了本发明的各种实施例的描述,但是其不旨在是穷尽的或限于所公开的实施例。在不背离所描述的实施例的范围的情况下,许多修改和变化对于本领域的普通技术人员将是显而易见的。选择本文所使用的术语以最好地解释实施例的原理、实际应用或对市场上存在的技术改进,或使本领域的其他普通技术人员能够理解本文所公开的实施例。
在不背离本发明的范围的情况下,可以对前述内容进行改进和修改。

Claims (20)

1.一种计算机实现的方法,包括:
选择拓扑中的节点集合,其中所述拓扑的节点表示信息技术基础设施网络中的资源;
查询所选节点的历史时间序列数据,其中所述时间序列数据记录由所述节点表示的资源的状态的改变;以及
分析所选节点在问题时间段上的时间序列数据,以产生定义一个或多个历史问题图的历史有向规则集合。
2.根据权利要求1所述的方法,其中,所述历史有向规则集合中的每个规则识别由具有方向依赖性的节点-状态对的子集形成的指示性问题子图和结果问题子图。
3.根据权利要求1所述的方法,其中分析所选节点的时间序列数据包括:
识别问题时间段,在所述问题时间段中,相邻或接近的节点改变指示因果关系的问题状态;以及
通过应用关联规则挖掘算法确定因果关系是否一致地发生。
4.根据权利要求3所述的方法,其中分析所选节点的时间序列数据包括:
基于所述问题时间段产生事务;以及
对事务执行关联规则挖掘以识别节点-状态对形式的项的子集以及它们之间的有向依赖性,所述节点-状态对通常在多个事务上共同发生;以及
基于所述节点-状态对的子集及其有向依赖性,产生定义历史问题图的历史有向规则集合。
5.根据权利要求4所述的方法,其中基于所述问题时间段产生事务包括定义静默时段阈值以定义单个问题时间段,以及为与同一问题相关的节点定义距离阈值。
6.根据权利要求1所述的方法,还包括:
在历史问题图中搜索当前问题状态节点,以确定当前问题的可能原因节点和/或受影响节点。
7.根据权利要求6所述的方法,还包括:
对历史问题图排序,并读取历史问题图以找到问题节点下的根节点和/或子节点,以确定问题的根本原因和/或预测受影响的资源,其中所述排序基于基于为每个历史有向规则产生的分数的历史问题图的每个边所分配的置信度分数的组合。
8.根据权利要求1所述的方法,包括:
周期性地从由所述节点表示的资源收集状态数据,并且将其存储在适于查询的时间序列图数据储存库中,包括配置所述时间序列数据的时间间隔。
9.一种用于识别信息技术基础设施网络中的问题图的系统,所述系统包括:
处理器和存储器,所述存储器被配置为向所述处理器提供计算机程序指令以执行以下组件的功能:
节点选择组件,用于选择拓扑中的节点集合,其中所述拓扑的节点表示信息技术基础设施网络中的资源;
状态改变数据查询组件,用于查询所选节点的历史时间序列数据,其中所述时间序列数据记录由所述节点表示的资源的状态的改变;以及
分析组件,用于分析所选节点在问题时间段上的时间序列数据,以产生定义一个或多个历史问题图的历史有向规则集合。
10.根据权利要求9所述的系统,其中,所述分析组件包括用于产生定义历史问题图的历史有向规则集合的规则组件,其中,所述历史有向规则集合中的每个规则识别由具有方向依赖性的节点-状态对的子集形成的指示性问题子图和结果问题子图。
11.根据权利要求10所述的系统,其中所述分析组件包括:
问题时段组件,用于识别问题时间段,在所述问题时间段中相邻或接近的节点改变指示因果关系的问题状态;以及
关联规则挖掘组件,用于通过应用关联规则挖掘算法确定因果关系是否一致地发生。
12.根据权利要求11所述的系统,其中所述分析组件包括:
事务组件,用于基于所述问题时间段产生事务;以及
其中,所述关联规则挖掘组件对事务执行关联规则挖掘以识别节点-状态对形式的项的子集以及它们之间的有向依赖性,所述节点-状态对通常在多个事务上共同发生,并且基于所述节点-状态对的子集及其有向依赖性,产生定义历史问题图的历史有向规则集合。
13.根据权利要求12所述的系统,其中,所述事务组件基于所述问题时间段产生事务包括定义静默时段阈值以定义单个问题时间段,以及为与同一问题相关的节点定义距离阈值。
14.根据权利要求9所述的系统,还包括:
当前问题分析组件,用于在历史问题图中搜索当前问题状态节点,以确定当前问题的可能原因节点和受影响节点。
15.根据权利要求9所述的系统,还包括:
拓扑定义组件,用于定义信息技术基础设施网络的拓扑,其中节点表示具有由拓扑中的边定义的连通性的虚拟或物理资源,包括标记节点以描绘域和定义子拓扑。
16.根据权利要求9所述的系统,还包括:
状态数据收集组件,用于周期性地从由所述节点表示的资源收集状态数据,并且将其存储在适于查询的时间序列图数据储存库中。
17.根据权利要求9所述的系统,还包括配置组件,用于配置时间序列数据的时间间隔和问题时间段。
18.一种用于识别信息技术基础设施网络中的问题图的计算机程序产品,所述计算机程序产品包括计算机可读存储介质,所述计算机可读存储介质具有与其一起实现的程序指令,所述程序指令可由处理器执行以使所述处理器:
选择拓扑中的节点集合,其中所述拓扑的节点表示信息技术基础设施网络中的资源;
查询所选节点的历史时间序列数据,其中所述时间序列数据记录由所述节点表示的资源的状态的改变;以及
分析所选节点在问题时间段上的时间序列数据,以产生定义一个或多个历史问题图的历史有向规则集合。
19.根据权利要求18所述的计算机程序产品,包括可由处理器执行以使所述处理器执行以下操作的程序指令:
检测拓扑中具有当前问题状态的节点集合,其中拓扑的节点表示信息技术基础设施网络中的资源;
在一个或多个历史问题图中搜索问题状态节点;
按普遍性排序历史问题图;
读取排序后的历史问题图中的一个或多个以找到问题节点下的根节点和/或子节点;以及
获得具有问题节点状态改变的问题树,以产生可能原因的有序列表和/或可能受影响节点的有序列表。
20.根据权利要求1所述的方法,所述分析包括:
通过以下步骤基于所述问题时间段产生事务:
定义静默时段阈值以定义存在一个问题的单问题时间段,以及
为与所述一个问题相关的节点定义距离阈值,所述距离阈值定义被认为是与所述一个问题相关的候选的节点之间的最大距离,并且所述距离阈值通过第一距离函数计算;
识别问题时间段,在该问题时间段中邻近或接近的节点改变指示因果关系的问题状态,以及
通过对所述事务应用关联规则挖掘算法来确定因果关系是否一致地发生。
CN202280025985.6A 2021-04-09 2022-03-24 识别信息技术基础设施网络中的问题图 Pending CN117157955A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US17/301,628 2021-04-09
US17/301,628 US11388039B1 (en) 2021-04-09 2021-04-09 Identifying problem graphs in an information technology infrastructure network
PCT/EP2022/057780 WO2022214324A1 (en) 2021-04-09 2022-03-24 Identifying problem graphs in an information technology infrastructure network

Publications (1)

Publication Number Publication Date
CN117157955A true CN117157955A (zh) 2023-12-01

Family

ID=81384780

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280025985.6A Pending CN117157955A (zh) 2021-04-09 2022-03-24 识别信息技术基础设施网络中的问题图

Country Status (5)

Country Link
US (1) US11388039B1 (zh)
JP (1) JP2024517562A (zh)
CN (1) CN117157955A (zh)
GB (1) GB2619897A (zh)
WO (1) WO2022214324A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11748184B2 (en) * 2021-10-26 2023-09-05 Dell Products L.P. Data center issue impact analysis

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8572237B2 (en) * 2008-12-16 2013-10-29 Sap Ag Failover mechanism for distributed process execution
US8171343B2 (en) * 2009-06-16 2012-05-01 Oracle International Corporation Techniques for determining models for performing diagnostics
US20110292834A1 (en) 2010-05-27 2011-12-01 International Business Machines Corporation Maintaining Time Series Models for Information Technology System Parameters
US9473364B2 (en) 2014-01-06 2016-10-18 Cisco Technology, Inc. Learning machine-based granular segment/path characteristic probing technique
US10263836B2 (en) * 2014-03-24 2019-04-16 Microsoft Technology Licensing, Llc Identifying troubleshooting options for resolving network failures
US9860109B2 (en) * 2014-05-07 2018-01-02 Getgo, Inc. Automatic alert generation
US9798810B2 (en) * 2014-09-30 2017-10-24 At&T Intellectual Property I, L.P. Methods and apparatus to track changes to a network topology
US10505825B1 (en) 2014-10-09 2019-12-10 Splunk Inc. Automatic creation of related event groups for IT service monitoring
US9811588B1 (en) * 2015-03-31 2017-11-07 EMC IP Holding Company LLC Methods and apparatus for generating causality matrix and impacts using graph processing
US10318366B2 (en) 2015-09-04 2019-06-11 International Business Machines Corporation System and method for relationship based root cause recommendation
US10083073B2 (en) * 2015-09-14 2018-09-25 Dynatrace Llc Method and system for real-time causality and root cause determination of transaction and infrastructure related events provided by multiple, heterogeneous agents
US9537720B1 (en) 2015-12-10 2017-01-03 International Business Machines Corporation Topology discovery for fault finding in virtual computing environments
US10122610B2 (en) * 2016-03-25 2018-11-06 Ca, Inc. Provisioning of network services based on virtual network function performance characteristics
US10476749B2 (en) * 2016-04-04 2019-11-12 Nec Corporation Graph-based fusing of heterogeneous alerts
US11120343B2 (en) * 2016-05-11 2021-09-14 Cisco Technology, Inc. Intelligent anomaly identification and alerting system based on smart ranking of anomalies
US10503581B2 (en) 2016-08-25 2019-12-10 Intel Corporation Profiling and diagnostics for internet of things
US10237294B1 (en) 2017-01-30 2019-03-19 Splunk Inc. Fingerprinting entities based on activity in an information technology environment
US10225159B2 (en) * 2017-05-30 2019-03-05 CENX, Inc. Dynamic graph-based structure for representing a communications network
US10439874B2 (en) * 2017-06-12 2019-10-08 Cisco Technology, Inc. Tracking and implementing workarounds to computer-related issues
US10616043B2 (en) * 2017-11-27 2020-04-07 Google Llc Real-time probabilistic root cause correlation of network failures
US10496468B2 (en) * 2018-01-21 2019-12-03 EMC IP Holding Company LLC Root cause analysis for protection storage devices using causal graphs
US20190268214A1 (en) 2018-02-26 2019-08-29 Entit Software Llc Predicting issues before occurrence, detection, or reporting of the issues
US10965516B2 (en) 2018-03-27 2021-03-30 Cisco Technology, Inc. Deep fusion reasoning engine (DFRE) for prioritizing network monitoring alerts
CN113407507B (zh) * 2018-04-23 2022-04-29 华为技术有限公司 告警类型关联规则的生成方法、装置及系统、存储介质
US10977154B2 (en) * 2018-08-03 2021-04-13 Dynatrace Llc Method and system for automatic real-time causality analysis of end user impacting system anomalies using causality rules and topological understanding of the system to effectively filter relevant monitoring data
US10616044B1 (en) * 2018-09-28 2020-04-07 Ca, Inc. Event based service discovery and root cause analysis
US10425290B1 (en) * 2018-12-13 2019-09-24 LogicMonitor, Inc. Creating and displaying a graph representation of a computer network topology for an executing application
US11496353B2 (en) * 2019-05-30 2022-11-08 Samsung Electronics Co., Ltd. Root cause analysis and automation using machine learning
US11252014B2 (en) * 2019-09-30 2022-02-15 Dynatrace Llc Forming root cause groups of incidents in clustered distributed system through horizontal and vertical aggregation

Also Published As

Publication number Publication date
WO2022214324A1 (en) 2022-10-13
JP2024517562A (ja) 2024-04-23
US11388039B1 (en) 2022-07-12
GB2619897A (en) 2023-12-20
GB202315622D0 (en) 2023-11-29

Similar Documents

Publication Publication Date Title
US12034747B2 (en) Unsupervised learning to simplify distributed systems management
CN110297911B (zh) 物联网(iot)计算环境中认知数据管护的方法和系统
US10572501B2 (en) Steering graph mining algorithms applied to complex networks
US9064213B2 (en) Dynamic model-based analysis of data centers
US11651233B2 (en) Candidate visualization techniques for use with genetic algorithms
AU2021316972B2 (en) Real-time data quality analysis
JP2023527700A (ja) パイプライン・アーティファクトの選択の動的自動化
US11004333B2 (en) Detecting influential factors for traffic congestion
US12001823B2 (en) Systems and methods for building and deploying machine learning applications
US20220198362A1 (en) Generation of dashboard templates for operations management
Weber et al. Discovering and visualizing operations processes with pod-discovery and pod-viz
US20230259117A1 (en) Asset health identification from multi-modality data analysis
US11307971B1 (en) Computer analysis of software resource load
AU2021319162B2 (en) Efficient real-time data quality analysis
CN117157955A (zh) 识别信息技术基础设施网络中的问题图
CN116034570A (zh) 使用域空间探索的跨环境事件关联和机器学习技术
WO2023066073A1 (en) Distributed computing for dynamic generation of optimal and interpretable prescriptive policies with interdependent constraints
US12020352B2 (en) Project visualization system
US20220300821A1 (en) Hybrid model and architecture search for automated machine learning systems
US20240291717A1 (en) Predictive Analytics For Network Topology Changes
US11262734B2 (en) Systems and methods to ensure robustness for engineering autonomy
CN115280343A (zh) 故障事件管理中的事件相关性
Herath et al. Streamlining Software Release Process and Resource Management for Microservice-based Architecture on multi-cloud
Hamberg Association Rule Discovery from Collaborative Mobile Data
US20190066134A1 (en) Survey sample selector for exposing dissatisfied service requests

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination