CN115552380A - 性能事件故障排除系统 - Google Patents

性能事件故障排除系统 Download PDF

Info

Publication number
CN115552380A
CN115552380A CN202180033392.XA CN202180033392A CN115552380A CN 115552380 A CN115552380 A CN 115552380A CN 202180033392 A CN202180033392 A CN 202180033392A CN 115552380 A CN115552380 A CN 115552380A
Authority
CN
China
Prior art keywords
measurands
measurand
components
root cause
coefficients
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180033392.XA
Other languages
English (en)
Inventor
M·古赛特
M·瑟奇
I·朱尔朱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN115552380A publication Critical patent/CN115552380A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0778Dumping, i.e. gathering error/state information after a fault for later diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)
  • Control Of Electric Motors In General (AREA)
  • Indicating And Signalling Devices For Elevators (AREA)
  • Control Of Positive-Displacement Air Blowers (AREA)

Abstract

本发明的各方面公开了一种用于故障排除的方法和系统。该方法包括识别提供传感器数据的数据源,包括第一组被测变量。该方法还包括处理器确定传感器数据的子集(由给定数据源提供,包括组件集合)的第二组被测变量的值指示异常。该方法还包括确定第三组被测变量,其是异常的根本原因候选。由组件集合提供第三组的被测变量。该方法还包括向相应的被测变量分配系数的集合。每个系数指示每个被测变量与第三组的被测变量的比较结果。该方法还包括使用系数集合来确定是否能够将组件集合中的特定子集识别为异常的根本原因。

Description

性能事件故障排除系统
技术领域
本发明一般涉及数字计算机系统的领域,并且更具体地涉及性能事件故障排除。
背景技术
拍字节数据被收集在公共和私有云中,其中时间序列数据来源于不同数据源,包括传感器网络、智能网格等。所收集的时间序列数据可具有非期望的变化或者指示异常的模式。用于实时检测根本原因的监测数据可以例如防止该异常累积和影响计算机系统的效率。
发明内容
本发明的各方面公开了用于故障排除系统的方法、计算机程序产品和系统。该方法包括一个或多个处理器识别数据源,数据源被配置成提供传感器数据以及将传感器数据加时间戳为一个或多个时间序列的第一集合,传感器数据包括第一组被测变量的值。该方法还包括一个或多个处理器确定传感器数据的子集的一个或多个被测变量的第二组的值指示异常。传感器数据的子集由数据源中的给定数据源提供并且覆盖时间窗口,给定数据源包括组件的集合。该方法还包括一个或多个处理器使用一种或多种相似度技术的集合来确定作为异常的根本原因候选的第三组的一个或多个被测变量,该一种或多种相似度技术用于在时间窗口中比较第二组被测变量的值和第三组被测变量的值。第三组的被测变量由组件的集合提供。对于相似度技术的集合中的每个相似度技术以及对于第二组中的每个被测变量,方法进一步包括一个或多个处理器将系数的集合分配给被测变量。使用相似度技术,系数的集合中的每个系数指示每个被测变量与第三组的被测变量的比较结果。方法进一步包括一个或多个处理器使用系数的集合确定给定数据源的组件的集合的特定子集是否可被识别为异常的根本原因。响应于确定给定数据源的组件的集合的特定子集可被识别为异常的根本原因,方法进一步包括一个或多个处理器提供组件的特定子集作为异常的根本原因。
在另一方面,响应于确定没有给定数据源的组件集合的特定子集可被识别为异常的根本原因,该方法还包括一个或多个处理器更新第三组被测变量。对于相似度技术的集合中的每个相似度技术以及对于第二组中的每个被测变量,方法进一步包括一个或多个处理器将系数的集合分配给被测变量。使用相似度技术,系数的集合中的每个系数指示每个被测变量与更新的第三组的被测变量的比较结果。方法进一步包括一个或多个处理器使用系数的集合确定给定数据源的组件的集合的特定子集是否可被识别为异常的根本原因。
本主题内容可以实现动态和自动的根本原因分析方法。本主题内容可以改进对真实数据的根本原因分析。例如,随着数据随时间累积,根本原因分析的准确性可能增加。本发明的实施例认识到,准确性的增加可以是有利的,因为最初可被视为异常的信息可能随后被揭示为不异常的偏差。本发明的各个实施例可以实时地执行根本原因分析(例如,在数据源提供时间序列数据时)。
本主题内容可以与现有的根本原因分析系统无缝地集成。例如,本发明的各个实施例可实现用于数据中心存储装置中的自动根本原因分析故障排除(RCA/TS)的基于组合体(resemble-based)的相似度检索工具。进一步,本发明的实施例可以提供及时且准确的根本原因分析故障排除,这可以确保云和数据中心托管的应用在没有访问、数据或性能损失的情况下操作。
附图说明
在下文中,参照附图,仅通过示例的方式更详细地解释本发明的实施例。
图1是根据本发明的实施例的计算机系统的框图。
图2是根据本发明的实施例的方法的流程图。
图3是示出根据本发明的实施例的方法的图。
图4表示根据本发明的实施例的适于实现一个或多个方法步骤的计算机化系统。
具体实施方式
本发明的不同实施例的描述将出于说明的目的而呈现,但并不旨在是详尽的或限于所公开的实施例。在不脱离所描述的实施例的范围和精神的情况下,对本领域普通技术人员许多修改和变化将是显而易见的。选择这里使用的术语来最好地解释实施例的原理、实际应用或对在市场中找到的技术的技术改进,或者使得本领域普通技术人员能够理解这里公开的实施例。
不同实施例提供了如独立权利要求的主题内容所描述的根本原因分析方法、计算机系统和计算机程序产品。在从属权利要求中描述了其他有利的实施例。如果本发明的实施例不相互排斥,则它们可以彼此自由组合。
时间序列可以例如是通常在以均匀时间间隔间隔开的连续时刻测量的一系列数据点。时间序列可以包括对或元组(v,t),其中,“t”是测量值“v”的时间。时间序列的值v可以被称为传感器数据。时间序列的传感器数据可以包括被测变量(measurand)的值v。被测变量可以是被测量的物理量、质量、状态或属性。例如,被测变量包括但不限于温度、中央处理单元(CPU)、CPU使用、计算负载、全局镜像次级写入滞后(ms/op)等中的一个或多个。
被测变量可以例如是全局镜像次级写入滞后(ms/op),其为服务于全局镜像的次级写入操作的平均毫秒数。该值可以不包括服务主要写入操作的时间。本发明的实施例可以监测全局镜像次级写入滞后的值以标识在向次级站点写入数据的过程期间发生的延迟(例如,所检测的增加可以是可能问题的标志)。
一个或多个时间序列可以具有同一被测变量的值。例如,不同位置处的两个温度传感器各自发送具有温度值和相关联时间戳的相应时间序列。在另一示例中,可使用两个或更多时间序列确定单个被测变量的值。例如,可以使用两个时间序列来定义作为温度和压力的比率的被测变量,两个时间序列中的一个是温度值,另一个是压力值。在另一示例中,所接收的时间序列中的每个时间序列具有相应的不同被测变量的值。也就是说,时间序列的第一集合和第一组被测变量的大小是相同的,因为第一组中的每个被测变量具有第一集合中的相应的时间序列。被测变量的值可能具有与被测变量的值的预定义正常行为不一致的模式,这可被称为异常或问题。
可以由一个或多个参考或阈值来定义被测变量的正常行为。在一个示例中,参考值可以是被测变量的最大可能值,当被测变量的值超过该最大可能值时,其可以指示异常。在一个示例中,参考值可以包括值的允许范围的下限和上限,使得当被测变量的值在该范围之外时,该值指示异常。在另一示例中,参考值可以是函数或模型的值,该函数或模型对被测变量的值随时间的变化进行建模。在另外的示例中,本发明的实施例可以通过机器学习模型(例如,异常检测算法可以是机器学习模型)从训练数据学习正常行为。经训练的机器学习模型可以是预测输入数据中的异常的等式或规则集合。规则可使用与参考值的比较。
在本发明的不同实施例中,如果组件提供被测变量,则被测变量的值指示组件(例如,指示组件的操作性能)。接收被测变量的值作为时间序列的第一集合的一部分。
在示例实施例中,系统可以是根本原因分析和性能系统。在进一步的示例实施例中,该方法可以是根本原因分析和性能方法。例如,异常可以是性能问题、配置问题和/或软件问题(例如,漏洞)等。
本发明的实施例可以通过从第一组被测变量中选择被测变量来确定第三组。在一个示例中,可以选择任意的被测变量的集合。在另一示例中,该选择是基于预定义的选择标准的。选择标准例如可以要求所选择的被测变量与第二组被测变量的至少一部分相关。选择标准例如可以要求所选择的被测变量是与类似于异常或者与异常相同的先前检测到的问题相关联的被测变量。在另外的示例中,第三组的更新可包括重新确定整个第三组。所得到的重新确定的第三组可以与该第三组重叠或者可以不与该第三组重叠。例如,可以使用另一选择标准来执行重新确定。
时间窗口中的第二组被测变量和第三组被测变量的值的比较包括时间窗口中的第二组被测变量和第三组被测变量的值的成对比较。在示例实施例中,可以将第二组中的每个被测变量与第三组中的所有被测变量进行比较。在一个示例中,第二组中的被测变量和第三组中的被测变量之间的成对比较可包括一系列值的块与一系列值的块的比较,这可以加速比较过程。
在不同实施例中,组件的特定子集可包括一个或多个组件。多于一个组件的特定子集可以是属于同一组件类别的组件(例如,代表单个元凶(culprit))。例如,在异常数据源是存储系统的情况下,组件类别可以是物理和虚拟交换机和链路。组件类别的另一示例可以是物理服务器和虚拟化服务器等。本发明的实施例可以利用确定给定数据源的组件集合中没有特定子集可被识别为异常的根本原因,这意味着识别到多个元凶组件。多个元凶组件可能不是相同的组件类别(例如,不提供单个元凶)。
根据一个实施例,第三组被测变量的更新包括:从第三组移除一个或多个被测变量,和/或向第三组添加一个或多个被测变量。更新过程可以实现自动和动态反应,使得根因分析系统可以继续。在另一示例中,第三组的更新可以包括提示用户提供第三组被测变量的更新。在一个示例中,第三组的更新可包括确定和考虑所识别的元凶组件中的所选组件不是(例如,不再是)根本原因。
根据一个实施例,由组件集合中的所选择的组件或所识别的元凶组件提供被移除或替换的被测变量。因为相应的问题(在检测到异常之后)被解决或者如果由另一组件引起相应的异常被测变量值,所以所选择的组件是以下组件,其不是(或将不会是)异常的原因。第三组被测变量的更新可以考虑所选择的组件不是根本原因。例如,考虑到所选择的组件不是根本原因,用户可以提供对第三组被测变量的更新。
根据一个实施例,该方法进一步包括从用于本发明的实施例的下一过程迭代的组件集合中排除所选择的组件(关于图2和图3更详细地讨论)。此外,通过移除最先过载的组件,本发明的实施例可以测试最先过载的组件是否是整个系统性能的单一瓶颈。
本发明的实施例认识到,无法识别组件的单个元凶/子集的事实可能是由于由组件集合的不同组件处的个别问题的组合或级联引起给定数据源的异常(例如,多个元凶可以是异常的原因)的事实。在一个示例中,单个问题可以由影响其他组件的被测变量值的单个组件引起。例如,在存储系统中的同一数据流上的多个组件的被测变量行为可能受该数据流上的一个组件中的问题的影响。
因此,本发明的实施例认识到通过本发明的方法通过排除和/或解决一些有问题的组件减少所研究的组件(组件集合)的数量的优点。在示例实施例中,评估可以与针对组件集合中的每个组件的给定数据源中的大部分异常相关的属性。例如,在存储系统的情况下,过载程度可以是表征大多数异常的属性。
在另一示例中,组件集合中的最饱和组件可以是所选择的组件。饱和组件可以是达到饱和的组件或者过载的组件,由于相应的属性值是稳定的、或者属性值是锯齿状的。锯齿状状态不一定表示该值达到极限,而可能是相邻组件达到饱和。不同实施例可通过由数据流遍历的下一组件来确定相邻组件。
本发明的进一步实施例可以配置给定数据源(例如,通过增加相应容量),使得可以针对该选择的组件求解饱和度的解。如果在配置数据源之后所选择的组件不再饱和,或者如果配置揭示饱和确实不是真正的问题,则本发明的实施例可以利用该信息来细化用于下一迭代的第三组被测变量的选择。例如,可以从第三组被测变量中移除与所选择的组件相关联的被测变量。
根据一个实施例,该方法还包括根据组件集合的预定义属性对组件集合进行排名(或对所识别的元凶组件进行排名)。在示例实施例中,所选择的组件是排名第一的组件。排名第一的组件可以是促成所检测到的异常的组件。例如,该属性是过载程度。在该示例中,最过载的组件被首先排名。在基于所选择的组件进行更新的实施例中,可以在预定义数量的N次迭代之后执行排名。例如,在第三组被更新N次而没有成功之后(例如,不能识别单个元凶)。
根据一个实施例,组件的子集是组件的集合中的单个组件,这可以进一步增加根本原因分析的准确性。
根据一个实施例,确定是否可以识别组件集合的特定子集包括:对于第二组中的每个被测变量和对于第三组中的每个被测变量:组合相应的系数的集合,得到组合的系数,以及针对该确定来使用所组合的系数。例如,如果第二组包括单个被测变量M21,第三组包括两个被测变量M31和M32,并且相似度技术的集合包括三种技术ST1、ST2和ST3,则可以由本方法产生系数的两个集合。一个系数集合针对对(M21,M31),而另一个系数集合针对另一对(M21,M31)。
两个系数集合中的每一者具有三个系数,每一系数与相应的相似度技术相关联。例如,对(M21,M31)的系数集合可以包括
Figure BDA0003927049610000071
Figure BDA0003927049610000072
并且对(M21,M32)的系数集合可以包括
Figure BDA0003927049610000073
Figure BDA0003927049610000074
系数集合中的每一系数可例如为数字。通过比较系数集合的值,本发明的实施例可以识别根本原因。例如,如果系数或组合的系数远高于所有其他系数,则与该系数/组合的系数相关联的组件可为根本原因。使用组合的系数可以允许利用所有相似度技术以便决定哪个是根本原因。
根据一个实施例,组合系数集合包括对系数集合求和。系数集合中的每一系数集合的总和可例如为加权总和。此外,为相似度技术的集合中的每个相似度技术分配相应的权重。在示例实施例中,使用权重可以使得能够使用相似度技术的集合的仅一部分(例如,通过将权重0分配给非期望的技术)。
遵循以上示例,可以如下定义加权总和。对(M21,M31)的组合的系数可以被定义为:
Figure BDA0003927049610000081
并且对(M21,M32)的组合的系数可以被定义为:
Figure BDA0003927049610000082
Figure BDA0003927049610000083
权重WST、WST2和WST3分别是三种相似度技术ST1、ST2和ST3的权重。
在一个示例中,权重可以是用户定义的。在另一示例中,可自动从包括与相应相似度技术相关联的权重的预定义权重图中选择权重。权重的值可以取决于给定数据源的类型和/或取决于本方法的执行时间。例如,给定数据源可以是数据中心存储区域网络(SAN)。本发明的实施例可以监测数据中心SAN作为动态排队系统,其在不同区域(诸如正常和饱和区域)中操作。对于饱和区,诸如曼哈顿、皮尔逊和DTW距离的相似度技术可能是优选的。在该示例中,与该技术相关联的权重可高于技术集合中的其他技术的权重。
根据一个实施例,该方法还包括,在执行比较之前,在时间窗口中归一化第二组的被测变量和第三组被测变量的值。可以执行归一化到相同的范围。在一个示例中,本发明的实施例可以使用最小-最大归一化来将所有比较的被测变量缩放到范围[0,1]。例如,仅在时间窗口内执行归一化。根据一个实施例,相似度技术的集合包括L1/曼哈顿距离、L2/欧几里得距离、动态时间规整(DTW)距离、斯皮尔曼(Spearman)和皮尔森(Pearson)度量。
根据一个实施例,确定传感器数据的子集中的第二组的一个或多个被测变量的值指示异常包括:从数据源接收事件票,该事件票指示异常。例如,事件票可以指示时间序列的第二集合和覆盖传感器数据的子集的时间戳的时间范围(或时间窗口)。时间序列的第二集合可以是用于监测第二组被测变量的时间序列。时间序列的第二集合可以是时间序列的第一集合的子集。例如,事件票可以是日志文件。
根据一个实施例,响应于从数据源接收事件票来执行确定传感器数据的子集中的第二组的一个或多个被测变量的值指示异常。该方法还包括针对从数据源或数据源的另一数据源另外接收的每个事件票重复该方法。
根据一个实施例,第二组的被测变量包括第一组被测变量的被测变量或第一组的被测变量的组合。根据一个实施例,时间序列的第一集合中的每个时间序列包括相应的被测变量的值。在示例实施例中,第一组中的被测变量的数量等于时间序列的第一集合中的时间序列的数量。本发明的各个实施例自动执行该方法,可以加速根本原因分析系统的速度。例如,在自组织(ad-hoc)执行时复杂事件的RCA故障排除可能经常花费数天或数周。
图1是根据本发明的示例实施例的计算机系统100的图。计算机系统100可以包括数据源101。在示例实施例中,数据源101中的每个数据源可以是计算机系统,并且数据源101中的每个数据源被配置为通过网络传送数据。例如,数据源可以是公共或私有云存储系统、可经由网络的URL寻址的存储系统、或任何其他可访问的数据源。数据源可包括用于一个或多个传感器的数据。在不同实施例中,传感器可以是装置、模块、机器或子系统,其目的是确定和/或监测对应环境中的被测变量的值。
传感器可以规则或不规则的时间间隔收集或获取测量。可以将这些测量提供为时间序列。时间序列包括按时间顺序索引(或列出或图示)的一系列数据点(或值),例如,时间序列包括值的元组和相关联的时间戳。值(或数据点)的时间戳指示获取该值的时间。例如,时间序列的值可以是被测变量的值,其中,被测变量可以是物理量、状态或属性。由此,数据源101中的每个数据源可提供时间序列,其值是诸如温度、压力、CPU使用等的被测变量的值。在一个示例中,数据源101可以提供第一组被测变量(称为‘GRP1’)的传感器数据。
计算机系统100包括监测系统103。在不同实施例中,监测系统103被配置为检测从数据源101接收的数据中的异常。在另外的实施例中,监测系统103可以被配置为处理接收的时间序列。
通常,由监测系统103采集成百上千的监测时间序列和事件日志为具有细粒度(例如,分钟或秒)的多变量时间序列。在示例实施例中,监测系统103可以将被测变量的实际行为与被测变量的正常行为进行比较以产生比较数据。例如,与正常行为的预定义偏差可指示异常。例如,当可用于容纳执行操作所需的数据的随机存取存储器(RAM)不足时,可由存储器中断(outage)导致异常。
在一个示例中,监测系统103可以被配置为识别接收到的时间序列的被测变量的非期望值。例如,被监测的被测变量可以包括第一组被测变量GRP1的被测变量的至少一部分和/或第一组被测变量GRP1的被测变量的组合(例如,数据源可以提供诸如温度、压力和CPU使用的被测变量),而被监测的被测变量可以包括压力、温度和温度与压力的比率。
在一个示例中,监测系统103可以被配置为检测当输入样本的被测变量的值落在正常值范围之外时发生异常。范围的界限可以被称为阈值。例如,可以使用从接收的值与参考值之间的差得出的残差来计算得分。当得分落在范围的最高第一离群值以上或最低第一离群值以下时,得分可指示异常。阈值的使用可以使得能够通过与数据的正常模型的偏离程度来识别异常行为。
在另一示例中,监测系统103可使用分析方法,诸如机器学习模型,以检测异常。在示例实施例中,机器学习模型可以是自动编码器。例如,自动编码器可以是前馈神经网络。自动编码器可以包括输入层,输入层具有与第一组被测变量GRP1中的相应被测变量相对应的多个节点。例如,输入层中的节点的数量可以是第一组GRP1的被测变量的数量。输出层可以包括与输入层相同数量的节点,并且对应于第一组被测变量GRP1的重构值。
本发明的各个实施例可以关于表示第一组被测变量的正常行为的数据来训练自动编码器网络,其目标是首先压缩和然后重建输入变量。训练可以包括改变参数值以使重构误差最小化。可以使用训练数据集来执行训练。本发明的实施例可以通过在多个时间收集多个度量数据集来获得训练数据集。例如,可以从诸如SAN卷控制器(SVC)设备的相应设备获得一个数据集。
度量可以是被测变量。例如,可以在不同时间使用许多设备来建立训练集。每个设备可以提供多维时间序列。可以在多个多维时间序列(具有多个时间窗口)上训练自动编码器。例如,可以仅过滤具有4个端口(具有8Gbps速度)的节点的集合。对于每个实体集,可以提取单个主机-节点-端口实体集,并且可以在可以形成训练集的一个文件中过滤35个高优先级和聚合度量。在维度减少期间,网络学习各个变量之间的交互并在输出处将变量重新构造回原始变量。如果数据源降级或具有问题,则本发明的实施例将开始看到输入变量的网络重构中的增加的误差。通过监测重构误差,本发明的实施例可检测异常。
计算机系统100包括根本原因分析系统105。根本原因分析系统105可被配置为为由监测系统103检测的异常产生可能的根本原因的集合。可能的根本原因的集合可以包括异常的一个或多个潜在的根本原因。
监测系统103、数据源101和根本原因分析系统105可以通过一个或多个网络互连。在一个示例中,网络包括互联网。在另一示例中,网络包括无线链路、电话通信、无线电通信或计算机网络(例如,局域网(LAN)或广域网(WAN))。尽管被示为远程连接的系统,但在另一示例中,监测系统103可以是根本原因分析系统105的一部分。
图2是根据本发明示例实施例的方法200的流程图。方法200可以是根本原因分析和性能方法。出于解释的目的,该方法可以在之前图1中示出的计算机系统100中(例如,由根本原因分析系统103)实现,但不限于该实现。
在不同实施例中,数据源101可提供时间序列的第一集合。在示例实施例中,数据源中的每个数据源可包括组件的集合。在存储系统的情况下,组件的集合可包括服务器、虚拟化服务器(例如,一个或多个虚拟机(VM))、物理网络适配器、虚拟网络适配器、SAN结构、物理交换机和链路、虚拟交换机和链路、存储前端网络适配器、存储前端虚拟化和后端存储中的至少一个。
时间序列的第一集合可以包括时间序列ts1、ts2…tsN。例如,时间序列的第一集合可以是由数据源101连续生成的流送数据。根本原因分析系统可以使用本发明方法递增地处理该数据(例如,无需访问所有数据)。增量处理可以使得能够对所接收的数据进行流处理并且因此实现对传感器数据的实时监测以实时地作用于数据。例如,可能需要实时分析大量生成或获取的数据,以便促进作用于网络中的潜在负载平衡。在另一示例中,可在接收时存储时间序列的第一集合,以用于执行由根本原因分析系统对所接收的传感器数据的离线分析。
时间序列的第一集合提供第一组被测变量的值。本发明的实施例可以使用监测被测变量来监测时间序列的第一集合(即,命名为‘SET1’),以检测异常事件。例如,监测被测变量中的每个监测被测变量可以是第一组的被测变量或第一组的被测变量的组合。在进一步的示例中,可以对预定义数据样本执行监测。该数据样本可通过从数据源101接收的每个数据来递增地增加。遵循以上示例,接收并累积时间序列ts1、ts2……tsN的数据。可以定期对所累积的数据执行监测(例如,可以每小时执行监测,使得对于当前小时),对当前小时的数据和在当前小时之前的小时中累积的数据执行监测。在另一示例中,数据的样本可以是在给定时间间隔中接收的并且先前未被处理的数据(例如,监测可以递增地处理每小时中接收的数据)。
本发明的各个实施例可执行监测以确定监测被测变量的值是否具有正常行为。例如,每个监测被测变量的值可以与相应的正常行为数据进行比较。在另一示例中,可将每个监测被测变量的值输入到经训练的机器学习模型以预测其是否偏离正常行为。可以由根本原因分析系统访问所监测的结果。为此,可由根本原因分析系统或由根本原因分析系统连接到的另一远程计算机系统来执行监测。
例如,在方法200的步骤201中,根本原因分析系统可以确定传感器数据的子集的第二组的一个或多个被测变量(例如,GRP2)的值指示给定时间范围或时间窗口(例如,早上时间)中的异常。在各个实施例中,该确定指示在时间窗口期间在时间序列的第一集合SET1的时间序列的子集中的异常。例如,可以从数据源101中的异常数据源接收时间序列的子集。在另外的示例中,根本原因分析系统可以从远程计算机系统接收事件票。事件票指示第二组被测变量、时间窗口和事件发生的时间。时间窗口可以能够将根本原因搜索集中在指定的时间窗口内。在示例实施例中,时间窗口可以以事件时间为中心,其可以跨越4-48小时,在事件时间之前和之后。
在方法200的步骤203中,根本原因分析系统可以确定第三组(例如,GRP3)的一个或多个被测变量(其是异常的根本原因候选)。在示例实施方式中,可使用第二组被测变量GRP2从第一组被测变量GRP1中选择第三组。例如,根本原因分析系统可以被配置为使用异常的规则引擎数据库搜索异常的根本原因。异常的规则引擎数据库包括条目,其中条目中的每个条目描述异常。例如,条目中的每个条目包括相应异常的属性的值。
在示例实施例中,异常的属性可以包括异常中涉及的时间序列的数量、异常中涉及的被测变量等。条目中的每个条目可以与候选根本原因被测变量的集合相关联。根本原因分析系统可以被配置为识别与检测到的异常对应的一个或多个条目,并且相应的候选根本原因被测变量的一个或多个集合可以形成第三组GRP3。可替换地或附加地,本发明的实施例可以提示用户提供第三组GRP3的被测变量中的一些或全部。例如,可向用户呈现指示检测到的异常的信息。
例如,在存储系统具有升高的前端响应时间作为异常的情况下,第三组的被测变量可以是:对于信用耗尽的读/写响应时间、对于读数据速率的读/写响应时间、对于后端读/写响应时间/队列时间的读/写响应时间、以及对于端口到本地节点响应时间/队列时间的写响应时间。在不足的输入异常的情况下,被测变量可以包括:对后端响应的vdisk(虚拟盘)响应、对后端队列的vdisk响应、对主机属性延迟的vdisk响应、对节点间(端口到本地节点)的vdisk响应、以及对gm次级写入滞后的vdisk响应。
第三组被测变量中的每个被测变量可以与异常数据源的组件相关联。例如,可以从异常数据源的网络适配器等获取第三组的被测变量的子集。因此,第三组被测变量可以使得能够分析多个潜在的根本原因组件。本发明的实施例认识到,第三组的准确选择可能是有利的,并且能够发现单个元凶。
在步骤205中,方法200可以利用一种或多种相似度技术的集合来成对比较第二组被测变量的值和第三组被测变量的值。即,方法200可以将第二组GRP2中的每个被测变量与第三组GRP3中的所有被测变量进行比较。在步骤205中执行的比较的数量可以是Ncmp=Nst×NGRP2×NGRP,其中,Nst是相似度技术的数量,NGRP2是第二组GRP2中的被测变量的数量,以及NGRP3是第三组GRP3中的被测变量的数量。例如,相似度技术的集合可包括L1/曼哈顿(Manhattan)、L2/欧几里德(Euclidean)、DTW/动态(Dynamic)、时间规整(TimeWarping)、斯皮尔曼(Spearman)和皮尔森(Pearson)度量。例如,如果第二组GRP2包括两个被测变量并且第三组GRP3包括三个被测变量,则要在步骤205中执行的比较的数量可以是5*2*3=30。
例如,可以使用欧几里得距离方法来相应地执行第二组和第三组的一对被测变量M2i和M3j(i=1,…,NGRP2,和j=1,…,NGRP3)的比较,如下:
Figure BDA0003927049610000141
其中,n是时间窗口期间与被测变量M2i和M3j相关联的时间序列的时间点的数量。
在执行比较之前,本发明的实施例认识到对所比较的被测变量的值进行归一化的优点,这可以实现有效的相似度比较。归一化可以被执行到相同的范围。在一个示例中,可以使用最小-最大归一化以将所有比较的被测变量缩放到范围[0,1],并且仅在时间窗口内执行归一化。
在步骤207中,对于相似度技术的集合中的每种相似度技术以及对于第二组中的每个被测变量M2i,方法200可以向被测变量M2i分配Nst个系数的集合,其中,系数的集合中的每个系数指示使用每种相似度技术的每个被测变量M2i与第三组的被测变量M3j的比较结果。例如,可以如下提供系数的集合
Figure BDA0003927049610000142
对于第二组和第三组的所有可能的被测变量的对中的每个不同的对(i,j),可以提供如下记录:
Figure BDA0003927049610000151
例如,系数的集合
Figure BDA0003927049610000152
可以基于通过相似度技术的集合执行的比较来指示这两个被测变量M2i和M3j之间的相似度。系数的集合可以是指示相似度水平的数字。
在步骤209中,方法200可组合每对(M2i,M3j)的系数的集合,从而产生组合的系数Coefij。在示例实施例中,组合可以包括系数的总和(例如,
Figure BDA0003927049610000153
或加权总和
Figure BDA0003927049610000154
),其中,对相似度技术分配权重。
此外,在步骤211中,方法200可以确定组合的系数是否能够将异常数据源的组件集合的特定子集标识为异常的根本原因。例如,组件的子集可以是一个或多个组件。此外,组件的子集包括单个组件,并且可以被称为单个元凶。组件的子集可以属于同一组件类别。组件的子集可以实现对异常的集中调查。在异常数据源是存储系统的示例中,组件的子集可以属于同一组件类别,其中,组件类别可以例如是物理和虚拟交换机和链路。组件类别的另一示例可以是物理服务器和虚拟化服务器等。
例如,组合系数的离群值可区别于其他组合系数。离群值可包括比预定义阈值更高的组合的系数。阈值可以例如是所有组合的系数的平均值。本发明的进一步实施例可以确定组合的系数的离群值是否与来自组件集合的组件的特定子集的第三组的被测变量相关联。换言之,如果组合的系数用技术的集合中的两种或更多种相似度技术指向同一元凶集(源自组件的被测变量),则该集合和相应的源组件最可能是异常的根本原因。所以,可以进一步对该特定组件进行更深入的调查。因此,响应于确定异常数据源的组件的集合的特定子集可以被识别为异常的根本原因(步骤211,“是”分支),方法200将提供该特定子集作为根本原因(步骤213)。
然而,确定组合的系数彼此不显著不同使得不能识别离群值可指示不能识别组件的特定子集。因此,响应于确定异常数据源的组件集合中没有特定子集可以被识别为异常的根本原因(步骤211,“否”分支),方法200可以更新第三组被测变量GRP3(在步骤215中),方法200可以使用更新的第三组而不是先前迭代中使用的第三组来执行步骤205到215。
方法200可以通过移除或替换第三组中的一个或多个被测变量来执行第三组被测变量的更新。在一个示例中,可以如下确定被移除或替换的被测变量。可以标识异常数据源的特定组件,并且可以在第三组中移除或替换由该特定组件提供的所有被测变量。在该示例中,步骤205至215的重复可以使用排除该特定组件的组件集合。例如,可以从组件集合中随机选择特定组件。在另一示例中,可提示用户以标识该特定组件。在另一示例中,可以使用在时间窗口期间对组件集合共同的属性的值对组件集合进行排名。排名第一的组件可以是特定组件。例如,该属性是过载程度。
图3是说明根据本发明的示例实施例的用于根本原因分析的方法的图300。在不同实施例中,可在之前图1中示出的计算机系统100中(例如,通过根本原因分析系统103和可选的一个或多个其他计算系统)实现图300的方法,但不限于该实现。
在框301处,根本原因分析系统可以接收事件票。事件票可以指示在给定数据源处发生的异常事件。在示例实施例中,给定数据源可以是具有组件集合(诸如服务器和网络适配器)的存储系统。
在框302处,根本原因分析系统可以确定引发事件的被测变量的异常集合(例如,关键性能指标(KPI))。然后,在框303处,根本原因分析系统可以确定(例如,或从SET1中选择)被测变量的根本原因候选集合。此外,根本原因分析系统可以确定覆盖事件的时间窗口。
在框304处,根本原因分析系统可以利用五个相似度技术的集合来比较异常集合和根本原因候选集合的成对被测变量。相似度技术的集合包括三个距离(即,L2/欧几里德、L1/曼哈顿、DTW/动态时间规整)和两个相关测量(即,斯皮尔曼和皮尔森)的组合体。可用附加方法(algos)来减少或增强该组合体,这里也包括用于模式识别的机器学习基于ML/ANN的模型。
进一步,在框305处,根本原因分析系统确定是否识别到单个共同元凶。如果根本原因分析系统基于比较结果,用两个或更多方法(在五个中)指向相同的元凶集合(例如,源自组件的被测变量),则根本原因分析系统确定对应的集合和相应的源组件最可能是问题的根本原因(框305,“是”分支)。因此,根本原因分析系统前进到框306以促进用户开始对该特定组件的更深入调查。
如果根本原因分析系统指向不同的组件(框305,“否”分支),则根本原因分析系统确定元凶尚未被很好地定义。因此,根本原因分析系统通过使用其他度量对(pair)来迭代框303至框305的比较以继续到框307,以便运行下一故障排除步骤。如果比较的迭代使用不同的方法指向同一组件,则根本原因分析系统确定对应的组件可能是元凶。
如果根本原因分析系统没有识别满意的组件(即,没有唯一的根)并且所有可能的被测变量对仍然没有突出的一个特定组件,则根本原因分析系统可以以过载程度的相应降序对所涉及的组件进行排名。在示例实施例中,根本原因分析系统可以从最过载的组件开始,然后应用留一(leave one out)消除(elimination)方法(框309)。因此,根本原因分析系统可以能够每次一个地递增地移除顶部瓶颈,同时在每次移除之后重新运行(经由过程310)框303至305的比较。
在另外的示例中,根本原因分析系统可以确定根本原因候选集合,如利用步骤311至314所描述的。在步骤311,可以提供运行数据源,并且在步骤312,可以确定可以由数据源提供的被测变量的集合。在步骤313,根本原因分析系统可以确定该集合的前k个相关的被测变量。然后,根本原因分析系统可以利用该集合的前k个相关的被测变量来确定根本原因候选集(步骤314)。
图4表示适合于实施如本公开中所涉及的方法步骤的至少一部分的一般计算机化系统400。
应当理解,本文描述的方法至少部分是非交互的,并且通过诸如服务器或嵌入式系统的计算机化系统自动化。然而,在示例性实施例中,在此描述的方法可以在(部分)交互系统中实现。这些方法可进一步在软件412、固件422、硬件(处理器)405或其组合中实现。在示例性实施例中,本文中描述的方法以软件实现为可执行程序,并且由专用或通用数字计算机(诸如个人计算机、工作站、小型计算机或大型计算机)执行。因此,最通用的系统400包括通用计算机401。
在示例性实施例中,在硬件架构方面,如图4所示,计算机401包括处理器405、耦合到存储器控制器415的存储器(主存储器)410、以及经由本地输入/输出控制器435通信地耦合的一个或多个输入和/或输出(I/O)设备或外围设备10和445。输入/输出控制器435可以是但不限于如本领域中已知的一个或多个总线或其他有线或无线连接。输入/输出控制器435可具有额外的元件(为简单起见而省略),例如控制器、缓冲器(高速缓冲存储器)、驱动器、中继器和接收器,以实现通信。进一步,本地接口可以包括地址、控制和/或数据连接,以实现上述组件之间的适当通信。如本文所描述的,I/O设备10、445通常可以包括本领域已知的任何通用密码卡或智能卡。
处理器405是用于执行软件(尤其是存储在存储器410中的软件)的硬件设备。处理器405可以是任何定制的或商业可获得的处理器、中央处理单元(CPU)、与计算机401相关联的若干处理器之中的辅助处理器、基于半导体的微处理器(呈微芯片或芯片组的形式)、宏处理器、或通常用于执行软件指令的任何设备。
存储器410可以包括易失性存储器元件(例如,随机存取存储器(RAM,诸如DRAM、SRAM、SDRAM等))和非易失性存储器元件(例如,ROM、可擦可编程只读存储器(EPROM)、电可擦可编程只读存储器(EEPROM)、可编程只读存储器(PROM))中的任何一个或其组合。注意,存储器410可以具有分布式架构,其中不同部件彼此远离定位,但是可以由处理器405访问。
存储器410中的软件可以包括一个或多个单独的程序,每个程序包括用于实现逻辑功能(尤其是在本发明的实施例中涉及的功能)的可执行指令的有序列表。在图4的示例中,存储器410中的软件包括软件412的指令(例如,管理诸如数据库管理系统的数据库的指令)。
存储器410中的软件通常还应包括合适的操作系统(OS)411。OS 411实质上控制其他计算机程序(诸如,可能用于实现如本文中所描述的方法的软件412)的执行。
本文描述的方法可以是软件412的源程序、软件412的可执行程序(目标代码)、脚本或包括要执行的指令集(作为软件412的方面)的任何其他实体的形式。当源程序时,则需要经由编译器、汇编器、解释器等翻译程序,该编译器、汇编器、解释器等可以包括在或可以不包括在存储器410内,以便结合OS 411适当地操作。此外,该方法可以被写为具有数据和方法类的面向对象的编程语言,或者具有例程、子例程和/或函数的过程编程语言。
在示例性实施例中,常规键盘450和鼠标455可以耦合到输入/输出控制器435。诸如I/O设备445的其他输出设备可以包括输入设备,例如但不限于打印机、扫描仪、麦克风等。最后,I/O设备10、445可以进一步包括传送输入和输出两者的设备,例如但不限于,网络接口卡(NIC)或调制器/解调器(用于访问其他文件、设备、系统、或网络)、射频(RF)或其他收发器、电话接口、网桥、路由器等。I/O设备10、445可以是本领域已知的任何通用密码卡或智能卡。系统400可进一步包括耦合到显示器430的显示器控制器425。在示例性实施方式中,系统400可进一步包括用于耦合到网络465的网络接口。网络465可以是用于经由宽带连接在计算机401与任何外部服务器、客户端等之间通信的基于IP的网络。网络465在计算机401与外部系统30之间传输和接收数据,该数据可被涉及执行本文所讨论的方法的部分或全部步骤。在示例性实施例中,网络465可以是由服务提供商管理的受管理的IP网络。网络465可以无线方式(例如,使用无线协议和技术,例如WiFi、WiMax等)来实施。网络465还可以是分组交换网络,诸如局域网、广域网、城域网、互联网网络或其他类似类型的网络环境。网络465可为固定无线网络、无线局域网(WLAN)、无线广域网(WWAN)、个域网(PAN)、虚拟专用网(VPN)、内联网或其他合适的网络系统,且包括用于接收和发射信号的装置。
如果计算机401是PC、工作站、智能设备等,则存储器410中的软件还可以包括基本输入输出系统(BIOS)(例如,包括在固件422中)。BIOS是在启动时初始化和测试硬件、启动OS 411、并且支持硬件设备之间的数据传输的基本软件例程的集合。BIOS存储在ROM中,使得当计算机401被激活时可以执行BIOS。
当计算机401运行时,处理器405被配置为执行存储在存储器410中的软件412,将数据传送至存储器410和从存储器410传送数据,并且通常依照软件控制计算机401的操作。本文所描述的方法和OS 411(全部或部分,但通常为后者)由处理器405读取,可能在处理器405内缓冲,且接着执行。
当在软件412中实现此处描述的系统和方法时,如图4所示,这些方法可被存储在任何计算机可读介质(诸如存储420)上,以供任何计算机相关系统或方法使用或结合任何计算机相关系统或方法使用。存储器420可包括盘存储器,例如HDD存储器。
本发明可以是任何可能的技术细节集成度的系统、方法和/或计算机程序产品。计算机程序产品可包括其上具有用于使处理器执行本发明的各方面的计算机可读程序指令的计算机可读存储介质(或多个介质)。
计算机可读存储介质可为可保留和存储供指令执行装置使用的指令的有形装置。计算机可读存储介质可以是,例如但不限于,电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备、或者上述的任意合适的组合。计算机可读存储介质的更具体示例的非穷尽列表包括以下各项:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式紧凑盘只读存储器(CD-ROM)、数字通用盘(DVD)、记忆棒、软盘、诸如穿孔卡的机械编码设备或具有记录在其上的指令的槽中的凸出结构、以及上述各项的任何合适的组合。如本文所使用的计算机可读存储介质不应被解释为暂时性信号本身,例如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如,穿过光纤电缆的光脉冲)或通过电线发射的电信号。
本文中所描述的计算机可读程序指令可以经由网络(例如,互联网、局域网、广域网和/或无线网络)从计算机可读存储介质下载到相应的计算/处理设备,或者下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输纤维、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器卡或网络接口接收来自网络的计算机可读程序指令,并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。
用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路的配置数据、或以一种或多种程序设计语言的任何组合编写的源代码或目标代码,这些程序设计语言包括面向对象的程序设计语言(诸如Smalltalk、C++等)和过程程序设计语言(诸如“C”程序设计语言或类似程序设计语言)。计算机可读程序指令可以完全地在用户计算机上执行、部分在用户计算机上执行、作为独立软件包执行、部分在用户计算机上部分在远程计算机上执行或者完全在远程计算机或服务器上执行。在后一种情况下,远程计算机可通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接至用户计算机,或者可连接至外部计算机(例如,使用互联网服务提供商通过互联网)。在一些实施例中,包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来使电子电路个性化来执行计算机可读程序指令,以便执行本发明的各方面。
下面将参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明。应当理解,流程图和/或框图的每个框以及流程图和/或框图中各框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可被提供给计算机或其他可编程数据处理装置的处理器以产生机器,使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现在流程图和/或框图的框或多个框中指定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置、和/或其他设备以特定方式工作,从而,其中存储有指令的计算机可读存储介质包括包含实现流程图和/或框图中的框或多个框中规定的功能/动作的方面的指令的制造品。
也可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上,使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤,以产生计算机实现的处理,使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图中的框或多个框中规定的功能/动作。
附图中的流程图和框图示出了根据本发明的不同实施例的系统、方法和计算机程序产品的可能实现方式的架构、功能和操作。对此,流程图或框图中的每个框可表示指令的模块、段或部分,其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些备选实现中,框中标注的功能可以不按照图中标注的顺序发生。例如,连续示出的两个框实际上可以作为一个步骤完成,同时、基本上同时、以部分或完全时间上重叠的方式执行,或者框有时可以以相反的顺序执行,这取决于所涉及的功能。也要注意的是,框图和/或流程图中的每个框、以及框图和/或流程图中的框的组合,可以用执行规定的功能或动作或执行专用硬件与计算机指令的组合的专用的基于硬件的系统来实现。

Claims (20)

1.一种方法,包括:
由一个或多个处理器识别数据源,所述数据源被配置为提供传感器数据并对所述传感器数据加时间戳为一个或多个时间序列的第一集合,所述传感器数据包括第一组被测变量的值;
由一个或多个处理器确定所述传感器数据的子集中的第二组的一个或多个被测变量的值指示异常,其中,所述传感器数据的子集由所述数据源中的给定数据源提供并覆盖时间窗口,所述给定数据源包括组件的集合;
由一个或多个处理器使用一种或多种相似度技术的集合确定作为所述异常的根本原因候选的第三组的一个或多个被测变量,所述一种或多种相似度技术用于在所述时间窗口中比较所述第二组被测变量和所述第三组被测变量的值,其中,所述第三组的被测变量由所述组件的集合提供;
对于所述相似度技术的集合中的每个相似度技术以及对于所述第二组中的每个被测变量,由一个或多个处理器向所述被测变量分配系数的集合,其中,所述系数的集合中的每个系数指示使用所述相似度技术的每个被测变量与所述第三组的被测变量的比较结果;
由一个或多个处理器使用所述系数的集合来确定是否能够将所述给定数据源的所述组件的集合的特定子集识别为所述异常的根本原因;以及
响应于确定能够将所述给定数据源的所述组件的集合的所述特定子集识别为所述异常的所述根本原因,由一个或多个处理器提供所述组件的所述特定子集作为所述异常的所述根本原因。
2.根据权利要求1所述的方法,进一步包括:
响应于确定不能将所述给定数据源的所述组件的集合的特定子集识别为所述异常的所述根本原因,由一个或多个处理器更新所述第三组被测变量;
对于所述相似度技术的集合中的每个相似度技术和对于所述第二组中的每个被测变量,由一个或多个处理器向所述被测变量分配更新的系数的集合,其中,所述更新的系数的集合中的每个系数指示使用所述相似度技术的每个被测变量与所述更新的第三组的被测变量的比较结果;以及
由一个或多个处理器使用所述更新的系数的集合来确定是否能够将所述给定数据源的所述组件的集合的所述特定子集识别为所述异常的所述根本原因。
3.根据权利要求2所述的方法,其中,更新所述第三组被测变量还包括从包括以下的组中选择的动作:
由一个或多个处理器从所述第三组中移除一个或多个被测变量;以及
由一个或多个处理器将一个或多个被测变量添加到所述第三组。
4.根据权利要求3所述的方法,其中,由所述组件的集合中的选择的组件提供所移除的或所添加的被测变量,所述方法进一步包括:
由一个或多个处理器针对下一次迭代从所述组件的集合中排除所选择的组件。
5.根据权利要求4所述的方法,进一步包括:
由一个或多个处理器根据所述组件的集合的预定义属性并且以单调排序顺序对所述组件的集合进行排名,其中,所选择的组件是排名第一的组件。
6.根据权利要求5所述的方法,其中,所述属性是过载程度。
7.根据权利要求1所述的方法,其中,所述组件的所述特定子集是所述组件的集合中的单个组件。
8.根据权利要求1所述的方法,其中,确定是否能够将所述给定数据源的所述组件的集合的特定子集识别为所述异常的根本原因进一步包括:
对于所述第二组中的每个被测变量和对于所述第三组中的每个被测变量,由一个或多个处理器组合相应的系数的集合,得到组合的系数;以及
使用所述组合的系数确定是否能够将所述给定数据源的所述组件的集合的所述特定子集识别为所述异常的所述根本原因。
9.根据权利要求8所述的方法,其中,组合所述系数的组合包括对所述系数的集合求和。
10.根据权利要求1所述的方法,进一步包括:
在比较所述时间窗口中的所述第二组被测变量和所述第三组被测变量的值之前,由一个或多个处理器在所述时间窗口中归一化所述第二组的被测变量和所述第三组被测变量的值。
11.根据权利要求1所述的方法,其中,所述相似度技术的集合包括曼哈顿距离、欧几里得距离、动态时间规整(DTW)距离、斯皮尔曼和皮尔森度量。
12.根据权利要求1所述的方法,其中,确定所述传感器数据的子集中的第二组的一个或多个所述被测变量的值指示异常进一步包括:
由一个或多个处理器从所述数据源接收事件票,所述事件票指示所述异常。
13.根据权利要求1所述的方法,其中,响应于接收事件票来确定所述传感器数据的子集中的第二组的一个或多个所述被测变量的值指示异常启动。
14.根据权利要求1所述的方法,其中,所述第二组的被测变量包括从包括以下的组中选择的被测变量:(i)所述第一组被测变量中的被测变量和(ii)所述第一组的被测变量的组合。
15.根据权利要求1所述的方法,其中,所述时间序列的第一集合中的每个时间序列包括相应的被测变量的值。
16.一种计算机系统,包括:
一个或多个计算机处理器;
一个或多个计算机可读存储介质;以及
存储在所述计算机可读存储介质上以供所述一个或多个处理器中的至少一者执行的程序指令,所述程序指令包括:
识别数据源的程序指令,所述数据源被配置为提供传感器数据以及对所述传感器数据加时间戳为一个或多个时间序列的第一集合,所述传感器数据包括第一组被测变量的值;
用于确定所述传感器数据的子集中的第二组的一个或多个被测变量的值指示异常的程序指令,其中,所述传感器数据的子集由所述数据源中的给定数据源提供并覆盖时间窗口,所述给定数据源包括组件的集合;
使用一种或多种相似度技术的集合确定作为所述异常的根本原因候选的第三组的一个或多个被测变量的程序指令,所述一种或多种相似度技术用于在所述时间窗口中比较所述第二组被测变量和所述第三组被测变量的值,其中,所述第三组的被测变量由所述组件的集合提供;
对于所述相似度技术的集合中的每个相似度技术和对于所述第二组中的每个被测变量向所述被测变量分配系数的集合的程序指令,其中,所述系数的集合中的每个系数指示使用所述相似度技术的每个被测变量与所述第三组的被测变量的比较结果;
使用所述系数的集合来确定是否能够将所述给定数据源的所述组件的集合的特定子集识别为所述异常的根本原因的程序指令;以及
响应于确定能够将所述给定数据源的所述组件的集合的所述特定子集识别为所述异常的所述根本原因,提供所述组件的所述特定子集作为所述异常的所述根本原因的程序指令。
17.根据权利要求16所述的计算机系统,进一步包括存储在所述计算机可读存储介质上的由所述一个或多个处理器中的至少一个处理器执行的程序指令,其用于:
响应于确定不能将所述给定数据源的所述组件的集合的特定子集识别为所述异常的所述根本原因,更新第三组被测变量;
对于所述相似度技术的集合中的每个相似度技术和对于所述第二组中的每个被测变量,向所述被测变量分配更新的系数的集合,其中,所述更新的系数的集合中的每个系数指示使用所述相似度技术的每个被测变量与所述更新的第三组的被测变量的比较结果;以及
使用所述更新的系数的集合来确定是否能够将所述给定数据源的所述组件的集合的所述特定子集识别为所述异常的所述根本原因。
18.根据权利要求16所述的计算机系统,其中,所述组件的所述特定子集是所述组件的集合中的单个组件。
19.一种计算机程序产品,包括:
一个或多个计算机可读存储介质和存储在所述一个或多个计算机可读存储介质上的程序指令,所述程序指令包括:
用于识别数据源的程序指令,所述数据源被配置为提供传感器数据以及对所述传感器数据的时间戳为一个或多个时间序列的第一集合,所述传感器数据包括第一组被测变量的值;
用于确定所述传感器数据的子集中的第二组的一个或多个被测变量的值指示异常的程序指令,其中,所述传感器数据的子集由所述数据源中的给定数据源提供并覆盖时间窗口,所述给定数据源包括组件的集合;
使用一种或多种相似度技术的集合确定作为所述异常的根本原因候选的第三组的一个或多个被测变量的程序指令,所述一种或多种相似度技术用于在所述时间窗口中比较所述第二组被测变量和所述第三组被测变量的值,其中,所述第三组的被测变量由所述组件的集合提供;
对于所述相似度技术的集合中的每个相似度技术和对于所述第二组中的每个被测变量,向所述被测变量分配系数集合的程序指令,其中,所述系数的集合中的每个系数指示使用所述相似度技术的每个被测变量与所述第三组的被测变量的比较结果;
使用所述系数的集合来确定是否能够将所述给定数据源的所述组件的集合的特定子集识别为所述异常的根本原因的程序指令;以及
响应于确定能够将所述给定数据源的所述组件的集合的所述特定子集识别为所述异常的所述根本原因,提供所述组件的所述特定子集作为所述异常的所述根本原因的程序指令。
20.根据权利要求19所述的计算机程序产品,进一步包括存储在所述一个或多个计算机可读存储介质上的程序指令,用于:
响应于确定不能将所述给定数据源的所述组件的集合的特定子集识别为所述异常的所述根本原因,更新第三组被测变量;
对于所述相似度技术的集合中的每个相似度技术和对于所述第二组中的每个被测变量,向所述被测变量分配更新的系数的集合,其中,所述更新的系数的集合中的每个系数指示使用所述相似度技术的每个被测变量与所述更新的第三组的被测变量的比较结果;以及
使用所述更新的系数的集合来确定是否能够将所述给定数据源的所述组件的集合的所述特定子集识别为所述异常的所述根本原因。
CN202180033392.XA 2020-05-05 2021-04-25 性能事件故障排除系统 Pending CN115552380A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/867,292 2020-05-05
US16/867,292 US11243833B2 (en) 2020-05-05 2020-05-05 Performance event troubleshooting system
PCT/IB2021/053396 WO2021224713A1 (en) 2020-05-05 2021-04-25 Performance event troubleshooting system

Publications (1)

Publication Number Publication Date
CN115552380A true CN115552380A (zh) 2022-12-30

Family

ID=78412674

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180033392.XA Pending CN115552380A (zh) 2020-05-05 2021-04-25 性能事件故障排除系统

Country Status (8)

Country Link
US (1) US11243833B2 (zh)
JP (1) JP2023524225A (zh)
KR (1) KR20220154803A (zh)
CN (1) CN115552380A (zh)
AU (1) AU2021269196B2 (zh)
DE (1) DE112021001418T5 (zh)
GB (1) GB2610744A (zh)
WO (1) WO2021224713A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11630624B1 (en) 2022-03-14 2023-04-18 Ricoh Company, Ltd. Concurrent event detection for distributed rasterization processing in a printing environment

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7369932B2 (en) * 2006-05-04 2008-05-06 Honeywell International, Inc. System and method for turbine engine fault detection using discrete event system modeling
US8583584B2 (en) 2009-10-20 2013-11-12 Google Inc. Method and system for using web analytics data for detecting anomalies
US9122602B1 (en) * 2011-08-31 2015-09-01 Amazon Technologies, Inc. Root cause detection service
KR101560274B1 (ko) 2013-05-31 2015-10-14 삼성에스디에스 주식회사 데이터 분석 장치 및 방법
US9558056B2 (en) 2013-07-28 2017-01-31 OpsClarity Inc. Organizing network performance metrics into historical anomaly dependency data
US20150294249A1 (en) 2014-04-11 2015-10-15 International Business Machines Corporation Risk prediction for service contracts vased on co-occurence clusters
US11334831B2 (en) 2014-05-21 2022-05-17 X-Act Science, Inc. Predictive risk assessment in system modeling
US10303539B2 (en) 2015-02-23 2019-05-28 International Business Machines Corporation Automatic troubleshooting from computer system monitoring data based on analyzing sequences of changes
US9882806B2 (en) 2015-06-03 2018-01-30 Cisco Technology, Inc. Network description mechanisms for anonymity between systems
US9961571B2 (en) 2015-09-24 2018-05-01 Futurewei Technologies, Inc. System and method for a multi view learning approach to anomaly detection and root cause analysis
US10102054B2 (en) 2015-10-27 2018-10-16 Time Warner Cable Enterprises Llc Anomaly detection, alerting, and failure correction in a network
US10009363B2 (en) 2016-06-09 2018-06-26 Adobe Systems Incorporated Selecting representative metrics datasets for efficient detection of anomalous data
US20180129970A1 (en) 2016-11-10 2018-05-10 Justin E. Gottschlich Forward-looking machine learning for decision systems
US10379933B2 (en) 2017-02-15 2019-08-13 Sap Se Sensor data anomaly detection
US11277420B2 (en) 2017-02-24 2022-03-15 Ciena Corporation Systems and methods to detect abnormal behavior in networks
DE102017222616A1 (de) 2017-12-13 2019-06-13 Robert Bosch Gmbh Verfahren zum automatisierten Erstellen von Regeln für eine regelbasierte Anomalieerkennung in einem Datenstrom
US11221897B2 (en) * 2019-09-11 2022-01-11 International Business Machines Corporation Managing device maintenance via artificial intelligence

Also Published As

Publication number Publication date
US11243833B2 (en) 2022-02-08
AU2021269196A1 (en) 2022-09-22
GB202218058D0 (en) 2023-01-18
AU2021269196B2 (en) 2023-12-07
GB2610744A (en) 2023-03-15
DE112021001418T5 (de) 2022-12-29
US20210349773A1 (en) 2021-11-11
WO2021224713A1 (en) 2021-11-11
JP2023524225A (ja) 2023-06-09
KR20220154803A (ko) 2022-11-22

Similar Documents

Publication Publication Date Title
US10740692B2 (en) Machine-learning and deep-learning techniques for predictive ticketing in information technology systems
De Santo et al. Deep Learning for HDD health assessment: An application based on LSTM
Bodik et al. Fingerprinting the datacenter: automated classification of performance crises
EP3131234B1 (en) Core network analytics system
CN105677538B (zh) 一种基于故障预测的云计算系统自适应监测方法
US10210189B2 (en) Root cause analysis of performance problems
US10599506B2 (en) Methods and systems for identifying action for responding to anomaly in cloud computing system
US11675799B2 (en) Anomaly detection system
EP3637351A1 (en) System and method for predicting and reducing subscriber churn
JP5454363B2 (ja) 解析プログラム、解析装置および解析方法
CN102713861A (zh) 操作管理装置、操作管理方法以及程序存储介质
US11416325B2 (en) Machine-learning and deep-learning techniques for predictive ticketing in information technology systems
US11620474B2 (en) Model reselection for accommodating unsatisfactory training data
US9860109B2 (en) Automatic alert generation
JP2016517550A (ja) ブロードバンドネットワークのチャーン予測
CN111061581B (zh) 一种故障检测方法、装置及设备
US11392821B2 (en) Detecting behavior patterns utilizing machine learning model trained with multi-modal time series analysis of diagnostic data
JP2012186667A (ja) ネットワーク障害検出装置、ネットワーク障害検出装置のネットワーク障害検出方法およびネットワーク障害検出プログラム
US10534762B2 (en) Data sampling in a storage system
AU2021269196B2 (en) Performance event troubleshooting system
WO2021262344A1 (en) Method and apparatus to detect scripted network traffic
Zeydan et al. Cloud 2 HDD: large-scale HDD data analysis on cloud for cloud datacenters
CN117170915A (zh) 数据中心设备故障预测方法、装置和计算机设备
US20210191726A1 (en) Methods and apparatus for continuous monitoring of telemetry in the field
JP2020135739A (ja) 障害予兆検知システム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination