CN111552583A - 将潜在问题定位到对象 - Google Patents

将潜在问题定位到对象 Download PDF

Info

Publication number
CN111552583A
CN111552583A CN202010082071.6A CN202010082071A CN111552583A CN 111552583 A CN111552583 A CN 111552583A CN 202010082071 A CN202010082071 A CN 202010082071A CN 111552583 A CN111552583 A CN 111552583A
Authority
CN
China
Prior art keywords
objects
potential problem
subset
localize
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010082071.6A
Other languages
English (en)
Other versions
CN111552583B (zh
Inventor
D·N·亚当森
A·萨马拉
R·M·库克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hewlett Packard Development Co LP
Original Assignee
Hewlett Packard Development Co LP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hewlett Packard Development Co LP filed Critical Hewlett Packard Development Co LP
Publication of CN111552583A publication Critical patent/CN111552583A/zh
Application granted granted Critical
Publication of CN111552583B publication Critical patent/CN111552583B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/076Error or fault detection not based on redundancy by exceeding limits by exceeding a count or rate limit, e.g. word- or bit count limit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0772Means for error signaling, e.g. using interrupts, exception flags, dedicated error registers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

在一些示例中,一种系统基于比较在计算环境的不同分级层获取的测量数据来识别潜在问题。在所述不同分级层中的分级层内,所述系统基于针对该分级层中的对象获取的测量数据来确定是否将所述潜在问题定位到所述对象的子集。

Description

将潜在问题定位到对象
背景技术
计算环境包括传感器或监测代理,以收集关于计算环境内的对象的信息。“计算环境”可以指包括能够执行各种任务(包括处理任务、存储任务和/或通信任务)的对象的任何布置。
附图说明
参照以下附图描述了本公开的一些实施方式。
图1是根据一些示例的计算环境和问题定位引擎的框图。
图2是根据一些示例的过程的流程图。
图3是根据一些示例的存储有机器可读指令的存储介质的框图。
图4是根据一些示例的系统的框图。
图5是根据进一步示例的过程的流程图。
在附图中,相同的附图标记指代相似但不一定相同的要素。附图不一定是成比例绘制的,一些零件的尺寸可能被放大以更清楚地图示所示出的示例。此外,附图提供了与描述一致的示例和/或实施方式;然而,描述不限于附图中提供的示例和/或实施方式。
具体实施方式
在本公开中,除非上下文另外明确指示,否则使用术语“一个/一种(a/an)”或“所述(the)”旨在同样包括复数形式。同样地,当在本公开中使用时,术语“包括/包含(includes/including/comprises/comprising)”、“具有(have/having)”指明存在所述要素,但不排除存在或添加其他要素。
计算环境的示例包括以下各项中的任一项或某种组合:云环境、数据中心、存储网络、通信结构等。
计算环境可以包括虚拟化环境,该虚拟化环境包括各种对象,所述对象包括主机(物理机)、可以在主机中执行的虚拟机(VM)、存储系统(存储系统可以包括单个存储设备或者可以包括包含多个存储设备的存储阵列)、和/或其他对象。“对象”可以指计算环境的任何物理电子设备(例如,计算机、交换机、路由器、存储系统等)、虚拟设备(例如,虚拟机、容器、虚拟存储卷等)、程序(包括机器可读指令)等。
为了识别计算环境内的问题,系统对于由传感器或监测代理收集的信息进行分析。所识别的问题可以包括计算环境内的故障、失效、错误等。一旦识别到问题,系统就可以生成解决该问题的建议。所生成的建议可以指定要采取的补救措施以解决该问题。
补救措施可以包括要由计算环境中的现有部件执行的补救措施,和/或要由可能尚未在计算环境中部署的部件执行的补救措施。作为示例,所建议的措施可以包括与虚拟化环境的配置有关的措施,如VM的配置。作为进一步的示例,所建议的措施可以包括与主机和/或存储系统的配置有关的措施。与对象的配置有关的措施可以指设置或调整对象的配置。例如,如果对象是VM,则VM的配置可以包括分配给VM的物理资源(例如,处理资源、存储资源或通信资源)的量。可以设置或调整其他类型的对象的其他示例配置。
另外,补救措施可以包括禁用或停止计算环境内的对象的措施、启动计算环境内的对象的措施、调整对象的操作速度的措施等。
计算环境可以包括大量对象。因此,可能存在针对大量对象收集的大量测量数据,这使得对测量数据的分析具有挑战性。“测量数据”可以指由传感器或监测代理针对一个对象或一组对象或计算环境的任何其他部分收集的任何信息。与分析测量数据相关联的挑战可能包括识别模式(用于识别问题)并将潜在问题定位到计算环境的特定对象。如本文所使用的,将问题定位到对象可以指作出以下评估:该问题是由该对象(单独地或作为对象集合的一部分)引起的。
可以从计算环境收集的测量数据的示例可以包括等待时间指标,该等待时间指标可以由传感器或监测代理针对VM、主机(即,物理机)、存储系统、程序和任何其他对象来报告。等待时间指标提供与对象相关联的等待时间的指示,如执行给定任务(例如,处理任务、存储任务和/或通信任务)的持续时间。在其他示例中,测量数据可以包括表示各个对象的性能水平的性能指标,如对象在单位时间内执行的操作的数量、对象在单位时间内执行的输入/输出(I/O)操作的数量、在对象操作期间用于缓冲数据的队列的深度等。在其他示例中,可以包括其他类型的指标作为针对计算环境收集的测量数据的一部分。
图1是根据一些示例的包括在分级结构102的不同分级层处的各种对象的计算环境100的框图。分级结构102包括以下分级层:包括程序106的程序层104、包括VM 110(和/或诸如容器、虚拟存储卷等的其他虚拟资源)的虚拟层108、包括主机114(和/或诸如处理器、网络接口控制器、图形控制器、存储器控制器等的其他物理资源)的物理层112、以及包括存储系统118(和/或诸如存储器、高速缓存等的其他存储资源)的存储层116。
尽管在图1中示出了特定的示例分级层,但是可以在其他分级结构中提供不同的分级层。
注意,尽管图1示出了不同的分级层104、108、112和116处于不同的层,但是应当注意,分级层可以被包含或以其他方式与另一分级层重叠。因此,例如,可以在物理层112的主机内执行虚拟层108的VM。作为另一个示例,虚拟层108的VM可以具有存储层116的存储系统的磁盘。
程序106可以指以下各项的任一项或某种组合:引导程序、操作系统、应用程序、实用程序等。存储系统118可以包括一个或多个存储设备。可以使用基于磁盘的存储设备、固态存储设备、存储器设备等来实现存储设备。主机124可以是物理机的形式,如计算机、计算机的集合、计算机的一部分等。
计算环境100进一步包括传感器120和/或监测代理122,以测量与分级结构102的各个分级层中的各个对象的操作有关的数据。计算环境100还可以包括监测代理122。传感器120可以指可以物理地测量指标的硬件传感器。监测代理122可以指可以监测相应对象的操作并基于所监测的操作得到指标的机器可读指令。
传感器120和/或监测代理122可以将测量数据124提供给问题定位引擎126。测量数据124可以包括各种指标,所述指标包括等待时间指标、性能指标等。
如本文所使用的,“引擎”可以指硬件处理电路,其可以包括微处理器、多核微处理器的核、微控制器、可编程集成电路、可编程门阵列、数字信号处理器或其他硬件处理电路中的任一项或某种组合。可替代地,“引擎”可以指硬件处理电路和可在硬件处理电路上执行的机器可读指令(软件和/或固件)的组合。
计算环境的各种对象(包括程序106、VM 110、主机124和存储系统118)彼此之间可以具有关系。例如,可以在主机114中执行VM 110(或多个VM 110)。可以在VM 110或主机114中执行程序106(或多个程序106)。存储系统118可以是主机114的一部分,或者可以由主机114(或多个主机114)或VM 110(或多个VM)访问。分级结构102的不同分级层中的对象之间的其他关系也是可能的。更一般地,对象之间的关系可以包括包含关系(其中,第一对象包含在第二对象内)、链接关系(其中,第一对象物理地或逻辑上链接到第二对象)或任何其他类型的关系。
问题定位引擎126包括竖直评估逻辑128和水平评估逻辑130。竖直评估逻辑128和水平评估逻辑130可以被实施为问题定位引擎126的硬件处理电路的(多个)部分,或者可以被实施为可由问题定位引擎126执行的机器可读指令。
竖直评估逻辑128用于评估针对分级结构102的不同分级层中的对象获取的测量数据。由竖直评估逻辑128执行的评估可以包括基于针对不同分级层的对象获取的测量数据来确定计算环境100的潜在问题。竖直评估逻辑128可以比较针对分级结构102的不同分级层获取的各测量数据(例如,通过比较针对程序层104获取的测量数据、针对虚拟层108获取的测量数据、针对物理层112获取的测量数据、以及针对存储层116获取的测量数据)。
作为更具体的示例,测量数据可以包括与不同分级层相关联的等待时间指标的值。例如,可以存在用于存储层116的等待时间指标(例如称为“存储等待时间”)、用于物理层112的等待时间指标(例如称为“主机等待时间”)、用于虚拟层108的等待时间指标(例如称为“VM等待时间”)、用于程序层104的等待时间指标(例如称为“程序等待时间”)、或任何其他类型的等待时间指标(例如网络等待时间指标、作为多个等待时间指标的总和的总等待时间指标等)。
对应分级层的等待时间指标可以表示该分级层的对象所经历的等待时间。因此,竖直评估逻辑128可以确定物理层和存储层正在经历彼此相当的等待时间(即,物理层所经历的等待时间在存储层所经历的等待时间的指定范围内),而虚拟层108和程序层104可能正在经历少量的等待时间。基于此确定,竖直评估逻辑128可以得出结论:等待时间问题可能和物理层112的主机124与存储层116的存储系统118之间的通信网络相关联。该示例中的潜在问题是网络延迟问题。
在某些情况下,针对第一分级层而报告的指标值的值可能与针对第二分级层而报告的指标值不一致。这可能是由于传感器120和/或监测代理122所报告的指标测量结果的不一致引起的。例如,传感器120和/或监测代理122可能正在经历可能阻止传感器120和/或监测代理122正确报告测量数据的故障或错误。可替代地,计算环境100中的噪声可能使传感器120和/或监测代理122报告不可靠的测量数据。例如,该噪声可能是由于计算环境100中的对象故障引起的。
不准确的测量数据可能错误地指示虚拟层108所经历的等待时间和物理层112所经历的等待时间彼此比较接近,而实际上虚拟层108并没有经历指示虚拟层存在潜在问题的任何显著等待时间。
来自传感器120和/或监测代理122的不准确的测量数据可能使得对潜在问题的诊断变得困难或不准确。
根据本公开的一些实施方式,水平测量逻辑130能够增大将指标归因于分级结构102的不同分级层的不同对象的置信度。例如,如果竖直评估逻辑128确定特定分级层的对象是潜在问题的原因,则水平评估逻辑130可以执行是否可以将潜在问题定位到该特定分级层内的对象的子集的评估。对象的子集可以包括单个对象或多个对象(例如,少于特定分级层中的所有对象)。将潜在问题定位到对象的子集可以指评估潜在问题是由对象的子集引起的。
在一些示例中,对是否将潜在问题定位到对象的特定子集的评估包括基于针对分级层内的相同或相似类型的对象收集的测量数据进行的评估。例如,如果给定的分级层包括若干不同类型的对象,则由水平评估逻辑130执行的评估基于给定分级层内相同或相似类型的对象的测量数据。例如,虚拟层108可以包括以下不同类型的虚拟资源:VM(第一类虚拟资源)、虚拟存储卷(第二类虚拟资源)等。将潜在问题定位到虚拟层108中的对象的子集可以基于针对第一类型的对象(例如,VM)和/或针对第二类型的对象(例如,虚拟存储卷)收集的测量数据。
由水平评估逻辑130执行的评估也可以称为水平比较,其试图将潜在问题定位到对象的特定子集,诸如主机、存储系统、数据存储装置、VM、程序等。由水平评估逻辑130进行的水平比较用于验证由竖直评估逻辑128提供的“信号”,其中,“信号”可以指由竖直评估逻辑128输出的评估结果。来自竖直评估逻辑128的评估结果可以包括特定分级层(或多个分级层)是潜在问题的潜在原因的指示。
作为示例,与水平评估逻辑130无法将等待时间问题定位到主机124的任何子集的另一种情况相比,如果水平评估逻辑130确定将潜在的等待时间问题定位到物理层112的(一个或多个)特定主机124,则这将在物理层112的主机124正在引起等待时间问题的评估中提供更大的置信度。
基于使用计算分级层内的各对象的定位分数的技术来执行水平比较。在某些示例中,等式1可以用于计算分级层内的给定对象的定位分数Lscore。
Lscore=p(ScopeMetric)n·(p(ProblemMetric|ScopeMetric)-p(ProblemMetric))。
(等式1)
等式1输出基于针对分级层的对象收集的指标值的定位分数Lscore。定位分数提供所识别潜在问题对分级层中的对象的特定子集的重要性的指示。如果定位分数Lscore满足准则(例如,定位分数Lscore超过指定的阈值),则该定位分数提供足以将潜在问题定位到分级层中的对象的特定子集的指示。
在等式1中,n的值大于0且小于1。而且,函数p()表示概率。参数ScopeMetric表示指标值要满足的指示存在潜在问题的条件(例如,ScopeMetric是阈值)。参数ProblemMetric表示有问题的指标值。概率p(ScopeMetric)表示整个计算环境100(或计算环境100的一部分)中的对象的指标值将满足条件的概率。概率p(ProblemMetric)表示有问题的指标值的概率。概率p(ProblemMetric|ScopeMetric)表示给定了总体计算环境100(或一部分)中的对象的指标值的情况下有问题的指标值将满足条件的概率。作为示例,如果对于计算环境(或一部分)中的VM,p(ProblemMetric)总体上较低,但p(ProblemMetric|ScopeMetric)(在该示例中,其可以表示给定了VM处于特定主机上的情况下VM处于问题状态的概率)较高,则将指示以下内容:预测VM处于该特定主机上时具有潜在问题,并且因此应当对该主机进行进一步调查(以确定起因或相关性)。
更一般而言,定位的确定基于p(ProblemMetric)与p(ProblemMetric|ScopeMetric)的相对值。这些值之间的差越大,(由ScopeMetric表示的)条件对于确定潜在问题的程度就越重要。
等式1产生基于规则通用性(或子组p(ScopeMetric)的相对大小)与分布异常性或相对准确性(规则准确性p(ProblemMetric|ScopeMetric)与默认准确性p(ScopeMetric)之间的差)之间的权衡的定位分数。
定位分数基于从环境中收集的指标数据,并提供了所识别的潜在问题对于对象的特定子集的重要性的指示。
注意,分级层内的多个对象(或对象的多个子集)可以具有均满足准则的各自的定位分数Lscore(例如,对象的多个子集的定位分数Lscore均超过指定的阈值)。在这种情况下,对象的多个子集的定位分数Lscore可以用于对于对象的多个子集进行排名。例如,对象的具有较高定位分数Lscore的子集可以被排名为高于对象的具有较低定位分数Lscore的另一子集。
问题定位引擎126产生被输出到解决引擎134的评估结果132。在问题定位引擎126确定将潜在问题定位到对象的一个子集的示例中,评估结果132可以包括标识对象的该子集的信息。在问题定位引擎126确定将潜在问题定位到对象的多个子集的示例中,评估结果132可以包括对于对象的多个子集进行排名的排名信息,其中,排名例如基于定位分数。
解决引擎134可以响应于评估结果132而触发自动补救措施来解决潜在问题。补救措施的示例在上面有进一步提供。
在其他示例中,解决引擎132还可以将信息提供给用户设备136(诸如与管理员相关联的用户设备)。用户设备136可以包括台式计算机、笔记本计算机、平板计算机、智能电话等。提供给用户设备136的信息可以标识潜在问题、以及已经由问题定位引擎126将该潜在问题定位到的在分级层(或多个分级层)内的(一个或多个)对象。可以在用户设备136的用户界面中呈现该信息,以允许用户响应于潜在问题来执行措施。
图2是例如可以由图1所示的各种实体执行的过程的流程图。问题定位引擎126接收(在202处)计算环境100的各不同分级层的指标值。测量数据由传感器120和/或监测代理122提供。
竖直评估逻辑128比较(在204处)不同分级层的指标值。例如,竖直评估逻辑128将程序层104的指标值与虚拟层108的指标值进行比较、将虚拟层108的指标值与物理层112的指标值进行比较、将物理层112的指标值与存储层116的指标值进行比较等。基于这些比较,竖直评估逻辑128可以确定潜在问题是否与给定的分级层(一个或多个给定的分级层)相关联。
在由竖直评估逻辑128识别为与潜在问题相关联的每个给定分级层内,水平评估逻辑130执行(在206处)水平比较以评估是否可以将潜在问题定位到该给定分级层内的对象的子集。如上文进一步讨论的,水平评估逻辑130计算该给定分级层内的对象的各子集的定位分数(例如,根据等式1)。由水平评估逻辑130执行的水平比较可以包括将对象的子集的定位分数与指定阈值进行比较。作为示例,如果定位分数超过指定的阈值,则将潜在问题定位到对象的对应子集。
有可能对象的多个子集的定位分数都超过阈值,在这种情况下,将潜在问题定位到多个对象。
潜在问题的重要性基于指标值类型与受重视的分级层对象类型之间的定位。例如,如果与主机相关的指标定位到与主机相关的对象,那么这将指示对应的问题将更为重要。这可以基于指定规则(或多个规则)的应用。更一般地,确定将潜在问题定位到对象的子集包括确定对象的子集的测量数据的类型与对象的子集中的对象的对象类型相匹配。例如,基于由管理员、程序或机器设置的预定义,认为测量数据的类型与对象类型“匹配”。
在水平评估逻辑130执行的水平比较之后,问题定位引擎126向解决引擎134提供(在208处)评估结果132。评估结果132可以将对象的一个子集标识为定位到潜在问题,或者可以将对象的多个子集标识为定位到潜在问题。在后一种情况下,评估结果132可以包括诸如基于对象的多个子集的定位分数,对于对象的多个子集进行排名。
解决引擎134触发(在210处)补救措施以解决潜在问题。如果评估结果132包括将潜在问题定位到对象的子集(或多个子集)的信息,则该评估结果向解决引擎134提供由竖直评估逻辑128所作出的潜在问题与给定分级层相关联的评估是准确的、具有高置信度的指示。在这种情况下,解决引擎134可以触发要采取的补救措施。
而且,响应于确定将潜在问题定位到对象的子集,补救引擎134可以将对象的子集标识为潜在问题的原因。在存在潜在问题被定位到的对象的多个子集的情况下,补救引擎134可以使用对象的多个子集的排名来将排名最高的对象子集标识为潜在问题的原因。
如果评估结果132没有指示将潜在问题定位到对象的任何子集,则补救引擎134指示潜在问题的原因并非特定于对象的任何子集。而且,这可能指示由竖直评估逻辑128作出的潜在问题与给定分级层相关联的评估具有低置信度。
图3是存储有机器可读指令的非暂态机器可读或计算机可读存储介质300的框图,所述机器可读指令在执行时使系统执行各种任务。机器可读指令包括潜在问题识别指令302,用于基于比较在计算环境的不同分级层获取的测量数据来识别潜在问题。例如,潜在问题识别指令302可以是图1的竖直评估逻辑128的一部分。
机器可读指令进一步包括问题定位指令304,用于在不同分级层中的分级层内,基于针对该分级层中的对象获取的测量数据来确定是否将潜在问题定位到对象的子集。问题定位指令304例如可以是图1的水平评估逻辑130的一部分。
图4是根据一些示例的系统400的框图。可以使用一个或多个计算机来实施系统400。
系统400包括硬件处理器402(一个或多个硬件处理器)。硬件处理器可以包括微处理器、多核微处理器的核、微控制器、可编程集成电路、可编程门阵列、数字信号处理器、或另一硬件处理电路。
系统400包括存储介质404,该存储介质存储可在硬件处理器402上执行以执行各种任务的机器可读指令。可在硬件处理器上执行的机器可读指令可以指可在单个硬件处理器上执行的指令或可在多个硬件处理器上执行的指令。
机器可读指令包括潜在问题识别指令406,用于基于比较在计算环境的不同分级层获取的测量数据来识别潜在问题。例如,潜在问题识别指令406可以是图1的竖直评估逻辑128的一部分。
机器可读指令进一步包括定位分数计算指令408,用于计算不同分级层中的分级层内的对象的定位分数,所述定位分数是基于针对该分级层中的对象获取的测量数据计算的,并且所述定位分数指示该分级层内的对象与潜在问题之间的相关程度。
机器可读指令进一步包括问题定位指令410,用于基于定位分数来确定是否将潜在问题定位到对象的子集。例如,定位分数计算指令408和问题定位指令410可以是图1的水平评估逻辑130的一部分。
图5是根据一些示例的过程的流程图。图5的过程包括接收(在502处)在计算环境的不同分级层获取的、针对对象收集的指标。指标可以由图1的传感器120和/或监测代理122收集。
所述过程进一步包括基于比较在计算环境的不同分级层获取的指标的值来识别(在504处)潜在问题。所述识别可以例如由图1的竖直评估逻辑128执行。
所述过程进一步包括针对不同分级层中的分级层,基于针对该分级层中的对象获取的指标的值来确定(在506处)是否将潜在问题定位到对象的子集。
存储介质(例如,图3中的300或图4中的404)可以包括以下各项的任一或某种组合:半导体存储器设备,诸如动态或静态随机存取存储器(DRAM或SRAM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)和闪速存储器;磁盘,诸如固定的软盘和可移动盘;其他磁介质,包括磁带;光学介质,诸如光盘(CD)或数字视频盘(DVD);或其他类型的存储设备。注意,上文讨论的指令可以在一个计算机可读或机器可读存储介质上提供,或者可替代地,可以在分布在具有可能多个节点的大型系统中的多个计算机可读或机器可读存储介质上提供。这种一个或多个计算机可读或机器可读存储介质被认为是物品(或制品)的一部分。物品或制造的物品可以指任何制造的单个部件或多个部件。一个或多个存储介质可以位于运行机器可读指令的机器中、或者位于远程站点处,可以通过网络从所述远程站点下载机器可读指令以供执行。
在前述描述中,阐述了许多细节以使得理解本文中所公开的主题。然而,可以在没有这些细节中的一些细节的情况下实现这些实施方式。其他实施方式可以包括上文所讨论的细节的修改和变化。所附权利要求旨在覆盖这样的修改和变化。

Claims (20)

1.一种非暂态机器可读存储介质,包括指令,所述指令在执行时使系统进行以下操作:
基于比较在计算环境的不同分级层获取的测量数据,识别潜在问题;以及
在所述不同分级层中的分级层内,基于针对该分级层中的对象获取的测量数据,确定是否将所述潜在问题定位到所述对象的子集。
2.如权利要求1所述的非暂态机器可读存储介质,其中,所述不同分级层包括从程序层、虚拟机层、物理机层和存储层中选择的层。
3.如权利要求1所述的非暂态机器可读存储介质,其中,所述指令在执行时使所述系统进行以下操作:
响应于确定将所述潜在问题定位到所述对象的所述子集,将所述对象的所述子集标识为所述潜在问题的原因。
4.如权利要求1所述的非暂态机器可读存储介质,其中,所述指令在执行时使所述系统进行以下操作:
响应于确定未将所述潜在问题定位到所述对象中的任何对象,指示所述潜在问题的原因不特定于所述对象的任何子集。
5.如权利要求1所述的非暂态机器可读存储介质,其中,所述指令在执行时使所述系统进行以下操作:
计算所述对象的对应子集的各自的定位分数,
其中,基于所述各自的定位分数,确定是否将所述潜在问题定位到所述对象的所述子集。
6.如权利要求1所述的非暂态机器可读存储介质,其中,确定是否将所述潜在问题定位到所述对象的子集包括确定将所述潜在问题定位到所述对象的多个子集。
7.如权利要求6所述的非暂态机器可读存储介质,其中,所述指令在执行时使所述系统进行以下操作:
计算所述对象的所述多个子集的各自的定位分数;以及
根据所述各自的定位分数,对所述多个子集进行排名。
8.如权利要求7所述的非暂态机器可读存储介质,其中,确定将所述潜在问题定位到所述对象的所述多个子集包括确定所述对象的所述多个子集的定位分数均违反准则。
9.如权利要求8所述的非暂态机器可读存储介质,其中,所述指令在执行时使所述系统进行以下操作:
响应于所述对象的所述多个子集的排名,触发补救措施以解决所述潜在问题。
10.如权利要求1所述的非暂态机器可读存储介质,其中,确定将所述潜在问题定位到所述对象的所述子集包括确定所述对象的所述子集的测量数据的类型与所述对象的所述子集中的对象的对象类型相匹配。
11.一种系统,包括:
处理器;以及
存储有机器可读指令的非暂态存储介质,所述机器可读指令能够在所述处理器上执行以进行以下操作:
基于比较在计算环境的不同分级层获取的测量数据,识别潜在问题;
计算所述不同分级层中的分级层内的对象的定位分数,所述定位分数是基于针对该分级层中的对象获取的测量数据计算的,并且所述定位分数指示该分级层内的对象与所述潜在问题之间的相关程度;以及
基于所述定位分数,确定是否将所述潜在问题定位到所述对象的子集。
12.如权利要求12所述的系统,其中,确定是否将所述潜在问题定位到所述对象的子集包括确定将所述潜在问题定位到所述对象的多个子集。
13.如权利要求12所述的系统,其中,所述指令在执行时使所述系统进行以下操作:
根据所述多个子集的各自的定位分数,对所述多个子集进行排名。
14.如权利要求13所述的系统,其中,确定将所述潜在问题定位到所述对象的所述多个子集包括确定所述对象的所述多个子集的定位分数均违反准则。
15.如权利要求11所述的系统,其中,所述指令在执行时使所述系统进行以下操作:
响应于确定将所述潜在问题定位到所述对象的子集,触发补救措施以解决所述潜在问题。
16.如权利要求1所述的系统,其中,确定将所述潜在问题定位到所述对象的子集包括确定所述对象的所述子集的测量数据的类型与所述对象的所述子集中的对象的对象类型相匹配。
17.一种由包括硬件处理器的系统执行的方法,所述方法包括:
接收在计算环境的不同分级层获取的、针对对象收集的指标;
基于比较在所述计算环境的所述不同分级层获取的所述指标的值,识别潜在问题;以及
在所述不同分级层中的分级层内,基于针对该分级层中的对象获取的指标的值,确定是否将所述潜在问题定位到所述对象的子集。
18.如权利要求17所述的方法,其中,所述对象包括从程序、虚拟机、主机和存储系统中选择的对象。
19.如权利要求17所述的方法,进一步包括:
响应于确定将所述潜在问题定位到所述对象的子集,触发补救措施以解决所述潜在问题。
20.如权利要求17所述的方法,进一步包括:
计算所述对象的对应子集的各自的定位分数,
其中,基于所述各自的定位分数来确定是否将所述潜在问题定位到所述对象的子集。
CN202010082071.6A 2019-02-08 2020-02-07 用于将潜在问题定位到对象的系统、方法和介质 Active CN111552583B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/271,384 2019-02-08
US16/271,384 US11113132B2 (en) 2019-02-08 2019-02-08 Localization of potential issues to objects

Publications (2)

Publication Number Publication Date
CN111552583A true CN111552583A (zh) 2020-08-18
CN111552583B CN111552583B (zh) 2022-12-30

Family

ID=71945208

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010082071.6A Active CN111552583B (zh) 2019-02-08 2020-02-07 用于将潜在问题定位到对象的系统、方法和介质

Country Status (2)

Country Link
US (3) US11113132B2 (zh)
CN (1) CN111552583B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11436073B2 (en) * 2020-11-18 2022-09-06 Hewlett Packard Enterprise Development Lp Fault indications for storage system commands

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080016412A1 (en) * 2002-07-01 2008-01-17 Opnet Technologies, Inc. Performance metric collection and automated analysis
CN103309703A (zh) * 2012-03-13 2013-09-18 国际商业机器公司 用于在网络化计算环境中标识最佳升级方案的系统和方法
CN103428026A (zh) * 2012-05-14 2013-12-04 国际商业机器公司 用于共享动态云中的问题确定和诊断的方法和系统
US20150081881A1 (en) * 2013-09-17 2015-03-19 Stackdriver, Inc. System and method of monitoring and measuring cluster performance hosted by an iaas provider by means of outlier detection
US20160378615A1 (en) * 2015-06-29 2016-12-29 Ca, Inc. Tracking Health Status In Software Components
US20180357568A1 (en) * 2017-06-08 2018-12-13 International Business Machines Corporation Facilitating classification of equipment failure data

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7240364B1 (en) * 2000-05-20 2007-07-03 Ciena Corporation Network device identity authentication
US7130870B1 (en) * 2000-05-20 2006-10-31 Ciena Corporation Method for upgrading embedded configuration databases
US7054272B1 (en) * 2000-07-11 2006-05-30 Ciena Corporation Upper layer network device including a physical layer test port
US8321247B2 (en) 2003-04-29 2012-11-27 Hewlett-Packard Development Company, L.P. Business level metric for information technology
US8751867B2 (en) 2011-10-12 2014-06-10 Vmware, Inc. Method and apparatus for root cause and critical pattern prediction using virtual directed graphs
US8725741B2 (en) 2011-12-04 2014-05-13 Riverbed Technology, Inc. Assessing application performance with an operational index
US9298525B2 (en) 2012-12-04 2016-03-29 Accenture Global Services Limited Adaptive fault diagnosis
US20140214801A1 (en) * 2013-01-29 2014-07-31 Vito Anthony Ciliberti, III System and Method for Enterprise Asset Management and Failure Reporting
US9251221B1 (en) 2014-07-21 2016-02-02 Splunk Inc. Assigning scores to objects based on search query results
US9547971B2 (en) * 2014-12-27 2017-01-17 Intel Corporation Technologies for determining a threat assessment based on fear responses
WO2017011708A1 (en) 2015-07-14 2017-01-19 Sios Technology Corporation Apparatus and method of leveraging machine learning principals for root cause analysis and remediation in computer environments
US10917324B2 (en) * 2016-09-28 2021-02-09 Amazon Technologies, Inc. Network health data aggregation service

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080016412A1 (en) * 2002-07-01 2008-01-17 Opnet Technologies, Inc. Performance metric collection and automated analysis
CN103309703A (zh) * 2012-03-13 2013-09-18 国际商业机器公司 用于在网络化计算环境中标识最佳升级方案的系统和方法
CN103428026A (zh) * 2012-05-14 2013-12-04 国际商业机器公司 用于共享动态云中的问题确定和诊断的方法和系统
US20150081881A1 (en) * 2013-09-17 2015-03-19 Stackdriver, Inc. System and method of monitoring and measuring cluster performance hosted by an iaas provider by means of outlier detection
US20160378615A1 (en) * 2015-06-29 2016-12-29 Ca, Inc. Tracking Health Status In Software Components
US20180357568A1 (en) * 2017-06-08 2018-12-13 International Business Machines Corporation Facilitating classification of equipment failure data

Also Published As

Publication number Publication date
CN111552583B (zh) 2022-12-30
US11803433B2 (en) 2023-10-31
US20210397508A1 (en) 2021-12-23
US20210397506A1 (en) 2021-12-23
US20200257583A1 (en) 2020-08-13
US11113132B2 (en) 2021-09-07

Similar Documents

Publication Publication Date Title
US11119874B2 (en) Memory fault detection
Mahdisoltani et al. Proactive error prediction to improve storage system reliability
US11121853B2 (en) Techniques for preventing memory timing attacks
ES2734305T3 (es) Predicción, diagnóstico y recuperación de fallos de aplicaciones en base a patrones de acceso a recursos
US10291463B2 (en) Large-scale distributed correlation
US7395187B2 (en) System and method for recording behavior history for abnormality detection
US10069753B2 (en) Relationship-based resource-contention analysis system and method
US8527238B2 (en) Storage input/output utilization associated with a software application
CN115348159B (zh) 基于自编码器和服务依赖图的微服务故障定位方法及装置
AU2012202195A1 (en) Detecting and diagnosing misbehaving applications in virtualized computing systems
CN108509791A (zh) 检测处理器的方法、检测装置以及检测系统
CN111552583B (zh) 用于将潜在问题定位到对象的系统、方法和介质
US10191833B2 (en) Method to efficiently trigger concurrency bugs based on expected frequencies of execution interleavings
Chen et al. Design and Evaluation of an Online Anomaly Detector for Distributed Storage Systems.
CN111831389A (zh) 一种数据处理方法、装置以及存储介质
EP2915059B1 (en) Analyzing data with computer vision
DE102020102936B4 (de) Lokalisierung potenzieller probleme an objekte
US10481828B2 (en) Slow drive detection
CN113190869B (zh) 基于tee的强制访问控制安全增强框架性能评估方法及系统
KR20160061237A (ko) 전자 시스템의 결함 분석 방법
Jiang et al. Sync+ Sync: A Covert Channel Built on fsync with Storage
Ghanbari et al. Selftalk for dena: query language and runtime support for evaluating system behavior
CN115794553A (zh) 一种内存泄露检测方法、装置、设备及介质
Murray Classifying Virtual Machine Managers by Overhead
Kunkel Identifying Relevant Factors in the I/O-Path using Statistical Methods

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant