CN114253751A - 程序化性能异常检测 - Google Patents
程序化性能异常检测 Download PDFInfo
- Publication number
- CN114253751A CN114253751A CN202111120560.7A CN202111120560A CN114253751A CN 114253751 A CN114253751 A CN 114253751A CN 202111120560 A CN202111120560 A CN 202111120560A CN 114253751 A CN114253751 A CN 114253751A
- Authority
- CN
- China
- Prior art keywords
- computer
- data
- speed value
- anomaly detection
- delays
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3409—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/079—Root cause analysis, i.e. error or fault diagnosis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3409—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
- G06F11/3419—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment by assessing time
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/302—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3065—Monitoring arrangements determined by the means or processing involved in reporting the monitored data
- G06F11/3072—Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3089—Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/32—Monitoring with visual or acoustical indication of the functioning of the machine
- G06F11/324—Display of status information
- G06F11/327—Alarm or error message display
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3447—Performance evaluation by modeling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3452—Performance evaluation by statistical analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3466—Performance evaluation by tracing or monitoring
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3466—Performance evaluation by tracing or monitoring
- G06F11/3476—Data logging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0751—Error or fault detection not based on redundancy
- G06F11/0754—Error or fault detection not based on redundancy by exceeding limits
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2201/00—Indexing scheme relating to error detection, to error correction, and to monitoring
- G06F2201/805—Real-time
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Computer Hardware Design (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Debugging And Monitoring (AREA)
Abstract
提供一种用于性能异常检测的方法、系统和计算机程序产品。从工作负载管理器周期性地接收用于一个或多个地址空间的速度数据。为该一个或多个地址空间中的每个地址空间创建预期速度值。将预期速度值的因数与来自速度数据的当前速度值进行比较。基于当前速度值低于该因数,生成指示异常的补救动作。
Description
背景技术
本发明的实施例总体上涉及计算机系统,并且更具体地涉及性能异常检测。
程序化性能异常检测涉及系统行为的分析以确定指示正常行为的度量范围vs指示反常行为的范围。为了降低假阳性信息的可能性,异常行为的支持证据的采集有助于进一步缩小相关的问题症状。然而,这种证据的识别通常要求系统在异常模式下操作以收集有价值的数据。
发明内容
除了其它内容外,提供了一种用于性能异常检测的方法。从工作负载管理器周期性地接收用于一个或多个地址空间的速度数据。为该一个或多个地址空间中的每个地址空间创建预期速度值。将预期速度值的因数与来自速度数据的当前速度值进行比较。基于当前速度值低于该因数,生成指示异常的补救动作。
实施例进一步针对具有与上述计算机实现的方法基本相同的特征的计算机系统和计算机程序产品。
通过本文所描述的技术来实现附加特征和优点。在此详细描述了其他实施例和方面。为了更好地理解,请参考说明书和附图。
附图说明
在说明书结尾的权利要求书中特别指出并清楚地要求保护被视为本发明的主题。从以下结合附图的详细描述中,前述和其他特征和优点是清晰的,其中:
图1是根据本发明的实施例的示意性系统的功能框图;
图2描绘了根据本发明的实施例的预测性故障分析系统;
图3描绘了预测性故障分析系统的工作流程;以及
图4是根据本发明的实施例的用于实现本发明的各方面的计算设备的示意性功能框图。
具体实施方式
本公开总体上涉及程序化性能异常检测的领域。程序和系统异常检测分析正常的程序和系统行为,并发现由攻击、错误配置、程序错误和不寻常的使用模式引起的异常执行。
异常检测包括识别数据集中不同于规范的意外项目或事件。异常检测假定在数据中很少发生异常,并且异常的特征与正常实例显著不同。
IT操作工作人员使用的常见方法是假设一切都操作良好,直到出现性能问题。在当前实践中,使用若干个筒仓(silo)的管理工具,其监测系统行为并提供钻研机制(drill-down)以确定潜在的症状。问题确定的性质和复杂性可基于用户背景和体验而变化。例如,有经验的管理员可能知道执行一个工具而不是另一个工具,或者执行特定系列的命令,而经验较少的管理员可能不会。操作员命令可以用于寻找不寻常的行为。然而,在非常高速的计算环境中,将性能降级检测集成到过程中以自动发起对可能的潜在异常的进一步分析是有利的。
操作系统的工作负载管理器(WLM)组件当前使系统管理员能够在服务类中定义性能目标。服务类是在工作负载内的命名的工作组,该工作组具有性能目标、资源要求以及对企业的业务重要性的类似的性能特性。
这包括指示平均响应时间、百分位数内的响应时间、速度目标和随意工作负载的目标的度量。速度是在没有由于系统资源而被延迟的情况下当准备好时工作应该运行多快的测量。它被定义为用于随着时间处理工作负载的处理器活动的测量,连同为支持处理工作负载而引入的延迟。延迟包括与处理器、存储和I/O有关的操作系统处理,包括存储器分页、页交换、作业创建和初始化延迟等。
预测性故障分析(PFA)是操作系统组件,其收集数据、对所收集的数据进行建模以创建预期值或速率,并且将当前度量使用与预期值或速率的因数进行比较以确定是否发生反常行为。PFA的功能抢先检测地址空间中可能导致系统中断的损坏。
在当前实践中,WLM的输出和PFA的输出是分开的。PFA可基于单个地址空间、地址空间组或整个系统收集历史数据。然而,PFA既不收集性能数据,也不从WLM收集数据以监测性能。
本发明的实施例通过允许PFA在地址空间的粒度的基础上收集WLM速度数据、基于历史数据对预期值进行建模、并且将当前速度与预期值的因数进行比较来组合WLM和PFA的处理。该建模的数据用于确定地址空间是正常操作,还是低于正常行为并由此退化。所得评估接着用以确定是否声明系统上正发生性能异常。性能异常的确定被用来启动可以直接警告设施的自动化产品和/或系统管理员以便立即解决性能异常的过程。例如,设施的自动化产品可以生成报告和/或问题票据,并且启动收集相关诊断数据以进一步确定问题症状。
现在将结合附图更详细地描述本发明的实施例。
图1是计算机系统100的功能框图。计算机系统包括根据本发明实施例的计算机系统/服务器(服务器)12。计算机系统100可以包括多于一个服务器12。服务器12可以包括能够执行托管和执行WLM和PFA的功能的任何计算机;从硬件、操作系统和应用程序接收大量日志和类似数据(例如,太字节或更多);对日志和类似数据执行统计分析;以及对收集的数据进行建模以确定是否在一个或多个工作负载上发生异常。
服务器12的功能和过程可以在执行特定任务或实现特定抽象数据类型的计算机系统可执行指令(诸如程序模块、例程、对象、数据结构和逻辑等)的上下文中描述。服务器12可以是分布式云计算环境的一部分,其中一个或多个服务器12执行通过通信网络(诸如网络13)链接的任务。
如图1所示,服务器12可以包括一个或多个处理器或处理单元16、系统存储器28、以及将包括系统存储器28的不同系统组件耦合到处理单元16的总线18。
总线18表示若干类型的总线结构中的一个或多个,包括存储器总线或存储器控制器、外围总线、加速图形端口、以及使用各种总线架构中的任一种的处理器或局部总线。
服务器12通常包括各种计算机系统可读介质。这样的介质可以是可由计算机系统/服务器12访问的任何可用介质,并且它包括易失性和非易失性介质、可移除和不可移除介质。
存储器28可以包括易失性存储器形式的计算机系统可读介质,诸如随机存取存储器(RAM)30和/或高速缓存32。服务器12还可以包括其他可移除/不可移除、易失性/非易失性计算机系统存储介质。例如,存储系统34可以包括不可移除的非易失性磁介质,例如“硬盘驱动器”和用于从诸如CD-ROM、DVD-ROM或其他光学介质等可移除非易失性光盘读取或向其写入的光盘驱动器。存储系统34中的每个设备可以通过一个或多个数据媒介接口(诸如I/O接口22)连接到总线18。
每个程序40表示存储在存储系统34中并被加载到存储器28中以供执行的多个程序中的一个。程序40包括操作系统、应用、系统实用程序或类似物的实例。每个程序40包括一个或多个模块42。在本发明中,WLM和PFA都是程序40的实例。WLM和PFA的若干配置是可能的。例如,WLM和PFA可全部驻留在同一服务器12上。
服务器12还可以与以下设备通信:一个或多个外部设备14,诸如键盘、定点设备、显示器24等;使得用户能够与服务器12交互的一个或多个设备;和/或使得服务器12能够与一个或多个其他计算设备通信的任何设备(例如,网卡、调制解调器等)。这样的通信可以经由输入/输出(I/O)接口22发生。服务器12可以经由网络适配器20与一个或多个网络(诸如网络13)通信。如图所示,网络适配器20通过总线18与服务器12的其他组件通信。尽管未示出,其他硬件和/或软件组件可结合服务器12使用。示例包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动器阵列、RAID系统、带驱动器和数据归档存储系统等。
图2描述了根据本发明的实施例的可在图1的计算机系统100上实施的预测性故障分析系统(PFA系统)200。
PFA系统200的预测性故障分析地址空间(PFA地址空间)215实时地或近实时地、或批量地从WLM接收原始性能数据250。可以配置原始性能数据250收集的频率。例如,默认情况下,收集每分钟发生,但可以被不同地配置。所接收的性能数据250被存储在数据集220中以供进一步处理。
附加的可配置参数包括在PFA收集历史数据之前地址空间被激活的最小所需分钟数(正常运行时间)。这避免了收集瞬态或短暂运行的地址空间的数据。默认为60分钟。如果地址空间结束并且重新开始,则地址空间被视为新作业并且必须满足最小正常运行时间。来自相同名称的地址空间的数据不用于对新激活的地址空间进行建模。将使用名称/地址空间标识符/开始时间的键来分别收集具有相同名称的多个地址空间。服务器的IPL之后的第一个小时内开始的地址空间不需要在被收集之前等待。然而,在被收集之前,该地址空间将需要在一个完整收集间隔内是活动的。
类别可配置参数可以用于定义将收集哪些类别的地址空间。指定较低类别自动包括较高类别。例如,如果指定了IMPORTANT(重要),则收集CRITICAL(关键)和IMPORTANT(重要)类别。
CRITICAL地址空间是用关键系统工作和基础设施(例如,系统任务)标识的一个地址空间。IMPORTANT地址空间包括CRITICAL地址空间加上被定义为非常重要的关键中间件服务器。NORMAL(普通)地址包括CRITICAL和IMPORTANT地址空间加上普通工作。普通工作包括非服务器的应用和服务。通过使用默认为IMPORTANT,服务器类型的地址空间将被包括在收集中,只要它们满足正常运行时间要求,并且不通过配置参数从收集中被具体排除。随意工作不是允许的类别。
PFA地址空间215可以提供一个或多个接口,诸如GUI、命令行和参数文件,以接收管理命令以对数据集220执行动作。动作可以指定哪些工作负载、地址空间和/或作业数据包括WLM数据集或从WLM数据集排除。不同动作可以进一步指定数据集220中的哪些要包括在预测性故障分析预测建模(PFA建模)225中。用于控制PFA地址空间215的操作的附加参数包括用于停止/开始/修改某些类别的数据的收集、用于添加/删除用于收集的工作负载和地址空间、以及从收集中排除特定作业的参数。附加参数可指定对数据集220进行分析和建模的频率。数据集220可以按照地址空间源、日期、记录类型或其他标准来排序。数据集220被输入到PFA建模225,并且变成历史数据230以更新模型。PFA地址空间215存储先前一小时、二十四小时和七天的原始数据集作为历史数据230。这些周期是可配置的。先前模型可存储在历史数据230中。PFA建模225可使用机器学习,该机器学习包括由执行PFA系统200的企业开发的定制算法。PFA建模225可以利用来自一个或多个统计建模软件包(诸如IBM机器学习)的输出应用编程接口API来创建模型。
图3描绘了根据本发明的实施例的PFA系统200的工作流程。
在310,PFA地址空间215从WLM接收地址空间速度数据。速度可被计算为(使用样本*100)/(使用样本+延迟样本),其中使用样本包括使用样本的所有类型的处理器(例如,CPU、存储器、高速缓存)和使用样本的I/O。延迟样本包括所有类型的处理器延迟、I/O延迟、存储延迟和队列延迟。基于这些所谓的“使用”和“延迟”样本,计算WLM地址空间速度,该WLM地址空间速度是在没有由于WLM管理的资源而被延迟的情况下当准备好时工作应当运行多快的测量。速度是从“0”至“100”的百分比。低速度值指示地址空间具有它需要的很少的资源,并且正在与其他地址空间竞争资源。高速度值指示地址空间具有其需要以进行执行的所有资源。例如,“100”指示被采样的地址空间未遇到由于WLM管理的处理器或I/O资源的任何延迟。
在320处,PFA地址空间215通知PFA建模225对速度数据进行建模。建模导致每个地址空间的预期速度值被监视。默认每12小时计算每个地址空间的速度值。针对一小时的历史数据、二十四小时的历史数据和七天的历史数据计算预期速度值。这些时间段可以是可配置的。
在330处,将当前速度与预期速度值的因数(即,百分比)进行比较。
如果在340,比较指示与当前速度相比预期速度值的因数太低,则在350,PFA地址空间215基于WLM重要性级别设置报告异常和影响。生成警报,该警报可以被输入到用于生成问题票据的自动化系统和IT人员。异常也可被报告给执行运行时诊断的操作系统组件。警报可以包括应用标识符(诸如名称或工作号)、服务器标识符、问题的性质的指示符,包括任何系统消息。重要性级别指示工作负载满足其性能目标的重要性有多大。例如,在用于建立正常性界限的数据建模时间段之后,如果地址空间(甚至是其WLM服务类满足其目标的一个地址空间)正经历性能问题,则它将在其可能被管理员注意到之前被检测和警告。
图4示出了适用于执行图3的算法的示例性计算设备400。计算设备400可包括内部组件800和外部组件900的相应集合,该相应集合一起可为软件应用提供环境。内部组件800的集合中的每个内部组件包括:一个或多个处理器820;一个或多个计算机可读RAM 822;一个或多个总线826上的一个或多个计算机可读ROM 824;执行图3的算法的一个或多个操作系统828;以及一个或多个计算机可读有形存储设备830。该一个或多个操作系统828存储在一个或多个相应的计算机可读有形存储设备830上,以便由一个或多个相应的处理器820经由一个或多个相应的RAM 822(其通常包括高速缓存存储器)执行。在图4所示的实施例中,计算机可读有形存储设备830中的每一个是内部盘驱动器的磁盘存储设备。或者,计算机可读有形存储设备830中的每一者为半导体存储设备,例如ROM 824、EPROM、闪存储器或可存储计算机程序和数字信息的任何其他计算机可读有形存储设备。
每组内部组件800还包括R/W驱动器或接口832,以从一个或多个计算机可读有形存储设备936(诸如CD-ROM、DVD、SSD、USB记忆棒和磁盘)读取和向其写入。
每组内部组件800还可以包括网络适配器(或交换机端口卡)或接口836,诸如TCP/IP适配器卡、无线WI-FI接口卡、或3G或4G无线接口卡或其他有线或无线通信链路。与计算设备400相关联的操作系统828可经由网络(例如,互联网、局域网、或其他广域网)和相应的网络适配器或接口836从外部计算机(例如,服务器)下载到计算设备400。将与计算设备400相关联的网络适配器(或交换机端口适配器)或接口836和操作系统828加载到相应的盘驱动器830和网络适配器836中。
外部组件900还可包括触摸屏920、键盘930和定点设备934。设备驱动器840、R/W驱动器或接口832以及网络适配器或接口836包括硬件和软件(存储在存储设备830和/或ROM824中)。
本发明的不同实施例可在适合于存储和/或执行程序代码的数据处理系统中实施,该数据处理系统包括至少一个处理器,该至少一个处理器通过系统总线直接地或间接地耦合到存储器元件。存储器元件包括例如在程序代码的实际执行期间采用的本地存储器、块存储装置以及提供至少一些程序代码的临时存储以便减少在执行期间必须从块存储装置检索代码的次数的高速缓存存储器。
输入/输出或I/O设备(包括但不限于键盘、显示器、定点设备、DASD、带、CD、DVD、拇指驱动器和其他存储介质等)可以直接地或通过中间I/O控制器耦合到系统。网络适配器也可以耦合到系统,以使得数据处理系统能够通过中间私有或公共网络而变成耦合到其他数据处理系统或远程打印机或存储设备。调制解调器、电缆调制解调器和以太网卡仅是网络适配器的可用类型中的少数几种。
本发明可以是处于任何可能的技术细节集成水平的系统、方法和/或计算机程序产品。计算机程序产品可包含上面具有计算机可读程序指令的计算机可读存储介质(或媒介),该计算机可读程序指令用于致使处理器执行本发明的各方面。
计算机可读存储介质可以是能够保留和存储指令以供指令执行设备使用的有形设备。计算机可读存储介质可以是例如但不限于电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或前述各项的任何合适的组合。计算机可读存储介质的更具体例子的非穷举列表包括以下:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式紧凑盘只读存储器(CD-ROM)、数字通用盘(DVD)、记忆棒、软盘、机械编码设备(诸如穿孔卡片或具有记录在其上的指令的凹槽中的凸起结构)、以及上述的任意合适的组合。如本文中所使用的计算机可读存储介质不应被解释为瞬态信号本身,诸如无线电波或其他自由传播的电磁波、通过波导或其他传输媒质传播的电磁波(例如,通过光纤电缆的光脉冲)或通过导线传输的电信号。
本文所述的计算机可读程序指令可从计算机可读存储介质下载到相应的计算/处理设备,或经由网络(例如,互联网、局域网、广域网和/或无线网络)下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器卡或网络接口从网络接收计算机可读程序指令,并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。
用于执行本发明的操作的计算机可读程序指令可以是汇编指令,指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据,集成电路的配置数据或以一种或多种编程语言的任何组合编写的源代码或目标代码,包括诸如Smalltalk、C++等的面向对象的编程语言以及诸如“C”编程语言或类似编程语言的过程式编程语言。计算机可读程序指令可完全在用户的计算机上执行、部分在用户的计算机上执行、作为独立软件包执行、部分在用户的计算机上且部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在后一种情形中,远程计算机可以通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接到用户的计算机,或者可以连接到外部计算机(例如,通过使用互联网服务提供商的互联网)。在一些实施例中,电子电路(包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA))可以通过利用计算机可读程序指令的状态信息来执行计算机可读程序指令以使电子电路个性化,以便执行本发明的各方面。
本文中参考根据本发明的实施例的方法、设备(系统)和计算机程序产品的流程图说明和/或框图描述本发明的各方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合都可以由计算机可读程序指令来实现。
这些计算机可读程序指令可以被提供给计算机的处理器或其他可编程数据处理装置以产生机器,使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现在流程图和/或框图的一个或多个方框中指定的功能/动作的单元。这些计算机可读程序指令还可存储计算机可读存储介质中,该计算机可读程序指令可指导计算机、可编程数据处理装置和/或其他设备以特定方式起作用,使得具有存储在其中的指令的计算机可读存储介质包括制品,该制品包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各方面的指令。
计算机可读程序指令还可以加载到计算机、其他可编程数据处理装置或其它设备上,以使得一系列操作步骤在计算机、其他可编程装置或其他设备上被执行,以产生计算机实现的过程,从而使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图图示了根据本发明的不同实施例的系统、方法和计算机程序产品的可能实现的架构、功能和操作。对此,流程图或框图中的每个方框可以代表模块、段或指令的一部分,其包括用于实现规定的逻辑功能的一个或多个可执行指令。在一些替代实现方式中,框中所标注的功能可以不以图中所标注的次序发生。例如,取决于所涉及的功能,相继示出的两个框实际上可以作为一个步骤完成、同时、基本同时、以部分或完全时间上重叠的方式被执行,或者这些框有时可以以相反的顺序被执行。还将注意的是,框图和/或流程图中的每个框、以及框图和/或流程图中的框的组合可以由基于专用硬件的系统来实现,该基于专用硬件的系统执行指定的功能或动作或执行专用硬件与计算机指令的组合。
尽管本文已详细描述和说明了优选实施例,但对相关领域技术人员清楚的是,在不背离本公开的精神的情况下可以进行各种修改、添加、替换等,因此这些被认为是在如以下权利要求中所限定的本公开的范围内。
Claims (9)
1.一种用于程序化性能异常检测的方法,包括:
周期性地从工作负载管理器接收用于一个或多个地址空间的速度数据;
为所述一个或多个地址空间中的每个地址空间创建预期速度值;
将所述预期速度值的因数与来自所述速度数据的当前速度值进行比较;并且
基于所述当前速度值低于所述因数,采取指示异常的补救动作。
2.如权利要求1所述的方法,其中,所述速度数据是近实时地、实时地或分批地接收的。
3.如权利要求1所述的方法,其中,所述当前速度值被计算为使用样本乘以一百除以使用样本与延迟样本之和。
4.如权利要求1所述的方法,其中,创建所述预期速度值进一步包括:
将所接收的速度数据和历史数据输入到统计建模软件包;以及
输出所述预期速度值。
5.如权利要求3所述的方法,其中,使用样本包括所有类型的处理器使用,并且其中,延迟样本包括所有类型的处理器延迟、I/O延迟、存储延迟和队列延迟。
6.如权利要求1所述的方法,其中所述补救行动包括生成对自动化问题报告系统的警报,其中所述警报包括诸如名称或工作号的应用标识符、服务器标识符、问题的性质的指示符以及任何系统消息。
7.如权利要求1所述的方法,其中,所述预期速度的所述因数和所述速度数据的收集的周期是能够配置的。
8.一种用于程序化性能异常检测的计算机程序产品,所述计算机程序产品包括存储设备,所述存储设备具有体现在其中的程序代码,所述程序代码能够由计算机的处理器执行以执行根据权利要求1至7中任一项所述的方法。
9.一种用于程序化性能异常检测的计算机系统,包括:
一个或多个处理单元;
一个或多个计算机可读存储器;以及
一个或多个计算机可读存储介质,具有存储在其上的程序指令,所述程序指令用于由所述一个或多个处理单元中的至少一个处理单元经由所述一个或多个计算机可读存储器中的至少一个计算机可读存储器执行,其中所述计算机系统能够执行根据权利要求1至7中任一项所述的方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/032,121 | 2020-09-25 | ||
US17/032,121 US11556446B2 (en) | 2020-09-25 | 2020-09-25 | Programmatic performance anomaly detection |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114253751A true CN114253751A (zh) | 2022-03-29 |
Family
ID=78149375
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111120560.7A Pending CN114253751A (zh) | 2020-09-25 | 2021-09-24 | 程序化性能异常检测 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11556446B2 (zh) |
JP (1) | JP2022054456A (zh) |
CN (1) | CN114253751A (zh) |
DE (1) | DE102021122077B4 (zh) |
GB (1) | GB2600813B (zh) |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5675739A (en) | 1995-02-03 | 1997-10-07 | International Business Machines Corporation | Apparatus and method for managing a distributed data processing system workload according to a plurality of distinct processing goal types |
US6230183B1 (en) * | 1998-03-11 | 2001-05-08 | International Business Machines Corporation | Method and apparatus for controlling the number of servers in a multisystem cluster |
US7587453B2 (en) * | 2006-01-05 | 2009-09-08 | International Business Machines Corporation | Method and system for determining application availability |
US8356306B2 (en) * | 2007-07-31 | 2013-01-15 | Hewlett-Packard Development Company, L.P. | Workload management controller using dynamic statistical control |
US8250581B1 (en) * | 2007-10-28 | 2012-08-21 | Hewlett-Packard Development Company, L.P. | Allocating computer resources to candidate recipient computer workloads according to expected marginal utilities |
US7487506B1 (en) * | 2008-01-16 | 2009-02-03 | International Business Machines Corporation | Autonomous management of system throughput |
US8214693B2 (en) | 2009-01-08 | 2012-07-03 | International Business Machines Corporation | Damaged software system detection |
US9280436B2 (en) | 2009-06-17 | 2016-03-08 | Hewlett Packard Enterprise Development Lp | Modeling a computing entity |
US8321362B2 (en) * | 2009-12-22 | 2012-11-27 | Intel Corporation | Methods and apparatus to dynamically optimize platforms |
US8745214B2 (en) * | 2011-06-03 | 2014-06-03 | Oracle International Corporation | System and method for collecting request metrics in an application server environment |
US10454843B2 (en) | 2013-10-09 | 2019-10-22 | Salesforce.Com, Inc. | Extensible mechanisms for workload shaping and anomaly mitigation |
US10938655B2 (en) * | 2016-01-26 | 2021-03-02 | International Business Machines Corporation | Enterprise cloud garbage collector |
US11184247B2 (en) | 2018-06-19 | 2021-11-23 | International Business Machines Corporation | Workload management for computing cluster |
US11061740B2 (en) * | 2018-08-13 | 2021-07-13 | International Business Machines Corporation | Computer system workload manager |
US11815984B2 (en) * | 2020-02-07 | 2023-11-14 | Intel Corporation | Error handling in an interconnect |
-
2020
- 2020-09-25 US US17/032,121 patent/US11556446B2/en active Active
-
2021
- 2021-08-26 DE DE102021122077.7A patent/DE102021122077B4/de active Active
- 2021-09-15 GB GB2113147.9A patent/GB2600813B/en active Active
- 2021-09-24 CN CN202111120560.7A patent/CN114253751A/zh active Pending
- 2021-09-24 JP JP2021155952A patent/JP2022054456A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
GB2600813B (en) | 2023-02-08 |
DE102021122077B4 (de) | 2024-07-18 |
US20220100628A1 (en) | 2022-03-31 |
US11556446B2 (en) | 2023-01-17 |
GB202113147D0 (en) | 2021-10-27 |
JP2022054456A (ja) | 2022-04-06 |
GB2600813A (en) | 2022-05-11 |
DE102021122077A1 (de) | 2022-03-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6025753B2 (ja) | パフォーマンス・メトリックを監視するためのコンピュータによって実施される方法、コンピュータ可読記憶媒体、およびシステム | |
Wang et al. | What can we learn from four years of data center hardware failures? | |
JP6373482B2 (ja) | コンピュータ環境を統制し分析するためのインターフェース | |
EP3346650B1 (en) | Network monitoring system, network monitoring method, and program | |
CN106233261B (zh) | 处理环境的一体化监视和控制 | |
EP1650662B1 (en) | Method and system for testing software program based upon states of program execution instability | |
CN101853346B (zh) | 虚拟机快照和损坏抑制 | |
US11573848B2 (en) | Identification and/or prediction of failures in a microservice architecture for enabling automatically-repairing solutions | |
US9407656B1 (en) | Determining a risk level for server health check processing | |
US10489232B1 (en) | Data center diagnostic information | |
US20140122931A1 (en) | Performing diagnostic tests in a data center | |
US9658902B2 (en) | Adaptive clock throttling for event processing | |
US20100043004A1 (en) | Method and system for computer system diagnostic scheduling using service level objectives | |
WO2012049014A1 (en) | Soft failure detection | |
CN111522703A (zh) | 监控访问请求的方法、设备和计算机程序产品 | |
CN108920103B (zh) | 服务器的管理方法、装置、计算机设备及存储介质 | |
US11599404B2 (en) | Correlation-based multi-source problem diagnosis | |
CN114902192A (zh) | 云就绪度的验证和预测 | |
US20150355976A1 (en) | Selecting During A System Shutdown Procedure, A Restart Incident Checkpoint Of An Incident Analyzer In A Distributed Processing System | |
US11556446B2 (en) | Programmatic performance anomaly detection | |
US9952773B2 (en) | Determining a cause for low disk space with respect to a logical disk | |
US10917203B2 (en) | Estimate bit error rates of network cables | |
CN114416411A (zh) | 内存故障检测方法及装置 | |
US11210159B2 (en) | Failure detection and correction in a distributed computing system | |
US11714701B2 (en) | Troubleshooting for a distributed storage system by cluster wide correlation analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |