CN103354924B - 用于监视性能指标的方法和系统 - Google Patents

用于监视性能指标的方法和系统 Download PDF

Info

Publication number
CN103354924B
CN103354924B CN201280008552.6A CN201280008552A CN103354924B CN 103354924 B CN103354924 B CN 103354924B CN 201280008552 A CN201280008552 A CN 201280008552A CN 103354924 B CN103354924 B CN 103354924B
Authority
CN
China
Prior art keywords
value
performance indications
model
threshold
described performance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201280008552.6A
Other languages
English (en)
Other versions
CN103354924A (zh
Inventor
A.L.佩顿
J.卡弗里
K.K.阿恩特
K.帕特尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN103354924A publication Critical patent/CN103354924A/zh
Application granted granted Critical
Publication of CN103354924B publication Critical patent/CN103354924B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3072Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/008Reliability or availability analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3089Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3447Performance evaluation by modeling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Hardware Design (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Debugging And Monitoring (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

描述了用于监视性能指标的技术。使用多建模方法,通过避免在作为正常系统处理的一部分而出现的尖峰期间发出警告而改进了预测分析。该方法增大了对被监视的计算系统的预测分析的精度,不需要创建限定周期性处理循环的规则,减小了执行预测建模所需的数据量,并减小了执行预测建模所需的CPU的数量。

Description

用于监视性能指标的方法和系统
技术领域
本发明的实施例涉及可用作预测建模分析的部分的技术。更具体地,本发明的实施例提供了用于使用多建模范例(multiplemodelingparadigm)来评估计算系统的性能指标(metrics)的方法和系统。
背景技术
在大规模计算部署中,一个常见的复原(resiliency)问题是解决所谓的“软故障”,其中,计算系统不崩溃(crash),而是简单地停止正确工作,或者减慢到实际无功能的点。预测分析是这样的技术,其被用来识别用于计算系统的采样指标的当前集合指示将来的事件很可能出现的时刻(例如,预测很可能出现软故障的时刻)。预测分析工具依赖于历史数据来导出预期的系统行为的模型。
这样的工具的一个重要方面是避免误报(falsepositive)的能力。在预测分析工具检测到问题并警告用户、但该行为实际上是正常的系统行为时,出现误报。误报可能显著地降低用户对预测分析工具的信任度。在大型计算机系统中,很多行为是“尖峰的(spikey)”的任务或工作在运行,这意味着活动率可能取决于某日的时间和工作量、某周的天等而急剧变化。预测分析工具分析在系统上收集的历史数据,并使用机器学习算法来识别系统上的异常行为。例如,有规律的周期性处理(每周、每双周、每月等)可引起活动的正常尖峰,其可能被预测分析工具错误地识别为异常行为。显示出“尖峰”行为的工作或处理倾向于生成误报,这是因为,尖峰倾向于超过使用平均消耗率而设置的消费阈值。此外,由于月中变化的天数、周末、假日等,尖峰的时刻可能不遵循可由模式识别算法检测到的模式。
发明内容
本发明的一个实施例包括用于监视性能指标的方法。此方法一般可包括:确定当前采样时段的性能指标的值。一旦确定性能指标的值超过(pass)了从性能指标的预期行为的第一模型导出的阈值,便根据性能指标的预期行为的第二模型来评估性能指标的值。并且,一旦确定性能指标的值超过了从所述第二模型导出的阈值,便生成警告消息。
本发明的另一个实施例包括存储应用的计算机可读存储介质,该应用当在处理器上运行时,执行用于监视性能指标的操作。操作自身一般可包括确定当前采样时段的性能指标的值。一旦确定性能指标的值超过了从性能指标的预期行为的第一模型导出的阈值,便根据性能指标的预期行为的第二模型来评估性能指标的值。并且,一旦确定性能指标的值超过了从所述第二模型导出的阈值,便生成警告消息。
本发明的另一个实施例包括具有处理器和存储应用程序的存储器的系统,该应用程序当在处理器上运行时,执行用于监视性能指标的操作。操作自身一般可包括确定当前采样时段的性能指标的值。一旦确定性能指标的值超过了从性能指标的预期行为的第一模型导出的阈值,便根据性能指标的预期行为的第二模型来评估性能指标的值。并且,一旦确定性能指标的值超过了从所述第二模型导出的阈值,便生成警告消息。
附图说明
可通过参照附图,来得到获得并可详细理解上述方面的方式、上面简述的本发明的实施例的更具体的描述。
然而,注意,附图仅示出了本发明的典型实施例,并因此不被认为限制本发明的范围,本发明可适用于其他同等有效的实施例。
图1示出了可实现本发明的实施例的示例计算架构。
图2示出了根据本发明的一个实施例的用于使用多建模范例来监视性能指标的示例计算系统。
图3示出了根据本发明的一个实施例的使用多建模范例来监视“尖峰的”计算工作或处理的方法。
图4示出了根据本发明的一个实施例的使用多建模范例来执行预测分析的方法。
图5A-5B示出了根据本发明的一个实施例的被配置为使用多建模范例的预测分析工具所监视的示例数据集。
具体实施方式
注意到,一些计算任务可有规律地呈现出所谓的“尖峰”行为,其中,由计算任务消耗的计算资源量突然且显著改变。例如,作为正常程序操作的部分,存储空间、存储器分配和CPU利用的量等可突然增大(或出现尖峰)。然而,当处理崩溃(或异常操作)时,相同情形也会出现。因而,呈现出“尖峰”行为的工作或处理使得确定资源消耗(例如,存储器使用或处理器利用)中的当前尖峰是否指示系统功能或在系统上运行的一个工作已出现故障成为挑战。也就是说,该问题的根源可能在该工作之外的某处。例如,通信装置问题可引起交易响应次数的突然增大。因此,预测分析工具难以在源自“尖峰”工作或处理的正常操作的行为的周期性尖峰、与导致资源消耗的尖峰的错误状况之间进行区分
对这些类型的周期性行为进行建模经常需要大量历史数据的长期保留。在存储分配和针对历史数据运行分析(这侵占了可用于常规计算任务的时间)所需的时间方面,针对非常大量的数据运行建模算法可能消耗不可接受数量的受限系统资源。
本发明的实施例提供了用于使用多建模范例来评估计算系统的性能指标的方法和系统。在一个实施例中,将用于对性能指标建模的系统数据存储为多个组:一个组表示性能指标的“标准”活动;以及另一(或更多)组表示性能指标的“尖峰”活动。对所述组分别建模,以允许一个预测表示“正常标准”或性能指标的预期值,一个(或多个)预测表示在尖峰期间预期的指标的“尖峰标准”值。这样做避免了在出现尖峰时发出错误的异常,但当在尖峰期间性能指标的值处于建模的“尖峰标准”值之外时,仍然允许抛出有效的异常。
这个方法显著地减小了对预测分析工具的数据保留需求。具体地,可将用来对“正常标准”或标准值建模的数据维持较短的保留期。也就是说,用来对非尖峰期(即,“正常标准”)的资源消耗建模的历史数据可基于相对短的时间窗(例如,一个月的时段),而用来对尖峰期(即,“尖峰标准”)建模的数据可回及(reachback)到长得多的时段上(例如,一年的时段),以便保留代表样本。然而,由于尖峰出现较不频繁,所以,存储较长时段的针对“尖峰正常”的建模数据不会导致不可接受数量的存储资源被专用于预测分析工具。此外,以此方式存储数据也减小了总的处理时间,这是由于,“正常标准”模型不是基于针对性能指标而采样的值的长期历史。
此外,在一个实施例中,除了“正常标准”和“尖峰标准”之外,用户还可识别用于对预期的尖峰建模的特定时段。例如,假定用户创建在每个月的第一天执行的重复(recurring)工作或处理任务,并执行导致相关的性能指标的瞬时尖峰的工作或任务。在该情况下,除了“正常标准”和瞬时的“尖峰标准”模型之外,预测分析工具还可创建用于已知要在每个月的开头发生的尖峰的模型。这样做在以下情况下可能有用:根据“尖峰标准”模型,已知的尖峰时段导致仍会生成误报的资源消耗级别。
下面参照本发明的实施例。然而,将理解,本发明不限于所述特定实施例。相反,无论是否与不同实施例相关,以下特征和元素的任何组合均被考虑用来实现和实践本发明。此外,尽管本发明的实施例可实现相对其他可能的解决方案和/或其他现有技术的优势,但给定实施例是否实现了特定优势不是本发明的限制。由此,下面的方面、特征、实施例和优势仅为说明性的,且不被认为是所附权利要求的元素或限制,除非在权利要求中指明。类似地,对“本发明”的引用不应被理解为在这里公开的任何发明主题的一般化,且不应被认为是所附权利要求的元素或限制,除非在权利要求中指明。
所属技术领域的技术人员知道,本发明的各个方面可以实现为系统、方法或计算机程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、驻留软件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。此外,在一些实施例中,本发明的各个方面还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。
可以采用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
下面将参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些计算机程序指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。
也可以把这些计算机程序指令存储在计算机可读介质中,这些指令使得计算机、其它可编程数据处理装置、或其他设备以特定方式工作,从而,存储在计算机可读介质中的指令就产生出包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的指令的制造品(articleofmanufacture)。
所述计算机程序指令也可被加载到计算机、其它可编程数据处理设备、或其他装置中,用来在计算机、其它可编程数据处理设备、或其他装置上执行一系列操作步骤,以产生计算机实现的过程,使得在计算机或其它可编程设备上执行的指令提供用于在流程图和/或框图中的框中指定的功能/动作的过程。
本发明的实施例可通过云计算架构而被提供到终端用户。云计算通常表示作为网络上的服务的可计量的计算资源的提供。更正式地,云计算可被定义为提供计算资源及其底下的技术架构(例如,服务器、存储、网络)之间的抽象的计算能力,其允许对可在最小管理工作量或服务提供方交互的情况下被迅速供应和释放的可配置计算资源的共享池的方便的请求式网络访问。因此,与用来提供计算资源的底下的物理系统(或那些系统的位置)无关地,云计算允许用户访问“云”中的虚拟计算资源(例如,存储、数据、应用、以及甚至完整的虚拟化的计算系统)。
典型地,基于按使用计费而将云计算资源提供给用户,其中,用户仅为实际使用的计算资源而被计费(例如,用户消耗的存储空间量、或用户实例化的虚拟系统的数目)。用户可在因特网上,在任何时刻,从任何位置,访问驻留在云中的任何资源。在本发明的上下文中,用户可访问在云环境中存在的监视应用或相关的数据。例如,监视应用可监视在基于云的服务器部署中可用于多个虚拟机器实例的共享存储器(或其他资源)的量。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
此外,使用在数据通信网络上监视计算系统的性能指标的示例,来描述本发明的特定实施例。然而,应理解,除了在计算系统上对性能指标建模之外,这里描述的用于使用多个模型的数据来对性能指标建模的技术可适用于各种目的。此外,在很多情况下,可在被监视的计算系统上执行预测分析工具。也就是说,预测分析工具可监视本地计算系统上的资源性能指标、以及远程系统上的资源和性能指标。
图1示出了可实现本发明的实施例的示例计算架构100。如所示出的,计算架构100包括监视系统105和服务器系统1301-2,其各自连接到通信网络120。在此示例中,监视系统105在网络120上通信,以监视服务器系统130的进行中的状态。作为一个示例,监视系统105可被配置为监视每个服务器130上的共享资源的消耗。当然,监视系统105可被配置为监视与服务器系统130的功能相关的各种性能指标(以及监视系统105的性能指标),例如,CPU利用、共享(或专用)的存储消耗、虚拟存储消耗、错误消息流量、系统消息(控制台)流量、锁定(锁存保持/释放)、交易响应时间、盘I/O响应时间、盘I/O活动(读取、写入等)。此外,本领域的技术人员将认识到,可根据特定情况下的需要来选择特定的指标。
图2示出了根据本发明的一个实施例的示例计算系统200,其包括监视应用222,用来使用多建模范例来监视性能指标。如所示出的,计算系统200包括但不限于中央处理单元(CPU)205、网络接口215、互连220、存储器225、以及储存器230。计算系统200还可包括I/O装置接口210,其将I/O装置212(例如,键盘、显示器和鼠标装置)连接到计算系统200。
通常,CPU205检索并执行在存储器225中存储的编程指令。类似地,CPU205存储并检索在存储器225中驻留的应用数据。互连220提供用于在CPU205、I/O装置接口210、储存器230、网络接口215、以及存储器225之间传送编程指令和应用数据的通信路径。CPU205被包括来代表单个CPU、多个CPU、具有多处理内核的CPU等。并且,通常,存储器225被包括来代表随机存取存储器。储存器230可为硬盘驱动器或固态存储装置(SSD)。此外,尽管被示出为单个单元,但储存器230可为固定和/或可移除存储装置的组合,如固定盘驱动器、软盘驱动器、带驱动器、可移除存储卡、光储存器、网络附连储存器(NAS)、或存储域网络(SAN)。
说明性地,存储器225连同第一模型阈值224及第二模型阈值226一起存储监视应用222。储存器230包含用于第一模型的采样的指标历史232、用于第二模型的采样的指标历史234、以及可选的日期/时间尖峰模式数据236。在一个实施例中,监视应用222被配置为在性能指标超过了(或在适当情况下下降到低于)由第一模型阈值224及第二模型阈值226指定的阈值时生成警告(例如,被发送到系统管理员的警告消息)。此外,监视应用222可被配置为使用用于第一模型的采样的指标历史232和使用用于第二模型的采样的指标历史234,导出用于阈值224、226的值。例如,第一模型阈值224可基于不与尖峰时段相关联的采样值来提供用于性能指标的估计的最大(或最小)值。因而,用于第一模型(即,用于“正常标准”值)的采样的指标历史232可包括覆盖采样的指标值的相对最近的历史(例如,四周的时段)的采样数据。
同时,用于第二模型阈值226的的采样的指标历史234可包括覆盖采样指标值的相对较长的历史的数据。然而,用于第二模型的采样的指标历史234限于在正在观察性能指标中的尖峰的时段期间采样的数据值。也就是说,采样的指标历史234被用来确定适当的“尖峰标准”阈值。
在一个实施例中,监视应用222初始使用几个小时的数据集(或几天,如果适合)来建立性能指标的基础活动级别。如果在此时间期间出现尖峰,则其可能略微偏移(skew)对于“正常标准”阈值的预期活动的计算,但通常不足以影响整体输出。
例如,假定数据收集器在两周的时段内,每30分钟对指标采样,并将指标存储在历史数据文件中(即,作为用于第一模型的采样的指标历史232)。基于在两周的时段上采样的数据,识别第一指标阈值224。此时,直到已收集了充分的历史数据之前,出现的任何尖峰将被识别为异常行为,并导致警告。因而,在一个实施例中,将会触发警告的任何性能指标值被转移到用于尖峰活动的分离的历史数据文件,以避免对标准的正常行为的计算的任何附加偏移,即,在观察的尖峰时段期间采样的性能指标值被转移到用于第二模型的采样的指标历史234。
由此,采样的指标历史234存储在与标准或“正常标准”行为相比时高到足以引起警告的指标值。一旦在采样的指标历史234中已存储了充足数量的指标值,便可使用预测建模算法来确定“尖峰标准”值。例如,充足的数据量可被认为是在4到6周时段上收集的、包括用于尖峰行为的至少3次出现的数据的尖峰数据。当然,可取决于被监视的系统的需求,调节此训练时段。也就是说,监视应用222可计算代表预期在尖峰期间看到的指标值的值。注意,可将这样的值指定为单个阈值(其具有某个容限,诸如预期的标准差和方差),但还可被指定为正常操作范围,或适于特定的性能指标的其他形式。
此时,采样的指标历史232和234数据可被用来生成预期的性能指标值的预测。第一预测表示标准正常指标值,附加预测表示在活动尖峰期间的正常指标值。基于这些模型,可以编程方式生成用于每类行为的阈值224、226。可通过用户可配置的参数来微调阈值224、226的灵敏度。
一旦已建立了第一和第二模型阈值224、226,那么,如果用于性能指标的观察的采样值超过了第一模型阈值224,则此采样值可被存储在采样的指标历史234中(并被用来更频繁地刷新预测模型,直到已恢复了常规活动为止)。此外,如果用于性能指标的随后观察到的采样值在尖峰时段期间超过了第二模型阈值226,则可生成警告消息,例如,向系统操作员警告以便可以采取行动来防止进一步的并发后果。当然,在性能指标超过了(或下降到低于)第一模型阈值224、第二模型阈值226或两者时,可触发各种其他动作。
尽管上述方法消除了对资源尖峰之前的在先用户知识和配置的需要,但在某些情况下,用户可能一致地调度工作或处理任务,从而可能预测到特定的尖峰时段。在这样的情况下,监视应用222可被配置为创建附加的阈值和采样的指标历史,以对与特定的工作或任务相关联的尖峰时段建模。例如,日期/时间尖峰模式数据可指定预期出现或重现特定尖峰的时间。此外,一旦建立,第一和第二阈值可为动态的。也就是说,一旦被设置为初始值,便可使用“正常”和“尖峰”时段两者期间的后续采样值来随时间更新阈值。
图3示出了根据本发明的一个实施例的用于使用多建模范例来监视“尖峰的”计算工作或处理的方法300。如所示出的,方法300在步骤305开始,其中,监视应用开始在训练时段中监视与一组计算工作或任务相关联的性能指标。注意,监视的性能指标的示例可包括计算系统、网格、集群、网络等的各个方面,包括例如系统利用、处理器(或处理器内核)利用、共享(或专用)存储消耗、虚拟存储消耗、错误消息流量、系统消息(控制台)、流量、锁定(锁存保持/释放)、交易响应时间、盘I/O响应时间、盘I/O活动(读取、写入等)。训练时段允许监视系统确定第一阈值(即,正常标准),还确定第二阈值(即,尖峰标准)。
在步骤310,在训练时段期间,监视系统在监视的性能指标的采样值超过了用于第一阈值的值时,抑制任何警告。这发生的原因在于,第一阈值(即,正常标准阈值)可相对快速地被建立(即,在几小时或几天的时段上)。此外,一旦被建立,第一阈值便被用来识别用于对第二阈值建模的数据被自身确定的时段。例如,用于第二阈值的数据可被限于监视的性能指标超过了第一阈值的时段(即,在尖峰活动的时段期间)。在步骤315,监视系统确定是否已观察到足够的尖峰数据来确定第二阈值(即,尖峰标准阈值)。取决于尖峰时段的频率和持续时间,训练时段可持续几周或几个月的时段。在观察到尖峰时段的代表性样本之后,监视系统确定用于区分性能的正常尖峰和可能需要用户干预的事件的第二模型阈值(步骤320)。也就是说,监视系统确定第二模型阈值。
图4示出了根据本发明的一个实施例的用于使用多建模范例来执行预测分析的方法400。如所示出的,方法400在步骤405开始,其中,监视应用确定用于当前采样周期的性能指标的值。当然,可将采样频率设置为适于由监视系统监视的特定性能指标。
在步骤410,监视系统确定在步骤405采样的性能指标值是否超过了(或在适当情况下,下降到低于)第一模型的阈值。如果不是,则系统返回到步骤405,直到到达下一个采样时段的时刻。否则,在采样的性能指标值超过了该阈值的情况下,系统开始使用第二模型来评估监视的指标。注意,在一个实施例中,当观察到尖峰时,可增大采样频率(相对于非尖峰时段期间的采样频率),以便在尖峰周期期间更密集地监视性能指标。
在步骤420,如果性能指标超过了使用第二模型确定的第二阈值(即,尖峰标准阈值),则在步骤425,可发出有关性能指标的警告消息。否则,如果性能指标的评估指示在经历尖峰时的性能指标正在经历“正常”尖峰,则系统返回到步骤405,以等待下一个采样时段。
图5A-5B示出了多建模方法的示例。更具体地,图5A-5B示出了根据本发明的一个实施例的由被配置为使用多建模范例的预测分析工具监视的示例数据集。图5A示出了在两周时段上获得的指标值的样本500。在此示例中,通常,对于除两个尖峰510和515期间之外的性能指标获得大约~100的值。对于此示例,假定尖峰510源自正被监视(经由性能指标)的计算系统的正常活动,而尖峰515源自崩溃或其他系统故障。如果将用于警告的阈值设置为~150,则可从尖峰510(误报)和尖峰515(实际问题)两者生成警告。因而,如上所述,可使用多建模方法来对性能指标的所谓“正常”值、以及用于尖峰时段的分离模型建模。图5B中示出了此结果。
如图5B所示,在比图5A中示出的更长的时段捕获用于性能指标的数据550。因而,将第一阈值555设置为大约150,并将第二阈值560设置为大约425。在训练时段565期间,使用用于尖峰580、585的数据来确定用于第二阈值560的值。一旦完成了训练,尖峰5751便由于其未超过第二阈值560而不生成警告。相反,尖峰5752超过第二阈值560,并产生警告。
由此,有利地,上述多建模方法通过避免在作为正常系统处理的一部分而出现的尖峰期间发出警告,改善了预测分析。此方法增大了对被监视的计算系统的预测分析的精度,不需要创建限定周期性处理循环的规则,减小了执行预测建模所需的数据量,并减小了执行预测建模所需的CPU的数量。
尽管前面涉及本发明的实施例,但可设计本发明的其它实施例,而不会背离由所附权利要求确定的本发明的基本范围。

Claims (14)

1.一种用于监视性能指标的计算机实施的方法,所述方法包括:
确定当前采样时段的性能指标的值;
一旦确定所述性能指标的值超过了从所述性能指标的预期行为的第一模型导出的第一阈值,便根据所述性能指标的预期行为的第二模型来评估所述性能指标的值;以及
一旦确定所述性能指标的值超过了从所述第二模型导出的第二阈值,便生成警告消息。
2.如权利要求1所述的方法,还包括:一旦确定所述性能指标的值未超过从所述第一模型导出的阈值,便基于所述性能指标的采样值来更新所述第一模型。
3.如权利要求1所述的方法,还包括:一旦确定所述性能指标的值超过了从所述性能指标的预期行为的第一模型导出的阈值,便基于所述性能指标的采样值来更新所述第二模型。
4.如权利要求1所述的方法,还包括:一旦确定所述性能指标的值超过了从所述性能指标的预期行为的第一模型导出的阈值,便增大所述采样时段的采样频率。
5.如权利要求1所述的方法,其中,所述性能指标对应于共享资源的使用。
6.如权利要求1所述的方法,其中,所述性能指标对应于处理器利用、存储资源消耗、以及存储器消耗中的一个。
7.如权利要求1所述的方法,其中,通过在指定的第一训练时段训练所述第一模型来导出所述第一阈值,并且,其中,当所述性能指标值超过所述第一阈值时,通过采样所述性能指标来训练所述第二模型。
8.一种用于监视性能指标的系统,包括:
用于确定当前采样时段的性能指标的值的装置;
用于一旦确定所述性能指标的值超过了从所述性能指标的预期行为的第一模型导出的第一阈值,便根据所述性能指标的预期行为的第二模型来评估所述性能指标的值的装置;以及
用于一旦确定所述性能指标的值超过了从所述第二模型导出的第二阈值,便生成警告消息的装置。
9.如权利要求8所述的系统,其中,所述系统还包括:用于一旦确定所述性能指标的值未超过从所述第一模型导出的第一阈值,便基于所述性能指标的采样值来更新所述第一模型的装置。
10.如权利要求8所述的系统,其中,所述系统还包括:用于一旦确定所述性能指标的值超过了从所述性能指标的预期行为的第一模型导出的第一阈值,便基于所述性能指标的采样值来更新所述第二模型的装置。
11.如权利要求8所述的系统,其中,所述系统还包括:用于一旦确定所述性能指标的值超过了从所述性能指标的预期行为的第一模型导出的第一阈值,便增大所述采样时段的采样频率。
12.如权利要求8所述的系统,其中,所述性能指标对应于共享资源的使用。
13.如权利要求8所述的系统,其中,所述性能指标对应于处理器利用、存储资源消耗、以及存储器消耗中的一个。
14.如权利要求8所述的系统,其中,通过在指定的第一训练时段训练所述第一模型来导出所述第一阈值,并且,其中,当所述性能指标值超过所述第一阈值时,通过采样所述性能指标来训练所述第二模型。
CN201280008552.6A 2011-02-14 2012-02-08 用于监视性能指标的方法和系统 Active CN103354924B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/026,351 2011-02-14
US13/026,351 US10558544B2 (en) 2011-02-14 2011-02-14 Multiple modeling paradigm for predictive analytics
PCT/IB2012/050569 WO2012110918A1 (en) 2011-02-14 2012-02-08 Multiple modeling paradigm for predictive analytics

Publications (2)

Publication Number Publication Date
CN103354924A CN103354924A (zh) 2013-10-16
CN103354924B true CN103354924B (zh) 2016-05-11

Family

ID=46637561

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280008552.6A Active CN103354924B (zh) 2011-02-14 2012-02-08 用于监视性能指标的方法和系统

Country Status (6)

Country Link
US (2) US10558544B2 (zh)
JP (1) JP6025753B2 (zh)
CN (1) CN103354924B (zh)
DE (1) DE112012000797B4 (zh)
GB (1) GB2499535B (zh)
WO (1) WO2012110918A1 (zh)

Families Citing this family (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9065727B1 (en) 2012-08-31 2015-06-23 Google Inc. Device identifier similarity models derived from online event signals
US8732534B2 (en) * 2010-09-17 2014-05-20 Oracle International Corporation Predictive incident management
US8645530B2 (en) * 2011-02-22 2014-02-04 Kaseya International Limited Method and apparatus of establishing computer network monitoring criteria
US9921934B1 (en) * 2011-10-14 2018-03-20 Amazon Techologies, Inc. Storage process metrics
US8447851B1 (en) * 2011-11-10 2013-05-21 CopperEgg Corporation System for monitoring elastic cloud-based computing systems as a service
US9053185B1 (en) 2012-04-30 2015-06-09 Google Inc. Generating a representative model for a plurality of models identified by similar feature data
US8914500B1 (en) 2012-05-21 2014-12-16 Google Inc. Creating a classifier model to determine whether a network user should be added to a list
US8886575B1 (en) 2012-06-27 2014-11-11 Google Inc. Selecting an algorithm for identifying similar user identifiers based on predicted click-through-rate
US8874589B1 (en) 2012-07-16 2014-10-28 Google Inc. Adjust similar users identification based on performance feedback
US8782197B1 (en) * 2012-07-17 2014-07-15 Google, Inc. Determining a model refresh rate
US8886799B1 (en) 2012-08-29 2014-11-11 Google Inc. Identifying a similar user identifier
US9823990B2 (en) * 2012-09-05 2017-11-21 Nvidia Corporation System and process for accounting for aging effects in a computing device
US9588813B1 (en) 2013-06-07 2017-03-07 Amazon Technologies, Inc. Determining cost of service call
US9600774B1 (en) * 2013-09-25 2017-03-21 Amazon Technologies, Inc. Predictive instance suspension and resumption
KR102117637B1 (ko) * 2013-10-01 2020-06-01 삼성에스디에스 주식회사 데이터 전처리 장치 및 방법
US10489711B1 (en) * 2013-10-22 2019-11-26 EMC IP Holding Company LLC Method and apparatus for predictive behavioral analytics for IT operations
US9251034B2 (en) 2013-11-25 2016-02-02 Comcast Cable Communications, Llc Device performance monitoring
US9712404B2 (en) * 2014-03-07 2017-07-18 Hitachi, Ltd. Performance evaluation method and information processing device
US20150281008A1 (en) * 2014-03-25 2015-10-01 Emulex Corporation Automatic derivation of system performance metric thresholds
US10361924B2 (en) 2014-04-04 2019-07-23 International Business Machines Corporation Forecasting computer resources demand
US10043194B2 (en) 2014-04-04 2018-08-07 International Business Machines Corporation Network demand forecasting
US9385934B2 (en) 2014-04-08 2016-07-05 International Business Machines Corporation Dynamic network monitoring
US10439891B2 (en) 2014-04-08 2019-10-08 International Business Machines Corporation Hyperparameter and network topology selection in network demand forecasting
US10713574B2 (en) 2014-04-10 2020-07-14 International Business Machines Corporation Cognitive distributed network
US10911318B2 (en) * 2015-03-24 2021-02-02 Futurewei Technologies, Inc. Future network condition predictor for network time series data utilizing a hidden Markov model for non-anomalous data and a gaussian mixture model for anomalous data
US10848408B2 (en) * 2015-03-26 2020-11-24 Vmware, Inc. Methods and apparatus to control computing resource utilization of monitoring agents
US9665460B2 (en) * 2015-05-26 2017-05-30 Microsoft Technology Licensing, Llc Detection of abnormal resource usage in a data center
US10671131B2 (en) * 2015-06-05 2020-06-02 Apple Inc. Predictive control systems and methods
EP3323047A4 (en) * 2015-07-14 2019-03-27 Sios Technology Corporation DISTRIBUTED MACHINE LEARNING ANALYSIS FRAMEWORK FOR ANALYZING STREAMING DATA SETS FROM A COMPUTER ENVIRONMENT
US10089165B2 (en) * 2016-04-06 2018-10-02 International Business Machines Corporation Monitoring data events using calendars
US10534643B2 (en) 2016-05-09 2020-01-14 Oracle International Corporation Correlation of thread intensity and heap usage to identify heap-hoarding stack traces
US20170364581A1 (en) * 2016-06-16 2017-12-21 Vmware, Inc. Methods and systems to evaluate importance of performance metrics in data center
EP3333707A1 (en) * 2016-12-09 2018-06-13 British Telecommunications public limited company Autonomic method for managing a computing system
US11080660B2 (en) * 2017-03-20 2021-08-03 The Boeing Company Data-driven unsupervised algorithm for analyzing sensor data to detect abnormal valve operation
US11036408B2 (en) * 2017-03-26 2021-06-15 Oracle International Corporation Rule-based modifications in a data storage appliance monitor
US10536505B2 (en) * 2017-04-30 2020-01-14 Cisco Technology, Inc. Intelligent data transmission by network device agent
US10949807B2 (en) * 2017-05-04 2021-03-16 Servicenow, Inc. Model building architecture and smart routing of work items
US10579093B2 (en) 2018-03-01 2020-03-03 At&T Intellectual Property I, L.P. Workload prediction based CPU frequency scaling
CN109039691B (zh) * 2018-06-01 2021-05-18 平安科技(深圳)有限公司 服务器、预测系统调用量的方法及存储介质
US10970161B2 (en) * 2019-02-01 2021-04-06 EMC IP Holding Company LLC Time series forecasting classification
CN110618936A (zh) * 2019-08-29 2019-12-27 凡普数字技术有限公司 应用程序的性能评估方法、装置以及存储介质
US20210097469A1 (en) * 2019-10-01 2021-04-01 Jpmorgan Chase Bank, N.A. System and method for predicting performance metrics
US11989626B2 (en) * 2020-04-07 2024-05-21 International Business Machines Corporation Generating performance predictions with uncertainty intervals
CN113572654B (zh) * 2020-04-29 2023-11-14 华为技术有限公司 网络性能监控方法、网络设备及存储介质
US11341021B2 (en) * 2020-05-31 2022-05-24 Microsoft Technology Licensing, Llc Feature deployment readiness prediction
US20230004750A1 (en) * 2021-06-30 2023-01-05 International Business Machines Corporation Abnormal log event detection and prediction
US12007832B2 (en) 2022-02-25 2024-06-11 Bank Of America Corporation Restoring a system by load switching to an alternative cloud instance and self healing
US12061465B2 (en) 2022-02-25 2024-08-13 Bank Of America Corporation Automatic system anomaly detection
CN115979339B (zh) * 2022-12-07 2023-08-15 吉林农业科技学院 一种基于大数据分析的蛋鸡养殖环境智能监管系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3795008A (en) * 1972-04-12 1974-02-26 B Kolsrud Method for the discrete sampling of co-related values of two or more variables
CN101882107A (zh) * 2010-06-28 2010-11-10 山东中创软件商用中间件股份有限公司 一种web应用自动化测试的方法及装置

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001142746A (ja) 1999-11-11 2001-05-25 Nec Software Chubu Ltd 計算機システムの負荷監視装置
US7050956B2 (en) 2001-04-30 2006-05-23 Hewlett-Packard Development Company, L.P. Method and apparatus for morphological modeling of complex systems to predict performance
WO2003009140A2 (en) * 2001-07-20 2003-01-30 Altaworks Corporation System and method for adaptive threshold determination for performance metrics
US7451065B2 (en) 2002-03-11 2008-11-11 International Business Machines Corporation Method for constructing segmentation-based predictive models
US7480640B1 (en) 2003-12-16 2009-01-20 Quantum Leap Research, Inc. Automated method and system for generating models from data
US7610377B2 (en) * 2004-01-27 2009-10-27 Sun Microsystems, Inc. Overload management in an application-based server
JP2005316808A (ja) 2004-04-30 2005-11-10 Nec Software Chubu Ltd 性能監視装置および性能監視方法並びにプログラム
US7349746B2 (en) 2004-09-10 2008-03-25 Exxonmobil Research And Engineering Company System and method for abnormal event detection in the operation of continuous industrial processes
US20070028219A1 (en) 2004-10-15 2007-02-01 Miller William L Method and system for anomaly detection
US20060293777A1 (en) * 2005-06-07 2006-12-28 International Business Machines Corporation Automated and adaptive threshold setting
US7502971B2 (en) * 2005-10-12 2009-03-10 Hewlett-Packard Development Company, L.P. Determining a recurrent problem of a computer resource using signatures
US7533070B2 (en) 2006-05-30 2009-05-12 Honeywell International Inc. Automatic fault classification for model-based process monitoring
US8320256B2 (en) 2006-09-13 2012-11-27 International Business Machines Corporation Method, computer program product and system for managing usage of marginal capacity of computer resources
JP2009003742A (ja) 2007-06-22 2009-01-08 Hitachi Electronics Service Co Ltd 業務遅延予測システム
US7941382B2 (en) 2007-10-12 2011-05-10 Microsoft Corporation Method of classifying and active learning that ranks entries based on multiple scores, presents entries to human analysts, and detects and/or prevents malicious behavior
US7840391B2 (en) 2007-10-12 2010-11-23 Oracle America, Inc. Model-diversity technique for improved proactive fault monitoring
US8214308B2 (en) 2007-10-23 2012-07-03 Sas Institute Inc. Computer-implemented systems and methods for updating predictive models
RU2502120C2 (ru) 2007-12-17 2013-12-20 Лэндмарк Грэфикс Корпорейшн, Э Хэллибертон Кампани Системы и способы оптимизации операций добычи в реальном времени
US7966152B2 (en) 2008-04-23 2011-06-21 Honeywell International Inc. System, method and algorithm for data-driven equipment performance monitoring
JP5375829B2 (ja) 2008-09-18 2013-12-25 日本電気株式会社 運用管理装置、運用管理方法、および運用管理プログラム
US20100082697A1 (en) 2008-10-01 2010-04-01 Narain Gupta Data model enrichment and classification using multi-model approach

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3795008A (en) * 1972-04-12 1974-02-26 B Kolsrud Method for the discrete sampling of co-related values of two or more variables
CN101882107A (zh) * 2010-06-28 2010-11-10 山东中创软件商用中间件股份有限公司 一种web应用自动化测试的方法及装置

Also Published As

Publication number Publication date
US20130086431A1 (en) 2013-04-04
JP6025753B2 (ja) 2016-11-16
CN103354924A (zh) 2013-10-16
DE112012000797B4 (de) 2021-07-01
GB2499535A (en) 2013-08-21
DE112012000797T5 (de) 2013-11-14
GB201307559D0 (en) 2013-06-12
US20120209568A1 (en) 2012-08-16
US10558545B2 (en) 2020-02-11
GB2499535B (en) 2014-12-10
WO2012110918A1 (en) 2012-08-23
JP2014507727A (ja) 2014-03-27
US10558544B2 (en) 2020-02-11

Similar Documents

Publication Publication Date Title
CN103354924B (zh) 用于监视性能指标的方法和系统
US9600394B2 (en) Stateful detection of anomalous events in virtual machines
US9720823B2 (en) Free memory trending for detecting out-of-memory events in virtual machines
US10248561B2 (en) Stateless detection of out-of-memory events in virtual machines
CN104350471B (zh) 在处理环境中实时地检测异常的方法和系统
US10223190B2 (en) Identification of storage system elements causing performance degradation
JP4527642B2 (ja) ネットワーク障害診断装置、ネットワーク障害診断方法およびネットワーク障害診断プログラム
US7702485B2 (en) Method and apparatus for predicting remaining useful life for a computer system
US20170220407A1 (en) Automatic model generation for performance monitoring
US8578023B2 (en) Computer resource utilization modeling for multiple workloads
CN107851106A (zh) 用于关系数据库即服务的自动需求驱动的资源缩放
US20160283304A1 (en) Performance prediction method, performance prediction system and program
CA3074996A1 (en) Apparatus and method for real time analysis, predicting and reporting of anomalous database transaction log activity
US9244711B1 (en) Virtual machine capacity planning
US11151012B2 (en) Predictive reserved instance for hyperscaler management
US11016515B2 (en) System operation decision-making assistance device and method
KR20150118963A (ko) 큐 모니터링 및 시각화
US11651271B1 (en) Artificial intelligence system incorporating automatic model updates based on change point detection using likelihood ratios
US20220245010A1 (en) Time-series anomaly detection using an inverted index
US20140067773A1 (en) Transient detection for predictive health management of data processing systems
CN116539994A (zh) 基于多源时间序列数据的变电站主设备运行状态检测方法
EP3607452A1 (en) Apparatus and method of behavior forecasting in a computer infrastructure
US11636377B1 (en) Artificial intelligence system incorporating automatic model updates based on change point detection using time series decomposing and clustering
WO2022000285A1 (en) Health index of a service
JP2013182471A (ja) プラントオペレーションの負荷評価装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant