CN100478905C - 用于测量计算系统的自主能力的方法和系统 - Google Patents

用于测量计算系统的自主能力的方法和系统 Download PDF

Info

Publication number
CN100478905C
CN100478905C CNB2006101447130A CN200610144713A CN100478905C CN 100478905 C CN100478905 C CN 100478905C CN B2006101447130 A CNB2006101447130 A CN B2006101447130A CN 200610144713 A CN200610144713 A CN 200610144713A CN 100478905 C CN100478905 C CN 100478905C
Authority
CN
China
Prior art keywords
interval
computing system
recovery
recover
time quantum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CNB2006101447130A
Other languages
English (en)
Other versions
CN1963779A (zh
Inventor
刘子健
岑健樑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN1963779A publication Critical patent/CN1963779A/zh
Application granted granted Critical
Publication of CN100478905C publication Critical patent/CN100478905C/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • G06F11/3419Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment by assessing time
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/08Error detection or correction by redundancy in data representation, e.g. by using checking codes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • G06F11/3428Benchmarking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/3668Software testing
    • G06F11/3672Test management
    • G06F11/3688Test management for test execution, e.g. scheduling of test suites
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/3668Software testing
    • G06F11/3672Test management
    • G06F11/3692Test management for test results analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Abstract

本发明针对计算系统的自主能力的量化测量。按照本发明的一个实施例的方法包括:使得所述计算系统承受工作负荷;向所述计算系统中注入干扰;提供所述计算系统已经响应于所注入的干扰而检测到问题的通知;确定启动用于处理所检测的问题的恢复规程所需要的时间量;以及确定用于执行所述恢复规程所需要的时间量。

Description

用于测量计算系统的自主能力的方法和系统
技术领域
本发明总体地涉及计算系统。具体上,本发明针对计算系统的自主/自管理能力的量化测量。
背景技术
自主计算(AC)描述了计算系统的自管理能力,在所述计算系统中,部件预计计算系统的需要,并且以最小的人为干预来解决问题。今天,大部分主要硬件和软件卖方大程度地投入在AC特性中。在此程度上,量化计算系统的AC能力是重要的。
干扰注入(例如故障的注入)是由测试组织通常使用来评估自主系统的可获得性的技术。在图1中描述了按照现有技术的使用干扰注入的说明性基准确定系统10。基准确定系统(benchmarking)10包括基准驱动器12和在测试下的系统(SUT)14。基准驱动器12使得SUT 14承受工作负荷16,并且从SUT 14接收响应18,所述工作负荷16被设计为典型系统使用的代表。从由基准驱动器12测量的SUT 14能够多快地满足所施加的工作负荷16,来导出基准结果20。由基准驱动器12向SUT 14中注入干扰(故障)22以评估SUT 14的能力来“自治愈(self-heal)”。
在图2中图解了按照现有技术的一种说明性干扰注入方法24。下面参见在图1中图解的基准确定系统10的部件来描述所述干扰注入方法24。如图所示,在“注入时隙(injection slot)”26期间,基准驱动器12将一个或多个干扰22注入到SUT 14中,而工作负荷16被施加到SUT 14。干扰22可以包括例如软件故障、操作员故障、高级硬件故障等。每个注入时隙26包括多个不同的时段,包括启动间隔28、注入间隔30、检测间隔32、恢复间隔34和保持间隔36。在启动间隔28期间,SUT 14以直到达到稳定的状态条件为止所施加的工作负荷16运行。在注入间隔30期间,SUT 14在所述稳定的状态条件中运行预定的时段,其后,基准驱动器12向SUT 14中注入干扰22。检测间隔32是在将干扰22注入SUT 14中和由基准驱动器12启动(带有脚本的)恢复规程之间的时间量。恢复间隔34表示由SUT 14要求来执行恢复规程的时间量。在保持间隔36期间,SUT 14继续运行(稳定状态)。在保持间隔36的结尾评估注入的干扰22对于SUT 14的影响。在保持间隔36的结尾去除(可选地)干扰22。
存在三种类型的AC系统,其中每个提供对于干扰的不同响应:
1.非自主——人工干扰检测和人为恢复启动。例如,帮助台通知数据库系统的操作员已经接收到与具体处理相关联的多个投诉。作为响应,操作员终止在数据库系统中的不希望的处理。
2.全自主——自动干扰检测和自动恢复启动。例如,自主管理器确定在系统中存在不希望的处理,并且不通过任何人为干预而自动终止所述处理。
3.部分自主——自动干扰检测和人工恢复启动。例如,自主管理器确定在系统中存在不希望的处理,并且发出警告/消息。人操作员通过在控制台或寻呼机上接收警告/消息而检测所述问题。作为响,操作员根据在所述警告/消息中提供的所述信息来定位所述不希望的处理,并且终止所述处理。
使用传统的故障注入方法,在稳定的状态操作期间向SUT 14中注入干扰22。在注入干扰22后,基准驱动器12在启动恢复规程之前根据干扰22的类型等待预定的时间量(即检测间隔32)。因此,在传统的故障注入方法中的唯一变量是恢复间隔34的长度。
存在与如上所述的传统方法相关联的几个问题,包括例如:
问题1:在处理部分自主系统中没有灵活性,所述部分自主系统向操作员提供警告/消息,所述警告/消息关于所检测的问题及如何固定所检测的问题的信息。这种类型的部分自主系统例如在许多其中经由寻呼机或其他的通信设备向数据库管理员发送警告/消息的数据库系统中是占主导地位的。固定检测间隔32(例如从平均恢复时间(MTTR)——修复故障所需要的平均时间——导出)的使用将不在这种类型的情况下起作用,因为警告/消息的自主提供将大大地缩短检测问题的时间长度。在此程度上,在部分自主特性存在的情况下使用固定检测间隔32将不提供AC能力的精确和/或可重复的测量。
问题2:如果系统是全自主自治愈系统,则基准驱动器12对于问题的检测或从问题的恢复的定时没有控制。一个示例是在其中盘子系统自动检测盘故障并且自动绕过故障盘的数据库系统中的RAID 5盘故障容差。
因此,需要一种用于量化地测量具有不同自动化程度(即非自主、全自主和部分自主)的系统的自主能力的改进方法。
发明内容
总体上,本发明针对计算系统的自主能力的量化测量。具体上,本发明被配置来通过下述方式来量化测量所有类型的自主计算系统——特别是部分自主计算系统——的自主能力:使用分离的可调整检测间隔和分离的可调整恢复启动间隔来进行故障注入,使用所述分离的可调整检测间隔进行故障注入以模拟检测问题所需要的时间,使用所述分离的可调整恢复启动间隔进行故障注入以模拟启动用于处理所述问题的恢复规程所需要的时间。
本发明的第一方面针对一种用于测量计算系统的自主能力的方法,包括:使得所述计算系统承受工作负荷;向所述计算系统中注入干扰;响应于所注入的干扰而提供所述计算系统已经检测到问题的通知;确定启动用于处理所检测的问题的恢复规程所要求的时间量;以及确定执行所述恢复规程所要求的时间量。
本发明的第二方面针对一种用于测量计算系统的自主能力的系统,包括:用于使得所述计算系统承受工作负荷的系统;用于向所述计算系统中注入干扰的系统;用于响应于所注入的干扰而提供所述计算系统已经检测到问题的通知的系统;用于确定启动用于处理所检测的问题的恢复规程所需要的时间量的系统;以及用于确定执行所述恢复规程所需要的时间量的系统。
本发明的第三方面针对在计算机可读介质中存储的程序产品,所述程序产品用于测量计算系统的自主能力,所述计算机可读介质包括用于执行下述步骤的程序代码:使得所述计算系统承受工作负荷;向所述计算系统中注入干扰;响应于所注入的干扰而提供所述计算系统已经检测到问题的通知;确定启动用于处理所检测的问题的恢复规程所需要的时间量;以及确定执行所述恢复规程所需要的时间量。
附图说明
通过下面结合附图详细说明本发明的各个方面,本发明的这些和其他特征将会变得更容易明白,其中:
图1描述了按照现有技术的使用干扰注入的说明性的基准确定系统。
图2描述了按照现有技术的说明性干扰注入方法。
图3描述了按照本发明的一个实施例的使用干扰注入的说明性的基准确定系统。
图4描述了按照本发明的一个实施例的说明性干扰注入方法。
图5描述了按照本发明的一个实施例的用于实施方法的说明性计算机系统。
所述附图仅仅是示意表示,而不意欲描述本发明的具体参数。所述附图意欲仅仅描述本发明的典型实施例,因此不应当被当作本发明的范围的限制。在所述附图中,类似的附图标号表示类似的元件。
具体实施方式
总体上,本发明涉及计算系统的自主能力的量化测量。具体上,本发明被配置来通过下述方式来量化测量所有类型的自主计算系统——特别是部分自主计算系统——的自主能力:使用分离的可调整检测间隔和分离的可调整恢复启动间隔来进行故障注入,使用所述分离的可调整检测间隔进行故障注入以模拟检测问题所需要的时间,使用所述分离的可调整恢复启动间隔进行故障注入以模拟启动用于处理所述问题的恢复规程所需要的时间。
在图3中描述了按照本发明的一个实施例的使用干扰注入的说明性基准确定系统100。基准确定系统100包括基准驱动器102和在测试下的系统(SUT)104。基准驱动器102使得SUT 104承受工作负荷106,并且从SUT 104接收响应108,所述工作负荷106被设计为典型系统使用的代表。从由基准驱动器102测量的SUT 104能够多快地满足所施加的工作负荷106来导出基准结果110。由基准驱动器102向SUT 104中注入干扰(故障)112以评估SUT104的能力从而自治愈。基准确定系统100还包括回叫系统114,用于当SUT104响应于干扰112向SUT 104的注入而自动检测到已经发生了问题时通知116基准驱动器102。虽然未示出,但是回叫系统114能够被并入到基准驱动器102中。在本发明的一个实施例中,所述回叫系统114能够被配置来接收或截取由SUT 104响应于检测到问题而产生的警告/消息118。所述警告/消息118可以包括例如由SUT 104产生的电子邮件、文本消息、所记录的声明等。在另一个实施例中,回叫系统114能够被配置来监视、解析(parse)和分析在系统管理员的控制台上显示、或在系统日志文件中包括的文本警告/消息信息。用于确定SUT 104何时检测到基于干扰的问题的许多其他技术也是可以的。
在图4中图解了按照本发明的一个实施例的一种说明性干扰注入方法120。下面参见在图3中图解的基准确定系统100的部件来描述所述干扰注入方法120。如图所示,在注入时隙122期间,基准驱动器102将一个或多个干扰112注入到SUT 104中,同时工作负荷106被施加到SUT 104。每个注入时隙122包括多个不同的时段,包括启动间隔124、注入间隔126、检测间隔128、恢复启动间隔130、恢复间隔132和保持间隔134。
在启动间隔124期间,SUT 104以直到达到稳定的状态条件为止所施加的工作负荷106运行。在注入间隔126期间,SUT 104在所述稳定的状态条件中运行预定的时段,其后,基准驱动器102向SUT 104中注入干扰112。但是,不像针对现有技术的干扰注入方法24如上所述的检测间隔30,按照本发明的检测间隔128是在向SUT 104注入干扰112、和回叫系统114检测到SUT 104响应于SUT 104对于问题的检测而产生的警告/消息118之间的时间量。
在检测间隔128之后提供了恢复启动间隔130(即在SUT 104检测到由注入的干扰112引起的问题和已经产生警告/消息118后)。恢复启动间隔130表示人为启动恢复规程以处理SUT 104检测的具体问题所需要的时间量。即,恢复启动间隔130是模拟响应于检测到由注入干扰112而引起的问题的人为干预的预定时延。作为示例,恢复启动时间130能够包括操作员响应于警告/消息118而终止在系统上运行的处理、确定所述问题的特性、并且键入命令以启动用于处理所述问题的诊断例程所需要的总的时间。能够例如从人为启动用于处理由SUT 104检测的具体问题的恢复规程所需要的时间量的统计研究(例如平均化)来导出具体干扰情况的恢复启动间隔130。其它技术也是可以的。
给定的恢复启动间隔130的长度依赖于由基准驱动器102施加到SUT104的具体干扰112(或一组干扰112)。例如,与第一干扰112“A”相关联的恢复启动间隔130可以是1分钟长,而与第二干扰112“B”相关联的恢复启动间隔130可以是10分钟长。这指示用于启动与干扰112“B”相关联的具体恢复规程所需要的时间比用于启动与干扰112“A”相关联的具体恢复规程所需要的时间长得多(即10x)。基准驱动器102可以访问表格等以建立用于被注入到SUT 104中的给定干扰112(或一组干扰112)的正确恢复启动间隔130。
返回图4,恢复间隔132表示SUT 104执行在恢复启动间隔130的结尾启动的恢复规程所需要的时间量。在保持间隔134期间,SUT 104继续运行(稳定的状态)。在保持间隔134的结尾评估注入的干扰112对于SUT 104的影响。在保持间隔134的结尾去除(可选地)干扰112。可以记录针对给定的故障情景/系统配置的各种间隔124、126、128、130、132和134的每个(例如作为基准结果110),来用于测试后的分析。
本发明的基准确定系统100可以用于测量具有不同自动化程度(即非自主、全自主和部分自主)的系统的AC能力。例如,考虑使用本发明的基准确定系统100来测量非自主SUT 104的AC能力的简单情况。在注入间隔126的结尾,干扰112被基准驱动器102注入到非自主SUT 104中。基准驱动器102然后可以向检测间隔128和恢复启动间隔130(可能从MTTR导出)分配恒定的时延。
在全自主的情况下,假定全自主SUT 104不通过任何人为干预而在1分钟内检测和启动恢复规程。检测间隔128和恢复启动间隔130的总的长度因此是1分钟。因为全自主SUT 104独自地恢复,因此基准驱动器102不控制检测间隔128和恢复启动间隔130的长度。在这种情况下,基准驱动器102可以简单地实施no-op操作。基准驱动器102仅仅需要在运行的结尾收集成功处理事务(transaction)的数量,因为全自主SUT 104单独地恢复。全自主系统的分值(score)应当大于非自主系统的分值,因为假定自动检测和恢复启动所需要的时间比从MTTR导出的恒定值短得多。这反映了全自主系统的优点。
在部分自主的情况下,所述检测是自动化的,但是恢复启动不是。MTTR方法不在这种情况下起作用,因为用于恢复的时间现在由于由部分自主的SUT 104响应于自动检测到问题而产生的警告/消息118而更短。在此程度上,本发明的基准驱动器102分别地处理检测间隔128和恢复启动间隔130。检测间隔128当干扰112被注入到部分自主的SUT 104中时开始,并且当由部分自主的SUT 104产生警告/消息118时结束。回叫系统114被基准驱动器102用于确定何时部分自主的SUT 104检测到警告/消息118或关于问题的其他通知。基准驱动器102然后可以向恢复启动间隔130分配恒定的时延,所述恢复启动间隔130用于指示人为响应于所检测的问题而完成恢复启动所需要的时间量(例如平均时间量)。这产生部分自主的SUT 104的AC能力的更准确和可重复的测量。
在图5中描绘了按照本发明的一个实施例的用于计算系统的自主能力的量化测量的计算机系统200。计算机系统200被提供在计算机基础结构202中。计算机系统200意欲表示能够执行本发明的教导的任何类型的计算机系统。例如,计算机系统200可以是膝上型计算机、台式计算机、工作站、手持设备、服务器、计算机集群等。另外,如下进一步所述,计算机系统200可以被服务提供商部署和/或操作,所述服务提供商提供按照本发明的计算系统的自主能力的量化测量。应当明白,用户/管理员204可以直接地访问计算机系统200,或可以操作通过网络206(诸如因特网、广域网(WAN)、局域网(LAN)、虚拟专用网络(VPN)等)而与计算机系统200通信的计算机系统。在后者的情况下,在计算机系统200和用户操作的计算机系统之间的通信可以经由各种类型的通信链路的任何组合而发生。例如,所述通信链路可以包括可寻址的连接,它们可以利用有线和/或无线的传输方法的任何组合。当经由因特网而发生通信时,可以通过传统的基于TCP-IP套接字的协议来提供连接,并且因特网服务提供商可以用于建立到因特网的连接。
计算机系统200被示出包括处理单元208、存储器210、总线212和输入/输出(I/O)接口214。而且,计算机系统200被示出与外部设备/资源216和一个或多个存储单元218通信。总体上,处理单元208执行在存储器210和/或一个或多个存储单元218中存储的诸如基准确定系统230之类的计算机程序代码。当执行计算机程序代码时,处理单元208可以从/向存储器210、存储单元218和/或输入/输出接口214读取和/或写入数据。总线212提供计算机系统200中各个部件之间的通信链接。外部设备/资源216可以包括任何设备(例如键盘、指示设备、显示器(例如显示器220)、打印机等)),用于使得用户能够与计算机系统200和/或使得计算机系统200能够与一个或多个其他计算设备通信的任何设备(例如网络卡、调制解调器等)交互。
计算机基础结构202仅仅说明可以用于实施本发明的各种类型的计算机基础结构。例如,在一个实施例中,计算机基础结构202可以包括通过网络(例如网络106)进行通信的两个或多个计算设备(例如服务器集群),来执行本发明的各种处理步骤。而且,计算机系统200仅仅表示可以用于本发明的实践中的许多类型的计算机系统,其中每个可以包括硬件/软件的多种组合。例如,处理单元208可以包括单个处理单元,或可以被分布在一个或多个位置上的一个或多个处理单元上,例如在客户机和服务器上。类似地,存储器210和/或存储系统216可以包括驻留在一个或多个物理位置上的各种类型的数据存储器和/或传输介质的任何组合。而且,输入/输出接口214可以包括用于与一个或多个外部设备/资源216交换信息的任何系统。而且,可以明白,在图5中未示出的一个或多个附加部件(例如系统软件、数学协处理器、高速缓冲存储器等)可以被包括在计算机系统200中。但是,如果计算机系统200包括手持的设备等,则可以明白,一个或多个外部设备/资源216(例如显示器)和/或一个或多个存储单元218可以被包含在计算机系统200中,并且未在外部示出。
存储单元218可以是能够在本发明下提供信息的存储的任何类型的系统(例如数据库),所述信息诸如基准结果、恢复启动间隔等。在此程度上,存储单元218可以包括一个或多个存储设备,诸如磁盘驱动器或光盘驱动器。在另一个实施例中,存储单元218可以包括分布在例如局域网(LAN)、广域网(WAN)或存储区域网络(SAN)(未示出)上的数据。虽然未示出,但是可以将诸如高速缓冲存储器、通信系统、系统软件等的附加部件并入计算机系统200中。而且,虽然未示出,但是由用户/管理员204操作的计算机系统可以包含与关于计算机系统200上述的那些类似的计算机化的部件。
在存储器210中示出了(例如作为计算机程序产品)基准确定系统230,用于提供诸如SUT 104的计算系统的自主能力的量化测量。基准确定系统230包括基准驱动器102,它被配置来使得SUT 104承受工作负荷106,并且从SUT 104接收响应108,所述工作负荷106被设计来表示典型的系统使用。从由基准驱动器102测量的SUT 104能够多快地满足所施加的工作负荷106来导出基准结果110。由基准驱动器102向SUT 104中注入干扰(故障)112以评估SUT 104的能力从而自治愈。基准确定系统230还包括回叫系统114,用于当SUT 104响应于干扰112向SUT 104的注入而自动检测到已经发生的问题时通知116基准驱动器102。基准驱动器102被配置来按照参见图4上述的干扰注入方法120而操作。
本发明可以被提供为在捐助或收费基础上的商业方法。例如,可以由向客户提供在此所述的功能的服务提供商来建立、保持、支持和/或部署本发明的一个或多个部件。即,服务提供商可以用于提供如上所述的、计算系统的自主能力的量化测量。
也应当明白,可以以硬件、软件、传播信号或其组合来实现本发明。任何种类的计算机/服务器系统——或被适配来执行在此所述的方法的其他装置——是适当的。硬件和软件的典型组合可以包括通用计算机系统,它具有计算机程序,所述计算机程序当被安装和执行时,执行在此所述的相应方法。或者,可以使用专用的计算机,它包含用于执行本发明的一个或多个功能任务的专用硬件。本发明也可以嵌入在计算机程序产品或传播信号中,所述计算机程序产品或传播信号包括使能实施在此所述的方法的所有相应特征,并且它当被安装到计算机系统中时能够执行这些方法。
本发明可以采取整体硬件实施例、整体软件实施例或包含硬件和软件元素的实施例的形式。在一个优选实施例中,以软件来实施本发明,所述软件包括但是不限于固件、驻留软件、微代码等。
本发明可以采取可以从计算机可用或计算机可读介质存取的计算机程序产品的形式,所述介质提供程序代码以由计算机或任何指令执行系统使用或与其相结合地使用。对于本说明书,计算机可用或计算机可读介质可以是包含、存储、通信、传播或传送由指令执行系统、装置或设备使用或与其相结合地使用的程序的任何装置。
所述介质可以是电子、磁、光、电磁、红外线或半导体系统(或装置或设备),或者是传播介质。计算机可读介质的示例包括半导体或固态存储器、磁带、可装卸计算机软盘、随机存取存储器(RAM)、只读存储器(ROM)、硬磁盘和光盘。光盘的当前示例包括致密盘-只读盘(CD-ROM)、致密盘-读取/写入盘(CD-R/W)和数字多功能盘(DVD)。
在本文中的计算机程序、传播信号、软件程序、程序或软件表示意欲使得具有信息处理能力的系统直接或在下述之一或两者之后执行具体功能的一组指令的、以任何语言、代码或符号的任何表达:(a)转换到另一种语言、代码或符号;和/或(b)以不同的材料形式的再现。
本发明的优选实施例的上述说明已经给出来用于图解和说明。这不意欲穷尽或将本发明限定到所公开的精确形式,并且显然,许多修改和改变是可能的。对于本领域内的技术人员显而易见的这些修改和改变意欲被包括在由所附的权利要求限定的本发明的范围内。

Claims (18)

1.一种用于测量计算系统的自主能力的方法,包括:
使所述计算系统承受工作负荷;
向所述计算系统中注入干扰;
提供所述计算系统已经响应于所注入的干扰而检测到问题的通知;
确定启动用于处理所检测的问题的恢复规程所需要的时间量;以及
确定执行所述恢复规程所需要的时间量。
2.按照权利要求1的方法,从注入干扰到接收到所述通知的时间是检测间隔。
3.按照权利要求2的方法,其中,提供所述通知的步骤还包括:
对所述计算系统的输出监视响应于所注入的干扰而发生的问题的指示。
4.按照权利要求1的方法,其中,启动用于处理所检测的问题的恢复规程所需要的时间量是恢复启动间隔。
5.按照权利要求4的方法,其中,所述恢复启动间隔依赖于注入到计算系统的干扰。
6.按照权利要求4的方法,其中,执行恢复规程所需要的时间量是恢复间隔。
7.按照权利要求4的方法,其中,所述恢复启动间隔表示用于模拟响应于所述通知的人为干预的预定时延。
8.按照权利要求7的方法,还包括:
通过分析人为启动用于处理所检测的问题的恢复规程所需要的时间量,而导出恢复启动间隔。
9.按照权利要求1的方法,其中,从注入干扰到接收到通知的时间是检测间隔,其中,用于启动用于处理所检测的问题的恢复规程所需要的时间量是恢复启动间隔,其中,执行启动的恢复规程所需要的时间量是恢复间隔,并且其中,检测间隔、恢复启动间隔和恢复间隔提供所述计算系统的自主能力的测量。
10.按照权利要求9的方法,还包括:
至少记录检测间隔、恢复启动间隔和恢复间隔来用于以后的分析。
11.按照权利要求1的方法,其中,从包含非自主计算系统、全自主计算系统和部分自主计算系统的组选择所述计算系统。
12.一种用于测量计算系统的自主能力的系统,包括:
用于使所述计算系统承受工作负荷的系统;
用于向所述计算系统中注入干扰的系统;
用于提供所述计算系统已经响应于所注入的干扰而检测到问题的通知的系统;
用于确定启动用于处理所检测的问题的恢复规程所需要的时间量的系统;以及
用于确定执行所述恢复规程所需要的时间量的系统。
13.按照权利要求12的系统,其中,从注入干扰到接收到所述通知的时间是检测间隔,其中,用于启动用于处理所检测的问题的恢复规程所需要的时间量是恢复启动间隔,并且其中,用于执行恢复规程所需要的时间量是恢复间隔。
14.按照权利要求13的系统,其中,用于提供通知的系统还包括:
用于对所述计算系统的输出监视响应于所注入的干扰而发生的问题的指示的系统。
15.按照权利要求13的系统,其中,所述恢复启动间隔表示用于模拟响应于所述通知的人为干预的预定时延。
16.按照权利要求15的系统,还包括:
用于通过分析人为启动用于处理所检测的问题的恢复规程所需要的时间量而导出恢复启动间隔的系统。
17.按照权利要求13的系统,其中,所述检测间隔、恢复启动间隔和恢复间隔提供计算系统的自主能力的测量。
18.按照权利要求12的系统,其中,从包含非自主计算系统、全自主计算系统和部分自主计算系统的组选择所述计算系统。
CNB2006101447130A 2005-11-07 2006-11-07 用于测量计算系统的自主能力的方法和系统 Active CN100478905C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/268,221 US7539904B2 (en) 2005-11-07 2005-11-07 Quantitative measurement of the autonomic capabilities of computing systems
US11/268,221 2005-11-07

Publications (2)

Publication Number Publication Date
CN1963779A CN1963779A (zh) 2007-05-16
CN100478905C true CN100478905C (zh) 2009-04-15

Family

ID=38082844

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2006101447130A Active CN100478905C (zh) 2005-11-07 2006-11-07 用于测量计算系统的自主能力的方法和系统

Country Status (5)

Country Link
US (1) US7539904B2 (zh)
JP (1) JP5147216B2 (zh)
KR (1) KR100985959B1 (zh)
CN (1) CN100478905C (zh)
TW (1) TWI393001B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4962239B2 (ja) * 2007-09-20 2012-06-27 大日本印刷株式会社 リソース使用量取得装置、リソース使用量取得方法、及びリソース使用量取得処理プログラム
US8949674B2 (en) 2010-01-28 2015-02-03 Drexel University Detection, diagnosis, and mitigation of software faults
US11204861B2 (en) * 2019-03-05 2021-12-21 Honeywell International Inc. Systems and methods for fault injection and ensuring failsafe FMS SaaS platforms
US11310680B2 (en) 2020-08-26 2022-04-19 Spirent Communications, Inc. Reusing provisioned resources during heterogeneous component-based testing in a portable automation framework
US11216347B1 (en) 2020-08-26 2022-01-04 Spirent Communications, Inc. Automatically locating resources using alternative locator expressions during heterogeneous component-based testing in a portable automation framework
US11449414B2 (en) 2020-08-26 2022-09-20 Spirent Communications, Inc. Mapping test parameter data elements during heterogeneous component-based testing in a portable automation framework in both API mode and UI mode
US11269712B1 (en) * 2020-08-26 2022-03-08 Spirent Communications, Inc. Customized categorial error handling framework for heterogeneous component-based testing in a portable automation framework
US12013777B2 (en) 2020-08-26 2024-06-18 Spirent Communications, Inc. Controlling heterogeneous component-based testing in a portable automation framework with test scripts in both API mode and UI mode
US11748242B2 (en) * 2021-02-17 2023-09-05 Atlassian Pty Ltd. Proactive monitoring of a software application framework

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6442694B1 (en) 1998-02-27 2002-08-27 Massachusetts Institute Of Technology Fault isolation for communication networks for isolating the source of faults comprising attacks, failures, and other network propagating errors
US6971048B1 (en) * 1998-06-15 2005-11-29 Sun Microsystems, Inc. Testing device driver hardening
US6484276B1 (en) * 1999-10-25 2002-11-19 Lucent Technologies Inc. Method and apparatus for providing extensible object-oriented fault injection
US6442494B1 (en) * 2000-02-23 2002-08-27 Autoliv Asp, Inc. Method and circuit for detecting batteries in a distributed battery network
US6418068B1 (en) * 2001-01-19 2002-07-09 Hewlett-Packard Co. Self-healing memory
US7194445B2 (en) * 2002-09-20 2007-03-20 Lenovo (Singapore) Pte. Ltd. Adaptive problem determination and recovery in a computer system
JP2005004699A (ja) * 2003-06-16 2005-01-06 Trecenti Technologies Inc コンピュータシステム異常検出システム、コンピュータシステム異常検出方法およびコンピュータシステム
JP4189854B2 (ja) * 2003-07-28 2008-12-03 新日鉄ソリューションズ株式会社 障害時動作検証装置及び障害時動作検証方法
US7467333B2 (en) * 2005-09-01 2008-12-16 Hewlett-Packard Development Company, L.P. System and method for interposition-based selective simulation of faults for access requests to a data storage system

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A Dependability Benchmark forOLTPApplicationEnvironments. Marco Vieira, Henrique Madeira.Proceedings of the 29th international conference on Very Large databases,Vol.29 . 2003
A Dependability Benchmark forOLTPApplicationEnvironments. Marco Vieira, Henrique Madeira.Proceedings of the 29th international conference on Very Large databases,Vol.29 . 2003 *

Also Published As

Publication number Publication date
KR100985959B1 (ko) 2010-10-06
CN1963779A (zh) 2007-05-16
TW200805049A (en) 2008-01-16
KR20070049064A (ko) 2007-05-10
JP2007133870A (ja) 2007-05-31
JP5147216B2 (ja) 2013-02-20
US7539904B2 (en) 2009-05-26
TWI393001B (zh) 2013-04-11
US20070168751A1 (en) 2007-07-19

Similar Documents

Publication Publication Date Title
CN100478905C (zh) 用于测量计算系统的自主能力的方法和系统
CN105357038B (zh) 监控虚拟机集群的方法和系统
US7509343B1 (en) System and method of collecting and reporting system performance metrics
US7099893B2 (en) Recording application user actions for application testing
US6973415B1 (en) System and method for monitoring and modeling system performance
US8655623B2 (en) Diagnostic system and method
US9262260B2 (en) Information processing apparatus, information processing method, and recording medium
Sun et al. Non-intrusive anomaly detection with streaming performance metrics and logs for DevOps in public clouds: a case study in AWS
US8504874B2 (en) Repair-policy refinement in distributed systems
US20160224400A1 (en) Automatic root cause analysis for distributed business transaction
US20080028264A1 (en) Detection and mitigation of disk failures
US9043652B2 (en) User-coordinated resource recovery
JP2006526842A (ja) 兆候除外付きコードブック相関を使用するシステム管理のための方法および装置
KR100803889B1 (ko) 클라이언트 단말로 제공되는 서비스 성능 분석 방법 및시스템
US20080104578A1 (en) Using ghost agents in an environment supported by customer service providers
US7398511B2 (en) System and method for providing a health model for software
US20190258564A1 (en) Service regression detection using real-time anomaly detection of application performance metrics
US20180095819A1 (en) Incident analysis program, incident analysis method, information processing device, service identification program, service identification method, and service identification device
CN107329914A (zh) 一种基于Linux系统检测硬盘乱序的方法及装置
US20130246359A1 (en) Computer product, verification support method, and verification support apparatus
Lingrand et al. Optimization of jobs submission on the EGEE production grid: modeling faults using workload
US7254515B1 (en) Method and apparatus for system management using codebook correlation with symptom exclusion
Cook et al. Toward self-healing multitier services
CN114064510A (zh) 功能测试方法、装置、电子设备和存储介质
Fang et al. Early identification of critical blocks: Making replicated distributed storage systems reliable against node failures

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant