JP5147216B2 - コンピューティング・システムのオートノミック能力を測定するための方法、システム及びコンピュータ・プログラム - Google Patents

コンピューティング・システムのオートノミック能力を測定するための方法、システム及びコンピュータ・プログラム Download PDF

Info

Publication number
JP5147216B2
JP5147216B2 JP2006299658A JP2006299658A JP5147216B2 JP 5147216 B2 JP5147216 B2 JP 5147216B2 JP 2006299658 A JP2006299658 A JP 2006299658A JP 2006299658 A JP2006299658 A JP 2006299658A JP 5147216 B2 JP5147216 B2 JP 5147216B2
Authority
JP
Japan
Prior art keywords
sut
recovery
period
autonomic
disturbance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2006299658A
Other languages
English (en)
Other versions
JP2007133870A (ja
Inventor
ツー・キン・ラウ
レウング・シュム ピーター・キン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2007133870A publication Critical patent/JP2007133870A/ja
Application granted granted Critical
Publication of JP5147216B2 publication Critical patent/JP5147216B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • G06F11/3419Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment by assessing time
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/08Error detection or correction by redundancy in data representation, e.g. by using checking codes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • G06F11/3428Benchmarking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/3668Software testing
    • G06F11/3672Test management
    • G06F11/3688Test management for test execution, e.g. scheduling of test suites
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/3668Software testing
    • G06F11/3672Test management
    • G06F11/3692Test management for test results analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Description

本発明は、コンピューティング・システムに関する。本発明は、特にコンピューティング・システムのオートノミック性能即ち自己管理能力の定量的な測定に関する。
オートノミック・コンピューティング(AC)は、コンピューティング・システムの必要性を予測し、できるだけ少ない人手の介入で問題を解決する、というようなコンピューティング・システムの自己管理能力を云う。今日、多くの主要なハードウエアやソフトウエアのベンダーはAC性能に大きな投資を行っている。このため、コンピューティング・システムの能力を定量化することが重要である。
外乱(disturbance)注入(例えば、障害の注入)は、オートノミック・システムの可用性を評価するため組織をテストすることによって一般に使用されている技法である。図示のベンチマーキング・システムは、図1に示された従来技術に従って外乱注入を用いる。このベンチマーキング・システム10は、ベンチマーク・ドライバ12、及びテスト下のシステム(SUT)14を含む。ベンチマーク・ドライバ12は典型的なシステムの用法を表すよう設計されたワークロード16をSUT14に受けさせ、SUT14からの応答18を受ける。ベンチマーク結果20は、SUT14がその課されたワークロード16を如何に早く満足させることができるかということから引き出されるものであり、ベンチマーク・ドライバ12によって測定される。「自己修復」に対するSUT14の能力を評価するために外乱(障害)22がベンチマーク・ドライバ12によってSUT14に注入される。
従来技術に従う外乱注入技法24を図2に示す。その外乱注入技法24は図1に示したベンチマーキング・システム10のコンポーネンツに関連して以下で説明する。図示のとおり、「注入スロット」26の間、1個若しくはそれ以上の外乱22がベンチマーク・ドライバ12によってSUT14の中に注入され、一方でワークロード16がSUT14に課される。外乱22は、例えば、ソフトウエア障害、オペレータ・ミス、高レベルのハードウエア障害を含む。各注入スロット26は始動期間28、注入期間30、検出期間32、復旧期間34、維持期間36を含む複数の異なる期間を含む。始動期間28中、SUT14は安定状態条件が達成されるまで与えられるワークロード16で動く。注入期間30中、SUT14は所定の期間、安定状態で動き、その後、ベンチマーク・ドライバ12によりSUT14の中に障害22が注入される。検出期間32中は、SUT14による障害22の注入と、ベンチマーク・ドライバ12による(スクリプト化された)復旧手続きの開始との間の期間である。復旧期間34は、復旧手続きを実行するためにSUT14が必要とする期間を表す。維持期間36中は、SUT14は動き続ける(安定状態)。SUT14上の注入された障害22のインパクトは維持期間36の終了時に評価される。障害22は維持期間36の終了時に(選択的に)取り除かれる。
ACシステムには以下の3種類があり、夫々が障害に対し異なる応答を与える。
1.非オートノミック ― 手動障害検出及び手動復旧開始。例えば、データベース・システムのオペレータが、特定のプロセスに関する多くの苦情を受取ったことをヘルプ・デスクから知らされる。オペレータは、応答の際、そのデータベースに於ける望ましくないプロセスを終了させる。
2.完全オートノミック ― オートノミック障害検出及びオートノミック復旧開始。例えば、オートノミック・マネジャはシステム中に望ましくないプロセスがあることを調べ、人手の介入なしにそのプロセスを自動的に終了させる。
3.部分的オートノミック ― オートノミック障害検出及び手動復旧開始。例えば、オートノミック・マネジャシステム中に望ましくないプロセスがあることを調べ、警告やメッセージを送り出す。人間のオペレータはコンソール上または紙上の警告やメッセージを受取ることによりその問題を検出する。これに応答して、そのオペレータはその警告やメッセージで提供される情報に基づいてその望ましくないプロセスを突き止め、そのプロセスを終了させる。
伝統的な障害注入方法で以って、外乱22は安定状態動作中にSUT14に注入される。外乱22の注入後、ベンチマーク・ドライバ12は、その復旧手続きを開始する前に、外乱22のタイプに基づいて、所定量の時間(例えば、検出期間32)待機する。このようにして、伝統的な障害注入方法に於ける唯一の変数は復旧期間34の長さである。
上述のような伝統的なアプローチには幾つかの問題がある。例えば、
問題1: 検出された問題に関しオペレータに警告やメッセージを提供し、その検出された問題をどのように直すかについての情報を提供する部分的オートノミック・システムを扱うには柔軟性がある。このタイプの部分的オートノミック・システムは、例えば、警告やメッセージが紙や他のコミュニケーション装置を介しデータベース管理者に知らされるような多くのデータベース・システムに於いて優位を占めている。一定の検出期間32(例えば、復旧平均時間(MTTR)―― 障害を修復するのにかかった平均時間から導き出される)を使用するというのは、警告やメッセージを自動的に提供することが、問題を検出するための時間の長さを大きくカットするから、このタイプの状況には働かない。この点で、部分的オートノミック機能が存在する中で一定の検出期間32を使用すると、AC性能の、正確な若しくは反復可能な、あるいはその両方の測定を提供しない。
問題2: もしシステムが完全オートノミック自己修復システムであれば、ベンチマーク・ドライバ12は、問題の検出及び復旧のタイミングを制御することはない。一例を挙げればデータベース・システムに於けるRAID5ディスクの耐障害性である。こそのディスク・サブシステムはディスク故障を自動的に検出しその故障したディスクを自動的に迂回する。
従って、種々の度合いの自動化(例えば、非オートノミック、完全オートノミック,部分的オートノミック)を有するシステムのオートノミック性能を定量的に測定する改良された方法の必要性が存在する。
本発明は、概略、コンピューティング・システムのオートノミック性能の定量的な測定に関する。本発明は、特に、全てのタイプのオートノミック・コンピューティング・システム、特に部分的オートノミック・コンピューティング・システムのオートノミック性能を以下のような障害注入を行うことによって定量的に測定するように構成される。即ち、問題を検出するのに要する時間をシミュレートするための別個の調整可能な検出期間、並びにその問題に対処する復旧手続きを開始するのに要する時間をシミュレートするための別個の調整可能な復旧開始期間を用いて障害注入を行うことである。
本発明の第1の視点は、コンピューティング・システムのオートノミック能力を測定する方法にして、前記コンピューティング・システムにワークロードをかけるステップと、
前記コンピューティング・システムに外乱を注入するステップと、前記注入された外乱に応答して前記コンピューティング・システムが問題を検出したことを通知するステップと、前記検出された問題に対処する復旧手続きを開始するのに必要な時間量を決定するステップと、前記復旧手続きを実行するのに必要な時間量を決定するステップとを含む方法を指向する。
本発明の第2の視点は、コンピューティング・システムのオートノミック能力を測定するシステムにして、前記コンピューティング・システムにワークロードにかけるシステムと、前記コンピューティング・システムに外乱を注入するシステムと、前記注入された外乱に応答して前記コンピューティング・システムが問題を検出したことを通知するシステムと、前記検出された問題に対処する復旧手続きを開始するのに必要な時間量を決定するシステムと、前記復旧手続きを実行するのに必要な時間量を決定するシステムとを含むシステムを指向する。
本発明の第3の視点は、コンピューティング・システムのオートノミック能力を測定するために、コンピュータに以下の諸ステップを実行させるコンピュータ・プログラムであって、前記コンピューティング・システムにワークロードをかけるステップと、前記コンピューティング・システムに外乱を注入するステップと、前記注入された外乱に応答して前記コンピューティング・システムが問題を検出したことを通知するステップと、前記検出された問題に対処する復旧手続きを開始するのに必要な時間量を決定するステップと、前記復旧手続きを実行するのに必要な時間量を決定するステップとを含む、コンピュータ・プログラムを指向する。
一般に、本発明はコンピューティング・システムのオートノミック能力の定量的測定に関する。特に、本発明は、問題を検出するのにかかる時間をシミュレートするための別個の調整可能な検出期間と、その問題に対処する復旧手続きを開始する時間をシミュレートするための別個の調整可能な復旧開始期間とを用いた障害注入を行うことによって、全てのタイプのオートノミック・コンピューティング・システム、特に部分的オートノミック・コンピューティング・システムのオートノミック能力を定量的に測定するように構成することに関する。
本発明の実施例に従った障害注入を採用するベンチマーキング・システム100を図3に示す。このベンチマーキング・システム100はベンチマーク・ドライバ102及びテスト下のシステム(SUT)104を含む。ベンチマーク・ドライバ102は、代表的なシステムの用法を表すように設計されたSUT104にワークロード106をかけ、そのSUT104からの応答108を受ける。ベンチマーク結果110が、ベンチマーク・ドライバ102によって測定されるようにして、その課されたワークロード106をSUT104が如何に早く満足させ得るかということから導き出される。自己修復に対するSUT104の能力を評価するために外乱(障害)112がベンチマーク・ドライバ102によってSUT104に注入される。ベンチマーキング・システム100は更に、SUT104の中に外乱112を注入するのに応答して生じた問題をSUT104が自動的に検出したのをベンチマーク・ドライバ102に経路116で知らせるためのコールバック・システム114を含む。図示していないが、コールバック・システム114はベンチマーク・ドライバ102の中に導入することもできよう。本発明の一実施例では、コールバック・システム114は、問題の検出に応答してSUT104によって発生される警告やメッセージ118を受けるか又は遮断するように構成されることができる。その警告やメッセージ118は、SUT104によって発生されるような、例えばEメール、テキスト・メッセージ、記録済みのアナウンスを含んでいても良い。他の実施例に於いて、コールバック・システム114は、システム管理者のコンソール(操作卓)上に表示され或いはシステム・ログ・ファイルに含まれる、テキストの警告やメッセージの情報をモニター(監視)し、解析し、そして分析するように構成することができる。
本発明の実施例に従う例示の外乱注入方法120を図4に示す。その外乱注入方法120は、図3に示すベンチマーキング・システム100のコンポーネンツに関連して以下で説明する。図示のとおり、注入スロット122中、1個若しくは複数個の外乱112が、ベンチマーク・ドライバ102によってSUT104の中に注入され、一方でワークロード106がSUT104に与えられる。各注入スロット122は、始動期間124、注入期間126、検出期間128、復旧開始期間130、復旧期間132及び維持期間134を含む、複数個の異なる期間を含む。
始動期間124中、SUT104は安定状態条件が達成されるまで与えられるワークロード106で動く。注入期間126中、SUT104は所定の期間、安定状態で動き、その後、ベンチマーク・ドライバ102によりSUT104の中に障害112が注入される。従来技術の外乱注入方法24に関連して既に説明した検出期間32とは異なるが、本発明による検出期間128は、SUT104の中への外乱112の注入と、SUT104による問題の検出に応答してSUT104により発生される警告やメッセージ118のコールバック・システム114による検出との間の時間量である。
復旧開始期間130が検出期間128の後(例えば、注入された外乱112により引き起こされる問題がSUT104により検出され、且つ警告やメッセージ118が発生された後)に設けられる。復旧開始期間130は、SUT104により検出された特定の問題に対処するための復旧手続きを人間が開始するのにかかるであろう時間量を示す。即ち、復旧開始期間130は、外乱112の注入により引き起こされる問題の検出に応答して人間が介入するのをシミュレートする、予め定義された時間遅延である。一例として、復旧開始期間130は、オペレータが、警告若しくはメッセージ118に応答してシステム上で動くプロセスを終了させ、その問題の性質を決定し、そしてコマンド中のキーがその問題に対処するための診断ルーチンを開始するのにかかる総時間を含むことができる。特定の外乱の場合のための復旧開始期間130が、SUT104により検出される特定の問題に対処する復旧手続きを人間が開始するのにかかる時間量の、例えば統計的な研究(例えば平均化)から導き出せるだろう。他の技法も可能である。
所与の復旧開始期間130の長さは、ベンチマーク・ドライバ102によりSUT104に課される特定の外乱112(或いは一組の外乱112)に依存する。例えば、第1の外乱112「A」に関連する復旧開始期間130が1分の長さかも知れず、一方で第2の外乱112「B」に関連する復旧開始期間130が10分の長さということもあり得よう。このことは外乱112「B」に関連する特定の復旧手続きを開始するのに必要な時間が、外乱112「A」に関連する特定の復旧手続きを開始するのに必要な時間よりもはるかに長いこと(例えば10倍)を意味する。ベンチマーク・ドライバ102は、SUT104中に注入される所与の外乱112(若しくは一組の外乱112)に対する正確な復旧開始期間130を確立するため、表などをアクセスすることができる。
図4に戻ると、復旧期間132は、復旧開始期間130の終了時に開始される復旧手続きを実行するのにSUT104によって必要とされる時間量を表す。維持期間134中は、SUT14が動き続ける(安定状態)。SUT104上に注入された外乱112のインパクトは維持期間134の終了時に評価される。外乱112は維持期間36の終了時に(選択的に)取り除かれる。所与の障害のシナリオまたは障害のシステム構成に対する種々の期間124、126、128、130、132及び134の各々は,後のテスト分析のために(例えばベンチマーク結果110として)記録されることができる。
本発明のベンチマーキング・システム100は、異なる度合いの自動化(例えば、非オートノミック、完全オートノミック及び部分的オートノミック)を有するシステムのAC能力を測定するのに使用されることができる。例えば、本発明のベンチマーキング・システム100を用いる非オートノミックのSUT104のAC能力を測定する単純な場合を考えてみよう。注入期間126の終了時にベンチマーク・ドライバ102によって非オートノミックSUT104の中に外乱112が注入される。そこでベンチマーク・ドライバ102は、検出期間128及び(MTTRから導き出される可能性の高い)復旧開始期間130に一定の時間遅延を割り当てることができる。
完全オートノミックの場合は、完全オートノミックSUT104が、検出をし、人手の介入なしに1分の復旧手続きを開始すると仮定されたい。検出期間128及び復旧開始期間130の全長は1分となる。完全オートノミックSUT104がそれ自身で復旧するので、ベンチマーク・ドライバ102は検出期間128及び復旧開始期間130の長さにわたって制御しない。この場合、ベンチマーク・ドライバ102は、何もしないという「no-op」オペレーションを単に導入するだけでよい。ベンチマーク・ドライバ102は、その動作の終了時に多数の成功した処理を集めるだけである。完全オートノミックSUT104は自分自身で復旧するからである。完全オートノミック・システムのスコアは非オートノミック・システムのスコアよりも高くあるべきである。オートノミック検出及び復旧開始にかかる時間が、MTTRから導き出される一定の値よりもはるかに短いと考えられるからである。これは完全オートノミック・システムの利点を反映している。
部分的オートノミックの場合、その検出は自動であるが復旧はそうではない。問題の自動検出に応答して部分的オートノミックSUT104により発生される警告若しくはメッセージ118のせいで今や復旧時間が短くなったから、この場合はMTTRアプローチがうまく機能しない。このために、本発明のベンチマーク・ドライバ102は、検出期間128及び復旧開始期間130を別個に取り扱う。検出期間128は、外乱112が部分的オートノミックSUT104の中に注入されるときに開始し、警告若しくはメッセージ118が部分的オートノミックSUT104により発生されるときに終了する。コールバック・システム114は、或る問題に関する警告若しくはメッセージ118或いは他の通知が部分的オートノミックSUT104によりいつ検出されるかを調べるためにベンチマーク・ドライバ102によって使用される。そこでベンチマーク・ドライバ102は一定の時間遅延を復旧開始期間130に割り当てるが、これは人間がその検出された問題に応答して復旧開始を完遂させるのにかかるであろう時間量(例えば、平均時間量)を示す。この結果、部分的オートノミックSUT104のAC能力の、もっと正確で反復可能な測定が生じる。
本発明の実施例に従うコンピュータ・システムのオートノミック能力の定量的な測定のために使用されるコンピュータ・システム200を図5に示す。コンピュータ・システム200はコンピュータ・インフラストラクチャ202に設けられる。コンピュータ・システム200は、本発明の教示するところを実施することのできる任意のタイプのコンピュータ・システムを示そうとしている。例えば、コンピュータ・システム200は、ラップトップ・コンピュータ、デスクトップ・コンピュータ、ワークステーション、ハンドヘルド・コンピュータ(携帯式のコンピュータ)、サーバー、コンピュータ・クラスタなどで合って良い。更に以下で詳細に説明するが、本発明に従うコンピューティング・システムのオートノミック能力の定量的な測定を提供するサービス・プロバイダによって、コンピュータ・システム200は操作され、若しくは配置され、或いはその両方であっても良い。ユーザーや管理者204は、コンピュータ・システム200を直接にアクセスすることができるが、ネットワーク206(例えば、インターネット、広域ネットワーク(WAN)、ローカル・エリア・ネットワーク(LAN)、バーチャル・プライベート・ネットワーク(VPN)等)を介してコンピュータ・システム200とコミュニケートするコンピュータ・システムを操作することもできる。後者の場合、コンピュータ・システム200とユーザー操作のコンピュータ・システムとの間のコミュニケーションは、種々のタイプのコミュニケーション・リンクの任意の組み合わせを介して生じることもできる。例えば、コミュニケーション・リンクは、有線の、若しくは無線のまたはその両方の伝送方法の任意の組み合わせを用いることができるアドレス可能な接続を含むことができる。インターネットを介してコミュニケーションが行われる場合、従来からのTCP/IPのソケット・ベースのプロトコルにより接続性が提供されても良いし、またインターネット・サービス・プロバイダがインターネットへの接続を確立するのに使用されても良い。
コンピュータ・システム200は、プロセシング・ユニット(処理装置)208、メモリ210、バス212及びI/O(入出力)インターフェース214を含むように図示されている。更に、コンピュータ・システム200は外部の装置や資源216及び1個若しくは複数個の記憶ユニット218とコミュニケーションできるように図示されている。一般に、プロセシング・ユニット208は、ベンチマーキング・システム230などのために、メモリ210若しくは記憶ユニット218又はその両方に記憶された、コンピュータ・プログラム・コードを実行する。コンピュータ・プログラム・コードを実行する間、プロセシング・ユニット208はメモリ210、記憶ユニット218、I/Oインターフェース214間でデータを読み書きすることができる。バス212はコンピュータ・システム200中の各コンポーネンツ間のコミュニケーション・リンクを提供する。外部装置乃至資源216はユーザーがコンピュータ・システム200や任意の装置(例えば、ネットワーク・カード、モデム等)と相互作用することができるようにする任意の装置(例えば、キーボード、ポインティング装置、ディスプレイ(例えば、ディスプレイ220、プリンタ等)を含むことができる。前者の任意の装置というのは、そのコンピュータ・システム200が1個若しくは複数個の他のコンピュータ装置とコミュニケートすることができるようにするための装置である。
コンピュータ・インフラストラクチャ202は、本発明を実施するのに使用され得る種々のタイプのコンピュータ・インフラストラクチャを例示的にのみ示す。例えば、一実施例では、コンピュータ・インフラストラクチャ202は、本発明の種々の方法ステップを実行するのにネットワーク(例えばネットワーク206)を介してコミュニケートする2個以上のコンピューティング装置(例えば、サーバー・クラスタ)を含むことができる。更に、コンピュータ・システム200は、本発明を実施するのに使用され得る多くのタイプのコンピュータ・システムを代表的に示すだけであって、夫々がハードウエアとソフトウエアの多くの組み合わせを含むことができる。例えば、プロセシング・ユニット208は単一のプロセシング・ユニットを含んでいても、1箇所又は複数箇所に、例えば、クライアント、サーバーのように、分散配置されていても良い。同様に、メモリ210若しくは記憶システム216またはその両方は、1箇所ないし複数箇所の物理的位置に存する種々のタイプのデータ記憶ないし伝送媒体の任意の組み合わせを含むことができる。更に、I/Oインターフェース214は1個若しくは複数個の外部装置ないし資源216と情報を交換するための任意のシステムを含むことができる。更には、図5には示していない1個若しくは複数個の追加のコンポーネンツ(例えば、システム・ソフトウエア、数値演算コプロセッサ、キャッシュ・メモリ等)をコンピュータ・システム200に含むことができるのを理解されたい。しかし、もしもコンピュータ・システム200がハンドヘルド装置等を含むなら、1個若しくは複数個の外部装置ないし資源216(例えば、ディスプレイ)や1個若しくは複数個の記憶ユニット218が、図示のように外部ではなく、コンピュータ・システム200の内部に含まれていても良い。
記憶ユニット218は、例えばベンチマーク結果、復旧開始期間など、本発明の下での情報の記憶を行える任意のタイプのシステムであり得る。このため、記憶ユニット218が、磁気ディスク・ドライブや光ディスク・ドライブのような1個若しくは複数個の記憶装置を含むことができる。他の実施例では、記憶ユニット218が、例えばローカル・エリア・ネットワーク(LAN)、広域ネットワーク(WAN)、又は記憶エリア・ネットワーク(SAN)(図示せず)に分散したデータを含むことができる。図示していないが、キャッシュ・メモリ、コミュニケーション・システム、システム・ソフトウエアなど別のコンポーネンツを追加して組み込むこともできる。更に、図示してはいないが、ユーザーや管理者204により操作されるコンピュータ・システムがコンピュータ・システム200に関し、既に説明したのと似た、コンピュータ化したコンポーネンツを含むことができる。
メモリ210(例えば、コンピュータ・プログラム製品)には、SUT104のようなコンピューティング・システムのオートノミック能力の定量的な測定を与えるためのベンチマーキング・システム230が示される。このベンチマーキング・システム230は、ベンチマーク・ドライバ102を含む。ベンチマーク・ドライバ102は、代表的なシステムの用法を表すように設計されたワークロード106をSUT104に受けさせるように構成され、またSUT104からの応答を受取る。SUT104が如何に早くその課されたワークロード106を満足させることができるかということからベンチマーク(BM)結果110が引き出され、これはベンチマーク・ドライバ102によって測定される。外乱(障害)112がSUT104の中にベンチマーク・ドライバ102によって注入されるが、これは自己修復に対するSUT104の能力を評価するためである。ベンチマーキング・システム230は更にコールバック・システム114を含む。このコールバック・システム114は、SUT104の中に外乱112を注入するのに応答して生じた問題をSUT104が自動検出したときベンチマーク・ドライバ102にそのことを経路116で通知する。
本発明は、申し込み会費制または実費料金制でのビジネス方法として提供することもできる。例えば、本発明の1個若しくは複数個のコンポーネンツが、顧客のためのここで開示した機能を提供するサービス・プロバイダによって創製され、維持され、サポートされ、若しくは展開され、或いはこれらの一部若しくは全部が組み合わされたサービスとして提供される。即ち、サービス・プロバイダは、これまで説明したように、コンピューティング・システムのオートノミック能力の定量的な測定を与えるのに使用されることができる。
本発明がハードウエア、ソフトウエア、伝送信号、若しくはその任意の組み合わせで実現し得ることを理解されたい。任意の種類のコンピュータやサーバー・システム、ここで説明した方法を実行するように適用された他の装置も適切である。ハードウエア及びソフトウエアの任意の代表的な組み合わせは、汎用のコンピュータ・システムと、コンピュータにロードされ、実行されたとき、ここで開示した夫々の方法を実行するようなコンピュータ・プログラムとを含むものである。本発明は、コンピュータ・プログラム製品若しくは伝送信号に埋め込まれていて、ここで開示した方法の実施を可能にするような個々の特徴を全て含み、コンピュータ・システムにロードされたとき本発明の方法を実行するようなものである。
本発明は完全にハードウエアからなる実施例の形態を取ることも、完全にソフトウエアの実施例の形態を取ることも、またハードウエアとソフトウエアの両方を含む実施例の形態をとることもできる。好適な実施例では、本発明はソフトウエアで実現され、それがファームウエア、常駐のソフトウエア、マイクロコード等を、これらに限定するものはないが、含んでいても良い。
本発明は、コンピュータ若しくは命令実行システムによって、あるいはそれらとともに使用されるプログラム・コードを提供するコンピュータが利用できる媒体、またはコンピュータが読み取り得る媒体からアクセスし得るコンピュータ・プログラム製品の形態をとることができる。この説明の目的上、コンピュータが使用でき或いはコンピュータが読み取り得る媒体は、命令実行システム、装置若しくはデバイスによって或いはこれらとともに使用されるプログラムを含む、記憶する、コミュニケートする、伝送する、或いは搬送することのできる任意の装置とし得る。
その媒体は、電子的、磁気的、光学的、電磁気的、赤外線の、もしくは半導体のシステム(装置、若しくはデバイス)、または伝送媒体とし得る。コンピュータ読取り可能媒体の例は、半導体メモリ、固体メモリ、磁気テープ、取外し可能なコンピュータ用ディスケット、ランダム・アクセス・メモリ(RAM)、読出し専用メモリ(ROM)、磁気ハード・ディスク、光ディスクを含む。光ディスクの今日の実例は、コンパクト・ディスクの読出し専用ディスク(CD−ROM)、コンパクト・ディスクの読み書きディスク(CD−R/W)、及びディジタル多用途ディスク(DVD)を含む。
本発明のコンテクストに於いて、コンピュータ・プログラム、伝送信号、ソフトウエア・プログラム、プログラム、若しくはソフトウエアは、情報処理能力を有するシステムに、特定の機能を直接に実行、または下記(a)(b)のいずれかまたは両方の動作の後に実行させるよう企図された一群の命令の、任意の言語、コード若しくは表記法での任意の表現を意味する。即ち、下記のいずれかまたは両方の動作とは、(a)他の言語への変換、コード若しくは表記法、(b)異なる形態での再生である。
本発明の好適な実施例の上述の説明は例示及び説明の目的で提示したものである。開示したものと同じものに本発明を完全に開示したものではなく、また限定する意図はない。したがって多くの改造や変形が可能である。当業者に明白であるようなこのような改造や変形は特許請求の範囲によって定義されるような本発明の範囲内で含むことを意図している。
本発明の上記及びその他の特徴は、添付図面とともに示す本発明の種々の視点の詳細な説明から一層容易に理解できよう。なお、図は単に例示的な説明のためのものであり、本発明の特定のパラメータを描写する意図はない。図は単に本発明の代表的な実施例を示すだけであり、本発明の範囲を限定するとみなすべきではない。図に於いて、同様な参照番号は同様な要素を示す。
従来技術に従う外乱注入を採用したベンチマーキング・システムを示す図である。 従来技術に従う例示の外乱注入方法を示す図である。 本発明の実施例に従う例示の外乱注入を採用した例示のベンチマーキング・システムを示す図である。 本発明の実施例に従う例示の外乱注入方法を示す図である。 本発明の実施例に従う方法を導入する例示のコンピュータ・システムを示す図である。
符号の説明
100 ベンチマーキング・システム
102 ベンチマーク・ドライバ
104 テスト下のシステム(SUT)
106 ワークロード
108 応答
110 ベンチマーク結果
112 外乱
114 コールバック・システム
118 警告又はメッセージ
120 外乱注入方法
122 注入スロット
124 始動期間
126 注入期間
128 検出期間
130 復旧開始期間
132 復旧期間

Claims (7)

  1. コンピュータによって、テスト対象システム(SUT)のオートノミック能力を測定する方法であって、前記コンピュータが
    前記SUTにワークロードをかけるステップと、
    前記SUTに外乱を注入するステップと、
    前記SUTが注入された前記外乱によって発生した問題を自動的に検出したことの通知を受けるステップと、
    前記外乱の注入から前記通知までの時間(検出期間)に基づいて前記SUTの部分的なオートノミック能力を決定するステップと
    前記検出された問題に対処する復旧手続きを開始するのに必要な時間量(復旧開始期間)を決定するステップと、
    前記復旧手続きを実行するのに必要な時間量(復旧期間)を決定するステップと、を実行する方法。
  2. 前記通知を受けるステップが、前記SUTからEメール、テキスト・メッセージ、または記録済みのアナウンスを受けることを含む、請求項1に記載の方法
  3. 前記復旧開始期間が、前記SUTに注入される前記外乱に依存する、請求項に記載の方法。
  4. 前記復旧手続きを実行するのに必要な時間量が復旧期間を含む、請求項に記載の方法。
  5. 前記復旧開始期間が、前記通知に応答して人手による介在をシミュレートする予め定義した時間遅延を表す、請求項に記載の方法。
  6. 前記検出期間、前記復旧開始期間及び前記復旧期間が前記コンピューティング・システムのオートノミック能力の測定に用いられる、請求項1に記載の方法。
  7. 請求項1乃至のいずれか1項に記載の方法の各ステップを前記コンピュータに実行させるためのコンピュータ・プログラム。
JP2006299658A 2005-11-07 2006-11-02 コンピューティング・システムのオートノミック能力を測定するための方法、システム及びコンピュータ・プログラム Active JP5147216B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/268,221 2005-11-07
US11/268,221 US7539904B2 (en) 2005-11-07 2005-11-07 Quantitative measurement of the autonomic capabilities of computing systems

Publications (2)

Publication Number Publication Date
JP2007133870A JP2007133870A (ja) 2007-05-31
JP5147216B2 true JP5147216B2 (ja) 2013-02-20

Family

ID=38082844

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006299658A Active JP5147216B2 (ja) 2005-11-07 2006-11-02 コンピューティング・システムのオートノミック能力を測定するための方法、システム及びコンピュータ・プログラム

Country Status (5)

Country Link
US (1) US7539904B2 (ja)
JP (1) JP5147216B2 (ja)
KR (1) KR100985959B1 (ja)
CN (1) CN100478905C (ja)
TW (1) TWI393001B (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4962239B2 (ja) * 2007-09-20 2012-06-27 大日本印刷株式会社 リソース使用量取得装置、リソース使用量取得方法、及びリソース使用量取得処理プログラム
WO2011094484A1 (en) 2010-01-28 2011-08-04 Drexel University Detection, diagnosis, and mitigation of software faults
US11204861B2 (en) * 2019-03-05 2021-12-21 Honeywell International Inc. Systems and methods for fault injection and ensuring failsafe FMS SaaS platforms
US11310680B2 (en) 2020-08-26 2022-04-19 Spirent Communications, Inc. Reusing provisioned resources during heterogeneous component-based testing in a portable automation framework
US11269712B1 (en) * 2020-08-26 2022-03-08 Spirent Communications, Inc. Customized categorial error handling framework for heterogeneous component-based testing in a portable automation framework
US11449414B2 (en) 2020-08-26 2022-09-20 Spirent Communications, Inc. Mapping test parameter data elements during heterogeneous component-based testing in a portable automation framework in both API mode and UI mode
US11216347B1 (en) 2020-08-26 2022-01-04 Spirent Communications, Inc. Automatically locating resources using alternative locator expressions during heterogeneous component-based testing in a portable automation framework
US12013777B2 (en) 2020-08-26 2024-06-18 Spirent Communications, Inc. Controlling heterogeneous component-based testing in a portable automation framework with test scripts in both API mode and UI mode
US11748242B2 (en) * 2021-02-17 2023-09-05 Atlassian Pty Ltd. Proactive monitoring of a software application framework

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6442694B1 (en) * 1998-02-27 2002-08-27 Massachusetts Institute Of Technology Fault isolation for communication networks for isolating the source of faults comprising attacks, failures, and other network propagating errors
US6971048B1 (en) * 1998-06-15 2005-11-29 Sun Microsystems, Inc. Testing device driver hardening
US6484276B1 (en) * 1999-10-25 2002-11-19 Lucent Technologies Inc. Method and apparatus for providing extensible object-oriented fault injection
US6442494B1 (en) * 2000-02-23 2002-08-27 Autoliv Asp, Inc. Method and circuit for detecting batteries in a distributed battery network
US6418068B1 (en) * 2001-01-19 2002-07-09 Hewlett-Packard Co. Self-healing memory
US7194445B2 (en) * 2002-09-20 2007-03-20 Lenovo (Singapore) Pte. Ltd. Adaptive problem determination and recovery in a computer system
JP2005004699A (ja) * 2003-06-16 2005-01-06 Trecenti Technologies Inc コンピュータシステム異常検出システム、コンピュータシステム異常検出方法およびコンピュータシステム
JP4189854B2 (ja) * 2003-07-28 2008-12-03 新日鉄ソリューションズ株式会社 障害時動作検証装置及び障害時動作検証方法
US7467333B2 (en) * 2005-09-01 2008-12-16 Hewlett-Packard Development Company, L.P. System and method for interposition-based selective simulation of faults for access requests to a data storage system

Also Published As

Publication number Publication date
JP2007133870A (ja) 2007-05-31
US20070168751A1 (en) 2007-07-19
CN100478905C (zh) 2009-04-15
KR100985959B1 (ko) 2010-10-06
CN1963779A (zh) 2007-05-16
US7539904B2 (en) 2009-05-26
TWI393001B (zh) 2013-04-11
KR20070049064A (ko) 2007-05-10
TW200805049A (en) 2008-01-16

Similar Documents

Publication Publication Date Title
JP5147216B2 (ja) コンピューティング・システムのオートノミック能力を測定するための方法、システム及びコンピュータ・プログラム
US6694288B2 (en) System and method for automated analysis of load testing results
JP5325230B2 (ja) 関連のネットワーク・トポロジを有する指定のトランザクション・サーバの動作をモニターするための方法、コンピュータ・プログラム、および装置(e‐ビジネス・システムのパフォーマンスおよび可用性をモニターするために動的にスケジュールされた合成トランザクションを使用するための方法)
US7496795B2 (en) Method, system, and computer program product for light weight memory leak detection
US9405666B2 (en) Health monitoring using snapshot backups through test vectors
US7747986B2 (en) Generating static performance modeling factors in a deployed system
US20070203973A1 (en) Fuzzing Requests And Responses Using A Proxy
US20120084605A1 (en) Replaying captured network traffic
CN108287775A (zh) 一种服务器故障检测的方法、装置、设备及存储介质
US11086752B2 (en) Methods, systems, and computer readable media for vendor-neutral testing and scoring of systems under test
CN111597099B (zh) 一种监测部署于云平台的应用运行质量的无侵入仿真方法
US20070086350A1 (en) Method, system, and computer program product for providing failure detection with minimal bandwidth usage
CN116405412B (zh) 基于混沌工程故障模拟服务端集群有效性验证方法和系统
US9195562B2 (en) Recording external processes
US20160259578A1 (en) Apparatus and method for detecting performance deterioration in a virtualization system
JP2019012477A (ja) 診断プログラム、診断方法及び診断装置
TW201640371A (zh) 雲桌面效能測試器叢集建置之方法與架構
US10795805B2 (en) Performance engineering platform and metric management
Cisco White Paper: Monitoring Cisco Unity Performance
JP2014137635A (ja) 応答時間監視プログラム、方法および応答時間監視装置
Lo et al. An architecture for cloud service testing and real time management
RU2748963C2 (ru) Система и способ выявления проблем функционирования сервисов в сети передачи данных, содержащей виртуальные машины
CN111176916B (zh) 数据存储故障诊断方法及系统
CN112272126A (zh) 业务应用的失效监测方法、计算机设备和存储介质
CN117931622A (zh) 设备的测试方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090828

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120622

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120717

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120918

RD12 Notification of acceptance of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7432

Effective date: 20120918

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20120918

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121106

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20121106

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121127

R150 Certificate of patent or registration of utility model

Ref document number: 5147216

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151207

Year of fee payment: 3