JP4792047B2

JP4792047B2 - システム可用性の計算方法

Info

Publication number: JP4792047B2
Application number: JP2007557671A
Authority: JP
Inventors: ナラヤン・ランジャニ; バラダラジャン・ケシャバン; ナタナサバパシー・ガウタム
Original assignee: Hewlett Packard Development Co LP
Current assignee: Hewlett Packard Development Co LP
Priority date: 2005-03-03
Filing date: 2005-03-03
Publication date: 2011-10-12
Anticipated expiration: 2025-03-03
Also published as: JP2008532170A; EP1859365A4; US7756803B2; EP1859365A1; US20080168314A1; EP1859365B1; WO2006092806A1

Description

本発明はシステム可用性の計算に関する。

システムが古くなるにつれて、システム内の構成要素がますます故障しやすくなる。故障は、ハードウェア領域及びソフトウェア領域の両方で発生する可能性がある。ハードウェア領域での故障の例は、メモリ、ディスク、プロセッサキャッシュ等の故障である。ソフトウェア領域には、オペレーティングシステム及びアプリケーション又はミドルウェアソフトウェア等のシステムソフトウェアが含まれ、ソフトウェアパフォーマンスが、既存のソフトウェアに対する新しいハードウェアの影響により低減する恐れがある。さらに、あまり使用されないパスでソフトウェアエラーが発生する確率が、時間の経過に伴って増大する。メモリリーク等の故障も、時間の経過に伴ってより顕著になる。

事後対応手法が、故障が発生した後でのみ修正アクションがとられる上記問題に対する従来の手法である。

しかし、故障によっては、システムがオンラインであるときに修正できるものがある。これらの故障の例は、プロセッサキャッシュ交換（今日のプロセッサには故障したキャッシュラインを交換するという不測の事態に備えて余分なキャッシュラインが製造されている）、処理能力の低下によるプロセスの再開又は別のプロセッサへのマイグレーション等である。故障修正を行う目的は、人的介入なしでシステム及び最終的にはビジネスプロセスの実行を継続させることである。しかし、こういった修正にはオーバーヘッドが伴い、システムパフォーマンスに対して悪影響を及ぼす。故障の数が多いほど、アプリケーション並びにアプリケーションによりサポートされるサービス及びプロセス、たとえば、ビジネスプロセスに対する影響が、サービス品質（ＱｏＳ）の点で大きくなる。

故障予測により、実際に故障が発生する前に事前対応的な修正アクションが行われる、システムでの故障修正に対する事前対応手法には、事後対応手法と比較して大きな利点があり、たとえば、結果としてサービス品質を所望のレベルよりも上に保持することになる。しかし、この手法を実施するには、システム全体により提供されるサービス品質が所望の又は取り決められているサービスレベルよりも下がる可能性があるのはいつかを判断する何等かの方法が必要である。

従来の耐故障性方法は、資源をかなりの程度まで複製して、システムの非可用性を劇的に低減することである。たとえば、マシンの可用性確率が０．９６の場合、同種のマシンを２台配置することにより、非可用性確率は０．００４〜０．００１６に低減する。このような耐故障性方法は、全資源の複製が現実的には不可能なため、大規模環境ではあまりうまくスケーリングされない。さらに、製造業者により提供される可用性仕様は、多くの場合に平均に基づいた生産時での数的指標であり、特定の動作環境での特定の構成要素の故障を示さない。
米国特許出願公開第２００４／２２５６４９号

本発明は、システム可用性を計算する方法を提供することを目的とする。

本発明によれば、複数の構成要素を含むシステムの可用性を予測する方法であって、システムのハザードレートを求めること、システムの平均修復レートを求めること、並びにシステムハザードレート及びシステム平均修復レートからシステムの可用性を計算することを含む方法が提供される。

システム可用性の予測は、システム動作中に行うことができ、それにより、システムの実行を継続させて指定されているサービス品質を提供する基礎を形成する。システムを構成している各種構成要素が常時監視され、その信頼性が計算され、ひいては、故障発生パターンを密に調べることによりその可用性が予測される。したがって、エラーがシステムで発生すると、システムの瞬間可用性が常時再評価される。

システムのハザードレートを求めるステップは、構成要素間の相互接続を含むシステム構造を判断すること、各構成要素のハザードレートを求めること、及び構成要素ハザードレートからシステムハザードレートを求めることを含むことができる。

システムハザードレートを構成要素ハザードレートから求めるステップは、判断される構造に基づいて各構成要素のハザードレートを結合することを含むことができる。

結合は、インピーダンス間の相互接続を含むインピーダンスネットワーク構造の場合に等価インピーダンスを計算する方法と同様の方法で行うことができる。

各構成要素のハザードレートを求めるステップは、システム動作中に各構成要素を監視してエラー履歴を確定することを含むことができる。製造業者により提供される非ライブの平均可用性の数字とは対照的に、システムがライブ状態である間に監視を行うことにより、真のエラーレートひいては可用性を求めることができる。

エラー履歴は、所定の時間期間に発生するエラー数を含むことができる。

本方法は、エラー履歴をエラー閾値と比較すること、及びエラー履歴を所与としてエラー閾値を超える確率としてハザードレートを求めることをさらに含むことができる。

システムの平均修復レートを求めるステップは、各構成要素の平均修復レートを求めること、平均修復レートに基づいて各構成要素の個々の可用性を計算すること、個々の可用性に基づいて定常状態システム可用性を計算すること、及び定常状態システム可用性からシステムの平均修復レートを計算することを含むことができる。

定常状態システム可用性を計算するステップは、個々の各構成要素の重みが他の構成要素に対するその構成要素の重要性を表す重み付き関数を計算することを含むことができる。

システム可用性は、故障によるオーバーヘッドが最小に抑えられるように、適当なアクションをとるため、たとえば、予測に基づいて修正するための数的指標として用いることができる。これらの例は、システム管理者が、故障する可能性のあるハードウェア、たとえば、可用性予測により近い将来での故障が示されるプロセッサを、システム実行中に交換（オンライン交換）すること、及びパフォーマンス低下を観測した後にプロセスをマイグレーションするのとは対照的に、予測可用性によりプロセスパフォーマンスの低下が示される場合にプロセスを他のハードウェアにマイグレーションすることである。

本発明によれば、システムを所定のサービスレベルに維持する装置であって、システムのエラーを監視する手段と、エラーに基づいてシステムの可用性を予測する手段と、予測可用性に応答して動作する手段であって、それによって、システムを所定のサービスレベルに維持する、動作する手段とを備える装置がさらに提供される。

図１は、いくつかのレイヤを含む汎用システムを示す。各レイヤは、システム全体に機能を提供する構成要素である。さらに、各レイヤ自体は、サービス又はプロセス、たとえば技術的又は商業的なプロセスを実施するという最終目的を有し、所定の方法で共に接続される多数の他の構成要素を含む。

各構成要素はサービスの実行に貢献し、それ自体の故障特徴を有する。これらの故障は、故障の種類に応じて様々な様式でサービスに影響を及ぼす。もちろん、下位レイヤ、特にハードウェアレイヤでの構成要素の可用性は、上位レイヤでの構成要素の可用性に影響する可能性を有する。

任意の時点でのシステム可用性は、瞬間可用性とも呼ばれ、サービス要件、たとえばビジネスプロセスに課されたサービス品質要件を満たすシステム能力の指示を提供する。任意の時点「ｔ」でのシステムの瞬間可用性は以下の式により与えられる。

（式１）システムの瞬間可用性

式中、

はシステムの瞬間可用性であり、

はシステムのハザードレートであり、

はシステムの平均修復レートである。

システムのハザードレート

はシステムの瞬間故障確率である。システムの平均修復レート

はシステムを修復できるレートである。これは、システムの平均修復時間（ＭＴＴＲ）の逆数である。

システム可用性を求めることができる方法を図２に概略的に示す。さまざまな個々の構成要素が互いにどのように接続されているかを判断するために、システムの内部組成をまず判断する必要がある（ステップｓ１）。次に、個々の構成要素のハザードレートを、以下に詳細に説明するように計算することができる（ステップｓ２）。次に、個々の構成要素のハザードレートを結合して、システムハザードレートが生成される（ステップｓ３）。次に、個々の各構成要素の平均修復レートが、これもまた以下に詳細に説明するように計算される（ステップｓ４）。システム平均修復レートは、個々の構成要素の平均修復レートから計算される（ステップｓ５）。最後に、システム可用性が上記式１を用いて計算される。

システムの各構成要素はそれ自体のハザードレートλを有し、これは、その構成要素の瞬間故障確率である。複雑なシステムは、直列及び並列又はこれらのいずれか（直列及び／又は並列）に接続された複数の構成要素として表すことができる。次に、直列及び／又は並列に接続されたいくつかのインピーダンスで構成される電気回路のインピーダンスを計算するのと同様にして個々のハザードレートを結合することにより、システム全体のシステムハザードレートを計算することができる。

ハザードレートを求めるプロセスについて、図３を参照してこれより説明する。個々の各構成要素のハザードレートを得るために、エラー監視がシステム動作中に行われて、エラー履歴が確定される（ステップｓ２０）。ハザードレートは、エラー履歴、エラー閾値、及び構成要素の品質の関数である。エラー閾値は許される最大エラー数を定義し、これを超えると、構成要素は故障したとみなされる。エラー履歴は、現時点までの構成要素のエラー挙動を定義する。したがって、エラー履歴がエラー閾値と比較されて、発生したエラー数がエラー閾値を超えるか否かが判断される（ステップｓ２１）。超える場合、構成要素は故障したと判断される（ステップｓ２２）。超えない場合、構成要素のハザードレートを計算することができる。構成要素の品質はリリース時の品質によって決まり、製造品の場合にはバッチの品質であり得る。

ハザードレートは、エラー履歴を所与として構成要素がエラー閾値を超える確率として計算される。たとえば、プロセッサのエラー閾値が、２４時間で３個のエラーに設定され、現在のエラー履歴により、２個のエラーが１２時間以内に発生したことが示される場合、３個目のエラーでエラー閾値を超えることになるため、ハザードレートは次の１２時間以内に３個目のエラーが発生する確率である。

ハザードレートは、構成要素の特徴に基づいて、ガウス、ポアソン、指数等の標準確率密度関数に従うと仮定され、確率密度関数は、様々な時点での相対故障確率を示す。次の１２時間以内に故障が発生する確率は、分布の分散により支配される。

再び図３を参照すると、上述したように、構成要素ハザードレートプロファイル（確率密度関数）を検索し（ステップｓ２３）、構成要素ハザードレートを計算する（ステップｓ２４）ことができる。

次に、上述したような複雑な電気回路での等価インピーダンスを計算する既知の方法と同様にして、個々のハザードレートを結合することにより、システム全体のハザードレートを計算することができる（ステップｓ２５）。たとえば、図４は、第１及び第２の構成要素１０、１１が並列接続され、この組み合わせが第３の構成要素１２に直列接続するシステム構成を示す。各構成要素には、それ自体の個々のハザードレートλ₁、λ₂、λ₃がそれぞれ関連付けられる。この場合、システムハザードレートは、

（式２）システムハザードレート

である。

構成要素及びシステムの信頼性も、上記の構成要素ハザードレート及びシステムハザードレートを所与として計算することができる。

個々の構成要素のハザードレートが分かると、式
Ｒ＝ｅ^-λt
（式３）構成要素の信頼性
を用いて個々の信頼性を計算することができる。式中、
Ｒは構成要素の信頼性であり、
λは構成要素ハザードレートであり、
ｔは、最初のエラー後の、信頼性が査定されている時間である。

システムハザードレートを用い、以下の式を用いてシステムの信頼性を計算することができる。

（式４）システムの信頼性

式中、

はシステムの信頼性であり、

はシステムハザードレートであり、
ｔは、最初のエラー後の、信頼性が査定されている時間である。

あらゆる構成要素は、それ自体のハザードレートを有するのと全く同じように、それ自体の平均修復レートμも有する。平均修復レートとは、構成要素のエラーを修正できるレートである。平均修復レートは、冗長構成要素がない場合、構成要素の故障により動作を再び実施するのにかかる時間量の逆数である。冗長構成要素があり、故障前の状態を構成要素間で転送できると仮定した場合、平均修復レートは、冗長構成要素を起動するのにかかる時間の逆数である。たとえば、冗長構成要素の起動時間が１ｍｓである場合、平均修復レートは１０００ｓ^-1である。

さらなる例として、メモリページの割り振り解除の場合、ペナルティは、影響を受けるページをディスクからメモリにリロードすることである。この場合、平均修復レートは平均メモリページロード待ち時間の逆数である。同様に、プロセッサが失われ、プロセス状態が保存されていない場合、最悪の場合の修復レートは、最大ロード時間を有するアプリケーションを再開するのにかかる時間の逆数である。しかし、悲観的な可用性が望まれない場合、平均値を想定することもできる。より楽観的な値の場合、平均修復時間を用いることもできる。

したがって、図２のステップｓ４に示す平均修復レートの計算は、各構成要素で異なる個々の計算である。

システム全体の平均修復レート

を得る方法について、図５を参照してこれより説明する。

まず、個々の平均修復レートμが上述したように計算される（ステップｓ５０）。次に、各構成要素の個々の（定常状態での）可用性が、以下の式を用いて計算される（ステップｓ５１）。
Ａ＝μ／（λ＋μ）
（式５）構成要素の定常状態可用性
式中、
Ａは個々の構成要素の定常状態可用性であり、
μは構成要素の平均修復レートであり、
λは個々の構成要素のハザードレートである。

次に、システム全体の可用性

が、以下の式に従ってすべての構成要素の可用性の重み付き関数を用いて計算される（ステップｓ５２）。

（式６）システム全体の定常状態可用性

式中、

はシステム全体の定常状態可用性であり、
Ａ_iは選択された構成要素ｉの定常状態可用性であり、
ｗ_iは選択された構成要素ｉの個々の重み係数である。

重み係数は、最も重要な構成要素とあまり重要ではない構成要素とを差別化するシステムの特異性を取り込むために用いられる。たとえば、システムが可用であるためには、コンピュータシステムのマザーボードが可用でなければならないため、これが最も重要な構成要素であり、その一方でフロッピー（登録商標）ディスクドライブの重要性ははるかに低く、システムの可用性に影響を及ぼす必要性はほんのわずかしかない。

次に、システムの平均修復レートが公式

（式７）システム全体の平均修復レート

から計算される（ステップｓ５３）。式中、

はシステム全体の定常状態可用性であり、

はシステム全体の平均修復レートであり、

はシステム全体のハザードレートである。

上記式２からシステムハザードレートを計算し、上記式６からシステムの定常状態可用性を計算した。したがって、これらの値を所与として、システムの平均修復レートを、式７を用いて計算することができる。

次に、最後として、システムの瞬間可用性

を、図２のステップｓ６に示すように上記式１から計算することができる。

システムの各種構成要素、内部編成、及び構成要素間の関係並びに構成要素のハザードレート及び修復レートが分かれば、上述した方法及び式を任意の種類のシステムで使用できることが認められよう。この方法は、構成要素の種類に関係なく、たとえばこれらの構成要素が、ハードウェアを含むか、ソフトウェアを含むか、ファームウェアを含むか、又はミドルウェアを含むかに関係なく適用することが可能である。

図６は、動作システム１を監視し、システムが所定のサービス品質レベルよりも低下せず、最終的に故障しないように図るために使用されるモジュールの組み合わせを示す。エラー監視モジュール２０が、ライブシステム１に対してエラー監視を実行する。エラーが検出されると、システムの可用性が、可用性予測モジュール２１により上述した式及び方法に基づいて再評価される。最後に、可用性予測がプリエンプティブアクションモジュール２２により用いられて、システム１に対して任意の必要な変更が行われ、たとえば、故障する可能性のある構成要素を自動的に迂回し、又は他の保守・修復サービスを実行できるようにする。プリエンプティブアクションモジュールは別法として、オペレータに必要なアクションを通知することもできる。

ハードウェアからサービス／プロセスまでの複数のレイヤを含む汎用システムの概略図である。本発明によるシステム可用性判断の全体を示す流れ図である。本発明による構成要素ハザードレートの計算を示す流れ図である。個々の構成要素ハザードレートを結合してシステムハザードレートを求めることの原理を示す概略図である。システムの平均修復レートの計算を示す流れ図である。システムのエラー監視から得られるシステム可用性の常時再評価に基づいてシステムを所定のサービスレベルに維持するためのプリエンプティブアクションをとるための装置を示す。

符号の説明

１０・・・構成要素
１１・・・構成要素
１２・・・構成要素
１・・・動作システム
２０・・・エラー監視モジュール
２１・・・可用性予測モジュール
２２・・・プリエンプティブアクションモジュール

Claims

複数の構成要素を含むコンピュータシステムの可用性を計算する方法であって、前記方法は、装置によって実現され、
前記装置の構成部分であるエラー監視モジュールが、前記システムのハザードレートを求めることと、
前記エラー監視モジュールによってエラーが監視される場合に、前記装置の構成部分である可用性算出モジュールが、前記システムの平均修復レートを求めることと、
前記可用性算出モジュールが、前記エラー監視モジュールによって求められたシステムハザードレートと当該可用性算出モジュールによって求められたシステム平均修復レートとをパラメータとした時間ｔの関数に基づいて、任意の時間ｔにおける前記システムの瞬間可用性を計算することと
を含み、
前記システムの平均修復レートを求めるステップは、
前記構成要素のそれぞれの平均修復レートを求めることと、
前記構成要素のそれぞれの平均修復レートと前記構成要素のそれぞれのハザードレートとに基づいて前記構成要素のそれぞれの個々の可用性を計算することと、
前記構成要素のそれぞれの個々の可用性と、より重要な構成要素がシステム可用性により大きな影響を及ぼすように各構成要素に設定される重み係数との関数に基づいて、定常状態システム可用性を計算することと、
前記定常状態システム可用性と前記システムのハザードレートとから前記システムの前記平均修復レートを計算することと
を含む
方法。
前記システムのハザードレートを求めるステップは、
前記構成要素間の相互接続を含むシステムの構造を判断することと、
前記構成要素のそれぞれのハザードレートを求めることと、
前記判断されたシステム構造に基づいて、各構成要素が並列接続されている場合は構成要素ハザードレートの積を各構成要素ハザードレートの和で除算し、各構成要素が直列接続されている場合は構成要素ハザードレートの和を求めることにより、前記構成要素ハザードレートから前記システムハザードレートを求めることと
を含む
請求項１に記載の方法。
前記構成要素のそれぞれのハザードレートを求めるステップは、
前記システムの動作中に該構成要素のそれぞれを監視してエラー履歴を構築することと、
前記構築されたエラー履歴をエラー閾値と比較することと、
前記エラー履歴を所与として前記エラー閾値を超える確率として前記ハザードレートを求めることと
を含む
請求項２に記載の方法。
前記エラー履歴は、所定の時間期間中に発生するエラーの数を含む
請求項３に記載の方法。
前記システムの可用性を計算するステップは、
式
Ａ＝μ／（λ＋μ）
に従って構成要素の個々の可用性を計算すること
を含み、式中、
Ａは個々の構成要素の前記可用性であり、
μは前記構成要素の前記平均修復レートであり、
λは前記構成要素の前記ハザードレートである
請求項１〜４のいずれか１項に記載の方法。
前記システムの平均修復レートを求めるステップは、
式

に従って前記システムの前記平均修復レートを計算すること
を含み、式中、

は前記システムの前記定常状態可用性であり、

は前記システムの前記平均修復レートであり、

は前記システムの前記ハザードレートである
請求項１〜５のいずれか１項に記載の方法。
前記システムの瞬間可用性を計算するステップは、
式

を用いて前記システムの瞬間可用性を計算すること
を含み、式中、

は任意の時点ｔにおける前記システムの瞬間可用性であり、

は前記システムハザードレートであり、

は前記システムの前記平均修復レートである
請求項１〜６のいずれか１項に記載の方法。