JP4792047B2 - システム可用性の計算方法 - Google Patents

システム可用性の計算方法 Download PDF

Info

Publication number
JP4792047B2
JP4792047B2 JP2007557671A JP2007557671A JP4792047B2 JP 4792047 B2 JP4792047 B2 JP 4792047B2 JP 2007557671 A JP2007557671 A JP 2007557671A JP 2007557671 A JP2007557671 A JP 2007557671A JP 4792047 B2 JP4792047 B2 JP 4792047B2
Authority
JP
Japan
Prior art keywords
availability
rate
component
components
hazard
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007557671A
Other languages
English (en)
Other versions
JP2008532170A (ja
Inventor
ナラヤン・ランジャニ
バラダラジャン・ケシャバン
ナタナサバパシー・ガウタム
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hewlett Packard Development Co LP
Original Assignee
Hewlett Packard Development Co LP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hewlett Packard Development Co LP filed Critical Hewlett Packard Development Co LP
Publication of JP2008532170A publication Critical patent/JP2008532170A/ja
Application granted granted Critical
Publication of JP4792047B2 publication Critical patent/JP4792047B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/008Reliability or availability analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/076Error or fault detection not based on redundancy by exceeding limits by exceeding a count or rate limit, e.g. word- or bit count limit

Landscapes

  • Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Description

本発明はシステム可用性の計算に関する。
システムが古くなるにつれて、システム内の構成要素がますます故障しやすくなる。故障は、ハードウェア領域及びソフトウェア領域の両方で発生する可能性がある。ハードウェア領域での故障の例は、メモリ、ディスク、プロセッサキャッシュ等の故障である。ソフトウェア領域には、オペレーティングシステム及びアプリケーション又はミドルウェアソフトウェア等のシステムソフトウェアが含まれ、ソフトウェアパフォーマンスが、既存のソフトウェアに対する新しいハードウェアの影響により低減する恐れがある。さらに、あまり使用されないパスでソフトウェアエラーが発生する確率が、時間の経過に伴って増大する。メモリリーク等の故障も、時間の経過に伴ってより顕著になる。
事後対応手法が、故障が発生した後でのみ修正アクションがとられる上記問題に対する従来の手法である。
しかし、故障によっては、システムがオンラインであるときに修正できるものがある。これらの故障の例は、プロセッサキャッシュ交換(今日のプロセッサには故障したキャッシュラインを交換するという不測の事態に備えて余分なキャッシュラインが製造されている)、処理能力の低下によるプロセスの再開又は別のプロセッサへのマイグレーション等である。故障修正を行う目的は、人的介入なしでシステム及び最終的にはビジネスプロセスの実行を継続させることである。しかし、こういった修正にはオーバーヘッドが伴い、システムパフォーマンスに対して悪影響を及ぼす。故障の数が多いほど、アプリケーション並びにアプリケーションによりサポートされるサービス及びプロセス、たとえば、ビジネスプロセスに対する影響が、サービス品質(QoS)の点で大きくなる。
故障予測により、実際に故障が発生する前に事前対応的な修正アクションが行われる、システムでの故障修正に対する事前対応手法には、事後対応手法と比較して大きな利点があり、たとえば、結果としてサービス品質を所望のレベルよりも上に保持することになる。しかし、この手法を実施するには、システム全体により提供されるサービス品質が所望の又は取り決められているサービスレベルよりも下がる可能性があるのはいつかを判断する何等かの方法が必要である。
従来の耐故障性方法は、資源をかなりの程度まで複製して、システムの非可用性を劇的に低減することである。たとえば、マシンの可用性確率が0.96の場合、同種のマシンを2台配置することにより、非可用性確率は0.004〜0.0016に低減する。このような耐故障性方法は、全資源の複製が現実的には不可能なため、大規模環境ではあまりうまくスケーリングされない。さらに、製造業者により提供される可用性仕様は、多くの場合に平均に基づいた生産時での数的指標であり、特定の動作環境での特定の構成要素の故障を示さない。
米国特許出願公開第2004/225649号
本発明は、システム可用性を計算する方法を提供することを目的とする。

本発明によれば、複数の構成要素を含むシステムの可用性を予測する方法であって、システムのハザードレートを求めること、システムの平均修復レートを求めること、並びにシステムハザードレート及びシステム平均修復レートからシステムの可用性を計算することを含む方法が提供される。
システム可用性の予測は、システム動作中に行うことができ、それにより、システムの実行を継続させて指定されているサービス品質を提供する基礎を形成する。システムを構成している各種構成要素が常時監視され、その信頼性が計算され、ひいては、故障発生パターンを密に調べることによりその可用性が予測される。したがって、エラーがシステムで発生すると、システムの瞬間可用性が常時再評価される。
システムのハザードレートを求めるステップは、構成要素間の相互接続を含むシステム構造を判断すること、各構成要素のハザードレートを求めること、及び構成要素ハザードレートからシステムハザードレートを求めることを含むことができる。
システムハザードレートを構成要素ハザードレートから求めるステップは、判断される構造に基づいて各構成要素のハザードレートを結合することを含むことができる。
結合は、インピーダンス間の相互接続を含むインピーダンスネットワーク構造の場合に等価インピーダンスを計算する方法と同様の方法で行うことができる。
各構成要素のハザードレートを求めるステップは、システム動作中に各構成要素を監視してエラー履歴を確定することを含むことができる。製造業者により提供される非ライブの平均可用性の数字とは対照的に、システムがライブ状態である間に監視を行うことにより、真のエラーレートひいては可用性を求めることができる。
エラー履歴は、所定の時間期間に発生するエラー数を含むことができる。
本方法は、エラー履歴をエラー閾値と比較すること、及びエラー履歴を所与としてエラー閾値を超える確率としてハザードレートを求めることをさらに含むことができる。
システムの平均修復レートを求めるステップは、各構成要素の平均修復レートを求めること、平均修復レートに基づいて各構成要素の個々の可用性を計算すること、個々の可用性に基づいて定常状態システム可用性を計算すること、及び定常状態システム可用性からシステムの平均修復レートを計算することを含むことができる。
定常状態システム可用性を計算するステップは、個々の各構成要素の重みが他の構成要素に対するその構成要素の重要性を表す重み付き関数を計算することを含むことができる。
システム可用性は、故障によるオーバーヘッドが最小に抑えられるように、適当なアクションをとるため、たとえば、予測に基づいて修正するための数的指標として用いることができる。これらの例は、システム管理者が、故障する可能性のあるハードウェア、たとえば、可用性予測により近い将来での故障が示されるプロセッサを、システム実行中に交換(オンライン交換)すること、及びパフォーマンス低下を観測した後にプロセスをマイグレーションするのとは対照的に、予測可用性によりプロセスパフォーマンスの低下が示される場合にプロセスを他のハードウェアにマイグレーションすることである。
本発明によれば、システムを所定のサービスレベルに維持する装置であって、システムのエラーを監視する手段と、エラーに基づいてシステムの可用性を予測する手段と、予測可用性に応答して動作する手段であって、それによって、システムを所定のサービスレベルに維持する、動作する手段とを備える装置がさらに提供される。
図1は、いくつかのレイヤを含む汎用システムを示す。各レイヤは、システム全体に機能を提供する構成要素である。さらに、各レイヤ自体は、サービス又はプロセス、たとえば技術的又は商業的なプロセスを実施するという最終目的を有し、所定の方法で共に接続される多数の他の構成要素を含む。
各構成要素はサービスの実行に貢献し、それ自体の故障特徴を有する。これらの故障は、故障の種類に応じて様々な様式でサービスに影響を及ぼす。もちろん、下位レイヤ、特にハードウェアレイヤでの構成要素の可用性は、上位レイヤでの構成要素の可用性に影響する可能性を有する。
任意の時点でのシステム可用性は、瞬間可用性とも呼ばれ、サービス要件、たとえばビジネスプロセスに課されたサービス品質要件を満たすシステム能力の指示を提供する。任意の時点「t」でのシステムの瞬間可用性は以下の式により与えられる。
Figure 0004792047
(式1) システムの瞬間可用性
式中、
Figure 0004792047
はシステムの瞬間可用性であり、
Figure 0004792047
はシステムのハザードレートであり、
Figure 0004792047
はシステムの平均修復レートである。
システムのハザードレート
Figure 0004792047
はシステムの瞬間故障確率である。システムの平均修復レート
Figure 0004792047
はシステムを修復できるレートである。これは、システムの平均修復時間(MTTR)の逆数である。
システム可用性を求めることができる方法を図2に概略的に示す。さまざまな個々の構成要素が互いにどのように接続されているかを判断するために、システムの内部組成をまず判断する必要がある(ステップs1)。次に、個々の構成要素のハザードレートを、以下に詳細に説明するように計算することができる(ステップs2)。次に、個々の構成要素のハザードレートを結合して、システムハザードレートが生成される(ステップs3)。次に、個々の各構成要素の平均修復レートが、これもまた以下に詳細に説明するように計算される(ステップs4)。システム平均修復レートは、個々の構成要素の平均修復レートから計算される(ステップs5)。最後に、システム可用性が上記式1を用いて計算される。
システムの各構成要素はそれ自体のハザードレートλを有し、これは、その構成要素の瞬間故障確率である。複雑なシステムは、直列及び並列又はこれらのいずれか(直列及び/又は並列)に接続された複数の構成要素として表すことができる。次に、直列及び/又は並列に接続されたいくつかのインピーダンスで構成される電気回路のインピーダンスを計算するのと同様にして個々のハザードレートを結合することにより、システム全体のシステムハザードレートを計算することができる。
ハザードレートを求めるプロセスについて、図3を参照してこれより説明する。個々の各構成要素のハザードレートを得るために、エラー監視がシステム動作中に行われて、エラー履歴が確定される(ステップs20)。ハザードレートは、エラー履歴、エラー閾値、及び構成要素の品質の関数である。エラー閾値は許される最大エラー数を定義し、これを超えると、構成要素は故障したとみなされる。エラー履歴は、現時点までの構成要素のエラー挙動を定義する。したがって、エラー履歴がエラー閾値と比較されて、発生したエラー数がエラー閾値を超えるか否かが判断される(ステップs21)。超える場合、構成要素は故障したと判断される(ステップs22)。超えない場合、構成要素のハザードレートを計算することができる。構成要素の品質はリリース時の品質によって決まり、製造品の場合にはバッチの品質であり得る。
ハザードレートは、エラー履歴を所与として構成要素がエラー閾値を超える確率として計算される。たとえば、プロセッサのエラー閾値が、24時間で3個のエラーに設定され、現在のエラー履歴により、2個のエラーが12時間以内に発生したことが示される場合、3個目のエラーでエラー閾値を超えることになるため、ハザードレートは次の12時間以内に3個目のエラーが発生する確率である。
ハザードレートは、構成要素の特徴に基づいて、ガウス、ポアソン、指数等の標準確率密度関数に従うと仮定され、確率密度関数は、様々な時点での相対故障確率を示す。次の12時間以内に故障が発生する確率は、分布の分散により支配される。
再び図3を参照すると、上述したように、構成要素ハザードレートプロファイル(確率密度関数)を検索し(ステップs23)、構成要素ハザードレートを計算する(ステップs24)ことができる。
次に、上述したような複雑な電気回路での等価インピーダンスを計算する既知の方法と同様にして、個々のハザードレートを結合することにより、システム全体のハザードレートを計算することができる(ステップs25)。たとえば、図4は、第1及び第2の構成要素10、11が並列接続され、この組み合わせが第3の構成要素12に直列接続するシステム構成を示す。各構成要素には、それ自体の個々のハザードレートλ1、λ2、λ3がそれぞれ関連付けられる。この場合、システムハザードレートは、
Figure 0004792047
(式2) システムハザードレート
である。
構成要素及びシステムの信頼性も、上記の構成要素ハザードレート及びシステムハザードレートを所与として計算することができる。
個々の構成要素のハザードレートが分かると、式
R=e-λt
(式3) 構成要素の信頼性
を用いて個々の信頼性を計算することができる。式中、
Rは構成要素の信頼性であり、
λは構成要素ハザードレートであり、
tは、最初のエラー後の、信頼性が査定されている時間である。
システムハザードレートを用い、以下の式を用いてシステムの信頼性を計算することができる。
Figure 0004792047
(式4) システムの信頼性
式中、
Figure 0004792047
はシステムの信頼性であり、
Figure 0004792047
はシステムハザードレートであり、
tは、最初のエラー後の、信頼性が査定されている時間である。
あらゆる構成要素は、それ自体のハザードレートを有するのと全く同じように、それ自体の平均修復レートμも有する。平均修復レートとは、構成要素のエラーを修正できるレートである。平均修復レートは、冗長構成要素がない場合、構成要素の故障により動作を再び実施するのにかかる時間量の逆数である。冗長構成要素があり、故障前の状態を構成要素間で転送できると仮定した場合、平均修復レートは、冗長構成要素を起動するのにかかる時間の逆数である。たとえば、冗長構成要素の起動時間が1msである場合、平均修復レートは1000s-1である。
さらなる例として、メモリページの割り振り解除の場合、ペナルティは、影響を受けるページをディスクからメモリにリロードすることである。この場合、平均修復レートは平均メモリページロード待ち時間の逆数である。同様に、プロセッサが失われ、プロセス状態が保存されていない場合、最悪の場合の修復レートは、最大ロード時間を有するアプリケーションを再開するのにかかる時間の逆数である。しかし、悲観的な可用性が望まれない場合、平均値を想定することもできる。より楽観的な値の場合、平均修復時間を用いることもできる。
したがって、図2のステップs4に示す平均修復レートの計算は、各構成要素で異なる個々の計算である。
システム全体の平均修復レート
Figure 0004792047
を得る方法について、図5を参照してこれより説明する。
まず、個々の平均修復レートμが上述したように計算される(ステップs50)。次に、各構成要素の個々の(定常状態での)可用性が、以下の式を用いて計算される(ステップs51)。
A=μ/(λ+μ)
(式5) 構成要素の定常状態可用性
式中、
Aは個々の構成要素の定常状態可用性であり、
μは構成要素の平均修復レートであり、
λは個々の構成要素のハザードレートである。
次に、システム全体の可用性
Figure 0004792047
が、以下の式に従ってすべての構成要素の可用性の重み付き関数を用いて計算される(ステップs52)。
Figure 0004792047
(式6) システム全体の定常状態可用性
式中、
Figure 0004792047
はシステム全体の定常状態可用性であり、
iは選択された構成要素iの定常状態可用性であり、
iは選択された構成要素iの個々の重み係数である。
重み係数は、最も重要な構成要素とあまり重要ではない構成要素とを差別化するシステムの特異性を取り込むために用いられる。たとえば、システムが可用であるためには、コンピュータシステムのマザーボードが可用でなければならないため、これが最も重要な構成要素であり、その一方でフロッピー(登録商標)ディスクドライブの重要性ははるかに低く、システムの可用性に影響を及ぼす必要性はほんのわずかしかない。
次に、システムの平均修復レートが公式
Figure 0004792047
(式7) システム全体の平均修復レート
から計算される(ステップs53)。式中、
Figure 0004792047
はシステム全体の定常状態可用性であり、
Figure 0004792047
はシステム全体の平均修復レートであり、
Figure 0004792047
はシステム全体のハザードレートである。
上記式2からシステムハザードレートを計算し、上記式6からシステムの定常状態可用性を計算した。したがって、これらの値を所与として、システムの平均修復レートを、式7を用いて計算することができる。
次に、最後として、システムの瞬間可用性
Figure 0004792047
を、図2のステップs6に示すように上記式1から計算することができる。
システムの各種構成要素、内部編成、及び構成要素間の関係並びに構成要素のハザードレート及び修復レートが分かれば、上述した方法及び式を任意の種類のシステムで使用できることが認められよう。この方法は、構成要素の種類に関係なく、たとえばこれらの構成要素が、ハードウェアを含むか、ソフトウェアを含むか、ファームウェアを含むか、又はミドルウェアを含むかに関係なく適用することが可能である。
図6は、動作システム1を監視し、システムが所定のサービス品質レベルよりも低下せず、最終的に故障しないように図るために使用されるモジュールの組み合わせを示す。エラー監視モジュール20が、ライブシステム1に対してエラー監視を実行する。エラーが検出されると、システムの可用性が、可用性予測モジュール21により上述した式及び方法に基づいて再評価される。最後に、可用性予測がプリエンプティブアクションモジュール22により用いられて、システム1に対して任意の必要な変更が行われ、たとえば、故障する可能性のある構成要素を自動的に迂回し、又は他の保守・修復サービスを実行できるようにする。プリエンプティブアクションモジュールは別法として、オペレータに必要なアクションを通知することもできる。
ハードウェアからサービス/プロセスまでの複数のレイヤを含む汎用システムの概略図である。 本発明によるシステム可用性判断の全体を示す流れ図である。 本発明による構成要素ハザードレートの計算を示す流れ図である。 個々の構成要素ハザードレートを結合してシステムハザードレートを求めることの原理を示す概略図である。 システムの平均修復レートの計算を示す流れ図である。 システムのエラー監視から得られるシステム可用性の常時再評価に基づいてシステムを所定のサービスレベルに維持するためのプリエンプティブアクションをとるための装置を示す。
符号の説明
10・・・構成要素
11・・・構成要素
12・・・構成要素
1・・・動作システム
20・・・エラー監視モジュール
21・・・可用性予測モジュール
22・・・プリエンプティブアクションモジュール

Claims (7)

  1. 複数の構成要素を含むコンピュータシステムの可用性を計算する方法であって、前記方法は、装置によって実現され、
    前記装置の構成部分であるエラー監視モジュールが、前記システムのハザードレートを求めることと、
    前記エラー監視モジュールによってエラーが監視される場合に、前記装置の構成部分である可用性算出モジュールが、前記システムの平均修復レートを求めることと、
    前記可用性算出モジュールが、前記エラー監視モジュールによって求められたシステムハザードレートと当該可用性算出モジュールによって求められたシステム平均修復レートとをパラメータとした時間tの関数に基づいて、任意の時間tにおける前記システムの瞬間可用性を計算することと
    を含み、
    前記システムの平均修復レートを求めるステップは、
    前記構成要素のそれぞれの平均修復レートを求めることと、
    前記構成要素のそれぞれの平均修復レートと前記構成要素のそれぞれのハザードレートとに基づいて前記構成要素のそれぞれの個々の可用性を計算することと、
    前記構成要素のそれぞれの個々の可用性と、より重要な構成要素がシステム可用性により大きな影響を及ぼすように各構成要素に設定される重み係数との関数に基づいて、定常状態システム可用性を計算することと、
    前記定常状態システム可用性と前記システムのハザードレートとから前記システムの前記平均修復レートを計算することと
    を含む
    方法。
  2. 前記システムのハザードレートを求めるステップは、
    前記構成要素間の相互接続を含むシステムの構造を判断することと、
    前記構成要素のそれぞれのハザードレートを求めることと、
    前記判断されたシステム構造に基づいて、各構成要素が並列接続されている場合は構成要素ハザードレートの積を各構成要素ハザードレートの和で除算し、各構成要素が直列接続されている場合は構成要素ハザードレートの和を求めることにより、前記構成要素ハザードレートから前記システムハザードレートを求めることと
    を含む
    請求項1に記載の方法。
  3. 前記構成要素のそれぞれのハザードレートを求めるステップは、
    前記システムの動作中に該構成要素のそれぞれを監視してエラー履歴を構築することと、
    前記構築されたエラー履歴をエラー閾値と比較することと、
    前記エラー履歴を所与として前記エラー閾値を超える確率として前記ハザードレートを求めることと
    を含む
    請求項2に記載の方法。
  4. 前記エラー履歴は、所定の時間期間中に発生するエラーの数を含む
    請求項3に記載の方法。
  5. 前記システムの可用性を計算するステップは、

    A=μ/(λ+μ)
    に従って構成要素の個々の可用性を計算すること
    を含み、式中、
    Aは個々の構成要素の前記可用性であり、
    μは前記構成要素の前記平均修復レートであり、
    λは前記構成要素の前記ハザードレートである
    請求項1〜4のいずれか1項に記載の方法。
  6. 前記システムの平均修復レートを求めるステップは、

    Figure 0004792047
    に従って前記システムの前記平均修復レートを計算すること
    を含み、式中、
    Figure 0004792047
    は前記システムの前記定常状態可用性であり、
    Figure 0004792047
    は前記システムの前記平均修復レートであり、
    Figure 0004792047
    は前記システムの前記ハザードレートである
    請求項1〜5のいずれか1項に記載の方法。
  7. 前記システムの瞬間可用性を計算するステップは、

    Figure 0004792047
    を用いて前記システムの瞬間可用性を計算すること
    を含み、式中、
    Figure 0004792047
    は任意の時点tにおける前記システムの瞬間可用性であり、
    Figure 0004792047
    は前記システムハザードレートであり、
    Figure 0004792047
    は前記システムの前記平均修復レートである
    請求項1〜6のいずれか1項に記載の方法。
JP2007557671A 2005-03-03 2005-03-03 システム可用性の計算方法 Expired - Fee Related JP4792047B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/IN2005/000069 WO2006092806A1 (en) 2005-03-03 2005-03-03 Computer qc module testing monitor

Publications (2)

Publication Number Publication Date
JP2008532170A JP2008532170A (ja) 2008-08-14
JP4792047B2 true JP4792047B2 (ja) 2011-10-12

Family

ID=36940867

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007557671A Expired - Fee Related JP4792047B2 (ja) 2005-03-03 2005-03-03 システム可用性の計算方法

Country Status (4)

Country Link
US (1) US7756803B2 (ja)
EP (1) EP1859365B1 (ja)
JP (1) JP4792047B2 (ja)
WO (1) WO2006092806A1 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7669087B1 (en) * 2006-07-31 2010-02-23 Sun Microsystems, Inc. Method and apparatus for managing workload across multiple resources
US20090177509A1 (en) * 2008-01-09 2009-07-09 Joshua David Business Service Management Dashboard
US20130275113A1 (en) * 2010-10-29 2013-10-17 Nec Corporation Availability model generation device
US9235423B2 (en) 2010-11-26 2016-01-12 Nec Corporation Availability evaluation device and availability evaluation method
US9448824B1 (en) * 2010-12-28 2016-09-20 Amazon Technologies, Inc. Capacity availability aware auto scaling
US20130338799A1 (en) * 2011-03-04 2013-12-19 Nec Corporation Availability model generation support device, availability model generation support method, and program
JP5304972B1 (ja) 2011-08-30 2013-10-02 日本電気株式会社 情報処理装置、情報処理方法、及びプログラム
JPWO2013114911A1 (ja) * 2012-02-01 2015-05-11 日本電気株式会社 リスク評価システム、リスク評価方法、及びプログラム
JPWO2014002557A1 (ja) * 2012-06-29 2016-05-30 日本電気株式会社 共有リスク影響度評価システム、共有リスク影響度評価方法、およびプログラム
WO2014097598A1 (ja) 2012-12-17 2014-06-26 日本電気株式会社 リスク分析を行う情報処理装置及びリスク分析方法
US9246840B2 (en) 2013-12-13 2016-01-26 International Business Machines Corporation Dynamically move heterogeneous cloud resources based on workload analysis
US9495238B2 (en) 2013-12-13 2016-11-15 International Business Machines Corporation Fractional reserve high availability using cloud command interception
US9298553B2 (en) * 2014-02-08 2016-03-29 International Business Machines Corporation Methods, apparatus and system for selective duplication of subtasks
US10545839B2 (en) * 2017-12-22 2020-01-28 International Business Machines Corporation Checkpointing using compute node health information
CN114970958A (zh) * 2022-04-20 2022-08-30 北京航空航天大学 一种面向导弹发动机贮存可用度的抽检方案优化方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06175939A (ja) * 1992-12-07 1994-06-24 Hitachi Ltd 情報処理システム
JPH10322333A (ja) * 1997-04-15 1998-12-04 Hewlett Packard Co <Hp> モジュール状態判定方法
JP2002342172A (ja) * 2001-05-21 2002-11-29 Hitachi Ltd データ管理システム
JP2004071001A (ja) * 2002-08-02 2004-03-04 Pioneer Electronic Corp 情報再生装置及び方法、並びにエラー訂正システム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11345095A (ja) * 1998-06-02 1999-12-14 Toshiba Corp ディスクアレイ装置およびその制御方法
US7426554B2 (en) * 2002-03-06 2008-09-16 Sun Microsystems, Inc. System and method for determining availability of an arbitrary network configuration
US6895533B2 (en) * 2002-03-21 2005-05-17 Hewlett-Packard Development Company, L.P. Method and system for assessing availability of complex electronic systems, including computer systems
WO2004070507A2 (en) 2003-02-07 2004-08-19 Power Measurement Ltd. A method and system for calculating and distributing utility costs
GB0405711D0 (en) * 2004-03-13 2004-04-21 Hewlett Packard Development Co Method and apparatus for dumping memory

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06175939A (ja) * 1992-12-07 1994-06-24 Hitachi Ltd 情報処理システム
JPH10322333A (ja) * 1997-04-15 1998-12-04 Hewlett Packard Co <Hp> モジュール状態判定方法
JP2002342172A (ja) * 2001-05-21 2002-11-29 Hitachi Ltd データ管理システム
JP2004071001A (ja) * 2002-08-02 2004-03-04 Pioneer Electronic Corp 情報再生装置及び方法、並びにエラー訂正システム

Also Published As

Publication number Publication date
EP1859365A1 (en) 2007-11-28
WO2006092806A1 (en) 2006-09-08
JP2008532170A (ja) 2008-08-14
US7756803B2 (en) 2010-07-13
EP1859365A4 (en) 2010-11-03
EP1859365B1 (en) 2018-09-26
US20080168314A1 (en) 2008-07-10

Similar Documents

Publication Publication Date Title
JP4792047B2 (ja) システム可用性の計算方法
TWI680369B (zh) 用以自動管理發生於資料中心系統的硬體錯誤事件的方法及其系統
Tang et al. Assessment of the effect of memory page retirement on system RAS against hardware faults
US8875142B2 (en) Job scheduling on a multiprocessing system based on reliability and performance rankings of processors and weighted effect of detected errors
US7669087B1 (en) Method and apparatus for managing workload across multiple resources
US8375251B2 (en) Monitoring and healing a computing system
US7409576B2 (en) High-availability cluster with proactive maintenance
US20090249129A1 (en) Systems and Methods for Managing Multi-Component Systems in an Infrastructure
CN110825544A (zh) 计算节点及其失效检测方法与云端数据处理系统
CN112162907A (zh) 基于监控指标数据的健康度评估方法
US20160098291A1 (en) Virtual machine capacity planning
JP5583052B2 (ja) 故障予測・対策方法及びクライアントサーバシステム
KR20140056371A (ko) 하드웨어 소모 아키텍처
AU2012221821A1 (en) Network event management
US20060253725A1 (en) Method and apparatus for expressing high availability cluster demand based on probability of breach
US7278048B2 (en) Method, system and computer program product for improving system reliability
JP4973703B2 (ja) 故障検出方法及び監視装置
Sharma et al. Availability Modelling of Cluster-Based System with Software Aging and Optional Rejuvenation Policy
CN116841688A (zh) 虚拟机故障迁移方法、装置及其应用
JP6326383B2 (ja) ネットワーク評価システム、ネットワーク評価方法、及びネットワーク評価プログラム
JP5653322B2 (ja) 障害検出装置、ネットワーク構成推定装置および障害検出方法
US20230143343A1 (en) Method and system for regular testing of datacenter hardware
CN115150253B (zh) 一种故障根因确定方法、装置及电子设备
JP2019079120A (ja) 情報処理装置、情報処理方法、及びプログラム
CN118051408A (zh) 服务器故障预测方法、系统、设备及计算机可读存储介质

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101210

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110308

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110330

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110621

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110712

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110722

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140729

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4792047

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees