JP2004062470A - Switching system of multiprocessor - Google Patents
Switching system of multiprocessor Download PDFInfo
- Publication number
- JP2004062470A JP2004062470A JP2002219037A JP2002219037A JP2004062470A JP 2004062470 A JP2004062470 A JP 2004062470A JP 2002219037 A JP2002219037 A JP 2002219037A JP 2002219037 A JP2002219037 A JP 2002219037A JP 2004062470 A JP2004062470 A JP 2004062470A
- Authority
- JP
- Japan
- Prior art keywords
- processor
- performance
- processors
- spare
- failure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
【0001】
【発明の属する技術分野】
本発明は、情報処理装置の障害処理方式に関し、特にマルチプロセッサシステムにおける予備プロセッサの切り替え方式の改良に関する。
【0002】
【従来の技術】
従来の予備プロセッサシステムの一例が、IBM(インターナショナル・ビジネス・マシーン)社のS/390シリーズで採用されており、1999年5月27日同社発行の技報「IBM Journal of Research and Development」のVol.43,Nos.5/6,1999“RAS strategy for IBM S/390 G5 and G6”(880ページ〜883ページまで)に記載されている。
【0003】
IBM S/390システムの場合、中央処理装置と入出力処理を行う支援処理機構および内部結合機構が、予備切り替え可能なプロセッサとして冗長な構成となっており、これらの装置に障害が発生した場合、動的(「システムを停止することなく」の意)またはパワーオンリセットによって予備プロセッサへの切り替えを行い、システム性能を低下させることなく、引き続き運用を継続させることを特徴としている。
【0004】
一般的に、汎用コンピュータのような基幹業務サーバにおいては、販売の形態としてレンタル契約するケースが殆どで、中央処理装置および入出力装置の性能と使用時間の積で価格が決定される。従って、課金方法の性質からもシステムとしての性能維持が装置に期待される要件となる。
【0005】
また、汎用コンピュータ上で稼働するシステムも、銀行の勘定系に代表されるように、極めて高い信頼性、高い可用性を要求する業務が中心であるため、オンライン中の業務を中断させることなく、速やかに故障箇所を回復させるための冗長機能を装備する必要がある。
【0006】
予備プロセッサ方式は、上述の販売形態および運用形態に則した汎用コンピュータ独特の機構であり、一般のPCサーバのようにプロセッサの最大処理性能(通常は動作周波数)で価格が決定されるような装置、あるいは業務を複数のサーバに分散させることで耐故障性を維持するような装置には存在しない機構である。
【0007】
IBM S/390システムの予備プロセッサ方式は、プロセッサを最小単位とする予備切り替え方式である。汎用コンピュータの一構成例を示した図1を参照すると、この従来システムにおいて演算プロセッサ1〜5は、システムバスを介してマルチプロセッサ方式で接続されている。演算プロセッサ1〜5のうち何台かは、運用中の演算プロセッサに障害が発生した際に切り替えられるべき予備プロセッサとして、システム内に待機している。例えば、この構成例において、演算プロセッサ5が予備プロセッサとしてシステムから切り離されて待機しているものとすると、演算プロセッサ1〜4は運用中のプロセッサとなり、システムに障害が発生していない状態では、この演算プロセッサ1〜4の4台でシステム運用が継続されている。
【0008】
いま、演算プロセッサ1で障害が発生したケースを例にあげると、従来システムでは演算プロセッサ1をシステムから切り離し、替わりに予備として待機している演算プロセッサ5をシステムに組み込むように処理する。
【0009】
これに対しIBM S/390システムでは、故障した演算プロセッサ1を停止させた後、演算プロセッサ1から制御レジスタやキャッシュの内容を抜き取り、予備プロセッサ5に移し替えた後、予備プロセッサ5を動作させることによって、予備プロセッサ切り替えを実現している。
【0010】
上述の文献において、制御レジスタやキャッシュの内容を移行させる機構として、サポート・エレメント(SE)という用語を使用しているが、本構成例ではサポート・エレメントを具体化するために、予備プロセッサ切り替えの動作を指示する機構として、診断プロセッサ6を定義する。
【0011】
【発明が解決しようとする課題】
しかしながら、上述したプロセッサ単位での予備切り替えを行う従来システムの場合には、次のような問題がある。
【0012】
まず、部分的に縮退可能な機能を有するプロセッサで構成された予備プロセッサシステムでは、プロセッサの特定の部位が故障し性能低下が発生した場合に、故障プロセッサの障害部位が、プロセッサの継続運用不可能な状態まで拡大してから予備プロセッサに切り替わる方式と、IBM S/390システムのように性能低下が発生した時点で即座に予備プロセッサに切り替わる方式の2種類が考えられる。
【0013】
前者の場合、重度の障害となるまで故障したプロセッサはシステムに組み込まれた状態でいるため、システムとしての性能低下状態が継続し、システム性能を可能な限り保持するという汎用コンピュータの要件を満たすことが困難となる。
【0014】
また、後者の場合、性能低下が発生した時点で即座に予備プロセッサに切り替わるため性能低下状態は速やかに回復するが、軽度の障害が発生しただけで予備プロセッサを使用してしまうため、予備プロセッサの台数が少ないシステムで多重障害が発生した場合には、切り替えるべき予備プロセッサを確保できない状態に陥る。
【0015】
本発明の目的は、部分的な縮退機能により故障部位を切り離して継続運用可能なプロセッサを有するマルチプロセッサ方式の情報処理装置における予備プロセッサの切り替え方式に関し、複数のプロセッサで障害が発生した場合でも予備プロセッサの枯渇を最小限に抑え、システムとしての性能を可能な限り維持する方式を提供することにある。
【0016】
【課題を解決するための手段】
以上の課題を鑑みて、本発明のマルチプロセッサ切り替え方式は、マルチプロセッサ方式の情報処理装置において、通常時に運用される少なくとも1台の運用プロセッサと、前記運用プロセッサの障害発生時に切り替えて用いられる予備プロセッサと、前記障害が発生した運用プロセッサの故障部位を縮退させる手段と、前記運用プロセッサの故障部位縮退による性能低下量を数値化する手段と、前記故障部位縮退による性能低下量を考慮した前記運用プロセッサの単体性能と前記予備プロセッサの単体性能とを比較する手段を有することを特徴としている。
【0017】
また、本発明のマルチプロセッサ切り替え方式の別の構成例では、前記運用プロセッサで障害が発生した際に、前記運用プロセッサの故障部位縮退後の単体性能と前記予備プロセッサの単体性能とを比較した結果、前記予備プロセッサの単体性能の方が前記運用プロセッサの故障部位縮退後の単体性能より小さいか或いは等しい場合は、前記運用プロセッサを継続して運用し、前記予備プロセッサの単体性能が前記運用プロセッサの故障部位縮退後の単体性能より大きい場合は、前記予備プロセッサをシステムに組み込んだ後、故障した前記運用プロセッサをシステムから切り離して新たな予備プロセッサとして待機させることを特徴とする。
【0018】
さらに別の例では、複数の運用プロセッサ及び複数の予備プロセッサを有するマルチプロセッサ方式の情報処理装置において、システム内の全運用プロセッサ及び予備プロセッサの故障部位による性能低下量を算出する手段を有し、前記複数の運用プロセッサのいずれかにおいて障害が発生した際に、本来システムに障害がない状態の全運用プロセッサ単体性能の合計より等しいか或いは大きくなるまで、前記複数の予備プロセッサから単体性能の大きい順に順次システムに組み込むことを特徴としている。
【0019】
さらに最後の構成例としては、システムに組み込まれている前記複数の運用プロセッサの中から、最も値が小さいものを除いた単体性能の合計が、本来システムに障害がない状態における全運用プロセッサの単体性能の合計より大きいか或いは等しい場合は、前記運用プロセッサの中で最も単体性能が小さいプロセッサを順次システムから切り離して、予備プロセッサとして待機させることを特徴としている。
【0020】
【発明の実施の形態】
以下、本発明の実施の形態について、図面を参照して詳細に説明する。
【0021】
図1に示すとおり、複数台の演算プロセッサ1〜5と、診断プロセッサ6で構成される。演算プロセッサ1〜5は、通常の業務処理を行うプロセッサと予備プロセッサに大別され、予備プロセッサは通常はシステムから切り離されて待機状態でいる。
【0022】
図2は本発明における演算プロセッサ1〜5の機能を表した詳細ブロック図である。構成制御ユニット11は、診断プロセッサ6と診断バスを介して接続されており、診断プロセッサ6からの指示で縮退可能な内部ユニットの組み込み/切り離しを制御する。演算ユニット12は演算処理を実行する。命令キャッシュユニット(#0)13および命令キャッシュユニット(#1)14、データキャッシュユニット(#0)15およびデータキャッシュユニット(#1)16、変換ルックアサイドバッファ17は、演算プロセッサ1の命令列/データ列のキャッシングおよびアドレス変換を行うユニットであり、構成制御ユニット11の制御下において、このユニット単位で縮退を行う。これにより、演算プロセッサ1〜5は本来の性能値から一定の性能低下を起こした状態で継続運転することが可能である。バスインタフェースユニット18は、システムバスとインタフェースを持ち、各演算プロセッサ1〜5の間でデータ交換を行う。演算ユニット12とバスインタフェースユニット18は、演算プロセッサ1〜5の核となる部分で、上述の演算ユニット12およびバスインタフェースユニット18が故障した場合には、プロセッサの継続運転は不可能となり、演算プロセッサの切り離しが実行される。
【0023】
続いて、本発明の動作につき図面を参照して詳細に説明する。
【0024】
本発明の第一形態では、部分的な縮退機能により故障部位を切り離して、継続運用可能なプロセッサを有するマルチプロセッサ方式の情報処理装置において、運用プロセッサの障害発生時に切り替えるべき予備プロセッサと、運用プロセッサおよび予備プロセッサの故障部位による性能低下量を数値化する手段とを具備し、運用プロセッサで障害が発生した際に、その故障部位が縮退した後の単体性能と、予備プロセッサの故障部位縮退後の単体性能とを比較し、予備プロセッサの単体性能の方が運用プロセッサのそれより大きい場合に予備プロセッサをシステムに組み込む。その後、故障した運用プロセッサをシステムから切り離して新たな予備として待機させる。これに対し、予備プロセッサの単体性能の方が運用プロセッサの単体性能より小さいあるいは等しい場合には、予備プロセッサをシステムに組み込まず、運用プロセッサの故障部位を縮退して運用を継続する。
【0025】
図3はこの一連の動作を示すフローチャートである。演算プロセッサ1〜4を通常の運用プロセッサ、演算プロセッサ5を予備プロセッサとし、演算プロセッサ1で障害が発生した場合について説明する。
【0026】
この演算プロセッサ1で発生した故障は(S3−1)、診断プロセッサ6に通知され、故障の部位から縮退可能な範囲と縮退による性能低下量が計算される。また、診断プロセッサ6は演算プロセッサ1が縮退運転可能と判断された場合に、演算プロセッサ1内の故障部位を縮退する(S3−2)。
【0027】
次に診断プロセッサ6は、予備として待機している演算プロセッサ5の性能低下量を計算するが、この際演算プロセッサ5には故障箇所がないので、図3の条件判定Aにより、「障害が発生したプロセッサ1の単体性能<予備の演算プロセッサ5の単体性能」となり(S3−3)、予備の演算プロセッサ5をシステムに組み込んだ後(S3−4)、障害が発生した演算プロセッサ1をシステムから切り離して、新たな予備プロセッサとして待機させる(S3−5)。
【0028】
続いて、演算プロセッサ2で演算プロセッサ1よりも軽度の障害が発生した場合について説明する。診断プロセッサ6は、障害が発生した演算プロセッサ2と、予備として待機している演算プロセッサ1の性能低下量を計算し、両者の単体性能を比較する。この場合は、図3の条件判定Aにより「障害が発生したプロセッサ2の単体性能>=予備の演算プロセッサ1の単体性能」となるため、予備として待機している演算プロセッサ1をシステムに組み込むことはせず、障害が発生した演算プロセッサ2の故障部位を縮退させ、故障した演算プロセッサ2の運用を継続する。
【0029】
本発明の第二の形態では、第一の形態に加えてさらに運用プロセッサで障害が発生した際に、システム内の全ての運用プロセッサおよび予備プロセッサの故障部位による性能低下量を数値化する手段を具備し、障害が発生した運用プロセッサの故障部位を縮退させた後、予備プロセッサをシステムに組み込んだ結果、システム性能が本来システムに障害がない状態の時の全ての運用プロセッサの単体性能の総和より大きくなるか等しくなるまで、複数台ある予備プロセッサを「単体性能の大きい順」にシステムに組み込んだ後、システムに組み込まれている運用プロセッサの中で最も単体性能の小さいプロセッサを除く運用プロセッサの総和が、本来システムに障害がない状態における全ての運用プロセッサの単体性能総和より大きいあるいは等しい期間、運用プロセッサの中で最も単体性能の小さいプロセッサを順次システムから切り離して、予備として待機させる。
【0030】
図4は本発明の第二形態の動作を示すフローチャートである。図1において演算プロセッサ1〜3を通常の運用プロセッサ、演算プロセッサ4および5を予備プロセッサとし、演算プロセッサ1で障害が発生した場合を例に挙げると、演算プロセッサ1の故障(S4−1)はただちに診断プロセッサ6に通知され、これを受け診断プロセッサ6は演算プロセッサ1の故障部位を縮退させる(S4−2)。
【0031】
また診断プロセッサ6は、システム内の全ての演算プロセッサ1〜5の単体性能を計算し(S4−3)、このうち障害が発生した演算プロセッサ1を含めた全ての運用中プロセッサ1〜3の単体性能の総和と、本来システムに障害がない状態における全ての運用プロセッサの単体性能の総和とを比較する(S4−4)。この結果、図4の条件判定Aにより「本来システムに障害がない状態における全ての運用プロセッサの単体性能の総和>障害発生後の運用プロセッサの単体性能の総和」となる。診断プロセッサ6は、予備プロセッサ4または予備プロセッサ5の何れかを(予備プロセッサ4および5は故障のない健全なプロセッサであり、単体性能が等しいため)システムに組み込む(S4−5)。
【0032】
ここで仮に予備プロセッサ4がシステムに組み込まれたとすると、システム上で稼働している運用プロセッサは1〜4の4台となる。
【0033】
次に、図4の条件判定Bにより、「システム本来の総合性能の総和と、最も単体性能の小さいプロセッサを除いた運用中プロセッサの単体性能の総和」とを比較する(S4−6)。この場合、障害が発生した演算プロセッサ1をシステムから取り除いても、システムの総合性能は本来障害がない状態における全ての運用プロセッサの単体性能の総和と等しくなるため、診断プロセッサ6は障害が発生した演算プロセッサ1をシステムから切り離し、新たな予備プロセッサとして待機させる(S4−7)。
【0034】
続いて、複数台の予備プロセッサをシステムに組み込む場合の動作につき説明する。この動作は、何れか2台以上の予備プロセッサの単体性能の合計が、運用中に故障したプロセッサの性能低下量を補えない場合に発生する。
【0035】
演算プロセッサ1および2が順次故障し、予備の演算プロセッサ4および5が既にシステムに組み込まれているものとする。この際、演算プロセッサ1および2は新たな予備として待機状態となる。複数台の予備の演算プロセッサがシステムに組み込まれる条件は、この後に運用中の演算プロセッサ3、4、5のうちの何れかが故障し、なおかつ故障した演算プロセッサの単体性能の低下量が、演算プロセッサ1および2の単体性能の合計よりも大きい場合である。すなわち、ここで演算プロセッサ3が故障したとすると、図4に示すフローチャートに従い、運用中の演算プロセッサ3〜5の単体性能の合計と、システム全体で障害なく運用されている場合の演算プロセッサの単体性能合計とが比較される。その不足分は予備として待機している演算プロセッサ1の組み込みにより補われる。またそれでもシステムの総合性能が本来システムに障害がない状態における全ての運用プロセッサの単体性能の総和に満たない場合は、不足分の性能を演算プロセッサ2の組み込みによってさらに補完する。この結果、最終的にはシステムの構成は演算プロセッサ1〜5の合計5台がシステムに組み込まれて稼動している状態となる。
【0036】
さらに図4の条件判定Bについて説明する。もっとも単体性能が小さいプロセッサを切り離し予備として待機させる動作において、予備プロセッサが組み込まれることにより、組み込み後のシステムの総合性能が本来システムに障害のない状態での全ての運用プロセッサの単体性能の総和を超過しており、さらに超過分の性能に比べて単体性能の小さい運用中プロセッサがシステム内に存在しているようなケースにおいて発生する。すなわち、前記の複数台の予備プロセッサをシステムに組み込む場合の動作例を参照すると、演算プロセッサ3の故障で演算プロセッサ1〜5の5台がシステムに組み込まれたときに、演算プロセッサ3の故障部位縮退後の単体性能が、他の演算プロセッサ1、2、4、5の単体性能の合計から、本来システムに障害がない状態での全ての運用プロセッサの単体性能の総和を引いた性能より低くなる場合、演算プロセッサ3の切り離しが行われる。この際、切り離された演算プロセッサ3は、新たな予備プロセッサとして待機状態となる。
【0037】
【実施例】
次に、本発明の一実施例について図面を参照して説明する。図1は本発明の一実施例を示すシステム構成ブロック図である。図2は演算プロセッサの詳細ブロック図であり、図5は図2に示した演算プロセッサにつき、縮退可能な機能である命令キャッシュユニット(0)13および命令キャッシュユニット(1)14、データキャッシュユニット(0)15およびデータキャッシュユニット(1)16、変換ルックアサイドバッファ17の各々の縮退時の性能低下量を表した対応表である。図5において、演算プロセッサ1の命令キャッシュユニット13および14は「縮退時に20%の性能低下」を、データキャッシュユニット15および16は「縮退時に40%の性能低下」を、変換ルックアサイドバッファ17は「縮退時に80%の性能低下」をそれぞれ発生するものとする。
【0038】
なお、説明を簡易にするため、これらの機能部は縮退を発生しても互いに他の機能部の性能に影響を及ぼさないものとする。ただし実際のシステムでは複数段のキャッシュやアドレス変換機能が縮退した場合に、他の機能部の性能に影響を及ぼすことは大いにあり得るので、縮退による性能低下量はこれらを加味した計算式で導かれた値でなければならない。また、障害発生により切り離される演算プロセッサの台数に比べて、組み込まれる予備プロセッサの台数の方が多い場合もあり得るため、このような場合には運用中のプロセッサの増減によるマルチプロセッサ係数(MP係数と称す)も性能低下量を試算する場合のパラメータとして加味されなければならない。
【0039】
次に、図3を用いて本発明の動作を示すフローチャートの処理を、そして図6を用いて本発明の動作遷移状態を詳細に説明する。
【0040】
演算プロセッサ1〜4を通常の運用プロセッサ、演算プロセッサ5を予備プロセッサとし、障害がない状態の各演算プロセッサの単体性能を100とすると、図6の手順1において運用中のプロセッサの単体性能総和(総合性能)は400となる。
【0041】
続いて手順2において、演算プロセッサ1のデータキャッシュ(0)15で障害が発生したとする。この障害については診断バスを介して診断プロセッサ6にただちに通知される。診断プロセッサ6は、データキャッシュ(0)15が縮退可能な部位であることから、演算プロセッサ1内の構成制御ユニット11に指示を行い、データキャッシュ(0)15を縮退させる。また、診断プロセッサ6は図5に示す性能低下量より、データキャッシュ(0)15の性能低下量が40であることを判断し、演算プロセッサ1の単体性能が60に低下したことを認識する。この状態ではシステムの総合性能は360となる。
【0042】
手順3において、診断プロセッサ6は予備として待機している演算プロセッサ5の性能低下量を計算するが、このとき演算プロセッサ5には故障箇所はないので単体性能は100である。次に、図3の動作処理フローにおける条件判定Aより「障害が発生した演算プロセッサ1の単体性能<予備の演算プロセッサ5の単体性能」となるため、予備の演算プロセッサ5をシステムに組み込む。
【0043】
手順4において、データキャッシュ(0)15が故障した演算プロセッサ1は、システムから切り離され新たな予備プロセッサとして待機状態になる。この状態におけるシステムの総合性能は障害が発生する前と同じ400に回復する。
【0044】
手順5では、予備として待機している演算プロセッサ1よりも軽度の障害が演算プロセッサ2に発生した場合を例に説明する。ここでは演算プロセッサ2の命令キャッシュ(0)13が故障したものとする。演算プロセッサ2の命令キャッシュ(0)13の故障は、前述の演算プロセッサ1の故障時と同様、診断プロセッサ6に通知される。診断プロセッサ6は図5の性能低下量より演算プロセッサ2の命令キャッシュ(0)13の性能低下量が20%であることから、演算プロセッサ2の単体性能が80に低下したことを認識する。続いて、図3の条件判定Aにより、障害を発生した演算プロセッサ2と、予備として待機している演算プロセッサ1の単体性能を比較する。だが今度は「障害を発生したプロセッサ2の単体性能>=予備の演算プロセッサ1の単体性能」となるため、予備として待機している演算プロセッサ1をシステムに組み込むことはせず、障害を発生した演算プロセッサ2の故障部位を、演算プロセッサ2の構成制御ユニット11に通知して縮退させ、演算プロセッサ2をシステムに組み込んだ状態で運用を継続させる。この状態におけるシステムの総合性能は380となる。
【0045】
次に、図3を用いて本発明の第二実施例の動作を示すフローチャートの処理を、そして図6を用いて本発明の第二実施例の動作遷移状態を詳細に説明する。
【0046】
演算プロセッサ1〜3を通常の運用プロセッサ、演算プロセッサ4および5を予備プロセッサとし、障害がない状態の各演算プロセッサの単体性能を100とすると、図7の手順1において第二実施例のシステムでは運用中のプロセッサの単体性能の総和(総合性能)は300となる。
【0047】
続いて手順2において、演算プロセッサ1の命令キャッシュ(0)13で障害が発生したとすると、演算プロセッサ1の命令キャッシュ(0)13の故障は診断バスを介して診断プロセッサ6に通知される。診断プロセッサ6は、命令キャッシュ(0)13が縮退可能な部位であることから、演算プロセッサ1内の構成制御ユニット11に指示し、演算プロセッサ1の命令キャッシュ(0)13を縮退させる。また、診断プロセッサ6は図5に示す性能低下量より、予備プロセッサも含めてシステム内に存在する全演算プロセッサ1〜5の単体性能を計算する。命令キャッシュ(0)13の性能低下量が20%であることから、演算プロセッサ1は単体性能が80に低下する。また演算プロセッサ1以外の演算プロセッサは、故障がないため単体性能は100のままであり、システムの総合性能は280となる。
【0048】
手順3において、診断プロセッサ6は図4の動作処理フローチャートにおける条件判定Aにより、障害発生後のシステム内の全運用プロセッサ1〜3の単体性能の総和と、本来システムに障害のない状態における全運用プロセッサの単体性能の総和とを比較する。その結果「本来システムに障害がない状態の全運用プロセッサの単体性能の総和>障害発生後の運用中プロセッサの単体性能の総和」となり、診断プロセッサ6は予備として待機している演算プロセッサ4あるいは5のうち、単体性能の大きい方をシステムに組み込む。この第二実施例では、演算プロセッサ4と5はいずれも故障のない健全なプロセッサであり、単体性能は共に100であるため、ここでは演算プロセッサ4を予備としてシステムに組み込むものとする。これによりシステムに組み込まれている運用中のプロセッサは1〜4の4台となり、システムの総合性能は380となる。ここで、予備プロセッサ組み込み後の図4の動作処理フローチャートにおける条件判定Aより「本来システムに障害がない状態での全運用プロセッサの単体性能の総和>障害発生後の運用プロセッサの単体性能の総和」という条件を満たさなくなるため、次の処理に移る。
【0049】
手順4では、図4の動作処理フローチャートにおける条件判定Bにより、システム内でもっとも単体性能の小さい演算プロセッサの切り離し条件が判定される。この際、運用中の演算プロセッサ1〜4の中で最も単体性能の小さい演算プロセッサは、命令キャッシュ(0)13が故障した演算プロセッサ1である。もしここで演算プロセッサ1をシステムから取り除いても、システムの総合性能は本来システムに障害がない状態における全ての運用プロセッサの単体性能の総和300と等しくなるから、条件判定Bより「本来システムに障害がない状態の全運用プロセッサの単体性能の総和<=最も単体性能の小さい演算プロセッサを除いた運用プロセッサの単体性能の総和」という条件が満たされ、最も単体性能が小さい演算プロセッサ1がシステムから切り離され、新たな予備プロセッサとして待機する。その際、システムの総合性能は本来システムに障害がない状態のときと等しく300となる。演算プロセッサ100の切り離し後に再度条件判定Bに照らし合わせると、「本来システムに障害がない状態の全運用プロセッサの単体性能の総和<=最も単体性能の小さいプロセッサを除いた運用プロセッサの単体性能の総和」という条件に該当する演算プロセッサは存在しなくなっているので、一連の予備プロセッサ組み込みに関する処理は終了する。
【0050】
続いて、図4の処理フローチャートの別の動作を説明するため、システム内に元々実装されていた健全な予備プロセッサを全て使い切るまで、システムの障害状態を進行させる。健全な予備プロセッサである演算プロセッサ5をシステムに組み込むために、ここでは運用中の演算プロセッサ2でデータキャッシュ(0)15が故障したものとする。手順5〜7では手順2〜4と同様の予備プロセッサ組み込み処理が行われる。
【0051】
手順5において、演算プロセッサ2のデータキャッシュ(0)15で障害が発生し、診断プロセッサ6はデータキャッシュ(0)15が縮退可能な部位であることから、演算プロセッサ2内の構成制御ユニット11に指示して、演算プロセッサ2のデータキャッシュ(0)15を縮退させる。また、診断プロセッサ6は図5に示す性能低下量より、予備プロセッサも含めてシステム内に存在する全ての演算プロセッサ1〜5の単体性能を計算する。データキャッシュ(0)15の性能低下量が40%であることから演算プロセッサ2は単体性能が60に低下する。この状態でシステムの総合性能は260となる。
【0052】
手順6において、診断プロセッサ6は図4の動作処理フローチャートにおける条件判定Aにより、システム内の全運用プロセッサ2〜4の単体性能の総和と、本来システムに障害がない状態の全運用プロセッサの単体性能の総和とを比較する。この結果、「本来システムに障害がない状態の全運用プロセッサの単体性能の総和>障害発生後の運用プロセッサの単体性能の総和」となり、診断プロセッサ6は予備として待機している演算プロセッサ1と5のうち、単体性能の大きい演算プロセッサ5をシステムに組み込む。これによりシステムに組み込まれている運用中の演算プロセッサは2〜5の4台となり、システムの総合性能は360となる。
【0053】
手順7において、図4の動作処理フローチャートの条件判定Bで、運用中の演算プロセッサ2〜5の中で最も単体性能が小さい演算プロセッサはデータキャッシュ(0)15が故障した演算プロセッサ2である。ここで障害が発生した演算プロセッサ2をシステムから取り除いても、システムの総合性能は本来システムに障害がない状態における全運用プロセッサの単体性能の総和300と等しくなるので、演算プロセッサ2をシステムから切り離し、新たな予備プロセッサとして待機させる。
【0054】
手順8〜9では、図4の動作処理フローチャートの条件判定Aにおいて、「本来システムに障害のない状態の全運用プロセッサの単体性能の総和>障害発生後の運用中プロセッサの単体性能の総和」による予備プロセッサの組み込み処理は行われるが、図4の動作処理フローチャートにおける条件判定B「本来システムに障害がない状態での全運用プロセッサの単体性能の総和<=最も単体性能が小さいプロセッサを除く運用プロセッサの単体性能の総和」に基づく演算プロセッサの切り離し処理が行われない際の動作について説明する。
【0055】
手順8において、運用中の演算プロセッサ3の変換ルックアサイドバッファ17が故障したものとする。演算プロセッサ3は図5より性能低下量が80%であることから単体性能が20に低下する。この状態でシステムの総合性能は220となる。
【0056】
手順9において、診断プロセッサ6は図4の動作処理フローチャートにおける条件判定Aにより、システム内の全ての運用プロセッサ3〜5の単体性能の総和と、本来システムに障害がない状態の際の全運用プロセッサの単体性能の総和を比較する。その結果、「本来システムに障害がない状態の全運用プロセッサの単体性能の総和>障害発生後の運用中プロセッサの単体性能の総和」となるため、診断プロセッサ6は予備として待機している演算プロセッサ1と2のうち、単体性能の大きい演算プロセッサ1の方をシステムに組み込む。これによってシステムに組み込まれている運用プロセッサは1、3、4、5の4台となり、システムの総合性能は300となる。次に、図4の動作処理フローチャートにおける条件判定Bでは、予備プロセッサ1の組み込み後のシステムの総合性能が300であることから、「本来システムに障害がない状態での全運用プロセッサの単体性能の総和<=最も単体性能が小さいプロセッサを除く運用プロセッサの単体性能の総和」を満たしていないので、最も単体性能が小さいプロセッサの切り離し処理は行われず、最終的に演算プロセッサ1、3、4、5の4台でシステムの運用が継続される。
【0057】
次に、手順10〜12および13では、図4の動作処理フローチャートにおける条件判定A「本来システムに障害がない状態での全運用プロセッサの単体性能の総和>障害発生後の運用プロセッサの単体性能の総和」による予備プロセッサの組み込み処理も、図4の動作処理フローチャートにおける条件判定B「本来システムに障害がない状態の全運用プロセッサの単体性能の総和<=最も単体性能の小さいプロセッサを除く運用プロセッサの単体性能の総和」による運用中の演算プロセッサの切り離し処理も行わない場合の動作について説明する。なお、本手順を説明するためには、障害発生直前のシステムの総合性能が、本来システムに障害がない状態における全運用プロセッサの単体性能の総和を上回っている必要がある。
【0058】
手順10〜12において、システムの障害状態をさらに進行させる。すなわち、手順10において、すでに命令キャッシュ(0)13が縮退状態にある演算プロセッサ1で、命令キャッシュ(1)14にも障害が発生したとすると、演算プロセッサ100の単体性能は60に低下し、またシステム内で運用されている演算プロセッサ1、3、4、5の単体性能の総和は340となり、手順12において運用中の演算プロセッサの中で最も単体性能が小さい演算プロセッサ3がシステムから切り離され、予備プロセッサとして待機することにより、システムの総合性能は320となる。
【0059】
手順13では、運用中の演算プロセッサで障害が発生しても、何れの予備プロセッサもシステムに組み込まれることはなく、また運用中の演算プロセッサも切り離されることはない。手順13において、運用中の演算プロセッサ4で命令キャッシュ(0)13が故障した場合を例に挙げると、演算プロセッサ4の単体性能が80に低下する。この際、障害発生直前のシステムの総合性能は320であったのに対し、障害発生後は総合性能が300に低下する。これはシステムに障害がない状態の全運用プロセッサの単体性能の総和300と等しく、図4の動作処理フローチャートにおける条件判定A/条件判定Bの何れの条件も満たさないので、システムはこの状態で安定する。
【0060】
次に、複数台の予備プロセッサをシステムに組み込む際の動作について説明する。この動作は図7に示す手順7が完了している状態において、運用中の演算プロセッサ3〜5のうちの何れかが故障し、故障した演算プロセッサの単体性能の低下量が、予備として待機している演算プロセッサ1と2の単体性能の合計よりも大きい場合に発生する。すなわち、手順14において、演算プロセッサ3で演算ユニット12の故障のような致命的障害が発生し使用不可能になったとすると、演算プロセッサ3の単体性能は0となる。この際、運用中の演算プロセッサ3〜5の単体性能の合計は200となる。
【0061】
手順15において、図4の動作処理フローチャート条件判定A、不足分の性能を予備として待機している演算プロセッサ1と2のうち、単体性能が大きい方の演算プロセッサ1をシステムに組み込むことにより、システムの総合性能は280まで回復するが、演算プロセッサ1の組み込み後に再度判定される条件判定Aにより、システムに障害がない状態での運用プロセッサの単体性能の総和300までにはあと20だけ性能が不足しており、さらに予備プロセッサの組み込みが必要であると判定される。
【0062】
手順16において、予備として待機している演算プロセッサ2がシステムに組み込まれ、図4の条件判定Aを抜ける。この際演算プロセッサ1〜5の5台の合計によるシステムの総合性能は340となる。
【0063】
手順17では、致命的障害が発生した演算プロセッサ3の切り離しが実行される。演算プロセッサの致命的障害は性能低下量が100%と換算し、単体性能0に相当とする。よって図4の処理動作フローチャートにおける条件判定Bに基づき、最も単体性能が小さい運用中プロセッサの切り離し条件に従って、演算プロセッサ3がシステムより切り離される。演算プロセッサ3は単体性能が0であるから、予備プロセッサとして待機することはせず、運用中のプロセッサの次障害においてシステムに再度組み込まれることはない。
【0064】
【発明の効果】
本発明によれば、プロセッサの継続運用が可能な軽度の障害が発生し、システム性能が低下しても即予備プロセッサに切り替えるため、システムの性能低下状態が長時間継続するような事態が回避される。また、全ての予備プロセッサを使用した後に別のプロセッサでさらに重度の障害が発生したような場合、あるいは運用不可能な障害が発生した場合でも、予備に切り替えた故障プロセッサと性能低下量を比較し、より性能低下を抑えるような予備プロセッサの組み込みを選択するので、システムとしての性能低下を最小限に留める効果を奏する。
【図面の簡単な説明】
【図1】本発明の実施形態を表すシステム構成図である。
【図2】本発明に実施形態にかかる演算プロセッサの詳細構成を示すブロック図である。
【図3】第一実施例の動作を示す処理動作フローチャートである。
【図4】第二実施例の動作を示す処理動作フローチャートである。
【図5】演算プロセッサの縮退部位による性能低下量を表した図である。
【図6】第一実施例の状態遷移を示す図である。
【図7】第二実施例の状態遷移を示す図である。
【符号の説明】
1 演算プロセッサ#1
2 演算プロセッサ#2
3 演算プロセッサ#3
4 演算プロセッサ#4
5 演算プロセッサ#5
6 診断プロセッサ
11 構成制御ユニット
12 演算ユニット
13 命令キャッシュユニット(0)
14 命令キャッシュユニット(1)
15 データキャッシュユニット(0)
16 データキャッシュユニット(1)
17 変換ルックアサイドバッファ
18 バスインタフェースユニット[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a failure processing method for an information processing apparatus, and more particularly to an improvement in a method for switching a spare processor in a multiprocessor system.
[0002]
[Prior art]
An example of a conventional spare processor system is employed in the IBM (International Business Machine) S / 390 series, and is published on May 27, 1999 in the technical report "IBM Journal of Research and Development", Vol. . 43, Nos. 5/6, 1999, "RAS strategy for IBM S / 390 G5 and G6" (pages 880 to 883).
[0003]
In the case of the IBM S / 390 system, the support processing mechanism and the internal coupling mechanism that perform input / output processing with the central processing unit have a redundant configuration as a processor that can be switched over, and when a failure occurs in these devices, Switching to a spare processor is performed dynamically (meaning "without stopping the system") or by power-on reset, and operation is continued without deteriorating system performance.
[0004]
In general, in a core business server such as a general-purpose computer, in most cases, a rental contract is made as a form of sale, and the price is determined by the product of the performance of the central processing unit and the input / output device and the usage time. Therefore, maintaining the performance of the system is a requirement expected of the apparatus from the nature of the billing method.
[0005]
In addition, systems that run on general-purpose computers, such as those represented by bank accounting systems, are mainly businesses that require extremely high reliability and high availability. It is necessary to provide a redundant function for recovering a failed part.
[0006]
The spare processor system is a mechanism unique to a general-purpose computer that conforms to the above-mentioned sales form and operation form, and is an apparatus such as a general PC server whose price is determined by the maximum processing performance (usually operating frequency) of the processor. Alternatively, this is a mechanism that does not exist in a device that maintains fault tolerance by distributing work to a plurality of servers.
[0007]
The spare processor system of the IBM S / 390 system is a spare switching system using a processor as a minimum unit. Referring to FIG. 1 showing an example of the configuration of a general-purpose computer, in this conventional system,
[0008]
Now, taking a case where a failure occurs in the
[0009]
On the other hand, in the IBM S / 390 system, after stopping the failed
[0010]
In the above-mentioned document, the term "support element (SE)" is used as a mechanism for transferring the contents of the control register and the cache. However, in this configuration example, in order to embody the support element, switching of the spare processor is performed. The
[0011]
[Problems to be solved by the invention]
However, in the case of the above-described conventional system in which the preliminary switching is performed on a processor basis, there are the following problems.
[0012]
First, in a spare processor system composed of processors having partially degenerateable functions, if a specific part of the processor fails and performance degrades, the failed part of the failed processor will not be able to continue operation of the processor. There are two types of methods: a method of switching to a spare processor after expanding to a normal state, and a method of immediately switching to a spare processor when performance degradation occurs, as in the IBM S / 390 system.
[0013]
In the former case, since the failed processor remains in the system until a severe failure occurs, the performance of the system continues to degrade and the requirements of general-purpose computers that maintain the system performance as much as possible must be satisfied. Becomes difficult.
[0014]
In the latter case, the performance degradation state recovers quickly because the standby processor is immediately switched to when the performance degradation occurs.However, since the spare processor is used only when a minor failure occurs, the spare processor is used. When multiple failures occur in a small number of systems, a situation occurs in which a spare processor to be switched cannot be secured.
[0015]
An object of the present invention relates to a method of switching a spare processor in a multiprocessor information processing apparatus having a processor that can be continuously operated by separating a faulty part by a partial degeneration function. An object of the present invention is to provide a method for minimizing processor depletion and maintaining system performance as much as possible.
[0016]
[Means for Solving the Problems]
In view of the above problems, a multiprocessor switching method according to the present invention provides a multiprocessor information processing apparatus that includes at least one operating processor that is normally operated and a spare that is switched and used when a failure occurs in the operating processor. A processor, means for degenerating a failed part of the operating processor in which the failure has occurred, means for quantifying a performance degradation amount due to the failure part degradation of the operating processor, and the operation taking into account the performance degradation amount due to the failed part degradation It is characterized in that it has means for comparing the single performance of the processor with the single performance of the spare processor.
[0017]
Further, in another configuration example of the multiprocessor switching method of the present invention, when a failure occurs in the operation processor, a result of comparing the unit performance of the operation processor after degraded with the failed part and the unit performance of the spare processor If the stand-alone performance of the spare processor is smaller than or equal to the stand-alone performance of the working processor after the failure site degeneration, the working processor is continuously operated, and the stand-by performance of the spare processor is lower than that of the working processor. When the performance is higher than the unit performance after the failure part is degenerated, the spare processor is incorporated into the system, and then the failed active processor is separated from the system and put on standby as a new spare processor.
[0018]
In yet another example, in a multiprocessor information processing apparatus having a plurality of operation processors and a plurality of spare processors, the information processing apparatus includes means for calculating a performance reduction amount due to a failure site of all the operation processors and the spare processors in the system, When a failure occurs in any of the plurality of operational processors, the plurality of spare processors start with the greatest unit performance until the total is equal to or greater than the sum of the individual performances of all the operating processors in a state where the system is originally free from failure. It is characterized in that it is incorporated into the system sequentially.
[0019]
Further, as a final configuration example, the total of the unit performance excluding the smallest value among the plurality of operation processors incorporated in the system is the single operation of all the operation processors in the state where the system originally has no failure. If the total performance is greater than or equal to the total performance, the processor with the smallest single unit performance among the operational processors is sequentially disconnected from the system and is put on standby as a standby processor.
[0020]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
[0021]
As shown in FIG. 1, the
[0022]
FIG. 2 is a detailed block diagram showing the functions of the
[0023]
Next, the operation of the present invention will be described in detail with reference to the drawings.
[0024]
In a first embodiment of the present invention, in a multiprocessor information processing apparatus having a processor capable of continuous operation by separating a faulty part by a partial degeneration function, a spare processor to be switched when a failure occurs in an operation processor, an operation processor And means for quantifying the amount of performance degradation due to the failure part of the spare processor, and when a failure occurs in the operating processor, the unit performance after the failure part is degraded and the performance after the failure part of the spare processor is degraded The stand-alone processor is compared with the stand-alone processor, and if the stand-alone processor has a higher stand-alone performance than the working processor, the spare processor is incorporated into the system. After that, the failed operation processor is separated from the system and is put on standby as a new spare. On the other hand, when the stand-alone performance of the spare processor is smaller than or equal to the stand-alone performance of the working processor, the spare processor is not incorporated into the system, and the faulty part of the working processor is degraded to continue the operation.
[0025]
FIG. 3 is a flowchart showing this series of operations. A case where a failure occurs in the
[0026]
The failure that has occurred in the arithmetic processor 1 (S3-1) is notified to the
[0027]
Next, the
[0028]
Subsequently, a case where a less serious failure has occurred in the
[0029]
In the second embodiment of the present invention, in addition to the first embodiment, when a failure occurs in the operation processor, a means for quantifying the amount of performance deterioration due to the failure site of all the operation processors and the spare processor in the system is provided. After the faulty part of the failed operating processor is degraded, the spare processor is incorporated into the system, and as a result, the system performance is calculated based on the sum of the unit performances of all the operating processors when there is no failure in the system. Until it becomes equal or larger, multiple spare processors are installed in the system in the order of the single unit performance, and then the total of the operating processors excluding the processor with the lowest single unit performance among the installed processors in the system Is greater than the sum of the individual performances of all operating processors when there is no failure in the system. Equal period, separately from the sequentially system the most simple performance of small processors in the operational processor, to wait as reserve.
[0030]
FIG. 4 is a flowchart showing the operation of the second embodiment of the present invention. In FIG. 1, when the
[0031]
Further, the
[0032]
Here, assuming that the
[0033]
Next, the condition determination B of FIG. 4 compares “the sum of the system's original total performance and the sum of the single performances of the operating processors excluding the processor with the lowest single performance” (S4-6). In this case, even if the failed
[0034]
Subsequently, an operation when a plurality of spare processors are incorporated in the system will be described. This operation occurs when the sum of the single performances of any two or more spare processors cannot compensate for the performance decrease of the failed processor during operation.
[0035]
It is assumed that the
[0036]
Further, the condition determination B in FIG. 4 will be described. In the operation in which the processor with the smallest single unit performance is separated and put on standby as a spare, the overall performance of the system after installation is the sum of the unit performances of all operating processors in the state where there is no failure in the system by incorporating the spare processor. This occurs in a case where an operating processor that has exceeded the performance and has a smaller unit performance than the performance of the excess exists in the system. That is, referring to the operation example in the case where the plurality of spare processors are incorporated in the system, when five of the
[0037]
【Example】
Next, an embodiment of the present invention will be described with reference to the drawings. FIG. 1 is a system configuration block diagram showing one embodiment of the present invention. FIG. 2 is a detailed block diagram of the arithmetic processor, and FIG. 5 shows the instruction cache unit (0) 13, the instruction cache unit (1) 14, and the data cache unit ( 6 is a correspondence table showing the amount of performance degradation of each of the data cache unit (0) 15, the data cache unit (1) 16, and the
[0038]
For the sake of simplicity, it is assumed that these functional units do not affect the performance of other functional units even if degeneration occurs. However, in an actual system, if the caches and address translation functions of multiple stages are degraded, it is highly possible that the performance of other functional units will be affected. Value must be specified. In addition, since the number of spare processors to be incorporated may be larger than the number of processors to be separated due to the occurrence of a failure, in such a case, the multiprocessor coefficient (MP coefficient ) Must be taken into account as a parameter when calculating the performance reduction amount.
[0039]
Next, the processing of the flowchart showing the operation of the present invention will be described in detail with reference to FIG. 3, and the operation transition state of the present invention will be described in detail with reference to FIG.
[0040]
Assuming that the
[0041]
Subsequently, in
[0042]
In
[0043]
In
[0044]
In the
[0045]
Next, the processing of the flowchart showing the operation of the second embodiment of the present invention will be described in detail with reference to FIG. 3, and the operation transition state of the second embodiment of the present invention will be described in detail with reference to FIG.
[0046]
Assuming that the
[0047]
Subsequently, in
[0048]
In the
[0049]
In
[0050]
Subsequently, in order to explain another operation of the processing flow chart of FIG. 4, the failure state of the system is advanced until all the healthy spare processors originally mounted in the system are used up. Here, it is assumed that the data cache (0) 15 has failed in the
[0051]
In
[0052]
In
[0053]
In the
[0054]
In steps 8 and 9, the condition determination A in the operation processing flowchart of FIG. 4 is based on the “sum of the individual performances of all operating processors in a state where there is no failure in the original system> the sum of the individual performances of operating processors after the occurrence of the failure”. Although the processing for incorporating the spare processor is performed, the condition determination B in the operation processing flowchart of FIG. 4 "the sum of the individual performances of all the operational processors in a state where there is no failure in the original system <= the operational processors excluding the processor with the smallest individual performance" The operation when the processing for disconnecting the arithmetic processor based on the “sum of the single performances” is not performed is described.
[0055]
In procedure 8, it is assumed that the
[0056]
In step 9, the
[0057]
Next, in
[0058]
In
[0059]
In
[0060]
Next, an operation of incorporating a plurality of spare processors into the system will be described. In this operation, in the state where the
[0061]
In
[0062]
In
[0063]
In
[0064]
【The invention's effect】
According to the present invention, even if a minor failure that allows the continuous operation of the processor occurs and the system performance is reduced, the system is immediately switched to the spare processor. You. If a more serious failure occurs in another processor after all the spare processors have been used, or if an inoperable failure occurs, compare the performance degradation with the failed processor switched to the spare. Since the selection of a spare processor that further suppresses the performance degradation is selected, the effect of minimizing the performance degradation of the system is achieved.
[Brief description of the drawings]
FIG. 1 is a system configuration diagram showing an embodiment of the present invention.
FIG. 2 is a block diagram illustrating a detailed configuration of an arithmetic processor according to an embodiment of the present invention.
FIG. 3 is a processing operation flowchart showing the operation of the first embodiment.
FIG. 4 is a processing operation flowchart showing an operation of the second embodiment.
FIG. 5 is a diagram illustrating a performance reduction amount due to a degenerate part of an arithmetic processor.
FIG. 6 is a diagram showing a state transition of the first embodiment.
FIG. 7 is a diagram showing a state transition of the second embodiment.
[Explanation of symbols]
1
2
3
4
5
6. Diagnostic processor
11 Configuration control unit
12 arithmetic unit
13 Instruction cache unit (0)
14 Instruction Cache Unit (1)
15 Data cache unit (0)
16 Data Cache Unit (1)
17 Conversion Lookaside Buffer
18 Bus interface unit
Claims (4)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002219037A JP4072392B2 (en) | 2002-07-29 | 2002-07-29 | Multiprocessor switching method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002219037A JP4072392B2 (en) | 2002-07-29 | 2002-07-29 | Multiprocessor switching method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004062470A true JP2004062470A (en) | 2004-02-26 |
JP4072392B2 JP4072392B2 (en) | 2008-04-09 |
Family
ID=31940035
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002219037A Expired - Fee Related JP4072392B2 (en) | 2002-07-29 | 2002-07-29 | Multiprocessor switching method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4072392B2 (en) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007207219A (en) * | 2006-01-06 | 2007-08-16 | Hitachi Ltd | Computer system management method, management server, computer system, and program |
US7409576B2 (en) | 2004-09-08 | 2008-08-05 | Hewlett-Packard Development Company, L.P. | High-availability cluster with proactive maintenance |
JP2009524863A (en) * | 2006-02-28 | 2009-07-02 | インテル・コーポレーション | Enhanced reliability of multi-core processors |
JP2011044168A (en) * | 2010-10-13 | 2011-03-03 | Intel Corp | Reliability strengthening of multiple core processor |
US9141490B2 (en) | 2007-12-26 | 2015-09-22 | Nec Corporation | Graceful degradation designing system and method |
CN109074317A (en) * | 2016-03-25 | 2018-12-21 | 超威半导体公司 | The adaptive extension of the lease of entry in translation lookaside buffer |
JP7359466B2 (en) | 2022-03-16 | 2023-10-11 | Necプラットフォームズ株式会社 | Processing device, information processing system, processing method, and program |
-
2002
- 2002-07-29 JP JP2002219037A patent/JP4072392B2/en not_active Expired - Fee Related
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7409576B2 (en) | 2004-09-08 | 2008-08-05 | Hewlett-Packard Development Company, L.P. | High-availability cluster with proactive maintenance |
JP2007207219A (en) * | 2006-01-06 | 2007-08-16 | Hitachi Ltd | Computer system management method, management server, computer system, and program |
JP2009524863A (en) * | 2006-02-28 | 2009-07-02 | インテル・コーポレーション | Enhanced reliability of multi-core processors |
JP4653841B2 (en) * | 2006-02-28 | 2011-03-16 | インテル・コーポレーション | Enhanced reliability of multi-core processors |
US8074110B2 (en) | 2006-02-28 | 2011-12-06 | Intel Corporation | Enhancing reliability of a many-core processor |
US9141490B2 (en) | 2007-12-26 | 2015-09-22 | Nec Corporation | Graceful degradation designing system and method |
JP2011044168A (en) * | 2010-10-13 | 2011-03-03 | Intel Corp | Reliability strengthening of multiple core processor |
CN109074317A (en) * | 2016-03-25 | 2018-12-21 | 超威半导体公司 | The adaptive extension of the lease of entry in translation lookaside buffer |
CN109074317B (en) * | 2016-03-25 | 2023-09-12 | 超威半导体公司 | Adaptive deferral of lease for an entry in a translation look-aside buffer |
JP7359466B2 (en) | 2022-03-16 | 2023-10-11 | Necプラットフォームズ株式会社 | Processing device, information processing system, processing method, and program |
Also Published As
Publication number | Publication date |
---|---|
JP4072392B2 (en) | 2008-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6978398B2 (en) | Method and system for proactively reducing the outage time of a computer system | |
US7716520B2 (en) | Multi-CPU computer and method of restarting system | |
Castelli et al. | Proactive management of software aging | |
EP0608344B1 (en) | System for backing-up data for rollback | |
US6687849B1 (en) | Method and apparatus for implementing fault-tolerant processing without duplicating working process | |
US6574748B1 (en) | Fast relief swapping of processors in a data processing system | |
US7756048B2 (en) | Method and apparatus for customizable surveillance of network interfaces | |
US20040210800A1 (en) | Error management | |
JP4792047B2 (en) | How system availability is calculated | |
GB2299693A (en) | Client/server systems | |
KR20030034411A (en) | Apparatus and method for improving the availability of cluster computer systems | |
JP2003345531A (en) | Storage system, management server, and its application managing method | |
US6370657B1 (en) | Hot processor swap in a multiprocessor personal computer system | |
JP2004062470A (en) | Switching system of multiprocessor | |
JPS6375963A (en) | System recovery system | |
US20030177224A1 (en) | Clustered/fail-over remote hardware management system | |
JP5154843B2 (en) | Cluster system, computer, and failure recovery method | |
JP2005032243A (en) | Method and device for providing updated processor polling information | |
US5961650A (en) | Scheme to perform event rollup | |
JP2006172390A (en) | Fault tolerant duplex computer system and its control method | |
JP2009003537A (en) | Computer | |
JP3447347B2 (en) | Failure detection method | |
Hunter et al. | Availability modeling and analysis of a two node cluster | |
US20060195849A1 (en) | Method for synchronizing events, particularly for processors of fault-tolerant systems | |
JPH07121395A (en) | Method for preferentially selecting auxiliary device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20050330 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050616 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20070125 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070403 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070601 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080108 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080121 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 4072392 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110125 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110125 Year of fee payment: 3 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110125 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120125 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130125 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130125 Year of fee payment: 5 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |