JP5224038B2 - コンピュータ装置、コンピュータ装置の運用継続方法及びプログラム - Google Patents

コンピュータ装置、コンピュータ装置の運用継続方法及びプログラム Download PDF

Info

Publication number
JP5224038B2
JP5224038B2 JP2008046087A JP2008046087A JP5224038B2 JP 5224038 B2 JP5224038 B2 JP 5224038B2 JP 2008046087 A JP2008046087 A JP 2008046087A JP 2008046087 A JP2008046087 A JP 2008046087A JP 5224038 B2 JP5224038 B2 JP 5224038B2
Authority
JP
Japan
Prior art keywords
processor
memory
failure
processor board
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008046087A
Other languages
English (en)
Other versions
JP2009205362A (ja
Inventor
英二 中島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2008046087A priority Critical patent/JP5224038B2/ja
Priority to US12/391,576 priority patent/US8181063B2/en
Publication of JP2009205362A publication Critical patent/JP2009205362A/ja
Application granted granted Critical
Publication of JP5224038B2 publication Critical patent/JP5224038B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/203Failover techniques using migration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2038Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant with a single idle spare processing component
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/1658Data re-synchronization of a redundant component, or initial sync of replacement, additional or spare unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Memory System Of A Hierarchy Structure (AREA)
  • Hardware Redundancy (AREA)

Description

本発明は、プロセッサ、メモリ、チップセットを搭載する複数のプロセッサボードを備えるコンピュータ装置に関し、特に、訂正不可能障害が発生した場合に継続運用を可能にするコンピュータ装置、コンピュータ装置の運用継続方法及びプログラムに関する。
コンピュータ装置が動作中に、メモリから読み出したデータが、プロセッサ内部のバス上で2Bitエラーが発生した場合、以下のような対処方法が取られていた。
2Bitエラーは訂正できないエラー、すなわち訂正不可能障害であるため、2Bitエラーが発生した時点、あるいは、2Bitエラーによって不定となったキャッシュ上のデータを参照した時点で、それを検出して、コンピュータ装置を停止させ、故障したプロセッサを自動的に切り離した後、他のプロセッサで再立ち上げを実行する。その後、再度、コンピュータ装置を停止させた後、故障したプロセッサの交換作業を行う。
上記のような対処方法であることから、コンピュータ装置では、プロセッサで訂正不可能な障害が発生した場合、確実に障害を検出することと、短時間で再立ち上げを行うことが求められていた。
しかしながら、コンピュータ装置が普及し、社会基盤として重要な役割を担うようになった昨今、コンピュータ装置に対する連続動作性能、耐故障性能の向上への要求が高まっており、訂正不可能障害が発生した場合でも、コンピュータ装置の継続動作を可能とし、かつコンピュータ装置を停止することなくプロセッサ交換を可能とする新たな方法が求められる。
コンピュータ装置に障害が発生した場合に、コンピュータ装置を停止することなく継続運用を可能とする技術としては、例えば、特許文献1に記載されている技術がある。
特許文献1に記載のコンピュータ装置では、間欠障害が発生したプロセッサボードのメモリデータ及びプロセッサの内部情報を、交換用のプロセッサボードのメモリ及びプロセッサにコピーすることで、障害が発生したプロセッサボードから交換用のプロセッサボードに動作を切り替える。これによって、コンピュータ装置を停止することなく運用を継続する。
特開2003−256396号公報
コンピュータ装置に障害が発生した場合に、コンピュータ装置を停止することなく継続運用を可能とする技術である特許文献1記載の技術は、間欠障害等の訂正可能な障害が発生した場合に、予防保守として動的にプロセッサボードを切り替える方法であるため、2Bitエラーのような訂正不可能な障害が発生した場合には適用することができない。従って、訂正不可能な障害が発生した場合には、コンピュータ装置を停止させ、故障したプロセッサを自動的に切り離した後、他のプロセッサで再立ち上げを実行するという、ステップを踏む必要がある。
(発明の目的)
本発明の目的は、訂正不可能な障害が発生した場合でも、コンピュータ装置を停止することなく継続運用を可能とするコンピュータ装置、コンピュータ装置の運用継続方法及びプログラムを提供することにある。
本発明によるコンピュータ装置は、プロセッサ、メモリ、チップセットを搭載する複数のプロセッサボードを備えるコンピュータ装置において、運用中のプロセッサボードのプロセッサ内部で訂正不可能な障害が発生した場合、障害が発生したプロセッサボードが、キャッシュ上のデータのうち、障害によって不定となったデータを無効化した後、それ以外の有効なデータと、運用中のプロセッサの内部状態を示す情報をメモリに保存し、メモリに保存した有効なデータとプロセッサの内部状態を示す情報を、予備用のプロセッサボードのメモリにコピーし、予備用のプロセッサボードが、メモリにコピーされたプロセッサの内部状態を示す情報を読み出して当該プロセッサへコピーし、障害の発生時に実行していた命令を再実行する
本発明によるコンピュータ装置の運用継続方法は、プロセッサ、メモリ、チップセットを搭載する複数のプロセッサボードを備えるコンピュータ装置の運用継続方法であって、運用中のプロセッサボードのプロセッサ内部で訂正不可能な障害が発生した場合、障害が発生したプロセッサボードが、キャッシュ上のデータのうち、障害によって不定となったデータを無効化した後、それ以外の有効なデータと、運用中のプロセッサの内部状態を示す情報をメモリに保存し、メモリに保存した有効なデータとプロセッサの内部状態を示す情報を、予備用のプロセッサボードのメモリにコピーし、予備用のプロセッサボードが、メモリにコピーされたプロセッサの内部状態を示す情報を読み出して当該プロセッサへコピーし、障害の発生時に実行していた命令を再実行する
本発明によるプログラムは、プロセッサ、メモリ、チップセットを搭載する複数のプロセッサボードを備えるコンピュータ装置で実行され、コンピュータ装置の運用を継続するプログラムであって、運用中のプロセッサボードのプロセッサ内部で訂正不可能な障害が発生した場合、障害が発生したプロセッサボードに、キャッシュ上のデータのうち、障害によって不定となったデータを無効化した後、それ以外の有効なデータと、運用中のプロセッサの内部状態を示す情報をメモリに保存し、メモリに保存した有効なデータとプロセッサの内部状態を示す情報を、予備用のプロセッサボードのメモリにコピーする処理を実行させ、予備用のプロセッサボードに、メモリにコピーされたプロセッサの内部状態を示す情報を読み出して当該プロセッサへコピーし、障害の発生時に実行していた命令を再実行する処理を実行させる
本発明によれば、訂正不可能な障害が発生した場合でも、コンピュータ装置を停止することなく継続運用が可能となる。
次に、本発明の実施の形態について図面を参照して詳細に説明する。
図1に、本発明の実施の形態によるコンピュータ装置の構成を示す。図1において、本実施の形態によるコンピュータ装置10は、プロセッサボード100、予備プロセッサボード200、OS300を備えて構成される。
プロセッサボード100は、複数のプロセッサ(CPU100−0〜CPU100−n)と、CPU100−0〜CPU100−nにバス101を介して接続されるチップセット102及びメモリ103を搭載して構成される。
予備プロセッサボード200も同様に、複数のプロセッサ(CPU200−0〜CPU200−n)、CPU200−0〜CPU200−nにバス201を介して接続されるチップセット202及びメモリ203を搭載して構成される。予備プロセッサボード200は、運用中のプロセッサボード100において障害が発生した場合に、プロセッサボード100上のプロセッサによる運用を継続する。
なお、プロセッサボード100のプロセッサであるCPU100−0〜100−n、予備プロセッサボード200のプロセッサであるCPU200−0〜200−nは、それぞれキャッシュを備えている。
本実施の形態では、説明を簡略化するために、プロセッサボード100と予備プロセッサボード200をそれぞれ1枚備える構成を示しているが、これらのプロセッサボードをそれぞれ複数備えることも可能である。
上記のように構成されるコンピュータ装置10において、通常の運用状態では、プロセッサボード100上でオペレーティング・システム(OS)300が動作している。
また、プロセッサボード100上にはファームウェアとして実装されているBIOS(A)104が搭載され、予備プロセッサボード200上にはファームウェアとして実装されているBIOS(B)204が搭載されている。
BIOS(B)204は、予備プロセッサボード200上において、待機状態にあり、プロセッサボード100上のBIOS(A)104からの割り込みを待っている状態にある。
次に、本実施の形態によるコンピュータ装置10における、訂正不可能障害が発生した場合の動作について、図2から図4のフローチャートを参照して詳細に説明する。
コンピュータ装置10の運用中、すなわち、OS300がプロセッサボード100上で動作している状態で、プロセッサボード100上の何れかのCPU(以下の説明では、図1のCPU(0)100−1であるとする)によってメモリ103から読み出したデータについて、バス101上で2Bitエラー(訂正不可能障害)が発生したものとする。この場合、2Bitエラーによって不定となったデータがCPU内部のキャッシュ上に残ることになる。
図2において、CPU(0)100−1が2Bitエラーを検出する(ステップS101)と、BIOS(A)104へ割り込みをかける(ステップS102)。
BIOS(A)104は、割り込み処理(1)を実行し、CPU100−0のキャッシュ上の不定なデータを無効化し(ステップS103)、その後、キャッシュ内の有効なデータのみをメモリ103へ書き戻す(ステップS104)。
ここで、BIOS(A)104の割り込み処理(1)によるステップS103、S104の詳細な処理内容について、図3のフローチャートを用いて説明する。
上記のように、CPUが2Bitエラーを検出すると、BIOS(A)104へ割り込みをかけ、割り込み処理(1)が開始する。
BIOS(A)104の割り込み処理(1)は、2Bitエラーのログを収集(ステップS201)し、収集したログの解析を行う(ステップS202)。
このログの解析において、具体的には、図4に示すように、データ・キャッシュのエラーであるかどうか(ステップS203)、メモリからのLOAD命令であるかどうか(ステップS204)、メモリ上のターゲット・アドレスが有効であるかどうか(ステップS205)を判定する。ステップS203〜S205の何れかの判定結果がNOである場合には、データ・キャッシュ上の2Bitエラーが発生したデータを特定することができないため、BIOS(A)104による割り込み処理(1)を終了する。
ステップS203〜S205の全ての判定結果がYESである場合、割り込み処理(1)は、ログからターゲット・アドレスを取り出す(ステップS206)。
また、キャッシュのレベルを取り出す(ステップS207)。
さらに、LOAD命令のオペランドを分析してメモリからLOADしたデータのサイズを特定する(ステップS208)。
ここで、BIOS(A)104の割り込み処理(1)は、2Bitエラーのログ解析を終了し、ターゲット・アドレス、キャッシュのレベル、ロードしたデータのサイズによって、2Bitエラーが発生したキャッシュ上のデータを特定する(ステップS209)。
すなわち、特定したキャッシュ・レベルに位置するデータ・キャッシュ上に2Bitエラーによって不定となったデータが、データ・サイズ分、ターゲット・アドレスと共に保持されていることを特定する。
次に、特定した不定なデータのキャッシュ上の状態を、Invalid(無効)へ書き換える(ステップS210)。このステップS210によって、キャッシュ上の不定なデータが無効となる。
このステップS210による処理を行うためには、データ・キャッシュ、キャッシュ・レベル、ターゲット・アドレス、データ・サイズを特定する必要があり、そのためには、ステップS202〜S205、ステップS206、ステップS207、ステップS208が必要であり、ステップS209にて、2Bitエラーが発生したデータの特定を完了させておく必要がある。
次に、BIOS(A)104の割り込み処理(1)は、特定した不定なデータのキャッシュ上の状態を読み出す(ステップS211)。
特定した不定なデータのキャッシュ上の状態がInvalid(無効)となっているかを判別する(ステップS212)。
Invalidに変わったことを確認すると、2Bitエラーによって不定となったデータの無効化を完了する(ステップS213)。
最後に、BIOS(A)の104割り込み処理(1)は、キャッシュ上の全ての有効なデータをメモリ103へ書き出す(ステップS214)ことにより、処理を終了する。
次に、図2に戻り、ステップS103、ステップS104以後の動作について説明する。
BIOS(A)104は、プロセッサボード100上の全てのプロセッサの内部状態を示す情報(プロセッサ内部のレジスタに格納されているレジスタ・データ、動作中のプロセスのコンテキスト情報を含む)を、メモリ103上に保存する(ステップS105)。
このとき、マルチ・プロセッサ構成の場合、BIOS(A)104は、他の全てのプロセッサへ割り込みを送ることで、全てのプロセッサをBIOS(A)104の割り込み処理へ遷移させて、全てのプロセッサの内部状態を示す情報(プロセッサ内部のレジスタに格納されているレジスタ・データ、動作中のプロセスのコンテキスト情報を含む)を、メモリ103上に保存する。
次に、BIOS(A)104は、プロセッサボード100のメモリ103上の全てのデータを、予備プロセッサボード200上のメモリ203へコピーする(ステップS106)。
このとき、BIOS(A)104は、プロセッサボード100上のチップセット102が持つメモリ・コピー機能を利用して、プロセッサボード100のメモリ103上の全てのデータを、予備プロセッサボード200上のメモリ203へコピーする。
次に、BIOS(A)104は、プロセッサボード100上のチップセット102の設定値と、予備プロセッサボード200上のチップセット202の設定値を入れ替える(ステップS107)。
このステップS107によって、例えば、プロセッサボード100上のメモリ103に割り当てられたアドレスと、予備プロセッサボード200上のメモリ203に割り当てられたアドレスとの入れ替え等が行われる。
次に、BIOS(A)104は、予備プロセッサボード200上のBIOS(B)204へ割り込みをかけ(ステップS108)、予備プロセッサボード200上の全てのプロセッサをBIOS(B)204が持つ割り込み処理(2)へ移入させる。
そして、BIOS(B)204は、BIOS(A)104がステップS106においてメモリ203上に保存したプロセッサ内部状態のうち、レジスタ・データを読み出し、予備プロセッサボード200上の全てのプロセッサのレジスタへコピーする(ステップS109)。
また、BIOS(B)204は、BIOS(A)104がステップS106においてメモリ203上に保存したプロセッサ内部状態のうち、プロセスのコンテキスト情報を予備プロセッサボード200上の全てのプロセッサへコピーする(ステップS109)。
このとき、プロセスのコンテキスト情報の中には、2Bitエラーが検出された時点で実行していた命令のアドレスが残っているため、BIOS(B)204は、命令実効アドレスをそのアドレスに書き換え、予備プロセッサボード200側のプロセッサで命令の再実行を行う(ステップS110)。この命令の再実行によって、2Bitエラーとなったデータをメモリ203から再度読み直すことで、コンピュータ装置の運用が継続可能となる。
ここで、ステップS109、ステップS110の動作の詳細な内容について、図4のフローチャートを用いて詳細に説明する。
ステップS108にて、BIOS(A)104が、予備プロセッサボード200上のBIOS(B)204へ割り込みをかけると、予備プロセッサボード200上の全てのプロセッサ上が、BIOS(B)204が持つ割り込み処理(2)へ移入する。
先ず始めに、BIOS(B)204の割り込み処理(2)は、BIOS(A)104が図1のステップS106においてメモリ203上に保存しておいたプロセッサ内部状態のうち、レジスタ・データを読み出す(ステップS301)。
次に、割り込み処理(2)は、読み出したレジスタ・データを予備プロセッサボード200上の全てのプロセッサ内部のレジスタへ書き込む(ステップS302)。
次に、割り込み処理(2)は、BIOS(A)104が図1のステップS106においてメモリ203上に保存しておいたロセッサ内部状態のうち、プロセスのコンテキスト情報を読み出す(ステップS303)。
そして、割り込み処理(2)は、読み出したプロセスのコンテキスト情報を予備プロセッサボード200上の全てのプロセッサ内部へ書き込む(ステップS304)。
ここで、プロセッサ内部に書き込まれるコンテキスト情報は、命令再開アドレス、データポインタ、スタックポインタなど、OS300が動作中に2Bitエラーが検出されていた時点に実行していたコンテキストの情報である。
すなわち、BIOS(B)204の割り込み処理(2)は、命令実行アドレス・レジスタを、2Bitエラーが検出されていた時点で実行していた命令アドレス、つまり、コンテキスト情報としてメモリ上に保存されていた命令再開アドレスへ値を書き換える(ステップS305)。
そして、BIOS(B)204の割り込み処理2は、その命令実効アドレスを実行することで、2Bitエラーが検出された命令を再実行する(ステップS306)。この命令の再実行によって、2Bitエラーとなったデータをメモリ203から再度読み直すことで、コンピュータ装置の運用が継続可能となる。
その後、OS300へ制御を戻し運用を継続する(ステップS307)。すなわち、予備プロセッサボード200側でOS300の動作を再開して、コンピュータ装置の運用を継続していく。
(第1の実施の形態による効果)
以上のように、プロセッサボード100上のBIOS(A)104と、予備プロセッサボード200上のBIOS(B)204が連携することによって、2Bitエラーによって不定となったデータを無効化すると共に、プロセッサの内部状態を示す情報とメモリ上の全てのデータを、プロセッサボード100から予備プロセッサボード200へコピーする。また、予備プロセッサボード200上のBIOS(B)204が、命令実効アドレスを2Bitエラーが検出された時点で実行していた命令のアドレスへ書き換え、命令を再実行することで、2Bitエラーとなったデータを再度メモリから読み出し、予備プロセッサボード200側でOS300の動作を再開する。
以上により、コンピュータ装置が動作中に、メモリから読み出したデータが、プロセッサ内部のバス上で2Bitエラーとなった場合でも、2Bitエラーとなった命令を再実行することで、コンピュータ装置を停止することなく、正常なプロセッサでコンピュータ装置の動作が継続可能となる。
以上好ましい実施の形態をあげて本発明を説明したが、本発明は必ずしも、上記実施の形態に限定されるものでなく、その技術的思想の範囲内において様々に変形して実施することができる。
本発明の第1の実施の形態によるコンピュータ装置の構成を示すブロック図である。 本発明の第1の実施の形態によるコンピュータ装置における訂正不可能障害が発生した場合の動作を説明するフローチャートである。 図2に示す動作の割り込み処理(1)の詳細な内容を説明するフローチャートである。 図2に示す動作の割り込み処理(2)の詳細な内容を説明するフローチャートである。
符号の説明
10:コンピュータ装置
100:プロセッサボード
100−0〜100−n:CPU
101:バス
102:チップセット
103:メモリ
104:BIOS(A)
200:プロセッサボード
200−0〜200−n:CPU
201:バス
202:チップセット
203:メモリ
204:BIOS(B)
300:OS




Claims (15)

  1. プロセッサ、メモリ、チップセットを搭載する複数のプロセッサボードを備えるコンピュータ装置において、
    運用中の前記プロセッサボードのプロセッサ内部で訂正不可能な障害が発生した場合、
    障害が発生した前記プロセッサボードが、キャッシュ上のデータのうち、前記障害によって不定となったデータを無効化した後、それ以外の有効なデータと、運用中の前記プロセッサの内部状態を示す情報を前記メモリに保存し、前記メモリに保存した有効なデータと前記プロセッサの内部状態を示す情報を、予備用のプロセッサボードのメモリにコピーし、
    前記予備用のプロセッサボードが、前記メモリにコピーされたプロセッサの内部状態を示す情報を読み出して当該プロセッサへコピーし、前記障害の発生時に実行していた命令を再実行する
    ことを特徴とするコンピュータ装置。
  2. 前記障害が発生した前記プロセッサボードが、前記チップセット内の設定値を、前記予備用のプロセッサボードの前記チップセットの設定値と入れ替えることを特徴とする請求項1に記載のコンピュータ装置
  3. 障害が発生した前記プロセッサボードが、前記障害のログを解析して、データ・キャッシュ、キャッシュ・レベル、ターゲット・アドレス、データサイズを特定し、これらの情報に基づいて、前記障害によって不定となったデータを特定する
    ことを特徴とする請求項1又は請求項2に記載のコンピュータ装置
  4. 前記予備用のプロセッサボードが、前記メモリにコピーされた前記プロセッサの内部状態を示す情報を読み出して当該プロセッサボードのプロセッサへコピーし、命令実行アドレスを前記障害の発生時に実行していた命令のアドレスへ書き換えることで、前記命令を再実行することを特徴とする請求項1から請求項3の何れかに記載のコンピュータ装置
  5. 運用中の前記プロセッサボードが複数のプロセッサを搭載する場合、全てのプロセッサの内部状態を示す情報を、前記メモリ上に保存し、
    前記予備用のプロセッサボードが、前記メモリにコピーされた前記プロセッサの内部状態を示す情報を、全てのプロセッサへコピーすることを特徴とする請求項1から請求項4の何れかに記載のコンピュータ装置
  6. プロセッサ、メモリ、チップセットを搭載する複数のプロセッサボードを備えるコンピュータ装置の運用継続方法であって、
    運用中の前記プロセッサボードのプロセッサ内部で訂正不可能な障害が発生した場合、
    障害が発生した前記プロセッサボードが、キャッシュ上のデータのうち、前記障害によって不定となったデータを無効化した後、それ以外の有効なデータと、運用中の前記プロセッサの内部状態を示す情報を前記メモリに保存し、前記メモリに保存した有効なデータと前記プロセッサの内部状態を示す情報を、前記予備用のプロセッサボードのメモリにコピーし、
    前記予備用のプロセッサボードが、前記メモリにコピーされたプロセッサの内部状態を示す情報を読み出して当該プロセッサへコピーし、前記障害の発生時に実行していた命令を再実行する
    ことを特徴とするコンピュータ装置の運用継続方法
  7. 前記障害が発生した前記プロセッサボードが、前記チップセット内の設定値を、前記予備用のプロセッサボードの前記チップセットの設定値と入れ替えることを特徴とする請求項6に記載のコンピュータ装置の運用継続方法
  8. 障害が発生した前記プロセッサボードが、前記障害のログを解析し、データ・キャッシュ、キャッシュ・レベル、ターゲット・アドレス、データサイズを特定し、これらの情報に基づいて、前記障害によって不定となったデータを特定する
    ことを特徴とする請求項6又は請求項7に記載のコンピュータ装置の運用継続方法
  9. 前記予備用のプロセッサボードが、前記メモリにコピーされた前記プロセッサの内部状態を示す情報を読み出して当該プロセッサボードのプロセッサへコピーし、命令実行アドレスを前記障害の発生時に実行していた命令のアドレスへ書き換えることで、前記命令を再実行することを特徴とする請求項6から請求項8の何れかに記載のコンピュータ装置の運用継続方法
  10. 運用中の前記プロセッサボードが複数のプロセッサを搭載する場合、全てのプロセッサの内部状態を示す情報を、前記メモリ上に保存し、
    前記予備用のプロセッサボードが、前記メモリにコピーされた前記プロセッサの内部状態を示す情報を、全てのプロセッサへコピーすることを特徴とする請求項6から請求項9の何れかに記載のコンピュータ装置の運用継続方法
  11. プロセッサ、メモリ、チップセットを搭載する複数のプロセッサボードを備えるコンピュータ装置で実行され、前記コンピュータ装置の運用を継続するプログラムであって、
    運用中の前記プロセッサボードのプロセッサ内部で訂正不可能な障害が発生した場合、
    障害が発生した前記プロセッサボードに、前記キャッシュ上のデータのうち、前記障害によって不定となったデータを無効化した後、それ以外の有効なデータと、運用中の前記プロセッサの内部状態を示す情報を前記メモリに保存し、前記メモリに保存した有効なデータと前記プロセッサの内部状態を示す情報を、前記予備用のプロセッサボードのメモリにコピーする処理を実行させ、
    前記予備用のプロセッサボードに、前記メモリにコピーされたプロセッサの内部状態を示す情報を読み出して当該プロセッサへコピーし、前記障害の発生時に実行していた命令を再実行する処理を実行させる
    ことを特徴とするプログラム
  12. 前記障害が発生した前記プロセッサボードにおいて、前記チップセット内の設定値を、前記予備用のプロセッサボードの前記チップセットの設定値と入れ替える処理を実行させることを特徴とする請求項11に記載のプログラム
  13. 障害が発生した前記プロセッサボードに、前記障害に基づくエラーログを解析し、データ・キャッシュ、キャッシュ・レベル、ターゲット・アドレス、データサイズを特定し、これらの情報に基づいて、前記障害によって不定となったデータを特定する処理を実行させる
    ことを特徴とする請求項11又は請求項12に記載のプログラム
  14. 前記予備用のプロセッサボードにおいて、前記メモリにコピーされた前記プロセッサの内部状態を示す情報を読み出して当該プロセッサボードのプロセッサへコピーし、命令実行アドレスを前記障害の発生時に実行していた命令のアドレスへ書き換えることで、前記命令を再実行する処理を実行させることを特徴とする請求項11から請求項13の何れかに記載のプログラム
  15. 運用中の前記プロセッサボードが複数のプロセッサを搭載する場合、全てのプロセッサの内部状態を示す情報を、前記メモリ上に保存し、
    前記予備用のプロセッサボードが、前記メモリにコピーされた前記プロセッサの内部状態を示す情報を、全てのプロセッサへコピーすることを特徴とする請求項11から請求項14の何れかに記載のプログラム
JP2008046087A 2008-02-27 2008-02-27 コンピュータ装置、コンピュータ装置の運用継続方法及びプログラム Expired - Fee Related JP5224038B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2008046087A JP5224038B2 (ja) 2008-02-27 2008-02-27 コンピュータ装置、コンピュータ装置の運用継続方法及びプログラム
US12/391,576 US8181063B2 (en) 2008-02-27 2009-02-24 Computer device, continuing operation method for computer device, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008046087A JP5224038B2 (ja) 2008-02-27 2008-02-27 コンピュータ装置、コンピュータ装置の運用継続方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2009205362A JP2009205362A (ja) 2009-09-10
JP5224038B2 true JP5224038B2 (ja) 2013-07-03

Family

ID=40999528

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008046087A Expired - Fee Related JP5224038B2 (ja) 2008-02-27 2008-02-27 コンピュータ装置、コンピュータ装置の運用継続方法及びプログラム

Country Status (2)

Country Link
US (1) US8181063B2 (ja)
JP (1) JP5224038B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5403054B2 (ja) * 2009-07-10 2014-01-29 富士通株式会社 メモリダンプ機能を有するサーバおよびメモリダンプ取得方法
JP5609363B2 (ja) * 2010-07-21 2014-10-22 トヨタ自動車株式会社 自己回復コンピュータシステムのためのアーキテクチャ
US8887012B2 (en) * 2010-08-24 2014-11-11 Advanced Micro Devices, Inc. Method and apparatus for saving and restoring soft repair data
EP2660724B1 (en) * 2010-12-27 2020-07-29 Fujitsu Limited Information processing device having memory dump function, memory dump method, and memory dump program
US10146615B2 (en) * 2017-04-24 2018-12-04 Arteris, Inc. Recovery of a system directory after detection of uncorrectable error
EP3699771A1 (en) * 2019-02-21 2020-08-26 CoreMedia AG Method and apparatus for managing data in a content management system
FR3118512B1 (fr) * 2020-12-30 2023-02-24 Thales Sa Procédé de contrôle d’un ensemble de cartes de calcul d’un serveur multimédia embarqué à bord d’un aéronef, programme d’ordinateur, dispositif électronique de contrôle, et serveur multimédia associés

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5649090A (en) * 1991-05-31 1997-07-15 Bull Hn Information Systems Inc. Fault tolerant multiprocessor computer system
JPH1011319A (ja) * 1996-06-25 1998-01-16 Hitachi Ltd マルチプロセッサシステムの保守方法
JP2916421B2 (ja) * 1996-09-09 1999-07-05 株式会社東芝 キャッシュフラッシュ装置およびデータ処理方法
JP3555847B2 (ja) * 1999-05-26 2004-08-18 Necソフト株式会社 キャッシュメモリの障害処理装置、キャッシュメモリの障害処理方法、マルチプロセッサシステム
US6622263B1 (en) * 1999-06-30 2003-09-16 Jack Justin Stiffler Method and apparatus for achieving system-directed checkpointing without specialized hardware assistance
US6516429B1 (en) * 1999-11-04 2003-02-04 International Business Machines Corporation Method and apparatus for run-time deconfiguration of a processor in a symmetrical multi-processing system
US6681339B2 (en) * 2001-01-16 2004-01-20 International Business Machines Corporation System and method for efficient failover/failback techniques for fault-tolerant data storage system
US6832329B2 (en) * 2001-02-08 2004-12-14 International Business Machines Corporation Cache thresholding method, apparatus, and program for predictive reporting of array bit line or driver failures
US6851071B2 (en) * 2001-10-11 2005-02-01 International Business Machines Corporation Apparatus and method of repairing a processor array for a failure detected at runtime
US7032123B2 (en) * 2001-10-19 2006-04-18 Sun Microsystems, Inc. Error recovery
JP3891004B2 (ja) 2002-02-26 2007-03-07 日本電気株式会社 情報処理システム及び該システムの制御方法並びにプログラム
US7162587B2 (en) * 2002-05-08 2007-01-09 Hiken Michael S Method and apparatus for recovering redundant cache data of a failed controller and reestablishing redundancy
US7114095B2 (en) * 2002-05-31 2006-09-26 Hewlett-Packard Development Company, Lp. Apparatus and methods for switching hardware operation configurations
JP3933587B2 (ja) * 2003-01-28 2007-06-20 株式会社東芝 計算機システム、計算機装置及びオペレーティングシステムの移送方法
US7467326B2 (en) * 2003-02-28 2008-12-16 Maxwell Technologies, Inc. Self-correcting computer
US7139933B2 (en) * 2003-06-20 2006-11-21 International Business Machines Corporation Preserving cache data against cluster reboot
US7484118B2 (en) * 2003-12-16 2009-01-27 International Business Machines Corporation Multi nodal computer system and method for handling check stops in the multi nodal computer system
US7321986B2 (en) * 2004-03-31 2008-01-22 International Business Machines Corporation Configuring cache memory from a storage controller
US7302608B1 (en) * 2004-03-31 2007-11-27 Google Inc. Systems and methods for automatic repair and replacement of networked machines
US20060083102A1 (en) * 2004-10-20 2006-04-20 Seagate Technology Llc Failover control of dual controllers in a redundant data storage system
JP4489802B2 (ja) * 2005-02-07 2010-06-23 富士通株式会社 マルチcpuコンピュータおよびシステム再起動方法
US7694174B2 (en) * 2005-02-18 2010-04-06 Hewlett-Packard Development Company, L.P. Systems and methods for CPU repair
US7263581B2 (en) * 2005-03-31 2007-08-28 Inventec Corporation System and method for accessing and verifying the validity of data content stored in the cache memory on disk
JP4788516B2 (ja) * 2006-07-28 2011-10-05 日本電気株式会社 動的置き換えシステム、動的置き換え方法およびプログラム
US20090177919A1 (en) * 2008-01-04 2009-07-09 International Business Machines Corporation Dynamic redundancy for microprocessor components and circuits placed in nonoperational modes

Also Published As

Publication number Publication date
US20090217087A1 (en) 2009-08-27
US8181063B2 (en) 2012-05-15
JP2009205362A (ja) 2009-09-10

Similar Documents

Publication Publication Date Title
JP5224038B2 (ja) コンピュータ装置、コンピュータ装置の運用継続方法及びプログラム
LaFrieda et al. Utilizing dynamically coupled cores to form a resilient chip multiprocessor
US8327188B2 (en) Hardware transactional memory acceleration through multiple failure recovery
CN101271417B (zh) 修复数据处理系统的方法、数据处理系统及信息处置系统
EP1966697B1 (en) Software assisted nested hardware transactions
US7853825B2 (en) Methods and apparatus for recovering from fatal errors in a system
US10713128B2 (en) Error recovery in volatile memory regions
WO2018040494A1 (zh) 一种扩展处理器指令集的方法及装置
TWI510912B (zh) 多核電路中之容錯
JP2009211517A (ja) 仮想計算機冗長化システム
CN104798059B (zh) 在检查点外部处理写入数据的多个计算机系统
US10817369B2 (en) Apparatus and method for increasing resilience to faults
TW201915761A (zh) 在例外遮罩更新指令之後允許未中止的交易處理
US8069309B1 (en) Servicing memory in response to system failure
JPWO2008111124A1 (ja) マルチcpu異常検出復旧システム、方法及びプログラム
JP2017078998A (ja) 情報処理装置およびログ管理方法、並びにコンピュータ・プログラム
CN115576734B (zh) 一种多核异构日志存储方法和系统
JPH07141176A (ja) コマンドリトライ制御方式
WO2012137239A1 (ja) 計算機システム
JP2009230479A (ja) マイクロプロセッサ
JP5163061B2 (ja) マルチプロセッサシステム、マイクロプロセッサ、及びマイクロプロセッサの障害処理方法
JP2968484B2 (ja) マルチプロセッサ計算機及びマルチプロセッサ計算機における障害復旧方法
JP2002229811A (ja) 論理分割システムの制御方法
JP5056487B2 (ja) デバッグ支援機構およびプロセッサシステム
JP2008171058A (ja) システムコントローラ、プロセッサ、情報処理システムおよび情報処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110106

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121115

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121119

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130118

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130213

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130226

R150 Certificate of patent or registration of utility model

Ref document number: 5224038

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160322

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees