JP3481737B2 - ダンプ採取装置およびダンプ採取方法 - Google Patents

ダンプ採取装置およびダンプ採取方法

Info

Publication number
JP3481737B2
JP3481737B2 JP20015495A JP20015495A JP3481737B2 JP 3481737 B2 JP3481737 B2 JP 3481737B2 JP 20015495 A JP20015495 A JP 20015495A JP 20015495 A JP20015495 A JP 20015495A JP 3481737 B2 JP3481737 B2 JP 3481737B2
Authority
JP
Japan
Prior art keywords
processor
dump
processing
processors
faulty
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP20015495A
Other languages
English (en)
Other versions
JPH0950424A (ja
Inventor
修 稲穂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP20015495A priority Critical patent/JP3481737B2/ja
Priority to US08/623,995 priority patent/US5884019A/en
Priority to DE19615644A priority patent/DE19615644C2/de
Publication of JPH0950424A publication Critical patent/JPH0950424A/ja
Application granted granted Critical
Publication of JP3481737B2 publication Critical patent/JP3481737B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/1438Restarting or rejuvenating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、複数の処理プロセッサ
を用いて1つの並列プログラムを実行するシステムのダ
ンプ採取装置およびダンプ採取方法に関し、特に、分散
メモリ型並列型計算機における複数のダンプの採取装置
および採取方法に関する。
【0002】一般に単一型計算機では、システムが異常
な状態に陥ったとき、主記憶装置あるいは2次記憶装置
の内容をダンプ(DUMP)として採取して外部記憶装
置へ送り、それを基にオペレーションシステムの障害の
原因究明を行っている。
【0003】一方、複数の処理プロセッサと、それらを
結ぶ通信網とを備え、各処理プロセッサが独立した記憶
装置とCPUとを備えた分散メモリ型並列型計算機にお
いては、通信網によりデータの交換や同期を行いなが
ら、複数の処理プロセッサが同一の並列プログラムを実
行することが行われている。こうした分散メモリ型並列
型計算機においても、システムの異常時にはダンプの採
取が行われる。
【0004】
【従来の技術】従来、多数の処理プロセッサを備えた計
算機システムにおいて、そのうちの複数の処理プロセッ
サを用いて1つの並列プログラムを実行しているとき
に、それらの複数の処理プロセッサのいずれかに障害が
発生した場合、その並列プログラムを実行していた処理
プロセッサ全ての動作が停止され、それらの処理プロセ
ッサ全てにおけるダンプが採取され、外部記憶装置のフ
ァイルに吐き出される。
【0005】ダンプが採取された複数の処理プロセッサ
のうち、障害が発生した処理プロセッサ以外のプロセッ
サには何ら問題がないので、それらのプロセッサに対し
ては、ダンプの吐き出し後、再起動が行われる。
【0006】
【発明が解決しようとする課題】ところで、障害発生に
よって動作が停止してから再起動するまでのシステム停
止時間は当然、最小限に抑えることが要求される。
【0007】しかし、処理プロセッサから吐き出された
ダンプを外部記憶装置へ書き込むことに要する時間は一
般的に長くかかる。しかも、最近の処理プロセッサでは
内部メモリ量が増大しているのでその所要時間は更に長
くなる傾向にあり、また、ダンプを採取すべき処理プロ
セッサの数が多くなればそれだけトータルのシステム停
止時間は長くなる。
【0008】こうしたことは、ユーザにとって非常に不
利益をもたらすことであり、できるだけシステムの停止
時間を短くする必要がある。本発明はこのような点に鑑
みてなされたものであり、複数の処理プロセッサを備え
て並列プログラムを実行するシステムにおいて、ダンプ
の採取に伴うシステムの停止時間を短縮することを図っ
たダンプ採取装置およびダンプ採取方法を提供すること
を目的とする。
【0009】
【課題を解決するための手段】本発明では上記目的を達
成するために、図1に示すように、並列プログラム1を
実行する複数の処理プロセッサ2〜4のいずれかに障害
が発生したときに、複数の処理プロセッサ2〜4の動作
を停止させる停止手段5と、障害が発生した障害プロセ
ッサ(例えば処理プロセッサ4に障害が発生したとす
る)の内部記憶装置に、複数の処理プロセッサ2〜4の
うちの処理プロセッサ4を除いた処理プロセッサ2,3
の各ダンプを書き込むダンプ書込手段6とを、有するこ
とを特徴とするダンプ採取装置が提供される。
【0010】 また好ましくは、ダンプ採取装置は、ダ
ンプ書込手段6によるダンプ書き込みが完了した後、複
数の処理プロセッサ2〜4のうちの処理プロセッサ4を
除いた処理プロセッサ2,3を再起動させる再起動手段
7と、処理プロセッサ4に書き込まれた各ダンプおよび
処理プロセッサ4自身のダンプを外部記憶装置8へ読み
出す読出手段9とを有する。
【0011】
【作用】以上のような構成において、複数の処理プロセ
ッサ2〜4は通信網10によって接続されて並列プログ
ラム1の実行を行う。ここで、複数の処理プロセッサ2
〜4のうちの処理プロセッサ4に障害が発生したと仮定
する。
【0012】 この障害検知により、停止手段5が、ま
ず複数の処理プロセッサ2〜4の動作を停止させる。そ
して、ダンプ書込手段6が、障害が発生した処理プロセ
ッサ4の内部記憶装置に、処理プロセッサ2,3の各ダ
ンプを書き込む。このダンプ書き込みは、各処理プロセ
ッサ間におけるリード/ライト処理であるので、処理プ
ロセッサと外部記憶装置との間のリード/ライト処理に
比べて格段に高速度に行われる。
【0013】 ダンプ書込手段6によるダンプ書き込み
が完了した後、再起動手段7が、処理プロセッサ4を除
いた処理プロセッサ2,3を再起動させる。したがっ
て、処理プロセッサ4を除いた処理プロセッサ2,3に
関しては、従来に比べて格段に短い停止時間の後、再起
動されることになる。
【0014】 なお、処理プロセッサ4に書き込まれた
各ダンプおよび処理プロセッサ4自身のダンプは、読出
手段9によって外部記憶装置8へ読み出される。これに
要する時間は従来通りの時間であるが、このときには、
既に処理プロセッサ4を除いた他の正常な処理プロセッ
サ2,3は動作再開しているので、この所要時間は何ら
問題とならない。
【0015】
【実施例】以下、本発明の実施例を図面に基づいて説明
する。まず、本発明の第1の実施例の原理構成を、図1
を参照して説明する。第1の実施例は、並列プログラム
1を実行する複数の処理プロセッサ2〜4のいずれかに
障害が発生したときに、複数の処理プロセッサ2〜4の
動作を停止させる停止手段5と、障害が発生した障害プ
ロセッサ(例えば処理プロセッサ4に障害が発生したと
する)の内部記憶装置に、複数の処理プロセッサ2〜4
のうちの処理プロセッサ4を除いた処理プロセッサ2,
3の各ダンプを書き込むダンプ書込手段6とを備える。
また、ダンプ書込手段6によるダンプ書き込みが完了し
た後、複数の処理プロセッサ2〜4のうちの処理プロセ
ッサ4を除いた処理プロセッサ2,3を再起動させる再
起動手段7と、処理プロセッサ4に書き込まれた各ダン
プおよび処理プロセッサ4自身のダンプを外部記憶装置
8へ読み出す読出手段9とを備える。
【0016】 図2(A)は、第1の実施例の具体的な
構成を示す。図中、制御用プロセッサ11およびプロセ
ッサ12〜15が通信網16によって接続され、プロセ
ッサ12〜15が並列プログラム17を実行する。プロ
セッサ12〜15は、独立した内部記憶装置とCPUと
を有し、通信網16を介して互いにデータの交換や同期
を行いながら、並列プログラム17を実行する。プロセ
ッサ12〜15の各内部記憶装置は、システムプログラ
ム(オペレーションシステム)およびユーザプログラム
(アプリケーションプログラム)により使用される。シ
ステムに異常が発生した場合には、システム異常の原因
を調査するために、プロセッサ12〜15において主に
システムプログラムに使用された各内部記憶装置内の情
報(ダンプ)が採取される必要がある。
【0017】図1における停止手段5、再起動手段7、
および読出手段9は、図2(A)に示す制御用プロセッ
サ11の動作により実現する機能である。なお、図1に
おけるダンプ書込手段6は、図2(A)に示す制御用プ
ロセッサ11からプロセッサ12〜15へ送られたダン
プドライバ(ダンプ取得プログラム)を、プロセッサ1
2〜15が実行することにより実現する機能である。
【0018】また、図1における処理プロセッサ2〜4
は、図2(A)のプロセッサ12〜15に対応し、同様
に、並列プログラム1は並列プログラム17に、通信網
10は通信網16に対応する。
【0019】 図2(B)は、プロセッサ14に異常が
発生した場合に、制御用プロセッサ11から各プロセッ
サ12〜15にダンプドライバが送られる様子を示し、
図2(C)は、プロセッサ12,13,15からプロセ
ッサ14の内部記憶装置へダンプが書き込まれる様子を
示している。こうした制御用プロセッサ11によるダン
プ採取の処理手順を図3を参照して説明する。
【0020】図3は、制御用プロセッサ11によるダン
プ採取の処理手順を示すフローチャートである。以下、
図中のステップに沿って説明する。 〔S1〕制御用プロセッサ11がプロセッサ12〜15
を監視して、異常の発生を検出する。異常の発生を検出
すると、制御用プロセッサ11は、並列プログラム17
を実行していたプロセッサ12〜15の動作を停止させ
る。図中の「PE」は Processing Element の略号であ
り、プロセッサを指す。以下、プロセッサ14に異常が
発生したと仮定して説明する。
【0021】〔S2〕異常の発生したプロセッサ14に
制御用プロセッサ11からダンプドライバを送る。ダン
プドライバは、ダンプを読み出して送り、所定の場所に
書き込むためのプログラムである。
【0022】〔S3〕異常の発生したプロセッサ14以
外のプロセッサ12,13,15に制御用プロセッサ1
1からダンプドライバを送る。 〔S4〕ダンプドライバを実行することにより、プロセ
ッサ12,13,15は、自己のダンプを異常の発生し
たプロセッサ14へそれぞれ読み出す。それぞれ読み出
されたダンプは、プロセッサ12,13,15の各内部
記憶装置のスカラメモリ上に書き込まれていたオペレー
ションシステムに関連するメモリダンプである。
【0023】〔S5〕ダンプドライバを実行することに
より、異常の発生したプロセッサ14は、送られた各ダ
ンプを自己の内部記憶装置へ書き込む。特に、これらの
ダンプは、プロセッサ14の内部記憶装置のユーザプロ
グラム用に使用されていたベクトルメモリ上に書き込ま
れる。
【0024】なお、ダンプのデータ量は、異常の発生し
たプロセッサ14に一番多く存在するので、ダンプを、
異常の発生したプロセッサ14に集約することは、集約
に要する時間を一番短くすることにつながる。
【0025】〔S6〕ダンプの転送が完了した後、制御
用プロセッサ11は、異常の発生したプロセッサ14以
外のプロセッサ12,13,15にIPL(Initial Pro
gramLoader)を実行させて再起動させ、運用を再開させ
る。
【0026】〔S7〕制御用プロセッサ11は、プロセ
ッサ14に書き込まれた各ダンプおよびプロセッサ14
自身のダンプを読み出して、外部記憶装置のファイル上
に書き込む。このファイルを基に、異常の原因の究明が
別途行われる。
【0027】〔S8〕制御用プロセッサ11は、プロセ
ッサ14にIPLを実行させて再起動させ、運用を再開
させる。つぎに、本発明の第2の実施例を説明する。
【0028】第2の実施例の原理構成も、図1に示す構
成と同じである。図4(A)は、第2の実施例の具体的
な構成を示す。図1における停止手段5、再起動手段
7、および読出手段9は、図4(A)に示す制御用プロ
セッサ21の動作により実現する機能である。なお、図
1におけるダンプ書込手段6は、図4(A)に示す制御
用プロセッサ21からプロセッサ22〜27へ送られた
ダンプドライバ(ダンプ取得プログラム)を、プロセッ
サ22〜27が実行することにより実現する機能であ
る。
【0029】また、図1における処理プロセッサ2〜4
は、図4(A)のプロセッサ22〜27に対応し、同様
に、並列プログラム1は並列プログラム29に、通信網
10は通信網28に対応する。ただし、図4(A)で
は、並列プログラム29をプロセッサ22〜26が実行
し、プロセッサ27は実行しない例を示す。
【0030】 図4(B)は、プロセッサ24に異常が
発生した場合に、プロセッサ22,23,25,26か
らプロセッサ24の内部記憶装置へダンプが書き込まれ
る様子を示している。第2の実施例では、書き込まれる
ダンプのデータ量が多く、プロセッサ24の内部記憶装
置が全てを格納しきれない場合に対処した装置を提供し
ている。こうした制御用プロセッサ21によるダンプ採
取の処理手順を図5を参照して説明する。
【0031】図5は、制御用プロセッサ21によるダン
プ採取の処理手順を示すフローチャートである。このフ
ローチャートは、図3に示す第1の実施例のフローチャ
ートと基本的には同じであるので、異なる部分だけを説
明する。なお、図5のステップS11〜S15が図3の
ステップS1〜S5にそれぞれ対応し、また、図5のス
テップS18〜S20が図3のステップS6〜S8にそ
れぞれ対応する。
【0032】 〔S16〕並列プログラム29を実行し
ていたプロセッサ22〜26のうちでプロセッサ24に
異常が発生した場合に、プロセッサ22,23,25,
26の各ダンプがプロセッサ24へ書き込まれる(集約
される)が、このプロセッサ24の内部記憶装置が一杯
になってしまっていないか否かを判別する。一杯になら
ず、プロセッサ22,23,25,26から送られた各
ダンプが全部格納できたときにはステップS18へ進
み、一方、一杯になってしまい、送られたダンプの全部
は格納できていないときにはステップS17へ進む。
【0033】 〔S17〕制御用プロセッサ21によ
り、格納しきれなかった残りのダンプを新たに格納すべ
きプロセッサを決定する。この決定は、制御用プロセッ
サ21がシステム監視プログラムを実行することにより
自動的に行われる。例えば、図4のプロセッサ24の右
側に並ぶプロセッサ25,26を、さらには左側のプロ
セッサ22,23をこの順に順次対象として、既に自己
のダンプのプロセッサ24への転送を完了しているかど
うかを調べる。そして、既に自己のダンプの転送を完了
しているプロセッサが見つかったら、最初に見つかった
プロセッサを、残りのダンプを格納すべきプロセッサと
して決定する。図4の例ではプロセッサ25が、残りの
ダンプを格納すべきプロセッサに決定されている。
【0034】したがって、その後のステップS14,S
15の実行では、プロセッサ25の内部記憶装置に残り
のダンプが書き込まれる。そして、ステップS18で
は、プロセッサ22,23,26が再起動され、ステッ
プS19では、プロセッサ24,S25から外部記憶装
置へダンプが吐き出される。
【0035】 このように、第2の実施例では、書き込
まれるダンプのデータ量が多く、プロセッサ24の内部
記憶装置が全てを格納しきれない場合に、既に自己のダ
ンプの転送を完了しているプロセッサを一意的に決定し
て、そのプロセッサに、格納しきれなかったダンプを格
納することを可能としている。
【0036】
【発明の効果】以上説明したように本発明では、複数の
処理プロセッサによって並列プログラムと実行している
ときに異常が発生した場合、異常が発生したプロセッサ
に、関連する他の処理プロセッサのダンプを集め、それ
らの他の処理プロセッサについては運用を再開させる。
これによって、ダンプの採取に伴うシステムの停止時間
が、従来のように各処理プロセッサのダンプを外部記憶
装置へ吐き出す場合に比べて、短縮することができる。
したがって、障害時にユーザに対して与える影響を最小
限に止めることができ、信頼性を向上できる。
【図面の簡単な説明】
【図1】本発明の原理説明図である。
【図2】第1の実施例の説明図であり、(A)は第1の
実施例の具体的な構成を示し、(B)は制御用プロセッ
サから各プロセッサにダンプドライバが送られる様子を
示し、(C)は各プロセッサから異常プロセッサへダン
プが書き込まれる様子を示している。
【図3】第1の実施例の動作フローチャートである。
【図4】第2の実施例の説明図であり、(A)は第2の
実施例の具体的な構成を示し、(B)は各プロセッサか
ら異常プロセッサ等にダンプが書き込まれる様子を示し
ている。
【図5】第2の実施例の動作フローチャートである。
【符号の説明】
1 並列プログラム 2 処理プロセッサ 3 処理プロセッサ 4 処理プロセッサ 5 停止手段 6 ダンプ書込手段 7 再起動手段 8 外部記憶装置 9 読出手段 10 通信網
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平2−121048(JP,A) 特開 昭61−273643(JP,A) 特開 平3−240842(JP,A) 特開 平4−241654(JP,A) 特開 平2−44436(JP,A) 特開 平2−302845(JP,A) (58)調査した分野(Int.Cl.7,DB名) G06F 11/28 - 11/34 G06F 15/16 - 15/177 JSTファイル(JOIS)

Claims (7)

    (57)【特許請求の範囲】
  1. 【請求項1】 複数の処理プロセッサを用いて1つの並
    列プログラムを実行するシステムのダンプ採取装置にお
    いて、 並列プログラムを実行する複数の処理プロセッサのいず
    れかに障害が発生したときに、当該複数の処理プロセッ
    サの動作を停止させる停止手段と、 前記障害が発生した障害プロセッサの内部記憶装置に、
    前記複数の処理プロセッサのうちの前記障害プロセッサ
    を除いた処理プロセッサの各ダンプを書き込むダンプ書
    込手段と、前記ダンプ書込手段によるダンプ書き込みが完了した
    後、前記複数の処理プロセッサのうちの前記障害プロセ
    ッサを除いた処理プロセッサを再起動させる再起動手段
    と、 を有することを特徴とするダンプ採取装置。
  2. 【請求項2】 前記障害プロセッサに書き込まれた各ダ
    ンプおよび前記障害プロセッサ自身のダンプを外部記憶
    装置へ読み出す読出手段を更に有することを特徴とする
    請求項1記載のダンプ採取装置。
  3. 【請求項3】 前記読出手段によるダンプ読み出しが完
    了した後、前記障害プロセッサを再起動させる障害プロ
    セッサ再起動手段を更に有することを特徴とする請求項
    2記載のダンプ採取装置。
  4. 【請求項4】 前記障害プロセッサに書き込まれた各ダ
    ンプおよび前記障害プロセッサ自身のダンプを外部記憶
    装置へ読み出す読出手段を更に有し、 前記ダンプ書込手段は、前記障害プロセッサの内部記憶
    装置に前記ダンプの全てを書き込みきれない場合には、
    前記複数の処理プロセッサのうちで既に自己のダンプの
    送出が済んでいる送出済プロセッサの内部記憶装置に、
    残りのダンプを書き込む手段を含み、 前記再起動手段は、前記ダンプの全てを書き込みきれな
    い場合に、前記複数の処理プロセッサのうちの前記障害
    プロセッサおよび前記送出済プロセッサを除いた処理プ
    ロセッサを再起動させる手段を含み、 前記読出手段は、前記ダンプの全てを書き込みきれない
    場合に、前記障害プロセッサおよび前記送出済プロセッ
    サに書き込まれた各ダンプ、並びに前記障害プロセッサ
    自身のダンプを前記外部記憶装置へ読み出す手段を含む
    ことを特徴とする請求項1記載のダンプ採取装置。
  5. 【請求項5】 制御プロセッサおよび複数の処理プロセ
    ッサを備え、前記複数の処理プロセッサを用いて1つの
    並列プログラムを実行するシステムにおける前記制御プ
    ロセッサによるダンプ採取方法において、 (1)並列プログラムを実行する複数の処理プロセッサ
    のいずれかに障害が発生したときに、前記複数の処理プ
    ロセッサによる処理を停止させ、 (2)前記複数の処理プロセッサにダンプ取得プログラ
    ムを送り、 (3)前記送られたダンプ取得プログラムにより、障害
    プロセッサの内部記憶装置に、前記複数の処理プロセッ
    サのうちの前記障害プロセッサを除いた処理プロセッサ
    の各ダンプを書き込ませ、 (4)前記ステップ(3)によるダンプ書き込み完了後
    に、前記複数の処理プロセッサのうちの前記障害プロセ
    ッサを除いた処理プロセッサを再起動させ、 (5)前記障害プロセッサに書き込まれた各ダンプおよ
    び前記障害プロセッサ自身のダンプを外部記憶装置へ読
    み出させることを特徴とするダンプ採取方法。
  6. 【請求項6】 (6)前記ステップ(5)によるダンプ
    読み出し完了後に、前記障害プロセッサを再起動させる
    ことを特徴とする請求項5記載のダンプ採取方法。
  7. 【請求項7】 前記ステップ(3)において、前記障害
    プロセッサの内部記憶装置に前記ダンプの全てを書き込
    みきれない場合には、前記複数の処理プロセッサのうち
    で既に自己のダンプの送出が済んでいる送出済プロセッ
    サの内部記憶装置に、残りのダンプを書き込ませ、 前記ステップ(4)において、前記ダンプの全てを書き
    込みきれない場合に、前記複数の処理プロセッサのうち
    の前記障害プロセッサおよび前記送出済プロセッサを除
    いた処理プロセッサを再起動させ、 前記ステップ(5)において、前記ダンプの全てを書き
    込みきれない場合に、前記障害プロセッサおよび前記送
    出済プロセッサに書き込まれた各ダンプ、並びに前記障
    害プロセッサ自身のダンプを前記外部記憶装置へ読み出
    させることを特徴とする請求項5記載のダンプ採取方
    法。
JP20015495A 1995-08-07 1995-08-07 ダンプ採取装置およびダンプ採取方法 Expired - Lifetime JP3481737B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP20015495A JP3481737B2 (ja) 1995-08-07 1995-08-07 ダンプ採取装置およびダンプ採取方法
US08/623,995 US5884019A (en) 1995-08-07 1996-03-29 System and method for collecting dump information in a multi-processor data processing system
DE19615644A DE19615644C2 (de) 1995-08-07 1996-04-22 Verfahren zum Sammeln von Speicherauszugsinformationen durch einen Steuerprozessor und Datenverarbeitungsanlage zur Durchführung des Verfahrens

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP20015495A JP3481737B2 (ja) 1995-08-07 1995-08-07 ダンプ採取装置およびダンプ採取方法

Publications (2)

Publication Number Publication Date
JPH0950424A JPH0950424A (ja) 1997-02-18
JP3481737B2 true JP3481737B2 (ja) 2003-12-22

Family

ID=16419694

Family Applications (1)

Application Number Title Priority Date Filing Date
JP20015495A Expired - Lifetime JP3481737B2 (ja) 1995-08-07 1995-08-07 ダンプ採取装置およびダンプ採取方法

Country Status (3)

Country Link
US (1) US5884019A (ja)
JP (1) JP3481737B2 (ja)
DE (1) DE19615644C2 (ja)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19827432C2 (de) 1997-07-25 2001-07-26 Siemens Ag Verfahren zur Speicherung von Rechner-Zustandsdaten bei einem Störfall, der ein anschließendes Wieder-Hochfahren des Rechners erfordert
JP3389842B2 (ja) * 1997-10-08 2003-03-24 トヨタ自動車株式会社 データ修復システム及び車両用データ修復装置並びにデータ修復プログラムを記録した媒体
US6675324B2 (en) * 1999-09-27 2004-01-06 Intel Corporation Rendezvous of processors with OS coordination
US6643802B1 (en) * 2000-04-27 2003-11-04 Ncr Corporation Coordinated multinode dump collection in response to a fault
US6738928B1 (en) * 2000-06-19 2004-05-18 Hewlett-Packard Development Company, L.P. Method and expert system for analysis of crash dumps
US6832342B2 (en) * 2001-03-01 2004-12-14 International Business Machines Corporation Method and apparatus for reducing hardware scan dump data
US6912670B2 (en) * 2002-01-22 2005-06-28 International Business Machines Corporation Processor internal error handling in an SMP server
US6973598B2 (en) * 2002-01-28 2005-12-06 Dell Products L.P. Computer system with improved data capture system
US20050240806A1 (en) * 2004-03-30 2005-10-27 Hewlett-Packard Development Company, L.P. Diagnostic memory dump method in a redundant processor
US8799706B2 (en) * 2004-03-30 2014-08-05 Hewlett-Packard Development Company, L.P. Method and system of exchanging information between processors
US7308609B2 (en) * 2004-04-08 2007-12-11 International Business Machines Corporation Method, data processing system, and computer program product for collecting first failure data capture information
CN1755660B (zh) * 2004-09-28 2010-09-29 惠普开发有限公司 冗余处理器中的诊断存储器转储方法
US7383471B2 (en) * 2004-12-28 2008-06-03 Hewlett-Packard Development Company, L.P. Diagnostic memory dumping
US7590885B2 (en) * 2005-04-26 2009-09-15 Hewlett-Packard Development Company, L.P. Method and system of copying memory from a source processor to a target processor by duplicating memory writes
US9176803B2 (en) 2006-08-14 2015-11-03 International Business Machines Corporation Collecting data from a system in response to an event based on an identification in a file of the data to collect
US8127099B2 (en) * 2006-12-26 2012-02-28 International Business Machines Corporation Resource recovery using borrowed blocks of memory
US8473818B2 (en) * 2009-10-12 2013-06-25 Empire Technology Development Llc Reliable communications in on-chip networks
JP2016042618A (ja) * 2014-08-13 2016-03-31 富士電機株式会社 制御装置及び制御方法
KR20190037666A (ko) * 2017-09-29 2019-04-08 에스케이하이닉스 주식회사 데이터 저장 장치 및 그것의 동작 방법
US11379290B2 (en) 2019-07-17 2022-07-05 International Business Machines Corporation Prioritizing and parallelizing the capture of data for debugging computer programs

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69021712T2 (de) * 1990-02-08 1996-04-18 Ibm Wiederanlaufkennzeichnungsmechanismus für fehlertolerierende Systeme.
US5634096A (en) * 1994-10-31 1997-05-27 International Business Machines Corporation Using virtual disks for disk system checkpointing

Also Published As

Publication number Publication date
DE19615644C2 (de) 1998-07-09
JPH0950424A (ja) 1997-02-18
US5884019A (en) 1999-03-16
DE19615644A1 (de) 1997-02-13

Similar Documents

Publication Publication Date Title
JP3481737B2 (ja) ダンプ採取装置およびダンプ採取方法
US5948112A (en) Method and apparatus for recovering from software faults
EP0479230B1 (en) Recovery method and apparatus for a pipelined processing unit of a multiprocessor system
US5630139A (en) Program download type information processor
JPH07117903B2 (ja) 障害回復方法
JP2009211517A (ja) 仮想計算機冗長化システム
JP4490745B2 (ja) ホットスタンバイシステム
US5056091A (en) Method for handling errors detected in a computer system
JP3301992B2 (ja) 電源故障対策を備えたコンピュータシステム及びその動作方法
US7281163B2 (en) Management device configured to perform a data dump
JP3070453B2 (ja) 計算機システムのメモリ障害回復方法および回復システム
JPH05181824A (ja) データ管理方式
JP2785992B2 (ja) サーバプログラムの管理処理方式
JPH11120154A (ja) コンピュータシステムにおけるアクセス制御装置および方法
JP2870202B2 (ja) プロセッサ間相互監視方法及びその装置
CN108415788B (zh) 用于对无响应处理电路作出响应的数据处理设备和方法
JPH0217550A (ja) マルチプロセッサシステムの障害処理方式
JPH0667909A (ja) 障害回復方式
JP2922981B2 (ja) タスクの実行継続方法
JP2825589B2 (ja) バス制御方式
JPH07219796A (ja) 情報処理装置
JPH06214831A (ja) 中央処理装置の異常検出装置
JPS6074052A (ja) ヒストリ・メモリ制御方式
JPS6130296B2 (ja)
JPH0395634A (ja) 計算機システム再起動制御方式

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20030930

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071010

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081010

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081010

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091010

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091010

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101010

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101010

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111010

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111010

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121010

Year of fee payment: 9