JP2001034508A - Memory dump collection method and its execution device, and recording medium recording memory dump collection program - Google Patents

Memory dump collection method and its execution device, and recording medium recording memory dump collection program

Info

Publication number
JP2001034508A
JP2001034508A JP11207117A JP20711799A JP2001034508A JP 2001034508 A JP2001034508 A JP 2001034508A JP 11207117 A JP11207117 A JP 11207117A JP 20711799 A JP20711799 A JP 20711799A JP 2001034508 A JP2001034508 A JP 2001034508A
Authority
JP
Japan
Prior art keywords
processor
dump
dump data
storage device
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11207117A
Other languages
Japanese (ja)
Inventor
Yoshihiko Nagata
祐彦 永田
Hiroyuki Kumazaki
裕之 熊▲崎▼
Kozo Kobayashi
耕三 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP11207117A priority Critical patent/JP2001034508A/en
Publication of JP2001034508A publication Critical patent/JP2001034508A/en
Pending legal-status Critical Current

Links

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

PROBLEM TO BE SOLVED: To shorten the stop time of a computer system when a fault occurs by restarting a processor after saving the dump data on a dump collection object processor in a fast storage and then outputting the saved dump data to a slow external storage. SOLUTION: A processor having a fault such as an OS panic transmits the data on a main storage 42 to a designated dump data saving processor 4. The processor 4 saves the received dump data in a dump data saving area 421 of the storage 42. When this saving operation is over, a dump data output processing part 412 is started to output the stored dump data to a dump file 51 of a slow external storage 5. Meanwhile, a system management processor 1 restarts the processor 2 where the dump data saving operation is over in parallel to the output of the dump data.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明はコンピュータシステ
ム障害時の情報採取を行うメモリダンプ採取システムに
関し、特に大規模メモリを備えるメモリ分散型並列計算
機システムの障害時のメモリダンプ採取を行うメモリダ
ンプ採取システムに適用して有効な技術に関するもので
ある。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a memory dump collecting system for collecting information when a computer system fails, and more particularly to a memory dump collecting system for collecting a memory dump when a failure occurs in a memory distributed parallel computer system having a large-scale memory. It is related to technology that is effective when applied to

【0002】[0002]

【従来の技術】従来、コンピュータシステムの障害時に
は情報採取を行う為にメモリダンプの採取が行われてい
る。例えば、特開平5−20137号公報の高速データ
ダンプ方法では、磁気記憶装置へダンプデータを出力す
ると同時に拡張記憶装置へダンプデータを出力すること
により、ダンプ出力の時間を短縮し、コンピュータシス
テムの停止時間を短くすることが記載されている。
2. Description of the Related Art Conventionally, a memory dump is collected in order to collect information when a computer system fails. For example, in the high-speed data dump method disclosed in JP-A-5-20137, dump data is output to an extended storage device at the same time as dump data is output to a magnetic storage device, thereby shortening the time required for dump output and stopping the computer system. It is described that the time is shortened.

【0003】また、特開平5−53882号公報のメモ
リダンプ収集方式、特開平5−151034号公報のダ
ンプ出力装置、特開平5−173851号公報のメモリ
ダンプ収集方式、特開平5−250228号公報の障害
情報採取方式、特開平5−257761号公報の障害情
報採取方式、特開平7−325738号公報の障害情報
採取方式では、障害の解析に必要なメモリイメージだけ
を選択してダンプすることにより、ダンプ出力の時間と
二次記憶装置の使用容量を削減し、コンピュータシステ
ムの停止時間を短くすることが記載されている。
Further, a memory dump collecting method disclosed in Japanese Patent Application Laid-Open No. 5-53882, a dump output device described in Japanese Patent Application Laid-Open No. 5-151034, a memory dump collecting method disclosed in Japanese Patent Application Laid-Open No. 5-1738851, and Japanese Patent Application Laid-Open No. 5-250228 are disclosed. In the fault information collecting method described in JP-A-5-257761 and the fault information collecting method described in JP-A-7-325738, only the memory image necessary for analyzing the fault is selected and dumped. It describes that the time for dump output and the used capacity of the secondary storage device are reduced, and the downtime of the computer system is shortened.

【0004】また、特開平10−333944号公報の
メモリダンプ採取方式では、OSの中核部のメモリ領域
のみを採取後、OSを再ロードすることで、コンピュー
タシステムの停止時間を短くし、システム再開後、残り
のメモリ領域を採取することが記載されている。
In the memory dump collecting method disclosed in Japanese Patent Application Laid-Open No. 10-333944, only the core memory area of the OS is collected, and then the OS is reloaded to reduce the suspension time of the computer system and restart the system. Later, it is described that the remaining memory area is collected.

【0005】また分散メモリ型並列計算機の分野におい
て、特開平9−50424号公報のダンプ採取装置及び
ダンプ採取方法では、障害の発生したプロセッサに関連
する他のプロセッサのダンプデータを障害の発生したプ
ロセッサに書き込み、書き込みが完了した時点で障害の
発生したプロセッサ以外の他のプロセッサを再起動さ
せ、コンピュータシステムの停止時間を短くすることが
記載されている。
In the field of distributed memory type parallel computers, the dump collecting apparatus and the dump collecting method disclosed in Japanese Patent Application Laid-Open No. 9-50424 disclose dump data of another processor related to the failed processor. It describes that the processor other than the failed processor is restarted at the time of completion of the writing to shorten the downtime of the computer system.

【0006】[0006]

【発明が解決しようとする課題】コンピュータシステム
で障害が発生して、システムが停止した場合、その原因
を調査する上で必要となる障害発生時のメモリイメージ
の保存(メモリダンプ採取)を行う。コンピュータシス
テムの大規模化、高密度化に伴って実装される主記憶容
量は増加の傾向にあるが、一般にメモリダンプを格納す
る外部記憶装置には低速な磁気記憶装置が使用されてお
り、メモリダンプ採取に要する時間は長くなる傾向にあ
る。メモリダンプ採取が行われている間は、コンピュー
タシステムが使用できないため、ユーザに不利益をもた
らすことになる。このため上記各公報の従来例に示され
ている様に、特殊な記憶装置を装備したり、特定の領域
のみを選択することで、メモリダンプの出力の時間を短
縮している。
When a failure occurs in a computer system and the system stops, a memory image (collection of a memory dump) at the time of the failure necessary for investigating the cause is performed. The main memory capacity mounted with the increase in the scale and density of computer systems is increasing, but in general, a low-speed magnetic storage device is used as an external storage device for storing a memory dump. The time required for dump collection tends to be long. While the memory dump is being collected, the computer system cannot be used, thereby causing a disadvantage to the user. Therefore, as shown in the conventional examples of the above publications, a special memory device is provided, or only a specific area is selected, thereby shortening the time for outputting a memory dump.

【0007】しかし、特開平5−20137号公報の高
速データダンプ方法の様に、特殊な記憶装置がない場合
や、十分な容量を用意できない場合は、システムの再起
動を短縮できない。
However, as in the high-speed data dump method disclosed in Japanese Patent Application Laid-Open No. Hei 5-20137, when there is no special storage device or when a sufficient capacity cannot be prepared, the restart of the system cannot be shortened.

【0008】また、特開平5−151034号公報のダ
ンプ出力装置等の様なメモリイメージを選択する方式
や、特開平10−333944号公報のメモリダンプ採
取方式の様に、OSの中核部のメモリ領域のみ先に採取
するものでは、低速な二次記憶装置へ出力が完了するま
でシステムの再起動ができない。
[0008] Further, as in a method of selecting a memory image such as a dump output device disclosed in Japanese Patent Application Laid-Open No. H5-151534 or a memory dump collecting method disclosed in Japanese Patent Application Laid-Open No. H10-333944, a memory at the core of an OS is used. If only the area is collected first, the system cannot be restarted until the output to the low-speed secondary storage device is completed.

【0009】また、特開平9−50424号公報のダン
プ採取装置及びダンプ採取方法では、障害プロセッサに
ついては、ダンプデータを外部記憶装置に出力が完了す
るまでは再起動ができない。
In the dump collecting apparatus and the dump collecting method disclosed in Japanese Patent Application Laid-Open No. 9-50424, the failed processor cannot be restarted until the output of the dump data to the external storage device is completed.

【0010】本発明の目的は上記問題を解決し、障害発
生時のコンピュータシステムの停止時間を短縮すること
が可能な技術を提供することにある。
An object of the present invention is to solve the above-mentioned problems and to provide a technique capable of reducing the downtime of a computer system when a failure occurs.

【0011】本発明の他の目的は被ダンプ採取プロセッ
サの記憶領域を有効利用すると共にダンプデータの記憶
装置への退避に必要な時間を短縮することが可能な技術
を提供することにある。
Another object of the present invention is to provide a technique capable of effectively utilizing the storage area of the dumped processor and shortening the time required for saving the dump data to the storage device.

【0012】[0012]

【課題を解決するための手段】本発明は、障害発生時に
メモリダンプを採取するメモリダンプ採取システムにお
いて、ダンプ採取の対象となる被ダンプ採取プロセッサ
のダンプデータを高速な記憶装置上に退避して当該プロ
セッサを再起動した後、前記退避したダンプデータを低
速な外部記憶装置に出力するものである。
SUMMARY OF THE INVENTION The present invention provides a memory dump collecting system for collecting a memory dump when a failure occurs, by saving dump data of a dumped processor to be dumped to a high-speed storage device. After restarting the processor, the saved dump data is output to a low-speed external storage device.

【0013】本発明においてコンピュータシステムで障
害が発生すると、まずダンプ採取の対象となる被ダンプ
採取プロセッサのダンプデータを、そのダンプデータを
最終的に出力する外部記憶装置よりも高速な記憶装置上
に退避する。ここで、前記高速な記憶装置は、ダンプ採
取の対象となる被ダンプ採取プロセッサとは異なるダン
プデータ退避プロセッサに接続された記憶装置であるも
のとするが、被ダンプ採取プロセッサ自身の記憶装置に
ダンプデータを退避し、再起動の際にダンプデータを退
避した特定領域の内容を保存するものとしても良い。
In the present invention, when a failure occurs in a computer system, first, dump data of a dumped processor to be dumped is stored on a storage device which is faster than an external storage device which finally outputs the dump data. evacuate. Here, it is assumed that the high-speed storage device is a storage device connected to a dump data save processor different from the dumped processor to be dumped, but the dump is stored in the storage device of the dumped processor itself. The data may be saved and the contents of the specific area where the dump data is saved at the time of restart may be saved.

【0014】そして、前記高速な記憶装置上へのダンプ
データの退避が行われた被ダンプ採取プロセッサを再起
動し、これと並行して、前記高速な記憶装置上に退避さ
れたダンプデータを、前記記憶装置よりも低速な外部記
憶装置に出力する。
Then, the dumped processor whose dump data has been saved on the high-speed storage device is restarted, and in parallel with this, the dump data saved on the high-speed storage device is deleted. Output to an external storage device that is slower than the storage device.

【0015】前記の様に本発明によれば、被ダンプ採取
プロセッサのダンプデータを高速な主記憶装置上に退避
した直後、被ダンプ採取プロセッサの再起動が可能とな
る為、コンピュータシステムが障害で停止した場合の停
止時間を短縮することが可能になる。
As described above, according to the present invention, the dumped processor can be restarted immediately after the dump data of the dumped processor is saved on the high-speed main storage device. It is possible to reduce the stop time when stopping.

【0016】更に、再起動に際して記憶装置の特定領域
の内容を保存する手段を備えることにより、被ダンプ採
取プロセッサ自身の記憶装置上にダンプデータを退避し
て再起動を行う為、ダンプデータの記憶装置への退避を
短時間で行い、コンピュータシステムが障害で停止した
場合の停止時間を短縮することが可能になる。
[0016] Further, by providing means for saving the contents of a specific area of the storage device upon restart, the dump data is saved in the storage device of the dumped processor itself and restarted. The evacuation to the device can be performed in a short time, and the stop time when the computer system stops due to a failure can be reduced.

【0017】以上の様に本発明のメモリダンプ採取シス
テムによれば、ダンプ採取の対象となる被ダンプ採取プ
ロセッサのダンプデータを高速な記憶装置上に退避して
当該プロセッサを再起動した後、前記退避したダンプデ
ータを低速な外部記憶装置に出力するので、障害発生時
のコンピュータシステムの停止時間を短縮することが可
能である。
As described above, according to the memory dump collection system of the present invention, the dump data of the dumped processor to be dumped is saved on a high-speed storage device and the processor is restarted. Since the saved dump data is output to a low-speed external storage device, it is possible to reduce the stop time of the computer system when a failure occurs.

【0018】[0018]

【発明の実施の形態】(実施形態1)以下にダンプ採取
の対象となる被ダンプ採取プロセッサのダンプデータを
ダンプデータ退避プロセッサの記憶装置上に退避した後
に外部記憶装置に出力する実施形態1のメモリダンプ採
取システムについて説明する。
DESCRIPTION OF THE PREFERRED EMBODIMENTS (Embodiment 1) Hereinafter, dump data of a dumped processor to be dumped is saved on a storage device of a dump data saving processor and then output to an external storage device. The memory dump collection system will be described.

【0019】図1は本実施形態の分散メモリ型並列計算
機の一例を示す図である。図1に示す様に本実施形態の
分散メモリ型並列計算機は、科学技術計算等の大規模な
数値計算を分散して高速に行う複数の演算プロセッサ
と、システム全体を管理するシステム管理プロセッサと
が、ネットワークXにより相互に通信可能に接続されて
いる。
FIG. 1 is a diagram showing an example of a distributed memory type parallel computer according to this embodiment. As shown in FIG. 1, the distributed memory type parallel computer of the present embodiment includes a plurality of arithmetic processors that perform large-scale numerical calculations such as scientific and technological calculations at high speed and a system management processor that manages the entire system. , Are communicably connected to each other by a network X.

【0020】本実施形態では、P1を障害プロセッサ、P2
及びP3を関連プロセッサ、P5〜P7をダンプデータ退避プ
ロセッサとし、ダンプデータ退避プロセッサは、ダンプ
データ退避用の主記憶上の領域を必要とするものとす
る。この為、ダンプデータ退避プロセッサはシステム構
成により決定されるが、障害プロセッサ、関連プロセッ
サはシステムを構成する全てのプロセッサが該当しうる
ものであり、すなわち、システム管理プロセッサやダン
プデータ退避プロセッサも障害プロセッサや関連プロセ
ッサになり得る。
In this embodiment, P1 is a faulty processor, P2
And P3 are related processors, P5 to P7 are dump data saving processors, and the dump data saving processor needs an area on the main memory for dump data saving. For this reason, the dump data saving processor is determined by the system configuration. However, the faulty processor and the related processor can correspond to all processors constituting the system. That is, the system management processor and the dump data saving processor are also faulty processors. And related processors.

【0021】図2は本実施形態の分散メモリ型並列計算
機の各部の概略構成を示す図である。図2に示す様に本
実施形態の分散メモリ型並列計算機は、障害検知処理部
21と、関連プロセッサ特定処理部22と、障害通知処
理部23と、ダンプデータ送信処理部24と、ダンプデ
ータ送信処理部31と、システム制御部初期化処理部1
11と、障害情報受信処理部112と、ダンプデータ退
避プロセッサ選択処理部113と、ダンプデータ退避要
求処理部114と、再起動処理部115と、ダンプデー
タ受信処理部411と、ダンプデータ出力処理部412
とを有している。
FIG. 2 is a diagram showing a schematic configuration of each section of the distributed memory type parallel computer of the present embodiment. As shown in FIG. 2, the distributed memory parallel computer according to the present embodiment includes a failure detection processing unit 21, a related processor specifying processing unit 22, a failure notification processing unit 23, a dump data transmission processing unit 24, a dump data transmission Processing unit 31 and system control unit initialization processing unit 1
11, a dump information receiving processor 112, a dump data saving processor selecting processor 113, a dump data saving request processor 114, a restart processor 115, a dump data receiving processor 411, and a dump data output processor. 412
And

【0022】障害検知処理部21は、障害の発生を検知
する処理部である。関連プロセッサ特定処理部22は、
障害に関連する可能性があり、その主記憶上のデータを
採取する必要があると思われる関連プロセッサ3を特定
する処理部である。
The failure detection processing section 21 is a processing section for detecting the occurrence of a failure. The related processor specifying processor 22 includes:
This is a processing unit that specifies a related processor 3 which may be related to a failure and needs to collect data on its main memory.

【0023】障害通知処理部23は、システム制御部1
1に対して障害の発生と関連プロセッサ3を通知する処
理部である。ダンプデータ送信処理部24は、ダンプ採
取の対象となる障害プロセッサ2の主記憶上のダンプデ
ータを、システム制御部11の選択したダンプデータ退
避プロセッサ4に転送してその主記憶装置42上に退避
する処理部である。
The failure notification processing unit 23 includes the system control unit 1
1 is a processing unit for notifying the occurrence of a failure and the related processor 3 to 1. The dump data transmission processing unit 24 transfers the dump data in the main storage of the failed processor 2 to be dumped to the dump data saving processor 4 selected by the system control unit 11 and saves the dump data on the main storage device 42. This is a processing unit.

【0024】ダンプデータ送信処理部31は、ダンプ採
取の対象となる関連プロセッサ3の主記憶上のダンプデ
ータを、システム制御部11の選択したダンプデータ退
避プロセッサ4に転送してその主記憶装置42上に退避
する処理部である。
The dump data transmission processing unit 31 transfers the dump data in the main memory of the relevant processor 3 to be dumped to the dump data saving processor 4 selected by the system control unit 11 and transfers the dump data to the main storage device 42. This is a processing unit that is evacuated upward.

【0025】システム制御部初期化処理部111は、シ
ステム制御部11にてダンプ採取の為の初期化を行う処
理部である。障害情報受信処理部112は、障害プロセ
ッサ2からの障害情報を受け付ける為の処理部である。
The system control section initialization processing section 111 is a processing section for performing initialization for dump collection by the system control section 11. The failure information reception processing unit 112 is a processing unit for receiving failure information from the failure processor 2.

【0026】ダンプデータ退避プロセッサ選択処理部1
13は、被ダンプ採取プロセッサ(障害プロセッサ2及
び関連プロセッサ3を指す)の主記憶データを退避する
為のダンプデータ退避プロセッサ4を選択する処理部で
ある。
Dump data saving processor selection processing unit 1
A processing unit 13 selects the dump data saving processor 4 for saving the main storage data of the dumped processor (indicating the failed processor 2 and the related processor 3).

【0027】ダンプデータ退避要求処理部114は、選
択したダンプデータ退避プロセッサ4への主記憶データ
の退避を被ダンプ採取プロセッサに対して要求する処理
部である。再起動処理部115は、ダンプデータ退避プ
ロセッサ4の記憶装置上へのダンプデータの退避が完了
した被ダンプ採取プロセッサを、当該ダンプデータの外
部記憶装置5への出力終了を待つことなく再起動する処
理部である。
The dump data saving request processing unit 114 is a processing unit that requests the dumped processor to save the main storage data to the selected dump data saving processor 4. The restart processing unit 115 restarts the dumped processor whose dump data has been completely saved to the storage device of the dump data saving processor 4 without waiting for the end of outputting the dump data to the external storage device 5. It is a processing unit.

【0028】ダンプデータ受信処理部411は、被ダン
プ採取プロセッサから転送されるダンプデータを受け付
けてダンプデータ退避領域421に退避する処理部であ
る。ダンプデータ出力処理部412は、ダンプデータ退
避プロセッサ4の主記憶装置42上のダンプデータ退避
領域421に退避されたダンプデータを外部記憶装置5
に出力する処理部である。
The dump data reception processing section 411 is a processing section that receives dump data transferred from the dumped processor and saves the dump data in the dump data saving area 421. The dump data output processing unit 412 stores the dump data saved in the dump data saving area 421 on the main storage device 42 of the dump data saving processor 4 in the external storage device 5.
Is a processing unit that outputs the data to

【0029】分散メモリ型並列計算機を障害検知処理部
21、関連プロセッサ特定処理部22、障害通知処理部
23、ダンプデータ送信処理部24、ダンプデータ送信
処理部31、システム制御部初期化処理部111、障害
情報受信処理部112、ダンプデータ退避プロセッサ選
択処理部113、ダンプデータ退避要求処理部114、
再起動処理部115、ダンプデータ受信処理部411及
びダンプデータ出力処理部412として機能させる為の
プログラムは、DAT(Digital Audio Tape)等の記録
媒体に記録されて実行されるものとする。なお前記プロ
グラムを記録する記録媒体はDAT以外の他の記録媒体
でも良い。
The distributed memory type parallel computer is connected to a failure detection processing unit 21, a related processor specifying processing unit 22, a failure notification processing unit 23, a dump data transmission processing unit 24, a dump data transmission processing unit 31, a system control unit initialization processing unit 111. , A failure information reception processor 112, a dump data save processor selection processor 113, a dump data save request processor 114,
A program for functioning as the restart processing unit 115, the dump data reception processing unit 411, and the dump data output processing unit 412 is recorded on a recording medium such as a DAT (Digital Audio Tape) and executed. The recording medium for recording the program may be a recording medium other than DAT.

【0030】図2のシステム管理プロセッサ1は、図1
のシステム管理プロセッサS1の構成例を、図2の障害プ
ロセッサ2は、図1の障害の発生した演算プロセッサP1
の構成例を、図2の関連プロセッサ3は、図1で障害は
発生していないが、演算プロセッサP1の障害に関連して
いる可能性がある演算プロセッサP2及びP3の構成例を、
図2のダンプデータ退避プロセッサ4は、図1のダンプ
退避用の主記憶領域を持つ演算プロセッサP5〜P7の構成
例を示している。
The system management processor 1 shown in FIG.
In the example of the configuration of the system management processor S1 shown in FIG. 2, the faulty processor 2 shown in FIG.
The related processor 3 in FIG. 2 shows an example of the configuration of the arithmetic processors P2 and P3 which have no failure in FIG. 1 but may be related to the failure of the arithmetic processor P1.
The dump data saving processor 4 in FIG. 2 shows a configuration example of the arithmetic processors P5 to P7 having a main memory area for dump saving in FIG.

【0031】図2に示す様に本実施形態のダンプデータ
退避プロセッサ4は、被ダンプ採取プロセッサから転送
されるダンプデータを受け付けて退避する為のダンプデ
ータ退避領域421を備えており、この領域は主記憶装
置42にメモリを増設することにより確保されるものと
するが、主記憶装置42にメモリを増設することなく、
主記憶装置42の空き領域をダンプデータ退避領域42
1としても良い。その際、被ダンプ採取プロセッサから
転送されるダンプデータを一つのダンプデータ退避領域
421中に退避できない場合には、ダンプデータを圧縮
して退避したり、複数のダンプデータ退避プロセッサ4
のダンプデータ退避領域421を単一の領域と見なした
仮想的な領域に、被ダンプ採取プロセッサから転送され
るダンプデータを退避するものとしても良い。
As shown in FIG. 2, the dump data saving processor 4 of this embodiment has a dump data saving area 421 for receiving and saving dump data transferred from the dumped processor. It is assumed that the memory is secured by adding a memory to the main storage device 42, but without adding a memory to the main storage device 42,
The empty area of the main storage device 42 is stored in the dump data save area 42.
It may be 1. At this time, if the dump data transferred from the dump collection processor cannot be saved in one dump data saving area 421, the dump data is compressed and saved, or the plurality of dump data saving processors 4
The dump data transferred from the dumped processor may be saved in a virtual area where the dump data saving area 421 is regarded as a single area.

【0032】また外部記憶装置5は、ダンプデータ退避
プロセッサ4から出力されたダンプデータを格納するダ
ンプファイル51を備えている。また、ネットワーク6
は、システム管理プロセッサ1、障害プロセッサ2、関
連プロセッサ3及びダンプデータ退避プロセッサ4が互
いに通信する際に用いられるネットワークである。
The external storage device 5 includes a dump file 51 for storing dump data output from the dump data saving processor 4. Network 6
Is a network used when the system management processor 1, the failed processor 2, the related processor 3, and the dump data saving processor 4 communicate with each other.

【0033】以下、上述の様に構成された本実施形態の
動作を図3及び図4のフローを用いて説明する。図3は
本実施形態のシステム管理プロセッサ1及び障害プロセ
ッサ2の処理手順を示すフローチャートである。例えば
図1の演算プロセッサP1でOSパニック等の障害が発生
した場合、障害プロセッサ2である演算プロセッサP1の
障害検知処理部21は、障害の発生を検知し、関連プロ
セッサ特定処理部22を起動する(S210)。
Hereinafter, the operation of this embodiment configured as described above will be described with reference to the flow charts of FIGS. FIG. 3 is a flowchart showing a processing procedure of the system management processor 1 and the faulty processor 2 of the present embodiment. For example, when a failure such as an OS panic occurs in the arithmetic processor P1 of FIG. 1, the failure detection processing unit 21 of the arithmetic processor P1 as the failed processor 2 detects the occurrence of the failure and activates the related processor specifying processing unit 22. (S210).

【0034】関連プロセッサ特定処理部22は、障害は
発生していないが障害に関連する可能性のある関連プロ
セッサ3を障害の内容から特定し、障害通知処理部23
を起動する(S220)。本説明では、演算プロセッサ
P1の関連プロセッサ3を演算プロセッサP2及びP3とす
る。
The related processor identification processing unit 22 identifies the related processor 3 which has not failed but may be related to the failure from the content of the failure, and outputs the failure notification processing unit 23.
Is started (S220). In this description, the arithmetic processor
Assume that the associated processor 3 of P1 is arithmetic processors P2 and P3.

【0035】障害通知処理部23では、演算プロセッサ
P1で障害が発生し、障害に関連する可能性がある関連プ
ロセッサ3として演算プロセッサP2及びP3があるという
障害情報を、ネットワークX(図2では、ネットワーク
6)を介してシステム管理プロセッサS1へ通知する(S
230)。
The fault notification processing unit 23 includes an arithmetic processor
Failure information indicating that there is an arithmetic processor P2 or P3 as a related processor 3 in which a failure has occurred in P1 and possibly related to the failure is notified to the system management processor S1 via the network X (the network 6 in FIG. 2). Do (S
230).

【0036】一方、システム管理プロセッサ1は、シス
テム制御部初期化処理部111においてダンプデータ退
避プロセッサ4のダンプデータ退避領域421の管理テ
ーブルを作成した後(S1110)、図2の障害情報受
信処理部112を起動し、障害通知受信待ち状態とな
る。障害プロセッサ2からの障害通知を受けると、受け
付けた障害情報を解析し、演算プロセッサP1、P2及びP3
のメモリダンプを採取することを決定し、ダンプデータ
退避プロセッサ選択処理部113を起動する(S112
0)。
On the other hand, the system management processor 1 creates a management table for the dump data save area 421 of the dump data save processor 4 in the system control unit initialization processing unit 111 (S1110), and then proceeds to the failure information reception processing unit of FIG. Activate 112 and enter a failure notification reception wait state. Upon receiving a fault notification from the fault processor 2, the received fault information is analyzed and the arithmetic processors P1, P2 and P3 are analyzed.
It is determined that a memory dump is to be collected, and the dump data saving processor selection processing unit 113 is started (S112).
0).

【0037】ダンプデータ退避プロセッサ選択処理部1
13では、ダンプが採取される演算プロセッサP1、P2及
びP3の主記憶容量とシステム内のダンプデータ退避領域
421の使用状況から演算プロセッサP1、P2及びP3それ
ぞれのダンプデータを退避するダンプデータ退避プロセ
ッサ4を特定し、ダンプデータ退避要求処理部114を
起動する(S1130)。本説明では、障害の発生した
演算プロセッサP1のダンプデータ退避プロセッサ4を演
算プロセッサP5、関連プロセッサ3である演算プロセッ
サP2及びP3のダンプデータ退避プロセッサ4をそれぞれ
演算プロセッサP6及びP7とする。
Dump data saving processor selection processing unit 1
13, a dump data save processor that saves the dump data of each of the arithmetic processors P1, P2, and P3 based on the main storage capacity of the arithmetic processors P1, P2, and P3 from which the dump is collected and the usage status of the dump data save area 421 in the system. 4 and activates the dump data save request processing unit 114 (S1130). In this description, it is assumed that the dump data saving processor 4 of the faulty arithmetic processor P1 is an arithmetic processor P5, and the dump data saving processors 4 of the arithmetic processors P2 and P3 as the related processors 3 are arithmetic processors P6 and P7, respectively.

【0038】ダンプデータ退避要求処理部114は、被
ダンプ採取プロセッサである演算プロセッサP1、P2及び
P3に対して、それぞれダンプデータ退避プロセッサ4で
ある演算プロセッサP5、P6及びP7の主記憶上へのダンプ
データの転送を要求する(S1140)。
The dump data saving request processing unit 114 includes arithmetic processors P1, P2, which are dumped processors, and
P3 is requested to transfer dump data to the main storage of the arithmetic processors P5, P6, and P7, which are the dump data saving processors 4, respectively (S1140).

【0039】図4は本実施形態の障害プロセッサ2/関
連プロセッサ3及びダンプデータ退避プロセッサ4の処
理手順を示すフローチャートである。被ダンプ採取プロ
セッサである演算プロセッサP1、P2及びP3のダンプデー
タ送信処理部24またはダンプデータ送信処理部31で
は、指定されたダンプデータ退避プロセッサ4へ主記憶
上のデータを送信する(S240)。
FIG. 4 is a flowchart showing the processing procedure of the failed processor 2 / related processor 3 and the dump data saving processor 4 of the present embodiment. The dump data transmission processing unit 24 or the dump data transmission processing unit 31 of the arithmetic processors P1, P2, and P3, which are the dumped processors, transmits the data in the main storage to the specified dump data saving processor 4 (S240).

【0040】一方、ダンプデータ退避プロセッサ4であ
る演算プロセッサP5、P6及びP7のダンプデータ受信処理
部411は、システム起動後、ダンプデータ受信待ち状
態となり(S4110)、被ダンプ採取プロセッサから
ダンプデータが転送されて来るとダンプデータを主記憶
装置42上のダンプデータ退避領域421に退避し、退
避が完了するとダンプデータ出力処理部412を起動す
る(S4111)。
On the other hand, the dump data reception processing units 411 of the arithmetic processors P5, P6, and P7, which are the dump data saving processors 4, enter a dump data reception waiting state after the system is started (S4110), and dump data is received from the dumped processor. When the data is transferred, the dump data is saved in the dump data save area 421 on the main storage device 42, and when the save is completed, the dump data output processing unit 412 is activated (S4111).

【0041】また、被ダンプ採取プロセッサは、システ
ム管理プロセッサ1の再起動処理部115に対し、ダン
プデータの転送完了を通知し、再起動を要求する(S2
41)。
Further, the dumped processor notifies the restart processing unit 115 of the system management processor 1 of the completion of the transfer of the dump data, and requests a restart (S2).
41).

【0042】ダンプデータ退避プロセッサ4のダンプデ
ータ出力処理部412は、ダンプデータ退避領域421
に格納されたダンプデータを、外部記憶装置5のダンプ
ファイル51へ出力し(S4120)、出力が完了する
と、ダンプデータ退避領域421を空き領域にすると共
に、システム管理プロセッサ1のシステム制御部11に
ダンプデータ出力の完了を通知する(S4121)。
The dump data output processor 412 of the dump data save processor 4 has a dump data save area 421
Is output to the dump file 51 of the external storage device 5 (S4120). When the output is completed, the dump data save area 421 is set to a free area, and the dump data is saved to the system control unit 11 of the system management processor 1. The completion of dump data output is notified (S4121).

【0043】一方、上記のダンプデータ出力と並行して
システム管理プロセッサ1のシステム制御部11の再起
動処理部115は、ダンプデータの退避が完了した被ダ
ンプ採取プロセッサの再起動を行う。
On the other hand, in parallel with the dump data output, the restart processing unit 115 of the system control unit 11 of the system management processor 1 restarts the dumped processor whose dump data has been saved.

【0044】以上説明した様に本実施形態のメモリダン
プ採取システムによれば、ダンプ採取の対象となる被ダ
ンプ採取プロセッサのダンプデータを高速な記憶装置上
に退避して当該プロセッサを再起動した後、前記退避し
たダンプデータを低速な外部記憶装置に出力するので、
障害発生時のコンピュータシステムの停止時間を短縮す
ることが可能である。
As described above, according to the memory dump collection system of the present embodiment, the dump data of the dumped processor to be dumped is saved on a high-speed storage device and the processor is restarted. Since the saved dump data is output to a low-speed external storage device,
It is possible to reduce the downtime of the computer system when a failure occurs.

【0045】(実施形態2)以下にダンプ採取の対象と
なる被ダンプ採取プロセッサのダンプデータをそのプロ
セッサの記憶装置上に退避した後に外部記憶装置に出力
する実施形態2のメモリダンプ採取システムについて説
明する。
(Embodiment 2) A memory dump collection system according to Embodiment 2 in which dump data of a dumped processor to be dumped is output to an external storage device after being saved in a storage device of the processor. I do.

【0046】上記の実施形態においては、被ダンプ採取
プロセッサとその主記憶データを退避するダンプデータ
退避プロセッサ4が同一プロセッサの場合、外部記憶装
置5へのダンプデータの出力を待ってから、被ダンプ採
取プロセッサを再起動せざるを得ない。これは、一般的
に再起動の際に主記憶上のデータが保持されないためで
ある。そこで、主記憶上のある単位の領域上のデータを
保持する手段を設けることにより、被ダンプ採取プロセ
ッサの再起動後に、ダンプデータを外部記憶装置5に出
力することが可能になる。
In the above embodiment, when the dumped processor and the dump data saving processor 4 that saves its main storage data are the same processor, the dumped data is output to the external storage device 5 and then the dumped data is output. I have to restart the sampling processor. This is because data on the main memory is not generally held at the time of restart. Therefore, by providing means for holding data in a certain unit area on the main memory, it becomes possible to output the dump data to the external storage device 5 after the restart of the dumped processor.

【0047】なお、本実施形態のダンプデータ退避プロ
セッサ4は、被ダンプ採取プロセッサのダンプデータを
退避する為の主記憶装置42上のダンプデータ退避領域
421を備えていれば、図1におけるシステム管理プロ
セッサS1であっても、演算プロセッサP1〜P7いずれでも
良い。
If the dump data saving processor 4 of this embodiment has a dump data saving area 421 on the main storage device 42 for saving the dump data of the dumped processor, the system management shown in FIG. The processor S1 or any of the arithmetic processors P1 to P7 may be used.

【0048】図5は本実施形態のダンプデータ退避プロ
セッサ4の概略構成を示す図である。図5に示す様に本
実施形態のダンプデータ退避プロセッサ4は、再起動時
主記憶初期化処理部7と、再起動時非初期化領域指定処
理部43とを有している。
FIG. 5 is a diagram showing a schematic configuration of the dump data saving processor 4 of the present embodiment. As shown in FIG. 5, the dump data saving processor 4 of the present embodiment includes a restart-time main memory initialization processing unit 7 and a restart-time non-initialization area designation processing unit 43.

【0049】再起動時主記憶初期化処理部7は、主記憶
装置42上に退避したダンプデータを保持したまま被ダ
ンプ採取プロセッサであるダンプデータ退避プロセッサ
4を再起動する処理部である。再起動時非初期化領域指
定処理部43は、再起動時に主記憶装置42上のデータ
を保存する非初期化領域422を設定する処理部であ
る。
The restart-time main memory initialization processing unit 7 is a processing unit that restarts the dump data saving processor 4 which is the dumped processor while holding the saved dump data on the main storage device 42. The restart-time non-initialization area designation processing unit 43 is a processing unit that sets a non-initialization area 422 for saving data on the main storage device 42 at the time of restart.

【0050】ダンプデータ退避プロセッサ4を再起動時
主記憶初期化処理部7及び再起動時非初期化領域指定処
理部43として機能させる為のプログラムは、DAT等
の記録媒体に記録されて実行されるものとする。なお前
記プログラムを記録する記録媒体はDAT以外の他の記
録媒体でも良い。
A program for causing the dump data save processor 4 to function as the restart-time main memory initialization processing unit 7 and the restart-time non-initialization area designation processing unit 43 is recorded on a recording medium such as a DAT and executed. Shall be. The recording medium for recording the program may be a recording medium other than DAT.

【0051】図5のダンプデータ退避プロセッサ4の備
える主記憶装置42では、図の上部をアドレス値が大き
い高位アドレス、図の下部をアドレス値が小さい低位ア
ドレスとして表現している。
In the main storage device 42 included in the dump data saving processor 4 of FIG. 5, the upper part of the figure is expressed as a higher address having a larger address value, and the lower part of the figure is expressed as a lower address having a small address value.

【0052】ダンプデータ退避プロセッサ4の再起動時
非初期化領域指定処理部43は、非初期化先頭アドレス
431を備え、再起動時に主記憶上のデータを保存する
領域を設定することができる。この設定の際に、ダンプ
データ退避領域421が非初期化領域422に含まれる
様に設定できる。また、再起動時主記憶初期化処理部7
は再起動時非初期化領域指定処理部43で設定された非
初期化領域422に従い、プロセッサの再起動の際に、
主記憶上の指定領域上のデータを保存して起動を行う。
この再起動時主記憶初期化処理部7は、ダンプデータ退
避プロセッサ4の再起動を行う処理部の一つであり、一
般的にはプロセッサに組み込まれたファームウェアの機
能として実現される。
The restart non-initialization area designation processing unit 43 of the dump data save processor 4 has a non-initialization start address 431 and can set an area for saving data on the main memory at the time of restart. At the time of this setting, it can be set so that the dump data save area 421 is included in the non-initialization area 422. Also, the main memory initialization processing unit 7 at the time of restarting
According to the non-initialization area 422 set by the non-initialization area designation processing unit 43 at the time of restart, when the processor is restarted,
Starts up by saving the data in the specified area on the main memory.
The restart-time main memory initialization processing unit 7 is one of processing units for restarting the dump data saving processor 4, and is generally realized as a function of firmware incorporated in the processor.

【0053】本実施形態の分散メモリ型並列計算機の概
略構成は、実施形態1に示したものと同様であるが、本
実施形態のシステム管理プロセッサ1のダンプデータ退
避プロセッサ選択処理部113は、被ダンプ採取プロセ
ッサの主記憶データを退避する為のダンプデータ退避プ
ロセッサ4として、その被ダンプ採取プロセッサ自身を
選択するものとし、ダンプデータ退避プロセッサ4とな
る被ダンプ採取プロセッサのダンプデータ送信処理部2
4は、そのダンプデータを自プロセッサの記憶装置上に
退避する処理を行うものとする。
The schematic configuration of the distributed memory type parallel computer of this embodiment is the same as that of the first embodiment, but the dump data saving processor selection processing unit 113 of the system management processor 1 of this embodiment is As the dump data saving processor 4 for saving the main storage data of the dump collecting processor, the dumped processor itself is selected, and the dump data transmitting processor 2 of the dumped processor serving as the dump data saving processor 4 is selected.
No. 4 performs processing for saving the dump data on the storage device of the own processor.

【0054】図6は本実施形態のメモリダンプ採取シス
テムの処理手順を示すフローチャートである。以下上述
の様に構成された本実施形態の動作を図6のフローを用
いて説明する。
FIG. 6 is a flowchart showing a processing procedure of the memory dump collection system of the present embodiment. Hereinafter, the operation of the present embodiment configured as described above will be described with reference to the flowchart of FIG.

【0055】ダンプデータ退避プロセッサ4は、起動に
際し、主記憶上の再起動時非初期化領域指定処理部43
により、障害プロセッサ2のダンプデータを格納する為
のダンプデータ退避領域421を非初期化領域422と
して設定する(S4300〜S4302)。本実施形態
の再起動時非初期化領域指定処理部43は、非初期化先
頭アドレス431に設定したアドレスよりも高位のアド
レスの領域を、非初期化領域422として設定するもの
とする。
When the dump data saving processor 4 is started, the non-initialization area designation processing unit 43 at the time of restart on the main memory is used.
Thus, the dump data save area 421 for storing the dump data of the failed processor 2 is set as the non-initialization area 422 (S4300 to S4302). The restart non-initialization area designation processing unit 43 of the present embodiment sets an area of an address higher than the address set as the non-initialization start address 431 as the non-initialization area 422.

【0056】非初期化領域422の設定を終えると、ダ
ンプデータ退避プロセッサ4は、ダンプデータの受信待
ち状態となる(S4110)。ここでダンプデータ退避
プロセッサ4で障害が発生すると、上述の実施形態と同
様、図2のシステム管理プロセッサ1に通知し、ダンプ
データ退避プロセッサ選択処理部113により、障害の
発生した自身のダンプデータ退避プロセッサ4が選択さ
れたとする。
When the setting of the non-initialization area 422 is completed, the dump data save processor 4 enters a dump data reception waiting state (S4110). Here, when a failure occurs in the dump data save processor 4, as in the above-described embodiment, the dump data save processor 4 notifies the system management processor 1 of FIG. 2 and the dump data save processor selection processing unit 113 saves its own dump data. It is assumed that the processor 4 has been selected.

【0057】これは、システムの構成上、他にダンプデ
ータ退避プロセッサ4が存在しなかった場合、他のダン
プデータ退避プロセッサ4のダンプデータ退避領域42
1に空きがなかった場合等や、本実施形態の特性を生か
す為に、ダンプデータを退避するプロセッサとして自プ
ロセッサを優先的に選択する場合等に該当する。
This is because, if there is no other dump data save processor 4 due to the system configuration, the dump data save area 42 of the other dump data save processor 4
This corresponds to a case where there is no free space in 1 or a case where the own processor is preferentially selected as a processor for saving the dump data in order to make use of the characteristics of the present embodiment.

【0058】障害の発生したダンプデータ退避プロセッ
サ4は、主記憶上のデータを非初期化領域422のダン
プデータ退避領域421に退避する(S4111)。こ
の時、ダンプデータ退避領域421自身は、退避の対象
としない。
The failed dump data saving processor 4 saves the data on the main memory to the dump data saving area 421 of the non-initialized area 422 (S4111). At this time, the dump data save area 421 itself is not a save target.

【0059】退避の完了後、障害のため再起動を必要と
する場合は(S4112)、図2のシステム制御部11
へ通知することで(S4113)、再起動処理部115
により障害の発生したダンプデータ退避プロセッサ4は
再起動される(S1150及びS1151)。
After the evacuation is completed, if a restart is required due to a failure (S4112), the system control unit 11 shown in FIG.
(S4113), the restart processing unit 115
As a result, the failed dump data saving processor 4 is restarted (S1150 and S1151).

【0060】この再起動に際して、図5の再起動時主記
憶初期化処理部7は、再起動時非初期化領域指定処理部
43で設定された非初期化領域422の内容を保存した
まま、主記憶装置42の初期化を行う(S700)。
At the time of this restart, the restart-time main memory initialization processing unit 7 shown in FIG. 5 keeps the contents of the non-initialization area 422 set by the restart non-initialization area designation processing unit 43. The main storage device 42 is initialized (S700).

【0061】ダンプデータ退避プロセッサ4の再起動が
完了後、再起動時非初期化領域指定処理部43により非
初期化領域422の設定を行う前に、ダンプデータ退避
領域421にダンプデータが格納されているか判断し
(S4300)、退避されている場合は、システムのサ
ービス提供(その分散メモリ型並列計算機で行われる科
学技術計算等のアプリケーション処理)と並行して、ダ
ンプデータ退避領域421に保存されていたダンプデー
タを、図2のダンプデータ出力処理部412により外部
記憶装置5のダンプファイル51へ出力し、ダンプデー
タの出力完了をシステム管理プロセッサ1に通知する
(S4120及びS4121)。
After the restart of the dump data saving processor 4 is completed, the dump data is stored in the dump data saving area 421 before the non-initializing area 422 is set by the restart non-initializing area designation processing unit 43. It is determined whether or not the data has been saved (S4300). If the data is saved, the data is saved in the dump data save area 421 in parallel with the system service provision (application processing such as scientific and technological calculations performed by the distributed memory parallel computer). The dump data that has been output is output to the dump file 51 of the external storage device 5 by the dump data output processing unit 412 in FIG. 2, and the completion of the output of the dump data is notified to the system management processor 1 (S4120 and S4121).

【0062】以上説明した様に本実施形態のメモリダン
プ採取システムによれば、ダンプ採取の対象となる被ダ
ンプ採取プロセッサ自身の記憶装置上にダンプデータを
退避して再起動を行うので、被ダンプ採取プロセッサの
記憶領域を有効利用すると共にダンプデータの記憶装置
への退避に必要な時間を短縮することが可能である。
As described above, according to the memory dump collection system of the present embodiment, the dump data is saved in the storage device of the dump collection processor itself, which is the target of the dump collection, and restarted. It is possible to effectively use the storage area of the collection processor and reduce the time required for saving the dump data to the storage device.

【0063】[0063]

【発明の効果】本発明によればダンプ採取の対象となる
被ダンプ採取プロセッサのダンプデータを高速な記憶装
置上に退避して当該プロセッサを再起動した後、前記退
避したダンプデータを低速な外部記憶装置に出力するの
で、障害発生時のコンピュータシステムの停止時間を短
縮することが可能である。
According to the present invention, after dump data of a dumped processor to be dumped is saved on a high-speed storage device and the processor is restarted, the saved dump data is saved on a low-speed external device. Since the data is output to the storage device, it is possible to reduce the downtime of the computer system when a failure occurs.

【図面の簡単な説明】[Brief description of the drawings]

【図1】実施形態1の分散メモリ型並列計算機の一例を
示す図である。
FIG. 1 is a diagram illustrating an example of a distributed memory parallel computer according to a first embodiment.

【図2】実施形態1の分散メモリ型並列計算機の各部の
概略構成を示す図である。
FIG. 2 is a diagram illustrating a schematic configuration of each unit of the distributed memory parallel computer according to the first embodiment;

【図3】実施形態1のシステム管理プロセッサ1及び障
害プロセッサ2の処理手順を示すフローチャートであ
る。
FIG. 3 is a flowchart illustrating a processing procedure of a system management processor 1 and a faulty processor 2 according to the first embodiment.

【図4】実施形態1の障害プロセッサ2/関連プロセッ
サ3及びダンプデータ退避プロセッサ4の処理手順を示
すフローチャートである。
FIG. 4 is a flowchart illustrating a processing procedure of a failed processor 2 / related processor 3 and a dump data save processor 4 according to the first embodiment.

【図5】実施形態2のダンプデータ退避プロセッサ4の
概略構成を示す図である。
FIG. 5 is a diagram illustrating a schematic configuration of a dump data saving processor 4 according to a second embodiment.

【図6】実施形態2のメモリダンプ採取システムの処理
手順を示すフローチャートである。
FIG. 6 is a flowchart illustrating a processing procedure of the memory dump collection system according to the second embodiment.

【符号の説明】[Explanation of symbols]

1…システム管理プロセッサ、2…障害プロセッサ、3
…関連プロセッサ、4…ダンプデータ退避プロセッサ、
5…外部記憶装置、6…ネットワーク、11…システム
制御部、42…主記憶装置、51…ダンプファイル、4
21…ダンプデータ退避領域、21…障害検知処理部、
22…関連プロセッサ特定処理部、23…障害通知処理
部、24…ダンプデータ送信処理部、31…ダンプデー
タ送信処理部、111…システム制御部初期化処理部、
112…障害情報受信処理部、113…ダンプデータ退
避プロセッサ選択処理部、114…ダンプデータ退避要
求処理部、115…再起動処理部、411…ダンプデー
タ受信処理部、412…ダンプデータ出力処理部、42
2…非初期化領域、431…非初期化先頭アドレス、7
…再起動時主記憶初期化処理部、43…再起動時非初期
化領域指定処理部。
1 ... System management processor, 2 ... Failed processor, 3
... Related processor, 4 ... Dump data saving processor,
5: external storage device, 6: network, 11: system control unit, 42: main storage device, 51: dump file, 4
21: dump data save area, 21: failure detection processing unit
Reference numeral 22: related processor specifying processing unit, 23: failure notification processing unit, 24: dump data transmission processing unit, 31: dump data transmission processing unit, 111: system control unit initialization processing unit
112: Failure information reception processing unit, 113: Dump data saving processor selection processing unit, 114: Dump data saving request processing unit, 115: Restart processing unit, 411: Dump data reception processing unit, 412: Dump data output processing unit 42
2 ... uninitialized area, 431 ... uninitialized start address, 7
... Restart main memory initialization processing unit, 43.

フロントページの続き (72)発明者 小林 耕三 神奈川県横浜市戸塚区戸塚町5030番地 株 式会社日立製作所ソフトウェア事業部内 Fターム(参考) 5B042 GA11 KK02 KK08 LA20 MA09 MC07 Continuing from the front page (72) Inventor Kozo Kobayashi 5030 Totsuka-cho, Totsuka-ku, Yokohama-shi, Kanagawa Prefecture F-term in Hitachi Software Co., Ltd. F-term (reference) 5B042 GA11 KK02 KK08 LA20 MA09 MC07

Claims (5)

【特許請求の範囲】[Claims] 【請求項1】 障害発生時にメモリダンプを採取するメ
モリダンプ採取方法において、 ダンプ採取の対象となる被ダンプ採取プロセッサのダン
プデータをダンプデータ退避プロセッサの記憶装置上に
退避するステップと、ダンプデータの退避が行われた被
ダンプ採取プロセッサを、当該ダンプデータの外部記憶
装置への出力終了を待つことなく再起動するステップ
と、ダンプデータ退避プロセッサの記憶装置上に退避さ
れたダンプデータを外部記憶装置に出力するステップと
を有することを特徴とするメモリダンプ採取方法。
In a memory dump collecting method for collecting a memory dump when a failure occurs, a step of saving dump data of a dumped processor to be dumped to a storage device of a dump data saving processor is provided. Restarting the saved dumped processor without waiting for the end of the output of the dump data to the external storage device; and saving the dump data saved on the storage device of the dump data saving processor to the external storage device. Outputting the data to a memory dump.
【請求項2】 複数のダンプデータ退避プロセッサの記
憶装置上の領域を単一の領域と見なした仮想的な領域に
ダンプデータを退避することを特徴とする請求項1に記
載されたメモリダンプ採取方法。
2. The memory dump according to claim 1, wherein the dump data is saved in a virtual area where the area on the storage device of the plurality of dump data saving processors is regarded as a single area. Collection method.
【請求項3】 障害発生時にメモリダンプを採取するメ
モリダンプ採取方法において、 ダンプ採取の対象となる被ダンプ採取プロセッサのダン
プデータをその被ダンプ採取プロセッサ自身の記憶装置
上に退避するステップと、記憶装置上に退避したダンプ
データを保持したまま当該被ダンプ採取プロセッサを再
起動するステップと、記憶装置上に退避されたダンプデ
ータを外部記憶装置に出力するステップとを有すること
を特徴とするメモリダンプ採取方法。
3. A method for collecting a memory dump when a failure occurs, wherein a dump data of a dumped processor to be dumped is saved on a storage device of the dumped processor itself, A memory dump comprising: a step of restarting the dumped processor while holding the dump data saved on the device; and a step of outputting the dump data saved on the storage device to an external storage device. Collection method.
【請求項4】 障害発生時にメモリダンプを採取するメ
モリダンプ採取システムにおいて、 ダンプ採取の対象となる被ダンプ採取プロセッサのダン
プデータをダンプデータ退避プロセッサの記憶装置上に
退避するダンプデータ送信処理部と、ダンプデータの退
避が行われた被ダンプ採取プロセッサを、当該ダンプデ
ータの外部記憶装置への出力終了を待つことなく再起動
する再起動処理部と、ダンプデータ退避プロセッサの記
憶装置上に退避されたダンプデータを外部記憶装置に出
力するダンプデータ出力処理部とを備えることを特徴と
するメモリダンプ採取システム。
4. A dump data transmitting system for saving a dump data of a processor to be dumped to a storage device of a dump data saving processor in a memory dump collecting system for collecting a memory dump when a failure occurs. A restart processing unit that restarts the dumped processor whose dump data has been saved without waiting for the end of the output of the dump data to the external storage device; and a restart processing unit that saves the dumped processor on the storage device of the dump data save processor. A dump data output processing unit that outputs the dump data to an external storage device.
【請求項5】 障害発生時にメモリダンプを採取するメ
モリダンプ採取システムとしてコンピュータを機能させ
るためのプログラムを記録したコンピュータ読み取り可
能な記録媒体において、 ダンプ採取の対象となる被ダンプ採取プロセッサのダン
プデータをダンプデータ退避プロセッサの記憶装置上に
退避するダンプデータ送信処理部と、ダンプデータの退
避が行われた被ダンプ採取プロセッサを、当該ダンプデ
ータの外部記憶装置への出力終了を待つことなく再起動
する再起動処理部と、ダンプデータ退避プロセッサの記
憶装置上に退避されたダンプデータを外部記憶装置に出
力するダンプデータ出力処理部としてコンピュータを機
能させるためのプログラムを記録したことを特徴とする
記録媒体。
5. A computer-readable recording medium that records a program for causing a computer to function as a memory dump collection system that collects a memory dump when a failure occurs. The dump data transmission processor that saves the data on the storage device of the dump data save processor and the dumped processor that saves the dump data are restarted without waiting for the end of the output of the dump data to the external storage device. A recording medium recording a program for causing a computer to function as a restart processing unit and a dump data output processing unit that outputs dump data saved on a storage device of a dump data saving processor to an external storage device. .
JP11207117A 1999-07-22 1999-07-22 Memory dump collection method and its execution device, and recording medium recording memory dump collection program Pending JP2001034508A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11207117A JP2001034508A (en) 1999-07-22 1999-07-22 Memory dump collection method and its execution device, and recording medium recording memory dump collection program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11207117A JP2001034508A (en) 1999-07-22 1999-07-22 Memory dump collection method and its execution device, and recording medium recording memory dump collection program

Publications (1)

Publication Number Publication Date
JP2001034508A true JP2001034508A (en) 2001-02-09

Family

ID=16534485

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11207117A Pending JP2001034508A (en) 1999-07-22 1999-07-22 Memory dump collection method and its execution device, and recording medium recording memory dump collection program

Country Status (1)

Country Link
JP (1) JP2001034508A (en)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006072997A (en) * 2004-08-23 2006-03-16 Microsoft Corp Memory dump generation with quick reboot
JP2007193414A (en) * 2006-01-17 2007-08-02 Nec Corp Computer system, and memory dump control method in computer system
JP2007265137A (en) * 2006-03-29 2007-10-11 Oki Electric Ind Co Ltd Multi-task processing method and multi-task processing apparatus
JP2007334403A (en) * 2006-06-12 2007-12-27 Mitsubishi Electric Corp System and method for supporting trouble of computer system
JP2008262438A (en) * 2007-04-13 2008-10-30 Fujitsu Ltd Disk array device and method for collecting failure information data of transport control processor core
JP2010176345A (en) * 2009-01-29 2010-08-12 Nec Corp Multi-node system, node, memory dump processing method, and program
WO2010126048A1 (en) * 2009-04-28 2010-11-04 日本電気株式会社 Rapid movement system for virtual devices in a computing system, management device, and method and program therefor
WO2012143978A1 (en) * 2011-04-22 2012-10-26 富士通株式会社 Information processing device and information processing device processing method
US9189171B2 (en) 2012-06-29 2015-11-17 Fujitsu Limited Storage system and method for controlling storage system
JPWO2014002220A1 (en) * 2012-06-27 2016-05-26 富士通株式会社 Management device, data acquisition method, and data acquisition program
JP2016224832A (en) * 2015-06-03 2016-12-28 富士通株式会社 Dump management device, dump management program, and dump management method

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006072997A (en) * 2004-08-23 2006-03-16 Microsoft Corp Memory dump generation with quick reboot
JP2007193414A (en) * 2006-01-17 2007-08-02 Nec Corp Computer system, and memory dump control method in computer system
JP2007265137A (en) * 2006-03-29 2007-10-11 Oki Electric Ind Co Ltd Multi-task processing method and multi-task processing apparatus
JP2007334403A (en) * 2006-06-12 2007-12-27 Mitsubishi Electric Corp System and method for supporting trouble of computer system
JP2008262438A (en) * 2007-04-13 2008-10-30 Fujitsu Ltd Disk array device and method for collecting failure information data of transport control processor core
JP2010176345A (en) * 2009-01-29 2010-08-12 Nec Corp Multi-node system, node, memory dump processing method, and program
WO2010126048A1 (en) * 2009-04-28 2010-11-04 日本電気株式会社 Rapid movement system for virtual devices in a computing system, management device, and method and program therefor
JP5692065B2 (en) * 2009-04-28 2015-04-01 日本電気株式会社 High-speed migration system and management device for virtual device in computer system, method and program therefor
WO2012143978A1 (en) * 2011-04-22 2012-10-26 富士通株式会社 Information processing device and information processing device processing method
US9448871B2 (en) 2011-04-22 2016-09-20 Fujitsu Limited Information processing device and method for selecting processor for memory dump processing
JPWO2014002220A1 (en) * 2012-06-27 2016-05-26 富士通株式会社 Management device, data acquisition method, and data acquisition program
US9189171B2 (en) 2012-06-29 2015-11-17 Fujitsu Limited Storage system and method for controlling storage system
JP2016224832A (en) * 2015-06-03 2016-12-28 富士通株式会社 Dump management device, dump management program, and dump management method

Similar Documents

Publication Publication Date Title
JP3197403B2 (en) Control method of computer system when application program failure occurs
US20070185923A1 (en) Database recovery method applying update journal and database log
JP5445463B2 (en) Computer system, data storage method and program
US7395368B2 (en) Information processing system, storage unit, and storage control program recorded computer-readable recording medium
JP2001331351A (en) Computer system, its fault recovery method and dump acquisition method
EP0751462A1 (en) A recoverable disk control system with a non-volatile memory
JP2001034508A (en) Memory dump collection method and its execution device, and recording medium recording memory dump collection program
JP2009211517A (en) Virtual computer redundancy system
US20110289501A1 (en) Information processing device, information processing method, and storage medium storing computer program
JP4322240B2 (en) Reboot method, system and program
JP4992740B2 (en) Multiprocessor system, failure detection method, and failure detection program
US8307141B2 (en) Multi-core processor, control method thereof, and information processing apparatus
JP2001290677A (en) High-speed dump sampling method
JP6788188B2 (en) Control device and control program
JP3254766B2 (en) Multiple writing method of the same data, data reading method and data recovery method, and control device therefor
JPH11338838A (en) Parallel dump extraction method and system for fault information in multiprocessor system
US20230244385A1 (en) Storage apparatus and control method
US20230023461A1 (en) Device suspend method and computing device
JPH07152574A (en) Program loading system
JP2006092055A (en) Computer system
JPH1040123A (en) System and method for job management
JP3148099B2 (en) Input / output control method and input / output control method
JP3531394B2 (en) Peripherals in half-duplex data transfer systems
JP2000250845A (en) Method and device for controlling recording medium competition and medium recorded with the processing program therefor
JP2000357058A (en) Disk array device