JPH11212836A - Fault processing method, execution device for the same and medium recording processing program for the same - Google Patents

Fault processing method, execution device for the same and medium recording processing program for the same

Info

Publication number
JPH11212836A
JPH11212836A JP10170034A JP17003498A JPH11212836A JP H11212836 A JPH11212836 A JP H11212836A JP 10170034 A JP10170034 A JP 10170034A JP 17003498 A JP17003498 A JP 17003498A JP H11212836 A JPH11212836 A JP H11212836A
Authority
JP
Japan
Prior art keywords
computer
dump
target computer
memory
processing unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10170034A
Other languages
Japanese (ja)
Inventor
Kazuo Horikawa
和雄 堀川
Masahiko Yamauchi
雅彦 山内
Hiroshi Yashiro
寛 屋代
Hideki Murayama
秀樹 村山
Yusuke Suganami
雄介 菅波
Hirobumi Fujita
博文 藤田
Shotaro Ono
正太郎 大野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP10170034A priority Critical patent/JPH11212836A/en
Publication of JPH11212836A publication Critical patent/JPH11212836A/en
Pending legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To provide a technique that can shorten a time when an object computer cannot be used by shortening a time spent for rebooting the object computer which causes a fault. SOLUTION: In a fault processing method for monitoring an operation state of an object computer 100 and processing the occurred fault by a dump computer 110, a survival signal for indicating that the object computer 100 normally operates is transmitted to the dump computer 110, information for indicating a specific area where fault information is to be collected in the memory area of the object computer 100 is received from the dump computer 110, the memory contents of the specific area which the received information indicates are read out and transmitted to the dump computer 110 and reboot of the object computer 100 is performed in accordance with an instruction from the dump computer 110.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は協調動作する複数の
計算機の内の特定の計算機で発生した障害を処理する計
算機システムに関し、特に複数の計算機が協調動作する
計算機システムで動作中の計算機を監視し、障害を起こ
した計算機の障害情報の取得及び当該計算機のリブート
を行う計算機システムに適用して有効な技術に関するも
のである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a computer system for processing a fault occurring in a specific computer among a plurality of computers operating cooperatively, and more particularly to monitoring a computer operating in a computer system operating cooperatively. In addition, the present invention relates to a technique that is effective when applied to a computer system that obtains fault information of a failed computer and reboots the computer.

【0002】[0002]

【従来の技術】従来の計算機においてオペレーティング
システムの障害であるパニックが発生した場合には、オ
ペレーティングシステムの障害原因を解析する為に、再
びオペレーティングシステムを起動する(リブートす
る)前にメモリ内容をディスクに全て書き出すというダ
ンプ処理を行っている。このダンプ処理では、パニック
時の全てのメモリ内容を保存できる為、後にきめ細かな
障害解析が可能である。
2. Description of the Related Art When a panic, which is a failure of an operating system, occurs in a conventional computer, the contents of the memory are stored in a disk before starting (rebooting) the operating system again to analyze the cause of the failure of the operating system. The dump process of writing everything to In this dump processing, all memory contents at the time of panic can be saved, so that a detailed failure analysis can be performed later.

【0003】前記のメモリダンプ解析による障害解析で
は例えばアブソリュートデバッガ(absolute
debugger)を利用することができる。なおアブ
ソリュートデバッガについては「Panic! UNI
Xシステムクラッシュの追跡と対策」、初版、ISBN
4−7561−1912−3の第77ページから第10
0ページに記載されている。またアブソリュートデバッ
ガを使用する障害解析方法については、「Panic!
UNIXシステムクラッシュの追跡と対策」、初版、
ISBN4−7561−1912−3の第101ページ
から第114ページに記載されている。
In the failure analysis by the memory dump analysis, for example, an absolute debugger (absolute debugger) is used.
debugger) can be used. For the absolute debugger, refer to “Panic! UNI”
X System Crash Tracking and Countermeasures ", First Edition, ISBN
4-7561-1912-3 page 77 to 10
It is described on page 0. For the failure analysis method using the absolute debugger, refer to “Ponic!
Tracking and Countermeasures for UNIX System Crashes, "First Edition,
ISBN 4-7561-1912-3, pages 101 to 114.

【0004】従来のパニックの発生時にはこの様にパニ
ック時のメモリの内容を参照して障害解析を行ってき
た。しかし、近年の計算機においてはメモリ容量が数ギ
ガバイトにも達しており、ダンプ処理に費す時間は数分
から数十分という長さになって、計算機がリブートする
までに長い時間を費す結果となっている。
[0004] Conventionally, when a panic occurs, failure analysis is performed with reference to the contents of the memory at the time of panic. However, in recent computers, the memory capacity has reached several gigabytes, and the time spent for dump processing has been several minutes to several tens of minutes, and it takes a long time until the computer reboots. Has become.

【0005】また高い信頼性を要求される計算機システ
ムでは、複数の計算機を用意し、単一の計算機が停止し
ても他の計算機が処理を引き継ぐことにより、処理を停
止しない様な構成にすることが一般的となりつつある。
In a computer system requiring high reliability, a plurality of computers are prepared, and even if a single computer stops, another computer takes over the processing so that the processing is not stopped. Is becoming commonplace.

【0006】この様な計算機システムはクラスタシステ
ムと呼ばれ、引き継ぎ処理はフェイルオーバと呼ばれ
る。クラスタシステムのフェイルオーバについては、
「Insearch of Clusters」、IS
BN0−13−437625の第43ページから第46
ページに記載されている。
[0006] Such a computer system is called a cluster system, and the takeover process is called a failover. For cluster system failover,
"Insearch of Clusters", IS
Pages 43 to 46 of BN0-13-376625
It is listed on the page.

【0007】クラスタシステムにおいては、ある計算機
が停止している期間は計算機システム全体としての処理
量は低下してしまう。この計算機システムの処理量低下
を避ける為には、パニックを発生した計算機のリブート
に費す時間を短縮することが必要となる。
In a cluster system, while a certain computer is stopped, the processing amount of the entire computer system decreases. In order to avoid the decrease in the processing amount of the computer system, it is necessary to reduce the time spent for rebooting the computer in which the panic has occurred.

【0008】ここでリブートに費す時間を短縮する為に
メモリ全体ではなくメモリの一部分だけを選択的にダン
プする方法が考えられる。選択的ダンプ方法として米国
特許5293612に最近アクセスしたメモリの内容だ
けをダンプする方法が提案されている。
Here, in order to reduce the time spent for rebooting, a method of selectively dumping only a part of the memory instead of the entire memory is conceivable. As a selective dumping method, US Pat. No. 5,293,612 proposes a method of dumping only recently accessed memory contents.

【0009】この選択的ダンプ方法では、最近アクセス
したメモリアドレスを保持する為に、仮想アドレスから
物理アドレスに変換するハードウェア機構であるTLB
(Translation Lookaside Bu
ffer)を利用している。このTLBはLRU(Le
ast Recently Used)方式で管理され
ており、この方法だと障害解析に必須なデータであるに
もかかわらず長期間アクセスされなかったメモリアドレ
スの内容はダンプされない。
In this selective dump method, TLB which is a hardware mechanism for converting a virtual address to a physical address in order to hold a recently accessed memory address.
(Translation Lookaside Bu
effer). This TLB is LRU (Le
As a result, the contents of memory addresses that have not been accessed for a long period of time are not dumped even though they are data essential for failure analysis.

【0010】また、複数の計算機からなり第1の計算機
を第2の計算機からリセットする情報処理システムとし
ては、第1の計算機のプロセッサのリセット信号をアサ
ートする第1の機構を第1の計算機に持ち、前記第1の
機構にリセットアサート指令を行う第2の機構を第2の
計算機に持つものが有る。
In an information processing system comprising a plurality of computers and resetting a first computer from a second computer, a first mechanism for asserting a reset signal of a processor of the first computer is provided in the first computer. In some cases, a second computer has a second mechanism that issues a reset assert command to the first mechanism.

【0011】これは例えば特開平8−115281号公
報の第2の実施例に記載されている様にサービスプロセ
ッサとモデム(RS−232Cドライバ)を利用し、第
1の機構を前記サービスプロセッサ、第2の機構を前記
モデムとし、この2つをRS−232Cケーブルで接続
することで実現できる。なお前記サービスプロセッサは
スーパバイザプロセッサやモニタプロセッサとも呼ばれ
ている。
This uses a service processor and a modem (RS-232C driver) as described in the second embodiment of Japanese Patent Application Laid-Open No. 8-115281, for example. The second mechanism can be realized by using the modem and connecting the two with an RS-232C cable. The service processor is also called a supervisor processor or a monitor processor.

【0012】[0012]

【発明が解決しようとする課題】前記従来の計算機はパ
ニック時にメモリ内容をディスクに全て書き出してから
リブートしていた為、リブートに費す時間が長かった。
また前記選択的ダンプ方法では障害解析に必須なメモリ
内容が得られない可能性がある。
In the conventional computer described above, when the panic occurred, the entire contents of the memory were written to the disk and then rebooted, so that the time required for rebooting was long.
Further, in the selective dump method, there is a possibility that memory contents essential for failure analysis cannot be obtained.

【0013】この様に従来の技術ではパニックした計算
機から障害原因解析に必須なメモリ内容を最小限だけ取
得し、該計算機のリブートに費す時間を短縮することは
出来ないという問題がある。
As described above, the conventional technique has a problem in that it is not possible to obtain only a minimum amount of memory contents necessary for failure cause analysis from a panic computer and to reduce the time required for rebooting the computer.

【0014】本発明の目的は上記問題を解決し、障害を
起こした対象計算機のリブートに費す時間を短縮して当
該対象計算機が使用不可である時間を短くすることが可
能な技術を提供することにある。
An object of the present invention is to solve the above-mentioned problem and to provide a technique capable of shortening the time required for rebooting a failed target computer and shortening the time during which the target computer is unavailable. It is in.

【0015】[0015]

【課題を解決するための手段】本発明は対象計算機の動
作状態を監視し発生した障害をダンプ計算機により処理
する障害処理方法において、対象計算機で障害が発生し
た場合に、対象計算機のメモリ領域内の予め定められた
特定領域のメモリ内容を読み出してダンプ計算機に送信
し、対象計算機をリブートさせるものである。
SUMMARY OF THE INVENTION The present invention relates to a fault processing method for monitoring the operating state of a target computer and processing the generated fault by a dump computer. The memory contents of the predetermined specific area are read and transmitted to the dump computer, and the target computer is rebooted.

【0016】本発明の障害処理方法では、対象計算機が
正常に動作中であることを示す生存信号を特定時間間隔
でダンプ計算機に送信し、ダンプ計算機は対象計算機か
らの生存信号が特定時間内に受信されるかを監視する。
In the failure processing method of the present invention, a survival signal indicating that the target computer is operating normally is transmitted to the dump computer at a specific time interval, and the dump computer receives the survival signal from the target computer within the specific time. Monitor if it is received.

【0017】ダンプ計算機は、対象計算機からの生存信
号が特定時間内にダンプ計算機で受信されない場合に、
対象計算機のメモリ領域の内で障害情報を収集すべき特
定領域を示す情報を対象計算機に送信する。
If the surviving signal from the target computer is not received by the dump computer within a specific time, the dump computer
The information indicating the specific area in which the failure information should be collected in the memory area of the target computer is transmitted to the target computer.

【0018】対象計算機は、障害情報を収集すべき特定
領域を示す情報をダンプ計算機から受信し、前記受信し
た情報が示す特定領域のメモリ内容を読み出してダンプ
計算機に送信する。
The target computer receives, from the dump computer, information indicating a specific area in which the failure information is to be collected, reads out the memory contents of the specific area indicated by the received information, and transmits the read information to the dump computer.

【0019】ダンプ計算機は、対象計算機から送信され
た前記特定領域のメモリ内容を受信すると、対象計算機
をリブートさせる指示を対象計算機に送信し、対象計算
機は前記指示をダンプ計算機から受信して対象計算機の
リブートを行う。
When the dump computer receives the memory content of the specific area transmitted from the target computer, the dump computer transmits an instruction to reboot the target computer to the target computer, and the target computer receives the instruction from the dump computer and receives the instruction from the dump computer. Reboot.

【0020】以上の様に本発明の計算機システムによれ
ば、ダンプ計算機は障害を起こした対象計算機のメモリ
の予め規定された特定領域の内容を取得した後に対象計
算機をリブートさせるので、障害を起こした対象計算機
のリブートに費す時間を短縮して当該対象計算機が使用
不可である時間を短くすることが可能である。
As described above, according to the computer system of the present invention, the dump computer reboots the target computer after acquiring the contents of the predetermined specific area of the memory of the target computer in which the failure has occurred. It is possible to shorten the time spent for rebooting the target computer and shorten the time during which the target computer cannot be used.

【0021】また本発明は、対象計算機で発生した障害
を処理する計算機システムにおいて、障害が発生した対
象計算機のメインメモリの内容を障害情報取得計算機の
分割ダンプ格納領域に格納して対象計算機をリブート
し、分割ダンプ格納領域に格納した対象計算機のメイン
メモリの内容を収集して全ダンプ格納領域に復元するも
のである。
Further, according to the present invention, in a computer system for processing a fault that has occurred in a target computer, the contents of the main memory of the target computer in which the fault has occurred are stored in the divided dump storage area of the fault information acquisition computer, and the target computer is rebooted. Then, the contents of the main memory of the target computer stored in the divided dump storage area are collected and restored in the entire dump storage area.

【0022】本発明では、前記分割ダンプ格納領域をメ
インメモリ等の高速な記憶装置上に設け、分割ダンプ格
納領域への格納処理が終了した後に対象計算機のリブー
トを行うので、対象計算機のダンプ処理を高速化でき、
リブートに費やす時間が短縮される。障害情報取得計算
機の分割ダンプ領域に格納された対象計算機のメインメ
モリの内容は、対象計算機のリブートが終了した後に収
集されて、磁気ディスク装置等の補助記憶装置上に設け
られた全ダンプ格納領域に格納される。
According to the present invention, the divided dump storage area is provided on a high-speed storage device such as a main memory, and the target computer is rebooted after the storage processing in the divided dump storage area is completed. Can be accelerated,
Reboot time is reduced. The contents of the main memory of the target computer stored in the divided dump area of the failure information acquisition computer are collected after the reboot of the target computer is completed, and are stored in the entire dump storage area provided on an auxiliary storage device such as a magnetic disk device. Is stored in

【0023】以上の様に本発明の計算機システムによれ
ば、対象計算機のメインメモリの内容を障害情報取得計
算機の高速な記憶装置上の分割ダンプ格納領域に格納し
た後に対象計算機をリブートさせるので、障害を起こし
た対象計算機のリブートに費す時間を短縮して当該対象
計算機が使用不可である時間を短くすることが可能であ
る。
As described above, according to the computer system of the present invention, the contents of the main memory of the target computer are stored in the divided dump storage area on the high-speed storage device of the failure information acquisition computer, and then the target computer is rebooted. It is possible to reduce the time spent rebooting the failed target computer and reduce the time during which the target computer is unavailable.

【0024】[0024]

【発明の実施の形態】(実施形態1)以下に対象計算機
で発生した障害を処理する実施形態1の計算機システム
について説明する。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS (Embodiment 1) A computer system according to Embodiment 1 for processing a fault occurring in a target computer will be described below.

【0025】図1は本実施形態の計算機システムの概略
構成を示す図である。図1に示す様に本実施形態の計算
機システムは、対象計算機100と、ダンプ計算機11
0と、ネットワーク120と、生存信号線130とを有
している。
FIG. 1 is a diagram showing a schematic configuration of a computer system according to the present embodiment. As shown in FIG. 1, the computer system according to the present embodiment includes a target computer 100 and a dump computer 11.
0, a network 120, and a survival signal line 130.

【0026】対象計算機100はパニック時の情報取得
の対象となる計算機である。ダンプ計算機110は対象
計算機100のパニック時に対象計算機100のメモリ
103の内容を選択的に取得する計算機である。
The target computer 100 is a computer from which information is acquired during a panic. The dump computer 110 is a computer that selectively acquires the contents of the memory 103 of the target computer 100 when the target computer 100 panics.

【0027】ネットワーク120は対象計算機100と
ダンプ計算機110とを接続する通信回線である。生存
信号線130は対象計算機100が正常に動作中である
ことを示す生存信号を送る信号線である。
The network 120 is a communication line for connecting the target computer 100 and the dump computer 110. The survival signal line 130 is a signal line that sends a survival signal indicating that the target computer 100 is operating normally.

【0028】対象計算機100及びダンプ計算機110
は、プロセッサ101と、ネットワークインタフェース
102と、メモリ103と、生存信号伝達手段104
と、ディスク105と、システムバス106と、セキュ
リティキーレジスタ150とを有している。
The target computer 100 and the dump computer 110
Is a processor 101, a network interface 102, a memory 103, and a survival signal transmitting unit 104
, A disk 105, a system bus 106, and a security key register 150.

【0029】プロセッサ101は対象計算機100及び
ダンプ計算機110全体の動作を制御する処理装置であ
る。ネットワークインタフェース102は対象計算機1
00とダンプ計算機110との間でネットワーク120
を介して通信する為に使用するインタフェースであり、
通信相手のネットワークインタフェース102を介して
相手側のメモリ103の内容を読み書きするリモートメ
モリアクセス機能を有するインタフェースである。
The processor 101 is a processing device for controlling the operations of the target computer 100 and the dump computer 110 as a whole. The network interface 102 is the target computer 1
00 and the dump computer 110
Is an interface used to communicate via
This interface has a remote memory access function for reading and writing the contents of the memory 103 of the other party via the network interface 102 of the other party.

【0030】メモリ103は生存信号の発信及び監視や
障害情報の取得を行う各種処理プログラム等をロードす
る記憶装置である。生存信号伝達手段104は生存信号
線130を介して生存信号を発信または受信する回路で
ある。
The memory 103 is a storage device for loading various processing programs for transmitting and monitoring a survival signal and obtaining failure information. The survival signal transmitting unit 104 is a circuit that transmits or receives a survival signal via the survival signal line 130.

【0031】ディスク105は前記処理プログラムやデ
ータを永続的に格納する記憶装置である。システムバス
106はプロセッサ101等の各装置を相互に接続する
バスである。セキュリティキーレジスタ150は正常な
リモートメモリアクセスパケットを識別する為のセキュ
リティキーを格納するレジスタである。
The disk 105 is a storage device for permanently storing the processing programs and data. The system bus 106 is a bus that connects each device such as the processor 101 to each other. The security key register 150 is a register for storing a security key for identifying a normal remote memory access packet.

【0032】対象計算機100は生存信号発信処理部1
40を有している。生存信号発信処理部140は生存信
号伝達手段104を制御し、対象計算機100が正常に
動作中であることを示す生存信号を特定時間間隔でダン
プ計算機110に生存信号線130を介して送信する処
理部である。
The target computer 100 is a survival signal transmission processing unit 1
40. The survival signal transmission processing unit 140 controls the survival signal transmission unit 104, and transmits a survival signal indicating that the target computer 100 is operating normally to the dump computer 110 via the survival signal line 130 at a specific time interval. Department.

【0033】対象計算機100を生存信号発信処理部1
40として機能させる為のプログラムは、CD−ROM
等の記録媒体に記録され磁気ディスク等に格納された
後、メモリにロードされて実行されるものとする。なお
前記プログラムを記録する媒体はCD−ROM以外の他
の媒体でも良い。
The target computer 100 is sent to the survival signal transmission processing unit 1
The program to function as 40 is a CD-ROM
After being recorded on a recording medium such as a digital disk and stored on a magnetic disk or the like, it is loaded into a memory and executed. The medium on which the program is recorded may be a medium other than the CD-ROM.

【0034】ダンプ計算機110は、生存信号監視処理
部141と、障害情報取得処理部142とを有してい
る。
The dump computer 110 has a survival signal monitoring processor 141 and a failure information acquisition processor 142.

【0035】生存信号監視処理部141は生存信号伝達
手段104を制御して対象計算機100からの生存信号
が特定時間内に受信されるかを監視し、対象計算機10
0からの生存信号が特定時間内に受信されない場合に、
障害情報取得処理部142により対象計算機100の障
害情報を取得し、対象計算機100をリブートさせる処
理部である。
The surviving signal monitoring processor 141 controls the surviving signal transmitting means 104 to monitor whether a surviving signal from the target computer 100 is received within a specific time.
If no survival signal from 0 is received within a certain time,
The failure information acquisition processing unit 142 acquires failure information of the target computer 100, and reboots the target computer 100.

【0036】障害情報取得処理部142は対象計算機1
00のメモリ領域の内で障害情報を収集すべき特定領域
を示す情報を障害情報規定ファイル143から読み出し
て対象計算機100に送信し、前記送信した情報が示す
特定領域のメモリ内容を対象計算機100から受信して
障害情報ファイル144に格納する処理部である。
The failure information acquisition processing unit 142 is the target computer 1
The information indicating the specific area in which the fault information is to be collected in the memory area 00 is read from the fault information definition file 143 and transmitted to the target computer 100. The memory content of the specific area indicated by the transmitted information is transmitted from the target computer 100 to the target computer 100. This is a processing unit that receives and stores it in the failure information file 144.

【0037】ダンプ計算機110を生存信号監視処理部
141及び障害情報取得処理部142として機能させる
為のプログラムは、CD−ROM等の記録媒体に記録さ
れ磁気ディスク等に格納された後、メモリにロードされ
て実行されるものとする。なお前記プログラムを記録す
る媒体はCD−ROM以外の他の媒体でも良い。
A program for causing the dump computer 110 to function as the survival signal monitoring processor 141 and the failure information acquisition processor 142 is recorded on a recording medium such as a CD-ROM, stored on a magnetic disk or the like, and then loaded into the memory. And executed. The medium on which the program is recorded may be a medium other than the CD-ROM.

【0038】またダンプ計算機110は、障害情報規定
ファイル143と、障害情報ファイル144とを有して
いる。
The dump computer 110 has a failure information definition file 143 and a failure information file 144.

【0039】障害情報規定ファイル143は障害情報取
得処理部142が対象計算機100のメモリ103から
取得すべき障害情報のメモリアドレスを規定するファイ
ルである。障害情報ファイル144は障害情報取得処理
部142が対象計算機100のメモリ103から取得し
た障害情報を選択的ダンプ出力として格納するファイル
である。
The failure information definition file 143 is a file that defines the memory address of the failure information to be acquired from the memory 103 of the target computer 100 by the failure information acquisition processing unit 142. The failure information file 144 is a file in which the failure information acquisition processing unit 142 stores the failure information acquired from the memory 103 of the target computer 100 as a selective dump output.

【0040】ネットワークインタフェース102は、読
み込み要求処理部151と、読み込み返答処理部152
と、書き込み要求処理部153とを有している。
The network interface 102 includes a read request processing section 151 and a read reply processing section 152.
And a write request processing unit 153.

【0041】読み込み要求処理部151は対象計算機1
00のメモリ領域の内で障害情報を収集すべき特定領域
を示す情報を読み込み要求パケットとしてダンプ計算機
110から受信し、前記受信した情報が示す特定領域の
メモリ内容を読み出して読み込み返答パケットとしてダ
ンプ計算機110に送信する障害情報応答処理部であ
る。
The read request processing unit 151 is the target computer 1
00, information indicating a specific area in which fault information is to be collected is received from the dump computer 110 as a read request packet, and the memory contents of the specific area indicated by the received information are read and read as a reply packet. This is a failure information response processing unit that transmits the information to the 110.

【0042】読み込み返答処理部152は対象計算機1
00から送信された読み込み返答パケットを受信してパ
ケットの内容を読み込み要求元に渡す処理部である。書
き込み要求処理部153はダンプ計算機110からの書
き込み要求パケットを受信して対象計算機100のリブ
ートを行うリセット処理部である。
The read response processing section 152 is the target computer 1
This is a processing unit that receives the read reply packet transmitted from 00 and transfers the contents of the packet to the read request source. The write request processing unit 153 is a reset processing unit that receives a write request packet from the dump computer 110 and reboots the target computer 100.

【0043】ネットワークインタフェース102を読み
込み要求処理部151、読み込み返答処理部152及び
書き込み要求処理部153として機能させる為のプログ
ラムは、ROM等の記録媒体に記録されて実行されるも
のとする。なお前記プログラムを記録する媒体はROM
以外の他の媒体でも良い。
A program for causing the network interface 102 to function as the read request processing unit 151, the read response processing unit 152, and the write request processing unit 153 is recorded on a recording medium such as a ROM and executed. The program recording medium is ROM.
Other media other than the above may be used.

【0044】図1に示す様に本実施形態の計算機システ
ムでは、対象計算機100とダンプ計算機110とをネ
ットワーク120を介して接続しており、対象計算機1
00及びダンプ計算機110はネットワーク120を介
して相互に通信可能である。
As shown in FIG. 1, in the computer system of the present embodiment, the target computer 100 and the dump computer 110 are connected via a network 120, and the target computer 1
00 and the dump computer 110 can communicate with each other via the network 120.

【0045】また対象計算機100とダンプ計算機11
0は生存信号線130にて接続されており、正常動作中
の対象計算機100は、この生存信号線130を介し、
特定時間間隔で生存信号をダンプ計算機110に送る。
ダンプ計算機110は、生存信号線130を介した生存
信号が途絶えたことをもって対象計算機100の障害を
検知可能である。
The target computer 100 and the dump computer 11
0 is connected via the survival signal line 130, and the target computer 100 operating normally operates through the survival signal line 130,
A survival signal is sent to the dump computer 110 at specific time intervals.
The dump computer 110 can detect a failure of the target computer 100 when the survival signal via the survival signal line 130 is interrupted.

【0046】対象計算機100とダンプ計算機110
は、先のネットワーク120を介して通信が可能である
のみならず、互いのメモリ103の内容を読み書きする
ことが可能である。この様な機能はリモートメモリアク
セス機能と呼ばれる。
The target computer 100 and the dump computer 110
Can not only communicate with each other via the network 120, but also can read and write the contents of the memories 103 of each other. Such a function is called a remote memory access function.

【0047】このリモートメモリアクセスを提供するネ
ットワークインタフェース102としては、例えばスケ
ーラブルコヒーレントインタフェース(Scalabl
eCoherent Interface(SCI);
ANSI/IEEE 1596−1992)がある。な
おスケーラブルコヒーレントインタフェースについて
は、「digest of papers SPRIN
G COMPCON94」、ISBN0−8186−5
380−9の第64ページから第71ページの論文「T
he Scalable Coherent Inte
rface:Scaling to High−Per
formance Systems」に記載されてい
る。
As the network interface 102 for providing this remote memory access, for example, a scalable coherent interface (Scalable
eCoherent Interface (SCI);
ANSI / IEEE 1596-1992). The scalable coherent interface is described in “digest of papers SPRIN
G COMPCON94 ", ISBN0-8186-5
The essay "T on page 64 to page 71 of 380-9
he Scalable Coherent Inte
rface: Scaling to High-Per
performance Systems ".

【0048】生存信号線130としては例えばRS−2
32Cケーブル、生存信号伝達手段104としては例え
ばRS−232Cインタフェースチップが用いられる。
また生存信号伝達手段104をネットワークインタフェ
ース102に内蔵し、生存信号線130をネットワーク
120とすることも可能である。
As the surviving signal line 130, for example, RS-2
As the 32C cable and the survival signal transmitting means 104, for example, an RS-232C interface chip is used.
It is also possible to incorporate the survival signal transmission means 104 in the network interface 102 and use the survival signal line 130 as the network 120.

【0049】対象計算機100では生存信号発信処理部
140が生存信号伝達手段104を制御する。生存信号
発信処理部140は対象計算機100のメモリ103内
にロードされており、生存信号発信処理部140はオペ
レーティングシステムに組み込まれたプログラムでも良
いし、通常のユーザプログラムであっても良い。
In the target computer 100, the survival signal transmission processing unit 140 controls the survival signal transmission means 104. The survival signal transmission processing unit 140 is loaded in the memory 103 of the target computer 100, and the survival signal transmission processing unit 140 may be a program incorporated in an operating system or a normal user program.

【0050】対象計算機100が正常に起動し使用可能
となったならば、対象計算機100のオペレーティング
システムは生存信号発信処理部140を起動する。
When the target computer 100 is normally activated and becomes usable, the operating system of the target computer 100 activates the survival signal transmission processing unit 140.

【0051】また対象計算機100でパニックが発生し
たときに、対象計算機100のメモリ103の内容にプ
ロセッサキャッシュの内容を反映させると共に、メモリ
103の内容を取得する前に対象計算機100がリブー
トしてしまってパニック時のメモリ103の内容が破壊
されることがない様にする為に、対象計算機100のオ
ペレーティングシステムがパニック時に実行するpan
ic()ルーチンを、以下の2つの処理だけをこの順番
に実行する様に変更しておく。
When a panic occurs in the target computer 100, the contents of the processor cache are reflected in the contents of the memory 103 of the target computer 100, and the target computer 100 reboots before acquiring the contents of the memory 103. In order to prevent the contents of the memory 103 from being destroyed in the event of a panic, the operating system of the target
The ic () routine is modified so that only the following two processes are executed in this order.

【0052】(1)プロセッサ101のキャッシュ内容
全体をメモリ103にフラッシュ (2)セルフループによる外部からのリセット待ち なおpanic()ルーチンについては、「Panic
! UNIXシステムクラッシュの追跡と対策」、初
版、ISBN4−7561−1912−3の第29ペー
ジに記載されている。
(1) Flush the entire contents of the cache of the processor 101 to the memory 103 (2) Wait for an external reset due to a self-loop The panic () routine is described in “Panic
! Tracking and Countermeasures for UNIX System Crashes, "First Edition, ISBN 4-7561-1912-3, page 29.

【0053】ダンプ計算機110では、生存信号監視処
理部141が生存信号伝達手段104を制御し、対象計
算機100から送られる生存信号を監視する。生存信号
監視処理部141は、ダンプ計算機110のメモリ10
3にロードされており、生存信号監視処理部141はオ
ペレーティングシステムに組み込まれたプログラムでも
良いし、通常のユーザプログラムであっても良い。
In the dump computer 110, the surviving signal monitoring processor 141 controls the surviving signal transmitting means 104 and monitors the surviving signal sent from the target computer 100. The surviving signal monitoring processing unit 141 is provided in the memory 10 of the dump computer 110.
3 and the survival signal monitoring processor 141 may be a program incorporated in the operating system or a normal user program.

【0054】ダンプ計算機110では、対象計算機10
0が起動する直前までに生存信号監視処理部141の処
理を開始する。生存信号監視処理部141は、対象計算
機100を監視し、障害が発生したと判定したら対象計
算機100のメモリ103を選択的にダンプする障害情
報取得処理部142を起動する。
In the dump computer 110, the target computer 10
The processing of the survival signal monitoring processing unit 141 is started just before 0 starts. The survivor signal monitoring processor 141 monitors the target computer 100 and, when determining that a failure has occurred, activates the failure information acquisition processor 142 that selectively dumps the memory 103 of the target computer 100.

【0055】ダンプ計算機110にて生存信号監視処理
部141に起動された障害情報取得処理部142は、対
象計算機100のどのメモリアドレスの内容を取得すべ
きかをディスク105内の障害情報規定ファイル143
から得る。
The failure information acquisition processing unit 142 started by the survival signal monitoring processing unit 141 in the dump computer 110 determines which memory address of the target computer 100 should be acquired in the failure information definition file 143 in the disk 105.
Get from.

【0056】障害情報規定ファイル143に指定するメ
モリアドレスは、対象計算機100のオペレーティング
システムを解析することによって得られるメモリアドレ
スであり、障害解析に必要かつ最小限のメモリアドレス
であって、例えばパニックメッセージを格納したメッセ
ージバッファの位置やカーネル内の変数が格納された位
置を示すものである。
The memory address specified in the failure information definition file 143 is a memory address obtained by analyzing the operating system of the target computer 100, and is the minimum and necessary memory address for failure analysis. For example, a panic message Indicates the position of the message buffer where the variable is stored and the position where the variable in the kernel is stored.

【0057】障害情報取得処理部142は、ディスク1
05に障害情報ファイル144を作成し、リモートメモ
リアクセス可能なネットワークインタフェース102を
介し対象計算機100のメモリ103の内容の内、障害
情報規定ファイル143にて指定される内容を得てこれ
を障害情報ファイル144に格納する。
The failure information acquisition processing unit 142
05, a failure information file 144 is obtained from the contents of the memory 103 of the target computer 100 via the remote memory accessible network interface 102, and the failure information file 144 is obtained. 144.

【0058】障害情報取得処理部142が対象計算機1
00のメモリ103の内容を必要最小限だけ取得するの
で、対象計算機100のリブートに費す時間を短くする
ことが可能である。次に前記の様に概説した各処理部の
処理手順を詳細に説明する。
The failure information acquisition processing unit 142 is the target computer 1
Since the necessary minimum contents of the memory 103 are acquired, the time required for rebooting the target computer 100 can be reduced. Next, the processing procedure of each processing unit outlined above will be described in detail.

【0059】図2は本実施形態の生存信号発信処理部1
40の処理手順を示すフローチャートである。まずステ
ップ200にて生存信号発信処理部140は、生存信号
伝達手段104を介して生存信号を発信する。この生存
信号は生存信号線130を経由してダンプ計算機110
の生存信号伝達手段104に到達する。
FIG. 2 shows a survival signal transmission processing unit 1 according to this embodiment.
It is a flowchart which shows the processing procedure of 40. First, at step 200, the survival signal transmission processing unit 140 transmits a survival signal via the survival signal transmission unit 104. This survival signal is sent to the dump computer 110 via the survival signal line 130.
Arrives at the survival signal transmitting means 104.

【0060】次にステップ201にて生存信号発信処理
部140は、特定時間待った後にステップ200の処理
を繰り返す。ここでは例えば待ち時間は1秒間とする。
Next, at step 201, the survival signal transmission processing section 140 repeats the processing of step 200 after waiting for a specific time. Here, for example, the waiting time is one second.

【0061】対象計算機100が正常動作している間
は、生存信号発信処理部140が実行されるので生存信
号が特定時間間隔にて発信される。対象計算機100に
オペレーティングシステムのパニック等の障害が発生し
た場合、生存信号発信処理部140は実行されなくなる
ので、生存信号が発信されなくなる。
While the target computer 100 is operating normally, the survival signal transmission processing unit 140 is executed, so that the survival signal is transmitted at a specific time interval. When a failure such as a panic of the operating system occurs in the target computer 100, the survival signal transmission processing unit 140 is not executed, so that the survival signal is not transmitted.

【0062】図3は本実施形態の生存信号監視処理部1
41の処理手順を示すフローチャートである。まずステ
ップ300にて生存信号監視処理部141は、生存信号
伝達手段104を介して生存信号を監視し、生存信号が
読み取れるまで待つ。この処理は、対象計算機100が
起動し、使用可能になるまで待つ処理である。
FIG. 3 shows a survival signal monitoring processing unit 1 according to this embodiment.
It is a flowchart which shows the processing procedure of 41. First, in step 300, the survival signal monitoring processing unit 141 monitors the survival signal via the survival signal transmission unit 104, and waits until the survival signal can be read. This process is a process of starting the target computer 100 and waiting until it becomes available.

【0063】次にステップ301にて生存信号監視処理
部141は、特定時間内に新たに生存信号を読み取れる
かどうかを判定する。特定時間内に生存信号を読み取れ
たのであれば、それは対象計算機100が障害を起こし
ていないことを意味するから、監視を続ける目的でステ
ップ301を繰り返す。
Next, in step 301, the survival signal monitoring processing section 141 determines whether a new survival signal can be read within a specific time. If the surviving signal is read within the specific time, it means that the target computer 100 has not failed, and the step 301 is repeated for the purpose of continuing the monitoring.

【0064】特定時間内に生存信号を読み取れないので
あれば、それは対象計算機100が障害を起こしている
ことを意味するから、選択的ダンプを取得する目的でス
テップ302に進む。
If the survival signal cannot be read within the specified time, it means that the target computer 100 has failed, and the process proceeds to step 302 for the purpose of obtaining a selective dump.

【0065】なおここでいう特定時間は、生存信号発信
処理部140が生存信号を発信する間隔よりも長く設定
されるものとする。これは、生存信号発信処理部140
の実行スケジューリングが遅れてしまい、生存信号発信
の実際の間隔が生存信号発信処理部140にて指定した
間隔よりも長くなってしまうことに対する対処である。
The specific time here is set to be longer than the interval at which the survival signal transmission processing section 140 transmits the survival signal. This is because the survival signal transmission processing unit 140
This is a countermeasure against the fact that the execution schedule of the alive signal is delayed and the actual interval of the survival signal transmission becomes longer than the interval specified by the survival signal transmission processing unit 140.

【0066】前記の様に生存信号発信処理部140が例
えば1秒間隔で生存信号を発信している場合には、ステ
ップ301でこれより十分長い特定時間として例えば1
0秒間待てば良い。
As described above, when the survival signal transmission processing unit 140 transmits a survival signal at intervals of, for example, one second, at step 301, a specific time sufficiently longer than this is set to, for example, 1
Just wait 0 seconds.

【0067】ステップ302では対象計算機100のダ
ンプを取得する障害情報取得処理部142を起動し、そ
の処理が終了するまで待つ。障害情報取得処理部142
の処理手順は後述する。
In step 302, the failure information acquisition processing unit 142 for acquiring a dump of the target computer 100 is activated, and waits until the processing is completed. Fault information acquisition processing unit 142
Will be described later.

【0068】障害情報取得処理部142の処理が終了す
ると、ステップ303で生存信号監視処理部141は対
象計算機100をリセットする。リセット方法も後述す
る。その後生存信号監視処理部141はステップ300
に戻り、対象計算機100が再度利用可能になるまで待
つ。
When the processing of the failure information acquisition processing unit 142 ends, the surviving signal monitoring processing unit 141 resets the target computer 100 in step 303. The reset method will also be described later. Thereafter, the survivor signal monitoring processing unit 141 proceeds to step 300.
And wait until the target computer 100 becomes available again.

【0069】次に先のステップ303にて言及したリセ
ット方法を説明する。リセット方法としては以下の2通
りの方法を使用できる。
Next, the reset method referred to in step 303 will be described. As the reset method, the following two methods can be used.

【0070】第1のリセット方法では、まず対象計算機
100のプロセッサ101の制御レジスタをメモリアド
レス空間にマップする。ハードウェアレジスタのメモリ
アドレス空間へのマップ、すなわちメモリマップ入出力
については、「コンピュータ・アーキテクチャー設計・
実現・評価の定量的アプローチ」、1版1刷、ISBN
4−8222−7152−8の第554ページに記載さ
れている。
In the first reset method, first, the control register of the processor 101 of the target computer 100 is mapped to a memory address space. For the map of hardware registers to the memory address space, that is, memory map input / output, refer to “Computer Architecture Design
"Quantitative Approach to Realization and Evaluation", 1st Edition, 1st Edition, ISBN
4-8222-7152-8, page 554.

【0071】またメモリアドレス空間への書き込みによ
りリセット可能なプロセッサに関しては、「HP Pr
ecision Architecture:The
Input/Output System」、AUGU
ST 1986 HEWLETT−PACKARD J
OURNALの第23ページから第30ページまでに記
載されている。
For a processor that can be reset by writing to the memory address space, see “HP Pr
edition Architecture: The
Input / Output System ", AUGU
ST 1986 HEWLETT-PACKARD J
It is described on page 23 to page 30 of OURRNAL.

【0072】この場合、ダンプ計算機110はリモート
メモリライト可能なネットワークインタフェース102
の書き込み要求処理部153を使用し、対象計算機10
0のプロセッサ101の制御レジスタにプロセッサ10
1のリセットを意味する値を書き込むことが可能であ
る。
In this case, the dump computer 110 is connected to the network interface 102 capable of remote memory writing.
Of the target computer 10 using the write request processing unit 153 of
0 in the control register of the processor 101
It is possible to write a value indicating a reset of 1.

【0073】後の説明の為に、対象計算機100のプロ
セッサ101の制御レジスタがメモリアドレス「0xf
fffffffffffffff」(0xは16進数を
表す記号とする)にマップされており、このアドレスに
1バイトの値「0」を書き込むとプロセッサ101がリ
セットされるものとする。
For the following description, the control register of the processor 101 of the target computer 100 stores the memory address “0xf”.
ffffffffffffffff ”(0x is a symbol representing a hexadecimal number), and it is assumed that the processor 101 is reset when a one-byte value“ 0 ”is written to this address.

【0074】ここでは、まずダンプ計算機110のアド
レス「0x80000000」に値「0」を格納し、対
象計算機100のメモリアドレス「0xfffffff
fffffffff」にアドレス「0x8000000
0」の内容を書き込む要求を書き込み要求処理部153
に対して行う。書き込み要求処理の詳細は後述する。
Here, first, the value “0” is stored in the address “0x80000000” of the dump computer 110, and the memory address “0xffffffff” of the target computer 100 is stored.
ffffffffff ”to the address“ 0x800000000 ”
The request to write the contents of “0” is written to the write request processing unit 153
Do for Details of the write request process will be described later.

【0075】この様にダンプ計算機110は第1の方法
を使用して対象計算機100をリセット可能である。
As described above, the dump computer 110 can reset the target computer 100 by using the first method.

【0076】第2のリセット方法は、対象計算機100
内の生存信号伝達手段104がプロセッサ101をリセ
ットする方法である。これは生存信号伝達手段104か
らプロセッサ101にリセット信号を入力できれば良
い。
The second reset method uses the target computer 100
This is a method of resetting the processor 101 by the survival signal transmitting means 104 in the inside. This is only required if a reset signal can be input from the survival signal transmitting means 104 to the processor 101.

【0077】これは特開平8−115281号公報の第
2の実施例に記載されているサービスプロセッサの機能
を対象計算機100の生存信号伝達手段104にリセッ
ト処理部として組み込み、同様に記載されているモデム
(RS−232Cドライバ)の機能をダンプ計算機11
0の生存信号伝達手段104に組み込むことで実現でき
る。
This is similarly described by incorporating the function of the service processor described in the second embodiment of Japanese Patent Application Laid-Open No. 8-115281 as a reset processing unit in the survival signal transmitting means 104 of the target computer 100. The function of the modem (RS-232C driver) is added to the dump computer 11
It can be realized by incorporating it into the survival signal transmitting means 104 of 0.

【0078】この様にダンプ計算機110は、ダンプ計
算機110の生存信号伝達手段104を使用して対象計
算機100の生存信号伝達手段104のリセット処理部
に対し、対象計算機100のプロセッサ101をリセッ
トする様に指示することができる。この様にダンプ計算
機110は第2の方法を利用して対象計算機100をリ
セット可能である。
As described above, the dump computer 110 uses the survival signal transmitting means 104 of the dump computer 110 to reset the processor 101 of the target computer 100 to the reset processing unit of the survival signal transmitting means 104 of the target computer 100. Can be instructed. In this way, the dump computer 110 can reset the target computer 100 using the second method.

【0079】図4は本実施形態の障害情報規定ファイル
143の概略構成を示す図である。図4に示す様に本実
施形態の障害情報規定ファイル143は、障害情報エン
トリ数フィールド400と、障害情報エントリ410
と、メモリアドレスフィールド411と、バイト数フィ
ールド412とを有している。
FIG. 4 is a diagram showing a schematic configuration of the failure information definition file 143 according to the present embodiment. As shown in FIG. 4, the failure information definition file 143 of this embodiment includes a failure information entry number field 400 and a failure information entry 410.
, A memory address field 411, and a byte number field 412.

【0080】障害情報エントリ数フィールド400は障
害情報エントリ410の数を表すフィールドである。障
害情報エントリ410は対象計算機100から取得すべ
き障害情報を規定したエントリである。メモリアドレス
フィールド411は障害情報を取得すべき対象計算機1
00のメモリ103上の先頭アドレスを表すフィールド
である。バイト数フィールド412は障害情報として取
得すべきバイト数を表すフィールドである。
The number of fault information entries field 400 is a field indicating the number of fault information entries 410. The failure information entry 410 is an entry that defines failure information to be acquired from the target computer 100. The memory address field 411 is the target computer 1 from which the failure information is to be obtained.
00 is a field representing the start address on the memory 103. The byte number field 412 is a field indicating the number of bytes to be acquired as the failure information.

【0081】障害情報規定ファイル143は、後に詳述
する障害情報取得処理部142の入力となるファイルで
あり、障害情報取得処理部142が取得すべき障害情報
のメモリアドレスを規定するものである。
The failure information definition file 143 is a file to be input to the failure information acquisition processing unit 142 described in detail later, and specifies a memory address of failure information to be acquired by the failure information acquisition processing unit 142.

【0082】障害情報規定ファイル143にて障害情報
として取得が指定されるメモリ量は対象計算機100の
全メモリ容量に比べ十分に小さい。例えば、障害情報規
定ファイル143にて指定されるメモリ量は数バイトか
ら数メガバイト、対象計算機100の全メモリ容量は数
ギガバイト以上である。
The amount of memory designated to be acquired as failure information in the failure information definition file 143 is sufficiently smaller than the total memory capacity of the target computer 100. For example, the memory amount specified in the failure information definition file 143 is several bytes to several megabytes, and the total memory capacity of the target computer 100 is several gigabytes or more.

【0083】障害情報規定ファイル143中のメモリア
ドレスは、対象計算機100で実行されるオペレーティ
ングシステムを対象計算機100若しくはダンプ計算機
110にて予め解析することにより得られるものとす
る。
The memory address in the failure information definition file 143 is obtained by analyzing the operating system executed on the target computer 100 by the target computer 100 or the dump computer 110 in advance.

【0084】以下障害情報規定ファイル143の構造を
詳述する。障害情報規定ファイル143は単一の障害情
報エントリ数フィールド400と複数の障害情報エント
リ410からなる。
Hereinafter, the structure of the failure information definition file 143 will be described in detail. The failure information definition file 143 includes a single failure information entry number field 400 and a plurality of failure information entries 410.

【0085】障害情報エントリ数フィールド400は障
害情報エントリ410の数を表しており、障害情報エン
トリ数フィールド400の大きさは障害情報エントリ数
を表す為に十分な大きさであれば良いが、ここでは例え
ば64ビット長の整数であるものとする。また後の説明
の為、値はnであるものと仮定する。
The number of failure information entries field 400 represents the number of failure information entries 410, and the size of the failure information entry number field 400 may be any size as long as it is large enough to represent the number of failure information entries. For example, it is assumed that the integer is a 64-bit integer. For the following description, it is assumed that the value is n.

【0086】障害情報エントリ数フィールド400は障
害情報規定ファイル143の先頭にある。これに引続き
n個の障害情報エントリ410が連続する。
The number of failure information entries field 400 is at the top of the failure information definition file 143. This is followed by n failure information entries 410.

【0087】障害情報エントリ410はメモリアドレス
フィールド411及びバイト数フィールド412からな
る。
The fault information entry 410 includes a memory address field 411 and a byte number field 412.

【0088】メモリアドレスフィールド411は取得す
べき対象計算機100のメモリ103の先頭アドレスを
表しており、ここでアドレスはバイトアドレッシング
(先頭から何バイト目であるかをもってアドレスとする
アドレッシング方法)であるものとし、64ビット長ア
ドレスであるものとする。これにてアドレス空間が64
ビット以下の対象計算機100に対応できる。
The memory address field 411 indicates the head address of the memory 103 of the target computer 100 to be acquired, where the address is byte addressing (an addressing method in which the number of bytes from the head is an address). And the address is 64 bits long. This makes the address space 64
It can correspond to the target computer 100 having bits or less.

【0089】なおこの仮定はバイトアドレッシング及び
64ビット長アドレスの対象計算機100に本発明を限
定するものではない。16ビット、32ビットまたは6
4ビット等のワードアドレッシングや、64ビット長よ
りも短いアドレスや長いアドレスにも対応可能であり、
この場合アドレス長を対応した長さにして適用するもの
とする。
Note that this assumption does not limit the present invention to the target computer 100 having byte addressing and 64-bit address. 16 bits, 32 bits or 6
It can handle word addressing such as 4 bits and addresses shorter or longer than 64 bits long.
In this case, the address length is set to a corresponding length and applied.

【0090】バイト数フィールド412は先頭から何バ
イト取得すべきかを表しており、バイト数フィールド4
12もメモリアドレスフィールド411と同じ64ビッ
ト長であるものとする。
The number-of-bytes field 412 indicates how many bytes should be obtained from the head.
It is also assumed that 12 has the same 64-bit length as the memory address field 411.

【0091】また後の説明の為、障害情報エントリ41
0のエントリmでは、メモリアドレスフィールド411
の値は16進数で「0x4a05c0」(表記において
は上位の0を省略)、バイト数フィールド412の値は
10進数で「4096」であるものとする。
For the following description, the failure information entry 41
In the entry m of 0, the memory address field 411
Is a hexadecimal number “0x4a05c0” (in the notation, upper 0s are omitted), and the value of the byte number field 412 is a decimal number “4096”.

【0092】図5は本実施形態の障害情報ファイル14
4の概略構成を示す図である。図5に示す様に本実施形
態の障害情報ファイル144は、障害情報ダンプエント
リ数フィールド500と、障害情報ダンプエントリ51
0と、メモリアドレスフィールド511と、バイト数フ
ィールド512と、メモリ内容フィールド513とを有
している。
FIG. 5 shows the failure information file 14 according to this embodiment.
4 is a diagram showing a schematic configuration of FIG. As shown in FIG. 5, the failure information file 144 of the present embodiment includes a failure information dump entry number field 500 and a failure information dump entry 51.
0, a memory address field 511, a byte number field 512, and a memory content field 513.

【0093】障害情報ダンプエントリ数フィールド50
0は障害情報ダンプエントリ510の数を表すフィール
ドである。障害情報ダンプエントリ510は対象計算機
100から取得した障害情報を格納するエントリであ
る。
Failure information dump entry number field 50
0 is a field representing the number of failure information dump entries 510. The failure information dump entry 510 is an entry for storing failure information acquired from the target computer 100.

【0094】メモリアドレスフィールド511は障害情
報を取得した対象計算機100のメモリ103上の先頭
アドレスを表すフィールドである。バイト数フィールド
512は障害情報として取得したバイト数を表すフィー
ルドである。メモリ内容フィールド513は障害情報と
して取得した対象計算機100のメモリ103の内容を
表すフィールドである。
The memory address field 511 is a field indicating the head address on the memory 103 of the target computer 100 from which the failure information has been acquired. The byte number field 512 is a field indicating the number of bytes acquired as the failure information. The memory content field 513 is a field representing the content of the memory 103 of the target computer 100 acquired as the failure information.

【0095】障害情報ファイル144は、後述する障害
情報取得処理部142が作成する選択的ダンプ出力であ
り、単一の障害情報ダンプエントリ数フィールド500
と複数の障害情報ダンプエントリ510からなってい
る。
The failure information file 144 is a selective dump output created by a failure information acquisition processing unit 142 described later, and has a single failure information dump entry number field 500.
And a plurality of failure information dump entries 510.

【0096】障害情報ダンプエントリ数フィールド50
0は障害情報ダンプエントリ510の数を表しており、
図4の例では障害情報エントリ数フィールド400の値
はnであるので、後述する障害情報取得処理部142の
実行後には、障害情報ダンプエントリ数フィールド50
0の値も障害情報規定ファイル143の障害情報エント
リ数と同一の値nとなる。
Failure information dump entry number field 50
0 represents the number of failure information dump entries 510,
In the example of FIG. 4, the value of the failure information entry number field 400 is n.
The value of 0 is also the same value n as the number of failure information entries in the failure information definition file 143.

【0097】障害情報ダンプエントリ数フィールド50
0は障害情報ファイル144の先頭にある。これに引続
きn個の障害情報ダンプエントリ510が連続する。
Failure information dump entry number field 50
0 is at the head of the failure information file 144. This is followed by n failure information dump entries 510.

【0098】障害情報ダンプエントリ510は、メモリ
アドレスフィールド511、バイト数フィールド512
及びメモリ内容フィールド513からなる。
The failure information dump entry 510 includes a memory address field 511 and a byte number field 512.
And a memory content field 513.

【0099】メモリアドレスフィールド511は内容を
取得した対象計算機100のメモリ103の先頭アドレ
スを表しており、メモリアドレスフィールド511も6
4ビット長である。
The memory address field 511 indicates the head address of the memory 103 of the target computer 100 from which the content has been acquired.
It is 4 bits long.

【0100】バイト数フィールド512はメモリ内容フ
ィールド513のバイト数を表しており、バイト数フィ
ールド512も64ビット長である。
The byte number field 512 indicates the number of bytes in the memory content field 513, and the byte number field 512 is also 64 bits long.

【0101】メモリ内容フィールド513は、先頭アド
レスから(先頭アドレス+バイト数−1)までの対象計
算機100のメモリ103の内容を格納する。
The memory contents field 513 stores the contents of the memory 103 of the target computer 100 from the start address to (start address + number of bytes−1).

【0102】対象計算機100がメモリアドレス「0x
4a05c0」から「0x4a14bf」の領域に「P
anic:irregular inode(後略)」
という文字列をASCII値として各バイトに格納した
後に、対象計算機100がパニックした場合、後述する
障害情報取得処理部142の実行後には、障害情報ダン
プエントリ510のエントリmは次の様に設定される。
The target computer 100 receives the memory address “0x
In the area from “4a05c0” to “0x4a14bf”, “P
anic: irregular inode (omitted) "
If the target computer 100 panics after storing the character string as an ASCII value in each byte, the entry m of the failure information dump entry 510 is set as follows after execution of the failure information acquisition processing unit 142 described below. You.

【0103】すなわち、メモリアドレスフィールド51
1の値は16進数で「0x4a05c0」、バイト数フ
ィールド512の値は10進数で「4096」となり、
メモリ内容フィールド513は「Panic:irre
gular inode(後略)」という文字列をAS
CII値として各バイトに格納する。これは、最初のバ
イトにASCII文字「P」を表す値「80」、次のバ
イトにASCII文字「a」を表す値「97」という様
に値を格納することを意味している。
That is, the memory address field 51
The value of 1 is “0x4a05c0” in hexadecimal, the value of the byte number field 512 is “4096” in decimal,
The memory content field 513 contains "Panic: irre".
character in. ”
Each byte is stored as a CII value. This means that the first byte stores a value “80” representing the ASCII character “P”, and the next byte stores a value “97” representing the ASCII character “a”.

【0104】前記の様に障害情報取得処理部142は、
障害情報規定ファイル143を入力とし、対象計算機1
00のメモリ103の内容を読み取り、障害情報ファイ
ル144を出力としており、障害情報ファイル144が
選択的ダンプ出力となっている。以下障害情報取得処理
部142の処理手順の詳細を説明する。
As described above, the failure information acquisition processing unit 142
The failure information definition file 143 is input and the target computer 1
00, the contents of the memory 103 are read and the failure information file 144 is output, and the failure information file 144 is selectively output as a dump. Hereinafter, the processing procedure of the failure information acquisition processing unit 142 will be described in detail.

【0105】図6は本実施形態の障害情報取得処理部1
42の処理手順を示すフローチャートである。ステップ
600にて障害情報取得処理部142は、取得すべき対
象計算機100のメモリ103のアドレスが記載されて
いる障害情報規定ファイル143を読み込みモードでオ
ープンする。そして障害情報エントリ数フィールド40
0を読み取る。図4に示した例では障害情報エントリ数
フィールド400の値としてnが読み取られる。
FIG. 6 shows the failure information acquisition processing section 1 of the present embodiment.
42 is a flowchart showing the processing procedure of Step 42. In step 600, the failure information acquisition processing unit 142 opens the failure information definition file 143 in which the address of the memory 103 of the target computer 100 to be acquired is described in the read mode. And the failure information entry number field 40
Read 0. In the example shown in FIG. 4, n is read as the value of the failure information entry number field 400.

【0106】ステップ601では、取得される対象計算
機100のメモリ103の内容を保持する為に、障害情
報ファイル144を生成する。具体的には障害情報ファ
イル144をダンプ計算機110のディスク105内に
生成し、書き込みモードでオープンする。
In step 601, a failure information file 144 is generated to hold the acquired contents of the memory 103 of the target computer 100. Specifically, the failure information file 144 is generated in the disk 105 of the dump computer 110 and opened in the write mode.

【0107】ステップ602にて、障害情報ファイル1
44の障害情報ダンプエントリ数フィールド500にエ
ントリ数を書き込む。図5に示した例の場合にはnを書
き込むことになる。
At step 602, the failure information file 1
The number of entries is written in the 44 failure information dump entry number field 500. In the case of the example shown in FIG. 5, n is written.

【0108】ステップ603にて、一時変数iに「0」
を設定する。変数iはどのエントリを処理をしているの
かを表すループカウンタである。
At step 603, “0” is set to the temporary variable i.
Set. The variable i is a loop counter indicating which entry is being processed.

【0109】ステップ604にて、iがnに等しいか否
かのチェックを行う。等しい場合にはステップ609に
進み、等しくない場合にはステップ605に進む。以下
i=m(但し0<m<n)の場合を例に説明する。
At step 604, it is checked whether i is equal to n. If they are equal, the process proceeds to step 609; otherwise, the process proceeds to step 605. Hereinafter, a case where i = m (where 0 <m <n) will be described as an example.

【0110】ステップ605にて、障害情報規定ファイ
ル143のエントリiを読む。ここには、エントリiの
メモリアドレスフィールド411とバイト数フィールド
412が格納されている。
At step 605, the entry i of the failure information definition file 143 is read. Here, a memory address field 411 and a byte number field 412 of the entry i are stored.

【0111】ここではメモリアドレスフィールド411
の値をrem_addr、バイト数フィールド412の
値をlenで表すものとして説明する。図4に示す様に
iがmに等しい場合には、rem_addrの値は「0
x4a05c0」、lenの値は「4096」となる。
Here, the memory address field 411
Is described as rem_addr, and the value of the byte number field 412 as len. When i is equal to m as shown in FIG. 4, the value of rem_addr is “0”.
x4a05c0 ”and the value of len are“ 4096 ”.

【0112】ステップ606にて、対象計算機100の
メモリ103のメモリアドレスrem_addrからl
enバイトだけリモートメモリリードする。iがmに等
しい場合には、アドレス「0x4a05c0」から40
96バイト読み出すことになる。
At step 606, the memory address rem_addr of the memory 103 of the target computer 100 is
Read only en bytes from the remote memory. If i is equal to m, the address "0x4a05c0"
96 bytes will be read.

【0113】また読み出す前にリモートメモリリード結
果を格納すべき領域の確保を行っておく。確保するメモ
リ領域の先頭アドレスをloc_addrで表すものと
すると、確保するメモリ領域はloc_addrから
(loc_addr+len−1)で表される。例えば
loc_addrを「0x80000000」とする
と、iがmに等しい場合には、確保するメモリ領域は
「0x80000000」から「0x80000ff
f」まで(4096バイト)となる。なおリモートメモ
リリードの具体的処理手順は図9の読み込み要求処理の
図を使用して後述する。
Before reading, an area for storing the remote memory read result is secured. Assuming that the start address of the memory area to be secured is represented by loc_addr, the memory area to be secured is represented by (loc_addr + len−1) from loc_addr. For example, assuming that loc_addr is “0x8000000”, when i is equal to m, the memory area to be secured is changed from “0x8000000” to “0x800000ff”.
f ”(4096 bytes). The specific processing procedure of the remote memory read will be described later with reference to the drawing of the read request processing in FIG.

【0114】対象計算機100のメモリ領域「0x4a
05c0」から「0x4a14bf」まで(4096バ
イト)は、「Panic:irregular ino
de(後略)」という文字列の各文字をASCII値と
して各バイトに格納している。
The memory area “0x4a” of the target computer 100
From 05c0 ”to“ 0x4a14bf ”(4096 bytes),“ Panic: irregular ino ”
Each character of the character string "de (omitted)" is stored in each byte as an ASCII value.

【0115】この例の場合、リモートメモリリードによ
り、ダンプ計算機110のメモリ領域「0x80000
000」から「0x80000fff」までに「Pan
ic:irregular inode(後略)」とい
う文字列をASCII値として各バイトに受け取ること
になる。
In the case of this example, the memory area “0x80000” of the dump computer 110 is read by remote memory reading.
000 ”to“ 0x80000fff ”from“ Pan
The character string "ic: irregular inode (omitted)" is received in each byte as an ASCII value.

【0116】ステップ607にて、ステップ606で受
け取ったリモートメモリリード処理結果を障害情報ファ
イル144のエントリiに格納する。
At step 607, the result of the remote memory read process received at step 606 is stored in the entry i of the failure information file 144.

【0117】具体的には、エントリiのメモリアドレス
フィールド511にrem_addrを、バイト数フィ
ールド512にlenを、メモリ内容フィールド513
にステップ606で受け取ったリモートメモリリード処
理結果をそれぞれ書き込む。
Specifically, rem_addr is set in the memory address field 511 of the entry i, len is set in the byte number field 512, and the memory content field 513 is set.
Then, the remote memory read processing result received in step 606 is written.

【0118】iがmに等しい場合には、障害情報ファイ
ル144のエントリmのメモリアドレスフィールド51
1に値「0x4a05c0」を格納し、バイト数フィー
ルド512に値「4096」を格納し、メモリ内容フィ
ールド513に「Panic:irregular i
node(後略)」という文字列の各文字をASCII
値として各バイトに格納することになる。
If i is equal to m, the memory address field 51 of the entry m of the fault information file 144
The value “0x4a05c0” is stored in “1”, the value “4096” is stored in the number-of-bytes field 512, and “Panic: irregular i” is stored in the memory content field 513.
Each character of the character string "node (omitted)"
It will be stored in each byte as a value.

【0119】ステップ608にて変数iに「1」を加
え、ステップ604へ戻る。以上がエントリ1つ分の処
理である。以下ステップ609からの処理は全てのエン
トリの処理が終った後の処理である。まずステップ60
9にて障害情報規定ファイル143をクローズする。そ
してステップ610にて、障害情報ファイル144をク
ローズして処理を終る。
In step 608, “1” is added to the variable i, and the process returns to step 604. The above is the processing for one entry. The process from step 609 is a process after all entries have been processed. First, step 60
In step 9, the failure information definition file 143 is closed. Then, in step 610, the failure information file 144 is closed, and the process ends.

【0120】図7は本実施形態のリモートメモリアクセ
スパケットの概略構成を示す図である。図7に示す様に
本実施形態のリモートメモリアクセスパケット700
は、宛先計算機番号フィールド701と、送信元計算機
番号フィールド702と、セキュリティキーフィールド
703と、コマンドフィールド704と、メモリアドレ
スフィールド705と、メモリ内容フィールド706と
を有している。
FIG. 7 is a diagram showing a schematic configuration of the remote memory access packet of the present embodiment. As shown in FIG. 7, the remote memory access packet 700 of the present embodiment
Has a destination computer number field 701, a source computer number field 702, a security key field 703, a command field 704, a memory address field 705, and a memory content field 706.

【0121】宛先計算機番号フィールド701はリモー
トメモリアクセスパケット700を受信すべき宛先の計
算機を示す宛先計算機番号を格納するフィールドであ
る。送信元計算機番号フィールド702はリモートメモ
リアクセスパケット700を送信した送信元の計算機を
示す送信元計算機番号を格納するフィールドである。
The destination computer number field 701 is a field for storing a destination computer number indicating a destination computer to receive the remote memory access packet 700. The source computer number field 702 is a field for storing the source computer number indicating the source computer that transmitted the remote memory access packet 700.

【0122】セキュリティキーフィールド703は正常
なリモートメモリアクセスパケット700であることを
示すセキュリティキーを格納するフィールドである。コ
マンドフィールド704はリモートメモリアクセスパケ
ット700が読み込み要求、読み込み返答または書き込
み要求のいずれの目的で使用されているかを表すコマン
ドを格納するフィールドである。
The security key field 703 is a field for storing a security key indicating that the packet is a normal remote memory access packet 700. The command field 704 is a field for storing a command indicating whether the remote memory access packet 700 is used for a read request, a read reply, or a write request.

【0123】メモリアドレスフィールド705はリモー
トメモリアクセス対象のメモリアドレスを格納するフィ
ールドである。メモリ内容フィールド706は読み込み
返答時のリモートメモリリード対象の対象計算機100
のメモリ103の内容または書き込み要求時のリモート
メモリライト対象の対象計算機100のメモリ103の
内容を格納するフィールドである。
A memory address field 705 is a field for storing a memory address of a remote memory access target. The memory content field 706 indicates the target computer 100 to be read from the remote memory at the time of the read response.
This field stores the contents of the memory 103 of the target computer 100 or the contents of the memory 103 of the target computer 100 to be written to the remote memory at the time of a write request.

【0124】リモートメモリアクセスパケット700
は、リモートメモリアクセスの為にネットワークインタ
フェース102が交換するネットワークパケットであ
る。ここで図7(a)はメモリ読み込み要求パケットの
例、図7(b)はメモリ読み込み返答パケットの例、図
7(c)はメモリ書き込み要求パケットの例を表してい
る。
Remote memory access packet 700
Is a network packet exchanged by the network interface 102 for remote memory access. Here, FIG. 7A shows an example of a memory read request packet, FIG. 7B shows an example of a memory read response packet, and FIG. 7C shows an example of a memory write request packet.

【0125】宛先計算機番号フィールド701や送信元
計算機番号フィールド702に格納される計算機番号
は、ネットワーク120内で一意な番号である。この為
計算機番号によりネットワーク120内の対象計算機1
00やダンプ計算機110を一意に特定することが可能
である。
The computer numbers stored in the destination computer number field 701 and the source computer number field 702 are unique numbers in the network 120. Therefore, the target computer 1 in the network 120 is determined by the computer number.
00 and the dump computer 110 can be uniquely specified.

【0126】計算機番号はネットワーク120上の対象
計算機100やダンプ計算機110を一意に表すことが
出来るだけの大きさであれば十分であり、ここでは計算
機番号は64ビットの整数とする。その為、宛先計算機
番号フィールド701及び送信元計算機番号フィールド
702共に64ビット長である。
It is sufficient that the computer number is large enough to uniquely represent the target computer 100 and the dump computer 110 on the network 120. Here, the computer number is a 64-bit integer. Therefore, both the destination computer number field 701 and the source computer number field 702 are 64 bits long.

【0127】ここでは、対象計算機100の計算機番号
を「11111」、ダンプ計算機110の計算機番号を
「22222」とした場合を例に説明する。
Here, the case where the computer number of the target computer 100 is “11111” and the computer number of the dump computer 110 is “22222” will be described as an example.

【0128】セキュリティキーフィールド703にはセ
キュリティキーが格納される。ネットワークインタフェ
ース102はセキュリティキーレジスタ150にセキュ
リティキーを保持しており、リモートメモリアクセスパ
ケット700を受信すると、セキュリティキーフィール
ド703に格納された値とセキュリティキーレジスタ1
50に格納された値とを比較し、一致した場合のみ該リ
モートメモリアクセスパケット700を処理し、一致し
ない場合には該リモートメモリアクセスパケット700
を破棄する。
The security key field 703 stores a security key. The network interface 102 holds the security key in the security key register 150, and upon receiving the remote memory access packet 700, the value stored in the security key field 703 and the security key register 1
50, the remote memory access packet 700 is processed only when the values match, and when the values do not match, the remote memory access packet 700 is processed.
Is destroyed.

【0129】リモートメモリアクセスパケット700及
びネットワークインタフェース102のセキュリティキ
ーが一致することを確認するのは、他の計算機の故障し
たネットワークインタフェース102が不正なリモート
メモリアクセスパケット700を生成した場合であって
も、プロセッサ101がリセットされたりメモリ103
の内容が不正に変更されることを防ぐ為である。
It is confirmed that the security key of the remote memory access packet 700 and the security key of the network interface 102 match each other even when the failed network interface 102 of another computer generates the unauthorized remote memory access packet 700. , The processor 101 is reset or the memory 103
This is to prevent the contents of the URL from being illegally changed.

【0130】リモートメモリアクセスを使用する計算機
は全て同じセキュリティキー値を使用する。セキュリテ
ィキーレジスタ150の値は、オペレーティングシステ
ムのブート時に設定する。この例では、対象計算機10
0及びダンプ計算機110ともセキュリティキーレジス
タ150の値は「99999」とする。
Computers using remote memory access all use the same security key value. The value of the security key register 150 is set when the operating system is booted. In this example, the target computer 10
For both 0 and the dump computer 110, the value of the security key register 150 is "99999".

【0131】コマンドフィールド704は、リモートメ
モリアクセスパケット700が、読み込み要求、読み込
み返答または書き込み要求のいずれの目的で使用されて
いるかを表すものであり、本実施形態の計算機システム
ではその目的が読み込み要求、読み込み返答及び書き込
み要求の3つであるので、コマンドフィールド704は
2ビット以上であれば良い。
The command field 704 indicates whether the remote memory access packet 700 is used for a read request, a read reply, or a write request. In the computer system of this embodiment, the purpose is the read request. , Read response and write request, the command field 704 may be two bits or more.

【0132】図8は本実施形態のコマンドフィールド7
04のエンコード内容を示す図である。ここでは図8に
示す様にコマンドフィールド704の読み込み要求、読
み込み返答及び書き込み要求をそれぞれ「0」、「1」
及び「2」にエンコードするものとする。
FIG. 8 shows the command field 7 of this embodiment.
It is a figure which shows the encoding content of 04. Here, as shown in FIG. 8, the read request, read reply and write request of the command field 704 are “0” and “1”, respectively.
And "2".

【0133】メモリアドレスフィールド705は、リモ
ートメモリアクセス対象のメモリアドレスを表してお
り、具体的には、読み込み要求時にはリモートメモリリ
ードを要求するメモリアドレスを表し、読み込み返答時
にはリモートメモリリードしたメモリアドレスを表し、
書き込み要求時にはリモートメモリライトを要求するメ
モリアドレスを表している。
The memory address field 705 indicates the memory address of the remote memory access target. Specifically, the memory address indicates a memory address for requesting a remote memory read at the time of a read request, and indicates the memory address at which the remote memory read was performed at the time of a read response. Represent
At the time of a write request, it indicates a memory address at which a remote memory write is requested.

【0134】本実施形態の計算機システムでは計算機ア
ドレスはバイトアドレスであり64ビット長アドレスで
あるので、メモリアドレスフィールド705も64ビッ
ト長である。
In the computer system of this embodiment, the computer address is a byte address and a 64-bit address, so that the memory address field 705 has a 64-bit length.

【0135】メモリ内容フィールド706は、読み込み
返答時にはリモートメモリリード対象のメモリアドレス
から得た対象計算機100のメモリ103の内容であ
り、書き込み要求時にはリモートメモリライト対象のメ
モリアドレスに書き込むべき対象計算機100のメモリ
103の内容である。
The memory contents field 706 is the contents of the memory 103 of the target computer 100 obtained from the memory address of the remote memory read target at the time of a read response, and the contents of the target computer 100 to be written at the remote memory write target memory address at the time of a write request. This is the contents of the memory 103.

【0136】メモリ内容フィールド706は8ビット長
であり1バイトを格納するものとする。読み込み要求時
には、リモートメモリアクセスパケット700にはメモ
リ内容フィールド706は存在しない。
The memory content field 706 is 8 bits long and stores 1 byte. At the time of the read request, the memory content field 706 does not exist in the remote memory access packet 700.

【0137】図9は本実施形態の読み込み要求処理の処
理手順を示すフローチャートである。図9はステップ6
06で呼び出される読み込み要求処理を表しており、ス
テップ900では、対象計算機100のメモリアドレス
rem_addrからlenバイトを読み取りダンプ計
算機110のメモリアドレスloc_addrから(l
oc_addr+len−1)の領域に読み込む要求を
受け付ける。
FIG. 9 is a flowchart showing the processing procedure of the read request processing according to the present embodiment. FIG. 9 shows step 6
06, the read request process is called. In step 900, len bytes are read from the memory address rem_addr of the target computer 100, and (l) is read from the memory address loc_addr of the dump computer 110.
A request to read into the area of (oc_addr + len-1) is accepted.

【0138】前記の例ではmem_addrは「0x4
a05c0」、lenは「4096」、loc_add
rは「0x80000000」である。loc_add
rから(loc_addr+len−1)の領域の確保
は呼び出し元のステップ606にて既に行われている。
In the above example, mem_addr is “0x4
a05c0 ", len is" 4096 ", loc_add
r is “0x80000000”. loc_add
The area from r to (loc_addr + len-1) has already been secured in step 606 of the caller.

【0139】ステップ901では一時変数iを「0」に
設定する。変数iはメモリアドレス(rem_addr
+i)を読み込み処理中であることを表す変数である。
At step 901, the temporary variable i is set to "0". The variable i is the memory address (rem_addr
+ I) is a variable indicating that the reading process is being performed.

【0140】ステップ902では変数i=lenである
かを判定する。i=lenである場合は、要求された読
み込み処理は完了している為、ステップ907へ進む。
i=lenでない場合はステップ903へ進み、メモリ
アドレス(rem_addr+i)を読み込む処理を開
始する。
At step 902, it is determined whether or not the variable i = len. If i = len, the requested read processing has been completed, and the flow advances to step 907.
If i is not len, the process advances to step 903 to start processing for reading the memory address (rem_addr + i).

【0141】以下i=1の場合を例に説明する。ステッ
プ903ではメモリアドレス(rem_addr+i)
の読み込み要求パケットを作成して送信する。
Hereinafter, the case where i = 1 will be described as an example. In step 903, the memory address (rem_addr + i)
Create a read request packet and send it.

【0142】該読み込み要求パケットでは、図7の
(a)で示したリモートメモリアクセスパケット700
の様に、宛先計算機番号フィールド701の値は対象計
算機100の計算機番号「11111」、送信元計算機
番号フィールド702の値はダンプ計算機110の計算
機番号「22222」、セキュリティキーフィールド7
03の値は対象計算機100のセキュリティキーレジス
タ150の値の「99999」、コマンドフィールド7
04の値は読み込み要求を表す「0」、メモリアドレス
フィールド705の値は(rem_addr+i)であ
り、メモリ内容フィールド706は無い。前記の例では
rem_addr=0x4a05c0でi=1であるの
でメモリアドレスフィールド705の値は「0x4a0
5c1」となる。
In the read request packet, the remote memory access packet 700 shown in FIG.
, The value of the destination computer number field 701 is the computer number “11111” of the target computer 100, the value of the source computer number field 702 is the computer number “22222” of the dump computer 110, and the security key field 7
The value of 03 is “99999” of the value of the security key register 150 of the target computer 100, and the command field 7
The value of 04 is “0” indicating a read request, the value of the memory address field 705 is (rem_addr + i), and there is no memory content field 706. In the above example, since rem_addr = 0x4a05c0 and i = 1, the value of the memory address field 705 is “0x4a0
5c1 ".

【0143】ステップ904ではメモリアドレス(re
m_addr+i)の読み込み要求パケットに対応する
メモリアドレス(rem_addr+i)の読み込み返
答パケットを受信する。
At step 904, the memory address (re
A read response packet of the memory address (rem_addr + i) corresponding to the read request packet of m_addr + i) is received.

【0144】読み込み返答パケットでは、図7の(b)
で示したリモートメモリアクセスパケット700の様
に、宛先計算機番号フィールド701の値はダンプ計算
機110の計算機番号「22222」、送信元計算機番
号フィールド702の値は対象計算機100の計算機番
号「11111」、セキュリティキーフィールド703
の値はダンプ計算機110のセキュリティキーレジスタ
150の値の「99999」、コマンドフィールド70
4の値は読み込み返答を表す「1」、メモリアドレスフ
ィールド705の値は(rem_addr+i)、メモ
リ内容フィールド706にはXで表されるメモリ内容が
格納されているものとする。
In the read reply packet, FIG.
The value of the destination computer number field 701 is the computer number “22222” of the dump computer 110, the value of the source computer number field 702 is the computer number “11111” of the target computer 100, and the security is as shown in the remote memory access packet 700. Key field 703
Of the security key register 150 of the dump computer 110 and the command field 70
It is assumed that the value of 4 is “1” indicating a read response, the value of the memory address field 705 is (rem_addr + i), and the memory content represented by X is stored in the memory content field 706.

【0145】この例ではメモリアドレスフィールド70
5の値は「0x4a05c1」であり、メモリ内容フィ
ールド706の内容は「97」(ターゲット計算機のメ
モリアドレス「0x4a05c0」から格納されている
「Panic:irregular inode(後
略)」という文字列の2文字目、つまり「a」のASC
II値)である。
In this example, the memory address field 70
The value of 5 is “0x4a05c1”, and the content of the memory content field 706 is “97” (the second character of the character string “Panic: irregular inode” (omitted) stored from the memory address “0x4a05c0” of the target computer). In other words, ASC of "a"
II value).

【0146】ステップ905ではメモリ内容Xをダンプ
計算機110のメモリアドレス(loc_addr+
i)に書き込む。例の場合にはアドレス「0x8000
0001」に値「97」を書き込むことになる。
In the step 905, the memory contents X are stored in the memory address (loc_addr +
Write to i). In the case of the example, the address "0x8000
The value "97" is written in "0001".

【0147】ステップ906で、次のメモリアドレスを
読み込む前にiに「1」を加え、ステップ902に進
む。以上が1バイト分のリモートメモリリード処理であ
る。
In step 906, “1” is added to i before the next memory address is read, and the flow advances to step 902. The above is the remote memory read processing for one byte.

【0148】以下は要求されたリモートメモリリードを
完了した後の処理であり、ステップ907では、読み込
んだ結果であるloc_addrから(loc_add
r+len−1)までの対象計算機100のメモリ10
3の内容を呼び出し元であるステップ606に返して終
了する。
The following is the processing after completion of the requested remote memory read. In step 907, the read result loc_addr is changed to (loc_add
memory 10 of the target computer 100 up to (r + len-1)
3 is returned to the caller, step 606, and the processing ends.

【0149】この例の場合には、メモリ領域の「0x8
0000000」から「0x80000fff」の各バ
イトに、リモートメモリリードの結果である「Pani
c:irregular inode(後略)」という
文字列の各文字のASCII値を格納した状態でステッ
プ606に戻る。
In the case of this example, “0x8”
“Pani”, which is the result of remote memory read, is stored in each byte from “00000000” to “0x80000fff”.
The process returns to step 606 with the ASCII value of each character of the character string “c: irregular inode (omitted)” stored.

【0150】図10は本実施形態の書き込み要求処理の
処理手順を示すフローチャートである。図10はステッ
プ303の第1の方法として呼び出される書き込み要求
処理を表しており、ステップ1000では、対象計算機
100のメモリアドレスrem_addrからlenバ
イトに、ダンプ計算機110のメモリアドレスloc_
addrから(loc_addr+len−1)の領域
の内容を書き込む要求を受け付ける。
FIG. 10 is a flowchart showing the processing procedure of the write request processing of the present embodiment. FIG. 10 shows a write request process called as the first method of step 303. In step 1000, the memory address rem_addr of the target computer 100 is changed to len bytes, and the memory address loc_loc of the dump computer 110 is stored.
A request to write the contents of the area of (loc_addr + len−1) is received from addr.

【0151】loc_addrから(loc_addr
+len−1)の領域の確保は、呼び出し元のステップ
303にて既に行われている。ステップ303では、r
em_addrを「0xffffffffffffff
ff」に、lenを「1」に、loc_addrの内容
を「0」にそれぞれ設定した。
From loc_addr to (loc_addr
The reservation of the area of (+ len-1) has already been performed in step 303 of the caller. In step 303, r
em_addr to “0xffffffffffffffff
ff ”, len is set to“ 1 ”, and the contents of loc_addr are set to“ 0 ”.

【0152】ステップ1001では一時変数iを「0」
に設定する。変数iはメモリアドレス(rem_add
r+i)を書き込み要求処理中であることを表す変数で
ある。
In step 1001, the temporary variable i is set to "0".
Set to. The variable i is a memory address (rem_add
r + i) is a variable indicating that a write request is being processed.

【0153】ステップ1002では変数i=lenであ
るかを判定する。i=lenである場合は、要求された
書き込み要求処理は完了している為、処理を終了する。
i=lenでない場合はステップ1003へ進み、メモ
リアドレス(rem_addr+i)を書き込む処理を
開始する。
In step 1002, it is determined whether the variable i = len. If i = len, the requested write request processing has been completed, and the processing ends.
If i is not len, the process proceeds to step 1003 to start the process of writing the memory address (rem_addr + i).

【0154】ここではi=0と仮定し説明を続けること
にすると、ステップ1003へ進むことになる。ステッ
プ1003ではメモリアドレス(rem_addr+
i)の書き込み要求パケットを作成して送信する。
Here, assuming that i = 0, the description will be continued. In step 1003, the memory address (rem_addr +
A write request packet of i) is created and transmitted.

【0155】該書き込み要求パケットでは、図7の
(c)で示したリモートメモリアクセスパケット700
の様に、宛先計算機番号フィールド701の値は対象計
算機100の計算機番号「11111」、送信元計算機
番号フィールド702の値はダンプ計算機110の計算
機番号「22222」、セキュリティキーフィールド7
03の値は対象計算機100のセキュリティキーレジス
タ150の値「99999」、コマンドフィールド70
4の値は書き込み要求を表す「2」、メモリアドレスフ
ィールド705の値は(rem_addr+i)、メモ
リ内容フィールド706の値は(loc_addr+
i)の内容である。この例では、メモリアドレスフィー
ルド705の値は「0xffffffffffffff
ff」、メモリ内容フィールド706の値は「0」であ
る。
In the write request packet, the remote memory access packet 700 shown in FIG.
, The value of the destination computer number field 701 is the computer number “11111” of the target computer 100, the value of the source computer number field 702 is the computer number “22222” of the dump computer 110, and the security key field 7
The value of “03” is the value “99999” of the security key register 150 of the target computer 100 and the command field 70
The value of 4 is “2” representing a write request, the value of the memory address field 705 is (rem_addr + i), and the value of the memory content field 706 is (loc_addr +
This is the content of i). In this example, the value of the memory address field 705 is “0xffffffffffffffff”.
ff ”, the value of the memory content field 706 is“ 0 ”.

【0156】ステップ1004で、次のメモリアドレス
を書き込む前にiに「1」を加え、i=lenでステッ
プ1002に進み、書き込み要求処理を終了する。
In step 1004, "1" is added to i before writing the next memory address, and if i = len, the flow advances to step 1002 to terminate the write request processing.

【0157】次にネットワークインタフェース102の
動作を説明する。図11の読み込み要求パケット処理、
図12の読み込み返答パケット処理、図13の書き込み
パケット処理はネットワークインタフェース102が行
う処理である。各処理はネットワークインタフェース1
02が行う為、プロセッサ101が機能していなくとも
処理可能である。
Next, the operation of the network interface 102 will be described. Read request packet processing of FIG. 11,
The read reply packet process of FIG. 12 and the write packet process of FIG. 13 are processes performed by the network interface 102. Each process is performed on the network interface 1
02, the processing can be performed even if the processor 101 is not functioning.

【0158】図11は本実施形態の読み込み要求パケッ
ト処理の処理手順を示すフローチャートである。図11
は対象計算機100のネットワークインタフェース10
2の読み込み要求処理部151が行う読み込み要求パケ
ット処理を表しており、ここでは自計算機は対象計算機
100であるものとして説明する。この場合、図7の説
明で示した様に計算機番号は「11111」である。
FIG. 11 is a flowchart showing a processing procedure of the read request packet processing of the present embodiment. FIG.
Is the network interface 10 of the target computer 100
2 illustrates a read request packet process performed by the read request processing unit 151 of the second embodiment. Here, the description will be given on the assumption that the own computer is the target computer 100. In this case, the computer number is "11111" as described in the description of FIG.

【0159】ステップ1100で読み込み要求処理部1
51は、メモリアドレスaddrに関する読み込み要求
パケットを受信する。ここで宛先計算機番号フィールド
701の値をto、送信元計算機番号フィールド702
の値をfrom、セキュリティキーフィールド703の
値をkey、メモリアドレスフィールド705の値をa
ddrで表すものとすると、先程のステップ903の例
の要求パケットでは以下の様になる。
In step 1100, the read request processing section 1
51 receives a read request packet related to the memory address addr. Here, the value of the destination computer number field 701 is set to, and the source computer number field 702 is set.
Is set to “from”, the value of the security key field 703 is set to “key”, and the value of the memory address field 705 is set to “a”.
Assuming that the request packet is represented by ddr, the request packet in the example of the previous step 903 is as follows.

【0160】すなわち図7の(a)のリモートメモリア
クセスパケット700を受け取る場合では、宛先計算機
番号フィールド701の値toは対象計算機100の計
算機番号「11111」、送信元計算機番号フィールド
702の値fromはダンプ計算機110の計算機番号
「22222」、セキュリティキーフィールド703の
値keyは「99999」、メモリアドレスフィールド
705の値addrは「0x4a05c1」である。な
おコマンドフィールド704の値は読み込み要求を表す
「0」である。
That is, when the remote memory access packet 700 of FIG. 7A is received, the value to of the destination computer number field 701 is the computer number “11111” of the target computer 100, and the value from of the source computer number field 702 is The computer number of the dump computer 110 is “22222”, the value key of the security key field 703 is “99999”, and the value addr of the memory address field 705 is “0x4a05c1”. Note that the value of the command field 704 is “0” indicating a read request.

【0161】このステップ1100では、toの値が自
計算機の計算機番号である場合にのみ、該パケットを受
信する。この例では自計算機(対象計算機100)の計
算機番号が「11111」であり宛先計算機番号フィー
ルド701の値は「11111」であるのでパケットを
受け取る。
In this step 1100, the packet is received only when the value of to is the computer number of the own computer. In this example, the packet is received because the computer number of the own computer (target computer 100) is "11111" and the value of the destination computer number field 701 is "11111".

【0162】ステップ1101ではセキュリティキーの
一致を確認する。具体的には、keyが自計算機のセキ
ュリティキーレジスタ150の値と等しいか否かを判定
し、一致した場合にはステップ1102に進んで処理を
続行し、一致しない場合にはパケットを破棄して処理を
終了する。
In step 1101, it is confirmed whether the security keys match. Specifically, it is determined whether or not the key is equal to the value of the security key register 150 of its own computer. If they match, the process proceeds to step 1102, and if not, the packet is discarded. The process ends.

【0163】この例ではセキュリティキーフィールド7
03の値は「99999」であり、自計算機のセキュリ
ティキーレジスタ150の値は「99999」であるの
で、このパケットを処理する様にステップ1102に進
む。
In this example, security key field 7
Since the value of 03 is “99999” and the value of the security key register 150 of the own computer is “99999”, the process proceeds to step 1102 to process this packet.

【0164】ステップ1102ではメモリリード処理を
行う。具体的にはメモリアドレスaddrに対する1バ
イトのリードを行い、メモリ内容Xを受け取る。この例
ではメモリアドレス「0x4a05c1」に対するリー
ドを行い、メモリ内容Xとしてバイト値「97」(文字
「a」のASCII値)を受け取る。
At step 1102, a memory read process is performed. Specifically, 1-byte read is performed for the memory address addr, and the memory content X is received. In this example, reading is performed for the memory address “0x4a05c1”, and the byte value “97” (the ASCII value of the character “a”) is received as the memory content X.

【0165】ステップ1103では、メモリアドレスa
ddrに関する読み込み返答パケットを送信する。ここ
で読み込み返答パケットの宛先計算機番号フィールド7
01の値はステップ1100でのfrom、送信元計算
機番号フィールド702の値は自計算機番号to、セキ
ュリティキーフィールド703の値はkey、コマンド
フィールド704の値は読み込み返答を表す「1」、メ
モリアドレスフィールド705の値はaddr、メモリ
内容フィールド706の値はXの各値となる。
At step 1103, the memory address a
Send a read response packet for ddr. Here, the destination computer number field 7 of the read reply packet
The value of 01 is from in step 1100, the value of the source computer number field 702 is the own computer number to, the value of the security key field 703 is key, the value of the command field 704 is "1" indicating a read response, and the memory address field. The value of 705 is addr, and the value of the memory content field 706 is X.

【0166】この例では図7の(b)のリモートメモリ
アクセスパケット700の様に、宛先計算機番号フィー
ルド701の値は「22222」、送信元計算機番号フ
ィールド702の値は「11111」、セキュリティキ
ーフィールド703の値は「99999」、コマンドフ
ィールド704の値は読み込み返答を表す「1」、メモ
リアドレスフィールド705の値は「0x4a5c
1」、メモリ内容フィールド706の値は「97」(文
字「a」のASCII値)となる。
In this example, like the remote memory access packet 700 of FIG. 7B, the value of the destination computer number field 701 is "22222", the value of the source computer number field 702 is "11111", and the security key field The value of 703 is “99999”, the value of the command field 704 is “1” representing a read response, and the value of the memory address field 705 is “0x4a5c”.
1 ", the value of the memory content field 706 is" 97 "(the ASCII value of the character" a ").

【0167】図12は本実施形態の読み込み返答パケッ
ト処理の処理手順を示すフローチャートである。図12
はダンプ計算機110のネットワークインタフェース1
02の読み込み返答処理部152が行う読み込み返答パ
ケット処理を表しており、ここでは自計算機がダンプ計
算機110であるものとして説明する。この場合図7の
説明で示した様に計算機番号は「22222」である。
FIG. 12 is a flowchart showing a processing procedure of the read reply packet processing of this embodiment. FIG.
Is the network interface 1 of the dump computer 110
02 indicates a read reply packet process performed by the read reply processing unit 152, and the description will be made on the assumption that the own computer is the dump computer 110. In this case, as shown in the description of FIG. 7, the computer number is “22222”.

【0168】ステップ1200で読み込み返答処理部1
52は、メモリアドレスaddrに関する読み込み返答
パケットを受信する。ステップ1103の例の読み込み
返答パケット、すなわち図7の(b)のリモートメモリ
アクセスパケット700を受け取る場合を例に取ると、
宛先計算機番号フィールド701の値toはダンプ計算
機110の計算機番号「22222」、送信元計算機番
号フィールド702の値fromは対象計算機100の
計算機番号「11111」、セキュリティキーフィール
ド703の値keyは「99999」、コマンドフィー
ルド704の値は読み込み返答を表す「1」、メモリア
ドレスフィールド705の値addrは「0x4a05
c1」、メモリ内容フィールド706の値Xは「97」
(文字「a」のASCII値)である。
In step 1200, the read response processing section 1
52 receives a read reply packet for the memory address addr. Taking the case of receiving the read reply packet in the example of step 1103, that is, the case of receiving the remote memory access packet 700 of FIG.
The value to of the destination computer number field 701 is the computer number “22222” of the dump computer 110, the value from the source computer number field 702 is the computer number “11111” of the target computer 100, and the value key of the security key field 703 is “99999”. , The value of the command field 704 is “1” representing a read response, and the value addr of the memory address field 705 is “0x4a05”.
c1 ”, the value X of the memory content field 706 is“ 97 ”
(ASCII value of the letter "a").

【0169】このステップ1200では、toの値が自
計算機の計算機番号である場合にのみ該パケットを受信
する。この例では自計算機(ダンプ計算機110)の計
算機番号が「22222」であり、宛先計算機番号フィ
ールド701の値は「22222」であるのでこのパケ
ットを受け取る。
In this step 1200, the packet is received only when the value of to is the computer number of the own computer. In this example, since the computer number of the own computer (dump computer 110) is “22222” and the value of the destination computer number field 701 is “22222”, this packet is received.

【0170】ステップ1201では、セキュリティキー
の一致を確認する。具体的には、keyが自計算機のセ
キュリティキーレジスタ150の値と等しいか否かを判
定し、一致した場合にはステップ1202に進み処理を
続行し、一致しない場合にはパケットを破棄して処理を
終了する。
In step 1201, it is confirmed whether the security keys match. Specifically, it is determined whether or not the key is equal to the value of the security key register 150 of its own computer. If they match, the process proceeds to step 1202, and if they do not match, the packet is discarded and processed. To end.

【0171】この例ではセキュリティキーフィールド7
03の値は「99999」であり、自計算機のセキュリ
ティキーレジスタ150の値は「99999」であるの
で、このパケットを処理する様にステップ1102に進
む。
In this example, security key field 7
Since the value of 03 is “99999” and the value of the security key register 150 of the own computer is “99999”, the process proceeds to step 1102 to process this packet.

【0172】ステップ1202では、受信したパケット
を読み込み要求元に渡す。読み込み要求元とはステップ
904の処理である。
At step 1202, the received packet is read and passed to the request source. The read request source is the process of step 904.

【0173】図13は本実施形態の書き込みパケット処
理の処理手順を示すフローチャートである。図13は対
象計算機100のネットワークインタフェース102の
書き込み要求処理部153が行う書き込み要求パケット
処理を表しており、ここでは自計算機が対象計算機10
0であるものとして説明する。
FIG. 13 is a flowchart showing a processing procedure of the write packet processing of the present embodiment. FIG. 13 illustrates a write request packet process performed by the write request processing unit 153 of the network interface 102 of the target computer 100.
Description will be made assuming that it is 0.

【0174】ステップ1300では、メモリアドレスa
ddrに関する書き込み要求パケットを受信する。ステ
ップ1003の例の書き込み要求パケット、すなわち図
7の(c)のリモートメモリアクセスパケット700を
受け取る場合を例に取ると、宛先計算機番号フィールド
701の値toは対象計算機100の計算機番号「11
111」、送信元計算機番号フィールド702の値fr
omはダンプ計算機110の計算機番号「2222
2」、セキュリティキーフィールド703の値keyは
「99999」、コマンドフィールド704の値は書き
込み要求を表す「2」、メモリアドレスフィールド70
5の値addrは「0xffffffffffffff
ff」、メモリ内容フィールド706の値Xは「0」で
ある。
At step 1300, the memory address a
Receive a write request packet for ddr. Taking the case of receiving the write request packet of the example of step 1003, that is, the case of receiving the remote memory access packet 700 of FIG. 7C as an example, the value to of the destination computer number field 701 is the computer number “11” of the target computer 100.
111 ”, the value fr of the source computer number field 702
om is the computer number “2222” of the dump computer 110
2), the value key of the security key field 703 is “99999”, the value of the command field 704 is “2” indicating a write request, and the memory address field 70
The value addr of 5 is “0xffffffffffffffffff
ff ”, the value X of the memory content field 706 is“ 0 ”.

【0175】このステップ1300では、toの値が自
計算機の計算機番号である場合にのみ該パケットを受信
する。この例では自計算機(対象計算機100)の計算
機番号が「11111」であり、宛先計算機番号フィー
ルド701の値は「11111」であるのでこのパケッ
トを受け取る。
In this step 1300, the packet is received only when the value of to is the computer number of the own computer. In this example, since the computer number of the own computer (target computer 100) is “11111” and the value of the destination computer number field 701 is “11111”, this packet is received.

【0176】ステップ1301ではセキュリティキーの
一致を確認する。具体的には、keyが自計算機のセキ
ュリティキーレジスタ150の値と等しいか否かを判定
し、一致した場合にはステップ1302に進み処理を続
行し、一致しない場合にはパケットを破棄して処理を終
了する。
At step 1301, it is confirmed whether the security keys match. Specifically, it is determined whether or not the key is equal to the value of the security key register 150 of its own computer. If they match, the process proceeds to step 1302, and if they do not match, the packet is discarded and processed. To end.

【0177】この例ではセキュリティキーフィールド7
03の値は「99999」であり、自計算機のセキュリ
ティキーレジスタ150の値は「99999」であるの
で、このパケットを処理する様にステップ1302に進
む。
In this example, security key field 7
Since the value of 03 is "99999" and the value of the security key register 150 of the own computer is "99999", the flow advances to step 1302 to process this packet.

【0178】ステップ1302ではメモリライト処理を
行う。具体的には、メモリアドレスaddrに対して1
バイトのXをライトする。この例では、アドレス「0x
ffffffffffffffff」に対する値「0」
のライトを行う。
At step 1302, a memory write process is performed. Specifically, 1 for the memory address addr
Write byte X. In this example, the address “0x
"0" for "ffffffffffffffffff"
Do the light.

【0179】これはプロセッサ101の制御レジスタに
リセットコマンドを書き込むことになるので、対象計算
機100のプロセッサ101はリセットされる。
This means that a reset command is written in the control register of the processor 101, so that the processor 101 of the target computer 100 is reset.

【0180】以上、対象計算機100が1台かつダンプ
計算機110が1台という構成で説明したが、ネットワ
ーク120及び生存信号線130に複数計算機を接続可
能とすれば、対象計算機100を複数台の構成とした
り、ダンプ計算機110を複数台の構成とすることが可
能である。また同時でなければ、同一の計算機が対象計
算機100になることもダンプ計算機110になること
も可能である。
The above description has been made in connection with one target computer 100 and one dump computer 110. However, if a plurality of computers can be connected to the network 120 and the surviving signal line 130, the target computer 100 may have a plurality of target computers. Or a configuration in which the number of dump computers 110 is plural. If they are not at the same time, the same computer can be the target computer 100 or the dump computer 110.

【0181】以上説明した様に本実施形態の計算機シス
テムによれば、ダンプ計算機は障害を起こした対象計算
機のメモリの予め規定された特定領域の内容を取得した
後に対象計算機をリブートさせるので、障害を起こした
対象計算機のリブートに費す時間を短縮して当該対象計
算機が使用不可である時間を短くすることが可能であ
る。
As described above, according to the computer system of this embodiment, the dump computer reboots the target computer after acquiring the contents of the predetermined specific area of the memory of the target computer in which the failure has occurred. It is possible to reduce the time spent for rebooting the target computer that has caused the problem and reduce the time during which the target computer is unavailable.

【0182】(実施形態2)以下に障害情報取得対象の
計算機のメモリ内容を他計算機のメモリに分散して転送
した後、分散して転送したメモリ内容を収集して補助記
憶装置に格納する実施形態2の計算機システムについて
説明する。
(Embodiment 2) Hereinafter, after distributing the memory contents of the computer from which the failure information is to be acquired to the memory of another computer and transferring it, the distributed and transferred memory contents are collected and stored in the auxiliary storage device. The computer system according to the second embodiment will be described.

【0183】図14は本実施形態の疎結合計算機システ
ムの概略構成を示す図である。図14に示す様に本実施
形態の対象計算機1402(1)は、メモリ領域分割処
理部1411と、全ダンプ収集処理部1413と、パケ
ット送受信処理部1414(1)とを有している。
FIG. 14 is a diagram showing a schematic configuration of a loosely-coupled computer system according to this embodiment. As shown in FIG. 14, the target computer 1402 (1) of the present embodiment includes a memory area division processing unit 1411, an all dump collection processing unit 1413, and a packet transmission / reception processing unit 1414 (1).

【0184】メモリ領域分割処理部1411はメインメ
モリ1406(1)を複数のメモリ領域に分割し、分割
したメモリ領域と複数の計算機1402のネットワーク
アドレスとを対応付けた情報をメモリ領域分割表格納領
域1412に格納し、障害が発生した対象計算機140
2(1)のメインメモリ1406(1)の内容を障害情
報取得計算機1402(2〜N)の分割ダンプ格納領域
1407に格納する為の分割ダンプ格納要求メッセージ
をメモリ領域分割表格納領域1412の内容に応じて作
成する処理部である。
The memory area division processing section 1411 divides the main memory 1406 (1) into a plurality of memory areas, and stores information in which the divided memory areas are associated with the network addresses of the plurality of computers 1402 in the memory area division table storage area. 1412, the target computer 140 in which the failure occurred.
2 (1), a divided dump storage request message for storing the contents of the main memory 1406 (1) in the divided dump storage area 1407 of the failure information acquisition computers 1402 (2 -N) is stored in the memory area divided table storage area 1412. Is a processing unit created in accordance with.

【0185】全ダンプ収集処理部1413は障害情報取
得計算機1402(2〜N)の分割ダンプ格納領域14
07に格納したメインメモリ1406(1)の内容を収
集する為の分割ダンプ収集要求メッセージを作成し、メ
インメモリ1406(1)の内容を有する分割ダンプ収
集応答メッセージからメインメモリ1406(1)の内
容を復元して全ダンプ格納領域1426に格納する処理
部である。
The all-dump collection processing unit 1413 stores the divided dump storage area 14 of the failure information acquisition computer 1402 (2-N).
07, a divided dump collection request message for collecting the contents of the main memory 1406 (1) stored in the main memory 1406 (1) is created, and the contents of the main memory 1406 (1) are obtained from the divided dump collection response message having the contents of the main memory 1406 (1). Is a processing unit for restoring and restoring in the entire dump storage area 1426.

【0186】パケット送受信処理部1414(1)はネ
ットワーク1418を介して前記分割ダンプ格納要求メ
ッセージ、前記分割ダンプ収集要求メッセージ及び分割
ダンプ収集応答メッセージを障害情報取得計算機140
2(2〜N)との間で送受信する処理部である。
The packet transmission / reception processing unit 1414 (1) transmits the divided dump storage request message, the divided dump collection request message, and the divided dump collection response message via the network 1418 to the failure information acquisition computer 140.
2 (2 to N).

【0187】対象計算機1402(1)をメモリ領域分
割処理部1411、全ダンプ収集処理部1413及びパ
ケット送受信処理部1414(1)として機能させる為
のプログラムは、CD−ROMやROM等の記録媒体に
記録されて実行されるものとする。なお前記プログラム
を記録する媒体はCD−ROMやROM以外の他の媒体
でも良い。
A program for causing the target computer 1402 (1) to function as the memory area division processing unit 1411, the entire dump collection processing unit 1413, and the packet transmission / reception processing unit 1414 (1) is stored in a recording medium such as a CD-ROM or ROM. It shall be recorded and executed. The medium on which the program is recorded may be a medium other than a CD-ROM or a ROM.

【0188】障害情報取得計算機1402(2)は、パ
ケット送受信処理部1414(2)と、分割ダンプ格納
処理部1421と、分割ダンプ取出処理部1419とを
有している。
The fault information acquisition computer 1402 (2) has a packet transmission / reception processing unit 1414 (2), a divided dump storage processing unit 1421, and a divided dump extraction processing unit 1419.

【0189】パケット送受信処理部1414(2)はネ
ットワーク1418を介して前記分割ダンプ格納要求メ
ッセージ、前記分割ダンプ収集要求メッセージ及び分割
ダンプ収集応答メッセージを対象計算機1402(1)
との間で送受信する処理部である。
The packet transmission / reception processing unit 1414 (2) sends the divided dump storage request message, the divided dump collection request message, and the divided dump collection response message via the network 1418 to the target computer 1402 (1).
This is a processing unit that transmits and receives data to and from the server.

【0190】分割ダンプ格納処理部1421は前記分割
ダンプ格納要求メッセージに含まれるメインメモリ14
06(1)の内容を障害情報取得計算機1402(2)
の分割ダンプ格納領域1407に格納する処理部であ
る。
The divided dump storage processing section 1421 is the main memory 14 included in the divided dump storage request message.
06 (1) to the failure information acquisition computer 1402 (2)
This is a processing unit for storing in the divided dump storage area 1407.

【0191】分割ダンプ取出処理部1419は分割ダン
プ格納領域1407に格納したダンプデータを取り出し
て、前記分割ダンプ収集要求メッセージの内容に応じて
前記分割ダンプ収集応答メッセージを作成する処理部で
ある。
The split dump extraction processing unit 1419 is a processing unit that extracts dump data stored in the split dump storage area 1407 and creates the split dump collection response message according to the contents of the split dump collection request message.

【0192】障害情報取得計算機1402(2)をパケ
ット送受信処理部1414(2)、分割ダンプ格納処理
部1421及び分割ダンプ取出処理部1419として機
能させる為のプログラムは、ROM等の記録媒体に記録
されて実行されるものとする。なお前記プログラムを記
録する媒体はROM以外の他の媒体でも良い。
A program for causing the failure information acquisition computer 1402 (2) to function as the packet transmission / reception processing unit 1414 (2), the divided dump storage processing unit 1421, and the divided dump extraction processing unit 1419 is recorded on a recording medium such as a ROM. Shall be executed. The medium for recording the program may be any medium other than the ROM.

【0193】本実施形態では、対象計算機1402
(1)が、メインメモリ1406(1)の内容を障害情
報取得計算機1402(2〜N)から収集する全ダンプ
収集計算機としても動作するものとして説明するが、メ
モリ領域分割処理部1411と全ダンプ収集処理部14
13とを異なる計算機1402にインストールし、両者
を別の装置構成としても良い。
In this embodiment, the target computer 1402
(1) is described as operating as a full dump collection computer that collects the contents of the main memory 1406 (1) from the failure information acquisition computers 1402 (2-N). Collection processing unit 14
13 may be installed in a different computer 1402, and both may have different device configurations.

【0194】図14に示す様に疎結合計算機システム1
401は、ネットワーク1418を介して接続された複
数の計算機1402(1〜N)から構成される。ネット
ワーク1418は、計算機間でデータを交換する通信メ
ッセージの伝送路である。
As shown in FIG. 14, loosely-coupled computer system 1
Reference numeral 401 denotes a plurality of computers 1402 (1 to N) connected via a network 1418. The network 1418 is a transmission path for communication messages for exchanging data between computers.

【0195】計算機1402は、障害が発生した際に、
障害情報取得対象の対象計算機1402(1)と、対象
計算機1402(1)から障害情報を受信する障害情報
取得計算機1402(2〜N)の2種類に分類される。
When a failure occurs, the computer 1402
The information is classified into two types, a target computer 1402 (1) from which the failure information is to be acquired and a failure information acquisition computer 1402 (2 to N) which receives the failure information from the target computer 1402 (1).

【0196】計算機1402(1〜N)は、プログラム
命令列やデータを永続的に格納する磁気ディスク等の補
助記憶装置1403(1〜N)、プログラム命令列やデ
ータを格納するメインメモリ1406(1〜N)、メイ
ンメモリ1406(1〜N)に格納したプログラム命令
列を実行するプロセッサ1405(1〜N)、ダンプ機
能付きネットワークアダプタ1409(1〜N)、計算
機1402(1〜N)の各ブロック間の伝送路であるシ
ステムバス1408(1〜N)から構成される。
The computers 1402 (1 to N) include an auxiliary storage device 1403 (1 to N) such as a magnetic disk for permanently storing a program command sequence and data, and a main memory 1406 (1) for storing the program command sequence and data. To N), a processor 1405 (1 to N) that executes a program instruction sequence stored in the main memory 1406 (1 to N), a network adapter 1409 (1 to N) with a dump function, and a computer 1402 (1 to N). It comprises a system bus 1408 (1-N) which is a transmission path between blocks.

【0197】ダンプ機能付きネットワークアダプタ14
09(1〜N)は、プログラム命令列やデータを格納す
るメモリ1410(1〜N)、メモリ1410に格納し
たプログラム命令列を実行するI/Oプロセッサ141
6(1〜N)、ネットワーク1418に対してパケット
を送受信するネットワークインタフェース1417(1
〜N)、ネットワークアダプタ1409(1〜N)を構
成する各ブロック間の伝送路であるI/Oシステムバス
1415から構成される。ここで、メモリ1410は、
メモリ内容を永続的に格納する為に、バッテリバックア
ップや、書き換え可能な読み出し専用メモリ(P-ROM)等
のデバイスを用いても良い。
Network adapter 14 with dump function
09 (1 to N) denotes a memory 1410 (1 to N) for storing a program instruction sequence and data, and an I / O processor 141 for executing the program instruction sequence stored in the memory 1410.
6 (1 to N), a network interface 1417 (1
To N) and an I / O system bus 1415 which is a transmission path between each block constituting the network adapter 1409 (1 to N). Here, the memory 1410
In order to permanently store the memory contents, a device such as a battery backup or a rewritable read-only memory (P-ROM) may be used.

【0198】対象計算機1402(1)の補助記憶装置
1403(1)には、障害が発生した際のメモリ内容を
格納する全ダンプ格納領域1426と、疎結合計算機シ
ステム1401を構成する全ての計算機1402のネッ
トワークアドレスを保持する疎結合計算機構成表140
4を持つ。
In the auxiliary storage device 1403 (1) of the target computer 1402 (1), the entire dump storage area 1426 for storing the memory contents when a failure occurs, and all the computers 1402 constituting the loosely-coupled computer system 1401 -Coupled computer configuration table 140 holding network addresses of
Have four.

【0199】メインメモリ1406(1)は、オペレー
ティングシステムの命令列やデータを格納するOS格納
領域1422(1)、ユーザプログラムの命令列やデー
タを格納するユーザプログラム格納領域1425(1)
を有しており、OS格納領域1422(1)には、計算
機1402で障害が発生した時にメモリ内容を格納する
為に呼び出される障害処理部1423や、障害が発生し
た時に格納したメモリ内容を障害解析ツールが解析可能
な様にファイルに変換するダンプファイル生成処理部1
424を格納している。
The main memory 1406 (1) has an OS storage area 1422 (1) for storing instruction strings and data of the operating system, and a user program storage area 1425 (1) for storing instruction strings and data of user programs.
In the OS storage area 1422 (1), the failure processing unit 1423 called to store the memory contents when a failure occurs in the computer 1402, and the memory contents stored when the failure occurs are stored in the OS storage area 1422 (1). Dump file generation processing unit 1 that converts it into a file so that the analysis tool can analyze it
424 are stored.

【0200】本実施形態の障害処理部1423はメモリ
領域分割処理部1411を有し、またダンプファイル生
成処理部1424は全ダンプ収集処理部1413を有し
ている。障害処理部1423及びダンプファイル生成処
理部1424のメモリ領域分割処理部1411及び全ダ
ンプ収集処理部1413以外の従来の処理については、
各々「Panic! UNIXシステムクラッシュの追
跡と対策」、初版、ISBN4−7561−1912−
3の29頁、39頁に記載のpanic()ルーチン、
savecore プログラムに記載されている。
[0200] The failure processing unit 1423 of this embodiment has a memory area division processing unit 1411, and the dump file generation processing unit 1424 has a full dump collection processing unit 1413. For conventional processing other than the failure processing unit 1423 and the memory area division processing unit 1411 and the all dump collection processing unit 1413 of the dump file generation processing unit 1424,
"Panic! UNIX System Crash Tracking and Countermeasures", First Edition, ISBN 4-7561-1912-
3, page 29, page 39, panic () routine,
Documented in the savecore program.

【0201】対象計算機1402(1)のダンプ機能付
きネットワークアダプタ1409(1)は、メモリ領域
分割処理部1411が分割したメインメモリ1406
(1)の複数のメモリ領域と複数の計算機1402のネ
ットワークアドレスとを対応付けた情報を格納するメモ
リ領域分割表格納領域1412、ネットワーク1418
を介して他の計算機1402との間で通信メッセージを
送受信するパケット送受信処理部1414(1)をメモ
リ1410(1)に格納している。
The network adapter 1409 (1) with the dump function of the target computer 1402 (1) is the main memory 1406 divided by the memory area division processing unit 1411.
(1) a memory area division table storage area 1412 for storing information in which a plurality of memory areas are associated with network addresses of a plurality of computers 1402, and a network 1418
A packet transmission / reception processing unit 1414 (1) that transmits / receives a communication message to / from another computer 1402 via a computer is stored in the memory 1410 (1).

【0202】障害情報取得計算機1402(2)のメイ
ンメモリ1406(2)は、オペレーティングシステム
の命令列やデータを格納するOS格納領域1422
(2)、ユーザプログラムの命令列やデータを格納する
ユーザプログラム格納領域1425(2)、対象計算機
1402(1)のメモリ領域の一部を格納する分割ダン
プ格納領域1407を有している。
The main memory 1406 (2) of the failure information acquisition computer 1402 (2) has an OS storage area 1422 for storing instruction strings and data of the operating system.
(2) It has a user program storage area 1425 (2) for storing instruction sequences and data of the user program, and a divided dump storage area 1407 for storing a part of the memory area of the target computer 1402 (1).

【0203】障害情報取得計算機1402(2)のダン
プ機能付きネットワークアダプタ1409(2)は、対
象計算機1402(1)が送信する通信メッセージに含
まれるデータをメインメモリ1406(2)の分割ダン
プ格納領域1407に格納する分割ダンプ格納処理部1
421と、分割ダンプ格納領域1407に格納したデー
タを通信メッセージとして送信する分割ダンプ取出処理
部1419と、ネットワーク1418を介して他の計算
機1402との間で通信メッセージを送受信するパケッ
ト送受信処理部1414(2)をメモリ1410(2)
に格納している。
The network adapter 1409 (2) with a dump function of the failure information acquisition computer 1402 (2) stores data included in a communication message transmitted by the target computer 1402 (1) in the divided dump storage area of the main memory 1406 (2). Split dump storage processing unit 1 stored in 1407
421, a divided dump extraction processing unit 1419 that transmits data stored in the divided dump storage area 1407 as a communication message, and a packet transmission / reception processing unit 1414 (which transmits and receives a communication message to and from another computer 1402 via the network 1418) 2) to the memory 1410 (2)
Is stored in

【0204】図15は本実施形態の疎結合計算機構成表
1404の一例を示す図である。疎結合計算機構成表1
404は、表中の各行に一意な識別子である構成表イン
デックス1502、疎結合計算機システム1401を構
成する計算機1402のネットワークアドレス150
3、ネットワークアドレス1503の示す値が自計算機
のものであるか否かを示す自計算機フラグ1504から
構成される。自計算機フラグ1504には、ネットワー
クアドレス1503の値が自計算機のものである場合に
は識別子Yes、その他の場合には識別子Noが格納され
る。
FIG. 15 is a diagram showing an example of the loosely-coupled computer configuration table 1404 according to this embodiment. Loosely coupled computer configuration table 1
Reference numeral 404 denotes a configuration table index 1502, which is a unique identifier for each row in the table, and a network address 150 of the computer 1402 configuring the loosely-coupled computer system 1401.
3. It is composed of an own computer flag 1504 indicating whether or not the value indicated by the network address 1503 is that of the own computer. The own computer flag 1504 stores an identifier Yes when the value of the network address 1503 is that of the own computer, and stores an identifier No in other cases.

【0205】図16は本実施形態の分割ダンプ格納領域
1407の一例を示す図である。分割ダンプ格納領域1
407は、メインメモリ1406(1)の物理アドレス
であるアドレス1602、メモリ領域分割処理部141
1がメインメモリ1406(1)を複数に分割した際の
1つの領域の大きさを示すサイズ1603、対象計算機
1402(1)のアドレス1602から、サイズ160
3が示すバイト数の分割ダンプデータを格納するデータ
1604から構成される。
FIG. 16 is a diagram showing an example of the divided dump storage area 1407 of this embodiment. Split dump storage area 1
Reference numeral 407 denotes an address 1602 which is a physical address of the main memory 1406 (1);
1 indicates a size 1603 indicating the size of one area when the main memory 1406 (1) is divided into a plurality of areas, and a size 160 from the address 1602 of the target computer 1402 (1).
3 is composed of data 1604 storing the divided dump data of the number of bytes indicated by 3.

【0206】図17は本実施形態のメモリ領域分割表格
納領域1412の一例を示す図である。メモリ領域分割
表格納領域1412は、表中の各行に一意な識別子であ
る分割表インデックス1702、メインメモリ1406
(1)の物理アドレスであるアドレス1703、メモリ
領域分割処理部1411がメインメモリ1406(1)
を複数に分割した際の1つの領域の大きさを示すサイズ
1704、アドレス1703とサイズ1704が示すメ
インメモリ1406(1)の内容を含む通信メッセージ
の送信先計算機を示すネットワークアドレス1705か
ら構成される。
FIG. 17 is a diagram showing an example of the memory area division table storage area 1412 of the present embodiment. The memory area partition table storage area 1412 includes a partition table index 1702, which is a unique identifier for each row in the table, and a main memory 1406.
The address 1703, which is the physical address of (1), and the memory area division processing unit 1411 are operated by the main memory 1406 (1).
Is composed of a size 1704 indicating the size of one area when the is divided into a plurality, an address 1703, and a network address 1705 indicating a transmission destination computer of a communication message including the contents of the main memory 1406 (1) indicated by the size 1704. .

【0207】図18は本実施形態の要求/応答メッセー
ジの一例を示す図である。分割ダンプ格納要求メッセー
ジ1809は、メモリ領域分割処理部1411が分割し
たメインメモリ1406(1)の内容を、対象計算機1
402(1)が他計算機に送信する際に使用するメッセ
ージである。分割ダンプ格納要求メッセージ1809
は、メッセージヘッダ1802、ダンプデータ1813
から構成される。
FIG. 18 is a diagram showing an example of the request / response message according to the present embodiment. The split dump storage request message 1809 stores the contents of the main memory 1406 (1) divided by the memory area division processing unit 1411 in the target computer 1
402 (1) is a message used when transmitting to another computer. Split dump storage request message 1809
Is the message header 1802, the dump data 1813
Consists of

【0208】メッセージヘッダ1802は、送信先計算
機を示す送信先アドレス1804、送信元計算機を示す
送信元アドレス1805、当該通信メッセージが分割ダ
ンプ格納要求メッセージ1809であることを示すメッ
セージ識別子1806からなる。
The message header 1802 includes a destination address 1804 indicating the destination computer, a source address 1805 indicating the source computer, and a message identifier 1806 indicating that the communication message is a split dump storage request message 1809.

【0209】ダンプデータ1813は、メインメモリ1
406(1)の物理アドレスを示すアドレス1810、
ダンプデータ1813に含まれるデータ量を示すサイズ
1811、メインメモリ1406(1)のアドレス18
10からサイズ1811で示される領域の内容であるデ
ータ1812からなる。
The dump data 1813 is stored in the main memory 1
An address 1810 indicating the physical address of 406 (1);
The size 1811 indicating the amount of data included in the dump data 1813, the address 18 of the main memory 1406 (1)
10 to data 1812 which is the contents of the area indicated by the size 1811.

【0210】分割ダンプ収集要求メッセージ1814
は、ダンプファイル生成処理部1424により障害発生
時のメモリ内容を含むファイルを生成する際、全ダンプ
収集処理部1413が複数の計算機1402に分散して
格納したメモリ内容を参照する為に送信するメッセージ
である。
[0210] Split dump collection request message 1814
Is a message transmitted by the all dump collection processing unit 1413 to refer to the memory contents distributed and stored in the plurality of computers 1402 when the dump file generation processing unit 1424 generates a file including the memory contents at the time of the failure occurrence. It is.

【0211】分割ダンプ収集要求メッセージ1814
は、メッセージヘッダ1802のみから構成される。メ
ッセージヘッダ1802のメッセージ識別子1806に
は、当該通信メッセージが分割ダンプ収集要求メッセー
ジ1814であることを示す識別子が格納される。
[0211] Split dump collection request message 1814
Is composed only of the message header 1802. The message identifier 1806 of the message header 1802 stores an identifier indicating that the communication message is the split dump collection request message 1814.

【0212】分割ダンプ収集応答メッセージ1815
は、分割ダンプ収集要求メッセージ1814を受信した
計算機1402が、分割ダンプ収集要求メッセージ18
14の送信元計算機に返信する為のメッセージである。
[0212] Split dump collection response message 1815
The computer 1402 that has received the split dump collection request message 1814
This is a message for replying to the 14 source computer.

【0213】分割ダンプ収集応答メッセージ1815
は、メッセージヘッダ1802、ダンプデータ1813
から構成される。該メッセージヘッダ1802のメッセ
ージ識別子1806には、当該通信メッセージが分割ダ
ンプ収集応答メッセージ1815であることを示す識別
子が格納される。ダンプデータ1813には、分割ダン
プ格納領域1407に格納されているアドレス160
2、サイズ1603及びデータ1604の内容が格納さ
れる。
[0213] Split dump collection response message 1815
Is the message header 1802, the dump data 1813
Consists of The message identifier 1806 of the message header 1802 stores an identifier indicating that the communication message is the divided dump collection response message 1815. The dump data 1813 includes the address 160 stored in the divided dump storage area 1407.
2, the contents of the size 1603 and the data 1604 are stored.

【0214】本実施形態の疎結合計算機システム140
1において、対象計算機1402(1)で障害が発生す
ると、メモリ領域分割処理部1411が、対象計算機1
402(1)のオペレーティングシステムの障害処理中
に呼び出される。
The loosely-coupled computer system 140 of this embodiment
In 1, when a failure occurs in the target computer 1402 (1), the memory area division processing unit 1411 causes the target computer 1
Called during the error handling of the operating system in 402 (1).

【0215】なお本実施形態中では、メインメモリ14
06(1)の内容全てを対象計算機1402(1)以外
の計算機1402(2〜N)に分散させるものとして説
明しているが、分散させるメモリ内容をメインメモリ1
406(1)の一部としても良い。また、メインメモリ
1406(1)の内容を分散させる障害情報取得計算機
1402(2〜N)を対象計算機1402(1)以外の
全ての計算機1402として説明しているが、対象計算
機1402(1)以外の一部の計算機1402としても
良い。
In this embodiment, the main memory 14
It is described that all the contents of 06 (1) are distributed to the computers 1402 (2 to N) other than the target computer 1402 (1).
It may be a part of 406 (1). Further, the failure information acquisition computers 1402 (2-N) that distribute the contents of the main memory 1406 (1) are described as all the computers 1402 other than the target computer 1402 (1), but other than the target computer 1402 (1). May be a part of the computer 1402.

【0216】図19は本実施形態の対象計算機1402
(1)のメモリ領域分割処理部1411の処理概要を示
すPAD図である。まず、ステップ1901の処理1では、
疎結合計算機構成表1404を参照し、疎結合計算機シ
ステム1401を構成している計算機1402の数を調
べて構成ノード数とする。処理2では、処理1で得た構成
ノード数から「1」だけ減じた数を分割数とする。なお
ここで任意の分割数をオペレータから入力するものとし
ても良い。処理3では、メインメモリ1406(1)の
大きさを処理2で得た分割数で割った数を分割単位とす
る。処理4では、メインメモリ1406(1)の参照ア
ドレスとしてその先頭アドレスの「0」を設定する。処
理5では、インデックスを「1」とする。
FIG. 19 shows the target computer 1402 of this embodiment.
FIG. 14 is a PAD diagram illustrating an outline of processing of a memory area division processing unit 1411 in (1). First, in process 1 of step 1901,
With reference to the loosely-coupled computer configuration table 1404, the number of computers 1402 constituting the loosely-coupled computer system 1401 is checked to determine the number of constituent nodes. In process 2, the number obtained by subtracting “1” from the number of constituent nodes obtained in process 1 is set as the number of divisions. Here, an arbitrary number of divisions may be input from the operator. In the process 3, the number obtained by dividing the size of the main memory 1406 (1) by the number of divisions obtained in the process 2 is set as a division unit. In the process 4, the leading address “0” is set as the reference address of the main memory 1406 (1). In process 5, the index is set to “1”.

【0217】ステップ1902では、前記アドレスがメ
インメモリ1406(1)の終了アドレスを超えない
間、ステップ1903及びステップ1904を繰り返
す。
At step 1902, steps 1903 and 1904 are repeated while the address does not exceed the end address of the main memory 1406 (1).

【0218】ステップ1903では、メモリ領域分割表
格納領域1412においてインデックスが対応する行の
アドレス1703及びサイズ1704にアドレスと分割
単位の数値を記録する。
In step 1903, the address and the numerical value of the division unit are recorded in the address 1703 and the size 1704 of the row corresponding to the index in the memory area division table storage area 1412.

【0219】ステップ1904の処理1では、アドレス
が示す数値に分割単位を加えた数値をアドレスに設定す
る。処理2では、インデックスが示す数値に「1」を加
えた数値をインデックスに設定する。
In processing 1 of step 1904, a numerical value obtained by adding a division unit to the numerical value indicated by the address is set in the address. In process 2, a value obtained by adding “1” to the value indicated by the index is set as the index.

【0220】ステップ1905の処理1では、疎結合計
算機構成表1404から自計算機フラグ1504を参照
して、自計算機を除いた他の計算機1402のネットワ
ークアドレス1503のリストを作成してアドレスリス
トとする。ステップ1905の処理2では、インデック
スを「1」とする。
In the processing 1 of step 1905, a list of network addresses 1503 of the other computers 1402 except the own computer is created by referring to the own computer flag 1504 from the loosely-coupled computer configuration table 1404, and is used as an address list. In processing 2 of step 1905, the index is set to “1”.

【0221】ステップ1906では、インデックスが分
割数を超えない間、ステップ1907、ステップ190
9、ステップ1910及びステップ1911を繰り返
す。
In step 1906, while the index does not exceed the number of divisions, steps 1907 and 190
9. Steps 1910 and 1911 are repeated.

【0222】ステップ1907では、アドレスリストの
特定の行を指すインデックスが空リストを指しているど
うかを判断し、空リストの場合にはステップ1908を
実行する。ステップ1908では、ステップ1905の
処理1と同様に、自計算機を除いた他の計算機1402
のネットワークアドレス1503のリストを作成して、
これを当該インデックスが指すアドレスリストとする。
これらの処理は、ステップ1901で分割数を任意の数
とした場合に、インデックスがアドレスリストの範囲を
超えたときの処理を表している。
At step 1907, it is determined whether or not the index pointing to a specific line of the address list points to an empty list. If the index is an empty list, step 1908 is executed. In step 1908, similarly to the processing 1 in step 1905, the other computers 1402 except for the own computer
Create a list of network addresses 1503 for
This is an address list indicated by the index.
These processes represent processes when the index exceeds the range of the address list when the division number is set to an arbitrary number in step 1901.

【0223】ステップ1909では、メモリ領域分割表
格納領域1412においてインデックスが指す行のネッ
トワークアドレス1705に、アドレスリストから1つ
のネットワークアドレス1503を取り出して登録す
る。
At step 1909, one network address 1503 is taken out from the address list and registered in the network address 1705 of the row indicated by the index in the memory area division table storage area 1412.

【0224】ステップ1910では、メモリ領域分割表
格納領域1412においてインデックスが指す行のアド
レス1703及びサイズ1704を参照し、それらが示
すメインメモリ1406(1)の内容を参照し、分割ダ
ンプ格納要求メッセージ1809のダンプデータ181
3を作成する。
In step 1910, the address of the row 1703 and the size 1704 indicated by the index in the memory area division table storage area 1412 are referred to, the contents of the main memory 1406 (1) indicated by these are referred to, and the divided dump storage request message 1809 is referred to. Dump data 181
Create 3.

【0225】またステップ1910では、疎結合計算機
構成表1404から自計算機のネットワークアドレス1
503を参照して送信元アドレス1805とし、メモリ
領域分割表格納領域1412においてインデックスが指
す行のネットワークアドレス1705を送信先アドレス
1804としてメッセージヘッダ1802を作成し、作
成した分割ダンプ格納要求メッセージ1809をパケッ
ト送受信処理部1414により送信する。ステップ19
11では、インデックスに「1」を加えた数をインデッ
クスとする。
At step 1910, the network address 1 of the own computer is obtained from the loosely-coupled computer configuration table 1404.
A message header 1802 is created by referring to the source address 1805 with reference to 503, the network address 1705 of the row indicated by the index in the memory area division table storage area 1412 is set as the destination address 1804, and the created divided dump storage request message 1809 is packetized. The data is transmitted by the transmission / reception processing unit 1414. Step 19
At 11, the index is obtained by adding "1" to the index.

【0226】ステップ1906での繰り返し処理が終了
すると、ステップ1912ではメモリ領域分割処理部1
411を呼び出した処理部に制御を戻し、障害処理部1
423の処理により対象計算機1402(1)はリブー
トを行う。
When the repetition processing in step 1906 ends, in step 1912 the memory area division processing unit 1
Control is returned to the processing unit that called 411, and the failure processing unit 1
By the processing of 423, the target computer 1402 (1) performs a reboot.

【0227】本実施形態の疎結合計算機システム140
1において、対象計算機1402(1)で障害が発生す
ると、障害情報取得計算機1402(2〜N)は、メモ
リ領域分割処理部1411の処理により送信された分割
ダンプ格納要求メッセージ1809を受信する。
The loosely-coupled computer system 140 of this embodiment
In 1, when a failure occurs in the target computer 1402 (1), the failure information acquisition computers 1402 (2 -N) receive the split dump storage request message 1809 transmitted by the processing of the memory area division processing unit 1411.

【0228】図20は本実施形態の障害情報取得計算機
1402(2)の分割ダンプ格納処理部1421の処理
概要を示すPAD図である。分割ダンプ格納処理部142
1は、ステップ2001にて、ステップ2002及びス
テップ2003を繰り返す。
FIG. 20 is a PAD diagram showing an outline of the processing of the divided dump storage processing unit 1421 of the failure information acquisition computer 1402 (2) of this embodiment. Split dump storage processing unit 142
1 repeats Step 2002 and Step 2003 in Step 2001.

【0229】ステップ2002では、分割ダンプ格納要
求メッセージ1809が到着するまで待ち、分割ダンプ
格納要求メッセージ1809が到着すると次のステップ
に進む。ステップ2003では、分割ダンプ格納要求メ
ッセージ1809からダンプデータ1813を取り出
し、分割ダンプ格納領域1407に格納する。
In step 2002, the process waits until the split dump storage request message 1809 arrives. When the split dump storage request message 1809 arrives, the process proceeds to the next step. In step 2003, the dump data 1813 is extracted from the split dump storage request message 1809 and stored in the split dump storage area 1407.

【0230】本実施形態の全ダンプ収集処理部1413
は、障害が発生し、対象計算機1402(1)が再起動
処理を完了した後、ユーザ若しくはオペレーティングシ
ステムが障害の発生した時のメモリ内容を解析する為に
ダンプファイル生成処理部1424中に呼び出される。
[0230] All dump collection processing unit 1413 of this embodiment.
Is called by the dump file generation processing unit 1424 after the target computer 1402 (1) has completed the restart processing after the failure has occurred and the user or the operating system has analyzed the memory contents when the failure occurred. .

【0231】なお本実施形態中では、全ダンプ収集処理
部1413の処理を行う全ダンプ収集計算機を対象計算
機1402(1)としているが、対象計算機1402
(1)以外の他の計算機1402で全ダンプ収集処理部
1413を実行して対象計算機1402(1)のメモリ
内容を解析するものとしてもよい。
In the present embodiment, the target computer 1402 (1) is the target dump computer which performs the processing of the target dump processing unit 1413.
The computer 1402 other than (1) may execute the all dump collection processing unit 1413 to analyze the memory contents of the target computer 1402 (1).

【0232】図21は本実施形態の対象計算機1402
(1)の全ダンプ収集処理部1413の処理概要を示す
PAD図である。まずステップ2101では、インデック
スを「1」とする。ステップ2102では、インデック
スが分割数を超えない間、ステップ2103、ステップ
2104、ステップ2105を繰り返す。
FIG. 21 shows a target computer 1402 of this embodiment.
The processing outline of the (1) all dump collection processing unit 1413 is shown.
It is a PAD diagram. First, in step 2101, the index is set to “1”. In step 2102, steps 2103, 2104, and 2105 are repeated while the index does not exceed the number of divisions.

【0233】ステップ2103では、分割ダンプ収集要
求メッセージ1814を作成する為、メモリ領域分割表
格納領域1412において、インデックスが指す行のネ
ットワークアドレス1705を送信先アドレス180
4、自計算機のネットワークアドレス1503を送信元
アドレス1805とする。
In step 2103, the network address 1705 of the row indicated by the index in the memory area division table storage area 1412 is set to the destination address 180 in order to create the divided dump collection request message 1814.
4. The network address 1503 of the host computer is set as the source address 1805.

【0234】ステップ2104では、ステップ2103
で作成した分割ダンプ収集要求メッセージ1814をパ
ケット送受信処理部1414(1)にて送信し、分割ダ
ンプ収集応答メッセージ1815を障害情報取得計算機
1402(2〜N)から受信してダンプデータ1813
を全ダンプ格納領域1426に格納する。ステップ21
05では、インデックスの値を「1」だけ増加する。
At step 2104, step 2103
The packet transmission / reception processing unit 1414 (1) transmits the divided dump collection request message 1814 created in the above, and receives the divided dump collection response message 1815 from the failure information acquisition computer 1402 (2-N) to dump data 1813.
Is stored in the entire dump storage area 1426. Step 21
At 05, the value of the index is increased by "1".

【0235】ステップ2102での繰り返し処理が終了
すると、ステップ2106では全ダンプ収集処理部14
13を呼び出した処理部に戻る。
When the repetitive processing in step 2102 is completed, in step 2106, the entire dump collection processing section 14
The process returns to the processing unit that called out the process No. 13.

【0236】本実施形態の疎結合計算機システム140
1の障害情報取得計算機1402(2〜N)は、分割ダ
ンプ収集要求メッセージ1814を受信すると、格納し
ている対象計算機1402(1)のメモリ内容を分割ダ
ンプ取出処理部1419により応答する。
The loosely-coupled computer system 140 of this embodiment
Upon receiving the split dump collection request message 1814, the first failure information acquisition computer 1402 (2-N) responds with the divided dump extraction processing unit 1419 about the stored memory contents of the target computer 1402 (1).

【0237】図22は本実施形態の障害情報取得計算機
1402(2)の分割ダンプ取出処理部1419の処理
概要を示すPAD図である。分割ダンプ取出処理部141
9は、ステップ2201にて、ステップ2202、ステ
ップ2203、ステップ2204を繰り返す。
FIG. 22 is a PAD diagram showing an outline of the processing of the split dump extraction processing unit 1419 of the failure information acquisition computer 1402 (2) of the present embodiment. Split dump extraction processing unit 141
No. 9 repeats Step 2202, Step 2203, and Step 2204 in Step 2201.

【0238】ステップ2202では、分割ダンプ収集要
求メッセージ1814が到着するまで待ち、パケット送
受信処理部1414(2)が分割ダンプ収集要求メッセ
ージ1814を受信すると次のステップに進む。
In step 2202, the process waits until the split dump collection request message 1814 arrives. When the packet transmission / reception processing unit 1414 (2) receives the split dump collection request message 1814, the flow advances to the next step.

【0239】ステップ2203の処理1では、分割ダン
プ収集応答メッセージ1815を作成する為に、ステッ
プ2202で受信した分割ダンプ収集要求メッセージ1
814の送信先アドレス1804及び送信元アドレス1
805を、各々分割ダンプ収集応答メッセージ1815
の送信元アドレス1805及び送信先アドレス1804
とする。処理2では、分割ダンプ格納領域1407のア
ドレス1602、サイズ1603及びデータ1604を
参照し、分割ダンプ収集応答メッセージ1815のダン
プデータ1813とする。
In the process 1 of step 2203, the split dump collection request message 1 received in step 2202 is generated in order to create the split dump collection response message 1815.
814, destination address 1804 and source address 1
805, each of the divided dump collection response messages 1815
Source address 1805 and destination address 1804
And In the process 2, the address 1602, the size 1603, and the data 1604 of the divided dump storage area 1407 are referred to as the dump data 1813 of the divided dump collection response message 1815.

【0240】ステップ2204では、ステップ2203
にて作成した分割ダンプ収集応答メッセージ1815を
パケット送受信処理部1414(2)にて送信する。
At step 2204, step 2203
The packet transmission / reception processing unit 1414 (2) transmits the divided dump collection response message 1815 created in the above.

【0241】以上説明した様に本実施形態の計算機シス
テムによれば、対象計算機のメインメモリの内容を障害
情報取得計算機の高速な記憶装置上の分割ダンプ格納領
域に格納した後に対象計算機をリブートさせるので、障
害を起こした対象計算機のリブートに費す時間を短縮し
て当該対象計算機が使用不可である時間を短くすること
が可能である。
As described above, according to the computer system of this embodiment, the target computer is rebooted after the contents of the main memory of the target computer are stored in the divided dump storage area on the high-speed storage device of the failure information acquisition computer. Therefore, it is possible to reduce the time spent for rebooting the failed target computer and shorten the time during which the target computer is unavailable.

【0242】[0242]

【発明の効果】本発明によればダンプ計算機は障害を起
こした対象計算機のメモリの予め規定された特定領域の
内容を取得した後に対象計算機をリブートさせるので、
障害を起こした対象計算機のリブートに費す時間を短縮
して当該対象計算機が使用不可である時間を短くするこ
とが可能である。
According to the present invention, the dump computer reboots the target computer after acquiring the contents of the predetermined specific area of the memory of the failed target computer.
It is possible to reduce the time spent rebooting the failed target computer and reduce the time during which the target computer is unavailable.

【0243】また本発明によれば対象計算機のメインメ
モリの内容を障害情報取得計算機の高速な記憶装置上の
分割ダンプ格納領域に格納した後に対象計算機をリブー
トさせるので、障害を起こした対象計算機のリブートに
費す時間を短縮して当該対象計算機が使用不可である時
間を短くすることが可能である。
According to the present invention, the target computer is rebooted after storing the contents of the main memory of the target computer in the divided dump storage area on the high-speed storage device of the failure information acquisition computer. It is possible to reduce the time spent for rebooting and reduce the time during which the target computer is unavailable.

【図面の簡単な説明】[Brief description of the drawings]

【図1】実施形態1の計算機システムの概略構成を示す
図である。
FIG. 1 is a diagram illustrating a schematic configuration of a computer system according to a first embodiment.

【図2】実施形態1の生存信号発信処理部140の処理
手順を示すフローチャートである。
FIG. 2 is a flowchart illustrating a processing procedure of a survival signal transmission processing unit 140 according to the first embodiment.

【図3】実施形態1の生存信号監視処理部141の処理
手順を示すフローチャートである。
FIG. 3 is a flowchart illustrating a processing procedure of a survival signal monitoring processing unit 141 according to the first embodiment.

【図4】実施形態1の障害情報規定ファイル143の概
略構成を示す図である。
FIG. 4 is a diagram illustrating a schematic configuration of a fault information definition file 143 according to the first embodiment.

【図5】実施形態1の障害情報ファイル144の概略構
成を示す図である。
FIG. 5 is a diagram illustrating a schematic configuration of a failure information file 144 according to the first embodiment.

【図6】実施形態1の障害情報取得処理部142の処理
手順を示すフローチャートである。
FIG. 6 is a flowchart illustrating a processing procedure of a failure information acquisition processing unit 142 according to the first embodiment.

【図7】実施形態1のリモートメモリアクセスパケット
の概略構成を示す図である。
FIG. 7 is a diagram illustrating a schematic configuration of a remote memory access packet according to the first embodiment.

【図8】実施形態1のコマンドフィールド704のエン
コード内容を示す図である。
FIG. 8 is a diagram illustrating encoding contents of a command field 704 according to the first embodiment.

【図9】実施形態1の読み込み要求処理の処理手順を示
すフローチャートである。
FIG. 9 is a flowchart illustrating a processing procedure of a read request process according to the first embodiment.

【図10】実施形態1の書き込み要求処理の処理手順を
示すフローチャートである。
FIG. 10 is a flowchart illustrating a processing procedure of a write request process according to the first embodiment.

【図11】実施形態1の読み込み要求パケット処理の処
理手順を示すフローチャートである。
FIG. 11 is a flowchart illustrating a processing procedure of a read request packet process according to the first embodiment.

【図12】実施形態1の読み込み返答パケット処理の処
理手順を示すフローチャートである。
FIG. 12 is a flowchart illustrating a processing procedure of a read reply packet process according to the first embodiment.

【図13】実施形態1の書き込みパケット処理の処理手
順を示すフローチャートである。
FIG. 13 is a flowchart illustrating a processing procedure of a write packet process according to the first embodiment.

【図14】実施形態2の疎結合計算機システムの概略構
成を示す図である。
FIG. 14 is a diagram illustrating a schematic configuration of a loosely-coupled computer system according to a second embodiment;

【図15】実施形態2の疎結合計算機構成表1404の
一例を示す図である。
FIG. 15 illustrates an example of a loosely-coupled computer configuration table 1404 according to the second embodiment.

【図16】実施形態2の分割ダンプ格納領域1407の
一例を示す図である。
FIG. 16 is a diagram illustrating an example of a divided dump storage area 1407 according to the second embodiment.

【図17】実施形態2のメモリ領域分割表格納領域14
12の一例を示す図である。
FIG. 17 is a memory area division table storage area 14 according to the second embodiment.
FIG. 12 is a diagram illustrating an example of a twelfth embodiment.

【図18】実施形態2の要求/応答メッセージの一例を
示す図である。
FIG. 18 illustrates an example of a request / response message according to the second embodiment.

【図19】実施形態2の対象計算機1402(1)のメ
モリ領域分割処理部1411の処理概要を示すPAD図で
ある。
FIG. 19 is a PAD diagram illustrating an outline of processing of a memory area division processing unit 1411 of a target computer 1402 (1) according to the second embodiment.

【図20】実施形態2の障害情報取得計算機1402
(2)の分割ダンプ格納処理部1421の処理概要を示
すPAD図である。
FIG. 20 is a failure information acquisition computer 1402 according to the second embodiment.
FIG. 14 is a PAD diagram illustrating an outline of processing of the divided dump storage processing unit 1421 of (2).

【図21】実施形態2の対象計算機1402(1)の全
ダンプ収集処理部1413の処理概要を示すPAD図であ
る。
FIG. 21 is a PAD diagram illustrating an outline of processing of an all-dump collection processing unit 1413 of a target computer 1402 (1) of the second embodiment.

【図22】実施形態2の障害情報取得計算機1402
(2)の分割ダンプ取出処理部1419の処理概要を示
すPAD図である。
FIG. 22 is a failure information acquisition computer 1402 according to the second embodiment.
It is a PAD figure showing the outline of processing of division dump extraction processing part 1419 of (2).

【符号の説明】[Explanation of symbols]

100…対象計算機、110…ダンプ計算機、120…
ネットワーク、130…生存信号線、101…プロセッ
サ、102…ネットワークインタフェース、103…メ
モリ、104…生存信号伝達手段、105…ディスク、
106…システムバス、150…セキュリティキーレジ
スタ、140…生存信号発信処理部、141…生存信号
監視処理部、142…障害情報取得処理部、143…障
害情報規定ファイル、144…障害情報ファイル、15
1…読み込み要求処理部、152…読み込み返答処理
部、153…書き込み要求処理部、400…障害情報エ
ントリ数フィールド、410…障害情報エントリ、41
1…メモリアドレスフィールド、412…バイト数フィ
ールド、500…障害情報ダンプエントリ数フィール
ド、510…障害情報ダンプエントリ、511…メモリ
アドレスフィールド、512…バイト数フィールド、5
13…メモリ内容フィールド、700…リモートメモリ
アクセスパケット、701…宛先計算機番号フィール
ド、702…送信元計算機番号フィールド、703…セ
キュリティキーフィールド、704…コマンドフィール
ド、705…メモリアドレスフィールド、706…メモ
リ内容フィールド、1401…疎結合計算機システム、
1402…計算機、1402(1)…対象計算機、14
02(2)…障害情報取得計算機、1403…補助記憶
装置、1404…疎結合計算機構成表、1405…プロ
セッサ、1406…メインメモリ、1407…分割ダン
プ格納領域、1408…システムバス、1409…ネッ
トワークアダプタ、1410…メモリ、1412…メモ
リ領域分割表格納領域、1414…パケット送受信処理
部、1415…I/Oシステムバス、1416…I/O
プロセッサ、1417…ネットワークインタフェース、
1418…ネットワーク、1422…OS格納領域、1
423…障害処理部、1424…ダンプファイル生成処
理部、1425…ユーザプログラム格納領域、1426
…全ダンプ格納領域、1411…メモリ領域分割処理
部、1413…全ダンプ収集処理部、1414(1)…
パケット送受信処理部、1414(2)…パケット送受
信処理部、1421…分割ダンプ格納処理部、1419
…分割ダンプ取出処理部、1502…構成表インデック
ス、1503…ネットワークアドレス、1504…自計
算機フラグ、1602…アドレス、1603…サイズ、
1604…データ、1702…分割表インデックス、1
703…アドレス、1704…サイズ、1705…ネッ
トワークアドレス、1802…メッセージヘッダ、18
04…送信先アドレス、1805…送信元アドレス、1
806…メッセージ識別子、1809…分割ダンプ格納
要求メッセージ、1810…アドレス、1811…サイ
ズ、1812…データ、1813…ダンプデータ、18
14…分割ダンプ収集要求メッセージ、1815…分割
ダンプ収集応答メッセージ。
100: target computer, 110: dump computer, 120:
Network, 130: survival signal line, 101: processor, 102: network interface, 103: memory, 104: survival signal transmission means, 105: disk,
106: System bus, 150: Security key register, 140: Survival signal transmission processing unit, 141: Survival signal monitoring processing unit, 142: Fault information acquisition processing unit, 143: Fault information definition file, 144: Fault information file, 15
1 read request processing unit, 152 read response processing unit, 153 write request processing unit, 400 failure information entry number field, 410 failure information entry, 41
1 ... memory address field, 412 ... byte number field, 500 ... failure information dump entry number field, 510 ... failure information dump entry, 511 ... memory address field, 512 ... byte number field, 5
13: memory content field, 700: remote memory access packet, 701: destination computer number field, 702: source computer number field, 703: security key field, 704: command field, 705: memory address field, 706: memory content field 1401... Loosely coupled computer system
1402: Computer, 1402 (1): Target computer, 14
02 (2): failure information acquisition computer, 1403: auxiliary storage device, 1404: loosely coupled computer configuration table, 1405: processor, 1406: main memory, 1407: split dump storage area, 1408: system bus, 1409: network adapter, 1410 memory, 1412 memory area division table storage area, 1414 packet transmission / reception processing unit, 1415 I / O system bus, 1416 I / O
Processor, 1417 ... network interface,
1418: Network, 1422: OS storage area, 1
423: failure processing unit, 1424: dump file generation processing unit, 1425: user program storage area, 1426
... All dump storage area, 1411 ... Memory area division processing unit, 1413 ... All dump collection processing unit, 1414 (1) ...
Packet transmission / reception processing unit, 1414 (2): packet transmission / reception processing unit, 1421: divided dump storage processing unit, 1419
... Divided dump extraction processing unit, 1502 ... Configuration table index, 1503 ... Network address, 1504 ... Local computer flag, 1602 ... Address, 1603 ... Size,
1604: Data, 1702: Contingency table index, 1
703: address, 1704: size, 1705: network address, 1802: message header, 18
04: destination address, 1805: source address, 1
806: message identifier, 1809: split dump storage request message, 1810: address, 1811: size, 1812: data, 1813: dump data, 18
14 ... split dump collection request message, 1815 ... split dump collection response message.

───────────────────────────────────────────────────── フロントページの続き (72)発明者 村山 秀樹 神奈川県海老名市下今泉810番地 株式会 社日立製作所サーバ開発本部内 (72)発明者 菅波 雄介 神奈川県海老名市下今泉810番地 株式会 社日立製作所サーバ開発本部内 (72)発明者 藤田 博文 神奈川県海老名市下今泉810番地 株式会 社日立製作所サーバ開発本部内 (72)発明者 大野 正太郎 神奈川県横浜市戸塚区戸塚町5030番地 株 式会社日立製作所ソフトウェア開発本部内 ──────────────────────────────────────────────────続 き Continuing on the front page (72) Inventor Hideki Murayama 810 Shimo-Imaizumi, Ebina-shi, Kanagawa Prefecture Inside the Hitachi, Ltd.Server Development Division (72) Inventor Yusuke Kanba 810 Shimo-Imaizumi, Ebina-shi, Kanagawa Hitachi, Ltd. (72) Inventor Hirofumi Fujita 810 Shimoimaizumi, Ebina City, Kanagawa Prefecture Hitachi, Ltd.Server Development Headquarters (72) Inventor Shotaro Ono 5030 Totsukacho, Totsuka-ku, Yokohama-shi, Kanagawa Hitachi, Ltd. Manufacturing Software Development Division

Claims (10)

【特許請求の範囲】[Claims] 【請求項1】 対象計算機の動作状態を監視し発生した
障害をダンプ計算機により処理する障害処理方法におい
て、 対象計算機が正常に動作中であることを示す生存信号を
特定時間間隔でダンプ計算機に送信し、 対象計算機のメモリ領域の内で障害情報を収集すべき特
定領域を示す情報をダンプ計算機から受信し、前記受信
した情報が示す特定領域のメモリ内容を読み出してダン
プ計算機に送信し、 ダンプ計算機からの指示により対象計算機のリブートを
行うことを特徴とする障害処理方法。
1. A failure processing method for monitoring an operation state of a target computer and processing a generated fault by a dump computer, wherein a survival signal indicating that the target computer is operating normally is transmitted to the dump computer at a specific time interval. Receiving, from the dump computer, information indicating a specific area in which the failure information is to be collected in the memory area of the target computer, reading out the memory contents of the specific area indicated by the received information, and transmitting the read information to the dump computer; A failure handling method characterized in that the target computer is rebooted in response to an instruction from the user.
【請求項2】 対象計算機の動作状態を監視し発生した
障害をダンプ計算機により処理する障害処理方法におい
て、 対象計算機が正常に動作中であることを示す生存信号が
特定時間内にダンプ計算機で受信されるかを監視し、 対象計算機からの生存信号が特定時間内にダンプ計算機
で受信されない場合に、対象計算機のメモリ領域の内で
障害情報を収集すべき特定領域を示す情報をダンプ計算
機から対象計算機に送信し、 対象計算機から送信された前記特定領域のメモリ内容を
受信して対象計算機の障害情報をダンプ計算機で取得
し、対象計算機をリブートさせることを特徴とする障害
処理方法。
2. A failure processing method for monitoring an operation state of a target computer and processing a generated fault by a dump computer, wherein a survival signal indicating that the target computer is operating normally is received by the dump computer within a specific time. If a surviving signal from the target computer is not received by the dump computer within a specific time, the dump computer collects information indicating a specific area in the memory area of the target computer from which fault information should be collected. A failure processing method, comprising: transmitting a memory content of the specific area transmitted from the target computer to the computer; acquiring failure information of the target computer by the dump computer; and rebooting the target computer.
【請求項3】 障害が発生した場合にダンプ計算機から
の指示により障害処理を行う対象計算機において、 対象計算機が正常に動作中であることを示す生存信号を
伝達する生存信号伝達手段と、前記生存信号伝達手段を
制御して前記生存信号を特定時間間隔でダンプ計算機に
送信する生存信号発信処理部と、 対象計算機のメモリ領域の内で障害情報を収集すべき特
定領域を示す情報をダンプ計算機から受信し、前記受信
した情報が示す特定領域のメモリ内容を読み出してダン
プ計算機に送信する障害情報応答処理部と、 ダンプ計算機からの指示により対象計算機のリブートを
行うリセット処理部とを備えることを特徴とする対象計
算機。
3. A surviving signal transmitting means for transmitting a surviving signal indicating that the target computer is operating normally in a target computer for performing a fault process in response to an instruction from a dump computer when a fault has occurred, A survival signal transmission processing unit for controlling the signal transmission means to transmit the survival signal to the dump computer at a specific time interval; and from the dump computer, information indicating a specific area in the memory area of the target computer from which fault information should be collected. A failure information response processing unit that receives and reads the memory content of a specific area indicated by the received information and transmits the read information to a dump computer; and a reset processing unit that reboots the target computer in accordance with an instruction from the dump computer. The target computer.
【請求項4】 対象計算機の動作状態を監視して対象計
算機で発生した障害を処理するダンプ計算機において、 対象計算機が正常に動作中であることを示す生存信号を
受信する生存信号伝達手段と、 対象計算機のメモリ領域の内で障害情報を収集すべき特
定領域を示す情報を対象計算機に送信し、対象計算機か
ら送信された前記特定領域のメモリ内容を受信する障害
情報取得処理部と、 前記生存信号伝達手段を制御して対象計算機からの生存
信号が特定時間内に受信されるかを監視し、対象計算機
からの生存信号が特定時間内に受信されない場合に、前
記障害情報取得処理部により対象計算機の障害情報を取
得し、対象計算機をリブートさせる生存信号監視処理部
とを備えることを特徴とするダンプ計算機。
4. A surviving signal transmitting means for receiving a surviving signal indicating that the target computer is operating normally in a dump computer which monitors an operation state of the target computer and processes a fault occurring in the target computer; A failure information acquisition processing unit that transmits information indicating a specific area in the memory area of the target computer from which the failure information should be collected to the target computer, and receives the memory content of the specific area transmitted from the target computer; The signal transmission means is controlled to monitor whether a survival signal from the target computer is received within a specific time. If a survival signal from the target computer is not received within the specific time, the failure information acquisition processing unit A dump computer comprising: a survivor signal monitoring processor that acquires failure information of a computer and reboots a target computer.
【請求項5】 対象計算機の動作状態を監視し発生した
障害をダンプ計算機により処理するプログラムを記録し
た媒体において、 対象計算機が正常に動作中であることを示す生存信号を
伝達する生存信号伝達手段を制御して前記生存信号を特
定時間間隔でダンプ計算機に送信する生存信号発信処理
部と、 対象計算機のメモリ領域の内で障害情報を収集すべき特
定領域を示す情報をダンプ計算機から受信し、前記受信
した情報が示す特定領域のメモリ内容を読み出してダン
プ計算機に送信する障害情報応答処理部と、 ダンプ計算機からの指示により対象計算機のリブートを
行うリセット処理部としてコンピュータを機能させる為
のプログラムを記録したことを特徴とする媒体。
5. A survival signal transmitting means for transmitting a survival signal indicating that the target computer is operating normally on a medium recording a program for monitoring an operation state of the target computer and processing a generated fault by the dump computer. A survival signal transmission processing unit that controls the survival signal to be transmitted to the dump computer at a specific time interval, and receives information from the dump computer that indicates a specific area in the memory area of the target computer from which fault information should be collected, A program for causing a computer to function as a failure information response processing unit that reads the memory content of the specific area indicated by the received information and transmits the read information to the dump computer, and a reset processing unit that reboots the target computer according to an instruction from the dump computer. A medium characterized by being recorded.
【請求項6】 対象計算機の動作状態を監視し発生した
障害をダンプ計算機により処理するプログラムを記録し
た媒体において、 対象計算機のメモリ領域の内で障害情報を収集すべき特
定領域を示す情報を対象計算機に送信し、対象計算機か
ら送信された前記特定領域のメモリ内容を受信する障害
情報取得処理部と、 対象計算機からの生存信号が特定時間内に受信されるか
を監視し、対象計算機からの生存信号が特定時間内に受
信されない場合に、前記障害情報取得処理部により対象
計算機の障害情報を取得し、対象計算機をリブートさせ
る生存信号監視処理部としてコンピュータを機能させる
為のプログラムを記録したことを特徴とする媒体。
6. A medium in which a program for monitoring an operation state of a target computer and processing a generated fault by a dump computer is recorded, information indicating a specific area in a memory area of the target computer from which fault information is to be collected. A failure information acquisition processing unit that transmits to the computer and receives the memory content of the specific area transmitted from the target computer; monitors whether a survival signal from the target computer is received within a specific time; When a survival signal is not received within a specific time, the failure information acquisition processing unit acquires failure information of the target computer, and records a program for causing a computer to function as a survival signal monitoring processing unit that reboots the target computer. A medium characterized by the above.
【請求項7】 障害が発生した場合にメインメモリの内
容を障害情報取得計算機に送信する対象計算機におい
て、 障害が発生した対象計算機のメインメモリを複数の領域
に分割し、分割したメインメモリ内容を障害情報取得計
算機のメインメモリ中の分割ダンプ格納領域に格納する
為の分割ダンプ格納要求メッセージを作成するメモリ領
域分割処理部と、 前記分割ダンプ格納要求メッセージを障害情報取得計算
機に送信するパケット送受信処理部とを備えることを特
徴とする対象計算機。
7. A target computer for transmitting the contents of a main memory to a failure information acquisition computer when a failure occurs, wherein the main memory of the failed target computer is divided into a plurality of areas, and the divided main memory contents are divided into a plurality of areas. A memory area division processing unit that creates a divided dump storage request message to be stored in a divided dump storage area in the main memory of the failure information acquisition computer; and a packet transmission / reception processing that transmits the divided dump storage request message to the failure information acquisition computer And a computer.
【請求項8】 障害が発生した対象計算機のメインメモ
リの内容を対象計算機から受信する障害情報取得計算機
において、 障害が発生した対象計算機のメインメモリの内容を障害
情報取得計算機のメインメモリ中の分割ダンプ格納領域
に格納する為の分割ダンプ格納要求メッセージを対象計
算機から受信するパケット送受信処理部と、 前記分割ダンプ格納要求メッセージに含まれる対象計算
機のメインメモリの内容を障害情報取得計算機のメイン
メモリ中の分割ダンプ格納領域に格納する分割ダンプ格
納処理部とを備えることを特徴とする障害情報取得計算
機。
8. A failure information acquisition computer that receives the contents of a main memory of a target computer in which a failure has occurred from a target computer, and divides the contents of the main memory of the failure target computer in the main memory of the failure information acquisition computer. A packet transmission / reception processing unit that receives a divided dump storage request message from the target computer for storing the divided dump storage request message in the dump storage area, and stores the contents of the main memory of the target computer included in the divided dump storage request message in the main memory of the failure information acquisition computer And a divided dump storage unit for storing the divided dump in the divided dump storage area.
【請求項9】 障害が発生した対象計算機のメインメモ
リの内容を障害情報取得計算機から収集する全ダンプ収
集計算機において、 障害情報取得計算機のメインメモリ中の分割ダンプ格納
領域に分割して格納した対象計算機のメインメモリの内
容を収集する為の分割ダンプ収集要求メッセージを作成
し、対象計算機のメインメモリの内容を有する分割ダン
プ収集応答メッセージから対象計算機のメインメモリの
内容を復元して全ダンプ格納領域に格納する全ダンプ収
集処理部と、 前記分割ダンプ収集要求メッセージ及び分割ダンプ収集
応答メッセージを障害情報取得計算機との間で送受信す
るパケット送受信処理部とを備えることを特徴とする全
ダンプ収集計算機。
9. An all-dump collection computer that collects the contents of the main memory of a target computer in which a failure has occurred from a failure information acquisition computer, wherein the target is divided and stored in a divided dump storage area in the main memory of the failure information acquisition computer. Creates a split dump collection request message for collecting the contents of the main memory of the computer, restores the contents of the main memory of the target computer from the split dump collection response message having the contents of the main memory of the target computer, and stores the entire dump storage area And a packet transmission / reception processing unit that transmits / receives the divided dump collection request message and the divided dump collection response message to / from the failure information acquisition computer.
【請求項10】 障害が発生した対象計算機のメインメ
モリの内容を全ダンプ収集計算機へ送信する障害情報取
得計算機において、 障害情報取得計算機のメインメモリ中の分割ダンプ格納
領域に格納した対象計算機のメインメモリの内容を収集
する為の分割ダンプ収集要求メッセージの内容に応じ
て、対象計算機のメインメモリの内容を有する分割ダン
プ収集応答メッセージを作成する分割ダンプ取出処理部
と、 前記分割ダンプ収集要求メッセージ及び分割ダンプ収集
応答メッセージを全ダンプ収集計算機との間で送受信す
るパケット送受信処理部とを備えることを特徴とする障
害情報取得計算機。
10. A failure information acquisition computer for transmitting the contents of a main memory of a target computer in which a failure has occurred to all dump collection computers, wherein the main information of the target computer stored in a divided dump storage area in the main memory of the failure information acquisition computer is provided. A split dump extraction processing unit that creates a split dump collection response message having the content of the main memory of the target computer in accordance with the content of the split dump collection request message for collecting the contents of the memory; A failure information acquisition computer, comprising: a packet transmission / reception processing unit that transmits / receives a divided dump collection response message to / from all dump collection computers.
JP10170034A 1997-11-18 1998-06-17 Fault processing method, execution device for the same and medium recording processing program for the same Pending JPH11212836A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10170034A JPH11212836A (en) 1997-11-18 1998-06-17 Fault processing method, execution device for the same and medium recording processing program for the same

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP31668997 1997-11-18
JP9-316689 1997-11-18
JP10170034A JPH11212836A (en) 1997-11-18 1998-06-17 Fault processing method, execution device for the same and medium recording processing program for the same

Publications (1)

Publication Number Publication Date
JPH11212836A true JPH11212836A (en) 1999-08-06

Family

ID=26493175

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10170034A Pending JPH11212836A (en) 1997-11-18 1998-06-17 Fault processing method, execution device for the same and medium recording processing program for the same

Country Status (1)

Country Link
JP (1) JPH11212836A (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7430687B2 (en) 2003-12-09 2008-09-30 Nec Corporation Building-up of multi-processor of computer nodes
JP2010200063A (en) * 2009-02-26 2010-09-09 Oki Networks Co Ltd Transmission line fault detecting method and program
WO2011004441A1 (en) 2009-07-10 2011-01-13 富士通株式会社 Server having memory dump function and method for acquiring memory dump
WO2012090290A1 (en) 2010-12-27 2012-07-05 富士通株式会社 Information processing device having memory dump function, memory dump method, and memory dump program
EP2687986A2 (en) 2012-06-22 2014-01-22 Fujitsu Limited Information processing device with memory dump function, memory dump method, and recording medium

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7430687B2 (en) 2003-12-09 2008-09-30 Nec Corporation Building-up of multi-processor of computer nodes
JP2010200063A (en) * 2009-02-26 2010-09-09 Oki Networks Co Ltd Transmission line fault detecting method and program
WO2011004441A1 (en) 2009-07-10 2011-01-13 富士通株式会社 Server having memory dump function and method for acquiring memory dump
US8990630B2 (en) 2009-07-10 2015-03-24 Fujitsu Limited Server having memory dump function and memory dump acquisition method
WO2012090290A1 (en) 2010-12-27 2012-07-05 富士通株式会社 Information processing device having memory dump function, memory dump method, and memory dump program
US9015535B2 (en) 2010-12-27 2015-04-21 Fujitsu Limited Information processing apparatus having memory dump function, memory dump method, and recording medium
EP2687986A2 (en) 2012-06-22 2014-01-22 Fujitsu Limited Information processing device with memory dump function, memory dump method, and recording medium
US9229820B2 (en) 2012-06-22 2016-01-05 Fujitsu Limited Information processing device with memory dump function, memory dump method, and recording medium

Similar Documents

Publication Publication Date Title
KR100786932B1 (en) Creation of mini dump files from full dump files
US7085899B2 (en) System and method of an efficient snapshot for shared large storage
US6785892B1 (en) Communications between partitioned host processors and management processor
JP3943538B2 (en) Method for managing error logs in a logically partitioned data processing system
US7293145B1 (en) System and method for data transfer using a recoverable data pipe
US7707337B2 (en) Object-based storage device with low process load and control method thereof
US7010726B2 (en) Method and apparatus for saving data used in error analysis
US7194517B2 (en) System and method for low overhead message passing between domains in a partitioned server
US20090024793A1 (en) Method and apparatus for managing data in a hybrid drive system
US10776131B2 (en) Method and apparatus for UEFI firmware boot journal recording
US20060200500A1 (en) Method of efficiently recovering database
US20050033948A1 (en) Method and apparatus for providing updated system locality information during runtime
US6598049B1 (en) Data structure identifying method and recording medium
US20050091266A1 (en) Data file system, data access server and data access program storage medium
JPH11212836A (en) Fault processing method, execution device for the same and medium recording processing program for the same
US20020124210A1 (en) Method and apparatus for reducing hardware scan dump data
CN112463288A (en) Behavior monitoring method and system based on pile insertion
CN112463287A (en) Method and system for processing access request based on instrumentation
CN112988884A (en) Big data platform data storage method and device
CN112463286A (en) Abnormal event monitoring method and system for virtual machine operating system
US5761403A (en) Failure recovery system and failure recovery method in loosely coupled multi-computer system, and medium for storing failure recovery program
US20010011335A1 (en) Data processing system having a network and method for managing memory by storing discardable pages in a local paging device
EP0096199A2 (en) Method and apparatus for logging journal data in a computing apparatus
JP4060890B2 (en) File system primitives that allow reprocessing of I / O requests by multiple drivers in a hierarchical driver I / O system
JP2001229053A (en) Computer with dump acquiring mechanism

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20031216