JPH11338838A - マルチプロセッサシステムにおける障害情報のパラレルダンプ採取方法及び方式 - Google Patents

マルチプロセッサシステムにおける障害情報のパラレルダンプ採取方法及び方式

Info

Publication number
JPH11338838A
JPH11338838A JP10158385A JP15838598A JPH11338838A JP H11338838 A JPH11338838 A JP H11338838A JP 10158385 A JP10158385 A JP 10158385A JP 15838598 A JP15838598 A JP 15838598A JP H11338838 A JPH11338838 A JP H11338838A
Authority
JP
Japan
Prior art keywords
fault information
processor
information
processors
fault
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10158385A
Other languages
English (en)
Inventor
Kenichi Furuhata
研一 降旗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NAGANO NIPPON DENKI SOFTWARE KK
NEC Software Nagano Ltd
Original Assignee
NAGANO NIPPON DENKI SOFTWARE KK
NEC Software Nagano Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NAGANO NIPPON DENKI SOFTWARE KK, NEC Software Nagano Ltd filed Critical NAGANO NIPPON DENKI SOFTWARE KK
Priority to JP10158385A priority Critical patent/JPH11338838A/ja
Publication of JPH11338838A publication Critical patent/JPH11338838A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Multi Processors (AREA)
  • Debugging And Monitoring (AREA)

Abstract

(57)【要約】 【課題】マルチプロセッサシステムにおいて、障害発生
時の障害情報採取を複数のプロセッサで並列に実行する
ことで障害情報採取時間を短縮し、耐障害性を向上する
障害情報採取方法及び方式の提供。 【解決手段】マルチプロセッサシステムにおいて、障害
検出時の障害情報採取にあたって、障害発生を検出した
一のプロセッサから、他のプロセッサに対して、障害情
報採取を指示を送出し、前記複数のプロセッサの各々で
それぞれ障害情報採取を独立に行い、該障害情報をファ
イル装置にそれぞれ格納し、前記他のプロセッサは障害
情報採取が完了した際に前記一のプロセッサにその旨を
通知し、前記一のプロセッサでは、前記複数のプロセッ
サの全ての情報採取完了を待って再起動を行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は情報処理装置の障害
情報採取方法に関し、特にマルチプロセッサシステムに
用いて好適な障害情報の採取方法及び方式に関する。
【0002】
【従来の技術】近時、情報処理装置における主記憶装置
の搭載容量の増大や、接続機器の多種多様化によって、
障害発生時に採取される障害情報の量も増大する傾向に
ある。
【0003】ところで、従来の障害情報採取方法におい
ては、特定の単一プロセッサ上で、全ての障害情報を採
取していたため、障害情報の増加は、そのまま障害情報
の採取に要する時間の増大を招くことになり、結果とし
て、障害発生時のシステムダウン時間の増大の原因とも
なっていた。
【0004】例えば、複数のプロセッサが共通バスで接
続されて処理を分散して行うマルチプロセッサシステム
において、障害発生時、従来の障害情報採取方法では、
図4に示すように、全ての処理を、同一プロセッサ(図
4ではCPU#1)上で順次的に行っている。
【0005】このとき、障害情報採取処理を行っていな
い他のプロセッサ(図4のCPU#2〜CPU#4)
は、停止状態あるいは休止状態となっており、障害情報
採取には全く関与していない。
【0006】なお、例えば特開昭64−76230号公
報には、二重化構成の子プロセッサで障害発生時、現用
系と予備系のプロセッサを切り換え、マスタプロセッサ
は新しく予備側に切り換えられたプロセッサ(障害プロ
セッサ)にダンプ要求を送出し、該予備側プロセッサは
マスタプロセッサの記憶装置の障害情報を転送して格納
する障害情報ダンプ方式が提案されている。このダンプ
方式は障害発生により現用系から予備系に切り替わった
プロセッサからの障害情報のダンプするものであり、基
本的に上記した従来方式と同様、単一プロセッサでダン
プ制御を行うものであり、複数プロセッサの並列的なダ
ンプについては全く考慮されていない。
【0007】
【発明が解決しようとする課題】上記したように、従来
の障害情報採取方式においては、特定の単一プロセッサ
上で、全ての障害情報を採取していたため、障害情報の
増加は、障害情報の採取に要する時間の増大を招くこと
になり、結果として障害発生時のシステムダウン時間の
増大の原因ともなっていた。
【0008】さらに障害情報採取機能の起動を単一プロ
セッサに割り当てる従来方式の場合、該単一プロセッサ
での障害発生時には障害情報採取機能が起動不能となる
可能性があり、最悪障害情報が全く採取不能となり、障
害解析を行うことが出来ないという事態も生じる。
【0009】したがって、本発明は、上記問題点に鑑み
てなされたものであって、その目的は、マルチプロセッ
サシステムにおいて、障害発生時の障害情報採取を複数
のプロセッサに分担して行わせることで並列処理可能と
し、障害情報採取時間を短縮し、システムダウン時間の
短縮を図ると共に、耐障害性を向上する障害情報採取方
法及び方式を提供することにある。
【0010】
【課題を解決するための手段】前記目的を達成するた
め、本発明は、複数のプロセッサからなるマルチプロセ
ッサシステムにおいて、障害検出時の障害情報採取にあ
たって、障害発生を検出した一のプロセッサから、他の
プロセッサに対して、障害情報採取を指示を送出し、前
記複数のプロセッサの各々でそれぞれ障害情報採取を行
い、該障害情報をファイル装置にそれぞれ格納し、前記
他のプロセッサは障害情報採取が完了した際に前記一の
プロセッサにその旨を通知し、前記一のプロセッサで
は、前記複数のプロセッサの全ての情報採取完了を待っ
て再起動を行う、ことを特徴とする。
【0011】
【発明の実施の形態】本発明の実施の形態について以下
に説明する。本発明は、その概要を述べれば、密結合型
マルチプロセッサシステムにおいて、障害情報の採取
を、独立動作している複数のプロセッサに分担して行わ
せることで、障害情報の採取に要する時間の短縮を図る
ようにしたものである。
【0012】より詳細には、本発明は、その好ましい実
施の形態において、複数のプロセッサ(例えば図2のC
PU#1〜#4)からなるマルチプロセッサシステムに
おいて、障害検出時の障害情報採取にあたって、(a)
障害発生を検出した一のプロセッサ(例えば図2のCP
U#1)から、他のプロセッサ(図2のCPU#2〜#
4)に対して、障害情報採取を指示を送出し、(b)複
数のプロセッサの各々でそれぞれ障害情報採取を独立に
行い、該障害情報をプロセッサに割り当てられたファイ
ル装置にそれぞれ格納し、(c)該他のプロセッサ(図
2のCPU#2〜#4)は障害情報採取が完了した際に
前記一のプロセッサ(図2のCPU#1)にその旨を通
知し、(d)前記一のプロセッサでは、前記複数のプロ
セッサの全ての情報採取完了を待って再起動を行う。
【0013】本発明の実施の形態において、各プロセッ
サにおける障害情報採取機能は、オペレーティングシス
テムとは独立に動作可能な機能モジュールとして実装さ
れ、マルチプロセッサを構成する各プロセッサ毎に独立
して障害情報採取を行い、各プロセッサに割り当てられ
たファイル装置に格納する。
【0014】本発明の実施の形態において、マルチプロ
セッサシステムのプロセッサ間での障害情報採取の指
示、障害情報採取終了の通知は、好ましくは、プロセッ
サ間通信、もしくは共通メモリ領域などを用いて行われ
る。
【0015】本発明の実施の形態においては、障害情報
として採取すべき主記憶データ、ハードウェア装置のロ
グ等を適宜選択し、各プロセッサでの障害情報の採取量
が均等になるように障害情報データを各プロセッサに配
分するようにすることが好ましい。
【0016】また、本発明の実施の形態においては、各
プロセッサが障害情報を出力するファイル装置はプロセ
ッサ間での入出力の競合が起こらないように各プロセッ
サに割り当てられる。
【0017】
【実施例】上記した本発明の実施の形態についてさらに
詳細に説明すべく、本発明の実施例について図面を参照
して以下に説明する。
【0018】図1は、本発明の一実施例を説明するため
の図である。本発明の一実施例において、障害情報採取
機能は、オペレーティングシステム(「OS」と略記す
る)全体の中で、図1に示すような位置付けとされてい
る。すなわち、OS10とは独立に設けられた障害情報
採取機能12は、OS10に組み込まれた障害検知機能
11から通知された障害情報採取指示に基づき障害情報
をファイル装置13の出力する。
【0019】図3は、図1の障害検知機能、障害情報採
取機能、及びファイル装置の詳細を示した図である。図
3において、障害検出部101は、図1の障害検知部1
1に対応し、障害情報採取制御部102、障害情報採取
部103〜105は、図1の障害採取機能12に対応
し、ファイル装置106〜108は、図1のファイル装
置13に対応している。
【0020】図3に示すように、各プロセッサが採取す
べき障害情報と、該情報を格納するためのファイル装置
106〜108をそれぞれ各プロセッサに割り当てられ
ている。
【0021】本発明の一実施例の動作について説明す
る。本発明の一実施例においては、通常OSの障害検知
機能から実行される障害情報採取機能をマルチプロセッ
サ構成を利用して実現したものである。
【0022】すなわち、本発明の一実施例において、障
害情報採取機能12は、OS10とは独立して動作し、
障害発生時の情報処理装置の主記憶装置に蓄積されたデ
ータ、ハードウェア装置のログ情報などをファイル装置
13に書き出す。
【0023】上述したように、従来の障害情報採取方法
においては、図4に示したように、全ての処理を同じプ
ロセッサ上で順次に行っており、このとき、障害情報採
取処理を行っていないプロセッサは停止状態あるいは休
止状態となっており、障害情報採取には関与していな
い。
【0024】これに対して、本発明の一実施例において
は、図2に示すように、障害発生時に動作可能なプロセ
ッサ全てで障害情報の採取を分担するようにしたもので
ある。図2は、本発明の一実施例における障害採取動作
を説明するための図である。
【0025】すなわち、図2を参照すると、障害検出時
の障害情報採取にあたって、障害発生を検出した一のプ
ロセッサ(CPU#1)から、OS動作中の他のプロセ
ッサ(CPU#2〜#4)に対して、障害情報採取を指
示を送出し、複数のプロセッサの各々では動作を停止し
た後それぞれ障害情報採取を独立に行い、該障害情報を
プロセッサに割り当てられたファイル装置にそれぞれ格
納し、他のプロセッサ(CPU#2〜#4)は障害情報
採取が完了した際に前記一のプロセッサ(CPU#1)
にその旨を通知し、一のプロセッサ(CPU#1)で
は、前記複数のプロセッサの全ての情報採取完了を待っ
て再起動を行う。
【0026】図2からもわかるように、本発明の一実施
例においては、稼働プロセッサが多ければ多い程障害情
報採取に要する時間は短くなる。
【0027】再び図3を参照して、本発明の一実施例に
おける障害情報採取機能について説明する。
【0028】障害検出部101は、図1の障害検出機能
11に対応したものであり、OS10の一部として実装
され、OS10の障害を検出する機能を備える。
【0029】障害検出部101で障害検出時、障害情報
採取制御部102を起動する。なお、障害検出部101
は、通常はOS10の機能の一部として実装されている
ため、ここでは、その説明は省略する。
【0030】障害情報採取制御部102は、障害情報を
採取する為に必要な設定、およびプロセッサの起動を行
う。その際、採取すべき情報の量を把握し、各プロセッ
サに均等に割り当てて、情報採取を行わせ、全てのプロ
セッサの情報採取の終了を待って、障害情報採取部の終
了処理を行う。
【0031】また障害情報採取部103、104、10
5は各プロセッサにおいて、主記憶データ、ハードウェ
ア装置のログを行いそれぞれファイル装置106、10
7、108に格納する。
【0032】本発明の一実施例においては、以下のよう
な機能が実装される。
【0033】・各プロセッサのセットアップを行う機
能:停止中になっているプロセッサを、障害情報採取の
為に初期設定して待機状態にする。
【0034】・障害情報採取の指示を行う機能:プロセ
ッサ間通信,共通メモリ領域などを用いて各プロセッサ
に障害情報採取を指示する。
【0035】・障害情報を取捨選択し各プロセッサに均
等に割り当てる機能:障害情報として採取すべき、主記
憶データ、ハードウェア装置のログ等を選択し、各プロ
セッサでの採取量が均等になるように、障害情報データ
を各プロセッサに配分する。
【0036】・障害情報を出力するファイル装置を各プ
ロセッサに割り当てる機能:各プロセッサが障害情報を
出力するファイル装置を、I/Oの競合が起こらないよ
うに各プロセッサに割り当てる。
【0037】・障害情報採取終了の通知を受け取る機
能:プロセッサ間通信、共通メモリなどを用いて、各プ
ロセッサからの障害情報採取終了通知を受け取る。
【0038】・障害情報採取機能:障害情報の採取を行
う。この機能は、プロセッサ毎に完全に独立して実行で
きるようにする為に、完全にリエントラント(再入可能
型)となるように実装する。
【0039】本発明の一実施例においては、障害情報採
取機能の可動効率を上昇し、また障害情報採取機能の起
動が特定のプロセッサに依存しないことから、障害発生
時に障害情報採取機能が起動できなくなるという可能性
も減少し、耐障害性を向上している。
【0040】
【発明の効果】以上説明したように、本発明によれば、
マルチプロセッサにおいて障害情報採取時間を縮減し、
このため障害発生時のシステムダウン時間を短縮する、
という効果を奏する。
【0041】その理由は、本発明においては、マルチプ
ロセッサシステムにおいて、障害情報の採取を、独立動
作している複数のプロセッサに分担して行わせること
で、障害情報の採取に要する時間の短縮を図るようにし
たためである。
【0042】また本発明によれば、障害情報採取機能の
起動が特定のプロセッサに依存しないことから、障害発
生時に障害情報採取機能が起動できなくなるという可能
性も減少し、耐障害性を向上するという効果を奏する。
【0043】その理由は、本発明においては、障害採取
の制御を特定のプロセッサで行うようにしていないため
である。
【図面の簡単な説明】
【図1】本発明の一実施例を説明するための図である。
【図2】本発明の一実施例の動作を模式的に示す説明図
である。
【図3】本発明の一実施例の構成を示すブロック図であ
る。
【図4】従来のマルチプロセッサにおける障害情報採取
の工程を説明するための図である。
【符号の説明】
10 オペレーティングシステム(OS) 11 障害検知機能 12 障害情報採取機能 13 ファイル装置 101 障害検出部 102 障害情報採取制御部 103〜105 障害情報採取部 106〜108 ファイル装置(ディスク装置)

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】複数のプロセッサからなるマルチプロセッ
    サシステムにおいて、障害検出時の障害情報採取に際し
    て、 (a)障害発生を検出した一のプロセッサから、他のプ
    ロセッサに対して、障害情報採取を指示を送出し、 (b)前記複数のプロセッサの各々でそれぞれ障害情報
    採取を独立に行い、該障害情報を前記プロセッサに割り
    当てられたファイル装置にそれぞれ格納し、 (c)前記他のプロセッサは障害情報採取が完了した際
    に前記一のプロセッサにその旨を通知し、 (d)前記一のプロセッサでは、前記複数のプロセッサ
    の全ての情報採取完了を待って再起動を行う、ことを特
    徴とする障害情報のパラレルダンプ採取方法。
  2. 【請求項2】前記複数のプロセッサの各々が、オペレー
    ティングシステムとは独立して動作可能な障害情報採取
    機能を介して障害情報を採取し、前記各プロセッサに割
    り当てられた前記ファイル装置に障害情報を格納する、
    ことを特徴とする請求項1記載の障害情報のパラレルダ
    ンプ採取方法。
  3. 【請求項3】障害情報として採取される情報を適宜選択
    し、前記各プロセッサにおける障害情報の採取量が均等
    になるように障害情報データを各プロセッサに配分す
    る、ことを特徴とする請求項1記載の障害情報のパラレ
    ルダンプ採取方法。
  4. 【請求項4】複数のプロセッサからなるマルチプロセッ
    サシステムにおいて、 前記複数のプロセッサの各々が、オペレーティングシス
    テムとは独立して動作可能な障害情報採取手段を備え、 前記複数のプロセッサには、障害情報格納用にファイル
    装置がそれぞれ割り当てられ、 オペレーティングシステムに実装された障害検出手段を
    介して障害発生を検出した一のプロセッサから、他のプ
    ロセッサに対して障害情報採取を指示を通知し、 前記複数のプロセッサの各々の障害情報採取手段にてそ
    れぞれ障害情報採取を独立に行い、該採取した障害情報
    を前記プロセッサに割り当てられたファイル装置にそれ
    ぞれ格納し、 前記他のプロセッサは障害情報採取が完了した際に前記
    一のプロセッサにその旨を通知し、 前記一のプロセッサでは、前記複数のプロセッサの全て
    の情報採取完了を待って再起動を行う、ことを特徴とす
    る障害情報のパラレルダンプ採取方式。
  5. 【請求項5】障害情報として採取される情報を適宜選択
    し、前記各プロセッサにおける障害情報の採取量が均等
    になるように障害情報データを各プロセッサに配分する
    ように制御する手段を備えた、ことを特徴とする請求項
    4記載の障害情報のパラレルダンプ採取方式。
JP10158385A 1998-05-22 1998-05-22 マルチプロセッサシステムにおける障害情報のパラレルダンプ採取方法及び方式 Pending JPH11338838A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10158385A JPH11338838A (ja) 1998-05-22 1998-05-22 マルチプロセッサシステムにおける障害情報のパラレルダンプ採取方法及び方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10158385A JPH11338838A (ja) 1998-05-22 1998-05-22 マルチプロセッサシステムにおける障害情報のパラレルダンプ採取方法及び方式

Publications (1)

Publication Number Publication Date
JPH11338838A true JPH11338838A (ja) 1999-12-10

Family

ID=15670575

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10158385A Pending JPH11338838A (ja) 1998-05-22 1998-05-22 マルチプロセッサシステムにおける障害情報のパラレルダンプ採取方法及び方式

Country Status (1)

Country Link
JP (1) JPH11338838A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7716520B2 (en) 2005-02-07 2010-05-11 Fujitsu Limited Multi-CPU computer and method of restarting system
JP5212357B2 (ja) * 2007-03-12 2013-06-19 富士通株式会社 マルチcpu異常検出復旧システム、方法及びプログラム
EP2608035A1 (en) 2011-12-19 2013-06-26 Fujitsu Limited Storage control device and method for controlling a dumping function in a storage system
JP2014154017A (ja) * 2013-02-12 2014-08-25 Nec Computertechno Ltd 障害ログ採取装置、障害ログ採取方法、及び、障害ログ採取プログラム
EP2869189A1 (en) 2013-11-01 2015-05-06 Fujitsu Limited Boot up of a multiprocessor computer

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7716520B2 (en) 2005-02-07 2010-05-11 Fujitsu Limited Multi-CPU computer and method of restarting system
JP5212357B2 (ja) * 2007-03-12 2013-06-19 富士通株式会社 マルチcpu異常検出復旧システム、方法及びプログラム
EP2608035A1 (en) 2011-12-19 2013-06-26 Fujitsu Limited Storage control device and method for controlling a dumping function in a storage system
JP2013127732A (ja) * 2011-12-19 2013-06-27 Fujitsu Ltd ストレージシステム、制御装置およびストレージシステムの制御方法
US8862793B2 (en) 2011-12-19 2014-10-14 Fujitsu Limited Storage system, control device, and storage system control method of controlling storage system
JP2014154017A (ja) * 2013-02-12 2014-08-25 Nec Computertechno Ltd 障害ログ採取装置、障害ログ採取方法、及び、障害ログ採取プログラム
EP2869189A1 (en) 2013-11-01 2015-05-06 Fujitsu Limited Boot up of a multiprocessor computer
US9747114B2 (en) 2013-11-01 2017-08-29 Fujitsu Limited Information processing apparatus, boot up method, and computer-readable storage medium storing boot up program

Similar Documents

Publication Publication Date Title
TWI329264B (en) Method and apparatus for reducing power consumption in a logically partitioned data processing system
JP2002041305A (ja) 仮想計算機システムにおける計算機資源の割当て方法および仮想計算機システム
JPH09138754A (ja) 分散チェックポイント生成方法および同方法が適用される計算機システム
JP3481737B2 (ja) ダンプ採取装置およびダンプ採取方法
JPH07311749A (ja) マルチプロセッサシステム及びカーネル置換方法
JP4322240B2 (ja) 再起動方法、システム及びプログラム
JP2007334403A (ja) 計算機システム障害対応方式及び計算機システム障害対応方法
JP2001022599A (ja) フォールトトレラント・システム,フォールトトレラント処理方法およびフォールトトレラント制御用プログラム記録媒体
JPH11338838A (ja) マルチプロセッサシステムにおける障害情報のパラレルダンプ採取方法及び方式
JPH0973436A (ja) 多重化計算機における動作モード切替方式
JP2001034508A (ja) メモリダンプ採取方法及びその実施装置並びにその処理プログラムを記録した記録媒体
US8346996B2 (en) Information processing system
JPH09218788A (ja) インサービス直接ダウンロード方式
JP2772052B2 (ja) 資源情報引き継ぎ処理方法
JP4213415B2 (ja) 共有リソースを有し、区画に分割されたシステムにおけるエラー抑制及びエラー処理
JP2001290677A (ja) 高速ダンプ採取方法
JP2986930B2 (ja) 対称型マルチプロセッサのタスクスケジューリング方式
JP2785992B2 (ja) サーバプログラムの管理処理方式
JPH0764930A (ja) Cpu間相互監視方法
JP2003330737A (ja) 計算機システム
JP2000215074A (ja) システムの運用方式及び障害自動復旧方式
JPH10116262A (ja) 並列計算機、プロセッサ要素ネットワーク、および並列計算機用プログラムを記録した記録媒体
JPH10260850A (ja) 仮想計算機システム
JP2001229042A (ja) ディスク制御装置
JPH08331247A (ja) 交換機の重度障害時の再開制御方式

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20010313