JP2956849B2 - データ処理システム - Google Patents

データ処理システム

Info

Publication number
JP2956849B2
JP2956849B2 JP1317651A JP31765189A JP2956849B2 JP 2956849 B2 JP2956849 B2 JP 2956849B2 JP 1317651 A JP1317651 A JP 1317651A JP 31765189 A JP31765189 A JP 31765189A JP 2956849 B2 JP2956849 B2 JP 2956849B2
Authority
JP
Japan
Prior art keywords
failure
devices
cpu
data processing
processing system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP1317651A
Other languages
English (en)
Other versions
JPH03179538A (ja
Inventor
博之 日高
雅行 杉岡
宏 柿田
真也 渡部
章雄 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Hitachi Information Technology Co Ltd
Original Assignee
Hitachi Ltd
Hitachi Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd, Hitachi Information Technology Co Ltd filed Critical Hitachi Ltd
Priority to JP1317651A priority Critical patent/JP2956849B2/ja
Priority to DE19904039013 priority patent/DE4039013A1/de
Publication of JPH03179538A publication Critical patent/JPH03179538A/ja
Application granted granted Critical
Publication of JP2956849B2 publication Critical patent/JP2956849B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/26Functional testing
    • G06F11/273Tester hardware, i.e. output processing circuits
    • G06F11/2736Tester hardware, i.e. output processing circuits using a dedicated service processor for test
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2205Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Hardware Redundancy (AREA)
  • Debugging And Monitoring (AREA)
  • Multi Processors (AREA)
  • Safety Devices In Control Systems (AREA)

Description

【発明の詳細な説明】 [産業上の利用分野] 本発明は、マルチプロセッサ方式のデータ処理装置に
係り、特に、障害発生時の装置の停止動作と、ログ情報
の採取方法とを改善したデータ処理システムに関する。
[従来の技術] 従来、データ処理システムのハードウエアにおいて障
害が検出された場合、データ処理システムを構成するCP
U等の処理装置は、即時に自CPUを凍結(停止)し、サー
ビスプロセッサ(SVP)に対して障害の検出を報告し、S
VPは、そのCPUのログ情報を採取し、割り込み処理によ
りソフトウエア情報を採取している。
今日、データ処理システムの論理が複雑化しており、
障害の発生時、ハードウエア情報を採取することは絶対
不可欠である。特に、CPU、IOP等の処理装置及びサービ
スプロセッサをそれぞれ複数備えて構成されるマルチプ
ロセッサシステムにおいては、障害が発生した処理装置
だけでなく、他の処理装置をも即時に凍結し、システム
が異常状態のまま動作すること防止し、複数の処理装置
のログ情報を採取することが、障害解析を容易にするた
めにも重要な課題となっている。
前述のようなマルチプロセッサ方式のデータ処理シス
テムにおける、障害時のログ情報採取に関する従来技術
として、例えば、特開昭61−273643号公報、特開昭63−
262729号公報、特開昭63−251840号公報、特開昭63−25
1841号公報等に記載された技術が知られている。
前記特開昭61−273643号公報に記載された従来技術
は、障害が発生した時点において、すべての装置のログ
情報を収集することを前提に、障害の諸元に関係なく、
システム全体を強制的に停止させてログ情報の採取を行
うものである。
また、前記特開昭63−262729号公報に記載された従来
技術は、CPU相互間通信における障害発生時に、通信相
手のCPUに対して、共通バスの制御信号線により、障害
の発生を通知し、相手CPUが、さらに他のCPUに対し、バ
ス内の制御信号線を介して、データ採取の指示を行うと
共に、指示を受けたCPUが、割り込み処理により主記憶
装置のデータを採取するものである。
しかし、この従来技術は、他のCPUに障害の検出を通
知して、割り込み処理によりデータの採取を行うため、
1つのCPUが障害を検出した後、他のCPUが割り込み処理
を行うまでに時間的遅れが生じ、その間、障害状態で他
のCPUが動作を続けることになり、誤った処理を実行す
る可能性があり、また、障害解析に不可欠なログ情報の
採取に関しては、何も考慮されていない。
さらに、前記特開昭63−251840号公報、特開昭63−25
1841号公報に記載された従来技術は、共有メモリをアク
セスする際、アクセスを行うCPUにウエイトがかけら
れ、メモリ異常検出回路がエラーを検出した場合、CPU
のウエイト状態を継続させ、他のCPUに対してこのエラ
ーの検出を通知し、これにより、異常内容に応じた処理
を迅速に行い得るようにしたものである。
しかし、この従来技術は、他のCPUをウエイトさせる
のは、共有メモリにおいてエラーが検出されたときに限
られ、CPU内の障害発生時の処理及びログ情報の採取に
関しては、何も考慮されていない。
[発明が解決しようとする課題] 前記特開昭61−273643号公報に記載された従来技術
は、障害の諸元に関係なく、障害の発生した時点ですべ
ての装置を強制的に停止させてしまうため、特に、入出
力装置等においては、オーバーランが発生する等、入出
力装置に大きな負担がかかるという問題点を有してい
る。
また、他の従来技術は、前述したように、障害を検出
したCPU以外の他のCPUの動作及び障害解析に不可欠のロ
グ情報の採取に関して、何も考慮されていないという問
題点を有している。
本発明の目的は、前述した従来技術の問題点を解決
し、マルチプロセッサ方式のデータ処理システムにおい
て、障害発生時に、その障害に無関係な装置に与える負
担を軽減し、一部のプロセッサに動作を継続させ、装置
全体のシステムダウンを回避することのできるデータ処
理システムを提供することにある。
また、本発明の他の目的は、装置全体が停止しなけれ
ばならないような障害が発生した場合、全ての処理装置
が誤動作することなく停止可能なハードウエア凍結方式
を備え、かつ、複雑な論理を追加することなく、全ての
処理装置のハードウエア情報を詳細に把握することので
きる障害検出方式を備えたデータ処理システムを提供す
ることにある。
さらに、本発明の他の目的は、障害発生により凍結さ
れた、マルチプロセッサを構成する各処理装置を、サー
ビスプロセッサによりシリアルに回復させることによ
り、処理装置及びサービスプロセッサ等の増設等による
システムの再構築の際にも容易に対応することのできる
データ処理システムを提供することにある。
[課題を解決するための手段] 本発明によれば前記目的は、障害発生時に、障害の諸
元によりログ情報採取動作の対象となる装置を判定する
手段と、その結果により、当該装置の動作のみを停止さ
せる手段とを備え、障害に関連のない装置の動作を停止
させることなく、ログ情報の採取を行い得るようにする
ことにより達成される。
また、前記他の目的は、全装置を停止させ、全装置か
らログ情報の採取を行う必要のある他の全ての装置に影
響を与える障害が発生した場合、自装置を停止させ、そ
の障害を他の全ての装置に通知する手段と、他の装置か
らの障害通知により自装置を停止させる手段と、回復処
理時、まだ回復していない他の装置からの障害通知によ
る停止要求(凍結要求)を抑止する手段とを備え、サー
ビスプロセッサに、ログ情報の採取を行わせるようにす
ることにより達成される。
[作 用] 本発明によれば、発生した障害が、障害が発生した装
置にのみ影響を与える障害である場合、その装置のみを
停止させることができ、他の装置を停止させることがな
いので、システムダウンを少なくすることができ、処理
効率の向上を図ることができる。
また、発生した障害が、全ての装置に影響を与える障
害の場合、直ちに全ての装置を停止させることができる
ので、全ての装置で誤動作を生じることがなく、全ての
装置から障害解析に不可欠なログ情報を採取することが
できる。
さらに、回復処理時、他の装置からの障害通知による
凍結要求を抑止する手段を備えているので、他の装置を
意識せず、それぞれの装置が自装置内で障害回復処理を
行うことができ、サービスプロセッサによる障害回復処
理を簡略化することができると共に、処理装置及びサー
ビスプロセッサが増設されたばあい等にも容易に対処す
ることができる。
[実施例] 以下、本発明によるデータ処理システムの実施例を図
面により詳細に説明する。
第1図は本発明の第1の実施例のシステム構成を示す
ブロック図、第2図は抑止条件生成回路の詳細を示す回
路図である。第1図において、1、2は命令プロセッサ
(IP)、3は入出力プロセッサ(IOP)、4はシステム
コントローラ(SC)、5は主記憶装置、6はサービスプ
ロセッサ(SVP)、7はSVPの記憶装置、8〜10はエラー
検出回路、11は抑止条件生成回路、15はリクエスト選択
回路である。
本発明の第1の実施例は、第1図に示すように、複数
の命令プロセッサ1、2と、入出力プロセッサ3とが、
システムコントローラ4に接続され、該システムコント
ローラ4を介して主記憶装置5をアクセスすることが可
能に構成されている。そして、これらの各装置は、サー
ビスプロセッサ6に接続されている。
前述のように構成されている本発明の第1の実施例に
おいて、命令プロセッサ1(IP0)に障害が発生する
と、命令プロセッサ1の内部に備えられるエラー検出回
路8は、その障害を検出し、システムコントローラ4の
内部に設けられている抑止条件生成回路11に障害報告信
号16、17を送出する。
この障害報告信号は、命令プロセッサ1固有の障害
で、システム全体に影響を及ぼさない障害を報告する障
害報告信号16と、システム全体に影響を及ぼす可能性の
ある障害を報告する障害報告信号17の2種類があり、こ
の選択は、エラー検出回路8により行われる。
同様に、命令プロセッサ2(IP1)に障害が発生すれ
ば、命令プロセッサ2内部のエラー検出回路9は、その
障害を検出して抑止条件生成回路11に障害報告信号19、
20を送出する。
抑止条件生成回路11は、例えば、障害報告信号16が送
られてきた場合、命令プロセッサ1のみを抑止する抑止
条件を生成し、また、障害報告信号17が送られてきた場
合、全命令プロセッサ及び入出力プロセッサ3を抑止す
る抑止条件を生成する。さらに、抑止条件生成回路11
は、システムコントローラ4の内部で障害が発生し、エ
ラー検出回路10から障害報告信号23が与えられた場合に
も、全命令プロセッサ及び入出力プロセッサ3を抑止す
る抑止条件を生成する。
抑止条件生成回路11は、第2図に示すように、前述し
た障害報告信号が入力されるORゲート回路33〜35と、命
令プロセッサ及び入出力プロセッサに対する抑止信号を
出力するフリップフロップ30〜32とを備えて構成されて
いる。
すなわち、この回路は、命令プロセッサ1または2か
らのIP固有の障害を示す障害報告信号16、19が与えられ
たとき、ORゲート回路33、34及びフリップフロップ30、
31を介して、それぞれの報告信号に対応する命令プロセ
ッサを抑止するための抑止信号27、28を出力し、システ
ム全体に影響を及ぼす障害報告信号17、20、23の少なく
とも1つが与えられたとき、ORゲート回路35及びORゲー
ト回路31、32を介して全てのフリップフロップ30〜32を
セットし、全てのプロセッサを抑止するために抑止信号
27〜29を出力する。
なお、この抑止信号は、サービスプロセッサ6が、ロ
グ情報の収集を終了したときに、サービスプロセッサ6
からの制御信号36により解除される。
これらの抑止信号27〜29は、各プロセッサ1〜3から
出力されるリクエスト信号18、21、22のそれぞれと共に
ゲート回路12〜14に入力され、これらのゲート回路を介
してリクエスト選択回路15に与えられる。
リクエスト選択回路15は、各プロセッサ1〜3からの
リクエストの1つを選択し、システムコントローラ4内
で、そのリクエストの処理を行わせるものであるが、前
記ゲート12〜14は、抑止条件生成回路11からの抑止信号
が与えられた場合、対応するプロセッサからのリクエス
トを抑止するので、このリクエストは、リクエスト選択
回路に入力されずに抑止されることになる。
この結果、各プロセッサを抑止するための抑止信号が
抑止条件生成回路11から発せられている場合、対応する
リクエスト信号18、21及び22は、リクエスト選択回路15
に入力されないことになり、システムコントローラ4
は、そのリクエストに対する処理を行わず、リクエスト
を発したプロセッサは、その動作を継続することができ
なくなり停止状態となる。
サービスプロセッサ6は、動作を停止したプロセッサ
に対してのみ、ログ情報収集の動作を行い、障害を除去
した後制御信号36をシステムコントローラ4に送出する
ことにより、システム全体を再び動作状態とする。
前述した本発明の第1の実施例によれば、複数のプロ
セッサにより構成されるデータ処理システムにおいて、
障害が発生した場合にも、その障害が他に影響を及ぼす
恐れのない障害の場合には、障害を生じた装置のみを停
止させて、他の装置の動作を継続させ、停止した装置の
みのログ情報の収集を行うことができるので、装置全体
のシステムダウンを防止することができ、データ処理シ
ステムの処理効率を向上させることができると共に、入
出力装置等のオーバーランを防止することができる。
前述した本発明の第1の実施例は、データ処理システ
ムを、命令プロセッサ2台、入出力プロセッサ1台で構
成したものとしたが、これらのプロセッサを、さらに多
数備えてデータ処理システムを構成してもよい。また、
本発明の第1の実施例は、障害となったプロセッサを停
止させるために、各プロセッサからのリクエスト信号を
抑止したが、クロック信号を抑止してプロセッサを停止
するようにしてもよい。
前述した本発明の第1の実施例では、発生した障害
が、システム全体に与える恐れのある障害の場合、障害
を生じた装置だけでなく他の装置の動作をも停止させて
いるが、障害を生じていない装置が停止するまでにある
程度の時間を要し、その間に、障害を生じていない装置
が誤動作をする恐れがある。
本発明の第2の実施例は、前述のような場合にも、誤
動作を起こすことがないようにしたものであり、以下、
本発明の第2の実施例を図面により詳細に説明する。
第3図は本発明の第2の実施例の構成を示すブロック
図、第4図は障害監視制御ユニットの構成を示す論理
図、第5図は障害時の動作を説明するフローチャート、
第6図はMCW回復動作を説明するフローチャートであ
る。第3図、第4図において、41はタイミング制御部、
42はサービスプロセッサ(SVP)、50、70はCPU、51、71
は独立論理ユニット、52、72は共通論理ユニット、53、
73は障害監視制御ユニット(MCU)である。
本発明の第2の実施例は、第3図に示すように、2台
のCPU50、70と、1台のサービスプロセッサ42とにより
マルチプロセッサ方式のデータ処理システムを構成した
例である。
第3図において、CPU50、70は、命令実行、演算等の
各CPU内で独立に動作する独立論理ユニット(EU)51、7
1と、図示しない主記憶装置等の、前記CPU50及び70で共
有する資源を制御、処理するための共通論理ユニット
(SCU)42、72と、前記独立論理ユニット(EU)51、71
及び共通論理ユニット(SCU)42、72において、パリテ
ィチェック等により検出された障害を監視、制御する障
害監視制御ユニット(MCU)53、73とを備えて構成され
ている。
そして、前記独立論理ユニット(EU)51、71に発生す
る障害は、他のCPUに影響を与えない障害であり、ま
た、共通論理ユニット(SCU)42、72に発生する障害
は、他のCPUに影響を与える障害である。
サービスプロセッサ42は、制御線55及び75を用いて、
前記独立論理ユニット51、71、共通論理ユニット52、72
及び障害監視制御ユニット53、73に対するスキャン動作
を行い、制御線46、76を用いて、前記独立論理ユニット
51、71、共通論理ユニット52、72及び障害監視制御ユニ
ット53、73に対するリセットを実行する。また、サービ
スプロセッサ42は、制御線57、77を介して、前記障害監
視制御ユニット53、73から通知される、CPU50、70の障
害発生を検知することができる。
なお、前記独立論理ユニット51、71及び共通論理ユニ
ット52、72に対する実行タイミングは、タイミング制御
部41から、ANDゲート回路54、74及び制御線58、78を介
して与えられている。
前記障害監視制御ユニット53、73の論理は、第4図に
示すように構成されている。
第4図において、MCWレジスタ64は、通常、IPL(イニ
シャルプログラムロード)の際に、サービスプロセッサ
42により、制御線55を介して“1"にスキャンインされて
おり、ONとなっている。制御線59、60には、共通論理ユ
ニット52及び独立論理ユニット51からの障害検出信号が
送られ、これらの障害検出信号は、ORゲート67を介して
CPU70への制御線63により、また、ORゲート68を介して
サービスプロセッサへの制御線57により、CPU70及びサ
ービスプロセッサ42に送られ、CPU50の障害を通知す
る。
制御線63を介してCPU70に送られるCPU50における障害
検出信号は、CPU70内のANDゲート85を介してフリップフ
ロップ(FF)86を“1"にセットする。
前述では、障害監視制御ユニット53について説明した
が、障害監視ユニット73についても同様である。
次に、共通論理ユニット52において障害が検出された
場合を例として、第5図のフローチャートを参照し、本
発明の第2の実施例の動作を説明する。
(1)共通論理ユニット52において障害が検出される
と、この障害が制御線59を介して障害監視制御ユニット
53に報告される。この共通論理ユニット52の障害は、他
のCPU、この場合CPU70にも影響を与える障害であり、こ
の報告を受けた障害監視ユニット53は、ORゲート67、68
及び制御線57を介して、サービスプロセッサ42に障害の
発生を通知すると共に、ORゲート68の出力を反転ゲート
69及び制御線62を介してANDゲート54に与えることによ
り、タイミング制御部41から共通論理ユニット52及び独
立論理ユニットに与えられる実行タイミングを凍結しCP
U50を停止させる。また、ORゲート67の出力が、制御線6
7を介してCPU70に対して障害検出による凍結要求として
送出され、ANDゲート75に入力される(ステップ501)。
(2)CPU50より障害検出による凍結要求を受けたCPU70
内の障害監視制御ユニット53は、MCWレジスタ84がONで
あれば、ANDゲート85を介してフリップフロップ86を
“1"にセットし、ステップ501により説明した障害監視
制御ユニット53の場合と同様に、制御線77を介してサー
ビスプロセッサ42に障害の検出を通知し、制御線82によ
り、独立論理ユニット71及び共通論理ユニット72に対す
る実行制御タイミングを凍結し、さらに、ORゲート87の
出力をCPU50の障害監視制御ユニット53に送り、フリッ
プフロップ66を“1"にセットする(ステップ511)。
(3)障害検出報告を受けたサービスプロセッサ42は、
まず、CPU50の障害回復処理を実行する。すなわち、サ
ービスプロセッサ42は、COU10のハードウエア情報(ロ
グ情報)の採取を行い、このログ情報によりその障害が
共通論理ユニット52の障害(SCUCK)であるか否かを判
定する(ステップ503、504)。
(5)ステップ504で、障害の発生が共通論理ユニット5
2であると判定した場合、制御線55により、障害監視制
御ユニット53内のMCWレジスタ64を“0"にリセットし、C
PU70の障害監視制御ユニット73から制御線73を介して送
られるCPU50に対する凍結要求をANDゲート65により抑止
する(ステップ505)。
(6)次に、サービスプロセッサ42は、CPU50に対し、
制御線56を介してリセットを発行し、独立論理ユニット
51及び共通論理ユニット52を初期状態とし、CPU70から
の凍結要求を保持しているフリップフロップ66を“0"に
リセットすると共に、リスタートを発行する(ステップ
506)。
(7)ステップ506の処理により、CPU50は、再びタイミ
ング制御部41より実行制御タイミングが与えられ、ソフ
トウエアによる障害回復処理を実行する(ステップ50
2)。
(8)次に、サービスプロセッサ42は、CPU70に対し、
前述のステップ503〜506と同様な処理を行い、CPU70に
障害回復処理を実行させる(ステップ507〜510、51
2)。
前述した共通論理部の障害発生による障害回復処理に
おいて、コントロールバス43を他のCPUの状態を参照
し、他のCPUが障害から回復していれば、自CPUのMCWレ
ジスタを、制御線61または81により“1"にセットする。
これにより、再び共通論理ユニットにおいて障害が発生
した場合にも、全てのCPUに対して、即時に凍結処理を
行い、ログ情報の採取が可能となる。
第6図は、このMCWレジスタの回復処理を示すフロー
チャートであり、以下、これについて説明する。
(1)CPU50の障害回復処理において、CPU50は、他のCP
U、この場合CPU70の状態をコントロールバス43を介して
参照し、他のCPUが障害状態にあるか否かを判定する
(ステップ601、602)。
(2)ステップ602で、他のCPUが障害状態でない場合、
MCWレジスタ64を“1"にセットし、自CPUの障害の回復を
他のCPUに通知する(ステップ603、604)。
(3)CPU70の障害回復処理においても、前述のステッ
プ601〜604と同様に、MCWレジスタ84を“1"にセットし
て、自CPUの障害回復をCPU50に報告する(ステップ605
〜608)。
(4)自CPUが正常な状態で、他のCPUのみが障害とな
り、その障害回復の報告を受けた場合、そのCPUは、割
り込み処理によりMCWレジスタを“1"にセットする(ス
テップ609)。
前述した本発明の第2の実施例の動作の説明は、共通
論理ユニットの障害、すなわち、他のCPU等の装置にも
影響を及ぼす障害が発生した場合であったが、独立論理
ユニット51、71に障害が発生した場合、この障害は、他
のCPUに影響を与えない障害であるので、他のCPUの凍結
を行わずに、MCWレジスタの操作を行う以外、前述した
例と同様な、障害により凍結されたCPUに対してのみ障
害回復処理が行われる。
前述した本発明の第2の実施例は、2台のCPUと1台
のサービスプロセッサを備えるシステムに本発明を適用
したものであるが、本発明は、さらに多くのCPU、サー
ビスプロセッサ等を備えるシステムにも適用することが
できる。
前述した本発明第2の実施例によれば、複数のCPUに
対する共通障害を検出した場合、即時に全てのCPUを凍
結できるため、障害を検出した他のCPUの誤動作を防止
することができ、障害の解析に不可欠なログ情報を、全
てのCPUから採取することが可能となる。
また、障害回復の処理時、他のCPUからの凍結要求を
抑止することができるので、サービスプロセッサは、複
数のCPUから障害発生報告を受けた場合にも、各CPUに対
して順次障害回復処理を行えばよく、CPU構成を意識し
ない簡略な障害回復処理によりCPUの回復を行うことが
できる。
さらに、障害回復処理を、他のCPUを意識することな
く順次行えばよいため、システムを構成するCPUの数を
意識する必要がなく、CPU及びサービスプロセッサ等の
増減によるシステムの再構築が行われた場合にも容易に
対応することが可能となる。
[発明の効果] 以上説明したように本発明によれば、障害の発生時、
その障害に無関係な装置の動作を継続させることがで
き、入出力装置等の機械的動作を伴う装置の負担を軽減
させることができ、大型の障害にとって致命的なシステ
ムダウンを回避することができる。また、障害が、シス
テム全体に影響を及ぼすような場合にも、障害装置以外
の装置が誤動作を起こすことを防止することができる。
【図面の簡単な説明】
第1図は本発明の第1の実施例のシステム構成を示すブ
ロック図、第2図は抑止条件生成回路の詳細を示す回路
図、第3図は本発明の第2の実施例の構成を示すブロッ
ク図、第4図は障害監視制御ユニットの構成を示す論理
図、第5図は障害時の動作を説明するフローチャート、
第6図はMCW回復動作を説明するフローチャートであ
る。 1、2……命令プロセッサ(IP)、3……入出力プロセ
ッサ(IOP)、4……システムコントローラ(SC)、5
……主記憶装置、6……サービスプロセッサ(SVP)、
7……SVPの記憶装置、8〜10……エラー検出回路、11
……抑止条件生成回路、15……リクエスト選択回路、41
……タイミング制御部、42……サービスプロセッサ(SV
P)、50、70……CPU、51、71……独立論理ユニット、5
2、72……共通論理ユニット、53、73……障害監視制御
ユニット(MCU)である。
フロントページの続き (72)発明者 杉岡 雅行 神奈川県秦野市堀山下1番地 日立コン ピュータエンジニアリング株式会社内 (72)発明者 柿田 宏 神奈川県秦野市堀山下1番地 株式会社 日立製作所神奈川工場内 (72)発明者 渡部 真也 神奈川県秦野市堀山下1番地 株式会社 日立製作所神奈川工場内 (72)発明者 山本 章雄 神奈川県秦野市堀山下1番地 株式会社 日立製作所神奈川工場内 (56)参考文献 特開 昭59−165171(JP,A) 特開 昭55−6672(JP,A) 特開 昭55−121566(JP,A) 特開 昭63−304333(JP,A)

Claims (4)

    (57)【特許請求の範囲】
  1. 【請求項1】複数の処理装置と、システムコントローラ
    と、障害発生時にログ情報の収集を行う機能を有するサ
    ービスプロセッサとを備えるデータ処理システムにおい
    て、前記複数の処理装置のそれぞれは、障害発生時に、
    その障害が、他の全ての装置に影響を与える障害か、あ
    るいは、障害を生じた装置のみが影響を受ける障害かを
    判定する手段を備え、前記システムコントローラは、こ
    の判定結果が障害を生じた装置のみに影響を与える障害
    であった場合に、当該装置の動作のみを停止させる手段
    を備え、前記サービスプロセッサは、障害に関連のない
    装置の動作を停止させることなく、停止した障害装置の
    みのログ情報の採取を行うことを特徴とするデータ処理
    システム。
  2. 【請求項2】複数の処理装置と、障害発生時にログ情報
    の収集を行う機能を有するサービスプロセッサとを備え
    るデータ処理システムにおいて、前記複数の処理装置の
    それぞれは、障害発生時に、その障害が、他の全ての装
    置に影響を与える障害か、あるいは、障害を生じた装置
    のみが影響を受ける障害かを判定する手段と、自装置の
    障害に関する前記判定結果が他の全ての装置に影響を与
    える障害であった場合、自装置を停止させ、その障害を
    他の全ての装置に通知する手段と、他の装置からの障害
    通知により自装置を停止させる手段とを備え、前記サー
    ビスプロセッサは、前記複数の処理装置のそれぞれのロ
    グ情報の採取を順次行うことを特徴とするデータ処理シ
    ステム。
  3. 【請求項3】前記複数の処理装置のそれぞれは、回復処
    理時、まだ回復していない他の装置からの障害通知によ
    る停止要求を抑止する手段を、さらに備えることを特徴
    とする特許請求の範囲第2項記載のデータ処理システ
    ム。
  4. 【請求項4】前記他の全ての装置への障害の通知は、前
    記装置相互間を直接接続するように備えられる制御線を
    介して行われることを特徴とする特許請求の範囲第2項
    または第3項記載のデータ処理システム。
JP1317651A 1989-12-08 1989-12-08 データ処理システム Expired - Fee Related JP2956849B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP1317651A JP2956849B2 (ja) 1989-12-08 1989-12-08 データ処理システム
DE19904039013 DE4039013A1 (de) 1989-12-08 1990-12-06 Vorrichtung zur erfassung von informationen ueber fehlfunktionen in einem multiprozessor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1317651A JP2956849B2 (ja) 1989-12-08 1989-12-08 データ処理システム

Publications (2)

Publication Number Publication Date
JPH03179538A JPH03179538A (ja) 1991-08-05
JP2956849B2 true JP2956849B2 (ja) 1999-10-04

Family

ID=18090521

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1317651A Expired - Fee Related JP2956849B2 (ja) 1989-12-08 1989-12-08 データ処理システム

Country Status (2)

Country Link
JP (1) JP2956849B2 (ja)
DE (1) DE4039013A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5467172B1 (ja) * 2013-09-18 2014-04-09 オリバー カルトシュタイン 情報処理システム、および情報処理方法
CN104090831A (zh) * 2014-07-04 2014-10-08 珠海格力电器股份有限公司 除湿机焊堵自检的方法

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0612288A (ja) * 1992-06-29 1994-01-21 Hitachi Ltd 情報処理システム及びその監視方法
US6502208B1 (en) 1997-03-31 2002-12-31 International Business Machines Corporation Method and system for check stop error handling
DE19752853C1 (de) * 1997-11-28 1999-02-11 Siemens Nixdorf Inf Syst Verfahren und System zum Verarbeiten von Alarmmeldungen in einem Rechnerverbundnetz mit mehreren Personal Computern
DE19752792B4 (de) * 1997-11-28 2004-04-15 Phoenix Contact Gmbh & Co. Kg Einrichtung zur Selbstdiagnose von im wesentlichen sporadischen Fehlern in seriellen Übertragungssystemen
DE19828173A1 (de) * 1998-06-24 1999-12-30 Siemens Ag Netzwerk mit mehreren Teilnehmern sowie Teilnehmer für ein derartiges Netzwerk

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS556672A (en) * 1978-06-30 1980-01-18 Fujitsu Ltd Data processing system with service processor
JPS55121566A (en) * 1979-03-12 1980-09-18 Hitachi Ltd Information processor
US4453213A (en) * 1981-07-30 1984-06-05 Harris Corporation Error reporting scheme
JPS59165171A (ja) * 1983-03-11 1984-09-18 Hitachi Ltd マルチプロセツサシステムにおける個別リセツト方式
JPS61273643A (ja) * 1985-05-29 1986-12-03 Fujitsu Ltd マルチシステムのログアウト制御方式
JPS63251841A (ja) * 1987-04-08 1988-10-19 Seiko Epson Corp マルチプロセツサの異常検出制御方法
JPS63251840A (ja) * 1987-04-08 1988-10-19 Seiko Epson Corp マルチプロセツサの異常検出制御方法
JPH0827734B2 (ja) * 1987-04-21 1996-03-21 富士通株式会社 マルチプロセツサシステムにおける異常発生時のデ−タ収集方式
JPS63304333A (ja) * 1987-06-04 1988-12-12 Nec Corp 情報処理装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5467172B1 (ja) * 2013-09-18 2014-04-09 オリバー カルトシュタイン 情報処理システム、および情報処理方法
US9342359B2 (en) 2013-09-18 2016-05-17 Oliver Kaltstein Information processing system and information processing method
CN104090831A (zh) * 2014-07-04 2014-10-08 珠海格力电器股份有限公司 除湿机焊堵自检的方法

Also Published As

Publication number Publication date
DE4039013A1 (de) 1991-06-13
DE4039013C2 (ja) 1993-07-01
JPH03179538A (ja) 1991-08-05

Similar Documents

Publication Publication Date Title
JP2001350651A (ja) 故障状態を分離する方法
JPH0950424A (ja) ダンプ採取装置およびダンプ採取方法
JP2956849B2 (ja) データ処理システム
JP3806600B2 (ja) 多重系システムの系切り替え方法
EP0125797B1 (en) Interrupt signal handling apparatus
JPH0375834A (ja) パリティの置換装置及び方法
JP3838992B2 (ja) 障害検出方法及び情報処理システム
JPH07183891A (ja) 計算機システム
JPH0736721A (ja) 多重化コンピュータシステムの制御方式
JPS6146543A (ja) 転送装置の障害処理方式
JPH0934852A (ja) クラスタシステム
JP2633351B2 (ja) 制御装置の故障検出機構
JP3311704B2 (ja) マルチプロセッサ通信機構の故障処理方法
JPH05224964A (ja) バス異常通知方式
JP2001175545A (ja) サーバシステムおよび障害診断方法ならびに記録媒体
KR100303341B1 (ko) 소형컴퓨터시스템인터페이스버스비지상태회복방법
JP3019409B2 (ja) マルチプロセッサシステムのマシンチェックテスト方法
JP3055249B2 (ja) プロセッサのデバッグ方式
JP2922981B2 (ja) タスクの実行継続方法
JPS60195649A (ja) マイクロプログラム制御型デ−タ処理装置におけるエラ−報告方式
KR100257162B1 (ko) 이중화 시스템에서 상대 시스템의 감시방법 및 장치
JPH08235133A (ja) 多重処理システム
JPS62296264A (ja) デ−タ処理システムの構成制御方式
JPH01230111A (ja) 電源制御方式
KR19990050461A (ko) 고 가용성 시스템의 오류 처리방법

Legal Events

Date Code Title Description
S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313115

S631 Written request for registration of reclamation of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313631

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313115

S631 Written request for registration of reclamation of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313631

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313115

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070723

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080723

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees