JP2633351B2 - 制御装置の故障検出機構 - Google Patents

制御装置の故障検出機構

Info

Publication number
JP2633351B2
JP2633351B2 JP1104142A JP10414289A JP2633351B2 JP 2633351 B2 JP2633351 B2 JP 2633351B2 JP 1104142 A JP1104142 A JP 1104142A JP 10414289 A JP10414289 A JP 10414289A JP 2633351 B2 JP2633351 B2 JP 2633351B2
Authority
JP
Japan
Prior art keywords
control unit
card
failure
message
normal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP1104142A
Other languages
English (en)
Other versions
JPH02281368A (ja
Inventor
明男 戸田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP1104142A priority Critical patent/JP2633351B2/ja
Publication of JPH02281368A publication Critical patent/JPH02281368A/ja
Application granted granted Critical
Publication of JP2633351B2 publication Critical patent/JP2633351B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Debugging And Monitoring (AREA)

Description

【発明の詳細な説明】 〔産業上の利用分野〕 この発明は特に制御ユニットを複数個もつマルチプロ
セッサ方式のプログラマブル制御装置の故障検出機構に
関するものである。
〔従来の技術〕
第4図は、例えば「bit」P19〜P34に掲載された「フ
ォールトトレラントデザインの概要」(共立出版社、19
87年9月発光)に示された従来のマルチプロセッサ方式
のプログラマブル制御装置の故障カード検出機構を示す
図であり、図において(1-1)〜(1-N)は演算制御部、
(4)はシステムバスである。第5図は第4図の演算制
御部(1-N)を詳細説明したもので、(8-N)は他の演算
制御部にメッセージを送るメッセージ送信部、(9-N)
は他の演算制御部からメッセージを受けるメッセージ受
信部、(10-N)は自カード重故障メッセージ管理部、
(11-N)は自カード正常メッセージ管理部、(12-N)は
他カード正常メッセージ管理部、(13-N)は故障カード
テーブル、(14-N)は他カード重故障メッセージ管理部
である。
また、第6図は故障カードテーブル(13-N)の構成例
であり、(20-1)〜(20-N)が各演算制御部(1-1)〜
(1-N)の各々が重故障になったことを示す重故障フラ
グであり、演算制御部が重故障になれば該当する重故障
フラグがセットされる。
尚、本発明でいう重故障とは例えばメモリパリティー
エラー等のハードウェアの継続実行が不可能な故障をさ
すが、一般的に継続実行可能な軽故障やソフトウェアの
不具合による故障であっても同様の動作が得られる。
次に動作について説明する。演算制御部(1-1)〜(1
-N)の各々は通常、プログラムを実行しながら自カード
に故障がなく正常に稼動していることを他カードに知ら
せるため自カード正常メッセージを出力する。すなわち
今演算制御部(1-N)に着目した場合、この演算制御部
(1-N)では自カード正常メッセージ管理部(11-N)に
おいてある一定周期にて他の各演算制御部に対しメッセ
ージ送信部(8-N)を経由して自カード正常メッセージ
を順次送出する。この信号関係を第8図のタイミング1
に示す。この自カード正常メッセージを送信先演算制御
部(例えば演算制御部(1-1)は自カードのメッセージ
受信部(9-1)にて受信し、他カード正常メッセージ管
理部(12-1)に送る。他カード正常メッセージ管理部
(12-1)では、そのメッセージ受信を記録する。そうし
て、ある一定時間以内に同一演算制御部(この場合演算
制御部(1-N)からの自カード正常メッセージが届かな
い場合該当演算制御部を重故障と判断し例えば第6図に
示される様な故障カードテーブル(13-1)の該当演算制
御部に相当するデータ(この場合重故障フラグ(20-N)
をセットする。さらに、従来の方法では、演算制御部
(例えば演算制御部(1-N))自身が自カード重故障を
検出した場合、自カード重故障メッセージ管理部(10-
N)はメッセージ送信部(8-N)を経由して他の演算制御
部(この場合演算制御部(1-1)〜(1-(N-1)))に対
して自カード重故障メッセージを出力する。そうして、
このメッセージを受けた演算制御部(例えば演算制御部
(1-1))はメッセージ受信部(8-1)を経由して他カー
ド重故障メッセージ管理部(10-N)にメッセージを渡
し、故障カードテーブル(13-1)の該当演算制御部に相
当するデータ(この場合重故障フラグ(20-N))をセッ
トする。この故障カードテーブル(13-1)は、演算制御
部(1-1)が他の演算制御部にメッセージにて要求を送
る時に参照され、例えば前記のように相手の演算制御部
(例えば演算制御部(1-N))が故障状態であれば演算
制御部(1-N)に対するメッセージ出力は行なわれな
い。
〔発明が解決しようとする課題〕
従来のマルチプロセッサシステムの故障カード検出機
構は以上の様に構成されているので、自カード正常メッ
セージをお互いに監視することにより故障カードを検出
する場合、ある演算制御部の故障発生を他の演算制御部
が認識する迄に時間がかかり、故障処理が遅れるという
問題点があり、自カード重故障メッセージにより正常演
算制御部が故障カードを認識する場合、該当する重故障
の演算制御部がその重故障メッセージを出力できない故
障状態の時、結局は前記の自カード正常メッセージによ
る方法で故障カードを検出しなければならず前記と同様
の課題があった。
この発明は上記の様な課題を解消するためになされた
もので、マルチプロセッサシステムで故障カードが発生
した場合、その故障状態により演算制御部のメッセージ
出力が可能,不可能にかかわらずいち早く他の演算制御
部に故障カードの発生を知らせることにより迅速な故障
処理ができるとともに、耐故障性を向上したシステムを
得ることを目的とする。
〔課題を解決するための手段〕
この発明に係るマルチプロセッサ方式のプログラマブ
ル制御装置の故障カード検出機構は、演算制御部が故障
状態になった時、システムバスに故障信号を出力し、こ
の故障信号を受けた他の正常な演算制御部が故障カード
の発生を検出し、管理部に自カードの正常メッセージを
送信し、管理部では、この正常メッセージの監視を行な
うことにより故障カードを検出して正常な演算制御部に
故障カードの通知をすることができる様にしたものであ
る。
〔作用〕
この発明におけるマルチプロセッサ方式のプログラマ
ブル制御装置の故障カード検出機構は、演算制御部が故
障状態になった場合その故障状態でメッセージ出力が可
能,不可能にかかわらず即座にその発生が他の正常な演
算制御部に通知され正常な演算制御部は自カードが正常
であることを管理部に送り、管理部でその監視をするこ
とにより管理部で故障カードが認識でき、正常な各演算
制御部に故障カードの発生を通知することが可能とな
り、迅速に故障処理が行なえ耐故障性が向上するという
作用がある。
〔発明の実施例〕
以下、この発明の一実施例を図について説明する。第
1図,第2図,第3図において、(2)はシステムの監
視を行なう管理部、(3)は各演算制御部が重故障状態
になった時に出力する重故障信号、第1図の演算制御部
(1-N)を詳細説明した第2図において、(5-N)は重故
障信号(3)を出力する自カード重故障信号出力部、
(6-N)は重故障信号(3)を取り込む他カード重故障
信号入力部、(7-N)は管理部(2)からの故障カード
発生メッセージを受ける重故障カード発生メッセージ管
理部、第1図の管理部(2)と詳細説明した第3図にお
いて、(15)は重故障信号(3)を受ける重故障信号入
力部、(16)は重故障信号(3)により各演算制御部
(1-1)〜(1-N)が発行する自カード正常メッセージの
受信を監視する正常メッセージ応答監視部、(17)は管
理部(2)が重故障カードを検出した時に各演算制御部
に重故障カードが発生したことを知らせる重故障カード
発生メッセージ出力部である。第7図は本発明の実施例
を示すフローチャートである。
次に動作について説明する。演算制御部の台数は何台
でもよいが簡単のため2台の場合を考える。通常の自カ
ード正常メッセージによる故障カードの検出は従来技術
と同じであるのでここでは省略する。
例えば演算制御部(1-1)が重故障となった時、自カ
ード故障信号出力部(5-1)は、重故障信号(3)を出
力し、演算制御部(1-2)と管理部(2)に重故障にな
ったことを通知する(第7図Step 1)。重故障信号
(3)を受けた演算制御部(1-2)は他カード重故障信
号入力部(6-2)により重故障信号(3)を認識し(第
7図Step 2)自カード正常メッセージ管理部(11-2)へ
管理部(2)に対して自カード正常メッセージを通知す
る様に要求する。これにより、自カード正常メッセージ
管理部(11-2)はメッセージ送信部(8-2)を介して管
理部(2)に自カード正常メッセージを送る(第7図St
ep 3)。また管理部(2)は重故障信号(3)を重故障
信号入力部(15)により認識し、(第7図Step 4)、正
常メッセージ応答監視部(16)に対し演算制御部(1-
1)〜(1-2)からの自カード正常メッセージの応答監視
を要求する(第7図Step 5)。正常メッセージ応答監視
部(16)はシステムバス(4)に接続されている演算制
御部(1-1)〜(1-2)からの自カード正常メッセージの
応答監視を行ない(第7図Step 6)、応答の返ってこな
かった演算制御部(この例では、演算制御部(1-1))
を重故障カードとして判断し、(第7図Step 7)、重故
障カード発生メッセージ出力部(17)に対し故障カード
発生を通知する。重故障カード発生メッセージ出力部
(17)は故障カード発生を受けて自カード正常メッセー
ジを返した演算制御部(1-2)に対し、演算制御部(1-
1)が重故障になったというメッセージを送る(第7図S
tep 8)。このメッセージを受けた演算制御部(1-2)は
メッセージ受信部(9-2)を介して重故障カード発生メ
ッセージ管理部(7-2)に演算制御(1-1)が重故障にな
ったことを通知する。この通知を受けて重故障カード発
生メッセージ管理部(7-2)は演算制御部(1-1)が重故
障になったということで故障カードテーブル(13-2)の
重故障フラグ(20-1)をセットする(第7図Step 9)。
前記重故障フラグ(20-1)がセットされている時に演算
制御部(1-2)が演算制御部(1-1)にメッセージ通信を
行なおうとした場合この処理は中止され不必要なメッセ
ージ通信は行なわれない。また、演算制御部(1-2)が
演算制御部(1-1)の予備プロセッサとして登録されて
いる場合は、演算制御部(1-2)がマスタプロセッサと
して稼動しはじめる。
この発明によれば、第8図に示すようにタイミング1
に示す従来方法は正常メッセージ1から次の正常メッセ
ージ2迄の間(T1)に故障が発生しても(タイミング
2)正常メッセージ2の時間になる迄その発生を認識す
ることができなかったが、本発明によれば第8図のタイ
ミング2で発生した故障は、即座に重故障信号により他
の演算制御部が認識できるため、他の演算制御部は第8
図のタイミング3で自カード正常メッセージを管理部に
送出できることができ、従来に比べT2時間の故障検出の
スピードアップが可能となり、従って、制御装置として
の信頼性向上が期待できる。
また、従来の故障カード検出機構は一定周期にシステ
ムバスを占有しメッセージ発行を行なうためシステムが
正常であっても演算制御部で実行されるアプリケーショ
ンプログラムのシステムバスの使用効率が低くなるとい
う問題があったが、本発明では故障発生時にのみシステ
ムバスを占有するためシステムが正常の場合のアプリケ
ーションプログラムのシステムバスの使用効率が向上す
るという効果がある。
上記実施例では、管理部を演算制御部と分けた例を示
したが、演算制御部に管理部の機能をもたせてもよく、
又管理部(2)に演算制御部の機能をもたせてもよい。
また故障カードテーブルを各演算制御部上に持たせた
が、共有メモリを持つシステムにおいては、この共有メ
モリ上に故障カードテーブルを持たせて管理部が重故障
フラグのセットをする様にしてもよい。
さらに、重故障の演算制御部が発生した時、正常な演
算制御部は管理部に対して自カード正常メッセージを送
る様に構成したが、各演算制御部に対して自カード正常
メッセージを送りそれを受けた各演算制御部において応
答のない演算制御部を重故障カードと認識する様に構成
してもよい。
又、上記実施例では、カードの故障検出機構について
示したが一枚のカードにおける各単体機能に対する故障
検出に用いてもよい。
〔発明の効果〕
以上の様に、この発明によれば演算制御部で故障が発
生した時に故障信号を出力し他の正常な演算制御部と管
理部に故障を通知し、通知と受けた演算制御部は管理部
に対して自カード正常メッセージを送る様にすることで
管理部にて故障カードを検出することができ、その故障
カードを正常な演算制御部に通知する様に構成したの
で、各演算制御部では迅速な故障処理が行なえるととも
に耐故障性を向上したシステムが得られるという効果が
ある。
【図面の簡単な説明】
第1図のこの発明の一実施例によるエラー検出機構を有
するマルチプロセッサシステムのプログラマブル制御装
置のブロック図、第2図は演算制御部の内部構成を示す
ブロック図、第3図は管理部の内部構成を示すブロック
図、第4図は従来のエラー検出機構を有するマルチプロ
セッサシステムのプログラマブル制御装置のブロック
図、第5図は従来の演算制御部の内部構成を示すブロッ
ク図、第6図は故障カードテーブル(13-N)の構成図、
第7図は本発明の実施例を示すフローチャート、第8図
は故障検出のタイミング図である。(1-1)〜(1-N)は
演算制御部、(2)は管理部、(3)は重故障信号、
(5-N)は自カード重故障信号出力部、(6-N)は他カー
ド重故障信号入力部、(7-N)は重故障カード発生メッ
セージ管理部、(8-N)はメッセージ送信部、(9-N)は
メッセージ受信部、(10-N)は自カード重故障メッセー
ジ管理部、(11-N)は自カード正常メッセージ管理部、
(12-N)は他カード正常メッセージ管理部(13-N)は故
障カードテーブル、(14-N)は他カード重故障メッセー
ジ管理部、(15)は重故障信号入力部、(16)は正常メ
ッセージ応答監視部、(17)は重故障カード発生メッセ
ージ出力部、(18)はメッセージ送信部、(19)はメッ
セージ受信部、(20)は重故障フラグである。 なお、図中、同一符号は同一、または相当部分を示す。

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】演算制御部を複数個有し、各演算制御部間
    でメッセージにて会話を行いながら制御プログラムが実
    行されるマルチプロセッサ方式のプログラマブル制御装
    置にあって、 前記マルチプロセッサの実行を管理すると共に、前記演
    算制御部から出力された正常メッセージを受信し、正常
    メッセージを出力しない演算制御部を故障演算制御部と
    認識して、前記正常メッセージを出力している演算制御
    部へ故障演算制御部を通知する管理部と、 前記演算制御部が故障すると、この故障した演算制御部
    から出力され、正常な前記演算制御部と前記管理部に入
    力される故障信号を発生する故障信号発生手段と、 正常な前記演算制御部が前記故障信号により故障の発生
    を認識すると、前記管理部に対し、自演算制御部が正常
    であることを認識させる正常メッセージを送出する正常
    信号発生手段とを備えたことを特徴とする制御装置の故
    障検出機構。
JP1104142A 1989-04-24 1989-04-24 制御装置の故障検出機構 Expired - Lifetime JP2633351B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1104142A JP2633351B2 (ja) 1989-04-24 1989-04-24 制御装置の故障検出機構

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1104142A JP2633351B2 (ja) 1989-04-24 1989-04-24 制御装置の故障検出機構

Publications (2)

Publication Number Publication Date
JPH02281368A JPH02281368A (ja) 1990-11-19
JP2633351B2 true JP2633351B2 (ja) 1997-07-23

Family

ID=14372845

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1104142A Expired - Lifetime JP2633351B2 (ja) 1989-04-24 1989-04-24 制御装置の故障検出機構

Country Status (1)

Country Link
JP (1) JP2633351B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04367964A (ja) * 1991-06-14 1992-12-21 Mitsubishi Electric Corp マルチプロセッサシステム
JPH05151186A (ja) * 1991-11-26 1993-06-18 Mitsubishi Electric Corp フオルトトレラント方式
JP5768434B2 (ja) * 2011-03-25 2015-08-26 富士ゼロックス株式会社 相互監視システム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
bit,Vol.19,No.9(1987.8)P.19〜34

Also Published As

Publication number Publication date
JPH02281368A (ja) 1990-11-19

Similar Documents

Publication Publication Date Title
US6175931B1 (en) Global hard error distribution using the SCI interconnect
US8018867B2 (en) Network system for monitoring operation of monitored node
JP2633351B2 (ja) 制御装置の故障検出機構
JP2956849B2 (ja) データ処理システム
JPH04299429A (ja) マルチプロセッサシステムの障害監視方式
JP2518517B2 (ja) 通信バス監視装置
JP3419979B2 (ja) 装置状態管理方法およびデータ通信システム
JPH01217666A (ja) マルチプロセッサシステムの障害検出方式
JPH11177550A (ja) ネットワークの監視方式
JP2000207373A (ja) プロセス入出力装置およびその制御方法
JPH05304528A (ja) 多重化通信ノード
JPH0934852A (ja) クラスタシステム
JP3363579B2 (ja) 監視装置及び監視システム
JPH06152570A (ja) 二重化データ処理装置における系切替え処理方式
JP2826774B2 (ja) データ転送装置
JP2834062B2 (ja) 情報処理システム
JPH05224964A (ja) バス異常通知方式
KR20000041926A (ko) 아이피씨 시스템에서 특정 프로세서에 대한 재시동장치 및방법
JPH11331194A (ja) 監視装置および監視システム
JPH09288651A (ja) 疎結合計算機システム
KR100305870B1 (ko) 공통버스 구조에서의 버스 감시기
JPH08161277A (ja) 並列計算機システム
JPH08147255A (ja) 障害監視方式
JPH01269152A (ja) 分散処理システムにおけるプロセッサ障害検出方式
JPH06103251A (ja) 情報処理装置の監視制御方式