JPH0793273A - 障害監視機構を具備したマルチcpuシステム - Google Patents

障害監視機構を具備したマルチcpuシステム

Info

Publication number
JPH0793273A
JPH0793273A JP5233662A JP23366293A JPH0793273A JP H0793273 A JPH0793273 A JP H0793273A JP 5233662 A JP5233662 A JP 5233662A JP 23366293 A JP23366293 A JP 23366293A JP H0793273 A JPH0793273 A JP H0793273A
Authority
JP
Japan
Prior art keywords
bus
fault
information
cpu
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP5233662A
Other languages
English (en)
Inventor
Takumi Maruyama
巧 丸山
Kiyoshi Sugita
清 杉田
Mitsunobu Yoshida
光伸 吉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP5233662A priority Critical patent/JPH0793273A/ja
Priority to US08/216,141 priority patent/US5537535A/en
Publication of JPH0793273A publication Critical patent/JPH0793273A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0796Safety measures, i.e. ensuring safe condition in the event of error, e.g. for controlling element
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0721Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU]
    • G06F11/0724Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU] in a multiprocessor or a multi-core unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0745Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in an input/output transactions management context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0772Means for error signaling, e.g. using interrupts, exception flags, dedicated error registers

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)
  • Hardware Redundancy (AREA)
  • Multi Processors (AREA)
  • Bus Control (AREA)

Abstract

(57)【要約】 【目的】 障害監視機構を具備したマルチCPUシステ
ムに関し、障害からの迅速な救済を可能とし、また、障
害箇所からの先の機能ユニットにも障害の発生を通知可
能とすることを目的とする。 【構成】 複数のCPU11がシステムバス13を介し
て相互に接続すると共に、そのバス13に介挿される複
数のバスインタフェースユニット12を通してCPU相
互間のデータの送受信を行うように構成されたマルチC
PUシステムに対し、バス13と並行に布線され、か
つ、全てのユニット12によって共通にアクセスされる
障害監視バス21を付加し、障害を検出したユニット1
2はそのバス21を使用して他のユニット12に一斉に
障害情報を通報し、データの送信元および受信先となる
他のユニット12はその障害情報を受信し、どこでどの
ような障害が発生したかを知るように構成する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明はマルチCPU(Central P
rocessing Unit) システム、特にシステム内での障害を
監視する障害監視機構を具備したマルチCPUシステム
に関する。ただし本発明が適用されるマルチCPUシス
テムは、複数のCPUが、システムバスを介して相互に
バス接続すると共に、該システムバスに介挿される複数
のバスインタフェースユニットを通して該CPU相互間
でのデータの送受信を行うように構成されたシステムで
ある。
【0002】上記のマルチCPUシステムを構成するシ
ステムバスは、“TOX−BUS”と称され、きわめて
高速かつ効率の良いバス転送を実現することができ、例
えばDUPLEX構成を採る電子交換機内の基幹系とし
て有効である。このような電子交換機は特に高信頼性が
要求されており、したがってその基幹系をなすマルチC
PUシステムに対しては何らかの障害監視機構を設ける
ことが要求される。
【0003】
【従来の技術】図15は本発明が適用される一般的なマ
ルチCPUシステムの一例を示す図である。本図におい
て、複数のCPU11(単純化のため、図中の左右に2
台のみ示す)は、システムバス13を介して相互にバス
接続する。このシステムバス13には、複数のバスイン
タフェースユニット(BIU:Bus Interface Unit) 1
2が介挿され、これらBIUを通してCPU相互間での
データの送受信が行われる。なお、本図中の左側と右側
にそれぞれ図中上下方向に伸びる点線を描いているが、
これらの点線は、その上方に示した、CPU11−シス
テムバス13−BIU12−システムバス13とほぼ同
一構成のセットが複数セット、同様に配置される場合が
あることを表している。なお、システムバス13は複数
のBIU12によって共用されるものであり、各BIU
はデータの送信に際してはまずデータの送信権、すなわ
ちシステムバス13の使用権を獲得する必要がある。こ
のためにバス調停部(バスアービタ)14が設けられ
る。
【0004】また図中、添字として0やXを付した
ユニット(CPU,BIU)は、DUPLEX構成を採
るシステム内の0系グループであることを示し、添字と
して0やXを付したユニット(CPU,BIU)
は、そのシステム内の1系グループであることを示して
いる。添字の0Xや1Xにおける“X”はX=1,2,
3…を表す。つまり、これら添字はID (Identificati
on) 番号と等価である。
【0005】ところで、CPU間のデータの送受信は、
隣接するCPUおよびバスインタフェースユニット(B
IU)間と、隣接するバスインタフェースユニット(B
IU)間とにおいてそれぞれ独立のバス通信プロトコル
終端(“プロトコル終端1”…“プロトコル終端4”)
により実行される。この場合、送信側のBIU12はシ
ステムバス13に対し、いわゆるデータのバースト転送
を行い、大量のデータを一気に流すので、バス転送サイ
クルは最小となり、システムバス13のバス転送能力は
向上して、高速かつ効率の良いシステムが構築される。
【0006】ここで仮に図中の×印のところ(Aポイン
ト)で障害が発生したとすると、CPU10へデータ送信
しようとしていたCPU00はデータ受信応答がCPU10
から返らないので、どこかで障害が発生したことを知
る。そこでCPU00はその障害箇所を特定し、その障害
内容を知るための障害探索シーケンスに入る。この障害
探索シーケンスは、CPU00がCPU10に向って、シス
テムバス13を介し、バス通信プロトコルの終端点であ
るBIU12を手前から順番にアクセスし、各BIU1
2からエラーステータスを順番に読み出す、という手順
で行われる。
【0007】
【発明が解決しようとする課題】上述した従来の障害探
索シーケンスによると、CPU00は第1のBIUにアク
セスしてそのエラーステータスを読み出して分析し、第
2のBIUにアクセスしてそのエラーステータスを読み
出して分析する、という動作を繰り返しながら障害箇所
に至るため、障害探索に多大な時間を要しシステム救済
が大幅に遅れる、という第1の問題がある。
【0008】また、障害箇所(×印)から先(下流側)
へのアクセスは不可能であるため、その先にあるBIU
やCPU(BIU00やCPU10)等の機能ユニットに障
害発生の通知ができない、という第2の問題がある。も
し、CPU10にも障害発生の通知ができたとすれば、C
PU10は、当該マルチCPUシステム内における障害状
況に対処した動作を行わせることができる。
【0009】したがって本発明は上記問題点に鑑み、
障害からの迅速な救済を可能とし、また、障害箇所よ
り先にある機能ユニットにも障害発生を迅速に通知する
ことができる、障害監視機構を具備したマルチCPUシ
ステムを提供することを目的とするものである。
【0010】
【課題を解決するための手段】図1は本発明に係るマル
チCPUシステムの原理構成を示す図である。なお、全
図を通じて同様の構成要素には同一の参照番号または記
号を付して示す。図15と比較して基本的に相違するの
は、障害監視バス21が設けられた点である。すなわ
ち、複数のCPU11が、システムバス13を介して相
互にバス接続すると共に、システムバス13に介挿され
る複数のバスインタフェースユニット12を通してCP
U11相互間でのデータの送受信を行い、かつ、隣接す
るCPU11およびバスインタフェースユニット12間
と、隣接するバスインタフェースユニット12間とにお
いてはそれぞれ独立のバス通信プロトコル終端によりデ
ータの送受信を実行する一般的なマルチCPUシステム
に対し、バスインタフェースユニット12の各々によっ
て共通にアクセスされる上記の障害監視バス21を、シ
ステムバス13と並行して設ける。
【0011】障害発生時には、当該障害を検出した1の
バスインタフェースユニット12がマスタとなって該障
害監視バス21上に当該障害情報を送出すると共に、他
のバスインタフェースユニット12はスレーブとして障
害監視バス21上の当該障害情報を受信する状態に移行
する。
【0012】
【作用】障害が発生したときは、全てのバスインタフェ
ースユニット(BIU)12に共用される障害監視バス
21に移行して障害探索シーケンスを実行するので、従
来のように、プロトコル終端1、プロトコル終端2…を
経ることなく即座にシステム全体の障害探索が行える。
また、図中×印のところでシステムバス13に障害が発
生したとしても、その先のBIU10に障害発生の通知が
行える。したがってCPU10はその障害の発生を知るこ
とができる。
【0013】
【実施例】図2および図3は本発明に係るマルチCPU
システムの一実施例を示す図である。これらの図は、本
発明に係るマルチCPUシステム内の一部を取り出し拡
大して示す図である。特にこれらの図では、バスインタ
フェース12の内部構成と、複数のバスインタフェース
ユニット12間にまたがる各種バスやラインの構成が詳
しく描れている。
【0014】各バスインタフェースユニット12は、自
内において検出される障害の発生を監視し、障害が発生
したときは障害情報を作成して障害監視バス21上に送
出する障害監視・制御部23を備えている。障害監視・
制御部23により作成される障害情報は情報フレームE
Fとして作成され、情報フレームEF内には、データの
送信元を特定する送信元ID情報SIDと、データの受
信先を特定する受信先ID情報DIDを含む領域を有す
る。
【0015】また各バスインタフェースユニット12内
には、データを受信するまでに何段のバスインタフェー
スユニット12を中継してきたかを管理するレイヤ制御
部24を備え、障害発生時において、その中継段数を障
害レイヤ情報Lとして、障害監視・制御部23を介し、
情報フレームEFに書き込む。さらにまた、隣接するバ
スインタフェースユニット12内のレイヤ制御部24相
互間を接続するレイヤカウント線31を布線すると共
に、各レイヤ制御部24内には、データを中継する毎に
レイヤカウント線31を通して通知される中継段数を加
算し、上記の障害レイヤ情報Lとするカウンタ手段25
を備える。
【0016】障害監視・制御部23により作成される前
記情報フレームEF内にはさらに、検出された前記障害
の障害コードおよびその障害の詳細を示す付加情報を書
き込む領域を有する。障害監視・制御部23には、障害
発生時に、送信元ID情報SIDと、受信先ID情報D
IDと、カウンタ手段25からの前記中継段数(障害レ
イヤ情報L)とを退避させるレジスタ手段(REG)2
9を備える。
【0017】障害が発生して、障害を検出したバスイン
タフェースユニット12がマスタとなり、障害監視バス
21をアクティブにする。そうすると、スレーブとなっ
た各バスインタフェースユニット12は、受信した送信
元ID情報SIDが自己のIDと一致したとき、送信し
たデータに送信エラーが発生したことを認識し、情報フ
レームEFに示す障害情報を、自己に接続するCPU1
1に通知する。このSIDに相当するバスインタフェー
スユニット12が、図1に示すBIU00であったとすれ
ば、そのCPU11としては図1のCPU00に通知す
る。
【0018】一方、受信先ID情報DIDが自己のID
と一致したとき、すなわち、スレーブとなった各バスイ
ンタフェースユニット12は、受信した受信先ID情報
DIDが自己のIDと一致したとき、受信する予定であ
った前記のデータに受信エラーが発生したことを認識
し、情報フレームEFに示す障害情報を、自己に接続す
るCPU11に通知する。このDIDに相当するバスイ
ンタフェースユニット12が、図1に示すBIU10であ
ったとすれば、そのCPU11としては図1のCPU10
に通知する。
【0019】障害監視バス21を使用するに当ってはシ
ステムバス13の使用時と同様、障害監視バス制御信号
(E−CNT)がやりとりされる。したがって、障害監
視・制御部23は、障害発生時に、障害監視バス21に
対してバスアクセス要求(E−REQ)を送出し、これ
に対するバスアクセス許可(E−ACK)を受け取る
と、マスタとして、データの送受信を開始する。
【0020】この場合、図1に示すバス調停部22は、
バスアクセス要求(E−REQ)を受けてバスアクセス
許可E−ACKを発行するか否かの判定を行う。図4は
図1に表されなかったシステム構成部分を示す図であ
る。この部分は図1の左側に上下方向に点線で示す省略
部分を具体的に表す図である。ただし図4では左右方向
に向きを変えて表す。
【0021】CPU01,CPU02,CPU03を含む部分
は、例えば既述の電子交換機であれば、それぞれ単独の
ボード(カード)からなる複数の通信制御装置であり、
また、外部記憶装置である。図4において、各BIU1
2内のL−I/Oは、図2および図3内に示すレイヤ−
IN/OUTであり、同様にL−O/Iはレイヤ−OU
T/INであり、S−IFはバスアクセス制御部26と
バス受信制御部27とバス送信制御部28であり、E−
IFは障害監視・制御部23とレイヤ制御部24であ
る。
【0022】図5および図6は本発明に係る動作例を示
すタイムチャートであり、主として図2および図3に示
す構成のもとでの動作を示す。図5および図6は、主要
な各種の信号やデータを(1)〜(12)の欄に区分し
て示す。 (1)バスCLKクロックであり、いずれのバス(シス
テムバス(S−BUS)13と障害監視バス(E−BU
S)21)も、このバスクロックに同期して動作する。
【0023】(2)レイヤカウント線31上を転送され
るレイヤカウント信号(L−COUNT)であり、これ
をもとにしてカウンタ手段25が動き、既述の障害レイ
ヤ情報L(どこで障害が起きたか)が生成される。図5
のL−COUNT=“L”で、今、一区切り(例えばブ
ロック)のデータを中継したことを表す。ただし、この
L−COUNT=“L”が出力される前に、この“L”
を出力するBIU12によって、システムバス13が捕
捉されていることを要する。
【0024】(3)バスアクセス要求信号REQ
(“L”)が、図3に示す送受信制御信号S−CNTの
1つとして出力される。 (4)そのバスアクセス要求信号REQに対するアクノ
リッジ信号ACK(“L”)が返ると、システムバス1
3を専有することができる。 (5)引き続いてバススタート信号BS(“L”)が出
力されると、本来の通信(データ送信)が開始する。
【0025】(6)通常は、一度に多数ワード分のブロ
ック転送を行うので、これを相手方に表示するためのブ
ロック転送通知信号BK(“L”)をシステムバス13
に送出する。 (7)かくして本来のデータを、図2および図3に示す
S−BUSとしてシステムバス13上に転送する。シス
テムバス情報フレームSFをなすこのS−BUSの内容
は、既述のSID/DID、制御コード(例えばメモリ
のリードかライトか等)、そのときのアドレス情報、そ
して例えばメモリのライトならば、そのライトデータ
(データ0、データ1…)である。
【0026】図3に示すS−BUSの中で、特に本発明
の障害監視のために導入されたのは、レイヤ情報(L)
である。このレイヤ情報は、各段のバスインタフェース
ユニット(BIU)を中継した中継段数を表すものであ
り、図2のBIUで受信したフレームSF内に示される
中継段数がNであるとすると、レイヤカウント線31か
らのL−COUNT信号を受けた図3のBIUは、カウ
ンタ手段25にてその中継段数(N)に+1して再び該
SFを送り出す。
【0027】ここで仮に、図2のバスインタフェースユ
ニット(BIU)12内で、ある障害が発生したことが
検出されたものとする。この障害は、バス受信制御部2
7内で受信アラームALr として検出されることもある
し、バス送信制御部28内で送信アラームALs として
検出されることもあるし、バスアクセス制御部26にて
バスアクセスアラームALa として検出されることもあ
る。
【0028】(8)上記アラーム(AL)のいずれかが
障害監視・制御部23の監視部分で検出されると、その
制御部分は、まず、バスアクセス要求EREQ(Emergen
cy Request) を障害監視バス21上に送出する。 (9)上記信号EREQ(“L”)を受信したバス調停
部22は、バス21が空きであればアクノリッジ信号E
ACK(“L”)を返す。
【0029】(10)さらに、上記(5)と同様、バス
スタート信号EBSを出力し、 (11)さらにまた、上記(6)と同様のブロック転送
通知信号EBKを出力する。 (12)その後、情報フレームEFの形式で障害情報E
−BUSを障害監視バス21上に送出する。その障害情
報の内容については既に述べたとおりであるが、図5お
よび図6にも示す。
【0030】図7および図8は各BIUのシステムバス
に対する送信制御フローを示す図である。前段の機能ユ
ニット(CPUやBIU)から“送信要求”が発生する
と、次段の機能ユニットは第1ステップS1にて自己I
Dを、情報フレームSF内にSID(送信元ID情報)
としてセットする。なお、第1ステップS1以後のステ
ップは、BIU00のみならず次のBIUについても同様
である。
【0031】引き続き、受信先の機能ユニットのID情
報をその情報フレームSF内にDIDとしてセットし
(S2)、さらに制御コード、データ、レイヤ情報をS
F内にセットして(S3)、送信する。2段目以降のB
IUについては、そのバス受信制御部27でSFが正常
に受信したものとする。この正常受信したBIUは、そ
のバスアクセス制御部26で送信制御を開始し、信号R
EQを送出する(S4)。その応答である信号ACKを
受けると送信に起動がかかる(S5)。引き続いて本来
の情報フレームSFの送信が開始される(S6)。
【0032】図8を参照すると、今、送信データを正常
に受信し中継して再送信したので、カウンタ手段25に
より中継段数を+1する(S7)。障害が発生しないこ
とを確認しながら(S8)、一連のデータ(データ0、
データ1…)を最後まで送信する(S9)。このとき、
ステップS8で障害の発生を検出したとすると、図1の
BIU00やBIU10については、自己に接続するCPU
00やCPU10に障害割込みやエラーステータス等の通知
を行い、また、単なる中継ユニット(BIU)において
は、その障害監視・制御部23を起動する(S10)。
その後の処理は後述する。
【0033】図9および図10は各BIUのシステムバ
スに対する受信制御フローを示す図である。前段の機能
ユニットから既述の信号BS,L−COUNT,BK等
を受信すると、これを受信したBIUは、そのバス受信
制御部27を起動する(S1)。その受信情報フレーム
SF内に書かれたDIDが自己IDと一致しなければ
(S2)、さらにレイヤカウンタ信号L−COUNTの
有無を調べ(S4)、L−COUNTがあればカウンタ
手段25により中継段数の更新(+1)を行う(S
5)。
【0034】なお、ステップS2で、DIDが自己ID
と一致したときは、受信処理をして(S3)、終了す
る。図10において、障害の発生を検出しなければ(S
6)、情報フレームSFの全てを受信したことを確認し
て(S7)、終了する(S8)。しかし、ステップS6
で障害の発生を検出すると、自己に接続するCPUがあ
ればこれに障害割込みやエラーステータス等の通知を行
い、また、自己が単なる中継BIUであれば、自内の障
害監視・制御部23を起動する(S9)。その後の処理
は後述する。
【0035】図11および図12は各BIUの障害監視
バスに対する送信制御フローを示す図である。BIU内
で障害の発生が検出されると、障害監視・制御部23が
起動される(S1)。このとき、今受信した情報フレー
ムSF内より、送信元ID情報SIDおよび受信先ID
情報DIDを抽出して、レジスタ手段29に待避する
(S2)。また同様に、カウンタ手段25による中継段
数の情報もそのレジスタ手段29に待避する(S3)。
【0036】そして発生した障害の種別を表す情報を予
め定めたコードの形式で作成する(S4)。その後、図
5および図6の(8), (9), (10)および(11)で
説明した一連のプロトコルを、図11のステップS5,
S6および図12のS7で実行する。これにより障害監
視バス21上を障害情報が走ることになる。
【0037】このとき障害情報に送信障害がなければ
(S8)、その全てを送信し終えて(S9)終了する。
上記ステップS8で仮に送信障害が発生したとすれば、
従来の障害探索シーケンスを、システムバス13を使っ
て開始する。これでも送信障害が解消できない事態であ
ればシステムダウンである。
【0038】図13および図14は各BIUの障害監視
バスに対する受信制御フローを示す図である。障害を検
出したBIU(マスタ)により、障害監視バス21がア
クセスされ、既述の信号BSやBKが出力されると、そ
の他の全てのBIU(スレーブ)は、各々の障害監視・
制御部23において受信制御の動作を起動する(S
1)。
【0039】そして各スレーブ側BIUは、今受信中の
情報フレームEFよりSIDおよびDIDを読み取っ
て、これらが自己IDと一致するか否か検出し(S
2)、一致しなければ当該障害は自己(BIU)に関係
ないものとして無視する。一方、そのSIDおよびDI
Dのいずれかに一致したときは、この一致を検出したB
IUに関連して何らかの障害が発生したことを知ること
ができる。
【0040】この場合、障害監視バス21からの障害情
報の受信に障害があるときは(S3)、従来の探索シー
ケンスをシステムバス13を使って開始することができ
る。このような障害がなければ、一連の障害情報(E
F)を最後まで受信する(S4)。ここで図14に移る
と、上記の受信したSIDおよびDIDのうち、自己I
DがSIDの方と一致したときは(S5)、自己がデー
タ送信元BIUとなっている場合であり、まずステップ
S6で、受信先BIUのID(DID)や、障害コード
(どんな障害か)や、レイヤ情報(どこでの障害か)を
情報フレームEFより収集すると共に(S6)、送信エ
ラーを発生する。このBIUに、これに接続するCPU
があるのならば、このCPUに障害割込みやエラーステ
ータス等で障害発生を通知する。
【0041】一方、ステップS5において、自己IDが
DIDの方と一致したときは、自己IDが受信先BIU
となっている場合であり、まずステップS8で、送信元
BIUのID(SID)や、障害コード(どんな障害
か)や、レイヤ情報(どこでの障害か)を情報フレーム
EFより収集すると共に、受信エラーを発生する(S
9)。このBIUに、これに接続するCPUがあるのな
らば、このCPUに障害割込みやエラーステータス等で
障害発生を通知する。この場合、上記のBIUに相当す
るBIUが、図1のBIU10であったとすると、システ
ムバス13上の×印における障害については、従来、B
IU10は勿論、これに接続するCPU10も知ることがで
きなかったが、本発明によれば、図14のステップS5
→S8→S9により、BIU10は勿論、CPU10も知る
ことができるようになる。これにより、CPU10は当該
障害に対する何らかのアクションを起こすことができ
る。そのアクションの内容、例えばCPU10の自己診断
や、BIU10に対する診断の開始等、についてはユーザ
が定めることができる。
【0042】
【発明の効果】以上説明したように本発明によれば、マ
ルチCPUシステムを障害から迅速に救済できると共
に、障害箇所より下流側の機能ユニット(BIUやCP
U)においても障害の発生を知ることが可能になる。
【図面の簡単な説明】
【図1】本発明に係るマルチCPUシステムの原理構成
を示す図である。
【図2】本発明に係るマルチCPUシステムの一実施例
を示す図(その1)である。
【図3】本発明に係るマルチCPUシステムの一実施例
を示す図(その2)である。
【図4】図1に表されなかったシステム構成部分を示す
図である。
【図5】本発明に係る動作例を示すタイムチャート(そ
の1)である。
【図6】本発明に係る動作例を示すタイムチャート(そ
の2)である。
【図7】各BIUのシステムバスに対する送信制御フロ
ー(その1)を示す図である。
【図8】各BIUのシステムバスに対する送信制御フロ
ー(その2)を示す図である。
【図9】各BIUのシステムバスに対する受信制御フロ
ー(その1)を示す図である。
【図10】各BIUのシステムバスに対する受信制御フ
ロー(その2)を示す図である。
【図11】各BIUの障害監視バスに対する送信制御フ
ロー(その1)を示す図である。
【図12】各BIUの障害監視バスに対する送信制御フ
ロー(その2)を示す図である。
【図13】各BIUの障害監視バスに対する受信制御フ
ロー(その1)を示す図である。
【図14】各BIUの障害監視バスに対する受信制御フ
ロー(その2)を示す図である。
【図15】本発明が適用される一般的なマルチCPUシ
ステムを示す図である。
【符号の説明】
11…CPU 12…バスインタフェースユニット(BIU) 13…システムバス 14…バス調停部 21…障害監視バス 22…バス調停部 23…障害監視・制御部 24…レイヤ制御部 25…カウンタ手段 26…バス・アクセス制御部 27…バス受信制御部 28…バス送信制御部 29…レジスタ手段 31…レイヤカウント線

Claims (11)

    【特許請求の範囲】
  1. 【請求項1】 複数のCPU(11)が、システムバス
    (13)を介して相互にバス接続すると共に、該システ
    ムバスに介挿される複数のバスインタフェースユニット
    (12)を通して該CPU相互間でのデータの送受信を
    行い、かつ、隣接する該CPUおよび該バスインタフェ
    ースユニット間と、隣接する該バスインタフェースユニ
    ット間とにおいてはそれぞれ独立のバス通信プロトコル
    終端により前記のデータの送受信を実行するマルチCP
    Uシステムにおいて、 前記バスインタフェースユニットの各々によって共通に
    アクセスされる障害監視バス(21)を、前記システム
    バスと並行して設け、障害発生時には、当該障害を検出
    した1の前記バスインタフェースユニットがマスタとな
    って該障害監視バス上に当該障害情報を送出すると共
    に、他の前記バスインタフェースユニットはスレーブと
    して該障害監視バス上の当該障害情報を受信する状態に
    移行することを特徴とする障害監視機構を具備したマル
    チCPUシステム。
  2. 【請求項2】 各前記バスインタフェースユニット(1
    2)は、自内において検出される前記障害の発生を監視
    し、該障害が発生したときは前記障害情報を作成して前
    記障害監視バス(21)上に送出する障害監視・制御部
    (23)を備える請求項1に記載のマルチCPUシステ
    ム。
  3. 【請求項3】 前記障害監視・制御部(23)により作
    成される前記障害情報は情報フレーム(EF)として作
    成され、該情報フレーム内には、前記データの送信元を
    特定する送信元ID情報(SID)と、該データの受信
    先を特定する受信先ID情報(DID)を含む領域を有
    する請求項2に記載のマルチCPUシステム。
  4. 【請求項4】 各前記バスインタフェースユニット(1
    2)内には、前記データを受信するまでに何段の該バス
    インタフェースユニットを中継してきたかを管理するレ
    イヤ制御部(24)を備え、前記障害発生時において、
    その中継段数を障害レイヤ情報(L)として、前記障害
    監視・制御部(23)を介し、前記情報フレーム(E
    F)に書き込む請求項3に記載のマルチCPUシステ
    ム。
  5. 【請求項5】 隣接する前記バスインタフェースユニッ
    ト(12)内の前記レイヤ制御部(24)相互間を接続
    するレイヤカウント線(31)を布線すると共に、各該
    レイヤ制御部内には、前記データを中継する毎に該レイ
    ヤカウント線を通して通知される中継段数を加算し、前
    記障害レイヤ情報(L)とするカウンタ手段(25)を
    備える請求項4に記載のマルチCPUシステム。
  6. 【請求項6】 前記障害監視・制御部(23)により作
    成される前記情報フレーム(EF)内にはさらに、検出
    された前記障害の障害コードおよびその障害の詳細を示
    す付加情報を書き込む領域を有する請求項5に記載のマ
    ルチCPUシステム。
  7. 【請求項7】 前記障害監視・制御部(23)には、前
    記障害発生時に、前記送信元ID情報(SID)と、前
    記受信先ID情報(DID)と、前記カウンタ手段(2
    5)からの前記中継段数とを退避させるレジスタ手段
    (29)を備える請求項5に記載のマルチCPUシステ
    ム。
  8. 【請求項8】 前記スレーブとなった各前記バスインタ
    フェースユニット(12)は、受信した前記送信元ID
    情報(SID)が自己のIDと一致したとき、送信した
    前記データに送信エラーが発生したことを認識し、前記
    情報フレーム(EF)に示す障害情報を、自己に接続す
    る前記CPU(11)に通知する請求項6に記載のマル
    チCPUシステム。
  9. 【請求項9】 前記スレーブとなった各前記バスインタ
    フェースユニット(12)は、受信した前記受信先ID
    情報(DID)が自己のIDと一致したとき、受信する
    予定であった前記データに受信エラーが発生したことを
    認識し、前記情報フレーム(EF)に示す障害情報を、
    自己に接続する前記CPU(11)に通知する請求項6
    に記載のマルチCPUシステム。
  10. 【請求項10】 前記障害監視・制御部(23)は、前
    記障害発生時に、前記障害監視バス(21)に対してバ
    スアクセス要求(E−REQ)を送出し、これに対する
    バスアクセス許可(E−ACK)を受け取ると、前記マ
    スタとして、データの送受信を開始する請求項1に記載
    のマルチCPUシステム。
  11. 【請求項11】 前記バスアクセス要求(E−REQ)
    を受けて前記バスアクセス許可(E−ACK)を発行す
    るか否かの判定を行うバス調停部(22)を備える請求
    項11に記載のマルチCPUシステム。
JP5233662A 1993-09-20 1993-09-20 障害監視機構を具備したマルチcpuシステム Withdrawn JPH0793273A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP5233662A JPH0793273A (ja) 1993-09-20 1993-09-20 障害監視機構を具備したマルチcpuシステム
US08/216,141 US5537535A (en) 1993-09-20 1994-03-21 Multi-CPU system having fault monitoring facility

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5233662A JPH0793273A (ja) 1993-09-20 1993-09-20 障害監視機構を具備したマルチcpuシステム

Publications (1)

Publication Number Publication Date
JPH0793273A true JPH0793273A (ja) 1995-04-07

Family

ID=16958567

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5233662A Withdrawn JPH0793273A (ja) 1993-09-20 1993-09-20 障害監視機構を具備したマルチcpuシステム

Country Status (2)

Country Link
US (1) US5537535A (ja)
JP (1) JPH0793273A (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2886093B2 (ja) * 1994-07-28 1999-04-26 株式会社日立製作所 障害処理方法および情報処理システム
US5838899A (en) * 1994-09-20 1998-11-17 Stratus Computer Digital data processing methods and apparatus for fault isolation
KR100213187B1 (ko) 1997-03-20 1999-08-02 윤종용 에러 마스터 검출장치
US6691257B1 (en) 2000-04-13 2004-02-10 Stratus Technologies Bermuda Ltd. Fault-tolerant maintenance bus protocol and method for using the same
US6633996B1 (en) 2000-04-13 2003-10-14 Stratus Technologies Bermuda Ltd. Fault-tolerant maintenance bus architecture
US6820213B1 (en) 2000-04-13 2004-11-16 Stratus Technologies Bermuda, Ltd. Fault-tolerant computer system with voter delay buffer
US6687851B1 (en) 2000-04-13 2004-02-03 Stratus Technologies Bermuda Ltd. Method and system for upgrading fault-tolerant systems
US6708283B1 (en) 2000-04-13 2004-03-16 Stratus Technologies, Bermuda Ltd. System and method for operating a system with redundant peripheral bus controllers
US6735715B1 (en) 2000-04-13 2004-05-11 Stratus Technologies Bermuda Ltd. System and method for operating a SCSI bus with redundant SCSI adaptors
US6691225B1 (en) 2000-04-14 2004-02-10 Stratus Technologies Bermuda Ltd. Method and apparatus for deterministically booting a computer system having redundant components
US6643802B1 (en) * 2000-04-27 2003-11-04 Ncr Corporation Coordinated multinode dump collection in response to a fault
US6766479B2 (en) 2001-02-28 2004-07-20 Stratus Technologies Bermuda, Ltd. Apparatus and methods for identifying bus protocol violations
US6928583B2 (en) * 2001-04-11 2005-08-09 Stratus Technologies Bermuda Ltd. Apparatus and method for two computing elements in a fault-tolerant server to execute instructions in lockstep
US6996750B2 (en) * 2001-05-31 2006-02-07 Stratus Technologies Bermuda Ltd. Methods and apparatus for computer bus error termination
US20060123444A1 (en) * 2003-02-03 2006-06-08 Thomson Licensing Self-diagnostic test for apparatus having an emergency alert function
US7152186B2 (en) * 2003-08-04 2006-12-19 Arm Limited Cross-triggering of processing devices
JP2014048782A (ja) * 2012-08-30 2014-03-17 Fujitsu Ltd 情報処理装置、及び情報処理装置の障害処理方法
CN106844082A (zh) * 2017-01-18 2017-06-13 联想(北京)有限公司 处理器预测故障分析方法及装置
US10802929B2 (en) * 2018-01-03 2020-10-13 Tesla, Inc. Parallel processing system runtime state reload

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4412281A (en) * 1980-07-11 1983-10-25 Raytheon Company Distributed signal processing system
US4480307A (en) * 1982-01-04 1984-10-30 Intel Corporation Interface for use between a memory and components of a module switching apparatus
US4787033A (en) * 1983-09-22 1988-11-22 Digital Equipment Corporation Arbitration mechanism for assigning control of a communications path in a digital computer system
US4967344A (en) * 1985-03-26 1990-10-30 Codex Corporation Interconnection network for multiple processors
US4719621A (en) * 1985-07-15 1988-01-12 Raytheon Company Packet fastbus
US4933846A (en) * 1987-04-24 1990-06-12 Network Systems Corporation Network communications adapter with dual interleaved memory banks servicing multiple processors
US5195089A (en) * 1990-12-31 1993-03-16 Sun Microsystems, Inc. Apparatus and method for a synchronous, high speed, packet-switched bus
US5396602A (en) * 1993-05-28 1995-03-07 International Business Machines Corp. Arbitration logic for multiple bus computer system

Also Published As

Publication number Publication date
US5537535A (en) 1996-07-16

Similar Documents

Publication Publication Date Title
JPH0793273A (ja) 障害監視機構を具備したマルチcpuシステム
JPS60140951A (ja) ロ−カルエリアネツトワ−クシステム
CN108234267B (zh) 一种基于m-lvds实时多主高速总线的通信系统
JPH05308364A (ja) 多重プロセッサ通信システムにおけるデータ衝突検出方法および装置
CN114615106B (zh) 环形数据处理系统、方法以及网络设备
JP6134720B2 (ja) 接続方法
JPS6072351A (ja) パケツト通信システムの動作状態監視方法
JP3663569B2 (ja) 二重化システム
JPH04156655A (ja) マルチプロセッサシステム
JP2624265B2 (ja) データ伝送装置
JP4864755B2 (ja) データ処理システム及び診断方法
JP2007265108A (ja) バスブリッジ
JP3138945B2 (ja) デ−タ転送方法
JP3603956B2 (ja) 通信制御装置のバッファ管理方式
KR100290656B1 (ko) Isdn 교환기내 병렬 데이터 전송에 의한 프래쉬 메모리 데이터퓨징장치 및 그 제어방법
JP2573790B2 (ja) 転送制御装置
KR100211960B1 (ko) 패리티 방식을 이용한 프레임 구별방법
JPH06291774A (ja) メディアアクセス方式
JP2002009872A (ja) データ伝送システム
JP2004234183A (ja) 計算機制御装置のバスチェック方法およびシステム
JP2002278917A (ja) 画像データ転送システム
JPH08307398A (ja) 装置内制御方式
JPH0675796A (ja) パリティエラー記録装置
JPS6286942A (ja) デ−タ異常検出方法
JPS63181054A (ja) システム拡張装置の状態監視装置

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20001128