JPH03250240A - 放送通信システム - Google Patents

放送通信システム

Info

Publication number
JPH03250240A
JPH03250240A JP2330328A JP33032890A JPH03250240A JP H03250240 A JPH03250240 A JP H03250240A JP 2330328 A JP2330328 A JP 2330328A JP 33032890 A JP33032890 A JP 33032890A JP H03250240 A JPH03250240 A JP H03250240A
Authority
JP
Japan
Prior art keywords
broadcast
data
slave
processor
control data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2330328A
Other languages
English (en)
Inventor
Atsushi Inoue
淳 井上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2330328A priority Critical patent/JPH03250240A/ja
Publication of JPH03250240A publication Critical patent/JPH03250240A/ja
Priority to US07/801,648 priority patent/US5418937A/en
Pending legal-status Critical Current

Links

Landscapes

  • Multi Processors (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [発明の目的コ (産業上の利用分野) この発明は、複数のプロセッサが協調してデータ処理す
るデータ処理システムに関し、特に1台のマスタプロセ
ッサから多数のスレーブプロセッサへ同一のメツセージ
を転送するための放送通信システム、及び1台のマスタ
プロセッサと複数のスレーブプロセッサが相互に同期し
ながら処理を行なう放送通信システムの故障検出に関す
る。
(従来の技術) 計算機技術の発展と計算の高速化要求の高まりや処理量
の増大に伴い、複数のプロセッサが協調して処理を実行
する計算機システムが多数提案され、構築されている。
このようなシステムでは、ネットワーク結合された複数
のプロセッサが相互にデータ通信を行ないながら処理を
実行していくため、プロセッサ間のデータ転送効率がシ
ステム性能に大きく影響する。また複数のプロセッサ上
での処理が正しく実行されるためには、データ転送時の
エラーを防止するような転送方式が必要となる。特に1
台のマスタプロセッサが多数のスレーブプロセッサに対
してメツセージを送って処理を実行するマスク・スレー
ブ方式と呼ばれるマルチプロセッサ構成においては、複
数のブロモ・ソサに同一のデータを転送する放送通信を
高速かつ高信頼性をもって実行することが必要である。
このような放送通信システムの実現方法としては、シス
テムの構成に応じて様々なものが提案されているが、大
別すると以下の2方式に分類できる。
(1)逐次転送方式 第1図に示すような複数のプロセッサ1−0〜1−nが
ネットワーク2により結合された疎結合型マルチプロセ
ッサシステムでは、1対1の通信を組み合わせた形で放
送通信を行うことになる。
すなわち、マスタプロセッサ1−0から個々のスレーブ
プロセッサ1−1〜1−nへデータを転送し、送信後、
各スレーブプロセッサ1−1〜1−nから受信完了メツ
セージを受は取るという処理をスレーブプロセッサ台数
1分だけ操り返すことにより放送通信が実現される。
この方式では、処理が煩雑な上、n台のスレ−ブプロセ
ッサ1−1〜1−〇に対する放送通信(場合、1回あた
り2n回のメツセージ転送が必1になり、ネットワーク
2上のトラフィック量もンきくなり、システム全体の性
能を劣化させてし暑うという欠点があった。
さらに、この方式では、スレーブプロセッサσ内の1台
が何らかの理由で受信不能に陥ると、イれ以外の受信準
備が完了しているスレーブプロ走ッサへのデータ転送も
止められてしまい、通信交率が悪いという問題点もあっ
た。
(2)共有メモリ方式 第2図に示すような複数のプロセッサ1−0〜1−nが
メモリ5を共有して結合された密結合型マルチプロセッ
サシステムでは、マスタプロセッサ1−0が放送データ
を共有メモリ5に書き込み、これを各スレーブプロセッ
サ1−1〜1−nが参照することにより放送通信が実現
できる。
この方式では、(1)の方式に比べて交信されるメツセ
ージ量は少なくて済むが、データ転送の信頼性の面で問
題点があった。すなわち、全てのスレーブプロセッサ1
−1〜1−nにデータが行き渡ったかどうかを確認する
ことなく共有メモリ5に新たなデータを上書きしてしま
うと、正しいデータ転送が保証できなくなる。
またスレーブプロセッサ1−1〜1−nの内で故障など
が原因でデータを参照しないものがあっても、マスタプ
ロセッサ1−〇の側でこれを検出することができず、故
障回復などの処置が遅れやすい問題点もあった。
さらに、マルチプロセッサ構成の放送通信システムにお
いては、複数のプロセッサが協調動作をするため、個々
のプロセッサの故障をできる限り早期に検出することが
システムの安定動作のために肝要である。上記マスク・
スレーブ方式の放送通信システムにおいては、複数のス
レーブプロセッサ1−1〜1−n側の故障とマスタプロ
セッサ1−0側の故障とでは故障回復手段が異なるため
、特に、故障の早期検出と共に故障箇所の同定手段を持
つことが望ましい。
しかしながら、従来、この様なマルチプロセッサ構成の
放送通信システムでの故障検出方式として有効なものは
無かった。また、何らかの方法で個々のプロセッサ内部
で故障が検出できても、この故障に伴って他のプロセッ
サに異常動作が波及してしまうことがある。特に、上記
マスク・スレーブ方式の放送通信システムでマスタプロ
セッサ1−0が故障を起こしてしまった場合は、このマ
スタプロセッサ1−0から必要なデータを受は取って処
理を行なうスレーブプロセッサ1−1〜1−n側にも動
作異常が波及してしまうことが多い。
このように他のプロセッサと顧繁に通信を行なうプロセ
ッサが故障する場合については、故障を起こしたプロセ
ッサを早期かつ明確に同定して、必要な処置を施すこと
はできなかった。
(発明が解決しようとする課題) 以上のように、従来のマルチプロセッサ構成の放送通信
システムでは、マスタプロセッサから個々のスレーブプ
ロセッサへのデータ転送量が大きかったり、各スレーブ
プロセッサの実行状態が変わるとデータが正しく通信で
きながったり、さらに他のスレーブプロセッサへの通信
も遅れさせてしまったりし、少数の放送通信のためにシ
ステム全体の性能まで劣化させてしまうという問題点が
あった。
また、従来のマルチプロセッサ構成の放送通信システム
では、有効な故障検出方式が無く、個々のプロセッサ内
での故障検出方式をそのまま使用しても、データ転送な
どに伴って他のプロセッサに異常動作が波及してしまい
、故障箇所の明確な同定ができず、適切な回復措置が施
せないという欠点があった。
本発明は、このような従来の問題点を解決するためにな
されたもので、その目的は、(1)マスタプロセッサか
ら個々のスレーブプロセッサへのメツセージ転送量を減
らすことによりネットワークのトラフィック量を削減し
、かつスレーブプロセッサの受信順序によらずデータの
放送が可能で、またデータ通信時に個々のプロセッサの
状態チエツクを行うことができ、より高速で、高信頼性
のある放送通信ができる放送通信システム、(2)同期
して実行されるマスタプロセッサとスレーブプロセッサ
のプログラム内にチェックポイントを設け、このポイン
トでチェックデータの送信をマスクからスレーブに行な
うことにより、個々のプロセッサ状態を相互に監視しな
がら処理を実行でき、また、もしマスク側、スレーブ側
で1台でも異常な動作を行なったプロセッサが発生した
場合には、次のチェックポイントでその異常プロセッサ
を明確に同定できる、より信頼性の高い放送通信システ
ムを提供することである。
[発明の構成] (課題を解決するための手段) この発明の放送通信システムは、マスタプロセッサと、 このマスタプロセッサの保持する放送データを受信する
スレーブプロセッサと、 前記マスタプロセッサからの放送データを一時的に保持
する放送データ保持手段と、この放送データに付属して
前記スレーブプロセッサに渡される制御データをこのス
レーブプロセッサの台数分だけ保持する制御データ保持
手段と、各放送イベントに対応する識別データを保持す
る識別データ保持手段とを有する放送処理部とを備え、
前記マスタプロセッサが、前記制御データ保持手段に対
して各放送イベントごとに当該放送時にその放送データ
を受信するスレーブプロセッサの台数分の制御データを
保持させ、 前記スレーブプロセッサ各々が、前記放送イベントを前
記識別データ保持手段の保持する識別データから識別し
、同一の放送イベントの放送データを読み出す際に前記
制御データ保持手段に格納された制御データを1つずつ
取り出すようにしたものである。
またこの発明の放送通信システムは、マスタプロセッサ
と、 このマスタプロセッサの保持する放送データを受信する
スレーブプロセッサと、 前記マスタプロセッサからの放送データを一時的に保持
する放送データ保持手段と、この放送データに付属して
当該放送データを放送するスレーブプロセッサを特定す
る制御データをそのスレーブプロセッサの台数分だけ保
持する制御データ保持手段と、各放送イベントに対応す
る識別データを保持する識別データ保持手段とを有する
放送処理部とを備え、 前記マスタプロセッサが、前記制御データ保持手段ニ対
して各放送イベントごとに当該放送時にその放送データ
を受信するスレーブプロセッサを特定する制御データを
そのスレーブプロセッサの台数分だけ保持させ、 前記制御データにより特定されるスレーブプロセッサ各
々が、前記放送イベントを前記識別データ保持手段の保
持する識別データから識別し、同一の放送イベントの放
送データを読み出す際に前記制御データ保持手段に格納
された制御データを1つずつ取り出すようにしたもので
ある。
またこの発明の放送通信システムは、複数のプロセッサ
が協調して処理するデータ処理装置において、第1図に
示す如く、協調して処理を実行するプロセッサにより共
有されており、当該プロセッサのプログラムが一定箇所
に到達した時点で転送してくるチェックデータを保持す
るチェックデータ記憶手段41と、当該チェックデータ
に付属して転送されてくるイベント識別子を保持するイ
ベント識別子記憶手段43と、受信したチェックデータ
の個数を計数する計数手段45とを具備するものである
またこの発明の放送通信システムは、1台のマスタプロ
セッサ1−0と複数のスレーブプロセッサ1−1〜1−
nが相互に同期しながら処理を行なうデータ処理装置に
おいて、前記マスタプロセッサ1−0がプログラムのチ
ェックポイントを通過した時点で、前記チェックデータ
記憶手段41に対応する前記スレーブプロセッサ1−1
〜1−nの台数分のチェックデータを格納して前記計数
手段45を更新し、1−1〜1−nの各スレーブプロセ
ッサがプログラム上のチェックポイントに到達した際に
、前記チェックデータ記憶手段41に格納されている自
プロセッサに対応するチェックデータを1つずつ取り出
して前記計数手段45を更新するものである。
さらにこの発明の放送通信システムは、前記イベント識
別子記憶手段43が、各プロセッサから送られてくるチ
ェックポイントを通過した旨のメツセージに付記されて
いるチェックイベントデータと値を比較し、各要求に対
応するチェックデータが正しく格納されているか否かを
判断するものである。
(作用) この発明の放送通信システムでは、マスタプロセッサに
より、制御データ保持手段に対して各放送イベントごと
に当該放送時のその放送データを受信するスレーブプロ
セッサの台数分の制御データを保持させる。そしてスレ
ーブプロセッサ各々により、前記放送イベントを識別デ
ータ保持手段の保持する識別データから識別し、同一の
放送イベントの放送データを読み出す際に前記制御デー
タ保持手段に格納された制御データを1つずつ取り出す
ようにする。
したがって、同一放送イベントについて制御データ保持
手段に格納された制御データが空になっているかどうか
によりマスク・スレーブ方式の放送通信が正常に動作し
ているかどうかを判断することができる。
またこの発明の放送通信システムでは、マスタプロセッ
サにより、制御データ保持手段に対して各放送イベント
ごとに当該放送時にその放送データを受信するスレーブ
プロセッサを特定する制御データをそのスレーブプロセ
ッサの台数分だけ保持させる。そして前記制御データに
より特定されるスレーブプロセッサ各々により、前記放
送イベントを識別データ保持手段の保持する識別データ
から識別し、同一の放送イベントの放送データを読み出
す際に前記制御データ保持手段に格納された制御データ
を1つずつ取り出すようにする。
したがって、同一放送イベントについて、制御データに
より特定される幾つかのスレーブプロセッサのうちに当
該放送イベントの放送データが放送されていないものが
ないかどうかを制御データ保持手段が空になっているか
どうかにより判断することができ、マスク・スレーブ方
式の放送通信の動作状態を判断する情報を生成すること
ができる。
さらにこの発明の放送通信システムでは、マスタプロセ
ッサ1−0側では、プログラム内のチェックポイントに
処理の実行が到達すると、チェックデータ記憶手段41
の状態を調べ、1−1〜1−nの各スレーブプロセッサ
が1つ前のチェックポイントを通過したことをチエツク
した上で、そのチェックポイントに対応するチェックデ
ータをスレーブプロセッサ1−1〜1−nの台数n分だ
けチェックデータ記憶手段41に格納してチエツクイベ
ント識別子をイベント識別子記憶手段43に登録する。
他方で、スレーブプロセッサ1−1〜1−n側では、任
意のスレーブプロセッサが、プログラム内のチェックポ
イントに処理の実行が到達すると、チエツクイベント識
別子の照合をすることによるで、マスタプロセッサ1−
0が対応するチェックポイントを通過したことを確認し
、更に、チェックデータ記憶手段41の状態を調べて他
のスレーブプロセッサの実行状態を確認したうえで、自
身に対応するチェックデータをチェックデータ記憶手段
41から1個取り出す。
つまり、マスタプロセッサ1−0がチェックデータ記憶
手段41上にチェックポイントに対応するチェックデー
タをスレーブプロセッサ1−1〜1−nの台数n分格納
し、1−1〜1−nの各スレーブプロセッサがチエツク
イベント識別子の照合を行なって自身に対応するチェッ
クデータを1つずつ取り出していく処理を行なう。従っ
て、マスタプロセッサ側1−0では、[全てのスレーブ
プロセッサ1−1〜1−nが前のチェックポイントに対
するチェックデータを取り出したかどうか」を確認した
上で次のチェックデータのエントリに入ることができ、
もし前回のチェックデータが残っている場合は、どのス
レーブプロセッサの実行が滞っているかが直ちに判る。
また、スレーブプロセッサ1−1〜1−nの側でも、「
前回のデータを全てのスレーブプロセッサ1−1〜1−
nが受信して、マスタプロセッサ1−0が今回のチェツ
クデータを正しく格納した状態であるか」ということを
確認した上でデータを受信することができる。従って、
プロセッサが相互に処理の実行過程を確認し合うことに
なり、システムの信頼性を高めることが可能であり、ま
た、システムの1台のプロセッサに故障が生じた場合に
ついても、これを次回のチエツクイベント時に明確に同
定して、必要な回復措置を施すことができ、耐故障性の
点でも優れた検出手段を実現できる。
(実施例) 以下、この発明の第1及び12の実施例を図に基づいて
詳説する。
第1図はこの発明の第1の実施例のシステム構成を示し
ており、疎結合型マルチプロセッサシステムに適用した
ものである。このシステムは、n千1台の複数のプロセ
ッサ1−0〜1−nをネットワーク2で相互に結合した
システムである。なお、図示実施例ではリング状のネッ
トワークを仮定しているが、このネットワークの形態は
特に限定されることはなく、どのような物理的形態をと
っていてもかまわない。
各プロセッサ1−0〜1−nは放送処理部3を介して放
送通信を実行する。この放送処理部3は、高速な通信を
実現するために専用のネットワーク4を介してプロセッ
サ1−0〜1−n群と結合されているが、ネットワーク
2上にプロセッサと等価な状態に配置してもかまわない
第2図はこの発明の第2の実施例のシステム構成を示し
ており、密結合型マルチプロセッサシステムに適用した
ものである。この密結合型マルチプロセッサシステムは
、複数のプロセッサ1−0〜1−nと共有メモリ5をシ
ステムバス6で結合したシステムである。
このようなシステムでは、放送処理部3を専用バス7を
介して各プロセッサ1−0〜1−nと結合すれば第1図
に示したシステムと同様の放送通信システムを構成する
ことができる。なお、この実施例でも、専用バス7は通
信高速化のために設けたものであり、放送通信部3を共
有メモリ5と同様にシステムバス6に直接接続してもよ
い。
いずれの実施例の場合も、各プロセッサ1−0〜l−n
が放送通信を行う場合は、要求メツセージ、及び放送デ
ータを専用ネットワーク4または専用バス7を通して放
送処理部3に送信し、必要な放送データの書き込み読み
出しを実行する。
この放送処理部3の詳しい内部構成を第3図に示す。第
3図において、放送処理部3はメツセージ解析部8、放
送データバッファ9、放送識別子レジスタ10、制御デ
ータスタック11、及び制御データスタックポインタ1
2から構成されている。
メツセージ解析部8はマスタプロセッサ1−0からの放
送要求メツセージや、スレーブプロセッサ1−1〜1−
n群からのデータ読み出し要求を受信し、これを解析し
てメツセージ内容に応じた動作を実行する。
放送データバッファ9はマスタプロセッサ1−0から送
信された放送データを一時的に格納しておくためのバッ
ファであり、この放送データバッファ9の容量はシステ
ムの通信量やネットワーク、バスの転送速度などに応し
て適宜に決められるものである。
放送識別子レジスタ10は、直前にマスタプロセッサ1
−0から送信された放送データに対する識別子を格納す
るレジスタである。この放送識別子レジスタ10に格納
される放送識別子は、マスタプロセッサ1−0側の放送
とスレーブプロセッサ】−1〜1−n側の受信とのマツ
チングを保証するための情報であり、連続する放送イベ
ントで値が一致することがなければどのように定めても
よいが、通常はプログラム実行時に適当な初期値を与え
、放送イベントごとに1ずつインクリメントするように
定められる。そこで以下の実施例では、そのように放送
識別子を与える場合の動作を説明する。
制御データスタック11は1回の放送の際に各スレーブ
プロセッサ1−1〜1−nに対して1つずつ与えられる
制御データをスレーブプロセッサの台数n分だけ格納し
ておくためのスタックであり、ここに格納されているデ
ータ量は制御データスタックポインタ12により知るこ
とができる。
マスタプロセッサ1−0からの放送要求メ・ソセージ2
0は第4図に示す形式であり、この実施例では放送コマ
ンドフィールド21と、放送識別子フィールド22と、
スレーブ台数フィールド23と、放送データフィールド
24の4フイールドから構成され、またスレーブプロセ
ッサ1−1〜1−nからの読み出し要求メツセージ30
は第5図に示す形式であり、放送読み出しコマンドフィ
ールド31と、放送識別子フィールド32の2フイール
ドから構成されているとする。
第4図に示す放送要求メツセージ20が放送処理部3に
入力された場合、メツセージ解析部8は放送コマンドフ
ィールド21から放送要求であることを認識し、以下の
動作を実行する。
まず、制御データスタックポインタ12の値を調べ、制
御データスタック11が空であるかどうかを調べる。も
し空でなければ前回の放送データがすべてのスレーブプ
ロセッサ1−1〜l−nに受信されていない状態である
から、制御データスタック11が空になるまでウェイト
するか、またはその旨をマスタプロセッサ1−0に通知
するメツセージを返送する。
制御データスタック11が空であれば、放送識別子フィ
ールド22の値を放送識別子レジスタ10に格納した後
で、スレーブ台数フィールド23を調べ、これと同じ個
数の制御データを制御データスタック11にブツシュし
て制御データスタックポインタ12の値を更新し、放送
データフィールド24のデータを放送データバッファ9
に書き込む。
そして以上の手続きの後、放送通信完了メツセージをマ
スタプロセッサ1−0に返送する。
次に、第5図に示す読み出し要求メツセージ30が入力
した場合、メツセージ解析部8は放送読み出しコマンド
フィールド31を確認後、以下の動作を実行する。
まず、放送識別子フィールド32の値と、放送識別子レ
ジスタ10の値とを比較する。もしこの比較において、
放送識別子レジスタ10の値の方が1だけ小さければ前
回の放送データの読み出しが完了していないスレーブプ
ロセッサがあることを示しているので、この放送読み出
しコマンドは、正しい状態になるまでウェイトされるか
エラー通知されることになる。しかしながら、それ以外
の放送識別子フィールド32の値と異なる値が放送識別
子レジスタ10に入っている場合には、その放送読み出
しコマンド自体が正しくないものなので、エラー処理を
行う必要がある。
一方、放送識別子フィールド32が放送識別子レジスタ
10と等しい値であれば、マスタプロセッサ1−0の放
送とそのデータの読み出しとが正しく同期されて実行さ
れているので、次に制御データスタック11を調べる。
この制御データスタック11を調べた時に、それが空で
なければ制御データスタック11から制御データを1つ
ポツプした上で放送データバッファ9からデータを読み
出し、要求元のスレーブプロセッサに返送する。
しかしながら、制御データスタック11が空であった場
合には、先にマスタプロセッサ1−0が指定した台数n
以上のスレーブプロセッサから読み出しコマンドが来た
ことを示している。そこで、この場合の対応方法はシス
テムの処理内容やシステムの通信の信頼性などにより異
なるが、次のような処理が行える。
(1)致命的エラーとしてシステム全体を止める。
(2)そのスレーブプロセッサからの読み出しコマンド
を拒絶して処理を続行する。
(3)マスタプロセッサにその旨を通知して、以降の放
送要求台数を更新させると共に、この要求を出したスレ
ーブプロセッサにはデータを渡す。
以上の動作について、動作条件と対応する放送処理部3
の処理内容をマスタプロセッサ側、スレーブプロセッサ
側合々の処理についてまとめると、第14図に示すよう
になる。
なお、この実施例ではスレーブプロセッサ1−1〜1−
n個々の識別は行わず、受信完了したスレーブプロセッ
サ台数のみに着目した処理例を示したが、あらかじめ処
理に関与するスレーブプロセッサの番号などが同定でき
るような場合については、別のシステムにより実現する
ことができるすなわち、制御データを制御データスタッ
クにブツシュするのではなく、特定のメモリ領域にスレ
ーブプロセッサの識別番号を付記した状態で制御データ
を格納しておき(この場合、同時にカウンタも設けてお
き、同時に制御することになる)、スレーブプロセッサ
から読み出し要求が来たなら、そのスレーブプロセッサ
の識別番号に対する制御データを消去するようにしても
よい。
このように構成すると、どのスレーブプロセッサが前回
の受信を完了していないかどうかを直ちに知ることが可
能となり、また指定したプロセッサのみに放送できるよ
うになる利点がある。
なお、上記の各実施例ではマスタプロセッサとしてプロ
セッサ1−0を選び、スレーブプロセッサとしてプロセ
ッサ1−1〜1−nを特定したが、実際のシステムでは
プロセッサ1−0〜1−nのうちいずれがマスタプロセ
ッサとなり、スレーブプロセッサとなるかは限定される
ことはなく、他のものがマスタプロセッサとなり、残り
のものがスレーブプロセッサとなることもあり得る。
次に、図面に基づいて本発明の第3及び第4の実施例を
説明する。
第7図はこの発明の第3の実施例のシステム構成を示し
ており、疎結合型マルチプロセッサシステムに適用した
ものである。このシステムは、複数のプロセッサl−0
−1−nをネットワーク2で相互に結合したシステムで
ある。
各プロセッサはチエツクイベント処理部51を介してチ
エツクイベント処理を実行する。各プロセッサがチエツ
クイベント処理を行なう場合は、チエツクイベントメツ
セージを専用ネットワーク4(また第8図では、専用バ
ス7)を通してチエツクイベント処理部51に送信し、
必要なチエツクイベント処理を実行する。
このチエツクイベント処理部51の内部構成を第9図に
示す。第9図において、チエツクイベント処理部51は
、メツセージ解析#53、イベント識別子レジスタ55
、チェックデータバッファ59、及び、チェックデータ
カウンタ57から構成されている。
メツセージ解析部53は、マスタプロセッサ1−〇から
のチエツクイベントメツセージやスレーブプロセッサ群
1−1〜1−nからのチェックポイント通過メツセージ
を受信し、これを解析してメツセージ内容に応じた動作
を実行する。
イベント識別子レジスタ55は、直前にマスタプロセッ
サ1−0から送信されたチエツクイベントメツセージに
対する識別子を格納するレジスタである。このイベント
識別子はマスク側とスレーブ側のチェックポイントのマ
ツチングを保障するための情報であり、連続するチェッ
クポイントで値が一致することがなければどのように定
めてもよい。通常は、プログラム実行時に適当な初期値
を与え、チェックポイント毎に1ずつインクリメントす
るように定めればよいので、この実施例では、そのよう
にイベント識別子が与えられると仮定して動作を説明す
る。
チェックデータバッファ59は、1回のチェックデータ
通信の際に各スレーブプロセッサ1−1〜1−nに対し
て1つずつ与えられるチェックデータをスレーブプロセ
ッサ台数0分だけ格納しておくためのバッファで、各ス
レーブプロセッサ番号に対応する値が格納される。また
、ここに格納されているデータ量はチェックデータカウ
ンタ57で知ることができる。
マスタプロセッサ1−0からのチエツクイベントメツセ
ージは第10図に示す形式を持ち、本実施例ではチエツ
クコマンド61、イベント識別子63、スレーブ台数6
5、及びスレーブプロセッサ番号データ67の4つのフ
ィールドがら構成されるとする。また、スレーブプロセ
ッサ1−1〜1−nからのチェックポイント通過メツセ
ージは、第11図に示す形式で、チェックポイント通過
コマンド71、イベント識別子73、スレーブプロセッ
サ番号75の3つのフィールドがら構成されるとする。
次に、上述した本発明の第3の実施例に係るマルチプロ
セッサシステムの構成において、第12図及び第13図
を用いて本発明による故障検出の方式を説明する。第1
2図は本実施例のマスタプロセッサ1−0におけるチェ
ックポイント動作のフローチャート、第13図は本実施
例のスレーブプロセッサ1−1〜1−nにおけるチェッ
クポイント動作のフローチャートである。
先ず、チエツクイベント処理部51が、第10図に示す
チエツクイベントメツセージを入力した場合、第12図
に示すように、ステップS1でメツセージ解析部53は
チエツクコマンドフィールド61からマスタプロセッサ
1−0からのチエツクイベントメツセージであることを
認識し、またイベント識別子フィールド63の値からプ
ログラム上のm回目チェックポイントに到達したことを
認識すると、以下の動作を実行する。
先ず、ステップS2でチェックデータカウンタ57の値
を調べ、ステップS3でチェックデータバッファ59が
空かどうか、すなわちチェックデータカウンター0かど
うかを調べる。もし空でなければ、前回のチエツクイベ
ントに対する通過メツセージが全てのスレーブプロセッ
サ1−1〜1−nから到着していない状態であるから、
ステップS4でチェックデータバッファ59が空になる
までウェイトするか、またはその旨をマスタプロセッサ
1−0に通知するメツセージを返送する。
またステップS3で、適当なタイムアウト時になっても
チェックデータバッファ59が空にならない場合は、ス
テップS5でタイムアウトエラーとして、チェックデー
タが指定するスレーブプロセッサが故障したものと判断
される。
また、ステップS3でチェックデータバッファ59が空
であれば、ステップS6に進み、イベント識別子フィー
ルド63の値mをイベント識別子レジスタ55に格納し
た後で、スレーブプロセッサ番号データ67をチェック
データバッファ59にコピーして、スレーブ台数65を
チェックデータカウンタ57に登録する。以上の手続き
の後、チエツクイベント処理完了メツセージをマスタプ
ロセッサ1−0に返送する。
次に、チエツクイベント処理部51が、第11図に示す
チェックポイント通過メツセージを入力した場合、第1
3図に示すように、ステップS11でメツセージ解析部
53は、チェックポイント通過コマンドフィールド71
を確認し、またイベント識別子フィールド73の値から
プログラム上のm回目チェックポイントに到達したこと
を認識すると、以下の動作を実行する。
先ず、ステップS12でイベント識別子レジスタ55の
値とチェックデータカウンタ57の値を調べる。次にス
テップS12で、チェックデータカウンタ≠0でイベン
ト識別子−m−1かどうかを判断する。もしイベント識
別子レジスタ55の値がmより1小さく、チェックデー
タカウンタ57の値が0でなければ、前回のチェックポ
イントを通過していないスレーブプロセッサがあること
を示しているので、この通過メツセージは正しい状態に
なるトでステップS14でウェイトされ、またステップ
S13で、適当なタイムアウト時になってもチェックデ
ータカウンター0にならない場合は、ステップS15で
タイムアウトエラーとしてエラー通知される。この場合
、チェックデータが指定するスレーブプロセッサが故障
したものと判断できる。
次に、ステップS16に進み、再びイベント識別子レジ
スタ55の値とチェックデータカウンタ57の値を調べ
、さらにステップ517で、チェックデータカウンター
0でイベント識別子=m1かどうかを判断する。もしイ
ベント識別子レジスタ55の値がmより1小さく、チェ
ックデータカウンタ57の値が0てあれば、マスタプロ
セッサ1−0が今回のチェックポイントに到達していな
いことを示しているので、この通過メツセージは正しい
状態になるまでステップS18でウェイトされ、またス
テップS17で、適当なタイムアウト時になってもチェ
ックデータカウンタ≠0にならない場合は、ステップS
17でタイムアウトエラーとしてエラー通知される。こ
の場合、マスタプロセッサ1−0が故障したものと判断
できる。
さらに、ステップS20に進み、イベント識別子フィー
ルド73の値mと1小さい以外の異なる値がイベント識
別子レジスタ55に入っている場合は、その通過メツセ
ージ自体が不正であるから、エラー処理を行なう必要が
ある。この場合は、ステップS21でそのメツセージを
出したスレーブプロセッサ自身が故障したものと判断さ
れる。
一方、イベント識別子フィールド73の値mがイベント
識別子レジスタ55と等しい値であれば、マスタプロセ
ッサ1−0のチエツクイベントとスレーブ側のチェック
ポイント通過が正しく同期されて実行されているので、
次にステップS22に進み、チェックデータバッファ5
9を調べる。
この時チェックデータバッファ59が空でなければ、ス
テップS24で、チェックデータバッファ59から自分
のプロセッサ番号に対応するチェックデータを取り出し
て無効化し、チェックデータカウンタ57を1デクリメ
ントする。これは正常なチェックポイント通過処理であ
る。
またステップS22で、チェックデータバッファ59が
空であった場合は、先にマスタプロセッサが指定した台
数以上のスレーブプロセッサからチェックポイント通過
メツセージが来たことを示しており、ステップ523で
スレーブ台数が不整合であることをマスタプロセッサ1
−0に通知する。この場合の対応方法はシステムの処理
内容やシステムの通信の信頼性等により異なるが、次の
ような処理が考えられる。
(1)致命的エラーとしてシステム全体を止める。
(2)そのスレーブプロセッサからのチェックポイント
通過メツセージを拒絶して処理を続ける。
(3)そのスレーブプロセッサにその旨を通知して、以
降のチエツクイベント台数を更新させる。
この要求を出したスレーブプロセッサには正常通過メツ
セージを渡す。
以上の動作について、動作条件と対応するチエツクイベ
ント処理部51の処理内容をマスク側、スレーブ側番々
の処理毎にまとめるとl115図に示す如くとなる。
尚、第7図では、リング上のネットワークを仮定してい
るが、本発明ではネットワーク2の物理的形態はどのよ
うなものであっても構わない。また、本実施例では、チ
エツクイベント処理部51は、高速なチエツクイベント
処理を実現するため専用ネットワーク4を介してプロセ
ッサ群1−0〜1−nと結合されているが、ネットワー
ク2上にプロセッサと等価な状態に配置しても構わない
また、第8図はこの発明の第4の実施例の密結合型マル
チプロセッサシステムの一例を示すブロック図である。
このシステムは、複数のプロセッサ1−0〜l−nと共
有メモリ5をシステムバス6で結合したシステムであり
、このようなシステムでは、チエツクイベント処理部5
1を専用バス7を介して各プロセッサと結合すれば、第
7図に示したシステムと全く等価な故障検出手段を提供
することができる。第8図においても、専用バス7はチ
エツクイベント処理高速化のために設けたものであり、
チエツクイベント処理部51を共有メモリ5と同様にシ
ステムバス6に直接接続しても構わない。
[発明の効果] 以上のようにこの発明によれば、制御データ保持手段の
保持している制御データが空になるかどうかにより放送
通信が正常に動作しているかどうかを判断するようにし
ているために、ネットワークトラフィック量が少なく、
かつ信頼性の高い放送通信を容易に実現することが可能
である。
また、この発明のシステムでは、放送通信があるたびに
そのデータ放送に関与している全プロセッサの状態をプ
ロセサ相互にチエツクしており、全てのプロセッサ状態
が正常になった時点で同期的に放送通信を行うようにし
ているために、システム内の一部プロセッサに故障が生
じた場合にも放送通信時に容易にこれを検出することが
可能であり、システムの耐故障性が向上する。
また、この発明のシステムでは、マスタースレーブ方式
での故障検出を早期に行ない、かつ明確に故障箇所の同
定を行なうことが容易に可能となる。各チェックポイン
トにおいて、マスク・プロセッサとスレーブ・プロセッ
サ群が相互の実行状態を監視しており、1台のプロセッ
サが故障した場合には、直ちにそのプロセッサ番号を同
定して必要な回復措置を施すことができる。よってより
信頼性の高い放送通信システムの構築が可能となる。
また、この発明において、チェックポイントの設定は、
マスタプロセッサとスレーブプロセッサ群が同期実行す
る部分であれば任意に設定できるので、システムが要求
される信頼性に応じて自由に故障検出精度を設定できる
。更に、この発明はマスタΦスレーブ方式以外のマルチ
プロセッサ構成であっても容易に応用できる。
さらに、この発明の場合には、その実現に際してシステ
ムのネットワーク構成、或いはプロセッサ構成に依存す
ることなく、かつ従来の通信プリミティブをそのまま使
用して実現することができる。
【図面の簡単な説明】
第1図はこの発明の第1の実施例の疎結合型マルチプロ
セッサシステムの一例を示すブロック図、第2図は、こ
の発明の第2の実施例の密結合型マルチプロセッサシス
テムの一例を示すブロック図、 第3図は上記の各実施例で使用する放送処理部の回路構
成を示すブロック図、 第4図は上記の各実施例で使用する放送要求メツセージ
の形式を示す説明図、 第5図は上記の各実施例で使用する読み出し要求メツセ
ージの形式を示す説明図、 第6図はこの発明に従う放送通信システムの概略機能ブ
ロック図、 第7図はこの発明の第3の実施例の疎結合型マルチプロ
セッサシステムの一例を示すブロック図、第8図はこの
発明の第4の実施例の密結合型マルチプロセッサシステ
ムの一例を示すブロック図、第9図は第7図、第8図に
示すマルチプロセッサシステムのうちチエツクイベント
処理部の一構成例を示すブロック図、 第10図はこの発明の第3及び第4の実施例におけるマ
スタプロセッサからのチエツクイベントメツセージの形
式を示す図、 第11図はこの発明の第3及び第4の実施例におけるス
レーブプロセッサからのチェックポイント通過メツセー
ジの形式を示す図、 第12図はこの発明の第3及び第4の実施例のマスタプ
ロセッサにおけるチェックポイント動作のフローチャー
ト、 第13図はこの発明の第3及び第4の実施例のスレーブ
プロセッサにおけるチェックポイント動作のフローチャ
ート、 第14図は、第1図、第2図に示すこの発明の第1、j
l!2実施例における動作条件と対応する放送処理部の
処理内容を示す図、 第15図は、第7図に示すこの発明の第3実施例におけ
る動作条件と対応するチエツクイベント処理部の処理内
容を示す図である。 1−0 ・・・ マスタプロセッサ 1−1〜1−n  ・・・ スレーブプロセッサ2 ・
・・ ネットワーク 3 ・・・ 放送処理部 4 ・・・ 専用ネットワーク 5 ・・・ 共有メモリ 6 ・・・ システムバス 7 ・・・ 専用バス 8 ・・・ メツセージ解析部 9 ・・・ 放送データバッファ 10 ・・・ 放送識別子レジスタ 11 ・・・ 制御データスタック 12 ・・・ 制御データスタックポインタ41 ・・
・ チェックデータ記憶手段43 ・・・ イベント識
別子記憶手段45 ・・・ 計数手段 47.51  ・・・ チエツクイベント処理部53 
・・・ メツセージ解析部

Claims (5)

    【特許請求の範囲】
  1. (1)マスタプロセッサと、 このマスタプロセッサの保持する放送データを受信する
    スレーブプロセッサと、 前記マスタプロセッサからの放送データを一時的に保持
    する放送データ保持手段と、この放送データに付属して
    前記スレーブプロセッサに渡される制御データをこのス
    レーブプロセッサの台数分だけ保持する制御データ保持
    手段と、各放送イベントに対応する識別データを保持す
    る識別データ保持手段とを有する放送処理部とを備え、 前記マスタプロセッサが、前記制御データ保持手段に対
    して各放送イベントごとに当該放送時にその放送データ
    を受信するスレーブプロセッサの台数分の制御データを
    保持させ、 前記スレーブプロセッサ各々が、前記放送イベントを前
    記識別データ保持手段の保持する識別データから識別し
    、同一の放送イベントの放送データを読み出す際に前記
    制御データ保持手段に格納された制御データを1つずつ
    取り出すようにしたことを特徴とする放送通信システム
  2. (2)マスタプロセッサと、 このマスタプロセッサの保持する放送データを受信する
    スレーブプロセッサと、 前記マスタプロセッサからの放送データを一時的に保持
    する放送データ保持手段と、この放送データに付属して
    当該放送データを放送するスレーブプロセッサを特定す
    る制御データをそのスレーブプロセッサの台数分だけ保
    持する制御データ保持手段と、各放送イベントに対応す
    る識別データを保持する識別データ保持手段とを有する
    放送処理部とを備え、 前記マスタプロセッサが、前記制御データ保持手段に対
    して各放送イベントごとに当該放送時にその放送データ
    を受信するスレーブプロセッサを特定する制御データを
    そのスレーブプロセッサの台数分だけ保持させ、 前記制御データにより特定されるスレーブプロセッサ各
    々が、前記放送イベントを前記識別データ保持手段の保
    持する識別データから識別し、同一の放送イベントの放
    送データを読み出す際に前記制御データ保持手段に格納
    された制御データを1つずつ取り出すようにしたことを
    特徴とする放送通信システム。
  3. (3)複数のプロセッサが協調して処理する放送通信シ
    ステムにおいて、協調して処理を実行するプロセッサに
    より共有されており、当該プロセッサのプログラムが一
    定箇所に到達した時点で転送してくるチェックデータを
    保持するチェックデータ記憶手段と、当該チェックデー
    タに付属して転送されてくるイベント識別子を保持する
    イベント識別子記憶手段と、受信したチェックデータの
    個数を計数する計数手段とを有することを特徴とする放
    送通信システム。
  4. (4)1台のマスタプロセッサと複数のスレーブプロセ
    ッサが相互に同期しながら処理を行なう放送通信システ
    ムにおいて、前記マスタプロセッサがプログラムのチェ
    ックポイントを通過した時点で、前記チェックデータ記
    憶手段に、対応する前記スレーブプロセッサの台数分の
    チェックデータを格納して前記計数手段を更新し、各ス
    レーブプロセッサがプログラム上のチェックポイントに
    到達した際に、前記チェックデータ記憶手段に格納され
    ている自プロセッサに対応するチェックデータを1つず
    つ取り出して前記計数手段を更新することを特徴とする
    請求項3に記載の放送通信システム。
  5. (5)前記イベント識別子記憶手段は、各プロセッサか
    ら送られてくるチェックポイントを通過した旨のメッセ
    ージに付記されているチェックイベントデータと値を比
    較し、各要求に対応するチェックデータが正しく格納さ
    れているか否かを判断することを特徴とする請求項3及
    び4に記載の放送通信システム。
JP2330328A 1990-01-24 1990-11-30 放送通信システム Pending JPH03250240A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2330328A JPH03250240A (ja) 1990-01-24 1990-11-30 放送通信システム
US07/801,648 US5418937A (en) 1990-11-30 1991-12-02 Master-slave type multi-processing system with multicast and fault detection operations having improved reliability

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2-12438 1990-01-24
JP1243890 1990-01-24
JP2330328A JPH03250240A (ja) 1990-01-24 1990-11-30 放送通信システム

Publications (1)

Publication Number Publication Date
JPH03250240A true JPH03250240A (ja) 1991-11-08

Family

ID=26348060

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2330328A Pending JPH03250240A (ja) 1990-01-24 1990-11-30 放送通信システム

Country Status (1)

Country Link
JP (1) JPH03250240A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007287142A (ja) * 2006-04-13 2007-11-01 Internatl Business Mach Corp <Ibm> チケット・ベースの動作の追跡をサポートするデータを処理するためのデータ処理システムおよび方法
WO2009116171A1 (ja) * 2008-03-21 2009-09-24 富士通株式会社 情報処理装置、データ転送回路および情報処理装置の制御方法
JP2013246584A (ja) * 2012-05-24 2013-12-09 Mitsubishi Electric Corp 制御装置、データ出力制御ユニット、データ入力制御ユニット、および制御ユニット

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007287142A (ja) * 2006-04-13 2007-11-01 Internatl Business Mach Corp <Ibm> チケット・ベースの動作の追跡をサポートするデータを処理するためのデータ処理システムおよび方法
WO2009116171A1 (ja) * 2008-03-21 2009-09-24 富士通株式会社 情報処理装置、データ転送回路および情報処理装置の制御方法
JP5099214B2 (ja) * 2008-03-21 2012-12-19 富士通株式会社 情報処理装置、データ転送回路および情報処理装置の制御方法
US8533378B2 (en) 2008-03-21 2013-09-10 Fujitsu Limited Information processing device, data transfer circuit, and control method of information processing device
JP2013246584A (ja) * 2012-05-24 2013-12-09 Mitsubishi Electric Corp 制御装置、データ出力制御ユニット、データ入力制御ユニット、および制御ユニット

Similar Documents

Publication Publication Date Title
US5418937A (en) Master-slave type multi-processing system with multicast and fault detection operations having improved reliability
US6026499A (en) Scheme for restarting processes at distributed checkpoints in client-server computer system
KR100575497B1 (ko) 내고장성 컴퓨터 시스템
EP0441087B1 (en) Checkpointing mechanism for fault-tolerant systems
US5455932A (en) Fault tolerant computer system
EP0196911B1 (en) Local area networks
US5423044A (en) Shared, distributed lock manager for loosely coupled processing systems
US4466098A (en) Cross channel circuit for an electronic system having two or more redundant computers
US5442785A (en) Method and apparatus for passing messages between application programs on host processors coupled to a record lock processor
US5717849A (en) System and procedure for early detection of a fault in a chained series of control blocks
US7941810B2 (en) Extensible and flexible firmware architecture for reliability, availability, serviceability features
JPH0683775A (ja) データ処理システム
US3833798A (en) Data processing systems having multiplexed system units
WO2024109239A1 (zh) 集群数据同步方法、装置、设备及非易失性可读存储介质
KR20150104251A (ko) 항공기 시스템 및 그것의 제어 방법
JPH03250240A (ja) 放送通信システム
LALA Advanced information processing system
CN105892957A (zh) 一种基于动态分片的分布式事务执行方法
KR960014980B1 (ko) 랜(lan) 감시장치 및 통신절차 감시방법
US7243257B2 (en) Computer system for preventing inter-node fault propagation
Russell et al. Error resynchronization in producer-consumer systems
KR940006834B1 (ko) 다중처리기 시스템에서 처리기들 간의 인터럽트 기능장애 진단 및 복구자료 산출방법
EP0221275A2 (en) Method and apparatus for ensuring data integrity in a computer system
JPH06124242A (ja) 二重化共有メモリ等価性保証方式
JPH10124338A (ja) 並列処理装置