JPH047645A - Fault tolerant computer - Google Patents

Fault tolerant computer

Info

Publication number
JPH047645A
JPH047645A JP2111240A JP11124090A JPH047645A JP H047645 A JPH047645 A JP H047645A JP 2111240 A JP2111240 A JP 2111240A JP 11124090 A JP11124090 A JP 11124090A JP H047645 A JPH047645 A JP H047645A
Authority
JP
Japan
Prior art keywords
unit
computer
stop signal
normal
units
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2111240A
Other languages
Japanese (ja)
Inventor
Katsuhiro Asano
勝宏 浅野
Takashi Naito
貴志 内藤
Shigenobu Okada
岡田 重信
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Central R&D Labs Inc
Original Assignee
Toyota Central R&D Labs Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Central R&D Labs Inc filed Critical Toyota Central R&D Labs Inc
Priority to JP2111240A priority Critical patent/JPH047645A/en
Publication of JPH047645A publication Critical patent/JPH047645A/en
Pending legal-status Critical Current

Links

Abstract

PURPOSE:To prevent the fall of control performance accompanying the occurrence of a fault by providing a function to cancel a stop signal to a unit isolated from a system, the function to inspect whether normal operation is possible or not, and the function to make preparations for resetting. CONSTITUTION:A backup processing circuit cancels temporarily the stop signal for the computer unit isolated from the system because of the fault. On the other hand, the computer unit released from the stop signal executes operation inspection consisting of self monitoring and mutual monitoring, and if these are processes within a definite period of time, the computer unit is reset to the system. If an error is detected by the operation inspection, or if the operation inspection could not be processed within a definite period of time, it is isolated again from the system by the stop signal from the backup processing circuit. Thus, the fall of the control performance due to the fault can be minimized.

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、マルチプロセッサ方式のフォールト・トレラ
ント・コンピュータに係り、特に−時的な障害によりシ
ステムから切り離されたユニットを復帰させる、または
固定的な障害によりシステムから切り離されたユニット
を修理した後復帰させるためのリスタート機能を有する
フォールト・トレラント・コンピュータに関する。
DETAILED DESCRIPTION OF THE INVENTION [Industrial Application Field] The present invention relates to a multiprocessor type fault-tolerant computer, and in particular to a system for restoring a unit that has been disconnected from the system due to a temporary failure, or The present invention relates to a fault-tolerant computer having a restart function for restoring a unit that has been disconnected from the system due to a failure after repair.

〔従来技術〕[Prior art]

第2図は、電子情報通信学会フォールト・トレラント・
システム研究会(F T S 87−31)にて発表さ
れている従来のマルチプロセッサ方式のフォールト・ト
レラント・コンピュータ(以下単にシステムという)の
概念図である。ここで、マルチプロセッサは、全く同じ
構成のコンピュータユニット(以下、ユニットという)
を独立に複数台設け(第2図では4台)、各ユニットA
−Dをコモンエリアを介して接続する構成になっている
。各ユニットは、それぞれ別のクロックにより非同期で
それぞれ異なったタスクを実行している。このマルチプ
ロセッサにおいて、フォールト・トレランスは、相互監
視、故障部分の切り離し、バックアップの3ステツプか
ら実現している。
Figure 2 shows the IEICE fault-tolerant
1 is a conceptual diagram of a conventional multiprocessor type fault-tolerant computer (hereinafter simply referred to as a system) announced at the System Research Group (FTS 87-31). Here, a multiprocessor is a computer unit (hereinafter referred to as a unit) with exactly the same configuration.
Install multiple units independently (four units in Figure 2), and each unit A
-D is connected via a common area. Each unit executes different tasks asynchronously using different clocks. In this multiprocessor, fault tolerance is achieved through three steps: mutual monitoring, isolation of failed parts, and backup.

まず、相互監視のステップでは、各ユニットか夫々個別
のタスクを実行中に、定期的に他のユニットの動作状態
を監視し、その監視結果をバックアップ処理回路に出力
する。このような監視は各ユニットの間で相互に行われ
る。
First, in the step of mutual monitoring, each unit periodically monitors the operating state of other units while each unit is executing an individual task, and outputs the monitoring results to the backup processing circuit. Such monitoring is performed mutually between each unit.

次のステップでは、バックアップ処理回路が、各ユニッ
トからの監視結果に基づいて正常なユニットと異常なユ
ニットを決定し、異常ユニットに対してはシステムから
切り離すための停止信号を出力する。また、正常ユニッ
トには、現在どのユニットが運転状態にあるかを示す動
作情報を出力する。
In the next step, the backup processing circuit determines normal units and abnormal units based on the monitoring results from each unit, and outputs a stop signal to the abnormal unit to disconnect it from the system. In addition, operation information indicating which unit is currently in operation is output to the normal unit.

つづいて、正常ユニットは、バックアップ処理回路から
の動作情報に基づいて実行すべきタスクを決定し、その
タスクを実行する。その際、各ユニットのタスクが重複
することなく、かつ漏れることのないようにタスクか決
定される。なお、システムから切り離されたユニットが
ある場合には、そのタスクを正常ユニットがバックアッ
プする。
Subsequently, the normal unit determines a task to be executed based on the operation information from the backup processing circuit, and executes the task. At this time, tasks are determined so that each unit's tasks do not overlap or are omitted. Note that if there is a unit that has been disconnected from the system, the normal unit backs up that task.

そのため正常ユニットは、状況に応じて複数のタスクを
実行する。
Therefore, a normal unit executes multiple tasks depending on the situation.

この従来装置において、一部のユニットに障害か発生し
た場合、その部分はシステムから切り離され、残りのユ
ニットでシステム全体のタスクが実行される。このよう
な再構成は残り一台になるまで繰り返される。その時、
正常ユニットの数か、システム全体のタスクの数に比べ
多ければ、そのうちの一部の正常ユニットはタスクを実
行せずに待機する。そして、正常ユニットの数が減少す
るに従い、待機中の正常ユニットが代わってタスクを実
行することになる。一方、正常ユニットの数が、システ
ム全体のタスクの数より少なくなった場合には、残りの
正常ユニットは、−台で複数のタスクを実行する。
In this conventional device, if a failure occurs in a part of the unit, that part is disconnected from the system and the remaining units perform the tasks of the entire system. Such reconfiguration is repeated until only one device remains. At that time,
If the number of normal units is greater than the number of tasks in the entire system, some of the normal units will wait without executing any tasks. Then, as the number of normal units decreases, a normal unit on standby will take over and execute the task. On the other hand, if the number of normal units becomes less than the number of tasks in the entire system, the remaining normal units execute a plurality of tasks.

〔従来技術の問題点〕[Problems with conventional technology]

上述のように、従来技術においては正常ユニットの数が
、システム全体のタスクの数より少なくなった場合には
、残りの正常ユニットは、−台で複数のタスクを実行す
ることが必要になるのて、システム全体のタスクを実行
するための演算時間が長くなる。その結果、システムか
外部装置としての制御対象を制御する場合、制御性能の
低下を招く。そして、初期の制御性能まで復元するには
、電源を落として障害部分を修理点検し再稼働する必要
かある。
As mentioned above, in the conventional technology, when the number of normal units becomes less than the number of tasks in the entire system, the remaining normal units are required to execute multiple tasks. This increases the computational time required to perform system-wide tasks. As a result, when controlling an object to be controlled as a system or an external device, control performance deteriorates. In order to restore the initial control performance, it is necessary to turn off the power, repair and inspect the faulty part, and restart the system.

ところで、障害か一時的なものであった場合には、修理
は必要ではなく、また障害か回避された段階では本来の
制御性能を落とさなくても運転できるはずである。にも
かかわらず、この従来技術では一時的な障害により制御
性能は低下したままであり、また制御性能を回復するた
めには、電源を落とし運転を中断することが必要となり
、作業効率の面からも大きな問題である。
By the way, if the failure is temporary, there is no need for repair, and once the failure has been avoided, the vehicle should be able to operate without reducing its original control performance. However, with this conventional technology, control performance remains degraded due to temporary failures, and in order to restore control performance, it is necessary to turn off the power and interrupt operation, which is detrimental to work efficiency. is also a big problem.

また、障害が固定的なものの場合にも、制御対象の運転
を中断することは、作業効率を著しく低下させるもので
あり、経済的に不利である。できることなら、運転中に
故障部分を修理し、再復帰させることが望まれる。
Furthermore, even when the fault is fixed, interrupting the operation of the controlled object significantly reduces work efficiency and is economically disadvantageous. If possible, it is desirable to repair the malfunctioning part during operation and restore the system again.

〔発明の目的〕[Purpose of the invention]

本発明は、上記従来技術の問題点を解消するためになさ
れたものである。従来技術においては、障害が一時的な
ものであっても、それらの障害の発生に伴って、制御性
能か低下していた。また、運転中に、故障部分を修理点
検することはできず、制御性能を回復するためには運転
を中断することが必要であった。
The present invention has been made to solve the problems of the prior art described above. In the conventional technology, even if the failure is temporary, control performance deteriorates as the failure occurs. Furthermore, it is not possible to repair or inspect a malfunctioning part during operation, and it is necessary to interrupt operation in order to restore control performance.

本発明は、バックアップ処理回路内に、システムから切
り離されたユニットへの停止信号を解除する機能と、シ
ステムから切り離されたユニットが正常に動作可能であ
るか点検する機能と、−度システムから切り離されたユ
ニットがシステムに復帰するための準備をする機能を簡
単な手段で構成することにより、障害の発生に伴う制御
性能の低下を極力防ぎ、かつ、運転の中断をしなくても
故障部分を修理することを可能にする低価格でコンパク
トなフォールト・トレラント・コンピュータを提供する
ことを目的とする。
The present invention provides a backup processing circuit with a function to release a stop signal to a unit disconnected from the system, a function to check whether the unit disconnected from the system can operate normally, and a function to check whether the unit disconnected from the system can operate normally. By configuring a function that prepares a failed unit to return to the system using a simple means, it is possible to prevent a decline in control performance due to a failure as much as possible, and to fix the failed part without interrupting operation. The objective is to provide a low cost, compact fault tolerant computer that can be repaired.

また、本発明は、障害の種類に応じた適切な再復帰方法
を提供し、性能低下の期間か短くかつ安全に制御性能を
回復するフォールト・トレラント・コンピュータを実現
することを目的とする。
Another object of the present invention is to provide a recovery method appropriate for the type of failure, and to realize a fault-tolerant computer that safely recovers control performance within a short period of performance degradation.

〔発明の説明〕[Description of the invention]

本発明のフォールト・トレラント・コンピュータは、第
1図に示すように、マルチプロセッサシステムからなる
負荷分散形のフォールト・トレラント・コンピュータに
おいて;前記マルチプロセッサシステム全体のタスクを
機能分担してなる個別の各タスクより、実行すべきタス
クを前記動作情報に基づいて選択的に決定、実行し、か
つ、定期的に相互監視を行って該監視結果を前記バック
アップ処理回路へ出力するとともに、システムから切り
離された状態から停止信号が解除になった場合には自己
点検と相互点検とからなる動作点検とリスタートのため
の制御情報の入力とを行い、前記動作点検および制御情
報の入力か一定期間内に終了した時にシステムに復帰す
るリスタート機能を有する複数のコンピュータユニット
と;前記各コンピュータユニットからの監視結果に基づ
いて正常/異常コンピュータユニットを決定し、異常コ
ンピュータユニットには前記停止信号を出力してシステ
ムから切り離し、正常コンピュータユニットには前記動
作情報を出力し、かつ、システムから切り離されている
コンピュータユニットには一時的な停止信号の解除を行
うバックアップ処理回路と;前記各コンピュータユニッ
トと外部装置との間でデータ転送を行う入出力手段と;
前記各コンピュータユニットからデータの書込みおよび
読出しを行うための共有メモリと:前記コンピュータユ
ニットと前記入出力手段と前記共有メモリと前記バック
アップ処理回路とを接続するコモンエリア上のバスと;
を具備することを特徴とする。
As shown in FIG. 1, the fault-tolerant computer of the present invention is a load-balanced fault-tolerant computer consisting of a multiprocessor system; Selectively determines and executes a task to be executed based on the operation information from the tasks, performs mutual monitoring periodically, outputs the monitoring result to the backup processing circuit, and disconnects from the system. When the stop signal is released from the state, operation inspection consisting of self-inspection and mutual inspection and input of control information for restart are performed, and the operation inspection and input of control information are completed within a certain period of time. a plurality of computer units having a restart function that returns to the system when a backup processing circuit that outputs the operating information to the normal computer unit and releases a temporary stop signal to the computer unit that is disconnected from the system; An input/output means for transferring data between;
a shared memory for writing and reading data from each computer unit; a bus on a common area connecting the computer unit, the input/output means, the shared memory and the backup processing circuit;
It is characterized by comprising the following.

〔発明の作用および効果〕[Operation and effects of the invention]

本発明は、上記構成によりフォールト・トレランスを行
う際、バックアップ処理回路が障害によりシステムから
切り離されたコンピュータユニットに対しその停止信号
を一時的に解除する。一方、停止信号が解除されたコン
ピュータユニットは自己監視と相互監視とからなる動作
点検を行い、それらを一定期間内に処理した場合にシス
テムに復帰する。動作点検で誤りが発見された場合また
は一定期間内に処理できなかった場合には、バックアッ
プ処理回路からの停止信号により再びシステムから切り
離される。
In the present invention, when performing fault tolerance with the above configuration, the backup processing circuit temporarily releases the stop signal to a computer unit that has been disconnected from the system due to a failure. On the other hand, the computer unit whose stop signal has been released performs an operation check consisting of self-monitoring and mutual monitoring, and returns to the system if these are processed within a certain period of time. If an error is found in the operation check or if processing cannot be completed within a certain period of time, the backup processing circuit will disconnect the system again by a stop signal.

このように、本発明では、障害によりシステムから切り
離されているコンピュータユニットに対し一時的に停止
信号か解除されるので、その時すでに障害の原因が取り
除かれているような一過性の障害に対しては、再びシス
テムに復帰できる。
In this way, in the present invention, the stop signal is temporarily released for a computer unit that has been disconnected from the system due to a failure, so it is possible to prevent a temporary failure in which the cause of the failure has already been removed. You can then reenter the system.

ゆえに、一過性の障害の発生により制御性能か低下する
ことはない。
Therefore, control performance does not deteriorate due to the occurrence of a temporary failure.

また、コンピュータユニットに固定的な障害が発生しそ
のコンピュータユニットかシステムから切り離された場
合にも、システムか運転されている状態で固定的な障害
部分を修理すれば、リスタート機能により切り離された
コンピュータユニットはシステムに復帰できる。ゆえに
、例えば、航空機、高速道路走行中の車両や原子炉、溶
鉱炉等々のような、運転を中断してはならないものをも
制御対象とすることができるという効果がある。
In addition, even if a fixed failure occurs in a computer unit and the computer unit is disconnected from the system, if the fixed failure part is repaired while the system is running, the restart function will allow the computer unit to be disconnected. The computer unit can be returned to the system. Therefore, it is possible to control objects that must not be interrupted, such as aircraft, vehicles traveling on highways, nuclear reactors, blast furnaces, and the like.

以上のように、本発明によれば、障害による制御性能の
低下が最小限であり、かつ修理のために電源を落とす必
要のないフォールト・トレラント・コンピュータが実現
する。そのため、作業効率の大幅な向上、安全性の向上
、品質の向上か可能になり、ひいては経済的な面でも有
利になる。
As described above, according to the present invention, a fault-tolerant computer is realized in which the deterioration of control performance due to failure is minimal and there is no need to turn off the power for repair. Therefore, it becomes possible to significantly improve work efficiency, improve safety, and improve quality, which is also economically advantageous.

さらに、各コンピュータユニットとバックアップ処理回
路の構成上の特徴を活かして、上記リスタートの機能を
適切に分担しているので、実現するための回路が極めて
簡単になる。
Furthermore, since the restart function is appropriately shared by taking advantage of the structural features of each computer unit and the backup processing circuit, the circuit for realizing it is extremely simple.

〔他の発明の説明〕[Description of other inventions]

本発明をさらに具体化した構成よりなる第2発明につい
て説明する。
A second invention having a configuration that further embodies the invention will be described.

本第2発明のフォールト・トレラント・コンピュータは
、前記バックアップ処理回路が、各コンピュータユニッ
トからコモンエリアを介して送られた監視結果を一時的
に記憶する監視結果記憶手段と、前記記憶された監視結
果と現在の動作情報とに基づいて正常/異常コンピュー
タユニットを決定する決定手段と、前記決定結果に基づ
く動作情報を新たな動作情報として出力する動作情報出
力手段と、前記動作情報出力手段より出力された動作情
報を一時的に記憶しコモンエリアを介して各コンピュー
タユニットへ送るとともに、前記バックアップ処理回路
へフィードバックする動作情報−時記憶手段と、前記決
定結果に基づき異常コンピュータユニットに停止信号を
出力してシステムから切り離す停止信号出力手段と、設
定されたタイミングで起動信号を発生する起動信号発生
手段と、前記起動信号に基づき異常コンピュータユニッ
トへの停止信号を一時的に解除する停止信号解除手段と
、を具備することを特徴とする。
In the fault-tolerant computer according to the second aspect of the present invention, the backup processing circuit includes a monitoring result storage means for temporarily storing monitoring results sent from each computer unit via a common area; determining means for determining a normal/abnormal computer unit based on current operating information; operating information outputting means for outputting operating information based on the determination result as new operating information; an operation information-time storage means for temporarily storing the detected operation information and sending it to each computer unit via a common area and feeding it back to the backup processing circuit; a stop signal output means for disconnecting the abnormal computer unit from the system; a start signal generating means for generating a start signal at a set timing; a stop signal canceling means for temporarily canceling a stop signal to the abnormal computer unit based on the start signal; It is characterized by comprising the following.

本第2の発明では、上記構成により、フォールト・トレ
ランスを実現する際、システムから切り離されたコンピ
ュータユニットに対する停止信号の一時的な解除は、前
記起動信号発生手段と前記停止信号解除手段により行わ
れる。したがって、前記起動信号発生手段を、例えば自
励発振回路により構成することにより、システムから切
り離されたコンピュータユニットに対しては、自動的に
一時的な停止信号の解除が行われ、このような操作はシ
ステムから切り離されたコンピュータユニットかシステ
ムに復帰するまで繰り返される。
In the second invention, with the above configuration, when realizing fault tolerance, temporary release of a stop signal for a computer unit separated from the system is performed by the start signal generation means and the stop signal release means. . Therefore, by configuring the start signal generating means using, for example, a self-excited oscillation circuit, the temporary stop signal is automatically released for the computer unit disconnected from the system, and such operations is repeated until the computer unit is disconnected from the system or returned to the system.

この場合、−時的な障害によりシステムから切り離され
たコンピュータユニットは、自動的に停止信号が解除さ
れ、それと同時にシステムに復帰することができる。し
たがって、−時的な障害により制御性能が低下する期間
はほとんどない。また、作業者の操作を必要としない点
でも有利である。
In this case, a computer unit that has been disconnected from the system due to a temporary failure will have its stop signal automatically released and can be returned to the system at the same time. Therefore, there is almost no period in which control performance deteriorates due to temporal disturbances. It is also advantageous in that it does not require any operation by the operator.

特に、本第2発明は、システムから切り離されたコンピ
ュータユニットに対する一時的な停止信号の解除によっ
て発生する影響か小さく、かつ−時的な障害により起こ
る制御性能の低下か大きいようなシステムに対して適し
ている。
In particular, the second invention is applicable to a system in which the influence caused by temporarily releasing a stop signal on a computer unit separated from the system is small, and the control performance decrease caused by a temporal failure is large. Are suitable.

また、前記本発明における、作業効率の大幅な向上、安
全性の向上、品質の向上、ならびに経済的な面での優位
さは、決して損なわれるものではない。さらに、これら
を実現するための回路が極めて簡単になるというメリッ
トも同様に得られる。
In addition, the present invention provides significant improvements in work efficiency, safety, quality, and economic advantages, which are not impaired in any way. Furthermore, there is also the advantage that the circuit for realizing these becomes extremely simple.

なお、前記起動信号発生手段をマニュアル式のスイッチ
で構成することも可能である。この場合、システムから
切り離されたコンピュータユニットは、人為的な操作が
加わらない限りそのままの状態を維持する。したかって
、システムに悪影響を与えるような障害に陥っているコ
ンピュータユニットをむやみにリスタートさせることを
防ぐことかでき、信頼性か増す。また、運転状態、故障
の状況に応じて、作業者かその対策を選へるので都合が
よい。
Note that it is also possible to configure the activation signal generating means with a manual switch. In this case, the computer unit disconnected from the system remains in that state unless it is manually operated. Therefore, it is possible to prevent unnecessary restarting of a computer unit that has experienced a failure that would adversely affect the system, thereby increasing reliability. Furthermore, it is convenient because the operator can choose the countermeasure depending on the operating condition and the failure situation.

また、前記本発明における、作業効率の大幅な向上、安
全性の向上、品質の向上、ならびに経済的な面での優位
さは、決して損なわれるものではない。
In addition, the present invention provides significant improvements in work efficiency, safety, quality, and economic advantages, which are not impaired in any way.

さらに、これらを実現するための回路か極めて簡単にな
るというメリットも同様に得られる。
Furthermore, there is also the advantage that the circuit for realizing these becomes extremely simple.

〔実施例〕〔Example〕

以下、本発明の実施例を図面を用いて詳細に説明する。 Embodiments of the present invention will be described in detail below with reference to the drawings.

第1実施例 第3図は、本発明の第1実施例のフォールト・トレラン
ト・コンピュータ(以下、システムという)の全体構成
を示したものである。
First Embodiment FIG. 3 shows the overall configuration of a fault-tolerant computer (hereinafter referred to as system) according to the first embodiment of the present invention.

コンピュータユニット10(以下、ユニットという)は
、プロセッサ11、ローカルメモリ12、アドレスデコ
ーダ13およびバススイッチ14により構成されており
、それらはアドレスバスAB】、データバスDBI、コ
ントロールバスCBIを介して接続されている。ここで
、プロセッサ11は、ローカルメモリ12に書かれてい
るプログラムに基づいて所定の処理を行う。このプロセ
ッサ11は、バックアップ処理回路の管理下にあり、停
止信号か発せられた場合には直ちに実行を中断しシステ
ムから離脱する。
The computer unit 10 (hereinafter referred to as the unit) is composed of a processor 11, a local memory 12, an address decoder 13, and a bus switch 14, which are connected via an address bus AB, a data bus DBI, and a control bus CBI. ing. Here, the processor 11 performs predetermined processing based on a program written in the local memory 12. This processor 11 is under the control of a backup processing circuit, and when a stop signal is issued, it immediately interrupts execution and leaves the system.

アドレスデコーダ13は、プロセッサ11が出力してい
るアドレスをデコードし、ローカルエリアにおいてはロ
ーカルメモリ12に対してチップセレクト信号を出力し
、コモンエリアにおいてはバススイッチ処理回路(バス
アビタ)lにコモンエリアに対するアクセス要求信号を
出力する。
The address decoder 13 decodes the address output by the processor 11, outputs a chip select signal to the local memory 12 in the local area, and sends a chip select signal to the bus switch processing circuit (bus abiter) l in the common area. Outputs an access request signal.

ローカルメモリ12は、プロセッサ11からの要求に応
じてプログラムやデータの出力、並びにデータの記憶を
行う。
The local memory 12 outputs programs and data, and stores data in response to requests from the processor 11.

バススイッチ処理回路lは、各ユニット10〜NOから
のアクセス要求に応じて、コモンエリアが使用されてい
なければアクセス許可信号を出力し、使用中の場合には
使用が終了するまで待機させる。また、同時に複数のユ
ニットがアクセスを要求した場合には、優先順位の高い
ユニットから順にアクセスを許可する。
In response to access requests from each unit 10 to NO, the bus switch processing circuit 1 outputs an access permission signal if the common area is not in use, and if it is in use, it waits until the use ends. Furthermore, if multiple units request access at the same time, access is granted in order of priority.

バススイッチ14はアクセス許可信号に基づいて、ユニ
ットIO内のアドレスバスABI、データバスDB 1
.コントロールバスCBIと、コモンエリア内のアドレ
スバスAB、データバスDB。
Based on the access permission signal, the bus switch 14 selects the address bus ABI and data bus DB1 within the unit IO.
.. Control bus CBI, address bus AB, and data bus DB in the common area.

コントロールバスCBとの接続または切り離しをする。Connect or disconnect from control bus CB.

なお、ユニット20からユニットNOについても全く同
様な構成であるので、説明を省略する。
It should be noted that since the units 20 to NO have the same configuration, their explanations will be omitted.

コモンエリア上のアドレスデコーダ2は、コモンエリア
上のアドレス信号とコントロール信号とに基づいてコモ
ンエリアのアドレスをデコードし、コモンエリアに配置
された共有メモリ3、出力ポート4、入力ポート5のい
ずれかに対しチップセレクト信号を出力する。
The address decoder 2 on the common area decodes the address of the common area based on the address signal on the common area and the control signal, and decodes the address of the common area based on the address signal on the common area and the control signal, and decodes the address of the common area from one of the shared memory 3, output port 4, and input port 5 arranged in the common area. Outputs a chip select signal to the

共有メモリ3は、要求に応じて、各ユニット10〜NO
からのデータを記憶したり、または各ユニットに記憶さ
れているデータを出力する。なお、どのユニットからも
アクセス可能であるので、共有メモリ3を介したユニッ
ト間のデータ転送が可能である。各ユニット間の相互監
視はこの共有メモリ3を介して行われる。
The shared memory 3 is connected to each unit 10 to NO.
or output data stored in each unit. Note that since it can be accessed from any unit, data transfer between units via the shared memory 3 is possible. Mutual monitoring between units is performed via this shared memory 3.

出力ポート4は、各ユニット1O−Noから出力された
指令信号などを外部に配置されたアクチエーター6に出
力する。
The output port 4 outputs command signals and the like output from each unit 1O-No to an actuator 6 disposed outside.

入力ポート5は、外部のセンサ7から検出信号を入力し
各ユニット10〜NOに転送する。
The input port 5 inputs a detection signal from an external sensor 7 and transfers it to each unit 10 to NO.

バックアップ処理回路100は、出力ポート101、入
力ポート102、正常/異常コンピュータ決定回路10
3から構成されており、これらはコモンエリア上に配置
されている。ここで、各ユニット間でお互いに相互監視
した結果は、コモンエリアを介してコモンエリア上の出
力ポート101に出力され、一方、出力ポートlO1は
、各ユニット間でお互いに相互監視した結果を入力し、
正常/異常コンピュータ決定回路103に出力する。
The backup processing circuit 100 includes an output port 101, an input port 102, and a normal/abnormal computer determination circuit 10.
3, which are arranged on the common area. Here, the results of mutual monitoring between each unit are output to the output port 101 on the common area via the common area, while the output port lO1 inputs the results of mutual monitoring between each unit. death,
It is output to the normal/abnormal computer determination circuit 103.

正常/異常コンピュータ決定回路103は各ユニットか
らの監視結果とその時の動作情報に基づいて正常なユニ
ットと異常なユニットを決定する。
A normal/abnormal computer determination circuit 103 determines a normal unit and an abnormal unit based on the monitoring results from each unit and the operating information at that time.

そして、異常ユニットに対してはマニュアル・リスター
ト・スイッチ104を介して停止信号を出力する。一方
、正常ユニットに対しては、現在どのユニットタが正常
に運転しているかを知らせるために、新たな動作情報を
入力ポート102に出力し、また同時に正常/異常コン
ピュータ決定回路103自身にその動作情報をフィード
バックする。
Then, a stop signal is output to the abnormal unit via the manual restart switch 104. On the other hand, new operation information is output to the input port 102 to inform the normal unit which unit is currently operating normally, and at the same time, the normal/abnormal computer determination circuit 103 itself is informed of its operation. Feedback information.

入力ポート102は、ラッチした動作情報をコモンエリ
アを介して正常ユニットに送る。正常なユニットは、そ
の動作情報に基づいてその時点で実行すべきタスクを選
択実行する。その際、各ユニットの実行するタスクが重
複することなく、かつ漏れることのないように、あらか
じめ各ローカルメモリにはすべての動作状態を想定した
プログラムが書かれている。
The input port 102 sends the latched operation information to the normal unit via the common area. A normal unit selects and executes the task to be executed at that time based on its operation information. At this time, a program is written in advance in each local memory that assumes all operating states so that the tasks executed by each unit will not be duplicated or omitted.

上記構成において、各ユニット間の相互監視は、共有メ
モリ3内に設けられた第4図のような水槽モデルに基づ
いて次のように行われる。
In the above configuration, mutual monitoring between each unit is performed as follows based on the aquarium model as shown in FIG. 4 provided in the shared memory 3.

ステップ1: 被監視コンピュータユニットは、自分自身の水槽をFu
llまで給水する。
Step 1: The monitored computer unit sets its own aquarium to Fu.
Fill with water up to 1 liter.

ステップ2: 監視コンピュータユニットは、被監視コンピュータユニ
ットの水槽から一定量ずつ排水する。
Step 2: The monitoring computer unit drains water from the water tank of the monitored computer unit a certain amount at a time.

ステップ3: 排水した結果、水槽がEmp tyの場合、その被監視
コンピュータユニットを異常とする。水が残っていれば
正常とする。
Step 3: If the water tank is empty as a result of draining water, the monitored computer unit is determined to be abnormal. If water remains, it is considered normal.

実際には、給水は共有メモリ3にある値をセ・ノドする
ことてあり、排水はコモンエリアの値から一定値をデク
リメントすることに相当する。これらの相互監視は、お
互いにクロスして行われる。
In reality, supplying water corresponds to reading a value in the shared memory 3, and draining water corresponds to decrementing a constant value from the value in the common area. These mutual monitors are performed by crossing each other.

このようなソフトウェアによる相互監視を各ユニットが
定期的に行いその監視結果を出力ポートlO1に出力す
る。
Each unit periodically performs mutual monitoring using such software and outputs the monitoring results to the output port IO1.

バックアップ処理回路100は、各ユニットlO〜NO
から出力された監視結果を入力し、その内現在の動作情
報により正常と判定されているユニットの監視結果だけ
に基づいて正常ユニットと異常ユニットを決定する。そ
の決定の際の基本側は、次のようである。
The backup processing circuit 100 includes each unit lO to NO.
The system inputs the monitoring results output from the system, and determines normal units and abnormal units based only on the monitoring results of units that are determined to be normal based on current operating information. The basics in making that decision are as follows.

(1)過半数以上のユニットにより正常と判定されたユ
ニットは異常と決定する。
(1) A unit determined to be normal by a majority of units or more is determined to be abnormal.

(2)半数未満のユニットにより異常と判定された場合
、判定された側も判定した側も正常と決定する。
(2) If less than half of the units determine that the unit is abnormal, both the side that has been determined and the side that has been determined are determined to be normal.

(3)半数のユニットが残り半数のユニットを異常と判
定した場合、残り半数のユニットを異常と決定する。
(3) If half of the units determine the remaining half of the units to be abnormal, the remaining half of the units are determined to be abnormal.

次に、異常と決定されたユニットに対しては、マニュア
ル・リスタート・スイッチ104を介して停止信号を出
力し、システムから切り離す。
Next, a stop signal is output to the unit determined to be abnormal via the manual restart switch 104, and the unit is disconnected from the system.

方、正常ユニットに対しては、現在どのユニットが正常
に運転しているかを知らせるために、新たな動作情報を
入力ポート102を介して転送する。
On the other hand, new operating information is transferred to the normal units via the input port 102 in order to inform them which unit is currently operating normally.

その時、正常ユニットは、その動作情報に基づいて、各
ユニットの実行するタスクか重複することなく、かつ漏
れることのないように、タスクを実行する。この時の各
ユニットの動作は、第5図のようになる。まず、他のユ
ニットの動作状態をそれぞれ相互監視し、その結果をバ
ックアップ処理回路に出力する。続いて、バックアップ
処理回路から現在の動作情報を入力し、その情報に基づ
いて実行すべきタスクを決定する。なお、故障ユニット
が存在する場合には、残された正常ユニットですべての
タスクを実行する必要かあるので、1台のユニットで複
数のタスクを実行する必要が生じる。そこで、1種類の
タスクを実行した後、それ以外のタスクを実行する必要
かあるか判断し、必要がある場合には再度別のタスクを
実行する。
At that time, the normal units execute tasks based on the operation information so that the tasks executed by each unit are not duplicated and are not omitted. The operation of each unit at this time is as shown in FIG. First, the operating states of the other units are mutually monitored and the results are output to the backup processing circuit. Next, current operating information is input from the backup processing circuit, and a task to be executed is determined based on that information. Note that if a faulty unit exists, it is necessary to execute all the tasks using the remaining normal unit, so it becomes necessary to execute a plurality of tasks using one unit. Therefore, after executing one type of task, it is determined whether it is necessary to execute other tasks, and if necessary, another task is executed again.

実行すべきタスクを−通り実行した後、初めの相互監視
に戻る。なお、すべての動作状態に対して、実行すべき
タスクを、あらかじめローカルメモリに書いて置く。タ
スクは割り振りは、各タスクの優先順位と各ユニットの
優先順位に基づいて次のように決定している。
After completing the tasks to be performed, return to the initial mutual monitoring. Note that tasks to be executed for all operating states are written in local memory in advance. Task allocation is determined as follows based on the priority of each task and the priority of each unit.

(1)動作しているユニットの内、優先順位の高いもの
から順に、高速演算の必要性か高いタスクを実行させる
(1) Among the operating units, tasks with high priority are executed in order of necessity for high-speed calculation.

(2)複数のタスクを1台のユニットで直列処理させる
必要か生じた場合、高速演算の必要性が低いタスクから
順に直列接続し、優先順位の低いユニットに直列処理さ
せる。
(2) When it becomes necessary to serially process multiple tasks in one unit, connect the tasks in series starting from the one with the lowest need for high-speed calculation, and let the unit with the lowest priority process the tasks in series.

この場合、一部のユニットに障害が発生すると、その部
分はシステムから切り離され、残りのユニットでシステ
ム全体のタスクが実行される。このような再構成は残り
一台になるまで繰り返される。
In this case, if a unit fails, that part is disconnected from the system and the remaining units perform system-wide tasks. Such reconfiguration is repeated until only one device remains.

その時、正常なユニットの数が、システム全体のタスク
の数に比へ多ければ、一部のユニットはタスクを実行せ
ずに待機する。そして、正常なユニットの数か減少する
に従い、待機中のユニットか代わってタスクを実行する
ことになる。一方、正常ユニットの数が、システム全体
のタスクの数より少なくなった場合には、残りのユニッ
トは、台で複数のタスクを実行することが必要になり、
タスクを実行するための制御周期が長くなる。そのため
、このままでは制御性能の低下を招くことになる。
At that time, if the number of normal units is greater than the number of tasks in the entire system, some units wait without executing tasks. Then, as the number of normal units decreases, the waiting units will take over and execute the task. On the other hand, if the number of normal units becomes less than the number of tasks in the entire system, the remaining units will be required to perform multiple tasks on the machine.
The control cycle for executing tasks becomes longer. Therefore, if left as is, the control performance will deteriorate.

そこで、本第1実施例では、この状態で作業者が故障部
分の点検、修理を行い、修理完了後そのコンピュータユ
ニットを第6図のような手順で再度復帰させる。
Therefore, in the first embodiment, an operator inspects and repairs the malfunctioning part in this state, and after the repair is completed, the computer unit is restored again according to the procedure shown in FIG.

まず、作業者か修理完了後、マニュアル・リスタート・
スイッチ104を押す。その時、これまでシステムから
切り離されていたユニットは、停止信号が解除され、動
作情報に基づいて特別なリスタート・オペレーションを
実行する。まず、ローカルメモリのチエツクを行う。メ
モリチエツクをパスすると、続いて、共有メモリ3から
現在の制御情報を入手し、各タスクを実行するために必
要な定数または変数に変換する。なお、それらの値が妥
当であるかをチエツクし、適切でない場合には再度制御
情報を入手する。これらの自己監視をパスすると、続い
て、相互監視を行う。これらをすべて、作業者かマニュ
アル・リスタート・スイッチ104を押している期間中
にパスすると、正常ユニットから正常であると判定され
、バックアップ処理回路103からのリセット信号が解
除される。その結果、このユニットは、システムに復帰
することが可能になり、タスクを分担して実行すること
になる。
First, the operator must manually restart the
Press switch 104. At that time, the units that were previously disconnected from the system will have their stop signals released and will perform special restart operations based on the operational information. First, check local memory. If the memory check passes, the current control information is subsequently obtained from the shared memory 3 and converted into constants or variables necessary to execute each task. Note that it is checked whether these values are appropriate, and if they are not appropriate, the control information is obtained again. If these self-monitoring passes, then mutual monitoring is performed. If all of these are passed while the operator is pressing the manual restart switch 104, the normal unit is determined to be normal, and the reset signal from the backup processing circuit 103 is released. As a result, this unit will be able to return to the system and will share the task.

上記のように、本第1実施例によれば、フォールト・ト
レランスを行う際、バックアップ処理回路103内で障
害によりシステムから切り離されているユニットに対し
その停止信号を一時的に解除することが可能である。停
止信号が解除されると、そのユニットは自己監視と相互
監視とからなる動作点検を行い、それらを一定期間内に
処理した場合にシステムに復帰できる。動作点検で誤り
が発見された場合または一定期間内に処理できなかった
場合には、バックアップ処理回路103からの停止信号
により再びシステムから切り離される。
As described above, according to the first embodiment, when performing fault tolerance, it is possible to temporarily release the stop signal for a unit that has been disconnected from the system due to a failure within the backup processing circuit 103. It is. When the stop signal is released, the unit performs an operational check consisting of self-monitoring and mutual monitoring, and if these are completed within a certain period of time, it can return to the system. If an error is found in the operation check or if processing cannot be completed within a certain period of time, the backup processing circuit 103 sends a stop signal to disconnect it from the system again.

このように、本第1実施例では、障害によりシステムか
ら切り離されているユニットに対し一時的に停止信号を
解除できるので、その時すでに障害の原因が取り除かれ
ているような一過性の障害に対しては、再びシステムに
復帰できる。ゆえに、一過性の障害の発生により制御性
能が低下することはない。
In this way, in the first embodiment, it is possible to temporarily release the stop signal for a unit that has been disconnected from the system due to a failure, so that it is possible to temporarily release the stop signal for a unit that has been disconnected from the system due to a failure, so that it is possible to temporarily release the stop signal for a unit that has been disconnected from the system due to a failure. However, you can return to the system again. Therefore, control performance does not deteriorate due to the occurrence of a temporary failure.

また、固定的な障害が発生しそのユニットかシステムか
ら切り離された場合にも、システムが運転されている状
態で固定的な障害部分を修理すれば、システムに復帰で
きる。ゆえに、運転を中断する必要はまったくない。
Furthermore, even if a fixed fault occurs and the unit is disconnected from the system, the system can be restored by repairing the fixed fault while the system is in operation. Therefore, there is no need to interrupt driving at all.

このように、本第1実施例によれば、障害による制御性
能の低下が最小限であり、かつ修理のために電源を落と
す必要のないフォールト・トレラント・コンピュータが
実現する。その結果として、作業効率の大幅な向上、安
全性の向上、品質の向上か可能になり、ひいては経済的
な面でも有利になる。
As described above, according to the first embodiment, a fault-tolerant computer is realized in which the deterioration of control performance due to failure is minimal and there is no need to turn off the power for repair. As a result, it becomes possible to significantly improve work efficiency, improve safety, and improve quality, which in turn becomes economically advantageous.

さらに、ユニットとバックアップ処理回路の構成上の特
徴を活かして、上記リスタートの機能を適切に分担して
いるので、実現するための回路か極めて簡単になる。
Furthermore, since the restart function is appropriately shared by taking advantage of the structural features of the unit and the backup processing circuit, the circuit for realizing it is extremely simple.

また本第1実施例では、フォールト・トレランスを実現
する際、システムから切り離されたユニットに対する停
止信号の一時的な解除は、マニュアル・リスタート・ス
イッチ104により行われる。したがって、システムか
ら切り離されたユニットは、人為的な操作が加わらない
限りそのままの状態を維持する。
Further, in the first embodiment, when realizing fault tolerance, the manual restart switch 104 temporarily releases a stop signal for a unit disconnected from the system. Therefore, a unit disconnected from the system remains in that state unless it is manually manipulated.

この場合、システムに悪影響を与えるような障害に陥っ
ているユニットをむやみにリスタートさせることを防ぐ
ことができ、信頼性が増す。また、運転状態、故障の状
況に応じて、作業者がその対策を選べるので都合がよい
In this case, it is possible to prevent unnecessarily restarting a unit that is experiencing a failure that would adversely affect the system, thereby increasing reliability. Furthermore, it is convenient because the operator can choose a countermeasure depending on the operating condition and the situation of the failure.

第2実施例 第7図は、本発明の第2実施例のフォールト・トレラン
ト・コンピュータを示すものである。以下に、第2実施
例について説明するが、第1実施例と全く同一の構成の
部分については、同一の符号を付して説明する。
Second Embodiment FIG. 7 shows a fault-tolerant computer according to a second embodiment of the present invention. The second embodiment will be described below, and the parts having the same configuration as the first embodiment will be described with the same reference numerals.

ユニットlOは、プロセッサ11.ローカルメモリ12
、アドレスデコーダ13およびバススイッチ14により
構成されており、それらはアドレスバスAB1、データ
バスDB 1、コントロールバスCBIを介してそれぞ
れ接続されている。ユニット20からユニットNOにつ
いても全く同様に、プロセッサ、ローカルメモリ、アド
レスデコーダ、バススイッチにより構成されている。
Unit IO includes processor 11. local memory 12
, an address decoder 13, and a bus switch 14, which are connected to each other via an address bus AB1, a data bus DB1, and a control bus CBI. Units 20 to 20 are similarly composed of a processor, a local memory, an address decoder, and a bus switch.

これらのユニット10〜NOは、コモンエリアを介して
それぞれ接続されている。コモンエリア上には、アドレ
スデコーダ2、共有メモリ3、出力ポート4、入力ポー
ト5か配置されており、ユニット間のデータの転送なら
びに外部とのデータの入出力を行っている。また、共有
メモリ3を介して、各ユニットでそれぞれ相互監視を行
っている。以上の構成ならびに動作は第1実施例と全く
同様であり、その詳細は省略する。
These units 10 to NO are connected to each other via a common area. An address decoder 2, a shared memory 3, an output port 4, and an input port 5 are arranged on the common area, and perform data transfer between units and data input/output with the outside. Further, each unit mutually monitors each other via the shared memory 3. The above configuration and operation are completely similar to the first embodiment, and the details thereof will be omitted.

コモンエリア上には、上記以外にバックアップ処理回路
100が配置されている。バックアップ処理回路100
は、出力ポート101、入力ポート102、正常/異常
コンピュータ決定回路103、マニュアル・リスタート
・スイッチ104、オート・リスタート・スイッチ10
5、リスタート・パルス発生回路106から構成されて
いる。
In addition to the above, a backup processing circuit 100 is arranged on the common area. Backup processing circuit 100
output port 101, input port 102, normal/abnormal computer determination circuit 103, manual restart switch 104, auto restart switch 10
5. It consists of a restart pulse generation circuit 106.

ここで、出力ポート101は、各コンピュータユニット
間でお互いに相互監視した結果を入力し、正常/異常コ
ンピュータ決定回路103に出力する。正常/異常コン
ピュータ決定回路103は各ユニットからの監視結果と
その時の動作情報に基づいて正常なユニットと異常なユ
ニットを決定する。そして、異常ユニットに対してはマ
ニュアル・リスタート・スイッチ104を介して停止信
号を出力する。一方、正常ユニットに対しては、現在ど
のユニットが正常に運転しているかを知らせるために、
新たな動作情報を入力ポート102に出力し、また同時
に正常/異常コンピュータ決定回路103自身にその動
作情報をフィードバックする。入力ポート102は、ラ
ッチした動作情報をコモンエリアを介して正常なユニッ
トに送る。
Here, the output port 101 inputs the results of mutual monitoring between the computer units and outputs them to the normal/abnormal computer determination circuit 103. A normal/abnormal computer determination circuit 103 determines a normal unit and an abnormal unit based on the monitoring results from each unit and the operating information at that time. Then, a stop signal is output to the abnormal unit via the manual restart switch 104. On the other hand, in order to inform the normal unit which unit is currently operating normally,
New operating information is output to the input port 102, and at the same time, the operating information is fed back to the normal/abnormal computer determining circuit 103 itself. The input port 102 sends the latched operation information to the normal unit via the common area.

正常ユニットは、その動作情報に基づいてその時点で実
行すべきタスクを選択実行する。その際、各ユニットの
実行するタスクが重複することなく、かつ漏れることの
ないように、あらかじめ各ローカルメモリにはすべての
動作状態を想定したプログラムが書かれている。
The normal unit selects and executes the task to be executed at that time based on its operation information. At this time, a program is written in advance in each local memory that assumes all operating states so that the tasks executed by each unit will not be duplicated or omitted.

上記構成において、各ユニット間の相互監視は、第1実
施例と全く同様に共有メモリ3内に設けられた第4図に
示すような水槽モデルに基づいて行われる。この相互監
視は、お互いにクロスして定期的に行われ、その監視結
果は出力ポート101に出力される。なお、相互監視の
詳細については第1実施例と同様であるのでここでは省
略する。
In the above configuration, mutual monitoring between each unit is performed based on an aquarium model as shown in FIG. 4 provided in the shared memory 3, just as in the first embodiment. This mutual monitoring is performed periodically by crossing each other, and the monitoring results are output to the output port 101. Note that the details of the mutual monitoring are the same as those in the first embodiment, and will therefore be omitted here.

バックアップ処理回路103は、各ユニットから出力さ
れた監視結果を入力し、その内現在の動作情報により正
常と判定されているユニットの監視結果だけに基づいて
正常ユニットと異常ユニットを決定する。正常/異常を
決定するための基本側も、第1実施例と同しであるので
その詳細は省略する。
The backup processing circuit 103 inputs the monitoring results output from each unit, and determines normal units and abnormal units based only on the monitoring results of units that are determined to be normal based on current operation information. The basics for determining normality/abnormality are also the same as in the first embodiment, so the details will be omitted.

次に、異常と決定されたユニットに対しては、マニュア
ル・リスタート・スイッチ104を介して停止信号を出
力し、システムから切り離す。
Next, a stop signal is output to the unit determined to be abnormal via the manual restart switch 104, and the unit is disconnected from the system.

方、正常なユニットに対しては、現在とのユニットか正
常に運転しているかを知らせるために、新たな動作情報
を入力ポート102を介して転送する。その時、正常ユ
ニットは、その動作情報に基づいて、各ユニットの実行
するタスクか重複することなく、かつ漏れることのない
ように、タスクを実行する。この時の各ユニットの動作
は、第1実施例の場合と同様に第5図に示すような方法
で行われる。すなわち、まず、他のユニットの動作状態
をそれぞれ相互監視しその結果をバックアップ処理回路
103に出力する。続いて、パックアツブ処理回路10
3から現在の動作情報を入力し、その情報に基づいて実
行すべきタスクを決定する。
On the other hand, new operating information is transferred to the normal unit via the input port 102 in order to notify whether the unit is currently operating normally or not. At that time, the normal units execute tasks based on the operation information so that the tasks executed by each unit are not duplicated and are not omitted. The operation of each unit at this time is performed in the manner shown in FIG. 5, as in the first embodiment. That is, first, the operating states of the other units are mutually monitored and the results are output to the backup processing circuit 103. Next, the pack-up processing circuit 10
3, the current operating information is input, and the task to be executed is determined based on that information.

なお、故障ユニットが存在する場合には、残された正常
ユニットですべてのタスクを実行する必要があるので、
1台のユニットで複数のタスクを実行する必要が生じる
。そこで、1種類のタスクを実行した後、それ以外のタ
スクを実行する必要かあるか判断し、必要がある場合に
は再度別のタスクを実行する。実行すべきタスクを−通
り実行した後、初めの相互監視に戻る。なお、すべての
動作状態に対して、実行すべきタスクを、あらかじめロ
ーカルメモリに書いて置く。タスクは割り振りは、各タ
スクの優先順位と各ユニットの優先順位に基づいて第1
実施例と同様な方法で決定している。
Note that if there is a faulty unit, all tasks must be executed on the remaining normal unit.
It becomes necessary to perform multiple tasks with one unit. Therefore, after executing one type of task, it is determined whether it is necessary to execute other tasks, and if necessary, another task is executed again. After completing the tasks to be performed, return to the initial mutual monitoring. Note that tasks to be executed for all operating states are written in local memory in advance. Tasks are allocated first based on the priority of each task and the priority of each unit.
Determined using the same method as in the example.

本システムの場合、一部のユニットに障害が発生すると
、その部分はシステムから切り離され、残りの正常ユニ
ットでシステム全体のタスクが実行される。このような
再構成は残り一台になるまで繰り返される。その時、正
常ユニットの数が、システム全体のタスクの数に比べ多
ければ、一部のユニットはタスクを実行せずに待機する
。そして、正常ユニットの数が減少するに従い、待機中
のユニットが代わってタスクを実行することになる。一
方、正常ユニットの数が、システム全体のタスクの数よ
り少なくなった場合には、残りのユニットは、−台で複
数のタスクを実行することが必要になり、タスクを実行
するための制御周期か長くなる。そのため、このままで
は制御性能の低下を招くことになる。
In this system, if a failure occurs in a part of the unit, that part is disconnected from the system and the remaining normal units perform the tasks of the entire system. Such reconfiguration is repeated until only one device remains. At that time, if the number of normal units is greater than the number of tasks in the entire system, some units wait without executing tasks. Then, as the number of normal units decreases, waiting units will take over and execute tasks. On the other hand, if the number of normal units becomes less than the number of tasks in the entire system, the remaining units will be required to execute multiple tasks, and the control cycle for executing the tasks will be or longer. Therefore, if left as is, the control performance will deteriorate.

そこで、この状態で作業者が故障部分の点検、修理を行
い、修理完了後そのユニットを第8図に示すマニュアル
・リスタートの手順で再度復帰させる。
Therefore, in this state, the operator inspects and repairs the malfunctioning part, and after the repair is completed, the unit is restarted using the manual restart procedure shown in FIG.

まず、作業者が修理完了後、マニュアル・リスタート・
スイッチ104を押すことにより停止信号を解除する。
First, after the worker completes the repair, the operator must manually restart the
By pressing the switch 104, the stop signal is released.

その時、これまでシステムから切り離されていたユニッ
トは動作情報に基づいて特別なリスタート・オペレーシ
ョンを実行する。まず、ローカルメモリのチエツクを行
う。メモリチエツクをパスすると、共有メモリ3から現
在の制御情報を入手する。続いて、相互監視を行いこれ
らを、作業者がマニュアル・リスタート・スイッチ10
4を押している期間中にすべてパスすると、正常ユニッ
トから正常であると判定され、バックアップ処理回路1
03からのリセット信号か解除される。したかってシス
テムに復帰することか可能になりタスクを分担して実行
することになる。
At that time, the unit that was previously disconnected from the system performs a special restart operation based on the operational information. First, check local memory. If the memory check is passed, current control information is obtained from the shared memory 3. Next, mutual monitoring is performed and the operator presses the manual restart switch 10.
If all passes during the period when 4 is pressed, the normal unit is determined to be normal, and the backup processing circuit 1
The reset signal from 03 is released. It will be possible to return to the system if desired, and the tasks will be divided and executed.

以上は、作業者による手動式のリスタート手段である。The above is a manual restart means by an operator.

これに対し、本第2実施例では以下で説明する自動式の
リスタート手段も兼ね備えている。
In contrast, the second embodiment also includes automatic restart means, which will be described below.

第7図に示すリスタート・パルス発生回路206は、オ
ート・リスタートを行うためのパルスを定期的に発生し
、オート・リスタート・スイッチ205を介して正常/
異常コンピュータ決定回路103に出力している。オー
ト・リスタート・スイッチ205は、正常/異常コンピ
ュータ決定回路103へのリスタート・パルスをオン、
オフしている。ここで、オート・リスタート・スイッチ
205かオフしている状態の場合には、本第2実施例は
第1実施例と全く同じ機能である。一方、オート・リス
タート・スイッチ205がオン状態の場合には、正常/
異常コンピュータ決定回路103にリスタートパルスか
入力される。この場合、正常/異常コンピュータ決定回
路103は、リスタートパルスかオフの時には、その時
点の相互監視結果、動作情報に基づいて停止信号を決定
し出力する。リスタートパルスかオンの時には、その時
点の相互監視結果、動作情報にかかわらず停止信号を無
条件に解除する。これを実現するために、正常/異常コ
ンピュータ決定回路103には、ROMテーブルにより
、リスタートパルスかオンの時、停止信号が解除になる
ようなデータがあらかじめ書かれている。
The restart pulse generation circuit 206 shown in FIG.
It is output to the abnormal computer determination circuit 103. The auto restart switch 205 turns on the restart pulse to the normal/abnormal computer determination circuit 103.
It's off. Here, when the auto restart switch 205 is off, the second embodiment has exactly the same function as the first embodiment. On the other hand, if the auto restart switch 205 is in the on state, normal/
A restart pulse is input to the abnormal computer determination circuit 103. In this case, when the restart pulse is off, the normal/abnormal computer determining circuit 103 determines and outputs a stop signal based on the mutual monitoring results and operation information at that time. When the restart pulse is on, the stop signal is unconditionally canceled regardless of the mutual monitoring results and operation information at that time. In order to realize this, the normal/abnormal computer determination circuit 103 has data written in advance in the ROM table such that the stop signal is released when the restart pulse is on.

上記構成において、オート・リスタート・スイッチ20
5が接続されていると、システムから切り離されている
ユニットは、第8図のオートリスタートの手順で復帰す
る。
In the above configuration, auto restart switch 20
5 is connected, the unit that has been disconnected from the system will be restored using the auto-restart procedure shown in FIG.

まず、リスタートパルスがオンになると、停止信号は解
除される。その時、これまでシステムから切り離されて
いたユニットは動作情鞭に基づいて特別なリスタート・
オペレーションを実行する。
First, when the restart pulse is turned on, the stop signal is released. At that time, the units that were previously disconnected from the system will receive special restarts based on their behavior.
Execute the operation.

まず、ローカルメモリのチエツクを行う。メモリチエツ
クをパスすると、共有メモリ3から現在の制御情報を入
手する。続いて、相互監視を行いこれらをリスタートパ
ルスがオンの期間中にすべてバスすると、正常のユニッ
トから正常であると判定され、バックアップ処理回路1
03からのリセット信号が解除される。したがってシス
テムに復帰することが可能になりタスクを分担して実行
することになる。
First, check local memory. If the memory check is passed, current control information is obtained from the shared memory 3. Next, when mutual monitoring is performed and all these are bused while the restart pulse is on, the normal unit is determined to be normal, and the backup processing circuit 1
The reset signal from 03 is released. Therefore, it becomes possible to return to the system and the tasks are shared and executed.

上記のように、本第2実施例によれば、フォールト・ト
レランスを行う際、バックアップ処理回路103内で障
害によりシステムから切り離されているユニットに対し
その停止信号を一時的に解除することが可能である。停
止信号が解除されると、そのユニットは自己監視と相互
監視からなる点検を行い、それらを一定期間内に処理し
た場合にシステムに復帰できる。点検で誤りが発見され
た場合、または一定期間内に処理できなかった場合には
、バックアップ処理回路103からの停止信号により再
びシステムから切り離される。
As described above, according to the second embodiment, when performing fault tolerance, it is possible to temporarily release the stop signal for a unit that has been disconnected from the system due to a failure within the backup processing circuit 103. It is. When the stop signal is released, the unit performs checks consisting of self-monitoring and mutual monitoring, and if these are completed within a certain period of time, it can return to the system. If an error is found during inspection, or if processing cannot be completed within a certain period of time, a stop signal from the backup processing circuit 103 causes the system to be disconnected again.

このように、本発明では、障害によりシステムから切り
離されているユニットに対し一時的に停止信号を解除で
きるので、その時すでに障害の原因が取り除かれている
ような一過性の障害に対しては、再びシステムに復帰で
きる。ゆえに、一過性の障害の発生により制御性能が低
下することはない。
In this way, according to the present invention, it is possible to temporarily release the stop signal for a unit that has been disconnected from the system due to a fault, so that it is possible to temporarily release the stop signal for a unit that has been disconnected from the system due to a fault. , you can return to the system again. Therefore, control performance does not deteriorate due to the occurrence of a temporary failure.

また、固定的な障害が発生しそのユニットがシステムか
ら切り離された場合にも、システムが運転されている状
態で固定的な障害部分を修理すれば、システムに復帰で
きるので、運転を中断する必要はまったくない。
Additionally, even if a fixed fault occurs and the unit is disconnected from the system, the system can be restored by repairing the fixed fault while the system is running, so there is no need to interrupt operation. Not at all.

このように、本第2実施例によれば、障害による制御性
能の低下が最小限であり、かつ修理のために電源を落と
す必要のないフォールト・トレラント・コンピュータが
実現する。その結果として、作業効率の大幅な向上、安
全性の向上、品質の向上が可能になり、ひいては経済的
な面でも有利になる。
In this way, according to the second embodiment, a fault-tolerant computer is realized in which the deterioration of control performance due to failure is minimal and there is no need to turn off the power for repairs. As a result, it becomes possible to significantly improve work efficiency, improve safety, and improve quality, which in turn becomes economically advantageous.

さらに、コンピュータユニットとバックアップ処理回路
の構成上の特徴を活かして、上記リスタートの機能を適
切に分担しているので、実現するための回路が極めて簡
単になる。
Further, since the restart function is appropriately shared by taking advantage of the structural features of the computer unit and the backup processing circuit, the circuit for realizing it is extremely simple.

また本第2実施例では、フォールト・トレランスを実現
する際、システムから切り離されたコンピュータユニッ
トに対する停止信号の一時的な解除を、マニュアル・リ
スタート・スイッチにより行うことかできる。したがっ
て、システムから切り離されたコンピュータユニットは
、人為的な操作が加わらない限りそのままの状態を維持
する。
Furthermore, in the second embodiment, when realizing fault tolerance, a manual restart switch can be used to temporarily release a stop signal for a computer unit that is disconnected from the system. Therefore, a computer unit disconnected from the system remains in that state unless it is manually operated.

この場合、システムに悪影響を与えるような障害に陥っ
ているコンピュータユニットをむやみにリスタートさせ
ることを防ぐことができ、信頼性が増す。また、運転状
態、故障の状況に応じて、作業者がその対策を選べるの
で都合がよい。
In this case, it is possible to prevent unnecessary restarting of a computer unit that has experienced a failure that would adversely affect the system, thereby increasing reliability. Furthermore, it is convenient because the operator can choose a countermeasure depending on the operating condition and the situation of the failure.

さらに、本第2実施例では、フォールト・トレランスを
実現する際、システムから切り離されたコンピュータユ
ニットに対する停止信号の一時的な解除を、オート・リ
スタートにより行うこともできる。したがって、システ
ムから切り離されたコンピュータユニットに対しては、
自動的に一時的な停止信号の解除が行われ、このような
操作はシステムから切り離されたコンピュータユニット
がシステムに復帰するまで繰り返される。
Furthermore, in the second embodiment, when realizing fault tolerance, the stop signal for a computer unit disconnected from the system can be temporarily released by auto-restart. Therefore, for computer units disconnected from the system,
The temporary stop signal is automatically released, and this operation is repeated until the computer unit disconnected from the system is returned to the system.

この場合、−時的な障害によりシステムから切り離され
たコンピュータユニットは、自動的に停止信号が解除さ
れ、それと同時にシステムに復帰することができる。し
たかって、−時的な障害により制御性能が低下する期間
はほとんどない。また、作業者の操作を必要としない点
でも有利である。
In this case, a computer unit that has been disconnected from the system due to a temporary failure will have its stop signal automatically released and can be returned to the system at the same time. Therefore, there is almost no period in which control performance deteriorates due to temporal disturbances. It is also advantageous in that it does not require any operation by the operator.

特に、システムから切り離されたコンピュータユニット
に対する一時的な停止信号の解除によって発生する影響
が小さく、かつ−時的な障害により起こる制御性能の低
下か大きいようなシステムに対して適している。
In particular, it is suitable for a system in which the effect caused by the temporary release of a stop signal on a computer unit separated from the system is small, and the control performance is significantly degraded due to a temporary failure.

なお、上記第1および第2実施例では、相互監視を水槽
モデルにより行っているが、これは本発明の本質ではな
いので、これだけに限るものではない。また、正常コン
ピュータユニットと異常コンピュータユニットの決定方
法ならびにタスクの割り振り方についても上記実施例に
よる方法に限るものではない。
In the first and second embodiments described above, mutual monitoring is performed using an aquarium model, but this is not the essence of the present invention and is not limited to this. Furthermore, the method of determining normal computer units and abnormal computer units and the method of allocating tasks are not limited to the methods described in the above embodiments.

また、上記各実施例では、第1および第2発明の組み合
わせを示しているが、実施例以外の組合せで構成するこ
とも可能である。
Moreover, although each of the above embodiments shows a combination of the first and second aspects of the invention, it is also possible to configure a combination other than the embodiments.

【図面の簡単な説明】[Brief explanation of drawings]

第1図は本発明のフォールト・トレラント・コンピュー
タの全体構成図、第2図は従来のフォールト・トレラン
ト・コンピュータの概念図、第3図は第1実施例の構成
図、第4図は相互監視方法の説明図、第5図はバックア
ップ処理のフローチャート、第6図゛は第1実施例にお
けるリスタート・オペレーションのフローチャート、第
7図は第2実施例の構成図、第8図は第2実施例におけ
るリスタート・オペレーションのフローチャートである
。 第2図 監視コンピュータ 被監視コンピュータ 第4図
Figure 1 is an overall configuration diagram of the fault-tolerant computer of the present invention, Figure 2 is a conceptual diagram of a conventional fault-tolerant computer, Figure 3 is a configuration diagram of the first embodiment, and Figure 4 is mutual monitoring. An explanatory diagram of the method, Fig. 5 is a flowchart of backup processing, Fig. 6 is a flowchart of restart operation in the first embodiment, Fig. 7 is a configuration diagram of the second embodiment, and Fig. 8 is a flowchart of the restart operation in the first embodiment. 3 is a flowchart of a restart operation in an example. Figure 2 Monitoring computer Monitored computer Figure 4

Claims (1)

【特許請求の範囲】 マルチプロセッサシステムからなる負荷分散形のフォー
ルト・トレラント・コンピュータにおいて、 前記マルチプロセッサシステム全体のタスクを機能分担
してなる個別の各タスクより、実行すべきタスクを前記
動作情報に基づいて選択的に決定、実行し、かつ、定期
的に相互監視を行って該監視結果を前記バックアップ処
理回路へ出力するとともに、システムから切り離された
状態から停止信号が解除になった場合には自己点検と相
互点検とからなる動作点検とリスタートのための制御情
報の入力とを行い、前記動作点検および制御情報の入力
が一定期間内に終了した時にシステムに復帰するリスタ
ート機能を有する複数のコンピュータタユニットと、 前記各コンピュータユニットからの監視結果に基づいて
正常/異常コンピュータユニットを決定し、異常コンピ
ュータユニットには前記停止信号を出力してシステムか
ら切り離し、正常コンピュータユニットには前記動作情
報を出力し、かつ、システムから切り離されているコン
ピュータユニットには一時的な停止信号の解除を行うバ
ックアップ処理回路と、 前記各コンピュータユニットと外部装置との間でデータ
転送を行う入出力手段と、 前記各コンピュータユニットからデータの書込みおよび
読出しを行うための共有メモリと、前記コンピュータユ
ニットと前記入出力手段と前記共有メモリと前記バック
アップ処理回路とを接続するコモンエリア上のバスと、 を具備することを特徴とするフォールト・トレラント・
コンピュータ。
[Scope of Claims] In a load-balanced fault-tolerant computer consisting of a multiprocessor system, a task to be executed is determined based on the operation information from each individual task whose functions are divided among the tasks of the entire multiprocessor system. selectively determines and executes based on the system, performs mutual monitoring periodically and outputs the monitoring results to the backup processing circuit, and when the stop signal is released from the state of being disconnected from the system. A plurality of systems having a restart function that performs operation inspection consisting of self-inspection and mutual inspection and input of control information for restart, and returns to the system when the operation inspection and input of control information are completed within a certain period of time. determines a normal/abnormal computer unit based on the monitoring results from each of the computer units, outputs the stop signal to the abnormal computer unit to disconnect it from the system, and transmits the operating information to the normal computer unit. a backup processing circuit for outputting a computer unit and temporarily canceling a stop signal in a computer unit that is separated from the system; and input/output means for transferring data between each of the computer units and an external device; A shared memory for writing and reading data from each of the computer units, and a bus on a common area that connects the computer unit, the input/output means, the shared memory, and the backup processing circuit. A fault-tolerant system featuring
Computer.
JP2111240A 1990-04-25 1990-04-25 Fault tolerant computer Pending JPH047645A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2111240A JPH047645A (en) 1990-04-25 1990-04-25 Fault tolerant computer

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2111240A JPH047645A (en) 1990-04-25 1990-04-25 Fault tolerant computer

Publications (1)

Publication Number Publication Date
JPH047645A true JPH047645A (en) 1992-01-13

Family

ID=14556134

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2111240A Pending JPH047645A (en) 1990-04-25 1990-04-25 Fault tolerant computer

Country Status (1)

Country Link
JP (1) JPH047645A (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06195320A (en) * 1992-12-24 1994-07-15 Kanebo Ltd Distributed processing system and method for constituting distributed processing system
US5374873A (en) * 1991-06-14 1994-12-20 Kabushiki Kaisha Toshiba Gyrotron apparatus having vibration absorbing means
KR100375691B1 (en) * 1993-10-15 2003-05-01 가부시끼가이샤 히다치 세이사꾸쇼 Logic circuit with fault detecting function, method for managing redundant resources and fault tolerant system using them
JP2008530672A (en) * 2005-02-11 2008-08-07 エアバス・フランス Test flight onboard processing system and method

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5374873A (en) * 1991-06-14 1994-12-20 Kabushiki Kaisha Toshiba Gyrotron apparatus having vibration absorbing means
JPH06195320A (en) * 1992-12-24 1994-07-15 Kanebo Ltd Distributed processing system and method for constituting distributed processing system
KR100375691B1 (en) * 1993-10-15 2003-05-01 가부시끼가이샤 히다치 세이사꾸쇼 Logic circuit with fault detecting function, method for managing redundant resources and fault tolerant system using them
JP2008530672A (en) * 2005-02-11 2008-08-07 エアバス・フランス Test flight onboard processing system and method

Similar Documents

Publication Publication Date Title
JPS6375963A (en) System recovery system
US20210382536A1 (en) Systems, devices, and methods for controller devices handling fault events
JPH047645A (en) Fault tolerant computer
JPH07121395A (en) Method for preferentially selecting auxiliary device
JPH0683657A (en) Service processor switching system
JPH086866A (en) Power source controller of electronic computer
JPS6113627B2 (en)
JPH0319978B2 (en)
JPH0540649A (en) Redundant switching system
JP2591334B2 (en) Mutual standby system
JPH0981469A (en) Duplex bus system
JP2578908B2 (en) Restart method
JPH04324569A (en) Multiprocessor system
JPS60134352A (en) Duplex bus control device
JPH0462641A (en) Multiprocessor system
JPS60251443A (en) Backup device of programmable controller
CN114936131A (en) Self-monitoring controller
JPH0730651A (en) Diagnostic system
JP2896206B2 (en) On-line diagnostics for multiplexed memory devices.
JPS6075942A (en) Redundant system of arithmetic processing system
JPH03266132A (en) Information processor
JPH0418743B2 (en)
JPS5816497B2 (en) Data processing system with system common parts
JPH01259654A (en) (n) versus 1 module backup system for automatic line switching equipment
JPH01158539A (en) On-line test system for multiprocessor