JP2002259154A - Fault tolerant computer system - Google Patents

Fault tolerant computer system

Info

Publication number
JP2002259154A
JP2002259154A JP2001060126A JP2001060126A JP2002259154A JP 2002259154 A JP2002259154 A JP 2002259154A JP 2001060126 A JP2001060126 A JP 2001060126A JP 2001060126 A JP2001060126 A JP 2001060126A JP 2002259154 A JP2002259154 A JP 2002259154A
Authority
JP
Japan
Prior art keywords
processing means
arithmetic processing
majority
fault
arithmetic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001060126A
Other languages
Japanese (ja)
Inventor
Katsumi Tanaka
克美 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2001060126A priority Critical patent/JP2002259154A/en
Publication of JP2002259154A publication Critical patent/JP2002259154A/en
Pending legal-status Critical Current

Links

Landscapes

  • Hardware Redundancy (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a fault tolerant computer system to control whether to stop a system by specification of a preset fault processing mode or to restart a processing by a normal processor by performing a processing to specify faulty processors and to separate them when faults are caused in two of three processors. SOLUTION: The fault tolerant computer system is provided with a mode specifying means 31 to be freely set by an operator to indicate whether to stop the system or to continue the processing to the utmost by one remaining arithmetic processing means when one of triplicated arithmetic processing means is separated due to the fault, the fault is caused in one of the arithmetic processing means in duplicated operation and multiple faults are caused.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、三重化されたフォ
ールト・トレラント・コンピュータシステムに関し、特
に演算処理部重障害(二重障害)時の障害処理制御を行
うフォールト・トレラント・コンピュータシステムに関
する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a triple fault tolerant computer system, and more particularly to a fault tolerant computer system for performing fault processing control in the event of a serious fault (double fault) in an arithmetic processing unit.

【0002】[0002]

【従来の技術】従来のフォールト・トレラント・コンピ
ュータシステムでは三重化された演算処理手段が二重障
害となった場合にはシステムはかならず停止となってい
た。また、演算処理手段を二重化したハイアベイラビリ
ティなコンピュータシステムでは、演算処理手段の片系
が障害になった場合には、処理を一時停止し、自己診断
を行い、障害発生側の演算処理手段を特定後、チェック
ポイントにもどり処理を再開することが一般的であっ
た。
2. Description of the Related Art In a conventional fault-tolerant computer system, when a triple operation processing means causes a double failure, the system is always stopped. In a high-availability computer system in which arithmetic processing means are duplicated, if one of the arithmetic processing means fails, the processing is temporarily stopped, a self-diagnosis is performed, and the arithmetic processing means on the faulty side is identified. Later, it was common to return to the checkpoint and restart the process.

【0003】[0003]

【発明が解決しようとする課題】特開平3−27334
4号公報には、診断プロセッサにより障害発生原因(偶
発エラー、故障、潜在エラー等)を検証し、原因に対応
したリカバリ処理を行う発明が記載されている。しか
し、障害毎に原因を特定し、原因に応じたリカバリを行
うと、リカバリのために処理を止めることになり、即
ち、性能劣化となる。
Problems to be Solved by the Invention
Patent Document 4 discloses an invention in which the cause of failure (accidental error, failure, latent error, etc.) is verified by a diagnostic processor, and a recovery process corresponding to the cause is performed. However, if the cause is specified for each failure and the recovery is performed according to the cause, the process is stopped for the recovery, that is, the performance is deteriorated.

【0004】また、特開平6−124213号公報に
は、4つのプロセッサの多数決により二重障害(2つの
プロセッサ障害)まで対故障性を高めたことを特徴とす
る発明が記載されている。しかし、4つのプロセッサが
存在すれば、2つまでの障害の特定は当然可能である。
Further, Japanese Patent Application Laid-Open No. 6-124213 discloses an invention characterized in that the fault tolerance is increased up to a double fault (two processor faults) by majority decision of four processors. However, if there are four processors, it is naturally possible to specify up to two faults.

【0005】上述した従来技術の問題点に鑑み、本発明
の目的は、3つのプロセッサにおいて2つのプロセッサ
障害発生時に、事前に設定しておいた障害処理モードの
指定によって、システムを停止させるか、障害となった
プロセッサを特定し切り離す処理を行い正常なプロセッ
サで処理を再開するかを制御するフォールト・トレラン
ト・コンピュータシステムを提供することにある。
In view of the above-mentioned problems of the prior art, an object of the present invention is to stop the system by specifying a failure processing mode set in advance when two processor failures occur in three processors, It is an object of the present invention to provide a fault-tolerant computer system which performs processing for identifying and disconnecting a failed processor and controls whether or not processing is resumed by a normal processor.

【0006】[0006]

【課題を解決するための手段】本発明のフォールト・ト
レラント・コンピュータシステムは、三重化された演算
処理手段と、演算処理手段の出力の多数決を取り、三重
化された演算処理手段の1つに障害が発生した際に障害
が発生した演算処理手段を特定し、特定された演算処理
手段の演算結果を抑止し、システムから切り離しを行う
二重化された多数決処理手段とを有し、他の正常な2つ
の演算処理手段で動作を継続可能な耐故障性を高めたフ
ォールト・トレラント・コンピュータシステムにおい
て、三重化された演算処理手段の一つが障害にて切り離
され、二重化で動作中の演算処理手段の一つに障害が発
生し多重障害となった場合に、システム停止とするか、
残った一つの演算処理手段にて可能な限り処理を継続す
るのかを示す、オペレータが自由に設定可能なモード指
定手段を有し、二重化された多数決処理手段の各々に、
多数決処理手段内の多数決回路にて多数決を取った結果
によりステータスが設定され、三重化された演算処理手
段に障害が無く三重化された状態で動作しているか、何
れか1つの演算処理手段が障害となり、残った2つの冗
長な演算処理手段での動作継続をしているかを示すステ
ータス表示手段を有し、ステータス表示手段の表示が、
演算処理手段のうちの1つが障害となり、残り2つの演
算処理手段にて動作を継続していることを示している時
に、更に二重化で動作中の演算処理手段に障害が発生し
た場合、モード指定手段により、多重障害時にシステム
停止が設定されている場合はシステム停止を、また、モ
ード指定手段により多重障害時も可能な限り動作可能と
するようモード指定がされている場合には障害の発生時
に一時的に処理を停止し、自演算処理装置の自己診断を
行い、自己診断後、二重化された演算処理手段のうち自
己診断により障害となった演算処理手段をシステムより
切り離すことを、障害処理装置に通知する障害処理通知
手段を有し、障害処理通知手段により通知された内容に
もとづき、障害処理装置により、システムをダウンさせ
るか、チェックポイントに戻って処理を再試行かを制御
する。
A fault-tolerant computer system according to the present invention takes a triple arithmetic processing means and a majority decision of the output of the arithmetic processing means to form one of the triple arithmetic processing means. A redundant majority processing means for identifying the arithmetic processing means in which the failure has occurred when the failure has occurred, suppressing the calculation result of the identified arithmetic processing means, and disconnecting from the system; In a fault-tolerant computer system with improved fault-tolerance that can continue operation with two arithmetic processing units, one of the triple arithmetic processing units is disconnected due to a failure, and one of the arithmetic processing units that are operating in a duplicated manner. In the event of a failure and multiple failures, stop the system,
Indicate whether to continue processing as much as possible with the remaining one arithmetic processing means, having mode designating means that can be freely set by the operator, each of the duplicated majority processing means,
The status is set according to the result of the majority decision by the majority circuit in the majority processing means, and the triple operation processing means is operating in a triple state without any obstacle, or any one of the operation processing means It has a status display means for indicating whether or not the operation is continued by the remaining two redundant arithmetic processing means, and the display of the status display means is:
If one of the arithmetic processing means has failed and the remaining two arithmetic processing means continue to operate, and if a failure has occurred in the arithmetic processing means operating further in duplex, the mode is specified. If the system has been set to stop during multiple failures by the means, the system will be stopped if the mode has been specified by the mode designating means so that it can operate as much as possible during multiple failures. The failure processing device temporarily stops processing, performs self-diagnosis of the self-processing device, and, after the self-diagnosis, disconnects from the system any of the duplicated processing devices that failed due to the self-diagnosis from the system. A failure processing notification means for notifying the system based on the content notified by the failure processing notification means, and To control whether retry the operation back to the cement.

【0007】また、演算処理手段は、演算プロセッサ
と、主記憶と、オフラインでの自演算処理手段の自己診
断機能を含む制御手段とを有してもよい。
The arithmetic processing means may include an arithmetic processor, a main memory, and a control means including a self-diagnosis function of the self-processing processing means offline.

【0008】本発明のフォールト・トレラント・コンピ
ュータシステムは、演算処理を行う三重化された第1の
演算処理手段と第2の演算処理手段と第3の演算処理手
段と、二重化された第1の多数決処理手段と第2の多数
決処理手段と、I/Oカードと、障害処理を司る障害処
理装置とから構成され、第1の演算処理手段と第2の演
算処理手段と第3の演算処理手段の各々は、第1の多数
決処理手段と第2の多数決処理手段の各々に信号線を介
して接続され、第1の多数決処理手段と第2の多数決処
理手段の各々は、第1の演算処理手段と第2の演算処理
手段と第3の演算処理手段の出力の多数決を取り、第1
の演算処理手段と第2の演算処理手段と第3の演算処理
手段の1つに障害が発生した際に障害が発生した演算処
理手段を特定し、特定された演算処理手段の演算結果を
抑止し、システムから切り離しを行う二重化された多数
決処理手段を有し、他の正常な2つの演算処理手段で動
作を継続可能にし耐故障性を高め、正常な2つの演算処
理手段の出力は各々I/Oバスに出力され、I/Oバスに
接続されたI/Oカードによって、周辺装置やローカル
エリアネットワークに接続され、第1の多数決処理手段
と第2の多数決処理手段では障害情報通知を信号線を介
して障害処理装置へ通知するフォールト・トレラント・
コンピュータシステムにおいて、三重化された第1の演
算処理手段と第2の演算処理手段と第3の演算処理手段
の一つが障害にて切り離され、二重化で動作中の演算処
理手段の一つに障害が発生し多重障害となった場合に、
システム停止とするか、残った一つの演算処理手段にて
可能な限り処理を継続するのかを示す、オペレータが自
由に設定可能なモード指定手段を有し、二重化された第
1の多数決処理手段と第2の多数決処理手段の各々に、
多数決処理手段内の多数決回路にて多数決を取った結果
によりステータスが設定され、三重化された第1の演算
処理手段と第2の演算処理手段と第3の演算処理手段に
障害が無く三重化された状態で動作しているか、何れか
1つの演算処理手段が障害となり、残った2つの冗長な
演算処理手段での動作継続をしているかを示すステータ
ス表示手段を有し、ステータス表示手段の表示が、演算
処理手段のうちの1つが障害となり、残り2つの演算処
理手段にて動作を継続していることを示している時に、
更に二重化で動作中の演算処理手段に障害が発生した場
合、モード指定手段により、多重障害時にシステム停止
が設定されている場合はシステム停止を、また、モード
指定手段により多重障害時も可能な限り動作可能とする
ようモード指定がされている場合には障害の発生時に一
時的に処理を停止し、自演算処理装置の自己診断を行
い、自己診断後、二重化された演算処理手段のうち自己
診断により障害となった演算処理手段をシステムより切
り離すことを、障害処理装置に通知する障害処理通知手
段を有し、障害処理通知手段により通知された内容にも
とづき、障害処理装置により、システムをダウンさせる
か、チェックポイントに戻って処理を再試行かを制御す
る。
A fault tolerant computer system according to the present invention comprises a first triple processing unit, a second triple processing unit and a third triple processing unit for performing arithmetic processing, and a first duplicated processing unit. A first majority processing unit, a second majority processing unit, an I / O card, and a failure processing unit that manages failure processing; a first arithmetic processing unit, a second arithmetic processing unit, and a third arithmetic processing unit Are connected to each of the first majority processing means and the second majority processing means via signal lines, and each of the first majority processing means and the second majority processing means Means, a second arithmetic processing means, and a third arithmetic processing means.
When one of the arithmetic processing means, the second arithmetic processing means and the third arithmetic processing means fails, the arithmetic processing means in which the failure has occurred is specified, and the calculation result of the specified arithmetic processing means is suppressed. In addition, it has dual majority processing means for disconnecting it from the system, enables operation to be continued by the other two normal operation processing means to improve fault tolerance, and outputs from the two normal operation processing means are respectively I / O The I / O card is output to the O bus and is connected to a peripheral device or a local area network by an I / O card connected to the I / O bus. The first majority decision processing means and the second majority decision processing means send fault information notifications to signal lines. Fault tolerant to notify the fault handling device via
In the computer system, one of the tripled first processing means, the second processing means, and the third processing means is disconnected due to a failure, and one of the processing processing means which is operating in a duplex state is failed. Occurs and multiple failures occur,
A mode designating means that can be freely set by an operator, which indicates whether to stop the system or continue processing as much as possible with the remaining one processing means,
In each of the first majority processing means and the second majority processing means,
The status is set according to the result of the majority decision by the majority circuit in the majority processing means, and the tripled first arithmetic processing means, the second arithmetic processing means and the third arithmetic processing means are tripled without any trouble. Status display means for indicating whether the operation is being performed in a state where the operation has been performed, or whether any one of the arithmetic processing means has become an obstacle and continuing operation with the remaining two redundant arithmetic processing means. When the display indicates that one of the processing means has failed and the remaining two processing means continue to operate,
Furthermore, if a failure occurs in the arithmetic processing means operating in duplex, the system designating means will stop the system if multiple system failures have been set, and the mode designating means will also stop the system failure if possible. If the mode is specified to enable operation, processing is temporarily stopped when a failure occurs, self-diagnosis of the self-processing unit is performed, and after the self-diagnosis, self-diagnosis is performed among the duplicated processing units. Has a failure processing notifying means for notifying the failure processing device that the arithmetic processing means which has caused the failure is disconnected from the system, and based on the content notified by the failure processing notifying means, causes the failure processing apparatus to bring down the system. Or return to the checkpoint and retry the process.

【0009】また、演算処理手段は、演算プロセッサ
と、主記憶と、オフラインでの自演算処理手段の自己診
断機能を含む制御手段とを有してもよい。
The arithmetic processing means may include an arithmetic processor, a main memory, and control means including a self-diagnosis function of the self-processing processing means offline.

【0010】従って、演算処理手段の二重障害が発生し
た場合にシステムを停止するか、リトライにより継続す
るかをフレキシブルにコントロールすることを可能と
し、従来の三重化されたフォールト・トレラントシステ
ムにおける演算処理手段の二重障害時にも、使用者の用
途に合わせ二重化されたハイアベイラビリティシステム
レベルのリトライ機能をも具備し、使用者の用途に合わ
せ可用性(アベイラビリティ)をフレキシブルに設定す
ることが可能となる。
Accordingly, it is possible to flexibly control whether to stop the system or continue by retrying when a double fault occurs in the arithmetic processing means, and to perform the arithmetic operation in the conventional triple fault-tolerant system. Even in the event of a double failure of the processing means, a retry function at the high availability system level that is duplicated according to the user's application is also provided, so that the availability can be flexibly set according to the user's application. .

【0011】[0011]

【発明の実施の形態】図1は本発明の実施の形態のフォ
ールト・トレラント・コンピュータシステムの構成例で
ある。
FIG. 1 shows an example of the configuration of a fault-tolerant computer system according to an embodiment of the present invention.

【0012】演算処理を行う演算処理手段は三重化され
ており、第1の演算処理手段1、第2の演算処理手段
2、第3の演算処理手段3の各々から、二重化された第
1の多数決処理手段4、第2の多数決処理手段5に信号
線7〜12を介して接続されている。
The arithmetic processing means for performing the arithmetic processing is tripled, and each of the first arithmetic processing means 1, the second arithmetic processing means 2, and the third arithmetic processing means 3 outputs
The first majority processing means 4 and the second majority processing means 5 are connected via signal lines 7-12.

【0013】第1の演算処理手段1、第2の演算処理手
段2、第3の演算処理手段3の出力は第1の多数決処理
手段4、第2の多数決処理手段5にて多数決が取られ、
選択された出力は各々I/Oバス13もしくは14に出
力されている。また、前述のI/Oバス13、14の両
方に接続されたI/Oカード6等によって、周辺装置や
ローカルエリアネットワーク等に接続されることにな
る。
The outputs of the first arithmetic processing means 1, the second arithmetic processing means 2, and the third arithmetic processing means 3 are subjected to a majority decision by a first majority processing means 4 and a second majority processing means 5. ,
The selected output is output to the I / O bus 13 or 14, respectively. Also, the I / O card 6 and the like connected to both the I / O buses 13 and 14 connect to peripheral devices and local area networks.

【0014】また、第1の多数決処理手段4、第2の多
数決処理手段5では後述する障害情報通知を信号線33
もしくは34を介して障害処理装置35へ通知してお
り、障害処理装置35では当該フォールト・トレラント
コンピュータの障害処理を司っている。
Further, the first majority decision processing means 4 and the second majority decision processing means 5 transmit a failure information notification to be described later on a signal line 33.
Alternatively, the failure is notified to the failure processing device 35 via 34, and the failure processing device 35 manages the failure processing of the fault-tolerant computer.

【0015】図2は第1の演算処理手段1の詳細例を示
している。演算プロセッサ18〜21はメモリ共有型の
マルチプロセッサ(SMP)を構成し、内部バス24に
接続されており、当該入出力及び主記憶23との入出力
制御を司る制御手段22を有し、制御手段22によって
第1の演算処理手段1の入出力が信号線7、を介し外部
と接続されている。
FIG. 2 shows a detailed example of the first arithmetic processing means 1. The arithmetic processors 18 to 21 constitute a shared memory multiprocessor (SMP), are connected to the internal bus 24, and have control means 22 for controlling the input / output and the input / output with the main memory 23. The input / output of the first arithmetic processing means 1 is connected to the outside via the signal line 7 by means 22.

【0016】図3は本発明の特徴となる第1の多数決処
理手段4の詳細構成を示したものである。三重化された
第1の演算処理手段1、第2の演算処理手段2、第3の
演算処理手段3の各々の出力が信号線7、9、11を介
し多数決回路26及び、セレクタ28へ入力される。当
該入力を受けた多数決回路26では、第1の演算処理手
段1、第2の演算処理手段2、第3の演算処理手段3の
出力の多数決を行い、不一致出力が無いかをチェックす
る。出力多数決によるチェックによって、出力不一致が
なければ、全ての出力が正常であると判断し、セレクタ
28の出力をデフォルトとして、第1の演算処理手段1
の出力を選択する様に指示信号を出すとともに、ステー
タス表示手段27に演算処理手段の障害が当該マシンサ
イクルでは発生していないことを設定する。
FIG. 3 shows a detailed configuration of the first majority decision processing means 4 which is a feature of the present invention. The output of each of the tripled first arithmetic processing means 1, second arithmetic processing means 2, and third arithmetic processing means 3 is input to majority decision circuit 26 and selector 28 via signal lines 7, 9, and 11. Is done. Upon receiving the input, the majority decision circuit 26 performs a majority decision on the outputs of the first arithmetic processing means 1, the second arithmetic processing means 2, and the third arithmetic processing means 3 and checks whether there is a mismatch output. If there is no output mismatch by the check by the output majority, all outputs are determined to be normal, and the output of the selector 28 is set as a default and the first arithmetic processing means 1
An instruction signal is issued to select the output of (1), and the status display means 27 is set to indicate that no failure of the arithmetic processing means has occurred in the machine cycle.

【0017】セレクタ28では多数決回路26から信号
線29を介した指示により信号線7を介して入力された
第1の演算処理手段1の出力を選択肢、I/Oバス13に
出力する。また、次のマシンサイクルにおいて、ステー
タス表示手段27にセットされた障害発生無しのステー
タスが障害処理通知手段32に送られ、障害処理通知手
段32では障害が発生していない旨を信号線33を介し
て障害処理装置35に通知する。障害処理装置35では
当該通知により障害が発生していないので、特にアクシ
ョンは起こさない。
In the selector 28, the output of the first arithmetic processing means 1 inputted through the signal line 7 in accordance with an instruction from the majority decision circuit 26 through the signal line 29 is selected and outputted to the I / O bus 13. In the next machine cycle, the status indicating that no fault has been set in the status display means 27 is sent to the fault processing notifying means 32, and the fault processing notifying means 32 notifies that no fault has occurred via the signal line 33. To the failure processing device 35. Since no failure has occurred in the failure processing device 35 due to the notification, no action is taken.

【0018】次に、第1の演算処理手段1に障害が発生
し、出力異常を起こしたケースの動作について説明す
る。
Next, the operation in the case where a failure has occurred in the first arithmetic processing means 1 and an output abnormality has occurred will be described.

【0019】演算処理手段の出力の多数決によるチェッ
クによって、出力不一致があり、第1の演算処理手段1
の出力が他の2つと異なり、異常であると判断した場
合、セレクタ28の出力により、第2の演算処理手段2
の出力を選択する様に指示信号を出すとともに、ステー
タス表示手段27に第1の演算処理手段1に当該マシン
サイクルで障害が発生し、セレクタ28の出力の切り替
えにより、第1の演算処理手段1の出力を未使用状態に
した事を設定する。
When the output of the arithmetic processing means is checked by majority decision, there is an output mismatch, and the first arithmetic processing means 1
Is different from the other two, when it is determined that the output is abnormal, the output of the selector 28 is
An instruction signal is issued to select the output of the first arithmetic processing means 1 in the status display means 27, and a failure occurs in the first arithmetic processing means 1 in the machine cycle, and the output of the selector 28 is switched. Set that the output of is unused.

【0020】セレクタ28では多数決回路26から信号
線29を介した指示により信号線7を介して入力された
第2の演算処理手段2の出力を選択肢、I/Oバス13に
出力する。また、次のマシンサイクルにおいて、ステー
タス表示手段27にセットされた第1の演算処理手段1
の障害発生のステータスが障害処理通知手段32に送ら
れ、障害処理通知手段32では第1の演算処理手段1の
障害が発生した旨を受け取った旨を信号線33を介して
障害処理装置35に通知する。障害処理装置35では当
該通知により第1の演算処理手段1に障害が発生してい
るので、システムより第1の演算処理手段1の切り離し
を行うが、処理は停止することなく継続される。ここま
での動作は従来の三重化されたフォールト・トレラント
コンピュータの一般的技術としてしられている内容であ
る。
In the selector 28, the output of the second arithmetic processing means 2 input via the signal line 7 according to an instruction from the majority circuit 26 via the signal line 29 is selected and output to the I / O bus 13. In the next machine cycle, the first arithmetic processing means 1 set in the status display means 27
Is sent to the fault processing notifying means 32, and the fault processing notifying means 32 notifies the fault processing device 35 via the signal line 33 of the fact that the fault of the first arithmetic processing means 1 has been received. Notice. In the failure processing device 35, since the first arithmetic processing means 1 has failed due to the notification, the first arithmetic processing means 1 is disconnected from the system, but the processing is continued without stopping. The operation up to this point is what has been done as a general technique of the conventional triple fault-tolerant computer.

【0021】次に、本発明の特徴である、第1の演算処
理手段1が切り離された状態で、更に第2の演算処理手
段2にも障害が発生し、二重障害となったケースについ
て説明する。第1の演算処理手段1が切り離された状態
で第2の演算処理手段2に障害が発生した場合、多数決
回路26は第2の演算処理手段2と第3の演算処理手段3
の出力の比較不一致を検出するが、第2の演算処理手段
2と第3の演算処理手段3の何れの演算処理手段に障害
が発生したのかを特定することはできない。ここで、多
数決回路26は、セレクタ28の出力は変更せず、ステ
ータス表示手段27に演算処理手段の二重障害発生のス
テータスをセットする。
Next, a case in which a failure occurs in the second arithmetic processing means 2 in a state where the first arithmetic processing means 1 is separated and a double failure occurs, which is a feature of the present invention. explain. If a failure occurs in the second arithmetic processing means 2 in a state where the first arithmetic processing means 1 is disconnected, the majority decision circuit 26 sets the second arithmetic processing means 2 and the third arithmetic processing means 3
However, it is not possible to specify which of the second processing means 2 and the third processing means 3 has failed. Here, the majority decision circuit 26 does not change the output of the selector 28 and sets the status display means 27 to the status of the double failure occurrence of the arithmetic processing means.

【0022】次のマシンサイクルにおいては、ステータ
ス表示手段27は障害処理通知手段32に二重障害の発
生を通知する。障害処理通知手段はその通知を受ける
と、あらかじめ設定されたモード指定手段31の指示内
容に依存して以下の2パターンの指示を障害処理装置3
5におこなう。
In the next machine cycle, the status display means 27 notifies the fault processing notifying means 32 of the occurrence of the double fault. Upon receipt of the notification, the failure processing notifying means sends the following two types of instructions depending on the contents of the mode designation means 31 set in advance.
Do 5

【0023】第1のパターン指示として、モード指定手
段31に設定された指示がシステムダウンモードを示し
ていた場合には障害処理装置35に対し、システムの停
止を行う指示を行う。もう一方のパターン指示として
は、モード指定手段31に設定された指示が、リトライ
モードの場合障害処理装置35に対し、システム動作を
一時停止し、演算処理手段2及び3の自己診断を行い、
自己診断により障害が発生した演算処理手段が第2の演
算処理手段2と特定できた場合には第3の演算処理手段
3のみを使用して、チェックポイントから処理を再会す
る。
As the first pattern instruction, when the instruction set in the mode designating means 31 indicates the system down mode, an instruction to stop the system is issued to the failure processing unit 35. As another pattern instruction, when the instruction set in the mode designating means 31 is the retry mode, the system operation is temporarily stopped for the fault processing device 35, and the self-diagnosis of the arithmetic processing means 2 and 3 is performed.
If the arithmetic processing unit in which the failure has occurred can be identified as the second arithmetic processing unit 2 by the self-diagnosis, only the third arithmetic processing unit 3 is used, and the processing is resumed from the check point.

【0024】[0024]

【発明の効果】以上説明したように、本発明には以下の
効果がある。
As described above, the present invention has the following effects.

【0025】前述の手段により、演算処理手段の二重障
害が発生した場合にシステムを停止するか、リトライに
より継続するかをフレキシブルにコントロールすること
を可能とし、従来の三重化されたフォールト・トレラン
トシステムにおける演算処理手段の二重障害時にも、使
用者の用途に合わせ二重化されたハイアベイラビリティ
システムレベルのリトライ機能をも具備し、使用者の用
途に合わせ可用性(アベイラビリティ)をフレキシブル
に設定することが可能となるという効果がある。
With the above-described means, it is possible to flexibly control whether to stop the system or to continue by retrying when a double fault occurs in the arithmetic processing means. Even in the event of a double failure of the arithmetic processing means in the system, a dual high availability system level retry function is provided according to the user's application, and the availability can be flexibly set according to the user's application. There is an effect that it becomes possible.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の実施の形態のフォールト・トレラント
・コンピュータシステムの構成例を示す図である。
FIG. 1 is a diagram illustrating a configuration example of a fault-tolerant computer system according to an embodiment of the present invention.

【図2】演算処理手段の構成例を示す図である。FIG. 2 is a diagram illustrating a configuration example of an arithmetic processing unit.

【図3】多数決処理手段の構成例を示す図である。FIG. 3 is a diagram showing a configuration example of majority decision processing means.

【符号の説明】[Explanation of symbols]

1 第1の演算処理手段 2 第2の演算処理手段 3 第3の演算処理手段 4 第1の多数決処理手段 5 第2の多数決処理手段 6 I/Oカード 7〜12、15〜17、25、30、33、34 信
号線 13、14 I/Oバス 18〜21 演算プロセッサ 22 制御手段 23 主記憶 24 内部バス 26 多数決回路 27 ステータス表示手段 28 セレクタ 29 セレクタ出力選択信号 31 モード指定手段 32 障害処理通知手段 35 障害処理装置
DESCRIPTION OF SYMBOLS 1 1st arithmetic processing means 2 2nd arithmetic processing means 3 3rd arithmetic processing means 4 1st majority processing means 5 2nd majority processing means 6 I / O card 7-12, 15-17, 25, 30, 33, 34 signal lines 13, 14 I / O bus 18-21 arithmetic processor 22 control means 23 main memory 24 internal bus 26 majority circuit 27 status display means 28 selector 29 selector output selection signal 31 mode designation means 32 failure processing notification Means 35 Fault handling device

Claims (4)

【特許請求の範囲】[Claims] 【請求項1】 三重化された演算処理手段と、該演算処
理手段の出力の多数決を取り、前記三重化された演算処
理手段の1つに障害が発生した際に障害が発生した演算
処理手段を特定し、該特定された演算処理手段の演算結
果を抑止し、システムから切り離しを行う二重化された
多数決処理手段とを有し、他の正常な2つの演算処理手
段で動作を継続可能な耐故障性を高めたフォールト・ト
レラント・コンピュータシステムにおいて、 前記三重化された演算処理手段の一つが障害にて切り離
され、二重化で動作中の演算処理手段の一つに障害が発
生し多重障害となった場合に、システム停止とするか、
残った一つの演算処理手段にて可能な限り処理を継続す
るのかを示す、オペレータが自由に設定可能なモード指
定手段を有し、 前記二重化された多数決処理手段の各々に、該多数決処
理手段内の多数決回路にて多数決を取った結果によりス
テータスが設定され、前記三重化された演算処理手段に
障害が無く三重化された状態で動作しているか、何れか
1つの演算処理手段が障害となり、残った2つの冗長な
演算処理手段での動作継続をしているかを示すステータ
ス表示手段を有し、 該ステータス表示手段の表示が、前記演算処理手段のう
ちの1つが障害となり、残り2つの演算処理手段にて動
作を継続していることを示している時に、更に二重化で
動作中の演算処理手段に障害が発生した場合、前記モー
ド指定手段により、多重障害時にシステム停止が設定さ
れている場合はシステム停止を、また、前記モード指定
手段により多重障害時も可能な限り動作可能とするよう
モード指定がされている場合には障害の発生時に一時的
に処理を停止し、自演算処理装置の自己診断を行い、自
己診断後、二重化された演算処理手段のうち自己診断に
より障害となった演算処理手段をシステムより切り離す
ことを、障害処理装置に通知する障害処理通知手段を有
し、 該障害処理通知手段により通知された内容にもとづき、
障害処理装置により、システムをダウンさせるか、チェ
ックポイントに戻って処理を再試行かを制御することを
特徴とするフォールト・トレラント・コンピュータシス
テム。
1. A triple arithmetic processing means, and an arithmetic processing means which takes a majority decision of an output of the arithmetic processing means and generates a failure when one of the triple arithmetic processing means fails. And a redundant majority processing means for suppressing the operation result of the specified arithmetic processing means and disconnecting from the system, and capable of continuing operation by the other two normal arithmetic processing means. In a fault-tolerant computer system with improved operability, one of the triple arithmetic processing units is disconnected due to a failure, and a failure occurs in one of the arithmetic processing units operating in duplex, resulting in multiple failures. If the system is down,
An operator has a mode designating means which indicates whether processing is continued as much as possible by the remaining one arithmetic processing means and which can be freely set by an operator. Each of the duplicated majority processing means has The status is set according to the result of taking the majority vote in the majority circuit, and the tripled arithmetic processing means is operating in a tripled state without a failure, or any one of the arithmetic processing means becomes a failure, Status display means for indicating whether or not the operation is continued by the remaining two redundant arithmetic processing means, and the display of the status display means indicates that one of the arithmetic processing means has become an obstacle and the remaining two arithmetic processing means have failed. When the processing means indicates that the operation is continued, if a failure occurs in the arithmetic processing means which is further operating in duplex, the mode designating means causes a failure in the case of multiple failures. If the system stop is set, the system is stopped, and if the mode is specified by the mode specifying means so that operation is possible as much as possible even in the case of multiple failures, processing is temporarily performed when a failure occurs. Stop, perform self-diagnosis of the self-processing unit, and, after the self-diagnosis, notify the fault processing unit of disconnection from the system of the processing unit that has failed due to the self-diagnosis among the duplicated processing units. Notifying means, based on the content notified by the fault processing notifying means,
A fault-tolerant computer system, which controls whether the system goes down or returns to a checkpoint and retries processing by a fault handling device.
【請求項2】 前記演算処理手段は、演算プロセッサ
と、主記憶と、オフラインでの自演算処理手段の自己診
断機能を含む制御手段とを有する、請求項1に記載のフ
ォールト・トレラント・コンピュータシステム。
2. The fault tolerant computer system according to claim 1, wherein said arithmetic processing means has an arithmetic processor, a main memory, and a control means including a self-diagnosis function of the self-processing processing means offline. .
【請求項3】 演算処理を行う三重化された第1の演算
処理手段と第2の演算処理手段と第3の演算処理手段
と、二重化された第1の多数決処理手段と第2の多数決
処理手段と、I/Oカードと、障害処理を司る障害処理
装置とから構成され、 前記第1の演算処理手段と前記第2の演算処理手段と前
記第3の演算処理手段の各々は、前記第1の多数決処理
手段と前記第2の多数決処理手段の各々に信号線を介し
て接続され、 前記第1の多数決処理手段と前記第2の多数決処理手段
の各々は、前記第1の演算処理手段と前記第2の演算処
理手段と前記第3の演算処理手段の出力の多数決を取
り、前記第1の演算処理手段と前記第2の演算処理手段
と前記第3の演算処理手段の1つに障害が発生した際に
障害が発生した演算処理手段を特定し、該特定された演
算処理手段の演算結果を抑止し、システムから切り離し
を行う二重化された多数決処理手段を有し、他の正常な
2つの演算処理手段で動作を継続可能にし耐故障性を高
め、 前記正常な2つの演算処理手段の出力は各々I/Oバス
に出力され、該I/Oバスに接続された前記I/Oカード
によって、周辺装置やローカルエリアネットワークに接
続され、 前記第1の多数決処理手段と前記第2の多数決処理手段
では障害情報通知を信号線を介して前記障害処理装置へ
通知するフォールト・トレラント・コンピュータシステ
ムにおいて、 前記三重化された第1の演算処理手段と第2の演算処理
手段と第3の演算処理手段の一つが障害にて切り離さ
れ、二重化で動作中の演算処理手段の一つに障害が発生
し多重障害となった場合に、システム停止とするか、残
った一つの演算処理手段にて可能な限り処理を継続する
のかを示す、オペレータが自由に設定可能なモード指定
手段を有し、 前記二重化された第1の多数決処理手段と第2の多数決
処理手段の各々に、該多数決処理手段内の多数決回路に
て多数決を取った結果によりステータスが設定され、前
記三重化された第1の演算処理手段と第2の演算処理手
段と第3の演算処理手段に障害が無く三重化された状態
で動作しているか、何れか1つの演算処理手段が障害と
なり、残った2つの冗長な演算処理手段での動作継続を
しているかを示すステータス表示手段を有し、 該ステータス表示手段の表示が、前記演算処理手段のう
ちの1つが障害となり、残り2つの演算処理手段にて動
作を継続していることを示している時に、更に二重化で
動作中の演算処理手段に障害が発生した場合、前記モー
ド指定手段により、多重障害時にシステム停止が設定さ
れている場合はシステム停止を、また、前記モード指定
手段により多重障害時も可能な限り動作可能とするよう
モード指定がされている場合には障害の発生時に一時的
に処理を停止し、自演算処理装置の自己診断を行い、自
己診断後、二重化された演算処理手段のうち自己診断に
より障害となった演算処理手段をシステムより切り離す
ことを、障害処理装置に通知する障害処理通知手段を有
し、 該障害処理通知手段により通知された内容にもとづき、
障害処理装置により、システムをダウンさせるか、チェ
ックポイントに戻って処理を再試行かを制御することを
特徴とするフォールト・トレラント・コンピュータシス
テム。
3. Triplet first arithmetic processing means for performing arithmetic processing, second arithmetic processing means, third arithmetic processing means, duplicated first majority processing means, and second majority processing. Means, an I / O card, and a fault processing device for fault processing, wherein each of the first arithmetic processing means, the second arithmetic processing means, and the third arithmetic processing means comprises The first majority processing means and the second majority processing means are connected via a signal line to each of the first majority processing means and the second majority processing means, and each of the first majority processing means and the second majority processing means comprises the first arithmetic processing means And the majority of the outputs of the second and third arithmetic processing means are taken and one of the first and second arithmetic processing means and one of the third arithmetic processing means When a failure occurs, the arithmetic processing means in which the failure has occurred is specified, and the specified A duplicated majority processing means for suppressing the operation result of the arithmetic processing means and disconnecting from the system is provided, the operation can be continued by the other two normal arithmetic processing means, and the fault tolerance is improved. The outputs of the arithmetic processing means are respectively output to an I / O bus, and are connected to a peripheral device or a local area network by the I / O card connected to the I / O bus. In a fault tolerant computer system for notifying the fault processing device to the fault processing device via a signal line in the second majority processing means, the tripled first arithmetic processing means and second arithmetic processing means If one of the third arithmetic processing means is disconnected due to a failure and one of the arithmetic processing means operating in duplicate has a failure, resulting in multiple failures, whether to stop the system. An operator has a mode designating means that can be set freely, indicating whether processing is continued as much as possible with the remaining one arithmetic processing means. The duplicated first majority processing means and second majority processing A status is set in each of the means by a result of a majority vote taken by a majority circuit in the majority processing means, and the tripled first arithmetic processing means, second arithmetic processing means, and third arithmetic processing are performed. Status display means for indicating whether the means are operating in a triple state without any failure, or whether any one of the arithmetic processing means has failed and the operation of the remaining two redundant arithmetic processing means is continued. When the status display means indicates that one of the arithmetic processing means has become an obstacle and the remaining two arithmetic processing means continue to operate, Performance When a failure occurs in the processing means, the mode designating means makes the system stop when the system is stopped at the time of multiple failures, and the mode designation means makes it possible to operate as much as possible at the time of the multiple failures. If the mode is specified, the processing is temporarily stopped when a failure occurs, the self-processing unit performs a self-diagnosis, and after the self-diagnosis, a failure has occurred due to the self-diagnosis of the redundant processing means. A fault processing notifying means for notifying the fault processing device of disconnection of the arithmetic processing means from the system, based on the content notified by the fault processing notifying means,
A fault-tolerant computer system, which controls whether the system goes down or returns to a checkpoint and retries processing by a fault handling device.
【請求項4】 前記演算処理手段は、演算プロセッサ
と、主記憶と、オフラインでの自演算処理手段の自己診
断機能を含む制御手段とを有する、請求項3に記載のフ
ォールト・トレラント・コンピュータシステム。
4. The fault tolerant computer system according to claim 3, wherein said arithmetic processing means has an arithmetic processor, a main memory, and a control means including a self-diagnosis function of the self arithmetic processing means offline. .
JP2001060126A 2001-03-05 2001-03-05 Fault tolerant computer system Pending JP2002259154A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001060126A JP2002259154A (en) 2001-03-05 2001-03-05 Fault tolerant computer system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001060126A JP2002259154A (en) 2001-03-05 2001-03-05 Fault tolerant computer system

Publications (1)

Publication Number Publication Date
JP2002259154A true JP2002259154A (en) 2002-09-13

Family

ID=18919590

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001060126A Pending JP2002259154A (en) 2001-03-05 2001-03-05 Fault tolerant computer system

Country Status (1)

Country Link
JP (1) JP2002259154A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7751310B2 (en) 2004-12-20 2010-07-06 Nec Corporation Fault tolerant duplex computer system and its control method

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7751310B2 (en) 2004-12-20 2010-07-06 Nec Corporation Fault tolerant duplex computer system and its control method

Similar Documents

Publication Publication Date Title
JP2006178557A (en) Computer system and error handling method
JP2008097164A (en) Fault monitoring method for system composed of a plurality of function element
JP3211878B2 (en) Communication processing control means and information processing apparatus having the same
JP2002259154A (en) Fault tolerant computer system
JP3156654B2 (en) Duplex computer system and its operation method
JP2606107B2 (en) Processor redundancy
JPH0934852A (en) Cluster system
JPS62271150A (en) Error processing system for common bus structure
JPH0652130A (en) Multiprocessor system
JPH04241039A (en) High-reliability computer system
JP3363579B2 (en) Monitoring device and monitoring system
JP3015537B2 (en) Redundant computer system
JPS5870670A (en) Failure information transfer system for exchange of duplex system
JP3015538B2 (en) Redundant computer system
JPS6213700B2 (en)
JPH10275090A (en) Duplexing system for basic processor
JPS59112349A (en) Duplicated operation system
JPH04268929A (en) Duplicated processor system
JPH0294748A (en) Automatic diagnostic system
JPS63279646A (en) Automatic restart processing system for network management equipment
JPS62190536A (en) Redundant constitution control system
JPS59157759A (en) Dual system
JPH11331168A (en) Line switching device
JPH05165798A (en) System controlling system for two-series system
JPH0721051A (en) System switching system

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040415

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040512

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040929