JPH08190494A - High-reliability computer with dual processors - Google Patents

High-reliability computer with dual processors

Info

Publication number
JPH08190494A
JPH08190494A JP7002390A JP239095A JPH08190494A JP H08190494 A JPH08190494 A JP H08190494A JP 7002390 A JP7002390 A JP 7002390A JP 239095 A JP239095 A JP 239095A JP H08190494 A JPH08190494 A JP H08190494A
Authority
JP
Japan
Prior art keywords
input
data processing
control means
output
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7002390A
Other languages
Japanese (ja)
Inventor
Shinichiro Yamaguchi
伸一朗 山口
Tetsuaki Nakamigawa
哲明 中三川
Naoto Miyazaki
直人 宮崎
Yoshihiro Miyazaki
義弘 宮崎
Kazuhiro Hiuga
一弘 日向
Suketaka Ishikawa
佐孝 石川
Hiroshi Oguro
浩 大黒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP7002390A priority Critical patent/JPH08190494A/en
Publication of JPH08190494A publication Critical patent/JPH08190494A/en
Pending legal-status Critical Current

Links

Landscapes

  • Hardware Redundancy (AREA)

Abstract

PURPOSE: To provide a high-reliability computer which is highly common with general-purpose computers and also high in performance-cost ratio. CONSTITUTION: The computer consisting of two CPUs 1A and 1B of the same constitution and an input/output device has an identical-frequency, in-phase clock supply means for both the CPUs 1A and 1B, a doubled controller DSBA 2 which connects both the CPU 1A and 1B to the input/output device, and a communication means which sends and receives the states of the CPUs, etc., between both the CPUs 1A and 1B. The DSBA 2 selects an output instruction from one CPU and sends it to the input/output device, sends a response from the input/output device to both the CPUs 1A and 1B, informs the memories in the CPUs 1A and 1B of memory access from the an input/output device, and selects a memory access response from one CPU and sends it to the input/ output device. If a fault occurs in the CPU 1A or 1B, the DSBA 2 automatically disconnects the faulty CPU and continues to execute a program with the sound CPU. Consequently, high reliability is easily obtained at a low cost and a fault position can be replaced during on-line transaction execution.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は高信頼化コンピュータ
(フォールトトレラントコンピュータ)の構成にかか
り、特に二重化されたプロセッサとメモリを単一の入出
力バスに接続したフォールトトレラントコンピュータに
関するものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a highly reliable computer (fault tolerant computer), and more particularly to a fault tolerant computer in which a dual processor and memory are connected to a single input / output bus.

【0002】[0002]

【従来の技術】交通管制システム,金融システム等の社
会の根幹を占める機能をコンピュータが担うようになっ
てきている。これらの機能を担うコンピュータに障害が
発生し動作が停止すると、社会に大きな混乱を与える。
従って、コンピュータの信頼性が益々要求されてきてい
る。
2. Description of the Related Art Computers have come to carry out the functions that occupy the core of society, such as traffic control systems and financial systems. When a computer that performs these functions fails and stops operating, it causes a great deal of confusion in society.
Therefore, there is an increasing demand for computer reliability.

【0003】このようなコンピュータに対する高信頼化
の要求は、電子制御(コントローラ)の分野で従来より研
究がなされており、特開昭57−20847 号公報に示すよう
な多重計算機システムが発案されている。特開昭57−20
847 号公報では、高信頼化の方式として複数のコンピュ
ータで同一の演算を行わせて、データ出力の時点でこれ
らを比較し、正しいものを出力する方法が示されてい
る。このような方法は、ソフトウエアで出力のタイミン
グを合わせて、比較することが前提となっており比較的
小規模な制御システムならば適用可能である。しかし、
大規模かつ複雑な動きをする近年のアプリケーションソ
フトウエアでは、データ比較のために多大な工数が必要
となり適用できない。このような問題点に対応するため
に、ハードウエア主体でデータ比較を行う下記の高信頼
化技術が、発案されている。
The demand for high reliability of such a computer has been studied in the field of electronic control (controller), and a multi-computer system as shown in Japanese Patent Laid-Open No. 57-20847 was devised. There is. JP-A-57-20
Japanese Laid-Open Patent Publication No. 847 discloses a method of increasing reliability, in which a plurality of computers perform the same arithmetic operation, compare these at the time of data output, and output the correct one. Such a method is based on the premise that the output timings are matched by software and compared, and can be applied to a relatively small-scale control system. But,
Large-scale and complicated application software of recent years cannot be applied because it requires a large number of man-hours for data comparison. In order to deal with such a problem, the following high-reliability technology which compares data mainly by hardware has been proposed.

【0004】コンピュータの高信頼化(フォールトトレ
ランス:Fault-tolerance)技術に関しては、特開平2−
202638 号公報がある。この方式のように多数決に加わ
っているプロセッサが独立したクロックで動作している
とプロセッサ間で同期を採るためになんらかの工夫が必
要である。特開平2−202638 号公報はプロセッサ間で同
期を採る手段に関する発明である。
Regarding the computer high reliability (Fault-tolerance) technology, Japanese Patent Laid-Open No.
There is 202638 publication. As in this system, if the processors participating in the majority vote are operating with independent clocks, some kind of ingenuity is required to synchronize the processors. Japanese Unexamined Patent Publication No. 2-202638 is an invention relating to means for achieving synchronization between processors.

【0005】またより高い処理性能のコンピュータへの
要求に応えて、処理性能向上のために従来からマルチプ
ロセッサ構成のコンピュータが広く用いられている。マ
ルチプロセッサ構成のコンピュータのフォールトトレラ
ンス技術としては文献「日経エレクトロニクス1983
年5月9日号第197頁から第202頁」がある。
In response to the demand for computers having higher processing performance, computers having a multiprocessor structure have been widely used conventionally for improving the processing performance. As a fault-tolerance technique for a computer with a multiprocessor configuration, refer to the document "Nikkei Electronics 1983.
May 1977 issue, pages 197 to 202 ”.

【0006】この文献には、Pair and spare法と呼ばれ
る、自己診断機能のあるメモリ,プロセッサなどからな
る配線基板2枚を1組にして動作をする技術が記載され
ている。片方の配線基板上の回路でフォールトが生じた
場合には、もう一方の配線基板上の回路で処理動作を続
ける方式である。この方法によれば、フォールト発生時
でも動作が続けられるのでチェックポイントリスタート
(Checkpoint Restart)と呼ばれるフォールト発生時点以
前のチェックポイントからの処理のやりなおし動作が不
要となる。
[0006] This document describes a technique called pair and spare method for operating two wiring boards composed of a memory, a processor and the like having a self-diagnosis function as one set. When a fault occurs in the circuit on one wiring board, the processing operation is continued on the circuit on the other wiring board. With this method, operation continues even if a fault occurs, so checkpoint restart
It is not necessary to restart the process from the checkpoint before the fault occurrence, called (Checkpoint Restart).

【0007】また、他の高信頼化技術としては、米国特
許第4907228号(特開平1−154240号公報)及び米国特許
第5255367号(特開平1−154241号公報)がある。これ
は、二つのプロセッサから伸びるデータパス(2重レー
ル)にメモリなどの共有リソースを接続し、共有リソー
スの入り口で二つのデータバスからの信号を比較するこ
とによりエラーの検出を可能とする基本データ処理装置
を1組(2台)準備する。そして、1組のデータ処理装
置で共有される入出力装置には、入り口での比較による
エラー検出手段を持つ高信頼な計算機構成方法が示され
ている。
[0007] Other high reliability techniques include US Pat. No. 4,907,228 (JP-A-1-154240) and US Pat. No. 5255367 (JP-A-1-154241). This is a basic that enables error detection by connecting a shared resource such as memory to a data path (double rail) extending from two processors and comparing signals from two data buses at the entrance of the shared resource. Prepare one set (two) of data processing devices. A highly reliable computer configuration method having error detection means by comparison at the entrance is shown for an input / output device shared by a set of data processing devices.

【0008】またさらに他の高信頼化技術としては、特
開平4−241039 号公報がある。これは、障害時の取替え
単位である各々の配線基板上に構成されるBPU自体に
フォールトトレランス機能を持たせたものである。BP
U内で障害が発生してもフォールトトレランス機能によ
り次の「切りの良い時点」(以下便宜上チェックポイン
トと呼ぶ)まで正常動作を継続し、チェックポイントで
他のBPUに処理を引き継ぐものである。この場合、
「切りの良い時点」(チェックポイント)は例えばタス
ク切り替えの時点などに設定するのが適当である。
Further, as another technique for improving reliability, there is JP-A-4-241039. In this, the BPU itself formed on each wiring board, which is a replacement unit at the time of failure, has a fault tolerance function. BP
Even if a failure occurs in U, the fault tolerance function allows the normal operation to continue until the next "breaking point" (hereinafter referred to as a checkpoint for convenience), and the process is handed over to another BPU at the checkpoint. in this case,
It is appropriate to set the “breaking point” (check point) at, for example, a task switching point.

【0009】そして、BPU内で障害が発生しても次の
チェックポイントまで正常動作を継続させるために、B
PUを構成する各要素を多重化(冗長化)し、正常な要
素を組み合わせて動作を継続させる。パリティチェック
などにより障害検出が可能なキャッシュメモリなどは二
重化し、正常なキャッシュメモリを選択して用いる。M
PUに汎用品を用いる場合はMPUにチェック機能を持
たせることはできないので、MPUの出力信号を比較照
合して正常異常を判断し、正常なものを選択して用いる
ために三重化又は四重化する。
In order to continue normal operation until the next checkpoint even if a failure occurs in the BPU, B
Each element forming the PU is multiplexed (redundant), and normal elements are combined to continue the operation. A cache memory that can detect a failure by parity check or the like is duplicated, and a normal cache memory is selected and used. M
When a general-purpose product is used for the PU, the MPU cannot have a check function, so the output signals of the MPU are compared and compared to determine normality / abnormality. Turn into.

【0010】このようにして取替え単位である各々の配
線基板上に構成されるBPU自体が内部で障害が発生し
ても次のチェックポイントまで処理を継続できるので、
障害発生時のチェックポイントリスタートに備えてチェ
ックポイント時点の状態を保存する動作による処理性能
の低下を減少することが出来る。しかもペアとなるBP
Uが不要であるので、別々のBPU間のクロック同期の
ための信号線は不要となり、クロックの高速化が可能と
なる。
In this way, even if the BPU itself formed on each wiring board as a replacement unit has an internal failure, the processing can be continued until the next check point.
It is possible to reduce the deterioration of processing performance due to the operation of saving the state at the checkpoint in preparation for the restart of the checkpoint when a failure occurs. Moreover, a pair of BP
Since U is unnecessary, a signal line for clock synchronization between different BPUs is unnecessary, and the speed of the clock can be increased.

【0011】また、取替え単位を構成するMPUが同一
クロックで動作するので、MPU間の同期のための特別
な動作が不要となり、このための処理性能の低下がな
い。
Further, since the MPUs constituting the replacement unit operate with the same clock, no special operation for synchronization between MPUs is required, and there is no reduction in processing performance.

【0012】以上の従来技術は、いずれもソフトウエア
実行に必要な最小限の環境であるプロセッサとメモリを
多重化し、これらの部分に障害が発生したときにはハー
ドウエアで障害部位を切り離して、プログラムの継続を
保証しようとするものである。つまりプログラムから
は、プロセッサとメモリ部分の障害が全く見えない(透
過)ことを実現するものであり、高信頼システム構築の
ための特殊なプログラミングを軽減するための重要技術
となっている。
In the above conventional techniques, the minimum environment required for software execution is the multiplex of the processor and memory, and when a failure occurs in these parts, the failure part is separated by the hardware, and the program is executed. It is intended to guarantee continuity. In other words, the program realizes that the failure of the processor and the memory is completely invisible (transparent), which is an important technology for reducing special programming for constructing a highly reliable system.

【0013】[0013]

【発明が解決しようとする課題】これらの従来技術は、
一般に流通している汎用プロセッサを用いてその周辺回
路に特別な工夫を行って多重化したCPUを実現するも
のであり、同じ汎用プロセッサを用いた通常のデータ処
理装置やワークステーションやパーソナルコンピュータ
と比較した場合、コストの増大やハードウエア・ソフト
ウエアのオーバヘッドの増大が避けられないものとなっ
ている。
These conventional techniques are
This is a general-purpose processor that is distributed in the market, and its peripheral circuits are specially devised to realize a multiplexed CPU. Compared with ordinary data processing devices, workstations, and personal computers that use the same general-purpose processor. In that case, an increase in cost and an increase in hardware / software overhead are inevitable.

【0014】特に近年、汎用プロセッサは急激に性能を
向上させており、この高速プロセッサを用いた通常のデ
ータ処理装置やワークステーションやパーソナルコンピ
ュータの開発速度は、早まる一方である。このことは、
同じプロセッサを用いても特別な周辺回路を必要とする
高信頼化計算機と、通常のデータ処理装置やワークステ
ーションやパーソナルコンピュータとの性能価格差がさ
らに開いていく問題が内在することを意味する。
Particularly in recent years, the performance of general-purpose processors has been rapidly improved, and the development speed of ordinary data processing devices, workstations, and personal computers using this high-speed processor has been accelerating. This is
This means that there is an inherent problem that the performance price difference between a high-reliability computer that requires a special peripheral circuit even if the same processor is used, and an ordinary data processing device, workstation, or personal computer is further widened.

【0015】本発明は、これらの問題点に鑑みてなされ
たものであり、本発明の目的は、汎用計算機と共通性が
高く、汎用計算機と共同開発可能で性能価格性の高い高
信頼計算機を提供することに有る。
The present invention has been made in view of these problems, and an object of the present invention is to provide a highly reliable computer which has a high commonality with a general-purpose computer, can be jointly developed with the general-purpose computer, and has a high performance price. It is in providing.

【0016】[0016]

【課題を解決するための手段】上記目的を達成するため
に、メモリとプロセッサを例とするデータ処理装置より
構成されるCPUを例とする第1のデータ処理ブロック
及び入出力バスと入出力デバイスから成る入出力装置と
を有する計算機に対して、第1のCPUと同じ構成を持
つ第2のCPUと、これら第1及び第2のCPUに対し
て同一周波数かつ同一位相のクロック乃至はリセット信
号を供給するクロック手段と、二つのCPUと入出力装
置を接続する二重化制御手段DSBA(デュアルシステ
ムバスアダプタ(Dual System Bus Adapter)、以下DS
BAと呼ぶ)と、二つのCPU間でCPUの状態などを
受け渡しするブロック間通信手段を具備する。
In order to achieve the above-mentioned object, a first data processing block exemplifying a CPU including a memory and a data processing device exemplifying a processor, an input / output bus and an input / output device. A second CPU having the same configuration as the first CPU and a clock or reset signal having the same frequency and the same phase with respect to the first and second CPUs. And a clock control means for supplying two CPUs and a dual control means for connecting two CPUs to the input / output device DSBA (Dual System Bus Adapter)
It is referred to as BA) and an inter-block communication means for passing the state of the CPU and the like between the two CPUs.

【0017】DSBAは、第1または第2のCPUから
の出力指示を選択して入出力装置に伝え、入出力装置か
らの応答を第1及び第2の両方のCPUに伝える。また
DSBAは、入出力装置からのメモリアクセスを第1及び第
2のCPU内のメモリに伝え、第1または第2のCPU
からのメモリアクセス応答を選択して入出力装置に伝え
る機能を持つ。
The DSBA selects an output instruction from the first or second CPU, transmits it to the input / output device, and transmits a response from the input / output device to both the first and second CPUs. Also
The DSBA conveys memory access from the input / output device to the memory in the first and second CPUs, and the first or second CPU
It has a function to select the memory access response from and transmit it to the input / output device.

【0018】[0018]

【作用】上記の構成において、電源投入による初期立ち
上げの時は、クロック手段によって同一のクロックを二
つのCPUに供給しておき、それぞれのCPUでメモリ
クリアなどの初期化動作を独立に行う。そして、両方の
初期化終了を通信手段によって確認した後、クロック手
段によって同じタイミングで二つのCPUにリセットを
かける。これによって、以降二つのCPUは、全く同じ
動作、即ち同じプログラムを同じ順番で実行するように
なる。そして入出力アクセスの時には、前述のようにD
SBAで二重化CPUのアクセス制御を行う。
In the above structure, at the time of initial start-up by turning on the power, the same clock is supplied to the two CPUs by the clock means, and each CPU independently performs an initialization operation such as memory clear. Then, after confirming the completion of both initializations by the communication means, the two CPUs are reset at the same timing by the clock means. As a result, the two CPUs thereafter execute exactly the same operation, that is, the same program in the same order. Then, at the time of input / output access, as described above, D
Access control of the redundant CPU is performed by SBA.

【0019】次に、CPUで障害が発生したときは、D
SBAが障害CPUを自動的に切り離すことによって、
健全なCPUでプログラムの実行を継続する。
Next, when a failure occurs in the CPU, D
By SBA automatically disconnecting the faulty CPU,
Continue running the program on a healthy CPU.

【0020】以上のように、CPUで障害が発生したと
きに、DSBAが障害CPUを自動的に切り離すことに
よって、健全なCPUでプログラムの実行を継続できる
ので高信頼なコンピュータを実現出来る。
As described above, when a failure occurs in the CPU, DSBA automatically disconnects the failed CPU, so that the program execution can be continued by the sound CPU, so that a highly reliable computer can be realized.

【0021】さらに、CPUのような非常に高速で高度
な実装技術が要求される部分に二重化制御装置を設ける
のでなく、入出力装置との低速なインタフェイス部分に
DSBAを設けることで、容易にかつ安価に高信頼性を実現
でき、CPUと入出力装置を通常のデータ処理装置やワ
ークステーションやパーソナルコンピュータと共通化出
来るのでコストの低減と開発速度の向上をはかることが
できる。
Further, rather than providing a redundant control device in a portion such as a CPU that requires a very high speed and a high degree of mounting technology, a low speed interface portion with an input / output device is used.
By providing the DSBA, high reliability can be realized easily and inexpensively, and the CPU and the input / output device can be shared with the ordinary data processing device, workstation or personal computer, so that the cost can be reduced and the development speed can be improved. be able to.

【0022】[0022]

【実施例】以下本発明の実施例を図面を用いて説明す
る。
Embodiments of the present invention will be described below with reference to the drawings.

【0023】図2は、本発明が実施される高信頼化コン
ピュータ(以下計算機)の外観を示す。200A,20
0BはCPU−BOXであり、プロセッサやメモりを含
んでいる。201A,201Bはディスク装置であり、
ディスク装置の信頼性を向上させるために必要に応じて
ミラーディスク構成を採る事が出来る。202A,20
2Bは電源であり、それぞれA系とB系に電源を供給す
る。203A,203Bは冷却ファンであり、それぞれ
A系とB系の冷却を行う。この様にシステムの稼働に必
要なハードウエアを全て二重化する事によって、ハード
ウエアの一点故障が発生しても、障害モジュールを切り
離すことによって、連続稼働を実現できる。
FIG. 2 shows the external appearance of a highly reliable computer (hereinafter computer) in which the present invention is implemented. 200A, 20
OB is a CPU-BOX, which includes a processor and a memory. 201A and 201B are disk devices,
A mirror disk configuration can be adopted as necessary in order to improve the reliability of the disk device. 202A, 20
Reference numeral 2B is a power supply, which supplies power to the A system and the B system, respectively. Reference numerals 203A and 203B denote cooling fans, which cool the A system and the B system, respectively. In this way, by duplicating all the hardware required for system operation, even if a single point of hardware failure occurs, continuous operation can be realized by disconnecting the faulty module.

【0024】また、図2の様な装置実装を採る事によっ
て、A系,B系を物理的に分離できるので二重化形態が
明確になり、保守作業時のヒューマンエラーを減らし、
またバックボード清掃などの重点検も可能となる。
Further, by adopting the device mounting as shown in FIG. 2, since the A system and the B system can be physically separated, the duplication form becomes clear and human error at the time of maintenance work is reduced.
It also enables heavy inspections such as backboard cleaning.

【0025】図3,図2に示した計算機の概念的なハー
ドウエア構成を示す。
A conceptual hardware configuration of the computer shown in FIGS. 3 and 2 is shown.

【0026】1A,1Bは、プロセッサやメモリ及びこ
れらの周辺制御回路を有する中央処理装置(CPU)で
ある。CPU1A,1Bは、通常稼働時には同一周波
数,同一位相のクロックに同期して全く同じプログラム
を同じ命令実行順序で実行する。2は、二つのCPU1
A,1Bと入出力バス30Aまたは30Bを接続するD
SBAであり、正常なCPUのアクセスを入出力バスに
伝え、入出力バス30(30A,30B)からのアクセ
スを二つのCPUに伝える働きをする。入出力バス30
A,30Bは、様々な入出力装置アダプタ(IOA)を
含む。IOAとしては、例えばディスク装置用のIO
A,回線制御装置用のIOAやネットワーク用のLAN
Cなどがある。
Reference numerals 1A and 1B are central processing units (CPU) having a processor, a memory, and peripheral control circuits for these. During normal operation, the CPUs 1A and 1B execute exactly the same programs in the same instruction execution order in synchronization with clocks having the same frequency and the same phase. 2 CPUs 1
D connecting A and 1B with the input / output bus 30A or 30B
It is an SBA and transmits a normal CPU access to the input / output bus and transmits an access from the input / output bus 30 (30A, 30B) to the two CPUs. I / O bus 30
A and 30B include various input / output device adapters (IOA). As the IOA, for example, IO for a disk device
A, IOA for line control equipment and LAN for network
There is C etc.

【0027】図からも分かるように、ハードウエアの1
点故障に対する高信頼性を実現するために全てのハード
ウエアを二重化する。ここで、エラー検出能力を持ち、
切り離しの単位となるものをブロックと呼ぶことにす
る。本実施例では、3種類のブロックを持ち、各ブロッ
クはA系,B系で二重化されているので合計6ブロック
ある。各ブロックの主な構成要素は、以下の表1の通り
である。
As can be seen from the figure, the hardware 1
All hardware is duplicated to achieve high reliability against point failures. Where it has the ability to detect errors,
A unit that serves as a separation unit will be called a block. In this embodiment, there are three types of blocks, and each block is duplicated in A system and B system, so there are a total of 6 blocks. The main components of each block are as shown in Table 1 below.

【0028】[0028]

【表1】 [Table 1]

【0029】本実施例での故障に対する動作の上で特徴
的な点は、多重化されたブロックの切り離しをハードウ
エアとソフトウエアで分担していることにある。つま
り、CPUブロックは、ハードウエアで二重化制御を行
い、IOバスブロックとデバイスブロックは、ソフトウ
エアによって二重化制御を行う点である。CPUブロッ
ク内で検出されるエラーについては、ハードウエアで当
該ブロックの切り離しを行い、IOブロックおよびデバ
イスブロックで検出されるエラーについては、ソフトで
当該ブロックの切り離しを行い、残った正常な系による
処理を継続する。
A characteristic point of the operation against the failure in this embodiment is that the separation of the multiplexed blocks is shared by the hardware and the software. That is, the CPU block performs duplication control by hardware, and the IO bus block and the device block perform duplication control by software. For the error detected in the CPU block, the block is separated by hardware, and for the error detected in the IO block and device block, the block is separated by software, and the remaining normal processing is performed. To continue.

【0030】従って、入出力バスを制御するソフトウエ
アから見ると、独立したアドレスを持つ二つの入出力バ
ス30A,30Bが存在しており、どちらの入出力バス
が正常かを示すフラグをメモりに持って、このフラグに
従って二つの入出力装置を組み合わせて使う事によっ
て、入出力装置の二重化して入出力装置の1点故障に対
して連続稼働を実現する。
Therefore, from the viewpoint of software controlling the I / O bus, there are two I / O buses 30A and 30B having independent addresses, and the flag indicating which I / O bus is normal is memorized. Therefore, by using two input / output devices in combination according to this flag, the input / output devices are duplicated and continuous operation is realized for one point failure of the input / output devices.

【0031】図1に図3で示したハード構成図のより詳
細なブロック図を示す。ここで構成図の右半分と左半分
は、全く同じ構成なので、ここでは、左半分のA系部分
について詳細に説明する。
FIG. 1 shows a more detailed block diagram of the hardware block diagram shown in FIG. Here, since the right half and the left half of the configuration diagram have exactly the same configuration, the A-system portion of the left half will be described in detail here.

【0032】3A及び4Aは、全く同一構成のキャッシ
ュメモリを内蔵したプロセッサであり、通常は全く同じ
動作を行う。5Aは、命令やデータを格納するメモリで
あり、その容量や構成は当業者周知の様々なものが有る
が、いずれの場合も本発明の実施にあたっては、問題と
ならないのでここでは詳しく述べない。
Reference numerals 3A and 4A are processors each having a built-in cache memory having exactly the same structure, and normally perform exactly the same operation. 5A is a memory for storing instructions and data, and its capacity and configuration are various known to those skilled in the art, but in any case, it will not be a problem in carrying out the present invention, and therefore will not be described in detail here.

【0033】6Aは、プロセッサ3A,4Aとメモリ5
Aとシステムバス9Aを接続するプロセッサメモリ制御
ユニット(PMCU)あり、主にプロセッサ3Aまたは4
Aからのアクセスをメモリやシステムバス9Aに伝えた
り、システムバスからのアクセスをメモリに伝えたりす
る。さらに、プロセッサ3Aと4Aの出力信号500と
501を比較して、二つのプロセッサの出力不一致を調
べてプロセッサ内の故障を検出する。
6A is a processor 3A, 4A and a memory 5
There is a processor memory control unit (PMCU) that connects A and the system bus 9A, and is mainly the processor 3A or 4
The access from A is transmitted to the memory or the system bus 9A, and the access from the system bus is transmitted to the memory. Further, the output signals 500 and 501 of the processors 3A and 4A are compared with each other to check the output disagreement of the two processors to detect a failure in the processors.

【0034】7Aは、CPU1Aと1B間で信号線57
(PXIバス)を介して、CPUに状態などの情報を受
け渡すための制御を行うプロセッサ間インタフェイス制
御装置(PXI)である。
7A is a signal line 57 between the CPUs 1A and 1B.
It is an inter-processor interface control device (PXI) that performs control for passing information such as status to the CPU via the (PXI bus).

【0035】8Aは、発振器を有するクロック回路(C
LK)であり、CLK8Aは、信号線55を介してBの
CLK8Bと協調して、同一周波数/位相のクロックを
A系全体にクロックタイミング信号を供給する。またC
LK8Aは、発振器の停止検出回路を有している。
8A is a clock circuit (C
CLK), CLK8A cooperates with CLK8B of B through the signal line 55 to supply a clock of the same frequency / phase to the entire A system as a clock timing signal. Also C
The LK8A has an oscillator stop detection circuit.

【0036】11,12,13,14は、A系とB系を
接続するDS(Dual System)バスを制御するDSBAで
ある。本実施例では、4組のDSBAが示されており、
それぞれ11Aと11B(11),12Aと12B(1
2),13Aと13B(13),14Aと14B(14)
が1組となっており、さらに11と12の組と13と1
4の組が、入出力バス及び入出力装置の二重系を形成し
ている。各組の動作は、同じなのでここでは、11Aと
11Bの組(11)について説明する。
Reference numerals 11, 12, 13, and 14 are DSBAs for controlling a DS (Dual System) bus connecting the A system and the B system. In this example, four sets of DSBAs are shown,
11A and 11B (11), 12A and 12B (1
2), 13A and 13B (13), 14A and 14B (14)
Is a set, and further 11 and 12 pairs and 13 and 1
The set of 4 forms a dual system of I / O buses and I / O devices. Since the operation of each set is the same, the set (11) of 11A and 11B will be described here.

【0037】16は、DSバスのA系側15AとB系側
15Bの接続/分離を行うバススイッチであり、遅延デ
ィレイの少ないC−MOSプロセスで製造されたMOS
スイッチが好ましい。バススイッチを切ることによりA
系B系間が論理的にも電気的にも分離できるのでオンラ
イン動作状態での部品交換がやりやすくなる。
A bus switch 16 connects / disconnects the A system side 15A and the B system side 15B of the DS bus, and is a MOS manufactured by a C-MOS process with a small delay delay.
Switches are preferred. A by turning off the bus switch
Since the systems B and B can be separated logically and electrically, it becomes easy to replace components in the online operation state.

【0038】DSBA11AはプライマリDSBAと定義さ
れ、他方のDSBA11Bは、セカンダリDSBAと定義される。
プライマリとセカンダリDSBAは、それぞれのCPU
1Aと1Bから同時にDSバスアクセスを受けるが、実
際にはプライマリDSBAだけが、DSバスに対してそ
のCPUアクセスと伝える。即ち一種のセレクタを形成
する。そして、DSバスからのアクセスは、プライマリ
とセカンダリDSBAが同時に受けて、それぞれのCP
U1Aと1Bに同じタイミングで伝える。
The DSBA 11A is defined as a primary DSBA, and the other DSBA 11B is defined as a secondary DSBA.
The primary and secondary DSBAs are the respective CPUs
Although it receives a DS bus access from 1A and 1B at the same time, only the primary DSBA actually tells the DS bus its CPU access. That is, a kind of selector is formed. Then, the access from the DS bus is received by the primary and secondary DSBAs at the same time, and the respective CPs are received.
Report to U1A and 1B at the same timing.

【0039】20Aと21Aは、DSバスと入出力バス
30Aを接続する入出力バスアダプタ(IOBA)であ
る。31A,35Aは、それぞれ入出力バス30AとS
CSI(Small Computer System Interface)バスに代表
される標準的な入出力装置バス32A,33A,36
A,37Aを接続する入出力アダプタ(IOA)であ
る。39Aは、イーサネット(Ethernet)に代表される
ローカルエリアネットワークを接続するローカルエリア
ネットワーク制御装置(LANC)である。
Reference numerals 20A and 21A are input / output bus adapters (IOBA) for connecting the DS bus and the input / output bus 30A. 31A and 35A are input / output buses 30A and S, respectively.
Standard input / output device buses 32A, 33A, 36 represented by CSI (Small Computer System Interface) buses
It is an input / output adapter (IOA) for connecting A and 37A. 39A is a local area network controller (LANC) for connecting a local area network represented by Ethernet.

【0040】34(34A,34B)は、所謂ディスク
装置であり本実施例の場合は34Aと34Bをソフトウ
エアでミラーディスク構成としているが、ここに示さな
い他の高信頼なディスク構成を採る事も可能である。3
8は、公衆回線網に接続するための公衆回線接続装置で
ある。
Reference numeral 34 (34A, 34B) is a so-called disk device, and in the case of this embodiment, 34A and 34B have a mirror disk structure by software, but another highly reliable disk structure not shown here should be adopted. Is also possible. Three
Reference numeral 8 is a public line connection device for connecting to a public line network.

【0041】本実施例で注意すべきことは、これらの入
出力バスがソフトウエアからは、20Aと20Bは異な
ったアドレスを持ったIOBCと認識され、また入出力
装置がソフトウエアからは、それぞれ異なった入出力装
置と認識されることである。
It should be noted in this embodiment that these input / output buses are recognized by the software as IOBCs having different addresses in 20A and 20B, and the input / output devices are recognized by the software. It is to be recognized as a different input / output device.

【0042】従って、ソフトウエアの設定だけで様々な
グレードを持った高信頼計算機が実現できる。例えば、
ここでは全ての入出力バスと入出力装置を二重化した例
を示しているが、システム上で重要性の少ない入出力装
置を1重化することによって、システムのコストを下げ
るなど柔軟な対応が可能となる。あるいは、非常に重要
なデータを格納したディスクを4重化するなどの対応も
可能となる。
Therefore, a highly reliable computer having various grades can be realized only by setting the software. For example,
Here, an example is shown in which all I / O buses and I / O devices are duplicated. However, by unifying I / O devices that are less important in the system, it is possible to flexibly deal with system cost reduction. Becomes Alternatively, it is possible to take measures such as quadrupling a disk storing very important data.

【0043】(a)プロセッサメモリ制御ユニット(P
MCU):図4にPMCUのブロック図を示す。6Aも
6Bも全く同じ構成なのでここでは6Aを取り上げて説
明する。PMCUは、大きくプロセッサインタフェイス
ユニット(PIU)40とメモリインタフェイスユニッ
ト(MIU)41とシステムバスインタフェイスユニッ
ト(SBIU)42及びプロセッサ出力比較器44にわ
かれる。40は、プロセッサ3Aと4Aとのインタフェ
イスユニット(PIU)であり、プロセッサの外部アクセ
スがメモリアクセスのときは、マスタプロセッサ3Aか
らのメモリアドレス・データを信号線500を介して受
信バッファ47に取り込み、プロセッサの外部アクセス
が入出力バスへのアクセス(PIOアクセス)のとき
は、メモリアドレス・データを受信バッファ46に格納
する。一方、スレーブプロセッサ4Aからのメモリアド
レス・データは、信号線501介してPMCUに取り込
まれるが、受信バッファには格納されない。
(A) Processor memory control unit (P
MCU): FIG. 4 shows a block diagram of the PMCU. Since 6A and 6B have exactly the same configuration, 6A will be taken up and described here. The PMCU is roughly divided into a processor interface unit (PIU) 40, a memory interface unit (MIU) 41, a system bus interface unit (SBIU) 42, and a processor output comparator 44. Reference numeral 40 denotes an interface unit (PIU) between the processors 3A and 4A. When the external access of the processor is a memory access, the memory address / data from the master processor 3A is fetched into the reception buffer 47 via the signal line 500. When the external access of the processor is an access to the input / output bus (PIO access), the memory address data is stored in the reception buffer 46. On the other hand, the memory address data from the slave processor 4A is taken into the PMCU via the signal line 501, but is not stored in the receiving buffer.

【0044】マスタ及びチェッカプロセッサからのアド
レスやデータや制御信号は、マスタプロセッサが書き込
みアクセスを出力したとき、プロセッサ出力比較器44
で比較される。そして値が不一致の時は、マスタチェッ
カエラー信号400は、アサートされる。また、図示さ
れていないがこのPIU動作中に検出されるパリティエ
ラーや制御回路のエラーなどは、信号線401を介して
論理和素子43に伝えられる。
Addresses, data and control signals from the master and checker processors are sent to the processor output comparator 44 when the master processor outputs a write access.
Are compared. When the values do not match, the master checker error signal 400 is asserted. Further, although not shown, a parity error detected during this PIU operation, an error in the control circuit, and the like are transmitted to the logical sum element 43 via the signal line 401.

【0045】MIU41は、PIUからのメモリアクセ
スとSBIUからのDMAアクセスをセレクタ506で
受けて、メモリ5Aをアクセスして応答をそれぞれPI
UあるいはSBIUに返す。MIUがPIUから受ける
アクセスは、メモリリードとメモリライトである。メモ
リリードのときには受信バッファ47に格納されたリー
ドアドレスがセレクタ506を介して、メモリ5Aに伝
えられる。そして、読み出されたデータは、セレクタ5
05を介して、送信バッファ48に格納され、マスタ・
チェッカプロセッサ3Aと4Aに返される。メモリライ
トのときには受信バッファ47に格納されたリードアド
レスとライトデータがセレクタ506を介して、メモリ
5Aに書き込まれる。
The MIU 41 receives a memory access from the PIU and a DMA access from the SBIU at the selector 506, accesses the memory 5A and sends a response to each PI.
Return to U or SBIU. The access that the MIU receives from the PIU is memory read and memory write. At the time of memory read, the read address stored in the reception buffer 47 is transmitted to the memory 5A via the selector 506. Then, the read data is stored in the selector 5
Stored in the transmission buffer 48 via
It is returned to the checker processors 3A and 4A. At the time of memory write, the read address and the write data stored in the reception buffer 47 are written in the memory 5A via the selector 506.

【0046】MIUがSBIUから受けるアクセスは、
DMAリードとメモリライトである。DMAリードのと
きには受信バッファ50に格納されたリードアドレスが
セレクタ506を介して、メモリ5Aに伝えられる。そ
して、読み出されたデータは、送信バッファ49に格納
され、システムバス9Aを介して入出力バスあるいは入
出力装置に返される。DMAライトのときには受信バッ
ファ50に格納されたリードアドレスとライトデータが
セレクタ506を介して、メモリ5Aに書き込まれる。
セレクタ506の制御方法は、ここでは示していない
が、SBIUを優先することが望ましい。
The access that MIU receives from SBIU is
DMA read and memory write. At the time of DMA read, the read address stored in the reception buffer 50 is transmitted to the memory 5A via the selector 506. Then, the read data is stored in the transmission buffer 49 and returned to the input / output bus or the input / output device via the system bus 9A. At the time of DMA write, the read address and the write data stored in the reception buffer 50 are written in the memory 5A via the selector 506.
Although the control method of the selector 506 is not shown here, it is desirable to give priority to SBIU.

【0047】このMIU動作中に検出されるパリティエ
ラーや制御回路のエラーなどは、信号線402を介して
論理和素子43に伝えられる。45は、メモリコピー
(詳細後述)の時に正常系のMIUが行うメモリへのリ
ード・ライトアクセスを監視して、必要に応じてアドレ
スとデータを取り込む。そして、これを信号線504を
介してメモリコピーアクセスとして、システムバスに出
力して、組みとなっているDSBAを経由して、他系の
メモリに書き込まれる。
Parity errors and control circuit errors detected during the MIU operation are transmitted to the logical sum element 43 via the signal line 402. Reference numeral 45 monitors read / write access to the memory performed by a normal MIU at the time of memory copy (details will be described later), and fetches an address and data as necessary. Then, this is output to the system bus as a memory copy access via the signal line 504, and is written to the memory of the other system via the paired DSBA.

【0048】SBIU42は、システムバス9AからのDMA
アクセスとPIUからのPIOアクセスを処理する。P
IUからのPIOリードアクセスのときは、受信バッフ
ァ46に格納されたアドレスをシステムバス権を獲得
後、システムバス9Aに出力する。そして、リードデー
タは、セレクタ505を介して、送信バッファ48に格
納され、マスタ・チェッカプロセッサ3Aと4Aに返さ
れる。PIOライトのときには受信バッファ46に格納
されたリードアドレスとライトデータがセレクタ507
を介して、システムバス権を獲得後、システムバス9A
に出力する。システムバス9AからのDMAリード・ラ
イトアクセスのときは、前述の通りである。これらのS
BIU動作中にパリティエラーや制御回路のエラーなど
が検出されたときは、信号線403を介して、論理和素
子43に伝えられる。
SBIU42 is a DMA from the system bus 9A.
Handles access and PIO access from PIUs. P
At the time of PIO read access from the IU, the address stored in the reception buffer 46 is output to the system bus 9A after acquiring the system bus right. Then, the read data is stored in the transmission buffer 48 via the selector 505 and returned to the master checker processors 3A and 4A. At the time of PIO write, the read address and write data stored in the reception buffer 46 are stored in the selector 507.
System bus 9A after acquiring the system bus right via
Output to. The DMA read / write access from the system bus 9A is as described above. These S
When a parity error, a control circuit error, or the like is detected during the BIU operation, it is transmitted to the logical sum element 43 via the signal line 403.

【0049】43は、論理和素子であり、PMCUの動
作中に何等かのエラーが検出されると、信号線(PMC
U−ERR)95Aをアサートして、PXI7Aに伝え
る。 (b)クロック回路(CLK):図5にクロック回路8
A,8Bの内部構成図と接続を示す。クロック回路自体
は、A,Bとも同じなので、8Aについて説明する。5
0Aは、水晶発信器を有する当業者周知のオシレータ
(OSC)であり、10MHzの比較的低い周波数のク
ロック501Aを出力する。OSCの周波数を低く設定
することによって、図2に示したような8Aと8Bの間
が数10センチメートル離れる実装を行っても、安定し
たクロックを両方の系に供給できる。51Aは、自系の
OSCからのクロックと他系のOSCからのクロックを
選択するセレクタである。52Aは、フェーズロックル
ープ回路(PLL)であり、51Aで選択されたクロッ
クと位相の合ったn倍周波数のクロック54Aを生成し
て、プロセッサや周辺回路に必要な高周波数クロックを
供給する。53Aは、OSCの停止検出回路であり、5
01A,501Bの発信停止を検出すると、セレクタの
制御信号56Aによって、正常なOSCの出力を選択す
るようにする。
Reference numeral 43 is a logical sum element, and when an error is detected during the operation of the PMCU, the signal line (PMC
U-ERR) 95A is asserted and transmitted to PXI7A. (B) Clock circuit (CLK): The clock circuit 8 in FIG.
The internal block diagram of A and 8B and connection are shown. Since the clock circuit itself is the same for both A and B, 8A will be described. 5
OA is an oscillator (OSC) having a crystal oscillator, which is well known to those skilled in the art, and outputs a clock 501A having a relatively low frequency of 10 MHz. By setting the OSC frequency low, it is possible to supply a stable clock to both systems even when mounting is performed with a distance of several tens of centimeters between 8A and 8B as shown in FIG. 51A is a selector for selecting a clock from the OSC of the own system and a clock from the OSC of the other system. Reference numeral 52A is a phase-locked loop circuit (PLL), which generates a clock 54A having an n-fold frequency in phase with the clock selected in 51A and supplies a high-frequency clock necessary for the processor and peripheral circuits. 53A is a stop detection circuit of the OSC,
When the transmission stop of 01A and 501B is detected, the normal OSC output is selected by the control signal 56A of the selector.

【0050】OSC50Aと50Bは、最初に電源の入った方
をクロックマスタとするマスタ・スレーブ動作を行う。
例えば、A系が先に立ち上がったとすれば、50Aがク
ロックマスタとなりセレクタ51A,51Bは、いずれ
も501Aを選択する。そして、50Aが停止したとき
には、停止検出回路51A,51Bでこれを検出して、
セレクタが501Bを選択するように動作する。この切
替動作は、PLL引き込み時間よりも小さい、300n
s程度の短い時間で行われるためにセレクタが切り替わ
っても両方のPLLの出力は、途切れることなくプロセ
ッサや周辺回路にクロックを供給できる。
The OSCs 50A and 50B perform a master / slave operation in which the first power source is the clock master.
For example, if the A-system starts up first, 50A becomes the clock master and both selectors 51A and 51B select 501A. When 50A is stopped, the stop detection circuits 51A and 51B detect it,
The selector operates to select 501B. This switching operation is less than the PLL pull-in time, 300n
Since it is performed in a short time of about s, the outputs of both PLLs can supply the clock to the processor and peripheral circuits without interruption even if the selectors are switched.

【0051】(c)多重システムバスアダプタ(DSB
A):図6と図7及び図8を用いて、二つのCPUと1
つの入出力バスを接続する多重システムバスアダプタ
(DSBA)を説明する。図6にDSBAによる二重化
システムバス制御まわりに焦点を当てた構成を示す。DS
BA11A はプライマリDSBAと定義され、他方のDSBA11B
は、セカンダリDSBAと定義される。二つのDSBAは、
それぞれのCPU1Aと1Bから同時にDSバスアクセ
スを受けるが、プライマリDSBAだけが、DSバスに
対してそのCPUアクセスと伝える。そして、DSバス
からのアクセスは、プライマリとセカンダリDSBAが
同時に受けて、それぞれのCPU1Aと1Bに同じタイ
ミングで伝える。つまり、DSBAは、CPUからのア
クセスに対しては、セレクタを形成し、DSバスからの
アクセスに対しては、ディストリビュータの役割をす
る。
(C) Multiple system bus adapter (DSB
A): Two CPUs and one CPU using FIG. 6, FIG. 7 and FIG.
A multi-system bus adapter (DSBA) that connects two input / output buses will be described. FIG. 6 shows a configuration focusing on the duplex system bus control by DSBA. DS
BA11A is defined as the primary DSBA and the other DSBA11B
Is defined as the secondary DSBA. The two DSBAs are
It receives a DS bus access from each CPU 1A and 1B at the same time, but only the primary DSBA tells the DS bus that CPU access. Then, the access from the DS bus is simultaneously received by the primary and secondary DSBAs and transmitted to the respective CPUs 1A and 1B at the same timing. That is, the DSBA forms a selector for access from the CPU and acts as a distributor for access from the DS bus.

【0052】ところで、CPU1A,1Bは、正常時に
は同じ動作をしているが、何等かの障害が発生すると同
期動作がずれてくる。この同期ずれは、二つのCPUが
1つのDSバス15Aにアクセスするときに顕在化す
る。DSBA間インタフェイス60は、この同期ずれを
検出し、片系障害時に障害系CPUブロックを切り離す
タイミングを生成する。DSBA間インタフェイス60
は図6に示すように、少なくとも8本の信号線を有して
いる。61A,61Bは、それぞれCPU1Aと1Bか
らのシステムバス要求であり、62A,62Bは、それ
ぞれCPU1Aと1Bが生成するシステムバスの使用許
可信号である。63A,63Bは、それぞれのDSBA
内でエラーを検出したことを示すエラー信号である。本
実施例では、DSBA間インタフェイス60にパリティ
ビットなどのエラー検出符号を付加していないが、必要
に応じて付加できることは、明かである。
By the way, the CPUs 1A and 1B perform the same operation under normal conditions, but if some trouble occurs, the synchronous operation is deviated. This synchronization deviation becomes apparent when two CPUs access one DS bus 15A. The inter-DSBA interface 60 detects this synchronization deviation and generates the timing for disconnecting the faulty CPU block when one-sided fault occurs. DSBA interface 60
Has at least eight signal lines, as shown in FIG. 61A and 61B are system bus requests from the CPUs 1A and 1B, respectively, and 62A and 62B are system bus use permission signals generated by the CPUs 1A and 1B, respectively. 63A and 63B are the respective DSBAs
It is an error signal indicating that an error has been detected within. In this embodiment, an error detection code such as a parity bit is not added to the inter-DSBA interface 60, but it is clear that it can be added as needed.

【0053】図7に、DSBA11A の内部構成を示す。DS
BAは、プライマリかセカンダリによって動作は異なる
が、全て同じハードウエアで実現できるので、ここで
は、DSBA11A を説明する。
FIG. 7 shows the internal structure of the DSBA11A. DS
The operation of the BA differs depending on whether it is the primary or the secondary, but since it can be realized with the same hardware, the DSBA11A will be described here.

【0054】システムバス9Aの信号は、データ/アド
レス信号751と制御信号752を含んでいる。同様に
DSバス30Aの信号は、データ/アドレス信号753
と制御信号754を含んでいる。73と74は、アドレ
スやデータを格納するバッファである。71は、バッフ
ァ73,74を管理してシステムバス9AあるいはDS
バス30Aへのアクセスを管理する送受信制御部であ
る。DSBAが処理するアクセスは、CPUから入出力
装置へのアクセス(PIOリードアクセスとライトアク
セスと呼ぶ),入出力装置からメモリへのアクセス(D
MAリードアクセスとライトアクセスと呼ぶ)である。
The signals on the system bus 9A include a data / address signal 751 and a control signal 752. Similarly, the signal of the DS bus 30A is the data / address signal 753.
And control signal 754. Reference numerals 73 and 74 are buffers for storing addresses and data. The reference numeral 71 manages the buffers 73 and 74 and controls the system bus 9A or DS
A transmission / reception control unit that manages access to the bus 30A. The access processed by the DSBA is the access from the CPU to the input / output device (called PIO read access and write access) and the access from the input / output device to the memory (D
(MA read access and write access).

【0055】PIOリードアクセスの時は、信号線75
1上のリードアドレスを受信バッファ73に格納し、こ
のアドレスを用いてDSバスをアクセスする。そして入
出力アダプタあるいは入出力装置から詠み出されたデー
タは、システムバスへの送信バッファ74に一旦格納さ
れた後、信号線751を介してCPUに伝えられる。P
IOライトアクセスの時には、信号線751上のライト
アドレスとライトデータを受信バッファ73に格納し、
このアドレスを用いてDSバスをアクセスする。そして
入出力アダプタあるいは入出力装置内のレジスタに書き
込まれる。
At the time of PIO read access, the signal line 75
The read address on 1 is stored in the reception buffer 73, and the DS bus is accessed using this address. The data read out from the input / output adapter or the input / output device is once stored in the transmission buffer 74 for the system bus, and then transmitted to the CPU via the signal line 751. P
At the time of IO write access, the write address and the write data on the signal line 751 are stored in the reception buffer 73,
This address is used to access the DS bus. Then, it is written in a register in the input / output adapter or the input / output device.

【0056】DMAリードアクセスの時は、信号線75
3上のリードアドレスを送信バッファ74に格納し、こ
のアドレスを用いてCPU内のメモリをアクセスする。
そしてメモリから読み出されたデータは、DSバスへの
受信バッファ73に一旦格納された後、信号線753を
介してDMAアクセス元に返される。DMAライトアク
セスの時には、信号線753上のライトアドレスとライ
トデータを送信バッファ74に格納し、このアドレスを
用いてメモリに書き込まれる。
At the time of DMA read access, the signal line 75
The read address on No. 3 is stored in the transmission buffer 74, and the memory in the CPU is accessed using this address.
Then, the data read from the memory is temporarily stored in the reception buffer 73 for the DS bus and then returned to the DMA access source via the signal line 753. At the time of DMA write access, the write address and the write data on the signal line 753 are stored in the transmission buffer 74 and written in the memory using this address.

【0057】76は、受信バッファ73に格納されたP
IOアクセスのアドレスを当該DSBA配下の入出力アダプ
タあるいは入出力装置内のアドレスに変換するIO空間
畳み込み回路である。771は、IO空間畳み込み回路
76の出力を有効とするかの選択を指示するフラグであ
り、DSBA内の制御レジスタの一つとして本DSBAと対
になるDSBAが故障したときにソフトウエアによって
設定される。本実施例に於ては、二重化された入出力装
置の制御をすべてソフトウエアで行う場合を中心に説明
しているが、上記IO空間畳み込み回路76を用いるこ
とによって、入出力装置を切り替えてもソフトウエア
(たとえばデバイスドライバなど)に対してのアドレス
をかえずに済むため2重制御の負担を減らすことが可能
になる。
Reference numeral 76 denotes P stored in the reception buffer 73.
It is an IO space convolution circuit that converts an IO access address into an address within the input / output adapter or input / output device under the DSBA. Reference numeral 771 is a flag for instructing selection of whether the output of the IO space convolution circuit 76 is valid, and is set by software when one of the control registers in the DSBA has a failure in the DSBA paired with this DSBA. It In the present embodiment, the description has been centered on the case where all the control of the duplicated input / output device is performed by software, but even if the input / output device is switched by using the IO space convolution circuit 76, Since it is not necessary to change the address for software (for example, device driver), the burden of dual control can be reduced.

【0058】755と756は、それぞれ信号線751
と753のパリティチェッカであり、エラーを検出する
とパリティエラーとして論理和素子76に伝えられる。
DSBA内で何等かのエラーが検出されると、DSBAERROR63A
として自系と他系の切り離し要求生成部に伝えられる。
切り離し要求生成部72は、これらDSBA内あるいは
DSBA間でエラーを検出したときに、故障CPUブロ
ックを切り離し要求信号(DISCONREQ)64Aを生成し
て、PXI7B(他系のPXI)に伝える。75は、D
Sバスへの出力ゲートの制御を行う出力ゲート制御回路
である。
755 and 756 are signal lines 751 respectively.
And 753 are parity checkers, and when an error is detected, it is transmitted to the logical sum element 76 as a parity error.
If any error is detected in DSBA, DSBAERROR63A
Is transmitted to the disconnection request generator of the own system and the other system.
When the disconnection request generation unit 72 detects an error in these DSBAs or between DSBAs, the disconnection request generation unit 72 generates a disconnection request signal (DISCONREQ) 64A and transmits it to the PXI7B (PXI of the other system). 75 is D
It is an output gate control circuit that controls an output gate to the S bus.

【0059】図8に出力ゲート制御回路の詳細を示す。
通常の出力ゲート制御は、送受信制御回路からDSバス
への送信信号(send)が出されたときに出力ゲートを開
ければ良い。しかし、本実施例では、DSBAを多重シ
ステムバスアダプタとして動作させるために、図8に示
す構成を採る。81,82は、論理積素子であり、83
0,831,832は、否定論理素子である。信号線8
4は、送受信制御回路からDSバスへの送信信号(sen
d)であり、信号線65は、自系CPUブロックが切り
離されていることを示すDISCON信号である。信号線66
は、他系CPUブロックが切り離されていることを示す
DISCON信号である。信号線67は、セカンダリDSBA
であることを示す信号である。二つのCPUが正常に動
作しているときには、プライマリ・セカンダリ両方のD
SBAは同じ様に送信信号84をアサートするが、プラ
イマリ(即ち信号線67がネゲートされている)DSBA
だけの出力ゲートが開いて、アドレス/データ等を送出
できる。また、自系CPUブロックが障害を起こして、
切り離される(信号線65がアサート)時には、信号線
65によって出力ゲート制御信号(OE)85がネゲー
トされるので、自系の出力ゲートは一切開かず、これに
よって自系CPUブロックがDSバスからの切り離しを
実現する。また、他系が障害を起こして、切り離される
(信号線66がアサート)時には、セカンダリDSBA
であってもsend信号84に従って、アドレス/データ等
を送出できる。
FIG. 8 shows the details of the output gate control circuit.
The normal output gate control may be performed by opening the output gate when a transmission signal (send) to the DS bus is output from the transmission / reception control circuit. However, in this embodiment, the configuration shown in FIG. 8 is adopted in order to operate the DSBA as a multiple system bus adapter. 81 and 82 are AND elements, and 83
Reference numerals 0, 831 and 832 are negative logic elements. Signal line 8
4 is a transmission signal from the transmission / reception control circuit to the DS bus (sen
The signal line 65 is a DISCON signal indicating that the own system CPU block is disconnected. Signal line 66
Indicates that the other system CPU block is disconnected
This is the DISCON signal. The signal line 67 is a secondary DSBA
Is a signal indicating that. When the two CPUs are operating normally, both the primary and secondary D
The SBA asserts the send signal 84 in the same way, but the primary (ie, signal line 67 is negated) DSBA
Only the output gate is opened and address / data etc. can be sent out. Also, when the own system CPU block fails,
When it is disconnected (the signal line 65 is asserted), the output gate control signal (OE) 85 is negated by the signal line 65, so that the output gate of the own system is not opened at all, which causes the own system CPU block to be disconnected from the DS bus. Achieve separation. When another system fails and is disconnected (the signal line 66 is asserted), the secondary DSBA
Even in this case, the address / data and the like can be transmitted according to the send signal 84.

【0060】図9に切り離し要求制御部の構成を示す。
900(900−1〜900−4),901,902,9
03(903−1〜903−3)は、それぞれ論理積素
子,論理和素子,排他的論理和素子,否定論理素子であ
る。90は、10マイクロ秒のタイマである。タイマ9
0は、PMCUからのシステムバス使用許可信号91A
(61A)と91B(61B)の不一致が排他的論理和素
子902で検出されて信号910がアサートされるか、
あるいはPMCUでエラーが検出されてPMCUERR信号9
5Aがアサートされると、カウントを開始し、他系のC
PUブロックを切り離すXDISCON 信号がアサートされる
と、カウントを停止しクリアされるが、10マイクロ秒
経過するとタイムアウト信号96をアサートする。論理
積素子900−1は、片系エラーを検出する回路であ
る。即ち、自系がエラーでなく他系がエラーの時に、他
系のエラー信号99をアサートし、これによって他系CP
Uブロックの切り離し要求信号94Aがアサートされ
る。論理積素子900−2,900−3は、それぞれ同
期ずれを検出する回路である。システムバス要求信号や
システムバス使用許可信号をアサートしていない方を故
障と見なして、他系の同期ずれエラー信号911,98
をアサートする。このうち同期ずれエラー信号98につ
いては、CPUが別の原因で既に同期ずれを起こしてい
る可能性があるので、すぐに切り離し要求をだすのは危
険である。そこで、要因が判明するまで前述の様にしば
らくの間、タイマ90,出力96で同期ずれエラー信号
98をマスクする。
FIG. 9 shows the configuration of the separation request control unit.
900 (900-1 to 900-4), 901, 902, 9
03 (903-1 to 903-3) are a logical product element, a logical sum element, an exclusive logical sum element, and a negative logical element, respectively. 90 is a timer of 10 microseconds. Timer 9
0 is the system bus use permission signal 91A from the PMCU
Whether a mismatch between (61A) and 91B (61B) is detected by the exclusive OR element 902 and the signal 910 is asserted,
Or PMCUERR signal 9 when an error is detected in PMCU
When 5A is asserted, it starts counting and C of other system
When the XDISCON signal that disconnects the PU block is asserted, the count is stopped and cleared, but after 10 microseconds have elapsed, the timeout signal 96 is asserted. The logical product element 900-1 is a circuit that detects a one-sided error. That is, when the own system is not an error and the other system is an error, the error signal 99 of the other system is asserted, so that the other system CP
The U block disconnection request signal 94A is asserted. The logical product elements 900-2 and 900-3 are circuits that detect a synchronization shift. The one in which the system bus request signal and the system bus use permission signal are not asserted is regarded as a failure, and the synchronization deviation error signals 911 and 98 of the other system are given.
Assert. Regarding the sync error signal 98, it is dangerous to issue a disconnection request immediately because the CPU may already be out of sync for another reason. Therefore, as described above, the synchronization error signal 98 is masked by the timer 90 and the output 96 for a while until the cause becomes clear.

【0061】図10と図11に同期ずれエラーを検出し
てから、片系CPUブロック切り離し要求がアサートさ
れるまでのタイムチャートを示す。図10は、PMCU
からのバス使用許可信号が、B系からは正常に出力され
たが、B系から出力されなかった場合を示している。P
MCUからのバス使用許可信号(PBGRTB−N)は、一旦D
SBAでラッチされ(62B)、DSBA間インタフェ
イス60を介して、1サイクルかけて二つのDSBA間
で渡される(91B)。自系のDSBA内では、他系か
らのバス使用許可信号と位相をあわせるために内部でさ
らにラッチする(91A)。DSBAでは、91Aと9
1Bを比較して不一致信号(CMPERR−N)をアサートす
る。
10 and 11 are time charts from the detection of the synchronization error to the assertion of the one-system CPU block disconnection request. Figure 10 shows the PMCU
The bus use permission signal from is normally output from the B system, but is not output from the B system. P
The bus use permission signal (PBGRTB-N) from the MCU is once D
It is latched by SBA (62B) and passed between two DSBAs over one cycle via the inter-DSBA interface 60 (91B). In the DSBA of the own system, it is further internally latched to match the phase with the bus use permission signal from the other system (91A). In DSBA, 91A and 9
1B is compared and a mismatch signal (CMPERR-N) is asserted.

【0062】図10の場合は、PMCUの信号の同期ず
れであり、CPUの別の原因で同期ずれを起こしてお
り、PMCUから切り離し要求が出されている可能性が
ある。そこで、しばらく切り離しを待って、切り離しが
行われなければ、DSBAが改めて切り離し要求を出す
(94A)。
In the case of FIG. 10, there is a possibility that the signal of the PMCU is out of sync, and the CPU is out of sync due to another cause, and there is a possibility that a disconnection request has been issued from the PMCU. Therefore, after waiting for disconnection for a while, if the disconnection is not performed, DSBA issues a disconnection request again (94A).

【0063】図11は、DSBAからのバス使用要求信
号が、B系からは正常に出力されたが、B系から出力さ
れなかった場合を示している。DSBAからのバス使用
要求信号(PBREQB−N)は、DSBA間インタフェイス6
0を介して、1サイクルかけて二つのDSBA間で渡さ
れる(92B)。自系のDSBA内では、他系からのバ
ス使用許可信号と位相をあわせるために内部でさらにラ
ッチする(92A)。DSBAでは、92Aと92Bを
比較して不一致信号(910)をアサートし、切り離し
要求を出す(94A)。上記切り離し要求は、PXI7
Aに伝えられて、最終的な切り離し信号を生成する。
FIG. 11 shows a case where the bus use request signal from the DSBA is normally output from the B system but not from the B system. The bus use request signal (PBREQB-N) from the DSBA is the interface 6 between the DSBAs.
It is passed between two DSBAs via 0 through one cycle (92B). In the DSBA of the own system, it is further latched internally to match the phase with the bus use permission signal from the other system (92A). In DSBA, 92A and 92B are compared, a mismatch signal (910) is asserted, and a disconnection request is issued (94A). The disconnection request is PXI7.
It is passed to A to generate the final disconnect signal.

【0064】(d)プロセッサ間インタフェイス制御装
置(PXI):図12(a)に切り離し信号を生成する
PXI7Aの構成を示す。PXIは、各系にあるが、全
く同じ構成なのでここでは、A系のPXIについて説明
する。94Aは、自系のDSBAから出される他系CP
Uブロックの切り離し要求信号である。57は、他系の
PXIとのインタフェイス信号であり、LXDISCONREQA−
N は、A系からのB系切り離し要求、LXDISCONREQB−N
は、B系からのA系切り離し要求、LXDISCONA−Nは、A
系からのB系切り離し指示、LXDISCONB−Nは、B系から
のA系切り離し指示である。65は、LXDISCONB−Nをラ
ッチで受けて、タイミング調整した自系CPUブロック
の切り離し指示信号であり、DSBAの出力ゲートを閉
じることによって自系をDSバスから切り離す。121
は、論理和素子である。
(D) Interprocessor interface control device (PXI): FIG. 12A shows the configuration of the PXI7A for generating the disconnection signal. Although the PXI is present in each system, it has exactly the same configuration, so the PXI of the A system will be described here. 94A is another system CP issued from own system DSBA
This is a U block disconnection request signal. 57 is an interface signal with the PXI of the other system, LXDISCONREQA-
N is a request to disconnect the B system from the A system, LXDISCONREQB-N
Is a request to disconnect the A system from the B system, and LXDISCONA-N is A
B system disconnection instruction from system, LXDISCONB-N is A system disconnection instruction from B system. Reference numeral 65 denotes a disconnection instruction signal of the own system CPU block whose timing is adjusted by receiving LXDISCONB-N by a latch, and disconnects the own system from the DS bus by closing the output gate of the DSBA. 121
Is an OR element.

【0065】122は、自系のCPUの状態を保持する
状態レジスタである。状態としては、図13に示す6つ
の状態(NONE,INIT,READY,COPY,ON
LN,DISCON)がある。120は、どちらの系を切り離
すかを判定する切り離し判定回路である。エラーは、同
時に2箇所で発生したり、既に片系が切り離されている
ときに残存系でエラーが発生する事があるため、切り離
し要求を受けてそのまま切り離し指示を出すと両系切り
離しという致命的な状態になる場合がある。そこで、切
り離し判定回路120で切り離してよいかのネゴシエー
ションを行ってからA系からのB系切り離し指示LXDISC
ONA124をアサートする。
Reference numeral 122 is a status register for holding the status of the CPU of its own system. As the states, the six states shown in FIG. 13 (NONE, INIT, READY, COPY, ON
LN, DISCON). A disconnection determination circuit 120 determines which system is to be disconnected. An error may occur at two locations at the same time, or an error may occur in the remaining system when one system has already been disconnected. Therefore, if a disconnection request is issued and a disconnection instruction is issued as is, a fatal disconnection of both systems will occur. It may be in a different state. Therefore, the disconnection determination circuit 120 negotiates whether the disconnection may be performed, and then the B system disconnection instruction LXDISC from the A system.
Assert ONA124.

【0066】図12(b)に切り離し判定回路120の
判定論理を示す。即ち、自系がオンライン状態であっ
て、自系への切り離し要求がなくかつ他系への切り離し
要求が自系CPUから出されているときにのみ、LXDISC
ONA124がアサートされる。
FIG. 12B shows the decision logic of the disconnection decision circuit 120. That is, only when the own system is online, there is no disconnection request to the own system, and the disconnection request to another system is issued from the own system CPU, LXDISC
ONA124 is asserted.

【0067】(e)CPU動作モード:図13にCPU
の状態を示す。状態としては、図13に示す6つの状態
(NONE,INIT,READY,COPY,ONLN,
DISCON)がある。NONEは、未実装状態またはクロッ
ク停止であり、全く動作していない状態である。INIT
は、CPUの初期化中であり、他系とは非同期に自CP
Uの初期化処理を実行している状態である。READY
は、メモリコピー開始待ち状態である。メモリコピーに
ついては、後述する。COPYは、メモリコピー中であ
り、他系からのメモリコピーを受けてメモリ一致化処理
を行っている状態である。ONLNは、システムに組み
込まれて正常に動作している状態である。DISCONは、他
系によって切り離し指示が出されている状態である。
(E) CPU operation mode: CPU in FIG.
Indicates the state of. As the states, the six states shown in FIG. 13 (NONE, INIT, READY, COPY, ONLN,
DISCON). NONE is a non-mounted state or a clock stopped state, and is a state in which no operation is performed. INIT
Is in the process of initializing the CPU, and the CP itself is asynchronous with other systems.
This is a state in which the U initialization process is being executed. READY
Is in a memory copy start waiting state. The memory copy will be described later. COPY is a state in which a memory copy is being performed, and a memory matching process is performed by receiving a memory copy from another system. ONLN is in a state of being incorporated in the system and operating normally. DISCON is a state where a disconnection instruction is issued by another system.

【0068】初期復電時の状態は、NONEであり、C
PUの初期化処理を行った後にONLN状態になる。一方、
二重化同期動作状態からエラー発生によって、切り離さ
れた後再投入された場合には、CPUの初期化処理を行
った後に正常系のCPUからのメモリの複写開始待ち状
態になる。その後、実際に正常系のCPUからのメモリ
の複写を受けるCOPY状態になり、複写が終了すると
ONLN状態となって二重化同期運転状態に復旧する。
The state at the time of initial power recovery is NONE, and C
After the PU initialization process, the state becomes ONLN. on the other hand,
In the case where the redundant synchronous operation state is separated and then turned on again due to an error occurrence, the CPU is initialized, and then a waiting state for starting the copying of the memory from the normal CPU is entered. After that, the copying state of the memory from the CPU of the normal system is actually entered, and when the copying is completed, the ONLN state is entered and the duplex synchronous operation state is restored.

【0069】(f)動作説明:次に、本実施例で示す高
信頼計算機の代表的な動作について説明する。
(F) Description of Operation: Next, a typical operation of the highly reliable computer shown in this embodiment will be described.

【0070】(イ)正常時の動作: (1)IOバスアクセスを伴わない時 IOバスアクセスを伴わずプロセッサとメモリだけでプ
ログラム実行が行われる時には、二つのCPUは、同じ
プログラムを同じ順序で同期しつつも独立して実行す
る。
(A) Normal operation: (1) When no IO bus access is involved When two programs are executed only by the processor and memory without IO bus access, the two CPUs execute the same program in the same order. Execute independently while synchronizing.

【0071】(2)IOアクセスを伴う時 図14に示すようにIOアクセス起動時には、二つのC
PUから同じIOに対するアクセスが同時に出力され
る。DSBA(図7で示すプライマリとセカンダリのD
SBA)は、これを受けて、プライマリDSBA側のア
クセスだけを入出力バスあるいは入出力装置に伝える
(140,141)。IOからの応答は、プライマリと
セカンダリのDSBAが受けて、二つのCPUに同時に
同じ応答を返す(142,143)。ここでは、CPU
をアクセス元としたが、入出力バスあるいは入出力装置
がアクセス元となるDMA(ダイレクトメモリアクセ
ス)の時は、図14の起動と応答が逆になるだけであ
る。つまり、同期運転をしている二つのCPUと1つの
入出力バスあるいは入出力装置をDSBAで接続し、C
PUからのアクセスをDSBAで選択し、入出力バスあ
るいは入出力装置からのアクセスを二つのCPUに分配
する事によって、IOを伴ってもCPUの二重化同期運
転を続けることができる。
(2) When accompanied by IO access As shown in FIG. 14, when the IO access is started, two C
Accesses to the same IO are simultaneously output from the PU. DSBA (Primary and Secondary D shown in FIG. 7)
In response to this, the SBA) transmits only the access on the primary DSBA side to the input / output bus or the input / output device (140, 141). The response from the IO is received by the primary and secondary DSBAs and returns the same response to the two CPUs at the same time (142, 143). Here, CPU
However, when the input / output bus or the input / output device is the access source, DMA (direct memory access) only causes the activation and response in FIG. 14 to be reversed. In other words, two CPUs operating in synchronization with one input / output bus or input / output device are connected by DSBA, and C
By selecting the access from the PU by the DSBA and distributing the access from the input / output bus or the input / output device to the two CPUs, the duplex synchronous operation of the CPUs can be continued even with the IO.

【0072】(ロ)CPU障害時の動作:障害時の動作
として(1)エラーの検出、(2)障害ブロックの切り
離し、(3)障害ブロックの交換、(4)交換ブロック
の再投入、のステップが必要なので、このステップに従
って説明する。
(B) CPU failure operation: (1) error detection, (2) failure block disconnection, (3) failure block replacement, and (4) replacement block re-input as failures operation Since steps are required, the steps will be described.

【0073】(1)エラー検出 パリティチェックなど様々なエラー検出手段が考えられ
ているが、本発明ではエラー検出できることが重要であ
りどのような手段を用いるかは問題でない。従ってここ
では、片系のメモリでパリティエラーが発生した場合を
考える。
(1) Error Detection Various error detection means such as parity check have been considered, but it is important in the present invention that error detection is possible, and it does not matter what kind of means is used. Therefore, here, consider the case where a parity error occurs in one-sided memory.

【0074】(2)障害ブロックの切り離し エラーの発生がPXIに報告されるとPXIは、300
ns程度の非常に短い時間でエラーが発生したCPUブ
ロックに対して切り離し指示信号65を出す。DSBA
は、切り離し指示信号65に従って出力ゲートを閉じて
CPUブロックを入出力バスから切り離す。これによっ
て図15に示すようにIOアクセス起動時には、正常系
のDSBA(ライマリとセカンダリに関係無く)のアク
セスだけが入出力バスあるいは入出力装置に伝えられる
(144)。IOからの応答は、正常系のDSBA(ラ
イマリとセカンダリに関係無く)が受けて、正常なCP
Uにのみ応答を返す(145)。ここでは、CPUをア
クセス元としたが、入出力バスあるいは入出力装置がア
クセス元となるDMA(ダイレクトメモリアクセス)の
時は、図15の起動と応答が逆になるだけである。
(2) Disconnection of faulty block When an error is reported to the PXI, the PXI becomes 300
The disconnection instruction signal 65 is issued to the CPU block in which the error has occurred in a very short time of about ns. DSBA
Closes the output gate according to the disconnection instruction signal 65 to disconnect the CPU block from the input / output bus. As a result, as shown in FIG. 15, when the IO access is activated, only normal DSBA access (regardless of primary and secondary) is transmitted to the input / output bus or input / output device (144). The response from IO is received by the normal system DSBA (regardless of primary and secondary), and the normal CP
A response is returned only to U (145). Here, the CPU is used as the access source, but in the case of DMA (direct memory access) in which the input / output bus or the input / output device is the access source, the activation and response in FIG. 15 are only reversed.

【0075】(3)障害CPUの交換 エラーが、回復不可能な永久故障による場合には、CP
Uの交換が必要となる。この交換は、正常系でオンライ
ン業務を実行中に行うので、CPUのオンライン挿抜と
呼ぶことにする。図16にCPUのオンライン挿抜手順
を示す。図2のCPU−BOXには、図16(a)に示す
オンライン挿抜用パネルがある。160は、抜去要求ス
イッチでありシステム対して、当該CPUを抜去したい
意志を正常系のCPUに伝える。161は、抜去許可ラ
ンプであり、正常系のCPUが抜去要求のあったCPU
を抜去してよいときに赤色点灯する。162は、CPU
−BOXの電源スイッチであり、抜去許可状態の時のみ
有効である。163は、CPU−BOXを固定するため
のメカニカルキーであり、鍵を持たない作業者が誤って
抜去することを防止する。
(3) Replacement of faulty CPU If the error is due to an unrecoverable permanent failure, CP
U must be replaced. Since this exchange is performed while the online work is being executed in the normal system, it will be called online insertion / removal of the CPU. FIG. 16 shows a CPU online insertion / removal procedure. The CPU-BOX in FIG. 2 has an online insertion / extraction panel shown in FIG. 16 (a). Reference numeral 160 denotes a removal request switch, which informs the system of the intention to remove the CPU to the normal CPU. Reference numeral 161 denotes a removal permission lamp, and a CPU of a normal system has a removal request.
Lights red when you can remove. 162 is a CPU
-BOX power switch, valid only when removal is permitted. Reference numeral 163 denotes a mechanical key for fixing the CPU-BOX, which prevents an operator who does not have the key from accidentally removing it.

【0076】抜去時の手順を図16(b)のフローチャ
ートに示す。まず作業者は、抜去要求スイッチをオンし
てから抜去許可ランプが赤色点灯するまで待つ。そして
点灯したら、電源を切った後に抜去する。次に交換CP
U−BOXを挿入する場合は図16(c)のフローのよ
うに、抜去要求スイッチがオフしていることを確認して
挿入後に電源を入れる。
The procedure for removal is shown in the flowchart of FIG. 16 (b). First, the operator turns on the removal request switch and then waits until the removal permission lamp lights up in red. When it lights up, turn off the power and then remove it. Next exchange CP
When inserting the U-BOX, as shown in the flow of FIG. 16C, after confirming that the removal request switch is off, turn on the power after insertion.

【0077】(4)交換CPUの再投入 交換CPU−BOXは、復電後、図13に示す様にCP
Uの初期化処理を行った後に正常系のCPUからのメモ
リの複写開始待ち状態になる。その後、実際に正常系の
CPUからのメモリの複写を受けるCOPY状態とな
る。正常系のCPUは、交換CPUがCOPY状態にな
ると、メモリコピープログラムを生成して全てのメモリ
を走査する。
(4) Reintroduction of the replacement CPU The replacement CPU-BOX has a CP as shown in FIG. 13 after power recovery.
After the initialization process of U is performed, a state of waiting for the start of copying the memory from the normal CPU is started. After that, the COPY state is reached in which the memory is actually copied from the normal CPU. When the replacement CPU is in the COPY state, the normal CPU generates a memory copy program and scans all the memories.

【0078】図17にメモリコピー時のデータの流れを
示す。プロセッサからメモリにアクセス(170)があ
るとPMCU内のメモリアクセスモニタ45がメモリア
クセスのアドレスとデータを盗みとってDSバス経由で
交換CPU−BOXのメモリに書き込む(171)。こ
の時のプロセッサからメモリにアクセスとしては、メモ
リコピープログラムがメモリを走査するときに発生する
ものとそれ以外のオンライン業務用のプログラムが発生
せるものがあるが、いずれの場合もメモリコピー動作と
しては同じ様に扱う。
FIG. 17 shows a data flow at the time of memory copy. When the memory is accessed from the processor (170), the memory access monitor 45 in the PMCU steals the memory access address and data and writes it in the memory of the exchange CPU-BOX via the DS bus (171). There are two types of memory access from the processor at this time: those that occur when the memory copy program scans the memory and those that generate other online business programs. In either case, the memory copy operation is Treat in the same way.

【0079】一方、メモリコピー中に発生するDMAラ
イトアクセス(172)も同様にメモリアクセスモニタ
45がメモリアクセスのアドレスとデータを盗みとって
DSバス経由で交換CPU−BOXのメモリに書き込む
(173)。つまり、メモリコピープログラムで全ての
メモリを走査して、正常系のCPUのメモリ内容を交換
CPUのメモリに複写しつつ、この間に行われる通常プ
ログラムによるメモリ更新やDMAによるメモリ更新を
も全て交換CPUのメモリに反映することによって、メ
モリコピープログラムのメモリ走査が完了したときに
は、二つのメモリの内容は完全に一致している事にな
る。
On the other hand, in the DMA write access (172) which occurs during memory copy, the memory access monitor 45 also steals the memory access address and data and writes it in the memory of the exchange CPU-BOX via the DS bus (173). . That is, all the memories are scanned by the memory copy program to copy the memory contents of the normal CPU to the memory of the exchange CPU, and the memory update by the normal program and the memory update by the DMA performed during this period are all exchange CPUs. When the memory scanning of the memory copy program is completed, the contents of the two memories are completely matched by reflecting them in the memory of.

【0080】しかしこのままでは、プロセッサの内部状
態が一致していないので、二つのCPUを同時にリセッ
トして全く同じ動作を開始させる。これによって、再び
二重化同期運転状態に復旧できる。
However, in this state, since the internal states of the processors do not match, the two CPUs are reset at the same time and the same operation is started. As a result, the duplex synchronous operation state can be restored again.

【0081】[0081]

【発明の効果】本発明によれば、CPUのような非常に
高速で高度な実装技術が要求される部分に二重化制御装
置を設けるのでなく、入出力装置との接続部分にDSB
Aを設けることで、容易にかつ安価に高信頼性を実現で
きる。つまり、ハードウエアの1点障害が発生しても当
該障害部分を切り離して、処理を続行することによりノ
ンストップ運転を実現できる。またオンライン業務実行
中に障害部位を交換することができるため、ノーダウン
運転を実現できる。
According to the present invention, the redundant control device is not provided in a portion such as a CPU that requires a very high speed and a high level of mounting technology, but a DSB is provided in a connecting portion with an input / output device.
By providing A, high reliability can be easily realized at low cost. That is, even if a hardware one-point failure occurs, the non-stop operation can be realized by separating the failure part and continuing the processing. Further, since the faulty part can be exchanged during the execution of the online work, no-down operation can be realized.

【図面の簡単な説明】[Brief description of drawings]

【図1】高信頼計算機の全体構成図である。FIG. 1 is an overall configuration diagram of a highly reliable computer.

【図2】装置外観図である。FIG. 2 is an external view of the device.

【図3】概略構成図である。FIG. 3 is a schematic configuration diagram.

【図4】PMCUの構成図である。FIG. 4 is a configuration diagram of a PMCU.

【図5】クロック給電図である。FIG. 5 is a clock power supply diagram.

【図6】DSBA間インタフェイスの図である。FIG. 6 is a diagram of an interface between DSBAs.

【図7】DSBAの構成図である。FIG. 7 is a block diagram of DSBA.

【図8】DSBA出力ゲート制御回路の図である。FIG. 8 is a diagram of a DSBA output gate control circuit.

【図9】切り離し要求生成回路の図である。FIG. 9 is a diagram of a disconnection request generation circuit.

【図10】同期ずれ検出時のタイムチャートの図であ
る。
FIG. 10 is a diagram of a time chart when synchronization deviation is detected.

【図11】同期ずれ検出時のタイムチャートの図であ
る。
FIG. 11 is a diagram of a time chart when synchronization deviation is detected.

【図12】切り離し判定手段の図である。FIG. 12 is a diagram of separation determination means.

【図13】CPUブロックの動作モードの図である。FIG. 13 is a diagram of an operation mode of a CPU block.

【図14】正常時のIOアクセス動作の図である。FIG. 14 is a diagram of an IO access operation under normal conditions.

【図15】CPU障害時のIOアクセス動作の図であ
る。
FIG. 15 is a diagram of an IO access operation when a CPU fails.

【図16】オンライン挿抜手順の図である。FIG. 16 is a diagram of an online insertion / extraction procedure.

【図17】メモリコピー時のデータの流れの図である。FIG. 17 is a diagram showing the flow of data during memory copy.

【符号の説明】[Explanation of symbols]

3A,3B,4A,4B…プロセッサ、5A,5B…メ
モリ、6A,6B…プロセッサメモリ制御ユニット、9
A…システムバス、11A,11B,12A,12B,
13A,13B,14A,14B…多重システムバスア
ダプタ、16…バススイッチ、20A,20B,21
A,21B…入出力バスアダプタ。
3A, 3B, 4A, 4B ... Processor, 5A, 5B ... Memory, 6A, 6B ... Processor memory control unit, 9
A ... system bus, 11A, 11B, 12A, 12B,
13A, 13B, 14A, 14B ... Multiple system bus adapter, 16 ... Bus switch, 20A, 20B, 21
A, 21B ... Input / output bus adapter.

───────────────────────────────────────────────────── フロントページの続き (72)発明者 宮崎 義弘 茨城県日立市大みか町五丁目2番1号 株 式会社日立製作所大みか工場内 (72)発明者 日向 一弘 茨城県日立市大みか町五丁目2番1号 株 式会社日立製作所大みか工場内 (72)発明者 石川 佐孝 神奈川県海老名市下今泉810番地 株式会 社日立製作所オフィスシステム事業部内 (72)発明者 大黒 浩 神奈川県海老名市下今泉810番地 株式会 社日立製作所オフィスシステム事業部内 ─────────────────────────────────────────────────── ─── Continuation of front page (72) Inventor Yoshihiro Miyazaki 5-2-1 Omika-cho, Hitachi City, Ibaraki Prefecture Hitachi Ltd. Omika Plant, Ltd. (72) Inventor Kazuhiro Hinata 5-chome, Omika-cho, Hitachi City, Ibaraki Prefecture No. 1 Incorporated company Hitachi Ltd. Omika factory (72) Inventor Sataka Ishikawa 810 Shimoimaizumi, Ebina City, Kanagawa Prefecture Incorporated company Hitachi Ltd. Office Systems Division (72) Inventor Hiroshi Oguro 810 Shimoimazumi, Ebina City, Kanagawa Prefecture Stock Company Hitachi, Ltd. Office Systems Division

Claims (13)

【特許請求の範囲】[Claims] 【請求項1】プログラム及びデータを格納する第一のメ
モリと該メモリからプログラム及びデータを取り出して
これを処理する第一のデータ処理装置を有する第一のデ
ータ処理ブロックと,プログラム及びデータを格納する
第二のメモリと該メモリからプログラム及びデータを取
り出してこれを処理する第二のデータ処理装置を有する
第二のデータ処理ブロックと,第一及び第二のデータ処
理ブロックにクロック及びリセット信号を供給するクロ
ック手段と,第一及び第二のデータ処理ブロックの指定
により処理結果を格納あるいは外部に送出する入出力装
置と,第一及び第二のデータ処理ブロックと該入出力装
置に接続される二重化制御手段と,第一及び第二のデー
タ処理ブロックに接続される第一のブロック間通信手段
と第二のブロック間通信手段を具備することを特徴とす
る二重化処理装置を有する高信頼化コンピュータ。
1. A first data processing block having a first memory for storing a program and data, a first data processing device for fetching the program and data from the memory and processing the same, and storing the program and data. A second data processing block having a second memory and a second data processing device for fetching a program and data from the memory and processing the program and data, and a clock and a reset signal to the first and second data processing blocks. A clock means to be supplied, an input / output device for storing or sending a processing result to the outside according to designation of the first and second data processing blocks, a first and second data processing block and connected to the input / output device. Duplication control means, first inter-block communication means and second block connected to the first and second data processing blocks Reliable computer having a dual processing apparatus characterized by comprising communications means.
【請求項2】プログラム及びデータを格納する第一のメ
モリと該メモリからプログラム及びデータを取り出して
これを処理する第一のデータ処理装置を有する第一のデ
ータ処理ブロックと,プログラム及びデータを格納する
第二のメモリと該メモリからプログラム及びデータを取
り出してこれを処理する第二のデータ処理装置を有する
第二のデータ処理ブロックと,第一及び第二のデータ処
理ブロックにクロック及びリセット信号を供給するクロ
ック手段と,第一及び第二のデータ処理ブロックの指定
により処理結果を格納あるいは外部に送出する第一の入
出力装置と,第一及び第二のデータ処理ブロックと該入
出力装置に接続される第一の二重化制御手段と,第一及
び第二のデータ処理ブロックの指定により処理結果を格
納あるいは外部に送出する第一の入出力装置と同一構成
の第二の入出力装置と,第一及び第二のデータ処理ブロ
ックと該入出力装置に接続される第二の二重化制御手段
と,第一及び第二のデータ処理ブロックに接続される第
一のブロック間通信手段と第二のブロック間通信手段を
具備することを特徴とする二重化処理装置を有する高信
頼化コンピュータ。
2. A first data processing block having a first memory for storing a program and data and a first data processing device for fetching the program and data from the memory and processing the same, and storing the program and data. A second data processing block having a second memory and a second data processing device for fetching a program and data from the memory and processing the program and data, and a clock and a reset signal to the first and second data processing blocks. A clock means for supplying, a first input / output device for storing or sending a processing result to the outside according to designation of the first and second data processing blocks, a first and second data processing block and the input / output device. The processing result is stored or externally specified by the first redundant control means to be connected and the designation of the first and second data processing blocks. A second input / output device having the same configuration as that of the first input / output device to be output, first and second data processing blocks, second duplication control means connected to the input / output device, first and second A high reliability computer having a duplexing processing device, comprising a first inter-block communication means and a second inter-block communication means connected to two data processing blocks.
【請求項3】請求項1および請求項2に記載の高信頼化
コンピュータにおいて、前記二重化制御手段は、前記第
一または第二のデータ処理ブロックからの出力指示を選
択して該入出力装置に伝え、該入出力装置からの応答を
該第一及び第二のデータ処理ブロックに伝えることを特
徴とする二重化処理装置を有する高信頼化コンピュー
タ。
3. The high reliability computer according to claim 1 or 2, wherein said duplexing control means selects an output instruction from said first or second data processing block and outputs it to said input / output device. A high-reliability computer having a duplexing processing device, characterized by transmitting the response from the input / output device to the first and second data processing blocks.
【請求項4】請求項1および請求項2に記載の高信頼化
コンピュータにおいて、前記二重化制御手段は、該入出
力装置からのメモリアクセスを前記第一及び第二のデー
タ処理ブロック内のメモリに伝え、該第一または第二の
データ処理ブロックからのメモリアクセス応答を選択し
て該入出力装置に伝えることを特徴とする二重化処理装
置を有する高信頼化コンピュータ。
4. The high reliability computer according to claim 1 or 2, wherein the duplexing control means causes a memory access from the input / output device to a memory in the first and second data processing blocks. A high-reliability computer having a duplexing processing device, characterized in that a memory access response from the first or second data processing block is selected and transmitted to the input / output device.
【請求項5】請求項1および請求項2に記載の高信頼化
コンピュータにおいて、前記クロック供給手段は、前記
第一及び第二のデータ処理ブロック及び前記二重化制御
手段に同一周波数かつ同一位相のクロックを供給するこ
とを特徴とするを二重化処理装置を有する高信頼化コン
ピュータ。
5. The high reliability computer according to claim 1 or 2, wherein said clock supply means is a clock having the same frequency and the same phase for said first and second data processing blocks and said duplex control means. A high-reliability computer having a redundant processing device.
【請求項6】請求項1および請求項2に記載の高信頼化
コンピュータにおいて、前記二重化制御手段は、前記第
一のデータ処理ブロックと入出力バスに接続される主制
御手段と,該第二のデータ処理ブロックと該入出力バス
に接続される従制御手段より成り、該主制御手段が該入
出力バスに起動信号を送出し、主及び従制御手段が該入
出力バスからの起動信号を受けることを特徴とする二重
化処理装置を有する高信頼化コンピュータ。
6. The high reliability computer according to claim 1 or 2, wherein said duplex control means is a main control means connected to said first data processing block and an input / output bus, and said second control means. Data processing block and slave control means connected to the input / output bus, the main control means sending a start signal to the input / output bus, and the main and slave control means sending a start signal from the input / output bus. A high-reliability computer having a duplex processing device characterized by receiving.
【請求項7】請求項1記載の高信頼化コンピュータにお
いて、前記第一のデータ処理装置は、メモリからプログ
ラム及びデータを取り出してこれを処理する主プロセッ
サと,該主プロセッサと同一クロックを使用し、同期し
て同じプログラムを実行しつつもメモリへのデータ書き
込みは行わない従プロセッサと、該主及び従プロセッサ
に接続され、該主プロセッサが外部アクセスを行ったと
き、該主及び従プロセッサの出力データを比較する比較
手段を持ったことを特徴とする二重化処理装置を有する
高信頼化コンピュータ。
7. The high reliability computer according to claim 1, wherein the first data processing device uses a main processor that retrieves a program and data from a memory and processes the program and data, and the same clock as the main processor. , A slave processor that executes the same program synchronously, but does not write data to the memory, and an output of the master and slave processors when connected to the master and slave processors and the master processor makes an external access A highly reliable computer having a duplication processing device, characterized by having a comparison means for comparing data.
【請求項8】請求項1および請求項2に記載の高信頼化
コンピュータにおいて、前記第一のデータ処理装置は、
該データ処理装置内で発生するエラーを検出する第一の
エラー検出手段を有し、該エラー検出手段がエラーを検
出したときには該データ処理装置を前記二重化制御手段
から切り離すための第一の切り離し要求を前記第一及び
第二のブロック間通信手段に発し、前記第二のデータ処
理装置は、該データ処理装置内で発生するエラーを検出
する第二のエラー検出手段を有し、該エラー検出手段が
エラーを検出したときには該データ処理装置を該二重化
制御手段から切り離すための第二の切り離し要求を第二
のブロック間通信手段に発し、第一のブロック間通信手
段は、第一の切り離し要求が無く第二の切り離し要求が
あったときに二重化制御手段に対して第二のデータ処理
装置を二重化制御手段から切り離す第二の切り離し指示
を発し、第二のブロック間通信手段は、第一の切り離し
要求があり第二の切り離し要求が無かったときに二重化
制御手段に対して第一のデータ処理装置を二重化制御手
段から切り離す第一の切り離し指示を発することを特徴
とする二重化処理装置を有する高信頼化コンピュータ。
8. The high reliability computer according to claim 1 or 2, wherein the first data processing device comprises:
A first disconnection request for disconnecting the data processing device from the duplication control device when the error detection device detects an error. To the first and second inter-block communication means, and the second data processing device has a second error detecting device for detecting an error occurring in the data processing device. When it detects an error, it issues a second disconnection request to the second inter-block communication means for disconnecting the data processing device from the duplication control means, and the first inter-block communication means sends the first disconnection request. When there is a second disconnection request without a request, a second disconnection instruction for disconnecting the second data processing device from the redundant control means is issued to the redundant control means, and a second block is issued. The inter-cook communication means issues a first disconnection instruction to disconnect the first data processing device from the redundant control means to the redundant control means when there is a first disconnect request and no second disconnect request. A high-reliability computer having a dual processing device.
【請求項9】請求項5記載の高信頼化コンピュータにお
いて、前記主制御装置手段は、切り離し指示に応じて入
出力バスへの起動信号送出を抑止し、前記従制御手段
は、切り離し指示に応じて主制御装置手段に替わって入
出力バスへの起動信号送出を開始することを特徴とする
二重化処理装置を有する高信頼化コンピュータ。
9. The high reliability computer according to claim 5, wherein said main controller means inhibits sending of a start signal to an input / output bus in response to a disconnection instruction, and said slave control means responds to a disconnection instruction. A high-reliability computer having a duplex processing device, characterized in that start signal transmission to the input / output bus is started in place of the main controller means.
【請求項10】請求項2記載の高信頼化コンピュータに
おいて、前記第一および第二の二重化制御手段と前記第
一および第二の入出力装置は、独立したアドレスを有
し、第一および第二のメモりに、いずれの二重化制御装
置と入出力装置が正常かを示す状態情報を具備すること
を特徴とする二重化処理装置を有する高信頼化コンピュ
ータ。
10. The high reliability computer according to claim 2, wherein the first and second duplex control means and the first and second input / output devices have independent addresses, and the first and second A second aspect of the present invention is a high reliability computer having a dual processing device, which is provided with status information indicating which one of the redundant control device and the input / output device is normal.
【請求項11】請求項10記載の高信頼化コンピュータ
において、前記状態情報が第一の二重化制御手段と第一
の入出力装置が正常であることを示していれば、第一の
二重化制御手段と第一の入出力装置を使用し、該状態情
報が第二の二重化制御手段と第二の入出力装置が正常で
あることを示していれば、第二の二重化制御手段と第二
の入出力装置を使用することを特徴とする二重化処理装
置を有する高信頼化コンピュータ。
11. The high reliability computer according to claim 10, wherein if the status information indicates that the first redundant control means and the first input / output device are normal, the first redundant control means. If the status information indicates that the second redundant control means and the second input / output device are normal, the second redundant control means and the second input / output device are used. A high-reliability computer having a duplex processing device characterized by using an output device.
【請求項12】請求項2記載の高信頼化コンピュータに
おいて、前記第一および第二の二重化制御手段と前記第
一および第二の入出力装置は、独立したアドレスを有
し、第二の二重化制御手段は、第一の入出力装置に対す
るアドレスをも受信し、該アドレスを第二の入出力装置
のアドレスに変換して、第二の入出力装置の送信する機
能を有し、該機能を有効とするか否かの設定手段を具備
することを特徴とする二重化処理装置を有する高信頼化
コンピュータ。
12. The high reliability computer according to claim 2, wherein the first and second redundant control means and the first and second input / output devices have independent addresses, and the second redundant controller is provided. The control means also has a function of receiving an address for the first input / output device, converting the address into an address of the second input / output device, and transmitting the second input / output device. A high-reliability computer having a duplexing processing device, characterized in that it is provided with a setting means for determining whether or not it is valid.
【請求項13】請求項12記載の高信頼化コンピュータ
において、前記設定手段は、第一の入出力装置が故障し
たとき有効に設定されることを特徴とする二重化処理装
置を有する高信頼化コンピュータ。
13. The high reliability computer according to claim 12, wherein the setting means is set to be effective when the first input / output device fails. .
JP7002390A 1995-01-11 1995-01-11 High-reliability computer with dual processors Pending JPH08190494A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7002390A JPH08190494A (en) 1995-01-11 1995-01-11 High-reliability computer with dual processors

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7002390A JPH08190494A (en) 1995-01-11 1995-01-11 High-reliability computer with dual processors

Publications (1)

Publication Number Publication Date
JPH08190494A true JPH08190494A (en) 1996-07-23

Family

ID=11527915

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7002390A Pending JPH08190494A (en) 1995-01-11 1995-01-11 High-reliability computer with dual processors

Country Status (1)

Country Link
JP (1) JPH08190494A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1703401A2 (en) 2005-03-17 2006-09-20 Fujitsu Limited Information processing apparatus and control method therefor
JPWO2005066745A1 (en) * 2004-01-06 2007-12-20 株式会社ゼンテック・テクノロジー・ジャパン Bus share adapter
US7500139B2 (en) 2004-12-21 2009-03-03 Nec Corporation Securing time for identifying cause of asynchronism in fault-tolerant computer

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2005066745A1 (en) * 2004-01-06 2007-12-20 株式会社ゼンテック・テクノロジー・ジャパン Bus share adapter
JP4723381B2 (en) * 2004-01-06 2011-07-13 dブロード株式会社 SDIO card device with bus share adapter function
US7500139B2 (en) 2004-12-21 2009-03-03 Nec Corporation Securing time for identifying cause of asynchronism in fault-tolerant computer
EP1703401A2 (en) 2005-03-17 2006-09-20 Fujitsu Limited Information processing apparatus and control method therefor
US7802138B2 (en) 2005-03-17 2010-09-21 Fujitsu Limited Control method for information processing apparatus, information processing apparatus, control program for information processing system and redundant comprisal control apparatus

Similar Documents

Publication Publication Date Title
US5005174A (en) Dual zone, fault tolerant computer system with error checking in I/O writes
US5249187A (en) Dual rail processors with error checking on I/O reads
US5099485A (en) Fault tolerant computer systems with fault isolation and repair
US4916704A (en) Interface of non-fault tolerant components to fault tolerant system
EP0306209B1 (en) Dual rail processors with error checking at single rail interfaces
EP0731945B1 (en) Fault resilient/fault tolerant computing
US6349391B1 (en) Redundant clock system and method for use in a computer
US5901281A (en) Processing unit for a computer and a computer system incorporating such a processing unit
US5495570A (en) Mirrored memory multi-processor system
JP3206006B2 (en) Duplex bus control method and device
JP3595033B2 (en) Highly reliable computer system
US7441150B2 (en) Fault tolerant computer system and interrupt control method for the same
JPH03182939A (en) Error processing of software
JPH03184130A (en) Error processing of software
JPH03232045A (en) Protocol for transferring dma data
JPH03184129A (en) Conversion of specified data to system data
KR100258079B1 (en) The duplicated device by extention of memory bus in a tightly coupled fault tolerance system
JP3329986B2 (en) Multiprocessor system
JP3069585B2 (en) Targeted reset method in data processing equipment
JPH08190494A (en) High-reliability computer with dual processors
JPH06242979A (en) Dual computer device
JPH0916426A (en) Fault tolerant computer with two-port console
KR100198416B1 (en) Synchronization monitor circuit for duplicated control system
JPH03184155A (en) Processing of non-existence memory error
JPH09179836A (en) Multiplied computer and its fault detection processing method