JPS5932050A - Computer system - Google Patents

Computer system

Info

Publication number
JPS5932050A
JPS5932050A JP57141674A JP14167482A JPS5932050A JP S5932050 A JPS5932050 A JP S5932050A JP 57141674 A JP57141674 A JP 57141674A JP 14167482 A JP14167482 A JP 14167482A JP S5932050 A JPS5932050 A JP S5932050A
Authority
JP
Japan
Prior art keywords
computer
instruction
computers
register
address
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP57141674A
Other languages
Japanese (ja)
Other versions
JPS6248255B2 (en
Inventor
Yoshihiro Matsumoto
吉弘 松本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Tokyo Shibaura Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Tokyo Shibaura Electric Co Ltd filed Critical Toshiba Corp
Priority to JP57141674A priority Critical patent/JPS5932050A/en
Publication of JPS5932050A publication Critical patent/JPS5932050A/en
Publication of JPS6248255B2 publication Critical patent/JPS6248255B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/18Error detection or correction of the data by redundancy in hardware using passive fault-masking of the redundant circuits

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Hardware Redundancy (AREA)
  • Multi Processors (AREA)

Abstract

PURPOSE:To improve the reliability of a fault processing function for a composite computer system using plural computers, by providing a deciding function for collation, diagnosis and majority to each computer. CONSTITUTION:A computer system link (CSL)6 is provided with a device number register 7 which stores the device numbers of CSLs of other computers, an address register 9 which has a communication with an instruction register 5 via a memory bus 2 for a physical address, a data register 10 which stores the data to be exchanged with other computers, and a coincidence detecting part 8 which detects the coincidence between the value of the register 7 and that of the register 9. The CSL6 is connected to a CSL of another computer via an interface bus 11. An instruction OP of the register 5 can access freely to the local memory of another computer by a physical address PA and via the CSL6.

Description

【発明の詳細な説明】 a 技術分野 本発明は複数の計算機を用いた複合系計算機システムに
係り、任意の計算機に障害が発生したとき他の健全な計
算機がこれをバックアップして障害の影響がシステムの
全体に及ばない様に保護した耐障害形の計算機システム
に関する。
[Detailed Description of the Invention] a. Technical Field The present invention relates to a complex computer system using a plurality of computers, in which when a failure occurs in any computer, other healthy computers back it up and eliminate the effects of the failure. This invention relates to a fault-tolerant computer system that is protected so that the entire system is not affected.

b 従来技術 従来から、複数の計算機を用いた耐障害形計q。b. Conventional technology Traditionally, fault-tolerant meters q have used multiple computers.

’9. (fault tolerant syste
m )は多くの人々によって種々の構成のものが発明さ
れている。(オーム社発行、マイクロコンピュータ基礎
講座、ソの他で公知とされている。) しかし、その多くは特定の構成要素が照合機能診断機能
、障害個所判定機能を有しているため、上記特定の構成
要素に障害が発生すると全体のシステムの機能に障害を
与える欠点があった。
'9. (fault tolerant system
m) has been invented in various configurations by many people. (Published by Ohmsha, Microcomputer Fundamentals Course, etc.) However, many of them have specific components that have a verification function, diagnosis function, and failure location determination function. There is a drawback that when a failure occurs in a component, the function of the entire system is impaired.

C発明の目的 本発明の目的は、複数の計n機を用いた複合系計算機シ
ステムに於て、個々の計算1幾に照合2診[1j「と多
数決による判定1幾能を設け、耐障害処理機能の信頼性
の向上した耐障害形の計算機システムを得ることにある
CObject of the Invention The object of the present invention is to provide a multifunction computer system that uses a plurality of computers, a function that performs verification, diagnosis, and judgment by majority vote for each individual calculation, and improves fault tolerance. The object of the present invention is to obtain a fault-tolerant computer system with improved reliability of processing functions.

d 発明の概要 本発明は、渠1の割算機が命令を実行したときに前記命
令のオペランドの番地を示すアドレス信号をメモリバス
に乗せ、前記アドレス18号から第2の計嘗機を識別し
て前記第2の計9機の主記憶装置内の前記番地の記憶場
所の内容を前記命令の作用により読み出したり書き改め
たりする計算機間通イδ装置を用い゛C相互に結合され
た複数の割算機に、それぞれ同一目的のプログラムを記
憶させ、それぞれの前記プログラムの途中に排他的に実
行する照合セクションを設け、前記照合セクションの作
用により前記複数の計算機のそれぞれの計算機が他の計
#機の計算値、状態値と照合し、照合結果を更に照合し
、異常と判定したとき障害個所、システム再構成、再開
方針の判断を行い、その判断結果を照合して耐障害処理
を行うことを特徴とした計靭9機システムである。
d.Summary of the Invention The present invention provides, when the divider 1 executes an instruction, an address signal indicating the address of the operand of the instruction is placed on the memory bus, and the second divider is identified from the address No. 18. A plurality of interconnected computers are used to read out and rewrite the contents of the storage locations at the addresses in the main storage devices of the second nine computers in accordance with the action of the instructions. A program for the same purpose is stored in each of the dividing machines, and a verification section is provided in the middle of each of the programs to be executed exclusively, and each of the plurality of calculators can be used to perform other calculations by the action of the verification section. # Compare the calculated values and status values of the machine, further collate the collation results, and when it is determined that there is an abnormality, determine the location of the failure, system reconfiguration, and restart policy, and perform fault tolerance processing by collating the determination results. This is a total nine-machine system with the following characteristics.

e 発明の構成 第【図は本発明で使用される計↑フ機の1台のみを示し
た構成図である。
e. Configuration of the Invention The figure is a configuration diagram showing only one of the counting machines used in the present invention.

通常の計算機と同様にローカルメモリ(以下LMと記す
)【、プロセツザユニット(以下1) Uと記す)3、
演算装置(以下AUと記す)4、及びメモリバス2等で
構成する。AUの内部には命令レジスタ5があり、命令
の作用を指定するO P部と、その作用に関係したデー
タの格納されている物理的番地を指定するPA部に分れ
ている。
Local memory (hereinafter referred to as LM) [, processor unit (hereinafter referred to as 1), and processor unit (hereinafter referred to as U) 3.
It is composed of an arithmetic unit (hereinafter referred to as AU) 4, a memory bus 2, and the like. There is an instruction register 5 inside the AU, which is divided into an OP section that specifies the action of the instruction, and a PA section that specifies the physical address where data related to that action is stored.

壕だ、第1図は32ビット形計算機を例として示してお
り、命令レジスタ5の0〜7ビツト壕でをOP部、8〜
31ビツトをPA部としている。
Figure 1 shows a 32-bit computer as an example, and the 0 to 7 bits of instruction register 5 are the OP section, the 8 to 7 bits are
31 bits are used as the PA section.

コンピュータシステムリンク(以下C8Lと記憶)6は
本発明の構成のために特に設けた装置でその内容は既に
特願昭56−101227、同101228 、同10
1229、及び“l’08BAcシリーズ7機器説明書
770KL43A等で周知とした計算載量通信装置であ
る。即ちC3L6には他の計算機の081.のi器番号
を記憶する機器番号レジスタ7、メモリバス2を介して
レジスタ5との間で物理的番地を交信するだめのアドレ
スレジスタ9、他の計算1幾との間で交換するデータを
格納するデータレジスタ101機器番号レジスタ7とア
ドレスレジスタ9に格納した値(上位アドレス)の一致
検出を行う一致検出部8が設けである。
The computer system link (hereinafter referred to as C8L) 6 is a device specially provided for the configuration of the present invention, and its contents have already been disclosed in Japanese Patent Applications No. 56-101227, No. 101228, and No. 10122.
1229, and "l'08BAc Series 7 Equipment Manual 770KL43A, etc.".In other words, C3L6 has a device number register 7 that stores the i device number of 081. of other computers, and a memory bus. Address register 9 is used to exchange physical addresses with register 5 via 2, data register 101 is used to store data exchanged with other calculations 1, and data is stored in device number register 7 and address register 9. A coincidence detection section 8 is provided to detect coincidence of the values (upper addresses).

C3L 6はインターフェースバス11を介して他の計
算機のC8Lと接続し、命令レジスタ5の命令OPは物
理的番地F AによりC8L 5を、介して他の計算機
のローカルメモリに自由にアクセスすることができる。
The C3L 6 is connected to the C8L of another computer via the interface bus 11, and the instruction OP of the instruction register 5 can freely access the local memory of the other computer via the C8L 5 at the physical address FA. can.

第2図は3台の計算機をC8L 6−12.13,21
.23゜31.33’及びインターフェースバス11−
12.13.23を介して結合した例で完全結合方式と
称する。この方式ではn台の計算機を結合する場合にC
8Lがn(n−1)個必要となる。
Figure 2 shows three computers C8L 6-12.13, 21
.. 23°31.33' and interface bus 11-
12.13.23 is called a complete connection method. In this method, when connecting n computers, C
n(n-1) pieces of 8L are required.

v、3図)−1,3台の計算機’e CAL 6−11
−13.21〜23゜31〜33及びインターフェース
バス11−1〜3 を介して結合した他の結合例でnバ
ス結合方式と称する。
v, Figure 3)-1, 3 computers'e CAL 6-11
-13.21 to 23 degrees 31 to 33 and interface buses 11-1 to 3. Another example of connection is called an n-bus connection method.

この方式ではn台の計算機を結合する場合にCALがn
1個必要となる。またこの方式の方が後述の理由により
耐障害性は大きい。
In this method, when n computers are combined, CAL is n
One piece is required. Furthermore, this method has greater fault tolerance for reasons described later.

第4図は3台の計初、m21〜23が第2図の様に結合
されている場合の命令オペランドから細針算機の物理的
番地の割付は方を説明する図である。
FIG. 4 is a diagram illustrating how to allocate physical addresses of fine-needle calculators from instruction operands when three machines, m21 to m23, are combined as shown in FIG.

即ち同図は第1の計算機21が第2の計算機22と第3
の計算機23内のローカルメモリを参照する場合を示し
ている。
That is, in the figure, the first computer 21 is connected to the second computer 22 and the third computer 22.
The case where the local memory in the computer 23 is referred to is shown.

第一1の計算機21の内部に有する命令レジスタのFA
部24の物理的番噛’bs LMB <メガバイト)を
越えて2MB未満のときC8I、6−12内の図示しな
い一致検出部が作用して第2の計算機22のローカルメ
モリを参照する。また、命令レジスタのPAAg2O物
理的番地が2MBを越えて3.MB未満であるときはC
3L6−13内の図示しない一致検出部が作用して第3
の計算機23のローカルメモリを参照する。第4図では
C8L @ を個で表わしているが実際には前述した様
にインタフェースバスの両側には2個のC8Lが存在し
インタフェースノ(スの交信権の制御を行うCALをマ
スタC8L 、他をスレーブC8Lと称する。
FA of the instruction register inside the first computer 21
When the physical size of the part 24 exceeds the physical number 'bs LMB < megabytes) and is less than 2 MB, a match detection part (not shown) in the C8I, 6-12 operates to refer to the local memory of the second computer 22. Also, the PAAg2O physical address of the instruction register exceeds 2MB and 3. C if less than MB
A coincidence detection section (not shown) in 3L6-13 acts to detect the third
The local memory of the computer 23 is referred to. In Figure 4, each C8L @ is shown as an individual, but in reality, as mentioned above, there are two C8Ls on both sides of the interface bus, and the CAL that controls the communication rights of the interface bus is the master C8L, and the other C8Ls. is called slave C8L.

第5図は第1の計算機21が第2の計算機22のローカ
ルメモリにデータを書き込む場合の信号の流れ図であり
、第6図はそのタイミング図である。まず第1の計算機
21内部のAUが書込み要求としてCBBSYO,CM
IFO,CWRTI−10をC8I、 6−12に出す
。C8L 6−12 はアドレス情報、モード情報を取
込みAUに対して待ち要求CWA I Toを返しAU
のアクセスを待たせる。同時にマスター側のC3L6−
21 Kインタフェースバス取得要求Cl几EQOヲ出
す。要求が受付られるとバス許可信号CIENLOがC
3L5−21から返ってくる。この信号を受取ったC3
L6−12はAUから所定の時間後に再度書込要求CB
88YO,CML如FO,CWRTHOがくるとCAC
PTOをAUに返し書込要求を受付ける。続いてAUは
C8L 6−12にCDATAO信号と書込みデータを
出力し、C3L6−12はデータを受取りC3YNHO
をAUに返す。
FIG. 5 is a signal flow diagram when the first computer 21 writes data to the local memory of the second computer 22, and FIG. 6 is a timing diagram thereof. First, the AU inside the first computer 21 issues a write request to CBBSYO, CM.
IFO issues CWRTI-10 to C8I, 6-12. C8L 6-12 takes in the address information and mode information and returns a wait request CWA I To to the AU.
Wait for access. At the same time, C3L6- on the master side
21 Issues a K interface bus acquisition request CL EQO. When the request is accepted, the bus permission signal CIENLO changes to C.
Returns from 3L5-21. C3 that received this signal
L6-12 requests CB to write again after a predetermined time from AU.
88YO, CML like FO, CAC when CWRTHO comes
Returns PTO to AU and accepts write request. Next, AU outputs the CDATAO signal and write data to C8L 6-12, and C3L6-12 receives the data and sends it to C3YNHO.
is returned to the AU.

アドレスとデータをAUから受取ったC3L6−12は
C3L6−21 ’1cADRGOのタイミングでイン
タフェースバスヘアドレス情報を出力する。C3L6−
21はストローブ信号CADR8Oによってアドレス情
報を受取る。同様にC3L6−12から0DATGOの
ゲートタイミングでインタフェースバスに出力されたデ
ータをCDAT80のストローブ信号でC3L6−21
にデータを受取る。
The C3L6-12 that has received the address and data from the AU outputs address information to the interface bus at the timing of C3L6-21'1cADRGO. C3L6-
21 receives address information by strobe signal CADR8O. Similarly, the data output from C3L6-12 to the interface bus at the gate timing of 0DATGO is transferred to C3L6-21 using the CDAT80 strobe signal.
Receive data to.

アドレスとデータの情報の取込を完了したC3L6−2
1は第2の計算機22のローカルメモリに書込むためメ
モリバス取得要求CATNBOを出す。第2の計算機2
2はバス使用許可信号としてCI?AKBOを出す。C
3L6−21がこの信号を受取ると、 CBBSYO。
C3L6-2 has completed importing address and data information
1 issues a memory bus acquisition request CATNBO in order to write to the local memory of the second computer 22. Second calculator 2
2 is CI? as a bus use permission signal? Release AKBO. C
When 3L6-21 receives this signal, CBBSYO.

CMREFO、CWRTI(0を出し、ローカルメモリ
への書込み要求をする。第2の計算機22はアドレスを
受取+) CACPTOを返す。C8I、6−21 ハ
CDATAOトデータを出し第2の計算機22はデータ
を受取るとC3YNHOをC3L6−21へ返して第1
の計算機21から第2の計算機22へのデータの書込み
のサイクルを完了する。これらの信号のタイミングは第
6図に示す通りである。
CMREFO, CWRTI (issues 0, requests write to local memory; second computer 22 receives address +) returns CACPTO. C8I, 6-21 C outputs CDATAO data, and when the second computer 22 receives the data, it returns C3YNHO to C3L6-21 and sends the data to the first computer 22.
The cycle of writing data from the second computer 21 to the second computer 22 is completed. The timing of these signals is as shown in FIG.

第7図は第1の計算機21が第2の計算機22のローカ
ルメモリからデータを読み出す場合の信号の流れ図で第
8図はそのタイミング図である。
FIG. 7 is a signal flow diagram when the first computer 21 reads data from the local memory of the second computer 22, and FIG. 8 is a timing diagram thereof.

まず、第【の計算機2」内部のAUが読出し要求CBB
SYO,CMRgFOをC3L6−12 に出す。C3
L6−12はアドレスナ^報、モード情報を取込みAU
に対し待ち要求信号CWAiTOを返しAUのアクセス
を待たせる。同時にマスターC3L6−21にインタフ
ェースバス取得要求CIREQOを出す。要求が受付ら
れるとCI BNLOがマスターC8I、6−21から
返ってくる。
First, the AU inside [computer 2] makes a read request CBB.
Issue SYO, CMRgFO to C3L6-12. C3
L6-12 takes in address information and mode information and sends it to AU
A wait request signal CWAiTO is returned to the AU to make the AU wait for access. At the same time, an interface bus acquisition request CIREQO is issued to the master C3L6-21. When the request is accepted, CI BNLO is returned from master C8I, 6-21.

許可信号CIENLOを受取ったC3L6−12はC3
L5−21ヘアドレス情報、そ−ド情報をCADRGO
のタイミングで送出する。CADR80はそのストロー
ブ信号である。AUへは再度待ち要求CWAITOを返
す。
C3L6-12 that received the permission signal CIENLO
CADRGO the L5-21 head address information and field information.
Send at the timing of CADR80 is its strobe signal. The wait request CWAITO is returned to the AU again.

アドレス情報とモード情報を受取ったC3L6−21は
第2の計算機22のローカルメモ−りを読出すため、 
    ゛     メモリバス取得要求CATNBO
を出す。CATNBOを受取った第2の計算機はメモリ
バス使用許可信号CRAKBOを出す。
After receiving the address information and mode information, the C3L6-21 reads the local memory of the second computer 22.
゛ Memory bus acquisition request CATNBO
issue. The second computer that received CATNBO issues a memory bus use permission signal CRAKBO.

C3L6−21がこの信号を受取ると、CBBSYO、
CM)LEル゛0を出しローカルメモリへ読出し要求を
する。第2の計算機22はCACPTOを返すと同時に
ローカルメモリの該当アドレスを読出し、CDATAO
といっしょにデータを出方する。
When C3L6-21 receives this signal, CBBSYO,
CM) Issues LE code 0 and requests read to local memory. At the same time as returning CACPTO, the second computer 22 reads the corresponding address in the local memory and reads CDATAO.
Output the data together.

C3L6−21 カ;CO) f −1を受取ルトcs
YN1(oを第2の計算機22に返しメモリパス読出し
サイクルを完了させる。データを受取ったC3L6−2
1は読出し要求をしているC3L6−12へCDA ’
l’GOのタイミングでデータを出方し、ストローブ信
号CDATSOを出力する。データを受取ったC3L6
−12に再度AUから一定時間後に読出し要求CBBS
YO,CM几EFOかくるとCACPTOを返し、CD
ATAOとデータを同時に出力する。データを受取った
AUはC3L6−12にCS YNHOを返し、全ての
読出しサイクルを完了する。これらの信号の実際のタイ
ミングは第8図に示す通りである。
C3L6-21 F; CO) Receive f -1 root cs
Return YN1(o to the second computer 22 and complete the memory path read cycle.C3L6-2 that received the data
1 is CDA' to C3L6-12 making the read request
Data is output at the timing of l'GO, and a strobe signal CDATSO is output. C3L6 that received the data
-12, read request CBBS from AU again after a certain period of time
YO, CM EFO returns CACPTO, CD
Outputs ATAO and data at the same time. The AU that received the data returns CS YNHO to C3L6-12 and completes all read cycles. The actual timing of these signals is as shown in FIG.

以上のメモリバス制御信号を第1表に、斗たインタフェ
ースバス制御信号を第2表にまとめて示した。 (以下
全白) 第1表 (以下全白) 第2表 本発明は複数の計算機を上述したCAL等の計算載量通
信装置を用い前述の完全結合方式、またはnバス結合方
式で結合して耐障害性を向上させる計算機システムであ
る。
The above memory bus control signals are summarized in Table 1, and the interface bus control signals are summarized in Table 2. (Hereinafter, all white) Table 1 (Hereinafter, all white) Table 2 The present invention connects a plurality of computers by the above-mentioned complete coupling method or n-bus coupling method using the above-mentioned computational load communication device such as CAL. This is a computer system that improves fault tolerance.

各計算機のローカルメモリには耐障害処理のために用い
る特定の記憶領域を設け、この記憶領域に下記の変数名
を与えて表わす。
A specific storage area used for fault-tolerant processing is provided in the local memory of each computer, and this storage area is expressed by giving the following variable names.

A:照合を行う変数 X:照合の結果、合致しなかった変数名を入れる変数。A: Variable to check X: A variable that stores variable names that do not match as a result of matching.

合致したときは′″O”を入れる。If there is a match, enter ``O''.

Y:照合の結果を照合し、合致しなかった照合の結果を
入れる変数。合致したときは!10″″を入れる。
Y: A variable that matches the matching results and stores the matching results that do not match. When it matches! Insert 10″″.

F:故障判定の結果、すなわち、障害情報を格納する変
数。
F: A variable that stores the result of failure determination, that is, failure information.

z:F相互間で値の確認を行ない、その結果に合理性が
あるときはパ0”、合理性がないときは0”以外の値を
とる変数。
z: A variable that confirms the values between F and takes a value of 0" if the result is reasonable, and a value other than 0 if it is not rational.

P:処理方針を値として持つ変数。P: Variable whose value is the processing policy.

第9図は本発明を適用する計算機システムを3台の計算
機で構成した場合の例で、各計算機のローカルメモり 
l−1,1−2,1−3内の各変数の記憶領域を示した
メモリマツプである。
Figure 9 shows an example where a computer system to which the present invention is applied is configured with three computers, and the local memory of each computer is
This is a memory map showing the storage area of each variable in l-1, 1-2, and 1-3.

各計算機には通常の命令のほかに以下に説明する耐障害
処理用命令(In5tructions for Fa
ultTolerant Computing) (以
後FTC命令と略称で記す)を備える。
In addition to normal instructions, each computer has fault-tolerant processing instructions (Instructions for Fa
ultTolerant Computing) (hereinafter abbreviated as FTC instruction).

(1)  C0L(P:in ARRAY of指定形
、  Q:out A)LL(AYof文字列) 説明:Pはユーザが指定する形の変数の並び(並びの数
は計算機の台数と等しい)であり、この並び内の各変数
間の照合を行つ′〔多数決判定を行い、異なっている変
数名をQに入れる。P、Qの部分には並び要素である変
数名をそのま\記載してもよい。異なっている変数がな
いときはt咽ONB” を入れる。
(1) C0L (P: in ARRAY of specified form, Q: out A) LL (AYof character string) Explanation: P is a sequence of variables in the form specified by the user (the number of sequences is equal to the number of computers). , performs a comparison between each variable in this sequence' (majority judgment is performed, and the different variable names are entered into Q. The variable names that are array elements may be written as is in the P and Q parts. If there are no different variables, enter "ONB".

(2)  Fl、QC(P:in ARI(AY of
文字列r Q:out ARRAY o f文字列) 説明:Pを利用して障害部分がどこかを判定する。この
命令の実行ではどの計算機の故障か、どのC8Lの故障
かを判定する。計算機の内部の障害まで分析することは
できない。P、Qの部分には並び要素である変数名をそ
のま\記載してもよい。
(2) Fl, QC (P: in ARI (AY of
Character string r Q: out ARRAY of character string) Explanation: Determine where the faulty part is using P. When this instruction is executed, it is determined which computer or C8L is at fault. It is not possible to analyze the internal failures of a computer. The variable names that are array elements may be written as is in the P and Q parts.

ひとつのC8Lが故障したときに、完全結合方式では%
  (n−1)個の計算機間の照合しかとれないが、n
バス結合方式では代替手段によって容易にn個の計算機
間の照合がとれる。多くのCALが故障して、インタフ
ェースバスが一本だけ活きている場合にもnバス結合方
式ではなをかつ初期の耐障害処理を続行するが、完全結
合方式ではある数以上のインタフェースバスが用を果さ
なくなると、初期の耐障害処理機能の遂行は不可能とな
る。
When one C8L fails, in the fully coupled method, %
Although it is possible to only match between (n-1) computers, n
In the bus coupling method, matching between n computers can be easily achieved by alternative means. Even if many CALs fail and only one interface bus is active, the n-bus combination method continues initial fault tolerance processing, but the complete combination method uses more than a certain number of interface buses. If the initial failure tolerance processing function is no longer fulfilled, it becomes impossible to perform the initial fault tolerance processing function.

A3)  DIAG(Q:out AR)(AY of
文字列)説明: FLQC命令によっても障害部分を断
定することができない場合に各構成要素を診断すること
によって障害箇所を同定するだめの命令である。
A3) DIAG (Q: out AR) (AY of
Character string) Description: This command is used to identify the fault by diagnosing each component when the fault cannot be determined even by the FLQC command.

14)  RBCOV(P:in AItRAY of
文字列)説明: FLQC命令、またはDIAG命令に
よって同定された障害箇所を除去して、システムを再構
築し、システムを再開するための命令である。
14) RBCOV (P:in AItRAY of
Character string) Description: This is an instruction to remove the fault identified by the FLQC command or DIAG command, rebuild the system, and restart the system.

f 発明の作用 本発明の計算機システムを構成する計算機は、通常の命
令機能のほかに前述のFTC命令群を備え、このFTC
命令が作用するときにCALを経由して他の計算機に影
響を及ぼし、前述の機能を果すことができる。
f. Effect of the Invention The computer constituting the computer system of the present invention is equipped with the above-mentioned FTC instruction group in addition to the normal instruction function, and the FTC
When an instruction operates, it can affect other computers via the CAL and perform the functions described above.

この様な計算機を用いて構成する本発明の計算機システ
ムは、計算機、C8L、インタフェースバスの障害の際
に計算機システム内で耐障害処置を行って、外部へその
障害の影響を及ぼさない様に作用する。
The computer system of the present invention configured using such a computer takes fault tolerance measures within the computer system in the event of a failure in the computer, C8L, or interface bus, so as to prevent the influence of the failure from affecting the outside. do.

本発明の計算機システムは前述の様に2台以上の計算機
、C8L、インタフェースバスで構成され、その結合方
法も前述したが、便宜上、第2図、または第3図に示し
た3台の計算機による構成を例に説明する。
As mentioned above, the computer system of the present invention is composed of two or more computers, a C8L, and an interface bus, and the method of connecting them is also described above. The configuration will be explained as an example.

3台の計算機には全く同一のプログラムが記憶され、3
台の計算機の各ローカルメモIJ l−111−211
−3には第9図に示す様に耐障害処理用記憶領域を設け
ておき、3台の計算機は互いに同期されたタイミングで
実行するものとする。
Exactly the same program is stored in the three computers, and 3
Local memo IJ l-111-211 for each computer
-3 is provided with a storage area for fault-tolerant processing as shown in FIG. 9, and the three computers are assumed to execute at mutually synchronized timing.

第1O図は3台の計算機の内相1の計n機内のプログラ
ムの一部を説明的に示したものである。
FIG. 1O is an explanatory view of a part of the programs in the three computers (inner phase 1).

プログラムの一部に照合セクション(Collatio
nsection )を任意に挿入することができ、こ
の照合セクションは文番号lから17までに示した部分
で、 enter collation 5ectio
nという命令に始まり、Ieame collatio
n 5ectionという命令に終る。前者の命令を実
行することによって第1の計算機の割込が禁止され、後
者の命令によって割込禁止は解除される。またこれ等の
命令によって、このセクション内を実行中はオペレーテ
ィングシステムもその実行に介入できない様になる。
A part of the program includes a collation section (Collation section).
This collation section is the part shown in sentence numbers l to 17, and enter collation 5ectio
Starting with the instruction n, Ieame collation
The result is an instruction called n5ection. By executing the former instruction, interrupts of the first computer are prohibited, and by the latter instruction, the interrupt prohibition is canceled. These instructions also prevent the operating system from interfering with the execution of this section.

3台の計算機は同一のプログラムを同一タイミングで同
期して実行する様に作用させるものとすると、はソ同一
タイミングで照合セクションに入るはずであるが、それ
ぞれの計算機が回転式補助記憶装置、入出力装置、外部
割込みとの交信などを行うとタイミングがずれることが
予想される。
Assuming that the three computers execute the same program synchronously at the same timing, they should enter the collation section at the same timing, but each computer has a rotary auxiliary storage device and an input section. It is expected that the timing will shift when communicating with an output device or an external interrupt.

そこで文番号2,3に示す命令で照合タイミングを最も
遅い計算機に合せて同期させる。
Therefore, the matching timing is synchronized with the slowest computer using the instructions shown in statement numbers 2 and 3.

次に通常の命令によるプログラム上のどの点での照合を
行うかを示す里標名(mile−stone poin
tiden t i f ica t 1on)と照合
しだい値AI(第2.第3の計算機ではA、 、 A3
)を文番号4の命令5tore(A、)で書き込む。
Next, a mile-stone point is used to indicate which point on the program should be compared using normal instructions.
The value AI (A, , A3 in the second and third calculators)
) is written using the instruction 5tore(A,) of statement number 4.

文番号5の命令C0L((A、 、 A、 、 A、)
 : in 、 X、 : out)でAI、 A、 
、 A3の内容を照合し、合致しない値があるときに多
数決判定を行い、不利な値の変数名をX、に入れる。
Instruction C0L of statement number 5 ((A, , A, , A,)
: in, X, : out) for AI, A,
, A3 is checked, and if there is a value that does not match, a majority decision is made and the variable name of the unfavorable value is entered in X.

文番号6の命令C0L((X、 、 X、 、 X、)
 : in 、 Y、、 二out)では、Xlに入れ
て返された変数名がX、、Xsの値と合致しているかを
照合し、不利な変数名をY、に入れる。
Instruction C0L of statement number 6 ((X, , X, , X,)
: in, Y,, 2 out), the variable name returned in Xl is checked to see if it matches the value of X,, Xs, and the unfavorable variable name is placed in Y.

文番号5.6の命令の実行により照合に合格した場合に
は、文番号7の命令、if(すべてのYが” N0NE
 nでない) then 14により文番号14へ移り
、文番号14115.16  で照合完了の同期をとっ
て元のプログラムへ戻る。
If the verification is passed by executing the instruction in statement number 5.6, the instruction in statement number 7, if (all Y are "N0NE
Then 14 moves to statement number 14, synchronizes the completion of collation with statement number 14115.16, and returns to the original program.

文番号5,6で照合がとれなかった場合には文番号8の
命令FLOC((Y、 、 Y、 、 Y、):in、
 F、 : out)で障害原因F0を調査し、文番号
9の命令cOL((F、 IF21 F3) :In+
 zH: out)でその原因F、の照合を行い、一致
しているときには文番号lOの命令口(Zt〜t’NO
Ng’) then 13 テ文番号13へ移り北CO
V (Z、 :in)命令で障害z1を除去して計算機
システムを再構成し、システム再開を行う。
If matching is not possible with statement numbers 5 and 6, the instruction of statement number 8 FLOC((Y, , Y, , Y,): in,
F, : out) to investigate the cause of the failure F0, and execute statement number 9 instruction cOL ((F, IF21 F3) :In+
zH: out) is used to check the cause F, and if they match, the statement number lO command entry (Zt~t'NO
Ng') then 13 Move to text number 13 and go to North CO
The fault z1 is removed by the V (Z, :in) instruction, the computer system is reconfigured, and the system is restarted.

文番号9で障害原因が一致しないときには文番号11の
命令DIA−G(P、 : ou t )で診断プログ
ラムを実行させ′C原因p、を捜し、文番号12の命令
kgCOV(P、:in)で障害原因P、を切離して計
算機システムを再構成し、システム再開を行う。
If the cause of the failure does not match in statement number 9, execute the diagnostic program with the instruction DIA-G (P, : out) in statement number 11, search for the cause p, and execute the command kgCOV (P, : in) in statement number 12. ), the cause of the failure P is isolated, the computer system is reconfigured, and the system is restarted.

文番号12.13の命令によりこの照合セクションから
あらかじめ用意された別のプログラムへ制御を移す。
The command of statement number 12.13 transfers control from this collation section to another program prepared in advance.

第3表は第1O図の照合セクションの照合手順を説明す
るためのマトリクスで、第3図のnバス結合方式による
構成に対して行う場合の一実施例である。第3表の縦方
向は障害要素を示し、横方向には文番号5の命令を実行
して照合結果の入る記憶場所の名を示している。第3表
は第1の計算機の作用のみを示すもので記憶場所X、、
、 、 X、、s、・・・・・・X■3はいずれも第1
の計算機に有するローカルメモリのX、内に設ける。
Table 3 is a matrix for explaining the collation procedure of the collation section of FIG. 1O, and is an example of the case where it is performed for the configuration using the n-bus coupling method of FIG. 3. The vertical direction of Table 3 shows the failure element, and the horizontal direction shows the name of the storage location where the verification result is stored after executing the instruction of statement number 5. Table 3 shows only the action of the first computer, storage location X,...
, , X,,s,...X■3 are all the first
It is provided in the local memory X of the computer.

第3表中にX印が記入されているものは、文番号5の命
令を実行の結果、その該当する記憶場所XIに、値が読
み込めないことを示している。例えば、C3L6−11
が故障を起すとX、、、 、 X、、、には値を入れる
ことができないことを示す。
Items marked with an X in Table 3 indicate that a value cannot be read into the corresponding storage location XI as a result of executing the instruction of statement number 5. For example, C3L6-11
If a failure occurs, it means that no value can be entered into X, , , X, , .

第2.第3の計算機に対しても同様の表を作成し、3種
類の表を合わせ−C分析すると障害個所の判定をするこ
とができる。文番号8の命令ではこの様な方法で故障個
所を判定している。
Second. A similar table is created for the third computer, and the failure location can be determined by combining the three types of tables and performing a -C analysis. The instruction with statement number 8 uses this method to determine the location of the failure.

上述の様な方法によっ′Cも故障個所の判定がで第3表 きなかったときには文番号11の命令でテストデータを
積極的に流して自己診断を行い故障個所の判定を行う。
When the failure location of 'C' is not determined as shown in Table 3 using the method described above, the test data is actively sent through the command of statement number 11 to perform self-diagnosis and determine the failure location.

前述の照合セクションは第1の計算機の主記憶装置に設
け、他の計算機の照合セクションと同一クロックタイミ
ングで排他的に実行されるので照合セクション内の命令
は一つ一つ同期をとって実行される。しかし各計算機内
のメモリバスーヒで競合が発生したとき、各命令が消費
する実行サイクルの数には大小があると考えられる。そ
こで命令と命令との間に必要と考えられる数のNOP 
(ノーオペレーション)命令をおいてアイドリンクする
ことによって全計算機の照合セクションの命令が同一タ
イミングで実行開始する様にしている。
The above-mentioned collation section is provided in the main memory of the first computer and is executed exclusively at the same clock timing as the collation sections of other computers, so the instructions within the collation section are executed one by one in synchronization. Ru. However, when contention occurs in the memory bus in each computer, the number of execution cycles consumed by each instruction is considered to be large or small. Therefore, the number of NOPs considered necessary between instructions
(No-operation) instructions are placed and idle linked so that the instructions in the verification sections of all computers start executing at the same timing.

g 発明の効果 本発明の計算機システムによれば、本計算機システムを
構成するそれぞれの計算機が一つの命令で他の複数の計
算機の記憶内容を読み出して照合することが可能となり
、複数の計算機を同一プログラムで動作させ、各プログ
ラムの任意の点に於る処理過程値を同時刻に上記複数の
計算機か相互に照合する動作を行い、その照合結果も相
互に照合し、それぞれの計算機が多数決による障害判定
を行い、障害判定の結果、システム再構成、システム再
開方針に対しても相互に確め合って実行し、極めて高い
信頼性を有した耐障害形の計算機システムを得ることが
できる。
g. Effects of the Invention According to the computer system of the present invention, each computer constituting the computer system can read and compare the memory contents of multiple other computers with a single command, and multiple computers can be It is operated by a program, and the process values at any point in each program are checked against each other at the same time by the multiple computers mentioned above, and the results of the checks are also checked against each other. A fault-tolerant computer system with extremely high reliability can be obtained by making a determination and mutually confirming and executing the system reconfiguration and system restart policy as a result of the fault determination.

【図面の簡単な説明】[Brief explanation of drawings]

第1図は本発明の構成要件となる計R,機の1台のみの
構成図、第2図、第3図は本発明の一実施例で3台の計
算機の結合方式を示す図、第4図は命令オペランドから
細針算機の物理アドレスへの変換法を示す図、第5図は
第1の計算機から第2の計X:Ps、のローカルメモリ
へデータを書き込むときの信号交換図、WJ6図はそれ
のタイミング図、第7図は第1の計算機が第2の計算機
のローカルメモリからデータを読み出すときの信号交換
図、第8図はそのタイミング図、第9図は3台の計算機
のローカルメモリに耐障害処理のために設けた記憶領域
を示すメモリマツプ、第10図は本発明戸 に挿入する耐障害処理のためのプログか李を示しZi7
:1Jjr:た図である。 1.1−1.〜l−3・・・ローカルメモリ(LM)2
・・・メモリバス 3.3−1〜3−3・・・プロセッサユニット4・・・
演算装置 5・・・命令レジスタ 6.6−11〜6−33・・・コンピュータシステムリ
ンク(C8L)t t 、 t t−i −i 1−i
a・・・インターフェースバス21〜23・・・計算機 (7317)  代理人弁理士 則 近 憲 佑 (ほ
か1名)第1図 第2図 //−/3 第3図 第4図
Figure 1 is a configuration diagram of only one computer, which is a component of the present invention. Figures 2 and 3 are diagrams showing a method of combining three computers in an embodiment of the present invention. Figure 4 is a diagram showing the method of converting an instruction operand to a physical address of the fine needle calculator, and Figure 5 is a diagram of signal exchange when writing data from the first computer to the local memory of the second computer, X:Ps. , WJ6 is its timing diagram, Figure 7 is a signal exchange diagram when the first computer reads data from the local memory of the second computer, Figure 8 is its timing diagram, and Figure 9 is the signal exchange diagram when the first computer reads data from the local memory of the second computer. A memory map showing the storage area provided for fault-tolerant processing in the local memory of the computer, Figure 10 shows the program for fault-tolerant processing inserted into the door of the present invention.
:1Jjr:It is a diagram. 1.1-1. ~l-3...Local memory (LM) 2
...Memory bus 3.3-1 to 3-3...Processor unit 4...
Arithmetic unit 5...Instruction registers 6.6-11 to 6-33...Computer system link (C8L) tt, tti-i1-i
a...Interface bus 21-23...Computer (7317) Representative Patent Attorney Kensuke Chika (and 1 other person) Figure 1 Figure 2 //-/3 Figure 3 Figure 4

Claims (1)

【特許請求の範囲】[Claims] 第1の計9″機が命令を実行したときに前記命令のオペ
ランドの番地を示すアドレス信号をメモリバスに乗せ、
前記アドレス信号から第2の計算機を識別して前記第2
の計算機の主記憶装置内の前記番地の記憶場所の内容を
前記命令の作用により読み出したり書き改めたりする計
算機間通信装置を用いて相互に結合された複数の計n機
に、それぞれ同一目的のプログラムを記憶させ、それぞ
れの前記プログラムの途中に排他的に実行する照合セク
ションを設け、前記照合セクションの作用により前記複
数の計算機のそれぞれの計算機が他の計算機の計算値、
状態値と照合し、照合結果を更に照合し、異常と判定し
たとき障害個所、システム再構成、再開方針の判断を行
い、その判断結果を11且合して耐障害処理を行うこと
を特徴とした計算機システム。
When the first 9″ machine executes an instruction, an address signal indicating the address of the operand of the instruction is placed on the memory bus;
The second computer is identified from the address signal and the second computer is identified.
A total of n computers connected to each other using an intercomputer communication device that reads and rewrites the contents of the memory location at the address in the main memory of the computer by the action of the instruction, each having the same purpose. Programs are stored, and in the middle of each program there is provided a collation section that is executed exclusively, and by the action of the collation section, each of the plurality of computers can calculate the calculated value of the other computer,
It is characterized by comparing it with the status value, further comparing the comparison result, and when it is determined that there is an abnormality, determines the location of the failure, system reconfiguration, and restart policy, and performs fault tolerance processing by combining the determination results. computer system.
JP57141674A 1982-08-17 1982-08-17 Computer system Granted JPS5932050A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP57141674A JPS5932050A (en) 1982-08-17 1982-08-17 Computer system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57141674A JPS5932050A (en) 1982-08-17 1982-08-17 Computer system

Publications (2)

Publication Number Publication Date
JPS5932050A true JPS5932050A (en) 1984-02-21
JPS6248255B2 JPS6248255B2 (en) 1987-10-13

Family

ID=15297555

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57141674A Granted JPS5932050A (en) 1982-08-17 1982-08-17 Computer system

Country Status (1)

Country Link
JP (1) JPS5932050A (en)

Also Published As

Publication number Publication date
JPS6248255B2 (en) 1987-10-13

Similar Documents

Publication Publication Date Title
Schuette et al. Processor control flow monitoring using signatured instruction streams
JP2618073B2 (en) Data processing method and system
US6374364B1 (en) Fault tolerant computing system using instruction counting
US5317726A (en) Multiple-processor computer system with asynchronous execution of identical code streams
JP2618072B2 (en) Information processing system
EP0227749B1 (en) Fault tolerant data processing system and method therefor
US4312066A (en) Diagnostic/debug machine architecture
JP2618075B2 (en) Data processing system
US5384906A (en) Method and apparatus for synchronizing a plurality of processors
EP0528585B1 (en) Data processing system with internal instruction cache
JP2618070B2 (en) Data processing system
JP2618071B2 (en) Data processing system
US6128755A (en) Fault-tolerant multiple processor system with signature voting
JPH036742A (en) Fault-tolerant-data processing system
US8671311B2 (en) Multiprocessor switch with selective pairing
KR920008439B1 (en) Data process system
JPS63141139A (en) Configuration changeable computer
JP2618074B2 (en) Computer system
EP0868692B1 (en) Processor independent error checking arrangement
CA1264198A (en) Circuit and a method for the selection of original data from a register log containing original and modified data
Portela-García et al. On the use of embedded debug features for permanent and transient fault resilience in microprocessors
Boniol et al. Modelling and analyzing multi-core COTS processors
JPS5932050A (en) Computer system
JPS60142747A (en) Instruction execution control system
KR19990057809A (en) Error prevention system