JPH08278909A - System and method for high reliability - Google Patents

System and method for high reliability

Info

Publication number
JPH08278909A
JPH08278909A JP7082175A JP8217595A JPH08278909A JP H08278909 A JPH08278909 A JP H08278909A JP 7082175 A JP7082175 A JP 7082175A JP 8217595 A JP8217595 A JP 8217595A JP H08278909 A JPH08278909 A JP H08278909A
Authority
JP
Japan
Prior art keywords
module
database
log information
processor
checkpoint
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7082175A
Other languages
Japanese (ja)
Inventor
Masanori Hirano
正則 平野
Tsunemichi Shiozawa
恒道 塩澤
Yasuo Kinouchi
康夫 木ノ内
Takashi Suzuki
孝至 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP7082175A priority Critical patent/JPH08278909A/en
Publication of JPH08278909A publication Critical patent/JPH08278909A/en
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PURPOSE: To reduce the influence range of a transaction process in a fault processing and to make the reliability of the whole module high by providing a main memory fault informing means and a central processing means. CONSTITUTION: The module 2 performs a transaction process for itself at a <=50% use rate of a processor 4, and restores the data base 13 of a module 1 and then performs a transaction processing for the module 1 at the remaining >50% use rate. Thus, processors 3 and 4 are put in partial charge of the transaction process at a <=50% processor use rate, half and half, so that even if a fault occurs to one processor, the other processor can back up it. Even while one module becomes faulty and its data base is restored, the transaction process of the normal module is not affected, so the influence on the whole transaction process is small.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、2台のモジュールのう
ち一方が障害となった場合でも、トランザクション処理
に影響を及ぼすことなく、障害となったモジュールに対
するトランザクション処理をバックアップして、システ
ムの高信頼化を保証しながら、システムの経済化を図る
ことができる高信頼化システムおよび高信頼化方法に関
する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention backs up transaction processing for a failed module without affecting the transaction processing even if one of the two modules fails, so that the system The present invention relates to a high reliability system and a high reliability method capable of making a system economical while ensuring high reliability.

【0002】[0002]

【従来の技術】オンラインリアルタイム処理とは、デー
タが発生する都度、その場で端末から入力し、通信回線
を通してコンピュータシステムに入力して即時処理し、
その結果を端末等に応答する処理方式である。オンライ
ンリアルタイムシステムは、銀行におけるバンキングシ
ステム、列車等の座席予約システム等で使用されている。
トランザクションとは、オンラインリアルタイムシステ
ムにおいて、コンピュータシステムに対して端末等から
処理を要求してくる単位のことである。従来、トランザ
クション処理の高信頼化方法としては、プロセッサを2
台設けて、そのうちの1台のプロセッサで全トランザク
ションの処理を行い(以下、このプロセッサをアクトプ
ロセッサと記す)、残りの1台を予備として待機させる
(以下、このプロセッサをスタンバイプロセッサと記
す)方法が一般に採用されている。この方法では、アク
トプロセッサが障害になった場合、スタンバイプロセッ
サが半導体ファイル装置からチェックポイントデータベ
ースとログ情報を読み出し、これらの情報によりアクト
プロセッサが障害になった時点のデータベースを復元し
て、トランザクション処理を再開する。しかしながら、
再開処理の間、全てのトランザクション処理が中断され
るという問題がある。また、この方法では、地震、水害
等の大規模災害時には、システム(ノード)全体の機能
が停止してしまう。このような場合でも、トランザクシ
ョン処理を継続させるためには、遠隔地点にも予備のプ
ロセッサを設置することが必要であり、遠隔地点に2台
のプロセッサを設置して待機させておくと、全体で4台
のプロセッサを設置しながら、実際にトランザクション
処理のために稼働するプロセッサは1台だけであるた
め、高信頼のための設備費が膨大になるという問題があ
る。
2. Description of the Related Art Online real-time processing means that each time data is generated, it is input from a terminal on the spot, input to a computer system through a communication line and immediately processed.
This is a processing method of responding the result to a terminal or the like. The online real-time system is used in banking systems in banks, seat reservation systems for trains, and the like.
A transaction is a unit that requests processing from a terminal or the like to a computer system in an online real-time system. Conventionally, as a high reliability method of transaction processing, two processors have been used.
A method in which one processor is used to process all transactions (hereinafter, this processor is referred to as an act processor), and the remaining one is used as a standby (hereinafter, this processor is referred to as a standby processor) Is generally adopted. With this method, when the act processor fails, the standby processor reads the checkpoint database and log information from the semiconductor file device, restores the database at the time when the act processor failed, and uses this information to perform transaction processing. To resume. However,
There is a problem that all transaction processes are suspended during the restart process. Also, with this method, the function of the entire system (node) will stop in the event of a large-scale disaster such as an earthquake or water damage. Even in such a case, in order to continue the transaction processing, it is necessary to install a spare processor at the remote location. There is a problem that the equipment cost for high reliability becomes enormous because only one processor actually operates for transaction processing while installing four processors.

【0003】図8は、従来のノード内のアクト−スタン
バイプロセッサによるバックアップシステムの接続構成
図である。図8において、1,2はプロセッサ、3は半
導体ファイル装置、4は通信制御装置(CCU)、5
5,56はそれぞれプロセッサ1,2と通信制御装置4
を接続する信号線、57,58はそれぞれプロセッサ
1,2と半導体ファイル装置3を接続する信号線、59
はプロセッサ1とプロセッサ2を接続する信号線、60
はトランザクションが送られてくる通信回線である。一
方のプロセッサ1は、アクトプロセッサとしてトランザ
クション処理を行い、他方のプロセッサ2はスタンバイ
プロセッサとして待機しているものとする。通信回線6
0から入力されたトランザクションは通信制御装置4で
受信され、信号線55を介してプロセッサ1に入力され
る。プロセッサ1は主メモリ上にデータベースを有して
おり、このデータベースの内容に従ってトランザクショ
ン処理を行うとともに、データベースの更新を行う。デ
ータベースの更新を行った場合、そのデータベース内の
アドレスおよび更新データをログ情報として信号線57
を介して半導体ファイル装置3に書き込む。さらに、ト
ランザクションへの応答を信号線55を介して通信制御
装置4に送出する。このようにして、逐次、通信回線6
0を介して送られてきるトランザクションは処理され
る。プロセッサ1は、予め決められた周期で、主メモリ
上のデータベースを半導体ファイル装置3にチェックポ
イント情報として格納する。
FIG. 8 is a connection configuration diagram of a backup system using an act-standby processor in a conventional node. In FIG. 8, 1 and 2 are processors, 3 is a semiconductor file device, 4 is a communication control unit (CCU), 5
Reference numerals 5 and 56 denote processors 1 and 2 and communication control device 4, respectively.
Signal lines 57 and 58 connecting the processors 1 and 2 to the semiconductor file device 3, respectively.
Is a signal line connecting the processor 1 and the processor 2, 60
Is a communication line to which a transaction is sent. It is assumed that one processor 1 performs transaction processing as an act processor, and the other processor 2 stands by as a standby processor. Communication line 6
The transaction input from 0 is received by the communication control device 4 and input to the processor 1 via the signal line 55. The processor 1 has a database in the main memory, performs transaction processing according to the contents of this database, and updates the database. When the database is updated, the address and update data in the database are used as log information in the signal line 57.
Write to the semiconductor file device 3 via. Further, the response to the transaction is sent to the communication control device 4 via the signal line 55. In this way, the communication line 6
Transactions sent via 0 are processed. The processor 1 stores the database on the main memory in the semiconductor file device 3 as checkpoint information at a predetermined cycle.

【0004】図9は、従来のノード間バックアップ方法
を説明するための接続構成図である。図9において、1
000は地点A(例えば、東京)のノード、2000は
地点B(例えば、大阪)に設置されたバックアップノー
ドである。地点Aと地点Bは遠隔地に位置しており、地
点Aで地震、水害等の災害によりノード1000全体が
障害となった場合には、地点Bでバックアップが可能で
ある。なお、ノード1000内の1〜10は図8の符号
と同じものを示し、ノード2000内の101〜110
はそれぞれ図8の1〜10と同じものである。3000
は、ノード1000内の通信制御装置4とノード200
0内の通信制御装置104とを接続する信号線である。
ノード1000内のプロセッサ1はアクトプロセッサと
してトランザクション処理を行い、プロセッサ2はスタ
ンバイプロセッサとして、プロセッサ1が障害となった
場合に、トランザクション処理をバックアップするため
に待機している。ノード2000のプロセッサ101は
主メモリ上にプロセッサ1のデータベースを有してお
り、トランザクション処理は行わないが、プロセッサ1
から信号線55、通信制御装置4、通信回線3000、
通信制御装置104、信号線405を介して送られてく
るデータベース更新のログ情報により、主メモリ内のデ
ータベースを更新するとともに、信号線407を介して
半導体ファイル装置103にもログ情報を書き込む。ま
た、予め決められた周期で、主メモリ上のデータベース
をチェックポイント情報として半導体ファイル装置10
3に書き込む。プロセッサ102はプロセッサ101が
障害となった場合、これをバックアップするために待機
している。
FIG. 9 is a connection configuration diagram for explaining a conventional inter-node backup method. In FIG. 9, 1
000 is a node at a point A (for example, Tokyo), and 2000 is a backup node installed at a point B (for example, Osaka). The points A and B are located at remote places, and if the node 1000 as a whole fails at the point A due to a disaster such as an earthquake or water damage, the point B can be backed up. It should be noted that 1 to 10 in the node 1000 are the same as those in FIG. 8 and 101 to 110 in the node 2000.
Are the same as 1 to 10 in FIG. 3000
Are the communication control device 4 and the node 200 in the node 1000.
It is a signal line for connecting to the communication control device 104 in 0.
The processor 1 in the node 1000 performs transaction processing as an act processor, and the processor 2 as a standby processor stands by to back up transaction processing when the processor 1 fails. The processor 101 of the node 2000 has a database of the processor 1 in the main memory and does not perform transaction processing.
From the signal line 55, the communication control device 4, the communication line 3000,
The database in the main memory is updated by the log information of the database update sent via the communication control device 104 and the signal line 405, and the log information is also written in the semiconductor file device 103 via the signal line 407. In addition, the semiconductor file device 10 uses the database on the main memory as checkpoint information at a predetermined cycle.
Write to 3. If the processor 101 fails, the processor 102 stands by to back it up.

【0005】[0005]

【発明が解決しようとする課題】このように、従来、図
8に示すようなノード内のバックアップ方法を採用する
とともに、図9に示すようなノード間のバックアップ方
法を採用していた。しかしながら、図8および図9のバ
ックアップ方法では、次のような問題がある。すなわ
ち、図8においては、プロセッサ1が障害になった場
合、スタンバイプロセッサ2で処理を再開するため、プ
ロセッサ1は障害である旨を信号線59を介してスタン
バイプロセッサ2に通知する。この通知を受信したプロ
セッサ2は、半導体ファイル装置3からチェックポイン
トデータベースを主メモリ上に読み出し、その後、ログ
情報によりチェックポイント時点からのデータベースの
更新内容を上書きする。これにより、プロセッサ2の主
メモリには、プロセッサ1が障害になった時点のデータ
ベースが復元される。データベースの復元が終了する
と、プロセッサ2は信号線56を介して通信制御装置4
に通知する。通信制御装置4は、送られてきたトランザ
クションを信号線56を介してプロセッサ2に送り、プ
ロセッサ2によりトランザクション処理が再開される。
この方法では、プロセッサ2が再開処理を行っている
間、全てのトランザクション処理が中断されるという問
題がある。
As described above, conventionally, the intra-node backup method shown in FIG. 8 and the inter-node backup method shown in FIG. 9 have been adopted. However, the backup methods of FIGS. 8 and 9 have the following problems. That is, in FIG. 8, when the processor 1 fails, the standby processor 2 restarts the processing, so the processor 1 notifies the standby processor 2 via the signal line 59 of the failure. The processor 2 receiving this notification reads the checkpoint database from the semiconductor file device 3 onto the main memory, and then overwrites the update contents of the database from the checkpoint time point with the log information. As a result, the database at the time of the failure of the processor 1 is restored in the main memory of the processor 2. When the database restoration is completed, the processor 2 sends the communication control device 4 via the signal line 56.
To notify. The communication control device 4 sends the sent transaction to the processor 2 via the signal line 56, and the processor 2 restarts the transaction processing.
This method has a problem that all transaction processing is suspended while the processor 2 is performing the restart processing.

【0006】次に、図9においては、ノード1000で
大規模災害が生じ、このためトランザクション処理が不
可能となった場合、図示されていないが、通信回線6
0、110に接続され、これらのノードが正常か否かを
監視するための管理ノードにより障害が検出され、トラ
ンザクション送出元に対してノード1000が障害であ
る旨を通知する。以後、トランザクションは通信回線4
10を介してノード2000に送られ、プロセッサ10
1で処理される。しかし、このような大規模災害時に
も、トランザクション処理を可能とするためには、図9
に示すように4台のプロセッサを設置しながら、実際に
トランザクション処理のために稼働するのは1台のプロ
セッサのみであり、高信頼化のための設備コスト負担は
極めて大となるという問題がある。
Next, in FIG. 9, when a large-scale disaster occurs at the node 1000 and transaction processing becomes impossible, the communication line 6 is not shown.
A failure is detected by a management node connected to 0, 110 and monitoring whether these nodes are normal, and notifies the transaction sender that the node 1000 has a failure. After that, the transaction is communication line 4
Sent to the node 2000 via the processor 10
1 is processed. However, in order to enable transaction processing even in the event of such a large-scale disaster, the process shown in FIG.
As shown in (4), only one processor actually operates for transaction processing while four processors are installed, and there is a problem that the facility cost burden for high reliability becomes extremely large. .

【0007】本発明の目的は、このような従来の課題を
解決し、障害処理中にかけるトランザクション処理での
影響範囲を極力少なくするとともに、モジュール全体と
しての高信頼化を図ることができ、また異なる2地点で
のノード相互のバックアップのためのプロセッサ使用率
の余裕を共用することができる高信頼化システムおよび
方法を提供することにある。
An object of the present invention is to solve such a conventional problem, to minimize the influence range in transaction processing during failure processing, and to improve the reliability of the module as a whole. It is an object of the present invention to provide a highly reliable system and method capable of sharing a margin of a processor usage rate for backup of nodes at two different points.

【0008】[0008]

【課題を解決するための手段】上記目的を達成するた
め、本発明による高信頼化システムは、プロセッサと
該プロセッサによりアクセスされる半導体ファイル装置
とを備えたモジュールを2台設置し、データベースを用
いてトランザクション処理を行う高信頼の情報処理シス
テムにおいて、各モジュールのプロセッサの使用率が5
0%以下となるように、各モジュールに割り当てられた
データベースを格納する主メモリと、各モジュールが障
害となり、自ら回復処理を実施したが、回復できないこ
とが判明したとき、その旨を他モジュールに通知する障
害通知手段と、該障害通知手段により通知を受けると、
各モジュールが相互に他モジュールの半導体ファイル装
置をアクセスして、チェックポイント時点のデータベー
スを上記主メモリに読み出すとともに、該チェックポイ
ント時点後のログ情報を読み出し、上記データベースに
上書きして、障害時点の他モジュールのデータベースを
復元する中央処理手段とを有することを特徴としてい
る。
In order to achieve the above object, a high reliability system according to the present invention uses two databases each including a processor and a semiconductor file device accessed by the processor. In a highly reliable information processing system that performs transaction processing using
The main memory that stores the database allocated to each module so that it becomes 0% or less, and each module failed, and when it was found that recovery could not be performed by itself, other modules should be notified to that effect. When the failure notification means for notifying and the notification by the failure notification means,
Each module mutually accesses the semiconductor file device of another module to read the database at the checkpoint time into the main memory, read the log information after the checkpoint time, and overwrite the log information in the database to detect the failure time. It has a central processing means for restoring the database of another module.

【0009】また、本発明による高信頼化方法は、プ
ロセッサと該プロセッサによりアクセスされる半導体フ
ァイル装置とを備えたモジュールを2台設置し、データ
ベースを用いてトランザクション処理を行う高信頼化方
法において、使用率が50%以下となるように、分割さ
れたデータベースが割り当てられた各モジュールは、割
り当てられた全てのデータベースを主メモリに格納し、
該データベースを用いてトランザクション処理を行い、
該データベースの更新を主メモリ上で行うとともに、該
データベースの更新履歴をログ情報として上記半導体フ
ァイル装置に書き込み、かつ予め決められたチェックポ
イントで主メモリ上の全てのデータベースをチェックポ
イント情報として該半導体ファイル装置に書き込み、ト
ランザクション処理中に障害となったモジュールは、半
導体ファイル装置からチェックポイント時点のデータベ
ースを主メモリ上に読み出すとともに、該チェックポイ
ント時点後のログ情報を読み出して、該ログ情報で上記
データベース上に上書きし、障害時点のデータベースを
復元して、トランザクション処理を再開するが、再度障
害となった場合には、同じ処理を繰り返して、予め決め
られた回数の再開処理を行っても回復しない場合には、
固定障害であることを2台のうちの正常なモジュールに
通知し、該正常なモジュールは、プロセッサの50%の
使用率で自モジュールに対するトランザクション処理を
行いながら、残りの50%の使用率で障害となったモジ
ュールの半導体ファイル装置からチェックポイント時点
のデータベースを主メモリ上に読み出し、該チェックポ
イント時点後のログ情報を読み出して、該ログ情報で上
記データベースに上書きし、障害となった時点の他モジ
ュールのデータベースを復元して、他モジュールのデー
タベースに対するトランザクション処理も処理すること
を特徴としている。
The high reliability method according to the present invention is a high reliability method in which two modules each including a processor and a semiconductor file device accessed by the processor are installed and transaction processing is performed using a database. Each module to which a divided database is allocated so that the usage rate is 50% or less stores all the allocated databases in the main memory,
Transaction processing is performed using the database,
The database is updated on the main memory, the update history of the database is written as log information in the semiconductor file device, and all the databases on the main memory are used as checkpoint information at a predetermined checkpoint. The module that writes in the file device and becomes a failure during transaction processing reads the database at the checkpoint time from the semiconductor file device into the main memory, reads the log information after the checkpoint time, and uses the log information to read the above information. Overwrites on the database, restores the database at the time of the failure, and restarts the transaction processing, but when the failure occurs again, the same processing is repeated and recovery is performed even if the restart processing is performed a predetermined number of times. If not,
The normal module of the two units is notified of the fixed failure, and the normal module performs transaction processing for its own module at the usage rate of 50% of the processor, and fails at the remaining usage rate of 50%. The database at the time of the checkpoint is read from the semiconductor file device of the module that has become to the main memory, the log information after the time of the checkpoint is read, and the database is overwritten with the log information. The feature is that the database of the module is restored and the transaction processing for the database of another module is also processed.

【0010】また、2台のモジュールを異なる2地点
A,Bに設置し、それぞれ分散してトランザクション処
理を行い、地点Aの第1のモジュールと地点Bの第1の
モジュールは相互に相手モジュールのデータベースを備
え、自モジュールのデータベースのログ情報を通信回線
を介して送信し、該ログ情報を受信したモジュールは、
相手モジュールのデータベースを更新し、地点Aの第2
のモジュールと地点Bの第2のモジュールも上記と同じ
処理を行い、A,Bいずれかの地点で1台のモジュール
が障害となった場合には、同一地点の正常なモジュール
が障害となったモジュールのトランザクション処理を継
続し、A,Bいずれかの地点で2台のモジュールが同時
に障害となった場合には、他地点の2台のモジュール
が、障害となった地点の2台のモジュールのトランザク
ション処理を継続することも特徴としている。
Further, two modules are installed at two different points A and B, and transaction processing is performed in a distributed manner, and the first module at the point A and the first module at the point B mutually oppose each other. The module that includes the database, transmits the log information of the database of its own module through the communication line, and receives the log information,
The other party's database is updated and the second at point A
Module and the second module at point B also perform the same processing as above, and if one module fails at either point A or B, the normal module at the same point fails. If the module transaction processing continues and two modules at the same time fail at either A or B, the two modules at the other points will be replaced by the two modules at the failed point. It is also characterized by continuing transaction processing.

【0011】[0011]

【作用】本発明においては、2台のモジュールがプロセ
ッサの使用率50%以内で自モジュールに対するトラン
ザクション処理を行い、いずれか一方のモジュールが障
害となった場合には、正常なモジュールはプロセッサの
50%の使用率で自モジュールに対するトランザクショ
ン処理を行いながら、残りの50%の使用率で障害とな
ったモジュールの半導体ファイル装置からチェックポイ
ント時点のデータベースおよびログ情報を読み出し、他
モジュールが障害となった時点のデータベースを復元
し、他モジュールに対するトランザクション処理を肩代
りする。これにより、障害処理中におけるトランザクシ
ョン処理に対する影響を少なくでき、かつモジュール全
体の高信頼化を図ることができる。また、異なる2地点
にそれぞれ2台のモジュールを設置し、それぞれ独立に
プロセッサの使用率50%以内で自モジュールに対する
トランザクション処理を行い、地点の異なるモジュール
間では、相互に相手モジュールのデータベースを持ち合
い、データベースの更新履歴をログ情報として通信回線
を介して送り、地点の異なる2モジュール間での相互バ
ックアップを可能としている。この時、同一地点内での
モジュール間相互バックアップと異なる2地点間でのノ
ード間相互バックアップのためのプロセッサ使用率の余
裕を共用することにより、効率のよい高信頼化方法を実
現することができる。
According to the present invention, when two modules perform transaction processing with respect to their own modules within the processor utilization rate of 50% and one of the modules fails, the normal module is the processor of 50%. While performing transaction processing for its own module at a usage rate of%, the database and log information at the checkpoint time was read from the semiconductor file device of the module that failed at the remaining usage rate of 50%, and another module failed. Restore the point-in-time database and take over the transaction processing for other modules. As a result, it is possible to reduce the influence on the transaction processing during the failure processing and to improve the reliability of the entire module. In addition, two modules are installed at two different points, and transaction processing is performed independently for each module within the usage rate of the processor of 50%. The update history of the database is sent as log information via a communication line to enable mutual backup between two modules at different points. At this time, an efficient high reliability method can be realized by sharing the margin of the processor usage rate for mutual backup between modules within the same point and mutual backup between nodes between two different points. .

【0012】[0012]

【実施例】以下、本発明の実施例を、図面により詳細に
説明する。図1は、本発明の第1の実施例を示すトラン
ザクション処理の高信頼化システムの構成図である。図
1において、1,2はモジュール、3,4はそれぞれモ
ジュール1,2内のプロセッサ、5,6はそれぞれモジ
ュール1,2内の半導体ファイル装置、7,8はそれぞ
れプロセッサ3,4内の中央処理装置であって、命令の
実行、入出力処理を行うものである。また、9,10は
それぞれプロセッサ3,4内の主メモリ、11,12は
それぞれプロセッサ3,4内の障害検出・通知装置、1
3,14はそれぞれ主メモリ9,10に記憶されている
データベース、15,16はそれぞれ半導体ファイル
5,6に記憶されているチェックポイント時点のデータ
ベース、17,18はそれぞれ半導体ファイル装置5,
6に記憶されているログ情報、19は通信回線26を介
してトランザクションを受信する通信制御装置である。
また、24,25は受信したトランザクションをそれぞ
れ中央処理装置7,8に送る信号線、20,21はそれ
ぞれ中央処理装置7,8と半導体ファイル装置5,6と
を接続する信号線、22,23はそれぞれ中央処理装置
7,8と半導体ファイル装置6,5とを接続する信号
線、27は障害検出・通知装置11,12間を接続する
信号線、28,29はそれぞれ中央処理装置7,8と主
メモリ9,10とを接続する信号線、30,31はそれ
ぞれ中央処理装置7,8と障害検出・通知装置11,1
2間を接続する信号線である。
Embodiments of the present invention will now be described in detail with reference to the drawings. FIG. 1 is a block diagram of a transaction processing high reliability system showing a first embodiment of the present invention. In FIG. 1, 1 and 2 are modules, 3 and 4 are processors in the modules 1 and 2, 5 and 6 are semiconductor file devices in the modules 1 and 2, and 7 and 8 are central portions in the processors 3 and 4, respectively. It is a processing device that executes instructions and performs input / output processing. Further, 9 and 10 are main memories in the processors 3 and 4, 11 and 12 are fault detection / notification devices in the processors 3 and 4, respectively.
Reference numerals 3 and 14 are databases stored in the main memories 9 and 10, 15 and 16 are databases at checkpoints stored in the semiconductor files 5 and 6, and 17 and 18 are semiconductor file devices 5 and 5, respectively.
The log information stored in 6 and 19 are communication control devices that receive transactions via the communication line 26.
Further, 24 and 25 are signal lines for sending the received transactions to the central processing units 7 and 8, respectively, and 20 and 21 are signal lines for connecting the central processing units 7 and 8 and the semiconductor file devices 5 and 6, and 22 and 23, respectively. Are signal lines connecting the central processing units 7 and 8 to the semiconductor file devices 6 and 5, 27 are signal lines connecting the fault detection / notification devices 11 and 12, and 28 and 29 are central processing units 7 and 8, respectively. And signal lines 30 and 31 for connecting the main memory 9 and the main memory 9 and 10, respectively, are central processing units 7 and 8 and failure detection / notification devices 11 and 1, respectively.
It is a signal line that connects the two.

【0013】図2は、本発明の各モジュールのプロセッ
サの通常動作および障害検出時動作の各フローチャート
である。図1において、通信回線26を介して送られて
きたトランザクションは、通信制御装置19で受信され
る。通信制御装置19は、当該トランザクションがモジ
ュール1内のデータベース13で処理されるものであれ
ば、信号線24を介して中央処理装置7に送られ、また
モジュール2内のデータベース14で処理されるもので
あれば、信号線25を介して中央処理装置8に送られ
る。以下、当該トランザクションがモジュール1内のデ
ータベース13で処理されるものとして説明する。図2
に示すように、中央処理装置7に送られたトランザクシ
ョンは、データベース13に従って処理された後(ステ
ップ301,302)、信号線28を介して主メモリ9
にアクセスされ、データベース13の内容が書き換えら
れる(ステップ303)。また、中央処理装置7は、書
き換えたデータベース13のアドレスおよび書き換え内
容を信号線20を介して半導体ファイル装置5のログ情
報17にも書き込む(ステップ304)。その後、中央
処理装置7は当該トランザクションへの応答を信号線2
4を介して通信制御装置(CCU)19に送ると(ステ
ップ305)、通信制御装置19は通信回線26を介し
てトランザクション送出元に当該トランザクションへの
応答を送る。同じように、通信回線26を介して送られ
てくるトランザクションは、モジュール1またはモジュ
ール2で処理される。この場合、モジュール1,2に
は、プロセッサ3,4の使用率が50%以下となるよう
にデータベース13,14の量が調整されて格納されて
いる。また、中央処理装置7,8は、予め決められた周
期でデータベース13,14の内容をチェックポイント
情報として、信号線20,21を介して半導体ファイル
装置5,6のチェックポイントデータベースエリア1
5,16に書き込む。
FIG. 2 is a flowchart of a normal operation and a failure detection operation of the processor of each module of the present invention. In FIG. 1, the transaction sent via the communication line 26 is received by the communication control device 19. If the transaction is processed by the database 13 in the module 1, the communication control device 19 is sent to the central processing unit 7 via the signal line 24 and processed by the database 14 in the module 2. If so, it is sent to the central processing unit 8 via the signal line 25. Hereinafter, it is assumed that the transaction is processed by the database 13 in the module 1. Figure 2
As shown in FIG. 5, the transaction sent to the central processing unit 7 is processed according to the database 13 (steps 301 and 302) and then the main memory 9 via the signal line 28.
Is accessed and the contents of the database 13 are rewritten (step 303). The central processing unit 7 also writes the rewritten address of the database 13 and the rewritten contents into the log information 17 of the semiconductor file device 5 via the signal line 20 (step 304). After that, the central processing unit 7 sends a response to the transaction to the signal line 2
4 to the communication control unit (CCU) 19 (step 305), the communication control unit 19 sends a response to the transaction to the transaction sender via the communication line 26. Similarly, a transaction sent via the communication line 26 is processed by the module 1 or the module 2. In this case, the modules 1 and 2 are adjusted and stored in the databases 13 and 14 so that the usage rates of the processors 3 and 4 are 50% or less. Further, the central processing units 7 and 8 use the contents of the databases 13 and 14 as checkpoint information at a predetermined cycle, and checkpoint database area 1 of the semiconductor file devices 5 and 6 via the signal lines 20 and 21.
Write in 5,16.

【0014】図1、図2において、トランザクションが
上述のように処理されている途中で、モジュール1が障
害なり、この障害をプロセッサ3内の障害検出・通知装
置11で検出したとする(ステップ311)。障害検出
・通知装置11は、信号線30を介して中央処理装置7
をリセットする(ステップ313)。これにより、中央
処理装置7は、プログラムを最初から開始し、信号線2
8を介して主メモリ9の内容を初期化し(ステップ31
4)、信号線20を介して半導体ファイル装置5内のチ
ェックポイントデータベース15を主メモリ9のデータ
ベース格納エリア13に読み出す(ステップ315)。
さらに、中央処理装置7は、信号線20を介して半導体
ファイル装置5に格納されているログ情報17を読み出
し、このログ情報に従って主メモリ9上のデータベース
13を書き換える(ステップ316)。チェックポイン
ト時点からの全ログ情報について上記処理が終了すると
(ステップ317)、主メモリ9上のデータベース13
は、障害が検出された直前の内容となる。このようにし
て、データベース13が復元されると、再びモジュール
1でのトランザクション処理が再開される(ステップ3
18)。データベース13の回復中に再度プロセッサ3
が障害になると、それを障害検出・通知装置11が検出
し、前述と同じデータベース回復処理を行う。障害検出
・通知装置11は予め決められた回数だけ障害を検出す
ると(ステップ312)、プロセッサ3が固定障害であ
るとみなして、信号線27を介してその旨をモジュール
2内の障害検出・通知装置12に通知する(ステップ3
19)。障害検出・通知装置12は、信号線31を介し
て中央処理装置8にモジュール1が固定障害であること
を通知する。
1 and 2, it is assumed that the module 1 fails while the transaction is being processed as described above, and this failure is detected by the failure detection / notification device 11 in the processor 3 (step 311). ). The fault detection / notification device 11 is connected to the central processing unit 7 via the signal line 30.
Is reset (step 313). As a result, the central processing unit 7 starts the program from the beginning, and the signal line 2
The contents of the main memory 9 are initialized via 8 (step 31
4) Read the checkpoint database 15 in the semiconductor file device 5 into the database storage area 13 of the main memory 9 via the signal line 20 (step 315).
Further, the central processing unit 7 reads the log information 17 stored in the semiconductor file device 5 via the signal line 20, and rewrites the database 13 on the main memory 9 according to this log information (step 316). When the above process is completed for all log information from the checkpoint time (step 317), the database 13 on the main memory 9
Is the content just before the failure was detected. In this way, when the database 13 is restored, the transaction processing in the module 1 is restarted again (step 3).
18). Processor 3 again during recovery of database 13
Becomes a failure, the failure detection / notification device 11 detects it and performs the same database recovery process as described above. When the failure detection / notification device 11 detects a failure a predetermined number of times (step 312), the processor 3 regards it as a fixed failure, and notifies the failure detection / notification in the module 2 via the signal line 27. Notify device 12 (step 3)
19). The fault detection / notification device 12 notifies the central processing unit 8 via the signal line 31 that the module 1 has a fixed fault.

【0015】図3は、本発明による相手方障害時のモジ
ュールのプロセッサの動作フローチャートである。中央
処理装置8は、信号線23を介して半導体ファイル装置
5からチェックポイントデータベース15を主メモリ1
0に読み出す(ステップ321)。次に、中央処理装置
8は、信号線23を介して半導体ファイル装置5に格納
されているログ情報17を読み出し(ステップ32
2)、このログ情報に従って、主メモリ10に読み出し
たチェックポイントデータベース15を書き換える(ス
テップ323)。チェックポイント時点からの全ログ情
報について上記処理が終了すると(ステップ324)、
主メモリ10上にはモジュール1の障害直前のデータベ
ースが復元される。中央処理装置8は、信号線25を介
して通信制御装置(CCU)19にモジュール1のデー
タベースが復元されたことを通知する(ステップ32
5)。通信制御装置19は、モジュール1で処理される
トランザクションも信号線25を介して中央処理装置8
に送る(ステップ326)。これにより、モジュール1
に対するトランザクション処理は、モジュール2で再開
される。モジュール2は、プロセッサの使用率50%以
内で自モジュールに対するトランザクション処理を行う
とともに、残りの50%の使用率で上述のモジュール1
のデータベースの復元を行い、次にモジュール1に対す
るトランザクション処理を行う(ステップ327)。こ
のようにして、プロセッサ3,4がそれぞれプロセッサ
の使用率50%以内でトランザクション処理を半分ずつ
分担して処理を行うことにより、いずれか一方のプロセ
ッサが障害となった場合でも、相互にバックアップが可
能となる。また、いずれか一方のモジュールが障害とな
り、当該モジュールのデータベースを復元中でも、正常
なモジュールのトランザクション処理は影響を受けない
ため、全体のトランザクション処理への影響は少なくて
すむという利点がある。
FIG. 3 is a flowchart showing the operation of the processor of the module when the other party fails according to the present invention. The central processing unit 8 transfers the checkpoint database 15 from the semiconductor file device 5 to the main memory 1 via the signal line 23.
It is read to 0 (step 321). Next, the central processing unit 8 reads the log information 17 stored in the semiconductor file device 5 via the signal line 23 (step 32).
2) According to this log information, the checkpoint database 15 read out to the main memory 10 is rewritten (step 323). When the above processing is completed for all log information from the time of the checkpoint (step 324),
The database immediately before the failure of the module 1 is restored on the main memory 10. The central processing unit 8 notifies the communication control unit (CCU) 19 via the signal line 25 that the database of the module 1 has been restored (step 32).
5). The communication control device 19 uses the signal line 25 to transmit transactions processed by the module 1 to the central processing unit 8.
(Step 326). This allows module 1
Transaction processing for is resumed in module 2. The module 2 performs transaction processing for its own module within the usage rate of the processor of 50%, and the above-mentioned module 1 with the remaining usage rate of 50%.
The database is restored, and then the transaction processing for module 1 is performed (step 327). In this way, the processors 3 and 4 share the transaction processing by 50% within the processor utilization rate of 50%, so that even if one of the processors fails, the backup can be performed mutually. It will be possible. Further, even if one of the modules becomes a failure and the database of the module is restored, the transaction processing of the normal module is not affected, so that there is an advantage that the transaction processing of the entire module is less affected.

【0016】図4は、本発明の第2の実施例を示すトラ
ンザクション処理の高信頼化システムの構成図である。
図4において、1〜31の符号は図1と同じものを示
す。32,33はそれぞれ半導体ファイル装置5,6に
格納されているプロセッサ4,3内のデータベース1
4,13のチェックポイントデータベース、34,35
はそれぞれ半導体ファイル装置5,6に格納されている
ログ情報である。図1の実施例と異なる点は、プロセッ
サ3でトランザクション処理を行った場合、ログ情報を
半導体ファイル装置5内のエリア17のみでなく、半導
体ファイル装置6内のエリア35にも格納すること、お
よびプロセッサ3内のデータベース13のチェックポイ
ントデータベースを半導体ファイル装置5内のエリア1
5のみでなく、半導体ファイル装置6内のエリア33に
も格納することである。また、同じように、プロセッサ
4からのログ情報は半導体ファイル装置5,6のエリア
18,34に格納され、チェックポイントデータベース
は半導体ファイル装置6,5のエリア16,32に格納
される。このように、ログ情報とチェックポイントデー
タベースを2台の半導体ファイル装置5,6に二重化し
て格納することにより、どちらかの半導体ファイル装置
が障害となって、ログ情報およびチェックポイントデー
タベースが失われたとしても、正常な半導体ファイル装
置からログ情報およびチェックポイントデータベースを
読み出して再開処理を行うことが可能となり、信頼性を
より一層向上できる。
FIG. 4 is a block diagram of a transaction processing high reliability system showing a second embodiment of the present invention.
In FIG. 4, reference numerals 1 to 31 are the same as those in FIG. 32 and 33 are databases 1 in the processors 4 and 3 stored in the semiconductor file devices 5 and 6, respectively.
Checkpoint database of 4,13,34,35
Is log information stored in the semiconductor file devices 5 and 6, respectively. The difference from the embodiment of FIG. 1 is that when transaction processing is performed by the processor 3, the log information is stored not only in the area 17 in the semiconductor file device 5 but also in the area 35 in the semiconductor file device 6, and The checkpoint database of the database 13 in the processor 3 is used as the area 1 in the semiconductor file device 5.
This is to be stored in the area 33 in the semiconductor filing device 6 as well as in No. Similarly, the log information from the processor 4 is stored in the areas 18 and 34 of the semiconductor file devices 5 and 6, and the checkpoint database is stored in the areas 16 and 32 of the semiconductor file devices 6 and 5. Thus, by duplicating and storing the log information and the checkpoint database in the two semiconductor file devices 5 and 6, one of the semiconductor file devices becomes an obstacle and the log information and the checkpoint database are lost. Even in this case, the log information and the checkpoint database can be read from the normal semiconductor file device and the restart processing can be performed, and the reliability can be further improved.

【0017】図5は、本発明の第3の実施例を示すトラ
ンザクション処理の高信頼化システムの構成図である。
図5において、符号1〜31は図1の実施例と同じもの
を示している。36,37はそれぞれモジュール1,2
内に設けられた2台目の半導体ファイル装置、38,3
9はそれぞれ半導体ファイル装置36,37内のチェッ
クポイントデータベース、40,41はそれぞれ半導体
ファイル装置37,38内のログ情報である。図5の実
施例が図1の実施例と異なる点は、モジュール1,2内
にそれぞれ半導体ファイル装置を2台設け、チェックポ
イントデータベースおよびログ情報を2台の半導体ファ
イル装置36,37に二重化して格納することである。
これにより、半導体ファイル装置の1台が障害となり、
チェックポイントデータベースおよびログ情報が失われ
たとしても正常な半導体ファイル装置からチェックポイ
ントデータベースおよびログ情報を読み出して再開処理
を行うことが可能となり、信頼性を一層向上させること
ができる。
FIG. 5 is a block diagram of a transaction processing high reliability system showing a third embodiment of the present invention.
In FIG. 5, reference numerals 1 to 31 indicate the same parts as those in the embodiment shown in FIG. 36 and 37 are modules 1 and 2, respectively
Second semiconductor file device provided inside, 38, 3
Reference numeral 9 is a checkpoint database in the semiconductor file devices 36 and 37, and 40 and 41 are log information in the semiconductor file devices 37 and 38, respectively. The embodiment of FIG. 5 is different from the embodiment of FIG. 1 in that two semiconductor file devices are provided in each of the modules 1 and 2 and the checkpoint database and log information are duplicated in the two semiconductor file devices 36 and 37. It is to store it.
As a result, one of the semiconductor filing devices becomes an obstacle,
Even if the checkpoint database and the log information are lost, the checkpoint database and the log information can be read from the normal semiconductor file device and the restart processing can be performed, and the reliability can be further improved.

【0018】図6は、本発明の第4の実施例を示すトラ
ンザクション処理の高信頼化システムの構成図である。
図6において、符号1〜31および36〜41は図5の
実施例と同じものを示している。42はプロセッサ3が
半導体ファイル装置6に格納したチェックポイントデー
タベース、43はプロセッサ3が半導体ファイル装置6
に格納したログ情報である。図6においては、図5の状
態でトランザクション処理を行っているとき、半導体フ
ァイル装置5が障害となり(×で示す)、半導体ファイ
ル装置5内のチェックポイントデータベース15および
ログ情報17が失われたため、プロセッサ3が半導体フ
ァイル装置6にチェックポイントデータベース42およ
びログ情報43を格納した場合を示している。このよう
に、いずれか一方のモジュールの半導体ファイル装置の
1台が故障した場合、他モジュールの半導体ファイル装
置にチェックポイントデータベースおよびログ情報を書
き込むことにより、常にチェックポイントデータベース
およびログ情報が半導体ファイル装置に二重化して格納
されるため、全体としての信頼性をより一層向上でき
る。
FIG. 6 is a block diagram of a transaction processing high reliability system showing a fourth embodiment of the present invention.
In FIG. 6, reference numerals 1 to 31 and 36 to 41 indicate the same parts as those in the embodiment of FIG. 42 is a checkpoint database stored in the semiconductor file device 6 by the processor 3, 43 is the semiconductor file device 6 in the processor 3.
It is the log information stored in. In FIG. 6, when the transaction processing is performed in the state of FIG. 5, the semiconductor file device 5 becomes an obstacle (indicated by x), and the checkpoint database 15 and the log information 17 in the semiconductor file device 5 are lost. The case where the processor 3 stores the checkpoint database 42 and the log information 43 in the semiconductor file device 6 is shown. As described above, when one of the semiconductor file devices of one of the modules fails, the checkpoint database and the log information are written in the semiconductor file device of the other module so that the checkpoint database and the log information are always stored in the semiconductor file device. Since the data is redundantly stored in, the overall reliability can be further improved.

【0019】図7は、本発明の第5の実施例を示すトラ
ンザクション処理のノード間における高信頼化システム
の構成図である。図7において、1000は地点A(例
えば、東京)のノード、2000は地点B(例えば、大
阪)のノードである。地点Aと地点Bは離れた場所に位
置し、いずれかの地点で地震、水害等の災害によりノー
ド全体が障害となった場合に、他の正常なノードが障害
になったノードのバックアップを可能とするものであ
る。ノード1000内で、符号1〜31は図1と同じも
のを示し、ノード2000内の101〜131はそれぞ
れ図1の1〜31と同じものを示している。201,2
02は、それぞれプロセッサ103,3のデータベース
113、13のコピーデータベース、203,204は
それぞれプロセッサ104,4のデータベース114,
14のコピーデータベース、205,206はプロセッ
サ3,103のコピーデータベース201,202を予
め決められた周期で半導体ファイル装置5,105に格
納したチェックポイントデータベース、209,210
はプロセッサ4,104のコピーデータベース203,
204を予め決められた周期で半導体ファイル装置6,
106に格納したチェックポイントデータベース、20
7,208はプロセッサ3,103のコピーデータベー
ス201,202の更新履歴を半導体ファイル装置5,
105に格納したログ情報、211,212はプロセッ
サ4,104のコピーデータベース203,204の更
新履歴を半導体ファイル装置6,106に格納したログ
情報である。3000は、通信制御装置19と通信制御
装置119間を接続する通信回線である。
FIG. 7 is a block diagram of a high reliability system between nodes for transaction processing showing a fifth embodiment of the present invention. In FIG. 7, 1000 is a node at a point A (for example, Tokyo), and 2000 is a node at a point B (for example, Osaka). The points A and B are located apart from each other, and if an entire node fails due to a disaster such as an earthquake or water damage at any point, another normal node can back up the failed node. It is what In the node 1000, reference numerals 1 to 31 indicate the same as those in FIG. 1, and 101 to 131 in the node 2000 indicate the same as those in FIGS. 1 to 31. 201,2
02 is a copy database of the databases 113 and 13 of the processors 103 and 3, respectively, and 203 and 204 are databases 114 of the processors 104 and 4, respectively.
14 is a copy database, 205 and 206 are checkpoint databases in which the copy databases 201 and 202 of the processors 3 and 103 are stored in the semiconductor file devices 5 and 105 in a predetermined cycle, and 209 and 210.
Is a copy database 203 of the processors 4, 104,
204 in the semiconductor file device 6 at a predetermined cycle.
Checkpoint database stored in 106, 20
Reference numeral 7208 indicates the update history of the copy databases 201 and 202 of the processors 3 and 103 in the semiconductor file device 5;
Reference numeral 211 and 212 are log information stored in the semiconductor file device 6 and 106, and update history of the copy databases 203 and 204 of the processors 4 and 104 are stored in the semiconductor file device 6 and 106. A communication line 3000 connects between the communication control device 19 and the communication control device 119.

【0020】図7において、プロセッサ3,4,10
3,104はそれぞれデータベース13,14,11
3,114を用い、プロセッサの使用率50%以内でト
ランザクション処理を行う。ノード1000内では、モ
ジュール1とモジュール2とが相互バックアップ状態に
あり、ノード2000内ではモジュール101とモジュ
ール102とが相互バックアップ状態にある。各ノード
でのトランザクション処理および各ノード内で1台のモ
ジュールが障害となった場合のモジュール間のバックア
ップ処理は、図1において説明した通りである。ここで
は、ノード間のバックアップ処理について、図7により
説明する。ノード1000のモジュール1とノード20
00のモジュール101、ノード1000のモジュール
2とノード2000のモジュール102とが、相互バッ
クアップ状態にある。ノード1000の中央処理装置7
は、データベース13に対するトランザクション処理を
行うとともに、予め決められた周期でログ情報17を信
号線20を介して半導体ファイル装置5から読み出し、
信号線24を介して通信制御装置19に送る。通信制御
装置19は、ログ情報を通信回線3000を介して通信
制御装置119に送る。通信制御装置119は、ログ情
報を通信回線124を介して中央処理装置107に送
る。
In FIG. 7, processors 3, 4, 10
3 and 104 are databases 13, 14 and 11, respectively.
3, 114, transaction processing is performed within a processor usage rate of 50%. In the node 1000, the module 1 and the module 2 are in the mutual backup state, and in the node 2000, the module 101 and the module 102 are in the mutual backup state. Transaction processing in each node and backup processing between modules when one module fails in each node are as described in FIG. Here, the backup process between nodes will be described with reference to FIG. Module 1 of node 1000 and node 20
The module 101 of 00, the module 2 of the node 1000, and the module 102 of the node 2000 are in a mutual backup state. Central processing unit 7 of node 1000
Performs transaction processing on the database 13, reads the log information 17 from the semiconductor file device 5 via the signal line 20 at a predetermined cycle,
It is sent to the communication control device 19 via the signal line 24. The communication control device 19 sends the log information to the communication control device 119 via the communication line 3000. The communication control device 119 sends the log information to the central processing unit 107 via the communication line 124.

【0021】中央処理装置107は、送られたログ情報
をもとにコピーデータベース202を書き換える。ま
た、中央処理装置107は、送られたログ情報を信号線
120を介して半導体ファイル装置105のログ情報格
納エリア208に書き込む。プロセッサ109のコピー
データベース202は、中央処理装置107の制御のも
とに、予め決められた周期で信号線120を介して半導
体ファイル装置105のチェックポイントデータベース
格納エリア206に書き込まれる。全く同じように、ノ
ード2000のプロセッサ103のデータベース113
は、ノード1000のプロセッサ3内のコピーデータベ
ース201に復元され、さらに半導体ファイル装置5内
にコピーデータベース201のチェックポイントデータ
ベース205およびログ情報207が格納される。以
上、ノード1000内のモジュール1とノード2000
内のモジュール101のデータベースを相互に送り合っ
て、相手モジュールのデータベースのコピーを主メモリ
に復元する方法、およびチェックポイントデータベー
ス、ログ情報を半導体ファイル装置に格納する方法につ
いて述べた。全く同じようにして、ノード1000内の
モジュール2とノード2000内のモジュール102
は、相互バックアップ状態にある。
The central processing unit 107 rewrites the copy database 202 based on the sent log information. Further, the central processing unit 107 writes the sent log information in the log information storage area 208 of the semiconductor file device 105 via the signal line 120. The copy database 202 of the processor 109 is written in the checkpoint database storage area 206 of the semiconductor file device 105 via the signal line 120 at a predetermined cycle under the control of the central processing unit 107. Exactly the same, the database 113 of the processor 103 of the node 2000
Is restored to the copy database 201 in the processor 3 of the node 1000, and the checkpoint database 205 and the log information 207 of the copy database 201 are stored in the semiconductor file device 5. As described above, the module 1 in the node 1000 and the node 2000
The method of transmitting the databases of the modules 101 in each other to each other to restore a copy of the database of the counterpart module to the main memory, and the method of storing the checkpoint database and the log information in the semiconductor file device have been described. In exactly the same way, module 2 in node 1000 and module 102 in node 2000
Are in mutual backup state.

【0022】このような状態で、ノード2000が地
震、水害等の災害によりトランザクション処理が停止す
ると、図7では図示省略されているが、通信回線26,
126に接続され、これらのノードが正常か否かを監視
する管理ノードにより障害が検出されるので、管理ノー
ドによりトランザクション送出元にノード2000が障
害である旨を通知する。以後、トランザクションは、通
信回線26を介してノード1000に送られる。トラン
ザクションを受信した通信制御装置19は、信号線2
4,25を介して中央処理装置7,8に通知する。中央
処理装置7は、50%の使用率で自モジュールへのトラ
ンザクション処理を行うとともに、残りの50%のプロ
セッサ使用率でモジュール101に対するトランザクシ
ョン処理もデータベース201を用いて処理する。中央
処理装置8も、同じように50%のプロセッサ使用率で
自モジュールに対するトランザクション処理を行いなが
ら、残りの50%のプロセッサ使用率でモジュール10
2に対するトランザクションをデータベース203を用
いて処理する。各モジュールは、正常時にはプロセッサ
の使用率50%以内で自モジュールに対するトランザク
ション処理を行いながら、残りの50%のプロセッサ使
用率により、 同一ノード内のモジュール障害時には、正常なモジュ
ールが障害となったモジュールのトランザクション処理
をバックアップし、 ノード全体が障害時には、正常なノードの2台のモジ
ュールが障害となったノードの2台のモジュールに対す
るトランザクション処理をバックアップする。このよう
に、ノード内でのモジュール間相互バックアップと、ノ
ード間での相互バックアップのためのプロセッサの使用
率の余裕を共用することにより、高い信頼度を維持した
まま、経済的にシステムを構成することができる。
In this state, if the node 2000 stops transaction processing due to a disaster such as an earthquake or water damage, the communication line 26, though not shown in FIG.
Since a failure is detected by the management node connected to 126 and monitoring whether these nodes are normal, the management node notifies the transaction sender that the node 2000 has a failure. Thereafter, the transaction is sent to the node 1000 via the communication line 26. The communication control device 19 that received the transaction uses the signal line 2
The central processing unit 7, 8 is notified via 4, 25. The central processing unit 7 performs transaction processing for its own module at a usage rate of 50%, and also uses the database 201 for transaction processing for the module 101 at the remaining 50% processor usage rate. Similarly, the central processing unit 8 performs transaction processing for its own module at a processor usage rate of 50%, and the module 10 at the remaining 50% processor usage rate.
The transaction for 2 is processed using the database 203. Each module performs transaction processing to its own module within the processor usage rate of 50% during normal operation, but due to the remaining 50% of processor usage rate, when a module failure occurs in the same node, the normal module fails When the entire node fails, the two modules of the normal node back up the transaction processing of the two modules of the failed node. In this way, by sharing the mutual backup between modules within a node and the margin of processor usage for mutual backup between nodes, a system can be economically constructed while maintaining high reliability. be able to.

【0023】[0023]

【発明の効果】以上説明したように、本発明によれば、
同一地点内の2台のモジュールによる相互バックアップ
では、いずれか一方のモジュールが障害となったとき、
正常なモジュールで処理していたトランザクション処理
に影響を与えることなく、障害となったモジュールに対
するトランザクション処理をバックアップできる。ま
た、地震、水害等の大規模災害に対して、システム全体
として高信頼化を図るためには、異なる2地点間での相
互バックアップが必要となるが、ノード内のモジュール
間相互バックアップのためのプロセッサ使用率の余裕と
ノード間相互バックアップのためのプロセッサ使用率の
余裕を共用することにより、システムの高信頼化を保証
しながら、システム全体としての経済化を図ることがで
きる。
As described above, according to the present invention,
In mutual backup by two modules in the same point, when one of the modules fails,
The transaction processing for the failed module can be backed up without affecting the transaction processing that was being processed by the normal module. In addition, in order to improve the reliability of the entire system against large-scale disasters such as earthquakes and floods, mutual backup between two different points is necessary. By sharing the margin of the processor usage rate and the margin of the processor usage rate for mutual backup between nodes, it is possible to make the system as a whole economical while ensuring the high reliability of the system.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の第1の実施例を示すトランザクション
処理の高信頼化システムの構成図である。
FIG. 1 is a configuration diagram of a transaction processing high reliability system according to a first embodiment of the present invention.

【図2】図1におけるアクトプロセッサの正常時動作お
よび障害時動作のフローチャートである。
FIG. 2 is a flowchart of a normal operation and a failure operation of the act processor in FIG.

【図3】図1におけるスタンバイプロセッサの障害時動
作のフローチャートである。
FIG. 3 is a flow chart of a failure operation of the standby processor in FIG.

【図4】本発明の第2の実施例を示すトランザクション
処理の高信頼化システムの構成図である。
FIG. 4 is a configuration diagram of a transaction processing high reliability system showing a second embodiment of the present invention.

【図5】本発明の第3の実施例を示すトランザクション
処理の高信頼化システムの構成図である。
FIG. 5 is a configuration diagram of a transaction processing high reliability system showing a third embodiment of the present invention.

【図6】本発明の第4の実施例を示すトランザクション
処理の高信頼化システムの構成図である。
FIG. 6 is a configuration diagram of a transaction processing high reliability system showing a fourth embodiment of the present invention.

【図7】本発明の第5の実施例を示すトランザクション
処理のノード間の高信頼化システムの構成図である。
FIG. 7 is a block diagram of a high reliability system between nodes of transaction processing showing a fifth embodiment of the present invention.

【図8】従来のトランザクション処理の高信頼化システ
ムの構成図である。
FIG. 8 is a block diagram of a conventional high reliability system for transaction processing.

【図9】従来のトランザクション処理のノード間の高信
頼化システムの構成図である。
FIG. 9 is a configuration diagram of a conventional high reliability system between transaction processing nodes.

【符号の説明】[Explanation of symbols]

1,2…モジュール、3,4…プロセッサ、5,6…半
導体ファイル装置、7,8…中央処理装置、9,10…
主メモリ、11,12…障害検出・通知装置、13,1
4…データベース、15,16…チェックポイントデー
タベース、17,18…ログ情報、19…通信制御装
置、26…通信回線、20〜25,27…信号線、3
2,33…半導体ファイル装置内の相手方チェックポイ
ントデータベース、34,35…半導体ファイル装置内
の相手方ログ情報、36,37…他の半導体ファイル装
置、38,39…他の半導体ファイル装置内のチェック
ポイントデータベース、40,41…他の半導体ファイ
ル装置内のログ情報、42,43…相手方のチェックポ
イントデータベース、およびログ情報、101,102
…モジュール、103,104…プロセッサ、105,
106…半導体ファイル装置、107,108…中央処
理装置、109,110…主メモリ、111,112…
障害検出・通知装置、113,114,115,116
…チェックポイントデータベース、202,204,1
17,118…ログ情報。
1, 2 ... Module, 3, 4 ... Processor, 5, 6 ... Semiconductor file device, 7, 8 ... Central processing unit, 9, 10 ...
Main memory, 11, 12 ... Fault detection / notification device, 13, 1
4 ... Database, 15, 16 ... Checkpoint database, 17, 18 ... Log information, 19 ... Communication control device, 26 ... Communication line, 20-25, 27 ... Signal line, 3
2, 33 ... Counterpart checkpoint database in semiconductor file device, 34, 35 ... Counterpart log information in semiconductor file device, 36, 37 ... Other semiconductor file device, 38, 39 ... Checkpoint in other semiconductor file device Database, 40, 41 ... Log information in other semiconductor file device, 42, 43 ... Counterpart checkpoint database and log information, 101, 102
... module, 103, 104 ... processor, 105,
106 ... Semiconductor file device, 107, 108 ... Central processing unit, 109, 110 ... Main memory, 111, 112 ...
Fault detection / notification device, 113, 114, 115, 116
… Checkpoint database, 202, 204, 1
17, 118 ... Log information.

───────────────────────────────────────────────────── フロントページの続き (72)発明者 鈴木 孝至 東京都千代田区内幸町1丁目1番6号 日 本電信電話株式会社内 ─────────────────────────────────────────────────── ─── Continuation of the front page (72) Inventor Takashi Suzuki 1-1-6 Uchisaiwaicho, Chiyoda-ku, Tokyo Nihon Telegraph and Telephone Corporation

Claims (6)

【特許請求の範囲】[Claims] 【請求項1】プロセッサと該プロセッサによりアクセス
される半導体ファイル装置とを備えたモジュールを2台
設置し、データベースを用いてトランザクション処理を
行う高信頼の情報処理システムにおいて、 各モジュールのプロセッサの使用率が50%以下となる
ように、各モジュールに割り当てられたデータベースを
格納する主メモリと、 各モジュールが障害となり、自ら回復処理を実施した
が、回復できないことが判明したとき、その旨を他モジ
ュールに通知する障害通知手段と、 該障害通知手段により通知を受けると、各モジュールが
相互に他モジュールの半導体ファイル装置をアクセスし
て、チェックポイント時点のデータベースを上記主メモ
リに読み出すとともに、該チェックポイント時点後のロ
グ情報を読み出し、上記データベースに上書きして、障
害時点の他モジュールのデータベースを復元する中央処
理手段とを有することを特徴とする高信頼化システム。
1. A highly reliable information processing system in which two modules each including a processor and a semiconductor file device accessed by the processor are installed, and a transaction processing is performed using a database. The main memory that stores the database allocated to each module and each module has failed so that the recovery rate is 50% or less. To the semiconductor memory device of another module upon receiving the notification from the fault notifying means, and reads out the database at the checkpoint into the main memory and also Read the log information after the time point and High reliability system, characterized in that it comprises overwriting the base, a central processing unit for restoring a database of other modules of the point of failure.
【請求項2】プロセッサと該プロセッサによりアクセス
される半導体ファイル装置とを備えたモジュールを2台
設置し、データベースを用いてトランザクション処理を
行う高信頼化方法において、 使用率が50%以下となるように、分割されたデータベ
ースが割り当てられた各モジュールは、割り当てられた
全てのデータベースを主メモリに格納し、該データベー
スを用いてトランザクション処理を行い、該データベー
スの更新を主メモリ上で行うとともに、該データベース
の更新履歴をログ情報として上記半導体ファイル装置に
書き込み、かつ予め決められたチェックポイントで主メ
モリ上の全てのデータベースをチェックポイント情報と
して該半導体ファイル装置に書き込み、 トランザクション処理中に障害となったモジュールは、
半導体ファイル装置からチェックポイント時点のデータ
ベースを主メモリ上に読み出すとともに、該チェックポ
イント時点後のログ情報を読み出して、該ログ情報で上
記データベース上に上書きし、障害時点のデータベース
を復元して、トランザクション処理を再開するが、 再度障害となった場合には、同じ処理を繰り返して、予
め決められた回数の再開処理を行っても回復しない場合
には、固定障害であることを2台のうちの正常なモジュ
ールに通知し、 該正常なモジュールは、プロセッサの50%の使用率で
自モジュールに対するトランザクション処理を行いなが
ら、残りの50%の使用率で障害となったモジュールの
半導体ファイル装置からチェックポイント時点のデータ
ベースを主メモリ上に読み出し、該チェックポイント時
点後のログ情報を読み出して、該ログ情報で上記データ
ベースに上書きし、障害となった時点の他モジュールの
データベースを復元して、他モジュールのデータベース
に対するトランザクション処理も処理することを特徴と
する高信頼化方法。
2. In a high reliability method in which two modules each having a processor and a semiconductor file device accessed by the processor are installed and transaction processing is performed using a database, the usage rate is 50% or less. Further, each module to which the divided database is allocated stores all the allocated databases in the main memory, performs transaction processing using the database, updates the database on the main memory, and The update history of the database is written as log information in the semiconductor file device, and all databases on the main memory are written as checkpoint information in the semiconductor file device at a predetermined checkpoint, causing a failure during transaction processing. The module is
The database at the checkpoint time is read from the semiconductor file device into the main memory, the log information after the checkpoint time is read out, the database is overwritten with the log information, the database at the time of the failure is restored, and the transaction is performed. The process is restarted, but if a failure occurs again, the same process is repeated, and if it does not recover even after the restart process is performed a predetermined number of times, it means that there is a fixed failure among the two. The normal module is notified, and the normal module performs transaction processing for its own module at the usage rate of 50% of the processor, and checks points from the semiconductor file device of the failed module at the remaining usage rate of 50%. After reading the database of the time point into the main memory, after the check point A high reliability method characterized in that the log information is read, the database is overwritten with the log information, the database of another module at the time of the failure is restored, and transaction processing for the database of the other module is also processed. .
【請求項3】前記各モジュールは、チェックポイント時
点のデータベースおよびログ情報を、自モジュール内の
半導体ファイル装置と、他モジュール内の半導体ファイ
ル装置の両方に二重化して格納することを特徴とする請
求項2に記載の高信頼化方法。
3. Each module stores the database and log information at the time of checkpoint in a duplicated manner in both the semiconductor file device in its own module and the semiconductor file device in another module. Item 3. The high reliability method according to Item 2.
【請求項4】前記各モジュールは、半導体ファイル装置
を2台設け、チェックポイント時点のデータベースおよ
びログ情報を前記2台の半導体ファイル装置に二重化し
て格納することを特徴とする請求項2に記載の高信頼化
方法。
4. The module according to claim 2, wherein each of the modules is provided with two semiconductor file devices, and the database and log information at the time of checkpoint are duplicated and stored in the two semiconductor file devices. High reliability method.
【請求項5】前記各モジュールは、半導体ファイル装置
の2台のうちの1台が故障した場合、他モジュールの1
台にもチェックポイント時点のデータベースおよびログ
情報を格納し、常にチェックポイント時点のデータベー
スおよびログ情報を2台の半導体ファイル装置に二重化
して格納することを特徴とする請求項4に記載の高信頼
化方法。
5. Each of the modules has a capacity of one of the other modules when one of the two semiconductor file devices fails.
The database and log information at the time of checkpoint is also stored in the stand, and the database and log information at the time of checkpoint is always duplicated and stored in two semiconductor file devices. Method.
【請求項6】前記2台のモジュールを異なる2地点A,
Bに設置し、それぞれ分散してトランザクション処理を
行い、 地点Aの第1のモジュールと地点Bの第1のモジュール
は相互に相手モジュールのデータベースを備え、自モジ
ュールのデータベースのログ情報を通信回線を介して送
信し、該ログ情報を受信したモジュールは、相手モジュ
ールのデータベースを更新し、 地点Aの第2のモジュールと地点Bの第2のモジュール
も上記と同じ処理を行い、 A,Bいずれかの地点で1台のモジュールが障害となっ
た場合には、同一地点の正常なモジュールが障害となっ
たモジュールのトランザクション処理を継続し、 A,Bいずれかの地点で2台のモジュールが同時に障害
となった場合には、他地点の2台のモジュールが、障害
となった地点の2台のモジュールのトランザクション処
理を継続することを特徴とする請求項2に記載の高信頼
化方法。
6. The two modules are connected to two different points A,
They are installed in B and perform transaction processing in a distributed manner. The first module at point A and the first module at point B are provided with the database of the other module, and the log information of the database of the own module is connected to the communication line. The module that has transmitted the log information via the update module updates the database of the other module, and the second module at the point A and the second module at the point B also perform the same processing as described above. If one module fails at point A, the normal module at the same point continues the transaction processing of the failed module, and two modules fail at either point A or B at the same time. If this happens, the two modules at other points can continue the transaction processing of the two modules at the point of failure. Reliable method of claim 2, wherein.
JP7082175A 1995-04-07 1995-04-07 System and method for high reliability Pending JPH08278909A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7082175A JPH08278909A (en) 1995-04-07 1995-04-07 System and method for high reliability

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7082175A JPH08278909A (en) 1995-04-07 1995-04-07 System and method for high reliability

Publications (1)

Publication Number Publication Date
JPH08278909A true JPH08278909A (en) 1996-10-22

Family

ID=13767104

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7082175A Pending JPH08278909A (en) 1995-04-07 1995-04-07 System and method for high reliability

Country Status (1)

Country Link
JP (1) JPH08278909A (en)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005339300A (en) * 2004-05-28 2005-12-08 Hitachi Ltd Database processing method, system, and its processing program
JP2006164080A (en) * 2004-12-09 2006-06-22 Hitachi Ltd Data processing method and system
JP2007304859A (en) * 2006-05-11 2007-11-22 Hitachi Ltd Computer system for managing writing frequency on storage medium and control method for it
JP2008293256A (en) * 2007-05-24 2008-12-04 Nec Corp File backup method and program in redundant server system, and redundant server system
JP2009042846A (en) * 2007-08-06 2009-02-26 Hitachi Ltd Distributed monitoring control system
JP2010160822A (en) * 2010-04-23 2010-07-22 Hitachi Ltd Data base processing method, data base processing system and data base processing program
JP2010530108A (en) * 2007-06-15 2010-09-02 サヴィス・インコーポレーテッド Shared data center disaster recovery system and method
US8281007B2 (en) 2006-03-28 2012-10-02 Fujitsu Limited Cluster control apparatus, cluster control method, and computer product
JP2017021415A (en) * 2015-07-07 2017-01-26 株式会社東芝 Disaster prevention information system, transmission and reception method, disaster prevention information transmission and reception device and computer program

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005339300A (en) * 2004-05-28 2005-12-08 Hitachi Ltd Database processing method, system, and its processing program
JP4572581B2 (en) * 2004-05-28 2010-11-04 株式会社日立製作所 Database processing method and system, and processing program therefor
JP2006164080A (en) * 2004-12-09 2006-06-22 Hitachi Ltd Data processing method and system
JP4671399B2 (en) * 2004-12-09 2011-04-13 株式会社日立製作所 Data processing system
US8281007B2 (en) 2006-03-28 2012-10-02 Fujitsu Limited Cluster control apparatus, cluster control method, and computer product
JP2007304859A (en) * 2006-05-11 2007-11-22 Hitachi Ltd Computer system for managing writing frequency on storage medium and control method for it
JP2008293256A (en) * 2007-05-24 2008-12-04 Nec Corp File backup method and program in redundant server system, and redundant server system
JP2010530108A (en) * 2007-06-15 2010-09-02 サヴィス・インコーポレーテッド Shared data center disaster recovery system and method
JP2009042846A (en) * 2007-08-06 2009-02-26 Hitachi Ltd Distributed monitoring control system
JP2010160822A (en) * 2010-04-23 2010-07-22 Hitachi Ltd Data base processing method, data base processing system and data base processing program
JP2017021415A (en) * 2015-07-07 2017-01-26 株式会社東芝 Disaster prevention information system, transmission and reception method, disaster prevention information transmission and reception device and computer program

Similar Documents

Publication Publication Date Title
US7577867B2 (en) Cross tagging to data for consistent recovery
US6539462B1 (en) Remote data copy using a prospective suspend command
EP1639470B1 (en) Method, system and program for handling a failover to a remote storage location
US6622263B1 (en) Method and apparatus for achieving system-directed checkpointing without specialized hardware assistance
US6697960B1 (en) Method and system for recovering data to maintain business continuity
US7577788B2 (en) Disk array apparatus and disk array apparatus control method
US7539703B2 (en) Setup method for disaster recovery system
US7694177B2 (en) Method and system for resynchronizing data between a primary and mirror data storage system
CN100492307C (en) System and method for solving failure
US20070276983A1 (en) System method and circuit for differential mirroring of data
US7882316B2 (en) Shared data mirroring apparatus, method, and system
KR19980024086A (en) Computer system and file management methods
JP2001356945A (en) Data backup recovery system
JPH086910A (en) Cluster type computer system
CN112181723A (en) Financial disaster recovery method and device, storage medium and electronic equipment
JPH08278909A (en) System and method for high reliability
KR100290057B1 (en) File system and file management methods
US11307944B2 (en) Automated failover for asynchronous remote copy
CN112948484A (en) Distributed database system and data disaster recovery drilling method
JP2011253400A (en) Distributed mirrored disk system, computer device, mirroring method and its program
JP3788822B2 (en) Computer system and failure recovery method in the system
JPH10133926A (en) Mirror disk restoring method and restoring system
EP1056011A2 (en) Method and system for recovering data
JP7371547B2 (en) Node, mirroring type cluster system, restore detection method, and program
JP2511542B2 (en) Information processing system

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040319