JP4476190B2 - Multi-computer system - Google Patents
Multi-computer system Download PDFInfo
- Publication number
- JP4476190B2 JP4476190B2 JP2005214198A JP2005214198A JP4476190B2 JP 4476190 B2 JP4476190 B2 JP 4476190B2 JP 2005214198 A JP2005214198 A JP 2005214198A JP 2005214198 A JP2005214198 A JP 2005214198A JP 4476190 B2 JP4476190 B2 JP 4476190B2
- Authority
- JP
- Japan
- Prior art keywords
- computer
- microkernel
- data
- computers
- shared memory
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
この発明は、システムの障害からの並列回復時に計算機内の内部データを同期化する多重系計算機システムに関するものである。 The present invention relates to a multi-computer system that synchronizes internal data in a computer during parallel recovery from a system failure.
鉄道運行管理システムなどの高信頼性が求められる制御用計算機システムは、処理を行う稼動系計算機のほかに、稼動系計算機に障害が発生した場合に処理を引き継ぐ待機系計算機を備えた多重系のシステムとして利用される場合が多い。
特許文献1のように、従来の多重系システムにおいては、一方の計算機に障害が発生するなどして停止した後、計算機を起動すると、起動後に正常な他方の稼動系計算機から時刻情報や、各種データを受信することにより、稼動系と待機系の計算機の同期を図る並列回復を行っていた。
Control computer systems that require high reliability, such as railway operation management systems, are not only active computers that perform processing, but also multi-systems that have standby computers that take over processing in the event of a failure in the active computer. Often used as a system.
As in Patent Document 1, in a conventional multiplex system, when one computer is stopped due to a failure or the like and then the computer is started, time information and various information are obtained from the other active system computer after the start. By receiving data, parallel recovery was performed to synchronize the active and standby computers.
特許文献1の従来の多重系システムでは、計算機に障害が発生し、再起動により回復する際には、正常な稼動系計算機よりネットワークを介して多くのデータを受信することにより同期を図っている。このデータ量は多く、稼動系計算機では負荷が重くなるという問題がある。
また、確実な同期を図るために、送信するデータに該当する機能を抑制した上でデータの送信を行っている。このような稼動系計算機の機能を長時間に渡り抑制した状態で保つことは、システムに悪影響を与えるという問題があった。
In the conventional multiplex system of Patent Document 1, when a computer fails and is recovered by restart, synchronization is achieved by receiving more data from the normal operating system via the network. . This amount of data is large, and there is a problem that the load is heavy on the active computer.
Further, in order to achieve reliable synchronization, data transmission is performed after suppressing functions corresponding to data to be transmitted. Maintaining such a function of the active computer for a long time has a problem of adversely affecting the system.
この発明は、上述のような課題を解決するためになされたものであり、障害からの回復時に、ネットワークを介したデータの送受信をすることなく、素早く多重系構成に回復することができる信頼性の高い多重系計算機システムを得ることを目的としている。 The present invention has been made to solve the above-described problems, and is capable of quickly recovering to a multi-system configuration without transmitting / receiving data via a network when recovering from a failure. The purpose is to obtain a multi-computer system with high accuracy.
この発明に係わる多重系計算機システムにおいては、稼動系及び待機系の計算機がネットワークを介して多重系を構成する多重系計算機システムにおいて、各計算機は、アプリケーションを実行するオペレーティングシステム、このオペレーティングシステムとは独立に動作し、ネットワークを介して他の計算機と通信する通信管理プログラムを管理するマイクロカーネル、及びこのマイクロカーネルにより管理されると共にオペレーティングシステムによりアクセスされる共有メモリ領域を有するメモリを備え、マイクロカーネルは、共有メモリ領域に、自計算機のオペレーティングシステムが故障から回復するときに必要なデータを保存すると共に、オペレーティングシステムが停止中に、回復するときに必要なデータが更新された場合には、他の計算機から更新されたデータを受信し、保存したデータを更新するものである。 In the multi-system computer system according to the present invention, in the multi-system computer system in which active and standby computers constitute a multi-system via a network, each computer is an operating system for executing an application, and this operating system is A microkernel comprising a microkernel that operates independently and manages a communication management program that communicates with other computers via a network, and a memory having a shared memory area that is managed by the microkernel and accessed by the operating system It is shared memory area, the store data necessary when the operating system of its own computer to recover from a failure, while the operating system is stopped, if the data is updated as required when recovering Receives the updated data from another computer, it is to update the stored data.
この発明は、以上説明したように、稼動系及び待機系の計算機がネットワークを介して多重系を構成する多重系計算機システムにおいて、各計算機は、アプリケーションを実行するオペレーティングシステム、このオペレーティングシステムとは独立に動作し、ネットワークを介して他の計算機と通信する通信管理プログラムを管理するマイクロカーネル、及びこのマイクロカーネルにより管理されると共にオペレーティングシステムによりアクセスされる共有メモリ領域を有するメモリを備え、マイクロカーネルは、共有メモリ領域に、自計算機のオペレーティングシステムが故障から回復するときに必要なデータを保存すると共に、オペレーティングシステムが停止中に、回復するときに必要なデータが更新された場合には、他の計算機から更新されたデータを受信し、保存したデータを更新するので、障害からの回復時に、この共有メモリ領域のデータを利用することにより、ネットワークを介したデータの送受信をすることなく、素早く多重系構成に回復することができる。
As described above, according to the present invention, in a multi-system computer system in which active and standby computers constitute a multi-system via a network, each computer is an operating system that executes an application, and is independent of this operating system. A microkernel that manages a communication management program that communicates with other computers via a network, and a memory that has a shared memory area that is managed by the microkernel and that is accessed by the operating system. In the shared memory area, save the data required when the computer's operating system recovers from a failure, and if the data required for recovery is updated while the operating system is stopped, calculator It receives et updated data, since updating the stored data, during recovery from a failure, by using the data of the shared memory area, without the transmission and reception of data via the network, fast multiplexing system Can recover to configuration.
実施の形態1.
図1は、この発明の実施の形態1による多重系計算機システムを示す構成図である。
図1では、多重系計算機システムは、2台の制御用計算機からなる2重系システムである。ただし、制御用計算機は3台以上で構成されてもよい。
図1において、制御用計算機10、11は、それぞれ稼動系計算機、待機系計算機として動作する。制御用計算機10、11は、それぞれネットワークカード50、メインメモリ20、中央演算処理装置(以下、CPUと称す)60、DIO(Digital I/O)カード110を備えており、これらはバスによって接続される。この他、ハードディスク装置、入出力装置などが接続される場合もある。
ネットワークカード50は、イーサネット(登録商標)のネットワーク90に接続され、このイーサネット(登録商標)のネットワーク90は、他計算機とも接続される。このネットワーク90を介して、制御用計算機10と制御用計算機11は通信を行い、また他計算機とも通信を行う。また、両系の計算機は、DIO接点120を使用して接続されている。
Embodiment 1 FIG.
FIG. 1 is a block diagram showing a multi-computer system according to Embodiment 1 of the present invention.
In FIG. 1, the multi-computer system is a dual system composed of two control computers. However, the control computer may be composed of three or more.
In FIG. 1, control
The
制御用計算機10と制御用計算機11が共に正常な状態であるとき、稼動系である制御用計算機10のメインメモリ20には、OS(オペレーティングシステム)80、マイクロカーネル40、アプリケーション70、及び通信管理プログラムなどのマイクロカーネル40下で動作するアプリケーション100がロードされる。
同様に、待機系である制御用計算機11のメインメモリ20にも、OS80、マイクロカーネル40、アプリケーション70、及びマイクロカーネル40のアプリケーション100がロードされる。これらのプログラムは、制御用計算機10、11の両方で実行されている。なお、制御用計算機11では、アプリケーション70が実行されていない場合もある。
アプリケーション70は、該当の多重系システムの用途である処理を行うプログラムである。また、メインメモリ20には、回復に必要なデータ30がマイクロカーネル40により保存される。
When both the
Similarly, the
The
次に、動作について説明する。
マイクロカーネル40は、OSのカーネルから独立したもので、OS80より下位に位置付けられるプログラムであり、OS80の稼動状況の監視や、通信管理プログラムなどのリアルタイム性を要求されるプログラムを管理する。CPU60の処理時間は、マイクロカーネル40に優先的に割り当てられ、OS80には残りの時間が割り当てられる。
メインメモリ20は、マイクロカーネル40により管理・利用される領域と、OS80によって管理・利用される領域に割り当てられる。その他のPCI(Peripheral Component Interconnect)などのデバイスがある場合には、マイクロカーネル40が、マイクロカーネル40により管理するか、OS80により管理するかを割り当てる。DIOカード110は、マイクロカーネル40により管理され、他の計算機のマイクロカーネル40との相互通信に用いられる。また、マイクロカーネル40は、ネットワークカード50の管理も行う。
通信管理プログラムは、ネットワーク90を介して他の計算機から受信した受信データのうち、アプリケーション70に必要なデータをOS80に対して送信するプログラムである。この通信には、バス通信や、仮想イーサネット(登録商標)通信が用いられる。
Next, the operation will be described.
The
The
The communication management program is a program that transmits data necessary for the
メインメモリ20のマイクロカーネル40の管理する領域は、OS80からのアクセスを可能としている。すなわち、マイクロカーネル40とOS80とにより共有される共有メモリ領域である。この共有メモリ領域は、OS80からは通常のRAMディスクと同様に認識され、直接アクセス可能である。この共有メモリ領域は、マイクロカーネル40により管理されるため、マイクロカーネル40が起動している間は、OS80が停止してもその内容は失われない。
この共有メモリ領域には、従来のシステムでの回復時に他系計算機から受信していたような、回復に必要な各種データ30が保存される。マイクロカーネル40は、上述のように通信管理プログラムを管理しているので、OS80停止時にも他系計算機や、その他の装置からのメッセージを受信することができる。OS80停止中に状態が変化し、回復に必要なデータが更新された場合には、ネットワーク90を通じてマイクロカーネル40が受信し、データ30を更新する。
An area managed by the
In this shared memory area,
次に、実施の形態1の多重系計算機システムにおける障害からの回復動作について説明する。
制御用計算機10と制御用計算機11は、DIOカード110を通じて接続され、マイクロカーネル40が、DIOカード110を介して他の計算機のマイクロカーネル40と相互通信することにより他の計算機を監視する。すなわち、マイクロカーネル40が、DIOカード110を介して互いの計算機の運転状態を常時監視するようになっている。この相互通信により、制御用計算機11は、制御用計算機10に異常が発生したと判断すると、自らを稼動系計算機とする。
また、それぞれの制御用計算機10、11のマイクロカーネル40は、一定間隔でOS80に対して生存メッセージを送ることを要求する。OS80に異常が発生し、生存メッセージを受信することができなくなると、マイクロカーネル40は、それを検知し、OS80を再起動する。
マイクロカーネル40は、共有メモリ領域に、回復に必要なデータ30を保持しており、このデータ30を使って多重系構成へと回復する。
マイクロカーネル40の管理するネットワークカード50を用いて、OS80停止中に、稼動系の制御用計算機11のマイクロカーネル40やその他装置から各種データの受信を行い、このデータを更新し、これを用いて多重系構成へ回復する場合もある。
Next, a recovery operation from a failure in the multi-computer system according to the first embodiment will be described.
The
Further, the
The
Using the
実施の形態1によれば、このように、OSとは別にマイクロカーネルが管理するメモリ領域を設け、この領域へのOSからのアクセスを可能にし、この領域に故障からの回復に必要なデータを保存し、故障回復時には、このデータを利用することにより、異常停止からの回復時間を短縮する効果がある。 According to the first embodiment, in this way, a memory area managed by the microkernel is provided separately from the OS, the OS can access this area, and data necessary for recovery from the failure is stored in this area. By saving and using this data during failure recovery, there is an effect of shortening the recovery time from an abnormal stop.
実施の形態2.
実施の形態1では、回復に必要なデータ30をマイクロカーネル40が管理する共有メモリ領域に保存することにより、回復時間の短縮を可能にしたが、実施の形態2では、この共有メモリ領域にさらに自計算機の動作状況を保存するようにしたものである。
図2は、この発明の実施の形態2による多重系計算機システムを示す構成図である。
図2において、10、11、20、30、40、50、60、70、80、90、100は図1におけるものと同一のものである。図2では、制御用計算機10、11は、DIOカード110を持っていない。すなわち、実施の形態1のように、計算機の相互監視をDIO接点を利用して行わないものである。
Embodiment 2. FIG.
In the first embodiment, the recovery time can be shortened by storing the
FIG. 2 is a block diagram showing a multi-computer system according to the second embodiment of the present invention.
In FIG. 2, 10, 11, 20, 30, 40, 50, 60, 70, 80, 90, 100 are the same as those in FIG. In FIG. 2, the
次に、動作について説明する。
図2の制御用計算機10のマイクロカーネル40は、一定間隔でOS80が管理するアプリケーション70に対して、動作状況確認メッセージを送信する。メッセージを受信したアプリケーション70は、自制御用計算機が稼動系として動作しているのか、待機系として動作しているのか、または回復動作中であるのかの動作状況の情報を、マイクロカーネル40が管理するOS80との共有メモリ領域に保存する。
一方、制御用計算機11のマイクロカーネル40も、同様にOS80が管理するアプリケーション70に対して、動作状況確認メッセージを送信し、自制御用計算機の動作状況を得て、共有メモリ領域に保存する。
そして、一定時間以上、この情報へのアクセスがない場合は、マイクロカーネル40は、自制御用計算機のOS80が停止していると判断し、この情報を停止状態に変更する。
Next, the operation will be described.
The
On the other hand, the
If there is no access to this information for a certain time or more, the
制御用計算機10、11のマイクロカーネル40は、互いにこの動作状況に関する情報を、ネットワーク90を通じて相互通信し、互いに監視することにより、他系監視を行うことができる。
実施の形態1では、DIO接点情報を用いて監視していたが、実施の形態2では、本発明を利用することにより、実施の形態1と比較して安価に他系監視を行うことが可能になる。
The
In the first embodiment, monitoring is performed using DIO contact information, but in the second embodiment, by using the present invention, it is possible to monitor other systems at a lower cost than in the first embodiment. become.
実施の形態2によれば、各制御用計算機のマイクロカーネルで、OSが管理するアプリケーションに対して、動作状況を確認し、自制御用計算機が、稼動系か待機系かあるいは回復中かを示す情報を共有メモリ領域に保存し、この情報を相互に交換することにより他系監視を行うことができる。 According to the second embodiment, the microkernel of each control computer confirms the operation status with respect to the application managed by the OS, and indicates whether the self-control computer is an active system, a standby system, or being recovered. Other systems can be monitored by storing information in a shared memory area and exchanging this information with each other.
10 制御用計算機A系、11 制御用計算機B系、20 メインメモリ、
30 回復に必要なデータ、40 マイクロカーネル、
50 ネットワークカード、60 CPU、70 OS上のアプリケーション、
80 OS、90 ネットワーク、
100 マイクロカーネル上のアプリケーション、110 DIOカード、
120 DIO接点。
10 control computer A system, 11 control computer B system, 20 main memory,
30 data required for recovery, 40 microkernels,
50 network card, 60 CPU, 70 OS application,
80 OS, 90 network,
100 applications on the microkernel, 110 DIO cards,
120 DIO contacts.
Claims (3)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005214198A JP4476190B2 (en) | 2005-07-25 | 2005-07-25 | Multi-computer system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005214198A JP4476190B2 (en) | 2005-07-25 | 2005-07-25 | Multi-computer system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007034476A JP2007034476A (en) | 2007-02-08 |
JP4476190B2 true JP4476190B2 (en) | 2010-06-09 |
Family
ID=37793699
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005214198A Expired - Fee Related JP4476190B2 (en) | 2005-07-25 | 2005-07-25 | Multi-computer system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4476190B2 (en) |
-
2005
- 2005-07-25 JP JP2005214198A patent/JP4476190B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2007034476A (en) | 2007-02-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108923992B (en) | High-availability method and system for NAS cluster, electronic equipment and storage medium | |
US8032786B2 (en) | Information-processing equipment and system therefor with switching control for switchover operation | |
CN105159798A (en) | Dual-machine hot-standby method for virtual machines, dual-machine hot-standby management server and system | |
US9195553B2 (en) | Redundant system control method | |
JP4491482B2 (en) | Failure recovery method, computer, cluster system, management computer, and failure recovery program | |
JP2012173996A (en) | Cluster system, cluster management method and cluster management program | |
JP6130520B2 (en) | MULTISYSTEM SYSTEM AND MULTISYSTEM SYSTEM MANAGEMENT METHOD | |
CN103532753A (en) | Double-computer hot standby method based on memory page replacement synchronization | |
CN101482829A (en) | Cluster system, processing equipment and its redundancy method | |
CN113515408A (en) | Data disaster tolerance method, device, equipment and medium | |
EP2648095A2 (en) | Control method of computer, computer and computer system | |
JP2012190175A (en) | Fault tolerant system, server and method and program for fault tolerance | |
CN111585835A (en) | Control method and device for out-of-band management system and storage medium | |
JP2007058708A (en) | Multiplex system | |
JP4476190B2 (en) | Multi-computer system | |
KR20030048503A (en) | Communication system and method for data synchronization of duplexing server | |
JP6026142B2 (en) | Control system in which multiple computers operate independently | |
JP2009075710A (en) | Redundant system | |
JP2007334668A (en) | Memory dumping method, cluster system, node constituting the system, and program | |
JP6773345B1 (en) | Fault-tolerant systems, servers, and how they operate | |
JP2008003731A (en) | Information processing system | |
KR20010076790A (en) | I/O-based high availability through middleware in the COTS RTOS | |
JP2008197907A (en) | Monitoring network system and data backup method | |
JP5464886B2 (en) | Computer system | |
CN110752955A (en) | Seat invariant fault migration system and method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070808 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090512 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090622 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100302 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100309 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130319 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130319 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140319 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |