JP2000215074A - Operation system for system and automatic fault recovery system - Google Patents
Operation system for system and automatic fault recovery systemInfo
- Publication number
- JP2000215074A JP2000215074A JP11016874A JP1687499A JP2000215074A JP 2000215074 A JP2000215074 A JP 2000215074A JP 11016874 A JP11016874 A JP 11016874A JP 1687499 A JP1687499 A JP 1687499A JP 2000215074 A JP2000215074 A JP 2000215074A
- Authority
- JP
- Japan
- Prior art keywords
- clone
- original
- communication
- failure
- control unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Landscapes
- Hardware Redundancy (AREA)
- Debugging And Monitoring (AREA)
- Multi Processors (AREA)
- Computer And Data Communications (AREA)
Abstract
Description
【0001】[0001]
【発明の属する技術分野】本発明は、通信システムや情
報処理システムにおけるシステムの運用方式及び障害自
動復旧方式に係り、特に、障害検出を確実に行なうこと
ができる上に障害からの自動復旧が容易で、設置にかか
わる経済的負担が小さく且つ設置スペースを縮減するこ
とができるシステムの運用方式及び障害復旧方式に関す
る。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a system operation system and an automatic recovery system for a communication system or an information processing system, and more particularly to a system capable of reliably detecting a failure and facilitating automatic recovery from a failure. Thus, the present invention relates to a system operation method and a failure recovery method that can reduce the economical burden of installation and reduce the installation space.
【0002】通信システムや情報処理システムにおいて
は、今や、オンライン・データを取り扱うことがないも
のはないと言ってよい状況になっている。そういうオン
ライン・データを取り扱うシステムにおいて最も重要な
のはシステム・ダウンがないこと、即ち、高信頼度を確
保することであるが、障害検出の確実性や自動復旧の容
易性及び高信頼度を確保するための経済的負担や設置ス
ペースの軽減に裏打ちされて初めて実用的なシステムに
なると言える。[0002] In communication systems and information processing systems, it can be said that there is no one that does not handle online data. The most important thing in a system that handles such online data is that there is no system down, that is, to ensure high reliability, but to ensure the reliability of failure detection, the ease of automatic recovery, and the high reliability. It can only be said that a practical system can be achieved if it is backed by the economic burden and reduced installation space.
【0003】システム・ダウンをなくす手段は種々の面
から研究・開発されているが、未だ十分ではなく、障害
検出を確実に行なうことができる上に障害からの自動復
旧が容易で、設置にかかわる経済的負担が小さく且つ設
置スペースを縮減することができるシステムの運用方式
及び障害自動復旧方式の開発が待たれている。The means for eliminating the system down has been researched and developed from various aspects. However, it is still not sufficient, and it is possible to reliably detect the failure, and it is easy to automatically recover from the failure. Development of a system operation system and an automatic failure recovery system that can reduce the economic burden and reduce the installation space is awaited.
【0004】[0004]
【従来の技術】図16は、従来の二重化システムの運用
方式の構成で、例えば、公開特許公報平成5−1221
04「通信システムの二重化系切替方式」や、公開特許
公報平成8−316957「二重化ネットワーク管理シ
ステム」に記載されているものである。2. Description of the Related Art FIG. 16 shows a configuration of a conventional operation system of a duplex system.
04, "Redundant system switching system of communication system" and JP-A-8-316957, "Redundant network management system".
【0005】図16において、51は第一の通信装置の
ハードウェア、52は該第一の通信装置のハードウェア
51のアプリケーション・プログラム(図16では、単
にアプリケーションとだけ記載している。)、53は第
二の通信装置のハードウェア、54は該第二の通信装置
のハードウェア53のアプリケーション・プログラム、
55は監視切替装置である。In FIG. 16, reference numeral 51 denotes hardware of the first communication apparatus, 52 denotes an application program of the hardware 51 of the first communication apparatus (in FIG. 16, only an application is described). 53 is hardware of the second communication device, 54 is an application program of the hardware 53 of the second communication device,
Reference numeral 55 denotes a monitoring switching device.
【0006】図16の構成において、例えば、該第一の
通信装置のハードウェア51が現用系(運用系、オペレ
ーション系とかアクト系と呼ばれることもある。)の装
置として使用されている時には、該第二の通信装置のハ
ードウェア53は予備系(待機系とかスタンバイ系と呼
ばれることもある。)の装置として、これが処理してい
る情報は使用されておらず、該第一の通信装置のハード
ウェア51が障害になった時に初めて処理している情報
が使用されるようになる。In the configuration shown in FIG. 16, for example, when the hardware 51 of the first communication apparatus is used as an active system (also referred to as an operation system, an operation system, or an act system), the first communication device is not used. The hardware 53 of the second communication device is a standby system (sometimes called a standby system or a standby system), and the information being processed is not used, and the hardware of the first communication device is not used. The information that is being processed for the first time when the wear 51 has failed is used.
【0007】若干の補充説明をすると、通常の場合、該
第一の通信装置のハードウェア51と該第二の通信装置
のハードウェア53には共に同じ入り側の通信回線が接
続されており、双方共同じ情報を受けて、それぞれ、該
第一の通信装置のアプリケーション・プログラム52及
び該第二の通信装置のアプリケーション・プログラム5
4と連携して同じ通信処理をしている。To explain a little supplementary explanation, in the normal case, the same communication line on the incoming side is connected to both the hardware 51 of the first communication device and the hardware 53 of the second communication device. Both receive the same information and receive an application program 52 of the first communication device and an application program 5 of the second communication device, respectively.
4 in the same communication process.
【0008】しかし、該第一の通信装置のハードウェア
51が現用系で、該第二の通信装置のハードウェア53
が予備系の場合には、該第一の通信装置のハードウェア
51の処理出力が出側の通信回線に供給され、該第二の
通信装置のハードウェア53の処理出力は出側の通信回
線には供給されていない。つまり、物理的には両系は動
作しているが、一方の処理出力だけが使われている訳で
ある。However, the hardware 51 of the first communication device is an active system and the hardware 53 of the second communication device is
Is the standby system, the processing output of the hardware 51 of the first communication device is supplied to the output communication line, and the processing output of the hardware 53 of the second communication device is output to the output communication line. Has not been supplied. In other words, physically both systems are operating, but only one processing output is used.
【0009】このようにして現用系の通信装置のハード
ウェアとアプリケーション及び予備系の通信装置のハー
ドウェアとアプリケーションが運用されている間、該監
視切替装置55は該第一の通信装置のハードウェア5
1、該第一の通信装置のアプリケーション・プログラム
52、該第二の通信装置のハードウェア53及び該第二
の通信装置のアプリケーション・プログラム54の挙動
の監視を続けている。尚、図16の場合、該監視切替装
置55は該第一の通信装置のアプリケーション・プログ
ラム52及び該第二の通信装置のアプリケーション・プ
ログラム54を経由して監視をすることを想定してい
る。While the hardware and the application of the active communication device and the hardware and the application of the standby communication device are operated in this way, the monitoring and switching device 55 is connected to the hardware of the first communication device. 5
1. The monitoring of the behavior of the application program 52 of the first communication device, the hardware 53 of the second communication device, and the application program 54 of the second communication device is continued. In the case of FIG. 16, it is assumed that the monitoring switching device 55 performs monitoring via the application program 52 of the first communication device and the application program 54 of the second communication device.
【0010】そして、該第一の通信装置のハードウェア
51、該第一の通信装置のアプリケーション・プログラ
ム52のいずれかに障害があることを検出すると、該監
視切替装置55は出側の通信回線を該第一の通信装置の
ハードウェア51から該第二の通信装置のハードウェア
53に切り替える。When it is detected that there is a failure in either the hardware 51 of the first communication device or the application program 52 of the first communication device, the monitoring switching device 55 sets the outgoing communication line. Is switched from the hardware 51 of the first communication device to the hardware 53 of the second communication device.
【0011】ここで、該第二の通信装置のハードウェア
53も該第二の通信装置のアプリケーション・プログラ
ム54も物理的には使用中であり、切り替えは通常電子
的に行なわれ、更に、現用系と予備系の位相同期などに
配慮がなされるために、障害検出から切り替えが終了し
てシステムが復旧するまでの時間は非常に短いと考えて
よい。Here, both the hardware 53 of the second communication device and the application program 54 of the second communication device are physically in use, and the switching is usually performed electronically. Since consideration is given to the phase synchronization between the system and the standby system, the time from the detection of a failure to the end of switching and the restoration of the system may be considered to be very short.
【0012】図17は、従来の障害復旧方式の構成で、
例えば、公開特許公報平成3−144831「システム
復旧方法」に記載されているものである。これは、複数
の処理機能を有するパーソナル・コンピュータにおける
システムの障害復旧方式を想定しているものである。FIG. 17 shows the configuration of a conventional failure recovery system.
For example, this is described in Japanese Patent Application Laid-Open No. Hei 3-148331 “System restoration method”. This assumes a system failure recovery method in a personal computer having a plurality of processing functions.
【0013】図17において、61はプロセス制御部
で、障害検出手段61−1及び障害復旧手段61−2を
備えている。又、62乃至64は該プロセス制御部61
の制御を受けながら連携して動作するプロセスで、62
はプロセスA、63はプロセスB、64はプロセスCと
標記している。In FIG. 17, reference numeral 61 denotes a process control unit which includes a failure detecting means 61-1 and a failure recovery means 61-2. 62 to 64 are the process control units 61
Is a process that operates in cooperation under the control of
Denotes a process A, 63 denotes a process B, and 64 denotes a process C.
【0014】図17の構成において、該障害検出手段6
1−1は常に該プロセスA62、プロセスB63及びプ
ロセスC64の状態を監視しており、検出した障害の原
因となっている部位を判断し、判断結果を該障害復旧手
段61−2に通知する。通知を受けた該障害復旧手段6
1−2は、その障害部位と障害内容に対応して復旧処理
を実施する。例えば、障害部位がプロセスC64である
と特定された場合には、障害内容は該プロセスC64本
来の機能と密接な関係にあるので、該プロセスC64に
特有の復旧処理を実施する。In the configuration shown in FIG.
1-1 constantly monitors the states of the process A62, the process B63, and the process C64, determines the part causing the detected failure, and notifies the failure recovery unit 61-2 of the determination result. The failure recovery means 6 that has been notified
1-2 performs a recovery process in accordance with the failure site and the failure content. For example, when the failure site is specified as the process C64, the failure content is closely related to the original function of the process C64, and therefore, a recovery process specific to the process C64 is performed.
【0015】従って、通常の場合、復旧処理の自動化が
可能で、障害となったプロセスの復旧処理と正常な動作
を継続しているプロセスにおける本来の処理は並行して
行なわれる。Therefore, in a normal case, the recovery process can be automated, and the recovery process of the failed process and the original process in the process that continues the normal operation are performed in parallel.
【0016】又、図17の構成においては二重化の必要
性がないからシステム規模の肥大化を避けることができ
る。Further, in the configuration of FIG. 17, since there is no need for duplication, it is possible to avoid an increase in system scale.
【0017】[0017]
【発明が解決しようとする課題】しかし、図16の構成
は、同じ通信装置のハードウェアとアプリケーション・
プログラムを二重に備えていなければならないから、シ
ステム規模の肥大化を免れることは難しい。通信システ
ムにしても情報処理システムにしても、最も多くは社会
の経済活動の中で使用されるので、規模の肥大化に伴う
経済的な負担の増加や設置スペースの増加は企業の投資
負担の増加そのものであるので問題が大きい。However, the configuration shown in FIG. 16 uses the same communication device hardware and application software.
It is difficult to avoid system bloat because the program must be duplicated. Since most communication systems and information processing systems are used in social economic activities, the increase in economic burden and installation space due to the enlargement of the scale increases the investment burden on companies. The problem is significant because it is an increase itself.
【0018】又、障害発生後に動作が正常な予備系に切
り替えられるのでシステムの運用上は問題ないが、通常
の場合、障害発生部位のハード的な交換や、暴走したア
プリケーション・プログラムの終了処理が保守者などの
人手を介して必要になるという問題がある。In addition, since the operation is switched to the normal standby system after the occurrence of a failure, there is no problem in system operation. However, in a normal case, hardware replacement of a failed part and termination processing of a runaway application program are performed. There is a problem that it becomes necessary through manual operations such as maintenance personnel.
【0019】一方、図17の構成においては、障害とな
ったプロセスの復旧処理の間は当該プロセスの処理が停
止されることが最も大きい問題であり、又、他の正常な
プロセスにおける本来の処理と障害プロセスの復旧処理
が並行して行なわれるために、他の正常なプロセスにお
ける本来の処理能力が低下するという恐れもある。On the other hand, in the configuration shown in FIG. 17, the biggest problem is that the processing of the failed process is stopped during the recovery process of the failed process. Since the recovery process of the failed process is performed in parallel with the normal process, the original processing capability of another normal process may be reduced.
【0020】又、図16の構成に於ける監視切替装置5
5や、図17の構成における障害検出手段61−1及び
障害復旧手段61−2自体に障害が発生した場合には、
障害検出機能そのもの又は障害復旧機能そのものが働か
なくなるので、システム運用上致命的な状況に陥る。The monitoring switching device 5 in the configuration of FIG.
5 or when a failure has occurred in the failure detection means 61-1 and the failure recovery means 61-2 in the configuration of FIG.
Since the failure detection function itself or the failure recovery function itself does not work, a fatal situation occurs in system operation.
【0021】更に、図17の構成では、障害となったプ
ロセスを強制的に終了処理して再起動をかけるという障
害復旧方法をとるものであり、当該プロセスは初期状態
から立ち上がることになるので、障害直前までの処理デ
ータが消失してしまうという大問題がある。Further, the configuration of FIG. 17 employs a failure recovery method in which a failed process is forcibly terminated and restarted, and the process is started from an initial state. There is a major problem that the processing data immediately before the failure is lost.
【0022】かくの如く、従来の二重化システムの運用
方式や、システム復旧方式には種々の問題点がある。As described above, there are various problems in the conventional operation system of the duplex system and the system restoration system.
【0023】本発明は、かかる問題点に鑑み、障害検出
を確実に行なうことができる上に障害からの自動復旧が
容易で、設置にかかわる経済的負担が小さく且つ設置ス
ペースを縮減することができる二重化システムの運用方
式を提供することを目的とする。In view of the above problems, the present invention can reliably detect a failure, facilitate automatic recovery from a failure, reduce the economic burden on installation, and reduce the installation space. An object of the present invention is to provide a redundant system operation method.
【0024】[0024]
【課題を解決するための手段】本発明の原理は、システ
ムの立ち上げ時に起動された各プロセス(これらがオリ
ジナルとなる。)が必要最小限のリソースだけを持たせ
たクローンを自律的に起動し、オリジナルとクローンの
間で行なう定期的な通信によって互いの状態の把握と必
要なデータの共有を行ない、オリジナルの障害時には一
部プロセス制御部の助けを借りて障害復旧をし、クロー
ンの障害時にはオリジナルが自律的に障害復旧を行なう
技術である。According to the principle of the present invention, each process started when the system is started (these processes become originals) autonomously starts a clone having only necessary minimum resources. The original and the clone perform regular communication to understand each other's status and share necessary data, and in the event of an original failure, recover the failure with the help of a part of the process control unit. Sometimes the original is a technology that autonomously recovers from a failure.
【0025】上記本発明の原理によれば、各プロセス共
オリジナルとクローンを備えているが、独立な装置を2
台備える訳ではないし、クローンには最低限必要なリソ
ースしか与えないので、システム規模の肥大化を避ける
ことができる。According to the principles of the present invention, each process has an original and a clone, but requires two independent devices.
It doesn't provide any resources and gives clones only the minimum resources they need, thus avoiding system bloat.
【0026】又、オリジナルとクローンが定期通信を通
じて互いの状態を監視することができるので、障害の検
出を確実に行なうことができるシステムを構築すること
ができる。Also, since the original and the clone can monitor each other's status through regular communication, it is possible to construct a system that can reliably detect a failure.
【0027】更に、オリジナルとクローンは運用管理デ
ータを共有して持っているので、オリジナルが障害にな
って強制終了されても運用管理データが消失することは
ない。又、オリジナルとクローンが同一プログラム・メ
モリ上に展開されているので、オリジナルとクローンの
間でプログラム・メモリの再配分をしてからオリジナル
を強制終了させることが可能であるから、障害になった
オリジナルが持っていた処理データをクローンから変態
した新オリジナルに渡すことができる。Furthermore, since the original and the clone share the operation management data, the operation management data will not be lost even if the original becomes a failure and is forcibly terminated. Also, since the original and the clone are deployed on the same program memory, it is possible to forcibly terminate the original after redistributing the program memory between the original and the clone, which is an obstacle. The processing data of the original can be transferred from the clone to the transformed new original.
【0028】従って、障害になったオリジナルプロセス
をクローン化し、クローンであったプロセスをオリジナ
ル化することによって障害復旧しても、運用管理データ
と処理データを消失することはない。Therefore, even if the failed original process is cloned and the failed process is restored by originalizing the cloned process, the operation management data and the processed data are not lost.
【0029】尚、クローンの障害を検出した時には、そ
の障害を検出したオリジナルが全てのデータを持ってい
るので、クローンの再生時にクローンに運用管理データ
を渡すことができるから、何ら問題はない。When a failure of a clone is detected, since the original which has detected the failure has all the data, the operation management data can be passed to the clone when the clone is reproduced, so that there is no problem.
【0030】[0030]
【発明の実施の形態】図1は、本発明のシステム構成概
要と本発明のシステムの起動を説明する図で、パーソナ
ル・コンピュータ内に構築したシステムの運用方式を想
定してその主要部を図示したものである。DESCRIPTION OF THE PREFERRED EMBODIMENTS FIG. 1 is a diagram for explaining the outline of the system configuration of the present invention and the activation of the system of the present invention. It was done.
【0031】図1において、1はハード・ディスクで、
該ハード・ディスク1内にはプロセス制御部ロード・モ
ジュール(図1中では“・”が記載されていないが、同
じものである。以降、図において類似の省略が行なわれ
ることがある。)、プロセスAロード・モジュール1
2、プロセスBロード・モジュール13及びダイナミッ
ク・リンク・ライブラリ14を格納している。In FIG. 1, 1 is a hard disk,
In the hard disk 1, a process control unit load module ("." Is not described in FIG. 1 but is the same, but is the same. Hereinafter, similar omission may be performed in the figure). Process A load module 1
2, a process B load module 13 and a dynamic link library 14 are stored.
【0032】2はプロセス制御部のオリジナルで、プロ
セス起動/制御部21−1及びダイナミック・リンク・
ライブラリ読み込み部(図1では、読込部と標記してい
るが同じものである。)21−2を備える運用プログラ
ム21と、運用管理プログラム22を備えている。Reference numeral 2 denotes an original process control unit, which includes a process start / control unit 21-1 and a dynamic link unit.
An operation program 21 including a library reading unit (in FIG. 1, although denoted as a reading unit but being the same as the reading unit) 21-2, and an operation management program 22 are provided.
【0033】2aはプロセス制御部オリジナル2(文
中、プロセス制御部とも標記しているが同じものであ
る。)によって起動される該プロセス制御部オリジナル
2のクローンである。Reference numeral 2a denotes a clone of the process control unit original 2 which is started by the process control unit original 2 (the process control unit is also described in the text but is the same).
【0034】3はプロセスAのオリジナルで、ダイナミ
ック・リンク・ライブラリ読み込み部31−1を備える
運用プログラム31及び運用管理プログラム32を備え
ている。Reference numeral 3 denotes an original of the process A, which includes an operation program 31 and an operation management program 32 having a dynamic link library reading unit 31-1.
【0035】3aは該プロセスAオリジナル3によって
起動される該プロセスAオリジナル3のクローンであ
る。3a is a clone of the process A original 3 started by the process A original 3.
【0036】同様に、4はプロセスBのオリジナルであ
り、ダイナミック・リンク・ライブラリ読み込み部41
−1を備える運用プログラム41及び運用管理プログラ
ム42を備えている。Similarly, reference numeral 4 denotes an original of the process B, and the dynamic link library reading unit 41
-1 and an operation management program 42.
【0037】又、4aは該プロセスBオリジナル4によ
って起動される該プロセスBオリジナルのクローンであ
る。Reference numeral 4a denotes a clone of the process B original started by the process B original 4.
【0038】ここで、各プロセスの運用プログラムは各
プロセスに特有のプログラムであり、各プロセスの運用
管理プログラムは各プロセスに共通なプログラムであ
る。Here, the operation program of each process is a program unique to each process, and the operation management program of each process is a program common to each process.
【0039】尚、各プロセスの運用プログラム、運用管
理プログラム及びクローンの内容については後で詳述す
る。The details of the operation program, operation management program, and clone of each process will be described later.
【0040】さて、プロセス制御部オリジナル2、プロ
セスA及びプロセスBはプログラム・メモリ上にロード
されて初めてアプリケーション機能を実現することがで
きるようになる。それぞれの起動契機は下記の通りであ
る。Now, the process control unit original 2, process A and process B can realize the application function only after being loaded on the program memory. The triggers for each are as follows.
【0041】即ち、プロセス制御部2は、ウィンドウズ
系プログラム起動手順による、ユーザーの手動起動、又
は、スタート・アップへの登録による自動起動によって
起動される。That is, the process control unit 2 is started by a manual start of the user according to a Windows system program start procedure, or by an automatic start by registration in the startup.
【0042】又、各プロセスは、上記の如く起動された
プロセス制御部のプロセス起動/制御部21−1からの
起動要求によって順次起動される。Each process is sequentially activated by the activation request from the process activation / control unit 21-1 of the process control unit activated as described above.
【0043】更に、ダイナミック・リンク・ライブラリ
14は、起動されたプロセス制御部2のダイナミック・
リンク・ライブラリ読み込み部21−2、又は、起動さ
れた各プロセスのダイナミック・リンク・ライブラリ読
み込み部からの起動要求によって自動的にロードされ
る。Further, the dynamic link library 14 stores the dynamic library of the activated process control unit 2.
It is automatically loaded by a start request from the link library reading unit 21-2 or the dynamic link library reading unit of each started process.
【0044】以下に、図1中に記載した○付き数字の符
号に沿って起動手順を説明する。Hereinafter, the start-up procedure will be described along the reference numerals with circles in FIG.
【0045】 ユーザーがアイコンをダブル・クリッ
クするか、直接コマンド・ラインにてプロセス制御部の
プログラム名を指定することによって、ウィンドウズの
オペレーション・システム(所謂OSである。)がプロ
グラムを特定して起動指示を行なう。When the user double-clicks the icon or directly specifies the program name of the process control unit on the command line, the Windows operation system (so-called OS) specifies and starts the program. Give instructions.
【0046】 ハード・ディスク1に格納されている
プロセス制御部のロード・モジュールをプログラム・メ
モリ上にロードする。The load module of the process control unit stored on the hard disk 1 is loaded on the program memory.
【0047】 においてロードされたプロセス制御
部2のダイナミック・リンク・ライブラリ読み込み部2
1−2からダイナミック・リンク・ライブラリ14に格
納されている運用管理プログラムのロードを要求する。The dynamic link library reading unit 2 of the process control unit 2 loaded in
From 1-2, a request is made to load the operation management program stored in the dynamic link library 14.
【0048】 ハード・ディスク1に格納されている
ダイナミック・リンク・ライブラリの内容をプロセス制
御部2に追加ロードする。The contents of the dynamic link library stored on the hard disk 1 are additionally loaded into the process control unit 2.
【0049】 プロセス制御部2が、プロセス制御部
2のプロセス起動/制御部21−1が備える起動テーブ
ル(図示を省略している。)の起動手順に従って、各プ
ロセスの起動要求をする。The process control unit 2 issues a start request for each process according to the start procedure of a start table (not shown) provided in the process start / control unit 21-1 of the process control unit 2.
【0050】 ハード・ディスク1上に格納されてい
る各プロセスのロード・モジュールをプログラム・メモ
リ上にロードする。The load module of each process stored on the hard disk 1 is loaded on the program memory.
【0051】 でプログラム・メモリ上にロードさ
れた各プロセスのダイナミック・リンク・ライブラリ読
み込み部によって、各プロセスに共通な運用管理プログ
ラムのロード要求をする。Then, the dynamic link library reading unit of each process loaded on the program memory issues a load request for an operation management program common to each process.
【0052】 ハード・ディスク1上に格納されてい
る各プロセスに共通な運用管理プログラムをプログラム
・メモリ上の各プロセスに追加ロードする。An operation management program common to each process stored on the hard disk 1 is additionally loaded to each process on the program memory.
【0053】尚、運用管理プログラムの内容は後で詳述
する。The contents of the operation management program will be described later in detail.
【0054】こうしてプログラム・メモリ上にロードさ
れて動作可能になったプロセス制御部2と各プロセス
(これがそれぞれのオリジナルとなる。)は、運用管理
プログラムに格納されている機能プログラムの動作によ
って、それぞれ、必要最小限のリソースを持つ自分のク
ローンを生成する。The process control unit 2 and each process (these are originals) loaded on the program memory and operable in this way are respectively operated by the operation of the function program stored in the operation management program. Generate your own clone, with the minimum resources required.
【0055】そして、それぞれのオリジナルとクローン
は定期的に通信を行ない、互いの状態を把握すると共
に、運用管理データを共有をしている。The originals and the clones periodically communicate with each other to grasp the state of each other and to share operation management data.
【0056】そして、上記定期通信の間にクローン側に
よってオリジナルが障害であると判定した場合にはクロ
ーン側からプロセス制御部2にその旨通知し、該プロセ
ス制御部2からのオリジナル化操作によってクローンか
らオリジナルに変態し、起動時と同様に、オリジナルで
あるプロセスがクローンを生成する。If the clone determines that the original is faulty during the periodical communication, the clone notifies the process control unit 2 of the failure, and the clone control is performed by the process control unit 2 through the originalization operation. To the original, and the process that is the original creates a clone, as at startup.
【0057】又、定期通信中にオリジナル側によってク
ローンの障害を検出した場合には、オリジナル側からク
ローンを強制終了させ、新たにクローンを再生する。If a failure of the clone is detected by the original during the periodical communication, the clone is forcibly terminated from the original and a new clone is reproduced.
【0058】上記クローンの起動、オリジナルとクロー
ンの定期通信とそれによる互いの状態監視及び障害復旧
については後で順次説明する。The activation of the clone, the periodic communication between the original and the clone, the status monitoring of each other, and the recovery from the failure will be described later in order.
【0059】図2は、本発明によるシステム内部の構成
である。FIG. 2 shows the internal structure of the system according to the present invention.
【0060】図2において、2はプロセス制御部オリジ
ナルで、該プロセス制御部オリジナル2に本来必要な機
能を実現する運用プログラム21、及び、本発明特有の
機能を実現する運用管理プログラム22を備えている。In FIG. 2, reference numeral 2 denotes a process control unit original, which comprises an operation program 21 for realizing functions originally required for the process control unit original 2 and an operation management program 22 for realizing functions unique to the present invention. I have.
【0061】該運用プログラム21は、プロセス起動/
制御部21−1及びダイナミック・リンク・ライブラリ
読み込み部(図2では、DLL読み込み部と省略して標
記している。)21−2を備える。The operation program 21 starts the process /
A control unit 21-1 and a dynamic link library reading unit (abbreviated as a DLL reading unit in FIG. 2) 21-2 are provided.
【0062】又、該運用管理プログラム22は、起動さ
れたプロセスを登録しておく起動プロセス登録テーブル
22−1、定期通信/障害検出部22−2と、図示は省
略している起動プロセス検出部、プロセス種別判定部、
クローン生成部を備えている。The operation management program 22 includes a startup process registration table 22-1 for registering the started processes, a periodic communication / failure detection unit 22-2, and a startup process detection unit (not shown). , Process type determination unit,
It has a clone generator.
【0063】2aはプロセス制御部クローンで、図示は
省略しているが、少なくとも該プロセス制御部オリジナ
ル2と同じ内容のプログラムをロードされるのが好まし
く、データについても同じ内容のデータを保有している
のが好ましい。この理由については全ての説明が終了し
たところで説明する。Reference numeral 2a denotes a process control unit clone, not shown, but it is preferable that a program having at least the same content as that of the original process control unit 2 is loaded. Is preferred. The reason will be explained when all the explanations have been completed.
【0064】3はプロセスAオリジナルで、運用プログ
ラム31と運用管理プログラム32を備えている。Reference numeral 3 denotes a process A original, which includes an operation program 31 and an operation management program 32.
【0065】該運用管理プログラム31は、図1に示し
た如きダイナミック・リンク・ライブラリ読み込み部を
含んで、プロセスAが本来の機能を実現するために必要
なプログラムを備えている。The operation management program 31 includes a program necessary for the process A to realize the original function, including the dynamic link library reading unit as shown in FIG.
【0066】又、該運用管理プログラム32は起動され
たプロセス自身が上記起動プロセス登録テーブル22−
1に登録されているか否かを検出する起動プロセス検出
部32−1、上記検出結果によって起動されたプロセス
自身がオリジナルであるか否かを判定するプロセス種別
判定部32−2、オリジナルであるプロセスがクローン
を生成するクローン生成部32−3及びクローンと定期
通信を行なってデータの共有と互いの状況の判断を行な
う定期通信/障害検出部32−4を備えている。In the operation management program 32, the started process itself is executed by the start process registration table 22-.
1; a start process detection unit 32-1 for detecting whether or not the process itself is an original; a process type determination unit 32-2 for determining whether or not the process itself started based on the detection result is an original; Has a clone generating unit 32-3 for generating a clone and a periodic communication / failure detecting unit 32-4 for performing periodic communication with the clone to share data and determine each other's situation.
【0067】3aはプロセスAクローンで、定期通信/
障害検出部32−4aのみを備えている。Reference numeral 3a denotes a process A clone, which is used for regular communication /
Only the failure detection unit 32-4a is provided.
【0068】同様に、4はプロセスBオリジナル、4a
はプロセスBクローンで、ロードされる内容は、それぞ
れ、プロセスAオリジナル3、プロセスAクローン3a
と全く同様なので、説明は省略する。Similarly, 4 is a process B original, 4a
Is a process B clone, and the loaded contents are a process A original 3 and a process A clone 3a, respectively.
Therefore, the description is omitted.
【0069】図3はシステム内の通信リソースで、図4
はいわば通信リソースを中心にしたシステムの構成図で
ある。FIG. 3 shows communication resources in the system.
It is a configuration diagram of a system focusing on communication resources.
【0070】図3において、2はプロセス制御部、3は
プロセスAオリジナル、3aはプロセスAクローン、4
はプロセスBオリジナル、4aはプロセスBクローン
で、システムの構成は図2に示したものと同じである。
尚、図3ではプロセス制御部2だけについてはクローン
を図示していない。In FIG. 3, 2 is a process control unit, 3 is a process A original, 3a is a process A clone, 4
Is a process B original, 4a is a process B clone, and the system configuration is the same as that shown in FIG.
Note that FIG. 3 does not show a clone for only the process control unit 2.
【0071】5はプロセス間通信リソースで、該プロセ
ス制御部2と各プロセスのオリジナルとの間に設けられ
た通信リソースである。該プロセス間通信リソース5は
各々のプロセスに専用に設けることも、共通の通信リソ
ースとして設けることも可能である。専用に設ける場合
には、バス調停が必要でなくなる反面多数のバスが必要
になる。一方、共通に設ける場合には、バス調停が必要
な反面バスの数を少なくできる利点がある。Reference numeral 5 denotes an inter-process communication resource, which is a communication resource provided between the process control unit 2 and the original of each process. The inter-process communication resource 5 can be provided exclusively for each process or can be provided as a common communication resource. In the case where dedicated buses are provided, bus arbitration is not required, but a large number of buses are required. On the other hand, when they are provided in common, there is an advantage that the number of buses can be reduced while bus arbitration is required.
【0072】そして、各々のプロセスのオリジナルは、
該プロセス間通信リソース5を介して該プロセス制御部
2との通信や他のプロセスのオリジナルとの間の通信を
行なう。The original of each process is
The communication with the process control unit 2 and the communication with the original of another process are performed via the inter-process communication resource 5.
【0073】6は各々のプロセスのクローンに共通に設
けられた共通クローン通信リソースである。通常は、各
々のプロセスのクローンがプロセス外と通信することは
なく、後で述べるようにクローンがオリジナルの障害を
検出して該プロセス制御部2と通信を行なう時に用いる
ものなので、クローンに与えられるプロセス外との通信
リソースは各々のクローンに共通なものでよい。Reference numeral 6 denotes a common clone communication resource provided commonly to each process clone. Normally, each process clone does not communicate outside the process, and is used when the clone detects an original failure and communicates with the process control unit 2 as will be described later. The communication resources outside the process may be common to each clone.
【0074】7は各々のプロセスのオリジナルとクロー
ンとの間の通信に用いられるオリジナル−クローン間通
信リソースである。各々のプロセスのオリジナルとクロ
ーンは、該オリジナル−クローン間通信リソース7を介
して定期通信を行なう。Reference numeral 7 denotes an original-clone communication resource used for communication between the original and the clone of each process. The original and the clone of each process perform regular communication via the original-clone communication resource 7.
【0075】上記のように、プロセス制御部と各プロセ
スはオリジナルとクローンとを持つが、各々の内部構成
と通信リソースは完全二重化されたものではないので、
システム規模の肥大化を避けることができる。As described above, the process control unit and each process have an original and a clone. However, since the internal configuration and communication resources are not completely duplicated,
The system size can be prevented from being enlarged.
【0076】図2のシステムのオリジナルを中心とした
起動の手順については図1を用いて詳述したので、ここ
では省略する。The procedure for starting the system of FIG. 2 focusing on the original has been described in detail with reference to FIG. 1 and will not be described here.
【0077】以降、クローンの起動、オリジナルとクロ
ーンによる定期通信と障害検出及び障害復旧の説明をす
るが、本発明はシングル・プロセスでもマルチ・プロセ
スでも共通に適用することができるので、以下は図面の
簡略化のために、プロセスAだけのシングル・プロセス
であるものとして種々の段階におけるシステムの動作の
説明を続ける。尚、以降の動作説明においては、プロセ
ス制御部とプロセスAの内部構成は、当該動作に最も関
係が深いもののみを示すことにする。Hereinafter, activation of a clone, periodic communication using an original and a clone, fault detection and fault recovery will be described. However, since the present invention can be applied to both a single process and a multi-process, the following will be described. For simplicity, the description of the operation of the system at various stages will be continued as if it were a single process of process A only. In the following description of the operation, the internal configuration of the process control unit and the process A indicates only those most closely related to the operation.
【0078】図4は、起動されたプロセスがオリジナル
であるか否かを判定するプロセス種別の判定を説明する
図である。FIG. 4 is a diagram for explaining the process type determination for determining whether the started process is the original process.
【0079】図4において、2はプロセス制御部、21
−1は該プロセス制御部2のプロセス起動/制御部、2
2−1は該プロセス制御部2が備える起動プロセス登録
テーブルである。又、3はプロセスA、32−1は該プ
ロセスA3の起動プロセス検出部、32−2は該プロセ
スA3のプロセス種別判定部である。In FIG. 4, reference numeral 2 denotes a process control unit;
-1 is a process start / control unit of the process control unit 2;
2-1 is an activation process registration table provided in the process control unit 2. Reference numeral 3 denotes a process A, 32-1 an activation process detection unit for the process A3, and 32-2 a process type determination unit for the process A3.
【0080】上記の如く、該プロセス制御部2の該プロ
セス起動/制御部21−1の指示によって該プロセスA
3がプログラム・メモリ上に展開され、初期化されて起
動される。これが、図4中に記載されている起動であ
る。As described above, according to the instruction of the process start / control unit 21-1 of the process control unit 2, the process A
3 is expanded on the program memory, initialized and activated. This is the activation described in FIG.
【0081】起動された該プロセスA3の該起動プロセ
ス検出部32−1は、図3に示したプロセス間通信リソ
ース4を介して該プロセス制御部2の起動プロセス登録
テーブル22−1にアクセスして、プロセスA3自体の
IDが登録されているか否かを調査する。これが、図4
中に記載されているプロセス種別調査である。The activated process detection unit 32-1 of the activated process A3 accesses the activated process registration table 22-1 of the process control unit 2 via the inter-process communication resource 4 shown in FIG. It is checked whether the ID of the process A3 itself is registered. This is shown in FIG.
It is a process type survey described in the table.
【0082】該起動プロセス登録テーブル22−1は、
図5の起動プロセス登録テーブルの構成例に示すよう
に、プロセス名と当該プロセスのIDを1ブロックとし
て、複数のプロセスに対応して複数のブロックが登録で
きるようになっており、このうちプロセス名は予め登録
されているが、プロセスIDは起動されたプロセスから
のアクセスで初めて登録される。The activation process registration table 22-1 is
As shown in the configuration example of the activation process registration table in FIG. 5, a process name and an ID of the process are set as one block, and a plurality of blocks can be registered corresponding to a plurality of processes. Is registered in advance, but the process ID is registered for the first time upon access from the started process.
【0083】従って、図4のプロセスA3が初めて起動
されたプロセスであるならば、起動プロセス登録テーブ
ルにプロセスIDが未登録なので、プロセス種別調査と
それに続くプロセス種別選定部32−2におけるプロセ
ス種別判定によってオリジナルであることが判明する。
そして、該起動プロセス登録テーブル22−1に自身の
プロセスIDを登録して、このルーチンを終了する。こ
れが、図4中に記載されたID登録である。Therefore, if the process A3 in FIG. 4 is a process started for the first time, since the process ID is not registered in the start process registration table, the process type examination and the subsequent process type determination in the process type selection unit 32-2 are performed. Turns out to be the original.
Then, its own process ID is registered in the activation process registration table 22-1, and this routine ends. This is the ID registration described in FIG.
【0084】そして、プロセス種別調査、プロセス種別
判定及びプロセスID登録を経て、図4のプロセスA3
はプロセスAのオリジナルであることが確定する。Then, through the process type investigation, the process type determination, and the process ID registration, the process A3 in FIG.
Is determined to be the original of process A.
【0085】尚、後で述べるようにオリジナルからクロ
ーンを起動するので、該プロセス起動/制御部21−1
がプロセスA3の起動をかける際にプロセス起動/制御
部21−1固有のIDを該プロセスA3に渡すようにす
れば、プロセス種別調査の必要性は低くなる。ただ、該
プロセス制御部2が起動済のプロセスを認識しておく必
要性は高いので、この場合でも起動されたプロセスが自
身のプロセスIDを登録することは重要である。Since the clone is started from the original as described later, the process start / control unit 21-1 is used.
If the process A3 is passed the ID unique to the process activation / control unit 21-1 when the process A3 is activated, the necessity of the process type examination is reduced. However, since it is highly necessary for the process control unit 2 to recognize the activated process, it is important that the activated process registers its own process ID even in this case.
【0086】図6は、クローンの起動を説明する図であ
る。FIG. 6 is a diagram for explaining the activation of the clone.
【0087】図6において、3はプロセスAオリジナル
で、プロセス種別判定部32−2及びクローン生成部3
2−3を備えている。3aはプロセスAクローンで、定
期通信/障害検出部32−4aを備えている。In FIG. 6, reference numeral 3 denotes a process A original, and the process type determination unit 32-2 and the clone generation unit 3
2-3 are provided. Reference numeral 3a denotes a process A clone, which includes a periodic communication / failure detection unit 32-4a.
【0088】該プロセスAオリジナル3が起動されて、
該プロセス種別判定部32−2によって自身がオリジナ
ルであることが判定されると、その判定結果が該クロー
ン生成部32−3に渡される。これを契機に該クローン
生成部32−3は該プロセスAオリジナル3の定期通信
/障害検出部を同一プログラム・メモリ上に展開してプ
ロセスAクローンとして起動する。When the process A original 3 is started,
When the process type determination unit 32-2 determines that the process itself is the original, the determination result is passed to the clone generation unit 32-3. In response to this, the clone generation unit 32-3 develops the periodic communication / failure detection unit of the process A original 3 on the same program memory and starts up as a process A clone.
【0089】即ち、該プロセスAオリジナル3はプロセ
ス制御部を介さず、自律的に自身のクローンを起動す
る。That is, the process A original 3 autonomously starts its own clone without going through the process control unit.
【0090】そして、該プロセスAオリジナル3と該プ
ロセスAクローン3aは双方の定期通信/障害検出部を
介して定期通信を行なうことによって、互いの状態の把
握を行なうと共に、プログラム実行上のシーケンス番号
などの運用管理データを共有する。以降、これらについ
て説明する。The process A original 3 and the process A clone 3a communicate with each other via the regular communication / failure detection units to grasp each other's state and to determine the sequence number in program execution. And other operation management data. Hereinafter, these will be described.
【0091】尚、定期通信のモードは、クローンからリ
クエストを送信するというクローン主導型と、オリジナ
ルが通信の主導権を握るオリジナル主導型とのいずれで
も可能であるが、本明細書では前者のモードで定期通信
するものとして説明する。The mode of the regular communication can be either a clone-initiated type in which a request is transmitted from a clone or an original-initiated type in which the original takes the initiative in communication. The description will be made assuming that communication is performed periodically.
【0092】図7は、オリジナル・クローン間のデータ
の共有を説明する図である。FIG. 7 is a diagram for explaining data sharing between original clones.
【0093】図7において、2はプロセス制御部、3は
プロセスAオリジナル、3aはプロセスAクローンであ
る。尚、図7においては該プロセス制御部2の内部構成
は図示せず、該プロセスAオリジナル3については定期
通信/障害検出部32−4とオリジナル・データ32−
5のみを図示し、該プロセスAクローン3aについては
定期通信/障害検出部32−4aとクローン・データ3
2−5aのみを図示している。In FIG. 7, 2 is a process control unit, 3 is a process A original, and 3a is a process A clone. In FIG. 7, the internal configuration of the process control unit 2 is not shown. For the process A original 3, the periodic communication / failure detection unit 32-4 and the original data 32-
5, only the regular communication / failure detection unit 32-4a and the clone data 3 for the process A clone 3a.
Only 2-5a is shown.
【0094】該プロセスAオリジナル3は該定期通信/
障害検出部32−4を使って、該プロセスAクローン3
aは該定期通信/障害検出部32−4aを使って互いに
定期通信をしており、定期通信の際に該プロセスAオリ
ジナル3からオリジナル・データ32−5が該プロセA
クローン3aに送信され、該クローン・データ32−5
aとなる。尚、プロセスAオリジナル3は処理シーケン
ス番号などの運用管理データと処理データとを持ってお
り、全てのデータをプロセスAクローン3aに渡すこと
は可能であるが、運用管理データのみを渡すだけでよ
い。The process A original 3 communicates with the regular communication /
Using the failure detection unit 32-4, the process A clone 3
a perform regular communication with each other using the regular communication / fault detection unit 32-4a, and at the time of the regular communication, the original data 32-5 from the process A original 3 is transmitted to the process A.
Transmitted to the clone 3a and the clone data 32-5
a. Note that the process A original 3 has operation management data such as a processing sequence number and processing data, and it is possible to pass all data to the process A clone 3a, but it is only necessary to pass only operation management data. .
【0095】図8は、定期通信/障害検出の基本動作を
説明する図(その1)で、オリジナルとクローンが共に
正常で定期通信を通じてデータを共有しているケースの
動作を説明するものである。以降、図8に記載した符号
に沿って説明する。FIG. 8 is a diagram (part 1) for explaining the basic operation of periodic communication / failure detection, and explains the operation in the case where the original and the clone are both normal and share data through the periodic communication. . Hereinafter, description will be given along the reference numerals shown in FIG.
【0096】S41.定期通信開始時に、クローンはタ
イムアウト・タイマ(図8では字数の節約のために“タ
イムアウトタイマ”というように“・”を省略して記載
しているが、全く同じものと理解されたい。又、他のテ
クニカル・タームでも同様な記載方法をとることがあ
る。)をクリアする。S41. At the start of the regular communication, the clone is a timeout timer (in FIG. 8, the symbol "." Is omitted to save the number of characters, such as "timeout timer", but it should be understood that the clone is exactly the same. Other technical terms may be described in the same way.)
【0097】S42.オリジナルに対して定期通信のリ
クエスト(図8では字数節約のために“REQ”と標記
している。同様な標記は他でも用いる。)を送信する。S42. A request for regular communication is transmitted to the original ("REQ" is written in FIG. 8 to save the number of characters. The same notation is used in other cases).
【0098】定期通信リクエストのフォーマット例は、
図9の定期通信データの構成例の(イ)に示されている
が、例えば、最初の3バイトがリクエストであることを
示す識別子になっており、1バイトの予備バイトが付加
されている。[0098] The format example of the periodic communication request is as follows.
As shown in (a) of the configuration example of the periodic communication data in FIG. 9, for example, the first three bytes are identifiers indicating a request, and one spare byte is added.
【0099】S43.クローンからのリクエストを受け
たオリジナルは、必要なデータを編集して定期通信アン
サーを形成してクローンに向けて送信する。S43. The original which received the request from the clone edits necessary data, forms a periodic communication answer, and transmits it to the clone.
【0100】定期通信アンサーのフォーマット例は、図
9の定期通信データの構成例の(ロ)に示されている
が、例えば最初の3バイトがアンサー(図9ではANS
と標記している。同様な標記法は他でも用いる。)であ
ることを示す識別子になっており、次いでデータの展開
が必要か否かを示すデータ展開要求が搭載される。その
後に、送信するデータの種別(例えば、起動プロセス登
録テーブルのプロセスIDや処理シーケンスの番号)、
送信するデータの総サイズを示すデータ・サイズが搭載
されており、最後に送信するデータそのものが搭載さ
れ、データ種別から送信データまでで1ブロックが構成
される。そして、一般的には、定期通信アンサーの中に
複数のブロックが搭載されて送信される。An example of the format of the periodic communication answer is shown in (b) of the configuration example of the periodic communication data in FIG. 9. For example, the first three bytes are the answer (ANS in FIG. 9).
It is labeled. Similar notations are used elsewhere. ), And a data expansion request indicating whether data expansion is necessary is mounted next. After that, the type of data to be transmitted (for example, the process ID of the activation process registration table or the number of the processing sequence)
The data size indicating the total size of the data to be transmitted is mounted, and the data to be transmitted last is mounted, and one block from the data type to the transmission data is configured. In general, a plurality of blocks are mounted in the periodic communication answer and transmitted.
【0101】S44.クローンは、オリジナルからのデ
ータを受信してメモリ上に展開する。S44. The clone receives data from the original and expands it on memory.
【0102】そして、図示を省略しているが、次の定期
通信の時刻まで所定時間待機し、定期通信の時刻になっ
たら再び上記ステップと同じステップ、即ち、 S45.定期通信開始時に、クローンはタイムアウト・
タイマをクリアする。Then, although not shown in the drawing, the apparatus waits for a predetermined time until the time of the next regular communication, and when the time of the regular communication comes, the same step as the above step, ie, S45. When the regular communication starts, the clone times out.
Clear the timer.
【0103】S46.オリジナルに対して定期通信のリ
クエストを送信する。S46. Send a request for regular communication to the original.
【0104】S47.クローンからのリクエストを受け
たオリジナルは、必要なデータを編集してクローンに向
けて送信する。S47. The original that received the request from the clone edits necessary data and sends it to the clone.
【0105】S48.クローンは、オリジナルからのデ
ータを受信してメモリ上に展開する。を繰り返す。S48. The clone receives data from the original and expands it on memory. repeat.
【0106】このようにして、オリジナルとクローンは
同一データを共有することができる。Thus, the original and the clone can share the same data.
【0107】図10は、オリジナルの障害検出とプロセ
ス強制終了を説明する図である。FIG. 10 is a diagram for explaining original failure detection and process forced termination.
【0108】図10において、2はプロセス制御部、3
はプロセスAオリジナル、3aはプロセスAクローンで
ある。In FIG. 10, reference numeral 2 denotes a process control unit;
Is a process A original and 3a is a process A clone.
【0109】図10においては、該プロセス制御部2に
ついてはプロセス起動/制御部21−1と起動プロセス
登録テーブル22−1のみが記載されており、プロセス
Aオリジナル3については定期通信/障害検出部32−
4のみが記載されており、プロセスAクローン3aにつ
いても定期通信/障害検出部32−4aのみが記載され
ている。In FIG. 10, only the process activation / control unit 21-1 and the activation process registration table 22-1 are described for the process control unit 2, and the periodic communication / failure detection unit for the process A original 3 is described. 32-
4, only the periodic communication / failure detection unit 32-4a is described for the process A clone 3a.
【0110】そして、図10は該プロセスAオリジナル
3と該プロセスAクローン3aは定期通信をしている
が、該プロセスAクローン3aが定期通信リクエストを
出しているにもかかわらず該プロセスAオリジナル3か
らアンサーが帰ってこない場合を想定して図示してい
る。FIG. 10 shows that the process A original 3 and the process A clone 3a perform regular communication, but the process A clone 3a issues a periodic communication request, but the process A original 3 It is illustrated assuming that the answer does not return from.
【0111】該プロセスAクローン3aが所定回数連続
して該プロセスAオリジナル3からアンサーが帰ってこ
ないことを検出する(これが、図10中に記載されてい
る障害検出である。)と、該定期通信/障害検出部32
−4aは該プロセスAオリジナル3が障害であると判定
し、図3に示した共通クローン通信リソースを介して該
プロセス制御部2にその旨通知する(これが、図10中
に記載した障害通知である。)。通知を受けた該プロセ
ス制御部2は、最終的に該プロセスAオリジナル3を強
制終了させる(これが、図10中に記載した強制終了で
ある。)。When it is detected that the process A clone 3a does not return an answer from the process A original 3 continuously for a predetermined number of times (this is the failure detection described in FIG. 10), Communication / failure detector 32
-4a determines that the process A original 3 is faulty and notifies the process control unit 2 via the common clone communication resource shown in FIG. 3 (this is the fault notification described in FIG. 10). is there.). Upon receiving the notification, the process control unit 2 finally forcibly terminates the process A original 3 (this is the forced termination described in FIG. 10).
【0112】尚、強制終了させる時には、運用プログラ
ムと運用管理プログラムについてのみ終了させ、該プロ
セスAオリジナル3が保有していたデータは消去しな
い。When the forced termination is performed, only the operation program and the operation management program are terminated, and the data held by the process A original 3 is not deleted.
【0113】図11は、定期通信/障害検出の基本動作
を説明する図(その2)で、クローンがオリジナルの障
害を検出するケースの動作を説明するものである。以
降、図11の符号に沿って上記動作を説明する。FIG. 11 is a diagram (part 2) for explaining the basic operation of the periodic communication / failure detection, and explains the operation in the case where the clone detects the original failure. Hereinafter, the above operation will be described along the reference numerals in FIG.
【0114】S51.クローンは定期通信に先立ってタ
イムアウト・タイマをクリアする。S51. The clone clears the timeout timer prior to regular communication.
【0115】S52.オリジナルに対して定期通信リク
エストを送信する。S52. Send a periodic communication request to the original.
【0116】この場合、オリジナルが障害であることを
想定しているので、オリジナルからは上記定期通信リク
エストに対するアンサーが帰ってこない。この間、クロ
ーンはタイムアウト・タイマを作動させている。In this case, since it is assumed that the original is a failure, the answer to the periodic communication request does not return from the original. During this time, the clone runs a timeout timer.
【0117】S53.クローンはタイムアウト・タイマ
が所定時間の経過を検出したのを受けてリトライ・カウ
ンタを歩進させる。該リトライ・カウンタは、定期通信
リクエストに対してオリジナルからアンサーを帰ってこ
なかった回数をカウントするカウンタで、所定回数に達
することによってオリジナルが障害であることを判定す
るためのものである。S53. The clone increments the retry counter in response to the detection of the elapse of the predetermined time by the timeout timer. The retry counter is a counter that counts the number of times that the answer has not returned from the original in response to the periodic communication request, and determines that the original has a failure by reaching a predetermined number.
【0118】そして、図示はしていないが、次の定期通
信の時刻まで所定時間待機する。Then, although not shown, it waits for a predetermined time until the time of the next periodic communication.
【0119】S54.クローンは、再びタイムアウト・
タイマをクリアして、 S55.オリジナルに対して定期通信リクエストを送信
する。S54. The clone times out again.
Clear the timer, S55. Send a periodic communication request to the original.
【0120】この時にもオリジナルからはアンサーが帰
ってこない。At this time, the answer does not return from the original.
【0121】S56.従って、クローンは再びタイムア
ウトを検出し、リトライ・カウンタを歩進させる。S56. Therefore, the clone detects the timeout again and increments the retry counter.
【0122】S57.このような動作を繰り返した結
果,クローンはリトライ・カウンタが所定回数に達した
のを検出してオリジナルが障害であることを検出する。S57. As a result of repeating such operations, the clone detects that the retry counter has reached a predetermined number of times, and detects that the original is a failure.
【0123】S58.そして障害処理のルーチンに入
る。S58. Then, the process enters a failure processing routine.
【0124】このルーチンで、まず、プロセスAクロー
ンがプロセス制御部に対してプロセスAオリジナルのプ
ロセスIDを通知し、最終的にプロセス制御部は起動プ
ロセス登録テーブルから障害となったプロセスAオリジ
ナルのプロセスIDを消去し、該プロセスAオリジナル
を強制的に終了させる。In this routine, first, the process A clone notifies the process control unit of the process A original process ID, and the process control unit finally finds the failed process A original process ID from the startup process registration table. The ID is erased, and the process A original is forcibly terminated.
【0125】図12は、クローンのオリジナル化と新ク
ローンの生成を説明する図で、上記ステップS58に対
応するものである。FIG. 12 is a diagram for explaining the creation of a clone and the generation of a new clone, and corresponds to step S58.
【0126】図12において、2はプロセス制御部、3
bはプロセスAクローンがオリジナル化されたプロセス
A新オリジナル、3cは該プロセスA新オリジナル3b
によって再生されたプロセスA再生クローンである。In FIG. 12, reference numeral 2 denotes a process control unit;
b is a process A new original in which the process A clone is originalized, 3c is the process A new original 3b
Is a reproduced clone of the process A reproduced by the process A.
【0127】尚、図12においては、該プロセス制御部
2についてはプロセス起動/制御部21−1、起動プロ
セス登録テーブル22−1のみを記載し、該プロセスA
新オリジナル3bについては起動プロセス検出部32−
1、プロセス種別判定部32−2、クローン生成部32
−3のみを記載し、プロセスA再生クローン3cについ
ては定期通信/障害検出部32−4aのみを記載してい
る。In FIG. 12, for the process control unit 2, only the process start / control unit 21-1 and the start process registration table 22-1 are described.
For the new original 3b, the activation process detection unit 32-
1. Process type determination unit 32-2, clone generation unit 32
-3, only the periodic communication / failure detection unit 32-4a is described for the process A reproduction clone 3c.
【0128】図10に示したようにプロセスAクローン
3aからプロセスAオリジナル3が障害であることの通
知を受けたプロセス制御部2は、図4と図6において説
明したプロセスの起動と同様な手順でプロセスAクロー
ンをオリジナル化してプロセスA新オリジナル3bを起
動する。従って、プロセスA新オリジナル3bには運用
プログラムと全ての機能を含む運用管理プログラムがロ
ード、展開される。As shown in FIG. 10, the process control unit 2, which has been notified from the process A clone 3a that the process A original 3 has failed, performs the same procedure as the process start described in FIGS. 4 and 6. To make the process A clone original and start the process A new original 3b. Therefore, an operation program and an operation management program including all functions are loaded and expanded in the process A new original 3b.
【0129】そして、図10の説明で記載したように、
障害となったプロセスAオリジナルが保有していたデー
タはメモリ領域に保存されているので、このデータを格
納しているデータ領域をプロセスA新オリジナル3bの
運用プログラムと運用管理プログラムと接続すれば、障
害になったプロセスAオリジナル3から新たに起動され
たプロセスA新オリジナル3bにデータを引き継ぐこと
ができる。Then, as described in the description of FIG.
Since the data held by the failed process A original is stored in the memory area, if the data area storing this data is connected to the operation program and the operation management program of the process A new original 3b, Data can be taken over from the failed process A original 3 to the newly activated process A new original 3b.
【0130】次いで、図4に示したのと同様に、該プロ
セスA新オリジナル3bは、起動プロセス検出部32−
1によって該起動プロセス登録テーブル22−1にアク
セスして自身のプロセスIDが該起動プロセス登録テー
ブル22−1に登録されているか否かの調査を行なう。Next, in the same manner as shown in FIG. 4, the process A new original 3b is
1 accesses the activation process registration table 22-1 and checks whether or not its own process ID is registered in the activation process registration table 22-1.
【0131】この場合、該プロセスA新オリジナル3b
は起動されたばかりであるので、自身のプロセスIDは
未登録である。従って、プロセス種別判定部32−2に
よって自身がプロセスAのオリジナルであると判定し、
該起動プロセス登録テーブル22−1に自身のプロセス
IDを登録する。In this case, the process A new original 3b
Has just been started, so its own process ID has not been registered. Therefore, the process type determination unit 32-2 determines that the process A is the original of the process A,
It registers its own process ID in the activation process registration table 22-1.
【0132】次いで、該プロセス種別判定部32−2の
判定結果に従って、該クローン生成部32−3が新たな
クローンを起動して該プロセスA再生クローン3cとす
る。Next, according to the judgment result of the process type judgment unit 32-2, the clone generation unit 32-3 starts a new clone and sets it as the process A reproduction clone 3c.
【0133】図13は、クローン暴走時の障害検出とク
ローンの再生を説明する図である。FIG. 13 is a diagram for explaining fault detection and clone reproduction during runaway of a clone.
【0134】図13において、2はプロセス制御部、3
はプロセスAオリジナル、3aはプロセスAクローン、
3dはプロセスA再生クローンである。In FIG. 13, reference numeral 2 denotes a process control unit;
Is Process A original, 3a is Process A clone,
3d is a process A reproduction clone.
【0135】尚、該プロセス制御部2の内部構成は図示
を省略し、該プロセスAオリジナル3については定期通
信/障害検出部32−4とクローン生成部32−3のみ
を記載し、プロセスAクローン3aとプロセスA再生ク
ローン3dについては定期通信/障害検出部32−4a
のみを記載している。The internal configuration of the process control unit 2 is not shown, and only the periodic communication / failure detection unit 32-4 and the clone generation unit 32-3 are described for the process A original 3, and the process A clone The regular communication / failure detection unit 32-4a for the process 3a and the process A reproduction clone 3d
Only listed.
【0136】該プロセスAオリジナル3と該プロセスA
クローン3aは互いの定期通信/障害検出部を介して定
期通信を行なっているが、プロセスAクローン3aから
の定期通信リクエストを連続して受信できなかった該プ
ロセスAオリジナル3は該プロセスAクローン3aが障
害であると判定する(これが、図13中に記載した障害
検出である。)。The process A original 3 and the process A
Although the clones 3a are performing regular communication via their mutual regular communication / failure detection units, the process A original 3 that cannot continuously receive the regular communication request from the process A clone 3a is the process A clone 3a. Is determined to be a failure (this is the failure detection described in FIG. 13).
【0137】この場合には、該プロセスAオリジナル3
は該プロセスAクローン3aを強制的に終了させ(これ
が、図13中に記載した強制終了である。)、該クロー
ン生成部32−3によって定期通信/障害検出部32−
4aをロード、展開して再度プロセスAのクローンを起
動し、これをプロセスA再生クローン3dとする(これ
が、図13中に記載した再生である。)。In this case, the process A original 3
Forcibly terminates the process A clone 3a (this is the forced termination described in FIG. 13), and the periodic generation / failure detection unit 32-
4a is loaded and expanded, and the clone of the process A is started again, and this is set as the process A reproduction clone 3d (this is the reproduction described in FIG. 13).
【0138】このように、オリジナルがクローンの障害
を検出した時には、プロセス制御部2を介することな
く、自律的にオリジナルがクローンを再生、起動する。As described above, when the original detects a failure of the clone, the original autonomously reproduces and starts the clone without passing through the process control unit 2.
【0139】図14は、定期通信/障害検出の基本動作
を説明する図(その3)で、オリジナルがクローンの障
害を検出するケースの動作を示すものである。以降、図
14の符号に沿って上記動作を説明する。FIG. 14 is a diagram (part 3) for explaining the basic operation of periodic communication / failure detection, and shows the operation in the case where the original detects a clone failure. Hereinafter, the above operation will be described along the reference numerals in FIG.
【0140】S61.オリジナルは前回の定期通信が終
了した後、タイムアウト・タイマをクリアして、 S62.クローンが定期通信のリクエストをしてくるの
を待機している。S61. The original clears the timeout timer after the previous periodical communication ends, and S62. The clone is waiting for a regular communication request.
【0141】今のケースでは、クローンが障害になって
いることを想定しているので、クローンは定期通信リク
エストを送信してこない。In the present case, since it is assumed that the clone has failed, the clone does not send a periodic communication request.
【0142】S63.従って、オリジナルのタイムアウ
ト・タイマが所定時間の経過を検出するので、オリジナ
ルはリトライ・カウンタを歩進させる。S63. Accordingly, the original increments the retry counter because the original timeout timer detects the passage of a predetermined time.
【0143】この後、オリジナルがクローンに対して再
送要求を出す方式と、再送要求せずに定期通信リクエス
トを待つ方式とがあるが、いずれにしても、上記ステッ
プと同じステップ、即ち、 S64.タイムアウト・タイマをクリアして、 S65.クローンが定期通信のリクエストをしてくるの
を待機している。Thereafter, there are a method in which the original sends a retransmission request to the clone, and a method in which the original does not request a retransmission, and waits for a periodic communication request. In any case, the same step as the above step, that is, S64. Clear the timeout timer, S65. The clone is waiting for a regular communication request.
【0144】S66.そして、オリジナルのタイムアウ
ト・タイマが所定時間の経過を検出するので、オリジナ
ルはリトライ・カウンタを歩進させる。を繰り返す。S66. Then, since the original timeout timer detects the elapse of the predetermined time, the original increments the retry counter. repeat.
【0145】S67.このようにしてリトライ・カウン
タが所定回数に達したことを検出すると、オリジナルは
クローンが障害であると判定して、 S68.障害処理のルーチンに入る。S67. When it is detected that the retry counter has reached the predetermined number of times in this way, the original is determined to have a fault in the clone, and S68. Enter the failure handling routine.
【0146】図15は、定期通信/障害検出のフローチ
ャートで、上記全ての動作を統合して図示したものであ
る。殆どの内容が既に説明されたものではあるが、全て
を統合した動作の説明は重要であるから、重複を顧みず
敢えて説明をする。FIG. 15 is a flowchart of the periodic communication / failure detection, in which all the above operations are integrated and illustrated. Although most of the contents have already been described, it is important to explain the operation in which all the operations are integrated.
【0147】尚、図15はクローン主導型を想定し、
又、クローンからの定期通信リクエストが所定時間こな
かった場合にオリジナルは再送要求せずに次の所定時間
を待つという方式を想定して図示している。FIG. 15 assumes a clone-driven type.
The figure also assumes a method in which, when a regular communication request from a clone has not arrived for a predetermined time, the original does not request retransmission and waits for the next predetermined time.
【0148】S1.クローンは前回の定期通信の後、タ
イムアウト・タイマをクリアし、 S2.オリジナルに対して定期通信リクエストを送信し
て、 S3.オリジナルからのアンサーを待機している。S1. The clone clears the timeout timer after the previous periodic communication, and S2. Send a regular communication request to the original, and S3. Waiting for answer from original.
【0149】S4.オリジナルからのアンサーが受信さ
れたか否かを判定する。S4. Determine whether an answer from the original has been received.
【0150】S5.ステップS4でオリジナルからのア
ンサーが受信されないと判定された場合(No)には、
タイムアウト・タイマが所定の時間τに達しているか否
かを判定する。S5. If it is determined in step S4 that no answer from the original has been received (No),
It is determined whether the timeout timer has reached a predetermined time τ.
【0151】所定の時間τに達していないと判定された
場合(No)には、ステップS3に戻って待機を続け
る。If it is determined that the predetermined time τ has not been reached (No), the process returns to step S3 to continue waiting.
【0152】S6.ステップS5においてタイムアウト
・タイマが所定の時間τに達していると判定された場合
(Yes)には、リトライ・カウンタを歩進する。S6. If it is determined in step S5 that the timeout timer has reached the predetermined time τ (Yes), the retry counter is incremented.
【0153】S7.リトライ・カウンタのカウント値が
所定回数に達しているか否かを判定する。所定回数に達
していないと判定された場合(No)には、ステップS
3に戻る。S7. It is determined whether the count value of the retry counter has reached a predetermined number. If it is determined that the number has not reached the predetermined number (No), step S
Return to 3.
【0154】S8.ステップS7でリトライ・カウンタ
のカウント値が所定回数に達したと判定された場合(Y
es)には、障害処理のルーチンに入る。S8. When it is determined in step S7 that the count value of the retry counter has reached the predetermined number (Y
In es), a failure processing routine is entered.
【0155】即ち、オリジナルとクローンの定期通信を
することによって、クローンがオリジナルの障害を発見
することができる。That is, by performing regular communication between the original and the clone, the clone can find the original failure.
【0156】一方、オリジナルからアンサーが帰ってき
た場合には、ステップS4でアンサーの受信があった
(Yes)ことを検出できるので、ステップS9に移行
する。即ち、 S9.データの展開要求があるか否かを判定し、 S10.ステップS9でデータの展開要求があると判定
された場合(Yes)には、データをメモリに展開す
る。On the other hand, if the answer has returned from the original, it can be detected in step S4 that the answer has been received (Yes), so the flow proceeds to step S9. That is, S9. It is determined whether there is a data expansion request, and S10. If it is determined in step S9 that there is a data development request (Yes), the data is developed in the memory.
【0157】これによって、オリジナルのデータをクロ
ーンが共有することができる。As a result, the original data can be shared by the clones.
【0158】S11.ステップS9でデータの展開要求
がないと判定された場合(No)と、ステップS10の
処理を終了した場合には、定期通信間隔Tだけ待機す
る。S11. If it is determined in step S9 that there is no data expansion request (No), and if the processing in step S10 has been completed, the process waits for the regular communication interval T.
【0159】S12.そして、リトライ・カウンタをク
リアしてステップS1に戻る。S12. Then, the retry counter is cleared and the process returns to step S1.
【0160】一方、オリジナルは次のように動作する。On the other hand, the original operates as follows.
【0161】S15.前回の定期通信の後、タイムアウ
ト・タイマをクリアして、 S16.クローンからの定期通信リクエストを待機して
いる。S15. After the previous regular communication, the timeout timer is cleared, and S16. Waiting for regular communication request from clone.
【0162】S17.クローンからの定期通信リクエス
トを受信した否か判定する。S17. It is determined whether a regular communication request from the clone has been received.
【0163】S18.ステップS17において、クロー
ンからの定期通信リクエストを受信していないと判定さ
れた場合(No)には、タイムアウト・タイマが所定の
時間τの経過を検出したか否かを判定する。所定時間τ
の経過を検出していない場合(No)には、ステップS
16に戻る。S18. If it is determined in step S17 that the periodic communication request has not been received from the clone (No), it is determined whether or not the timeout timer has detected the elapse of the predetermined time τ. Predetermined time τ
If the elapsed time has not been detected (No), step S
Return to 16.
【0164】S19.ステップS18において、所定の
時間τが経過したと判定された場合(Yes)には、リ
トライ・カウンタを歩進する。S19. If it is determined in step S18 that the predetermined time τ has elapsed (Yes), the retry counter is incremented.
【0165】S20.該リトライ・カウンタのカウント
値が所定回数に達したか否かを判定し、所定回数に達し
ていないと判定された場合(No)にはステップS16
に戻る。S20. It is determined whether or not the count value of the retry counter has reached a predetermined number. If it is determined that the count has not reached the predetermined number (No), step S16 is performed.
Return to
【0166】S21.一方、ステップS20で所定回数
に達したと判定された場合(Yes)には、障害処理の
ルーチンに入る。S21. On the other hand, if it is determined in step S20 that the number of times has reached the predetermined number (Yes), a failure processing routine is entered.
【0167】即ち、オリジナルとクローンが定期通信を
することによってオリジナルがクローンの障害を発見す
ることができる。That is, the original can detect a failure of the clone by performing regular communication between the original and the clone.
【0168】さて、クローンから定期通信リクエストが
受信されると、ステップS17では定期通信リクエスト
の受信ありにYes)と判定されるので、ステップS2
2に移行する。When a regular communication request is received from the clone, it is determined in step S17 that the regular communication request has been received (Yes).
Move to 2.
【0169】S22.定期通信リクエストに対してアン
サーする必要性があるか否か判定する。S22. It is determined whether it is necessary to answer the periodic communication request.
【0170】S23.ステップS22においてアンサー
する必要性があると判定された場合(Yes)には、ア
ンサーを編集してクローンに対して送信する。S23. If it is determined in step S22 that the answer is necessary (Yes), the answer is edited and transmitted to the clone.
【0171】S24.ステップS22でアンサーの必要
性がないと判定された場合(No)と、ステップS23
の処理が終了した場合には定期通信間隔Tだけ待機す
る。S24. When it is determined that there is no need for an answer in step S22 (No), step S23
Is completed, the process waits for the regular communication interval T.
【0172】S25.そして、リトライ・カウンタをク
リアして、ステップS15に戻る。S25. Then, the retry counter is cleared, and the process returns to step S15.
【0173】ここでは、クローン主導で定期通信場合を
説明したが、オリジナル主導で定期通信することが可能
であることは容易に想到しうることである。Here, the case of the regular communication led by the clone has been described, but it is easily conceivable that the regular communication can be led by the original.
【0174】又、オリジナルがクローンからの定期通信
リクエストがこないと判定した後、再送要求をする方式
も上記の方式を若干変更して実現できることも容易に理
解できる。Further, it can be easily understood that the method of making a retransmission request after determining that the original does not receive a regular communication request from the clone can be realized by slightly changing the above method.
【0175】さて、図2の説明において、プロセス制御
部のクローンにはオリジナルと同じプログラムをロード
するのが好ましいと記載し、一方、各プロセスのクロー
ンには定期通信/障害検出部をロードすればよいと記載
した。そして、各プロセスのクローンには定期通信/障
害検出部をロードすればよいことはその後の説明で明ら
かになっている。In the description of FIG. 2, it is described that it is preferable to load the same program as the original in the clone of the process control unit. On the other hand, if the regular communication / failure detection unit is loaded in the clone of each process. It was described as good. It is clear from the following description that the periodic communication / failure detection unit may be loaded into the clone of each process.
【0176】そこで、上記の理由を説明する。Thus, the above-mentioned reason will be described.
【0177】通常の各プロセスのオリジナルが障害であ
るとクローンが検出した時には、既に説明したように障
害を検出したクローンがプロセス制御部にその旨通知し
て、クローンのオリジナル化と障害になったオリジナル
の強制終了をプロセス制御部に行なってもらうことが可
能である。When a clone detects that the original of each process is faulty, the clone that has detected the fault notifies the process control unit to that effect as described above, and the original copy of the clone and the fault occur. The original forced termination can be performed by the process control unit.
【0178】一方、プロセス制御部のオリジナルが障害
であると検出される場合を想定する時、プロセス制御部
のクローンに定期通信/障害検出部のみがロードされて
いる場合には、プロセス制御部のオリジナルが障害であ
ることを表示することが可能である。そして、この障害
表示を契機にして図1を用いて説明した起動プロセスを
再度実行すれば障害になったプロセス制御部の復旧をす
ることができる。On the other hand, when assuming that the original of the process control unit is detected as a failure, if only the periodic communication / failure detection unit is loaded in the clone of the process control unit, the process control unit It is possible to indicate that the original is an obstacle. Then, by executing the startup process described with reference to FIG. 1 again in response to the failure display, the failed process control unit can be recovered.
【0179】ただ、図1で説明した起動プロセスによっ
てプロセス制御部の起動を行なうと、各プロセスも自動
的に再度起動されることになり、各プロセスが保有する
運用管理データ及び処理データを消去されてしまうこと
になるので、それを防止するために各プロセスが保有す
る運用管理データ及び処理データを一旦ダウン・ロード
してから図1で説明した起動プロセスを実行する必要が
ある。However, when the process control unit is activated by the activation process described with reference to FIG. 1, each process is automatically activated again, and the operation management data and processing data possessed by each process are deleted. In order to prevent this, it is necessary to download the operation management data and processing data held by each process once and then execute the start-up process described with reference to FIG.
【0180】これに対して、プロセス制御部のクローン
がオリジナルと同じプログラムを共有していれば、クロ
ーンはオリジナルと全く同じ機能を備えているので、図
13においてオリジナルがクローンを強制終了させるの
と同じように、プロセス制御部のクローンが障害になっ
たプロセス制御部のオリジナルを強制終了させ、一旦プ
ログラム・メモリ上から障害になったプロセス制御部の
オリジナルを消去することができる。On the other hand, if the clone of the process control unit shares the same program as the original, the clone has exactly the same function as the original. Similarly, the clone of the process control unit can forcibly terminate the original of the failed process control unit and erase the original of the failed process control unit from the program memory.
【0181】しかも、それまでクローンであっても全て
のプログラムとデータを保有しているので、自身がオリ
ジナルに変わることができる。In addition, since all the programs and data are retained even if they are clones, they can be changed to originals.
【0182】そして、図13においてオリジナルがクロ
ーンを再生するのと同じように、新たにオリジナルにな
ったプロセス制御部が新たなクローンを再生することが
できる。Then, in the same way as the original reproduces the clone in FIG. 13, the process control unit which has become the new original can reproduce the new clone.
【0183】従って、プロセス制御部についてはクロー
ンにもオリジナルと同じプログラムとデータを持たせて
おけば、プロセス制御部のオリジナルが障害になっても
自律的に障害復旧させることが可能になる。Therefore, if the clone has the same program and data as the original in the process control section, it is possible to autonomously recover the failure even if the original of the process control section fails.
【0184】上記の意味で、図2の説明においてプロセ
ス制御部の場合にはオリジナルと同じプログラムをクロ
ーンにもロードするのが好ましいと記載したのである。In the above sense, it has been described in the description of FIG. 2 that in the case of the process control unit, it is preferable to load the same program as the original into the clone.
【0185】ただ、プロセス制御部のオリジナルとクロ
ーンに同じプログラムとデータを持たせるとシステム規
模が大きくならざるを得ない。しかし、通常は、システ
ム内には多数のプロセスがロードされており、それら多
数のプロセスについてはクローンには最小限のリソース
しか与えず、完全二重化するのはプロセス制御部だけで
あるので、その影響は軽微である。However, if the original program and the clone of the process control unit have the same program and data, the system scale must be increased. However, usually, a large number of processes are loaded in the system, and these clones give the clone only minimal resources, and only the process control unit performs full duplication. Is minor.
【0186】[0186]
【発明の効果】以上詳述した如く、本発明により、シス
テム規模の肥大化を回避できるシステムの運用方式を実
現することができ、又、上記システムの運用に当たって
構成要素であるオリジナル・プロセスとクローン・プロ
セスの障害を確実に検出することが可能なシステムの運
用方式を実現することができ、更に、オリジナル・プロ
セスとクローン・プロセスとの間でデータを共有するこ
とが可能なシステムの運用方式を実現することができ
る。As described above in detail, according to the present invention, it is possible to realize a system operation method capable of avoiding an increase in the scale of a system. -A system operation method capable of reliably detecting a process failure can be realized, and a system operation method capable of sharing data between an original process and a clone process can be realized. Can be realized.
【0187】従って、経済的な負担や設置スペースの増
加を避けながら、通信システムや情報処理システムの信
頼度を向上することができる。Therefore, the reliability of the communication system or the information processing system can be improved while avoiding an economic burden and an increase in installation space.
【図1】 本発明のシステム構成概要と本発明のシステ
ムの起動を説明する図。FIG. 1 is a diagram for explaining an outline of a system configuration according to the present invention and explaining activation of a system according to the present invention.
【図2】 本発明によるシステム内部の構成。FIG. 2 shows the internal configuration of the system according to the present invention.
【図3】 システム内の通信リソース。FIG. 3 shows communication resources in the system.
【図4】 プロセス種別の判定を説明する図。FIG. 4 is a diagram illustrating a process type determination.
【図5】 起動プロセス登録テーブルの構成例。FIG. 5 is a configuration example of a startup process registration table.
【図6】 クローンの起動を説明する図。FIG. 6 is a view for explaining activation of a clone.
【図7】 オリジナル・クローン間のデータの共有を説
明する図。FIG. 7 is a view for explaining data sharing between original clones.
【図8】 定期通信/障害検出の基本動作を説明する図
(その1)。FIG. 8 is a view for explaining the basic operation of periodic communication / failure detection (part 1).
【図9】 定期通信のデータの構成例。FIG. 9 is a configuration example of data of periodic communication.
【図10】 オリジナルの障害検出とプロセス強制終了
を説明する図。FIG. 10 is a diagram for explaining original failure detection and process forced termination.
【図11】 定期通信/障害検出の基本動作を説明する
図(その2)。FIG. 11 is a view for explaining a basic operation of periodic communication / failure detection (part 2).
【図12】 クローンのオリジナル化と新クローンの生
成を説明する図。FIG. 12 is a view for explaining originalization of clones and generation of new clones.
【図13】 クローン暴走時の障害検出とクローンの再
生を説明する図。FIG. 13 is a view for explaining failure detection and clone reproduction at the time of clone runaway.
【図14】 定期通信/障害検出の基本動作を説明する
図(その3)。FIG. 14 is a diagram illustrating the basic operation of periodic communication / failure detection (part 3).
【図15】 定期通信/障害検出のフローチャート。FIG. 15 is a flowchart of periodic communication / failure detection.
【図16】 従来の二重化システムの運用方式の構成。FIG. 16 shows a configuration of a conventional operation system of a duplex system.
【図17】 従来の障害復旧方式の構成。FIG. 17 shows a configuration of a conventional failure recovery system.
1 ハード・ディスク 2 プロセス制御部オリジナル 2a プロセス制御部クローン 3 プロセスAオリジナル、プロセスA 3a プロセスAクローン 3b プロセスA新オリジナル 3c プロセスA再生クローン 3d プロセスA再生クローン 4 プロセスBオリジナル 4a プロセスBクローン 5 プロセス間通信リソース 6 共通クローン通信リソース 7 オリジナル−クローン間通信リソース 11 プロセス制御部ロード・モジュール 12 プロセスAロード・モジュール 13 プロセスBロード・モジュール 14 ダイナミック・リンク・ライブラリ 21 運用プログラム 22 運用管理プログラム 31 運用プログラム 32 運用管理プログラム 41 運用プログラム 42 運用管理プログラム 21−1 プロセス起動/制御部 21−2 ダイナミック・リンク・ライブラリ読み込
み部 22−1 起動プロセス登録テーブル 22−2 定期通信/障害検出部 31−1 ダイナミック・リンク・ライブラリ読み込み
部 32−1 起動プロセス検出部 32−2 プロセス種別判定部 32−3 クローン生成部 32−4 定期通信/障害検出部 32−4a 定期通信/障害検出部 41−1 ダイナミック・リンク・ライブラリ読み込み
部 51 第一の通信装置のハードウェア 52 第一の通信装置のアプリケーション・プログラム 53 第二の通信装置のハードウェア 54 第二の通信装置のアプリケーション・プログラム 55 監視切替装置 61 プロセス制御部 62 プロセスA 63 プロセスB 64 プロセスC 61−1 障害検出手段 61−2 障害復旧手段DESCRIPTION OF SYMBOLS 1 Hard disk 2 Process control part original 2a Process control part clone 3 Process A original, process A 3a Process A clone 3b Process A new original 3c Process A reproduction clone 3d Process A reproduction clone 4 Process B original 4a Process B clone 5 Process Inter-communication resources 6 Common clone communication resources 7 Original-clone communication resources 11 Process control unit load module 12 Process A load module 13 Process B load module 14 Dynamic link library 21 Operation program 22 Operation management program 31 Operation program 32 Operation Management Program 41 Operation Program 42 Operation Management Program 21-1 Process Activation / Control Unit 21-2 Dynami Link library reading unit 22-1 startup process registration table 22-2 periodic communication / failure detection unit 31-1 dynamic link library reading unit 32-1 startup process detection unit 32-2 process type determination unit 32- 3 Clone Generator 32-4 Periodic Communication / Fault Detector 32-4a Periodic Communication / Fault Detector 41-1 Dynamic Link Library Reading Unit 51 Hardware of First Communication Device 52 Application of First Communication Device Program 53 Hardware of second communication device 54 Application program of second communication device 55 Monitoring and switching device 61 Process control unit 62 Process A 63 Process B 64 Process C 61-1 Failure detection means 61-2 Failure recovery means
フロントページの続き (72)発明者 後藤 祐治 福岡県福岡市早良区百道浜2丁目2番1号 富士通九州通信システム株式会社内 (72)発明者 藤吉 勝幸 福岡県福岡市早良区百道浜2丁目2番1号 富士通九州通信システム株式会社内 (72)発明者 光野 幸雄 福岡県福岡市早良区百道浜2丁目2番1号 富士通九州通信システム株式会社内 (72)発明者 名本 大輔 福岡県福岡市早良区百道浜2丁目2番1号 富士通九州通信システム株式会社内 Fターム(参考) 5B034 BB02 CC03 5B042 JJ04 JJ08 5B045 JJ02 JJ12 JJ42 JJ45 JJ48 5B089 GA01 GB02 HA01 JA40 JB17 KA12 KB06 KC30 LB14 MC02 MD02 MD03 ME15 Continuation of the front page (72) Inventor Yuji Goto 2-2-1 Momichihama, Sawara-ku, Fukuoka, Fukuoka Prefecture Inside Fujitsu Kyushu Communication Systems Co., Ltd. (72) Katsuyuki Fujiyoshi 2-2-1 Momichihama, Sawara-ku, Fukuoka, Fukuoka No. Fujitsu Kyushu Communication System Co., Ltd. (72) Inventor Yukio Mitsuno 2-2-1 Momichihama, Sawara-ku, Fukuoka, Fukuoka Prefecture Inventor Daisuke Namoto Mochihama, Sawara-ku, Fukuoka, Fukuoka 2-2-1 Fujitsu Kyushu Communication System Co., Ltd. F-term (reference) 5B034 BB02 CC03 5B042 JJ04 JJ08 5B045 JJ02 JJ12 JJ42 JJ45 JJ48 5B089 GA01 GB02 HA01 JA40 JB17 KA12 KB06 KC30 LB14 MC02 MD02 MD03 ME15
Claims (6)
スの動作を制御するプロセス制御部と、システム動作の
ための運用プログラムとシステム動作を管理する運用管
理プログラムの全てを備えるオリジナル・プロセスと、
該オリジナル・プロセスの運用管理プログラムのうち必
要最小限の運用管理プログラムを備えるクローン・プロ
セスとを有し、該オリジナル・プロセスと該クローン・
プロセスの間で定期通信を行なうことを特徴とするシス
テムの運用方式。A process control unit for controlling operations of all processes provided in the system; an original process including all of an operation program for system operation and an operation management program for managing system operation;
A clone process having a minimum necessary operation management program among the operation management programs of the original process, wherein the original process and the clone
A system operation method characterized in that periodic communication is performed between processes.
って、上記プロセス制御部については、全てのプログラ
ムと全てのデータをオリジナルとクローンが共有するこ
とを特徴とするシステムの運用方式。2. The system operation method according to claim 1, wherein, for the process control unit, all programs and all data are shared by an original and a clone.
って、上記定期通信によって上記オリジナル・プロセス
と上記クローン・プロセスがデータを共有することを特
徴とするシステムの運用方式。3. The system operation method according to claim 1, wherein said original process and said clone process share data by said periodic communication.
って、上記定期通信によって、オリジナル・プロセスが
クローン・プロセスの障害を検出し、クローン・プロセ
スがオリジナル・プロセスの障害を検出することを特徴
とするシステムの運用方式。4. The system operation method according to claim 1, wherein the periodic communication detects that the original process detects a failure of the clone process, and that the clone process detects a failure of the original process. The operating system of the featured system.
ける障害自動復旧方式であって、上記クローン・プロセ
スが上記オリジナル・プロセスの障害を検出した場合に
は、該クローン・プロセスの通知によって上記プロセス
制御部が障害となったオリジナル・プロセスの場外を復
旧させることを特徴とする障害自動復旧方式。5. The automatic recovery method according to claim 4, wherein when the clone process detects a failure of the original process, the clone process notifies the clone process of the original process. An automatic failure recovery method, in which the control unit recovers outside the original process where the failure occurred.
ける障害自動復旧方式であって、上記オリジナル・プロ
セスが上記クローン・プロセスの障害を検出した場合に
は、該オリジナル・プロセスが自律的に該クローン・プ
ロセスを再生することを特徴とする障害自動復旧方式。6. An automatic failure recovery method in the system operation method according to claim 4, wherein when the original process detects a failure of the clone process, the original process autonomously performs the recovery. An automatic failure recovery method characterized by regenerating a clone process.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP11016874A JP2000215074A (en) | 1999-01-26 | 1999-01-26 | Operation system for system and automatic fault recovery system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP11016874A JP2000215074A (en) | 1999-01-26 | 1999-01-26 | Operation system for system and automatic fault recovery system |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2000215074A true JP2000215074A (en) | 2000-08-04 |
Family
ID=11928349
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP11016874A Withdrawn JP2000215074A (en) | 1999-01-26 | 1999-01-26 | Operation system for system and automatic fault recovery system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2000215074A (en) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006240610A (en) * | 2000-08-25 | 2006-09-14 | Mitsubishi Electric Corp | Mobile electronic device |
JP2008140280A (en) * | 2006-12-05 | 2008-06-19 | Hitachi Ltd | Reliability enhancing method in operation management of server |
JP2012018512A (en) * | 2010-07-07 | 2012-01-26 | Fujitsu Ltd | Program, information processor, and control method for information processor |
JP2013073456A (en) * | 2011-09-28 | 2013-04-22 | Mitsubishi Electric Corp | Application monitoring optimizing device |
US8862707B2 (en) | 2009-03-30 | 2014-10-14 | Fujitsu Limited | Method and apparatus for managing data of operation system |
-
1999
- 1999-01-26 JP JP11016874A patent/JP2000215074A/en not_active Withdrawn
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006240610A (en) * | 2000-08-25 | 2006-09-14 | Mitsubishi Electric Corp | Mobile electronic device |
JP2008140280A (en) * | 2006-12-05 | 2008-06-19 | Hitachi Ltd | Reliability enhancing method in operation management of server |
US8862707B2 (en) | 2009-03-30 | 2014-10-14 | Fujitsu Limited | Method and apparatus for managing data of operation system |
JP2012018512A (en) * | 2010-07-07 | 2012-01-26 | Fujitsu Ltd | Program, information processor, and control method for information processor |
JP2013073456A (en) * | 2011-09-28 | 2013-04-22 | Mitsubishi Electric Corp | Application monitoring optimizing device |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5802267A (en) | Method for checkpointing in computer system under distributed processing environment | |
US6785678B2 (en) | Method of improving the availability of a computer clustering system through the use of a network medium link state function | |
US8191078B1 (en) | Fault-tolerant messaging system and methods | |
US6226694B1 (en) | Achieving consistency and synchronization among multiple data stores that cooperate within a single system in the absence of transaction monitoring | |
JPH0619743B2 (en) | Storing method, control method, and storage device for application session in computer network | |
JP4155399B2 (en) | Computer processing method, its execution system, and its processing program | |
JPH0950424A (en) | Dump sampling device and dump sampling method | |
JP2000215074A (en) | Operation system for system and automatic fault recovery system | |
US6175933B1 (en) | Recovery of file transfers in a data processing system | |
JP3253473B2 (en) | Method and apparatus for resynchronization processing of duplicated shared memory | |
JP2003006018A (en) | System, method for restoring processing request, client device and server device | |
JP2009058998A (en) | Loosely-coupled system, backup exclusive control processor, recovery method for loosely-coupled system, program, and storage medium | |
JP2003256399A (en) | Control method for switching in hot standby system | |
JPH09288590A (en) | Virtual computer system | |
JPH1125062A (en) | Fault recovery system | |
JPH11338838A (en) | Parallel dump extraction method and system for fault information in multiprocessor system | |
JPH0793173A (en) | Computer network system and process allocating method for computer therein | |
JP3463696B2 (en) | Online garbage collection processing method | |
JPH05216855A (en) | Multi-cpu control system | |
JPH08110840A (en) | Restoration system for magnetic disk device of double redundancy constitution | |
JP2001022712A (en) | Initial setting system of information processor | |
JPH10269124A (en) | Method and system for managing checkpoint information | |
JPH05292555A (en) | Switch control method and switch system | |
JPS63138848A (en) | Networm fault management system | |
JP2850757B2 (en) | Failure handling method in hierarchical file system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20060404 |