JP2002049509A - Data processing system - Google Patents

Data processing system

Info

Publication number
JP2002049509A
JP2002049509A JP2000233268A JP2000233268A JP2002049509A JP 2002049509 A JP2002049509 A JP 2002049509A JP 2000233268 A JP2000233268 A JP 2000233268A JP 2000233268 A JP2000233268 A JP 2000233268A JP 2002049509 A JP2002049509 A JP 2002049509A
Authority
JP
Japan
Prior art keywords
program
data processing
processing system
failure
firmware
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000233268A
Other languages
Japanese (ja)
Inventor
Yoshinori Wakai
義憲 若井
Hideki Murayama
秀樹 村山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2000233268A priority Critical patent/JP2002049509A/en
Publication of JP2002049509A publication Critical patent/JP2002049509A/en
Pending legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To improve the reliability by duplexing the firmwares of a data processing system composed of plural nodes. SOLUTION: Firmwars 14A and 14B which differ in version are stored in ROMs 12A and 12B. A monitor device 18 monitors the processing state of the node 10 or 20 that it belongs to by a CPU 11. Respective monitor devices when detecting trouble during firmware execution communicate with each other to switch the ROMs and perform restarting. The respective nodes can synchronously switch the firmwares to use through a series of the operations. If a trouble occurs, restarting is performed by a firmware of safe version, and whichever node has starting trouble, it is guaranteed that all the nodes use firmwares of the same version.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、情報処理や機器の
制御を行うデータ処理システムに係り、特に、ダウンタ
イムの短縮を図り、信頼性の向上を図ることのできる複
数のノードにより構成されるデータ処理システムに関す
る。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a data processing system for controlling information processing and equipment, and more particularly to a data processing system comprising a plurality of nodes capable of reducing downtime and improving reliability. It relates to a data processing system.

【0002】[0002]

【従来の技術】近年、データ処理システムは、高信頼性
への要求が高まっており、特に、サーバとして使用され
るデータ処理システムは、障害によるダウンタイムの短
縮が課題となっている。一般に、ハードウェア故障によ
る障害に対しては、ハードウェアの二重化や縮退運転と
いった方法で信頼性の確保がなされているが、プログラ
ムのバグによる障害に対してはこれと同様なアプローチ
で解決することはできない。
2. Description of the Related Art In recent years, there has been an increasing demand for high reliability of data processing systems. In particular, in a data processing system used as a server, there is a problem of reducing downtime due to a failure. Generally, the reliability of hardware failures is ensured by using hardware duplication or degraded operation.However, failures due to program bugs should be resolved using a similar approach. Can not.

【0003】このようなソフトウェア、ファームウェア
等のプログラムを原因とする障害に対しては、システム
に複数のプログラムを備え、障害発生時に実行するプロ
グラムを切り替えて実行させることによりシステムの運
用を継続することができるようにして信頼性の向上を図
ることができる。
In order to cope with a failure caused by such a program such as software or firmware, the system is provided with a plurality of programs, and the operation of the system is continued by switching and executing the program to be executed when the failure occurs. And the reliability can be improved.

【0004】前述したようなプログラムを原因とする障
害に対処可能とした従来技術として、例えば、特開平1
1−154099号公報等に記載された技術が知られて
いる。この従来技術は、単一のシステムにおいて異なる
コーディングで表現された複数のファームウェアを異な
るROMに格納しておき、ファームウェアの実行中に障
害を検知すると異なるファームウェアが実行されるよう
に設定を変更し、システムの再起動を行うというもので
ある。このような従来技術によれば、再起動されるファ
ームウェアとして、障害を生起させるバグを内包してい
ないもの(例えば、旧バージョンのファームウェア)を
用意しておくことにより、障害の復旧を行うことができ
る。
As a prior art capable of coping with a failure caused by the above-described program, for example, Japanese Patent Laid-Open No.
A technique described in, for example, JP-A-1-154099 is known. This conventional technique stores a plurality of firmwares represented by different codings in a single system in different ROMs, and changes settings so that when a failure is detected during execution of the firmware, different firmware is executed, This is to restart the system. According to such a conventional technique, it is possible to recover a failure by preparing a firmware that does not include a bug that causes a failure (for example, an old version of firmware) as the firmware to be restarted. it can.

【0005】[0005]

【発明が解決しようとする課題】データ処理システム
は、前述したように、高信頼性が求められる一方でさら
に高い演算性能も求められている。そして、これを解決
するため、高性能サーバは、一定の性能を持つノードを
接続装置を介して複数個結合したマルチノード構成とさ
れることが多い。そして、システムを構成するノード数
が多くなると単一のファームウェアを共有することが困
難になるため、前述のマルチノード構成のシステムは、
複数のノードのそれぞれにファームウェアのコピーが配
置される。一般的に、システムで実行されるファームウ
ェアは単一でなくてはならないため、前述のようなシス
テムにおいてファームウェアの二重化を行う場合、全て
のノードが同一のファームウェアを使用するように制御
しなくてはならない。
As described above, the data processing system is required to have high reliability, but also to have higher operation performance. In order to solve this, a high-performance server is often configured in a multi-node configuration in which a plurality of nodes having a certain performance are connected via a connection device. When the number of nodes configuring the system increases, it becomes difficult to share a single firmware.
A copy of the firmware is located on each of the plurality of nodes. In general, since the firmware executed in the system must be a single firmware, when performing firmware duplication in the above-described system, it is necessary to control all nodes to use the same firmware. No.

【0006】前述した従来技術は、データ処理システム
が複数のノードから構成される場合についての配慮がな
されておらず、マルチノード構成のシステムにこの従来
技術を適用した場合、それぞれのノードが独立してファ
ームウェアの切り替えを行うことになり、この結果、起
動に成功したノードと失敗したノードとで使用されるフ
ァームウェアが一致しなくなるという問題点を生じさせ
る。
In the above-mentioned prior art, no consideration is given to the case where the data processing system is composed of a plurality of nodes. When this prior art is applied to a multi-node system, each node becomes independent. As a result, there is a problem that the firmware used in the node that has succeeded in starting and the firmware used in the node that has failed to start do not match.

【0007】本発明の目的は、前述した従来技術の問題
点を解決し、複数のノードにより構成されるデータ処理
システムで実行されるプログラムのバグに起因する障害
からの確実な復旧を図り、信頼性の高いデータ処理シス
テムを提供することにある。
SUMMARY OF THE INVENTION An object of the present invention is to solve the above-mentioned problems of the prior art, to reliably recover from a failure caused by a bug in a program executed in a data processing system including a plurality of nodes, and to improve reliability. Another object of the present invention is to provide a highly reliable data processing system.

【0008】[0008]

【課題を解決するための手段】本発明によれば前記目的
は、互いに通信装置で接続された複数のノードから構成
されるデータ処理システムにおいて、前記ノードは、プ
ログラムを実行する1または複数のプロセッサと、少な
くとも2個のプログラムを保持するプログラム記憶手段
と、前記プログラムのいずれかを選択して前記プロセッ
サに実行させるプログラム選択手段と、優先して実行す
べきプログラムを示す情報を保持する不揮発性メモリ
と、前記プログラムの実行時における障害を検知する処
理障害判定手段とを備え、前記処理障害判定手段が、実
行中のプログラムに障害を検知したとき、データ処理シ
ステムに属する全ての処理障害判定手段に自ノードでの
プログラム障害を通知し、自ノードの前記プログラム選
択手段を用いて実行中の該プログラムに代えて現在実行
していない他のプログラムを選択してプロセッサに実行
させると共に、少なくとも1個の他のノードからの障害
が通知されたとき、実行中のプログラムに代えて現在実
行していない他のプログラムを選択し実行することによ
り達成される。
According to the present invention, there is provided a data processing system comprising a plurality of nodes connected to each other by a communication device, wherein the node comprises one or more processors for executing a program. Program storage means for holding at least two programs, program selection means for selecting one of the programs to be executed by the processor, and non-volatile memory for holding information indicating programs to be executed with priority And a processing failure determination means for detecting a failure during execution of the program, wherein the processing failure determination means, when detecting a failure in the program being executed, all processing failure determination means belonging to the data processing system Notify program failure in own node and execute using program selection means of own node And selecting another program that is not currently being executed in place of the program and causing the processor to execute the program. When a failure is notified from at least one other node, the currently executed program is executed instead of the currently executed program. This is achieved by selecting and running other programs that are not.

【0009】前述の解決手段において、前記2つのプロ
グラムのそれぞれは、新しいバージョンのプログラム、
及び、1つ前の古いバージョンのプログラムであり、こ
れらのプログラムは、読み出し専用メモリに格納された
ファームウェア、または、不揮発記録媒体に格納された
ソフトウェアであってよい。
In the above solution, each of the two programs may be a new version of the program,
And a previous version of the program, and these programs may be firmware stored in a read-only memory or software stored in a non-volatile recording medium.

【0010】[0010]

【発明の実施の形態】以下、本発明によるデータ処理シ
ステムの一実施形態を図面により詳細に制御する。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS An embodiment of a data processing system according to the present invention will be described below in detail with reference to the drawings.

【0011】図1は本発明の一実施形態によるデータ処
理システムの全体の概略構成を示すブロック図、図2は
本発明の一実施形態によるデータ処理システムの起動時
の処理を説明するフローチャートである。図1におい
て、10、20はノード、11はCPU、12A、12
BはROM、14A、14Bはファームウェア、15は
切り替え手段、16はシステムバス、17は不揮発性メ
モリ、18は監視装置、30は接続装置である。
FIG. 1 is a block diagram showing an overall schematic configuration of a data processing system according to one embodiment of the present invention, and FIG. 2 is a flowchart for explaining processing at the time of starting the data processing system according to one embodiment of the present invention. . 1, 10 and 20 are nodes, 11 is a CPU, 12A and 12
B is a ROM, 14A and 14B are firmware, 15 is a switching means, 16 is a system bus, 17 is a non-volatile memory, 18 is a monitoring device, and 30 is a connection device.

【0012】本発明の一実施形態によるデータ処理シス
テムは、その典型的な応用例としてサーバ・コンピュー
タがあり、図1に示すように、複数のノード10、20
とそれらを接続して、ノード間での通信を行わせる接続
装置30とにより構成されている。ノード10、20
は、同一の構成を有しており、プロセッサである中央処
理装置(CPU:Central Processing Unit)11、ファ
ームウェア実行時の障害を検知する処理障害判定手段で
ある監視装置18、及び、不揮発性メモリ17がシステ
ムバス16に接続されて構成されており、システムバス
16には、さらに、2個の読み出し専用メモリ(RO
M)12A、12Bが切り替え手段15を介して接続さ
れて構成されている。なお、図には2つのノード10、
20のみを示しているが、ノードはさらに多数が設けら
れていてもよい。また、ノード内に設けられるCPUも
複数であってよい。
A typical example of a data processing system according to an embodiment of the present invention is a server computer, and as shown in FIG.
And a connection device 30 that connects them and performs communication between nodes. Nodes 10, 20
Have the same configuration, a central processing unit (CPU: Central Processing Unit) 11 which is a processor, a monitoring device 18 which is a processing failure determining means for detecting a failure when executing firmware, and a non-volatile memory 17. Are connected to a system bus 16. The system bus 16 further has two read-only memories (RO).
M) 12A and 12B are connected via the switching means 15. The figure shows two nodes 10,
Although only 20 is shown, more nodes may be provided. Further, a plurality of CPUs may be provided in the node.

【0013】ROM12A、12Bは、それぞれ内容が
一部異なるファームウェアA、B(14A、14B)を
格納、保持するプログラム記憶手段である。切り替え手
段15は、それらのファームウェアを格納したROMの
いずれかをファームウェア読み出し先として選択して、
システムバス16に接続する。すなわち、切り替え手段
16は、プログラム選択手段として機能する。なお、R
OM12A、12Bは、EPROMやフラッシュROM
のような消去可能な読み出し専用メモリであってもよ
い。
The ROMs 12A and 12B are program storage means for storing and holding firmware A and B (14A and 14B) whose contents are partially different from each other. The switching means 15 selects any one of the ROMs storing the firmware as a firmware reading destination,
Connect to system bus 16. That is, the switching unit 16 functions as a program selection unit. Note that R
OM12A and 12B are EPROM and flash ROM
It may be an erasable read-only memory such as

【0014】不揮発性メモリ17には、優先して起動す
べきROMを識別する情報が書き込まれている。例え
ば、ROM12A、12Bにそれぞれ識別番号“1”、
“2”が付与されているとして、ROM12Aのファー
ムウェアを優先して起動すべき場合“1”が、ROM1
2Bのファームウェアを優先して起動すべき場合“2”
が書き込まれる。この値は、データ処理システムの電源
をオフにしても消えることなく保持され、次の起動時に
参照される。
In the nonvolatile memory 17, information for identifying a ROM to be started preferentially is written. For example, the identification numbers “1” are stored in the ROMs 12A and 12B, respectively.
Assuming that “2” is given, when the firmware of the ROM 12A should be started with priority, “1”
"2" when priority should be given to 2B firmware
Is written. This value is retained even when the power of the data processing system is turned off, and is referred to at the next startup.

【0015】次に、前述したように構成される本発明の
実施形態によるデータ処理システムの動作について、図
2に示すフローを参照して説明する。図2に示す例は、
ファームウェア14A、14Bがブートプログラムであ
るとし、データ処理システムの起動時の処理を説明する
フローである。そして、ファームウェア14A、14B
は、それぞれ、新しいバージョンのファームウェア、及
び、1つ前の古いバージョンのファームウェアであるも
のとする。
Next, the operation of the data processing system according to the embodiment of the present invention configured as described above will be described with reference to the flow shown in FIG. The example shown in FIG.
It is assumed that the firmware 14A, 14B is a boot program, and the flowchart describes the process when the data processing system is started. And firmware 14A, 14B
Are the new version of the firmware and the previous version of the firmware, respectively.

【0016】(1)データ処理システムが起動される
と、切り替え手段15は、不揮発性メモリ17に保持さ
れているROM識別情報を取得し、優先して起動すべき
ROMをROM12A、12Bから選択して、そのRO
M内のファームウェアを用いてプロセッサを起動する。
なお、ここで優先して起動すべきROMは、更新された
新しいバージョンのファームウェアを格納しているRO
Mであるとする(ステップ100〜120)。
(1) When the data processing system is started, the switching means 15 acquires the ROM identification information held in the non-volatile memory 17 and selects the ROM to be started first from the ROMs 12A and 12B. And that RO
Activate the processor using the firmware in M.
Here, the ROM to be booted preferentially is the RO that stores the updated new version of firmware.
It is assumed that M is present (steps 100 to 120).

【0017】(2)監視装置18は、ファームウェアの
実行状態を監視し、ファームウェアの実行に障害が生じ
てプロセッサの起動に失敗したか否かをチェックする
(ステップ130)。
(2) The monitoring device 18 monitors the execution state of the firmware and checks whether a failure has occurred in the execution of the firmware and the activation of the processor has failed (step 130).

【0018】(3)ステップ130で、プロセッサの起
動に失敗したことが検出された場合、監視装置18は、
全ての他のノードの監視装置に対して異常を報告し、自
ノードのプロセッサを停止させる。なお、監視装置18
がどのようにして障害を監視するかについては、公知で
あるため説明を省略する(ステップ150、160)。
(3) If it is detected in step 130 that the activation of the processor has failed, the monitoring device 18
An error is reported to the monitoring devices of all other nodes, and the processor of the own node is stopped. The monitoring device 18
The method of monitoring a failure is well known and will not be described (steps 150 and 160).

【0019】(4)ステップ130で、プロセッサの起
動に成功したことが検出された場合、監視装置18は、
他のノードの監視装置から異常が報告されているか否か
をチェックし、異常通知がなければそのまま起動処理を
完了する(ステップ140)。
(4) If it is detected in step 130 that the activation of the processor is successful, the monitoring device 18
It is checked whether or not an abnormality has been reported from the monitoring device of another node, and if there is no abnormality notification, the startup processing is completed as it is (step 140).

【0020】(5)ステップ140で、他のノードの監
視装置から異常が報告されていた場合、自ノードのプロ
セッサを停止させる(ステップ160)。
(5) If an abnormality is reported from the monitoring device of another node in step 140, the processor of the own node is stopped (step 160).

【0021】(6)ステップ160で、監視装置18が
プロセッサを停止させた後、切り替え手段は、起動時に
選択されなかった側のROMを有効にし、更新前の旧バ
ージョンのファームウェアを使用してプロセッサを再起
動する。このプロセッサの再起動により、CPU11
は、前回の起動時と異なるファームウェアの実行を開始
する。このとき、システムの全ノードでファームウェア
の切り替えが起きているため、全プロセッサが同一のフ
ァームウェアを実行していることになる(ステップ17
0、180)。
(6) In step 160, after the monitoring device 18 stops the processor, the switching means enables the ROM on the side not selected at the time of startup and uses the old version firmware before updating to the processor. To restart. By restarting the processor, the CPU 11
Starts execution of firmware different from the last boot. At this time, since firmware switching has occurred in all nodes of the system, all processors are executing the same firmware (step 17).
0, 180).

【0022】(7)監視装置18は、再びファームウェ
アの実行を監視し、ファームウェアの実行に障害が生じ
てプロセッサの起動に失敗したか否かをチェックする
(ステップ190)。
(7) The monitoring device 18 monitors the execution of the firmware again, and checks whether a failure has occurred in the execution of the firmware and the activation of the processor has failed (step 190).

【0023】(8)ステップ190で、プロセッサの起
動に失敗したことが検出された場合、監視装置18は、
全ての他のノードの監視装置に対して異常を報告し、自
ノードのプロセッサを停止させる(ステップ210、2
20)。
(8) If it is detected in step 190 that the activation of the processor has failed, the monitoring device 18
An error is reported to the monitoring devices of all other nodes, and the processor of the own node is stopped (steps 210 and 2).
20).

【0024】(9)ステップ190で、プロセッサの起
動に成功したことが検出された場合、監視装置18は、
他のノードの監視装置から異常が報告されているか否か
をチェックし、異常通知がなければそのまま起動処理を
完了する(ステップ200)。(10)ステップ220
で、ファームウェアを切り替えて実行しても再度障害が
発生してプロセッサを停止させた場合、ハードウェアの
障害である可能性が高いため、監視装置18は、速やか
にシステムを停止させユーザによる対処を待つ。監視装
置18は、そのような障害をユーザに通知するように構
成することができる(ステップ230)。
(9) If it is detected in step 190 that the activation of the processor is successful, the monitoring device 18
It is checked whether an abnormality has been reported from the monitoring device of another node, and if there is no abnormality notification, the startup processing is completed as it is (step 200). (10) Step 220
In the case where the failure occurs again and the processor is stopped even when the firmware is switched and executed, the possibility of a hardware failure is high. Therefore, the monitoring device 18 immediately stops the system and takes a measure by the user. wait. The monitoring device 18 can be configured to notify the user of such a fault (step 230).

【0025】前述した本発明の実施形態は、その処理動
作として、ファームウェアがブートプログラムであると
し、そのファームウェアをROMに保持してデータ処理
システムを起動するものとして説明したが、本発明は、
前述したようなファームウェアに限定されるものではな
く、例えば、固定磁気ディスク装置、光学ディスク装
置、磁気テープなどに記録されるアプリケーションプロ
グラム等の他のソフトウェアにも適用することができ
る。そして、この場合、新旧2つのバージョンからなる
一組のソフトウェアをディスク装置等に記憶させ、障害
時にそのソフトウェアを切り替えて起動することによ
り、ソフトウェアのバージョンアップに伴う起動不良が
発生した場合、速やかに旧バージョンによる再起動を行
うことができ、結果としてダウンタイムを減少させるこ
とができる。
In the above-described embodiment of the present invention, the processing operation is described assuming that the firmware is a boot program, the firmware is stored in the ROM, and the data processing system is started.
The present invention is not limited to the above-described firmware, but can be applied to other software such as an application program recorded on a fixed magnetic disk device, an optical disk device, a magnetic tape, or the like. In this case, a set of software consisting of two versions, old and new, is stored in a disk device or the like, and the software is switched and started in the event of a failure. Restarting with the old version can be performed, and as a result, downtime can be reduced.

【0026】前述した本発明の実施形態によれば、それ
ぞれのノードにプログラム記憶手段を有する複数のノー
ドから構成されるデータ処理システムにおいて、各ノー
ドに設置された監視装置が通信を行うことによって全ノ
ードの切り替え手段が同一のプログラムを選択するよう
に制御することにより、プログラムの二重化を実現し、
システムの信頼性の向上を図ることができる。
According to the above-described embodiment of the present invention, in a data processing system including a plurality of nodes each having a program storage means in each node, the monitoring device installed in each node performs communication, By controlling the switching means of the node to select the same program, the program is duplicated,
The reliability of the system can be improved.

【0027】また、前述した本発明の実施形態によるデ
ータ処理システムによれば、二重化するプログラムの一
方を新しいバージョン、他方を古いバージョンとするこ
とにより、導入実績のない新しいバージョンのプログラ
ムによって起動不能の状態に陥った場合、自動的に速や
かに古いバージョンのプログラムを用いてシステムを再
起動することができるため、システムのダウン時間を短
縮することができる。
According to the data processing system according to the embodiment of the present invention described above, one of the programs to be duplicated is a new version, and the other is an old version. When the state falls, the system can be automatically and promptly restarted by using the old version of the program, so that the down time of the system can be reduced.

【0028】[0028]

【発明の効果】以上説明したように本発明によれば、複
数のノードにより構成されるデータ処理システムで実行
されるプログラムのバグに起因する障害からの確実な復
旧を図り、信頼性の高いデータ処理システムを提供する
ことができる。
As described above, according to the present invention, it is possible to reliably recover from a failure caused by a bug in a program executed in a data processing system including a plurality of nodes, and to obtain highly reliable data. A processing system can be provided.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の一実施形態によるデータ処理システム
の全体の概略構成を示すブロック図である。
FIG. 1 is a block diagram showing an overall schematic configuration of a data processing system according to an embodiment of the present invention.

【図2】本発明の一実施形態によるデータ処理システム
の起動時の処理を説明するフローチャートである。
FIG. 2 is a flowchart illustrating a process at the time of starting the data processing system according to the embodiment of the present invention.

【符号の説明】[Explanation of symbols]

10、20 ノード 11 CPU 12A、12B ROM 14A、14B ファームウェア 15 切り替え手段 16 システムバス 17 不揮発性メモリ 18 監視装置 30 接続装置 10, 20 node 11 CPU 12A, 12B ROM 14A, 14B Firmware 15 Switching means 16 System bus 17 Non-volatile memory 18 Monitoring device 30 Connection device

───────────────────────────────────────────────────── フロントページの続き Fターム(参考) 5B018 GA04 HA04 HA05 HA32 MA23 NA04 QA20 5B042 GA12 JJ04 KK02 5B045 JJ42 JJ48 5B076 AB19 CA01 CA05  ──────────────────────────────────────────────────続 き Continued on the front page F term (reference) 5B018 GA04 HA04 HA05 HA32 MA23 NA04 QA20 5B042 GA12 JJ04 KK02 5B045 JJ42 JJ48 5B076 AB19 CA01 CA05

Claims (3)

【特許請求の範囲】[Claims] 【請求項1】 互いに通信装置で接続された複数のノー
ドから構成されるデータ処理システムにおいて、前記ノ
ードは、プログラムを実行する1または複数のプロセッ
サと、少なくとも2個のプログラムを保持するプログラ
ム記憶手段と、前記プログラムのいずれかを選択して前
記プロセッサに実行させるプログラム選択手段と、優先
して実行すべきプログラムを示す情報を保持する不揮発
性メモリと、前記プログラムの実行時における障害を検
知する処理障害判定手段とを備え、前記処理障害判定手
段は、実行中のプログラムに障害を検知したとき、デー
タ処理システムに属する全ての処理障害判定手段に自ノ
ードでのプログラム障害を通知し、自ノードの前記プロ
グラム選択手段を用いて実行中の該プログラムに代えて
現在実行していない他のプログラムを選択してプロセッ
サに実行させると共に、少なくとも1個の他のノードか
らの障害が通知されたとき、実行中のプログラムに代え
て現在実行していない他のプログラムを選択し実行する
ことを特徴とするデータ処理システム。
1. In a data processing system comprising a plurality of nodes connected to each other by a communication device, said node includes one or more processors for executing a program and program storage means for holding at least two programs. Program selecting means for selecting one of the programs and causing the processor to execute the program, a non-volatile memory holding information indicating a program to be executed with priority, and a process of detecting a failure at the time of executing the program A failure determination unit, wherein when the processing failure determination unit detects a failure in the running program, the processing failure determination unit notifies all the processing failure determination units belonging to the data processing system of the program failure in the own node. Not currently executing in place of the program being executed using the program selecting means Selecting another program to be executed by the processor and, when notified of a failure from at least one other node, selecting and executing another program that is not currently executed in place of the currently executed program; A data processing system characterized by the following.
【請求項2】 前記プログラムは、読み出し専用メモリ
に格納されたファームウェア、または、不揮発記録媒体
に格納されたソフトウェアであることを特徴とする請求
項1記載のデータ処理システム。
2. The data processing system according to claim 1, wherein the program is firmware stored in a read-only memory or software stored in a nonvolatile recording medium.
【請求項3】 前記2つのプログラムのそれぞれは、新
しいバージョンのプログラム、及び、1つ前の古いバー
ジョンのプログラムであることを特徴とする請求項1ま
たは2記載のデータ処理システム。
3. The data processing system according to claim 1, wherein each of the two programs is a new version of the program and a previous version of the program.
JP2000233268A 2000-08-01 2000-08-01 Data processing system Pending JP2002049509A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000233268A JP2002049509A (en) 2000-08-01 2000-08-01 Data processing system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000233268A JP2002049509A (en) 2000-08-01 2000-08-01 Data processing system

Publications (1)

Publication Number Publication Date
JP2002049509A true JP2002049509A (en) 2002-02-15

Family

ID=18725810

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000233268A Pending JP2002049509A (en) 2000-08-01 2000-08-01 Data processing system

Country Status (1)

Country Link
JP (1) JP2002049509A (en)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004295738A (en) * 2003-03-28 2004-10-21 Nec Corp Fault-tolerant computer system, program parallelly executing method and program
JP2012159966A (en) * 2011-01-31 2012-08-23 Kyocera Document Solutions Inc Information processing device
JP2013130984A (en) * 2011-12-21 2013-07-04 Hitachi Ltd Serial computer switching system and serial computer switching method
JP2015138987A (en) * 2014-01-20 2015-07-30 日本電気株式会社 Communication system and service restoration method in communication system
JP5933875B1 (en) * 2014-12-15 2016-06-15 三菱電機株式会社 Information processing apparatus and activation method
WO2016098408A1 (en) * 2014-12-15 2016-06-23 三菱電機株式会社 Information processing device and startup method
WO2016136014A1 (en) * 2015-02-26 2016-09-01 三菱電機株式会社 Monitoring recorder
JP2020030660A (en) * 2018-08-23 2020-02-27 富士通株式会社 Information processor and program

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004295738A (en) * 2003-03-28 2004-10-21 Nec Corp Fault-tolerant computer system, program parallelly executing method and program
JP2012159966A (en) * 2011-01-31 2012-08-23 Kyocera Document Solutions Inc Information processing device
JP2013130984A (en) * 2011-12-21 2013-07-04 Hitachi Ltd Serial computer switching system and serial computer switching method
JP2015138987A (en) * 2014-01-20 2015-07-30 日本電気株式会社 Communication system and service restoration method in communication system
JP5933875B1 (en) * 2014-12-15 2016-06-15 三菱電機株式会社 Information processing apparatus and activation method
WO2016098408A1 (en) * 2014-12-15 2016-06-23 三菱電機株式会社 Information processing device and startup method
WO2016136014A1 (en) * 2015-02-26 2016-09-01 三菱電機株式会社 Monitoring recorder
JPWO2016136014A1 (en) * 2015-02-26 2017-04-27 三菱電機株式会社 Surveillance recorder
JP2020030660A (en) * 2018-08-23 2020-02-27 富士通株式会社 Information processor and program

Similar Documents

Publication Publication Date Title
US7953831B2 (en) Method for setting up failure recovery environment
US8245077B2 (en) Failover method and computer system
US20090282142A1 (en) Boot controlling method of managed computer
US20050204123A1 (en) Boot swap method for multiple processor computer systems
JP2002259130A (en) Information processing system and is start control method
CN112199240A (en) Method for switching nodes during node failure and related equipment
JP6599725B2 (en) Information processing apparatus, log management method, and computer program
CN111090546A (en) Method, device and equipment for restarting operating system and readable storage medium
JP2002049509A (en) Data processing system
US8032791B2 (en) Diagnosis of and response to failure at reset in a data processing system
JP2003099146A (en) System for controlling start of computer system
JP2001022599A (en) Fault tolerant system, fault tolerant processing method and recording medium for fault tolerant control program
CN112131043A (en) Method and device for detecting and recovering abnormity of basic input and output system
JPH10307726A (en) System for firmware recovery at time of start error
JP2002543521A (en) Method and apparatus for automatically reintegrating modules into a computer system
JP2001101032A (en) Os monitoring system under inter-different kind of os control
JP2004054616A (en) Information processor with function to automatically restore firmware
JP2009025967A (en) Backup system of duplicated firmware, method and operating system
JP2000076216A (en) Multiprocessor system, processor duplexing method therefor and record medium recorded with control program therefor
JP2785992B2 (en) Server program management processing method
JP4165423B2 (en) System board with core I / O card
KR101564144B1 (en) Apparatus and method for managing firmware
JPH11154099A (en) Data processor
JPH09288590A (en) Virtual computer system
JPH0534877B2 (en)

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060127

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060131

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060403

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20061003