JP2006285384A - プロセッサ障害処理方式、管理プロセッサ及びプロセッサ障害処理方法 - Google Patents

プロセッサ障害処理方式、管理プロセッサ及びプロセッサ障害処理方法 Download PDF

Info

Publication number
JP2006285384A
JP2006285384A JP2005101253A JP2005101253A JP2006285384A JP 2006285384 A JP2006285384 A JP 2006285384A JP 2005101253 A JP2005101253 A JP 2005101253A JP 2005101253 A JP2005101253 A JP 2005101253A JP 2006285384 A JP2006285384 A JP 2006285384A
Authority
JP
Japan
Prior art keywords
failure
management processor
processor
management
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005101253A
Other languages
English (en)
Inventor
Kiyoshi Shinomiya
潔 四宮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2005101253A priority Critical patent/JP2006285384A/ja
Publication of JP2006285384A publication Critical patent/JP2006285384A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】 システムの運営への影響を最小限に抑えながら、管理プロセッサを障害から復旧できるようにする。
【解決手段】 管理プロセッサ220は、管理プロセッサ120の障害を検出すると、ノード間管理パス300を介して、NMIによる割り込み信号を管理プロセッサ120に発行する。すると、管理プロセッサ120は、所定の障害復旧処理を実行し、自力で障害の復旧を試みる。また、管理プロセッサ220は、NMIによる割り込みによって管理プロセッサ120の障害を復旧できなかったと判断すると、ノード間管理パス300を介して管理プロセッサ120を外部リセットする。また、管理プロセッサ220は、管理プロセッサ120の障害復旧が不可能であると判断すると、管理プロセッサ120に代わって、処理ノード100の制御を開始する。
【選択図】 図1

Description

本発明は、複数の処理ノードを含むシステムにおける、各処理ノードが搭載する管理プロセッサの障害を処理するプロセッサ障害処理方式及びプロセッサ障害処理方法に関する。また、本発明は、処理ノードが搭載する管理プロセッサに関する。
近年、プロセッサ単体での性能の向上に限界があるため、装置(システム)全体としての性能を向上させる方法として、複数のサーバをクラスタ接続し装置全体としての処理能力を高めるクラスタ・コンピューティングが用いられる。クラスタ・コンピューティングを用いると、管理すべきノード数が増加するので、各ノードを個別に人手を用いて管理することは負担が大きい。従って、各サーバに管理プロセッサを搭載し、管理プロセッサがノードを管理する方法が、ハイエンドサーバだけでなく、ミドルレンジサーバやローエンドサーバにおいても採用されつつある。
しかし、管理プロセッサも他のプロセッサと同様に、障害を発生する場合がある。この場合、管理プロセッサの障害が発生すると、管理プロセッサだけの障害であるにもかかわらず、ノード全体の障害として扱われてしまうことになる。そのため、ノード内の管理プロセッサ以外の装置が正常に動作しいている(すなわち、ノード自体は正常に動作している)にもかかわらず、ノードを使用できないという問題が発生する。従って、管理プロセッサ自体の障害の影響を受けずに、サーバを運営できるようにすることが望ましい。
複数のプロセッサを用いたシステムにおいて各プロセッサを監視できる方法として、例えば、特許文献1には、複数のマイクロプロセッサが相互に診断を行うマイクロプロセッサシステムの相互診断方式が記載されている。また、例えば、特許文献2には、マスタユニットとスレーブユニットとが相互に監視を行い、各ユニットがそれぞれ内部異常表示及び外部異常表示を行える異常表示システムが記載されている。
特開平03−014136号公報(第3頁、図1−3) 特開平09−128269号公報(段落0023−0044、図1−4)
多重化された複数のプロセッサが存在するシステムにおいて、障害を生じた障害発生プロセッサを他のプロセッサがリセットすることにより、障害発生プロセッサを復旧することが考えられる。しかし、外部のプロセッサから障害発生プロセッサの強制的なリセットを行うと、処理装置の運営に影響を及ぼしたり、装置の継続性維持に影響を及ぼす可能性がある。また、強制的なリセットを行うと、プロセッサの内部情報を採取できず、障害要因を究明することが困難となる。従って、処理装置の運営に影響を与えずに管理プロセッサを障害から復旧させ、且つ障害時に装置内部の情報を採取して障害要因の特定を行えるようにすることが求められる。
また、装置外部からのリセット以外の自己障害検出方法や、他の装置からの定期的な割り込みによる方法も考えられるが、障害発生プロセッサの復旧が不可能な場合もある。従って、自己障害検出方法や定期的な割り込みによる方法では障害復旧ができない場合であっても、障害を復旧できるようにすることが求められる。また、重障害等の発生時にはリセットを行っても、プロセッサが復旧しない可能性がある。従って、リセットによる障害復旧が不可能な場合であっても、装置の運営を継続できるようにすることが求められる。更に、障害発生時にプロセッサが設定情報等の書き込みを行っていた場合、障害によって設定情報が破壊される可能性がある。従って、設定情報が破壊されることにより障害復旧が不可能となったり、プロセッサが不正動作を行ったりすることを防止することが求められる。
また、特許文献1に記載された相互診断方式や特許文献2に記載された異常表示システムを用いれば、複数のプロセッサ間で障害の発生を相互に監視し、障害の発生をシステム管理者に通知(表示)することができる。しかし、障害を生じたプロセッサを自動復旧することはできず、障害復旧のためのシステム管理者の作業負担が大きい。
そこで、本発明は、システムの運営への影響を最小限に抑えながら、管理プロセッサを障害から復旧できるプロセッサ障害処理方式、管理プロセッサ及びプロセッサ障害処理方法を提供することを目的とする。
本発明によるプロセッサ障害処理方式は、複数の処理ノードを含むシステムにおける、各処理ノードが搭載する管理プロセッサの障害を処理するプロセッサ障害処理方式であって、管理プロセッサは、システムに含まれる、管理プロセッサを搭載する処理ノードとは別の処理ノードが搭載する管理プロセッサである外部管理プロセッサの障害の発生を検出する障害検出手段(例えば、各管理プロセッサ120,220の制御部及び入出力部によって実現される)と、障害検出手段がいずれかの外部管理プロセッサの障害の発生を検出すると、所定の割り込み信号(例えば、NMIによる割り込み信号)を障害を発生した外部管理プロセッサに送信する割込手段(例えば、各管理プロセッサ120,220の制御部及び入出力部によって実現される)と、いずれかの外部管理プロセッサから所定の割り込み信号を受信すると、管理プロセッサの障害を復旧するための障害復旧処理を実行する障害復旧手段(例えば、各管理プロセッサ120,220の制御部によって実現される)とを含むことを特徴とする。
また、プロセッサ障害処理方式において、管理プロセッサは、割込手段が所定の割り込み信号を送信すると、障害を発生した外部管理プロセッサの障害が復旧したか否かを判断する割込復旧判定手段(例えば、各管理プロセッサ120,220の制御部及び入出力部によって実現される)と、割込復旧判定手段が外部管理プロセッサの障害が復旧していないと判断すると、外部管理プロセッサをリセットするリセット手段(例えば、各管理プロセッサ120,220の制御部及び入出力部によって実現される)とを含むものであってもよい。
また、プロセッサ障害処理方式において、管理プロセッサは、障害復旧手段の障害復旧処理によって管理プロセッサの障害が復旧すると、管理プロセッサの障害が復旧した旨を通知するための障害復旧通知情報(例えば、障害処理完了通知)を送信する障害復旧通知手段(例えば、各管理プロセッサ120,220の制御部及び入出力部によって実現される)を含み、割込復旧判定手段は、障害を発生した外部管理プロセッサから所定時間内に障害復旧通知情報を受信していないと判断すると、外部管理プロセッサの障害が復旧していないと判断するものであってもよい。
また、プロセッサ障害処理方式において、管理プロセッサは、障害を発生した外部管理プロセッサの障害の復旧が可能であるか否かを判断する障害復旧可否判断手段(例えば、各管理プロセッサ120,220の制御部によって実現される)と、障害復旧可否判断手段が障害を発生した外部管理プロセッサの障害の復旧が不可能であると判断すると、障害を発生した外部管理プロセッサに代わって、障害を発生した外部管理プロセッサが制御すべき処理ノードを制御する代替制御手段(例えば、各管理プロセッサ120,220の制御部及び入出力部によって実現される)とを含むものであってもよい。
また、プロセッサ障害処理方式において、管理プロセッサは、リセット手段によるリセットによって、障害を発生した外部管理プロセッサの障害が復旧したか否かを判断するリセット復旧判定手段(例えば、各管理プロセッサ120,220の制御部及び入出力部によって実現される)を含み、障害復旧可否判断手段は、リセット復旧判定手段が障害を発生した外部管理プロセッサの障害が復旧していないと判断すると、障害を発生した外部管理プロセッサの障害の復旧が不可能であると判断するものであってもよい。
また、プロセッサ障害処理方式は、処理ノード毎に、管理プロセッサの接続を切り替えるための切替手段(例えば、切替器140,240によって実現される)を備え、管理プロセッサは、障害を発生した外部管理プロセッサを搭載する処理ノードの切替手段に、管理プロセッサの接続の切り替えを指示する切替指示手段(例えば、各管理プロセッサ120,220の制御部及び入出力部によって実現される)を含み、切替手段は、いずれかの外部管理プロセッサからの切り替え指示に従って、切替手段を備えた処理ノードが搭載する管理プロセッサから、切り替え指示された外部管理プロセッサに接続を切り替えるものであってもよい。
また、プロセッサ障害処理方式において、障害復旧手段は、障害要因を特定するための障害要因特定情報を生成し保存するものであってもよい。
また、プロセッサ障害処理方式において、管理プロセッサは、各外部管理プロセッサから受信した設定情報を、管理プロセッサに対応付けて記憶する設定情報記憶手段(例えば、各処理ノード100,200のメモリによって実現される)と、いずれかの外部管理プロセッサからの要求に応じて、要求のあった外部管理プロセッサに対応する設定情報を設定情報記憶手段から抽出し、要求のあった外部管理プロセッサに抽出した設定情報を送信する設定情報送信手段(例えば、各管理プロセッサ120,220の制御部及び入出力部によって実現される)とを含むものであってもよい。
本発明による管理プロセッサは、複数の処理ノードを含むシステムにおける、各処理ノードが搭載する管理プロセッサであって、システムに含まれる、管理プロセッサを搭載する処理ノードとは別の処理ノードが搭載する管理プロセッサである外部管理プロセッサの障害の発生を検出する障害検出手段と、障害検出手段がいずれかの外部管理プロセッサの障害の発生を検出すると、所定の割り込み信号を障害を発生した外部管理プロセッサに送信する割込手段と、いずれかの外部管理プロセッサから所定の割り込み信号を受信すると、管理プロセッサの障害を復旧するための障害復旧処理を実行する障害復旧手段とを備えたことを特徴とする。
本発明によるプロセッサ障害処理方法は、複数の処理ノードを含むシステムにおける、各処理ノードが搭載する管理プロセッサの障害を処理するプロセッサ障害処理方法であって、システムに含まれるいずれかの管理プロセッサが、管理プロセッサを搭載する処理ノードとは別の処理ノードが搭載する管理プロセッサの障害の発生を検出するステップと、障害の発生を検出した管理プロセッサが、所定の割り込み信号を障害を発生した管理プロセッサに送信するステップと、障害を発生した管理プロセッサが、障害の発生を検出した管理プロセッサから所定の割り込み信号を受信すると、管理プロセッサの障害を復旧するための障害復旧処理を実行するステップとを含むことを特徴とする。
また、プロセッサ障害処理方法は、障害の発生を検出した管理プロセッサが、所定の割り込み信号を送信すると、障害を発生した管理プロセッサの障害が復旧したか否かを判断するステップと、障害の発生を検出した管理プロセッサが、障害を発生した管理プロセッサの障害が復旧していないと判断すると、障害を発生した管理プロセッサをリセットするステップとを含むものであってもよい。
また、プロセッサ障害処理方法は、障害の発生を検出した管理プロセッサが、障害を発生した管理プロセッサの障害の復旧が可能であるか否かを判断するステップと、障害の発生を検出した管理プロセッサが、障害を発生した管理プロセッサの復旧が不可能であると判断すると、障害を発生した管理プロセッサに代わって、障害を発生した管理プロセッサが制御すべき処理ノードを制御するステップとを含むものであってもよい。
本発明によれば、システムに含まれる各管理プロセッサが相互に障害発生の有無を監視し、障害を発生した管理プロセッサに所定の割り込み信号を送信する。そして、各管理プロセッサは、システム内の他の管理プロセッサから所定の割り込み信号を受信すると、障害復旧処理を実行し、自力で障害の復旧を試みる。そのため、管理プロセッサが自己検出困難な障害が発生した場合であっても、他のプロセッサからの障害通知によって、各管理プロセッサが自己の障害の発生を知ることができる。そして、各管理プロセッサは、自力で障害復旧処理を実行することができ、障害による影響を最小限に抑えることができる。従って、システムの運営への影響を最小限に抑えながら、管理プロセッサを障害から復旧することができる。
また、本発明によれば、障害を発生した管理プロセッサが自力で障害を復旧できないと判断すると、システム内の他の管理プロセッサが外部リセットを行うことによって、管理プロセッサを障害から復旧する。従って、割り込みによる方法では障害復旧ができない場合であっても、管理プロセッサを障害から復旧することができる。
また、本発明によれば、障害を発生した管理プロセッサの障害の復旧が不可能な場合、システム内の他の管理プロセッサが、障害を発生した管理プロセッサが制御すべき処理ノードを代替して制御する。そのため、管理プロセッサの障害の復旧が不可能な場合であっても、ノード制御に影響を与えずに、処理ノードの制御を継続することができる。
また、本発明によれば、障害要因特定情報を生成し保存するので、障害要因特定情報に基づいて、管理プロセッサの障害原因の特定を容易に行うことができる。
また、本発明によれば、管理プロセッサが保持する設定情報を、各管理プロセッサが相互に交換しあい保持する。そして、各管理プロセッサは、要求に応じて、保持する設定情報を、障害を発生した管理プロセッサに送信する。そのため、障害発生後に再度人手を用いて設定し直さなくても、処理ノードの設定情報を復旧させることができる。
以下、本発明の実施の形態を図面を参照して説明する。まず、本発明によるプロセッサ障害処理方式の概念を説明する。本実施の形態では、プロセッサ障害処理方式は、複数の処理装置(サーバ)がそれぞれ管理プロセッサを搭載し、複数の管理プロセッサ間を通信パスで接続した装置(システム)に適用される。例えば、プロセッサ障害処理方式は、複数のサーバをクラスタ接続した情報処理システムに適用される。
プロセッサ障害処理方式において、各処理ノード(サーバ)の管理プロセッサは、装置(システム)内の他の処理ノードの管理プロセッサの障害を検出する。すなわち、各サーバの管理プロセッサは、相互に障害の発生を監視する。また、プロセッサ障害処理方式において、複数の障害復旧手段を備え、処理装置の運営に影響の少ない手段から障害復旧の処理を実行し、障害を生じた管理プロセッサを復旧させる。
本実施の形態では、プロセッサ障害処理方式において、複数の障害復旧手段として、障害を発生した管理プロセッサに外部から割り込むための割り込み手段と、外部からのリセット手段と、外部の管理プロセッサを用いて処理装置の制御を代替する手段とを備える。そして、プロセッサ障害処理方式において、障害を発生した管理プロセッサが復旧するまでそれらの障害復旧手段を順に適用することによって、処理装置の運営に最も影響の少ない手段による障害復旧を実現する。
次に、プロセッサ障害処理方式を用いた情報処理システムの構成を説明する。図1は、プロセッサ障害処理方式を用いた情報処理システムの構成の一例を示すブロック図である。図1に示すように、情報処理システムは、2つの処理ノード100,200を含む。また、図1に示すように、情報処理システムにおいて、処理ノード100と処理ノード200とは、ノード間管理パス300を介して接続される。
処理ノード100,200は、具体的には、各種処理を実行するサーバによって実現される。図1に示すように、処理ノード100は、ホスト110、管理プロセッサ120、診断制御部130及び切替器140を含む。
ホスト110は、具体的には、プログラムに従って動作するサーバのCPU等のプロセッサである。ホスト110は、処理ノード100に割り当てられた各種処理を実行する機能を備える。
管理プロセッサ120は、ホスト110を管理する機能を備える。本実施の形態では、管理プロセッサ120は、内部管理パス150を介して各種制御信号を出力し、ホスト110の診断や制御を行う。また、管理プロセッサ120は、処理ノード100以外の他の処理ノードの管理プロセッサを監視する機能を備える。本実施の形態では、管理プロセッサ120は、ノード間管理パス300を介して、処理ノード200の管理プロセッサ220と定期通信を行う。そして、管理プロセッサ120は、所定時間毎に所定信号を受信したか否かを判断することによって、管理プロセッサ220に障害が発生したか否かを判断する。
また、管理プロセッサ120は、管理プロセッサ220の障害が発生すると、ノード間管理パス300を介して各種信号を送信し、管理プロセッサ220の障害を復旧させる機能を備える。本実施の形態では、管理プロセッサ120は、ノード間管理パス300を介して所定の割り込み信号を診断制御部230に送信し、管理プロセッサ220に、障害を復旧させるための障害復旧処理の実行を指示する。また、管理プロセッサ120は、ノード間管理パス300を介して管理プロセッサ220を外部リセットし、管理プロセッサ220の障害を復旧させる。
また、管理プロセッサ120は、管理プロセッサ220の障害復旧が不可能である場合、ノード間管理パス300を介して、管理プロセッサ220に代替してホスト210の管理を行う機能を備える。この場合、管理プロセッサ120は、ノード間管理パス300を介して各種制御信号を送信し、ホスト210の診断や制御を行う。
また、管理プロセッサ120は、管理プロセッサ120自身の障害発生時に、管理プロセッサ220から、ノード間管理パス300及び診断制御部130を介して、所定の割り込み信号を受信する機能を備える。また、管理プロセッサ120は、割り込み信号を受信すると、所定の障害復旧処理を実行し、自力で管理プロセッサ120自身の障害の復旧を試みる機能を備える。
また、管理プロセッサ120は、所定時間毎に、ノード間管理パス300を介して、管理プロセッサ220から各種設定情報を受信する機能を備える。また、管理プロセッサ120は、受信した設定情報を、処理ノード100のメモリ等の記憶装置に記憶させ管理する機能を備える。なお、2以上の管理プロセッサから設定情報を受信する場合、管理プロセッサ120は、受信した設定情報を、管理プロセッサに対応付けて記憶装置に記憶させる。また、管理プロセッサ120は、管理プロセッサ220からの要求に応じて、管理プロセッサ220の設定情報を記憶装置から抽出し、ノード間管理パス300を介して管理プロセッサ220に送信する機能を備える。
診断制御部130は、管理プロセッサ120の障害時に、障害を復旧させるために管理プロセッサ120の制御を行う機能を備える。切替器140は、管理プロセッサの接続を切り替える機能を備える。本実施の形態では、切替器140は、通常、ホスト110を管理プロセッサ120に接続している。そして、切替器140は、管理プロセッサ120の障害時には、管理プロセッサ120からノード間管理パス300側に接続を切り替え、ホスト110をノード間管理パス300を介して管理プロセッサ220に接続する。
図1に示すように、処理ノード200は、ホスト210、管理プロセッサ220、診断制御部230及び切替器240を含む。なお、ホスト210、管理プロセッサ220、診断制御部230及び切替器240の機能は、それぞれホスト110、管理プロセッサ120、診断制御部130及び切替器140の機能と同様である。
図2は、診断制御部130の構成の一例を示すブロック図である。図2に示すように、診断制御部130は、NMIレジスタ131、Resetレジスタ132、切替レジスタ133及び排他レジスタ134を含む。
NMIレジスタ131は、管理プロセッサ120にNMI(Non Maskable Interrupt;抑止不可割り込み)による割り込み信号を発行するための所定の設定値を記憶する。本実施の形態では、診断制御部130は、NMIレジスタ131の設定値に基づいて、管理プロセッサ120にNMI信号を出力する。Resetレジスタ132は、管理プロセッサ120にリセット信号を発行するための所定の設定値を記憶する。本実施の形態では、診断制御部130は、Resetレジスタ132の設定値に基づいて、管理プロセッサ120にリセット信号を出力する。
切替レジスタ133は、切替器140の内部管理パス150の接続先を選択するするための所定の設定値を記憶する。本実施の形態では、診断制御部130は、切替レジスタ133の設定値に基づいて、内部管理パス150の接続先の切り替えを切替器140に指示する。排他レジスタ134は、処理ノード100の外部の複数の管理プロセッサからのアクセスを調整するための所定の設定値を記憶する。本実施の形態では、排他レジスタ134は、処理ノード200の管理プロセッサ220からのアクセスを調整するための設定値を記憶する。また、診断制御部130は、排他レジスタ134の設定値に基づいて、管理プロセッサ220からのアクセスを制御する。
なお、各レジスタ131,132,133,134は、ノード間管理パス300を介して、処理ノード100の外部の管理プロセッサ220からの指示によって設定される。また、処理ノード200の診断制御部230の構成は、図2に示す診断制御部130の構成と同様である。
また、図1では、2つの処理ノード100,200を示しているが、情報処理システムは、3以上の処理ノードを含んでもよい。例えば、本実施の形態では2つの処理ノード100,200がノード間管理パス300を介して接続されているが、3以上の処理ノードを含む場合であっても、各処理ノードの管理プロセッサがノード間管理パス300を介して接続される。
次に、動作について説明する。本実施の形態では、各管理プロセッサ120,220は、電源オンの直後には、NMI信号及びリセット信号をともに発行しないものとする。また、各処理ノード100,200において、電源オンの直後には、切替器140,240は、それぞれ処理ノード100,200内の管理プロセッサ120,220側に、ノード内管理パス150,250を介してホスト110,210を接続しているものとする。また、電源オンの直後には、排他レジスタは、どの外部の管理プロセッサについても、レジスタアクセス要求のための設定値を設定されていない(診断制御部130,230へのアクセス権を設定していない)状態であるものとする。
また、本実施の形態では、管理プロセッサ120は、所定時間毎に、各種設定情報をノード間管理パス300を介して管理プロセッサ220に送信し、管理プロセッサ220は、管理プロセッサ120が管理する処理ノード100の設定情報を管理している。また、管理プロセッサ220は、所定時間毎に、各種設定情報をノード間管理パス300を介して管理プロセッサ120に送信し、管理プロセッサ120は、管理プロセッサ220が管理する処理ノード200の設定情報を管理している。すなわち、管理プロセッサ120と管理プロセッサ220とは、所定時間毎に設定情報を相互に交換しあい相互管理している。
また、本実施の形態では、情報処理システムが含む各管理プロセッサのうち、障害を発生した管理プロセッサを障害発生プロセッサともいう。また、本実施の形態では、システム内のいずれかの管理プロセッサが障害を発生した場合に、その障害発生プロセッサを含む処理ノードの外部から障害発生プロセッサの障害を検出する管理プロセッサを外部障害検出プロセッサともいう。本実施の形態では、説明を分かりやすくするため、障害発生プロセッサが処理ノード100の管理プロセッサ120であり、外部障害検出プロセッサが処理ノード200の管理プロセッサ220である場合を説明する。
図3は、管理プロセッサ220が管理プロセッサ120を監視し、管理プロセッサ120の障害を復旧する処理の一例を示す流れ図である。なお、本実施の形態では、管理プロセッサ220が管理プロセッサ120を監視する動作を説明するが、管理プロセッサ120も、管理プロセッサ220と同様の処理に従って、管理プロセッサ220を監視する。
管理プロセッサ120は、処理ノード100内のホスト110が各種処理を実行している間、内部管理パス150を介して各種制御信号を出力し、ホスト110の障害の有無を検出したり制御を行ったりしている。また、管理プロセッサ120は、ホスト110の診断や制御を行っている間、所定時間毎に、ノード間管理パス300を介して管理プロセッサ220に所定信号を送信し、管理プロセッサ220と定期通信を行っている。管理プロセッサ120は、障害が発生すると、定期通信を行えず、外部障害検出プロセッサ220に所定の制御信号を発行(送信)できない状態になる(ステップS101,S102)。
外部障害検出プロセッサ220は、所定時間毎に、管理プロセッサ120から定期通信があったか否かを監視している(ステップS103)。本実施の形態では、管理プロセッサ220は、所定時間毎に、管理プロセッサ120からノード間管理パス300を介して所定信号を受信したか否かを判断する。
管理プロセッサ120からの定期通信があった(所定信号を受信した)と判断すると、外部障害検出プロセッサ220は、管理プロセッサ120が正常に動作しいている(障害が発生していない)と判断する。そして、外部障害検出プロセッサ220は、次回の定期通信まで待ち、所定時間毎にステップS103の処理を繰り返し実行する。
所定時間を経過しても定期通信がない(所定信号を受信していない)と判断すると、管理プロセッサ220は、管理プロセッサ120が障害を発生したと判断する。また、定期通信があっても、不正な定期通信である(正しい信号を受信してない)と判断すると、管理プロセッサ220は、管理プロセッサ120が故障(障害)を発生したと判断する。
管理プロセッサ120が障害を発生したと判断すると、管理プロセッサ220は、障害発生プロセッサ120の処理ノード100の診断制御部130に、診断制御部130へのアクセス権を要求する。この場合、管理プロセッサ220は、診断制御部130の排他レジスタ134を用いて、ノード間管理パス300を介して設定値の書き込みを試みることによって、診断制御部130へのアクセス権の獲得を試みる。
診断制御部130は、管理プロセッサ220にアクセス権を許可する場合、管理プロセッサ220からの指示に従って排他レジスタ134に所定の設定値を設定する。排他レジスタ134が設定されることによって、管理プロセッサ220は、診断制御部130へのアクセス権を取得する。なお、例えば、既に他の処理ノードの管理プロセッサにアクセス権を許可している場合、診断制御部130は、管理プロセッサ220へのアクセス権設定を拒否する。
管理プロセッサ220は、診断制御部130へのアクセス権の獲得に成功したか否かを判断する(ステップS104)。例えば、管理プロセッサ220は、ノード間管理パス300を介して診断制御部130の排他レジスタ134の設定値を読み込み、読み込んだ設定値に基づいて診断制御部130へのアクセス権の取得に成功したか否かを判断する。
アクセス権の獲得に失敗したと判断すると、管理プロセッサ220は、そのまま障害発生プロセッサ120の障害処理を終了する(ステップS121)。診断制御部130へのアクセス権の獲得に成功したと判断すると、管理プロセッサ220は、次のステップS105の処理を実行する。
本実施の形態において、排他レジスタ134は、複数の外部障害検出プロセッサがある場合に、同時に複数の外部障害検出プロセッサに診断制御部130のアクセス権が設定されないようにするためのレジスタである。すなわち、排他レジスタ134は、いずれか1つの外部障害検出プロセッサだけが、診断制御部130の排他レジスタ134以外の各レジスタ131,132,133にアクセス可能となるように設定される。
排他レジスタ134の実装方法について説明する。各管理プロセッサは、それぞれ予め1以上ノードリミット(NODELIMIT )未満のユニークなノード番号が付与されている。診断制御部130の排他レジスタ134の値が「0」である場合、情報処理システム内のいずれの管理プロセッサも、ノード間管理パス300を介して排他レジスタ134に書き込みを行うことが可能であるが、排他レジスタ134以外のレジスタ131,132,133への書き込みを行うことはできない。
排他レジスタ134の値が「0」以外であり、且つその排他レジスタ134の書き込み値がノードリミット未満である場合、排他レジスタ134の値にノード番号が一致する管理プロセッサだけが、診断制御部130内の任意のレジスタ131,132,133に値を書き込むことができる。すなわち、この場合、排他レジスタ134の値にノード番号が一致する管理プロセッサに、診断制御部130へのアクセス権が設定されている。
排他レジスタ134の値が「0」以外であり、且つその排他レジスタ134の書き込み値がノードリミット以上の値「K」である場合、強制的な書き込みを意味し、排他レジスタ134の値(書き込み前の値)に関わらず、排他レジスタ134に「K-NODELIMIT」の値が書き込まれる。本実施の形態では、例えば、いずれかの外部障害検出プロセッサにアクセス権を設定したまま管理プロセッサ120が障害により動作不能となってしまった場合に、外部障害検出プロセッサ220は、排他レジスタ134を強制的に書き換える。
診断制御部130へのアクセス権を獲得したい外部障害検出プロセッサは、排他レジスタ134への自ノードのノード番号の書き込みを試みる。そして、外部障害検出プロセッサは、排他レジスタ134の設定値を読み込み、排他レジスタ134の値が自ノードの番号に書き換えられていれば、アクセス権の獲得に成功したと判断する。また、外部障害検出プロセッサは、排他レジスタ134の値が自ノードの番号と異っている(自ノードの番号に書き換えられなかった)場合、アクセス権の獲得に失敗したと判断する。
また、診断制御部130のアクセス権を獲得した外部障害検出プロセッサは、障害発生プロセッサの障害復旧を完了すると、排他レジスタ134に「0」を書き込み、処理を完了する。また、排他レジスタ134に「0」以外の値を設定したまま管理プロセッサが障害等により動作不可になった場合、外部障害検出プロセッサは、ノードリミット以上の値を書き込むことによって、排他レジスタ134を強制的に書き換えることができる。
なお、排他レジスタ134は、本実施の形態で示した実装方法に限らず、例えば、Test&Set(テストアンドセット)やCompare&Swap(コンペアアンドスワップ)等の実装方法を用いて実現されてもよい。
診断制御部130へのアクセス権を獲得すると、外部障害検出プロセッサ220は、ノード間管理パス300を介して、診断制御部130のNMIレジスタ131に所定のNMI発行要求値を書き込むことによって、障害発生プロセッサ120にNMIを発行する(ステップS105)。また、NMIレジスタ131に値が書き込まれると、診断制御部130は、NMIレジスタ131の設定値に基づいて、NMIによる割り込み信号を障害発生プロセッサ120に出力する。
障害発生プロセッサ120は、外部障害検出プロセッサ220からのNMIを正常に受け付けたか否かを判断する(ステップS106)。例えば、障害発生プロセッサ120は、所定時間毎に、診断制御部130からNMI信号が入力されたか否かを判断する。
NMIを正常に受け付けたと判断すると、障害発生プロセッサ120は、NMIによる障害処理開始通知を、ノード間管理パス300を介して外部障害検出プロセッサに発行(送信)し、NMIによる障害復旧処理を開始する(ステップS107)。そして、障害発生プロセッサ120は、所定の障害復旧処理を実行することによって、自力で障害の復旧を試みる。なお、ステップS106において、NMIを正常に受け付けられなかったと判断した場合、障害発生プロセッサ120は、ステップS112に処理を移行する。
ステップS107において、障害発生プロセッサ120は、NMIによる障害復旧処理として、ホスト110との通信状態の復旧や実行中の処理の正常終了、障害発生時のログの採取(作成)及び保存の処理を実行する。そして、障害発生プロセッサ120は、障害要因を特定するための障害要因特定情報の生成及び保存を行い、処理ノード100の継続運営が可能な状態への復旧を試みる。更に、障害発生プロセッサ120が管理するホスト110の構成情報等の設定情報に障害(例えば、データの破壊)が検出された場合、障害発生プロセッサ120は、障害復旧時の処理ノード100の状態を正常に保つため、ノード間管理パス300を介して、外部障害検出プロセッサ220に設定情報を要求し入手(受信)する。この場合、外部障害検出プロセッサ220は、要求に応じて、障害発生プロセッサ120に対応する設定情報を記憶装置から抽出し、抽出した設定情報をノード間管理パス300を介して障害発生プロセッサ120に送信する。
障害発生プロセッサ120は、NMIによる障害復旧処理を正常に完了したか否かを判断する(ステップS108)。NMIによる障害復旧処理を正常に完了したと判断すると、障害発生プロセッサ120は、ステップS109の処理を実行する。NMIによる障害復旧処理を実行しても、管理プロセッサ120の障害を復旧できなかった場合、障害発生プロセッサ120は、ステップS112の処理を実行する。例えば、障害発生プロセッサ120は、障害発生プロセッサ120の復旧不可能なストールや、割り込みベクタ不正、スタック不正、割り込み時の処理情報の破壊等によって、NMI処理も正常に受け付けられない障害であった場合、ステップS112に処理を移行する。
NMIによる障害復旧処理を正常に完了したと判断すると、管理プロセッサ120は、ノード間管理パス300を介して、障害処理完了通知を外部障害検出プロセッサ220に発行(送信)する(ステップS109)。
外部障害検出プロセッサ220は、NMIを発行してから所定時間以内に、障害発生プロセッサ120から障害処理開始通知及び障害処理完了通知を受信したか否かを判断する(ステップS110)。障害処理開始通知及び障害処理完了通知を受け取ったと判断すると、外部障害検出プロセッサ220は、管理プロセッサ120の障害復旧が完了したと判断し、障害処理を終了してステップS120の処理に移行する。
所定期間内に障害処理開始通知及び障害処理完了通知を受信できなかったと判断すると、外部障害検出プロセッサ220は、障害発生プロセッサ120をリセットするために、リセットの発行処理を実行する(ステップS111)。ステップS111において、外部障害検出プロセッサ220は、診断制御部130のResetレジスタ132に、ノード間管理パス300を介してリセット発行要求値を書き込むことによって、障害発生プロセッサ120をリセットする。また、外部障害検出プロセッサ220は、再度ノード間管理パス300を介してResetレジスタ132にリセット解除要求値を書き込むことによって、障害発生プロセッサ120のリセットを解除する。
障害発生プロセッサ120は、NMIを正常に受け付けられなかった場合、又はNMIによる障害復旧処理に成功しなかった場合、外部障害検出プロセッサ220からリセットを指示された(診断制御部130からリセット信号を入力した)か否かを判断する(ステップS112)。この場合、障害発生プロセッサ120は、診断制御部130を介して、外部障害検出プロセッサ220による外部リセットを受け付けるまで待ち続ける。
外部リセットを受け付ける(リセット信号を入力する)と、障害発生プロセッサ120は、リセット解除後に初期化処理を実行する(ステップS113)。なお、ステップS113の初期化処理において、障害発生プロセッサ120は、チェックサム等により設定情報の異常を検出し初期設定情報(ノード情報)の破壊を検出した場合、外部障害検出プロセッサ220に、ノード間管理パス300を介して初期設定情報を要求し入手(受信)する。この場合、外部障害検出プロセッサ220は、要求に応じて、障害発生プロセッサ120に対応する初期設定情報を記憶装置から抽出し、抽出した初期設定情報をノード間管理パス300を介して障害発生プロセッサ120に送信する。
障害発生プロセッサ120は、初期化処理を正常に終了したか否かを判断する(ステップS114)。初期化処理が正常に終了しなかったと判断すると、障害発生プロセッサ120は、ステップS113に戻り再度初期化処理を実行する。
初期化処理が正常に終了したと判断すると、障害発生プロセッサ120は、初期化完了通知を、ノード間管理パス300を介して外部障害検出プロセッサ220に発行(送信)し、障害/初期化処理を終了する(ステップS115,S116)。
外部障害検出プロセッサ220は、外部リセットを発行してから所定期間内に、障害発生プロセッサ120から初期化完了通知を受信したか否かを判断する(ステップS117)。所定期間内に初期化完了通知を受信したと判断すると、外部障害検出プロセッサ220は、障害発生プロセッサ120の初期化が正常に完了したと判断し、障害復旧処理を完了するためステップS120の処理に移行する。
所定期間内に初期化完了通知を受信しなかったと判断すると、外部障害検出プロセッサ220は、リセットによる障害復旧が不可能であると判断し、障害発生プロセッサ120へのリセット発行及びパス切り替え処理を実行する(ステップS118)。すなわち、外部障害検出プロセッサ220は、障害発生プロセッサ120の障害の復旧が不可能であると判断し、ステップS118のパス切り替え処理に移行する。
ステップS118において、外部障害検出プロセッサ220は、Resetレジスタ132に、ノード間管理パス300を介してリセット発行要求値を書き込むことによって、障害発生プロセッサ120をリセットする。また、外部障害検出プロセッサ220は、リセットを解除せずに、ノード間管理パス300を介して、切替レジスタ133に値を書き込むことによって、切替器140に、ノード内管理パス150の接続を管理プロセッサ120側からノード間管理パス300側に切り替えさせる。
管理パスの切り替え処理を実行すると、以後、外部障害検出プロセッサ220は、本来障害発生プロセッサ120が制御していた処理ノード100を、障害発生プロセッサ120に代替して制御する(ステップS119)。
また、外部障害検出プロセッサ220は、障害発生プロセッサ120が制御していた全ての処理ノードを制御するため、ノード間管理パス300を介して、全ての診断制御部の排他レジスタの値を読み込む。この場合、外部障害検出プロセッサ220は、読み込んだ値が障害発生プロセッサ120のノード番号「FNODE 」と一致すると判断すると、外部障害検出プロセッサ220のノード番号を「ENODE 」とし、排他レジスタに「NODELIMIT+ENODE」の値を書き込む。また、外部障害検出プロセッサ220は、切替レジスタ133を用いて、ノード内管理バス150の接続を管理プロセッサ120側からノード間管理パス300側に切り替えさせ、処理ノード100の制御を開始する。
ステップS119で代替制御を開始すると、外部障害検出プロセッサ220は、障害発生プロセッサ120の障害処理を終了する(ステップS121)。
なお、ステップS110で障害処理開始通知及び障害完了通知を受信したと判断した場合、又はステップS117で初期化完了通知を受信したと判断した場合、外部障害検出プロセッサ220は、ステップS104でアクセス権を獲得した診断制御部130を開放する(ステップS120)。この場合、外部障害検出プロセッサ220は、ノード間管理パス300を介して、診断制御部130の排他レジスタ134に値「0」を書き込むことによって、診断制御部130を開放する。そして、外部障害検出プロセッサ220は、障害発生プロセッサ120の障害処理を完了する(ステップS121)。
以上のように、本実施の形態によれば、情報処理システムに含まれる各管理プロセッサが相互に障害発生の有無を監視し、障害を発生した管理プロセッサにNMIによる割り込み信号を送信する。そして、各管理プロセッサは、情報処理システム内の他の管理プロセッサからNMIによる割り込み信号を受信すると、所定の障害復旧処理を実行し、自力で障害の復旧を試みる。そのため、管理プロセッサが自己検出困難な障害が発生した場合であっても、他のプロセッサからの障害通知によって、各管理プロセッサが自己の障害の発生を知ることができる。そして、各管理プロセッサは、障害の後処理を実行した後に、復旧処理を実施することが可能になり、障害による影響を最小限に抑えることができる。従って、情報処理システムの運営への影響を最小限に抑えながら、管理プロセッサを障害から復旧することができる。
また、本実施の形態によれば、障害を発生した管理プロセッサが自力で障害を復旧できない場合であっても、情報処理システム内の他の管理プロセッサが外部リセットを行うことによって、管理プロセッサを障害から復旧することができる。従って、割り込みによる方法では障害復旧ができない場合であっても、管理プロセッサを障害から復旧することができる。
また、本実施の形態によれば、障害を発生した管理プロセッサの障害の自己後処理が不可能で、管理プロセッサの障害の復旧が不可能な場合、情報処理システム内の他の管理プロセッサが、代替パス(ノード間管理パス300)を介して、障害を発生した管理プロセッサのノード制御を代替する。そのため、管理プロセッサの障害の復旧が不可能な場合であっても、ノード制御に影響を与えずに、処理ノードの制御を継続することができる。また、情報処理システム内の他の管理プロセッサが代替パスを介して処理ノードを制御している間に、障害を発生した管理プロセッサを交換することができる。そのため、処理ノードの制御に影響を与えずに、管理プロセッサのオンライン保守を行うことができる。
また、本実施の形態によれば、障害を発生した管理プロセッサが自己障害処理を実施できるので、障害時の管理プロセッサの内部情報を収集することができ、障害要因を特定するための障害要因特定情報を保存することができる。そのため、障害要因特定情報に基づいて、管理プロセッサの障害原因の特定を容易に行うことができる。
また、本実施の形態によれば、管理プロセッサが保持するノードの設定情報を、各管理プロセッサが相互に交換しあい保持する。そして、各管理プロセッサは、要求に応じて、保持する設定情報を、障害を発生した管理プロセッサに送信する。そのため、障害発生後に再度人手を用いて設定し直さなくても、処理ノードの設定情報を復旧させることができる。
本発明は、複数のプロセッサを含む情報処理システムにおいて、プロセッサの障害を処理する用途に適用できる。例えば、クラスタコンピューティングを用いたシステムにおいて、管理プロセッサの障害を処理する用途に適用できる。
プロセッサ障害処理方式を用いた情報処理システムの構成の一例を示すブロック図である。 診断制御部130の構成の一例を示すブロック図である。 管理プロセッサ220が管理プロセッサ120を監視し、管理プロセッサ120の障害を復旧する処理の一例を示す流れ図である。
符号の説明
100,200 処理ノード
110,210 ホスト
120,220 管理プロセッサ
130,230 診断制御部
131 NMIレジスタ
132 Resetレジスタ
133 切替レジスタ
134 排他レジスタ
140,240 切替器
150,250 内部管理パス
300 ノード間管理パス

Claims (12)

  1. 複数の処理ノードを含むシステムにおける、前記各処理ノードが搭載する管理プロセッサの障害を処理するプロセッサ障害処理方式であって、
    前記管理プロセッサは、
    前記システムに含まれる、当該管理プロセッサを搭載する処理ノードとは別の処理ノードが搭載する管理プロセッサである外部管理プロセッサの障害の発生を検出する障害検出手段と、
    前記障害検出手段がいずれかの外部管理プロセッサの障害の発生を検出すると、所定の割り込み信号を前記障害を発生した外部管理プロセッサに送信する割込手段と、
    いずれかの外部管理プロセッサから所定の割り込み信号を受信すると、当該管理プロセッサの障害を復旧するための障害復旧処理を実行する障害復旧手段とを含む
    ことを特徴とするプロセッサ障害処理方式。
  2. 管理プロセッサは、
    割込手段が所定の割り込み信号を送信すると、障害を発生した外部管理プロセッサの障害が復旧したか否かを判断する割込復旧判定手段と、
    前記割込復旧判定手段が前記外部管理プロセッサの障害が復旧していないと判断すると、前記外部管理プロセッサをリセットするリセット手段とを含む
    請求項1記載のプロセッサ障害処理方式。
  3. 管理プロセッサは、障害復旧手段の障害復旧処理によって当該管理プロセッサの障害が復旧すると、当該管理プロセッサの障害が復旧した旨を通知するための障害復旧通知情報を送信する障害復旧通知手段を含み、
    割込復旧判定手段は、障害を発生した外部管理プロセッサから所定時間内に障害復旧通知情報を受信していないと判断すると、前記外部管理プロセッサの障害が復旧していないと判断する
    請求項2記載のプロセッサ障害処理方式。
  4. 管理プロセッサは、
    障害を発生した外部管理プロセッサの障害の復旧が可能であるか否かを判断する障害復旧可否判断手段と、
    前記障害復旧可否判断手段が前記障害を発生した外部管理プロセッサの障害の復旧が不可能であると判断すると、前記障害を発生した外部管理プロセッサに代わって、前記障害を発生した外部管理プロセッサが制御すべき処理ノードを制御する代替制御手段とを含む
    請求項2又は請求項3記載のプロセッサ障害処理方式。
  5. 管理プロセッサは、リセット手段によるリセットによって、障害を発生した外部管理プロセッサの障害が復旧したか否かを判断するリセット復旧判定手段を含み、
    障害復旧可否判断手段は、前記リセット復旧判定手段が前記障害を発生した外部管理プロセッサの障害が復旧していないと判断すると、前記障害を発生した外部管理プロセッサの障害の復旧が不可能であると判断する
    請求項4記載のプロセッサ障害処理方式。
  6. 処理ノード毎に、管理プロセッサの接続を切り替えるための切替手段を備え、
    管理プロセッサは、障害を発生した外部管理プロセッサを搭載する処理ノードの切替手段に、管理プロセッサの接続の切り替えを指示する切替指示手段を含み、
    前記切替手段は、いずれかの外部管理プロセッサからの切り替え指示に従って、当該切替手段を備えた処理ノードが搭載する管理プロセッサから、前記切り替え指示された外部管理プロセッサに接続を切り替える
    請求項4又は請求項5記載のプロセッサ障害処理方式。
  7. 障害復旧手段は、障害要因を特定するための障害要因特定情報を生成し保存する請求項1から請求項6のうちのいずれか1項に記載のプロセッサ障害処理方式。
  8. 管理プロセッサは、
    各外部管理プロセッサから受信した設定情報を、管理プロセッサに対応付けて記憶する設定情報記憶手段と、
    いずれかの外部管理プロセッサからの要求に応じて、前記要求のあった外部管理プロセッサに対応する設定情報を前記設定情報記憶手段から抽出し、前記要求のあった外部管理プロセッサに前記抽出した設定情報を送信する設定情報送信手段とを含む
    請求項1から請求項7のうちのいずれか1項に記載のプロセッサ障害処理方式。
  9. 複数の処理ノードを含むシステムにおける、前記各処理ノードが搭載する管理プロセッサであって、
    前記システムに含まれる、当該管理プロセッサを搭載する処理ノードとは別の処理ノードが搭載する管理プロセッサである外部管理プロセッサの障害の発生を検出する障害検出手段と、
    前記障害検出手段がいずれかの外部管理プロセッサの障害の発生を検出すると、所定の割り込み信号を前記障害を発生した外部管理プロセッサに送信する割込手段と、
    いずれかの外部管理プロセッサから所定の割り込み信号を受信すると、当該管理プロセッサの障害を復旧するための障害復旧処理を実行する障害復旧手段とを
    備えたことを特徴とする管理プロセッサ。
  10. 複数の処理ノードを含むシステムにおける、前記各処理ノードが搭載する管理プロセッサの障害を処理するプロセッサ障害処理方法であって、
    前記システムに含まれるいずれかの管理プロセッサが、当該管理プロセッサを搭載する処理ノードとは別の処理ノードが搭載する管理プロセッサの障害の発生を検出するステップと、
    前記障害の発生を検出した管理プロセッサが、所定の割り込み信号を前記障害を発生した管理プロセッサに送信するステップと、
    前記障害を発生した管理プロセッサが、前記障害の発生を検出した管理プロセッサから所定の割り込み信号を受信すると、管理プロセッサの障害を復旧するための障害復旧処理を実行するステップとを
    含むことを特徴とするプロセッサ障害処理方法。
  11. 障害の発生を検出した管理プロセッサが、所定の割り込み信号を送信すると、障害を発生した管理プロセッサの障害が復旧したか否かを判断するステップと、
    前記障害の発生を検出した管理プロセッサが、前記障害を発生した管理プロセッサの障害が復旧していないと判断すると、前記障害を発生した管理プロセッサをリセットするステップとを含む
    請求項10記載のプロセッサ障害処理方法。
  12. 障害の発生を検出した管理プロセッサが、障害を発生した管理プロセッサの障害の復旧が可能であるか否かを判断するステップと、
    前記障害の発生を検出した管理プロセッサが、前記障害を発生した管理プロセッサの復旧が不可能であると判断すると、前記障害を発生した管理プロセッサに代わって、前記障害を発生した管理プロセッサが制御すべき処理ノードを制御するステップとを含む
    請求項11記載のプロセッサ障害処理方法。
JP2005101253A 2005-03-31 2005-03-31 プロセッサ障害処理方式、管理プロセッサ及びプロセッサ障害処理方法 Pending JP2006285384A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005101253A JP2006285384A (ja) 2005-03-31 2005-03-31 プロセッサ障害処理方式、管理プロセッサ及びプロセッサ障害処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005101253A JP2006285384A (ja) 2005-03-31 2005-03-31 プロセッサ障害処理方式、管理プロセッサ及びプロセッサ障害処理方法

Publications (1)

Publication Number Publication Date
JP2006285384A true JP2006285384A (ja) 2006-10-19

Family

ID=37407281

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005101253A Pending JP2006285384A (ja) 2005-03-31 2005-03-31 プロセッサ障害処理方式、管理プロセッサ及びプロセッサ障害処理方法

Country Status (1)

Country Link
JP (1) JP2006285384A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008176682A (ja) * 2007-01-22 2008-07-31 Renesas Technology Corp 半導体集積回路及びデータ処理システム
JP2009252009A (ja) * 2008-04-08 2009-10-29 Nec Corp コンピュータ管理システム、コンピュータシステムの管理方法、及びコンピュータシステムの管理プログラム
JP5163807B2 (ja) * 2010-03-18 2013-03-13 トヨタ自動車株式会社 マイコン相互監視システム及びマイコン相互監視方法
KR101442913B1 (ko) * 2011-12-28 2014-09-23 후지쯔 가부시끼가이샤 정보 처리 장치, 제어 방법, 및 제어 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체
JP2016048514A (ja) * 2014-08-28 2016-04-07 富士通株式会社 情報処理装置、情報処理方法および情報処理プログラム
JPWO2015015544A1 (ja) * 2013-07-29 2017-03-02 富士通株式会社 情報処理システム、装置、方法及びプログラム

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02129755A (ja) * 1988-11-10 1990-05-17 Nec Corp マルチプロセッサシステム縮退方式
JPH02226435A (ja) * 1989-02-28 1990-09-10 Fujitsu Ltd 設定情報管理方式
JPH04324569A (ja) * 1991-04-24 1992-11-13 Mitsubishi Electric Corp マルチプロセッサシステム
JPH0554011A (ja) * 1991-08-28 1993-03-05 Nec Corp 装置内制御装置
JPH08263455A (ja) * 1995-03-24 1996-10-11 Nec Corp マルチ・プロセッサ・システムにおける故障プロセッサのデグレード方式
JPH0934852A (ja) * 1995-07-13 1997-02-07 Nec Corp クラスタシステム
JPH09171475A (ja) * 1995-12-20 1997-06-30 Hitachi Ltd 複合コンピュータシステム
JPH1078896A (ja) * 1996-09-03 1998-03-24 Toshiba Corp 産業用電子計算機
JPH1153207A (ja) * 1997-07-30 1999-02-26 Koyo Seiko Co Ltd 車両用制御装置
JPH11242623A (ja) * 1998-02-26 1999-09-07 Nec Corp ファイル排他制御処理装置
JP2000322333A (ja) * 1999-05-12 2000-11-24 Nec Software Hokuriku Ltd コンピュータ装置における装置固有情報の自動退避/自動復旧方式及び方法
JP2002202908A (ja) * 2000-12-28 2002-07-19 Nec Corp 入出力要求遮断方式、入出力要求遮断方法および入出力要求遮断用プログラムを記録した記録媒体
JP2003248599A (ja) * 2001-12-20 2003-09-05 Internatl Business Mach Corp <Ibm> 情報処理装置、電源制御装置、情報処理装置制御方法、プログラム、及び記録媒体

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02129755A (ja) * 1988-11-10 1990-05-17 Nec Corp マルチプロセッサシステム縮退方式
JPH02226435A (ja) * 1989-02-28 1990-09-10 Fujitsu Ltd 設定情報管理方式
JPH04324569A (ja) * 1991-04-24 1992-11-13 Mitsubishi Electric Corp マルチプロセッサシステム
JPH0554011A (ja) * 1991-08-28 1993-03-05 Nec Corp 装置内制御装置
JPH08263455A (ja) * 1995-03-24 1996-10-11 Nec Corp マルチ・プロセッサ・システムにおける故障プロセッサのデグレード方式
JPH0934852A (ja) * 1995-07-13 1997-02-07 Nec Corp クラスタシステム
JPH09171475A (ja) * 1995-12-20 1997-06-30 Hitachi Ltd 複合コンピュータシステム
JPH1078896A (ja) * 1996-09-03 1998-03-24 Toshiba Corp 産業用電子計算機
JPH1153207A (ja) * 1997-07-30 1999-02-26 Koyo Seiko Co Ltd 車両用制御装置
JPH11242623A (ja) * 1998-02-26 1999-09-07 Nec Corp ファイル排他制御処理装置
JP2000322333A (ja) * 1999-05-12 2000-11-24 Nec Software Hokuriku Ltd コンピュータ装置における装置固有情報の自動退避/自動復旧方式及び方法
JP2002202908A (ja) * 2000-12-28 2002-07-19 Nec Corp 入出力要求遮断方式、入出力要求遮断方法および入出力要求遮断用プログラムを記録した記録媒体
JP2003248599A (ja) * 2001-12-20 2003-09-05 Internatl Business Mach Corp <Ibm> 情報処理装置、電源制御装置、情報処理装置制御方法、プログラム、及び記録媒体

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008176682A (ja) * 2007-01-22 2008-07-31 Renesas Technology Corp 半導体集積回路及びデータ処理システム
JP2009252009A (ja) * 2008-04-08 2009-10-29 Nec Corp コンピュータ管理システム、コンピュータシステムの管理方法、及びコンピュータシステムの管理プログラム
JP5163807B2 (ja) * 2010-03-18 2013-03-13 トヨタ自動車株式会社 マイコン相互監視システム及びマイコン相互監視方法
KR101442913B1 (ko) * 2011-12-28 2014-09-23 후지쯔 가부시끼가이샤 정보 처리 장치, 제어 방법, 및 제어 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체
US9065706B2 (en) 2011-12-28 2015-06-23 Fujitsu Limited Information processing apparatus, computer-readable recording medium, and control method
JPWO2015015544A1 (ja) * 2013-07-29 2017-03-02 富士通株式会社 情報処理システム、装置、方法及びプログラム
JP2016048514A (ja) * 2014-08-28 2016-04-07 富士通株式会社 情報処理装置、情報処理方法および情報処理プログラム

Similar Documents

Publication Publication Date Title
JP5347414B2 (ja) 同期制御装置,情報処理装置及び同期管理方法
JP2006195821A (ja) 情報処理システムの制御方法、情報処理システム、ダイレクトメモリアクセス制御装置、プログラム
US7853767B2 (en) Dual writing device and its control method
JP2009540436A (ja) 障害を分離するsasエクスパンダ
JP5376058B2 (ja) システム制御装置、情報処理システム及び情報処理システムのデータ退避及び復元方法
JP2006285384A (ja) プロセッサ障害処理方式、管理プロセッサ及びプロセッサ障害処理方法
JP2010140361A (ja) コンピュータシステム及び異常検出回路
JP2004094774A (ja) ループ状インタフェースの障害解析方法及び障害解析機能を有するシステム
WO1999026138A1 (fr) Procede de permutation dans un systeme multiplex
CN109358982B (zh) 硬盘自愈装置、方法以及硬盘
JP5435205B2 (ja) マルチノードシステム、ノード、メモリダンプ処理方法、及びプログラム
JP4572138B2 (ja) サーバ装置、サーバシステム、及びサーバシステムでの系切り換え方法
KR102211853B1 (ko) 이종의 멀티 cpu가 탑재된 시스템-온-칩 및 cpu 리부팅을 제어하는 방법
US10089200B2 (en) Computer apparatus and computer mechanism
JPH1153225A (ja) 障害処理装置
JP3325785B2 (ja) 計算機の故障検出・回復方式
US9639438B2 (en) Methods and systems of managing an interconnection
JP2785992B2 (ja) サーバプログラムの管理処理方式
JP2004013723A (ja) 共有メモリを使ったクラスタ構成を採用した情報処理システムの障害処理装置と方法
JP6364773B2 (ja) 情報処理装置、情報処理システム、メモリレプリケーション方法、並びにコンピュータ・プログラム
JPH11120154A (ja) コンピュータシステムにおけるアクセス制御装置および方法
JP3487440B2 (ja) 共有メモリアクセス方式
JP2815730B2 (ja) アダプタ及びコンピュータシステム
JP2017151511A (ja) 情報処理装置、動作ログ取得方法および動作ログ取得プログラム
JP6540142B2 (ja) ベースボード管理コントローラ、情報処理システム及びベースボード管理コントローラの処理実行方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080213

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110315

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20111129