JP5376058B2 - システム制御装置、情報処理システム及び情報処理システムのデータ退避及び復元方法 - Google Patents

システム制御装置、情報処理システム及び情報処理システムのデータ退避及び復元方法 Download PDF

Info

Publication number
JP5376058B2
JP5376058B2 JP2012522385A JP2012522385A JP5376058B2 JP 5376058 B2 JP5376058 B2 JP 5376058B2 JP 2012522385 A JP2012522385 A JP 2012522385A JP 2012522385 A JP2012522385 A JP 2012522385A JP 5376058 B2 JP5376058 B2 JP 5376058B2
Authority
JP
Japan
Prior art keywords
data
memory
nonvolatile memory
volatile memory
processing device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012522385A
Other languages
English (en)
Other versions
JPWO2012001780A1 (ja
Inventor
友宏 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JPWO2012001780A1 publication Critical patent/JPWO2012001780A1/ja
Application granted granted Critical
Publication of JP5376058B2 publication Critical patent/JP5376058B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/1441Resetting or repowering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Techniques For Improving Reliability Of Storages (AREA)
  • Stored Programmes (AREA)

Description

本発明は、システム制御装置、情報処理システム及び情報処理システムのデータ退避及び復元方法に関する。
情報処理システムの高速化、大規模化に伴い、情報処理システムは、複数の処理ユニットを並列に動作する構成を採用している。この情報処理システムは、各処理ユニットのシステム制御を行うシステム制御ユニットを備える。
図13は従来の情報処理システムのブロック図である。情報処理システム100は、システムボードユニット110とシステム制御ユニット120とを備える。システムボードユニット110は、CPU(Central Processing Unit)112を搭載し、情報処理システムのサーバ本体装置を構成する。システム制御ユニット120は、CPU(プロセッサ)122を搭載する。システム制御ユニット120のCPU122は、システム監視プログラム(機構)124を実行し、サーバ本体装置110を構成するハードウェアを含めたシステム全体の制御を行う。
システム制御ユニット120は、制御線C1を介しサーバ本体装置110を構成するハードウェアユニットの電源投入/切断、装置の異常監視/ログ採取/通報、保守ガイダンス、OS(Operating System)との通信等の機能を実行する。
このシステム構成において、オペレータは、サーバ本体装置110の起動に必要な設定値データを変更できる。例えば、OSとして、UNIX(登録商標)を使用する情報処理システムは、ブートプログラムを実行して、OSを起動する。そのOSの起動の際の設定値はデフォルト値に設定されている。一方、オペレータは他の設定値を設定する。この他の設定値は、システムボードユニット110のメモリの揮発性領域(設定領域)114に格納される。
システムボードユニット110が、他の設定値を変更できるように揮発性領域に格納するため、電源切断時に他の設定値を退避し、電源投入時に他の設定値を揮発性領域114に復元する必要がある。システム制御ユニット120のシステム監視機構124は、設定値データの退避/復元を実行する。
即ち、電源切断時等に、システム制御ユニット120のシステム監視機構124はシステムボードユニット110のメモリの揮発性領域114の設定値データを、接続線C2を介し読み出し、メモリの不揮発性領域126に保存する。又、電源投入時等は、システム制御ユニット120のシステム監視機構124は、メモリの不揮発性領域(保存領域)126から設定値データを読み出して、接続線C2を介し、システムボードユニット110のメモリの揮発性領域(設定領域)114に書き込む。これにより、設定値データの復元を行う。
日本特許公開平5−265720号公報 日本特許公開平6−309234号公報
復元の対象となる設定値データは、制御側であるシステム監視機構にとって単なるバイナリデータでしかない。また、サーバ本体装置110のブートプログラムは、設定時にサーバ起動時の設定値をチェックする機構を有している。しかしながら、このようなチェック機構は一般に公開されていないことが多い。
図14及び図15はデータ退避/復元における問題点の説明図である。図14に示すように、システム監視機構122がシステムボードユニット110の設定領域114からデータを退避する際に、データ通信経路で間欠的または固定的にハード異常が発生した場合には、受信データが壊れることがある。間欠的又は固定的なハード異常が発生する場合には、ハード異常により破壊されたデータを保存領域126に退避してしまう。そして、次回、その退避データを復元して、サーバ本体を起動する際に、サーバ本体の起動が行えなくなってしまう。
同様に、図15に示すように、システム監視機構122が保存領域126からデータをシステムボードユニット110の設定領域114に復元する際に、データ通信経路で間欠的または固定的にハード異常が発生した場合には、復元データが壊れることがある。間欠的又は固定的なハード異常が発生する場合には、ハード異常により破壊されたデータを設定領域114に復元してしまう。このため、サーバ本体を起動する際に、サーバ本体の起動が行えなくなってしまう。
又、サーバ本体装置110のブートプログラムのチェック機構は、パワーオン時に、変数値の正当性をチェックする。しかし、このチェック機構は、設定領域114のデータが異常と判断した場合には、設定領域のデータを初期化する。データが初期化されるため、オペレータによって、データの再設定および、システム起動の指示を行う必要がある。
本発明の目的は、処理装置とシステム制御装置との間のデータ通信経路の間欠的又は固定的な障害が発生しても、退避データを正確に復元するシステム制御装置、情報処理システム及び情報処理システムのデータ退避及び復元方法を提供することにある。
この目的の達成のため、開示の情報処理システムは、揮発性メモリのデータに従い起動処理を実行する処理装置と、前記処理装置に接続され、前記揮発性メモリのデータを受信し、不揮発性メモリに退避し、前記不揮発性メモリのデータを前記処理装置に送信し、前記揮発性メモリに復元するシステム制御装置とを有し、前記システム制御装置は、前記受信したデータを保持する第1の不揮発性メモリと、正式データを記憶するための第2の不揮発性メモリと、前記受信したデータを保持する第3のメモリと、復元時に前記第1の不揮発性メモリのデータを前記揮発性メモリに復元し、前記処理装置を起動するととともに、前記処理装置からの起動成功通知に応じて、前記第1の不揮発性メモリのデータを前記第2の不揮発性メモリに保存する処理ユニットとを有し、前記処理ユニットは、データの退避時に、前記揮発性メモリのデータを、同一の経路で、前記第1の不揮発性メモリと前記第3のメモリとに並列に記憶させ、前記第1の不揮発性メモリのデータと前記第3のメモリのデータとを比較し、比較結果を比較結果テーブルに記憶し、前記復元時に前記比較結果テーブルを参照し、前記比較結果が不一致を示している場合には、前記第2の不揮発性メモリの正式データを前記揮発性メモリに復元し、前記処理装置を起動する
又、この目的の達成のため、開示のシステム制御装置は、揮発性メモリのデータに従い起動処理を実行する処理装置に接続され、前記揮発性メモリのデータを受信し、不揮発性メモリに退避し、前記不揮発性メモリのデータを前記処理装置に送信し、前記揮発性メモリに復元するシステム制御装置であって、前記受信したデータを保持する第1の不揮発性メモリと、正式データを記憶するための第2の不揮発性メモリと、前記受信したデータを保持する第3のメモリと、復元時に前記第1の不揮発性メモリのデータを前記揮発性メモリに復元し、前記処理装置を起動するととともに、前記処理装置からの起動成功通知に応じて、前記第1の不揮発性メモリのデータを前記第2の不揮発性メモリに保存する処理ユニットとを有し、前記処理ユニットは、データの退避時に、前記揮発性メモリのデータを、同一の経路で、前記第1の不揮発性メモリと前記第3のメモリとに並列に記憶させ、前記第1の不揮発性メモリのデータと前記第3のメモリのデータとを比較し、比較結果を比較結果テーブルに記憶し、前記復元時に前記比較結果テーブルを参照し、前記比較結果が不一致を示している場合には、前記第2の不揮発性メモリの正式データを前記揮発性メモリに復元し、前記処理装置を起動する
更に、この目的の達成のため、開示の情報処理システムのデータ退避及び復元方法は、データの退避時に、揮発性メモリのデータに従い起動処理を実行する処理装置の前記揮発性メモリのデータを受信し、同一経路で受信した前記データを第1の不揮発性メモリと第3のメモリとに並列に記憶する工程と、前記第1の不揮発性メモリのデータと前記第3のメモリのデータとを比較し、比較結果を比較結果テーブルに記憶する工程と、復元時に前記比較結果テーブルを参照し、前記比較結果が不一致を示している場合には、前記第2の不揮発性メモリの正式データを前記揮発性メモリに復元し、前記処理装置を起動する工程と、前記比較結果が不一致を示していない場合、前記第1の不揮発性メモリのデータを前記揮発性メモリに復元し、前記処理装置を起動する工程と、前記処理装置からの起動成功通知に応じて、前記第1の不揮発性メモリのデータを前記第2の不揮発性メモリに保存する工程とを有する。
システム制御装置の不揮発性メモリ領域に、仮データ用と正式データ用の2つの退避用メモリを持ち、退避は一旦、仮データ用メモリに行い、復元時に仮データ用メモリのデータで処理装置の起動ができると分かった時点で、正式データ用メモリに退避データを保存するため、通信経路で異常が生じたり、仮データ用メモリが異常であっても、誤った退避データで復元することを防止できる。又、退避時に読み込んだデータを記憶する第3のメモリを設け、第1の不揮発性メモリの仮データと比較領域用の第3のメモリに書き込まれたデータとを比較し、一致/不一致を検出し、復元時には、第1の不揮発性メモリの仮データと第3のメモリに読み込んだ比較データが不一致を示している場合、第1の不揮発性メモリの仮データを使用せずに、第2の不揮発性メモリの正式データで、処理装置の起動を試みるので、退避時に読み込んだデータのチェックを強化できる
実施の形態の情報処理システムのブロック図である。 図1のデータ退避及び復元構成のブロック図である。 実施の形態のデータ退避処理フロー図である。 図3の退避処理の動作説明図である。 図3のデータ通信経路の異常時の退避動作の説明図である。 図3の第1の不揮発性メモリの異常時の退避動作の説明図である。 図3のシステムボードの異常時の退避動作の説明図である。 実施の形態の復元処理フロー図(その1)である。 実施の形態の復元処理フロー図(その2)である。 図8及び図9のデータ復元動作の説明図である。 図8及び図9のデータ通信経路の異常時のデータ復元動作の説明図である。 図8及び図9の第1の不揮発性メモリの異常時のデータ復元動作の説明図である。 従来の情報処理システムのブロック図である。 従来のデータ退避/復元における問題点の説明図である。 従来の他のデータ退避/復元における問題点の説明図である。
以下、実施の形態の例を、情報処理システム、データ退避処理、データ復元処理、他の実施の形態の順で説明するが、開示の情報処理システムの構成は、この実施の形態に限られない。
(情報処理システム)
図1は、実施の形態の情報処理システムのブロック図である。図1の情報処理システムの例は、1台のシステム制御装置が、複数の処理装置のシステム制御を行う。図1に示すように、処理装置は、システムボードユニット2A、2Bを有する。システムボードユニット2A、2BはCPU/メモリボードで構成される。システムボードユニット(以下、システムボードという)2A,2Bは、複数の演算処理装置(CPU:Central Processing Unit)22A、22B、22C、22Dとシステムコントローラ24とメモリアクセスコントローラ26とホストメモリ28と制御用メモリ29とを有する。この例では、4つの演算処理装置(以下、CPUという)がシステムボード2A,2Bに設けられている。システムボード2A,2BにおけるCPUの搭載数は、単数であっても、他の複数であっても良い。
各CPU22A〜22Dはシステムコントローラ24に接続する。システムコントローラ24は、ホストメモリ28に接続されたメモリアクセスコントローラ26に接続する。システムコントローラ24は、クロスバースイッチ3を介し複数のI/O(Input/Output)ボード4A〜4Nに接続する。
I/Oボード4A〜4Nは、I/Oコントローラ40と複数のPCI(Peripheral Component Interconnect) Expressスロット42とを有する。PCI Expressスロット42に、外部メモリ(大容量メモリ及び/又はストレージ装置)やネットワークインタフェースカード(NIC)が接続される。システムコントローラ24は、CPU22A〜22Dとメモリアクセスコントローラ26との間、及びクロスバースイッチ3とCPU22A〜22D,メモリアクセスコントローラ26との間の転送制御を行う。クロスバースイッチ3は、システムボード2Aと2B。及びシステムボード2A,2BとI/Oボード4A〜4Nとを1対1で直接接続する。
このクロスバースイッチ3により、システムボード2Aと2B、及びシステムボード2A,2BとI/Oボード4A〜4Nとのデータ転送を高速化できる。図1の例では、情報処理システムはシステムボードを2台搭載されているが、単数又は他の複数のシステムボードユニットを搭載しても良い。
制御用メモリ29は、システムボード2A,2Bの制御のためのプログラム、データを格納する記憶ユニットである。例えば、制御用メモリ29は、ブートプログラム等を格納する不揮発性メモリと、設定値を含むデータを格納する不揮発性メモリ29Aとを有する。
システム制御装置1は制御線LAC,LADを介しシステムボード2A,2Bの動作監視及び種々の設定を行う。例えば、システム制御装置(以下、システム制御ユニットという)1は、システムボード2A、2Bを構成するハードウェアユニットの電源投入/切断、システムボード2A、2Bの異常監視/ログ採取/通報、保守ガイダンス、OS(Operating System)との通信を実行する。
又、システム制御ユニット1は、第1の信号線PE1と第2の信号線PR1とにより、システムボード2Aの制御用メモリ29の揮発性メモリ29Aに接続し、第3の信号線PE2と第4の信号線PR2とにより、システムボード2Bの制御用メモリ29の揮発性メモリ29Aに接続する。
システム制御ユニット1は、処理ユニット(CPU:Cental Processing Unit)10と、記憶ユニット12と、システムボード2Aとの通信のための第1のインターフェース回路群14A,15A,16Aと、システムボード2Bとの通信のための第2のインターフェース回路群14B,15B,16Bと、これらの回路を接続する通信バス18とを有する。
第1のインターフェース回路群14A,15A,16Aは、制御線LACを介しシステムボード2Aの動作監視及び種々の設定を行う制御インターフェース回路14Aと、第1の信号線PE1と第2の信号線PR1とにより、システムボード2Aの制御用メモリ29の揮発性メモリ29Aに接続する一対の信号インターフェース回路15A、16Aとを有する。
第2のインターフェース回路群14B,15B,16Bは、制御線LADを介しシステムボード2Bの動作監視及び種々の設定を行う制御インターフェース回路14Bと、第1の信号線PE2と第2の信号線PR2とにより、システムボード2Bの制御用メモリ29の揮発性メモリ29Aに接続する一対の信号インターフェース回路15B、16Bとを有する。
記憶ユニット12は、第1の不揮発性メモリ12Aと第2の不揮発性メモリ12Cと揮発性メモリ12Bとを有する。図2により後述するように、第1の不揮発性メモリ12A、第2の不揮発性メモリ12Cは,設定値データの保存領域を備える。揮発性メモリ12Bは比較領域を備える。
システム制御ユニット1は通信経路50を介し端末装置5Aと接続する。端末装置5Aは、例えば、モニターと入力装置とを有するパーソナルコンピュータで構成される。オペレータは、端末装置5Aを操作し、システム制御ユニット1にハードウェア制御指示を行う。例えば、システム制御ユニット1は、電源投入シーケンス、初期化処理シーケンス、終了シーケンスを実行する。
通信経路50は例えばLAN(Local Area Network)を用いることが望ましい。端末装置5Aは通信経路50に接続し、ユーザー(オペレータ)の操作によりシステム制御ユニット1を介しシステムボード2A,2Bの揮発性メモリ29Aの設定値を書き換える。
例えば、UNIX(登録商標)をOSに使用した情報処理システムでは、Open Boot PROM(ブートプログラム)が、IEEE1275準拠のSolarisオペレーティングシステム(以下、OSという)を起動する。このOS上でeepromコマンドにより、オペレータは設定値データの変更を行う。変更された設定値データは、OBP環境変数と称される。OBP環境変数は、Open Boot PROMの実行により、OSの環境設定を行う。この設定値データはシステムボード2A,2Bの揮発性メモリ29Aに書き込まれる。
OBP環境変数は、例えば、ブートデバイス(boot−device)の設定、セキュリテイの設定範囲、診断レベル等が知られている。例えば、ブートデバイスを「デイスク(disk)」や「ネット(net)」に設定できる。Open Boot PROM(ブートプログラム)は、OBP環境変数のデフォルト値を持ち、OBP環境変数の変更値は、揮発性メモリ29Aに格納される。
図2は、図1において、システム制御ユニット1とシステムボード2Aの制御用メモリとの関係を示した説明図である。尚、図2では、図1のインターフェース回路群14A,15A,16Aを省略してある。システム制御ユニット1のCPU10は、前述のシステムボード2A、2Bの監視制御を行うシステム監視機構(プログラム)11を備える。システム監視機構11は、システムボード2Aの揮発性メモリ29Aの設定値データの退避及び復元を行う。
システムボード2Aの揮発性メモリ29Aとシステム制御ユニット1とは、一対の信号線PE1,PR1で接続される。この一対の信号線PE1,PR1は、JTAG(Joint Test Action Group)で規格された信号線であることが望ましい。
システム制御ユニット1の第1の不揮発性メモリ12Aは、仮データ用退避領域を構成し、第2の不揮発性メモリ12Cは、正式データ用退避領域を構成する。システム監視機構11は、システムボード2Aの揮発性メモリ29Aの設定データを、信号線PE1を介し、第1の不揮発性メモリ12Aと揮発性メモリ12Bとに読み出す。
揮発性メモリ29Aの設定値データの退避契機は2つのケースがある。第1のケースは、オペレータによる設定値データ変更(OS上でeepromコマンドを実行)が行われた場合に、システム監視機構11に対して退避依頼コマンドが発行される場合である。第2のケースは、システム電源切断時に、システム監視機構11自身で判断して行う場合である。
後述するように、システムボード2Aの揮発性メモリ29Aの設定データを、信号線PE1を介し、第1の不揮発性メモリ12Aに仮データとして、保持する。そして、復元時に、第1の不揮発性メモリ12Aの保持する仮データでシステムボード2Aの起動ができると分かった時点で、第2の不揮発性メモリ12Cへ第1の不揮発性メモリ12Aの仮データを正式データとして保存する。
又、復元時には、第1の不揮発性メモリ12Aの仮データで、システムボード2Aの起動を行う。第1の不揮発性メモリ12Aの仮データで、システムボード2Aの起動に失敗した場合には、第2の不揮発性メモリ12Cの正式データで復元する。
更に、復元時には、第1の不揮発性メモリ12Aの仮データと揮発性メモリ12Bに読み込んだ比較データが不一致を示している場合、第1の不揮発性メモリ12Aの仮データを使用せずに、第2の不揮発性メモリ12Cの正式データで、システムボード2Aの起動を試みる。
この設定値データの復元契機は、システム電源投入時にシステム監視機構11自身で判断して行う。
このように、システム制御ユニット1内の不揮発性メモリ12Aの保存領域を仮データ用という位置付けに変更し、新たに正式データ用の不揮発性メモリ12Cを追加する。即ち、システム制御ユニット1は、2つの退避用領域(不揮発性メモリ)12A、12Cを持つ。又、通信経路の冗長化を図るため、システムボード2Aの揮発性領域29Aとシステム制御ユニット1の第1の不揮発性メモリ12Aとの経路PE1と、システムボード2Aの揮発性領域29Aとシステム制御ユニット1の第2の不揮発性メモリ12Cとの経路PR1を別経路とする。
更に、退避時に読み込んだデータのチェックを強化するために、比較領域用の揮発性メモリ12Bを設ける。システム監視機構11は、第1の不揮発性メモリ12Aの仮データと比較領域用の揮発性メモリ12Bに書き込まれたデータとを比較し、一致/不一致を検出する。
(データ退避処理)
図3は、実施の形態のシステム監視機構のデータ退避処理フロー図である。図4は、図3のデータ退避処理の動作説明図である。図5乃至図7は、図3の電源切断時のデータ退避処理の動作説明図である。図3において、図1及び図2で示したものと同一のものは、同一の記号で示してある。
(S10)システム制御ユニット1のシステム監視機構11は、データ退避契機に、インターフェース回路15Aに、システムボード2Aの不揮発性メモリ(設定領域という)29Aの設置値データを、一対の経路の一方(例えば、経路PE1)を介し読み出す。
(S12)システム監視機構11は、インターフェース回路15Aに読み出した設定値データを、第1の不揮発性メモリ12Aの保存領域に仮データとして書き込む(図4の(1)参照)。
(S14)システム監視機構11は、インターフェース回路15Aに読み出した設定値データを、揮発性メモリ12Bに比較データとして書き込む(図4の(2)参照)。
(S16)システム監視機構11は、第1の不揮発性メモリ12Aに退避したデータと、揮発性メモリ12Bに退避したデータとを比較する(図4の(3)参照)。
(S18)システム監視機構11は、第1の不揮発性メモリ12Aに退避したデータと、揮発性メモリ12Bに退避したデータとの比較結果が一致している場合には、第1の不揮発性メモリ12Aに設けた比較結果フラグ(テーブル)に一致を書き込む(図4の(3)参照)。
(S20)システム監視機構11は、第1の不揮発性メモリ12Aに退避したデータと、揮発性メモリ12Bに退避したデータとの比較結果が一致していない場合には、第1の不揮発性メモリ12Aに設けた比較結果フラグ(テーブル)に不一致を書き込む(図4の(3)参照)。
このように、データの退避時は、仮データとして保存し、正式データとしては、保存しない。即ち、データ退避時に第1の不揮発性メモリ12Aに保存し、第2の不揮発性メモリ12Cに保存しない。
図5は、データ退避時に於いて、データ通信経路PE1でデータが壊れた場合の動作説明図である。データ通信経路PE1(インターフェース回路15Aを含む)のデータ壊れが固定的である場合には、第1の不揮発性メモリ12A(仮データ保存領域)と揮発性メモリ12B(比較領域)には、いずれも異常データが書き込まれてしまう。
一方、この異常データは、第2の不揮発性メモリ12C(正式データ保存領域)に書き込まれられない。即ち、第2の不揮発性メモリ12Cは、異常データで更新されない。後述するように、次回のデータ復元時には、システム監視機構11は、第2の不揮発性メモリ12Cの正式データを、通信経路PR1を介しシステムボード2Aの揮発性メモリ29Aに復元できる。このため、システム起動が成功する。
図6は、データ退避時に、第1の不揮発性メモリ12Aの保存領域のデータ異常状態でデータが壊れた場合の動作説明図である。システム監視機構11は、第1の不揮発性メモリ12Aの仮データと揮発性メモリ12Bの比較データの比較を行うことにより、第1の不揮発性メモリ12Aの障害によるデータの壊れを検出することができる。即ち、第1の不揮発性メモリ12Aには、データを正しく書き込めないが、揮発性メモリ12Bには、データは正しく書き込まれる。
システム監視機構11は、第1の不揮発性メモリ12Aの仮データと揮発性メモリ12Bの比較領域のデータとを比較し、不一致と認識する。システム監視機構11は、比較結果フラグ12Dに“不一致”であったことを記録するため、起動時に、第1の不揮発性メモリ12Aの仮データからの復元を行うことを防止できる。後述するように、システム監視機構11は、復元時に、第2の不揮発性メモリ12Cの正式データで復元を行う。
図7は、システム電源切断のデータ退避時にシステムボード2Aの揮発性メモリ29Aでのデータ異常状態が発生した場合の動作説明図である。システム運用中に揮発性メモリ29Aの設定領域のデータが壊れた場合、システム電源切断されると、データ退避により、第1の不揮発性メモリ12A(仮データ保存領域)と揮発性メモリ12B(比較領域)には、いずれも異常データが書き込まれてしまう。
一方、この異常データは、第2の不揮発性メモリ12C(正式データ保存領域)に書き込まれられない。即ち、第2の不揮発性メモリ12Cは、異常データで更新されない。後述するように、次回のシステム電源投入時、システムボードのユニット診断によってハード異常が検出され、システムボードユニットが交換される。次回のデータ復元時には、システム監視機構11は、第2の不揮発性メモリ12Cの正式データを、通信経路PR1を介しシステムボード2Aの揮発性メモリ29Aに復元できる。このため、システム起動が成功する。
(データ復元処理)
図8及び図9は、実施の形態のシステム監視機構11の復元処理フロー図である。図10は、図8及び図9の復元処理の動作説明図である。
(S30)システム監視機構11は、図10に示す比較フラグ12Dを読み出す。
(S32)システム監視機構11は、比較フラグ12Dが一致を示すかを判定する(図10の(4))。
(S34)システム監視機構11は、比較フラグ12Dが一致を示すと判定した場合には、第1の不揮発性メモリ12Aの保存領域(仮データ)のハードウェアの異常なしと判断する。そして、システム監視機構11は、第1の不揮発性メモリ12Aの仮データを読み出す。
(S36)システム監視機構11は、比較フラグ12Dが一致を示していないと判定した場合には、第1の不揮発性メモリ12Aの保存領域(仮データ)のハードウェアの異常有りと判断する。そして、システム監視機構11は、第2の不揮発性メモリ12Cの正式データを読み出す。
(S38)システム監視機構11は、読み出した仮データ又は正式データをインターフェース回路16A、信号線PR1を介し、システムボード2Aの揮発性メモリ29Aに書き込む(コピーする)(図10の(5))。
(S40)システムボード2Aは電源投入されている。システム監視機構11は、制御線LACを介しシステムボード2Aに起動を依頼する。システムボード2Aは、揮発性メモリ29Aにコピーされた設定値データを用いて、起動を開始する。システム監視機構11は、制御線LACを介しシステムボード2Aからの起動結果の受信を待つ(図10の(6))。
(S42)システム監視機構11は、システムボード2Aの起動結果が、起動成功(running)通知であるか否かを判定する(図10(6))。
(S44)システム監視機構11は、システムボード2Aの起動結果が、起動成功(running)通知であると判定した場合には、第1の不揮発性メモリ12Aの仮データを第2の不揮発性メモリ12Cに書き込む(コピーする)(図10の(7))。そして、復元処理を終了する。
(S46)ステップS42で、システム監視機構11は、システムボード2Aの起動結果が、起動成功(running)通知でないと判定した場合には、第2の不揮発性メモリ12Cの正式データを読み出す。システム監視機構11は、読み出した正式データをインターフェース回路16A、信号線PR1を介し、システムボード2Aの揮発性メモリ29Aに書き込む(コピーする)(図10の(5))。
(S48)システム監視機構11は、制御線LACを介しシステムボード2Aに起動を依頼する。システムボード2Aは、揮発性メモリ29Aにコピーされた設定値データを用いて、起動を開始する。システム監視機構11は、制御線LACを介しシステムボード2Aからの起動結果の受信を待つ(図10の(6))。
(S50)システム監視機構11は、システムボード2Aの起動結果が、起動成功(running)通知であるか否かを判定する(図10(6))。システム監視機構11は、システムボード2Aの起動結果が、起動成功(running)通知であると判定した場合には、復元処理を終了する。逆に、システム監視機構11は、システムボード2Aの起動結果が、起動成功(running)通知でないと判定した場合には、システムボード2Aの不揮発性メモリ29Aのハードウェア異常と判定する。そして、復元処理を終了する。
図11は、データ通信経路でデータ壊れが発生した場合の動作説明図である。システム監視機構11は、比較結果フラグ12Dのチェックを行い、“一致”と認識し、第1の不揮発性メモリ12Aの保存領域(仮データ)のハードウェアの異常なしと判断する(図11の(4))。システム監視機構11は、第1の不揮発性メモリ12Aの仮データを使用して、復元する(図11の(5))。システム監視機構11は、システムボード2AのOpenBootPROMからのエラーログ通知を受信することにより、システム起動失敗を認識する(図11の(8))。
システム監視機構11は、第2の揮発性メモリ12Cの正式データで再度、データ復元を行う(図11の(10))。システム監視機構11は、システムボード2AのOpenBootPROMに再起動を依頼する(図11の(9))。システム監視機構11は、システムボード2AのOpenBootPROMからのrunning通知を受信することにより、システム起動成功を認識する(図11の(6))。
このように、データ通信経路でデータ異常があり、第1の不揮発性メモリ12Aの仮データでのOS起動に失敗したとしても、第2の不揮発性メモリ12Cの過去にOS起動の実績がある正式データを用いて、OSの再起動が可能となる。
図12は、第1の不揮発性メモリ12Aのデータ異常状態におけるデータ復元動作の説明図である。システム監視機構11は、比較結果フラグ12Dのチェックを行い、“不一致”と認識し、第1の不揮発性メモリ12Aの保存領域(仮データ)のハードウェアの異常ありと判断する(図12の(4))。システム監視機構11は、第2の不揮発性メモリ12C正式データで復元する(図12の(10))。システム監視機構11は、システムボード2AのOpenBootPROMからのrunning通知を受信することにより、システム起動成功を認識する(図12の(6))。
このように、第1の不揮発性メモリ12Aの障害があっても、第2の不揮発性メモリ12Cの正式データで復元できる。
更に、図11において、システム監視機構11が、システムボード2Aからエラーログを再度通知された場合、図9のステップS50のように、システムボード2Aの揮発性メモリ29Aの障害と特定できる。即ち、故障箇所特定が可能となり、システムボード2Aの交換を行えばよい。
又、揮発性メモリ29Aの故障の場合には、実際に揮発性メモリ29Aのハードウェアの故障のケースと、ハードウェアは正常だが、故障データが復元されたままのケースがある。後者のケースの場合、ハードウェアを交換したとしても、正常なデータは失われている。本実施の形態では、システム電源投入時、システムボードのユニット診断によってハードウェアの異常が検出され、システムボードユニットが交換される。交換後のデータ復元時には、図11と同様の動作により、正式データによってシステム起動が成功する。
このように、第1の不揮発性メモリと第2の不揮発性メモリを設け、第2の不揮発性メモリに処理ユニット本体の起動実績があるデータを保存する。これにより、復元時に第1の不揮発性メモリの仮データで、処理ユニットの起動が失敗しても、第2の不揮発性メモリの正式データを用いて処理ユニットの起動を試みることができる。
又、データ復元時にハード異常によるデータ破壊が起きていた場合、データを使用する側のチェック機能によってデータが初期化される。このため、システム監視機構側に正常なデータがあるにも関わらず、処理ユニット本体の起動を行うため、オペレーターがシステムボードユニット側のデータを再設定する必要があった。本実施の形態では、オペレーターによって誤った設定値変更がされたとしても、オペレーターによる再設定を行わずとも、第2の不揮発性メモリの正式データを用いて、処理ユニットの起動を行うことができる。
更に、第1の不揮発性メモリの仮データを復元して、処理ユニットの起動が成功した場合に、第1の不揮発性メモリの仮データを第2の不揮発性メモリにコピーして、正式データを更新するため、運用中にオペレーターが設定値を変更しても、起動実績のある設定値を第2の不揮発性メモリに保存できる。
データの退避/復元を制御するシステム制御ユニットにおいて、データを保証するチェック機能を持たない、もしくは、ライセンス等の都合でチェック機能を実装することができない場合がある。この場合でも、不揮発性メモリ(設定領域)および、第1及び第2の不揮発性メモリ(退避領域)に正常なデータを格納することを保証することができる。このため、処理ユニットでデータを利用する側の運用を持続することが可能となる。
(他の実施の形態)
前述の実施の形態では、図11において、データ復元経路PR1を用いて説明したが、データ復元経路のいずれかが異常の場合に、異常でないデータ復元経路を選択し、データ復元処理を行っても良い。
又、第1の不揮発性メモリ12Aの仮データと揮発性メモリ12Bの比較データの比較を行うことにより、第1の不揮発性メモリ12Aの障害によるデータの壊れを検出し、起動時に、第1の不揮発性メモリ12Aの仮データからの復元を行うことを防止しているが、揮発性メモリを用いた比較処理を省略することもできる。
更に、OSはUNIX(登録商標)に限らず、他のOSにも適用でき、設定値データもOBP環境変数に限らず、他のOS起動に必要な設定値であっても良い。又、OSの設定値を例に説明したが、他のデータやプログラム等の退避及び復元にも適用できる。
以上、本発明を実施の形態により説明したが、本発明の趣旨の範囲内において、本発明は、種々の変形が可能であり、本発明の範囲からこれらを排除するものではない。
システム制御装置の不揮発性メモリ領域に、仮データ用と正式データ用の2つの退避用メモリを持ち、退避は一旦、仮データ用メモリに行い、復元時に仮データ用メモリのデータで処理装置の起動ができると分かった時点で、正式データ用メモリに退避データを保存するため、通信経路で異常が生じたり、仮データ用メモリが異常であっても、誤った退避データで復元することを防止できる。
1 システム制御ユニット
2A、2B システムボード
3 クロスバー
4A〜4N I/Oポート
10 処理装置
11 システム監視機構
12 メモリ群
12A 第1の不揮発性メモリ
12B 揮発性メモリ
12C 第2の不揮発性メモリ
12D 比較結果フラグ
22A〜22D CPU
29 制御メモリ
29A 揮発性メモリ
LAC,LAD 制御線
PE1,PE2,PR1,PR2 信号線

Claims (5)

  1. 揮発性メモリのデータに従い起動処理を実行する処理装置と、
    前記処理装置に接続され、前記揮発性メモリのデータを受信し、不揮発性メモリに退避し、前記不揮発性メモリのデータを前記処理装置に送信し、前記揮発性メモリに復元するシステム制御装置とを有し、
    前記システム制御装置は、
    前記受信したデータを保持する第1の不揮発性メモリと、
    正式データを記憶するための第2の不揮発性メモリと、
    前記受信したデータを保持する第3のメモリと、
    復元時に前記第1の不揮発性メモリのデータを前記揮発性メモリに復元し、前記処理装置を起動するととともに、前記処理装置からの起動成功通知に応じて、前記第1の不揮発性メモリのデータを前記第2の不揮発性メモリに保存する処理ユニットとを有し、
    前記処理ユニットは、データの退避時に、前記揮発性メモリのデータを、同一の経路で、前記第1の不揮発性メモリと前記第3のメモリとに並列に記憶させ、前記第1の不揮発性メモリのデータと前記第3のメモリのデータとを比較し、比較結果を比較結果テーブルに記憶し、前記復元時に前記比較結果テーブルを参照し、前記比較結果が不一致を示している場合には、前記第2の不揮発性メモリの正式データを前記揮発性メモリに復元し、前記処理装置を起動する
    ことを特徴とする情報処理システム。
  2. 請求項1の情報処理システムにおいて、
    前記処理装置の前記揮発性メモリと前記システム制御装置とを冗長構成の信号線で接続した
    ことを特徴とする情報処理システム。
  3. 請求項1の情報処理システムにおいて、
    前記処理装置の前記揮発性メモリの保持する前記データは、前記処理装置の起動に必要な設定値を有し、前記処理装置が前記起動の指示に応じて、前記揮発性メモリの設定値を用いて起動処理する
    ことを特徴とする情報処理システム。
  4. 揮発性メモリのデータに従い起動処理を実行する処理装置に接続され、前記揮発性メモリのデータを受信し、不揮発性メモリに退避し、前記不揮発性メモリのデータを前記処理装置に送信し、前記揮発性メモリに復元するシステム制御装置であって、
    前記受信したデータを保持する第1の不揮発性メモリと、
    正式データを記憶するための第2の不揮発性メモリと、
    前記受信したデータを保持する第3のメモリと、
    復元時に前記第1の不揮発性メモリのデータを前記揮発性メモリに復元し、前記処理装置を起動するととともに、前記処理装置からの起動成功通知に応じて、前記第1の不揮発性メモリのデータを前記第2の不揮発性メモリに保存する処理ユニットとを有し、
    前記処理ユニットは、データの退避時に、前記揮発性メモリのデータを、同一の経路で、前記第1の不揮発性メモリと前記第3のメモリとに並列に記憶させ、前記第1の不揮発性メモリのデータと前記第3のメモリのデータとを比較し、比較結果を比較結果テーブルに記憶し、前記復元時に前記比較結果テーブルを参照し、前記比較結果が不一致を示している場合には、前記第2の不揮発性メモリの正式データを前記揮発性メモリに復元し、前記処理装置を起動する
    ことを特徴とするシステム制御装置。
  5. データの退避時に、揮発性メモリのデータに従い起動処理を実行する処理装置の前記揮発性メモリのデータを受信し、同一経路で受信した前記データを第1の不揮発性メモリと第3のメモリとに並列に記憶する工程と、
    前記第1の不揮発性メモリのデータと前記第3のメモリのデータとを比較し、比較結果を比較結果テーブルに記憶する工程と、
    復元時に前記比較結果テーブルを参照し、前記比較結果が不一致を示している場合には、前記第2の不揮発性メモリの正式データを前記揮発性メモリに復元し、前記処理装置を起動する工程と、
    前記比較結果が不一致を示していない場合、前記第1の不揮発性メモリのデータを前記揮発性メモリに復元し、前記処理装置を起動する工程と、
    前記処理装置からの起動成功通知に応じて、前記第1の不揮発性メモリのデータを前記第2の不揮発性メモリに保存する工程とを有する
    ことを特徴とする情報処理システムのデータ退避及び復元方法。
JP2012522385A 2010-06-30 2010-06-30 システム制御装置、情報処理システム及び情報処理システムのデータ退避及び復元方法 Expired - Fee Related JP5376058B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2010/061152 WO2012001780A1 (ja) 2010-06-30 2010-06-30 システム制御装置、情報処理システム及び情報処理システムのデータ退避及び復元方法

Publications (2)

Publication Number Publication Date
JPWO2012001780A1 JPWO2012001780A1 (ja) 2013-08-22
JP5376058B2 true JP5376058B2 (ja) 2013-12-25

Family

ID=45401535

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012522385A Expired - Fee Related JP5376058B2 (ja) 2010-06-30 2010-06-30 システム制御装置、情報処理システム及び情報処理システムのデータ退避及び復元方法

Country Status (4)

Country Link
US (1) US20130117518A1 (ja)
EP (1) EP2590072A4 (ja)
JP (1) JP5376058B2 (ja)
WO (1) WO2012001780A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5240260B2 (ja) * 2010-09-13 2013-07-17 株式会社デンソー 車両用電子制御装置
JP5773775B2 (ja) * 2011-06-24 2015-09-02 キヤノン株式会社 情報処理装置、印刷装置及び監視方法
CN104731687A (zh) * 2013-12-24 2015-06-24 镇江金钛软件有限公司 一种电脑活动的实时监控方法
KR20150092386A (ko) * 2014-02-03 2015-08-13 에스케이하이닉스 주식회사 메모리 시스템
KR102148984B1 (ko) * 2014-05-29 2020-08-27 삼성에스디에스 주식회사 데이터 처리 시스템 및 방법
JP6421516B2 (ja) * 2014-09-25 2018-11-14 沖電気工業株式会社 サーバ装置、冗長構成サーバシステム、情報引継プログラム及び情報引継方法
KR102214593B1 (ko) 2018-01-02 2021-02-15 기초과학연구원 락탐 화합물의 제조방법 및 이로부터 제조된 락탐 화합물
KR102590897B1 (ko) * 2018-12-31 2023-10-19 기초과학연구원 키랄 감마-락탐 화합물의 제조방법 및 이를 위한 금속 착체

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0756719A (ja) * 1993-07-30 1995-03-03 Microsoft Corp 最後にブートに成功した既知のシステム構成データ・セットを用いたコンピュータ・システムのブート方法および装置
JP2000181687A (ja) * 1998-12-18 2000-06-30 Fujitsu Ltd 制御装置,電子機器,環境設定方法およびプログラムを格納したコンピュータ読取可能な記録媒体
JP2000298579A (ja) * 1999-04-14 2000-10-24 Nec Corp 簡易初期設定biosシステム及びそれに用いる設定方法並びにその制御プログラムを記録した記録媒体
JP2003099146A (ja) * 2001-09-20 2003-04-04 Fujitsu Ltd 計算機システムの起動制御方式
JP2008112433A (ja) * 2006-07-25 2008-05-15 Nvidia Corp ディスクレス・コンピューティングプラットフォームにオペレーションシステムをインストールするシステム及び方法
WO2008114375A1 (ja) * 2007-03-19 2008-09-25 Fujitsu Limited シンクライアント端末装置、その運用プログラム、及び方法、並びにシンクライアントシステム
JP2008289099A (ja) * 2007-05-21 2008-11-27 Murata Mach Ltd 複合機
JP2009025967A (ja) * 2007-07-18 2009-02-05 Nec Computertechno Ltd 二重化ファームウェアのバックアップ方式、方法、及び、オペレーティングシステム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05265720A (ja) 1992-03-19 1993-10-15 Fujitsu Ltd システム情報管理方式
JPH06309234A (ja) 1993-02-15 1994-11-04 Toshiba Corp ディスク制御装置
US7613897B2 (en) * 2005-03-30 2009-11-03 International Business Machines Corporation Allocating entitled processor cycles for preempted virtual processors
US8301868B2 (en) * 2005-09-23 2012-10-30 Intel Corporation System to profile and optimize user software in a managed run-time environment
US7467295B2 (en) * 2005-10-07 2008-12-16 International Business Machines Corporation Determining a boot image based on a requesting client address
US7577829B2 (en) * 2006-04-28 2009-08-18 Dell Products L.P. System and method for maintaining multiple information handling system configuration images
US7689820B2 (en) * 2006-09-27 2010-03-30 L3 Communications Corporation Rapid-boot computing device with dual operating systems
US9098448B2 (en) * 2007-05-29 2015-08-04 Dell Products L.P. Intelligent boot services
US20090193230A1 (en) * 2008-01-30 2009-07-30 Ralf Findeisen Computer system including a main processor and a bound security coprocessor
TWI366136B (en) * 2008-06-11 2012-06-11 Disk-based operating environment management system and method thereof

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0756719A (ja) * 1993-07-30 1995-03-03 Microsoft Corp 最後にブートに成功した既知のシステム構成データ・セットを用いたコンピュータ・システムのブート方法および装置
JP2000181687A (ja) * 1998-12-18 2000-06-30 Fujitsu Ltd 制御装置,電子機器,環境設定方法およびプログラムを格納したコンピュータ読取可能な記録媒体
JP2000298579A (ja) * 1999-04-14 2000-10-24 Nec Corp 簡易初期設定biosシステム及びそれに用いる設定方法並びにその制御プログラムを記録した記録媒体
JP2003099146A (ja) * 2001-09-20 2003-04-04 Fujitsu Ltd 計算機システムの起動制御方式
JP2008112433A (ja) * 2006-07-25 2008-05-15 Nvidia Corp ディスクレス・コンピューティングプラットフォームにオペレーションシステムをインストールするシステム及び方法
WO2008114375A1 (ja) * 2007-03-19 2008-09-25 Fujitsu Limited シンクライアント端末装置、その運用プログラム、及び方法、並びにシンクライアントシステム
JP2008289099A (ja) * 2007-05-21 2008-11-27 Murata Mach Ltd 複合機
JP2009025967A (ja) * 2007-07-18 2009-02-05 Nec Computertechno Ltd 二重化ファームウェアのバックアップ方式、方法、及び、オペレーティングシステム

Also Published As

Publication number Publication date
EP2590072A4 (en) 2013-10-09
US20130117518A1 (en) 2013-05-09
WO2012001780A1 (ja) 2012-01-05
JPWO2012001780A1 (ja) 2013-08-22
EP2590072A1 (en) 2013-05-08

Similar Documents

Publication Publication Date Title
JP5376058B2 (ja) システム制御装置、情報処理システム及び情報処理システムのデータ退避及び復元方法
KR101081092B1 (ko) 병렬 컴퓨터 시스템과 병렬 컴퓨터 시스템 구동 방법과 컴퓨터 판독가능한 기록 매체
KR100702551B1 (ko) 서버 섀시 내에서 블레이드 서비스 프로세서의 실패한플래시를 복구하기 위한 방법 및 시스템
US8495415B2 (en) Method and system for maintaining backup copies of firmware
US8788636B2 (en) Boot controlling method of managed computer
US20120110378A1 (en) Firmware recovery system and method of baseboard management controller of computing device
US10275330B2 (en) Computer readable non-transitory recording medium storing pseudo failure generation program, generation method, and generation apparatus
US7434102B2 (en) High density compute center resilient booting
CN114116280B (zh) 交互式bmc自恢复方法、系统、终端及存储介质
TW200426571A (en) Policy-based response to system errors occurring during os runtime
JP2011253408A (ja) サーバシステム及びそのbios復旧方法
JP6599725B2 (ja) 情報処理装置およびログ管理方法、並びにコンピュータ・プログラム
CN111538613A (zh) 一种集群系统异常恢复处理方法及装置
JPH1091289A (ja) メモリの初期化装置及び方法
JP2006285384A (ja) プロセッサ障害処理方式、管理プロセッサ及びプロセッサ障害処理方法
US11740969B2 (en) Detecting and recovering a corrupted non-volatile random-access memory
WO2022184729A1 (en) Remote server management utilizing self contained baseboard management controller
Cisco Operational Traps
Cisco Operational Traps
Cisco Operational Traps
Cisco Operational Traps
Cisco Operational Traps
JP6911591B2 (ja) 情報処理装置、制御装置および情報処理装置の制御方法
TWI777664B (zh) 嵌入式系統的開機方法
TWI830418B (zh) 複雜可程式邏輯單元的韌體更新方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130604

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130802

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130827

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130909

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees