JP2009266205A - マルチ制御装置システムを修復する方法と装置 - Google Patents

マルチ制御装置システムを修復する方法と装置 Download PDF

Info

Publication number
JP2009266205A
JP2009266205A JP2009026213A JP2009026213A JP2009266205A JP 2009266205 A JP2009266205 A JP 2009266205A JP 2009026213 A JP2009026213 A JP 2009026213A JP 2009026213 A JP2009026213 A JP 2009026213A JP 2009266205 A JP2009266205 A JP 2009266205A
Authority
JP
Japan
Prior art keywords
boot
file
repair
control device
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009026213A
Other languages
English (en)
Inventor
Renwei Liu
レンウェイ・リウ
Hua Chen
ファ・チェン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of JP2009266205A publication Critical patent/JP2009266205A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/1417Boot up procedures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/4401Bootstrapping
    • G06F9/4416Network booting; Remote initial program loading [RIPL]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0659Management of faults, events, alarms or notifications using network fault recovery by isolating or reconfiguring faulty entities
    • H04L41/0661Management of faults, events, alarms or notifications using network fault recovery by isolating or reconfiguring faulty entities by reconfiguring faulty entities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting
    • H04L41/0813Configuration setting characterised by the conditions triggering a change of settings
    • H04L41/082Configuration setting characterised by the conditions triggering a change of settings the condition being updates or upgrades of network functionality
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0866Checking the configuration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/1433Saving, restoring, recovering or retrying at system level during software upgrading
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/1666Error detection or correction of the data by redundancy in hardware where the redundant component is memory or memory area
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting
    • H04L41/0806Configuration setting for initial configuration or provisioning, e.g. plug-and-play

Abstract

【課題】マルチ制御装置システムを修復する方法と装置を提供する。
【解決手段】装置は、少なくとも2つの制御装置と、システムブートが失敗した制御装置に対して、ネットワークブートを開始させるネットワークブートユニットとを具備する。各制御装置は、検出ユニット、ローカルブートユニット、修復ファイルダウンロードユニット、修復ユニットを備え、いずれかの制御装置に対するシステムブートが失敗した後に、ネットワークブートを開始して動作が正常である別の制御装置から修復ファイルをダウンロードし、修復ファイルに基づいてシステムを修復することによって、システム修復を自動的に実行させる。
【選択図】図8

Description

発明の分野
本発明は、マルチ制御装置構造を持つ制御システムに関連し、より詳細には、マルチ制御装置システムを修復する方法と装置に関連する。
背景
制御システムにおいて、一般的に、デュアル制御装置またはマルチ制御装置構造を用いて、システムの信頼性を向上させる。ネットワーク接続は、複数の制御装置の間で互いに通信するために利用されることが多い。システムが実行されているときに、互いに対して冗長な性能を提供するために、ある制御装置中にバッファされたコンテンツが、別の制御装置に対して完全にミラーリングされる。
図1は、2つの制御装置の構成を図示し、それぞれの制御装置は2つのキャッシュを維持する。システムが正常に動作するとき、制御装置1のキャッシュ1中のデータは、制御装置2のキャッシュ1中にミラーリングされ、そして、制御装置2のキャッシュ2中のデータは、制御装置1のキャッシュ2中にミラーリングされる。このようなマルチ制御装置構成は、冗長な制御装置のキャッシュ中にバッファされたデータで、キャッシュを再構成することにより、制御システムの信頼性を向上させ、制御装置の冗長性を保持する。
本発明の実現において、発明者らは、調査を通して、関連技術のデュアル制御装置またはマルチ制御装置に対するネットワーク接続が、関連するデータの同期と冗長性設計とだけのために使用されていることを見つけた。制御装置のシステムファイル中で故障が発生するときに、制御装置を自動的に回復させることができない。むしろ、制御装置は、オペレーティングシステム(OS)を手動で再インストールすることによってのみ回復させることができ、このことは、システムの信頼性に影響を及ぼす。
概要
1つの観点では、本発明の実施形態は、マルチ制御装置システムを修復する方法を提供する。方法にしたがうと、制御装置の自動的なシステム修復が実現され、制御システムは常に複数の制御装置の下で実行される。
マルチ制御装置システムを修復する方法は、そのシステムブートが失敗した制御装置によって、ネットワークブートを開始して、その動作が正常である制御装置から修復ファイルをダウンロードすることと;そのシステムブートが失敗した制御装置によって、修復ファイルに基づいて、それ自体のシステムを修復することとを含む。
別の観点では、本発明の実施形態は、マルチ制御装置システムを修復する装置を提供する。このような装置にしたがうと、制御装置のシステムは自動的に修復され、制御システムは常に複数の制御装置の下で実行される。
マルチ制御装置システムを修復する装置は、少なくとも2つの制御装置と;少なくとも2つの制御装置に結合されており、そのシステムブートが失敗した制御装置に対して、ネットワークブートを開始させるように構成されているネットワークブートユニットとを具備する。それぞれの制御装置は、検出ユニットと、ローカルブートユニットと、修復ファイルダウンロードユニットと、修復ユニットとを備える。
検出ユニットは、制御装置のローカルブートユニットが、システムのブートを成功させたか否かを検出するように構成されており、成功しなかった場合、ネットワークブートユニットを開始させるように構成されている。
ローカルブートユニットは、実行のためにアプリケーションをロードするために、制御装置に対するローカルシステムブートを開始するように構成されている。
修復ファイルダウンロードユニットは、そのシステムブートが失敗した制御装置に対して、その動作が正常である制御装置から修復ファイルをダウンロードするように構成されている。
修復ユニットは、修復ファイルに基づいて、制御装置自体のシステムを修復するように構成されている。
図1は、関連技術にしたがって、複数の制御装置にシステム冗長性を提供する概略図を図示する。 図2は、本発明の実施形態にしたがって、マルチ制御装置システムを修復する方法を示すフローチャートである。 図3は、本発明の実施形態にしたがって使用される、PXE技術の概略図を図示する。 図4は、本発明の実施形態にしたがった、デュアル制御装置に対する制御ブロックの構成を示す。 図5は、本発明の実施形態にしたがった、制御装置におけるネットワークブートのための構成のフローチャートである。 図6は、本発明の実施形態にしたがった、PXE技術にしたがって、TFTPサーバを構成するフローチャートである。 図7は、本発明の実施形態にしたがった、PXE技術にしたがって、DHCPサーバを構成するフローチャートである。 図8は、本発明の実施形態にしたがった、マルチ制御装置システムを修復する装置を示すブロック図である。 図9は、本発明の実施形態にしたがった、マルチ制御装置システムを修復する装置を示すブロック図である。
詳細な説明
制御装置の自動的システム修復を実現するために、本発明のさまざまな実施形態において、マルチ制御装置システムを修復する方法と装置を提供する。したがって、制御システムは、常に複数の制御装置の下で動作してもよく、したがって、制御システムの信頼性が向上する。実施形態に対する参照とともに、以下に詳細な説明を行う。
図2は、本発明の実施形態にしたがって、マルチ制御装置システムを修復する方法を図示する。
ステップ201において、その動作が正常である制御装置から修復ファイルをダウンロードするために、そのシステムブートが失敗した制御装置が、ネットワークブートを開始する。
ネットワークブートは、クライアントが、PXE技術にしたがって、ネットワークを介してサーバからシステムブートプログラムをダウンロードするような方法で、システムブートを開始することを指す。
PXE技術の原則を図3に示す。
301において、クライアントがブロードキャストの形態で要求フレームを送る。クライアントがスタートアップした後に、クライアントのネットワークカード上のセルフスタートアップチップが、ブロードキャストの形態で、例えば、ネットワークカードのID番号を搬送するFINDフレームで、要求フレームを送る。
302において、クライアントが遠隔スタートアップサーバのIPアドレスを取得する。クライアントからのFINDフレームブロードキャストを受信すると、遠隔スタートアップサーバは、FINDフレーム中で搬送されるネットワークカードIDに基づいて、FOUNDフレームで応答し、FOUNDフレームは、遠隔スタートアップサーバのネットワークカードIDを含む。
303において、クライアントが、スタートアップのために必要なファイルを配信するように遠隔スタートアップサーバに要求する。遠隔スタートアップサーバから戻されたFOUNDフレームを受信すると、クライアントは、スタートアップのために必要なファイルを配信するように遠隔スタートアップサーバに要求するフレームで応答する。
304において、クライアントが、遠隔スタートアップサーバからスタートアップのために必要なファイルを取得する。スタートアップのために必要なファイルの配信に対する要求フレームを受信すると、遠隔スタートアップサーバは、対応するスタートアップブロックに対して、その遠隔スタートアップデータベース中のクライアントレコードをルックアップして、スタートアップのために必要なファイルをクライアントに配信する。
305において、クライアントがスタートアップのために必要なファイルを実行する。スタートアップのために必要な完全なファイルを受信すると、クライアントは、スタートアップのために必要なファイル中のスタートアッププログラムの実行を開始し、そして、スタートアップブロックのエントリに実行ポイントを戻して、クライアントを開始させる。
異なるオペレーションシステムに対する、異なるブート方法があるのは当然である。
この実施形態において、ネットワークブートを可能にするため、それぞれの制御装置は、ハードウェア中で、PXEに対するサポートを持つネットワークカード、例えば、Intel(登録商標)のESB2集積ネットワークカードを備えており;ソフトウェア中で、ネットワークブートスタートアップオプションをセットする必要があり、例えば、システムブートプログラムCMOS中で、ハードディスクが第1のスタートアップオプションとしてセットされ、ESB2集積ネットワークカードが第2のスタートアップオプションとしてセットされる。
ハードディスクはRAIDIディスクアレイに制限されていない。むしろ、ハードディスクは、SCSIハードディスク、RAID0/3/5アレイ、シングルIDEハードディスク、テープドライブ、テープライブラリ、CD−ROM、CFカード、フラッシュメモリ、または、他の記憶媒体であってもよい。
デュアル制御装置のケースでは、図4に示したように、PXEに対するサポートを持つネットワークカードが、制御システムの2つの制御装置の間に提供される。制御システムが電源投入された後に、それぞれの制御装置からシステムブートプログラムが開始される。OSのブートが成功した場合、アプリケーションが制御装置にロードされ、実行される。OSのブートが成功しなかった場合、そのシステムブートが失敗した制御装置が、ネットワークブートを開始し、その動作が正常である制御装置から修復ファイルをダウンロードする。ネットワークブートに関して、2つの制御装置のそれぞれが、サーバまたはクライアントとして動作してもよい。
OSは、Linux(登録商標)系列のOSに限定されておらず、Windows(登録商標)系列のOSや、UNIX(登録商標)系列のOS、または、他のOSであってもよい。
ネットワークブートを実行するために、2つの制御装置のそれぞれを、図5に示すように構成してもよい。
501において、カーネルファイルとinitramfs(初期RAMファイルシステム)ファイルをコンパイルする。
502において、PXE技術にしたがって、簡易ファイル転送プロトコル(TFTP)サーバを構成する。
503において、PXE技術にしたがって、動的ホスト構成プロトコル(DHCP)サーバを構成する。
504において、ネットワークブートスタートアップオプションをセットする。
Linux系列OSを例としてとると、ステップは以下の通りである。
ステップ501において、カーネルファイルbzImageと初期RAMファイルシステムファイルinitramfsをコンパイルする。
このステップは、準備ステップである。この実施形態では、ブートシステムは、アンアテンデッド(unattended)プロジェクトに基づいた、Linuxシステムである。クライアントとして動作する制御装置によってロードされ、システム中で搬送されるコマンドを使用することによって、サーバとして動作する制御装置から、システムブートプログラムをダウンロードしてもよい。
ステップ502において、PXE技術にしたがって、TFTPサーバを構成し、このステップを図6に示す。
601において、TFTPディレクトリを、/tftpboot/のようにセットする。
602において、TFTPディレクトリ/tftpboot/の下に、カーネルファイルbzImageと初期RAMファイルシステムファイルinitramfsを構成する。
603において、ディレクトリ/tftpboot/の下に、PXEスタートアップブートファイルpxelinux.0を構成する。
604において、/tftpboot/pxelinux.cfg/defaultファイルを構成し、クライアントにおいてブートされることになるOSファイルを、bzImageとinitramfsとして指定する。
605において、TFTPサービスを開始する。
ステップ503において、PXE技術にしたがって、DHCPサーバを構成し、このステップを図7に示す。
701において、/etc/sysconfig/dhcpdを構成し、DHCPにより使用されることになるネットワークカードを指定する。
702において、/etc/dhcp.confを構成し、DHCPに対するネットワーク範囲を指定する。
DHCP構成は非常に重要であり、これが、PXE技術にしたがって、正しいブートが行われるか否かを決定する。例えば、192.168.0.2のような開始アドレスと、192.168.0.80のような終了アドレスと、255.255.255.0のようなサブネットマスクとで、DHCPに対するネットワーク範囲を指定する。
703において、TFTPサーバに対するIPアドレスを指定し、PXEスタートアップブートファイルのロケーションを指定する。
例えば、255.255.255.0のようなサブネットマスクと、192.168.0.1のようなゲートウェイとで、TFTPサーバに対するIPアドレス192.168.0.1を指定する。
この実施形態では、PXEスタートアップブートファイルの指定されたロケーションは、ディレクトリ/tftboot/の下に構成される。
704において、DHCPサービスを開始する。
上記の構成にしたがって、制御装置のシステムファイルが損傷されているとき、そのシステムブートが失敗した制御装置は、クライアントとして動作することになり、PXE技術を使用して、その動作が正常である制御装置から、必要なシステム修復パッケージを取得する。このときにおいて、その動作が正常である制御装置は、ネットワークブートのサーバとして動作する。
そのシステムブートが失敗した制御装置が、その動作が正常である制御装置のIPアドレスを取得した後に、そのシステムブートが失敗した制御装置は、スタートアップブートファイルpxelinux.0と、デフォルトの構成ファイルと、カーネルファイルbzImageと、初期RAMファイルシステムファイルinitramfsとを取得し、その動作が正常である制御装置からローカル制御装置に対して、FTPを介して、システム修復パッケージをダウンロードする。
ステップ202において、そのシステムブートが失敗した制御装置は、修復ファイルにしたがって、それ自体のシステムを修復する。
修復が成功した場合、システムがリブートされ;修復が成功しなかった場合、その動作が正常である制御装置から、アプリケーションがダウンロードされ、次に、実行のためにロードされる。
本発明の実施形態にしたがうと、そのシステムソフトウェアが損傷されている場合でさえも、制御装置のうちのいずれかのものが、ネットワークブートを通してブートされてもよいように、複数の制御装置の間のネットワーク接続に対して、ネットワークブート機能が追加される。次に、制御装置は、別の制御装置からシステムファイルをダウンロードし、修復される。この修復が成功しなかった場合でさえも、制御装置は別の制御装置からアプリケーションをダウンロードして、そのアプリケーションを実行する。このようにして、システムは、常に、複数の制御装置の下で動作し、このことは、システム信頼性を大いに向上させる。
図8は本発明の実施形態にしたがった、マルチ制御装置システムを修復する装置のブロック図を図示し、この装置は、少なくとも2つの制御装置(801、802)と、この少なくとも2つの制御装置に結合され、少なくとも2つの制御装置のうちの、そのシステムブートが失敗した制御装置に対するネットワークブートを開始するように構成されている、ネットワークブートユニット803とを具備する。
それぞれの制御装置は、検出ユニット804と、ローカルブートユニット805と、修復ファイルダウンロードユニット806と、修復ユニット807とを備える。
ローカルブートユニット805は、実行のためにアプリケーションをロードするために、制御装置に対するローカルシステムブートを開始するように構成されている。
検出ユニット804は、制御装置のローカルブートユニットが、そのシステムのブートを成功させたか否かを検出するように構成されており、成功しなかった場合、ネットワークブートユニット803を開始させるように構成されている。
修復ファイルダウンロードユニット806は、ネットワークブートユニットが開始されるときに、その動作が正常である制御装置からそのシステムブートが失敗した制御装置に対して修復ファイルをダウンロードするように構成されている。修復ユニット807は、修復ファイルダウンロードユニットによってダウンロードされた修復ファイルに基づいて、制御装置自体のシステムを修復するように構成されている。
ネットワーク接続を通して、複数の制御装置の間でネットワークブート機能を実現するために、以下のようにそれぞれの制御装置を構成する必要がある。
ネットワークスタートアップブートオプションをセットする。例えば、CMOSにおいて、ハードディスクを第1のスタートアップオプションとしてセットし、PEXイネーブルされたネットワークカードを第2のスタートアップオプションとしてセットする。
カーネルファイルとinitramfsファイルをコンパイルする。
TFTPサーバを構成し、例えば:TFTPディレクトリを構成し;TFTPディレクトリの下に、カーネルファイルとinitramfsファイルを構成し;TFTPディレクトリの下に、PXEスタートアップブートファイルを構成し;カーネルファイルとinitramfsファイルとしてOSブートファイルを指定し;TFTPサービスを開始する。
DHCPサーバを構成し、例えば:DHCPにより使用されることになるネットワークカードを指定し;DHCPに対するネットワーク範囲を指定し;TFTPサーバに対するIPアドレスを指定し、PXEスタートアップブートファイルのロケーションを指定し;DHCPサービスを開始する。
修復ファイルダウンロードユニット806において、クライアントとして動作する、そのシステムブートが失敗した制御装置は、(サーバとして動作する)その動作が正常である制御装置のIPアドレスを取得し、スタートアップブートファイルと、構成ファイルと、カーネルファイルと、initramfsファイルとを取得し、そのシステムブートが失敗した制御装置に対するサーバとして動作する制御装置から、FTPを介して、システム修復パッケージをダウンロードする。
本発明の実施形態にしたがった、マルチ制御装置システムを修復する装置にしたがって、実施形態1にしたがったマルチ制御装置システムを修復する方法が実行される。デュアル制御装置またはマルチプル制御装置の間にネットワークブートユニットが接続されている。そのシステムブートが失敗した制御装置は、ネットワークブートをイネーブルし、その動作が正常である制御装置から修復プログラムをダウンロードして、そして、それ自体のシステムを修復する。これは、制御システムが、常に複数の制御装置の下で確実に動作するようにし、このことは、システムバックアップとリカバリのための付加的な記憶媒体なしで、システム信頼性を大きく向上させ、費用節約につながる。
本発明の実施形態を、さまざまな制御システムに適用してもよく、ストレージシステムまたはオペレーションシステムのような制御デバイスに対して、システムリカバリを実行してもよい。
図9は、本発明の実施形態にしたがった、マルチ制御装置システムを修復する装置のブロック図を図示し、この装置は、少なくとも2つの制御装置(901、902)と、この少なくとも2つの制御装置に結合され、そのシステムブートが失敗した制御装置に対して、ネットワークブートを開始させるように構成されているネットワークブートユニット903とを具備する。
それぞれの制御装置は、検出ユニット904と、ローカルブートユニット905と、修復ファイルダウンロードユニット906と、修復ユニット907とを備える。
検出ユニット904は、制御装置のローカルブートユニットが、そのシステムのブートを成功させたか否かを検出するように構成されており、成功しなかった場合、ネットワークブートユニットを開始させるように構成されている。ローカルブートユニット905は、実行のためにアプリケーションをロードするために、制御装置によるローカルシステムブートを開始するように構成されている。修復ファイルダウンロードユニット906は、そのシステムブートが失敗した制御装置に対して、その動作が正常である制御装置から修復ファイルをダウンロードするように構成されている。修復ユニット907は、修復ファイルに基づいて、制御装置自体のシステムを修復するように構成されている。
修復ユニットは、決定モジュール9071と、リブートモジュール9072と、アプリケーションダウンロードモジュール9073とをさらに有する。
決定モジュール9071は、制御装置が、それ自体のシステムの修復を成功させたか否かを決定し、修復が成功した場合は、リブートモジュール9072を開始させ、修復が成功しなかった場合は、アプリケーションダウンロードモジュール9073を開始させるように構成されている。リブートモジュール9072は、システムをリブートするように構成されている。アプリケーションダウンロードモジュール9073は、その動作が正常である制御装置からアプリケーションをダウンロードし、実行のためにアプリケーションをロードするように構成されている。
本発明の実施形態にしたがうと、制御装置にシステムブート障害が生じたときに、ネットワークブートユニットがネットワークブートを開始する。修復ファイルダウンロードユニットは、そのシステムブートが失敗した制御装置に対して、その動作が正常である制御装置から修復ファイルをダウンロードする。修復ユニットは、そのシステムブートが失敗した制御装置中で、システム修復を実行する。修復ユニットにおいて、決定モジュールは、制御装置が、それ自体のシステムの修復を成功させたか否かを決定する。修復が成功した場合は、リブートモジュールが開始され、制御システムが正常な状態に入る。修復が成功しなかった場合は、アプリケーションダウンロードモジュールが開始され、その動作が正常である制御装置からアプリケーションをダウンロードし、実行のためにアプリケーションをロードする。このようにして、この実施形態にしたがったシステムは、常に複数の制御装置の下で動作し、このことはシステムの信頼性を大きく向上させる。
本発明の、他の多くの実施形態が可能である。本発明の実施形態の範囲内で、当業者は実施形態に対するさまざまな変更と修正を行ってもよい。本発明の実施形態を、異なる制御システムに適用してもよい。これらの変更と修正は、添付の特許請求の範囲の範囲内のものである。

Claims (7)

  1. マルチ制御装置システムを修復する方法において、
    そのシステムブートが失敗した制御装置によって、ネットワークブートを開始して、その動作が正常である制御装置から修復ファイルをダウンロードすることと、
    前記そのシステムブートが失敗した制御装置によって、前記修復ファイルに基づいて、それ自体のシステムを修復することと
    を含む、マルチ制御装置システムを修復する方法。
  2. 前記そのシステムブートが失敗した制御装置は、それ自体のシステムを修復し、前記修復が成功した場合、前記システムがリブートされ、前記修復が成功しなかった場合、前記その動作が正常である制御装置からアプリケーションがダウンロードされ、実行のためにロードされる、請求項1記載のマルチ制御装置システムを修復する方法。
  3. 前記そのシステムブートが失敗した制御装置がネットワークブートを開始することに関連して、以下のステップをさらに含み、
    前記ステップは、
    カーネルファイルと、初期RAMファイルシステム(initramfs)ファイルとをコンパイルすることと、
    プレブート実行環境(PXE)にしたがって、簡易ファイル転送プロトコル(TFTP)サーバと、動的ホスト構成プロトコル(DHCP)サーバとを、それぞれ構成することと、
    ネットワークブートスタートアップオプションをセットすることと
    を含む、請求項1記載のマルチ制御装置システムを修復する方法。
  4. 前記PXEにしたがって、前記TFTPサーバを構成することは、
    TFTPディレクトリをセットすることと、
    前記TFTPディレクトリの下に、前記カーネルファイルと前記initramfsファイルとを構成することと、
    前記TFTPディレクトリの下に、PXEスタートアップブートファイルを構成することと、
    前記カーネルファイルと前記initramfsファイルとして、オペレーティングシステム(OS)ブートファイルを指定することと、
    TFTPサービスを開始させることと
    を含む、請求項3記載のマルチ制御装置システムを修復する方法。
  5. 前記PXEにしたがって、前記DHCPサーバを構成することは、
    DHCPにより使用されることになる、ネットワークカードとネットワーク範囲とを指定することと、
    TFTPに対するサーバIPアドレスを指定することと、
    PXEスタートアップブートファイルのロケーションを指定することと、
    DHCPサービスを開始させることと
    を含む、請求項3記載のマルチ制御装置システムを修復する方法。
  6. マルチ制御装置システムを修復する装置において、
    少なくとも2つの制御装置と、
    前記少なくとも2つの制御装置に結合されており、前記少なくとも2つの制御装置のうちのそのシステムブートが失敗した制御装置に対して、ネットワークブートを開始させるように構成されているネットワークブートユニットと
    を具備し、
    それぞれの制御装置は、検出ユニットと、ローカルブートユニットと、修復ファイルダウンロードユニットと、修復ユニットとを備え、
    前記ローカルブートユニットは、実行のためにアプリケーションをロードするために、前記制御装置に対するローカルシステムブートを開始するように構成されており、
    前記検出ユニットは、前記制御装置のローカルブートユニットが、前記システムブートを成功させたか否かを検出するように構成されており、成功しなかった場合、前記ネットワークブートユニットを開始させるように構成されており、
    前記修復ファイルダウンロードユニットは、前記ネットワークブートユニットが開始されるときに、前記そのシステムブートが失敗した制御装置に対して、その動作が正常である制御装置から修復ファイルをダウンロードするように構成されており、
    前記修復ユニットは、前記修復ファイルダウンロードユニットによってダウンロードされた前記修復ファイルに基づいて、制御装置自体のシステムを修復するように構成されている、マルチ制御装置システムを修復する装置。
  7. 前記修復ユニットは、決定モジュールと、リブートモジュールと、アプリケーションダウンロードモジュールをさらに有し、
    前記決定モジュールは、前記制御装置がそれ自体のシステムの修復を成功させたか否かを決定し、前記修復が成功した場合は、前記リブートモジュールを開始させ、前記修復が成功しなかった場合は、前記アプリケーションダウンロードモジュールを開始させるように構成されており、
    前記リブートモジュールは、前記システムをリブートするように構成されており、
    前記アプリケーションダウンロードモジュールは、その動作が正常である制御装置からアプリケーションをダウンロードし、実行のために前記アプリケーションをロードするように構成されている、請求項6記載のマルチ制御装置システムを修復する装置。
JP2009026213A 2008-02-22 2009-02-06 マルチ制御装置システムを修復する方法と装置 Pending JP2009266205A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008100072771A CN101232397B (zh) 2008-02-22 2008-02-22 多控制器系统修复的方法和装置

Publications (1)

Publication Number Publication Date
JP2009266205A true JP2009266205A (ja) 2009-11-12

Family

ID=39898591

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009026213A Pending JP2009266205A (ja) 2008-02-22 2009-02-06 マルチ制御装置システムを修復する方法と装置

Country Status (3)

Country Link
US (1) US20090217079A1 (ja)
JP (1) JP2009266205A (ja)
CN (1) CN101232397B (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013529820A (ja) * 2010-06-29 2013-07-22 ゼットティーイー コーポレイション 破損ファイルシステムの自己救済方法及び自己救済装置
JP2018025925A (ja) * 2016-08-09 2018-02-15 シャープ株式会社 電子回路システム及び制御装置の起動方法

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2020776A1 (en) * 2007-07-30 2009-02-04 Nederlandse Organisatie voor toegepast- natuurwetenschappelijk onderzoek TNO Restarting networks
JP2011053775A (ja) * 2009-08-31 2011-03-17 Ricoh Co Ltd 印刷システム、起動プログラム自動復旧方法、及び自動復旧制御プログラム
US9189345B1 (en) * 2013-09-25 2015-11-17 Emc Corporation Method to perform instant restore of physical machines
CN103605536B (zh) * 2013-11-06 2017-04-26 华为技术有限公司 一种嵌入式操作系统的启动方法、装置及基板管理控制器
CN103731301A (zh) * 2013-12-06 2014-04-16 南京智达康无线通信科技股份有限公司 远程网络系统双备份实现方法
CN106126303B (zh) * 2016-07-01 2019-09-17 合一信息技术(北京)有限公司 Linux操作系统的安装方法、装置及系统
CN106209445B (zh) * 2016-07-05 2019-08-06 天津卓朗科技发展有限公司 一种通过网络部署的虚拟化数据中心
CN106445580B (zh) * 2016-08-27 2020-09-04 浪潮(北京)电子信息产业有限公司 一种带外升级bmc的方法及装置
CN106502629B (zh) * 2016-09-28 2019-08-27 苏州迈科网络安全技术股份有限公司 基于openwrt编译环境的initramfs固件编译方法及系统
CN106648973A (zh) * 2016-11-18 2017-05-10 济南中维世纪科技有限公司 一种nvr软件伙伴修复方法、系统
CN106776128B (zh) * 2016-11-29 2020-04-21 邦彦技术股份有限公司 一种保障Linux操作系统正常启动的方法
US10922150B2 (en) * 2017-11-03 2021-02-16 Dell Products L.P. Deep hardware access and policy engine
US10564218B2 (en) * 2017-11-03 2020-02-18 Dell Products L.P. Systems and methods for debugging access
CN111124749A (zh) * 2019-09-06 2020-05-08 无锡江南计算技术研究所 紧耦合高性能计算机系统bmc系统自动修复方法及修复系统
CN110928726A (zh) * 2019-10-08 2020-03-27 众通乐行网络科技(深圳)有限公司 一种基于看门狗及pxe的嵌入式系统自恢复方法及系统
CN112825054B (zh) * 2019-11-21 2023-09-05 杭州海康威视数字技术股份有限公司 一种数据处理方法及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6272629B1 (en) * 1998-12-29 2001-08-07 Intel Corporation Method and apparatus for establishing network connection for a processor without an operating system boot
JP2006127169A (ja) * 2004-10-29 2006-05-18 Hitachi Ltd ネットワークブート方法、ネットワークブートシステムおよびネットワークブートプログラム
JP2006185095A (ja) * 2004-12-27 2006-07-13 Nec Corp サーバ選択方法およびサーバ選択方式およびサーバおよびクライアント端末
JP2007183918A (ja) * 2005-12-29 2007-07-19 Internatl Business Mach Corp <Ibm> 装置、システム、信号担持媒体、方法(高可用性ネットワーク・ブート・サービスを自律的に保つ装置、システム、および方法)
WO2007122666A1 (ja) * 2006-03-24 2007-11-01 Fujitsu Limited フォルトトレラントシステム

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5732268A (en) * 1996-02-26 1998-03-24 Award Software International Extended BIOS adapted to establish remote communication for diagnostics and repair
US5978912A (en) * 1997-03-20 1999-11-02 Phoenix Technologies Limited Network enhanced BIOS enabling remote management of a computer without a functioning operating system
US6223284B1 (en) * 1998-04-30 2001-04-24 Compaq Computer Corporation Method and apparatus for remote ROM flashing and security management for a computer system
US6401218B1 (en) * 1999-02-16 2002-06-04 International Business Machines Corporation Method and system for functional kernel verification testing within a data processing system
US6757837B1 (en) * 1999-10-19 2004-06-29 Tivo, Inc. Method and apparatus for software failure diagnosis and repair
US6763456B1 (en) * 2000-02-25 2004-07-13 Intel Corporation Self correcting server with automatic error handling
US7149888B1 (en) * 2000-09-29 2006-12-12 Intel Corporation Method and apparatus for booting the operating environment of an autonomous subsystem in a computer based system without involvement of the main operating system
US20040168164A1 (en) * 2000-11-06 2004-08-26 Oleksiy Shevchenko Method and system for repair servicing of computers
US6973587B1 (en) * 2002-05-03 2005-12-06 American Megatrends, Inc. Systems and methods for out-of-band booting of a computer
US7219343B2 (en) * 2003-04-10 2007-05-15 International Business Machines Corporation Firmware update mechanism in a multi-node data processing system
US20050132360A1 (en) * 2003-12-11 2005-06-16 Chu Simon C. Network boot sequence in the absence of a DHCP server
CN100390736C (zh) * 2004-04-23 2008-05-28 广达电脑股份有限公司 远端部署多部计算机的方法与系统
US7308570B2 (en) * 2004-10-20 2007-12-11 Digi International Inc. System and method for booting embedded systems using removable storage
US7577832B2 (en) * 2004-12-14 2009-08-18 Hewlett-Packard Development Company, L.P. Apparatus and method for booting a system
US7424745B2 (en) * 2005-02-14 2008-09-09 Lenovo (Singapore) Pte. Ltd. Anti-virus fix for intermittently connected client computers
US7437545B2 (en) * 2005-07-19 2008-10-14 International Business Machines Corporation Apparatus and system for the autonomic configuration of a storage device
KR100750132B1 (ko) * 2005-09-27 2007-08-21 삼성전자주식회사 부팅, 소프트웨어 자동 업데이트 및 에러 복원 방법과 그시스템, 그 방법을 기록한 컴퓨터 판독 가능한 기록매체
US7650490B2 (en) * 2005-12-30 2010-01-19 Augmentix Corporation Embedded device for implementing a boot process on a host
US8713551B2 (en) * 2006-01-03 2014-04-29 International Business Machines Corporation Apparatus, system, and method for non-interruptively updating firmware on a redundant hardware controller
CN100403271C (zh) * 2006-08-23 2008-07-16 华为技术有限公司 备份及恢复数据的方法
US7849350B2 (en) * 2006-09-28 2010-12-07 Emc Corporation Responding to a storage processor failure with continued write caching
US7840846B2 (en) * 2006-10-30 2010-11-23 International Business Machines Corporation Point of sale system boot failure detection
US7761735B2 (en) * 2007-04-13 2010-07-20 International Business Machines Corporation Automated firmware restoration to a peer programmable hardware device
US8065510B2 (en) * 2007-07-30 2011-11-22 Hewlet-Packard Development Company, L.P. System and methods of retrieving firmware between network locations
CA2699514A1 (en) * 2007-09-14 2009-03-19 Softkvm, Llc Software method and system for controlling and observing computer networking devices

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6272629B1 (en) * 1998-12-29 2001-08-07 Intel Corporation Method and apparatus for establishing network connection for a processor without an operating system boot
JP2006127169A (ja) * 2004-10-29 2006-05-18 Hitachi Ltd ネットワークブート方法、ネットワークブートシステムおよびネットワークブートプログラム
JP2006185095A (ja) * 2004-12-27 2006-07-13 Nec Corp サーバ選択方法およびサーバ選択方式およびサーバおよびクライアント端末
JP2007183918A (ja) * 2005-12-29 2007-07-19 Internatl Business Mach Corp <Ibm> 装置、システム、信号担持媒体、方法(高可用性ネットワーク・ブート・サービスを自律的に保つ装置、システム、および方法)
WO2007122666A1 (ja) * 2006-03-24 2007-11-01 Fujitsu Limited フォルトトレラントシステム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013529820A (ja) * 2010-06-29 2013-07-22 ゼットティーイー コーポレイション 破損ファイルシステムの自己救済方法及び自己救済装置
US9223657B2 (en) 2010-06-29 2015-12-29 Zte Corporation Self-rescue method and device for damaged file system
JP2018025925A (ja) * 2016-08-09 2018-02-15 シャープ株式会社 電子回路システム及び制御装置の起動方法

Also Published As

Publication number Publication date
CN101232397A (zh) 2008-07-30
US20090217079A1 (en) 2009-08-27
CN101232397B (zh) 2010-10-27

Similar Documents

Publication Publication Date Title
JP2009266205A (ja) マルチ制御装置システムを修復する方法と装置
US7484084B1 (en) Use of a baseboard management controller to facilitate installation of firmware in a processing system
US20170228228A1 (en) Remote launch of deploy utility
US9086892B2 (en) Direct migration of software images with streaming technique
US9003000B2 (en) System and method for operating system installation on a diskless computing platform
US9182998B2 (en) Remote bios update in system having multiple computers
US8060542B2 (en) Template-based development of servers
US8407458B2 (en) Embedded device for implementing a boot process on a host
US8010513B2 (en) Use of server instances and processing elements to define a server
US7159106B2 (en) Information handling system manufacture method and system
US20060173912A1 (en) Automated deployment of operating system and data space to a server
US20090282142A1 (en) Boot controlling method of managed computer
FR2772947A1 (fr) Systeme pour la reprise apres incident dans un ordinateur utilisant un support amovible a haute capacite
US9152492B2 (en) Performing recovery of a headless computer
US7234053B1 (en) Methods for expansive netboot
US20090254641A1 (en) Network card capable of remote boot and method thereof
JP6750605B2 (ja) 計算機システム、ベースボード管理コントローラ、osインストール方法、及びプログラム
US9058231B2 (en) Deployment of operating systems with detection of loop conditions
JP2008511910A (ja) ブート・ディスク管理のユティリティ
US20130024726A1 (en) System and method for removable network attached storage enabling system recovery from backup
US20200349009A1 (en) Information Handling System And Method To Restore System Firmware To A Selected Restore Point
JP2003099146A (ja) 計算機システムの起動制御方式
US8850174B1 (en) Method for dedicated netboot
JP6950442B2 (ja) バックアップ方法、バックアップシステム、およびバックアップ装置
US20220374244A1 (en) Systems and methods to control software version when deploying os application software from the boot firmware

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20090825

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20100909

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120329

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120515

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120810

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120828