JP3891004B2 - 情報処理システム及び該システムの制御方法並びにプログラム - Google Patents

情報処理システム及び該システムの制御方法並びにプログラム Download PDF

Info

Publication number
JP3891004B2
JP3891004B2 JP2002050150A JP2002050150A JP3891004B2 JP 3891004 B2 JP3891004 B2 JP 3891004B2 JP 2002050150 A JP2002050150 A JP 2002050150A JP 2002050150 A JP2002050150 A JP 2002050150A JP 3891004 B2 JP3891004 B2 JP 3891004B2
Authority
JP
Japan
Prior art keywords
unit part
information processing
information
memory
replacement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002050150A
Other languages
English (en)
Other versions
JP2003256396A (ja
Inventor
茂雄 山崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2002050150A priority Critical patent/JP3891004B2/ja
Priority to EP03003225A priority patent/EP1341085A2/en
Priority to US10/372,302 priority patent/US7007192B2/en
Publication of JP2003256396A publication Critical patent/JP2003256396A/ja
Application granted granted Critical
Publication of JP3891004B2 publication Critical patent/JP3891004B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2043Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant where the redundant components share a common memory address space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/1658Data re-synchronization of a redundant component, or initial sync of replacement, additional or spare unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2025Failover techniques using centralised failover control functionality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2028Failover techniques eliminating a faulty processor or activating a spare
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2046Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant where the redundant components share persistent storage

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Stored Programmes (AREA)
  • Hardware Redundancy (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、情報処理システム及び該システムの制御方法並びにプログラムに関し、特に、複数のプロセッサ(以下、CPU)と、それらのCPUに対して独立に動作してそれらのCPUの構成に関する情報を保持するサービス装置とが接続されてなる情報処理システム及び該システムの制御方法並びにプログラムに関する。
【0002】
【従来の技術】
ネットワークに接続された情報処理システムは、少なくともそのネットワークの稼働時間帯には電源を常時ONにされていることが多い。情報処理システムは、こうした電源ONである状態を一定期間維持する用途で使用される際には、信頼性を高めるための保守管理などによりCPUを交換する場合であっても、いわゆる活線挿抜、すなわちOSをシャットダウンさせることなく動的にCPUの交換が可能であることが望ましい。
【0003】
こうした動的なCPUの交換を可能にする一つの方法として、OSを含めたソフトウェア全体を動的なCPU交換に対応するように設計する方法がある。以下に、このOSなどの設計による従来の動的CPU交換方法について、交換可能に作成されたCPUを含む単位部品が、CPUとメモリとメモリコントローラ(Main Memory Controller;以下、MMC)とを実装したボード(以下、セルボード)である場合について説明する。図10は、上記のセルボードを交換可能な単位部品とする従来の情報処理システムの構成例を示すブロック図である。図11は、図10に示す従来の情報処理システムにおける動的なCPU交換方法について示すフローチャートである。
【0004】
図10に示す従来の情報処理システムは、情報処理装置Pとサービス装置Rとを具備し、その情報処理装置Pとサービス装置Rとが互いに接続されて構成される。情報処理装置Pは、セルボード1(1a,1b,1a’)と、コネクタ2(2a,2b,2c)と、記憶部と、内部バスとを具備する。このセルボード1a’は、交換用のセルボードである。セルボード1はコネクタ2を介して内部バスに接続され、記憶部に格納されたOS(P3)により動作する。このOS(P3)は、動的なCPU交換を行う機能を有するように設計されたOSであり、一般にそのハードウェア(情報処理装置P)の専用として設計される。セルボード1(1a,1b)とコネクタ2(2a,2b)と、記憶部と、内部バスとは、上記のOS(P3)により動作するパーティションを構成する。セルボード1は、CPU11、12と、メモリ13と、MMC15とを有して構成される。以上の構成により情報処理装置Pは、一般的な分散共有メモリによるSMP(Symmetric Multiprocessing ;対称型マルチプロセッシング)として動作する。すなわち、セルボードの各MMCにより、CPUはそのパーティション全体として構成されるメモリ空間を用いて動作する。
【0005】
この従来の情報処理システムにおける動的なCPU交換方法について、図11を参照して説明する。まずサービス装置Rは、セルボード1a,1b,1a’の各MMCに、セルボード1aのメモリ13aに格納されたデータを交換用セルボード1a’のメモリ13a’にコピーするよう指示する(ステップP11)。セルボード1a,1b,1a’の各MMCは指示を受けてメモリ13のデータコピーを開始し、完了後にサービス装置Rに通知する(ステップP12)。サービス装置Rは、通知を受けるとパーティションP1のOS(P3)にセルボード1a内のCPU11a,12aを切り離すよう指示する(ステップP13)。
【0006】
パーティションP1のOS(P3)は、セルボード1a内のCPU11a,12aで実行中である処理のプロセスをセルボード1b内のCPUに再スケジューリングし、セルボード1a内のCPU11a,12aをこのOSから切り離す。すなわち、CPUでの処理が縮退された状態とする。この切り離し後、パーティションP1のOS(P3)は、サービス装置Rに切り離しの完了を通知する(ステップP14)。サービス装置Rは、その通知を受けてセルボード1a,1b,1a’の各MMCにメモリコピーの停止を指示する(ステップP15)。セルボード1a,1b,1a’の各MMCは指示によりメモリコピーを停止し、停止完了の旨をサービス装置Rに通知する(ステップP16)。サービス装置Rは、パーティションP1のOS(P3)にセルボード1a’内のCPU11a’,12a’を組み込むよう指示する(ステップP17)。パーティションP1のOSはセルボード1a’内のCPU11a’,12a’を組み込み、縮退状態を解除した後、サービス装置Rに組み込み完了の旨を通知する(ステップP18)。その通知を受けてサービス装置Rは、セルボード1aの切り離しとセルボード1a’の組み込みとが完了した旨をオペレータに通知する(ステップP19)。
【0007】
【発明が解決しようとする課題】
上記した従来の情報処理システムにおける動的なCPU交換方法は、上述したようにOSの機能により交換可能な単位部品の切り離しや組み込みを行うため、OSなどのソフトウェアが動的なCPU交換の機能を有するように設計されたものである必要がある。そのため、上記した従来の動的CPU交換方法は、OSなどのソフトウェアを特定のハードウェアと一体として開発するメインフレームなどで用いられることがあるが、交換しようとするCPUで実行中のプロセスを他のCPUで実行させるための処理や再スケジューリングなど複雑な機能をOSに持たせる必要があり、ソフトウェアの設計における負荷を増加させてしまうものでもあった。
【0008】
また、上記した従来の動的CPU交換方法を、ハードウェアの製造元と異なる製造元のソフトウェアを組み合わせるオープン・システム(オープン・サーバなど)に用いようとする場合には、組み合わせる汎用のソフトウェアを動的なCPU交換に対応したものから選択する必要があり、選択の幅を狭めてしまうこととなる。市販のOSで動的なCPU交換に対応したものは極めて少なく、オープン・システムが多様な用途に使用される現状を考慮すると、上記した従来の動的CPU交換方法をオープン・システムに対して用いることは困難であるといえる。
【0009】
本発明はこのような状況に鑑みてなされたものであり、動的なCPU交換のための機能を持たないOSを情報処理装置に使用しても、そのOSをシャットダウンすることなく、動的にCPUを交換可能である情報処理システム及び該システムの制御方法並びにプログラムを提供することを目的とする。
【0010】
また本発明は、交換可能に作成された単位部品がCPUとメモリとを実装したセルボードであり、動的なセルボード交換のための機能を持たないOSを用いて情報処理装置が動作していても、そのOSをシャットダウンすることなく、そのセルボードを動的に交換可能である情報処理システム及び該システムの制御方法並びにプログラムを提供することを目的とする。
【0011】
【課題を解決するための手段】
かかる目的を達成するために、本発明は以下の特徴を有する。
請求項1記載の発明は、レジスタに情報を格納するプロセッサとメモリとを少なくとも有してなる単位部品と記憶手段とを具備して記憶手段に格納されたOSにより動作する情報処理装置と、情報処理装置に対して独立に動作するサービス装置とを備え、情報処理装置とサービス装置とが互いに接続されてなる情報処理システムであって、サービス装置は、単位部品と交換可能な交換用単位部品が当該情報処理装置に接続されているか否かを検知する検知手段と、検知手段により上記接続されていることが検知された後で、単位部品内部のメモリおよび交換用単位部品内部のメモリの両方に対して同様に書き込み処理を行いながら、情報処理装置にプロセッサのOSによる処理を中断させる制御と、単位部品に格納された情報を交換用単位部品にコピーさせる制御と、単位部品に替えて交換用単位部品がOSにより動作可能であるように単位部品と交換用単位部品とに関する情報を変更する制御と、単位部品に替えて交換用単位部品を用いてOSによる処理を情報処理装置に再開させる制御とを行う制御手段と、を具備したことを特徴とする。
【0012】
請求項2記載の発明は、レジスタに情報を格納するプロセッサとメモリとMMCとを有してなる単位部品と記憶手段とを具備して記憶手段に格納されたOSにより動作する情報処理装置と、情報処理装置に対して独立に動作するサービス装置とを備え、情報処理装置とサービス装置とが互いに接続されてなる情報処理システムであって、サービス装置は、単位部品と交換可能な交換用単位部品が当該情報処理装置に接続されているか否かを検知する検知手段と、検知手段により上記接続されていることが検知された後で、単位部品内部のメモリおよび交換用単位部品内部のメモリの両方に対してMMCにより同様の書き込み処理を行いながら、情報処理装置にプロセッサのOSによる処理を中断させる制御と、単位部品に格納された情報を交換用単位部品にコピーさせる制御と、単位部品に替えて交換用単位部品がOSにより動作可能であるように単位部品と交換用単位部品とに関する情報を変更する制御と、単位部品に替えて交換用単位部品を用いてOSによる処理を情報処理装置に再開させる制御とを行う制御手段と、を具備したことを特徴とする。
【0013】
請求項3記載の発明は、レジスタに情報を格納するプロセッサとメモリとMMCとを有してなる単位部品と記憶手段とを具備してBIOSと記憶手段に格納されたOSとにより動作する情報処理装置と、情報処理装置に対して独立に動作するサービス装置とを備え、情報処理装置とサービス装置とが互いに接続されてなる情報処理システムであって、サービス装置は、単位部品と交換可能な交換用単位部品が当該情報処理装置に接続されているか否かを検知する検知手段と、検知手段により上記接続されていることが検知された後で、単位部品内部のメモリおよび交換用単位部品内部のメモリの両方に対してMMCにより同様の書き込み処理を行いながら、BIOSに情報処理装置のプロセッサのOSによる処理を中断させる制御と、単位部品に格納された情報を交換用単位部品にコピーさせる制御と、単位部品に替えて交換用単位部品がOSにより動作可能であるように単位部品と交換用単位部品とに関する情報を変更する制御と、単位部品に替えて交換用単位部品を用いてOSによる処理をBIOSに再開させる制御とを行う制御手段と、を具備したことを特徴とする。
【0014】
請求項4記載の発明は、上記した制御手段による変更が、単位部品に替えて交換用単位部品がOSにより動作可能であるように単位部品を識別する情報と交換用単位部品を識別する情報とをスワップし、単位部品に替えて交換用単位部品で動作可能であるようにMMCを再設定することであるように構成されたことを特徴とする。
【0015】
請求項5記載の発明は、上記の情報処理装置が、単位部品と交換可能な交換用単位部品を当該情報処理装置に接続可能とさせるよう構成された交換用接続手段を具備し、上記した検知手段が、交換用接続手段に交換用単位部品が接続されているか否かを検知するように構成されたことを特徴とする。
【0016】
請求項6記載の発明は、レジスタに情報を格納するプロセッサとメモリとを少なくとも有してなる単位部品と記憶手段とを具備して記憶手段に格納されたOSにより動作する情報処理装置と、情報処理装置に対して独立に動作するサービス装置とを備え、情報処理装置とサービス装置とが互いに接続されてなる情報処理システムの制御方法であって、単位部品と交換可能な交換用単位部品が情報処理装置に接続されているか否かをサービス装置が検知する検知工程と、単位部品のメモリへの書き込み情報と同一の情報を交換用単位部品のメモリにも書き込ませる双方書き込み工程と、サービス装置が情報処理装置に、単位部品に格納された情報を交換用単位部品にコピーさせるコピー工程と、サービス装置が情報処理装置にプロセッサのOSによる処理を中断させる中断工程と、単位部品に替えて交換用単位部品がOSにより動作可能であるように単位部品と交換用単位部品とに関する情報を変更する変更工程と、単位部品に替えて交換用単位部品を用いてOSによる処理を情報処理装置に再開させる再開工程と、を有し、コピー工程を、検知工程の後、再開工程の前に行い、双方書き込み工程を、コピー工程と、中断工程と、変更工程との間に渡って行うことを特徴とする。
【0017】
請求項7記載の発明は、レジスタに情報を格納するプロセッサとメモリとMMCとを有してなる単位部品と記憶手段とを具備して記憶手段に格納されたOSにより動作する情報処理装置と、情報処理装置に対して独立に動作するサービス装置とを備え、情報処理装置とサービス装置とが互いに接続されてなる情報処理システムの制御方法であって、単位部品と交換可能な交換用単位部品が情報処理装置に接続されているか否かをサービス装置が検知する検知工程と、単位部品のメモリへの書き込み情報と同一の情報を交換用単位部品のメモリにも書き込ませる双方書き込み工程と、単位部品のメモリに格納された情報を交換用単位部品のメモリにコピーさせるメモリコピー工程と、情報処理装置にプロセッサのOSによる処理を中断させる中断工程と、単位部品に格納された情報を交換用単位部品にコピーさせるコピー工程と、単位部品に替えて交換用単位部品がOSにより動作可能であるように単位部品に関する情報と交換用単位部品に関する情報とを変更する変更工程と、単位部品に替えて交換用単位部品を用いてOSによる処理を情報処理装置に再開させる再開工程と、を有し、双方書き込み工程を、検知工程の後、再開工程の前に、メモリコピー工程と、中断工程と、コピー工程と、変更工程との間に渡って行うことを特徴とする。
【0018】
請求項8記載の発明は、レジスタに情報を格納するプロセッサとメモリとを少なくとも有してなる単位部品と記憶手段とを具備してBIOSと記憶手段に格納されたOSとにより動作する情報処理装置と、制御プログラムにより情報処理装置に対して独立に動作するサービス装置とを備え、情報処理装置とサービス装置とが互いに接続されてなる情報処理システムの制御プログラムとBIOSとからなるプログラムであって、サービス装置に、単位部品と交換可能な交換用単位部品が情報処理装置に接続されているか否かを検知する検知処理を実行させ、情報処理装置に、単位部品のメモリへの書き込み情報と同一の情報を交換用単位部品のメモリにも書き込ませる双方書き込み処理と、単位部品に格納された情報を交換用単位部品にコピーさせるコピー処理と、プロセッサのOSによる処理を中断させる中断処理と、を実行させ、サービス装置に、単位部品に替えて交換用単位部品がOSにより動作可能であるように単位部品と交換用単位部品とに関する情報を変更する変更処理を実行させ、情報処理装置に、単位部品に替えて交換用単位部品を用いてOSによる処理を情報処理装置に再開させる再開処理を実行させ、コピー処理を、検知処理の後、再開処理の前に行い、双方書き込み処理を、コピー処理と、中断処理と、変更処理との間に渡って行うことを特徴とする。
【0019】
請求項9記載の発明は、レジスタに情報を格納するプロセッサとメモリとMMCとを有してなる単位部品と記憶手段とを具備してBIOSと記憶手段に格納されたOSとにより動作する情報処理装置と、制御プログラムにより情報処理装置に対して独立に動作するサービス装置とを備え、情報処理装置とサービス装置とが互いに接続されてなる情報処理システムの制御プログラムとBIOSとからなるプログラムであって、サービス装置に、単位部品と交換可能な交換用単位部品が情報処理装置に接続されているか否かを検知する検知処理を実行させ、情報処理装置に、単位部品のメモリへの書き込み情報と同一の情報を交換用単位部品のメモリにも書き込ませる双方書き込み処理と、単位部品のメモリに格納された情報を交換用単位部品のメモリにコピーさせるメモリコピー処理と、情報処理装置にプロセッサのOSによる処理を中断させる中断処理と、単位部品に格納された情報を交換用単位部品にコピーさせるコピー処理と、を実行させ、サービス装置に、単位部品に替えて交換用単位部品がOSにより動作可能であるように単位部品に関する情報と交換用単位部品に関する情報とを変更する変更処理を実行させ、情報処理装置に、単位部品に替えて交換用単位部品を用いてOSによる処理を情報処理装置に再開させる再開処理を実行させ、双方書き込み処理を、検知処理の後、再開処理の前に、メモリコピー処理と、中断処理と、コピー処理と、変更処理との間に渡って行うことを特徴とする。
【0020】
上記した一連の技術的手段によれば、情報処理装置で稼働するOSの機能とは無関係に、そのOSの動作をシャットダウンすることなく、単位部品をそのOSから切り離したり、替わりに組み込んだりすることができる。この単位部品はCPUであっても、CPUとメモリとMMCとを具備したセルボードであってもよい。また、CPUと、レジスタやメモリなどの情報を格納する部分を含まない部品とを具備したボードであってもよい。
【0021】
【発明の実施の形態】
次に、本発明に係る情報処理システム及び該システムの制御方法並びにプログラムを図面を用いて詳細に説明する。図1から図6は、本発明の第1の実施形態としての情報処理システムの構成について例示している。図7は、その情報処理システムにおける交換可能な単位部品(セルボード)を動的に交換する際の動作について示している。図8、図9は本発明の第2の実施形態としての情報処理システムの構成と動作とについて例示している。
【0022】
本発明の第1の実施形態としての情報処理システムは、交換可能に作成された単位部品がセルボードとなっているものである。この本実施形態の情報処理システムは、図1に示すように、情報処理装置Aとサービス装置Bとを備え、情報処理装置Aとサービス装置Bとが互いに接続されて構成される。情報処理装置Aは、1つのOSにより動作する構成単位であるパーティションと、交換用のセルボードを装着(装入)するためのコネクタ2cとを具備してなる。交換用セルボード1a’は図1に示すように予めコネクタ2cに装着されていてもよく、図2に示すように交換の際以外には装着されていなくてもよい。パーティションは1つまたは複数であってよく、本実施形態ではパーティションA1として示す。なお、パーティションが複数ある場合には、上記のようにそれぞれのパーティションがそのパーティションのOSで動作し、情報処理システムとしては複数のOSが稼働するクラスタシステムを構築することとなるため、各パーティションが1つの情報処理装置として機能するとみなしてよい。
【0023】
本実施形態のパーティションA1は、セルボード1(1a,1b)と、コネクタ2(2a,2b)と、記憶部3と、操作表示部4と、内部バス5とを具備してなる。セルボード1(1a,1b)は、コネクタ2(2a,2b)に装着(装入)されることによりそのコネクタを介して内部バス5に接続され、セルボード1に実装されたCPU11,12が内部バス5と接続されることとなる。記憶部3と操作表示部4とはともに内部バス5に接続される。
【0024】
セルボード1(1a,1b)のそれぞれは、ふたつのCPU11,12と、メモリ13と、MMC15とを具備し、各セルボード内のそれぞれが内部バスで接続されたCPU/メモリコンプレックスであり、物理的に1枚のボードに実装されている。
【0025】
本実施形態の情報処理装置Aは、通常の運用においては、セルボード1(1a,1b)と、コネクタ2(2a,2b)と、記憶部3と、操作表示部4とで上記したひとつのパーテーションA1を構成し、そのパーティション内で唯一のOSが稼働する対称形マルチプロセッサシステム(SMP)であり、パーティションA1内の各CPUが対等に処理を分担する。またメモリ13はパーティション内のセルボード1(1a,1b)に物理的に分散して配置され、分散共有メモリ形となっている。セルボード1(1a,1b)のCPU11,12は、自身が実装されているセルボード内のメモリと他のセルボードに実装されているメモリとを、まったく区別することなくアクセスすることが可能である。すなわち、パーティション内の各MMC15が連携して動作することにより、そのパーティション全体としての論理的メモリ空間を構成することが可能となる。
【0026】
このMMC15は、セルボード内のバスにおける情報の流れやCPUの動作を制御する機能を有するとともに、1つのセルボード内のメモリ13に格納されている情報を他のメモリにコピーするメモリコピー機能を有する。このメモリコピー機能などを有するMMCを実現するための技術的手段には、例えば特開2000−222375号公報や特開2001−147861号公報に開示されている技術を使用してもよい。
【0027】
また、MMC15は、各MMCが連携して上記の分散共有メモリとしてメモリ空間を制御するため、パーティションA全体として情報のやりとりの順番が狂わないように動作する必要がある。すなわち、パーティション内の各MMCそれぞれにおける処理の順番がパーティション全体として統一的に処理される必要がある。そこで、情報処理装置Aの起動時にサービス装置Bからの信号によりパーティションA内のMMCのうち1つをマスタMMCとして定め、そのマスタMMCがそのパーティションA内の他のMMC(スレーブMMC)を制御する構成となっている。このマスタMMCとスレーブMMCとはハードウェアとしては同一のものであってよく、情報処理装置Aの起動時におけるサービス装置Bからの信号によって設定される。
【0028】
上記のセルボード1と内部バス5との接続は、CPU間の論理的な接続としては図1に示すようにMMC15を介したものとなる。なお、セルボード1と内部バス5との接続はこの接続に限定されず、例えばclock系の接続(不図示)などもあってよい。このMMC15を介した前記接続により、各セルボード内のCPUは他のセルボード内のメモリにアクセスしたり、記憶部3や操作表示部4と通信することが可能となっている。
【0029】
交換用セルボード1a’は、セルボード(単位部品)1aに対する交換用の単位部品である。情報処理装置Aは、この交換用セルボード1a’を装着するためのコネクタ2c(交換用接続手段)を有する。交換用セルボード1a’は、上記のようにコネクタ2cに予め装着されて通常運用時には使用されないこととされてもよく、上記した図2に示すように、情報処理装置Aでセルボードの動的交換の処理を行う際(交換の必要が生じた際)にのみ装着されてもよい。交換用セルボード1a’はコネクタ2cに装着(装入)されることにより、そのコネクタ2cを介して内部バス5に接続される。
【0030】
この交換用セルボード1a’は、セルボード1aと交換可能なハードウェア構成を有している。この交換可能なハードウェア構成としては、セルボード1aと同一の構成であってもよい。また、内部に情報を格納する部品が少なくともセルボード1aと同一である構成であってもよい。この内部に情報を格納する部品とは、本実施形態のセルボードにおいてはCPUとメモリとMMCとである。この内部に情報を格納する部品が同一である場合には、情報を内部に格納しない部分はセルボード1aと異なる構成であってもよい。また、メモリはセルボード1aにおける容量より大きい容量であってもよい。なお、CPUは一般に同一製品として扱われるものであっても、生産時期の違いによってバグ修正やプロセスシュリンクなどによるRevisionの違いが生じていることがあるが、交換用セルボード1a’のCPUとしては、セルボード1aのCPUと比較してレジスタ構造と対応するBIOSとが同一であれば同一のCPU(ハードウェア構成)とみなすこととしてよい。
【0031】
BIOS(Basic Input/Output System )14(14a,14b)は、OSとハードウェアとの中間で動作するプログラムであり、サービス装置Bからの指示によりセルボード1内のCPUに、そのCPU自身のレジスタに格納された情報を他のCPUのレジスタにコピーする処理を実行させることができる。また、サービス装置Bからの指示により、パーティション内のCPUのOSによる動作を強制的に中断させたり、そのCPUをサスペンド状態のまま待機させたり、そのCPUにOSによる処理を再開させたりすることができる。
【0032】
このBIOS14は、起動の際にサービス装置Bから読み込まれ、セルボード1(1a,1b)のメモリ13(13a,13b)に格納される。なお、BIOS14は図3に示すように、セルボード1に実装されたROM16に格納されることとしてもよい。このROM16は、電源をOFFにしてもデータの保持が可能なものであれば電気的にデータの再書き込みが可能なものであってもよく、例えばEEPROMやフラッシュメモリでもよい。また、BIOS14を格納したROM16は、各セルボードが具備するのでなく、特定のセルボードだけが具備することとしてもよい。また、パーティションA1全体として構成する論理的メモリ空間にBIOSを具備することができればBIOSの格納場所は限定されず、例えばバックプレーンなどの他の部分にROM16が実装されることとしてもよい。
【0033】
コネクタ(接続手段)2は、セルボード1を装着可能に形成され、装着されたセルボードをそのコネクタ2を介して内部バス5に接続させる。このコネクタ2と内部バス5とは、物理的には例えばコネクタを実装したバックプレーンであってもよい。なお、接続手段はセルボード1を内部バス5に接続させることができればコネクタに限定されず、例えばケーブルによる接続であってもよい。
【0034】
記憶部(記憶手段)3は、このパーティションA1を動作させるOS3aなどを格納している。操作表示部4は、パーティションA1のオペレータからの操作を受けたり表示を行ったりする。この記憶部3と操作表示部4とは、物理的には図4に示すようにI/Oボード34を介して例えばHDD、ディスプレイ、キーボード、マウスなどが内部バス5に接続されて構成される。このI/Oボード34と上記それぞれの周辺機器との接続は、例えばPCIコントローラによることとしてもよい。なお、操作表示部4は操作や表示を行うことができれば上記のものに限定されず、例えばイーサネット(登録商標)を介して操作用の端末装置が接続されることとしてもよい。また、I/Oボード34は、コネクタ2を介して内部バス5に接続されてもよい。また、このI/Oボード34には、パーティションA1に接続される他の周辺機器、例えばプリンタなども接続されることとしてもよい。
【0035】
サービス装置Bは、制御手段B1と、検知手段B2と、記憶部B3と、操作表示部B4とを具備して構成され、記憶部B3に格納された制御プログラムB3aにより情報処理装置Aに対して独立に動作する。すなわち、情報処理装置A内のパーティション(A1,・・・)のOSとは独立に動作する。このサービス装置Bは、情報処理装置Aに対して上記のように動作できれば物理的な構成については限定されず、例えば図5に示すように、マイコン(不図示)やメモリ(不図示)などが実装されたボードがいわゆる組込型コンピュータとして情報処理装置Aのハードウェアに組み込まれ、そのボードとPCなどの端末とがイーサネット(登録商標)により接続されて構成され、その端末にディスプレイやキーボードなどの操作表示部B4が接続される構成であってもよい。
【0036】
サービス装置Bは、情報処理装置Aの起動時における初期化(初期設定)や、動作時における障害の監視などを行う。この初期化や監視のために、サービス装置Bは記憶部B3に情報処理装置Aの構成に関する情報(不図示)を保持している。この構成に関する情報は、例えばユーザ(ネットワーク管理者)による設定内容や、上記した内部バス5によるCPU間の論理的な接続とは別の接続を有することにより取得する現在の構成情報などである。この現在の構成情報としては、例えば情報処理装置Aにセルボードが何枚実装(装着)されているか、各セルボードのCPUの数やメモリ容量はどれくらいか、などがある。こうした初期化や障害処理(障害の監視)の機能を有することにより、情報処理装置Aの構成についての設定や監視を、ユーザはサービス装置Bの操作表示部B4により行うことが可能となっている。
【0037】
上記した初期設定や障害の監視などのため、サービス装置Bは、図6に示すようにI2Cインターフェース(以下、I2C I/F)と、DGI インターフェース(Diagnostic Interface;以下、DGI I/F)とにより、セルボード1(1a,1b)と、I/Oボード34と、交換用セルボード1a’とに接続され、接続されたそれぞれがそれらインターフェースからのコマンドに応じて動作する機能を有している。このI2C I/Fは電源系の制御に用いられ、DGII/Fは診断用のインターフェースとして論理系の制御に用いられる。このI2C I/FとDGI I/Fとによる接続は、図1、図3に示す内部バス5によるCPU間の論理的な接続とは別の接続であるが、物理的にはコネクタ2(2a,2b,2c,・・・)を介してセルボード1(1a,1b,1a’)やI/Oボード34に接続されることとしてもよい。また、このI2C I/FとDGI I/Fとによる接続のためのケーブルをコネクタ2とは別に接続することとしてもよい。図2では、これらインターフェースによる接続も物理的にはコネクタ2を介する場合について示している。
【0038】
制御手段B1は、記憶部B3に格納された制御プログラムB3aによりサービス装置B全体の制御を行う。この制御により、情報処理装置AのCPUを動的に交換する際に、BIOSやMMCに上述したCPUやデータの流れの制御をさせたり、情報処理装置A内の論理IDなどの設定情報を変更したりする。
【0039】
検知手段B2は、上記したI2C I/Fを有して構成され、パーティションに含まれていないコネクタである2cに交換用セルボード1a’が装着(装入)されているか否かを検知する。
【0040】
記憶部B3は、制御プログラムB3aと情報処理装置Aの構成に関する情報(不図示)とを格納する。図1には、情報処理装置AのパーティションA1におけるBIOS14をサービス装置Bが保有する場合について示しているので、記憶部B3がBIOS14を格納することとして図示している。このBIOS14が例えば図3に示すようにセルボード1内に格納される場合などには、記憶部B3に格納されないこととしてよい。
【0041】
また、制御プログラムB3aは、サービス装置BがHDDなどの大容量記憶装置を具備しない構成である場合、例えば記憶部B3がボードに実装された固定容量の不揮発性メモリである場合には、一般のパーソナルコンピュータ(PC)におけるBIOSとOSとアプリケーションとのそれぞれに相当するものを複合して一体としたものであってよい。この大容量記憶装置を具備しない構成である場合のOSは、いわゆるRTOS(Real Time OS)であってよい。また、例えばサービス装置Bが、大容量記憶装置など一般のPCと同様な物理的構成を有する場合には、制御プログラムB3aは上記の一体としたものでなくてもよい。
【0042】
操作表示部B4は、情報処理システムのオペレータが、情報処理装置Aに対する各種の指令をこのサービス装置Bを介して与え、またその結果を知ることができるようにするものである。物理的にはディスプレイ、キーボード、マウスなどであってよく、図5を用いて上述したように、イーサネット(登録商標)で情報処理装置Aのハードウェアと接続された端末にそれらの周辺機器が接続された構成であってもよい。
【0043】
次に、本発明の第1の実施形態としての情報処理システムにおける動的なCPU交換の際の動作について、図7を参照して説明する。図7は、その動的なCPU交換の際の処理手順を示すフローチャートである。
【0044】
この図7に示される処理は、サービス装置Bの操作表示部B4からのオペレータによるセルボード交換指令の入力により開始されてもよく、サービス装置B自身またはサービス装置Bと連携して動作する図示しない外部の制御装置による情報処理装置Aに対する監視の結果を用いた判断によって自動的に開始されることとしてもよい。また、この処理の開始は、交換用セルボード1a’がコネクタ2cを介して内部バス5に接続されていることがサービス装置Bの検知手段B2により検知された状態であることが前提となる。もし交換用セルボード1a’の接続が検知されていない場合には、エラーメッセージをオペレータに通知することとしてもよい。
【0045】
まずサービス装置Bは、切り離し対象セルであるセルボード1aを含むパーティションA1内のすべてのセルボード、および組み込み対象となる交換用セルボード1a’内の連携して動作する各MMC15に対して、セルボード1a内のメモリデータを交換用セルボード1a’内のメモリにコピーする動作の開始を指示する(ステップS1)。
【0046】
この指示をうけた各セルボードのMMCは、メモリコピー中の動作モードである、セルボード1a内のメモリからの読み出しはセルボード1a内のメモリ13aに対して行い、またセルボード1a内のメモリへの書き込みはセルボード1aと交換用セルボード1a’内の両方のメモリ13(13a,13a’)に書き込む処理を開始する。また、セルボード1aと交換用セルボード1a’内の各MMCは協調してセルボード1a内のメモリ13aに格納されたデータを交換用セルボード1a’内のメモリ13a’にコピーする処理を開始する。これらの処理により、コピー処理の途中ですでにコピーのおわったメモリ領域のデータが書き換えられても、同じデータがコピー先である交換用セルボード1a’内のメモリ13a’にも書き込まれるため、コピー動作が完了した時点で完全なデータの複写を保証することができる。
【0047】
セルボード1aと交換用セルボード1a’の各MMCは、セルボード1a内のメモリ13aに格納されたデータを交換用セルボード1a’内のメモリ13a’にコピーする処理が完了すると、メモリコピー中の動作モードを継続したまま、コピーの完了をサービス装置Bに通知する(ステップS2)。
【0048】
サービス装置Bは、セルボード1aと交換用セルボード1a’の各MMCからのコピー完了の通知を受けると、各MMCにおけるマスタMMC内のレジスタへのデータ書き込みを行うことによりパーティションA1内の全CPUに対する処理中断信号を発生させ、パーティションA1のOS3aによる動作を一時停止させてBIOS14に制御を渡すようCPU11,12を制御する。このOSによる動作を中断して制御をBIOSに渡すCPU11,12の機能は、いわゆる割り込みと同様のものであり、CPUに一般に装備されるものである。こうしてパーティションA1内の全CPUの動作をOS3aの動作とは無関係に、一時的に、かつ強制的に中断させ、BIOS14に制御を渡させると、サービス装置BはBIOS14に対して、セルボード1a内のCPUを切り離し、演算レジスタや制御レジスタなどのCPU内部情報を交換用セルボード1a’内のCPUにコピーするように指示する(ステップS3)。
【0049】
BIOS14は、サービス装置Bからの指示にしたがって演算レジスタや制御レジスタなどに格納されたCPU内部情報のコピー処理を実行したあと、サービス装置Bにコピー完了の旨を通知し、CPUの制御をOS3aには返さずに処理を中断する(ステップS4)。すなわち、セルボード1a内のCPUをサスペンド状態にして待機させる。
【0050】
コピー完了の通知を受けるとサービス装置Bは、セルボード1aと交換用セルボード1a’とに関するCPU外部の情報を変更する(ステップS5)。このCPU外部の情報の変更として、論理識別番号(論理ID)のスワップと各MMCにおけるメモリルーティングの設定変更とを行う。論理識別番号のスワップとは、各MMCに格納されたセルボードの論理識別番号を、パーティションA1のOS3aから交換用セルボード1a’がセルボード1aとして、セルボード1aが交換用セルボード1a’として認識されるように変更することである。また、各MMCにおけるメモリルーティングの設定変更とは、MMCによるデータの流れの制御の際に、交換用セルボード1a’がセルボード1aとして、セルボード1aが交換用セルボード1a’として認識されるように各MMCの設定を変更することである。
【0051】
以上の処理がおわったところで、サービス装置Bはすべての関係するセルボード1である1a,1b,1a’の各MMC15に対して、メモリコピーモードの動作の終了を指示し、各MMC15はメモリコピー動作を停止した旨をサービス装置Bに通知する(ステップS6)。通知を受けてサービス装置Bは、パーティションA内の全CPUのサスペンドを解除して動作を再開させると同時にBIOS14に対してCPUの制御をOS3aに返すよう指示する(ステップS7)。
【0052】
BIOS14がCPUの制御をOSに返すことで、パーティションA内の全CPUはOS3aによる動作を再開するが、このときOS3aから見えるセルボード1aは、物理的には交換用セルボード1a’に変更されていることになる(ステップS8)。サービス装置Bは、セルボード1aの切り離しとセルボード1a’の組み込みとが完了した旨を、必要に応じて操作表示部B4によりオペレータに通知する(ステップS9)。以上の動作により、OS3aをシャットダウンすることなくセルボード1aがパーティションA1から切り離され、本実施形態の情報処理装置Aを稼働させたままセルボードを取り外して交換を行うことが可能となる。
【0053】
なお、上述した第1の実施形態は本発明の好適な一実施形態であり、本発明の主旨を逸脱しない範囲内において、例えば各セルボード内部のCPUの数、メモリ容量、MMCの構成など、種々変形して実施することが可能であり、例えば各セルボードにCPUが4個実装されていても同様の動作となる。
【0054】
また、パーティションが具備するセルボードの枚数は2枚に限定されず、例えば1枚であってもよい。この1枚である場合には、上記したステップS5におけるサービス装置Bの制御手段B1によるMMCの再設定を、その1枚のセルボードと交換用セルボードとに対して行うこととなる。
【0055】
また、上述した第1の実施形態ではOS3aが記憶部3に格納されることとして説明しているが、パーティションA1をOS3aにより動作させることができればOS3aは記憶部3への格納に限定されず、例えばネットワークを介して必要部分がメモリ13に格納されることとしてもよい。すなわち、例えばいわゆるnetwork bootによる起動の際にOSの必要部分がメモリ13に格納されることとしてもよい。また、上記のようにネットワークを介してOSをメモリ13に格納する場合には、パーティションA1はHDDなどの記憶部3を持たない構成であってもよい。
【0056】
また、上述した第1の実施形態ではセルボード1aを交換する場合について説明しているが、セルボード1bを交換する場合も同様である。また、2枚以上のセルボードを同時に交換する場合も同様である。
【0057】
また、上述した第1の実施形態では、サービス装置Bを各ボードに接続するインターフェースがI2C I/FとDGI I/Fとであることとして説明しているが、サービス装置Bと各ボードとの間で通信可能であればこれらのものに限定されず、他のインターフェースであってもよい。
【0058】
また、上述した第1の実施形態では、各セルボード間の接続をバス構成によって実現している例を例示しているが、パーティション全体として論理的メモリ空間を構成できるよう接続されていればこの接続に限定されず、例えばクロスバースイッチ装置などを介した構成であってもよい。
【0059】
次に、本発明の第2の実施形態として、CPUが交換可能な単位部品である場合について説明する。この第2の実施形態は、交換可能に作成された単位部品を第1の実施形態におけるセルボードに替えてCPUとしたものである。図8は、本発明の第2の実施形態としての情報処理システムの構成例を示すブロック図である。第1の実施形態と共通する部分については同一の符号とし、その説明を省略する。
【0060】
図8に示すように、本発明の第2の実施形態としての情報処理システムは、情報処理装置AAと、サービス装置Bとを備え、その情報処理装置AAとサービス装置Bとが互いに接続されて構成される。情報処理装置AAは、CPU11と、コネクタ2と、マザーボード(以下、M/B)と、記憶部と、操作表示部とを具備して構成される。M/BはメモリとROM16とを具備してCPUの動作を制御する機能を有し、ROM16はBIOSを格納する。このROM16は、上述したように電気的にデータの再書き込みが可能なものであってよい。記憶部は、OSを格納し、情報処理装置AAはこのOSにより動作する。コネクタ2は、CPUを装着されることによりこのコネクタ2を介してそのCPUをM/Bに接続させる。サービス装置Bの制御手段B1による上述した制御や検知手段B2による上述した検知は、このコネクタ2とM/Bとを介して本実施形態における単位部品であるCPUに対して行うこととなる。
【0061】
次に、本発明の第2の実施形態の動作について図9を参照して説明する。図9は、本発明の第2の実施形態における動的なCPU交換の際の処理手順を示すフローチャートである。この図9に示す処理手順は、図7を参照して上述した第1の実施形態における動作から、メモリコピーに関する処理を除き、セルボードのMMCによるCPUに対する処理をM/BによるCPU11に対する制御に変更したものである。
【0062】
図9に示す処理の開始は、図7に示す第1の実施形態における処理の開始と同様である。処理が開始されるとサービス装置Bは、情報処理装置AA内の全てのCPUをM/Bにより強制的に停止させ、CPUによる制御をBIOSに渡させ、BIOSにCPU11aを切り離すよう指示する(ステップS11)。指示を受けたBIOSはCPU11aの演算レジスタと制御レジスタとの内容を交換用のCPU11a’にコピーし、サービス装置Bにコピー完了の旨を通知する(ステップS12)。CPU11a’はこのコピー完了後、サスペンド状態で待機となる。サービス装置Bは、CPU11aと11a’とに関する情報をスワップする(ステップS13)。このCPU11aと11a’とに関する情報とは、論理IDなどであってよい。サービス装置Bは、情報処理装置AA内のCPUをレジュームし、BIOSにサスペンドを解除するよう指示する(ステップS14)。この指示を受けたBIOSはCPUの制御をOSに返却し、OSはサスペンドを解除されて上記OSによる処理を再開する(ステップS15)。この再開時には、OSがCPU11aとして認識するCPUは、物理的には交換用のCPU11a’に替わっていることとなる。サービス装置Bは、CPU11aの切り離しとCPU11a’の組み込みとが完了した旨を、必要に応じて操作表示部B4によりオペレータに通知する(ステップS16)。
【0063】
なお、上述した第2の実施形態では交換可能な単位部品をCPUとして説明しているが、単位部品がレジスタやメモリなどの情報を格納する部分を含まない部品をさらに具備して構成される場合も同様であり、例えば情報を格納する部分を含まない部品とCPUとが実装されたボードが交換可能な単位部品であっても同様である。
【0064】
また、上述した本発明の各実施形態では、サービス装置Bの少なくとも一部が情報処理装置の内部に組み込まれる構成として説明しているが、各セルボードを制御可能であるように接続されていれば内部に組み込む構成に限定されず、例えは情報処理装置の外部に1つの装置として設けてLANで接続することとしてもよい。また、例えばサービス装置Bと各セルボードとが、それぞれに1つの装置として接続されて情報処理システムを構成していることとしてもよい。
【0065】
また、上述した各実施形態は、本発明の好適な実施形態であり、本発明の主旨を逸脱しない範囲内において、例えば上述したように種々変形して実施することが可能である。
【0066】
【発明の効果】
以上の説明により明らかなように本発明は、情報処理装置で稼働するOSをシャットダウンすることなくその情報処理装置のCPUを動的に交換する際、その情報処理装置に接続されたサービス装置からの信号により、情報処理装置のCPUに上記のOSを用いた動作を強制的に中断させ、単位部品に格納されたデータを交換用単位部品にコピーさせ、単位部品と交換用単位部品とに関する情報を変更し、上記CPUによる上記OSでの動作を再開させる。このことにより、情報処理装置で稼働するOSが動的なCPUの交換のための機能を有したものでなくても情報処理装置のCPUを動的に交換することが可能になる。すなわち、情報処理装置で稼働するOSの種類に関わらず、情報処理装置のCPUを動的に交換することが可能になる。このことにより、CPUの間欠障害などが検出された場合であっても、稼働するOSの種類に関わらず、情報処理装置を停止させずに予防保守を実施することができる。
【0067】
また、交換可能な単位部品がCPUとメモリとMMCとを具備したセルボードである場合であっても、上記の効果と同様の効果が得られる。すなわち、情報処理装置で稼働するOSが動的なセルボードの交換のための機能を有したものでなくても情報処理装置のセルボードを動的に交換することが可能になる。換言すると、情報処理装置で稼働するOSの種類に関わらず、情報処理装置のセルボードを動的に交換することが可能になる。このことにより、メモリやCPUの間欠障害などが検出された場合であっても、稼働するOSの種類に関わらず、情報処理装置を停止させずに予防保守を実施することができる。
【図面の簡単な説明】
【図1】本発明の第1の実施形態としての情報処理システムの構成例を示すブロック図である。
【図2】上記情報処理システムのコネクタ2cに交換用セルボード1a’が装着(装入)されていない状態を示すブロック図である。
【図3】上記情報処理システムに、BIOSを格納したROM16を用いた場合の構成例を示すブロック図である。
【図4】記憶部3と操作表示部4との構成例を示すブロック図である。
【図5】サービス装置Bの構成を例示したブロック図である。
【図6】サービス装置Bとセルボード、I/Oボードとの間における、CPU間の論理的な接続とは別の接続の例を示すブロック図である。
【図7】本発明の第1の実施形態としての情報処理装置における動的なセルボード交換の際の処理手順例を示すフローチャートである。
【図8】本発明の第2の実施形態としての情報処理システムの構成例を示すブロック図である。
【図9】本発明の第2の実施形態としての情報処理装置における動的なCPU交換の際の処理手順例を示すフローチャートである。
【図10】従来の情報処理システムの構成例を示すブロック図である。
【図11】従来の情報処理システムにおける動的なセルボード交換の際の処理手順例を示すフローチャートである。
【符号の説明】
A (第1の実施形態としての)情報処理装置
A1 パーティション
B サービス装置
B1 制御手段
B2 検知手段
B3 記憶部
B3a 制御プログラム
B4 操作表示部
1(1a,1b) セルボード(第1の実施形態における単位部品)
1a’ 交換用セルボード(第1の実施形態における交換用単位部品)
11(11a,11a’,11b),12(12a,12a’,12b) CPU(プロセッサ)
13(13a,13a’,13b) メモリ
14 BIOS
15(15a,15a’,15b) MMC
16(16a,16a’,16b) ROM
2(2a,2b,2c) コネクタ(接続手段)
3 記憶部
3a OS
4 操作表示部
5 内部バス
AA (第2の実施形態としての)情報処理装置
P 従来の情報処理装置
P1 従来のパーティション
P3 OS(動的CPU交換機能を有するよう設計されたOS)
R 従来のサービス装置

Claims (5)

  1. レジスタに情報を格納するプロセッサとメモリとMMCとを有してなる単位部品と記憶手段とを具備してBIOSと前記記憶手段に格納されたOSとにより動作する情報処理装置と、前記情報処理装置に対して独立に動作し、前記BIOSを格納するサービス装置とを備え、前記情報処理装置と前記サービス装置とが互いに接続されてなる情報処理システムであって、
    前記サービス装置は、
    前記単位部品と交換可能な交換用単位部品が当該情報処理装置に接続されているか否かを検知する検知手段と、
    前記検知手段により上記接続されていることが検知された後で、前記単位部品内部のメモリおよび前記交換用単位部品内部のメモリの両方に対して前記MMCにより同様の書き込み処理を行いながら、前記BIOSに前記情報処理装置のプロセッサの前記OSによる処理を中断させ、前記BIOSに前記単位部品が有する前記プロセッサの前記レジスタに格納された情報を前記交換用単位部品にコピーさせる制御と、前記単位部品が有する前記メモリに格納された情報を前記交換用単位部品にコピーさせる制御と、前記単位部品に替えて前記交換用単位部品が前記OSにより動作可能であるように前記単位部品と前記交換用単位部品とに関する情報を変更する制御と、前記単位部品に替えて前記交換用単位部品を用いて前記OSによる処理を前記BIOSに再開させる制御とを行う制御手段と、
    を具備したことを特徴とする情報処理システム。
  2. 前記制御手段による前記変更が、
    前記単位部品に替えて前記交換用単位部品が前記OSにより動作可能であるように前記単位部品を識別する情報と前記交換用単位部品を識別する情報とをスワップし、前記単位部品に替えて前記交換用単位部品で動作可能であるようにMMCを再設定することであるように構成されたことを特徴とする請求項1に記載の情報処理システム。
  3. 前記情報処理装置は、前記単位部品と交換可能な交換用単位部品を当該情報処理装置に接続可能とさせるよう構成された交換用接続手段を具備し、
    前記検知手段は、前記交換用接続手段に前記交換用単位部品が接続されているか否かを検知するように構成されたことを特徴とする請求項1に記載の情報処理システム。
  4. レジスタに情報を格納するプロセッサとメモリとMMCとを有してなる単位部品と記憶手段とを具備してBIOSと前記記憶手段に格納されたOSにより動作する情報処理装置と、前記情報処理装置に対して独立に動作し、前記BIOSを格納するサービス装置とを備え、前記情報処理装置と前記サービス装置とが互いに接続されてなる情報処理システムの制御方法であって、
    前記単位部品と交換可能な交換用単位部品が前記情報処理装置に接続されているか否かを前記サービス装置が検知する検知工程と、
    前記単位部品のメモリへの書き込み情報と同一の情報を前記交換用単位部品のメモリにも書き込ませる双方書き込み工程と、
    前記単位部品のメモリに格納された情報を前記交換用単位部品のメモリにコピーさせるメモリコピー工程と、
    前記BIOSに前記情報処理装置にプロセッサの前記OSによる処理を中断させる中断工程と、
    前記BIOSに前記単位部品が有する前記プロセッサの前記レジスタに格納された情報を前記交換用単位部品にコピーさせるコピー工程と、
    前記単位部品に替えて前記交換用単位部品が前記OSにより動作可能であるように前記単位部品に関する情報と前記交換用単位部品に関する情報とを変更する変更工程と、
    前記単位部品に替えて前記交換用単位部品を用いて前記OSによる処理を前記BIOSに再開させる再開工程と、を有し、
    前記双方書き込み工程を、前記検知工程の後、前記再開工程の前に、前記メモリコピー工程と、前記中断工程と、前記コピー工程と、前記変更工程との間に渡って行うことを特徴とする情報処理システムの制御方法。
  5. レジスタに情報を格納するプロセッサとメモリとMMCとを有してなる単位部品と記憶手段とを具備してBIOSと前記記憶手段に格納されたOSとにより動作する情報処理装置と、制御プログラムにより前記情報処理装置に対して独立に動作し、前記BIOSを格納するサービス装置とを備え、前記情報処理装置と前記サービス装置とが互いに接続されてなる情報処理システムの前記制御プログラムと前記BIOSとからなるプログラムであって、
    前記サービス装置に、
    前記単位部品と交換可能な交換用単位部品が前記情報処理装置に接続されているか否かを検知する検知処理を実行させ、
    前記情報処理装置に、
    前記単位部品のメモリへの書き込み情報と同一の情報を前記交換用単位部品のメモリにも書き込ませる双方書き込み処理と、
    前記単位部品のメモリに格納された情報を前記交換用単位部品のメモリにコピーさせるメモリコピー処理と、
    前記BIOSの制御により前記情報処理装置プロセッサの前記OSによる処理を中断させる中断処理と、
    前記BIOSの制御により前記単位部品が有する前記プロセッサの前記レジスタに格納された情報を前記交換用単位部品にコピーさせるコピー処理と、を実行させ、
    前記サービス装置に、
    前記単位部品に替えて前記交換用単位部品が前記OSにより動作可能であるように前記単位部品に関する情報と前記交換用単位部品に関する情報とを変更する変更処理を実行させ、
    前記情報処理装置に、
    前記単位部品に替えて前記交換用単位部品を用いて前記OSによる処理を前記BIOSに再開させる再開処理を実行させ、
    前記双方書き込み処理を、前記検知処理の後、前記再開処理の前に、前記メモリコピー処理と、前記中断処理と、前記コピー処理と、前記変更処理との間に渡って行うことを特徴とする情報処理システムのプログラム。
JP2002050150A 2002-02-26 2002-02-26 情報処理システム及び該システムの制御方法並びにプログラム Expired - Fee Related JP3891004B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2002050150A JP3891004B2 (ja) 2002-02-26 2002-02-26 情報処理システム及び該システムの制御方法並びにプログラム
EP03003225A EP1341085A2 (en) 2002-02-26 2003-02-20 Information processing system, and method and program for controlling the same
US10/372,302 US7007192B2 (en) 2002-02-26 2003-02-25 Information processing system, and method and program for controlling the same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002050150A JP3891004B2 (ja) 2002-02-26 2002-02-26 情報処理システム及び該システムの制御方法並びにプログラム

Publications (2)

Publication Number Publication Date
JP2003256396A JP2003256396A (ja) 2003-09-12
JP3891004B2 true JP3891004B2 (ja) 2007-03-07

Family

ID=27678491

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002050150A Expired - Fee Related JP3891004B2 (ja) 2002-02-26 2002-02-26 情報処理システム及び該システムの制御方法並びにプログラム

Country Status (3)

Country Link
US (1) US7007192B2 (ja)
EP (1) EP1341085A2 (ja)
JP (1) JP3891004B2 (ja)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7584156B2 (en) * 2002-05-15 2009-09-01 Lockheed Martin Corporation Method and apparatus for estimating the refresh strategy or other refresh-influenced parameters of a system over its life cycle
US20040010474A1 (en) * 2002-05-15 2004-01-15 Lockheed Martin Corporation Method and apparatus for estimating the refresh strategy or other refresh-influenced parameters of a system over its life cycle
JP3640187B2 (ja) * 2002-07-29 2005-04-20 日本電気株式会社 マルチプロセッサシステムの障害処理方法、マルチプロセッサシステム及びノード
US7426657B2 (en) * 2004-07-09 2008-09-16 International Business Machines Corporation System and method for predictive processor failure recovery
US20060217929A1 (en) * 2004-08-06 2006-09-28 Lockheed Martin Corporation Lifetime support process for rapidly changing, technology-intensive systems
JP4791061B2 (ja) * 2005-03-18 2011-10-12 富士通株式会社 計算機システムのファームウェアのバージョン管理方法及び情報処理装置
JP2006260325A (ja) * 2005-03-18 2006-09-28 Fujitsu Ltd 障害の伝達方法
JP4322240B2 (ja) * 2005-09-15 2009-08-26 株式会社日立製作所 再起動方法、システム及びプログラム
TW200712841A (en) * 2005-09-30 2007-04-01 Tyan Computer Corp Processor configuration architecture of multi-processor system
WO2007088605A1 (ja) 2006-02-01 2007-08-09 Fujitsu Limited 部品情報復元方法、部品情報管理方法及び電子装置
WO2007091297A1 (ja) * 2006-02-06 2007-08-16 Fujitsu Limited 情報処理装置、cpu、診断プログラムおよび診断方法
EP1988458A4 (en) * 2006-02-24 2009-03-25 Fujitsu Ltd POWER-ON SELF-TEST PROGRAM MANAGEMENT DEVICE, ADMINISTRATIVE PROCEDURES AND PROGRAM
US20070226456A1 (en) * 2006-03-21 2007-09-27 Mark Shaw System and method for employing multiple processors in a computer system
JP4788516B2 (ja) * 2006-07-28 2011-10-05 日本電気株式会社 動的置き換えシステム、動的置き換え方法およびプログラム
US7877358B2 (en) * 2006-11-21 2011-01-25 Microsoft Corporation Replacing system hardware
US8473460B2 (en) * 2006-11-21 2013-06-25 Microsoft Corporation Driver model for replacing core system hardware
US7934121B2 (en) * 2006-11-21 2011-04-26 Microsoft Corporation Transparent replacement of a system processor
US8086906B2 (en) 2007-02-15 2011-12-27 Microsoft Corporation Correlating hardware devices between local operating system and global management entity
JP5224038B2 (ja) 2008-02-27 2013-07-03 日本電気株式会社 コンピュータ装置、コンピュータ装置の運用継続方法及びプログラム
KR100997879B1 (ko) * 2008-03-03 2010-12-07 삼성전자주식회사 Crum 유닛, 교체가능유닛 및 이를 이용하는 화상형성장치와, 그 암호화 데이터 통신 방법
JP5141381B2 (ja) * 2008-06-02 2013-02-13 富士通株式会社 情報処理装置、エラー通知プログラム、エラー通知方法
JP2010225054A (ja) * 2009-03-25 2010-10-07 Nec Corp コンピュータシステム、障害処理方法、及びプログラム
WO2011004441A1 (ja) * 2009-07-10 2011-01-13 富士通株式会社 メモリダンプ機能を有するサーバおよびメモリダンプ取得方法
JPWO2012090290A1 (ja) 2010-12-27 2014-06-05 富士通株式会社 メモリダンプ機能を有する情報処理装置、メモリダンプ方法、およびメモリダンププログラム
JP6083136B2 (ja) 2012-06-22 2017-02-22 富士通株式会社 メモリダンプ機能を有する情報処理装置、メモリダンプ方法、およびメモリダンププログラム
JP6175958B2 (ja) * 2013-07-26 2017-08-09 富士通株式会社 メモリダンプ方法及びプログラム、並びに、情報処理装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5717019A (en) * 1980-07-07 1982-01-28 Fanuc Ltd Numerical controller
US5202965A (en) * 1988-12-09 1993-04-13 Bull, S.A. Electronic system with a plurality of removable units
JP2667570B2 (ja) 1990-10-08 1997-10-27 株式会社東芝 マルチ計算機システムのプロセッサ状態表示装置
US6134615A (en) * 1997-05-13 2000-10-17 Micron Electronics, Inc. System for facilitating the replacement or insertion of devices in a computer system through the use of a graphical user interface
US6189050B1 (en) * 1998-05-08 2001-02-13 Compaq Computer Corporation Method and apparatus for adding or removing devices from a computer system without restarting
JP3481485B2 (ja) 1999-01-28 2003-12-22 エヌイーシーコンピュータテクノ株式会社 マルチプロセッサシステム
US6282596B1 (en) * 1999-03-25 2001-08-28 International Business Machines Corporation Method and system for hot-plugging a processor into a data processing system
JP3348420B2 (ja) 1999-11-19 2002-11-20 エヌイーシーコンピュータテクノ株式会社 メモリーコピー機能を備えた情報処理装置
US6574748B1 (en) * 2000-06-16 2003-06-03 Bull Hn Information Systems Inc. Fast relief swapping of processors in a data processing system

Also Published As

Publication number Publication date
US20030163744A1 (en) 2003-08-28
JP2003256396A (ja) 2003-09-12
EP1341085A2 (en) 2003-09-03
US7007192B2 (en) 2006-02-28

Similar Documents

Publication Publication Date Title
JP3891004B2 (ja) 情報処理システム及び該システムの制御方法並びにプログラム
US7251746B2 (en) Autonomous fail-over to hot-spare processor using SMI
US9798556B2 (en) Method, system, and apparatus for dynamic reconfiguration of resources
JP4568764B2 (ja) システム監視装置の制御方法、プログラム及びコンピュータシステム
US6243774B1 (en) Apparatus program product and method of managing computer resources supporting concurrent maintenance operations
JP3954088B2 (ja) 論理分割された(lpar)計算機でシステム・ファームウェア更新を安全に実行する機構
US5297282A (en) Resume processing function for the OS/2 operating system
JP3962394B2 (ja) ホットプラグ可能な問題のあるコンポーネントの動的検出および問題のあるコンポーネントからのシステムリソースの再割り当て
US6820157B1 (en) Apparatus, program product and method of replacing failed hardware device through concurrent maintenance operation
JP2004326808A (ja) Smpにおけるサーバノードの非介入動的ホットプラグおよびホット除去
US7984219B2 (en) Enhanced CPU RASUM feature in ISS servers
US20040153738A1 (en) Redundancy management method for BIOS, data processing apparatus and storage system for using same
EP1119809A1 (en) Process monitoring in a computer system
JP2008287505A (ja) 情報処理装置およびレガシーエミュレーション処理停止制御方法
KR20090081405A (ko) 파티션 유닛을 교체하는 방법 및 컴퓨터 판독가능 매체
US20100241809A1 (en) Processor, server system, and method for adding a processor
JP2001022599A (ja) フォールトトレラント・システム,フォールトトレラント処理方法およびフォールトトレラント制御用プログラム記録媒体
JP2004302731A (ja) 情報処理装置および障害診断方法
JP4165423B2 (ja) コアi/oカードを実装したシステムボード
US20120311223A1 (en) Information system
JPH03138753A (ja) マルチプロセッサシステムのブートロード装置
GB2342472A (en) Process monitoring in a computer system
CN116795437A (zh) 计算系统、计算机实施方法及计算机程序产品
JP2002041437A (ja) ハードディスクドライブ切換装置
JP2000047948A (ja) 共有メモリモジュールを備えた情報処理装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040809

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050308

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050509

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060131

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060301

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20060301

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20060301

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20060412

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061010

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061019

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20061114

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20061127

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091215

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101215

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees