JP6112205B2

JP6112205B2 - 情報処理システム、装置、方法及びプログラム

Info

Publication number: JP6112205B2
Application number: JP2015529233A
Authority: JP
Inventors: 広大太田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2013-07-29
Filing date: 2013-07-29
Publication date: 2017-04-12
Anticipated expiration: 2033-07-29
Also published as: WO2015015544A1; JPWO2015015544A1

Description

システムにおいて発生したエラーに対処する技術に関する。

サービスプロセッサ（Service Processor）は、サーバにおけるＣＰＵ或いはメモリ等のハードウェアとは独立して動作し、これらのハードウェアの監視及び制御等を行う。サービスプロセッサという言葉は、いわゆるプロセッサを指す場合もあるし、プロセッサ、メモリ及びボード等を含む処理ユニットを指す場合もある。

サービスプロセッサは、外部の装置等からオペレーションの実行指示を受け付けた場合、ＣＰＵにオペレーションを実行させるように制御を行う。サービスプロセッサが正常に稼働している場合には問題は無いが、もしサービスプロセッサがソフトウェアエラー等によって停止した場合には、ＣＰＵがオペレーションを実行できなくなるという問題がある。

システムにおいて発生したエラーに対処するための技術として、以下のような技術が知られている。具体的には、ネットワーク上に複数のノードが有るシステムにおいて、各ノードは、アドレス管理テーブル上における次エントリのノードを監視する。これにより、各ノードは次エントリのノードを監視すると共に、前エントリのノードから監視される。監視対象のノードにおける障害の発生を検知したノードは、障害が発生したノードの機能を代理し、また障害が発生したノードが担当する監視を代理する。

しかし、この技術におけるノードには、サービスプロセッサが設けられていない。そのため、サービスプロセッサがエラーによって停止した場合には、サービスプロセッサによって制御されるＣＰＵが処理を実行できず、結果としてサーバによる処理の実行が遅れるという問題には対処することができない。

特開２０１１−６００５６号公報

従って、１つの側面では、本発明の目的は、サーバにおけるサービスプロセッサが停止した場合に、そのサーバによる処理の実行が遅れることを抑制するための技術を提供することである。

本発明に係る情報処理システムは、管理装置と、各々が実行部と管理装置から実行指示を受け付け当該実行指示において指定された処理を実行部に実行させる制御部とを含む複数の情報処理装置とを有する。そして、複数の情報処理装置のうちいずれかの情報処理装置における制御部が、複数の情報処理装置のうちの他の情報処理装置における制御部の停止を検出した場合に、管理装置から他の情報処理装置における制御部に対して送信された第１の実行指示を、他の情報処理装置の代わりに受け付ける第１処理部と、他の情報処理装置における実行部に対し、第１の実行指示において指定された処理の実行を要求する第２処理部とを有する。

サーバにおけるサービスプロセッサが停止した場合に、そのサーバによる処理の実行が遅れることを抑制できるようになる。

図１は、本実施の形態のシステム概要を示す図である。図２は、サービスプロセッサの機能ブロック図である。図３は、制御データ格納部に格納されるデータの一例を示す図である。図４は、設定データ格納部に格納されるデータの一例を示す図である。図５は、本実施の形態における監視方法の一例を示す図である。図６は、メインの処理フローを示す図である。図７は、メインの処理フローを示す図である。図８は、メインの処理フローを示す図である。図９は、オペレーションデータ格納部に格納されるデータの一例を示す図である。図１０は、本実施の形態の処理の概要を示す図である。図１１は、本実施の形態の効果について説明するための図である。図１２は、本実施の形態の効果について説明するための図である。図１３は、コンピュータの機能ブロック図である。

図１に、本実施の形態のシステム概要を示す。例えばＬＡＮ（Local Area Network）であるネットワーク３１には、情報処理装置１１と、情報処理装置１３と、情報処理装置１５と、管理装置５とが接続されている。情報処理装置１１はＮＩＣ（Network Interface Card）１１０を介してネットワーク３１に接続され、情報処理装置１３はＮＩＣ１３０を介してネットワーク３１に接続され、情報処理装置１５はＮＩＣ１５０を介してネットワーク３１に接続される。ネットワーク３１は、情報処理装置１１乃至１５におけるサービスプロセッサ間の通信及びサービスプロセッサと管理装置５との間の通信のためのネットワークである。ＮＩＣは、例えばＬＡＮカードである。

また、例えばＬＡＮであるネットワーク３３には、情報処理装置１１と、情報処理装置１３と、情報処理装置１５とが接続されている。情報処理装置１１はＮＩＣ（Network Interface Card）１１７を介してネットワーク３３に接続され、情報処理装置１３はＮＩＣ１３７を介してネットワーク３３に接続され、情報処理装置１５はＮＩＣ１５７を介してネットワーク３３に接続される。ネットワーク３３は、情報処理装置１１乃至１５におけるホストＣＰＵ間の通信のためのネットワークである。ＮＩＣは、例えばＬＡＮカードである。

情報処理装置１１は、ＮＩＣ１１０と、ＣＰＵ１１２、ＨＤＤ（Hard Disk Drive）１１３及びメモリ１１４を含むサービスプロセッサ１１１と、共有メモリ１１５と、ホストＣＰＵ１１６と、ＮＩＣ１１７とを有する。サービスプロセッサ１１１は、ホストＣＰＵ１１６の監視及び制御並びに他のサービスプロセッサの監視等を行う。共有メモリ１１５は、サービスプロセッサ１１１とホストＣＰＵ１１６との間でデータを交換するためのメモリである。ホストＣＰＵ１１６は、管理装置５からのオペレーションの実行指示をサービスプロセッサ１１１を介して受信し、オペレーションを実行する。情報処理装置１３及び１５は、情報処理装置１１と同様であるので、説明を省略する。

本実施の形態においては、ユーザにより操作された管理装置５が、情報処理装置に対するオペレーションの実行指示を、その情報処理装置におけるサービスプロセッサに対して、ネットワーク３１を介して送信する。サービスプロセッサは、オペレーションの実行指示において指定されたオペレーションがホストＣＰＵに実行させるオペレーションである場合には、共有メモリにそのオペレーションのデータを格納する。ホストＣＰＵは、共有メモリに格納されたオペレーションのデータを用いて、オペレーションを実行する。オペレーションとは、例えば、ホストＣＰＵのシャットダウン或いはリブート（すなわち再起動）等の処理である。

なお、図１においては情報処理装置の数が３であるが、数に限定は無い。

図２に、サービスプロセッサ１１１の機能ブロック図を示す。サービスプロセッサ１１１は、管理部１１１０と、実行要求部１１１１と、制御データ格納部１１１２と、設定データ格納部１１１３と、オペレーションデータ格納部１１１４とを含む。管理部１１１０及び実行要求部１１１１は、ＨＤＤ１１３に格納されているプログラムがＣＰＵ１１２に実行されることによって実現される。また、制御データ格納部１１１２、設定データ格納部１１１３及びオペレーションデータ格納部１１１４のための領域は、ＨＤＤ１１３又はメモリ１１４に確保される。

管理部１１１０は、制御データ格納部１１１２に格納されているデータ及び設定データ格納部１１１３に格納されているデータを用いて処理を行う。具体的には、管理部１１１０は、他の情報処理装置におけるサービスプロセッサを監視する処理、監視対象のサービスプロセッサの停止を検出する処理、及び他の情報処理装置に対して送信されたオペレーションの実行指示を他の情報処理装置の代わりに受信する処理等を実行する。実行要求部１１１１は、オペレーションデータ格納部１１１４に格納されているデータを用いて処理を行う。具体的には、実行要求部１１１１は、他の情報処理装置におけるホストＣＰＵがすぐには実行することができないオペレーションのデータをオペレーションデータ格納部１１１４に一時的に保存する処理、及び情報処理装置１１に対するオペレーションのデータ及び監視対象の情報処理装置に対するオペレーションのデータを共有メモリ１１５に格納する処理等を実行する。

なお、サービスプロセッサ１３１の機能ブロック図及びサービスプロセッサ１５１の機能ブロック図は、サービスプロセッサ１１１の機能ブロック図と同様であるので、説明を省略する。

図３に、制御データ格納部１１１２に格納されるデータの一例を示す。図３の例では、監視対象の情報処理装置のＩＤ（IDentifier）と、監視対象の情報処理装置におけるサービスプロセッサの状態を示すデータと、状態確認のリトライの回数をカウントするためのリトライカウンタと、リトライ回数の閾値と、リトライ回数の上限とが格納される。サービスプロセッサの状態が「正常」である場合には、そのサービスプロセッサは正常に稼働している。サービスプロセッサの状態が「リトライ中」である場合には、そのサービスプロセッサに対して状態確認のリトライが行われている。サービスプロセッサの状態が「リブート中」である場合には、そのサービスプロセッサがリブートしている。サービスプロセッサの状態が「エラー」である場合には、そのサービスプロセッサにおけるリブートは失敗している。リトライカウンタは、リトライが行われる度に１インクリメントされる。リトライ回数の上限は、設定データ格納部１１１３に格納されているリブート時間を用いて、例えば（リブート時間）／（状態確認を実行する時間間隔）として算出される。

図４に、設定データ格納部１１１３に格納されるデータの一例を示す。図４の例では、情報処理装置のＩＤと、情報処理装置のシリアル番号と、情報処理装置のＩＰアドレスと、その情報処理装置によって監視される情報処理装置のＩＤと、その情報処理装置によって監視される情報処理装置のリブート時間（すなわち、リブートに要する時間）とが格納される。設定データ格納部１１１３には、システムにおける全情報処理装置についてデータが格納される。

図５に、本実施の形態における監視方法の一例を示す。図５の例では、サービスプロセッサ１１１がサービスプロセッサ１３１を監視し、サービスプロセッサ１３１がサービスプロセッサ１５１を監視し、サービスプロセッサ１５１がサービスプロセッサ１１１を監視する。このように監視することで、いずれのサービスプロセッサも監視されるようになるので、どのサービスプロセッサが停止したとしてもそのサービスプロセッサの停止は検出される。なお、監視の方法は、いずれのサービスプロセッサも監視されるという条件を満たすのであれば、図５のような監視方法でなくてもよい。

次に、図６乃至図１２を用いて、本実施の形態におけるシステムにおいて行われる処理について説明する。ここでは、主に情報処理装置１１が実行する処理について説明することによって、本実施の形態におけるシステムにおいて行われる処理について説明する。なお、図６乃至図９を用いて説明する処理は、監視対象の情報処理装置毎に且つ定期的に行われる。

まず、情報処理装置１１における管理部１１１０は、前回の処理から所定時間が経過したか判断する（図６：ステップＳ１）。所定時間が経過した場合（ステップＳ１：Ｙｅｓルート）、監視対象の情報処理装置（以下では、情報処理装置１３とする）について状態確認を行うタイミングになったので、処理は端子Ａを介して図７のステップＳ３１に移行する。

図７の説明に移行し、管理部１１１０は、ネットワーク３１を介して、状態確認要求を監視対象の情報処理装置１３に送信する（図７：ステップＳ３１）。状態確認要求は、監視対象の情報処理装置１３におけるサービスプロセッサ１３１の状態を確認するための要求である。状態確認要求に対する応答が返ってくれば、監視対象の情報処理装置１３におけるサービスプロセッサ１３１が正常に稼働していると判断される。

管理部１１１０は、状態確認要求に対する応答を受信したか判断する（ステップＳ３３）。応答を受信していない場合（ステップＳ３３：Ｎｏルート）、処理は端子Ｂを介して図８のＳ５１に移行する。

図８の説明に移行し、管理部１１１０は、監視対象の情報処理装置１３におけるサービスプロセッサ１３１の状態が「正常」であるか否かを、制御データ格納部１１１２に格納されているデータによって判断する（図８：ステップＳ５１）。状態が「正常」である場合（ステップＳ５１：Ｙｅｓルート）、１回目の状態確認をしたことになるので、管理部１１１０は、制御データ格納部１１１２に格納されているリトライカウンタの値を「１」に設定する（ステップＳ５３）。また、管理部１１１０は、制御データ格納部１１１２に格納されている、監視対象の情報処理装置１３におけるサービスプロセッサ１３１の状態を「リトライ中」に設定する（ステップＳ５５）。そして処理は端子Ｃを介して図６の処理に移行して終了する。

一方、状態が「正常」ではない場合（ステップＳ５１：Ｎｏルート）、管理部１１１０は、状態が「リトライ中」であるか否かを、制御データ格納部１１１２に格納されているデータによって判断する（ステップＳ５７）。状態が「リトライ中」である場合（ステップＳ５７：Ｙｅｓルート）、管理部１１１０は、制御データ格納部１１１２に格納されている、監視対象の情報処理装置１３についてのリトライカウンタの値を１インクリメントする（ステップＳ５９）。

そして、管理部１１１０は、リトライカウンタの値が、制御データ格納部１１１２に格納されているリトライ閾値以下であるか判断する（ステップＳ６１）。リトライカウンタの値がリトライ閾値以下である場合（ステップＳ６１：Ｙｅｓルート）、リトライを継続すべきであるため、処理は端子Ｃを介して図６の処理に移行して終了する。

一方、リトライカウンタの値が閾値より大きい場合（ステップＳ６１：Ｎｏルート）、管理部１１１０は、制御データ格納部１１１２に格納されている、監視対象の情報処理装置１３におけるサービスプロセッサ１３１の状態を「リブート中」に設定する（ステップＳ６３）。サービスプロセッサが停止した場合には、例えば自動的にサービスプロセッサのリブートが行われるので、リトライの回数がリトライ閾値を超えた場合（すなわち、ある程度時間が経過した場合）にはリブート中であるとみなされる。

そして、管理部１１１０は、設定データ格納部１１１３に格納されている、監視対象の情報処理装置１３のＩＰアドレスを、情報処理装置１１のＩＰアドレスに追加で設定する（ステップＳ６５）。ステップＳ６５においては、例えばＮＩＣ１１０における情報処理装置１１のＩＰアドレスの設定に、監視対象の情報処理装置１３のＩＰアドレスの設定を追加する。このようにすることで、管理装置５から監視対象の情報処理装置１３に対して送信されたオペレーションの実行要求は、情報処理装置１１にも転送されるようになる。管理装置５のユーザが送信先の変更などを行わなくても、監視対象の情報処理装置１３に対するオペレーションの実行要求は自動的に情報処理装置１１に対して送信されるようになる。

一方、状態が「リトライ中」ではない場合（ステップＳ５７：Ｎｏルート）、状態は「リブート中」である。管理部１１１０は、リトライカウンタの値を１インクリメントする（ステップＳ６７）。

管理部１１１０は、リトライカウンタの値が、制御データ格納部１１１２に格納されているリトライ回数の上限を超えたか判断する（ステップＳ６９）。リトライ回数の上限を超えていない場合（ステップＳ６９：Ｎｏルート）、リトライを継続するため、処理は端子Ｃを介して図６の処理に移行して終了する。一方、リトライ回数の上限を超えている場合（ステップＳ６９：Ｙｅｓルート）、監視対象の情報処理装置１３のリブートは失敗したと考えられる。そこで、管理部１１１０は、制御データ格納部１１１２に格納されている、監視対象の情報処理装置１３におけるサービスプロセッサ１３１の状態を「エラー」に設定する（ステップＳ７１）。そして処理は端子Ｃを介して図６の処理に移行して終了する。

図７の説明に戻り、状態確認要求に対する応答を受信した場合（ステップＳ３３：Ｙｅｓルート）、管理部１１１０は、制御データ格納部１１１２に格納されている、監視対象の情報処理装置１３におけるサービスプロセッサ１３１の状態を「正常」に設定する（ステップＳ３５）。

管理部１１１０は、制御データ格納部１１１２に格納されているリトライカウンタの値を「０」に設定する（ステップＳ３７）。

管理部１１１０は、監視対象の情報処理装置１３のＩＰアドレスが、ステップＳ６５の処理によって追加で設定されている場合には、監視対象の情報処理装置１３のＩＰアドレスについての設定を削除する（ステップＳ３９）。なお、監視対象の情報処理装置１３のＩＰアドレスについての設定は、リトライの回数がリトライ閾値を超えた場合に行われるので、設定が存在しない場合もある。

管理部１１１０は、監視対象の情報処理装置１３について、オペレーションのデータがオペレーションデータ格納部１１１４に格納されているか判断する（ステップＳ４１）。オペレーションデータ格納部１１１４には、監視対象の情報処理装置１３におけるサービスプロセッサ１３１に依存するオペレーション（すなわち、サービスプロセッサが正常に稼働していなければ実行できない処理）のデータがステップＳ１９の処理によって格納される。

図９に、オペレーションデータ格納部１１１４に格納されるデータの一例を示す。図９の例では、実行指示の発行元のＩＰアドレスと、実行指示の発行先の情報処理装置のＩＰアドレスと、実行指示の受信時刻と、オペレーションの種別と、オペレーションの実行に用いるパラメータとが格納される。

監視対象の情報処理装置１３について、オペレーションのデータがオペレーションデータ格納部１１１４に格納されていない場合（ステップＳ４１：Ｎｏルート）、実行すべきオペレーションは無いので、処理は端子Ｃを介して図６の説明に移行し終了する。

一方、監視対象の情報処理装置１３について、オペレーションのデータがオペレーションデータ格納部１１１４に格納されている場合（ステップＳ４１：Ｙｅｓルート）、そのオペレーションを実行すべきであるので、管理部１１１０は実行要求部１１１１に処理の実行を指示する。これに応じ、実行要求部１１１１は、そのオペレーションのデータを含む転送要求を共有メモリ１１５に格納する（ステップＳ４３）。

転送要求が共有メモリ１１５に格納されると、ホストＣＰＵ１１６は、転送要求を共有メモリ１１５から読み出し、転送要求に含まれるオペレーションのデータを含む実行要求を生成し、ネットワーク３３を介して、監視対象の情報処理装置１３に対して送信する（ステップＳ４５）。なお、ステップＳ４５の処理はホストＣＰＵ１１６によって実行されるので、図７においてステップＳ４５のブロックは破線で表されている。

実行要求を受信した、監視対象の情報処理装置１３におけるホストＣＰＵ１３６は、実行要求に含まれるオペレーションのデータを用いてオペレーションを実行する。オペレーションの実行が完了すると、監視対象の情報処理装置１３におけるホストＣＰＵ１３６は、オペレーションの完了を示す通知を、ネットワーク３１を介して情報処理装置１１のホストＣＰＵ１１６に送信する。

情報処理装置１１のホストＣＰＵ１１６は、オペレーションの完了を示す通知を監視対象の情報処理装置１３から受信すると、共有メモリ１１５に格納する。これによって、サービスプロセッサ１１１は、オペレーションの完了を示す通知を受信し（ステップＳ４７）、オペレーションが完了したことを確認する。ここで、サービスプロセッサ１１１は、監視対象の情報処理装置１３におけるサービスプロセッサのリブートが完了していれば、代行完了を示す通知を、監視対象の情報処理装置１３におけるサービスプロセッサ１３１に、ネットワーク３１を介して送信する。また、サービスプロセッサ１１１は、オペレーションの完了を示す通知を管理装置５に、ネットワーク３１を介して送信する。そして処理は端子Ｃを介して図６の説明に移行し終了する。

図６の説明に戻り、管理部１１１０は、前回の処理から所定時間が経過していない場合（ステップＳ１：Ｎｏルート）、情報処理装置１１を監視する情報処理装置から、状態確認要求を受信したか判断する（ステップＳ３）。

状態確認要求を受信した場合（ステップＳ３：Ｙｅｓルート）、サービスプロセッサ１１１の状態は正常であるので、管理部１１１０は、正常であることを示す応答を、状態確認要求の送信元の情報処理装置に、ネットワーク３１を介して送信する（ステップＳ５）。そして処理を終了する。一方、状態確認要求を受信していない場合（ステップＳ３：Ｎｏルート）、管理部１１１０は、オペレーションの実行指示を管理装置５から受信したか判断する（ステップＳ７）。

オペレーションの実行指示を管理装置５から受信していない場合（ステップＳ７：Ｎｏルート）、処理を継続するため、ステップＳ１の処理に戻る。一方、オペレーションの実行要求を受信した場合（ステップＳ７：Ｙｅｓルート）、管理部１１１０は、オペレーションの実行指示において指定されたオペレーションが、情報処理装置１１に対するオペレーションであるか判断する（ステップＳ９）。ステップＳ９においては、実行指示に含まれる、実行指示の発行先の情報処理装置のＩＰアドレスが情報処理装置１１のＩＰアドレスであるか否かによって判断する。

情報処理装置１１に対するオペレーションである場合（ステップＳ９：Ｙｅｓルート）、管理部１１１０は、実行指示において指定されたオペレーションのデータを含む、オペレーションの実行要求を共有メモリ１１５に格納する（ステップＳ１１）。そして処理を終了する。

これに応じ、ホストＣＰＵ１１６は、実行要求を共有メモリ１１５から読み出し、実行要求に含まれるオペレーションのデータを用いてオペレーションを実行する。オペレーションの実行が完了すると、ホストＣＰＵ１１６は、オペレーションの完了を示す通知を共有メモリ１１５に格納する。サービスプロセッサ１１１は、オペレーションの完了を示す通知が共有メモリ１１５に格納された場合、オペレーションの完了を示す通知を、ネットワーク３１を介して管理装置５に送信する。

一方、情報処理装置１１に対するオペレーションではない場合（ステップＳ９：Ｎｏルート）、管理部１１１０は、制御データ格納部１１１２に格納されている、監視対象の情報処理装置１３におけるサービスプロセッサ１３１の状態が「エラー」であるか否かを、制御データ格納部１１１２に格納されているデータによって判断する（ステップＳ１５）。

監視対象の情報処理装置１３におけるサービスプロセッサ１３１の状態が「エラー」である場合（ステップＳ１５：Ｙｅｓルート）、管理部１１１０は、監視対象の情報処理装置１３におけるサービスプロセッサ１３１においてエラーが発生したことを示す通知を、ネットワーク３１を介して管理装置５に送信する（ステップＳ１３）。これによって、管理装置５のユーザは、監視対象の情報処理装置１３においてエラーが発生したことを知ることができる。ユーザは、例えば、サービスプロセッサを交換する等の作業を行うことによって、エラーを解消する。一方、監視対象の情報処理装置１３におけるサービスプロセッサ１３１の状態が「エラー」ではない場合（ステップＳ１５：Ｎｏルート）、管理部１１１０は、実行指示において指定されているオペレーションが、監視対象の情報処理装置１３におけるサービスプロセッサ１３１に依存するオペレーションであるか判断する（ステップＳ１７）。

実行指示において指定されているオペレーションが、監視対象の情報処理装置１３におけるサービスプロセッサ１３１に依存するオペレーションである場合（ステップＳ１７：Ｙｅｓルート）、直ちにはオペレーションを実行できない。従って、管理部１１１０は、実行指示において指定されたオペレーションのデータをオペレーションデータ格納部１１１４に格納する。そして、管理部１１１０は、実行指示を受け付けたことを示す通知を、管理装置５に、ネットワーク３１を介して送信する（ステップＳ１９）。そして処理を終了する。

一方、実行指示において指定されているオペレーションが、監視対象の情報処理装置１３におけるサービスプロセッサ１３１に依存しないオペレーションである場合（ステップＳ１７：Ｎｏルート）、直ちにオペレーションを実行することができる。従って、管理部１１１０は実行要求部１１１１に処理の実行を指示する。なお、サービスプロセッサ１３１に依存しないオペレーションとは、例えばホストＣＰＵ１３６のシャットダウンである。

これに応じ、実行要求部１１１１は、そのオペレーションのデータを含む転送要求を共有メモリ１１５に格納する（ステップＳ２１）。

転送要求が共有メモリ１１５に格納されると、ホストＣＰＵ１１６は、転送要求を共有メモリ１１５から読み出し、転送要求に含まれるオペレーションのデータを含む実行要求を生成し、監視対象の情報処理装置１３に対して、ネットワーク３３を介して送信する（ステップＳ２３）。なお、ステップＳ２３の処理はホストＣＰＵ１１６によって実行されるので、図６においてステップＳ２３のブロックは破線で表されている。

実行要求を受信した、監視対象の情報処理装置１３におけるホストＣＰＵ１３６は、実行要求に含まれるオペレーションのデータを用いてオペレーションを実行する。オペレーションの実行が完了すると、監視対象の情報処理装置１３におけるホストＣＰＵ１３６は、オペレーションの完了を示す通知を、情報処理装置１１のホストＣＰＵ１１６に、ネットワーク３３を介して送信する。

情報処理装置１１のホストＣＰＵ１１６は、オペレーションの完了を示す通知を監視対象の情報処理装置１３から受信すると、共有メモリ１１５に格納する。これによって、サービスプロセッサ１１１は、オペレーションの完了を示す通知を受信し（ステップＳ２５）、オペレーションが完了したことを確認する。ここで、サービスプロセッサ１１１は、監視対象の情報処理装置１３におけるサービスプロセッサ１３１のリブートが完了していれば、代行完了を示す通知を、監視対象の情報処理装置１３におけるサービスプロセッサ１３１に、ネットワーク３１を介して送信する。また、サービスプロセッサ１１１は、オペレーションの完了を示す通知を、管理装置５に、ネットワーク３１を介して送信する。そして処理を終了する。

図１０に、以上のような本実施の形態の処理の概要を示す。図１０においては、サービスプロセッサ１１１がサービスプロセッサ１３１を監視している場合において、サービスプロセッサ１３１がリブート中である。このような場合、管理装置５からサービスプロセッサ１３１に対して送信されるオペレーションの実行指示は、サービスプロセッサ１３１には受け付けられない。

但し、サービスプロセッサ１１１は、管理装置５からサービスプロセッサ１３１に対して送信されるオペレーションの実行指示を代わりに受信する。そして、サービスプロセッサ１１１は、実行指示において指定されたオペレーションのデータを含む転送要求を、共有メモリ１１５を介してホストＣＰＵ１１６に送信する。

ホストＣＰＵ１１６は、転送要求に含まれるオペレーションのデータを含む実行要求を生成し、ホストＣＰＵ１３６に対して送信する。ホストＣＰＵ１３６は、ホストＣＰＵ１１６から実行要求を受信すると、実行要求に含まれるオペレーションのデータを用いてオペレーションを実行する。

次に、図１１及び図１２を用いて、本実施の形態の効果について説明する。図１１及び図１２においては、ホストＣＰＵがシャットダウンというオペレーション及び再起動というオペレーションを実行するが、図１１においては本実施の形態の処理を実行せず、図１２においては本実施の形態の処理を実行する。

まず、図１１を用いて、本実施の形態の処理を実行しない場合について説明する。この場合、管理装置５からサービスプロセッサ（図１１及び図１２においては、ＳＰと略されている）に対して実行指示が送信されても、サービスプロセッサはリブート中であるので、実行指示を受け付けることができない。サービスプロセッサが正常な動作を再開すると、実行指示を受け付け、管理装置５に応答を返す。サービスプロセッサは、シャットダウンのオペレーションをホストＣＰＵに実行させる。シャットダウンのオペレーションが完了すると、ホストＣＰＵはオペレーションの完了を管理装置５に通知する。シャットダウンのオペレーションの完了が通知されると、管理装置５は、サービスプロセッサに対して実行指示を送信する。サービスプロセッサは実行指示を受け付けると、管理装置５に応答を返すと共に、再起動のオペレーションをホストＣＰＵに実行させる。

このように、管理装置５は無駄な実行指示（すなわち、１回目及び２回目の実行指示）を送信することになるので、無駄な通信負荷がネットワーク３１に発生し、また管理装置５に無駄な処理負荷が発生する。また、サービスプロセッサのリブートが完了して正常な動作を再開するまでは、ホストＣＰＵはオペレーションを実行できないので、オペレーションの実行開始が遅れることになる。

これに対し、本実施の形態の処理を実行した場合について図１２を用いて説明する。この場合、サービスプロセッサがリブート中であっても、管理装置５からサービスプロセッサに対して送信された実行指示を、監視を行う情報処理装置が代わりに受け付ける。実行指示を受け付けた情報処理装置におけるホストＣＰＵは、実行指示において指定されたオペレーションの実行要求を、監視対象の情報処理装置におけるサービスプロセッサを介さず、ホストＣＰＵに直接送信する。監視対象の情報処理装置におけるホストＣＰＵは、シャットダウンのオペレーションを実行し、シャットダウンのオペレーションが完了すると、オペレーションの完了を、監視を行う情報処理装置におけるサービスプロセッサに送信する。監視を行う情報処理装置におけるサービスプロセッサは、オペレーションの完了を通知されると、代行の完了を監視対象の情報処理装置に通知すると共に、オペレーションの完了を管理装置５に通知する。監視対象の情報処理装置におけるサービスプロセッサは、代行の完了が通知されると、正常な動作を再開する。シャットダウンのオペレーションの完了を通知されると、管理装置５は、監視対象の情報処理装置におけるサービスプロセッサに対して実行指示を送信する。サービスプロセッサは実行指示を受け付けると、管理装置５に応答を返すと共に、再起動のオペレーションをホストＣＰＵに実行させる。

このように、本実施の形態の処理を実行した場合には、管理装置５が無駄な実行指示を送信することはないので、無駄な通信負荷がネットワーク３１に発生することはなく、また管理装置５に無駄な処理負荷が発生することもない。また、サービスプロセッサのリブートが完了して正常な動作を再開する前であっても、ホストＣＰＵはオペレーションを実行できるので、オペレーションの実行開始が遅れることはない。

以上本発明の一実施の形態を説明したが、本発明はこれに限定されるものではない。例えば、上で説明した情報処理装置１１乃至１５の機能ブロック構成は実際のプログラムモジュール構成に一致しない場合もある。

また、上で説明した各テーブルの構成は一例であって、上記のような構成でなければならないわけではない。さらに、処理フローにおいても、処理結果が変わらなければ処理の順番を入れ替えることも可能である。さらに、並列に実行させるようにしても良い。

なお、上で述べた管理装置５は、コンピュータ装置であって、図１３に示すように、メモリ２５０１とＣＰＵ（Central Processing Unit）２５０３とハードディスク・ドライブ（ＨＤＤ：Hard Disk Drive）２５０５と表示装置２５０９に接続される表示制御部２５０７とリムーバブル・ディスク２５１１用のドライブ装置２５１３と入力装置２５１５とネットワークに接続するための通信制御部２５１７とがバス２５１９で接続されている。オペレーティング・システム（ＯＳ：Operating System）及び本実施例における処理を実施するためのアプリケーション・プログラムは、ＨＤＤ２５０５に格納されており、ＣＰＵ２５０３により実行される際にはＨＤＤ２５０５からメモリ２５０１に読み出される。ＣＰＵ２５０３は、アプリケーション・プログラムの処理内容に応じて表示制御部２５０７、通信制御部２５１７、ドライブ装置２５１３を制御して、所定の動作を行わせる。また、処理途中のデータについては、主としてメモリ２５０１に格納されるが、ＨＤＤ２５０５に格納されるようにしてもよい。本発明の実施例では、上で述べた処理を実施するためのアプリケーション・プログラムはコンピュータ読み取り可能なリムーバブル・ディスク２５１１に格納されて頒布され、ドライブ装置２５１３からＨＤＤ２５０５にインストールされる。インターネットなどのネットワーク及び通信制御部２５１７を経由して、ＨＤＤ２５０５にインストールされる場合もある。このようなコンピュータ装置は、上で述べたＣＰＵ２５０３、メモリ２５０１などのハードウェアとＯＳ及びアプリケーション・プログラムなどのプログラムとが有機的に協働することにより、上で述べたような各種機能を実現する。

以上述べた本実施の形態をまとめると以下のようになる。

本実施の形態の第１の態様に係る情報処理システムは、（Ａ）管理装置と、（Ｂ）各々が実行部（例えば、実施の形態におけるホストＣＰＵ）と管理装置から実行指示を受け付け当該実行指示において指定された処理を実行部に実行させる制御部（例えば、実施の形態におけるサービスプロセッサ）とを含む複数の情報処理装置とを有する。そして、複数の情報処理装置のうちいずれかの情報処理装置における制御部が、（ｂ１）複数の情報処理装置のうちの他の情報処理装置における制御部の停止を検出した場合に、管理装置から他の情報処理装置における制御部に対して送信された第１の実行指示を、他の情報処理装置の代わりに受け付ける第１処理部と、（ｂ２）他の情報処理装置における実行部に対し、第１の実行指示において指定された処理の実行を要求する第２処理部とを有する。

このようにすれば、情報処理装置における制御部が停止した場合に、その情報処理装置の実行部に別ルートから処理を要求できるので、その実行部による処理の実行が遅れることを抑制できるようになる。

また、上で述べた第２処理部は、（ｂ２１）第１の実行指示において指定された処理が、他の情報処理装置における制御部が稼働していなければ実行できない処理である場合に、第１の実行指示を記憶装置に格納し、（ｂ２２）他の情報処理装置における制御部の稼働が再開した場合に、他の情報処理装置における実行部に対し、記憶装置に格納された第１の実行指示において指定された処理の実行を要求するようにしてもよい。このようにすれば、他の情報処理装置における制御部の稼働が再開した後迅速に処理を実行できるようになる。

また、上で述べた第１処理部は、（ｂ１１）他の情報処理装置のアドレスを自情報処理装置に設定してもよい。このようにすれば、他の情報処理装置に対して送信された実行指示を受信できるようになる。

また、上で述べた第１処理部は、（ｂ１２）他の情報処理装置における制御部に対して送信したデータに対する応答を当該制御部から受信するか否かによって、制御部の停止を検出してもよい。このようにすれば、制御部の停止を確実に検出できるようになる。

本実施の形態の第１の態様に係る情報処理方法は、（Ｃ）実行部と、管理装置から受け付けた実行指示において指定された処理を実行部に実行させる制御部とを有する他の情報処理装置において、制御部が停止したことを検出した場合に、管理装置から他の情報処理装置における制御部に対して送信された第１の実行指示を、他の情報処理装置の代わりに受け付け、（Ｄ）他の情報処理装置における実行部に対し、第１の実行指示において指定された処理の実行を要求する処理を含む。

なお、上記方法による処理をコンピュータに行わせるためのプログラムを作成することができ、当該プログラムは、例えばフレキシブルディスク、ＣＤ−ＲＯＭ、光磁気ディスク、半導体メモリ、ハードディスク等のコンピュータ読み取り可能な記憶媒体又は記憶装置に格納される。尚、中間的な処理結果はメインメモリ等の記憶装置に一時保管される。

Claims

管理装置と、
各々が実行部と前記管理装置から実行指示を受け付け当該実行指示において指定された処理を前記実行部に実行させる制御部とを含む複数の情報処理装置と、
を有し、
前記複数の情報処理装置のうちいずれかの情報処理装置における前記制御部が、
前記複数の情報処理装置のうちの他の情報処理装置における前記制御部の停止を検出した場合に、前記管理装置から前記他の情報処理装置における前記制御部に対して送信された第１の実行指示を、前記他の情報処理装置の代わりに受け付ける第１処理部と、
前記他の情報処理装置における前記実行部に対し、前記第１の実行指示において指定された処理の実行を要求する第２処理部と、
を有し、
前記第２処理部は、
前記第１の実行指示において指定された処理が、前記他の情報処理装置における前記制御部が稼働していなければ実行できない処理である場合に、前記第１の実行指示を記憶装置に格納し、
前記他の情報処理装置における前記制御部の稼働が再開した場合に、前記他の情報処理装置における前記実行部に対し、前記記憶装置に格納された前記第１の実行指示において指定された処理の実行を要求する
情報処理システム。
前記第１処理部は、
前記他の情報処理装置のアドレスを自情報処理装置に設定する
請求項１記載の情報処理システム。
実行部と、
管理装置から実行指示を受け付け当該実行指示において指定された処理を前記実行部に実行させる制御部と、
を有し、
前記制御部が、
他の情報処理装置における制御部の停止を検出した場合に、前記管理装置から前記他の情報処理装置における前記制御部に対して送信された第１の実行指示を、前記他の情報処理装置の代わりに受け付ける第１処理部と、
前記他の情報処理装置における実行部に対し、前記第１の実行指示において指定された処理の実行を要求する第２処理部と、
を有し、
前記第２処理部は、
前記第１の実行指示において指定された処理が、前記他の情報処理装置における前記制御部が稼働していなければ実行できない処理である場合に、前記第１の実行指示を記憶装置に格納し、
前記他の情報処理装置における前記制御部の稼働が再開した場合に、前記他の情報処理装置における前記実行部に対し、前記記憶装置に格納された前記第１の実行指示において指定された処理の実行を要求する
情報処理装置。
実行部と、管理装置から受け付けた実行指示において指定された処理を前記実行部に実行させる制御部とを有する他の情報処理装置において、前記制御部が停止したことを検出した場合に、前記管理装置から前記他の情報処理装置における前記制御部に対して送信された第１の実行指示を、前記他の情報処理装置の代わりに受け付け、
前記他の情報処理装置における実行部に対し、前記第１の実行指示において指定された処理の実行を要求する、
処理をコンピュータが実行し、
前記第１の実行指示において指定された処理の実行を要求する処理において、
前記第１の実行指示において指定された処理が、前記他の情報処理装置における前記制御部が稼働していなければ実行できない処理である場合に、前記第１の実行指示を記憶装置に格納し、
前記他の情報処理装置における前記制御部の稼働が再開した場合に、前記他の情報処理装置における前記実行部に対し、前記記憶装置に格納された前記第１の実行指示において指定された処理の実行を要求する
情報処理方法。
実行部と、管理装置から受け付けた実行指示において指定された処理を前記実行部に実行させる制御部とを有する他の情報処理装置において、前記制御部が停止したことを検出した場合に、前記管理装置から前記他の情報処理装置における前記制御部に対して送信された第１の実行指示を、前記他の情報処理装置の代わりに受け付け、
前記他の情報処理装置における実行部に対し、前記第１の実行指示において指定された処理の実行を要求する、
処理をコンピュータに実行させ、
前記第１の実行指示において指定された処理の実行を要求する処理において、
前記第１の実行指示において指定された処理が、前記他の情報処理装置における前記制御部が稼働していなければ実行できない処理である場合に、前記第１の実行指示を記憶装置に格納し、
前記他の情報処理装置における前記制御部の稼働が再開した場合に、前記他の情報処理装置における前記実行部に対し、前記記憶装置に格納された前記第１の実行指示において指定された処理の実行を要求する
情報処理プログラム。