JP6112205B2 - 情報処理システム、装置、方法及びプログラム - Google Patents

情報処理システム、装置、方法及びプログラム Download PDF

Info

Publication number
JP6112205B2
JP6112205B2 JP2015529233A JP2015529233A JP6112205B2 JP 6112205 B2 JP6112205 B2 JP 6112205B2 JP 2015529233 A JP2015529233 A JP 2015529233A JP 2015529233 A JP2015529233 A JP 2015529233A JP 6112205 B2 JP6112205 B2 JP 6112205B2
Authority
JP
Japan
Prior art keywords
information processing
execution
processing apparatus
unit
control unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015529233A
Other languages
English (en)
Other versions
JPWO2015015544A1 (ja
Inventor
広大 太田
広大 太田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JPWO2015015544A1 publication Critical patent/JPWO2015015544A1/ja
Application granted granted Critical
Publication of JP6112205B2 publication Critical patent/JP6112205B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Hardware Redundancy (AREA)

Description

システムにおいて発生したエラーに対処する技術に関する。
サービスプロセッサ(Service Processor)は、サーバにおけるCPU或いはメモリ等のハードウェアとは独立して動作し、これらのハードウェアの監視及び制御等を行う。サービスプロセッサという言葉は、いわゆるプロセッサを指す場合もあるし、プロセッサ、メモリ及びボード等を含む処理ユニットを指す場合もある。
サービスプロセッサは、外部の装置等からオペレーションの実行指示を受け付けた場合、CPUにオペレーションを実行させるように制御を行う。サービスプロセッサが正常に稼働している場合には問題は無いが、もしサービスプロセッサがソフトウェアエラー等によって停止した場合には、CPUがオペレーションを実行できなくなるという問題がある。
システムにおいて発生したエラーに対処するための技術として、以下のような技術が知られている。具体的には、ネットワーク上に複数のノードが有るシステムにおいて、各ノードは、アドレス管理テーブル上における次エントリのノードを監視する。これにより、各ノードは次エントリのノードを監視すると共に、前エントリのノードから監視される。監視対象のノードにおける障害の発生を検知したノードは、障害が発生したノードの機能を代理し、また障害が発生したノードが担当する監視を代理する。
しかし、この技術におけるノードには、サービスプロセッサが設けられていない。そのため、サービスプロセッサがエラーによって停止した場合には、サービスプロセッサによって制御されるCPUが処理を実行できず、結果としてサーバによる処理の実行が遅れるという問題には対処することができない。
特開2011−60056号公報
従って、1つの側面では、本発明の目的は、サーバにおけるサービスプロセッサが停止した場合に、そのサーバによる処理の実行が遅れることを抑制するための技術を提供することである。
本発明に係る情報処理システムは、管理装置と、各々が実行部と管理装置から実行指示を受け付け当該実行指示において指定された処理を実行部に実行させる制御部とを含む複数の情報処理装置とを有する。そして、複数の情報処理装置のうちいずれかの情報処理装置における制御部が、複数の情報処理装置のうちの他の情報処理装置における制御部の停止を検出した場合に、管理装置から他の情報処理装置における制御部に対して送信された第1の実行指示を、他の情報処理装置の代わりに受け付ける第1処理部と、他の情報処理装置における実行部に対し、第1の実行指示において指定された処理の実行を要求する第2処理部とを有する。
サーバにおけるサービスプロセッサが停止した場合に、そのサーバによる処理の実行が遅れることを抑制できるようになる。
図1は、本実施の形態のシステム概要を示す図である。 図2は、サービスプロセッサの機能ブロック図である。 図3は、制御データ格納部に格納されるデータの一例を示す図である。 図4は、設定データ格納部に格納されるデータの一例を示す図である。 図5は、本実施の形態における監視方法の一例を示す図である。 図6は、メインの処理フローを示す図である。 図7は、メインの処理フローを示す図である。 図8は、メインの処理フローを示す図である。 図9は、オペレーションデータ格納部に格納されるデータの一例を示す図である。 図10は、本実施の形態の処理の概要を示す図である。 図11は、本実施の形態の効果について説明するための図である。 図12は、本実施の形態の効果について説明するための図である。 図13は、コンピュータの機能ブロック図である。
図1に、本実施の形態のシステム概要を示す。例えばLAN(Local Area Network)であるネットワーク31には、情報処理装置11と、情報処理装置13と、情報処理装置15と、管理装置5とが接続されている。情報処理装置11はNIC(Network Interface Card)110を介してネットワーク31に接続され、情報処理装置13はNIC130を介してネットワーク31に接続され、情報処理装置15はNIC150を介してネットワーク31に接続される。ネットワーク31は、情報処理装置11乃至15におけるサービスプロセッサ間の通信及びサービスプロセッサと管理装置5との間の通信のためのネットワークである。NICは、例えばLANカードである。
また、例えばLANであるネットワーク33には、情報処理装置11と、情報処理装置13と、情報処理装置15とが接続されている。情報処理装置11はNIC(Network Interface Card)117を介してネットワーク33に接続され、情報処理装置13はNIC137を介してネットワーク33に接続され、情報処理装置15はNIC157を介してネットワーク33に接続される。ネットワーク33は、情報処理装置11乃至15におけるホストCPU間の通信のためのネットワークである。NICは、例えばLANカードである。
情報処理装置11は、NIC110と、CPU112、HDD(Hard Disk Drive)113及びメモリ114を含むサービスプロセッサ111と、共有メモリ115と、ホストCPU116と、NIC117とを有する。サービスプロセッサ111は、ホストCPU116の監視及び制御並びに他のサービスプロセッサの監視等を行う。共有メモリ115は、サービスプロセッサ111とホストCPU116との間でデータを交換するためのメモリである。ホストCPU116は、管理装置5からのオペレーションの実行指示をサービスプロセッサ111を介して受信し、オペレーションを実行する。情報処理装置13及び15は、情報処理装置11と同様であるので、説明を省略する。
本実施の形態においては、ユーザにより操作された管理装置5が、情報処理装置に対するオペレーションの実行指示を、その情報処理装置におけるサービスプロセッサに対して、ネットワーク31を介して送信する。サービスプロセッサは、オペレーションの実行指示において指定されたオペレーションがホストCPUに実行させるオペレーションである場合には、共有メモリにそのオペレーションのデータを格納する。ホストCPUは、共有メモリに格納されたオペレーションのデータを用いて、オペレーションを実行する。オペレーションとは、例えば、ホストCPUのシャットダウン或いはリブート(すなわち再起動)等の処理である。
なお、図1においては情報処理装置の数が3であるが、数に限定は無い。
図2に、サービスプロセッサ111の機能ブロック図を示す。サービスプロセッサ111は、管理部1110と、実行要求部1111と、制御データ格納部1112と、設定データ格納部1113と、オペレーションデータ格納部1114とを含む。管理部1110及び実行要求部1111は、HDD113に格納されているプログラムがCPU112に実行されることによって実現される。また、制御データ格納部1112、設定データ格納部1113及びオペレーションデータ格納部1114のための領域は、HDD113又はメモリ114に確保される。
管理部1110は、制御データ格納部1112に格納されているデータ及び設定データ格納部1113に格納されているデータを用いて処理を行う。具体的には、管理部1110は、他の情報処理装置におけるサービスプロセッサを監視する処理、監視対象のサービスプロセッサの停止を検出する処理、及び他の情報処理装置に対して送信されたオペレーションの実行指示を他の情報処理装置の代わりに受信する処理等を実行する。実行要求部1111は、オペレーションデータ格納部1114に格納されているデータを用いて処理を行う。具体的には、実行要求部1111は、他の情報処理装置におけるホストCPUがすぐには実行することができないオペレーションのデータをオペレーションデータ格納部1114に一時的に保存する処理、及び情報処理装置11に対するオペレーションのデータ及び監視対象の情報処理装置に対するオペレーションのデータを共有メモリ115に格納する処理等を実行する。
なお、サービスプロセッサ131の機能ブロック図及びサービスプロセッサ151の機能ブロック図は、サービスプロセッサ111の機能ブロック図と同様であるので、説明を省略する。
図3に、制御データ格納部1112に格納されるデータの一例を示す。図3の例では、監視対象の情報処理装置のID(IDentifier)と、監視対象の情報処理装置におけるサービスプロセッサの状態を示すデータと、状態確認のリトライの回数をカウントするためのリトライカウンタと、リトライ回数の閾値と、リトライ回数の上限とが格納される。サービスプロセッサの状態が「正常」である場合には、そのサービスプロセッサは正常に稼働している。サービスプロセッサの状態が「リトライ中」である場合には、そのサービスプロセッサに対して状態確認のリトライが行われている。サービスプロセッサの状態が「リブート中」である場合には、そのサービスプロセッサがリブートしている。サービスプロセッサの状態が「エラー」である場合には、そのサービスプロセッサにおけるリブートは失敗している。リトライカウンタは、リトライが行われる度に1インクリメントされる。リトライ回数の上限は、設定データ格納部1113に格納されているリブート時間を用いて、例えば(リブート時間)/(状態確認を実行する時間間隔)として算出される。
図4に、設定データ格納部1113に格納されるデータの一例を示す。図4の例では、情報処理装置のIDと、情報処理装置のシリアル番号と、情報処理装置のIPアドレスと、その情報処理装置によって監視される情報処理装置のIDと、その情報処理装置によって監視される情報処理装置のリブート時間(すなわち、リブートに要する時間)とが格納される。設定データ格納部1113には、システムにおける全情報処理装置についてデータが格納される。
図5に、本実施の形態における監視方法の一例を示す。図5の例では、サービスプロセッサ111がサービスプロセッサ131を監視し、サービスプロセッサ131がサービスプロセッサ151を監視し、サービスプロセッサ151がサービスプロセッサ111を監視する。このように監視することで、いずれのサービスプロセッサも監視されるようになるので、どのサービスプロセッサが停止したとしてもそのサービスプロセッサの停止は検出される。なお、監視の方法は、いずれのサービスプロセッサも監視されるという条件を満たすのであれば、図5のような監視方法でなくてもよい。
次に、図6乃至図12を用いて、本実施の形態におけるシステムにおいて行われる処理について説明する。ここでは、主に情報処理装置11が実行する処理について説明することによって、本実施の形態におけるシステムにおいて行われる処理について説明する。なお、図6乃至図9を用いて説明する処理は、監視対象の情報処理装置毎に且つ定期的に行われる。
まず、情報処理装置11における管理部1110は、前回の処理から所定時間が経過したか判断する(図6:ステップS1)。所定時間が経過した場合(ステップS1:Yesルート)、監視対象の情報処理装置(以下では、情報処理装置13とする)について状態確認を行うタイミングになったので、処理は端子Aを介して図7のステップS31に移行する。
図7の説明に移行し、管理部1110は、ネットワーク31を介して、状態確認要求を監視対象の情報処理装置13に送信する(図7:ステップS31)。状態確認要求は、監視対象の情報処理装置13におけるサービスプロセッサ131の状態を確認するための要求である。状態確認要求に対する応答が返ってくれば、監視対象の情報処理装置13におけるサービスプロセッサ131が正常に稼働していると判断される。
管理部1110は、状態確認要求に対する応答を受信したか判断する(ステップS33)。応答を受信していない場合(ステップS33:Noルート)、処理は端子Bを介して図8のS51に移行する。
図8の説明に移行し、管理部1110は、監視対象の情報処理装置13におけるサービスプロセッサ131の状態が「正常」であるか否かを、制御データ格納部1112に格納されているデータによって判断する(図8:ステップS51)。状態が「正常」である場合(ステップS51:Yesルート)、1回目の状態確認をしたことになるので、管理部1110は、制御データ格納部1112に格納されているリトライカウンタの値を「1」に設定する(ステップS53)。また、管理部1110は、制御データ格納部1112に格納されている、監視対象の情報処理装置13におけるサービスプロセッサ131の状態を「リトライ中」に設定する(ステップS55)。そして処理は端子Cを介して図6の処理に移行して終了する。
一方、状態が「正常」ではない場合(ステップS51:Noルート)、管理部1110は、状態が「リトライ中」であるか否かを、制御データ格納部1112に格納されているデータによって判断する(ステップS57)。状態が「リトライ中」である場合(ステップS57:Yesルート)、管理部1110は、制御データ格納部1112に格納されている、監視対象の情報処理装置13についてのリトライカウンタの値を1インクリメントする(ステップS59)。
そして、管理部1110は、リトライカウンタの値が、制御データ格納部1112に格納されているリトライ閾値以下であるか判断する(ステップS61)。リトライカウンタの値がリトライ閾値以下である場合(ステップS61:Yesルート)、リトライを継続すべきであるため、処理は端子Cを介して図6の処理に移行して終了する。
一方、リトライカウンタの値が閾値より大きい場合(ステップS61:Noルート)、管理部1110は、制御データ格納部1112に格納されている、監視対象の情報処理装置13におけるサービスプロセッサ131の状態を「リブート中」に設定する(ステップS63)。サービスプロセッサが停止した場合には、例えば自動的にサービスプロセッサのリブートが行われるので、リトライの回数がリトライ閾値を超えた場合(すなわち、ある程度時間が経過した場合)にはリブート中であるとみなされる。
そして、管理部1110は、設定データ格納部1113に格納されている、監視対象の情報処理装置13のIPアドレスを、情報処理装置11のIPアドレスに追加で設定する(ステップS65)。ステップS65においては、例えばNIC110における情報処理装置11のIPアドレスの設定に、監視対象の情報処理装置13のIPアドレスの設定を追加する。このようにすることで、管理装置5から監視対象の情報処理装置13に対して送信されたオペレーションの実行要求は、情報処理装置11にも転送されるようになる。管理装置5のユーザが送信先の変更などを行わなくても、監視対象の情報処理装置13に対するオペレーションの実行要求は自動的に情報処理装置11に対して送信されるようになる。
一方、状態が「リトライ中」ではない場合(ステップS57:Noルート)、状態は「リブート中」である。管理部1110は、リトライカウンタの値を1インクリメントする(ステップS67)。
管理部1110は、リトライカウンタの値が、制御データ格納部1112に格納されているリトライ回数の上限を超えたか判断する(ステップS69)。リトライ回数の上限を超えていない場合(ステップS69:Noルート)、リトライを継続するため、処理は端子Cを介して図6の処理に移行して終了する。一方、リトライ回数の上限を超えている場合(ステップS69:Yesルート)、監視対象の情報処理装置13のリブートは失敗したと考えられる。そこで、管理部1110は、制御データ格納部1112に格納されている、監視対象の情報処理装置13におけるサービスプロセッサ131の状態を「エラー」に設定する(ステップS71)。そして処理は端子Cを介して図6の処理に移行して終了する。
図7の説明に戻り、状態確認要求に対する応答を受信した場合(ステップS33:Yesルート)、管理部1110は、制御データ格納部1112に格納されている、監視対象の情報処理装置13におけるサービスプロセッサ131の状態を「正常」に設定する(ステップS35)。
管理部1110は、制御データ格納部1112に格納されているリトライカウンタの値を「0」に設定する(ステップS37)。
管理部1110は、監視対象の情報処理装置13のIPアドレスが、ステップS65の処理によって追加で設定されている場合には、監視対象の情報処理装置13のIPアドレスについての設定を削除する(ステップS39)。なお、監視対象の情報処理装置13のIPアドレスについての設定は、リトライの回数がリトライ閾値を超えた場合に行われるので、設定が存在しない場合もある。
管理部1110は、監視対象の情報処理装置13について、オペレーションのデータがオペレーションデータ格納部1114に格納されているか判断する(ステップS41)。オペレーションデータ格納部1114には、監視対象の情報処理装置13におけるサービスプロセッサ131に依存するオペレーション(すなわち、サービスプロセッサが正常に稼働していなければ実行できない処理)のデータがステップS19の処理によって格納される。
図9に、オペレーションデータ格納部1114に格納されるデータの一例を示す。図9の例では、実行指示の発行元のIPアドレスと、実行指示の発行先の情報処理装置のIPアドレスと、実行指示の受信時刻と、オペレーションの種別と、オペレーションの実行に用いるパラメータとが格納される。
監視対象の情報処理装置13について、オペレーションのデータがオペレーションデータ格納部1114に格納されていない場合(ステップS41:Noルート)、実行すべきオペレーションは無いので、処理は端子Cを介して図6の説明に移行し終了する。
一方、監視対象の情報処理装置13について、オペレーションのデータがオペレーションデータ格納部1114に格納されている場合(ステップS41:Yesルート)、そのオペレーションを実行すべきであるので、管理部1110は実行要求部1111に処理の実行を指示する。これに応じ、実行要求部1111は、そのオペレーションのデータを含む転送要求を共有メモリ115に格納する(ステップS43)。
転送要求が共有メモリ115に格納されると、ホストCPU116は、転送要求を共有メモリ115から読み出し、転送要求に含まれるオペレーションのデータを含む実行要求を生成し、ネットワーク33を介して、監視対象の情報処理装置13に対して送信する(ステップS45)。なお、ステップS45の処理はホストCPU116によって実行されるので、図7においてステップS45のブロックは破線で表されている。
実行要求を受信した、監視対象の情報処理装置13におけるホストCPU136は、実行要求に含まれるオペレーションのデータを用いてオペレーションを実行する。オペレーションの実行が完了すると、監視対象の情報処理装置13におけるホストCPU136は、オペレーションの完了を示す通知を、ネットワーク31を介して情報処理装置11のホストCPU116に送信する。
情報処理装置11のホストCPU116は、オペレーションの完了を示す通知を監視対象の情報処理装置13から受信すると、共有メモリ115に格納する。これによって、サービスプロセッサ111は、オペレーションの完了を示す通知を受信し(ステップS47)、オペレーションが完了したことを確認する。ここで、サービスプロセッサ111は、監視対象の情報処理装置13におけるサービスプロセッサのリブートが完了していれば、代行完了を示す通知を、監視対象の情報処理装置13におけるサービスプロセッサ131に、ネットワーク31を介して送信する。また、サービスプロセッサ111は、オペレーションの完了を示す通知を管理装置5に、ネットワーク31を介して送信する。そして処理は端子Cを介して図6の説明に移行し終了する。
図6の説明に戻り、管理部1110は、前回の処理から所定時間が経過していない場合(ステップS1:Noルート)、情報処理装置11を監視する情報処理装置から、状態確認要求を受信したか判断する(ステップS3)。
状態確認要求を受信した場合(ステップS3:Yesルート)、サービスプロセッサ111の状態は正常であるので、管理部1110は、正常であることを示す応答を、状態確認要求の送信元の情報処理装置に、ネットワーク31を介して送信する(ステップS5)。そして処理を終了する。一方、状態確認要求を受信していない場合(ステップS3:Noルート)、管理部1110は、オペレーションの実行指示を管理装置5から受信したか判断する(ステップS7)。
オペレーションの実行指示を管理装置5から受信していない場合(ステップS7:Noルート)、処理を継続するため、ステップS1の処理に戻る。一方、オペレーションの実行要求を受信した場合(ステップS7:Yesルート)、管理部1110は、オペレーションの実行指示において指定されたオペレーションが、情報処理装置11に対するオペレーションであるか判断する(ステップS9)。ステップS9においては、実行指示に含まれる、実行指示の発行先の情報処理装置のIPアドレスが情報処理装置11のIPアドレスであるか否かによって判断する。
情報処理装置11に対するオペレーションである場合(ステップS9:Yesルート)、管理部1110は、実行指示において指定されたオペレーションのデータを含む、オペレーションの実行要求を共有メモリ115に格納する(ステップS11)。そして処理を終了する。
これに応じ、ホストCPU116は、実行要求を共有メモリ115から読み出し、実行要求に含まれるオペレーションのデータを用いてオペレーションを実行する。オペレーションの実行が完了すると、ホストCPU116は、オペレーションの完了を示す通知を共有メモリ115に格納する。サービスプロセッサ111は、オペレーションの完了を示す通知が共有メモリ115に格納された場合、オペレーションの完了を示す通知を、ネットワーク31を介して管理装置5に送信する。
一方、情報処理装置11に対するオペレーションではない場合(ステップS9:Noルート)、管理部1110は、制御データ格納部1112に格納されている、監視対象の情報処理装置13におけるサービスプロセッサ131の状態が「エラー」であるか否かを、制御データ格納部1112に格納されているデータによって判断する(ステップS15)。
監視対象の情報処理装置13におけるサービスプロセッサ131の状態が「エラー」である場合(ステップS15:Yesルート)、管理部1110は、監視対象の情報処理装置13におけるサービスプロセッサ131においてエラーが発生したことを示す通知を、ネットワーク31を介して管理装置5に送信する(ステップS13)。これによって、管理装置5のユーザは、監視対象の情報処理装置13においてエラーが発生したことを知ることができる。ユーザは、例えば、サービスプロセッサを交換する等の作業を行うことによって、エラーを解消する。一方、監視対象の情報処理装置13におけるサービスプロセッサ131の状態が「エラー」ではない場合(ステップS15:Noルート)、管理部1110は、実行指示において指定されているオペレーションが、監視対象の情報処理装置13におけるサービスプロセッサ131に依存するオペレーションであるか判断する(ステップS17)。
実行指示において指定されているオペレーションが、監視対象の情報処理装置13におけるサービスプロセッサ131に依存するオペレーションである場合(ステップS17:Yesルート)、直ちにはオペレーションを実行できない。従って、管理部1110は、実行指示において指定されたオペレーションのデータをオペレーションデータ格納部1114に格納する。そして、管理部1110は、実行指示を受け付けたことを示す通知を、管理装置5に、ネットワーク31を介して送信する(ステップS19)。そして処理を終了する。
一方、実行指示において指定されているオペレーションが、監視対象の情報処理装置13におけるサービスプロセッサ131に依存しないオペレーションである場合(ステップS17:Noルート)、直ちにオペレーションを実行することができる。従って、管理部1110は実行要求部1111に処理の実行を指示する。なお、サービスプロセッサ131に依存しないオペレーションとは、例えばホストCPU136のシャットダウンである。
これに応じ、実行要求部1111は、そのオペレーションのデータを含む転送要求を共有メモリ115に格納する(ステップS21)。
転送要求が共有メモリ115に格納されると、ホストCPU116は、転送要求を共有メモリ115から読み出し、転送要求に含まれるオペレーションのデータを含む実行要求を生成し、監視対象の情報処理装置13に対して、ネットワーク33を介して送信する(ステップS23)。なお、ステップS23の処理はホストCPU116によって実行されるので、図6においてステップS23のブロックは破線で表されている。
実行要求を受信した、監視対象の情報処理装置13におけるホストCPU136は、実行要求に含まれるオペレーションのデータを用いてオペレーションを実行する。オペレーションの実行が完了すると、監視対象の情報処理装置13におけるホストCPU136は、オペレーションの完了を示す通知を、情報処理装置11のホストCPU116に、ネットワーク33を介して送信する。
情報処理装置11のホストCPU116は、オペレーションの完了を示す通知を監視対象の情報処理装置13から受信すると、共有メモリ115に格納する。これによって、サービスプロセッサ111は、オペレーションの完了を示す通知を受信し(ステップS25)、オペレーションが完了したことを確認する。ここで、サービスプロセッサ111は、監視対象の情報処理装置13におけるサービスプロセッサ131のリブートが完了していれば、代行完了を示す通知を、監視対象の情報処理装置13におけるサービスプロセッサ131に、ネットワーク31を介して送信する。また、サービスプロセッサ111は、オペレーションの完了を示す通知を、管理装置5に、ネットワーク31を介して送信する。そして処理を終了する。
図10に、以上のような本実施の形態の処理の概要を示す。図10においては、サービスプロセッサ111がサービスプロセッサ131を監視している場合において、サービスプロセッサ131がリブート中である。このような場合、管理装置5からサービスプロセッサ131に対して送信されるオペレーションの実行指示は、サービスプロセッサ131には受け付けられない。
但し、サービスプロセッサ111は、管理装置5からサービスプロセッサ131に対して送信されるオペレーションの実行指示を代わりに受信する。そして、サービスプロセッサ111は、実行指示において指定されたオペレーションのデータを含む転送要求を、共有メモリ115を介してホストCPU116に送信する。
ホストCPU116は、転送要求に含まれるオペレーションのデータを含む実行要求を生成し、ホストCPU136に対して送信する。ホストCPU136は、ホストCPU116から実行要求を受信すると、実行要求に含まれるオペレーションのデータを用いてオペレーションを実行する。
次に、図11及び図12を用いて、本実施の形態の効果について説明する。図11及び図12においては、ホストCPUがシャットダウンというオペレーション及び再起動というオペレーションを実行するが、図11においては本実施の形態の処理を実行せず、図12においては本実施の形態の処理を実行する。
まず、図11を用いて、本実施の形態の処理を実行しない場合について説明する。この場合、管理装置5からサービスプロセッサ(図11及び図12においては、SPと略されている)に対して実行指示が送信されても、サービスプロセッサはリブート中であるので、実行指示を受け付けることができない。サービスプロセッサが正常な動作を再開すると、実行指示を受け付け、管理装置5に応答を返す。サービスプロセッサは、シャットダウンのオペレーションをホストCPUに実行させる。シャットダウンのオペレーションが完了すると、ホストCPUはオペレーションの完了を管理装置5に通知する。シャットダウンのオペレーションの完了が通知されると、管理装置5は、サービスプロセッサに対して実行指示を送信する。サービスプロセッサは実行指示を受け付けると、管理装置5に応答を返すと共に、再起動のオペレーションをホストCPUに実行させる。
このように、管理装置5は無駄な実行指示(すなわち、1回目及び2回目の実行指示)を送信することになるので、無駄な通信負荷がネットワーク31に発生し、また管理装置5に無駄な処理負荷が発生する。また、サービスプロセッサのリブートが完了して正常な動作を再開するまでは、ホストCPUはオペレーションを実行できないので、オペレーションの実行開始が遅れることになる。
これに対し、本実施の形態の処理を実行した場合について図12を用いて説明する。この場合、サービスプロセッサがリブート中であっても、管理装置5からサービスプロセッサに対して送信された実行指示を、監視を行う情報処理装置が代わりに受け付ける。実行指示を受け付けた情報処理装置におけるホストCPUは、実行指示において指定されたオペレーションの実行要求を、監視対象の情報処理装置におけるサービスプロセッサを介さず、ホストCPUに直接送信する。監視対象の情報処理装置におけるホストCPUは、シャットダウンのオペレーションを実行し、シャットダウンのオペレーションが完了すると、オペレーションの完了を、監視を行う情報処理装置におけるサービスプロセッサに送信する。監視を行う情報処理装置におけるサービスプロセッサは、オペレーションの完了を通知されると、代行の完了を監視対象の情報処理装置に通知すると共に、オペレーションの完了を管理装置5に通知する。監視対象の情報処理装置におけるサービスプロセッサは、代行の完了が通知されると、正常な動作を再開する。シャットダウンのオペレーションの完了を通知されると、管理装置5は、監視対象の情報処理装置におけるサービスプロセッサに対して実行指示を送信する。サービスプロセッサは実行指示を受け付けると、管理装置5に応答を返すと共に、再起動のオペレーションをホストCPUに実行させる。
このように、本実施の形態の処理を実行した場合には、管理装置5が無駄な実行指示を送信することはないので、無駄な通信負荷がネットワーク31に発生することはなく、また管理装置5に無駄な処理負荷が発生することもない。また、サービスプロセッサのリブートが完了して正常な動作を再開する前であっても、ホストCPUはオペレーションを実行できるので、オペレーションの実行開始が遅れることはない。
以上本発明の一実施の形態を説明したが、本発明はこれに限定されるものではない。例えば、上で説明した情報処理装置11乃至15の機能ブロック構成は実際のプログラムモジュール構成に一致しない場合もある。
また、上で説明した各テーブルの構成は一例であって、上記のような構成でなければならないわけではない。さらに、処理フローにおいても、処理結果が変わらなければ処理の順番を入れ替えることも可能である。さらに、並列に実行させるようにしても良い。
なお、上で述べた管理装置5は、コンピュータ装置であって、図13に示すように、メモリ2501とCPU(Central Processing Unit)2503とハードディスク・ドライブ(HDD:Hard Disk Drive)2505と表示装置2509に接続される表示制御部2507とリムーバブル・ディスク2511用のドライブ装置2513と入力装置2515とネットワークに接続するための通信制御部2517とがバス2519で接続されている。オペレーティング・システム(OS:Operating System)及び本実施例における処理を実施するためのアプリケーション・プログラムは、HDD2505に格納されており、CPU2503により実行される際にはHDD2505からメモリ2501に読み出される。CPU2503は、アプリケーション・プログラムの処理内容に応じて表示制御部2507、通信制御部2517、ドライブ装置2513を制御して、所定の動作を行わせる。また、処理途中のデータについては、主としてメモリ2501に格納されるが、HDD2505に格納されるようにしてもよい。本発明の実施例では、上で述べた処理を実施するためのアプリケーション・プログラムはコンピュータ読み取り可能なリムーバブル・ディスク2511に格納されて頒布され、ドライブ装置2513からHDD2505にインストールされる。インターネットなどのネットワーク及び通信制御部2517を経由して、HDD2505にインストールされる場合もある。このようなコンピュータ装置は、上で述べたCPU2503、メモリ2501などのハードウェアとOS及びアプリケーション・プログラムなどのプログラムとが有機的に協働することにより、上で述べたような各種機能を実現する。
以上述べた本実施の形態をまとめると以下のようになる。
本実施の形態の第1の態様に係る情報処理システムは、(A)管理装置と、(B)各々が実行部(例えば、実施の形態におけるホストCPU)と管理装置から実行指示を受け付け当該実行指示において指定された処理を実行部に実行させる制御部(例えば、実施の形態におけるサービスプロセッサ)とを含む複数の情報処理装置とを有する。そして、複数の情報処理装置のうちいずれかの情報処理装置における制御部が、(b1)複数の情報処理装置のうちの他の情報処理装置における制御部の停止を検出した場合に、管理装置から他の情報処理装置における制御部に対して送信された第1の実行指示を、他の情報処理装置の代わりに受け付ける第1処理部と、(b2)他の情報処理装置における実行部に対し、第1の実行指示において指定された処理の実行を要求する第2処理部とを有する。
このようにすれば、情報処理装置における制御部が停止した場合に、その情報処理装置の実行部に別ルートから処理を要求できるので、その実行部による処理の実行が遅れることを抑制できるようになる。
また、上で述べた第2処理部は、(b21)第1の実行指示において指定された処理が、他の情報処理装置における制御部が稼働していなければ実行できない処理である場合に、第1の実行指示を記憶装置に格納し、(b22)他の情報処理装置における制御部の稼働が再開した場合に、他の情報処理装置における実行部に対し、記憶装置に格納された第1の実行指示において指定された処理の実行を要求するようにしてもよい。このようにすれば、他の情報処理装置における制御部の稼働が再開した後迅速に処理を実行できるようになる。
また、上で述べた第1処理部は、(b11)他の情報処理装置のアドレスを自情報処理装置に設定してもよい。このようにすれば、他の情報処理装置に対して送信された実行指示を受信できるようになる。
また、上で述べた第1処理部は、(b12)他の情報処理装置における制御部に対して送信したデータに対する応答を当該制御部から受信するか否かによって、制御部の停止を検出してもよい。このようにすれば、制御部の停止を確実に検出できるようになる。
本実施の形態の第1の態様に係る情報処理方法は、(C)実行部と、管理装置から受け付けた実行指示において指定された処理を実行部に実行させる制御部とを有する他の情報処理装置において、制御部が停止したことを検出した場合に、管理装置から他の情報処理装置における制御部に対して送信された第1の実行指示を、他の情報処理装置の代わりに受け付け、(D)他の情報処理装置における実行部に対し、第1の実行指示において指定された処理の実行を要求する処理を含む。
なお、上記方法による処理をコンピュータに行わせるためのプログラムを作成することができ、当該プログラムは、例えばフレキシブルディスク、CD−ROM、光磁気ディスク、半導体メモリ、ハードディスク等のコンピュータ読み取り可能な記憶媒体又は記憶装置に格納される。尚、中間的な処理結果はメインメモリ等の記憶装置に一時保管される。

Claims (5)

  1. 管理装置と、
    各々が実行部と前記管理装置から実行指示を受け付け当該実行指示において指定された処理を前記実行部に実行させる制御部とを含む複数の情報処理装置と、
    を有し、
    前記複数の情報処理装置のうちいずれかの情報処理装置における前記制御部が、
    前記複数の情報処理装置のうちの他の情報処理装置における前記制御部の停止を検出した場合に、前記管理装置から前記他の情報処理装置における前記制御部に対して送信された第1の実行指示を、前記他の情報処理装置の代わりに受け付ける第1処理部と、
    前記他の情報処理装置における前記実行部に対し、前記第1の実行指示において指定された処理の実行を要求する第2処理部と、
    を有し、
    前記第2処理部は、
    前記第1の実行指示において指定された処理が、前記他の情報処理装置における前記制御部が稼働していなければ実行できない処理である場合に、前記第1の実行指示を記憶装置に格納し、
    前記他の情報処理装置における前記制御部の稼働が再開した場合に、前記他の情報処理装置における前記実行部に対し、前記記憶装置に格納された前記第1の実行指示において指定された処理の実行を要求する
    情報処理システム。
  2. 前記第1処理部は、
    前記他の情報処理装置のアドレスを自情報処理装置に設定する
    請求項1記載の情報処理システム。
  3. 実行部と、
    管理装置から実行指示を受け付け当該実行指示において指定された処理を前記実行部に実行させる制御部と、
    を有し、
    前記制御部が、
    他の情報処理装置における制御部の停止を検出した場合に、前記管理装置から前記他の情報処理装置における前記制御部に対して送信された第1の実行指示を、前記他の情報処理装置の代わりに受け付ける第1処理部と、
    前記他の情報処理装置における実行部に対し、前記第1の実行指示において指定された処理の実行を要求する第2処理部と、
    を有し、
    前記第2処理部は、
    前記第1の実行指示において指定された処理が、前記他の情報処理装置における前記制御部が稼働していなければ実行できない処理である場合に、前記第1の実行指示を記憶装置に格納し、
    前記他の情報処理装置における前記制御部の稼働が再開した場合に、前記他の情報処理装置における前記実行部に対し、前記記憶装置に格納された前記第1の実行指示において指定された処理の実行を要求する
    情報処理装置。
  4. 実行部と、管理装置から受け付けた実行指示において指定された処理を前記実行部に実行させる制御部とを有する他の情報処理装置において、前記制御部が停止したことを検出した場合に、前記管理装置から前記他の情報処理装置における前記制御部に対して送信された第1の実行指示を、前記他の情報処理装置の代わりに受け付け、
    前記他の情報処理装置における実行部に対し、前記第1の実行指示において指定された処理の実行を要求する、
    処理をコンピュータが実行し、
    前記第1の実行指示において指定された処理の実行を要求する処理において、
    前記第1の実行指示において指定された処理が、前記他の情報処理装置における前記制御部が稼働していなければ実行できない処理である場合に、前記第1の実行指示を記憶装置に格納し、
    前記他の情報処理装置における前記制御部の稼働が再開した場合に、前記他の情報処理装置における前記実行部に対し、前記記憶装置に格納された前記第1の実行指示において指定された処理の実行を要求する
    情報処理方法。
  5. 実行部と、管理装置から受け付けた実行指示において指定された処理を前記実行部に実行させる制御部とを有する他の情報処理装置において、前記制御部が停止したことを検出した場合に、前記管理装置から前記他の情報処理装置における前記制御部に対して送信された第1の実行指示を、前記他の情報処理装置の代わりに受け付け、
    前記他の情報処理装置における実行部に対し、前記第1の実行指示において指定された処理の実行を要求する、
    処理をコンピュータに実行させ、
    前記第1の実行指示において指定された処理の実行を要求する処理において、
    前記第1の実行指示において指定された処理が、前記他の情報処理装置における前記制御部が稼働していなければ実行できない処理である場合に、前記第1の実行指示を記憶装置に格納し、
    前記他の情報処理装置における前記制御部の稼働が再開した場合に、前記他の情報処理装置における前記実行部に対し、前記記憶装置に格納された前記第1の実行指示において指定された処理の実行を要求する
    情報処理プログラム。
JP2015529233A 2013-07-29 2013-07-29 情報処理システム、装置、方法及びプログラム Active JP6112205B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2013/070422 WO2015015544A1 (ja) 2013-07-29 2013-07-29 情報処理システム、装置、方法及びプログラム

Publications (2)

Publication Number Publication Date
JPWO2015015544A1 JPWO2015015544A1 (ja) 2017-03-02
JP6112205B2 true JP6112205B2 (ja) 2017-04-12

Family

ID=52431126

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015529233A Active JP6112205B2 (ja) 2013-07-29 2013-07-29 情報処理システム、装置、方法及びプログラム

Country Status (2)

Country Link
JP (1) JP6112205B2 (ja)
WO (1) WO2015015544A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6451467B2 (ja) * 2015-04-07 2019-01-16 三菱電機株式会社 統合監視制御装置および統合監視制御システム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09274575A (ja) * 1996-04-04 1997-10-21 Hitachi Ltd 統合システム管理方式
JPH10171769A (ja) * 1996-12-11 1998-06-26 Hitachi Ltd 複合計算機システム
JP2006285384A (ja) * 2005-03-31 2006-10-19 Nec Corp プロセッサ障害処理方式、管理プロセッサ及びプロセッサ障害処理方法
JP2007058549A (ja) * 2005-08-24 2007-03-08 Nec Corp マルチコンピュータモジュールシステム、マルチコンピュータモジュール方法、および、プログラム
JP4703682B2 (ja) * 2008-04-21 2011-06-15 株式会社東芝 クラスタシステム及びプログラム
JP2011022741A (ja) * 2009-07-15 2011-02-03 Nec Computertechno Ltd コンピュータシステム、サービスプロセッサ、及びその診断方法
JP5511262B2 (ja) * 2009-08-20 2014-06-04 三菱電機株式会社 情報処理システム及びプログラム
WO2013018183A1 (ja) * 2011-07-29 2013-02-07 富士通株式会社 システム制御装置、電力制御方法及び電子システム

Also Published As

Publication number Publication date
WO2015015544A1 (ja) 2015-02-05
JPWO2015015544A1 (ja) 2017-03-02

Similar Documents

Publication Publication Date Title
CN110825544B (zh) 计算节点及其失效检测方法与云端数据处理系统
JP5851503B2 (ja) 高可用性仮想機械環境におけるアプリケーションの高可用性の提供
JP5679256B2 (ja) 分散タスクシステムおよび分散タスク管理方法
EP2829986B1 (en) Computer system, access method and apparatus for peripheral component interconnect express endpoint devices
JP5305040B2 (ja) サーバ計算機の切替方法、管理計算機及びプログラム
JP5948933B2 (ja) ジョブ継続管理装置、ジョブ継続管理方法、及び、ジョブ継続管理プログラム
US20160036654A1 (en) Cluster system
TW200426571A (en) Policy-based response to system errors occurring during os runtime
JPWO2018003031A1 (ja) 仮想化管理プログラム、仮想化管理装置および仮想化管理方法
WO2013190694A1 (ja) 計算機の復旧方法、計算機システム及び記憶媒体
US8156386B2 (en) Information processing apparatus, and method and computer program for controlling same, for detecting certain failures
JP5999254B2 (ja) 管理装置、方法及びプログラム
JP2011203941A (ja) 情報処理装置、監視方法、および監視プログラム
JP6112205B2 (ja) 情報処理システム、装置、方法及びプログラム
US9772914B2 (en) Processing apparatus, process system, and non-transitory computer-readable recording medium
JP2018133766A (ja) 処理装置、二重化システム、処理方法、および処理プログラム
JP5691248B2 (ja) タスク引継プログラム、処理装置及びコンピュータ・システム
JP6341030B2 (ja) 情報処理システム、情報処理システムの制御方法及び制御プログラム
JP6654662B2 (ja) サーバ装置およびサーバシステム
JP6786835B2 (ja) 管理装置、サーバ、シンクライアントシステム、管理方法及びプログラム
JP2016151965A (ja) 冗長構成システム及び冗長構成制御方法
JP4863984B2 (ja) 監視処理プログラム、方法及び装置
JP6540309B2 (ja) 共有メモリシステム、演算処理装置、及び方法
JP2016224490A (ja) 冗長化システム
JP7311335B2 (ja) 分散型コンテナ監視システム及び分散型コンテナ監視方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161108

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170105

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170214

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170227

R150 Certificate of patent or registration of utility model

Ref document number: 6112205

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150