JP7065686B2 - 情報処理システム、情報処理装置及びプログラム - Google Patents

情報処理システム、情報処理装置及びプログラム Download PDF

Info

Publication number
JP7065686B2
JP7065686B2 JP2018089831A JP2018089831A JP7065686B2 JP 7065686 B2 JP7065686 B2 JP 7065686B2 JP 2018089831 A JP2018089831 A JP 2018089831A JP 2018089831 A JP2018089831 A JP 2018089831A JP 7065686 B2 JP7065686 B2 JP 7065686B2
Authority
JP
Japan
Prior art keywords
processing
unit
information processing
program
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018089831A
Other languages
English (en)
Other versions
JP2019197302A (ja
Inventor
敬志 上村
順司 助野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2018089831A priority Critical patent/JP7065686B2/ja
Publication of JP2019197302A publication Critical patent/JP2019197302A/ja
Application granted granted Critical
Publication of JP7065686B2 publication Critical patent/JP7065686B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Hardware Redundancy (AREA)

Description

本発明は、情報処理システム、情報処理装置及びプログラムに関する。
大規模な計算を行う場合に、複数の計算機を並列にネットワークに接続し、各計算機に処理を割り当てることで、高速処理を行うことができる。しかし、並列に接続された計算機(以下、ノード)の何れかが故障等によって動作ができなくなった場合に、そのノードで実行していた処理結果が消失する、又は、そのノードで実行予定の処理が実行されない状況が生じる。
このような状況に対して、例えば、特許文献1には、冗長なノードを用意し、動作できなくなったノードの代わりに自動的に冗長なノードが割り当てられ、処理の実行を続けることのできるジョブ管理プログラムが開示されている。
特開2015-95075号公報
しかしながら、特許文献1に記載されたジョブ管理プログラムは、通常動作しているノードとは別に、代替となるノードがシステム内に存在し、そのような代替ノードが実行可能な状態で待機していなければならない。
さらに、代替ノードと通信を行うために、関係する全てのノードの通信部のプログラムを変更する必要があり、変更されなかったノードがあった場合はそのノードに関する処理が実行されず処理結果に不具合が生じてしまう。
そこで、本発明の1又は複数の態様は、何れかのノードの動作が停止した場合に、既存のノードで迅速に代替処理が行われるようにすることを目的とする。
本発明の第1の態様に係る情報処理システムは、ネットワークに接続された第1の情報処理装置及び第2の情報処理装置を備え、前記第1の情報処理装置及び前記第2の情報処理装置により処理を実行する情報処理システムであって、前記第1の情報処理装置は、前記第1の情報処理装置に付与されている第1の識別情報を用いて、前記ネットワークと通信を行う第1の通信部と、前記処理の内、前記第1の情報処理装置に割り当てられている第1の処理に対応する第1の処理プログラムを実行する第1の処理部と、前記第1の処理部が前記第1の処理プログラムを実行中に、前記第1の処理プログラムの状態及び処理結果を特定することのできる第1の通信データを生成し、前記第1の通信部を介して、前記第1の通信データを前記第2の情報処理装置に送る第1のデータ処理部と、を備え、前記第2の情報処理装置は、前記第2の情報処理装置に付与されている第2の識別情報を用いて、前記ネットワークと通信を行う第2の通信部と、前記処理の内、前記第2の情報処理装置に割り当てられている第2の処理に対応する第2の処理プログラムを実行する第2の処理部と、を備え、前記第2の処理部は、前記第1の情報処理装置が故障した場合に、前記第1の通信データで特定される前記第1の処理プログラムの状態及び処理結果から、前記第1の処理プログラムの実行を引き継ぎ、前記第1の識別情報を用いて前記第1の通信部に代わり通信を行う第2の仮想通信部を起動し、前記第2の仮想通信部を介して前記第1の処理プログラムを実行するとともに、前記第2の処理プログラムを実行することを特徴とする。
本発明の第2の態様に係る情報処理システムは、ネットワークに接続された複数の情報処理装置を備え、前記複数の情報処理装置により処理を実行する情報処理システムであって、前記複数の情報処理装置の各々は、前記ネットワークと通信を行う通信部と、前記処理の内、自装置に割り当てられている処理に対応する処理プログラムを実行する処理部と、前記処理部が前記処理プログラムを実行中に、前記処理プログラムの状態及び処理結果を特定することのできる通信データを生成し、前記通信部を介して、前記通信データを前記複数の情報処理装置の内の少なくとも1つの他装置である第1の他装置に送るデータ処理部と、を備え、前記処理部は、定期的に自装置の処理負荷を計測して前記第1の他装置に通知するとともに、自装置の処理負荷と、前記複数の情報処理装置の内の少なくとも一つの他装置である第2の他装置の処理負荷とを記憶部に記憶し、前記第2の他装置の内、前記処理負荷を予め定められた期間送ってこない装置を故障発生装置と判断し、前記故障発生装置の前記処理負荷を除いて、前記記憶部に記憶されている前記処理負荷において、自装置の前記処理負荷が最も低い場合に、前記故障発生装置の前記通信データで特定される前記処理プログラムの状態及び処理結果から、前記故障発生装置の前記処理プログラムの実行を引き継ぎ、自装置の前記処理プログラム及び前記故障発生装置の前記処理プログラムを実行することを特徴とする。
本発明の一態様に係る情報処理装置は、ネットワークに接続された複数の情報処理装置により処理を実行する情報処理システムにおいて前記複数の情報処理装置の内の1つの情報処理装置として使用される情報処理装置であって、自装置に付与されている第1の識別情報を用いて、前記ネットワークと通信を行う通信部と、前記処理の内、前記情報処理装置に割り当てられている第1の処理に対応する第1の処理プログラムを実行する処理部と、前記処理部が前記第1の処理プログラムを実行中に、前記第1の処理プログラムの状態及び処理結果を特定することのできる第1の通信データを生成し、前記通信部を介して、前記複数の情報処理装置の内の少なくとも1つの情報処理装置に送るデータ処理部と、を備え、前記通信部は、前記複数の情報処理装置の内の第2の情報処理装置から、前記処理の内、前記第2の情報処理装置に割り当てられている第2の処理に対応する第2の処理プログラムの実行中に、前記第2の処理プログラムの状態及び処理結果を特定することのできる第2の通信データを受け取り、前記処理部は、前記第2の情報処理装置が故障した場合に、前記第2の通信データで特定される前記第2の処理プログラムの状態及び処理結果から、前記第2の処理プログラムの実行を引き継ぎ、前記第2の情報処理装置に付与されている第2の識別情報を用いて、前記第2の情報処理装置が備える第2の通信部に代わり通信を行う仮想通信部を起動し、前記仮想通信部を介して前記第2の処理プログラムを実行するとともに、前記第1の処理プログラムを実行することを特徴とする。
本発明の一態様に係るプログラムは、コンピュータを、ネットワークに接続された複数の情報処理装置により処理を実行する情報処理システムにおいて前記複数の情報処理装置の内の1つの情報処理装置として使用される情報処理装置として機能させるプログラムであって、前記コンピュータを、自装置に付与されている第1の識別情報を用いて、前記ネットワークと通信を行う通信部、前記処理の内、前記情報処理装置に割り当てられている第1の処理に対応する第1の処理プログラムを実行する処理部、及び、前記処理部が前記第1の処理プログラムを実行中に、前記第1の処理プログラムの状態及び処理結果を特定することのできる第1の通信データを生成し、前記通信部を介して、前記複数の情報処理装置の内の少なくとも1つの情報処理装置に送るデータ処理部、として機能させ、前記通信部は、前記複数の情報処理装置の内の第2の情報処理装置から、前記処理の内、前記第2の情報処理装置に割り当てられている第2の処理に対応する第2の処理プログラムの実行中に、前記第2の処理プログラムの状態及び処理結果を特定することのできる第2の通信データを受け取り、前記処理部は、前記第2の情報処理装置が故障した場合に、前記第2の通信データで特定される前記第2の処理プログラムの状態及び処理結果から、前記第2の処理プログラムの実行を引き継ぎ、前記第2の情報処理装置に付与されている第2の識別情報を用いて、前記第2の情報処理装置が備える第2の通信部に代わり通信を行う仮想通信部を起動し、前記仮想通信部を介して前記第2の処理プログラムを実行するとともに、前記第1の処理プログラムを実行することを特徴とする。
本発明の1又は複数の態様によれば、何れかのノードの動作が停止した場合に、既存のノードで迅速に代替処理が行われるようになる。
実施の形態1に係る並列計算機システムの構成を概略的に示すブロック図である。 実施の形態1におけるノードの構成を概略的に示すブロック図である。 データ処理部の構成を概略的に示すブロック図である。 記憶部の構成を概略的に示すブロック図である。 (A)及び(B)は、ハードウェア構成例を示す概略図である。 第2のノードがデータを送信する動作を示すフローチャートである。 第1のノードがデータを受信する動作を示すフローチャートである。 第2のノードの動作が停止した場合に、第1のノードが第2のノードの処理を代替して行う動作を示すフローチャートである。 実施の形態2に係る並列計算機システムの構成を概略的に示すブロック図である。 実施の形態2におけるノードの構成を概略的に示すブロック図である。 第Nのノードが停止した場合に、第1のノード又は第2のノードが第Nのノードの処理を代替して行う動作を示すフローチャートである。 実施の形態2の変形例を概略的に示すブロック図である。
実施の形態1.
図1は、実施の形態1に係る情報処理システムとしての並列計算機システム100の構成を概略的に示すブロック図である。
並列計算機システム100は、複数の情報処理装置としての複数のノード110-1、110-2を備える。複数のノード110-1、110-2は、ネットワークを構成するネットワークハブ101に接続され、相互に通信を行うことができる。
実施の形態1では、複数のノード110-1、110-2として、第1のノード110-1と、第2のノード110-2とが備えられている。
ここで、第1のノード110-1及び第2のノード110-2は、同様に構成されているため、以下、特に各々を区別する必要がない場合には、ノード110という。
なお、並列計算機システム100は、2台のノード110に限定されず、3台以上のノード110が備えられていてもよい。
また、ネットワークハブ101は、一つの機器であってもよいし、複数の機器の集合であってもよい。
各々のノード110は、並列計算機システム100で実行される処理(演算)の内、割り当てられた処理を実行する。具体的には、各々のノード110は、並列計算機システム100で実行されるプログラムの内、割り当てられたプログラムである処理プログラムを実行する。
なお、第1のノード110-1に割り当てられた処理を、第1の処理ともいい、第1のノード110-1に割り当てられた処理プログラムを、第1の処理プログラムともいう。また、第2のノード110-2に割り当てられた処理を、第2の処理ともいい、第2のノード110-2に割り当てられた処理プログラムを、第2の処理プログラムともいう。
ここで、処理プログラムは、ワーキングメモリに展開されて実行され、CPU(Central Processing Unit)内のレジスタに一時的なデータが記憶される。このため、処理プログラムを実行する際にワーキングメモリに展開する実行形式の機械語と、CPU内のレジスタに記憶される一時的なデータとのことを、処理プログラムの状態とする。処理プログラムの状態は、単なるデジタルデータであるので、一つ前のデジタルデータと、現在のデジタルデータとの差分を算出することができる。
また、処理プログラムで処理された処理結果についてもデジタルデータであるため、一つ前のデジタルデータと、現在のデジタルデータとの差分を算出することができる。
図2は、ノード110の構成を概略的に示すブロック図である。
ノード110は、通信インタフェース部(以下、通信I/F部)111と、通信制御部112と、データ処理部113と、仮想通信制御部114と、処理部115と、記憶部116とを備える。
なお、第1のノード110-1の通信I/F部111、通信制御部112、データ処理部113、仮想通信制御部114、処理部115及び記憶部116のそれぞれを、それぞれ、第1の通信I/F部、第1の通信制御部、第1のデータ処理部、第1の仮想通信制御部、第1の処理部及び第1の記憶部ともいう。
また、第2のノード110-2の通信I/F部111、通信制御部112、データ処理部113、仮想通信制御部114、処理部115及び記憶部116のそれぞれを、それぞれ、第2の通信I/F部、第2の通信制御部、第2のデータ処理部、第2の仮想通信制御部、第2の処理部及び第2の記憶部ともいう。
通信I/F部111は、ネットワークハブ101を介して、他のノード110とデータの送受信を行う。例えば、通信I/F部111は、通信インタフェースで実現することができる。
通信制御部112は、通信I/F部111を制御する。
通信制御部112には、自ノード110を示すユニークな識別情報としてIDが付与されている。例えば、第1のノード110-1が通信制御部112を介して、第2のノード110-2にデータを送信する場合は、第2のノード110-2の通信制御部112に付与されたIDを指定する。
なお、通信制御部112は、ネットワークハブ101に接続されている他のノード110に付与されたIDを既知とする。
ここで、IDは、並列計算機システム100内で各ノード110にユニークに割り当てられる情報である。各ノード110とネットワークハブ101との間がEthernet(登録商標)による通信を行っているのであれば、IDは、EthernetにおけるMAC(Media Access Control)アドレスを利用することができる。
また、IDは、ノード110を識別するための番号が使用されてもよいし、そのための記号等が使用されてもよい。
なお、第1のノード110-1に付与されたIDを、第1の識別情報(第1のID)ともいい、第2のノード110-2に付与されたIDを、第2の識別情報(第2のID)ともいう。
なお、通信I/F部111及び通信制御部112により、ネットワークと通信を行う通信部117が構成される。
第1のノード110-1の通信部117を、第1の通信部ともいい、第2のノード110-2の通信部117を、第2の通信部ともいう。
データ処理部113は、処理部115が実行した処理プログラムの状態及び処理結果を、他のノード110へ通知する。例えば、データ処理部113は、処理部115が処理プログラムを実行中に、処理プログラムの状態及び処理結果を特定することのできる通信データを生成し、通信制御部112及び通信I/F部111を介して、他のノード110に送る。
なお、第1のノード110-1で生成された通信データを第1の通信データともいい、第2のノード110-2で生成された通信データを第2の通信データともいう。
具体的には、まず、データ処理部113は、処理部115による処理プログラムの実行開始時に、処理プログラムの状態を示す初期データを送る。次に、データ処理部113は、処理プログラムの実行中の複数の時点の最初の時点において、その時点における処理プログラムの状態及び処理結果と、初期データで示される処理プログラムの状態との差分を示す差分データを通信データとして送る。さらに、データ処理部113は、複数の時点における最初の時点以降の時点においては、その時点における処理プログラムの状態及び処理結果と、1つ前の時点における処理プログラムの状態及び処理結果との差分を示す差分データを通信データとして送る。
なお、初期データには、処理結果の初期値が含まれていてもよい。例えば、処理プログラムの実行を開始する際に、他のノード110で処理された処理結果が必要な場合には、その処理結果を示す初期値が初期データに含まれる。また、処理結果がまだないことを示す値が初期値として、初期データに含まれていてもよい。なお、初期データに処理結果の初期値が含まれていない場合には、最初の時点における処理結果の差分は、その時点における処理結果そのものとなる。
仮想通信制御部114は、他のノード110の動作が停止する等の故障が発生した場合に、そのノード110の通信制御部112の代わりに処理を行う。
例えば、第2のノード110-2で故障が発生した場合に、第1のノード110-1の仮想通信制御部114は、第2のノード110-2の通信制御部112の代わりに処理を行う。具体的には、第1のノード110-1の仮想通信制御部114は、第2のノード110-2の通信制御部112に付与されたIDを用いて、第1のノード110の通信I/F部111を介して、通信を行う。これにより、第1のノード110-1を含む並列計算機システム100のノードは、第2のノード110-2に対して通信する処理を実行したまま、実際には第1のノード110-1と通信を行うことができる。
なお、通信I/F部111及び仮想通信制御部114により、他のノード110の通信部117の代わりにネットワークと通信を行う仮想通信部118が構成される。
第1のノード110-1の仮想通信部118を、第1の仮想通信部ともいい、第2のノード110-2の仮想通信部118を、第2の仮想通信部ともいう。
処理部115は、ノード110での処理を実行する。例えば、処理部115は、ノード110に割り当てられた処理プログラムを読み出し実行する。
また、処理部115は、他のノード110が故障した場合に、そのノード110から送られてきた通信データで特定される処理プログラムの状態及び処理結果から、その処理プログラムの実行を引き継ぎ、自ノード110に割り当てられている処理プログラム及び故障したノード110に割り当てられている処理プログラムを実行する。
また、処理部115は、記憶部116に記憶されるデータを、データ処理部113、通信制御部112及び通信I/F部111を介して、他のノード110に送り、及び、データ処理部113、通信制御部112及び通信I/F部111を介して、他のノード110から取得したデータを記憶部116に記録する処理も行う。
記憶部116は、ノード110での処理に必要なプログラム及びデータを記憶する。例えば、記憶部116は、ノード110に割り当てられた処理プログラム、処理部115で実行された処理プログラムの処理結果、及び、他のノード110から受け取ったデジタルデータを記憶する。
なお、記憶部116は、主記憶装置により実現することができる。
なお、並列計算機システム100には、図示しない外部記憶装置があり、その外部記憶装置には、実行するプログラムが格納されている。そして、並列計算機システム100は、システムの起動時に、各ノード110に対してプログラムを分割して、分割されたプログラムを処理プログラムとして送信している。
プログラムの分割は、外部記憶装置に記憶される際に行われてもよく、第1のノード110-1、第2のノード110-2、又は、図示しない計算機(情報処理装置)としてのノードが、システムの起動後にプログラムの分割を行ってもよい。
図3は、データ処理部113の構成を概略的に示すブロック図である。
データ処理部113は、データ中継部113aと、差分生成部113bと、差分復元部113cとを備える。
データ中継部113aは、処理部115からの指示に従いデータを通信制御部112に送り、又は、通信制御部112で取得されたデータを処理部115へ受け渡す。また、データ中継部113aが処理部115の指示に従って送信を行うデータは、処理部115だけでなく差分生成部113bからも取得する。
差分生成部113bは、処理部115で実行されている処理プログラムの状態及び処理結果と、一つ前に送信したデジタルデータとの差分を算出し、算出された差分を示す差分データをデータ中継部113aに渡す。処理部115で実行される処理プログラムに関して初めてデジタルデータの送信を行う場合は、差分生成部113bは、処理プログラムの状態を示す初期データをデータ中継部113aに渡す。
なお、差分生成部113bは、差分を算出するだけでなく、算出した差分を示す差分データに対し圧縮処理等を行い、データ量を削減してもよい。また、算出した差分を符号化してもよい。
差分復元部113cは、他のノード110から送られてくる差分データと、記憶部116に記憶されているそのノード110の処理プログラムの状態及び処理結果と照合し、そのノード110に割り当てられた処理プログラムの状態及び処理結果を復元し、復元された状態及び処理結果を記憶部116に記憶する。
なお、図3では、差分復元部113cは、処理部115を介して記憶部116を参照しているが、差分復元部113cから直接記憶部116を参照してもよい。
図4は、実施の形態1における記憶部116の構成を概略的に示すブロック図である。
記憶部116は、自ノード記憶領域116aと、他ノード記憶領域116bとを備える。
自ノード記憶領域116aは、自ノード110に割り当てられた処理プログラム及び処理部115がその処理プログラム実行中に発生する一時的に記憶されるデータ等からなる処理プログラムの状態、並びに、その処理プログラムの処理結果等、自ノード110に割り当てられた処理プログラムに関する情報が記憶される。
他ノード記憶領域116bは、他のノード110から送られてくるデータを元に、他のノード110の処理プログラムの状態と、その処理プログラムの処理結果とが記憶される。
以上に記載された通信制御部112、データ処理部113、仮想通信制御部114及び処理部115の一部又は全部は、例えば、図5(A)に示されているように、メモリ10と、メモリ10に格納されているプログラムを実行するCPU等のプロセッサ11とにより構成することができる。このようなプログラムは、ネットワークを通じて提供されてもよく、また、記録媒体に記録されて提供されてもよい。即ち、このようなプログラムは、例えば、プログラムプロダクトとして提供されてもよい。このような場合、ノード110は、コンピュータにより実現することができる。
また、通信制御部112、データ処理部113、仮想通信制御部114及び処理部115の一部は、例えば、図5(B)に示されているように、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ASIC(Application Specific Integrated Circuits)又はFPGA(Field Programmable Gate Array)等の処理回路12で構成することもできる。
次に、実施の形態1に係る並列計算機システム100の動作の概要を説明する。
以降の説明では、第2のノード110-2(送信プロセッシングユニット)のデータを第1のノード110-1(受信プロセッシングユニット)に対して送信する例を示すが、第1のノード110-1及び第2のノード110-2は、同様の動作が可能なため、第1のノード110-1と第2のノード110-2とを入れ替えてもよい。
図6は、実施の形態1における第2のノード110-2がデータを送信する動作を示すフローチャートである。
まず、第2のノード110-2の処理部115は、割り当てられた処理プログラムの実行を開始する(S10)。
次に、第2のノード110-2のデータ処理部113は、実行開始時の処理プログラムの状態を示す初期データを生成し、その初期データを通信制御部112に与える。通信制御部112は、その初期データを、通信I/F部111を介して第1のノード110-1に送る(S11)。
また、第2のノード110-2のデータ処理部113は、処理部115が割り当てられた処理プログラムの実行中に、処理結果を書き出すことのできるタイミングで、前回送信した初期データ又は差分データで示される処理プログラムの状態及び処理結果と、現在の処理プログラムの状態及び処理結果との差分を算出し、その差分を示す差分データを生成する(S12)。
ここで、処理結果を書き出すことのできるタイミングは、例えば、処理結果を他のノード110に対し送信する場合、又は、処理結果を一定期間保持する必要がある場合等である。また、これらに限らず、差分を算出することで、処理プログラムの実行が妨げられないタイミングであれば、いずれのタイミングでもよい。
差分データが生成されると、第2のノード110-2の通信制御部112は、その差分データを、通信I/F部111を介して第1のノード110-1に送る(S13)。
そして、処理はステップS12に戻り、以降は、ステップS12の処理とステップS13の処理とが繰り返し行われる。
図7は、第1のノード110-1がデータを受信する動作を示すフローチャートである。
まず、第1のノード110-1の処理部115は、割り当てられた処理プログラムの実行を開始する(S20)。
次に、第1のノード110-1のデータ処理部113は、通信制御部112及び通信I/F部111を介して、第2のノード110-2から、図6のステップS11で送信された初期データを取得する(S21)。
そして、データ処理部113は、処理部115を介して、第2のノード110-2の処理プログラムの状態と、処理結果とを記憶する他ノード記憶領域116bを記憶部116に確保し、初期データで示される処理プログラムの状態をその領域に記憶する(S22)。
次に、第1のノード110-1のデータ処理部113は、通信制御部112及び通信I/F部111を介して、第2のノード110-2から、図6のステップS13で送信された差分データを取得する(S23)。
そして、データ処理部113は、記憶部116の他ノード記憶領域116bに記憶されている第2のノード110-2の処理プログラムの状態及び処理結果に対して、差分データを適用することで、新たに第2のノード110-2の処理プログラムの状態及び処理結果を復元し、復元された状態及び処理結果で他ノード記憶領域116bの状態及び処理結果を上書きして、記憶する(S24)。
そして、処理はステップS23に戻り、以降は、ステップS23の処理とステップS24の処理とが繰り返し行われる。
図8は、実施の形態1における第2のノード110-2の動作が停止した場合に、第1のノード110-1が第2のノード110-2の処理を代替して行う動作を示すフローチャートである。
まず、第2のノード110-2が故障したことを、第1のノード110-1の処理部115が検知する(S30)。ここでは、第2のノード110-2の動作が停止したことを、第2のノード110-2の故障として検知する。
ここで、第2のノード110-2の動作が停止したことは、例えば、停止したことを通知する機能を第2のノード110-2が備えており、第1のノード110-1の処理部115がそのような通知を受けることで検知してもよい。
また、通信I/F部111が、図6のステップS11で送信される初期データ又は図6のステップS13で送信される差分データを、予め定められた期間受信しなかった場合に、第1のノード110-1の処理部115は、第2のノード110-2の動作が停止したと判断してもよい。
さらに、第2のノード110-2が、図6のステップS11及びステップS13とは別に定期的に第1のノード110-1に対し、動作していることを通知するデータを送信するようになっている場合には、このようなデータを、第1のノード110-1の通信I/F部111が予め定められた期間受信しなかった場合に、第1のノード110-1の処理部115は、第2のノード110-2の動作が停止したと判断してもよい。
次に、第1のノード110-1の処理部115は、記憶部116の他ノード記憶領域116bに記憶されている処理プログラムの状態と処理結果とを参照し、第1のノード110-1に割り当てられた処理プログラムと平行して、第2のノード110-2に割り当てられた処理プログラムを実行する(S31)。
ここで、平行して処理プログラムを実行とは、処理部115が実行できるプログラムの最小単位で時分割して複数の処理プログラムを順に実行することを指す。
また、平行して処理プログラムを実行とは、処理部115が、処理プログラムを実行できる複数の処理装置から構成されている場合、各処理装置に各々の処理プログラムを割り当てて同時に実行することを指してもよい。
次に、第1のノード110-1の処理部115は、第2のノード110-2に付与されたIDが付与された状態で仮想通信制御部114を起動する(S32)。通信I/F部111は、第1のノード110-1の通信制御部112に付与されたIDを有するデータを、第1のノード110-1の通信制御部112に与えるとともに、第2のノード110-2の仮想通信制御部114に付与されたIDを有するデータをネットワークハブ101から取得し、第1のノード110-1の仮想通信制御部114に与える。
ステップS31及びステップS32によって、第1のノード110-1は、並列計算機システム100において、あたかも第2のノード110-2が動作を続けているように処理プログラムを実行することができる。
以上に記載された実施の形態1に係る並列計算機システム100によれば、何れかのノード110で故障が発生した場合でも、速やかに、他のノード110が代替ノードとして引き続き処理を実行し、システム全体として処理の実行を続けることができる。
実施の形態1に係る並列計算機システム100によれば、何れかのノード110で故障が発生した場合でも、追加のノードを準備することなく、故障したノード110に割り当てられている処理プログラムの実行を続けることができる。
実施の形態1に係る並列計算機システム100によれば、何れかのノード110で故障が発生した場合に、故障したノード110と通信するノード110が、故障を検知していなくても、故障したノード110と同じIDを指定して、代替ノードと通信することができる。
実施の形態1に係る並列計算機システム100によれば、何れかのノード110で故障が発生した場合に、故障したノード110との通信に用いられているIDを変更する必要がないため、通信に係るプログラム変更の必要がなく、処理負荷を削減でき、プログラム変更に伴うエラーの発生を抑制できる。
実施の形態1に係る並列計算機システム100によれば、何れかのノード110が故障した場合に、故障したノード110の情報が他のノード110に記憶されているため、故障した原因の特定等が容易になる。
実施の形態1に係る並列計算機システム100によれば、処理プログラムの状態及び処理結果の送信に差分データを用いているため、送信するデータ量が削減でき、ネットワーク負荷を削減することができる。
実施の形態1に係る並列計算機システム100によれば、処理プログラムの状態及び処理結果を差分データとして受け取るため、記憶部116に書き込む量が差分だけでよいため記憶部116への書き込み負荷及び帯域の削減が可能となる。
実施の形態2.
以下、実施の形態2に係る並列計算機システムについて説明を行う。以下の説明では、実施の形態1と同様の部分については説明を省略又は簡略化し、実施の形態1と同一又は対応する要素については同一の符号を付す。
図9は、実施の形態2に係る並列計算機システム200の構成を概略的に示すブロック図である。
並列計算機システム200は、複数のノード210-1、210-2、・・・、210-N(Nは、2以上の整数)を備える。複数のノード210-1、210-2、・・・、210-Nは、ネットワークを構成するネットワークハブ101に接続され、相互に通信を行うことができる。
実施の形態2では、複数のノード210-1、210-2、・・・、210-Nとして、第1のノード210-1と、第2のノード210-2と、第Nのノード210-Nとが少なくとも備えられている。
ここで、第1のノード210-1、第2のノード210-2及び第Nのノード210-Nは、同様に構成されているため、以下、特に各々を区別する必要がない場合には、ノード210という。
図10は、ノード210の構成を概略的に示すブロック図である。
ノード210は、通信I/F部111と、通信制御部112と、データ処理部113と、仮想通信制御部114と、処理部215と、記憶部116と、補助記憶部219とを備える。
なお、通信I/F部111及び通信制御部112により通信部117が構成され、通信I/F部111及び仮想通信制御部114により、仮想通信部118が構成される。
なお、第1のノード210-1の通信I/F部111、通信制御部112、データ処理部113、仮想通信制御部114、処理部215、記憶部116、通信部117、仮想通信部118及び補助記憶部219のそれぞれを、それぞれ、第1の通信I/F部、第1の通信制御部、第1のデータ処理部、第1の仮想通信制御部、第1の処理部、第1の記憶部、第1の通信部、第1の仮想通信部及び第1の補助記憶部ともいう。
また、第2のノード210-2の通信I/F部111、通信制御部112、データ処理部113、仮想通信制御部114、処理部215、記憶部116、通信部117、仮想通信部118及び補助記憶部219のそれぞれを、それぞれ、第2の通信I/F部、第2の通信制御部、第2のデータ処理部、第2の仮想通信制御部、第2の処理部、第2の記憶部、第2の通信部、第2の仮想通信部及び第2の補助記憶部ともいう。
さらに、第Nのノード210-Nの通信I/F部111、通信制御部112、データ処理部113、仮想通信制御部114、処理部215、記憶部116、通信部117、仮想通信部118及び補助記憶部219のそれぞれを、それぞれ、第Nの通信I/F部、第Nの通信制御部、第Nのデータ処理部、第Nの仮想通信制御部、第Nの処理部、第Nの記憶部、第Nの通信部、第Nの仮想通信部及び第Nの補助記憶部ともいう。
さらにまた、第1のノード210-1に付与されたIDを、第1の識別情報(第1のID)ともいい、第2のノード210-2に付与されたIDを、第2の識別情報(第2のID)ともいい、第Nのノード210-Nに付与されたIDを、第Nの識別情報(第NのID)ともいう。
また、第1のノード210-1で生成される通信データを、第1の通信データともいい、第2のノード210-2で生成される通信データを、第2の通信データともいい、第Nのノード210-Nで生成される通信データを、第Nの通信データともいう。
処理部215は、実施の形態1の処理部115と同様の処理を行うほか、以下のような処理を行う。
なお、第1のノード210-1に割り当てられた処理を、第1の処理ともいい、第1のノード210-1に割り当てられた処理プログラムを、第1の処理プログラムともいう。また、第2のノード210-2に割り当てられた処理を、第2の処理ともいい、第2のノード210-2に割り当てられた処理プログラムを、第2の処理プログラムともいう。さらに、第Nのノード210-Nに割り当てられた処理を、第Nの処理ともいい、第Nのノード210-Nに割り当てられた処理プログラムを、第Nの処理プログラムともいう。
また、処理部215は、データを記憶させる際に、記憶部116又は補助記憶部219に記録させる。
処理部215は、定期的に自ノード210の処理負荷を計測し、計測された処理負荷を、データ処理部113、通信制御部112及び通信I/F部111を介して、他のノード210に通知するとともに、記憶部116又は補助記憶部219に記録する。ここでは、処理部215は、ネットワークハブ101に接続されている全てのノード210に通知するものとする。
また、処理部215は、データ処理部113、通信制御部112及び通信I/F部111を介して、他のノード210からの処理負荷を取得して、取得された処理負荷を、送信してきた他のノード210を識別できるように、記憶部116又は補助記憶部219に記憶する。
なお、処理部215は、他のノード210から、処理負荷が予め定められた期間送られてこない場合には、そのノード210に故障が発生したと判断する。
そして、処理部215は、他のノード210に故障が発生した場合には、記憶部116又は補助記憶部219に記憶されている処理負荷を参照することにより、自ノード210の処理負荷が最も低いか否かを判断する。自ノード210の処理負荷が最も低い場合には、実施の形態1の処理部115と同様に、故障したノード210で実行されていた処理プログラムの実行を引き継ぐ。
補助記憶部219は、ノード210での処理に必要なプログラム及びデータを記憶する。例えば、補助記憶部219は、HDD(Hard Disk Drive)等のように、低価格で大容量のデータを記憶することのできる記憶装置により実現することが望ましい。
次に、実施の形態2に係る並列計算機システム200の動作の概要を説明する。
実施の形態2でも、各々のノード210は、図6に示されているデータを送信する動作、及び、図7に示されているデータを受信する動作を行う。
例えば、第Nのノード210-Nから初期データ及び差分データを送信する場合を例に説明する。
まず、第Nのノード210-Nの処理部215は、送信先のノードとして第1のノード210-1及び第2のノード210-2の2つのノード210を選択する。送信先のノード210の選択は、ここでは、ネットワークハブ101に接続されている全てのノード210であるものとする。
2つのノード210を選択したため、第Nのノード210-Nの処理部215は、初期データをコピーし、第1のノード210-1に送信する初期データと、第2のノード210-2に送信する初期データとを生成し、それぞれのデータを各ノード210に送信する。ここで、第1のノード210-1に送る初期データと、第2のノード210-2に送る初期データとは、同一のデータとする。
以後、第Nのノード210-Nのデータ処理部113は、差分データを生成し、他のノード210への送信を、上記と同様に繰り返し行う。なお、ここでは2つのノード210-1、210-2に対して差分データを送信する方法を説明したが、送信するノード210の数は、並列計算機システム200の構成上可能な数のノード210に送信することができる。
また、第Nのノード210-Nが、初期データ及び差分データを送信する場合について説明したが、並行して第1のノード210-1及び第2のノード210-2も初期データ及び差分データを送信する。
第Nのノード210-Nのように複数のノード210に対しデータ送信した場合、受信したノード210は、複数のノード210のデータを記憶しなければならない。このため、記憶部116で容量が不足した場合には、補助記憶部219にデータが記憶される。
次に、第Nのノード210-Nに故障が発生した場合の第1のノード210-1及び第2のノード210-2の動作を説明する。
図11は、実施の形態2における第Nのノード210-Nが停止した場合に、第1のノード210-1又は第2のノード210-2が第Nのノード210-Nの処理を代替して行う動作を示すフローチャートである。
まず、第Nのノード210-Nが故障したことを、第1のノード210-1の処理部215及び第2のノード210-2の処理部215が検知する(S40)。ここでは、第Nのノード210-Nの動作が停止したことを、第Nのノード210-Nの故障として検知する。
次に、第1のノード210-1の処理部215及び第2のノード210-2の処理部215は、自ノード210の記憶部116又は補助記憶部219に記憶されている処理負荷を参照することで、最も処理負荷が低いノード210を特定し、特定されたノード210を、第Nのノード210-Nの処理を引き継ぐノード210である代替ノード210として選択する(S41)。
次に、代替ノード210の処理部215は、記憶部116又は補助記憶部219の他ノード記憶領域116bに記憶されている処理プログラムの状態と処理結果とを参照し、自ノード210に割り当てられた処理プログラムと平行して、第Nのノード210-Nに割り当てられた処理プログラムを実行する(S42)。
次に、代替ノード210の処理部215は、第Nのノード210-Nに付与されたIDが付与された状態で仮想通信制御部114を起動する(S43)。通信I/F部111は、通信制御部112に付与されたIDを有するデータを通信制御部112に与えるとともに、仮想通信制御部114に付与されたIDを有するデータをネットワークハブ101から取得し、仮想通信制御部114に与える。
ステップS42及びステップS43によって、代替ノード210は、並列計算機システム200において、あたかも第Nのノード210-Nが動作を続けているように処理プログラムを実行することができる。
以上に記載された実施の形態2に係る並列計算機システム200によれば、何れかのノード210が停止し、そのノード210の処理プログラムの状態と処理結果とを記憶していたノード210も同時に動作を停止しても、他の何れかのノード210が停止したノード210の処理プログラムの状態と処理結果とを記憶しているため、確実に停止したノード210の処理を引き続いて実行することができる。
実施の形態2に係る並列計算機システム200によれば、何れかのノード210の動作が停止し、そのノード210の処理プログラムの状態と処理結果とを記憶していたノード210の中で処理負荷の低いノード210が代替ノード210として選択されるため、代替ノード210の処理負荷の増加による処理遅延を抑制することができる。
なお、代替ノード210の選択の方法は、上記に限られない。例えば、各ノード210に付与されているIDが番号である場合には、番号の小さいものから順に代替ノード210として選択することもできる。
実施の形態2では、各ノード210は、他の全てのノード210に、初期データ及び差分データを送信するようにしているが、他の全てのノード210ではない、1又は複数のノード210に、初期データ及び差分データを送信するようにしてもよい。このような場合、初期データ及び差分データを送信する1又は複数のノード210は、予め定められていてもよく、また、処理の開始時に、全てのノード210で処理負荷を計測して、他の全てのノード210に通知し、処理負荷の低いものから順に、初期データ及び差分データを送信する1又は複数のノード210が決定されてもよい。
このような場合、代替ノード210は、故障が発生したノード210から直接初期データ及び差分データを受信していなくてもよく。代替ノード210として選択された時点で、故障が発生したノード210から直接初期データ及び差分データを受信していたノード210から、故障が発生したノード210の処理プログラムの状態及び処理結果を受信して、処理を引き継げばよい。
また、各々のノード210が初期データ及び差分データを送信するノード210を選択する際には、例えば、図12に示されている並列計算機システム200#のように、複数のノード210-1、210-2、・・・、210-N、210-N+1、210-N+2、・・・、210-L(Lは、Nよりも大きい整数)を複数のグループに分けて、グループ内の1又は複数のノード210に初期データ及び差分データを送信するようにしてもよい。なお、図12では、複数のグループは、第1のグループと第2のグループの2つのグループであるが、3以上のグループであってもよい。
また、各々のノード210が、初期データ及び差分データを送信する際に、全ての初期データ及び差分データを同じノード210に送信しなくてもよい。例えば、各々のノード210は、第1の処理を行うための初期データ及び差分データをあるノード210に送信し、第1の処理とは異なる第2の処理を行うための初期データ及び差分データを別のノード210に送信してもよい。
以上の実施の形態1及び実施の形態2では、通信制御部112及び仮想通信制御部114が、通信I/F部111を共用しているが、実施の形態1及び実施の形態2は、このような例に限定されない。例えば、通信制御部112が通信I/F部111を使用して通信を行い、仮想通信制御部114が図示されていない仮想通信I/F部を使用して通信を行うようにしてもよい。ここで、仮想通信I/F部は、通信I/F部111と同様に、ネットワークハブ101に接続されているものとする。
100,200 並列計算機システム、 101 ネットワークハブ、 110,210 ノード、 111 通信I/F部、 112 通信制御部、 113 データ処理部、 114 仮想通信制御部、 115,215 処理部、 116 記憶部、 117 通信部、 118 仮想通信部、 219 補助記憶部。

Claims (8)

  1. ネットワークに接続された第1の情報処理装置及び第2の情報処理装置を備え、前記第1の情報処理装置及び前記第2の情報処理装置により処理を実行する情報処理システムであって、
    前記第1の情報処理装置は、
    前記第1の情報処理装置に付与されている第1の識別情報を用いて、前記ネットワークと通信を行う第1の通信部と、
    前記処理の内、前記第1の情報処理装置に割り当てられている第1の処理に対応する第1の処理プログラムを実行する第1の処理部と、
    前記第1の処理部が前記第1の処理プログラムを実行中に、前記第1の処理プログラムの状態及び処理結果を特定することのできる第1の通信データを生成し、前記第1の通信部を介して、前記第1の通信データを前記第2の情報処理装置に送る第1のデータ処理部と、を備え、
    前記第2の情報処理装置は、
    前記第2の情報処理装置に付与されている第2の識別情報を用いて、前記ネットワークと通信を行う第2の通信部と、
    前記処理の内、前記第2の情報処理装置に割り当てられている第2の処理に対応する第2の処理プログラムを実行する第2の処理部と、を備え、
    前記第2の処理部は、前記第1の情報処理装置が故障した場合に、前記第1の通信データで特定される前記第1の処理プログラムの状態及び処理結果から、前記第1の処理プログラムの実行を引き継ぎ、前記第1の識別情報を用いて前記第1の通信部に代わり通信を行う第2の仮想通信部を起動し、前記第2の仮想通信部を介して前記第1の処理プログラムを実行するとともに、前記第2の処理プログラムを実行すること
    を特徴とする情報処理システム。
  2. 前記第2の情報処理装置は、前記第2の処理部が前記第2の処理プログラムを実行中に、前記第2の処理部が実行している前記第2の処理プログラムの状態及び処理結果を特定することのできる第2の通信データを生成し、前記第2の通信部を介して、前記第2の通信データを前記第1の情報処理装置に送る第2のデータ処理部をさらに備え、
    前記第1の処理部は、前記第2の情報処理装置が故障した場合に、前記第2の通信データで特定される前記第2の処理プログラムの状態及び処理結果から、前記第2の処理プログラムの実行を引き継ぎ、前記第2の識別情報を用いて前記第2の通信部に代わり通信を行う第1の仮想通信部を起動し、前記第1の仮想通信部を介して前記第2の処理プログラムを実行するとともに、前記第1の処理プログラムを実行すること
    を特徴とする請求項1に記載の情報処理システム。
  3. 前記第1のデータ処理部は、
    前記第1の処理プログラムの実行開始時に、前記第1の処理プログラムの状態を示す初期データを、前記第2の情報処理装置に送り、
    前記第1の処理プログラムの実行中の複数の時点の最初の時点においては、前記最初の時点における前記第1の処理プログラムの状態及び処理結果と、前記初期データで示される前記第1の処理プログラムの状態との差分を示す差分データを前記第1の通信データとして、前記第2の情報処理装置に送り、
    前記複数の時点における前記最初の時点以降の1つの時点においては、前記1つの時点における前記第1の処理プログラムの状態及び処理結果と、前記1つの時点の1つ前の時点における前記第1の処理プログラムの状態及び処理結果との差分を示す差分データを前記第1の通信データとして、前記第2の情報処理装置に送ること
    を特徴とする請求項1又は2に記載の情報処理システム。
  4. 前記第2のデータ処理部は、
    前記第2の処理プログラムの実行開始時に、前記第2の処理プログラムの状態を示す初期データを、前記第1の情報処理装置に送り、
    前記第2の処理プログラムの実行中の複数の時点の最初の時点においては、前記最初の時点における前記第2の処理プログラムの状態及び処理結果と、前記初期データで示される前記第2の処理プログラムの状態との差分を示す差分データを前記第2の通信データとして、前記第1の情報処理装置に送り、
    前記複数の時点における前記最初の時点以降の1つの時点においては、前記1つの時点における前記第2の処理プログラムの状態及び処理結果と、前記1つの時点の1つ前の時点における前記第2の処理プログラムの状態及び処理結果との差分を示す差分データを前記第2の通信データとして、前記第1の情報処理装置に送ること
    を特徴とする請求項2に記載の情報処理システム。
  5. ネットワークに接続された複数の情報処理装置を備え、前記複数の情報処理装置により処理を実行する情報処理システムであって、
    前記複数の情報処理装置の各々は、
    前記ネットワークと通信を行う通信部と、
    前記処理の内、自装置に割り当てられている処理に対応する処理プログラムを実行する処理部と、
    記処理部が前記処理プログラムを実行中に、前記処理プログラムの状態及び処理結果を特定することのできる通信データを生成し、前記通信部を介して、前記通信データを前記複数の情報処理装置の内の少なくとも1つの他装置である第1の他装置に送るデータ処理部と、を備え、
    前記処理部は、
    定期的に自装置の処理負荷を計測して前記第1の他装置に通知するとともに、自装置の処理負荷と、前記複数の情報処理装置の内の少なくとも一つの他装置である第2の他装置の処理負荷とを記憶部に記憶し、
    前記第2の他装置の内、前記処理負荷を予め定められた期間送ってこない装置を故障発生装置と判断し、
    前記故障発生装置の前記処理負荷を除いて、前記記憶部に記憶されている前記処理負荷において、自装置の前記処理負荷が最も低い場合に、前記故障発生装置の前記通信データで特定される前記処理プログラムの状態及び処理結果から、前記故障発生装置の前記処理プログラムの実行を引き継ぎ、自装置の前記処理プログラム及び前記故障発生装置の前記処理プログラムを実行すること
    を特徴とする情報処理システム。
  6. ネットワークに接続された複数の情報処理装置を備え、前記複数の情報処理装置により処理を実行する情報処理システムであって、
    前記複数の情報処理装置の各々は、
    前記ネットワークと通信を行う通信部と、
    前記処理の内、自装置に割り当てられている処理に対応する処理プログラムを実行し、定期的に自装置の処理負荷を計測して、前記複数の情報処理装置の内の少なくとも一つの他装置である第1の他装置に通知するとともに、自装置の処理負荷を記憶部に記憶する処理部と、
    前記処理部が前記処理プログラムを実行中に、前記処理プログラムの状態及び処理結果を特定することのできる通信データを生成し、前記通信部を介して、前記通信データを前記第1の他装置に送るデータ処理部と、を備え、
    前記複数の情報処理装置の内、前記第1の他装置を除く少なくとも一つの装置は、他の装置の処理を代替する代替装置として予め決められており、
    前記処理部は、
    前記複数の処理装置の内の少なくとも一つの他装置である第2の他装置の処理負荷を定期的に受信して、前記記憶部に記憶し、
    前記第2の他装置の内、前記処理負荷を予め定められた期間送ってこない装置を故障発生装置と判断し、
    前記代替装置の処理部は、
    前記故障発生装置の前記処理負荷を除いて、前記記憶部に記憶されている前記処理負荷において、自装置の前記処理負荷が最も低い場合に、前記第1の他装置から前記故障発生装置の前記通信データを取得して、前記取得された通信データで特定される前記処理プログラムの状態及び処理結果から、前記故障発生装置の前記処理プログラムの実行を引き継ぎ、自装置の前記処理プログラム及び前記故障発生装置の前記処理プログラムを実行すること
    を特徴とする情報処理システム。
  7. ネットワークに接続された複数の情報処理装置により処理を実行する情報処理システムにおいて前記複数の情報処理装置の内の1つの情報処理装置として使用される情報処理装置であって、
    自装置に付与されている第1の識別情報を用いて、前記ネットワークと通信を行う通信部と、
    前記処理の内、前記情報処理装置に割り当てられている第1の処理に対応する第1の処理プログラムを実行する処理部と、
    前記処理部が前記第1の処理プログラムを実行中に、前記第1の処理プログラムの状態及び処理結果を特定することのできる第1の通信データを生成し、前記通信部を介して、前記複数の情報処理装置の内の少なくとも1つの情報処理装置に送るデータ処理部と、を備え、
    前記通信部は、前記複数の情報処理装置の内の第2の情報処理装置から、前記処理の内、前記第2の情報処理装置に割り当てられている第2の処理に対応する第2の処理プログラムの実行中に、前記第2の処理プログラムの状態及び処理結果を特定することのできる第2の通信データを受け取り、
    前記処理部は、前記第2の情報処理装置が故障した場合に、前記第2の通信データで特定される前記第2の処理プログラムの状態及び処理結果から、前記第2の処理プログラムの実行を引き継ぎ、前記第2の情報処理装置に付与されている第2の識別情報を用いて、前記第2の情報処理装置が備える第2の通信部に代わり通信を行う仮想通信部を起動し、前記仮想通信部を介して前記第2の処理プログラムを実行するとともに、前記第1の処理プログラムを実行すること
    を特徴とする情報処理装置。
  8. コンピュータを、ネットワークに接続された複数の情報処理装置により処理を実行する情報処理システムにおいて前記複数の情報処理装置の内の1つの情報処理装置として使用される情報処理装置として機能させるプログラムであって、
    前記コンピュータを、
    自装置に付与されている第1の識別情報を用いて、前記ネットワークと通信を行う通信部、
    前記処理の内、前記情報処理装置に割り当てられている第1の処理に対応する第1の処理プログラムを実行する処理部、
    前記処理部が前記第1の処理プログラムを実行中に、前記第1の処理プログラムの状態及び処理結果を特定することのできる第1の通信データを生成し、前記通信部を介して、前記複数の情報処理装置の内の少なくとも1つの情報処理装置に送るデータ処理部、として機能させ、
    前記通信部は、前記複数の情報処理装置の内の第2の情報処理装置から、前記処理の内、前記第2の情報処理装置に割り当てられている第2の処理に対応する第2の処理プログラムの実行中に、前記第2の処理プログラムの状態及び処理結果を特定することのできる第2の通信データを受け取り、
    前記処理部は、前記第2の情報処理装置が故障した場合に、前記第2の通信データで特定される前記第2の処理プログラムの状態及び処理結果から、前記第2の処理プログラムの実行を引き継ぎ、前記第2の情報処理装置に付与されている第2の識別情報を用いて、前記第2の情報処理装置が備える第2の通信部に代わり通信を行う仮想通信部を起動し、前記仮想通信部を介して前記第2の処理プログラムを実行するとともに、前記第1の処理プログラムを実行すること
    を特徴とするプログラム。
JP2018089831A 2018-05-08 2018-05-08 情報処理システム、情報処理装置及びプログラム Active JP7065686B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018089831A JP7065686B2 (ja) 2018-05-08 2018-05-08 情報処理システム、情報処理装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018089831A JP7065686B2 (ja) 2018-05-08 2018-05-08 情報処理システム、情報処理装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2019197302A JP2019197302A (ja) 2019-11-14
JP7065686B2 true JP7065686B2 (ja) 2022-05-12

Family

ID=68538414

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018089831A Active JP7065686B2 (ja) 2018-05-08 2018-05-08 情報処理システム、情報処理装置及びプログラム

Country Status (1)

Country Link
JP (1) JP7065686B2 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005528691A (ja) 2002-05-31 2005-09-22 ベリタス オペレーティング コーポレーション サーバ連結環境のための業務継続ポリシー
JP2012150657A (ja) 2011-01-19 2012-08-09 Mitsubishi Electric Corp 計算機システム
JP2012221321A (ja) 2011-04-11 2012-11-12 Nec Corp フォールトトレラント計算機システム、フォールトトレラント計算機システムの制御方法、及びフォールトトレラント計算機システムの制御プログラム
JP2015090675A (ja) 2013-11-07 2015-05-11 富士通株式会社 情報処理方法、装置、及びプログラム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03278238A (ja) * 1990-03-28 1991-12-09 Nec Corp 相互ホットスタンドバイシステム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005528691A (ja) 2002-05-31 2005-09-22 ベリタス オペレーティング コーポレーション サーバ連結環境のための業務継続ポリシー
JP2012150657A (ja) 2011-01-19 2012-08-09 Mitsubishi Electric Corp 計算機システム
JP2012221321A (ja) 2011-04-11 2012-11-12 Nec Corp フォールトトレラント計算機システム、フォールトトレラント計算機システムの制御方法、及びフォールトトレラント計算機システムの制御プログラム
JP2015090675A (ja) 2013-11-07 2015-05-11 富士通株式会社 情報処理方法、装置、及びプログラム

Also Published As

Publication number Publication date
JP2019197302A (ja) 2019-11-14

Similar Documents

Publication Publication Date Title
JP4611922B2 (ja) 制御プログラム、制御方法および制御装置
CN108345617B (zh) 一种数据同步方法、装置以及电子设备
US9152491B2 (en) Job continuation management apparatus, job continuation management method and job continuation management program
CN102346779A (zh) 分布式文件系统和主控节点的备份方法
CN107329859B (zh) 一种数据保护方法及存储设备
JP5078347B2 (ja) 複数のノードを有するコンピュータ・システムの故障ノードをフェイルオーバー(修復)する方法
JP2007520003A (ja) コンピュータ障害発生時に複数のコンピュータの配列を操作する方法
JP6511739B2 (ja) 冗長システムおよび冗長化方法
JP2019139631A (ja) 制御装置、制御システム、制御方法、および、制御プログラム
JP6135226B2 (ja) 情報処理装置、情報処理方法、ストレージシステム及びコンピュータプログラム
CN106855869B (zh) 一种实现数据库高可用的方法、装置和系统
JP7065686B2 (ja) 情報処理システム、情報処理装置及びプログラム
JP5613119B2 (ja) マスター/スレーブシステム、制御装置、マスター/スレーブ切替方法、および、マスター/スレーブ切替プログラム
CN114124803B (zh) 设备管理方法、装置、电子设备及存储介质
JP2016051209A (ja) 情報処理装置、情報処理システム、情報処理システムの制御方法および情報処理装置の制御プログラム
JP2008276281A (ja) データ同期システム、方法、及び、プログラム
JP4978109B2 (ja) ネットワークシステム及び情報処理方法
JP2020156053A (ja) ネットワーク障害復旧システム、コンピュータプログラム及びネットワーク障害復旧方法
JP6464704B2 (ja) フォールトトレラントシステム、稼働系装置、待機系装置、フェイルオーバー方法、および、フェイルオーバープログラム
JP2005157462A (ja) 系切り替え方法及び情報処理システム
JP2018165908A (ja) 情報処理装置、情報処理方法及びプログラム
JP6798900B2 (ja) 制御装置、情報システムおよび制御方法
CN107329698B (zh) 一种数据保护方法及存储设备
JP6362798B1 (ja) 制御装置および代替選出プログラム
JP7223591B2 (ja) データ移行管理装置、データ移行管理プログラム、およびデータ移行管理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201027

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210831

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210914

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20211028

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220106

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220329

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220426

R150 Certificate of patent or registration of utility model

Ref document number: 7065686

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150