JP6934754B2 - 分散処理システム、分散処理システムの管理方法、及び分散処理システム管理プログラム - Google Patents
分散処理システム、分散処理システムの管理方法、及び分散処理システム管理プログラム Download PDFInfo
- Publication number
- JP6934754B2 JP6934754B2 JP2017117659A JP2017117659A JP6934754B2 JP 6934754 B2 JP6934754 B2 JP 6934754B2 JP 2017117659 A JP2017117659 A JP 2017117659A JP 2017117659 A JP2017117659 A JP 2017117659A JP 6934754 B2 JP6934754 B2 JP 6934754B2
- Authority
- JP
- Japan
- Prior art keywords
- information processing
- information
- operating
- configuration information
- configuration
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2035—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant without idle spare hardware
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3006—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1402—Saving, restoring, recovering or retrying
- G06F11/1415—Saving, restoring, recovering or retrying at system level
- G06F11/142—Reconfiguring to eliminate the error
- G06F11/1425—Reconfiguring to eliminate the error by reconfiguration of node membership
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2023—Failover techniques
- G06F11/2025—Failover techniques using centralised failover control functionality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2023—Failover techniques
- G06F11/2028—Failover techniques eliminating a faulty processor or activating a spare
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/2053—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
- G06F11/2094—Redundant storage or storage space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Hardware Redundancy (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Description
分散処理システム(以下、ACT/STB構成という。)が提案されている。
れている。
図1は、本実施形態に係る分散処理管理システム100の構成の一例を示す図である。同図に示すように、分散処理管理システム100は、デバイス101、センサ102、及び宛先サーバ103の各装置と、これらの装置と通信可能に接続された分散アプリケーションシステム109と、分散アプリケーションシステム109と通信可能に接続された分散アプリケーションシステム監視サーバ106とを含んで構成されている。
どである。無線網104は、例えば無線LAN、無線WAN、専用の無線通信網等である。
視サーバ106は、構成情報に関する指示(以下、再構成通知という。)を分散アプリケーションシステム109に送信し、分散アプリケーションシステム109における各分散アプリケーションサーバ108は、この再構成通知に基づき、本アプリケーションの処理を他の分散アプリケーションサーバ108と並列的に行う(すなわち、並列処理を行う。以下において同じ。)ことが可能となっている。すなわち、分散アプリケーションシステム109は、これを構成する全ての情報処理装置が稼働系となっているACT/ACT(ACTive/ACTive)構成の分散処理システムである。
ここで、分散アプリケーションシステム109におけるACT/ACT構成について具体的に説明する。
バ2がスレーブとなる組み合わせとを含む。
<分散アプリケーションシステム監視サーバ106の構成>
図3は、分散アプリケーションシステム監視サーバ106が備えるハードウェア及び機能の一例を説明する図である。分散アプリケーションシステム監視サーバ106は、CPU(Central Processing Unit)などのプロセッサ211と、他の情報処理装置と通信を
行う入出力回路インタフェース212と、RAM(Random Access Memory)、ROM(Read Only Memory)、HDD(Hard Disk Drive)、SSD(Solid State Drive)などの記憶装置213と、キーボード、マウス、タッチパネル、モニタ(ディスプレイ)などからなる入出力装置214とを備える。
くとも1台以上の前記情報処理装置に前記所定の処理(本アプリケーションの処理)を単独で又は並列的に行わせる。
前記構成変更部57は、前記稼働しなくなった情報処理装置が前記マスターであった場
合には、前記稼動している前記スレーブのいずれかを新たな前記マスターとする変更を前記構成情報に対して行うことにより、前記稼動している情報処理装置に前記所定の処理を並列的に行わせる。
ここで、システム構成情報225の一例を説明する。
図4は、システム構成情報225の例を示す図である。ここでは、前記のケース1におけるシステム構成情報701A、及び、前記のケース2におけるシステム構成情報701Bを示した。
ここで、通信先情報226について説明する。
図5は、通信先情報226の一例を示す図である。同図に示すように、通信先情報226は、本アプリケーション2261及び本データ2262のそれぞれを示す識別子(以下、ノード名2263という。)、それぞれが記憶されている分散アプリケーションサーバ108のIPアドレス2264、及び、それぞれが記憶されている分散アプリケーションサーバ108のポート番号2265の各情報を含む。これらの通信先情報226は、例えば、分散アプリケーションシステム監視サーバ106が、各分散アプリケーションサーバ108の分散アプリケーション構成情報324、及び分散データストア構成情報325にアクセスする際に用いられる。
<分散アプリケーションサーバ108>
図6は、分散アプリケーションサーバ108が備えるハードウェア及び機能を説明する図である。分散アプリケーションサーバ108は、CPU(Central Processing Unit)
などのプロセッサ311と、他の情報処理装置と通信を行う入出力回路インタフェース312と、RAM(Random Access Memory)、ROM(Read Only Memory)、HDD(Hard
Disk Drive)、SSD(Solid State Drive)などの記憶装置313と、キーボード、マウス、タッチパネル、モニタ(ディスプレイ)などからなる入出力装置314とを備える。
ここで、分散データストア構成情報325の具体例を説明する。
図7は、分散データストア構成情報325の一例を示す図である。同図に示すように、分散データストア構成情報325は、分散アプリケーションサーバ108のIPアドレス3251、分散アプリケーションサーバ108のポート番号3252、分散アプリケーションサーバ108の稼動状態に関するログの情報3253、分散アプリケーションサーバ108における本アプリケーションをクラスタモードで実行するか否か(本アプリケーションを複数の分散アプリケーションサーバ108により並列的に実行するか否か)を示すクラスタモード情報3254、及び、タイムアウト時間に関するタイムアウト情報3255等を含む。分散データストア構成情報325は、分散アプリケーションサーバ108ごとに異なる(325A、325B、325C、…)。
次に、分散処理管理システム100が行う処理について説明する。本実施形態の分散処理管理システム100は、以下に説明するように、ACT/ACT構成の分散処理システムを維持できなくなった場合であっても、本アプリケーションの処理を続行することができ、また、ACT/ACT構成の分散処理システムを一時的に解除していた場合にはこれを回復することができる。
ここで、s1001及びs403で説明した、状態遷移処理定義情報224を生成するための状態遷移処理定義情報生成プログラム222について説明する。
には、稼動しているスレーブの分散アプリケーションサーバ108に記憶されているデータを、他の分散アプリケーションサーバ108に転送すると共にその転送先の分散アプリケーションサーバ108をマスターとする処理の情報を生成し、生成した情報を状態遷移処理定義情報224に追加してもよい。
ここで、状態遷移処理定義情報生成プログラム222により生成される状態遷移処理定義情報224の具体例を説明する。
図11は、ケース1における状態遷移処理定義情報224の一例を説明するフローチャートである。同図に示すように、分散アプリケーションシステム109を構成する3台の分散アプリケーションサーバ108のうち3台の分散アプリケーションサーバ108が稼動している状態(s601)から、1台の分散アプリケーションサーバ108が稼動しなくなったことにより2台の分散アプリケーションサーバ108が稼動している状態(s602)に遷移した場合(すなわち、1台の縮退が発生した場合)において、稼動していなかった1台の分散アプリケーションサーバ108が稼動を開始した場合(復帰した場合)、分散アプリケーションシステム109の状態は、自動データレプリケーションプログラムによってs601の状態に遷移する(戻る)。
ョンの処理を停止する(s604)。
(ケース2の状態遷移処理定義情報224)
図13は、ケース2における状態遷移処理定義情報224の一例を説明するフローチャートである。同図に示すように、分散アプリケーションシステム109を構成する3台の分散アプリケーションサーバ108のうち3台の分散アプリケーションサーバ108が稼動している状態(s631)から、1台の分散アプリケーションサーバ108が稼動しなくなったことにより2台の分散アプリケーションサーバ108が稼動している状態(s632)に遷移した場合(すなわち、1台の縮退が発生した場合)、稼動しなくなった1台の分散アプリケーションサーバ108が分散アプリケーションシステム109から除外され(切り離され)、その分散アプリケーションシステム109において稼動している2台の分散アプリケーションサーバ108が、本アプリケーションの処理を並列的に行う(s637、s638、s639、s634)。具体的には、例えば、分散アプリケーションシステム監視サーバ106からの再構成指示により、データレプリケーション支援プログラム323が実行され、稼動している分散アプリケーションサーバ108のデータが同期する(s637)。また、分散アプリケーション構成情報324及び分散データストア構成情報325が、分散アプリケーションシステム監視サーバ106からの再構成指示により、稼動しなくなった分散アプリケーションサーバ108が切り離された分散アプリケーションシステム109における分散アプリケーションサーバ108が本アプリケーションの処理を並列的に行う構成の情報に更新され(s638)、分散アプリケーションシステム109が再起動される(s639)。これにより、2台の分散アプリケーションサーバ108が、本アプリケーションの処理を並列的に実行する状態となる(s634)。
ケーションシステム109における3台の分散アプリケーションサーバ108が、本アプリケーションの処理を並列的に行う(s641、s642、s631)。具体的には、例えば、まず、分散アプリケーションシステム監視サーバ106からの再構成指示によりデータレプリケーション支援プログラムが実行されることにより、既に稼動している分散アプリケーションサーバ108のデータが、稼動を開始した分散アプリケーションサーバ108に転送され、これらの分散アプリケーションサーバ108の間でデータが同期される(s640)。そして、分散アプリケーションシステム監視サーバ106からの再構成指示により、分散アプリケーション構成情報324及び分散データストア構成情報325が、既に稼働している分散アプリケーションサーバ108及び稼動を開始した分散アプリケーションサーバ108が本アプリケーションの処理を並列的に行う構成の情報に更新され(s641)、分散アプリケーションシステム109が再起動される(s642)。これにより、分散アプリケーションシステム109の状態は、3台の分散アプリケーションサーバ108が本アプリケーションの処理を並列的に実行する状態となる(s631)。
225)を変更し、稼動している情報処理装置に所定の処理(本アプリケーションの処理)を単独で又は並列的に行わせるので、分散アプリケーションシステム109のうち一部が稼動しなくなっても、分散アプリケーションシステム109における構成を変更することにより、本アプリケーションの処理を確実に続行させることができる。
ョンの並列処理を行うことができる。
きる。
Claims (14)
- 相互に通信可能に接続された、プロセッサ及びメモリを備える複数の情報処理装置を含んで構成され、前記情報処理装置が所定の処理を他の前記情報処理装置と並列的に行う並列処理が可能な分散処理システムであって、
前記分散処理システムを構成する前記情報処理装置の台数及び前記情報処理装置の組み合わせに関する情報である構成情報を記憶する構成情報記憶部と、
前記情報処理装置のそれぞれの稼働状態を監視する状態監視部と、
前記情報処理装置の稼働状態の変化を検知した場合に、稼動している前記情報処理装置の台数及び組み合わせに基づき前記構成情報を変更し、変更した前記構成情報に基づき、前記稼動している少なくとも1台以上の前記情報処理装置に前記所定の処理を単独で又は並列的に行わせるシステム再構成部と、
を備え、
前記システム再構成部は、稼動していた前記情報処理装置のうち一部の前記情報処理装置が稼動しなくなったことを検知した場合に、稼動している前記情報処理装置の台数及び組み合わせに基づき前記構成情報を変更し、変更した前記構成情報に基づき、前記稼動している情報処理装置に前記所定の処理を単独で又は並列的に行わせる縮退処理を行う縮退部を備え、
前記縮退部は、前記構成情報が示す前記情報処理装置のうち一部の前記情報処理装置が稼働しなくなったことにより前記構成情報が示す台数未満の前記情報処理装置が稼動している状態となったことを検知した場合に、前記構成情報における前記台数及び前記組み合わせを、前記稼動しなくなった前記情報処理装置が除外された、稼動している前記情報処理装置の新たな台数及び組み合わせに変更し、変更した前記構成情報に基づき、稼動している前記情報処理装置に前記所定の処理を行わせる冗長度変更処理を行う冗長度変更部を備える、分散処理システム。 - 前記システム再構成部は、前記縮退処理が実行された後において、稼動していなかった前記情報処理装置が稼動を開始したことを検知した場合に、稼動している前記情報処理装置の台数及び組み合わせに基づき前記構成情報を変更し、変更した前記構成情報に基づき、稼動している複数の前記情報処理装置に前記所定の処理を並列的に行わせる復帰処理を行う復帰部を備える、請求項1に記載の分散処理システム。
- 前記復帰部は、前記冗長度変更処理が実行された後において、稼動していなかった前記情報処理装置が稼動を開始したことを検知した場合に、前記構成情報における前記台数及び前記組み合わせを、前記稼動を開始した情報処理装置を含む、前記情報処理装置の新たな台数及び組み合わせに変更し、変更した前記構成情報に基づき、稼動している複数の前記情報処理装置に前記所定の処理を並列的に行わせる冗長度回復処理を行う冗長度回復部を備える、請求項2に記載の分散処理システム。
- 前記縮退部は、前記構成情報が示す前記情報処理装置のうち一部が稼働しなくなったがいまだ前記構成情報が示す前記台数以上の複数の前記情報処理装置が稼動している状態となったことを検知した場合に、前記構成情報における前記組み合わせを、前記稼動しなくなった情報処理装置が除外された、前記情報処理装置の新たな組み合わせに変更し、変更した前記構成情報に基づき、稼動している情報処理装置に前記所定の処理を並列的に行わせる構成変更処理を行う構成変更部を備える、請求項1に記載の分散処理システム。
- 前記システム再構成部は、前記縮退処理が実行された後において、稼動していなかった前記情報処理装置が稼動を開始したことを検知した場合に、稼動している前記情報処理装置の台数及び組み合わせに基づき前記構成情報を変更し、変更した前記構成情報に基づき、稼動している複数の前記情報処理装置に前記所定の処理を並列的に行わせる復帰処理を行う復帰部を備え、
前記復帰部は、前記構成変更処理が実行された後において、稼動していなかった前記情報処理装置が稼動を開始したことを検知した場合に、前記構成情報における組み合わせを、前記稼動を開始した情報処理装置を含む前記情報処理装置の新たな組み合わせに変更し、変更した前記構成情報に基づき、稼動している前記情報処理装置に前記所定の処理を並列的に行わせる構成回復処理を行う構成回復部を備える、請求項4に記載の分散処理システム。 - 前記構成情報は、並列的に行う前記所定の処理を制御する前記情報処理装置であるマスター、及び前記マスターにより処理が制御される前記情報処理装置であるスレーブの組み合わせを含み、
前記構成変更部は、前記稼働しなくなった情報処理装置が前記マスターであった場合には、前記稼動している前記スレーブのいずれかを新たな前記マスターとする変更を前記構成情報に対して行うことにより、前記稼動している情報処理装置に前記所定の処理を並列的に行わせる、請求項4に記載の分散処理システム。 - 前記構成情報を変更した旨又はその変更の内容を出力する再構成通知部を備える、請求項1に記載の分散処理システム。
- 前記構成情報を変更した旨又はその変更の内容を出力する再構成通知部をさらに備え、
前記システム再構成部は、前記縮退処理が実行された後において、稼動していなかった前記情報処理装置が稼動を開始したことを検知した場合に、稼動している前記情報処理装置の台数及び組み合わせに基づき前記構成情報を変更し、変更した前記構成情報に基づき、稼動している複数の前記情報処理装置に前記所定の処理を並列的に行わせる復帰処理を行う復帰部を備え、
前記復帰部は、前記冗長度変更処理が実行された後において、稼動していなかった前記情報処理装置が稼動を開始したことを検知した場合に、前記構成情報における前記台数及び前記組み合わせを、前記稼動を開始した情報処理装置を含む、前記情報処理装置の新たな台数及び組み合わせに変更し、変更した前記構成情報に基づき、稼動している複数の前記情報処理装置に前記所定の処理を並列的に行わせる冗長度回復処理を行う冗長度回復部を備え、
前記縮退部は、前記構成情報が示す前記情報処理装置のうち一部が稼働しなくなったがいまだ前記構成情報が示す前記台数以上の複数の前記情報処理装置が稼動している状態となったことを検知した場合に、前記構成情報における前記組み合わせを、前記稼動しなくなった情報処理装置が除外された、前記情報処理装置の新たな組み合わせに変更し、変更した前記構成情報に基づき、稼動している情報処理装置に前記所定の処理を並列的に行わせる構成変更処理を行う構成変更部を備え、
前記復帰部は、前記構成変更処理が実行された後において、稼動していなかった前記情報処理装置が稼動を開始したことを検知した場合に、前記構成情報における組み合わせを、前記稼動を開始した情報処理装置を含む前記情報処理装置の新たな組み合わせに変更し、変更した前記構成情報に基づき、稼動している前記情報処理装置に前記所定の処理を並列的に行わせる構成回復処理を行う構成回復部を備え、
前記構成情報は、並列的に行う前記所定の処理を制御する前記情報処理装置であるマスター、及び前記マスターにより処理が制御される前記情報処理装置であるスレーブの組み合わせを含み、
前記構成変更部は、前記稼働しなくなった情報処理装置が前記マスターであった場合には、前記稼動している前記スレーブのいずれかを新たな前記マスターとする変更を前記構成情報に対して行うことにより、前記稼動している情報処理装置に前記所定の処理を並列的に行わせる、
請求項1に記載の分散処理システム。 - 相互に通信可能に接続された、プロセッサ及びメモリを備える複数の情報処理装置を含んで構成され、前記情報処理装置が所定の処理を他の前記情報処理装置と並列的に行う並列処理が可能な分散処理システムにおける分散処理システムの管理方法であって、
プロセッサ及びメモリを備える情報処理装置が、
前記分散処理システムを構成する前記情報処理装置の台数及び前記情報処理装置の組み合わせに関する情報である構成情報を記憶する構成情報記憶処理と、
前記情報処理装置のそれぞれの稼働状態を監視する状態監視処理と、
前記情報処理装置の稼働状態の変化を検知した場合に、稼動している前記情報処理装置の台数及び組み合わせに基づき前記構成情報を変更し、変更した前記構成情報に基づき、前記稼動している少なくとも1台以上の前記情報処理装置に前記所定の処理を単独で又は並列的に行わせるシステム再構成処理と、
を実行し、
前記システム再構成処理は、稼動していた前記情報処理装置のうち一部の前記情報処理装置が稼動しなくなったことを検知した場合に、稼動している前記情報処理装置の台数及び組み合わせに基づき前記構成情報を変更し、変更した前記構成情報に基づき、前記稼動している情報処理装置に前記所定の処理を単独で又は並列的に行わせる縮退処理を含み、
前記縮退処理は、前記構成情報が示す前記情報処理装置のうち一部の前記情報処理装置が稼働しなくなったことにより前記構成情報が示す台数未満の前記情報処理装置が稼動している状態となったことを検知した場合に、前記構成情報における前記台数及び前記組み合わせを、前記稼動しなくなった前記情報処理装置が除外された、稼動している前記情報処理装置の新たな台数及び組み合わせに変更し、変更した前記構成情報に基づき、稼動している前記情報処理装置に前記所定の処理を行わせる冗長度変更処理を含む、
分散処理システムの管理方法。 - 前記システム再構成処理は、前記縮退処理が実行された後において、稼動していなかった前記情報処理装置が稼動を開始したことを検知した場合に、稼動している前記情報処理装置の台数及び組み合わせに基づき前記構成情報を変更し、変更した前記構成情報に基づき、稼動している複数の前記情報処理装置に前記所定の処理を並列的に行わせる復帰処理を含む、請求項9に記載の分散処理システムの管理方法。
- 前記復帰処理は、前記冗長度変更処理が実行された後において、稼動していなかった前記情報処理装置が稼動を開始したことを検知した場合に、前記構成情報における前記台数及び前記組み合わせを、前記稼動を開始した情報処理装置を含む、前記情報処理装置の新たな台数及び組み合わせに変更し、変更した前記構成情報に基づき、稼動している複数の前記情報処理装置に前記所定の処理を並列的に行わせる冗長度回復処理を含む、請求項10に記載の分散処理システムの管理方法。
- 相互に通信可能に接続された、プロセッサ及びメモリを備える複数の情報処理装置を含んで構成され、前記情報処理装置が所定の処理を他の前記情報処理装置と並列的に行う並列処理が可能な分散処理システムの管理を行う分散処理システム管理プログラムであって、
前記分散処理システムに、
前記分散処理システムを構成する前記情報処理装置の台数及び前記情報処理装置の組み合わせに関する情報である構成情報を記憶する構成情報記憶処理と、
前記情報処理装置のそれぞれの稼働状態を監視する状態監視処理と、
前記情報処理装置の稼働状態の変化を検知した場合に、稼動している前記情報処理装置の台数及び組み合わせに基づき前記構成情報を変更し、変更した前記構成情報に基づき、前記稼動している少なくとも1台以上の前記情報処理装置に前記所定の処理を単独で又は並列的に行わせるシステム再構成処理と、
を実行させ、
前記システム再構成処理は、稼動していた前記情報処理装置のうち一部の前記情報処理装置が稼動しなくなったことを検知した場合に、稼動している前記情報処理装置の台数及び組み合わせに基づき前記構成情報を変更し、変更した前記構成情報に基づき、前記稼動している情報処理装置に前記所定の処理を単独で又は並列的に行わせる縮退処理を行い、
前記縮退処理は、前記構成情報が示す前記情報処理装置のうち一部の前記情報処理装置が稼働しなくなったことにより前記構成情報が示す台数未満の前記情報処理装置が稼動している状態となったことを検知した場合に、前記構成情報における前記台数及び前記組み合わせを、前記稼動しなくなった前記情報処理装置が除外された、稼動している前記情報処理装置の新たな台数及び組み合わせに変更し、変更した前記構成情報に基づき、稼動している前記情報処理装置に前記所定の処理を行わせる冗長度変更処理を含む、
分散処理システム管理プログラム。 - 前記システム再構成処理は、前記縮退処理が実行された後において、稼動していなかった前記情報処理装置が稼動を開始したことを検知した場合に、稼動している前記情報処理装置の台数及び組み合わせに基づき前記構成情報を変更し、変更した前記構成情報に基づき、稼動している複数の前記情報処理装置に前記所定の処理を並列的に行わせる復帰処理を含む、請求項12に記載の分散処理システム管理プログラム。
- 前記復帰処理は、前記冗長度変更処理が実行された後において、稼動していなかった前記情報処理装置が稼動を開始したことを検知した場合に、前記構成情報における前記台数及び前記組み合わせを、前記稼動を開始した情報処理装置を含む、前記情報処理装置の新たな台数及び組み合わせに変更し、変更した前記構成情報に基づき、稼動している複数の前記情報処理装置に前記所定の処理を並列的に行わせる冗長度回復処理を含む、請求項13に記載の分散処理システム管理プログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017117659A JP6934754B2 (ja) | 2017-06-15 | 2017-06-15 | 分散処理システム、分散処理システムの管理方法、及び分散処理システム管理プログラム |
PCT/JP2018/020582 WO2018230332A1 (ja) | 2017-06-15 | 2018-05-29 | 分散処理システム、及び分散処理システムの管理方法 |
US16/494,601 US11010269B2 (en) | 2017-06-15 | 2018-05-29 | Distributed processing system and method for management of distributed processing system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017117659A JP6934754B2 (ja) | 2017-06-15 | 2017-06-15 | 分散処理システム、分散処理システムの管理方法、及び分散処理システム管理プログラム |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2019004327A JP2019004327A (ja) | 2019-01-10 |
JP2019004327A5 JP2019004327A5 (ja) | 2020-03-12 |
JP6934754B2 true JP6934754B2 (ja) | 2021-09-15 |
Family
ID=64660933
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017117659A Active JP6934754B2 (ja) | 2017-06-15 | 2017-06-15 | 分散処理システム、分散処理システムの管理方法、及び分散処理システム管理プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11010269B2 (ja) |
JP (1) | JP6934754B2 (ja) |
WO (1) | WO2018230332A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11042443B2 (en) * | 2018-10-17 | 2021-06-22 | California Institute Of Technology | Fault tolerant computer systems and methods establishing consensus for which processing system should be the prime string |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4914657A (en) * | 1987-04-15 | 1990-04-03 | Allied-Signal Inc. | Operations controller for a fault tolerant multiple node processing system |
US6363497B1 (en) * | 1997-05-13 | 2002-03-26 | Micron Technology, Inc. | System for clustering software applications |
US6108699A (en) * | 1997-06-27 | 2000-08-22 | Sun Microsystems, Inc. | System and method for modifying membership in a clustered distributed computer system and updating system configuration |
US6401120B1 (en) * | 1999-03-26 | 2002-06-04 | Microsoft Corporation | Method and system for consistent cluster operational data in a server cluster using a quorum of replicas |
US6615366B1 (en) * | 1999-12-21 | 2003-09-02 | Intel Corporation | Microprocessor with dual execution core operable in high reliability mode |
US6915391B2 (en) * | 2000-12-15 | 2005-07-05 | International Business Machines Corporation | Support for single-node quorum in a two-node nodeset for a shared disk parallel file system |
US7296268B2 (en) * | 2000-12-18 | 2007-11-13 | Microsoft Corporation | Dynamic monitor and controller of availability of a load-balancing cluster |
JP2005055995A (ja) | 2003-08-07 | 2005-03-03 | Hitachi Ltd | ストレージ制御方法、および、冗長化機能を有するサーバシステム |
JP4089569B2 (ja) | 2003-09-19 | 2008-05-28 | 日立工機株式会社 | 圧縮空気ねじ締め機 |
JP4611922B2 (ja) * | 2006-03-28 | 2011-01-12 | 富士通株式会社 | 制御プログラム、制御方法および制御装置 |
JP5211766B2 (ja) * | 2008-03-10 | 2013-06-12 | 富士通株式会社 | 資源割り当て装置及びプログラム |
JP5368907B2 (ja) | 2009-08-10 | 2013-12-18 | 株式会社エヌ・ティ・ティ・データ | サーバ管理システム、サーバ管理方法、及びプログラム |
JP2011159222A (ja) | 2010-02-03 | 2011-08-18 | Nec Corp | サーバシステム及びサーバシステムの制御方法 |
US9086962B2 (en) * | 2012-06-15 | 2015-07-21 | International Business Machines Corporation | Aggregating job exit statuses of a plurality of compute nodes executing a parallel application |
US9032251B2 (en) * | 2013-03-12 | 2015-05-12 | Cray Inc. | Re-forming an application control tree without terminating the application |
US9372766B2 (en) * | 2014-02-11 | 2016-06-21 | Saudi Arabian Oil Company | Circumventing load imbalance in parallel simulations caused by faulty hardware nodes |
JP6558037B2 (ja) * | 2015-04-10 | 2019-08-14 | 富士通株式会社 | 運用管理プログラム、運用管理方法、および運用管理装置 |
-
2017
- 2017-06-15 JP JP2017117659A patent/JP6934754B2/ja active Active
-
2018
- 2018-05-29 US US16/494,601 patent/US11010269B2/en active Active
- 2018-05-29 WO PCT/JP2018/020582 patent/WO2018230332A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2018230332A1 (ja) | 2018-12-20 |
US20200089585A1 (en) | 2020-03-19 |
US11010269B2 (en) | 2021-05-18 |
JP2019004327A (ja) | 2019-01-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4648447B2 (ja) | 障害復旧方法、プログラムおよび管理サーバ | |
EP2273371B1 (en) | Failover procedure for server system | |
US8423821B1 (en) | Virtual recovery server | |
US9645900B2 (en) | Warm standby appliance | |
US8977887B2 (en) | Disaster recovery appliance | |
JP5352115B2 (ja) | ストレージシステム及びその監視条件変更方法 | |
JP6850771B2 (ja) | 情報処理システム、情報処理システムの管理方法及びプログラム | |
JP2007226400A (ja) | 計算機管理方法、計算機管理プログラム、実行サーバの構成を管理する待機サーバ及び計算機システム | |
WO2014076838A1 (ja) | 仮想マシン同期システム | |
JP2012173996A (ja) | クラスタシステム、クラスタ管理方法、およびクラスタ管理プログラム | |
JP6934754B2 (ja) | 分散処理システム、分散処理システムの管理方法、及び分散処理システム管理プログラム | |
CN116389233B (zh) | 容器云管理平台主备切换系统、方法、装置和计算机设备 | |
US11762741B2 (en) | Storage system, storage node virtual machine restore method, and recording medium | |
JP5798056B2 (ja) | 呼処理情報の冗長化制御システムおよびこれに利用する予備保守サーバ | |
JP2008276281A (ja) | データ同期システム、方法、及び、プログラム | |
CN105765546A (zh) | 使用隔绝的分区的弹性虚拟多路径资源访问 | |
JP6773345B1 (ja) | フォールトトレラントシステム、サーバ、及びそれらの運用方法 | |
JP6394212B2 (ja) | 情報処理システム、ストレージ装置及びプログラム | |
KR20180018195A (ko) | 공정 관리 장치, 이와 연동하는 데이터 서버를 포함하는 반도체 공정 관리 시스템 및 이를 이용한 반도체 공정 관리 방법 | |
JP2011081830A (ja) | サーバ切替方法、プログラムおよび管理サーバ | |
JP5947974B2 (ja) | 情報処理装置及び情報処理装置の交換支援システム並びに交換支援方法 | |
WO2016046951A1 (ja) | 計算機システム及びそのファイル管理方法 | |
JP2015005149A (ja) | クラウドプリントにおけるプリントサーバ障害時のリカバリ方法 | |
JP6954693B2 (ja) | フォールトトレラントシステム、サーバ、それらの運用方法、及びプログラム | |
JP2010055485A (ja) | ストレージ装置の制御部及び制御方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200131 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200131 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210126 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210326 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210511 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210608 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210803 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210824 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6934754 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |