JP6934754B2 - 分散処理システム、分散処理システムの管理方法、及び分散処理システム管理プログラム - Google Patents

分散処理システム、分散処理システムの管理方法、及び分散処理システム管理プログラム Download PDF

Info

Publication number
JP6934754B2
JP6934754B2 JP2017117659A JP2017117659A JP6934754B2 JP 6934754 B2 JP6934754 B2 JP 6934754B2 JP 2017117659 A JP2017117659 A JP 2017117659A JP 2017117659 A JP2017117659 A JP 2017117659A JP 6934754 B2 JP6934754 B2 JP 6934754B2
Authority
JP
Japan
Prior art keywords
information processing
information
operating
configuration information
configuration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017117659A
Other languages
English (en)
Other versions
JP2019004327A5 (ja
JP2019004327A (ja
Inventor
宏明 郡浦
宏明 郡浦
木下 雅文
雅文 木下
伸之 茶木
伸之 茶木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2017117659A priority Critical patent/JP6934754B2/ja
Priority to PCT/JP2018/020582 priority patent/WO2018230332A1/ja
Priority to US16/494,601 priority patent/US11010269B2/en
Publication of JP2019004327A publication Critical patent/JP2019004327A/ja
Publication of JP2019004327A5 publication Critical patent/JP2019004327A5/ja
Application granted granted Critical
Publication of JP6934754B2 publication Critical patent/JP6934754B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2035Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant without idle spare hardware
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/142Reconfiguring to eliminate the error
    • G06F11/1425Reconfiguring to eliminate the error by reconfiguration of node membership
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2025Failover techniques using centralised failover control functionality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2028Failover techniques eliminating a faulty processor or activating a spare
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2053Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
    • G06F11/2094Redundant storage or storage space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Hardware Redundancy (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Description

本発明は、分散処理システム、分散処理システムの管理方法、及び分散処理システム管理プログラムに関する。
複数の情報処理装置(サーバ等)による分散システムの運用形態の一つとして、稼動系及び待機系の情報処理装置を設け、稼動系の情報処理装置に障害が生じた場合に、待機系の情報処理装置が稼動系の情報処理装置の処理を引き継いで当該処理を続行することにより冗長性を確保するという、いわゆるACT/STB型(ACTive/STand-By型)の構成の
分散処理システム(以下、ACT/STB構成という。)が提案されている。
例えば、特許文献1には、ホスト計算機(ホストサーバ)2台による制御方法について、一方のホストサーバの障害時には他方のホストサーバで処理を引き継ぐことが記載されている。また、特許文献2には、N台の運用系サーバと1台の待機系サーバを用意し、ハードディスクを冗長化してミラーリングすることが記載され、特許文献3には、運用系サーバと待機系サーバとをそれぞれ1つずつ備える複数の冗長構成と、冗長構成を管理する管理サーバ3とを備えるサーバシステムが開示されている。
また、特許文献4には、冗長性を確保する別の仕組みとして、サーバ管理システムが、サービスレベルに関わる情報を基に、仮想マシンで構成された複数のシステムのうち、SLA(サービスレベルの品質に関する契約)違反が発生する危険性のあるシステムを自動的に高可用性の環境に移行させることで、冗長性を変更する技術が開示されている。
特開2005−085170号公報 特開2005−055995号公報 特開2011−159222号公報 特開2011−39740号公報
しかし、特許文献1−3をはじめとするACT/STB構成では一般に、稼動系から待機系への処理の引き継ぎ時(切り替え時)に、ダウンタイム(切り替えのためのシステム変更に要する作業時間等)が発生するという問題がある。そこで、全ての情報処理装置を稼働系とすることでダウンタイムの発生を回避する、いわゆるACT/ACT型(ACTive/ACTive型)の構成(以下、ACT/ACT構成という。)の分散処理システムが提案さ
れている。
しかし、このACT/ACT構成には冗長性に関する制約がある。例えば、ある分散処理システムにおける冗長度を確保し多重障害に耐える(処理の一貫性を保証する)ためには、例えば、N重障害(N=1,2,3,…)に対する対策としてサーバを最低「2N+1」台設ける必要がある(いわゆる多数決アルゴリズム)。例えば、二重障害(N=2)に対する耐性の獲得には、サーバは最低限5台必要であり、1台の障害耐性を獲得する必要がある場合は、サーバの必要台数は3台である。
このように、ACT/ACT構成は、情報処理装置を所定台数以上設けなければならず、冗長度に関する扱いが固定的であるという問題がある。それゆえ、ACT/ACT構成の分散処理システムの導入(試験的導入ないしスモールスタート)は、導入者(顧客)にとって負荷が大きくコストもかかっている。
この点、特許文献4には、SLAに応じて構成を変更して冗長度を変更できることが記載されているが、ACT/ACT構成を保証する仕組みは開示されていない。分散処理システムにおける冗長度の確保と柔軟な運用との両立は容易ではない。
本発明はこのような現状に鑑みてなされたものであり、その目的は、分散処理システムにおいて冗長性を確保しつつも安定的な運用が可能な分散処理システム、分散処理システムの管理方法、及び分散処理システム管理プログラムを提供することを目的とする。
上記目的を達成するための本発明の一つは、相互に通信可能に接続された、プロセッサ及びメモリを備える複数の情報処理装置を含んで構成され、前記情報処理装置が所定の処理を他の前記情報処理装置と並列的に行う並列処理が可能な分散処理システムであって、前記分散処理システムを構成する前記情報処理装置の台数及び前記情報処理装置の組み合わせに関する情報である構成情報を記憶する構成情報記憶部と、前記情報処理装置のそれぞれの稼働状態を監視する状態監視部と、前記情報処理装置の稼働状態の変化を検知した場合に、稼動している前記情報処理装置の台数及び組み合わせに基づき前記構成情報を変更し、変更した前記構成情報に基づき、前記稼動している少なくとも1台以上の前記情報処理装置に前記所定の処理を単独で又は並列的に行わせるシステム再構成部と、を備え、前記システム再構成部は、稼動していた前記情報処理装置のうち一部の前記情報処理装置が稼動しなくなったことを検知した場合に、稼動している前記情報処理装置の台数及び組み合わせに基づき前記構成情報を変更し、変更した前記構成情報に基づき、前記稼動している情報処理装置に前記所定の処理を単独で又は並列的に行わせる縮退処理を行う縮退部を備え、前記縮退部は、前記構成情報が示す前記情報処理装置のうち一部の前記情報処理装置が稼働しなくなったことにより前記構成情報が示す台数未満の前記情報処理装置が稼動している状態となったことを検知した場合に、前記構成情報における前記台数及び前記組み合わせを、前記稼動しなくなった前記情報処理装置が除外された、稼動している前記情報処理装置の新たな台数及び組み合わせに変更し、変更した前記構成情報に基づき、稼動している前記情報処理装置に前記所定の処理を行わせる冗長度変更処理を行う冗長度変更部を備える。
本発明によれば、分散処理システムにおいて冗長性を確保しつつも安定的な運用を可能とすることができる。
図1は、本実施形態に係る分散処理管理システム100の構成の一例を示す図である。 図2は、分散アプリケーションシステム109におけるACT/ACT構成の例(ケース1、ケース2、ケース3)を示す図である。 図3は、分散アプリケーションシステム監視サーバ106が備えるハードウェア及び機能の一例を説明する図である。 図4は、システム構成情報225の例を示す図である。 図5は、通信先情報226の一例を示す図である。 図6は、分散アプリケーションサーバ108が備えるハードウェア及び機能を説明する図である。 図7は、分散データストア構成情報325の一例を示す図である。 図8は、分散処理管理システム100が行う処理の一例を示すシーケンス図である。 図9は、分散アプリケーションシステム監視サーバ106が行う処理の一例を説明するフローチャートである。 図10は、状態遷移処理定義情報生成プログラム222が行う処理の一例を示すフローチャートである。 図11は、ケース1における状態遷移処理定義情報224の一例を説明するフローチャートである。 図12は、ケース1における状態遷移処理定義情報224のデータ構造の一例を示す図である。 図13は、ケース2における状態遷移処理定義情報224の一例を説明するフローチャートである。
以下、本発明を実施するための形態を、図面を参照しつつ説明する。
<<システム構成>>
図1は、本実施形態に係る分散処理管理システム100の構成の一例を示す図である。同図に示すように、分散処理管理システム100は、デバイス101、センサ102、及び宛先サーバ103の各装置と、これらの装置と通信可能に接続された分散アプリケーションシステム109と、分散アプリケーションシステム109と通信可能に接続された分散アプリケーションシステム監視サーバ106とを含んで構成されている。
デバイス101は、例えば情報処理端末(例えば携帯電話、スマートフォン、タブレット等)であり、分散アプリケーションシステム109と連携して所定の情報処理を行う。
センサ102は、例えば温度センサ、照度センサ、加速度センサ等である。センサ102は、例えば、分散アプリケーションサーバ108の要求に応じて所定の測定値を取得し、取得した測定値を分散アプリケーションシステム109に送信する。
宛先サーバ103は、分散アプリケーションシステム109のデータやプログラムを外部の情報処理装置に送信し、又は、外部の情報処理装置から送信されてきたデータやプログラムを分散アプリケーションシステム109に転送する。
分散アプリケーションシステム109は、通信設備網107Bによって相互に通信可能に接続された複数の分散アプリケーションサーバ108(108A、108B、…108N)を含む。
分散アプリケーションサーバ108はそれぞれ、分散アプリケーションサーバ108のユーザ等(以下、単にユーザという。)が使用する所定のアプリケーションプログラム(以下、本アプリケーションという。)、及び、分散アプリケーションサーバ108に対応づけられた所定のデータ(以下、本データという。)を記憶している。
分散アプリケーションサーバ108は、通信設備網107Aを介して分散アプリケーションシステム監視サーバ106と通信可能に接続されている。また、分散アプリケーションサーバ108は、無線網104又はインターネット105を介して、デバイス101、センサ102、及び宛先サーバ103と通信可能に接続されている。
なお、通信設備網107A及び通信設備網107Bは、例えば、LAN(Local Area Network)、WAN(Wide Area Network)、インターネット、イントラネット、専用線な
どである。無線網104は、例えば無線LAN、無線WAN、専用の無線通信網等である。
次に、分散アプリケーションシステム監視サーバ106は、各分散アプリケーションサーバ108の稼動状態を監視するサーバである。
分散アプリケーションシステム監視サーバ106は、分散アプリケーションシステム109を構成する分散アプリケーションサーバ108の台数及び組み合わせに関する情報である構成情報を記憶している(不図示。詳細は後述)。分散アプリケーションシステム監
視サーバ106は、構成情報に関する指示(以下、再構成通知という。)を分散アプリケーションシステム109に送信し、分散アプリケーションシステム109における各分散アプリケーションサーバ108は、この再構成通知に基づき、本アプリケーションの処理を他の分散アプリケーションサーバ108と並列的に行う(すなわち、並列処理を行う。以下において同じ。)ことが可能となっている。すなわち、分散アプリケーションシステム109は、これを構成する全ての情報処理装置が稼働系となっているACT/ACT(ACTive/ACTive)構成の分散処理システムである。
<分散アプリケーションシステム109におけるACT/ACT構成>
ここで、分散アプリケーションシステム109におけるACT/ACT構成について具体的に説明する。
図2は、分散アプリケーションシステム109におけるACT/ACT構成の例(ケース1、ケース2、ケース3)を示す図である。本実施形態の分散アプリケーションシステム109では、分散アプリケーションシステム109を構成するN台の分散アプリケーションサーバ108のうち、構成情報に記憶されているM台の複数の分散アプリケーションサーバ108が、本アプリケーションの並列処理を行う(多重度M)。そして、これらの分散アプリケーションサーバ108のうち一部が稼働不可能な状態となっても、M台のうち過半数の分散アプリケーションサーバ108が稼動している場合には、それらの分散アプリケーションサーバ108がACT/ACT構成にて本アプリケーションの並列処理を行うことができる(いわゆる多数決アルゴリズム)。これにより、分散アプリケーションシステム109を構成する分散アプリケーションサーバ108のうち一部が稼動不可能な状態となっても、ACT/ACT構成が維持される。そして、稼動していなかった分散アプリケーションサーバ108が稼動を開始した場合は、所定のプログラム(自動レプリケーションプログラム)により、その分散アプリケーションサーバ108は再び、その他の分散アプリケーションサーバ108と共に本アプリケーションを並列的に実行することができる。
なお、自動レプリケーションプログラムは、例えば、各分散アプリケーションサーバ108が記憶している。
ケース1では、分散アプリケーションシステム109は、3台の分散アプリケーションサーバ108(サーバ1、サーバ2、サーバ3)から構成され、このうち、構成情報が示す所定の組み合わせの2台の分散アプリケーションサーバ108が、本アプリケーションの処理を並列的に実行する。具体的には、この組み合わせは、サーバ1がマスターとなりサーバ2がスレーブとなる組み合わせと、サーバ2がマスターとなりサーバ3がスレーブとなる組み合わせと、サーバ3がマスターとなりサーバ1がスレーブとなる組み合わせとを含む。
ここで、例えば、マスターのサーバ1及びスレーブのサーバ2が並列処理を行っている状態201において、サーバ1が稼動を停止した場合には、サーバ2及びサーバ3のいずれかがマスター又はスレーブとなる新たな状態202に遷移することで、分散アプリケーションシステム109は並列処理を続行することができる。
次に、ケース2では、分散アプリケーションシステム109は、3台の分散アプリケーションサーバ108(サーバ1、サーバ2、サーバ3)から構成され、構成情報が示す所定の組み合わせの3台の分散アプリケーションサーバ108が、本アプリケーションの処理を並列的に実行する。具体的には、この組み合わせは、サーバ1がマスターとなりサーバ2及びサーバ3がスレーブとなる組み合わせと、サーバ2がマスターとなりサーバ3及びサーバ1がスレーブとなる組み合わせと、サーバ3がマスターとなりサーバ1及びサー
バ2がスレーブとなる組み合わせとを含む。
一般的には、ケース3に示すように、分散アプリケーションシステム109がN台の分散アプリケーションサーバ108(サーバ1、サーバ2、…、サーバN)から構成され、このうち、構成情報が示す所定の組み合わせのM台(N>M)の分散アプリケーションサーバ108が、本アプリケーションの処理を並列的に実行する。具体的には、この組み合わせは、任意の1台のサーバXがマスターとなり、サーバX以外のM−1台のサーバがスレーブとなる複数の組み合わせを含む。
なお、本実施形態では、分散アプリケーションシステム109に、分散アプリケーションサーバ108が並列的に本アプリケーションの処理を行うことができる分散アプリケーションサーバ108の台数(以下、必要台数という。本実施形態では、多重度の過半数の値。)の情報が記憶されているものとする。また、以下では、並列的に処理を行う分散アプリケーションサーバ108のグループをデータグループという。
次に、分散アプリケーションシステム監視サーバ106の構成について説明する。
<分散アプリケーションシステム監視サーバ106の構成>
図3は、分散アプリケーションシステム監視サーバ106が備えるハードウェア及び機能の一例を説明する図である。分散アプリケーションシステム監視サーバ106は、CPU(Central Processing Unit)などのプロセッサ211と、他の情報処理装置と通信を
行う入出力回路インタフェース212と、RAM(Random Access Memory)、ROM(Read Only Memory)、HDD(Hard Disk Drive)、SSD(Solid State Drive)などの記憶装置213と、キーボード、マウス、タッチパネル、モニタ(ディスプレイ)などからなる入出力装置214とを備える。
記憶装置213には、監視プログラム221、状態遷移処理定義情報生成プログラム222、及び分散データストア多重度収集プログラム223の各プログラムを記憶している。また、分散アプリケーションサーバ108は、状態遷移処理定義情報224、システム構成情報225、及び分散アプリケーション/分散データストアプログラム通信先情報226の各情報が記憶されている。
監視プログラム221は、構成情報記憶部51、状態監視部52、システム再構成部53、再構成通知部60の各部を備える。
構成情報記憶部51は、前記分散処理システム(分散アプリケーションシステム109)を構成する前記情報処理装置(分散アプリケーションサーバ108)の台数及び前記情報処理装置の組み合わせに関する情報である構成情報(システム構成情報225)を記憶する。
状態監視部52は、前記情報処理装置(分散アプリケーションサーバ108)のそれぞれの稼働状態を監視する。
具体的には、例えば、状態監視部52は、分散アプリケーションサーバ108が送信する所定のデータを監視する。状態監視部52は、所定時間(以下、タイムアウト時間という。)、このデータを受信できなかった場合に、その分散アプリケーションサーバ108が稼動していないと判断する。
システム再構成部53は、前記情報処理装置(分散アプリケーションサーバ108)の稼働状態の変化を検知した場合に、稼動している前記情報処理装置の台数及び組み合わせに基づき前記構成情報を変更し、変更した前記構成情報に基づき、前記稼動している少な
くとも1台以上の前記情報処理装置に前記所定の処理(本アプリケーションの処理)を単独で又は並列的に行わせる。
システム再構成部53は、縮退部54及び復帰部55を備える。
縮退部54は、稼動していた前記情報処理装置のうち一部の前記情報処理装置が稼動しなくなったことを検知した場合に、稼動している前記情報処理装置の台数及び組み合わせに基づき前記構成情報を変更し、変更した前記構成情報に基づき、前記稼動している情報処理装置に前記所定の処理を単独で又は並列的に行わせる縮退処理を行う。
前記縮退部54は、冗長度変更部56及び構成変更部57を備える。
冗長度変更部56は、前記構成情報が示す前記情報処理装置のうち一部の前記情報処理装置が稼働しなくなったことにより前記構成情報が示す台数未満の前記情報処理装置が稼動している状態となったことを検知した場合に、前記構成情報における前記台数及び前記組み合わせを、前記稼動しなくなった前記情報処理装置が除外された、稼動している前記情報処理装置の新たな台数及び組み合わせに変更し、変更した前記構成情報に基づき、稼動している前記情報処理装置に前記所定の処理を行わせる冗長度変更処理を行う。
構成変更部57は、前記構成情報が示す前記情報処理装置のうち一部が稼働しなくなったがいまだ前記構成情報が示す前記台数以上の複数の前記情報処理装置が稼動している状態となったことを検知した場合に、前記構成情報における前記組み合わせを、前記稼動しなくなった情報処理装置が除外された、前記情報処理装置の新たな組み合わせに変更し、変更した前記構成情報に基づき、稼動している情報処理装置に前記所定の処理を並列的に行わせる構成変更処理を行う。
一方、復帰部55は、前記縮退処理が実行された後において、稼動していなかった前記情報処理装置が稼動を開始したことを検知した場合に、稼動している前記情報処理装置の台数及び組み合わせに基づき前記構成情報を変更し、変更した前記構成情報に基づき、稼動している複数の前記情報処理装置に前記所定の処理を並列的に行わせる復帰処理を行う。
前記復帰部は、冗長度回復部58及び構成回復部59を備える。
冗長度回復部58は、前記冗長度変更処理が実行された後において、稼動していなかった前記情報処理装置が稼動を開始したことを検知した場合に、前記構成情報における前記台数及び前記組み合わせを、前記稼動を開始した情報処理装置を含む、前記情報処理装置の新たな台数及び組み合わせに変更し、変更した前記構成情報に基づき、稼動している複数の前記情報処理装置に前記所定の処理を並列的に行わせる冗長度回復処理を行う。
構成回復部59は、前記構成変更処理が実行された後において、稼動していなかった前記情報処理装置が稼動を開始したことを検知した場合に、前記構成情報における組み合わせを、前記稼動を開始した情報処理装置を含む前記情報処理装置の新たな組み合わせに変更し、変更した前記構成情報に基づき、稼動している前記情報処理装置に前記所定の処理を並列的に行わせる構成回復処理を行う。
なお、前記構成情報は、並列的に行う前記所定の処理を制御する前記情報処理装置であるマスター、及び前記マスターにより処理が制御される前記情報処理装置であるスレーブの組み合わせを含む。
前記構成変更部57は、前記稼働しなくなった情報処理装置が前記マスターであった場
合には、前記稼動している前記スレーブのいずれかを新たな前記マスターとする変更を前記構成情報に対して行うことにより、前記稼動している情報処理装置に前記所定の処理を並列的に行わせる。
再構成通知部60は、システム再構成部53が前記構成情報を変更した旨又はその変更の内容を出力する。
次に、状態遷移処理定義情報生成プログラム222は、分散アプリケーションサーバ108の稼働状態、及びこれが変化した場合に行われる処理を定義した情報(状態遷移処理定義情報224)を生成する。
分散データストア多重度収集プログラム223は、分散アプリケーションシステム109におけるシステム構成に関する情報を取得し、取得した情報をシステム構成情報225(構成情報)として記憶する。
ここで、システム構成情報225の一例を説明する。
<システム構成情報225>
図4は、システム構成情報225の例を示す図である。ここでは、前記のケース1におけるシステム構成情報701A、及び、前記のケース2におけるシステム構成情報701Bを示した。
システム構成情報225は、分散アプリケーションシステム109における多重度の情報7011、各データグループを識別する情報7012、データグループにおけるマスターのネットワーク上の位置を示す情報7013、及び、データグループにおける各スレーブのネットワーク上の位置を示す情報7014を含む。
次に、図3に示すように、分散アプリケーション/分散データストアプログラム通信先情報(以下、通信先情報226という。)は、分散アプリケーションシステム109における本アプリケーション及び本データの構成に関する情報である。
ここで、通信先情報226について説明する。
<通信先情報226>
図5は、通信先情報226の一例を示す図である。同図に示すように、通信先情報226は、本アプリケーション2261及び本データ2262のそれぞれを示す識別子(以下、ノード名2263という。)、それぞれが記憶されている分散アプリケーションサーバ108のIPアドレス2264、及び、それぞれが記憶されている分散アプリケーションサーバ108のポート番号2265の各情報を含む。これらの通信先情報226は、例えば、分散アプリケーションシステム監視サーバ106が、各分散アプリケーションサーバ108の分散アプリケーション構成情報324、及び分散データストア構成情報325にアクセスする際に用いられる。
次に、分散アプリケーションサーバ108の構成について説明する。
<分散アプリケーションサーバ108>
図6は、分散アプリケーションサーバ108が備えるハードウェア及び機能を説明する図である。分散アプリケーションサーバ108は、CPU(Central Processing Unit)
などのプロセッサ311と、他の情報処理装置と通信を行う入出力回路インタフェース312と、RAM(Random Access Memory)、ROM(Read Only Memory)、HDD(Hard
Disk Drive)、SSD(Solid State Drive)などの記憶装置313と、キーボード、マウス、タッチパネル、モニタ(ディスプレイ)などからなる入出力装置314とを備える。
分散アプリケーションサーバ108は、記憶装置313に、分散アプリケーションプログラム321、分散データストアプログラム326、構成情報更新プログラム322、及びデータレプリケーション支援プログラム323の各プログラムを記憶している。また、分散アプリケーションサーバ108は、記憶装置313に、構成情報に対応するデータである、分散アプリケーション構成情報324及び分散データストア構成情報325を記憶している。
分散アプリケーションプログラム321は、前記の本アプリケーションのプログラムであり、分散アプリケーションサーバ108が他の分散アプリケーションサーバ108と並列的に又は単独で実行するプログラムである。
分散データストアプログラム326は、前記の本データを管理するプログラムである。なお、分散データストアプログラム326は、自動レプリケーションプログラムを有する。
構成情報更新プログラム322は、分散アプリケーションシステム監視サーバ106からの再構成指示に基づき、分散アプリケーション構成情報324及び分散データストア構成情報325を更新(変更)する。
データレプリケーション支援プログラム323は、分散アプリケーションシステム監視サーバ106からの指示に基づき、データレプリケーション(データの同期処理)を実行するプログラムである。具体的には、例えば、データレプリケーション支援プログラム323は、他の分散アプリケーションサーバ108にデータを転送し、又は他の分散アプリケーションサーバ108からデータの転送を受けることにより、データの同期を行う。これにより、複数の分散アプリケーションサーバ108が、本アプリケーションの処理を並列的に行うことができるようになる。
分散アプリケーション構成情報324は、分散アプリケーションプログラム321の構成に関する情報である。例えば、並列処理を行う分散アプリケーションサーバ108の分散アプリケーションプログラム321の組み合わせに関する情報である。
分散データストア構成情報325は、分散アプリケーションシステム109の稼動状態を判断するための情報を含む。
<分散データストア構成情報325>
ここで、分散データストア構成情報325の具体例を説明する。
図7は、分散データストア構成情報325の一例を示す図である。同図に示すように、分散データストア構成情報325は、分散アプリケーションサーバ108のIPアドレス3251、分散アプリケーションサーバ108のポート番号3252、分散アプリケーションサーバ108の稼動状態に関するログの情報3253、分散アプリケーションサーバ108における本アプリケーションをクラスタモードで実行するか否か(本アプリケーションを複数の分散アプリケーションサーバ108により並列的に実行するか否か)を示すクラスタモード情報3254、及び、タイムアウト時間に関するタイムアウト情報3255等を含む。分散データストア構成情報325は、分散アプリケーションサーバ108ごとに異なる(325A、325B、325C、…)。
以上に説明した分散アプリケーションシステム監視サーバ106及び分散アプリケーションサーバ108のプログラムは、各サーバのハードウェアによって、もしくは、各サーバのプロセッサがこれを読み出すことにより実行される。
また、これらのプログラムは、例えば、二次記憶デバイスや不揮発性半導体メモリ、ハードディスクドライブ、SSDなどの記憶デバイス、又は、ICカード、SDカード、DVDなどの、計算機で読み取り可能な非一時的データ記憶媒体に格納される。
<<処理>>
次に、分散処理管理システム100が行う処理について説明する。本実施形態の分散処理管理システム100は、以下に説明するように、ACT/ACT構成の分散処理システムを維持できなくなった場合であっても、本アプリケーションの処理を続行することができ、また、ACT/ACT構成の分散処理システムを一時的に解除していた場合にはこれを回復することができる。
図8は、分散処理管理システム100が行う処理の一例を示すシーケンス図である。また、図9は、分散アプリケーションシステム監視サーバ106が行う処理の一例を説明するフローチャートである。以下、これらの図に基づき、分散処理管理システム100が行う処理(以下、分散処理システム管理処理という。)について説明する。なお、この処理は、例えば、分散処理管理システム100が起動した際に開始される。
図8に示すように、まず、分散アプリケーションシステム監視サーバ106は、状態遷移処理定義情報224を生成する(s1001)。
具体的には、図9に示すように、分散アプリケーションシステム監視サーバ106の監視プログラム221は、状態遷移処理定義情報224が生成されているか否かを確認する(s401)。状態遷移処理定義情報224が生成されている場合(s401:YES)、処理は後述するs404に進み、状態遷移処理定義情報224がいまだ生成されていない場合(s401:NO)、処理はs402に進む。
s402において監視プログラム221は、分散データストア多重度収集プログラム223を実行させる。すると、分散データストア多重度収集プログラム223は、システム構成情報225を生成し、これを記憶する。
具体的には、例えば、分散データストア多重度収集プログラム223は、各分散アプリケーションサーバ108が記憶している情報(例えば、分散アプリケーション構成情報324、及び分散データストア構成情報325)を取得し、又は、各分散アプリケーションサーバ108が送受信するデータの有無を監視することにより、システム構成情報225を生成する。
次に、監視プログラム221は、s402で生成したシステム構成情報225に基づき、状態遷移処理定義情報生成プログラム222を実行させる(s403)。その後は後述するs404の処理に進む。
次に、図8に示すように、状態遷移処理定義情報224の生成後、分散アプリケーションシステム監視サーバ106の監視プログラム221は、分散アプリケーションシステム109における各分散アプリケーションサーバ108の稼動状態を監視する(s1002、s1003、s1004)。具体的には、例えば、監視プログラム221は、各分散アプリケーションサーバ108の分散データストアプログラム326から送信される所定のデータを監視し(s1001)、その所定のデータを検知した場合には、その所定のデータを送信した分散アプリケーションサーバ108の構成情報(分散データストア構成情報325)の内容を取得する(s1003、s1004)。
すなわち、図9に示すように、分散アプリケーションシステム監視サーバ106の監視プログラム221は、各分散アプリケーションサーバ108における分散データストアプログラム326の状態(分散データストア構成情報325)を監視しており(s404)、これにより分散アプリケーションシステム109における縮退又は復帰を検知する(s405)。
次に、図8に示すように、分散アプリケーションシステム監視サーバ106の監視プログラム221は、稼動状態の監視の結果、稼動状態が変化したことを検知した場合には、状態遷移処理定義情報224を参照することで、分散アプリケーションシステム109が遷移すべき状態とその状態に遷移するための処理の内容とを取得する(s1005)。
すなわち、図9に示すように、分散アプリケーションシステム監視サーバ106の監視プログラム221は、状態遷移処理定義情報224を取得し、取得した状態遷移処理定義情報224を、s405で監視していた、現在の分散アプリケーションシステム109の状態を示す分散データストア構成情報325と対比することで、状態遷移処理定義情報224における現在の分散アプリケーションシステム109の状態の次の状態(以下、次状態という。)と、次状態に遷移するための処理(以下、次処理という。)とを取得する(s406)。
そして、図8に示すように、分散アプリケーションシステム監視サーバ106の監視プログラム221は、次状態があると判断した場合には、次処理の内容を各分散アプリケーションサーバ108に指示する(再構成指示を送信する)。例えば、監視プログラム221は、データレプリケーション支援プログラムの実行を各分散アプリケーションサーバ108に必要に応じて指示し(s1006、s1007)、構成情報の変更を各分散アプリケーションサーバ108の構成情報更新プログラム322に指示し(s1008、s1009)、各分散アプリケーションサーバ108の分散データストアプログラム326に分散アプリケーションサーバ108の再起動を指示し(s1010)、各分散アプリケーションサーバ108の分散アプリケーションプログラム321に分散アプリケーションサーバ108の再起動を指示する(s1011)。一方、次状態がない場合は、監視プログラム221は、次状態又は次処理がない旨を出力し、処理は終了する(s1014)。
すなわち、図9に示すように、分散アプリケーションシステム監視サーバ106の監視プログラム221は、次状態があるか否かを判断し(s407)、次状態がない場合には(s407:NO)、次状態が存在せず分散アプリケーションシステム109の復旧が不可能である旨を出力して(例えば、分散アプリケーションシステム監視サーバ106の所定のログファイルや所定の出力装置に出力する)処理を終了する(s411、s412)。一方、次状態がある場合には(s407:YES)、監視プログラム221は、各分散アプリケーションサーバ108に対して次処理を指示する(s408)。
次に、図8に示すように、分散アプリケーションシステム監視サーバ106の監視プログラム221は、次処理を実行した旨及び次処理の内容を出力する(s1012)。その後は、処理はs1002に戻る(s1013)。
すなわち、図9に示すように、例えば、分散アプリケーションシステム監視サーバ106の監視プログラム221は、各分散アプリケーションサーバ108に次処理の指示を行った後、次処理を行った旨及び次処理の内容を、所定のログファイルや出力装置に出力する(s409)。その後、処理はs404に戻る。このように、分散アプリケーションシステム監視サーバ106は、構成情報を変更した旨又はその変更の内容を出力するので、分散処理管理システム100の管理者等は、分散処理システムの運用状況を適宜把握することができる。
<状態遷移処理定義情報生成プログラム222>
ここで、s1001及びs403で説明した、状態遷移処理定義情報224を生成するための状態遷移処理定義情報生成プログラム222について説明する。
図10は、状態遷移処理定義情報生成プログラム222が行う処理の一例を示すフローチャートである。同図に示すように、まず状態遷移処理定義情報生成プログラム222は、分散アプリケーションシステム109の初期状態を登録する(s501)。具体的には、例えば、状態遷移処理定義情報生成プログラム222は、初期状態として、分散アプリケーションシステム109における現在の分散アプリケーションサーバ108の台数、分散アプリケーションシステム109における現在の多重度、及び分散アプリケーションシステム109における分散アプリケーションサーバ108の現在の組み合わせを初期状態として状態遷移処理定義情報224に記憶する。なお、状態遷移処理定義情報生成プログラム222は、この初期状態を処理中の状態として記憶する。
次に、状態遷移処理定義情報生成プログラム222は、分散アプリケーションシステム109において、1台の分散アプリケーションサーバ108が稼動しなくなった場合(すなわち、1台縮退した場合)、稼働している分散アプリケーションサーバ108の台数が多重度の過半数以上(必要台数以上)であるか否かを判定する(s502)。
稼働している分散アプリケーションサーバ108の台数が多重度の過半数以上(必要台数以上)である場合には(s502:YES)、状態遷移処理定義情報生成プログラム222は、前記縮退した状態を状態遷移定義状態情報に追加する(s503)。なお、状態遷移処理定義情報生成プログラム222は、前記縮退した状態を処理中の状態として記憶する。その後はs502の処理が繰り返される。
一方、稼働している分散アプリケーションサーバ108の台数が多重度の過半数未満(必要台数未満)である場合には(s502:NO)、状態遷移処理定義情報生成プログラム222は、稼働している(本アプリケーションを実行可能な)分散アプリケーションサーバ108があることを確認する(s504)。
稼働している分散アプリケーションサーバ108がある場合は(s504:YES)、状態遷移処理定義情報生成プログラム222は、分散データストア構成情報325を更新する処理(縮退のための更新)を状態遷移処理定義情報224に追加すると共に、その処理を行った後の分散アプリケーションシステム109の状態を処理中の状態として記憶する(s505)。なお、その後はs502の処理が繰り返される。
具体的には、例えば、稼動している分散アプリケーションサーバ108が1台の場合、状態遷移処理定義情報生成プログラム222は、分散データストア構成情報325を、稼動している1台の分散アプリケーションサーバ108が単独で本アプリケーションを実行する構成の情報に変更すると共に、分散アプリケーションシステム109の多重度を1に変更する処理(冗長度変更処理)を行うことを示す情報を生成し、生成した情報を、状態遷移処理定義情報224に追加する。
また、例えば、状態遷移処理定義情報生成プログラム222は、稼働している分散アプリケーションサーバ108の台数が2台以上の場合には、分散データストア構成情報325を、それらの分散アプリケーションサーバ108が本アプリケーションの処理を並列的に行う構成に変更する処理(構成変更処理)を示す情報を生成し、生成した情報を状態遷移処理定義情報224に追加する。なお、この場合、状態遷移処理定義情報生成プログラム222は、稼動しなくなった分散アプリケーションサーバ108がマスターである場合
には、稼動しているスレーブの分散アプリケーションサーバ108に記憶されているデータを、他の分散アプリケーションサーバ108に転送すると共にその転送先の分散アプリケーションサーバ108をマスターとする処理の情報を生成し、生成した情報を状態遷移処理定義情報224に追加してもよい。
一方、稼働している(本アプリケーションを実行可能な)分散アプリケーションサーバ108が存在しない場合は(s504:NO)、状態遷移処理定義情報生成プログラム222は、これまでに状態遷移処理定義情報224に追加した全ての状態(初期状態を除く)のうち、稼動していなかった1台以上の分散アプリケーションサーバ108が稼動を開始したことにより複数の分散アプリケーションサーバ108が並列的にアプリケーション処理を行う状態に変化させる処理(復帰処理)が追加されていない状態(以下、復帰可能状態という。)があるか否かを判定する(s506)。
復帰処理が全て追加されている場合には(s506:YES)、処理は終了するが(s510)、復帰処理が追加されていない状態がある場合には(s506:NO)、状態遷移処理定義情報生成プログラム222は、復帰可能状態の一つを選択した上で、分散アプリケーションサーバ108における自動レプリケーションプログラムによって復帰可能状態からの復帰処理が可能であるか否かを判定する(s507)。
自動レプリケーションプログラムによって復帰処理が可能である場合は(s507:YES)、状態遷移処理定義情報生成プログラム222は、復帰処理としての自動レプリケーションプログラムの実行を示す情報を、状態遷移処理定義情報に追加する(s508)。その後はs506の処理が繰り返される。
一方、自動レプリケーションプログラムによる復帰処理が可能でない場合は(s507:NO)、状態遷移処理定義情報生成プログラム222は、自動レプリケーションプログラムによらない復帰処理を状態遷移処理定義情報224に追加すると共に、その復帰処理を行った後の分散アプリケーションシステム109の状態を処理中の状態として記憶する(s508)。その後はs506の処理が繰り返される。
具体的には、例えば、状態遷移処理定義情報生成プログラム222は、冗長度変更処理が実行された状態から1台又は2台以上の分散アプリケーションサーバ108が稼動を開始することにより分散アプリケーションシステム109において稼動している分散アプリケーションサーバ108の台数が多重度の過半数以上(必要台数以上)となる場合の復帰処理として、分散アプリケーションシステム109の構成を、稼動を開始した分散アプリケーションサーバ108を含む複数の分散アプリケーションサーバ108が本アプリケーションを実行する構成に変更すると共に、分散アプリケーションシステム109の多重度を冗長度変更処理の実行前の多重度に戻す処理(冗長度回復処理)を示す情報を生成し、生成した情報を、状態遷移処理定義情報224に追加する。
また、例えば、状態遷移処理定義情報生成プログラム222は、構成変更処理が実行された状態から1台の分散アプリケーションサーバ108が稼動を開始する場合の復帰処理として、分散アプリケーションシステム109の構成を、稼動を開始した分散アプリケーションサーバ108を加えた複数の分散アプリケーションサーバ108が本アプリケーションを並列的に実行する構成に変更する処理(構成回復処理)を示す情報を生成し、生成した情報を、状態遷移処理定義情報224に追加する。
<状態遷移処理定義情報224>
ここで、状態遷移処理定義情報生成プログラム222により生成される状態遷移処理定義情報224の具体例を説明する。
(ケース1の状態遷移処理定義情報224)
図11は、ケース1における状態遷移処理定義情報224の一例を説明するフローチャートである。同図に示すように、分散アプリケーションシステム109を構成する3台の分散アプリケーションサーバ108のうち3台の分散アプリケーションサーバ108が稼動している状態(s601)から、1台の分散アプリケーションサーバ108が稼動しなくなったことにより2台の分散アプリケーションサーバ108が稼動している状態(s602)に遷移した場合(すなわち、1台の縮退が発生した場合)において、稼動していなかった1台の分散アプリケーションサーバ108が稼動を開始した場合(復帰した場合)、分散アプリケーションシステム109の状態は、自動データレプリケーションプログラムによってs601の状態に遷移する(戻る)。
これに対して、s602の状態から、稼動していた2台の分散アプリケーションサーバ108のうち1台の分散アプリケーションサーバ108がさらに稼動しなくなった状態(s603)に遷移した場合、分散アプリケーションシステム109から、稼動していない2台の分散アプリケーションサーバ108が除外され(切り離され)、その分散アプリケーションシステム109において稼動している1台の分散アプリケーションサーバ108が、単独で本アプリケーションの処理を行う(s607、s608、s605)。具体的には、例えば、分散アプリケーション構成情報324及び分散データストア構成情報325が、分散アプリケーションシステム監視サーバ106からの再構成指示により、稼動している1台の分散アプリケーションサーバ108が単独で(多重度1で)アプリケーション処理を行う構成の情報に更新され(s607)、分散アプリケーションシステム109が再起動される(s608)。これにより、分散アプリケーションシステム109の状態は、1台の分散アプリケーションサーバ108が本アプリケーションの処理を実行する状態となる(s605)。
s605において、稼動していなかった分散アプリケーションサーバ108のうち少なくとも1台以上が稼動を開始することにより、分散アプリケーションシステム109の状態が、複数の分散アプリケーションサーバ108が稼動している状態に遷移した場合には、稼動を開始した分散アプリケーションサーバ108が分散アプリケーションシステム109に組み込まれ、その分散アプリケーションシステム109における複数の分散アプリケーションサーバ108が、本アプリケーションの処理を並列的に行う(s611、s610、s609)。具体的には、例えば、まず、データレプリケーション支援プログラムが実行されることにより、既に稼動している分散アプリケーションサーバ108のデータが、稼動を開始した分散アプリケーションサーバ108に転送され、稼動している分散アプリケーションサーバ108のデータが同期する(s611)。そして、分散アプリケーション構成情報324及び分散データストア構成情報325が、分散アプリケーションシステム監視サーバ106からの再構成指示により、既に稼働している分散アプリケーションサーバ108及び稼動を開始した分散アプリケーションサーバ108が本アプリケーションの処理を並列的に(多重度3で)行う構成の情報に更新され(s610)、分散アプリケーションシステム109が再起動される(s609)。これにより、分散アプリケーションシステム109の状態は、多重度の過半数の台数以上(2台又は3台)の分散アプリケーションサーバ108が本アプリケーションの処理を並列的に実行する状態となる(s601、s602)。なお、s611においてデータレプリケーション支援プログラムは、必要に応じて、後述するようなマスターとスレーブの再構成を行うようにしてもよい。
s603又はs607の状態から、分散アプリケーションシステム109における全ての分散アプリケーションサーバ108が稼動していない状態になると、分散アプリケーションシステム109における全ての分散アプリケーションサーバ108が本アプリケーシ
ョンの処理を停止する(s604)。
また、s608又はs605の状態から、分散アプリケーションシステム109における全ての分散アプリケーションサーバ108が稼動していない状態になると、分散アプリケーションシステム109における全ての分散アプリケーションサーバ108が本アプリケーションの処理を停止する(s606)。
なお、図12は、ケース1における状態遷移処理定義情報224のデータ構造の一例を示す図である。同図に示すように、この状態遷移処理定義情報224は、分散アプリケーションシステム109の状態(稼働中の分散アプリケーションサーバ108の台数及び分散アプリケーションシステム109の多重度)を示す状態特定部6211、現在状態部6211が示す状態から他の状態への遷移の内容(例えば、分散アプリケーションサーバ108が1台縮退すること)を示すトリガー部6212、トリガー部6212が示す遷移の結果達した分散アプリケーションシステム109の状態を示す次状態部6213、及び、次状態部6213が示す状態に遷移する場合に行われる処理を示す次処理部6214の各項目を有する情報の集合体6215を、少なくとも1つ以上有している。
次に、ケース2の状態遷移処理定義情報224の例を説明する。
(ケース2の状態遷移処理定義情報224)
図13は、ケース2における状態遷移処理定義情報224の一例を説明するフローチャートである。同図に示すように、分散アプリケーションシステム109を構成する3台の分散アプリケーションサーバ108のうち3台の分散アプリケーションサーバ108が稼動している状態(s631)から、1台の分散アプリケーションサーバ108が稼動しなくなったことにより2台の分散アプリケーションサーバ108が稼動している状態(s632)に遷移した場合(すなわち、1台の縮退が発生した場合)、稼動しなくなった1台の分散アプリケーションサーバ108が分散アプリケーションシステム109から除外され(切り離され)、その分散アプリケーションシステム109において稼動している2台の分散アプリケーションサーバ108が、本アプリケーションの処理を並列的に行う(s637、s638、s639、s634)。具体的には、例えば、分散アプリケーションシステム監視サーバ106からの再構成指示により、データレプリケーション支援プログラム323が実行され、稼動している分散アプリケーションサーバ108のデータが同期する(s637)。また、分散アプリケーション構成情報324及び分散データストア構成情報325が、分散アプリケーションシステム監視サーバ106からの再構成指示により、稼動しなくなった分散アプリケーションサーバ108が切り離された分散アプリケーションシステム109における分散アプリケーションサーバ108が本アプリケーションの処理を並列的に行う構成の情報に更新され(s638)、分散アプリケーションシステム109が再起動される(s639)。これにより、2台の分散アプリケーションサーバ108が、本アプリケーションの処理を並列的に実行する状態となる(s634)。
なお、s632において稼動しなくなった分散アプリケーションサーバ108がマスターであった場合には、稼動している2台の分散アプリケーションサーバ108がいずれもスレーブとなり同期処理が正常に行えなくなるので、例えば、s637においてデータレプリケーション支援プログラムが、稼動している2台のスレーブのうちいずれかをマスターとし、これらの2台の間でデータの同期処理を行う再構成が行われてもよい(図2の状態201及び状態202を参照)。
s634において、分散アプリケーションサーバ108のうち1台が稼動を開始することにより、分散アプリケーションシステム109の状態が、3台の分散アプリケーションサーバ108が稼動している状態に遷移した場合には、稼動を開始した分散アプリケーションサーバ108が分散アプリケーションシステム109に組み込まれ、その分散アプリ
ケーションシステム109における3台の分散アプリケーションサーバ108が、本アプリケーションの処理を並列的に行う(s641、s642、s631)。具体的には、例えば、まず、分散アプリケーションシステム監視サーバ106からの再構成指示によりデータレプリケーション支援プログラムが実行されることにより、既に稼動している分散アプリケーションサーバ108のデータが、稼動を開始した分散アプリケーションサーバ108に転送され、これらの分散アプリケーションサーバ108の間でデータが同期される(s640)。そして、分散アプリケーションシステム監視サーバ106からの再構成指示により、分散アプリケーション構成情報324及び分散データストア構成情報325が、既に稼働している分散アプリケーションサーバ108及び稼動を開始した分散アプリケーションサーバ108が本アプリケーションの処理を並列的に行う構成の情報に更新され(s641)、分散アプリケーションシステム109が再起動される(s642)。これにより、分散アプリケーションシステム109の状態は、3台の分散アプリケーションサーバ108が本アプリケーションの処理を並列的に実行する状態となる(s631)。
なお、s640においてデータレプリケーションが行われる場合、稼動を開始した分散アプリケーションサーバ108をマスターとし、その他の稼動している分散アプリケーションサーバ108をスレーブとする再構成が行われてもよい。
s632、s637、又はs638の状態において、稼動していた分散アプリケーションシステム109が1台稼動しなくなった場合(すなわち、1台縮退した場合)、分散アプリケーションシステム109は、稼動している1台の分散アプリケーションサーバ108が、単独で本アプリケーションの処理を行う状態になる(s633)。
s639又はs634の状態において、稼動していた分散アプリケーションサーバ108の1台が稼動しなくなった状態(s635)になった場合(すなわち、1台縮退した場合)、分散アプリケーションシステム109の状態は、自動レプリケーションプログラムによりs634の状態に遷移する(戻る)。
これに対して、s635の状態から、稼動していた1台の分散アプリケーションサーバ108のうちさらに1台が稼動しなくなった状態(s636)に遷移した場合、分散アプリケーションシステム109における全ての分散アプリケーションサーバ108は本アプリケーションの処理を停止する(s636)。
以上のように、本実施形態の分散処理管理システム100は、分散処理システム(分散アプリケーションシステム109)を構成する情報処理装置(分散アプリケーションサーバ108)の台数及び組み合わせに関する構成情報(システム構成情報225)を記憶し、情報処理装置の稼働状態の変化を検知した場合に、稼動している情報処理装置の台数及び組み合わせに基づき構成情報を変更し、稼動している少なくとも1台以上の情報処理装置に所定の処理(本アプリケーションの処理)を単独で又は並列的に行わせるので、分散アプリケーションサーバ108の稼動状態が変化して一部の分散アプリケーションサーバ108が稼動しなくなったり稼動を開始した場合であっても、本アプリケーションの処理を引き続き並列的に又は単独で行うことができる。このように、本実施形態の分散処理管理システム100によれば、分散アプリケーションシステム109の構成及び冗長度を分散アプリケーションサーバ108の稼動状態に応じて変更することにより、分散アプリケーションシステム109における冗長性を確保しつつもその安定的な運用を行うことができる。
また、本実施形態の分散処理管理システム100は、稼動していた情報処理装置(分散アプリケーションシステム109)のうち一部の情報処理装置が稼動しなくなった場合に、稼動している情報処理装置の台数及び組み合わせに基づき構成情報(システム構成情報
225)を変更し、稼動している情報処理装置に所定の処理(本アプリケーションの処理)を単独で又は並列的に行わせるので、分散アプリケーションシステム109のうち一部が稼動しなくなっても、分散アプリケーションシステム109における構成を変更することにより、本アプリケーションの処理を確実に続行させることができる。
また、本実施形態の分散処理管理システム100は、縮退処理が実行された後において、稼動していなかった情報処理装置(分散アプリケーションサーバ108)が稼動を開始した場合に、稼動している情報処理装置の台数及び組み合わせに基づき構成情報(システム構成情報225)を変更し、稼動している複数の情報処理装置に所定の処理(本アプリケーションの処理)を並列的に行わせるので、縮退処理により冗長度が一時的に減少しても、稼動していなかった分散アプリケーションサーバ108が稼働を再開した場合には、本アプリケーションの並列処理を再開して冗長度を回復させることができる。
そして、本実施形態の分散処理管理システム100は、構成情報(システム構成情報225)が示す情報処理装置(分散アプリケーションサーバ108)のうち一部の情報処理装置が稼働しなくなったことにより構成情報が示す台数未満の情報処理装置が稼動している状態となった場合に、構成情報における台数及び組み合わせを、稼動しなくなった情報処理装置が除外された、稼動している情報処理装置の新たな台数及び組み合わせに変更し、稼動している情報処理装置に所定の処理(本アプリケーションの処理)を行わせるので(冗長度変更処理)、稼動しなくなった分散アプリケーションサーバ108を分散アプリケーションシステム109から一時的に切り離し、それ以外の分散アプリケーションサーバ108を用いて本アプリケーションの処理を確実に行うことができる。
また、例えば、本実施形態の分散処理管理システム100は、冗長度変更処理が実行された後において、稼動していなかった情報処理装置(分散アプリケーションサーバ108)が稼動を開始した場合に、構成情報(システム構成情報225)における台数及び組み合わせを、稼動を開始した情報処理装置を含む新たな台数及び組み合わせに変更し、稼動している複数の情報処理装置に所定の処理(本アプリケーションの処理)を並列的に行わせるので(冗長度回復処理)、冗長度変更処理により分散アプリケーションシステム109から切り離されていた分散アプリケーションサーバ108を再び分散アプリケーションシステム109に組み込むことにより、本アプリケーションの並列処理を確実に再開させることができる。
また、例えば、本実施形態の分散処理管理システム100は、構成情報(システム構成情報225)が示す情報処理装置(分散アプリケーションサーバ108)のうち一部が稼働しなくなったがいまだ構成情報が示す必要台数以上の複数の情報処理装置が稼動している状態となった場合に、構成情報における組み合わせを、稼動しなくなった情報処理装置を除外した新たな組み合わせに変更し、稼動している情報処理装置に所定の処理(本アプリケーションの処理)を並列的に行わせるので(構成変更処理)、情報処理装置(分散アプリケーションサーバ108)の一部が稼働しなくなった場合でも、分散アプリケーションシステム109における、稼動している分散アプリケーションサーバ108により、本アプリケーションの並列処理を続行することができる。
また、本実施形態の分散処理管理システム100は、構成変更処理が実行された後において、稼動していなかった情報処理装置(分散アプリケーションサーバ108)が稼動を開始した場合に、構成情報(システム構成情報225)における組み合わせを、稼動を開始した情報処理装置を含む情報処理装置の新たな組み合わせに変更し、稼動している情報処理装置に所定の処理(本アプリケーションの処理)を並列的に行わせるので(構成回復処理)、分散アプリケーションサーバ108の一部が稼動しなくなっても、分散アプリケーションシステム109の構成を構成変更処理の実行前に戻した状態で、本アプリケーシ
ョンの並列処理を行うことができる。
さらに、本実施形態の分散処理管理システム100では、構成情報(システム構成情報225)は、マスター、及びスレーブの組み合わせを含んでおり、分散処理管理システム100は、稼働しなくなった情報処理装置(分散アプリケーションサーバ108)がマスターであった場合には、稼動しているスレーブのいずれかを新たなマスターとする変更を構成情報に対して行うことにより、稼動している情報処理装置に本アプリケーションの処理を並列的に行わせるので、分散アプリケーションシステム109における本アプリケーションの並列処理における同期性を確保することができる。
以上からわかるように、分散処理管理システム100は、分散アプリケーションシステム109が所定の必要台数の情報処理装置(分散アプリケーションサーバ108)を必要とするACT/ACT構成の分散処理システムを想定した場合、その一部の情報処理装置が稼働しなくなって必要台数を下回っても、ACT/ACT構成を一時的に変更した新たな分散アプリケーションシステム109の構成及び台数にて、本アプリケーションの処理を続行することができる。そして、稼動していなかった分散アプリケーションサーバ108が稼動を開始した場合には再びACT/ACT構成を回復することができる。他方、一部の分散アプリケーションサーバ108が稼働しなくなってもその台数が必要台数を下回らないときは、ACT/ACT構成の分散処理システムの固有の機能(例えば、自動レプリケーションプログラム)により、分散アプリケーションシステム109は本アプリケーションの処理を続行することができる。このように、本実施形態の分散処理管理システム100によれば、ACT/ACT構成の分散処理システムにおける分散アプリケーションサーバ108の必要台数(例えば、過半数以上の台数)に関わらず、常に安定的かつ柔軟な分散処理システムの運用が可能となる。そしてこれにより、分散アプリケーションシステム109の構成変更におけるダウンタイム(処理時間)を大きく低減させることができる。また、分散アプリケーションシステム109における処理の同期性を確保し、処理の一貫性を損ねる虞のあるスプリットブレイン(Split brain)の発生も回避することがで
きる。
以上の実施形態の説明は、本発明の理解を容易にするためのものであり、本発明を限定するものではない。本発明はその趣旨を逸脱することなく、変更、改良され得ると共に本発明にはその等価物が含まれる。
100 分散処理管理システム、106 分散アプリケーションシステム監視サーバ、108 分散アプリケーションサーバ、109 分散アプリケーションシステム、51 構成情報記憶部、52 状態監視部、53 システム再構成部

Claims (14)

  1. 相互に通信可能に接続された、プロセッサ及びメモリを備える複数の情報処理装置を含んで構成され、前記情報処理装置が所定の処理を他の前記情報処理装置と並列的に行う並列処理が可能な分散処理システムであって、
    前記分散処理システムを構成する前記情報処理装置の台数及び前記情報処理装置の組み合わせに関する情報である構成情報を記憶する構成情報記憶部と、
    前記情報処理装置のそれぞれの稼働状態を監視する状態監視部と、
    前記情報処理装置の稼働状態の変化を検知した場合に、稼動している前記情報処理装置の台数及び組み合わせに基づき前記構成情報を変更し、変更した前記構成情報に基づき、前記稼動している少なくとも1台以上の前記情報処理装置に前記所定の処理を単独で又は並列的に行わせるシステム再構成部と、
    を備え、
    前記システム再構成部は、稼動していた前記情報処理装置のうち一部の前記情報処理装置が稼動しなくなったことを検知した場合に、稼動している前記情報処理装置の台数及び組み合わせに基づき前記構成情報を変更し、変更した前記構成情報に基づき、前記稼動している情報処理装置に前記所定の処理を単独で又は並列的に行わせる縮退処理を行う縮退部を備え、
    前記縮退部は、前記構成情報が示す前記情報処理装置のうち一部の前記情報処理装置が稼働しなくなったことにより前記構成情報が示す台数未満の前記情報処理装置が稼動している状態となったことを検知した場合に、前記構成情報における前記台数及び前記組み合わせを、前記稼動しなくなった前記情報処理装置が除外された、稼動している前記情報処理装置の新たな台数及び組み合わせに変更し、変更した前記構成情報に基づき、稼動している前記情報処理装置に前記所定の処理を行わせる冗長度変更処理を行う冗長度変更部を備える、分散処理システム。
  2. 前記システム再構成部は、前記縮退処理が実行された後において、稼動していなかった前記情報処理装置が稼動を開始したことを検知した場合に、稼動している前記情報処理装置の台数及び組み合わせに基づき前記構成情報を変更し、変更した前記構成情報に基づき、稼動している複数の前記情報処理装置に前記所定の処理を並列的に行わせる復帰処理を行う復帰部を備える、請求項1に記載の分散処理システム。
  3. 前記復帰部は、前記冗長度変更処理が実行された後において、稼動していなかった前記情報処理装置が稼動を開始したことを検知した場合に、前記構成情報における前記台数及び前記組み合わせを、前記稼動を開始した情報処理装置を含む、前記情報処理装置の新たな台数及び組み合わせに変更し、変更した前記構成情報に基づき、稼動している複数の前記情報処理装置に前記所定の処理を並列的に行わせる冗長度回復処理を行う冗長度回復部を備える、請求項2に記載の分散処理システム。
  4. 前記縮退部は、前記構成情報が示す前記情報処理装置のうち一部が稼働しなくなったがいまだ前記構成情報が示す前記台数以上の複数の前記情報処理装置が稼動している状態となったことを検知した場合に、前記構成情報における前記組み合わせを、前記稼動しなくなった情報処理装置が除外された、前記情報処理装置の新たな組み合わせに変更し、変更した前記構成情報に基づき、稼動している情報処理装置に前記所定の処理を並列的に行わせる構成変更処理を行う構成変更部を備える、請求項1に記載の分散処理システム。
  5. 前記システム再構成部は、前記縮退処理が実行された後において、稼動していなかった前記情報処理装置が稼動を開始したことを検知した場合に、稼動している前記情報処理装置の台数及び組み合わせに基づき前記構成情報を変更し、変更した前記構成情報に基づき、稼動している複数の前記情報処理装置に前記所定の処理を並列的に行わせる復帰処理を行う復帰部を備え、
    前記復帰部は、前記構成変更処理が実行された後において、稼動していなかった前記情報処理装置が稼動を開始したことを検知した場合に、前記構成情報における組み合わせを、前記稼動を開始した情報処理装置を含む前記情報処理装置の新たな組み合わせに変更し、変更した前記構成情報に基づき、稼動している前記情報処理装置に前記所定の処理を並列的に行わせる構成回復処理を行う構成回復部を備える、請求項に記載の分散処理システム。
  6. 前記構成情報は、並列的に行う前記所定の処理を制御する前記情報処理装置であるマスター、及び前記マスターにより処理が制御される前記情報処理装置であるスレーブの組み合わせを含み、
    前記構成変更部は、前記稼働しなくなった情報処理装置が前記マスターであった場合には、前記稼動している前記スレーブのいずれかを新たな前記マスターとする変更を前記構成情報に対して行うことにより、前記稼動している情報処理装置に前記所定の処理を並列的に行わせる、請求項4に記載の分散処理システム。
  7. 前記構成情報を変更した旨又はその変更の内容を出力する再構成通知部を備える、請求項1に記載の分散処理システム。
  8. 前記構成情報を変更した旨又はその変更の内容を出力する再構成通知部をさらに備え、
    前記システム再構成部は、前記縮退処理が実行された後において、稼動していなかった前記情報処理装置が稼動を開始したことを検知した場合に、稼動している前記情報処理装置の台数及び組み合わせに基づき前記構成情報を変更し、変更した前記構成情報に基づき、稼動している複数の前記情報処理装置に前記所定の処理を並列的に行わせる復帰処理を行う復帰部を備え、
    前記復帰部は、前記冗長度変更処理が実行された後において、稼動していなかった前記情報処理装置が稼動を開始したことを検知した場合に、前記構成情報における前記台数及び前記組み合わせを、前記稼動を開始した情報処理装置を含む、前記情報処理装置の新たな台数及び組み合わせに変更し、変更した前記構成情報に基づき、稼動している複数の前記情報処理装置に前記所定の処理を並列的に行わせる冗長度回復処理を行う冗長度回復部を備え、
    前記縮退部は、前記構成情報が示す前記情報処理装置のうち一部が稼働しなくなったがいまだ前記構成情報が示す前記台数以上の複数の前記情報処理装置が稼動している状態となったことを検知した場合に、前記構成情報における前記組み合わせを、前記稼動しなくなった情報処理装置が除外された、前記情報処理装置の新たな組み合わせに変更し、変更した前記構成情報に基づき、稼動している情報処理装置に前記所定の処理を並列的に行わせる構成変更処理を行う構成変更部を備え、
    前記復帰部は、前記構成変更処理が実行された後において、稼動していなかった前記情報処理装置が稼動を開始したことを検知した場合に、前記構成情報における組み合わせを、前記稼動を開始した情報処理装置を含む前記情報処理装置の新たな組み合わせに変更し、変更した前記構成情報に基づき、稼動している前記情報処理装置に前記所定の処理を並列的に行わせる構成回復処理を行う構成回復部を備え、
    前記構成情報は、並列的に行う前記所定の処理を制御する前記情報処理装置であるマスター、及び前記マスターにより処理が制御される前記情報処理装置であるスレーブの組み合わせを含み、
    前記構成変更部は、前記稼働しなくなった情報処理装置が前記マスターであった場合には、前記稼動している前記スレーブのいずれかを新たな前記マスターとする変更を前記構成情報に対して行うことにより、前記稼動している情報処理装置に前記所定の処理を並列的に行わせる、
    請求項1に記載の分散処理システム。
  9. 相互に通信可能に接続された、プロセッサ及びメモリを備える複数の情報処理装置を含んで構成され、前記情報処理装置が所定の処理を他の前記情報処理装置と並列的に行う並列処理が可能な分散処理システムにおける分散処理システムの管理方法であって、
    プロセッサ及びメモリを備える情報処理装置が、
    前記分散処理システムを構成する前記情報処理装置の台数及び前記情報処理装置の組み合わせに関する情報である構成情報を記憶する構成情報記憶処理と、
    前記情報処理装置のそれぞれの稼働状態を監視する状態監視処理と、
    前記情報処理装置の稼働状態の変化を検知した場合に、稼動している前記情報処理装置の台数及び組み合わせに基づき前記構成情報を変更し、変更した前記構成情報に基づき、前記稼動している少なくとも1台以上の前記情報処理装置に前記所定の処理を単独で又は並列的に行わせるシステム再構成処理と、
    を実行し、
    前記システム再構成処理は、稼動していた前記情報処理装置のうち一部の前記情報処理装置が稼動しなくなったことを検知した場合に、稼動している前記情報処理装置の台数及び組み合わせに基づき前記構成情報を変更し、変更した前記構成情報に基づき、前記稼動している情報処理装置に前記所定の処理を単独で又は並列的に行わせる縮退処理を含み、
    前記縮退処理は、前記構成情報が示す前記情報処理装置のうち一部の前記情報処理装置が稼働しなくなったことにより前記構成情報が示す台数未満の前記情報処理装置が稼動している状態となったことを検知した場合に、前記構成情報における前記台数及び前記組み合わせを、前記稼動しなくなった前記情報処理装置が除外された、稼動している前記情報処理装置の新たな台数及び組み合わせに変更し、変更した前記構成情報に基づき、稼動している前記情報処理装置に前記所定の処理を行わせる冗長度変更処理を含む、
    分散処理システムの管理方法。
  10. 前記システム再構成処理は、前記縮退処理が実行された後において、稼動していなかった前記情報処理装置が稼動を開始したことを検知した場合に、稼動している前記情報処理装置の台数及び組み合わせに基づき前記構成情報を変更し、変更した前記構成情報に基づき、稼動している複数の前記情報処理装置に前記所定の処理を並列的に行わせる復帰処理を含む、請求項9に記載の分散処理システムの管理方法。
  11. 前記復帰処理は、前記冗長度変更処理が実行された後において、稼動していなかった前記情報処理装置が稼動を開始したことを検知した場合に、前記構成情報における前記台数及び前記組み合わせを、前記稼動を開始した情報処理装置を含む、前記情報処理装置の新たな台数及び組み合わせに変更し、変更した前記構成情報に基づき、稼動している複数の前記情報処理装置に前記所定の処理を並列的に行わせる冗長度回復処理を含む、請求項10に記載の分散処理システムの管理方法。
  12. 相互に通信可能に接続された、プロセッサ及びメモリを備える複数の情報処理装置を含んで構成され、前記情報処理装置が所定の処理を他の前記情報処理装置と並列的に行う並列処理が可能な分散処理システムの管理を行う分散処理システム管理プログラムであって、
    前記分散処理システムに、
    前記分散処理システムを構成する前記情報処理装置の台数及び前記情報処理装置の組み合わせに関する情報である構成情報を記憶する構成情報記憶処理と、
    前記情報処理装置のそれぞれの稼働状態を監視する状態監視処理と、
    前記情報処理装置の稼働状態の変化を検知した場合に、稼動している前記情報処理装置の台数及び組み合わせに基づき前記構成情報を変更し、変更した前記構成情報に基づき、前記稼動している少なくとも1台以上の前記情報処理装置に前記所定の処理を単独で又は並列的に行わせるシステム再構成処理と、
    を実行させ、
    前記システム再構成処理は、稼動していた前記情報処理装置のうち一部の前記情報処理装置が稼動しなくなったことを検知した場合に、稼動している前記情報処理装置の台数及び組み合わせに基づき前記構成情報を変更し、変更した前記構成情報に基づき、前記稼動している情報処理装置に前記所定の処理を単独で又は並列的に行わせる縮退処理を行い、
    前記縮退処理は、前記構成情報が示す前記情報処理装置のうち一部の前記情報処理装置が稼働しなくなったことにより前記構成情報が示す台数未満の前記情報処理装置が稼動している状態となったことを検知した場合に、前記構成情報における前記台数及び前記組み合わせを、前記稼動しなくなった前記情報処理装置が除外された、稼動している前記情報処理装置の新たな台数及び組み合わせに変更し、変更した前記構成情報に基づき、稼動している前記情報処理装置に前記所定の処理を行わせる冗長度変更処理を含む、
    分散処理システム管理プログラム。
  13. 前記システム再構成処理は、前記縮退処理が実行された後において、稼動していなかった前記情報処理装置が稼動を開始したことを検知した場合に、稼動している前記情報処理装置の台数及び組み合わせに基づき前記構成情報を変更し、変更した前記構成情報に基づき、稼動している複数の前記情報処理装置に前記所定の処理を並列的に行わせる復帰処理を含む、請求項12に記載の分散処理システム管理プログラム。
  14. 前記復帰処理は、前記冗長度変更処理が実行された後において、稼動していなかった前記情報処理装置が稼動を開始したことを検知した場合に、前記構成情報における前記台数及び前記組み合わせを、前記稼動を開始した情報処理装置を含む、前記情報処理装置の新たな台数及び組み合わせに変更し、変更した前記構成情報に基づき、稼動している複数の前記情報処理装置に前記所定の処理を並列的に行わせる冗長度回復処理を含む、請求項13に記載の分散処理システム管理プログラム。
JP2017117659A 2017-06-15 2017-06-15 分散処理システム、分散処理システムの管理方法、及び分散処理システム管理プログラム Active JP6934754B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2017117659A JP6934754B2 (ja) 2017-06-15 2017-06-15 分散処理システム、分散処理システムの管理方法、及び分散処理システム管理プログラム
PCT/JP2018/020582 WO2018230332A1 (ja) 2017-06-15 2018-05-29 分散処理システム、及び分散処理システムの管理方法
US16/494,601 US11010269B2 (en) 2017-06-15 2018-05-29 Distributed processing system and method for management of distributed processing system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017117659A JP6934754B2 (ja) 2017-06-15 2017-06-15 分散処理システム、分散処理システムの管理方法、及び分散処理システム管理プログラム

Publications (3)

Publication Number Publication Date
JP2019004327A JP2019004327A (ja) 2019-01-10
JP2019004327A5 JP2019004327A5 (ja) 2020-03-12
JP6934754B2 true JP6934754B2 (ja) 2021-09-15

Family

ID=64660933

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017117659A Active JP6934754B2 (ja) 2017-06-15 2017-06-15 分散処理システム、分散処理システムの管理方法、及び分散処理システム管理プログラム

Country Status (3)

Country Link
US (1) US11010269B2 (ja)
JP (1) JP6934754B2 (ja)
WO (1) WO2018230332A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11042443B2 (en) * 2018-10-17 2021-06-22 California Institute Of Technology Fault tolerant computer systems and methods establishing consensus for which processing system should be the prime string

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4914657A (en) * 1987-04-15 1990-04-03 Allied-Signal Inc. Operations controller for a fault tolerant multiple node processing system
US6363497B1 (en) * 1997-05-13 2002-03-26 Micron Technology, Inc. System for clustering software applications
US6108699A (en) * 1997-06-27 2000-08-22 Sun Microsystems, Inc. System and method for modifying membership in a clustered distributed computer system and updating system configuration
US6401120B1 (en) * 1999-03-26 2002-06-04 Microsoft Corporation Method and system for consistent cluster operational data in a server cluster using a quorum of replicas
US6615366B1 (en) * 1999-12-21 2003-09-02 Intel Corporation Microprocessor with dual execution core operable in high reliability mode
US6915391B2 (en) * 2000-12-15 2005-07-05 International Business Machines Corporation Support for single-node quorum in a two-node nodeset for a shared disk parallel file system
US7296268B2 (en) * 2000-12-18 2007-11-13 Microsoft Corporation Dynamic monitor and controller of availability of a load-balancing cluster
JP2005055995A (ja) 2003-08-07 2005-03-03 Hitachi Ltd ストレージ制御方法、および、冗長化機能を有するサーバシステム
JP4089569B2 (ja) 2003-09-19 2008-05-28 日立工機株式会社 圧縮空気ねじ締め機
JP4611922B2 (ja) * 2006-03-28 2011-01-12 富士通株式会社 制御プログラム、制御方法および制御装置
JP5211766B2 (ja) * 2008-03-10 2013-06-12 富士通株式会社 資源割り当て装置及びプログラム
JP5368907B2 (ja) 2009-08-10 2013-12-18 株式会社エヌ・ティ・ティ・データ サーバ管理システム、サーバ管理方法、及びプログラム
JP2011159222A (ja) 2010-02-03 2011-08-18 Nec Corp サーバシステム及びサーバシステムの制御方法
US9086962B2 (en) * 2012-06-15 2015-07-21 International Business Machines Corporation Aggregating job exit statuses of a plurality of compute nodes executing a parallel application
US9032251B2 (en) * 2013-03-12 2015-05-12 Cray Inc. Re-forming an application control tree without terminating the application
US9372766B2 (en) * 2014-02-11 2016-06-21 Saudi Arabian Oil Company Circumventing load imbalance in parallel simulations caused by faulty hardware nodes
JP6558037B2 (ja) * 2015-04-10 2019-08-14 富士通株式会社 運用管理プログラム、運用管理方法、および運用管理装置

Also Published As

Publication number Publication date
WO2018230332A1 (ja) 2018-12-20
US20200089585A1 (en) 2020-03-19
US11010269B2 (en) 2021-05-18
JP2019004327A (ja) 2019-01-10

Similar Documents

Publication Publication Date Title
JP4648447B2 (ja) 障害復旧方法、プログラムおよび管理サーバ
EP2273371B1 (en) Failover procedure for server system
US8423821B1 (en) Virtual recovery server
US9645900B2 (en) Warm standby appliance
US8977887B2 (en) Disaster recovery appliance
JP5352115B2 (ja) ストレージシステム及びその監視条件変更方法
JP6850771B2 (ja) 情報処理システム、情報処理システムの管理方法及びプログラム
JP2007226400A (ja) 計算機管理方法、計算機管理プログラム、実行サーバの構成を管理する待機サーバ及び計算機システム
WO2014076838A1 (ja) 仮想マシン同期システム
JP2012173996A (ja) クラスタシステム、クラスタ管理方法、およびクラスタ管理プログラム
JP6934754B2 (ja) 分散処理システム、分散処理システムの管理方法、及び分散処理システム管理プログラム
CN116389233B (zh) 容器云管理平台主备切换系统、方法、装置和计算机设备
US11762741B2 (en) Storage system, storage node virtual machine restore method, and recording medium
JP5798056B2 (ja) 呼処理情報の冗長化制御システムおよびこれに利用する予備保守サーバ
JP2008276281A (ja) データ同期システム、方法、及び、プログラム
CN105765546A (zh) 使用隔绝的分区的弹性虚拟多路径资源访问
JP6773345B1 (ja) フォールトトレラントシステム、サーバ、及びそれらの運用方法
JP6394212B2 (ja) 情報処理システム、ストレージ装置及びプログラム
KR20180018195A (ko) 공정 관리 장치, 이와 연동하는 데이터 서버를 포함하는 반도체 공정 관리 시스템 및 이를 이용한 반도체 공정 관리 방법
JP2011081830A (ja) サーバ切替方法、プログラムおよび管理サーバ
JP5947974B2 (ja) 情報処理装置及び情報処理装置の交換支援システム並びに交換支援方法
WO2016046951A1 (ja) 計算機システム及びそのファイル管理方法
JP2015005149A (ja) クラウドプリントにおけるプリントサーバ障害時のリカバリ方法
JP6954693B2 (ja) フォールトトレラントシステム、サーバ、それらの運用方法、及びプログラム
JP2010055485A (ja) ストレージ装置の制御部及び制御方法

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200131

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200131

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210126

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210326

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210511

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210608

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210803

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210824

R150 Certificate of patent or registration of utility model

Ref document number: 6934754

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150