JP6934754B2

JP6934754B2 - 分散処理システム、分散処理システムの管理方法、及び分散処理システム管理プログラム

Info

Publication number: JP6934754B2
Application number: JP2017117659A
Authority: JP
Inventors: 宏明郡浦; 木下　雅文; 雅文木下; 伸之茶木
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2017-06-15
Filing date: 2017-06-15
Publication date: 2021-09-15
Anticipated expiration: 2037-06-15
Also published as: WO2018230332A1; US20200089585A1; US11010269B2; JP2019004327A

Description

本発明は、分散処理システム、分散処理システムの管理方法、及び分散処理システム管理プログラムに関する。

複数の情報処理装置（サーバ等）による分散システムの運用形態の一つとして、稼動系及び待機系の情報処理装置を設け、稼動系の情報処理装置に障害が生じた場合に、待機系の情報処理装置が稼動系の情報処理装置の処理を引き継いで当該処理を続行することにより冗長性を確保するという、いわゆるＡＣＴ／ＳＴＢ型（ACTive/STand-By型）の構成の
分散処理システム（以下、ＡＣＴ／ＳＴＢ構成という。）が提案されている。

例えば、特許文献１には、ホスト計算機（ホストサーバ）２台による制御方法について、一方のホストサーバの障害時には他方のホストサーバで処理を引き継ぐことが記載されている。また、特許文献２には、Ｎ台の運用系サーバと１台の待機系サーバを用意し、ハードディスクを冗長化してミラーリングすることが記載され、特許文献３には、運用系サーバと待機系サーバとをそれぞれ１つずつ備える複数の冗長構成と、冗長構成を管理する管理サーバ３とを備えるサーバシステムが開示されている。

また、特許文献４には、冗長性を確保する別の仕組みとして、サーバ管理システムが、サービスレベルに関わる情報を基に、仮想マシンで構成された複数のシステムのうち、ＳＬＡ（サービスレベルの品質に関する契約）違反が発生する危険性のあるシステムを自動的に高可用性の環境に移行させることで、冗長性を変更する技術が開示されている。

特開２００５−０８５１７０号公報特開２００５−０５５９９５号公報特開２０１１−１５９２２２号公報特開２０１１−３９７４０号公報

しかし、特許文献１−３をはじめとするＡＣＴ／ＳＴＢ構成では一般に、稼動系から待機系への処理の引き継ぎ時（切り替え時）に、ダウンタイム（切り替えのためのシステム変更に要する作業時間等）が発生するという問題がある。そこで、全ての情報処理装置を稼働系とすることでダウンタイムの発生を回避する、いわゆるＡＣＴ／ＡＣＴ型（ACTive/ACTive型）の構成（以下、ＡＣＴ／ＡＣＴ構成という。）の分散処理システムが提案さ
れている。

しかし、このＡＣＴ／ＡＣＴ構成には冗長性に関する制約がある。例えば、ある分散処理システムにおける冗長度を確保し多重障害に耐える（処理の一貫性を保証する）ためには、例えば、Ｎ重障害（Ｎ＝１，２，３，…）に対する対策としてサーバを最低「２Ｎ＋１」台設ける必要がある（いわゆる多数決アルゴリズム）。例えば、二重障害（Ｎ＝２）に対する耐性の獲得には、サーバは最低限５台必要であり、１台の障害耐性を獲得する必要がある場合は、サーバの必要台数は３台である。

このように、ＡＣＴ／ＡＣＴ構成は、情報処理装置を所定台数以上設けなければならず、冗長度に関する扱いが固定的であるという問題がある。それゆえ、ＡＣＴ／ＡＣＴ構成の分散処理システムの導入（試験的導入ないしスモールスタート）は、導入者（顧客）にとって負荷が大きくコストもかかっている。

この点、特許文献４には、ＳＬＡに応じて構成を変更して冗長度を変更できることが記載されているが、ＡＣＴ／ＡＣＴ構成を保証する仕組みは開示されていない。分散処理システムにおける冗長度の確保と柔軟な運用との両立は容易ではない。

本発明はこのような現状に鑑みてなされたものであり、その目的は、分散処理システムにおいて冗長性を確保しつつも安定的な運用が可能な分散処理システム、分散処理システムの管理方法、及び分散処理システム管理プログラムを提供することを目的とする。

上記目的を達成するための本発明の一つは、相互に通信可能に接続された、プロセッサ及びメモリを備える複数の情報処理装置を含んで構成され、前記情報処理装置が所定の処理を他の前記情報処理装置と並列的に行う並列処理が可能な分散処理システムであって、前記分散処理システムを構成する前記情報処理装置の台数及び前記情報処理装置の組み合わせに関する情報である構成情報を記憶する構成情報記憶部と、前記情報処理装置のそれぞれの稼働状態を監視する状態監視部と、前記情報処理装置の稼働状態の変化を検知した場合に、稼動している前記情報処理装置の台数及び組み合わせに基づき前記構成情報を変更し、変更した前記構成情報に基づき、前記稼動している少なくとも１台以上の前記情報処理装置に前記所定の処理を単独で又は並列的に行わせるシステム再構成部と、を備え、前記システム再構成部は、稼動していた前記情報処理装置のうち一部の前記情報処理装置が稼動しなくなったことを検知した場合に、稼動している前記情報処理装置の台数及び組み合わせに基づき前記構成情報を変更し、変更した前記構成情報に基づき、前記稼動している情報処理装置に前記所定の処理を単独で又は並列的に行わせる縮退処理を行う縮退部を備え、前記縮退部は、前記構成情報が示す前記情報処理装置のうち一部の前記情報処理装置が稼働しなくなったことにより前記構成情報が示す台数未満の前記情報処理装置が稼動している状態となったことを検知した場合に、前記構成情報における前記台数及び前記組み合わせを、前記稼動しなくなった前記情報処理装置が除外された、稼動している前記情報処理装置の新たな台数及び組み合わせに変更し、変更した前記構成情報に基づき、稼動している前記情報処理装置に前記所定の処理を行わせる冗長度変更処理を行う冗長度変更部を備える。

本発明によれば、分散処理システムにおいて冗長性を確保しつつも安定的な運用を可能とすることができる。

図１は、本実施形態に係る分散処理管理システム１００の構成の一例を示す図である。図２は、分散アプリケーションシステム１０９におけるＡＣＴ／ＡＣＴ構成の例（ケース１、ケース２、ケース３）を示す図である。図３は、分散アプリケーションシステム監視サーバ１０６が備えるハードウェア及び機能の一例を説明する図である。図４は、システム構成情報２２５の例を示す図である。図５は、通信先情報２２６の一例を示す図である。図６は、分散アプリケーションサーバ１０８が備えるハードウェア及び機能を説明する図である。図７は、分散データストア構成情報３２５の一例を示す図である。図８は、分散処理管理システム１００が行う処理の一例を示すシーケンス図である。図９は、分散アプリケーションシステム監視サーバ１０６が行う処理の一例を説明するフローチャートである。図１０は、状態遷移処理定義情報生成プログラム２２２が行う処理の一例を示すフローチャートである。図１１は、ケース１における状態遷移処理定義情報２２４の一例を説明するフローチャートである。図１２は、ケース１における状態遷移処理定義情報２２４のデータ構造の一例を示す図である。図１３は、ケース２における状態遷移処理定義情報２２４の一例を説明するフローチャートである。

以下、本発明を実施するための形態を、図面を参照しつつ説明する。

＜＜システム構成＞＞
図１は、本実施形態に係る分散処理管理システム１００の構成の一例を示す図である。同図に示すように、分散処理管理システム１００は、デバイス１０１、センサ１０２、及び宛先サーバ１０３の各装置と、これらの装置と通信可能に接続された分散アプリケーションシステム１０９と、分散アプリケーションシステム１０９と通信可能に接続された分散アプリケーションシステム監視サーバ１０６とを含んで構成されている。

デバイス１０１は、例えば情報処理端末（例えば携帯電話、スマートフォン、タブレット等）であり、分散アプリケーションシステム１０９と連携して所定の情報処理を行う。

センサ１０２は、例えば温度センサ、照度センサ、加速度センサ等である。センサ１０２は、例えば、分散アプリケーションサーバ１０８の要求に応じて所定の測定値を取得し、取得した測定値を分散アプリケーションシステム１０９に送信する。

宛先サーバ１０３は、分散アプリケーションシステム１０９のデータやプログラムを外部の情報処理装置に送信し、又は、外部の情報処理装置から送信されてきたデータやプログラムを分散アプリケーションシステム１０９に転送する。

分散アプリケーションシステム１０９は、通信設備網１０７Ｂによって相互に通信可能に接続された複数の分散アプリケーションサーバ１０８（１０８Ａ、１０８Ｂ、…１０８Ｎ）を含む。

分散アプリケーションサーバ１０８はそれぞれ、分散アプリケーションサーバ１０８のユーザ等（以下、単にユーザという。）が使用する所定のアプリケーションプログラム（以下、本アプリケーションという。）、及び、分散アプリケーションサーバ１０８に対応づけられた所定のデータ（以下、本データという。）を記憶している。

分散アプリケーションサーバ１０８は、通信設備網１０７Ａを介して分散アプリケーションシステム監視サーバ１０６と通信可能に接続されている。また、分散アプリケーションサーバ１０８は、無線網１０４又はインターネット１０５を介して、デバイス１０１、センサ１０２、及び宛先サーバ１０３と通信可能に接続されている。

なお、通信設備網１０７Ａ及び通信設備網１０７Ｂは、例えば、ＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）、インターネット、イントラネット、専用線な
どである。無線網１０４は、例えば無線ＬＡＮ、無線ＷＡＮ、専用の無線通信網等である。

次に、分散アプリケーションシステム監視サーバ１０６は、各分散アプリケーションサーバ１０８の稼動状態を監視するサーバである。

分散アプリケーションシステム監視サーバ１０６は、分散アプリケーションシステム１０９を構成する分散アプリケーションサーバ１０８の台数及び組み合わせに関する情報である構成情報を記憶している（不図示。詳細は後述）。分散アプリケーションシステム監
視サーバ１０６は、構成情報に関する指示（以下、再構成通知という。）を分散アプリケーションシステム１０９に送信し、分散アプリケーションシステム１０９における各分散アプリケーションサーバ１０８は、この再構成通知に基づき、本アプリケーションの処理を他の分散アプリケーションサーバ１０８と並列的に行う（すなわち、並列処理を行う。以下において同じ。）ことが可能となっている。すなわち、分散アプリケーションシステム１０９は、これを構成する全ての情報処理装置が稼働系となっているＡＣＴ／ＡＣＴ（ACTive/ACTive）構成の分散処理システムである。

＜分散アプリケーションシステム１０９におけるＡＣＴ／ＡＣＴ構成＞
ここで、分散アプリケーションシステム１０９におけるＡＣＴ／ＡＣＴ構成について具体的に説明する。

図２は、分散アプリケーションシステム１０９におけるＡＣＴ／ＡＣＴ構成の例（ケース１、ケース２、ケース３）を示す図である。本実施形態の分散アプリケーションシステム１０９では、分散アプリケーションシステム１０９を構成するＮ台の分散アプリケーションサーバ１０８のうち、構成情報に記憶されているＭ台の複数の分散アプリケーションサーバ１０８が、本アプリケーションの並列処理を行う（多重度Ｍ）。そして、これらの分散アプリケーションサーバ１０８のうち一部が稼働不可能な状態となっても、Ｍ台のうち過半数の分散アプリケーションサーバ１０８が稼動している場合には、それらの分散アプリケーションサーバ１０８がＡＣＴ／ＡＣＴ構成にて本アプリケーションの並列処理を行うことができる（いわゆる多数決アルゴリズム）。これにより、分散アプリケーションシステム１０９を構成する分散アプリケーションサーバ１０８のうち一部が稼動不可能な状態となっても、ＡＣＴ／ＡＣＴ構成が維持される。そして、稼動していなかった分散アプリケーションサーバ１０８が稼動を開始した場合は、所定のプログラム（自動レプリケーションプログラム）により、その分散アプリケーションサーバ１０８は再び、その他の分散アプリケーションサーバ１０８と共に本アプリケーションを並列的に実行することができる。

なお、自動レプリケーションプログラムは、例えば、各分散アプリケーションサーバ１０８が記憶している。

ケース１では、分散アプリケーションシステム１０９は、３台の分散アプリケーションサーバ１０８（サーバ１、サーバ２、サーバ３）から構成され、このうち、構成情報が示す所定の組み合わせの２台の分散アプリケーションサーバ１０８が、本アプリケーションの処理を並列的に実行する。具体的には、この組み合わせは、サーバ１がマスターとなりサーバ２がスレーブとなる組み合わせと、サーバ２がマスターとなりサーバ３がスレーブとなる組み合わせと、サーバ３がマスターとなりサーバ１がスレーブとなる組み合わせとを含む。

ここで、例えば、マスターのサーバ１及びスレーブのサーバ２が並列処理を行っている状態２０１において、サーバ１が稼動を停止した場合には、サーバ２及びサーバ３のいずれかがマスター又はスレーブとなる新たな状態２０２に遷移することで、分散アプリケーションシステム１０９は並列処理を続行することができる。

次に、ケース２では、分散アプリケーションシステム１０９は、３台の分散アプリケーションサーバ１０８（サーバ１、サーバ２、サーバ３）から構成され、構成情報が示す所定の組み合わせの３台の分散アプリケーションサーバ１０８が、本アプリケーションの処理を並列的に実行する。具体的には、この組み合わせは、サーバ１がマスターとなりサーバ２及びサーバ３がスレーブとなる組み合わせと、サーバ２がマスターとなりサーバ３及びサーバ１がスレーブとなる組み合わせと、サーバ３がマスターとなりサーバ１及びサー
バ２がスレーブとなる組み合わせとを含む。

一般的には、ケース３に示すように、分散アプリケーションシステム１０９がＮ台の分散アプリケーションサーバ１０８（サーバ１、サーバ２、…、サーバＮ）から構成され、このうち、構成情報が示す所定の組み合わせのＭ台（Ｎ＞Ｍ）の分散アプリケーションサーバ１０８が、本アプリケーションの処理を並列的に実行する。具体的には、この組み合わせは、任意の１台のサーバＸがマスターとなり、サーバＸ以外のＭ−１台のサーバがスレーブとなる複数の組み合わせを含む。

なお、本実施形態では、分散アプリケーションシステム１０９に、分散アプリケーションサーバ１０８が並列的に本アプリケーションの処理を行うことができる分散アプリケーションサーバ１０８の台数（以下、必要台数という。本実施形態では、多重度の過半数の値。）の情報が記憶されているものとする。また、以下では、並列的に処理を行う分散アプリケーションサーバ１０８のグループをデータグループという。

次に、分散アプリケーションシステム監視サーバ１０６の構成について説明する。
＜分散アプリケーションシステム監視サーバ１０６の構成＞
図３は、分散アプリケーションシステム監視サーバ１０６が備えるハードウェア及び機能の一例を説明する図である。分散アプリケーションシステム監視サーバ１０６は、ＣＰＵ（Central Processing Unit）などのプロセッサ２１１と、他の情報処理装置と通信を
行う入出力回路インタフェース２１２と、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）などの記憶装置２１３と、キーボード、マウス、タッチパネル、モニタ（ディスプレイ）などからなる入出力装置２１４とを備える。

記憶装置２１３には、監視プログラム２２１、状態遷移処理定義情報生成プログラム２２２、及び分散データストア多重度収集プログラム２２３の各プログラムを記憶している。また、分散アプリケーションサーバ１０８は、状態遷移処理定義情報２２４、システム構成情報２２５、及び分散アプリケーション／分散データストアプログラム通信先情報２２６の各情報が記憶されている。

監視プログラム２２１は、構成情報記憶部５１、状態監視部５２、システム再構成部５３、再構成通知部６０の各部を備える。

構成情報記憶部５１は、前記分散処理システム（分散アプリケーションシステム１０９）を構成する前記情報処理装置（分散アプリケーションサーバ１０８）の台数及び前記情報処理装置の組み合わせに関する情報である構成情報（システム構成情報２２５）を記憶する。

状態監視部５２は、前記情報処理装置（分散アプリケーションサーバ１０８）のそれぞれの稼働状態を監視する。

具体的には、例えば、状態監視部５２は、分散アプリケーションサーバ１０８が送信する所定のデータを監視する。状態監視部５２は、所定時間（以下、タイムアウト時間という。）、このデータを受信できなかった場合に、その分散アプリケーションサーバ１０８が稼動していないと判断する。

システム再構成部５３は、前記情報処理装置（分散アプリケーションサーバ１０８）の稼働状態の変化を検知した場合に、稼動している前記情報処理装置の台数及び組み合わせに基づき前記構成情報を変更し、変更した前記構成情報に基づき、前記稼動している少な
くとも１台以上の前記情報処理装置に前記所定の処理（本アプリケーションの処理）を単独で又は並列的に行わせる。

システム再構成部５３は、縮退部５４及び復帰部５５を備える。

縮退部５４は、稼動していた前記情報処理装置のうち一部の前記情報処理装置が稼動しなくなったことを検知した場合に、稼動している前記情報処理装置の台数及び組み合わせに基づき前記構成情報を変更し、変更した前記構成情報に基づき、前記稼動している情報処理装置に前記所定の処理を単独で又は並列的に行わせる縮退処理を行う。

前記縮退部５４は、冗長度変更部５６及び構成変更部５７を備える。

冗長度変更部５６は、前記構成情報が示す前記情報処理装置のうち一部の前記情報処理装置が稼働しなくなったことにより前記構成情報が示す台数未満の前記情報処理装置が稼動している状態となったことを検知した場合に、前記構成情報における前記台数及び前記組み合わせを、前記稼動しなくなった前記情報処理装置が除外された、稼動している前記情報処理装置の新たな台数及び組み合わせに変更し、変更した前記構成情報に基づき、稼動している前記情報処理装置に前記所定の処理を行わせる冗長度変更処理を行う。

構成変更部５７は、前記構成情報が示す前記情報処理装置のうち一部が稼働しなくなったがいまだ前記構成情報が示す前記台数以上の複数の前記情報処理装置が稼動している状態となったことを検知した場合に、前記構成情報における前記組み合わせを、前記稼動しなくなった情報処理装置が除外された、前記情報処理装置の新たな組み合わせに変更し、変更した前記構成情報に基づき、稼動している情報処理装置に前記所定の処理を並列的に行わせる構成変更処理を行う。

一方、復帰部５５は、前記縮退処理が実行された後において、稼動していなかった前記情報処理装置が稼動を開始したことを検知した場合に、稼動している前記情報処理装置の台数及び組み合わせに基づき前記構成情報を変更し、変更した前記構成情報に基づき、稼動している複数の前記情報処理装置に前記所定の処理を並列的に行わせる復帰処理を行う。

前記復帰部は、冗長度回復部５８及び構成回復部５９を備える。

冗長度回復部５８は、前記冗長度変更処理が実行された後において、稼動していなかった前記情報処理装置が稼動を開始したことを検知した場合に、前記構成情報における前記台数及び前記組み合わせを、前記稼動を開始した情報処理装置を含む、前記情報処理装置の新たな台数及び組み合わせに変更し、変更した前記構成情報に基づき、稼動している複数の前記情報処理装置に前記所定の処理を並列的に行わせる冗長度回復処理を行う。

構成回復部５９は、前記構成変更処理が実行された後において、稼動していなかった前記情報処理装置が稼動を開始したことを検知した場合に、前記構成情報における組み合わせを、前記稼動を開始した情報処理装置を含む前記情報処理装置の新たな組み合わせに変更し、変更した前記構成情報に基づき、稼動している前記情報処理装置に前記所定の処理を並列的に行わせる構成回復処理を行う。

なお、前記構成情報は、並列的に行う前記所定の処理を制御する前記情報処理装置であるマスター、及び前記マスターにより処理が制御される前記情報処理装置であるスレーブの組み合わせを含む。
前記構成変更部５７は、前記稼働しなくなった情報処理装置が前記マスターであった場
合には、前記稼動している前記スレーブのいずれかを新たな前記マスターとする変更を前記構成情報に対して行うことにより、前記稼動している情報処理装置に前記所定の処理を並列的に行わせる。

再構成通知部６０は、システム再構成部５３が前記構成情報を変更した旨又はその変更の内容を出力する。

次に、状態遷移処理定義情報生成プログラム２２２は、分散アプリケーションサーバ１０８の稼働状態、及びこれが変化した場合に行われる処理を定義した情報（状態遷移処理定義情報２２４）を生成する。

分散データストア多重度収集プログラム２２３は、分散アプリケーションシステム１０９におけるシステム構成に関する情報を取得し、取得した情報をシステム構成情報２２５（構成情報）として記憶する。
ここで、システム構成情報２２５の一例を説明する。

＜システム構成情報２２５＞
図４は、システム構成情報２２５の例を示す図である。ここでは、前記のケース１におけるシステム構成情報７０１Ａ、及び、前記のケース２におけるシステム構成情報７０１Ｂを示した。

システム構成情報２２５は、分散アプリケーションシステム１０９における多重度の情報７０１１、各データグループを識別する情報７０１２、データグループにおけるマスターのネットワーク上の位置を示す情報７０１３、及び、データグループにおける各スレーブのネットワーク上の位置を示す情報７０１４を含む。

次に、図３に示すように、分散アプリケーション／分散データストアプログラム通信先情報（以下、通信先情報２２６という。）は、分散アプリケーションシステム１０９における本アプリケーション及び本データの構成に関する情報である。
ここで、通信先情報２２６について説明する。

＜通信先情報２２６＞
図５は、通信先情報２２６の一例を示す図である。同図に示すように、通信先情報２２６は、本アプリケーション２２６１及び本データ２２６２のそれぞれを示す識別子（以下、ノード名２２６３という。）、それぞれが記憶されている分散アプリケーションサーバ１０８のＩＰアドレス２２６４、及び、それぞれが記憶されている分散アプリケーションサーバ１０８のポート番号２２６５の各情報を含む。これらの通信先情報２２６は、例えば、分散アプリケーションシステム監視サーバ１０６が、各分散アプリケーションサーバ１０８の分散アプリケーション構成情報３２４、及び分散データストア構成情報３２５にアクセスする際に用いられる。

次に、分散アプリケーションサーバ１０８の構成について説明する。
＜分散アプリケーションサーバ１０８＞
図６は、分散アプリケーションサーバ１０８が備えるハードウェア及び機能を説明する図である。分散アプリケーションサーバ１０８は、ＣＰＵ（Central Processing Unit）
などのプロセッサ３１１と、他の情報処理装置と通信を行う入出力回路インタフェース３１２と、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、ＨＤＤ（Hard
Disk Drive）、ＳＳＤ（Solid State Drive）などの記憶装置３１３と、キーボード、マウス、タッチパネル、モニタ（ディスプレイ）などからなる入出力装置３１４とを備える。

分散アプリケーションサーバ１０８は、記憶装置３１３に、分散アプリケーションプログラム３２１、分散データストアプログラム３２６、構成情報更新プログラム３２２、及びデータレプリケーション支援プログラム３２３の各プログラムを記憶している。また、分散アプリケーションサーバ１０８は、記憶装置３１３に、構成情報に対応するデータである、分散アプリケーション構成情報３２４及び分散データストア構成情報３２５を記憶している。

分散アプリケーションプログラム３２１は、前記の本アプリケーションのプログラムであり、分散アプリケーションサーバ１０８が他の分散アプリケーションサーバ１０８と並列的に又は単独で実行するプログラムである。

分散データストアプログラム３２６は、前記の本データを管理するプログラムである。なお、分散データストアプログラム３２６は、自動レプリケーションプログラムを有する。

構成情報更新プログラム３２２は、分散アプリケーションシステム監視サーバ１０６からの再構成指示に基づき、分散アプリケーション構成情報３２４及び分散データストア構成情報３２５を更新（変更）する。

データレプリケーション支援プログラム３２３は、分散アプリケーションシステム監視サーバ１０６からの指示に基づき、データレプリケーション（データの同期処理）を実行するプログラムである。具体的には、例えば、データレプリケーション支援プログラム３２３は、他の分散アプリケーションサーバ１０８にデータを転送し、又は他の分散アプリケーションサーバ１０８からデータの転送を受けることにより、データの同期を行う。これにより、複数の分散アプリケーションサーバ１０８が、本アプリケーションの処理を並列的に行うことができるようになる。

分散アプリケーション構成情報３２４は、分散アプリケーションプログラム３２１の構成に関する情報である。例えば、並列処理を行う分散アプリケーションサーバ１０８の分散アプリケーションプログラム３２１の組み合わせに関する情報である。

分散データストア構成情報３２５は、分散アプリケーションシステム１０９の稼動状態を判断するための情報を含む。

＜分散データストア構成情報３２５＞
ここで、分散データストア構成情報３２５の具体例を説明する。
図７は、分散データストア構成情報３２５の一例を示す図である。同図に示すように、分散データストア構成情報３２５は、分散アプリケーションサーバ１０８のＩＰアドレス３２５１、分散アプリケーションサーバ１０８のポート番号３２５２、分散アプリケーションサーバ１０８の稼動状態に関するログの情報３２５３、分散アプリケーションサーバ１０８における本アプリケーションをクラスタモードで実行するか否か（本アプリケーションを複数の分散アプリケーションサーバ１０８により並列的に実行するか否か）を示すクラスタモード情報３２５４、及び、タイムアウト時間に関するタイムアウト情報３２５５等を含む。分散データストア構成情報３２５は、分散アプリケーションサーバ１０８ごとに異なる（３２５Ａ、３２５Ｂ、３２５Ｃ、…）。

以上に説明した分散アプリケーションシステム監視サーバ１０６及び分散アプリケーションサーバ１０８のプログラムは、各サーバのハードウェアによって、もしくは、各サーバのプロセッサがこれを読み出すことにより実行される。

また、これらのプログラムは、例えば、二次記憶デバイスや不揮発性半導体メモリ、ハードディスクドライブ、ＳＳＤなどの記憶デバイス、又は、ＩＣカード、ＳＤカード、ＤＶＤなどの、計算機で読み取り可能な非一時的データ記憶媒体に格納される。

＜＜処理＞＞
次に、分散処理管理システム１００が行う処理について説明する。本実施形態の分散処理管理システム１００は、以下に説明するように、ＡＣＴ／ＡＣＴ構成の分散処理システムを維持できなくなった場合であっても、本アプリケーションの処理を続行することができ、また、ＡＣＴ／ＡＣＴ構成の分散処理システムを一時的に解除していた場合にはこれを回復することができる。

図８は、分散処理管理システム１００が行う処理の一例を示すシーケンス図である。また、図９は、分散アプリケーションシステム監視サーバ１０６が行う処理の一例を説明するフローチャートである。以下、これらの図に基づき、分散処理管理システム１００が行う処理（以下、分散処理システム管理処理という。）について説明する。なお、この処理は、例えば、分散処理管理システム１００が起動した際に開始される。

図８に示すように、まず、分散アプリケーションシステム監視サーバ１０６は、状態遷移処理定義情報２２４を生成する（ｓ１００１）。

具体的には、図９に示すように、分散アプリケーションシステム監視サーバ１０６の監視プログラム２２１は、状態遷移処理定義情報２２４が生成されているか否かを確認する（ｓ４０１）。状態遷移処理定義情報２２４が生成されている場合（ｓ４０１：ＹＥＳ）、処理は後述するｓ４０４に進み、状態遷移処理定義情報２２４がいまだ生成されていない場合（ｓ４０１：ＮＯ）、処理はｓ４０２に進む。

ｓ４０２において監視プログラム２２１は、分散データストア多重度収集プログラム２２３を実行させる。すると、分散データストア多重度収集プログラム２２３は、システム構成情報２２５を生成し、これを記憶する。

具体的には、例えば、分散データストア多重度収集プログラム２２３は、各分散アプリケーションサーバ１０８が記憶している情報（例えば、分散アプリケーション構成情報３２４、及び分散データストア構成情報３２５）を取得し、又は、各分散アプリケーションサーバ１０８が送受信するデータの有無を監視することにより、システム構成情報２２５を生成する。

次に、監視プログラム２２１は、ｓ４０２で生成したシステム構成情報２２５に基づき、状態遷移処理定義情報生成プログラム２２２を実行させる（ｓ４０３）。その後は後述するｓ４０４の処理に進む。

次に、図８に示すように、状態遷移処理定義情報２２４の生成後、分散アプリケーションシステム監視サーバ１０６の監視プログラム２２１は、分散アプリケーションシステム１０９における各分散アプリケーションサーバ１０８の稼動状態を監視する（ｓ１００２、ｓ１００３、ｓ１００４）。具体的には、例えば、監視プログラム２２１は、各分散アプリケーションサーバ１０８の分散データストアプログラム３２６から送信される所定のデータを監視し（ｓ１００１）、その所定のデータを検知した場合には、その所定のデータを送信した分散アプリケーションサーバ１０８の構成情報（分散データストア構成情報３２５）の内容を取得する（ｓ１００３、ｓ１００４）。

すなわち、図９に示すように、分散アプリケーションシステム監視サーバ１０６の監視プログラム２２１は、各分散アプリケーションサーバ１０８における分散データストアプログラム３２６の状態（分散データストア構成情報３２５）を監視しており（ｓ４０４）、これにより分散アプリケーションシステム１０９における縮退又は復帰を検知する（ｓ４０５）。

次に、図８に示すように、分散アプリケーションシステム監視サーバ１０６の監視プログラム２２１は、稼動状態の監視の結果、稼動状態が変化したことを検知した場合には、状態遷移処理定義情報２２４を参照することで、分散アプリケーションシステム１０９が遷移すべき状態とその状態に遷移するための処理の内容とを取得する（ｓ１００５）。

すなわち、図９に示すように、分散アプリケーションシステム監視サーバ１０６の監視プログラム２２１は、状態遷移処理定義情報２２４を取得し、取得した状態遷移処理定義情報２２４を、ｓ４０５で監視していた、現在の分散アプリケーションシステム１０９の状態を示す分散データストア構成情報３２５と対比することで、状態遷移処理定義情報２２４における現在の分散アプリケーションシステム１０９の状態の次の状態（以下、次状態という。）と、次状態に遷移するための処理（以下、次処理という。）とを取得する（ｓ４０６）。

そして、図８に示すように、分散アプリケーションシステム監視サーバ１０６の監視プログラム２２１は、次状態があると判断した場合には、次処理の内容を各分散アプリケーションサーバ１０８に指示する（再構成指示を送信する）。例えば、監視プログラム２２１は、データレプリケーション支援プログラムの実行を各分散アプリケーションサーバ１０８に必要に応じて指示し（ｓ１００６、ｓ１００７）、構成情報の変更を各分散アプリケーションサーバ１０８の構成情報更新プログラム３２２に指示し（ｓ１００８、ｓ１００９）、各分散アプリケーションサーバ１０８の分散データストアプログラム３２６に分散アプリケーションサーバ１０８の再起動を指示し（ｓ１０１０）、各分散アプリケーションサーバ１０８の分散アプリケーションプログラム３２１に分散アプリケーションサーバ１０８の再起動を指示する（ｓ１０１１）。一方、次状態がない場合は、監視プログラム２２１は、次状態又は次処理がない旨を出力し、処理は終了する（ｓ１０１４）。

すなわち、図９に示すように、分散アプリケーションシステム監視サーバ１０６の監視プログラム２２１は、次状態があるか否かを判断し（ｓ４０７）、次状態がない場合には（ｓ４０７：ＮＯ）、次状態が存在せず分散アプリケーションシステム１０９の復旧が不可能である旨を出力して（例えば、分散アプリケーションシステム監視サーバ１０６の所定のログファイルや所定の出力装置に出力する）処理を終了する（ｓ４１１、ｓ４１２）。一方、次状態がある場合には（ｓ４０７：ＹＥＳ）、監視プログラム２２１は、各分散アプリケーションサーバ１０８に対して次処理を指示する（ｓ４０８）。

次に、図８に示すように、分散アプリケーションシステム監視サーバ１０６の監視プログラム２２１は、次処理を実行した旨及び次処理の内容を出力する（ｓ１０１２）。その後は、処理はｓ１００２に戻る（ｓ１０１３）。

すなわち、図９に示すように、例えば、分散アプリケーションシステム監視サーバ１０６の監視プログラム２２１は、各分散アプリケーションサーバ１０８に次処理の指示を行った後、次処理を行った旨及び次処理の内容を、所定のログファイルや出力装置に出力する（ｓ４０９）。その後、処理はｓ４０４に戻る。このように、分散アプリケーションシステム監視サーバ１０６は、構成情報を変更した旨又はその変更の内容を出力するので、分散処理管理システム１００の管理者等は、分散処理システムの運用状況を適宜把握することができる。

＜状態遷移処理定義情報生成プログラム２２２＞
ここで、ｓ１００１及びｓ４０３で説明した、状態遷移処理定義情報２２４を生成するための状態遷移処理定義情報生成プログラム２２２について説明する。

図１０は、状態遷移処理定義情報生成プログラム２２２が行う処理の一例を示すフローチャートである。同図に示すように、まず状態遷移処理定義情報生成プログラム２２２は、分散アプリケーションシステム１０９の初期状態を登録する（ｓ５０１）。具体的には、例えば、状態遷移処理定義情報生成プログラム２２２は、初期状態として、分散アプリケーションシステム１０９における現在の分散アプリケーションサーバ１０８の台数、分散アプリケーションシステム１０９における現在の多重度、及び分散アプリケーションシステム１０９における分散アプリケーションサーバ１０８の現在の組み合わせを初期状態として状態遷移処理定義情報２２４に記憶する。なお、状態遷移処理定義情報生成プログラム２２２は、この初期状態を処理中の状態として記憶する。

次に、状態遷移処理定義情報生成プログラム２２２は、分散アプリケーションシステム１０９において、１台の分散アプリケーションサーバ１０８が稼動しなくなった場合（すなわち、１台縮退した場合）、稼働している分散アプリケーションサーバ１０８の台数が多重度の過半数以上（必要台数以上）であるか否かを判定する（ｓ５０２）。

稼働している分散アプリケーションサーバ１０８の台数が多重度の過半数以上（必要台数以上）である場合には（ｓ５０２：ＹＥＳ）、状態遷移処理定義情報生成プログラム２２２は、前記縮退した状態を状態遷移定義状態情報に追加する（ｓ５０３）。なお、状態遷移処理定義情報生成プログラム２２２は、前記縮退した状態を処理中の状態として記憶する。その後はｓ５０２の処理が繰り返される。

一方、稼働している分散アプリケーションサーバ１０８の台数が多重度の過半数未満（必要台数未満）である場合には（ｓ５０２：ＮＯ）、状態遷移処理定義情報生成プログラム２２２は、稼働している（本アプリケーションを実行可能な）分散アプリケーションサーバ１０８があることを確認する（ｓ５０４）。

稼働している分散アプリケーションサーバ１０８がある場合は（ｓ５０４：ＹＥＳ）、状態遷移処理定義情報生成プログラム２２２は、分散データストア構成情報３２５を更新する処理（縮退のための更新）を状態遷移処理定義情報２２４に追加すると共に、その処理を行った後の分散アプリケーションシステム１０９の状態を処理中の状態として記憶する（ｓ５０５）。なお、その後はｓ５０２の処理が繰り返される。

具体的には、例えば、稼動している分散アプリケーションサーバ１０８が１台の場合、状態遷移処理定義情報生成プログラム２２２は、分散データストア構成情報３２５を、稼動している１台の分散アプリケーションサーバ１０８が単独で本アプリケーションを実行する構成の情報に変更すると共に、分散アプリケーションシステム１０９の多重度を１に変更する処理（冗長度変更処理）を行うことを示す情報を生成し、生成した情報を、状態遷移処理定義情報２２４に追加する。

また、例えば、状態遷移処理定義情報生成プログラム２２２は、稼働している分散アプリケーションサーバ１０８の台数が２台以上の場合には、分散データストア構成情報３２５を、それらの分散アプリケーションサーバ１０８が本アプリケーションの処理を並列的に行う構成に変更する処理（構成変更処理）を示す情報を生成し、生成した情報を状態遷移処理定義情報２２４に追加する。なお、この場合、状態遷移処理定義情報生成プログラム２２２は、稼動しなくなった分散アプリケーションサーバ１０８がマスターである場合
には、稼動しているスレーブの分散アプリケーションサーバ１０８に記憶されているデータを、他の分散アプリケーションサーバ１０８に転送すると共にその転送先の分散アプリケーションサーバ１０８をマスターとする処理の情報を生成し、生成した情報を状態遷移処理定義情報２２４に追加してもよい。

一方、稼働している（本アプリケーションを実行可能な）分散アプリケーションサーバ１０８が存在しない場合は（ｓ５０４：ＮＯ）、状態遷移処理定義情報生成プログラム２２２は、これまでに状態遷移処理定義情報２２４に追加した全ての状態（初期状態を除く）のうち、稼動していなかった１台以上の分散アプリケーションサーバ１０８が稼動を開始したことにより複数の分散アプリケーションサーバ１０８が並列的にアプリケーション処理を行う状態に変化させる処理（復帰処理）が追加されていない状態（以下、復帰可能状態という。）があるか否かを判定する（ｓ５０６）。

復帰処理が全て追加されている場合には（ｓ５０６：ＹＥＳ）、処理は終了するが（ｓ５１０）、復帰処理が追加されていない状態がある場合には（ｓ５０６：ＮＯ）、状態遷移処理定義情報生成プログラム２２２は、復帰可能状態の一つを選択した上で、分散アプリケーションサーバ１０８における自動レプリケーションプログラムによって復帰可能状態からの復帰処理が可能であるか否かを判定する（ｓ５０７）。

自動レプリケーションプログラムによって復帰処理が可能である場合は（ｓ５０７：ＹＥＳ）、状態遷移処理定義情報生成プログラム２２２は、復帰処理としての自動レプリケーションプログラムの実行を示す情報を、状態遷移処理定義情報に追加する（ｓ５０８）。その後はｓ５０６の処理が繰り返される。

一方、自動レプリケーションプログラムによる復帰処理が可能でない場合は（ｓ５０７：ＮＯ）、状態遷移処理定義情報生成プログラム２２２は、自動レプリケーションプログラムによらない復帰処理を状態遷移処理定義情報２２４に追加すると共に、その復帰処理を行った後の分散アプリケーションシステム１０９の状態を処理中の状態として記憶する（ｓ５０８）。その後はｓ５０６の処理が繰り返される。

具体的には、例えば、状態遷移処理定義情報生成プログラム２２２は、冗長度変更処理が実行された状態から１台又は２台以上の分散アプリケーションサーバ１０８が稼動を開始することにより分散アプリケーションシステム１０９において稼動している分散アプリケーションサーバ１０８の台数が多重度の過半数以上（必要台数以上）となる場合の復帰処理として、分散アプリケーションシステム１０９の構成を、稼動を開始した分散アプリケーションサーバ１０８を含む複数の分散アプリケーションサーバ１０８が本アプリケーションを実行する構成に変更すると共に、分散アプリケーションシステム１０９の多重度を冗長度変更処理の実行前の多重度に戻す処理（冗長度回復処理）を示す情報を生成し、生成した情報を、状態遷移処理定義情報２２４に追加する。

また、例えば、状態遷移処理定義情報生成プログラム２２２は、構成変更処理が実行された状態から１台の分散アプリケーションサーバ１０８が稼動を開始する場合の復帰処理として、分散アプリケーションシステム１０９の構成を、稼動を開始した分散アプリケーションサーバ１０８を加えた複数の分散アプリケーションサーバ１０８が本アプリケーションを並列的に実行する構成に変更する処理（構成回復処理）を示す情報を生成し、生成した情報を、状態遷移処理定義情報２２４に追加する。

＜状態遷移処理定義情報２２４＞
ここで、状態遷移処理定義情報生成プログラム２２２により生成される状態遷移処理定義情報２２４の具体例を説明する。

（ケース１の状態遷移処理定義情報２２４）
図１１は、ケース１における状態遷移処理定義情報２２４の一例を説明するフローチャートである。同図に示すように、分散アプリケーションシステム１０９を構成する３台の分散アプリケーションサーバ１０８のうち３台の分散アプリケーションサーバ１０８が稼動している状態（ｓ６０１）から、１台の分散アプリケーションサーバ１０８が稼動しなくなったことにより２台の分散アプリケーションサーバ１０８が稼動している状態（ｓ６０２）に遷移した場合（すなわち、１台の縮退が発生した場合）において、稼動していなかった１台の分散アプリケーションサーバ１０８が稼動を開始した場合（復帰した場合）、分散アプリケーションシステム１０９の状態は、自動データレプリケーションプログラムによってｓ６０１の状態に遷移する（戻る）。

これに対して、ｓ６０２の状態から、稼動していた２台の分散アプリケーションサーバ１０８のうち１台の分散アプリケーションサーバ１０８がさらに稼動しなくなった状態（ｓ６０３）に遷移した場合、分散アプリケーションシステム１０９から、稼動していない２台の分散アプリケーションサーバ１０８が除外され（切り離され）、その分散アプリケーションシステム１０９において稼動している１台の分散アプリケーションサーバ１０８が、単独で本アプリケーションの処理を行う（ｓ６０７、ｓ６０８、ｓ６０５）。具体的には、例えば、分散アプリケーション構成情報３２４及び分散データストア構成情報３２５が、分散アプリケーションシステム監視サーバ１０６からの再構成指示により、稼動している１台の分散アプリケーションサーバ１０８が単独で（多重度１で）アプリケーション処理を行う構成の情報に更新され（ｓ６０７）、分散アプリケーションシステム１０９が再起動される（ｓ６０８）。これにより、分散アプリケーションシステム１０９の状態は、１台の分散アプリケーションサーバ１０８が本アプリケーションの処理を実行する状態となる（ｓ６０５）。

ｓ６０５において、稼動していなかった分散アプリケーションサーバ１０８のうち少なくとも１台以上が稼動を開始することにより、分散アプリケーションシステム１０９の状態が、複数の分散アプリケーションサーバ１０８が稼動している状態に遷移した場合には、稼動を開始した分散アプリケーションサーバ１０８が分散アプリケーションシステム１０９に組み込まれ、その分散アプリケーションシステム１０９における複数の分散アプリケーションサーバ１０８が、本アプリケーションの処理を並列的に行う（ｓ６１１、ｓ６１０、ｓ６０９）。具体的には、例えば、まず、データレプリケーション支援プログラムが実行されることにより、既に稼動している分散アプリケーションサーバ１０８のデータが、稼動を開始した分散アプリケーションサーバ１０８に転送され、稼動している分散アプリケーションサーバ１０８のデータが同期する（ｓ６１１）。そして、分散アプリケーション構成情報３２４及び分散データストア構成情報３２５が、分散アプリケーションシステム監視サーバ１０６からの再構成指示により、既に稼働している分散アプリケーションサーバ１０８及び稼動を開始した分散アプリケーションサーバ１０８が本アプリケーションの処理を並列的に（多重度３で）行う構成の情報に更新され（ｓ６１０）、分散アプリケーションシステム１０９が再起動される（ｓ６０９）。これにより、分散アプリケーションシステム１０９の状態は、多重度の過半数の台数以上（２台又は３台）の分散アプリケーションサーバ１０８が本アプリケーションの処理を並列的に実行する状態となる（ｓ６０１、ｓ６０２）。なお、ｓ６１１においてデータレプリケーション支援プログラムは、必要に応じて、後述するようなマスターとスレーブの再構成を行うようにしてもよい。

ｓ６０３又はｓ６０７の状態から、分散アプリケーションシステム１０９における全ての分散アプリケーションサーバ１０８が稼動していない状態になると、分散アプリケーションシステム１０９における全ての分散アプリケーションサーバ１０８が本アプリケーシ
ョンの処理を停止する（ｓ６０４）。

また、ｓ６０８又はｓ６０５の状態から、分散アプリケーションシステム１０９における全ての分散アプリケーションサーバ１０８が稼動していない状態になると、分散アプリケーションシステム１０９における全ての分散アプリケーションサーバ１０８が本アプリケーションの処理を停止する（ｓ６０６）。

なお、図１２は、ケース１における状態遷移処理定義情報２２４のデータ構造の一例を示す図である。同図に示すように、この状態遷移処理定義情報２２４は、分散アプリケーションシステム１０９の状態（稼働中の分散アプリケーションサーバ１０８の台数及び分散アプリケーションシステム１０９の多重度）を示す状態特定部６２１１、現在状態部６２１１が示す状態から他の状態への遷移の内容（例えば、分散アプリケーションサーバ１０８が１台縮退すること）を示すトリガー部６２１２、トリガー部６２１２が示す遷移の結果達した分散アプリケーションシステム１０９の状態を示す次状態部６２１３、及び、次状態部６２１３が示す状態に遷移する場合に行われる処理を示す次処理部６２１４の各項目を有する情報の集合体６２１５を、少なくとも１つ以上有している。

次に、ケース２の状態遷移処理定義情報２２４の例を説明する。
（ケース２の状態遷移処理定義情報２２４）
図１３は、ケース２における状態遷移処理定義情報２２４の一例を説明するフローチャートである。同図に示すように、分散アプリケーションシステム１０９を構成する３台の分散アプリケーションサーバ１０８のうち３台の分散アプリケーションサーバ１０８が稼動している状態（ｓ６３１）から、１台の分散アプリケーションサーバ１０８が稼動しなくなったことにより２台の分散アプリケーションサーバ１０８が稼動している状態（ｓ６３２）に遷移した場合（すなわち、１台の縮退が発生した場合）、稼動しなくなった１台の分散アプリケーションサーバ１０８が分散アプリケーションシステム１０９から除外され（切り離され）、その分散アプリケーションシステム１０９において稼動している２台の分散アプリケーションサーバ１０８が、本アプリケーションの処理を並列的に行う（ｓ６３７、ｓ６３８、ｓ６３９、ｓ６３４）。具体的には、例えば、分散アプリケーションシステム監視サーバ１０６からの再構成指示により、データレプリケーション支援プログラム３２３が実行され、稼動している分散アプリケーションサーバ１０８のデータが同期する（ｓ６３７）。また、分散アプリケーション構成情報３２４及び分散データストア構成情報３２５が、分散アプリケーションシステム監視サーバ１０６からの再構成指示により、稼動しなくなった分散アプリケーションサーバ１０８が切り離された分散アプリケーションシステム１０９における分散アプリケーションサーバ１０８が本アプリケーションの処理を並列的に行う構成の情報に更新され（ｓ６３８）、分散アプリケーションシステム１０９が再起動される（ｓ６３９）。これにより、２台の分散アプリケーションサーバ１０８が、本アプリケーションの処理を並列的に実行する状態となる（ｓ６３４）。

なお、ｓ６３２において稼動しなくなった分散アプリケーションサーバ１０８がマスターであった場合には、稼動している２台の分散アプリケーションサーバ１０８がいずれもスレーブとなり同期処理が正常に行えなくなるので、例えば、ｓ６３７においてデータレプリケーション支援プログラムが、稼動している２台のスレーブのうちいずれかをマスターとし、これらの２台の間でデータの同期処理を行う再構成が行われてもよい（図２の状態２０１及び状態２０２を参照）。

ｓ６３４において、分散アプリケーションサーバ１０８のうち１台が稼動を開始することにより、分散アプリケーションシステム１０９の状態が、３台の分散アプリケーションサーバ１０８が稼動している状態に遷移した場合には、稼動を開始した分散アプリケーションサーバ１０８が分散アプリケーションシステム１０９に組み込まれ、その分散アプリ
ケーションシステム１０９における３台の分散アプリケーションサーバ１０８が、本アプリケーションの処理を並列的に行う（ｓ６４１、ｓ６４２、ｓ６３１）。具体的には、例えば、まず、分散アプリケーションシステム監視サーバ１０６からの再構成指示によりデータレプリケーション支援プログラムが実行されることにより、既に稼動している分散アプリケーションサーバ１０８のデータが、稼動を開始した分散アプリケーションサーバ１０８に転送され、これらの分散アプリケーションサーバ１０８の間でデータが同期される（ｓ６４０）。そして、分散アプリケーションシステム監視サーバ１０６からの再構成指示により、分散アプリケーション構成情報３２４及び分散データストア構成情報３２５が、既に稼働している分散アプリケーションサーバ１０８及び稼動を開始した分散アプリケーションサーバ１０８が本アプリケーションの処理を並列的に行う構成の情報に更新され（ｓ６４１）、分散アプリケーションシステム１０９が再起動される（ｓ６４２）。これにより、分散アプリケーションシステム１０９の状態は、３台の分散アプリケーションサーバ１０８が本アプリケーションの処理を並列的に実行する状態となる（ｓ６３１）。

なお、ｓ６４０においてデータレプリケーションが行われる場合、稼動を開始した分散アプリケーションサーバ１０８をマスターとし、その他の稼動している分散アプリケーションサーバ１０８をスレーブとする再構成が行われてもよい。

ｓ６３２、ｓ６３７、又はｓ６３８の状態において、稼動していた分散アプリケーションシステム１０９が１台稼動しなくなった場合（すなわち、１台縮退した場合）、分散アプリケーションシステム１０９は、稼動している１台の分散アプリケーションサーバ１０８が、単独で本アプリケーションの処理を行う状態になる（ｓ６３３）。

ｓ６３９又はｓ６３４の状態において、稼動していた分散アプリケーションサーバ１０８の１台が稼動しなくなった状態（ｓ６３５）になった場合（すなわち、１台縮退した場合）、分散アプリケーションシステム１０９の状態は、自動レプリケーションプログラムによりｓ６３４の状態に遷移する（戻る）。

これに対して、ｓ６３５の状態から、稼動していた１台の分散アプリケーションサーバ１０８のうちさらに１台が稼動しなくなった状態（ｓ６３６）に遷移した場合、分散アプリケーションシステム１０９における全ての分散アプリケーションサーバ１０８は本アプリケーションの処理を停止する（ｓ６３６）。

以上のように、本実施形態の分散処理管理システム１００は、分散処理システム（分散アプリケーションシステム１０９）を構成する情報処理装置（分散アプリケーションサーバ１０８）の台数及び組み合わせに関する構成情報（システム構成情報２２５）を記憶し、情報処理装置の稼働状態の変化を検知した場合に、稼動している情報処理装置の台数及び組み合わせに基づき構成情報を変更し、稼動している少なくとも１台以上の情報処理装置に所定の処理（本アプリケーションの処理）を単独で又は並列的に行わせるので、分散アプリケーションサーバ１０８の稼動状態が変化して一部の分散アプリケーションサーバ１０８が稼動しなくなったり稼動を開始した場合であっても、本アプリケーションの処理を引き続き並列的に又は単独で行うことができる。このように、本実施形態の分散処理管理システム１００によれば、分散アプリケーションシステム１０９の構成及び冗長度を分散アプリケーションサーバ１０８の稼動状態に応じて変更することにより、分散アプリケーションシステム１０９における冗長性を確保しつつもその安定的な運用を行うことができる。

また、本実施形態の分散処理管理システム１００は、稼動していた情報処理装置（分散アプリケーションシステム１０９）のうち一部の情報処理装置が稼動しなくなった場合に、稼動している情報処理装置の台数及び組み合わせに基づき構成情報（システム構成情報
２２５）を変更し、稼動している情報処理装置に所定の処理（本アプリケーションの処理）を単独で又は並列的に行わせるので、分散アプリケーションシステム１０９のうち一部が稼動しなくなっても、分散アプリケーションシステム１０９における構成を変更することにより、本アプリケーションの処理を確実に続行させることができる。

また、本実施形態の分散処理管理システム１００は、縮退処理が実行された後において、稼動していなかった情報処理装置（分散アプリケーションサーバ１０８）が稼動を開始した場合に、稼動している情報処理装置の台数及び組み合わせに基づき構成情報（システム構成情報２２５）を変更し、稼動している複数の情報処理装置に所定の処理（本アプリケーションの処理）を並列的に行わせるので、縮退処理により冗長度が一時的に減少しても、稼動していなかった分散アプリケーションサーバ１０８が稼働を再開した場合には、本アプリケーションの並列処理を再開して冗長度を回復させることができる。

そして、本実施形態の分散処理管理システム１００は、構成情報（システム構成情報２２５）が示す情報処理装置（分散アプリケーションサーバ１０８）のうち一部の情報処理装置が稼働しなくなったことにより構成情報が示す台数未満の情報処理装置が稼動している状態となった場合に、構成情報における台数及び組み合わせを、稼動しなくなった情報処理装置が除外された、稼動している情報処理装置の新たな台数及び組み合わせに変更し、稼動している情報処理装置に所定の処理（本アプリケーションの処理）を行わせるので（冗長度変更処理）、稼動しなくなった分散アプリケーションサーバ１０８を分散アプリケーションシステム１０９から一時的に切り離し、それ以外の分散アプリケーションサーバ１０８を用いて本アプリケーションの処理を確実に行うことができる。

また、例えば、本実施形態の分散処理管理システム１００は、冗長度変更処理が実行された後において、稼動していなかった情報処理装置（分散アプリケーションサーバ１０８）が稼動を開始した場合に、構成情報（システム構成情報２２５）における台数及び組み合わせを、稼動を開始した情報処理装置を含む新たな台数及び組み合わせに変更し、稼動している複数の情報処理装置に所定の処理（本アプリケーションの処理）を並列的に行わせるので（冗長度回復処理）、冗長度変更処理により分散アプリケーションシステム１０９から切り離されていた分散アプリケーションサーバ１０８を再び分散アプリケーションシステム１０９に組み込むことにより、本アプリケーションの並列処理を確実に再開させることができる。

また、例えば、本実施形態の分散処理管理システム１００は、構成情報（システム構成情報２２５）が示す情報処理装置（分散アプリケーションサーバ１０８）のうち一部が稼働しなくなったがいまだ構成情報が示す必要台数以上の複数の情報処理装置が稼動している状態となった場合に、構成情報における組み合わせを、稼動しなくなった情報処理装置を除外した新たな組み合わせに変更し、稼動している情報処理装置に所定の処理（本アプリケーションの処理）を並列的に行わせるので（構成変更処理）、情報処理装置（分散アプリケーションサーバ１０８）の一部が稼働しなくなった場合でも、分散アプリケーションシステム１０９における、稼動している分散アプリケーションサーバ１０８により、本アプリケーションの並列処理を続行することができる。

また、本実施形態の分散処理管理システム１００は、構成変更処理が実行された後において、稼動していなかった情報処理装置（分散アプリケーションサーバ１０８）が稼動を開始した場合に、構成情報（システム構成情報２２５）における組み合わせを、稼動を開始した情報処理装置を含む情報処理装置の新たな組み合わせに変更し、稼動している情報処理装置に所定の処理（本アプリケーションの処理）を並列的に行わせるので（構成回復処理）、分散アプリケーションサーバ１０８の一部が稼動しなくなっても、分散アプリケーションシステム１０９の構成を構成変更処理の実行前に戻した状態で、本アプリケーシ
ョンの並列処理を行うことができる。

さらに、本実施形態の分散処理管理システム１００では、構成情報（システム構成情報２２５）は、マスター、及びスレーブの組み合わせを含んでおり、分散処理管理システム１００は、稼働しなくなった情報処理装置（分散アプリケーションサーバ１０８）がマスターであった場合には、稼動しているスレーブのいずれかを新たなマスターとする変更を構成情報に対して行うことにより、稼動している情報処理装置に本アプリケーションの処理を並列的に行わせるので、分散アプリケーションシステム１０９における本アプリケーションの並列処理における同期性を確保することができる。

以上からわかるように、分散処理管理システム１００は、分散アプリケーションシステム１０９が所定の必要台数の情報処理装置（分散アプリケーションサーバ１０８）を必要とするＡＣＴ／ＡＣＴ構成の分散処理システムを想定した場合、その一部の情報処理装置が稼働しなくなって必要台数を下回っても、ＡＣＴ／ＡＣＴ構成を一時的に変更した新たな分散アプリケーションシステム１０９の構成及び台数にて、本アプリケーションの処理を続行することができる。そして、稼動していなかった分散アプリケーションサーバ１０８が稼動を開始した場合には再びＡＣＴ／ＡＣＴ構成を回復することができる。他方、一部の分散アプリケーションサーバ１０８が稼働しなくなってもその台数が必要台数を下回らないときは、ＡＣＴ／ＡＣＴ構成の分散処理システムの固有の機能（例えば、自動レプリケーションプログラム）により、分散アプリケーションシステム１０９は本アプリケーションの処理を続行することができる。このように、本実施形態の分散処理管理システム１００によれば、ＡＣＴ／ＡＣＴ構成の分散処理システムにおける分散アプリケーションサーバ１０８の必要台数（例えば、過半数以上の台数）に関わらず、常に安定的かつ柔軟な分散処理システムの運用が可能となる。そしてこれにより、分散アプリケーションシステム１０９の構成変更におけるダウンタイム（処理時間）を大きく低減させることができる。また、分散アプリケーションシステム１０９における処理の同期性を確保し、処理の一貫性を損ねる虞のあるスプリットブレイン（Split brain）の発生も回避することがで
きる。

以上の実施形態の説明は、本発明の理解を容易にするためのものであり、本発明を限定するものではない。本発明はその趣旨を逸脱することなく、変更、改良され得ると共に本発明にはその等価物が含まれる。

１００分散処理管理システム、１０６分散アプリケーションシステム監視サーバ、１０８分散アプリケーションサーバ、１０９分散アプリケーションシステム、５１構成情報記憶部、５２状態監視部、５３システム再構成部

Claims

相互に通信可能に接続された、プロセッサ及びメモリを備える複数の情報処理装置を含んで構成され、前記情報処理装置が所定の処理を他の前記情報処理装置と並列的に行う並列処理が可能な分散処理システムであって、
前記分散処理システムを構成する前記情報処理装置の台数及び前記情報処理装置の組み合わせに関する情報である構成情報を記憶する構成情報記憶部と、
前記情報処理装置のそれぞれの稼働状態を監視する状態監視部と、
前記情報処理装置の稼働状態の変化を検知した場合に、稼動している前記情報処理装置の台数及び組み合わせに基づき前記構成情報を変更し、変更した前記構成情報に基づき、前記稼動している少なくとも１台以上の前記情報処理装置に前記所定の処理を単独で又は並列的に行わせるシステム再構成部と、
を備え、
前記システム再構成部は、稼動していた前記情報処理装置のうち一部の前記情報処理装置が稼動しなくなったことを検知した場合に、稼動している前記情報処理装置の台数及び組み合わせに基づき前記構成情報を変更し、変更した前記構成情報に基づき、前記稼動している情報処理装置に前記所定の処理を単独で又は並列的に行わせる縮退処理を行う縮退部を備え、
前記縮退部は、前記構成情報が示す前記情報処理装置のうち一部の前記情報処理装置が稼働しなくなったことにより前記構成情報が示す台数未満の前記情報処理装置が稼動している状態となったことを検知した場合に、前記構成情報における前記台数及び前記組み合わせを、前記稼動しなくなった前記情報処理装置が除外された、稼動している前記情報処理装置の新たな台数及び組み合わせに変更し、変更した前記構成情報に基づき、稼動している前記情報処理装置に前記所定の処理を行わせる冗長度変更処理を行う冗長度変更部を備える、分散処理システム。
前記システム再構成部は、前記縮退処理が実行された後において、稼動していなかった前記情報処理装置が稼動を開始したことを検知した場合に、稼動している前記情報処理装置の台数及び組み合わせに基づき前記構成情報を変更し、変更した前記構成情報に基づき、稼動している複数の前記情報処理装置に前記所定の処理を並列的に行わせる復帰処理を行う復帰部を備える、請求項１に記載の分散処理システム。
前記復帰部は、前記冗長度変更処理が実行された後において、稼動していなかった前記情報処理装置が稼動を開始したことを検知した場合に、前記構成情報における前記台数及び前記組み合わせを、前記稼動を開始した情報処理装置を含む、前記情報処理装置の新たな台数及び組み合わせに変更し、変更した前記構成情報に基づき、稼動している複数の前記情報処理装置に前記所定の処理を並列的に行わせる冗長度回復処理を行う冗長度回復部を備える、請求項２に記載の分散処理システム。
前記縮退部は、前記構成情報が示す前記情報処理装置のうち一部が稼働しなくなったがいまだ前記構成情報が示す前記台数以上の複数の前記情報処理装置が稼動している状態となったことを検知した場合に、前記構成情報における前記組み合わせを、前記稼動しなくなった情報処理装置が除外された、前記情報処理装置の新たな組み合わせに変更し、変更した前記構成情報に基づき、稼動している情報処理装置に前記所定の処理を並列的に行わせる構成変更処理を行う構成変更部を備える、請求項１に記載の分散処理システム。
前記システム再構成部は、前記縮退処理が実行された後において、稼動していなかった前記情報処理装置が稼動を開始したことを検知した場合に、稼動している前記情報処理装置の台数及び組み合わせに基づき前記構成情報を変更し、変更した前記構成情報に基づき、稼動している複数の前記情報処理装置に前記所定の処理を並列的に行わせる復帰処理を行う復帰部を備え、
前記復帰部は、前記構成変更処理が実行された後において、稼動していなかった前記情報処理装置が稼動を開始したことを検知した場合に、前記構成情報における組み合わせを、前記稼動を開始した情報処理装置を含む前記情報処理装置の新たな組み合わせに変更し、変更した前記構成情報に基づき、稼動している前記情報処理装置に前記所定の処理を並列的に行わせる構成回復処理を行う構成回復部を備える、請求項４に記載の分散処理システム。
前記構成情報は、並列的に行う前記所定の処理を制御する前記情報処理装置であるマスター、及び前記マスターにより処理が制御される前記情報処理装置であるスレーブの組み合わせを含み、
前記構成変更部は、前記稼働しなくなった情報処理装置が前記マスターであった場合には、前記稼動している前記スレーブのいずれかを新たな前記マスターとする変更を前記構成情報に対して行うことにより、前記稼動している情報処理装置に前記所定の処理を並列的に行わせる、請求項４に記載の分散処理システム。
前記構成情報を変更した旨又はその変更の内容を出力する再構成通知部を備える、請求項１に記載の分散処理システム。
前記構成情報を変更した旨又はその変更の内容を出力する再構成通知部をさらに備え、
前記システム再構成部は、前記縮退処理が実行された後において、稼動していなかった前記情報処理装置が稼動を開始したことを検知した場合に、稼動している前記情報処理装置の台数及び組み合わせに基づき前記構成情報を変更し、変更した前記構成情報に基づき、稼動している複数の前記情報処理装置に前記所定の処理を並列的に行わせる復帰処理を行う復帰部を備え、
前記復帰部は、前記冗長度変更処理が実行された後において、稼動していなかった前記情報処理装置が稼動を開始したことを検知した場合に、前記構成情報における前記台数及び前記組み合わせを、前記稼動を開始した情報処理装置を含む、前記情報処理装置の新たな台数及び組み合わせに変更し、変更した前記構成情報に基づき、稼動している複数の前記情報処理装置に前記所定の処理を並列的に行わせる冗長度回復処理を行う冗長度回復部を備え、
前記縮退部は、前記構成情報が示す前記情報処理装置のうち一部が稼働しなくなったがいまだ前記構成情報が示す前記台数以上の複数の前記情報処理装置が稼動している状態となったことを検知した場合に、前記構成情報における前記組み合わせを、前記稼動しなくなった情報処理装置が除外された、前記情報処理装置の新たな組み合わせに変更し、変更した前記構成情報に基づき、稼動している情報処理装置に前記所定の処理を並列的に行わせる構成変更処理を行う構成変更部を備え、
前記復帰部は、前記構成変更処理が実行された後において、稼動していなかった前記情報処理装置が稼動を開始したことを検知した場合に、前記構成情報における組み合わせを、前記稼動を開始した情報処理装置を含む前記情報処理装置の新たな組み合わせに変更し、変更した前記構成情報に基づき、稼動している前記情報処理装置に前記所定の処理を並列的に行わせる構成回復処理を行う構成回復部を備え、
前記構成情報は、並列的に行う前記所定の処理を制御する前記情報処理装置であるマスター、及び前記マスターにより処理が制御される前記情報処理装置であるスレーブの組み合わせを含み、
前記構成変更部は、前記稼働しなくなった情報処理装置が前記マスターであった場合には、前記稼動している前記スレーブのいずれかを新たな前記マスターとする変更を前記構成情報に対して行うことにより、前記稼動している情報処理装置に前記所定の処理を並列的に行わせる、
請求項１に記載の分散処理システム。
相互に通信可能に接続された、プロセッサ及びメモリを備える複数の情報処理装置を含んで構成され、前記情報処理装置が所定の処理を他の前記情報処理装置と並列的に行う並列処理が可能な分散処理システムにおける分散処理システムの管理方法であって、
プロセッサ及びメモリを備える情報処理装置が、
前記分散処理システムを構成する前記情報処理装置の台数及び前記情報処理装置の組み合わせに関する情報である構成情報を記憶する構成情報記憶処理と、
前記情報処理装置のそれぞれの稼働状態を監視する状態監視処理と、
前記情報処理装置の稼働状態の変化を検知した場合に、稼動している前記情報処理装置の台数及び組み合わせに基づき前記構成情報を変更し、変更した前記構成情報に基づき、前記稼動している少なくとも１台以上の前記情報処理装置に前記所定の処理を単独で又は並列的に行わせるシステム再構成処理と、
を実行し、
前記システム再構成処理は、稼動していた前記情報処理装置のうち一部の前記情報処理装置が稼動しなくなったことを検知した場合に、稼動している前記情報処理装置の台数及び組み合わせに基づき前記構成情報を変更し、変更した前記構成情報に基づき、前記稼動している情報処理装置に前記所定の処理を単独で又は並列的に行わせる縮退処理を含み、
前記縮退処理は、前記構成情報が示す前記情報処理装置のうち一部の前記情報処理装置が稼働しなくなったことにより前記構成情報が示す台数未満の前記情報処理装置が稼動している状態となったことを検知した場合に、前記構成情報における前記台数及び前記組み合わせを、前記稼動しなくなった前記情報処理装置が除外された、稼動している前記情報処理装置の新たな台数及び組み合わせに変更し、変更した前記構成情報に基づき、稼動している前記情報処理装置に前記所定の処理を行わせる冗長度変更処理を含む、
分散処理システムの管理方法。
前記システム再構成処理は、前記縮退処理が実行された後において、稼動していなかった前記情報処理装置が稼動を開始したことを検知した場合に、稼動している前記情報処理装置の台数及び組み合わせに基づき前記構成情報を変更し、変更した前記構成情報に基づき、稼動している複数の前記情報処理装置に前記所定の処理を並列的に行わせる復帰処理を含む、請求項９に記載の分散処理システムの管理方法。
前記復帰処理は、前記冗長度変更処理が実行された後において、稼動していなかった前記情報処理装置が稼動を開始したことを検知した場合に、前記構成情報における前記台数及び前記組み合わせを、前記稼動を開始した情報処理装置を含む、前記情報処理装置の新たな台数及び組み合わせに変更し、変更した前記構成情報に基づき、稼動している複数の前記情報処理装置に前記所定の処理を並列的に行わせる冗長度回復処理を含む、請求項１０に記載の分散処理システムの管理方法。
相互に通信可能に接続された、プロセッサ及びメモリを備える複数の情報処理装置を含んで構成され、前記情報処理装置が所定の処理を他の前記情報処理装置と並列的に行う並列処理が可能な分散処理システムの管理を行う分散処理システム管理プログラムであって、
前記分散処理システムに、
前記分散処理システムを構成する前記情報処理装置の台数及び前記情報処理装置の組み合わせに関する情報である構成情報を記憶する構成情報記憶処理と、
前記情報処理装置のそれぞれの稼働状態を監視する状態監視処理と、
前記情報処理装置の稼働状態の変化を検知した場合に、稼動している前記情報処理装置の台数及び組み合わせに基づき前記構成情報を変更し、変更した前記構成情報に基づき、前記稼動している少なくとも１台以上の前記情報処理装置に前記所定の処理を単独で又は並列的に行わせるシステム再構成処理と、
を実行させ、
前記システム再構成処理は、稼動していた前記情報処理装置のうち一部の前記情報処理装置が稼動しなくなったことを検知した場合に、稼動している前記情報処理装置の台数及び組み合わせに基づき前記構成情報を変更し、変更した前記構成情報に基づき、前記稼動している情報処理装置に前記所定の処理を単独で又は並列的に行わせる縮退処理を行い、
前記縮退処理は、前記構成情報が示す前記情報処理装置のうち一部の前記情報処理装置が稼働しなくなったことにより前記構成情報が示す台数未満の前記情報処理装置が稼動している状態となったことを検知した場合に、前記構成情報における前記台数及び前記組み合わせを、前記稼動しなくなった前記情報処理装置が除外された、稼動している前記情報処理装置の新たな台数及び組み合わせに変更し、変更した前記構成情報に基づき、稼動している前記情報処理装置に前記所定の処理を行わせる冗長度変更処理を含む、
分散処理システム管理プログラム。
前記システム再構成処理は、前記縮退処理が実行された後において、稼動していなかった前記情報処理装置が稼動を開始したことを検知した場合に、稼動している前記情報処理装置の台数及び組み合わせに基づき前記構成情報を変更し、変更した前記構成情報に基づき、稼動している複数の前記情報処理装置に前記所定の処理を並列的に行わせる復帰処理を含む、請求項１２に記載の分散処理システム管理プログラム。
前記復帰処理は、前記冗長度変更処理が実行された後において、稼動していなかった前記情報処理装置が稼動を開始したことを検知した場合に、前記構成情報における前記台数及び前記組み合わせを、前記稼動を開始した情報処理装置を含む、前記情報処理装置の新たな台数及び組み合わせに変更し、変更した前記構成情報に基づき、稼動している複数の前記情報処理装置に前記所定の処理を並列的に行わせる冗長度回復処理を含む、請求項１３に記載の分散処理システム管理プログラム。