JP2019032709A - 分散システム - Google Patents

分散システム Download PDF

Info

Publication number
JP2019032709A
JP2019032709A JP2017153432A JP2017153432A JP2019032709A JP 2019032709 A JP2019032709 A JP 2019032709A JP 2017153432 A JP2017153432 A JP 2017153432A JP 2017153432 A JP2017153432 A JP 2017153432A JP 2019032709 A JP2019032709 A JP 2019032709A
Authority
JP
Japan
Prior art keywords
service
server
servers
monitoring unit
activation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017153432A
Other languages
English (en)
Inventor
博文 小林
Hirobumi Kobayashi
博文 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Mitsubishi Electric Industrial Systems Corp
Original Assignee
Toshiba Mitsubishi Electric Industrial Systems Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Mitsubishi Electric Industrial Systems Corp filed Critical Toshiba Mitsubishi Electric Industrial Systems Corp
Priority to JP2017153432A priority Critical patent/JP2019032709A/ja
Publication of JP2019032709A publication Critical patent/JP2019032709A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】システム運用者の負担を軽減でき、かつ少ない手順で安全にシステムを運用できる分散システムを提供する。【解決手段】複数のサーバで実行される異なるサービスが連携して機能する分散システムは、起動条件監視部、サービス起動部を備える。起動条件監視部は、複数のサーバのうち自サーバのサービスよりも前に起動すべき親サーバのサービスを定義した起動条件の成立を監視する。サービス起動部は、起動条件に定義された親サーバのサービスの起動を待って、自サーバのサービスを起動する。【選択図】図2

Description

本発明は、分散システムに係り、特にシステム運用手順を簡素化した分散システムに関する。
複数のサーバが協調して処理を連携・分担する分散システムが知られている。例えば、特許文献1には、同じサービスを実行可能な複数のサーバを備えた分散システムが開示されている。このような構成によれば、障害発生に強く、信頼性の高い分散システムを構築できる。
ところで、分散システムには、複数のサーバで実行される異なるサービスが連携して機能する構成もある。このような構成によれば、処理を連携・分担することで、拡張性が高い分散システムを構築できる。
従来、複数のサーバで実行される異なるサービスが連携して機能する分散システムにおいては、起動させるサーバの順番や、サービスの起動手順は、システム運用手順に従ってシステム運用者が実施する必要があった。なお、本明細書の以降の説明において、サービスとは、FTPサービスやNTPサービスなどの分散システムそのものに必要な基本サービス、および、特有の業務のためのアプリケーションサービスを含むものとする。サービスはユーザが操作することなくバックグラウンドで実行可能である。
特開2014−67089号公報
従来の分散システムでは、システム運用者がシステム運用手順に従って各サーバの起動や停止を行っている。そのため、起動するサーバの順番や、サービスの起動手順を間違えると、システムが正常に立ち上がらず、分散システムが制御する製造ラインの稼働に影響を与えるリスクがあった。
本発明は、上述のような課題を解決するためになされたもので、システム運用者の負担を軽減でき、かつ少ない手順で安全にシステムを運用できる分散システムを提供することを目的とする。
本発明の実施形態に係る分散システムは、上記の目的を達成するため次のように構成される。
複数のサーバで実行される異なるサービスが連携して機能する分散システムは、起動条件監視部、サービス起動部を備える。起動条件監視部は、複数のサーバのうち自サーバのサービスよりも前に起動すべき親サーバのサービスを定義した起動条件の成立を監視する。サービス起動部は、起動条件に定義された親サーバのサービスの起動を待って、自サーバのサービスを起動する。
これによれば、システム運用者が各サーバの起動順序を意識しなくても、各サーバは、システムとして機能するようにサーバ間で待ち合わせを行い、起動条件の成立を待って必要なサービスを起動することができる。
好ましくは、分散システムは、停止条件監視部とサービス停止部をさらに備える。停止条件監視部は、複数のサーバのうち自サーバのサービスよりも前に停止すべき子サーバのサービスを定義した停止条件の成立を監視する。サービス停止部は、停止条件に定義された子サーバのサービスの停止を待って、自サーバのサービスを停止する。
これによれば、システム運用者が各サーバの停止順序を意識しなくても、各サーバは、安全にシャットダウンするようにサーバ間で待ち合わせを行い、停止条件の成立を待って起動していたサービスを停止することができる。
好ましくは、複数のサーバは、それぞれサービス監視部とモニタとアラート出力部とをさらに備える。サービス監視部は、自サーバのサービスを起動後、自サーバのサービスの異常を検出した場合にサービス異常状態を記録する。モニタは、サービス監視部が検出したサービスの異常を表示する。アラート出力部は、サービス異常状態に応じたアラート信号を出力する。
好ましくは、複数のサーバのうち、他サーバに従属しないマスタサーバは、サービス起動後、少なくとも1つの他サーバが所定時間以内に起動しない場合にタイムアウト情報を記録する全サーバ起動監視部を備える。アラート出力部は、タイムアウト情報に応じたアラート信号を出力する。
好ましくは、サービス監視部は、自サーバのサービスの異常を検出してから所定時間を経過しても異常が継続している場合に、サービス異常継続状態を記録する。さらに、アラート出力部は、サービス異常継続状態に応じた再度のアラート信号を出力する。
従来は、各サーバ起動後のチェックにおいて、複数あるサービスの実行状態をチェックリストに従ってシステム運用者が個別に確認しないとシステムが正常なのかどうかの判断ができず、確認ミスや確認モレなどによる障害発生時の状況判断に影響を与えるリスクがあった。しかし、本願構成によれば、サーバの起動後、サービスの実行状態をモニタ画面の表示色で把握でき、さらに、所定時間経過しても実行状態にならない場合は、システム異常をメールや警告音、警告灯等でシステム運用者にリアルタイムに通知することができる。また、システム異常検出後に所定時間経過してもシステム異常が継続している場合は、再度アラート信号を出力し、正常状態になるまで繰り返すことができるため、万一システム運用者が最初のシステム異常を認識できなかった場合も考慮されている。また、各サーバが正常に起動したか否かの判断を一か所(マスタサーバ)で確認することができる。そのため、システム運用手順を簡素化し、確認ミスや確認モレなどによる障害発生時の状況判断に影響を与えるリスクを軽減できる。
本発明に係る分散システムによれば、システム運用者の負担を軽減でき、かつ少ない手順で安全にシステムを運用できる。
本発明の実施の形態1に係る分散システムを構成するサーバの起動順番および停止順番の一例を示す図である。 本発明の実施の形態1に係る分散システムの構成を説明するための図である。 本発明の実施の形態1に係る第1サーバ1が起動時に実行する処理のフローチャートである。 本発明の実施の形態1に係る第2サーバ2〜第5サーバ5が起動時に実行する処理のフローチャートである。 本発明の実施の形態1に係る第1サーバ1〜第3サーバ3が停止時に実行する処理のフローチャートである。 本発明の実施の形態1に係る第4サーバ4と第5サーバ5が停止時に実行する処理のフローチャートである。 各サーバ機が有する処理回路のハードウェア構成例を示すブロック図である。
以下、図面を参照して本発明の実施の形態について詳細に説明する。尚、各図において共通する要素には、同一の符号を付して重複する説明を省略する。
実施の形態1.
本発明の実施の形態1に係る分散システムは、複数のサーバで実行される異なるサービスが連携して機能する。
図1は、実施の形態1に係る分散システムを構成するサーバの起動順番および停止順番の一例を示す図である。第1サーバ1は、分散システムが機能するうえで必須のサーバ(マスタサーバ)であり、他サーバに依存することなく起動できる。第2サーバ2と第3サーバ3が起動するには、第1サーバ1が起動完了している必要がある。第4サーバ4と第5サーバ5が起動するには、第2サーバ2と第3サーバ3が起動完了している必要がある。
また、分散システムを停止する時は、起動時の逆順になる。すなわち、第4サーバと第5サーバは停止条件なしに停止できる。第2サーバ2と第3サーバ3が停止するには、第4サーバ4と第5サーバ5が停止している必要がある。第1サーバ1が停止するには、第2サーバ2と第3サーバ3が停止している必要がある。
以降の説明において、従属元のサーバを親サーバ、従属先のサーバを子サーバと称する。例えば、第2サーバ2は第1サーバ1の子サーバであると共に、第4サーバ4および第5サーバ5の親サーバでもある。
図2は、実施の形態1に係る分散システムの構成を説明するための図である。図2には、ネットワーク6により相互に接続された第1サーバ1〜第5サーバ5が描かれている。マスタサーバである第1サーバ1は、OS起動後、システムに必要なサービス(FTPサービス、NTPサービス、データベースサービス、業務アプリケーションサービス等)を自動起動したあと、連携する他サーバ(第2サーバ2〜第5サーバ5)が正常に起動完了するまで監視する。第2サーバ2〜第5サーバ5は、OS起動後、それぞれの起動条件の成立を待って各サービスを自動起動する。そのため、本実施形態に係る分散システムは、どの順番でサーバを起動しても、システムとして機能するようにサーバ間で待ち合わせてサービスを自動起動することができる。
(第1サーバの構成)
まず、第1サーバ1の構成について説明する。第1サーバ1は、第1プロセス管理部11(第1サービス起動部12、第1サービス停止部13)、全サーバ起動監視部14、第1停止条件監視部15、第1サービス監視部16、第1アラート出力部17を備える。
第1プロセス管理部11は、業務システムとして必要なサービスについて、自サーバ内でのサービス起動順番やサービス停止順番を管理する。また、起動後のサービスの状態を常時監視する。
第1サービス起動部12は、システム運用者により自サーバのOSが起動される際に自動的に実行される。第1サービス起動部12は、自サーバ内でのサービスの起動順番が設定された設定情報に従ってシステムに必要な各サービス(FTPサービス、NTPサービス、データベースサービス、業務アプリケーションサービス等)を順次起動する。
第1サービス停止部13は、停止条件に定義された子サーバのサービスの停止を待って、自サーバのサービスを停止する。具体的には、第1サービス停止部13は、後述する停止条件が成立した場合に、自サーバ内でのサービスの停止順番が設定された設定情報に従って各サービスを順次停止する。その後、自サーバをシャットダウンする。
全サーバ起動監視部14は、自サーバのサービスが起動後に開始され、他サーバの起動完了を所定時間監視する。図1の例では、第2サーバ2〜第5サーバ5の起動完了を監視する。全サーバ起動監視部14は、例えば、ネットワークの疎通を確認するコマンドを実行すること、および、他サーバのプロセス管理部(第2プロセス管理部21〜第5プロセス管理部51)へサービスの状態を確認することによって、全サーバのサービスが起動したか否かを判定できる。
全サーバ起動監視部14は、マスタサーバのサービス起動後、少なくとも1つの他サーバが所定時間以内に起動しない場合にタイムアウト情報をイベントログに記録する。イベントログは、後述するストレージ108に記憶される。一方、全サーバが所定時間以内に起動完了した場合、全サーバ起動完了信号を第1サービス監視部16へ出力する。
第1停止条件監視部15は、システム運用者により自サーバのシャットダウンが開始される際に自動的に実行される。第1停止条件監視部15は、複数のサーバのうち自サーバのサービスよりも前に停止すべき子サーバのサービスを定義した停止条件の成立を監視する。図1に示す例では、第1サーバ1の停止条件には、自サーバのサービスよりも前に停止すべき第2サーバ2および第3サーバ3のサービスが定義されている。第1停止条件監視部15は、ネットワークの疎通を確認するコマンド等により、第2サーバ2および第3サーバ3のシャットダウンを確認することで、第2サーバ2および第3サーバ3のサービスが停止したか否かを判定する。
第1サービス監視部16は、自サーバのサービス起動後、自サーバのサービスの異常を検出した場合にサービス異常状態をイベントログに記録する。具体的には、第1サービス監視部16は、設定情報に定められたシステムに必要なサービスが、正常に動作しているか否かを定周期(監視間隔は設定による)で監視する。サービスの状態は、状態が変化したタイミングでイベントログに記録される。また、サービスの現状態は、後述する図7のモニタ107に色分けして表示される。
第1アラート出力部17は、イベントログを常時確認して、所定のログがある場合にアラート信号を出力する。例えば、第1アラート出力部17は、上述したタイムアウト情報やサービス異常状態に応じたアラート信号を出力する。アラート信号は、例えば、メール送信、警告灯点灯、鳴動であり、システム運用者にリアルタイムに通知される。
また、好ましくは、第1サービス監視部16は、自サーバのサービスの異常を検出してから所定時間を経過しても異常状態が継続している場合に、サービス異常継続状態をイベントログに記録する。第1アラート出力部17は、サービス異常継続状態に応じた再度のアラート信号を出力する。万一システム運用者が最初のシステム異常を認識できなかった場合を考慮したものである。
(第2サーバ〜第5サーバの構成)
次に、第2サーバ2〜第5サーバ5の構成について説明する。これらのサーバは、起動条件、停止条件等の設定情報が異なるのみで同様の機能を有する。そのため、主として第2サーバ2を例に説明する。
第2サーバ2は、第2プロセス管理部21(第2サービス起動部22、第2サービス停止部23)、第2起動条件監視部24、第2停止条件監視部25、第2サービス監視部26、第2アラート出力部27を備える。第3サーバ3〜第5サーバ5も同様の構成を備える。各サーバのOSが起動すると、基本的な通信プログラムが起動して他サーバと通信可能となる。
第2起動条件監視部24は、システム運用者により自サーバのOSが起動される際に自動的に実行される。第2起動条件監視部24は、複数のサーバのうち自サーバのサービスよりも前に起動すべき親サーバのサービスを定義した起動条件の成立を監視する。第2サーバ2の起動条件には、自サーバのサービスよりも前に起動すべき第1サーバ1のサービスが定義されている。第2起動条件監視部24は、ネットワークの疎通を確認するコマンドを実行すること、および、第1サーバ1の第1プロセス管理部11へサービスの状態を確認することによって、第1サーバ1のサービスが起動したか否かを判定する。
なお、第3サーバ3の起動条件は、第2サーバ2の起動条件と同様であり、第4サーバ4および第5サーバ5の起動条件は、第2サーバ2および第3サーバ3のサービスが起動していることである。
第2停止条件監視部25は、システム運用者により自サーバのシャットダウンが開始される際に自動的に実行される。第2停止条件監視部25は、複数のサーバのうち自サーバのサービスよりも前に停止すべき子サーバのサービスを定義した停止条件の成立を監視する。第2サーバ2の停止条件には、自サーバのサービスよりも前に停止すべき第4サーバ4および第5サーバ5のサービスが定義されている。第2停止条件監視部25は、ネットワークの疎通を確認するコマンド等により、第4サーバ4および第5サーバ5のシャットダウンを確認することで、第4サーバ4および第5サーバ5のサービスが停止したか否かを判定する。
なお、第3サーバ3の停止条件は、第2サーバ2の停止条件と同様であり、第4サーバ4および第5サーバ5は子サーバを有さないため停止条件はない。
第2プロセス管理部21は、業務システムとして必要なサービスについて、自サーバ内でのサービス起動順番やサービス停止順番を管理する。また、起動後のサービスの状態を常時監視する。
第2サービス起動部22は、起動条件に定義された親サーバのサービスの起動を待って、自サーバのサービスを起動する。具体的には、第2サービス起動部22は、起動条件が成立した場合に、自サーバ内でのサービスの起動順番が設定された設定情報に従って各サービス(FTPサービス、NTPサービス、業務アプリケーションサービス等)を順次起動する。
第2サービス停止部23は、停止条件に定義された子サーバのサービスの停止を待って、自サーバのサービスを停止する。具体的には、第2サービス停止部23は、停止条件が成立した場合に、自サーバ内でのサービスの停止順番が設定された設定情報に従って各サービスを順次停止する。その後、自サーバをシャットダウンする。
第2サービス監視部26は、自サーバのサービス起動後、自サーバのサービスの異常を検出した場合にサービス異常状態をイベントログに記録する。具体的には、第2サービス監視部26は、設定情報に定められたシステムに必要なサービスが、正常に動作しているか否かを定周期(監視間隔は設定による)で監視する。サービスの状態は、状態が変化したタイミングでイベントログに記録される。また、サービスの現状態は、後述する図7のモニタ107に色分けして表示される。
第2アラート出力部27は、イベントログを常時確認して、所定のログがある場合にアラート信号を出力する。例えば、第2アラート出力部27は、上述したタイムアウト情報やサービス異常状態に応じたアラート信号を出力する。アラート信号は、例えば、メール送信、警告灯点灯、鳴動であり、システム運用者にリアルタイムに通知される。
また、好ましくは、第2サービス監視部26は、自サーバのサービスの異常を検出してから所定時間を経過しても異常状態が継続している場合に、サービス異常継続状態をイベントログに記録する。第2アラート出力部27は、サービス異常継続状態に応じた再度のアラート信号を出力する。万一システム運用者が最初のシステム異常を認識できなかった場合を考慮したものである。
(分散システムの起動時フローチャート:第1サーバ)
次に、図3を参照してマスタサーバである第1サーバ1の起動について説明する。図3は、本発明の実施の形態1に係る第1サーバ1が起動時に実行する処理のフローチャートである。まず、システム運用者による第1サーバ1のOS起動により、基本的な通信プログラム等が実行されて他サーバと通信可能となる。
まず、ステップS100において、第1サービス起動部12は、自サーバ内でのサービスの起動順番が設定された設定情報に従ってシステムに必要な各サービス(FTPサービス、NTPサービス、データベースサービス、業務アプリケーションサービス等)を順次起動する。
次に、ステップS110において、全サーバ起動監視部14は、タイマー値Tの初期値を0にセットする。
次に、ステップS120において、全サーバ起動監視部14は、全サーバにサービスの起動状態を問い合わせる。第2サーバ2から第5サーバ5の各プロセス管理部(第2プロセス管理部21〜第5プロセス管理部51)は、サービスの起動状態の問い合わせに応答する。
次に、ステップS130において、全サーバ起動監視部14は、全サーバのサービスが起動済みであるか否かを判定する。起動済みと判定される場合は、ステップS140において、第1サービス監視部16によるサービス異常状態の監視が開始される。
一方、ステップS130において起動済みでないと判定される場合は、タイマー値Tがインクリメントされる(ステップS150)。その後、タイマー値Tが予め定めたタイムアウト値を超えたか否かが判定される(ステップS160)。ステップS160の判定条件が成立しない間は、ステップS120から処理を再開する。
一方、ステップS160の判定条件が成立する場合は、全サーバ起動監視部14は、イベントログへタイムアウト情報を記録する。その後、ステップS170において、第1アラート出力部17は、イベントログにタイムアウト情報が記録されていることを検知して、メール送信、警告灯点灯、鳴動などのアラート信号を出力する。
(分散システムの起動時フローチャート:第2サーバ〜第5サーバ)
次に、図4を参照して第2サーバ2〜第5サーバ5の起動について説明する。図4は、本発明の実施の形態1に係る第2サーバ2〜第5サーバ5が起動時に実行する処理のフローチャートである。まず、システム運用者による第2サーバ2〜第5サーバ5のOS起動により、基本的な通信プログラム等が実行されて他サーバと通信可能となる。第2サーバ2〜第5サーバ5の起動処理は、起動条件が異なる以外共通するため、以下の説明では第2サーバ2を例に挙げて説明する。
まず、ステップS200において、第2起動条件監視部24は、起動条件に定められた指定サーバ(親サーバ)へサービスの起動状態を問い合わせる。図1の例では、第2サーバ2は、第1サーバ1へサービスの起動状態を問い合わせる。なお、第3サーバ3は第2サーバ2と同様に問い合わせ、第4サーバ4および第5サーバ5は、第2サーバ2および第3サーバ3へサービスの起動状態を問い合わせる。
次に、ステップS210において、第2起動条件監視部24は、指定サーバ(親サーバ)からの応答に基づいて起動条件が成立するか否かを判定する。起動条件が成立しない場合、ステップS200に戻り処理を継続する。
一方、起動条件が成立する場合は、ステップS220において、第2サービス起動部22は、自サーバ内でのサービスの起動順番が設定された設定情報に従って各サービスを順次起動する。
次に、ステップS230において、第2サービス監視部26によるサービス異常状態の監視が開始される。
(分散システムの停止時フローチャート)
次に、図5、図6を参照してサーバの停止について説明する。図5は、本発明の実施の形態1に係る第1サーバ1〜第3サーバ3が停止時に実行する処理のフローチャートである。図6は、本発明の実施の形態1に係る第4サーバ4と第5サーバ5が停止時に実行する処理のフローチャートである。各サーバの起動処理は、停止条件が異なる以外共通するため、以下の説明では第2サーバ2を例に挙げて説明する。
まず、ステップS300において、第2停止条件監視部25は、停止条件に定められた指定サーバ(子サーバ)へサービスの停止状態を確認する。図1の例では、第2サーバ2は、第4サーバ4と第5サーバ5の停止状態を確認する。なお、第3サーバ3は第2サーバ2と同様の確認を行い、第1サーバ1は、第2サーバ2と第3サーバ3の停止状態を確認する。
次に、ステップS310において、第2停止条件監視部25は、指定サーバ(子サーバ)からの応答に基づいて停止条件が成立するか否かを判定する。停止条件が成立しない場合、ステップS300に戻り処理を継続する。
一方、停止条件が成立する場合は、ステップS320において、第2サービス停止部23は、自サーバ内でのサービスの停止順番が設定された設定情報に従って各サービスを順次停止する。
次に、ステップS330において、自サーバのOSをシャットダウンする。
なお、第4サーバ4および第5サーバ5は子サーバを有さず、第4停止条件監視部45や第5停止条件監視部55における停止条件がないため、図6のようにステップS320から処理が実行される。
(効果)
以上説明したように、本実施形態に係る分散システムによれば、システム運用者が各サーバの起動順序を意識しなくても、各サーバは、システムとして機能するようにサーバ間で待ち合わせを行い、起動条件の成立を待って必要なサービスを起動することができる。また、システム運用者が各サーバの停止順序を意識しなくても、各サーバは、安全にシャットダウンするようにサーバ間で待ち合わせを行い、停止条件の成立を待って起動していたサービスを停止することができる。そのため、本実施形態に係る分散システムによれば、システム運用手順を簡素化し、システム運用者の負担を軽減でき、かつ最小限のオペレーションで安全にシステムを起動・停止することができる。
また、従来は、本実施形態に係る分散システムによれば、各サーバの起動後、サービスの実行状態をモニタ画面の表示色により一目で把握でき、さらに、所定時間経過しても実行状態にならない場合は、システム異常をメールや警告音、警告灯等でシステム運用者にリアルタイムに通知することができる。また、システム異常検出後に所定時間経過してもシステム異常が継続している場合は、再度アラート信号を出力し、正常状態になるまで繰り返すことができるため、万一システム運用者が最初のシステム異常を認識できなかった場合も考慮されている。また、各サーバが正常に起動したか否かの判断を一か所(マスタサーバ)で確認することができる。そのため、本実施形態に係る分散システムによれば、システム運用手順を簡素化し、確認ミスや確認モレなどによる障害発生時の状況判断に影響を与えるリスクを軽減できる。
(変形例)
ところで、上述した実施の形態においては、サービスの実行状態のモニタリングまたは異常時の警告を発するために、サービス監視部やアラート出力部を備えている。ところで、単に複数のサーバ間で起動・停止の待ち合わせを実現する場合には、サービス監視部やアラート通知部を要しない構成であってもよい。
ところで、上述した実施の形態においては、1つの物理マシン(コンピュータ)に1つのサーバを配置しているが、これに限定されるものではない。複数のサーバは、共通する物理マシン上で起動する複数の仮想サーバであって、物理マシンが、複数の仮想サーバを一括して起動または停止させることとしてもよい。例えば、システムで代表となる1つの仮想サーバ(第1サーバ1または第1サーバ1〜第5サーバ5以外の仮想サーバ)が、システム全体の起動とシャットダウンを担うことで実現できる。
(ハードウェア構成例)
各サーバ機のハードウェア構成について図7を参照しつつ説明する。図7は、図4の各サーバ機が有する処理回路のハードウェア構成例を示すブロック図である。図2に示す各部は、各サーバ機が有する機能の一部を示し、各機能は処理回路により実現される。例えば、処理回路は、CPU101、ROM102、RAM103、入出力インターフェース104、システムバス105、入力装置106、モニタ107、ストレージ108、ネットワークI/F(インターフェース)109を備えたコンピュータである。
CPU101は、ROM102やRAM103に格納されたプログラムやデータなどを用いて各種の演算処理を実行する処理装置である。ROM102は、コンピュータに各機能を実現させるための基本プログラムや環境ファイルなどを記憶する読み取り専用の記憶装置である。RAM103は、CPU101が実行するプログラムおよび各プログラムの実行に必要なデータを記憶する主記憶装置であり、高速な読み出しと書き込みが可能である。入出力インターフェース104は、各種のハードウェアとシステムバス105との接続を仲介する装置である。システムバス105は、CPU101、ROM102、RAM103および入出力インターフェース104で共有される情報伝達路である。
また、入出力インターフェース104には、入力装置106、モニタ107、ストレージ108、ネットワークI/F109などのハードウェアが接続されている。入力装置106は、システム運用者による入力を処理する装置であり、例えばキーボードやマウスである。モニタ107は、表示装置である。ストレージ108は、プログラムやデータを蓄積する大容量の補助記憶装置であり、例えばハードディスク装置や不揮発性の半導体メモリなどである。ストレージ108には、オペレーティングシステム、コンピュータを上記各部として機能させるためのプログラム、上述した各サービスに対応するプログラム、起動条件、停止条件、設定情報、イベントログ等が記憶されている。ネットワークI/F109は、ネットワーク6を介して他サーバと通信するための通信装置である。
以上、本発明の実施の形態について説明したが、本発明は、上記の実施の形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で種々変形して実施することができる。
1、2、3、4、5 第1サーバ、第2サーバ、第3サーバ、第4サーバ、第5サーバ
11、21、31、41、51 第1プロセス管理部、第2プロセス管理部、第3プロセス管理部、第4プロセス管理部、第5プロセス管理部
12、22、32、42、52 第1サービス起動部、第2サービス起動部、第3サービス起動部、第4サービス起動部、第5サービス起動部
13、23、33、43、53 第1サービス停止部、第2サービス停止部、第3サービス停止部、第4サービス停止部、第5サービス停止部
14 全サーバ起動監視部
24、34、44、54 第2起動条件監視部、第3起動条件監視部、第4起動条件監視部、第5起動条件監視部
15、25、35、45、55 第1停止条件監視部、第2停止条件監視部、第3停止条件監視部、第4停止条件監視部、第5停止条件監視部
16、26,36、46、56 第1サービス監視部、第2サービス監視部、第3サービス監視部、第4サービス監視部、第5サービス監視部
17、27、37、47、57 第1アラート出力部、第2アラート出力部、第3アラート出力部、第4アラート出力部、第5アラート出力部
6 ネットワーク
101 CPU
102 ROM
103 RAM
104 入出力インターフェース
105 システムバス
106 入力装置
107 モニタ
108 ストレージ
109 ネットワークI/F

Claims (6)

  1. 複数のサーバで実行される異なるサービスが連携して機能する分散システムであって、
    前記複数のサーバのうち自サーバのサービスよりも前に起動すべき親サーバのサービスを定義した起動条件の成立を監視する起動条件監視部と、
    前記起動条件に定義された前記親サーバのサービスの起動を待って、前記自サーバのサービスを起動するサービス起動部と、
    を備えることを特徴とする分散システム。
  2. 前記複数のサーバのうち自サーバのサービスよりも前に停止すべき子サーバのサービスを定義した停止条件の成立を監視する停止条件監視部と、
    前記停止条件に定義された前記子サーバのサービスの停止を待って、前記自サーバのサービスを停止するサービス停止部と、
    を備えることを特徴とする請求項1記載の分散システム。
  3. 前記複数のサーバは、共通する物理マシン上で起動する複数の仮想サーバであって、
    前記物理マシンが、前記複数の仮想サーバを一括して起動または停止させること、
    を特徴する請求項2記載の分散システム。
  4. 前記複数のサーバは、
    自サーバのサービスを起動後、前記自サーバのサービスの異常を検出した場合にサービス異常状態を記録するサービス監視部と、
    前記サービス監視部が検出したサービスの異常を表示するモニタと、
    前記サービス異常状態に応じたアラート信号を出力するアラート出力部と、
    を備えることを特徴とする請求項1乃至3のいずれか1項記載の分散システム。
  5. 前記複数のサーバのうち、他サーバに従属しないマスタサーバは、
    前記マスタサーバのサービス起動後、少なくとも1つの前記他サーバが所定時間以内に起動しない場合にタイムアウト情報を記録する全サーバ起動監視部と、を備え、
    前記アラート出力部は、前記タイムアウト情報に応じたアラート信号を出力すること、
    を特徴とする請求項4記載の分散システム。
  6. 前記サービス監視部は、自サーバのサービスの異常を検出してから所定時間を経過しても異常が継続している場合に、サービス異常継続状態を記録し、
    前記アラート出力部は、前記サービス異常継続状態に応じた再度のアラート信号を出力すること、
    を特徴する請求項4記載の分散システム。
JP2017153432A 2017-08-08 2017-08-08 分散システム Pending JP2019032709A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017153432A JP2019032709A (ja) 2017-08-08 2017-08-08 分散システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017153432A JP2019032709A (ja) 2017-08-08 2017-08-08 分散システム

Publications (1)

Publication Number Publication Date
JP2019032709A true JP2019032709A (ja) 2019-02-28

Family

ID=65524368

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017153432A Pending JP2019032709A (ja) 2017-08-08 2017-08-08 分散システム

Country Status (1)

Country Link
JP (1) JP2019032709A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111866094A (zh) * 2020-07-01 2020-10-30 天津联想超融合科技有限公司 一种定时任务处理方法、节点及计算机可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63242150A (ja) * 1987-03-30 1988-10-07 株式会社東芝 電力系統監視方式
JP2005043962A (ja) * 2003-07-22 2005-02-17 Nippon Telegr & Teleph Corp <Ntt> 分散サーバシステム、サーバ、アプリケーションプロセス起動制御方法、及びプログラム
JP2008225745A (ja) * 2007-03-12 2008-09-25 Nec Corp プロセス制御装置および方法およびプログラム
JP2011186637A (ja) * 2010-03-05 2011-09-22 Ntt Data Corp リソース連携システム及びリソース連携方法
JP2014010772A (ja) * 2012-07-02 2014-01-20 Fujitsu Ltd システム管理装置、システムの管理方法、及びシステムの管理プログラム
JP2014178976A (ja) * 2013-03-15 2014-09-25 Nec Corp アプリケーション起動制御方法とシステムと装置とプログラム
WO2017066972A1 (en) * 2015-10-23 2017-04-27 Oracle International Corporation System and method for booting application servers in parallel

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63242150A (ja) * 1987-03-30 1988-10-07 株式会社東芝 電力系統監視方式
JP2005043962A (ja) * 2003-07-22 2005-02-17 Nippon Telegr & Teleph Corp <Ntt> 分散サーバシステム、サーバ、アプリケーションプロセス起動制御方法、及びプログラム
JP2008225745A (ja) * 2007-03-12 2008-09-25 Nec Corp プロセス制御装置および方法およびプログラム
JP2011186637A (ja) * 2010-03-05 2011-09-22 Ntt Data Corp リソース連携システム及びリソース連携方法
JP2014010772A (ja) * 2012-07-02 2014-01-20 Fujitsu Ltd システム管理装置、システムの管理方法、及びシステムの管理プログラム
JP2014178976A (ja) * 2013-03-15 2014-09-25 Nec Corp アプリケーション起動制御方法とシステムと装置とプログラム
WO2017066972A1 (en) * 2015-10-23 2017-04-27 Oracle International Corporation System and method for booting application servers in parallel

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111866094A (zh) * 2020-07-01 2020-10-30 天津联想超融合科技有限公司 一种定时任务处理方法、节点及计算机可读存储介质
CN111866094B (zh) * 2020-07-01 2023-10-31 天津联想超融合科技有限公司 一种定时任务处理方法、节点及计算机可读存储介质

Similar Documents

Publication Publication Date Title
US20180351792A1 (en) System and method for providing secure and redundant communications and processing for a collection of internet of things (iot) devices
JP5579650B2 (ja) 監視対象プロセスを実行する装置及び方法
US11044144B2 (en) Self-monitoring
US20210133054A1 (en) Prioritized transfer of failure event log data
US20090164565A1 (en) Redundant systems management frameworks for network environments
US11397632B2 (en) Safely recovering workloads within a finite timeframe from unhealthy cluster nodes
JP2017187992A (ja) 制御装置、制御方法およびプログラム
JP6558037B2 (ja) 運用管理プログラム、運用管理方法、および運用管理装置
US9032014B2 (en) Diagnostics agents for managed computing solutions hosted in adaptive environments
JP2015230720A (ja) 計算機システム
JP2019032709A (ja) 分散システム
JP4905165B2 (ja) 監視支援プログラム、監視方法および監視システム
US11159610B2 (en) Cluster formation offload using remote access controller group manager
US20220066704A1 (en) Monitoring system, monitoring method, and monitoring program
CN114189429A (zh) 一种服务器集群故障的监测系统、方法、装置及介质
JP3622719B2 (ja) 障害情報表示システム
CN107783852B (zh) 一种dump文件生成方法及终端
JP2014215622A (ja) プラント監視システム及びプラント監視方法
JP4137004B2 (ja) 分散型計算機システムのプロセス管理方法
JPH0424838A (ja) マルチプロセッサの障害管理方式
JP5836438B1 (ja) 異常監視装置、異常監視システム及び異常監視プログラム
US20240095058A1 (en) System and method for self-healing agent and cloud desktop
JP2019040331A (ja) 分散制御システムおよびノード
JP6695517B1 (ja) プログラマブル表示器およびデータ管理方法
JP7304833B2 (ja) 情報処理装置、情報処理方法、および、情報処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190902

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200722

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200804

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200910

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20210119