JP2015057685A - 監視システム - Google Patents

監視システム Download PDF

Info

Publication number
JP2015057685A
JP2015057685A JP2013244878A JP2013244878A JP2015057685A JP 2015057685 A JP2015057685 A JP 2015057685A JP 2013244878 A JP2013244878 A JP 2013244878A JP 2013244878 A JP2013244878 A JP 2013244878A JP 2015057685 A JP2015057685 A JP 2015057685A
Authority
JP
Japan
Prior art keywords
unit
job
execution
processing
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2013244878A
Other languages
English (en)
Inventor
尚志 北村
Hisashi Kitamura
尚志 北村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
MUFG Bank Ltd
Original Assignee
Bank of Tokyo Mitsubishi UFJ Trust Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bank of Tokyo Mitsubishi UFJ Trust Co filed Critical Bank of Tokyo Mitsubishi UFJ Trust Co
Priority to JP2013244878A priority Critical patent/JP2015057685A/ja
Publication of JP2015057685A publication Critical patent/JP2015057685A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

【課題】ジョブ実行サーバの異常発生時にプロセス単位の柔軟なリカバリ処理を可能とし、一括して異常発生として処理されていた状況を事前に回避する。
【解決手段】ジョブ実行サーバ10は、ジョブを構成するプロセスを実行するプロセス実行部102と、プロセス実行部によって生成されプロセス実行部を監視するプロセス監視部103と、外部からジョブ実行コマンドを受信するコマンド受信部101と、プロセスの処理結果を外部に対して送信する処理結果送信部104とを有し、プロセス実行部は、プロセス毎にログファイル105にログを記録し、プロセス監視部は、ログファイルのログを所定の時間ごとに参照して、プロセス実行部のプロセスが所定の時間内に処理を終えていないと判断した場合には、処理中のプロセスを停止し、プロセス監視部の実行結果をプロセス実行部の処理結果として処理結果送信部を介して外部に送信する。
【選択図】図2

Description

本発明は、システムのプロセス管理に属し、より詳細には、ジョブ実行サーバにおけるプロセス監視システムに関する。
サーバ等で構成されるプロセスの実行システムでは、ジョブ実行サーバにジョブ実行コマンドを送信したジョブ管理サーバが、一定時間のタイムアウトを設定し、設定時間内にジョブ実行コマンドに対する応答がない場合に、ジョブ実行サーバに異常が発生したと判断する。無応答の原因としては、実行サーバがハングアップ状態に陥ったこと等に加え、一時的な実行サーバの負荷の増加や、一時的なネットワーク障害等がありうるので、タイムアウト値はジョブ実行コマンドに応じて数十分ないし数時間に設定されることが一般的である。
また、上記タイムアウトの設定に加え、あるいはタイムアウト設定とは別に、ジョブ管理サーバはジョブ実行サーバに対して一定間隔でpingコマンドを送信し、pingコマンドに対するジョブ実行サーバからの応答が無い場合には、ジョブ実行サーバに異常が発生したと判断する方法がとられる場合もある。
特開2012−138015号公報
しかしながら、タイムアウト値は数十分ないし数時間という比較的長時間に設定されるため、タイムアウトが発生しジョブ実行サーバに異常が発生したと判断された場合に、ジョブ実行サーバのリカバリ処理の開始が、少なくともタイムアウト設定時間の分だけ遅くなる。
なお、仮にタイムアウト時間を短く設定した場合には、ジョブ実行サーバの処理の遅延や、ジョブ管理サーバとジョブ実行サーバ間の通信ネットワークに一時的で回復可能な障害等が発生した場合でも、異常発生と判断してしまうので、異常発生の頻度が増加するという問題がある。
また、ジョブ実行コマンドは通常複数のプロセスから構成されるが、タイムアウト処理の場合には、どのプロセスで障害が発生したのかを適時に検知することができない。すなわち、どのプロセスで障害が発生したかに関係なく、同じリカバリ処理を行うことしかできない。
また、障害発生の内容や発生箇所に応じたきめ細かなリカバリ処理を行おうとしても、どのプロセスで障害が発生したのかを検知することができないので、大部分のリカバリ処理を手動で行わなければならない。
また、ジョブ管理サーバが、ジョブ実行サーバにコマンドを送信した後に、一定間隔でpingコマンドをジョブ実行サーバに送信するという方法をとった場合も、やはりどのプロセスで障害が発生したのかを知ることができない。
そこで、本発明は、ハングアップ状態等の異常発生をより早く適時に検知することによって、異常発生時に迅速かつプロセス単位の柔軟なリカバリ処理を可能とし、従来技術では一括して異常発生として処理されていた状況を事前に回避することが可能なプロセス処理システムを提供することを目的とする。
本発明の一実施形態に係るジョブ実行サーバによって処理されるプロセスの監視システムは、ジョブを構成するプロセスを実行するプロセス実行部と、プロセス実行部によって生成されるプロセス監視部とを有し、プロセス実行部は、プロセス毎にログファイルにログを記録し、プロセス監視部は、プロセス実行部を監視する。
また、本発明の一実施形態に係るプロセスの監視システムでは、プロセス監視部がプロセス実行部を監視することは、プロセス監視部が所定の時間ごとにプロセス実行部が存在しているか否かを確認し、プロセス実行部が存在していない場合には所定の時間内に処理を終えたと判断し、プロセス実行部が存在している場合には所定の時間内に処理を終えていないと判断することを含んでもよい。
また、本発明の一実施形態に係るプロセスの監視システムは、プロセス監視部が、ログファイルのログを所定の時間ごとに参照し、参照したログの内容から変化していない場合には、プロセスが処理中であると判断することを含んでもよい。
また、本発明の一実施形態に係るプロセスの監視システムは、プロセス監視部が所定の時間内に処理を終えていないと判断した場合に、プロセス監視部は処理中のプロセスを停止してもよい。
また、本発明の一実施形態に係るプロセスの監視システムは、プロセス監視部が所定の時間内に処理を終えたと判断した場合には、プロセス監視部が消滅してもよい。
また、本発明の一実施形態に係るプロセスの監視システムは、ジョブ実行サーバが、外部からジョブに対応するジョブ実行コマンドを受信するコマンド受信部と、プロセスの処理結果を前記外部に対して送信する処理結果送信部とを有してもよい。
また、本発明の一実施形態に係るプロセスの監視システムは、プロセス監視部が、所定の時間内に処理を終えていないと判断した場合に、プロセス監視部の実行結果をプロセスの処理結果として処理結果送信部を介して外部に送信してもよい。
また、本発明の一実施形態に係るプロセスの監視システムは、プロセス実行部が、所定の時間内に処理を終えたとき、プロセスの処理結果を処理結果送信部を介して外部に送信してもよい。
また、本発明の一実施形態に係るプロセスの監視システムは、プロセス実行部が、プロセスの起動に対応して生成されてもよい。
また、本発明の一実施形態に係るプロセスの監視システムは、プロセス実行部が、ジョブの実行が終了すると消滅してもよい。
また、本発明の一実施形態に係るプロセスの監視システムは、ジョブ管理サーバをさらに含み、ジョブ管理サーバは、ジョブ実行サーバにジョブ実行コマンドを送信し、ジョブ実行サーバからプロセスの処理結果を受信してもよい。
また、本発明の一実施形態に係るプロセスの監視システムは、プロセス監視部が所定の時間内に処理を終えていないと判断した場合に、ジョブ管理サーバがジョブの進行状況に応じたリカバリ処理を行う実行コマンドをジョブ実行サーバに送信してもよい。
また、本発明の一実施形態に係るプロセスの監視システムは、リカバリ処理がリトライ処理を行うことを含んでもよい。
また、本発明の一実施形態に係るプロセスの監視システムは、ジョブ実行コマンドが、ジョブ実行サーバのサーバリブートを行うことをその内容としてもよい。
また、本発明の一実施形態に係るプロセスの監視システムは、ジョブ実行コマンドが、ジョブ実行サーバのデータベース再編を行うことをその内容としてもよい。
本発明により、プロセスのハングアップ状態等の異常発生をより早く適時に検知することができるとともに、異常発生時に迅速かつプロセス単位の柔軟なリカバリ処理を実行することが可能とし、従来技術では一括して異常発生として処理されていた状況を事前に回避することができる。
本発明の一実施形態に係るプロセスの実行システムの概要図である。 本発明の一実施形態に係るジョブ実行サーバの機能を説明するブロック図である。 本発明の一実施形態に係るジョブ実行サーバの正常処理時におけるシーケンス図である。 本発明の一実施形態に係るジョブ実行サーバの異常処理時におけるシーケンス図である。 本発明の一実施形態に係るサーバリブート処理の異常処理時における処理概要を示した図である。 本発明の一実施形態に係るサーバリブート処理の異常処理時における処理概要を示した図である。 本発明の一実施形態に係るデータベース再編処理の異常処理時における処理概要を示した図である。
以下、本発明の実施形態について図面等を参照しながら説明する。ただし、本発明は多くの異なる態様で実施することが可能であり、以下に例示する実施形態の記載内容に限定して解釈されるものではない。
なお、以下に説明する発明の内容については、同一部分又は同様な機能を有する部分については同一の符号を異なる図面間で共通して用い、その場合において特段の事情がない限り繰り返しの説明は省略する。
<プロセスの実行システムの全体構成について>
図1は、本発明の一実施形態に係るプロセスの実行システムの概要図である。
図1を参照すると、本発明の一実施形態に係るプロセスの実行システムは、ジョブ実行サーバ10と、ジョブ管理サーバ20とを有する。ジョブ実行サーバとジョブ管理サーバとは、LAN又はWAN等の通信ネットワーク40を介して接続される。
また、本発明の一実施形態に係るプロセスの実行システムは、クライアント30を含んでも良い。クライアントは、パーソナルコンピュータ、タブレットコンピュータ、携帯電話、スマートフォン、あるいはテレビ装置等の通信ネットワークに接続可能な電子機器によって構成される。クライアント30とジョブ管理サーバ20は通信ネットワーク40を介して接続されており、クライアント30はHTTP等に基づいてジョブ管理サーバ20と通信する機能を有する。
ジョブ管理サーバ20は、クライアント30等の指示に基づき、所定のプロセスを実行するためのジョブ実行コマンドをジョブ実行サーバ10に送信する。ジョブ実行サーバ10は、受信した実行コマンドに基づき処理を行い、処理結果をジョブ管理サーバ20に送信する。ジョブ管理サーバ20は、処理結果に基づいたメッセージ等をクライアント30に送信する。
<ジョブ実行サーバについて>
図2は、本発明の一実施形態に係るジョブ管理サーバ10の機能を説明するブロック図である。
図2を参照すると、本発明の一実施形態に係るジョブ管理サーバ10は、コマンド受信部101、プロセス実行部102、プロセス監視部103及び処理結果送信部104で構成される。
コマンド受信部101は、ジョブ実行サーバ10の外部から、ジョブ実行コマンドを受信する。典型的には、ジョブ管理サーバ20が送信するジョブ実行コマンドを受信する。コマンド受信部101は、受信したジョブ実行コマンドに対応したプロセス実行部102を生成する。
プロセス実行部102は、ジョブ実行コマンドに対応したプロセス処理を実行する。通常、一つのジョブ実行コマンドには、複数のプロセス処理が対応しており、プロセス実行部102は対応するプロセス処理を順次実行し、それぞれのプロセス処理ごとに、ログファイル105にログを記録する。
ログファイル105は、プロセス実行部102及びプロセス監視部103がアクセス可能な記録領域又はファイルに設定される。ログファイル105には、例えば処理しようとするプロセス名、発行しようとするシェルコマンド、引数、コマンド送信時刻等を記録する。また、ログファイル105には、発行したコマンドに対する戻り値等を記録してもよい。ログファイル105は、プロセス実行部102が生成したプロセス監視部103が参照可能なように、ファイル保存位置、ファイル名、アクセス権限、プロセスIDとの関連付け等がなされる。
プロセス実行部102は、プロセス監視部103を生成する。プロセス監視部103の機能については、後述する。プロセス実行部102は、プロセス実行部102が生成されてから最初のプロセスを処理するまでの間に、プロセス監視部103を生成するが、プロセス監視部がプロセス実行部を適切に監視できるのであれば、生成時期はこれに限られない。
プロセス実行部102は、生成したプロセス監視部103がプロセス実行部102のプロセスIDを認識できるようにする。例えば、プロセス監視部103を生成する際の引数として自らのプロセスIDを含ませたり、プロセス監視部103を生成した後にメッセージを送信して、自らのプロセスIDを知らせたりする。
プロセス実行部102は、全てのプロセスが終了すると、処理結果を処理結果送信部104に送信する。この処理結果には、実行したプロセスが異常終了をリターンした場合等も含まれる。プロセス実行部102は、処理結果を送信し終わると、自らのプロセスを終了させ消滅する。
プロセス監視部103は、プロセス実行部102によって生成された後、所定の時間が経過すると、当該プロセス監視部103を生成したプロセス実行部102が存在するか否かを確認する。具体的には、例えばプロセス実行部のプロセスIDを取得するコマンドを用いて、プロセス実行部102が存在しているか否かを確認する。プロセス実行部102が存在しない場合は、プロセス実行部102が処理結果を処理結果送信部104に送信し、自らプロセスを終了したことを意味する。この場合は、プロセス監視部103は自らのプロセスを終了させ消滅する。
プロセス実行部102が存在する場合は、プロセス監視部103はログファイル105を参照して、現在実行中のプロセスを確認する。例えば、ログファイル105へのログの記録方法が、プロセス実行部102が各プロセスを実行する直前に当該プロセス実行コマンド(シェル)をログファイル105へ記録する方法がとられている場合には、プロセス監視部103は、ログファイルを参照し、最後に記録されているプロセス実行コマンドに対応するプロセスが現在処理中のプロセス(無応答のプロセス)であると判断する。
プロセス監視部103は、プロセス実行部102を終了させ、処理結果を処理結果送信部104に送信して、自らのプロセスも終了させる。処理結果送信部104に送信する処理結果には、現在処理中のプロセスが認識可能なように、現在処理中のプロセスに関する情報を含ませてもよい。
プロセス監視部は、無応答のプロセスを検知した場合に、リカバリ処理を行ってもよい。具体的な処理の例は、後述する。
プロセス監視部が現在処理中のプロセスを判別する他の方法としては、プロセス監視部103が一定時間ごとにログファイル105を参照して、ログファイルに記録された最後のプロセスを確認し、前回確認した最後のプロセスから変化が無い場合に、当該プロセスが処理中であると判断することもできる。この場合、最初にログファイルを確認するときは、当該ログファイルに記録された最後のプロセスを確認し、プロセス監視部103の使用可能な記録領域又はファイルに記載し、二回目以降はログファイルに記録された最後のプロセスと、前回確認して使用可能な記録領域又はファイルに記載されたプロセスとを比較し、同じプロセスが処理中であるか否かを判断してもよい。
プロセス監視部103がログファイル105に記録された最後のプロセスを確認する間隔は、実行中のプロセスに応じて適宜変更してもよい。また、プロセスのグループ分けを行い、グループ単位で参照時間を設定してもよい。
一つの実施例としては、ジョブ管理サーバ20から送信されるジョブ実行コマンドに、各プロセスの参照時間等の情報を含ませておき、プロセス監視部103が参照時間等の情報に基づき参照時間を設定することができる。
また、他の実施例としては、あらかじめ各プロセスの参照時間情報のテーブルをジョブ実行サーバ10が保持しておき、プロセス監視部103は実行中のプロセスに対応する参照時間を、参照時間情報のテーブルに基づいて設定してもよい。
このように、上記二つの実施例によると、プロセス又はプロセスのグループ毎の、標準的な処理時間やエラー発生の頻度等の性質に対応させて、プロセス監視部103がエラーログ105を参照する間隔を設定することができる。
処理結果送信部104は、プロセス実行部102又はプロセス監視部103から処理結果を受信し、ジョブ実行コマンドを発行したジョブ管理サーバ20等に対して、処理結果を送信する。
<正常時の処理について>
図3は、本発明の一実施形態に係るジョブ実行サーバの正常処理時における処理の流れを示したものである。
図3を参照すると、まず、コマンド受信部101が、ジョブ実行サーバ10の外部から、ジョブ実行コマンドを受信する(S1)。
ジョブ実行コマンドを受信したコマンド受信部101は、当該ジョブ実行コマンドに対応したプロセス実行部102を生成する(S2)。
プロセス実行部102は、プロセス監視部103を生成する(S3)。その後、プロセス実行部102は、必要なプロセスをログファイル105にログを記録しながら実行する。プロセスが終了したら、処理結果を処理結果送信部104に送信し(S4)、自らのプロセスを終了させる。
処理結果送信部104は、プロセス実行部102から処理結果を受信すると、ジョブ実行コマンドを送信した外部に対して、処理結果を送信する(S5)。
プロセス監視部103は、一定時間経過後、プロセス実行部102が存在しているか否かを確認する(S6)。図3では、プロセス実行部102が消滅しているので、自らのプロセスを終了させる。
以上まとめると、正常時の処理においては、ジョブ実行コマンドに対応してプロセス実行部102及びプロセス監視部103が生成され、プロセス実行部102はプロセス処理を実行した後に自ら消滅し、プロセス監視部102はプロセス実行部102の監視を終えると、自らのプロセスを終了させ消滅する。
<異常時の処理について>
次に、異常処理時の処理について図4を参照して説明する。図4のS1、S2及びS3は、上述の正常処理時の処理と同様である。
プロセス監視部103は、プロセス実行部102が存在するか否かを確認する(S7)。図4では、プロセス実行部102が存在しているので、プロセス監視部103は、ログファイル105(図示せず)を参照して、処理中のプロセスを確認する(S8)。そして、プロセス監視部103は、プロセス実行部102を終了させ(S9)、処理結果送信部104に処理結果を送信し(S10)、自らのプロセスを終了させる。
処理結果送信部104は、プロセス監視部103から受信した処理結果を、ジョブ実行コマンドを送信した外部に対して送信する(S11)。
以上まとめると、異常時の処理においては、ジョブ実行コマンドに対応してプロセス実行部102及びプロセス監視部103が生成され、プロセス監視部103は無応答のプロセスを検知し、プロセス実行部を終了させ、自らのプロセスを終了させ消滅する。
<サーバリブート処理の異常処理時における処理フロー>
(第1実施形態)
図5は、本発明の一実施形態に係る、サーバリブート処理の異常処理時における処理概要を示したものである。
サーバリブート処理では、まず、サーバのミドルウェアの通常停止処理を行う(S21)。ここではミドルウェアA、B、Cがあるものとし、ミドルウェアの通常停止処理とは、ミドルウェアA、B、Cに対して、順次停止処理を実行することを意味する。全てのミドルウェアの停止処理が正常終了すると、OSを停止しサーバを再起動する(S22)。
ミドルウェアの通常停止処理を実行した場合、ミドルウェアを停止するコマンドに対して比較的短時間で異常終了がリターンされる場合がある。この場合は、ミドルウェアを強制終了させ(S23)、OSを停止しサーバを再起動する(S24)。
このように、ミドルウェアの停止処理が正常終了するか、又は異常終了がリターンされた場合には、直ちに通常処理(S22)又は異常終了時の処理(S23、S24)が行われる。
これに対し、ミドルウェアの停止処理を実行しても、無応答状態になる場合がある。ここでは、ミドルウェアBの停止処理中に、無応答状態になったものとする。
本発明の実施形態によると、上述したように、無応答状態になったミドルウェアBを検知することが可能である。すなわち、ジョブ実行サーバのプロセス監視部が無応答状態のミドルウェアBを検知し、リカバリ処理を行うことが可能である。
リカバリ処理は、プロセス監視部で行わず、外部からの指示に基づいて実施することもできる。例えば、プロセス監視部は処理結果送信部を介して、処理結果をジョブ管理サーバに送信する。処理結果には、ミドルウェアBの停止処理時に無応答となったこと等の情報が含まれる。ジョブ管理サーバは、ジョブ実行サーバから受信した処理結果に基づき、リカバリ処理を実行するためのジョブ実行コマンドをジョブ実行サーバに送信する。
プロセス監視部は、リカバリ処理として、ミドルウェアBの強制停止処理を実行し(S25)、ミドルウェアCの通常停止処理を実行し(S26)、OSを停止しサーバを再起動する(S27)。リカバリ処理をジョブ実行サーバの外部からの指示に基づいて実行する場合は、ジョブ実行サーバは受信したジョブ実行コマンドに基づき、上記リカバリ処理が行われる。
本発明の実施形態によると、無応答となった処理中のプロセス(本例ではミドルウェアBの停止処理)を検知し判別することができる。これによって、図5の点線で囲んだ部分の処理のように、正常に処理が終了したミドルウェアAの停止処理に関しては何も行わず、無応答となったミドルウェアBの停止処理に対しては強制終了を行い、処理が行われていないミドルウェアCに対しては通常の停止処理を行うという、処理結果に応じたきめ細かいリカバリ処理を実行することが可能となる。
また、上記リカバリ処理では、無応答となったミドルウェアBの停止処理に対しては強制終了を行ったが、ミドルウェアBに対して通常の停止処理を行うこと、すなわち無応答となった処理中のプロセスを再び実行すること(リトライ)を、リカバリ処理の内容としてもよい。
さらに、リカバリ処理の内容としては、本来予定していたジョブの処理(上述のミドルウェアBに対する通常の停止処理)や、これに準じる処理(上述のミドルウェアBに対する強制終了)を含まなくてもよく、リカバリ処理として、本来予定していたジョブに対応する別のジョブを実行してもよい。
このように、本発明の実施形態によると、ジョブを構成するプロセス毎に対応する各リカバリ処理を事前に準備することができる。さらに、各リカバリ処理の内容も、状況に応じた複数の処理を準備することができる。処理結果に応じた複数のリカバリ処理を事前に準備することによって、自動リカバリ処理を実現することも可能となる。
さらに、本発明の実施形態によると、通常数十分ないし数時間に設定されるタイムアウトよりも早く異常(ミドルウェアBの停止処理の無応答)を検知することが可能となるので、上記リカバリ処理を短時間で実行することができる。
(第2実施形態)
第2実施形態は、第1実施形態と同様に、サーバリブート処理では、サーバのミドルウェアA、B、Cに対して順次停止処理を実行し、OSを停止してサーバを再起動するものとする。第1実施形態では、リカバリ処理をするためのジョブ実行コマンドをジョブ実行サーバが受信してリカバリ処理が行われたが、第2実施形態では、ジョブ実行サーバがリターンコードを受信してリカバリ処理を行う点に特徴がある。以下、図6を参照しながら詳述する。
ミドルウェアAの停止処理時に無応答となった場合、リカバリ処理としてS41、S42、S43及びS44の処理(図6枠線内の一番上のルートA)が実行される。ここで、S41はミドルウェアAの強制停止処理、S42はミドルウェアBの通常停止処理、S43はミドルウェアCの通常停止処理、S44はOS停止とサーバ再起動の処理である。
ミドルウェアBの停止処理時に無応答となった場合、リカバリ処理としてS45、S43及びS44の処理(図6枠線内の中央のルートB)が実行される。ここで、S45はミドルウェアBの強制停止処理である。なお、ルートBにおける処理は、図5の枠線内に示した処理に対応しており、S25とS45、S26とS43、S27とS44が、それぞれ対応する。
ミドルウェアCの停止処理時に無応答となった場合、リカバリ処理としてS46及びS44の処理(図6枠線内の一番下のルートC)が実行される。ここで、S46はミドルウェアCの強制停止処理である。
ルートA、B、Cの各処理内容をみると、OS停止とサーバ再起動の処理S44はルートA、B及びCに含まれ、ミドルウェアCの通常終了S43はルートA及びBに含まれる。このように、サーバリカバリ処理における各ルートの処理は、個々の処理内容が重複している場合がある。
実施例2では、ジョブ管理サーバは、リカバリ処理を実行するためのリターンコードを、ジョブ実行サーバに送信する。ジョブ実行サーバは、受信したリターンコードに応じたリカバリ処理を実行する。例えば、リターンコード1はルートAの処理に対応し、S41、S42、S43、S44の各処理を順次実行する。また、リターンコード2はルートBの処理に対応し、S45、S43、S44の各処理を順次実行する。この場合、ジョブ実行サーバは、リターンコードとそれに対応する処理内容及が記載されたテーブルを持ってもよい。
以上のように、実施例2では、ある処理に不具合が発見され修正を要する場合には、当該処理のみを修正すればよく、当該処理を含む各ルートの処理を個別に修正する必要が無いので、メンテナンス性に優れる。例えば、OS停止とサーバ再起動の処理S44に不具合が発見された場合には、当該S44のみを修正すればよい。
また、実施例2においては、個々の処理の組み合わせを変更したり、新たな処理を追加したりする等の設計変更に、柔軟に対応することができる。
<データベース再編処理の異常処理時における処理フロー>
(実施例3)
図7は、本発明の一実施形態に係る、データベース再編処理の異常処理時における処理概要を示したものである。なお、データベース再編処理とは、データベースへのデータの追加、削除、更新が繰り返されることによって、データベースの格納効率が低下したときに行われるものであり、データベースの配置の乱れを修正し適切に配置する処理をいう。
データベース再編処理では、まず、再編処理の対象となる各テーブルのエクスポート処理を行う(S31)。エクスポート処理は、後に実行されるデータベース再編処理で何らかのエラーが発生した場合に備えて、バックアップをとることに相当する。
エクスポート処理が完了すると、データベース再編処理を行う(S32)。データベース再編処理は例えばテーブル単位で行われ、複数のテーブルが再編処理の対象となり、処理はテーブル毎に順次行われることが一般的である。ここでは簡単のため、テーブルD、E、Fの再編処理を行うこととする。
テーブルD、E、Fの再編処理が正常終了すると、データ件数の確認処理が行われる(S33)。データベース再編処理を開始した後に、データベースを再編する処理を実行するコマンドに対して、比較的短時間で異常終了がリターンされる場合がある。この場合は、エクスポートしたテーブルに対しテーブルインポート処理を行い(S34)、インポートしたデータの件数を確認する(S35)。
以上のように、データベース再編処理が正常終了するか、又は異常終了がリターンされた場合には、直ちに通常処理(S33)又は異常終了時の処理(S34、S35)が行われる。
これに対し、データベースの停止処理を実行しても、無応答になる場合がある。ここでは、テーブルEの再編処理中に、無応答状態になったものとする。
上述のように、本発明の実施形態によると、プロセス監視部によって無応答状態になったテーブルEを検知し、リカバリ処理を行うことが可能である。
なお、上述のサーバリブート処理の異常処理時における処理フローで説明したのと同様の方法によって、リカバリ処理をジョブ実行サーバの外部からの指示に基づいて実行することも可能である。この場合、ジョブ実行サーバは、処理結果(テーブルEの再編処理時に無応答)をジョブ管理サーバに送信する。
プロセス監視部は、リカバリ処理として、テーブルEの再編処理プロセスを停止し(S36)、テーブルE及びFのインポート処理(S37)を行った後に、データ件数を確認する(S38)。リカバリ処理をジョブ実行サーバの外部からの指示に基づいて実行する場合は、ジョブ実行サーバは受信したジョブ実行コマンドに基づき、上記リカバリ処理が行われる。
このように、本発明の実施形態によると、無応答となった処理中のプロセス(本例ではテーブルEの再編処理)を検知し判別することができるので、図7の点線で囲んだ部分の処理のように、正常に処理が終了したテーブルDの停止処理に関しては何も行わず、無応答になったテーブルE及び停止処理を行っていないテーブルFのみインポート処理を行うという、処理結果に応じたきめ細かいリカバリ処理を短時間で実行することが可能となる。
また、本発明の実施形態によると、通常数十分ないし数時間に設定されるタイムアウトよりも早く異常(テーブルEの再編処理の無応答)を検知することが可能となるので、上記リカバリ処理を短時間で実行することができる。
(実施例4)
実施例4においても、実施例2と同様に、ジョブ実行サーバはジョブ管理サーバから受信したリターンコード基づいて、リカバリ処理を行う点に特徴がある。
10 ジョブ実行サーバ
20 ジョブ管理サーバ
30 クライアント
40 通信ネットワーク
101 コマンド受信部
102 プロセス実行部
103 プロセス監視部
104 処理結果送信部
105 ログファイル

Claims (16)

  1. ジョブを構成するプロセスを実行するプロセス実行部と、前記プロセス実行部によって生成されるプロセス監視部とを有し、
    前記プロセス実行部は、前記プロセス毎にログファイルにログを記録し、
    前記プロセス監視部は、前記プロセス実行部を監視する、
    ジョブ実行サーバによって処理されるプロセスの監視システム。
  2. 前記プロセス監視部が前記プロセス実行部を監視することは、
    前記プロセス監視部が所定の時間ごとに前記プロセス実行部が存在しているか否かを確認し、前記プロセス実行部が存在していない場合には所定の時間内に処理を終えたと判断し、前記プロセス実行部が存在している場合には所定の時間内に処理を終えていないと判断することを含む、
    請求項1に記載の監視システム。
  3. 前記プロセス監視部は、前記ログファイルのログを所定の時間ごとに参照し、前回参照したログの内容から変化していない場合には、前記プロセスが処理中であると判断すること
    を特徴とする請求項2に記載の監視システム。
  4. 前記プロセス監視部が前記所定の時間内に処理を終えていないと判断した場合に、前記プロセス監視部は前記処理中のプロセスを停止する、
    請求項2に記載の監視システム。
  5. 前記プロセス監視部が前記所定の時間内に処理を終えたと判断した場合には、前記プロセス監視部が消滅する、
    請求項2に記載の監視システム。
  6. 前記ジョブ実行サーバは、
    外部から前記ジョブに対応するジョブ実行コマンドを受信するコマンド受信部と、
    前記プロセスの処理結果を前記外部に対して送信する処理結果送信部とを有する、
    請求項1に記載の監視システム。
  7. 前記プロセス監視部は、前記所定の時間内に処理を終えていないと判断した場合に、前記プロセス監視部の実行結果を前記プロセスの処理結果として前記処理結果送信部を介して前記外部に送信する、
    請求項2に記載の監視システム。
  8. 前記プロセス実行部は、前記所定の時間内に処理を終えたとき、前記プロセスの処理結果を前記処理結果送信部を介して前記外部に送信する、
    請求項7に記載の監視システム。
  9. 前記プロセス実行部は、プロセスの起動に対応して生成される、
    請求項8に記載の監視システム。
  10. 前記プロセス実行部は、前記ジョブの実行が終了すると消滅する、
    請求項1に記載の監視システム。
  11. 前記監視システムは、ジョブ管理サーバをさらに含み、
    前記ジョブ管理サーバは、前記ジョブ実行サーバに前記ジョブ実行コマンドを送信し、前記ジョブ実行サーバから前記プロセスの処理結果を受信する
    請求項10に記載の監視システム。
  12. 前記プロセス監視部が前記所定の時間内に処理を終えていないと判断した場合に、前記ジョブ管理サーバが前記ジョブの進行状況に応じたリカバリ処理を行う実行コマンドを前記ジョブ実行サーバに送信する、
    請求項11に記載の監視システム。
  13. 前記プロセス監視部が前記所定の時間内に処理を終えていないと判断した場合に、前記ジョブ管理サーバが前記ジョブの進行状況に応じたリターンコードを前記ジョブ実行サーバに送信し、前記ジョブ実行サーバは前記リターンコードに対応したリカバリ処理を行う、
    請求項11に記載の監視システム。
  14. 前記リカバリ処理は、リトライ処理を行うことを含む、請求項12又は13に記載の監視システム。
  15. 前記ジョブ実行コマンドは、前記ジョブ実行サーバのサーバリブートを行うことをその内容とする、請求項12乃至14のいずれか一つに記載の監視システム。
  16. 前記ジョブ実行コマンドは、前記ジョブ実行サーバのデータベース再編を行うことをその内容とする、請求項12乃至14のいずれか一つに記載の監視システム。
JP2013244878A 2013-08-12 2013-11-27 監視システム Withdrawn JP2015057685A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013244878A JP2015057685A (ja) 2013-08-12 2013-11-27 監視システム

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2013167261 2013-08-12
JP2013167261 2013-08-12
JP2013244878A JP2015057685A (ja) 2013-08-12 2013-11-27 監視システム

Publications (1)

Publication Number Publication Date
JP2015057685A true JP2015057685A (ja) 2015-03-26

Family

ID=52815756

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013244878A Withdrawn JP2015057685A (ja) 2013-08-12 2013-11-27 監視システム

Country Status (1)

Country Link
JP (1) JP2015057685A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10896076B2 (en) 2017-01-24 2021-01-19 Canon Kabushiki Kaisha Information processing system and control method for executing a process based on a message acquired from a queue
US20220342768A1 (en) * 2021-04-21 2022-10-27 EMC IP Holding Company LLC Reporting for database backups

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04280329A (ja) * 1991-03-08 1992-10-06 Fujitsu Ltd プログラム異常検出方式
JPH0962520A (ja) * 1995-08-23 1997-03-07 Oki Electric Ind Co Ltd 無限ループ監視装置
JPH0997188A (ja) * 1995-09-29 1997-04-08 Mitsubishi Electric Corp ジョブのスケジュール方式
JP2001229032A (ja) * 2000-02-15 2001-08-24 Matsushita Electric Ind Co Ltd アプリケーション自動復旧システム、アプリケーション自動復旧方法及びその記録媒体
JP2004164271A (ja) * 2002-11-13 2004-06-10 Nec System Technologies Ltd ジョブ実行監視方法及びプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04280329A (ja) * 1991-03-08 1992-10-06 Fujitsu Ltd プログラム異常検出方式
JPH0962520A (ja) * 1995-08-23 1997-03-07 Oki Electric Ind Co Ltd 無限ループ監視装置
JPH0997188A (ja) * 1995-09-29 1997-04-08 Mitsubishi Electric Corp ジョブのスケジュール方式
JP2001229032A (ja) * 2000-02-15 2001-08-24 Matsushita Electric Ind Co Ltd アプリケーション自動復旧システム、アプリケーション自動復旧方法及びその記録媒体
JP2004164271A (ja) * 2002-11-13 2004-06-10 Nec System Technologies Ltd ジョブ実行監視方法及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
石井信一郎,外4名, IT運用管理 攻めのツール活用術, vol. 第1版, JPN6017020632, 19 September 2011 (2011-09-19), JP, pages 111 - 130 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10896076B2 (en) 2017-01-24 2021-01-19 Canon Kabushiki Kaisha Information processing system and control method for executing a process based on a message acquired from a queue
US20220342768A1 (en) * 2021-04-21 2022-10-27 EMC IP Holding Company LLC Reporting for database backups

Similar Documents

Publication Publication Date Title
JP5187249B2 (ja) 冗長化システム用コネクションリカバリ装置,方法および処理プログラム
US20130205017A1 (en) Computer failure monitoring method and device
US20140032173A1 (en) Information processing apparatus, and monitoring method
EP3288269A1 (en) Method and system for cloud-based storage of video, and method and system for previewing cloud-stored video
US11218541B2 (en) Data storage method, storage server, and storage medium and system
WO2017198144A1 (zh) 一种iptv系统容灾方法及iptv容灾系统
CN102394914A (zh) 集群脑裂处理方法和装置
CN105159795A (zh) 数据同步方法、装置和系统
CN109391691A (zh) 一种单节点故障下nas服务的恢复方法及相关装置
CN103701583A (zh) 加密处理装置及方法
CN103324554A (zh) 备用系统设备、控制方法及其程序
JP2017536759A (ja) 基地局の断線後の自己回復の方法及び装置
JP2005301436A (ja) クラスタシステムおよびクラスタシステムにおける障害回復方法
CN110620798B (zh) Ftp连接的控制方法、系统、设备和存储介质
JP5558279B2 (ja) 監視制御システム、およびこれに利用する監視制御装置、監視制御方法
JP2015057685A (ja) 監視システム
JP2016066303A (ja) サーバ装置、冗長構成サーバシステム、情報引継プログラム及び情報引継方法
US11954509B2 (en) Service continuation system and service continuation method between active and standby virtual servers
JP2006285453A (ja) 情報処理装置、情報処理方法、および情報処理プログラム
CN103023697B (zh) 一种阵列多路径的管理方法、装置及系统
JP2013161266A (ja) 呼処理情報の冗長化制御システムおよびこれに利用する予備保守サーバ
JP5150696B2 (ja) 記憶処理装置及びフェイルオーバ制御方法
CN105786645A (zh) 一种操作系统的备份、还原方法及装置
JP5691248B2 (ja) タスク引継プログラム、処理装置及びコンピュータ・システム
JP5344712B2 (ja) データ整合方法及びサービス提供装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160825

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170525

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170606

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170804

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171219

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20180215