JP2011076512A - ジョブ管理サーバーの統合管理システム - Google Patents

ジョブ管理サーバーの統合管理システム Download PDF

Info

Publication number
JP2011076512A
JP2011076512A JP2009229236A JP2009229236A JP2011076512A JP 2011076512 A JP2011076512 A JP 2011076512A JP 2009229236 A JP2009229236 A JP 2009229236A JP 2009229236 A JP2009229236 A JP 2009229236A JP 2011076512 A JP2011076512 A JP 2011076512A
Authority
JP
Japan
Prior art keywords
job
job management
management manager
manager
execution agent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009229236A
Other languages
English (en)
Inventor
Yukiya Kusunose
由希也 楠瀬
Yasunori Hayashida
安規 林田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Solutions Ltd
Original Assignee
Hitachi Solutions Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Solutions Ltd filed Critical Hitachi Solutions Ltd
Priority to JP2009229236A priority Critical patent/JP2011076512A/ja
Publication of JP2011076512A publication Critical patent/JP2011076512A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Hardware Redundancy (AREA)

Abstract

【課題】 ジョブ管理マネージャが稼働し、その配下のジョブ実行エージェントでジョブを実行するジョブ管理サーバーを、複数台備えたジョブ管理システムにおいて、各サーバーの状況と本番機と代行機間のレプリケーションの状況の把握、およびそれらに対する各種操作を可能とする統合ジョブ管理マネージャを設け、任意の拠点から統合ジョブ管理マネージャにログインして集中管理することを目的とする。
【解決手段】 ジョブ管理マネージャに異常(メンテナンスによるサーバー停止を含む)が発生していることを検出し、異常が検出されたジョブ管理マネージャを代行機のジョブ管理マネージャに切り替えることによりジョブ実行業務を継続させる統合ジョブ管理マネージャを設ける。これにより、異常が発生したジョブ管理サーバーのジョブ管理マネージャを代行機のジョブ管理マネージャに切り替える制御を遠隔から行うことができる。
【選択図】 図2

Description

本発明は、複数のジョブ管理サーバーの状況を監視し操作可能な統合ジョブ管理マネージャを設け、任意の拠点から統合ジョブ管理マネージャにログインして集中管理する技術に関する。
大規模ジョブ管理システムでは、システム故障(広域災害などによる場合を含む)が発生しても業務処理を継続して運用できるように、通常処理(本番)用の装置に対し災害対策用予備機を設けることが少なくない。例えば、拠点Aに本番用の装置を設置し、拠点Bに災害対策用予備機を設置する。そして、本番用の拠点Aで障害が発生し、例えば拠点Aの装置で動作していたジョブ管理マネージャ1、ジョブ実行エージェントA、およびジョブ実行エージェントBが停止した場合、拠点Bの災対用予備機で継続運用できるようにする。このとき、拠点Aのジョブ管理マネージャ1と拠点Bのジョブ管理マネージャ2との間は、データベース(DB)のデータレプリケーション機能により、データの複製が拠点B側の装置に作成されていることを前提とする。
このように拠点Aでの障害発生により、拠点Aで実行していた業務処理を拠点Bの予備機で継続して実行するようにするためには、以下のような操作を各拠点にて手動で実施する必要があった。
(1) [拠点B]拠点Aの障害を受けて、拠点Bの予備機でジョブ管理マネージャ2のサービスを起動する。
(2) [拠点B]ジョブの実行先サーバーが、拠点Aのジョブ実行エージェントAやジョブ実行エージェントBになっているジョブの実行先を、拠点Bのジョブ実行エージェントZやジョブ実行エージェントYに変更する。
(3) [拠点A]拠点Aのジョブ実行エージェントC(このエージェントは拠点Aで正常動作しているとする)で実行中のジョブの終了結果を拠点Bのジョブ管理マネージャ2で受信できるように、ジョブ実行エージェントCの親サーバ名をジョブ管理マネージャ2に変更する。
本発明に関連する公知技術文献としては、下記特許文献1に記載の技術がある。該特許文献は、冗長システムにおいて障害発生時に系の切り替えを行う技術を開示する。
特開2009-98715号公報
大規模ジョブ管理システムでは、複数のサーバーマシンが国内・国外を含めて数箇所の拠点に点在している。更に、24時間稼動などの厳しい運用要件がある。このような環境では、システム故障(広域災害含む)やサーバーメンテナンス時などのサーバーを停止せざる得ない状況が発生するが、点在した拠点間の状況把握や各種操作を行うためには多くの工数と人員が必要となる。
複数台のサーバーに対して、代行機への切り替えを行う際、停止するそれぞれのサーバーおよび停止するサーバーが利用しているジョブの実行先サーバーの状況を把握するには、点在するサーバー毎に確認する必要がある。
また、ジョブ実行先サーバーを代行機に切り替える場合、ジョブ実行先ホスト名やそのサーバーに合ったユーザー名等のジョブ情報の書き換えが必要であるが、ジョブ数に比例して書き換え作業が増大する。
また、ジョブの実行中でもジョブ管理サーバーが代行機に切り替えられるように、ジョブ実行先サーバーで、ジョブ要求元であるジョブ管理サーバーのホスト名等の情報を書き換える必要があるが、ジョブ実行先サーバー数に比例して書き換え作業が増大する。
ジョブの実行主体を主系サーバーから待機系サーバーへと切替えて継続してジョブを実行する技術として、特許文献1に記載の技術がある。しかし、特許文献1に記載の技術は、冗長システム装置におけるジョブの実行方法と実行プログラムに特化したものであり、各拠点に点在するサーバーの状況を把握し、任意の拠点から統合管理するものではない。
本発明の目的は、各サーバーの状況と本番機と代行機間のレプリケーションの状況の把握、およびそれらに対する各種操作を可能とする統合ジョブ管理マネージャを設け、任意の拠点から統合ジョブ管理マネージャにログインして集中管理することにある。
上記目的を達成するために、請求項1に係る発明は、ジョブ管理マネージャが稼働し、該ジョブ管理マネージャの配下のジョブ実行エージェントでジョブを実行するジョブ管理サーバーを、複数台備えたジョブ管理システムにおけるジョブ管理サーバーの統合管理システムであって、前記ジョブ管理マネージャに異常(メンテナンスによるサーバー停止を含む)が発生していることを検出する手段と、前記異常が検出されたジョブ管理マネージャを代行機のジョブ管理マネージャに切り替えることによりジョブ実行業務を継続させる切り替え制御手段とを備えることを特徴とする。これにより、異常が発生したジョブ管理サーバーのジョブ管理マネージャを代行機のジョブ管理マネージャに切り替える制御を遠隔から行うことができる。
請求項2に係る発明は、ジョブ管理マネージャが稼働し、該ジョブ管理マネージャの配下のジョブ実行エージェントでジョブを実行するジョブ管理サーバーを、複数台備えたジョブ管理システムにおけるジョブ管理サーバーの統合管理システムであって、前記ジョブ実行エージェントに異常(メンテナンスによるサーバー停止を含む)が発生していることを検出する手段と、前記異常が検出されたジョブ実行エージェントを代行機のジョブ実行エージェントに切り替えることによりジョブ実行業務を継続させる切り替え制御手段とを備えることを特徴とする。
請求項3に係る発明は、請求項1に記載のジョブ管理サーバーの統合管理システムにおいて、前記ジョブ管理マネージャを代行機のジョブ管理マネージャに切替える際に、前記ジョブ実行エージェントで実行中のジョブ結果を切り替え後のジョブ管理マネージャに通知するため、前記ジョブ実行エージェントの親サーバーのジョブ管理マネージャのサーバー名を切り替え後のジョブ管理マネージャ名に変更することを特徴とする。
本発明によれば、統合ジョブ管理マネージャを用いて、各拠点に点在するジョブ管理マネージャを管理し、それらのジョブ管理マネージャ配下のジョブ実行エージェントも同様に管理し、マシン故障(広域災害含む)やマシンメンテナンスなどのときに、統合ジョブ管理マネージャ側から操作を行って即座に運用変更が可能である。例えば、拠点Aのジョブ管理マネージャに故障等が発生しても、拠点Bのジョブ管理マネージャに切り替えて、ジョブの運用変更やジョブ再実行をすることができ、マシンを停止させないシステムを提供できる。ジョブ実行エージェントに故障等が発生した場合も同様に、代行機のジョブ実行エージェントに切り替えることができる。ジョブ管理マネージャを代行機のジョブ管理マネージャに切替える際に、ジョブ実行エージェントの親サーバーのジョブ管理マネージャのサーバー名を切り替え後のジョブ管理マネージャ名に変更することにより、ジョブ実行エージェントで実行中のジョブ結果を切り替え後のジョブ管理マネージャに通知するように設定することができる。
本発明の実施形態であるシステムの構成図である。 本実施形態のシステムにおける異常発生時の実施例1である。 本実施形態のシステムにおける異常発生時の実施例2である。 本実施形態のシステムにおける異常発生時の実施例3である。 サーバー監視処理のフローチャートである。 ジョブ管理マネージャ異常処理のフローチャートである。 ジョブ実行エージェント異常処理のフローチャートである。 本実施形態で利用するジョブ管理マネージャ情報テーブルで必要なデータ構造である。 本実施形態で利用するジョブ実行エージェント情報テーブルで必要なデータ構造である。 本実施形態で利用するジョブ管理マネージャ異常情報テーブルで必要なデータ構造である。 本実施形態で利用するジョブ実行エージェント異常情報テーブルで必要なデータ構造である。
以下、本発明の実施の形態を図面に基づき説明する。
図1は、本発明の実施形態である統合ジョブ管理マネージャが統合管理をするシステムの構成の一例を示す。拠点Aのシステムでは、ジョブ管理マネージャA(110)と業務運用管理システムDB(111)が稼働している。ジョブ管理マネージャA(110)は、処理すべきジョブを、配下のジョブ実行エージェントA1(112),A2(113),A3(114)などに実行させる。拠点Bのシステムでは、ジョブ管理マネージャB(120)が稼働しており、DBのデータレプリケーション機能により拠点Aの業務運用管理システムDB(111)のデータの複製が拠点Bの業務運用管理システムDB(121)に作成されている。ジョブ管理マネージャB(120)は、処理すべきジョブを、配下のジョブ実行エージェントB1(122),B2(123),B3(134)などに実行させる。
統合ジョブ管理マネージャ(100)は、各拠点に点在するジョブ管理マネージャA(110)および配下のジョブ実行エージェントA1(112),A2(113),A3(114)、ジョブ管理マネージャB(120)および配下のジョブ実行エージェントB1(122),B2(123),B3(134)、並びに、ジョブ・ジョブネット監視部(130)の状況を把握し統合管理を行う。統合ジョブ管理マネージャ(100)は、どのジョブ管理マネージャの配下のどのジョブ実行エージェントでどのようなジョブが実行されているのかを全て管理している。本システムの管理者は、任意の拠点から統合ジョブ管理マネージャにログインして監視View(監視および制御操作用の画面)を表示し、該監視Viewから以下で説明するような各部の監視および統合管理を行うことができる。
図2は、図1のシステムにおいて、ジョブ管理マネージャA(110)でシステムに故障が発生し、配下のジョブ実行エージェントA1(112),A2(113),A3(114)との通信が不通となった場合の例を示す。この例では、この時点で、ジョブ管理マネージャA(110)の管理下でジョブ実行エージェントA1(112),A2(113),A3(114)に実行させているジョブが無いケースを想定している。この場合、本実施形態の統合ジョブ管理マネージャ(100)は、ジョブ管理マネージャA(110)が停止したことを検知し、ジョブ管理マネージャA(110)の役割を代行機のジョブ管理マネージャB(120)へと切り替えて業務を継続させる作業を遠隔で制御する操作を行うことができる。これにより、これ以降、ジョブ管理マネージャA(110)の管理下で実行すべきジョブが発生したときには、代行機のジョブ管理マネージャB(120)がジョブ実行エージェントB1(122),…などを利用して当該ジョブを実行することになる。
図3は、図1のシステムにおいて、ジョブ管理マネージャA(110)の配下のジョブ実行エージェントA1(112)とA2(113)でシステムに故障が発生し停止したが、ジョブ実行エージェントA3(114)は正常に稼働している場合の例である。この例では、ジョブ管理マネージャA(110)の管理下で、ジョブ実行エージェントA1(112),A2(113),A3(114)にそれぞれ実行させているジョブがあることを想定している。従って、停止したジョブ実行エージェントA1(112)とA2(113)でそれぞれ実行していたジョブは、代行機に移行させる必要がある。この場合、統合ジョブ管理マネージャ(100)は、ジョブ実行エージェントA1(112)とA2(113)が停止してしまったことを検知し、これらのエージェントで実行していたジョブ実行業務を継続させるために、ジョブ実行エージェントのサーバー名を代行機のジョブ管理マネージャB(120)へ変更し、ジョブ実行エージェントB1(122),B2(123)でこれらのジョブを再実行させる操作をすることができる。これにより、ジョブ実行エージェントA1(112),A2(113)で実行していたジョブは、代行機のジョブ実行エージェントB1(122),B2(123)で継続実行させることができる。ジョブ管理マネージャA(110)の管理下で正常に動作しているジョブ実行エージェントA3(114)については、そのまま動作が継続される。
図4は、図1のシステムにおいて、ジョブ管理マネージャA(110)でシステムに故障が発生し、配下のジョブ実行エージェントA1(112),A2(113),A3(114)との通信が不通となり、かつ、ジョブ実行エージェントA3(114)は正常に稼働している場合の例である。この例では、ジョブ管理マネージャA(110)の管理下で、ジョブ実行エージェントA1(112),A2(113),A3(114)にそれぞれ実行させているジョブがあることを想定している。従って、停止したジョブ実行エージェントA1(112)とA2(113)でそれぞれ実行していたジョブは、代行機に移行させる必要がある。この場合、統合ジョブ管理マネージャ(100)は、ジョブ実行エージェントA1(112)とA2(113)が停止してしまったことを検知し、これらのエージェントで実行していたジョブ実行業務を継続させるために、ジョブ実行エージェントのサーバー名を代行機のジョブ管理マネージャB(120)へ変更し、ジョブ実行エージェントB1(122),B2(123)でこれらのジョブを再実行させる操作をすることができる。これにより、ジョブ実行エージェントA1(112),A2(113)で実行していたジョブは、代行機のジョブ実行エージェントB1(122),B2(123)で継続実行させることができる。さらに、ジョブ実行エージェントA3(114)はジョブ管理マネージャA(110)の管理下のエージェントであるので実行が完了したジョブの実行結果をジョブ管理マネージャA(110)に送信するように設定されているが、ジョブ管理マネージャA(110)では故障が発生しているので、そのジョブ実行結果は代替機のジョブ管理マネージャB(120)に送信するようにしたい。そのため、統合ジョブ管理マネージャ(100)は、ジョブ実行エージェントA3(114)の親サーバーであるジョブ管理マネージャのサーバー名をジョブ管理マネージャA(110)からジョブ管理マネージャB(120)に切り替える。これにより、ジョブ実行エージェントA3(114)は、実行が完了したジョブの実行結果をジョブ管理マネージャB(120)に対して送信するため、その実行結果を切り替え後のジョブ管理マネージャB(120)にて管理することができる。
図5は、本実施形態における統合ジョブ管理マネージャ(100)で実行する監視処理の概要を示すフローチャートである。統合ジョブ管理マネージャ(100)は、適当なタイミング(例えば所定時間毎あるいは管理者が指示したとき)で本処理を実行する。
まず、統合ジョブ管理マネージャ(100)が監視をしているジョブ管理マネージャの数だけループ処理を繰り返す(ステップ501)。このループ処理では、統合ジョブ管理マネージャ(100)は、監視しているジョブ管理マネージャと通信を行う(ステップ502)。この通信では、当該ジョブ管理マネージャが正常動作しているか否かを示す情報とともに、当該ジョブ管理マネージャから配下のエージェントで実行させているジョブに関する各種情報を収集する。当該ジョブ管理マネージャから正常動作している旨を示す情報を受信したか否かを判定する(ステップ503)。正常動作している場合はステップ505に進む。異常が発生している旨を示す情報を受信した場合、あるいは一定時間経過しても当該ジョブ管理マネージャから応答がない場合は、異常と判断をして、ジョブ管理マネージャの異常処理(図6で後述する)を行う(ステップ504)。
次に、ステップ505では、統合ジョブ管理マネージャ(100)が監視しているジョブ実行エージェントの数だけ処理を繰り返すループ処理を行う。このループ処理では、まずジョブ実行エージェントと通信を行う(ステップ506)。この通信では、当該ジョブ管理マネージャが正常動作しているか否かを示す情報とともに、当該ジョブ実行エージェントで実行中のジョブに関する各種情報を収集する。当該ジョブ実行エージェントから正常動作している旨を示す情報を受信したか否かを判定する(ステップ507)。正常動作している場合は、次のジョブ実行エージェントの処理へループを進める。ステップ507で異常が発生している旨を示す情報を受信した場合、あるいは一定時間経過しても当該ジョブ実行エージェントから応答がない場合は、異常と判断をして、ジョブ実行エージェントの異常処理(図7で後述する)を行う(ステップ508)。すべてのジョブ実行エージェントに対して処理が終了したらループを抜ける。また、すべてのジョブ管理マネージャに対して処理が終了したら、ジョブ管理マネージャのループも抜けて、処理を終了する。
図6は、図5のステップ504で実行するジョブ管理マネージャの異常処理の概要を示すフローチャートである。まず、ジョブ管理マネージャ異常情報テーブルを参照して、異常を検出したジョブ管理マネージャのジョブ管理マネージャ名が存在するか否かを判定する(ステップ601)。ジョブ管理マネージャ異常情報テーブル(図10で詳しく説明する)は、異常が発生したジョブ管理マネージャに関する情報を格納するテーブルである。ジョブ管理マネージャ異常情報テーブルに当該ジョブ管理マネージャ名が既に有る場合は、ジョブ管理マネージャの異常処理を終了する。無い場合は、当該ジョブ管理マネージャに関する異常情報をジョブ管理マネージャ異常情報テーブルに追加する(ステップ602)。また、追加したレコード中のマネージャの切り替え先拠点名(1006)および切り替え先ジョブ管理マネージャ名(1007)を、新たに切り替えてジョブを継続実行する拠点名およびジョブ管理マネージャ名に、更新する(ステップ603)。次に、ジョブ管理マネージャの変更を行う(ステップ604)。また、ジョブ管理マネージャ情報テーブルを更新する(ステップ605)。ジョブ管理マネージャ情報テーブル(図8で詳しく説明する)は、各ジョブ管理マネージャに関する情報を格納するテーブルである。以上で、ジョブ管理マネージャの異常処理を終了する。
図7は、図5のステップ508で実行するジョブ実行エージェントの異常処理の概要を示すフローチャートである。まず、ジョブ実行エージェント異常情報テーブルを参照して、異常を検出したジョブ実行エージェントのジョブ実行エージェント名が存在するか否かを判定する(ステップ701)。ジョブ実行エージェント異常情報テーブル(図11で詳しく説明する)は、異常が発生したジョブ実行エージェントに関する情報を格納するテーブルである。ジョブ実行エージェント異常情報テーブルに当該ジョブ実行エージェント名が既に有る場合は、ジョブ実行エージェントの異常処理を終了する。無い場合は、当該ジョブ実行エージェントに関する異常情報をジョブ実行エージェント異常情報テーブルに追加する(ステップ702)。次に、当該ジョブ実行エージェントの親サーバに当るジョブ管理マネージャが停止しているか否かの判断を行う(ステップ703)。稼働中の場合は、ジョブ実行エージェント異常情報テーブルの当該ジョブ実行エージェントのレコードの切り替え先拠点名(1107)、切り替え先ジョブ管理マネージャ名(1108)、および切り替え先ジョブ実行エージェント名(1109)を、新たに切り替えてジョブを継続実行する拠点名、ジョブ管理マネージャ名、およびジョブ実行エージェント名に更新する(ステップ704)。次に、ジョブ実行エージェントを再起動し(ステップ707)、ジョブ実行エージェント情報テーブルを更新する(ステップ708)。
ステップ703でジョブ管理マネージャが停止している場合は、ジョブ実行エージェント異常情報テーブルの当該ジョブ実行エージェントのレコードの切り替え先拠点名(1107)、切り替え先ジョブ管理マネージャ名(1108)、および切り替え先ジョブ実行エージェント名(1109)を、新たに親サーバーとなる拠点名およびジョブ管理マネージャ名に更新する(ステップ705)。次に、ジョブ管理マネージャを切り替え(ステップ706)、ジョブ実行エージェントを再起動し(ステップ707)、ジョブ実行エージェント情報テーブルを更新する(ステップ708)。
以上でジョブ実行エージェントの異常処理を終了する。
図8は、統合ジョブ管理マネージャ(100)が管理するジョブ管理マネージャ情報テーブルのデータ構成図を示す。本テーブルには、統合ジョブ管理マネージャ(100)が管理を行っているジョブ管理マネージャに関する情報を登録する。各レコード800,810,820,830は、それぞれが1つのジョブ管理マネージャに関する情報を登録するレコードであり、統合ジョブ管理マネージャ(100)が監視を行っているジョブ管理マネージャの数だけのレコードが登録されている。
1レコードは、ジョブ管理マネージャ名(801)、IPアドレス(802)、拠点名(803)、Version(804)、状態(805)、管理ジョブ数(806)、管理ジョブ1(807)、管理ジョブ2(808)、および、管理ジョブ3(809)の各エリアデータから構成される。統合ジョブ管理マネージャ(100)は、ジョブ管理マネージャと通信を行って、当該ジョブ管理マネージャに関するこれらの情報を受信し、ジョブ管理マネージャ情報テーブルに格納する。
図9は、統合ジョブ管理マネージャ(100)が管理するジョブ管理マネージャ配下ジョブ実行エージェント情報テーブルのデータ構成図を示す。本テーブルには、統合ジョブ管理マネージャ(100)が監視を行っているジョブ実行エージェントに関する情報を登録する。各レコード900,910,920,930,940,950は、それぞれが1つのジョブ実行エージェントに関する情報を登録するレコードであり、統合ジョブ管理マネージャ(100)が監視を行っているジョブ実行エージェントの数だけのレコードが登録されている。
1レコードは、ジョブ実行エージェント名(901)、IPアドレス(902)、拠点名(903)、Version(904)、状態(905)、および、親サーバ名(ジョブ管理マネージャ)(906)の各エリアデータから構成される。統合ジョブ管理マネージャ(100)は、ジョブ実行エージェントと通信を行ったときに、当該ジョブ実行エージェントに関するこれらの情報を受信し、ジョブ実行エージェント情報テーブルに格納する。
図10は、統合ジョブ管理マネージャ(100)が管理するジョブ管理マネージャ異常情報テーブルのデータ構成図を示す。本テーブルには、統合ジョブ管理マネージャ(100)が監視を行っているジョブ管理マネージャに異常が発生した場合に、当該ジョブ管理マネージャに関する情報を登録する。各レコード1000,1010,1020,1030は、それぞれが1つのジョブ管理マネージャに関する情報を登録するレコードであり、異常が発生したジョブ管理マネージャの数だけのレコードが登録されている。
1レコードは、ジョブ管理マネージャ名(1001)、IPアドレス(1002)、拠点名(1003)、Version(1004)、追加登録日(1005)、切り替え先拠点名(1006)、および、切り替え先ジョブ管理マネージャ名(1007)の各エリアデータから構成される。統合ジョブ管理マネージャ(100)は、ジョブ管理マネージャと通信を行い、そのジョブ管理マネージャに異常が発生していると判断したとき、(ジョブ管理マネージャ異常情報テーブルに同じジョブ管理マネージャ名が存在しない場合には、)これらの情報を格納する。
図11は、統合ジョブ管理マネージャ(100)のジョブ実行エージェント異常情報テーブルのデータ構成図を示す。本テーブルには、統合ジョブ管理マネージャ(100)が監視を行っているジョブ実行エージェントに異常が発生した場合に、当該ジョブ実行エージェントに関する情報を登録する。各レコード1100,1110,1120,1130は、それぞれが1つのジョブ実行エージェントに関する情報を登録するレコードであり、異常が発生したジョブ実行エージェントの数だけのレコードが登録されている。
1レコードは、ジョブ実行エージェント名(1101)、IPアドレス(1102)、拠点名(1103)、親サーバ名(1104)、Version(1105)、追加登録日(1106)、切り替え先拠点名(1107)、切り替え先ジョブ管理マネージャ名(1108)、および、切り替え先ジョブ実行エージェント名(1109)の各エリアデータから構成される。統合ジョブ管理マネージャ(100)は、ジョブ実行エージェントと通信を行い、そのジョブ実行エージェントに異常が発生していると判断したとき、(ジョブ実行エージェント情報テーブルに同じジョブ実行エージェント名が存在しない場合には、)これらの情報を格納する。
上述の図2〜4に示した異常が検出された各場合で、上記フローチャートに沿ってどのように処理が進むかについて説明する。
まず図2の場合、統合ジョブ管理マネージャ(100)は、図5のステップ503でジョブ管理マネージャA(110)に異常が発生していることを検知し、ステップ504で図6の異常処理を行う。図10のジョブ管理マネージャ異常情報テーブルにジョブ管理マネージャA(110)に関するレコードが未だ無かったときは、図6のステップ602で、ジョブ管理マネージャ異常情報テーブルに、ジョブ管理マネージャA(110)に関するレコードが追加される。このとき、ジョブ管理マネージャ名(1001)はジョブ管理マネージャA(110)とし、IPアドレス(1002)、拠点名(1003)、Version(1004)、および追加登録日(1005)には、当該ジョブ管理マネージャA(110)についてのそれらの情報を設定する。また、ステップ603で、当該レコードの切り替え先拠点名(1006)および切り替え先ジョブ管理マネージャ名(1007)に、代行機である拠点Bのジョブ管理マネージャB(120)を設定する。さらに、ステップ604では、ジョブ管理マネージャを変更する。この処理は、いままでジョブ管理マネージャA(110)が担っていた役割(発生したジョブを配下のエージェントに実行させてその実行結果を受け取りジョブ依頼元などに送る機能)をジョブ管理マネージャB(120)に切り替える処理である。次にステップ605では、図8のジョブ管理マネージャ情報テーブルのジョブ管理マネージャA(110)のレコードの状態(805)を「停止中」とし、管理ジョブ数(806)を「0」とする。以上により、これ以降、ジョブ管理マネージャA(110)の役割はジョブ管理マネージャB(120)に引き継がれ、ジョブの実行を継続して行うことができる。
次に図3の場合、統合ジョブ管理マネージャ(100)は、図5のステップ503ではジョブ管理マネージャA(110)が正常動作していることを検知し、ステップ505に進む。ステップ505のループ処理内のステップ506,507で、まずジョブ実行エージェントA1(112)の異常を検出するので、ステップ508で図7の異常処理を行う。図11のジョブ実行エージェント異常情報テーブルにジョブ実行エージェントA1(112)に関するレコードが未だ無かったときは、図7のステップ702で、ジョブ実行エージェント異常情報テーブルに、ジョブ実行エージェントA1(112)に関するレコードが追加される。このとき、ジョブ実行エージェント名(1101)はジョブ実行エージェントA1(112)とし、IPアドレス(1102)、拠点名(1103)、親サーバ名(1104)、Version(1105)、および追加登録日(1106)には、当該ジョブ実行エージェントA1(112)についてのそれらの情報を設定する。次に、ステップ703で、ジョブ実行エージェントA1(112)の親サーバであるジョブ管理マネージャA(110)が停止していないかチェックするが、ここではジョブ管理マネージャA(110)は正常に動作しているので、ステップ704に進む。
ステップ704では、ステップ702で追加したジョブ実行エージェント異常情報テーブルのジョブ実行エージェントA1(112)に関するレコードの切り替え先拠点名(1107)、切り替え先ジョブ管理マネージャ名(1108)、および、切り替え先ジョブ実行エージェント名(1109)に、代行機である拠点Bのジョブ管理マネージャB(120)とジョブ実行エージェントB1(122)を設定する。次に、ジョブ実行エージェントB1(122)を再起動し(ステップ707)、ジョブ実行エージェント情報テーブルを更新する(ステップ708)。ジョブ実行エージェントA2(113)についても、ステップ505のループ処理の中で同様に処理する。以上により、異常が発生したジョブ実行エージェントA1(112)およびジョブ実行エージェントA2(113)で実行していた全てのジョブは、代行機である拠点Bのジョブ実行エージェントB1(122)およびジョブ実行エージェントB2(123)に移行され、継続して実行されることになる。ジョブ管理マネージャA(110)の管理下で正常に動作しているジョブ実行エージェントA3(114)については、親サーバーがジョブ管理マネージャA(110)のまま動作が継続される。
次に図4の場合、統合ジョブ管理マネージャ(100)は、図5のステップ503でジョブ管理マネージャA(110)に異常が発生していることを検知し、ステップ504で図6の異常処理を行う。この異常処理では、上記図2の場合で説明したのと同様にして、ジョブ管理マネージャA(110)の役割をジョブ管理マネージャB(120)で引き継ぎ、以降のジョブの実行を継続して行うことができるようにする。
さらに、ステップ505のループ処理で、ジョブ実行エージェントA1(112)の異常を検出し、ステップ508で図7の異常処理を行う。図11のジョブ実行エージェント異常情報テーブルにジョブ実行エージェントA1(112)に関するレコードが未だ無かったときは、図7のステップ702で、ジョブ実行エージェント異常情報テーブルに、ジョブ実行エージェントA1(112)に関するレコードが追加される。次に、ステップ703で、ジョブ実行エージェントA1(112)の親サーバであるジョブ管理マネージャA(110)が停止していないかチェックするが、ここではジョブ管理マネージャA(110)は停止しているので、ステップ705に進む。ステップ705では、ステップ702で追加したジョブ実行エージェント異常情報テーブルのジョブ実行エージェントA1(112)に関するレコードの切り替え先拠点名(1107)、切り替え先ジョブ管理マネージャ名(1108)、および、切り替え先ジョブ実行エージェント名(1109)に、代行機である拠点Bのジョブ管理マネージャB(120)とジョブ実行エージェントB2(123)を設定する。次に、ステップ706〜708の処理を行う。ジョブ実行エージェントA2(113)についても同様に処理される。これにより、異常が発生したジョブ実行エージェントA1(112)およびジョブ実行エージェントA2(113)で実行していた全てのジョブは、代行機である拠点Bのジョブ実行エージェントB2(123)およびジョブ実行エージェントB1(122)に移行され、継続して実行されることになる。
さらに、図4で正常に動作しているジョブ実行エージェントA3(114)については、ステップ507で正常であると判定されるが、このステップ507の例外的処理によりステップ508の異常処理に進むものとする。ステップ507の例外的処理とは、判定対象のジョブ実行エージェントが正常動作していたとしても、親サーバであるジョブ管理マネージャに異常が発生しており、かつ、当該ジョブ実行エージェントで実行中のジョブがあった場合は、ステップ507から508に進んで当該ジョブ実行エージェントの異常処理(当該ジョブ実行エージェントに異常が発生しているわけではないが、その親サーバに異常が発生しているので、その親サーバを切り替える必要があり、異常処理の中でその切り替え処理を行うものである)を行う。親サーバであるジョブ管理マネージャが正常である場合、あるいは親サーバに異常が発生しているが当該ジョブ実行エージェントで実行中のジョブが無い場合は、当該ジョブ実行エージェントの異常処理を行う必要がないので、ステップ507から次のジョブ実行エージェントのループ処理に進む。
図4のジョブ実行エージェントA3(114)についての図7の異常処理で、図11のジョブ実行エージェント異常情報テーブルにジョブ実行エージェントA3(114)に関するレコードが未だ無かったときは、ステップ702で、ジョブ実行エージェント異常情報テーブルに、ジョブ実行エージェントA3(114)に関するレコードが追加される。次に、ステップ703で、ジョブ実行エージェントA3(114)の親サーバであるジョブ管理マネージャA(110)が停止していないかチェックするが、ここではジョブ管理マネージャA(110)は停止しているので、ステップ705に進む。ステップ705では、ステップ702で追加したジョブ実行エージェント異常情報テーブルのジョブ実行エージェントA3(114)に関するレコードの切り替え先拠点名(1107)と切り替え先ジョブ管理マネージャ名(1108)に代行機である拠点Bのジョブ管理マネージャB(120)を設定する。なお、ジョブ実行エージェントA3(114)自体は正常動作しているので、切り替え先ジョブ実行エージェント名(1109)の設定は不要である。次に、ステップ706→707→708と進む。以上により、ジョブ実行エージェントA3(114)の親サーバがジョブ管理マネージャB(120)に切り替えられるので、ジョブ実行エージェントA3(114)で実行中のジョブの実行結果は、ジョブ管理マネージャB(120)に送られて処理される。
100…統合ジョブ管理マネージャ、110…ジョブ管理マネージャA、111…業務運用管理システムDB、112…ジョブ実行エージェントA1、113…ジョブ実行エージェントA2、114…ジョブ実行エージェントA3、120…ジョブ管理マネージャB、121…業務運用管理システムDB、122…ジョブ実行エージェントB1、123…ジョブ実行エージェントB2、124…ジョブ実行エージェントB3、130…ジョブ・ジョブネット監視部。

Claims (3)

  1. ジョブ管理マネージャが稼働し、該ジョブ管理マネージャの配下のジョブ実行エージェントでジョブを実行するジョブ管理サーバーを、複数台備えたジョブ管理システムにおけるジョブ管理サーバーの統合管理システムであって、
    前記ジョブ管理マネージャに異常(メンテナンスによるサーバー停止を含む)が発生していることを検出する手段と、
    前記異常が検出されたジョブ管理マネージャを代行機のジョブ管理マネージャに切り替えることによりジョブ実行業務を継続させる切り替え制御手段と
    を備えることを特徴とするジョブ管理サーバーの統合管理システム。
  2. ジョブ管理マネージャが稼働し、該ジョブ管理マネージャの配下のジョブ実行エージェントでジョブを実行するジョブ管理サーバーを、複数台備えたジョブ管理システムにおけるジョブ管理サーバーの統合管理システムであって、
    前記ジョブ実行エージェントに異常(メンテナンスによるサーバー停止を含む)が発生していることを検出する手段と、
    前記異常が検出されたジョブ実行エージェントを代行機のジョブ実行エージェントに切り替えることによりジョブ実行業務を継続させる切り替え制御手段と
    を備えることを特徴とするジョブ管理サーバーの統合管理システム。
  3. 請求項1に記載のジョブ管理サーバーの統合管理システムにおいて、
    前記ジョブ管理マネージャを代行機のジョブ管理マネージャに切替える際に、前記ジョブ実行エージェントで実行中のジョブ結果を切り替え後のジョブ管理マネージャに通知するため、前記ジョブ実行エージェントの親サーバーのジョブ管理マネージャのサーバー名を切り替え後のジョブ管理マネージャ名に変更することを特徴とするジョブ管理サーバーの統合管理システム。
JP2009229236A 2009-10-01 2009-10-01 ジョブ管理サーバーの統合管理システム Pending JP2011076512A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009229236A JP2011076512A (ja) 2009-10-01 2009-10-01 ジョブ管理サーバーの統合管理システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009229236A JP2011076512A (ja) 2009-10-01 2009-10-01 ジョブ管理サーバーの統合管理システム

Publications (1)

Publication Number Publication Date
JP2011076512A true JP2011076512A (ja) 2011-04-14

Family

ID=44020403

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009229236A Pending JP2011076512A (ja) 2009-10-01 2009-10-01 ジョブ管理サーバーの統合管理システム

Country Status (1)

Country Link
JP (1) JP2011076512A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5685738B1 (ja) * 2014-03-11 2015-03-18 パナソニックIpマネジメント株式会社 決済処理システム
CN113590216A (zh) * 2021-07-19 2021-11-02 上海淇玥信息技术有限公司 一种定时任务集中管理方法、装置和电子设备
WO2023032104A1 (ja) * 2021-09-01 2023-03-09 楽天モバイル株式会社 ジョブ制御システム及びその制御方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0520118A (ja) * 1991-07-12 1993-01-29 Fujitsu Ltd サービスプロセツサ及び統合監視装置の保守システム
JPH06139213A (ja) * 1992-10-30 1994-05-20 Toshiba Corp 計算機システム
JPH11353202A (ja) * 1998-06-10 1999-12-24 Ntt Mobil Commun Network Inc 分散データ処理システム
JP2000353154A (ja) * 1999-06-10 2000-12-19 Nec Corp 障害監視システム
JP2006268278A (ja) * 2005-03-23 2006-10-05 Nec Corp 遠隔保守コンピュータ保守システム
JP2007128285A (ja) * 2005-11-04 2007-05-24 Nec Corp マルチノードコンピュータシステム、統合サービスプロセッサ、ステータス管理方法及びプログラム
JP2009098715A (ja) * 2007-10-12 2009-05-07 Nec Corp 冗長システム装置並びに冗長システム装置におけるジョブの実行方法及び実行プログラム
WO2009101908A1 (ja) * 2008-02-13 2009-08-20 Nec Corporation 監視マネージャ、統括マネージャおよびノード監視システム

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0520118A (ja) * 1991-07-12 1993-01-29 Fujitsu Ltd サービスプロセツサ及び統合監視装置の保守システム
JPH06139213A (ja) * 1992-10-30 1994-05-20 Toshiba Corp 計算機システム
JPH11353202A (ja) * 1998-06-10 1999-12-24 Ntt Mobil Commun Network Inc 分散データ処理システム
JP2000353154A (ja) * 1999-06-10 2000-12-19 Nec Corp 障害監視システム
JP2006268278A (ja) * 2005-03-23 2006-10-05 Nec Corp 遠隔保守コンピュータ保守システム
JP2007128285A (ja) * 2005-11-04 2007-05-24 Nec Corp マルチノードコンピュータシステム、統合サービスプロセッサ、ステータス管理方法及びプログラム
JP2009098715A (ja) * 2007-10-12 2009-05-07 Nec Corp 冗長システム装置並びに冗長システム装置におけるジョブの実行方法及び実行プログラム
WO2009101908A1 (ja) * 2008-02-13 2009-08-20 Nec Corporation 監視マネージャ、統括マネージャおよびノード監視システム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5685738B1 (ja) * 2014-03-11 2015-03-18 パナソニックIpマネジメント株式会社 決済処理システム
CN113590216A (zh) * 2021-07-19 2021-11-02 上海淇玥信息技术有限公司 一种定时任务集中管理方法、装置和电子设备
CN113590216B (zh) * 2021-07-19 2024-03-19 上海淇玥信息技术有限公司 一种定时任务集中管理方法、装置和电子设备
WO2023032104A1 (ja) * 2021-09-01 2023-03-09 楽天モバイル株式会社 ジョブ制御システム及びその制御方法

Similar Documents

Publication Publication Date Title
JP5747615B2 (ja) 通信システム、及び通信方法
CN105518629B (zh) 云部署基础结构确认引擎
CN107660289A (zh) 自动网络控制
JP5734240B2 (ja) プログラマブル表示器
TW201502774A (zh) 協調分散式系統中的故障復原
US8112518B2 (en) Redundant systems management frameworks for network environments
JPWO2015037603A1 (ja) 遠隔監視システム、遠隔監視方法、及びプログラム
JP2009294972A (ja) 監視システム、監視装置、被監視装置、監視方法
JP2011076512A (ja) ジョブ管理サーバーの統合管理システム
JP2009230700A (ja) 装置メンテナンスシステムおよび方法
JP2010067115A (ja) データ記憶システム、データ記憶方法
US7437445B1 (en) System and methods for host naming in a managed information environment
WO2011051999A1 (ja) 情報処理装置及び情報処理装置の制御方法
JP6317074B2 (ja) 障害通知装置、障害通知プログラムならびに障害通知方法
JP6070040B2 (ja) データベースシステム、データベース装置、データベースの障害回復方法およびプログラム
JP2010224829A (ja) 運用管理システム
US9542250B2 (en) Distributed maintenance mode control
JP2014021586A (ja) プログラムのアップグレードを実施するサーバ、サーバと複数の機器からなるプログラムのアップグレードシステム及びプログラムのアップグレード方法
JP2001331330A (ja) プロセス異常検知及び復旧システム
JPH10326208A (ja) 障害復旧システム及び記録媒体
JP4848979B2 (ja) 監視システムおよび監視方法ならびにプログラム
JP2009211279A (ja) 操業データ管理サーバシステム
JP2009098715A (ja) 冗長システム装置並びに冗長システム装置におけるジョブの実行方法及び実行プログラム
JP6695517B1 (ja) プログラマブル表示器およびデータ管理方法
JP2013003956A (ja) 故障復旧管理装置、故障復旧管理方法及び故障復旧管理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120727

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120908

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140131

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140225

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20140627