JP5422342B2 - インシデント管理方法および運用管理サーバ - Google Patents

インシデント管理方法および運用管理サーバ Download PDF

Info

Publication number
JP5422342B2
JP5422342B2 JP2009257131A JP2009257131A JP5422342B2 JP 5422342 B2 JP5422342 B2 JP 5422342B2 JP 2009257131 A JP2009257131 A JP 2009257131A JP 2009257131 A JP2009257131 A JP 2009257131A JP 5422342 B2 JP5422342 B2 JP 5422342B2
Authority
JP
Japan
Prior art keywords
job
incident
execution
host
management server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009257131A
Other languages
English (en)
Other versions
JP2011103030A (ja
Inventor
琢也 小田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2009257131A priority Critical patent/JP5422342B2/ja
Priority to US12/703,013 priority patent/US20110113429A1/en
Publication of JP2011103030A publication Critical patent/JP2011103030A/ja
Application granted granted Critical
Publication of JP5422342B2 publication Critical patent/JP5422342B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/485Task life-cycle, e.g. stopping, restarting, resuming execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/1438Restarting or rejuvenating

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)

Description

本発明は、インシデント管理方法およびインシデントを管理する運用管理サーバに関する。
一般的に大企業のITを使用した業務システムが1時間に亘ってシステム障害やメンテナンスなどで停止すると、数百万円〜数千万円もの損害を被るとされている。業務システムのシステム停止における損害額を最小限に抑えるためには、業務システムのインシデントに対して迅速に効率良く対処する必要がある。近年では、サーバ仮想化技術の導入により、1件のインシデントに対して効率良くかつ迅速に対処できるようになってきている。その一方で、インシデントの件数は減少しておらず、優先度を付ける、担当者を均一に割り振るなど、全てのインシデントを効率良く対処する方法が必要とされている。
インシデントを効率良く対処する方法として、例えば特許文献1および特許文献2に開示された技術が存在する。特許文献1には、サービスを提供する情報処理システムにおいて、発生したインシデントがサービスに与える影響度を算出し、算出した影響度をユーザに提示する方法が開示されている。また特許文献2には、インシデントの対処期限までの対処作業の完了確率を算出し、算出した完了確率を使用してインシデントを対処する際の優先度を決定している。
特許文献1に記載されている技術によれば、影響度の算出にはインシデントの発生元となるリソース(ハードウェアまたはソフトウェア)と同等リソースを特定し、この同等リソースの稼働状態およびその数に基づいて、サービスに対するインシデントの影響度を算出している。
特許文献2に記載されている技術によれば、あらかじめ設定されているインシデントの対処完了期限までに対処作業が完了する確率を算出し、この完了期限までに複数の着手予定の対処作業がある場合は、完了確率の低い方の対処作業を優先して作業者に割り当てている。なお、完了確率は、これまでに発生した類似のインシデントを特定し、特定したインシデントの対処に要した時間と発生しているインシデントの対処完了期限との比較によって算出している。
特開2008−217285号公報 特許第3276834号
特許文献1の方法によれば、インシデントの発生元リソースと同等のリソースの稼働状態およびその数、つまり現在の状態によってサービスに対する影響度を決定している。したがって、現在は実行されていないが将来的に実行されるジョブや、再実行が必要となるジョブに対するインシデントの影響度を求めることができない。現在の状態だけではなく、将来の状態を予測して、予測結果に基づき、ジョブ実行に対するインシデントの影響度を算出する必要がある。例えば、ある処理を実行するジョブを複数連ねたジョブグループが存在する場合、ジョブグループの実行途中にインシデントが発生し、ジョブ実行が中断された場合、ジョブググループ中のどれだけのジョブが完了しているのかによって、残りの実行すべきジョブの数が異なる。同じジョブグループを対象にしても、インシデントの発生箇所によっては、中断したジョブから再実行しても問題のない(一旦データをDBに格納し終えた後のジョブなど、後続のジョブに影響がない)ケースと、全てを再実行しなくてはいけない(後続のジョブで使用するデータをDBに格納するためのジョブなど、後続のジョブに影響する)ケースがある。特許文献1の方法によれば、両ケースは同じジョブグループに対するインシデントであり、リソースの稼働状態とその数が同じであるため、ジョブグループの実行に対して、同じ影響度が算出される。しかし実際には、将来、再実行しなくてはならないジョブの量は異なるため、両ケースにおいて、ジョブグループの実行に対するインシデントの影響度は異なる。
特許文献2の方法によれば、インシデントの対処完了期限と、これまでの対処作業の時間履歴から算出したインシデントの完了確率に、インシデントの重要度、つまり、優先度を乗算して、インシデントの対処完了期待値を求め、期待値が高いインシデントを優先的に割り当てている。特許文献2では優先度はあらかじめインシデントに対応付けて登録されていることを前提としている。すなわち、優先度の高いインシデントへの対処により、インシデントの影響度を小さくしようとするもので、影響度の大きさについて考慮していない。
本明細書では、業務システムに対するインシデントによる影響度を、業務システムを構成する業務実行サーバが実行する、再実行すべきジョブ又はジョブグループ、並びに、既に実行がスケジュールされたジョブ又はジョブグループに関係させて、迷惑度と呼ぶ。
本発明の一態様は、運用管理サーバが、インシデントを管理するために、ホストと呼ぶ業務実行サーバにより構成される業務システムと業務実行サーバによるジョブの実行を管理するジョブ管理サーバとに接続し、業務システムに発生したインシデントの発生に応答して、インシデントとインシデントが発生したホストとを対応付けたインシデントテーブル、並びに、ホストにより実行されるジョブ及びブを含むジョブグループとホストとを対応付けた、ジョブ管理サーバからのジョブグループ定義テーブルを参照して、インシデントが発生したホストにより実行されるジョブ及びジョブグループを特定するインシデント−ジョブ関連特定部、ジョブ管理サーバからのジョブ実行スケジュールテーブルに示されるジョブの実行状況を参照して、ジョブグループ内の、インシデントの発生により再実行すべき及び未実行のジョブを特定するジョブ実行予測部、及び、特定したジョブに関連させて、インシデントが業務システムに与える影響度である迷惑度を求める迷惑度算出部を有する。
本発明の他の望ましい態様は、迷惑度算出部は、(1)ジョブ実行スケジュールテーブルに示される、特定したジョブの数、(2)ジョブ実行スケジュールテーブルに示される、特定したジョブの実行時間、(3)ジョブグループ定義テーブルに示される、特定したジョブを実行するホストの数、(4)ジョブグループ定義テーブルに示される、特定したジョブを実行するホストの冗長度、および(5)インシデントと対処所要時間とを対応付けた対処時間履歴テーブルを参照したインシデントへの対処完了予定日時までの、ジョブ実行スケジュールテーブルに示される、ジョブグループの実行予定回数の少なくとも1つとして迷惑度を求める。
その他、本願が開示する課題、およびその解決方法は、発明を実施するための最良の形態の欄、および図面により明らかにされる。
本発明によれば、業務システムに対するインシデントによる影響度を、業務システムを構成する業務実行サーバが実行する、再実行すべきジョブ又はジョブグループ、並びに、既に実行がスケジュールされたジョブ又はジョブグループに関係させた定量的な迷惑度として出力し、システム管理者によるインシデントへの対処を支援できる。
情報処理システムの構成の一例を示すブロック図である。 インシデントテーブルの一例である。 インシデント−ジョブ関連テーブルの一例である。 再実行開始ジョブテーブルの一例である。 迷惑度テーブルの一例である。 対処時間履歴テーブルの一例である。 予測対処時間テーブルの一例である。 ジョブグループ定義テーブルの一例である。 ジョブ実行スケジュールテーブルの一例である。 ジョブ再実行定義テーブルの一例である。 運用管理サーバ等の計算機のハードウェア構成図の一例である。 迷惑度算出処理のフロー図の一例である。 迷惑度加算処理のフロー図の一例である。
図1は、本実施形態の情報処理システム1の構成を示すブロック図である。本実施形態の情報処理システム1は、運用管理サーバ100、運用管理端末101、ジョブ管理サーバ102、業務実行サーバにより構成される業務システム10を有し、それらは、ネットワーク2009を介して相互に通信可能に接続している。運用管理サーバ100、運用管理端末101、ジョブ管理サーバ102、および業務実行サーバは、一般的なハードウェア構成を有するコンピュータであって、CPU、メモリ(RAM、ROM等)、データ入出力インタフェース、通信インタフェース(NIC等)、ソフトウェアプログラムなどを格納する補助記憶装置(ディスク装置等)、キーボード、マウス等の入力装置、表示装置、プリンタ等の出力装置などを備えている。
運用管理サーバ100、運用管理端末101、およびジョブ管理サーバ102の各処理部(例えば運用管理サーバ100のジョブ実行予測部106など)の処理は、補助記憶装置に格納されているプログラムをメモリに読み出してCPUが実行することにより実現される。
運用管理サーバ100は、業務システム10の負荷、障害、メンテナンス等の運用に関わる管理を実行すると共に、業務システム10に発生したインシデントによる影響(迷惑度)を求め、発生したインシデントへの管理者による対処を支援する。したがって、運用管理サーバ100は、インシデント管理装置としての機能を有することになる。運用管理端末101は、運用管理サーバ100の実行のために、情報処理システム1または業務システム10のシステム管理者とのインターフェイスを果たす端末である。ジョブ管理サーバ102は、業務システム10を構成する業務実行サーバが実行するジョブ(プログラム)を管理する。
運用管理サーバ100について説明する。運用管理サーバ100は、業務実行サーバにより構成される業務システム10において発生したインシデントに関連するジョブグループの実行に対するインシデントの迷惑度を算出する処理を実行するサーバコンピュータである。業務システム10とは、販売や生産、会計、物流など会社を運営するために必要な業務処理を実行するシステムであり、代表的なものに財務管理システム、給与管理システム、オンライン購買システム、営業管理システムなどがある。インシデントとは、業務システム10において発生した障害情報やメンテナンス情報のことである。ジョブとは、業務システム10の業務を遂行するために業務実行サーバが実行するプログラムであり、ジョブグループとは、業務システム10の一連の業務を遂行するための、業務実行サーバが実行する1以上のジョブのグループである。迷惑度とは、業務システム10におけるインシデントが、ジョブグループの現在以降の実行に対して及ぼす影響度である。
運用管理サーバ100は、送受信部103、インシデント検出部104、インシデント−ジョブ関連特定部105、ジョブ実行予測部106、迷惑度算出部107、インシデント表示部108、対処完了日時算出部109および記憶部111を有する。
送受信部103は、運用管理サーバ100の通信処理を実行する。ネットワーク2009を介して運用管理端末101又はジョブ管理サーバ102から受信した情報を、送受信部103は、受信した情報によって特定される運用管理サーバ100の各処理部に振り分ける。また、運用管理サーバ100の各処理部が運用管理端末101、ジョブ管理サーバ102に送信する情報を、送受信部103はネットワーク2009を介して送信する。
インシデント検出部104は、インシデントテーブル200を記憶部111から読込み、インシデントテーブル200に対して、新規に追加されたインシデントがあるかどうかを検出する。インシデントテーブル200への新規のインシデントは、説明を省略するハードウェアやソフトウェアによるインシデント検知機構によって登録され、インシデントへの対処(ジョブの再実行)に伴い削除される。
インシデント−ジョブ関連特定部105は、インシデントテーブル200を記憶部111から読込み、送受信部103を介してジョブ管理サーバ102にジョブグループ定義テーブル900を要求するメッセージを送信し、受信したジョブグループ定義テーブル900を読込み、インシデントに関連するジョブおよびジョブグループを特定し、インシデントの識別情報と、ジョブの識別情報と、ジョブグループの識別情報とを対応付けて、記憶部111の後述するインシデント−ジョブ関連テーブル300に記憶する。
ジョブ実行予測部106は、インシデント−ジョブ関連テーブル300を記憶部111から読込み、送受信部103を介してジョブ管理サーバ102にジョブ実行スケジュールテーブル1000を要求するメッセージを送信し、受信したジョブ実行スケジュールテーブル1000を読込む。ジョブ実行スケジュールテーブル1000を参照し、インシデントに関連するジョブの実行状況に基づいて、このジョブが含まれるジョブグループにおいて、ジョブグループを再実行するとき、このジョブが開始ジョブとなるかどうかを判定し、開始ジョブとなる場合は、このジョブの識別情報を再実行開始ジョブテーブル400に記憶する。
ジョブ実行予測部106は、後述する実施例2においては、インシデントテーブル200を記憶部111から読込み、送受信部103を介してジョブ管理サーバ102にジョブグループ定義テーブル900とジョブ再実行定義テーブル1100を要求するメッセージを送信し、受信したジョブグループ定義テーブル900とジョブ再実行定義テーブル1100を読込み、インシデントに関連するジョブの再実行開始ジョブを特定し、再実行開始ジョブのジョブグループ内の実行順序から、再実行開始ジョブ以降に実行予定の、ジョブグループ内のジョブを特定する。
迷惑度算出部107は、実行予定のジョブの数を集計し、集計したジョブの数を、インシデントの迷惑度として、記憶部111の迷惑度テーブル500に記憶する。
迷惑度算出部107は、後述する実施例3においては、送受信部103を介してジョブ管理サーバ102にジョブグループ実行履歴テーブル1400を要求するメッセージを送信し、受信したジョブグループ実行履歴テーブル1400を読込み、実行予定のジョブの実行時間の予測値を算出し、算出した予測時間を、インシデントの迷惑度として、記憶部111の迷惑度テーブル500に記憶する。
迷惑度算出部107は、後述する実施例4においては、受信したジョブグループ定義テーブル900から、実行予定のジョブの実行先ホストを特定し、実行先ホストの数を集計し、集計したホストの数を、インシデントの迷惑度として、記憶部111の迷惑度テーブル500に記憶する。
迷惑度算出部107は、後述する実施例5においては、受信したジョブグループ定義テーブル900から、実行予定のジョブの実行先ホストを特定し、実行先ホストの冗長度(ジョブを代替実行できるホスト数)をジョブごとに集計し、冗長度の小ささを、インシデントの迷惑度として、記憶部111の迷惑度テーブル500に記憶する。
迷惑度算出部107は、後述する実施例6においては、後述する予測対処時間テーブル700を読込み、送受信部103を介してジョブ管理サーバ102にジョブグループ実行スケジュール1500を要求するメッセージを送信し、受信したジョブグループ実行スケジュール1500を読込み、現在から各インシデントの対処所要時間までに、ジョブグループの予定実行回数を集計し、予定実行回数を、インシデントの迷惑度として、記憶部111の迷惑度テーブル500に記憶する。
迷惑度算出部107は、発生したインシデントに対応して、業務システム10に与える影響の大きさを求め、管理者からの要求に応じて迷惑度として出力装置に表示する。迷惑度は、再実行すべきジョブやジョブグループ、並びに、すでに実行がスケジュールされているジョブやジョブグループに関連して定量的に示される。迷惑度の具体例を、実施例1〜6として後述する。これらの具体例の迷惑度の幾つかを組み合わせたものを迷惑度の他の具体例としてもよい。
インシデント表示部108は、インシデントテーブル200と迷惑度テーブル500を読込み、迷惑度テーブル500に記載の各インシデントの迷惑度を、インシデントテーブル200に記載の各インシデントの情報と共に後述する出力装置2008を介して表示する。
対処完了日時算出部109は、実施例6においては、インシデントテーブル200と対処時間履歴テーブル600を読込み、インシデントテーブル200に記載の各インシデントの対象ホスト及びインシデント内容と、対処時間履歴テーブル600に記載のインシデントの対象ホスト及びインシデント内容とを比較し、インシデントテーブル200に記載の各インシデントに類似するインシデントを対処時間履歴テーブル600に記載のインシデントの中から特定し、類似するインシデントの対処時間の履歴情報から、各インシデントの対処所要時間を算出し、インシデント対処完了予定日時テーブル1200に記憶する。
記憶部111は、運用管理サーバ100に接続し、インシデントテーブル200、インシデント−ジョブ関連テーブル300、迷惑度テーブル500、対処時間履歴テーブル600、予測対処時間テーブル700を格納している。
インシデントテーブル200は、表形式のデータであり、運用管理サーバ100が管理する対象の業務システム10において発生したインシデントうち、未対処のインシデントの情報を記憶する。
図2にインシデントテーブル200の一例を示す。インシデントテーブル200は、各行に運用管理サーバ100が管理対象とする業務システム10において発生したインシデントの情報を記憶している。インシデントテーブル200は、インシデント識別子欄201、対象ホスト欄202、およびインシデント内容欄203を備えている。インシデント識別子欄201は、運用管理サーバ100が管理対象とする業務システム10において発生したインシデントを一意に特定できる識別情報であるインシデント識別子を記憶する。対象ホスト欄202は、インシデントの発生元のホスト(業務実行サーバ)を一意に特定できる識別情報(例えばホスト名)を記憶する。インシデント内容欄203は、インシデントの内容(例えば、ホスト停止、i0001など)を記憶する。
システム管理者が運用管理端末101を介して、インシデントテーブル200に示す情報を入力し、運用管理サーバ100は、入力された情報を記憶部111のインシデントテーブル200に記憶する。また、送受信部103により受信された、別途ツールやユーティリティを用いて収集したインシデントの情報を、運用管理サーバ100がインシデントテーブル200に記憶しても良い。
インシデント−ジョブ関連テーブル300は、表形式のデータであり、運用管理サーバ100が管理する対象の業務システム10において発生したインシデントとジョブ管理サーバ102が管理する業務システム10内の対象の業務実行サーバ上で実行されるジョブグループおよびジョブとの関連情報を記憶する。図3にインシデント−ジョブ関連テーブル300の一例を示す。インシデント−ジョブ関連テーブル300は、各行にインシデントとジョブグループおよびジョブとの関連情報を記憶している。インシデント−ジョブ関連テーブル300は、インシデント識別子欄301、関連ジョブグループ識別子欄302、および関連ジョブ識別子欄303を備えている。インシデント識別子欄301は、各インシデントを一意に特定する識別情報であるインシデント識別子を記憶し、このインシデント識別子によって、インシデントテーブル200のインシデント識別子欄201で特定されるインシデントと対応付けられる。関連ジョブグループ識別子欄302は、ジョブ管理サーバ102が管理する対象の業務実行サーバ上で実行されるジョブグループに対して、各インシデントが関連するジョブグループを一意に特定する識別情報であるジョブグループ識別子を記憶する。関連ジョブ識別子欄303は、ジョブ管理サーバ102が管理する対象の業務実行サーバ上で実行されるジョブに対して、各インシデントが関連するジョブを一意に特定する識別情報であるジョブ識別子を記憶する。
インシデント−ジョブ関連特定部105が、インシデント−ジョブ関連テーブル300に示す情報を特定し、記憶部111のインシデント−ジョブ関連テーブル300に記憶する。
再実行開始ジョブテーブル400は、表形式のデータであり、インシデントに関連するジョブグループを再実行する際に、再実行の開始点となるジョブの識別情報を記憶する。図4に再実行開始ジョブテーブル400の一例を示す。再実行開始ジョブテーブル400は、各行にインシデントに関連するジョブグループを再実行する際に、再実行の開始点となるジョブの識別情報を記憶している。再実行開始ジョブテーブル400は、インシデント識別子欄401、ジョブグループ識別子欄402、およびジョブ識別子欄403を備えている。インシデント識別子欄401は、各インシデントを一意に特定する識別情報であるインシデント識別子を記憶し、このインシデント識別子によって、インシデントテーブル200のインシデント識別子欄201で特定されるインシデントと対応付けられる。ジョブグループ識別子欄402は、インシデントに関連するジョブグループを一意に特定する識別情報であるジョブグループ識別子を記憶し、このジョブグループ識別子によって、ジョブグループ定義テーブル900のジョブグループ識別子欄901で特定されるジョブグループと対応付けられる。ジョブ識別子欄403は、インシデントに関連するジョブグループを再実行する際に、再実行の開始点となるジョブを一意に特定する識別情報であるジョブ識別子を記憶し、このジョブ識別子によって、ジョブグループ定義テーブル900のジョブ識別子欄902で特定されるジョブと対応付けられる。
ジョブ実行予測部106が、再実行開始ジョブテーブル400に示す情報を特定し、記憶部111の再実行開始ジョブテーブル400に記憶する。
迷惑度テーブル500は、表形式のデータであり、インシデントに関連するジョブグループの実行に及ぼすインシデントの迷惑度を記憶する。図5に迷惑度テーブル500の一例を示す。迷惑度テーブル500は、各行にインシデントに関連するジョブグループの実行に及ぼすインシデントの迷惑度を記憶している。迷惑度テーブル500は、インシデント識別子欄501、および迷惑度欄502を備えている。インシデント識別子欄501は、各インシデントを一意に特定する識別情報であるインシデント識別子を記憶し、このインシデント識別子によって、インシデントテーブル200のインシデント識別子欄201で特定されるインシデントと対応付けられる。迷惑度欄502は、インシデントに関連するジョブグループの実行に及ぼすインシデントの迷惑度を記憶する。
迷惑度算出部107が、迷惑度テーブル500に示す情報を算出し、記憶部111の迷惑度テーブル500に記憶する。
対処時間履歴テーブル600は、表形式のデータであり、対処済みのインシデントの情報とインシデントの対処に所要した時間を記憶する。図6に対処時間履歴テーブル600の一例を示す。対処時間履歴テーブル600は、各行に対処済みのインシデントの情報と、そのインシデントの対処に所要した時間を記憶している。対処時間履歴テーブル600は、インシデント識別子欄601、対象ホスト欄602、インシデント内容欄603、および対処所要時間欄604を備えている。インシデント識別子欄601は、各インシデントを一意に特定する識別情報であるインシデント識別子を記憶し、このインシデント識別子によって、インシデントテーブル200のインシデント識別子欄201で特定されるインシデントと対応付けられる。対象ホスト欄602は、インシデントの発生元となるホスト(業務実行サーバ)を一意に特定できる識別情報(例えばホスト名)を記憶する。インシデント内容欄603は、インシデントの内容(例えば、ホスト停止、i0001など)を記憶する。対処所要時間欄604は、インシデントの対処に所要した時間を記憶する。
システム管理者が、運用管理端末101を介して、対処時間履歴テーブル600に示す情報を入力し、運用管理サーバ100は、入力された情報を、記憶部111の対処時間履歴テーブル600に記憶する。また、別途ツールやユーティリティによってインシデントの対処時間を計測した結果を入力し、運用管理サーバ100は、入力された情報を、記憶部111の対処時間履歴テーブル600に記憶しても良い。
予測対処時間テーブル700は表形式のデータであり、インシデントの対処に必要な予測時間を記憶する。図7に予測対処時間テーブル700の一例を示す。予測対処時間テーブル700は、各行にインシデントの対処に必要な予測時間を記憶している。予測対処時間テーブル700は、インシデント識別子欄701、および予測対処時間欄702を備えている。インシデント識別子欄701は、各インシデントを一意に特定する識別情報であるインシデント識別子を記憶し、このインシデント識別子によって、インシデントテーブル200のインシデント識別子欄201で特定されるインシデントと対応付けられる。予測対処時間欄702は、インシデントの対処に必要と見込まれる時間を記憶する。
対処時間予測部109が、対処所要時間テーブル700に示す情報を算出し、記憶部111の対処所要時間テーブル700に記憶する。
運用管理サーバ100は、図11に示すハードウェア構成の計算機2001上で稼働する。計算機2001は、CPU2002、主記憶装置2003(RAM、ROM等)、外部記憶装置インタフェース2004、通信インタフェース2005(NIC等)、プログラムなどを格納する外部記憶装置2006(ディスク装置等)、キーボード、マウス等の入力装置2007、表示装置、プリンタ等の出力装置2008を備えている。
送受信部103、インシデント検出部104、インシデント−ジョブ関連特定部105、ジョブ実行予測部106、迷惑度算出部107、対処時間予測部109、およびインシデント表示部108は、外部記憶装置2006に記憶されたプログラムが、外部記憶装置インタフェース2004を介して主記憶装置2003上に読み込まれ、CPU2002で実行されることにより実現される機能ブロックである。なお、送受信部103は、通信インタフェース2005およびこれを制御する通信制御プログラムでも実現可能である。記憶部111は、主記憶装置2003および/又は外部記憶装置2006により実現される。
運用管理端末101およびジョブ管理サーバ102のハードウェア構成も、規模や性能の差異がある場合もあるが、図11に示す計算機2001の構成である。
図1では、運用管理サーバ100、運用管理端末101およびジョブ管理サーバ102の各々を異なるサーバとして示しているが、これらの各々を更に複数のサーバで構成しても良いし、これらのいくつかを纏めて1台のサーバで構成しても良い。また、運用管理サーバ100は物理サーバに限定されない。すなわち、仮想サーバであってもよいし、クラスタ構成などで定義される論理サーバであってもよい。
図1に説明を戻し、運用管理端末101について説明する。運用管理端末101は、運用管理サーバ100へのデータ入力処理や運用管理サーバ100からのデータ出力処理を制御するサーバである。システム管理者は、運用管理端末101を介して、運用管理サーバ100へ、対処時間履歴テーブル600に記憶する情報を送信する。また、システム管理者は、運用管理端末101を介して、ジョブ管理サーバ102に、ジョブグループ定義テーブル900、ジョブ実行スケジュールテーブル1000、およびジョブ再実行定義テーブル1100に記憶する情報を送信する。また、システム管理者は、運用管理端末101を介して、運用管理サーバ100にインシデントの迷惑度の算出を要求し、算出された迷惑度を運用管理端末101に表示させる。
運用管理端末101は、入力部112と、出力部113と、送受信部114と、通信処理部115と、を備えている。入力部112はシステム管理者が入力した、前述の各種の情報の入力を受け付け、出力部113はシステム管理者に情報、たとえば迷惑度を出力する。
送受信部114は、通信処理部115などの運用管理端末101の各処理部から受信した情報をネットワーク2009に送信したり、ネットワーク2009から受信した情報を各処理部に送信したりする送受信処理を実行する処理部である。通信処理部115は、運用管理サーバ100との通信処理を実行する。
運用管理端末101は、図11に示すハードウェア構成の計算機2001上で稼働する。通信処理部115は、外部記憶装置2006に記憶したプログラムを主記憶装置2003上に読み込み、CPU2002で実行することにより実現可能である。また、送受信部114は、通信インタフェース2005で実現可能である。入力部112は、入力装置2007により実現可能である。入力装置2007とは、例えば、マウスなどのポインティングデバイスや、キーボードなどである。出力部113は、出力装置2008により実現可能である。出力装置2008とは、例えば、モニタやプリンタなどである。
図1に説明を戻し、ジョブ管理サーバ102について説明する。ジョブ管理サーバ102は、運用管理サーバ100が管理する業務システム10におけるジョブグループ、およびジョブを管理するサーバである。ジョブ管理サーバ102と業務システム10、ジョブグループ、およびジョブとは一対一に限定されない。すなわち、ジョブ管理サーバ102が、一つの業務システム10、ジョブグループ、ジョブを管理しても良いし、複数の業務システム10、ジョブグループ、ジョブを管理しても良い。また、複数のジョブ管理サーバ102により業務システム10におけるジョブグループ、およびジョブを管理してもよい。さらに、ジョブ管理サーバ102は物理サーバに限定されない。すなわち、仮想サーバであってもよいし、クラスタ構成などで定義される論理サーバであってもよい。
ジョブ管理サーバ102は、送受信部116、ジョブ管理部117、および記憶部118を備えている。送受信部116は、ジョブ管理部117と、運用管理サーバ100または運用管理端末101との通信処理を実行する。ジョブ管理部117は、ジョブグループおよびジョブの定義情報、実行スケジュール、および実行履歴情報を記憶部118に記憶する。ジョブ管理部117は、管理対象とするジョブの実行先ホストから、ジョブグループおよびジョブの現在の実行状態(未実行、成功、実行中、失敗など)を収集し、記憶部118に記憶する。記憶部118には、ジョブグループ定義テーブル900、ジョブ実行スケジュールテーブル1000、およびジョブ再実行定義テーブル1100が格納されている。
ジョブグループ定義テーブル900は表形式のデータであり、ジョブ管理サーバ102が管理対象とするジョブグループの情報を記憶する。図8にジョブグループ定義テーブル900の一例を示す。ジョブグループ定義テーブル900は、各行にジョブ管理サーバ102が管理対象とするジョブグループの情報を記憶している。ジョブグループ定義テーブル900は、ジョブグループ識別子欄901、ジョブ識別子欄902、ジョブ実行順序欄903、およびジョブ実行ホスト欄904を備えている。ジョブグループ識別子欄901は、ジョブ管理サーバ102が管理対象とするジョブグループを一意に特定可能な識別情報であるジョブグループ識別子を記憶する。ジョブ識別子欄902は、ジョブ管理サーバ102が管理対象とするジョブを一意に特定可能な識別情報であるジョブ識別子を記憶する。ジョブ実行順序欄903は、ジョブグループ内におけるジョブの実行順序(Tier)を記憶する。ジョブ実行ホスト欄904は、ジョブが実行されるホストを一意に特定できる識別情報(例えばホスト名)を記憶し、この識別情報によって、インシデントテーブル200の対象ホスト202と対応付けられる。なお、図8のジョブ実行ホスト欄904に複数のホスト名が格納されている行は、その行のジョブ識別子902で示されるジョブが、複数のホスト名のいずれかが示すホストで実行すればよいことを示している。すなわち、複数のホスト名はホストの冗長性を表している。
システム管理者が、運用管理端末101を介して、ジョブグループ定義テーブル900に示す情報を入力し、ジョブ管理サーバ102は、入力された情報を、記憶部118のジョブグループ定義テーブル900に記憶する。また、別途ツールやユーティリティによって運用管理サーバ100が管理対象とする業務システムにおけるジョブグループの定義情報を収集した結果を入力し、ジョブ管理サーバ102は、入力された情報を、記憶部118のジョブグループ定義テーブル900に記憶しても良い。
ジョブ実行スケジュールテーブル1000は表形式のデータであり、ジョブ管理サーバ102が管理対象とするジョブの現在までの実行状況と、これからの実行スケジュールを記憶する。図9にジョブ実行スケジュールテーブル1000の一例を示す。ジョブ実行スケジュールテーブル1000は、各行にジョブ管理サーバ102が管理対象とするジョブグループの現在までの実行状況と、これからの実行スケジュールを記憶している。ジョブ実行スケジュールテーブル1000は、ジョブグループ識別子欄1001、ジョブ識別子欄1002、ジョブ実行開始日時欄1003、ジョブ実行終了日時欄1004、および状態欄1005を備えている。ジョブグループ識別子欄1001は、ジョブ管理サーバ102が管理対象とするジョブグループを一意に特定可能な識別情報であるジョブグループ識別子を記憶し、この識別子により、ジョブグループ定義テーブル900に記載のジョブグループと対応付けられる。ジョブ識別子欄1002は、ジョブ管理サーバ102が管理対象とするジョブを一意に特定可能な識別情報であるジョブ識別子を記憶し、この識別子により、ジョブグループ定義テーブル900に記載のジョブと対応付けられる。ジョブ実行開始日時欄1003は、現在までに実行済みのジョブの実行開始日時と、これから実行されるジョブの実行開始予定日時を記憶する。ジョブ実行終了日時欄1004は、現在までに実行済みのジョブの実行終了日時を記憶する。状態欄1005は、ジョブ識別子欄1402に記載のジョブ識別情報から特定されるジョブの実行状態(未実行、成功、実行中、失敗など)を記憶する。
システム管理者が、運用管理端末101を介して、ジョブ実行スケジュールテーブル1000に示す情報を入力し、ジョブ管理サーバ102は、入力された情報を、記憶部118のジョブ実行スケジュールテーブル1000に記憶する。また、別途ツールやユーティリティによってジョブの実行開始/終了日時や実行状態を収集した結果を入力し、ジョブ管理サーバ102は、入力された情報を、記憶部118のジョブ実行スケジュールテーブル1000に記憶しても良い。
ジョブ再実行定義テーブル1100は表形式のデータであり、ジョブ管理サーバ102が管理対象とするジョブがインシデント等により中断した後、再実行する際に、実行開始点とすべきジョブグループ内のジョブの識別子を記憶する。本識別子によって、ジョブグループ内のどのジョブから再実行を行えば良いかを特定する。図10にジョブ再実行定義テーブル1100の一例を示す。ジョブ再実行定義テーブル1100は、各行に実行開始点とすべきジョブグループ内のジョブの識別子を記憶している。ジョブ再実行定義テーブル1100は、中断ジョブ識別子欄1101、および再実行ジョブ識別子欄1102を備えている。中断ジョブ識別子欄1101は、ジョブ管理サーバ102が管理対象とするジョブのうち、インシデント等により実行を中断したジョブを一意に特定可能な識別情報であるジョブ識別子を記憶し、この識別子により、ジョブグループ定義テーブル900に記載のジョブと対応付けられる。再実行ジョブ識別子欄1102は、インシデント等により実行を中断したジョブを再実行する際に、開始点とすべきジョブグループ内のジョブを一意に特定可能な識別情報であるジョブ識別子を記憶し、この識別子により、ジョブグループ定義テーブル900に記載のジョブと対応付けられる。
システム管理者が、運用管理端末101を介して、ジョブ再実行定義テーブル1100に示す情報を入力し、ジョブ管理サーバ102は、入力された情報を、記憶部118のジョブ再実行定義テーブル1100に記憶する。また、別途ツールやユーティリティによって、中断ジョブの再実行時に開始すべきジョブの情報を収集した結果を入力し、ジョブ管理サーバ102は、入力された情報を、記憶部118のジョブ再実行定義テーブル1100に記憶しても良い。
ジョブ管理サーバ102は、図11に示すハードウェア構成の計算機2001上で稼働する。送受信部116とジョブ管理部117は、外部記憶装置2006に記憶したプログラムを主記憶装置2003上に読み込み、CPU2002で実行することにより実現可能である。なお、送受信部116は、通信インタフェース2005でも実現可能である。
以下、本実施形態におけるインシデントの迷惑度算出処理について実施例として示す。インシデントの迷惑度算出処理は、インシデント管理装置としての機能を有する運用管理サーバ100により実行されるが、以下の実施例の説明を簡明にするために、運用管理サーバ100とジョブ管理サーバ102や運用管理端末101との間の、テーブルや情報の送受信に関して説明を省略又は簡略化する。
本実施例のインシデントの迷惑度算出処理について説明する。図12に、運用管理サーバ100による迷惑度算出処理フロー図の一例を示す。迷惑度算出処理は、業務システム10に新規にインシデントが検知され、インシデントテーブル200に格納に応答して、及び、運用管理端末101から迷惑度の表示要求の受信に応答して、実行を開始する。周期タイマからの起動により実行を開始してもよい。
インシデント検出部104は、インシデントがインシデントテーブル200に格納されているかを確認する(ステップ3000)。前述のように、インシデントテーブル200に格納されているインシデントは、そのインシデントへの対処(ジョブの再実行)に伴い削除されるので、インシデントテーブル200にインシデントが格納されているならば、発生したことを示している。インシデント検出部104は、インシデントが格納されていない場合、ステップ3050へ分岐する。
インシデントがインシデントテーブル200に格納されている場合(インシデントテーブル200に複数のインシデント識別子201が格納されている場合、その中の1つを取り出す。)、インシデント−ジョブ関連特定部105は、インシデントテーブル200に格納されているインシデント識別子201に対応する対象ホスト202をキーにしてジョブグループ定義テーブル900を検索する(ステップ3005)。ジョブグループ定義テーブル900の、対象ホスト202に対応するジョブ実行先ホスト904の行のジョブグループ識別子901及びジョブ識別子902を、インシデント−ジョブ関連テーブル300のインシデント識別子301に対応付けてジョブグループ識別子302及びジョブ識別子303として格納する(ステップ3010)。インシデント−ジョブ関連テーブル300のインシデント識別子301は、ステップ3000で検出したインシデント識別子201である。ステップ3005で、対象ホスト202に対応するジョブ実行先ホスト904が複数検索される場合は、インシデント−ジョブ関連テーブル300には、複数行に亘って格納される。複数行は、異なるジョブグループに属する複数のジョブの場合もあるが、同じジョブグループであっても同じ業務実行サーバ(ジョブ実行先ホスト904)で並列実行されている複数のジョブの場合もある。
ジョブ実行予測部106は、インシデント−ジョブ関連テーブル300のジョブグループ識別子302が同じジョブ識別子303を取り出し、ジョブグループ識別子302及びジョブ識別子303をキーにして、ジョブ実行スケジュールテーブル1000を検索する(ステップ3015)。ジョブグループ識別子302が同じジョブ識別子303が複数ある場合、該当するジョブグループ識別子1001及びジョブ識別子1002の組の複数の行が検索結果として得られる。ジョブ実行予測部106は、検索結果として得られたジョブ識別子1002の中で、その状態1005が「失敗」を示すものがあるかを判定する(ステップ3020)。
状態1005が「失敗」を示すものがある場合、ジョブ実行予測部106は、状態1005が「失敗」を示すジョブグループ識別子1001及びジョブ識別子1002と、これらと対応する、インシデント−ジョブ関連テーブル300のインシデント識別子301を対応付けて、再実行開始ジョブテーブル400にインシデント識別子401、ジョブグループ識別子402及びジョブ識別子403として格納する(ステップ3035)。ステップ3020で状態1005が「失敗」を示すジョブグループ識別子1001及びジョブ識別子1002が複数得られた場合(同じジョブグループに属する複数のジョブが「失敗」の場合)、ジョブグループ定義テーブル900を参照し、ジョブ実行順序903が最も早いジョブの識別子1002を再実行開始ジョブテーブル400のジョブ識別子403に格納する。処理をステップ3040に移す。
ステップ3020において状態1005が「失敗」を示すものがない場合、ジョブ実行予測部106は、ジョブ実行予測部106は、ステップ3015の検索結果として得られたジョブ識別子1002の中で、その状態1005が「未実行」を示すものがあるかを判定する(ステップ3025)。状態1005が「未実行」を示すジョブ識別子1002がない場合、処理をステップ3040に移す。
ステップ3025で状態1005が「未実行」を示すジョブ識別子1002がある場合、ジョブ実行予測部106は、状態1005が「未実行」を示すジョブグループ識別子1001及びジョブ識別子1002と、これらと対応する、インシデント−ジョブ関連テーブル300のインシデント識別子301を対応付けて、再実行開始ジョブテーブル400にインシデント識別子401、ジョブグループ識別子402及びジョブ識別子403として格納する(ステップ3030)。ステップ3025で状態1005が「未実行」を示すジョブグループ識別子1001及びジョブ識別子1002が複数得られた場合(同じジョブグループに属する複数のジョブが「未実行」の場合)、ジョブグループ定義テーブル900を参照し、ジョブ実行順序903が最も早いジョブの識別子1002を再実行開始ジョブテーブル400のジョブ識別子403に格納する。
迷惑度算出部107は、ジョブグループ定義テーブル900を参照し、再実行開始ジョブテーブル400のジョブグループ識別子402を示すジョブグループ識別子901の中で、再実行開始ジョブテーブル400のジョブ識別子403の実行順序903以降の実行順序のジョブの数を計数し、再実行開始ジョブテーブル400のインシデント識別子401に対応する、迷惑度テーブル500のインシデント識別子501に計数結果を対応付けて迷惑度502に加算する(ステップ3040)。迷惑度テーブル500の初期化について説明を省略したが、迷惑度テーブル500は、ステップ3000においてインシデントが存在し、その1つを取り出した時点で、取り出したインシデントに対応してインシデント識別子501を格納し、対応する迷惑度を0に初期化しておく。これにより、図12に示す処理を実行するとインシデント識別子501ごとに迷惑度502が得られる。
インシデントテーブル200のインシデント識別子201に対応して他の対象ホストがあるかを判定し(ステップ3045)、他の対象ホストがある場合、処理をステップ3005に移し、他の対象ホストがない場合、処理をステップ3000に移す。図2に示すインシデントテーブル200では、インシデント識別子201と対象ホスト202とを1対1の関係で例示しているが、同じインシデントの影響が複数の対象ホスト202(業務実行サーバ)に及ぶ場合がある。たとえば、1台の物理サーバ上に生成された複数の仮想サーバの各々を業務実行サーバとして稼動させるシステムにおいては、物理サーバ上に発生するインシデントはその上の複数の仮想サーバの稼動に影響する。
ステップ3000において、インシデントテーブル200にインシデントが格納されていない場合、インシデント表示部108は、運用管理端末101から迷惑度の表示要求があるかを判定する(ステップ3050)。要求がなければ、処理を終了する。要求があれば、インシデント表示部108は、インシデントテーブル200と迷惑度テーブル500を読込み、迷惑度テーブル500の各インシデント識別子501の迷惑度を、インシデントテーブル200の各インシデント識別子201に対応するインシデント内容203と共に送受信部103を介して、運用管理端末101へ送信する(ステップ3055)。インシデント表示部108は、運用管理端末101への送信と共に、運用管理サーバ100に接続する出力装置2008に表示してもよい。運用管理端末101への送信の成功を確認後、処理を終了する。
本実施例によれば、インシデントに関連するジョブグループの未来の実行予測に基づき(ジョブ実行スケジュールテーブル1000にスケジュールされた未実行のジョブも対象として)、将来実行するジョブの数が多いほどインシデントの迷惑度が高くなる。したがって、インシデントが多数、かつ同時に登録された場合でも、算出した迷惑度を基に、管理者はインシデントを効率良く対処できる。
実施例1では、インシデントに関連するジョブグループの実行に対するインシデントの迷惑度は、インシデントによって中断されたジョブもしくは未実行のジョブ以降に実行されるジョブの数を集計して算出した。本実施例では、あらかじめジョブが中断された際に再実行を開始するジョブを定義しておき、この定義情報に基づき再実行を開始するジョブを特定し、特定したジョブ以降に実行されるジョブの数を集計し、迷惑度を算出する。
実施例1では、ステップ3035において、ジョブ実行予測部106は、状態1005が「失敗」を示すジョブグループ識別子1001及びジョブ識別子1002と、これらと対応する、インシデント−ジョブ関連テーブル300のインシデント識別子301を対応付けて、再実行開始ジョブテーブル400にインシデント識別子401、ジョブグループ識別子402及びジョブ識別子403として格納する。本実施例では、ジョブ実行予測部106は、状態1005が「失敗」を示すジョブ識別子1002をキーとしてジョブ再実行定義テーブル1100の中断ジョブ識別子1101を検索して、対応する再実行ジョブ識別子1102を取得し、取得した再実行ジョブ識別子1102を再実行開始ジョブテーブル400にジョブ識別子403として格納する。再実行開始ジョブテーブル400に格納するインシデント識別子401およびジョブグループ識別子402に関しては実施例1と同様である。
本実施例によれば、インシデントによって中断されたジョブに対応して、再実行しなければならない最先のジョブが特定されるため、本来再実行されるべきジョブを含んだインシデントの迷惑度を算出できる。例えば、ジョブAが出力したファイルを入力して、入力したファイルへの所定の処理の後に、ファイルを削除し、さらに処理を続けるジョブBのようなジョブグループがある。この場合、ジョブBがファイルを削除後にインシデントにより中断されると、ジョブBを再実行しても、入力するファイルは削除されているので、ジョブBは、誤った結果を出力したり、ジョブ自体が異常終了する。したがって、ジョブAを再実行ジョブ識別子としてジョブ再実行定義テーブル1100に定義しておくことにより、ジョブBがインシデントにより中断(「失敗」)した場合、本来再実行されるべきジョブAからの再実行を実現でき、これに対応した迷惑度を求めることができる。
本実施例は、中断したジョブよりも以前に実行したジョブから再実行する必要がある上例のような場合に対処できるので、そのような場合の中断ジョブ識別子1101と再実行ジョブ識別子1102との組をジョブ再実行定義テーブル1100に定義しておき、ジョブ再実行定義テーブル1100に中断ジョブ識別子1101がある場合に、再実行ジョブ識別子1102を再実行開始ジョブとし、ジョブ再実行定義テーブル1100に中断ジョブ識別子1101がない場合には、実施例1に従うことが望ましい。これにより、ジョブ再実行定義テーブル1100は、中断ジョブ識別子1101と再実行ジョブ識別子1102とが異なる場合の組を格納しておけばよいので、ジョブ再実行定義テーブル1100のサイズが小さくなる。
本実施例では、再実行が必要なジョブの実行予定時間を集計し、集計した結果をインシデントの迷惑度とする。
実施例1では、ステップ3040において、迷惑度算出部107は、ジョブグループ定義テーブル900を参照し、再実行開始ジョブテーブル400のジョブグループ識別子402を示すジョブグループ識別子901の中で、再実行開始ジョブテーブル400のジョブ識別子403の実行順序903以降の実行順序のジョブの数を計数し、再実行開始ジョブテーブル400のインシデント識別子401に対応する、迷惑度テーブル500のインシデント識別子501に計数結果を対応付けて迷惑度502に加算している。
本実施例では、迷惑度算出部107は、ジョブグループ定義テーブル900を参照し、再実行開始ジョブテーブル400のジョブグループ識別子402を示すジョブグループ識別子901の中で、再実行開始ジョブテーブル400のジョブ識別子403の実行順序903以降の実行順序のジョブを特定する。特定した各ジョブの実行予定時間を、ジョブ実行スケジュールテーブル1000を参照し、対応するジョブ実行開始日時1003とジョブ実行終了日時1004との差から求める。ジョブ実行スケジュールテーブル1000に、同じジョブグループ識別子1001及びジョブ識別子1002に関して、複数行のジョブ実行開始日時1003とジョブ実行終了日時1004とが格納されている場合は、それらの差の平均値を求め、この平均値をジョブの実行予定時間とする。迷惑度算出部107は、求めたジョブの実行予定時間を迷惑度502として迷惑度テーブルに格納する。
本実施例によれば、インシデントに関連するジョブグループの未来の実行予測に基づき(ジョブ実行スケジュールテーブル1000にスケジュールされた未実行のジョブも対象とした)、再実行する必要があるジョブの実行予定時間が長いほどインシデントに対応する迷惑度が高くなる。
本実施例では、再実行が必要なジョブが使用する予定のホストの数を迷惑度とする。
本実施例では、迷惑度算出部107は、ジョブグループ定義テーブル900を参照し、再実行開始ジョブテーブル400のジョブグループ識別子402を示すジョブグループ識別子901の中で、再実行開始ジョブテーブル400のジョブ識別子403の実行順序903以降の実行順序のジョブを特定する。ジョブ実行グループ定義テーブル900を参照し、特定した各ジョブのジョブ実行先ホスト904の一覧を求める。この一覧は、特定した各ジョブのジョブ実行先ホスト904の論理和である。言い換えると、複数のジョブが同じジョブ実行先ホスト904で実行される場合、1つのジョブ実行先ホスト904とする。一覧として求めたジョブ実行先ホスト904の数を迷惑度502として迷惑度テーブルに格納する。
本実施例によれば、インシデントに関連するジョブグループの未来の実行予測に基づき(ジョブ実行スケジュールテーブル1000にスケジュールされた未実行のジョブも対象とした)、再実行する必要があるジョブの実行先ホストの数が多い(つまり多くのリソースを使用する可能性が高い)ほど、インシデントに対応する迷惑度が高くなる。
本実施例は、再実行が必要なジョブの予定実行先のホストの冗長度を算出し、冗長度の低さを迷惑度とする。
本実施例では、迷惑度算出部107は、ジョブグループ定義テーブル900を参照し、再実行開始ジョブテーブル400のジョブグループ識別子402を示すジョブグループ識別子901の中で、再実行開始ジョブテーブル400のジョブ識別子403の実行順序903以降の実行順序のジョブを特定する。ジョブ実行グループ定義テーブル900を参照し、特定した各ジョブのジョブ実行先ホスト904の覧のホスト数を取得し、その逆数を迷惑度502として迷惑度テーブルに格納する。例えば、ジョブ実行先ホスト904の覧に2つのホストが格納されていれば、その逆数の1/2を迷惑度とする。ジョブ実行先ホスト904の覧のホスト数は、ホストの冗長度を表しているので、冗長度が高ければ、迷惑度は低くなることを示している。
本実施例によれば、インシデントに関連するジョブグループの未来の実行予測に基づき、再実行する必要があるジョブの予定実行先の冗長度が低い(つまり他のホストで代替実行できる可能性が高い)ほど、インシデントの迷惑度が高くなる。
本実施例は、インシデントの対処に必要な時間を予測し、インシデントに関連するジョブグループの実行スケジュールから、予測した対処時間内にジョブグループの実行が何回失敗するかを迷惑度とする。
本実施例は、図12のステップ3040に代えて、図13の迷惑度加算処理を実行する。対処時間予測部109は、インシデントテーブル200の対象ホスト202に一致し、インシデント内容203に類似する、インシデント識別子601を対処時間履歴テーブル600から検索する(ステップ3100)。インシデントテーブル200の対象ホスト202との一致は、対処時間テーブル600の対象ホスト602が一致するときである。インシデント内容203との類似は、(1)インシデント内容203と対処時間テーブル600のインシデント内容603の一致、(2)インシデント内容203がインシデント内容603に包含される、及び(3)インシデント内容603がインシデント内容203に包含される、のいずれか1つに該当するとき、インシデント内容203にインシデント内容603が類似するとする。検索結果が得られなければ(ステップ3105)、処理を終了する。
検索結果が得られたならば、インシデント識別子601に対応する対処所要時間604を、予測対処時間テーブル700にインシデント識別子701に対応させて格納する(ステップ3110)。インシデント識別子701は、ステップ3005で取り出した、インシデントテーブル200のインシデント識別子201である。
迷惑度算出部107は、インシデント−ジョブ関連テーブル300のジョブグループ識別子302に対応する、ジョブ実行スケジュールテーブル1000のジョブグループ識別子1001の内で、そのジョブ実行開始日時1003が現在日時以降で、かつ現在日時から前記インシデント識別子701に対応する予測対処時間702を加算した時間内に実行されるジョブグループ識別子1001の数を計数する(ステップ3115)。計数したジョブグループ識別子1001の数を、迷惑度テーブル500の対応するインシデント識別子501の迷惑度502に加算する。
本実施例によれば、インシデントに関連するジョブグループの未来の実行予測に基づき、インシデントの予測対処時間内に実行されるジョブグループの予定実行回数が多い(つまりインシデントへの対処が、ジョブグループの実行に間に合わない回数が多い)ほど、インシデントの迷惑度が高くなる。
以上説明した本実施形態によれば、業務システムに対するインシデントによる影響度を、業務システムを構成する業務実行サーバが実行する、再実行すべきジョブ又はジョブグループ、並びに、既に実行がスケジュールされたジョブ又はジョブグループに関係させた定量的な迷惑度として出力し、システム管理者によるインシデントへの対処を支援できる。
100:運用管理サーバ、101:運用管理端末、102:ジョブ管理サーバ、103:送受信部、104:インシデント検出部、105:インシデント−ジョブ関連特定部、106:ジョブ実行予測部、107:迷惑度算出部、108:インシデント表示部、109:対処時間予測部、111:記憶部、112:入力部、113:出力部、114:送受信部、115:通信処理部、116:送受信部、117:ジョブ管理部、200:インシデントテーブル、300:インシデント−ジョブ関連テーブル、400:再実行開始ジョブテーブル、500:迷惑度テーブル、600:対処時間履歴テーブル、700:予測対処時間テーブル、900:ジョブグループ定義テーブル、1000:ジョブ実行スケジュールテーブル、1100:ジョブ再実行定義テーブル、2001:計算機、2002:CPU、2003:主記憶装置、2004:外部記憶装置インタフェース、2005:通信インタフェース、2006:外部記憶装置、2007:入力装置、2008:出力装置、2009:ネットワーク。

Claims (4)

  1. ホストと呼ぶ業務実行サーバにより構成される業務システムおよび前記業務実行サーバによるジョブの実行を管理するジョブ管理サーバと接続し、前記業務システムを運用管理する運用管理サーバにおける、前記業務システムに発生するインシデントを管理する方法であって、前記運用管理サーバは、
    前記業務システムに発生した前記インシデントの発生に応答して、前記インシデントと前記インシデントが発生した前記ホストとを対応付けたインシデントテーブル、並びに、前記ホストにより実行される前記ジョブ及び前記ジョブを含むジョブグループと前記ホストとを対応付けた、前記ジョブ管理サーバからのジョブグループ定義テーブルを参照して、前記インシデントが発生した前記ホストにより実行される前記ジョブ及び前記ジョブグループを特定し、
    前記ジョブ管理サーバからのジョブ実行スケジュールテーブルに示される前記ジョブの実行状況を参照して、前記ジョブグループ内の、前記インシデントの発生により再実行すべき及び未実行のジョブを特定し、
    特定した前記ジョブに関連させて、前記インシデントが前記業務システムに与える影響度である迷惑度を、前記ジョブグループ定義テーブルに示される、特定した前記ジョブを実行する前記ホストの冗長度の逆数として求めることを特徴とするインシデント管理方法。
  2. ホストと呼ぶ業務実行サーバにより構成される業務システムおよび前記業務実行サーバによるジョブの実行を管理するジョブ管理サーバと接続し、前記業務システムを運用管理する運用管理サーバにおける、前記業務システムに発生するインシデントを管理する方法であって、前記運用管理サーバは、
    前記業務システムに発生した前記インシデントの発生に応答して、前記インシデントと前記インシデントが発生した前記ホストとを対応付けたインシデントテーブル、並びに、前記ホストにより実行される前記ジョブ及び前記ジョブを含むジョブグループと前記ホストとを対応付けた、前記ジョブ管理サーバからのジョブグループ定義テーブルを参照して、前記インシデントが発生した前記ホストにより実行される前記ジョブ及び前記ジョブグループを特定し、
    前記ジョブ管理サーバからのジョブ実行スケジュールテーブルに示される前記ジョブの実行状況を参照して、前記ジョブグループ内の、前記インシデントの発生により再実行すべき及び未実行のジョブを特定し、
    特定した前記ジョブに関連させて、前記インシデントが前記業務システムに与える影響度である迷惑度を、前記ホストにおける前記インシデントと類似したインシデントと対処所要時間とを対応付けた対処時間履歴テーブルを参照した前記類似したインシデントへの対処完了予定日時までの、前記ジョブ実行スケジュールテーブルに示される、前記ジョブグループの実行予定回数として求めることを特徴とするインシデント管理方法。
  3. ホストと呼ぶ業務実行サーバにより構成される業務システムと前記業務実行サーバによるジョブの実行を管理するジョブ管理サーバとに接続し、
    前記業務システムに発生したインシデントの発生に応答して、前記インシデントと前記インシデントが発生した前記ホストとを対応付けたインシデントテーブル、並びに、前記ホストにより実行される前記ジョブ及び前記ジョブを含むジョブグループと前記ホストとを対応付けた、前記ジョブ管理サーバからのジョブグループ定義テーブルを参照して、前記インシデントが発生した前記ホストにより実行される前記ジョブ及び前記ジョブグループを特定するインシデント−ジョブ関連特定部、
    前記ジョブ管理サーバからのジョブ実行スケジュールテーブルに示される前記ジョブの実行状況を参照して、前記ジョブグループ内の、前記インシデントの発生により再実行すべき及び未実行のジョブを特定するジョブ実行予測部、及び、
    特定した前記ジョブに関連させて、前記インシデントが前記業務システムに与える影響度である迷惑度を、前記ジョブグループ定義テーブルに示される、特定した前記ジョブを実行する前記ホストの冗長度の逆数として求める迷惑度算出部を有することを特徴とする運用管理サーバ。
  4. ホストと呼ぶ業務実行サーバにより構成される業務システムと前記業務実行サーバによるジョブの実行を管理するジョブ管理サーバとに接続し、
    前記業務システムに発生したインシデントの発生に応答して、前記インシデントと前記インシデントが発生した前記ホストとを対応付けたインシデントテーブル、並びに、前記ホストにより実行される前記ジョブ及び前記ジョブを含むジョブグループと前記ホストとを対応付けた、前記ジョブ管理サーバからのジョブグループ定義テーブルを参照して、前記インシデントが発生した前記ホストにより実行される前記ジョブ及び前記ジョブグループを特定するインシデント−ジョブ関連特定部、
    前記ジョブ管理サーバからのジョブ実行スケジュールテーブルに示される前記ジョブの実行状況を参照して、前記ジョブグループ内の、前記インシデントの発生により再実行すべき及び未実行のジョブを特定するジョブ実行予測部、及び、
    特定した前記ジョブに関連させて、前記インシデントが前記業務システムに与える影響度である迷惑度を、前記ホストにおける前記インシデントと類似したインシデントと対処所要時間とを対応付けた対処時間履歴テーブルを参照した前記類似したインシデントへの対処完了予定日時までの、前記ジョブ実行スケジュールテーブルに示される、前記ジョブグループの実行予定回数として求める迷惑度算出部を有することを特徴とする運用管理サーバ。
JP2009257131A 2009-11-10 2009-11-10 インシデント管理方法および運用管理サーバ Active JP5422342B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2009257131A JP5422342B2 (ja) 2009-11-10 2009-11-10 インシデント管理方法および運用管理サーバ
US12/703,013 US20110113429A1 (en) 2009-11-10 2010-02-09 Incident management method and operation management server

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009257131A JP5422342B2 (ja) 2009-11-10 2009-11-10 インシデント管理方法および運用管理サーバ

Publications (2)

Publication Number Publication Date
JP2011103030A JP2011103030A (ja) 2011-05-26
JP5422342B2 true JP5422342B2 (ja) 2014-02-19

Family

ID=43975129

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009257131A Active JP5422342B2 (ja) 2009-11-10 2009-11-10 インシデント管理方法および運用管理サーバ

Country Status (2)

Country Link
US (1) US20110113429A1 (ja)
JP (1) JP5422342B2 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140149169A1 (en) * 2011-06-08 2014-05-29 Hitachi ,Ltd. Impact analysis method, impact analysis apparatus and non-transitory computer-readable storage medium
US8892539B2 (en) 2012-11-28 2014-11-18 International Business Machines Corporation Building, reusing and managing authored content for incident management
JP6248493B2 (ja) * 2013-09-17 2017-12-20 株式会社リコー データ処理装置、データ処理方法、及びデータ処理プログラム
JP6199793B2 (ja) * 2014-04-15 2017-09-20 日本電信電話株式会社 ジョブ実行管理システム、ジョブ再実行方法およびジョブ再実行プログラム
JP6558037B2 (ja) * 2015-04-10 2019-08-14 富士通株式会社 運用管理プログラム、運用管理方法、および運用管理装置
US20170235608A1 (en) * 2016-02-16 2017-08-17 Linkedin Corporation Automatic response to inefficient jobs in data processing clusters
WO2018128804A1 (en) * 2017-01-06 2018-07-12 Intel IP Corporation Measurement job suspension and resumption in network function virtualization
US11138168B2 (en) 2017-03-31 2021-10-05 Bank Of America Corporation Data analysis and support engine
US10642801B2 (en) 2017-08-29 2020-05-05 Bank Of America Corporation System for determining the impact to databases, tables and views by batch processing
JP6571232B1 (ja) * 2018-03-14 2019-09-04 みずほ情報総研株式会社 影響調査システム、影響調査方法及び影響調査プログラム
CN111857984A (zh) * 2020-06-01 2020-10-30 北京文思海辉金信软件有限公司 银行系统中的作业调用处理方法、装置和计算机设备

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2809271B2 (ja) * 1996-04-15 1998-10-08 日本電気株式会社 ジョブ再実行方式
JPH1078894A (ja) * 1996-09-03 1998-03-24 Hitachi Ltd 計算機システムの障害回復支援方法
JPH117431A (ja) * 1997-06-16 1999-01-12 Hitachi Ltd 複数コンピュータで実行する業務の障害回復システム
US7386586B1 (en) * 1998-12-22 2008-06-10 Computer Associates Think, Inc. System for scheduling and monitoring computer processes
JP4045991B2 (ja) * 2003-03-27 2008-02-13 株式会社日立製作所 ポリシールールの生成方法およびそれを用いたジョブ運用管理方法
US7364922B2 (en) * 2005-01-24 2008-04-29 Tokyo Electron Limited Automated semiconductor wafer salvage during processing
JP2008217367A (ja) * 2007-03-02 2008-09-18 Hitachi Information Systems Ltd バッチ処理の障害復旧方法及び障害復旧システム
JP4669487B2 (ja) * 2007-03-02 2011-04-13 株式会社日立製作所 情報処理システムの運用管理装置および運用管理方法

Also Published As

Publication number Publication date
US20110113429A1 (en) 2011-05-12
JP2011103030A (ja) 2011-05-26

Similar Documents

Publication Publication Date Title
JP5422342B2 (ja) インシデント管理方法および運用管理サーバ
US7840517B2 (en) Performance evaluating apparatus, method, and computer-readable medium
JP5075736B2 (ja) 仮想サーバのシステム障害回復方法及びそのシステム
JP4983795B2 (ja) システム管理プログラム、システム管理装置およびシステム管理方法
EP2523115A1 (en) Operation management device, operation management method, and program storage medium
WO2012066691A1 (ja) クラスタシステム
JP5942509B2 (ja) バッチ処理システム
US9183038B2 (en) Job management system that determines if master data has been updated, then re-executes a sub-job based on available executing computers and data sharing status
US9021078B2 (en) Management method and management system
JP6097666B2 (ja) ジョブ管理システム
EP2828761A1 (en) A method and system for distributed computing of jobs
JP6530337B2 (ja) トランザクション制御システムおよびトランザクション制御方法
JP5466740B2 (ja) 仮想サーバのシステム障害回復方法及びそのシステム
JPWO2007108062A1 (ja) サーバ管理方法、プログラム及び装置
JP5325827B2 (ja) ジョブスケジュールシステム、ジョブスケジュール管理方法及びプログラム。
US10324758B1 (en) Read load task throttling
JP6477311B2 (ja) ジョブ実行カレンダ管理プログラム、ジョブ実行カレンダ管理装置、及びジョブ実行カレンダ管理方法
US11960928B2 (en) Event monitoring system and event monitoring method
JP6835763B2 (ja) メッセージ監視サーバ、方法、プログラム
JP2009289069A (ja) 障害対応支援システム、障害対応支援方法、および障害対応支援プログラム
JP3995023B2 (ja) オブジェクト管理方法
JP2017091213A (ja) データベース更新処理システムおよびデータベース更新処理方法
JP2017076299A (ja) 事象発生通知プログラム、事象発生通知方法、及び、事象発生通知装置
JP2015106329A (ja) 運用作業の履歴を検索する情報処理装置、情報処理システム、運用作業履歴検索方法及びそのためのプログラム
JP5847497B2 (ja) システム管理支援装置およびシステム管理支援方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120202

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130430

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130514

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130710

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131105

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131125

R150 Certificate of patent or registration of utility model

Ref document number: 5422342

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150