JP2013008178A - インシデント管理システム及びインシデント管理方法 - Google Patents

インシデント管理システム及びインシデント管理方法 Download PDF

Info

Publication number
JP2013008178A
JP2013008178A JP2011140099A JP2011140099A JP2013008178A JP 2013008178 A JP2013008178 A JP 2013008178A JP 2011140099 A JP2011140099 A JP 2011140099A JP 2011140099 A JP2011140099 A JP 2011140099A JP 2013008178 A JP2013008178 A JP 2013008178A
Authority
JP
Japan
Prior art keywords
incident
management system
template
incident management
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2011140099A
Other languages
English (en)
Inventor
Masaki Mitsuda
昌樹 光田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Systems Ltd
Original Assignee
Hitachi Systems Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Systems Ltd filed Critical Hitachi Systems Ltd
Priority to JP2011140099A priority Critical patent/JP2013008178A/ja
Publication of JP2013008178A publication Critical patent/JP2013008178A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】既知インシデントに対する対応を自動的に行うインシデント管理システムの提供。
【解決手段】インシデント管理システム1がユーザコンピュータシステムから受信したインシデントに含まれるエラーメッセージに紐付けされたテンプレートIDを抽出して運用自動化システム2へ送信し、運用自動化システム2が受け取ったテンプレートIDから運用テンプレートの実行に必要な引数情報を運用管理データベース6から抽出してインシデント管理システム1に返信し、インシデント管理システム1が、引数情報を基に構成管理データベース5から運用テンプレートの引数を抽出して運用自動化システム2に送信し、運用自動化システム2が運用プロセスを実行するもの。
【選択図】図1

Description

本発明は、コンピュータシステムにおけるソフトウェア製品などの障害を表すインシデントを管理するインシデント管理システム及びインシデント管理方法に係り、特に既知のインシデントに対する障害回復等の対応を容易に行うことができるインシデント管理システム及びインシデント管理方法に関する。
近年、企業におけるIT関連予算が主に横ばいにかかわらず、ユーザからの要求は高まる一方であり、例えば、企業内のIT部門は、コスト削減と効率向上を継続的に図りながら、ユーザにより良い迅速なサービスを提供していかなければならず、このために技術領域全体に渡ったITシステム運用プロセスの自動化による運用SE1人あたりの管理サーバ数の増加が必要となってきている。
このコンピュータシステムにおけるソフトウェア製品などの障害であるインシデントの解決に関しては、多くの場合人手による作業が必要であり、既知のインシデントの場合、解決事例を基に解決策の策定、運用手順書の作成、復旧作業の実施、相互による実施確認の各手順が必要である。これには多くの工数が必要であり、また作業実施者が“人”であることにより、作業が複雑化するにつれ作業ミスが発生する可能性が高くなるものであった。
また、インシデント(障害)発生時に通知されるインシデントデータとは、インシデント番号、日時(障害の発生時刻又は障害通知の受付時刻)、障害が発生したシステムを使用する顧客の顧客コード、障害が発生した機器の機種を表す機種コード、障害が発生した機器を特定するための装置番号、障害の状態(例えば、S:システムダウン、M:マシンダウン、N:ノーダウン[障害が発生したがシステムは動作している状態])と障害がシステムに対して与える影響度のレベル(例えば、A:全社の基幹システムがダウンし、全社的又は社会的な影響が出ているレベル、B:Aより低いが業務に影響があるレベル、C:業務影響なし)を示すエラーコードが含まれる。
なお、前記インシデントの解決に関する技術が記載された文献としては、例えば下記特許文献1が挙げられ、この特許文献1には、障害の受け付け時刻等の基準時刻と顧客IDと対象物IDと障害状態と障害の影響度を含む第1インシデント情報の新規登録を検出する工程と、インシデント情報格納部から第1インシデント情報に含まれる顧客IDと対象物IDと一致する対象物IDとを含み且つ基準時刻から所定期間内に受け付けたインシデント情報を抽出する工程と、所定件数以上のインシデント情報が抽出された場合、第1インシデント情報及び抽出インシデント情報の各々について、インシデント情報に含まれる障害状態及び影響度が該当するリスクポイントを取得して、当該リスクポイントを合計することにより総合リスクポイントを算出する工程と、総合リスクポイントが所定の閾値を超えた場合、第1インシデント情報等を含むアラームを出力する工程とを含むことによって、障害が発生したシステム等に内在する問題の根本解決及び顧客対策の観点で対処すべき顧客等を特定する障害対応処理方法が記載されている。
特開2010−211674号公報
前述の従来技術によるインシデントの解決技術は、インシデント顧客等を特定することによって、障害が発生したシステムなどに内在する問題の根本解決及び当該システムの顧客対策の観点でどのように対処すべき顧客又は機種若しくは機器を特定することができるものの、運用SE1人あたりの管理サーバ数の増加に対応することが困難であるという課題があった。
本発明の目的は、前述の従来技術による課題を解決しようとするものであり、既知のインシデントにおいて、解決策の策定と運用手順書の作成と復旧作業の実施と作業実施確認の一連のインシデント解決のプロセスを自動化することができるインシデント管理システム及びインシデント管理方法を提供することである。
前記目的を達成するために請求項1記載の本発明は、過去に発生したユーザコンピュータシステムのインシデント事例を格納するための事例管理データベースと、既知インシデントのインシデント番号、日時、顧客コード、機種コード、装置番号、障害の状態を示すエラーコードを格納するインシデントデータベースと、ユーザ毎のコンピュータシステムの構成情報を格納した構成管理データベースと、運用手順を示す運用テンプレート及び引数情報を格納する運用管理データベースを含む運用管理システムとに接続され、インシデントの管理を行うインシデント管理システムであって、
該インシデント管理システムが、ユーザコンピュータシステムからのインシデントを受信したとき、該インシデントに含まれるエラーメッセージを抽出し、該エラーメッセージに紐付けされたテンプレートIDを抽出する第1工程と、該第1工程によって抽出したテンプレートIDを運用自動化システムへと送信する第2工程と、該運用自動化システムが、受け取ったテンプレートIDから運用テンプレートを抽出し、該抽出した運用テンプレートの実行に必要な引数情報を運用管理データベースから抽出する第3工程と、該第3工程によって抽出した引数情報をインシデント管理システムに送信する第4工程と、該第4工程による引数情報を受け取ったインシデント管理システムが、受け取った引数情報を基に構成管理データベースから運用テンプレートの引数となる構成情報を抽出する第5工程と、該第5工程によって抽出した構成情報を運用自動化システムに送信する第6工程と、該第6工程によって構成情報を受け取った運用自動化システムが、障害に対する対策の実施日時をスケジューリングする第7工程と、該第7工程によるスケジュールに従って運用プロセスを実行し、正常に終了したことを確認する第9工程と、該第9工程により正常終了が確認されたとき、実行結果をインシデント管理システムに送信する第10工程と、該第10工程によって実行結果を受信したインシデント管理システムが、実行結果を保存する第11工程とを実行することを第1の特徴とし、該インシデント管理システムにおいて、前記インシデント管理システムが、ユーザコンピュータシステムから受信した複数のインシデントを受信したとき、同一のインシデントをフィルタリングする第12工程を実行することを第2の特徴とする。
また、本発明は、過去に発生したユーザコンピュータシステムのインシデント事例を格納するための事例管理データベースと、既知インシデントのインシデント番号、日時、顧客コード、機種コード、装置番号、障害の状態を示すエラーコードを格納するインシデントデータベースと、ユーザ毎のコンピュータシステムの構成情報を格納した構成管理データベースと、運用手順を示す運用テンプレート及び引数情報を格納する運用管理データベースを含む運用管理システムとに接続され、インシデント管理システムによってインシデント管理を行うインシデント管理方法であって、
該インシデント管理システムに、ユーザコンピュータシステムからのインシデントを受信したとき、該インシデントに含まれるエラーメッセージを抽出させ、該エラーメッセージに紐付けされたテンプレートIDを抽出させる第1工程と、該第1工程によって抽出したテンプレートIDを運用自動化システムへと送信させる第2工程と、該運用自動化システムに、受け取ったテンプレートIDから運用テンプレートを抽出させ、該抽出した運用テンプレートの実行に必要な引数情報を運用管理データベースから抽出させる第3工程と、該第3工程によって抽出した引数情報をインシデント管理システムに送信させる第4工程と、該第4工程による引数情報を受け取ったインシデント管理システムに、受け取った引数情報を基に構成管理データベースから運用テンプレートの引数となる構成情報を抽出させる第5工程と、該第5工程によって抽出した構成情報を運用自動化システムに送信させる第6工程と、該第6工程によって構成情報を受け取った運用自動化システムに、障害に対する対策の実施日時をスケジューリングさせる第7工程と、該第7工程によるスケジュールに従って運用プロセスを実行させ、正常に終了したことを確認させる第9工程と、該第9工程により正常終了が確認されたとき、実行結果をインシデント管理システムに送信させる第10工程と、該第10工程によって実行結果を受信したインシデント管理システムに、実行結果を保存する第11工程とを実行させることを第3の特徴とし、該インシデント管理方法において、前記インシデント管理システムに、ユーザコンピュータシステムから受信した複数のインシデントを受信したとき、同一のインシデントをフィルタリングさせる第12工程を実行させることを第4の特徴とする。
本発明によるインシデント管理システム及びインシデント管理方法は、既知のインシデントに対応するための運用テンプレートに、障害が発生したユーザのコンピュータシステムの構成情報に基づく引数を適用して障害対策を行うように構成したため、既知のインシデントに対する障害対応を自動的に行うことができ、従って既知のインシデントに対する解決策の策定と運用手順書の作成と復旧作業の実施と作業実施確認の一連のインシデント解決のプロセスを自動化し、運用SE1人あたりの管理サーバ数の増加に対応することができる。
本発明の実施形態によるインシデント管理システムを含むコンピュータシステムを示す図。 本発明の実施形態によるインシデント管理システムの動作説明図。 本発明の実施形態による運用自動化システムの動作説明図。 本発明の実施形態による動作シーケンスを示す図。
以下、本発明によるインシデント管理システム及びインシデント管理方法の一実施形態を図面を参照して詳細に説明する。
本実施形態によるインシデント管理システムを含むコンピュータシステムは、図1に示す如く、過去に発生した障害のインシデント事例を格納するための事例管理データベース3と、既知のインシデントデータ(インシデント番号、日時、顧客コード、機種コード、装置番号、障害の状態を示すエラーコード)を格納するインシデントデータベース4と、ユーザのコンピュータシステムの構成情報を格納した構成管理データベース5と、発生したインシデントをフィルタリングして前記事例管理データベース3からの事例情報とインシデントデータベース4からのインシデントデータとを基にインシデントの管理を行うインシデント管理システム1と、該インシデント管理システム1が抽出した既知のインシデントに対する障害の解決策の策定及び運用手順書の作成を行う運用自動化システム2とから構成される。
前記インシデント管理システム1は、図2に示す如く、イベント管理部202とフィルタリング部204とインシデント管理部206と問題管理部207と変更・リリース管理部208とを備え、イベント管理部202がコンピュータシステムに発生した複数のイベント201を入力する工程と、入力としたイベントがインシデント(障害)か否かを判定する工程と、この判定によりインシデントと判定したとき、フィルタリング部204が同一内容のインシデントをフィルタリングする工程と、前記事例管理データベース3に格納した既知のイベントを参照して過去に同様の事例があるか否かを判定する工程と、該工程において過去に同様の事例がないと判定したとき、インシデントメッセージを基に新規インシデントとしてインシデント管理部206に登録し、過去に同様の事例があると判定したとき、事例と結びつけて既知インシデントとしてインシデント管理部206に登録する工程と、インシデントを解決するためのワークアラウンド及び解決策をインシデント管理部206によって策定する工程と、該策定した解決策を変更・リリース管理部208によって実施する工程とを実行することによって、既知のインシデントを自動的に解決することができる。
前記運用自動化システム2は、図2に示す如く、ユーザが、運用手順書定義部301を用いて構成管理データベース5の構成情報を参照して運用手順書302を作成して運用管理データベース6に格納する工程と、作成した運用手順書302の実行日時をスケジューリング部303を用いてスケジューリングする工程と、運用手順実行部304が前記運用手順書302に基づいて運用を実行する工程とを実行する。
このように構成されたインシデント管理システムを含むコンピュータシステムは、図4に示す如く、インシデント管理システム1が、受け取った既知のインシデントからインシデントに含まれるエラーメッセージを抽出し、該エラーメッセージに紐付けされたテンプレートIDを抽出するステップ401と、該ステップ401によって抽出したテンプレートIDを運用自動化システム2へと送信するステップ402と、運用自動化システム2が受け取ったテンプレートIDから運用テンプレートを抽出し、該抽出した運用テンプレートの実行に必要な引数情報を抽出するステップS403と、該ステップ403によって抽出した引数情報をインシデント管理システム1に送信するステップ404と、このステップ404による引数情報を受け取ったインシデント管理システム1が受け取った引数情報を基に運用管理データベース6から運用テンプレートの引数となる構成情報を抽出するステップ405と、該ステップ405によって抽出した構成情報を運用自動化システム2に送信するステップ406と、該ステップ406によって構成情報を受け取った運用自動化システム2が障害に対する対策の実施日時をスケジューリングするステップ407と、該ステップ407によるスケジュールに従って運用プロセスを実行し、正常に終了したことを確認するステップ408と、該ステップ408により正常終了が確認されたとき、実行結果をインシデント管理システム1に送信するステップ409と、該ステップ409によって実行結果を受信したインシデント管理システム1が実行結果を保存するステップ410を実行することによって、既知のインシデントに対する障害対応を自動的に行うことができる。
このように本実施形態によるインシデント管理システム及びインシデント管理方法は、既知のインシデントに対応するための運用テンプレートに、障害が発生したユーザのコンピュータシステムの構成情報に基づく引数を適用して障害対策を行うように構成したため、既知のインシデントに対する障害対応を自動的に行うことができ、従って既知のインシデントに対する解決策の策定と運用手順書の作成と復旧作業の実施と作業実施確認の一連のインシデント解決のプロセスを自動化し、運用SE1人あたりの管理サーバ数の増加に対応することができる。
1 インシデント管理システム、2 運用自動化システム、
3 事例管理データベース、4 インシデントデータベース、
5 構成管理データベース、6 運用管理データベース、
201 イベント、202 イベント管理部、204 フィルタリング部、
206 インシデント管理部、207 問題管理部、
208 変更・リリース管理部、301 運用手順書定義部、
302 運用手順書、303 スケジューリング部、304 運用手順実行部

Claims (4)

  1. 過去に発生したユーザコンピュータシステムのインシデント事例を格納するための事例管理データベースと、既知インシデントのインシデント番号、日時、顧客コード、機種コード、装置番号、障害の状態を示すエラーコードを格納するインシデントデータベースと、ユーザ毎のコンピュータシステムの構成情報を格納した構成管理データベースと、運用手順を示す運用テンプレート及び引数情報を格納する運用管理データベースを含む運用管理システムとに接続され、インシデントの管理を行うインシデント管理システムであって、
    該インシデント管理システムが、ユーザコンピュータシステムからのインシデントを受信したとき、該インシデントに含まれるエラーメッセージを抽出し、該エラーメッセージに紐付けされたテンプレートIDを抽出する第1工程と、該第1工程によって抽出したテンプレートIDを運用自動化システムへと送信する第2工程と、該運用自動化システムが、受け取ったテンプレートIDから運用テンプレートを抽出し、該抽出した運用テンプレートの実行に必要な引数情報を運用管理データベースから抽出する第3工程と、該第3工程によって抽出した引数情報をインシデント管理システムに送信する第4工程と、該第4工程による引数情報を受け取ったインシデント管理システムが、受け取った引数情報を基に構成管理データベースから運用テンプレートの引数となる構成情報を抽出する第5工程と、該第5工程によって抽出した構成情報を運用自動化システムに送信する第6工程と、該第6工程によって構成情報を受け取った運用自動化システムが、障害に対する対策の実施日時をスケジューリングする第7工程と、該第7工程によるスケジュールに従って運用プロセスを実行し、正常に終了したことを確認する第9工程と、該第9工程により正常終了が確認されたとき、実行結果をインシデント管理システムに送信する第10工程と、該第10工程によって実行結果を受信したインシデント管理システムが、実行結果を保存する第11工程とを実行することを特徴とするインシデント管理システム。
  2. 前記インシデント管理システムが、ユーザコンピュータシステムから受信した複数のインシデントを受信したとき、同一のインシデントをフィルタリングする第12工程を実行することを特徴とする請求項1記載のインシデント管理システム。
  3. 過去に発生したユーザコンピュータシステムのインシデント事例を格納するための事例管理データベースと、既知インシデントのインシデント番号、日時、顧客コード、機種コード、装置番号、障害の状態を示すエラーコードを格納するインシデントデータベースと、ユーザ毎のコンピュータシステムの構成情報を格納した構成管理データベースと、運用手順を示す運用テンプレート及び引数情報を格納する運用管理データベースを含む運用管理システムとに接続され、インシデント管理システムによってインシデント管理を行うインシデント管理方法であって、
    該インシデント管理システムに、ユーザコンピュータシステムからのインシデントを受信したとき、該インシデントに含まれるエラーメッセージを抽出し、該エラーメッセージに紐付けされたテンプレートIDを抽出させる第1工程と、該第1工程によって抽出したテンプレートIDを運用自動化システムへと送信させる第2工程と、該運用自動化システムに、受け取ったテンプレートIDから運用テンプレートを抽出させ、該抽出した運用テンプレートの実行に必要な引数情報を構成管理データベースから抽出させる第3工程と、該第3工程によって抽出した引数情報をインシデント管理システムに送信させる第4工程と、該第4工程による引数情報を受け取ったインシデント管理システムに、受け取った引数情報を基に運用管理データベースから運用テンプレートの引数となる構成情報を抽出させる第5工程と、該第5工程によって抽出した構成情報を運用自動化システムに送信させる第6工程と、該第6工程によって構成情報を受け取った運用自動化システムに、障害に対する対策の実施日時をスケジューリングさせる第7工程と、該第7工程によるスケジュールに従って運用プロセスを実行させ、正常に終了したことを確認させる第9工程と、該第9工程により正常終了が確認されたとき、実行結果をインシデント管理システムに送信させる第10工程と、該第10工程によって実行結果を受信したインシデント管理システムに、実行結果を保存させる第11工程とを実行することを特徴とするインシデント管理方法。
  4. 前記インシデント管理システムに、ユーザコンピュータシステムから受信した複数のインシデントを受信したとき、同一のインシデントをフィルタリングする第12工程を実行させることを特徴とする請求項3記載のインシデント管理方法。
JP2011140099A 2011-06-24 2011-06-24 インシデント管理システム及びインシデント管理方法 Withdrawn JP2013008178A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011140099A JP2013008178A (ja) 2011-06-24 2011-06-24 インシデント管理システム及びインシデント管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011140099A JP2013008178A (ja) 2011-06-24 2011-06-24 インシデント管理システム及びインシデント管理方法

Publications (1)

Publication Number Publication Date
JP2013008178A true JP2013008178A (ja) 2013-01-10

Family

ID=47675483

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011140099A Withdrawn JP2013008178A (ja) 2011-06-24 2011-06-24 インシデント管理システム及びインシデント管理方法

Country Status (1)

Country Link
JP (1) JP2013008178A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10235210B2 (en) 2015-04-10 2019-03-19 Fujitsu Limited Operation management method and operation management apparatus
US11169896B2 (en) 2019-09-09 2021-11-09 Fujifilm Business Innovation Corp. Information processing system

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10235210B2 (en) 2015-04-10 2019-03-19 Fujitsu Limited Operation management method and operation management apparatus
US11169896B2 (en) 2019-09-09 2021-11-09 Fujifilm Business Innovation Corp. Information processing system

Similar Documents

Publication Publication Date Title
US8060782B2 (en) Root cause problem identification through event correlation
US7480536B2 (en) Method for assessing reliability requirements of a safety instrumented control function
JP2011076161A (ja) インシデント管理システム
KR101171274B1 (ko) 전사적 자원관리시스템과의 연계를 통해 원전 계획예방정비를 위한 리스크 관리 시스템 및 그 방법
US11467871B2 (en) Pipeline task verification for a data processing platform
EP2665030A1 (en) Method and a system for an automatic recovery from a fault situation in a production plant
CN112561370A (zh) 软件发版的管理方法、装置、计算机设备及存储介质
JP2006244006A (ja) 設備保全管理装置及び設備保全管理方法ならびにそのプログラム、記録媒体
CN110619014A (zh) 一种基于etl的数据抽取方法
JP2013008178A (ja) インシデント管理システム及びインシデント管理方法
Baumgart et al. Industrial challenges to achieve functional safety compliance in product lines
JP2012256143A (ja) 保守管理システム、作業優先順位算出方法およびプログラム
CN105446289B (zh) 由制造执行系统收集工作状态的时间戳的方法和系统
JP6310865B2 (ja) ソースコード評価システム及び方法
CN114723080A (zh) 一种设备检修管理方法、系统、装置及存储介质
CN113919757B (zh) 基于工作流的待办事项处理人匹配方法及处理系统
JP2009301341A (ja) サービシステム、サービスシステム管理方法、及びプログラム
Ab Rahim et al. Technique to improve visibility for cycle time improvement in semiconductor manufacturing
JP2008257397A (ja) 設備業務統合管理方法及びシステム並びにそのプログラム
CN112965793A (zh) 一种面向标识解析数据的数据仓库任务调度方法和系统
US20150317741A1 (en) Online Claim System for Automated Insurance Claim Monitoring
JP2014032598A (ja) インシデント管理システム及びその方法
JP2007041828A (ja) Sla達成状況判定方法
JP2012226663A (ja) チェック作業監視システム及びチェック作業監視方法
Wickel et al. A retrospective analysis of engineering change orders to identify potential for future improvements

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20140902