JP2018081403A - Incident management system, incident management method and computer program - Google Patents
Incident management system, incident management method and computer program Download PDFInfo
- Publication number
- JP2018081403A JP2018081403A JP2016222177A JP2016222177A JP2018081403A JP 2018081403 A JP2018081403 A JP 2018081403A JP 2016222177 A JP2016222177 A JP 2016222177A JP 2016222177 A JP2016222177 A JP 2016222177A JP 2018081403 A JP2018081403 A JP 2018081403A
- Authority
- JP
- Japan
- Prior art keywords
- incident
- operation state
- state information
- similar
- incidents
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007726 management method Methods 0.000 title claims description 59
- 238000004590 computer program Methods 0.000 title claims description 5
- 230000010365 information processing Effects 0.000 claims abstract description 42
- 238000000034 method Methods 0.000 abstract description 6
- 238000012545 processing Methods 0.000 description 17
- 238000004891 communication Methods 0.000 description 8
- 238000012986 modification Methods 0.000 description 8
- 230000004048 modification Effects 0.000 description 8
- 238000012806 monitoring device Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000012544 monitoring process Methods 0.000 description 5
- 230000000877 morphologic effect Effects 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- LBSRXDSYKFAERE-UHFFFAOYSA-N n-(3-cyano-5,6-dihydro-4h-cyclopenta[b]thiophen-2-yl)-4-methyl-2-phenyl-1,3-thiazole-5-carboxamide Chemical compound S1C(C(=O)NC2=C(C=3CCCC=3S2)C#N)=C(C)N=C1C1=CC=CC=C1 LBSRXDSYKFAERE-UHFFFAOYSA-N 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 238000003339 best practice Methods 0.000 description 1
- 238000013070 change management Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 230000002250 progressing effect Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000012559 user support system Methods 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Description
本発明は、データ処理技術に関し、特に、情報処理システムのインシデント管理を支援する技術に関する。 The present invention relates to data processing technology, and more particularly to technology for supporting incident management of an information processing system.
ITインフラが幅広いユーザ層に活用されるようになってきているなか、ITサービスマネジメントがこれまで以上に重要になってきている。ITサービスマネジメントに関して、英国商務局(OGC:Office of Government Commerce)はITIL(Information Technology Infrastructure Library)(登録商標)と呼ばれるベストプラクティス集を公表している。最近では、ITILに従ってITサービスマネジメントの改善に取り組む企業が増えている。 IT service management is becoming more important than ever as IT infrastructure is being used by a wide range of users. Regarding IT service management, the Office of Government Commerce (OGC) has published a collection of best practices called Information Technology Infrastructure Library (ITIL) (registered trademark). Recently, an increasing number of companies are working to improve IT service management according to ITIL.
ITILの中核の一つにサービスサポートがある。サービスサポートは日常的なシステム運用およびユーザサポートに関して記載されたもので、1つの機能と5つのプロセスからなる。機能としては、ユーザからの問い合わせ窓口となるサービスデスク、プロセスとしてはインシデント管理、問題管理、変更管理、リリース管理および構成管理が規定されている。 Service support is one of the cores of ITIL. Service support is described in terms of daily system operation and user support, and consists of one function and five processes. As functions, a service desk that serves as a contact point for inquiries from users, and incident management, problem management, change management, release management, and configuration management are defined as processes.
サービスデスク業務では、エンドユーザからどのような問い合わせがあったのか、それに対してどのように対応したのか、その問い合わせは処理が終わってクローズしたのか、といった様々なことを記録していく。このようなサービスデスク業務を支援するため、エンドユーザからの問い合わせをインシデントとして蓄積していくインシデント管理システムが実用化されている(例えば、特許文献1)。 In the service desk business, various inquiries such as what kind of inquiries are received from end users, how they are responded to, and whether the inquiries have been processed and closed are recorded. In order to support such service desk work, an incident management system that accumulates inquiries from end users as incidents has been put into practical use (for example, Patent Document 1).
サービスデスク業務を行う運用部門の担当者は、インシデントが発生すると、そのインシデントに類似するインシデント(以下、「類似インシデント」とも呼ぶ)を特定する。ここで、類似するインシデントとは、根本原因が同じである可能性があるインシデントをいう。類似インシデントがある場合、担当者は、類似インシデントの経過情報に記載された対応内容を、インシデントを終了へ向けて進展させるための情報(すなわちナレッジ情報)として活用しうる。したがって、類似インシデントを的確に特定することができれば、インシデントを迅速に収容へ向けて進展させることができる。 When the incident occurs, the person in charge of the operation department who performs the service desk business specifies an incident similar to the incident (hereinafter also referred to as “similar incident”). Here, the similar incident refers to an incident that may have the same root cause. When there is a similar incident, the person in charge can use the response content described in the progress information of the similar incident as information (that is, knowledge information) for progressing the incident toward the end. Therefore, if similar incidents can be accurately identified, incidents can be rapidly advanced toward containment.
本発明はこうした課題に鑑みてなされたものであり、その主な目的は、情報処理システムにおいて発生したインシデントの効率的な管理を支援するための技術を提供することにある。 The present invention has been made in view of these problems, and a main object thereof is to provide a technique for supporting efficient management of incidents occurring in an information processing system.
上記課題を解決するために、本発明のある態様のインシデント管理システムは、情報処理システムにおいて発生したインシデントごとに、インシデントと、情報処理システムの動作状態を示す少なくとも1つの動作状態情報であって、そのインシデントに関連する少なくとも1つの動作状態情報と、少なくとも1つの動作状態情報のそれぞれを出力した情報処理システムのノードと、を関連付けて保持するデータ保持部と、複数のインシデントの中から選択された選択インシデントに類似する類似インシデントを特定する特定部と、を備えてもよい。特定部は、1つまたは複数のノードから出力された複数の動作状態情報が選択インシデントに関連付けられている場合、複数のインシデントのうち、選択インシデントと同一の複数の動作状態情報が関連付けられており、かつ、それら複数の動作状態情報をそれぞれ出力したノードが一致するインシデントを類似インシデントとして特定してもよい。 In order to solve the above-described problem, an incident management system according to an aspect of the present invention includes at least one operation state information indicating an incident and an operation state of the information processing system for each incident occurring in the information processing system, A data holding unit that holds and associates at least one operation state information related to the incident and a node of the information processing system that outputs each of the at least one operation state information, and is selected from a plurality of incidents A specifying unit that specifies a similar incident similar to the selected incident. When the plurality of operation state information output from one or a plurality of nodes is associated with the selected incident, the specific unit is associated with a plurality of operation state information identical to the selected incident among the plurality of incidents. In addition, incidents that match the nodes that output the plurality of pieces of operation state information may be identified as similar incidents.
本発明の別の態様は、インシデント管理方法である。この方法は、データ保持部と、特定部と、を備えるインシデント管理システムに実行させるインシデント管理方法であって、データ保持部は、情報処理システムにおいて発生したインシデントごとに、インシデントと、情報処理システムの動作状態を示す少なくとも1つの動作状態情報であって、そのインシデントに関連する少なくとも1つの動作状態情報と、少なくとも1つの動作状態情報のそれぞれを出力した情報処理システムのノードと、を関連付けて保持し、当該インシデント管理方法は、複数のインシデントの中から選択された選択インシデントに類似する類似インシデントを特定するステップを含む。特定するステップでは、1つまたは複数のノードから出力された複数の動作状態情報が選択インシデントに関連付けられている場合、複数のインシデントのうち、選択インシデントと同一の複数の動作状態情報が関連付けられており、かつ、それら複数の動作状態情報をそれぞれ出力したノードが一致するインシデントを類似インシデントとして特定する。 Another aspect of the present invention is an incident management method. This method is an incident management method that is executed by an incident management system including a data holding unit and a specifying unit, and the data holding unit performs an incident and an information processing system for each incident that occurs in the information processing system. At least one piece of operation state information indicating the operation state, and at least one piece of operation state information related to the incident and the node of the information processing system that outputs each of the at least one piece of operation state information are stored in association with each other. The incident management method includes a step of identifying a similar incident similar to a selected incident selected from a plurality of incidents. In the identifying step, when a plurality of operation state information output from one or a plurality of nodes is associated with the selected incident, a plurality of operation state information identical to the selected incident is associated among the plurality of incidents. The incidents that match the nodes that output the plurality of pieces of operation state information are identified as similar incidents.
なお、以上の構成要素の任意の組合せ、本発明の表現をコンピュータプログラム、コンピュータプログラムを格納した記録媒体などの間で変換したものもまた、本発明の態様として有効である。 It should be noted that any combination of the above-described constituent elements and a conversion of the expression of the present invention between a computer program, a recording medium storing the computer program, and the like are also effective as an aspect of the present invention.
本発明によれば、情報処理システムにおいて発生したインシデントの効率的な管理を支援できる。 According to the present invention, it is possible to support efficient management of incidents that occur in an information processing system.
図1は、実施の形態の運用管理システム700の構成を示す。情報処理システム400で総称される第1情報処理システム400a、第2情報処理システム400b、第3情報処理システム400c、・・・は、様々な企業の基幹系システムや情報系システムを含む。運用管理システム700は、ITサービス企業(例えばSI企業)に構築されたコンピュータシステムである。運用管理システム700は、複数の情報処理システム400に対する運用管理サービスを提供する。言い換えれば、運用管理システム700は、ITサービス企業の運用部門による運用管理業務を支援する。
FIG. 1 shows a configuration of an
運用管理システム700は、情報処理システム400に対する運用管理サービスを提供する。運用管理システム700は、インシデント管理システム100と、監視装置200と、運用担当者端末300と、を含む。インシデント管理システム100は、監視装置200や運用担当者端末300から送信されたインシデントに関する情報を管理する。インシデント管理システム100の詳細な機能構成は図2に関連して後述する。
The
監視装置200は、情報処理システム400の動作状態を監視し、例えば死活監視処理やハードウェアリソースの使用状況の監視処理を実行する。情報処理システム400の動作状態が所定の異常状態になった場合、監視装置200は、新たなインシデントを起票してそのインシデント情報をインシデント管理システム100へ送信する。また監視装置200は、インシデントを起票済の情報処理システム400の動作状態が変化した場合、そのインシデントの更新情報をインシデント管理システム100へ送信する。
The
運用担当者端末300は、運用部門の担当者(以下、「運用担当者」と呼ぶ)により操作される情報処理端末であり、インシデント管理システム100から提供されたインシデント情報画面や類似インシデント一覧画面(いずれも後述)を所定のディスプレイに表示させる。運用担当者端末300は、情報処理システム400で発生したインシデントに関する情報(例えばインシデント情報画面に対して入力されたインシデントの起票情報や更新情報)の入力を運用担当者から受け付ける。そして、その情報をインシデント管理システム100へ送信する。
The operation person in
図2は、インシデント情報画面を示す。インシデント情報画面は、インシデント管理システム100に保持されたインシデントに関する各種の属性情報を表示する。運用担当者は、インシデント情報画面に対して基本情報800や詳細情報802を入力して新たなインシデントを起票する。運用担当者は、インシデントに対する検討や作業の進展に伴って、インシデント情報画面において経過情報801を逐次追加し、またインシデントのステータスを適宜変更する。また、図示しないが、運用担当者は経過情報801に任意でタグ(以下、「履歴タグ」と呼ぶ)を付与してもよく、あらかじめ記憶させたキーワードと履歴タグの組み合わせに基づいて履歴タグが自動で付与されるようにしてもよい。監視装置200からインシデント管理システム100へ送信される情報も、図2で示すインシデントの各種属性情報である。なお図2のインシデント情報画面には、インシデント属性情報保持部31(後述)に保持される複数のインシデントのうち運用担当者が選択した1つのインシデント(以下、「選択インシデント」とも呼ぶ)の情報が表示される。類似インシデントボタン803は、選択インシデントに類似する類似インシデントを検索(特定)する際に押下される。
FIG. 2 shows an incident information screen. The incident information screen displays various attribute information related to the incident held in the
図3は、類似インシデント一覧画面を示す。類似インシデント一覧画面は、インシデント情報画面の類似インシデントボタン803が押下されると表示される画面であり、類似インシデントの一覧が類似スコア(後述)の順に表示される。インシデントID欄810には、インシデントを一意に特定するためのIDであって、特定された類似インシデントのインシデントIDが表示される。タイトル欄814には、類似インシデントのタイトルが表示される。類似スコア欄812には、類似インシデントの類似度を示す点数が表示される。タイトル欄814には、類似インシデントのタイトルが表示される。タイトル欄814のタイトルにはリンクが張られており、ユーザがタイトルを押下することによってその類似インシデントのインシデント情報画面が表示される。
FIG. 3 shows a similar incident list screen. The similar incident list screen is a screen that is displayed when the
なお、図示しないが、インシデントIDの代わりに、インシデントを特定するタグ(以下、「インシデント管理タグ」と呼ぶ)を表示するようにしてもよい。例えば、あらかじめインシデントIDとインシデント管理タグを関連付けて登録し、前記所定の組み合わせに基づいて、インシデントを一意に特定するインシデント管理タグを類似インシデント一覧画面に示してもよい。 Although not shown, a tag for identifying an incident (hereinafter referred to as “incident management tag”) may be displayed instead of the incident ID. For example, an incident ID and an incident management tag may be registered in association with each other in advance, and an incident management tag that uniquely identifies an incident based on the predetermined combination may be displayed on the similar incident list screen.
図4は、インシデント管理システム100の機能構成を示すブロック図である。これら各ブロックは、ハードウェア的には、コンピュータのCPUをはじめとする素子や機械装置で実現でき、ソフトウェア的にはコンピュータプログラム等によって実現されるが、ここでは、それらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックはハードウェア、ソフトウェアの組合せによっていろいろなかたちで実現できることは、当業者には理解されるところである。
FIG. 4 is a block diagram illustrating a functional configuration of the
インシデント管理システム100は、通信処理部10と、データ処理部20と、データ保持部30と、を含む。通信処理部10は、運用担当者端末300とのインタフェースを担当する。また通信処理部10は、監視装置200との通信処理も担当する。データ処理部20は、通信処理部10によって取得されたデータやデータ保持部30に保持されたデータをもとにして各種のデータ処理を実行する。データ処理部20は、通信処理部10とデータ保持部30との間のインタフェースの役割も果たす。データ保持部30は、あらかじめ用意された各種の設定データや、通信処理部10やデータ処理部20から受け取ったデータを保持する。
通信処理部10は、入力部11と、表示制御部12と、インシデント情報受付部13と、を含む。入力部11は運用担当者からの入力を受け付ける。表示制御部12は、画面生成部24(後述)により生成される各種情報を画面表示させる。表示制御部12は、例えばインシデント情報画面を運用担当者端末300のディスプレイに表示させる。
The
インシデント情報受付部13は、監視装置200から、インシデントの各種属性情報を指定したインシデントの起票情報および更新情報を受け付ける。またインシデント情報受付部13は、運用担当者端末300から、インシデント情報画面に入力されたインシデントの属性情報をインシデントの起票情報や更新情報として受け付ける。そして、監視装置200および運用担当者端末300から受け付けたインシデントの属性情報をインシデント属性情報保持部31(後述)に格納する。
The incident
データ保持部30は、インシデント属性情報保持部31と、動作状態情報保持部32と、ノード情報保持部33と、を含む。データ保持部30は、主として、メモリやハードディスクなど任意の記録媒体により構成される。
The
インシデント属性情報保持部31は、複数の情報処理システム400のそれぞれにおいて発生した複数のインシデントに関する属性情報を保持する。この属性情報は、図2のインシデント情報画面で示した各種情報項目であり、例えば、インシデントID・システム名・ステータス・優先度等を含む。
The incident attribute
動作状態情報保持部32は、インシデントに関係する可能性がある動作状態情報を保持する。動作状態情報は、情報処理システム400に含まれるノード(ネットワーク機器、サーバ、ストレージ)、その上で動作しているOS、ミドルウェア、またはアプリケーションソフトウェア(以下、これらを情報処理システム400の「構成要素」とも呼ぶ)の動作状態に関する情報を含む。図5は、動作状態情報保持部32のデータ構造を示す。動作状態情報保持部32は、インシデントID32aと、ノード32bと、動作状態情報32cとを対応付けて保持する。インシデントID32aはインシデントを一意に識別するIDであり、図2のインシデント情報画面のインシデントIDや図3の類似インシデント一覧画面のインシデントIDと対応する。ノード32bは、情報処理システム400のノードを示す。動作状態情報32cは、情報処理システム400の構成要素の動作状態情報であって、後述するように登録部23がログから抽出した動作状態情報を示す。例えば、インシデントID「0002」のインシデント(以下、インシデント(0002)のように表記する)には、Aサーバ01またはその上で動作しているOS等から抽出された動作状態情報と、Bルータまたはその上で動作しているOS等から抽出された動作状態情報が関連付けられている。
The operation state
図6は、ノード情報保持部33のデータ構造を示す。ノード情報保持部33は、ノード名33aと、類似判定ノード名33bと、を対応づけて保持する。ノード名33aは、ノードを一意に識別するノード名である。類似判定ノード名33bは、特定部21(後述)により類似インシデントを特定する際に使用されるノード名である。図6の例では、Aサーバ01とAサーバ02はいずれも類似判定ノード名が「Aサーバ」である。したがって、特定部21は、類似インシデントを特定する際、Aサーバ01とAサーバ02を同一のノードとして取り扱う。
FIG. 6 shows the data structure of the node
図4に戻り、データ処理部20は、特定部21と、登録部23と、画面生成部24と、を含む。登録部23は、インシデントごとに、そのインシデントに関係する可能性がある動作状態情報を動作状態情報保持部32に登録する。具体的には、登録部23は、インシデントの発生前後の所定期間(例えばインシデント発生時刻の前後10分間)における情報処理システム400の各構成要素のログを取得し、構成要素ごとのログの出力規則を考慮して(例えば構成要素ごとのキーワードをキーにして)、ログから動作状態情報を抽出する。そして、登録部23は、抽出した動作状態情報を動作状態情報保持部32に登録する。
Returning to FIG. 4, the
特定部21は、動作状態情報保持部32を参照して、選択インシデントに類似する類似インシデントを特定する。なお、特定部21は、類似インシデントを特定する際、ノード情報保持部33の類似判定ノード名が同じノードを同一のノードとして取り扱う。例えば、特定部21は、類似判定ノード名がいずれも「Aサーバ」であるノード(Aサーバ01)とノード(Aサーバ02)を同一のノードとして取り扱う。なお、特定部21が同一のノードとして取り扱うノードを決定する方法はこれに限られない。例えば、ノード名がノードの種別を表す文字列と数字との組み合わせである場合、特定部21は、ノード名から数字を削除した名前が同じノードを、同一のノードとして取り扱うよう決定してもよい。
The specifying
具体的には、特定部21は、1つの動作状態情報が選択インシデントに関連付けられている場合、その動作状態情報と同一の動作状態情報が関連付けられ、かつ、その動作状態情報を出力したノードが一致するインシデントを類似インシデントとして特定する。
Specifically, when one piece of operation state information is associated with the selected incident, the specifying
例えば、選択インシデントがインシデント(0008)の場合、特定部21は、選択インシデント(0008)と同様に「Dサーバ」において「Diskusedover70%」が検知されたインシデント(0001)とインシデント(0005)とを、類似インシデントとして特定する。
For example, when the selected incident is the incident (0008), the identifying
また、特定部21は、1つまたは複数のノードから出力された複数の動作状態情報が選択インシデントに関連付けられている場合、それら複数の動作状態情報と同一の複数の動作状態情報が関連付けられており、かつ、それら複数の動作状態情報をそれぞれ出力したノードが一致するインシデントを類似インシデントとして特定する。
Further, when a plurality of operation state information output from one or a plurality of nodes is associated with the selected incident, the specifying
例えば、選択インシデントがインシデント(0012)の場合、特定部21は、選択インシデント(0012)と同様に「Aサーバ01」または「Aサーバ02」で「CPUuserdover90%」が検知され、「Bルータ」で「NWcheckedNG」が検知されているインシデント(0002)とインシデント(0005)とインシデント(0010)を類似インシデントとして特定する。
For example, when the selected incident is the incident (0012), the identifying
また、特定部21は、特定した類似インシデントの類似度(類似度スコア)も特定する。例えば、特定部21は、選択インシデントに関連付けられている1または複数の動作状態情報とは異なる動作状態情報がより多く関連付けられているインシデントほど、類似度の低い類似インシデントであると特定する。本実施の形態では、特定部21は、選択インシデントとは異なる動作状態情報が関連付けられている分だけ類似度スコア「100点」から減点する(例えば1つ当たり−20点する)ことにより、類似度を特定する。
The identifying
例えば、動作状態情報が図5の状態の場合、選択インシデント(0012)の類似インシデントであるインシデント(0002)、インシデント(0005)、インシデント(0010)の類似スコアはそれぞれ、100点、80点、60点となる。 For example, when the operation state information is the state of FIG. 5, the similarity scores of incident (0002), incident (0005), and incident (0010) that are similar incidents of the selected incident (0012) are 100 points, 80 points, and 60 points, respectively. It becomes a point.
画面生成部24は、インシデント情報画面や類似インシデント一覧画面などの各種画面を生成する。
The
以上のように構成されたインシデント管理システム100について、類似インシデントを特定するときの動作を説明する。選択インシデントのインシデント情報画面で類似インシデント検索ボタン(図2の類似インシデントボタン803)が押下されると、特定部21は、類似インシデントを特定する。画面生成部24は、特定部21により特定された類似インシデントが表示された類似インシデント一覧画面を生成する。表示制御部12は、画面生成部24が生成した類似インシデント一覧画面を画面表示させる。ユーザは、類似インシデント一覧画面のタイトルに張られたリンクをクリックして類似インシデントのインシデント情報画面を表示させる。ユーザは、表示された類似インシデントの経過情報等に記載された対応内容を、選択インシデントを終了へ向けて進展させるための情報(すなわちナレッジ情報)として活用する。
With respect to the
以上説明した実施の形態のインシデント管理システム100によると、1つまたは複数のノードで出力(検知)された複数の動作状態情報が選択インシデントに関連付けられている場合、選択インシデントと同一の複数の動作状態情報が関連付けられ、かつ、それら複数の動作状態情報をそれぞれ出力したノードが一致するインシデントを類似インシデントとして特定する。ここで、情報処理システム400では、1つの原因から生じた障害によって多数の構成要素が連鎖的に影響を受けることがある。これに対し、実施の形態のインシデント管理システム100では、上述のように、関連付けられた「複数」の動作状態情報が一致し、しかもそれら複数の動作状態情報をそれぞれ出力したノードが一致するインシデントを類似インシデントとして特定するため、構成要素に連鎖的に障害が発生するようなインシデントであっても高精度に類似インシデントを特定でき、その類似インシデントのナレッジを活用できる。すなわち、インシデントの効率的な管理を支援できる。
According to the
また、実施の形態のインシデント管理システム100によると、情報処理システム400のログから抽出された情報が動作状態情報としてインシデントと関連付けられ、関連付けられた動作状態情報に基づき類似インシデントが特定される。ここで、従来のインシデント管理システムでは、運用担当者が入力したサマリー情報に基づき類似インシデントが特定されていた。運用担当者によっては、同じ事象であっても、例えば「CPU使用率が高騰」というサマリー情報を入力する者もいれば「応答が遅い」というサマリー情報を入力する者もいる。つまり、同じ事象であっても運用担当者によって入力されるサマリー情報が異なりうる。もちろん、運用担当者が同じであっても、事象が発生したタイミングによっては、異なるサマリー情報が入力されうる。そのため、従来のインシデント管理システムでは、同じ事象であっても類似インシデントとして特定されない場合があった。一方、運用担当者ごとで入力情報が異ならないようにインシデントに関する情報としてログをそのまま関連付けることも考えられるが、データ容量が膨大となるため現実的ではない。これに対し、実施の形態のインシデント管理システム100では、上述のようにログから抽出された動作状態情報がインシデントに関連付けられ、動作状態情報に基づき類似インシデントが特定されるため、より高精度に類似インシデントを特定できる。
Further, according to the
(変形例1)
実施の形態では、登録部23が情報処理システム400の各構成要素のログを取得し、構成要素ごとのログの出力規則を考慮して(例えば構成要素ごとのキーワードをキーにして)、ログから動作状態情報を抽出する場合について説明したが、これに限られない。登録部23は、各構成要素から取得したログを文字列に要素分解して動作状態情報を抽出してもよい。一例として、登録部23は、取得したログを形態素に分解し、各要素について活用形、原形、品詞を決定する形態素解析を実施し、名詞として決定された要素を動作状態情報として抽出してもよい。
(Modification 1)
In the embodiment, the
図7に、形態素解析により抽出された動作状態情報を示す。図7は図5に対応する。図7では、抽出された要素(動作状態情報)をそれぞれ括弧([])で区切って表示している。「−」は、動作状態情報が抽出されなかった、インシデントが発生した前後の所定期間に出力されたログは無かったことを示している。 FIG. 7 shows operation state information extracted by morphological analysis. FIG. 7 corresponds to FIG. In FIG. 7, the extracted elements (operation state information) are displayed separated by parentheses ([]). “-” Indicates that there was no log output during a predetermined period before and after the incident occurred when the operation state information was not extracted.
特定部21は、形態素解析により抽出された動作状態情報に基づいて選択インシデントに類似する類似インシデントを特定する。本変形例では、特定部21はまず、選択インシデントに関連付けられている各ノードの動作状態情報を1つずつ取り出して総当たりで動作状態情報の組み合わせを作成する。特定部21は、インシデント属性情報保持部31に保持される選択インシデント以外のインシデントについても同様に、関連付けられている各ノードの動作状態情報を1つずつ取り出して総当たりで動作状態情報の組み合わせを作成する。そして、特定部21は、選択インシデントの動作状態情報の組み合わせと一致する動作状態情報の組み合わせを有するインシデントを類似インシデントと特定する。
The specifying
例えば選択インシデントがインシデント(0005)の場合、特定部21は、関連付けられている2つのノードの動作状態を1つずつ取り出して総当たりで組み合わせて以下の20通りの動作状態情報の組み合わせを生成する。
Aサーバ:MODULE001 × Bルータ:2016/08/14
Aサーバ:MODULE001 × Bルータ:NIC01
Aサーバ:MODULE001 × Bルータ:NWchecked OK
Aサーバ:MODULE001 × Bルータ:NIC02
Aサーバ:MODULE001 × Bルータ:NWcheckedNG
Aサーバ:Status005 × Bルータ:2016/08/14
Aサーバ:Status005 × Bルータ:NIC01
Aサーバ:Status005 × Bルータ:NWchecked OK
Aサーバ:Status005 × Bルータ:NIC02
Aサーバ:Status005 × Bルータ:NWcheckedNG
Aサーバ:CPUusedover90% × Bルータ:2016/08/14
Aサーバ:CPUusedover90% × Bルータ:NIC01
Aサーバ:CPUusedover90% × Bルータ:NWchecked OK
Aサーバ:CPUusedover90% × Bルータ:NIC02
Aサーバ:CPUusedover90% × Bルータ:NWcheckedNG
Aサーバ:IO ERR × Bルータ:2016/08/14
Aサーバ:IO ERR × Bルータ:NIC01
Aサーバ:IO ERR × Bルータ:NWchecked OK
Aサーバ:IO ERR × Bルータ:NIC02
Aサーバ:IO ERR × Bルータ:NWcheckedNG
For example, when the selected incident is incident (0005), the specifying
A server: MODULE001 x B router: 2016/08/14
A server: MODULE001 × B router: NIC01
A server: MODULE001 × B router: NWchecked OK
A server: MODULE001 × B router: NIC02
A server: MODULE001 × B router: NWcheckedNG
A server: Status005 × B router: 08/14/2016
A server: Status005 × B router: NIC01
A server: Status005 × B router: NWchecked OK
A server: Status005 × B router: NIC02
A server: Status005 × B router: NWcheckedNG
A server: CPUused 90% x B router: 2016/08/14
A server: CPUusedover90% × B router: NIC01
A server: CPUusedover90% × B router: NWchecked OK
A server: CPUusedover90% × B router: NIC02
A server: CPUusedover90% × B router: NWcheckedNG
A server: IO ERR × B router: 2016/08/14
A server: IO ERR × B router: NIC01
A server: IO ERR × B router: NWchecked OK
A server: IO ERR × B router: NIC02
A server: IO ERR × B router: NWcheckedNG
特定部21は、選択インシデント以外のインシデントについても同様に、動作状態情報の組み合わせを生成する。そして、特定部21は、各インシデントについて、選択インシデントの動作状態上の組み合わせと一致する動作状態情報の組み合わせを持つか確認し、一致する動作状態情報の組み合わせがあるインシデントを類似インシデントと特定する。例えば選択インシデントがインシデント(0005)の場合、特定部21は、選択インシデント(0005)の動作状態情報の組み合わせと一致する以下の2組の動作状態情報の組み合わせを持つインシデント(0001)を類似インシデントとして特定する。
Aサーバ:CPUusedover90% × Bルータ:NWchecked NG
Aサーバ:IO ERR × Bルータ:NWcheckedNG
Similarly, the identifying
A server: CPUusedover90% × B router: NWchecked NG
A server: IO ERR × B router: NWcheckedNG
また特定部21は、選択インシデント(0005)の動作状態情報の組み合わせと一致する以下の1つの動作状態情報の組み合わせを持つインシデント(0003)を類似インシデントとして特定する。
Aサーバ:CPUusedover90% × Bルータ:NWchecked NG
Further, the specifying
A server: CPUusedover90% × B router: NWchecked NG
特定部21はまた、特定した類似インシデントの類似度(類似度スコア)も特定する。特定部21は、選択インシデントの動作状態情報の組み合わせと一致する動作状態情報の組み合わせの数が多いほど、類似度の高い類似インシデントであると特定する。また特定部21は、選択インシデントとは異なるノードの動作状態情報が関連付けられているインシデントほど類似度の低い類似インシデントであると特定する。具体的には、特定部21は、選択インシデントと同じ動作状態情報の組み合わせの数だけ類似度スコアに加点(例えば1つあたり+20点)し、選択インシデントとは異なるノードの動作状態情報が関連付けられている場合はその異なるノードの数だけ類似度スコアから減点(例えば1つあたり−5点)することにより、類似度を特定する。
The identifying
本変形例によれば、実施の形態のインシデント管理システム100によって奏される作用効果と同様の作用効果が奏される。加えて、本変形によれば、登録部23が形態素解析によりログから抽出した動作状態情報に基づき、特定部21が類似インシデントを特定できる。この場合、ユーザが構成要素ごとのログの出力規則を把握する必要がないため、ユーザの負担が軽減される。
According to this modification, the same operational effects as the operational effects achieved by the
(変形例2)
実施の形態では特に言及しなかったが、対応が完了したインシデントについては、そのインシデントを終了へ向けて進展させるために実行した復旧処理をスクリプトとして登録してもよい。この場合、特定部21は、インシデントが起票され、インシデントに動作状態情報が関連付けられると、自動で類似インシデントを特定し、類似度スコアを特定する。特定部21は、類似インシデントの類似スコアが所定の閾値以上であり、かつ、類似インシデントにスクリプトが登録されていた場合は、そのスクリプトを自動実行する。本変形例によれば、類似インシデントを特定する操作を実行し、類似インシデントを確認し、類似インシデントと同様の復旧処理を実行する、という手間が省け運用担当者の負荷を軽減できる。なお、スクリプトは、運用担当者が作成して登録しても、インシデントの対応を行った際のログから自動で作成され登録されてもよい。
(Modification 2)
Although not particularly mentioned in the embodiment, for an incident for which the response has been completed, a recovery process executed to advance the incident toward the end may be registered as a script. In this case, when the incident is issued and the operation state information is associated with the incident, the specifying
(変形例3)
実施の形態では、運用担当者が1つの選択インシデントを指定でき、選択された1つの選択インシデントに類似する類似インシデントを特定する場合について説明したが、これに限られない。運用担当者が複数の選択インシデントを指定できてもよい。例えば、運用担当者は、インシデント一覧画面(不図示)においてインシデント一覧の中から複数のインシデントを指定することで複数の選択インシデントを指定できる。この場合、例えば特定部21が、選択されたインシデントごとに類似インシデントを特定し、それらを和集合したものを、選択された複数の選択インシデントの類似インシデントとしてもよい。
(Modification 3)
In the embodiment, the case has been described in which the person in charge of operation can specify one selected incident and specifies a similar incident similar to the selected one selected incident, but the present invention is not limited to this. The operations staff may be able to specify multiple selected incidents. For example, the person in charge of operation can designate a plurality of selected incidents by designating a plurality of incidents from the incident list on an incident list screen (not shown). In this case, for example, the specifying
なお、選択インシデントが複数、例えば2つ(以下、それぞれを「選択インシデント1」と「選択インシデント2」と呼ぶ)選択されている場合、類似インシデント一覧画面において、選択インシデント1と選択インシデント2の双方に類似すると特定された類似インシデントを上位に表示するようにしてもよく、その下位に、選択インシデント1と選択インシデント2のいずれかに類似する類似インシデントを表示してもよい。 When a plurality of selected incidents are selected, for example, two (hereinafter referred to as “selected incident 1” and “selected incident 2”, respectively), both selected incident 1 and selected incident 2 are displayed on the similar incident list screen. Similar incidents identified as being similar to the above may be displayed at the top, and similar incidents similar to either the selected incident 1 or the selected incident 2 may be displayed below the similar incident.
また、複数インシデントを選択する場合に、時系列選択を行うこともできる。例えば選択インシデントが複数、例えば2つ(以下、それぞれを「選択インシデント1」と「選択インシデント2」と呼ぶ)選択されており、インシデント1の後にインシデント2が発生していた場合、特定部21は、インシデント1の後にインシデント2が生じているという時系列関係(時系列の前後関係の他、発生時間差も評価対象に加えることができる)も踏まえ、過去に同様に、この時系列関係でインシデント1に類似するインシデント1´の後にインシデント2に類似するインシデント2´が発生している類似インシデント群がないかどうかを検索することもできる。
In addition, when selecting a plurality of incidents, time series selection can also be performed. For example, when a plurality of selected incidents, for example, two (hereinafter referred to as “selected incident 1” and “selected incident 2”, respectively) are selected, and the incident 2 occurs after the incident 1, the specifying
(変形例4)
実施の形態および上述の変形例では特に言及しなかったが、特定部21によって特定された類似インシデントのうち、ユーザが類似インシデントであると認定した類似インシデントについては、ユーザがインシデント管理システム100に対してその認定をフィードバックできる(例えば、チェックボックスによってフラグを立てる)ようにしてもよい。インシデント管理システム100は、そのフィードバックを受け、選択インシデントと、特定部21により類似インシデントと特定され、かつ、ユーザによって類似インシデントであると認定された類似インシデントとを紐付けて記憶してもよい。例えば、インシデント属性情報保持部31の属性情報の1つとして、ユーザによって認定された類似インシデントのインシデントIDを保持ししてもよい。ユーザは、このように記憶された紐付け関係を利用できる。例えば、過去のインシデントを検索して抽出された過去インシデントを参照している場合に、その過去インシデントと類似関係にあるインシデントを更に参照することができる。また例えば、選択インシデントに類似する類似インシデントを検索した場合に抽出された類似インシデントと類似関係にあるインシデントを参照可能とすることもできる。特に、一般的に、類似関係数が多い過去インシデントは良く参照されるインシデントであり、過去ナレッジとしての価値が高い。
(Modification 4)
Although not specifically mentioned in the embodiment and the above-described modified example, among the similar incidents identified by the identifying
21 特定部、 30 データ保持部、 31 インシデント属性情報保持部、 32 動作状態情報保持部、 100 インシデント管理システム、 400 情報処理システム。 21 Identification part, 30 Data holding part, 31 Incident attribute information holding part, 32 Operation state information holding part, 100 Incident management system, 400 Information processing system.
Claims (4)
複数のインシデントの中から選択された選択インシデントに類似する類似インシデントを特定する特定部と、を備え、
前記特定部は、1つまたは複数のノードから出力された複数の動作状態情報が選択インシデントに関連付けられている場合、複数のインシデントのうち、選択インシデントと同一の複数の動作状態情報が関連付けられており、かつ、それら複数の動作状態情報をそれぞれ出力したノードが一致するインシデントを類似インシデントとして特定することを特徴とするインシデント管理システム。 For each incident that occurs in the information processing system, the incident and at least one operation state information indicating the operation state of the information processing system, at least one operation state information related to the incident, and at least one operation state information A data holding unit that holds the information processing system nodes that output the
A specific unit that identifies a similar incident similar to a selected incident selected from a plurality of incidents, and
In the case where a plurality of operation state information output from one or a plurality of nodes is associated with a selected incident, the specifying unit associates a plurality of operation state information identical to the selected incident among the plurality of incidents. And an incident management system that identifies incidents that match the nodes that output the plurality of pieces of operation state information as similar incidents.
前記データ保持部は、情報処理システムにおいて発生したインシデントごとに、インシデントと、情報処理システムの動作状態を示す少なくとも1つの動作状態情報であって、そのインシデントに関連する少なくとも1つの動作状態情報と、少なくとも1つの動作状態情報のそれぞれを出力した情報処理システムのノードと、を関連付けて保持し、
当該インシデント管理方法は、複数のインシデントの中から選択された選択インシデントに類似する類似インシデントを特定するステップを含み、
前記特定するステップでは、1つまたは複数のノードから出力された複数の動作状態情報が選択インシデントに関連付けられている場合、複数のインシデントのうち、選択インシデントと同一の複数の動作状態情報が関連付けられており、かつ、それら複数の動作状態情報をそれぞれ出力したノードが一致するインシデントを類似インシデントとして特定することを特徴とするインシデント管理方法。 An incident management method for causing an incident management system comprising a data holding unit and a specific unit to execute,
The data holding unit includes, for each incident that occurs in the information processing system, an incident and at least one operation state information indicating an operation state of the information processing system, and at least one operation state information related to the incident; A node of an information processing system that outputs each of at least one piece of operation state information,
The incident management method includes a step of identifying a similar incident similar to a selected incident selected from a plurality of incidents,
In the identifying step, when a plurality of operation state information output from one or a plurality of nodes is associated with the selected incident, a plurality of operation state information identical to the selected incident is associated among the plurality of incidents. And an incident that matches the nodes that output the plurality of pieces of operating state information, respectively, is identified as a similar incident.
複数のインシデントの中から選択された選択インシデントに類似する類似インシデントを特定する機能と、コンピュータに実現させ、
前記特定する機能は、1つまたは複数のノードから出力された複数の動作状態情報が選択インシデントに関連付けられている場合、複数のインシデントのうち、選択インシデントと同一の複数の動作状態情報が関連付けられており、かつ、それら複数の動作状態情報をそれぞれ出力したノードが一致するインシデントを類似インシデントとして特定することを特徴とするコンピュータプログラム。 For each incident that occurs in the information processing system, the incident and at least one operation state information indicating the operation state of the information processing system, at least one operation state information related to the incident, and at least one operation state information A function of associating and holding the nodes of the information processing system that output each of the
A computer with the ability to identify similar incidents similar to the selected incident selected from multiple incidents,
In the case where a plurality of operation state information output from one or a plurality of nodes is associated with a selected incident, the function to be identified is associated with a plurality of operation state information identical to the selected incident among the plurality of incidents. And a computer program characterized by identifying similar incidents as incidents that match the nodes that output the plurality of pieces of operation state information.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016222177A JP2018081403A (en) | 2016-11-15 | 2016-11-15 | Incident management system, incident management method and computer program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016222177A JP2018081403A (en) | 2016-11-15 | 2016-11-15 | Incident management system, incident management method and computer program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2018081403A true JP2018081403A (en) | 2018-05-24 |
Family
ID=62198878
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016222177A Pending JP2018081403A (en) | 2016-11-15 | 2016-11-15 | Incident management system, incident management method and computer program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2018081403A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111797077A (en) * | 2019-04-09 | 2020-10-20 | Oppo广东移动通信有限公司 | Data cleaning method and device, storage medium and electronic equipment |
US11169896B2 (en) | 2019-09-09 | 2021-11-09 | Fujifilm Business Innovation Corp. | Information processing system |
US11875297B2 (en) | 2020-12-23 | 2024-01-16 | International Business Machines Corporation | Generation of dashboard templates for operations management |
-
2016
- 2016-11-15 JP JP2016222177A patent/JP2018081403A/en active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111797077A (en) * | 2019-04-09 | 2020-10-20 | Oppo广东移动通信有限公司 | Data cleaning method and device, storage medium and electronic equipment |
US11169896B2 (en) | 2019-09-09 | 2021-11-09 | Fujifilm Business Innovation Corp. | Information processing system |
US11875297B2 (en) | 2020-12-23 | 2024-01-16 | International Business Machines Corporation | Generation of dashboard templates for operations management |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109034993B (en) | Account checking method, account checking equipment, account checking system and computer readable storage medium | |
US11252168B2 (en) | System and user context in enterprise threat detection | |
JP6919569B2 (en) | Log analysis systems, methods, and recording media | |
US20170279840A1 (en) | Automated event id field analysis on heterogeneous logs | |
US9064002B1 (en) | Social identity clustering | |
US10366154B2 (en) | Information processing device, information processing method, and computer program product | |
US20170178026A1 (en) | Log normalization in enterprise threat detection | |
JP2022118108A (en) | Log auditing method, device, electronic apparatus, medium and computer program | |
US20170178025A1 (en) | Knowledge base in enterprise threat detection | |
US20160098390A1 (en) | Command history analysis apparatus and command history analysis method | |
US9706005B2 (en) | Providing automatable units for infrastructure support | |
JP2022031625A (en) | Method and device for pushing information, electronic device, storage medium, and computer program | |
JP2022133401A (en) | Relevance score calculation system, method, and program | |
EP3789882B1 (en) | Automatic configuration of logging infrastructure for software deployments using source code | |
JP2018081403A (en) | Incident management system, incident management method and computer program | |
Vervaet et al. | USTEP: Unfixed search tree for efficient log parsing | |
JP2013214148A (en) | Message conversion device, and message conversion program | |
JP6810352B2 (en) | Fault analysis program, fault analysis device and fault analysis method | |
Zhang et al. | Automated Root Causing of Cloud Incidents using In-Context Learning with GPT-4 | |
Eyal-Salman et al. | Feature-to-code traceability in legacy software variants | |
JP2011076153A (en) | Automatic query generation device for composite event | |
CN114328947A (en) | Knowledge graph-based question and answer method and device | |
JP6439309B2 (en) | Data processing system, data processing method, and data processing program | |
CN108664646A (en) | A kind of automatic download system of audio and video based on keyword | |
JP7293544B2 (en) | Q&A system update processing method and device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190712 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200527 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200630 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20201222 |