JP2019049802A - 障害解析支援装置、インシデント管理システム、障害解析支援方法及びプログラム - Google Patents

障害解析支援装置、インシデント管理システム、障害解析支援方法及びプログラム Download PDF

Info

Publication number
JP2019049802A
JP2019049802A JP2017172944A JP2017172944A JP2019049802A JP 2019049802 A JP2019049802 A JP 2019049802A JP 2017172944 A JP2017172944 A JP 2017172944A JP 2017172944 A JP2017172944 A JP 2017172944A JP 2019049802 A JP2019049802 A JP 2019049802A
Authority
JP
Japan
Prior art keywords
log
failure
occurrence
error
incident
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017172944A
Other languages
English (en)
Other versions
JP6919438B2 (ja
Inventor
康裕 萩原
Yasuhiro Hagiwara
康裕 萩原
昌利 西川
Masatoshi Nishikawa
昌利 西川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2017172944A priority Critical patent/JP6919438B2/ja
Publication of JP2019049802A publication Critical patent/JP2019049802A/ja
Application granted granted Critical
Publication of JP6919438B2 publication Critical patent/JP6919438B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】システムに障害が発生した場合に、適切な障害解決案を迅速に提示する障害解析支援装置を提供する。【解決手段】障害解析支援装置は、抽出部と、生成部と、計算部と、出力部と、を備える。抽出部は、監視対象装置から得られるエラーログそれぞれについてのフォーマットを特定し、特定したフォーマットのそれぞれをログパターンとして抽出する。生成部は、一日に含まれるエラーログそれぞれについて、ログパターンのいずれに該当するかを判定し、ログパターンからなるログパターンリストを生成する。計算部は、障害発生時のエラーログと、インシデント発生日におけるログパターンリストと、に基づいて、障害発生時のエラーログとインシデント発生日におけるエラーログの類似度を計算する。出力部は、類似度に基づいて、障害発生時のエラーログから推定されるインシデントの障害解決策を出力する。【選択図】図1

Description

本発明は、障害解析支援装置、インシデント管理システム、障害解析支援方法及びプログラムに関する。
企業等にて使用されるシステム(例えば、コンピュータシステム)は、複数のサブシステムにより構成されていることが多い。各サブシステムは、部品(演算装置、記憶媒体等)から構成されている。また、ネットワーク技術、情報処理技術の発展に伴いシステムのクラウド化が進展している。クラウドシステムでは、種々のシステムが集約され、それらのログの集中管理が可能となっている。
特許文献1には、複数のアプリケーションのログを解析して、異常事象を検知するログ解析装置が開示されている。特許文献1に開示された技術では、ログパターンと称される過去ログ群と統合ログと称される障害発生時ログ群の類似度を計算している。その際、特許文献1では、類似度の計算において、2つのログ群に対して、ログの発生順序を考慮して個々のログを比較している。
特許文献2には、類似障害の判定条件を自動生成し、障害事例を登録するシステムが開示されている。特許文献2に開示された技術では、過去ログと障害時ログという2つの単独ログの類似度を計算している。
特開2016−024786号公報 特開2014−119982号公報
なお、上記先行技術文献の各開示を、本書に引用をもって繰り込むものとする。以下の分析は、本発明者らによってなされたものである。
上述のように、システムはサブシステムとその部品により構成されることが多い。ここで、特定の部品(例えば、メモリ)にて障害が発生すると、当該障害が発生した部品に関連する部品及びサブシステムにおいても障害が発生することになる。また、クラウド上に集約されたシステムの一部に障害が発生すると、大量のエラーログが出力されることになる。
このように、何らかの部品等に障害が発生した際には、システムから大量のエラーログが出力されることになる。しかしながら、大量のエラーログにおけるログの因果関係を短時間で紐解くことが困難な状況にある。即ち、大量のエラーログを解析して原因を突き止めることは容易ではない。
また、過去のインシデント情報が蓄積され、管理されていても、障害解析における過去インシデントの利用は自動化されていないことも多く、障害の解決はシステム運用における管理者の個人的なノウハウに依存することも多い。
このように、システムの障害監視を行っていても、障害が発生すると、多数のエラーログが検出されるため、障害の原因を特定するには、多数のエラーログの関係を解き明かす必要があり、コンピュータシステム構成の詳細な理解と調査時間が必要となる。
本発明は、システムに障害が発生した場合に、適切な障害解決案を迅速に提示することに寄与する、障害解析支援装置、インシデント管理システム、障害解析支援方法及びプログラムを提供することを目的とする。
本発明乃至開示の第1の視点によれば、監視対象装置から得られるエラーログそれぞれについてのフォーマットを特定し、前記特定したフォーマットのそれぞれをログパターンとして抽出する、抽出部と、一日に含まれるエラーログそれぞれについて、前記ログパターンのいずれに該当するかを判定し、前記ログパターンからなるログパターンリストを生成する、生成部と、障害発生時のエラーログと、インシデント発生日における前記ログパターンリストと、に基づいて、前記障害発生時のエラーログと前記インシデント発生日におけるエラーログの類似度を計算する、計算部と、前記類似度に基づいて、前記障害発生時のエラーログから推定されるインシデントの障害解決策を出力する、出力部と、を備える、障害解析支援装置が提供される。
本発明乃至開示の第2の視点によれば、監視対象装置に接続された障害監視装置と、前記監視対象装置に発生するインシデントの解析を支援するための障害解析支援装置と、前記障害解析支援装置に情報入力をする端末と、を含み、前記障害解析支援装置は、前記監視対象装置から得られるエラーログそれぞれについてのフォーマットを特定し、前記特定したフォーマットのそれぞれをログパターンとして抽出する、抽出部と、一日に含まれるエラーログそれぞれについて、前記ログパターンのいずれに該当するかを判定し、前記ログパターンからなるログパターンリストを生成する、生成部と、障害発生時のエラーログと、インシデント発生日における前記ログパターンリストと、に基づいて、前記障害発生時のエラーログと前記インシデント発生日におけるエラーログの類似度を計算する、計算部と、前記類似度に基づいて、前記障害発生時のエラーログから推定されるインシデントの障害解決策を出力する、出力部と、を備える、インシデント管理システムが提供される。
本発明乃至開示の第3の視点によれば、監視対象装置に発生するインシデントの解析を支援するための障害解析支援装置において、前記監視対象装置から得られるエラーログそれぞれについてのフォーマットを特定し、前記特定したフォーマットのそれぞれをログパターンとして抽出するステップと、一日に含まれるエラーログそれぞれについて、前記ログパターンのいずれに該当するかを判定し、前記ログパターンからなるログパターンリストを生成するステップと、障害発生時のエラーログと、インシデント発生日における前記ログパターンリストと、に基づいて、前記障害発生時のエラーログと前記インシデント発生日におけるエラーログの類似度を計算するステップと、前記類似度に基づいて、前記障害発生時のエラーログから推定されるインシデントの障害解決策を出力するステップと、を含む、障害解析支援方法が提供される。
本発明乃至開示の第4の視点によれば、監視対象装置から得られるエラーログそれぞれについてのフォーマットを特定し、前記特定したフォーマットのそれぞれをログパターンとして抽出する処理と、一日に含まれるエラーログそれぞれについて、前記ログパターンのいずれに該当するかを判定し、前記ログパターンからなるログパターンリストを生成する処理と、障害発生時のエラーログと、インシデント発生日における前記ログパターンリストと、に基づいて、前記障害発生時のエラーログと前記インシデント発生日におけるエラーログの類似度を計算する処理と、前記類似度に基づいて、前記障害発生時のエラーログから推定されるインシデントの障害解決策を出力する処理と、を障害解析支援装置に搭載されたコンピュータに実行させるプログラムが提供される。
なお、このプログラムは、コンピュータが読み取り可能な記憶媒体に記録することができる。記憶媒体は、半導体メモリ、ハードディスク、磁気記録媒体、光記録媒体等の非トランジェント(non-transient)なものとすることができる。本発明は、コンピュータプログラム製品として具現することも可能である。
本発明乃至開示の各視点によれば、システムに障害が発生した場合に、適切な障害解決案を迅速に提示することに寄与する、障害解析支援装置、インシデント管理システム、障害解析支援方法及びプログラムが、提供される。
一実施形態の概要を説明するための図である。 第1の実施形態に係るインシデント管理システムの概略構成の一例を示す図である。 第1の実施形態に係る障害解析支援装置のハードウェア構成の一例を示す図である。 第1の実施形態に係るインシデント管理システムの動作の一例を示すシーケンス図である。 エラーログデータベースの一例を示す図である。 ログパターン抽出部の動作を説明するための図である。 ログパターンデータベースの一例を示す図である。 ログパターンリストデータベースの一例を示す図である。 インシデント情報データベースの一例を示す図である。 ログ類似度データベースの一例を示す図である。
初めに、一実施形態の概要について説明する。なお、この概要に付記した図面参照符号は、理解を助けるための一例として各要素に便宜上付記したものであり、この概要の記載はなんらの限定を意図するものではない。また、各図におけるブロック間の接続線は、双方向及び単方向の双方を含む。一方向矢印については、主たる信号(データ)の流れを模式的に示すものであり、双方向性を排除するものではない。
一実施形態に係る障害解析支援装置100は、抽出部101と、生成部102と、計算部103と、出力部104と、を備える(図1参照)。抽出部101は、監視対象装置から得られるエラーログそれぞれについてのフォーマットを特定し、特定したフォーマットのそれぞれをログパターンとして抽出する。生成部102は、一日に含まれるエラーログそれぞれについて、ログパターンのいずれに該当するかを判定し、ログパターンからなるログパターンリストを生成する。計算部103は、障害発生時のエラーログと、インシデント発生日におけるログパターンリストと、に基づいて、障害発生時のエラーログとインシデント発生日におけるエラーログの類似度を計算する。出力部104は、類似度に基づいて、障害発生時のエラーログから推定されるインシデントの障害解決策を出力する。
障害解析支援装置100は、監視対象装置から得られる過去ログに対して、1件ごとにログのフォーマットパターンを分類し、ログパターンを抽出する。また、障害解析支援装置100は、一日を単位として、各日に含まれるエラーログが上記ログパターンのいずれに該当するか判定し、各日におけるログパターンリストを生成する。つまり、障害解析支援装置100は、日次で出現するログパターンの一覧を集計(生成)する。その後、障害解析支援装置100は、障害発生前後のエラーログ件数のうち、それぞれのログに対するログパターンが、過去インシデント発生日のログパターンリストに一致するログの件数の割合を類似度として計算する。さらに、障害解析支援装置100は、計算した類似度が高いインシデントが障害発生時にも生じていると捉え、当該類似度の高いインシデントに対応する解決策をユーザに提示する。その結果、システムに障害が発生した場合に、適切な障害解決案を迅速に提示することができる。
上記障害解析支援装置100は、同じような障害に対して、同じようなエラーログが障害発生前後に集中して出力されるという考えを利用する。即ち、特定期間の過去ログ集合(例えば、日次のエラーログ)と、障害発生前後の障害時ログ集合(例えば、障害発生前後2時間のエラーログ)に対して、2つのログ集合の類似度を計算する。その際、それぞれの集合に含まれるログを、時系列や因果関係を考慮することなく、2つの集合の共通部分の要素数で類似度が計算される。即ち、独立した要素として、ログフォーマットパターンを利用して、エラーログの内容が一致する要素か異なる要素かを頼りに類似度を計算している。そのため、類似度の計算を迅速に行うことが可能となる。
また、障害と過去インシデントが類似度で紐づけられるため、障害原因と障害回復手段を一体として、参照することができ、迅速に障害回復作業を行うことができる。さらに、障害と過去インシデントの紐づけが自動的に行われるため、個人的なノウハウに頼ることなく、障害解析/障害回復において、過去インシデント情報を有効に活用することができる。
なお、本願開示において、特段の釈明がない場合には、「ログ」は「エラーログ」を示す。
以下に具体的な実施の形態について、図面を参照してさらに詳しく説明する。なお、各実施形態において同一構成要素には同一の符号を付し、その説明を省略する。
[第1の実施形態]
第1の実施形態について、図面を用いてより詳細に説明する。
[システム構成]
図2は、第1の実施形態に係るインシデント管理システムの概略構成の一例を示す図である。インシデント管理システムは、コンピュータシステムに接続され、当該コンピュータシステムのインシデントを管理するためのシステムである。
図2を参照すると、インシデント管理システムは、障害監視装置10と、障害解析支援装置20と、データベースサーバ30と、管理者端末40と、を含んで構成される。インシデント管理システムは、監視対象装置50に接続されている。また、障害監視装置10、障害解析支援装置20、データベースサーバ30及び管理者端末40はネットワークを介して互いに通信可能に構成されている。
なお、図2には1つの監視対象装置50を図示しているが、監視対象装置50の数を限定する趣旨ではない。複数の装置が監視対象となっていても良いことは勿論である。
障害監視装置10は、監視対象装置50を監視する。障害監視装置10は、監視対象装置50が出力するエラーログを取得し、当該取得したエラーログをデータベースサーバ30に登録(格納)する。
障害解析支援装置20は、監視対象装置50に発生するインシデント(障害)の解析を支援するための装置である。具体的には、障害解析支援装置20は、データベースサーバ30に登録されているエラーログを解析し、「ログパターン」及び「ログパターンリスト」を生成する。なお、これらの情報に関しては後述する。生成された上記情報は、データベースサーバ30に登録される。
また、障害解析支援装置20は、ユーザ(システム管理者)からインシデント発生に関する情報を取得すると、当該発生したインシデントに対する「障害解決策」を生成し、出力する。障害解析支援装置20が生成する障害解決策には、発生したインシデントと類似するインシデントの障害原因、障害回復方法(障害回復手段)等が含まれる。
データベースサーバ30は、障害監視装置10、障害解析支援装置20及び管理者端末40がアクセス可能なデータベース(DB;Database)を提供するサーバ装置である。データベースサーバ30が提供する各種データベースに関する説明は後述する。
管理者端末40は、ユーザ(システム管理者)が使用する端末である。システム管理者は、監視対象装置50に障害が発生すると、管理者端末40を操作して、障害発生前後のエラーログ(以下、障害発生時ログと称する)をデータベースサーバ30から取得する。その後、システム管理者は、当該取得した障害発生時ログを障害解析支援装置20に入力する。
障害解析支援装置20は、管理者端末40から取得した障害発生時ログに基づき、上述の「障害解決策」を作成し、出力する。
[ハードウェア構成]
続いて、インシデント管理システムを構成する各装置のハードウェアについて説明する。
図3は、第1の実施形態に係る障害解析支援装置20のハードウェア構成の一例を示す図である。障害解析支援装置20は、所謂、情報処理装置(コンピュータ)により構成可能であり、図3に例示する構成を備える。例えば、障害解析支援装置20は、内部バスにより相互に接続される、CPU(Central Processing Unit)11、メモリ12、入出力インターフェイス13及び通信手段であるNIC(Network Interface Card)14等を備える。
なお、図3に示す構成は、障害解析支援装置20のハードウェア構成を限定する趣旨ではない。障害解析支援装置20は、図示しないハードウェアを含んでもよい。あるいは、障害解析支援装置20に含まれるCPU等の数も図3の例示に限定する趣旨ではなく、例えば、複数のCPUが障害解析支援装置20に含まれていてもよい。
メモリ12は、RAM(Random Access Memory)、ROM(Read Only Memory)、補助記憶装置(ハードディスク等)である。
入出力インターフェイス13は、図示しない表示装置や入力装置のインターフェイスとなる手段である。表示装置は、例えば、液晶ディスプレイ等である。入力装置は、例えば、キーボードやマウス等のユーザ操作を受け付ける装置である。
障害解析支援装置20の機能は、後述する処理モジュールにより実現される。当該処理モジュールは、例えば、メモリ12に格納されたプログラムをCPU11が実行することで実現される。また、そのプログラムは、ネットワークを介してダウンロードするか、あるいは、プログラムを記憶した記憶媒体を用いて、更新することができる。さらに、上記処理モジュールは、半導体チップにより実現されてもよい。即ち、上記処理モジュールが行う機能は、何らかのハードウェアにおいてソフトウェアが実行されることによって実現できればよい。
なお、障害監視装置10、データベースサーバ30、管理者端末40等も情報処理装置により構成することが可能であり、その構成は当業者にとって明らかであるため説明を省略する。
[処理モジュール]
続いて、第1の実施形態に係る障害解析支援装置20の処理構成について説明する。
図2を参照すると、障害解析支援装置20は、通信制御部201と、ログパターン抽出部202と、ログパターンリスト生成部203と、ログ類似度計算部204と、解決策出力部205と、を含んで構成される。
通信制御部201は、データベースサーバ30や管理者端末40との間の通信を制御する手段である。
ログパターン抽出部202は、監視対象装置50から得られるエラーログそれぞれについてのフォーマットを特定し、特定したフォーマットのそれぞれをログパターンとして抽出する手段である。具体的には、ログパターン抽出部202は、エラーログを解析することでデータベースサーバ30に登録されているログの記載形式(フォーマット)に関する種別を「ログパターン」として抽出する。例えば、ログパターン抽出部202は、エラーログに含まれるメッセージがメモリアクセスに関するものであるか、通信エラーに関するものであるかと言った種別をログパターンとして抽出する。抽出されたログパターンは、データベースサーバ30に格納される。
ログパターンリスト生成部203は、一日に含まれるエラーログそれぞれについて、上述のログパターンのいずれに該当するかを判定し、ログパターンからなるログパターンリストを生成する手段である。より具体的には、ログパターンリスト生成部203は、データベースサーバ30に登録されているエラーログに関し、いずれのログパターンに一致するか判定し、日ごとのログパターンリストを生成する。即ち、ログパターンリスト生成部203は、データベースサーバ30に格納されているエラーログ1件ごとに、先に抽出されたログパターンを対応させ、対応するログパターンを例えば、一日単位で整理する。生成されたログパターンリストは、データベースサーバ30に格納される。
ログ類似度計算部204は、障害発生時のエラーログと、インシデント発生日におけるログパターンリストと、に基づいて、障害発生時のエラーログとインシデント発生日におけるエラーログの類似度を計算する手段である。ログ類似度計算部204は、管理者端末40から取得した障害発生時ログ(システム管理者が指摘したインシデント発生時のログ)と、日ごとに集計されたログパターンリストのうち過去にインシデントが発生した日のログパターンリストと、を比較して2つのログ集合の類似度(以下、ログ類似度と称する)を計算する。例えば、管理者端末40から「2017年6月1日、13:00〜15:00」に含まれるエラーログ(障害発生時ログ)が提供されると、ログ類似度計算部204は、当該期間のエラーログと日ごとに集計されたログパターンリストのうち過去にインシデントが発生した日のログパターンリストを用いてログ類似度を計算する。なお、過去にインシデントが発生した日はデータベースサーバ30に格納されている情報から得ることができる。計算されたログ類似度は、データベースサーバ30に格納される。
解決策出力部205は、ログ類似度に基づいて、障害発生時のエラーログから推定されるインシデントの障害解決策を出力する手段である。
[システムの動作]
続いて、第1の実施形態に係るインシデント管理システムの動作を説明する。
図4は、第1の実施形態に係るインシデント管理システムの動作の一例を示すシーケンス図である。
障害監視装置10は、監視対象装置50を監視する(ステップS01)。
障害監視装置10は、監視対象装置50にて障害が発生し、エラーログを検出すると、当該エラーログをデータベースサーバ30のエラーログデータベース301に格納する(ステップS02)。
図5は、エラーログデータベース301の一例を示す図である。図5に示すように、エラーログの発生日時とその際のメッセージ(MSG;Message)がエラーログとして格納される。
障害監視装置10は、エラーログの取得とエラーログをデータベースサーバ30に登録する処理を繰り返す。
障害解析支援装置20のログパターン抽出部202は、予め定めた時刻に(毎日定刻に)、エラーログデータベース301に格納されている前日までのエラーログ全体からログパターンを抽出する(ステップS11)。例えば、ログパターン抽出部202は、ログに含まれるメッセージの固定部分(固定メッセージ部分)と変数部分に着目し、ログパターンを抽出する。
例えば、図6(a)に示すように、メッセージ(MSG)1は、「メモリアクセスエラー」という固定部分とエラーが生じたアドレスを示す「ADD1」という変数部分により構成されているとする。また、図6(b)に示すように、メッセージ2は、「メモリアクセスエラー」という固定部分と「ADD2」という変数部分により構成されているとする。さらに、図6(c)に示すように、メッセージ3は、「通信エラー」という固定部分と「0001」という変数部分により構成されているとする。図6(c)に示す「0001」はエラーコードであり、通信エラーの内容により変化する値である。
ログパターン抽出部202は、各メッセージ(図6の例では3つのメッセージ)を比較することで「メモリアクセスエラー」という固定部分を抽出する。即ち、メッセージにおける位置と内容が一致する場合に当該領域は固定部分として抽出される。また、ログパターン抽出部202は、固定部分に続く領域は、2つのメッセージ間で異なっているので当該固定部分に続く領域を変数部分として抽出する。
ログパターン抽出部202は、固定部分が一致し、且つ、変数部分が異なるメッセージの形態を1つのログフォーマットとして抽出する。
図6の例では、図6(a)と図6(b)に示すメッセージは共に同じフォーマットにより記載されている判断され、1つのログフォーマットとして抽出される。一方、図6(c)に示すメッセージは、図6(a)及び(b)に示すメッセージとは異なるフォーマットを有すると判断され、別のログフォーマットとして抽出される。
ログパターン抽出部202は、エラーログデータベース301に格納されたエラーログを対象として上記処理を行い、ログフォーマット(ログパターン)を抽出する。
抽出されたログフォーマットに関する情報は、ログパターンデータベース302に格納される。
図7は、ログパターンデータベース302の一例を示す図である。図7に示すように、ログパターンデータベース302には、パターンの名称とその詳細(ログパターンフォーマットの詳細)が関連付けられて登録される。ログパターン抽出部202が定刻に動作することによって、監視開始日から前日までのエラーログに対して、対応するログパターンが抽出されることになる。
次に、障害解析支援装置20のログパターンリスト生成部203は、ログパターンリストを生成する(ステップS12)。
具体的には、ログパターンリスト生成部203は、エラーログデータベース301に格納されているエラーログが、先に抽出されたログパターンのいずれに該当するかを判定し、日ごとのログパターンからなるリスト(ログパターンリスト)を生成する。ログパターンリスト生成部203は、エラーログデータベース301から、一日分のエラーログを取り出す。ログパターンリスト生成部203は、取り出された一日分のログそれぞれに対して、ログパターンデータベース302に格納されたログパターンのいずれに該当するかを判定する。即ち、ログパターンリスト生成部203は、一日分のエラーログそれぞれに関し、ログパターンデータベース302に格納されたいずれのログパターンフォーマットを有するのか判定する。
ログパターンリスト生成部203は、このような処理を監視開始日から前日(定期的に動作する時刻の前の日)までに対して行う。その結果、監視開始日から前日までの任意の日に対して、一日に発生したログパターンに関する一覧(リスト)が作成される。
なお、ログパターン抽出部202が抽出したログパターンが前日の結果と相違しない場合には、ログパターンリストの内容も変化することはない。従って、この場合、ログパターンリスト生成部203は、既に作成済みのログパターンリストを再生成する必要はなく、前日(ログパターンリストが未生成)のログパターンリストに限り生成すればよい。
ログパターンリストは、日ごとに区分されログパターンリストデータベース303に格納される。図8は、ログパターンリストデータベース303の一例を示す図である。図8を参照すると、日ごとに発生したログパターンリストが管理されている。
障害解析支援装置20は、上記2つのステップを定刻に実行する。つまり、ログパターン抽出部202及びログパターンリスト生成部203は予め定めた時刻に動作してログパターンの抽出とログパターンリストの生成を定期的に行う。
システムに障害が発生すると、システム管理者は、管理者端末40を用いて障害発生前後のエラーログ(障害発生時ログ)をエラーログデータベース301から取得し、障害解析支援装置20に入力する(ステップS21)。
当該入力を契機として、障害解析支援装置20のログ類似度計算部204は、ログ類似度の計算を開始する。つまり、ログ類似度計算部204は、ユーザから障害発生日のエラーログが入力されると、ログ類似度の計算を開始する。
ログ類似度計算部204は、ログパターンデータベース302に格納された情報と、ログパターンリストデータベース303に格納された情報と、インシデント情報データベース304に格納された情報と、障害発生時ログと、を用いてログ類似度を計算する。
インシデント情報データベース304は、過去に発生したインシデントに関する情報を保持するデータベースである。図9は、インシデント情報データベース304の一例を示す図である。図9を参照すると、インシデントごとにその発生日と対応方法が関連付けられて登録されている。なお、インシデント情報データベース304の管理(情報の登録等)は、システム管理者により行われる。
初めに、ログ類似度計算部204は、障害発生時ログに含まれるエラーログの総数(障害発生時のログ全体件数)をカウントする。次に、ログ類似度計算部204は、障害発生時ログの各ログに対応するログパターンを特定する。具体的には、ログ類似度計算部204は、ログパターンデータベース302からログパターンフォーマットの詳細を取得し、障害発生時ログに含まれるエラーログそれぞれがいずれのログパターンに該当するかを判定する。
次に、ログ類似度計算部204は、インシデント情報データベース304にアクセスし、当該データベースに登録されたインシデントの発生日を取得する。次に、ログ類似度計算部204は、障害発生時ログに含まれるエラーログの総数に対する、各インシデント発生日のログパターンと障害発生時ログに含まれるエラーログのログパターンの一致数の割合を計算する。当該ログ総数に対する一致数の割合がログ類似度となる。
例えば、障害発生時ログには5件のエラーログが含まれているものとする。さらに、当該5件のエラーログに関し、ログフォーマットを特定すると、パターン1、パターン2、パターン3、パターン4、パターン6というログパターンが特定されたものとする。
続いて、図9に示すインシデント情報データベース304を確認すると、インシデント1の発生日は、2017年6月1日であることが分かる。そこで、ログ類似度計算部204は、2017年6月1日のログパターンリストを取得する。図8を参照すると、2017年6月1日には、5件のログパターンが登録されており、それぞれ、パターン1〜パターン5となっている。障害発生時ログのログパターンと2017年6月1日のログパターンの一致/不一致を確認すると、パターン1〜パターン4が一致している。従って、障害発生時ログに含まれるエラーログの総数に対する、インシデント発生日(2017年6月1日)のログパターンリストと障害発生時ログに含まれるエラーログのログパターンの一致数の割合を計算すると、4/5*100=80%となる。
続いて、図9に示すインシデント情報データベース304を確認すると、インシデント2の発生日は、2017年6月2日であることが分かる。そこで、ログ類似度計算部204は、2017年6月2日のログパターンリストを取得する。図8を参照すると、2017年6月2日には、5件のログパターンが登録されており、それぞれ、パターン6、パターン10〜パターン13となっている。従って、障害発生時ログに含まれるエラーログの総数に対する、インシデント発生日(2017年6月2日)のログパターンリストと障害発生時ログに含まれるエラーログのログパターンの一致数の割合を計算すると、1/5*100=20%となる。
ログ類似度計算部204は、上記計算をインシデント情報データベース304に登録された各インシデントについて実行し、インシデントごとのログ類似度を計算する(全てのインシデントに関してログ類似度が計算される)。計算されたインシデントごとのログ類似度は、ログ類似度データベース305に格納される(図10参照)。
このように、ログ類似度計算部204は、システム管理者から障害発生時ログを取得するとログ類似度の計算を開始する。その際、ログ類似度計算部204は、システム管理者が指定した障害発生時ログと、インシデント情報データベース304に格納されている各インシデントから得られるインシデント発生日のログパターンリストを比較することで、各インシデントにおけるログ類似度を計算し、計算したログ類似度を、ログ類似度データベース305に格納する。また、ログ類似度は、障害発生時ログの全体件数のうち、障害発生時ログの各ログに対応するログパターンが、インシデント発生日のログパターンリストに含まれる件数の割合として計算される。
ログ類似度の計算が終了すると、解決策出力部205は、「障害解決策」を生成し、出力する(ステップS14)。具体的には、解決策出力部205は、ログ類似度データベース305にアクセスし、最も類似度の高いインシデントを特定する。その後、解決策出力部205は、インシデント情報データベース304にアクセスし、最も類似度の高いインシデントに対応する「対処方法」のフィールドから対処方法を取得する。解決策出力部205は、取得した対処方法を「障害解決策」として外部に出力する。例えば、解決策出力部205は、障害解決策を印刷してもよいし、ネットワークを介して外部装置(例えば、管理者端末40)に送信してもよい。
以上のように、第1の実施形態に係る障害解析支援装置20は、調査対象の障害に対して、過去インシデントとの類似度を障害発生前後のログと過去インシデント発生日の日次ログに関するフォーマットパターンを利用して計算する。さらに、障害解析支援装置20は、類似度の高いインシデントの障害解決方法を「障害解決案」として提示する。その結果、インシデント情報を利用した障害解析支援装置であって、システムに障害が発生した場合に、適切な障害解決案を迅速に提示できる装置が提供出来る。
また、障害解析支援装置20は、2つのログ集合の比較(類似度計算)を行う際に、エラーログの発生順序を考慮しない。エラーの発生順序を考慮すると、システム構成変更やシステム利用状況によって、同じログが繰り返し発生したり、発生順序が異なったり、新規ログが混入したりして、類似度が大きく変動してしまうためである。例えば、特許文献1に開示された技術におけるログパターンは、システム構成に関する詳細な知識を利用して、作成される必要がある。対して、第1の実施形態に係る障害解析支援装置20では、期間が指定されることで機械的に過去ログ集合を作成することができ、ログ類似度の計算を容易に行うことができる。
さらに、特許文献2に開示された技術では、過去ログと障害時ログの比較において、因果関係(親子関係)を判定しているのに対して、第1の実施形態に係る障害解析支援装置20では、そのような因果関係の判定は行わない。この点からも、ログ類似度の計算を容易に行うことができる。
上記実施形態にて説明したインシデント管理システムの構成(図2)は例示であって、システムの構成を限定する趣旨ではない。例えば、データベースサーバ30を使用せず、必要な情報は障害解析支援装置20の内部に保持する形態であってもよい。あるいは、障害監視装置10と障害解析支援装置20の間で機能分担を行っても良い。例えば、障害監視装置10がログパターンの抽出やログパターンリストの生成を行っても良い。
ここで、ログは、情報/警告/異常(エラー)に分類される。そこで、障害発生時のログ全体のうち、異常ログ(エラーログ)の割合が高い等の事情がある場合には、異常ログだけを対象にログパターンを作成するのではなく、情報/警告/異常のすべてのログを対象にログパターンを作成して、類似度計算に利用してもよい。
上述の説明で用いた複数のフローチャートでは、複数の工程(処理)が順番に記載されているが、各実施形態で実行される工程の実行順序は、その記載の順番に制限されない。各実施形態では、例えば各処理を並行して実行する等、図示される工程の順番を内容的に支障のない範囲で変更することができる。
上記の説明により、本発明の産業上の利用可能性は明らかであるが、本発明は、システム運用管理などに好適に適用可能である。
上記の実施形態の一部又は全部は、以下の付記のようにも記載され得るが、以下には限られない。
[付記1]
上述の第1の視点に係る障害解析支援装置のとおりである。
[付記2]
前記抽出部は、エラーログに含まれるメッセージの固定部分と変数部分を用いて前記ログパターンの抽出を行う、好ましくは付記1の障害解析支援装置。
[付記3]
前記抽出部及び前記生成部は予め定めた時刻に動作して前記ログパターンの抽出と前記ログパターンリストの生成を定期的に行う、好ましくは付記1又は2の障害解析支援装置。
[付記4]
前記抽出部は、前記監視対象装置の監視を開始した監視開始日から前記定期的に動作する時刻の前日までのエラーログを対象として、前記ログパターンを抽出する、好ましくは付記3の障害解析支援装置。
[付記5]
前記計算部は、前記障害発生時のエラーログに含まれるエラーログの総数に対する、前記インシデント発生日のログパターンと前記障害発生時のエラーログに含まれるエラーログのログパターンの一致数を、前記類似度として計算する、好ましくは付記1乃至4のいずれか一に記載の障害解析支援装置。
[付記6]
前記計算部は、ユーザから前記障害発生時のエラーログが入力されると、前記類似度の計算を開始する、好ましくは付記1乃至5のいずれか一に記載の障害解析支援装置。
[付記7]
前記出力部は、前記障害解決策を外部装置に出力する、好ましくは付記1乃至6のいずれか一に記載の障害解析支援装置。
[付記8]
上述の第2の視点に係るインシデント管理システムのとおりである。
[付記9]
上述の第3の視点に係る障害解析支援方法のとおりである。
[付記10]
上述の第4の視点に係るプログラムのとおりである。
なお、付記8〜付記10の形態は、付記1の形態と同様に、付記2の形態〜付記7の形態に展開することが可能である。
なお、引用した上記の特許文献等の各開示は、本書に引用をもって繰り込むものとする。本発明の全開示(請求の範囲を含む)の枠内において、さらにその基本的技術思想に基づいて、実施形態ないし実施例の変更・調整が可能である。また、本発明の全開示の枠内において種々の開示要素(各請求項の各要素、各実施形態ないし実施例の各要素、各図面の各要素等を含む)の多様な組み合わせ、ないし、選択が可能である。すなわち、本発明は、請求の範囲を含む全開示、技術的思想にしたがって当業者であればなし得るであろう各種変形、修正を含むことは勿論である。特に、本書に記載した数値範囲については、当該範囲内に含まれる任意の数値ないし小範囲が、別段の記載のない場合でも具体的に記載されているものと解釈されるべきである。
10 障害監視装置
11 CPU
12 メモリ
13 入出力インターフェイス
14 NIC
20、100 障害解析支援装置
30 データベースサーバ
40 管理者端末
50 監視対象装置
101 抽出部
102 生成部
103 計算部
104 出力部
201 通信制御部
202 ログパターン抽出部
203 ログパターンリスト生成部
204 ログ類似度計算部
205 解決策出力部
301 エラーログデータベース
302 ログパターンデータベース
303 ログパターンリストデータベース
304 インシデント情報データベース
305 ログ類似度データベース

Claims (10)

  1. 監視対象装置から得られるエラーログそれぞれについてのフォーマットを特定し、前記特定したフォーマットのそれぞれをログパターンとして抽出する、抽出部と、
    一日に含まれるエラーログそれぞれについて、前記ログパターンのいずれに該当するかを判定し、前記ログパターンからなるログパターンリストを生成する、生成部と、
    障害発生時のエラーログと、インシデント発生日における前記ログパターンリストと、に基づいて、前記障害発生時のエラーログと前記インシデント発生日におけるエラーログの類似度を計算する、計算部と、
    前記類似度に基づいて、前記障害発生時のエラーログから推定されるインシデントの障害解決策を出力する、出力部と、
    を備える、障害解析支援装置。
  2. 前記抽出部は、エラーログに含まれるメッセージの固定部分と変数部分を用いて前記ログパターンの抽出を行う、請求項1の障害解析支援装置。
  3. 前記抽出部及び前記生成部は予め定めた時刻に動作して前記ログパターンの抽出と前記ログパターンリストの生成を定期的に行う、請求項1又は2の障害解析支援装置。
  4. 前記抽出部は、前記監視対象装置の監視を開始した監視開始日から前記定期的に動作する時刻の前日までのエラーログを対象として、前記ログパターンを抽出する、請求項3の障害解析支援装置。
  5. 前記計算部は、前記障害発生時のエラーログに含まれるエラーログの総数に対する、前記インシデント発生日のログパターンと前記障害発生時のエラーログに含まれるエラーログのログパターンの一致数を、前記類似度として計算する、請求項1乃至4のいずれか一項に記載の障害解析支援装置。
  6. 前記計算部は、ユーザから前記障害発生時のエラーログが入力されると、前記類似度の計算を開始する、請求項1乃至5のいずれか一項に記載の障害解析支援装置。
  7. 前記出力部は、前記障害解決策を外部装置に出力する、請求項1乃至6のいずれか一項に記載の障害解析支援装置。
  8. 監視対象装置に接続された障害監視装置と、
    前記監視対象装置に発生するインシデントの解析を支援するための障害解析支援装置と、
    前記障害解析支援装置に情報入力をする端末と、
    を含み、
    前記障害解析支援装置は、
    前記監視対象装置から得られるエラーログそれぞれについてのフォーマットを特定し、前記特定したフォーマットのそれぞれをログパターンとして抽出する、抽出部と、
    一日に含まれるエラーログそれぞれについて、前記ログパターンのいずれに該当するかを判定し、前記ログパターンからなるログパターンリストを生成する、生成部と、
    障害発生時のエラーログと、インシデント発生日における前記ログパターンリストと、に基づいて、前記障害発生時のエラーログと前記インシデント発生日におけるエラーログの類似度を計算する、計算部と、
    前記類似度に基づいて、前記障害発生時のエラーログから推定されるインシデントの障害解決策を出力する、出力部と、
    を備える、インシデント管理システム。
  9. 監視対象装置に発生するインシデントの解析を支援するための障害解析支援装置において、
    前記監視対象装置から得られるエラーログそれぞれについてのフォーマットを特定し、前記特定したフォーマットのそれぞれをログパターンとして抽出するステップと、
    一日に含まれるエラーログそれぞれについて、前記ログパターンのいずれに該当するかを判定し、前記ログパターンからなるログパターンリストを生成するステップと、
    障害発生時のエラーログと、インシデント発生日における前記ログパターンリストと、に基づいて、前記障害発生時のエラーログと前記インシデント発生日におけるエラーログの類似度を計算するステップと、
    前記類似度に基づいて、前記障害発生時のエラーログから推定されるインシデントの障害解決策を出力するステップと、
    を含む、障害解析支援方法。
  10. 監視対象装置から得られるエラーログそれぞれについてのフォーマットを特定し、前記特定したフォーマットのそれぞれをログパターンとして抽出する処理と、
    一日に含まれるエラーログそれぞれについて、前記ログパターンのいずれに該当するかを判定し、前記ログパターンからなるログパターンリストを生成する処理と、
    障害発生時のエラーログと、インシデント発生日における前記ログパターンリストと、に基づいて、前記障害発生時のエラーログと前記インシデント発生日におけるエラーログの類似度を計算する処理と、
    前記類似度に基づいて、前記障害発生時のエラーログから推定されるインシデントの障害解決策を出力する処理と、
    を障害解析支援装置に搭載されたコンピュータに実行させるプログラム。
JP2017172944A 2017-09-08 2017-09-08 障害解析支援装置、インシデント管理システム、障害解析支援方法及びプログラム Active JP6919438B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017172944A JP6919438B2 (ja) 2017-09-08 2017-09-08 障害解析支援装置、インシデント管理システム、障害解析支援方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017172944A JP6919438B2 (ja) 2017-09-08 2017-09-08 障害解析支援装置、インシデント管理システム、障害解析支援方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2019049802A true JP2019049802A (ja) 2019-03-28
JP6919438B2 JP6919438B2 (ja) 2021-08-18

Family

ID=65905078

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017172944A Active JP6919438B2 (ja) 2017-09-08 2017-09-08 障害解析支援装置、インシデント管理システム、障害解析支援方法及びプログラム

Country Status (1)

Country Link
JP (1) JP6919438B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021026412A (ja) * 2019-08-01 2021-02-22 日本電気株式会社 ログ分析装置、方法及びプログラム
CN114938074A (zh) * 2022-03-22 2022-08-23 国网黑龙江省电力有限公司齐齐哈尔供电公司 应用于小区配电的自动化系统
DE112020003689T5 (de) 2020-03-19 2022-12-08 Hitachi, Ltd. Reparaturunterstützungssystem und reparaturunterstützungsverfahren

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006099249A (ja) * 2004-09-28 2006-04-13 Fujitsu Ltd 障害管理装置および障害管理方法
JPWO2004061681A1 (ja) * 2002-12-26 2006-05-18 富士通株式会社 運用管理方法および運用管理サーバ
US20110066908A1 (en) * 2009-09-17 2011-03-17 Microsoft Corporation Similarity detection for error reports
WO2017081865A1 (ja) * 2015-11-13 2017-05-18 日本電気株式会社 ログ分析システム、方法、及び記録媒体
WO2017094262A1 (ja) * 2015-11-30 2017-06-08 日本電気株式会社 ログ分析システム、方法およびプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2004061681A1 (ja) * 2002-12-26 2006-05-18 富士通株式会社 運用管理方法および運用管理サーバ
JP2006099249A (ja) * 2004-09-28 2006-04-13 Fujitsu Ltd 障害管理装置および障害管理方法
US20110066908A1 (en) * 2009-09-17 2011-03-17 Microsoft Corporation Similarity detection for error reports
WO2017081865A1 (ja) * 2015-11-13 2017-05-18 日本電気株式会社 ログ分析システム、方法、及び記録媒体
WO2017094262A1 (ja) * 2015-11-30 2017-06-08 日本電気株式会社 ログ分析システム、方法およびプログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021026412A (ja) * 2019-08-01 2021-02-22 日本電気株式会社 ログ分析装置、方法及びプログラム
JP7415363B2 (ja) 2019-08-01 2024-01-17 日本電気株式会社 ログ分析装置、方法及びプログラム
DE112020003689T5 (de) 2020-03-19 2022-12-08 Hitachi, Ltd. Reparaturunterstützungssystem und reparaturunterstützungsverfahren
CN114938074A (zh) * 2022-03-22 2022-08-23 国网黑龙江省电力有限公司齐齐哈尔供电公司 应用于小区配电的自动化系统

Also Published As

Publication number Publication date
JP6919438B2 (ja) 2021-08-18

Similar Documents

Publication Publication Date Title
JP6643211B2 (ja) 異常検知システム及び異常検知方法
US9298538B2 (en) Methods and systems for abnormality analysis of streamed log data
US10462027B2 (en) Cloud network stability
Shang et al. Automated detection of performance regressions using regression models on clustered performance counters
EP3616066B1 (en) Human-readable, language-independent stack trace summary generation
CN110708204A (zh) 一种基于运维知识库的异常处理方法、系统、终端及介质
JPWO2004061681A1 (ja) 運用管理方法および運用管理サーバ
US10169166B2 (en) Real-time fault-tolerant architecture for large-scale event processing
JP2022118108A (ja) ログ監査方法、装置、電子機器、媒体およびコンピュータプログラム
JP6919438B2 (ja) 障害解析支援装置、インシデント管理システム、障害解析支援方法及びプログラム
US20150326446A1 (en) Automatic alert generation
CN115118574A (zh) 一种数据处理方法、装置及存储介质
JP2009181496A (ja) ジョブ処理システムおよびジョブ管理方法
CN112769615B (zh) 一种异常分析方法及装置
CN113835918A (zh) 一种服务器故障分析方法及装置
JP5803246B2 (ja) ネットワーク運用管理システム、ネットワーク監視サーバ、ネットワーク監視方法およびプログラム
Zong et al. Nowhere to hide methodology: Application of clustering fault diagnosis in the nuclear power industry
CN112966056B (zh) 一种信息处理方法、装置、设备、系统及可读存储介质
JP2016057658A (ja) 障害情報管理システムおよび障害情報管理方法
CN113934595A (zh) 数据分析方法及系统、存储介质及电子终端
US11138512B2 (en) Management of building energy systems through quantification of reliability
CN113051135A (zh) 一种应用线程池的监控方法及线程池监控装置
US9471569B1 (en) Integrating information sources to create context-specific documents
JP2009087136A (ja) 障害修復システムおよび障害修復方法
WO2014054233A1 (ja) 情報システムの性能評価装置、方法およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200812

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210609

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210622

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210705

R150 Certificate of patent or registration of utility model

Ref document number: 6919438

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150