JP6196196B2 - ログ間因果推定装置、システム異常検知装置、ログ分析システム、及びログ分析方法 - Google Patents
ログ間因果推定装置、システム異常検知装置、ログ分析システム、及びログ分析方法 Download PDFInfo
- Publication number
- JP6196196B2 JP6196196B2 JP2014167381A JP2014167381A JP6196196B2 JP 6196196 B2 JP6196196 B2 JP 6196196B2 JP 2014167381 A JP2014167381 A JP 2014167381A JP 2014167381 A JP2014167381 A JP 2014167381A JP 6196196 B2 JP6196196 B2 JP 6196196B2
- Authority
- JP
- Japan
- Prior art keywords
- causal
- log
- time
- logs
- lag
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Debugging And Monitoring (AREA)
Description
2つのログ間のスパイク発生時刻のラグを時系列で抽出するラグ抽出手段と、
前記ラグ抽出手段により抽出されたラグにおいて、前記2つのログのうちの一方のログを基準とした正のラグの数と負のラグの数に基づいて、前記2つのログ間の因果の方向と因果の強さを推定する因果推定手段とを備えることを特徴とするログ間因果推定装置が提供される。
第1の時間帯におけるログに基づく第1の因果グラフと、第2の時間帯におけるログに基づく第2の因果グラフとを比較し、因果が追加、削除、又は反転された箇所を抽出する因果変化抽出手段と、
前記因果変化抽出手段により抽出された、第1の因果グラフと第2の因果グラフとの間の因果の変化に基づいて、前記システムにおける異常の要因を検出する異常要因検出手段とを備えることを特徴とするシステム異常検知装置が提供される。
2つのログ間のスパイク発生時刻のラグを時系列で抽出するラグ抽出手段と、
前記ラグ抽出手段により抽出されたラグにおいて、前記2つのログのうちの一方のログを基準とした正のラグの数と負のラグの数に基づいて、前記2つのログ間の因果の方向と因果の強さを推定する因果推定手段と、
前記因果推定手段により推定される因果の方向と因果の強さに基づいて、第1の時間帯におけるログに基づく第1の因果グラフと、第2の時間帯におけるログに基づく第2の因果グラフを推定するグラフ推定手段と、
第1の時間帯におけるログに基づく第1の因果グラフと、第2の時間帯におけるログに基づく第2の因果グラフとを比較し、因果が追加、削除、又は反転された箇所を抽出する因果変化抽出手段と、
前記因果変化抽出手段により抽出された、第1の因果グラフと第2の因果グラフとの間の因果の変化に基づいて、前記システムにおける異常の要因を検出する異常要因検出手段とを備えることを特徴とするログ分析システムが提供される。
図1に、本発明の実施の形態におけるシステムの構成例を示す。図1に示すように、本実施の形態のシステムは、ログ分析装置100と監視対象システム群200を有し、ログ分析装置100と監視対象システム群200とは、通信ネットワークにより通信可能に接続されている。なお、ログ分析装置100は監視対象システム群200から通信ネットワークを介してログを取得することの他、オフラインでログを取得することとしてもよい。
時系列ログ収集部110は、監視対象システム群200から一定時間間隔でログ(ログデータ)を収集する。ログの収集方法は特定の方法に限定されないが、既存手法が適用可能であり、例えばSimple Network Transfer Protocol(SNMP)(非特許文献4)を利用したリモートからのログ収集や、監視対象のサーバ側においてdstat(非特許文献5)のツールを利用したログ収集方式を利用できる。最終的に蓄積される情報が時系列ログデータであれば、ログの収集方式は問わない。ただし、本実施の形態における技術を適用する場合の制約条件として、ログの収集時刻は、複数ログ間で共通かつ厳密に合わせる必要がある。
ログ間因果推定部120は、ログ間(リソース間)の因果推定を行う機能部である。ログ間因果推定部120が実行する手順を手順Aと呼び、後述するフローチャートにおいて、ログ間因果推定部120が実行するステップ番号には「A」が付されている。
因果に基づくシステム異常検知部130は、因果に基づいて、システム全体の異常を検知する機能部である。因果に基づくシステム異常検知部130が実行する手順を手順Bと呼び、後述するフローチャートにおいて、因果に基づくシステム異常検知部130が実行するステップ番号には「B」が付されている。
以下、各手順について、より詳細に説明する。
まず、ログ間因果判定部121が実行する手順A1におけるラグ変化抽出処理について説明する。手順A1におけるラグ変化抽出処理では、図2で示したように比較対象の2つの時系列ログデータ間のラグが動的に変化する場合において、両者の時系列において短時間内に同時に発生したスパイク同士のラグを測定することで、両者の時系列間の動的なラグの変化を抽出する。
次に、手順A1における因果判定処理について、図5のフローチャートを参照して説明する。
C=1−<逆の因果の割合>/<正の因果の割合>
で求める。上記の例では、C=1−5%/30%=約0.84と計算できる。以上より、上記の例においてはXとYの因果はX−−>Yの方向であり、その強さは0.84であると推測できる。ここで得られた因果の方向と強さは、手順B1においてシステムの因果グラフを推定する際に活用できる。例えば因果の方向は有向グラフのエッジの向き、因果の強さはグラフにおけるエッジの重みとして利用できる。
図5に示す因果の推定手順の過程で、ステップA15がYesとなる場合、ステップA21(手順A2)に移行し、ラグの方向が継続的に大きく変化する時間を検出する。大きく変化するとは、例えば、ある閾値よりも大きく変化することである(例:−Aから+Bに変化した場合、A+Bが閾値より大きい)。具体的には、時刻毎に因果の方向及び大きさを判定し、ある時刻を境にラグの方向が大きく変化している場合、又はある時刻を境にラグの方向が不安定になっている場合を検出し、更にそれが一時ではなく継続している時、その時刻の境目を異常発生時刻として記録する。なお、ラグの急激な変化が一時的な場合はノイズの影響が疑われるため、ここでは継続という条件を付加している。継続の判定を行うための継続時間は予め定めておく。異常発生時刻は一度の比較において2回以上出現する場合もある。
次に、システム因果グラフの変化に基づく異常検知の手順である手順B2を図7、図8を参照して説明する。なお、手順B2において用いるシステム因果グラフについては、システム因果推定部131による手順B1により生成される(図7のステップB21)。
異常発生箇所推定方法の一つとして、異常ログを基点に因果を遡る方式(従来手法)の拡張を利用することができる。この方法は非特許文献2において採用されている方法である。具体的には、別の方法(閾値等)で、あるログに異常を検知した場合に、そのログを起点にシステム因果グラフの矢印を、結果から原因の方向へ辿ることで、異常の検知(異常の原因の検知)を試みる方式である。非特許文献2では、因果グラフを辿る際にある結果に対して複数の原因が存在する場合は、最も変動が大きい原因を選択する方式も取り入れている。この非特許文献2の手法がステップB23においても適用可能である。
異常発生箇所推定方法例2では、因果グラフの変化を学習することによる異常要因検出を行う。異常発生箇所推定方法例2は、本実施の形態における独自の方法である。
以上、説明したように、本実施の形態では、監視対象システムから取得された複数リソースの時系列ログに基づいて、ログ間の因果を推定するログ間因果推定装置であって、2つのログ間のスパイク発生時刻のラグを時系列で抽出するラグ抽出手段と、前記ラグ抽出手段により抽出されたラグにおいて、前記2つのログのうちの一方のログを基準とした正のラグの数と負のラグの数に基づいて、前記2つのログ間の因果の方向と因果の強さを推定する因果推定手段とを備えるログ間因果推定装置が提供される。
上記のように、本実施の形態では、ログ間のラグ変動が可変的であることに着目し、更にラグの変動が時間経過によって変動することを考慮したログ間の因果推定技術が提供される。本実施の形態では、因果推定結果を元に構築したシステム全体の因果グラフを元に、因果の方向が時間によって変化もしくは反転する特徴を用いた障害要因推定技術が提供される。
110 時系列ログ収集部
120 ログ間因果推定部
121 ログ間因果判定部
122 ログ間異常検知部
130 因果に基づくシステム異常検知部
131 システム因果推定部
132 システム異常検知部
Claims (8)
- 監視対象システムから取得された複数リソースの時系列ログに基づいて、ログ間の因果を推定するログ間因果推定装置であって、
2つのログ間のスパイク発生時刻のラグを時系列で抽出するラグ抽出手段と、
前記ラグ抽出手段により抽出されたラグにおいて、前記2つのログのうちの一方のログを基準とした正のラグの数と負のラグの数に基づいて、前記2つのログ間の因果の方向と因果の強さを推定する因果推定手段と
を備えることを特徴とするログ間因果推定装置。 - 前記ラグ抽出手段は、予め検索ウィンドウ閾値ΔTを保持し、前記2つのログを時系列に走査し、いずれかのログにおいて時刻tに第1のスパイクを検知した場合に、他方のログにおいて時刻t±ΔTにスパイクが存在するか否かを判定し、該当するスパイクが存在する場合に、最も時刻tに近いスパイクを第2のスパイクとして選択し、第1のスパイクと第2のスパイクの発生時刻の時間差を時刻tにおける2つのログ間のラグとする
ことを特徴とする請求項1に記載のログ間因果推定装置。 - 前記ラグ抽出手段で抽出されたラグの正負の方向が反転している期間が所定閾値よりも大きい場合、ある時刻を境にラグの方向が大きく変化すること、又はある時刻を境にラグの方向が不安定になることが継続することを検知した場合に、当該時刻を異常発生時刻として検出するログ間異常検知手段
を更に備えることを特徴とする請求項1又は2に記載のログ間因果推定装置。 - 監視対象システムから取得された複数リソースの時系列ログから得られたログ間の因果を表す因果グラフに基づいて、当該システムの異常を検知するシステム異常検知装置であって、
第1の時間帯におけるログに基づく第1の因果グラフと、第2の時間帯におけるログに基づく第2の因果グラフとを比較し、因果が追加、削除、又は反転された箇所を抽出する因果変化抽出手段と、
前記因果変化抽出手段により抽出された、第1の因果グラフと第2の因果グラフとの間の因果の変化に基づいて、前記システムにおける異常の要因を検出する異常要因検出手段と
を備えることを特徴とするシステム異常検知装置。 - 前記異常要因検出手段は、前記因果が変化した箇所についての因果を逆に辿ることで異常の要因を検出する
ことを特徴とする請求項4に記載のシステム異常検知装置。 - 前記異常要因検出手段は、
既知の異常箇所の情報に基づいて、第1の因果グラフと第2の因果グラフとの間の因果の変化パターンと、異常箇所との対応関係を因果変化パターンデータベースに記録する学習手段と、
異常箇所が未知の因果の変化パターンと前記因果変化パターンデータベースとを照合することにより、当該因果の変化パターンにおける異常箇所を判定する判定手段と
を備えることを特徴とする請求項4に記載のシステム異常検知装置。 - 監視対象システムから取得された複数リソースの時系列ログに基づいて、ログ間の因果を推定して、当該システムの異常を検出するログ分析システムであって、
2つのログ間のスパイク発生時刻のラグを時系列で抽出するラグ抽出手段と、
前記ラグ抽出手段により抽出されたラグにおいて、前記2つのログのうちの一方のログを基準とした正のラグの数と負のラグの数に基づいて、前記2つのログ間の因果の方向と因果の強さを推定する因果推定手段と、
前記因果推定手段により推定される因果の方向と因果の強さに基づいて、第1の時間帯におけるログに基づく第1の因果グラフと、第2の時間帯におけるログに基づく第2の因果グラフを推定するグラフ推定手段と、
第1の時間帯におけるログに基づく第1の因果グラフと、第2の時間帯におけるログに基づく第2の因果グラフとを比較し、因果が追加、削除、又は反転された箇所を抽出する因果変化抽出手段と、
前記因果変化抽出手段により抽出された、第1の因果グラフと第2の因果グラフとの間の因果の変化に基づいて、前記システムにおける異常の要因を検出する異常要因検出手段と
を備えることを特徴とするログ分析システム。 - 監視対象システムから取得された複数リソースの時系列ログに基づいて、ログ間の因果を推定して、当該システムの異常を検出するログ分析システムが実行するログ分析方法であって、
2つのログ間のスパイク発生時刻のラグを時系列で抽出するラグ抽出ステップと、
前記ラグ抽出ステップにより抽出されたラグにおいて、前記2つのログのうちの一方のログを基準とした正のラグの数と負のラグの数に基づいて、前記2つのログ間の因果の方向と因果の強さを推定する因果推定ステップと、
前記因果推定ステップにより推定される因果の方向と因果の強さに基づいて、第1の時間帯におけるログに基づく第1の因果グラフと、第2の時間帯におけるログに基づく第2の因果グラフを推定するグラフ推定ステップと、
第1の時間帯におけるログに基づく第1の因果グラフと、第2の時間帯におけるログに基づく第2の因果グラフとを比較し、因果が追加、削除、又は反転された箇所を抽出する因果変化抽出ステップと、
前記因果変化抽出ステップにより抽出された、第1の因果グラフと第2の因果グラフとの間の因果の変化に基づいて、前記システムにおける異常の要因を検出する異常要因検出ステップと
を備えることを特徴とするログ分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014167381A JP6196196B2 (ja) | 2014-08-20 | 2014-08-20 | ログ間因果推定装置、システム異常検知装置、ログ分析システム、及びログ分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014167381A JP6196196B2 (ja) | 2014-08-20 | 2014-08-20 | ログ間因果推定装置、システム異常検知装置、ログ分析システム、及びログ分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016045556A JP2016045556A (ja) | 2016-04-04 |
JP6196196B2 true JP6196196B2 (ja) | 2017-09-13 |
Family
ID=55636108
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014167381A Active JP6196196B2 (ja) | 2014-08-20 | 2014-08-20 | ログ間因果推定装置、システム異常検知装置、ログ分析システム、及びログ分析方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6196196B2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6623128B2 (ja) * | 2016-08-01 | 2019-12-18 | 株式会社日立製作所 | ログ分析システム、ログ分析方法及びログ分析装置 |
JP6823265B2 (ja) * | 2017-03-28 | 2021-02-03 | 富士通株式会社 | 分析装置、分析システム、分析方法および分析プログラム |
JP6954379B2 (ja) * | 2018-01-12 | 2021-10-27 | 日本電信電話株式会社 | 異常箇所特定装置、異常箇所特定方法及びプログラム |
JP7036697B2 (ja) | 2018-09-27 | 2022-03-15 | 株式会社日立製作所 | 監視システム及び監視方法 |
CN110750412B (zh) * | 2019-09-02 | 2022-10-21 | 北京云集智造科技有限公司 | 日志异常检测方法 |
CN114338248B (zh) * | 2022-03-15 | 2022-08-05 | 北京大学 | 基于机器学习的用户异常行为检测方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3489279B2 (ja) * | 1995-07-21 | 2004-01-19 | 株式会社日立製作所 | データ分析装置 |
-
2014
- 2014-08-20 JP JP2014167381A patent/JP6196196B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2016045556A (ja) | 2016-04-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6196196B2 (ja) | ログ間因果推定装置、システム異常検知装置、ログ分析システム、及びログ分析方法 | |
US10860939B2 (en) | Application performance analyzer and corresponding method | |
US10291463B2 (en) | Large-scale distributed correlation | |
Bodik et al. | Fingerprinting the datacenter: automated classification of performance crises | |
US8078913B2 (en) | Automated identification of performance crisis | |
US8635498B2 (en) | Performance analysis of applications | |
Vilalta et al. | Predictive algorithms in the management of computer systems | |
US8463899B2 (en) | System, method and computer program product for optimized root cause analysis | |
JP6183450B2 (ja) | システム分析装置、及び、システム分析方法 | |
US20140365829A1 (en) | Operation management apparatus, operation management method, and program | |
Jiang et al. | Efficient fault detection and diagnosis in complex software systems with information-theoretic monitoring | |
CN106104496A (zh) | 用于任意时序的不受监督的异常检测 | |
CN111309539A (zh) | 一种异常监测方法、装置和电子设备 | |
US10404524B2 (en) | Resource and metric ranking by differential analysis | |
JP6183449B2 (ja) | システム分析装置、及び、システム分析方法 | |
US20160255109A1 (en) | Detection method and apparatus | |
JP2018165857A (ja) | 分析装置、分析システム、分析方法および分析プログラム | |
Wu et al. | Identifying root-cause metrics for incident diagnosis in online service systems | |
Gurumdimma et al. | Towards detecting patterns in failure logs of large-scale distributed systems | |
US10742535B2 (en) | Monitoring a resource consumption of an application | |
US9397921B2 (en) | Method and system for signal categorization for monitoring and detecting health changes in a database system | |
WO2021109874A1 (zh) | 拓扑图生成方法、异常检测方法、装置、设备及存储介质 | |
Bhattacharyya et al. | Online phase detection and characterization of cloud applications | |
AU2021269196B2 (en) | Performance event troubleshooting system | |
US9473368B1 (en) | Network graph representation of physically connected network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160920 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170726 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170815 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170817 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6196196 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |