JP5922811B1 - ログ情報分類装置、ログ情報分類方法、及びプログラム - Google Patents

ログ情報分類装置、ログ情報分類方法、及びプログラム Download PDF

Info

Publication number
JP5922811B1
JP5922811B1 JP2015021243A JP2015021243A JP5922811B1 JP 5922811 B1 JP5922811 B1 JP 5922811B1 JP 2015021243 A JP2015021243 A JP 2015021243A JP 2015021243 A JP2015021243 A JP 2015021243A JP 5922811 B1 JP5922811 B1 JP 5922811B1
Authority
JP
Japan
Prior art keywords
group
log information
type set
type
distributed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015021243A
Other languages
English (en)
Other versions
JP2016143388A (ja
Inventor
達明 木村
達明 木村
剛 豊野
剛 豊野
暁 渡邉
暁 渡邉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2015021243A priority Critical patent/JP5922811B1/ja
Application granted granted Critical
Publication of JP5922811B1 publication Critical patent/JP5922811B1/ja
Publication of JP2016143388A publication Critical patent/JP2016143388A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

【課題】機器やソフトウェアの生成するログ情報の生成則を事前に知ることなく,ログ情報の発生のノイズを考慮しつつ、同時に発生しやすいログ情報の集合の逐次的な抽出を効率的に実行可能とする。【解決手段】ログ情報分類装置は、機器によって生成されるログ情報の集合を、ログ情報の生成時期の順に、複数のトランザクションに分割し、生成時期が相対的に前であるログ情報を含むトランザクションから順に、トランザクションに含まれるログ情報の種別の集合であるテンプレート集合との一致率が所定値以上であるテンプレート集合によって代表されるグループの有無を判定する。該当するグループが無ければ、トランザクションに係るテンプレート集合によって代表されるグループを生成し、該当するグループが有れば、グループにトランザクションに係るテンプレート集合を分配し、分配されたグループの状態に応じた方法で、グループの所属数を更新する。【選択図】図5

Description

本発明は、ログ情報分類装置、ログ情報分類方法、及びプログラムに関する。
今日、コスト削減を主な理由として、異なる製造元の機器、異なる役割を有する機器、又はソフトウェア等について一元的な監視・管理が行われている。一方で、こうした多種多様な機器やソフトウェアは、それぞれ独自の生成則を持った形式のログ情報を出力する機構を有しており、ログ情報は、機器の監視・管理を行う際において使用される。情報機器の発展に伴い、これらのログ情報は、複雑・大規模化しており、効率的な監視方法が必要となっている。
こうした中で、非特許文献3のように、ログ分析を簡略化するための分析基盤が有る。しかし、当該分析基盤を利用するためには、個々のログ情報の発生する意味やログメッセージの内容に関しての生成則を事前知識として必要となり、膨大な未知のログ分析にはノウハウの蓄積が無ければ運用が困難となる。
特にこれらのログ情報に関するノウハウとして、非特許先行文献1や非特許先行文献2では、同時に発生しやすいログ情報のグループが存在し、これを把握しておくことで、大量のログ情報の圧縮や意味付けが容易となることが報告されている。
特開2013−171471号公報
T. Qiu, Z. Ge, D. Pei, J. Wang, J, Xu,"What Happened in my Network? Mining Network Events from Router Syslogs", In IMC, 2010. T. Kimura, K. Ishibashi, T. Mori, H. Sawada, T. Toyono, K. Nishimatsu, A. Watanabe, A. Shimoda, K. Shiomoto, "Spatio-temporal factorization of log data for understanding network events," in Proc. IEEE INFOCOM 2014, 201 Splunk、[online]、[平成27年1月13日検索]、インターネット<http://www.splunk.com/>
しかしながら、非特許文献1又は非特許文献2で提案されている手法は、バッチ処理が前提とされており、グループの抽出に時間がかかる他、新しいログ情報の到着のたびに全てデータに対しバッチ処理が再度実行される必要が有るため、非効率的である。
本発明は上記の課題を鑑みてなされたものであり、機器やソフトウェアの生成するログ情報の生成則を事前に知ることなく, ログ情報の発生のノイズを考慮しつつ、同時に発生しやすいログ情報の集合の逐次的な抽出を効率的に実行可能とすることを目的とする。
そこで上記課題を解決するため、機械の生成するログ情報から有用な情報を抽出するログ分類装置は、機器によって生成されるログ情報の集合を、前記ログ情報の生成時期の順に、複数の部分集合に分割する分割部と、生成時期が相対的に前であるログ情報を含む前記部分集合から順に、当該部分集合に含まれるログ情報の種別の集合である種別集合との一致率が所定値以上である種別集合によって代表されるグループの有無を判定し、該当するグループが無ければ当該部分集合に係る種別集合によって代表されるグループを生成し、該当するグループが有れば当該グループに当該部分集合に係る種別集合を分配する分配部と、既に分配された種別集合のうちの第1の所定数以上の種別集合において重複している種別の数が第2の所定数に満たない第1のグループに、前記分配部によって種別集合が分配された場合に、当該第1のグループを代表する種別集合を、分配された種別集合との論理和によって更新し、当該第1のグループの所属数に1を加算する第1の更新部と、既に分配された種別集合のうちの前記第1の所定数以上の種別集合において重複している種別の数が前記第2の所定数以上である第2のグループに、前記分配部によって種別集合が分配された場合に、当該第2のグループを代表する種別集合を構成する全ての種別が、分配された部分集合に含まれる場合、又は当該第2のグループを代表する種別集合を構成する種別のうち、分配された種別集合に含まれない第1の種別について、当該分配された種別集合と、既に当該第2のグループの所属数の増加に寄与した種別集合との集合に含まれない確率が許容範囲内である場合には、当該第2のグループの所属数に1を加算する第2の更新部と、を有する。
機器やソフトウェアの生成するログ情報の生成則を事前に知ることなく, ログ情報の発生のノイズを考慮しつつ、同時に発生しやすいログ情報の集合の逐次的な抽出を効率的に実行可能とすることができる。
第一の実施の形態におけるシステム構成例を示す図である。 第一の実施の形態におけるログ情報分類装置のハードウェア構成例を示す図である。 第一の実施の形態におけるログ情報分類装置の機能構成例を示す図である。 グループを構成するパラメータの一例を示す図である。 第一の実施の形態におけるログ情報分類装置が実行する処理手順の一例を説明するためのフローチャートである。 第一の実施の形態における初期状態のグループの更新処理の処理手順の一例を説明するためのフローチャートである。 第一の実施の形態における通常状態のグループの更新処理の処理手順の一例を説明するためのフローチャートである。 第一の実施の形態における通常状態のグループの更新処理の変形例の処理手順の一例を説明するためのフローチャートである。 第二の実施の形態における初期状態のグループの更新処理の処理手順の一例を説明するためのフローチャートである。 第二の実施の形態における通常状態のグループの更新処理の処理手順の一例を説明するためのフローチャートである。 第三の実施の形態におけるログ情報分類装置の機能構成例を示す図である。 第三の実施の形態におけるログ情報分類装置が実行する処理手順の一例を説明するためのフローチャートである。 第四の実施の形態におけるログ情報分類装置の機能構成例を示す図である。
以下、図面に基づいて本発明の実施の形態を説明する。図1は、第一の実施の形態におけるシステム構成例を示す図である。図1において、ログ情報分類装置10は、LAN(Local Area Network)又はインターネット等のネットワークを介して、機器20−1〜機器20−n等の1以上の機器20とネットワークを介して接続されている。
機器20は、その稼働状態等について監視対象とされている機器20である。各機器20は、当該機器20の状態等を示すログ情報を生成し、出力する。機器20の監視は、ログ情報に基づいて行われる。
ログ情報分類装置10は、各機器20等の機械の生成するログ情報から有用な情報を抽出する1以上のコンピュータである。例えば、ログ情報分類装置10は、各機器20から出力されるログ情報を収集し、収集されたログ情報について分析を行う。
図2は、第一の実施の形態におけるログ情報分類装置のハードウェア構成例を示す図である。図2のログ情報分類装置10は、それぞれバスBで相互に接続されているドライブ装置100、補助記憶装置102、メモリ装置103、CPU104、及びインタフェース装置105等を有する。
ログ情報分類装置10での処理を実現するプログラムは、CD−ROM等の記録媒体101によって提供される。プログラムを記憶した記録媒体101がドライブ装置100にセットされると、プログラムが記録媒体101からドライブ装置100を介して補助記憶装置102にインストールされる。但し、プログラムのインストールは必ずしも記録媒体101より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置102は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。
メモリ装置103は、プログラムの起動指示があった場合に、補助記憶装置102からプログラムを読み出して格納する。CPU104は、メモリ装置103に格納されたプログラムに従ってログ情報分類装置10に係る機能を実行する。インタフェース装置105は、ネットワークに接続するためのインタフェースとして用いられる。
図3は、第一の実施の形態におけるログ情報分類装置の機能構成例を示す図である。図3において、ログ情報分類装置10は、ログ収集部11、テンプレート付加部12、トランザクション検出部13、グループ抽出部14、及びUI制御部15等を有する。これら各部は、ログ情報分類装置10にインストールされる1以上のプログラムが、CPU104に実行させる処理により実現される。ログ情報分類装置10は、また、テンプレートDB51及びグループDB52等のDB(Data Base)を利用する。テンプレートDB51及びグループDB52は、例えば、補助記憶装置102、又はログ情報分類装置10にネットワークを介して接続可能な記憶装置等を用いて実現可能である。
ログ収集部11は、各機器20からログ情報を収集(受信)する。ログ情報は、逐次的に受信される。すなわち、機器20においてログ情報が生成されるたびに、当該ログ情報が受信される。ログ情報には、タイムスタンプ(日時情報)、機器20の識別情報(機器名)、及びメッセージ本体等が含まれる。例えば、各機器20はルータであり、各機器20において生成されるログ情報は、ルータのsyslogであってもよい。
テンプレート付加部12は、ログ収集部11によって受信されるログ情報に対して、逐次的にテンプレートを付加する。ログ情報に付加されるテンプレートは、テンプレートDB51から検索される。すなわち、当該ログ情報に合致するテンプレートのID(以下、「テンプレートID」という。)が、当該ログ情報に対して付加される。
テンプレートとは、ログ情報の形式又は構文を示す雛形情報であり、ログ情報の種別を示す情報であるともいえる。テンプレートは、例えば、同じ事象を示す複数のログ情報に関して、値が一定である単語、パラメータ、又はメッセージ等の項目(以下、「固定部分」という。)については具体的な値を含み、値が一定ではない項目(以下、「変動部分」という。)については、変数化された(例えば、*(アスタリスク)によって表現された)文字列である。テンプレートは、例えば、特許文献1に開示された技術を利用して、ログ情報から自動的に抽出されてもよい。特許文献1の図6には、テンプレートの一例が示されている。
ログ情報に合致するテンプレートとは、例えば、固定部分の全てが当該ログ情報に合致するテンプレートをいう。なお、テンプレートDB51において、各テンプレートには、テンプレートIDが割り振られている。
トランザクション検出部13は、ログ情報の集合を、各ログ情報の生成時期の順に、部分集合に分割する。具体的には、テンプレート付加部12によって逐次的にテンプレートIDが付加されるログ情報について、トランザクションの区切りを検出する。トランザクションとは、時系列のログ情報の集合が、例えば、一定時間ごとに分割された単位をいい、上記の部分集合に該当する。本実施の形態において、トランザクションは、分割されたログ情報の集合のそれぞれに付加されたテンプレートIDの集合によって表現される。トランザクション検出部13によってトランザクションの区切りが検出されることで、トランザクションが生成される。なお、トランザクションは、各ログ情報に含まれている機器名に基づいて、機器20別に生成される。
グループ抽出部14は、機器20別に、時系列に生成されるトランザクションの集合に基づいて、グループを抽出する。又は、グループ抽出部14は、トランザクションの集合をグループに分類するともいえる。グループとは、同時に発生する可能性の高いテンプレートの集合を特定するために管理されるデータである。同時に発生するとは、一つの機器20機における或る一つの事象に関して連続して発生することをいう。例えば、機器20の起動時に発生するログ情報の集合は、毎回同様である可能性が高い。すなわち、同じ事象が発生した場合に発生する複数のログ情報の集合は、毎回同様である可能性が高い。グループとは、このようなログ情報に対応するテンプレートの集合に対応する概念であると共に、当該概念に対応するデータをいう。
図4は、グループを構成するパラメータの一例を示す図である。図4に示されるように、1つのグループは、1つの全テンプレート集合、1つのカウンタリスト、1つの代表テンプレート集合、1つのサポート数、1つの初期状態フラグ、及び1つのヒストリリスト等を含む。
全テンプレート集合は、当該グループに分配された全てのトランザクションのうち、少なくともいずれか1つのトランザクションに含まれていたテンプレートIDの集合を示す情報である。例えば、全テンプレート集合は、グループに分配された全てのトランザクションのテンプレート集合の論理和によって得られるトランザクション集合である。なお、全テンプレート集合には、グループに属することが確定されていないテンプレートIDも含まれる。
カウンタリストは、当該グループの全テンプレート集合を構成するテンプレートIDの個数分の要素長を有するリストであり、各要素の値は、全テンプレート集合を構成するテンプレートの中で、当該要素が対応するテンプレートの出現頻度等を示す。カウンタリストの用途は、グループの状態の変化に応じて変化する。カウンタリストは、グループが初期状態であるのか通常状態であるのかの判定や、全テンプレート集合を構成するテンプレートIDのうち、代表テンプレート集合へ追加するテンプレートIDの判定等に利用される。
代表テンプレート集合は、グループを代表するテンプレート集合である。すなわち、代表テンプレート集合は、全テンプレート集合を構成するテンプレートIDのうち、グループに属することが確定したテンプレートIDの集合である。例えば、全テンプレート集合を構成するテンプレートIDのうち、出現頻度が一定以上であるテンプレートが、代表テンプレート集合に追加される。
サポート数は、当該グループに属するもの(当該グループに分類されるべきもの)であるとしてカウントされたトランザクションの個数である。すなわち、或るグループに所属するトランザクションは、当該グループの存在の確度(確からしさ)をサポートするトランザクションであるといえる。そこで、本実施の形態では、或るグループのサポート数の増加に寄与したトランザクションを、当該グループのサポートという。
初期状態フラグは、当該グループが初期状態であるのか通常状態であるのかを示すパラメータである。グループが初期状態である場合、初期状態フラグの値は1であり、グループが通常状態である場合、初期状態フラグの値が0である。なお、初期状態とは、代表テンプレート集合が、全テンプレート集合と同じである状態をいう。すなわち、全テンプレート集合を構成するテンプレートの中から、代表テンプレート集合が選別されていない状態をいう。通常状態とは、初期状態でない状態をいう。
ヒストリリストは、当該グループの過去の代表テンプレート集合の推移又は履歴を記憶しておくためのリストである。すなわち、ヒストリリストは、過去の代表テンプレート集合を要素とするリストである。
グループ抽出部14によって抽出されたグループは、グループDB52に記憶される。なお、当該グループについても、機器20別に生成される。
図3において、グループ抽出部14は、トランザクション分配部141、初期グループ更新部142、及び通常グループ更新部143等を含む。
トランザクション分配部141は、トランザクション検出部13によって生成されたトランザクションを、既存のいずれかのグループに分配する。トランザクションの分配先となるグループは、当該グループの代表テンプレート集合と、当該トランザクションとの一致率が所定値以上であるグループに限定される。該当するグループが無い場合、トランザクション分配部141は、当該トランザクションを代表テンプレート集合とするグループを新たに生成する。
初期グループ更新部142は、初期状態のグループに対してトランザクションが分配された場合に、当該グループの各パラメータの更新を行う。通常グループ更新部143は、通常状態のグループに対してトランザクションが分配された場合に、当該グループの各パラメータの更新を行う。
UI制御部15は、グループ抽出部14によるグループの抽出結果を、例えば、視覚的な表現によって出力する。
以下、ログ情報分類装置10が実行する処理手順について説明する。図5は、第一の実施の形態におけるログ情報分類装置が実行する処理手順の一例を説明するためのフローチャートである。以下の説明では、便宜上、或る一つの機器20から出力されたログ情報が処理対象とされる。すなわち、以下において説明する処理手順は、機器名が共通するログ情報の集合ごとに実行される。
ログ収集部11が、機器20から出力されたログ情報を受信すると(ステップS101でYes)、テンプレート付加部12は、当該ログ情報に合致するテンプレートを、テンプレートDB51から検索し、検索されたテンプレートのテンプレートIDを、当該ログ情報に付加する(ステップS102)。ステップS101は、新たに生成されたログ情報が受信されるたびに実行される。したがって、生成時期が相対的に前であるログ情報から順に、ステップS101以降が実行される。
続いて、テンプレート付加部12は、ログ情報に付加されたテンプレートIDを、IDリストに追加する(ステップS103)。IDリストは、テンプレートIDの集合を一時的に記憶しておくためのデータである。
続いて、トランザクション検出部13は、トランザクションの区切りが検出されたか否かを判定する(ステップS104)。例えば、固定時間のタイムウィンドウによって、トランザクションの区切りが検出されてもよい。この場合、IDリストにおいて、固定時間のタイムウィンドウに含まれるテンプレートIDの集合が、トランザクションとされる。又は、前後のログ情報の受信時刻の間隔が一定時間以上である箇所が、トランザクションの区切りとして検出されてもよい。このように、トランザクションの区切りを検出するために、各テンプレートIDに係るログ情報の日時情報を知る必要が有る場合、IDリストには、各テンプレートIDに関連付けられて、当該テンプレートIDに係るログ情報の日時情報が記憶されてもよい。
トランザクションの区切りが検出されない場合(ステップS104でNo)、ステップS101以降が繰り返される。トランザクションの区切りが検出された場合(ステップS104でYes)、トランザクション検出部13は、当該区切りまでのテンプレートIDの集合(すなわち、テンプレート集合)を、処理対象のトランザクション(以下、「対象トランザクション」という。)としてIDリストから取り出す(ステップS105)。取り出されたテンプレート集合は、IDリストから削除される。
続いて、トランザクション分配部141は、グループDB52に記憶されている既存のグループの中で、当該グループの代表テンプレート集合について、対象トランザクションとの一致率が許容範囲内であるグループの有無を判定する(ステップS106)。
例えば、対象トランザクションに含まれるテンプレート集合A={t1、t2、…、tN}であり、代表テンプレート集合B={s1、s2、…、sM}である場合に、AとBとの一致率は、例えば、以下の式(1)で与えられるJaccard係数を用いて算出されてもよい。
Jaccard(A、B)=|A∩B|/|A∪B| ・・・(1)
なお、Jaccard係数の他に、コサイン類似度やdice係数等、他の類似度尺度が用いられて、AとBとの一致率が算出されてもよい。
対象トランザクションAとの一致率が許容範囲内である代表テンプレート集合とは、以下の条件(2)を満たすような、代表テンプレート集合Bである。
1.0−Jaccard(A、B)<εr ・・・(2)
ここで、εrは、事前に設定される許容ノイズ率であり、0<εr<1である。
条件(2)を満たす代表テンプレート集合を含むグループが存在しない場合(ステップS106でNo)、トランザクション分配部141は、対象トランザクションに基づいて、新たなグループを生成する(ステップS107)。この際、対象トランザクションのテンプレート集合は、新たに生成されるグループの代表テンプレート集合及び全テンプレート集合とされる。また、当該グループのカウンタリストの要素長は、全テンプレート集合に属するテンプレートIDの数とされ、カウンタリストの各要素には、事前に設定された正の初期値であるINIT_THRESHOLDが代入される。また、初期状態フラグには、初期状態であることを示す1が代入される。また、サポート数には1が代入される。なお、生成されたグループは、グループDB52に登録される。
一方、条件(2)を満たす代表テンプレート集合を含むグループが1以上存在する場合(ステップS106でYes)、トランザクション分配部141は、当該1以上のグループの中で、対象トランザクションとの一致率が最大である代表テンプレート集合を含むグループを、対象トランザクションの分配先のグループ(以下、「分配先グループ」という。)として選択する(ステップS108)。
続いて、トランザクション分配部141は、分配先グループの初期状態フラグの値が1であるか否かを判定する(ステップS109)。すなわち、分配先グループが、初期状態であるか否かが判定される。分配先グループの初期状態フラグの値が1である場合(分配先グループが初期状態である場合)(ステップS109でYes)、初期グループ更新部142は、対象トランザクションの分配に伴う、初期状態のグループの更新処理を実行する(ステップS110)。一方、分配先グループの初期状態フラグの値が0である場合(分配先グループが通常状態である場合)(ステップS109でNo)、通常グループ更新部143は、対象トランザクションの分配に伴う、通常状態のグループの更新処理を実行する(ステップS111)。ステップS110及びステップS111の詳細については後述される。
なお、上記では、対象トランザクションのテンプレート集合の全部を単位として、分配先のグループが判定されているが、対象トランザクションに含まれる全ての部分テンプレート集合A_0⊆Aのそれぞれに関して、ステップS106以降が実行されてもよい。この場合、1つのトランザクションから同じグループに分配される部分グループ集合は1つとし、重複したグループへの分配は実行されないようにしてもよい。例えば、対象トランザクションに含まれるテンプレート集合A={t1、t2、…、tN}である場合において、部分テンプレート集合a1={t1、t2、t3}がグループG1に分配された場合、テンプレート集合Aの他の部分テンプレート集合については、グループG1が分配先から除外されるようにしてもよい。
続いて、ステップS110の詳細について説明する。図6は、第一の実施の形態における初期状態のグループの更新処理の処理手順の一例を説明するためのフローチャートである。なお、図6の説明において処理対象とされる、グループを構成するパラメータは、分配先グループのパラメータである。
ステップS201において、初期グループ更新部142は、対象トランザクションのテンプレート集合によって、代表テンプレート集合及び全テンプレート集合を更新する。具体的には、代表テンプレート集合と対象トランザクションのテンプレート集合との論理和によって、代表テンプレート集合が上書きされる。同様に、全テンプレート集合と対象トランザクションのテンプレート集合との論理和によって、全テンプレート集合が上書きされる。なお、代表テンプレート集合又は全テンプレート集合に新たに追加されるテンプレートIDは、例えば、代表テンプレート集合又は全テンプレート集合の末尾に追加されてもよいし、他の位置に追加されてもよい。
このように、グループが初期状態であるときは、当該グループに分配されたトランザクションがノイズであるのか当該グループのサポートであるのかの判断が困難であるため、当該グループに分配された各トランザクションのテンプレート集合のうち、発生回数がINIT_THRESHOLD回数以上であるテンプレートIDが2以上検出されるまでは、分配されたトランザクションを構成するテンプレートIDは、即座に代表テンプレート集合に追加される。
続いて、初期グループ更新部142は、ステップS201における処理によって、全テンプレート集合を構成するテンプレートIDの数が増加したか否かを判定する(ステップS202)。全テンプレート集合を構成するテンプレートIDの数が増加した場合、すなわち、全テンプレート集合に対して新たなテンプレートIDが追加された場合(ステップS202でYes)、初期グループ更新部142は、当該新たなテンプレートIDに対応する要素を、カウンタリストに追加する(ステップS203)。追加された要素の値は、INIT_THRESHOLDとされる。
続いて、初期グループ更新部142は、カウンタリストについて、全テンプレート集合を構成するテンプレートIDのうち、対象トランザクションのテンプレート集合にも含まれているテンプレートIDに対応する要素の値をデクリメントする(ステップS204)。
続いて、初期グループ更新部142は、サポート数に1を加算する(ステップS205)。すなわち、初期状態のグループに分配されたトランザクションは、当該グループのサポートとしてカウントされる。
続いて、初期グループ更新部142は、カウンタリストにおいて、値が0以下である要素の数が2以上であるか否かを判定する(ステップS206)。すなわち、これまでに分配先グループに分配されたトランザクションのうち、INIT_THRESHOLD個以上のトランザクションに含まれていたテンプレートIDが2つ以上有るか否かが判定される。
値が0以下である要素の数が2以上である場合(ステップS206でYes)、初期グループ更新部142は、全テンプレート集合において、値が0以上であるカウンタリストの要素に対応するテンプレート集合によって、代表テンプレート集合を上書きする(ステップS207)。続いて、初期グループ更新部142は、初期状態フラグの値を0に更新する(ステップS208)。すなわち、分配先グループは、通常状態に移行する。続いて、初期グループ更新部142は、サポート数の値を、INIT_THRESHOLDで上書きする(ステップS209)。続いて、初期グループ更新部142は、カウンタリストの各要素の値の正負を反転させる(ステップS210)。
続いて、図5のステップS111の詳細について説明する。図7は、第一の実施の形態における通常状態のグループの更新処理の処理手順の一例を説明するためのフローチャートである。
ステップS301において、通常グループ更新部143は、対象トランザクションと全テンプレート集合との論理和によって、全テンプレート集合を更新する。全テンプレート集合に対して新たなテンプレートIDが追加された場合(ステップS302でYes)、通常グループ更新部143は、当該新たなテンプレートIDに対応する要素を、カウンタリストに追加する(ステップS303)。この際、当該新たな要素の値は、0とされる。
続いて、通常グループ更新部143は、対象トランザクションと全テンプレート集合とを比較して、全テンプレート集合を構成するテンプレートIDのうち、対象トランザクションに含まれていないテンプレートIDを特定する。通常グループ更新部143は、カウンタリストにおいて、該当するテンプレートIDに対応する要素の値をデクリメントする(ステップS304)。
続いて、通常グループ更新部143は、カウンタリストにおいて、代表テンプレート集合を構成する各テンプレートIDに対応する要素の値の全てが非負であるか否かを判定する(ステップS305)。当該要素の少なくとも一つの値が負である場合(ステップS305でNo)、ステップS309に進む。一方、当該要素の値の全てが非負である場合(ステップS305でYes)、サポート数をインクリメントする(ステップS306)。
なお、ステップS306は、代表テンプレート集合を構成する全てのテンプレートIDが対象トランザクションに含まれる場合、又は代表テンプレート集合を構成するテンプレートIDのうち、対象トランザクションに含まれないテンプレートIDについて、対象テンプレート集合と、分配先グループのサポート数の増加に寄与した過去のトランザクションとの集合に含まれない確率が、許容範囲内である場合に実行される。
すなわち、代表テンプレート集合を構成する全てのテンプレートIDが、対象トランザクションに含まれる場合には、ステップS304において、代表テンプレート集合の含まれるテンプレートIDに関して、カウンタリストの要素の値はデクリメントされない。したがって、この場合、ステップS305の判定は肯定的となる。また、代表テンプレート集合を構成するテンプレートIDのうち、対象トランザクションに含まれないテンプレートIDであっても、第1の実施の形態では、当該テンプレートIDの欠損が、事前に定められた割合εc(0<εc<1)以下であれば、当該テンプレートIDは、代表テンプレートを構成する。したがって、この場合においても、対象トランザクションは、サポートとしてカウントされる。
続いて、通常グループ更新部143は、以下の式(3)が成立するか否かを判定する(ステップS307)。
int(サポート数×εc)=int((サポート数−1)×εc)+1 ・・・(3)
但し、int(x)は、x以下で最大の整数を返す関数である。
式(3)は、サポート数が増加する過程において、εcの割合で成立する式である。例えば、εcが1/3であれば、サポート数が、3の倍数である場合に、式(3)は成立する。
なお、第1の実施の形態において、カウンタリストの各要素の値は、当該各要素に対応するテンプレートIDについて許容される欠損回数の残量となる。例えば、値が1であるカウンタリスト要素に対応するテンプレートIDについては、次に分配されたトランザクションに当該テンプレートIDが含まれていなくても、代表テンプレート集合からは除外されない。但し、この場合、ステップS304の効果により、当該テンプレートIDに対応するカウンタリストの要素の値はデクリメントされて0となる。したがって、更に次に分配されたトランザクションに当該テンプレートIDが含まれていない場合、当該テンプレートIDは、代表テンプレート集合から除外される。
式(3)が成立しない場合(ステップS307でNo)、図7の処理は終了する。一方、式(3)が成立する場合(ステップS307でYes)、通常グループ更新部143は、カウンタリストの全ての要素の値をインクリメントする(ステップS308)。すなわち、カウンタリストの各要素に対応するテンプレートIDに関して許容される欠損回数の残量が増加する。
続いて、通常グループ更新部143は、カウンタリストにおいて値が非負である要素に対応するテンプレート集合と、代表テンプレート集合とが一致するか否かを判定する(ステップS309)。なお、ステップS305でYesの場合であっても、ステップS308におけるカウンタリストの更新により、カウンタリストにおいて値が非負である要素に対応するテンプレート集合と、代表テンプレート集合との間に不整合が生じる可能性が有る。
カウンタリストにおいて値が非負である要素に対応するテンプレート集合と、代表テンプレート集合とが一致する場合(ステップS309でNo)、図7の処理は終了する。一方、カウンタリストにおいて値が非負である要素に対応するテンプレート集合と、代表テンプレート集合とが一致しない場合(ステップS309でYes)、通常グループ更新部143は、代表テンプレート集合を、ヒストリリストに追加する(ステップS310)。続いて、通常グループ更新部143は、カウンタリストにおいて値が非負である要素に対応するテンプレート集合によって、代表テンプレート集合を上書きする(ステップS311)。すなわち、代表テンプレート集合からテンプレートIDが除去されたり、代表テンプレート集合にテンプレートIDが追加されたりする。
続いて、サポート数の増加による弊害を回避するための処理が実行される。すなわち、サポート数が増加すると、サポート×εcの値も増加し、ステップS308において、カウンタリストの全要素がインクリメントされることで、代表テンプレート集合に含まれるテンプレートIDの数(以下、「代表テンプレート集合要素数」という。)が増加する。このようなケースが繰り返されると、このようなケースが繰り返されることで代表テンプレート集合が肥大することを抑制するために、通常グループ更新部143は、ステップS312以降を実行する。
ステップS312において、通常グループ更新部143は、ヒストリリストに属するテンプレート集合の中で、当該テンプレート集合に含まれるテンプレートIDの数と、代表テンプレート集合要素数との差が、代表テンプレート集合要素数×εr以上であるテンプレート集合を探す。すなわち、テンプレートIDの数が、代表テンプレート集合要素数に対して所定の割合以上に相違するテンプレート集合が探索される。
該当するテンプレート集合が無い場合(ステップS312でNo)、図7の処理は終了する。一方、該当するテンプレート集合が複数である場合(ステップS312でYes、かつ、ステップS313でYes)、通常グループ更新部143は、該当するテンプレート集合の中で、テンプレートIDの数が最大であるテンプレート集合を代表テンプレート集合とする新たなグループを生成し、当該新たなグループをグループDB52に登録する(ステップS314)。この際、新たなグループの全テンプレート集合、カウンタリスト、及びサポート数には、元のグループ(分配先グループ)の値がコピーされる。また、新たなグループの初期状態フラグは0とされる。更に、新たなグループのヒストリリストは空とされる。続いて、通常グループ更新部143はステップS312の条件に該当した複数のテンプレート集合を、元のグループのヒストリリストから削除する(ステップS315)。
一方、該当するテンプレート集合が一つである場合(ステップS312でYes、かつ、ステップS313でNo)、通常グループ更新部143は、当該テンプレート集合に関して、ステップS314及びS315と同様の処理を実行する(ステップS316、ステップS317)。
なお、ステップS310以降は、次のような処理によって置き換えられてもよい。図8は、第一の実施の形態における通常状態のグループの更新処理の変形例の処理手順の一例を説明するためのフローチャートである。図8中、図7と同一ステップには同一ステップ番号を付し、その説明は省略する。
図8では、ステップS303において、新たに追加されたカウンタリストの要素に対して、int(サポート×εc)が代入される。
また、図8では、図7のステップS310以降が、ステップS321及びステップS322によって置き換えられている。
すなわち、カウンタリストにおいて値が非負である要素に対応するテンプレート集合と、代表テンプレート集合とが一致しない場合(ステップS309でYes)、通常グループ更新部143は、カウンタリストにおいて値が非負である要素に対応するテンプレート集合を代表テンプレート集合とする新たなグループを生成し、当該新たなグループをグループDB52に登録する(ステップS321)。この場合、新たなグループの全テンプレート集合には、当該新たなグループの代表テンプレート集合が代入される。また、新たなグループのカウンタリストには、元のグループのカウンタリストから、新たなグループの全テンプレート集合に対応する要素が抽出されて代入される。すなわち、元のグループのカウンタリストにおいて、値が非負である要素が抽出されて、新たなグループのカウンタリストに代入される。また、新たなグループの初期状態フラグは0とされ、新たなグループのヒストリリストは空とされる。
一方、新たなグループのサポート数の値は、元のグループから正確に得ることはできないため、通常グループ更新部143は、以下の範囲の値を、当該サポート数として推測する。
max(0,S−Σi∈xCi)≦サポート数≦max(0,Y)、
I×εr≧|X|のとき、Y=max(Ci)
I×εr<|X|のとき、Y=Σi∈xCi/(I×εr)
ここで、Sはこれまでのもとのグループのサポート数、Iは代表アイテム数である。Xは対象トランザクション、|X|は、対象トランザクションに含まれるテンプレートIDの数、CiはテンプレートIDiに対応するカウンタリストの値である。
例えば、上限値(max(0,Y))又は下限値(max(0,S-Σi∈xCi))のいずれか一方が、サポート数に代入されてもよいし、平均値が、サポート数に代入されてもよい。
上記における下限値と上限値との推定の趣旨について説明する。
例えば、分配先グループの代表テンプレート集合T=(A,B,C,D)である場合において、カウンタリストが(1、1、1、−1)になった場合について説明する。この場合、T1=(A,B,C)という代表テンプレート集合を有する新たなグループを生成されるが、(A,B,C,D)のサポートとしてカウントされたトランザクションのうち、どれを(A,B,C)のサポートとしてカウントしてよいかが分からないという問題がある。
そこで、まず、下限値については、(A,B,C)のサポートとしてカウントされる個数が最も少なくなるのは、Aの欠損、Bの欠損、及びCの欠損が別々に発生している場合であるといえる。例えば、下記のような場合である。下記において、1〜7の各列が、同じグループに分配されたトランザクションを示す。「o」は、トランザクション中に当該テンプレートIDが存在することを示し、「x」は欠損を示す。例えば、トランザクション1〜3において、A、B、及びCの欠損は、別々に発生している。
1234567
A:xoooooo
B:oxooooo
C:ooxoooo
D:oooxoxx
ここで、Di=εr×サポート数−Ciの値は、全て過去の欠損数を表していると考えられるので、T1に含まれるDiの値を全て足しあわせた値、すなわち、max(0,S−Σi∈T1Di)となる。
なお、上記では、トランザクション4〜7は、固定と考え、トランザクション1〜3の部分を、(A,B,C)のカウンタリストの値=(1,1,1)の情報から、どう推定するかの問題について議論されている。
一方、上限値については、同時に欠損が発生している場合も考慮できるため、分岐が発生します。例えば、以下のようにトランザクションが分配された場合を考える。
1234567
A:xoooooo
B:xoooooo
C:oxoxooo
D:oooxoxx
又は、
1234567
A:xoooooo
B:xoooooo
C:xooxooo
D:oooxoxx
このとき、下限値のケースよりも(A,B,C)としてカウントできるトランザクション(2、又は2及び3)が増えている。このように全てのテンプレートIDの欠損が同時に発生している(例えば、A、B、Cの一回ずつの欠損が同時に発生した)と考える、最も大きな値を取ると考えられるのはmax(Di)をSから差し引いた場合であることが分かる(少なくともDiは欠損しているため。)。しかし、実際にはεrの条件から、欠損の同時発生には限界がある。この限界は、上記2つの例のうちの上の例において示されている。すなわち、εrの設定に、トランザクション1が割り当てられていない可能性があるためである。この場合は、新しく生成される代表テンプレート集合(A,B)が元の代表テンプレート集合(A,B,C,D)に対してεrの欠損を許容できない場合になるので、I×εr<|x|となる。このときは、同時発生可能な欠損数をI×εrで計算できるので、全欠損数Σi∈xDiをI×εrで除して、全ての欠損が同時にI×εr個ずつ発生しているものとして上限値が推定される。
続いて、通常グループ更新部143は、元のグループ(分配先グループ)のカウンタリストにおいて、値が負である要素に0を代入する(ステップS322)。
なお、ユーザは、上記のように分類されたグループの情報を参照することで、膨大なログ情報に関する分析を効率化することができる。例えば、どのようなグループが出現しているのかや、各グループの確度等を確認することができる。各グループの確度は、各グループのサポート数によって確認することができる。
UI制御部15は、任意のタイミングで情報提供を行うことができる。例えば、UI制御部15は、グループ内の代表テンプレート集合が更新されるたびに、それまでに抽出された各グループの情報を出力してもよいし、特定のグループのサポート数が更新された際に当該特定のグループに関する情報を出力してもよい。又は、UI制御部15は、ユーザによって出力が指示された際に、それまでに抽出されたグループに関する情報を出力してもよい。
なお、第一の実施の形態では、サポート数(過去にそのグループに属するとして判定されたトランザクション数)に対して事前に定められた割合εcの欠損が、許容される。すなわち、グループに対して欠損を有するトランザクションの数が、サポート数×εc回数以内であれば、当該トランザクションは当該グループに属するものとしてサポート数がインクリメントされる。より厳密には、以下を満たすテンプレートiの集合が代表テンプレート集合とされる。
Σt∈TD(i、t)≧|T|(1−εc)
但し、Tは、サポートとしてカウントされたトランザクションの集合、|T|は、サポート数、D(i,t)はトランザクションtでテンプレートiが発生していれば1となる関数である。
このように代表テンプレート集合が決定される方式を、便宜上「割合方式」という。
上述したように、第一の実施の形態によれば、新たなログ情報の到着のたびに全てのデータに関して処理を再実行する必要はない。したがって、同時に発生しやすいログ情報の集合の逐次的な抽出を効率的に実行可能とすることができる。
また、本実施の形態によれば、ログ情報に関する以下のような状況に対応することができる。
(1)ログ情報のグループは、必ずしも安定的ではなく、ログ情報の出力元の状況に応じて欠損が存在する。例えば、機器20の或る状態を表すテンプレート集合が、ABCである場合であっても、同じ状態に関してABやBC等、ABCに対して欠損を有するテンプレート集合が観測される場合があり、これらは、同じグループに分類されるべきである。
(2)ログ情報のグループは、必ずしも安定的ではなく、ログ情報の出力元の状況に応じてノイズが混在する。例えば、機器20の或る状態を表すテンプレート集合が、ABCである場合であっても、同じ状態に関してABCDやABCE等、ABCに対してノイズを有するテンプレート集合が観測される場合があり、これらは同じグループに分類されるべきである。
(3)或るテンプレートは、複数のグループに属する場合が有る。例えば、ABC、ADE、ABCDEといったトランザクションが観測された場合、これらは、ABCDEという1つのグループとして抽出されるべきではなく、相互に異なるグループとして抽出されるべきである場合が有る。
本実施の形態では、(1)については、εcの設定により、グループ内に欠損が許容されている。また(2)については、割合方式の採用により、グループ内で出現頻度の低いテンプレートが代表テンプレート集合に含まれることが回避されている。更に、(3)については、εrの許容範囲において、最大の一致率を持つグループのみにサポート数のインクリメント及び更新が実施されている。これにより、異なるグループに属する同じテンプレートの扱いを別のものとして考えることができる。
また、本実施の形態では、ログ情報の生成則(ログ情報の形式)が既知であることは前提とされない。また、本実施の形態では、ログ情報の発生に応じて、逐次的に処理が実行され、逐次的にグループが更新される。したがって、本実施の形態によれば、ユーザが、機器20の生成するログ情報の生成則を事前に知らない場合であっても、ログ情報の発生のノイズを考慮しつつ、同時に発生しやすいログ情報の集合(グループ)を逐次的に抽出することができる。
なお、第一の実施の形態では、サポート数の値が必ずしも厳密な代表テンプレート集合の発生回数を表していることにはならないが、グループの抽出という観点において、特段の支障は無いものと考える。
次に、第二の実施の形態について説明する。第二の実施の形態では第一の実施の形態と異なる点について説明する。第二の実施の形態において特に言及されない点については、第一の実施の形態と同様でもよい。
第二の実施の形態では、第一の実施の形態における割合方式に対し、カウント方式が採用される。カウント方式とは、事前に定められたUPDATE_THRESHOLD数以上発生したテンプレートが代表テンプレート集合に含められる方式である。すなわち、カウント方式では、発生回数がUPDATE_THRESHOLD未満であるテンプレートは、グループに偶然に分配されたものであると判断する方式である。
図9は、第二の実施の形態における初期状態のグループの更新処理の処理手順の一例を説明するためのフローチャートである。図9中、図6と同一ステップには同一ステップ番号を付し、その説明は省略する。図9では、図6のステップS210が、ステップS211に置き換えられている。
ステップS211において、初期グループ更新部142は、分配先グループのカウンタリストの各要素に、UPDATE_THRESHOLD−INIT_THRESHOLDを加算する。すなわち、第二の実施の形態では、グループが通常状態へ移行する際の、カウンタリストの扱い方が異なる。
図10は、第二の実施の形態における通常状態のグループの更新処理の処理手順の一例を説明するためのフローチャートである。図10の説明において処理対象とされる、グループを構成するパラメータは、分配先グループのパラメータである。
ステップS401において、通常グループ更新部143は、対象トランザクションと全テンプレート集合との論理和によって、全テンプレート集合を更新する。続いて、全テンプレート集合に対して新たなテンプレートIDが追加された場合(ステップS402でYes)、通常グループ更新部143は、当該新たなテンプレートIDに対応する要素を、カウンタリストに追加する(ステップS403)。この際、当該新たな要素の値は、UPDATE_THRESHOLDとされる。続いて、通常グループ更新部143は、カウンタリストにおいて、対象トランザクションに含まれているテンプレートIDに対応する要素の値をデクリメントする(ステップS404)。続いて、通常グループ更新部143は、サポート数をインクリメントする(ステップS405)。
続いて、通常グループ更新部143は、カウンタリストにおいて、新たに値が0以下となった要素の有無を判定する(ステップS406)。該当する要素が無い場合(ステップS406でNo)、図10の処理は終了する。該当する要素が有る場合(ステップS406でYes)、通常グループ更新部143は、代表テンプレート集合をヒストリリストに追加する(ステップS407)。続いて、通常グループ更新部143は、当該要素に対応するテンプレートIDを、代表テンプレート集合に追加する(ステップS408)。
続くステップS409〜S414は、図7のステップS312〜S317と同じ処理である。但し、図10において、通常グループ更新部143は、ステップS412又はステップS414に続いて、分配先グループのサポートを1に初期化する(ステップS415)。
上述したように、第二の実施の形態によっても、第一の実施の形態と同様の効果を得ることができる。
次に、第三の実施の形態について説明する。第三の実施の形態では第一又は第二の実施の形態と異なる点について説明する。第三の実施の形態において特に言及されない点については、第一又は第二の実施の形態と同様でもよい。
図11は、第三の実施の形態におけるログ情報分類装置の機能構成例を示す図である。図11中、図3と同一部分には同一符号を付し、その説明は省略する。図11において、ログ情報分類装置10は、更に、ログDB53を利用する。ログDB53は、例えば、補助記憶装置102、又はログ情報分類装置10にネットワークを介して接続可能な記憶装置等を用いて実現可能である。
ログDB53には、テンプレート付加部12によってテンプレートIDが付加されたログ情報が時系列に記憶される。トランザクション検出部13及びグループ抽出部14は、ログDB53に記憶されたログ情報に関して、任意のタイミングで、それぞれの機能に係る処理を実行する。
すなわち、第三の実施の形態では、トランザクション検出部13及びグループ抽出部14による処理が、ログ情報の発生に応じて逐次的に実行されるのではなく、バッチ的に実行される形態について説明する。したがって、第三の実施の形態において、トランザクション検出部13及びグループ抽出部14は、ログ情報分類装置10と各機器20とがオフラインの状態においても処理を実行可能である。
図12は、第三の実施の形態におけるログ情報分類装置が実行する処理手順の一例を説明するためのフローチャートである。図12中、図5と同一ステップには同一ステップ番号を付し、その説明は省略する。図12では、図5のステップS101〜ステップS105が、ステップS121によって置き換えられている。
ステップS121において、トランザクション検出部13は、ログDB53からトランザクションを取得する。例えば、ログDB53に記憶されているログ情報の集合が、固定時間のタイムウィンドウに基づいて分割されることで、1つのトランザクションの範囲が把握され、当該範囲に含まれる各ログ情報に付加されているテンプレートIDの集合が、トランザクションとして取得されてもよい。又は、時系列のログ情報において、前後のタイムスタンプの間隔が一定時間以上である箇所が、トランザクションの区切りとされ、区切りの間に含まれる各ログ情報に付加されているテンプレートIDの集合が、トランザクションとして取得されてもよい。トランザクションの取得順は、時系列順である。第三の実施の形態では、ステップS121において取得されたトランザクションが、対象トランザクションとされて、ステップS106〜ステップS111が実行される。
ステップS107、ステップS110、又はステップS111に続いて、トランザクション検出部13は、未処理のトランザクションが、ログDB53に記憶されているか否かを判定する。未処理のトランザクションが有る場合(ステップS122でYes)、未処理のトランザクションに関して、ステップS121以降が実行される。未処理のトランザクションが無い場合(ステップS122でNo)、図5の処理は終了する。
なお、処理対象とするログ情報を絞り込むためのパラメータ(例えば、開始時刻及び終了時刻や機器名等)がユーザによって指定されてもよい。この場合、指定されたパラメータに合致するログ情報のみが処理対象とされてもよい。この点については、第一及び第二の実施の形態(すなわち、逐次的に処理が実行される場合)についても同様である。
また、第三の実施の形態では、グループの抽出の終了時点が明確である。そこで、UI制御部15は、全てのグループの抽出後に、サポート数でグループをソートし、ソート結果を出力してもよい。出力される情報は、過去に起こったログ情報のダイジェストとして把握することができ、例えば、直近の一定期間におけるログ情報の発生状況を理解するのに役立つ。
次に、第四の実施の形態について説明する。第四の実施の形態では、上記各実施の形態と異なる点について説明する。第四の実施の形態において特に言及されない点については、上記各実施の形態と同様でもよい。
図13は、第四の実施の形態におけるログ情報分類装置の機能構成例を示す図である。図13中、図3と同一部分には同一符号を付し、その説明は、省略する。
図13において、ログ情報分類装置10は、更に、故障・工事情報DB54を利用する。故障・工事情報DB54には、機器20の故障に関する情報又は機器20の工事に関する情報等が記憶されている。例えば、故障・工事情報DB54には、故障や工事等のイベントの発生時刻や発生期間、及び当該イベントに係る機器20の機器名やイベント名等が、イベントごとに記載されている。
故障・工事情報DBとの連動により、故障又は工事の該当期間のログ情報に関してトランザクションを生成することで、工事や故障に関連するグループを抽出することができる。工事や故障等のイベントを予めログ情報にタグ付けしておいて、そのタグの範囲内グループの抽出が実行されてもよい。
なお、上記各実施の形態において、トランザクション検出部13は、分割部の一例である。トランザクション分配部141は、分配部の一例である。初期グループ更新部142は、第1の更新部の一例である。通常グループ更新部143は、第2の更新部及び第3の更新部の一例である。テンプレートIDは、ログ情報の種別の一例である。テンプレート集合は、種別集合の一例である。サポート数は、所属数の一例である。初期状態のグループは、第1のグループの一例である。通常状態のグループは、第2のグループの一例である。
以上、本発明の実施例について詳述したが、本発明は斯かる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
10 ログ情報分類装置
11 ログ収集部
12 テンプレート付加部
13 トランザクション検出部
14 グループ抽出部
15 UI制御部
20 機器
51 テンプレートDB
52 グループDB
53 ログDB
54 故障・工事情報DB
100 ドライブ装置
101 記録媒体
102 補助記憶装置
103 メモリ装置
104 CPU
105 インタフェース装置
141 トランザクション分配部
142 初期グループ更新部
143 通常グループ更新部
B バス

Claims (8)

  1. 機械の生成するログ情報から有用な情報を抽出するログ分類装置であって、
    機器によって生成されるログ情報の集合を、前記ログ情報の生成時期の順に、複数の部分集合に分割する分割部と、
    生成時期が相対的に前であるログ情報を含む前記部分集合から順に、当該部分集合に含まれるログ情報の種別の集合である種別集合との一致率が所定値以上である種別集合によって代表されるグループの有無を判定し、該当するグループが無ければ当該部分集合に係る種別集合によって代表されるグループを生成し、該当するグループが有れば当該グループに当該部分集合に係る種別集合を分配する分配部と、
    既に分配された種別集合のうちの第1の所定数以上の種別集合において重複している種別の数が第2の所定数に満たない第1のグループに、前記分配部によって種別集合が分配された場合に、当該第1のグループを代表する種別集合を、分配された種別集合との論理和によって更新し、当該第1のグループの所属数に1を加算する第1の更新部と、
    既に分配された種別集合のうちの前記第1の所定数以上の種別集合において重複している種別の数が前記第2の所定数以上である第2のグループに、前記分配部によって種別集合が分配された場合に、当該第2のグループを代表する種別集合を構成する全ての種別が、分配された部分集合に含まれる場合、又は当該第2のグループを代表する種別集合を構成する種別のうち、分配された種別集合に含まれない第1の種別について、当該分配された種別集合と、既に当該第2のグループの所属数の増加に寄与した種別集合との集合に含まれない確率が許容範囲内である場合には、当該第2のグループの所属数に1を加算する第2の更新部と、
    を有することを特徴とするログ情報分類装置。
  2. 前記第2の更新部は、前記第1の種別についての前記確率が前記許容範囲外である場合には、前記第2のグループを代表する種別集合から前記第1の種別を除去する、
    ことを特徴とする請求項1記載のログ情報分類装置。
  3. 前記請求項2の第2の更新部は、さらに、前記第2のグループを代表する種別集合を更新した場合に、過去において当該第2のグループを代表していた種別集合のうち、更新後の種別集合を構成する種別の数に対して所定の割合以上に相違する種別集合によって代表される新たなグループを生成する、
    ことを特徴とする請求項2記載のログ情報分類装置。
  4. 機械の生成するログ情報から有用な情報を抽出するログ分類装置であって、
    機器によって生成されるログ情報の集合を、前記ログ情報の生成時期の順に、複数の部分集合に分割する分割部と、
    生成時期が相対的に前であるログ情報を含む前記部分集合から順に、当該部分集合に含まれるログ情報の種別の集合である種別集合との一致率が所定値以上である種別集合によって代表されるグループの有無を判定し、該当するグループが無ければ当該部分集合に係る種別集合によって代表されるグループを生成し、該当するグループが有れば当該グループに当該部分集合に係る種別集合を分配する分配部と、
    既に分配された種別集合のうちの第1の所定数以上の種別集合において重複している種別の数が第2の所定数に満たない第1のグループに、前記分配部によって種別集合が分配された場合に、当該第1のグループを代表する種別集合を、分配された種別集合との論理和によって更新し、当該第1のグループの所属数に1を加算する第1の更新部と、
    既に分配された種別集合のうちの前記第1の所定数以上の種別集合において重複している種別の数が前記第2の所定数以上である第2のグループに、前記分配部によって種別集合が分配された場合に、当該種別集合と前記既に分配された種別集合とのうち、第3の所定数以上の部分集合に含まれる種別を、当該第2のグループを代表する種別集合に追加し、当該第2のグループの所属数に1を加算する第3の更新部と、
    を有することを特徴とするログ情報分類装置。
  5. 前記第3の更新部は、前記第2のグループを代表する種別集合を更新した場合に、過去において当該第2のグループを代表していた種別集合のうち、更新後の種別集合を構成する種別の数に対して所定の割合以上に相違する種別集合によって代表される新たなグループを生成する、
    ことを特徴とする請求項4記載のログ情報分類装置。
  6. コンピュータが、
    機器によって生成されるログ情報の集合を、前記ログ情報の生成時期の順に、複数の部分集合に分割する分割手順と、
    生成時期が相対的に前であるログ情報を含む前記部分集合から順に、当該部分集合に含まれるログ情報の種別の集合である種別集合との一致率が所定値以上である種別集合によって代表されるグループの有無を判定し、該当するグループが無ければ当該部分集合に係る種別集合によって代表されるグループを生成し、該当するグループが有れば当該グループに当該部分集合に係る種別集合を分配する分配手順と、
    既に分配された種別集合のうちの第1の所定数以上の種別集合において重複している種別の数が第2の所定数に満たない第1のグループに、前記分配手順によって種別集合が分配された場合に、当該第1のグループを代表する種別集合を、分配された種別集合との論理和によって更新し、当該第1のグループの所属数に1を加算する第1の更新手順と、
    既に分配された種別集合のうちの前記第1の所定数以上の種別集合において重複している種別の数が前記第2の所定数以上である第2のグループに、前記分配手順によって種別集合が分配された場合に、当該第2のグループを代表する種別集合を構成する全ての種別が、分配された部分集合に含まれる場合、又は当該第2のグループを代表する種別集合を構成する種別のうち、分配された種別集合に含まれない第1の種別について、当該分配された種別集合と、既に当該第2のグループの所属数の増加に寄与した種別集合との集合に含まれない確率が許容範囲内である場合には、当該第2のグループの所属数に1を加算する第2の更新手順と、
    を実行することを特徴とするログ情報分類方法。
  7. コンピュータが、
    機器によって生成されるログ情報の集合を、前記ログ情報の生成時期の順に、複数の部分集合に分割する分割手順と、
    生成時期が相対的に前であるログ情報を含む前記部分集合から順に、当該部分集合に含まれるログ情報の種別の集合である種別集合との一致率が所定値以上である種別集合によって代表されるグループの有無を判定し、該当するグループが無ければ当該部分集合に係る種別集合によって代表されるグループを生成し、該当するグループが有れば当該グループに当該部分集合に係る種別集合を分配する分配手順と、
    既に分配された種別集合のうちの第1の所定数以上の種別集合において重複している種別の数が第2の所定数に満たない第1のグループに、前記分配手順によって種別集合が分配された場合に、当該第1のグループを代表する種別集合を、分配された種別集合との論理和によって更新し、当該第1のグループの所属数に1を加算する第1の更新手順と、
    既に分配された種別集合のうちの前記第1の所定数以上の種別集合において重複している種別の数が前記第2の所定数以上である第2のグループに、前記分配手順によって種別集合が分配された場合に、当該種別集合と前記既に分配された種別集合とのうち、第3の所定数以上の部分集合に含まれる種別を、当該第2のグループを代表する種別集合に追加し、当該第2のグループの所属数に1を加算する第2の更新手順と、
    を実行することを特徴とするログ情報分類方法。
  8. 請求項1乃至5いずれか一項記載の各部としてコンピュータを機能させるためのプログラム。
JP2015021243A 2015-02-05 2015-02-05 ログ情報分類装置、ログ情報分類方法、及びプログラム Active JP5922811B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015021243A JP5922811B1 (ja) 2015-02-05 2015-02-05 ログ情報分類装置、ログ情報分類方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015021243A JP5922811B1 (ja) 2015-02-05 2015-02-05 ログ情報分類装置、ログ情報分類方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP5922811B1 true JP5922811B1 (ja) 2016-05-24
JP2016143388A JP2016143388A (ja) 2016-08-08

Family

ID=56015187

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015021243A Active JP5922811B1 (ja) 2015-02-05 2015-02-05 ログ情報分類装置、ログ情報分類方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP5922811B1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102364036B1 (ko) * 2018-03-16 2022-02-17 넷마블 주식회사 로그 데이터 처리 장치 및 방법
CN110399347B (zh) * 2018-04-23 2021-05-18 华为技术有限公司 告警日志压缩方法、装置及系统、存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011111599A1 (ja) * 2010-03-11 2011-09-15 日本電気株式会社 障害分析ルール抽出装置、障害分析ルール抽出方法、及び記憶媒体
JP2014035749A (ja) * 2012-08-10 2014-02-24 Nippon Telegr & Teleph Corp <Ntt> ログ生成則作成装置及び方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011111599A1 (ja) * 2010-03-11 2011-09-15 日本電気株式会社 障害分析ルール抽出装置、障害分析ルール抽出方法、及び記憶媒体
JP2014035749A (ja) * 2012-08-10 2014-02-24 Nippon Telegr & Teleph Corp <Ntt> ログ生成則作成装置及び方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN6016013832; 木村達明,外3名: '大規模ネットワーク監視情報における重要イベント抽出法' 電子情報通信学会技術研究報告 NS2011-179-NS2011-275 ネットワークシステム 第111巻,第468号, 20120301, pp.261-264, 社団法人電子情報通信学会 *

Also Published As

Publication number Publication date
JP2016143388A (ja) 2016-08-08

Similar Documents

Publication Publication Date Title
US10860406B2 (en) Information processing device and monitoring method
US10476749B2 (en) Graph-based fusing of heterogeneous alerts
CN111475804A (zh) 一种告警预测方法及系统
CN106992994B (zh) 一种云服务的自动化监控方法和系统
US20200084086A1 (en) Management of computing system alerts
US20220374442A1 (en) Extract, transform, load monitoring platform
JP2018045403A (ja) 異常検知システム及び異常検知方法
US10476752B2 (en) Blue print graphs for fusing of heterogeneous alerts
US20160055044A1 (en) Fault analysis method, fault analysis system, and storage medium
JP5933463B2 (ja) ログ生起異常検知装置及び方法
CN102291247A (zh) 告警关联图生成方法、装置及关联告警确定方法、装置
CN111538563A (zh) 一种对Kubernetes的事件分析方法及装置
CN106575254B (zh) 日志分析装置、日志分析系统、日志分析方法及存储介质
CN111343143B (zh) 数据识别方法、装置及存储介质
CN114020581A (zh) 基于拓扑优化FP-Growth算法的告警关联方法
CN113297042B (zh) 一种告警消息的处理方法、装置及设备
CN114327964A (zh) 业务系统的故障原因处理方法、装置、设备及存储介质
CN114443443A (zh) 一种故障自愈方法、装置、设备及存储介质
JP5922811B1 (ja) ログ情報分類装置、ログ情報分類方法、及びプログラム
EP3511830A1 (en) Method for monitoring devices in a network, computerized system and application program interface
JP2006260056A (ja) 統合運用管理サーバ、統合的な運用管理のためのメッセージの抽出方法、及び、プログラム
CN110569164B (zh) 一种设备监控方法、装置及设备
JP2007174235A (ja) 属性情報収集装置、属性情報収集方法および属性情報収集プログラム
CN110471373B (zh) 信息处理方法、程序和信息处理装置
JP5978767B2 (ja) ログ管理装置、ログ管理方法、及びログ管理プログラム

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160412

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160414

R150 Certificate of patent or registration of utility model

Ref document number: 5922811

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150