JP7154146B2

JP7154146B2 - ログ分析装置、ログ分析方法、及びログ分析プログラム

Info

Publication number: JP7154146B2
Application number: JP2019010359A
Authority: JP
Inventors: ヤナバックフース; 洋輔肥村; 峰義増田
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2019-01-24
Filing date: 2019-01-24
Publication date: 2022-10-17
Anticipated expiration: 2039-01-24
Also published as: US20200242100A1; JP2020119319A; US11243937B2

Description

本発明は、連続的に出力されるログデータにより構成されるログストリームデータにおけるイベントの内容を示すラベルを分析する技術に関する。

近年、ＩＴオペレーション管理の自動化においては、ＩＴシステムの信頼性、可用性、及びセキュリティを進歩させることに対する関心が増加している。ＩＴオペレーション管理におけるメインタスクには、ＩＴシステムの健全性の監視及び維持が含まれ、タスクは、現在は人間のオペレータ（監視オペレータ）により実施されている。

監視オペレータは、ＩＴシステムによって生成される、ＩＴシステムの現在の健全性の状態又は、例えば、メンテナンス中のシステム設定の変更といったオペレーションのイベントを示すためのログストリーム出力を監視し、解釈することを余儀なくされる。そして、ＩＴシステムの健全性が危機にさらされているときには、監視オペレータは、対策を取る必要がある。

近年、組織内において、ＩＴシステムの数が着実に増加しており、例えば、データセンタ等のＩＴシステムの大きなエンティティの使用がだんだん一般的になってきている。このことは、監視オペレータがすべてを分析する必要がある大量のＩＴシステムによって生成されるログストリーム出力の大量化を導く。ＩＴシステムによって生成される全てのログデータを解釈するためには、膨大な量の労力と経費とが必要となる。

ログストリーム出力の大部分は、更なる対策が取られないので、監視オペレータによる厳格な観測が必要とされない、システムの健全性の改善（維持）のために実施されるアクティビティに起因する。

厳密な観測は必要ないが、ログイベントの根本原因を正確かつタイムリーに観測している監視オペレータに知らせることの大切さが残っている。

このため、自動のログラベリング装置は、既知のメンテナンスのログイベントにおけるログストリーム出力を解釈するために必要な作業リソースに救済をもたらすであろう。

例えば、特許文献１には、特定の用語を含むログデータの類似性を識別する、ログストリームデータの類似性を解析するための教師なしの方法が提案されている。ここで、ログレコードは、或る自由に定義可能な制約に従って、ロググループに分割されたログストリームデータである。類似度は、同じ定義後を含むログレコード間で決定され、定義語のためのデータ構成に格納される。

また、特許文献２には、システムオペレータによる操作履歴から１つの操作意図で低レベルログ操作の集合を識別する分散制御システムのための教師なしログ解析手法が提案されている。低レベルログ操作のセットは、より抽象的な高レベル操作で編成され、同じ高レベル操作は、各高レベル操作内で低レベル操作順序付けルール確率を得るためにクラスタ化されている。

米国特許第９，７７９，００５号明細書米国特許出願公開第２０１７／０１３２１０４号明細書

ＩＴシステムは、それらの健全性の状態が最も重要であり、多くのユーザに影響を及ぼすため、監視オペレータによる継続的な監視の対象となる。ここで、監視オペレータは、ＩＴシステムの健全性を危うくしないために、ログストリーム出力の種類と原因を正確に識別しなければならない。

ほとんどのログストリーム出力は、ＩＴシステムの健全性を危険にさらすことのないログイベント、例えば、メンテナンス作業によって発生するが、ＩＴシステムの健全性を危険に晒すことはないが、エラーが同様に見えるログストリーム出力をすることがよくあり、このようなときでも、致命的なエラーが発生していないことを確認するために正確に識別する必要がある。

多くのログイベントは、すべてがログストリーム出力を生成する複数の作業手順を含み、１つのログイベントの時間枠は、その間にブレークを入れて、より長い期間に及ぶことがある。ログ出力が実際のイベントの進行中に連続的にストリーミングされている傍らで、監視オペレータはログイベントを識別することとなる。

それゆえ、ログ解析方法によって正しいログイベントラベルを識別するために、ログイベントの終了を待つことは実行可能ではない。

監視オペレータをサポートし、ＩＴシステムの健全性を保証するために、ログストリーム出力からログイベントをタイムリーかつ正確に識別することが必要である。

同じ定義語を含んでいるときに、ログストリーム出力の異なるレコードに対して、類似性情報が得られる。しかしながら、すべてのイベントラベルに関してログレコードのグループを扱うことは不可能である。さらに、定義された用語を含めるかどうかに関係なく、累積的アプローチでは徐々にログレコード間の類似性を計算することはできない。

特許文献２に開示された技術では、同じ作業意図でクラスタリングすることにより、低レベル操作の集合についての順序情報が扱われる。しかし、これは、オフラインアプローチでのみ行われ、ログストリーム出力には適用できない。さらに、特許文献２の技術では、抽出されたハイレベル操作と新たに観測されたログ出力との間の類似度を累積的にも、オフラインアプローチでも算出しない。

本発明は、上記事情に鑑みなされたものであり、その目的は、ログストリーム出力に含まれるログイベントの内容を示すラベルを適切に認識することのできる技術を提供することにある。

上記目的を達成するため、一観点に係るログ分析装置は、連続的に出力される複数のログデータであるログストリームデータに含まれるログイベントを示すラベルを認識するログ分析装置であって、複数のラベルに対する、ログデータに含まれる１以上のアクションを含む複数のアクションセットとの間の重要性を示す重要性情報と、第１時点における１以上のログデータを含む第１ログユニットについての各ラベルとの長期的な観点での類似度である長期類似度を算出するために使用される第１アクションセットを特定するアクションセット情報と、を記憶する記憶部と、重要性情報と、第１時点の第１ログユニットに含まれるアクションセットと、アクションセット情報により特定されるアクションセットとに基づいて、第１ログユニットについての前記各ラベルとの長期類似度を算出する類似性計算部と、長期類似度に基づいて、第１ログユニットに対応するラベルの候補を検出するラベル検出処理部と、長期類似度に基づいて、所定の時点の次の時点における第２ログユニットについての各ラベルとの長期類似度を算出するために使用するアクションセットである第２アクションセットを決定し、記憶部に前記第２アクションセットを特定するアクションセット情報を格納する蓄積決定部と、を備える。

本発明によれば、ログストリーム出力に含まれるログイベントの内容を示すラベルを適切に認識することができる。

図１は、一実施形態に係るログラベリング装置を含む計算機システムの全体構成図である。図２は、一実施形態に係るアクションＩＤデータベースの構成図である。図３は、一実施形態に係る準備済ログデータの構成図である。図４は、一実施形態に係るログデータプリプロセッサによるログデータ処理のフローチャートである。図５は、一実施形態に係るラベル発生データベースの構成図である。図６は、一実施形態に係る同一ラベル発生カウンタによる発生カウント処理のフローチャートである。図７は、一実施形態に係るラベル重要性データベースの構成図である。図８は、一実施形態に係るラベル重要性計算部による重要度算出処理のフローチャートである。図９は、一実施形態に係る類似性データベースの構成図である。図１０は、一実施形態に係る蓄積類似性計算部よるラベル識別処理のフローチャートである。図１１は、一実施形態に係る類似性計算部による類似度計算処理のフローチャートである。図１２は、一実施形態に係る蓄積決定部による蓄積決定処理のフローチャートである。図１３は、一実施形態に係るポストプロセッサによる後処理のフローチャートである。図１４は、一実施形態に係るＧＵＩの画面例を示す図である。図１５は、一実施形態に係るログラベリング装置のハードウェア構成図である。

実施形態について、図面を参照して説明する。なお、以下に説明する実施形態は特許請求の範囲に係る発明を限定するものではなく、また実施形態の中で説明されている諸要素及びその組み合わせの全てが発明の解決手段に必須であるとは限らない。

以下の説明では、「ＡＡＡテーブル」の表現にて情報を説明することがあるが、情報は、どのようなデータ構造で表現されていてもよい。すなわち、情報がデータ構造に依存しないことを示すために、「ＡＡＡテーブル」を「ＡＡＡ情報」と呼ぶことができる。

また、以下の説明において、アクションは、ＩＴシステムにおける出来事（イベント）の内容を示す語であり、例えば、ＩＴシステムにおけるイベントを述べるログデータのメッセージラインの一部の記述として用いられる。アクションは、例えば、ＩＴシステムの状態変更時に生成されるログデータにおける状態変更を示す語や、ＩＴシステムのオペレータによってオペレーションが指示された場合に生成されたログデータにおけるオペレータの指示したオペレーションを示す語である。

また、アクションセットは、或る条件（時間制約）に基づいて、所定の作業に関連するもの（統一したもの）と考えられる１以上のアクションの組を示す用語である。

また、ログイベントは、或る意図に対して統一されていると考えられるアクション（ＩＴシステムにおける或る作業、例えば、デバイスの設定変更、ネットワークの繋ぎ変え等で発生するアクション）を含む複数のログデータを発生させるイベントを意味する。

図１は、一実施形態に係るログラベリング装置を含む計算機システムの全体構成図である。

計算機システム１は、ログ分析装置の一例としてのログラベリング装置１０と、１以上のデバイス１１（１１－１～１１－Ｎ）と、コンソール１５と、ディスプレイ１２とを含む。デバイス１１は、ログデータを生成し、生成したログデータを連続的に送信するソースである。デバイス１１は、ハードウェアで構成されていてもよく、例えば、ＶＭ（ＶｉｒｔｕａｌＭａｃｈｉｎｅ）のようにハードウェア上を動作するソフトウェアにより構成されていてもよい。また、複数のデバイス１１を１つのソースとして扱うようにしてもよい。本実施形態は、便宜的に、デバイス１１を、１つのハードウェアデバイスである例を用いて説明する。

ディスプレイ１２は、ログラベリング装置１０による処理結果を示すＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）の画面を可視化する出力デバイスである。コンソール１５は、ログラベリング装置１０の管理者から、ログラベリング装置１０の設定を管理するための管理タスクの実行や、管理タスクに対する操作入力等を受け付ける入力デバイスである。

ログラベリング装置１０は、ログイベントラベル付きデータ１３（１３－１～１３－Ｎ）と、ログストリームデータ１４（１４－１～１４－Ｎ）との２種類のログデータを受信する。ログイベントラベル付きデータ１３（学習用ログデータ）は、ログデータに対してログイベントを示すラベル（ログイベントラベル、以下、単にラベルともいう）が付けられたログデータであり、ログラベリング装置１０のトレーニング（学習）に利用される。ログイベントラベル付きデータ１３は、例えば、或るデバイス１１において生成したログデータに対して、予め管理者等により指定されたログイベントラベルを付した後、送信される。ログストリームデータ１４は、対応するデバイス１１により順次生成されて、連続して送信される複数のログデータであり、ラベルは付されていない。このログストリームデータ１４がログラベリング装置１０において、ラベルを認識する対象となるデータである。

ログラベリング装置１０は、ログストリームデータ１４と、ログイベントラベル付きデータ１３との間の類似度を算出し、類似度に基づいて、ログストリームデータ１４に対するラベル候補を特定し、算出した類似度や、特定したラベル候補等を、ディスプレイ１２に表示させる。

ログラベリング装置１０は、ログデータ処理部の一例としてのログデータプリプロセッサ１０１（１０１－1，１０１－２）と、アクションＩＤデータベース（ＤＢ）１０２と、ラベル管理部１０３と、ラベル発生ＤＢ１０４と、ラベル重要性ＤＢ１０５と、蓄積類似性計算部１０６と、類似性ＤＢ１０７とを含む。

ログラベリング装置１０は、教師学習システムにおける、トレーニングフェーズと、テストフェーズとの２つのフェーズを有する。

トレーニングフェーズについて、受け取った１つのログイベントラベル付きデータ１３に注目して説明する。なお、このことは、ログラベリング装置１０が、複数のログイベントラベル付きデータ１３を同時に処理できないことを意味しているものではない。

ログデータプリプロセッサ１０１－１は、各ログイベントラベル付きデータ１３に対して、アクションＩＤＤＢ１０２からのアクションＩＤ情報を使用し、ログデータに対する前処理を行い、準備済ログデータ１０８－１を出力する。なお、ログデータプリプロセッサ１０１－１による処理等については、図２、図３、及び図４を用いて後述する。

ラベル管理部１０３は、準備済ログデータ１０８－１から、ラベルの発生に関する情報（ラベル発生情報）及び重要度に関する情報（重要度情報）を取得する処理を実行し、処理により取得したラベル発生情報をラベル発生ＤＢ１０４に格納し、重要度情報をラベル重要性ＤＢ１０５に格納する。

ラベル管理部１０３は、発生計数部の一例としての同一ラベル発生カウンタ１０３１と、重要性計算部の一例としてのラベル重要性計算部１０３２とを含む。

同一ラベル発生カウンタ１０３１は、準備済ログデータ１０８－１から発生情報を検索し、ラベル発生ＤＢ１０４のエントリ（ラベルエントリ）にそれらを加える。これらの更なる詳細については、図５及び図６を用いて後述する。

ラベル重要性計算機１０３２は、ラベル発生ＤＢ１０４の更新情報を使用することにより、ラベル重要性ＤＢ１０５のラベル重要性重みを更新する。これらの更なる詳細については、図７及び図８を用いて後述する。

テストフェーズについて、ログラベリング装置１０によって受信された１つのログストリームデータ１４に注目して説明する。なお、このことは、ログラベリング装置１０が、複数のログストリームデータ１４を同時に処理できないことを意味しているものではない。

ログラベリング装置１０のログデータプリプロセッサ１０１－２は、受け取った各ログストリームデータ１４について、アクションＩＤＤＢ１０２から取得された情報を用いてログデータを処理し、準備済ログデータ１０８－２を出力する。

蓄積類似性計算部１０６は、準備済ログデータ１０８－２に基づいて、蓄積の判定及び類似性情報の取得を行い、判定した蓄積判定結果及び取得した類似性情報を類似性ＤＢ１０７に格納する。

蓄積類似性計算部１０６は、類似性計算部１０６１、蓄積決定部１０６２、及びラベル検出処理部及び表示処理部の一例としてのポストプロセッサ１０６３を含む。これらの更なる詳細については、図９及び１０を用いて後述する。

類似性計算機１０６１は、ラベル重要性ＤＢ１０５からのラベル情報と、準備済ログデータ１０８－２と、類似性ＤＢ１０７から取得された過去のログデータに基づくアクションセットとを使用して、各ログイベントラベルと、観測されたログストリームデータとの間の類似度を計算する。これらの更なる詳細については、図１１を用いて後述する。

蓄積決定部１０６２は、類似性ＤＢ１０７に記憶されている現在及び過去のログデータについての類似性情報を使用することにより、類似性ＤＢ１０７における、準備済ログデータ１０８－２に関する情報の蓄積の継続又は蓄積のリセットを決定する。これらの更なる詳細については、図１２を用いて後述する。

ポストプロセッサ１０６３は、類似性ＤＢ１０７からの全てのラベルについての全体的な類似性情報を扱い、準備済ログデータ１０８－２に最も可能性の高いラベルを認識する。これらの更なる詳細については、図１２を用いて後述する。

次に、アクションＩＤデータベース１０２について説明する。

図２は、一実施形態に係るアクションＩＤデータベースの構成図である。

アクションＩＤＤＢ１０２は、アクションＩＤテーブル５０１とアクションセットＩＤテーブル５０２とを含む。

アクションＩＤテーブル５０１は、各アクションに対応するエントリを格納する。アクションＩＤテーブル５０１のエントリは、アクションＩＤＤ５０１０１と、アクションＤ５０１０２とのフィールドを含む。

アクションＩＤＤ５０１０１には、アクションを一意に識別可能な識別情報（アクションＩＤ）が格納される。

アクションＤ５０１０２には、エントリのアクションＩＤＤ５０１０１のアクションＩＤに対応するアクションを示す用語が格納される。アクションを示す用語としては、１以上の用語と、用語間のスペースとを含んでもよい。用語は、ログデータで用いる数字、英数字、文字、又は文字列の少なくともいずれか１つを含んでもよい。

アクションセットＩＤテーブル５０２は、複数のアクションを含むアクションセットに対応するエントリ（アクションセット情報）を格納する。なお、図２の例では、複数のアクションを含む集合をアクションセットとして登録するようにしているが、１つのアクションについてもアクションセットとして登録するようにしてもよい。すなわち、１以上のアクションの集合をアクションセットとしてもよい。アクションセットＩＤテーブル５０２のエントリは、アクションセットＩＤＤ５０２０１と、アクションのセットＤ５０２０２とのフィールドを含む。

アクションセットＩＤ５０２０１には、アクションセットを一意に識別可能な識別情報（アクションセットＩＤ）が格納される。

アクションセットＤ５０２０２には、エントリに対応するアクションＩＤによって識別される、アクションセットに含まれるアクションのアクションＩＤが格納される。アクションセットは、アクションの順番が規定されているものであっても、順番が規定されていないものであってもよい。また、アクションセットに含まれるアクションＩＤとして、繰り返し実行される同一のアクションについて１つのアクションＩＤとして含むようにしてもよく、繰り返し実行される回数分のアクションＩＤを含むようにしてもよい。

図３は、一実施形態に係る準備済ログデータの構成図である。

準備済ログデータ１０８は、ログイベントラベル付きデータ１３又はログストリームデータ１４である生ログデータを入力として、ログデータプリプロセッサ１０１によって処理された後のデータである。図３における準備済ログデータ１０８－１は、ログイベントラベル付きデータ１３を入力として得られたデータを示し、準備済ログデータ１０８－２は、ログストリームデータ１４を入力として得られたデータを示している。

準備済ログデータ１０８のエントリは、例えば、１つのアクションセットにまとめられた１以上のログデータに対応し、デバイスＩＤＤ１０８０１、アクションセットＩＤＤ１０８０２、アクションＤ１０８０２、開始時刻Ｄ１０８０４、終了時刻Ｄ１０８０５、ラベルＩＤＤ１０８０６、及びログイベント実体ＩＤＤ１０８０７のフィールドを含む。

デバイスＩＤＤ１０８０１には、ログデータを出力したデバイス１１を識別可能な識別情報（デバイスＩＤ）が格納される。アクションセットＩＤＤ１０８０２には、エントリに対応するアクションセットＩＤが格納される。アクションＤ１０８０２には、エントリのアクションセットＩＤに対応するアクションセットに含まれるアクションのアクションＩＤが格納される。開始時刻Ｄ１０８０４には、エントリに対応するアクションセットと考えられるアクションのログの観測が開始された時刻（開始時刻）が格納される。終了時刻Ｄ１０８０５には、エントリに対応するアクションセットと考えられるアクションのログの観測が終了した時刻（終了時刻）が格納される。ラベルＩＤＤ１０８０６には、エントリに対応するラベルのラベルＩＤが格納される。ログイベント実体ＩＤＤ１０８０７には、エントリに対応するログイベントの実体を識別可能な識別情報（ログイベント実体ＩＤ）が格納される。このログイベント実体ＩＤによると、同じデバイスの同じラベルＩＤの異なるログイベントを区別することができる。

準備済ログデータ１０８－１は、トレーニングフェーズの間にログイベントラベル付きデータ１３から生成された例であり、すべてのフィールドに対して、ログイベントラベル付きデータ１３から得られた情報が格納される。

準備済ログデータ１０８－２は、テストフェーズの間にログストリームデータ１４から生成された例であり、ラベルＩＤＤ１０８０６と、ログイベント実体ＩＤＤ１０８０７には、情報が使用できないことを示すＮａＮ（非数）が格納されている。エントリのラベルＩＤＤ１０８０６とログイベント実体ＩＤＤ１０８０７とのフィールドを除く他のフィールドには、ログストリームデータ１４のログデータから得られた情報が格納される。

次に、ログデータ処理について説明する。

図４は、一実施形態に係るログデータプリプロセッサによるログデータ処理のフローチャートである。

ログデータプリプロセッサ１０１は、処理対象となる１以上のログデータ（ログイベントラベル付きデータ１３又はログストリームデータ１４）を受信する（Ｓ１０１０１）。

次いで、ログデータプリプロセッサ１０１は、受信したログデータの各行（ログライン）を処理対象として、ループ１の処理（ステップＳ１０１０２～Ｓ１０１０６）を実行する。

ループ１において、ログデータプリプロセッサ１０１は、予め決められたルールを用いて、処理対象のログラインからアクションを検索する（Ｓ１０１０２）。ここで、ログは、いくつかのフォーマット種類に分類されており、ルールとは、ログからそのログのフォーマット種類に応じてアクションを記述した部分を特定するルールである。例えば、アクションは、ログの前から３番目のテキスト部分である等のルールである。ルールとしては、正規表現（ｒｅｇｕｌａｒｅｘｐｒｅｓｓｉｏｎｓ：ｒｅｇｅｘ）のルールであってもよく、他のルールであってもよい。

次いで、ログデータプリプロセッサ１０１は、検索したアクションが既にアクションＩＤＤＢ１０２に登録されているか否かを判定する（Ｓ１０１０３）。この結果、検索したアクションが登録されていない場合（Ｓ１０１０３：Ｎｏ）には、ログデータプリプロセッサ１０１は、アクションＩＤＤＢ１０２のアクションＩＤテーブル５０１に、検索したアクションに対応する新たなエントリを追加し、追加したエントリに、検索したアクションに対応するアクションＩＤ及びアクションの用語を追加し、処理をステップＳ１０１０６に進める（Ｓ１０１０４）。

一方、検索したアクションが登録されている場合（Ｓ１０１０３：Ｙｅｓ）には、ログデータプリプロセッサ１０１は、アクションＩＤＤＢ１０２のアクションＩＤテーブル５０１から検索したアクションに対応するアクションＩＤを取得し（Ｓ１０１０５）、処理をステップＳ１０１０６に進める。

ステップＳ１０１０６では、ログデータプリプロセッサ１０１は、検索したアクションを、ステップＳ１０１０４で新たに追加されたアクションＩＤ、又は、ステップＳ１０１０５で取得したアクションＩＤに置き換えて記憶する（Ｓ１０１０６）。

ログデータプリプロセッサ１０１は、ループ１の処理を、処理対象のログデータのログラインの全てを対象に実行した後に、処理をステップＳ１０１０７に進める。

ステップＳ１０１０７では、ログデータプリプロセッサ１０１は、ログラインの時刻情報（各ログを生成した時刻の情報）と、時間制約ルールとを用いて、１以上のログデータに含まれるアクションを、１以上のアクションを含むアクションセットに分ける。ここで、時間制約ルールとは、ログストリームデータ１４から１つのアクションセットにまとめる対象のログデータのまとまり（ログユニット）を作るための制約であり、例えば、所定時間以内に発生したログデータ同士を同一のログユニットとするとか、所定の時間ごとにその時間内のログデータを同一のログユニットとするとか等のルールである。なお、このログユニットは、必ずしもログイベントではない。

各アクションセットは、アクションＩＤＤＢ１０２のアクションセットＩＤテーブル５０２から取得されたアクションセットＩＤによって識別される。アクションセットＩＤがアクションセットＩＤテーブル５０２に格納されていない場合には、ログデータプリプロセッサ１０１は、新しいアクションセットＩＤのエントリをアクションセットＩＤテーブル５０２に生成する。

ログデータプリプロセッサ１０１は、ステップＳ１０１０７で取得された全てのアクションセットを、１以上のアクションを含む１以上のアクションセットを含む１つの準備済ログデータ１０８にマージする（Ｓ１０１０８）。

次に、ラベル発生データベース１０４について説明する。

図５は、一実施形態に係るラベル発生データベースの構成図である。

ラベル発生ＤＢ１０４は、各ログイベントラベル（ラベルともいう）に対応するログにおけるアクションとアクションセットとの発生に関する情報（発生情報）を格納する。

ラベル発生ＤＢ１０４は、メインテーブル２０１と、サブテーブル２０２との２つの種類のテーブルを含む。サブテーブル２０２は、発生カウントテーブル（アクション）２０２－ａと、発生カウントテーブル（アクションセット）２０２－ｂとの２種のテーブルを含む。

メインテーブル２０１は、各ラベルに対応するエントリを格納する。メインテーブル２０１のエントリは、ラベルＩＤＤ２０１０１、発生カウントテーブル（アクション）Ｄ２０１０２、発生カウントテーブル（アクションセット）Ｄ２０１０３、及び合計ラベルドキュメントカウントＤ２０１０４とのフィールドを含む。

ラベルＩＤＤ２０１０１には、エントリに対応するログイベントラベルを識別可能な識別情報（ラベルＩＤ）が格納される。発生カウントテーブル（アクション）Ｄ２０１０２には、エントリに対応するラベルの各アクションにおける発生カウントを管理する発生カウントテーブル（アクション）２０２－ａへのポインタが格納される。発生カウントテーブル（アクションセット）Ｄ２０１０３には、エントリに対応するラベルの各アクションセットにおける発生カウントを管理する発生カウントテーブル（アクションセット）２０２－ｂへのポインタが格納される。合計ラベルドキュメントカウントＤ２０１０４には、各ラベルに対応するログイベントラベル付きデータ１３の合計数が格納される。

発生カウントテーブル（アクション）２０２－ａは、複数のテーブル（２０２－１ａ～２０２－Ｎａ，２０２－Ｏａ等）を含む。各テーブル（２０２－１ａ～２０２－Ｎａ，２０２－Ｏａ等）は、或る特定のラベルが付加されているログイベントラベル付きデータ１３（特定ラベル付きデータ）における各アクションＩＤのアクションの発生回数を管理するエントリを格納する。テーブルのエントリは、アクションＩＤＤ２０２０１と、合計発生カウントＤ２０２０２と、発生ドキュメントカウントＤ２０２０３とのフィールドを含む。

アクションＩＤＤ２０２０１には、エントリに対応するアクションのアクションＩＤが格納される。合計発生カウントＤ２０２０２には、特定ラベル付きデータにおける、エントリに対応するアクションＩＤのアクションの発生回数の合計が格納される。ここで、この発生回数は、１つのログイベントラベル付きデータ１３においてアクションが複数回発生した場合には、その複数の発生回数を含んだものとなっている。発生ドキュメントカウントＤ２０２０３には、エントリに対応するアクションＩＤのアクションが発生したログイベントラベル付きデータ１３の数が格納される。

発生カウントテーブル（アクションセット）２０２－ｂは、複数のテーブル（２０２－１ｂ～２０２－Ｎｂ，２０２－Ｏｂ等）を含む。各テーブル（２０２－１ｂ～２０２－Ｎｂ，２０２－Ｏｂ等）は、或る特定のラベルが付加されているログイベントラベル付きデータ１３（特定ラベル付きデータ）における各アクションセットＩＤのアクションセットの発生回数を管理するエントリを格納する。テーブルのエントリは、アクションセットＩＤＤ２０２０４と、アクションセット（非順序）Ｄ２０２０５と、合計発生カウントＤ２０２０６と、発生ドキュメントカウントＤ２０２０７とのフィールドを含む。

アクションセットＩＤＤ２０２０４には、エントリに対応するアクションセットのアクションセットＩＤが格納される。アクションセット（非順序）Ｄ２０２０５には、エントリに対応するアクションセットＩＤのアクションセットに含まれるアクションのアクションＩＤが非順序で含まれる。なお、アクションセットにおけるアクションを順序付けして管理する場合には、フィールドにアクションセットに含まれるアクションの順序に従うアクションＩＤを含ませるようにすればよい。

合計発生カウントＤ２０２０６には、特定ラベル付きデータにおける、エントリに対応するアクションセットＩＤのアクションセットの発生回数の合計が格納される。ここで、この発生回数には、１つのログイベントラベル付きデータ１３においてアクションセットが複数回発生した場合には、その複数の発生回数を含んだものとなっている。発生ドキュメントカウントＤ２０２０３には、エントリに対応するアクションセットＩＤのアクションセットに含まれる全てのアクションが発生したログイベントラベル付きデータ１３の数が格納される。

次に、同一ラベル発生カウンタ１０３１による発生カウント処理について説明する。

図６は、一実施形態に係る同一ラベル発生カウンタによる発生カウント処理のフローチャートである。

同一ラベル発生カウンタ１０３１は、準備済ログデータ１０８－１をログイベントラベルとともに受信する（Ｓ１０３１０１）。

次いで、同一ラベル発生カウンタ１０３１は、アクションセットごとの発生カウントをカウントするループ１の処理（Ｓ１０３１０２）と、アクションごとの発生カウントをカウントするループ２の処理（Ｓ１０３１０３）とを実行する。同一ラベル発生カウンタ１０３１は、ループ１の処理とループ２の処理とを並行して実行してもよいし、順番に実行するようにしてもよい。なお、必要な情報に応じて、ループ１の処理と、ループ２の処理とのいずれか一方のみを実行するようにしてもよい。

本実施形態においては、ループ１の処理（Ｓ１０３１０２）と、ループ２の処理（Ｓ１０３１０３）とが並行して実行されるものとして説明する。

ループ１の処理において、同一ラベル発生カウンタ１０３１は、取得した準備済ログデータ１０８－１における処理対象のアクションセットについての発生カウントをカウントする（Ｓ１０３１０２）。このステップにおいては、発生カウントテーブル（アクションセット）２０２－ｂのいずれかのテーブルにおける合計発生カウントＤ２０２０６と、発生ドキュメントカウントＤ２０２０７とのフィールドに格納するカウントがカウントされる。

ループ２の処理において、同一ラベル発生カウンタ１０３１は、取得した準備済ログデータ１０８－１における処理対象のアクションについての発生カウントをカウントする（Ｓ１０３１０３）。このステップにおいては、発生カウントテーブル（アクション）２０２－ａのいずれかのテーブルにおける合計発生カウントＤ２０２０２と、発生ドキュメントカウントＤ２０２０３とのフィールドに格納するカウントがカウントされる。

ループ１を全てのアクションセットを対象にして実行するとともに、ループ２を全てのアクションを対象にして実行した後に、同一ラベル発生カウンタ１０３１は、ラベル発生ＤＢ１０４のメインテーブル２０１に、取得した準備済ログデータ１０８－１とともに受信したラベルに対応するエントリが存在するか否かを判定し（Ｓ１０３１０４）、受信したラベルに対応するエントリが存在する場合（Ｓ１０３１０４：Ｙｅｓ）には、処理をステップＳ１０３１０６に進める一方、受信したラベルに対応するエントリが存在しない場合（Ｓ１０３１０４：Ｎｏ）には、受信したラベルに対応するエントリをメインテーブル２０１に生成するとともに、エントリから参照可能なサブテーブル２０２の発生カウントテーブル（アクション）２０２－ａの１つのテーブル（２０２－１ａに相当するテーブル）を生成するとともに、発生カウントテーブル（アクションセット）２０２－ｂの１つのテーブル（２０２－１ｂに相当するテーブル）を生成し、処理をステップＳ１０３１０６に進める（Ｓ１０３１０５）。なお、生成された発生カウントテーブル（アクション）２０２－ａの１つのテーブル（２０２－１ａに相当するテーブル）と、発生カウントテーブル（アクションセット）２０２－ｂの１つのテーブル（２０２－１ｂに相当するテーブル）とにおけるカウントに関するフィールドの値は初期値（０）に設定される。

ステップＳ１０３１０６では、同一ラベル発生カウンタ１０３１は、メインテーブル２０１のステップＳ１０３１０１で取得したラベルに対応するエントリの合計ドキュメントカウントＤ２０１０４の値に、取得した準備済ログデータ１０８－１の数を加算し、更に、発生カウントテーブル（アクション）２０２－ａのテーブルの合計発生カウントＤ２０２０２と、発生ドキュメントカウントＤ２０２０３と、発生カウントテーブル（アクションセット２０２－ｂのテーブルの合計発生カウントＤ２０２０６と、発生ドキュメントカウントＤ２０２０７とのフィールドに格納されている値に対して、新しくカウントされたそれぞれのカウントを加算する。これにより、ラベル発生ＤＢ１０４には、新たに取得した準備済ログデータ１０８－１におけるアクションセットやアクションの発生カウントが適切に反映されることとなる。

次に、ラベル重要性データベース１０５について説明する。

図７は、一実施形態に係るラベル重要性データベースの構成図である。

ラベル重要性ＤＢ１０５は、各既知のログイベントラベルについての各アクションと各アクションセットの重要性についての情報（重要性情報）を格納する。ラベル重要性ＤＢ１０５は、アクションセットテーブル３０１と、アクションテーブル３０２との２つのテーブルを含む。

アクションセットテーブル３０１は、各ログイベントラベルについての各アクションセットの重要度をそれぞれ格納する。図７の例では、アクションセットテーブル３０１は、各アクションセットに対応するエントリを格納する。アクションセットテーブル３０１のエントリは、アクションセットＩＤＤ３０１０１と、アクションセット（非順序）Ｄ３０１０２と、ラベル１重要度Ｄ３０１０３と、ラベル２重要度Ｄ３０１０４と、・・・、ラベルＮ重要度Ｄ３０１０Ｎとのフィールドを含む。アクションセットテーブル３０１の正確なフィールド数は、観測されたログイベントラベルの合計数によって変わる。

アクションセットＩＤＤ３０１０１には、エントリに対応するアクションセットのアクションセットＩＤが格納される。アクションセット（非順序）Ｄ３０１０２には、エントリに対応するアクションセットが格納される。ラベル１重要度Ｄ３０１０３には、エントリに対応するアクションセットについてのラベル１に対する重要度が格納される。この重要度が高ければ、エントリに対応するアクションセットが含まれていれば、イベントがラベル１である可能性が高いことを示している。以下に示す、他のフィールドにおける重要度も同様である。ラベル２重要度Ｄ３０１０４には、エントリに対応するアクションセットについてのラベル２に対する重要度が格納される。ラベルＮ重要度Ｄ３０１０Ｎには、エントリに対応するアクションセットについてのラベルＮに対する重要度が格納される。

アクションテーブル３０２は、各ログイベントラベルについての各アクションの重要度をそれぞれ格納する。図７の例では、アクションテーブル３０２は、各アクションに対応するエントリを格納する。アクションテーブル３０２のエントリは、アクションＩＤＤ３０２０１と、ラベル１重要度Ｄ３０２０２と、ラベル２重要度Ｄ３０２０３と、・・・、ラベルＮ重要度Ｄ３０２０Ｎとのフィールドを含む。アクションテーブル３０２の正確なフィールド数は、観測されたログイベントラベルの合計数によって変わる。

アクションＩＤＤ３０２０１には、エントリに対応するアクションのアクションＩＤが格納される。ラベル１重要度Ｄ３０２０２には、エントリに対応するアクションについてのラベル１に対する重要度が格納される。ラベル２重要度Ｄ３０２０３には、エントリに対応するアクションについてのラベル２に対する重要度が格納される。ラベルＮ重要度Ｄ３０２０Ｎには、エントリに対応するアクションについてのラベルＮに対する重要度が格納される。

次に、ラベル重要性計算部１０３２による重要度算出処理について説明する。

ラベル重要性計算部１０３２は、ラベル発生ＤＢ１０４から取得される発生情報を使用して、各ログイベントラベルについてのアクション及びアクションセットのそれぞれの重要度を算出する。ラベル発生ＤＢ１０４に変更が発生した時には、重要度の情報もまた更新される必要がある。そこで、ラベル重要性計算部１０３２は、ラベルについての重要度を更新するために、重要度算出処理を実行する。

図８は、一実施形態に係るラベル重要性計算部による重要度算出処理のフローチャートである。

ラベル重要性計算部１０３２は、同一ラベル発生カウンタ１０３１で使用されているラベルの情報と、準備済ログデータ１０８－１とを受信し、ラベルの情報を用いて、ラベル発生ＤＢ１０４からラベルについての発生カウントの情報を検索する（Ｓ１０３２０１）。

次いで、ラベル重要性計算部１０３２は、アクションセットごとの重要度を計算するループ１の処理（Ｓ１０３２０２～Ｓ１０３２０５）と、アクションごとの重要度を計算するループ２の処理（Ｓ１０３２０６～Ｓ１０３２０９）とを実行する。ラベル重要性計算部１０３２は、ループ１の処理とループ２の処理とを並行して実行してもよいし、順番に実行するようにしてもよい。なお、必要な情報に応じて、ループ１の処理と、ループ２の処理とのいずれか一方のみを実行するようにしてもよい。

本実施形態においては、ループ１の処理と、ループ２の処理とが並行して実行されるものとして説明する。

ループ１において、ラベル重要性計算部１０３２は、ステップＳ１０３２０１で受信したラベル（特定ラベル）に対応するラベル発生ＤＢ１０４のサブテーブル２０２－ｂのテーブル（２０２－１ｂに相当するテーブル）における処理対象のアクションセットに対応するエントリの発生ドキュメントカウントＤ２０２０７から発生ドキュメントカウントを取得し、発生ドキュメントカウントを、そのエントリの合計発生カウントＤ２０２０６から取得された合計発生カウントで除算することにより、変数ｖａｌ１を取得する（Ｓ１０３２０２）。

次いで、ラベル重要性計算部１０３２は、ステップＳ１０３２０２で取得している発生ドキュメントカウントを、メインテーブル２０１の特定ラベルに対応するエントリの合計ラベルドキュメントカウントＤ２０１０４から取得した合計ラベルドキュメントカウントで除算することにより、変数ｖａｌ２を取得する（Ｓ１０３２０３）。

次いで、ラベル重要性計算部１０３２は、メインテーブル２０１の各ラベルのエントリの合計ラベルドキュメントカウントＤ２０１０４から合計ラベルドキュメントカウントを取得し、各合計ドキュメントラベルカウントについて、１以上であれば、１に変換し、０であれば０とする２値変換を実行し、すべてのラベルについて得られた２値変換実行後の値の合計を取り、合計値の逆数を取ることにより、Ｖａｌ３を取得する（Ｓ１０３２０４）。

次いで、ラベル重要性計算部１０３２は、Ｖａｌ１と、Ｖａｌ２と、Ｖａｌ３とを掛け合わせた結果を、特定ラベルにおけるアクションセットについての重要度として取得する（Ｓ１０３２０５）。

ループ２において、ラベル重要性計算部１０３２は、ステップＳ１０３２０１で受信したラベル（特定ラベル）に対応するラベル発生ＤＢ１０４のサブテーブル２０２－ａのテーブルにおける処理対象のアクションに対応するエントリの発生ドキュメントカウントＤ２０２０３から発生ドキュメントカウントを取得し、発生ドキュメントカウントを、そのエントリの合計発生カウントＤ２０２０２から取得された合計発生カウントで除算することにより、変数ｖａｌ１を取得する（Ｓ１０３２０６）。

次いで、ラベル重要性計算部１０３２は、ステップＳ１０３２０６で取得している発生ドキュメントカウントを、メインテーブル２０１の特定ラベルに対応するエントリの合計ラベルドキュメントカウントＤ２０１０４から取得した合計ラベルドキュメントカウントで除算することにより、変数ｖａｌ２を取得する（Ｓ１０３２０７）。

次いで、ラベル重要性計算部１０３２は、メインテーブル２０１の各ラベルのエントリの合計ラベルドキュメントカウントＤ２０１０４から合計ラベルドキュメントカウントを取得し、各合計ドキュメントラベルカウントについて、１以上であれば、１に変換し、０であれば０とする２値変換を実行し、すべてのラベルについて得られた２値変換実行後の値の合計を取り、合計後の値の逆数を取ることにより、Ｖａｌ３を取得する（Ｓ１０３２０８）。

次いで、ラベル重要性計算部１０３２は、Ｖａｌ１と、Ｖａｌ２と、Ｖａｌ３とを掛け合わせた結果を、特定ラベルにおけるアクションについての重要度として取得する（Ｓ１０３２０９）。

ループ１を全てのアクションセットを対象にして実行するとともに、ループ２を全てのアクションを対象にして実行した後に、ラベル重要性計算部１０３２は、新たに取得した重要度をラベル重要性ＤＢ１０５に格納する（Ｓ１０３２１０）。

具体的には、ラベル重要性ＤＢ１０５のアクションセットテーブル３０１とアクションテーブル３０２とにおいて、対象のラベルに対応する重要度のフィールド（Ｄ３０１０３，・・・，Ｄ３０１０Ｎ、Ｄ３０２０２，・・・，Ｄ３０２０Ｎ）が存在する場合には、ラベル重要性計算部１０３２は、そのフィールドの重要度を、新たに取得（計算）された値に更新する。一方、ラベル重要性ＤＢ１０５のアクションセットテーブル３０１とアクションテーブル３０２とにおいて、対象のラベルに対応する重要度のフィールドが存在しない場合には、ラベル重要性計算部１０３２は、アクションセットテーブル３０１とアクションテーブル３０２とに、対象のラベルに対応する重要度のカラムを追加し、そのカラムのフィールドに新たに取得された重要度を格納する。

この処理により、ラベル重要性ＤＢ１０５に格納された重要度は、ログストリームデータ１４と特定のラベルとの間の類似度を計算するためのテストフェーズにおいて使用される。テストフェーズにおいて必要な、データ構造や、ログデータ処理等について、以下に説明する。

図９は、一実施形態に係る類似性データベースの構成図である。

類似性ＤＢ１０７は、デバイス１１から観測されるログストリームデータ１４とログラベリング装置１０で学習されている全てのログイベントラベルとの間の類似度についての情報を格納する。

類似性ＤＢ１０７は、メインテーブル４０１と、サブテーブル４０２（４０２－１ａ～４０２－Ｎｎ）とを含む。

メインテーブル４０１は、最新のタイムステップ（ｔ）と、過去のｎ回（ｎは任意の整数）のタイムステップにおける各デバイスについての各ラベルに対する類似度を管理するサブテーブル４０２へのポインタを格納する。

メインテーブル４０１は、各デバイスに対応するエントリを格納する。メインテーブル４０１のエントリは、デバイスＩＤＤ４０１０１と、サブテーブル（タイムステップｔ）Ｄ４０１０２と、タブテーブル（タイムステップｔ－１）Ｄ４０１０３と、・・・、サブテーブル（タイムステップｔ－ｎ）Ｄ４０１０Ｎとのフィールドを含む。

デバイスＩＤＤ４０１０１には、ログストリームデータ１４の観測対象のデバイス１１の識別情報（デバイスＩＤ）が格納される。サブテーブル（タイムステップｔ）Ｄ４０１０２には、エントリに対応するデバイス１１についてのタイムステップｔにおける類似度を管理するサブテーブル４０２へのポインタが格納される。サブテーブル（タイムステップｔ－１）Ｄ４０１０３には、エントリに対応するデバイス１１についてのタイムステップｔ－１（タイムステップｔの直前のタイムステップ）における類似度を管理するサブテーブル４０２へのポインタが格納される。同様に、サブテーブル（タイムステップｔ－ｎ）Ｄ４０１０Ｎには、エントリに対応するデバイス１１についてのタイムステップｔ－ｎにおける類似度を管理するサブテーブル４０２へのポインタが格納される。

サブテーブル４０２（４０２－１ａ～４０２－Ｎｎ）は、デバイス毎の各タイムステップにおける、各ラベルと、関連度と、ラベルと均等であると考えられる、過去（例えば、直前のタイムステップ）から引き継がれたアクションセット（蓄積アクションセット）等を記憶する複数のテーブルである。各テーブルは、或るデバイスの或るタイムステップにおける類似度等の情報を管理している。

本実施形態では、デバイスＩＤが１であるデバイス１１のタイムステップｔの類似度の情報を管理するテーブルを、サブテーブル４０２－１ａとし、デバイスＩＤが１であるデバイス１１のタイムステップｔ―ｎの類似度の情報を管理するテーブルを、サブテーブル４０２－１ｎとし、デバイスＩＤがＮであるデバイス１１のタイムステップｔの類似度の情報を管理するテーブルを、サブテーブル４０２－Ｎａとし、デバイスＩＤがＮであるデバイス１１のタイムステップｔ―ｎの類似度の情報を管理するテーブルを、サブテーブル４０２－Ｎｎとしている。

サブテーブル４０２の１つのテーブルは、各ラベルに対応するエントリを複数格納する。サブテーブル４０２のエントリは、ラベルＩＤＤ４０２０１と、第１類似度Ｄ４０２０２と、第２類似度Ｄ４０２０３と、蓄積アクションセットＩＤＤ４０２０４と、使用類似度Ｄ４０２０５とのフィールドを含む。

ラベルＩＤＤ４０２０１には、ラベルを識別するラベルＩＤが格納される。第１類似度Ｄ４０２０２には、第１類似度（短期類似度）が格納される。第１類似度は、特定のデバイス（サブテーブル４０２が対応するデバイス）において、特定のタイムステップ（サブテーブル４０２が対応しているタイムステップ）において観測される準備済ログデータ１０８－２と、ラベル重要性ＤＢ１０５から取得されるラベルとアクションセットとの間の重要度の情報（ラベル重要性データ）とに基づいて、計算される類似度であり、その特定のタイムステップにおけるログデータのみを考慮した短期的な観点での類似度である。

第２類似度Ｄ４０２０３には、第２類似度（長期類似度）が格納される。第２類似度は、特定のデバイス（サブテーブル４０２が対応するデバイス）において、特定のタイムステップ（サブテーブル４０２が対応しているタイムステップ）において観測される準備済ログデータ１０８－２及び過去（例えば直前）のタイムステップからの蓄積アクションセットＩＤのアクションセットと、ラベル重要性ＤＢ１０５から取得されるラベルとアクションセットとの間の重要度の情報とに基づいて、計算される類似度であり、過去のログデータを考慮した長期的な観点での類似度である。

蓄積アクションセットＩＤＤ４０２０４には、特定のタイムステップの次のタイムステップでの第２類似度の算出に利用するアクションセット（第１アクションセット）を示すアクションセットＩＤ（蓄積アクションセットＩＤ：アクションセット情報）が格納される。この蓄積アクションセットＩＤは、蓄積決定部１０６２によって決定される。使用類似度Ｄ４０２０５には、ラベルを決定する際に使用された類似度が格納される。この類似度は、蓄積決定部１０６２による処理により決定される。

次に、蓄積類似性計算部１０６によるラベル識別処理について説明する。

累積類似性計算機１０６は、ログイベントラベルと、デバイス１１から観測されたログストリームデータとの間の類似性を認識して、ログラベリング装置１０によって観測されているデバイス１１において現在発生しているイベントに最も近いイベントを決定するラベル識別処理を実行する。

図１０は、一実施形態に係る蓄積類似性計算部よるラベル識別処理のフローチャートである。

ラベル識別処理は、すべての必要なデータを準備するステップ（Ｓ１０６０１～Ｓ１０６０３）と、ラベル毎に、ラベルと準備済ログデータ１０８－２との間の類似度を算出するステップ（Ｓ１０６０４、Ｓ１０６０５）と、取得された各ラベルについての類似度の情報を扱う後処理ステップ（Ｓ１０６０６～Ｓ１０６０８）とを含む。

まず、蓄積類似性計算部１０６は、ラベルを認識する必要がある準備済ログデータ１０８－２をデバイスＩＤとともに受け取る（Ｓ１０６０１）。なお、蓄積類似性計算部１０６は、準備済ログデータ１０８－２の各アクションセットを順番にしたり、順不同で一意にしたり、繰り返すアクションをアクションセットに含ませたりする処理を選択的に実行してもよい（Ｓ１０６０２）。以上のステップにより、ログラベリング装置１０の全体の設定が完了する。

次いで、蓄積類似性計算部１０６は、ラベル重要性ＤＢ１０５から、準備済ログデータ１０８－２に含まれる全てのアクションセットＩＤとアクションＩＤについてのラベルの重要度を検索する（Ｓ１０６０３）。

次いで、蓄積類似性計算部１０６は、各ラベルについてループ１の処理（Ｓ１０６０４，Ｓ１０６０５）を実行する。

ループ１において、蓄積類似性計算部１０６は、類似性計算部１０６１により、類似度計算処理（図１１参照）を実行させる（Ｓ１０６０４）。類似度計算処理では、ステップＳ１０６０３で準備された重要度の情報を用いて、ラベルと、ステップＳ１０６０２の後で得られた準備済ログデータ１０８－２との類似度を計算する。

次いで、蓄積類似性計算部１０６は、Ｓ１０６０４で取得された類似度を用いて、現在及び過去のタイムステップでのデバイスからの準備済ログデータから特定されたアクションセットの蓄積を継続するか否かを決定するための蓄積決定処理（図１２参照）を実行する（Ｓ１０６０５）。この蓄積決定処理は、主に、累積決定部１０６２により実行される。

次いで、蓄積類似性計算部１０６は、全てのラベルについての取得した類似度と、蓄積決定処理により決定された蓄積情報とを、対象のデバイスＩＤについての類似性ＤＢ１０７に格納する（Ｓ１０６０６）。

ここで、蓄積類似性計算部１０６は、デバイスＩＤの新しいタイムステップに対応するテーブルをサブテーブル４０２に追加生成し、メインテーブル４０１の最新のタイムステップに対応する類似性テーブルＤ４０１０２に追加したサブテーブルへのポインタを追加する。また、蓄積類似性計算部１０６は、取得された類似度（第１類似度と第２類似度）を、新たに追加したサブテーブル４０２の第１類似度Ｄ４０２０２と、第２類似度Ｄ４０２０３とに格納する。蓄積類似性計算部１０６は、また、蓄積決定部１０６２によって取得された各ラベルＩＤについての新しい蓄積アクションセットを、サブテーブル４０２の蓄積アクションセットＩＤＤ４０２０４に格納する。また、蓄積類似性計算部１０６は、蓄積アクションセット蓄積の決定に使用された類似度を、サブテーブル４０２の使用類似度Ｄ４０２０５に格納する。

次いで、ポストプロセッサ１０６３は、例えば、いくつかのログイベントラベルが類似度の増加を示している場合などに、潜在的な最も類似性のあるログイベントラベルを認識するために全てのラベル類似度を用いた後処理（図１３参照）を行う（Ｓ１０６０７）。

次いで、ポストプロセッサ１０６３は、例えば、デバイス１１にいつログイベントが発生したかを知る必要があるオペレータが監視できるようにするために、計算された類似度の情報をディスプレイ１２に表示する。ディスプレイ１２に対する画面の表示例の更なる詳細については、図１４を用いて後述する。

次に、類似性計算部１０６１による類似度計算処理について説明する。

図１１は、一実施形態に係る類似性計算部による類似度計算処理のフローチャートである。

本実施形態では、ラベルＩＤは、累積類似性計算部１０６から渡され、類似性計算部１０６１における類似度は、ラベルについてアクションセットを用いて計算される。本実施形態では、複数のアクションを含むアクションセットの類似度の計算のみが考慮されているが、本発明はこれに限られず、１つのアクションを含むアクションセットについても、同じアプローチにより類似度計算を行うことができる。類似性計算部１０６１による処理に、類似度を算出するために、アクションとアクションセットの情報を考慮する追加ステップを加えるようにしてもよい。

類似性計算部１０６１は、類似性ＤＢ１０７の直前のタイムステップ（タイムステップｔ－１）のサブテーブル４０２から直前のタイムステップのログユニットの蓄積アクションセットＩＤを取得する（Ｓ１０６１０１）。蓄積アクションセットＩＤは、タイムステップｔ－１のサブテーブル４０２の蓄積アクションセットＩＤＤ４０２０４から取得できる。

次いで、類似性計算部１０６１は、類似度が０より大きい全てのアクションセットについてのラベル重要性データ（ラベルに対する重要度）を、アクションセットテーブル３０１から取得する（Ｓ１０６１０２）。例えば、処理対象とするラベルが、ラベル１であれば、アクションセットテーブル３０１のラベル１重要度Ｄ３０１０３の重要度が０以上のエントリのアクションセットＩＤ及び重要度（ラベル重要性データ）とが取得される。

次に、類似性計算部１０６１は、第１類似度を計算する処理（Ｓ１０６１０３～Ｓ１０６１０５）と、第２類似度を計算する処理（Ｓ１０６１０６～Ｓ１０６１０８）とを実行する。本実施形態では、例えば、第１類似度を計算する処理と、第２類似度を計算する処理とを並行して実行するようにしているが、これらの処理を順番に実行するようにしてもよい。

第１類似度を計算する処理（ステップＳ１０６１０３～Ｓ１０６１０５）では、特定のラベルのラベル重要性データと、デバイスＩＤについての新たに受信した準備済ログデータ１０８－２（第１ログユニット）とに基づいて類似度（第１類似度）を算出する。

具体的には、類似性計算部１０６１は、ラベル重要性データに含まれるアクションセットと、準備済ログデータ１０８－２に含まれるアクションセットとの間の重複の度合い（オーバーラップ重み）を算出し、変数Ｖａｌ１とする（Ｓ１０６１０３）。

例えば、類似性計算部１０６１は、準備済ログデータ１０８－２に含まれるすべてのアクションセットについての特定（対象）のログイベントラベルに対する重要度をラベル重要性ＤＢ１０５のアクションセットテーブル３０１から取得し、これらの重要度の合計を、ラベル重要性ＤＢ１０５のアクションセットテーブル３０１に格納されている、対象のログイベントラベルについての全ての重要度の合計で除算することによりオーバーラップ重みを算出する。

なお、オーバーラップ重みを算出するために、ラベル重要性ＤＢ１０５からの重要度と、例えば、各アクションセットの長さ等の追加情報とを用いてもよい。この場合には、すべての値を合計する前に、関連する重要度に各アクションセットの長さを乗算し、その結果を用いるようにしてもよい。

次いで、類似性計算部１０６１は、準備済ログデータ１０８－２に含まれているが、ラベル重要性データに含まれていない、特定（対象）のログイベントラベルについてのアクションセットと、準備済ログデータ１０８－２に含まれているアクションセットの合計量との間で差分重みを算出し、この差分重みを１から減算し、変数Ｖａｌ２とする（Ｓ１０６１０４）。

次いで、類似性計算部１０６１は、変数Ｖａｌ１と変数Ｖａｌ２とを乗算することにより、第１類似度を算出する（Ｓ１０６１０５）。

第２類似度を計算する処理（ステップＳ１０６１０６～Ｓ１０６１０８）では、特定のラベルの重要性データと、デバイスＩＤについての新たに受信した準備済ログデータ１０８－２と、過去のログデータに基づく情報（類似性ＤＢ１０７から取得された蓄積アクションセットＩＤ）と、に基づいて類似度（第２類似度）を算出する。

具体的には、類似性計算部１０６１は、特定のラベルのラベル重要性データに含まれるアクションセットと、準備済ログデータ１０８－２に含まれるアクションセット及びサブテーブルの蓄積アクションセットＩＤＤ４０２０４の蓄積アクションセットＩＤのアクションセットと、の間の重複の度合い（オーバーラップ重み：第１値）を算出し、変数Ｖａｌ３とする（Ｓ１０６１０６）。

例えば、類似性計算部１０６１は、準備済ログデータ１０８－２と、蓄積アクションセットＩＤとに含まれるすべてのアクションセットについての特定（対象）のログイベントラベルに対する重要度をラベル重要性ＤＢ１０５のアクションセットテーブル３０１から取得し、これらの重要度の合計を、ラベル重要性ＤＢ１０５のアクションセットテーブル３０１に格納されている、対象のログイベントラベルについての全ての重要度の総合計で除算することによりオーバーラップ重みを算出する。

次いで、類似性計算部１０６１は、準備済ログデータ１０８－２と蓄積アクションセットＩＤに含まれているが、ラベル重要性データに含まれていない、特定（対象）のログイベントラベルについてのアクションセットと、準備済ログデータ１０８－２に含まれているアクションセット及び蓄積アクションセットＩＤのアクションセットの合計量との間で差分重みを算出し、この差分重みを１から除算し、変数Ｖａｌ４（第２値）とする（Ｓ１０６１０７）。

次いで、類似性計算部１０６１は、変数Ｖａｌ３と変数Ｖａｌ４とを乗算することにより、第２類似度を算出する（Ｓ１０６１０８）。

次に、蓄積決定部１０６２による蓄積決定処理について説明する。

蓄積決定部１０６２は、観測された準備済ログデータ１０８－２に含まれるアクションセットＩＤを後続のログデータの類似度の算出処理に利用するために蓄積するか否かを、デバイス１１からの過去（直前のタイムステップ）の蓄積アクションセットＩＤのアクションセットと、今回のタイムステップで新たに観測された準備済ログデータ１０８－２に含まれるアクションセットとが、同一のログイベントラベルであるか否かを認識することにより決定する。

図１２は、一実施形態に係る蓄積決定部による蓄積決定処理のフローチャートである。

蓄積決定部１０６２は、類似性計算部１０６１から得られた類似度（第１類似度と第２類似度）に関する所定のルールに基づいて、アクションセットの蓄積を継続する必要があるか否かを判定する（Ｓ１０６２０１）。

所定のルールとしては、例えば、第１類似度と第２類似度の両方が０である場合、第２類似度が第１類似度よりも小さい場合、現在（タイムステップｔ）の第２類似度がその直前（タイムステップｔ－１）の第２類似度よりも小さい場合等があり、これらの場合には、現在処理中のログユニット（第１ログユニット）が、直前のログユニットとの類似性が低いことを意味しているので、アクションセットの蓄積の継続が必要ないと判定する。なお、直前の第２類似度は、直前のタイムステップに対応するサブテーブル４０２の第２類似度Ｄ４０２０３から取得することができる。

この結果、アクションセットの蓄積を継続する必要があると判定した場合（Ｓ１０６２０１：Ｙｅｓ）には、蓄積決定部１０６２は、準備済ログデータ１０８－２に含まれるアクションセットのアクションセットＩＤを、直前のタイムステップの蓄積アクションセットＩＤに追加し、追加後の蓄積アクションセットＩＤ（第２アクションセットを特定するアクションセット情報）を現在のタイムステップに対応するサブテーブル４０２の蓄積アクションセットＩＤＤ４０２０４に格納する（Ｓ１０６２０２）。この現在のタイムステップに対応するサブテーブル４０２の蓄積アクションセットＩＤＤ４０２０４に格納された蓄積アクションセットＩＤが次のタイムステップにおけるログユニット（第２ログユニット）についての第２類似度の算出に使用される。ここで、アクションセットＩＤの追加は、アクションセットにおける蓄積設定に従って行われる。例えば、蓄積設定としては、アクションセットを追加する際において、アクションセットＩＤを順序又は非順序とするのかとの設定や、同一のアクションセットについて、繰り返しを含ませるのか、又は除外するのかの設定等がある。

次いで、蓄積決定部１０６２は、このデバイス１１から観測されるログストリームデータのこの特定のログイベントラベルに属する現在の潜在性を示す類似度として、第２類似度を類似性ＤＢ１０７のサブテーブル４０２の使用類似度Ｄ４０２０５に格納する（Ｓ１０６２０３）。

一方、アクションセットの蓄積を継続する必要がないと判定した場合（Ｓ１０６２０１：Ｎｏ）には、蓄積決定部１０６２は、蓄積アクションセットＩＤの蓄積の継続をリセットする、すなわち、直前の蓄積アクションセットＩＤの内容を含めないようにする（Ｓ１０６２０４）。ここで、本実施形態においては、累積の継続をリセットする方法として、第１類似度が０である場合には、蓄積決定部１０６２は、空のセットを類似性ＤＢ１０７のサブテーブル４０２の蓄積アクションセットＩＤＤ４０２０４に格納し、第１類似度が０以外である場合には、処理対象の準備済ログデータ１０８－２のアクションセットＩＤを類似性ＤＢ１０７のサブテーブル４０２の蓄積アクションセットＩＤＤ４０２０４に格納する。

次いで、蓄積決定部１０６２は、このデバイス１１から観測されるログストリームデータのこの特定のログイベントラベルに属する現在の潜在性を示す類似度として、第１類似度を類似性ＤＢ１０７のサブテーブル４０２の使用類似度Ｄ４０２０５に格納する（Ｓ１０６２０５）。

次に、ポストプロセッサ１０６３による後処理について説明する。

ポストプロセッサ１０６３は、類似性計算部１０６１と蓄積決定部１０６２とによる蓄積結果と、類似度の結果とに基づいて、後処理を実行する。後処理としては、例えば、デバイス１１から観測されるログストリームデータについての複数の類似度の増加がみられた場合に、一意のログイベントラベルを決定するためのラベル認識がある。

図１３は、一実施形態に係るポストプロセッサによる後処理のフローチャートである。

ポストプロセッサ１０６３は、デバイス１１についての全てのログイベントラベルの類似度を類似性ＤＢ１０７から検索する（Ｓ１０６３０１）。

次いで、ポストプロセッサ１０６３は、検索で得られたラベルの類似度について、所定の閾値を超えるものがあるか否かを判定する（Ｓ１０６３０２）。この結果、所定の閾値を超える類似度のラベルがない場合（Ｓ１０６３０２：Ｎｏ）には、ポストプロセッサ１０６３は、処理をステップＳ１０６３０６に進める。一方、所定の閾値を超える類似度のラベルがある場合（Ｓ１０６３０２：Ｙｅｓ）には、ポストプロセッサ１０６３は、閾値を超える類似度のラベルが複数あるか否かを判定する（Ｓ１０６３０３）。

この結果、閾値を超える類似度のラベルが複数ない場合（Ｓ１０６３０３：Ｎｏ）には、ポストプロセッサ１０６３は、処理をステップＳ１０６３０５に進める。一方、閾値を超える類似度のラベルが複数ある場合（Ｓ１０６３０３：Ｙｅｓ）には、ポストプロセッサ１０６３は、最も可能性の高いラベルを決定する事後評価を実行する（Ｓ１０６３０４）。事後評価としては、例えば、ラベルの類似度と、そのラベルに対応するアクションセットの蓄積の長さとの違いを比較して評価するようにしてもよい。

ステップＳ１０６３０５では、ポストプロセッサ１０６３は、事後評価の結果に基づいてデバイスに対する唯一のラベルを選定し、又はステップＳ１０６３０３で１つのラベルのみが閾値を超えると判定されている場合のラベルをデバイスに対する唯一のラベルとして選定する（Ｓ１０６３０５）。

次いで、ポストプロセッサ１０６３は、取得したラベルの情報を、更なる後処理を可能にするためにフィードバックする（Ｓ１０６３０６）。例えば、ポストプロセッサ１０６３は、取得したラベル情報に基づいて、ディスプレイ１２各種情報を含むＧＵＩの画面を表示させる。

次に、ＧＵＩの画面例を説明する。

図１４は、一実施形態に係るＧＵＩの画面例を示す図である。

ディスプレイ１２に表示される画面１２００は、類似性グラフ１２０１（１２０１－１，１２０１－２，１２０１－３）、デバイス類似性リスト１２０２（１２０２－１，１２０２－２，１２０２－３）、及び続行ログイベントリスト１２０３（１２０３－１，１２０３－２，１２０３－３）を含む。

類似性グラフ１２０１は、複数のデバイス毎の複数のラベルに対する類似度の変化を示している。この類似性グラフ１２０１によると、デバイスにおけるログストリームデータに適合するラベルを視覚的に認識することができる。

デバイス類似性リスト１２０２は、複数のデバイスのそれぞれに最も適合するラベルと、そのラベルについての類似度との組の情報を含む。また、本実施形態では、デバイス類似性リスト１２０２は、１つのデバイスにおける他のラベルと、そのラベルについての類似度との組の情報も含んでいる。

続行ログイベントリスト１２０３には、現在ログイベントが進行中であると認識されているデバイスについての情報が表示される。例えば、続行ログイベントリスト１２０３には、進行中のデバイスのデバイスＩＤと、ログイベントを示すラベルＩＤとが表示される。続行ログイベントリスト１２０３によると、監視オペレータに対して、どのデバイスに努力を集中させるかについての迅速なアイデアを提供することができる。

次に、ログラベリング装置１０のハードウェア構成について説明する。

図１５は、一実施形態に係るログラベリング装置のハードウェア構成図である。

ログラベリング装置１０は、例えば、汎用コンピュータであり、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）６０１と、メモリ６０２と、補助記憶装置６０３と、通信インタフェース６０４と、媒体インタフェース５０５と、入出力インタフェース６０６とを含む。

ＣＰＵ６０１は、メモリ６０２又は補助記憶装置６０３に格納されたプログラムを実行し、メモリ６０２又は補助記憶装置６０３に格納されたデータを使用することにより各種処理を実行する。メモリ６０２は、例えば、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）であり、ＣＰＵ６０１によって実行されるプログラムや、データ等を記憶する。補助記憶装置６０３は、例えば、ハードディスクドライブ、フラッシュメモリ、ＲＡＭ等であり、ＣＰＵ６０１により実行されるプログラムや、ＣＰＵ６０１によって使用されるデータを記憶する。

通信インタフェース６０４は、ネットワーク６０８を介して、他の装置（例えば、デバイス１１や、サーバ等）と通信するためのインタフェースである。媒体インタフェース６０５は、外部記憶媒体６０７を着脱可能であり、外部記憶媒体６０７とのデータの入出力を仲介する。入出力インタフェース６０６は、ログラベリング装置１０の管理者によって操作されるコンソール１５と接続可能であり、コンソール１５との情報の入出力を実行する。

図１におけるログラベリング装置１０の各機能部（ログデータプリプロセッサ１０１、ラベル管理部１０３、蓄積類似性計算部１０６等）は、例えば、ＣＰＵ６０１がメモリ６０２又は補助記憶装置６０３に格納されたプログラム（ログ分析プログラム）を実行することにより実現される。また、機能部（アクションＩＤＤＢ１０２、ラベル発生ＤＢ１０４、ラベル重要性ＤＢ１０５、類似性ＤＢ１０７）で管理される情報は、記憶部の一例であるメモリ６０２又は補助記憶装置６０３に格納される。

なお、本発明は、上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で、適宜変形して実施することが可能である。

例えば、上記実施形態では、ログラベリング装置１０が、各ログイベントに対するログイベントラベル付きデータと、１つのデバイス又はデバイス毎のログストリームデータ１４とを扱ったログデータ処理を説明していたが、複数のデバイスからの複数のログストリームデータを扱って処理をしてもよく、また、一度に複数のログイベントラベル付きデータを扱って処理を行ってもよい。

また、上記実施形態では、各デバイスを１つのハードウェアデバイスとした例を示していたが、本発明はこれに限られず、ソフトウェアによって構成されるデバイス（ハードウェア上のＶＭ）としてもよい。

また、上記実施形態において、複数のデバイスで構成されるグループ（デバイスグループ）を、１つのデバイスＩＤにより扱えるようにし、このデバイスグループを、上記したデバイスと同様に扱うようにしてもよい。

また、上記実施形態において、オーバーラップ重みと、差分重みに基づく値と、に基づいて、第１類似度及び第２類似度を算出するようにしていたが、本発明はこれに限られず、例えば、第１類似度又は第２類似度の少なくとも一方を、差分重みを使用せずに、オーバーラップ重みにより算出するようにしてもよい。

また、上記実施形態において、ＣＰＵが行っていた処理の一部又は全部を、ハードウェア回路で行うようにしてもよい。また、上記実施形態におけるプログラムは、プログラムソースからインストールされてよい。プログラムソースは、プログラム配布サーバ又は記憶メディア（例えば可搬型の記憶メディア）であってもよい。

１０…ログラベリング装置、１１…デバイス、１０１…ログデータプリプロセッサ、１０２…アクションＩＤＤＢ、１０３…ラベル管理部、１０４…ラベル発生ＤＢ、１０５…ラベル重要性ＤＢ、１０６…蓄積類似性計算部、１０７…類似性ＤＢ

Claims

連続的に出力される複数のログデータであるログストリームデータに含まれるログイベントを示すラベルを認識するログ分析装置であって、
複数のラベルに対する、ログデータに含まれる１以上のアクションを含む複数のアクションセットとの間の重要性を示す重要性情報と、所定の時点における１以上のログデータを含む第１ログユニットについての各ラベルとの長期的な観点での類似度である長期類似度を算出するために使用される第１アクションセットを特定するアクションセット情報と、を記憶する記憶部と、
前記重要性情報と、前記所定の時点の前記第１ログユニットに含まれるアクションセットと、前記アクションセット情報により特定されるアクションセットとに基づいて、前記第１ログユニットについての前記各ラベルとの前記長期類似度を算出する類似性計算部と、
前記長期類似度に基づいて、前記第１ログユニットに対応するラベルの候補を検出するラベル検出処理部と、
前記長期類似度に基づいて、前記所定の時点の次の時点における第２ログユニットについての各ラベルとの長期類似度を算出するために使用するアクションセットである第２アクションセットを決定し、前記記憶部に前記第２アクションセットを特定するアクションセット情報を格納する蓄積決定部と、
を備えるログ分析装置。
前記類似性計算部は、前記第１ログユニット中のログデータに含まれるアクションセットと、前記重要性情報とに基づいて、前記第１ログユニットと前記各ラベルとの短期的な観点での類似度である短期類似度を算出し、
前記蓄積決定部は、前記長期類似度及び前記短期類似度に基づいて、前記第２アクションセットを決定する
請求項１に記載のログ分析装置。
前記蓄積決定部は、前記長期類似度が前記短期類似度よりも小さい場合に、又は、前記長期類似度が直前の時点の長期類似度よりも小さい場合に、前記第２アクションセットに前記第１アクションセットを含めないようにする
請求項２に記載のログ分析装置。
前記ラベル検出処理部により検出された、前記ラベルの候補に関する情報を表示する表示処理部をさらに有する
請求項１から請求項３のいずれか一項に記載のログ分析装置。
前記ラベル検出処理部は、前記各ラベルとの長期類似度に基づいて、前記複数のラベルの候補の中から前記第１ログユニットに最適なラベルを決定する
請求項１から請求項４のいずれか一項に記載のログ分析装置。
ラベル付けされた複数の学習用ログデータにおけるアクションセットの発生状況に基づいて、前記重要性情報を計算する重要性計算部をさらに有する
請求項１から請求項５のいずれか一項に記載のログ分析装置。
ラベル付けされた複数の学習用ログデータにおける、各ラベルが付された学習用ログデータにおけるアクションセットの発生回数を計数する発生計数部をさらに有し、
前記記憶部は、前記各ラベルにおける各アクションセットの発生回数を示す発生回数情報を記憶し、
前記重要性計算部は、前記発生回数情報に基づいて、前記重要性情報を計算する
請求項６に記載のログ分析装置。
前記類似性計算部は、前記各ラベルについての前記重要性情報の前記第１ログユニットに含まれる各アクションセット及び前記アクションセット情報の前記第１アクションセットと一致する各アクションセットに対応する重要度に基づく第１値と、前記各ラベルについての前記重要性情報の前記第１ログユニットに含まれる各アクションセット及び前記アクションセット情報の前記第１アクションセットと一致しない各アクションセットに対応する重要度に基づく第２値と、に基づいて、前記第１ログユニットについての前記各ラベルとの長期類似度を算出する
請求項１から請求項７のいずれか一項に記載のログ分析装置。
前記類似性計算部は、前記第１値と、前記第２値とを乗算することにより、前記長期類似度を算出する
請求項８に記載のログ分析装置。
前記ログデータの中からアクションを抽出し、前記第１ログユニットに含まれるアクションセットを認識するログデータ処理部をさらに備える
請求項１から請求項９のいずれか一項に記載のログ分析装置。
前記記憶部は、アクションセットを特定するアクションセットＩＤを管理し、
前記ログデータ処理部は、前記第１ログユニットに含まれるアクションセットを特定するアクションセットＩＤが前記記憶部に管理されていない場合に、前記第１ログユニットに含まれるアクションセットを特定する新たなアクションセットＩＤを前記記憶部に登録する
請求項１０に記載のログ分析装置。
連続的に出力される複数のログデータであるログストリームデータに含まれるログイベントを示すラベルを認識するログ分析装置によるログ分析方法であって、
複数のラベルに対する、ログデータに含まれる１以上のアクションを含む複数のアクションセットとの間の重要性を示す重要性情報と、所定の時点における１以上のログデータを含む第１ログユニットについての各ラベルとの長期的な観点での類似度である長期類似度を算出するために使用される第１アクションセットを特定するアクションセット情報と、を記憶部に記憶し、
前記重要性情報と、前記所定の時点の前記第１ログユニットに含まれるアクションセットと、前記アクションセット情報により特定されるアクションセットとに基づいて、前記第１ログユニットについての前記各ラベルとの前記長期類似度を算出し、
前記長期類似度に基づいて、前記第１ログユニットに対応するラベルの候補を検出し、
前記長期類似度に基づいて、前記所定の時点の次の時点における第２ログユニットについての各ラベルとの長期類似度を算出するために使用するアクションセットである第２アクションセットを決定し、前記記憶部に前記第２アクションセットを特定するアクションセット情報を格納する
ログ分析方法。
連続的に出力される複数のログデータであるログストリームデータに含まれるログイベントを示すラベルを認識するログ分析装置を構成するコンピュータに実行させるログ分析プログラムであって、
前記コンピュータに、
複数のラベルに対する、ログデータに含まれる１以上のアクションを含む複数のアクションセットとの間の重要性を示す重要性情報と、所定の時点における１以上のログデータを含む第１ログユニットについての各ラベルとの長期的な観点での類似度である長期類似度を算出するために使用される第１アクションセットを特定するアクションセット情報と、を記憶部に記憶させた状態において、
前記コンピュータを
前記重要性情報と、前記所定の時点の前記第１ログユニットに含まれるアクションセットと、前記アクションセット情報により特定されるアクションセットとに基づいて、前記第１ログユニットについての前記各ラベルとの前記長期類似度を算出する類似性計算部と、
前記長期類似度に基づいて、前記第１ログユニットに対応するラベルの候補を検出するラベル検出処理部と、
前記長期類似度に基づいて、前記所定の時点の次の時点における第２ログユニットについての各ラベルとの長期類似度を算出するために使用するアクションセットである第２アクションセットを決定し、前記記憶部に前記第２アクションセットを特定するアクションセット情報を格納する蓄積決定部と、
して機能させるログ分析プログラム。