JP7335379B1

JP7335379B1 - 学習装置、学習方法、およびプログラム

Info

Publication number: JP7335379B1
Application number: JP2022031846A
Authority: JP
Inventors: 晃範小杉; 啓司寺澤; 桂子青木; 寛悟山本; 泰登石井; 宇蘭金澤; 賢橋本
Original assignee: NTT Comware Corp
Current assignee: NTT Comware Corp
Priority date: 2022-03-02
Filing date: 2022-03-02
Publication date: 2023-08-29
Anticipated expiration: 2042-03-02
Also published as: JP2023127893A

Abstract

【課題】ログメッセージが時間的に高密度に発生しても学習データを取得すること。
【解決手段】本発明の一態様は、監視対象システムからログメッセージを収集する収集部と、収集部により収集したログメッセージのうち相関が高いログメッセージの集合を取得する集合取得部と、集合取得部により取得されたログメッセージの集合に含まれるログメッセージ間の時間差に基づいてログメッセージの順序を推定し、推定した順序で配列した複数のログメッセージを含むシーケンスを学習データとして取得する学習データ取得部と、学習データ取得部により取得された学習データを用いて、収集部により収集したログメッセージを入力とし複数のログメッセージを含むシーケンスを推定した結果を出力する推定モデルを学習させる学習部と、を備える、学習装置である。
【選択図】図２

Description

本発明は、学習装置、学習方法、およびプログラムに関する。

従来より、各種のシステムから出力されたログを監視し、システムの異常を検知する技術が知られている。例えば、特許文献１に記載された保守管理装置が知られている。この保守管理装置は、ログ情報を収集する収集部と、ログ情報を識別するログ識別子とログ情報の時刻情報とを関連付けて記憶する記憶部と、複数のログ識別子を時刻情報に基づいてまとめたログシーケンスを作成し、ログシーケンスの開始時刻と終了時刻との差分からシーケンス時間を算出し、ログシーケンスとシーケンス時間とを関連付けたシーケンスグループにグループ化する分析部と、を備え、分析部は、シーケンスグループが予め登録された正常シーケンスグループ及び異常シーケンスグループと一致しない場合、予め登録されたインシデント予兆グループのうち、シーケンスグループと最も適合率の高いシーケンスグループに基づいてインシデント発生までのインシデント発生見込み時間を算出する。これにより、保守管理装置は、インシデントの発生を予測することが可能であるとしている。

特許第６５１２６４６号公報

しかしながら、ログメッセージが時間的に高密度で発生している場合、学習データを取得することができないため、シーケンスの推定をすることができないという課題があった。例えば、ログメッセージを取得しようとする期間の全ての日付および時刻においてログメッセージが高密度で発生している場合、疎な期間でも学習データを取得することができない。

本発明は、上記の課題に鑑みてなされたものであって、ログメッセージが時間的に高密度に発生しても学習データを取得することができる学習装置、学習方法、およびプログラムを提供することを目的としている。

（１）本発明の一態様は、監視対象システムからログメッセージを収集する収集部と、前記収集部により収集したログメッセージのうち相関が高いログメッセージの集合を取得する集合取得部と、前記集合取得部により取得された前記ログメッセージの集合に含まれるログメッセージ間の時間差に基づいてログメッセージの順序を推定し、推定した順序で配列した複数のログメッセージを含むシーケンスを学習データとして取得する学習データ取得部と、前記学習データ取得部により取得された学習データを用いて、前記収集部により収集したログメッセージを入力とし複数のログメッセージを含むシーケンスを推定した結果を出力する推定モデルを学習させる学習部と、を備える、学習装置である。

（２）本発明の一態様は、上記の学習装置であって、前記複数のログメッセージをクラスタリングし、クラスタリングされたログメッセージを識別する識別子を設定するクラスタリング部を備え、前記集合取得部は、前記クラスタリング部により同じ識別子が設定された複数のログメッセージを、前記ログメッセージの集合として取得してよい。

（３）本発明の一態様は、上記の学習装置であって、前記集合取得部により取得された前記ログメッセージの集合において連続的にログメッセージが発生していない場合には、前記ログメッセージの集合の発生時刻に基づいて学習データを取得し、前記集合取得部により取得された前記ログメッセージの集合において連続的にログメッセージが発生している場合には、前記ログメッセージの集合からサンプリングしたログメッセージの集合におけるログメッセージ間の時間差に基づいてログメッセージの順序を推定し、推定した順序で配列した複数のログメッセージを含むシーケンスを学習データとして取得してよい。

（４）本発明の一態様は、上記の学習装置であって、前記学習データ取得部は、前記集合取得部により取得された前記ログメッセージの集合において連続的にログメッセージが発生している場合において、前記ログメッセージの集合における対象となるログメッセージと他のログメッセージ間の時間差分を算出し、確率密度が最大となる時間差分を算出し、確率密度が最大となる時間差分をソートすることで前記ログメッセージのシーケンスを推定し、前記シーケンスに含まれるログメッセージを学習データとして収集してよい。

（５）本発明の一態様は、情報処理装置が、監視対象システムからログメッセージを収集するステップと、前記情報処理装置が、前記ログメッセージのうち相関が高いログメッセージの集合を取得するステップと、前記情報処理装置が、前記ログメッセージの集合に含まれるログメッセージ間の時間差に基づいてログメッセージの順序を推定し、推定した順序で配列した複数のログメッセージを含むシーケンスを学習データとして取得するステップと、前記情報処理装置が、前記学習データを用いて、前記ログメッセージを入力とし複数のログメッセージを含むシーケンスを推定した結果を出力する推定モデルを学習させるステップと、を含む、学習方法である。

（６）本発明の一態様は、コンピュータに、監視対象システムからログメッセージを収集するステップと、前記ログメッセージのうち相関が高いログメッセージの集合を取得するステップと、前記ログメッセージの集合に含まれるログメッセージ間の時間差に基づいてログメッセージの順序を推定し、推定した順序で配列した複数のログメッセージを含むシーケンスを学習データとして取得するステップと、前記学習データを用いて、前記ログメッセージを入力とし複数のログメッセージを含むシーケンスを推定した結果を出力する推定モデルを学習させるステップと、を実行させる、プログラムである。

本発明の一態様によれば、ログメッセージが時間的に高密度に発生しても学習データを取得することができる。

ログメッセージの一例を示す図である。実施形態のシーケンス推定システム１の機能的な構成の一例を示すブロック図である。実施形態におけるシーケンス推定システム１の全体の処理手順を示すフローチャートである。ベクトル化処理の一例を説明するための図であり、（Ａ）は、ベクトル化処理のうち単語を抽出処理の一例を示す図であり、（Ｂ）は、ベクトル化処理のうち単語の出現位置を考慮する処理の一例を示す図であり、（Ｃ）は、ベクトル化処理のうち単語に重み係数を設定する処理の一例を示す図である。分類処理の一例を示す図である。ＡＩＣの算出式およびＢＩＣの算出式を示す図である。コンフィグレーションを作成する処理の一例を示すフローチャートを示す図である。コンフィグレーションを設定する処理の一例を示すフローチャートである。ログメッセージを登録する処理の一例を示すフローチャートである。メッセージ集合推定処理の処理手順の一例を示すフローチャートである。相関係数を計算する処理の一例を説明するための図である。メッセージ集合推定処理における自動推定処理を説明するための図である。包含関係にあるログメッセージの集合の一例を示す図である。同時発生関係にあるログメッセージの集合の一例を示す図である。モデル作成処理の全体を示すフローチャートである。学習データの収集処理の処理手順の一例を示すフローチャートである。カーネル密度推定による学習データ収集処理の一例を示すフローチャートである。カーネル密度推定による学習データを収集する処理の一例を示す図である。通常マルコフモデルおよび優先マルコフモデルの作成処理の処理手順の一例を示すフローチャートである。通常マルコフモデルおよび優先マルコフモデルの作成処理の一例を示す図である。デュレーション値の一例を示す図である。一つの学習データおよび複数の学習データを示す図である。優先モデルを作成する処理の処理手順の一例を示すフローチャートである。デュレーション値の算出処理の処理手順の一例を示すフローチャートである。デュレーション値のクラスタリング処理を処理手順の一例を示すフローチャートである。デュレーション値のクラスタリング処理の一例を示す図である。異常値を考慮したデュレーション値のクラスタリングを説明するための図である。優先マルコフモデルを高次化する処理を説明するための図である。シーケンス推定処理の一例を示すシーケンス図である。シーケンス推定処理の処理手順の一例を示すシーケンス図である。競合調整済みマルコフモデルの作成処理の処理手順の一例を示すフローチャートである。競合調整済みの優先マルコフモデルの作成処理の一例を説明するための図である。ログメッセージについてのシーケンス推定処理の処理手順の一例を示すフローチャートである。優先マルコフモデルおよび通常マルコフモデルを用いたシーケンス推定処理を説明するための図である。シーケンス推定処理の他の一例を示すフローチャートである。シーケンスを決定する処理を説明するための図である。異常判定処理の処理手順の一例を示すフローチャートである。異常判定処理の処理内容の一例を示すフローチャートである。

以下、本発明を適用した学習装置、学習方法、およびプログラムを、図面を参照して説明する。

＜実施形態の概要＞
本発明を適用したメッセージ分類装置、メッセージ分類方法、およびプログラム、学習システム、および学習方法は、実施形態のシーケンス推定システムにより実現される。実施形態のシーケンス推定システムは、監視対象システムからログメッセージを収集し、複数のログメッセージからなるシーケンスを抽出するシステムである。シーケンス推定システムは、一または複数の監視対象システムから出力される多数のログメッセージのうち関係性の高いログメッセージを一つの集合として抽出し、抽出結果を、異常の検知や異常箇所の特定等のオペレーションで利用できるようにする。また、シーケンス推定システムは、集合におけるログメッセージ間の順列の誤りを明確にして、オペレーションで利用できるようにする。これにより、シーケンス推定システムは、未知の異常や、複数の監視対象システムに跨る複雑な異常などが発生した場合、異常箇所の特定精度の向上や、異常箇所の特定に必要なログトレースの時間を短縮することができる。

図１は、ログメッセージの一例を示す図である。例えば、任意の監視対象システムやシステム内の構成要素から、数日に亘り収集したログメッセージ群１、ログメッセージ群２およびログメッセージ群３が存在するものとする。シーケンス推定システムに実装された推定モデルは、１２月２１日から２８日に亘り、ログメッセージ群１～３間で関連性の高い「正常なシーケンス」を学習しているものとする。この正常なシーケンスは、ログメッセージ群１に含まれるログメッセージ「ａａａａａ」、ログメッセージ群２に含まれるログメッセージ「ｂｂｂｂｂ」、およびログメッセージ群３に含まれるログメッセージ「ｃｃｃｃｃ」が時系列的な順列で発生するというシーケンスである。例えば、１２月２９日においてログメッセージ群１に含まれるログメッセージ「ａａａａａ」、ログメッセージ群２に含まれるログメッセージ「ｘｘｘｘｘ」、およびログメッセージ群３に含まれるログメッセージ「ｃｃｃｃｃ」が時系列的な順列で発生した場合、シーケンス推定システムは、当該シーケンスが正常ではない「エラーシーケンス」であると検知することができる。このように、シーケンス推定システムは、例えば、「正常なシーケンス」を学習しておくことにより、未知の異常なシーケンスを検知することができる。
以下、このようなシーケンス推定システムについて説明する。

＜シーケンス推定システム１の構成＞
図２は、実施形態のシーケンス推定システム１の機能的な構成の一例を示すブロック図である。シーケンス推定システム１は、例えば、一又は複数の監視対象システム１００と、データ処理装置２００と、異常検知装置３００と、ユーザ端末装置４００と、を備える。監視対象システム１００、データ処理装置２００、異常検知装置３００、およびユーザ端末装置４００は、例えば、通信ネットワークに接続される。通信ネットワークに接続される各装置は、ＮＩＣ（ＮｅｔｗｏｒｋＩｎｔｅｒｆａｃｅＣａｒｄ）や無線通信モジュールなどの通信インターフェースを備えている（図２では不図示）。通信ネットワークは、例えば、インターネット、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、セルラー網などを含む。

監視対象システム１００は、データ処理装置２００および異常検知装置３００によってログメッセージが監視される情報処理システムである。監視対象システム１００は、例えば、各種のサービスを提供するサービスサーバ装置や、ネットワーク網に含まれる多数のネットワークノードの動作状態を管理するネットワーク管理装置等である。ネットワークノードは、例えば、ＯＳ（ＯｐｅｒａｔｉｏｎＳｙｓｔｅｍ）、ＶＭ（ＶｉｒｔｕａｌＭａｃｈｉｎｅ）、ＨＷ（Ｈａｒｄｗａｒｅ）、ＤＣ（ＤａｔａＣｅｎｔｅｒ）などである。監視対象システム１００は、所定のトリガに従ってログメッセージをデータ処理装置２００に提供する。また、監視対象システム１００は、単独で動作するサーバ装置であってよいが、他のサーバ装置と連携して動作する複数のサーバ装置群であってよい。

データ処理装置２００は、例えば、ログ運用のためのＯＳＳ（オープンソースソフトウェア）を実装したコンピュータである。ＯＳＳは、例えば、Elasticsearch、Logstash、およびKibanaと称される要素により構成される。データ処理装置２００は、例えば、Logstashにより構成されるフォーマット変換部２０２と、Elasticsearchにより構成されるデータ処理部２０４と、ログデータ蓄積部２０６と、検知結果蓄積部２０８と、Kibanaにより構成される可視化部２１０とを備える。データ処理装置２００は、監視対象システム１００からログメッセージを収集する収集部の一例である。

フォーマット変換部２０２、データ処理部２０４、および可視化部２１０といった機能部は、例えばＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）等のプロセッサがプログラムメモリに格納されたプログラムを実行することにより実現される。また、これらの機能部のうち一部または全部は、ＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ）、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、またはＦＰＧＡ（Ｆｉｅｌｄ-ＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）等のハードウェアにより実現されてもよいし、ソフトウェアとハードウェアが協働することで実現されてもよい。プログラムは、予めデータ処理装置２００のＨＤＤやフラッシュメモリなどの記憶装置（非一過性の記憶媒体を備える記憶装置）に格納されていてもよいし、ＤＶＤやＣＤ－ＲＯＭなどの着脱可能な記憶媒体に格納されており、記憶媒体（非一過性の記憶媒体）がドライブ装置に装着されることでデータ処理装置２００のＨＤＤやフラッシュメモリにインストールされてもよい。ログデータ蓄積部２０６および検知結果蓄積部２０８は、例えば、ＨＤＤ（ＨａｒｄＤｉｓｃＤｒｉｖｅ）、フラッシュメモリ、ＥＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）などの記憶装置により実現される。

フォーマット変換部２０２は、異常検知装置３００により供給されたコンフィグレーション情報に基づいて、監視対象システム１００から収集したログメッセージにメッセージＩＤを追加する。コンフィグレーション情報は、ログメッセージにメッセージＩＤを付与するルールを示す情報である。メッセージＩＤは、ログメッセージを登録するために参照される情報であって、例えばログメッセージの種類を識別する情報である。データ処理部２０４は、フォーマット変換部２０２によりメッセージＩＤが追加されたログメッセージをログデータ蓄積部２０６に記憶する。データ処理部２０４は、異常検知装置３００の要求に応じてログデータ蓄積部２０６から所望のログメッセージを検索し、検索したログメッセージを異常検知装置３００に提供する。データ処理部２０４は、異常検知装置３００から提供されたシーケンス推定結果や異常判定結果を検知結果蓄積部２０８に記憶する。可視化部２１０は、シーケンス推定結果や異常判定結果をユーザが閲覧可能な可視化データに変換して、ユーザ端末装置４００に提供する。

ユーザ端末装置４００は、例えばパーソナルコンピュータや、スマートフォンやタブレット端末などの端末装置である。ユーザ端末装置４００は、例えば監視対象システム１００の管理者の操作を受け付け、監視対象システム１００の状態や異常に関する情報をデータ処理装置２００から取得し、表示処理等を行う。

異常検知装置３００は、データ処理装置２００から取得したログメッセージを分析し、分析結果に基づく情報をデータ処理装置２００に提供する情報処理装置である。異常検知装置３００は、例えば、コンフィグレーション作成部３１０と、メッセージ登録部３２０と、学習部３３０と、推定部３４０とを備える。コンフィグレーション作成部３１０、メッセージ登録部３２０、学習部３３０、および推定部３４０といった機能部は、例えばＣＰＵ等のプロセッサがプログラムメモリに格納されたプログラムを実行することにより実現される。なお、本実施形態はコンフィグレーション作成部３１０およびメッセージ登録部３２０を異常検知装置３００に搭載する一例について説明するが、コンフィグレーション作成部３１０およびメッセージ登録部３２０の機能は、異常検知装置３００に代えてデータ処理装置２００に搭載してよく、データ処理装置２００以外の別装置に搭載してよい。

コンフィグレーション作成部３１０は、例えば、AIOps（Artificial Intelligence for IT Operations）を利用する。コンフィグレーション作成部３１０は、例えばログデータ蓄積部２０６に蓄積されたログメッセージを用いてログメッセージにメッセージＩＤを付与するルールを作成し、コンフィグレーション情報（図中ではＩＤ付与ルール）をフォーマット変換部２０２に供給する。これによりコンフィグレーション作成部３１０は、フォーマット変換部２０２によりログメッセージにメッセージＩＤを追加させる。メッセージＩＤを付与するルールは、ログメッセージを分類するルールに相当し、コンフィグレーション作成部３１０は、データ処理装置２００にログメッセージを分類する機能を持たせる。

メッセージ登録部３２０は、ログデータ蓄積部２０６に蓄積されたログメッセージを学習処理および推定処理に用いる情報として登録する。学習部３３０は、例えばメッセージ集合推定部３３２と、モデル作成部３３４とを備える。メッセージ集合推定部３３２は、ログメッセージの集合を推定する。モデル作成部３３４は、シーケンスを推定するためのモデルを作成する。推定部３４０は、例えば、シーケンス推定部３４２と、異常判定部３４４とを備える。シーケンス推定部３４２は、一連のログメッセージを含むシーケンスを推定する。一連のログメッセージは、例えば、時系列的に関連した複数のログメッセージである。異常判定部３４４は、シーケンス推定部３４２により推定された結果に基づいて異常を判定する。異常検知装置３００は、シーケンス推定結果や異常判定結果を、異常検知装置３００の分析結果に基づく情報としてデータ処理装置２００に提供する。

＜シーケンス推定システム１の全体処理＞
図３は、実施形態におけるシーケンス推定システム１の全体の処理手順を示すフローチャートである。シーケンス推定システム１は、先ず、監視対象システム１００から収集したログメッセージを仮登録する（ステップＳ１００）。次にシーケンス推定システム１は、仮登録したログメッセージを用いてコンフィグレーション情報を作成することで、ログメッセージを分類する（ステップＳ１１０）。シーケンス推定システム１は、監視対象システム１００から収集したログメッセージを登録する（ステップＳ２００）。このときシーケンス推定システム１は、ログメッセージにメッセージＩＤおよびタイムスタンプを付加して登録する。タイムスタンプはログメッセージの発生時刻を示す情報である。次にシーケンス推定システム１は、ログメッセージの集合を推定する（ステップＳ３００）。次にシーケンス推定システム１は、推定モデルを作成する（ステップＳ４００）。ステップＳ２００からステップＳ４００までの処理が、学習フェーズに相当する。

次にシーケンス推定システム１は、シーケンスを推定する（ステップＳ５００）。シーケンスの推定処理は、定期的なタイミングやログメッセージが所定量だけ蓄積したタイミングなどの所定の条件が成立した場合に開始してよい。次にシーケンス推定システム１は、異常を判定する（ステップＳ６００）。ステップＳ５００およびステップＳ６００は、推定・検知フェーズに属する。なお、シーケンス推定システム１は、シーケンスの異常を判定することなく、シーケンス抽出結果だけをデータ処理装置２００に提供してもよい。また、シーケンス推定システム１は、シーケンス推定タイミング、異常判定タイミングや、異常のレベルなどを監視対象システム１００に応じて変更してもよい。また、シーケンス推定システム１は、監視対象システム１００から随時供給されるログメッセージを用いて、学習フェーズと推定・検知フェーズを並行して実行してよい。
以下、ステップＳ１００からステップＳ６００までの各処理を詳細に説明する。

［メッセージ分類処理］
以下、メッセージ分類処理について説明する。メッセージ分類処理は、仮登録されたログメッセージのそれぞれをベクトル化するベクトル化処理と、ベクトル化されたログメッセージを分類するための閾値を設定する閾値設定処理と、閾値を用いて複数のログメッセージを分類し、分類されたログメッセージ群を識別するメッセージＩＤ（識別子）を設定するＩＤ設定処理と、データ処理装置２００により新たなログメッセージを取得した場合に、取得した新たなログメッセージにメッセージＩＤを付与する分類処理とを含む。メッセージ分類処理は、コンフィグレーション作成部３１０により実行される。これによりコンフィグレーション作成部３１０は、ベクトル化部、閾値設定部、ＩＤ（識別子）設定部、分類部といった機能部を実現する。

図４は、ベクトル化処理の一例を説明するための図であり、図４（Ａ）は、ベクトル化処理のうち単語を抽出処理の一例を示す図である。コンフィグレーション作成部３１０は、例えばログデータ蓄積部２０６からログメッセージを取り出し、ログメッセージに含まれる単語を抽出する。コンフィグレーション作成部３１０は、例えば、スペース等を区切り文字とした文字を単語として抽出する。例えば、「今日は、１０ｄａｙ．」というログメッセージがある場合、コンフィグレーション作成部３１０は、「今日は」、「１０」、「ｄａｙ．」という３個の単語を抽出する。

比較例としてｎ－ｓｈｉｎｇｌｅｓ（n-gram）と称される重み付き処理がある。このｎ－ｓｈｉｎｇｌｅｓは、「今日は、」というログメッセージに対し、「今日は」という要素１と、「日は、」という要素２と、「は、ｆ」という要素３とに分割し、要素１に「１．０」の重みを付与し、要素２に「０．５」の重みを付与し、要素３に「０．３」の重みを付与する。このようなｎ－ｓｈｉｎｇｌｅｓでは、データ処理装置２００において利用されるアプリケーションと連携することが困難であること、ログメッセージの可変部分と固定部分の区別が難しいこと、単語の出現位置を考慮したベクトル化を行うことが困難であること、単語数が増えやすいという不都合がある。これに対し、図４を参照して説明した処理によれば、これらの不都合を回避することができる。

図４（Ｂ）は、ベクトル化処理のうち単語の出現位置を考慮する処理の一例を示す図である。コンフィグレーション作成部３１０は、抽出した単語の出現したログメッセージ中の位置も考慮してベクトルを作成する。ログメッセージにおいて同じ単語が複数回出現する場合がある。ただし、ログメッセージは予め設定されたテンプレートに従って単語が配置されている場合が多い。したがって、同じテンプレートに従った複数のログメッセージにおいては、ログメッセージ中の同じ位置に同じ単語が出現する可能性が高い。そこでコンフィグレーション作成部３１０は、単語に加えて、当該単語の出現した位置を考慮してベクトルを作成する。コンフィグレーション作成部３１０は、単語の出現位置を表す情報を一次元情報に変換してベクトルを作成する。コンフィグレーション作成部３１０は、例えば、「今日は」、「１０」、「ｄａｙ．」という３個の単語を、「１＿今日は」、「２＿１０」、「３＿ｄａｙ．」という３個の情報に変換する。単語の出現位置を考慮すると次元が増えて、2次元のベクトル（マトリクス）になってしまうが、数学的に扱いにくいという問題点がある。２次元のベクトルを次元圧縮することもできるが、情報の損失を避けるため、実施形態のコンフィグレーション作成部３１０は、単語の出現位置を単語にマージすることで1次元情報に変換する。

図４（Ｃ）は、ベクトル化処理のうち単語に重み係数を設定する処理の一例を示す図である。コンフィグレーション作成部３１０は、単語をベクトル化するときに単語に重み係数を導入してよい。重みは、単語の出現位置をｎとしたとき１／ｎであってよい。すなわち重みは、単語の出現位置の先頭から末尾に向かって反比例的に減じてよい。例えば、「今日は」に１．０の重みを付与し、「１０」に０．５の重みを付与し、「ｄａｙ．」に０．３の重みを付与する。ログメッセージは、ログメッセージの先頭に近い単語ほど重要性が高い傾向があるため、当該傾向を重みに反映することができる。数字を含む単語についての重みを小さくしてよい。例えば「１０」という単語の重みを０．００５に減じてよい。ログメッセージにおける日付部分などは数字で表現されることが多く、数字を含む単語の重要性が低い傾向があるため、当該傾向を重みに反映することができる。重みは、単語の出現位置を示すパラメータと単語に数字を含むか否かを示すパラメータの双方を含む関数を用いて導出されてよい。図４に示したベクトル化処理を行うことにより、コンフィグレーション作成部３１０は、「今日は、１０ｄａｙ．」というログメッセージを、（１．０，０．００５，０．３）という数値化されたベクトルに変換することができる。

図５は、分類処理の一例を示す図である。コンフィグレーション作成部３１０は、サンプリングを利用したクラスタリングを行う。コンフィグレーション作成部３１０は、例えば、サンプリングのアルゴリズムはアンサンブルのboosting方式を利用する。具体的には以下の通りである。まず、コンフィグレーション作成部３１０は、ログデータ蓄積部２０６からメッセージ集合を取得する。コンフィグレーション作成部３１０は、１回目のサンプリング（Phase.1またはPh.1と記載する）においてメッセージ集合から複数のメッセージをサンプリングする。コンフィグレーション作成部３１０は、サンプリングした複数のログメッセージに対してクラスタリングを行う。コンフィグレーション作成部３１０は、例えば、メッセージ分類処理における教師なし学習であるクラスタリング法としてＤＢＳＣＡＮ(Density-Based Spatial Clustering of Applications with Noise)によりクラスタリングを行う。次にコンフィグレーション作成部３１０は、Phase.1で縮退したクラスタと重複しないログメッセージをサンプリングし（Phase.2）、サンプリングしたログメッセージに対してクラスタリングを行う。次にコンフィグレーション作成部３１０は、Phase.1およびPhase.2で縮退したクラスタと重複しないログメッセージをサンプリングし（Phase.3）、サンプリングしたログメッセージに対してクラスタリングを行う。このようにコンフィグレーション作成部３１０は、Phase.1～Phase.x-1で縮退したクラスタと重複しないログメッセージをサンプリングし（Phase.x）、サンプリングしたログメッセージに対してクラスタリングを行う。これによりコンフィグレーション作成部３１０は、X個のクラスタを集合させることで最終的なクラスタ集合を取得する。コンフィグレーション作成部３１０は、メッセージ集合に対して１度でクラスタリングを行うのではなく、複数回のサンプリングのそれぞれでクラスタリングを行う。これにより、メッセージ集合に偏りがある場合でも、少ないサンプリング量、すなわち少ないメモリでメッセージ分類を行うことができる。

コンフィグレーション作成部３１０は、クラスタリングの閾値を調整する。閾値は、DBSCANなどのクラスタリングにおいて対象となるログメッセージをクラスタに含めるか否かを判定するための値である。コンフィグレーション作成部３１０は、AIC（Akaike information criterion, 赤池情報量規準）、BIC（Bayesian information criterion, ベイズ情報量規準）の何れかを用いて閾値を算出する。図６は、ＡＩＣの算出式およびＢＩＣの算出式を示す図である。コンフィグレーション作成部３１０は、ログメッセージのデータ数、パラメータ数、および偏差に基づいてＡＩＣまたはＢＩＣを算出する。ログメッセージのデータ数は、サンプリング数に相当し、パラメータ数はDBSCANによるクラスタ数に相当する。コンフィグレーション作成部３１０は、複数の閾値候補の値（vth-1, vth-2, …）で複数のメッセージ分類を行った後、各メッセージ分類についてＡＩＣまたはＢＩＣを算出し、ＡＩＣまたはＢＩＣが最小となる閾値候補（vth-min）を閾値として採用する。

図７は、コンフィグレーションを作成する処理の一例を示すフローチャートを示す図である。コンフィグレーション作成部３１０は、先ず所定のフェーズ数だけステップＳ１２０からステップＳ１２６の処理を繰り返す。ステップＳ１２０においてコンフィグレーション作成部３１０は、ログメッセージ集合からログメッセージをサンプリングする（ステップＳ１２０）。コンフィグレーション作成部３１０は、２回目以降のフェースにおいては、前回までのフェーズでクラスタに属するログメッセージを除くログメッセージをサンプリングする。次にコンフィグレーション作成部３１０は、サンプリングしたログメッセージを単語列に変換し、各単語のログメッセージにおける出現位置を認識する（ステップＳ１２２）。次にコンフィグレーション作成部３１０は、各単語の重みを用いてログメッセージをベクトル化する（ステップＳ１２４）。次にコンフィグレーション作成部３１０は、DBSCANによりログメッセージをクラスタリングする（ステップＳ１２６）。

次にコンフィグレーション作成部３１０は、閾値候補数だけステップＳ１２９およびステップＳ１３０を繰り返す。コンフィグレーション作成部３１０は、所定のフェーズ分のクラスタに対して閾値候補（ｖｔｈ－ｘ）を用いたDBSCANによりクラスタリングを行い（ステップＳ１２９）、クラスタリングの結果からＡＩＣまたはＢＩＣを算出する（ステップＳ１３０）。これによりコンフィグレーション作成部３１０は、閾値候補数だけＡＩＣまたはＢＩＣを算出する。次にコンフィグレーション作成部３１０は、ＡＩＣまたはＢＩＣが最小となったクラスタリング結果を採用する（ステップＳ１３２）。次にコンフィグレーション作成部３１０は、クラスタリングの結果として得られたクラスタに属するログメッセージを識別するためのルールおよびメッセージＩＤを含むコンフィグレーション情報を生成する。ログメッセージを識別するためのルールは、例えば、ログメッセージにどのような単語が出現するかを特定する情報であり、例えば、単語Ａ、単語Ｂ、および単語Ｃが含まれる場合に、当該ログメッセージにログメッセージＩＤ：aを付与することを表す。

図８は、コンフィグレーションを設定する処理の一例を示すフローチャートである。異常検知装置３００は、コンフィグレーション作成部３１０により作成したコンフィグレーション情報をデータ処理装置２００に送信し（ステップＳ１４０）、データ処理装置２００は、異常検知装置３００から受信したコンフィグレーション情報を更新する（ステップＳ１４２）。また、異常検知装置３００は、仮登録されたログメッセージにメッセージ種別としてメッセージＩＤを書き込む（ステップＳ１４４）。

図９は、ログメッセージを登録する処理の一例を示すフローチャートである。監視対象システム１００は、新たなログメッセージをデータ処理装置２００に送信したとき、データ処理装置２００は、コンフィグレーション情報に含まれるルールに基づいてログメッセージを解析し、ログメッセージにメッセージＩＤを追加する（ステップＳ１５０）。データ処理装置２００は、異常検知装置３００にメッセージＩＤが追加されたログメッセージを異常検知装置３００に送信する。シーケンス推定システム１は、コンフィグレーション情報に従って自動的にログメッセージにメッセージＩＤを追加することで、ログメッセージを分類するためのコンフィグレーション作業の手間を省くことができる。

［メッセージ集合推定処理］
メッセージ集合推定処理は、ログメッセージＩＤに含まれるログメッセージの集合を特定する処理である。同じログメッセージＩＤは、一連の動作や異常といった同じ機会で出現するものが多いため、同じ機会で出現するログメッセージが集合を形成するものとする。なお、実施形態において、「ログメッセージの集合」を、「ログメッセージのシーケンス」と読み替えてよい。メッセージ集合推定処理は、ログメッセージの集合のキーとなるログメッセージＩＤを指定するＩＤ指定処理と、キーを指定しない処理である自動推定処理の少なくとも一方を含む。

図１０は、メッセージ集合推定処理の処理手順の一例を示すフローチャートである。先ず、異常検知装置３００は、対象とするログメッセージＸを決定する（ステップＳ３０２）。異常検知装置３００は、ＩＤ指定処理を行う場合、予め指定された２つのログメッセージＩＤに属するログメッセージＸを、処理対象として決定する。異常検知装置３００は、自動推定処理を行う場合、全てのログメッセージＩＤにおけるログメッセージＸを、処理対象として決定する。異常検知装置３００は、決定されたログメッセージＸの数分だけ、ステップＳ３０４からステップＳ３２０までの処理を繰り返す。

先ず異常検知装置３００は、データ処理装置２００から、決定したログメッセージＸの発生時刻のリストを取得する（ステップＳ３０４）。次に異常検知装置３００は、ステップＳ３０６からステップＳ３１６までのブートストラップ法を、規定回数だけ繰り返す。規定回数は、ブートストラップ法により作成する疑似データの数に相当する。図１１は、相関係数を計算する処理の一例を説明するための図である。異常検知装置３００は、ログメッセージＸをオリジナルデータとして用いて、例えば３個の疑似データ（１）～（３）を含む疑似データセットを生成する。本例において、規定回数は「３」であり、疑似データごとに相関係数を計算する。

異常検知装置３００は、発生時刻リストから所定数の発生時刻Ｔを取得し（ステップＳ３０６）、相関係数の計算用の行列Ｍを作成する（ステップＳ３０８）。次に異常検知装置３００は、取得した全ての発生時刻Ｔについて、ステップＳ３１０からステップＳ３１４までの処理を繰り返す。異常検知装置３００は、発生時刻Ｔから所定期間内に出現するログメッセージＹを取得し（ステップＳ３１０）、行列Ｍの発生時刻Ｔの行とログメッセージＹ’の各列との対応箇所に１をマークし（ステップＳ３１２）、行列Ｍの発生時刻Ｔの行とログメッセージＹ以外の各列との対応箇所に０をマークする（ステップＳ３１４）。

次に異常検知装置３００は、行列Ｍを用いて、ログメッセージＸとログメッセージＹの相互の時系列的な相関度合いを表す相関係数Ｃを計算する（ステップＳ３１６）。異常検知装置３００は、疑似データ（１）～（３）のそれぞれについて、下記の式により相関係数Ｃ（１）～Ｃ（３）を計算する。下記式においてｘ、ｙは疑似データにおける所定期間内の２つのログメッセージＸ，Ｙであり、ｎはデータ数であり、ｘバーはｘの相加平均であり、ｙバーはｙの相加平均であり、相関係数は、標本共分散を標本標準偏差で除算することにより算出される。

次に異常検知装置３００は、相関係数Ｃの平均値Ｃ’を計算し（ステップＳ３１８）、相関係数Ｃの平均値Ｃ’が所定値以上のログメッセージＩＤＺを取り出す（ステップＳ３２０）。これにより、異常検知装置３００は、ログメッセージＸのそれぞれについて、当該ログメッセージＸと時系列的な相関が高いログメッセージＩＤ（Ｚ）を取得する。

次に異常検知装置３００は、ステップＳ３０２から自動推定処理を実行しているか否かを判定する（ステップＳ３２２）。異常検知装置３００は、自動推定処理を実行していない場合（ステップＳ３２２：ＮＯ）、本処理を終了する。異常検知装置３００は、自動推定処理を実行している場合（ステップＳ３２２：ＹＥＳ）、ログメッセージＩＤ（Ｚ）と包含関係にある他のログメッセージＩＤを統合する処理を、全てのログメッセージＩＤ（Ｚ）について実行する（ステップＳ３２４）。次に異常検知装置３００は、ログメッセージＩＤ（Ｚ）と同時発生関係にある他のログメッセージＩＤを統合する処理を、全てのログメッセージＩＤ（Ｚ）について実行する（ステップＳ３２６）。

図１２は、メッセージ集合推定処理における自動推定処理を説明するための図である。異常検知装置３００は、ログメッセージＩＤに含まれるログメッセージを用いてブートストラップ法を利用した疑似データセットの作成、およびアンサンブル法を利用した相関係数の算出処理を行う。これにより、異常検知装置３００は、行数がログメッセージＩＤ数であり且つ列数がログメッセージＩＤ数である、相関係数のマトリクスを作成する。

異常検知装置３００は、時系列的に相関係数が高いログメッセージの集合であっても、実質的に重複するログメッセージの集合が含まれるために、補正を行う。異常検知装置３００は、包含関係にあるログメッセージの集合同士を、同じログメッセージＩＤに補正する。図１３は、包含関係にあるログメッセージの集合の一例を示す図である。例えば、メッセージＮｏ．４０６のログメッセージの集合と、メッセージＮｏ．４１８のログメッセージの集合とはログメッセージの番号（４０５，４０４，４０７）が包含関係にある。包含関係とは、一方のログメッセージの集合が他方のログメッセージの集合を含む関係である。異常検知装置３００は、包含関係にあるログメッセージの集合同士を同じログメッセージＩＤとして補正（統合）する。

異常検知装置３００は、同時発生関係にあるログメッセージの集合同士を同じログメッセージＩＤに補正する。図１４は、同時発生関係にあるログメッセージの集合の一例を示す図である。例えば、メッセージＮｏ．４０６のログメッセージの集合と、メッセージＮｏ．４１８のログメッセージの集合とは同じ時刻に発生している。同時発生関係とは、時間的に同じタイミングで発生するログメッセージ集合同士の関係である。異常検知装置３００は、同時発生関係にあるログメッセージの集合同士を同じログメッセージＩＤとして補正（統合）する。

［モデル作成処理］
図１５は、モデル作成処理の全体を示すフローチャートであり、図１６は、学習データの収集処理の処理手順の一例を示すフローチャートであり、図１７は、カーネル密度推定による学習データ収集処理の一例を示すフローチャートである。

異常検知装置３００は、図１５に示すように、先ず、学習データを収集し（ステップＳ４００）、学習データを用いてモデルを作成する（ステップＳ４０２）。

異常検知装置３００は、図１６に示すように、学習データの収集において、ステップＳ４１０からステップＳ４２０までの処理を、メッセージ集合数分繰り返す。
異常検知装置３００は、先ず、対象のログメッセージの集合ＸとログメッセージＩＤが重複するメッセージの集合Ｙを算出する（ステップＳ４１０）。次に異常検知装置３００は、データ処理装置２００からログメッセージの集合Ｘの発生時刻およびログメッセージの集合Ｙの発生時刻を取得する（ステップＳ４１２）。次に異常検知装置３００は、ステップＳ４１２において取得した発生時刻のうち、前後に所定間隔の空きがある発生時刻Ｔを抜き出す（ステップＳ４１４）。次に異常検知装置３００は、メッセージの集合Ｘに属するログメッセージＩＤをインデックスとして、ステップＳ４１４において抜き出した発生時刻Ｔから所定時間内にあるログメッセージＬを取り出す（ステップＳ４１６）。次に異常検知装置３００は、ステップＳ４１６において発生時刻Ｔから所定時間内にあるログメッセージＬ、すなわち学習データがあるか否かを判定する（ステップＳ４１８）。異常検知装置３００は、学習データがあるときには（ステップＳ４１８：ＹＥＳ）、ステップＳ４１０以降の処理を繰り返し、学習データがないときには（ステップＳ４１８：ＮＯ）、カーネル密度推定によるデータ収集を行って（ステップＳ４２０）、ステップＳ４１０以降の処理を繰り返す。これにより異常検知装置３００は、メッセージの集合ごとに学習データ（Ｌ）を収集する。

例えば、メッセージの集合を含む期間（全ての日付け・時刻）において高密度にログメッセージが発生している場合、学習データが取得できない（ステップＳ４１８：ＮＯ）。高密度にログメッセージが発生するとは、例えばログメッセージ同士の間隔が短く連続的にログメッセージが発生しているために、ステップＳ４１４において発生時刻Ｔが特定できない場合などである。この場合、異常検知装置３００は、図１７に示すカーネル密度推定による学習データ収集（ステップＳ４２０）において、図１８に示すステップＳ４２００～ステップＳ４２０３の処理を規定回数繰り返す。図１８はカーネル密度推定による学習データを収集する処理の一例を示す図である。

まず異常検知装置３００は、対象となるログメッセージと、当該対象となるログメッセージと相関性の高いログメッセージとを含むログメッセージ集合をサンプリングする（ステップＳ４２００）。異常検知装置３００は、例えば、メッセージＩＤが同じ（mid=A）である複数のログメッセージを、ログメッセージ集合（sampling001、sampling002、・・・）をサンプリングする。

次に異常検知装置３００は、サンプリングしたログメッセージ集合におけるログメッセージ間の時間差分を算出する（ステップＳ４２０２）。異常検知装置３００は、例えば、あるログメッセージ（mid-A）を取得し、当該ログメッセージと時間的に近傍にあるmid-A1、mid-A2との時間差分（tA1-1, ,tA2,… ）を算出する。次に異常検知装置３００は、時間差分（tA1, tA2,… ）ごとに、カーネル密度推定を行うことで確率が最大となる時間差分（tA1-max, tA2-max,… ）を算出する（ステップＳ４２０４）。次に異常検知装置３００は、確率が最大となる時間差分（tA1-max, tA2-max,… ）をソートし、シーケンスを推定する（ステップＳ４２０３）。異常検知装置３００は、例えば、ログメッセージのメッセージＩＤごとに、規定回数だけステップＳ４２００～ステップＳ４２０３の処理を繰り返す。次に、異常検知装置３００は、ソートした結果、上位から所定数割の時間差分（tA1-max, tA2-max,… ）に出現するログメッセージを、メッセージＩＤがmid-Aのログメッセージの順序（シーケンス）であると推定する（ステップＳ４２０４）。次に異常検知装置３００は、メッセージＩＤが同じ順序で配列したシーケンスと同じ順序となる複数のログメッセージを、学習データとして収集する（ステップＳ４２０５）。

例えば、図１８に示すように、複数のサンプリング001～100について、mid-Aに関連するログメッセージとしてmid-A2、mid-A1、…をサンプリングしたとき、mid-Aとmid-A2との差分（tA2）、mid-Aとmid-A1との差分（tA1）、…を算出し、差分（tA2）の分布において確率密度が最大となる差分（tA2-max）、差分（tA1）の分布において確率密度が最大となる差分（tA1-max）、…を算出し、ソートしたとする。ソートした結果、mid-A、mid-A2、mid-A1、…の順序のシーケンスが91個であり、mid-A、mid-A1、mid-A2、…の順序のシーケンスが9個であったとする。異常検知装置３００は、mid-A、mid-A2、mid-A1、…の順序のシーケンスを採用し、当該シーケンスと同じシーケンスを学習データとして取得することができる。これにより異常検知装置３００は、複数のログメッセージが高密度で隔たっていても、学習データを取得することができる。

異常検知装置３００は、図１９に示すように、モデル作成処理において、ステップＳ４２０からステップＳ４２４までの処理をメッセージ集合数分だけ繰り返す。図２０は、通常マルコフモデルおよび優先マルコフモデルの作成処理の一例を示す図である。
異常検知装置３００は、先ず、ログメッセージＬの集合を学習データとして通常マルコフモデルＭを作成する（ステップＳ４３０）。通常マルコフモデルＭは、例えば、シーケンスを構成するログメッセージと、当該ログメッセージ間の遷移確率を表す情報とを含む。異常検知装置３００は、学習データをマルコフモデルの機械学習アルゴリズムに入力し、機械学習アルゴリズムの出力誤差を最小にするように機械学習アルゴリズムのパラメータを調整する。次に異常検知装置３００は、作成した通常マルコフモデルＭに含まれる各ログメッセージのデュレーション値を算出する（ステップＳ４３２）。デュレーション値とは、ログメッセージ間の時間差を表す情報である。図２１は、デュレーション値の一例を示す図である。次に異常検知装置３００は、ログメッセージＬのうち優先メッセージを学習データとして優先モデルを作成する（ステップＳ４３４）。

図２２は、一つの学習データおよび複数の学習データを示す図である。優先メッセージは、一シーケンス当たりの発生数は少ないが、一シーケンス当たりの発生確率が高いログメッセージの集合である。「一シーケンス当たりの発生数は少ないログメッセージ」とは、一つの学習データの中でそれほど繰り替えして発生しないログメッセージである。優先メッセージは、例えば、任意のログメッセージの発生数よりも少ない発生数のログメッセージである。「一シーケンス当たりの発生確率が高いログメッセージ」とは、どの学習データ（Ｌ１、Ｌ２、・・・Ｌｎ）でも出現するログメッセージである。

異常検知装置３００は、図２０に示すように、メッセージ群Ａ，Ｂ，Ｃ・・・を含むログメッセージＬを用いて通常マルコフモデルＭを作成し、ログメッセージＬのうちメッセージ群Ａ，Ｃを含む優先メッセージを用いて優先マルコフモデルを作成する。また、異常検知装置３００は、メッセージ集合数分だけステップＳ４２０からステップＳ４２４までの処理を繰り返すことで、メッセージの集合数分の通常マルコフモデルおよび優先マルコフモデルの作成を行う。

（優先モデルの作成）
図２３は、優先モデルを作成する処理の処理手順の一例を示すフローチャートである。
異常検知装置３００は、ステップＳ４４０からステップＳ４４２までのブートストラップ法を、所定数だけ繰り返す。先ず異常検知装置３００は、対象となるメッセージの集合Ｘの学習データＬから所定数の学習データＬ’を抜き出し（ステップＳ４４０）、学習データＬ’の中でそれほど繰り替えして発生しないログメッセージＩＤのメッセージＬ’’を抜き出す（ステップＳ４４１）。異常検知装置３００は、例えば学習データＬ’のうち出現数が最小のログメッセージＩＤのメッセージＬ’’を抜き出してよい。これにより異常検知装置３００は、所定数の学習データＬ’のセットごとにメッセージＬ’’を含む疑似データを作成することで、複数の疑似データを含む疑似データセットを作成する（ブートストラップ法）。次に異常検知装置３００は、学習データＬ’’の１回の学習データあたりの各ログメッセージＩＤの出現確率Ｃを算出する（ステップＳ４４２）。これにより異常検知装置３００は、疑似データごとに出現確率Ｃを取得する。

次に異常検知装置３００は、出現確率Ｃの平均値Ｃ’を算出し（ステップＳ４４３）、出現確率平均値Ｃ’が所定値以上のログメッセージＩＤ（Ｚ）を取り出し（ステップＳ４４４）、対象のログメッセージの集合Ｘの学習データＬからログメッセージＩＤ（Ｚ）のメッセージＬ’’’を抜き出す（ステップＳ４４５）。次に異常検知装置３００は、学習データＬ’’’からＡＩＣを算出し（ステップＳ４４６）、学習データＬ’’’からｎ次マルコフモデルＭ’を作成する（ステップＳ４４７）。次に異常検知装置３００は、作成したマルコフモデルＭ’に含まれる各ログメッセージのデュレーション値を算出する（ステップＳ４４８）。

（デュレーション値の算出）
図２４は、デュレーション値の算出処理の処理手順の一例を示すフローチャートである。異常検知装置３００は、ステップＳ４５０～ステップＳ４６２のデュレーション値の算出処理をマルコフモデルＭ’の状態遷移数分だけ繰り返して行う。

先ず異常検知装置３００は、ブートストラップ法およびアンサンブル法によって所定数だけ、ステップＳ４５０～ステップＳ４５８の処理を繰り返す。異常検知装置３００は、日単位でデュレーション値を集計する処理として学習期間の日数分、ステップＳ４５０～ステップＳ４５４を繰り返す。まず、異常検知装置３００は、対象とする状態遷移における対象とする日のデュレーション値を、学習データから抜き出し（ステップＳ４５０）、デュレーション値のクラスタリングを行う（ステップＳ４５２）。次に異常検知装置３００は、デュレーション値の各クラスタから所定数のデュレーション値Ｃを取り出す（ステップＳ４５４）。次に異常検知装置３００は、デュレーション値Ｃの集合をクラスタリングする（ステップＳ４５６）。次に異常検知装置３００は、デュレーション値Ｃのクラスタのうちデュレーション値が所定数以下のクラスタを破棄する（ステップＳ４５８）。

次に異常検知装置３００は、デュレーション値Ｃ’の集合をクラスタリングし（ステップＳ４６０）、デュレーション値Ｃ’のクラスタの平均および偏差を算出する（ステップＳ４６２）。

（デュレーション値のクラスタリング）
図２５は、デュレーション値のクラスタリング処理を処理手順の一例を示すフローチャートである。先ず異常検知装置３００は、停止条件が成立したか否かを判定し、成立した場合には本フローチャートの処理を終了し、成立していない場合にはｋ－ｍｅａｎｓを用いてデュレーション値の集合を、２つのデュレーション値の集合（Ｄ１およびＤ２）に分割する（ステップＳ４７２）。次に異常検知装置３００は、分割されたデュレーション値の集合のそれぞれを、デュレーション値を再帰的にクラスタリングする（ステップＳ４７４）。異常検知装置３００は、停止条件が成立するまでにデュレーション値の集合の２分割、および分割された各デュレーション値の集合の再帰的なクラスタリングを繰り返す。これにより、異常検知装置３００は、複数のデュレーション値のクラスタを生成することができる。

図２６は、デュレーション値のクラスタリング処理の一例を示す図である。例えば１～１０１０［μｓｅｃ］まで複数のデュレーション値が存在するものとし、停止条件はＣＶ＜０．５且つＺ＜１であるものする。ＣＶは変動係数であり、変動係数は偏差σ／平均μであり、Ｚは平均から最大乖離度（ｍａｘ|ｘ－μ|／σ）である。異常検知装置３００は、複数のデュレーション値を、２つのデュレーション値の集合（Ｄ１，Ｄ２）に分割し、デュレーション値の集合Ｄ１をさらに、２つのデュレーション値の集合（Ｄ１１，Ｄ１２）に分割し、デュレーション値の集合Ｄ１１をさらに２つのデュレーション値の集合（Ｄ１１１，Ｄ１１２）に分割し、デュレーション値の集合Ｄ１２をさらに２つのデュレーション値の集合（Ｄ１２１，Ｄ１２２）に分割する。この結果、異常検知装置３００は、５個のデュレーション値のクラスタに分割することができる。これにより異常検知装置３００は、処理前にクラスタ数を設定していなくても、停止条件を満たすクラスタを生成することができる。

なお、デュレーション値のクラスタリング処理は、デュレーション値の大きさおよびバラツキという複数の条件に基づいてクラスタリングを行えれば、上述したｋ－ｍｅａｎｓを利用したクラスタリング処理以外の処理を行ってもよい。例えば、デュレーション値が１０００ｍｓｅｃと１０１０ｍｓｅｃとを同じクラスタとし、１ｍｓｅｃと１０ｍｓｅｃとで別のクラスタを生成できればよい。

（デュレーション値の異常の排除）
図２７は、異常値を考慮したデュレーション値のクラスタリングを説明するための図である。異常検知装置３００は、デュレーション値の異常値を排除する処理を行うことが望ましい。異常検知装置３００は、上述したように日単位で集計したデュレーション値をクラスタリングした後、全学習期間における各クラスタのサンプル数を、ブートストラップ法により所定数に補正する。次に異常検知装置３００は日単位の各クラスタのサンプル数を結合すると、学習期間に多く発生しているデュレーション値は多く積み上がり、学習期間における発生数が少ないデュレーション値は積み上がりが少ない。異常検知装置３００は、結合後のデュレーション値のうち所定の閾値よりも積み上がりが少ないデュレーション値を切り捨てることを決定する。これにより異常検知装置３００は、日単位のデュレーション値から、切り捨て対象のデュレーション値を排除することができる。この結果、異常検知装置３００は、学習期間に亘って発生回数が少ないデュレーション値を異常値として排除し、正常値からなるデュレーション値のクラスタを作成することができる。異常検知装置３００は、デュレーション値から高い精度で異常値を排除するために、複数回に亘り、日単位のデュレーション値を所定数に補正する処理、学習期間でデュレーション値を積み上げる処理、および所定の閾値よりも少ないデュレーション値を切り捨てる処理を行うことが望ましい。

デュレーション値の異常値はバースト的に発生する場合があるので、学習期間の合計回数ではなく、日単位の発生回数に基づいてデュレーション値が異常であるか否かを判定することが望ましい。しかし、デュレーション値は連続値であるため、デュレーション値に閾値を設けて異常値を判定しようとしても正確に異常値を排除することはできない。そこで、上述したように、日単位でクラスタリングしたデュレーション値の発生回数を学習期間において比較することで、日単位で発生回数が少ないデュレーション値を異常値として排除することができる。また、異常検知装置３００は、上述した処理を複数回繰り返すことでデュレーション値の精度を向上させることができる。

（マルコフモデルの高次化）
図２８は、優先マルコフモデルを高次化する処理を説明するための図である。
既知の単純マルコフモデルは１つ前のログメッセージを考慮して次のログメッセージを推定するが、異常検知装置３００は、推定精度を向上させるために、２つ前以上のログメッセージを考慮してログメッセージを推定する高次マルコフモデルを作成してよい。しかし、単純マルコフモデルに代えて高次マルコムモデルを適用すると推定精度が落ちてしまう場合がある。特に、メッセージ集合から推定されるシーケンスの長さがかなり長い場合、推定精度の劣化が起きやすい。そこで、異常検知装置３００は、高次化する範囲を制限し、優先マルコフモデルのみ高次化する部分高次化処理を行う。

異常検知装置３００は、優先メッセージを用いて高次マルコフモデル作成処理を行う。異常検知装置３００は、下記式のＡＩＣ（赤池情報量基準）を用いて次数ｋを選択し、ｋ次マルコフモデルを作成する。下記の式において、ｋηｍは尤度比統計量(likelihood ratio statistics)であり「－２×（ＬＬｋ－ＬＬｍ）」と表現され、ＬＬｋ(log likelihood for k-order markov chain)は、ｋ次マルコフチェーンの対数尤度であり、ＬＬｍ(log likelihood for m-order markov chain)は、ｍ次マルコフチェーンの対数尤度であり、Ｓ^ｍ－Ｓ^ｋ（Ｓ－１）は、尤度比検定統計量(likelihood ratio test statistics)であり、Ｓは、もともとの状態数(original number of states)である。。これにより、異常検知装置３００は、シーケンスの長さが長くても安定的に高い推定精度を得ることができる。

［シーケンス推定処理］
図２９は、シーケンス推定処理の一例を示すシーケンス図である。
監視対象システム１００は、データ処理装置２００にログメッセージを送信し、データ処理装置２００は、上述したように、コンフィグレーション情報に基づいてログメッセージを解析し（ステップＳ５０２）、ログメッセージにメッセージＩＤを追加する（ステップＳ５０４）。データ処理装置２００は、メッセージＩＤが追加されたログメッセージを異常検知装置３００に送信し、異常検知装置３００は、メッセージＩＤを用いてシーケンスを推定し（ステップＳ５０６）、シーケンスを示すシーケンス値をデータ処理装置２００に送信する。これにより、データ処理装置２００は、シーケンス値を表す情報や、当該シーケンスに関する情報をユーザ端末装置４００に提供することができる。

図３０は、シーケンス推定処理の処理手順の一例を示すシーケンス図である。異常検知装置３００は、先ずログメッセージを取り出し（ステップＳ５１０）、シーケンスを推定する。シーケンスの推定は、競合調整済である優先マルコフモデルもしくは競合調整済みでない優先マルコフモデルのいずれか、通常マルコフモデルの順で、マルコフモデルを用いて行う。競合調整済みであるマルコフモデルについては後述する。

まず、異常検知装置３００は、競合調整済である優先マルコフモデルもしくは競合調整済みでない優先マルコフモデルのいずれかの作成を行い（ステップＳ５１２）、ログメッセージの推定を行う（ステップＳ５１３）。異常検知装置３００は、競合調整済みである優先マルコフモデルの作成およびログメッセージの推定を、ステップＳ５１０で取り出したログメッセージの数分を繰り返して行う。なお、競合調整済みである優先マルコフモデルを用いない場合、競合調整済みである優先マルコフモデルの作成を行わなくてよい。異常検知装置３００は、競合調整済である優先マルコフモデルもしくは競合調整済みでない優先マルコフモデルのいずれかを用いてログメッセージの数分を繰り返してシーケンスの推定を行い、通常マルコフモデルを用いてログメッセージの数分を繰り返してシーケンスの推定を行う。

図３１は、競合調整済みマルコフモデルの作成処理の処理手順の一例を示すフローチャートである。先ず異常検知装置３００は、通常マルコフモデルの学習データと優先マルコフモデルの学習データとの間に、時間的に近いログメッセージである共通メッセージが存在するか否かを判定する（ステップＳ５２０）。異常検知装置３００は、共通メッセージがない場合（ステップＳ５２０：ＮＯ）、本フローチャートの処理を終了し、共通メッセージがある場合（ステップＳ５２０：ＹＥＳ）、ステップＳ５２２の処理を行う。ステップＳ５２２において、異常検知装置３００は、学習データから共通メッセージを除く。次に異常検知装置３００は、共通データを除いた学習データを用いて優先マルコフモデルを作成する（ステップＳ５２４）。

図３２は、競合調整済みの優先マルコフモデルの作成処理の一例を説明するための図である。例えば、優先マルコフモデルがログメッセージの集合Ｘに含まれる優先メッセージにより学習され、通常マルコフモデルがログメッセージの集合Ｙにより学習されたものとする。上述したように、異常検知装置３００は、優先マルコフモデルによりシーケンスを推定した後、通常マルコフモデルによりシーケンスを推定する。

しかし、図３２に示すようにログメッセージの集合Ｘとログメッセージの集合Ｙとが時間的に重複している場合、ログメッセージの集合Ｘの優先メッセージＸ’に含まれるが、ログメッセージの集合Ｙの優先メッセージＹ’に含まれないログメッセージＭが存在する。この場合、ログメッセージＭは、ログメッセージの集合Ｘに偏っていることになる。そこで、異常検知装置３００は、ログメッセージの集合Ｘおよびログメッセージの集合Ｙについて優先メッセージから共通メッセージＭを除外して優先マルコフモデルの作成を行う。すなわち、異常検知装置３００は、メッセージの集合Ｘに含まれる優先メッセージＸ’から共通メッセージＭを除いた共通メッセージＭ’を用いて競合調整済みの優先マルコフモデルを作成する。共通メッセージＭ’は、ログメッセージの集合Ｘに含まれる優先メッセージＸ’から、ログメッセージの集合Ｙとログメッセージの集合Ｙに含まれる優先メッセージＹ’との差分に含まれる共通ログメッセージＭを除いたログメッセージである。以上のように、異常検知装置３００によれば、時間的に近いログメッセージが一方のログメッセージの集合の優先メッセージに偏ることを回避することができる。

なお、マルコフモデルの作成時に競合調整済みの優先マルコフモデルを作成せずに、シーケンスの推定時に競合調整済みの優先マルコフモデルを作成することが望ましい。マルコフモデルの作成時には、ログメッセージの集合同士が時間的に近いタイミングで発生するか否かを判定する処理を行っていないためである。仮に、マルコフモデルの作成時に、他のマルコフモデルを作成するために用いたログメッセージと時間的に近いことを判定すると、優先メッセージが減少して優先マルコフモデルのシーケンス推定精度が低下するためである。

図３３は、ログメッセージについてのシーケンス推定処理の処理手順の一例を示すフローチャートである。まず異常検知装置３００は、対象のログメッセージについてシーケンスが推定済であるか否かを判定し（ステップＳ５３０）、対象のログメッセージについてシーケンスが推定済である場合には本フローチャートの処理を終了する（ステップＳ５３０：ＹＥＳ）。異常検知装置３００は、ログメッセージについてのシーケンスが推定済でない場合には（ステップＳ５３０：ＮＯ）、対象のログメッセージｘについてマルコフモデルの状態遷移に合致する、ログメッセージｘよりも時系列的に前のログメッセージｙを抜き出す（ステップＳ５３２）。次に異常検知装置３００は、ステップＳ５３２においてログメッセージｙの候補が存在するか否かを判定する（ステップＳ５３４）。異常検知装置３００は、ログメッセージｙの候補が存在する場合（ステップＳ５３４：ＹＥＳ）、ログメッセージｘにログメッセージｙと同じシーケンス値を付与する（ステップＳ５３６）。異常検知装置３００は、ログメッセージｙの候補が存在しない場合（ステップＳ５３４：ＮＯ）、ログメッセージｘに時間的に最も近いログメッセージを抜き出し、ログメッセージｘに、当該抜き出したログメッセージと同じシーケンス値を付与する（ステップＳ５３８）。

図３４は、優先マルコフモデルおよび通常マルコフモデルを用いたシーケンス推定処理を説明するための図である。
異常検知装置３００は、取り出したログメッセージの集合を、優先メッセージと優先メッセージ以外のログメッセージとに分割する。異常検知装置３００は、優先メッセージを優先マルコフモデルのみに入力して、優先メッセージに含まれるシーケンスを推定する。次に異常検知装置３００は、優先メッセージ以外のログメッセージを通常マルコフモデルに入力して、優先メッセージ以外のログメッセージに含まれるシーケンスを推定する。これにより、異常検知装置３００は、優先マルコフモデルによるシーケンス推定結果と、通常マルコフモデルによるシーケンス推定結果とを取得することができる。

図３５は、シーケンス推定処理の他の一例を示すフローチャートである。異常検知装置３００は、デュレーション値を利用して補助的なシーケンス推定を行ってよい。異常検知装置３００は、シーケンス推定結果を参照し、複数のシーケンス値が付与されているログメッセージを検索し、シーケンス候補が複数存在するログメッセージが存在するか否かを判定する（ステップＳ５４０）。異常検知装置３００は、複数のシーケンス値が付与されたログメッセージがない場合は（ステップＳ５４０：ＮＯ）、シーケンス推定処理を終了する。

異常検知装置３００は、複数のシーケンス値が付与されたログメッセージがある場合（ステップＳ５４０：ＹＥＳ）、ログメッセージのデュレーション値と、マルコフモデルのデュレーション値とを比較する（ステップＳ５４２）。異常検知装置３００は、推定されたシーケンスに含まれるログメッセージ間の状態遷移分のデュレーション値を計算し、計算したデュレーション値と、推定された複数のシーケンス値それぞれに対応する複数のマルコフモデルにおけるデュレーション値とを比較する。異常検知装置３００は、ログメッセージのシーケンス値と最も近いデュレーション値を持つマルコフモデルに対応するシーケンス値に決定する（ステップＳ５４４）。

図３６は、シーケンスを決定する処理を説明するための図である。例えば、ログメッセージｍ１１、ｍ１２、およびｍ１３の順に並ぶメッセージ群（シーケンスＳ１）が、シーケンスＳ２およびシーケンスＳ３であると推定されたとする。この場合、異常検知装置３００は、シーケンスＳ１のデュレーション値ｄ１１およびｄ１２を計算し、計算したｄ１１およびｄ１２とシーケンスＳ２のデュレーション値ｄ２１およびｄ２２との差が、計算したｄ１１およびｄ１２とシーケンスＳ３のデュレーション値ｄ３１およびｄ３２との差よりも大きいと判定する。この結果、異常検知装置３００は、メッセージ群（シーケンスＳ１）がシーケンスＳ３であることを推定することができる。

［異常判定処理］
図３７は、異常判定処理の処理手順の一例を示すフローチャートである。異常検知装置３００は、シーケンス推定処理によりシーケンス値が付与されたログメッセージＸの数分を、異常判定処理（ステップＳ６１０）を繰り返して行う。異常検知装置３００は、異常判定処理により異常であることが判定されたログメッセージＸに対応づけて、異常フラグを検知結果蓄積部２０８に書き込む（ステップＳ６１２）。

図３８は、異常判定処理の処理内容の一例を示すフローチャートである。異常検知装置３００は、対象とするログメッセージＸについて優先マルコフモデルおよび通常マルコフモデルの何れか一つのマルコフモデルに一致するか否かを判定し（ステップＳ６１０）、何れか一つのマルコフモデルに一致する場合（ステップＳ６１０：ＹＥＳ）、デュレーション値に一致するか否かを判定する（ステップＳ６１２）。

異常検知装置３００は、優先マルコフモデルおよび通常マルコフモデルの何れか一つのマルコフモデルに一致しない場合（ステップＳ６１０：ＮＯ）、対象とするログメッセージＸについての異常フラグをＯＮに設定する（ステップＳ６１４）。異常検知装置３００は、一致したマルコフモデルにおけるデュレーション値に、対象とするログメッセージＸと同じシーケンス値のログメッセージ間のデュレーション値が一致しない場合（ステップＳ６１２：ＮＯ）、対象とするログメッセージＸについての異常フラグをＯＮに設定する（ステップＳ６１４）。

＜実施形態の効果＞
以上説明したように、実施形態のシーケンス推定システム１によれば、監視対象システム１００からログメッセージを収集し、収集したログメッセージのうち相関が高いログメッセージの集合を取得し、ログメッセージの集合に含まれるログメッセージ間の時間差に基づいてログメッセージの順序を推定し、推定した順序で配列した複数のログメッセージを含むシーケンスを学習データとして取得し、学習データを用いて、ログメッセージを入力とし複数のログメッセージを含むシーケンスを推定した結果を出力する推定モデルを学習させることができる。これによりシーケンス推定システム１によれば、ログメッセージが時間的に高密度に発生しても学習データを取得することができる。

なお、各実施形態および変形例について説明したが、一例であってこれらに限られず、例えば、各実施形態や各変形例のうちのいずれかや、各実施形態の一部や各変形例の一部を、他の１または複数の実施形態や他の１または複数の変形例と組み合わせて本発明の一態様を実現させてもよい。

なお、本実施形態におけるデータ処理装置２００や異常検知装置３００の各処理を実行するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、当該記録媒体に記録されたプログラムを、コンピュータシステムに読み込ませ、実行することにより、データ処理装置２００や異常検知装置３００に係る上述した種々の処理を行ってもよい。

なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器などのハードウェアを含むものであってもよい。また、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、フラッシュメモリなどの書き込み可能な不揮発性メモリ、ＣＤ－ＲＯＭなどの可搬媒体、コンピュータシステムに内蔵されるハードディスクなどの記憶装置のことをいう。

さらに「コンピュータ読み取り可能な記録媒体」とは、インターネットなどのネットワークや電話回線などの通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ（例えばＤＲＡＭ（Ｄｙｎａｍｉｃ
ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ））のように、一定時間プログラムを保持しているものも含むものとする。また、上記プログラムは、このプログラムを記憶装置などに格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。

ここで、プログラムを伝送する「伝送媒体」は、インターネットなどのネットワーク（通信網）や電話回線などの通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であってもよい。

１シーケンス推定システム
１００監視対象システム
２００データ処理装置
２０２フォーマット変換部
２０４データ処理部
２０６ログデータ蓄積部
２０８検知結果蓄積部
２１０可視化部
３００異常検知装置
３１０コンフィグレーション作成部
３２０メッセージ登録部
３３０学習部
３３２メッセージ集合推定部
３３４モデル作成部
３４０推定部
３４２シーケンス推定部
３４４異常判定部
４００ユーザ端末装置

Claims

監視対象システムからログメッセージを収集する収集部と、
前記収集部により収集したログメッセージのうち相関が高いログメッセージの集合を取得する集合取得部と、
前記集合取得部により取得された前記ログメッセージの集合に含まれるログメッセージ間の時間差に基づいてログメッセージの順序を推定し、推定した順序で配列した複数のログメッセージを含むシーケンスを学習データとして取得する学習データ取得部と
前記学習データ取得部により取得された学習データを用いて、前記収集部により収集したログメッセージを入力とし複数のログメッセージを含むシーケンスを推定した結果を出力する推定モデルを学習させる学習部と、
を備える、学習装置。
前記複数のログメッセージをクラスタリングし、クラスタリングされたログメッセージを識別する識別子を設定するクラスタリング部を備え、
前記集合取得部は、前記クラスタリング部により同じ識別子が設定された複数のログメッセージを、前記ログメッセージの集合として取得する、請求項１に記載の学習装置。
前記学習データ取得部は、
前記集合取得部により取得された前記ログメッセージの集合において連続的にログメッセージが発生していない場合には、前記ログメッセージの集合の発生時刻に基づいて学習データを取得し、
前記集合取得部により取得された前記ログメッセージの集合において連続的にログメッセージが発生している場合には、前記ログメッセージの集合からサンプリングしたログメッセージの集合におけるログメッセージ間の時間差に基づいてログメッセージの順序を推定し、推定した順序で配列した複数のログメッセージを含むシーケンスを学習データとして取得する、請求項１または２に記載の学習装置。
前記学習データ取得部は、
前記集合取得部により取得された前記ログメッセージの集合において連続的にログメッセージが発生している場合において、
前記ログメッセージの集合における対象となるログメッセージと他のログメッセージ間の時間差分を算出し、確率密度が最大となる時間差分を算出し、
確率密度が最大となる時間差分をソートすることで前記ログメッセージのシーケンスを推定し、
前記シーケンスに含まれるログメッセージを学習データとして収集する、
請求項１から３のうち何れか１項に記載の学習装置。
情報処理装置が、監視対象システムからログメッセージを収集するステップと、
前記情報処理装置が、前記ログメッセージのうち相関が高いログメッセージの集合を取得するステップと、
前記情報処理装置が、前記ログメッセージの集合に含まれるログメッセージ間の時間差に基づいてログメッセージの順序を推定し、推定した順序で配列した複数のログメッセージを含むシーケンスを学習データとして取得するステップと、
前記情報処理装置が、前記学習データを用いて、前記ログメッセージを入力とし複数のログメッセージを含むシーケンスを推定した結果を出力する推定モデルを学習させるステップと、
を含む、学習方法。
コンピュータに、
監視対象システムからログメッセージを収集するステップと、
前記ログメッセージのうち相関が高いログメッセージの集合を取得するステップと、前記ログメッセージの集合に含まれるログメッセージ間の時間差に基づいてログメッセージの順序を推定し、推定した順序で配列した複数のログメッセージを含むシーケンスを学習データとして取得するステップと、
前記学習データを用いて、前記ログメッセージを入力とし複数のログメッセージを含むシーケンスを推定した結果を出力する推定モデルを学習させるステップと、
を実行させる、プログラム。