JP6988827B2 - 異常識別システム、方法及びプログラム - Google Patents

異常識別システム、方法及びプログラム Download PDF

Info

Publication number
JP6988827B2
JP6988827B2 JP2018556575A JP2018556575A JP6988827B2 JP 6988827 B2 JP6988827 B2 JP 6988827B2 JP 2018556575 A JP2018556575 A JP 2018556575A JP 2018556575 A JP2018556575 A JP 2018556575A JP 6988827 B2 JP6988827 B2 JP 6988827B2
Authority
JP
Japan
Prior art keywords
partial
log
logs
model
minority
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018556575A
Other languages
English (en)
Other versions
JPWO2018110327A1 (ja
Inventor
育大 網代
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2018110327A1 publication Critical patent/JPWO2018110327A1/ja
Application granted granted Critical
Publication of JP6988827B2 publication Critical patent/JP6988827B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0778Dumping, i.e. gathering error/state information after a fault for later diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3447Performance evaluation by modeling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/86Event-based monitoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Debugging And Monitoring (AREA)

Description

本発明は、システムが出力するデータに含まれる異常を識別する異常識別システム、方法及び記録媒体に関する。
システム等に異常が発生した際には、生成されているログ等を分析、解析することにより、異常の原因を特定することが行われる。特許文献1には、設備等に装着されたセンサから出力される多次元時系列センサ信号を用いて設備等の異常を検知する方法が記載されている。
特許文献1に記載された方法は、多次元時系列センサ信号のうち予め指定された区間のセンサ信号から一部の区間のセンサ信号を除外して学習データを作成し、作成した学習データから異常判定しきい値を算出する。異常の検知に際しては、学習データを用いて正常モデルを作成する。また、多次元時系列センサ信号から特徴ベクトルを観測ベクトルとして抽出する。さらに、抽出した観測ベクトルと作成した正常モデルとを用いて観測ベクトルの異常測度を算出する。こうして算出した観測ベクトルの異常測度と異常判定しきい値とを比較して設備等の異常を検知する。
特開2015−114967号公報
しかしながら、特許文献1に記載された方法は、観測ベクトルの異常測度を算出しているが、この異常の度合いを表す異常測度を定義する必要があるため、ユーザの負担が大きいという問題がある。
また、特許文献1に記載された方法は、学習データを作成する学習期間中の各区間について、当該区間のセンサ信号を除いた残りのセンサ信号から学習データを作成するとともに、当該区間のセンサ信号から抽出した特徴ベクトルの異常測度を算出する必要がある。このため、特許文献1に記載された方法では、計算量が大きいという問題もある。
本発明は、ユーザの負担を軽減しつつ、小さい計算量で対象システムにおける異常を識別することができる異常識別システム、方法及び記録媒体を提供することを目的とする。
本発明の一観点によれば、所定の条件に従って対象ログから3つ以上の複数の部分ログを抽出するログ抽出部と、前記ログ抽出部により抽出された前記複数の部分ログからモデルを生成するモデル化部と、前記モデル化部により生成された前記モデルと前記モデルの生成に寄与した前記部分ログとの対応関係を取得する対応関係取得部と、前記対応関係取得部により取得された前記対応関係に基づき、前記複数の部分ログを、前記モデルの生成への寄与の有無に応じて2つの部分ログ群に分類し、前記2つの部分ログ群のうち、より少ない前記部分ログを含む少数派の部分ログ群を決定し、前記少数派の部分ログ群に基づき、前記複数の部分ログのうち、前記モデルの生成への寄与の有無に関する特異性が最も高い部分ログを決定する決定部とを有することを特徴とする異常識別システムが提供される。
本発明の他の観点によれば、所定の条件に従って対象ログから3つ以上の複数の部分ログを抽出し、前記複数の部分ログからモデルを生成し、前記モデルと前記モデルの生成に寄与した前記部分ログとの対応関係を取得し、前記対応関係に基づき、前記複数の部分ログを、前記モデルの生成への寄与の有無に応じて2つの部分ログ群に分類し、前記2つの部分ログ群のうち、より少ない前記部分ログを含む少数派の部分ログ群を決定し、前記少数派の部分ログ群に基づき、前記複数の部分ログのうち、前記モデルの生成への寄与の有無に関する特異性が最も高い部分ログを決定することを特徴とする異常識別方法が提供される。
本発明のさらに他の観点によれば、コンピュータに、所定の条件に従って対象ログから3つ以上の複数の部分ログを抽出し、前記複数の部分ログからモデルを生成し、前記モデルと前記モデルの生成に寄与した前記部分ログとの対応関係を取得し、前記対応関係に基づき、前記複数の部分ログを、前記モデルの生成への寄与の有無に応じて2つの部分ログ群に分類し、前記2つの部分ログ群のうち、より少ない前記部分ログを含む少数派の部分ログ群を決定し、前記少数派の部分ログ群に基づき、前記複数の部分ログのうち、前記モデルの生成への寄与の有無に関する特異性が最も高い部分ログを決定することを実行させることを特徴とするプログラムが記録された記録媒体が提供される。
本発明によれば、ユーザの負担を軽減しつつ、小さい計算量で対象システムにおける異常を識別することができる。
本発明の一実施形態による異常識別システム及び対象システムを示す概略図である。 本発明の一実施形態による異常識別システムの機能構成を示すブロック図である。 本発明の一実施形態による異常識別システムのハードウェア構成の一例を示すブロック図である。 本発明の一実施形態による異常識別システムを用いた異常識別方法を示すフローチャートである。 ログ中の時間情報に基づき抽出された部分ログの例を示す図である。 部分ログについて生成されたモデルの例を示す図である。 マージされたモデルとモデルが得られた部分ログとの対応関係を示す対応表の例を示す図である。 マージされたモデルとモデルが得られた部分ログとの対応関係を示す対応表の他の例を示す図である。 本発明の他の実施形態による異常識別システムの機能構成を示すブロック図である。
[一実施形態]
本発明の一実施形態による異常識別システム及び異常識別方法について図1乃至図8を用いて説明する。
まず、本実施形態による異常識別システム及び異常を識別すべき対象である対象システムを含む概略構成について図1を用いて説明する。図1は、本実施形態による異常識別システム及び対象システムを示す概略図である。
図1に示すように、本実施形態による異常識別システム1には、異常識別システム1による処理の対象となるログを生成して出力する一又は複数の対象システム2がネットワーク3を介して通信可能に接続されている。ネットワーク3は、例えば、LAN(Local Area Network)、WAN(Wide Area Network)であるが、その種別が限定されるものではない。また、ネットワーク3は、有線のネットワークであってもよいし、無線のネットワークであってもよい。
対象システム2は、特定のシステムに限定されるものではないが、例えばIT(Information Technology)システムである。ITシステムは、サーバ、クライアント端末、ネットワーク機器その他の情報機器等の機器や、機器上で動作するシステム・ソフトウェア、アプリケーション・ソフトウェア等のソフトウェアにより構成される。対象システム2は、稼動中に発生したイベントの内容、稼働中の状況等を記録したログを生成する。対象システム2により生成されたログは、本実施形態による異常識別システム1に入力されて処理される。なお、本実施形態による異常識別システム1は、ログを生成するシステム、機器、装置であれば、あらゆるものを対象とすることができ、監視対象が生成するログを処理することができる。
本実施形態による異常識別システム1には、対象システム2において生成されたログがネットワーク3を介して入力されるようになっている。対象システム2から異常識別システム1にログを入力する態様は、特に限定されるものではなく、対象システム2の構成等に応じて適宜選択することができる。
例えば、対象システム2における通知エージェントが、対象システム2において生成されたログを異常識別システム1に送信することにより、異常識別システム1にログを入力することができる。ログを送信するプロトコルは、特に限定されるものではなく、ログを生成するシステムの構成等に応じて適宜選択することができる。例えば、プロトコルとして、syslogプロトコル、FTP(File Transfer Protocol)、FTPS(File Transfer Protocol over TLS(Transport Layer Security)/SSL(Secure Sockets Layer))、SFTP(SSH(Secure Shell) File Transfer Protocol)を用いることができる。また、対象システム2が、生成したログを異常識別システム1とファイル共有で共有することにより、異常識別システム1にログを入力することができる。ログを共有するファイル共有は、特に限定されるものではなく、ログを生成するシステムの構成等に応じて適宜選択することができる。例えば、ファイル共有として、SMB(Server Message Block)又はこれを拡張したCIFS(Common Internet File System)によるファイル共有を用いることができる。
なお、本実施形態による異常識別システム1は、必ずしも対象システム2とネットワーク3を介して通信可能に接続されている必要はない。例えば、異常識別システム1は、対象システム2からログを収集するログ収集システム(不図示)とネットワーク3を介して通信可能に接続されていてもよい。この場合、対象システム2で生成されたログは、一旦、ログ収集システムにより収集され、ログ収集システムからネットワーク3を介して異常識別システム1に入力される。また、本実施形態による異常識別システム1は、対象システム2で生成されたログを記録した記録媒体からログを取得することもできる。この場合、対象システム2は、ネットワークを介して異常識別システム1に接続されている必要はない。
以下、本実施形態による異常識別システム1の具体的構成についてさらに図2及び図3を用いて説明する。図2は、本実施形態による異常識別システムの機能構成を示すブロック図である。図3は、本実施形態による異常識別システムのハードウェア構成の一例を示すブロック図である。
図2に示すように、本実施形態による異常識別システム1は、対象システム2における異常を識別するための各種の処理を実行する処理部10を有している。また、異常識別システム1は、対象システム2で生成されたログを格納する記憶部20を有している。さらに、異常識別システム1は、処理結果が出力されて表示される表示部30を有している。
処理部10は、ログ取得部102と、ログ分割要求取得部104と、ログ抽出部106と、モデル化部108と、モデルマージ部110と、決定部112と、出力部114とを有している。
記憶部20は、対象システム2で生成されたログを格納するログ格納部202を有している。ログ格納部202に格納されるログは、後述するようにログ抽出部106により抽出される第1の部分ログPL1、第2の部分ログPL2及び第3の部分ログPL3を含んでいる。なお、本実施形態では、部分ログの数が3である場合を例に説明するが、部分ログの数はこれに限定されるものではない。部分ログの数は、3以上の複数であればよい。記憶部20は、例えば記憶媒体により構成される。記憶部20は、同一の記憶媒体により構成されてもよいし、複数の記憶媒体により構成されてもよい。
表示部30は、処理部10により出力される処理の結果を表示するものである。表示部30は、ディスプレイ、プリンタ等の出力装置により構成される。
本実施形態による異常識別システム1による処理の対象となるログは、対象システム2又はこれに含まれる構成要素により定期又は不定期に生成されて出力されたものである。ログは、対象システム2又はこれに含まれる構成要素の稼働中に発生したイベントの内容、稼働中の状況等が記録されたものである。例えば、ログは、ある時刻に発生したイベント、ある時刻における状況を示すメッセージになっている。また、ログは、イベントの内容等のほか、生成された時刻を示すタイムスタンプ、そのログを生成した構成要素のIP(Internet Protocol)アドレス、そのログを生成した構成要素の名称等の他の情報をさらに含むことができる。また、ログは、例えば、一行又は複数行のテキストデータであり、情報の単位として1以上のフィールドを含むことができる。複数のフィールドは、セパレータ又はデリミタにより区切られていてもよいし、区切られずに連続するものであってもよい。連続するフィールドは、単語、形態素、文字種等により分離することができる。
本実施形態において、部分ログは、異常識別のための処理の対象となる対象ログの部分集合である。部分ログは、対象ログのうち、例えばログ中に含まれる時刻情報、ログ中に含まれるIPアドレス、ログが採取された採取時刻等に関する特定の条件に合致するログデータにより構成される。
ログ格納部202は、異常識別システム1に入力される対象ログを格納するものである。ログ格納部202に格納された対象ログは、後述するように、ログ抽出部106により、例えば第1の部分ログPL1、第2の部分ログPL2及び第3の部分ログPL3に分割されて抽出されることになる。ログ格納部202には、定期若しくは不定期に又はリアルタイムに対象ログが入力され、ログ格納部202に格納される対象ログが追加更新される。
本実施形態による異常識別システム1は、対象ログを処理することにより対象システム2における異常を識別するものである。以下、処理部10に含まれる各部について詳述する。
ログ取得部102は、異常識別システム1に入力される対象ログを取得して記憶部20のログ格納部202に格納するものである。異常識別システム1には、対象システム2で生成されたログである対象ログが、定期若しくは不定期に又はリアルタイムに入力される。ログ取得部102は、こうして入力される対象ログをログ格納部202に格納する。
ログ分割要求取得部104は、ログ格納部202に格納された対象ログの分割の実行を要求するログ分割要求を外部から取得してログ抽出部106に入力するものである。対象ログの分割は、対象ログから部分ログを抽出するための処理である。ログ分割要求は、例えば、キーボード、タッチパネル等の入力装置により外部から異常識別システム1に入力することができる。また、ログ分割要求は、対象ログを分割するための分割条件として、例えば、ログ中に含まれる時刻情報、ログ中に含まれるIPアドレス、ログが採取された採取時刻等に関する条件を含んでいる。また、ログ分割要求は、分割を行って部分ログを抽出すべき対象ログの時間的範囲等の範囲を指定することができる。
ログ抽出部106は、ログ分割要求取得部104から入力されるログ分割要求に従って、ログ格納部202に格納された対象ログを分割して対象ログから部分ログを抽出するものである。ログ抽出部106は、所定の条件である分割要求の分割条件に従って対象ログが分割された分割部分を部分ログとして抽出する。また、分割要求により分割を行って部分ログを抽出すべき対象ログの範囲が指定されている場合には、その指定された範囲で部分ログを抽出する。例えば、ログ抽出部106は、分割要求の分割条件に従って対象ログを3つに分割し、3つの分割部分を第1の部分ログPL1、第2の部分ログPL2及び第3の部分ログPL3として抽出する。なお、ログ抽出部106が抽出する部分ログ数は、3つに限定されるものではなく、分割条件に従った3つ以上の複数であればよい。
モデル化部108は、ログ抽出部106により抽出された複数の部分ログの各部分ログに対してモデル化を行うものである。モデル化部108は、複数の部分ログの各部分ログについて、ログの内容や出現の態様に関する規則性、ログのパターン等を表現したモデルを生成する。例えば、モデル化部108は、ログ抽出部106により抽出された第1の部分ログPL1、第2の部分ログPL2及び第3の部分ログPL3についてそれぞれモデル化を行う。これにより、モデル化部108は、第1の部分ログPL1、第2の部分ログPL2及び第3の部分ログPL3についてそれぞれ第1のモデルM1、第2のモデルM2及び第3のモデルM3を生成する。なお、モデル化部108により部分ログについて生成されるモデルは、通常、複数のモデルを含むモデル群である。
モデル化部108による部分ログのモデル化の手法としては、例えば、国際公開第2013/136418号、Xia Ning, Geoff Jiang, Haifeng Chen and Kenji Yoshihira, HLAer: a System for Heterogeneous Log Analysis, 2014 SDM Workshop on Heterogeneous Learning, April, 2014に記載された手法を用いることができる。なお、モデル化の手法は、特に限定されるものではなく、種々の手法を用いることができる。例えば、モデルは、ログ間の共起関係や順序関係に関するものであってもよい。また、対象ログを構成するログデータは数値時系列データ等の数値データであってもよく、この場合、モデルは項目間の相関関係等に関するものであってもよい。
モデルマージ部110は、モデル化部108により複数の部分ログの各部分ログについて生成された複数のモデルをマージするものである。さらに、モデルマージ部110は、マージされた複数のモデルの各モデルとそのモデルの生成に寄与した部分ログとの対応関係を取得する対応関係取得部として機能する。モデルマージ部110は、複数のモデルのマージにおいて、複数の部分ログで生成された同一内容の複数のモデルを単一のモデルに統合する。対応関係取得部として機能するモデルマージ部110は、例えば、マージされた複数のモデルの各モデルとそのモデルの生成に寄与した部分ログとの対応関係を示す対応表を作成することによりその対応関係を取得する。
決定部112は、モデルマージ部110により取得されたマージされた複数のモデルの各モデルとそのモデルの生成に寄与した部分ログとの対応関係に基づき、複数のモデルの生成への寄与の有無に関する特異性が最も高い部分ログを決定するものである。複数のモデルの生成への寄与の有無に関する特異性が最も高い部分ログは、後述するように、異常を含む可能性がある部分ログである。
例えば、決定部112は、前記対応関係に基づき、複数の部分ログのうちの、マージされた複数のモデルの各モデルの成立の有無に関する少数派の部分ログ群を決定する。すなわち、決定部112は、マージされた複数のモデルの各モデルについて、モデルの生成への寄与の有無に応じて2つの部分ログ群に分類し、2つの部分ログ群のうち、より少ない部分ログを含む少数派の部分ログ群を決定する。なお、少数派の部分ログ群には、複数の部分ログが含まれる場合もあれば、1つのみの部分ログが含まれる場合もある。2つの部分ログ群のうち、より多い部分ログを含む部分ログ群、すなわち少数派の部分ログ群でない多数派の部分ログ群には、2つ以上の複数の部分ログが含まれる。
さらに、決定部112は、複数のモデルの各モデルについて決定した少数派の部分ログ群に含まれる部分ログのそれぞれに所定の値であるペナルティを付与する。ペナルティは、適当な定数、具体的には例えば1とすることができる。そして、決定部112は、複数の部分ログの各部分ログについて、複数のモデルの全モデルに関するペナルティを合計する。決定部112は、複数の部分ログのうち、全モデルに関するペナルティの合計が最も高い部分ログを、複数のモデルの生成への寄与の有無に関する特異性が最も高い部分ログとして決定することができる。決定部112は、こうして決定した特異性の最も高い部分ログを出力部114に通知する。
なお、ペナルティを付与する際、決定部112は、部分ログの総数に対する少数派の部分ログ群に含まれる部分ログの数の比率に応じたペナルティを付与することができる。これにより、部分ログの総数に対する比率のより低い少数派の部分ログ群に含まれる部分ログに対して、より高いペナルティを付与することができる。例えば部分ログの総数をN、少数派の部分ログ数をMとして、M/Nの対数を用いてペナルティを付与することができる。すなわち、ペナルティは、例えば、自然対数を用いて、−log(M/N)で計算することができる。
また、決定部112は特異性の最も高い部分ログの決定とともに、計算されたペナルティの合計の高い順に複数の部分ログをランキングし、そのランキング結果を出力部114に通知することもできる。なお、決定部112は、計算されたペナルティの合計に基づき複数の部分ログをランキングすればよく、計算されたペナルティの合計の低い順に複数の部分ログをランキングすることもできる。
対象システム2で生成されるログに含まれる異常が少数であるという仮定をおくと、決定部112により決定された特異性の最も高い部分ログは、異常を含む可能性があるとみなすことができる。また、ペナルティの合計の高い順に部分ログをランキングしたランキング結果は、異常を含む可能性が高い順に部分ログを並べたものとみなすことができる。したがって、決定部112により得られた特異性の最も高い部分ログ又はペナルティの合計のランキング結果に基づき、異常を含む可能性のある部分ログを決定することができる。こうして、本実施形態による異常識別システム1は、対象システム2における異常を識別して特定することが可能となる。
なお、決定部112は、少数派の部分ログ群に含まれる部分ログにペナルティを付与することに代えて、少数派の部分ログ群でない多数派の部分ログ群に含まれる部分ログに報酬を付与することもできる。この場合、決定部112は、複数の部分ログのうち、各モデルについて上述のように決定した少数派の部分ログ群でない多数派の部分ログ群に含まれる各部分ログに所定の値である報酬を付与する。そして、決定部112は、複数の部分ログの各部分ログについて全モデルに関する報酬を合計する。決定部112は、複数の部分ログのうち、全モデルに関する報酬の合計が最も低い部分ログを、複数のモデルの生成への寄与の有無に関する特異性が最も高い部分ログとして決定することができる。
なお、報酬を付与する際、決定部112は、部分ログの総数に対する多数派の部分ログ群に含まれる部分ログの数の比率に応じた報酬を付与することができる。これにより、部分ログの総数に対する比率のより高い多数派の部分ログ群に含まれる部分ログに対して、より高い報酬を付与することができる。
また、決定部112は特異性の最も高い部分ログの決定とともに、計算された報酬の合計の低い順に複数の部分ログをランキングし、そのランキング結果を出力部114に通知することもできる。なお、決定部112は、計算された報酬の合計に基づき複数の部分ログをランキングすればよく、計算された報酬の合計の高い順に複数の部分ログをランキングすることもできる。
上述のように、対象システム2で生成されるログに含まれる異常が少数であるという仮定をおくと、決定部112により決定された、マージされた複数のモデルの成立の有無に関する少数派の部分ログは、異常を含んでいる可能性が高いとみなすことができる。また、報酬の合計の低い順に部分ログをランキングしたランキング結果は、異常を含む可能性が高い順に部分ログを並べたものとみなすことができる。したがって、決定部112により得られた特異性の最も高い部分ログ又は報酬の合計のランキング結果に基づき、対象システム2における異常を識別して特定することが可能となる。
出力部114は、決定部112により通知された、異常を含む可能性のある部分ログである特異性の最も高い部分ログを、表示部30に出力して表示部30に表示させるものである。また、出力部114は、モデルマージ部110により作成された各モデルとそのモデルの生成に寄与した部分ログとの対応関係を示す対応表を表示部30に出力して表示部30に表示させることもできる。
上述した異常識別システム1は、例えばコンピュータ装置により構成される。異常識別システム1のハードウェア構成の一例について図3を用いて説明する。なお、異常識別システム1は、単一の装置により構成されていてもよいし、有線又は無線で接続された2つ以上の物理的に分離された装置により構成されていてもよい。
異常識別システム1は、図3に示すように、CPU(Central Processing Unit)1002と、ROM(Read Only Memory)1004と、RAM(Random Access Memory)1006と、HDD(Hard Disk Drive)1008とを有している。また、異常識別システム1は、通信インターフェース(I/F(Interface))1010を有している。また、異常識別システム1は、ディスプレイコントローラ1012と、ディスプレイ1014とを有している。さらに、異常識別システム1は、入力装置1016を有している。CPU1002、ROM1004、RAM1006、HDD1008、及び通信I/F1010、ディスプレイコントローラ1012、及び入力装置1016は、共通のバスライン1018に接続されている。
CPU1002は、異常識別システム1の全体の動作を制御する。また、CPU1002は、上記処理部10におけるログ取得部102、ログ分割要求取得部104、ログ抽出部106、モデル化部108、モデルマージ部110、決定部112、及び出力部114の各部の機能を実現するプログラムを実行する。CPU1002は、HDD1008等に記憶されたプログラムをRAM1006にロードして実行することにより、処理部10における各部の機能を実現する。
ROM1004は、ブートプログラム等のプログラムが記憶されている。RAM1006は、CPU1002がプログラムを実行する際のワーキングエリアとして使用される。また、HDD1008には、CPU1002が実行するプログラムが記憶されている。
また、HDD1008は、上記記憶部20におけるログ格納部202の機能を実現する記憶装置である。なお、ログ格納部202の機能を実現する記憶装置は、HDD1008に限定されるものではない。種々の記憶装置をログ格納部202の機能を実現するものとして用いることができる。
通信I/F1010は、ネットワーク3に接続されている。通信I/F1010は、ネットワーク3に接続された対象システム2との間のデータの通信を制御する。通信I/F1010は、CPU1002とともに処理部10におけるログ取得部102の機能を実現する。
ディスプレイコントローラ1012は、表示部30として機能するディスプレイ1014が接続されている。ディスプレイコントローラ1012は、CPU1002とともに出力部114として機能し、決定部112により決定された少数派の部分ログをディスプレイ1014に表示させる。また、出力部114として機能するディスプレイコントローラ1012は、モデルマージ部110により作成された各モデルとそのモデルが生成された部分ログとの対応関係を示す対応表をディスプレイ1014に表示させる。
入力装置1016は、例えば、キーボード、マウス等である。また、入力装置1016は、ディスプレイ1014に組み込まれたタッチパネルであってもよい。異常識別システム1のオペレータは、入力装置1016を介して、異常識別システム1の設定を行ったり、処理の実行の指示を入力したりすることができる。
なお、異常識別システム1のハードウェア構成は、上述した構成に限定されるものではなく、種々の構成とすることができる。
次に、上記本実施形態による異常識別システム1を用いた異常識別方法についてさらに図4乃至図8を用いて説明する。図4は、本実施形態による異常識別システムを用いた異常識別方法を示すフローチャートである。図5は、ログ中の時間情報に基づき抽出された部分ログの例を示す図である。図6は、部分ログについて生成されたモデルの例を示す図である。図7及び図8は、それぞれマージされたモデルとモデルが得られた部分ログとの対応関係を示す対応表の例を示す図である。
異常識別システム1には、対象システム2で生成されたログが定期若しくは不定期に又はリアルタイムに入力される。ログ取得部102は、異常識別システム1に入力されるログをログ格納部202に格納する。こうして、ログ格納部202に格納されるログが定期若しくは不定期に又はリアルタイムに追加更新されている。
まず、異常識別システム1には、入力装置1016等を介して外部からログ分割要求が入力される。ログ分割要求取得部104は、異常識別システム1に入力されたログ分割要求を取得する(ステップS10)。ログ分割要求は、ログ格納部202に格納された対象ログから部分ログを抽出するための対象ログの分割の実行を要求するものである。
ログ分割要求は、対象ログを分割するための分割条件として、例えば、ログ中に含まれる時刻情報、ログが採取された採取時刻等に関する条件を含むことができる。具体的には、ログ分割要求として、対象ログを、ログ中に含まれる時刻情報や採取時刻等に基づき、「9:00から17:59まで」、「18:00から4:49まで」、及び「5:00から8:59」までの時間帯で3つに分割することを要求するものが例示される。また、ログ分割要求として、対象ログを、ログ中に含まれるIPアドレスに基づき、「192.168.10.1から192.168.10.99まで」、「192.168.10.100から192.168.10.199まで」、「192.168.10.200から192.168.10.255まで」、及びそれ以外のIPアドレスの範囲で4つに対象ログを分割することを要求するものが例示される。
なお、ログ格納部202に長期間にわたるログが格納されている場合等には、ログ分割要求は、上記の分割条件に加えて、分割を行うべき対象ログの時間的範囲を指定することができる。例えば、ログ分割要求は、分割を行うべき対象ログの時間的範囲を、「2016年9月1日から30日まで」のように期間で指定することができる。
ログ分割要求取得部104は、取得したログ分割要求をログ抽出部106に入力する。
次いで、ログ抽出部106は、ログ分割要求取得部104から入力されたログ分割要求に従って、ログ格納部202に格納された対象ログを分割して、対象ログの分割部分を部分ログとして抽出する(ステップS12)。
図5は、ログ中の時刻情報に基づきログ抽出部106により対象ログから抽出された3つの部分ログの例を示している。図5に示すように、抽出された3つの部分ログである第1の部分ログPL1、第2の部分ログPL2及び第3の部分ログPL3は、互いにログ中の時刻情報が異なる範囲内のものとなっている。なお、図5では、ログとしてsyslog等のようなテキストログを例示しているが、ログは性能統計データ等のような数値データであってもよい。
次いで、モデル化部108は、ログ抽出部106により抽出された複数の部分ログのうち、モデル化が未実行の部分ログがあるか否かを判定する(ステップS14)。モデル化が未実行の部分ログがある場合(ステップS14、YES)、モデル化部108は、モデル化が未実行の部分ログに対してモデル化を行う(ステップS16)。
部分ログに対するモデル化では、モデル化部108は、部分ログについて、ログの内容や出現の態様に関する規則性、ログのパターン等を表現したモデルを生成する。なお、モデル化部108による部分ログのモデル化の手法としては、上述のように、特に限定されるものではなく、種々の手法を用いることができる。
ステップS16の後、ステップS14に移行して、モデル化が未実行の部分ログがなくなるまでステップS14、S16を繰り返す。これにより、ログ抽出部106により抽出された複数の部分ログの各部分ログについて、ログの内容や出現の態様に関する規則性、ログのパターン等を表現したモデルを作成する。
図6は、ログ抽出部106により抽出された各部分ログに含まれるテキストログのフォーマットをモデル化(学習)した例を示している。図6に示す第1のモデルM1、第2のモデルM2及び第3のモデルM3は、それぞれ図5に示す第1の部分ログPL1、第2の部分ログPL2及び第3の部分ログPL3についてモデル化により生成されたモデルである。図6において、<>で囲まれたフィールドは、フォーマットにおける変数部分に対応している。<TimeStamp>は時刻、<IP address>はIPアドレスを意味している。モデル化されたログにおいては、変数部分が具体的な時刻やIPアドレスになっている。
モデル化が未実行の部分ログがなくなると(ステップS14、NO)、モデルマージ部110は、モデル化部108により複数の部分ログの各部分ログについて生成された複数のモデルをマージする(ステップS18)。また、モデルマージ部110は、マージされた複数のモデルの各モデルとそのモデルの生成に寄与した部分ログとの対応関係を取得する。例えば、モデルマージ部110は、マージされた複数のモデルの各モデルとそのモデルの生成に寄与した部分ログとの対応関係を示す対応表を作成してその対応関係を取得する。
図7は、モデルマージ部110によりマージされた複数のモデルの各モデルとそのモデルの生成に寄与した部分ログとの対応関係を示す対応表の例を示している。図7に示す対応表T1には、図6に示す第1のモデルM1、第2のモデルM2及び第3のモデルM3にそれぞれ含まれる複数のモデルの各モデルがマージされている。また、図7に示す対応表T1には、マージされた各モデルが、図5に示す第1の部分ログPL1、第2の部分ログPL2及び第3の部分ログPL3のうちのいずれの部分ログで成立するかが示されている。すなわち、対応表T1には、マージされた各モデルの生成に、図5に示す第1の部分ログPL1、第2の部分ログPL2及び第3の部分ログPL3のうちのいずれの部分ログが寄与したかを示す対応関係が示されている。
図7において、部分ログでの成立の有無を示す列は、8個のモデルのそれぞれが第1の部分ログPL1、第2の部分ログPL2及び第3の部分ログPL3のうち、いずれの部分ログで成立するかが示されている。8個のモデルのそれぞれの生成に、第1の部分ログPL1、第2の部分ログPL2及び第3の部分ログPL3のうちのいずれの部分ログが寄与したかが示されている。対応表T1中の「〇」は、当該モデルが当該部分ログで成立する、すなわち、当該モデルの生成に当該部分ログが寄与したことを示している。一方、対応表T1中の「×」は、当該モデルが当該部分ログで成立しない、すなわち、当該モデルの生成に当該部分ログが寄与しなかったことを示している。例えば、モデルIDが1のモデルは、第1の部分ログPL1及び第3の部分ログPL3で成立するのに対して、第2の部分ログPL2では成立しないことが示されている。
次いで、決定部112は、モデルマージ部110により取得された上記の対応関係に基づき、複数のモデルの生成への寄与の有無に関する特異性が最も高い部分ログを決定する(ステップS20)。
具体的には、決定部112は、前記対応関係に基づき、複数の部分ログのうちの、マージされた複数のモデルの各モデルの成立の有無に関する少数派の部分ログ群を決定する。すなわち、決定部112は、マージされた複数のモデルの各モデルについて、モデルの生成への寄与の有無に応じて2つの部分ログ群に分類し、2つの部分ログ群のうち、より少ない部分ログを含む少数派の部分ログ群を決定する。
次いで、決定部112は、複数のモデルの各モデルについて決定した少数派の部分ログ群に含まれる部分ログのそれぞれに所定の値であるペナルティを付与する。次いで、決定部112は、複数の部分ログの各部分ログについて、複数のモデルの全モデルに関するペナルティを合計する。
ペナルティの合計後、決定部112は、複数の部分ログのうち、全モデルに関するペナルティの合計が最も高い部分ログを、複数のモデルの生成への寄与の有無に関する特異性が最も高い部分ログとして決定する。
例えば、図7に示す例において、モデルIDが1のモデルは、上述のように第1の部分ログPL1及び第3の部分ログPL3で成立するのに対して、第2の部分ログPL2では成立しない。すなわち、モデルIDが1のモデルの生成には、第1の部分ログPL1及び第3の部分ログPL3が寄与しているのに対して、第2の部分ログPL2は寄与していない。このため、モデルIDが1のモデルについて、第1の部分ログPL1、第2の部分ログPL2及び第3の部分ログPL3のうち、少数派の部分ログ群に含まれるのは、第2の部分ログPL2である。したがって、決定部112は、モデルIDが1のモデルについて、第2の部分ログPL2にペナルティを付与する。ペナルティは、適当な定数、具体的には例えば1とする。
図7に示す例において、上記のようにして付与されたペナルティを各部分ログについて合計すると、第1の部分ログPL1のペナルティの合計は1、第2の部分ログPL2のペナルティの合計は4、第3の部分ログPL3のペナルティの合計は3と算出される。
なお、決定部112は、上述のように部分ログの総数に対する少数派の部分ログ群に含まれる部分ログの数の比率に応じたペナルティを付与することができる。例えば部分ログの総数をN、少数派の部分ログ数をMとして、ペナルティは、例えば、自然対数を用いて、−log(M/N)で計算することができる。図7に示す例の場合、例えば、モデルIDが1のモデルに関する第2の部分ログPL2のペナルティは、−log(1/3)=1.10となる。仮に、部分ログの総数が10あり、少数派の部分ログ数が2であれば、その少数派の部分ログに付与されるペナルティは、−log(2/10)=1.61となる。
また、あるモデルの生成に複数の部分ログのうちのすべてが寄与する又は寄与しない場合には、すべての部分ログに一律に同じ値のペナルティを付与するか、又はペナルティを付与しないようにすることができる。また、複数の部分ログが偶数であり、あるモデルの生成に寄与する部分ログの数と寄与しない部分ログの数とが同数である場合にも、すべての部分ログに一律に同じ値のペナルティを付与するか、又はペナルティを付与しないようにすることができる。
また、決定部112は、少数派の部分ログの決定とともに、計算されたペナルティの合計の高い順に部分ログをランキングすることもできる。
なお、上述のように、決定部112は、少数派の部分ログ群に含まれる部分ログにペナルティを付与することに代えて、少数派の部分ログ群でない多数派の部分ログ群に含まれる部分ログに報酬を付与することもできる。
決定部112は、上記のようにして決定した、複数のモデルの生成への寄与の有無に関する特異性が最も高い部分ログを出力部114に通知する。この通知を受けた出力部114は、決定部112により通知された特異性の最も高い部分ログを表示部30に出力して表示部30に表示させる(ステップS22)。なお、決定部112は、ペナルティの合計に基づいて部分ログをランキングしたランキング結果を出力部114に通知することもできる。この場合、通知を受けた出力部114は、決定部112により得られたランキング結果を表示部30に出力して表示部30に表示させる。
また、出力部114は、モデルマージ部110により作成された各モデルとそのモデルの生成に寄与した部分ログとの対応関係を示す対応表を表示部30に出力して表示部30に表示させることもできる。例えば、出力部114は、図7に示すような対応表T1を表示部30に出力して表示部30に表示させることもできる。
上述のように、本実施形態によれば、対象システム2で生成されたログから抽出した複数の部分ログについて、複数のモデルの生成への寄与の有無に関する特異性が最も高い部分ログを機械的に特定することができる。ここで、対象システム2で生成されるログに含まれる異常が少数であるという仮定をおくと、決定部112により決定された特異性の最も高い部分ログは、異常を含んでいる可能性が最も高いとみなすことができる。また、ペナルティの合計の高い順に部分ログをランキングしたランキング結果は、異常を含んでいる可能性が高い順に部分ログを並べたものとみなすことができる。したがって、決定部112により得られた特異性の最も高い部分ログ又はペナルティの合計のランキング結果に基づき、対象システム2における異常を識別して特定することが可能となる。具体的には、対象システム2に異常が発生している期間や、異常の起きているネットワーク領域(IPアドレス帯)、異常が起きている装置又は装置群等を識別して特定することが可能となる。
また、本実施形態では、異常を識別するための計算量、すなわち、複数のモデルの生成への寄与の有無に関する特異性が最も高い部分ログの特定に必要な計算量を小さいものとすることができる。すなわち、本実施形態において、少数派の部分ログの特定に必要な計算量は、1つの部分ログのログ量をAとし、部分ログのモデル化にかかる計算量をログ量に関する関数f(A)で表し、部分ログの個数をNとすると、f(A)・Nで表される。一方、前記特許文献1に記載された方法では、学習後の異常測度の計算が必要なほか、モデル化に対応する学習にかかる計算量が大きくなる。例えば、部分ログが3つあり、それぞれ同じログ量である場合を想定し、異常測度の計算にログ量の関数でg(A)かかるとすると、特許文献1に記載された方法の計算量は(f(2A)+g(A))・Nとなる。したがって、本実施形態では、特許文献1に記載された方法と比較して、異常を含む可能性のある部分ログをより小さい計算量で効率的に特定することが可能である。
また、本実施形態では、特異性が最も高い部分ログが異常を含んでいる可能性があるとみなすことができるため、特許文献1に記載された方法とは異なり、異常の度合いを表す異常測度を定義する必要がない。したがって、本実施形態では、ユーザの負担を軽減することができる。
以上のとおり、本実施形態によれば、ユーザの負担を軽減しつつ、小さい計算量で対象システムにおける異常を識別することができる。
なお、決定部112は、複数のモデルの各モデルとそのモデルの生成に寄与した部分ログとの対応関係を示す対応表において、各モデルの成立の有無、すなわち各モデルの生成への寄与の有無に関する少数派の部分ログ群に含まれる部分ログを強調してもよい。少数派の部分ログ群に含まれる部分ログを強調する方法は特に限定されるものではなく、特定の色や印により強調する方法等の種々の方法で強調することができる。
図8に示す対応表T2は、図7に示す対応表T1において、各モデルの成立の有無、すなわち各モデルの生成への寄与の有無に関する少数派の部分ログ群に含まれる部分ログについて、対応するセルの背景をハッチングで強調したものである。対応表T2において、例えば、モデルIDが1のモデルについて、少数派の部分ログ群に含まれる部分ログである第2の部分ログPL2に対応するセルの背景がハッチングで強調されている。
図8に示す対応表T2が得られた場合において、例えばモデルIDが7のモデルに該当するログが異常を示すログである可能性が高いことをユーザが知っていたときを想定する。このとき、ユーザは、異常を示すログである可能性が高いログが存在することを、対応表T2のモデルIDが7の行で強調された「〇」から容易に認識することができる。さらに、ユーザは、当該ログが含まれる部分ログが第2の部分ログPL2であることを容易に辿ることができる。これにより、対応表T2から、異常を含む可能性のある部分ログをより効率的に特定することができる。
[他の実施形態]
上記各実施形態において説明した異常識別システムは、他の実施形態によれば、図9に示すように構成することもできる。図9は、他の実施形態による異常識別システムの機能構成を示すブロック図である。
図9に示すように、他の実施形態による異常識別システム2000は、所定の条件に従って対象ログから3つ以上の複数の部分ログを抽出するログ抽出部2002を有している。また、異常識別システム2000は、ログ抽出部2002により抽出された複数の部分ログからモデルを生成するモデル化部2004を有している。また、異常識別システム2000は、モデル化部2004により生成されたモデルとモデルの生成に寄与した部分ログとの対応関係を取得する対応関係取得部2006を有している。
さらに、異常識別システム2000は、決定部2008を有している。決定部2008は、対応関係取得部2006により取得された対応関係に基づき、複数の部分ログを、モデルの生成への寄与の有無に応じて2つの部分ログ群に分類し、2つの部分ログ群のうち、より少ない部分ログを含む少数派の部分ログ群を決定する。また、決定部2008は、少数派の部分ログ群に基づき、複数の部分ログのうち、モデルの生成への寄与の有無に関する特異性が最も高い部分ログを決定する。
[変形実施形態]
本発明は、上記実施形態に限らず、種々の変形が可能である。
例えば、上記実施形態では、ログ抽出部106は、対象ログを分割して複数の部分ログを抽出する場合を例に説明したが、これに限定されるものではない。ログ抽出部106は、対象システム2で生成された対象ログを分割することなく、所定の抽出条件に従って対象ログから複数の部分ログを抽出してもよい。
また、上記実施形態では、モデルマージ部110が、各モデルとそのモデルが生成された部分ログとの対応関係を示す対応表を作成する場合を例に説明したがこれに限定されるものではない。モデルマージ部110は、表形式にかぎらず、種々の形式で、各モデルとそのモデルが生成された部分ログとの対応関係を取得することができる。
また、上述の各実施形態の機能を実現するように該実施形態の構成を動作させるプログラムを記録媒体に記録させ、該記録媒体に記録されたプログラムをコードとして読み出し、コンピュータにおいて実行する処理方法も各実施形態の範疇に含まれる。すなわち、コンピュータ読取可能な記録媒体も各実施形態の範囲に含まれる。また、上述のコンピュータプログラムが記録された記録媒体はもちろん、そのコンピュータプログラム自体も各実施形態に含まれる。
該記録媒体としては例えばフロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM(Compact Disc-Read Only Memory)、磁気テープ、不揮発性メモリカード、ROMを用いることができる。また該記録媒体に記録されたプログラム単体で処理を実行しているものに限らず、他のソフトウェア、拡張ボードの機能と共同して、OS(Operating System)上で動作して処理を実行するものも各実施形態の範疇に含まれる。
上述の各実施形態の機能により実現されるサービスは、SaaS(Software as a Service)の形態でユーザに対して提供することもできる。
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)
所定の条件に従って対象ログから3つ以上の複数の部分ログを抽出するログ抽出部と、
前記ログ抽出部により抽出された前記複数の部分ログからモデルを生成するモデル化部と、
前記モデル化部により生成された前記モデルと前記モデルの生成に寄与した前記部分ログとの対応関係を取得する対応関係取得部と、
前記対応関係取得部により取得された前記対応関係に基づき、前記複数の部分ログを、前記モデルの生成への寄与の有無に応じて2つの部分ログ群に分類し、前記2つの部分ログ群のうち、より少ない前記部分ログを含む少数派の部分ログ群を決定し、前記少数派の部分ログ群に基づき、前記複数の部分ログのうち、前記モデルの生成への寄与の有無に関する特異性が最も高い部分ログを決定する決定部と
を有することを特徴とする異常識別システム。
(付記2)
前記モデル化部は、前記複数の部分ログから複数の前記モデルを生成し、
前記決定部は、
前記複数のモデルのそれぞれについて、前記少数派の部分ログ群を決定し、前記少数派の部分ログ群に含まれる前記部分ログに所定の値を付与し、
前記複数の部分ログのそれぞれについて、前記複数のモデルについて付与された前記所定の値を合計することを特徴とする付記1記載の異常識別システム。
(付記3)
前記決定部は、前記所定の値の合計に基づき、前記特異性が最も高い部分ログを決定することを特徴とする付記2記載の異常識別システム。
(付記4)
前記決定部は、前記複数の部分ログを、前記所定の値の合計に基づきランキングすることを特徴とする付記2又は3に記載の異常識別システム。
(付記5)
前記所定の値は、前記複数の部分ログの総数に対する、前記少数派の部分ログ群に含まれる前記部分ログの数の比率に応じた値であることを特徴とする付記2乃至4のいずれかに記載の異常識別システム。
(付記6)
前記対応関係取得部は、前記対応関係を示す対応表を作成し、
前記決定部は、前記対応表において、前記少数派の部分ログ群に含まれる前記部分ログを強調することを特徴とする付記1乃至5のいずれかに記載の異常識別システム。
(付記7)
所定の条件に従って対象ログから3つ以上の複数の部分ログを抽出し、
前記複数の部分ログからモデルを生成し、
前記モデルと前記モデルの生成に寄与した前記部分ログとの対応関係を取得し、
前記対応関係に基づき、前記複数の部分ログを、前記モデルの生成への寄与の有無に応じて2つの部分ログ群に分類し、前記2つの部分ログ群のうち、より少ない前記部分ログを含む少数派の部分ログ群を決定し、
前記少数派の部分ログ群に基づき、前記複数の部分ログのうち、前記モデルの生成への寄与の有無に関する特異性が最も高い部分ログを決定する
ことを特徴とする異常識別方法。
(付記8)
前記複数の部分ログから複数の前記モデルを生成し、
前記複数のモデルのそれぞれについて、前記少数派の部分ログ群を決定し、前記少数派の部分ログ群、又は前記2つの部分ログ群のうちの前記少数派の部分ログ群でない多数派の部分ログ群に含まれる前記部分ログに所定の値を付与し、
前記複数の部分ログのそれぞれについて、前記複数のモデルについて付与された前記所定の値を合計することを特徴とする付記7記載の異常識別方法。
(付記9)
前記所定の値の合計に基づき、前記特異性が最も高い部分ログを決定することを特徴とする付記8記載の異常識別方法。
(付記10)
前記複数の部分ログを、前記所定の値の合計に基づきランキングすることを特徴とする付記8又は9に記載の異常識別方法。
(付記11)
前記所定の値は、前記複数の部分ログの総数に対する、前記少数派の部分ログ群に含まれる前記部分ログの数の比率に応じた値であることを特徴とする付記8乃至10のいずれかに記載の異常識別方法。
(付記12)
前記対応関係を示す対応表を作成し、
前記対応表において、前記少数派の部分ログ群に含まれる前記部分ログを強調することを特徴とする付記7乃至11のいずれかに記載の異常識別方法。
(付記13)
コンピュータに、
所定の条件に従って対象ログから3つ以上の複数の部分ログを抽出し、
前記複数の部分ログからモデルを生成し、
前記モデルと前記モデルの生成に寄与した前記部分ログとの対応関係を取得し、
前記対応関係に基づき、前記複数の部分ログを、前記モデルの生成への寄与の有無に応じて2つの部分ログ群に分類し、前記2つの部分ログ群のうち、より少ない前記部分ログを含む少数派の部分ログ群を決定し、
前記少数派の部分ログ群に基づき、前記複数の部分ログのうち、前記モデルの生成への寄与の有無に関する特異性が最も高い部分ログを決定する
ことを実行させることを特徴とするプログラムが記録された記録媒体。
以上、実施形態を参照して本発明を説明したが、本発明は上記実施形態に限定されものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2016年12月12日に出願された日本出願特願2016−240125を基礎とする優先権を主張し、その開示の全てをここに取り込む。
1…異常識別システム
2…対象システム
10…処理部
20…記憶部
106…ログ抽出部
108…モデル化部
110…モデルマージ部
112…決定部

Claims (10)

  1. 所定の条件に従って対象ログから3つ以上の複数の部分ログを抽出するログ抽出部と、
    前記ログ抽出部により抽出された前記複数の部分ログからモデルを生成するモデル化部と、
    前記モデル化部により生成された前記モデルと前記モデルの生成に寄与した前記部分ログとの対応関係を取得する対応関係取得部と、
    前記対応関係取得部により取得された前記対応関係に基づき、前記複数の部分ログを、前記モデルの生成への寄与の有無に応じて2つの部分ログ群に分類し、前記2つの部分ログ群のうち、より少ない前記部分ログを含む少数派の部分ログ群を決定し、前記少数派の部分ログ群に基づき、前記複数の部分ログのうち、前記モデルの生成への寄与の有無に関する特異性が最も高い部分ログを決定する決定部と
    を有することを特徴とする異常識別システム。
  2. 前記モデル化部は、前記複数の部分ログから複数の前記モデルを生成し、
    前記決定部は、
    前記複数のモデルのそれぞれについて、前記少数派の部分ログ群を決定し、前記少数派の部分ログ群に含まれる前記部分ログに所定の値を付与し、
    前記複数の部分ログのそれぞれについて、前記複数のモデルについて付与された前記所定の値を合計することを特徴とする請求項1記載の異常識別システム。
  3. 前記決定部は、前記所定の値の合計に基づき、前記特異性が最も高い部分ログを決定することを特徴とする請求項2記載の異常識別システム。
  4. 前記決定部は、前記複数の部分ログを、前記所定の値の合計に基づきランキングすることを特徴とする請求項2又は3に記載の異常識別システム。
  5. 前記所定の値は、前記複数の部分ログの総数に対する、前記少数派の部分ログ群に含まれる前記部分ログの数の比率に応じた値であることを特徴とする請求項2乃至4のいずれか1項に記載の異常識別システム。
  6. 前記対応関係取得部は、前記対応関係を示す対応表を作成し、
    前記決定部は、前記対応表において、前記少数派の部分ログ群に含まれる前記部分ログを強調することを特徴とする請求項1乃至5のいずれか1項に記載の異常識別システム。
  7. 所定の条件に従って対象ログから3つ以上の複数の部分ログを抽出し、
    前記複数の部分ログからモデルを生成し、
    前記モデルと前記モデルの生成に寄与した前記部分ログとの対応関係を取得し、
    前記対応関係に基づき、前記複数の部分ログを、前記モデルの生成への寄与の有無に応じて2つの部分ログ群に分類し、前記2つの部分ログ群のうち、より少ない前記部分ログを含む少数派の部分ログ群を決定し、
    前記少数派の部分ログ群に基づき、前記複数の部分ログのうち、前記モデルの生成への寄与の有無に関する特異性が最も高い部分ログを決定する
    ことを特徴とする異常識別方法。
  8. 前記複数の部分ログから複数の前記モデルを生成し、
    前記複数のモデルのそれぞれについて、前記少数派の部分ログ群を決定し、前記少数派の部分ログ群、又は前記2つの部分ログ群のうちの前記少数派の部分ログ群でない多数派の部分ログ群に含まれる前記部分ログに所定の値を付与し、
    前記複数の部分ログのそれぞれについて、前記複数のモデルについて付与された前記所定の値を合計することを特徴とする請求項7記載の異常識別方法。
  9. 前記所定の値の合計に基づき、前記特異性が最も高い部分ログを決定することを特徴とする請求項8記載の異常識別方法。
  10. コンピュータに、
    所定の条件に従って対象ログから3つ以上の複数の部分ログを抽出し、
    前記複数の部分ログからモデルを生成し、
    前記モデルと前記モデルの生成に寄与した前記部分ログとの対応関係を取得し、
    前記対応関係に基づき、前記複数の部分ログを、前記モデルの生成への寄与の有無に応じて2つの部分ログ群に分類し、前記2つの部分ログ群のうち、より少ない前記部分ログを含む少数派の部分ログ群を決定し、
    前記少数派の部分ログ群に基づき、前記複数の部分ログのうち、前記モデルの生成への寄与の有無に関する特異性が最も高い部分ログを決定する
    ことを実行させることを特徴とするプログラム。
JP2018556575A 2016-12-12 2017-12-01 異常識別システム、方法及びプログラム Active JP6988827B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2016240125 2016-12-12
JP2016240125 2016-12-12
PCT/JP2017/043325 WO2018110327A1 (ja) 2016-12-12 2017-12-01 異常識別システム、方法及び記録媒体

Publications (2)

Publication Number Publication Date
JPWO2018110327A1 JPWO2018110327A1 (ja) 2019-10-24
JP6988827B2 true JP6988827B2 (ja) 2022-01-05

Family

ID=62558662

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018556575A Active JP6988827B2 (ja) 2016-12-12 2017-12-01 異常識別システム、方法及びプログラム

Country Status (3)

Country Link
US (1) US20190294523A1 (ja)
JP (1) JP6988827B2 (ja)
WO (1) WO2018110327A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7286439B2 (ja) * 2019-06-27 2023-06-05 株式会社東芝 監視制御システム、情報処理装置、情報処理方法及びコンピュータプログラム
CN112579327B (zh) * 2019-09-27 2024-05-14 阿里巴巴集团控股有限公司 一种故障检测方法、装置及设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4630489B2 (ja) * 2000-05-31 2011-02-09 株式会社東芝 ログ比較デバッグ支援装置および方法およびプログラム
JP2003203001A (ja) * 2001-12-28 2003-07-18 Toshiba Corp ログ解析方法、ログ解析プログラム
JP4845001B2 (ja) * 2004-11-26 2011-12-28 株式会社リコー 情報処理装置及び同装置に用いるプログラム

Also Published As

Publication number Publication date
US20190294523A1 (en) 2019-09-26
WO2018110327A1 (ja) 2018-06-21
JPWO2018110327A1 (ja) 2019-10-24

Similar Documents

Publication Publication Date Title
JP6643211B2 (ja) 異常検知システム及び異常検知方法
JP6919569B2 (ja) ログ分析システム、方法、及び記録媒体
US9753801B2 (en) Detection method and information processing device
JP4890806B2 (ja) 予測プログラムおよび予測装置
JP5919825B2 (ja) データ処理方法、分散処理システムおよびプログラム
JP5541130B2 (ja) 管理装置、管理方法および管理用プログラム
JP6047017B2 (ja) パターン抽出装置および制御方法
WO2013042789A1 (ja) 運用管理装置、運用管理方法、及びプログラム
WO2016093836A1 (en) Interactive detection of system anomalies
JP6295857B2 (ja) 抽出方法、装置、及びプログラム
JP2017111601A (ja) 調査対象特定プログラム、および調査対象特定方法
JP6714152B2 (ja) 分析装置、分析方法及び分析プログラム
Park et al. Big data meets hpc log analytics: Scalable approach to understanding systems at extreme scale
JP2011138422A (ja) 行動パターン検出装置、行動パターン検出方法及び行動パターン検出プログラム
TW201702921A (zh) 異常預測方法、系統及裝置
US20170255634A1 (en) Method for Extracting Maximal Repeat Patterns and Computing Frequency Distribution Tables
JP6201079B2 (ja) 監視システムおよび監視方法
JP6988827B2 (ja) 異常識別システム、方法及びプログラム
CN115033876A (zh) 日志处理方法、日志处理装置、计算机设备及存储介质
JP6191440B2 (ja) スクリプト管理プログラム、スクリプト管理装置及びスクリプト管理方法
JP2016024486A (ja) データ活用システム及びその制御方法
US10878049B2 (en) Search apparatus and search system
Jittawiriyanukoon Evaluation of a multiple regression model for noisy and missing data
JP6496078B2 (ja) 分析支援装置、分析支援方法、および分析支援プログラム
US11574210B2 (en) Behavior analysis system, behavior analysis method, and storage medium

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190418

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201106

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211102

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211115

R150 Certificate of patent or registration of utility model

Ref document number: 6988827

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150