JP2018132787A - ログ分析支援装置およびログ分析支援方法 - Google Patents

ログ分析支援装置およびログ分析支援方法 Download PDF

Info

Publication number
JP2018132787A
JP2018132787A JP2017023717A JP2017023717A JP2018132787A JP 2018132787 A JP2018132787 A JP 2018132787A JP 2017023717 A JP2017023717 A JP 2017023717A JP 2017023717 A JP2017023717 A JP 2017023717A JP 2018132787 A JP2018132787 A JP 2018132787A
Authority
JP
Japan
Prior art keywords
log
logs
vector
analysis support
multidimensional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017023717A
Other languages
English (en)
Inventor
宏和 佐久間
Hirokazu Sakuma
宏和 佐久間
仁志 熊谷
Hitoshi Kumagai
仁志 熊谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Solutions Ltd
Original Assignee
Hitachi Solutions Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Solutions Ltd filed Critical Hitachi Solutions Ltd
Priority to JP2017023717A priority Critical patent/JP2018132787A/ja
Publication of JP2018132787A publication Critical patent/JP2018132787A/ja
Pending legal-status Critical Current

Links

Abstract

【課題】人的負担を軽減しつつ大量のログを効果的に分析できるログ分析支援装置およびログ分析支援方法。【解決手段】ログ分析支援装置1は、ログ記憶装置100から複数の情報要素を含むログを取得して多次元ベクトル化するとともにベクトル間距離に基づいて複数のクラスタを形成する。そして、ログ分析支援装置1は、最小のクラスタ、すなわち多次元ベクトルを最も少なく含むクラスタに含まれる多次元ベクトルに対応するログを出力する。【選択図】図1

Description

本発明は、システムが出力するログの分析を支援するログ分析支援装置およびログ分析支援方法に関する。
例えば、コンピュータなどのハードウェアやソフトウェアで構成されるシステムは、各種動作や外部からのアクセスなどのシステムに起きた出来事をログとして記録する。そして、このようなシステムのログは、障害等のシステム異常が発生したときなどに異常原因を特定するために分析に用いられ、さらには、システム異常の予兆や不正侵入などを検出するためにも用いられる。
例えば、システム管理者がログを分析することにより、バッチ処理プログラムの実行において通常であれば1時間で完了する処理に3時間かかっていたことが判明した場合、バッチ処理プログラムもしくは対象とするデータの異常が疑われる。別の例でいえば、ログ分析により、ファイルサーバに格納されている業務情報ファイルが、全く関係のない別部署のユーザアカウントによってアクセスされたことが判明した場合、このユーザアカウントが悪用されたことによる情報流出の可能性が疑われる。
近年のIoT技術などの普及により多数のシステムがログを出力するようになってきており、また、マルウェアのような不正なプログラムの検出を促進するためにシステムの挙動を事細かにログに出力することが行われており、ログの量が飛躍的に増大してきている。しかしながら、ログの分析は、そのシステムを熟知した管理者等が、経験や勘から導いたキーワードを用いて検索するという手法で行われているので、ログ分析の精度を確保するためには管理者等の技量に頼ることとなる。そのため、管理者等に多大な負担がかかってしまい、また、管理者等においても大量のログを漏れなく分析することは困難であった。
そして、管理者等の負担軽減を目的として、例えば、特許文献1には、グループ化ポリシーに基づいてログをグループ化し、ログ選択ポリシーに基づいてロググループ内から重要なログレコードを抽出する方法が開示されている。
特開2010−039878号公報
しかしながら、特許文献1に開示されている方法では、重要なログレコードを抽出するために、グループ化ポリシーおよびログ選択ポリシーをあらかじめ定義しておく必要があるところ、このようなポリシーは、ログの分析に熟練した管理者等が自らの知識・ノウハウを用いて作成する必要があるので、ポリシーの作成方法を一般化することが難しかった。そのため、管理者等の負担を軽減することについてまだ改善の余地があり、また、大量のログを効果的に分析するという課題について十分に解決するには至っていない。
本発明は、人的負担を軽減しつつ大量のログを効果的に分析できるログ分析支援装置およびログ分析支援方法を提供することを目的とする。
本発明の一態様に係るログ分析支援装置は、複数の情報要素を含むログの分析を支援するログ分析支援装置であって、複数の前記ログを取得するログ取得部と、前記ログ取得部により取得された複数の前記ログについて、前記複数の情報要素を数値化した多次元ベクトルを生成するベクトル生成部と、前記ベクトル生成部により生成された複数の前記多次元ベクトルについて、ベクトル間距離に基づき1または複数の前記多次元ベクトルを含む複数のクラスタを形成するクラスタリング部と、前記クラスタリング部によって形成された前記クラスタのうちの最小のものに含まれる前記多次元ベクトルに対応する前記ログを出力するログ出力部と、を有していることを特徴とする。
本発明によれば、複数の情報要素を含むログを多次元ベクトル化するとともにベクトル間距離に基づいて複数のクラスタを形成(クラスタリング)し、最小のクラスタに含まれる多次元ベクトルに対応するログを出力する。このようにしたことから、システム異常の予兆や不正侵入などに関連するログは、システムにおける通常の出来事を示すログとは異なる情報要素を含む傾向が見られるところ、複数のログについてクラスタリングを行って、共通の情報要素を多く含むことによりベクトル距離が小さい(近い)ログ同士をクラスタとしてまとめることにより、残りのログ、つまり共通の情報要素が少ないログを抽出して出力することができる。そして、共通の情報要素が少ないログは、システムにおける通常の出来事を示すログとは異なる情報要素を含んでいる可能性が高く、このようなログを分析することでシステム異常の予兆や不正侵入などを効果的に検出することができる。
本発明においては、前記ベクトル生成部が、前記情報要素として文字列が設定されているとき、当該情報要素について当該文字列の出現頻度に応じた数値とするように構成されていることが好ましい。このようすることで、出現頻度が高い文字列はシステムにおける通常の出来事に関連し、出現頻度が低い文字列はシステムにおいて通常起こりえない異常に関連する蓋然性が高いものと考えられるので、出現頻度に応じた数値とすることで、出現頻度が高い文字列を含むログ間のベクトル距離を小さくでき、分析精度をより高めることができる。
本発明においては、前記ベクトル生成部が、前記情報要素として日時情報が設定されているとき、当該情報要素について所定時刻からの経過時間を表す数値とするように構成されていることが好ましい。このようにすることで、時間的に近いログ同士は互いに関連する蓋然性が高いと考えられるところ、ログに含まれる日時情報について時間的に近いときは数値の差が小さく、時間的に遠いときは数値の差が大きくなるので、そのようなログ間のベクトル距離を小さくすることができ、分析精度をより高めることができる。
本発明においては、前記ベクトル生成部が、あらかじめ設定された重み付け情報を用いて前記複数の情報要素を数値化するように構成されていることが望ましい。このようにすることで、例えば、システムの実行プログラムやユーザアカウントが設定される情報要素について重みを大きくすることで、プログラムやユーザアカウントが異なった場合のログ間のベクトル距離を大きくすることができる。そのため、通常の処理において実行されることのないプログラムが実行されたときのログや、関係のない他部署のユーザアカウントでログインされたときのログを、効果的に抽出することができ、分析精度をより高めることができる。
本発明の他の一態様に係るログ分析支援方法は、複数の情報要素を含むログの分析を支援するログ分析支援方法であって、複数の前記ログを取得するログ取得工程と、前記ログ取得工程で取得された複数の前記ログについて、前記複数の情報要素を数値化した多次元ベクトルを生成するベクトル生成工程と、前記ベクトル生成工程で生成された複数の前記多次元ベクトルについて、ベクトル間距離に基づき1または複数の前記多次元ベクトルを含む複数のクラスタを形成するクラスタリング工程と、前記クラスタリング工程で形成された前記クラスタのうちの最小のものに含まれる前記多次元ベクトルに対応する前記ログを出力するログ出力工程と、を有していることを特徴とする。
本発明によれば、複数の情報要素を含むログを多次元ベクトル化するとともにベクトル間距離に基づいて複数のクラスタを形成(クラスタリング)し、最小のクラスタに含まれる多次元ベクトルに対応するログを出力する。このようにしたことから、システム異常の予兆や不正侵入などに関連するログは、システムにおける通常の出来事を示すログとは異なる情報要素を含む傾向が見られるところ、複数のログについてクラスタリングを行い、共通の情報要素を多く含むことによりベクトル距離が小さい(近い)ログ同士をクラスタとしてまとめることにより、残りのログ、つまり共通の情報要素が少ないログを抽出して出力することができる。そして、共通の情報要素が少ないログは、システムにおける通常の出来事を示すログとは異なる情報要素を含んでいる可能性が高く、このようなログを分析することでシステム異常の予兆や不正侵入などを効果的に検出することができる。
本発明によれば、人的負担を軽減しつつ大量のログを効果的に分析できる。
本発明の一実施形態に係るログ分析支援装置の概略構成を示す図である。 図1のログ分析支援装置によって処理されるログファイルの一例を説明する図である。 図2のログファイルに含まれるログから生成された多次元ベクトルの一例を説明する図である。 図1のログ分析支援装置によって実行される分析支援処理の一例を示すフローチャートである。 図1のログ分析支援装置におけるデータフローを模式的に示す図である。 インシデントとなり得るログの一例を説明する図である。
以下、本発明の一実施形態にかかるログ分析支援装置について、図面を用いて説明する。図1は、本発明の一実施形態に係るログ分析支援装置の概略構成を示す図である。
本実施形態のログ分析支援装置1は、プロセッサおよび記憶装置などを備えたコンピュータで構成されている。図1に示すように、ログ分析支援装置1は、各種システムが出力したログが集約されるログ記憶装置100にネットワークなどを介して接続されている。ログ分析支援装置1は、ログ記憶装置100からログファイルを取得して分析を行い、分析結果をログ記憶装置100に送信して格納し、表示装置200に表示する。
ログ分析支援装置1は、ログ取得部11、ベクトル生成部12、クラスタリング部13およびログ出力部14を有している。これら機能部は、ログ分析支援装置1の記憶装置に格納された分析支援処理プログラムをプロセッサが実行することにより実現されている。
ログ取得部11は、ログ記憶装置100にアクセスして、分析対象となるログが書き込まれたログファイルLFを取得する。ログファイルLFの一例を図2に示す。ログファイルLFは、テキストファイルであって、改行で区切られる1つの行を1レコードとし、各レコードR1〜Rnにログ(ログメッセージとも呼ばれる)が格納されている。各レコードに格納されているログは、所定の順序で並べられた複数の情報要素E1〜E8を含む。図2に示す例では、情報要素E1には「日付」、情報要素E2には「時刻」、情報要素E3には「ユーザ名」、情報要素E4には「コンピュータ名」、情報要素E5には「ログ種別」、情報要素E6には「ステータス」、情報要素E7には「プロセス名」、情報要素E8には「ファイル名」を示す文字列が設定されている。
「日付」および「時刻」は、対象のログの処理が行われた時点のコンピュータ(すなわちシステム)のローカルシステム時間を表す。「ユーザ名」は、対象の処理を行ったコンピュータにログインしていたユーザのコンピュータ上での名前(アカウント)を表す。「コンピュータ名」は、対象となったコンピュータの名前を表す。「ログ種別」は、対象のログの種別を表す。例えば、ユーザのログイン・ログアウト、ファイルの新規作成・コピー・削除、プロセスの起動・終了などがある。「ステータス」は、処理の成功(ok)、失敗(err)を表す。「プロセス名」は、処理を行ったプロセスの名称を表す。「ファイル名」は、処理の対象となったファイルの名称を表す。レコードのログ種別によっては、ファイル名の代わりにユーザ名などが入ることもある。
ベクトル生成部12は、ログ取得部11によって取得されたログファイルLFからレコードR1〜Rnを読み出して、各レコードR1〜Rnに格納されたログに含まれる情報要素E1〜E8を数値化して、各ログに対応する多次元ベクトルV1〜Vnを生成する。
情報要素E1(日付)および情報要素E2(時刻)については、これらに対応する1つの次元D1を生成し、基準時刻からの経過時間(秒数)を表す数値に設定する。具体的には、情報要素E1、E2に設定されている文字列が示す日付および時刻について、基準時刻(例えば、1970年1月1日0時0分や、ログファイルLFに書き込まれたログの中で最も早い日時)からの経過時間を示す数値に変換する。そして、変換した数値について、各ログ間で正規化(例えば、大きさに応じて0〜1の範囲内の値に変換)して次元D1に設定する。
ログには、ほぼ必ず日時に関する情報要素が存在し、日時の情報は文字列の完全一致で比較するより、数値化して差を比較した方がその特性を効果的にベクトルに反映できる。すなわち、日時を単に文字列として見ると1秒異なっているだけでも全く別の文字列として扱われてしまうが、実際には1秒違いのログ同士と1か月違いのログ同士では、前者の方が関連性や類似性が高いと考えられる。このことから、日時を数値にしてその差で数値化することで、より精度の高い分析結果が得られる。
他の情報要素E3〜E8については、それぞれに含まれている文字列の種類毎に次元を生成し、文字列に対応する数値を設定する。具体的には、例えば、レコードR1〜Rnに格納されている各ログの情報要素E3(ユーザ名)には、”root”のみ設定されているので、情報要素E3に対応する1つの次元D2を生成して”root”に対応する数値を設定する。同様に、情報要素E4(コンピュータ名)には、”dbsvr”のみ設定されているので、情報要素E4に対応する1つの次元D3を生成して”dbsvr”に対応する数値を設定する。
また、レコードR1〜Rnに格納されている各ログの情報要素E5(ログ種別)には、”login”、”exec”、”copy”、”logout”の4種類の文字列が設定されているので、情報要素E5に対応する4つの次元D4〜D7を生成してこれら4種類の文字列を4つの次元にそれぞれ割り当て、各文字列に対応する数値を設定する。”login”、”exec”、”copy”、”logout”は、順にD4〜D7に対応する。同様に、情報要素E6(ステータス)には2種類の文字列(”ok”、”err”)が設定されているので、2つの次元D8、D9を生成して各文字列に対応する数値を設定する。”ok”、”err”は、順にD8、D9に対応する。情報要素E7(プロセス名)および情報要素E8(ファイル名)についても同様である。
本実施形態において、例えば、処理結果(ステータス)を示す情報要素E6など、重要な情報を含む情報要素に設定される文字列に対応する数値については、他の情報要素に設定される文字列に対応する数値より、大きい値を割り当てて重み付けを行う。一例として、情報要素E6に設定される”ok”および”err”には、「10」を設定し、他の情報要素E2〜E5、E7、E8に設定される文字列には、「1」を設定する。
このような重み付けは一例であって、ログに含まれる各情報要素はそれぞれが意味を持っており、システム管理者などがどの情報要素を重要視しているかによってログの特異性が変わってくることである。ひとつ例を挙げると、あるシステム管理者は、レコードとして記録されたログの内容がどのコンピュータで行われたかを重要視して、通常その処理が行われないコンピュータで処理が行われていることがインシデント(システム異常や不正侵入などの保安上の脅威となる事象)になると考えているとする。この場合、コンピュータ名が記録された情報要素が一致するかどうかは、他の情報要素が一致するかどうかよりも重要であり、当該情報要素に設定される文字列に特別な重み付けをすることで、インシデントを示すログを抽出しやすくできる。
また、文字列に対応する数値は、その文字列の出現頻度に応じて決定してもよい。出現頻度の高い文字列については、出現頻度の低い文字列より大きい値を割り当てる。例えば、出現回数が100増加する毎に、文字列に割り当てる値を1増加させる。出現回数が、1〜100回は「1」、101〜200回は「2」、201〜300回は「3」・・・などとする。
図3に、ログファイルLFのレコードR1〜R4に格納されているログについて生成した多次元ベクトルV1〜V4の一例を示す。図3(a)は重み付けなしのベクトルを示し、図3(b)は情報要素E6について重み付けをしたベクトルを示す。
クラスタリング部13は、ベクトル生成部12により生成された複数の多次元ベクトルV1〜Vnについて、ベクトル間距離に基づき1または複数の多次元ベクトルを含む複数のクラスタを形成(クラスタリング)する。
本実施形態において、クラスタリング部13では、ボトムアップクラスタリングを採用し、ベクトル間距離(クラスタ間距離)としてコサイン距離(ベクトルの内積)を用いてクラスタを形成する。もちろん、これ以外にも、例えば、トップダウンクラスタリングを採用したり、ベクトル間距離として他の種類の距離を用いたりしてもよく、本発明の目的に反しない限り、クラスタを形成する方法は任意である。
クラスタリング部13は、具体的には、(1)始めに、レコードR1〜Rnに格納された各ログに対応する複数の多次元ベクトルV1〜Vnの全てについて、1つの多次元ベクトルのみを含む複数のクラスタC1〜Cnとする。(2)次に、これら複数のクラスタについて他のクラスタとの距離を算出し、最も距離が小さい(近い)2つのクラスタを1つのクラスタとしてまとめる(一方のクラスタに含まれるベクトルを他方のクラスタに含めて、一方のクラスタを削除する)。クラスタ間距離については、距離を算出する2つのクラスタのそれぞれに含まれる全ベクトルについてのコサイン距離の平均値(または、最小値や最大値などでもよい)を用いる。(3)そして、上記(2)の動作を繰り返すことにより、距離が近いクラスタ同士を順次ひとつにまとめていき、例えば、「クラスタ数が減少して所定の下限値に達した」、または、「最も小さいクラスタ間距離が所定の上限値に達した」など、所定の条件を満足するとクラスタリングを終了する。
上記(2)において、コサイン距離の算出に用いる式の一例を以下に示す。ただし、SijはベクトルViとベクトルVjとの間のコサイン距離であり、wik、wjkはベクトルのk次元に設定されている数値であり、kはベクトルにおける次元番号であり、Mはベクトルに含まれる次元数であり、iおよびjは、コサイン距離を算出するベクトルに対応するログが格納されているレコード番号である。

ログ出力部14は、クラスタリング部13によって形成された複数のクラスタのうちの最小のもの(すなわち多次元ベクトルを最も少なく含むクラスタ)に含まれる多次元ベクトルに対応するログを出力する。具体的には、ログ出力部14は、クラスタリング部13によって形成された複数のクラスタで最終的に残ったもののそれぞれに含まれる多次元ベクトル数を確認し、最も少ない多次元ベクトルを含むクラスタを特定する。そして、ログ出力部14は、特定したクラスタに含まれる多次元ベクトルに対応するログをログファイルLFから抽出し、抽出ログファイルLF1としてまとめて、ログ記憶装置100および表示装置200に送信する。ログ記憶装置100では、抽出ログファイルLF1を受信すると記憶部に格納する。表示装置200は、抽出ログファイルLF1を受信するとそれに含まれるログを表示する。
次に、本実施形態のログ分析支援装置1における分析支援動作(ログ分析支援方法)の一例について、図4のフローチャートおよび図5のデータフロー図を参照して説明する。
各種コンピュータやIoT機器などのシステムから出力されたログはログ記憶装置100に収集され、1または複数のログファイルLFとして格納されている。そして、ログ分析支援装置1は、例えば、分析対象としてあらかじめ指定されたシステムのログを含むログファイルLF、または、ログ分析者によって指定されたシステムのログを含むログファイルLFを、ログ記憶装置100から取得する(ステップS110、ログ取得工程)。
次に、ログ分析支援装置1は、ログファイルLFからレコードを読み出し、各レコードに格納されたログに含まれる情報要素を数値化することにより、多次元ベクトルを生成する(ステップS120、ベクトル生成工程)。このとき、ログ分析支援装置1は、各ログにおいて情報要素の重み付けを行い、情報要素E6に設定されるステータスを示す文字列について、他の情報要素に設定される文字列より大きい数値を割り当てる。また、ログ分析支援装置1は、出現頻度に応じた数値を文字列に割り当てる。
それから、ログ分析支援装置1は、生成した複数の多次元ベクトルについて、ベクトル間距離を算出するとともに、算出したベクトル間距離に基づいて複数のクラスタを形成する(ステップS130、クラスタリング工程)。
例えば、ログ分析支援装置1において、生成した複数の多次元ベクトルが4つ(ベクトルV1〜V4)であり、これら4つのベクトルV1〜V4を4つのクラスタC1〜C4とする。この時点で、以下に示すように、各クラスタC1〜C4には1つのベクトルV1〜V4のみ含まれている。
クラスタC1[ベクトルV1]
クラスタC2[ベクトルV2]
クラスタC3[ベクトルV3]
クラスタC4[ベクトルV4]
そして、ログ分析支援装置1は、それぞれのクラスタ間距離(すなわちベクトル間距離)を算出したところ、以下の関係になったものとする。
クラスタC1とクラスタC2との距離=10
クラスタC1とクラスタC3との距離=5
クラスタC1とクラスタC4との距離=3
クラスタC2とクラスタC3との距離=15
クラスタC2とクラスタC4との距離=9
クラスタC3とクラスタC4との距離=6
すると、ログ分析支援装置1は、距離が最も近い2つのクラスタ(ベクトル)を1つのクラスタにまとめる。ここでは、クラスタC1とクラスタC4との距離が最も近いのでこれらをまとめてクラスタC1とする。つまり、クラスタC4に含まれるベクトルV4をクラスタC1に追加して、クラスタC4を削除する。
クラスタC1[ベクトルV1、ベクトルV4]
クラスタC2[ベクトルV2]
クラスタC3[ベクトルV3]
そして、ログ分析支援装置1において、再度クラスタ間距離を算出したところ、以下の関係になったものとする。
クラスタC1とクラスタC2との距離=9.5
クラスタC1とクラスタC3との距離=5.5
クラスタC2とクラスタC3との距離=15
すると、ログ分析支援装置1は、再度距離が最も近い2つのクラスタを1つのクラスタにまとめる。ここでは、クラスタC1とクラスタC3との距離が最も近いのでこれらをまとめてクラスタC1とする。
クラスタC1[ベクトルV1、ベクトルV4、ベクトルV3]
クラスタC2[ベクトルV2]
便宜上、4つの多次元ベクトルV1〜V4を例に説明したが、実際には、ログ分析支援装置1は、4つよりはるかに多数の多次元ベクトルについてクラスタリングを行う。
ログ分析支援装置1は、クラスタリングを進めて、クラスタ数が減少して所定の下限値(例えば、30)になると、またはクラスタ間距離が所定の上限値(例えば、10)になると、クラスタリングを停止する。
そして、ログ分析支援装置1は、クラスタリングによって形成された複数のクラスタで最終的に残ったもののうちの最小のもの(すなわち多次元ベクトルを最も少なく含むクラスタ)に含まれる多次元ベクトルに対応するログを含む抽出ログファイルLF1を、ログ記憶装置100および表示装置200に出力する(ステップS140、ログ出力工程)。ログ記憶装置100では、抽出ログファイルLF1を記憶部に格納して、各システムから参照可能とする。また、表示装置200は、抽出ログファイルLF1を表示する。このようにして、ログ分析支援装置1は、ログ分析者によるログ分析を支援する。
図6に、インシデントとなり得るログの一例を示す。図6のレコードR1、R2は、ユーザ名”testuser”のアカウントによる、ファイル名”顧客名簿一覧.csv”へのアクセスの可能性が考えられる。図6のレコードR3は、ユーザ名”userB”のアカウントが攻撃対象になり、通常では考えられない時間帯にログイン操作が試みられた可能性が考えられる。ログ分析支援装置1は、このようなログについても、対象ユーザ名の使用頻度(出現頻度)やファイル名、日時などの情報要素の重み付けなどによりインシデントとして精度よく抽出できる。
以上より、本実施形態のログ分析支援装置1によれば、複数の情報要素を含むログを多次元ベクトル化するとともにベクトル間距離に基づいて複数のクラスタを形成(クラスタリング)し、最小のクラスタに含まれる多次元ベクトルに対応するログを出力する。このようにしたことから、システム異常の予兆や不正侵入などに関連するログは、システムにおける通常の出来事を示すログとは異なる情報要素を含む傾向が見られるところ、複数のログについてクラスタリングを行い、共通の情報要素を多く含むことによりベクトル距離が小さい(近い)ログ同士をクラスタとしてまとめることにより、残りのログ、つまり共通の情報要素が少ないログを抽出して出力することができる。そして、共通の情報要素が少ないログは、システムにおける通常の出来事を示すログとは異なる情報要素を含んでいる可能性が高く、このようなログを分析することでシステム異常の予兆や不正侵入などのインシデントを効果的に検出することができる。
また、ログ分析支援装置1は、情報要素として文字列が設定されているとき、当該情報要素について当該文字列の出現頻度に応じた数値とするように構成されている。このようすることで、出現頻度が高い文字列はシステムにおける通常の出来事に関連し、出現頻度が低い文字列はシステムにおいて通常起こりえない異常に関連する蓋然性が高いものと考えられるので、出現頻度に応じた数値とすることで、出現頻度が高い文字列を含むログ間のベクトル距離を小さくでき、分析精度をより高めることができる。
また、ログ分析支援装置1は、前記情報要素として日時情報が設定されているとき、当該情報要素について所定時刻からの経過時間を表す数値とするように構成されている。このようにすることで、時間的に近いログ同士は互いに関連する蓋然性が高いと考えられるところ、ログに含まれる日時情報について時間的に近いときは数値の差が小さく、時間的に遠いときは数値の差が大きくなるので、そのようなログ間のベクトル距離を小さくすることができ、分析精度をより高めることができる。
また、ログ分析支援装置1は、あらかじめ設定された重み付け情報を用いて前記複数の情報要素を数値化するように構成されている。このようにすることで、例えば、システムの実行プログラムやユーザアカウントが設定される情報要素について重みを大きくすることで、プログラムやユーザアカウントが異なった場合のログ間のベクトル距離を大きくすることができる。そのため、通常の処理において実行されることのないプログラムが実行されたときのログや、関係のない他部署のユーザアカウントでログインされたときのログを、効果的に抽出することができ、分析精度をより高めることができる。
したがって、ログ分析支援装置1によれば、人的負担を軽減しつつ大量のログを効果的に分析できる。
以上、図面を用いて本発明の実施形態を詳述してきたが、具体的な構成はこの実施形態に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。本発明の要旨を逸脱しない範囲における設計変更等があっても、それらは本発明に含まれるものである。
1…ログ分析支援装置
11…ログ取得部
12…ベクトル生成部
13…クラスタリング部
14…ログ出力部
100…ログ記憶装置
200…表示装置
R1〜Rn…レコード
E1〜En…情報要素
V1〜Vn…多次元ベクトル
D1〜Dn…次元
S110…ログ取得工程
S120…ベクトル生成工程
S130…クラスタリング工程
S140…ログ出力工程
LF…ログファイル
LF1…抽出ログファイル

Claims (5)

  1. 複数の情報要素を含むログの分析を支援するログ分析支援装置であって、
    複数の前記ログを取得するログ取得部と、
    前記ログ取得部により取得された複数の前記ログについて、前記複数の情報要素を数値化した多次元ベクトルを生成するベクトル生成部と、
    前記ベクトル生成部により生成された複数の前記多次元ベクトルについて、ベクトル間距離に基づき1または複数の前記多次元ベクトルを含む複数のクラスタを形成するクラスタリング部と、
    前記クラスタリング部によって形成された前記クラスタのうちの最小のものに含まれる前記多次元ベクトルに対応する前記ログを出力するログ出力部と、を有していることを特徴とするログ分析支援装置。
  2. 前記ベクトル生成部が、前記情報要素として文字列が設定されているとき、当該情報要素について当該文字列の出現頻度に応じた数値とするように構成されていることを特徴とする請求項1に記載のログ分析支援装置。
  3. 前記ベクトル生成部が、前記情報要素として日時情報が設定されているとき、当該情報要素について所定時刻からの経過時間を表す数値とするように構成されていることを特徴とする請求項1または請求項2に記載のログ分析支援装置。
  4. 前記ベクトル生成部が、あらかじめ設定された重み付け情報を用いて前記複数の情報要素を数値化するように構成されていることを特徴とする請求項1〜請求項3のいずれか一項に記載のログ分析支援装置。
  5. 複数の情報要素を含むログの分析を支援するログ分析支援方法であって、
    複数の前記ログを取得するログ取得工程と、
    前記ログ取得工程で取得された複数の前記ログについて、前記複数の情報要素を数値化した多次元ベクトルを生成するベクトル生成工程と、
    前記ベクトル生成工程で生成された複数の前記多次元ベクトルについて、ベクトル間距離に基づき1または複数の前記多次元ベクトルを含む複数のクラスタを形成するクラスタリング工程と、
    前記クラスタリング工程で形成された前記クラスタのうちの最小のものに含まれる前記多次元ベクトルに対応する前記ログを出力するログ出力工程と、を有していることを特徴とするログ分析支援方法。
JP2017023717A 2017-02-13 2017-02-13 ログ分析支援装置およびログ分析支援方法 Pending JP2018132787A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017023717A JP2018132787A (ja) 2017-02-13 2017-02-13 ログ分析支援装置およびログ分析支援方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017023717A JP2018132787A (ja) 2017-02-13 2017-02-13 ログ分析支援装置およびログ分析支援方法

Publications (1)

Publication Number Publication Date
JP2018132787A true JP2018132787A (ja) 2018-08-23

Family

ID=63248408

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017023717A Pending JP2018132787A (ja) 2017-02-13 2017-02-13 ログ分析支援装置およびログ分析支援方法

Country Status (1)

Country Link
JP (1) JP2018132787A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101932765B1 (ko) 2018-11-28 2018-12-26 넷마블 주식회사 게임 어뷰저 검출을 위한 로그 데이터 처리 방법 및 장치
JP7371430B2 (ja) 2019-10-09 2023-10-31 株式会社リコー 情報処理装置およびプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140334739A1 (en) * 2013-05-08 2014-11-13 Xyratex Technology Limited Methods of clustering computational event logs
WO2015072085A1 (ja) * 2013-11-12 2015-05-21 日本電気株式会社 ログ分析システム、ログ分析方法、および、記憶媒体
WO2015114804A1 (ja) * 2014-01-31 2015-08-06 株式会社日立製作所 不正アクセスの検知方法および検知システム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140334739A1 (en) * 2013-05-08 2014-11-13 Xyratex Technology Limited Methods of clustering computational event logs
WO2015072085A1 (ja) * 2013-11-12 2015-05-21 日本電気株式会社 ログ分析システム、ログ分析方法、および、記憶媒体
WO2015114804A1 (ja) * 2014-01-31 2015-08-06 株式会社日立製作所 不正アクセスの検知方法および検知システム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
大堀龍一ほか: "ファイルサーバ利用傾向の特徴に基づいた不審な利用者の検出", 2017年 暗号と情報セキュリティシンポジウム概要集[USBメモリ], JPN6020022858, 24 January 2017 (2017-01-24), pages 1 - 6, ISSN: 0004461589 *
石川博ほか, データマイニングと集合知 −基礎からWEB,ソーシャルメディアまで−, vol. 初版, JPN6020034585, 15 July 2012 (2012-07-15), pages 49 - 52, ISSN: 0004461588 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101932765B1 (ko) 2018-11-28 2018-12-26 넷마블 주식회사 게임 어뷰저 검출을 위한 로그 데이터 처리 방법 및 장치
JP7371430B2 (ja) 2019-10-09 2023-10-31 株式会社リコー 情報処理装置およびプログラム

Similar Documents

Publication Publication Date Title
US10891112B2 (en) Systems and methods for discovering automatable tasks
US9479518B1 (en) Low false positive behavioral fraud detection
CN110099059B (zh) 一种域名识别方法、装置及存储介质
Cao et al. Machine learning to detect anomalies in web log analysis
US10437996B1 (en) Classifying software modules utilizing similarity-based queries
JP2018045403A (ja) 異常検知システム及び異常検知方法
Studiawan et al. Anomaly detection in operating system logs with deep learning-based sentiment analysis
WO2018235252A1 (ja) 分析装置、ログの分析方法及び記録媒体
CN106415507A (zh) 日志分析装置、攻击检测装置、攻击检测方法以及程序
CN110213207B (zh) 一种基于日志分析的网络安全防御方法及设备
CN111651767A (zh) 一种异常行为检测方法、装置、设备及存储介质
US20200334498A1 (en) User behavior risk analytic system with multiple time intervals and shared data extraction
WO2021030133A1 (en) Securing software installation through deep graph learning
Kumar Raju et al. Event correlation in cloud: a forensic perspective
JP2018132787A (ja) ログ分析支援装置およびログ分析支援方法
US11372904B2 (en) Automatic feature extraction from unstructured log data utilizing term frequency scores
CN112583847A (zh) 一种面向中小企业网络安全事件复杂分析的方法
CN115146263B (zh) 用户账号的失陷检测方法、装置、电子设备及存储介质
US20220294811A1 (en) Anomaly detection apparatus, anomaly detection method, and computer readable medium
Pektaş et al. Runtime-behavior based malware classification using online machine learning
Vahedi et al. Cloud based malware detection through behavioral entropy
Luh et al. LLR-based sentiment analysis for kernel event sequences
CN114039837A (zh) 告警数据处理方法、装置、系统、设备和存储介质
CN112347066B (zh) 日志处理方法、装置及服务器和计算机可读存储介质
Wang et al. Network behavior abnormal detection for electricity management system based on long short-term memory

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190904

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200630

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200626

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200824

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200915

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20210309