JP2017146832A - Unusual log detection system and unusual log detection method - Google Patents
Unusual log detection system and unusual log detection method Download PDFInfo
- Publication number
- JP2017146832A JP2017146832A JP2016028956A JP2016028956A JP2017146832A JP 2017146832 A JP2017146832 A JP 2017146832A JP 2016028956 A JP2016028956 A JP 2016028956A JP 2016028956 A JP2016028956 A JP 2016028956A JP 2017146832 A JP2017146832 A JP 2017146832A
- Authority
- JP
- Japan
- Prior art keywords
- log
- series
- abnormality
- similarity
- detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Debugging And Monitoring (AREA)
Abstract
Description
本発明は、異常ログ検出システムおよび異常ログ検出方法に関する。 The present invention relates to an abnormal log detection system and an abnormal log detection method.
情報システムにおいて作成され記憶されるログの情報を利用した様々な技術が知られている。たとえば、ログデータと、所定の検出対象パターンとに含まれる非数値情報を数値情報に変換して、数値情報に変換された検出対象パターンの中の部分シーケンスと、数値情報に変換されたログデータの中の部分シーケンスとを対応づけた部分シーケンスペアの類似度を、動的計画法に基づく単一のスコア行列を用いて算出する手法が知られている(特許文献1)。また、端末から正常モデルを収集、統合して正常モデルを生成し、正常モデルを用いてログを分析して動作の異常度合いを示す異常度を算出して異常検知を行うことが知られている(特許文献2)。 Various techniques using log information created and stored in an information system are known. For example, non-numeric information included in log data and a predetermined detection target pattern is converted into numerical information, a partial sequence in the detection target pattern converted into numerical information, and log data converted into numerical information There is known a technique for calculating the similarity of a partial sequence pair that is associated with a partial sequence in the file using a single score matrix based on dynamic programming (Patent Document 1). Also, it is known that normal models are collected from terminals, integrated to generate normal models, logs are analyzed using the normal models, and abnormalities indicating the degree of abnormalities in operations are calculated to detect abnormalities. (Patent Document 2).
ところで、ログを用いた異常検知において、ログの監視を通じて通常の状態を学習し、学習した通常の状態を用いて異常ログを検出することができれば有用と考えられる。 By the way, in anomaly detection using a log, it is considered useful if a normal state is learned through log monitoring and an abnormal log can be detected using the learned normal state.
この点、ログの異常検出を行う方法として、ログを一行ずつ学習していく手法が考えられる。しかし、ログを一行ずつ切り離して学習した場合、複数行にまたがるログの系列に異常な振る舞いが現れる場合を検出することができない。 In this regard, a method of learning the log line by line can be considered as a method of detecting the abnormality of the log. However, when learning is performed by separating the logs line by line, it is not possible to detect a case in which an abnormal behavior appears in a series of logs extending over a plurality of lines.
また、系列を比較する方法としては、系列をbag-of-wordsベクトルで表現し、系列間の距離(ユークリッド距離やコサイン距離)に基づいて類似性を判定することも考えられる。しかし、bag-of-wordsベクトルでは、要素間の距離や並び順は考慮されない。これに対して、ログ系列は、ログの並び順に規則性があり、並び順の一致度が高いほど類似性が高いといえる。このため、bag-of-wordsベクトルをログ系列の比較に用いた場合、ログ系列の特徴を反映した比較結果を得ることができない(非特許文献1参照)。 Further, as a method for comparing sequences, it is conceivable that sequences are represented by bag-of-words vectors, and similarity is determined based on the distance between sequences (Euclidean distance or cosine distance). However, in the bag-of-words vector, the distance between elements and the order of arrangement are not considered. On the other hand, the log series has regularity in the order of logs, and it can be said that the similarity is higher as the matching degree of the order is higher. For this reason, when the bag-of-words vector is used for comparison of log sequences, a comparison result reflecting the characteristics of the log sequences cannot be obtained (see Non-Patent Document 1).
また、ログには、各種の機能が出力する一連の系列が混在する。したがって、単純にログ系列を比較するだけでなく、異なった機能が出力する多種のログが混在していても類似度を計算できるような方法によってログ系列を比較することが好ましい。そこで、系列を比較する他の方法として、DP(Dynamic Programming)マッチング(動的計画法)を用いることも考えられる。DPマッチングを用いた場合、他のログが混ざっていても、並び順を保って最適にマッチする行数を求めることができる。しかし、ログ系列では、複数行が連続して一致するほど類似性は高いといえるが、DPマッチングは、不連続な一致を許容しすぎてしまい、そのままでは連続して一致する場合に類似度が高いと評価することができない(非特許文献2参照)。 The log includes a series of series output by various functions. Therefore, it is preferable not only to simply compare log sequences, but also to compare log sequences by a method that allows the similarity to be calculated even when various logs output by different functions are mixed. Thus, as another method for comparing sequences, it is conceivable to use DP (Dynamic Programming) matching (dynamic programming). When DP matching is used, even if other logs are mixed, it is possible to obtain the optimal number of lines while maintaining the arrangement order. However, in a log sequence, the similarity is higher as multiple lines are matched continuously. However, DP matching allows too much discontinuous matching, and the degree of similarity is increased when matching continuously. It cannot be evaluated as high (see Non-Patent Document 2).
開示の実施形態は、上記に鑑みてなされたものであり、ログ系列の特性を反映してログ系列の類似度を判定することで、異常ログを検出することを目的とする。 An embodiment of the disclosure has been made in view of the above, and an object of the present invention is to detect an abnormality log by determining the similarity of a log sequence reflecting the characteristics of the log sequence.
開示する異常ログ検出システムおよび異常ログ検出方法は、情報システムのログから、先頭を1行ずつずらして2行以上の所定行数のログ系列を抽出する。異常ログ検出システムおよび異常ログ検出方法は、抽出した1のログ系列を1行ずつずらしながら、他のログ系列と一致する行数を数えてログ一致行数系列を作成し、作成したログ一致行数系列の面積と尖度との積を、類似度として算出する。異常ログ検出システムおよび異常ログ検出方法は、算出した類似度に基づき、1のログ系列の異常を検出する。 The disclosed abnormal log detection system and abnormal log detection method extract a log sequence of a predetermined number of lines of two or more lines by shifting the head line by line from the log of the information system. The abnormal log detection system and the abnormal log detection method create a log matching line number series by shifting the extracted one log series one line at a time and counting the number of lines that match the other log series. The product of the area and kurtosis of the number series is calculated as the similarity. The abnormality log detection system and the abnormality log detection method detect an abnormality in one log series based on the calculated similarity.
開示する異常ログ検出システムおよび異常ログ検出方法は、ログ系列の特性を反映してログ系列の類似度を判定することで、異常ログを検出することができるという効果を奏する。 The disclosed abnormal log detection system and abnormal log detection method have an effect that an abnormal log can be detected by determining the similarity of log sequences reflecting the characteristics of log sequences.
以下に、開示するシステムおよび方法の実施形態を図面に基づいて詳細に説明する。なお、この実施形態によりこの発明が限定されるものではない。また、各実施形態は適宜組み合わせることができる。 In the following, embodiments of the disclosed system and method will be described in detail based on the drawings. In addition, this invention is not limited by this embodiment. Moreover, each embodiment can be combined suitably.
(第1の実施形態)
図1は、第1の実施形態にかかる異常ログ検出システム1の構成の一例を示す図である。第1の実施形態にかかる異常ログ検出システム1は、異常ログ検出装置10と、情報処理システム20とを備える。異常ログ検出装置10と、情報処理システム20とは、ネットワーク30により通信可能に接続される。
(First embodiment)
FIG. 1 is a diagram illustrating an example of a configuration of an abnormality
異常ログ検出装置10は、情報処理システム20からログを取得し、ログを解析することにより、通常の状態と評価されるログと、通常の状態から逸脱した異常なログと評価されるログとを区別し、異常なログを検出する。
The abnormality
情報処理システム20は、情報処理を実行する。情報処理システム20の構成および機能は特に限定されず、所定の情報処理を実行し、実行した情報処理に応じてログを蓄積するシステムであればよい。情報処理システム20は、情報処理に応じて生成蓄積されるログを、異常ログ検出装置10に送信する。ログの送信タイミングは特に限定されないが、逐次的に情報処理システム20の状態を監視し、安定した運用を実現するという観点からは、情報処理システム20はログを生成するごとに異常ログ検出装置10に送信するよう構成されることが好ましい。なお、図1は、異常ログ検出装置10と、情報処理システム20と、を別体として例示するが、異常ログ検出装置10は、監視対象である情報処理システム20に組み入れて構成してもよい。
The
ネットワーク30は、任意の通信網である。ネットワーク30の種類は特に限定されない。ネットワーク30はたとえば、インターネット、WAN(Wide Area Network)、LAN(Local Area Network)など任意の通信網である。また、ネットワーク30は、有線でも無線でもよく、両者の組み合わせであってもよい。
The
図2は、第1の実施形態にかかる異常ログ検出システム1における処理の概要について説明するための図である。図2に示すように、異常ログ検出装置10は、情報処理システム20が出力するログを取得する。ログは複数の行から構成される。複数の行から構成されるログを取得した異常ログ検出装置10は、取得したログを蓄積し、学習処理を実行する。異常ログ検出装置10は、学習処理により、ログの通常状態と、通常状態から逸脱する異常状態と、を識別する。そして、異常ログ検出装置10は、以後情報処理システム20から出力されるログと、学習済みのログとを比較することにより、通常状態から逸脱する異常ログを検出する。異常ログ検出装置10は、検出した異常ログの情報を外部に出力(通知)する。これにより、情報処理システム20の保守者は、情報処理システム20の異常を検知し、開発者に解析を依頼する等の対応をとることができる。
FIG. 2 is a diagram for explaining an overview of processing in the abnormality
このように、第1の実施形態の異常ログ検出システム1によれば、通常状態を逸脱するログを検出して早期に保守者に通知することができる。保守者は、早期に開発者に異常ログを詳細に解析させるなどの対応をとることができ、情報処理システム20のトラブルを未然に防止して安定した運用を実現することができる。
Thus, according to the abnormality
次に、図1に戻り、異常ログ検出装置10の構成の一例、および、異常ログ検出装置10における異常ログ検出処理の流れの一例について説明する。
Next, referring back to FIG. 1, an example of the configuration of the abnormality
(異常ログ検出装置10の構成の一例)
異常ログ検出装置10は、制御部100と、記憶部200と、通信部300と、を備える。
(Example of the configuration of the abnormality log detection device 10)
The abnormality
制御部100は、異常ログ検出装置10における異常ログ検出処理を制御する。制御部100としては、CPU(Central Processing Unit)、MPU(Micro Processing Unit)等の電子回路や、ASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)等の集積回路を利用することができる。また、制御部100は、異常ログ検出装置10における処理手順等を規定したプログラムや制御データを格納する記憶部を有する。制御部100は、各種プログラムが動作することにより、各種の処理部として機能する。
The
制御部100は、取得部101と、抽出部102と、算出部103と、検出部104と、を備える。
The
取得部101は、情報処理システム20からログを取得する。取得部101は、取得したログを記憶部200に記憶する。また、取得部101は、取得したログを、抽出部102に送信する。
The
抽出部102は、取得部101が取得したログから、所定の行数のログ系列を抽出する。具体的には、抽出部102は、取得部101が取得したログを、1行ずつずらして所定の行数分だけログ系列として抽出する。抽出部102は、抽出した所定の行数n(nは2以上の自然数)のログ系列を、n次元ベクトル(n次元のログ系列)とする。
The
算出部103は、抽出部102が抽出したログ系列を、抽出済みの他のログ系列と比較して類似度を算出する。類似度の算出の詳細については後述する。
The calculation unit 103 calculates the similarity by comparing the log series extracted by the
検出部104は、算出部103が算出した類似度に基づき、ログ系列の異常を検出する。たとえば、検出部104は、ログ系列と複数の他のログ系列との類似度のうち、上位所定数の類似度が閾値以下(すなわち類似度が低い)の場合、当該ログ系列は異常ログを含むと判定する。検出部104は、上位所定数の類似度が閾値より大きい場合、当該ログ系列は異常ログを含まないと判定する。検出部104は、判定結果を異常ログ検出装置10の外部に出力する。
The
記憶部200は、各種のデータを記憶する記憶装置である。記憶部200は、RAM(Random Access Memory)、フラッシュメモリ、などのデータを書き換え可能な半導体メモリであってもよい。記憶部200として使用される装置は特に限定されない。
The
記憶部200は、ログ記憶部201と、ログ系列記憶部202と、類似度記憶部203と、検出結果記憶部204と、を備える。
The
ログ記憶部201は、情報処理システム20から取得部101により取得されるログを記憶する。
The
ログ系列記憶部202は、抽出部102が抽出するログ系列を記憶する。
The log
類似度記憶部203は、算出部103が算出するログ系列間の類似度を記憶する。
The
検出結果記憶部203は、検出部104により異常ログを含むと判定されたログ系列を記憶する。
The detection
なお、記憶部200に含まれる各部は適宜統合分散することができる。また、記憶される情報の構成も適宜変更することができる。
Each unit included in the
通信部300は、異常ログ検出装置10と外部との通信を実行する。通信部300は、検出部104が検出した異常ログの情報を外部に送信する。通信部300はまた、情報処理システム20が出力するログを受信する。通信部300は、外部との通信を可能にするものであれば具体的な構成は特に限定されない。通信部300は、情報の入力および出力を実行する入力部および出力部の機能も備えるものとする。
The
(異常ログ検出処理の流れの一例)
図3は、第1の実施形態にかかる異常ログ検出処理の大まかな流れの一例を示すフローチャートである。
(Example of abnormal log detection process flow)
FIG. 3 is a flowchart illustrating an example of a rough flow of the abnormality log detection process according to the first embodiment.
異常ログ検出装置10は、電源投入や指示入力等所定のトリガに応じて、情報処理システム20の監視を開始する(ステップS41)。異常ログ検出装置10が監視を開始すると、情報処理システム20から出力されるログを通信部300を介して取得部101が取得し、ログ記憶部201に記憶する(ステップS42)。ログが取得されると、抽出部102は、取得されたログを一行ずつずらしてn行のログをn次元のログ系列として抽出する(ステップS43)。算出部103は、抽出されたログ系列と他の抽出済みのログ系列との類似度を算出する(ステップS44)。検出部104は、上位所定数の類似度が閾値以下の場合、当該ログ系列は異常ログを含むと判定する。検出部104は、上位所定数の類似度が閾値より大きい場合、当該ログ系列は異常ログを含まないと判定する。検出部104は検出結果を外部に出力する(ステップS45)。以上が、異常ログ検出処理の大まかな流れの一例である。
The abnormality
(ログ系列の抽出手法の一例)
図4は、第1の実施形態におけるログ系列の抽出手法の一例を説明するための図である。図4に示すように、ログとして、「A,B,C,D,E,F,G,…」が、情報処理システム20から出力され、異常ログ検出装置10により取得されたものとする。なお、図4中、アルファベットの大文字は各々1つの行を表すものとする。このとき、予め5行分を一つのログ系列とする旨、異常ログ検出装置10に設定されているとする。抽出部102は、最初の5行分「A,B,C,D,E」を一つのログ系列として抽出する。また、抽出部102は、最初に抽出したログ系列の先頭から1行ずらした箇所を先頭として次のログ系列を抽出する。すなわち、抽出部102は、2番目の行を先頭とする5行分「B,C,D,E,F」を次のログ系列として抽出する。さらに、抽出部102は、さらに1行ずらして3番目の行を先頭とする5行分「C,D,E,F,G」を次のログ系列として抽出する。このように、抽出部102は、取得したログから、先頭を1行ずつずらしながら所定数行分を切り出してログ系列として抽出する。
(Example of log sequence extraction method)
FIG. 4 is a diagram for explaining an example of a log sequence extraction method according to the first embodiment. As shown in FIG. 4, it is assumed that “A, B, C, D, E, F, G,...” Is output from the
(ログ系列の類似度算出手法の一例)
図5は、第1の実施形態にかかる異常ログ検出システムにおいて、ログ系列間の類似度を算出する手法の一例を説明するための図である。また、図6は、図5に示す二つのログ系列を突き合わせる場合について説明するための図である。一例として、図5では、5行のログ系列a「Z,A,B,Y,C」と5行のログ系列b「A,B,C,D,E」との類似度を算出する場合を説明する。算出部103は、二つのログ系列を、一行ずつずらして突き合わせる。たとえば、ログ系列a「Z,A,B,Y,C」と、ログ系列b「A,B,C,D,E」とを先頭をそろえて突き合わせると、両者間で一致する部分はない(図6の(1))。ログ系列bを1行分右にずらしてログ系列aと突き合わせると、「A,B」が両者間で一致する(図6の(2))。ログ系列bをさらに1行分、合計で2行分右にずらしてログ系列aと突き合わせると、「C」が一致する(図6の(3))。このように、算出部103は、類似度を算出する対象となるログ系列の一方を一行ずつずらして、二つのログ系列を突き合わせ、一致する行数を数える。
(Example of log series similarity calculation method)
FIG. 5 is a diagram for explaining an example of a technique for calculating the similarity between log sequences in the abnormality log detection system according to the first embodiment. FIG. 6 is a diagram for explaining a case where the two log sequences shown in FIG. 5 are matched. As an example, in FIG. 5, the similarity between the 5-line log series a “Z, A, B, Y, C” and the 5-line log series b “A, B, C, D, E” is calculated. Will be explained. The calculation unit 103 matches the two log series by shifting one line at a time. For example, when the log sequence a “Z, A, B, Y, C” and the log sequence b “A, B, C, D, E” are matched with each other at the head, there is no matching portion between the two. ((1) in FIG. 6). When the log series b is shifted to the right by one line and matched with the log series a, “A, B” coincides between them ((2) in FIG. 6). When the log series b is further shifted to the right by one line, a total of two lines, and matched with the log series a, “C” matches ((3) in FIG. 6). In this way, the calculation unit 103 shifts one of the log series for which the similarity is to be calculated one line at a time, matches the two log series, and counts the number of matching lines.
算出部103は、突き合わせの結果に基づき、一致した行数の系列dを作成する。たとえば、図5の例では、算出部103は、ログ一致行数系列d=(0,0,1,2,0,0,0,0,0)を作成する。算出部103は、あらかじめ二つのログ系列を突き合わせる順序を設定しておき、その順序に応じて一致行数を並べてベクトルとしてログ一致行数系列を作成する。たとえば図6の例では、オフセット数を「1」から「9」まで設定し、オフセット数「1」の場合は、ログ系列bをログ系列aから右に4行ずらす。オフセット数「2」の場合は、ログ系列bをログ系列aから右に3行ずらす。また、オフセット数「3」の場合は、ログ系列bをログ系列aから右に2行ずらす。そして、各オフセット数の場合の一致行数を数えて、ベクトル化する。図6のようにオフセット「1」から「9」の順に一致行数を並べると、図5に示すログ一致行数系列dが得られる。 The calculation unit 103 creates a series d of the number of matched rows based on the matching result. For example, in the example of FIG. 5, the calculation unit 103 creates a log matching row number series d = (0, 0, 1, 2, 0, 0, 0, 0, 0). The calculation unit 103 sets an order in which two log series are matched in advance, and creates a log matching line number series as a vector by arranging the number of matching lines according to the order. For example, in the example of FIG. 6, the number of offsets is set from “1” to “9”, and when the number of offsets is “1”, the log series b is shifted four lines to the right from the log series a. When the offset number is “2”, the log sequence b is shifted to the right by 3 lines from the log sequence a. When the offset number is “3”, the log series b is shifted to the right by 2 lines from the log series a. Then, the number of matching rows for each offset number is counted and vectorized. When the number of matching lines is arranged in the order of offsets “1” to “9” as shown in FIG. 6, a log matching line number series d shown in FIG. 5 is obtained.
そして、算出部103は、ログ一致行数系列の面積s(系列の長さで正規化したもの)と尖度kの積を類似度mとして算出する。たとえば、n次元(n行)のログ系列A
ログ系列Aとログ系列Bとの類似度mは、面積sと尖度kの積であるから、以下の式(3)で表される。 Since the similarity m between the log series A and the log series B is the product of the area s and the kurtosis k, it is expressed by the following equation (3).
また、ログ系列Aとログ系列Bとの間の距離は、類似度の逆数、すなわち、式(4)で表される。 Further, the distance between the log sequence A and the log sequence B is expressed by the reciprocal of the similarity, that is, the equation (4).
以上に基づき、図7を参照し、例としてログ系列H1=(Z,A,B,Y,C)、H2=(U,V,A,W,Y)、L=(A,B,C,D,E)について、H1とLとの類似度、H2とLとの類似度を算出する場合を考える。図7は、第1の実施形態におけるログ系列の比較と類似度の算出の具体例について説明するための図である。 Based on the above, referring to FIG. 7, as an example, the log sequence H1 = (Z, A, B, Y, C), H2 = (U, V, A, W, Y), L = (A, B, C) , D, E), consider the case of calculating the similarity between H1 and L and the similarity between H2 and L. FIG. 7 is a diagram for describing a specific example of comparison of log sequences and calculation of similarity in the first embodiment.
図7の(A)は、ログ系列H1とログ系列Lとを比較する場合について示す。ログ系列H1と、ログ系列Lとを1行ずつずらして突き合わせていくと、ログ系列LをH1より右に1行分ずらしたときに、「A,B」の行が一致する。また、ログ系列LをH1より右に2行分ずらしたときに、「C」の行が一致する。これ以外の場合には、一致する行はない。したがって、ログ系列H1とログ系列Lのログ一致行数系列は、式(5)で表すことができる。 FIG. 7A shows a case where the log sequence H1 and the log sequence L are compared. When the log series H1 and the log series L are shifted and matched one line at a time, when the log series L is shifted to the right by one line from H1, the lines “A, B” match. Further, when the log series L is shifted by two lines to the right of H1, the line “C” matches. Otherwise, there is no matching line. Accordingly, the log matching line number series of the log series H1 and the log series L can be expressed by Expression (5).
ここで、式(5)のログ一致行数系列について面積sを式(1)に基づいて算出すると、s=0.33となる。また、尖度kを式(2)に基づいて算出すると、k=2となる。したがって、ログ系列H1とログ系列Lとの類似度は、m(H1,L)=0.67となる。 Here, when the area s is calculated based on the formula (1) for the log matching row number series of the formula (5), s = 0.33. Further, when the kurtosis k is calculated based on the formula (2), k = 2. Therefore, the similarity between the log sequence H1 and the log sequence L is m (H1, L) = 0.67.
他方、図7の(B)は、ログ系列H2とログ系列Lとを比較する場合について示す。ログ系列H2と、ログ系列Lとを1行ずつずらして突き合わせていくと、ログ系列LをH2より右に2行分ずらしたときに、「A」の行が一致する。これ以外の場合には、一致する行はない。したがって、ログ系列H2とログ系列Lのログ一致行数系列は、式(6)で表すことができる。 On the other hand, FIG. 7B shows a case where the log series H2 and the log series L are compared. When the log series H2 and the log series L are shifted and matched one line at a time, when the log series L is shifted two lines to the right of H2, the line “A” matches. Otherwise, there is no matching line. Accordingly, the log matching row number series of the log series H2 and the log series L can be expressed by Expression (6).
ここで、式(6)のログ一致行数系列について面積sを式(1)に基づいて算出すると、s=0.11となる。また、尖度kを式(2)に基づいて算出すると、k=0.70となる。したがって、ログ系列H2とログ系列Lとの類似度は、m(H2,L)=0.078となる。 Here, when the area s is calculated based on the formula (1) for the log matching row number series of the formula (6), s = 0.11. Further, when the kurtosis k is calculated based on the formula (2), k = 0.70. Therefore, the similarity between the log sequence H2 and the log sequence L is m (H2, L) = 0.078.
ログ系列H1とログ系列L、ログ系列H2とログ系列Lの場合を比較すると、ログ系列H2とログ系列Lの場合の方がログ系列H1とログ系列Lの場合よりも、面積も尖度も小さく、結果的に算出される類似度も小さい。すなわち、ログ系列H2よりログ系列H1の方がログ系列Lと類似している、と評価することができる。 When the log series H1 and the log series L and the log series H2 and the log series L are compared, the log series H2 and the log series L have a larger area and kurtosis than the log series H1 and the log series L. It is small and the similarity calculated as a result is also small. That is, it can be evaluated that the log sequence H1 is more similar to the log sequence L than the log sequence H2.
このように、第1の実施形態の異常ログ検出装置10は、ログから先頭行を1行ずつずらしてログ系列を抽出した上で、上記のように他のログ系列と比較してログ一致行数系列を導出し、ログ系列間の類似度を算出する。このため、異常ログ検出装置10は、仮に一つのログ系列の中に異なる機能により生成されたログが混ざっていたとしても、ログ系列間の類似度をログの並び順や連続性も考慮にいれて算出することができる。
As described above, the abnormality
(異常検出処理の一例)
図8は、第1の実施形態にかかる異常検出処理について説明するための図である。検出部104が異常ログを含むログ系列を検出する手法としてはたとえば、LOF(Local Outlier Factor)等の外れ値検出法を利用することができる。まず、図8を用いて、外れ値を検出する手法について説明する。
(Example of abnormality detection processing)
FIG. 8 is a diagram for explaining the abnormality detection process according to the first embodiment. For example, an outlier detection method such as LOF (Local Outlier Factor) can be used as a method for the
上述のようにログ系列を抽出し、類似度を算出した場合に、各ログ系列間の距離を、類似度の逆数で表現することができる(上記式(4))。このようにして得た各ログ系列間の距離をグラフ化すると、例えば図8に示すグラフのようになる。図8のグラフには、クラスタ1とクラスタ2が示される。クラスタ1に含まれるログ系列p、qは過去に抽出されたログ系列である。また、クラスタ2に含まれるログ系列rも過去に抽出されたログ系列である。新たに抽出されたログ系列は、過去に抽出されたログ系列との距離を評価し、過去に抽出されたログ系列によって形成されるクラスタ(集団)に近ければ、過去に抽出されたログ系列と同様のログ系列である、と評価することができる。逆に、新たに抽出されたログ系列が、それまでに抽出されたログ系列により形成される何れのクラスタからも遠ければ、通常状態から逸脱する異常ログを含むログ系列である、と評価することができる。
When the log series is extracted and the similarity is calculated as described above, the distance between the log series can be expressed by the reciprocal of the similarity (the above formula (4)). When the distance between the log series obtained in this way is graphed, for example, the graph shown in FIG. 8 is obtained. In the graph of FIG. 8,
図8の例において、たとえば、新しくログ系列aが抽出されたとする。そしてログ系列aとログ系列pおよびログ系列qとの距離をそれぞれ算出したところ、ログ系列aがグラフに示す位置に配置されたとする。この場合、ログ系列aとログ系列p、qとの距離は、同じクラスタ1を構成する他のログ系列とログ系列p、qとの距離とあまり変わらない。つまり、ログ系列aは、クラスタ1を構成する通常状態のログ系列である、と評価することができる。
In the example of FIG. 8, for example, it is assumed that a new log series a is extracted. Then, when the distances between the log series a, the log series p, and the log series q are calculated, it is assumed that the log series a is arranged at the position shown in the graph. In this case, the distance between the log series a and the log series p and q is not much different from the distance between the other log series and the log series p and q constituting the
他方、図8の例において、新しくログ系列bが抽出されたとする。そしてログ系列bと、ログ系列qおよびログ系列rとの距離をそれぞれ算出したところ、ログ系列bがグラフに示す位置に配置されたとする。この場合、ログ系列bとログ系列qとの距離は、クラスタ1に属する他のログ系列とログ系列qとの距離と比較して遠い。また、ログ系列bとログ系列rとの距離は、クラスタ2に属する他のログ系列とログ系列rとの距離と比較して遠い。したがって、ログ系列bは、クラスタ1およびクラスタ2のいずれにも属さない、通常状態を逸脱したログ系列である、と評価することができる。
On the other hand, assume that a new log series b is extracted in the example of FIG. Then, when the distance between the log series b, the log series q, and the log series r is calculated, it is assumed that the log series b is arranged at the position shown in the graph. In this case, the distance between the log series b and the log series q is far compared with the distance between the other log series belonging to the
このように、各ログ系列について算出される距離を用いて、当該ログ系列が通常状態から逸脱しているか否かを判定することができる。 In this way, it is possible to determine whether or not the log sequence deviates from the normal state using the distance calculated for each log sequence.
異常検出処理の具体的な手順は、算出部103が算出した類似度または距離に基づいて検出するのであれば、特に限定されない。また、異常検出のために使用する閾値等は、過去のログ系列から算出された類似度や距離に基づいて設定すればよい。閾値の設定には機械学習等を用いてもよい。また閾値は、ログ系列から新たに算出される類似度や距離に基づいて、逐次更新していくものとしてもよい。 The specific procedure of the abnormality detection process is not particularly limited as long as it is detected based on the similarity or distance calculated by the calculation unit 103. Further, the threshold value used for abnormality detection may be set based on the similarity or distance calculated from the past log series. Machine learning or the like may be used for setting the threshold. The threshold value may be sequentially updated based on the similarity or distance newly calculated from the log series.
(第1の実施形態の効果)
第1の実施形態にかかる異常ログ検出システムは、抽出部と、算出部と、検出部とを備える。抽出部は、情報システムのログから、先頭を一行ずつずらして2行以上の所定行数のログ系列を抽出する。算出部は、抽出した1のログ系列を1行ずつずらしながら、他のログ系列と一致する行数を数えてログ一致行数系列を作成し、作成したログ一致行数系列の面積と尖度との積を、類似度として算出する。検出部は、算出した類似度に基づき、1のログ系列の異常を検出する。このため、異常ログ検出システムは、ログ系列の特性を反映してログ系列の類似度を判定し、異常ログを検出することができる。また、異常ログ検出システムは、ログ系列に複数機能に起因するログが含まれている場合であっても、ログ系列間の類似度を算出することができる。また、異常ログ検出システムは、ログの並び順や連続性を反映した類似度を算出することができる。
(Effects of the first embodiment)
The abnormality log detection system according to the first embodiment includes an extraction unit, a calculation unit, and a detection unit. The extraction unit extracts a log sequence having a predetermined number of lines of two or more lines by shifting the head line by line from the log of the information system. The calculation unit creates a log matching line number series by counting the number of lines that match another log series while shifting the extracted one log series line by line, and the area and kurtosis of the created log matching line number series Is calculated as the similarity. The detection unit detects an abnormality in one log series based on the calculated similarity. Therefore, the abnormality log detection system can detect the abnormality log by determining the similarity of the log series reflecting the characteristics of the log series. Further, the abnormality log detection system can calculate the similarity between log sequences even when the log sequence includes logs resulting from a plurality of functions. In addition, the abnormality log detection system can calculate a similarity that reflects the order and continuity of logs.
また、第1の実施形態にかかる異常ログ検出システムにおいて、抽出部は、少なくとも2つのn行数のログ系列
また、第1の実施形態にかかる異常ログ検出システムにおいて、算出部はさらに、類似度に基づき、1のログ系列と他のログ系列との間の距離を算出し、検出部は、類似度に基づき算出された距離に基づき、1のログ系列の異常を検出する。このため、異常ログ検出システムは、距離によってあらわされるログ系列間の類似度に基づき、容易に通常状態を逸脱するログ系列を検出することができる。 In the abnormality log detection system according to the first embodiment, the calculation unit further calculates a distance between one log series and another log series based on the similarity, and the detection unit determines the similarity. Based on the calculated distance, an abnormality in one log series is detected. For this reason, the abnormal log detection system can easily detect a log sequence deviating from the normal state based on the similarity between log sequences represented by the distance.
また、第1の実施形態にかかる異常ログ検出システムにおいて、算出部は、類似度の逆数を距離として算出し、検出部は、1のログ系列と他のログ系列との距離が、他のログ系列間の距離よりも所定値以上長い場合に、1のログ系列の異常を検出する。このため、異常ログ検出システムは、容易に通常状態を逸脱するログ系列を検出することができる。 In the abnormality log detection system according to the first embodiment, the calculation unit calculates the reciprocal of the similarity as a distance, and the detection unit calculates the distance between one log series and another log series as another log. If the distance between the series is longer than a predetermined value, an abnormality in one log series is detected. For this reason, the abnormal log detection system can easily detect a log sequence deviating from the normal state.
また、上記のように構成した異常ログ検出システムは、情報システムを自動的に監視して、ログの通常状態を学習し、通常状態を逸脱するログを検出することができる。このため、異常ログ検出システムは、通常と異なる異常な振る舞いをするログを早期に検出して、情報処理システムの不具合に早期に対応し、情報処理システムの安定した運用を実現することを可能にする。 Further, the abnormality log detection system configured as described above can automatically monitor the information system, learn the normal state of the log, and detect a log that deviates from the normal state. For this reason, the abnormal log detection system can detect logs that behave abnormally different from normal at an early stage, respond to problems in the information processing system at an early stage, and realize stable operation of the information processing system. To do.
(システム構成等)
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPU(Central Processing Unit)および当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
(System configuration etc.)
Further, each component of each illustrated apparatus is functionally conceptual, and does not necessarily need to be physically configured as illustrated. In other words, the specific form of distribution / integration of each device is not limited to that shown in the figure, and all or a part thereof may be functionally or physically distributed or arbitrarily distributed in arbitrary units according to various loads or usage conditions. Can be integrated and configured. Further, all or any part of each processing function performed in each device is realized by a CPU (Central Processing Unit) and a program analyzed and executed by the CPU, or hardware by wired logic. Can be realized as
また、本実施形態において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的におこなうこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。 In addition, among the processes described in the present embodiment, all or part of the processes described as being automatically performed can be manually performed, or the processes described as being manually performed can be performed. All or a part can be automatically performed by a known method. In addition, the processing procedure, control procedure, specific name, and information including various data and parameters shown in the above-described document and drawings can be arbitrarily changed unless otherwise specified.
(プログラム)
一実施形態として、異常ログ検出装置10は、パッケージソフトウェアやオンラインソフトウェアとして上記の監視を実行する異常ログ検出プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の異常ログ検出プログラムを情報処理装置に実行させることにより、情報処理装置を異常ログ検出装置10として機能させることができる。ここで言う情報処理装置には、デスクトップ型またはノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)等の移動体通信端末、さらには、PDA(Personal Digital Assistants)等のスレート端末等がその範疇に含まれる。
(program)
As an embodiment, the abnormality
また、異常ログ検出装置10は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の異常ログ検出に関するサービスを提供するサーバ装置として実装することもできる。例えば、異常ログ検出装置10は、ログを入力とし、検出した異常ログを含むログ系列を出力とする異常ログ検出サービスを提供するサーバ装置として実装される。この場合、異常ログ検出装置10は、Webサーバとして実装することとしてもよいし、アウトソーシングによって上記の異常ログ検出に関するサービスを提供するクラウドとして実装することとしてもかまわない。
In addition, the abnormality
図9は、プログラムが実行されることにより、異常ログ検出装置が実現されるコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
FIG. 9 is a diagram illustrating an example of a computer in which an abnormality log detection apparatus is realized by executing a program. The
メモリ1010は、ROM(Read Only Memory)1011およびRAM(Random Access Memory)1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
The
ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、異常ログ検出装置10の各処理を規定するプログラムは、コンピュータ1000により実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、異常ログ検出装置10における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSD(Solid State Drive)により代替されてもよい。
The hard disk drive 1090 stores, for example, an
また、上述した実施形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。
The setting data used in the processing of the above-described embodiment is stored as
なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093およびプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093およびプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
The
上記の実施形態やその変形は、本願が開示する技術に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。 The above embodiments and modifications thereof are included in the invention disclosed in the claims and equivalents thereof as well as included in the technology disclosed in the present application.
1 異常ログ検出システム
10 異常ログ検出装置
20 情報処理システム
30 ネットワーク
100 制御部
101 取得部
102 抽出部
103 算出部
104 検出部
200 記憶部
201 ログ記憶部
202 ログ系列記憶部
203 類似度記憶部
204 検出結果記憶部
300 通信部
DESCRIPTION OF
Claims (5)
抽出した1のログ系列を1行ずつずらしながら、他のログ系列と一致する行数を数えてログ一致行数系列を作成し、作成した前記ログ一致行数系列の面積と尖度との積を、類似度として算出する算出部と、
算出した類似度に基づき、前記1のログ系列の異常を検出する検出部と、
を備えることを特徴とする異常ログ検出システム。 An extraction unit that extracts a log sequence of a predetermined number of lines of two or more lines by shifting the head line by line from the log of the information system;
While shifting the extracted log series one line at a time, count the number of lines that match the other log series to create a log matching line number series, and multiply the area and kurtosis of the created log matching line number series , As a similarity,
Based on the calculated similarity, a detection unit that detects an abnormality in the one log series;
An abnormal log detection system comprising:
前記算出部は、前記2つのn行数のログ系列のログ一致行数系列
The calculation unit includes a log matching row number sequence of the two n row log sequences.
前記検出部は、前記類似度に基づき算出された前記距離に基づき、前記1のログ系列の異常を検出することを特徴とする請求項1または2に記載の異常ログ検出システム。 The calculation unit further calculates a distance between the one log series and the other log series based on the similarity,
The abnormality log detection system according to claim 1, wherein the detection unit detects an abnormality of the one log series based on the distance calculated based on the similarity.
前記検出部は、前記1のログ系列と前記他のログ系列との距離が、前記他のログ系列間の距離よりも所定値以上長い場合に、前記1のログ系列の異常を検出することを特徴とする請求項3に記載の異常ログ検出システム。 The calculation unit calculates the reciprocal of the similarity as the distance,
The detection unit detects an abnormality in the first log series when a distance between the first log series and the other log series is longer than a distance between the other log series by a predetermined value or more. The abnormality log detection system according to claim 3, wherein
抽出した1のログ系列を1行ずつずらしながら、他のログ系列と一致する行数を数えてログ一致行数系列を作成し、作成した前記ログ一致行数系列の面積と尖度との積を、類似度として算出する算出工程と、
算出した類似度に基づき、前記1のログ系列の異常を検出する検出工程と、
をコンピュータが実行することを特徴とする異常ログ検出方法。 An extraction step of extracting a log sequence of a predetermined number of lines of two or more lines by shifting the head line by line from the log of the information system;
While shifting the extracted log series one line at a time, count the number of lines that match the other log series to create a log matching line number series, and multiply the area and kurtosis of the created log matching line number series , As a similarity,
A detection step of detecting an abnormality in the log sequence of 1 based on the calculated similarity;
An abnormality log detection method characterized in that a computer executes the process.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016028956A JP2017146832A (en) | 2016-02-18 | 2016-02-18 | Unusual log detection system and unusual log detection method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016028956A JP2017146832A (en) | 2016-02-18 | 2016-02-18 | Unusual log detection system and unusual log detection method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2017146832A true JP2017146832A (en) | 2017-08-24 |
Family
ID=59683099
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016028956A Pending JP2017146832A (en) | 2016-02-18 | 2016-02-18 | Unusual log detection system and unusual log detection method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2017146832A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112099984A (en) * | 2020-11-16 | 2020-12-18 | 之江实验室 | Method for detecting and recovering internal abnormality of mimicry industrial gateway |
-
2016
- 2016-02-18 JP JP2016028956A patent/JP2017146832A/en active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112099984A (en) * | 2020-11-16 | 2020-12-18 | 之江实验室 | Method for detecting and recovering internal abnormality of mimicry industrial gateway |
CN112099984B (en) * | 2020-11-16 | 2021-02-12 | 之江实验室 | Method for detecting and recovering internal abnormality of mimicry industrial gateway |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Seto et al. | Multivariate time series classification using dynamic time warping template selection for human activity recognition | |
JP6535130B2 (en) | Analyzer, analysis method and analysis program | |
US10743819B2 (en) | System and method for determining information and outliers from sensor data | |
US20210142108A1 (en) | Methods, apparatus, and storage medium for classifying graph nodes | |
WO2019002603A1 (en) | Method of monitoring the performance of a machine learning algorithm | |
US20180173789A1 (en) | Descriptive datacenter state comparison | |
JP6633476B2 (en) | Attribute estimation device, attribute estimation method, and attribute estimation program | |
TWI710922B (en) | System and method of training behavior labeling model | |
Chaudhuri et al. | The mean and median criteria for kernel bandwidth selection for support vector data description | |
US20150235139A1 (en) | Extracting interpretable features for classification of multivariate time series from physical systems | |
WO2021071911A1 (en) | Sensor contribution ranking | |
JP6828807B2 (en) | Data analysis device, data analysis method and data analysis program | |
Mall et al. | Representative subsets for big data learning using k-NN graphs | |
US11275643B2 (en) | Dynamic configuration of anomaly detection | |
Sanei-Mehri et al. | Enumerating top-k quasi-cliques | |
JP6767312B2 (en) | Detection system, detection method and detection program | |
US20180173687A1 (en) | Automatic datacenter state summarization | |
JP7274162B2 (en) | ABNORMAL OPERATION DETECTION DEVICE, ABNORMAL OPERATION DETECTION METHOD, AND PROGRAM | |
US20210117858A1 (en) | Information processing device, information processing method, and storage medium | |
JP2017146832A (en) | Unusual log detection system and unusual log detection method | |
US20180176108A1 (en) | State information completion using context graphs | |
US11868440B1 (en) | Statistical model training systems | |
Hasanbelliu et al. | Online learning using a Bayesian surprise metric | |
Górecki et al. | Functional discriminant coordinates | |
JP2018073241A (en) | Detection device, detection method, and detection program |