JP7005278B2 - Abnormal log detection device, abnormal log detection method and program - Google Patents

Abnormal log detection device, abnormal log detection method and program Download PDF

Info

Publication number
JP7005278B2
JP7005278B2 JP2017208307A JP2017208307A JP7005278B2 JP 7005278 B2 JP7005278 B2 JP 7005278B2 JP 2017208307 A JP2017208307 A JP 2017208307A JP 2017208307 A JP2017208307 A JP 2017208307A JP 7005278 B2 JP7005278 B2 JP 7005278B2
Authority
JP
Japan
Prior art keywords
log
feature amount
communication
abnormality
communication log
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017208307A
Other languages
Japanese (ja)
Other versions
JP2019082746A (en
Inventor
真義 重田
尚通 大谷
正敏 雪島
俊輔 成瀬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Data Corp
Original Assignee
NTT Data Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Data Corp filed Critical NTT Data Corp
Priority to JP2017208307A priority Critical patent/JP7005278B2/en
Publication of JP2019082746A publication Critical patent/JP2019082746A/en
Application granted granted Critical
Publication of JP7005278B2 publication Critical patent/JP7005278B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、不正プログラムによる異常ログを検出する技術に関する。 The present invention relates to a technique for detecting an abnormality log due to a malicious program.

いわゆるマルウェアと呼ばれるような不正プログラムを検出するため、例えば実ネットワークに接続可能な仮想ネットワーク環境上でマルウェアを実行してそのマルウェアで引き起こす挙動を把握する方法が知られている(例えば、非特許文献1参照)。 In order to detect malicious programs such as so-called malware, there is known a method of executing malware in a virtual network environment that can be connected to a real network and grasping the behavior caused by the malware (for example, non-patent documents). See 1).

青木一史、岩村誠、伊藤光恭、「半透性仮想ネットワークを用いたボットの動的解析手法の提案」、電子情報通信学会2008年総合大会、2008年3月18日Kazushi Aoki, Makoto Iwamura, Mitsuyasu Ito, "Proposal of Dynamic Analysis Method for Bots Using Semipermeable Virtual Network", IEICE 2008 General Conference, March 18, 2008

この種の不正プログラムの感染を検出する技術として、プロキシサーバ装置等に蓄積された通信ログを不正プログラム感染時に固有の通信ログの検出パターンと照合する、というものがある。しかし、この検出パターンは、プログラミングに精通した専門家でなければ作成が難しいことに加え、その作成には例えば2週間といった長い時間がかかるという問題がある。また、この検出パターンは、不正プログラムによる攻撃に関する情報が例えばWEBサイト等で公開されるとそれを入手して作成するものであるが、この攻撃情報の公開や入手にも一定の時間を要する。さらに、特定の組織を狙った不正プログラムに関しては、その攻撃情報が公開されず、その組織自身が不正プログラムによる攻撃を検出しなければならないという問題もある。 As a technique for detecting the infection of this kind of malicious program, there is a technique of collating the communication log accumulated in the proxy server device or the like with the detection pattern of the communication log peculiar to the malicious program infection. However, this detection pattern is difficult to create unless it is an expert who is familiar with programming, and there is a problem that it takes a long time such as two weeks to create it. Further, this detection pattern is created by obtaining information on an attack by a malicious program when it is published on, for example, a WEB site, but it takes a certain amount of time to publish or obtain this attack information. Further, regarding a malicious program targeting a specific organization, there is also a problem that the attack information is not disclosed and the organization itself must detect the attack by the malicious program.

本発明は、このような事情を考慮してなされたものであり、従来のような検出パターンに依存せずに、不正プログラムによる異常ログを検出することを目的とする。 The present invention has been made in consideration of such circumstances, and an object of the present invention is to detect an abnormality log due to a malicious program without depending on a conventional detection pattern.

上記課題を解決するため、本発明は、複数の通信ログを所定の基準に従って通信ログ群に分割する分割部と、分割された各々の前記通信ログ群の特徴量を抽出する特徴量抽出部
と、抽出された前記特徴量に基づいて前記通信ログ群ごとに異常ログを抽出する異常ログ検出部とを備え、前記異常ログ検出部は、各々の前記通信ログ群に圧縮処理を行い、各々の前記通信ログ群と、当該通信ログ群に圧縮処理を行ったデータとの誤差を算出し、算出した前記誤差に基づいて前記異常ログを抽出することを特徴とする異常ログ検出装置を提供する。
In order to solve the above problems, the present invention comprises a division unit that divides a plurality of communication logs into communication log groups according to a predetermined standard, and a feature amount extraction unit that extracts the feature amount of each of the divided communication log groups. An abnormality log detection unit that extracts an abnormality log for each communication log group based on the extracted feature amount is provided , and the abnormality log detection unit performs compression processing on each communication log group and performs compression processing on each of the communication log groups. Provided is an abnormality log detection device characterized in that an error between the communication log group and data obtained by performing compression processing on the communication log group is calculated and the abnormality log is extracted based on the calculated error .

前記特徴量の解析観点、前記特徴量の解析対象、前記特徴量の表記方法及び前記特徴量の次元数を含む情報を記憶する特徴量記憶部を備え、前記特徴量抽出部は、前記特徴量記憶部に記憶されている情報に基づいて、複数次元の行列で表現される前記通信ログ群の特徴量を抽出し、前記異常ログ検出部は、前記圧縮処理として、前記特徴量を次元削減する圧縮処理を行うようにしてもよい。 A feature amount storage unit for storing information including an analysis viewpoint of the feature amount, an analysis target of the feature amount, a notation method of the feature amount, and a number of dimensions of the feature amount is provided, and the feature amount extraction unit is the feature amount. Based on the information stored in the storage unit, the feature amount of the communication log group represented by a multidimensional matrix is extracted, and the abnormality log detection unit dimensionally reduces the feature amount as the compression process. The compression process may be performed.

また、本発明は、複数の通信ログを所定の基準に従って通信ログ群に分割する分割部と、分割された各々の前記通信ログ群の特徴量を抽出する特徴量抽出部と、抽出された前記特徴量に基づいて前記通信ログ群ごとに異常ログを抽出する異常ログ検出部とを備え、前記特徴量抽出部は、分割された1の前記通信ログ群に含まれる各通信ログの関係において特定される特徴量を抽出することを特徴とする異常ログ検出装置を提供する。Further, the present invention has a division unit that divides a plurality of communication logs into communication log groups according to a predetermined standard, a feature amount extraction unit that extracts the feature amount of each of the divided communication log groups, and the extracted feature amount extraction unit. An abnormality log detection unit that extracts an abnormality log for each communication log group based on the feature amount is provided, and the feature amount extraction unit is specified in relation to each communication log included in the divided 1 communication log group. Provided is an abnormality log detection device characterized by extracting a feature amount to be obtained.

また、本発明は、複数の通信ログを所定の基準に従って通信ログ群に分割する分割部と、分割された各々の前記通信ログ群の特徴量を抽出する特徴量抽出部と、抽出された前記特徴量に基づいて前記通信ログ群ごとに異常ログを抽出する異常ログ検出部とを備え、通信ログの監視対象となる複数の通信装置のうち閾値以上の通信装置が通信を行った発信先がある場合には、当該発信先を含む通信ログを、異常ログの検出対象から除外することを特徴とする異常ログ検出装置を提供する。 Further, the present invention includes a division unit that divides a plurality of communication logs into communication log groups according to a predetermined standard, a feature amount extraction unit that extracts the feature amount of each of the divided communication log groups, and the extracted above. It is equipped with an anomaly log detection unit that extracts anomalies logs for each communication log group based on the feature amount, and among a plurality of communication devices to be monitored for communication logs, the destination to which the communication device equal to or higher than the threshold communicates is In some cases, the present invention provides an abnormality log detection device characterized by excluding a communication log including the destination from the detection target of the abnormality log.

前記分割部は、同一の発信元を含む通信ログのうち、連続する通信ログの発生日時の時間間隔が閾値未満となる1又は複数の通信ログを1の前記通信ログ群として分割するようにしてもよい。 Among the communication logs including the same source, the division unit divides one or a plurality of communication logs whose time interval between the generation dates and times of consecutive communication logs is less than the threshold value into one communication log group. May be good.

また、本発明は、数の通信ログを所定の基準に従って通信ログ群に分割する分割ステップと、分割された各々の前記通信ログ群の特徴量を抽出する特徴量抽出ステップと、抽出された前記特徴量に基づいて前記通信ログ群ごとに異常ログを抽出する異常ログ検出ステップとを備え、前記異常ログ検出ステップにおいて、各々の前記通信ログ群に圧縮処理
を行い、各々の前記通信ログ群と、当該通信ログ群に圧縮処理を行ったデータとの誤差を算出し、算出した前記誤差に基づいて前記異常ログを抽出することを特徴とする異常ログ検出方法を提供する。
また、本発明は、複数の通信ログを所定の基準に従って通信ログ群に分割する分割ステップと、分割された各々の前記通信ログ群の特徴量を抽出する特徴量抽出ステップと、抽出された前記特徴量に基づいて前記通信ログ群ごとに異常ログを抽出する異常ログ検出ステップとを備え、前記特徴量抽出ステップにおいて、分割された1の前記通信ログ群に含まれる各通信ログの関係において特定される特徴量を抽出することを特徴とする異常ログ検出方法を提供する。
また、本発明は、複数の通信ログを所定の基準に従って通信ログ群に分割する分割ステップと、分割された各々の前記通信ログ群の特徴量を抽出する特徴量抽出ステップと、抽出された前記特徴量に基づいて前記通信ログ群ごとに異常ログを抽出する異常ログ検出ステップとを備え、通信ログの監視対象となる複数の通信装置のうち閾値以上の通信装置が通信を行った発信先がある場合には、当該発信先を含む通信ログを、異常ログの検出対象から除外することを特徴とする異常ログ検出方法を提供する。
Further, the present invention has been extracted by a division step of dividing a plurality of communication logs into communication log groups according to a predetermined standard, and a feature amount extraction step of extracting the feature amount of each of the divided communication log groups. An abnormality log detection step for extracting an abnormality log for each communication log group based on the feature amount is provided , and in the abnormality log detection step, each communication log group is compressed.
, And the error between each communication log group and the data obtained by compressing the communication log group is calculated, and the abnormality log is extracted based on the calculated error. Provide a method.
Further, the present invention has a division step of dividing a plurality of communication logs into communication log groups according to a predetermined standard, a feature amount extraction step of extracting the feature amount of each of the divided communication log groups, and the extracted feature amount extraction step. An abnormality log detection step for extracting an abnormality log for each communication log group based on a feature amount is provided, and in the feature amount extraction step, it is specified in relation to each communication log included in the divided 1 communication log group. Provided is an abnormality log detection method characterized by extracting a feature amount to be obtained.
Further, the present invention has a division step of dividing a plurality of communication logs into communication log groups according to a predetermined standard, a feature amount extraction step of extracting the feature amount of each of the divided communication log groups, and the extracted feature amount extraction step. It is equipped with an abnormality log detection step that extracts an abnormality log for each communication log group based on the feature amount, and among a plurality of communication devices to be monitored for the communication log, the destination to which the communication device equal to or higher than the threshold communicates is In some cases, an abnormality log detection method is provided, which comprises excluding the communication log including the destination from the detection target of the abnormality log.

また、本発明は、コンピュータに、上記に記載の異常ログ検出方法を実行させるためのプログラムを提供する。 The present invention also provides a program for causing a computer to execute the abnormality log detection method described above .

本発明によれば、従来のような検出パターンに依存せずに、不正プログラムによる異常ログを検出することができる。 According to the present invention, it is possible to detect an abnormality log due to a malicious program without depending on a conventional detection pattern.

本発明の一実施形態に係る異常ログ検出装置のハードウェア構成を示すブロック図である。It is a block diagram which shows the hardware composition of the abnormality log detection apparatus which concerns on one Embodiment of this invention. 異常ログ検出装置の機能構成を示すブロック図である。It is a block diagram which shows the functional structure of an abnormality log detection apparatus. 通信ログの一例を示す図である。It is a figure which shows an example of a communication log. 通信ログの分割例を示す図である。It is a figure which shows the division example of a communication log. 特徴量記憶部に記憶されている通信ログの特徴量を例示する図である。It is a figure which illustrates the feature amount of the communication log stored in the feature amount storage part. 特徴量記憶部に記憶されている通信ログの特徴量を例示する図である。It is a figure which illustrates the feature amount of the communication log stored in the feature amount storage part. 特徴量記憶部に記憶されている通信ログの特徴量を例示する図である。It is a figure which illustrates the feature amount of the communication log stored in the feature amount storage part. 特徴量記憶部に記憶されている通信ログの特徴量を例示する図である。It is a figure which illustrates the feature amount of the communication log stored in the feature amount storage part. 特徴量記憶部に記憶されている通信ログの特徴量を例示する図である。It is a figure which illustrates the feature amount of the communication log stored in the feature amount storage part. 異常ログを検出する処理の手順を示すフローチャートである。It is a flowchart which shows the procedure of the process which detects an abnormality log. 特徴量検出において注目する特徴量を例示する図である。It is a figure which illustrates the feature quantity which pays attention in the feature quantity detection. 或る通信ログから特徴量を検出する例を示す図である。It is a figure which shows the example which detects the feature quantity from a certain communication log. 変形例において異常ログを検出する処理の手順を示すフローチャートである。It is a flowchart which shows the procedure of the process which detects an abnormality log in a modification.

[実施形態]
[構成]
図1は、本発明の一実施形態に係る異常ログ検出装置10のハードウェア構成を示す図である。異常ログ検出装置10はコンピュータによって実現される。異常ログ検出装置10は、例えばインターネットのようなオープンネットワークと例えば社内LAN(Local Area Network)のようなクローズドネットワークとの間においてデータ中継を行うゲートウェイ設備に接続されている。
[Embodiment]
[Constitution]
FIG. 1 is a diagram showing a hardware configuration of an abnormality log detection device 10 according to an embodiment of the present invention. The abnormality log detection device 10 is realized by a computer. The abnormality log detection device 10 is connected to a gateway facility that relays data between an open network such as the Internet and a closed network such as an in-house LAN (Local Area Network).

図1に示すように、異常ログ検出装置10は、制御部11と、通信部12と、記憶部13とを少なくとも備えている。制御部11は、CPU(Central Processing Unit)などの演算装置と、ROM(Read Only Memory)及びRAM(Random Access Memory)などの記憶装置を備えている。ROMは、CPUによって利用されるプログラムや各種データを記憶している。通信部12は、他のコンピュータ(通信装置)と通信を行うインタフェースである。記憶部13は、例えばハードディスクなどの大容量の記憶手段であり、CPUによって利用されるプログラムや各種データを記憶している。CPUは、ROMや記憶部13に記憶されたプログラムやデータをRAMに展開し、そのプログラムに既述された手順に従って処理を行うことにより、図2に示す各種機能を実現する。 As shown in FIG. 1, the abnormality log detection device 10 includes at least a control unit 11, a communication unit 12, and a storage unit 13. The control unit 11 includes an arithmetic unit such as a CPU (Central Processing Unit) and a storage device such as a ROM (Read Only Memory) and a RAM (Random Access Memory). The ROM stores programs and various data used by the CPU. The communication unit 12 is an interface for communicating with another computer (communication device). The storage unit 13 is a large-capacity storage means such as a hard disk, and stores programs and various data used by the CPU. The CPU realizes various functions shown in FIG. 2 by expanding a program or data stored in a ROM or a storage unit 13 into a RAM and performing processing according to the procedure described in the program.

図2は、異常ログ検出装置10の機能構成を示すブロック図である。異常ログ検出装置10は、セッション分割部111、特徴量抽出部112、特徴量記憶部113、圧縮処理部114、誤差算出部115、異常判定部116、誤検出ログ記憶部118及び誤検出ログ除外部119という機能を備える。これらの機能はいずれも、制御部11がプログラムに既述された手順に従って処理を行うことによって実現される。これらの機能は主に、いわゆる教師無し学習によって、膨大な通信ログから不正プログラム感染時の異常ログを検出しようとするものである。なお、図2に示した誤検出ログ抽出処理117は、異常ログ検出装置10に必須の構成ではなく、例えばプログラミングに精通した専門家が行う処理(作業)を表現したものである。 FIG. 2 is a block diagram showing a functional configuration of the abnormality log detection device 10. The abnormality log detection device 10 includes a session division unit 111, a feature amount extraction unit 112, a feature amount storage unit 113, a compression processing unit 114, an error calculation unit 115, an abnormality determination unit 116, an erroneous detection log storage unit 118, and an erroneous detection log exclusion unit. It has a function called unit 119. All of these functions are realized by the control unit 11 performing processing according to the procedure described in the program. These functions mainly use so-called unsupervised learning to detect abnormal logs at the time of malicious program infection from a huge amount of communication logs. The false detection log extraction process 117 shown in FIG. 2 is not an essential configuration for the abnormality log detection device 10, but represents, for example, a process (work) performed by an expert who is familiar with programming.

クローズドネットワークに含まれるコンピュータ(通信装置)がオープンネットワークに含まれるコンピュータ(通信装置)との間で行った通信に関する通信ログは、例えばプロキシサーバ装置、DNS(Domain Name System)サーバ装置、ファイヤウォールサーバ装置又はメールサーバ装置等のサーバ装置群に蓄積され、さらに、それらのサーバ装置群からログサーバ装置へと収集、蓄積される。 Communication logs related to communication between a computer (communication device) included in a closed network and a computer (communication device) included in an open network are, for example, a proxy server device, a DSN (Domain Name System) server device, and a firewall server. It is stored in a server device group such as a device or a mail server device, and is further collected and stored in a log server device from those server device groups.

ここで、図3は通信ログの一例を示す図である。図3における1行分の情報は、1回の通信(アクセス)に対応する1の通信ログである、図3の例では、各通信ログに、「time」、「発信元IP」、「メソッド」、「url」、「ステータスコード」、「UserAgent」及び「送信データサイズ」が含まれている。ただし、通信に関するログであれば図3の例に限定されず、例えば「リファラ」等の通信ログとして取得可能なものは全て含まれ得る。 Here, FIG. 3 is a diagram showing an example of a communication log. The information for one line in FIG. 3 is one communication log corresponding to one communication (access). In the example of FIG. 3, each communication log has "time", "source IP", and "method". , "Url", "Status Code", "UserAgent" and "Send Data Size". However, the log related to communication is not limited to the example of FIG. 3, and can include all the logs that can be acquired as a communication log such as "referrer".

セッション分割部111は、ログサーバ装置20から複数の通信ログを取得し、これらを所定の基準に従って、セッションと呼ばれる通信ログ群に分割する。なお、セッション分割部111は、ログサーバ装置20から通信ログを取得するのではなく、ログサーバ装置20を経由せずに、上述したプロキシサーバ装置等のサーバ装置群から直接、通信ログを取得してもよい。 The session division unit 111 acquires a plurality of communication logs from the log server device 20 and divides them into a communication log group called a session according to a predetermined standard. The session dividing unit 111 does not acquire the communication log from the log server device 20, but directly acquires the communication log from the server device group such as the proxy server device described above without going through the log server device 20. You may.

ここでいうセッションとは、通信ログの発生日時に関する基準に従って分割された1つの単位である。このセッションは1又は複数の通信ログを含み、このセッションを単位として異常ログの検出がなされる。セッションの分割について、より具体的には、クローズドネットワークに含まれる同一の発信元コンピュータのアドレスを含む通信ログのうち、時間的に連続する通信ログの発生日時の時間間隔が閾値未満となる通信ログ群が1つのセッションに含まれる。例えば閾値を30秒とした場合、前後30秒という期間を空けずに行われた通信の通信ログ群は全て1つのセッションに含まれる。また、前後30秒という期間を空けて行われた通信の通信ログは、たとえそれが1回の通信であっても、1つのセッションとして取り扱われる。1つ1つの通信ログを観察しただけでは不正プログラム感染時の異常ログとは推定できない場合も多いが、本実施形態のように、セッションという複数の通信ログを束ねた単位で観察したときには異常ログと推定できる可能性が高まる。 The session referred to here is one unit divided according to the criteria regarding the generation date and time of the communication log. This session includes one or more communication logs, and the abnormality log is detected in this session as a unit. Regarding the session division, more specifically, among the communication logs including the addresses of the same source computers included in the closed network, the communication logs in which the time interval between the occurrence dates and times of the temporally continuous communication logs is less than the threshold value. The group is included in one session. For example, when the threshold value is set to 30 seconds, all the communication log groups of the communication performed without a period of 30 seconds before and after are included in one session. Further, the communication log of the communication performed with a period of 30 seconds before and after is treated as one session even if it is one communication. In many cases, it cannot be estimated as an abnormal log at the time of infection by an unauthorized program just by observing each communication log, but as in the present embodiment, when observing a unit of a plurality of communication logs called a session, the abnormal log is observed. It is more likely that it can be estimated.

図4は通信ログの分割例を示す図である。ここでは、上記閾値を30秒とした場合に図3に示す通信ログを分割した例を示している。図示しているように、No.1の通信ログは、次に発生したNo.2の通信ログと30秒以上の期間が空いているため、1つのセッションS1として分割されている。また、No.2~No.7の通信ログは、同一の発信元IPを含む通信ログであり、時間的に連続する通信ログの発生日時の時間間隔が30秒以内であり、且つNo.8の通信ログと30秒以上の期間が空いている。このため、これらNo.2~No.7の通信ログは、1つのセッションS2として分割されている。同様に、No.8の通信ログは、前のNo.7の通信ログと30秒以上の期間が空いているため、1つのセッションS3として分割されている。 FIG. 4 is a diagram showing an example of dividing the communication log. Here, an example is shown in which the communication log shown in FIG. 3 is divided when the threshold value is set to 30 seconds. As shown in the figure, No. The communication log of No. 1 is the No. 1 generated next. Since the communication log of 2 and the period of 30 seconds or more are free, it is divided as one session S1. In addition, No. 2-No. The communication log of No. 7 is a communication log including the same source IP, and the time interval between the generation dates and times of the time-consecutive communication logs is within 30 seconds, and No. There are 8 communication logs and a period of 30 seconds or more. Therefore, these No. 2-No. The communication log of 7 is divided as one session S2. Similarly, No. The communication log of No. 8 is the previous No. Since the communication log of 7 and the period of 30 seconds or more are free, it is divided as one session S3.

特徴量抽出部112は、分割された各々のセッションについて、予め決められた特徴量に関する情報に基づいて通信ログの特徴量を抽出する。ここでいう通信ログの特徴量とは、不正プログラムの検出において有用であることが既に確認されている既知の特徴量のほか、有用である可能性は高いが不正プログラムの検出時の処理負担等を考慮して今まで採用されていなかった特徴量や、有用であるか否かが不明である特徴量等を含む。 The feature amount extraction unit 112 extracts the feature amount of the communication log based on the predetermined feature amount information for each divided session. The feature amount of the communication log referred to here is a known feature amount that has already been confirmed to be useful in detecting malicious programs, as well as a processing load when detecting malicious programs, although it is highly possible that it is useful. It includes features that have not been adopted so far in consideration of the above, features that are unclear whether they are useful or not, and the like.

ここで、図5~9は、特徴量記憶部113に記憶されている通信ログの特徴量に関する情報を例示した図である。ここで、異常ログ検出装置10において異常ログ検出に利用される通信ログの特徴量の数を「次元数」と表現している。特徴量は、全ての特徴量の次元数を合計した次元数で表される。特徴量は次元数の行列で表現される。 特徴量記憶部113には、特徴量の識別子である「名称」、特徴量を3つの観点で種別に分類した「特徴種別」、特徴量の「解析観点」、特徴量の「解析対象」、特徴量の解析内容を説明する「解析に関する説明」、「特徴量の表記方法」、及び特徴量の「次元数」が対応付けられて記憶されている。特徴量の表記方法とは、特徴量を、0/1の値のみで表すのか又は非負整数値で表すのかを定めたものである。特徴量の次元数が複数の場合は、その特徴量について予め複数の項目が定められている。 例えば、No.「17」の「ブラウザのバージョン」という特徴量の場合は、次元数が30である。これは30個のブラウザ名及びバージョンの組にそれぞれ対応する項目群、具体的には「BrowserA ver50、BrowserA ver51、BrowserB ver8、BrowserB ver9・・・、その他」といった30個の項目群において、通信ログに該当するブラウザ名及びバージョンの項目には「1」という値が書き込まれ、それ以外のブラウザ名及びバージョンの項目には「0」という値が書き込まれることになる。 特徴量の「解析観点」「解析対象」「次元数」などの各項目は、利用者によって予め定義され、特徴量記憶部113に記憶される。特徴量抽出部112は、特徴量記憶部113に記憶されている情報に基づいて、それぞれの通信ログ群(セッション)の特徴量を抽出する。なお、特徴量は行列でなくても、他の次元を表す表記方法によって表現されてもよい。 Here, FIGS. 5 to 9 are diagrams illustrating information regarding the feature amount of the communication log stored in the feature amount storage unit 113. Here, the number of feature quantities of the communication log used for the abnormality log detection in the abnormality log detection device 10 is expressed as "the number of dimensions". The feature amount is represented by the total number of dimensions of all the feature amounts. Features are represented by a matrix of dimensions. In the feature amount storage unit 113, a "name" which is an identifier of the feature amount, a "feature type" which classifies the feature amount into types from three viewpoints, an "analysis viewpoint" of the feature amount, and an "analysis target" of the feature amount, "Explanation about analysis", "notation method of feature amount", and "number of dimensions" of feature amount are stored in association with each other to explain the analysis contents of feature amount. The notation method of the feature amount defines whether the feature amount is represented only by a value of 0/1 or a non-negative integer value. When the feature quantity has a plurality of dimensions, a plurality of items are predetermined for the feature quantity. For example, No. In the case of the feature amount of "17", which is the "browser version", the number of dimensions is 30. This is a communication log in the item group corresponding to each of the 30 browser name and version sets, specifically, in the 30 item groups such as "BrowserA ver50, BrowserA ver51, BrowserB ver8, BrowserB ver9 ..., etc." The value "1" is written in the item of the browser name and the version corresponding to, and the value "0" is written in the item of the other browser name and the version. Each item such as "analysis viewpoint", "analysis target", and "number of dimensions" of the feature amount is defined in advance by the user and stored in the feature amount storage unit 113. The feature amount extraction unit 112 extracts the feature amount of each communication log group (session) based on the information stored in the feature amount storage unit 113. It should be noted that the feature quantity is not limited to a matrix, but may be represented by a notation method representing another dimension.

図5において、例えばNo.「1」の特徴量の名称は「direct_ip_ratio」である。ここでは、ユーザが発信先コンピュータとしてIPアドレスそのものを直接指定することは通常の通信においては稀であるという理由から、1のセッションに含まれる通信ログにおいて宛先がIPアドレスで直接指定されている通信ログの割合、というものが特徴量として設定されている。この特徴量は、分割された通信ログ群に相当するセッション単位で観察したときに特定される特徴量であるから、その特徴種別は「1のセッションから求まる特徴量」となっている。 In FIG. 5, for example, No. The name of the feature amount of "1" is "direct_ip_ratio". Here, since it is rare for a user to directly specify the IP address itself as the destination computer in normal communication, communication in which the destination is directly specified by the IP address in the communication log included in one session. The ratio of logs is set as a feature amount. Since this feature amount is a feature amount specified when observed in session units corresponding to the divided communication log group, the feature type is "feature amount obtained from one session".

これに対し、例えばNo.「38」の特徴量は、オープンネットワークにおける発信先コンピュータのIPアドレスおよびポートである。これは1回の通信のみを観察したときに特定可能な特徴量であるから、その特徴種別は「1回の通信から求まる特徴量」となっている。 On the other hand, for example, No. The feature amount of "38" is the IP address and port of the destination computer in the open network. Since this is a feature amount that can be specified when observing only one communication, the feature type is "feature amount obtained from one communication".

また、例えばNo.「5」の特徴量は、発信先コンピュータを指定するURL(Uniform Resource Locator)末尾のファイル拡張子である。これは通信の実体的な内容に相当するという観点から、その特徴種別は「1のセッションから求まる特徴量」であり且つ「通信の実体的内容における特徴量」となっている。なお、「通信の実体的内容における特徴量」とは、より具体的には、通信されるデータのサイズ又は文字列等による特徴量である。 Also, for example, No. The feature amount of "5" is a file extension at the end of a URL (Uniform Resource Locator) that specifies a destination computer. From the viewpoint that this corresponds to the substantive content of communication, the feature type is "feature amount obtained from one session" and "feature amount in the substantive content of communication". The "feature amount in the actual content of communication" is, more specifically, a feature amount based on the size or character string of the data to be communicated.

図5~9に例示した特徴量のうち、セッションにおける特徴量として有用性があると考えられるのは、例えばNo.「1」「2」「3」のような、セッションにおいてIPアドレスを発信先とした通信に関する特徴量である(特にNO.「1」のIPアドレス直接指定の割合)。これは、前述したように、通常の通信においてドメインを指定した通信が大半であるのに対し、不正プログラム感染時にはIPアドレスを発信先とした通信がよく観測されるためである。 Among the features illustrated in FIGS. 5 to 9, for example, No. 1 is considered to be useful as a feature in a session. It is a feature amount related to communication with an IP address as a destination in a session, such as "1", "2", and "3" (particularly, the ratio of directly specifying the IP address of NO. "1"). This is because, as described above, in most of the normal communication, the communication in which the domain is specified is observed, whereas in the case of infection with a malicious program, the communication with the IP address as the transmission destination is often observed.

また、セッションにおける特徴量として有用性があると考えられるものとして、例えばNo.「7」「8」「9」のような、セッションにおいて発信先のポートを直接指定した通信に関する特徴量もある(特にNo.「9」のポートが直接指定されている比率)。これも、不正プログラム感染量時には発信先のポートを直接指定した通信がよく観測されるためである。 In addition, as a feature quantity considered to be useful in a session, for example, No. There are also features such as "7", "8", and "9" related to communication in which the destination port is directly specified in the session (particularly, the ratio in which the port of No. "9" is directly specified). This is also because communication that directly specifies the destination port is often observed when the amount of malicious program infection is high.

また、セッションにおける特徴量として有用性があると考えられるものとして、例えばNo.「11」のような、セッションにおけるURL中のパラメータの値(引数)の長さの平均に関する特徴量もある。これも、不正プログラム感染時には、パラメータが極端に短い通信が続くとか或いはその逆の傾向が観測されるためである。 In addition, as a feature quantity considered to be useful in a session, for example, No. There is also a feature amount related to the average length of the parameter values (arguments) in the URL in the session, such as "11". This is also because when an unauthorized program is infected, communication with extremely short parameters continues, or vice versa.

また、セッションにおける特徴量として有用性があると考えられるものとして、例えばNo.「22」「23」「24」のような、セッションにおける特定メソッド(特にPOST)の出現に関する特徴量もある。これは不正プログラム感染時には、POSTで情報を外部(クローズドネットワークからオープンネットワーク)に繰り返しかつ多数回送信することが観測されるためである。 In addition, as a feature quantity considered to be useful in a session, for example, No. There are also features related to the appearance of specific methods (especially POST) in the session, such as "22", "23", "24". This is because it is observed that information is repeatedly and repeatedly transmitted to the outside (from a closed network to an open network) by POST when an unauthorized program is infected.

図2の説明に戻る。圧縮処理部114、誤差算出部115、異常判定部116、誤検出ログ記憶部118、誤検出ログ除外部119によって、異常ログ検出部101が構成されている。この異常ログ検出部101は、特徴量抽出部112によって抽出された特徴量に基づいて、他の通信ログ群(セッション)と特徴量が異なる通信ログ群(セッション)を異常ログとして検出する機能である。より具体的に説明すると、特徴量抽出部112によって各通信ログ群(セッション)の特徴量が抽出されると、圧縮処理部114は、抽出した各通信ログ群(セッション)の特徴量に対して次元削減等の圧縮処理を行う。誤差算出部115は、各通信ログ群(セッション)について、圧縮処理前の特徴量と圧縮処理後の特徴量との間の誤差を算出する。D次元の特徴量を表記したベクトルXをD’次元のベクトルX’に次元削減する場合において(D>D’)、その変換行列をAとすると、X’=A・Xという数式で表されるが、ここでいう誤差とは、ベクトルX’とベクトルXとの間の距離に相当する。このような圧縮処理及び誤差算出処理が、分割された通信ログ群(セッション)のそれぞれについて行われることで、各々の通信ログ群(セッション)についての特徴量、圧縮処理後の特徴量及びこれらの間の誤差が求められることになる。異常判定部116は、各々の通信ログ群(セッション)について求められた誤差を参照し、その誤差が閾値以上となる通信ログ群(セッション)を第1異常ログとして出力する。異常判定部116で使用する閾値は予め決められていてもよいし、各通信ログ群(セッション)の誤差に基づいて下限5%を閾値とするなど、動的に決定されてもよい。 Returning to the description of FIG. The error log detection unit 101 is configured by the compression processing unit 114, the error calculation unit 115, the abnormality determination unit 116, the erroneous detection log storage unit 118, and the erroneous detection log exclusion unit 119. The abnormality log detection unit 101 has a function of detecting a communication log group (session) having a feature amount different from that of other communication log groups (session) as an abnormality log based on the feature amount extracted by the feature amount extraction unit 112. be. More specifically, when the feature amount of each communication log group (session) is extracted by the feature amount extraction unit 112, the compression processing unit 114 with respect to the feature amount of each extracted communication log group (session). Performs compression processing such as dimension reduction. The error calculation unit 115 calculates an error between the feature amount before the compression process and the feature amount after the compression process for each communication log group (session). When the vector X expressing the D-dimensional features is reduced to the D'dimensional vector X'(D> D'), and the transformation matrix is A, it is expressed by the formula X'= A · X. However, the error here corresponds to the distance between the vector X'and the vector X. By performing such compression processing and error calculation processing for each of the divided communication log groups (sessions), the feature amount for each communication log group (session), the feature amount after the compression processing, and these The error between them will be required. The abnormality determination unit 116 refers to the error obtained for each communication log group (session), and outputs the communication log group (session) whose error is equal to or greater than the threshold value as the first abnormality log. The threshold value used by the abnormality determination unit 116 may be predetermined, or may be dynamically determined such that the lower limit of 5% is set as the threshold value based on the error of each communication log group (session).

この第1異常ログには、正常の通信であるにもかかわらず不正プログラムの感染によるものであると誤って検出されたものが含まれている可能性を否定できない。そこで、プログラミングの専門家等による第1異常ログから誤検出ログを抽出する作業を経て(誤検出ログ抽出処理117)、誤検出であるとされた第1異常ログは、誤検出ログ記憶部118に記憶される。誤検出ログ除外部119は、誤検出ログ記憶部118に記憶された誤検出ログに基づいて、いわゆる教師あり学習を行う。そして、誤検出ログ除外部119は、その学習結果に従って、第1異常ログから誤検出ログを含む通信ログ群(セッション)と推定されるものを除外し、第1異常ログから誤検出ログを除外した通信ログ群(セッション)を第2異常ログとして出力する。 It cannot be denied that the first abnormality log may include a log that is erroneously detected as being caused by an infection of a malicious program even though the communication is normal. Therefore, after the work of extracting the false positive log from the first abnormal log by a programming expert or the like (false positive log extraction process 117), the first abnormal log determined to be false positive is the false positive log storage unit 118. Is remembered in. The false positive log exclusion unit 119 performs so-called supervised learning based on the false positive log stored in the false positive log storage unit 118. Then, the false detection log exclusion unit 119 excludes the communication log group (session) including the false detection log from the first abnormal log according to the learning result, and excludes the false detection log from the first abnormal log. The communication log group (session) is output as the second error log.

[動作]
図10に示したフローチャートを参照して、異常ログ検出装置10の動作の概要を説明する。図10において、まず、セッション分割部111は、ログサーバ装置20から複数の通信ログを取得し(ステップS11)、これらを前述した通信ログの発生日時に関する基準に従って、セッションに分割する(ステップS12)。次に、特徴量抽出部112は、特徴量記憶部113に予め記憶されている内容に従い、分割された各々のセッションにおける通信ログの特徴量を抽出する(ステップS13)。
[motion]
The outline of the operation of the abnormality log detection device 10 will be described with reference to the flowchart shown in FIG. In FIG. 10, first, the session dividing unit 111 acquires a plurality of communication logs from the log server device 20 (step S11), and divides them into sessions according to the above-mentioned criteria regarding the generation date and time of the communication log (step S12). .. Next, the feature amount extraction unit 112 extracts the feature amount of the communication log in each divided session according to the contents stored in advance in the feature amount storage unit 113 (step S13).

ここで、図11に示した特徴量に関する情報に注目して、或る通信ログ群(セッション)から特徴量を検出した例を、図12を用いて説明する。図11に示した特徴量の次元数は「8」である。図12に示した5つの通信ログのうち、No.2の通信ログは、図11のNo.1「direct_ip_ratio」という特徴量、つまりIPアドレスの直打ちに相当する。この特徴量は、セッション中に含まれる通信ログ群における割合(次元数1,非負整数値)として表記されるから(図5参照)、1/5=「0.2」という表記となる。また、No.2「direct_ip_flag」という特徴量、つまりIPアドレスの有無は、「0/1」において有りを意味する「1」という表記となる。 Here, an example in which a feature amount is detected from a certain communication log group (session) by paying attention to the information on the feature amount shown in FIG. 11 will be described with reference to FIG. The number of dimensions of the feature quantity shown in FIG. 11 is "8". Of the five communication logs shown in FIG. 12, No. The communication log of No. 2 is No. 11 in FIG. 1 It corresponds to the feature amount "direct_ip_ratio", that is, the direct hitting of the IP address. Since this feature amount is expressed as a ratio (number of dimensions 1, non-negative integer value) in the communication log group included in the session (see FIG. 5), it is expressed as 1/5 = "0.2". In addition, No. 2 The feature amount "direct_ip_flag", that is, the presence or absence of an IP address is expressed as "1" which means "existence" in "0/1".

図12に示した5つの通信ログの送信データサイズの平均値(No.3「send_size_mean」の特徴量)は、(1000+100000+100000+100000+1000)/5=60040となる。これを、次元数1として非負整数値で表記すると、「60040」となる。 The average value of the transmission data sizes of the five communication logs shown in FIG. 12 (feature amount of No. 3 “send_size_mean”) is (1000 + 100,000 + 100,000 + 100,000 + 1000) / 5 = 60040. When this is expressed as a non-negative integer value as the number of dimensions 1, it becomes "60040".

また、図12に示した5つの通信ログにおいて用いられるメソッドには、GETとCONNECTが含まれている。No.4「method_flag」という特徴量においては、メソッドの表記順序が予め決められており、ここでは「GET、CONNECT、POST、PUT、HEAD」となっている。このため、メソッドの出現有無という特徴量は、「1,1,0,0,0」という行列形式の表記となる。このように図11の特徴量に関する情報に基づいて抽出された特徴量は、8次元の行列「0.2,1,60040,1,1,0,0,0」 となる。 Further, the methods used in the five communication logs shown in FIG. 12 include GET and CONNECT. No. 4 In the feature amount "method_flag", the notation order of the methods is predetermined, and here, it is "GET, CONNECT, POST, PUT, HEAD". Therefore, the feature amount of presence / absence of the appearance of the method is expressed in the matrix format of "1,1,0,0,0". The feature amount extracted based on the information regarding the feature amount in FIG. 11 is an 8-dimensional matrix “0.2,1,600,400,1,1,0,0,0”.

圧縮処理部114は、分割された通信ログ群のそれぞれに対して、前述の次元削減等の圧縮処理を行い、通信ログ群と、それに対応する圧縮後の特徴量とを関連付ける(ステップS14)。誤差算出部115は、分割された通信ログ群の特徴量と、当該通信ログ群の圧縮後の特徴量との間の誤差を通信ログ群のそれぞれについて算出し、各通信ログ群と、それに対応する圧縮後の特徴量と、算出した誤差とを関連付ける(ステップS15)。異常判定部116は、算出されたそれぞれの誤差に基づいて予め定めた閾値を超える誤差を抽出し、その誤差に関連づけられている通信ログ群を第1異常ログとして出力する(ステップS16)。そして、誤検出ログ除外部119は、第1異常ログから誤検出ログと推定されるものを除外し、第2異常ログとして出力する(ステップS17)。 The compression processing unit 114 performs compression processing such as dimension reduction described above for each of the divided communication log groups, and associates the communication log group with the corresponding compressed feature amount (step S14). The error calculation unit 115 calculates an error between the feature amount of the divided communication log group and the compressed feature amount of the communication log group for each of the communication log groups, and corresponds to each communication log group. The feature amount after compression is associated with the calculated error (step S15). The abnormality determination unit 116 extracts an error exceeding a predetermined threshold value based on each calculated error, and outputs a communication log group associated with the error as a first abnormality log (step S16). Then, the erroneous detection log exclusion unit 119 excludes what is presumed to be a erroneous detection log from the first abnormality log and outputs it as a second abnormality log (step S17).

[効果]
本実施形態によれば、既知の不正プログラムによる攻撃情報に依存しない教師無し学習を用いることで、膨大な通信ログの中から不正プログラムによる異常ログを検出することが可能となる。さらに、誤検出ログに関しては、教師あり学習を用いて除外するようにしているので、正常な通信ログを異常ログとして誤って検出する可能性を小さくすることができる。これらの結果、不正プログラムの検出に関わる人手や時間を大幅に削減することが可能となる。
[effect]
According to this embodiment, by using unsupervised learning that does not depend on attack information by a known malicious program, it is possible to detect an abnormal log due to the malicious program from a huge amount of communication logs. Further, since the false detection log is excluded by using supervised learning, the possibility of falsely detecting the normal communication log as an abnormal log can be reduced. As a result, it is possible to significantly reduce the labor and time involved in detecting malicious programs.

さらに、本発明者らの実験によれば、従来の検出パターンを用いた仕組みでは検出が困難であった、いわゆるC&C通信(マルウェアに感染してボットと化したコンピュータ群に指令を送る不正制御の下で行われる通信)を検出できることが分かった。 Furthermore, according to the experiments by the present inventors, it was difficult to detect by the mechanism using the conventional detection pattern, so-called C & C communication (illegal control of sending a command to a group of computers infected with malware and turned into bots). It turned out that the communication performed below) can be detected.

[変形例]
上述した実施形態は次のような変形が可能である。また、以下の変形例を互いに組み合わせて実施してもよい。
[変形例1]
実施形態で説明したような圧縮処理前後の誤差算出に基づく異常ログ検出は、必ずしも必須ではない。例えば圧縮処理部114が、特徴量抽出部112によって抽出された各通信ログ群(セッション)の特徴量に対して次元削減等の圧縮処理を行い、実施形態に係る異常判定部116に代わる本変形例の外れ値抽出部が、その圧縮後の特徴量に基づいて例えばLOF(Local Outlier Factor)処理を行って、外れ値に相当する特徴量に対応する通信ログ群(セッション)を異常ログとして出力するようにしてもよい。ただし、実施形態で説明したような圧縮処理前後の誤差算出に基づく異常ログ検出は、上記のLOF処理を行う場合よりも、異常ログの検出率が高く、また、処理負荷も小さいという利点がある。
[Modification example]
The above-described embodiment can be modified as follows. Moreover, the following modification examples may be carried out in combination with each other.
[Modification 1]
Abnormal log detection based on error calculation before and after compression processing as described in the embodiment is not always essential. For example, the compression processing unit 114 performs compression processing such as dimension reduction on the feature amount of each communication log group (session) extracted by the feature amount extraction unit 112, and this modification replaces the abnormality determination unit 116 according to the embodiment. The outlier extraction unit of the example performs, for example, LOF (Local Outlier Factor) processing based on the feature amount after compression, and outputs the communication log group (session) corresponding to the feature amount corresponding to the outlier value as an abnormal log. You may try to do it. However, the abnormality log detection based on the error calculation before and after the compression processing as described in the embodiment has the advantages that the abnormality log detection rate is higher and the processing load is smaller than the case where the above LOF processing is performed. ..

図13は、この変形例に係る情報処理装置の処理手順を示すフローチャートである。図13において図10と共通の処理には同一符号を付している。この変形例に係る情報処理装置は、ハードウェアとしては実施形態と同一であるが、機能的には、異常判定部116に代わる外れ値抽出部を備えている。図13において、まず、セッション分割部111は、ログサーバ装置20から複数の通信ログを取得し(ステップS11)、これらを通信ログ群(セッション)に分割する(ステップS12)。次に、特徴量抽出部112は、特徴量記憶部113に予め記憶されている内容に従い、分割された各々の通信ログ群における通信ログの特徴量を抽出する(ステップS21)。圧縮処理部114は、特徴量抽出部112によって抽出された複数次元の行列で表現される特徴量について次元削減等の圧縮処理を行う(ステップS14)。外れ値抽出部は、圧縮後の特徴量についてLOFを用いた解析を行って外れ値を抽出し、その外れ値に相当する通信ログ群を第1異常ログとして出力する(ステップS22)。そして、誤検出ログ除外部119は、第1異常ログから誤検出ログと推定されるものを除外し、第2異常ログとして出力する(ステップS17)。 FIG. 13 is a flowchart showing a processing procedure of the information processing apparatus according to this modification. In FIG. 13, the same reference numerals are given to the processes common to those in FIG. The information processing apparatus according to this modification is the same as the embodiment in terms of hardware, but functionally includes an outlier extraction unit instead of the abnormality determination unit 116. In FIG. 13, first, the session dividing unit 111 acquires a plurality of communication logs from the log server device 20 (step S11), and divides them into a communication log group (session) (step S12). Next, the feature amount extraction unit 112 extracts the feature amount of the communication log in each of the divided communication log groups according to the contents stored in advance in the feature amount storage unit 113 (step S21). The compression processing unit 114 performs compression processing such as dimension reduction for the feature amount represented by the multidimensional matrix extracted by the feature amount extraction unit 112 (step S14). The outlier extraction unit analyzes the feature amount after compression using LOF, extracts the outliers, and outputs the communication log group corresponding to the outliers as the first abnormality log (step S22). Then, the erroneous detection log exclusion unit 119 excludes what is presumed to be a erroneous detection log from the first abnormality log and outputs it as a second abnormality log (step S17).

なお、実施形態及び上記変形例で説明したような第1異常ログから誤検出ログを除外して第2異常ログを出力する処理は必須ではなく、第1異常ログを出力するだけでもよい。ただし、本発明者らの実験によれば、第1異常ログから誤検出ログを除外して第2異常ログを出力するほうが、第1異常ログを出力する場合と比べて、誤検出ログを約10%低減できることが分かっている。 It should be noted that the process of excluding the erroneous detection log from the first abnormality log as described in the embodiment and the above modification and outputting the second abnormality log is not essential, and only the first abnormality log may be output. However, according to the experiments by the present inventors, it is better to exclude the false detection log from the first abnormal log and output the second abnormal log, as compared with the case of outputting the first abnormal log. It is known that it can be reduced by 10%.

以上のとおり、要するに、異常ログ検出部101は、各通信ログ群(セッション)ごとに抽出した特徴量に基づいて異常ログを抽出すればよい。 As described above, in short, the abnormality log detection unit 101 may extract the abnormality log based on the feature amount extracted for each communication log group (session).

[変形例2]
異常ログ検出部101は、通信ログの監視対象となる複数のコンピュータ(通信装置)のうち閾値以上のコンピュータ(通信装置)が通信を行った発信先がある場合には、当該発信先のアドレスを含む通信ログを、異常ログの検出対象から除外するようにしてもよい。これは、例えば監視対象となるクローズドネットワークに含まれる、閾値(例えば5台)以上のコンピュータ(通信装置)が通信を行った発信先のドメインを含む通信ログは、不正プログラム感染による通信である可能性が小さい、という考え方によるものである。このような通信ログを除外するタイミングは、処理負荷低減の観点から、実施形態で説明したセッション分割の前であることが望ましいが、これに限らず、例えばセッション分割と特徴量抽出の処理の間であってもよいし、特徴量抽出と異常ログ検出の処理の間であってもよい。
[Modification 2]
When the abnormality log detection unit 101 has a transmission destination with which a computer (communication device) having a threshold value or higher among a plurality of computers (communication devices) to be monitored in the communication log communicates with each other, the abnormality log detection unit 101 determines the address of the transmission destination. The included communication log may be excluded from the detection target of the abnormality log. This is because, for example, the communication log including the domain of the destination to which the computer (communication device) having communication with the threshold value (for example, 5 units) or more included in the closed network to be monitored may be the communication due to the malicious program infection. This is due to the idea that the sex is small. From the viewpoint of reducing the processing load, the timing for excluding such communication logs is preferably before the session division described in the embodiment, but is not limited to this, and is not limited to this, for example, between the session division and the feature amount extraction process. It may be between the feature amount extraction and the abnormality log detection process.

[変形例3]
図3~9に図示した通信ログの特徴量は一例にすぎず、図示した内容に限定されない。
[Modification 3]
The feature quantities of the communication logs shown in FIGS. 3 to 9 are merely examples, and are not limited to the contents shown.

[変形例4]
本発明は、異常ログ検出装置だけでなく、異常ログ検出装置が行う検出方法や、コンピュータを異常ログ検出装置として機能させるためのプログラムといった形態でも実施が可能である。このプログラムは、光ディスク等の記録媒体に記録した形態でコンピュータに提供されたり、インターネット等のネットワークを介してコンピュータに提供されたりしてもよい。
[Modification 4]
The present invention can be implemented not only in the form of an abnormality log detection device, but also in the form of a detection method performed by the abnormality log detection device or a program for making a computer function as an abnormality log detection device. This program may be provided to the computer in the form of being recorded on a recording medium such as an optical disk, or may be provided to the computer via a network such as the Internet.

10・・・異常ログ検出装置、11・・・制御部、12・・・通信部、13・・・記憶部、101・・・異常ログ検出部、111・・・セッション分割部、112・・・特徴量抽出部、113・・・特徴量記憶部、114・・・圧縮処理部、115・・・誤差算出部、116・・・異常判定部、117・・・誤検出ログ抽出処理、118・・・誤検出ログ記憶部、119・・・誤検出ログ除外部、20・・・ログサーバ装置。 10 ... Abnormal log detection device, 11 ... Control unit, 12 ... Communication unit, 13 ... Storage unit, 101 ... Abnormal log detection unit, 111 ... Session division unit, 112 ... -Feature amount extraction unit, 113 ... Feature amount storage unit, 114 ... Compression processing unit, 115 ... Error calculation unit, 116 ... Abnormality determination unit, 117 ... False detection log extraction processing, 118 ... False detection log storage unit, 119 ... False detection log exclusion unit, 20 ... Log server device.

Claims (9)

複数の通信ログを所定の基準に従って通信ログ群に分割する分割部と、
分割された各々の前記通信ログ群の特徴量を抽出する特徴量抽出部と、
抽出された前記特徴量に基づいて前記通信ログ群ごとに異常ログを抽出する異常ログ検出部とを備え
前記異常ログ検出部は、
各々の前記通信ログ群に圧縮処理を行い、
各々の前記通信ログ群と、当該通信ログ群に圧縮処理を行ったデータとの誤差を算出し、
算出した前記誤差に基づいて前記異常ログを抽出する
ことを特徴とする異常ログ検出装置。
A partition that divides multiple communication logs into communication log groups according to a predetermined standard,
A feature amount extraction unit that extracts the feature amount of each of the divided communication log groups, and a feature amount extraction unit.
It is provided with an abnormality log detection unit that extracts an abnormality log for each communication log group based on the extracted feature amount .
The abnormality log detection unit is
Each of the communication log groups is compressed and processed.
The error between each communication log group and the data obtained by compressing the communication log group is calculated.
Extract the abnormality log based on the calculated error.
An abnormality log detection device characterized by this.
記特徴量の解析観点、前記特徴量の解析対象、前記特徴量の表記方法及び前記特徴量の次元数を含む情報を記憶する特徴量記憶部を備え、
前記特徴量抽出部は、前記特徴量記憶部に記憶されている情報に基づいて、複数次元の行列で表現される前記通信ログ群の特徴量を抽出し、
前記異常ログ検出部は、前記圧縮処理として、前記特徴量を次元削減する圧縮処理を行う
ことを特徴とする請求項記載の異常ログ検出装置。
It is provided with a feature amount storage unit for storing information including the analysis viewpoint of the feature amount, the analysis target of the feature amount, the notation method of the feature amount, and the number of dimensions of the feature amount.
The feature amount extraction unit extracts the feature amount of the communication log group represented by a multidimensional matrix based on the information stored in the feature amount storage unit.
The abnormality log detection device according to claim 1 , wherein the abnormality log detection unit performs, as the compression process, a compression process for reducing the dimension of the feature amount.
複数の通信ログを所定の基準に従って通信ログ群に分割する分割部と、
分割された各々の前記通信ログ群の特徴量を抽出する特徴量抽出部と、
抽出された前記特徴量に基づいて前記通信ログ群ごとに異常ログを抽出する異常ログ検出部とを備え、
前記特徴量抽出部は、分割された1の前記通信ログ群に含まれる各通信ログの関係において特定される特徴量を抽出する
ことを特徴とする異常ログ検出装置。
A partition that divides multiple communication logs into communication log groups according to a predetermined standard,
A feature amount extraction unit that extracts the feature amount of each of the divided communication log groups, and a feature amount extraction unit.
It is provided with an abnormality log detection unit that extracts an abnormality log for each communication log group based on the extracted feature amount.
The feature amount extraction unit is an abnormality log detection device characterized by extracting feature amounts specified in relation to each communication log included in one of the divided communication log groups.
複数の通信ログを所定の基準に従って通信ログ群に分割する分割部と、
分割された各々の前記通信ログ群の特徴量を抽出する特徴量抽出部と、
抽出された前記特徴量に基づいて前記通信ログ群ごとに異常ログを抽出する異常ログ検出部とを備え、
通信ログの監視対象となる複数の通信装置のうち閾値以上の通信装置が通信を行った発信先がある場合には、当該発信先を含む通信ログを、異常ログの検出対象から除外する
ことを特徴とする異常ログ検出装置。
A partition that divides multiple communication logs into communication log groups according to a predetermined standard,
A feature amount extraction unit that extracts the feature amount of each of the divided communication log groups, and a feature amount extraction unit.
It is provided with an abnormality log detection unit that extracts an abnormality log for each communication log group based on the extracted feature amount.
If there is a destination that has communicated with a communication device that exceeds the threshold value among multiple communication devices that are to be monitored for communication logs, the communication log that includes that destination is excluded from the detection target of the error log. Characteristic anomaly log detector.
記分割部は、同一の発信元を含む通信ログのうち、連続する通信ログの発生日時の時間間隔が閾値未満となる1又は複数の通信ログを1の前記通信ログ群として分割する
ことを特徴とする請求項に記載の異常ログ検出装置。
Among the communication logs including the same source, the division unit divides one or a plurality of communication logs whose time interval between the generation dates and times of consecutive communication logs is less than the threshold value as one communication log group. The abnormality log detection device according to claim 4 .
数の通信ログを所定の基準に従って通信ログ群に分割する分割ステップと、
分割された各々の前記通信ログ群の特徴量を抽出する特徴量抽出ステップと、
抽出された前記特徴量に基づいて前記通信ログ群ごとに異常ログを抽出する異常ログ検出ステップとを備え
前記異常ログ検出ステップにおいて、
各々の前記通信ログ群に圧縮処理を行い、
各々の前記通信ログ群と、当該通信ログ群に圧縮処理を行ったデータとの誤差を算出し、
算出した前記誤差に基づいて前記異常ログを抽出する
ことを特徴とする異常ログ検出方法。
A division step that divides multiple communication logs into communication log groups according to predetermined criteria, and
A feature amount extraction step for extracting the feature amount of each of the divided communication log groups, and
It is provided with an abnormality log detection step of extracting an abnormality log for each communication log group based on the extracted feature amount .
In the abnormality log detection step
Each of the communication log groups is compressed and processed.
The error between each communication log group and the data obtained by compressing the communication log group is calculated.
Extract the abnormality log based on the calculated error.
Anomalous log detection method characterized by this.
複数の通信ログを所定の基準に従って通信ログ群に分割する分割ステップと、A division step that divides multiple communication logs into communication log groups according to predetermined criteria, and
分割された各々の前記通信ログ群の特徴量を抽出する特徴量抽出ステップと、A feature amount extraction step for extracting the feature amount of each of the divided communication log groups, and
抽出された前記特徴量に基づいて前記通信ログ群ごとに異常ログを抽出する異常ログ検出ステップとを備え、It is provided with an abnormality log detection step of extracting an abnormality log for each communication log group based on the extracted feature amount.
前記特徴量抽出ステップにおいて、分割された1の前記通信ログ群に含まれる各通信ログの関係において特定される特徴量を抽出するIn the feature amount extraction step, the feature amount specified in the relationship of each communication log included in the divided 1 communication log group is extracted.
ことを特徴とする異常ログ検出方法。Anomalous log detection method characterized by this.
複数の通信ログを所定の基準に従って通信ログ群に分割する分割ステップと、A division step that divides multiple communication logs into communication log groups according to predetermined criteria, and
分割された各々の前記通信ログ群の特徴量を抽出する特徴量抽出ステップと、A feature amount extraction step for extracting the feature amount of each of the divided communication log groups, and
抽出された前記特徴量に基づいて前記通信ログ群ごとに異常ログを抽出する異常ログ検出ステップとを備え、 It is provided with an abnormality log detection step of extracting an abnormality log for each communication log group based on the extracted feature amount.
通信ログの監視対象となる複数の通信装置のうち閾値以上の通信装置が通信を行った発信先がある場合には、当該発信先を含む通信ログを、異常ログの検出対象から除外するIf there is a destination with which a communication device equal to or higher than the threshold value communicates among multiple communication devices to be monitored in the communication log, the communication log including the destination is excluded from the detection target of the abnormality log.
ことを特徴とする異常ログ検出方法。Anomalous log detection method characterized by this.
ンピュータに、請求項6~8のいずれか1項に記載の異常ログ検出方法を実行させるためのプログラム。 A program for causing a computer to execute the abnormality log detection method according to any one of claims 6 to 8 .
JP2017208307A 2017-10-27 2017-10-27 Abnormal log detection device, abnormal log detection method and program Active JP7005278B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017208307A JP7005278B2 (en) 2017-10-27 2017-10-27 Abnormal log detection device, abnormal log detection method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017208307A JP7005278B2 (en) 2017-10-27 2017-10-27 Abnormal log detection device, abnormal log detection method and program

Publications (2)

Publication Number Publication Date
JP2019082746A JP2019082746A (en) 2019-05-30
JP7005278B2 true JP7005278B2 (en) 2022-01-21

Family

ID=66669557

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017208307A Active JP7005278B2 (en) 2017-10-27 2017-10-27 Abnormal log detection device, abnormal log detection method and program

Country Status (1)

Country Link
JP (1) JP7005278B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021065069A1 (en) * 2019-09-30 2021-04-08 株式会社オートネットワーク技術研究所 Detection device, vehicle, detection method and detection program
CN111353890A (en) * 2020-03-30 2020-06-30 中国工商银行股份有限公司 Application log-based application anomaly detection method and device
JP7182586B2 (en) * 2020-10-07 2022-12-02 エヌ・ティ・ティ・コムウェア株式会社 LEARNING APPARATUS, ESTIMATION APPARATUS, SEQUENCE ESTIMATION SYSTEM AND METHOD, AND PROGRAM

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007264760A (en) 2006-03-27 2007-10-11 Nec Corp Log analysis system, and method and program for setting log analysis tool
JP2010250583A (en) 2009-04-16 2010-11-04 Fujitsu Ltd Program and method for generating application test, and application test device
JP2011034208A (en) 2009-07-30 2011-02-17 Hitachi Ltd Failure detection method, device and program
JP2012203522A (en) 2011-03-24 2012-10-22 Mitsubishi Electric Corp Log analysis support system
JP2014036408A (en) 2012-08-10 2014-02-24 Ntt Communications Corp Communication apparatus, communication system, communication method, and communication program

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007264760A (en) 2006-03-27 2007-10-11 Nec Corp Log analysis system, and method and program for setting log analysis tool
JP2010250583A (en) 2009-04-16 2010-11-04 Fujitsu Ltd Program and method for generating application test, and application test device
JP2011034208A (en) 2009-07-30 2011-02-17 Hitachi Ltd Failure detection method, device and program
JP2012203522A (en) 2011-03-24 2012-10-22 Mitsubishi Electric Corp Log analysis support system
JP2014036408A (en) 2012-08-10 2014-02-24 Ntt Communications Corp Communication apparatus, communication system, communication method, and communication program

Also Published As

Publication number Publication date
JP2019082746A (en) 2019-05-30

Similar Documents

Publication Publication Date Title
JP4490994B2 (en) Packet classification in network security devices
Luo et al. Position-based automatic reverse engineering of network protocols
JP7005278B2 (en) Abnormal log detection device, abnormal log detection method and program
CN106470214B (en) Attack detection method and device
US10855549B2 (en) Network data processing driver for a cognitive artificial intelligence system
WO2009064510A1 (en) Risk scoring system for the prevention of malware
US10440035B2 (en) Identifying malicious communication channels in network traffic by generating data based on adaptive sampling
Li et al. A survey on methods of automatic protocol reverse engineering
WO2018066221A1 (en) Classification device, classification method, and classification program
WO2017094377A1 (en) Classification method, classification device, and classification program
JP2019102960A (en) Cyber attack detection system, feature amount selection system, cyber attack detection method, and program
CN112671759A (en) DNS tunnel detection method and device based on multi-dimensional analysis
CN111641589A (en) Advanced sustainable threat detection method, system, computer and storage medium
Las-Casas et al. A big data architecture for security data and its application to phishing characterization
US11252185B2 (en) Graph stream mining pipeline for efficient subgraph detection
US11916942B2 (en) Automated identification of false positives in DNS tunneling detectors
Mimura et al. Evaluation of a brute forcing tool that extracts the rat from a malicious document file
WO2019043804A1 (en) Log analysis device, log analysis method, and computer-readable recording medium
JP4670690B2 (en) Data collection apparatus and method for application traceback and program thereof
Caulkins et al. A dynamic data mining technique for intrusion detection systems
US20150222648A1 (en) Apparatus for analyzing the attack feature dna and method thereof
CN110351273A (en) A kind of methods, devices and systems of network trace reel chain attack
CN112822204A (en) NAT detection method, device, equipment and medium
Ahmed et al. Effective change detection in large repositories of unsolicited traffic
Ma et al. Trojan traffic detection based on machine learning

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200727

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210630

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210803

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211001

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211214

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220105

R150 Certificate of patent or registration of utility model

Ref document number: 7005278

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350