JP6560451B2

JP6560451B2 - 悪性通信ログ検出装置、悪性通信ログ検出方法、悪性通信ログ検出プログラム

Info

Publication number: JP6560451B2
Application number: JP2018523649A
Authority: JP
Inventors: 靖岡野
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2016-06-20
Filing date: 2017-06-01
Publication date: 2019-08-14
Anticipated expiration: 2037-06-01
Also published as: US20190173897A1; WO2017221667A1; JPWO2017221667A1; US11165790B2

Description

本発明は、悪性通信ログ検出装置、悪性通信ログ検出方法、悪性通信ログ検出プログラムに関する。

従来、マルウェアによる内部攻撃や情報漏洩等の悪性通信を検出する手法として、各種ルールに基づいて通信ログの分析を行うＳＩＥＭ（Security Information and Event Management）が知られている（例えば非特許文献１または２を参照）。また、クラスタリング等の機械学習によって、分析のためのルールを自動生成する手法も知られている（例えば非特許文献３を参照）。

また、テキスト分析の手法として、データ圧縮を用いてデータを分類する手法が知られている（例えば非特許文献４または５を参照）。このようなデータ圧縮を用いた手法は、異なるデータを結合させたときの圧縮されやすさを用いて分類を行うものである。

McAfee SIEM、［online］、［平成２８年６月３日検索］、インターネット（http://www.mcafee.com/jp/promos/siem/index.aspx） IBM QRadar Security Intelligence Platform、［online］、［平成２８年６月３日検索］、インターネット（http://www-03.ibm.com/software/products/ja/qradar） Perdisci, et al., "Behavioral Clustering of HTTP-Based Malware and Signature Generation Using Malicious Network Traces," NSDI, p.26, Apr. 2010. Bratko, et al., "Spam filtering using statistical data compression models", Journal of Machine Learning Research, vol.7, pp.2673-2698, 2006. 西田等、「データ圧縮によるツイート話題分類」、日本データベース学会論文誌、Vol.10、No.1、2011.

しかしながら、従来の手法には、未知の内容を含んだ悪性通信ログを検出することが困難であるという問題があった。例えば、機械学習によりルールを自動生成する手法の例として、n-gramやBag-of-Words等を用い、分類器やクラスタリングを用いた学習および推論を行う手法がある。このような手法では、検出対象の通信ログに学習時に未知であった語が含まれる場合、当該語は推論の際に無視されてしまい評価されない。このとき、当該語が悪性通信を特徴付ける語であった場合、悪性通信ログを検出できないことがある。

本発明の悪性通信ログ検出装置は、悪性または良性であることが既知の通信ログの特徴を表す第１の文字列、および、前記第１の文字列と分類対象の通信ログの特徴である文字列とが結合された第２の文字列を、所定のアルゴリズムによって圧縮する圧縮部と、前記圧縮部によって圧縮された前記第１の文字列のデータサイズ、および前記圧縮部によって圧縮された前記第２の文字列のデータサイズを基に、前記分類対象の通信ログが悪性であるか良性であるかを判定するためのスコアを算出する算出部と、前記算出部によって算出されたスコア、および所定のパラメータを基に、前記分類対象の通信ログが悪性であるか良性であるかを判定する判定部と、を有することを特徴とする。

また、本発明の悪性通信ログ検出方法は、悪性通信ログ検出装置で実行される悪性通信ログ検出方法であって、悪性または良性であることが既知の通信ログの特徴を表す第１の文字列、および、前記第１の文字列と分類対象の通信ログの特徴である文字列とが結合された第２の文字列を、所定のアルゴリズムによって圧縮する圧縮工程と、前記圧縮工程によって圧縮された前記第１の文字列のデータサイズ、および前記圧縮工程によって圧縮された前記第２の文字列のデータサイズを基に、前記分類対象の通信ログが悪性であるか良性であるかを判定するためのスコアを算出する算出工程と、前記算出工程によって算出されたスコア、および所定のパラメータを基に、前記分類対象の通信ログが悪性であるか良性であるかを判定する判定工程と、を含んだことを特徴とする。

また、本発明の悪性通信ログ検出プログラムは、コンピュータに、悪性または良性であることが既知の通信ログの特徴を表す第１の文字列、および、前記第１の文字列と分類対象の通信ログの特徴である文字列とが結合された第２の文字列を、所定のアルゴリズムによって圧縮する圧縮ステップと、前記圧縮ステップによって圧縮された前記第１の文字列のデータサイズ、および前記圧縮ステップによって圧縮された前記第２の文字列のデータサイズを基に、前記分類対象の通信ログが悪性であるか良性であるかを判定するためのスコアを算出する算出ステップと、前記算出ステップによって算出されたスコア、および所定のパラメータを基に、前記分類対象の通信ログが悪性であるか良性であるかを判定する判定ステップと、を実行させることを特徴とする。

本発明によれば、未知の内容を含んだ悪性通信ログを検出することができる。

図１は、第１の実施形態に係る悪性通信ログ検出装置の構成の一例を示す図である。図２は、圧縮分類器の構成の一例を示す図である。図３は、教師データ生成部の処理を説明するための図である。図４は、教師データ生成部の処理を説明するための図である。図５は、推論部の処理を説明するための図である。図６は、悪性通信ログ検出装置の教師データ生成処理の一例を示すフローチャートである。図７は、悪性通信ログ検出装置の学習処理の一例を示すフローチャートである。図８は、悪性通信ログ検出装置の判定処理の一例を示すフローチャートである。図９は、悪性通信ログ検出装置のデータ分割時の学習処理の一例を示すフローチャートである。図１０は、第２の実施形態に係る悪性通信ログ検出装置の構成の一例を示す図である。図１１は、第３の実施形態に係る悪性通信ログ検出装置の構成の一例を示す図である。図１２は、プログラムが実行されることにより悪性通信ログ検出装置が実現されるコンピュータの一例を示す図である。

以下に、本願に係る悪性通信ログ検出装置、悪性通信ログ検出方法、悪性通信ログ検出プログラムの実施形態を図面に基づいて詳細に説明する。なお、この実施形態により本発明が限定されるものではない。

［第１の実施形態の構成］
まず、図１を用いて、第１の実施形態に係る悪性通信ログ検出装置の構成について説明する。図１は、第１の実施形態に係る悪性通信ログ検出装置の構成の一例を示す図である。図１に示すように、悪性通信ログ検出装置１０は、教師データ生成部１１および学習判定部１２を有する。また、教師データ生成部１１は、抽出部１１１、削減部１１２および排除部１１３を有する。また、学習判定部１２は、抽出部１２１、圧縮分類器１２２および判定部１２３を有する。

教師データ生成部１１は、悪性通信ログ、良性通信ログ、ホワイトリスト等を基に、特徴抽出および事例選択を行い、教師データを生成する。学習判定部１２は、教師データ生成部１１によって生成された教師データの学習、および対象通信ログの判定を行う。

悪性通信ログ検出装置１０は、各通信ログとして、例えばＷｅｂサーバのアクセスログ、HTTP Proxyサーバ等への通信ログを用いる。また、通信ログの特徴は、例えば文字列で表されるデータである。

悪性通信ログは、悪性であることが既知の通信ログであり、例えば、実際に観測された悪性通信ログ、マルウェアを仮想環境で実行させることで得られた通信データ、疑似攻撃通信発生器（ファジングツール）により発生させた攻撃通信データ、および、ＵＲＬブラックリスト等である。また、良性通信ログは、良性であることが既知の通信ログであり、例えばマルウェアに感染していない端末から得られた通信ログである。

教師データ生成部１１の抽出部１１１は、悪性通信ログおよび良性通信ログから特徴を表す文字列を抽出する。教師データ生成部１１は、悪性または良性であることが既知の通信ログの特徴を表す文字列のうち、所定の条件を満たすことによって冗長であると判定された文字列を削除する。なお、特徴を表す文字列とは、抽出部１１１によって抽出された、悪性通信ログおよび良性通信ログの特徴を表す文字列である。なお、冗長であるか否かの判定および文字列の削除は、削減部１１２および排除部１１３によって行われる。

削減部１１２は、特徴を表す文字列に複数の重複した文字列が含まれている場合、複数の重複した文字列のうち所定の数の文字列を削除することで文字列を削減する。このとき、削減部１１２は、重複している特徴のうち１つだけ残すように削減を行ってもよいし、重複した特徴の数の対数＋１だけ残すように削減を行ってもよい。すなわち、削減部１１２は、重複を削減しつつ、重複数に応じて重複した文字列を残すようにしてもよい。また、削減部１１２は、悪性通信ログの特徴を表す文字列の削減を、良性通信ログの特徴を表す文字列の削減と異なる方法で行ってもよい。なお、削減部１１２は、文字列が重複している場合に冗長であると判定している。

排除部１１３は、悪性であることが既知の通信ログの特徴を表す文字列のうち、良性であることが既知の通信ログの特徴を表す文字列に含まれる文字列との類似度が所定値以上である文字列を削除することで文字列を排除する。例えば、排除部１１３は、悪性通信ログの特徴を表す文字列のうち、良性通信ログの特徴を表す文字列との間の編集距離（レーベンシュタイン距離）が所定値以下であるものを排除する。なお、排除部１１３は、文字列の類似度が所定値以上である場合に冗長であると判定している。

また、排除部１１３は、悪性通信ログの特徴を表す文字列のうち、ホワイトリストに合致するものを排除してもよい。このとき、排除部１１３は、悪性通信ログの特徴を表す文字列がホワイトリストに合致するか否かの判定を、完全一致するか否かによって行ってもよいし、編集距離に基づいて行ってもよいし、ホワイトリストを正規表現化したパターンに合致するか否かによって行ってもよい。

また、削減部１１２および排除部１１３による処理の順序は、どのような順序であってもよい。教師データ生成部１１は、削減部１１２および排除部１１３によって処理が行われた各通信ログの特徴を表す文字列を、悪性通信ログ教師データ、または良性通信ログ教師データとして出力する。なお、削減部１１２および排除部１１３による処理は行われなくてもよい。

図３および４を用いて、教師データ生成部１１の具体例について説明する。図３および４は、教師データ生成部の処理を説明するための図である。図３の文字列Ｄ_Ａ０は、抽出部１１１によって悪性通信ログの特徴を表す文字列として抽出されたＵＲＬである。図３に示すように、削減部１１２は、文字列Ｄ_Ａ０のうち「http://www.malware.com/index/」が重複しているため、１つを残して削減する。

また、図４の文字列Ｄ_Ｂ０は、抽出部１１１によって良性通信ログの特徴を表す文字列として抽出されたＵＲＬである。図４に示すように、削減部１１２は、文字列Ｄ_Ｂ０のうち「http://www.goodware.com/index/」が重複しているため、１つを残して削減する。図４の文字列Ｄ_Ｂは、良性通信ログ教師データの一例である。

さらに、排除部１１３は、文字列Ｄ_Ａ０の「http://www.example.ne.jp/」と、Ｄ_Ｂ０の「http://www.example.co.jp/」との類似度が所定値以上であると判定し、文字列Ｄ_Ａ０の「http://www.example.ne.jp/」を排除する。図３の文字列Ｄ_Ａは、悪性通信ログ教師データの一例である。

学習判定部１２の抽出部１２１は、対象通信ログから特徴を表す文字列を抽出する。圧縮分類器１２２は、対象通信ログの悪性スコアおよび良性スコアを算出する。また、圧縮分類器１２２は、教師データを学習する。

また、図２に示すように、圧縮分類器１２２は、学習部１５１、推論部１５２および圧縮部１５３を有する。また、圧縮分類器１２２は、分類情報１６０を記憶する。図２は、圧縮分類器の構成の一例を示す図である。

まず、学習部１５１は、悪性通信ログ教師データおよび良性通信ログ教師データを、圧縮部１５３に圧縮させる。圧縮部１５３は、悪性通信ログ教師データ、または良性通信ログ教師データ、すなわち第１の文字列を、所定のアルゴリズムによって圧縮する。圧縮部１５３は、例えば、辞書型圧縮アルゴリズム、文脈圧縮アルゴリズム等の、文字の連なりに着目して圧縮する方式のアルゴリズムを用いることができる。辞書型圧縮アルゴリズムには、例えば、ＬＺＳＳ（ＬＺ７７）、ＬＺＷ（ＬＺ７８）、ＬＺＴ、ＬＺＭＡ等がある。また、文脈圧縮アルゴリズムには、例えば、ＰＰＭ（Prediction by Partial Machine）等がある。

学習部１５１は、悪性通信ログ教師データ、良性通信ログ教師データ、圧縮部１５３によって圧縮された悪性通信ログ教師データのデータサイズ、および圧縮部１５３によって圧縮された良性通信ログ教師データのデータサイズを分類情報１６０として圧縮分類器１２２に記憶させる。

なお、圧縮部１５３が追加圧縮可能なアルゴリズムを用いる場合、学習部１５１は、圧縮前の悪性通信ログ教師データおよび良性通信ログ教師データではなく、圧縮後の悪性通信ログ教師データおよび良性通信ログ教師データを分類情報１６０とすることで、記憶させるデータサイズを小さくすることができる。この場合、推論部１５２は、圧縮後のデータに対して対象通信ログの特徴を表す文字列を追加して圧縮部１５３に圧縮を行わせることができ、処理時間が短縮される。

さらに、推論部１５２は、抽出部１２１によって抽出された、対象通信ログの特徴を表す文字列について、悪性スコアおよび良性スコアを算出する。悪性スコアおよび良性スコアは、対象通信ログが悪性通信によるものであるか良性通信によるものであるかを判定するためのスコアである。

まず、推論部１５２は、分類情報１６０として記憶されている悪性通信ログ教師データに、対象通信ログの特徴を表す文字列を結合させる。そして、推論部１５２は、結合した文字列を圧縮部１５３に圧縮させ、圧縮後のデータサイズを取得する。圧縮部１５３は、第１の文字列と対象通信ログの特徴である文字列とが結合された第２の文字列を、所定のアルゴリズムによって圧縮する。第２の文字列は、悪性通信ログ教師データと、対象通信ログの特徴を表す文字列とが結合した文字列、または良性通信ログ教師データと、対象通信ログの特徴を表す文字列とが結合した文字列である。

推論部１５２は、分類情報１６０として記憶されている悪性通信ログ教師データの圧縮後のデータサイズ、および結合した文字列の圧縮後のデータサイズを基に、悪性スコアを算出する。Ｚをデータの圧縮後のデータサイズを求める関数、Ｄ_Ａを悪性通信ログ教師データ、ｘを対象通信ログの特徴を表す文字列、Ｄ_Ａ＋ｘをＤ_Ａとｘを結合したデータとすると、推論部１５２は、悪性スコアを式（１）によって算出する。
悪性スコア＝Ｚ（Ｄ_Ａ＋ｘ）−Ｚ（Ｄ_Ａ）・・・（１）

同様に、推論部１５２は、分類情報１６０として記憶されている良性通信ログ教師データに、対象通信ログの特徴を表す文字列を結合させる。そして、推論部１５２は、結合した文字列を圧縮部１５３に圧縮させ、圧縮後のデータサイズを取得する。推論部１５２は、分類情報１６０として記憶されている良性通信ログ教師データの圧縮後のデータサイズ、および結合した文字列の圧縮後のデータサイズを基に、良性スコアを算出する。Ｚをデータの圧縮後のデータサイズを求める関数、Ｄ_Ｂを良性通信ログ教師データ、ｘを対象通信ログの特徴を表す文字列、Ｄ_Ｂ＋ｘをＤ_Ｂとｘを結合したデータとすると、推論部１５２は、良性スコアを式（２）によって算出する。
良性スコア＝Ｚ（Ｄ_Ｂ＋ｘ）−Ｚ（Ｄ_Ｂ）・・・（２）

このように、推論部１５２は、圧縮部１５３によって圧縮された第１の文字列のデータサイズ、および圧縮部１５３によって圧縮された第２の文字列のデータサイズを基に、対象通信ログが悪性であるか良性であるかを判定するためのスコアを算出する。例えば、推論部１５２は、対象通信ログが悪性である度合いを表す悪性スコア、および対象通信ログが良性である度合いを表す良性スコアを算出する。

図５を用いて、推論部１５２の具体的な処理について説明する。図５は、推論部の処理を説明するための図である。図５に示すように、推論部１５２は、悪性通信ログ教師データである文字列Ｄ_Ａに、対象通信ログの特徴を表す文字列ｘを結合させ、悪性スコアを算出する。また、推論部１５２は、良性通信ログ教師データである文字列Ｄ_Ｂに、対象通信ログの特徴を表す文字列ｘを結合させ、良性スコアを算出する。

判定部１２３は、推論部１５２によって算出されたスコア、および所定のパラメータを基に、対象通信ログが悪性であるか良性であるかを判定する。ここで、文字列同士を結合し圧縮した場合、当該文字列同士の類似度が大きいほど、圧縮後のデータのサイズは小さくなると考えられる。このため、対象通信ログの特徴を表す文字列と悪性通信ログ教師データとの類似度が大きいほど、式（１）におけるＺ（Ｄ_Ａ＋ｘ）が小さくなり、悪性スコアは小さくなる。同様に、対象通信ログの特徴を表す文字列と良性通信ログ教師データとの類似度が大きいほど、式（２）におけるＺ（Ｄ_Ｂ＋ｘ）が小さくなり、良性スコアは小さくなる。

一方で、通信処理用のデータ領域をあふれさせるbuffer overflowと呼ばれる攻撃が知られている。buffer overflowでは、同一の文字ばかりの通信を送り付けたり、逆に、一見ランダムな無意味な内容の通信を送り付けたりすることがある。buffer overflowによる通信ログは、悪性通信による通信ログであると判定される必要がある。

同一の文字ばかりの通信が送り付けられた場合の通信ログに出現する文字列は、圧縮されると極端にデータサイズが小さくなる場合が考えられる。また、一見ランダムな無意味な内容の通信が行われた場合の通信ログに出現する文字列は、圧縮されると極端にデータサイズが大きくなる場合が考えられる。この結果、buffer overflowによる通信ログについての悪性スコアおよび良性スコアは、両方が極端に小さくなることや、両方が極端に大きくなることがある。

以上のことをふまえて、判定部１２３は、下記の条件１−１、１−２、１−３のいずれかが満たされた場合、対象通信ログが悪性通信によるものであると判定する。
（条件１−１）良性スコア＜Ａ_１かつ悪性スコア＜Ａ_１
（条件１−２）良性スコア＞Ａ_２かつ悪性スコア＞Ａ_２
（条件１−３）良性スコア＞Ａ_３ × 悪性スコア

ここで、Ａ_１、Ａ_２、Ａ_３は調整パラメータであり、学習部１５１によって学習時に調整される。学習部１５１は、判定部１２３による判定結果に基づいて所定のパラメータを調整する。学習部１５１は、悪性通信ログ教師データおよび良性通信ログ教師データの一部を実際に判定することでより良いパラメータを探索する手法（交差検証、グリッド探索等）を用いてパラメータの調整を行う。

そして、判定部１２３は、悪性スコアおよび良性スコアの両方が第１の値より小さい場合、または、悪性スコアおよび良性スコアの両方が第２の値より大きい場合、対象通信ログが悪性であると判定する。第１の値はＡ_１である。また、第２の値はＡ_２である。

学習部１５１は、例えば、Ａ_１を０．０〜０．４、Ａ_２を１．０以上に調整する。また、条件１−１は、悪性スコアおよび良性スコアの両方が極端に小さくなる場合を表している。また、条件１−２は、悪性スコアおよび良性スコアの両方が極端に大きくなる場合を表している。また、学習部１５１は、例えば、Ａ_３を１．０以上に調整する。条件１−３は、悪性スコアが良性スコアと比べて十分に小さい（対象通信ログが悪性通信ログに十分に近い）ことを表している。Ａ_３が大きいほど、判定率（＝正しく判定できた悪性通信件数÷全通信件数）は小さくなるが、誤判定率（＝誤って悪性と判定した良性通信件数÷全通信件数）も小さくなる。

ここで、推論部１５２は、悪性通信ログ教師データおよび良性通信ログ教師データに通信対象ログの特徴を表す文字列を結合し、結合したデータ全体を圧縮部１５３に圧縮させるため、悪性通信ログ教師データまたは良性通信ログ教師データが大きくなると、処理時間が増大する。

また、圧縮アルゴリズムによっては、メモリや処理速度の制約から、データが大きすぎる場合、データの先頭部分の情報が、データの最後尾部分の圧縮には加味されないことがある（例えば、スライド辞書方式を採用しているＬＺＳＳ圧縮アルゴリズム等）。

そこで、学習部１５１は、悪性通信ログ教師データまたは良性通信ログ教師データが所定サイズより大きい場合、悪性通信ログ教師データまたは良性通信ログ教師データを分割して分類情報１６０として記憶させるようにしてもよい。この場合、悪性通信ログ教師データまたは良性通信ログ教師データが追加された場合であっても、学習部１５１は、追加されたデータを分類情報１６０に追加するだけでよい。

学習部１５１が悪性通信ログ教師データまたは良性通信ログ教師データを分割する場合の処理について説明する。学習部１５１は、悪性通信ログ教師データまたは良性通信ログ教師データが所定サイズより大きい場合、あらかじめ設定された最大サイズに収まるように、悪性通信ログ教師データまたは良性通信ログ教師データを分割する。

このとき、学習部１５１は、分割後のデータがなるべく均等なサイズになるように分割する。また、学習部１５１は、悪性通信ログまたは良性通信ログの記録時間を参照し、日時ごとに取りまとめて分割してもよい。

次に、学習部１５１は、圧縮部１５３に、分割した各データを別々に圧縮させる。そして、学習部１５１は、分割されたデータと、各データの圧縮後のデータサイズを分類情報１６０として圧縮分類器１２２に記憶させる。なお、圧縮部１５３は、処理時間短縮のため、各データの圧縮を並列処理で行ってもよい。

そして、推論部１５２は、分類情報１６０に含まれる分割された悪性通信ログ教師データまたは良性通信ログ教師データのそれぞれに、対象通信ログの特徴を表す文字列を結合し、結合したデータを圧縮部１５３に圧縮させる。なお、圧縮部１５３は、処理時間短縮のため、各データの圧縮を並列処理で行ってもよい。

Ｚをデータの圧縮後のデータサイズを求める関数、ｉを分割後の各データに付与された識別番号、Ｄ_Ａ（ｉ）を分割された悪性通信ログ教師データのうちのｉ番目のデータ、ｘを対象通信ログの特徴を表す文字列、Ｄ_Ａ（ｉ）＋ｘをＤ_Ａ（ｉ）とｘを結合したデータ、ｍｉｎを最小値を求める関数、γを調整パラメータ（スムージングパラメータ）とすると、推論部１５２は、悪性スコアを式（３）によって算出する。
悪性スコア＝｛ｍｉｎ（Ｚ（Ｄ_Ａ（ｉ）＋ｘ）−Ｚ（Ｄ_Ａ（ｉ）））＋γ｝
÷（ｘのデータサイズ＋γ）・・・（３）

同様に、Ｚをデータの圧縮後のデータサイズを求める関数、ｉを分割後の各データに付与された識別番号、Ｄ_Ｂ（ｉ）を分割された良性通信ログ教師データのうちのｉ番目のデータ、ｘを対象通信ログの特徴を表す文字列、Ｄ_Ｂ（ｉ）＋ｘをＤ_Ｂ（ｉ）とｘを結合したデータ、ｍｉｎを最小値を求める関数、γを調整パラメータとすると、推論部１５２は、良性スコアを式（４）によって算出する。
良性スコア＝｛ｍｉｎ（Ｚ（Ｄ_Ｂ（ｉ）＋ｘ）−Ｚ（Ｄ_Ｂ（ｉ）））＋γ｝
÷（ｘのデータサイズ＋γ）・・・（４）

式（３）および（４）において、γ＝０とした場合、各スコアは、その分類下において、対象通信ログの特徴を表す文字列がどのくらい圧縮できたかを示す圧縮率ということができる。また、対象通信ログの特徴を表す文字列のデータサイズが小さいほど、良性スコアおよび悪性スコアは１に近づくため、パラメータγを大きくすることで、対象通信ログの特徴を表す文字列のうちデータサイズが小さいものを無視するように調整することができる。また、例えば、推論部１５２は、最小値（ｍｉｎ）を求める代わりに、平均値（ａｖｅｒａｇｅ）を求めることで各スコアを算出してもよい。なお、学習部１５１が悪性通信ログ教師データまたは良性通信ログ教師データを分割する場合であっても、推論部１５２は、式（１）および（２）と同様に、圧縮前後のデータサイズの差を良性スコア及び悪性スコアとして算出してもよい。また、学習部１５１が悪性通信ログ教師データまたは良性通信ログ教師データを分割しない場合であっても、推論部１５２は、式（３）および（４）と同様に、圧縮率を良性スコアおよび悪性スコアとして算出してもよい。

［第１の実施形態の処理］
図６〜８を用いて、悪性通信ログ検出装置１０の処理について説明する。図６は、悪性通信ログ検出装置の教師データ生成処理の一例を示すフローチャートである。図７は、悪性通信ログ検出装置の学習処理の一例を示すフローチャートである。図８は、悪性通信ログ検出装置の判定処理の一例を示すフローチャートである。

まず、教師データ生成部１１による教師データ生成処理について説明する。図６に示すように、抽出部１１１は、悪性通信ログおよび良性通信ログから、それぞれの通信ログの特徴を表す文字列を抽出する（ステップＳ１０１）。次に、削減部１１２は、抽出部１１１によって抽出された文字列から、重複した文字列を削減する（ステップＳ１０２）。さらに、排除部１１３は、悪性通信ログの特徴を表す文字列のうち、良性通信ログの特徴を表す文字列と類似した文字列を排除する（ステップＳ１０３）。

次に、学習判定部１２による学習処理について説明する。図７に示すように、学習部１５１は、教師データを学習する（ステップＳ１１１）。具体的に、学習部１５１は、悪性通信ログ教師データおよび良性通信ログ教師データのデータそのものと、それぞれの教師データが圧縮部１５３で圧縮された後のデータサイズを分類情報１６０として記憶させる。そして、学習部１５１は、教師データの一部を用いて実際に判定を行い、判定結果に基づいてパラメータの調整を行うことで、圧縮分類器１２２の学習を行う（ステップＳ１１２）。なお、学習判定部１２は、学習処理を、対象通信ログの判定前に実施してもよいし、対象通信ログの判定途中に適宜実施してもよい。

次に、学習判定部１２による判定処理について説明する。図８に示すように、推論部１５２は、悪性通信ログ教師データおよび良性通信ログ教師データのそれぞれと、対象データ、すなわち抽出部１２１によって抽出された対象通信ログの特徴を表す文字列を結合させる（ステップＳ１２１）。そして、推論部１５２は、結合させたデータを圧縮部１５３に圧縮させる（ステップＳ１２２）。そして、推論部１５２は、教師データの圧縮後のデータサイズ、および結合データの圧縮後のデータサイズを基にスコアを算出する（ステップＳ１２３）。判定部１２３は、スコアを基に、対象データが悪性であるか良性であるかを判定する（ステップＳ１２４）。

また、教師データを分割する場合の学習判定部１２による学習処理について、図９を用いて説明する。図９は、悪性通信ログ検出装置のデータ分割時の学習処理の一例を示すフローチャートである。図９に示すように、学習部１５１は、教師データを分割し（ステップＳ１３１）、圧縮部１５３に分割した各教師データを圧縮させる（ステップＳ１３２）。そして、学習部１５１は、分割した各教師データと、各教師データそれぞれの圧縮サイズ、すなわち圧縮後のデータサイズを分類情報１６０として記憶させる（ステップＳ１３３）。なお、学習部１５１は、教師データの分割を、学習判定部１２による判定処理前に実施する。

［第１の実施形態の効果］
教師データ生成部１１は、悪性または良性であることが既知の通信ログの特徴を表す文字列のうち、所定の条件を満たすことによって冗長であると判定された文字列を削除する。また、圧縮部１５３は、教師データ生成部１１によって前記冗長であると判定された文字列が削除された第１の文字列、および、第１の文字列と対象通信ログの特徴である文字列とが結合された第２の文字列を、所定のアルゴリズムによって圧縮する。また、推論部１５２は、圧縮部１５３によって圧縮された第１の文字列のデータサイズ、および圧縮部１５３によって圧縮された第２の文字列のデータサイズを基に、対象通信ログが悪性であるか良性であるかを判定するためのスコアを算出する。また、判定部１２３は、推論部１５２によって算出されたスコア、および所定のパラメータを基に、対象通信ログが悪性であるか良性であるかを判定する。また、学習部１５１は、判定部１２３による判定結果に基づいて所定のパラメータを調整する。

このように、第１の実施形態では、圧縮を用いて分類のためのスコアの算出を行っているため、未知の内容を含んだ悪性通信ログを検出することができる。また、冗長であると判定されたデータをあらかじめ削除しているため、誤検出の発生をおさえることができる。

削減部１１２は、特徴を表す文字列に複数の重複した文字列が含まれている場合、複数の重複した文字列のうち所定の数の文字列を削除する。これにより、重複データの影響を小さくし、検出精度を向上させることができる。

排除部１１３は、悪性であることが既知の通信ログの特徴を表す文字列のうち、良性であることが既知の通信ログの特徴を表す文字列に含まれる文字列との類似度が所定値以上である文字列を削除する。これにより、良性通信ログを悪性通信ログであると判定する誤検出を低減させることができる。

圧縮部１５３は、第１の文字列を複数に分割して圧縮する。そして、推論部１５２は、複数に分割された第１の文字列それぞれについてスコアを算出する。これにより、教師データのサイズが大きく、メモリや処理速度の制約を受けてしまい一度に圧縮できない場合であっても、判定を行うことが可能となる。

推論部１５２は、対象通信ログが悪性である度合いを表す悪性スコア、および対象通信ログが良性である度合いを表す良性スコアを算出する。そして、判定部１２３は、悪性スコアおよび良性スコアの両方が第１の値より小さい場合、または、悪性スコアおよび良性スコアの両方が第２の値より大きい場合、対象通信ログが悪性であると判定する。これにより、buffer overflowによる悪性通信ログを検出することができる。また、この場合、悪性スコアと良性スコアの両方を用いて判定を行うため、一方のスコアを用いる場合と比べて判定精度が高くなる。

［第２の実施形態］
第１の実施形態では、悪性通信ログ検出装置１０が、悪性通信ログおよび良性通信ログの両方から抽出した特徴を表す文字列を基に教師データを生成する場合について説明した。これに対して、第２の実施形態では、悪性通信ログ検出装置１０が、悪性通信ログおよび良性通信ログのいずれか一方から抽出した特徴を表す文字列を基に教師データを生成する場合について説明する。

図１０に示すように、第２の実施形態では、抽出部１１１は、悪性通信ログまたは良性通信ログのうちいずれか一方から特徴を表す文字列を抽出する。図１０は、第２の実施形態に係る悪性通信ログ検出装置の構成の一例を示す図である。

この場合、判定部１２３は、悪性スコアまたは良性スコアのいずれか一方を用いて判定を行うことになる。例えば、判定部１２３が悪性スコアのみを用いて判定を行う場合、下記の条件２−１、２−２のいずれかが満たされた場合、対象通信ログが悪性通信によるものであると判定する。
（条件２−１）悪性スコア＜Ａ_４
（条件２−２）悪性スコア＞Ａ_５
ただし、Ａ_４、Ａ_５は調整パラメータ

この場合、推論部１５２は、分類対象の通信ログが悪性である度合いを表す悪性スコアを算出する。そして、判定部１２３は、悪性スコアが第３の値より小さい場合、または、悪性スコアが第２の値より大きい場合、対象通信ログが悪性であると判定する。このとき、第３の値はＡ_４である。また、第４の値はＡ_５である。

また、例えば、判定部１２３が良性スコアのみを用いて判定を行う場合、下記の条件３−１、３−２のいずれかが満たされた場合、対象通信ログが悪性通信によるものであると判定する。
（条件３−１）良性スコア＜Ａ_６
（条件３−２）良性スコア＞Ａ_７
ただし、Ａ_６、Ａ_７は調整パラメータ

この場合、推論部１５２は、分類対象の通信ログが良性である度合いを表す良性スコアを算出する。そして、判定部１２３は、良性スコアが第３の値より小さい場合、または、良性スコアが第２の値より大きい場合、対象通信ログが良性であると判定する。このとき、第３の値はＡ_６である。また、第４の値はＡ_７である。

なお、条件２−１および３−１は、同一の文字ばかりの通信を送り付けるbuffer overflowのような、圧縮率が極端に大きくなる場合を表している。また、条件２−２は、一見ランダムな無意味な内容の通信を送り付けるbuffer overflowのような、圧縮率が極端に小さくなる場合を表している。また、条件３−２は、圧縮率が極端に小さくなる場合および良性通信ログとの類似度が小さい場合を表している。

［第２の実施形態の効果］
推論部１５２は、分類対象の通信ログが悪性である度合い、または分類対象の通信ログが良性である度合いのうちのいずれか一方を表すスコアを算出する。そして、判定部１２３は、スコアが第３の値より小さい場合、または、スコアが第４の値より大きい場合、分類対象の通信ログが悪性であると判定する。

第２の実施形態では、悪性と良性のうち、用意しやすい通信ログのみを用意すればよく、導入が容易である。また、良性通信ログのみを教師データとした場合は、通常の通信とは外れる通信の検出、いわゆる、アノーマリ検出を行うことができる。

また、最初は悪性または良性のいずれかの通信ログを用いて第２の実施形態により検出を行い、悪性および良性の両方の通信ログが入手可能となったところで、第１の実施形態に切り替えるといった、柔軟な運用も可能である。

［第３の実施形態］
第１の実施形態では、悪性通信ログ検出装置１０が、圧縮分類器１２２によって算出されたスコアに基づいて学習および判定を行っていた。これに対して、第３の実施形態では、悪性通信ログ検出装置１０は、圧縮分類器１２２によって算出されたスコアに加えて、他の分類器による分類結果を用いて学習および判定を行う。

図１１に示すように、第３の実施形態では、悪性通信ログ検出装置１０は、非圧縮分類器１２２ａを有する。図１１は、第３の実施形態に係る悪性通信ログ検出装置の構成の一例を示す図である。

例えば、圧縮分類器１２２は、通信ログの特徴を表す情報として、ＵＲＬやブラウザ名等の、ある程度の長さを持ったテキストおよびバイナリ情報を基にスコアの算出を行う。一方、非圧縮分類器１２２ａは、宛先ポート番号や転送量等の、数値のような短い属性を用いて分類を行う。このため、第３の実施形態では、悪性通信ログ検出装置１０は、圧縮分類器１２２によって算出されたスコアと、非圧縮分類器１２２ａによる分類結果に基づいて学習および判定を行う。

非圧縮分類器１２２ａは、例えば、短い属性の特徴量を、サポートベクターマシン等の他の適切な分類器で学習する。非圧縮分類器１２２ａは、圧縮分類器１２２によって算出された悪性スコア、良性スコア、および他指定属性の教師データを学習する。他指定属性の教師データとは、圧縮分類器１２２の対象となる特徴の属性、すなわち圧縮用属性と異なる属性の特徴である。例えば、圧縮分類器１２２はＵＲＬを特徴として用いるのに対し、非圧縮分類器１２２ａは、宛先ポート番号、転送量等を特徴として用いる。非圧縮分類器１２２ａは、他指定属性の特徴を、Bag-of-Wordsとして扱ってもよいし、そのまま数値として扱ってもよい。

判定部１２３は、推論部１５２によって算出されたスコア、所定のパラメータ、および通信ログの特徴を表す文字列であって、第１の文字列と異なる属性の文字列から抽出された特徴量を基に、対象通信ログが悪性であるか良性であるかを判定する。

判定部１２３は、圧縮分類器１２２によって算出された悪性スコア、良性スコア、および非圧縮分類器１２２ａによる他指定属性の特徴を基にした判定結果を基に、対象通信ログが悪性であるか良性であるかを判定する。判定部１２３は、例えば、分類器として、決定木、サポートベクターマシン、ニューラルネットワーク等を用いて判定を行う。なお、非圧縮分類器１２２ａで扱われる他指定属性の特徴には、圧縮分類器１２２で用いられる特徴の一部または全部が含まれていてもよい。例えば、他指定属性の特徴に、圧縮分類器１２２で用いられる特徴であるＵＲＬのドメイン名が含まれていてもよい。

［第３の実施形態の効果］
判定部１２３は、推論部１５２によって算出されたスコア、所定のパラメータ、および通信ログの特徴を表す文字列であって、第１の文字列と異なる属性の文字列から抽出された特徴量を基に、対象通信ログが悪性であるか良性であるかを判定する。

これにより、判定部１２３で用いられる分類器のパラメータを調整することで、第１の実施形態におけるパラメータ調整と同様の効果を得ることができる。例として、ＵＲＬを圧縮用属性とし、判定部１２３の分類器として決定木を用いる場合について説明する。決定木は、与えられた分類と特徴に対して、特徴に対する閾値の大小関係を基に、分類を決定する条件ルールを自動的に生成するアルゴリズムである。

ここでは、決定木に、分類として「悪性、良性」を与え、特徴として「良性スコア、悪性スコア、良性スコア÷悪性スコア」を与える。この場合、決定木は、悪性と判断する以下のような条件を生成する。これにより、決定木を用いたパラメータ調整が可能となる。
（条件４−１）良性スコア＜Ａ_１１かつ悪性スコア＜Ａ_１２
（条件４−２）良性スコア＞Ａ_２１かつ悪性スコア＞Ａ_２２
（条件４−３）良性スコア ÷ 悪性スコア＞Ａ_３１
ただし、Ａ_１１、Ａ_１２、Ａ_２１、Ａ_２２、Ａ_３１は調整パラメータ

［システム構成等］
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部または任意の一部が、ＣＰＵ（Central Process Unit）および当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

［プログラム］
一実施形態として、悪性通信ログ検出装置１０は、パッケージソフトウェアやオンラインソフトウェアとして上記の悪性通信ログの検出を実行する悪性通信ログ検出プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の悪性通信ログ検出プログラムを情報処理装置に実行させることにより、情報処理装置を悪性通信ログ検出装置１０として機能させることができる。ここで言う情報処理装置には、デスクトップ型またはノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やＰＨＳ（Personal Handyphone System）等の移動体通信端末、さらには、ＰＤＡ（Personal Digital Assistant）等のスレート端末等がその範疇に含まれる。

また、悪性通信ログ検出装置１０は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の悪性通信ログ検出に関するサービスを提供する悪性通信ログ検出サーバ装置として実装することもできる。例えば、悪性通信ログ検出サーバ装置は、通信ログを入力とし、判定結果を出力とする悪性通信ログ検出サービスを提供するサーバ装置として実装される。この場合、悪性通信ログ検出サーバ装置は、Ｗｅｂサーバとして実装することとしてもよいし、アウトソーシングによって上記の悪性通信ログ検出に関するサービスを提供するクラウドとして実装することとしてもかまわない。

図１２は、プログラムが実行されることにより悪性通信ログ検出装置が実現されるコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０、ＣＰＵ１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

メモリ１０１０は、ＲＯＭ（Read Only Memory）１０１１およびＲＡＭ（Random Access Memory）１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic Input Output System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１１３０に接続される。

ハードディスクドライブ１０９０は、例えば、ＯＳ（Operating System）１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、悪性通信ログ検出装置１０の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、悪性通信ログ検出装置１０における機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、ＳＳＤ（Solid State Drive）により代替されてもよい。

また、上述した実施形態の処理で用いられる設定データは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０が、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して実行する。

なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３およびプログラムデータ１０９４は、ネットワーク（ＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）等）を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３およびプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

１０悪性通信ログ検出装置
１１教師データ生成部
１２学習判定部
１１１、１２１抽出部
１１２削減部
１１３排除部
１２２圧縮分類器
１２３判定部
１５１学習部
１５２推論部
１５３圧縮部
１６０分類情報

Claims

悪性または良性であることが既知の通信ログの特徴を表す第１の文字列、および、前記第１の文字列と分類対象の通信ログの特徴である文字列とが結合された第２の文字列を、所定のアルゴリズムによって圧縮する圧縮部と、
前記圧縮部によって圧縮された前記第１の文字列のデータサイズ、および前記圧縮部によって圧縮された前記第２の文字列のデータサイズを基に、前記分類対象の通信ログが悪性であるか良性であるかを判定するためのスコアを算出する算出部と、
前記算出部によって算出されたスコア、および所定のパラメータを基に、前記分類対象の通信ログが悪性であるか良性であるかを判定する判定部と、
を有することを特徴とする悪性通信ログ検出装置。
前記第１の文字列のうち、所定の条件を満たすことによって冗長であると判定された文字列を削除する削除部をさらに有し、
前記圧縮部は、前記削除部によって前記冗長であると判定された文字列が削除された前記第１の文字列および前記第２の文字列を圧縮することを特徴とする請求項１に記載の悪性通信ログ検出装置。
前記削除部は、前記特徴を表す文字列に複数の重複した文字列が含まれている場合、前記複数の重複した文字列のうち所定の数の文字列を削除することを特徴とする請求項２に記載の悪性通信ログ検出装置。
前記削除部は、悪性であることが既知の通信ログの特徴を表す前記特徴を表す文字列のうち、良性であることが既知の通信ログの特徴を表す前記特徴を表す文字列に含まれる文字列との類似度が所定値以上である文字列を削除することを特徴とする請求項２に記載の悪性通信ログ検出装置。
前記判定部による判定結果に基づいて前記所定のパラメータを調整する調整部をさらに有することを特徴とする請求項１に記載の悪性通信ログ検出装置。
前記圧縮部は、前記第１の文字列を複数に分割して圧縮し、
前記算出部は、複数に分割された前記第１の文字列それぞれについて前記スコアを算出することを特徴とする請求項１に記載の悪性通信ログ検出装置。
前記算出部は、前記分類対象の通信ログが悪性である度合いを表す悪性スコア、および前記分類対象の通信ログが良性である度合いを表す良性スコアを算出し、
前記判定部は、前記悪性スコアおよび前記良性スコアの両方が第１の値より小さい場合、または、前記悪性スコアおよび前記良性スコアの両方が第２の値より大きい場合、前記分類対象の通信ログが悪性であると判定することを特徴とする請求項１に記載の悪性通信ログ検出装置。
前記算出部は、前記分類対象の通信ログが悪性である度合い、または前記分類対象の通信ログが良性である度合いのうちのいずれか一方を表すスコアを算出し、
前記判定部は、前記スコアが第３の値より小さい場合、または、前記スコアが第４の値より大きい場合、前記分類対象の通信ログが悪性であると判定することを特徴とする請求項１に記載の悪性通信ログ検出装置。
前記判定部は、前記算出部によって算出されたスコア、前記所定のパラメータ、および前記通信ログの特徴を表す文字列であって、前記第１の文字列と異なる属性の文字列から抽出された特徴量を基に、前記分類対象の通信ログが悪性であるか良性であるかを判定することを特徴とする請求項１に記載の悪性通信ログ検出装置。
悪性通信ログ検出装置で実行される悪性通信ログ検出方法であって、
悪性または良性であることが既知の通信ログの特徴を表す第１の文字列、および、前記第１の文字列と分類対象の通信ログの特徴である文字列とが結合された第２の文字列を、所定のアルゴリズムによって圧縮する圧縮工程と、
前記圧縮工程によって圧縮された前記第１の文字列のデータサイズ、および前記圧縮工程によって圧縮された前記第２の文字列のデータサイズを基に、前記分類対象の通信ログが悪性であるか良性であるかを判定するためのスコアを算出する算出工程と、
前記算出工程によって算出されたスコア、および所定のパラメータを基に、前記分類対象の通信ログが悪性であるか良性であるかを判定する判定工程と、
を含んだことを特徴とする悪性通信ログ検出方法。
コンピュータに、
悪性または良性であることが既知の通信ログの特徴を表す第１の文字列、および、前記第１の文字列と分類対象の通信ログの特徴である文字列とが結合された第２の文字列を、所定のアルゴリズムによって圧縮する圧縮ステップと、
前記圧縮ステップによって圧縮された前記第１の文字列のデータサイズ、および前記圧縮ステップによって圧縮された前記第２の文字列のデータサイズを基に、前記分類対象の通信ログが悪性であるか良性であるかを判定するためのスコアを算出する算出ステップと、
前記算出ステップによって算出されたスコア、および所定のパラメータを基に、前記分類対象の通信ログが悪性であるか良性であるかを判定する判定ステップと、
を実行させることを特徴とする悪性通信ログ検出プログラム。