JP2021189658A

JP2021189658A - 情報処理装置及び情報処理プログラム

Info

Publication number: JP2021189658A
Application number: JP2020093234A
Authority: JP
Inventors: 叶孫; Ye Sun; 竜生鈴木; Tatsuo Suzuki
Original assignee: Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2020-05-28
Filing date: 2020-05-28
Publication date: 2021-12-13
Also published as: US20210377285A1

Abstract

【課題】接続元端末からの不正通信を検出するための情報処理装置及び情報処理プログラムを提供する。【解決手段】ネットワークシステムにおいて、セキュリティサーバは、接続元端末からの要求に応じてネットワーク装置からＤＮＳサーバにリクエストが送信される度に、当該リクエストに含まれるクエリタイプを示す通信ログが蓄積記憶される。学習処理部３８は、通信ログに基づいて、ＤＮＳサーバに送信されたクエリタイプが時系列に並べられたクエリタイプ列を学習データとして、クエリタイプ列の特徴を出力するように学習器３４を学習させる。異常検出部４０は、対象クエリデータを学習済みの学習器３４に入力することで、接続元端末からの不正通信を検出する。【選択図】図３

Description

本発明は、情報処理装置及び情報処理プログラムに関する。

従来、悪意のあるソフトウェアであるマルウェアが知られている。マルウェアに感染した接続元端末は、当該接続元端末の利用者の意に反して種々の接続先ホストとの間で通信（本明細書ではこのような通信を「不正通信」と呼ぶ）を行う場合がある。

従来、接続元端末がマルウェアに感染しているか否かを検出する技術が提案されている。例えば、特許文献１には、接続元端末であるＩｏＴ端末と接続先ホストとの間の通信に関する通信発生の頻度、あるいは接続先ホストの種類数などの特徴量に基づいて、当該ＩｏＴ端末がマルウェアに感染しているか否かを検出する異常検知システムが開示されている。また、特許文献２には、ネットワークを流れるセキュリティ攻撃パケット（悪意のあるパケット）のヘッダ情報から、セキュリティ攻撃通信の通信パターンを学習器に学習させることで、セキュリティ攻撃パケットを検出するセキュリティ脅威システムが開示されている。

特開２０１８−１３３００４号公報特許第６０７８１７９号公報

ところで、マルウェアに感染した接続元端末は、多種多様の接続先ホストに多種多様の通信態様にて接続し得る。したがって、マルウェアに感染した接続元端末の接続先ホストや通信態様を予め定義してくことが困難であり、あるいは、学習器を用いたとしてもそのような通信態様を学習させることが困難であり、マルウェアによる通信態様に基づいて不正通信を検出することが困難となる場合があった。具体的には、接続元端末からの通信が有った場合に、それがマルウェアによる通信、すなわち不正通信であるか否かを判定することが困難となる場合があった。

本発明の目的は、接続元端末からの不正通信を検出することにある。

請求項１に係る発明は、プロセッサを備え、前記プロセッサは、接続元端末の要求に応じてＤＮＳサーバに送信される各情報要求信号に含まれるクエリタイプが時系列に並べられたクエリタイプ列を学習データとして、教師無し学習により前記接続元端末の前記クエリタイプ列の特徴が学習された学習器に、検出処理の対象である前記接続元端末の対象クエリタイプ列を入力することで、前記接続元端末からの不正通信を検出する、ことを特徴とする情報処理装置である。
請求項２に係る発明は、前記プロセッサは、第１情報要求信号の送信時刻と第２情報要求信号の送信時刻との間の時間が所定時間以上である場合に、前記クエリタイプ列及び前記対象クエリタイプ列において、前記第１情報要求信号に含まれる第１クエリタイプと、前記第２情報要求信号に含まれる第２クエリタイプとの間に、空白時間を示す要素を挿入する、ことを特徴とする請求項１に記載の情報処理装置である。
請求項３に係る発明は、コンピュータに、接続元端末の要求に応じてＤＮＳサーバに送信される各情報要求信号に含まれるクエリタイプが時系列に並べられたクエリタイプ列を学習データとして、教師無し学習により前記接続元端末の前記クエリタイプ列の特徴が学習された学習器に、検出処理の対象である前記接続元端末の対象クエリタイプ列を入力することで、前記接続元端末からの不正通信を検出する、ことを特徴とする情報処理プログラム。

請求項１又は３に係る発明によれば、接続元端末からの不正通信を検出することができる。
請求項２に係る発明によれば、接続元端末からＤＮＳサーバに送信される情報要求信号の送信間隔をさらに考慮して、接続元端末からの不正通信を検出することができる。

本実施形態に係るネットワークシステムの構成概略図である。通信ログの例を示す図である。本実施形態に係るセキュリティサーバの構成概略図である。学習器の構造を示す図である。接続元端末別のクエリタイプ列を示す図である。クエリタイプ列における学習用入力データと評価データを示す第１の図である。クエリタイプ列における学習用入力データと評価データを示す第２の図である。クエリタイプ列が入力された学習器の処理の様子を示す図である。空白時間を示す要素が入力されたクエリタイプ列の例を示す図である。対象クエリタイプ列に含まれる各クエリタイプの個別スコアを示す図である。評価スコアのグラフの例を示す図である。

図１は、本実施形態に係るネットワークシステム１０の構成概略図である。ネットワークシステム１０は、１又は複数の接続元端末１２、１又は複数の接続先ホスト１４、ネットワーク装置１６、ＤＮＳ（Domain Name System）サーバ１８、及び、本発明に係る情報処理装置としてのセキュリティサーバ２０を含んで構成されている。接続元端末１２とネットワーク装置１６は、ＬＡＮ（Local Area Network）などのイントラネットにより通信可能に接続されている。また、接続先ホスト１４、ネットワーク装置１６、ＤＮＳサーバ１８、及びセキュリティサーバ２０は、インターネット及びＬＡＮなどを含む通信回線２２により互いに通信可能に接続されている。

接続元端末１２は、利用者（ユーザ）が使用する端末であり、例えばパーソナルコンピュータである。また、接続元端末１２としては、タブレット端末などの携帯端末であってもよい。接続元端末１２は、ネットワーク装置１６と通信するため、あるいは、ネットワーク装置１６を介して接続先ホスト１４と通信するための通信インターフェースと、ハードディスク、ＲＯＭ（Read Only Memory）、あるいはＲＡＭ（Random Access Memory）などから構成されるメモリと、液晶表示器などから構成されるディスプレイと、マウスやキーボードあるいはタッチパネルなどから構成される入力インターフェースと、ＣＰＵ（Central Processing Unit）やマイクロコンピュータなどから構成されるプロセッサと、を含む。

接続元端末１２は、マルウェアに感染するおそれがある。マルウェアとは、不正且つ有害に接続元端末１２を動作させる意図で作成された悪意のあるソフトウェアや悪質なコードの総称である。マルウェアは様々な感染経路で接続元端末１２内に侵入し得る。例えば、脅威の有る接続先ホスト１４からマルウェアが接続元端末１２に送り付けられることで接続元端末１２がマルウェアに感染する。あるいは、マルウェアに感染した外部記憶媒体（例えばＵＳＢメモリなど）が接続元端末１２に接続されることで、接続元端末１２がマルウェアに感染する。

接続先ホスト１４は、例えば、１つのサーバ（例えばウェブサーバ）であってよく、通信回線２２を介してアクセスしてきた装置に対して各種データ（例えばウェブページデータなど）を提供するものである。また、バーチャルホストと呼ばれる技術により、１つのサーバにおいて、仮想的に複数の接続先ホスト１４が定義される場合もある。

ネットワーク装置１６は、通信経路において接続元端末１２と接続先ホスト１４との間に介在する装置である。ネットワーク装置１６は、接続元端末１２の要求に応じて、種々の情報要求信号としてのリクエストをＤＮＳサーバ１８に送信する。例えば、ネットワーク装置１６は、接続元端末１２においてユーザが接続先ホスト１４のＵＲＬ（Uniform Resource Locator）を指定した場合（つまり、接続元端末１２から接続先ホスト１４への通信を試みる場合）、当該ＵＲＬに含まれる、接続先ホスト１４を示すドメイン名としてのＦＱＤＮ（Fully Qualified Domain Name；例えば「www.fujixerox.co.jp」など）の名前解決のリクエストをＤＮＳサーバ１８に送信する。また、ネットワーク装置１６は、名前解決の他、例えばＤＮＳサーバ１８に記憶されている種々の情報（例えばＦＱＤＮに関するコメントなど）を取得する際にも、ＤＮＳサーバ１８にリクエストを送信する。

ネットワーク装置１６がＤＮＳサーバ１８に送信するリクエストには、ＤＮＳサーバ１８に要求する情報の種類を示すクエリタイプ（ＤＮＳレコードタイプとも呼ばれる）が含まれる。クエリタイプとしては、これらに限られないが、例えば、ＦＱＤＮのＩＰｖ４形式のＩＰアドレスを示す「Ａ」、ＦＱＤＮのＩＰｖ６形式のＩＰアドレスを示す「ＡＡＡＡ」、ＦＱＤＮの別名（別ドメイン名）を示す「ＣＮＡＭＥ」、ＦＱＤＮに関するコメントなどのテキスト情報を示す「ＴＸＴ」などがある。例えば、あるＦＱＤＮのＩＰｖ４形式のＩＰアドレスを取得する場合、ネットワーク装置１６は、当該ＦＱＤＮとクエリタイプ「Ａ」を含むリクエストをＤＮＳサーバ１８に送信する。

ネットワーク装置１６からＤＮＳサーバ１８にリクエストが送信される度に、当該リクエストの送信履歴を示す通信ログ１６ａがネットワーク装置１６に蓄積記憶される。図２に、１回のリクエストに対応する通信ログ１６ａの例が示されている。通信ログ１６ａには、当該リクエストがＤＮＳサーバ１８に送信された日時を示すリクエスト日時、ネットワーク装置１６に当該リクエストの送信を要求した接続元端末１２のＩＰアドレス、及び、当該リクエストのクエリタイプを示す情報が含まれている。なお、接続元端末１２のＩＰアドレスは、接続元端末１２を一意に識別する識別子として用いられるため、接続元端末１２を一意に識別可能である限りにおいて、接続元端末１２のＩＰアドレスに代えて、他の情報が通信ログ１６ａに含められてもよい。

なお、ネットワーク装置１６は、接続元端末１２が通信回線２２を介して接続先ホスト１４と通信する際におけるセキュリティの担保に関する処理も実行する。例えば、ネットワーク装置１６は、接続先ホスト１４から送られてくるデータ（例えばパケット）を検証し、当該データが不正データ（接続元端末１２に不当な悪影響を生じさせる、あるいはその可能性があるデータ）であると判断した際に、接続元端末１２と接続先ホスト１４との間の通信を遮断するファイアウォールあるいはＩＤＳ（Intrusion Prevention System；侵入検知システム）を備えている。

本実施形態では、ネットワーク装置１６は、複数の接続元端末１２に接続され、各接続元端末１２からの要求に応じた、ＤＮＳサーバ１８へのリクエストの送信、及び、各接続元端末１２と接続先ホスト１４との間の通信におけるセキュリティの担保に関する処理を実行する。

ＤＮＳサーバ１８は、ネットワーク装置１６などの種々の装置からのリクエストに応じて、種々の情報を送信する装置である。特に、ＤＮＳサーバ１８は、ドメイン名とＩＰアドレスの相互変換処理を行う装置である。ＤＮＳサーバ１８は、ネットワーク装置１６からリクエストを受信すると、当該リクエストに含まれるクエリタイプに応じた情報をネットワーク装置１６に送信する。

例えば、ＤＮＳサーバ１８は、ネットワーク装置１６から、接続元端末１２が指定した接続先ホスト１４のＦＱＤＮとクエリタイプ「Ａ」を含むリクエストを受信すると、当該ＦＱＤＮについて名前解決処理を行い、当該ＦＱＤＮが示す接続先ホスト１４のＩＰｖ４形式のＩＰアドレスを特定する。本実施形態におけるＤＮＳサーバ１８は、いわゆるフルサービスリゾルバであり、１又は複数のネームサーバ（不図示）との協働により名前解決処理を実行する。

ネームサーバは、いわゆる権威サーバであり、それぞれ特定の範囲のドメイン名を管理する装置である。例えば、あるネームサーバは「ｘｘｘ．ｎｅｔ」というドメイン名を管理し、また、他のネームサーバは「ｘｘｘ．ｏｒｇ」というドメイン名を管理する、の如くである。具体的には、ネームサーバは、自装置が管理する範囲のドメイン名に関する情報を含むゾーンファイルと呼ばれるファイルを有しており、当該ゾーンファイルを参照することで、自装置が管理しているドメイン名の範囲を把握する。

ＤＮＳサーバ１８は、ネットワーク装置１６から受信したＦＱＤＮを複数のネームサーバに送信する。ＦＱＤＮを受信した複数のネームサーバのうち、当該ＦＱＤＮを管理しているネームサーバは、自装置のゾーンファイルを参照して当該ＦＱＤＮに対応するＩＰアドレスを特定し、特定したＩＰアドレスをＤＮＳサーバ１８に送信する。そして、ＤＮＳサーバ１８は、ネームサーバから受信したＩＰアドレス（すなわち接続先ホスト１４のＩＰアドレス）をネットワーク装置１６に送信する。

なお、ＤＮＳサーバ１８と、少なくとも一部のネームサーバとが一体となっていてもよい。その場合、ＤＮＳサーバ１８自体が、ある範囲のドメイン名を管理することになり、すなわち、ある範囲のドメイン名の情報を含むゾーンファイルをＤＮＳサーバ１８が有することになる。

接続先ホスト１４のＩＰアドレスをＤＮＳサーバ１８から受信したネットワーク装置１６は、当該ＩＰアドレスに基づいて接続先ホスト１４にアクセス可能となる。

ＤＮＳサーバ１８（及びネームサーバ）は、ドメイン名とＩＰアドレスとの対応関係の他、種々の情報を有している。例えば、各ドメイン名の別名、あるいは、各ドメイン名に付されたテキスト情報などの情報を有している。ネットワーク装置１６は、接続元端末１２からの要求に応じて、リクエストに含まれるクエリタイプを設定することで、ＤＮＳサーバ１８から所望の情報を取得することができる。

セキュリティサーバ２０は、サーバコンピュータなどから構成される。セキュリティサーバ２０は、接続元端末１２からの不正通信を検出する。すなわち、セキュリティサーバ２０は、マルウェアに感染した接続元端末１２からの、当該接続元端末１２の利用者の意に反する接続先ホスト１４への通信を検出する。セキュリティサーバ２０が不正通信を検出した場合、当該不正通信を行おうとした接続元端末１２はマルウェアに感染しているということができる。したがって、セキュリティサーバ２０は、接続元端末１２がマルウェアに感染しているか否かを検出するということもできる。

図３は、セキュリティサーバ２０の構成概略図である。以下、図３を参照しながら、セキュリティサーバ２０の各部について説明する。

通信インターフェース３０は、例えばネットワークアダプタなどを含んで構成される。通信インターフェース３０は、通信回線２２を介して他の装置（例えばネットワーク装置１６など）と通信する機能を発揮する。

メモリ３２は、例えばハードディスク、ＳＳＤ（Solid State Drive）、ＲＯＭ、あるいはＲＡＭなどを含んで構成されている。メモリ３２は、後述のプロセッサ３６とは別に設けられてもよいし、少なくとも一部がプロセッサ３６の内部に設けられていてもよい。メモリ３２には、セキュリティサーバ２０の各部を動作させるための情報処理プログラムが記憶される。また、図３に示す通り、メモリ３２には学習器３４が記憶される。

学習器３４は、例えばＲＮＮ（Recurrent Neural Network；リカレントニューラルネットワーク）などのニューラルネットワークモデルによって構成される。図４に、本実施形態における学習器３４のモデルが示されている。本実施形態では、学習器３４として、ＲＮＮを拡張したＬＳＴＭ（Long Short-Term Memory）３４ａを含んで構成される。ＬＳＴＭ３４ａには、順番に並ぶ複数の入力データが順次入力される。ＬＳＴＭ３４ａは、前の入力データに対する出力が、次の入力データと共に自らに入力される。これにより、ＬＳＴＭ３４ａは、前の入力データの特徴を考慮して次の入力データを出力することができる。このような学習器３４は、再帰型ニューラルネットワークとも呼ばれる。なお、学習器３４の実体は、学習器３４の構造を定義するプログラム、学習器３４に関する各種パラメータ、及び、入力データに対して処理を行うための処理実行プログラムなどである。したがって、メモリ３２に学習器３４が記憶されるとは、上記プログラムや各種パラメータがメモリ３２に記憶されることを意味する。学習器３４の学習処理の詳細については、後述の学習処理部３８の処理と共に後述する。

プロセッサ３６は、広義的な処理装置を指し、汎用的な処理装置（例えばＣＰＵなど）、及び、専用の処理装置（例えばＧＰＵ（Graphics Processing Unit）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field Programmable Gate Array）、あるいは、プログラマブル論理デバイスなど）の少なくとも１つを含んで構成される。プロセッサ３６としては、１つの処理装置によるものではなく、物理的に離れた位置に存在する複数の処理装置の協働により構成されるものであってもよい。図３に示す通り、プロセッサ３６は、メモリ３２に記憶された情報処理プログラムにより、学習処理部３８、異常検出部４０、及び異常対応処理部４２としての機能を発揮する。

学習処理部３８は、ネットワーク装置１６から受信した通信ログ１６ａに基づくデータを学習データとして用いて、学習器３４を学習させる学習処理を行う。

まず、学習処理部３８は、各通信ログ１６ａに含まれる接続元端末１２を識別する情報（本実施形態では接続元端末のＩＰアドレス）に基づいて、通信ログ１６ａを接続元端末１２毎に区別する。そして、接続元端末１２毎に、各通信ログ１６ａに含まれるリクエスト日時に基づいて、対応するリクエストが送信された順番に時系列に通信ログ１６ａを並べる。さらに、時系列に並べられた各通信ログ１６ａからクエリタイプを抽出する。これにより、学習処理部３８は、クエリタイプが（送信された順番で）時系列に並べられた接続元端末１２毎のクエリタイプ列を取得する。図５には、学習処理部３８が取得したクエリタイプ列の例が示されている。

学習処理部３８は、上述のようにして取得した接続元端末１２毎のクエリタイプ列を学習データとして用いて、接続元端末１２毎に学習器３４を学習させる。具体的には、学習処理部３８は、入力されたクエリタイプ列の特徴を出力するように学習器３４を学習させる。なお、接続元端末１２毎に学習器３４を学習させるとは、学習データと共に接続元端末１２を識別する情報を学習器３４に入力するようにしてもよいし、接続元端末１２毎に別個の学習器３４を用意するようにしてもよい。以下においては、特定の１つの接続元端末１２に関する学習器３４を学習させる場合について説明する。なお、本実施形態では、学習器３４はＬＳＴＭ３４ａを含んで構成されるものであり、学習処理は以下に説明するように行われるが、入力されたクエリタイプ列の特徴を出力できる限りにおいて、学習器３４の構造はその他の構造であってもよく、また、学習方法は以下に説明する方法以外の方法であってよい。

クエリタイプ列は、複数のクエリタイプが並べられた１つの列であるため、学習データ数（サンプル数）を増やすために、学習処理部３８は、クエリタイプ列の一部分であって、クエリタイプ列において連続する複数のクエリタイプからなる部分クエリタイプ列を１つの学習データとする。例えば、図６に示すように、クエリタイプ列が「・・・，Ａ，ＡＡＡＡ，Ａ，ＴＸＴ，ＮＳ，Ａ，ＣＮＡＭＥ，ＡＡＡＡ，・・・」である場合、その部分クエリタイプ列である「・・・，Ａ，ＡＡＡＡ，Ａ，ＴＸＴ」を学習データとする。本実施形態では、部分クエリタイプ列の末尾のクエリタイプ（上例では「ＴＸＴ」）を学習データのうちの評価データとし、部分クエリタイプ列の評価データ以外の部分（上例では「・・・，Ａ，ＡＡＡＡ，Ａ」）を学習データのうちの学習用入力データとする。

また、同クエリタイプ列から、図７に示すような学習データを定義することもできる。図７の例では、部分クエリタイプ列「・・・，Ａ，ＡＡＡＡ，Ａ，ＴＸＴ，ＮＳ」が学習データとされており、そのうち、「・・・，Ａ，ＡＡＡＡ，Ａ，ＴＸＴ」が学習用入力データであり、「ＮＳ」が評価データである。

学習器３４は、数値のみを処理することができるため、学習処理部３８は、学習データを数値化する辞書化処理を行う。予め、各クエリタイプに対応する数値を辞書としてメモリ３２に記憶させておき、学習処理部３８は、当該辞書に基づいて学習データを辞書化する。例えば、クエリタイプ「Ａ」を数値「１」に変換し、クエリタイプ「ＡＡＡＡ」を「２」に変換する、の如くである。なお、本明細書においては、理解を容易にするため、学習器３４に直接クエリタイプが入力されるように記載するが、実際には辞書化された数値が学習器３４に入力される。

学習処理部３８は、学習データのうち、学習用入力データを学習器３４に入力する。上述のように、学習器３４はＬＳＴＭ３４ａを含んで構成されるため、ＬＳＴＭ３４ａには、学習用入力データに含まれる複数のクエリタイプが順次入力される。図８には、学習用入力データがＬＳＴＭ３４ａに順次入力される様子が示されている。図８には、理解のため簡単化された例として、学習用入力データが「Ａ，ＡＡＡＡ，Ａ，ＴＸＴ」である例が示されている。まず、学習用入力データの１番目のクエリタイプ「Ａ」がＬＳＴＭ３４ａに入力されると、ＬＳＴＭ３４ａは、クエリタイプ「Ａ」の特徴を出力する。当該出力は隠れ状態ベクトルとも呼ばれる。次いで、学習用入力データの２番目のクエリタイプ「ＡＡＡＡ」がＬＳＴＭ３４ａに入力されると、ＬＳＴＭ３４ａは、１番目のクエリタイプ「Ａ」に対する出力（隠れ状態ベクトル）と、入力されたクエリタイプ「ＡＡＡＡ」の双方を考慮して、隠れ状態ベクトルを出力する。当該隠れ状態ベクトルは、２番目のクエリタイプ「ＡＡＡＡ」の特徴のみならず、１番目のクエリタイプ「Ａ」の特徴を考慮したものとなる。このような処理を繰り返し、学習用入力データの最後のクエリタイプ「ＴＸＴ」がＬＳＴＭ３４ａに入力されると、ＬＳＴＭ３４ａは、それまでに入力されたクエリタイプ「Ａ，ＡＡＡＡ，Ａ」の特徴及び入力されたクエリタイプ「ＴＸＴ」の特徴を考慮して学習器３４の出力として出力する。

本実施形態では、学習器３４は、複数のクエリタイプそれぞれについての、入力された学習用入力データに後続するクエリタイプである確率を数値として出力する。例えば、入力された学習用入力データに後続するクエリタイプが「Ａ」である確率が「０．９５」、「ＡＡＡＡ」である確率が「０．０３」、「ＴＸＴ」である確率が「０．０００００００７」の如くである。

なお、学習器３４が学習用入力データに後続するクエリタイプを予測するには、学習用入力データに所定数以上のクエリタイプが含まれている必要がある。したがって、学習処理部３８は、学習用入力データが所定数以上となるように、クエリタイプ列において学習データを定義する。

学習処理部３８は、学習器３４の出力と、評価データ（すなわち正解データ）との差分に基づいて、学習器３４を学習させる。

学習処理部３８が上述の学習処理を繰り返すことで、学習済みの学習器３４は、入力されたクエリタイプ列に基づいて、当該クエリタイプ列の特徴を出力することができるようになる。本実施形態では、学習済みの学習器３４は、入力された学習用入力データの特徴を考慮し、当該学習用入力データに後続するクエリタイプの確率を出力できるようになる。

正常時、つまり、接続元端末１２がマルウェアに感染していない場合において、接続元端末１２からの要求に応じてＤＮＳサーバ１８に送信される複数のリクエストから取得されるクエリタイプ列は、特定の特徴を有している場合が多い。例えば、ある接続元端末１２に対応するクエリタイプ列は、「Ａ，ＡＡＡＡ，Ａ，ＴＸＴ」のパターンが多い、の如くである。このようなクエリタイプ列の特徴は接続元端末１２によって異なり得る。これは、接続元端末１２を使用するユーザが特定の行動パターンで行動している場合が多いことなどに起因するものである。例えば、ある接続元端末１２を使用するユーザが、複数の接続先ホスト１４に特定の順番でアクセスする傾向がある、あるいは、ある特定の順番でＤＮＳサーバ１８から情報を取得する傾向がある場合、当該接続元端末１２に対応するクエリタイプ列は、当該ユーザの傾向を表すものとなる。つまり、クエリタイプ列の特徴は、接続元端末１２からの通信の特徴を表すものであり、学習器３４は、接続元端末１２からよく行われる通信の特徴を学習していると言える。

上述のように、学習器３４は、学習用入力データと評価データとを含む学習データを用いて学習されている。しかしながら、学習器３４は、接続元端末１２からよく行われる通信の特徴（いわば通信の傾向）を学習しているのであり、学習器３４は、正解となる通信の特徴、つまり、通信の特徴を示す教師データに基づいて学習しているわけではない。その意味において、学習器３４は教師無し学習により学習されていると言える。

学習処理部３８は、通信ログ１６ａに基づいてクエリタイプ列を得る際に、各通信ログ１６ａに含まれるリクエスト日時に基づいて、２つのリクエストの送信間隔が予め定められた所定時間以上である場合、クエリタイプ列において、２つのリクエストそれぞれに含まれるクエリタイプの間に、空白時間を示す要素を挿入するようにしてもよい。換言すれば、ある接続元端末１２からの要求によりネットワーク装置１６がＤＮＳサーバ１８に送信した第１情報要求信号としての第１リクエストの送信時刻と、その後に当該接続元端末１２からの要求によりネットワーク装置１６がＤＮＳサーバ１８に送信した第２情報要求信号としての第２リクエストの送信時刻との間の時間が所定時間以上である場合に、学習処理部３８は、当該接続元端末１２のクエリタイプ列において、第１リクエストに含まれる第１クエリタイプと、第２リクエストに含まれる第２クエリタイプとの間に、空白時間を示す要素（本明細書では「特殊クエリタイプ」と呼ぶ）を挿入するようにしてもよい。

図９に、空白時間を示す特殊クエリタイプ５２が挿入されたクエリタイプ列の例が示されている。特殊クエリタイプ５２が挿入されたことにより、クエリタイプ列が、ネットワーク装置１６からＤＮＳサーバ１８へのリクエストの送信タイミングを示すものとなる。例えば、図９の例では、クエリタイプ「Ａ」と「ＴＸＴ」の後であって、クエリタイプ「ＡＡＡＡ」の前に特殊クエリタイプ５２である「ＢＬＡＮＫ」が挿入されているから、クエリタイプ「Ａ」を含むリクエストと、クエリタイプ「ＴＸＴ」を含むリクエストが連続して送信され、その後、所定時間経過した後に、クエリタイプ「ＡＡＡＡ」を含むリクエストが送信されたことが分かる。

特殊クエリタイプ５２が挿入されたクエリタイプ列を用いて、上述と同様の学習処理にて学習器３４が学習される。そのように学習された学習器３４は、例えば、「・・・，Ａ，ＴＸＴ，ＢＬＡＮＫ，ＡＡＡＡ」というクエリタイプ列が入力された場合、当該クエリタイプ列に後続するクエリタイプとして、特殊クエリタイプ５２である「ＢＬＡＮＫ」を高確率に予測することができる。

図３に戻り、異常検出部４０は、不正通信の検出処理の対象である接続元端末１２についての通信ログ１６ａに基づいて、学習処理部３８と同様の処理により、検出対象となる対象クエリタイプ列を取得する。

異常検出部４０は、取得した対象クエリタイプ列を学習済みの学習器３４に入力することで、当該対象クエリタイプ列に対応する接続元端末１２からの不正通信を検出する。１つの学習器３４が接続元端末１２毎に学習されている場合には、異常検出部４０は、対象クエリタイプと共に、接続元端末１２を識別する情報（本実施形態では接続元端末１２のＩＰアドレス）を学習器３４に入力する。接続元端末１２毎に別個の学習器３４が用意されている場合には、異常検出部４０は、対応する学習器３４に対象クエリタイプ列を入力する。

上述の通り、学習器３４は、接続元端末１２からよく行われる通信の特徴を学習しているので、対象クエリタイプ列を学習器３４に入力することで、学習器３４は、当該対象クエリタイプ列が示す接続元端末１２からの通信の特徴が、学習済みの接続元端末１２からの通信の特徴、いわば、「いつもの」接続元端末１２からの通信の特徴と同じであるのか否かを判定することができる。したがって、異常検出部４０は、対象クエリタイプ列を学習器３４に入力して、対象クエリタイプ列が示す接続元端末１２の通信の特徴が、学習済みの当該接続元端末１２からの通信の特徴（いわば「いつもの」通信の特徴）と異なる場合に、当該接続元端末１２からの通信が不正通信であると擬制する。異常検出部４０がこのような方法で当該接続元端末１２からの不正通信を検出することで、予め不正通信の通信態様を定義したり、不正通信の通信態様を学習したりする必要なく、当該接続元端末１２からの不正通信を検出することができる。

以下、異常検出部４０による処理の詳細を説明する。なお、異常検出部４０も、学習処理部３８同様、対象クエリタイプ列を学習器３４に入力するに先立って、対象クエリタイプ列に含まれる各クエリタイプを数値化する辞書化処理を行う。ここで、異常検出部４０は、対象クエリタイプ列に対応する接続元端末１２の今までの通信ログ１６ａに含まれないクエリタイプは、１つの数値にまとめて変換してもよい。例えば、ある接続元端末１２の今までの通信ログ１６ａに含まれるクエリタイプが「Ａ」、「ＡＡＡＡ」、「ＴＸＴ」、及び「ＣＮＡＭＥ」のみである場合、クエリタイプ「Ａ」、「ＡＡＡＡ」、「ＴＸＴ」、及び「ＣＮＡＭＥ」は、それぞれ異なる数値に変換されるが、その他のクエリタイプ、例えば、「ＮＳ」、「ＤＮＳＫＥＹ」、「ＭＸ」などは、すべて同じ数値に変換される。

異常検出部４０は、まず、取得した対象クエリタイプ列のうち、先頭から所定数以上のクエリタイプからなる部分対象クエリタイプ列を定義し、当該部分対象クエリタイプ列を学習器３４に入力する。

学習器３４は、当該部分対象クエリタイプ列に基づいて、当該部分対象クエリタイプ列に後続するクエリタイプを予測し、各クエリタイプについての、当該部分対象クエリタイプ列に後続するクエリタイプである確率を出力する。そして、異常検出部４０は、学習器３４が出力した各クエリタイプの確率のうち、対象クエリタイプ列において、実際に当該部分対象クエリタイプ列に後続するクエリタイプの確率を、当該部分対象クエリタイプ列に後続するクエリタイプの個別スコアとする。

図１０を参照しつつ、詳しく説明する。図１０には、対象クエリタイプ列「・・・，Ａ，ＡＡＡＡ，Ａ，ＣＮＡＭＥ，ＮＳ，Ａ，ＣＮＡＭＥ，ＡＡＡＡ，・・・」が示されている。異常検出部４０は、まず、対象クエリタイプ列のうち、「・・・，Ａ，ＡＡＡＡ」を部分対象クエリタイプ列とし、これを学習器３４に入力する。学習器３４は、部分対象クエリタイプ列「・・・，Ａ，ＡＡＡＡ」に基づいて、当該部分対象クエリタイプ列に後続するクエリタイプの確率を出力する。図１０に示すように、ここでは、代表的に、当該部分対象クエリタイプ列に後続するクエリタイプが、「Ａ」である確率が「０．９５」であり、「ＡＡＡＡ」である確率が「０．０３」であり、「ＴＸＴ」である確率が「０．０００００００７」であり、「ＣＮＡＭＥ」である確率が「０．０００００４」であるとする。

次いで、異常検出部４０は、対象クエリタイプ列を参照し、入力した部分対象クエリタイプ列「・・・Ａ，ＡＡＡＡ」に実際に後続するクエリタイプを特定する。ここでは、実際の後続クエリタイプとして「Ａ」が特定される。そして、異常検出部４０は、学習器３４が出力した各クエリタイプの確率のうち、特定した実際の後続クエリタイプである「Ａ」の確率である「０．９５」を当該後続クエリタイプの「Ａ」の個別スコアとする。この個別スコアは、値が小さい程、対象クエリタイプ列がより異常である（すなわち当該接続元端末１２のいつもの通信の特徴とはより異なる）ことを示す。

次いで、異常検出部４０は、部分対象クエリタイプ列に、それに後続するクエリタイプを１つ追加する。図１０の例では、部分対象クエリタイプ列が「・・・，Ａ，ＡＡＡＡ，Ａ」となる。学習器３４は、同様に、部分対象クエリタイプ列「・・・，Ａ，ＡＡＡＡ，Ａ」に基づいて、当該部分対象クエリタイプ列に後続するクエリタイプの確率を出力する。図１０に示すように、ここでは、代表的に、当該部分対象クエリタイプ列に後続するクエリタイプが、「Ａ」である確率が「０．０３」であり、「ＡＡＡＡ」である確率が「０．０００００５」であり、「ＴＸＴ」である確率が「０．９３」であり、「ＣＮＡＭＥ」である確率が「０．０００００００２」であるとする。そして、異常検出部４０は、学習器３４が出力した各クエリタイプの確率のうち、入力した部分対象クエリタイプ列「・・・Ａ，ＡＡＡＡ，Ａ」に実際に後続するクエリタイプである「ＣＮＡＭＥ」の確率である「０．０００００００２」を当該後続クエリタイプの「ＣＮＡＭＥ」の個別スコアとする。

その後も異常検出部４０は、部分対象クエリタイプ列に１つずつクエリタイプを追加し、当該部分対象クエリタイプの後続クエリタイプの個別スコアを算出していく。

異常検出部４０は、対象クエリタイプに含まれる各クエリタイプについて算出された個別スコアに基づいて、当該対象クエリタイプが示す接続元端末１２からの通信が不正通信であるか否か、換言すれば、当該接続元端末１２がマルウェアに感染しているか否かを判定する。

個別スコアに基づく接続元端末１２からの不正通信の検出方法としては、種々の方法が考えられるが、本実施形態では、異常検出部４０は、以下の処理によって接続元端末１２からの不正通信を検出する。

まず、異常検出部４０は、対象クエリタイプに含まれる各クエリタイプのうち、予め定められた閾値（例えば０．００００１）以下の個別スコアが算出されたクエリタイプのみを抽出する。そして、通信ログ１６ａを参照し、抽出されたクエリタイプを含むリクエストのリクエスト日時、当該クエリタイプについて算出された個別スコアを含む異常ログを生成する。異常ログには、クエリタイプに対応する接続元端末１２のＩＰアドレスやクエリタイプなどが含まれていてもよい。

次いで、異常検出部４０は、一定時間（例えば１０分間）の枠である時間ウィンドウ毎に、生成した異常ログに含まれる個別スコアに基づく評価スコアを算出する。本実施形態では、異常検出部４０は、パープレキシティ（Perplexity）という尺度に基づいて評価スコアを算出する。具体的には、異常検出部４０は、時間ウィンドウをある期間に設定し、設定された時間ウィンドウ内に含まれる各異常ログ（異常ログに含まれるリクエスト日時が当該時間ウィンドウ内であるもの）に含まれる各個別スコアＰの−ｌｏｇ_２Ｐを計算し、当該時間ウィンドウ内における各個別スコアＰの−ｌｏｇ_２Ｐの平均値を算出する。当該平均値が当該時間ウィンドウの評価スコアとなる。評価スコアが大きい程、対象クエリタイプ列がより異常である（すなわち当該接続元端末１２のいつもの通信の特徴とはより異なる）ことを示す。

異常検出部４０は、時間ウィンドウの設定期間を少しずつ（例えば１分ずつ）ずらしながら、各時間ウィンドウについて上述の評価スコアを算出していく。そして、各時間ウィンドウの評価スコアに基づいて、接続元端末１２からの不正通信を検出する。例えば、ある閾値以上の評価スコアを有する時間ウィンドウが所定回数連続して現れた場合に、接続元端末１２からの通信が不正通信であると判断する。

図１１に示すように、異常検出部４０は、各時間ウィンドウ毎に算出された評価スコアをグラフにして出力するようにしてもよい。図１１のグラフにおいて、横軸は各時間ウィンドウの開始時刻又は終了時刻を表し、縦軸が評価スコアを表す。当該グラフは、例えばネットワーク装置１６の管理者、あるいは、複数の接続元端末１２の管理者などによって閲覧される。これにより、管理者は、接続元端末１２からの通信が不正通信であること、換言すれば、接続元端末１２がマルウェアに感染していることを把握することができる。

学習器３４が、空白時間を示す特殊クエリタイプ５２を含む学習データで学習されている場合は、異常検出部４０は、学習処理部３８の処理と同様の処理により、空白時間を示す特殊クエリタイプを含む対象クエリタイプ列を取得する。空白時間を示す特殊クエリタイプを含むクエリタイプ列を用いて学習した学習器３４に、空白時間を示す特殊クエリタイプを含む対象クエリタイプ列を入力することで、異常検出部４０は、接続元端末１２からの各クエリタイプ（すなわちリクエスト）の送信間隔をも考慮して、接続元端末１２の不正通信を検出することができる。例えば、正常時（マルウェアに感染していない場合）における通信の傾向として、複数のリクエストをそれぞれ所定時間以上の間隔を開けてＤＮＳサーバ１８に送信させるような通信の傾向を有する接続元端末１２にマルウェアが感染した場合を考える。この場合、当該マルウェアが正常時における当該接続元端末１２からの通信の傾向を模した場合、あるいは偶々マルウェアによる通信の傾向が正常時の通信の傾向と同じようなパターンであった場合であっても、マルウェアが間隔を開けずに連続して複数のリクエストを送信した場合は、マルウェアによる不正通信から得られる対象クエリタイプ列には、空白時間を示す特殊クエリタイプが含まれないこととなるから、これを不正通信として検出することが可能となる。

再度図３に戻り、異常対応処理部４２は、接続元端末１２からの通信が不正通信であることを異常検出部４０が検出したことに応じて、種々の処理を実行する。例えば、異常対応処理部４２は、ネットワーク装置１６を制御して、当該接続元端末１２からの通信を遮断する。また、当該接続元端末１２に警告を出力させるべく、警告出力指示を当該接続元端末１２に送信する。また、ネットワーク装置１６の管理者、あるいは、複数の接続元端末１２の管理者が使用する管理者端末に対して通知を出力するようにしてもよい。

以上、本発明に係る実施形態を説明したが、本発明は上記実施形態に限られるものではなく、本発明の趣旨を逸脱しない限りにおいて種々の変更が可能である。

例えば、本実施形態では、学習器３４はセキュリティサーバ２０の学習処理部３８により学習されていたが、学習器３４は別の装置において学習され、学習済みの学習器３４がメモリ３２に記憶されてもよい。また、本実施形態では、学習処理部３８、異常検出部４０、及び異常対応処理部４２の機能はセキュリティサーバ２０が有していたが、これらの機能をネットワーク装置１６が有するようにしてもよい。

１０ネットワークシステム、１２接続元端末、１４接続先ホスト、１６ネットワーク装置、１６ａ通信ログ、１８ＤＮＳサーバ、２０セキュリティサーバ、２２通信回線、３０通信インターフェース、３２メモリ、３４学習器、３６プロセッサ、３８学習処理部、４０異常検出部、４２異常対応処理部。

Claims

プロセッサを備え、
前記プロセッサは、
接続元端末の要求に応じてＤＮＳサーバに送信される各情報要求信号に含まれるクエリタイプが時系列に並べられたクエリタイプ列を学習データとして、教師無し学習により前記接続元端末の前記クエリタイプ列の特徴が学習された学習器に、検出処理の対象である前記接続元端末の対象クエリタイプ列を入力することで、前記接続元端末からの不正通信を検出する、
ことを特徴とする情報処理装置。
前記プロセッサは、第１情報要求信号の送信時刻と第２情報要求信号の送信時刻との間の時間が所定時間以上である場合に、前記クエリタイプ列及び前記対象クエリタイプ列において、前記第１情報要求信号に含まれる第１クエリタイプと、前記第２情報要求信号に含まれる第２クエリタイプとの間に、空白時間を示す要素を挿入する、
ことを特徴とする請求項１に記載の情報処理装置。
コンピュータに、
接続元端末の要求に応じてＤＮＳサーバに送信される各情報要求信号に含まれるクエリタイプが時系列に並べられたクエリタイプ列を学習データとして、教師無し学習により前記接続元端末の前記クエリタイプ列の特徴が学習された学習器に、検出処理の対象である前記接続元端末の対象クエリタイプ列を入力することで、前記接続元端末からの不正通信を検出する、
ことを特徴とする情報処理プログラム。