JP7180765B2

JP7180765B2 - 学習装置、判定装置、学習方法、判定方法、学習プログラムおよび判定プログラム

Info

Publication number: JP7180765B2
Application number: JP2021521570A
Authority: JP
Inventors: 駿小出; 大紀千葉
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2019-05-24
Filing date: 2019-05-24
Publication date: 2022-11-30
Anticipated expiration: 2039-05-24
Also published as: EP3964987A1; WO2020240637A1; JPWO2020240637A1; US20220237238A1; US12079285B2; EP3964987A4

Description

本発明は、学習装置、判定装置、学習方法、判定方法、学習プログラムおよび判定プログラムに関する。

従来、悪意のあるソフトウェアの総称であるマルウェアの配布や個人情報の窃取のためにサイバー攻撃者はＷｅｂページを用意する。そのＷｅｂページでは、Ｗｅｂブラウザやプラグインの脆弱性を狙った攻撃であるドライブ・バイ・ダウンロード（Drive-By Download：ＤＢＤ）攻撃が行われる。また、アクセスしたユーザを心理的に誘導して自らマルウェアをダウンロードさせたり、個人情報を入力させたりするソーシャルエンジニアリング（Social Engineering：ＳＥ）攻撃が発生することもある。

ＤＢＤ攻撃を発生するＷｅｂページを分析するために脆弱性を内包するおとりのシステムであるＷｅｂクライアント型ハニーポットを使用する方法がある。Ｗｅｂクライアント型ハニーポットは、ＷｅｂページにアクセスしてＤＢＤ攻撃の発生を判定し、そのＷｅｂページのＵＲＬ（Uniform Resource Locator）、ドメイン名、ＩＰアドレスを代表とする通信先情報をブラックリストとして設定する。ファイアウォールや侵入検知システムを代表とするセキュリティ装置はそのブラックリストに対するＷｅｂアクセスを遮断することでユーザのマルウェア感染を防ぐ。

ＳＥ攻撃は、ユーザに偽のマルウェア感染や偽の懸賞当選を代表とする虚偽の情報を与え、心理的にＷｅｂページへのアクセスを誘導することで攻撃を成功させる。ＳＥ攻撃を発生するＷｅｂページを判定する方法として、Ｗｅｂページの視覚的情報やＷｅｂページが読み込む外部の通信リクエストの情報を抽出し、既知のＳＥ攻撃に利用されたＷｅｂページの情報と比較する方法がある。ＳＥ攻撃を発生するＷｅｂページと判定された場合、ＤＢＤ攻撃の対策と同様に、通信先情報をブラックリストとしてユーザのＷｅｂアクセスを遮断する方法が存在する。

ＳＥ攻撃を判定する既存の方法として、例えば、Ｗｅｂブラウザを自動操作してＷｅｂページを巡回し、判定対象の単一のＷｅｂページから特徴量を抽出して悪性判定を行う方法が知られている（例えば、非特許文献１、２参照）。それらの方法は、ＳＥ攻撃に含まれる攻撃種別であるテクニカルサポート詐欺やサーベイ詐欺を対象として巡回と検出を行うことに特化している。つまり、各攻撃種別に固有の特徴を用いて巡回先の決定と攻撃検出を行っている。

A. Kharraz, W. Robertson, and E. Kirda, "Surveylance: Automatically Detecting Online Survey Scams," Proc. - IEEE Symp. Secur. Priv., vol.2018-May, pp.70-86, 2018. B. Srinivasan, A. Kountouras, N. Miramirkhani, M. Alam, N. Nikiforakis, M. Antonakakis, and M. Ahamad, "Exposing Search and Advertisement Abuse Tactics and Infrastructure of Technical Support Scammers," Proceedings of the 2018 World Wide Web Conference on World Wide Web - WWW ’18, pp.319-328, 2018.

上述したＳＥ攻撃を判定する既存の方法では、Ｗｅｂブラウザを用いてＷｅｂページを巡回し、判定対象の単一のＷｅｂページから特徴量を抽出して悪性判定を行う。しかし、それらの方法は２つの問題がある。１つ目の問題は、既存の方法は、ＳＥ攻撃の１種であるテクニカルサポート詐欺やサーベイ詐欺など特定の攻撃種別に固有の特徴を用いて判定を行うため、判定対象の攻撃種別が限定されるということである。２つ目の問題は、既存の方法は、判定対象の単一のＷｅｂページから抽出される情報のみを使用しており、そのＷｅｂページに到達するまでに経由したＷｅｂページの情報や、経路上のユーザのブラウザ操作やＷｅｂブラウザで発生したイベントなどＳＥ攻撃に特有の情報を考慮していないため、誤検知が発生する場合があるということである。

本発明は、上記に鑑みてなされたものであって、Ｗｅｂブラウザを用いてＷｅｂページのログ情報を用いて、攻撃種別に限定されないＳＥ攻撃の判定を行い、さらに誤検知を削減することを目的とする。

上述した課題を解決し、目的を達成するために、本発明の学習装置は、Ｗｅｂブラウザを用いて、起点のＷｅｂページから一つ以上のＷｅｂページを巡回し、終点のＷｅｂページに到達するまでにＷｅｂブラウザから取得したログ情報の入力を受け付ける入力部と、前記ログ情報に含まれる各Ｗｅｂページの特徴量、終点のＷｅｂページに到達するまでの経路上においてＷｅｂブラウザで行われた操作に関する特徴量、および、終点のＷｅｂページに到達するまでの経路上で発生したイベントに関する特徴量のうち、いずれか一つまたは複数の特徴量を訓練データとして用いて、訓練モデルを生成する学習部とを有することを特徴とする。

また、本発明の判定装置は、Ｗｅｂブラウザを用いて、起点のＷｅｂページから一つ以上のＷｅｂページを巡回し、終点のＷｅｂページに到達するまでにＷｅｂブラウザから取得したログ情報の入力を受け付ける入力部と、前記ログ情報に含まれる各Ｗｅｂページの特徴量、終点のＷｅｂページに到達するまでの経路上においてＷｅｂブラウザで行われた操作に関する特徴量、および、終点のＷｅｂページに到達するまでの経路上で発生したイベントに関する特徴量のうち、いずれか一つまたは複数の特徴量を入力データとして、予め学習された訓練モデルに入力し、前記訓練モデルの出力結果に応じて前記終点のＷｅｂページが悪性であるか判定する判定部とを有することを特徴とする。

本発明によれば、本発明によれば、Ｗｅｂブラウザを用いてＷｅｂページを巡回したときのログ情報を用いて、ＳＥ攻撃の個々の攻撃種別に限定されずにＳＥ攻撃が発生するＷｅｂページを精度良く判定することができるという効果を奏する。

図１は、実施の形態における判定システムの構成の一例を示す図である。図２は、図１に示す学習装置の構成の一例を示す図である。図３は、図１に示す判定装置の構成の一例を示す図である。図４は、Ｗｅｂブラウザを用いてＷｅｂページにアクセスした際に発生するＷｅｂページ遷移の一例を示す図である。図５は、ログ情報の構成の一例を示す図である。図６は、図５に示すログ情報の構成要素の一つである通信ログの構成の一例を示す図である。図７は、図５に示すログ情報の構成要素の一つであるＷｅｂブラウザ操作ログの構成の一例を示す図である。図８は、図５に示すログ情報の構成要素の一つであるＷｅｂブラウザイベントログの構成の一例を示す図である。図９は、画像的特徴量の一例を示す図である。図１０は、文書的特徴量の一例を示す図である。図１１は、構造的特徴量の一例を示す図である。図１２は、ブラウザ操作特徴量の一例を示す図である。図１３は、ブラウザイベント特徴量の一例を示す図である。図１４は、判定対象データの一例を示す図である。図１５は、判定結果の一例を示す図である。図１６は、訓練モデル生成処理のフローチャートを示す図である。図１７は、判定処理のフローチャートを示す図である。図１８は、プログラムが実行されることにより、学習装置または判定装置が実現されるコンピュータの一例を示す図である。

以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施の形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。

［実施の形態］
本発明の実施の形態について説明する。図１は、実施の形態における判定システムの構成の一例を示す図である。

図１に示すように、実施の形態に係る判定システム１は、学習装置１０と、判定装置２０とを有する。学習装置１０と判定装置２０とは、ネットワークＮを介して互いに接続する。また、学習装置１０および判定装置２０は、ネットワークＮを介して、外部装置（不図示）と接続してもよい。

学習装置１０は、Ｗｅｂページが悪性であるか判定するための訓練モデルを生成する。具体的には、学習装置１０は、Ｗｅｂブラウザを用いて、起点のＷｅｂページから一つ以上のＷｅｂページを巡回し、終点のＷｅｂページに到達するまでにＷｅｂブラウザから取得したログ情報の入力を受け付ける。そして、学習装置１０は、ログ情報に含まれる各Ｗｅｂページの特徴量、終点のＷｅｂページに到達するまでの経路上においてＷｅｂブラウザで行われた操作に関する特徴量、および、終点のＷｅｂページに到達するまでの経路上で発生したイベントに関する特徴量のうち、いずれか一つまたは複数の特徴量を訓練データとして用いて、訓練モデルを生成する。

判定装置２０は、学習装置１０によって生成された訓練モデルを受信し、訓練モデルを用いて、Ｗｅｂページが悪性であるか判定する。具体的には、判定装置２０は、Ｗｅｂブラウザを用いて、起点のＷｅｂページから一つ以上のＷｅｂページを巡回し、終点のＷｅｂページに到達するまでにＷｅｂブラウザから取得したログ情報の入力を受け付ける。そして、判定装置２０は、ログ情報に含まれる各Ｗｅｂページの特徴量、終点のＷｅｂページに到達するまでの経路上においてＷｅｂブラウザで行われた操作に関する特徴量、および、終点のＷｅｂページに到達するまでの経路上で発生したイベントに関する特徴量のうち、いずれか一つまたは複数の特徴量を入力データとして、予め学習された訓練モデルに入力し、訓練モデルの出力結果に応じて終点のＷｅｂページが悪性であるか判定する。

［学習装置および判定装置の構成］
次に、学習装置１０の構成について説明する。図２は、図１に示す学習装置１０の構成の一例を示す図である。図２に示す学習装置１０は、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）、ＣＰＵ（Central Processing Unit）等を含むコンピュータ等に所定のプログラムが読み込まれて、ＣＰＵが所定のプログラムを実行することで実現される。また、学習装置１０は、ＮＩＣ（Network Interface Card）等を有し、ＬＡＮ（Local Area Network）やインターネットなどの電気通信回線を介した他の装置との間の通信を行うことも可能である。

学習装置１０は、ログ情報入力部１１、画像的特徴量抽出部１２、文書的特徴量抽出部１３、構造的特徴量抽出部１４、Ｗｅｂブラウザ操作特徴量抽出部１５、Ｗｅｂブラウザイベント特徴量抽出部１６、学習部１７および記憶部１８を有する。

次に、判定装置２０の構成について説明する。図３は、図１に示す判定装置２０の構成の一例を示す図である。図３に示す判定装置２０は、ＲＯＭ、ＲＡＭ、ＣＰＵ等を含むコンピュータ等に所定のプログラムが読み込まれて、ＣＰＵが所定のプログラムを実行することで実現される。また、判定装置２０は、ＮＩＣ等を有し、ＬＡＮやインターネットなどの電気通信回線を介した他の装置との間の通信を行うことも可能である。

判定装置２０は、ログ情報入力部２１、画像的特徴量抽出部２２、文書的特徴量抽出部２３、構造的特徴量抽出部２４、Ｗｅｂブラウザ操作特徴量抽出部２５、Ｗｅｂブラウザイベント特徴量抽出部２６、判定部２７、出力部２８および記憶部２９を有する。

以下に学習装置１０の各部について説明する。ログ情報入力部１１は、Ｗｅｂブラウザを用いて、起点のＷｅｂページから一つ以上のＷｅｂページを巡回し、終点のＷｅｂページに到達するまでにＷｅｂブラウザから取得したログ情報の入力を受け付ける。

例えば、ログ情報入力部１１は、既知の良性データと既知の悪性データとを入力する。既知の悪性のデータとは、最後に到達したＷｅｂページからマルウェアがダウンロードされたり個人情報窃取などの攻撃が行われた既知の悪性のログ情報から抽出されたデータである。また、既知の良性のデータとは、遷移したＷｅｂページのすべてで攻撃が行われなかった既知の良性のログ情報から抽出されたデータである。

ログ情報とは、ＷｅｂブラウザによってWebページにアクセスした際にＷｅｂブラウザから取得できるログである。図４に示すように、Ｗｅｂページにアクセスし、ブラウザ操作を行った結果、新たなＷｅｂページに遷移する場合がある。

ログ情報入力部１１が取得するログ情報は、１つ以上のＷｅｂページと、そのＷｅｂページの遷移の順序を保持し、図５に示す項目を構成する。図５は、ログ情報を構成する項目の一例を示す。ログ情報の項目の例は、Ｗｅｂページのスクリーンショット画像、ＨＴＭＬソースコード、Ｗｅｂページに対してブラウザ操作を行いＷｅｂページが遷移したときの通信ログや、ブラウザ操作ログ、ブラウザイベントログである。

図６では通信ログの例を示す。通信ログは、Ｗｅｂページの読み込み時やＷｅｂページ遷移時に発生した通信である。あるＷｅｂページからＷｅｂページが遷移する際に、Ｗｅｂサーバの命令によりＷｅｂページが瞬時に転送される場合がある（Ｗｅｂページリダイレクト）。Ｗｅｂページリダイレクトが発生したときに、その発生回数と通信先を取得する。

図７ではブラウザ操作ログの例を示す。ブラウザ操作ログは、Ｗｅｂページの遷移の原因となったブラウザ操作である。マウス左／右ボタンのクリック、ブラウザの戻るボタンのクリック、クリックしたときのマウス座標（Ｘ、Ｙ）、クリックした対象のＨＴＭＬエレメントのサイズ（高さ、幅）やＨＴＭＬタグの種類を抽出する。

図８ではブラウザイベントログの例を示す。ブラウザイベントとは、ブラウザ操作によって発生したブラウザのイベントである。ファイルダウンロードの発生、アラートダイアログの出現、ブラウザ拡張機能インストール画面の出現、ポップアップウィンドウの出現などをブラウザのイベントとして扱い、それらの発生の有無と通信内容やメッセージ内容を抽出する。

ログ情報について、ユーザがＷｅｂブラウザを手動で操作したときに記録される場合と、ブラウザ操作自動ツールなどによって自動制御されたときに記録される場合がある。ログ情報は、Ｗｅｂブラウザに導入したブラウザ拡張機能や、Ｗｅｂブラウザの開発者用デバッグツールなどを用いることで取得できる。

画像的特徴量抽出部１２は、ログ情報に含まれる各Ｗｅｂページの特徴量として、Ｗｅｂブラウザによって描画されたＷｅｂページの画面の画像データを抽出し、該画像データを特徴点と色の分布に基づく画像情報に変換する。例えば、画像的特徴量抽出部１２は、ログ情報に含まれるＷｅｂページのスクリーンショット画像から画像的特徴量を抽出する。図９は画像的特徴の例を示す。なお、画像的特徴の抽出方法は下記の方法に限らず、画像データをベクトル情報に変換できる任意の方法を用いることができる。また、図９に示すデータの次元数は、出力するデータの次元数が任意に設定できる手法の場合、任意に設定できる。

対象の画像のなかに、ある画素値（明暗）の画素が出現する数（度数）を画素値ごとに計測した分布データをヒストグラムという。画像的特徴量抽出部１２は、画像色ヒストグラムは入力された画像の赤、緑、青ごとに、２５６種類の画素値の度数のヒストグラムを計測し、色ごとの２５６次元のデータを抽出する。

画像的特徴量抽出部１２は、ＯＲＢ、ＫＡＺＥ、ＡＫＡＺＥを代表とする局所特徴量抽出アルゴリズムを利用して画像を分析する。局所特徴量抽出アルゴリズムは、画像内の物体を認識する方法として知られ、ある画像に存在する特徴点を検出することで、画像データを任意の次元（特徴点の数）のベクトル情報に変換することができる。

また、画像的特徴量抽出部１２は、局所特徴量抽出アルゴリズムを用いて画像をベクトルに変換する場合、検出に用いる複数の特徴点を事前に設定しておく必要がある。例えば、複数のＷｅｂページのスクリーンショット画像を予め収集しておき、それらの画像に共通する特徴点を抽出しておく。

文書的特徴量抽出部１３は、Ｗｅｂページの特徴量として、Ｗｅｂページに記載された文字列情報を抽出し、該文字列情報を文書の意味やトピックと単語構成に基づく文書情報に変換する。

例えば、文書的特徴量抽出部１３は、ログ情報に含まれるＷｅｂページのＨＴＭＬソースコードから実際にＷｅｂページ内に表示される文字列を文書データとして抽出し、文書データをベクトル情報に変換する。図１０は文書的特徴の例を示す。なお、文書的特徴の抽出方法は下記の方法に限らず、文書データをベクトル情報に変換できる任意の方法を用いることができる。また、図１０に示すデータの次元数は、出力するデータの次元数が任意に設定できる手法の場合、任意に設定できる。

例えば、文書的特徴量抽出部１３は、Ｗｅｂページ内に表示される文字列を抽出するために、ＨＴＭＬソースコードからＨＴＭＬタグ部分を除去し、残りの文字列を文書データとして抽出する。なお、Ｗｅｂページ内に表示される文字列を抽出する方法は、ＨＴＭＬタグ部分の除去に限らず、任意の方法を用いることができる。文書データをベクトル情報に変換する方法として、既存のトピックモデル手法と統計的文書処理方法を用いる。

トピックモデル手法とは、Doc2VecやLatent Dirichlet Allocation（ＬＤＡ）に代表される、文字列データを文書の潜在的意味を推定してベクトル情報に変換する手法である。統計的文書処理方法とは、Bag-of-wordsやtf-idfに代表される、単語の出現頻度を計測して文書をベクトル情報に変換する手法である。

文書的特徴量抽出部１３が、トピックモデル手法を用いてＷｅｂページから抽出した文書データをベクトル情報に変換する場合、事前に変換のための学習モデルの作成が必要である。例えば、文書的特徴量抽出部１３が、予め複数のＷｅｂページから抽出した文書データを収集しておき、その文書データを用いて学習モデルを作成する。

また、文書的特徴量抽出部１３が、統計的文書処理方法を用いてＷｅｂページから抽出した文書データをベクトル情報に変換する場合、予め変換のための単語設定が必要である。

例えば、文書的特徴量抽出部１３が、予め複数のＷｅｂページから抽出した文書データを収集しておき、その文書データから単語を抽出して、変換のための単語として設定する。

構造的特徴量抽出部１４は、各Ｗｅｂページの特徴量として、Ｗｅｂページのソースコードファイルを抽出し、該ソースコードファイルを構造と統計情報に基づくＨＴＭＬ構造情報に変換する。例えば、構造的特徴量抽出部１４は、ログ情報に含まれるＷｅｂページのＨＴＭＬソースコードをベクトル情報に変換する。

図１１は構造的特徴の例を示す。なお、構造的特徴の抽出方法は下記に限らず、ＨＴＭＬソースコードをベクトル情報に変換できる任意の方法を用いることができる。構造的特徴量抽出部１４は、ＨＴＭＬタグ出現数として、対象のＨＴＭＬソースコードから、予め設定したＨＴＭＬタグごとに出現数を計測する。例えば、構造的特徴量抽出部１４は、予め複数のＷｅｂページからＨＴＭＬソースコードを抽出しておき、それらのＨＴＭＬソースコードに頻出するＨＴＭＬタグを事前に抽出して計測のためのＨＴＭＬタグとして設定する。また、構造的特徴量抽出部１４は、ＨＴＭＬソースコードデータサイズとして、ＨＴＭＬソースコードファイルのデータサイズを抽出する。

Ｗｅｂブラウザ操作特徴量抽出部１５は、操作に関する特徴量として、起点のＷｅｂページから終点のＷｅｂページに到達するまでの経路においてＷｅｂブラウザ上で行われた操作内容の情報と、操作を行った対象のＷｅｂページ箇所の情報を抽出する。

例えば、Ｗｅｂブラウザ操作特徴量抽出部１５は、Ｗｅｂブラウザ操作ログをベクトル情報として抽出する。図１２の例は、ブラウザ操作特徴量の例である。例えば、Ｗｅｂブラウザ操作特徴量抽出部１５は、数値データ以外のブラウザ操作ログの項目はOne hot表現を用いて、数値データに変換する。例えば、Ｗｅｂブラウザ操作特徴量抽出部１５は、クリック対象のＨＴＭＬとして、ａタグ、ｄｉｖタグ、ｉｆｒａｍｅタグの３種類が存在するとき、実際にクリックされたのがａタグだった場合、ａタグに１を設定し、残りのタグに０を設定する。

Ｗｅｂブラウザイベント特徴量抽出部１６は、イベントに関する特徴量として、起点のＷｅｂページから終点のＷｅｂページに到達するまでの経路においてＷｅｂブラウザ上で発生したイベントを抽出する。Ｗｅｂブラウザイベント特徴量抽出部１６は、Ｗｅｂブラウザイベントログや通信ログをベクトル情報として抽出する。図１１の例は、Ｗｅｂブラウザイベントグ特徴量の例である。各ブラウザイベントログと通信ログの項目における発生回数や出現回数を計測する。

学習部１７は、Ｗｅｂページの特徴量、終点のＷｅｂページに到達するまでの経路上においてＷｅｂブラウザで行われた操作に関する特徴量、および、終点のＷｅｂページに到達するまでの経路上で発生したイベントに関する特徴量のうち、いずれか一つまたは複数の特徴量を訓練データとして用いて、訓練モデルを生成する。具体的には、学習部１７は、画像的特徴量抽出部１２、文書的特徴量抽出部１３、構造的特徴量抽出部１４、Ｗｅｂブラウザ操作特徴量抽出部１５およびＷｅｂブラウザイベント特徴量抽出部１６が抽出した特徴量のうち、いずれか一つまたは複数の特徴量を訓練データとして用いて、訓練モデルを生成する。

例えば、学習部１７は、画像的特徴量抽出部１２、文書的特徴量抽出部１３、構造的特徴量抽出部１４、Ｗｅｂブラウザ操作特徴量抽出部１５およびＷｅｂブラウザイベント特徴量抽出部１６が抽出した特徴量のベクトル情報を統合して学習対象データを生成し、二値分類を実施可能な教師あり機械学習手法を用いて訓練モデルの生成を行い、記憶部１８に訓練モデルを記録する。

図１４では、学習対象データとして、Ｗｅｂページ１～３の画像的特徴量と、Ｗｅｂページ１～３の文書的特徴量と、Ｗｅｂページ１～３の構造的特徴量と、Ｗｅｂページ１－２間のＷｅｂブラウザ操作特徴量と、Ｗｅｂページ２－３間のＷｅｂブラウザ操作特徴量と、Ｗｅｂページ１－２間のＷｅｂブラウザイベント特徴量と、Ｗｅｂページ２－３間のＷｅｂブラウザイベント特徴量とを統合した例を示す。なお、特徴量の組み合わせはこれに限らず、入力したログ情報のＷｅｂページの遷移の回数や適用する教師あり機械学習手法に応じて任意の組み合わせを設定することができる。

図１５は、学習部１７によって生成された訓練モデルによる判定結果の例を示す。この例では、３つのＷｅｂページによる２回のＷｅｂページ遷移で構成されるログ情報から抽出した判定対象データを訓練モデルに入力し、悪性または良性の二値に分類する。

また、学習部１７は、二値分類を実施可能な教師あり機械学習手法の例としてサポートベクターマシンやランダムフォレストがあるが、これらに限るものではない。このように、学習装置１０は、既知の良性と悪性のログ情報から特徴量を抽出して訓練データを作成し、教師あり機械学習手法を用いて訓練モデルを生成する。

記憶部１８は、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、光ディスク等の記憶装置である。なお、記憶部１８は、ＲＡＭ（Random Access Memory）、フラッシュメモリ、ＮＶＳＲＡＭ（Non Volatile Static Random Access Memory）等のデータを書き換え可能な半導体メモリであってもよい。記憶部１８は、学習部１７によって生成された訓練モデルを記憶する。

以下に判定装置２０の各部について説明する。ログ情報入力部２１は、Ｗｅｂブラウザを用いて、起点のＷｅｂページから一つ以上のＷｅｂページを巡回し、終点のＷｅｂページに到達するまでにＷｅｂブラウザから取得したログ情報の入力を受け付ける。例えば、ログ情報入力部２１は、ＷｅｂブラウザによってＷｅｂページにアクセスした際に記録した、Ｗｅｂブラウザ操作によってＷｅｂページが遷移したときのログ情報を入力する。ログ情報とは、ＷｅｂブラウザによってＷｅｂページにアクセスした際にＷｅｂブラウザから取得できるログである。

また、判定装置２０における画像的特徴量抽出部２２、文書的特徴量抽出部２３、構造的特徴量抽出部２４、Ｗｅｂブラウザ操作特徴量抽出部２５およびＷｅｂブラウザイベント特徴量抽出部２６は、学習装置１０における画像的特徴量抽出部１２、文書的特徴量抽出部１３、構造的特徴量抽出部１４、Ｗｅｂブラウザ操作特徴量抽出部１５およびＷｅｂブラウザイベント特徴量抽出部１６とそれぞれ同様の処理を行うので、ここでは説明を省略する。

判定部２７は、巡回したＷｅｂページの特徴量、終点のＷｅｂページに到達するまでの経路上においてＷｅｂブラウザで行われた操作に関する特徴量、および、終点のＷｅｂページに到達するまでの経路上で発生したイベントに関する特徴量のうち、いずれか一つまたは複数の特徴量を入力データとして、予め学習された訓練モデルに入力し、訓練モデルの出力結果に応じて終点のＷｅｂページが悪性であるか判定する。

例えば、判定部２７は、画像的特徴量抽出部２２、文書的特徴量抽出部２３、構造的特徴量抽出部２４、Ｗｅｂブラウザ操作特徴量抽出部２５およびＷｅｂブラウザイベント特徴量抽出部２６が抽出した特徴量のベクトル情報を統合して判定対象データを生成し、記憶部２９の訓練モデルを利用して悪性判定を行う。

図１４は、判定対象データとして、Ｗｅｂページ１～３の画像的特徴量と、Ｗｅｂページ１～３の文書的特徴量と、Ｗｅｂページ１～３の構造的特徴量と、Ｗｅｂページ１－２間のＷｅｂブラウザ操作特徴量と、Ｗｅｂページ２－３間のＷｅｂブラウザ操作特徴量と、Ｗｅｂページ１－２間のＷｅｂブラウザイベント特徴量と、Ｗｅｂページ２－３間のＷｅｂブラウザイベント特徴量とを統合した例を示す。なお、特徴量の組み合わせはこれに限らず、入力したログ情報のＷｅｂページの遷移の回数や適用する教師あり機械学習手法に応じて任意の組み合わせを設定することができる。

図１５は、訓練モデルによる判定結果の例を示す。この例では、判定部２７は、３つのＷｅｂページによる２回のＷｅｂページ遷移で構成されるログ情報から抽出した判定対象データを訓練モデルに入力し、悪性または良性の判定結果を出力し、終点のＷｅｂページが悪性であるか判定する。このように、判定装置２０は、判定対象のログ情報から特徴量を抽出してテストデータを作成し、学習済みの訓練モデルを用いて判定を行う。

出力部２８は、判定部２７によって判定された判定結果を出力する。記憶部２９は、ＨＤＤ、ＳＳＤ、光ディスク等の記憶装置である。なお、記憶部２９は、ＲＡＭ、フラッシュメモリ、ＮＶＳＲＡＭ等のデータを書き換え可能な半導体メモリであってもよい。記憶部２９は、学習装置１０によって生成された訓練モデルを記憶する。

［学習処理および判定処理の処理手順］
次に、実施の形態に係る学習処理および判定処理の処理手順について説明する。図１６は、訓練モデル生成処理のフローチャートを示す図である。図１７は、判定処理のフローチャートを示す図である。

図１６に例示するように、学習装置１０のログ情報入力部１１は、既知の悪性／良性のログ情報を入力する（ステップＳ１０１）。そして、画像的特徴量抽出部１２は、ログ情報に含まれるＷｅｂページのスクリーンショット画像から画像的特徴量の抽出する（ステップＳ１０２）。

続いて、文書的特徴量抽出部１３は、Ｗｅｂページに記載された文字列から文書の意味や構造を文書的特徴量として抽出する（ステップＳ１０３）。そして、構造的特徴量抽出部１４は、Ｗｅｂページのソースコードから構造的特徴量を抽出する（ステップＳ１０４）。

続いて、Ｗｅｂブラウザ操作特徴量抽出部１５は、終点のＷｅｂページに到達するまでにＷｅｂブラウザに対して行った操作情報の特徴量であるＷｅｂブラウザ操作特徴量を抽出する（ステップＳ１０５）。そして、Ｗｅｂブラウザイベント特徴量抽出部１６は、Ｗｅｂページに到達するまでに発生したＷｅｂブラウザイベント情報の特徴量であるＷｅｂブラウザイベント特徴量を抽出する（ステップＳ１０６）。

そして、学習部１７は、画像的特徴量抽出部１２、文書的特徴量抽出部１３、構造的特徴量抽出部１４、Ｗｅｂブラウザ操作特徴量抽出部１５およびＷｅｂブラウザイベント特徴量抽出部１６が抽出した特徴量を統合する（ステップＳ１０７）。そして、学習部１７は、教師あり機械学習アルゴリズムにより訓練モデルを生成する（ステップＳ１０８）。

また、図１７に例示するように、判定装置２０のログ情報入力部２１は、判定対象のログ情報を入力する（ステップＳ２０１）。そして、画像的特徴量抽出部２２は、ログ情報に含まれるＷｅｂページのスクリーンショット画像から画像的特徴量の抽出する（ステップＳ２０２）。

続いて、文書的特徴量抽出部２３は、Ｗｅｂページに記載された文字列から文書の意味や構造を文書的特徴量として抽出する（ステップＳ２０３）。そして、構造的特徴量抽出部２４は、Ｗｅｂページのソースコードから構造的特徴量を抽出する（ステップＳ２０４）。

続いて、Ｗｅｂブラウザ操作特徴量抽出部２５は、終点のＷｅｂページに到達するまでにＷｅｂブラウザに対して行った操作情報の特徴量であるＷｅｂブラウザ操作特徴量を抽出する（ステップＳ２０５）。そして、Ｗｅｂブラウザイベント特徴量抽出部２６は、Ｗｅｂページに到達するまでに発生したＷｅｂブラウザイベント情報の特徴量であるＷｅｂブラウザイベント特徴量を抽出する（ステップＳ２０６）。

そして、判定部２７は、画像的特徴量抽出部２２、文書的特徴量抽出部２３、構造的特徴量抽出部２４、Ｗｅｂブラウザ操作特徴量抽出部２５およびＷｅｂブラウザイベント特徴量抽出部２６が抽出した特徴量を統合する（ステップＳ２０７）。そして、判定部２７は、統合したデータを学習済の訓練モデルに入力することで、訓練モデルよる終点のＷｅｂページが悪性であるか否かを判定する処理を行う（ステップＳ２０８）。

［実施の形態の効果］
このように、実施形態に係る学習装置１０は、Ｗｅｂブラウザを用いて、起点のＷｅｂページから一つ以上のＷｅｂページを巡回し、終点のＷｅｂページに到達するまでにＷｅｂブラウザから取得したログ情報の入力を受け付ける。そして、学習装置１０は、巡回したＷｅｂページの特徴量、終点のＷｅｂページに到達するまでの経路上においてＷｅｂブラウザで行われた操作に関する特徴量、および、終点のＷｅｂページに到達するまでの経路上で発生したイベントに関する特徴量のうち、いずれか一つまたは複数の特徴量を訓練データとして用いて、訓練モデルを生成する。

また、実施形態に係る判定装置２０は、Ｗｅｂブラウザを用いて、起点のＷｅｂページから一つ以上のＷｅｂページを巡回し、終点のＷｅｂページに到達するまでにＷｅｂブラウザから取得したログ情報の入力を受け付ける。判定装置２０は、巡回したＷｅｂページの特徴量、終点のＷｅｂページに到達するまでの経路上においてＷｅｂブラウザで行われた操作に関する特徴量、および、終点のＷｅｂページに到達するまでの経路上で発生したイベントに関する特徴量のうち、いずれか一つまたは複数の特徴量を入力データとして、予め学習された訓練モデルに入力し、訓練モデルの出力結果に応じて終点のＷｅｂページが悪性であるか判定する。

このため、実施形態に係る判定システム１では、Ｗｅｂブラウザを用いてＷｅｂページを巡回したときのログ情報を用いて、ＳＥ攻撃の個々の攻撃種別に限定されずにＳＥ攻撃が発生するＷｅｂページを精度良く判定することが可能である。

［システム構成等］
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、ＣＰＵおよび当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

また、本実施の形態において説明した各処理のうち、自動的におこなわれるものとして説明した処理の全部または一部を手動的におこなうこともでき、あるいは、手動的におこなわれるものとして説明した処理の全部または一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

［プログラム］
図１８は、プログラムが実行されることにより、学習装置１０または判定装置２０が実現されるコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０、ＣＰＵ１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

メモリ１０１０は、ＲＯＭ（Read Only Memory）１０１１及びＲＡＭ１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic Input Output System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１１３０に接続される。

ハードディスクドライブ１０９０は、例えば、ＯＳ（Operating System）１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、学習装置１０または判定装置２０の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、学習装置１０または判定装置２０における機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、ＳＳＤ（Solid State Drive）により代替されてもよい。

また、上述した実施形態の処理で用いられる設定データは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０が、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して実行する。

なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３及びプログラムデータ１０９４は、ネットワーク（ＬＡＮ、ＷＡＮ（Wide Area Network）等）を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３及びプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述及び図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例及び運用技術等は全て本発明の範疇に含まれる。

１判定システム
１０学習装置
１１、２１ログ情報入力部
１２、２２画像的特徴量抽出部
１３、２３文書的特徴量抽出部
１４、２４構造的特徴量抽出部
１５、２５Ｗｅｂブラウザ操作特徴量抽出部
１６、２６Ｗｅｂブラウザイベント特徴量抽出部
１７学習部
１８、２９記憶部
２０判定装置
２７判定部
２８出力部

Claims

Ｗｅｂブラウザを用いて、起点のＷｅｂページから一つ以上のＷｅｂページを巡回し、終点のＷｅｂページに到達するまでにＷｅｂブラウザから取得したログ情報の入力を受け付ける入力部と、
前記ログ情報に含まれる各Ｗｅｂページの特徴量として、前記Ｗｅｂブラウザによって描画されたＷｅｂページの画面の画像データを抽出し、該画像データを特徴点と色の分布に基づく画像情報に変換する画像的特徴量抽出部と、
前記ログ情報に含まれる各Ｗｅｂページの特徴量、終点のＷｅｂページに到達するまでの経路上においてＷｅｂブラウザで行われた操作に関する特徴量、および、終点のＷｅｂページに到達するまでの経路上で発生したイベントに関する特徴量のうち、いずれか一つまたは複数の特徴量を訓練データとして用いて、訓練モデルを生成する学習部と
を有することを特徴とする学習装置。
前記Ｗｅｂページの特徴量として、前記Ｗｅｂページに記載された文字列情報を抽出し、該文字列情報を文書の意味やトピックと単語構成に基づく文書情報に変換する文書的特徴量抽出部をさらに有することを特徴とする請求項１に記載の学習装置。
前記Ｗｅｂページの特徴量として、前記Ｗｅｂページのソースコードファイルを抽出し、該ソースコードファイルを構造と統計情報に基づくＨＴＭＬ構造情報に変換する構造的特徴量抽出部をさらに有することを特徴とする請求項１に記載の学習装置。
前記操作に関する特徴量として、前記起点のＷｅｂページから前記終点のＷｅｂページに到達するまでの経路において前記Ｗｅｂブラウザ上で行われた操作内容の情報と、操作を行った対象のＷｅｂページ箇所の情報を抽出するＷｅｂブラウザ操作特徴量抽出部をさらに有することを特徴とする請求項１に記載の学習装置。
前記イベントに関する特徴量として、前記起点のＷｅｂページから前記終点のＷｅｂページに到達するまでの経路において前記Ｗｅｂブラウザ上で発生したイベントを抽出するＷｅｂブラウザイベント特徴量抽出部をさらに有することを特徴とする請求項１に記載の学習装置。
Ｗｅｂブラウザを用いて、起点のＷｅｂページから一つ以上のＷｅｂページを巡回し、終点のＷｅｂページに到達するまでにＷｅｂブラウザから取得したログ情報の入力を受け付ける入力部と、
前記ログ情報に含まれる各Ｗｅｂページの特徴量として、前記Ｗｅｂブラウザによって描画されたＷｅｂページの画面の画像データを抽出し、該画像データを特徴点と色の分布に基づく画像情報に変換する画像的特徴量抽出部と、
前記ログ情報に含まれる各Ｗｅｂページの特徴量、終点のＷｅｂページに到達するまでの経路上においてＷｅｂブラウザで行われた操作に関する特徴量、および、終点のＷｅｂページに到達するまでの経路上で発生したイベントに関する特徴量のうち、いずれか一つまたは複数の特徴量を入力データとして、予め学習された訓練モデルに入力し、前記訓練モデルの出力結果に応じて前記終点のＷｅｂページが悪性であるか判定する判定部と
を有することを特徴とする判定装置。
学習装置によって実行される学習方法であって、
Ｗｅｂブラウザを用いて、起点のＷｅｂページから一つ以上のＷｅｂページを巡回し、終点のＷｅｂページに到達するまでにＷｅｂブラウザから取得したログ情報の入力を受け付ける入力工程と、
前記ログ情報に含まれる各Ｗｅｂページの特徴量として、前記Ｗｅｂブラウザによって描画されたＷｅｂページの画面の画像データを抽出し、該画像データを特徴点と色の分布に基づく画像情報に変換する画像的特徴量抽出工程と、
前記ログ情報に含まれる各Ｗｅｂページの特徴量、終点のＷｅｂページに到達するまでの経路上においてＷｅｂブラウザで行われた操作に関する特徴量、および、終点のＷｅｂページに到達するまでの経路上で発生したイベントに関する特徴量のうち、いずれか一つまたは複数の特徴量を訓練データとして用いて、訓練モデルを生成する学習工程と
を含むことを特徴とする学習方法。
判定装置によって実行される判定方法であって、
Ｗｅｂブラウザを用いて、起点のＷｅｂページから一つ以上のＷｅｂページを巡回し、終点のＷｅｂページに到達するまでにＷｅｂブラウザから取得したログ情報の入力を受け付ける入力工程と、
前記ログ情報に含まれる各Ｗｅｂページの特徴量として、前記Ｗｅｂブラウザによって描画されたＷｅｂページの画面の画像データを抽出し、該画像データを特徴点と色の分布に基づく画像情報に変換する画像的特徴量抽出工程と、
前記ログ情報に含まれる各Ｗｅｂページの特徴量、終点のＷｅｂページに到達するまでの経路上においてＷｅｂブラウザで行われた操作に関する特徴量、および、終点のＷｅｂページに到達するまでの経路上で発生したイベントに関する特徴量のうち、いずれか一つまたは複数の特徴量を入力データとして、予め学習された訓練モデルに入力し、前記訓練モデルの出力結果に応じて前記終点のＷｅｂページが悪性であるか判定する判定工程と
を含むことを特徴とする判定方法。
Ｗｅｂブラウザを用いて、起点のＷｅｂページから一つ以上のＷｅｂページを巡回し、終点のＷｅｂページに到達するまでにＷｅｂブラウザから取得したログ情報の入力を受け付ける入力ステップと、
前記ログ情報に含まれる各Ｗｅｂページの特徴量として、前記Ｗｅｂブラウザによって描画されたＷｅｂページの画面の画像データを抽出し、該画像データを特徴点と色の分布に基づく画像情報に変換する画像的特徴量抽出ステップと、
前記ログ情報に含まれる各Ｗｅｂページの特徴量、終点のＷｅｂページに到達するまでの経路上においてＷｅｂブラウザで行われた操作に関する特徴量、および、終点のＷｅｂページに到達するまでの経路上で発生したイベントに関する特徴量のうち、いずれか一つまたは複数の特徴量を訓練データとして用いて、訓練モデルを生成する学習ステップと
をコンピュータに実行させることを特徴とする学習プログラム。
Ｗｅｂブラウザを用いて、起点のＷｅｂページから一つ以上のＷｅｂページを巡回し、終点のＷｅｂページに到達するまでにＷｅｂブラウザから取得したログ情報の入力を受け付ける入力ステップと、
前記ログ情報に含まれる各Ｗｅｂページの特徴量として、前記Ｗｅｂブラウザによって描画されたＷｅｂページの画面の画像データを抽出し、該画像データを特徴点と色の分布に基づく画像情報に変換する画像的特徴量抽出ステップと、
前記ログ情報に含まれる各Ｗｅｂページの特徴量、終点のＷｅｂページに到達するまでの経路上においてＷｅｂブラウザで行われた操作に関する特徴量、および、終点のＷｅｂページに到達するまでの経路上で発生したイベントに関する特徴量のうち、いずれか一つまたは複数の特徴量を入力データとして、予め学習された訓練モデルに入力し、前記訓練モデルの出力結果に応じて前記終点のＷｅｂページが悪性であるか判定する判定ステップと
をコンピュータに実行させることを特徴とする判定プログラム。