JP7131704B2

JP7131704B2 - 抽出装置、抽出方法及び抽出プログラム

Info

Publication number: JP7131704B2
Application number: JP2021521639A
Authority: JP
Inventors: 駿小出; 大紀千葉
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2019-05-28
Filing date: 2019-05-28
Publication date: 2022-09-06
Anticipated expiration: 2039-05-28
Also published as: US20220239684A1; EP3964986A4; EP3964986A1; EP3964986B1; JPWO2020240718A1; US12081568B2; WO2020240718A1

Description

本発明は、抽出装置、抽出方法及び抽出プログラムに関する。

悪意のあるソフトウェアの総称であるマルウェアの配布や個人情報の窃取のために、サイバー攻撃者はＷｅｂページを用意する。そのＷｅｂページでは、Ｗｅｂブラウザやプラグインの脆弱性を狙った攻撃であるドライブ・バイ・ダウンロード（Drive-By Download：ＤＢＤ）攻撃が行われる。或いは、そのＷｅｂページでは、アクセスしたユーザを心理的に誘導して自らマルウェアをダウンロードさせ、また、個人情報を入力させるソーシャルエンジニアリング（Social Engineering：ＳＥ）攻撃が発生することもある。

ＤＢＤ攻撃を発生させるＷｅｂページを分析するために、脆弱性を内包するおとりのシステムであるＷｅｂクライアント型ハニーポットを使用する方法がある。Ｗｅｂクライアント型ハニーポットは、ＷｅｂページにアクセスしてＤＢＤ攻撃の発生を判定し、そのＷｅｂページのＵＲＬ（Uniform Resource Locator）、ドメイン名及びＩＰアドレスを代表とする通信先情報を、ブラックリストとして設定する。ファイアウォールや侵入検知システムを代表とするセキュリティ装置は、このブラックリストに対するＷｅｂアクセスを遮断することによって、ユーザのマルウェア感染を防ぐ。

ＳＥ攻撃は、ユーザに偽のマルウェア感染や偽の懸賞当選を代表とする虚偽の情報を与え、心理的にＷｅｂページへのアクセスを誘導することで攻撃を成功させる。ＳＥ攻撃を発生させるＷｅｂページを分析する方法として、実際にＷｅｂブラウザでＷｅｂページにアクセスしてブラウザ操作を行うことでＳＥ攻撃を発生させる方法がある（例えば、非特許文献１参照）。

ここで、ブラウザ操作を行うためには、Ｗｅｂページ上の操作対象を特定する必要がある。一般的に、Ｗｅｂページ上でブラウザ操作を行う際、その操作対象は、ＨＴＭＬ（HyperText Markup Language）エレメントと呼ばれる。以降、ＳＥ攻撃に誘導するＨＴＭＬのエレメント、すなわち、悪性なＷｅｂページに到達するＨＴＭＬのエレメントを、誘導エレメントと呼ぶ。

従来の方法は、アンケート調査の見返りに報奨を与えると騙り、ユーザにマルウェアのインストールや個人情報の入力をさせるＳＥ攻撃の手法の一種であるサーベイ攻撃を対象にした分析手法である。この方法は、サーベイ攻撃につながる誘導エレメントのみを特定する方法であるため、ＳＥ攻撃の分析を行うに際して網羅性の観点で問題がある。

非特許文献１に記載の方法は、攻撃の手法に限定されずに網羅的に誘導エレメントを特定するために、Ｗｅｂページの種類ごとに予め設定したキーワードを用いて誘導エレメントを検出する。Ｗｅｂページの種類とは、Ｗｅｂページの役割や意味ごとにＷｅｂページを分類したものである。Ｗｅｂページの種類として、ファイルのダウンロードを提案するＷｅｂページ、動画をストリーミング再生するＷｅｂページが例として挙げられる。

例えば、ユーザに対してファイルのダウンロードを提案するＷｅｂページでは、ファイルのダウンロードを開始するボタンが誘導エレメントであることが多い。ファイルのダウンロードを開始するボタンとして、例えば、ＨＴＭＬのエレメントの領域内に「Download」と描画されているものや、ＨＴＭＬのエレメントのＨＴＭＬ要素ｉｄに「download-button」と設定されているものがある。

また、動画をストリーミング再生するＷｅｂページでは、動画を再生するボタンが誘導エレメントであることが多い。動画を再生するボタンとして、例えば、ＨＴＭＬテキスト要素に「Play」と設定されているものや、ＨＴＭＬのエレメントのＨＴＭＬ要素ｃｌａｓｓに「video-play」と設定されているといるものがある。

このように、Ｗｅｂページの種類によって誘導エレメントに含まれる文字列は異なる。したがって、誘導エレメントを正しく検出するためには、Ｗｅｂページの種類を判定し、Ｗｅｂページの種類ごとに設定されたキーワードを用いて誘導エレメントを特定する必要がある。

小出駿, 千葉大紀, 高田雄太, 秋山満昭, 八木毅, 波戸邦夫, "ユーザ操作が起点となるＷｅｂ上の攻撃の収集", 信学技報, vol. 117, no. 481, ICSS2017-66, pp. 91-96, 2018年3月.

従来では、解析者が経験的に手動でキーワードを設定していた。また、Ｗｅｂページの種類も、予め解析者が経験的に設定したルールに基づいて判定していた。

非特許文献１に記載の方法は、攻撃手法に限定されずに誘導エレメントを特定できる。しかしながら、非特許文献１に記載の方法は、Ｗｅｂページの種類の判定処理及びキーワードの設定処理が、解析者の経験に依存しているため、解析者の経験が低い場合には、誘導エレメント検出の精度に問題が生じる場合がある。

例えば、解析者の経験が低く誘導エレメントに含まれるキーワードを網羅していない場合には、誘導エレメントの見逃しが生じる場合がある。また、解析者の経験が低く誘導エレメントに含まれないキーワードを設定している場合には、ＳＥ攻撃に到達しないＨＴＭＬのエレメントを誘導エレメントとして誤検出する場合がある。

そもそも、Ｗｅｂページは、世界中に膨大な数があり、その中に使用されている文字列も膨大となる。このため、解析者が、膨大なデータの中から誘導エレメントを特定し、キーワードを見つけることは、実際には難しく、実現できたとしても多大な時間を要する。解析者が実際にキーワードを設定する場合には、サンプルとなるＷｅｂページの数が限定され、実際に有効なキーワードであるかも不明であり、キーワードの設定精度を維持するにも限界がある。

本発明は、上記に鑑みてなされたものであって、悪性なＷｅｂページに到達するＨＴＭＬのエレメントを特徴づけるキーワードを自動的に抽出することができる抽出装置、抽出方法及び抽出プログラムを提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明に係る抽出装置は、ブラウザ操作によって悪性なＷｅｂページに到達することが既知のＨＴＭＬのエレメントと、ブラウザ操作によって良性なＷｅｂページに到達することが既知のＨＴＭＬのエレメントと、を含む複数のＷｅｂページの情報の入力を受け付ける入力部と、入力が受け付けられた複数のＷｅｂページをクラスタごとに分類する分類部と、分類された各クラスタのＷｅｂページから、悪性なＷｅｂページに到達するＨＴＭＬのエレメントと良性なＷｅｂページに到達するＨＴＭＬのエレメントとを抽出し、抽出したＨＴＭＬのエレメントに含まれる第１の文字列を抽出する第１の抽出部と、第１の文字列から、悪性なＷｅｂページに到達するＨＴＭＬのエレメントを特徴づける第２の文字列を、キーワードとして抽出する第２の抽出部と、有することを特徴とする。

また、本発明に係る抽出方法は、ブラウザ操作によって悪性なＷｅｂページに到達することが既知のＨＴＭＬのエレメントと、ブラウザ操作によって良性なＷｅｂページに到達することが既知のＨＴＭＬのエレメントと、を含む複数のＷｅｂページの情報の入力を受け付ける工程と、入力が受け付けられた複数のＷｅｂページをクラスタごとに分類する工程と、分類された各クラスタのＷｅｂページから、悪性なＷｅｂページに到達するＨＴＭＬのエレメントと良性なＷｅｂページに到達するＨＴＭＬのエレメントとを抽出し、抽出したＨＴＭＬのエレメントに含まれる第１の文字列を抽出する工程と、第１の文字列から、悪性なＷｅｂページに到達するＨＴＭＬのエレメントを特徴づける第２の文字列を、キーワードとして抽出する工程と、を含んだことを特徴とする。

また、本発明に係る抽出プログラムは、ブラウザ操作によって悪性なＷｅｂページに到達することが既知のＨＴＭＬのエレメントと、ブラウザ操作によって良性なＷｅｂページに到達することが既知のＨＴＭＬのエレメントと、を含む複数のＷｅｂページの情報の入力を受け付けるステップと、入力が受け付けられた複数のＷｅｂページをクラスタごとに分類するステップと、分類された各クラスタのＷｅｂページから、悪性なＷｅｂページに到達するＨＴＭＬのエレメントと良性なＷｅｂページに到達するＨＴＭＬのエレメントとを抽出し、抽出したＨＴＭＬのエレメントに含まれる第１の文字列を抽出するステップと、第１の文字列から、悪性なＷｅｂページに到達するＨＴＭＬのエレメントを特徴づける第２の文字列を、キーワードとして抽出するステップと、をコンピュータに実行させる。

本発明によれば、悪性なＷｅｂページに到達するＨＴＭＬのエレメントを特徴づけるキーワードを自動的に抽出することができる。

図１は、実施の形態における解析システムの構成の一例を示す図である。図２は、図１に示す抽出装置の構成の一例を示す図である。図３は、Ｗｅｂページの情報の一例を示す図である。図４は、ＨＴＭＬエレメントに対応するＨＴＭＬソースコード部の一例を示す図である。図５は、ＨＴＭＬエレメントに対応する画像領域の一例を示す図である。図６は、図２に示す特徴量抽出部が抽出する特徴量の一例を示す図である。図７は、図２に示す判定部によりクラスタ分類されたＷｅｂページの一例を示す図である。図８は、図２に示すエレメント抽出部が抽出したＨＴＭＬエレメントの一例を示す図である。図９は、図２に示す文字列抽出部が抽出した第１の文字列の例を示す図である。図１０は、図２に示す重要度評価部が重要度を評価した文字列の一例を示す図である。図１１は、図２に示す重要度評価部が抽出したキーワードの一例を示す図である。図１２は、図２に示す抽出装置による抽出処理の流れについて説明する図である。図１３は、実施の形態に係る抽出処理の処理手順を示すフローチャートである。図１４は、プログラムが実行されることにより、抽出装置が実現されるコンピュータの一例を示す図である。

以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施の形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。

［実施の形態］
本発明の実施の形態について説明する。図１は、実施の形態における解析システムの構成の一例を示す図である。

図１に示すように、実施の形態に係る解析システム１は、抽出装置１０と、解析装置２０と、判定装置３０とを有する。解析装置２０は、抽出装置１０及び判定装置３０と接続する。解析装置２０は、ネットワークＮを介して、外部装置（不図示）と接続する。抽出装置１０は、ネットワークＮを介して、外部装置（不図示）と接続してもよい。

抽出装置１０は、悪性Ｗｅｂページに到達することが既知のＨＴＭＬのエレメントと、良性Ｗｅｂページに到達することが既知のＨＴＭＬのエレメントとの双方を含む複数のＷｅｂページの情報から、悪性なＷｅｂページに到達するＨＴＭＬのエレメントである誘導エレメントを特徴づけるキーワードを抽出する。なお、以降、ＨＴＭＬのエレメントを、ＨＴＭＬエレメントと記載する。

解析装置２０は、ユーザ操作を誘導するＷｅｂページのＵＲＬを特定するために、入力されたＷｅｂページを解析する。解析装置２０は、ネットワークＮを介して収集したＷｅｂページに対して能動的に操作を実施して、Ｗｅｂページを介してユーザ操作を誘導する攻撃を観測する。解析装置２０は、抽出装置１０が出力した悪性なＷｅｂページに到達するＨＴＭＬエレメントである誘導エレメントを特徴づけるキーワードを用いて、Ｗｅｂページ上のユーザ操作を誘導する箇所を操作対象として検出し、操作対象や、操作対象に対する操作内容を記録したログデータを、判定装置３０に出力する。

なお、ユーザ操作を誘導する攻撃は、ユーザの興味を引いたり、警告したり、欺いたりすることによって、ユーザの心理的な隙を突き、ユーザ自らにマルウェアをインストールさせる攻撃である。

判定装置３０は、解析装置２０が出力したログデータを参照し、マルウェアや悪性のブラウザ拡張機能を取得するとともに、攻撃に繋がる操作内容や操作対象を特定する。そして、判定装置３０は、解析装置２０が出力したログデータを参照し、ユーザ操作を誘導する攻撃を発生させるＷｅｂページのＵＲＬを判別する。判定装置３０は、判別結果を基にブラックリストを生成する。そして、各セキュリティ装置（不図示）は、このブラックリストに対するＷｅｂアクセスを遮断することによって、ユーザがマルウェアに感染することを防止する。

［抽出装置］
次に、抽出装置１０の構成について説明する。図２は、図１に示す抽出装置１０の構成の一例を示す図である。図２に示す抽出装置１０は、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）、ＣＰＵ（Central Processing Unit）等を含むコンピュータ等に所定のプログラムが読み込まれて、ＣＰＵが所定のプログラムを実行することで実現される。また、抽出装置１０は、ＮＩＣ（Network Interface Card）等を有し、ＬＡＮ（Local Area Network）やインターネットなどの電気通信回線を介した他の装置との間の通信を行うことも可能である。

抽出装置１０は、入力部１１、クラスタ判定部１２（分類部）、エレメント内文字列抽出部１３（第１の抽出部）、キーワード抽出部１４（第２の抽出部）及び出力部１５を有する。

入力部１１は、ブラウザ操作によって悪性なＷｅｂページに到達することが既知のＨＴＭＬエレメントと、ブラウザ操作によって良性なＷｅｂページに到達することが既知のＨＴＭＬエレメントとを含む複数のＷｅｂページの情報の入力を受け付ける。ブラウザ操作は、例えば、Ｗｅｂブラウザに描画されたＷｅｂページ上でマウスポインタを移動してクリックを行うといった操作がある。

図３は、Ｗｅｂページの情報の一例を示す図である。図３に示すように、Ｗｅｂページの情報の項目として、Ｗｅｂページのスクリーンショット画像、ＷｅｂページのＨＴＭＬソースコード、良性なＷｅｂページまたは悪性なＷｅｂページに到達するＨＴＭＬエレメントが考えられる。なお、Ｗｅｂページの情報の項目は、これに限るものではない。

ＨＴＭＬエレメントが持つ情報は、対応するＨＴＭＬソースコード部及び領域のサイズ（高さ、幅）・座標（横、縦）である。図４は、ＨＴＭＬエレメントに対応するＨＴＭＬソースコード部の一例を示す図である。図４では、ＷｅｂページのＨＴＭＬソースコードの一部を例示する。

図４に示すように、一般的なＨＴＭＬエレメントは、開始タグ（例：＜a＞）と終了タグ（例：</a>）とを持ち、それらのタグの間にＨＴＭＬテキスト要素を含む場合がある。ＨＴＭＬエレメントは、開始タグの中にＨＴＭＬ属性（例えば「id」,「class」）を持つことがあり、各ＨＴＭＬ属性に設定された具体的な値（例えば「download-button」）をＨＴＭＬ属性値と呼ぶ。また、ＨＴＭＬエレメントでは、ＨＴＭＬテキスト要素の代わりに別のＨＴＭＬエレメントが入れ子構造となって含まれている場合がある。

図５は、ＨＴＭＬエレメントに対応する画像領域の一例を示す図である。図５に示すように、ＨＴＭＬエレメントに対応する画像領域は、領域のサイズ及び座標を基に、図３に示したＷｅｂページのスクリーンショット画像から画像領域を切り取ることによって抽出される。

このようなＷｅｂページの情報は、解析者がＷｅｂブラウザを用いて手動でＷｅｂページにアクセスし、ブラウザ操作を行って記録される。或いは、Ｗｅｂページの情報は、ブラウザ操作を自動化するソフトウェアを用いてＷｅｂページにアクセスし自動でブラウザ操作を行って記録される。悪性なＷｅｂページに到達したことを確かめる方法として、悪性な通信先情報をまとめたブラックリストを用いて、到達したＷｅｂページのURLやドメイン名といった通信先情報を照合する方法や、到達したＷｅｂページから特徴量を抽出し、機械学習技術を使って悪性判定を行う方法がある。

クラスタ判定部１２は、入力部１１が入力を受け付けた複数のＷｅｂページをクラスタごとに分類する。言い換えると、クラスタ判定部１２は、Ｗｅｂページ情報を入力としてＷｅｂページのクラスタを判定する。悪性Ｗｅｂページに到達するＨＴＭＬエレメントを特徴づけるＨＴＭＬエレメント内のキーワードは、Ｗｅｂページの意味や役割ごとに異なる。クラスタ判定部１２は、Ｗｅｂページの意味や役割に対応したキーワードを設定するために、意味や役割が類似するＷｅｂページを自動で分類する。各クラスタは、例えば、ページの意味や役割を表すように設定されている。クラスタ判定部１２は、特徴量抽出部１２１と判定部１２２とを有する。

特徴量抽出部１２１は、入力部１１が入力を受け付けた複数のＷｅｂページの各Ｗｅｂページを基に、特徴量を抽出する。図６は、図２に示す特徴量抽出部１２１が抽出する特徴量の一例を示す図である。特徴量抽出部１２１は、Ｗｅｂページ情報から、特徴量として、画像的特徴量、文書的特徴量または構造的特徴量を抽出する。

特徴量抽出部１２１は、Ｗｅｂブラウザによって描画されたＷｅｂページの画面の画像データから、視覚的な情報を表す画像情報を、画像情報特徴量として抽出する。特徴量抽出部１２１は、Ｗｅｂページのスクリーンショット画像をベクトル情報に変換可能な画像解析技術を１つまたは複数利用することによって、画像的特徴量を抽出する。特徴量抽出部１２１は、ユーザの心理に影響を与える視覚的なＷｅｂページの特徴を捉えるために、画像的特徴量を抽出する。

なお、画像解析技術として、局所特徴量抽出技術、色ヒストグラム分析が考えられる。局所特徴量抽出技術は、ＯＲＢ、ＫＡＺＥ、ＡＫＡＺＥ等のアルゴリズムを代表とする画像解析技術を利用して画像に存在する特徴点を検出し、画像データを任意の次元のベクトル情報に変換する。色ヒストグラム分析は、画像データの赤、緑、青といった色ごとに画素値（例えば、０～２５５）の度数のヒストグラムを計測し、その画素値の数を次元としてベクトル情報に変換する。

特徴量抽出部１２１は、Ｗｅｂページ内のテキストデータから、文書の意味やトピックを表す文書情報を、文書的特徴量として抽出する。特徴量抽出部１２１は、ＷｅｂページのＨＴＭＬソースコード内に存在する実際にＷｅｂページに表示される文字列である文書データをベクトル情報に変換可能な自然言語処理技術を１つまたは複数利用することによって、文書的特徴量を抽出する。特徴量抽出部１２１は、文章の意味や役割からユーザの心理に影響を与えるＷｅｂページの特徴を捉えるために、文書的特徴量を抽出する。

なお、自然言語処理技術として、Doc2vecやＬＤＡ（Latent Dirichlet Allocation）に代表されるトピックモデル手法や単語の出現頻度を計測するBag-of-words手法が考えられる。トピックモデル手法は、文書データの潜在的意味を推定して任意の次元のベクトル情報に変換する手法である。Bag-of-words手法は、文書データに含まれる単語の出現頻度を計測し、計測に使用する単語の数を次元数としてベクトル情報に変換する手法である。

特徴量抽出部１２１は、Ｗｅｂページのソースコードから、Ｗｅｂページの内部構造を表すＨＴＭＬ構造情報を、構造的特徴量として抽出する。特徴量抽出部１２１は、ＷｅｂページのＨＴＭＬソースコードをベクトル情報に変換可能な統計処理技術を１つまたは複数利用することによって、構造的特徴量を抽出する。特徴量抽出部１２１は、Ｗｅｂページの役割を捉えるために、構造的特徴量を抽出する。特徴量抽出部１２１は、構造的特徴量を抽出するために、ＨＴＭＬタグの出現数の分布を計測する。

なお、構造的特徴量の抽出方法は、これに限るものではない。例えば、特徴量抽出部１２１は、予め計測対象のＨＴＭＬタグを設定しておき、ＨＴＭＬタグごとにＨＴＭＬソースコード内の出現数をカウントすることによって、ＨＴＭＬタグ数を次元とするベクトル情報に変換してもよい。

判定部１２２は、特徴量抽出部１２１が抽出した特徴量の一部または全部を統合する。判定部１２２は、得られた特徴量の一部または全部をクラスタリングするために、特徴量の統合を行っている。そして、判定部１２２は、統合した特徴量を各Ｗｅｂページに対応する入力データとして教師なし学習を適用することで、Ｗｅｂページをクラスタごとに分類する。

言い換えると、判定部１２２は、特徴量抽出部１２１が抽出した特徴量の一部または全部を統合してＷｅｂページの特徴ベクトルとし、Ｗｅｂページの特徴ベクトルに教師なし機械学習技術を適用してＷｅｂページをクラスタごとに分類する。判定部１２２は、特徴量を統合することによって、Ｗｅｂページの意味や役割を捉えるための特徴ベクトルを生成できる。また、判定部１２２は、教師なし機械学習技術を適用することによって、意味や役割が類似するＷｅｂページを自動で分類できる。

判定部１２２は、適切なクラスタ数を自動で設定する教師なし機械学習技術を用い、判定されたクラスタをＷｅｂページのクラスタとする。クラスタ数を自動で設定する教師なし機械学習技術の例として、ＤＢＳＣＡＮ、Ｍｅａｎ－ｓｈｉｆｔ、Ｘ－ｍｅａｎｓといった手法が考えられるが、これらに限るものではない。

図７は、図２に示す判定部１２２によりクラスタ分類されたＷｅｂページの一例を示す図である。例えば、判定部１２２は、「Webページ1」及び「Webページ4」を「クラスタ1」に分類し、「Webページ2」を「クラスタ2」に分類し、「Webページ3」を「クラスタ3」に分類する。

エレメント内文字列抽出部１３は、クラスタ判定部１２が分類した各クラスタのＷｅｂページから、悪性なＷｅｂページに到達するＨＴＭＬエレメントと良性なＷｅｂページに到達するＨＴＭＬエレメントとを抽出する。エレメント内文字列抽出部１３は、抽出したＨＴＭＬエレメントに含まれる第１の文字列を抽出する。言い換えると、エレメント内文字列抽出部１３は、クラスタ判定部１２が分類した各クラスタのＷｅｂページから、Ｗｅｂページ情報を基にＨＴＭＬエレメントを抽出する。そして、エレメント内文字列抽出部１３は、各エレメントからＨＴＭＬテキスト要素、ＨＴＭＬ属性値または画像領域内の文字列を第１の文字列として抽出し、Ｗｅｂページのクラスタごとに分類する。エレメント内文字列抽出部１３は、エレメント抽出部１３１及び文字列抽出部１３２を有する。

エレメント抽出部１３１は、クラスタ判定部１２が分類した各クラスタのＷｅｂページの情報から、悪性なＷｅｂページに到達することが既知のＨＴＭＬエレメントと、良性なＷｅｂページに到達することが既知のＨＴＭＬエレメントとをクラスタごとに抽出する。すなわち、エレメント抽出部１３１は、Ｗｅｂページ情報を基に、良性なＷｅｂページに到達するＨＴＭＬエレメントと、悪性なＷｅｂページに到達するＨＴＭＬエレメントとを抽出する。

図８は、図２に示すエレメント抽出部１３１が抽出したＨＴＭＬエレメントの一例を示す図である。図８に示すように、各ＨＴＭＬエレメントは、元のＷｅｂページのクラスタの識別情報と、そのＨＴＭＬエレメントに対してブラウザ操作を行ったことによって、悪性または良性なＷｅｂページのどちらに到達したかを示す情報とを付加情報として有する。例えば、「HTMLエレメント1」は、元のＷｅｂページが「クラスタ1」に属し、ブラウザ操作を行った場合には悪性なＷｅｂページに到達することが示されている。

文字列抽出部１３２は、エレメント抽出部１３１が抽出したＨＴＭＬエレメントのＨＴＭＬテキスト要素、ＨＴＭＬ属性値または領域内の文字列から、第１の文字列を抽出する。具体的には、文字列抽出部１３２は、エレメント抽出部１３１が抽出したＨＴＭＬエレメントのＨＴＭＬソースコード部と画像領域とから、第１の文字列を抽出する。

文字列抽出部１３２は、ＨＴＭＬソースコード部から、テキスト要素と、予め設定した分析対象のＨＴＭＬ属性値とを抽出する。文字列抽出部１３２は、画像領域からは、既存の光学文字認識技術を用いて領域内に描画された文字列を第１の文字列として抽出する。本実施の形態では、悪性なＷｅｂページに到達するＨＴＭＬエレメントを特徴づけるキーワードを、Ｗｅｂページの各種類に対してＨＴＭＬテキスト要素、ＨＴＭＬ属性値、領域内に描画された文字列ごとに設定することによって、これらのキーワードを含むＨＴＭＬエレメントを、悪性なＷｅｂページに到達するＨＴＭＬエレメントとして特定している。このため、エレメント内文字列抽出部１３は、良性と悪性に分けて、ＨＴＭＬエレメントＷｅｂページ内の各ＨＴＭＬエレメントから文字列を取り出している。

図９は、図２に示す文字列抽出部１３２が抽出した第１の文字列の例を示す図である。図９に示すように、各文字列は、抽出元のＨＴＭＬエレメントの情報に加え、抽出元のＨＴＭＬテキスト要素、ＨＴＭＬ属性または領域内の文字列の付加情報を有する。例えば、第１の文字列である、文字列「Download-button」は、抽出元のＨＴＭＬエレメントが「クラスタ1」に属する「HTMLエレメント1」であり、ＨＴＭＬ属性が「HTML属性1(id)」であり、抽出元のＨＴＭＬエレメントが、ブラウザ操作を行った場合には悪性なＷｅｂページに到達することが示されている。

キーワード抽出部１４は、エレメント内文字列抽出部１３が抽出した第１の文字列から、悪性なＷｅｂページに到達するＨＴＭＬエレメントを特徴づける第２の文字列を、キーワードとして抽出する。キーワード抽出部１４は、抽出した第１の文字列を文書データに統合し、悪性Ｗｅｂページに到達するＨＴＭＬエレメントを特徴づける第２の文字列を、キーワードとして抽出する。キーワード抽出部１４は、文書生成部１４１と重要度評価部１４２とを有する。

文書生成部１４１は、第１の文字列の付加情報を基に、第１の文字列のうち、悪性なＷｅｂページに到達することが既知のＨＴＭＬエレメントに関する文字列を統合して、悪性なＷｅｂページに到達することが既知のＨＴＭＬエレメントに対応付く第１の文書を生成する。文書生成部１４１は、Ｗｅｂページの各クラスタのＨＴＭＬテキスト要素またはＨＴＭＬ属性値ごとに、第１の文書を生成する。

また、文書生成部１４１は、第１の文字列の付加情報を基に、第１の文字列のうち、良性なＷｅｂページに到達することが既知のＨＴＭＬエレメントに関する文字列を統合して、良性なＷｅｂページに到達することが既知のＨＴＭＬエレメントに対応付く第２の文書を生成する。文書生成部１４１は、Ｗｅｂページの各クラスタのＨＴＭＬテキスト要素またはＨＴＭＬ属性値ごとに、第２の文書を生成する。

文書生成部１４１は、第１の文字列を、抽出対象（ＨＴＭＬテキスト要素、ＨＴＭＬ属性、領域内の文字列）、クラスタ、及び、到達するＷｅｂページが良性または悪性、の３つが全て一致する文字列ごとに並べて文書データに統合し、第１または第２の文書を生成する。

重要度評価部１４２は、第１の文書と第２の文書とを比較して第１の文書と第２の文書の各文字列の重要度を評価する。重要度評価部１４２は、重要度を基づいて、Ｗｅｂページの各クラスタの、ＨＴＭＬテキスト要素、ＨＴＭＬ属性値または領域内の文字列ごとに、悪性なＷｅｂページに到達するＨＴＭＬエレメントを特徴づける第２の文字列を、キーワードとして抽出する。

重要度評価部１４２は、抽出対象（ＨＴＭＬテキスト要素、ＨＴＭＬ属性、領域内の文字列）とクラスタが一致する、良性なＷｅｂページまたは悪性なＷｅｂページに到達する２つの文書から、文書を特徴づける単語や文字列を、評価可能な自然言語処理技術を用いて、悪性なＷｅｂページに到達するＨＴＭＬエレメントを特徴づける第２の文字列を抽出する。ここで、自然言語処理技術の例として、ｔｆ－ｉｄｆが考えられる。ただし、自然言語処理技術の手法は、この手法に限るものではない。

ｔｆ－ｉｄｆは、文書内の単語の重要度を評価する手法である。例えば、「クラスタ1」に、ユーザに対してファイルのダウンロードを提案するようなＷｅｂページが多く含まれる場合であって、「クラスタ1」において「download-button」が悪性Ｗｅｂページに到達するＨＴＭＬエレメントのＨＴＭＬ要素idの文書に含まれ、「share-button」や「link-button」が良性Ｗｅｂページに到達するＨＴＭＬエレメントのＨＴＭＬ要素idの文書に含まれる場合を例とする。この場合、重要度評価部１４２は、ｔｆ－ｉｄｆを適用することによって、「download」は重要度の値を高く算出し、良性Ｗｅｂページの文書のみに含まれる「share」、「link」や、悪性と良性Ｗｅｂページの文書の双方に含まれる「button」は重要度の値を低く算出する。

そして、重要度評価部１４２は、予め設定した閾値を上回る重要度をもつ文字列を、この抽出対象（ＨＴＭＬテキスト要素、ＨＴＭＬ属性、領域内の文字列）及びクラスタごとのキーワードとして抽出する。

図１０は、図２に示す重要度評価部１４２が重要度を評価した文字列の一例を示す図である。例えば、重要度の閾値として「0.7」が設定されている場合を例に説明する。この場合、重要度評価部１４２は、重要度が「0.9」である「Download」、及び、重要度が「0.8」である「Click」をキーワードとして抽出する。

図１１は、図２に示す重要度評価部１４２が抽出したキーワードの一例を示す図である。図１１に示すように、各キーワードには、それぞれ抽出対象（ＨＴＭＬテキスト要素、ＨＴＭＬ属性、領域内の文字列）及びクラスタを対応付けられる。

出力部１５は、キーワード抽出部１４が抽出したキーワードを、例えば、解析装置２０に出力する。出力部１５は、キーワード抽出部１４が抽出した各キーワードには、それぞれ抽出対象（ＨＴＭＬテキスト要素、ＨＴＭＬ属性、領域内の文字列）及びクラスタを対応付けて出力する。

［抽出処理の流れ］
次に、抽出装置１０による抽出処理の流れについて説明する。図１２は、図２に示す抽出装置１０による抽出処理の流れについて説明する図である。

図１２に示すように、悪性なＨＴＭＬエレメントと、良性なＨＴＭＬエレメントと、を含む複数のＷｅｂページの情報の入力を受け付けると、クラスタ判定部１２は、各Ｗｅｂページのクラスタを判定して、Ｗｅｂページをクラスタごとに分類する（図１２の（１）参照）。

続いて、エレメント内文字列抽出部１３は、クラスタごとのＷｅｂページから、悪性なＷｅｂページに到達するＨＴＭＬエレメントと良性なＷｅｂページに到達するＨＴＭＬエレメントとを抽出する（図１２の（２）参照）。エレメント内文字列抽出部１３は、各エレメントからＨＴＭＬテキスト要素、ＨＴＭＬ属性値または画像領域内の文字列を抽出し、Ｗｅｂページのクラスタごとに分類する（図１２の（３）参照）。

そして、エレメント内文字列抽出部１３が抽出した文字列から、悪性なＷｅｂページに到達するＨＴＭＬエレメントを特徴づける文字列を、キーワードとして抽出する（図１２の（４）参照）。出力部１５は、キーワード抽出部１４が抽出したキーワードを、例えば、解析装置２０に出力する。

［抽出処理の処理手順］
次に、実施の形態に係る抽出処理の処理手順について説明する。図１３は、実施の形態に係る抽出処理の処理手順を示すフローチャートである。

まず、入力部１１が、悪性なＨＴＭＬエレメントと、良性なＨＴＭＬエレメントと、を含む複数のＷｅｂページの情報の入力を受け付ける（ステップＳ１）。そして、クラスタ判定部１２は、入力部１１が入力を受け付けた複数のＷｅｂページの各Ｗｅｂページを基に特徴量を抽出する（ステップＳ２）。特徴量は、例えば、画像的特徴量、文書的特徴量または構造的特徴量である。クラスタ判定部１２は、ステップＳ２において抽出された特徴量の一部または全部を統合し、統合した特徴量を各Ｗｅｂページに対応する入力データとして教師なし学習を適用することで、各Ｗｅｂページのクラスタを判定して（ステップＳ３）、Ｗｅｂページをクラスタごとに分類する。

エレメント内文字列抽出部１３は、クラスタごとのＷｅｂページから、悪性なＷｅｂページに到達するＨＴＭＬエレメントと良性なＷｅｂページに到達するＨＴＭＬエレメントとを抽出する（ステップＳ４）。エレメント内文字列抽出部１３は、ステップＳ４において抽出された各エレメントのＨＴＭＬテキスト要素、ＨＴＭＬ属性値または画像領域内から、文字列を抽出し（ステップＳ５）、Ｗｅｂページのクラスタごとに分類する。

キーワード抽出部１４は、ステップＳ５において抽出された文字列を、Ｗｅｂページの各クラスタのＨＴＭＬテキスト要素またはＨＴＭＬ属性値ごとに、悪性なＷｅｂページに到達することが既知のＨＴＭＬエレメントに対応付く文書と、良性なＷｅｂページに到達することが既知のＨＴＭＬエレメントに対応付く文書とに統合する（ステップＳ６）。

キーワード抽出部１４は、ステップＳ６において統合された文書内の各文字列の重要度を評価する（ステップＳ７）。そして、キーワード抽出部１４は、予め設定した閾値を上回る重要度をもつ文字列を、悪性なＷｅｂページに到達することが既知のＨＴＭＬエレメントを特徴づける文字列であるキーワードとして抽出し、出力部１５は、このキーワードを出力する（ステップＳ８）。

［実施の形態の効果］
このように、実施の形態に係る抽出装置１０は、ブラウザ操作によって悪性なＷｅｂページに到達することが既知のＨＴＭＬエレメントと、ブラウザ操作によって良性なＷｅｂページに到達することが既知のＨＴＭＬエレメントと、を含む複数のＷｅｂページの情報の入力を受け付けると、複数のＷｅｂページをクラスタごとに分類する。抽出装置１０は、分類したクラスタごとのＷｅｂページから、悪性なＷｅｂページに到達するＨＴＭＬエレメントと良性なＷｅｂページに到達するＨＴＭＬエレメントとを抽出し、抽出したＨＴＭＬエレメントに含まれる文字列を抽出する。続いて、抽出装置１０は、抽出した文字列から、悪性なＷｅｂページに到達するＨＴＭＬエレメントを特徴づける文字列を、キーワードとして抽出する。

本実施の形態の抽出装置１０は、上記の処理を行うことによって、悪性なＷｅｂページに到達するＨＴＭＬエレメントを特徴づけるキーワードを自動的に抽出する。すなわち、実施の形態に係る抽出装置１０は、膨大なデータが対象であっても、悪性なＷｅｂページに到達するＨＴＭＬエレメントを特徴づけるキーワードを適切かつ自動的に抽出することができる。

このため、実施の形態によれば、膨大なデータが対象であっても、悪性なＷｅｂページに到達するＨＴＭＬエレメントを取りこぼすことなく、必要なキーワードを設定することができる。また、実施の形態によれば、悪性なＷｅｂページに到達するＨＴＭＬエレメントに含まれないものからはキーワードを設定しないため、適切にキーワードの設定を行うことができる。

また、解析装置２０は、悪性なＷｅｂページを収集するためにＷｅｂブラウザでＷｅｂページにアクセスして誘導エレメントに対する操作を行う場合、抽出装置１０が抽出したキーワードを用いることによって、悪性なＷｅｂページに到達するＨＴＭＬエレメントを精度よく検出できる。具体的には、解析装置２０は、アクセスしたＷｅｂページを分析して、抽出装置１０が抽出したキーワードが属する複数のクラスタから、Ｗｅｂページに対応する適切なクラスタを選択し、そのクラスタのＨＴＭＬテキスト要素、ＨＴＭＬ属性値または領域内の文字列ごとのキーワードを内包するＨＴＭＬエレメントを検出する。

［システム構成等］
図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部又は任意の一部が、ＣＰＵ及び当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的におこなうこともでき、あるいは、手動的に行なわれるものとして説明した処理の全部又は一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

［プログラム］
図１４は、プログラムが実行されることにより、抽出装置１０が実現されるコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０、ＣＰＵ１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

メモリ１０１０は、ＲＯＭ（Read Only Memory）１０１１及びＲＡＭ１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic Input Output System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１１３０に接続される。

ハードディスクドライブ１０９０は、例えば、ＯＳ（Operating System）１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、抽出装置１０の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、抽出装置１０における機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、ＳＳＤ（Solid State Drive）により代替されてもよい。

また、上述した実施形態の処理で用いられる設定データは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０が、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して実行する。

なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３及びプログラムデータ１０９４は、ネットワーク（ＬＡＮ、ＷＡＮ（Wide Area Network）等）を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３及びプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述及び図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例及び運用技術等は全て本発明の範疇に含まれる。

１解析システム
１１入力部
１２クラスタ判定部
１３エレメント内文字列抽出部
１４キーワード抽出部
１５出力部
２０解析装置
３０判定装置
１２１特徴量抽出部
１２２判定部
１３１エレメント抽出部
１３２文字列抽出部
１４１文書生成部
１４２重要度評価部
Ｎネットワーク
１０抽出装置

Claims

ブラウザ操作によって悪性なＷｅｂページに到達することが既知のＨＴＭＬ（HyperText Markup Language）のエレメントと、ブラウザ操作によって良性なＷｅｂページに到達することが既知のＨＴＭＬのエレメントと、を含む複数のＷｅｂページの情報の入力を受け付ける入力部と、
入力が受け付けられた前記複数のＷｅｂページをクラスタごとに分類する分類部と、
分類された各クラスタのＷｅｂページから、前記悪性なＷｅｂページに到達するＨＴＭＬのエレメントと前記良性なＷｅｂページに到達するＨＴＭＬのエレメントとを抽出し、抽出したＨＴＭＬのエレメントに含まれる第１の文字列を抽出する第１の抽出部と、
前記第１の文字列から、前記悪性なＷｅｂページに到達するＨＴＭＬのエレメントを特徴づける第２の文字列を、キーワードとして抽出する第２の抽出部と、
有することを特徴とする抽出装置。
前記分類部は、前記複数のＷｅｂページを基に、Ｗｅｂブラウザによって描画された前記Ｗｅｂページの画面の画像データから視覚的な情報を表す画像情報を特徴量として抽出し、前記Ｗｅｂページ内のテキストデータから文書の意味やトピックを表す文書情報を特徴量として抽出し、前記Ｗｅｂページのソースコードから前記Ｗｅｂページの内部構造を表すＨＴＭＬ構造情報を特徴量として抽出することを特徴とする請求項１に記載の抽出装置。
前記分類部は、抽出した特徴量の一部または全部を統合し、統合した特徴量を各Ｗｅｂページに対応する入力データとして教師なし学習を適用することで、前記Ｗｅｂページをクラスタごとに分類することを特徴とする請求項２に記載の抽出装置。
前記第１の抽出部は、前記分類部が分類した各クラスタのＷｅｂページの情報から、前記悪性なＷｅｂページに到達することが既知のＨＴＭＬのエレメントと、前記良性なＷｅｂページに到達することが既知のＨＴＭＬのエレメントとをクラスタごとに抽出し、抽出したＨＴＭＬのエレメントのＨＴＭＬテキスト要素、ＨＴＭＬ属性値または領域内の文字列から前記第１の文字列を抽出することを特徴とする請求項１～３のいずれか一つに記載の抽出装置。
前記第２の抽出部は、前記Ｗｅｂページの各クラスタのＨＴＭＬテキスト要素またはＨＴＭＬ属性値ごとに、前記第１の文字列のうち前記悪性なＷｅｂページに到達することが既知のＨＴＭＬのエレメントに関する文字列を統合して第１の文書を生成し、前記第１の文字列のうち前記良性なＷｅｂページに到達することが既知のＨＴＭＬのエレメントに関する文字列を統合して第２の文書を生成し、前記第１の文書と前記第２の文書とを比較して前記第１の文書と前記第２の文書の各文字列の重要度を評価し、前記重要度を基づいて、前記Ｗｅｂページの各クラスタの、ＨＴＭＬテキスト要素、ＨＴＭＬ属性値または領域内の文字列ごとに、前記悪性なＷｅｂページに到達するＨＴＭＬのエレメントを特徴づける第２の文字列を、前記キーワードとして抽出することを特徴とする請求項１～４のいずれか一つに記載の抽出装置。
抽出装置が実行する抽出方法であって、
ブラウザ操作によって悪性なＷｅｂページに到達することが既知のＨＴＭＬ（HyperText Markup Language）のエレメントと、ブラウザ操作によって良性なＷｅｂページに到達することが既知のＨＴＭＬのエレメントと、を含む複数のＷｅｂページの情報の入力を受け付ける工程と、
入力が受け付けられた前記複数のＷｅｂページをクラスタごとに分類する工程と、
分類された各クラスタのＷｅｂページから、前記悪性なＷｅｂページに到達するＨＴＭＬのエレメントと前記良性なＷｅｂページに到達するＨＴＭＬのエレメントとを抽出し、抽出したＨＴＭＬのエレメントに含まれる第１の文字列を抽出する工程と、
前記第１の文字列から、前記悪性なＷｅｂページに到達するＨＴＭＬのエレメントを特徴づける第２の文字列を、キーワードとして抽出する工程と、
を含んだことを特徴とする抽出方法。
ブラウザ操作によって悪性なＷｅｂページに到達することが既知のＨＴＭＬ（HyperText Markup Language）のエレメントと、ブラウザ操作によって良性なＷｅｂページに到達することが既知のＨＴＭＬのエレメントと、を含む複数のＷｅｂページの情報の入力を受け付けるステップと、
入力が受け付けられた前記複数のＷｅｂページをクラスタごとに分類するステップと、
分類された各クラスタのＷｅｂページから、前記悪性なＷｅｂページに到達するＨＴＭＬのエレメントと前記良性なＷｅｂページに到達するＨＴＭＬのエレメントとを抽出し、抽出したＨＴＭＬのエレメントに含まれる第１の文字列を抽出するステップと、
前記第１の文字列から、前記悪性なＷｅｂページに到達するＨＴＭＬのエレメントを特徴づける第２の文字列を、キーワードとして抽出するステップと、
をコンピュータに実行させるための抽出プログラム。