JP6998294B2

JP6998294B2 - 検知装置、検知方法及び検知プログラム

Info

Publication number: JP6998294B2
Application number: JP2018232663A
Authority: JP
Inventors: フンタオトラン; ソンホアンコックグエン; 雪子澤谷; 明山田; 歩窪田
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2018-12-12
Filing date: 2018-12-12
Publication date: 2022-01-18
Anticipated expiration: 2038-12-12
Also published as: JP2020095458A

Description

本発明は、ホモグラフドメインの検知装置、検知方法及び検知プログラムに関する。

従来、ＵＲＬのドメイン名として、正当なサイト（ブランドドメイン）と酷似した文字列（ホモグラフ）を使用して、ユーザをフィッシングサイト等の偽のサイトに誘導するホモグラフ攻撃が知られている。特に、国際化ドメイン名（ＩＤＮ）では、Ｕｎｉｃｏｄｅの他、非ＡＳＣＩＩ文字が使用可能なため、視覚的な区別が非常に困難なホモグラフが用いられる場合がある。

このようなホモグラフ攻撃に対して、非特許文献１では、登録されたドメイン名と人気ドメイン名それぞれとの間の画像類似度に基づいてホモグラフを検出する手法が提案されている。非特許文献２では、ＨＴＭＬコンテンツとスクリーンショットとを分析してホモグラフを検出する手法が提案されている。非特許文献３では、ＡＳＣＩＩ文字毎の類似文字に基づいてホモグラフを検出する手法が提案されている。

Ｂ．Ｌｉｕ，Ｃ．Ｌｕ，Ｚ．Ｌｉ，Ｙ．Ｌｉｕ，Ｈ．Ｄｕａｎ，Ｓ．Ｈａｏ，ａｎｄＺ．Ｚｈａｎｇ， "ＡＲｅｅｘａｍｉｎａｔｉｏｎｏｆＩｎｔｅｒｎａｔｉｏｎａｌｉｚｅｄＤｏｍａｉｎＮａｍｅｓ：ｔｈｅＧｏｏｄ，ｔｈｅＢａｄａｎｄｔｈｅＵｇｌｙ，" ４８ｔｈＡｎｎｕａｌＩＥＥＥ／ＩＦＩＰＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＤｅｐｅｎｄａｂｌｅＳｙｓｔｅｍｓａｎｄＮｅｔｗｏｒｋｓ（ＤＳＮ２０１８）．Ｋ．Ｔｉａｎ，Ｓ．Ｊａｎ，Ｈ．Ｈｕ，Ｄ．Ｙａｏ，ａｎｄＧ．Ｗａｎｇ， "ＮｅｅｄｌｅｉｎａＨａｙｓｔａｃｋ：ＴｒａｃｋｉｎｇＤｏｗｎＥｌｉｔｅＰｈｉｓｈｉｎｇＤｏｍａｉｎｓｉｎｔｈｅＷｉｌｄ，" ＩｎｔｅｒｎｅｔＭｅａｓｕｒｅｍｅｎｔＣｏｎｆｅｒｅｎｃｅ（ＩＭＣ２０１８）．Ｊ．ＡｂａｗａｊｙａｎｄＲ．Ａｇｈｂａｒｉ， "ＳｅｃｕｒｉｎｇＷｅｂｓｉｔｅｓＡｇａｉｎｓｔＨｏｍｏｇｒａｐｈＡｔｔａｃｋｓ，" ＣｏｎｆｅｒｅｎｃｅｏｎＳｅｃｕｒｉｔｙａｎｄＰｒｉｖａｃｙｉｎＣｏｍｍｕｎｉｃａｔｉｏｎＳｙｓｔｅｍｓ（ＳｅｃｕｒｅＣｏｍｍ２０１７）．

しかしながら、非特許文献１及び３では、視覚的な類似性の判定精度が十分ではなく、さらに、ブランドドメインによって自身を保護するために登録されたホモグラフであるか攻撃者により登録されたホモグラフであるかを区別できないといった課題があった。
また、非特許文献２では、コンテンツを解析するために該当のドメインへのアクセスが必要であり、安全性及び効率性に課題があった。

本発明は、攻撃者により登録されたホモグラフドメインを容易に精度良く検知できる検知装置、検知方法及び検知プログラムを提供することを目的とする。

本発明に係る検知装置は、ブランドドメイン及びホモグラフドメインの入力を受け付ける入力部と、ドメイン名を構成する文字毎の画像類似度に基づいて、前記ブランドドメイン及び前記ホモグラフドメインの全体類似度を算出する類似度算出部と、前記ブランドドメイン及び前記ホモグラフドメインの登録者名及び組織名を含む登録情報を取得する登録情報取得部と、前記全体類似度、前記登録者名が同一か否か、及び前記組織名が同一か否かを入力とした学習モデルにより、前記ホモグラフドメインが攻撃者により登録されたものであるか否かを判定する判定部と、を備える。

前記登録情報は、前記ブランドドメイン及び前記ホモグラフドメインの登録日を含み、前記判定部は、前記登録日の前後関係を、さらに前記学習モデルへの入力として、前記ホモグラフドメインが攻撃者により登録されたものであるか否かを判定してもよい。

前記登録情報は、前記ホモグラフドメインの有効期限を含み、前記判定部は、前記ホモグラフドメインの前記登録日から前記有効期限までの日数が所定未満であるか否かを、さらに前記学習モデルへの入力として、前記ホモグラフドメインが攻撃者により登録されたものであるか否かを判定してもよい。

前記検知装置は、前記ブランドドメインへのアクセス頻度のランキングを取得するランキング取得部を備え、前記判定部は、前記ランキングが所定以上であるか否かを、さらに前記学習モデルへの入力として、前記ホモグラフドメインが攻撃者により登録されたものであるか否かを判定してもよい。

前記検知装置は、前記ブランドドメインが提供するコンテンツのカテゴリを取得するカテゴリ取得部を備え、前記判定部は、前記カテゴリが所定のカテゴリ群に含まれるか否かを、さらに前記学習モデルへの入力として、前記ホモグラフドメインが攻撃者により登録されたものであるか否かを判定してもよい。

前記検知装置は、前記ブランドドメイン及び前記ホモグラフドメインのそれぞれを検索キーとしたＷｅｂ検索結果の数を取得する検索情報取得部を備え、前記判定部は、前記Ｗｅｂ検索結果の数の大小関係を、さらに前記学習モデルへの入力として、前記ホモグラフドメインが攻撃者により登録されたものであるか否かを判定してもよい。

本発明に係る検知方法は、ブランドドメイン及びホモグラフドメインの入力を受け付ける入力ステップと、ドメイン名を構成する文字毎の画像類似度に基づいて、前記ブランドドメイン及び前記ホモグラフドメインの全体類似度を算出する類似度算出ステップと、前記ブランドドメイン及び前記ホモグラフドメインの登録者名及び組織名を含む登録情報を取得する登録情報取得ステップと、前記全体類似度、前記登録者名が同一か否か、及び前記組織名が同一か否かを入力とした学習モデルにより、前記ホモグラフドメインが攻撃者により登録されたものであるか否かを判定する判定ステップと、をコンピュータが実行する。

本発明に係る検知プログラムは、ブランドドメイン及びホモグラフドメインの入力を受け付ける入力ステップと、ドメイン名を構成する文字毎の画像類似度に基づいて、前記ブランドドメイン及び前記ホモグラフドメインの全体類似度を算出する類似度算出ステップと、前記ブランドドメイン及び前記ホモグラフドメインの登録者名及び組織名を含む登録情報を取得する登録情報取得ステップと、前記全体類似度、前記登録者名が同一か否か、及び前記組織名が同一か否かを入力とした学習モデルにより、前記ホモグラフドメインが攻撃者により登録されたものであるか否かを判定する判定ステップと、をコンピュータに実行させるためのものである。

本発明によれば、攻撃者により登録されたホモグラフドメインを容易に精度良く検知できる。

実施形態に係る検知装置の機能構成を示す図である。実施形態に係る検知装置が取得する情報の関係を示す図である。実施形態に係る学習モデルによる判定の実験結果を示す図である。

以下、本発明の実施形態の一例について説明する。
図１は、本実施形態に係る検知装置１の機能構成を示す図である。
検知装置１は、サーバ装置又はパーソナルコンピュータ等の情報処理装置（コンピュータ）であり、制御部１０及び記憶部２０の他、各種データの入出力デバイス及び通信デバイス等を備える。

制御部１０は、検知装置１の全体を制御する部分であり、記憶部２０に記憶された各種プログラムを適宜読み出して実行することにより、本実施形態における各機能を実現する。制御部１０は、ＣＰＵであってよい。

記憶部２０は、ハードウェア群を検知装置１として機能させるための各種プログラム、及び各種データ等の記憶領域であり、ＲＯＭ、ＲＡＭ、フラッシュメモリ又はハードディスク（ＨＤＤ）等であってよい。具体的には、記憶部２０は、本実施形態の各機能を制御部１０に実行させるためのプログラム（検知プログラム）及び学習モデル２１等を記憶する。

制御部１０は、入力部１１と、類似度算出部１２と、登録情報取得部１３と、ランキング取得部１４と、カテゴリ取得部１５と、検索情報取得部１６と、学習部１７と、判定部１８とを備える。制御部１０は、これらの機能部により、ホモグラフドメインを識別する学習モデル２１を生成し、攻撃者が登録したホモグラフドメインを検知する。

入力部１１は、学習モデル２１の訓練データ、又は学習モデル２１による識別対象として、ブランドドメイン及びホモグラフドメインの組み合わせの入力を受け付ける。

類似度算出部１２は、入力されたドメイン名を構成する文字毎の画像類似度に基づいて、ブランドドメイン及びホモグラフドメインの全体類似度を算出する。
画像類似度には、例えば、構造的類似性（ＳＳＩＭ）と呼ばれる指標が用いられてよい。画像ｘとｙとのＳＳＩＭは、「ＳＳＩＭ（ｘ，ｙ）＝（２μ_ｘμ_ｙ＋ｃ_１）（２σ_ｘｙ＋ｃ_２）／（μ_ｘ ^２＋μ_ｙ ^２＋ｃ_１）（σ_ｘ ^２＋σ_ｙ ^２＋ｃ_２）」と定義される。
ここで、μ_ｘ及びμ_ｙは、それぞれｘ及びｙの画素値の平均であり、σ_ｘ ^２及びσ_ｙ ^２は、それぞれｘ及びｙの画素値の分散を、σ_ｘｙは、共分散を示す。また、ｃ_１＝（ｋ_１Ｌ）^２及びｃ_２＝（ｋ_２Ｌ）^２は、画素値のダイナミックレンジＬに応じた定数であり、例えば、ｃ_１＝（０．０１×（２^８－１））^２及びｃ_２＝（０．０３×（２^８－１））^２が用いられる。

類似度算出部１２は、例えば、「ａｂ．ｊｐ」と「ｘｙ．ｖｎ」との類似度を算出する場合、「ａ」と「ｘ」との画像類似度、「ｂ」と「ｙ」との画像類似度、「ｊ」と「ｖ」との画像類似度、「ｐ」と「ｎ」との画像類似度をそれぞれ算出し、これらを統計処理（例えば、平均）して全体類似度を算出する。
なお、全体類似度は、画像類似度の平均値であってよいが、これには限られず、例えば分散、最大値又は中央値等が用いられてもよい。

登録情報取得部１３は、ブランドドメイン及びホモグラフドメインの登録者名及び組織名を含む登録情報を取得する。登録情報は、Ｗｈｏｉｓ（登録商標）情報が用いられてよい。
登録情報取得部１３は、登録情報として、さらに、ブランドドメイン及びホモグラフドメインそれぞれの登録日、並びにホモグラフドメインの有効期限を取得してもよい。

ランキング取得部１４は、ブランドドメインへのアクセス頻度のランキングを取得する。ランキングは、例えば、Ａｌｅｘａ（登録商標）等の公開されたデータベースから取得されてよい。
ランキングが上位のブランドドメインは、攻撃を受けやすいため、所定のランキング以上であるか否かが後述の学習のための特徴として利用される。

カテゴリ取得部１５は、ブランドドメインが提供するコンテンツのカテゴリを取得する。カテゴリは、ユーザにより入力されてもよいし、公開されたデータベースが利用されてもよい。
攻撃を受けやすいカテゴリとして、例えば、仮想通貨、支払システム、銀行、オンラインショッピング、メールシステム、ＳＮＳ、検索エンジン、オンラインゲーム等が予め設定され、ブランドドメインがこれらのカテゴリ群に属するか否かが後述の学習のための特徴として利用される。

検索情報取得部１６は、ブランドドメイン及びホモグラフドメインのそれぞれを検索キーとした所定の検索エンジンによるＷｅｂ検索結果の数を取得する。
ホモグラフドメインよりもブランドドメインの方が検索結果の数は多いと考えられるため、この大小関係が後述の学習のための特徴として利用される。

図２は、本実施形態に係る検知装置１がブランドドメイン及びホモグラフドメインに関して取得する情報の関係を示す図である。
まず、ブランドドメインと、対になるホモグラフドメインとの間で、文字毎の画像類似度が得られる。

ブランドドメインからは、登録者、組織、登録日、有効期限を含む登録情報と、Ｗｅｂ検索結果の数と、ランキングと、カテゴリとが取得される。
ホモグラフドメインからは、登録者、組織、登録日、有効期限を含む登録情報と、Ｗｅｂ検索結果の数とが取得される。

学習部１７は、ブランドドメイン及びホモグラフドメインの組み合わせに関する、前述した類似度、登録情報、ランキング、カテゴリ、Ｗｅｂ検索結果の数に基づく特徴データの入力に対して、ホモグラフドメインが悪性か否か、すなわち攻撃者により登録されたホモグラフドメインであるか否かを出力する学習モデル２１を生成する。
学習の際に訓練データに付与される悪性か否かのラベルは、予めユーザにより判定されて付与される。

なお、訓練データは、ブランドドメイン及びホモグラフドメインの組み合わせの他、既存のデータを利用して収集されてよい。具体的には、例えば、類似文字を定義したデータベースを用いて、アクセス頻度の高いブランドドメインに対して、一部の文字を置換したホモグラフドメインが生成されてもよい。この場合、生成されたホモグラフドメインは、前述の登録情報により実在ことが確認される。
また、既知のホモグラフドメインに対して、類似のブランドドメインが前述のアクセス頻度のランキングデータベース等から抽出されてもよい。

学習モデル２１への入力は、例えば、以下の（１）～（８）の特徴データが採用され、少なくとも（１）、（３）及び（４）が用いられることが望ましい。
（１）文字毎の画像類似度の平均値
（２）ホモグラフドメインの登録日がブランドドメインの登録日より後であるか否か
（３）ホモグラフドメインの登録者がブランドドメインの登録者と異なるか否か
（４）ホモグラフドメインの組織がブランドドメインの組織と異なるか否か
（５）ブランドドメインのランキングが所定以上か否か
（６）ブランドドメインのカテゴリが前述の所定のカテゴリ群に属するか否か
（７）ブランドドメインのＷｅｂ検索結果の数がホモグラフドメインより多いか否か
（８）ホモグラフドメインの登録日から有効期限までの日数が所定未満か否か

また、学習モデル２１は、サポートベクタマシン、ナイーブベイズ、決定木、ニューラルネットワーク、確率的勾配降下法、最近傍探索等、各種の学習アルゴリズムから適宜選択されてよい。
例えば、複数のアルゴリズムによる学習結果は、所定の評価指標により評価され、最高評価のアルゴリズムが選択されてもよい。
評価指標は、判定精度、Ｆ値、実行時間、真陽性率（ＴＰＲ）、真陰性率（ＴＮＲ）、偽陽性率（ＦＰＲ）、偽陰性率（ＦＮＲ）等が採用される。例えば、判定精度が高いもの、偽陽性率が低いもの、実行時間が短いものが優先して採用されてよい。

判定部１８は、学習部１７により生成された学習モデル２１により、ブランドドメインと共に入力されたホモグラフドメインが攻撃者により登録されたものであるか否かを判定する。

図３は、本実施形態に係る学習部１７が採用可能な学習アルゴリズムを例示すると共に、各アルゴリズムを用いて生成された学習モデル２１による判定の実験結果を示す図である。

ここでは、サポートベクタマシン（ＳＶＭ）では、ＳＶＣ、ＮｕＳＶＣ及びＬｉｎｅａｒＳＶＣの３つのアルゴリズムによる結果を示している。ナイーブベイズでは、ＧａｕｓｓｉａｎＮＢ、ＭｕｌｔｉｎｏｍｉａｌＮＢ及びＢｅｒｎｏｕｌｌｉＮＢの３つのアルゴリズムによる結果を示している。最近傍探索では、ＫＮｅｉｇｈｂｏｒｓＣｌａｓｓｉｆｉｅｒ、ＲａｄｉｕｓＮｅｉｇｈｂｏｒｓＣｌａｓｓｉｆｉｅｒ及びＮｅａｒｅｓｔＣｅｎｔｒｏｉｄの３つのアルゴリズムによる結果を示している。さらに、ＣＡＲＴアルゴリズムによる決定木（ＤｅｃｉｓｉｏｎＴｒｅｅＣｌａｓｓｉｆｉｅｒ）、多層パーセプトロンによるニューラルネットワーク（ＭＬＰＣｌａｓｓｉｆｉｅｒ）、確率的勾配降下法（ＳＧＤＣｌａｓｓｉｆｉｅｒ）及びロジスティック回帰（ＬｏｇｉｓｔｉｃＲｅｇｒｅｓｓｉｏｎ）による実験結果を示している。

また、画像類似度として、ドメイン名の文字列全体のＳＳＩＭを用いた場合と、文字毎のＳＳＩＭの平均値を用いた場合とを比較し、評価指標として、精度（％）とＦＰＲ（％）とを示した。
図のように、文字列全体のＳＳＩＭを用いた場合よりも、文字毎のＳＳＩＭを平均した場合の方が、精度及びＦＰＲ共に向上している。例えば、いずれの場合も最高評価のアルゴリズムは、ＫＮｅｉｇｈｂｏｒｓＣｌａｓｓｉｆｉｅｒとなったが、精度は８６．７３％から９５．３５％に向上し、ＦＰＲも５．４１％から２．８３％に向上している。

なお、この例では、画像類似度の算出方法によらず、同一の学習アルゴリズムが高評価となったが、判定対象のデータ群によっては、異なるアルゴリズムが高評価となる場合もある。

本実施形態によれば、検知装置１は、ドメイン名を構成する文字毎の画像類似度に基づいて、ブランドドメイン及びホモグラフドメインの全体類似度を算出する。さらに、検知装置１は、ドメイン名の登録情報を取得することで、全体類似度、登録者名が同一か否か、及び組織名が同一か否かを入力とした学習モデル２１により、ホモグラフドメインが攻撃者により登録された悪性のドメインであるか否かを判定する。
これにより、検知装置１は、ドメイン名の文字列全体の画像類似度を用いるよりもユーザの感覚に近い類似度を特徴データとして取得できる。したがって、検知装置１は、このような画像類似度と、ドメインの登録者及び組織の情報とを入力にした学習モデル２１を用いて、攻撃者により登録されたホモグラフドメインを容易に精度良く検知できる。
この結果、Ｗｅｂユーザ、又はブランドドメインの管理者等は、フィッシングサイト等の悪性なホモグラフドメインを適切に識別することができる。

また、検知装置１は、さらに、ブランドドメイン及びホモグラフドメインの登録日の前後関係、ホモグラフドメインの登録日から有効期限までの日数、ブランドドメインへのアクセス頻度のランキング、ブランドドメインが提供するコンテンツのカテゴリ、ブランドドメイン及びホモグラフドメインのそれぞれを検索キーとしたＷｅｂ検索結果の数を学習モデル２１の入力とする。
これにより、検知装置１は、ブランドドメインと悪性なホモグラフドメインとの関係を的確に表す特徴データを入力として、学習モデル２１により、さらに精度良く悪性のホモグラフドメインを判定できる。

以上、本発明の実施形態について説明したが、本発明は前述した実施形態に限るものではない。また、前述した実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、実施形態に記載されたものに限定されるものではない。

検知装置１による検知方法は、ソフトウェアにより実現される。ソフトウェアによって実現される場合には、このソフトウェアを構成するプログラムが、情報処理装置（コンピュータ）にインストールされる。また、これらのプログラムは、ＣＤ－ＲＯＭのようなリムーバブルメディアに記録されてユーザに配布されてもよいし、ネットワークを介してユーザのコンピュータにダウンロードされることにより配布されてもよい。さらに、これらのプログラムは、ダウンロードされることなくネットワークを介したＷｅｂサービスとしてユーザのコンピュータに提供されてもよい。

１検知装置
１０制御部
１１入力部
１２類似度算出部
１３登録情報取得部
１４ランキング取得部
１５カテゴリ取得部
１６検索情報取得部
１７学習部
１８判定部
２０記憶部
２１学習モデル

Claims

ブランドドメイン及びホモグラフドメインの入力を受け付ける入力部と、
ドメイン名を構成する文字毎の画像類似度に基づいて、前記ブランドドメイン及び前記ホモグラフドメインの全体類似度を算出する類似度算出部と、
前記ブランドドメイン及び前記ホモグラフドメインの登録者名及び組織名を含む登録情報を取得する登録情報取得部と、
前記全体類似度、前記登録者名が同一か否か、及び前記組織名が同一か否かを入力とした学習モデルにより、前記ホモグラフドメインが攻撃者により登録されたものであるか否かを判定する判定部と、を備える検知装置。
前記登録情報は、前記ブランドドメイン及び前記ホモグラフドメインの登録日を含み、
前記判定部は、前記登録日の前後関係を、さらに前記学習モデルへの入力として、前記ホモグラフドメインが攻撃者により登録されたものであるか否かを判定する請求項１に記載の検知装置。
前記登録情報は、前記ホモグラフドメインの有効期限を含み、
前記判定部は、前記ホモグラフドメインの前記登録日から前記有効期限までの日数が所定未満であるか否かを、さらに前記学習モデルへの入力として、前記ホモグラフドメインが攻撃者により登録されたものであるか否かを判定する請求項２に記載の検知装置。
前記ブランドドメインへのアクセス頻度のランキングを取得するランキング取得部を備え、
前記判定部は、前記ランキングが所定以上であるか否かを、さらに前記学習モデルへの入力として、前記ホモグラフドメインが攻撃者により登録されたものであるか否かを判定する請求項１から請求項３のいずれかに記載の検知装置。
前記ブランドドメインが提供するコンテンツのカテゴリを取得するカテゴリ取得部を備え、
前記判定部は、前記カテゴリが所定のカテゴリ群に含まれるか否かを、さらに前記学習モデルへの入力として、前記ホモグラフドメインが攻撃者により登録されたものであるか否かを判定する請求項１から請求項４のいずれかに記載の検知装置。
前記ブランドドメイン及び前記ホモグラフドメインのそれぞれを検索キーとしたＷｅｂ検索結果の数を取得する検索情報取得部を備え、
前記判定部は、前記Ｗｅｂ検索結果の数の大小関係を、さらに前記学習モデルへの入力として、前記ホモグラフドメインが攻撃者により登録されたものであるか否かを判定する請求項１から請求項５のいずれかに記載の検知装置。
ブランドドメイン及びホモグラフドメインの入力を受け付ける入力ステップと、
ドメイン名を構成する文字毎の画像類似度に基づいて、前記ブランドドメイン及び前記ホモグラフドメインの全体類似度を算出する類似度算出ステップと、
前記ブランドドメイン及び前記ホモグラフドメインの登録者名及び組織名を含む登録情報を取得する登録情報取得ステップと、
前記全体類似度、前記登録者名が同一か否か、及び前記組織名が同一か否かを入力とした学習モデルにより、前記ホモグラフドメインが攻撃者により登録されたものであるか否かを判定する判定ステップと、をコンピュータが実行する検知方法。
ブランドドメイン及びホモグラフドメインの入力を受け付ける入力ステップと、
ドメイン名を構成する文字毎の画像類似度に基づいて、前記ブランドドメイン及び前記ホモグラフドメインの全体類似度を算出する類似度算出ステップと、
前記ブランドドメイン及び前記ホモグラフドメインの登録者名及び組織名を含む登録情報を取得する登録情報取得ステップと、
前記全体類似度、前記登録者名が同一か否か、及び前記組織名が同一か否かを入力とした学習モデルにより、前記ホモグラフドメインが攻撃者により登録されたものであるか否かを判定する判定ステップと、をコンピュータに実行させるための検知プログラム。