JP2016170524A - 悪性url候補取得装置、悪性url候補取得方法、及びプログラム - Google Patents

悪性url候補取得装置、悪性url候補取得方法、及びプログラム Download PDF

Info

Publication number
JP2016170524A
JP2016170524A JP2015048653A JP2015048653A JP2016170524A JP 2016170524 A JP2016170524 A JP 2016170524A JP 2015048653 A JP2015048653 A JP 2015048653A JP 2015048653 A JP2015048653 A JP 2015048653A JP 2016170524 A JP2016170524 A JP 2016170524A
Authority
JP
Japan
Prior art keywords
search
character string
url
malignant
site
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015048653A
Other languages
English (en)
Other versions
JP6478730B2 (ja
Inventor
恭之 田中
Yasuyuki Tanaka
恭之 田中
隼 有川
Hayato Arikawa
隼 有川
充弘 畑田
Mitsuhiro Hatada
充弘 畑田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Communications Corp
Original Assignee
NTT Communications Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Communications Corp filed Critical NTT Communications Corp
Priority to JP2015048653A priority Critical patent/JP6478730B2/ja
Publication of JP2016170524A publication Critical patent/JP2016170524A/ja
Application granted granted Critical
Publication of JP6478730B2 publication Critical patent/JP6478730B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】インターネット上の未知の悪性URL候補を効率的に取得することを可能とする。
【解決手段】悪性サイトを検出するために使用されるURLである悪性URL候補を取得するための悪性URL候補取得装置において、既知の悪性サイトで使用される文字列である特徴文字列を格納する特徴文字列格納手段と、前記特徴文字列をキーワードとして使用することにより、インターネット上の検索装置に対する検索を実行する検索手段と、前記検索手段により得られた検索結果に基づき、悪性URL候補を決定する決定手段とを備えて構成する。
【選択図】図2

Description

本発明は、ブラックリストを構成する悪性URLの候補を収集するための技術に関連するものである。
コンピュータの脆弱性を狙った不正プログラムによる攻撃や、コンピュータの情報を不正に取得するような動作を実行するマルウェアの配付による攻撃等が重要な問題となっている。
不正プログラム等がダウンロードされる可能性のあるアクセス先のURLを悪性URLと呼ぶ。悪性URLのリストをブラックリストとして保持し、フィルタリングに用いることでユーザを保護することができる。
特許第4739962号 特開2012−118713号公報
悪性URLからなるブラックリストを作成するには、悪性であることが疑わしい悪性URL候補について、例えば特許文献1に記載された技術を用いて、当該悪性URL候補のサイトが実際に攻撃を行うサイトであるかどうかを判定する。そして、判定の結果、攻撃を行うサイトであると判定された悪性URL候補を、悪性URLとしてブラックリストに含める。なお、特許文献1に記載された技術は、シードと呼ばれる悪性URL候補をハニークライアントに投入することにより悪性URL候補が悪性URLであるかどうかを判定する技術である。
しかしながら、現状、シード(悪性URL候補)の数が少なく、結果として、上記のような技術により得られる悪性URLの数が少ないという課題がある。
現状のシードは、SPAMメールや様々なセキュリティデバイスのログから抽出したURL、SOC(セキュリティ・オペレーション・センター)のオペレータが顧客対応中に見つけたURL等を収集することで得られる。しかし、当該手法では、既知の悪性URL候補しか発見できず、悪性URL候補を数多く取得することができない。
上記の課題に鑑みて、特許文献2では、悪性URLの近傍に悪性URLが存在する可能性が高いという知見を用いて、未知の悪性URL候補を探す技術が提案されている。しかし、インターネット空間は非常に広く、近傍にない場所に存在する可能性のある多くの悪性URL候補を見つけることはできない。
本発明は上記の点に鑑みてなされたものであり、インターネット上の未知の悪性URL候補を効率的に取得することを可能とする技術を提供することを目的とする。
本発明の実施の形態によれば、悪性サイトを検出するために使用されるURLである悪性URL候補を取得するための悪性URL候補取得装置であって、
既知の悪性サイトで使用される文字列である特徴文字列を格納する特徴文字列格納手段と、
前記特徴文字列をキーワードとして使用することにより、インターネット上の検索装置に対する検索を実行する検索手段と、
前記検索手段により得られた検索結果に基づき、悪性URL候補を決定する決定手段と
を備える悪性URL候補取得装置が提供される。
また、本発明の実施の形態によれば、悪性サイトを検出するために使用されるURLである悪性URL候補を取得するための悪性URL候補取得装置が実行する悪性URL候補取得方法であって、
前記悪性URL候補取得装置は、既知の悪性サイトで使用される文字列である特徴文字列を格納する特徴文字列格納手段を備え、
前記特徴文字列をキーワードとして使用することにより、インターネット上の検索装置に対して検索を実行する検索ステップと、
前記検索ステップにより得られた検索結果に基づき、悪性URL候補を決定する決定ステップと
を備える悪性URL候補取得方法が提供される。
本発明の実施の形態によれば、インターネット上の未知の悪性URL候補を効率的に取得することが可能となる。
本発明の実施の形態の概要を説明するための図である。 本発明の実施の形態に係る悪性URL候補取得装置10の構成図である。 本実施の形態における悪性URL候補取得装置10の動作を説明するためのフロー図である。 特徴文字列の例を示す図である。
以下、図面を参照して本発明の実施の形態を説明する。なお、以下で説明する実施の形態は一例に過ぎず、本発明が適用される実施の形態は、以下の実施の形態に限られるわけではない。
以下、悪性サイト/攻撃サイト等で使用される「サイト」の用語は、コンテンツとURLを含む意味で使用する。また、「コンテンツ」は、HTMLデータ等、サーバから端末に送られることになる情報を意味し、「URL」は、コンテンツのネットワーク上の場所を示す。
(実施の形態の概要)
まず、図1を参照して本発明の実施の形態における悪性URL候補取得技術の概要を説明する。図1に示すように、本実施の形態において、悪性URL候補取得装置10が備えられる。悪性URL候補取得装置10は、インターネット30に接続され、インターネット30上の検索装置20を用いて、インターネット30における情報の検索を行う機能を持つ。各検索装置は、検索エンジンが備えられた装置であり、1又は複数のサーバを含む。なお、悪性URL候補取得装置10が検索を行う先のネットワークは、インターネット30に限られず、インターネット30以外の通信ネットワークであってもよい。
ステップ1において、悪性URL候補取得装置10は、悪性サイトに存在する可能性が高い特徴文字列を取得する。特徴文字列に関し、悪性URL候補取得装置10自身が後述する観点により取得してもよいし、既に取得された特徴文字列を入力することとしてもよい。
悪性URL候補取得装置10は、ステップ1で取得した特徴文字列をキーとして用いることにより、インターネット30上の検索装置20を用いて検索を行う(ステップ2)。詳しくは後述するが、検索装置20は、一般的なインターネット検索用の検索エンジンを備える装置、ソースコード検索エンジンを備える装置、悪性サイト蓄積サイトを提供する装置等である。
悪性URL候補取得装置10は、ステップ2の検索で得られたURLそのもの、もしくは、所定の基準で選択されたURLを悪性URL候補として出力する。
出力された悪性URL候補は、例えば特許文献1に記載された技術における悪性URL候補のシードとして使用され、悪性URL候補が実際に悪性URLであるかどうかの判定が実行される。
(悪性URL候補取得装置10の構成例)
図2に、本実施の形態に係る悪性URL候補取得装置10の構成図を示す。図2に示すように、本実施の形態に係る悪性URL候補取得装置10は、特徴文字列取得部11、特徴文字列格納部12、検索制御部13、検索実行部14、検索結果格納部15、URL候補決定部16を有する。なお、図2に示す悪性URL候補取得装置10の機能区分及び機能名称は一例に過ぎない。本実施の形態における処理を実行可能な悪性URL候補取得装置10の機能区分及び機能名称は、図2に示すものに限られない。各機能部の概要は以下のとおりである。
特徴文字列取得部11は、外部から特徴文字列の入力を受けることで特徴文字列を取得する、もしくは、既知の悪性サイトのコンテンツ及び/又はURL等から特徴文字列を取得する。取得した特徴文字例は、特徴文字例格納部12に格納される。
検索制御部13は、特徴文字列に格納された個々の特徴文字列の種類等に応じて、どの検索装置で検索を行うか、どのような手順で検索を行うか等の制御内容を決定する。検索実行部14は、検索制御部13により決定された制御内容に従って、特徴文字列を用いてインターネット30上の検索装置に対する検索を実行する。検索実行部14により実行された検索による検索結果(URL、当該コンテンツの一部等)は、検索結果格納部15に格納される。なお、検索制御部13と検索実行部14を検索部(検索手段)として一体で構成してもよい。
URL候補決定部16は、検索結果格納部15に格納されている検索結果のURLから、悪性URL候補を決定し、決定した悪性URL候補を出力する。
本実施の形態に係る悪性URL候補取得装置10は、例えば、1つ又は複数のコンピュータに、本実施の形態で説明する処理内容を記述したプログラムを実行させることにより実現可能である。すなわち、悪性URL候補取得装置10が有する機能は、当該コンピュータに内蔵されるCPUやメモリ、ハードディスクなどのハードウェア資源を用いて、悪性URL候補取得装置10で実施される処理に対応するプログラムを実行することによって実現することが可能である。上記プログラムは、コンピュータが読み取り可能な記録媒体(可搬メモリ等)に記録して、保存したり、配布したりすることが可能である。また、上記プログラムをインターネットや電子メールなど、ネットワークを通して提供することも可能である。
(悪性URL候補取得装置10の詳細動作)
以下、悪性URL候補取得装置10の詳細動作を図3のフロー図に従って説明する。ここでの詳細動作の説明では、悪性サイトの例として攻撃サイトを挙げているが、これは例であり、本発明は、攻撃サイトに限定されない悪性サイトに対して適用可能である。攻撃サイトとは、例えば、ドライブバイダウンロードのように、ブラウザ等でアクセスすると何等かの攻撃が発動されるサイトである。
<ステップ101:特徴文字列抽出>
まず、ステップ101として、特徴文字列の抽出が行われる。この特徴文字列の抽出は、悪性URL候補取得装置10の外で、装置(コンピュータ)が自動的に行ってもよいし、コンピュータを用いて人手で行ってもよいし、悪性URL候補取得装置10の特徴文字列取得部11が自動的に行ってもよい。
攻撃サイトは、アプリケーションの一種であるExploitKIT(以下、EKと呼ぶ)と呼ばれる攻撃ツールを用いて作成されることが多く、各EKで作成された攻撃サイトのコンテンツ等には特徴的な文字列が含まれることが多い。また、EKが使われない場合でも、攻撃に必須となる特徴的なコードが攻撃サイトのコンテンツ内に存在する傾向がある。
上記の知見に基づき、本実施の形態では、既知の攻撃サイトのコンテンツ内に含まれる特徴文字列、及び/又は、既知の攻撃サイトのURLである攻撃URL内に含まれる特徴文字列を抽出する。より具体的には、以下の観点で抽出を行う。以下では、コンテンツに含まれる特徴文字列と、URL内に含まれる特徴文字列に分けて説明する。図3においては、コンテンツに含まれる特徴文字列をHTML系として示し、URLに含まれる特徴文字列をURL系として示している。
<HTMLデータ等のコンテンツに含まれる特徴文字列>
観点(1):EKや難読化アプリケーションの仕様上に表れる特徴
(1−1)種々のEK(アプリケーション)において、各アプリケーション固有に表れる特徴文字列が存在する。このようなEKがサイトに組み込まれることで攻撃が行われることから、当該アプリケーション固有に表れる特徴文字列をEKもしくは既知の攻撃サイトのコンテンツから抽出し、当該特徴文字列を有するサイトを検索することで攻撃URL候補を得ることができる。
一例として、Blackhole EKと呼ばれるEKに特徴的な文字列として、図4の(a)に示すように、「<?PHP//003ab if(!extension_loaded('ionCube Loader'))」がある。なお、例示における特徴文字列において「」は特徴文字列に含まれない。以下同様である。
(1−2)攻撃サイトの作成者は、サイトのソースコードの解読を困難にするために、ソースコード難読化ツールを用いて、コンテンツのソースコードを難読化する場合が多い。特に、EKを用いた多くのサイトはソースコード難読化ツールを用いて難読化される。このような観点で、本実施の形態では、ソースコード難読化ツールを用いた場合に現れる特徴文字列を、ソースコード難読化ツール自体、あるいは、ソースコード難読化ツールを用いて作成された攻撃サイトのコンテンツから抽出する。
このような特徴文字列の一例として、図4の(b)に示すように、Blackhole EKを用いて作成されたコンテンツ等から抽出される「/*km0ae9gr6m*/」がある。
(1−3)攻撃サイトのコンテンツをソースコード難読化ツールで難読化処理を行った場合でも、一部のソースコード難読化ツールでは難読化されない文字列が存在する。例えば、文字列特定の関数名等である。本実施の形態では、このような観点で、難読化されない文字列を、ソースコード難読化ツールを用いて作成された攻撃サイトのコンテンツ等から抽出する。
このような特徴文字列の一例として、図4の(c)に示すように、Fiesta EKを用いて作成される攻撃サイトのコンテンツにおける「function mulls(cqq, lg6) {var hx, ik, bhf, dr, jbf, fr; ik' ';hx='」がある。
観点(2):攻撃サイト自体の性質から現れる特徴
攻撃サイトから提供されるコンテンツは、攻撃先で攻撃コードを発動させるために、正規サイトのコンテンツにはない特徴文字列を入れ込むことが必要不可欠である。本実施の形態では、このような観点から、例えば既知の攻撃サイトのコンテンツから攻撃コードに関係する特徴文字列を抽出する。
このような特徴文字列の一例として、図4(d)に示すように、脆弱性(CVE-2006-0003(MS06-014))の場合におけるRDS.DataControlを示すクラスIDである「clsid:BD96C556-65A3-11D0-983A-00C04FC29E36」がある。
観点(3):攻撃サイトのリンク関係の性質から現れる特徴
攻撃者は、改ざん入口サイトのように、iframeやリダイレクトでサイトの遷移を行わせることが多い。このような観点から、iframeやリダイレクトで遷移をさせるためのコードを含んだ文字列を特徴文字列として、例えば、改ざん入口サイトのコンテンツ等から抽出する。
このような特徴文字列の一例として、図4(e)に示すように、「<iframe src="/news/information - ups - 934387535.php ? iczbdqgs = 1f: 1h: 1l: 1f: 2w & wtxsk = o & qfgksyd = 1m: 1f: 1m: 31: 31: 1f: 1j: 31: 1l : 1l & ova = 1f: 1d: 1f: 1d: 1f: 1d: 1f"> </iframe>」がある。
なお、HTMLデータ等のコンテンツに含まれる特徴文字列の例として、上記の3つの観点の特徴文字列を示したが、当該コンテンツに含まれる特徴文字列の抽出の観点は上記の例に限られるわけではない。また、上記各観点で抽出された特徴文字列は、そのまま単独で用いてもよいし、複数の特徴文字列を組み合わせて用いてもよいし、各観点で抽出された特徴文字列の一部(断片)を用いてもよいし、断片の組み合わせを用いてもよい。また、複数の観点のうちの全部を用いてもよいし、一部を用いてもよい。
上記のように、断片/組み合わせを特徴文字列とすることについては、抽出の段階で断片/組み合わせの特徴文字列を作成してもよいし、検索手順等の決定の段階あるいは検索実行の段階で断片/組み合わせの特徴文字列を作成してもよい。
<URL内に含まれる特徴文字列>
EKを用いて作成される攻撃サイトのURLには、EKに特有の特徴的な文字列が含まれている場合が多い。このような観点で、本実施の形態では、例えば、EKにより作成された攻撃サイトのURLから当該特徴文字列を抽出する。このような特徴文字列の一例として、図4の(f)に示すように、「.com/content/main.php?page= , /r57.php」がある。
また、上記の観点で抽出されたURLの文字列におけるパス部を分解した文字列、分解した文字列の組み合わせを特徴文字列として取得してもよい。
図4の(g)に示すように、上記の具体例に対応するパス部分解文字列の例として「main.php」があり、組み合わせの例として「com, main.php」がある。
上記のように、分解/組み合わせを特徴文字列とすることについては、抽出の段階で分解/組み合わせの特徴文字列を作成してもよいし、検索手順等の決定の段階あるいは検索実行の段階で分解/組み合わせの特徴文字列を作成してもよい。
以上、コンテンツ内に含まれる特徴文字列の抽出の例と、URL内に含まれる特徴文字列の抽出の例を説明したが、コンテンツ内に含まれる特徴文字列(全体、断片等)とURL内に含まれる特徴文字列(全体、一部等)との組み合わせを特徴文字列として使用してもよい。
悪性URL候補取得装置10における特徴文字列取得部11は、上記のようにして抽出された特徴文字列の入力を受けて当該特徴文字列を特徴文字列格納部12に格納する。もしくは、悪性URL候補取得装置10における特徴文字列取得部11は、上記のような観点で自動的に既知の攻撃サイトのコンテンツ/URL等から特徴文字列を取得し、取得した特徴文字列を特徴文字列格納部12に格納する。
<ステップ102:各装置用最適検索情報及び手順決定>
次に、悪性URL候補取得装置10における検索制御部13は、特徴文字列格納部12に格納されている特徴文字列を用いて、どの検索装置に対してどの特徴文字列を使用し、どのような手順で検索を行うかを決定する。例えば、検索制御部13は、予め定めたルールに従って各装置用の検索情報及び手順を決定する。
本実施の形態では、検索に利用する検索装置の例として、インターネット検索エンジンを備える装置、ソースコード検索エンジンを備える装置、悪性サイト蓄積サイト(悪性サイトの情報を蓄積した装置)の3種類を使用することとしている。ただし、本発明は特定の数/種類の検索装置に限定されない。例えば、1種類の検索装置を用いてもよい。また、1種類の検索装置を用いる場合でも、複数個の検索装置(検索サイト)を使用して検索を行うこととしてもよい。
以下、各検索装置の特徴を説明し、当該検索装置に適した検索情報、及び検索手順の例を説明する。当該検索情報及び検索手順の決定は検索制御部13が行う。以下で説明する検索の内容(検索制御部13が決定する内容)については、全てを実行してもよいし、一部のみを実行することとしてもよい。
(1)インターネット検索エンジン
インターネット検索エンジンは、一般的なインターネット検索サービスを提供する検索エンジンであり、例えばGoogle(登録商標)、bing(登録商標)等により提供される検索エンジンである。
インターネット検索エンジンは、一般に、一旦アクセスしたサイトの情報(コンテンツ、URL等)をキャッシュしており、当該キャッシュを用いることにより検索要求に係る検索を高速に行うことができる。なお、インターネット検索エンジンに限らず、後述するソースコード検索エンジン、悪性サイト蓄積サイトもこのようなキャッシュを用いている。
インターネット検索エンジンは、キャッシュの量が大きく、また、検索する際に様々な条件を指定して検索を行うことができるという利点がある。後者の特徴は、IF(インターフェース)の自由度が高いと言い換えてもよい。インターネット検索エンジンにはこのような利点がある反面、検索結果に目的としない結果が多く含まれる場合があるという欠点がある。後者は、「ゴミが多い」と言い換えることができる。
このような特徴により、インターネット検索エンジンは、HTML系特徴文字列とURL系特徴文字列のどちらにでも適用することができるので、本実施の形態では、例えば、検索制御部13は、HTML系特徴文字列とURL系特徴文字列のそれぞれでインターネット検索エンジンを用いて検索を行うことを決定する。ここでの検索は、例えば、通常の検索窓を用いた検索もしくは、検索エンジン側のAPIを用いてプログラムが検索を行うこととしてよい。
上記のように、インターネット検索エンジンを用いた検索結果にはゴミが多いため、本実施の形態では、検索制御部13は、ホワイトリストを利用することで、インターネット検索エンジンを用いた検索結果から攻撃URLではない正規URLを除く処理を実行する手順を行うことを決定する。ここでのホワイトリストとは、例えば、インターネット上でのアクセス回数の多い順にURLを並べたリストであり、このようなホワイトリストとして、alexa、OpenDNS、DMOZ等により提供されるホワイトリストを利用できる。つまり、上記手順において、検索で得られた結果から、ホワイトリストに含まれるURLを除く処理を行う。
また、例えば、検索制御部13は、URL系特徴文字列については、URL内での検索を行うために、inurl検索を行うと決定してもよい。
また、例えば、検索制御部13は、特定のFQDN(Fully Qualified Domain Name)を予め保持し、当該特定のFQDN内において、HTML系の特徴文字列を用いて検索を行うことを決定する。特定のFQDNが示すサイトは、例えば、攻撃サイト、改ざんサイト、操作シェル配置サイト等である。特定のサイト内の検索は、site検索を行うことで実現できる。また、link検索(被リンクに関する検索)を利用して、例えば、特定のFQDNのサイトにリンクするサイトのURLを見つけ、当該URLのサイトでHTML系の特徴文字列を用いて検索を行うことを決定してもよい。
(2)ソースコード検索エンジン
ソースコード検索エンジンは、Webサイト内のCSS、HTML、Javascript(登録商標)等のソースコードを検索の対象とする検索エンジンである。ソースコード検索エンジンとして、例えば、nerdydata、meanpath等がある。ソースコード検索エンジンについては、キャッシュ量は中程度であるが、検索要求に係る文字列を含むソースコードを有するサイトを正確に特定できるという特徴を有する。
上記の特徴に鑑みて、検索制御部13は、HTML系特徴文字列を用いて、ソースコード検索エンジンによる検索を行うことを決定する。
(3)悪性サイト蓄積サイト
悪性サイト蓄積サイトとは、攻撃サイト等の悪性サイトの情報を蓄積し、検索を可能としているサイトであり、例えば、scumware.org、dfk.de等のサイトがある。悪性サイト蓄積サイトは、悪性サイトの情報が蓄積されているが、キャッシュ量は小さく、また、IFの自由度が小さい。
悪性サイト蓄積サイトの検索方法(IF)は、IP検索、FQDN検索、パス部検索等に限られるため、検索制御部13は、例えば、特徴文字列(URL系でもよいし、HTML系でもよい)について、所定の検索手順を用いて悪性サイト蓄積サイトに対する検索を行うことを決定する。
所定の検索手順は、例えば、FQDN部を有する特徴文字列から、当該FQDN部を取得し、whoisコマンドを用いて当該FQDN部に対応するIPアドレスを取得し、当該IPアドレスをキーとして悪性サイト蓄積サイトを検索することである。また、当該検索手順において、IP検索で得た検索結果から得られるFQDNを用いてFQDN検索あるいは「whoisによるIPアドレス取得−>IPアドレス検索」を行うこととしてもよい。
また、所定の検索手順として、FQDN部を有する特徴文字列から、当該FQDN部を取得し、先にFQDN検索を実施し、当該検索により得られたIPアドレスでIPアドレス検索を行う手順を用いてもよい。当該手順において、FQDN検索により得られた検索結果が、FQDNである場合、whoisでIPアドレスを得てからIPアドレス検索を行う。
また、検索制御部13は、上記のFQDN検索を行う際に、部分FQDN検索(部分パス部検索)を行うことを決定してもよい。例えば、元のFQNDが「aaa.bbb.ccc.yahoo.co.jp」である場合に、部分FQDNとして「bbb.ccc.yahoo.co.jp」、「ccc.yahoo.co.jp」、「yahoo.co.jp」の全部又は一部を用いて検索を行うことを決定する。
<ステップ103:検索実行>
検索制御部13は、各検索装置に対して決定した特徴文字列と検索手順を示す情報を検索実行部14に渡すことで検索実行部14に対して検索実行を指示する。検索手順としては、予め手順のパターンを定めておき、どのパターンの検索かを示す情報を検索実行部14に渡すこととしてもよいし、プログラムコードの形で検索手順を渡すこととしてもよい。
また、特徴文字列/検索手順を検索実行部14に渡し、検索実行部14が検索手順を実行する制御に代えて、検索制御部13が検索手順の情報を持ち、検索制御部13が、検索手順に従って検索実行部14に特徴文字列と検索サイトを指示することで検索を実行させることとしてもよい。
ステップ103での検索実行により、例えば、検索装置毎(インターネット検索エンジン、ソースコード検索エンジン、悪性サイト蓄積サイト等)に、検索結果が検索結果格納部15に格納される。検索結果格納部15に格納される検索結果は、悪性URL候補として使用され得るURLのみであってもよいし、URLに加え、検索により得られるサイトの情報(要約、ソースコードの一部等)が含まれていてもよい。特徴文字列格納部12に複数の特徴文字列が格納されている場合、検索は、ステップ102で決定された制御内容に従って、それぞれの(全ての)特徴文字列について実行されることとしてもよいし、一部の特徴文字列について実行されることとしてもよい。
検索結果は、前述した手順に従った検索による結果であるので、例えば、インターネット検索エンジンによる検索結果については、ホワイトリストによるフィルタリング後の検索結果となっている。
<ステップ104:悪性URL候補決定>
次に、URL候補決定部16が、検索結果格納部15に格納された検索結果の中から、悪性URL候補(シード)とするURLを決定する。ここでの決定については、例えば、得られたURLの数が所定の閾値以下であれば、全ての検索結果のURLを悪性URL候補として決定してよい。また、得られたURLの数に関わらず、全ての検索結果のURLを悪性URL候補として決定してもよい。
また、得られたURLの数が所定の閾値よりも大きい場合、あるいは、得られたURLの数に関わらずに、URL候補決定部16は、複数の検索装置から得られたURLを悪性URL候補として決定することとしてよい。例えば、検索装置(検索エンジン、検索サイト等)として、検索装置A、検索装置B、検索装置Cの3つの検索装置がある場合において、ある特徴文字列に基づく検索を各検索装置で実施した結果、URL1は検索装置Aのみから得られ、URL2は、例えば検索装置Bと検索装置Cの2つから得られた場合において、URL1を悪性URL候補とせず、URL2を悪性URL候補とするように決定する。また、検索結果として得られたURL以外の情報も加味してスコアリングを行い、スコアを含めて出力することとしてもよい。もしくは、スコアに閾値を設けて、閾値以上のものを悪性URL候補として決定し、出力することとしてもよい。
(他検索条件抽出について)
図3のステップ201として示すように、前述したインターネット検索エンジン、ソースコード検索エンジン、悪性URL蓄積サイトのそれぞれに対する検索において、検索制御部13は、検索対象を、特定のIPアドレス、特定のFQDN、特定のVPS(仮想専用サーバのホスティングサービス)に絞ることを決定してもよい。特定のIPアドレス/特定のFQDN/特定のVPSに、悪性サイトの存在する可能性が高いことが発明者の過去の知見からわかっているため、この検索条件は効果的であると考えられる。
また、上記特定のIPアドレス/特定のFQDN/特定のVPSについての検索を独立して実施することとしてもよい。
例えば、特定のVPSに関し、特定のVPS事業者のセキュリティが弱く改ざんされる傾向があるため、特定のVPSのIPレンジから対応するFQDNをリストアップする。ここでは例えばrebtexを利用する。当該FQDN自体を攻撃URL候補(シード)として用いることができる。これは、多くの場合、トップサイトに攻撃サイトへの誘導改ざんコードが埋め込まれるためである。
(実施の形態の効果等)
以上、詳細に説明したように、本実施の形態では、図3のフロー図に示した「特徴文字列抽出」、「各装置用最適検索情報及び手順決定」、及び「URL候補決定」を組み合わせて実施することにより、悪性の確率が高い数多くのシードを得ることができる。また、「他検索条件抽出」を組み合わせることにより、さらに悪性確率の高いシードを得ることができる。本実施の形態の技術により、インターネット空間から、未知の悪性URLを効率的に発見できる。その結果、数多くの悪性URL候補を提供できる。
(実施の形態のまとめ)
本実施の形態により、悪性サイトを検出するために使用されるURLである悪性URL候補を取得するための悪性URL候補取得装置であって、既知の悪性サイトで使用される文字列である特徴文字列を格納する特徴文字列格納手段と、前記特徴文字列をキーワードとして使用することにより、インターネット上の検索装置に対する検索を実行する検索手段と、前記検索手段により得られた検索結果に基づき、悪性URL候補を決定する決定手段とを備える悪性URL候補取得装置が提供される。
前記検索手段は、前記検索装置としてインターネット検索エンジンを備える検索装置を用いる場合に、特定のサイト内で前記特徴文字列に基づく検索を行う、又は、URL内での前記特徴文字列に基づく検索を行うことができる。
前記検索手段は、前記検索装置としてソースコード検索エンジンを備える検索装置を用いる場合に、既知の悪性サイトのコンテンツに含まれる特徴文字列に基づく検索を行うこととしてもよい。
前記検索手段は、前記検索装置として悪性サイトの情報を蓄積した検索装置を用いる場合に、前記特徴文字列に含まれるFQDN部からIPアドレスを取得し、当該IPアドレスに基づく検索を行うこととしてもよい。
前記検索手段は、前記検索装置としてインターネット検索エンジンを備える検索装置を用いる場合に、当該検索装置に対する検索で得られた結果からホワイトリストに含まれるURLを除去した結果を前記検索結果とすることとしてもよい。
前記検索手段は、複数の検索装置を用いて前記特徴文字列に基づく検索を行い、前記決定手段は、前記複数の検索装置のうちの複数の検索装置から得られたURLを前記悪性URL候補として決定することとしてもよい。
前記特徴文字列は、例えば、所定のアプリケーションを使用して作成された悪性サイトのコンテンツに含まれる文字列、当該悪性サイトのURLに含まれる文字列、攻撃先で攻撃コードを発動させるための文字列、又は、他サイトへの遷移を指示する文字列である。
本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において、種々変更・応用が可能である。
10 悪性URL候補取得装置
20 検索装置
30 インターネット
11 特徴文字列取得部
12 特徴文字列格納部
13 検索制御部
14 検索実行部
15 検索結果格納部
16 URL候補決定部

Claims (9)

  1. 悪性サイトを検出するために使用されるURLである悪性URL候補を取得するための悪性URL候補取得装置であって、
    既知の悪性サイトで使用される文字列である特徴文字列を格納する特徴文字列格納手段と、
    前記特徴文字列をキーワードとして使用することにより、インターネット上の検索装置に対する検索を実行する検索手段と、
    前記検索手段により得られた検索結果に基づき、悪性URL候補を決定する決定手段と
    を備える悪性URL候補取得装置。
  2. 前記検索手段は、
    前記検索装置としてインターネット検索エンジンを備える検索装置を用いる場合に、特定のサイト内で前記特徴文字列に基づく検索を行う、又は、URL内での前記特徴文字列に基づく検索を行う
    請求項1に記載の悪性URL候補取得装置。
  3. 前記検索手段は、
    前記検索装置としてソースコード検索エンジンを備える検索装置を用いる場合に、既知の悪性サイトのコンテンツに含まれる特徴文字列に基づく検索を行う
    請求項1又は2に記載の悪性URL候補取得装置。
  4. 前記検索手段は、
    前記検索装置として悪性サイトの情報を蓄積した検索装置を用いる場合に、前記特徴文字列に含まれるFQDN部からIPアドレスを取得し、当該IPアドレスに基づく検索を行う
    請求項1ないし3のうちいずれか1項に記載の悪性URL候補取得装置。
  5. 前記検索手段は、
    前記検索装置としてインターネット検索エンジンを備える検索装置を用いる場合に、当該検索装置に対する検索で得られた結果からホワイトリストに含まれるURLを除去した結果を前記検索結果とする
    請求項1ないし4のうちいずれか1項に記載の悪性URL候補取得装置。
  6. 前記検索手段は、複数の検索装置を用いて前記特徴文字列に基づく検索を行い、
    前記決定手段は、前記複数の検索装置のうちの複数の検索装置から得られたURLを前記悪性URL候補として決定する
    請求項1ないし5のうちいずれか1項に記載の悪性URL候補取得装置。
  7. 前記特徴文字列は、所定のアプリケーションを使用して作成された悪性サイトのコンテンツに含まれる文字列、当該悪性サイトのURLに含まれる文字列、攻撃先で攻撃コードを発動させるための文字列、又は、他サイトへの遷移を指示する文字列である
    請求項1ないし6のうちいずれか1項に記載の悪性URL候補取得装置。
  8. 悪性サイトを検出するために使用されるURLである悪性URL候補を取得するための悪性URL候補取得装置が実行する悪性URL候補取得方法であって、
    前記悪性URL候補取得装置は、既知の悪性サイトで使用される文字列である特徴文字列を格納する特徴文字列格納手段を備え、
    前記特徴文字列をキーワードとして使用することにより、インターネット上の検索装置に対して検索を実行する検索ステップと、
    前記検索ステップにより得られた検索結果に基づき、悪性URL候補を決定する決定ステップと
    を備える悪性URL候補取得方法。
  9. コンピュータを、請求項1ないし7のうちいずれか1項に記載の悪性URL候補取得装置における各手段として機能させるためのプログラム。
JP2015048653A 2015-03-11 2015-03-11 悪性url候補取得装置、悪性url候補取得方法、及びプログラム Active JP6478730B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015048653A JP6478730B2 (ja) 2015-03-11 2015-03-11 悪性url候補取得装置、悪性url候補取得方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015048653A JP6478730B2 (ja) 2015-03-11 2015-03-11 悪性url候補取得装置、悪性url候補取得方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2016170524A true JP2016170524A (ja) 2016-09-23
JP6478730B2 JP6478730B2 (ja) 2019-03-06

Family

ID=56983792

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015048653A Active JP6478730B2 (ja) 2015-03-11 2015-03-11 悪性url候補取得装置、悪性url候補取得方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6478730B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019142399A1 (ja) * 2018-01-17 2019-07-25 日本電信電話株式会社 収集装置、収集方法及び収集プログラム

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003023466A (ja) * 2001-07-09 2003-01-24 Sanaru:Kk 有害サイトアクセス防止用インターネットサービスプロバイダ
JP2004046739A (ja) * 2002-07-15 2004-02-12 Fujitsu Ltd データ送信方法、データ送信システム、中継装置、コンピュータプログラム、及び記録媒体
JP2005208780A (ja) * 2004-01-21 2005-08-04 Nec Corp メールフィルタリングシステム及びそれに用いるurlブラックリスト動的構築方法
JP2006221294A (ja) * 2005-02-09 2006-08-24 Nec Engineering Ltd Url検索方法及び検索装置
US20090126026A1 (en) * 2007-11-08 2009-05-14 Min Sik Kim Method, apparatus and system for managing malicious-code spreading sites using search engine
JP2009541822A (ja) * 2006-06-16 2009-11-26 ヤフー! インコーポレイテッド 検索早期警告
JP2012221216A (ja) * 2011-04-08 2012-11-12 Kddi Corp アプリケーション評価装置およびプログラム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003023466A (ja) * 2001-07-09 2003-01-24 Sanaru:Kk 有害サイトアクセス防止用インターネットサービスプロバイダ
JP2004046739A (ja) * 2002-07-15 2004-02-12 Fujitsu Ltd データ送信方法、データ送信システム、中継装置、コンピュータプログラム、及び記録媒体
JP2005208780A (ja) * 2004-01-21 2005-08-04 Nec Corp メールフィルタリングシステム及びそれに用いるurlブラックリスト動的構築方法
JP2006221294A (ja) * 2005-02-09 2006-08-24 Nec Engineering Ltd Url検索方法及び検索装置
JP2009541822A (ja) * 2006-06-16 2009-11-26 ヤフー! インコーポレイテッド 検索早期警告
US20090126026A1 (en) * 2007-11-08 2009-05-14 Min Sik Kim Method, apparatus and system for managing malicious-code spreading sites using search engine
JP2012221216A (ja) * 2011-04-08 2012-11-12 Kddi Corp アプリケーション評価装置およびプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"NTTセキュアプラットフォーム研究所のR&D展開、マルウェア対策 独自開発のハニーポット技術を用いて", BUSINESS COMMUNICATION 第50巻 第11号, JPN6018026169, 1 November 2013 (2013-11-01), JP, pages 16 - 17, ISSN: 0003835092 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019142399A1 (ja) * 2018-01-17 2019-07-25 日本電信電話株式会社 収集装置、収集方法及び収集プログラム
JPWO2019142399A1 (ja) * 2018-01-17 2020-04-30 日本電信電話株式会社 収集装置、収集方法及び収集プログラム
US11556819B2 (en) 2018-01-17 2023-01-17 Nippon Telegraph And Telephone Corporation Collection apparatus, collection method, and collection program

Also Published As

Publication number Publication date
JP6478730B2 (ja) 2019-03-06

Similar Documents

Publication Publication Date Title
US9043917B2 (en) Automatic signature generation for malicious PDF files
US9407658B1 (en) System and method for determining modified web pages
US10089464B2 (en) De-obfuscating scripted language for network intrusion detection using a regular expression signature
Hong et al. Phishing url detection with lexical features and blacklisted domains
Egele et al. Defending browsers against drive-by downloads: Mitigating heap-spraying code injection attacks
Amrutkar et al. Detecting mobile malicious webpages in real time
US8893278B1 (en) Detecting malware communication on an infected computing device
Liu et al. A novel approach for detecting browser-based silent miner
US20090064337A1 (en) Method and apparatus for preventing web page attacks
WO2015142755A1 (en) Behavior profiling for malware detection
KR102271545B1 (ko) 도메인 생성 알고리즘(dga) 멀웨어 탐지를 위한 시스템 및 방법들
Kim et al. Detecting fake anti-virus software distribution webpages
JP6687761B2 (ja) 結合装置、結合方法および結合プログラム
US10445501B2 (en) Detecting malicious scripts
WO2018076697A1 (zh) 僵尸特征的检测方法和装置
KR102120200B1 (ko) 악성 코드 수집 방법 및 시스템
JP6557334B2 (ja) アクセス分類装置、アクセス分類方法、及びアクセス分類プログラム
Lamprakis et al. Unsupervised detection of APT C&C channels using web request graphs
KR101859562B1 (ko) 취약점 정보 분석 방법 및 장치
JP2011257901A (ja) 解析システム、解析装置、解析方法及び解析プログラム
Malviya et al. Development of web browser prototype with embedded classification capability for mitigating Cross-Site Scripting attacks
Le Jamtel Swimming in the Monero pools
Chaudhary et al. Plague of cross-site scripting on web applications: a review, taxonomy and challenges
Canfora et al. A set of features to detect web security threats
Takata et al. Minespider: Extracting urls from environment-dependent drive-by download attacks

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170905

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180629

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180710

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180910

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190115

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190205

R150 Certificate of patent or registration of utility model

Ref document number: 6478730

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250