JP6823205B2 - 収集装置、収集方法及び収集プログラム - Google Patents

収集装置、収集方法及び収集プログラム Download PDF

Info

Publication number
JP6823205B2
JP6823205B2 JP2019565704A JP2019565704A JP6823205B2 JP 6823205 B2 JP6823205 B2 JP 6823205B2 JP 2019565704 A JP2019565704 A JP 2019565704A JP 2019565704 A JP2019565704 A JP 2019565704A JP 6823205 B2 JP6823205 B2 JP 6823205B2
Authority
JP
Japan
Prior art keywords
search
search query
keyword
unit
web page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019565704A
Other languages
English (en)
Other versions
JPWO2019142399A1 (ja
Inventor
駿 小出
駿 小出
大紀 千葉
大紀 千葉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2019142399A1 publication Critical patent/JPWO2019142399A1/ja
Application granted granted Critical
Publication of JP6823205B2 publication Critical patent/JP6823205B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6227Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/145Countermeasures against malicious traffic the attack involving the propagation of malware through the network, e.g. viruses, trojans or worms
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1483Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/02Network architectures or network communication protocols for network security for separating internal from external traffic, e.g. firewalls
    • H04L63/0227Filtering policies
    • H04L63/0236Filtering by address, protocol, port number or service, e.g. IP-address or URL
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1491Countermeasures against malicious traffic using deception as countermeasure, e.g. honeypots, honeynets, decoys or entrapment

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Bioethics (AREA)
  • Virology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、収集装置、収集方法及び収集プログラムに関する。
悪意のあるソフトウェアの総称であるマルウェアの感染は、ユーザのWebページ閲覧に起因することが多い。このマルウェアのユーザへの侵入の際に、ドライブ・バイ・ダウンロード(Drive-By Download:DBD)攻撃が用いられる。DBD攻撃は、Webブラウザを用いて、Webページに接続したユーザを、自動で攻撃ページに転送し、マルウェアに感染させる攻撃である。DBD攻撃は、Webブラウザやそれに導入されるプラグインの脆弱性を悪用してユーザにマルウェアを感染させる。
DBD攻撃を発生させるWebページを分析するために、脆弱性を内包するおとりのシステムであるWebクライアント型ハニーポットを使用する方法がある。この方法では、Webクライアント型ハニーポットを用いてWebページを分析し、DBD攻撃を発生する悪性なWebページであると判明した場合、そのWebページのURL(Uniform Resource Locator)、ドメイン名、IPアドレスを代表とする通信先情報をブラックリストとして設定する。そして、各セキュリティ装置は、このブラックリストに対するWebアクセスを遮断することによって、ユーザがマルウェアに感染することを防止する。
L. Invernizzi, P. M. Comparetti, S. Benvenuti, C. Kruegel, M. Cova, and G. Vigna, "EVILSEED: A Guided Approach to Finding Malicious Web Pages", IEEE S&P., pp.428−442, 2012. T. Nelms, R. Perdisci, M. Antonakakis, and M. Ahamad, "Towards Measuring and Mitigating Social Engineering Software Download Attacks", USENIX Security Symposium, pp.773−789, 2016.
悪性Webページの通信先情報を示すブラックリストを生成するためには、Webページを解析して、Webページを経由した攻撃の発生の有無を分析する必要がある。このWebページの解析時間の大部分は、配信元サーバの処理時間及びデータ転送時間である。すなわち、Webページの解析においては、配信元サーバの処理時間とデータ転送時間とに長時間を要するため、Webページの解析の高速化が難しく、解析時間の短縮には限界がある。
また、Web空間には10億件以上のWebページが存在し、その数は日々増大しているため、全てのWebページを順次解析し、そのWebページが有効な期間内にブラックリスト化することは困難である。
したがって、悪性である可能性が高いWebページを優先的に収集し、解析の入力とすることが必要である。
DBD攻撃が発生するWebページの多くは、攻撃者が改ざんした正規のWebページである。従来では、DBD攻撃が発生するWebページを効率的に収集するために、Webページの改ざんに使われた脆弱性の特徴を用いて検索エンジンによって収集する方法、及び、ドメイン名が短期的に使い捨てられる特徴を基にドメイン名登録情報からWebページのドメイン名を収集する方法などが提案されている。
一方、近年では、DBD攻撃のようにシステムの脆弱性を悪用する攻撃とは異なる「ユーザ操作を誘導する攻撃」が増加している。「ユーザ操作を誘導する攻撃」は、ユーザの興味を引いたり、警告したり、欺いたりすることによって、ユーザの心理的な隙を突き、ユーザ自らにマルウェアをインストールさせる攻撃である。
「ユーザ操作を誘導する攻撃」の具体的な攻撃方法として、例えば、人気のあるデジタルコンテンツ(映像、音楽、ソフトウェア等)を非正規に無料で入手可能に見せかけるボタンを表示する場合がある。そして、このボタンをユーザにクリックさせることによって、端末画面のWebページを別のWebページに遷移させたり、端末にマルウェアや悪性なブラウザ拡張機能をダウンロードさせたりすることが考えられる。
この「ユーザ操作を誘導する攻撃」が発生するWebページは、改ざんされた正規のWebページではなく、攻撃者が用意したWebページや広告が起点となることが多い。このため、脆弱性を持つWebページの特徴を用いて検索エンジンによる検索を行う方法では、この攻撃が発生するWebページのURLを効率的に収集することが難しい。また、「ユーザ操作を誘導する攻撃」が発生するWebページは、Webページのドメイン名が長期間使用される傾向がある。このため、ドメイン名が短期的に使い捨てられる特徴を基にドメイン名を抽出する方法では、この攻撃の起点となるWebページのドメイン名を抽出することが難しい。
このように、DBD攻撃が発生するURLの収集に用いられた従来の手法は、「ユーザ操作を誘導する攻撃」に対して有用であるとは言い難い。また、「ユーザ操作を誘導する攻撃」の特徴を捉え、効率的にURLを収集する方法は、従来提案されていなかった。
本発明は、上記に鑑みてなされたものであって、ユーザ操作をマルウェア感染に誘導するWebページのURLを効率的に収集する収集装置、収集方法及び収集プログラムを提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明に係る収集装置は、WebページのURLを収集する収集装置であって、デジタルコンテンツの名称であるデジタルコンテンツ名と、該デジタルコンテンツの付随キーワードとを組み合わせて、検索エンジンの検索クエリを生成する検索クエリ生成部と、検索クエリ生成部が生成した検索クエリの特徴情報を基に、生成した検索クエリで検索を行った場合にユーザ操作を誘導するWebページを検索結果として出力する度合いを予測する度合い予測部と、度合い予測部が予測した度合いに基づいた検索順で検索クエリによるWebページの検索を実施し、検索したWebページのURLに対して、検索クエリの度合いと検索結果情報とを基に、ユーザ操作を誘導するWebページであるか否かを解析する際の優先度である解析優先度を決定する決定部と、決定部が検索したWebページのURLと、該URLの解析優先度とを対応付けて、解析装置に出力する出力部と、を有することを特徴とする。
本発明によれば、ユーザ操作をマルウェア感染に誘導するWebページのURLを効率的に収集できる。
図1は、実施の形態における解析システムの構成の一例を示す図である。 図2は、図1に示す収集装置の構成の一例を示す図である。 図3は、図2に示すカテゴリデータベース(DB)が記憶するカテゴリデータのデータ構成の一例を示す図である。 図4は、図2に示す既知検索クエリDBが記憶するデータの一例を示す図である。 図5は、ホワイトリストのデータ構成の一例を示す図である。 図6は、図2に示す第1キーワード収集部が収集した第1キーワードと付加情報とを示す図である。 図7は、図2に示す第2キーワード収集部が収集する第2キーワードの一例を示す図である。 図8は、図2に示す生成部が生成した検索クエリの一例を示す図である。 図9は、図2に示す特徴情報抽出部が抽出する検索クエリの特徴情報の一例を示す図である。 図10は、図2に示す解析優先度算出部が算出したURLに対する解析優先度の一例を示す図である。 図11は、図2に示す適合度予測モデルの構築処理の処理手順を示すフローチャートである。 図12は、図2に示す収集装置が実行するWebページの収集処理の処理手順を示すフローチャートである。 図13は、図12に示す検索クエリ生成処理の処理手順を示すフローチャートである。 図14は、図12に示す適合度予測処理の処理手順を示すフローチャートである。 図15は、図12に示す解析優先度決定処理の処理手順を示すフローチャートである。 図16は、プログラムが実行されることにより、収集装置が実現されるコンピュータの一例を示す図である。
以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施の形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。
[実施の形態]
本発明の実施の形態について説明する。図1は、実施の形態における解析システムの構成の一例を示す図である。
図1に示すように、実施の形態に係る解析システム1は、解析装置3と、ネットワーク2と解析装置3との間に設けられた収集装置4とを有する。収集装置4は、ネットワーク2を介して、外部装置(不図示)と接続する。
収集装置4は、ユーザ操作を誘導するWebページのURLを収集する。収集装置4は、ネットワーク2を介して収集したWebページのうち、「ユーザ操作を誘導する攻撃」が発生するWebページである可能性が高いWebページのURLを優先的に収集して、解析装置3に出力する。なお、「ユーザ操作を誘導する攻撃」は、ユーザの興味を引いたり、警告したり、欺いたりすることによって、ユーザの心理的な隙を突き、ユーザ自らにマルウェアをインストールさせる攻撃である。
解析装置3は、収集装置4が出力した「ユーザ操作を誘導する攻撃」が発生するWebページである可能性が高いWebページを入力として、解析を行い、攻撃発生の有無を分析する。そして、解析装置3は、分析結果を基にブラックリストを生成する。そして、各セキュリティ装置(不図示)は、このブラックリストに対するWebアクセスを遮断することによって、ユーザがマルウェアに感染することを防止する。
ここで、攻撃者にとって、「ユーザ操作を誘導する攻撃」は、攻撃を発動させるユーザ操作をどれだけ発生させるかが重要である。この観点で、デジタルデータのダウンロードボタンを表示することによる誘導は広く行われていると考えられる。中でもWebページに掲載される順位情報(購入数順位やおすすめ順位等)が高く、人気があるデジタルコンテンツはダウンロードボタンへの多数のクリックが期待されることから、「ユーザ操作を誘導する攻撃」で多く利用されることが推測される。収集装置4は、この点に着目し、「ユーザ操作を誘導する攻撃」が発生するWebページである可能性が高いWebページのURLを優先的に収集する。
具体的には、収集装置4は、デジタルコンテンツ名とその付随キーワードとを組み合わせて生成した検索クエリによりURL抽出を行う。そして、収集装置4は、新たに抽出した検索クエリおよび既知の検索クエリの特徴情報(デジタルコンテンツの順位情報を含む)に基づいて、検索クエリによる検索結果に「ユーザ操作を誘導する攻撃」が含まれる度合い(適合度)を予測する。続いて、収集装置4は、予測した適合度を用いて、抽出したURLの解析優先度を決定し、抽出したURLと、該URLの解析優先度とを対応付けて、解析装置3に出力する。
[収集装置の構成]
そこで、収集装置4の構成について説明する。図2は、図1に示す収集装置4の構成の一例を示す図である。図2に示すように、収集装置4は、通信部10、記憶部20及び制御部30を有する。また、収集装置4は、操作者からの各種操作を受け付ける入力インタフェース(不図示)や、表示装置、印刷装置、情報通信装置等によって実現された出力装置(不図示)を有する。
通信部10は、ネットワーク2等を介して接続された他の装置との間で、各種情報を送受信する通信インタフェースである。通信部10は、NIC(Network Interface Card)等で実現され、LAN(Local Area Network)やインターネットなどの電気通信回線を介した他の装置と制御部30(後述)との間の通信を行う。例えば、通信部10は、ネットワーク2を介して、Webページを収集する。また、通信部10は、制御部30によって抽出された「ユーザ操作を誘導する攻撃」が発生するWebページである可能性が高いWebページのURLと、該URLの解析優先度とを対応付けて、解析装置3に出力する。
記憶部20は、HDD(Hard Disk Drive)、SSD(Solid State Drive)、光ディスク等の記憶装置である。なお、記憶部20は、RAM(Random Access Memory)、フラッシュメモリ、NVSRAM(Non Volatile Static Random Access Memory)等のデータを書き換え可能な半導体メモリであってもよい。記憶部20は、収集装置4で実行されるOS(Operating System)や各種プログラムを記憶する。さらに、記憶部20は、プログラムの実行で用いられる各種情報を記憶する。記憶部20は、カテゴリDB21、既知キーワードDB22、既知検索クエリDB23、適合度予測モデル24(予測モデル)及びホワイトリストDB25を有する。
カテゴリDB21は、カテゴリ入力部311(後述)が入力を受け付けるデジタルデータのカテゴリと、各カテゴリに対応する収集先のWebページとを示すカテゴリデータを記憶する。
図3は、図2に示すカテゴリDB21が記憶するカテゴリデータのデータ構成の一例を示す図である。カテゴリデータは、図3に示すように、デジタルデータカテゴリと、各カテゴリに対応する収集先のWebページとが対応付けられており、それぞれに通番が付されている。第1キーワード収集部312(後述)は、カテゴリDB21を参照して、入力されたデジタルデータのカテゴリに対応する収集先Webページを巡回して、第1キーワードを収集する。
ここで、図3に示す各カテゴリは、カテゴリ入力部311において入力が期待されるデジタルデータのカテゴリである。具体的には、図3に示すように、カテゴリ入力部311において入力が期待されるデジタルデータのカテゴリとして、「Movie」、「Game」、「Software」、「Book」、「Music」等がある。カテゴリは、これらに限るものではない。
また、各カテゴリに対応する収集先Webページは、デジタルデータのコンテンツ名を掲載するWebページである。収集先Webページは、カテゴリごとに予め設定され、カテゴリDB21に記憶される。なお、Webページが掲載するデジタルデータのコンテンツ名は、第1キーワード収集部312が、デジタルデータのカテゴリに属する任意のデジタルコンテンツ名である第1キーワードとして収集するものである。例えば、デジタルデータのコンテンツ名として、PCソフトウェアの製品名、映画や書籍の商品名、投稿された動画名等がある。コンテンツ名は、これらに限るものではない。
例えば、通番「1」のカテゴリ「Movie」については、映画の名称「Movie1」をコンテンツ名として掲載するWebページのURL「http://movie1.example.com」が対応付けられている。また、通番「2」のカテゴリ「Game」については、ゲームの名称「Game1」をコンテンツ名として掲載するWebページのURL「http://game1.example.org」が対応付けられている。
既知キーワードDB22は、予めカテゴリごとに求められた既知の第2キーワードを記憶する。第2キーワードは、検索エンジンの検索クエリに第1キーワードが含まれる場合に、第1キーワードに付随する付随キーワードである。そして、この第2のキーワードのうち、ユーザ操作を誘導するWebページを多く出力する文字列が、既知の第2キーワードとして、予め求められ、既知キーワードDB22に格納される。例えば、既知キーワードDB22は、カテゴリ「Movie」の既知の第2キーワードとして「free」を記憶する。また、既知キーワードDB22は、カテゴリ「Game」の既知の第2キーワードとして「download」を記憶する。
既知検索クエリDB23は、検索結果が既知である検索クエリと、その検索クエリの適合度とを対応付けて記憶する。これらの検索結果が既知である検索クエリと、その検索クエリの適合度とは、予め求められたものである。検索クエリの適合度は、前述したように、検索クエリによる検索結果に「ユーザ操作を誘導する攻撃」が含まれる度合である。言い換えると、適合度は、ユーザ操作を誘導するWebサイトを検索結果として出力するという目的にどれくらい適合しているかを表す指標である。
また、検索結果が既知である検索クエリは、ユーザ操作を誘導するWebページを検索結果に含む既知の検索クエリ(悪性検索クエリ)と、ユーザ操作を誘導するWebページを検索結果に含まない既知の検索クエリ(良性検索クエリ)とである。
図4は、図2に示す既知検索クエリDB23が記憶するデータの一例を示す図である。既知検索クエリDB23は、図4に示すように、検索結果が既知である検索クエリと、該検索クエリの適合度とを記憶する。ここで、ユーザ操作を誘導するWebページが1件でも検索結果に含まれると、この検索クエリは、悪性検索クエリとして扱われる。図4の例では、適合度が「0」である通番「101」の検索クエリ「MovieA online」は、良性検索クエリである。それ以外の適合度が0より大の検索クエリは、悪性クエリである。
検索結果が既知である検索クエリの適合度は、予め求められ、各検索クエリに対応付けられた状態で、既知検索クエリDB23に格納される。この適合度は、例えば、(1)式を用いて求められる。
Figure 0006823205
例えば、検索クエリ「MovieA free download」について、検索結果の出力結果数が10件であり、ユーザ操作を誘導するWebページ数が7件である場合を例に説明する。この場合には、(1)式に、これらの件数を適用することによって、検索クエリ「MovieA free download」に対し、適合度「0.7」が求められる。なお、適合度は、(1)式に限らず、他の演算式を用いて算出されてもよい。また、既知検索クエリDB23は、既知である検索クエリと検索結果の出力結果の集合と、ユーザ操作を誘導するWebページの集合とを対応付けて記憶していてもよい。
適合度予測モデル24は、検索クエリの特徴情報が入力されると、入力された特徴情報に応じた適合度を出力するモデルである。適合度予測モデル24は、既知の悪性検索クエリの適合度及び既知の悪性検索クエリと、既知の良性検索クエリの適合度及び既知の良性検索クエリの特徴情報と、を基に、既知の検索クエリの適合度と、既知の検索クエリの特徴情報とが有する特徴を学習したモデルの各種パラメータを含む。適合度予測モデル24は、モデル構築部323(後述)によって、Webページ収集処理前に、事前学習によって各種パラメータが最適化されている。
ホワイトリストDB25は、解析装置3の解析対象外のWebページ群が、カテゴリごとに予め設定されたホワイトリストを記憶する。図5は、ホワイトリストのデータ構成の一例を示す図である。
ホワイトリストは、図5に示すように、ドメイン名およびURL等の通信先情報と、カテゴリとが対応付けられ、それぞれに通番が付されたデータ構成を有する。このホワイトリストは、解析装置3の解析対象外のWebページ群が、カテゴリごとに予め設定されたものである。なお、図5では、ホワイトリストとして設定する通信先の種別として、Webページのドメイン名やURLを例示したが、これらの項目に限るものではない。このホワイトリストは、ホワイトリスト除外部333(後述)により参照される。
制御部30は、収集装置4全体を制御する。制御部30は、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)等の電子回路や、ASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)等の集積回路である。また、制御部30は、各種の処理手順を規定したプログラムや制御データを格納するための内部メモリを有し、内部メモリを用いて各処理を実行する。また、制御部30は、各種のプログラムが動作することにより各種の処理部として機能する。制御部30は、検索クエリ生成部31、適合度予測部32(度合い予測部)及び解析優先度決定部33(決定部)を有する。
検索クエリ生成部31は、デジタルコンテンツの名称であるデジタルコンテンツ名と、該デジタルコンテンツの付随キーワードとを組み合わせて、検索エンジンの検索クエリを生成する。
適合度予測部32は、検索クエリ生成部31が生成した検索クエリの特徴情報を基に、検索クエリの適合度を予測する。適合度は、生成した検索クエリで検索を行った場合にユーザ操作を誘導するWebページを検索結果として出力する度合いである。
解析優先度決定部33は、適合度予測部32が予測した適合度に基づいた検索順で検索クエリによるWebページの検索を実施する。そして、解析優先度決定部33は、検索したWebページのURLに対して、検索クエリの適合度と検索結果情報とを基に、解析優先度を決定する。解析優先度は、ユーザ操作を誘導するWebページであるか否かを解析する際の優先度である。なお、通信部10は、解析優先度決定部33が検索したWebページのURLと、該URLの解析優先度とを対応付けて、解析装置3に出力する。
[検索クエリ生成部]
次に、検索クエリ生成部の構成について説明する。検索クエリ生成部31は、カテゴリ入力部311、第1キーワード収集部312、第2キーワード収集部313及び生成部314を有する。
カテゴリ入力部311は、デジタルデータのカテゴリの入力を受付ける。カテゴリ入力部311は、第1キーワードを収集するためのカテゴリを入力として許容する。第1キーワードは、カテゴリに属する任意のデジタルコンテンツ名である。
第1キーワード収集部312は、予め収集先として設定されたWebサイトから、カテゴリに属する任意のデジタルコンテンツ名を第1キーワードとして収集する。第1キーワード収集部312は、カテゴリ入力部311から入力されたデジタルデータのカテゴリごとにWebページを選択する。第1キーワード収集部312は、カテゴリDB21を参照して、入力されたカテゴリに対応する収集先Webページを選択する。第1キーワード収集部312は、選択したWebページにアクセスして製品及び配信データを示すデジタルコンテンツ名を第1キーワードとして抽出することによって、第1キーワードを収集する。第1キーワード収集部312は、第1キーワードとともに、第1キーワードの付加情報も収集する。
図6は、図2に示す第1キーワード収集部312が収集した第1キーワードと付加情報とを示す図である。第1キーワード収集部312は、カテゴリ入力部311においてカテゴリが入力されると、図6に示すカテゴリごとに設定された収集先WebページにWebアクセスを行う。そして、図3に示すように、第1キーワード収集部312は、Webアクセスを行った各Webページから、カテゴリに属する任意のデジタルコンテンツ名を、第1キーワードとして収集する。
さらに、第1キーワード収集部312は、第1キーワードとともに付加情報を抽出する。付加情報は、図6に例示するように、第1キーワードに紐づくカテゴリ、収集先Webページ、順位情報である。順位情報は、購入数順位、おすすめ順位、動画の投稿日時順位、ユーザ評価による人気順位等である。付加情報は、これらの項目に限るものではない。
具体的には、第1キーワード収集部312は、入力されたカテゴリが「Movie」である場合には、カテゴリ「Movie」に対応するURL「http://movie1.example.com」(図3参照)のWebページにアクセスする。この場合、第1キーワード収集部312は、このWebページに映画の名称「MovieA」が掲載されている場合には、この「MovieA」を第1キーワードとして収集する(図3参照)。また、第1キーワード収集部312は、このWebページに含まれる付加情報を抽出する。例えば、第1キーワード収集部312は、このWebページから、第1キーワード「MovieA」に紐づくカテゴリ「Movie」、収集先Webページ「http://movie1.example.com」、順位情報「1」を、付加情報として抽出する。この付加情報は、解析優先度の算出のために用いられる場合がある。
第1キーワード収集部312は、各Webページから第1キーワード及び付加情報を収集するためのWebページ巡回処理と文字列抽出処理として、例えば、ブラウザ操作自動化ツールや、プログラミング言語によりブラウザ操作を記述可能なWebブラウザを用いて実行する。第1キーワード収集部312は、他の方法を用いることもできる。また、第1キーワード収集部312が実行するWebページ巡回及び文字列抽出の処理手順は、Webページごとに予め設定される。
第2キーワード収集部313は、第2キーワードを収集する。第2キーワードは、検索エンジンの検索クエリに第1キーワードが含まれる場合に、第1キーワードに付随する付随キーワードである。言い換えると、第2キーワードは、検索エンジンの検索クエリとして第1キーワードに付加されることが多い文字列である。
第2キーワード収集部313は、第1キーワード収集部312によって収集された第1キーワードを用いて、新たな第2のキーワードを収集する。具体的には、第2キーワード収集部313は、検索エンジンの検索サジェスト機能と関連検索機能とを用いて第1キーワードを含む文字列を抽出し、該文字列から第1キーワード以外の文字列を第2キーワードとして抽出する。
なお、一部の第2キーワードについては、予めカテゴリごとに求められており、既知の第2キーワードとして既知キーワードDB22に格納される。この既知の第2キーワードは、任意の第1キーワードに付加して検索すると、ユーザ操作を誘導するWebページを多く出力する文字列である。
図7は、図2に示す第2キーワード収集部313が収集する第2キーワードの一例を示す図である。第2キーワード収集部313は、第1キーワード収集部312が収集した第1キーワードを用いて第2キーワードの収集を行う。前述したように第2キーワードは、検索エンジンの検索クエリとして第1キーワードに付加されることが多い文字列である。
第2キーワード収集部313は、第1キーワードに付加して検索するとユーザ操作を誘導するWebページを多く出力する既知の第2キーワードを用いて、検索エンジンの検索サジェスト機能と関連検索機能による第2キーワードの抽出を行う。第2キーワード収集部313は、既知キーワードDB22を参照して、既知の第2キーワードを取得する。
例えば、第2キーワード収集部313は、図7の通番「1」に示すように、カテゴリ「Movie」に属する第1キーワード「MovieA」に、既知の第2キーワード「free」を付加して文字列「MovieA free」を構成する。
続いて、第2キーワード収集部313は、文字列「MovieA free」を検索サジェスト機能に入力し、検索サジェスト機能から出力された文字列「MovieA free download」を得る。第2キーワード収集部313は、出力された文字列「MovieA free download」のうち新たに得られた文字列「download」を、カテゴリ「Movie」に属する第2キーワードとして抽出する。なお、第2キーワードは図7に示すものに限らず、また、その抽出方法も他の方法を適用可能である。
生成部314は、第1キーワードと第2キーワードとを組み合わせて検索クエリを生成する。生成部314は、第1キーワード収集部312が収集した第1キーワードと、第2キーワード収集部313が収集した第2キーワードとを組み合わせて、検索クエリを生成する。生成部314は、生成した検索クエリを、適合度予測部32に出力する。
図8は、図2に示す生成部314が生成した検索クエリの一例を示す図である。生成部314は、第1キーワードと、該第1キーワードとカテゴリが一致する既知の第2キーワードとを連結して検索クエリを構成する。または、生成部314は、第1キーワードと、該第1キーワードを用いて収集した第2キーワードとを連結して検索クエリを構成する。
例えば、生成部314は、第1キーワード「MovieA」と、該第1キーワード「MovieA」と同カテゴリ「Movie」である既知の第2キーワード「free」とを連結して、検索クエリ「MovieA free」を生成する(図8の通番「1」参照)。また、生成部314は、第1キーワード「MovieA」と、該第1キーワード「MovieA」と同カテゴリ「Movie」である既知の第2キーワード「free」と、第2キーワード収集部313が収集した第2キーワード「download」を連結して、検索クエリ「MovieA free download」を生成する(図8の通番「2」参照)。
生成部314は、第1キーワードと、該第1キーワードとカテゴリが異なる既知の第2キーワード、または、収集した第2キーワードとを連結して検索クエリを構成してもよい。なお、第1キーワードと第2キーワードとの組み合わせは、図8に示したものに限るものではない。
[適合度予測部]
次に、適合度予測部32の構成について説明する。適合度予測部32は、適合度取得部321、特徴情報抽出部322、モデル構築部323及び予測部324を有する。
適合度取得部321は、検索結果が既知である検索クエリの適合度を取得する。適合度取得部321は、既知検索クエリDB23を参照して、検索結果が既知である検索クエリの適合度を取得する。また、既知検索クエリDB23が、既知である検索クエリと検索結果の出力結果の集合と、ユーザ操作を誘導するWebページの集合とが対応付けて記憶する場合には、適合度取得部321は、既知検索クエリDB23から、適合度取得対象の検索クエリのデータを取得し、(1)式を用いて適合度を算出して、適合度を取得する。適合度取得部321は、(1)式に限らず、他の演算式を用いて適合度を算出してもよい。
特徴情報抽出部322は、検索クエリの特徴情報を抽出する。特徴情報抽出部322は、検索結果が既知である検索クエリの特徴情報を抽出する。また、検索クエリ生成部31が生成した検索クエリの特徴情報を抽出する。検索クエリの特徴情報は、例えば、検索クエリを構成する文字列が属するカテゴリ、検索クエリ全他の単語数や文字数などがある。
図9は、図2に示す特徴情報抽出部322が抽出する検索クエリの特徴情報の一例を示す図である。検索クエリの特徴情報は、例えば、図9の各項目に示すように、検索クエリ生成部31が検索クエリの生成に使用した第1のキーワードの付加情報である順位やカテゴリ、第2キーワードの個数(第2キーワード数)、Bag of Wordsモデル、検索クエリ全体の単語数、或いは、文字数が考えられる。検索情報特徴情報は、図9に示す項目に限るものではない。
特徴情報抽出部322が、検索クエリ生成部31が生成した検索クエリのうち、例えば、検索クエリ「MovieA free」から特徴情報を抽出する場合について説明する。この場合、特徴情報抽出部322は、検索クエリ「MovieA free」に、「free」が1回出現するため、Bag of Wordsモデルの「free」欄に対応する特徴情報として「1」を抽出する。続いて、特徴情報抽出部322は、検索クエリ「MovieA free」に既知の第2キーワード「free」があるため、第2キーワード数の対応する特徴情報として「1」を抽出する。特徴情報抽出部322は、検索クエリ「MovieA free」の単語数「2」、文字数「1」を抽出する。さらに、特徴情報抽出部322は、検索クエリ「MovieA free」のうちの第1のキーワード「MovieA」の付加情報から順位「1」を抽出し、カテゴリとして「Movie」を抽出する。
モデル構築部323は、検索結果が既知である検索クエリの特徴情報及び適合度を、適合度予測モデル24に学習させる。検索結果が既知である検索クエリの適合度は、適合度取得部321が取得した物である。検索結果が既知である検索クエリの特徴情報は、特徴情報抽出部322が、検索結果が既知である検索クエリから抽出したものである。なお、適合度予測モデル24は、記憶部20に記憶されている。
モデル構築部323は、例えば、教師あり機械学習手法を採用し、検索結果が既知である検索クエリの特徴情報及び適合度を教師データとして、適合度予測モデル24に学習させる。なお、適用可能な教師あり機械学習手法として、サポートベクターマシンやランダムフォレストがあるが、これらの手法に限るものではない。
予測部324は、検索クエリ生成部31が生成した検索クエリの特徴情報を用いて、検索クエリ生成部31が生成した検索クエリの適合度を予測する。予測部324は、適合度予測モデル23に、検索クエリ生成部31が生成した検索クエリの特徴情報を入力し、適合度予測モデル23が出力した検索クエリの適合度を取得する。
[解析優先度決定部]
次に、解析優先度決定部33の構成について説明する。解析優先度決定部33は、検索順決定部331、検索実施部332、ホワイトリスト除外部333及び解析優先度算出部334を有する。
検索順決定部331は、適合度予測部32が予測した適合度に基づいて検索クエリ生成部11が生成した検索クエリの検索順を決定する。検索順決定部331は、適合度予測部32が予測した適合度を用いて、検索クエリ生成部11が生成した検索クエリのうち、検索実施部332が実施する検索に使用する検索クエリと、その検索順を決定する。例えば、検索順決定部31は、検索クエリ生成部11が生成した検索クエリから、予め設定した適合度の閾値を超える検索クエリを抽出し、該抽出した検索クエリに対し、適合度が高い順に検索されるように検索順を決定する。
検索実施部332は、検索順決定部331が決定した検索順で検索クエリによるWebページの検索を実施する。そして、検索実施部332は、検索クエリを用いた検索結果として、WebページのURLを抽出する。
ホワイトリスト除外部333は、予めカテゴリごとに求められたURLであって解析装置3における解析対象外のWebページのURLを、検索実施部332が検索したWebページのURLから除外する。解析対象外のWebページのURLは、ホワイトリストDB25が記憶するホワイトリストに予め示されている。ホワイトリスト除外部333は、ホワイトリストDB25のホワイトリストを参照して、解析対象外のWebページのURLを、検索実施部332が検索したWebページのURLから除外する。
解析優先度算出部334は、ホワイトリスト除外部333による除外後のURLについて、検索クエリの適合度と検索クエリの検索順位と検索結果情報とを基に解析優先度を算出する。この除外後のURLと、該URLの解析優先度は、通信部10から、解析装置3に出力される。例えば、通信部10からは、解析優先度が高い順に、URLが出力される。解析装置3では、このURLの解析優先度を、ユーザ操作を誘導するWebページを優先的に解析するための指標として用いることによって、解析の効率化を図る。
具体的に、解析優先度の算出方法について説明する。解析優先度算出部334は、除外後のURLに対し、検索エンジンの出力結果の集合、URLの検索時の検索クエリの検索順位、及び、このURLの検索時の検索クエリの適合度を、(2)式に適用して、解析優先度を算出する。なお、検索クエリの適合度は、適合度予測部32によって予測される。また、URLの検索順位は、検索順決定部331によって、適合度予測部32が予測した適合度を基に決定される。
Figure 0006823205
図10は、図2に示す解析優先度算出部334が算出したURLに対する解析優先度の一例を示す図である。図10には、ホワイトリスト除外部333から出力されたURLに対する解析優先度の一例を示す。
図10に示すように、解析優先度算出部334は、(2)式を用いて、URL「http://movie.example.com/」の解析優先度を「0.9」と算出する。また、解析優先度算出部334は、(2)式を用いて、URL「http://game.example.com/」の解析優先度を「0.8」と算出する。通信部10は、図10に示すURLと該URLの解析優先度とを対応付けたデータを、収集したURLを示すデータとして解析装置3に出力する。
なお、解析優先度算出部334は、(2)式に限らず、他の方法を用いて解析優先度を算出してもよい。例えば、解析優先度算出部334は、(3)式を用いて、第1キーワードの付加情報である第1キーワード順位を用いて、解析優先度を算出してもよい。
Figure 0006823205
[適合度予測モデルの構築処理の処理手順]
次に、適合度予測モデルの構築処理について説明する。図11は、図2に示す適合度予測モデルの構築処理の処理手順を示すフローチャートである。
まず、適合度取得部321は、既知検索クエリDB23を参照して、検索結果が既知である検索クエリを取得する(ステップS1)とともに、既知である検索クエリの適合度を算出する(ステップS2)。特徴情報抽出部322は、適合度取得部321が取得した、検索結果が既知である検索クエリの特徴情報を取得する(ステップS3)。
モデル構築部323は、教師あり機械学習を適用して(ステップS4)、検索結果が既知である検索クエリの特徴情報及び適合度を、適合度予測モデル24に学習させる。そして、モデル構築部323は、学習により各種パラメータが最適化された適合度予測モデル24を更新し(ステップS5)、適合度予測モデルの構築処理を終了する。この処理は、少なくとも、Webページ収集処理前に実行される。また、この処理は、Webページの収集処理と並行して実行されてもよい。
[Webページの収集処理の処理手順]
次に、収集装置4が実行するWebページの収集処理の処理手順について説明する。図12は、図2に示す収集装置4が実行するWebページの収集処理の処理手順を示すフローチャートである。
図12に示すように、収集装置4では、検索クエリ生成部31が、デジタルコンテンツの名称であるデジタルコンテンツ名と、該デジタルコンテンツの付随キーワードとを組み合わせて、検索エンジンの検索クエリを生成する検索クエリ生成処理を行う(ステップS11)。そして、適合度予測部32が、検索クエリ生成部31が生成した検索クエリの特徴情報を基に、検索クエリの適合度を予測する適合度予測処理を行う(ステップS12)。
続いて、解析優先度決定部33が、検索クエリの適合度と検索結果情報とを基に、解析優先度を決定する解析優先度決定処理を行う(ステップS13)。通信部10は、解析優先度決定部33が検索したWebページのURLと、該URLの解析優先度とを対応付けて解析装置3に出力する出力処理を行って(ステップS14)、処理を終了する。
[検索クエリ生成処理の処理手順]
次に、検索クエリ生成処理(ステップS11)の処理手順について説明する。図13は、図12に示す検索クエリ生成処理の処理手順を示すフローチャートである。
図13に示すように、検索クエリ生成部11では、まず、カテゴリ入力部311が、デジタルデータのカテゴリの入力を受付ける(ステップS21)。続いて、第1キーワード収集部312は、入力されたカテゴリごとに予め設定されたURL群を収取先WebページのURLとして、収集先Webページにアクセスし、カテゴリに属する任意のデジタルコンテンツ名を第1キーワードとして収集する第1キーワード収集処理を行う(ステップS22)。この際、第1キーワード収集部312は、収集先Webページにアクセスし、Webブラウザの操作を記述可能なソフトウェアを用いてWebブラウザを自動操作し、予め設定されたWebページ巡回処理や文字列抽出処理に基づき、図3に示すような第1キーワードとその付加情報を抽出する。
そして、第2キーワード収集部313は、第2キーワードを収集する第2キーワード収集処理を行う(ステップS23)。第2キーワードは、前述したように、検索エンジンの検索クエリに第1キーワードが含まれる場合に、第1キーワードに付随する付随キーワードである。
続いて、生成部314は、第1キーワードと第2キーワードとを組み合わせて検索クエリを生成する検索クエリ生成処理を行う(ステップS24)。検索クエリ生成部31は、生成部314が生成した検索クエリを適合度予測部32に出力して(ステップS25)、検索クエリ生成処理を終了する。
[適合度予測処理の処理手順]
次に、適合度予測処理(ステップS12)の処理手順について説明する。図14は、図12に示す適合度予測処理の処理手順を示すフローチャートである。
図14に示すように、適合度予測部32では、特徴情報抽出部322が、検索クエリ生成部31が生成した検索クエリの特徴情報を抽出する(ステップS31)。予測部324は、適合度予測モデルに、特徴情報抽出部322が抽出した検索クエリの特徴情報を入力して(ステップS32)、適合度予測モデル24が出力した検索クエリの適合度を取得する適合度予測処理を行う(ステップS33)。適合度予測部32は、検索クエリと、該検索クエリに対して予測部324が予測した適合度とを対応付けて、解析優先度決定部33に出力して(ステップS34)、処理を終了する。
[解析優先度決定処理の処理手順]
次に、解析優先度決定処理(ステップS13)の処理手順について説明する。図15は、図12に示す解析優先度決定処理の処理手順を示すフローチャートである。
図15に示すように、解析優先度決定部33では、検索順決定部331は、適合度予測部32が予測した適合度に基づいて検索クエリ生成部31が生成した検索クエリの検索順を決定する(ステップS41)。検索実施部332は、検索順決定部331が決定した検索順で検索クエリによるWebページの検索を実施する(ステップS42)。
そして、ホワイトリスト除外部333は、ホワイトリストに示された解析対象外のWebページのURLを、検索実施部332が検索したWebページのURLから除外する(ステップS43)。続いて、解析優先度算出部334は、ホワイトリスト除外部333による除外後のURLについて、検索クエリの適合度と検索クエリの検索順位と検索結果情報とを基に解析優先度を算出し(ステップS44)、処理を終了する。
[実施の形態の効果]
このように、本実施の形態に係る収集装置4では、デジタルコンテンツの名称であるデジタルコンテンツ名と、該デジタルコンテンツの付随キーワードとを組み合わせて、検索エンジンの検索クエリを生成する。そして、収集装置4では、生成された検索クエリの特徴情報を基に、生成された検索クエリで検索を行った場合にユーザ操作を誘導するWebページを検索結果として出力する度合いである適合度を予測する。そして、収集装置4では、予測された適合度に基づいた検索順で検索クエリによるWebページの検索を実施し、検索したWebページのURLに対して、検索クエリの適合度と検索結果情報とを基に、ユーザ操作を誘導するWebページであるか否かを解析する際の優先度である解析優先度を決定する。さらに、収集装置4では、検索されたWebページのURLと、該URLの解析優先度とを対応付けて、解析装置3に出力する。
したがって、本実施の形態によれば、デジタルコンテンツ名と、該デジタルコンテンツの付随キーワードとを組み合わせて、ユーザ操作を誘導するWebページを検索結果に出力する検索クエリを生成している。そして、本実施の形態によれば、生成された検索クエリの特徴情報を基に、この検索クエリの適合度を予測することによって、ユーザ操作をマルウェア感染に誘導するWebページが検索結果に出力される検索クエリを優先的に抽出することができる。また、本実施の形態によれば、予測された適合度に基づいた検索順で検索クエリによるWebページの検索を実施することによって、検索クエリでの検索を効率的に行うことができる。そして、本実施の形態によれば、優先的に抽出した検索クエリで検索した検索結果のWebページに対し、解析優先度を決定することによって、解析装置3において、ユーザ操作をマルウェア感染に誘導するWebページのURLを優先的に解析するための指標にすることができ、効率的な解析を実現することができる。
以上のように、本実施の形態によれば、ユーザ操作をマルウェア感染に誘導するWebページのURLを効率的に収集できる。
また、本実施の形態に係る収集装置4では、検索クエリ生成部31は、デジタルデータのカテゴリの入力を受付けると、該カテゴリに属する任意のデジタルコンテンツ名を第1キーワードとして収集する。この場合、検索クエリ生成部31は、デジタルデータのカテゴリごとにWebページを選択し、該選択したWebページにアクセスして製品及び配信データを示すデジタルコンテンツ名を第1キーワードとして抽出する。したがって、本実施の形態によれば、第1キーワードを効率よく抽出することができる。
そして、検索クエリ生成部31は、検索エンジンの検索クエリに第1キーワードが含まれる場合に、第1キーワードに付随する付随キーワードを第2キーワードとして収集する。この場合、検索クエリ生成部31は、検索エンジンの検索サジェスト機能と関連検索機能とを用いて第1キーワードを含む文字列を抽出し、該文字列から第1キーワード以外の文字列を第2キーワードとして抽出する。したがって、本実施の形態によれば、ユーザ操作を誘導するWebページに到達するユーザが、検索クエリとして選択する第1キーワードと第2キーワードとを効率的に収集することができる。
また、検索クエリ生成部31は、第1キーワードと第2キーワードとを組み合わせて検索クエリを生成する。このため、本実施の形態によれば、ユーザ操作を誘導するWebページを検索結果に出力する検索クエリを優先的に生成することができる。
そして、本実施の形態に係る収集装置4では、適合度予測部32は、ユーザ操作を誘導するWebページを検索結果に含む既知の検索クエリと、ユーザ操作を誘導するWebページを検索結果に含まない既知の検索クエリとにおける特徴情報及び適合度を、適合度予測モデル24に学習させる。そして、適合度予測部32は、この適合度予測モデル24を用いて、検索クエリ生成部31が生成した検索クエリの特徴情報を基に該検索クエリの適合度を予測する。
このため、本実施の形態によれば、この適合度予測モデル24を用いることによって、検索クエリ生成部31が生成した検索クエリの適合度を適切に予測することができる。また、適合度は、ユーザ操作を誘導するWebページを検索結果に出力する検索クエリを効率的に選出する指標である。このため、本実施の形態によれば、後段の解析優先度決定部33において、適切かつ効率的にユーザ操作を誘導するWebページを収集することができる。
本実施の形態に係る収集装置4では、解析優先度決定部33は、予測された適合度に基づいた検索順で検索クエリによるWebページの検索を実施する。その後、解析優先度決定部33は、解析装置3における解析対象外のホワイトリストのWebページのURLを、検索したWebページのURLから除外することによって、解析対象外のWebページを解析するコストを削減している。
そして、解析優先度決定部33は、除外後のURLについて、検索クエリの適合度と検索クエリの検索順位と検索結果情報とを基に解析優先度を算出している。この解析優先度は、解析装置3において、Webページを解析する際に、ユーザ操作を誘導する攻撃の起点となる可能性の高いWebページを効率的に選出する指標であり、解析装置3における効率的な解析を実現することができる。
[システム構成等]
図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部又は任意の一部が、CPU及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的におこなうこともでき、あるいは、手動的に行なわれるものとして説明した処理の全部又は一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
[プログラム]
図16は、プログラムが実行されることにより、収集装置4が実現されるコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
メモリ1010は、ROM(Read Only Memory)1011及びRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、収集装置4の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、収集装置4における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSDにより代替されてもよい。
また、上述した実施形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。
なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワーク(LAN、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述及び図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例及び運用技術等は全て本発明の範疇に含まれる。
1 解析システム
2 ネットワーク
3 解析装置
4 収集装置
10 通信部
20 記憶部
21 カテゴリDB
22 既知キーワードDB
23 既知検索クエリDB
24 適合度予測モデル
25 ホワイトリストDB
30 制御部
31 検索クエリ生成部
32 適合度予測部
33 解析優先度決定部
311 カテゴリ入力部
312 第1キーワード収集部
313 第2キーワード収集部
314 生成部
321 適合度取得部
322 特徴情報抽出部
323 モデル構築部
324 予測部
331 検索順決定部
332 検索実施部
333 ホワイトリスト除外部
334 解析優先度算出部

Claims (7)

  1. WebページのURL(Uniform Resource Locator)を収集する収集装置であって、
    デジタルコンテンツの名称であるデジタルコンテンツ名と、該デジタルコンテンツの付随キーワードとを組み合わせて、検索エンジンの検索クエリを生成する検索クエリ生成部と、
    前記検索クエリ生成部が生成した検索クエリの特徴情報を基に、前記生成した検索クエリで検索を行った場合にユーザ操作を誘導するWebページを検索結果として出力する度合いを予測する度合い予測部と、
    前記度合い予測部が予測した前記度合いに基づいた検索順で検索クエリによるWebページの検索を実施し、検索したWebページのURLに対して、前記検索クエリの度合いと検索結果情報とを基に、前記ユーザ操作を誘導するWebページであるか否かを解析する際の優先度である解析優先度を決定する決定部と、
    前記決定部が検索したWebページのURLと、該URLの解析優先度とを対応付けて、解析装置に出力する出力部と、
    を有することを特徴とする収集装置。
  2. 前記検索クエリ生成部は、
    デジタルデータのカテゴリの入力を受付けるカテゴリ入力部と、
    前記カテゴリに属する任意のデジタルコンテンツ名を第1キーワードとして収集する第1キーワード収集部と、
    検索エンジンの検索クエリに前記第1キーワードが含まれる場合に、前記第1キーワードに付随する付随キーワードを第2キーワードとして収集する第2キーワード収集部と、
    前記第1キーワードと前記第2キーワードとを組み合わせて前記検索クエリを生成する生成部と、
    を有することを特徴とする請求項1に記載の収集装置。
  3. 前記第1キーワード収集部は、前記デジタルデータのカテゴリごとにWebページを選択し、該選択したWebページにアクセスして製品及び配信データを示すデジタルコンテンツ名を第1キーワードとして抽出し、
    前記第2キーワード収集部は、検索エンジンの検索サジェスト機能と関連検索機能とを用いて前記第1キーワードを含む文字列を抽出し、該文字列から前記第1キーワード以外の文字列を前記第2キーワードとして抽出することを特徴とする請求項2に記載の収集装置。
  4. 前記度合い予測部は、
    前記ユーザ操作を誘導するWebページを検索結果に含む既知の検索クエリと、前記ユーザ操作を誘導するWebページを検索結果に含まない既知の検索クエリとにおける前記特徴情報及び前記度合いを、予測モデルに学習させるモデル構築部と、
    前記予測モデルを用いて、前記検索クエリ生成部が生成した検索クエリの特徴情報を基に該検索クエリの前記度合いを予測する予測部と、
    を有することを特徴とする請求項1に記載の収集装置。
  5. 前記決定部は、
    前記度合い予測部が予測した前記度合いに基づいて前記検索クエリ生成部が生成した検索クエリの検索順を決定する検索順決定部と、
    前記検索順決定部が決定した検索順で前記検索クエリによるWebページの検索を実施する検索実施部と、
    予めカテゴリごとに求められたURLであって前記解析装置における解析対象外のWebページのURLを、前記検索実施部が検索したWebページのURLから除外する除外部と、
    前記除外部による除外後のURLについて、前記検索クエリの度合いと前記検索クエリの検索順位と前記検索結果情報とを基に前記解析優先度を算出する解析優先度算出部と、
    を有することを特徴とする請求項1に記載の収集装置。
  6. WebページのURL(Uniform Resource Locator)を収集する収集装置が実行する収集方法であって、
    デジタルコンテンツの名称であるデジタルコンテンツ名と、該デジタルコンテンツの付随キーワードとを組み合わせて、検索エンジンの検索クエリを生成する工程と、
    生成された検索クエリの特徴情報を基に、前記生成された検索クエリで検索を行った場合にユーザ操作を誘導するWebページを検索結果として出力する度合いでを予測する工程と、
    予測された前記度合いに基づいた検索順で検索クエリによるWebページの検索を実施し、検索したWebページのURLに対して、前記検索クエリの度合いと検索結果情報とを基に、前記ユーザ操作を誘導するWebページであるか否かを解析する際の優先度である解析優先度を決定する工程と、
    前記決定する工程において検索されたWebページのURLと、該URLの解析優先度とを対応付けて、解析装置に出力する工程と、
    を含んだことを特徴とする収集方法。
  7. デジタルコンテンツの名称であるデジタルコンテンツ名と、該デジタルコンテンツの付随キーワードとを組み合わせて、検索エンジンの検索クエリを生成するステップと、
    生成された検索クエリの特徴情報を基に、前記生成された検索クエリで検索を行った場合にユーザ操作を誘導するWebページを検索結果として出力する度合いを予測するステップと、
    予測された前記度合いに基づいた検索順で検索クエリによるWebページの検索を実施し、検索したWebページのURL(Uniform Resource Locator)に対して、前記検索クエリの度合いと検索結果情報とを基に、前記ユーザ操作を誘導するWebページであるか否かを解析する際の優先度である解析優先度を決定するステップと、
    前記決定するステップにおいて検索されたWebページのURLと、該URLの解析優先度とを対応付けて、解析装置に出力するステップと、
    をコンピュータに実行させるための収集プログラム。
JP2019565704A 2018-01-17 2018-09-19 収集装置、収集方法及び収集プログラム Active JP6823205B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2018005694 2018-01-17
JP2018005694 2018-01-17
PCT/JP2018/034625 WO2019142399A1 (ja) 2018-01-17 2018-09-19 収集装置、収集方法及び収集プログラム

Publications (2)

Publication Number Publication Date
JPWO2019142399A1 JPWO2019142399A1 (ja) 2020-04-30
JP6823205B2 true JP6823205B2 (ja) 2021-01-27

Family

ID=67301231

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019565704A Active JP6823205B2 (ja) 2018-01-17 2018-09-19 収集装置、収集方法及び収集プログラム

Country Status (4)

Country Link
US (1) US11556819B2 (ja)
EP (1) EP3722974B1 (ja)
JP (1) JP6823205B2 (ja)
WO (1) WO2019142399A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022219792A1 (ja) * 2021-04-15 2022-10-20 日本電信電話株式会社 収集装置、収集方法、および、収集プログラム
JP7030296B1 (ja) * 2021-05-26 2022-03-07 株式会社エス・ケイ通信 プログラム、方法、情報処理装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004046739A (ja) * 2002-07-15 2004-02-12 Fujitsu Ltd データ送信方法、データ送信システム、中継装置、コンピュータプログラム、及び記録媒体
US7499940B1 (en) * 2004-11-11 2009-03-03 Google Inc. Method and system for URL autocompletion using ranked results
US8484740B2 (en) * 2010-09-08 2013-07-09 At&T Intellectual Property I, L.P. Prioritizing malicious website detection
US8521667B2 (en) * 2010-12-15 2013-08-27 Microsoft Corporation Detection and categorization of malicious URLs
US20120158705A1 (en) * 2010-12-16 2012-06-21 Microsoft Corporation Local search using feature backoff
US8997220B2 (en) * 2011-05-26 2015-03-31 Microsoft Technology Licensing, Llc Automatic detection of search results poisoning attacks
CN103902889A (zh) * 2012-12-26 2014-07-02 腾讯科技(深圳)有限公司 一种恶意消息云检测方法和服务器
JP6258553B2 (ja) * 2015-02-20 2018-01-10 日本電信電話株式会社 ブラックリスト生成装置、ブラックリスト生成システム、ブラックリスト生成方法及びブラックリスト生成プログラム
US10701085B2 (en) 2015-03-05 2020-06-30 Nippon Telegraph And Telephone Corporation Communication partner malignancy calculation device, communication partner malignancy calculation method, and communication partner malignancy calculation program
JP6478730B2 (ja) * 2015-03-11 2019-03-06 エヌ・ティ・ティ・コミュニケーションズ株式会社 悪性url候補取得装置、悪性url候補取得方法、及びプログラム
US11062226B2 (en) * 2017-06-15 2021-07-13 Microsoft Technology Licensing, Llc Determining a likelihood of a user interaction with a content element

Also Published As

Publication number Publication date
EP3722974A1 (en) 2020-10-14
WO2019142399A1 (ja) 2019-07-25
JPWO2019142399A1 (ja) 2020-04-30
US11556819B2 (en) 2023-01-17
EP3722974A4 (en) 2021-09-15
US20200364589A1 (en) 2020-11-19
EP3722974B1 (en) 2022-12-21

Similar Documents

Publication Publication Date Title
Chen et al. Automated behavioral analysis of malware: A case study of wannacry ransomware
US10069857B2 (en) Performing rule-based actions based on accessed domain name registrations
US10560471B2 (en) Detecting web exploit kits by tree-based structural similarity search
Hong et al. Phishing url detection with lexical features and blacklisted domains
US9614862B2 (en) System and method for webpage analysis
US10789366B2 (en) Security information management system and security information management method
Nalawade et al. Forensic analysis and evidence collection for web browser activity
JP6823205B2 (ja) 収集装置、収集方法及び収集プログラム
US11423099B2 (en) Classification apparatus, classification method, and classification program
Brintha et al. Exploring Malicious Webpages Using Machine Learning Concept
EP3547193A1 (en) Analysis device, analysis method and analysis program
JP6478730B2 (ja) 悪性url候補取得装置、悪性url候補取得方法、及びプログラム
Oh et al. A study for classification of web browser log and timeline visualization
Zhang et al. Hacks Hit the Phish: Phish Attack Detection Based on Hacks Search
Swathi et al. Detection of Phishing Websites Using Machine Learning
Hansen The study of keyword search in open source search engines and digital forensics tools with respect to the needs of cyber crime investigations
Devi et al. Analysis of An Advanced Dynamicmobile Malicious Web Pages
JP2014160376A (ja) 悪性サイト検出装置、悪性サイト検出方法およびプログラム
Dong et al. An Information Extracting Scheme for Netdisk
Sonntag Automating Web History Analysis.
Shukla et al. Automated Windows Triaging & Malware Analysis

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191223

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210105

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210107

R150 Certificate of patent or registration of utility model

Ref document number: 6823205

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150