JP7131704B2 - 抽出装置、抽出方法及び抽出プログラム - Google Patents

抽出装置、抽出方法及び抽出プログラム Download PDF

Info

Publication number
JP7131704B2
JP7131704B2 JP2021521639A JP2021521639A JP7131704B2 JP 7131704 B2 JP7131704 B2 JP 7131704B2 JP 2021521639 A JP2021521639 A JP 2021521639A JP 2021521639 A JP2021521639 A JP 2021521639A JP 7131704 B2 JP7131704 B2 JP 7131704B2
Authority
JP
Japan
Prior art keywords
html
web page
reach
web pages
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021521639A
Other languages
English (en)
Other versions
JPWO2020240718A1 (ja
Inventor
駿 小出
大紀 千葉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2020240718A1 publication Critical patent/JPWO2020240718A1/ja
Application granted granted Critical
Publication of JP7131704B2 publication Critical patent/JP7131704B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/562Static detection
    • G06F21/563Static detection by source code analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/566Dynamic detection, i.e. detection performed at run-time, e.g. emulation, suspicious activities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2119Authenticating web pages, e.g. with suspicious links

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Virology (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Description

本発明は、抽出装置、抽出方法及び抽出プログラムに関する。
悪意のあるソフトウェアの総称であるマルウェアの配布や個人情報の窃取のために、サイバー攻撃者はWebページを用意する。そのWebページでは、Webブラウザやプラグインの脆弱性を狙った攻撃であるドライブ・バイ・ダウンロード(Drive-By Download:DBD)攻撃が行われる。或いは、そのWebページでは、アクセスしたユーザを心理的に誘導して自らマルウェアをダウンロードさせ、また、個人情報を入力させるソーシャルエンジニアリング(Social Engineering:SE)攻撃が発生することもある。
DBD攻撃を発生させるWebページを分析するために、脆弱性を内包するおとりのシステムであるWebクライアント型ハニーポットを使用する方法がある。Webクライアント型ハニーポットは、WebページにアクセスしてDBD攻撃の発生を判定し、そのWebページのURL(Uniform Resource Locator)、ドメイン名及びIPアドレスを代表とする通信先情報を、ブラックリストとして設定する。ファイアウォールや侵入検知システムを代表とするセキュリティ装置は、このブラックリストに対するWebアクセスを遮断することによって、ユーザのマルウェア感染を防ぐ。
SE攻撃は、ユーザに偽のマルウェア感染や偽の懸賞当選を代表とする虚偽の情報を与え、心理的にWebページへのアクセスを誘導することで攻撃を成功させる。SE攻撃を発生させるWebページを分析する方法として、実際にWebブラウザでWebページにアクセスしてブラウザ操作を行うことでSE攻撃を発生させる方法がある(例えば、非特許文献1参照)。
ここで、ブラウザ操作を行うためには、Webページ上の操作対象を特定する必要がある。一般的に、Webページ上でブラウザ操作を行う際、その操作対象は、HTML(HyperText Markup Language)エレメントと呼ばれる。以降、SE攻撃に誘導するHTMLのエレメント、すなわち、悪性なWebページに到達するHTMLのエレメントを、誘導エレメントと呼ぶ。
従来の方法は、アンケート調査の見返りに報奨を与えると騙り、ユーザにマルウェアのインストールや個人情報の入力をさせるSE攻撃の手法の一種であるサーベイ攻撃を対象にした分析手法である。この方法は、サーベイ攻撃につながる誘導エレメントのみを特定する方法であるため、SE攻撃の分析を行うに際して網羅性の観点で問題がある。
非特許文献1に記載の方法は、攻撃の手法に限定されずに網羅的に誘導エレメントを特定するために、Webページの種類ごとに予め設定したキーワードを用いて誘導エレメントを検出する。Webページの種類とは、Webページの役割や意味ごとにWebページを分類したものである。Webページの種類として、ファイルのダウンロードを提案するWebページ、動画をストリーミング再生するWebページが例として挙げられる。
例えば、ユーザに対してファイルのダウンロードを提案するWebページでは、ファイルのダウンロードを開始するボタンが誘導エレメントであることが多い。ファイルのダウンロードを開始するボタンとして、例えば、HTMLのエレメントの領域内に「Download」と描画されているものや、HTMLのエレメントのHTML要素idに「download-button」と設定されているものがある。
また、動画をストリーミング再生するWebページでは、動画を再生するボタンが誘導エレメントであることが多い。動画を再生するボタンとして、例えば、HTMLテキスト要素に「Play」と設定されているものや、HTMLのエレメントのHTML要素classに「video-play」と設定されているといるものがある。
このように、Webページの種類によって誘導エレメントに含まれる文字列は異なる。したがって、誘導エレメントを正しく検出するためには、Webページの種類を判定し、Webページの種類ごとに設定されたキーワードを用いて誘導エレメントを特定する必要がある。
小出駿, 千葉大紀, 高田雄太, 秋山満昭, 八木毅, 波戸邦夫, "ユーザ操作が起点となるWeb上の攻撃の収集", 信学技報, vol. 117, no. 481, ICSS2017-66, pp. 91-96, 2018年3月.
従来では、解析者が経験的に手動でキーワードを設定していた。また、Webページの種類も、予め解析者が経験的に設定したルールに基づいて判定していた。
非特許文献1に記載の方法は、攻撃手法に限定されずに誘導エレメントを特定できる。しかしながら、非特許文献1に記載の方法は、Webページの種類の判定処理及びキーワードの設定処理が、解析者の経験に依存しているため、解析者の経験が低い場合には、誘導エレメント検出の精度に問題が生じる場合がある。
例えば、解析者の経験が低く誘導エレメントに含まれるキーワードを網羅していない場合には、誘導エレメントの見逃しが生じる場合がある。また、解析者の経験が低く誘導エレメントに含まれないキーワードを設定している場合には、SE攻撃に到達しないHTMLのエレメントを誘導エレメントとして誤検出する場合がある。
そもそも、Webページは、世界中に膨大な数があり、その中に使用されている文字列も膨大となる。このため、解析者が、膨大なデータの中から誘導エレメントを特定し、キーワードを見つけることは、実際には難しく、実現できたとしても多大な時間を要する。解析者が実際にキーワードを設定する場合には、サンプルとなるWebページの数が限定され、実際に有効なキーワードであるかも不明であり、キーワードの設定精度を維持するにも限界がある。
本発明は、上記に鑑みてなされたものであって、悪性なWebページに到達するHTMLのエレメントを特徴づけるキーワードを自動的に抽出することができる抽出装置、抽出方法及び抽出プログラムを提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明に係る抽出装置は、ブラウザ操作によって悪性なWebページに到達することが既知のHTMLのエレメントと、ブラウザ操作によって良性なWebページに到達することが既知のHTMLのエレメントと、を含む複数のWebページの情報の入力を受け付ける入力部と、入力が受け付けられた複数のWebページをクラスタごとに分類する分類部と、分類された各クラスタのWebページから、悪性なWebページに到達するHTMLのエレメントと良性なWebページに到達するHTMLのエレメントとを抽出し、抽出したHTMLのエレメントに含まれる第1の文字列を抽出する第1の抽出部と、第1の文字列から、悪性なWebページに到達するHTMLのエレメントを特徴づける第2の文字列を、キーワードとして抽出する第2の抽出部と、有することを特徴とする。
また、本発明に係る抽出方法は、ブラウザ操作によって悪性なWebページに到達することが既知のHTMLのエレメントと、ブラウザ操作によって良性なWebページに到達することが既知のHTMLのエレメントと、を含む複数のWebページの情報の入力を受け付ける工程と、入力が受け付けられた複数のWebページをクラスタごとに分類する工程と、分類された各クラスタのWebページから、悪性なWebページに到達するHTMLのエレメントと良性なWebページに到達するHTMLのエレメントとを抽出し、抽出したHTMLのエレメントに含まれる第1の文字列を抽出する工程と、第1の文字列から、悪性なWebページに到達するHTMLのエレメントを特徴づける第2の文字列を、キーワードとして抽出する工程と、を含んだことを特徴とする。
また、本発明に係る抽出プログラムは、ブラウザ操作によって悪性なWebページに到達することが既知のHTMLのエレメントと、ブラウザ操作によって良性なWebページに到達することが既知のHTMLのエレメントと、を含む複数のWebページの情報の入力を受け付けるステップと、入力が受け付けられた複数のWebページをクラスタごとに分類するステップと、分類された各クラスタのWebページから、悪性なWebページに到達するHTMLのエレメントと良性なWebページに到達するHTMLのエレメントとを抽出し、抽出したHTMLのエレメントに含まれる第1の文字列を抽出するステップと、第1の文字列から、悪性なWebページに到達するHTMLのエレメントを特徴づける第2の文字列を、キーワードとして抽出するステップと、をコンピュータに実行させる。
本発明によれば、悪性なWebページに到達するHTMLのエレメントを特徴づけるキーワードを自動的に抽出することができる。
図1は、実施の形態における解析システムの構成の一例を示す図である。 図2は、図1に示す抽出装置の構成の一例を示す図である。 図3は、Webページの情報の一例を示す図である。 図4は、HTMLエレメントに対応するHTMLソースコード部の一例を示す図である。 図5は、HTMLエレメントに対応する画像領域の一例を示す図である。 図6は、図2に示す特徴量抽出部が抽出する特徴量の一例を示す図である。 図7は、図2に示す判定部によりクラスタ分類されたWebページの一例を示す図である。 図8は、図2に示すエレメント抽出部が抽出したHTMLエレメントの一例を示す図である。 図9は、図2に示す文字列抽出部が抽出した第1の文字列の例を示す図である。 図10は、図2に示す重要度評価部が重要度を評価した文字列の一例を示す図である。 図11は、図2に示す重要度評価部が抽出したキーワードの一例を示す図である。 図12は、図2に示す抽出装置による抽出処理の流れについて説明する図である。 図13は、実施の形態に係る抽出処理の処理手順を示すフローチャートである。 図14は、プログラムが実行されることにより、抽出装置が実現されるコンピュータの一例を示す図である。
以下、図面を参照して、本発明の一実施形態を詳細に説明する。なお、この実施の形態により本発明が限定されるものではない。また、図面の記載において、同一部分には同一の符号を付して示している。
[実施の形態]
本発明の実施の形態について説明する。図1は、実施の形態における解析システムの構成の一例を示す図である。
図1に示すように、実施の形態に係る解析システム1は、抽出装置10と、解析装置20と、判定装置30とを有する。解析装置20は、抽出装置10及び判定装置30と接続する。解析装置20は、ネットワークNを介して、外部装置(不図示)と接続する。抽出装置10は、ネットワークNを介して、外部装置(不図示)と接続してもよい。
抽出装置10は、悪性Webページに到達することが既知のHTMLのエレメントと、良性Webページに到達することが既知のHTMLのエレメントとの双方を含む複数のWebページの情報から、悪性なWebページに到達するHTMLのエレメントである誘導エレメントを特徴づけるキーワードを抽出する。なお、以降、HTMLのエレメントを、HTMLエレメントと記載する。
解析装置20は、ユーザ操作を誘導するWebページのURLを特定するために、入力されたWebページを解析する。解析装置20は、ネットワークNを介して収集したWebページに対して能動的に操作を実施して、Webページを介してユーザ操作を誘導する攻撃を観測する。解析装置20は、抽出装置10が出力した悪性なWebページに到達するHTMLエレメントである誘導エレメントを特徴づけるキーワードを用いて、Webページ上のユーザ操作を誘導する箇所を操作対象として検出し、操作対象や、操作対象に対する操作内容を記録したログデータを、判定装置30に出力する。
なお、ユーザ操作を誘導する攻撃は、ユーザの興味を引いたり、警告したり、欺いたりすることによって、ユーザの心理的な隙を突き、ユーザ自らにマルウェアをインストールさせる攻撃である。
判定装置30は、解析装置20が出力したログデータを参照し、マルウェアや悪性のブラウザ拡張機能を取得するとともに、攻撃に繋がる操作内容や操作対象を特定する。そして、判定装置30は、解析装置20が出力したログデータを参照し、ユーザ操作を誘導する攻撃を発生させるWebページのURLを判別する。判定装置30は、判別結果を基にブラックリストを生成する。そして、各セキュリティ装置(不図示)は、このブラックリストに対するWebアクセスを遮断することによって、ユーザがマルウェアに感染することを防止する。
[抽出装置]
次に、抽出装置10の構成について説明する。図2は、図1に示す抽出装置10の構成の一例を示す図である。図2に示す抽出装置10は、ROM(Read Only Memory)、RAM(Random Access Memory)、CPU(Central Processing Unit)等を含むコンピュータ等に所定のプログラムが読み込まれて、CPUが所定のプログラムを実行することで実現される。また、抽出装置10は、NIC(Network Interface Card)等を有し、LAN(Local Area Network)やインターネットなどの電気通信回線を介した他の装置との間の通信を行うことも可能である。
抽出装置10は、入力部11、クラスタ判定部12(分類部)、エレメント内文字列抽出部13(第1の抽出部)、キーワード抽出部14(第2の抽出部)及び出力部15を有する。
入力部11は、ブラウザ操作によって悪性なWebページに到達することが既知のHTMLエレメントと、ブラウザ操作によって良性なWebページに到達することが既知のHTMLエレメントとを含む複数のWebページの情報の入力を受け付ける。ブラウザ操作は、例えば、Webブラウザに描画されたWebページ上でマウスポインタを移動してクリックを行うといった操作がある。
図3は、Webページの情報の一例を示す図である。図3に示すように、Webページの情報の項目として、Webページのスクリーンショット画像、WebページのHTMLソースコード、良性なWebページまたは悪性なWebページに到達するHTMLエレメントが考えられる。なお、Webページの情報の項目は、これに限るものではない。
HTMLエレメントが持つ情報は、対応するHTMLソースコード部及び領域のサイズ(高さ、幅)・座標(横、縦)である。図4は、HTMLエレメントに対応するHTMLソースコード部の一例を示す図である。図4では、WebページのHTMLソースコードの一部を例示する。
図4に示すように、一般的なHTMLエレメントは、開始タグ(例:<a>)と終了タグ(例:</a>)とを持ち、それらのタグの間にHTMLテキスト要素を含む場合がある。HTMLエレメントは、開始タグの中にHTML属性(例えば「id」,「class」)を持つことがあり、各HTML属性に設定された具体的な値(例えば「download-button」)をHTML属性値と呼ぶ。また、HTMLエレメントでは、HTMLテキスト要素の代わりに別のHTMLエレメントが入れ子構造となって含まれている場合がある。
図5は、HTMLエレメントに対応する画像領域の一例を示す図である。図5に示すように、HTMLエレメントに対応する画像領域は、領域のサイズ及び座標を基に、図3に示したWebページのスクリーンショット画像から画像領域を切り取ることによって抽出される。
このようなWebページの情報は、解析者がWebブラウザを用いて手動でWebページにアクセスし、ブラウザ操作を行って記録される。或いは、Webページの情報は、ブラウザ操作を自動化するソフトウェアを用いてWebページにアクセスし自動でブラウザ操作を行って記録される。悪性なWebページに到達したことを確かめる方法として、悪性な通信先情報をまとめたブラックリストを用いて、到達したWebページのURLやドメイン名といった通信先情報を照合する方法や、到達したWebページから特徴量を抽出し、機械学習技術を使って悪性判定を行う方法がある。
クラスタ判定部12は、入力部11が入力を受け付けた複数のWebページをクラスタごとに分類する。言い換えると、クラスタ判定部12は、Webページ情報を入力としてWebページのクラスタを判定する。悪性Webページに到達するHTMLエレメントを特徴づけるHTMLエレメント内のキーワードは、Webページの意味や役割ごとに異なる。クラスタ判定部12は、Webページの意味や役割に対応したキーワードを設定するために、意味や役割が類似するWebページを自動で分類する。各クラスタは、例えば、ページの意味や役割を表すように設定されている。クラスタ判定部12は、特徴量抽出部121と判定部122とを有する。
特徴量抽出部121は、入力部11が入力を受け付けた複数のWebページの各Webページを基に、特徴量を抽出する。図6は、図2に示す特徴量抽出部121が抽出する特徴量の一例を示す図である。特徴量抽出部121は、Webページ情報から、特徴量として、画像的特徴量、文書的特徴量または構造的特徴量を抽出する。
特徴量抽出部121は、Webブラウザによって描画されたWebページの画面の画像データから、視覚的な情報を表す画像情報を、画像情報特徴量として抽出する。特徴量抽出部121は、Webページのスクリーンショット画像をベクトル情報に変換可能な画像解析技術を1つまたは複数利用することによって、画像的特徴量を抽出する。特徴量抽出部121は、ユーザの心理に影響を与える視覚的なWebページの特徴を捉えるために、画像的特徴量を抽出する。
なお、画像解析技術として、局所特徴量抽出技術、色ヒストグラム分析が考えられる。局所特徴量抽出技術は、ORB、KAZE、AKAZE等のアルゴリズムを代表とする画像解析技術を利用して画像に存在する特徴点を検出し、画像データを任意の次元のベクトル情報に変換する。色ヒストグラム分析は、画像データの赤、緑、青といった色ごとに画素値(例えば、0~255)の度数のヒストグラムを計測し、その画素値の数を次元としてベクトル情報に変換する。
特徴量抽出部121は、Webページ内のテキストデータから、文書の意味やトピックを表す文書情報を、文書的特徴量として抽出する。特徴量抽出部121は、WebページのHTMLソースコード内に存在する実際にWebページに表示される文字列である文書データをベクトル情報に変換可能な自然言語処理技術を1つまたは複数利用することによって、文書的特徴量を抽出する。特徴量抽出部121は、文章の意味や役割からユーザの心理に影響を与えるWebページの特徴を捉えるために、文書的特徴量を抽出する。
なお、自然言語処理技術として、Doc2vecやLDA(Latent Dirichlet Allocation)に代表されるトピックモデル手法や単語の出現頻度を計測するBag-of-words手法が考えられる。トピックモデル手法は、文書データの潜在的意味を推定して任意の次元のベクトル情報に変換する手法である。Bag-of-words手法は、文書データに含まれる単語の出現頻度を計測し、計測に使用する単語の数を次元数としてベクトル情報に変換する手法である。
特徴量抽出部121は、Webページのソースコードから、Webページの内部構造を表すHTML構造情報を、構造的特徴量として抽出する。特徴量抽出部121は、WebページのHTMLソースコードをベクトル情報に変換可能な統計処理技術を1つまたは複数利用することによって、構造的特徴量を抽出する。特徴量抽出部121は、Webページの役割を捉えるために、構造的特徴量を抽出する。特徴量抽出部121は、構造的特徴量を抽出するために、HTMLタグの出現数の分布を計測する。
なお、構造的特徴量の抽出方法は、これに限るものではない。例えば、特徴量抽出部121は、予め計測対象のHTMLタグを設定しておき、HTMLタグごとにHTMLソースコード内の出現数をカウントすることによって、HTMLタグ数を次元とするベクトル情報に変換してもよい。
判定部122は、特徴量抽出部121が抽出した特徴量の一部または全部を統合する。判定部122は、得られた特徴量の一部または全部をクラスタリングするために、特徴量の統合を行っている。そして、判定部122は、統合した特徴量を各Webページに対応する入力データとして教師なし学習を適用することで、Webページをクラスタごとに分類する。
言い換えると、判定部122は、特徴量抽出部121が抽出した特徴量の一部または全部を統合してWebページの特徴ベクトルとし、Webページの特徴ベクトルに教師なし機械学習技術を適用してWebページをクラスタごとに分類する。判定部122は、特徴量を統合することによって、Webページの意味や役割を捉えるための特徴ベクトルを生成できる。また、判定部122は、教師なし機械学習技術を適用することによって、意味や役割が類似するWebページを自動で分類できる。
判定部122は、適切なクラスタ数を自動で設定する教師なし機械学習技術を用い、判定されたクラスタをWebページのクラスタとする。クラスタ数を自動で設定する教師なし機械学習技術の例として、DBSCAN、Mean-shift、X-meansといった手法が考えられるが、これらに限るものではない。
図7は、図2に示す判定部122によりクラスタ分類されたWebページの一例を示す図である。例えば、判定部122は、「Webページ1」及び「Webページ4」を「クラスタ1」に分類し、「Webページ2」を「クラスタ2」に分類し、「Webページ3」を「クラスタ3」に分類する。
エレメント内文字列抽出部13は、クラスタ判定部12が分類した各クラスタのWebページから、悪性なWebページに到達するHTMLエレメントと良性なWebページに到達するHTMLエレメントとを抽出する。エレメント内文字列抽出部13は、抽出したHTMLエレメントに含まれる第1の文字列を抽出する。言い換えると、エレメント内文字列抽出部13は、クラスタ判定部12が分類した各クラスタのWebページから、Webページ情報を基にHTMLエレメントを抽出する。そして、エレメント内文字列抽出部13は、各エレメントからHTMLテキスト要素、HTML属性値または画像領域内の文字列を第1の文字列として抽出し、Webページのクラスタごとに分類する。エレメント内文字列抽出部13は、エレメント抽出部131及び文字列抽出部132を有する。
エレメント抽出部131は、クラスタ判定部12が分類した各クラスタのWebページの情報から、悪性なWebページに到達することが既知のHTMLエレメントと、良性なWebページに到達することが既知のHTMLエレメントとをクラスタごとに抽出する。すなわち、エレメント抽出部131は、Webページ情報を基に、良性なWebページに到達するHTMLエレメントと、悪性なWebページに到達するHTMLエレメントとを抽出する。
図8は、図2に示すエレメント抽出部131が抽出したHTMLエレメントの一例を示す図である。図8に示すように、各HTMLエレメントは、元のWebページのクラスタの識別情報と、そのHTMLエレメントに対してブラウザ操作を行ったことによって、悪性または良性なWebページのどちらに到達したかを示す情報とを付加情報として有する。例えば、「HTMLエレメント1」は、元のWebページが「クラスタ1」に属し、ブラウザ操作を行った場合には悪性なWebページに到達することが示されている。
文字列抽出部132は、エレメント抽出部131が抽出したHTMLエレメントのHTMLテキスト要素、HTML属性値または領域内の文字列から、第1の文字列を抽出する。具体的には、文字列抽出部132は、エレメント抽出部131が抽出したHTMLエレメントのHTMLソースコード部と画像領域とから、第1の文字列を抽出する。
文字列抽出部132は、HTMLソースコード部から、テキスト要素と、予め設定した分析対象のHTML属性値とを抽出する。文字列抽出部132は、画像領域からは、既存の光学文字認識技術を用いて領域内に描画された文字列を第1の文字列として抽出する。本実施の形態では、悪性なWebページに到達するHTMLエレメントを特徴づけるキーワードを、Webページの各種類に対してHTMLテキスト要素、HTML属性値、領域内に描画された文字列ごとに設定することによって、これらのキーワードを含むHTMLエレメントを、悪性なWebページに到達するHTMLエレメントとして特定している。このため、エレメント内文字列抽出部13は、良性と悪性に分けて、HTMLエレメントWebページ内の各HTMLエレメントから文字列を取り出している。
図9は、図2に示す文字列抽出部132が抽出した第1の文字列の例を示す図である。図9に示すように、各文字列は、抽出元のHTMLエレメントの情報に加え、抽出元のHTMLテキスト要素、HTML属性または領域内の文字列の付加情報を有する。例えば、第1の文字列である、文字列「Download-button」は、抽出元のHTMLエレメントが「クラスタ1」に属する「HTMLエレメント1」であり、HTML属性が「HTML属性1(id)」であり、抽出元のHTMLエレメントが、ブラウザ操作を行った場合には悪性なWebページに到達することが示されている。
キーワード抽出部14は、エレメント内文字列抽出部13が抽出した第1の文字列から、悪性なWebページに到達するHTMLエレメントを特徴づける第2の文字列を、キーワードとして抽出する。キーワード抽出部14は、抽出した第1の文字列を文書データに統合し、悪性Webページに到達するHTMLエレメントを特徴づける第2の文字列を、キーワードとして抽出する。キーワード抽出部14は、文書生成部141と重要度評価部142とを有する。
文書生成部141は、第1の文字列の付加情報を基に、第1の文字列のうち、悪性なWebページに到達することが既知のHTMLエレメントに関する文字列を統合して、悪性なWebページに到達することが既知のHTMLエレメントに対応付く第1の文書を生成する。文書生成部141は、Webページの各クラスタのHTMLテキスト要素またはHTML属性値ごとに、第1の文書を生成する。
また、文書生成部141は、第1の文字列の付加情報を基に、第1の文字列のうち、良性なWebページに到達することが既知のHTMLエレメントに関する文字列を統合して、良性なWebページに到達することが既知のHTMLエレメントに対応付く第2の文書を生成する。文書生成部141は、Webページの各クラスタのHTMLテキスト要素またはHTML属性値ごとに、第2の文書を生成する。
文書生成部141は、第1の文字列を、抽出対象(HTMLテキスト要素、HTML属性、領域内の文字列)、クラスタ、及び、到達するWebページが良性または悪性、の3つが全て一致する文字列ごとに並べて文書データに統合し、第1または第2の文書を生成する。
重要度評価部142は、第1の文書と第2の文書とを比較して第1の文書と第2の文書の各文字列の重要度を評価する。重要度評価部142は、重要度を基づいて、Webページの各クラスタの、HTMLテキスト要素、HTML属性値または領域内の文字列ごとに、悪性なWebページに到達するHTMLエレメントを特徴づける第2の文字列を、キーワードとして抽出する。
重要度評価部142は、抽出対象(HTMLテキスト要素、HTML属性、領域内の文字列)とクラスタが一致する、良性なWebページまたは悪性なWebページに到達する2つの文書から、文書を特徴づける単語や文字列を、評価可能な自然言語処理技術を用いて、悪性なWebページに到達するHTMLエレメントを特徴づける第2の文字列を抽出する。ここで、自然言語処理技術の例として、tf-idfが考えられる。ただし、自然言語処理技術の手法は、この手法に限るものではない。
tf-idfは、文書内の単語の重要度を評価する手法である。例えば、「クラスタ1」に、ユーザに対してファイルのダウンロードを提案するようなWebページが多く含まれる場合であって、「クラスタ1」において「download-button」が悪性Webページに到達するHTMLエレメントのHTML要素idの文書に含まれ、「share-button」や「link-button」が良性Webページに到達するHTMLエレメントのHTML要素idの文書に含まれる場合を例とする。この場合、重要度評価部142は、tf-idfを適用することによって、「download」は重要度の値を高く算出し、良性Webページの文書のみに含まれる「share」、「link」や、悪性と良性Webページの文書の双方に含まれる「button」は重要度の値を低く算出する。
そして、重要度評価部142は、予め設定した閾値を上回る重要度をもつ文字列を、この抽出対象(HTMLテキスト要素、HTML属性、領域内の文字列)及びクラスタごとのキーワードとして抽出する。
図10は、図2に示す重要度評価部142が重要度を評価した文字列の一例を示す図である。例えば、重要度の閾値として「0.7」が設定されている場合を例に説明する。この場合、重要度評価部142は、重要度が「0.9」である「Download」、及び、重要度が「0.8」である「Click」をキーワードとして抽出する。
図11は、図2に示す重要度評価部142が抽出したキーワードの一例を示す図である。図11に示すように、各キーワードには、それぞれ抽出対象(HTMLテキスト要素、HTML属性、領域内の文字列)及びクラスタを対応付けられる。
出力部15は、キーワード抽出部14が抽出したキーワードを、例えば、解析装置20に出力する。出力部15は、キーワード抽出部14が抽出した各キーワードには、それぞれ抽出対象(HTMLテキスト要素、HTML属性、領域内の文字列)及びクラスタを対応付けて出力する。
[抽出処理の流れ]
次に、抽出装置10による抽出処理の流れについて説明する。図12は、図2に示す抽出装置10による抽出処理の流れについて説明する図である。
図12に示すように、悪性なHTMLエレメントと、良性なHTMLエレメントと、を含む複数のWebページの情報の入力を受け付けると、クラスタ判定部12は、各Webページのクラスタを判定して、Webページをクラスタごとに分類する(図12の(1)参照)。
続いて、エレメント内文字列抽出部13は、クラスタごとのWebページから、悪性なWebページに到達するHTMLエレメントと良性なWebページに到達するHTMLエレメントとを抽出する(図12の(2)参照)。エレメント内文字列抽出部13は、各エレメントからHTMLテキスト要素、HTML属性値または画像領域内の文字列を抽出し、Webページのクラスタごとに分類する(図12の(3)参照)。
そして、エレメント内文字列抽出部13が抽出した文字列から、悪性なWebページに到達するHTMLエレメントを特徴づける文字列を、キーワードとして抽出する(図12の(4)参照)。出力部15は、キーワード抽出部14が抽出したキーワードを、例えば、解析装置20に出力する。
[抽出処理の処理手順]
次に、実施の形態に係る抽出処理の処理手順について説明する。図13は、実施の形態に係る抽出処理の処理手順を示すフローチャートである。
まず、入力部11が、悪性なHTMLエレメントと、良性なHTMLエレメントと、を含む複数のWebページの情報の入力を受け付ける(ステップS1)。そして、クラスタ判定部12は、入力部11が入力を受け付けた複数のWebページの各Webページを基に特徴量を抽出する(ステップS2)。特徴量は、例えば、画像的特徴量、文書的特徴量または構造的特徴量である。クラスタ判定部12は、ステップS2において抽出された特徴量の一部または全部を統合し、統合した特徴量を各Webページに対応する入力データとして教師なし学習を適用することで、各Webページのクラスタを判定して(ステップS3)、Webページをクラスタごとに分類する。
エレメント内文字列抽出部13は、クラスタごとのWebページから、悪性なWebページに到達するHTMLエレメントと良性なWebページに到達するHTMLエレメントとを抽出する(ステップS4)。エレメント内文字列抽出部13は、ステップS4において抽出された各エレメントのHTMLテキスト要素、HTML属性値または画像領域内から、文字列を抽出し(ステップS5)、Webページのクラスタごとに分類する。
キーワード抽出部14は、ステップS5において抽出された文字列を、Webページの各クラスタのHTMLテキスト要素またはHTML属性値ごとに、悪性なWebページに到達することが既知のHTMLエレメントに対応付く文書と、良性なWebページに到達することが既知のHTMLエレメントに対応付く文書とに統合する(ステップS6)。
キーワード抽出部14は、ステップS6において統合された文書内の各文字列の重要度を評価する(ステップS7)。そして、キーワード抽出部14は、予め設定した閾値を上回る重要度をもつ文字列を、悪性なWebページに到達することが既知のHTMLエレメントを特徴づける文字列であるキーワードとして抽出し、出力部15は、このキーワードを出力する(ステップS8)。
[実施の形態の効果]
このように、実施の形態に係る抽出装置10は、ブラウザ操作によって悪性なWebページに到達することが既知のHTMLエレメントと、ブラウザ操作によって良性なWebページに到達することが既知のHTMLエレメントと、を含む複数のWebページの情報の入力を受け付けると、複数のWebページをクラスタごとに分類する。抽出装置10は、分類したクラスタごとのWebページから、悪性なWebページに到達するHTMLエレメントと良性なWebページに到達するHTMLエレメントとを抽出し、抽出したHTMLエレメントに含まれる文字列を抽出する。続いて、抽出装置10は、抽出した文字列から、悪性なWebページに到達するHTMLエレメントを特徴づける文字列を、キーワードとして抽出する。
本実施の形態の抽出装置10は、上記の処理を行うことによって、悪性なWebページに到達するHTMLエレメントを特徴づけるキーワードを自動的に抽出する。すなわち、実施の形態に係る抽出装置10は、膨大なデータが対象であっても、悪性なWebページに到達するHTMLエレメントを特徴づけるキーワードを適切かつ自動的に抽出することができる。
このため、実施の形態によれば、膨大なデータが対象であっても、悪性なWebページに到達するHTMLエレメントを取りこぼすことなく、必要なキーワードを設定することができる。また、実施の形態によれば、悪性なWebページに到達するHTMLエレメントに含まれないものからはキーワードを設定しないため、適切にキーワードの設定を行うことができる。
また、解析装置20は、悪性なWebページを収集するためにWebブラウザでWebページにアクセスして誘導エレメントに対する操作を行う場合、抽出装置10が抽出したキーワードを用いることによって、悪性なWebページに到達するHTMLエレメントを精度よく検出できる。具体的には、解析装置20は、アクセスしたWebページを分析して、抽出装置10が抽出したキーワードが属する複数のクラスタから、Webページに対応する適切なクラスタを選択し、そのクラスタのHTMLテキスト要素、HTML属性値または領域内の文字列ごとのキーワードを内包するHTMLエレメントを検出する。
[システム構成等]
図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部又は任意の一部が、CPU及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的におこなうこともでき、あるいは、手動的に行なわれるものとして説明した処理の全部又は一部を公知の方法で自動的におこなうこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
[プログラム]
図14は、プログラムが実行されることにより、抽出装置10が実現されるコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
メモリ1010は、ROM(Read Only Memory)1011及びRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
ハードディスクドライブ1090は、例えば、OS(Operating System)1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、抽出装置10の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、抽出装置10における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSD(Solid State Drive)により代替されてもよい。
また、上述した実施形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。
なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワーク(LAN、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
以上、本発明者によってなされた発明を適用した実施形態について説明したが、本実施形態による本発明の開示の一部をなす記述及び図面により本発明は限定されることはない。すなわち、本実施形態に基づいて当業者等によりなされる他の実施形態、実施例及び運用技術等は全て本発明の範疇に含まれる。
1 解析システム
11 入力部
12 クラスタ判定部
13 エレメント内文字列抽出部
14 キーワード抽出部
15 出力部
20 解析装置
30 判定装置
121 特徴量抽出部
122 判定部
131 エレメント抽出部
132 文字列抽出部
141 文書生成部
142 重要度評価部
N ネットワーク
10 抽出装置

Claims (7)

  1. ブラウザ操作によって悪性なWebページに到達することが既知のHTML(HyperText Markup Language)のエレメントと、ブラウザ操作によって良性なWebページに到達することが既知のHTMLのエレメントと、を含む複数のWebページの情報の入力を受け付ける入力部と、
    入力が受け付けられた前記複数のWebページをクラスタごとに分類する分類部と、
    分類された各クラスタのWebページから、前記悪性なWebページに到達するHTMLのエレメントと前記良性なWebページに到達するHTMLのエレメントとを抽出し、抽出したHTMLのエレメントに含まれる第1の文字列を抽出する第1の抽出部と、
    前記第1の文字列から、前記悪性なWebページに到達するHTMLのエレメントを特徴づける第2の文字列を、キーワードとして抽出する第2の抽出部と、
    有することを特徴とする抽出装置。
  2. 前記分類部は、前記複数のWebページを基に、Webブラウザによって描画された前記Webページの画面の画像データから視覚的な情報を表す画像情報を特徴量として抽出し、前記Webページ内のテキストデータから文書の意味やトピックを表す文書情報を特徴量として抽出し、前記Webページのソースコードから前記Webページの内部構造を表すHTML構造情報を特徴量として抽出することを特徴とする請求項1に記載の抽出装置。
  3. 前記分類部は、抽出した特徴量の一部または全部を統合し、統合した特徴量を各Webページに対応する入力データとして教師なし学習を適用することで、前記Webページをクラスタごとに分類することを特徴とする請求項2に記載の抽出装置。
  4. 前記第1の抽出部は、前記分類部が分類した各クラスタのWebページの情報から、前記悪性なWebページに到達することが既知のHTMLのエレメントと、前記良性なWebページに到達することが既知のHTMLのエレメントとをクラスタごとに抽出し、抽出したHTMLのエレメントのHTMLテキスト要素、HTML属性値または領域内の文字列から前記第1の文字列を抽出することを特徴とする請求項1~3のいずれか一つに記載の抽出装置。
  5. 前記第2の抽出部は、前記Webページの各クラスタのHTMLテキスト要素またはHTML属性値ごとに、前記第1の文字列のうち前記悪性なWebページに到達することが既知のHTMLのエレメントに関する文字列を統合して第1の文書を生成し、前記第1の文字列のうち前記良性なWebページに到達することが既知のHTMLのエレメントに関する文字列を統合して第2の文書を生成し、前記第1の文書と前記第2の文書とを比較して前記第1の文書と前記第2の文書の各文字列の重要度を評価し、前記重要度を基づいて、前記Webページの各クラスタの、HTMLテキスト要素、HTML属性値または領域内の文字列ごとに、前記悪性なWebページに到達するHTMLのエレメントを特徴づける第2の文字列を、前記キーワードとして抽出することを特徴とする請求項1~4のいずれか一つに記載の抽出装置。
  6. 抽出装置が実行する抽出方法であって、
    ブラウザ操作によって悪性なWebページに到達することが既知のHTML(HyperText Markup Language)のエレメントと、ブラウザ操作によって良性なWebページに到達することが既知のHTMLのエレメントと、を含む複数のWebページの情報の入力を受け付ける工程と、
    入力が受け付けられた前記複数のWebページをクラスタごとに分類する工程と、
    分類された各クラスタのWebページから、前記悪性なWebページに到達するHTMLのエレメントと前記良性なWebページに到達するHTMLのエレメントとを抽出し、抽出したHTMLのエレメントに含まれる第1の文字列を抽出する工程と、
    前記第1の文字列から、前記悪性なWebページに到達するHTMLのエレメントを特徴づける第2の文字列を、キーワードとして抽出する工程と、
    を含んだことを特徴とする抽出方法。
  7. ブラウザ操作によって悪性なWebページに到達することが既知のHTML(HyperText Markup Language)のエレメントと、ブラウザ操作によって良性なWebページに到達することが既知のHTMLのエレメントと、を含む複数のWebページの情報の入力を受け付けるステップと、
    入力が受け付けられた前記複数のWebページをクラスタごとに分類するステップと、
    分類された各クラスタのWebページから、前記悪性なWebページに到達するHTMLのエレメントと前記良性なWebページに到達するHTMLのエレメントとを抽出し、抽出したHTMLのエレメントに含まれる第1の文字列を抽出するステップと、
    前記第1の文字列から、前記悪性なWebページに到達するHTMLのエレメントを特徴づける第2の文字列を、キーワードとして抽出するステップと、
    をコンピュータに実行させるための抽出プログラム。
JP2021521639A 2019-05-28 2019-05-28 抽出装置、抽出方法及び抽出プログラム Active JP7131704B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/021166 WO2020240718A1 (ja) 2019-05-28 2019-05-28 抽出装置、抽出方法及び抽出プログラム

Publications (2)

Publication Number Publication Date
JPWO2020240718A1 JPWO2020240718A1 (ja) 2020-12-03
JP7131704B2 true JP7131704B2 (ja) 2022-09-06

Family

ID=73553155

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021521639A Active JP7131704B2 (ja) 2019-05-28 2019-05-28 抽出装置、抽出方法及び抽出プログラム

Country Status (4)

Country Link
US (1) US12081568B2 (ja)
EP (1) EP3964986B1 (ja)
JP (1) JP7131704B2 (ja)
WO (1) WO2020240718A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024135266A1 (ja) * 2022-12-23 2024-06-27 株式会社Spider Labs 不正検知装置、不正検知方法、および記録媒体

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007522582A (ja) 2004-02-17 2007-08-09 マイクロソフト コーポレーション 階段化されたオブジェクト関連の信用決定
JP2018501583A (ja) 2014-12-30 2018-01-18 ファイヤアイ インク マルウェア検出のためのインテリジェントかつコンテキストアウェアなユーザインタラクション

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10207756A (ja) * 1997-01-16 1998-08-07 Nec Corp ホームページの構成を分析する方法およびその装置
US7831611B2 (en) * 2007-09-28 2010-11-09 Mcafee, Inc. Automatically verifying that anti-phishing URL signatures do not fire on legitimate web sites
US9712560B2 (en) * 2007-11-05 2017-07-18 Cabara Software Ltd. Web page and web browser protection against malicious injections
US8510829B2 (en) * 2010-06-24 2013-08-13 Mcafee, Inc. Systems and methods to detect malicious media files
JP5527845B2 (ja) * 2010-08-20 2014-06-25 Kddi株式会社 文書情報の文章的特徴及び外形的特徴に基づく文書分類プログラム、サーバ及び方法
US8713679B2 (en) * 2011-02-18 2014-04-29 Microsoft Corporation Detection of code-based malware
US9977900B2 (en) 2012-12-27 2018-05-22 Microsoft Technology Licensing, Llc Identifying web pages in malware distribution networks
CN103678692B (zh) 2013-12-26 2018-04-27 北京奇虎科技有限公司 一种下载文件的安全扫描方法及装置
US9930065B2 (en) * 2015-03-25 2018-03-27 University Of Georgia Research Foundation, Inc. Measuring, categorizing, and/or mitigating malware distribution paths
CN104766014B (zh) * 2015-04-30 2017-12-01 安一恒通(北京)科技有限公司 用于检测恶意网址的方法和系统
US10198575B2 (en) * 2016-08-18 2019-02-05 Qualcomm Innovation Center, Inc. Auto-sandboxing website or parts of website in browser to protect user privacy and security
US10706114B2 (en) * 2017-11-17 2020-07-07 Facebook, Inc. Systems and methods for using link graphs to demote links to low-quality webpages
US11036855B2 (en) * 2018-09-28 2021-06-15 EMC IP Holding Company LLC Detecting frame injection through web page analysis

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007522582A (ja) 2004-02-17 2007-08-09 マイクロソフト コーポレーション 階段化されたオブジェクト関連の信用決定
JP2018501583A (ja) 2014-12-30 2018-01-18 ファイヤアイ インク マルウェア検出のためのインテリジェントかつコンテキストアウェアなユーザインタラクション

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
小出 駿, 外5名著,ユーザ操作が起点となるWeb上の攻撃の収集,情報処理学会 研究報告 セキュリティ心理学とトラスト(SPT)2018-SPT-027,日本,情報処理学会,2018年02月28日
永井 達也, 外5名著,サイト構造のクラスタリングを用いた悪性サイトの識別,電子情報通信学会技術研究報告,日本,一般社団法人電子情報通信学会,2017年07月07日,第117巻,第128号,pp.93-98.
萩野 貴大, 外1名著,悪性コンテンツの隠蔽方法に着目したマルウェア感染への誘導用Webページ検知システムの提案,情報処理学会論文誌,日本,情報処理学会,2017年12月15日,第58巻,第12号,pp.1833-1842.

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024135266A1 (ja) * 2022-12-23 2024-06-27 株式会社Spider Labs 不正検知装置、不正検知方法、および記録媒体

Also Published As

Publication number Publication date
US20220239684A1 (en) 2022-07-28
EP3964986A4 (en) 2022-11-23
EP3964986A1 (en) 2022-03-09
EP3964986B1 (en) 2024-06-26
JPWO2020240718A1 (ja) 2020-12-03
US12081568B2 (en) 2024-09-03
WO2020240718A1 (ja) 2020-12-03

Similar Documents

Publication Publication Date Title
Yakura et al. Malware analysis of imaged binary samples by convolutional neural network with attention mechanism
AU2018217323B2 (en) Methods and systems for identifying potential enterprise software threats based on visual and non-visual data
US10805346B2 (en) Phishing attack detection
CN109922052B (zh) 一种结合多重特征的恶意url检测方法
CN107888571B (zh) 一种基于HTTP日志的多维度webshell入侵检测方法及检测系统
CN107251037B (zh) 黑名单生成装置、黑名单生成系统、黑名单生成方法和记录介质
Cohen et al. MalJPEG: Machine learning based solution for the detection of malicious JPEG images
US20130291111A1 (en) Method and Device for Program Identification Based on Machine Learning
WO2018159010A1 (ja) 選択装置、選択方法及び選択プログラム
WO2018066221A1 (ja) 分類装置、分類方法及び分類プログラム
CN110572393A (zh) 一种基于卷积神经网络的恶意软件流量分类方法
US20220200959A1 (en) Data collection system for effectively processing big data
Lovanshi et al. Comparative study of digital forensic tools
CN108959930A (zh) 恶意pdf检测方法、系统、数据存储设备和检测程序
JP2012088803A (ja) 悪性ウェブコード判別システム、悪性ウェブコード判別方法および悪性ウェブコード判別用プログラム
JP7131704B2 (ja) 抽出装置、抽出方法及び抽出プログラム
CN110225009A (zh) 一种基于通信行为画像的代理使用者检测方法
US20230164180A1 (en) Phishing detection methods and systems
US11556819B2 (en) Collection apparatus, collection method, and collection program
Luz et al. Data preprocessing and feature extraction for phishing URL detection
Miao et al. A Good Fishman Knows All the Angles: A Critical Evaluation of Google's Phishing Page Classifier
US12079285B2 (en) Training device, determination device, training method, determination method, training method, and determination program
Guo et al. Classification of malware variant based on ensemble learning
Pi et al. Remote access trojan traffic early detection method based on Markov matrices and deep learning
Gupta et al. Malware Analysis on AI Technique

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210917

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220726

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220808

R150 Certificate of patent or registration of utility model

Ref document number: 7131704

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150