JP6869833B2 - 識別装置、識別方法、識別プログラム、モデル生成装置、モデル生成方法及びモデル生成プログラム - Google Patents
識別装置、識別方法、識別プログラム、モデル生成装置、モデル生成方法及びモデル生成プログラム Download PDFInfo
- Publication number
- JP6869833B2 JP6869833B2 JP2017132269A JP2017132269A JP6869833B2 JP 6869833 B2 JP6869833 B2 JP 6869833B2 JP 2017132269 A JP2017132269 A JP 2017132269A JP 2017132269 A JP2017132269 A JP 2017132269A JP 6869833 B2 JP6869833 B2 JP 6869833B2
- Authority
- JP
- Japan
- Prior art keywords
- domain
- registration information
- word
- unit
- identification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
また、非特許文献6及び7には、ドメインの登録情報であるWhoisを使用して悪意のあるドメインか否かを分類する技術が示されている。
非特許文献3又は4の手法では、ランディングページか否か、又はディストリビューションページか否かを分類するため、複数の種類を一度に識別できない。
非特許文献5で使用されるブラックリストには、ランディングページ及びディストリビューションページのラベルが付与されているものの、リストに登録されていないページを識別することはできない。
図1は、本実施形態に係るDBD攻撃に関するドメインの種類を示す概念図である。
ユーザは、ランディング・ドメインに属するランディングページにアクセスすると、このページに埋め込まれたコードにより、ホップポイントページにリダイレクトされる。
さらに、ホップポイントページは、他の複数のホップポイントページをリダイレクトにより経由して、ユーザをディストリビューションページにアクセスさせる。
そして、ディストリビューションページに埋め込まれたコードにより、ユーザの端末にマルウェアがインストールされる。
モデル生成装置1は、制御部10及び記憶部11の他、入出力及び通信のインタフェースを備えた情報処理装置(コンピュータ)であり、記憶部11に格納されたソフトウェア(モデル生成プログラム)を制御部10が読み出し実行することにより、本実施形態の各機能を実現する。
出現頻度に関する指標は、例えばTF−IDFであり、特定のドメインに頻出する特徴語がTF−IDF値と共に、識別のための第1の特徴量として採用される。
・Whoisに含まれる単語を抽出する。
・不要な種類の単語を除外する。
・単語の辞書を構築する。
・単語毎の文書内の出現数、及び文書数を数える。
・単語毎にTF−IDF値を算出する。
・ランディング・ドメインに関するWhoisの更新日は、ディストリビューション・ドメインに関するWhoisの更新日よりも古い。
・ランディング・ドメインに関するWhoisの登録日は、通常よりも古い。
・ディストリビューション・ドメインに関するWhoisの登録日は、通常よりも新しい。
・ホップポイント・ドメインに関するWhoisの登録日及び更新日は、ランディング・ドメインよりも古い。
特定種類のタグとは、例えば、<form>、<iframe>、<href>、<link>、<script>、<frame>、<object>、<embed>の8種類であり、これらの出現回数の合計が識別のための第3の特徴量として採用される。
特定種類の拡張子とは、例えば、jar、swf、pdfの3種類であり、これらの出現回数の合計が識別のための第4の特徴量として採用される。
学習部106は、さらに、Whoisの登録日からの経過日数、及び更新日からの経過日数を第2の特徴量として、タグをカウントした第1の回数を第3の特徴量として、拡張子をカウントした第2の回数を第4の特徴量として、それぞれを入力に学習を行ってもよい。
識別装置2は、制御部20及び記憶部21の他、入出力及び通信のインタフェースを備えた情報処理装置(コンピュータ)であり、記憶部21に格納されたソフトウェア(識別プログラム)を制御部20が読み出し実行することにより、本実施形態の各機能を実現する。
算出部202、日付抽出部203、タグカウント部204及び拡張子カウント部205は、それぞれモデル生成装置1の算出部102、日付抽出部103、タグカウント部104及び拡張子カウント部105と同様の機能部である。これらの機能部により、第1〜第4の特徴量が導出され、これらの特徴量が識別部206へ入力される。
識別部206は、入力された第1〜第4の特徴量に基づいて、DBD攻撃におけるランディング・ドメイン、ホップポイント・ドメイン及びディストリビューション・ドメインを識別する。
識別モデルを生成する際の機械学習の入力、又は生成された識別器の入力となる特徴量は、ドメインに関するWhoisの情報と、ページ情報(HTML文書)とから取得される。
さらに、第2特徴量として、Whoisの属性情報から登録日及び更新日が得られる。
また、ページ情報からは、第3の特徴量として特定のタグの出現回数と、第4の特徴量として特定の拡張子の出現回数とが得られる。
これにより、識別装置2は、記述の形式及び用語が統一されていないWhoisから属性情報を抽出するという高コスト、かつ、精度の低い処理に対して、より容易に特徴量を抽出でき、DBD攻撃に関するドメインの種類を効率的に識別できる。
これにより、ドメインの種類の識別精度が向上し、ランディング・ドメイン及びディストリビューション・ドメインに加えて、ホップポイント・ドメインを精度良く識別できることが期待できる。
2 識別装置
10 制御部
11 記憶部
20 制御部
21 記憶部
101 取得部
102 算出部
103 日付抽出部
104 タグカウント部
105 拡張子カウント部
106 学習部
201 取得部
202 算出部
203 日付抽出部
204 タグカウント部
205 拡張子カウント部
206 識別部
Claims (10)
- DBD(Drive−by download)攻撃におけるランディング・ドメイン、及びディストリビューション・ドメインを含むラベルが付与された複数のドメインについて、当該ドメインの登録情報を取得する取得部と、
前記登録情報の記述形式に関わらず、当該登録情報の全体に含まれる単語を抽出し、当該単語の出現頻度に関する指標を算出する算出部と、
前記単語、及び当該単語に対する前記指標を第1の特徴量として、前記ラベルに基づく教師あり学習により識別モデルを生成する学習部と、を備えるモデル生成装置。 - 前記登録情報の登録日及び更新日を抽出する日付抽出部を備え、
前記学習部は、前記登録日からの経過日数、及び前記更新日からの経過日数を第2の特徴量として、前記識別モデルを生成する請求項1に記載のモデル生成装置。 - 前記ドメインのページ文書において、特定種類のタグが出現する第1の回数をカウントするタグカウント部を備え、
前記学習部は、前記第1の回数を第3の特徴量として、前記識別モデルを生成する請求項1又は請求項2に記載のモデル生成装置。 - 前記ドメインのページ文書において、特定種類のファイル拡張子が出現する第2の回数をカウントする拡張子カウント部を備え、
前記学習部は、前記第2の回数を第4の特徴量として、前記識別モデルを生成する請求項1から請求項3のいずれかに記載のモデル生成装置。 - 前記ラベルは、ホップポイント・ドメインをさらに含む請求項1から請求項4のいずれかに記載のモデル生成装置。
- DBD(Drive−by download)攻撃におけるランディング・ドメイン、及びディストリビューション・ドメインを含むラベルが付与された複数のドメインについて、当該ドメインの登録情報を取得する取得ステップと、
前記登録情報の記述形式に関わらず、当該登録情報の全体に含まれる単語を抽出し、当該単語の出現頻度に関する指標を算出する算出ステップと、
前記単語、及び当該単語に対する前記指標を第1の特徴量として、前記ラベルに基づく教師あり学習により識別モデルを生成する学習ステップと、をコンピュータが実行するモデル生成方法。 - DBD(Drive−by download)攻撃におけるランディング・ドメイン、及びディストリビューション・ドメインを含むラベルが付与された複数のドメインについて、当該ドメインの登録情報を取得する取得ステップと、
前記登録情報の記述形式に関わらず、当該登録情報の全体に含まれる単語を抽出し、当該単語の出現頻度に関する指標を算出する算出ステップと、
前記単語、及び当該単語に対する前記指標を第1の特徴量として、前記ラベルに基づく教師あり学習により識別モデルを生成する学習ステップと、をコンピュータに実行させるためのモデル生成プログラム。 - 指定されたドメインの登録情報を取得する取得部と、
前記登録情報の記述形式に関わらず、当該登録情報の全体に含まれる単語を抽出し、当該単語の出現頻度に関する指標を算出する算出部と、
前記単語、及び当該単語に対する前記指標を第1の特徴量として、DBD(Drive−by download)攻撃におけるランディング・ドメイン、及びディストリビューション・ドメインを識別する識別部と、を備える識別装置。 - 指定されたドメインの登録情報を取得する取得ステップと、
前記登録情報の記述形式に関わらず、当該登録情報の全体に含まれる単語を抽出し、当該単語の出現頻度に関する指標を算出する算出ステップと、
前記単語、及び当該単語に対する前記指標を第1の特徴量として、DBD(Drive−by download)攻撃におけるランディング・ドメイン、及びディストリビューション・ドメインを識別する識別ステップと、をコンピュータが実行する識別方法。 - 指定されたドメインの登録情報を取得する取得ステップと、
前記登録情報の記述形式に関わらず、当該登録情報の全体に含まれる単語を抽出し、当該単語の出現頻度に関する指標を算出する算出ステップと、
前記単語、及び当該単語に対する前記指標を第1の特徴量として、DBD(Drive−by download)攻撃におけるランディング・ドメイン、及びディストリビューション・ドメインを識別する識別ステップと、をコンピュータに実行させるための識別プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017132269A JP6869833B2 (ja) | 2017-07-05 | 2017-07-05 | 識別装置、識別方法、識別プログラム、モデル生成装置、モデル生成方法及びモデル生成プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017132269A JP6869833B2 (ja) | 2017-07-05 | 2017-07-05 | 識別装置、識別方法、識別プログラム、モデル生成装置、モデル生成方法及びモデル生成プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019016115A JP2019016115A (ja) | 2019-01-31 |
JP6869833B2 true JP6869833B2 (ja) | 2021-05-12 |
Family
ID=65358519
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017132269A Active JP6869833B2 (ja) | 2017-07-05 | 2017-07-05 | 識別装置、識別方法、識別プログラム、モデル生成装置、モデル生成方法及びモデル生成プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6869833B2 (ja) |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5527845B2 (ja) * | 2010-08-20 | 2014-06-25 | Kddi株式会社 | 文書情報の文章的特徴及び外形的特徴に基づく文書分類プログラム、サーバ及び方法 |
JP5980968B2 (ja) * | 2015-01-27 | 2016-08-31 | 株式会社ラック | 情報処理装置、情報処理方法及びプログラム |
US9930065B2 (en) * | 2015-03-25 | 2018-03-27 | University Of Georgia Research Foundation, Inc. | Measuring, categorizing, and/or mitigating malware distribution paths |
-
2017
- 2017-07-05 JP JP2017132269A patent/JP6869833B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2019016115A (ja) | 2019-01-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chen et al. | Tinydroid: a lightweight and efficient model for android malware detection and classification | |
Suarez-Tangil et al. | Droidsieve: Fast and accurate classification of obfuscated android malware | |
Shibahara et al. | Efficient dynamic malware analysis based on network behavior using deep learning | |
US8479296B2 (en) | System and method for detecting unknown malware | |
JP5569935B2 (ja) | ソフトウェア検出方法及び装置及びプログラム | |
US20110041179A1 (en) | Malware detection | |
Mehtab et al. | AdDroid: rule-based machine learning framework for android malware analysis | |
KR101858620B1 (ko) | 기계 학습을 이용한 자바스크립트 분석 장치 및 방법 | |
WO2018066221A1 (ja) | 分類装置、分類方法及び分類プログラム | |
Malisa et al. | Mobile application impersonation detection using dynamic user interface extraction | |
Abela et al. | An automated malware detection system for android using behavior-based analysis AMDA | |
Du et al. | A static Android malicious code detection method based on multi‐source fusion | |
Carlin et al. | Dynamic analysis of malware using run-time opcodes | |
Ahmadi et al. | Detecting misuse of google cloud messaging in android badware | |
JP6505533B2 (ja) | 悪質なコードの検出 | |
Sethi et al. | A novel malware analysis for malware detection and classification using machine learning algorithms | |
Korine et al. | DAEMON: dataset/platform-agnostic explainable malware classification using multi-stage feature mining | |
Deepa et al. | Investigation of feature selection methods for android malware analysis | |
Rafiq et al. | AndroMalPack: enhancing the ML-based malware classification by detection and removal of repacked apps for Android systems | |
JP6169497B2 (ja) | 接続先情報判定装置、接続先情報判定方法、及びプログラム | |
Hu et al. | Dynamic android malware analysis with de-identification of personal identifiable information | |
US11321453B2 (en) | Method and system for detecting and classifying malware based on families | |
CN113971283A (zh) | 一种基于特征的恶意应用程序检测方法及设备 | |
Khan et al. | A dynamic method of detecting malicious scripts using classifiers | |
Chew et al. | Real-time system call-based ransomware detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190819 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200625 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201110 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201217 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210413 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210414 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6869833 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |