JP2019016115A - Identifying device, identifying method, identifying program, model creating device, model creating method and model creating program - Google Patents
Identifying device, identifying method, identifying program, model creating device, model creating method and model creating program Download PDFInfo
- Publication number
- JP2019016115A JP2019016115A JP2017132269A JP2017132269A JP2019016115A JP 2019016115 A JP2019016115 A JP 2019016115A JP 2017132269 A JP2017132269 A JP 2017132269A JP 2017132269 A JP2017132269 A JP 2017132269A JP 2019016115 A JP2019016115 A JP 2019016115A
- Authority
- JP
- Japan
- Prior art keywords
- domain
- word
- registration information
- identification
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、ドメインの種類を識別する装置、及び識別モデルの生成装置に関する。 The present invention relates to an apparatus for identifying a domain type and an identification model generation apparatus.
従来、インターネットには、攻撃者が作成した悪意のあるサイトが含まれており、ユーザにとって、ウェブセキュリティは、非常に重要な課題となっている。例えば、マルウェアをユーザの端末にインストールするページに遷移させるDBD(Drive−by download)攻撃がある。 Conventionally, the Internet includes malicious sites created by attackers, and web security has become a very important issue for users. For example, there is a DBD (Drive-by download) attack that transitions to a page where malware is installed on a user's terminal.
DBD攻撃では、「正当なものと思われる」ランディングページに埋め込まれたコードにより、閲覧されたページは、複数のホップポイントページを辿ってディストリビューションページにリダイレクトされ、ディストリビューションページのコードによってマルウェアがユーザの端末にインストールされる(例えば、非特許文献1参照)。 In a DBD attack, the code embedded in the “legitimate” landing page redirects the viewed page to the distribution page through multiple hop point pages, and the code on the distribution page It is installed on the user's terminal (see, for example, Non-Patent Document 1).
これらの攻撃に関係するページを検出することでウェブセキュリティのレベルは向上する。さらに、ランディングページにはアクセスを許すがページ遷移を禁止する、ディストリビューションページへのアクセスは禁止する等、ページの種類に応じて制限レベルを変えることで、セキュリティを維持しつつ、ユーザに適切なウェブブラウジングを提供できる。例えば、非特許文献2−5には、ページの分類技術が示されている。
また、非特許文献6及び7には、ドメインの登録情報であるWhoisを使用して悪意のあるドメインか否かを分類する技術が示されている。
The level of web security is improved by detecting pages related to these attacks. In addition, by changing the restriction level according to the type of page, such as allowing access to the landing page but prohibiting page transition, prohibiting access to the distribution page, etc., it is appropriate for the user while maintaining security. Can provide web browsing. For example, Non-Patent Document 2-5 discloses a page classification technique.
Non-Patent Documents 6 and 7 disclose techniques for classifying whether a domain is a malicious domain using Whois, which is domain registration information.
非特許文献2の手法では、ディストリビューションページが検出された際に、参照情報が存在する場合にランディングページが一部検出される。
非特許文献3又は4の手法では、ランディングページか否か、又はディストリビューションページか否かを分類するため、複数の種類を一度に識別できない。
非特許文献5で使用されるブラックリストには、ランディングページ及びディストリビューションページのラベルが付与されているものの、リストに登録されていないページを識別することはできない。
In the technique of Non-Patent
In the method of Non-Patent Document 3 or 4, since it is classified whether it is a landing page or a distribution page, a plurality of types cannot be identified at a time.
The black list used in Non-Patent Document 5 is provided with labels of landing page and distribution page, but cannot identify a page that is not registered in the list.
非特許文献6又は7の手法では、ランディング又はディストリビューションといった詳細な分類はできないものの、Whoisに記述された属性を抽出することで、悪意のあるドメインか否かを分類する。しかしながら、Whoisの記述形式は統一されておらず、属性の抽出作業は容易ではない。 Although the method of Non-Patent Document 6 or 7 cannot perform detailed classification such as landing or distribution, the attribute described in Whois is extracted to classify whether the domain is a malicious domain or not. However, the description format of Whois is not uniform, and attribute extraction work is not easy.
このように、従来の手法では、DBD攻撃に関係する問題のあるドメインについて、所定のブラックリストに分類された状態で登録されていなければ、ランディング・ドメイン及びディストリビューション・ドメインの両方を効率的に識別することは難しかった。 As described above, in the conventional method, if a problem domain related to the DBD attack is not registered in a state classified in a predetermined black list, both the landing domain and the distribution domain are efficiently used. It was difficult to identify.
本発明は、DBD攻撃に関するドメインの種類を効率的に識別できる装置、方法及びプログラム、並びに識別するためのモデルを生成する装置、方法及びプログラムを提供することを目的とする。 An object of the present invention is to provide an apparatus, a method, and a program capable of efficiently identifying a domain type related to a DBD attack, and an apparatus, method, and program for generating a model for identification.
本発明に係るモデル生成装置は、DBD攻撃におけるランディング・ドメイン、及びディストリビューション・ドメインを含むラベルが付与された複数のドメインについて、当該ドメインの登録情報を取得する取得部と、前記登録情報に含まれる単語を抽出し、当該単語の出現頻度に関する指標を算出する算出部と、前記単語、及び当該単語に対する前記指標を第1の特徴量として、前記ラベルに基づく教師あり学習により識別モデルを生成する学習部と、を備える。 The model generation apparatus according to the present invention includes, for a plurality of domains assigned labels including a landing domain and a distribution domain in a DBD attack, an acquisition unit that acquires registration information of the domain, and the registration information includes And generating a discrimination model by supervised learning based on the label using the calculation unit for calculating an index related to the appearance frequency of the word and the index for the word and the word as a first feature quantity. A learning unit.
前記モデル生成装置は、前記登録情報の登録日及び更新日を抽出する日付抽出部を備え、前記学習部は、前記登録日からの経過日数、及び前記更新日からの経過日数を第2の特徴量として、前記識別モデルを生成してもよい。 The model generation device includes a date extraction unit that extracts a registration date and an update date of the registration information, and the learning unit has a second characteristic of an elapsed day from the registration date and an elapsed day from the update date. As a quantity, the identification model may be generated.
前記モデル生成装置は、前記ドメインのページ文書において、特定種類のタグが出現する第1の回数をカウントするタグカウント部を備え、前記学習部は、前記第1の回数を第3の特徴量として、前記識別モデルを生成してもよい。 The model generation device includes a tag count unit that counts a first number of times a specific type of tag appears in the page document of the domain, and the learning unit uses the first number of times as a third feature amount. The identification model may be generated.
前記モデル生成装置は、前記ドメインのページ文書において、特定種類のファイル拡張子が出現する第2の回数をカウントする拡張子カウント部を備え、前記学習部は、前記第2の回数を第4の特徴量として、前記識別モデルを生成してもよい。 The model generation device includes an extension count unit that counts a second number of times a specific type of file extension appears in the page document of the domain, and the learning unit sets the second number of times to a fourth number. The identification model may be generated as a feature quantity.
前記ラベルは、ホップポイント・ドメインをさらに含んでもよい。 The label may further include a hoppoint domain.
本発明に係るモデル生成方法は、DBD攻撃におけるランディング・ドメイン、及びディストリビューション・ドメインを含むラベルが付与された複数のドメインについて、当該ドメインの登録情報を取得する取得ステップと、前記登録情報に含まれる単語を抽出し、当該単語の出現頻度に関する指標を算出する算出ステップと、前記単語、及び当該単語に対する前記指標を第1の特徴量として、前記ラベルに基づく教師あり学習により識別モデルを生成する学習ステップと、をコンピュータが実行する。 The model generation method according to the present invention includes an acquisition step of acquiring registration information of a domain including a landing domain in a DBD attack and a label including a distribution domain, and the registration information includes And generating a discrimination model by supervised learning based on the label, using the calculation step of calculating an index relating to the appearance frequency of the word and the index for the word and the word as a first feature amount The computer performs the learning step.
本発明に係るモデル生成プログラムは、DBD攻撃におけるランディング・ドメイン、及びディストリビューション・ドメインを含むラベルが付与された複数のドメインについて、当該ドメインの登録情報を取得する取得ステップと、前記登録情報に含まれる単語を抽出し、当該単語の出現頻度に関する指標を算出する算出ステップと、前記単語、及び当該単語に対する前記指標を第1の特徴量として、前記ラベルに基づく教師あり学習により識別モデルを生成する学習ステップと、をコンピュータに実行させるためのものである。 The model generation program according to the present invention includes an acquisition step of acquiring registration information of a domain including a landing domain in a DBD attack and a label including a distribution domain, and the registration information includes And generating a discrimination model by supervised learning based on the label, using the calculation step of calculating an index relating to the appearance frequency of the word and the index for the word and the word as a first feature amount And a learning step for causing the computer to execute the learning step.
本発明に係る識別装置は、指定されたドメインの登録情報を取得する取得部と、前記登録情報に含まれる単語を抽出し、当該単語の出現頻度に関する指標を算出する算出部と、前記単語、及び当該単語に対する前記指標を第1の特徴量として、DBD攻撃におけるランディング・ドメイン、及びディストリビューション・ドメインを識別する識別部と、を備える。 The identification device according to the present invention includes an acquisition unit that acquires registration information of a specified domain, a calculation unit that extracts a word included in the registration information and calculates an index related to an appearance frequency of the word, the word, And an identification unit for identifying a landing domain and a distribution domain in a DBD attack using the index for the word as a first feature amount.
本発明に係る識別方法は、指定されたドメインの登録情報を取得する取得ステップと、前記登録情報に含まれる単語を抽出し、当該単語の出現頻度に関する指標を算出する算出ステップと、前記単語、及び当該単語に対する前記指標を第1の特徴量として、DBD攻撃におけるランディング・ドメイン、及びディストリビューション・ドメインを識別する識別ステップと、をコンピュータが実行する。 The identification method according to the present invention includes an acquisition step of acquiring registration information of a designated domain, a calculation step of extracting a word included in the registration information and calculating an index relating to an appearance frequency of the word, the word, The computer executes an identification step of identifying the landing domain and the distribution domain in the DBD attack using the index for the word as the first feature amount.
本発明に係る識別プログラムは、指定されたドメインの登録情報を取得する取得ステップと、前記登録情報に含まれる単語を抽出し、当該単語の出現頻度に関する指標を算出する算出ステップと、前記単語、及び当該単語に対する前記指標を第1の特徴量として、DBD攻撃におけるランディング・ドメイン、及びディストリビューション・ドメインを識別する識別ステップと、をコンピュータに実行させるためのものである。 The identification program according to the present invention includes an acquisition step of acquiring registration information of a specified domain, a calculation step of extracting an word included in the registration information and calculating an index relating to an appearance frequency of the word, the word, And an identification step for identifying a landing domain and a distribution domain in a DBD attack using the index for the word as a first feature amount.
本発明によれば、DBD攻撃に関するドメインを効率的に識別できる。 ADVANTAGE OF THE INVENTION According to this invention, the domain regarding a DBD attack can be identified efficiently.
以下、本発明の実施形態の一例について説明する。
図1は、本実施形態に係るDBD攻撃に関するドメインの種類を示す概念図である。
ユーザは、ランディング・ドメインに属するランディングページにアクセスすると、このページに埋め込まれたコードにより、ホップポイントページにリダイレクトされる。
さらに、ホップポイントページは、他の複数のホップポイントページをリダイレクトにより経由して、ユーザをディストリビューションページにアクセスさせる。
そして、ディストリビューションページに埋め込まれたコードにより、ユーザの端末にマルウェアがインストールされる。
Hereinafter, an example of an embodiment of the present invention will be described.
FIG. 1 is a conceptual diagram showing the types of domains related to the DBD attack according to the present embodiment.
When a user accesses a landing page belonging to the landing domain, the user is redirected to the hop point page by a code embedded in the page.
Further, the hop point page allows the user to access the distribution page via redirection through a plurality of other hop point pages.
Then, malware is installed on the user's terminal using the code embedded in the distribution page.
本実施形態に係るモデル生成装置1は、ランディング・ドメイン、ホップポイント・ドメイン、ディストリビューション・ドメイン、及び他の正常なドメインを識別するためのモデルを学習により生成する。識別装置2は、モデル生成装置1により生成されたモデルを用いて、未分類のドメインを識別する。
The
図2は、本実施形態に係るモデル生成装置1の機能構成を示すブロック図である。
モデル生成装置1は、制御部10及び記憶部11の他、入出力及び通信のインタフェースを備えた情報処理装置(コンピュータ)であり、記憶部11に格納されたソフトウェア(モデル生成プログラム)を制御部10が読み出し実行することにより、本実施形態の各機能を実現する。
FIG. 2 is a block diagram illustrating a functional configuration of the
The
モデル生成装置1の制御部10は、取得部101と、算出部102と、日付抽出部103と、タグカウント部104と、拡張子カウント部105と、学習部106とを備える。
The
取得部101は、DBD攻撃におけるランディング・ドメイン、及びディストリビューション・ドメインを含むラベルが付与された複数のドメインについて、これらドメインの登録情報であるWhoisを取得する。ラベルは、ホップポイント・ドメインをさらに含んでもよい。
The
なお、学習の教師データとなるラベルが付与されたドメイン情報は、既存のブラックリスト、ホワイトリスト等から取得してもよいし、任意のドメインを手動で分類することにより取得してもよい。 Note that the domain information to which a label serving as learning teacher data is attached may be acquired from an existing black list, white list, or the like, or may be acquired by manually classifying an arbitrary domain.
算出部102は、Whoisに含まれる単語をテキスト解析により抽出し、これらの単語の出現頻度に関する指標を算出する。
出現頻度に関する指標は、例えばTF−IDFであり、特定のドメインに頻出する特徴語がTF−IDF値と共に、識別のための第1の特徴量として採用される。
The
The index regarding the appearance frequency is, for example, TF-IDF, and feature words that frequently appear in a specific domain are adopted as a first feature amount for identification together with the TF-IDF value.
算出部102の処理は、例えば、次の複数のステップを含む。
・Whoisに含まれる単語を抽出する。
・不要な種類の単語を除外する。
・単語の辞書を構築する。
・単語毎の文書内の出現数、及び文書数を数える。
・単語毎にTF−IDF値を算出する。
The processing of the
-Extract words included in Whois.
・ Exclude unnecessary types of words.
・ Build a dictionary of words.
-Count the number of occurrences in the document for each word and the number of documents.
Calculate a TF-IDF value for each word.
日付抽出部103は、Whoisの登録日及び更新日を抽出する。これらの日付から現在までの経過日数が識別のための第2の特徴量として採用される。
The
ここで、ランディング・ドメイン、ホップポイント・ドメイン及びディストリビューション・ドメインに関するWhoisには、例えば、次のような特徴が多く見られるため、第2の特徴量が識別性能に寄与する。
・ランディング・ドメインに関するWhoisの更新日は、ディストリビューション・ドメインに関するWhoisの更新日よりも古い。
・ランディング・ドメインに関するWhoisの登録日は、通常よりも古い。
・ディストリビューション・ドメインに関するWhoisの登録日は、通常よりも新しい。
・ホップポイント・ドメインに関するWhoisの登録日及び更新日は、ランディング・ドメインよりも古い。
Here, in the Whois relating to the landing domain, the hop point domain, and the distribution domain, for example, the following features are often seen, so the second feature amount contributes to the identification performance.
The Whois renewal date for the landing domain is older than the Whois renewal date for the distribution domain.
• Whois registration dates for landing domains are older than normal.
• Whois registration dates for distribution domains are newer than usual.
• Whois registration and renewal dates for hoppoint domains are older than landing domains.
タグカウント部104は、ドメインに含まれるページ文書において、特定種類のタグが出現する第1の回数をカウントする。
特定種類のタグとは、例えば、<form>、<iframe>、<href>、<link>、<script>、<frame>、<object>、<embed>の8種類であり、これらの出現回数の合計が識別のための第3の特徴量として採用される。
The
The specific types of tags are, for example, eight types of <form>, <iframe>, <href>, <link>, <script>, <frame>, <object>, <embed>, and the number of occurrences of these Is used as a third feature quantity for identification.
拡張子カウント部105は、ドメインに含まれるページ文書において、特定種類のファイル拡張子が出現する第2の回数をカウントする。
特定種類の拡張子とは、例えば、jar、swf、pdfの3種類であり、これらの出現回数の合計が識別のための第4の特徴量として採用される。
The
The specific types of extensions are, for example, three types of jar, swf, and pdf, and the total number of appearances is used as the fourth feature amount for identification.
学習部106は、単語、及び単語のTF−IDF値を第1の特徴量として、ラベルに基づく教師あり学習により識別モデルを生成する。
学習部106は、さらに、Whoisの登録日からの経過日数、及び更新日からの経過日数を第2の特徴量として、タグをカウントした第1の回数を第3の特徴量として、拡張子をカウントした第2の回数を第4の特徴量として、それぞれを入力に学習を行ってもよい。
The
The
なお、学習アルゴリズムには、例えば、決定木、サポートベクタマシン、ナイーブベイズ、ニューラルネットワーク、確率的勾配降下法、k近傍法、ランダムフォレスト等、各種の手法が適宜用いられてよい。 For the learning algorithm, various methods such as a decision tree, support vector machine, naive Bayes, neural network, stochastic gradient descent method, k-nearest neighbor method, random forest, and the like may be used as appropriate.
図3は、本実施形態に係る識別装置2の機能構成を示すブロック図である。
識別装置2は、制御部20及び記憶部21の他、入出力及び通信のインタフェースを備えた情報処理装置(コンピュータ)であり、記憶部21に格納されたソフトウェア(識別プログラム)を制御部20が読み出し実行することにより、本実施形態の各機能を実現する。
FIG. 3 is a block diagram showing a functional configuration of the
The
識別装置2の制御部20は、取得部201と、算出部202と、日付抽出部203と、タグカウント部204と、拡張子カウント部205と、識別部206とを備える。
The
取得部201は、識別対象となる指定されたドメインの登録情報であるWhoisを取得する。
算出部202、日付抽出部203、タグカウント部204及び拡張子カウント部205は、それぞれモデル生成装置1の算出部102、日付抽出部103、タグカウント部104及び拡張子カウント部105と同様の機能部である。これらの機能部により、第1〜第4の特徴量が導出され、これらの特徴量が識別部206へ入力される。
The
The
識別部206は、モデル生成装置1により生成された識別モデルが実装された、ドメインの種類を判別するための識別器である。
識別部206は、入力された第1〜第4の特徴量に基づいて、DBD攻撃におけるランディング・ドメイン、ホップポイント・ドメイン及びディストリビューション・ドメインを識別する。
The discriminating
The
図4は、本実施形態に係る識別モデルの入力となる特徴量を示す図である。
識別モデルを生成する際の機械学習の入力、又は生成された識別器の入力となる特徴量は、ドメインに関するWhoisの情報と、ページ情報(HTML文書)とから取得される。
FIG. 4 is a diagram illustrating feature amounts that are input to the identification model according to the present embodiment.
The feature quantity that is an input of machine learning when generating the identification model or an input of the generated classifier is acquired from the Whois information about the domain and the page information (HTML document).
Whoisからは、第1の特徴量として、文書全体をテキスト解析した結果である単語及びそのTF−IDF値が得られる。
さらに、第2特徴量として、Whoisの属性情報から登録日及び更新日が得られる。
また、ページ情報からは、第3の特徴量として特定のタグの出現回数と、第4の特徴量として特定の拡張子の出現回数とが得られる。
From Whois, as a first feature value, a word that is the result of text analysis of the entire document and its TF-IDF value are obtained.
Furthermore, the registration date and the update date are obtained from the attribute information of Whois as the second feature amount.
Further, from the page information, the number of appearances of a specific tag as the third feature value and the number of appearances of the specific extension as the fourth feature value are obtained.
本実施形態によれば、モデル生成装置1は、ドメイン毎のWhoisをテキスト解析することにより、単語の出現頻度に関する指標を特徴量として抽出し、DBD攻撃に関するランディング・ドメイン、及びディストリビューション・ドメインを含むドメインの種類を識別するためのモデルを学習により生成する。
これにより、識別装置2は、記述の形式及び用語が統一されていないWhoisから属性情報を抽出するという高コスト、かつ、精度の低い処理に対して、より容易に特徴量を抽出でき、DBD攻撃に関するドメインの種類を効率的に識別できる。
According to the present embodiment, the
As a result, the
この結果、ネットワーク管理者等は、ユーザのブラウジングに対して、ランディング・ドメインへのアクセスは許可するがリダイレクトを制限したり、ディストリビューション・ドメインへのアクセスを禁止したりといった、ドメインの種類に応じた適切なアクセス制御を効率的に実現できる。 As a result, network administrators can allow access to the landing domain for user browsing, but restrict redirects and prohibit access to the distribution domain. Appropriate access control can be realized efficiently.
また、識別モデルは、Whoisの登録日及び更新日に基づく第2の特徴量、ドメイン内のページ文書に記述された特定のタグの出現回数からなる第3の特徴量、及びページ文書に記述された特定の拡張子の出現回数からなる第4の特徴量を用いる。
これにより、ドメインの種類の識別精度が向上し、ランディング・ドメイン及びディストリビューション・ドメインに加えて、ホップポイント・ドメインを精度良く識別できることが期待できる。
The identification model is described in the second feature amount based on the registration date and update date of Whois, the third feature amount including the number of appearances of a specific tag described in the page document in the domain, and the page document. A fourth feature amount consisting of the number of appearances of the specific extension is used.
As a result, the domain type identification accuracy is improved, and it can be expected that the hop point domain can be accurately identified in addition to the landing domain and the distribution domain.
以上、本発明の実施形態について説明したが、本発明は前述した実施形態に限るものではない。また、本実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本実施形態に記載されたものに限定されるものではない。 As mentioned above, although embodiment of this invention was described, this invention is not restricted to embodiment mentioned above. Further, the effects described in the present embodiment are merely a list of the most preferable effects resulting from the present invention, and the effects of the present invention are not limited to those described in the present embodiment.
モデル生成装置1によるモデル生成方法、及び識別装置2による識別方法は、ソフトウェアにより実現される。ソフトウェアによって実現される場合には、このソフトウェアを構成するプログラムが、情報処理装置(コンピュータ)にインストールされる。また、これらのプログラムは、CD−ROMのようなリムーバブルメディアに記録されてユーザに配布されてもよいし、ネットワークを介してユーザのコンピュータにダウンロードされることにより配布されてもよい。さらに、これらのプログラムは、ダウンロードされることなくネットワークを介したWebサービスとしてユーザのコンピュータに提供されてもよい。
The model generation method by the
1 モデル生成装置
2 識別装置
10 制御部
11 記憶部
20 制御部
21 記憶部
101 取得部
102 算出部
103 日付抽出部
104 タグカウント部
105 拡張子カウント部
106 学習部
201 取得部
202 算出部
203 日付抽出部
204 タグカウント部
205 拡張子カウント部
206 識別部
DESCRIPTION OF
Claims (10)
前記登録情報に含まれる単語を抽出し、当該単語の出現頻度に関する指標を算出する算出部と、
前記単語、及び当該単語に対する前記指標を第1の特徴量として、前記ラベルに基づく教師あり学習により識別モデルを生成する学習部と、を備えるモデル生成装置。 An acquisition unit for acquiring registration information of a domain including a landing domain in a DBD (Drive-by download) attack and a label including a distribution domain;
A calculation unit that extracts a word included in the registration information and calculates an index related to the appearance frequency of the word;
A model generation apparatus comprising: a learning unit that generates an identification model by supervised learning based on the label using the word and the index for the word as a first feature amount.
前記学習部は、前記登録日からの経過日数、及び前記更新日からの経過日数を第2の特徴量として、前記識別モデルを生成する請求項1に記載のモデル生成装置。 A date extraction unit for extracting a registration date and an update date of the registration information;
The model generation device according to claim 1, wherein the learning unit generates the identification model using the elapsed days from the registration date and the elapsed days from the update date as a second feature amount.
前記学習部は、前記第1の回数を第3の特徴量として、前記識別モデルを生成する請求項1又は請求項2に記載のモデル生成装置。 In the page document of the domain, the tag counting unit that counts the first number of times that a specific type of tag appears,
The model generation device according to claim 1, wherein the learning unit generates the identification model using the first number of times as a third feature amount.
前記学習部は、前記第2の回数を第4の特徴量として、前記識別モデルを生成する請求項1から請求項3のいずれかに記載のモデル生成装置。 An extension count unit that counts a second number of times a specific type of file extension appears in the page document of the domain;
4. The model generation apparatus according to claim 1, wherein the learning unit generates the identification model using the second number of times as a fourth feature amount. 5.
前記登録情報に含まれる単語を抽出し、当該単語の出現頻度に関する指標を算出する算出ステップと、
前記単語、及び当該単語に対する前記指標を第1の特徴量として、前記ラベルに基づく教師あり学習により識別モデルを生成する学習ステップと、をコンピュータが実行するモデル生成方法。 An acquisition step of acquiring registration information of a domain including a landing domain in a DBD (Drive-by download) attack and a label including a distribution domain;
A calculation step of extracting a word included in the registration information and calculating an index related to the appearance frequency of the word;
A model generation method in which a computer executes a learning step of generating an identification model by supervised learning based on the label using the word and the index for the word as a first feature amount.
前記登録情報に含まれる単語を抽出し、当該単語の出現頻度に関する指標を算出する算出ステップと、
前記単語、及び当該単語に対する前記指標を第1の特徴量として、前記ラベルに基づく教師あり学習により識別モデルを生成する学習ステップと、をコンピュータに実行させるためのモデル生成プログラム。 An acquisition step of acquiring registration information of a domain including a landing domain in a DBD (Drive-by download) attack and a label including a distribution domain;
A calculation step of extracting a word included in the registration information and calculating an index related to the appearance frequency of the word;
A model generation program for causing a computer to execute a learning step of generating an identification model by supervised learning based on the label using the word and the index for the word as a first feature amount.
前記登録情報に含まれる単語を抽出し、当該単語の出現頻度に関する指標を算出する算出部と、
前記単語、及び当該単語に対する前記指標を第1の特徴量として、DBD(Drive−by download)攻撃におけるランディング・ドメイン、及びディストリビューション・ドメインを識別する識別部と、を備える識別装置。 An acquisition unit for acquiring registration information of a specified domain;
A calculation unit that extracts a word included in the registration information and calculates an index related to the appearance frequency of the word;
An identification apparatus comprising: an identification unit that identifies a landing domain and a distribution domain in a DBD (Drive-by download) attack using the word and the index for the word as a first feature amount.
前記登録情報に含まれる単語を抽出し、当該単語の出現頻度に関する指標を算出する算出ステップと、
前記単語、及び当該単語に対する前記指標を第1の特徴量として、DBD(Drive−by download)攻撃におけるランディング・ドメイン、及びディストリビューション・ドメインを識別する識別ステップと、をコンピュータが実行する識別方法。 An acquisition step for acquiring registration information of a specified domain;
A calculation step of extracting a word included in the registration information and calculating an index related to the appearance frequency of the word;
An identification method in which a computer executes an identification step of identifying a landing domain and a distribution domain in a DBD (Drive-by download) attack using the word and the index for the word as a first feature amount.
前記登録情報に含まれる単語を抽出し、当該単語の出現頻度に関する指標を算出する算出ステップと、
前記単語、及び当該単語に対する前記指標を第1の特徴量として、DBD(Drive−by download)攻撃におけるランディング・ドメイン、及びディストリビューション・ドメインを識別する識別ステップと、をコンピュータに実行させるための識別プログラム。 An acquisition step for acquiring registration information of a specified domain;
A calculation step of extracting a word included in the registration information and calculating an index related to the appearance frequency of the word;
Identification for causing a computer to execute a step of identifying a landing domain and a distribution domain in a DBD (Drive-by download) attack using the word and the index for the word as a first feature amount program.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017132269A JP6869833B2 (en) | 2017-07-05 | 2017-07-05 | Identification device, identification method, identification program, model generation device, model generation method and model generation program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017132269A JP6869833B2 (en) | 2017-07-05 | 2017-07-05 | Identification device, identification method, identification program, model generation device, model generation method and model generation program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019016115A true JP2019016115A (en) | 2019-01-31 |
JP6869833B2 JP6869833B2 (en) | 2021-05-12 |
Family
ID=65358519
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017132269A Active JP6869833B2 (en) | 2017-07-05 | 2017-07-05 | Identification device, identification method, identification program, model generation device, model generation method and model generation program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6869833B2 (en) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012043285A (en) * | 2010-08-20 | 2012-03-01 | Kddi Corp | Document classification program, server and method based on sentence features and physical features of document information |
JP2016139935A (en) * | 2015-01-27 | 2016-08-04 | 株式会社ラック | Information processing apparatus, information processing method and program |
US20160285894A1 (en) * | 2015-03-25 | 2016-09-29 | Terry Lee NELMS | Measuring, categorizing, and/or mitigating malware distribution paths |
-
2017
- 2017-07-05 JP JP2017132269A patent/JP6869833B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012043285A (en) * | 2010-08-20 | 2012-03-01 | Kddi Corp | Document classification program, server and method based on sentence features and physical features of document information |
JP2016139935A (en) * | 2015-01-27 | 2016-08-04 | 株式会社ラック | Information processing apparatus, information processing method and program |
US20160285894A1 (en) * | 2015-03-25 | 2016-09-29 | Terry Lee NELMS | Measuring, categorizing, and/or mitigating malware distribution paths |
Non-Patent Citations (1)
Title |
---|
"ドメインのWHOIS構造を用いた悪性ドメインの判別手法", マルチメディア,分散,協調とモバイル(DICOMO2016)シンポジウム論文集, vol. 2016, no. 1, JPN6020042257, 29 June 2016 (2016-06-29), pages 1711 - 1716, ISSN: 0004382099 * |
Also Published As
Publication number | Publication date |
---|---|
JP6869833B2 (en) | 2021-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hong et al. | Phishing url detection with lexical features and blacklisted domains | |
Mehtab et al. | AdDroid: rule-based machine learning framework for android malware analysis | |
US10284570B2 (en) | System and method to detect threats to computer based devices and systems | |
Smutz et al. | Malicious PDF detection using metadata and structural features | |
JP5569935B2 (en) | Software detection method, apparatus and program | |
CN110177114B (en) | Network security threat indicator identification method, equipment, device and computer readable storage medium | |
US11212297B2 (en) | Access classification device, access classification method, and recording medium | |
CN107368856B (en) | Malicious software clustering method and device, computer device and readable storage medium | |
JP6674036B2 (en) | Classification device, classification method and classification program | |
EP3705974B1 (en) | Classification device, classification method, and classification program | |
Abela et al. | An automated malware detection system for android using behavior-based analysis AMDA | |
Korine et al. | DAEMON: dataset/platform-agnostic explainable malware classification using multi-stage feature mining | |
Rafiq et al. | AndroMalPack: enhancing the ML-based malware classification by detection and removal of repacked apps for Android systems | |
CN110020532B (en) | Information filtering method, system, equipment and computer readable storage medium | |
Parasar et al. | An Automated System to Detect Phishing URL by Using Machine Learning Algorithm | |
CN111988327B (en) | Threat behavior detection and model establishment method and device, electronic equipment and storage medium | |
CN113971283A (en) | Malicious application program detection method and device based on features | |
Gonzalez et al. | Measuring code reuse in Android apps | |
EP3848822A1 (en) | Data classification device, data classification method, and data classification program | |
US12067120B2 (en) | Classifier generator | |
JP6869833B2 (en) | Identification device, identification method, identification program, model generation device, model generation method and model generation program | |
Mukesh et al. | Real-time framework for malware detection using machine learning technique | |
Süren et al. | I see EK: A lightweight technique to reveal exploit kit family by overall URL patterns of infection chains | |
Han | Detection of web application attacks with request length module and regex pattern analysis | |
Venturi et al. | Classification of Web Phishing Kits for early detection by platform providers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190819 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200625 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201110 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201217 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210413 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210414 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6869833 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |