JP7684755B2

JP7684755B2 - バイナリファイルの固定化とウェーブレット信号処理によるバイナリファイルの特徴情報の抽出

Info

Publication number: JP7684755B2
Application number: JP2024514694A
Authority: JP
Inventors: パク・サンミン; キム・フィガン; チョン・サンフン
Original assignee: Korea University Research and Business Foundation
Current assignee: Korea University Research and Business Foundation
Priority date: 2021-09-08
Filing date: 2022-07-15
Publication date: 2025-05-28
Anticipated expiration: 2042-07-15
Also published as: US12339964B2; EP4386598B1; JP2024535757A; EP4386598A1; WO2023038273A1; EP4386598A4; US20240256664A1

Description

本開示は、悪性コードの検知に係り、具体的には、バイナリファイルを固定された大きさのデータに変換し、ウェーブレット信号処理によって静的に特徴情報を抽出する方法に関するものである。

世界的に、大量の悪性コードがサイバー空間に流布されており、迅速にバイナリファイルの特徴情報を抽出し、悪性コードであるか否かを検知する必要がある。

しかし、動作システムの環境によって、バイナリファイルは、ＰＥ（ＰｏｒｔａｂｌｅＥｘｅｃｕｔａｂｌｅ）又ＥＬＦ（ＥｘｅｃｕｔａｂｌｅａｎｄＬｉｎｋａｂｌｅＦｏｒｍａｔ）等のような構造になっている場合がある。そのため、バイナリファイルから特徴情報を抽出する際、当該バイナリファイルの構造に合わせて、特徴情報の抽出プロセスを変えなければならない場合がある。また、パッキング及び難読化が施されていないバイナリファイルと、パッキング及び難読化が施されたバイナリファイルから特徴情報を抽出した場合、パッキング及び難読化が施されたバイナリファイルからは、有意味な特徴情報を抽出することが困難であるという限界も存在し得る。さらに、バイナリファイルから特徴情報を抽出するために、バイナリファイルに対して、画像化、グレースケール、配列化のようなデータ変換のプロセスを遂行する必要が出てくる場合がある。しかし、バイナリファイルを変換する際、バイナリファイルの大きさがそれぞれ異なるため、変換されたバイナリファイルの形態が固定されず、そのため、大きさがそれぞれ異なるバイナリファイルから、均一な水準の特徴情報を抽出することに限界が存在し得る。さらに、バイナリファイルからウェーブレット信号処理によって特徴情報を抽出する場合、バイナリファイルの大きさによって、抽出される特徴情報が変わるという問題が存在し得る。

本開示は、前述の背景技術に対応し案出されたものであり、迅速にバイナリファイルの特徴情報を抽出するために、静的特徴情報抽出プロセスで抽出した特徴情報を用いて、悪性コードであるか否かを検知するものである。

また、動作システムの環境によって異なるバイナリファイルの構造を問わず、あらゆるバイナリファイルに対して１つの特徴情報抽出プロセスを実行し、特徴情報を抽出することを可能にするものである。

また、パッキング及び難読化が施されていないバイナリファイルと、パッキング及び難読化が施されたバイナリファイルの両方から、均一な水準の有意味なバイナリファイル特徴情報を抽出するものである。

また、バイナリファイルに対して、ｐａｄｄｉｎｇ、ｓｌｉｃｉｎｇ、ｈｉｓｔｏｇｒａｍ、隠れマルコフ等のような方法を実行し、固定された大きさのデータを生成するものである。

また、隠れマルコフの概念を適用し、バイナリファイルをバイト単位で読み取り、現在のバイトから次のバイトへと連結される（続く）場合に係る確率値を配列化し、大きさがそれぞれ異なる複数のバイナリファイルを固定された形態のデータに変換するものである。

また、固定された形態のデータに変換された、大きさがそれぞれ異なる複数のバイナリファイルから、ウェーブレット信号処理によって、悪性コードを検知するのに有意味な特徴情報を抽出するものである。

本開示における技術的課題は、前述の技術的課題に限定されるものではなく、当業者は、以下の記載内容に基づき、前述の技術的課題以外の課題についても明確に理解することが可能である。

前述の課題を解決するための本開示の一実施例に基づき、少なくとも１つのプロセッサーを含むコンピューティング装置により実行されるファイル特徴情報を抽出する方法が開示される。上記実行されるファイル特徴情報を抽出する方法は、バイナリ（ｂｉｎａｒｙ）ファイルの形態の入力データを、予め設定された大きさのデータに変換する段階；及び上記予め設定された大きさのデータから、上記入力データの特徴情報を抽出する段階；を含むことが可能である。

また、上記バイナリ（ｂｉｎａｒｙ）ファイルの形態の入力データを、予め設定された大きさのデータに変換する段階は、隠れマルコフモデル（ｈｉｄｄｅｎＭａｒｋｏｖｍｏｄｅｌ）を利用し、上記入力データを上記予め設定された大きさのデータに変換する段階；を含むことが可能である。

また、上記バイナリ（ｂｉｎａｒｙ）ファイルの形態の入力データを、予め設定された大きさのデータに変換する段階は、上記入力データを、記憶装置の大きさを表す第１単位（ｕｎｉｔ）に区分して認識する段階；上記第１単位で認識されたデータの個数をカウントする段階；及び上記第１単位のデータの個数に基づき、上記入力データを上記予め設定された大きさのデータに変換する段階；を含むことが可能である。

また、上記バイナリ（ｂｉｎａｒｙ）ファイルの形態の入力データを、予め設定された大きさのデータに変換する段階は、上記入力データをバイト単位で認識する段階；認識された複数のバイトの各々の個数をカウントする段階；及び上記複数のバイトの各々の個数に基づき、上記入力データを上記予め設定された大きさのデータに変換する段階；を含むことが可能である。

また、上記複数のバイトの各々の個数に基づき、上記入力データを上記予め設定された大きさのデータに変換する段階は、上記複数のバイトの各々の個数に基づき、全データのうち上記複数のバイトの各々の出現確率を計算する段階；及び上記出現確率に基づき、上記入力データを上記予め設定された大きさのデータに変換する段階；を含むことが可能である。

また、上記バイナリ（ｂｉｎａｒｙ）ファイルの形態の入力データを、予め設定された大きさのデータに変換する段階は、上記入力データをバイト単位で認識する段階；認識された複数のバイトのうち第１バイトの次に第２バイトが連結される（続く）、複数のバイト間の固有の連結構造の出現回数を計算する段階－上記出現回数は、上記認識された複数のバイトのうち少なくとも一部について計算される－；及び上記出現回数に基づき、上記入力データを上記予め設定された大きさのデータに変換する段階；を含むことが可能である。

また、上記出現回数に基づき、上記入力データを上記予め設定された大きさのデータに変換する段階は、上記出現回数に基づき、上記第１バイトの次に上記第２バイトが出現する、複数のバイト間の連結確率を計算する段階；及び上記連結確率に基づき、上記入力データを上記予め設定された大きさのデータに変換する段階；を含むことが可能である。

また、上記予め設定された大きさのデータから、上記入力データの特徴情報を抽出する段階は、ウェーブレット変換（ｗａｖｅｌｅｔｔｒａｎｓｆｏｒｍ）法を利用し、上記予め設定された大きさのデータから、特徴情報を抽出する段階；を含むことが可能である。

また、上記ウェーブレット変換（ｗａｖｅｌｅｔｔｒａｎｓｆｏｒｍ）法を利用し、上記予め設定された大きさのデータから、特徴情報を抽出する段階は、上記予め設定された大きさのデータに対して上記ウェーブレット変換を行い、ウェーブレット係数行列を抽出する段階－上記ウェーブレット係数行列は、近似係数行列（ａｐｐｒｏｘｉｍａｔｉｏｎｃｏｅｆｆｉｃｉｅｎｔｓｍａｔｒｉｘ）及び詳細係数行列（ｄｅｔａｉｌｃｏｅｆｆｉｃｉｅｎｔｓｍａｔｒｉｘ）を含む－；及び上記ウェーブレット係数行列に基づき、上記入力データの特徴情報を抽出する段階；を含むことが可能である。

また、上記詳細係数行列は、水平係数行列（ｈｏｒｉｚｏｎｔａｌｃｏｅｆｆｉｃｉｅｎｔｓｍａｔｒｉｘ）、垂直係数行列（ｖｅｒｔｉｃａｌｃｏｅｆｆｉｃｉｅｎｔｓｍａｔｒｉｘ）又は対角係数行列（ｄｉａｇｏｎａｌｃｏｅｆｆｉｃｉｅｎｔｓｍａｔｒｉｘ）のうち、少なくとも１つを含むことが可能である。

また、上記予め設定された大きさのデータは、行列の構造を持つデータであり、上記特徴情報は、上記予め設定された大きさのデータが１ｘ１の行列の構造になるように、第１回数のウェーブレット変換を行って抽出される上記近似係数行列に係る第１特徴、第１臨界回数以上かつ上記第１回数以下である第１個数範囲（回数範囲）内における第２回数のウェーブレット変換を行って抽出される上記対角係数行列の値に係る第２特徴、上記第１臨界回数以上かつ上記第１回数未満である第２個数範囲（回数範囲）内における第３回数のウェーブレット変換を行って抽出される上記対角係数行列に係る第３特徴、又は、上記第１臨界回数未満である第２臨界回数以上かつ上記第１回数未満である第３個数範囲（回数範囲）内における第４回数のウェーブレット変換を行って抽出される上記対角係数行列に係る第４特徴のうち、少なくとも１つを含むが、この場合、上記第１臨界回数は、上記第１回数より少ない回数になり得る。

また、上記第３特徴は、上記第３回数のウェーブレット変換を行って抽出される上記対角係数行列の比率に係る第３－１特徴、又は上記第３回数のウェーブレット変換を行って抽出される上記対角係数行列の第１標準偏差に係る第３－２特徴のうち、少なくとも１つを含むことが可能である。

また、上記第４特徴は、上記第４回数のウェーブレット変換を行って抽出される上記対角係数行列の値の合計に係る第４－１特徴、上記第３回数のウェーブレット変換を行って抽出される上記対角係数行列の値の歪度に係る第４－２特徴、上記第３回数のウェーブレット変換を行って抽出される上記対角係数行列の第２標準偏差に係る第４－３特徴、又は上記第３回数のウェーブレット変換を行って抽出される上記対角係数行列の平均値に係る第４－４特徴のうち、少なくとも１つの特徴を含むことが可能である。

また、バイナリファイルの形態の入力データから悪性コードを検知するように、上記特徴情報を学習データにしてネットワークモデルを学習させる段階；をさらに含むことが可能である。

また、ファイルの特徴情報を抽出するコンピューティング装置であって、バイナリ（ｂｉｎａｒｙ）ファイルの形態の入力データを、予め設定された大きさのデータに変換するバイナリファイル変換部；及び上記予め設定された大きさのデータから、上記入力データの特徴情報を抽出する信号処理部；を含むことが可能である。

また、コンピューター可読保存媒体に保存されているコンピュータープログラムであって、上記コンピュータープログラムは、１つ以上のプロセッサーにより実行される場合、ファイルの特徴情報を抽出する方法を実行し、上記方法は、バイナリ（ｂｉｎａｒｙ）ファイルの形態の入力データを、予め設定された大きさのデータに変換する段階；及び上記予め設定された大きさのデータから、上記入力データの特徴情報を抽出する段階；を含むことが可能である。

本開示から得られる技術的解決手段は、前述の解決手段に限定されることなく、本開示が属する技術分野における通常の知識を有する者は、以下の記載内容から、前述の解決手段以外の解決手段についても明確に理解することが可能である。
静的に特徴情報を抽出して迅速にバイナリファイルが悪性コードであるか否かを検知することが可能であり、バイナリファイルを実行させないため、悪性コードに感染するリスクを回避できる。

また、動作システムの環境を問わず、あらゆるバイナリファイルから特徴情報を抽出することが可能である。

また、バイナリファイルがパッキング及び難読化が施されているか否かに関係なく、均一な水準の特徴情報を抽出することが可能である。

また、バイナリファイルから特徴情報を抽出する際に入力されるバイナリファイルを、本発明におけるデータ変換プロセスにより、バイナリファイルの大きさがそれぞれ異なる場合でも、固定された形態のデータに変換することで均一な水準の特徴情報を抽出することが可能である。

また、データ変換プロセスにより固定された形態のデータから、ウェーブレット信号処理を通じて、悪性コードの検知に有意味な特徴情報を抽出することが可能である。

本開示から得られる効果は、前述の効果に限定されることなく、本開示が属する技術分野における通常の知識を有する者は、以下の記載内容に基づき、前述の効果以外の効果についても明確に理解することが可能である。

図面を参照して多様な様相について説明する。以下の図面の記載において、類似の図面番号は全般的に類似の構成要素を示すために使われる。以下の実施例において、説明のために、多数の特定の細部事項が、１つ以上の様相の総合的な理解を助けるために提供される。しかし、かかる（複数の）様相を、かかる特定の細部事項がなくても実施できるということは明白である。他の例において、公知の構造及び装置が、１つ以上の様相の記載を容易にするためにブロック図の形で図示される。

図１は、本開示の複数の実施例におけるコンピューティング装置の一例を説明するためのブロック構成図である。
図２は、本開示の複数の実施例におけるコンピューティング装置が、入力データの特徴情報を抽出する方法の一例を説明するためのフローチャートである。
図３は、本開示の複数の実施例におけるコンピューティング装置が、複数のバイトの各々の個数に基づき、入力データを予め設定された大きさのデータに変換する方法の一例を説明するためのフローチャートである。
図４は、本開示の複数の実施例におけるコンピューティング装置が、複数のバイトの各々の出現確率に基づき、入力データを予め設定された大きさのデータに変換する方法の一例を説明するためのフローチャートである。
図５は、本開示の複数の実施例におけるコンピューティング装置が、複数のバイト間の固有の連結構造の出現回数に基づき、入力データを、予め設定された大きさのデータに変換する方法の一例を説明するためのフローチャートである。
図６は、本開示の複数の実施例におけるコンピューティング装置が、複数のバイト間の連結確率に基づき、入力データを予め設定された大きさのデータに変換する方法の一例を説明するためのフローチャートである。
図７は、コンピューティング装置が、ウェーブレット変換法を利用し、予め設定された大きさのデータから特徴情報を抽出する方法の一例を説明するためのフローチャートである。
図８は、本開示内容の実施例が具現化されることが可能である、例示的なコンピューティング環境に係る一般的な概略図である。

以下、添付の図面を参照して、多様な実施例及び／又は様相を開示する。下記の説明において、説明のために、１つ以上の様相に対する全般的な理解を助けるために多数の具体的な細部事項を開示する。しかし、このような（複数の）様相は、このような具体的な細部事項がなくても実行できるということを、本開示の技術分野における通常の知識を持つ者は認知することが可能である。以下に記載及び添付されている図面は、１つ以上の様相の特定の例示的様相について詳細に記述している。しかし、これらの様相は例示的なものであり、多様な様相の原理に基づく多様な方法のうち一部が利用される場合もあり、ここに述べられている説明は、そのような様相及びそれらの均等物をすべて含むという意図を持っている。具体的に、本明細書における「実施例」、「例」、「様相」、「例示」において記述されている任意の様相又は設計が、他の様相又は設計より優れていたり、利点があると解釈されたりするとは限らない。

以下、図面の符号と関係なく、同一又は類似の構成要素に対しては、同一の参照番号を付し、それに係る重複する説明は省略する。また、本明細書に開示されている実施例を説明する際、それに係る公知の技術に関する具体的な説明が、本明細書に開示されている実施例の要旨を不明確にする可能性があると判断される場合は、その詳細な説明を省略する。また、添付の図面は、本明細書に開示されている実施例に対する理解をより容易にするためのものに過ぎず、添付の図面によって本明細書に開示されている技術的思想が制限されるわけではない。

「第１」、「第２」等の表現が、多様な素子や構成要素について述べるために使われているが、これらの素子や構成要素がこれらの用語によって制限されるわけではない。これらの用語は、単にある１つの素子や構成要素を他の素子や構成要素と区別するために使われているだけである。従って、以下に記載される第１の素子や構成要素は、本発明の技術的思想の中で第２の素子や構成要素にもなり得る。

別段の定義がない限り、本明細書において使われているすべての用語（技術及び科学的用語を含む）は、本発明が属する技術分野における通常の知識を有する者にとって、共通して理解できる意味で使うことが可能である。また、一般的な辞書に定義されている用語は、別段の定義がない限り、理想的に又は過度に解釈されないものとする。

また、用語「又は」は、排他的な「又は」ではなく、内包的な「又は」を意味するものとする。つまり、特に特定されておらず、文脈上明確ではない場合、「Ｘは、Ａ又はＢを利用する」は、自然な内包的置換のうち１つを意味するものとする。つまり、ＸがＡを利用したり；ＸがＢを利用したり；又はＸがＡ及びＢの両方を利用する場合、「ＸはＡ又はＢを利用する」は、これらのいずれにも当てはまるとすることが可能である。また、本明細書における「及び／又は」という用語は、取り挙げられた複数の関連アイテムのうち、１つ以上のアイテムの可能なすべての組み合わせを指し、含むものとする。

また、述語としての「含む（含める）」及び／又は修飾語としての「含む（含める）」という用語は、当該特徴及び／又は構成要素が存在することを意味するが、１つ以上の他の特徴、構成要素及び／又はこれらのグループの存在又は追加を排除しないものと理解される。また、特に数が特定されていない場合や、単数を示すことが文脈上明確でない場合、本明細書と請求範囲において単数は、一般的に「１つ又はそれ以上」を意味するものと解釈すべきである。

また、本明細書において用いられる用語「情報」と「データ」は、相互置き換えできるものとして用いることができるものとする。

ある構成要素が他の構成要素に「繋がって」いる、「連結されて」いる、又は「接続して」いるなどと記載された場合は、当該他の構成要素に直接繋がっていたり、連結されていたり又は接続していることも可能であるが、その間に他の構成要素が介在していることも可能であると解釈すべきである。一方、ある構成要素が他の構成要素に「直接繋がって」いる、「直接連結されて」いる、又は「直接接続して」いるなどと記述されている場合は、その間に他の構成要素が存在しないと解釈すべきである。

以下の説明で用いられる構成要素に係る接尾語の「モジュール」及び「部」は、明細書作成を容易にするためだけの目的で付されたり混用されているものであり、これらの接尾語自体がそれぞれ異なる特定の意味や役割を有するわけではない。

本開示の目的及び効果並びにそれらを達成するための技術的構成は、添付の図面とともに詳しく後述する実施例を参照することで明確になる。本開示の説明において、公知の機能又は構成に係る具体的な説明が、本開示の要旨を不明確にする可能性があると判断される場合は、その詳しい説明を省略する。そして後述の用語は、本開示における機能を考慮して定義された用語であり、当該用語は、利用者や運用者の意図又は慣例等によって変わることが可能である。

しかし、本開示は、以下に開示される実施例によって限定されるものではなく、多様な形で具現化されることが可能である。これらの実施例は、あくまでも、本開示を完全なものにし、本開示が属する技術分野における通常の知識を持つ者に、開示の範囲を完全に理解させるために提供されるものであり、本開示は、請求項の範囲によって定義されるものである。従って、その定義は、本明細書全般において記載されている内容に基づき決められるべきである。

本開示において、コンピューティング装置は、バイナリ（ｂｉｎａｒｙ）ファイルの形態の入力データを、予め設定された大きさのデータに変換することが可能である。バイナリファイルは、データの保存と処理を目的にエンコードされたファイルであり、動作システムの環境によって構造が異なる場合がある。一例として、Ｗｉｎｄｏｗｓ系の動作システムにおけるバイナリファイルは、ＰＥ（ＰｏｒｔａｂｌｅＥｘｅｃｕｔａｂｌｅ）フォーマットであることが可能であり、Ｕｎｉｘ系の動作システムにおけるバイナリファイルは、ＥＬＦフォーマット（ＥｘｅｃｕｔａｂｌｅａｎｄＬｉｎｋａｂｌｅＦｏｒｍａｔ）であることが可能である。従来は、動作システムの環境によってプロセスを変えることで、バイナリファイルから特徴情報を抽出することを可能にしていた。この場合、抽出された特徴情報が均一ではないという問題点が存在し得る。本開示においては、バイナリ（ｂｉｎａｒｙ）ファイルの形態の入力データに前処理を行うことで、予め設定された大きさのデータに変換することが可能である。本開示において行われる前処理は、動作システムの環境を問わず、同一の前処理にすることが可能である。従って、変換された予め設定された大きさのデータから、入力データの特徴情報を抽出する場合、抽出された複数の特徴情報の均一性が担保されることが可能である。さらに、コンピューティング装置は、バイナリファイルを実行することなく、静的に特徴情報を抽出することが可能である。従って、悪性コードに感染するリスクを回避できる。以下に、図１乃至図７を用いて、コンピューティング装置がファイルの特徴情報を抽出する方法について説明する。

図１は、本開示の複数の実施例におけるコンピューティング装置の一例を説明するためのブロック構成図である。

図１を参照すると、コンピューティング装置（１００）は、プロセッサー（１１０）、バイナリファイル変換部（１２０）及び信号処理部（１３０）を含むことが可能である。ただし、上述の構成要素は、コンピューティング装置（１００）を実装するに当たり、必須のものではなく、コンピューティング装置（１００）に含まれる構成要素は、上述の構成要素より多い場合もあれば、少ない場合もある。

コンピューティング装置（１００）は、例えば、マイクロプロセッサー、メインフレームコンピューター、デジタルプロセッサー、携帯用デバイス又はデバイスコントローラー等のような任意のタイプのコンピューターシステム又はコンピューターデバイスを含むことが可能である。

プロセッサー（１１０）は、通常コンピューティング装置（１００）の全般的な動作を処理することが可能である。プロセッサー（１１０）は、コンピューティング装置（１００）に含まれている構成要素を通じて入力又は出力される信号、データ、情報等を処理したり、保存部に保存されている応用プログラムを駆動したりすることで、ユーザーに適切な情報又は機能を提供又は処理することが可能である。

バイナリ（ｂｉｎａｒｙ）ファイル変換部（１２０）は、バイナリファイルの形態の入力データを、予め設定された大きさのデータに変換することが可能である。予め設定された大きさのデータは、行列構造のデータであることが可能である。一例として、予め設定された大きさのデータは、大きさが２５６ｘ２５６である行列構造のデータであることが可能である。ただし、予め設定された大きさのデータは、それに限らず、多様な大きさの行列構造のデータになり得る。一例として、予め設定された大きさのデータは、大きさが５１２ｘ５１２である行列構造のデータであることも可能であり、大きさが１２８ｘ１２８である行列構造のデータであることも可能である。

本開示の複数の実施例によると、バイナリファイル変換部（１２０）は、入力データを予め設定された大きさのデータに変換するために、入力データを、記憶装置の大きさを表す第１単位（ｕｎｉｔ）に区分して認識することが可能である。一実施例において、第１単位は、コンピューティング装置の保存単位を含むことが可能である。第１単位は、一例として、バイト（ｂｙｔｅ）、ページ、ブロック又はビット（ｂｉｔ）等の単位になり得る。バイナリファイル変換部（１２０）は、第１単位で認識されたデータの個数をカウントすることが可能である。バイナリファイル変換部（１２０）は、第１単位で認識されたデータの個数に基づき、入力データを予め設定された大きさのデータに変換することが可能である。

本開示の複数の実施例によると、バイナリファイル変換部（１２０）は、バイナリファイル読み取り部、バイト確率計算部及び固定データ生成部を含むことが可能である。

バイナリファイル読み取り部は、バイナリファイルの形態の入力データを、第１単位に区分して認識することが可能である。一例として、バイナリファイル読み取り部は、バイナリファイルの形態の入力データを、バイト単位に区分して認識することが可能である。

バイト確率計算部は、バイナリファイル読み取り部によって入力データがバイト単位で認識された場合、認識された複数のバイトの各々の個数をカウントすることが可能である。バイト確率計算部は、複数のバイトの各々の個数に基づき、全データのうち複数のバイトの各々の出現確率を計算することが可能である。出現確率は、全データのうち複数のバイトの各々が、どのくらい出現したかを示す確率であることが可能である。一例として、複数のバイトのうち第１バイトについて計算される第１出現確率は、複数のバイトのうち第１バイトが占める比率を表す値であることも可能である。

固定データ生成部は、バイト確率計算部によって計算された出現確率に基づき、入力データを予め設定された大きさのデータに変換することが可能である。以下、バイナリファイル変換部（１２０）が、バイナリファイルの形態の入力データを予め設定された大きさのデータに変換する方法に係る一例は、図２乃至図６を用いて説明する。

一方、信号処理部（１３０）は、予め設定された大きさのデータから、入力データの特徴情報を抽出することが可能である。特徴情報は、バイナリファイルの形態の入力データが悪性コードであるか否かを検知するために用いられる情報であることが可能である。

一例として、プロセッサー（１１０）は、抽出された特徴情報を学習データにしてバイナリファイルの形態の入力データから悪性コードを検知するように、ネットワークモデルを学習させることが可能である。本開示に基づく方法で抽出された特徴情報を学習データにしてネットワークモデルを学習させる場合、学習されたネットワークモデルが悪性コードを検知する際の正確度が向上されることは、下記の表１乃至表３に示すように立証されることが可能である。

表１は、ＫＩＳＡ２０１７悪性コードデータに対する性能評価の結果であることが可能である。表２は、ＫＩＳＡ２０１８悪性コードデータに対する性能評価の結果であることが可能である。表３は、ＫＩＳＡ２０１９悪性コードデータに対する性能評価の結果であることが可能である。ＫＩＳＡ悪性コードは、韓国インターネット振興院（ＫｏｒｅａＩｎｔｅｒｎｅｔ＆ＳｅｃｕｒｉｔｙＡｇｅｎｃｙ）が提供するデータであることが可能である。表１乃至表３において、０は非悪性（ｂｅｎｉｇｎ）コードであり、１は悪性（ｍａｌｉｃｉｏｕｓ）コードであることが可能である。ＭａｃｒｏＡＶＧは、ＴＰ（ＴｒｕｅＰｏｓｉｔｉｖｅ）、ＦＮ（ＦａｌｓｅＮｅｇａｔｉｖｅ）、ＦＰ（ＦａｌｓｅＰｏｓｉｔｉｖｅ）及びＴＮ（ＴｒｕｅＮｅｇａｔｉｖｅ）をそれぞれ計算してから合算した値であることが可能である。ＷｅｉｇｈｔｅｄＡＶＧは、各クラスに該当するデータの個数に予め設定された重みを与えたうえで平均を求めた値であることが可能である。

表１を参照すると、正確度（ａｃｃｕｒａｃｙ）が０．９４６０となり、ＡＵＣ（ＡｒｅａＵｎｄｅｒｔｈｅｃｕｒｖｅ）Ｓｃｏｒｅが０．９２７４となっていることが確認できる。表２を参照すると、正確度が０．９５１３となり、ＡＵＣＳｃｏｒｅが０．９３４１となっていることが確認できる。表３を参照すると、正確度が０．９６４９となり、ＡＵＣＳｃｏｒｅが０．９６４１となっていることが確認できる。

正確度は、下記の数１のように計算される値であることが可能であり、正確度が高いほどモデルの性能が高いと評価されることが可能である。
ＡＵＣＳｃｏｒｅは、ＲＯＣ（ＲｅｃｅｉｖｅｒＯｐｅｒａｔｉｎｇＣｈａｒａｃｔｅｒｉｓｔｉｃ）曲線の下方の面積に該当する値であり、ＡＵＣＳｃｏｒｅが高いほど、悪性コードの予測におけるモデルの性能が優秀であったことを意味することが可能である。

上記表１乃至表３のように、本開示に基づく方法で抽出された特徴情報を学習データにしてネットワークモデルを学習させる場合、学習されたネットワークモデルが悪性コードを検知及び予測する際の正確度が向上されることが可能である。

一方、本開示において特徴情報を学習データにして学習されるネットワークモデルは、畳み込みニューラルネットワーク（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ、ＣＮＮ）、ＡＮＮ（ＡｒｔｉｆｉｃｉａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）、ＤＮＮ（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ）又はＲＮＮ（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ）等であることが可能である。

以下に、本開示におけるコンピューティング装置（１００）が、入力データの特徴情報を抽出する方法について説明する。

図２は、本開示の複数の実施例におけるコンピューティング装置が、入力データの特徴情報を抽出する方法の一例を説明するためのフローチャートである。

図２を参照すると、コンピューティング装置（１００）のバイナリファイル変換部（１２０）は、バイナリファイルの形態の入力データを、予め設定された大きさのデータに変換することが可能である（Ｓ１１０）。

実施例において、バイナリファイル変換部（１２０）は、入力データを、記憶装置の大きさを表す第１単位に区分して認識することが可能である。バイナリファイル変換部（１２０）は、認識された第１単位データの個数をカウントし、第１単位のデータの個数に基づき、入力データを予め設定された大きさのデータに変換することが可能である。

本開示の複数の実施例によると、バイナリファイル変換部（１２０）は、隠れマルコフモデル（ｈｉｄｄｅｎＭａｒｋｏｖｍｏｄｅｌ）を利用し、入力データを予め設定された大きさのデータに変換することが可能である。隠れマルコフモデルは、統計に基づくモデルであり、入力データがバイト単位で認識された場合、複数のバイト間の連結確率に基づき入力データを変換できるモデルであることが可能である。連結確率は、複数のバイトのうち第１バイトの次に第２バイトが出現し、連結される確率であることが可能である。実施例において、バイナリファイル変換部（１２０）は、ｐａｄｄｉｎｇ、ｓｌｉｃｉｎｇ又はｈｉｓｔｏｇｒａｍのような方法を利用し、入力データを予め設定された大きさのデータに変換することが可能である。以下、バイナリファイル変換部（１２０）が、隠れマルコフモデルを利用し、入力データを予め設定された大きさのデータに変換する方法の一例については、図５及び図６を用いて説明する。

信号処理部（１３０）は、予め設定された大きさのデータから、入力データの特徴情報を抽出することが可能である（Ｓ１２０）。

具体的に、信号処理部（１３０）は、ウェーブレット変換（ｗａｖｅｌｅｔｔｒａｎｓｆｏｒｍ）法を利用し、予め設定された大きさのデータから、特徴情報を抽出することが可能である。ウェーブレット変換法は、オーディオ信号、画像又は動画等の多様な種類のデータから情報を抽出するために用いられることのできるシグナルプロセッシング手法であり、時間周波数解析が可能な手法であることが可能である。ウェーブレット変換は、低周波数情報の分析のためには、長時間の間隔を用いて、高周波数情報のためには短時間の間隔を用いることで、時間的又は空間的推移を同時に可変的に扱うことが可能である。他のシグナルプロセッシング手法の一つであるフーリエ変換（Ｆｏｕｒｉｅｒｔｒａｎｓｆｏｒｍ）法も、時間周波数解析が可能であり、時間や空間に係る関数を、時間情報又は空間周波数情報に変換することが可能である。しかし、フーリエ変換法の場合、ユーザーが時間軸をどのように設定するかによって、時間情報又は空間周波数情報が変化することが可能である。一例として、フーリエ変換法は、時間情報がたくさん抽出されるようにユーザーが時間軸を設定する場合、空間情報において損失が生じる可能性がある。逆に、フーリエ変換法は、空間情報がたくさん抽出されるようにユーザーが時間軸を設定する場合、時間情報において損失が生じる可能性がある。一方、ウェーブレット変換は、時間情報及び空間情報を均等に抽出することが可能であり、言い換えると、上述のフーリエ変換の短所を解決することが可能である。従って、本開示においては、ウェーブレット変換法を利用し、予め設定された大きさのデータから、特徴情報を抽出することが可能である。以下、信号処理部（１３０）が、ウェーブレット変換法を利用し、予め設定された大きさのデータから、特徴情報を抽出する方法に係る一例は、図７を用いて説明する。

上述の構成において、コンピューティング装置（１００）は、動作システムの環境によって異なるバイナリファイルの形態の入力データを、全て予め設定された大きさのデータに変換することが可能である。そして、コンピューティング装置は、予め設定された大きさのデータから、入力データの特徴情報を抽出することが可能である。そのため、コンピューティング装置（１００）は、それぞれ異なる動作システムの環境におけるデータが入力されても、互いに均一な水準の有意味な特徴情報を抽出することが可能である。

以下に、コンピューティング装置（１００）が、入力データを予め設定された大きさのデータに変換する一例について、追加の説明を記載する。

図３は、本開示の複数の実施例におけるコンピューティング装置が、複数のバイトの各々の個数に基づき、入力データを予め設定された大きさのデータに変換する方法の一例を説明するためのフローチャートである。図４は、本開示の複数の実施例におけるコンピューティング装置が、複数のバイトの各々の出現確率に基づき、入力データを予め設定された大きさのデータに変換する方法の一例を説明するためのフローチャートである。

図３を参照すると、コンピューティング装置（１００）のバイナリファイル変換部（１２０）は、入力データをバイト単位で認識することが可能である（Ｓ１１１）。

例えば、バイナリファイルの形態の入力データは、０～２５５の間の値を含むことが可能である。バイナリファイル変換部（１２０）は、０～２５５の間の複数の値をそれぞれバイト単位で認識することが可能である．一例として、バイナリファイル変換部（１２０）は、０～２５５の間の値を０、１、２、３等のようにバイト単位で認識することが可能である。

バイナリファイル変換部（１２０）は、認識された複数のバイトの各々の個数をカウントすることが可能である（Ｓ１１２）。

例えば、バイナリファイル変換部（１２０）は、０の値がいくつあるか、１の値がいくつあるか等のように複数のバイトの各々の個数をカウントすることが可能である。

バイナリファイル変換部（１２０）は、複数のバイトの各々の個数に基づき、入力データを予め設定された大きさのデータに変換することが可能である（Ｓ１１３）。

例えば、バイナリファイル変換部（１２０）は、入力データを、複数のバイトの各々の個数に対応する大きさのデータに変換することが可能である。

一方、図４を参照すると、バイナリファイル変換部（１２０）は、複数のバイトの各々の個数がカウントされた場合、複数のバイトの各々の個数に基づき、全データのうち複数のバイトの各々の出現確率を計算することが可能である（Ｓ１１３１）。出現確率は、全データのうち複数のバイトの各々が、どのくらい出現したかを示す確率であることが可能である。一例として、複数のバイトのうち第１バイトについて計算される第１出現確率は、複数のバイトのうち第１バイトが占める比率を表す値であることも可能である。

例えば、バイナリファイル変換部（１２０）は、０～２５５の間の値のうち、０が何パーセント出現したか、１が何パーセント出現したか、又は２が何パーセント出現したか等を計算することが可能である。

バイナリファイル変換部（１２０）は、出現確率に基づき、入力データを予め設定された大きさのデータに変換することが可能である（１１３２）。

例えば、バイナリファイル変換部（１２０）は、入力データを、複数のバイトの各々の出現確率に対応する大きさのデータに変換することが可能である。

上述の構成において、コンピューティング装置（１００）は、動作システムの環境によって異なるバイナリファイルの形態の入力データを、予め設定された大きさのデータに変換することが可能である。言い換えると、コンピューティング装置（１００）は、動作システムの環境によって異なるバイナリファイルの形態の入力データが入力されても、入力データを全て均一な大きさのデータに変換することが可能である。これにより、コンピューティング装置（１００）が抽出する入力データの特徴情報も均一なものになり得る。

以下には、コンピューティング装置（１００）が、入力データを予め設定された大きさのデータに変換する他の一例について説明する。

図５は、本開示の複数の実施例におけるコンピューティング装置が、複数のバイト間の固有の連結構造の出現回数に基づき、入力データを、予め設定された大きさのデータに変換する方法の一例を説明するためのフローチャートである。図６は、本開示の複数の実施例におけるコンピューティング装置が、複数のバイト間の連結確率に基づき、入力データを予め設定された大きさのデータに変換する方法の一例を説明するためのフローチャートである。

本開示の複数の実施例によると、コンピューティング装置（１００）のバイナリファイル変換部（１２０）は、隠れマルコフモデルを利用し、入力データを予め設定された大きさのデータに変換することが可能である。隠れマルコフモデルは、入力データに含まれている複数のバイト間の連結確率に基づき、入力データを変換できるモデルであることが可能である。連結確率は、複数のバイトのうち第１バイトの次に第２バイトが出現し、連結される確率であることが可能である。

具体的に、図５を参照すると、バイナリファイル変換部（１２０）は、入力データをバイト単位で認識することが可能である（Ｓ２１０）。

バイナリファイル変換部（１２０）は、認識された複数のバイトのうち第１バイトの次に第２バイトが連結される（続く）、複数のバイト間の固有の連結構造の出現回数を計算することが可能である（Ｓ２２０）。この場合、第１バイト及び第２バイトは、説明を容易にするために区分しているものであり、特定のバイトに限定するわけではない。一例として、バイナリファイル変換部（１２０）は、認識された複数のバイトのうち少なくとも一部について出現回数を計算することが可能である。

固有の連結構造は、少なくとも２つの複数のバイト間の固有の連結構造であり、他の少なくとも２つの複数のバイト間の連結構造とは区別されるものと理解されることが可能である。

例えば、バイナリファイル変換部（１２０）は、０の値を持つ第１バイトの次に１の値を持つ第２バイトが連結される構造を固有の連結構造として決定することが可能である。他の例を挙げると、バイナリファイル変換部（１２０）は、１の値を持つ第２バイトの次に２の値を持つ第３バイトが連結される構造を固有の連結構造として決定することが可能である。

出現回数は、固有の連結構造が認識された複数のバイトにおいて出現した回数を表すことが可能である。

例えば、バイナリファイル変換部（１２０）は、０の値を持つ第１バイトの次に１の値を持つ第２バイトが連結される固有の連結構造の出現回数を計算することが可能である。他の例を挙げると、バイナリファイル変換部（１２０）は、１の値を持つ第２バイトの次に２の値を持つ第３バイトが連結される固有の連結構造の出現回数を計算することが可能である。

バイナリファイル変換部（１２０）は、複数のバイト間の固有の連結構造の出現回数に基づき、入力データを予め設定された大きさのデータに変換することが可能である（Ｓ２３０）。

実施例において、バイナリファイル変換部（１２０）は、入力データを大きさが２５６ｘ２５６である行列構造のデータに変換することが可能である。ただし、予め設定された大きさは、２５６ｘ２５６に限定されるのではなく、より大きい又はより小さいものにもなり得る。

一方、図６を参照すると、バイナリファイル変換部（１２０）は、複数のバイト間の固有の連結構造の出現回数に基づき、第１バイトの次に第２バイトが出現する、複数のバイト間の連結確率を計算することが可能である（Ｓ２３１）。連結確率は、複数のバイトのうち第１バイトの次に第２バイトが出現し、連結される確率であることが可能である。

例えば、バイナリファイル変換部（１２０）は、０の値を持つ第１バイトの次に１の値を持つ第２バイトが出現する連結確率を計算することが可能である。バイナリファイル変換部（１２０）は、１の値を持つ第２バイトの次に２の値を持つ第３バイトが出現する連結確率を計算することが可能である。

バイナリファイル変換部（１２０）は、連結確率に基づき、入力データを予め設定された大きさのデータに変換することが可能である（Ｓ２３２）。

上述の構成において、コンピューティング装置（１００）は、動作システムの環境によって異なるバイナリファイルの形態の入力データを、予め設定された大きさのデータに変換することが可能である。この場合、予め設定された大きさのデータは、行列構造のデータであることが可能である。これにより、コンピューティング装置（１００）は、ウェーブレット変換法を利用し、予め設定された大きさのデータから、特徴情報を抽出することが可能である。以下に、コンピューティング装置（１００）が、ウェーブレット変換法を利用し、予め設定された大きさのデータから、特徴情報を抽出する方法について説明する。

図７は、コンピューティング装置が、ウェーブレット変換法を利用し、予め設定された大きさのデータから、特徴情報を抽出する方法の一例を説明するためのフローチャートである。

図７を参照すると、コンピューティング装置（１００）の信号処理部（１３０）は、予め設定された大きさのデータにウェーブレット変換を行い、ウェーブレット係数行列（Ｗａｖｅｌｅｔｃｏｅｆｆｉｃｉｅｎｔｓｍａｔｒｉｘ）を抽出することが可能である（Ｓ３１０）。ウェーブレット係数は、データにウェーブレット変換を行うことで得られる係数であることが可能である。ウェーブレット係数行列は、ウェーブレット係数を用いて構築される行列であることが可能である。

ウェーブレット係数行列は、近似係数行列（ａｐｐｒｏｘｉｍａｔｉｏｎｃｏｅｆｆｉｃｉｅｎｔｓｍａｔｒｉｘ）及び詳細係数行列（ｄｅｔａｉｌｃｏｅｆｆｉｃｉｅｎｔｓｍａｔｒｉｘ）を含むことが可能である。近似係数行列は、予め設定された大きさのデータの低周波数領域に係る情報を含むことが可能である。詳細係数行列は、予め設定された大きさのデータの高周波数領域に係る情報を含むことが可能である。

本開示の複数の実施例によると、詳細係数行列は、水平係数行列（ｈｏｒｉｚｏｎｔａｌｃｏｅｆｆｉｃｉｅｎｔｓｍａｔｒｉｘ）、垂直係数行列（ｖｅｒｔｉｃａｌｃｏｅｆｆｉｃｉｅｎｔｓｍａｔｒｉｘ）又は対角係数行列（ｄｉａｇｏｎａｌｃｏｅｆｆｉｃｉｅｎｔｓｍａｔｒｉｘ）のうち、少なくとも１つを含むことが可能である。これにより、詳細係数行列は、予め設定された大きさのデータの高周波数領域に係る水平方向の情報、予め設定された大きさのデータの高周波数領域に係る垂直方向の情報、又は予め設定された大きさのデータの高周波数領域に係る対角方向の情報のうち、少なくとも１つを含むことが可能である。

信号処理部（１３０）は、ウェーブレット係数行列に基づき、入力データの特徴情報を抽出することが可能である（Ｓ３２０）。特徴情報は、バイナリファイルの形態の入力データが、悪性コードであるか否かを検知するために用いられる情報であることが可能である。

特徴情報は、予め設定された大きさのデータが１ｘ１の行列の構造になるように、第１回数のウェーブレット変換を行って抽出される近似係数行列に係る第１特徴を含むことが可能である。実施例において、予め設定された大きさのデータは、大きさが２５６ｘ２５６である行列構造のデータであることが可能である。従って、信号処理部（１３０）は、８回のウェーブレット変換を行い、予め設定された大きさのデータが１ｘ１の行列の構造になるようにすることが可能である。ただし、第１回数は、８回に限定されるものではなく、多様な大きさの行列構造のデータが、１ｘ１の行列構造になるようにする回数になり得る。一例として、予め設定された大きさのデータが、大きさが５１２ｘ５１２である行列構造のデータの場合、信号処理部（１３０）は、９回のウェーブレット変換を行い、予め設定された大きさのデータが、１ｘ１の行列の構造になるようにすることが可能である。

特徴情報は、第１臨界回数以上かつ第１回数以下である第１個数範囲（回数範囲）内における第２回数のウェーブレット変換を行って抽出される対角係数行列の値に係る第２特徴を含むことが可能である。この場合、第１臨界回数は、第１回数より少ない回数になり得る。

一例として、第１回数は８回であり、第１臨界回数は４回になり得る。この場合、第１個数範囲（回数範囲）は、８回から４回であることが可能であり、第２回数は、８回、７回、６回、５回及び４回になり得る。従って、信号処理部（１３０）は、予め設定された大きさのデータに８回、７回、６回、５回及び４回のウェーブレット変換を行い、対角係数行列の値に係る第２特徴を抽出することが可能である。

他の一例として、第１回数は、８回であり、第１臨界回数は７回になり得る。この場合、第１個数範囲（回数範囲）は、８回から７回であることが可能であり、第２回数は、８回及び７回になり得る。従って、信号処理部（１３０）は、予め設定された大きさのデータに８回及び７回のウェーブレット変換を行い、対角係数行列の値に係る第２特徴を抽出することが可能である。

本開示の複数の実施例によると、第１臨界回数は、コンピューティング装置（１００）の性能に基づき決定されることが可能である。例えば、信号処理部（１３０）は、コンピューティング装置（１００）の性能が十分な場合、第１臨界回数を１回にすると決定することが可能である。第１臨界回数が１回である場合、第１個数範囲（回数範囲）は８回から１回であることが可能であり、それに基づき、第２回数は８回、７回、６回、５回、４回、３回、２回及び１回になり得る。信号処理部（１３０）が、８回、７回、６回、５回、４回、３回、２回及び１回のウェーブレット変換を行い、対角係数行列の値を抽出し、抽出された対角係数行列の値に基づき入力データの特徴情報を抽出する場合、特徴情報の個数が増えることが可能である。または、特徴情報がより多様なものになり得る。従って、抽出された特徴情報を学習データにしてネットワークモデルを学習させる場合、学習されたネットワークモデルの性能が向上されることが可能である。

他の例を挙げると、信号処理部（１３０）は、コンピューティング装置（１００）の性能が不十分な場合、第１臨界回数を４回にすると決定することが可能である。この場合、信号処理部（１３０）が予め設定された大きさのデータにウェーブレット変換を行う速度が向上されることが可能であり、またリソースの節約に繋がることも可能である。

特徴情報は、第１臨界回数以上かつ第１回数未満である第２個数範囲（回数範囲）内における第３回数のウェーブレット変換を行って抽出される対角係数行列に係る第３特徴を含むことが可能である。

一例として、第１回数は８回であり、第１臨界回数は４回になり得る。この場合、第２個数範囲（回数範囲）は７回から４回であることが可能であり、第３回数は７回、６回、５回及び４回になり得る。従って、信号処理部（１３０）は、予め設定された大きさのデータに７回、６回、５回及び４回のウェーブレット変換を行い、対角係数行列に係る第３特徴を抽出することが可能である。

他の一例として、第１回数は８回であり、第１しきい回数は６回になり得る。この場合、第２個数範囲（回数範囲）は７回から６回であることが可能であり、第３回数は７回及び６回になり得る。従って、信号処理部（１３０）は、予め設定された大きさのデータに７回及び６回のウェーブレット変換を行い、対角係数行列に係る第３特徴を抽出することが可能である。

本開示の複数の実施例によると、予め設定された大きさのデータに８回のウェーブレット変換を行って抽出される対角係数行列に係る第３特徴は、常に同一の結果値が抽出されることが可能である。

具体的に、第３特徴は、第３回数のウェーブレット変換を行って抽出される対角係数行列の比率に係る第３－１特徴、又は第３回数のウェーブレット変換を行って抽出される対角係数行列の第１標準偏差に係る第３－２特徴のうち、少なくとも１つを含むことが可能である。対角係数行列の比率は、予め設定された大きさのデータにウェーブレット変換を行って抽出される複数のウェーブレット係数行列において、対角係数行列が占める比率であることが可能である。対角係数行列の第１標準偏差は、予め設定された大きさのデータにウェーブレット変換を行って抽出される対角係数行列に係る標準偏差であることが可能である。しかし、信号処理部（１３０）が予め設定された大きさのデータに８回のウェーブレット変換を行って抽出される第３－１特徴と第３－２特徴の結果値は、常に固定されていることが可能である。信号処理部（１３０）が予め設定された大きさのデータに８回のウェーブレット変換を行い、第３－１特徴及び第３－２特徴を抽出する動作は、リソースの浪費につながる可能性がある。従って、信号処理部（１３０）は、第１回数未満の第２個数範囲（回数範囲）内における第３回数のウェーブレット変換を行い、対角係数行列に係る第３特徴を抽出することが可能である。

本開示の複数の実施例によると、第１臨界回数は、コンピューティング装置（１００）の性能に基づき決定されることが可能である。例えば、信号処理部（１３０）は、コンピューティング装置（１００）の性能が十分な場合、第１臨界回数を１回にすると決定することが可能である。第１臨界回数が１回である場合、第２個数範囲（回数範囲）は７回から１回であることが可能であり、それに基づき、第３回数は７回、６回、５回、４回、３回、２回及び１回になり得る。他の例を挙げると、信号処理部（１３０）は、コンピューティング装置（１００）の性能が不十分な場合、第１臨界回数を４回にすると決定することが可能である。第１臨界回数が４回である場合、第２個数範囲（回数範囲）は７回から４回であることが可能であり、それに基づき、第３回数は７回、６回、５回及び４回になり得る。

特徴情報は、第１臨界回数未満である第２臨界回数以上かつ第１回数未満である第３個数範囲（回数範囲）内における第４回数のウェーブレット変換を行って抽出される対角係数行列に係る第４特徴を含むことが可能である。

一例として、第１回数は８回であり、第１臨界回数は７回であり、第２臨界回数は１回になり得る。この場合、第２個数範囲（回数範囲）は７回から１回であることが可能であり、第４回数は７回、６回、５回、４回、３回、２回及び１回になり得る。従って、信号処理部（１３０）は、予め設定された大きさのデータに７回、６回、５回、４回、３回、２回及び１回のウェーブレット変換を行い、対角係数行列に係る第４特徴を抽出することが可能である。

本開示の複数の実施例によると、予め設定された大きさのデータに８回のウェーブレット変換を行って抽出される対角係数行列に係る第４特徴は、常に同一の結果値が抽出されることが可能である。

具体的に、第４特徴は、第４回数のウェーブレット変換を行って抽出される対角係数行列の値の合計に係る第４－１特徴、第４回数のウェーブレット変換を行って抽出される対角係数行列の値の歪度に係る第４－２特徴、第４回数のウェーブレット変換を行って抽出される対角係数行列の第２標準偏差に係る第４－３特徴、第４回数のウェーブレット変換を行って抽出される対角係数行列の総平均値に係る第４－４特徴、又は第４回数のウェーブレット変換を行って抽出される対角係数行列のヒストグラムパーセントに係る第４－５特徴のうち、少なくとも１つの特徴を含むことが可能である。対角係数行列の値の合計は、予め設定された大きさのデータにウェーブレット変換を行って抽出される対角係数行列の値の合計であることが可能である。対角係数行列の値の歪度は、予め設定された大きさのデータにウェーブレット変換を行って抽出される対角係数行列の値の歪度であることが可能である。対角係数行列の第２標準偏差は、予め設定された大きさのデータにウェーブレット変換を行って抽出される対角係数行列に係る標準偏差であることが可能である。対角係数行列の平均値は、予め設定された大きさのデータにウェーブレット変換を行って抽出される対角係数行列の値全体の平均値であることが可能である。しかし、信号処理部（１３０）が予め設定された大きさのデータに８回のウェーブレット変換を行って抽出される第４－１特徴と、予め設定された大きさのデータに８回のウェーブレット変換を行って抽出される対角係数行列の値に係る第２特徴とは、同一のものになり得る。信号処理部（１３０）が予め設定された大きさのデータに８回のウェーブレット変換を行って抽出される第４－２特徴、第４－３特徴、第４－４特徴及び第４－５特徴は、常に同一の結果値が抽出されることが可能である。具体的に、第４－２特徴は歪度に係る特徴であり、第４－３特徴は標準偏差に係る特徴であり、第４－４特徴は平均値に係る特徴であり、第４－５特徴はヒストグラムパーセントに係る特徴であるが、ウェーブレット変換を８回行って抽出される結果値は、常に１つの値のみを持つためであることが理由になり得る。従って、信号処理部（１３０）が予め設定された大きさのデータに８回のウェーブレット変換を行い、第４特徴を抽出する動作は、リソースの浪費につながる可能性がある従って、信号処理部（１３０）は、第４回数のウェーブレット変換を行って抽出される対角係数行列に係る第４特徴を抽出することが可能である。

本開示において、特徴情報は、ウェーブレット変換を行っていない予め設定された大きさのデータに係る第５特徴を含むことが可能である。一例として、第５特徴は、予め設定された大きさのデータのヒストグラムパーセントに係る第５－１特徴、予め設定された大きさのデータの標準偏差に係る第５－２特徴及び予め設定された大きさのデータの総標準偏差に係る第５－３特徴を含むことが可能である。

上述のように、信号処理部（１３０）は、ウェーブレット係数行列に基づき、入力データから多様な種類の特徴情報を抽出することが可能である。抽出された特徴情報は、入力データから悪性コードを検知するようにトレーニングされるネットワークモデルのために、学習データとして用いられることが可能である。従って、ネットワークモデルは、悪性コードを検知及び予測する際の正確度が高くなるようにトレーニングされることが可能である。

図８は、本開示内容の実施例が具現化されることが可能である、例示的なコンピューティング環境に係る一般的な概略図である。

本開示の内容において、一般的に１つ以上のコンピューターにおいて実行されることのできる、コンピューターで実行可能な命令について説明してきたが、当業者であれば、本開示の内容が、その他のプログラムモジュールとの結合及び／又はハードウェアとソフトウェアの組み合わせとして具現化されることが可能であるということをよく理解できるだろう。

一般的に、本明細書におけるモジュールは、特定のタスクを実行したり特定の抽象的なデータ類型を具現化したりするルーティン、プロシーザー、プログラム、コンポーネント、データ構造、その他等々を含む。また、当業者なら、本開示の方法が、シングルプロセッサー又はマルチプロセッサーコンピューターシステム、ミニコンピューター、メインフレームコンピューターはもちろん、パーソナルコンピューター、ハンドヘルドコンピューティング装置、マイクロプロセッサー基盤、又はプログラム可能な家電製品、その他等々（これらは、それぞれ１つ以上の関連する装置と繋がって動作することができる）をはじめとする、他のコンピューターシステムの構成によって実施されることができることをよく理解できるだろう。

本開示において説明された実施例は、さらに、あるタスクが通信ネットワークを通じて繋がっている遠隔処理装置によって実行される分散コンピューティング環境で実施されることができる。分散コンピューティング環境において、プログラムモジュールは、ローカル及び遠隔メモリー保存装置の両方に位置することが可能である。

コンピューターは、通常多様なコンピューター可読媒体を含む。コンピューターによりアクセス可能な媒体として、揮発性及び非揮発性媒体、一時的（ｔｒａｎｓｉｔｏｒｙ）及び非一時的（ｎｏｎ－ｔｒａｎｓｉｔｏｒｙ）媒体、移動式及び非－移動式媒体が含まれる。制限ではなく例として、コンピューター可読媒体は、コンピューター可読保存媒体及びコンピューター可読伝送媒体を含むことが可能である。

コンピューター可読保存媒体は、コンピューター可読命令、データ構造、プログラムモジュール又はその他のデータのような情報を保存する任意の方法又は技術により具現化される揮発性及び非揮発性媒体、一時的及び非一時的媒体、移動式及び非移動式媒体を含む。コンピューター可読保存媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリー又はその他のメモリー技術、ＣＤ－ＲＯＭ、ＤＶＤ（ｄｉｇｉｔａｌｖｉｄｅｏｄｉｓｋ）又はその他の光ディスク保存装置、磁気カセット、磁気テープ、磁気ディスク保存装置又はその他の磁気保存装置、又はコンピューターによってアクセスでき情報を保存するために使われることのできる任意のその他の媒体を含むが、これに限定されない。

コンピューター可読伝送媒体は、通常、搬送波（ｃａｒｒｉｅｒｗａｖｅ）又はその他の伝送メカニズム（ｔｒａｎｓｐｏｒｔｍｅｃｈａｎｉｓｍ）のような被変調データ信号（ｍｏｄｕｌａｔｅｄｄａｔａｓｉｇｎａｌ）にコンピューター可読命令、データ構造、プログラムモジュール又はその他のデータ等を実装し、すべての情報伝達媒体を含む。被変調データ信号という用語は、信号の中において情報をエンコードするように、その信号の特性のうち１つ以上を設定又は変更した信号を意味する。制限ではなく例として、コンピューター可読伝送媒体は、有線ネットワーク又は直接配線接続（ｄｉｒｅｃｔ－ｗｉｒｅｄｃｏｎｎｅｃｔｉｏｎ）のような有線媒体、そして音響、ＲＦ、赤外線、その他の無線媒体のような無線媒体を含む。前述の媒体の任意の組み合わせもコンピューター可読伝送媒体の範囲に含まれるものとする。

コンピューター（１１０２）を含む本開示の多様な側面を具現化する例示的な環境（１１００）が示されており、コンピューター（１１０２）は、処理装置（１１０４）、システムメモリー（１１０６）及びシステムバス（１１０８）を含む。システムバス（１１０８）は、システムメモリー（１１０６）（これに限定されない）をはじめとするシステムコンポーネントを処理装置（１１０４）に接続させる。処理装置（１１０４）は、多様な商用のプロセッサーのうち、いずれかのプロセッサーになり得る。デュアルプロセッサーやその他のマルチプロセッサーアーキテクチャも、処理装置（１１０４）として利用されることが可能である。

システムバス（１１０８）は、メモリーバス、周辺装置バス、及び多様な商用のバスアーキテクチャのうち、いずれかを使用するローカルバスに、さらに相互連結できる複数の類型のバス構造のうち、いずれかになり得る。システムメモリー（１１０６）は、読み取り専用メモリー（ＲＯＭ）（１１１０）やランダムアクセスメモリー（ＲＡＭ）（１１１２）を含む。基本的な入出力システム（ＢＩＯＳ）は、ＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ等の非揮発性メモリー（１１１０）に保存され、このＢＩＯＳは、起動中の時等にコンピューター（１１０２）の中の複数の構成要素間の情報のやりとりをサポートする基本的なルーティンを含む。ＲＡＭ（１１１２）は、またデータをキャッシュするための静的ＲＡＭ等の高速ＲＡＭを含むことが可能である。

コンピューター（１１０２）は、また、内蔵型ハードディスクドライブ（ＨＤＤ）（１１１４）（例えば、ＥＩＤＥ、ＳＡＴＡ）―この内蔵型ハードディスクドライブ（１１１４）は、また、適切なシャシー（図示は省略）の中で外付け型の用途で構成されることが可能である―、磁気フロッピーディスクドライブ（ＦＤＤ）（１１１６）（例えば、移動式ディスケット（１１１８）から読み取ったり、それに書き込むためのものである）及び光ディスクドライブ（１１２０）（例えば、ＣＤ－ＲＯＭディスク（１１２２）を読み取ったり、ＤＶＤ等のその他の高容量光媒体から読み取ったり、それに書き込むためのものである）を含む。ハードディスクドライブ（１１１４）、磁気ディスクドライブ（１１１６）及び光ディスクドライブ（１１２０）は、それぞれハードディスクドライブインターフェース（１１２４）、磁気ディスクドライブインターフェース（１１２６）及び光ドライブインターフェース（１１２８）によってシステムバス（１１０８）に繋がることができる。外付け型ドライブの実装のためのインターフェース（１１２４）は、例えば、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）やＩＥＥＥ１３９４インターフェース技術のうち、少なくとも１つ又はその両方を含む。

これらのドライブ及びこれらに係るコンピューター可読媒体は、データ、データ構造、コンピューターで実行可能な命令、その他等々に対する非揮発性保存を提供する。コンピューター（１１０２）の場合、ドライブ及び媒体は、任意のデータを適切なデジタル形式に保存することに対応する。前述におけるコンピューター可読保存媒体に係る説明が、ＨＤＤ、移動式磁気ディスク及びＣＤ又はＤＶＤ等の移動式光媒体について触れているが、当業者ならジップドライブ（ｚｉｐｄｒｉｖｅ）、磁気カセット、フラッシュメモリーカード、カートリッジ、その他等々のコンピューターにより読み取り可能な他の類型の保存媒体もまた例示的な運営環境で使われることができ、さらに、このような媒体のうち任意のある媒体が、本開示の方法を実行するためのコンピューターで実行可能な命令を含むことができることをよく理解できるだろう。

動作システム（１１３０）、１つ以上のアプリケーションプログラム（１１３２）、その他のプログラムモジュール（１１３４）及びプログラムデータ（１１３６）をはじめとする多数のプログラムモジュールが、ドライブ及びＲＡＭ（１１１２）に保存されることが可能である。動作システム、アプリケーション、モジュール及び／又はデータの全部又はその一部分も、ＲＡＭ（１１１２）にキャッシュされることが可能である。本開示が、商業的に利用可能な様々な動作システム、又は複数の動作システムの組み合わせにより実装されることが可能であることは、自明である。

ユーザーは、１つ以上の有線・無線の入力装置、例えば、キーボード（１１３８）及びマウス（１１４０）等のポインティング装置を通じて、コンピューター（１１０２）に命令及び情報を入力することが可能である。その他の入力装置（図示は省略）としては、マイク、ＩＲリモコン、ジョイスティック、ゲームパッド、スタイラスペン、タッチスクリーン、その他等々があり得る。これら及びその他の入力装置が、システムバス（１１０８）に繋がっている入力装置のインターフェース（１１４２）を介して処理装置（１１０４）に繋がる場合が多いが、並列ポート、ＩＥＥＥ１３９４直列ポート、ゲームポート、ＵＳＢポート、ＩＲインターフェース、その他等々のその他のインターフェースによって繋がることが可能である。

モニター（１１４４）又は他の類型のディスプレイ装置も、ビデオアダプター（１１４６）等のインターフェースを介してシステムバス（１１０８）に繋がる。モニター（１１４４）に加えて、コンピューターは、一般的にスピーカー、プリンター、その他等々のその他の周辺出力装置（図示は省略）を含む。

コンピューター（１１０２）は、有線及び／又は無線通信による、（複数の）遠隔コンピューター（１１４８）等の１つ以上の遠隔コンピューターへの論理的接続を利用し、ネットワーク化された環境で動作することが可能である。（複数の）遠隔コンピューター（１１４８）は、ワークステーション、サーバーコンピューター、ルーター、パーソナルコンピューター、携帯用コンピューター、マイクロプロセッサー基盤の娯楽機器、ピア装置、又はその他の通常のネットワークノードであることが可能であり、一般的にコンピューター（１１０２）について述べられた構成要素のうち、多数又はその全部を含むが、簡略化するために、メモリー保存装置（１１５０）のみ図示されている。図示されている論理的接続は、近距離通信網（ＬＡＮ）（１１５２）及び／又はより大きいネットワーク、例えば、遠距離通信網（ＷＡＮ）（１１５４）への有線・無線の接続を含む。このようなＬＡＮ及びＷＡＮのネットワーキング環境は、オフィスや会社おいて一般的なものであり、イントラネット等の全社的コンピューターネットワーク（ｅｎｔｅｒｐｒｉｓｅ－ｗｉｄｅｃｏｍｐｕｔｅｒｎｅｔｗｏｒｋ）を容易にし、これらは全て世界中のコンピューターネットワーク、例えば、インターネットに繋がることが可能である。

ＬＡＮネットワーキング環境で使われるとき、コンピューター（１１０２）は、有線及び／又は無線通信ネットワークインターフェース、又はアダプター（１１５６）を通じて、ローカルネットワーク（１１５２）に繋がる。アダプター（１１５６）は、ＬＡＮ（１１５２）への有線又は無線通信を容易にすることができ、このＬＡＮ（１１５２）も、無線アダプター（１１５６）と通信するためにそれに設置されている無線アクセスポイントを含む。ＷＡＮネットワーキング環境で使われるとき、コンピューター（１１０２）は、モデム（１１５８）を含むことができたり、ＷＡＮ（１１５４）上の通信サーバーに繋がったり、又はインターネットを通じる等、ＷＡＮ（１１５４）を通じて通信を設定するその他の手段を持つ。内蔵型又は外付け型、そして、有線又は無線装置になり得るモデム（１１５８）は、直列ポートインターフェース（１１４２）を通じてシステムバス（１１０８）に繋がる。ネットワーク化された環境において、コンピューター（１１０２）に関連付けて説明されたプログラムモジュール又はその一部分が、遠隔メモリー／保存装置（１１５０）に保存されることが可能である。図示されているネットワーク接続が例示的なものであり、複数のコンピューター間で通信リンクを設定する他の手段が用いられることも可能であるということは自明である。

コンピューター（１１０２）は、無線通信において配置されて動作する任意の無線装置又はユニット、例えば、プリンター、スキャナー、デスクトップ及び／又は携帯用コンピューター、ＰＤＡ（ｐｏｒｔａｂｌｅｄａｔａａｓｓｉｓｔａｎｔ）、通信衛星、無線で検出可能なタグに係る任意の装備又は場所及び電話と通信する動作をする。これは、少なくとも、Ｗｉ－Ｆｉ及びブルートゥース（登録商標）無線技術を含む。従って、通信は、従来のネットワークのように、予め定義された構造であったり、単純に少なくとも２つの装置間のアドホック通信（ａｄｈｏｃｃｏｍｍｕｎｉｃａｔｉｏｎ）になり得る。

Ｗｉ－Ｆｉ（ＷｉｒｅｌｅｓｓＦｉｄｅｌｉｔｙ）は、有線で繋がっていない場合にも、インターネット等への接続を可能にする。Ｗｉ－Ｆｉは、このような装置、例えば、コンピューターが室内外を問わず、つまり基地局の通話圏内のどこからでも、データを送受信できるようにする、セル電話のような無線技術である。Ｗｉ－Ｆｉネットワークは、安全かつ信頼性があり、高速である無線接続を提供するために、ＩＥＥＥ８０２．１１（ａ、ｂ、ｇ、その他）という無線技術を使う。コンピューターを、互いに、インターネットに、有線ネットワーク（ＩＥＥＥ８０２．３又はイーサネットを使う）に接続するためにＷｉ－Ｆｉが使われることが可能である。Ｗｉ－Ｆｉネットワークは、非認可２．４や５ＧＨｚの無線帯域において、例えば、１１Ｍｂｐｓ（８０２．１１ａ）又は５４Ｍｂｐｓ（８０２．１１ｂ）のデータレートで動作したり、両帯域（デュアル帯域）を含む製品において動作したりすることが可能である。

本開示の技術分野において通常の知識を持つ者は、ここに開示された実施例に係る説明で取り挙げられた多様な例示的な論理ブロック、モジュール、プロセッサー、手段、回路、アルゴリズム段階が、電子ハードウェア、（利便性のために、ここでは「ソフトウェア」と称される）多様な形のプログラム若しくは設計コード、又はこれらすべての結合により具現化されることが可能であることを理解できるだろう。ハードウェア及びソフトウェアのこのような相互互換性を明確に説明するために、多様な例示的なコンポーネント、ブロック、モジュール、回路、及び段階が、これらの機能に着目して上記で一般的に説明された。このような機能がハードウェアやソフトウェアとして実装されるかどうかは、特定のアプリケーション及び全体システムに対して加えられる設計上の制限によって決定される。本開示の技術分野において通常の知識を持つ者は、個々の特定のアプリケーションについて多様な方法で説明された機能を具現化することが可能であるが、このような具現化の決定は、本開示の範囲を逸脱するものと解釈すべきではない。

ここに示されている多様な実施例は、方法、装置、又は標準プログラミング及び／又はエンジニアリング技術を使った製造物品（ａｒｔｉｃｌｅ）として具現化されることが可能である。「製造物品」という用語は、任意のコンピューター可読装置からアクセス可能なコンピュータープログラム又は媒体（ｍｅｄｉａ）を含む。例えば、コンピューター可読保存媒体は、磁気保存装置（例えば、ハードディスク、フロッピーディスク、磁気ストリップ等）、光学ディスク（例えば、ＣＤ、ＤＶＤ等）、スマートカード及びフラッシュメモリー装置（例えば、ＥＥＰＲＯＭ、カード、スティック、キードライブ等）を含むが、これらに限定されるものではない。「機械可読媒体」という用語は、（複数の）命令及び／又はデータを保存、保有、及び／又は伝達できる無線チャンネル並びに多様な他の媒体を含むが、これらに限定されるわけではない。

ここに示された実施例に関する説明は、本開示の技術分野において通常の知識を持つ任意の者が、本開示を利用したり又は実施できるようにしたりするために提供される。このような実施例に対する多様な変形は、本開示の技術分野において通常の知識を持つ者には明確に理解できるものであり、ここに定義された一般的な原理は、本開示の範囲を逸脱することなく他の実施例に適用されることが可能である。従って、本開示は、ここに示す実施例によって限定されるものではなく、ここに示す原理及び新規な特徴と一貫する最広義の範囲で解釈されるべきである。

上述のように、発明の実施のための最良の形態において、関連する内容を述べた。

迅速にバイナリファイルの特徴情報を抽出するために、静的特徴情報抽出プロセスで抽出した特徴情報を用いて、悪性コードであるか否かを検知する装置及びプログラム等において用いられることが可能である。

１００コンピューティング装置
１１０プロセッサー
１２０バイナリファイル変換部
１３０信号処理部

Claims

少なくとも１つのプロセッサーを含むコンピューティング装置により実行されるファイルの特徴情報を抽出する方法であって、
バイナリ（ｂｉｎａｒｙ）ファイルの形態の入力データを、予め設定された大きさのデータに変換する変換段階；及び
前記予め設定された大きさのデータから、前記入力データの特徴情報を抽出する第１抽出段階；
を含み、
前記第１抽出段階は、
ウェーブレット変換（ｗａｖｅｌｅｔｔｒａｎｓｆｏｒｍ）法を利用し、前記予め設定された大きさのデータから、特徴情報を抽出する第２抽出段階；
を含み、
前記第２抽出段階は、
前記予め設定された大きさのデータに対して前記ウェーブレット変換法を行い、ウェーブレット係数行列を抽出する段階－前記ウェーブレット係数行列は、近似係数行列（ａｐｐｒｏｘｉｍａｔｉｏｎｃｏｅｆｆｉｃｉｅｎｔｓｍａｔｒｉｘ）及び詳細係数行列（ｄｅｔａｉｌｃｏｅｆｆｉｃｉｅｎｔｓｍａｔｒｉｘ）を含む－；及び
前記ウェーブレット係数行列に基づき、前記入力データの特徴情報を抽出する段階；
を含み、
前記詳細係数行列は、
水平係数行列（ｈｏｒｉｚｏｎｔａｌｃｏｅｆｆｉｃｉｅｎｔｓｍａｔｒｉｘ）、垂直係数行列（ｖｅｒｔｉｃａｌｃｏｅｆｆｉｃｉｅｎｔｓｍａｔｒｉｘ）又は対角係数行列（ｄｉａｇｏｎａｌｃｏｅｆｆｉｃｉｅｎｔｓｍａｔｒｉｘ）のうち、少なくとも１つを含み、
前記予め設定された大きさのデータは、行列の構造を持つデータであり、
前記特徴情報は、
前記予め設定された大きさのデータが１ｘ１の行列の構造になるように、第１回数のウェーブレット変換を行って抽出される前記近似係数行列に係る第１特徴、第１臨界回数以上かつ前記第１回数以下である第１個数範囲内における第２回数のウェーブレット変換を行って抽出される前記対角係数行列の値に係る第２特徴、第１臨界回数以上かつ前記第１回数未満である第２個数範囲内における第３回数のウェーブレット変換を行って抽出される前記対角係数行列に係る第３特徴、又は、前記第１臨界回数未満である第２臨界回数以上かつ前記第１回数未満である第３個数範囲内における第４回数のウェーブレット変換を行って抽出される前記対角係数行列に係る第４特徴のうち、少なくとも１つを含むが、この場合、前記第１臨界回数は前記第１回数より少ない、
ファイルの特徴情報を抽出する方法。
請求項１において、
前記第３特徴は、
前記第３回数のウェーブレット変換を行って抽出される前記対角係数行列の比率に係る第３－１特徴、又は前記第３回数のウェーブレット変換を行って抽出される前記対角係数行列の第１標準偏差に係る第３－２特徴のうち、少なくとも１つを含む、
ファイルの特徴情報を抽出する方法。
請求項１において、
前記第４特徴は、
前記第４回数のウェーブレット変換を行って抽出される前記対角係数行列の値の合計に係る第４－１特徴、前記第３回数のウェーブレット変換を行って抽出される前記対角係数行列の値の歪度に係る第４－２特徴、前記第３回数のウェーブレット変換を行って抽出される前記対角係数行列の第２標準偏差に係る第４－３特徴、又は前記第３回数のウェーブレット変換を行って抽出される前記対角係数行列の平均値に係る第４－４特徴のうち、少なくとも１つの特徴を含む、
ファイルの特徴情報を抽出する方法。
請求項１において、
前記バイナリ（ｂｉｎａｒｙ）ファイルの形態の入力データを、予め設定された大きさのデータに変換する段階は、
隠れマルコフモデル（ｈｉｄｄｅｎＭａｒｋｏｖｍｏｄｅｌ）を利用し、前記入力データを前記予め設定された大きさのデータに変換する段階；
を含む、
ファイルの特徴情報を抽出する方法。
請求項１において、
前記バイナリ（ｂｉｎａｒｙ）ファイルの形態の入力データを、予め設定された大きさのデータに変換する段階は、
前記入力データを、記憶装置の大きさを表す第１単位（ｕｎｉｔ）で区分して認識する段階；
前記第１単位で認識されたデータの個数をカウントする段階；及び
前記第１単位のデータの個数に基づき、前記入力データを前記予め設定された大きさのデータに変換する段階；
を含む、
ファイルの特徴情報を抽出する方法。
請求項１において、
前記バイナリ（ｂｉｎａｒｙ）ファイルの形態の入力データを、予め設定された大きさのデータに変換する段階は、
前記入力データをバイト単位で認識する段階；
認識された複数のバイトの各々の個数をカウントする段階；及び
前記複数のバイトの各々の個数に基づき、前記入力データを前記予め設定された大きさのデータに変換する段階；
を含む、
ファイルの特徴情報を抽出する方法。
請求項６において、
前記複数のバイトの各々の個数に基づき、前記入力データを前記予め設定された大きさのデータに変換する段階は、
前記複数のバイトの各々の個数に基づき、全データのうち前記複数のバイトの各々の出現確率を計算する段階；及び
前記出現確率に基づき、前記入力データを前記予め設定された大きさのデータに変換する段階；
を含む、
ファイルの特徴情報を抽出する方法。
請求項１において、
前記バイナリ（ｂｉｎａｒｙ）ファイルの形態の入力データを、予め設定された大きさのデータに変換する段階は、
前記入力データをバイト単位で認識する段階；
認識された複数のバイトのうち第１バイトの次に第２バイトが繋がる、複数のバイト間の固有の連結構造の出現回数を計算する段階－前記出現回数は、前記認識された複数のバイトのうち少なくとも一部について計算される－；及び
前記出現回数に基づき、前記入力データを前記予め設定された大きさのデータに変換する段階；
を含む、
ファイルの特徴情報を抽出する方法。
請求項８において、
前記出現回数に基づき、前記入力データを前記予め設定された大きさのデータに変換する段階は、
前記出現回数に基づき、前記第１バイトの次に前記第２バイトが出現する、複数のバイト間の連結確率を計算する段階；及び
前記連結確率に基づき、前記入力データを前記予め設定された大きさのデータに変換する段階；
を含む、
ファイルの特徴情報を抽出する方法。
請求項１において、
バイナリファイルの形態の入力データから悪性コードを検知するように、前記第１抽出段階において抽出された前記特徴情報を学習データにしてネットワークモデルを学習させる段階；
をさらに含む、
ファイルの特徴情報を抽出する方法。
ファイルの特徴情報を抽出するコンピューティング装置であって、
バイナリ（ｂｉｎａｒｙ）ファイルの形態の入力データを、予め設定された大きさのデータに変換するバイナリファイル変換部；及び
前記予め設定された大きさのデータから、前記入力データの特徴情報を抽出する第１抽出部；
を含み、
前記第１抽出部は、
ウェーブレット変換（ｗａｖｅｌｅｔｔｒａｎｓｆｏｒｍ）法を利用し、前記予め設定された大きさのデータから、特徴情報を抽出する第２抽出部；
を含み、
前記第２抽出部は、
前記予め設定された大きさのデータに対して前記ウェーブレット変換法を行い、ウェーブレット係数行列を抽出する部－前記ウェーブレット係数行列は、近似係数行列（ａｐｐｒｏｘｉｍａｔｉｏｎｃｏｅｆｆｉｃｉｅｎｔｓｍａｔｒｉｘ）及び詳細係数行列（ｄｅｔａｉｌｃｏｅｆｆｉｃｉｅｎｔｓｍａｔｒｉｘ）を含む－；及び
前記ウェーブレット係数行列に基づき、前記入力データの特徴情報を抽出する部；
を含み、
前記詳細係数行列は、
水平係数行列（ｈｏｒｉｚｏｎｔａｌｃｏｅｆｆｉｃｉｅｎｔｓｍａｔｒｉｘ）、垂直係数行列（ｖｅｒｔｉｃａｌｃｏｅｆｆｉｃｉｅｎｔｓｍａｔｒｉｘ）又は対角係数行列（ｄｉａｇｏｎａｌｃｏｅｆｆｉｃｉｅｎｔｓｍａｔｒｉｘ）のうち、少なくとも１つを含み、
前記予め設定された大きさのデータは、行列の構造を持つデータであり、
前記特徴情報は、
前記予め設定された大きさのデータが１ｘ１の行列の構造になるように、第１回数のウェーブレット変換を行って抽出される前記近似係数行列に係る第１特徴、第１臨界回数以上かつ前記第１回数以下である第１個数範囲内における第２回数のウェーブレット変換を行って抽出される前記対角係数行列の値に係る第２特徴、第１臨界回数以上かつ前記第１回数未満である第２個数範囲内における第３回数のウェーブレット変換を行って抽出される前記対角係数行列に係る第３特徴、又は、前記第１臨界回数未満である第２臨界回数以上かつ前記第１回数未満である第３個数範囲内における第４回数のウェーブレット変換を行って抽出される前記対角係数行列に係る第４特徴のうち、少なくとも１つを含むが、この場合、前記第１臨界回数は前記第１回数より少ない、
コンピューティング装置。
コンピューター可読保存媒体に保存されているコンピュータープログラムであって、前記コンピュータープログラムは、１つ以上のプロセッサーにより実行される場合、ファイルの特徴情報を抽出する方法を実行し、前記方法は、
バイナリ（ｂｉｎａｒｙ）ファイルの形態の入力データを、予め設定された大きさのデータに変換する変換段階；及び
前記予め設定された大きさのデータから、前記入力データの特徴情報を抽出する第１抽出段階；を含み、
前記第１抽出段階は、
ウェーブレット変換（ｗａｖｅｌｅｔｔｒａｎｓｆｏｒｍ）法を利用し、前記予め設定された大きさのデータから、特徴情報を抽出する第２抽出段階；
を含み、
前記第２抽出段階は、
前記予め設定された大きさのデータに対して前記ウェーブレット変換法を行い、ウェーブレット係数行列を抽出する段階－前記ウェーブレット係数行列は、近似係数行列（ａｐｐｒｏｘｉｍａｔｉｏｎｃｏｅｆｆｉｃｉｅｎｔｓｍａｔｒｉｘ）及び詳細係数行列（ｄｅｔａｉｌｃｏｅｆｆｉｃｉｅｎｔｓｍａｔｒｉｘ）を含む－；及び
前記ウェーブレット係数行列に基づき、前記入力データの特徴情報を抽出する段階；
を含み、
前記詳細係数行列は、
水平係数行列（ｈｏｒｉｚｏｎｔａｌｃｏｅｆｆｉｃｉｅｎｔｓｍａｔｒｉｘ）、垂直係数行列（ｖｅｒｔｉｃａｌｃｏｅｆｆｉｃｉｅｎｔｓｍａｔｒｉｘ）又は対角係数行列（ｄｉａｇｏｎａｌｃｏｅｆｆｉｃｉｅｎｔｓｍａｔｒｉｘ）のうち、少なくとも１つを含み、
前記予め設定された大きさのデータは、行列の構造を持つデータであり、
前記特徴情報は、
前記予め設定された大きさのデータが１ｘ１の行列の構造になるように、第１回数のウェーブレット変換を行って抽出される前記近似係数行列に係る第１特徴、第１臨界回数以上かつ前記第１回数以下である第１個数範囲内における第２回数のウェーブレット変換を行って抽出される前記対角係数行列の値に係る第２特徴、第１臨界回数以上かつ前記第１回数未満である第２個数範囲内における第３回数のウェーブレット変換を行って抽出される前記対角係数行列に係る第３特徴、又は、前記第１臨界回数未満である第２臨界回数以上かつ前記第１回数未満である第３個数範囲内における第４回数のウェーブレット変換を行って抽出される前記対角係数行列に係る第４特徴のうち、少なくとも１つを含むが、この場合、前記第１臨界回数は前記第１回数より少ない、
コンピューター可読保存媒体に保存されるコンピュータープログラム。