JP2022533715A

JP2022533715A - 実行可能コード検出、自動特徴抽出及び位置独立コード検出のためのシステム及び方法

Info

Publication number: JP2022533715A
Application number: JP2021569072A
Authority: JP
Inventors: セーラム，シュロミ; ナチーブ，アセフ; ゾハール，アミット; ブラウン，ギャル; フェレンツ，ペイベル; シェテレンバウム，エイタン; メイモン，タル; ローネン，ロイ
Original assignee: Sentinel Labs Israel Ltd
Current assignee: Sentinel Labs Israel Ltd
Priority date: 2019-05-20
Filing date: 2020-05-20
Publication date: 2022-07-25
Anticipated expiration: 2040-05-20
Also published as: US20240184884A1; IL288122A; US20220019659A1; US20200372150A1; US20230146847A1; US11210392B2; US11790079B2; EP3973427A4; US11580218B2; US20220391496A9; WO2020236981A1; EP3973427A1; JP7278423B2; US10762200B1; IL288122B2

Abstract

バイトストリームから実行可能コードの自動検出を可能にするシステム及び方法をここに開示する。いくつかの実施形態において、バイトストリームは、従来のマルウェア検出ソリューションが無視するファイルの非表示領域で生成できる。いくつかの実施形態において、機械学習モデルは、特定のバイトストリームが実行可能コードであるかどうかを検出するように訓練される。ここに記載される他の実施形態は、ニューラルネットワークを使用する自動特徴抽出のためのシステム及び方法を開示する。新しいファイルが与えられると、前記システム及び方法は、学習済みニューラルネットワークに入力されるコードを前処理してもよい。ニューラルネットワークは、マルウェア検出モデルのための「特徴生成器」として使用してもよい。本明細書の他の実施形態は、ライブラリ関数に対するアクセスの独立的な取得を試みる攻撃者を識別し、フラグを立て、及び／又は検出するシステム及び方法に関する。【選択図】図３

Description

関連出願への相互参照

本出願は、２０１９年５月２０日付で出願された米国仮出願第６２／８５０，１７０号、タイトル「マルウェア解析用コード検出のための方法、システム、及びデバイス（Methods, SYSTEMS, and DEVICES FOR CODE DETECTION for MALWARE ANALYSIS）」、２０１９年５月２０日付で出願された米国仮出願第６２／８５０，１８２号、タイトル「実行可能コードから自動で特徴を抽出する方法、システム、及び、デバイス（METHODS, SYSTEMS, and DEVICES FOR AUTOMATIC FEATURE EXTRACTION from EXECUTABLE CODE）」、２０１９年５月２９日付で出願された米国仮出願第６２／８５４１１８号、タイトル「位置独立コードの実行を検出する方法、システム、及びデバイス（METHODS, SYSTEMS, AND DEVICES FOR DETECTING THE EXECUTION OF A POSITION INDEPENDENT CODE）」の利益を主張する。前記出願は、その全体を参照により援用する。

本出願と共に提出された出願データシートにおいて外国又は国内の優先権主張が特定されているすべての出願は，３７ＣＦＲ１．５７に基づき参照により援用される。

背景

分野
本出願は、コンピュータ、サイバーセキュリティのシステム及び方法に関し、特に、実行可能コードを検出し、有用な機械学習特徴を抽出し、位置独立コードを識別するためのシステム及び方法に関する。
説明

既存のプログラム的マルウェア及び実行可能コード検出のシステム及び方法は、非効率的かつ不正確である。コンピュータシステムに対する悪意のある脅威を防止、検出、及び対応するには、新しいシステム及び方法が必要である。

概要

本概要では、ここに記載される発明の所定の態様、利点、新規の特徴を記載することを目的とする。なお、本発明による以下のいずれの特定の実施形態においても、以下の利点が必ずしも全て実現されるとは限らないことを理解されたい。したがって、例えば、当業者であれば、ここに教示される利点のうちの一つ又は、利点のグループが実現できるように本発明を具現化又は実施可能であり、ここに教示又は示唆されるその他の利点が必ずしも実現されないことについて認識できるであろう。

ここに記載する実施形態のうちいくつかは、ファイルにおける実行可能コードをプログラム的に識別するコンピュータで実施される方法に関する。前記方法は、コンピュータシステムによって、ファイルの一部からバイト列にアクセスする処理と、前記コンピュータシステムによって前記バイト列から所定数のｎ－グラムを抽出する処理であって、前記各ｎ－グラムは、前記バイト列中の隣接する一連のバイトを含んでおり、前記各ｎ－グラム中の隣接する一連のバイトは、ｎ個のバイトを含む、処理と、前記コンピュータシステムによって、カウンタ列を生成する処理であって、前記カウンタ列の各カウンタは、前記ｎ－グラムのうちの１つと関連付けられており、前記各カウンタは整数値を有しており、前記整数値は前記バイト列内の関連付けられたｎ－グラムの発生頻度に基づいて生成される、処理と、前記コンピュータシステムによって、前記カウンタ列を入力特徴として予測機械学習モデルに提供する処理と、前記予測機械学習モデルによって、前記バイト列が実行可能なコードを含むモデル確率値を決定する処理とを含み、前記コンピュータシステムはコンピュータプロセッサと電子記憶媒体を備えている。

いくつかの実施形態において、実行可能なコードとは、コンピュータシステム上でバイト列を実行することなく、プログラム的に識別される。

いくつかの実施形態において、前記方法は、前記バイト列が実行可能なコードを含むモデル確率値が所定の閾値を超えるものである場合、マルウェア検出システムによってさらに解析を行うために、前記コンピュータシステムによって前記バイト列又はファイルにフラグを立てる処理をさらに含む。

いくつかの実施形態において、前記ファイルは、実行可能なファイル形式を含む。

いくつかの実施形態において、前記ファイルは、ポータブル実行可能ファイル（ＰＥ）を含む。

いくつかの実施形態において、前記ファイルの一部には、一以上のリソース、文字列、変数、オーバーレイ、又はセクションの１つ以上が含まれている。

いくつかの実施形態において、前記ファイルの一部には、実行可能許可が含まれていない。

いくつかの実施形態において、前記ｎ－グラムは、ｂｉ－グラムを含む。

いくつかの実施形態において、ｎは２～５００である。

いくつかの実施形態において、前記ｎ－グラムは、ｎが第一の整数である第一のｎ－グラムセットと、ｎが第二の整数である第二のｎ－グラムセットとを含んでおり、前記第一の整数は前記第二の整数と異なっている。

いくつかの実施形態において、ｎ－グラムの所定の数は５００である。

いくつかの実施形態において、ｎ－グラムの所定の数は５０～１００００である。

いくつかの実施形態において、前記方法は、コンピュータシステムによって、各カウンタを前記バイト列のデータ長で正規化する処理をむ。

いくつかの実施形態において、前記予測機械学習モデルは、複数の別々のモデルを含んでおり、各モデルは異なるマシンアーキテクチャコードに対応している。

いくつかの実施形態において、前記マシンアーキテクチャコードには、.NET、ｘ８６、及び／又はｘ６４が含まれる。

いくつかの実施形態において、前記予測機械学習モデルは、サポートベクターマシン（ＳＶＭ）、線形回帰、ｋ－近傍法（ＫＮＮ）アルゴリズム、ロジスティック回帰、ナイーブベイズ（naive Bayes）、線形判別分析、決定木、ニューラルネットワーク、又は類性学習からなるグループから選択された少なくとも１つの学習アルゴリズムを含む。

いくつかの実施形態において、予測機械学習モデルは、ランダムフォレストを含んでいる。

いくつかの実施形態において、前記ランダムフォレストは複数の決定木を含んでおり、各決定木は学習用のバイトセットで独立的に教育される。

いくつかの実施形態において、モデル確率値は、複数の決定木確率値を平均化することによって決定され、各決定木確率値は、複数の決定木の各決定木を介してバイト列をトラバースすることによって生成される。

ここに記載する実施形態のうちいくつかは、ファイルにおける実行可能なコードをプログラム的に識別するコンピュータシステムに関し、前記システムは、複数のコンピュータで実行可能な指示を記憶するように構成された一以上のコンピュータで読取り可能な記憶装置と、一以上の他のコンピュータで読取り可能な記憶装置と通信可能に接続された一以上のハードウェアコンピュータプロセッサとを備えており、前記一以上のハードウェアコンピュータプロセッサは、複数のコンピュータで実行可能な指示を実行することによって、前記システムに、ファイルの一部からバイト列にアクセスする処理と、前記バイト列から所定数のｎ－グラムを抽出する処理であって、前記各ｎ－グラムは、前記バイト列中の隣接する一連のバイトを含んでおり、前記各ｎ－グラム中の隣接する一連のバイトは、ｎ個のバイトを含む、処理と、カウンタ列を生成する処理であって、前記カウンタ列の各カウンタは、前記ｎ－グラムのうちの１つと関連付けられており、前記各カウンタは整数値を有しており、前記整数値は前記バイト列内の関連付けられたｎ－グラムの発生頻度に基づいて生成される、処理と、前記カウンタ列を入力特徴として予測機械学習モデルに提供する処理と、前記予測機械学習モデルによって、前記バイト列が実行可能なコードを含むモデル確率値を決定する処理とを行わせるように構成されている。

ここに記載する実施形態のうちいくつかは、実行可能なコードから、マルウェア検出モデルに入力する機械学習特徴を自動的に抽出する、コンピュータで実施される方法に関する。前記方法は、コンピュータシステムによって、ファイルから前記実行可能なコードにアクセスする処理と、前記コンピュータシステムによって、埋込マトリクスを有する画像再スケーリングアルゴリズムに、前記実行可能なコードを入力する処理であって、前記画像再スケーリングアルゴリズムは、前記実行可能なコードの各バイトを、前記埋込マトリクスを用いて数ベクトルに変換して埋込ベクトル空間を作成し、前記変換を行っている間、前記実行可能なコードの順序が維持される、処理と、前記コンピュータシステムによって、前記埋込ベクトル空間の一以上のベクトル層をチャネルフィルタリングする処理であって、前記チャンネルフィルタリングの処理は、前記一以上のベクトル層を複数のブロックに統合する処理と、フィルタメカニズムを適用して一以上の固定サイズのベクトル入力を生成する処理であって、各固定サイズのベクトル入力は、対応するベクトル層、又は対応するベクトル層のブロックを表している、処理とを含み、前記コンピュータシステムによって、ニューラルネットワークの入力層に前記一以上の固定サイズのベクトル入力を入力する処理であって、前記ニューラルネットワークは、複数の処理部の層を備えており、前記複数の層は、少なくとも、前記入力層と、一以上の隠し層と、出力層とを備えており、前記複数の層の一連の層は、それぞれ前の層の出力値を入力値として使用し、前記出力層は、前記実行可能なコードの悪意度の分類を生成する、処理とを含み、前記コンピュータシステムによって、前記ニューラルネットワークの前記出力層直前の最終隠し層の出力値を抽出する処理と、前記コンピュータシステムによって、機械学習特徴として前記最終隠し層の出力値を、前記マルウェア検出モデルに提供する処理とを含み、前記コンピュータシステムは、コンピュータプロセッサと電子記憶媒体とを備えている。

いくつかの実施形態において、前記ニューラルネットワークは教師あり学習モデル、半教師あり学習モデル、又は教師なし学習モデルを含む。

いくつかの実施形態において、前記実行可能なコードは、ポータブル実行可能（ＰＥ）ファイルの一部である。

いくつかの実施形態において、前記一以上の隠し層のそれぞれは、前記入力値に変換を行い、直後に連続する層への出力値を生成するように構成されている。

いくつかの実施形態において、前記画像再スケーリングアルゴリズムは、前処理ニューラルネットワークを含んでおり、前記前処理ニューラルネットワークは、Word2Vecを含む。

いくつかの実施形態において、前記方法は、前記ニューラルネットワークの出力層から、前記実行可能なコードの悪意度の分類を破棄する処理をさらに含む。

いくつかの実施形態において、前記ニューラルネットワークは１～２０００個の隠し層を含む。

いくつかの実施形態において、前記フィルタメカニズムは、ローパスフィルタ、ボックスフィルタ、デルタフィルタ、又はガウスフィルタを含む。

ここに記載する実施形態のうちいくつかは、実行可能なコードから、マルウェア検出モデルに入力する機械学習特徴を自動的に抽出する、コンピュータシステムに関する。前記システムは、複数のコンピュータで実行可能な指示を記憶するように構成された一以上のコンピュータで読取り可能な記憶装置と、一以上の他のコンピュータで読取り可能な記憶装置と通信可能に接続された一以上のハードウェアコンピュータプロセッサとを備えており、前記一以上のハードウェアコンピュータプロセッサは、複数のコンピュータで実行可能な指示を実行することによって、前記システムに、ファイルから前記実行可能なコードにアクセスする処理と、埋込マトリクスを有する画像再スケーリングアルゴリズムに、前記実行可能なコードを入力する処理であって、前記画像再スケーリングアルゴリズムは、前記実行可能なコードの各バイトを、前記埋込マトリクスを用いて数ベクトルに変換して埋込ベクトル空間を作成し、前記変換を行っている間、前記実行可能なコードの順序が維持される、処理と、前記埋込ベクトル空間の一以上のベクトル層をチャネルフィルタリングする処理であって、前記チャンネルフィルタリングは、前記一以上のベクトル層を複数のブロックに統合する処理と、フィルタメカニズムを適用して一以上の固定サイズのベクトル入力を生成する処理であって、各固定サイズのベクトル入力は、対応するベクトル層、又は対応するベクトル層のブロックを表している、処理とによって行われる、処理と、ニューラルネットワークの入力層に前記一以上の固定サイズのベクトル入力を入力する処理であって、前記ニューラルネットワークは、複数の処理部の層を備えており、前記複数の層は、少なくとも、前記入力層と、一以上の隠し層と、出力層とを備えており、前記複数の層の一連の層は、それぞれ前の層の出力値を入力値として使用し、前記出力層は、前記実行可能なコードの悪意度の分類を生成する、処理と、前記ニューラルネットワークの前記出力層直前の最終隠し層の出力値を抽出する処理と、機械学習特徴として前記最終隠し層の出力値を、前記マルウェア検出モデルに提供する処理とを含む。

いくつかの実施形態において、前記システムは、前記ニューラルネットワークの出力層から、前記実行可能なコードの悪意度の分類を破棄するようになっている。

ここに記載する実施形態のうちいくつかは、ライブラリ位置独立コード検出用のシステムに関し、複数のコンピュータで実行可能な指示を記憶するように構成された一以上のコンピュータで読取り可能な記憶装置と、一以上の他のコンピュータで読取り可能な記憶装置と通信可能に接続された一以上のハードウェアコンピュータプロセッサとを備えており、前記一以上のハードウェアコンピュータプロセッサは、複数のコンピュータで実行可能な指示を実行することによって、前記システムに、監視対象シンボルのインポートアドレステーブル（ＩＡＴ）エントリを実装する処理を行わせ、前記ＩＡＴエントリを実装する処理は、監視対象シンボルのＩＡＴエントリ内の監視対象シンボルアドレスを改変アドレスで置換する処理と、前記改変アドレスの呼び出しに対してトランポリンコードを実行し、監視対象シンボルの静的呼び出しを検出及び検証する処理と、前記改変アドレスの呼び出しを監視対象シンボルアドレスにリダイレクトする処理とを含み、一以上のローダＡＰＩ関数を実装する処理を行わせ、前記ローダＡＰＩ関数を実装する処理は、前記一以上のローダＡＰＩ関数を改変し、前記トランポリンコードへ導く値を戻す処理と、前記監視対象シンボルの実行を迂回コードに迂回させて、前記監視対象シンボルの呼び出しを検出及び検証する処理と、前記監視対象シンボルの呼び出しを前記監視対象シンボルアドレスにリダイレクトする処理とを含み、前記監視対象シンボルの前記トランポリンコード及び前記迂回コードを監視させて、実行ファイル内の呼び出しが、静的呼び出し、動的呼び出し、又はローカル呼び出しを含んでいるかを判定する処理を行わせ、前記システムが、前記実行ファイル内の少なくとも１つの呼び出しに、静的呼び出し、動的呼び出し、又はローカル呼び出しが含まれていないと判断した場合、マルウェア検出システムのために、当該実行ファイルに不審な、又は、悪意ありのフラグを立てる処理を行わせる。

いくつかの実施形態において、前記システムが、前記実行可能コード内の少なくとも１つの呼び出しに、静的呼び出し、動的呼び出し、又はローカル呼び出しが含まれていないと判断した場合、当該少なくとも１つの呼び出しを独立した呼び出しとして分類する。

いくつかの実施形態において、前記システムが、前記呼び出しに、静的呼び出し、動的呼び出し、又はローカル呼び出しが含まれると判断した場合、当該呼び出しを良性呼び出しとして分類する。

いくつかの実施形態において、前記システムが、前記呼び出しに、静的呼び出し、動的呼び出し、又はローカル呼び出しが含まれると判断した場合、前記実行ファイルを良性として分類する。

いくつかの実施形態において、前記システムは、さらに前記トランポリンコード及び前記迂回コードを含むフッキングエンジンと、呼び出しに関するデータを記憶するように構成された、一以上の呼び出しデータベースとを含む。

いくつかの実施形態において、前記動的呼び出しは、前記実行ファイルの実行中に、前記監視対象シンボルアドレスの取得を試みることが含まれる。

いくつかの実施形態において、前記静的呼び出しには、前記実行ファイルの初期化中に、前記監視対象シンボルアドレスの取得を試みることが含まれる。

いくつかの実施形態において、前記実行ファイルからの呼び出しにローカル呼び出しが含まれているか否かを判定する処理には、前記迂回コードを監視して、リターンアドレスが、前記実行ファイルの前記監視対象シンボルと同じアドレスになっているかを判定する処理が含まれる。

いくつかの実施形態において、前記一以上のローダＡＰＩ関数は、GetModuleHandle又はGetProcAddressのいずれか一方又は両方を含む。

いくつかの実施形態において、前記少なくとも１つの呼び出しは、前記実行ファイルが、前記監視対象シンボルを含むモジュールから取得されたメタデータを用いることによって初期化される。

いくつかの実施形態において、前記少なくとも１つの呼び出しは、前記実行ファイルがローダの内部記録から取得したデータを用いることによって初期化される。

いくつかの実施形態において、前記少なくとも１つの呼び出しは、前記実行ファイルが、前記トランポリンコードをトリガーすることなく監視対象シンボルを呼び出すことによって初期化される。

ここに記載する実施形態のうちいくつかは、ライブラリ位置独立コード検出を行うためのコンピュータにより実施される方法に関し、前記方法は、コンピュータシステムによって、監視対象シンボルのインポートアドレステーブル（ＩＡＴ）エントリを実装する処理であって、前記ＩＡＴエントリを実装する処理には、監視対象シンボルのＩＡＴエントリ内の監視対象シンボルアドレスを改変アドレスで置換する処理と、前記改変アドレスの呼び出しに対してトランポリンコードを実行し、監視対象シンボルの静的呼び出しを検出及び検証する処理と、前記改変アドレスの呼び出しを監視対象シンボルアドレスにリダイレクトする処理とが含まれる、処理と、前記コンピュータシステムによって、一以上のローダＡＰＩ関数を実装する処理であって、前記ローダＡＰＩ関数を実装する処理には、前記一以上のローダＡＰＩ関数を改変し、前記トランポリンコードへ導く値を戻す処理と、前記監視対象シンボルの実行を迂回コードに迂回させて、前記監視対象シンボルの呼び出しを検出及び検証する処理と、前記監視対象シンボルの呼び出しを前記監視対象シンボルアドレスにリダイレクトする処理とが含まれる、処理と、前記コンピュータシステムによって、前記監視対象シンボルの前記トランポリンコード及び前記迂回コードを監視する処理であって、実行ファイル内の呼び出しが、静的呼び出し、動的呼び出し、又はローカル呼び出しを含んでいるかを判定する処理と、前記コンピュータシステムが、前記実行ファイル内の少なくとも１つの呼び出しに、静的呼び出し、動的呼び出し、又はローカル呼び出しが含まれていないと判断した場合、前記コンピュータシステムがマルウェア検出システムのために、当該実行ファイルに不審な、又は、悪意ありのフラグを立てる処理と、を備え、前記コンピュータシステムはコンピュータプロセッサと電子記憶媒体を備えている。

いくつかの実施形態において、前記方法は、前記コンピュータシステムが、少なくとも１つの呼び出しに、静的呼び出し、動的呼び出し、又はローカル呼び出しが含まれていないと判断した場合、当該少なくとも１つの呼び出しを独立した呼び出しとして分類する処理を含むことを特徴とする方法。

いくつかの実施形態において、前記方法は、前記コンピュータシステムが前記呼び出しに、静的呼び出し、動的呼び出し、又はローカル呼び出しが含まれると判断した場合、当該呼び出しを良性呼び出しとして分類する処理を含む。

いくつかの実施形態において、前記方法は、前記コンピュータシステムが前記呼び出しに、静的呼び出し、動的呼び出し、又はローカル呼び出しが含まれると判断した場合、前記実行ファイルを良性として分類する処理を含む。

いくつかの実施形態において、前記トランポリンコード及び前記迂回コードは、フッキングエンジンの一以上の部分を含んでおり、前記フッキングエンジンは、前記呼び出しに関連するデータを記憶するように構成された呼び出しデータベースに接続されている。

本開示の特徴は、添付の図面と共に以下の説明からより完全に明らかになるであろう。これら図面は、本開示に従ったいくつかの実施形態のみを示すものであり、その範囲を限定するものとはみなされないことを理解した上で、本開示では、添付の図面の使用を通じてさらに特異性及び詳細を説明する。

図面は、例示的な実施形態を示すために提供されるものであり、開示の範囲を制限することを意図するものではない。ここに記載されるシステム及び方法は、添付の図面と共に以下の説明を参照することによってより深く理解できるであろう。

ポータブル実行可能（ＰＥ）ファイル形式の例を示す図である。

ＰＥファイルのセクションの例を示す図である。

ここに記載するいくつかの実施形態による、機械コードの例示的断片を示す図である。

ここに記載するいくつかの実施形態による、ｎ－グラム生成と比較したテキスト特徴生成のフローチャートである。

いくつかの実施形態による、一以上のランダムフォレストを使用してｘ８６、ｘ６４、及び.NETアーキテクチャの実行可能なコードを検出する方法のフローチャートである。

ここに記載するいくつかの実施形態による、ツリー構造の例示的なフローチャートである。

ここに記載するいくつかの実施形態による、ランダムフォレスト構造の例示的なフローチャートである。

ここに記載するいくつかの実施形態による、コード検出モデルを教育及びテストするための例示的なフローチャートである。

ここに記載するいくつかの実施形態による、ニューラルネットワークを使用した自動特徴抽出方法の例示的なフローチャートである。

ここに記載するいくつかの実施形態による、ニューラルネットワークを使用した特徴抽出方法の例を示す図である。

ここに記載するいくつかの実施形態による、例示的なチャネルフィルタリングメカニズムを示す図である。

ここに記載するいくつかの実施形態による、フィルタリングシステムの挙動を示すボックス関数の例を示す図である。

ここに記載するいくつかの実施形態による、フィルタリングシステムの挙動を示すガウス関数の例を示す図である。

ここに記載するいくつかの実施形態による、フィルタリングシステムの挙動を示すデルタ関数の例を示す図である。

ここに記載するいくつかの実施形態による、静的リンクプロセスの例を示す図である。

ここに記載するいくつかの実施形態による、ライブラリに依存しないコード検出システム及び静的リンクプロセスの例示的な方法を示す図である。

ここに記載するいくつかの実施形態による、ライブラリに依存しないコード検出システムの例を示す図である。

ここに記載するいくつかの実施形態による、動的フロープロセスの例を示す図である。

ここに記載するいくつかの実施形態による、ライブラリに依存しないコード検出システム及び動的フロープロセスの例示的な方法を示す図である。

実行可能コード検出、自動特徴抽出及び位置独立コード検出システムの一以上の実施形態を実施するソフトウェアを実行するように構成されたコンピュータハードウェアシステムの実施形態を示すブロック図である。

詳細な説明

特定の好ましい実施形態及び実施例が以下に開示されるが、本発明の主題は、具体的に開示された実施形態を超えて、他の代替的な実施形態、及び／又は、使用並びにそれらの変形例、及び均等物に及ぶ。したがって、ここに添付される特許請求の範囲は、以下に記載される特定の実施形態のいずれによっても制限されない。例えば、ここに開示される任意の方法又はプロセスにおいて、方法又はプロセスの作用又は動作は、任意の適切な順序で実行することが可能であり、必ずしもここに開示される特定の順序に限定されない。特定の実施形態の理解をしやすくするために、各種動作は、複数の個別の動作として順番に記載することがあるが、記載の順番が、これらの動作が順番に依存することを暗示すると解釈されるべきではない。さらに、ここに記載される構造、システム、及び／又はデバイスは、一体化された構成要素又は別個のコンポーネントとして具現化することができる。種々の実施形態を比較するために、これら実施形態の特定の態様及び利点が説明される。しかし、これら態様又は利点が全て特定の実施形態によって達成されるわけではない。従って、例えば、種々の実施形態は、ここに教示又は示唆され得る他の態様又は利点を必ずしも達成することなく、ここに教示される１つの利点又は利点のグループを達成又は最適化する方法で実施されることがある。

以下の詳細な説明では、コンピュータ及びサイバーセキュリティシステム、デバイス、及び方法を実装するための特定の特徴を、図示されるものも含む特定の説明された実施形態に関連して検討する。以下に、いくつかの実施形態、実施例、及び図を開示するが、当業者であれば、ここに記載された発明が、具体的に開示された実施形態、実施例、及び図を超えて拡大され、本発明の他の用途、ならびにそれらの明白な変形及び均等物を含むことを理解するであろう。本発明の実施形態は、添付の図面を参照して説明され、全体を通して、同様の符号は同様の要素を示すものとする。ここに記載される説明において使用する用語は、単に本発明の特定の実施形態の詳細な説明に関連して使用されているという理由で、限定的又は制限的に解釈されることを意図していない。さらに、本発明の実施形態は、いくつかの新規な特徴を含むことがあるが、単一の特徴がその望ましい特性に単独で寄与することはなく、また、ここに記載された本発明を実施するために不可欠でもない。

実行可能コード検出

本開示におけるいくつかの実施形態は、ファイルの従来とは異なる一以上の領域に隠され得る実行可能なコードを識別するための技術に関する。いくつかの実施形態において、この隠された実行可能コードが一旦検出されると、マルウェア検出を含む種々の目的のためのさらなる処理又は分析を行うためにフラグを立てることができる。

導入

一般的に、ファイル形式は、ファイルの全体的な構造や各ビットをどのように使用して情報をデジタル記憶媒体において暗号化するかを定めることにより、コンピュータファイルにおいて記憶する情報の暗号化方法を標準化するのに役立っている。ファイル形式の多くが、複数の個別の領域を有しており、それぞれの領域が異なる目的で使用される。

従来のマルウェア検出ソリューションでは、通常、ファイルのファイル形式に応じて、ファイルの特定のセクションでのみ不審なプログラムロジックを検索する。しかし、ファイル内の普段はコードやロジックが含まれず、従来のマルウェア検出ソリューションが検索しない一以上の領域に、悪意のあるコードを隠すことにより、マルウェアがこれらのソリューションで使用される検出ロジックをすり抜けることがあるため問題が残る。例えば、多くのファイルには、ファイルを表すアイコンが含まれるセクションがある。多くの場合、このアイコンを保持するセクションに実行可能なコードを配置する実用的な理由はない。しかし、多くのマルウェアやその他の攻撃者は、このような従来のマルウェア検出やアンチウイルスソフトが検査をしない場所に、悪意のあるコードを配置する。したがって、コンピュータマシーンで、マルウェアを実行する場合、隠された場所から実行可能なコードを抽出して実行するだけでよい。このようにして、悪意あるソフトウェアは、そのコードを既存のマルウェア検出やアンチウイルス製品から、巧みに隠すことができる。

さらに、ファイル内のコードが実行可能なコードであるか否かを検出することは些細なことではない。コードを見るだけでコードが実行可能かどうかを判断するロジック的な方法はない。したがって、コードが実行可能であるか否かを検証するには、コードをコンピュータ内で実行しなければならない。つまり、従来の方法を用いて、バイト列が有効な実行可能コードであるかを判断するために、マルウェア検出及びアンチウィルスソフトウェアは、バイト列の実行を試みて、当該バイト列が有効な実行可能コードとして解釈できるかどうかを確認しなければならない。しかし、コードの実行を試みるということは、マシンの性能を大幅に阻害し、及び／又は、コードの実行中に誤って悪意あるソフトウェアを導入してしまう可能性があるため、好ましくない。コードをサンドボックス内で安全に実行できたとしても、コードを実行し、実行し、チェックすることは、実行を伴わない実行可能コードの自動検出と比較して、パフォーマンスの低下をもたらす。さらに、サンドボックス内でのコードの実行は、それ自体が本来必要とされない処理能力とリソースを必要とするため、コンピュータシステムの処理能力を低下させる。

したがって、まずファイルに隠された実行可能なコードを、正確かつプログラム的に識別し、その後従来のマルウェア解析用にフラグを立てる必要性がある。ここに記載されるいくつかの実施形態によるシステム及び方法は、対象のコードを実行して当該対象コードが実行可能コードかどうかを判定することなく、ファイルに隠された実行可能なコードを識別、検出することを可能とする。言い換えると、ここに記載するいくつかの実施形態によれば、ファイルに隠された実行可能コードを識別及び検出するシステム及び／又は方法であって、前記システム及び／又は方法は、対象コードが実行可能コードであるかどうかを見るために当該対象コードを実行することを含まないシステム及び／又は方法が提供される。具体的には、ここに記載するいくつかの実施形態において、コードの実行を試みる必要なく、実行可能なコードのパターンを理解するために、一以上の機械学習モデルを活用してもよい。具体的には、ここに記載するいくつかの実施形態は、実行可能ファイル内の特定の場所を検索し、当該特定の場所に実行可能なコードが含まれているか否かを判定する機械学習モデルに関する。悪意のある攻撃者は、多くの場合、ファイルの従来とは異なる場所にコードを隠す、又は隠蔽しようとする。したがって、いくつかの実施形態では、ファイルからの一以上のバイト列を入力として、一以上のセクションが有効な実行可能コードを含んでいる可能性を判定するために一以上の機械学習モデルを活用してもよい。

従来のマルウェア検出ソリューションは、インポート、文字列、不審な関数呼び出しのシーケンス等の悪意のあるパターンを検出する。しかし、マルウェアは、コードの悪意のある部分（ペイロード等）をファイル内のリソース又は非表示領域内に隠すことにより、これらのソリューションで使用される検出ロジックをすり抜けることが多々ある。これらの非表示領域には通常、実行可能コードやプログラムロジックが含まれていないため、従来の検出システムでは検索されないことがあり、マルウェアが当該システムによる検出をすり抜ける可能性がある。

いくつかの実施形態において、ここに開示される技術は、ファイルのいかなる部分からでも得られるバイトストリーム、特に従来のマルウェア検出ソリューションが無視するファイルの非表示領域からのバイトストリームから実行可能コードの自動検出を可能にし、この技術的欠点に対処している。ポータブル実行可能（ＰＥ）ファイル内のリソース等、数カ所にコードが存在するだけで、非常に悪意あるアクティビティの可能性があり、検出ソリューションに非常に役立つため、これら技術を、一例として、また技術の理解を容易にするために、ＰＥファイルの場合に関して説明する。しかし、ここに記載される技術は、いずれの適切なファイル形式にも適用可能である。例えば、ここに記載するコード検出技術は、他の実行可能なファイル形式（例：ＥＬＦファイル）及び非実行可能なファイル形式（例：ＰＤＦファイル）にも利用できる。

より具体的には、いくつかの実施形態において、特定のバイトストリームが実行可能なコードかどうかを検出するように、機械学習モデルを教育してもよい。この機械学習モデルを、その後、一般的に従来の検出ソリューションファイルが分析しない領域を含む、一以上の異なる領域に対して実行し、一以上のファイル内の実行可能なコードを検出してもよい。検出された実行可能コードには、マルウェア検出ソフトウェアで、さらに解析すべくフラグを立ててもよく、これにより隠れたマルウェアペイロードの検出が大幅に改善する。いくつかの実施形態において、ファイルの一部のみをモデルに渡してもよい。いくつかの実施形態において、ファイル内のデータ全体をモデルに渡してもよい。

ポータブル実行可能（ＰＥ）

図１Ａは、ポータブル実行可能（ＰＥ）ファイル形式に関連する例示的な構造を示す図である。例示的な目的、及びここに記載する技術の理解を容易にするために、ＰＥファイルに関連する構造のいくつかを以下に記載する。特に図１Ａに関してここに記載するように、ＰＥファイルに関連する構造には、マルウェアの実行可能コードを隠すことができる場所がある場合がある。

いくつかの実施形態において、ポータブル実行可能（ＰＥ）ファイルは、実行可能ファイル、オブジェクトコード、ＤＬＬ、ＦＯＮフォントファイル、及び特定のバージョンのWindowsオペレーティングシステムで使用されるその他のファイル形式である。ＰＥファイルは、ファイルをどのようにコンピュータシステムのメモリにマッピングするかを動的リンカに通知する多数のヘッダ及び／又はセクションを含んでいてもよい。実行可能イメージはいくつかの異なる領域を含むことがあり、それぞれが異なるメモリ保護を必要とすることがある。例えば、一般的に（プログラムコードを保持する）.textセクションは、実行／読取り専用としてマッピングされ、（グローバル変数を保持する）.dataセクションは、非実行／読取り／書き込みとしてマッピングされる。図１Ｂは、例としての許可１３２を含むＰＥファイルのセクションの例を示している。セクション１１６は、例えば、ネーム１２６、仮想サイズ１２８、及び仮想アドレス１３４を含んでいる。いくつかの実施形態において、動的リンカの機能の一部は、各セクションを個別にメモリにマッピングし、ヘッダ内の指示に従って、結果として得られる領域に正しい許可１３２を割り当てることである。

ＰＥファイルは、ディスクオペレーティングシステム（ＤＯＳ）ヘッダ１０２を含むことがある。いくつかの実施形態において、ＤＯＳヘッダ１０２は、各ＰＥファイルの最初の６４バイトで開始することがある。ＤＯＳヘッダ１０２は、ＭＳ－ＤＯＳ互換ファイルタイプを識別することによって、バージョンチェック及び下位互換性において機能を果たすこともある。旧バージョンのWindowsオペレーティングシステム及びＭＳ－ＤＯＳオペレーティングシステムでは、オペレーティングシステムがＤＯＳヘッダ１０２を読み取って、ファイルと互換性があるかどうかを判断することがある。例えば、ＭＳ－ＤＯＳバージョン６．０上でWindows NTの実行ファイルの実行を試みると、オペレーティングシステムはＤＯＳヘッダ１０２をチェックし、「このプログラムはＤＯＳモードでは実行できません。」と表示することがある。もし、代わりに、ＰＥファイル形式の最初の部分として、ＤＯＳヘッダ１０２が含まれていなかった場合、オペレーティングシステムは単にファイルのロードに失敗し、「指定された名前は内部又は外部コマンド、動作可能なプログラム、又はバッチファイルとして認識されません。」と、全く役にたたない提示を行う。

ＰＥファイルは、またＤＯＳコード（「スタブ」）１０４を含んでいる場合があり、実行可能ファイルをロードする際に実行されるスタブと呼ばれるコードを含んでいる場合がある。通常、ＤＯＳスタブ１０４は、「このプログラムはＤＯＳモードでは実行できません。」というメッセージのように、文字列を出力する。これにより、ＰＥファイルをＤＯＳシステム上で実行した場合に、ＰＥファイルによってクラッシュが発生しないようにし、代わりに、メッセージを表示させた後にプログラムを終了することができる。しかし、Ｍｉｃｒｏｓｏｆｔのリンカは、標準的なスタブ以外のスタブにリンクさせるオプションを含んでおり、ＰＥファイルの作成者はそこにカスタムコードを配置することができる。一般に、オフセット３Ｃｈ（６０）において、ファイルの開始に対してＰＥブロックの開始を指定するＤＷＯＲＤがある限り、任意のＤＯＳプログラムをＤＯＳスタブ１０４に配置することができる。いくつかの実施形態において、ＤＯＳスタブ１０４は、完全なＤＯＳプログラムとすることができる。

いくつかの実施形態において、ＰＥファイルは、一以上のＮＴヘッダ１０６を含むことができ、ＰＥファイルヘッダ１０８、画像オプションヘッダ１１０、及び／又はデータディレクトリ１１２の配列を含むことができる。ＰＥファイルヘッダ１０８は、コードの位置及びコードサイズを含む、ＰＥファイルの残りがどのようなものかを定義するフィールドの集合を含んでいてもよい。さらに、オペレーティングシステム又は他のアプリケーションが、ファイルの処理方法を決定するための高レベル情報が、ＰＥファイルヘッダ１０８内に存在してもよい。例えば、DEC（登録商標）Alpha、MIPS R4000、Intel（登録商標）ｘ８６、又は他の何らかのプロセッサなど、実行可能ファイルがどのタイプのマシン又はプロセッサのために構築されたかを示すフィールドが存在してもよく、このフィールドを参照することにより、ファイルデータの残りの部分をそれ以上確認することなく、ファイルの処理方法を迅速に決定することができる。ＰＥファイルヘッダ１０８はまた、情報をより容易かつ効率的に抽出するために、ファイル内にあるセクションの数、より具体的にはセクションヘッダ及びセクション本体の数を識別するフィールドを含んでいてもよい。各セクションヘッダとセクション本体はファイル内で順番にレイアウトされることがあるため、セクションヘッダとセクション本体の終了位置を判断するためにセクションの数が必要なことがある。画像オプションヘッダ１１０は、実行可能イメージに関する意味のある情報、例えば、初期スタックサイズ、プログラムエントリポイント位置、好ましいベースアドレス、オペレーティングシステムバージョン、及び／又はセクションの並びに関する情報などを含んでいてもよい。データディレクトリ１１２のエントリの配列は、セクション本体内に含まれるデータディレクトリに対する相対仮想アドレスを含むことがある。各データディレクトリは、特定のセクション本体のデータがどのように構成されているかを示すことができる。対応するセクションヘッダー及びデータディレクトリエントリがセクション本体内のデータを検索して解読するのに十分な情報を提供している限り、セクション本体は厳密なファイル構造がないこともあり、ほとんどどのようにも編成可能である。

ＰＥファイルはまた、セクションヘッダ１１４のテーブルを含んでいてもよく、当該テーブルはＮＴヘッダ１０６の直後に続けてもよい。前述したように、ＰＥファイルは、ＰＥファイルヘッダ１０８内にマッピングされたセクションを含んでいてもよく、これらセクションにコード、データ、リソース、及び／又は、その他の実行可能情報を含むファイルのコンテンツが含まれていてもよい。各セクションは、ヘッダ及び本体を含んでいてもよく、ここに生データ又は実行可能コードを格納することができる。セクションテーブルの行やエントリを各セクションヘッダが含んでいることがあるため、セクションヘッダを一緒に配置してもよい。各セクションヘッダは、対応するセクションのデータサイズを識別するためのフィールド、及び対応するセクションのデータ（例：セクション本体）位置へのポインタを含む、少なくとも４０バイトのエントリを含んでいてもよい。

ＰＥファイルはまた、複数のセクション１１６（即ち、セクション本体）を含んでいてもよい。セクション１１６は、特定の定義済みセクションを含んでいてもよい。例えば、Windows NT用のアプリケーションには通常、９つの定義済みセクション（.text、.bss、.rdata、.data、.rsrc、.edata、.idata、.pdata、及び.debug）がある。アプリケーションによっては、これらのセクションを全て活用しないこともあるが、中には特定のニーズに合わせるためにさらに多くのセクションを定義することもある。図１Ａ、図１Ｂに示す定義済みセクションには、.textセクションＳ１１８、.dataセクションＳ１２０、.edataセクションＳ１２２、及び.rsrcセクションＳ１２４が含まれていていてもよい。

図１Ａから、ＰＥファイルには、マルウェアの実行可能コードを隠すことができる多くの場所があり得ることがわかる。実行可能コードを隠すさらなる領域としては、リソース、文字列、変数、オーバーレイ、及び／又は、実行許可のないセクションが挙げられる。リソースには、ＰＥファイルが必要に応じて使用できる、外部ファイル、及び／又は、外部データが含まれていてもよい。リソースには、マルウェア検出ソリューションが通常検査しないＰＥファイルの領域が含まれていることがあり、悪意のあるコードを隠すのに利用できる。リソース内で見つかった実行可能コードは、どのような種類であれ、非常に疑わしく、いくつかの実施形態において、ここに記載されるシステム及び方法では、リソースで見つかった実行可能なコードを識別し、さらなる解析のためにフラグを立てるように構成されている。

いくつかの実施形態において、実行可能コードが隠され得る別のファイル位置は、バイナリ文字列及びバイナリ変数内であり、バイト列が含まれていることがある。通常のテキストデータを含む文字列及び変数とは異なり、バイナリ文字列及びバイナリ変数は、非従来型データ（例えば、メディア）を保持するために使用されることがある。いくつかの実施形態において、マルウェアのペイロードがバイナリ変数やバイナリ文字列に隠されていることが一般的である。これらの領域におけるコードの存在は、強く悪意を示唆しており、いくつかの実施形態において、ここに記載されるシステム及び方法では、バイナリ文字列やバイナリ変数で見つかった実行可能なコードを識別し、さらなる解析のためにフラグを立てるように構成されている。

いくつかの実施形態において、実行可能コードが隠され得る別の位置が、オーバーレイであることもある。ＰＥファイルのオーバーレイは、ＰＥファイルに追加されるあらゆるデータと定義されることがあり、メモリにマッピングされることを意図していないこともある。従来のマルウェア検出ソリューションは一般的にオーバーレイを検査しないので、いくつかの実施形態において、マルウェア設計者がペイロードをオーバーレイに隠すことは一般的に行われていることである。したがって、いくつかの実施形態において、ここに記載されるシステム及び方法は、オーバーレイで見つかった実行可能コードを識別し、さらなる解析のためにフラグを立てるように構成されている。

いくつかの実施形態において、実行可能コードを隠され得る別の位置が、実行許可のないあらゆるセクション内であることもある。前述したように、各ＰＥファイルは複数のセクションで構成されることがある。各セクションには、それぞれ読み取り、書き込み、及び、実行の許可を設定できる。ＰＥファイルをメモリにロードする際に、ＰＥファイルに前記許可がセクションから踏襲されることがある。従来の検出システムは通常、実行許可のないセクション内で悪意のあるコードをチェックしないので、いくつかの実施形態において、マルウェアはよくこれらのセクションに悪意のある部分を隠している。これらのセクションにおけるあらゆる類のコードの存在は、悪意を示唆する場合がある。したがって、いくつかの実施形態において、ここに記載されるシステム及び方法は、実行許可のないセクションで見つかった実行可能コードを識別し、さらなる解析のためにフラグを立てるように構成されている。

実行可能コード検出メカニズム

以下に、ファイル内の実行可能コード（マルウェアに関連する場合と関連しない場合がある）を識別するためのシステム及び方法について説明する。いくつかの実施形態において、悪意のあるコードは、ファイルの一般的に実行可能コードと関連しないが、マルウェアペイロードの隠し場所とすることができる領域に配置される。いくつかの実施形態は、ＰＥファイルと当該ファイルの特定の位置に関連しているが、ここに記載のいくつかの実施形態は、あらゆるファイル形式又はファイルのあらゆる場所においてコードを検出するのに活用できる。マルウェア検出ソリューションとして正常に利用できる実行可能コード検出メカニズムを作成し、ファイル内の異なる部分で実行するのは全く容易ではない。第一に、前記メカニズムは、入力サイズが独立している必要がある（例：異なるファイルサイズ全体に正常に機能しなければならない）。第二に、前記メカニズムはファイルの多くの場所に対して適用される可能性があるため、偽陽性（又は偽陰性）を回避できるように非常に高い精度を維持する必要がある。最後に、バイトストリームが実行可能コードか否かをプログラム的に予測するタスクについてはまだ十分に調査されていない。

いくつかの実施形態において、例えば、ファイルからのバイトストリームは、特定の機能をプログラムする特定の順序の単語又はパターンを有する言語として扱われる。したがって、ここに記載されるシステム及び方法は、一連の単語と同様の方法でコードストリームを扱うことができる。ここに記載されるシステム及び方法は、実行可能コードが多くの共通するパターンを有しているという事実を利用する。いくつかの実施形態において、実行可能コード内に見出されるこれらのパターンは、例えば、特定のバイトパターンをカウントしてデータが実行可能コードであるか否かを検出することにより、検出目的で利用することができる。より具体的には、いくつかの実施形態において、データからｎ－グラム特徴を抽出してもよい。ｎ－グラムは、長さがｎの連続する単語列（又は、コードの場合バイト列）を含んでいてもよい。各ｎ－グラム特徴は、特定のｎ－グラムがデータ内に登場する回数を含むカウンタを含んでいてもよい。しかしながら、ｎ－グラムの抽出は、バイトストリームから特徴を抽出するたった一つの例示的な方法を含んでいることが理解されるであろう。いくつかの実施形態において、バイトストリームから特徴を生成するために、他の特徴生成アルゴリズムが利用されていてもよい。

より具体的には、いくつかの実施形態において、コードセクションから、最も頻度の高いｎ－グラムの所定数を決定してもよい。いくつかの実施形態において、ｎ－グラムの前記所定数は約５００であってもよい。いくつかの実施形態において、ｎ－グラムの前記所定数は、約５０、１００、１５０、２００、２５０、３００、３５０、４００、４５０、５００、５５０、６００、６５０、７００、７５０、８００、８５０、９００、１０００、１５００、２０００、２５００、５０００、１００００、及び／又は、これらいずれか２つの値間の任意の値であってもよい。いくつかの実施形態において、ｎ－グラムの数は予め定められていなくてもよく、代わりに、コードセクションに存在する各ｎ－グラムが使用されてもよい。いくつかの実施形態において、ｎ－グラムはｂｉ－グラム（即ち、ｎ＝２）を含んでいてもよい。いくつかの実施形態において、ｎ－グラムは、ユニグラム（１－グラム）、ｂｉ－グラム（２－グラム）、ｔｒｉ－グラム（３－グラム）、４－グラム、５－グラム、６－グラム、７－グラム、８－グラム、９－グラム、１０－グラム、１１－グラム、１２－グラム、２０－グラム、５０－グラム、１００－グラム、２００－グラム、５００－グラム、及び／又は、これら値のいずれか２つの間の任意の値を含んでいてもよい。いくつかの実施形態において、ｎの長さを決定する際に、生成される特徴の数と、サンプルの数との間にトレードオフが発生することがある。いくつかの実施形態において、複数の長さのｎ－グラムを使用してもよい。例えば、予想モデルの特徴として、ｂｉ－グラムとｔｒｉ－グラムとを別々に使用してもよく、組み合わせて使用してもよい。いくつかの実施形態において、予想モデルの特徴として、全ての可能な長さのｎ－グラムを別々に使用してもよく、組み合わせて使用してもよい。いくつかの実施形態において、異なる長さのｎ－グラムを抽出するには、各長さについて別々に特徴を抽出する必要があることもある。抽出プロセスは、図２Ｂを参照して以下に説明される。

いくつかの実施形態において、ｎ－グラム特徴を使用する際に、各カウンタはデータ長によって正規化される。いくつかの実施形態において、これらのカウンタを予測機械学習モデルの特徴として使用することができ、これを使用して、ＰＥファイル内のこれらの領域の１つにおけるバイトストリームが実行可能コードである可能性が高いか否かを判定することができる。

いくつかの実施形態において、このような機械学習モデルにｂｉ－グラムを特徴として使用することにより、データサイズに対して不変でありながら、非常に高い精度率を達成することができる。いくつかの実施形態において、従来のマルウェア検出及び解析において特徴抽出の一部としてコード検出プロセスが使用されてもよい。そのような実施形態の一部において、ここに記載されるシステム及び方法は、ファイル内の種々の場所において、実行可能なコードが含まれ得る確率を推測し、当該確率をマルウェア検出用モデルの構築に使用してもよい。例えば、コードセクションを入力として利用し、コードセクションの種々の特徴（インポートやファイル内の文字列、及びエントロピー等）をチェックするメインのマルウェア検出モデルを利用してもよい。いくつかの実施形態において、ランダムフォレストからの確率は、メインのマルウェア検出モデルの３つ以上の特徴として機能することができる。さらに、いくつかの実施形態において、予測された実行可能コードは、従来のマルウェア検出及び解析プログラムによるさらなる評価のために、フラグを立ててもよい。

バイトストリームの前処理

図２Ａは、機械コードの例示的断片２０２を示す図である。より具体的には、図２Ａは、バイト２０４の例示的なｂｉ－グラム（「Ｂ８２２」）が強調されたｘ８６機械コードの断片を示している。いくつかの実施形態において、ストリーム内の次のｂｉ－グラムは「２２１１」であり、この後に「１１００」が続き以下同様である。なお、実行可能なコードは、いずれのコンピューティングアーキテクチャ（例：ｘ８６、ＡＭＤ６４、.NET、ＡＲＭ、等）に関連付けられていてもよい。いくつかの実施形態において、実行可能なコードは一般的に、ｘ８６、ＡＭＤ６４、及び.NETの３つのアーキテクチャの１つを含んでいる。いくつかの実施形態において、ここに記載される機械学習モデルは、これらのアーキテクチャのそれぞれについて実行可能なコードを検出するために訓練されてもよく、各タイプについて異なるｎ－グラムが選択されてもよく、ファイルがどのアーキテクチャに基づいているかに応じて使用できる３つの別個のモデルとして実装することができる。

バイトストリームからのｎ－グラム抽出には、予測機械学習モデルへの入力として特徴を提供するプロセスが含まれる。ｎ－グラムは、本質的に繰り返されるテキストの一連の単語として機能してもよい。比較のために、図２Ｂには、単語の文字列を利用して特徴を生成するプロセスが示されている。図示の例では、３つの単語文字列２０６が示されており、これをファイル内のバイト文字列と比較することができる。いくつかの実施形態において、前処理には、バイト文字列を分析して、ｎ－グラム２０８のコーパスを生成することが含まれていてもよく、バイト文字列内に長さｎの最も一般的なバイト列が所定数を含まれていてもよい。図示された比較例では、関連する単語の文字列２０６内に存在する１３個のｂｉ－グラムを含む、ｂｉ－グラムのコーパス２０８が生成されている。いくつかの実施形態において、ｎ－グラム特徴２１０は、バイト文字列を順に移動し、ｎ－グラムコーパス２０８の各ｎ－グラムのインスタンスが各バイト文字列にいくつ存在するかをカウントすることによって、ｎ－グラムコーパス２０８から作成することができる。例示的な比較例では、特徴２１０が生成されており、各特徴は１３個のカウンタを含んでおり、各カウンタは各単語ストリーム２０６における、コーパス２０８の０～１３の番号が振られたｎ－グラムの数に対応している。なお、同一のバイトストリーム内に同一のｎ－グラムが複数あることがあるので、各カウンタは１を超えてもよい。したがって、一以上のバイトストリームが実行可能コードを含んでいるか否かを判定する予測モデルへの入力に対して、一以上のｎ－グラム特徴が生成されてもよい。

いくつかの実施形態において、ｎ－グラムの利用は、データの静的構造をキャプチャすることが可能となり、バイトストリームが実行可能コードであるか否かを判定するために必要となる情報を予測モデルに提供できるので、重要となり得る。

予測モデル

いくつかの実施形態において、任意の適切な機械学習アルゴリズム、又はその組み合わせを使用して、予測機械学習モデルを構築することができる。このような機械学習アルゴリズムの例としては、サポートベクターマシン（ＳＶＭ）、線形回帰、ｋ－近傍法（ＫＮＮ）アルゴリズム、ロジスティック回帰、ナイーブベイズ（naive Bayes）、線形判別分析、決定木、ニューラルネットワーク、類性学習等が挙げられる。いくつかの実施形態において、予測機械学習モデルの構築に使用される機械学習アルゴリズムは、分類（例：コードを実行可能なコードか非実行可能コードに分類）を行うことができてもよく、任意の分類子が選択されてもよい。いくつかの実施形態において、またここで例示目的で図面に開示されるように、機械学習アルゴリズムとしてランダムフォレストアルゴリズムが使用されてもよい。

ランダムフォレストは、複数の決定木を利用する機械学習を使用するアンサンブル法が含まれていてもよい。いくつかの実施形態において、決定木は複雑なデータセットを適合させ、分類タスクと回帰タスクの両方を行うことができる機械学習アルゴリズムを含んでいてもよい。各マシンアーキテクチャ（例：ｘ８６、ＡＭＤ６４、.NET等）ごとに、当該アーキテクチャ内の多数のコードセクションを収集して入力データとして使用してもよい。コードセクションには、実行可能コードが含まれているものもあり、どのセクションに実行可能コードが含まれているかがわかっている場合もある。このようにして、モデルはバイトストリームがコードを含んでいる確率をどのように判定するかを理解する。

ランダムフォレストは、これらの決定木のアンサンブルを含んでいてもよく、各決定木は、同一データのノイズの多いバージョンに対して独立的に教育される。ノイズは、例えば、カラム・サブサンプリング又はデータリサンプリングの形態であってもよい。推論中、決定木による決定は、最大投票又は平均化によって結合されてもよい。

図３には、本開示のいくつかの実施形態による、ｎ－グラム特徴を入力データとするランダムフォレストモデルを使った結果の例を示す図である。上述したように、ファイル（例えば、ＰＥ１００）の各セクション（例：データディレクトリ１１２、及びセクション１１６）からのコードは、例えば、ｂｉ－グラムに分割されてもよく、５００個の最も高頻度のｂｉ－グラムを、これらｂｉ－グラムのそれぞれがコードセクションを通して出現した回数のカウントと共に決定してもよい。これら５００個の最も高頻度のｂｉ－グラムは、データ長で正規化され、線３０２及び３０４で示されるように予測機械学習モデルへの入力特徴として使用されてもよい。いくつかの実施形態において、システム又はその機械学習アルゴリズムは、アーキテクチャのそれぞれに対して、３つのランダムフォレスト３０６、３０８、３１０を含んでいてもよく、各ランダムフォレストは、例えば、５００個の特徴を含んでいてもよい。特徴の生成には、データ（例：Ｏ（ｎ））を一回横断（トラバース）する必要があり、モデルによって複数回横断することによって完了することもある。

いくつかの実施形態において、各アーキテクチャについて一旦ランダムフォレストが生成されると、あらゆる入力に対して、その入力に関連するアーキテクチャを判断することなく、３つのモデル３０６、３０８、３１０が同時に実行さることがある。いくつかの実施形態において、ここに記載される機械学習モデルを活用したマルウェア検出モデルに大幅な遅延、又は効率に影響はない。これは、いくつかの実施形態において、各ランダムフォレストモデルの実行が、例えば、Ｏ（ｌｏｇ（ｎ））の演算を取るためであり、無視できるものである。これは図３で見ることができる。図３は、これら３つの別々のランダムフォレストモデル３０６、３０８、３１０のセットが二回実行された様子を示しており、一回目はＰＥファイル１００のデータディレクトリ１１２からのバイトに対して実行され（矢印３０２）、次にＰＥファイル１００のセクション本体１１６からのバイトに対して実行されている（矢印３０４）。矢印３０２の場合、ランダムフォレストモデルによって予測されるアーキテクチャのコード確率は、ｘ８６：Ｐ１、ｘ６４：Ｐ２、及び.NET：Ｐ３である。確率Ｐ１、Ｐ２、及びＰ３は、データディレクトリ１１２からのバイトがそれぞれ実行可能なｘ８６、ｘ６４、又は.NETのコードである可能性を示唆している。矢印３０４の場合、ランダムフォレストモデルによって予測されるアーキテクチャのコード確率は、ｘ８６：Ｐ４、ｘ６４：Ｐ５、及び.NET：Ｐ６である。確率Ｐ４、Ｐ５、及び６３は、セクション１１６からのバイトがそれぞれ実行可能なｘ８６、ｘ６４、又は.NETのコードである可能性を示唆している。

いくつかの実施形態において、ランダムフォレストモデルは、ファイルの様々な領域のバイトが実行可能コードかどうかを判断するのに有用だが、バイトが実行可能コードである場合、当該実行可能コードがマルウェアペイロードに関連するかどうかについては疑問が残る。換言すると、いくつかの実施形態において、一旦コードが検出されると、当該コードは、さらなるマルウェア検出及び分析のためにフラグが立てられてもよい。しかしながら、検出の観点から、経験上の結果では、ここに記載のコード検出機械学習モデルのいくつかは、マルウェア検出を全体的に少なくとも０．３％、テストデータセット内のＰＥファイルに対して９７．７％を９８．０％まで押し上げた。また、ここに記載されるようなコード検出機械学習モデルを用いることによるマルウェア検出の増加は、ここに記載するように非従来的な場所に実行可能コードを隠すマルウェアでより高くすることができる。

図４Ａは、ここに記載するいくつかの実施形態による、個別の決定木構造の例示的なフローチャートである。ランダムフォレストの各決定木は個々に、分岐構造を含むことができ、各分岐は、特定のｎ－グラムがバイトストリーム内に存在するか否か、又は特定のｎ－グラムカウンタが特定の値より大きいか、小さいか、又は等しいか否かを判定することによって導かれる。例えば、ノード４０２には、「Ｘ」ｎ－グラムがコードセクション内に存在するか否かのチェックが含まれていてもよい。もし含まれていない場合は、決定木４００はノード４０４に進み、「Ｙ」ｎ－グラムがコードセクション内に存在するか否かをチェックする。いくつかの実施形態において、決定木は、実行可能コードがコードセクション内に存在するか否かの確率決定に達する前に、任意の数の類似するノードを含んでいてもよい。しかしながら、いくつかの実施形態において、ブートストラップ集約又はバギングのために、より浅い（すなわち、ノードがより少ない）ツリーが好ましいことがある。バギングとは、分散を減少させ、訓練データの過剰適合を回避することによって、モデルの安定性及び精度を改善する機械学習方法とすることができる。本質的に、訓練データの異なる側面を学習する数多くの弱い学習器（例：より浅いツリー）の結果を平均化して、少数の強い学習器（例：より多くのノードを有する、より深いツリー）を利用する場合に比べてより精度が高くより安定したモデルを作成することができる。実際に、より多くのノードを有する、より深いツリーを利用すると訓練データの過剰適合になることがある。過剰適合は、モデルが訓練データの詳細やノイズを、当該モデルの新規データに対する性能に悪影響を及ぼす程度まで学習することによって起こる。ここで述べる場合に当てはめると、過剰適合は、予測モデルが、コードセクション内のノイズやランダムな変動を、実際には、このようなランダム性が訓練セット以外の新規のコードセクションには当てはまらない場合でも、実行可能コードの必要な特徴として取り扱うようになる。過剰適合は、予測モデルの一般化能力に悪影響を及ぼしかねない。したがって、いくつかの実施形態において、この過剰適合の問題を回避するために、ツリーあたりのノード数は３０以下であってもよい。

再度図４Ａａを参照すると、図示された実施形態には、２つのノードが含まれている。図示される実施形態において、コードセクションに「Ｙ」ｎ－グラムが存在していなければ、決定木４００は、４０８において確率Ｐ１を出力してもよく、コードセクションに「Ｙ」ｎ－グラムが存在する場合、４１０において異なる確率Ｐ２を出力してもよい。或いは、ノード４０２において「Ｘ」ｎ－グラムが存在すると判定した場合、決定木は先に進み、ノード４０６で「Ｚ」ｎ－グラムが存在するか否かをチェックしてもよい。ノード４０６における、コードセクションに「Ｚ」ｎ－グラムが存在するか否かの判定に応じて、４１２（「Ｚ」ｎ－グラムが存在しない場合）で確率Ｐ３が出力されてもよく、或いは４１４（「Ｚ」ｎ－グラムが存在する場合）で確率Ｐ４が出力されても良い。

図４Ｂは、ここに記載するいくつかの実施形態による、ランダムフォレスト構造の例示的なフローチャートである。簡略化のために、図示された実施形態において、ランダムフォレスト構造は、３つの決定木を含むものとして示されている。当業者であれば、ランダムフォレストが任意の数の決定木を含んでいても良いことが理解できるであろう。例えば決定木の数は、２本のツリー、３本のツリー、４本のツリー、５本のツリー、１０本のツリー、２５本のツリー、５０本のツリー、１００本のツリー、２００本のツリー、５００本のツリー、１０００本のツリー、２５００本のツリー、５０００本のツリー、１万本のツリー、１０万本のツリー、１００万本のツリー、又はこれらの数の間の任意の数のツリーを含んでいても良い。図示の実施形態では、ランダムフォレストは、第１決定木４００Ａ、第２決定木４００Ｂ、及び第３決定木４００Ｃを含んでいる。図４Ａに関して説明したように、第１決定木４００Ａは、第１決定木の確率値４１６Ａを出力してもよく、第２決定木４００Ｂは、第２決定木の確率値４１６Ｂを出力してもよく、第３決定木４００Ｃは、第３決定木の確率値４１６Ｃを出力してもよい。各決定木の確率値は、入力されたコードセクションが実行可能コードを含む確率を表している。いくつかの実施形態において、確率値は、値変換４１８の間に変換され、平均化され、及び／又は他の方法で操作される。いくつかの実施形態において、値変換４１８は、確率値４１６Ａ、４１６Ｂ、及び４１６Ｃの単純平均化を含んでいてもよい。いくつかの実施形態において、値変換４１８の間、一以上の決定木からの確率値は、他の一以上の決定木からの確率値よりも重く重み付けされてもよい。いくつかの実施形態において、勾配ブースト決定木モデルを利用してもよい。いくつかの実施形態において、値変換４１８の結果は、ランダムフォレストモデル値４２０であり、入力されたコードが、決定木及びランダムフォレストが対象とするアーキテクチャにおける実行可能コードであるという判定の確率を表している。

モデルの訓練とテスト

いくつかの実施形態において、決定木は、貪欲的に訓練されてもよく、すなわち、「最良」データを分割する訓練セット内の変数値の対は、各反復で選択され得る。分離基準は、例えば、とりわけ情報利得及びＧＩＮＩを含む実装間で変化してもよい。予測モデルの訓練中に、ファイルの異なるセクションを含み得る様々なバイトストリームにタグを付けてもよい。セクションには実行可能コードを含むものがあり、他のセクションが実行可能コードを含まず、むしろ有効なコードではない生データを含むことをモデルに教育するようにセクションにタグ付けすることができる。いくつかの実施形態において、例えば上述のｎ－グラム特徴抽出方法によって、これら複数のコードセクションをモデルに入力することができる。既知のコード及び非コードセクションが使用されるこの訓練プロセスを通じて、機械学習モデルは、バイトストリームが実行可能コードを含むか否かを示すバイトストリーム内の特定のパターンを学習することができる。

図５は、ここに記載するいくつかの実施形態による、コード検出モデルを教育及びテストするための例示的なフローチャートである。いくつかの実施形態において、予測モデルを訓練するためのコードサンプルを複数含むサンプルデータベース５０２が設けられている。別々のアーキテクチャ（例えば、ｘ８６、ｘ６４、.NET）に対する各予測モデルに対して、異なるサンプルデータベース５０２を使用してもよい。サンプルデータベース５０２の複数のコードサンプルには、複数の非実行可能コードサンプルと複数の実行可能コードサンプルが含まれていることが好ましい。いくつかの実施形態において、サンプルデータベース５０２からの複数のコードサンプルは、実行可能コードセクション５０２と非実行可能コードセクション５０６とに分割される。いくつかの実施形態において、コードセクション５０４及び非コードセクション５０６は、コード訓練サンプル５０８及びコードテストサンプル５１０にさらに分割され、一方、非コードセクション５０６は、非コード訓練サンプル５１２及び非コードテストサンプル５１４に分割される。いくつかの実施形態において、コード訓練サンプル５０８と非コード訓練サンプル５１２は、その後組み合わせられて訓練セット５１６とされ、上述したように予測モデルの訓練に使用することができる。いくつかの実施形態において、予測モデルが、コード検出メカニズムとして個別に又は組み合わせて利用（例：ランダムフォレスト）できる一連の決定木を生成できるように、モデルに、訓練セット５１６内のどのサンプルが実行可能コードで、どのサンプルが実行可能コードでないかについて指示が与えられる。いくつかの実施形態において、テストセット５１８を使用して、予測モデルの精度をテストすることができる。テストの結果に応じて、サンプルデータベース５０２から異なる及び／又は追加のサンプルを使用して予測モデルをさらに訓練してもよい。

いくつかの実施形態において、サンプルデータベースは、セクション１１６がファイルの情報のほとんどを含んでいるため、当該セクションのコードを用いて構築されていてもよい。上述したように、ファイルは異なるセクション１１６から構築することができる。各セクションは、許可を有しているため、許可情報が把握されている複数の良性ファイルを使用して訓練セット５１６を構築することができる。前述したように、セクションが実行可能コードであるか否かを判断することは困難である。したがって、様々なソースからの異なるセクション１１６を用いて、訓練セット５１６及びテストセット５１８を構築し、それぞれを実行して、どのセクションが実行可能コードを含んでいるか判定するには非常に問題がある。実際、この方法によって訓練セット５１６及びテストセット５１８を構築するには並外れた量の時間と労力が必要となる。代わりに、ここに記載されるいくつかの実施形態において、Ｍｉｃｒｏｓｏｆｔのファイルや、既知の信頼できるベンダーのファイル等の良性ファイルが使用されてもよい。さらに、いくつかの実施形態において、各ファイルは、コードを含んでいる可能性があり実行許可のあるセクションと、コードを含んでいる可能性がなく、実行許可を持たないセクションとに分割される。いくつかの実施形態において、このように準備されたセクションを使ってサンプルデータベース５０２を構築してもよい。

自動特徴抽出（ＡＦＥ）

ここに開示されるいくつかの実施形態は全体的に、マルウェア検出で使用するための、コードから自動的に特徴を抽出するシステム及び方法に関する。効率的でスケーラブルなマルウェア認識モジュールは、サイバーセキュリティ製品の重要なコンポーネントとなり得る。

いくつかの実施形態において、自動特徴抽出システム又は方法はコード－数値特徴変換と、これに続く自動特徴抽出用のニューラルネットワークが含まれていてもよい。いくつかの実施形態において、コード－数値変換には、ルックアップテーブルが含まれており、これにより小さなコードユニット（例：バイト、単語、ダブルワード）を数値ベクトルに置き換えてもよい。いくつかの実施形態において、バイトコードにWord2vecを使用してニューラルネットワークへの入力生成している。しかしながら、ルックアップテーブルは種々の異なるメカニズムを通して作成されてもよいことが理解できるであろう。いくつかの実施形態において、ニューラルネットワークは、再帰型ニューラルネットワーク（ＲＮＮ）を含んでいてもよい。他の実施形態において、システム及び方法は、コード－数値変換によって生成された数値チャネルをフィルタリングするフィルタリングメカニズムと、これに続く畳み込みニューラルネットワークを含んでいてもよい。

導入

マルウェア検出モジュールは、収集したデータに基づいて、オブジェクトが脅威であるかどうかを判断する。静的マルウェア検出方法の殆どは、ファイルから高度にエンジニアリングされた特徴を抽出し、それを使用して機械学習（ＭＬ）モデルを訓練する。しかしながら、実行可能なコードから有用な特徴を抽出するためのシステム及び方法は不十分である。このため、これらのソリューションで使用される特徴のほとんどは、実際のコードではなくファイルのメタデータに関連している。いくつかの事例において、マルウェアにはメタデータに、無効なチェックサム、不審なＡＰＩのインポート、高いエントロピー等の悪意のあるインジケータとパターンを含むものもあり、このアプローチが有効な場合もある。ファイルのメタデータを編集してこれらのパターンを偽装することはできるが、コードには実行可能ファイルの実際のロジックが含まれているため、実行可能コードには常に悪意のあるパターンが存在する。このため、人のマルウェア研究者はコードの検査に従事し、一般的に人の研究者はメタデータではなく、実行可能コードにより多くの注意を払う。しかし、欠点としては、人による検査は一般的に遅く、費用がかかり、非常に非効率的なことである。したがって、実行可能コードの特徴を機械学習モデルに伝播させるための、効率的なプログラム的システム及び方法によって検出ソリューションが大幅に改善される。

いくつかの実施形態において、コードからマニュアルで特徴を抽出するのは困難で非効率的であるため、ここに記載されるシステム及び方法でニューラルネットワークやディープラーニング（ＤＬ）（深層構造学習又は階層学習としても知られる）を用いて自動的に特徴を抽出する。いくつかの実施形態において、ＤＬ法、生データからマニュアルで特徴を抽出する必要なく、生データを用いて優れた結果を得ることができる。これは、ディープモデルが自然言語処理（ＮＬＰ）と視覚（Ｖｉｓｉｏｎ）の分野に革命をもたらした理由の一部であり、これら分野のデータから特徴を抽出することは容易ではない。いくつかの実施形態において、ＤＬは、学習データの表現に基づく特定のタイプのＭＬ方法を含んでいる。ここに記載される実施形態では、実行可能コードから、ＭＬモデルを使用する自動特徴抽出に関する。いくつかの実施形態において、ＭＬモデルは、ＤＬモデルを含んでいる。いくつかの実施形態において、ＤＬモデルは、ニューラルネットワークを含んでいる。いくつかの実施形態において、ＤＬモデルは、深層ニューラルネットワーク、深層信念ネットワーク、再帰型ニューラルネットワーク、及び／又は当業者に公知のあらゆる他のＭＬ及び／又はＤＬモデル構造を含んでいてもよい。

いくつかの実施形態において、ＤＬモデルは、複数層の、特徴抽出及びデータ変換用線形又は非線形処理部を含んでいる。いくつかの実施形態において、ＤＬモデルの連続する各層は、前の層からの出力を入力として使用する。いくつかの実施形態において、ＤＬモデルは、教師あり、半教師あり、及び／又は教師なし学習モデルであってもよい。いくつかの実施形態において、ＤＬモデルは、入力から出力への一連の変換を含むクレジット割り当てパス（ＣＡＰ）を含んでいる。いくつかの実施形態において、ＤＬモデルは、ＣＡＰ深度が２、３、４、５、６、７、８、９、１０、２０、３０、４０、５０、１００、２００、３００、４００、５００、６００、７００、８００、９００、１０００、２０００、及び／又は、これら値の間のいずれかの値であるフィードフォワードニューラルネットワークを含んでいる。いくつかの実施形態において、ＤＬは再帰型ニューラルネットワークを含んでいる。

いくつかの実施形態において、ここに記載されるシステム及び方法は、マルウェア予測用に、実行可能コードから直接ニューラルネットワークを訓練する。いくつかの実施形態において、ファイル（例：ポータブル実行可能ファイル）は、訓練済みニューラルネットワークによって処理することができ、ニューラルネットワークは、より広範なマルウェア検出モデルの「特徴生成器」として使用することができる。いくつかの実施形態において、ニューラルネットワーク（又はいずれかの他のＭＬ及び／又はＤＬモデル）を、実行可能コードからの自動特徴抽出器として使用することができる。いくつかの実施形態において、ＭＬ、及び／又はＤＬモデル（例：ニューラルネットワーク）から抽出された特徴を使用することによって、マルウェア検出モデルの結果が大幅に改善される。

いくつかの実施形態において、一般的に、ニューラルネットワークは、数層から構成されるＭＬモデルである。いくつかの実施形態において、各層は、データに対して変換を行い、その結果を次の層に送信する。一般的に、ニューラルネットワークの最終層は、ニューラルネットワークの最後から２番目の層からの最終データ変換を使用して、データのラベル又は分類を予測する（例：このコードはマルウェア又は良性コードである）。しかしながら、いくつかの実施形態において、ここに記載されるシステム及び方法は、最後から二番目のデータ（即ち、最終ラベルや分類が生成される最終層の直前で変換されたデータ）をマルウェア検出モデルの特徴として使用する。いくつかの実施形態において、ニューラルネットワークでは、単一の変換から最後から二番目のデータ形式への最終的な予測を行うため、この形式にはコードの悪意に関する非常に強力な情報が含まれている。いくつかの実施形態において、ここに記載されるシステム及び方法は、メインのマルウェア検出モデルで特徴として利用するデータ（即ち、ニューラルネットワークのいずれかの層への入力又は、当該層からの出力）に対してあらゆる変換を行うことができる。

いくつかの実施形態において、生コードに対して、ニューラルネットワークを訓練及び使用することは容易ではない。いくつかの実施形態において、深層モデルは、固定サイズの入力を想定しているが、コードのサイズは大幅に変化する（１ＫＢから１００ＭＢ、及びこれらの数値間のいずれかの値）。さらに、いくつかの実施形態において、入力データを固定最大サイズまで拡張するのは実行不可能である。したがって、いくつかの実施形態において、バイトコードを１次元「画像」に処理し固定目標サイズまでスケーリングする、画像スケーリングアルゴリズムが使用されている。いくつかの実施形態において、ここに記載するシステム、方法、及びデバイスは、コードを１次元画像として処理する。いくつかの実施形態において、コードは、例えば画像再スケーリング手法（例：補間法）を用いて固定サイズに再スケーリングされる。いくつかの実施形態において、画像スケーリングアルゴリズムは、一種のデータ圧縮を含んでいてもよい。しかし、画像スケーリングアルゴリズムの使用によって、データ内に存在する空間パターンの歪みが制限できる。マルウェアのバイナリファイルを分類前に二次元画像に変換する手法と比較して、この手法は、画像の幅及び高さを判断する必要がないためより簡単である。いくつかの実施形態において、バイトストリームへの変換は、バイナリコードを元々のファイルの順序で維持でき、データのこのような一連の表現によって当該データにニューラルネットワークアーキテクチャを自然に適用できる。いくつかの実施形態において、各バイトストリームは所定のサイズまでスケーリングされる。いくつかの実施形態において、スケーリングされたコードは１バイト値のシーケンスに対応する。

一般的に、特定の方法では、バイナリファイルから特徴を抽出することなく、当該ファイルから直接マルウェアの分類が試みられている。しかし、いくつかの実施形態では、ＭＬ及び／又はＤＬモデルを訓練し、生データからマルウェアの分類に使用できるが、代わりに、様々な追加入力を含む別のマルウェア検出モデル用に特徴を自動的に抽出する方法として使用することもできる。したがって、いくつかの実施形態において、ニューラルネットワークの入力は、ファイル全体ではなくコードのみが入力となる点で従来のモデルと異なっている。さらに、いくつかの実施形態において、ニューラルネットワークの使用は、ファイルを検査し、ファイルをマルウェアとして分類するために使用される従来のモデルとは異なっている。いくつかの実施形態において、特徴抽出に代えて、ここに記載のニューラルネットワークが使用されている。いくつかの実施形態において、従来のモデルと異なり、以下に記載するようにデータ圧縮の前に埋込が完了している。さらに、入力の差によって、ここに記載するニューラルネットワークは、従来のモデルとは異なるニューラルネットワークアーキテクチャを使用する。

いくつかの実施形態において、線形補間は、類似するバイト値が類似の意味論的意味を有するという事実を使用する。例えば、これは画像について理にかなっている。つまり値２３０のピクセルと値２２８のピクセルは、色が非常に似ている。しかし、いくつかの実施形態において、実行可能コードにこれが当てはまらない。つまり、近似する２つのバイト値が、全く異なるオペレーションコードを表すことがある。したがって、いくつかの実施形態において、実行可能コードのセクションでさらに別のモデル（例：Word2Vec）を訓練することで、データを再スケーリングする前に、埋め込みテーブルが利用される。いくつかの実施形態において、別のモデルは、データを、ニューラルネットワークが理解できる数値形式に変換する。いくつかの実施形態において、データ内の各バイトは、学習済み埋め込みテーブルを使用して固定サイズのベクトルに変換することができ、この新次元内のベクトルは、線形補間に必要な特性を維持する。ユークリッド類似性は、意味論的類似性を示している。

図６は、ここに記載する種々の実施形態による、ニューラルネットワークを使用した特徴抽出方法の例を示すフローチャートである。要約すると、以下には、いくつかの実施形態による自動特徴抽出システム及び方法を訓練及び使用するための方法が含まれている。いくつかの実施形態において、本方法は、６０２において生の入力コードを提供することが含まれていてもよい。いくつかの実施形態では、６０４において入力コードに前処理ニューラルネットワーク（例：Word2Vec）を使用して、サイズＮの埋め込みテーブルが生成される。いくつかの実施形態において、Ｎは任意の整数であってよい。いくつかの実施形態において、Ｎは４である。いくつかの実施形態において、Ｎは、２、３、４、５、６、７、８、９、１０、１５、２０、２５、５０、１００、１０００、５０００、１００００、５００００、及び／又はこれらの値の間の任意の値であってもよい。いくつかの実施形態において、本方法は、学習済み埋め込みテーブルを使用して各バイトを埋め込むことにより、サイズＸの所与の入力コードのストリームを前処理するステップを含んでいてもよい。いくつかの実施形態において、前処理の結果は、サイズ（Ｘ、Ｎ）の二次元マトリクス内のデータである。いくつかの実施形態において、本方法は、例えば、最近傍、線形、スプライン又はその他の補間法又はダウンサンプリングを使用して、マトリックスを固定サイズ６０６にサイズ変更することを含んでいる。いくつかの実施形態において、本方法は、線形補間を使用して、マトリクスを固定サイズにサイズ変更することを含んでいる。いくつかの実施形態において、固定サイズは（５０００、４）であってもよい。しかし、固定サイズについては制限はなく、整数Ｘ、及びＮの任意の組み合わせを含むことができる。いくつかの実施形態において、ダウンサンプリングは、チャネルフィルタリングを使用して完了する。いくつかの実施形態において、本方法はさらに、６０８において前処理済みデータをニューラルネットワークの入力として、マルウェア予測用のニューラルネットワーク（又は他のＭＬ及び／又はＤＬモデル）を訓練することをさらに含んでいる。いくつかの実施形態において、本方法は、推論をさらに含んでおり、ニューラルネットワークは、モデルに与えられた新しいデータを処理する。いくつかの実施形態において、本方法はさらに、６０８において推論中に、新しいデータを前処理し、前処理済みの新しいデータをニューラルネットワークを介して実行することをさらに含んでいる。いくつかの実施形態において、本方法はさらに、６１０において、最後から２番目の層（即ち、ニューラルネットワークの最後の層への入力）から出力データを抽出し、マルウェア検出モデルのための特徴として使用することを含んでいる。いくつかの実施形態において、ニューラルネットワークの実際の結果又は予測（即ち、ニューラルネットワークの最後の層の出力）は破棄される。いくつかの実施形態において、最後から２番目の層からの出力データは、コードを表す追加の特徴ベクトルとして使用されてもよく、他のマニュアルで、或いは、自動的に抽出された特徴と連結、及び／又は結合されてもよい。いくつかの実施形態において、出力データは、マルウェア検出機械学習モデルへの入力として使用してもよく、ニューラルネットワークを訓練するために使用することができる。

ニューラルネットワークアーキテクチャ

いくつかの実施形態において、ニューラルネットワークは、一次元畳み込みの固定された数の層を含むネットワークを使用して構築され、各畳み込みの後にバッチ正規化及び整流線形ユニット（ＲｅＬＵ）が行われてもよい。ＲｅＬＵは、畳み込みニューラルネットワーク（ＣＮＮ）等のニューラルネットワークにおける活性化関数を意味することができる。いくつかの実施形態において、一次元畳み込みの層の固定数は、３であってもよい。いくつかの実施形態において、一次元畳み込みの層の固定量は、１、２、３、４、５、６、７、８、９、１０、２０、３０、４０、５０、１００、２００、３００、４００、５００、６００、７００、８００、９００、１０００、２０００、及び／又はこれら量の間のいずれかの量であってもよい。

いくつかの実施形態において、各畳み込みは、カーネルサイズ、ストライド、及び／又はフィルタを有している。いくつかの実施形態において、ストライドは、フィルタが入力データをどのように畳込むかを制御する。いくつかの実施形態において、カーネルサイズは７であってもよい。いくつかの実施形態において、カーネルサイズは、１、２、３、４、５、６、７、８、９、１０、２０、３０、４０、５０、１００、２００、３００、４００、５００、６００、７００、８００、９００、１０００、又は、２０００、及び／又は、これらいずれかの値の間のいずれかの量であってもよい。いくつかの実施形態において、ストライドは１であってもよい。いくつかの実施形態において、ストライドは、１、２、３、４、５、６、７、８、９、１０、２０、３０、４０、５０、１００、２００、３００、４００、５００、６００、７００、８００、９００、１０００、又は、２０００、及び／又はこれらいずれかの値の間のいずれかの量であってもよい。いくつかの実施形態において、各畳み込みは、３つのフィルタを含んでいる。いくつかの実施形態において、各畳み込みは、１個、２個、３個、４個、５個、６個、７個、８個、９個、１０個、２０個、３０個、４０個、５０個、１００個、２００個、３００個、４００個、５００個、６００個、７００個、８００個、９００個、１０００個、又は、２０００個、及び／又はこれらいずれかの数の間のいずれかの個数のフィルタを含んでいる。いくつかの実施形態において、フィルタは、例えば、３０、５０、及び／又は９０のサイズを含んでいてもよい。

いくつかの実施形態において、畳み込み層の後に、データは、一以上の完全に接続された層を通過する。いくつかの実施形態において、モデルは、２つの完全に接続された層を含んでいてもよい。いくつかの実施形態において、モデルは、１、２、３、４、５、６、７、８、９、１０、２０、３０、４０、５０、１００、２００、３００、４００、５００、６００、７００、８００、９００、１０００、又は、２０００、及び／又はこれらの数の間のいずれかの数の完全に接続された層を含んでいてもよい。いくつかの実施形態において、モデルは、それぞれ８１０個、及び２５６個のユニットを有する２つの完全に接続された層を含んでいてもよい。いくつかの実施形態において、各完全に接続された層は、１個、２個、３個、４個、５個、６個、７個、８個、９個、１０個、２０個、３０個、４０個、５０個、１００個、２００個、３００個、４００個、５００個、６００個、７００個、８００個、９００個、１０００個、２０００個、３０００個、４０００個、５０００個、１００００個、又は、２５０００個、及び／又はこれらの数の間のいずれかの個数のユニットを含んでいてもよい。

いくつかの実施形態において、余分な埋め込み次元は、複数の入力チャネルとして扱うことができる。いくつかの実施形態において、余分な埋め込み次元は、４つの入力チャネルとして扱うことができる。いくつかの実施形態において、余分な埋め込み次元は、１、２、３、４、５、６、７、８、９、１０、２０、３０、４０、５０、１００、２００、３００、４００、５００、６００、７００、８００、９００、１０００、又は、２０００、及び／又は、これらいずれかの値の間のいずれかの数の入力チャネルを含んでいてもよい。

過剰適合を回避するために、ネットワークはドロップアウトを使用して訓練されてもよい。ドロップアウトとは、特定のニューロンセットの訓練段階において、ランダムに選択され得るユニット（即ち、ニューロン）を無視することとすることができる。いくつかの実施形態において、これらの無視されたユニットは、特定の順方向又は逆方向パスで考慮されない。いくつかの実施形態では、各訓練段階において、個々のノードは、確率１－Ｐでネットワークからドロップアウトされるか、又は確率Ｐで維持され、削減されたネットワークが残り、ドロップアウトされたノードへの入力エッジ及び出力エッジも除去されてよい。いくつかの実施形態において、Ｐは約０．５である。いくつかの実施形態において、Ｐは、約０．０５、約０．１０、約０．１５、約０．２０、約０．２５、約０．３０、約０．３５、約０．４０、約０．４５、約０．５０、約０．５５、約０．６０、約０．６５、約０．７０、約０．７５、約０．８０、約０．８５、約０．９０、約０．９５、又は、約１．００、及び／又はこれらいずれかの値の間である。

図７は、ここに記載するいくつかの実施形態による、ニューラルネットワークを使用した特徴抽出方法の例を示す図である。いくつかの実施形態において、入力コードを埋め込み、及びダウンサンプリングした後、前処理済みのコードは、ニューラルネットワーク６０８の入力層７０２に与えられる。上述したように、いくつかの実施形態において、ニューラルネットワークは、複数層の、特徴抽出及びデータ変換用線形又は非線形処理部を含んでいる。いくつかの実施形態において、ニューラルネットワークの連続する各層は、前の層からの出力を入力として使用する。したがって、いくつかの実施形態において、入力層７０２は、前処理済み入力コードに対してデータ変換を行い、その出力を第一の隠し層７０４に送信する。隠し層とは、入力層７０２と出力層７０８との間に存在するニューラルネットワークの層ということができる。「隠し」という文言は、隠し層が外部システムには見えず、ニューラルネットワークのプライベートであることを意味する。一般的には、所与の隠し層の出力はいずれも利用されないが、これは、当該出力が変換済みデータを含んでおり、この変換済みデータが使用されて、全隠し層を横断した後、最終的に出力層７０８から出力される結果を生成するのに使用されるからである。いくつかの実施形態において、ニューラルネットワークは、０以上の隠し層を含んでいてもよい。図示の実施形態では、ニューラルネットワークは、第一の隠し層７０４から第Ｎの隠し層７０６まで番号を付与された、Ｎ個の隠し層を含んでいる。いくつかの実施形態において、第Ｎの隠し層７０６は、ニューラルネットワークの出力層７０８の直前である最後から２番目の層を含んでいる。一般的なニューラルネットワークでは、出力層７０８は、ニューラルネットワークの目的に基づく出力分類を提供してもよい。この場合、出力層７０８は、入力コードがマルウェアを含むか否かの分類を提供してもよい。しかしながら、ここに記載されるシステム及び方法のいくつかの実施形態において、出力層７０８の結果は無視される。代わりに、第Ｎの隠し層７０６で生成された最終的な変換済みデータを、ニューラルネットワーク６０８から抽出し、別のより広範なマルウェア検出モデル７１０への特徴として使用してもよい。マルウェア検出モデル７１０は、第Ｎの隠し層７０６から抽出された特徴、及び／又は他の様々なソースからの特徴を入力として、コードがマルウェアであるか否かの最終判定を行ってもよい。いくつかの実施形態において、ニューラルネットワークの最終的なデータ変換によって、特により広範なマルウェア検出モデル７１０内の示唆特徴と組み合わせて、コードがマルウェアであるか否かを強く示唆することができる。

チャネルフィルタリング

図８は、ここに記載するいくつかの実施形態による、例示的なチャネルフィルタリングメカニズムを示す図である。上述したように、いくつかの実施形態において、入力コード６０２には境界がない。いくつかの実施形態において、入力コード６０２は、非常に短いコード列であってもよく、非常に長いコード列であってもよい。しかしながら、ニューラルネットワーク６０８の入力層７０２には固定サイズの入力が入力されなければならない。いくつかの実施形態において、入力層７０２は、入力として、例えば、５０００個の埋め込みベクトルのサンプルをとってもよい。その場合、大きなコードセクションに対しては、いくつかの実施形態において、コードは、コードの５０００サンプルまで削減又はダウンサンプリングされなければならない。これは種々の異なる方法で行える。いくつかの実施形態において、サンプルは、コードからマニュアルで、又は自動的に選択されてもよい。別の実施形態において、コードは、ブロックに分割され、次いで、例えば、サンプルとして各ブロックの平均応答を取ることによって、集約されてもよい。

しかしながら、いくつかの実施形態において、ダウンサンプリングの前に、コードに埋め込みを行ってもよく、このことはコードを実数のベクトルにマッピングするためのモデリング技術ということができる。一以上の次元を持つベクトル空間においてコードを表すことができる。埋め込みは、ニューラルネットワーク、共起行列、又は確率モデル等の種々の方法を用いて生成することができる。例えば、Word2Vecは、単語の埋め込みを生成するモデルで構成されている。これらモデルは、１つの入力層、１つの隠し層、及び１つの出力層を有する浅い２層ニューラルネットワークであってもよい。いくつかの実施形態において、埋め込みは、同様のコンテキストに存在するコードが、生成されたベクトル空間において互いにより近くなりやすくなるように、コードを再フォーマットする。いくつかの実施形態において、埋め込みによって、四次元ベクトル空間が生じる。ニューラルネットワークは、数値を入力として用いて機能するので、埋め込みステップが必要となることがある。いくつかの実施形態において、ニューラルネットワークは、畳み込み、加算、適合、及び／又は数値変換から得られる入力数値を取る。いくつかの実施形態において、ニューラルネットワークは、入力として生コードを用いるようには構成されていない。いくつかの実施形態において、コードを、有意の数値に変換し、その後ダウンサンプリングしてニューラルネットワークに入力するには、埋め込みを活用しなければならない。

図８を参照すると、複数のチャネル８０２Ａ、８０２Ｂのそれぞれは、埋込ベクトル空間のベクトル層の１つを表すことができる。いくつかの実施形態において、各ベクトル層は非常に大きく、複数のブロック８０４Ａ、８０４Ｂにさらに統合されなければならない。いくつかの実施形態において、各チャネル８０２Ａ、８０２Ｂは、Ｎ個のブロックに統合されてもよい。チャネルがブロックに分けられると、フィルタ８０６を使用して、チャネル及びチャネル特定のブロックを表す応答値又はサンプルを生成してもよい。フィルタリングメカニズムの目的は、固定サイズのベクトル入力をニューラルネットワークに与えることである。いくつかの実施形態において、コードは、上述のように埋め込み層（例：Word2Vec）に入力され、インデックスによって表されるコード断片をベクトル表現にマップするための埋め込みテーブルを記憶してもよい。いくつかの実施形態において、埋め込みは、コードの表現を含んでいてもよく、類似するコード断片は類似する表現に割り当てられてもよい。言い換えると、埋め込みは、一以上の座標系におけるコードを表すことができ、関係のコーパスに基づいて関連するコード断片は、互いにより近接して配置される。

いくつかの実施形態において、埋め込まれたコードは、チャネルフィルタリングシステムに入力される。いくつかの実施形態において、チャネルフィルタリングシステムは、データのエイリアシングやアンダーサンプリングを回避するために、各チャネルのフィルタリング（例：平滑化）を実行してもよい。いくつかの実施形態において、フィルタ形状は、例えば、平滑化カーネル（例：ローパスフィルタ）、平均フィルタ（例：ボックスフィルタ）、又はガウスフィルタを含んでいてもよい。いくつかの実施形態において、フィルタ値の合計は１．０である。いくつかの実施形態において、フィルタは、各チャネルに対して一次元フィルタを含み、いくつかの又は全てのチャネルが同じフィルタ長を有している。いくつかの実施形態において、フィルタ長は、奇数を含むことができ、フィルタ長＝１＋２＊ｆｌｏｏｒ（Ｌ／Ｓ＊Ａｌｐｈａ）として計算することができ、０＜＝Ａｌｐｈａ＜＝Ａｌｐｈａ＿ｍａｘであり、Ｌはコード長であり、Ｓは最終サンプルサイズである。いくつかの実施形態において、Ａｌｐｈａ＿ｍａｘは１に等しくてもよい。いくつかの実施形態において、Ａｌｐｈａは０に等しくなるように選択されてもよく、これによりフィルタがデルタ関数と等価となる。

ニューラルネットワークに入力するための、応答値又は固定サイズのサンプルを生成するためのフィルタにはいくつかの形態がある。例えば、ブロック８０４Ａ、８０４Ｂをフィルタリングするための関数が図９，図１０、図１１に示されている。図９は、ここに記載するいくつかの実施形態による、フィルタリングシステムの挙動を示すボックス関数の例を示す図である。図示される例では、－ＲからＲまでの範囲の値がブロックから選択され、等しく重み付けされるが、範囲外の値は無視される。－ＲからＲまでの範囲は、図示の例ではブロック全体を表すものと考えられる。このように、この範囲の代表値を推定することにより、サンプルのサイズを小さくできる。図示の実施形態では、ボックス関数を使用することにより、処理されるブロックコードの平均埋め込み値が得られる。

図１０は、ここに記載するいくつかの実施形態による、フィルタリングシステムの挙動を示すガウス関数の例を示す図である。いくつかの実施形態において、ブロック８０４Ａ、８０４Ｂをフィルタリングするために、ガウスフィルタを用いてもよく、推定埋め込み値が、統計における期待関数のように、ブロック中心に近い値に応じて大きく影響されるように、フィルタリングされたサンプルに－ＲからＲの範囲の中央の値が含まれるようにフィルタリングしてもよい。

図１１は、ここに記載するいくつかの実施形態による、フィルタリングシステムの挙動を示すデルタ関数の例を示す図である。本明細書の実施形態において、デルタ関数フィルタリングメカニズムは、単に、ブロック８０４Ａ、８０４Ｂの中央値をフィルタリングされたサンプルとして選択するものであってもよい。

他にも多くのフィルタリングメカニズムがあり、当業者には周知である。ここに記載されるシステム及び方法では、任意のフィルタリングメカニズムを使用できる。いくつかの実施形態において、埋め込み及びフィルタリングのステップの結果は、ダウンサンプルされた埋め込みコードサンプルであり、特徴生成のためにニューラルネットワークに入力することができる。

マルウェア検出の向上

いくつかの実施形態において、ここに記載のシステム及び方法は、特徴を検出しマルウェア検出モデルに伝播させる。いくつかの実施形態において、抽出された特徴を用いることによって、マルウェア検出モデルの検出能力が大幅に向上することがある。例として、５０万個の.NETファイルに対して偽陽性率０．０４％（「有効」閾値）の精度をチェックすることによって、マルウェア検出モデルを評価した。この評価例において、単独で使用されるニューラルネットワーク（即ち、ネットワークの結果又は分類）は、有効閾値で７６．１％の検出率を有することがわかった。マルウェア検出モデル単独での検出率は９８．０％であることがわかった。ここに記載される自動特徴抽出システムで抽出された特徴を活用したマルウェア検出モデルは、検出率が９８．５％であることがわかった。モデル単独ではマルウェアの約２％が検出されないが、特徴抽出を伴うモデルではマルウェアの約１．５％が検出されないため、０．５％の検出増加は２５％の改善を表している。検出能力の増加がたとえ小さな増加であっても、大きなサイズのサンプルファイルにおけるマルウェア発見では、並外れた強化であり、上述のような増加は、マルウェア検出分野では非常に大きな増加である。また、１００％に近い検出率を有するモデルをさらに改善することは非常に困難であり、上述のような改善によって、コンピュータユーザを、検出されずに通り抜けてしまうような、甚大な被害をもたらし得るソフトウェアから保護することができる。尚、偽陽性率の有効閾値が非常に厳格であるため、ニューラルネットワーク単独での検出率は比較的低い。科学記事の殆どが、より緩やかな偽陽性率を使用しており、検出の評価についても単純なデータセットを用いて行っている可能性が高い。

ランタイムテスト

別の例として、３００個の.NETファイルに対してマルウェア検出モデルを実行することによって、ランタイムテストを行った。特徴抽出を行わない場合、当該テキストには４秒かかり、特徴抽出を行った場合は、当該テストには約６秒かかかった。全体として、ランタイムの約４０％が特徴抽出を構成する。特徴抽出は、これまでに検出されなかったマルウェアの検出の大幅な向上を象徴するものであるため、この増加は許容可能とみなしてもよい。

位置独立コード検出

本開示のさらなる技術、特徴及び態様は、悪意のある実行可能コードを識別し、フラグを立て、及び／又は検出するための技術に関する。具体的には、オペレーティングシステムＡＰＩを異常な方法での活用を試みる悪意あるソフトウェアを識別し、フラグを立て、及び、検出する必要がある。

導入

いくつかの実施形態において、ここに記載されるシステム及び方法は、監視下の関数を独立して見つけて呼び出すコードの断片を検出してもよい。いくつかの実施形態において、ここに記載されるシステム及び方法は、静的インポート又は動的インポートなどの従来の手法を使用することなく、監視下の関数のアドレス取得を試みるコードの断片を検出するために使用してもよい。多くの場合、攻撃者はオペレーティングシステムＡＰＩ関数（「ＯＳＡＰＩ関数」）を、例えば、独立して判断され、呼び出される可能性がある（一以上の正規でない方法でこれらの関数を見つける）、相関エクスポートされた関数アドレスを介して使用する。例えば、攻撃者は、何らかの脆弱性の悪用に成功した後、継承された異常状態でこれらの関数の利用を試みる可能性がある。或いは、攻撃者は、コンピュータセキュリティ製品による攻撃者の検出が困難となるように、動作の隠蔽を試みる可能性がある。したがって、本明細書のシステム、方法、及びデバイスは、ライブラリ関数、及び／又は、関数アドレスに対するアクセスを独立して取得しようとする攻撃者を識別するように設計されていてもよい。

いくつかの実施形態において、ここに記載のシステム及び方法は、ライブラリ関数の正当な取得を識別するプロセスを通じてマルウェア又はその他の攻撃者を検出する積極的なトラップに関連、及び／又は含んでいてもよい。いくつかの実施形態において、トラップは、オペレーティングシステムに埋め込まれている。いくつかの実施形態において、トラップは、マルウェアによってトリガーされるか、又は組み込まれてもよく、こうすることにより、ここに記載するライブラリ位置独立実行可能コード検出のための方法及びシステムが、マルウェアにフラグを立てるか、識別することを可能にする。いくつかの実施形態において、ここに記載されるトラップは、攻撃者のシステム関数又はリソースへのアクセス取得の試みを利用してもよい。特に、ここに記載されるトラップは、ここに記載するトラップは、非従来型、不規則、非定型、異常、或いは、不審な方法を使用してライブラリ関数へのアクセスを試みる攻撃者を検出することができる。いくつかの実施形態において、ここに記載されるトラップは、システム関数を監視して、これらが従来の方法によってアクセスされていないと判断することにより、非従来型の方法を使ってライブラリ関数にアクセスする攻撃者を検出してもよい。いくつかの実施形態において、ここに記載されるトラップは、システム関数及びリソースを特定して呼び出すための従来の方法は数が限られている点を利用して、消去法を使用して非従来型呼び出しを検出してもよい。

いくつかの実施形態において、「トラップ」の技術的利点は、通常、良性のコード部分が、直接的又は間接的に、オペレーティングシステムのローダを使用するということから生じる。そのため、ローダの使用が監視されている場合は、一部のローダＡＰＩ関数ＡＰＩ関数の実行がマークされ、監視され、及び／又は良性又は非良性として分類される。したがって、ローダを使用せずに関数のアドレスを決定する攻撃者（例えば、通常は強制的に「位置独立型」とされる、不正利用成功後に実行された初期コード）を識別することができる。位置独立コードの実装例は、既知の関数パターンを探す全プロセスのメモリを走査し、ＰＥＢ構造を解析し、関連する関数アドレスを手動で見つけることを含む場合がある。

いくつかの実施形態において、従来の検出方法は、攻撃者が既知の手法を使ってアドレスを見つけることを想定する場合がある。しかしながら、ここに記載するシステム及び方法のいくつかの実施形態は、関数位置を取得する特定の技術の検出に依存しない。代わりに、ここに記載されるシステム及び方法のいくつかの実施形態は、従来の関数配置手法を監視し、従来のインポート手続きを踏まずにシステム関数を実行するコードの一部又は全てにフラグを立て、及び／又は削除してもよい。

例えば、とりわけWindows、ＭａｃＯＳ、Ｌｉｎｕｘを含むオペレーティングシステムでは、オペレーティングシステムのローダ（例えば、Windows Loader）（「ローダ」）がラッピングされた実行可能コードを管理するために必要な情報をカプセル化できる実行可能なファイル形式（例：ポータブル実行可能形式）を定義している場合がある。

実行ファイルは、マシン内の他の実行ファイルとの間で関数及び／又はデータ（「シンボル」）をインポート／エクスポートすることがある。シンボルのインポートプロセスは、実行可能ファイルがシンボルを容易にインポート／エクスポートできるように、ローダによって実装されることがある。ローダは、シンボルインポートプロセスでの事前要求を一部又は全て処理することがある。

いくつかの実施形態において、実行ファイル（「コード」）内のコードの一部は、ローカルで実行可能である。即ち、同一の領域及び／又は実行可能ファイル内に位置するコードを実行することができる。いくつかの実施形態において、コードは、例えば、実装済みでしたがって別の実行ファイルに配置されている関数を呼び出すことにより非ローカルで実行することができる。いくつかの実施形態において、これらの非ローカル関数を呼び出すために、コードは、対象の関数の位置（即ち、関数の仮想アドレス）を判断する必要がある。コードは、以下に説明する一以上の方法によって、対象関数の仮想アドレスを特定できる。

いくつかの実施形態において、実行ファイル内のコードは、ローダＡＰＩを直接使用してアドレスを特定することができる（「動的呼び出し」）。いくつかの実施形態において、ローダは関数のセットを、自身の実行可能ライブラリにエクスポートする。これにより、いずれのコードでも、有効な実行可能ファイルから情報を動的にロードし、取得できるようにする。したがって、実行ファイルのコードは、このＡＰＩを使用して必要となる実行ファイルをロード又は特定し（例：ローダと相互に作用する「ＬｏａｄＬｉｂｒａｒｙＡ」又は「GetModuleHandleＡ」ＡＰＩの呼び出しを使用）。その後対象となるエクスポートされたシンボルを特定する（例：「GetProcAddress」を使用）。いくつかの実施形態において、コードは、ローダＡＰＩを介して仮想アドレスを特定するために使用する上述した関数のアドレスを含んでいる。

いくつかの実施形態において、コードは、ローダを暗黙的に使用して関数の仮想アドレスを特定することができる（「静的呼び出し」）。いくつかの実施形態において、実行可能ファイルには、（例えば、ＰＥ形式の仕様の一部として）どのシンボル及びライブラリが実行ファイルのロード及び実行に必要であるかが定義されている。いくつかの実施形態において、シンボル及びライブラリは、実行ファイルが実行されている間に、これらを例えば上述した動的呼び出しの手法により、特定されたシンボルの明示的なロード及び取得を伴うことなく利用できるように、実行ファイルの初期化プロセスの一環としてロードしてもよい。いくつかの実施形態において、静的呼び出しを使用して、インポートされた関数のアドレスを、例えば、インポートアドレステーブル（以下、「ＩＡＴ」）のエントリ内の特定済み実行ファイルに記憶する。いくつかの実施形態において、実行ファイルのロード段階が終了した後、実行ファイルは、インポートされた関数を、これら関数の位置を明示的に把握することなく、ＩＡＴテーブルを用いて間接的に呼び出すことができる。

いくつかの実施形態において、コードは独立して関数のアドレスを判断してもよい（「独立呼び出し」）。いくつかの実施形態において、コードは、静的呼び出し又は動的呼び出しを使用することなく、対象の関数のアドレスを判断することができる。いくつかの実施形態において、対象の関数アドレスを見つけるために、コードは以下を行ってもよい。（ａ）対象のシンボル又は必要なモジュールのアドレスを見つけ、ＰＥモジュールに含まれる情報を使用して対象の関数のアドレスを推測する、又は、（ｂ）対象の関数をカプセル化する他の関数を使用する。いくつかの実施形態において、仮にコードが一以上の特定のローダ関数のアドレスを判定できるとすれば、当該コードは、動的呼び出しの手法を用いて、あらゆるモジュールのあらゆる関数のアドレスも判定でき、またこれらの関数を用いてあらゆる実行可能モジュール、及びこれ含まれる関数のアドレスを取得することができる。

関数のアドレスを独立して判定するには、多くの方法を使用して達成してもよい。ただし、これを行ういくつかの既知の方法をいかに記載する。いくつかの実施形態において、コードは内部のオペレーティングシステム構造データを用いて独立的にアドレスを特定してもよい。例えば、ローダはプロセスの実行中に、内部データ構造を維持し、使用する。これらのデータ構造には、ローダが正常に且つ効率的に機能するために必要となるデータと情報が含まれていてもよい。これらのデータ構造の中には、シンボルがどこに位置しているかを判定するために使用され得るいくつかのデータ構造が含まれていてもよい。例えば、アプリケーションは、プロセス環境ブロック（「ＰＥＢ」）を使用することができる。ローダーは、ロードされたモジュールに関する情報を維持するためなど、多くの目的でＰＥＢを使用してもよい。したがって、コードは必要な実行ファイルのアドレスを取得し、その後関数アドレスを取得する、或いは、上述したようにローダに関する関数を取得することができる。

いくつかの実施形態において、悪意のあるコードは、ヒューリスティックアプローチを使用して対象の関数のアドレスを取得することがある。ロードされたモジュールのアドレス、又は関数の位置を判定するためのヒューリスティック方法は数多く存在することがある。例えば、仮想アドレス空間には、NTDLL.DLL（多くのローダの実装コードを保持する実行ファイル）等のオペレーティングシステムに関するモジュールを示すポインタが含まれていることがある。悪意のあるコードは、実行ファイルのヘッダが見つかるまで、ページ替えされたページを逆に読むことで、モジュールベースのアドレスを検索できる。最後に、悪意のあるコードは、エクスポートされたローダ関数を見つけ、それらを利用して関連するシンボルを見つけ／ロードする可能性がある。

ここに記載する監視下の関数は、独立して関数のアドレスを取得する試みを監視する関数を含んでいてもよい。いくつかの実施形態において、ここに記載するインポートアドレステーブル（ＩＡＴ）のコードは、実行ファイルＥ内のシンボルＳについて、シンボルＳに対応する（実行可能ファイルＥの）ＩＡＴエントリを用いた間接呼出しにより実行されるコードの断片を含んでいてもよい。ＩＡＴコードは、呼び出しを静的呼び出しとしてマーキングするために利用してもよい。ここに記載するように、迂回コードは、シンボルＳについて、関数Ｓの実行を迂回するコードの断片を含んでいてもよい。迂回コードを利用することにより、このコード、関数を呼び出す方法が検査されてもよい。

実装

コードが、いつ独立呼び出しを利用して、監視下の関数のアドレスを取得するかを検出するために、ここに記載のシステム、方法、及びデバイスのいくつかの実施形態は、監視下の関数の正当な静的呼び出し及び動的呼び出しを識別してもよい。いくつかの実施形態において、静的呼び出し及び動的呼び出しを識別することで、ここに記載のシステム、方法、及びデバイスは消去法によって監視下の関数の独立呼び出しを検出してもよい。

いくつかの実施形態において、静的呼び出し、動的呼び出し、及び、ローカル呼び出しを検出するために監視下の関数を実装してフローを変更してもよい。いくつかの実施形態において、ここに記載されるシステム及び方法は、以下のうちの一以上を行ってもよい。（１）ＩＡＴスタブの変更、（２）迂回コードで監視下の関数を迂回、（３）全てのモジュールが実装されているかの確認（各ロード済みモジュール及び新たにロードされるモジュールに対して、関連するデータ構成を実装して、将来の呼び出しが検出システムのフローへリダイレクトされるようにしてもよい）、（４）監視下の関数に対する各呼び出しを監視し、呼び出し元が関数に直接アクセスしてるかをチェック（即ち、良性のフローとして考慮される静的／動的／ローカルフローを介していないどうか）。いくつかの実施形態において、異常な手続きを使用して（即ち、静的呼び出し／動的呼び出し／ローカル呼び出しを使用せずに）監視下の関数のアドレスを取得する攻撃者は、フレームを含まない可能性があり、ここに記載のシステム及び方法で攻撃者を識別することが可能となる。

静的フロー

いくつかの実施形態において、静的フローとは、コードが、静的呼び出しを使用して外部実行ファイル（例：監視下の関数）に対して関数の呼び出しを開始することを表している。上述したように、コードは、対応するＩＡＴテーブルのエントリを使用して間接的に呼び出しを開始してもよい。静的呼び出しを検出するために、監視下の関数のセットに関連するＩＡＴテーブルのエントリを一部又は全て、フローがＩＡＴコードに変更されるように実装してもよい。いくつかの実施形態において、ＩＡＴコードは、静的呼び出しを検出し、関連するデータ構造を更新し、元の対象の関数にフローを戻すことができる。

図１２は、ここに記載するいくつかの実施形態による、静的リンクプロセスの例を示す図である。いくつかの実施形態において、インポートモジュール１２０２は、静的リンクフローを使用して、インポートされたモジュール１２０４からインポートされたシンボルを取得してもよい。いくつかの実施形態において、インポートモジュール１２０２、及びインポートされたモジュール１２０４の両方が、モジュールヘッダ１２０６、ＮＴヘッダ１２０８、及び種々のオプションヘッダ１２１０を含んでいてもよい。いくつかの実施形態において、オプションヘッダ１２１０は、とりわけ、エクスポートデータディレクトリ１２１２、インポートデータディレクトリ１２１４、及び／又はインポートテーブルディレクトリ１２１６を含んでいてもよい。いくつかの実施形態において、インポートデータディレクトリ１２１４は、インポートされたモジュール１２０４から一以上のエクスポートされたモジュールのデータ及びコード１２３０をインポートするために使用され得るモジュールデータ及びコード１２１８のインポートを指し示す。いくつかの実施形態において、インポートモジュールデータ及びコード１２１８は、インポート名１２２２、関数名１２２４、及び関数アドレス１２２６を含むインポート記述子１２２０を含んでいてもよい。インポート関数コード１２２８は関数アドレス１２２６と組み合わせて、インポートされた関数１２０４からインポートされた関数を呼び出すために使用できる。この情報は、インポートされたモジュール１２０４のエクスポートデータディレクトリ１２１２から取得することができる。インポートデータディレクトリ１２１６と同様に、エクスポートデータディレクトリはエクスポートディレクトリ１２３２を指し、これにはエクスポート名１２３４、関数名１２３６、及び／又は関数アドレス１２３８が含まれる。エクスポートデータディレクトリ１２１４は、インポートされたモジュール１２０４内のエントリポイントへのインポートを解決するために使用されるデータを指し示す。エクスポート関数コード１２４０を関数アドレス１２３８と組み合わせて使用して、インポートモジュール１２０２にアドレスを提供してもよい。前述したように、静的フローは、実行ファイルの初期化プロセスの一環として発生し得るものであり、実行ファイルが実行中に、例えば上述した動的呼び出しの手法によって、明示的に特定のシンボルをロード又は取得することなく、インポートされたシンボルを使用できるようにする。いくつかの実施形態において、静的呼び出しを使用して、インポートされた関数のアドレスを、例えば、インポートアドレステーブル（例：関数アドレス１２２６。以下、「ＩＡＴ」）のエントリ内の特定済み実行ファイルに記憶する。いくつかの実施形態において、実行ファイルのロード段階が終了した後、実行ファイルは、インポートされた関数を、これら関数の位置を明示的に把握することなく、ＩＡＴテーブルを用いて間接的に呼び出すことができる。いくつかの実施形態において、エクスポート関数コード１２４０は、指定されたエクスポート関数のコードを含んでいる。いくつかの実施形態において、モジュール１２０２がコンパイルされると、コンパイラは、ＩＡＴで特定の値を把握することなく、ＩＡＴを使用するコード断片を生成する。いくつかの実施形態において、オペレーティングシステムによって実装される実行ファイルであるローダは、モジュール１２０２に対する特定の値でＩＡＴを満たす。

図１３は、ここに記載するいくつかの実施形態による、ライブラリに依存しないコード検出システム及び静的リンクプロセスの例示的な方法を示す図である。いくつかの実施形態において、静的呼び出しを監視するために、フッキングエンジン１２４２が利用される。いくつかの実施形態において、インポートモジュール１２０２が、インポートされたモジュール１２０４、即ち監視下の関数のインポートされた関数アドレス１２３８の取得を試みると、システム及び方法は、元の関数アドレス１２３８の改変アドレスへの置き換えを伴ってもよい。したがって、いくつかの実施形態において、インポートされた関数アドレス１２３８をＩＡＴテーブル１２２６にロードしたあと、改変アドレスが提供され、ロードされたインポートモジュール１２０２に提示される。いくつかの実施形態において、実行時にインポートモジュール１２０２が、監視下の関数の呼び出しを試みると、元の関数アドレスを介して元の関数を呼び出す代わりに、改変関数アドレスが当該呼び出しをフッキングエンジン１２４２へリダイレクトする。いくつかの実施形態において、実行中、改変関数アドレスが、監視下の関数を呼び出すために使用される場合、呼び出しは、代わりにフッキングエンジン１２４２のトランポリンコード１２４６にリダイレクトされる。いくつかの実施形態において、トランポリンコードは、改変関数アドレスが呼び出されたことを検証し、インポートモジュール１２０２が静的呼び出しを介して関数アドレスを取得したことを検証する。そのため、いくつかの実施形態において、当該呼び出しは１２４４において、有効な呼び出しとしてマークされる。有効な呼び出しとしてマークした後、トランポリンコードは、実行のために、当該呼び出しを監視下の関数のアドレスにリダイレクトして戻してもよい。トランポリンに加えて、エクスポート関数コード１２４０は、改変された関数の実行をフッキングエンジン１２４２に迂回させるように変更されてもよい。このようにして、いくつかの実施形態において、監視下の関数を実際に実行する前に、呼び出しは、フッキングエンジン１２４２内の迂回コード１２４８に迂回され、呼び出しが検証される。いくつかの実施形態において、呼び出しが検証された後、フローは、実行のために元の監視下の関数に戻される。いくつかの実施形態において、迂回機能は、以下に説明する動的フローの一態様を含んでいてもよい。

動的フロー

いくつかの実施形態において、動的フローとは、コードが動的呼び出しを使用して外部実行ファイルに対して関数の呼び出しを開始することを表している。動的な場合、実行ファイルはランタイム時に外部対象アドレスを取得してもよい。この場合、実行ファイルはローダに対して外部の対象（対象のモジュールと関数の両方）がどこにあるかを問い合わせてもよい。いくつかの実施形態において、上述のように、コードは、ローダＡＰＩ関数を使用して関数のアドレスを判定した後、対象の関数に対する呼び出しを開始してもよい。いくつかの実施形態において、動的呼び出しを検出するために、本明細書のシステム及び方法は、関連するローダＡＰＩ関数を制御してコードに情報（「Resolving Function（解決関数）」）を提供する。いくつかの実施形態において、制御は、解決関数を迂回させ、対応するシンボルのトランポリンコード１２４６に対する戻り値を改変することによって実施されてもよい。上述の方法を使用して、いくつかの実施形態において、コードが、監視下の関数の戻されたアドレスを呼び出すと、当該呼び出しが迂回コード１２４８にリダイレクトされる。

いくつかの実施形態において、動的フローにおいて、外部ライブラリ（共有ライブラリ）の名称は最終的な実行可能ファイルに配置されるが、実行可能ファイルとライブラリの両方がメモリに配置されるランタイム時に実際のリンクが行われる。動的フローは、いくつかのプログラムに、実行可能モジュールの単一のコピーを利用させる。

図１５は、ここに記載するいくつかの実施形態による、動的フロープロセスの例を示す図である。図示する例において、呼出し元１５０２（即ち、インポートモジュール１２０２）が、ランタイム時にモジュール１５１０を取得する必要がある場合、種々のＡＰＩ、例えば、GetModuleHandle １５０６を介して取得してもよい。ＡＰＩ１５０６を使用して、とりわけＮ個のモジュール１５１０、１５１２、及び１５１４を含み得るローダ内部レコード１５０８からモジュールハンドルを取得してもよい。さらに、所望の関数アドレスは、ＡＰＩのGetProcAddress １５０４を使って動的に取得してもよい。しかしながら、いくつかの実施形態において、ＡＰＩを使って動的に関数を取得するには、呼出し元１５０２は関連するモジュールがどこに位置しているかを把握していなければならない。動的フローを監視するために、GetProcAddress １５０４を含む、ローダに関連する関数のリターンアドレスを制御してもよい。したがって、ここに記載のシステム及び方法は、リターンアドレスを制御するように構成されていてもよく、これは例えば元々の関数アドレス、又は、トランポリンコードであってもよい。

図１６は、ここに記載するいくつかの実施形態による、ライブラリに依存しないコード検出システム及び動的フロープロセスの例示的な方法を示す図である。いくつかの実施形態において、ローダＡＰＩ（例：GetProcAddress）は、動作のフローをフッキングエンジン１２４２に向けるように、ここに記載のシステム及び方法によって改変することができる。特に、いくつかの実施形態において、インポートモジュール１２０２がランタイム時にGetProcAddressを使用する際に、元々のインポートされた関数アドレスの代わりに、インポート関数をGetProcAddressトランポリンコード１６０２に向けてもよい。GetProcAddressトランポリンコード１６０２は、さらに、フローをGetProcAddress迂回コード１６０４に向けてもよい。インポートモジュール１２０２が、静的にリンクされた関数ＡＰＩを使用して監視下の関数を取得した場合、GetProcAddress迂回コード１６０４は、フローを、静的フローに関して上述した関数名トランポリン１２４６へリダイレクトしてもよい。関数名トランポリン１２４６は、関数の呼び出しが動的に行われたことを示すGetProcAddressトランポリンコード１６０２及びGetProcAddress迂回コード１６０４を通過するので、関数呼び出しが良性であることを検証することができる。静的フローと同様に、一旦検証が行われると、トランポリンコード１２４６は検証後に元の関数を呼び出すことができる。図１４に示すように、検証データは、呼び出しデータベース１２５４に記憶されてもよい。また、静的フロー同様に、関数の実行前に、エクスポート関数コード１２４０を改変して、実行を迂回コード１２４８に迂回させて、呼び出しの良性をさらに検証してもよい。迂回コード１２４８が完了した後、フローは元の関数の実行に戻されてもよい。

不審なフロー

図１４は、ここに記載するいくつかの実施形態による、ライブラリに依存しないコード検出システムの例を示す図である。図１４は、いくつかの実施形態において、特にフッキングモジュールが、どのようにして、不審なコードによる独立的な関数へのアクセスの試みを検出するかを例示している。いくつかの実施形態において、例えば、不審なコード１２５０は、静的又は動的フローを介して対象の関数の取得を試みること、）インポートされたモジュール１２０４内のメタデータ（即ち、エクスポートされたヘッダ）を使って対象の関数を見つける試み、２）ローダの内部レコード１２５２から直接対象のディレクトリを見つける試み、３）対応するトランポリンを介さずに直接対象の関数を呼び出す試みを回避することがある。いずれの場合も、いくつかの実施形態において、不審なコードは、ＩＡＴテーブル又はローダを介して監視下の関数がロードされた際に、エクスポート関数コード１２４０の改変アドレスを取得しない。したがって、いくつかの実施形態において、実行時に不審なコードからの呼び出しはトランポリンコード１２４６にリダイレクトされず、ローダを用いた呼び出しとして検証されない。しかしながら、いくつかの実施形態において、エクスポート関数コード１２４０を用いて関数を実行しても、呼び出しはフッキングエンジン１２４２の迂回コード１２４８に迂回させられる。したがって、いくつかの実施形態において、フッキングエンジンが、迂回コード１２４８において、呼び出しがトランポリンコード１２４６をトリガーしなかったため、標準的な（例：静的／動／ローカル）フローを介して完了しなかったことを実証する。したがって、不審なコード１２５０は、悪意の可能性があるとして、システムによってフラグが立てられる。いくつかの実施形態において、迂回コード１２４８は、監視下の関数が（動的、静的、又は間接的のいずれかによって）呼び出されたときのみに実行されるコード断片を表している。これは、本明細書のシステムが、対象の関数を改変するために発生する。したがって、トランポリンコード１２４６を含むいかなる実行ファイルが、エクスポートされた関数の呼び出しを試みても、迂回コードが実行される。

ローカルフロー

前述したように、コードはまたローカル呼び出しを開始することもある。したがって、いくつかの実施形態において、静的呼び出しも動的呼び出しもコードによって開始されないことがあるが、呼び出し元が、同一の実行ファイル又は領域内の対象の関数アドレスを把握しているため、独立呼び出しの必要はない。ローカル呼び出しされた関数と、独立呼び出しとを区別するために、ここに記載のシステム、方法、及び、デバイスのいくつかの実施形態では、迂回コードを監視して、リターンアドレスが監視下の関数と同一の実行ファイル／モジュールに位置しているかを判定してもよい。いくつかの実施形態において、リターンアドレスが監視下の関数と同一の実行ファイル／モジュールに位置している場合、呼び出しは、不審な独立呼び出しではなく、ローカル呼び出しとして判定されてもよい。

したがって、トランポリンコード、迂回コードの使用、及び／又は、ＩＡＴテーブル及び静的にリンクされたＡＰＩの改変を通じて、監視下の関数へのアクセスを検証してもよい。実行ファイルが、静的、動的、又は、ローカル呼び出しを使わずに監視下の関数へアクセスすると判断した場合、フッキングエンジンによって、不審又は悪意あるとしてフラグが立てることができ、マルウェア検出ソフトウェアによってさらに評価されてもよい。

コンピュータシステム

いくつかの実施形態において、ここに記載のシステム、プロセス、及び、方法は図１７に例示されるようなコンピュータシステムを用いて実施される。例示的なコンピュータシステム１７０２は、一以上のネットワーク１７１８を介して、一以上のコンピュータシステム１７２０、及び／又は、一以上のデータソース１７２２と通信状態にある。図１７が、コンピュータシステム１７０２の実施形態を例示する一方、コンピュータシステム１７０２のコンポーネント及びシステムにおいて提供される機能は、より少ないコンポーネント及びシステムに結合可能であり、或いは、さらに別のコンポーネント及びシステムに分割可能であることが認識できるであろう。

コンピュータシステムのコンポーネント

コンピュータシステム１７０２は、ここに記載する機能、方法、作用、及び／又はプロセスを実施するマルウェア及びコード検出システム１７１４を含んでいる。コンピュータシステム１８０２は、以下でさらに記載する中央処理ユニット１７０６によってコンピュータシステム１７０２上で実行されるマルウェア及びコード検出システム１７１４を含んでいてもよい。

一般的に、本明細書で使用する「システム」という文言は、ハードウェア又はファームウェアで具現化されるロジック、又は、入り口と出口を有するソフトウェア指示の集合体を意味する。システムは、ＪＡＶＡ、Ｃ、又はＣ＋＋等のプログラム言語で記述される。ソフトウェアシステムは、コンパイルされてもよく、動的リンクライブラリにインストールされた実行可能プログラムにリンクされてもよく、又は、ＢＡＳＩＣ、ＰＥＲＬ、ＰＨＰ、Ｐｙｔｈｏｎ等のインタプリタ言語や、これらのような言語で記述されてもよい。ソフトウェアシステムは、他のシステムから、又は、自身から呼び出すことが可能であり、及び／又は、イベント又は割り込みの検出に応じて呼び出されてもよい。ハードウェアに実装されるシステムは、ゲートやフリップフロップ等の接続されたロジックユニットを含んでおり、及び／又は、プログラム可能なゲート配列又はプロセッサ等のプログラム可能ユニットを含むことができる。

一般的に、本明細書で記載するシステムは、他のシステムと組み合わせ可能な、又は、物理的な組織やストレージに関わらず、サブシステムに分割可能なロジックシステムを意味する。システムは、一以上のコンピュータシステムによって実行され、任意の適切なコンピュータ読取り可能な媒体に記憶可能であり、又は、特別に設計されたハードウェア又はファームウェアで全体又は一部を実施可能である。上述した方法、計算、プロセス、解析はコンピュータを使用することによって容易になるが、全ての計算、解析、及び／又は、最適化にコンピュータシステムの使用が求められるわけではない。さらに、いくつかの実施形態において、本明細書で記載するプロセスブロックは、変更、再配置、結合、及び／又は省略されてもよい。

コンピュータシステム１７０２は、マイクロプロセッサを含む一以上の処理部（ＣＰＵ）１７０６を備えている。コンピュータシステム１７０２は、さらに情報を一時的に記憶するランダムアクセスメモリ（ＲＡＭ）、情報を恒久的に記憶する読取り専用メモリ（ＲＯＭ）などの物理メモリ１７１０、及び、補助記憶装置、ハードドライブ、回転磁気ディスク、ソリッドステートディスク（ＳＳＤ）、フラッシュメモリ、相変化メモリ（ＰＣＭ）、３ＤＸＰｏｉｎｔメモリ、ディスケット、又は光学媒体記憶装置などの大容量記憶装置１７０４を備えている。或いは、大容量記憶装置は、サーバアレイに実装することができる。一般的には、コンピュータシステム１７０２のコンポーネントは規格に基づくバスシステムを使ってコンピュータに接続されている。バスシステムは、Peripheral Component Interconnect (PCI) 、Micro Channel、SCSI、Industrial Standard Architecture (ISA) 、Extended ISA (EISA)アーキテクチャ等、種々のプロトコルを使用して実装できる。

コンピュータシステム１７０２は、キーボード、マウス、タッチパッド、プリンタ等の一以上の入力／出力（Ｉ／Ｏ）デバイス及びインターフェース１７１２を備えている。Ｉ／Ｏ装置及びインターフェース１７１２は、ユーザに対するデータの視覚的提示を可能にするモニター等の、一以上の表示装置を備えている。より詳細には、表示装置はアプリケーションソフトウェアデータのＧＵＩの表示、及びマルチメディアの表示を行う。Ｉ／Ｏ装置及びインターフェース１７１２は、また種々の外部装置に対して通信インターフェースを提供できる。コンピュータシステム１７０２は、例えば、スピーカ、ビデオカード、グラフィックアクセラレータ、マイクロフォン等の、一以上マルチメディア装置１７０８を備得ることができる。

コンピュータシステムデバイス／オペレーティングシステム

図１７は、マルウェア及びコード検出システムの一以上の実施形態を実施するソフトウェアを実行するように構成されたコンピュータハードウェアシステムの実施形態を示すブロック図である。

コンピュータシステム１７０２は、サーバ、Windowsサーバ、ＳＱＬサーバ、Ｕｎｉｘサーバ、パーソナルコンピュータ、ノートパソコン等、種々のコンピュータデバイスで実行できる。他の実施形態において、コンピュータシステム１７０２は、クラスターコンピュータシステム、メインフレームコンピュータシステム、及び／又は、大規模データベースの制御及び／又は通信、大容量トランザクション処理の実行、及び大規模データベースからのレポートの生成に適した他のコンピューティング・システムで実行できる。コンピュータシステム１７０２は、一般的にｚ／ＯＳ、Windows、Linux、UNIX、BSD、SunOS、Solaris、MacOS、又は独自のオペレーティング・システムを含む他の互換性のあるオペレーティングシステムによって、制御・調整される。オペレーティングシステムは、実行されるコンピュータプロセスを制御及びスケジュールし、メモリを管理し、ファイル・システム、ネットワーキング及びＩ／Ｏサービスを提供し、とりわけグラフィカルユーザインターフェース（ＧＵＩ）などのユーザインターフェースの提供を行う。

ネットワーク

図１７に示すコンピュータシステム１７０２は、通信リンク１７１６（有線、無線、又はこれらの組み合わせ）を介して、ＬＡＮ、ＷＡＮ、又はインターネットなどのネットワーク１７１８に接続される。ネットワーク１７１８は、様々なコンピュータデバイス及び／又は他の電子デバイスと通信する。ネットワーク１７１８は、一以上のコンピュータシステム１７２０、及び一以上のデータソース１７２２と通信する。コンピュータシステム１７０２は、コンピュータシステム１７２０、及び／又はデータソース１７２２がウェブ対応のユーザアクセスポイントを介してアクセスできるマルウェア及びコード検出システム１７１４を含んでいる。接続は、直接的な物理的接続であってもよく、仮想的接続、その他のタイプの接続であってもよい。ウェブ対応のユーザアクセスポイントは、テキスト、グラフィックス、オーディオ、ビデオ、及び他のメディアを使用してデータを提示し、ネットワーク１７１８を介してデータとの相互作用を可能にするブラウザシステムを含んでいてもよい。

出力システムは、陰極線管（ＣＲＴ）、液晶ディスプレイ（ＬＣＤ）、プラズマディスプレイ、又は他のタイプ、及び／又はディスプレイの組み合わせ等、全点アドレス可能ディスプレイの組み合わせとして実施することができる。出力システムは、入力デバイス、及び／又はインターフェース１７１２と通信可能に実施することができ、また、ユーザがメニュー、ウィンドウ、ダイアログボックス、ツールバー、コントロール等の定型化された画面要素を使用してデータにアクセスできるようにする適切なインターフェースを備えたソフトウェアも含んでいる。さらに、出力システムは、入出力デバイスのセットと通信して、ユーザからの信号を受信することができる。

その他のシステム

コンピュータシステム１７０２は、一以上の内部及び／又は外部データソース（例：データソース１７２２）を含んでいてもよい。いくつかの実施形態において、一以上のデータリポジトリ、及び上述したデータソースは、DB2、Sybase、Oracle、CodeBase、Microsoft（登録商標）SQLサーバ、及びフラットファイルデータベース等のその他のデータベース等のリレーショナルデータベース、エンティティリレーションシップデータベース、オブジェクト指向データベース、及び／又は、レコードベースのデータベースを用いて実施することができる。

コンピュータシステム１７０２は、一以上のデータソース１７２２にアクセスすることもできる。データソース１７２２は、データベース又はデータリポジトリに格納することができる。コンピュータシステム１７０２は、ネットワーク１７１８を介して、一以上のデータソース１７２２にアクセス可能であり、又は、Ｉ／Ｏ装置及びインターフェース１７１２を介してデータベース又はデータリポジトリにアクセス可能である。一以上のデータソース１７２２を格納するデータリポジトリは、コンピュータシステム１７０２内に存在してもよい。

ＵＲＬとＣｏｏｋｉｅ

いくつかの実施形態において、ここに記載されるシステム、方法、及びデバイスの一以上の特徴は、例えば、データ又はユーザ情報を格納。及び／又は送信するために、ＵＲＬ、及び／又はＣｏｏｋｉｅを利用することができる。ＵＲＬ（Uniform Resource Locator）は、Ｗｅｂアドレス及び／又はデータベース及び／又はサーバに格納されるＷｅｂリソースへの参照を含むことができる。ＵＲＬは、コンピュータ及び／又はコンピュータネットワーク上のリソースの場所を指定することができる。ＵＲＬは、ネットワークリソースを検索するメカニズムを含んでいてもよい。ネットワークリソースのソースは、ＵＲＬを受け取り、Ｗｅｂリソースの場所を識別し、Ｗｅｂリソースを要求者に送信して戻すことができる。ＵＲＬはＩＰアドレスに変換でき、ドメインネームシステム（ＤＮＳ）はＵＲＬとそれに対応するＩＰアドレスを検索できる。ＵＲＬは、Ｗｅｂページ、ファイル転送、電子メール、データベースへのアクセス、及びその他のアプリケーションへの参照となり得る。ＵＲＬは、パス、ドメイン名、ファイル拡張子、ホスト名、クエリ、フラグメント、スキーム、プロトコル識別子、ポート番号、ユーザ名、パスワード、フラグ、オブジェクト、リソース名、及び／又はこれらに類似する物を識別する一連の文字を含むことができる。ここに開示されるシステムは、ＵＲＬに対してアクションを生成、受信、送信、適用、解析、直列化、レンダリング、及び／又は実行することができる。

ＨＴＴＰＣｏｏｋｉｅ、ウェブＣｏｏｋｉｅ、インターネットＣｏｏｋｉｅ、及びブラウザＣｏｏｋｉｅとも称されるＣｏｏｋｉｅは、ウェブサイトから送信されるデータ、及び／又はユーザのコンピュータに格納されるデータを含むことができる。このデータは、ユーザが閲覧している間にユーザのウェブブラウザによって格納することができる。Ｃｏｏｋｉｅは、オンラインストアのショッピングカート、ボタンのクリック、ログイン情報、及び／又は過去に訪問したウェブページ又はネットワークリソースの記録等、ウェブサイトが以前の閲覧情報を記憶するために有用な情報を含むことができる。Ｃｏｏｋｉｅはまた、ユーザが入力する情報、例えば名前、住所、パスワード、クレジットカード情報などを含むことができる。Ｃｏｏｋｉｅは、コンピュータ機能も実行可能である。例えば、認証Ｃｏｏｋｉｅをアプリケーション（ウェブブラウザなど）で使用して、ユーザが（ウェブサイト等に）すでにログインしているかどうかを識別できる。Ｃｏｏｋｉｅデータは、暗号化することによって、消費者にセキュリティを提供できる。追跡Ｃｏｏｋｉｅを使用すると、個人の過去の閲覧履歴を収集できる。ここに開示されるシステムは、個人のデータにアクセスするためにＣｏｏｋｉｅを生成し、使用することができる。システムはまた、認証情報を保存するＪＳＯＮウェブトークン、認証プロトコルとしてのＨＴＴＰ認証、セッション又は識別情報を追跡するＩＰアドレス、ＵＲＬ等を生成し、使用することもできる。

別の実施形態

上述の明細書では、本発明をその特定の実施形態を参照して説明した。しかしながら、本発明のより広範な精神及び範囲から逸脱することなく、様々な修正及び変更を行うことができることは明らかである。したがって、明細書及び図面は、限定的な意味ではなく例示的な意味でみなされる。

実際、本発明は、特定の実施形態及び実施例に関連して開示されてきたが、本発明は、具体的に開示された実施形態を超えて、本発明の他の代替の実施形態、及び／又は使用、ならびにその明らかな変形例及び均等物に拡大することが当業者には理解されよう。さらに、本発明の実施形態のいくつかの変形例を示し、詳細に説明したが、当業者には、本開示に基づいて、本発明の範囲内にある他の変形例が容易に明らかになるであろう。また、実施形態の特定の特徴及び態様の様々な組合せ、又は部分的な組合せが行われてもよく、依然として本発明の範囲内にあると想定される。開示された実施形態の様々な特徴及び態様は、開示された発明の実施形態の様々なモードを形成するために、互いに組み合わされ得る、又は置き換えられ得ると理解されるべきである。ここに開示されるいずれの方法も、記載された順序で実施される必要はない。したがって、ここに開示される本発明の範囲は、上述の特定の実施形態によって制限されるべきではないことが意図される。

本開示のシステム及び方法は、それぞれいくつかの革新的な態様を有し、そのうちの１つだけが、ここに開示された所望の属性に対して責任を負うものでも要求されるものでもないことが理解されよう。上述の様々な特徴及びプロセスは、互いに独立して使用されてもよく、又は様々な方法で組み合わされてもよい。すべての可能な組合せ及び下位組合せは、本開示の範囲内に入ることが意図される。

個々の実施形態に関連してここに記載される特定の特徴も、単一の実施形態において組み合わせて実施することができる。一方、単一の実施形態に関連して説明される様々な特徴も、複数の実施形態において別々に、又は任意の適切な下位組合せで実施することができる。さらに、特徴は特定の組み合わせで作用するものとして上述される場合があり、そのようなものとして当初主張されていたとしても、主張された組み合わせからの一以上の特徴は、場合によっては、組み合わせから除去されてもよく、主張された組み合わせは、下位組み合わせ又は下位組み合わせの変形に適用されてもよい。単一の特徴又は特徴のグループは、各々の及び全ての実施形態にとって必要ではなく、必須でもない。

また、本明細書で使用される条件付き言語、特に、「ｃａｎ」、「ｃｏｕｌｄ」、「ｍｉｇｈｔ」、「ｍａｙ」、「例えば」などは、特に明記されない限り、又は使用される文脈内で他に理解されない限り、一般に、特定の実施形態が特定の特徴、要素及び／又はステップを含むが、他の実施形態は含まないことを伝えることを意図していることが理解される。したがって、このような条件付き言語は、特徴、要素及び／又はステップが一以上の実施形態に何らかの方法で必要であること、又は一以上の実施形態が、著者の入力又は促しの有無にかかわらず、これらの特徴、要素及び／又はステップがいずれかの特定の実施形態に含まれるか、又は実行されるべきかを決定する論理を必然的に含むことを暗示することを意図していない。「ｃｏｍｐｒｉｓｉｎｇ」、「ｉｎｃｌｕｄｉｎｇ」、「ｈａｖｉｎｇ」などの用語は、同義であり、オープンエンド方式で包括的に使用され、追加の要素、特徴、作用、動作などを除外しない。さらに、用語「又は」は、その包括的な意味で使用される（その排他的な意味では使用されない）ため、例えば、要素の列挙を接続するために使用される場合、用語「又は」は、列挙内の要素の１つ、いくつか、又は全てを意味する。また、本願及び特許請求の範囲において使用される「ａ」、「ａｎ」及び「ｔｈｅ」は、特に断りがない限り、「１以上」又は「少なくとも１つ」を意味するものと解釈される。同様に、動作は特定の順序で図面に示すことができるが、好ましい結果を達成するために、これら動作は、図示された特定の順序又は連続した順序で実行される必要はないこと、又は図示されたすべての動作が実行される必要があることが認識されるべきである。さらに、図面には、フローチャートの形態で一以上の例示的なプロセスが概略的に示されることがある。しかしながら、図示されていない他の動作が、概略的に示されている例示的な方法及びプロセスに組み込まれてもよい。例えば、一以上の追加の動作が、図示された動作のいずれかの前、後、同時に、又はこれらの間に実行されてもよい。さらに、他の実施形態では、動作を再配置、又は順序変更することができる。特定の状況においては、マルチタスキング及び並列処理が有利となり得る。さらに、上述の実施形態における様々なシステム構成要素の分離は、全ての実施形態においてそのような分離を必要とするものとして理解されるべきではなく、記載されたプログラム、コンポーネント、及びシステムは、一般的に単一のソフトウェア製品においてともに統合されてもよく、又は複数のソフトウェア製品にパッケージ化されてもよいことが理解されるべきである。さらに、他の実施形態は、以下の特許請求の範囲の範囲内である。特許請求の範囲に記載された動作は、場合によっては、異なる順序で実行されることがあるが、依然として望ましい結果を達成することができる。

さらに、ここに記載された方法及びデバイスは、様々な変形例、及び代替形態の影響を受けやすいが、その具体例が図面に示されており、ここに詳細に記載されている。しかしながら、本発明は、開示された特定の形態又は方法に限定されるものではなく、むしろ、本発明は、記載された様々な実施形態及び添付の特許請求の範囲の精神及び範囲内にある全ての変形例、均等物、及び代替物を包含するものであることを理解されたい。さらに、実施形態又は実施形態に関連する任意の特定の特徴、態様、方法、特性、特徴、品質、属性、要素などのここに開示する内容は、ここに記載する他のすべての実施形態又は実施形態で使用することができる。ここに開示されるいずれの方法も、記載された順序で実施される必要はない。ここに開示される方法は、実施者によって行われる特定の行為を含む場合があるが、これら方法には、任意の第三者による明示的に又は暗黙的なこれら行為の指示を含む場合もある。ここに開示される範囲はまた、あらゆる重複、サブ範囲、及びこれらの組み合わせを含む。「まで」、「少なくとも」、「より大きい」、「より小さい」、「間」などの言語は、記載される数を包含する。「約」又は「約」のような用語が先行する数字は、記載される数字を包含し、状況に基づいて解釈されるべきである（例えば、当該状況下で合理的に可能な限り正確に。例えば、±５％、±１０％、±１５％等）。例えば、「約３．５ｍｍ」は、「３．５ｍｍ」を包含する。「実質的に」のような用語が先行する語句は、記載される語句を包含し、状況（例えば、当該状況下で合理的に可能な限り）に基づいて解釈されるべきである。例えば、「実質的に一定」は「一定」を包含する。特に明記しない限り、すべての測定は、温度及び圧力を含む標準条件で行われる。

本明細書で使用されるように、列挙される項目の「少なくとも一つ」を参照する語句は、単一の項目を含むこれら項目の任意の組み合わせを意味する。例として、「Ａ、Ｂ、又はＣの少なくとも１つ」は、Ａ、Ｂ、Ｃ、Ａ及びＢ、Ａ及びＣ、Ｂ及びＣ、ならびにＡ、Ｂ及びＣを網羅することを意図している。特に明記されない限り、語句「Ｘ、Ｙ、Ｚの少なくとも１つ」のような連接言語は、項目、用語等がＸ、Ｙ又はＺの少なくとも１つであり得ることを示す一般に使用される文脈で理解される。したがって、そのような連言は、一般に、特定の実施形態がそれぞれ存在するためにＸの少なくとも１つ、Ｙの少なくとも１つ、及びＺの少なくとも１つを必要とすることを意味することを意図していない。ここに提供される見出しは、もしあれば、便宜上のものであり、ここに開示されるデバイス及び方法の範囲又は意味に必ずしも影響しない。

従って、特許請求の範囲は、ここに示される実施形態に限定されることを意図しておらず、本開示、ここに開示される原理及び新規な特徴と一致する最も広い範囲を与えられるべきである。

実施形態１：ファイルにおける実行可能コードをプログラム的に識別するコンピュータで実施される方法であって、前記方法は、コンピュータシステムによって、ファイルの一部からバイト列にアクセスする処理と、前記コンピュータシステムによって前記バイト列から所定数のｎ－グラムを抽出する処理であって、前記各ｎ－グラムは、前記バイト列中の隣接する一連のバイトを含んでおり、前記各ｎ－グラム中の隣接する一連のバイトは、ｎ個のバイトを含む、処理と、前記コンピュータシステムによって、カウンタ列を生成する処理であって、前記カウンタ列の各カウンタは、前記ｎ－グラムのうちの１つと関連付けられており、前記各カウンタは整数値を有しており、前記整数値は前記バイト列内の関連付けられたｎ－グラムの発生頻度に基づいて生成される、処理と、前記コンピュータシステムによって、前記カウンタ列を入力特徴として予測機械学習モデルに提供する処理と、前記予測機械学習モデルによって、前記バイト列が実行可能なコードを含むモデル確率値を決定する処理とを含み、前記コンピュータシステムはコンピュータプロセッサと電子記憶媒体を備えている。

実施形態２：前記実施形態１の方法であって、実行可能なコードとは、コンピュータシステム上でバイト列を実行することなく、プログラム的に識別される。

実施形態３：前記実施形態１又は２の方法であって、前記方法は、前記バイト列が実行可能なコードを含むモデル確率値が所定の閾値を超えるものである場合、マルウェア検出システムによってさらに解析を行うために、前記コンピュータシステムによって前記バイト列又はファイルにフラグを立てる処理をさらに含む。

実施形態４：前記実施形態１～３のいずれかの方法であって、前記ファイルは、実行可能なファイル形式を含む。

実施形態５：前記実施形態１～４のいずれかの方法であって、前記ファイルは、ポータブル実行可能ファイル（ＰＥ）を含む。

実施形態６：前記実施形態１～５のいずれかの方法であって、前記ファイルの一部には、一以上のリソース、文字列、変数、オーバーレイ、又はセクションの１つ以上が含まれている。

実施形態７：前記実施形態１～６のいずれかの方法であって、前記ファイルの一部には、実行可能許可が含まれていない。

実施形態８：前記実施形態１～７のいずれかの方法であって、前記ｎ－グラムは、ｂｉ－グラムを含む。

実施形態９：前記実施形態１～７のいずれかの方法であって、ｎは２～５００である。

実施形態１０：前記実施形態１～７のいずれかの方法であって、前記ｎ－グラムは、ｎが第一の整数である第一のｎ－グラムセットと、ｎが第二の整数である第二のｎ－グラムセットとを含んでおり、前記第一の整数は前記第二の整数と異なっている。

実施形態１１：前記実施形態１～１０のいずれかの方法であって、ｎ－グラムの所定の数は５００である。

実施形態１２：前記実施形態１～１０のいずれかの方法であって、ｎ－グラムの所定の数は５０～１００００である。

実施形態１３：前記実施形態１～１２のいずれかの方法であって、前記方法は、コンピュータシステムによって、各カウンタを前記バイト列のデータ長で正規化する処理を含む。

実施形態１４：前記実施形態１～１３のいずれかの方法であって、前記予測機械学習モデルは、複数の別々のモデルを含んでおり、各モデルは異なるマシンアーキテクチャコードに対応している。

実施形態１５：前記実施形態１４の方法であって、前記マシンアーキテクチャコードには、.NET、ｘ８６、及び／又はｘ６４が含まれる。

実施形態１６：前記実施形態１～１５のいずれかの方法であって、前記予測機械学習モデルは、サポートベクターマシン（ＳＶＭ）、線形回帰、ｋ－近傍法（ＫＮＮ）アルゴリズム、ロジスティック回帰、ナイーブベイズ（naive Bayes）、線形判別分析、決定木、ニューラルネットワーク、又は類性学習からなるグループから選択された少なくとも１つの学習アルゴリズムを含む。

実施形態１７：前記実施形態１～１５のいずれかの方法であって、予測機械学習モデルは、ランダムフォレストを含む。

実施形態１８：前記実施形態１７の方法であって、前記ランダムフォレストは複数の決定木を含んでおり、各決定木は学習用のバイトセットで独立的に教育される。

実施形態１９：前記実施形態１８の方法であって、モデル確率値は、複数の決定木確率値を平均化することによって決定され、各決定木確率値は、複数の決定木の各決定木を介してバイト列をトラバースすることによって生成される。

実施形態２０：ファイルにおける実行可能なコードをプログラム的に識別するコンピュータシステムであって、前記システムは、複数のコンピュータで実行可能な指示を記憶するように構成された一以上のコンピュータで読取り可能な記憶装置と、一以上の他のコンピュータで読取り可能な記憶装置と通信可能に接続された一以上のハードウェアコンピュータプロセッサとを備えており、前記一以上のハードウェアコンピュータプロセッサは、複数のコンピュータで実行可能な指示を実行することによって、前記システムに、ファイルの一部からバイト列にアクセスする処理と、前記バイト列から所定数のｎ－グラムを抽出する処理であって、前記各ｎ－グラムは、前記バイト列中の隣接する一連のバイトを含んでおり、前記各ｎ－グラム中の隣接する一連のバイトは、ｎ個のバイトを含む、処理と、カウンタ列を生成する処理であって、前記カウンタ列の各カウンタは、前記ｎ－グラムのうちの１つと関連付けられており、前記各カウンタは整数値を有しており、前記整数値は前記バイト列内の関連付けられたｎ－グラムの発生頻度に基づいて生成される、処理と、前記カウンタ列を入力特徴として予測機械学習モデルに提供する処理と、前記予測機械学習モデルによって、前記バイト列が実行可能なコードを含むモデル確率値を決定する処理とを行わせるように構成されている。

実施形態２１：実行可能なコードから、マルウェア検出モデルに入力する機械学習特徴を自動的に抽出する、コンピュータで実施される方法であって、前記方法は、コンピュータシステムによって、ファイルから前記実行可能なコードにアクセスする処理と、前記コンピュータシステムによって、埋込マトリクスを有する画像再スケーリングアルゴリズムに、前記実行可能なコードを入力する処理であって、前記画像再スケーリングアルゴリズムは、前記実行可能なコードの各バイトを、前記埋込マトリクスを用いて数ベクトルに変換して埋込ベクトル空間を作成し、前記変換を行っている間、前記実行可能なコードの順序が維持される、処理と、前記コンピュータシステムによって、前記埋込ベクトル空間の一以上のベクトル層をチャネルフィルタリングする処理であって、前記チャンネルフィルタリングの処理は、前記一以上のベクトル層を複数のブロックに統合する処理と、フィルタメカニズムを適用して一以上の固定サイズのベクトル入力を生成する処理であって、各固定サイズのベクトル入力は、対応するベクトル層、又は対応するベクトル層のブロックを表している、処理とを含み、前記コンピュータシステムによって、ニューラルネットワークの入力層に前記一以上の固定サイズのベクトル入力を入力する処理であって、前記ニューラルネットワークは、複数の処理部の層を備えており、前記複数の層は、少なくとも、前記入力層と、一以上の隠し層と、出力層とを備えており、前記複数の層の一連の層は、それぞれ前の層の出力値を入力値として使用し、前記出力層は、前記実行可能なコードの悪意度の分類を生成する、処理とを含み、前記コンピュータシステムによって、前記ニューラルネットワークの前記出力層直前の最終隠し層の出力値を抽出する処理と、前記コンピュータシステムによって、機械学習特徴として前記最終隠し層の出力値を、前記マルウェア検出モデルに提供する処理とを含み、前記コンピュータシステムは、コンピュータプロセッサと電子記憶媒体とを備えている。

実施形態２２：前記実施形態２１の方法であって、前記ニューラルネットワークは教師あり学習モデル、半教師あり学習モデル、又は教師なし学習モデルを含む。

実施形態２３：前記実施形態２１又は２２の方法であって、前記実行可能なコードは、ポータブル実行可能（ＰＥ）ファイルの一部である。

実施形態２４：前記実施形態２１～２３のいずれかの方法であって、前記一以上の隠し層のそれぞれは、前記入力値に変換を行い、直後に連続する層への出力値を生成するように構成されている。

実施形態２５：前記実施形態２１～２４のいずれかの方法であって、前記画像再スケーリングアルゴリズムは、前処理ニューラルネットワークを含んでおり、前記前処理ニューラルネットワークは、Word2Vecを含む。

実施形態２６：前記実施形態２１～２５のいずれかの方法であって、前記方法は、前記ニューラルネットワークの出力層から、前記実行可能なコードの悪意度の分類を破棄する処理をさらに含む。

実施形態２７：前記実施形態２１～２６のいずれかの方法であって、前記ニューラルネットワークは１～２０００個の隠し層を含む。

実施形態２８：前記実施形態２１～２７のいずれかの方法であって、前記フィルタメカニズムは、ローパスフィルタ、ボックスフィルタ、デルタフィルタ、又はガウスフィルタを含む。

実施形態２９：実行可能なコードから、マルウェア検出モデルに入力する機械学習特徴を自動的に抽出する、コンピュータシステムであって、前記システムは、複数のコンピュータで実行可能な指示を記憶するように構成された一以上のコンピュータで読取り可能な記憶装置と、一以上の他のコンピュータで読取り可能な記憶装置と通信可能に接続された一以上のハードウェアコンピュータプロセッサとを備えており、前記一以上のハードウェアコンピュータプロセッサは、複数のコンピュータで実行可能な指示を実行することによって、前記システムに、ファイルから前記実行可能なコードにアクセスする処理と、埋込マトリクスを有する画像再スケーリングアルゴリズムに、前記実行可能なコードを入力する処理であって、前記画像再スケーリングアルゴリズムは、前記実行可能なコードの各バイトを、前記埋込マトリクスを用いて数ベクトルに変換して埋込ベクトル空間を作成し、前記変換を行っている間、前記実行可能なコードの順序が維持される、処理と、前記埋込ベクトル空間の一以上のベクトル層をチャネルフィルタリングする処理であって、前記チャンネルフィルタリングは、前記一以上のベクトル層を複数のブロックに統合する処理と、フィルタメカニズムを適用して一以上の固定サイズのベクトル入力を生成する処理であって、各固定サイズのベクトル入力は、対応するベクトル層、又は対応するベクトル層のブロックを表している、処理とによって行われる、処理と、ニューラルネットワークの入力層に前記一以上の固定サイズのベクトル入力を入力する処理であって、前記ニューラルネットワークは、複数の処理部の層を備えており、前記複数の層は、少なくとも、前記入力層と、一以上の隠し層と、出力層とを備えており、前記複数の層の一連の層は、それぞれ前の層の出力値を入力値として使用し、前記出力層は、前記実行可能なコードの悪意度の分類を生成する、処理と、前記ニューラルネットワークの前記出力層直前の最終隠し層の出力値を抽出する処理と、機械学習特徴として前記最終隠し層の出力値を、前記マルウェア検出モデルに提供する処理とを含む。

実施形態３０：前記実施形態２９のシステムであって、前記ニューラルネットワークは教師あり学習モデル、半教師あり学習モデル、又は教師なし学習モデルを含む。

実施形態３１：前記実施形態２９又は３０のシステムであって、前記実行可能なコードは、ポータブル実行可能（ＰＥ）ファイルの一部である。

実施形態３２：前記実施形態２９～３１のいずれかのシステムであって、前記一以上の隠し層のそれぞれは、前記入力値に変換を行い、直後に連続する層への出力値を生成するように構成されている。

実施形態３３：前記実施形態２９～３２のいずれかのシステムであって、前記画像再スケーリングアルゴリズムは、前処理ニューラルネットワークを含んでおり、前記前処理ニューラルネットワークは、Word2Vecを含む。

実施形態３４：前記実施形態２９～３３のいずれかのシステムであって、いくつかの実施形態において、前記システムは、前記ニューラルネットワークの出力層から、前記実行可能なコードの悪意度の分類を破棄するようになっている。

実施形態３５：前記実施形態２９～３４のいずれかのシステムであって、前記ニューラルネットワークは１～２０００個の隠し層を含む。

実施形態３６：前記実施形態２９～３５のいずれかのシステムであって、前記フィルタメカニズムは、ローパスフィルタ、ボックスフィルタ、デルタフィルタ、又はガウスフィルタを含む。

実施形態３７：ライブラリ位置独立コード検出用のシステムであって、複数のコンピュータで実行可能な指示を記憶するように構成された一以上のコンピュータで読取り可能な記憶装置と、一以上の他のコンピュータで読取り可能な記憶装置と通信可能に接続された一以上のハードウェアコンピュータプロセッサとを備えており、前記一以上のハードウェアコンピュータプロセッサは、複数のコンピュータで実行可能な指示を実行することによって、前記システムに、監視対象シンボルのインポートアドレステーブル（ＩＡＴ）エントリを実装する処理を行わせ、前記ＩＡＴエントリを実装する処理は、監視対象シンボルのＩＡＴエントリ内の監視対象シンボルアドレスを改変アドレスで置換する処理と、前記改変アドレスの呼び出しに対してトランポリンコードを実行し、監視対象シンボルの静的呼び出しを検出及び検証する処理と、前記改変アドレスの呼び出しを監視対象シンボルアドレスにリダイレクトする処理とを含み、一以上のローダＡＰＩ関数を実装する処理を行わせ、前記ローダＡＰＩ関数を実装する処理は、前記一以上のローダＡＰＩ関数を改変し、前記トランポリンコードへ導く値を戻す処理と、前記監視対象シンボルの実行を迂回コードに迂回させて、前記監視対象シンボルの呼び出しを検出及び検証する処理と、前記監視対象シンボルの呼び出しを前記監視対象シンボルアドレスにリダイレクトする処理とを含み、前記監視対象シンボルの前記トランポリンコード及び前記迂回コードを監視させて、実行ファイル内の呼び出しが、静的呼び出し、動的呼び出し、又はローカル呼び出しを含んでいるかを判定する処理を行わせ、前記システムが、前記実行ファイル内の少なくとも１つの呼び出しに、静的呼び出し、動的呼び出し、又はローカル呼び出しが含まれていないと判断した場合、マルウェア検出システムのために、当該実行ファイルに不審な、又は、悪意ありのフラグを立てる処理を行わせる。

実施形態３８：前記実施形態３７のシステムであって、前記システムが、前記実行可能コード内の少なくとも１つの呼び出しに、静的呼び出し、動的呼び出し、又はローカル呼び出しが含まれていないと判断した場合、当該少なくとも１つの呼び出しを独立した呼び出しとして分類する。

実施形態３９：前記実施形態３７のシステムであって、前記システムが、前記呼び出しに、静的呼び出し、動的呼び出し、又はローカル呼び出しが含まれると判断した場合、当該呼び出しを良性呼び出しとして分類する。

実施形態４０：前記実施形態３７又は３９のシステムであって、前記システムが、前記呼び出しに、静的呼び出し、動的呼び出し、又はローカル呼び出しが含まれると判断した場合、前記実行ファイルを良性として分類する。

実施形態４１：前記実施形態３７～４０のいずれかのシステムであって、前記トランポリンコード及び前記迂回コードを含むフッキングエンジンと、呼び出しに関するデータを記憶するように構成された、一以上の呼び出しデータベースとを含む。

実施形態４２：前記実施形態３７～４１のいずれかのシステムであって、前記動的呼び出しは、前記実行ファイルの実行中に、前記監視対象シンボルアドレスの取得を試みることが含まれる。

実施形態４３：前記実施形態３７～４２のいずれかのシステムであって、前記静的呼び出しには、前記実行ファイルの初期化中に、前記監視対象シンボルアドレスの取得を試みることが含まれる。

実施形態４４：前記実施形態３７～４３のいずれかのシステムであって、前記実行ファイルからの呼び出しにローカル呼び出しが含まれているか否かを判定する処理には、前記迂回コードを監視して、リターンアドレスが、前記実行ファイルの前記監視対象シンボルと同じアドレスになっているかを判定する処理が含まれる。

実施形態４５：前記実施形態３７～４４のいずれかのシステムであって、前記一以上のローダＡＰＩ関数は、GetModuleHandle又はGetProcAddressのいずれか一方又は両方を含む。

実施形態４６：前記実施形態３７のシステムであって、前記少なくとも１つの呼び出しは、前記実行ファイルが、前記監視対象シンボルを含むモジュールから取得されたメタデータを用いることによって初期化される。

実施形態４７：前記実施形態３７のシステムであって、前記少なくとも１つの呼び出しは、前記実行ファイルがローダの内部記録から取得したデータを用いることによって初期化される。

実施形態４８：前記実施形態３７のシステムであって、前記少なくとも１つの呼び出しは、前記実行ファイルが、前記トランポリンコードをトリガーすることなく監視対象シンボルを呼び出すことによって初期化される。

実施形態４９：ライブラリ位置独立コード検出を行うためのコンピュータにより実施される方法であって、前記方法は、コンピュータシステムによって、監視対象シンボルのインポートアドレステーブル（ＩＡＴ）エントリを実装する処理であって、前記ＩＡＴエントリを実装する処理には、監視対象シンボルのＩＡＴエントリ内の監視対象シンボルアドレスを改変アドレスで置換する処理と、前記改変アドレスの呼び出しに対してトランポリンコードを実行し、監視対象シンボルの静的呼び出しを検出及び検証する処理と、前記改変アドレスの呼び出しを監視対象シンボルアドレスにリダイレクトする処理とが含まれる、処理と、前記コンピュータシステムによって、一以上のローダＡＰＩ関数を実装する処理であって、前記ローダＡＰＩ関数を実装する処理には、前記一以上のローダＡＰＩ関数を改変し、前記トランポリンコードへ導く値を戻す処理と、前記監視対象シンボルの実行を迂回コードに迂回させて、前記監視対象シンボルの呼び出しを検出及び検証する処理と、前記監視対象シンボルの呼び出しを前記監視対象シンボルアドレスにリダイレクトする処理とが含まれる、処理と、前記コンピュータシステムによって、前記監視対象シンボルの前記トランポリンコード及び前記迂回コードを監視する処理であって、実行ファイル内の呼び出しが、静的呼び出し、動的呼び出し、又はローカル呼び出しを含んでいるかを判定する処理と、前記コンピュータシステムが、前記実行ファイル内の少なくとも１つの呼び出しに、静的呼び出し、動的呼び出し、又はローカル呼び出しが含まれていないと判断した場合、前記コンピュータシステムがマルウェア検出システムのために、当該実行ファイルに不審な、又は、悪意ありのフラグを立てる処理と、を含み、前記コンピュータシステムはコンピュータプロセッサと電子記憶媒体を備えている。

実施形態５０：前記実施形態４９の方法であって、前記方法は、前記コンピュータシステムが、少なくとも１つの呼び出しに、静的呼び出し、動的呼び出し、又はローカル呼び出しが含まれていないと判断した場合、当該少なくとも１つの呼び出しを独立した呼び出しとして分類する処理を含むことを特徴とする方法。

実施形態５１：前記実施形態４９の方法であって、前記方法は、前記コンピュータシステムが前記呼び出しに、静的呼び出し、動的呼び出し、又はローカル呼び出しが含まれると判断した場合、当該呼び出しを良性呼び出しとして分類する処理を含む。

実施形態５２：前記実施形態４９又は５１の方法であって、前記方法は、前記コンピュータシステムが前記呼び出しに、静的呼び出し、動的呼び出し、又はローカル呼び出しが含まれると判断した場合、前記実行ファイルを良性として分類する処理を含む。

実施形態５３：前記実施形態４９～５２のいずれかの方法であって、前記トランポリンコード及び前記迂回コードは、フッキングエンジンの一以上の部分を含んでおり、前記フッキングエンジンは、前記呼び出しに関連するデータを記憶するように構成された呼び出しデータベースに接続されている。

実施形態５４：前記実施形態４９～５３のいずれかの方法であって、前記動的呼び出しは、前記実行ファイルの実行中に、前記監視対象シンボルアドレスの取得を試みることが含まれる。

実施形態５５：前記実施形態４９～５４のいずれかの方法であって、前記静的呼び出しには、前記実行ファイルの初期化中に、前記監視対象シンボルアドレスの取得を試みることが含まれる。

実施形態５６：前記実施形態４９～５５のいずれかの方法であって、前記実行ファイルからの呼び出しにローカル呼び出しが含まれているか否かを判定する処理には、前記迂回コードを監視して、リターンアドレスが、前記実行ファイルの前記監視対象シンボルと同じアドレスになっているかを判定する処理が含まれる。

実施形態５７：前記実施形態４９～５６のいずれかの方法であって、前記一以上のローダＡＰＩ関数は、GetModuleHandle又はGetProcAddressのいずれか一方又は両方を含む。

実施形態５８：前記実施形態４９の方法であって、前記少なくとも１つの呼び出しは、前記実行ファイルが、前記監視対象シンボルを含むモジュールから取得されたメタデータを用いることによって初期化される。

実施形態５９：前記実施形態４９の方法であって、前記少なくとも１つの呼び出しは、前記実行ファイルがローダの内部記録から取得したデータを用いることによって初期化される。

実施形態６０：前記実施形態４９の方法であって、前記少なくとも１つの呼び出しは、前記実行ファイルが、前記トランポリンコードをトリガーすることなく監視対象シンボルを呼び出すことによって初期化される。

Claims

ライブラリ位置独立コード検出用のシステムであって、
複数のコンピュータで実行可能な指示を記憶するように構成された一以上のコンピュータで読取り可能な記憶装置と、
一以上の他のコンピュータで読取り可能な記憶装置と通信可能に接続された一以上のハードウェアコンピュータプロセッサとを備えており、前記一以上のハードウェアコンピュータプロセッサは、複数のコンピュータで実行可能な指示を実行することによって、前記システムに、
監視対象シンボルのインポートアドレステーブル（ＩＡＴ）エントリを実装する処理を行わせ、前記ＩＡＴエントリを実装する処理は、
監視対象シンボルのＩＡＴエントリ内の監視対象シンボルアドレスを改変アドレスで置換する処理と、
前記改変アドレスの呼び出しに対してトランポリンコードを実行し、監視対象シンボルの呼び出しを検出及び検証する処理と、
前記改変アドレスの呼び出しを監視対象シンボルアドレスにリダイレクトする処理とを含み、
一以上のローダＡＰＩ関数を実装する処理を行わせ、前記ローダＡＰＩ関数を実装する処理は、
前記一以上のローダＡＰＩ関数を改変し、前記トランポリンコードへ導く値を戻す処理と、
前記監視対象シンボルの実行を迂回コードに迂回させて、前記監視対象シンボルの呼び出しを検出及び検証し、
前記監視対象シンボルの呼び出しを前記監視対象シンボルアドレスにリダイレクトする処理とを含み、
前記監視対象シンボルの前記トランポリンコード及び前記迂回コードを監視させて、実行ファイル内の呼び出しが、静的呼び出し、動的呼び出し、又はローカル呼び出しを含んでいるかを判定する処理を行わせ、
前記システムが、前記実行ファイル内の少なくとも１つの呼び出しに、静的呼び出し、動的呼び出し、又はローカル呼び出しが含まれていないと判断した場合、マルウェア検出システムのために、当該実行ファイルに不審な、又は、悪意ありのフラグを立てる処理を行わせることを特徴とするシステム。
請求項１に記載のシステムであって、前記システムが、前記実行可能コード内の少なくとも１つの呼び出しに、静的呼び出し、動的呼び出し、又はローカル呼び出しが含まれていないと判断した場合、当該少なくとも１つの呼び出しを独立した呼び出しとして分類することを特徴とするシステム。
請求項１に記載のシステムであって、前記システムが、前記呼び出しに、静的呼び出し、動的呼び出し、又はローカル呼び出しが含まれると判断した場合、当該呼び出しを良性呼び出しとして分類することを特徴とするシステム。
請求項１又は２に記載のシステムであって、前記システムが、前記呼び出しに、静的呼び出し、動的呼び出し、又はローカル呼び出しが含まれると判断した場合、前記実行ファイルを良性として分類することを特徴とするシステム。
請求項１に記載のシステムであって、
前記トランポリンコード及び前記迂回コードを含むフッキングエンジンと、
呼び出しに関するデータを記憶するように構成された、一以上の呼び出しデータベースとを含むことを特徴とするシステム。
請求項１～５のいずれか１項に記載のシステムであって、前記動的呼び出しは、前記実行ファイルの実行中に、前記監視対象シンボルアドレスの取得を試みることが含まれることを特徴とするシステム。
請求項１～６のいずれか１項に記載のシステムであって、前記静的呼び出しには、前記実行ファイルの初期化中に、前記監視対象シンボルアドレスの取得を試みることが含まれることを特徴とするシステム。
請求項１～７のいずれか１項に記載のシステムであって、前記実行ファイルからの呼び出しにローカル呼び出しが含まれているか否かを判定する処理には、前記迂回コードを監視して、リターンアドレスが、前記実行ファイルの前記監視対象シンボルと同じアドレスになっているかを判定する処理が含まれることを特徴とするシステム。
請求項１～８のいずれか１項に記載のシステムであって、前記一以上のローダＡＰＩ関数は、GetModuleHandle又はGetProcAddressのいずれか一方又は両方を含むことを特徴とするシステム。
請求項１～９のいずれか１項に記載のシステムであって、前記少なくとも１つの呼び出しは、前記実行ファイルが、前記監視対象シンボルを含むモジュールから取得されたメタデータを用いることによって初期化されることを特徴とするシステム。
請求項１～９のいずれか１項に記載のシステムであって、前記少なくとも１つの呼び出しは、前記実行ファイルがローダの内部記録から取得したデータを用いることによって初期化されることを特徴とするシステム。
請求項１～９のいずれか１項に記載のシステムであって、前記少なくとも１つの呼び出しは、前記実行ファイルが、前記トランポリンコードをトリガーすることなく監視対象シンボルを呼び出すことによって初期化されることを特徴とするシステム。
ライブラリ位置独立コード検出を行うためのコンピュータにより実施される方法であって、前記方法は、
コンピュータシステムによって、監視対象シンボルのインポートアドレステーブル（ＩＡＴ）エントリを実装する処理であって、前記ＩＡＴエントリを実装する処理には、
監視対象シンボルのＩＡＴエントリ内の監視対象シンボルアドレスを改変アドレスで置換する処理と、
前記改変アドレスの呼び出しに対してトランポリンコードを実行し、監視対象シンボルの静的呼び出しを検出及び検証する処理と、
前記改変アドレスの呼び出しを監視対象シンボルアドレスにリダイレクトする処理とが含まれる、処理と、
前記コンピュータシステムによって、一以上のローダＡＰＩ関数を実装する処理であって、前記ローダＡＰＩ関数を実装する処理には、
前記一以上のローダＡＰＩ関数を改変し、前記トランポリンコードへ導く値を戻す処理と、
前記監視対象シンボルの実行を迂回コードに迂回させて、前記監視対象シンボルの呼び出しを検出及び検証する処理と、
前記監視対象シンボルの呼び出しを前記監視対象シンボルアドレスにリダイレクトする処理とが含まれる、処理と、
前記コンピュータシステムによって、前記監視対象シンボルの前記トランポリンコード及び前記迂回コードを監視する処理であって、実行ファイル内の呼び出しが、静的呼び出し、動的呼び出し、又はローカル呼び出しを含んでいるかを判定する処理と、
前記コンピュータシステムが、前記実行ファイル内の少なくとも１つの呼び出しに、静的呼び出し、動的呼び出し、又はローカル呼び出しが含まれていないと判断した場合、前記コンピュータシステムがマルウェア検出システムのために、当該実行ファイルに不審な、又は、悪意ありのフラグを立てる処理と、を備え、
前記コンピュータシステムはコンピュータプロセッサと電子記憶媒体を備えていることを特徴とする方法。
請求項１３に記載の方法であって、前記方法は、前記コンピュータシステムが、少なくとも１つの呼び出しに、静的呼び出し、動的呼び出し、又はローカル呼び出しが含まれていないと判断した場合、当該少なくとも１つの呼び出しを独立した呼び出しとして分類する処理を含むことを特徴とする方法。
請求項１３に記載の方法であって、前記方法は、前記コンピュータシステムが前記呼び出しに、静的呼び出し、動的呼び出し、又はローカル呼び出しが含まれると判断した場合、当該呼び出しを良性呼び出しとして分類する処理を含むことを特徴とする方法。
請求項１３又は１４に記載の方法であって、前記方法は、前記コンピュータシステムが前記呼び出しに、静的呼び出し、動的呼び出し、又はローカル呼び出しが含まれると判断した場合、前記実行ファイルを良性として分類する処理を含むことを特徴とする方法。
請求項１３～１６のいずれか１項に記載の方法であって、前記トランポリンコード及び前記迂回コードは、フッキングエンジンの一以上の部分を含んでおり、前記フッキングエンジンは、前記呼び出しに関連するデータを記憶するように構成された呼び出しデータベースに接続されていることを特徴とする方法。
請求項１３～１７のいずれか１項に記載の方法であって、前記動的呼び出しには、前記実行ファイルの実行中に、前記監視対象シンボルアドレスの取得を試みることが含まれることを特徴とする方法。
請求項１３～１８のいずれか１項に記載の方法であって、前記静的呼び出しには、前記実行ファイルの初期化中に、前記監視対象シンボルアドレスの取得を試みることが含まれることを特徴とする方法。
請求項１３～１９のいずれか１項に記載の方法であって、前記実行ファイルからの呼び出しにローカル呼び出しが含まれているか否かを判定する処理には、前記迂回コードを監視して、リターンアドレスが、前記実行ファイルの前記監視対象シンボルと同じアドレスになっているかを判定する処理が含まれることを特徴とする方法。
請求項１３～２０のいずれか１項に記載の方法であって、前記一以上のローダＡＰＩ関数は、GetModuleHandle又はGetProcAddressのいずれか一方又は両方を含むことを特徴とする方法。
請求項１３～２１のいずれか１項に記載の方法であって、前記少なくとも１つの呼び出しは、前記実行ファイルが、前記監視対象シンボルを含むモジュールから取得されたメタデータを用いることによって初期化されることを特徴とする方法。
請求項１３～２１のいずれか１項に記載の方法であって、前記少なくとも１つの呼び出しは、前記実行ファイルがローダの内部記録から取得したデータを用いることによって初期化されることを特徴とする方法。
請求項１３～２１のいずれか１項に記載の方法であって、前記少なくとも１つの呼び出しは、前記実行ファイルが、前記トランポリンコードをトリガーすることなく監視対象シンボルを呼び出すことによって初期化されることを特徴とする方法。