JP2022522383A

JP2022522383A - 既知及び／又は未知のサイバーセキュリティ脅威の形態素解析によりデータ異常を検出するシステム及び方法

Info

Publication number: JP2022522383A
Application number: JP2021505691A
Authority: JP
Inventors: リンチャン，メイ; ボウグエッラ，ニザール
Original assignee: フレクソンピーティーイー．リミテッド
Priority date: 2020-03-09
Filing date: 2020-07-30
Publication date: 2022-04-19
Anticipated expiration: 2040-07-30
Also published as: DK3899770T3; JP7092939B2; NZ767245A; IL289367B; IL289367A

Abstract

本明細書は、異常なデータファイルを検出すると共に、検出された異常なデータファイルがデータストレージに保存されるのを防止するシステム及び方法を記載する。特に、本システム及び方法は、各データファイルをデータのブロックに分割することにより異常なデータファイルを検出することにより、各データブロックにエントロピー値が得られ、当該情報を照合し、その後機械学習モデルで使用してデータファイルのセキュリティレベルを確認する。

Description

発明の分野
本発明は、異常なデータファイルを検出すると共に、検出された異常なデータファイルがデータストレージに保存されるのを防止するシステム及び方法に関する。特に、本システム及び方法は、各データファイルをデータのブロックに分割して異常なデータファイルを検出することにより各データブロックにエントロピー値が得られ、当該情報を照合し、その後機械学習モデルで使用してデータファイルのセキュリティレベルを確認する。

先行技術の要約
今日のデジタル時代において、コンピュータシステムが様々な形式及び種類の悪意あるサイバー攻撃に晒される機会が増えている。これらの攻撃の目的はコンピュータシステムに違法にアクセスすることであり、典型的にはシステム管理者の知らない間にコンピュータシステムにインストールされた悪意あるソフトウェア（「マルウェア」としても知られる）を介して実行される。マルウェアは、システムのネットワーク（例：電子メール又はウェブサイト）から、システムに挿入されたＣＤ－ＲＯＭ、又はシステムに接続された外部記憶装置を介して様々な仕方でコンピュータシステムにインストールされ得る。マルウェアがシステムへのアクセスに成功した場合、（例えばバックドアを設けることにより）システムのセキュリティを破り、機微情報にアクセスして、最も重要なファイルを削除することによりシステムを誤動作させて壊滅的損害を与える恐れがある。

一旦マルウェアがインストールされてしまえば、益々検出が極めて困難になるため攻撃者によりコンピュータシステムが容易に乗っ取られることが一般に認識されている。

上述の問題に対処すべく、当業者は、このようなマルウェア又はデータがコンピュータシステムに侵入できる前に識別すべきであると提案している。これによりマルウェアが識別されたならば分類されて、当該マルウェアにより生じ得る損害の程度をよく把握して、再びマルウェアが生じても損害を防止することができる。マルウェアを識別すべく提案されてきた各種の技術には、時間的解析及びライブ更新アプローチが含まれ、これらを用いてデータベースを更新し、当該データベースを用いて既知の悪意ある主体をフィルタリングして、保護対象のコンピュータシステムに悪影響を及ぼし得ないようにする。

最初に、最も分かり易い方法は、プログラムが動作中に疑わしいプログラムをシステム管理者が手動で解析することであろう。管理者は次いで結果を見て、当該プログラムをマルウェア又は信頼できるソフトウェアのどちらとして扱うべきかを判定する。管理者は、プログラムを解析する間にプログラムを逆コンパイルして、コードの特定の行を調査するか又はコンピュータシステム及び／又は外部機器と対話するアプリケーションプログラムインターフェース（ＡＰＩ）呼び出しに特別な注意を払って、これらの呼び出しが悪意ある挙動を示すか否かを判定し得る。このようなアプローチは徹底的且つ詳細であるが、極めて長い時間を要し非効率的である。従って当業者は代替的な自動化された方法を提案してきた。

時間的解析アプローチでは、影響を受けたシステム内でのあらゆる動作をソートし、時系列的に確認することにより特定期間内に生じた疑わしいイベントを精査することができる。このようなイベントとして、アクセス／インストール／削除／変更されたファイル、ユーザー入力のログ、開始又は終了した処理（バックグラウンド処理を含む）、当該期間中にリモートアクセスされたネットワークポート等が含まれていてよい。マルウェアのインストールを許したイベントが検出されたならば、コンピュータシステムの脅威分類システムは適宜更新され、そのようなイベントの再発生を防止することができる。

ファイル及びイベントログ等の静的履歴データの確認の代替案として、プログラムの動作中にライブプログラムやシステムメモリの内容を確認し、コンピュータシステムの使用中に、攻撃者がどのように内容を変更したかを識別すべく現在のネットワークポートの動作、及び他の種類のメタデータを確認するライブ更新法である。次いで当該方法から得られた情報を用いて当該システムの脅威分類システムを更新してもよい。

更新された脅威分類システムは次いで、システムに導入する新規ファイルの確認に用いてもよい。これは新規ファイルの特性を以前に遭遇した既知のファイルのデータベースと比較することにより行われる。このような比較は典型的に、比較するデータを暗号的にハッシュすることにより、すなわち数学的関数を適用してデータをコンパクトな数値表現に変換することにより行われる。従って同一アルゴリズムを用いて生成された２個のハッシュが異なる場合、新規ファイルが汚染された可能性があることを示唆するものと仮定する。

上で提案したアプローチの短所は、ゼロデイ型のマルウェアがコンピュータシステムに影響を及ぼすのを防止できず、以前に検出されたものと同じマルウェアの再発生の防止に役立つのに過ぎない点である。換言すれば、これらのマルウェアに僅かでも修正がなされていれば、当該マルウェアがシステムの防御をすり抜けてコンピュータシステムに影響を及ぼす可能性が高い。

潜在的に乗っ取られたコンピュータシステム上での疑わしい活動を識別すべく提案されてきた他の技術は多くの場合大量のデータを生成し、脅威分類システムの更新に使用し得る前にこれら全てを確認及び解釈しれなければならない。更に厄介なのは、マルウェア自体が常に進化しており、自身の存在をカモフラージュすべく各種の方法を用いることにより既存の検出方法を迂回する新たな手口を発展させているため、コンピュータセキュリティシステムの役割を果たすことが更に困難になっている。これらの技術のいくつかは、システムのログファイルエントリ、ファイル変更／アクセス日付、及びシステム処理等、システムへの侵入の証拠の削除を含んでいる。上記に加え、名前又は実行プロファイルをあたかも無害なものに見せかけるように変更することによりマルウェア自体の素性を難読化してマルウェアを効果的にカモフラージュすることができる。

しかし、データが暗号化、圧縮、又は難読化（難読化の方法に依存）されている場合、そのエントロピー値、すなわち乱雑性の程度は「組織化された」データよりも高い傾向がある。換言すれば、ユーザーが生成したドキュメント及びコンピュータプログラムは一般に、デバッグが容易なように構造化及び組織化されている傾向がある一方、暗号化されたデータはエントロピーの測定値が高い傾向がある。

エントロピーの測定値がマルウェア又は攻撃者の隠されたデータ保存場所を確実に識別する方法ではないことが認識されている。正当なプログラムは、暗号化された、又はより一般的には圧縮された情報、をコンピュータシステムに保存することができる。しかし、極めて基本的なレベルにおいて、エントロピーの検査は潜在的に問題を含むプログラムの識別に優れた初期フィルタを提供する。これにより、極めて詳細な解析を要するデータの量が大幅に減る。

しかし、データブロック毎にエントロピー値を生成する仕方に起因して、あるデータブロックが、当該データブロックの特定の区画が実際に少数の難読化されたマルウェアのブロックを含んでいる恐れがある場合に、低いエントロピー値を返す可能性がある。そのようなシナリオが起こり得るのは、攻撃者が比較的低いエントロピーを有するデータブロックに暗号化されたマルウェアを配置することによりマルウェアの存在を効果的にマスキングした場合である。

上記に鑑みて、コンピュータシステム内におけるマルウェアの存在を検出すべくエントロピーの確固たる測定値を導出すると共に、検出処理中に生成された偽陽性の個数を減らす技術が最も望ましい。

上述の理由により、当業者は常に、データファイルに適したエントロピー値を生成し、これらのエントロピー値及びデータファイルに関する他の情報を教師付き機械学習モデルに提供して、そのようなファイルがコンピュータシステムの記憶装置に保存される前に異常なデータファイルを検出及び識別可能なシステム及び方法に想到すべく努めている。

発明の概要
本発明による複数の実施形態で提供するシステム及び方法により上記及び他の課題が解決され且つ当技術分野が発展する。

本発明によるシステム及び方法の複数の実施形態の第１の利点は、ゼロデイ型の異常なファイルを効果的且つ効率的に識別できることである。

本発明によるシステム及び方法の複数の実施形態の第２の利点は、未だ脅威として指定又は認識されていない異常なファイルを遮断し、当該情報を用いてシステムの脅威識別器を訓練して同様のマルウェアの進化を防止することである。

本発明によるシステム及び方法の複数の実施形態の第３の利点は、システムに導入されたファイル種類に依らず、当該ファイルを解析してその脅威値を判定することである。

本発明によるシステム及び方法の複数の実施形態の第４の利点は、データフラッシュコントローラのフロントエンドマネージャがファイルにより実行されるコマンドを常時サンプリングすべく構成されているため、システムに導入された（且つデータファイルを一切含み得ない）ファイルの種類及び／又はサイズに依らず、ファイルにより起動された任意の読み出し／書き込み／上書きコマンドが解析されることである。サンプリング周期は数百ミリ秒～数十秒の範囲で可変であり得、またこうすることによりランサムウェア攻撃からシステムを守る。

上述の利点は、以下のように動作する本発明による方法の複数の実施形態によりもたらされる。

本発明の第１の態様によれば、受信したデータオブジェクト内のデータ異常を検出するシステムを開示し、本システムは、処理部と、当該処理部により可読な非一時的な媒体とを含み、当該媒体は複数の命令を保存し、当該命令が処理部により実行された場合、処理部に、データオブジェクトのデジタル署名及びファイル種類に基づいてデータオブジェクトのセキュリティ体制を判定させ、セキュリティ体制及びセキュリティ体制に関連付けられたデータオブジェクトの特徴に基づいてタイプセキュリティプラットフォーム（ＴＳＰ）参照表を生成させると共に、ＴＳＰ参照表に基づいて受信したデータオブジェクトに対して難読化値及びフォレンジック値を生成させ、データオブジェクトの分解値又は解釈値を生成させ、受信したデータオブジェクトの各ブロックに結果値を計算させることにより各ブロックに受信したデータオブジェクトのブロックに関連付けられた分解又は解釈値、難読化値及びフォレンジック値に基づいて結果値を生成させ、データオブジェクトの全ての結果値に基づいてデータモデルを構築させ、人工知能（ＡＩ）アルゴリズムを用いてデータモデルを処理させてデータオブジェクトがデータ異常を含むか否かを判定させる。

第１の態様を参照するに、受信したデータオブジェクトに対して難読化値を生成する命令は処理部に、データオブジェクトを複数のデータブロックに分割させ、各データブロックにシャノンエントロピー値を計算させる命令を含んでいる。

第１の態様を参照するに、受信したデータオブジェクトに対してフォレンジック値を生成する命令は処理部に、データオブジェクトを複数のデータブロックに分割させ、頻度に基づく類似度ハッシングスキームを用いて各データブロックに類似度スコアを計算させる命令を含んでいる。

第１の態様を参照するに、受信したデータオブジェクトの各ブロックに結果値を生成する命令は処理部に、受信したデータの各ブロックに３バイトを含む結果値を生成させる命令を含み、これにより各ブロックに命令は処理部に、データオブジェクトの分解又は解釈値に基づいて、結果値の第１バイトの最上位ビット（ＭＳＢ）及び第２位のＭＳＢを設定させ、第１バイトの残りのビットを結果値の第２バイトと照合して構文解析させ、ブロックに関連付けられた難読化値に基づいて構文解析の結果を設定させ、ブロックに関連付けられたフォレンジック値に基づいて第３バイトの値を設定させる。

第１の態様を参照するに、データオブジェクトの全ての結果値に基づいてデータモデルを構築する命令は処理部に、データ画像モデルを生成させる命令を含み、これによりデータ画像モデル内の各ピクセルが一意な結果値に関連付けられ、各々の一意な結果値がデータ画像モデル内で一意な画像により表される。

第１の態様を参照するに、データモデルの処理に用いるＡＩアルゴリズムは、畳み込みニューラルネットワーク（ＣＮＮ）モデル、ディープニューラルネットワーク（ＤＮＮ）モデル又は再帰的ニューラルネットワーク（ＲＮＮ）モデルを含んでいる。

第１の態様を参照するに、人工知能（ＡＩ）アルゴリズムを用いてデータモデルを処理する命令は処理部に、データモデルをデータベース内に含まれるデータモデルと比較させる命令を含み、比較は機械学習アルゴリズムを用いて実行される。

第１の態様を参照するに、媒体は、処理部に、データオブジェクトを受信及び保存すべく構成された仮想ファイルシステムを提供させる命令を更に含み、これにより仮想ファイルシステムは処理部に仮想ファイルシステム内の全てのステップを実行させる。

第１の態様を参照するに、デジタル署名はデータオブジェクトに関連付けられたマジックナンバーを含んでいる。

第１の態様を参照するに、セキュリティ体制に関連付けられたデータオブジェクトの特徴は、当該データオブジェクトのプラットフォーム種類及びファイル種類を含んでいる。

本発明の第２の態様によれば、人工知能（ＡＩ）モジュールを用いて受信したデータオブジェクト内のデータ異常を検出する方法を開示し、本方法は以下のステップ、すなわち、ＡＩモジュール内に設けられた解析器モジュールを用いて、データオブジェクトのデジタル署名及びファイル種類に基づいてデータオブジェクトのセキュリティ体制を判定するステップと、ＡＩモジュール内に設けられた解析器モジュール及び検出器モジュールを用いて、セキュリティ体制及びセキュリティ体制に関連付けられたデータオブジェクトの特徴に基づいてタイプセキュリティプラットフォーム（ＴＳＰ）参照表を生成すると共に、ＴＳＰ参照表に基づいて受信したデータオブジェクトに対して難読化値及びフォレンジック値を生成するステップと、ＡＩモジュール内に設けられた分解及び解釈モジュールを用いて、データオブジェクトの分解又は解釈値を生成するステップと、ＡＩモジュール内に設けられたブロック構築モジュールを用いて、受信したデータオブジェクトの各ブロック毎の結果値を計算することにより各ブロック毎の結果値を分解又は解釈値、受信したデータオブジェクトのブロックに関連付けられた難読化値及びフォレンジック値に基づいて生成するステップと、ＡＩモジュール内に設けられたモデル生成器モジュールを用いて、データオブジェクトの全ての結果値に基づいてデータモデルを構築するステップと、ＡＩモジュール内に設けられたＡＩ脅威モジュールを用いて、人工知能（ＡＩ）アルゴリズムを用いてデータモデルを処理してデータオブジェクトがデータ異常を含むか否かを判定するステップとを含んでいる。

第２の態様を参照するに、受信したデータオブジェクトに対して難読化値を生成するステップは、データオブジェクトを複数のデータブロックに分割するステップと、各データブロックにシャノンエントロピー値を計算するステップとを含んでいる。

第２の態様を参照するに、受信したデータオブジェクトに対してフォレンジック値を生成するステップは、データオブジェクトを複数のデータブロックに分割するステップと、頻度に基づく類似度ハッシングスキームを用いて各データブロックに類似度スコアを計算するステップとを含んでいる。

第２の態様を参照するに、受信したデータオブジェクトの各ブロックに結果値を生成するステップは、受信したデータの各ブロックに３バイトを含む結果値を生成するステップを含み、これにより各ブロックに、本方法は、データオブジェクトの分解又は解釈値に基づいて結果値の第１バイトの最上位ビット（ＭＳＢ）及び第２ＭＳＢを設定し、第１バイトの残りのビットを結果値の第２バイトと照合して構文解析して、当該ブロックに関連付けられた難読化値に基づいて構文解析の結果を設定し、当該ブロックに関連付けられたフォレンジック値に基づいて第３バイトの値を設定する。

第２の態様を参照するに、データオブジェクトの全ての結果値に基づいてデータモデルを構築するステップは、データ画像モデルを生成することによりデータ画像モデルの各ピクセルが一意な結果値に関連付けられ、各々の一意な結果値はデータ画像モデル内で一意な画像により表されるステップを含んでいる。

第２の態様を参照するに、データモデルの処理に用いるＡＩアルゴリズムは、畳み込みニューラルネットワーク（ＣＮＮ）モデル、ディープニューラルネットワーク（ＤＮＮ）モデル、又は再帰的ニューラルネットワーク（ＲＮＮ）モデルを含んでいる。

第２の態様を参照するに、人工知能（ＡＩ）アルゴリズムを用いてデータモデルを処理するステップは、当該データモデルをデータベース内に含まれる複数のデータモデルと比較するステップを含み、当該比較は機械学習アルゴリズムを用いて実行される。

第２の態様を参照するに、データオブジェクトのデジタル署名及びファイル種類に基づいてデータオブジェクトのセキュリティ体制を判定するステップの前に、本方法は、解析器モジュールを用いて、データオブジェクトを受信及び保存する仮想ファイルシステムを提供することにより仮想ファイルシステムは仮想ファイルシステム内で本方法の全てのステップを実行させるステップを更に含んでいる。

第２の態様を参照するに、デジタル署名はデータオブジェクトに関連付けられたマジックナンバーを含んでいる。

第２の態様を参照するに、セキュリティ体制に関連付けられたデータオブジェクトの特徴は、当該データオブジェクトのプラットフォーム種類及びファイル種類を含んでいる。

図面の簡単な説明
上記及び他の問題は、詳細な説明に記述すると共に以下の図面に示す本発明によるシステム及び方法の特徴及び利点により解決される。

本発明の複数の実施形態による、異常を検出及び解析する方法の実装に用いてよいモジュールのブロック図を示す。本発明の複数の実施形態による、複数の実施形態を提供する処理システムを表すブロック図を示す。本発明の複数の実施形態による、異常なデータファイルを検出する処理又は方法。本発明の複数の実施形態による、３２ビットセキュリティ参照表を利用してデータモデルを構築する処理又は方法を示す。本発明の複数の実施形態による、例示的データオブジェクトについて得られたサンプリングレートに対してプロットされたエントロピー値を示すグラフを示す。ｘ軸がある種類の動作の頻度を表し、ｙ軸がデータオブジェクトの分解後のある種類の動作を表すプロットを示す。本発明の複数の実施形態による、データモデルの画像を生成するための５１２×５１２ピクセルのプロットを示す。本発明の複数の実施形態による、データモデルの生成された画像を示す。本発明の複数の実施形態による、生成されたデータ画像モデルと、以前は事前訓練済みデータセットモデル用であった画像との比較を示す。本発明の複数の実施形態による、図４に示す処理により生成されたデータセットモデルを機械学習モデルを用いて当該データセットモデルの特徴に基づいてスコアリングすることにより、当該スコアを用いてデータファイルの正確度を判定する処理又は方法を示す。

詳細な説明
本発明は、異常なデータファイルを検出し、検出された異常なデータファイルがデータストレージに保存されるのを防止するシステム及び方法に関する。特に、本システム及び方法は、各データファイルを複数のデータブロックに分割することにより、各データブロックにエントロピー値が得られ、当該情報が照合され、次いで機械学習モデルで用いてデータファイルのセキュリティレベルを確認する。異常であることが分かったファイルは次いで検疫される一方、問題無いとみなされたファイルは次のステップに進むことができるため、（たとえ当該ファイルがデータセクションを一切含まない場合であっても）バックグラウンドで動作し得るマルウェア及び／又はランサムウェアコマンドに関して解析される。

本発明については、添付図面に示すいくつかの実施形態を参照しながら以下に詳述する。以下の記述において、本発明の複数の実施形態に対する理解を深めるべく多くの具体的な特徴を開示する。しかし当業者には、これら具体的な特徴の一部又は全部が無くても複数の実施形態が実現可能であることは明らかであろう。このような実施形態もまた本発明の範囲内に含めるべきである。更に、不必要に本発明を煩雑にしないよう、以下の特定の処理ステップ及び／又は構造の詳細な記述を割愛して対応する引用文献の参照を読者に委ねる場合がある。

更に、当業者は、以下の記述において多くの機能単位が本明細書全体を通じてモジュールと称されることを認識されよう。当業者はまた、１個のモジュールが複数の回路、論理チップ又は任意の種類の別個の要素として実現可能であることも認識されよう。また更に、当業者は１個のモジュールがソフトウェアに実装され、次いで様々なプロセッサアーキテクチャにより実行可能であることも認識されよう。本発明の複数の実施形態において、１個のモジュールはまた、受信した命令に基づいてコンピュータプロセッサに一連のイベントを実行するよう命令できるコンピュータ命令又は実行コードを含んでいてよい。モジュールの実装方式の選択は当業者の設計上の選択に委ねられており、本発明の範囲を一切限定するものではない。

ＡＩコアプロセッサにより異常なデータファイルを検出、解析、及び識別する本発明の複数の実施形態による例示的な処理又は方法を以下のステップで示す。本処理又は方法のステップは以下の通りである。

ステップ１：データオブジェクトのデジタル署名及びファイル種類に基づいてデータオブジェクトのセキュリティ体制を判定する。

ステップ２：セキュリティ体制及びセキュリティ体制に関連付けられたデータオブジェクトの特徴に基づいてタイプセキュリティプラットフォーム（ＴＳＰ）参照表を生成し、受信したデータオブジェクトに対して難読化値及びフォレンジック値を生成する。

ステップ３：データオブジェクトの分解値又は解釈値を生成する。

ステップ４：受信したデータオブジェクトの各ブロックに結果値を計算することにより受信したデータオブジェクトのブロックに関連付けられた分解又は解釈値、難読化値及びフォレンジック値に基づいて各ブロックに結果値を生成する。

ステップ５：データオブジェクトの全ての結果値に基づいてデータモデルを構築する。

ステップ６：人工知能（ＡＩ）アルゴリズムを用いてデータモデルを処理してデータオブジェクトがデータ異常を含むか否かを判定する。

本発明の複数の実施形態によれば、上で開示したステップは、図１に示すように人工知能（ＡＩ）コアモジュール１０５内に含まれる複数のモジュールにより実行できるため、ＡＩコアモジュール１０５は、合成モジュール１１０、ＡＩ高性能解析器モジュール１０６、ＡＩ脅威モジュール１０７、検証モジュール１４０及びストレージ１５０を含んでいる。

次に、合成モジュール１１０は、解析器１１１、プラットフォーム検出器１１２、分解／解釈１１３、及びブロック構築１１４のサブモジュールを含み、一方ＡＩ高性能解析器モジュール１０６は出力構造ブロック１２０、特徴抽出器１２１、及びモデル生成器１２２のサブモジュールを含んでいる。ＡＩ脅威モジュール１０７に関して、当該モジュールは、ＡＩ検索１３０、データベース１３１、及び訓練済みデータベース１３２のサブモジュールを含んでいる。

本発明の複数の実施形態において、データ１０１はあらゆる種類及び形式のデータオブジェクトを含み、これらのデータの内容はビデオファイル、文書、画像、スプレッドシート、アプリケーションプログラミングインターフェース、実行可能ファイル及び各種のファイル拡張子／又は読出／書込（消去）コマンド等のダミーコマンドバイトを有する他のあらゆる種類のファイルを含んでいてよいが、これらに限定されない。一般に、データ１０１は複数の部分オブジェクト１０２に分割されていてよく、これらが組み合わされて全体としてデータ１０１を構成する。本発明の複数の実施形態において、データ１０１はより小さい部分オブジェクト１０２に分類されているため、ＡＩコアモジュール１０５はこれらのより小さい部分オブジェクトの各々を効率的且つ効果的に処理することが容易になろう。

データ１０１又はオブジェクト１０２（再分割データ１０１）は次いで合成モジュール１１０により受信される。以下、データ１０１に言及するものの、当業者は、以下に議論するステップ及び処理が各種のデータオブジェクト及び部分オブジェクト１０２に適用されても本発明から逸脱しないことを認識されよう。データ１０１を受信した場合、解析器モジュール１１１はデータ１０１のデータ構造を解析してデータ１０１の構造及び構成に関する更なる詳細事項及び情報を取得する。本発明の一実施形態において、解析器モジュール１１１は、デジタル署名参照表、ファイル参照表又はマジックナンバー参照表を介して、データ１０１が異常なファイルであるか否かを判定すべく構成されている。本発明の複数の実施形態において、解析器モジュール１１１は、サンドボックス環境でファイルを読むべく構成された任意選択的仮想ファイルシステムを構築する。解析器モジュール１１１は次いで、データ１０１に対する適当なセキュリティフラグを生成し、当該フラグは次いでデータ１０１に関連付けられた一意なタイプセキュリティプラットフォーム（ＴＳＰ）参照表の生成に用いられる。当該ＴＳＰ参照表は次いでデータ１０１をより詳細に解析すべく合成モジュール１１０内の他のモジュールにより用いられる。

次いでプラットフォーム検出器モジュール１１２は、データ１０１及びそのセキュリティ体制により影響及び／又は変更され得るファイル種類、動作プラットフォーム及びコンピュータアーキテクチャ等の、但しこれらに限定されないデータ１０１に関する特定の主要特徴に基づいて、受信したＴＳＰ参照表の残りの部分を追補すべく構成されている。検出器モジュール１１２により実行された解析の結果は次いでＧＶモジュール１１２ａに保存され、分解／解釈モジュール１１３にも与えられる。

分解／解釈モジュール１１３において、検出器モジュール１１２が生成した結果は次いで分解されて分解データセット又は値を生成するか、又は逆スクリプティングソースに送られて認識可能なアスキー項目として解釈され、解釈されたデータオブジェクト及びその対応値は次いでモジュール１１３に戻されて更に処理される。データセットモデルは次いでＧＶモジュール１１３ａに保存され、次のモジュール、すなわちブロック構築モジュール１１４に渡される。

ブロック構築モジュール１１４において、縮小されたデータセットから難読化データ及び／又は他の関連特徴を抽出することができる。本発明の複数の実施形態において、構築モジュール１１４は、入出力ポートと通信する関数、外部呼び出し関数、オブジェクトを識別し、次いで当該情報をデータセットモデルに追加する。当該データセットモデルはＡＩ高性能解析器モジュール１０６に、バイトの複雑な表、すなわち出力構造ブロック１２０として提示することができる。本発明の複数の実施形態において、当該データセットモデルはブロック構築モジュール１１４によりモジュール１１１、１１２及び１１３の出力に基づいて生成される。モジュール１１４は、エントロピー／フォレンジック／分解処理から得られた全ての結果を構文解析して、全ての結果を統合するのに適当なデータ構造を有するデータセットモデルにする。本発明の複数の実施形態において、当該構造内に含まれる構文解析の結果には接頭辞付きの名前が与えられ、当該接頭辞を用いて結果のデータ又は関数の名前を示し、例えばフォレンジック表の結果は「Prefix.Forensic.typeofForensic.table.result1.result2.result3」と呼ばれる。

この情報がモジュール１０６に渡されたならば、特徴抽出器モジュール１２１は、出力構造ブロック１２０内に含まれる情報を、ＧＶモジュール１１１ａ、１１２ａ及び１１３ａからＧＶコールバックモジュール１１７に跨って保存されている出力と共にデータ１０１と照合し、照合された情報をモデル生成器モジュール１２２に提供する。

モデル生成器モジュール１２２は次いで受信した情報を用いて適当なモデルを生成する。当該モデルは次いでデータベース１３１に渡されて保存され、ＡＩ検索モジュール１３０がこれを訓練済みデータベース１３２と組み合わせて用いて当該モデルの脅威スコアを判定する。

本発明の複数の実施形態において、抽出器モジュール１２１から得られた特徴をモデル生成器モジュール１２２が用いて５１２×５１２ピクセルを含むマトリクスを有するデータ画像モデルを生成できるため、各ピクセルはデータ１０１のブロックを表し、且つ３バイトのデータから構成されている。生成されたデータ画像モデル及び／又はデータセットモデルは次いでデータベース１３１内に一時的に保存される。ＡＩ検索モジュール１３０は次いで、データベース１３１に保存されたモデルを訓練済みデータベース１３２に保存されたデータセットとマッチングするマッチングアルゴリズムを実行する。次いでマッチング結果が１００で正規化され、正規化されたスコアは次いで検証モジュール１４０に渡される。当該モジュール内において、システムのユーザーにより各種のスコアリング設定を以下のように定義できるが、これらに限定されない。
・０～５０の範囲のスコアは「脅威でない」ことを意味し得る
・５１～８５の範囲のスコアはファイル種類が「良性である」ことを意味し得る
・８６～９９の範囲のスコアは「脅威」が存在することを示唆し得る。

本発明の複数の実施形態において、ＡＩ検索モジュール１３０は、教師付き機械学習アルゴリズムを利用して脅威スコアをデータセットモデルに割り当てる。本発明の複数の実施形態において、線形回帰、ランダムフォレス及び／又は支持ベクトル機械等の、但しこれらに限定されない教師付き機械学習技術を用いてもよい。

脅威スコアが割り当てられたならば、これらのスコアは次いでデータ１０１と共に検証モジュール１４０に渡される。検証モデル１４０がスコアに基づいてデータ１０１が脅威であると確認した場合、データ１０１はストレージ１５０への格納から排除され、代わりに出力１６０に渡されることにより、データ１０１は検疫されるか又は更に解析される。

逆に、データ１０１が脅威を伴わないと判定された場合、ストレージ１５０への格納が許される。完全を期すため、ストレージ１５０は、コンピュータシステムの主記憶装置（例：ＲＡＭ、ソリッドステート及び／又は磁気ハードディスク）又はシステムの二次記憶装置（例：リムーバブルドライブ）等、任意の種類又は形式のデータストレージを含んでいてよいが、これらに限定されない。

本発明の複数の実施形態によれば、本発明の複数の実施形態による実施形態を実行する（図１に示すような）ＡＩコア１０５内に設けられてよい要素のブロック図表現を図２に示す。当業者はＡＩコア１０５の厳密な構成は固定されておらず、異なっていても変化してもよく、図２は例示目的で示すものに過ぎないことが認識されよう。

本明細書において用語「プロセッサ」はそのような命令を処理可能な任意の装置又は要素を一般に指し、マイクロプロセッサ、マイクロコントローラ、プログラム可能論理素子又は他の計算装置を含んでいてよい。すなわち、プロセッサ２０５は、入力を受信し、メモリに保存された命令に従い当該入力を処理して出力を生成する（すなわちメモリ要素、セキュリティ管理モジュール２８０、ＡＩコプロセッサ２８５、センサ２９０及び／又はＰＣＩｅバス等へ）任意の適当な論理回路により提供することができる。本実施形態における、プロセッサ２０５はメモリアドレス指定可能な空間を有するシングルコア又はマルチコアプロセッサであってよい。一例において、プロセッサ２０５は例えば８コアＣＰＵを含むマルチコアであってよい。

本発明の複数の実施形態において、プロセッサ２０５は、電気的に消去及びプログラム可能な任意の種類の不揮発メモリ記憶媒体を制御すべく構成されたフラッシュコントローラ２５２を含んでいてよい。このような不揮発メモリ記憶の一例としてＮＡＮＤ若しくはＮＯＲ型フラッシュメモリ又は非フラッシュＥＥＰＲＯＭフラッシュメモリが挙げられる。図２において、フラッシュコントローラ２５２は、安全なブート、ファームウェア、ＡＩ訓練済みデータ、署名データ、ハッシュテーブル、閾値テーブル、予約領域及びユーザー域を保存するＮＡＮＤフラッシュ２４５を制御すべく配置されているが、当業者には本発明から逸脱することなく他の種類のデータ及び情報をＮＡＮＤフラッシュ２４５に保存できることが認識されよう。

プロセッサ２０５はまた、スタティックランダムアクセスメモリ（ＳＲＡＭ）又はダイナミックランダムアクセスメモリ（ＤＲＡＭ）等、任意の種類の揮発性ランダムアクセスメモリＲＡＭ２２３を制御すべく構成されたＤＤＲコントローラ２６８を含んでいる。読出し専用メモリ（ＲＯＭ）モジュールＲＯＭ２７０もまた、Ｉ－Ｄ２５４、Ａ－Ｄ２５６、アーキテクチャコア２５８、ＡＸＩ４２６２及びＮＶＭＥコア２７６と共にプロセッサ２０５内に設けられている。特に、Ｉ－Ｄ２５４はプロセッサ２０５に対する命令を復号化すべく構成された命令デコーダを含み、Ａ－Ｄ２５６は、全てのアドレスバスがプロセッサ２０５内で管理されるチップセット内で用いられる各物理周辺機器のアドレスを復号化すべく構成されたアドレスデコーダを含み、アーキテクチャコア２５８は、ＡＲＭアーキテクチャ、ＭＩＰＳアーキテクチャ、ＲＩＳＣ－ＶＡＲＣＨアーキテクチャ等の、但しこれらに限定されないプロセッサ２０５のアーキテクチャコアを含み、これによりアーキテクチャ種類はプロセッサ２０５が扱う命令の個数、消費される電力量等に依存する。

ＡＸＩ４２６２の場合、当該要素はＡＸＩ４と識別される相互接続バス接続を含んでいる。ＡＸＩ４２６２は多くのＡＳＩＣメーカーが頻繁に用いる接続であり、広範にプロセッサ２０５を内部に含まれた他の要素と接続するＳＬＡＶＥ／ＭＡＳＴＥＲバス及び高速内部通信バスを含み、これにより当該相互接続バスに接続された各要素は自身のアドレスを有することになる。

不揮発性メモリエクスプレス（ＮＶＭＥ）コア２７６は、ユーザーのホストからの全ての読出／書込及び管理動作コマンドを扱うべく構成された要素を含み、これはＡＸＩ４２６２を介したＰＣＩｅバス２９５への直接接続を介して行われる。これは、データオブジェクトがホストから受信又はホストへ送信される都度、当該送受信はＮＶＭＥコア２７６により制御することを意味する。当該要素がプロセッサ２０５から独立して動作すべく構成されていてよく、所定の時間枠内に実行される全てのＮＶＭＥコマンドの監視に用いてよい点に注意されたい。また、ＮＶＭＥコア２７６は、ＤＤＲコントローラ２６８とフラッシュコントローラ２５２との間のデータ転送速度を同期させるべく構成されていてよく、そのような動作はフラッシュ遷移層として知られる。

プロセッサ２０５にはキャッシュ２６０も設けられており、各種のメモリからのデータアクセスの平均コスト（時間又はエネルギー）を低減すべくプロセッサが用いられる。

当業者には、上述の各種のメモリ要素が非一時的コンピュータ可読媒体を含み、一時的な伝搬信号を除く全てのコンピュータ可読媒体を含んでいるものと認識されよう。典型的に、命令はプログラムコードとしてメモリ要素に保存されるが、ハードウェア実装されていてもよい。

周辺機器相互接続エクスプレス（公式にＰＣＩｅと略記）コントローラ２７４は、プロセッサ２０５と、ＰＣＩｅバスプロトコルに対応可能な各種ホストコンピュータとの間で高速シリアルコンピュータ拡張バスを介して実行されるデータ交換を制御するためのコントローラである。入出力（Ｉ／Ｏ）インターフェース２７２もまた、各種のユーザーインターフェース、通信インターフェース及びセンサ２９０との通信用に提供される。センサ２９０は、運動センサ、温度センサ、衝撃センサを含むがこれらに限定されず、これらのセンサは、有線又は無線ネットワークを介して外部ソースと他の処理装置との間でデータを送信／受信すべく、又は有線又は無線ネットワークを介してデータを受信すべく構成されていてよい。利用可能な無線ネットワークは、無線フィデリティ（Wi-Fi）、Bluetooth、近接場通信（ＮＦＣ）、セルラネットワーク、衛星ネットワーク、電気通信ネットワーク、ワイドエリアネットワーク（ＷＡＮ）等を含むがこれらに限定されない。

ＡＩコプロセッサ２８５は、専用のバス（図示せず）を介してプロセッサ２０５に接続されていて、人工知能アプリケーションを高速化すべく設計された専用ハードウェアアクセラレータ、特に機械学習アルゴリズムを含み、プロセッサ２０５の負荷を軽減すべく特定の計算タスクの高速化に用いられる。

図３に、受信したデータオブジェクトを解析する処理３００を示しており、処理３００は本発明の複数の実施形態によるＡＩコアのモジュールにより実行されてよい。処理３００は、ステップ３０５で解析対象のデータオブジェクトを受信することから始まる。前節で述べたように、データオブジェクトは文書、画像ファイル、実行可能ファイル又は他の任意の種類のファイルを含んでいてよい。本発明の複数の実施形態において、データオブジェクトは複数のバイトのブロックを含んでいてよく、これらのバイトのブロックはフラッシュドライブチップセット等の、但しこれに限定されないＡＩコアに接続された記憶媒体に保存されて、サイズ、フラッシュロケーションセクター、ファイル先頭及びファイル終端が記録される領域が割り当てられる。

処理３００は次いでステップ３１０に進み、任意選択的に、データオブジェクト全体が完全に受信されたならば仮想ファイルシステムを初期化する。当該ステップにおいて、ホストドライブと同様にデータオブジェクトを読み込み可能な仮想ファイルシステムが処理３００により構築される。しかし、従来のドライブ又はファイルシステムとは異なり、仮想ファイルシステムは完全に別個に構成されているため、仮想ファイルシステムはホストドライブからアクセス可能なドライブには直接接続されていない。更に、仮想ファイルシステムはＡＳＩＣチップセット内で動作すべく構成されているため、必要なハードウェア資源が少なくて済み、他のタスクと並列に実行可能である。従って、新規オブジェクトがステップ３０５で受信されるに従い、処理３００はこれらの新規データオブジェクトを仮想ファイルシステムの内部リストに追加して後続処理の待ち行列に入れる。本発明の複数の実施形態において、処理３００は当該内部リストを継続的に監視して、当該データオブジェクトが解析されて安全性が確認されるまで呼び戻されないことを保証する。これを行うために、内部リストをホストファイルシステムから隔離可能且つ一時的にロック可能な一時バッファに収容してよい。換言すれば、本発明の一実施形態において、処理３００、４００の全体が仮想ファイルシステム内で実行される一方、本発明の別の実施形態では処理３００、４００は仮想ファイルシステムの外部で実行され得ると言える。これは、処理３００、４００が仮想ファイルシステムの外部で生起した場合、処理３００がステップ３０５からステップ３１５に進むことを意味する。

ステップ３１５において、仮想ファイルシステム内又はＡＩコア内のいずれかから、処理３００は次いでデータオブジェクトの種類を確認する。本発明の複数の実施形態において、これは名前を確認することで行える。例えば、データオブジェクトの名前が「xxyyy.pdf」である場合、処理３００は次いで当該情報をextension[n-1]=pdfと呼ばれる一時的変数に保存する。

ステップ３１５からの情報は次いでステップ３２０に渡される。当該ステップにおいて、処理３００はデータオブジェクトの一意なマジックナンバー又は特別ヘッダフレームを生成し、当該マジックナンバーは次いで当該データオブジェクトに埋め込まれ得、次いで当該データオブジェクトの種類を識別すべくホストシステムにより用いられてよい。

処理３００は次いでステップ３２５において、事前にロードされたマジックナンバー参照表をロードする。当業者には公知であるように、マジックナンバーは、特定のファイル形式又はプロトコルの識別に用いられ得る定数値を指すか、又は他の意味に間違えられ難い固有の一意な値を指す場合がある。事前にロードされたマジックナンバー参照表の各マジックナンバーは、特定のファイル形式又は種類を指し、当該参照表は必要に応じて定期的に、又は新たなファイル種類が発見される都度更新されてよい。

処理３００は次いでステップ３３０において、生成されたマジックナンバーが事前にロードされたマジックナンバー参照表のいずれかのマジックナンバーに合致するか否かを判定する。

処理３００は、合致が存在しないと判定したならばステップ３３５に進む。当該ステップにおいて、間もなく生成されるタイプセキュリティプラットフォーム（ＴＳＰ）参照表に関連付けられたセキュリティフラグが生成されて高レベルに設定される。次いで処理３００がステップ３４０に進むことにより、タイプセキュリティプラットフォーム（ＴＳＰ）参照表が生成される。

逆に、処理３００がステップ３３０において、生成されたマジックナンバーが事前にロードされたマジックナンバー参照表のマジックナンバーに合致すると判定した場合、データオブジェクトが既知のファイル種類を含んでいることを意味する。

処理３００は次いで潜在的に異常なファイルの種類の参照表（例：データアレイとして保存された）をステップ３４５においてロードすることにより当該表の各々の既知の異常なファイルの種類にマジックナンバーが関連付けられる。本発明の当該実施形態において、異常なファイルの種類は、潜在的脅威であり、特定のツールチェーンコンパイラによりコンパイルする必要なしに異なるプラットフォームで実行可能なファイルを表す（例えばJavaスクリプトオブジェクト、ｐｄｆファイル、ｊｐｅｇ（埋め込みｅｘｅファイルを有し、抽出のため後で呼び出される）。

処理３００は次いでステップ３５０において、受信したデータオブジェクトのファイル種類が、ステップ３４５でロードされた潜在的に異常なファイルの種類の参照表の異常なファイルの種類に合致するか否かを判定する。

処理３００が合致すると判定した場合、処理３００はステップ３５５に進む。当該ステップにおいて、間もなく生成されるタイプセキュリティプラットフォーム（ＴＳＰ）参照表に関連付けられたセキュリティフラグが生成されて、当該フラグは高レベルに設定される。次いで処理３００がステップ３４０に進むことによりＴＳＰ参照表が生成される。

逆に、処理３００がステップ３５０において、受信したデータオブジェクトのファイル種類が異常なファイルの種類に合致しないと判断した場合、処理３００がステップ３６０に進むことにより、間もなく生成されるタイプセキュリティプラットフォーム（ＴＳＰ）参照表に関連付けられたセキュリティフラグが生成されて、当該データオブジェクトが異常なファイルではあり得ないことを示す正常レベルに設定される。次いで処理３００がステップ３４０に進むことによりＴＳＰ参照表が生成される。

本発明の複数の実施形態によれば、ＴＳＰ参照は３２ビット変数を含み、これにより先頭１６個の最上位ビット（ＭＳＢ）が各種のデータオブジェクト（すなわち第３１（ＭＳＢ）～１６ビット）を表し、続く８ビット（すなわち第１５～８ビット）がデータオブジェクトのセキュリティ体制を表し、末尾の８ビット（すなわち最下位ビット（ＬＳＢ）である第７～０ビット）がデータオブジェクトのプラットフォーム使用を表す。例示的なＴＳＰ参照表を以下の表１～３に示す。

表１は各種のファイル種類をＴＳＰ参照表の第３１（ＭＳＢ）～１６ビットで表し得る仕方の一例を示し、表２はデータオブジェクトのセキュリティ体制を第１５～８ビットで表し得る仕方の一例を示し、表３はデータオブジェクトが用いる各種のプラットフォームを第７～０ビットで表し得る仕方の一例を示す。

本発明の一実施形態において、表２を参照するに、「状態＿１」はデータオブジェクトのセキュリティフラグが最高レベルに設定されていて、デジタル署名がマジックナンバー参照表のどのマジックナンバーにも合致しなかったことを示し得、「状態＿２」はデータオブジェクトのセキュリティフラグが最高レベルに設定されていて、デジタル署名がマジックナンバー参照表のあるマジックナンバーに合致するが当該データオブジェクトのファイル種類が参照表の異常なファイルの種類に合致することを示し得、「状態＿３」はデータオブジェクトのセキュリティフラグが正常レベルに設定されていて、デジタル署名がマジックナンバー参照表のあるマジックナンバーに合致し、ファイル種類はどの既知の異常なファイルの種類にも合致しないことを示し得る。当業者には、本発明から逸脱することなく各種の状態レベルを用いてセキュリティ体制の他の種類及びバリエーションを表すことができることが認識されよう。

本発明の複数の実施形態において、表３を参照するに、第７～４ビットを用いてファイルのアーキテクチャ、ファイルのマイクロコントローラ装置（ＭＣＵ）実行、オペレーティングシステム／ハードウェアプラットフォームを表すことができ、最下位４ビット（第３～０ビット）はデータオブジェクトの可能なオペレーティングシステムを示すことができるため、ＬＳＢがＢ（又は他の任意の等価なインジケータ）として設定されていれば、データオブジェクトが任意の種類のオペレーティングシステム上で動作可能であることを意味する。

あるデータオブジェクトに対してＴＳＰ参照表が生成されたならば、図４に示すような処理４００は開始される。処理４００はステップ４０２において仮想ファイルシステム（処理４００が仮想ファイルシステム内に生起していれば）内に保存されているか又はＡＩコアに保存されているデータオブジェクトの位置を取得することにより開始される。処理４００は次いで、次ステップであるステップ４０５でデータオブジェクトに関連付けられるＴＳＰ参照表を取得する。処理４００は次いでステップ４１０において、ＴＳＰ参照表に含まれる情報をそれらの関連グループと照合して構文解析する。特に、データオブジェクトのセキュリティ状態に関するＴＳＰ参照表のビットが第１のグループと照合して構文解析され、データオブジェクトの種類に関するＴＳＰ参照表のビットが第２のグループと照合して構文解析され、データオブジェクトの目標プラットフォームに関するＴＳＰ参照表のビットが第３のグループと照合して構文解析される。

次いで処理４００はステップ４３０に進み、処理４００は構文解析されたビットの第１のグループから、セキュリティレベルが正常又は高レベルのいずれに設定されたかを判定する。

セキュリティレベルが高レベルに設定されたと処理４００が判定した場合、ステップ４３５に進んでデータオブジェクトの種類に関する情報をＴＳＰから取得してからステップ４４０に進むことにより、データオブジェクトに関連付けられた動作のプラットフォームに関する情報をＴＳＰから取得する。当該情報は、ＴＳＰ内の構文解析されたビットの第２及び第３のグループに含まれている。ステップ４３５及び４４０からの情報は次いでステップ４４７に渡され、処理４００はステップ４４５に進む。４３５及び４４０からの情報をステップ４４７に渡す目的は、これらの２つのステップからの情報に基づいてフォレンジック解析を実行可能にするためである。

ステップ４４５において、処理４００はデータオブジェクト全体について、すなわち受信した情報に基づいて全ファイルサイズにわたり難読化値の計算を行う。逆に、セキュリティレベルが正常レベルに設定されたと処理４００が判定した場合、処理４００は直接ステップ４４５に進んでデータオブジェクト全体としての難読化値を計算する。

一例として、難読化値の範囲は０～２５５であってよいため、難読化値が高いほどマルウェア又はランサムウェアのリスクが高まることを示唆する。

本発明の複数の実施形態において、データオブジェクトの難読化値は当該データオブジェクトのエントロピー値を含んでいる。本実施形態において、処理４００は最初にデータオブジェクトのサイズを正規化することによりデータオブジェクトのエントロピー値の計算を行う。例えば、データオブジェクトが１メガバイトのデータを含んでいる場合、２５６で除算して４３０００個のブロックを生成することにより各ブロックが２５６バイトを含むようにする。次いで各ブロックにシャノンエントロピー値が以下のように得られる。データのエントロピーに対する数値又はデータブロックの「乱雑性」の表現を生成するいくつかの数学的方法がある。本発明の一実施形態において、エントロピー値は、クロードシャノンが考案した、当業者にはシャノンエントロピー式として知られる方法を用いて計算される。

ここでｐ（ｘ）は離散確率変数Ｘに対するｘの確率である。Ｘは離散変数であるため、バイト（又は８ビットブロック）に編成されたバイナリデジタルデータにより表されたデータをＸの代わりに用いてもよい。上式が適切に作用するには、Ｘは、長さが少なくとも２５６バイトの最小データブロックを含んでいなければならない。得られた値は次いで、
ＰＨ（Ｘ）∈０．０．．．１．０
のように正規化される。
ここでＰＨ（Ｘ）＝Ｈ（Ｘ）｜ＭＡＸ（Ｈ（Ｘ））である。

要約するに、上式に基づいて計算されたエントロピー値は０～１の範囲の数値を含み、値が１に近いほど所与のデータブロックのエントロピーのレベルが高いことを示す。シャノンエントロピーに関するより詳細な議論については、本明細書に引用する文献「Shannon, C. E.“A Mathematical Theory of Communication.”The Bell System Technical J 27, 379-423 and 623-656, July and October 1948」を参照されたい。当業者には、本発明から逸脱することなく他の任意の種類のエントロピー計算方法を用いてもよいことが理解されよう。

次いで各ブロックに得られたエントロピー値を以下に示す例示的な表４に開示する。

表４は、マルウェアデータオブジェクトの例示的なプロットを示す。同表から分かるように、大多数のブロックは高いエントロピー値を示し、従って当該データオブジェクトが異常なデータオブジェクトである可能性が極めて高いことを示している。エントロピー計算から得られた結果は図５に示すようにプロットでき、プロット５０５、５１０は異常なデータオブジェクト、例えばマルウェアに関連付けられ得るエントロピー線を表す一方、エントロピー値が低いプロット５１５は正常なデータオブジェクトを表していてよい。本発明の複数の実施形態において、これらのパターン又はプロットをデータオブジェクトのデジタル指紋として用いることができる。この結果は次いで次モジュールに渡されることにより、処理４００が適用するのに最適な所定のフォレンジックアルゴリズムの選択に利用される。

次いで処理４００がステップ４４７に進むことにより、処理４００はフォレンジック解析機能を呼び出してデータオブジェクトのデジタル指紋、すなわち計算されたフォレンジック解析値及び／又はエントロピーパターン（例：表４）が、データオブジェクトがマルウェアを含んでいる可能性を示すか否かを判定する。

データオブジェクトのセキュリティレベルが正常レベルに設定されているとステップ４３０で事前に判定されている場合、フォレンジック解析はデータオブジェクトのブロックだけに基づいて実行される。しかし、データオブジェクトのセキュリティレベルが高レベルに設定されているとステップ４３０で事前に判定されている場合、フォレンジック解析は、データオブジェクトのブロック及びステップ４３５、４４０で各ブロックに取得された種類及びプラットフォーム情報に基づいて実行される。

フォレンジックモジュールは、採用した調査方法及び１～１０の範囲にある類似度出力の両方を表すフォレンジック値を生成することにより値が小さいほどリスクが低い（合致度が低い）ことを表し、値が大きいほどリスクが高い（合致度が高い）ことを表す。当業者には、本発明から逸脱することなく既存のフォレンジック解析機能を用いてよいことが理解されよう。一例として、以下に示す例示的（但し非限定的）な疑似コードをフォレンジック解析に用いることができる。

フォレンジック解析用疑似コード
Forensic_t[0][Entropy method][result]
Forensic_t[1][fbhash_method][result]
Forensic_t[n-1][until the available method][result]
Enum { METHOD1 METHOD2 METHOD3 …………METHODn-1} LIST;
Typedef ARRAY[x][y][z] Forensic
Declare pointer pDATA= Data Object;
Declare variable Result[];
I = array{LIST}.
For x = 0 TO X <COUNT(LIST)
FUNCTION_FORENSIC(pDATA,X,LIST{X},Result[X])（この関数の目的は、リスト内で列挙された方法の呼び戻しを実行することにより用いる方法と結果を合致させることである）
Forensic[x],[LIST{X}],[RESULT[X]] ;（このバッファ値を用いて、使用する方法、方法の名前及び後で特徴抽出関数に用いる結果を追跡する）
X=X+1;
FUNCTION_FORENSIC(pDATA,X,LIST{X},Result[X])
Declare local = sizeof(pDATA);
Declare LResult=0;
Switch (LIST{X})
Case METHOD1:
Analyse_M1(local,pDATA);（各関数はステートメントケースに基づき呼び出される）
Result[X]=LResult
Case METHOD2:
Analyse_M2(local,pDATA);
Result[X]=LResult
Case METHODn-1:
Analyse_Mn-1(local,pDATA);
Result[X]=LResult

本発明の複数の実施形態において、他の種類のフォレンジック解析を実行してよく、これは、頻度に基づく類似度ハッシングスキーム（ＦｂＨａｓｈ）等、但しこれに限定されないデジタルフォレンジックで公知のハッシング方法を用いてデータオブジェクトをハッシングするステップを含んでいてよい。

当業者には、本発明から逸脱することなく他の種類の調査方法を用いてよく、新たな方法が発見されて追加された際に処理４００が自身の方法レパートリーを更新する能力を有するよう当業者に選択が委ねられていることが理解されよう。ＦｂＨａｓｈスキームの一例を以下に示す。

類似度スコアを計算できるため、Ｄ１はデータオブジェクトであり、Ｄ２は既知のマルウェアのデータセットである。Ｄ１及びＤ２の値は以下のように得られる。
Ｄｉｇｅｓｔ（Ｄ１）＝Ｗ^Ｄ１ _ｃｈ０，Ｗ^Ｄ１ _ｃｈ１，Ｗ^Ｄ１ _ｃｈ２，・・・Ｗ^Ｄ１ _{ｃｈ（ｎ－１）}
Ｄｉｇｅｓｔ（Ｄ２）＝Ｗ^Ｄ２ _ｃｈ０，Ｗ^Ｄ２ _ｃｈ１，Ｗ^Ｄ２ _ｃｈ２，・・・Ｗ^Ｄ２ _{ｃｈ（ｎ－１）}。
ここで関数Ｄｉｇｅｓｔ（）は記憶アレイであり、Ｗ^Ｄｘ _{ｃｈ（ｎ－１）}は

として表されるＦｂＨａｓｈｉｎｇアルゴリズムにより生成されたチャンクスコアである。ｎは使用するチャンクスコアの個数（又はデータオブジェクトのブロックの個数）を表し、ＦｂＨａｓｈｉｎｇアルゴリズムはデジタル調査の多くの方法のうち１個を表し、以下の表記は、
・チャンク：文書のｋ個の連続するバイトのシーケンス
・

：文書Ｄの第ｉチャンクを表す
・チャンク頻度：チャンクｃｈ_ｉが文書Ｄに出現する回数。

と表記。
・文書頻度：チャンクｃｈを含む文書の個数。ｄｆ_ｃｈと表記。
・Ｎ：文書コーパス内の文書の総数を表記
・ローリングハッシュ（ｃｈ_ｉ）：ｃｈ_ｉのローリングハッシュ値
・

：ｃｈ_ｉのチャンク重み
・

：ｃｈ_ｉの文書重み
・

：文書Ｄ内でのｃｈ_ｉのチャンクスコアを表記
を表す。

Ｄ１、Ｄ２に対する値が得られたならば、以下のようにコサイン類似度法を用いて最終類似度スコアＳｉｍｉｌａｒｉｔｙ（Ｄ_１，Ｄ_２）を計算することができる。

最終的な類似度スコアは０～１００の範囲にあるため、スコア１００はＤ１がＤ２と同一であることを示唆し、スコア０はＤ１がＤ２と全く合致しないことを示唆する。

ステップ４５０において、処理４００は次いでデータオブジェクトを分解するか又は解釈するかを判定する。データオブジェクトが相当量のＡＳＣＩＩを含んでいると処理４００が判定した場合、処理４００はデータオブジェクトを解釈させる（ステップ４６０、４８２、４８４、４８６）一方、データオブジェクトが相当量の機械語を含んでいると処理４００が判定した場合、処理４００はデータオブジェクトに分解させる（ステップ４５５、４６５、４７０、４７５）。

処理４００は、データオブジェクトを分解すると判定したならばステップ４５５に進む。当該ステップにおいて、処理４００はデータオブジェクトのＴＳＰ参照表に対して列挙処理を実行する。列挙されたプラットフォームの種類に基づいて、処理４００はファイルを逆コンパイルして、ステップ４７０で全ての内部及び外部呼び出しを列挙し、ステップ４６５で全ての関数呼び出しを列挙し、ステップ４７５で全ての使用された第３のライブラリファイルを列挙する。典型的にファイルシステムへのアクセス、イーサネットＩ／Ｏ又は任意のネットワークアクセスを必要とするコマンドを含む一般的なマルウェア挙動を列挙することにより、処理４００はマルウェアを含んでいる可能性があるデータオブジェクトの部分を識別することができる。

処理４００は当該情報の全てを所定の設定を含む表アレイに提供して正常な挙動を含むコマンド又は脅威になり得るコマンドを識別する。例えば、「ＤＮＳ関数」が呼ばれる回数が記録される。データオブジェクトのファイル種類に基づいて、処理４００は次いで、選択された関数をそのようなファイル種類が呼び出すことが一般的であるか否かを判定し、挙動が異常な場合、当該データオブジェクトが関数を実行するのを阻止し、データオブジェクト領域をロックしてユーザーに警告する。処理４００は次いでカウンタ１の数値カウンタを起動してデータオブジェクトが分解されたことを示すと同時に、カウンタ２の数値カウンタをリセットする。

換言すれば、分解ステップの実行中、データオブジェクトは挙動が詳細に解析できるように逆コンパイルされる。本発明の複数の実施形態において、データオブジェクト内に埋め込まれたマルウェアを発見できるよう当該データオブジェクトの未加工バイナリを取得することができ、そのような逆コンパイルされたデータの例示的なプロットを図６に示す。

図６は、動作種類に応じて異なる種類の動作にマーキングできることを示す。この例示的なプロットにおいて、ｘ軸はある種類の動作の頻度を表す一方、ｙ軸は動作の種類を表しており、以下の例示的な疑似コードを用いてプロットすることができる。
Diss_table[0][x1_criterianame][operationtype][0 or 1] to
Diss_table[n-1][xn-1_criterianame][operationtypen-1][0 or 1]

図４に戻り、仮想データモデルを「解釈する」と処理４００が判定した場合、処理４００がステップ４６０に進むことにより仮想データモデルが当該ステップで逆スクリプトされて更なる解析のため様々な部分に分割される。難読化ストリング／暗号化ブロックがステップ４８２に渡され、サードパーティによる関数呼び出しがステップ４８４に渡されて、ステップ４８６で外部リンクの参照が渡される。次いでステップ４８８で結果が保存されることにより、カウンタ２内の数値カウンタが起動されデータオブジェクトが解釈されたのと同時に、カウンタ１の数値カウンタがリセットされる。

ステップ４８０及び４８８からの結果は次いでステップ４９０でデータモデル生成器に渡され、次いで当該情報を処理４００によりこれまでに生成された全ての情報と共に用いてデータセットモデルＡを計算することができる。

本発明の複数の実施形態によれば．処理４００がこれまでに生成された情報を用いてデータオブジェクトの各ブロックに対する「結果値」を生成することにより各結果値が３バイトを含んでいるためデータ画像モデルを生成することができる。

結果値の第１バイトの最上位ビット（ＭＳＢ）及び第２位のＭＳＢを用いてデータオブジェクトのブロックが分解されたか又は解釈されたかを示し、第２バイトと照合して構文解析された（１４ビットが生成された）第１バイトの残りの６ビットを用いて（ステップ４４５で計算された）データオブジェクトのブロックの難読化値を表す。次いで結果値の第３バイトを用いて（ステップ４４７で計算された）フォレンジック解析値を表す。

本発明の他の実施形態によれば、ハードウェア異常に対して、ＭＳＢ（第１バイト＋第２バイトの一部）を含む先頭１２ビットが電力監視（ＡＤＣにより変換される電流／電圧）を表し、次の１０ビットが温度値を表し、最後の２ビットがＣＰＵ負荷を示す：（１～９の値は低負荷を表し、１０は中位の負荷を表し、１１は高負荷を表す）。

次いで５１２バイトのブロックを用いて、データオブジェクトの名前／ＮＡＮＤフラッシュ内での位置、例えば、ページ／セクター／ＰＬＡＮＥアドレス／ファイルのロック又は非ロック状態／デジタル署名を示す。

処理４００は次いで、上で抽出した適当な特徴に基づいてデータモデルＡを生成する。

本発明の複数の実施形態において、データモデルＡが５１２×５１２ピクセルを含む画像として表現できるため、各ピクセル７０１は結果値（３バイトを含む）を表す。これを図７Ａに示しており、画像内の各ラインがピクセル列を表し、同図は「空データオブジェクト」を表すため無地の画像を示す。

従って、処理４００がデータオブジェクトのブロックに対して結果値を生成したならば、これらの結果値は次いで５１２行×５１２列のキャンバスにプロットされて図７Ｂに示すようにデータ画像モデル７０２を生成する。本発明の本実施形態において、各々の一意な結果値は、画像７０２上の対応する陰影付き／色付きピクセル等、但しこれに限定されない一意な画像表現で表される。

画像７０２が生成されたならば、次いで画像７０２が図７Ｃに示すように処理７０３に渡される。ステップ７０５において、目標画像（すなわち画像７０２）が畳み込みニューラルネットワーク（ＣＮＮ）モデル、ディープニューラルネットワーク（ＤＮＮ）モデル又は再帰的ニューラルネットワーク（ＲＮＮ）モデル等の、但しこれらに限定されない画像分類モデルに渡される。これらのモデルの詳細な動作は簡潔のため割愛する。画像分類モデルは次いでステップ７１０、７１５において画像７０２の特徴マップ及び修正済み特徴マップを生成し、次いでステップ７２０で出力の生成に進む。この出力は次いで既知のマルウェアを表す出力のデータベースと比較され、処理７０３がステップ７２０において当該出力が既知のマルウェアの出力のプロットと合致すると判定した場合、データオブジェクトは悪意あると判定される。

本発明の別の実施形態において、データセットモデルＡは、データオブジェクトの全てのブロックに対して結果値の集合を含んでいてよい。図８を参照するに、処理８００は次いで異常なデータオブジェクトの事前にロードされたデータベースを探索してデータセットモデルＡと類似したデータベースモデルを識別する。これはステップ８０５で実行される。

完全な合致が得られる可能性が低いため、処理８００は次いで機械学習解析を実行して、最も類似度の高い事前訓練済みデータセットモデルに基づいて、データセットモデルＡに割り当てるマッチングスコアを判定する。これはステップ８１０で実行される。本発明の複数の実施形態において、当該ステップのために採用される機械学習アルゴリズムは、複数の事前訓練済みデータセットモデルの組を用いて訓練された教師付き機械学習アルゴリズムを含んでいてよい。本発明の複数の実施形態において、事前訓練済みデータセットモデルは、外部の処理装置を用いて準備されて処理８００からアクセス可能なＳＳＤ記憶装置内に保存されていてよい。アクセスを容易にすべく、記憶装置内に保存された索引付きファイルが処理８００からアクセス可能であることにより、当該索引付きファイルは呼び出され得るデータベースリストに関する情報を含んでいる。

処理８００は次いでステップ８１５において、生成されたスコアが所定の脅威閾値を上回るか否かを判定する。処理８００が、データセットモデルＡが安全でないことを生成されたスコアが示唆すると判定した場合、処理８００はステップ８２０に進み、当該データオブジェクトがシステムのデータストレージにインストールされるのを阻止して、データオブジェクトが検疫にある箇所を示すログマップを生成し、次いで処理８００は終了する。代替的に、処理８００が生成されたスコアからデータオブジェクトが安全であると判定した場合、処理８００はデータオブジェクトがステップ８２０を通過してシステムのデータストレージにインストールされるのを許し、次いで処理６００は終了する。

本発明の他の実施形態において、データオブジェクトに厳密なスクリーニング処理を施すべく処理７０３、８００の両方は順次又は並行して実行されてよい。

当業者により他の多くの変化、置換、変型及び変更を確認することができ、本発明がそのようなあらゆる変化、置換、変型及び変更が添付する請求の範囲内に含まれるものとする。

Claims

受信したデータオブジェクト内のデータ異常を検出するシステムであって、
処理部と、
前記処理部により可読な非一時的な媒体とを含み、前記媒体が命令を保存し、前記命令が前記処理部により実行された場合、前記処理部に、
前記データオブジェクトのデジタル署名及びファイル種類に基づいて前記データオブジェクトのセキュリティ体制を判定させ、
前記セキュリティ体制及び前記セキュリティ体制に関連付けられた前記データオブジェクトの特徴に基づいてタイプセキュリティプラットフォーム（ＴＳＰ）参照表を生成させると共に、前記ＴＳＰ参照表に基づいて前記受信したデータオブジェクトに対して難読化値及びフォレンジック値を生成させ、
前記データオブジェクトの分解値又は解釈値を生成させ、
前記受信したデータオブジェクトの各ブロックに結果値を計算させることにより、前記各ブロックに前記受信したデータオブジェクトの前記ブロックに関連付けられた前記分解値又は解釈値、難読化値及びフォレンジック値に基づいて前記結果値を生成させ、
前記データオブジェクトの全ての前記結果値に基づいてデータモデルを構築させ、
人工知能（ＡＩ）アルゴリズムを用いて前記データモデルを処理させて前記データオブジェクトがデータ異常を含むか否かを判定させる、システム。
前記受信したデータオブジェクトに対して難読化値を生成する前記命令が前記処理部に、
前記データオブジェクトを複数のデータブロックに分割させ、
各データブロックにシャノンエントロピー値を計算させる命令を含んでいる、請求項１に記載のシステム。
前記受信したデータオブジェクトに対してフォレンジック値を生成する前記命令が前記処理部に、
前記データオブジェクトを複数のデータブロックに分割させ、
頻度に基づく類似度ハッシングスキームを用いて各データブロックに類似度スコアを計算させる命令を含んでいる、請求項１又は２に記載のシステム。
前記受信したデータオブジェクトの各ブロックに前記結果値を生成する前記命令が前記処理部に、
受信したデータの各ブロックに３バイトを含む結果値を生成させる命令を含み、これにより各ブロックに前記命令が前記処理部に、
前記データオブジェクトの前記分解又は解釈値に基づいて、前記結果値の第１バイトの最上位ビット（ＭＳＢ）及び第２位のＭＳＢを設定させ、
前記第１バイトの残りのビットを前記結果値の第２バイトと照合して構文解析させると共に、前記ブロックに関連付けられた前記難読化値に基づいて前記構文解析の結果を設定させ、
前記ブロックに関連付けられた前記フォレンジック値に基づいて第３バイトの値を設定させる、請求項１に記載のシステム。
前記データオブジェクトの全ての前記結果値に基づいてデータモデルを構築する前記命令が前記処理部に、
データ画像モデルを生成させる命令を含み、これにより前記データ画像モデル内の各ピクセルが一意な結果値に関連付けられ、各々の一意な結果値が前記データ画像モデル内で一意な画像により表される、請求項１に記載のシステム。
前記データモデルの処理に用いる前記ＡＩアルゴリズムが、
畳み込みニューラルネットワーク（ＣＮＮ）モデル、ディープニューラルネットワーク（ＤＮＮ）モデル又は再帰的ニューラルネットワーク（ＲＮＮ）モデルを含んでいる、請求項５に記載のシステム。
前記人工知能（ＡＩ）アルゴリズムを用いて前記データモデルを処理する前記命令が前記処理部に、
前記データモデルをデータベース内に含まれるデータモデルと比較させる命令を含み、前記比較が機械学習アルゴリズムを用いて実行される、請求項１に記載のシステム。
前記媒体が、前記処理部に、
前記データオブジェクトを受信及び保存すべく構成された仮想ファイルシステムを提供させる命令を更に含み、これにより前記仮想ファイルシステムが前記処理部に前記仮想ファイルシステム内の全てのステップを実行させる、請求項１に記載のシステム。
前記デジタル署名が前記データオブジェクトに関連付けられたマジックナンバーを含んでいる、請求項１に記載のシステム。
前記セキュリティ体制に関連付けられた前記データオブジェクトの前記特徴が、前記データオブジェクトのプラットフォーム種類及びファイル種類を含んでいる、請求項１に記載のシステム。
人工知能（ＡＩ）モジュールを用いて受信したデータオブジェクト内のデータ異常を検出する方法であって、
前記ＡＩモジュール内に設けられた解析器モジュールを用いて、前記データオブジェクトのデジタル署名及びファイル種類に基づいて前記データオブジェクトのセキュリティ体制を判定することと、
前記ＡＩモジュール内に設けられた前記解析器モジュール及び検出器モジュールを用いて、前記セキュリティ体制及び前記セキュリティ体制に関連付けられた前記データオブジェクトの特徴に基づいてタイプセキュリティプラットフォーム（ＴＳＰ）参照表を生成すると共に、前記ＴＳＰ参照表に基づいて前記受信したデータオブジェクトに対して難読化値及びフォレンジック値を生成することと、
前記ＡＩモジュール内に設けられた分解及び解釈モジュールを用いて、前記データオブジェクトの分解値又は解釈値を生成することと、
前記ＡＩモジュール内に設けられたブロック構築モジュールを用いて、前記受信したデータオブジェクトの各ブロックの結果値を計算することにより、前記各ブロックの前記結果値を前記分解又は解釈値、前記受信したデータオブジェクトの前記ブロックに関連付けられた難読化値及びフォレンジック値に基づいて生成することと、
前記ＡＩモジュール内に設けられたモデル生成器モジュールを用いて、前記データオブジェクトの全ての前記結果値に基づいてデータモデルを構築することと、
前記ＡＩモジュール内に設けられたＡＩ脅威モジュールを用いて、人工知能（ＡＩ）アルゴリズムを用いて前記データモデルを処理して、前記データオブジェクトがデータ異常を含むか否かを判定することと、を含む方法。
前記受信したデータオブジェクトに対して前記難読化値を生成するステップが、
前記データオブジェクトを複数のデータブロックに分割するステップと、
各データブロックにシャノンエントロピー値を計算するステップと、を含む、請求項１１に記載の方法。
前記受信したデータオブジェクトに対してフォレンジック値を生成するステップが、
前記データオブジェクトを複数のデータブロックに分割するステップと、
頻度に基づく類似度ハッシングスキームを用いて各データブロックに類似度スコアを計算するステップと、を含む、請求項１１又は１２に記載の方法。
前記受信したデータオブジェクトの各ブロックに前記結果値を生成するステップが、
受信したデータの各ブロックに３バイトを含む結果値を生成するステップを含み、これにより各ブロックに対して、前記方法が、
前記データオブジェクトの前記分解又は解釈値に基づいて前記結果値の第１バイトの最上位ビット（ＭＳＢ）及び第２ＭＳＢを設定し、
前記第１バイトの残りのビットを前記結果値の第２バイトと照合して構文解析し、前記ブロックに関連付けられた前記難読化値に基づいて前記構文解析の結果を設定して、
前記ブロックに関連付けられた前記フォレンジック値に基づいて第３バイトの値を設定する、請求項１１に記載の方法。
前記データオブジェクトの全ての前記結果値に基づいてデータモデルを構築するステップが、
データ画像モデルを生成することにより、前記データ画像モデルの各ピクセルが一意な結果値に関連付けられ、各々の一意な結果値が前記データ画像モデル内で一意な画像により表されるステップを含む、請求項１１に記載の方法。
前記データモデルの処理に用いる前記ＡＩアルゴリズムが、
畳み込みニューラルネットワーク（ＣＮＮ）モデル、ディープニューラルネットワーク（ＤＮＮ）モデル、又は再帰的ニューラルネットワーク（ＲＮＮ）モデルを含む、請求項１５に記載の方法。
前記人工知能（ＡＩ）アルゴリズムを用いて前記データモデルを処理するステップが、
前記データモデルをデータベース内に含まれる複数のデータモデルと比較するステップを含み、前記比較が機械学習アルゴリズムを用いて実行される、請求項１１に記載の方法。
前記データオブジェクトの前記デジタル署名及び前記ファイル種類に基づいて前記データオブジェクトの前記セキュリティ体制を判定するステップの前に、
前記解析器モジュールを用いて、前記データオブジェクトを受信及び保存する仮想ファイルシステムを提供することにより、前記仮想ファイルシステムが前記仮想ファイルシステム内で前記方法の全てのステップを実行させるステップを更に含む、請求項１１に記載の方法。
前記デジタル署名が前記データオブジェクトに関連付けられたマジックナンバーを含む、請求項１１に記載の方法。
前記セキュリティ体制に関連付けられた前記データオブジェクトの前記特徴が、前記データオブジェクトのプラットフォーム種類及びファイル種類を含む、請求項１１に記載の方法。