JP2019091435A - 訓練された機械学習モデルを使用することで悪意のあるファイルを検出するシステムおよび方法 - Google Patents

訓練された機械学習モデルを使用することで悪意のあるファイルを検出するシステムおよび方法 Download PDF

Info

Publication number
JP2019091435A
JP2019091435A JP2018194846A JP2018194846A JP2019091435A JP 2019091435 A JP2019091435 A JP 2019091435A JP 2018194846 A JP2018194846 A JP 2018194846A JP 2018194846 A JP2018194846 A JP 2018194846A JP 2019091435 A JP2019091435 A JP 2019091435A
Authority
JP
Japan
Prior art keywords
file
malicious
detection
degree
files
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018194846A
Other languages
English (en)
Other versions
JP6731988B2 (ja
Inventor
エス.チスチャコフ アレクサンダー
S Chistyakov Alexander
エス.チスチャコフ アレクサンダー
エム.ロバチェワ エカテリーナ
M Lobacheva Ekaterina
エム.ロバチェワ エカテリーナ
エム.ロマネンコ アレクセイ
M Romanenko Alexey
エム.ロマネンコ アレクセイ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kaspersky Lab AO
Original Assignee
Kaspersky Lab AO
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kaspersky Lab AO filed Critical Kaspersky Lab AO
Publication of JP2019091435A publication Critical patent/JP2019091435A/ja
Application granted granted Critical
Publication of JP6731988B2 publication Critical patent/JP6731988B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/566Dynamic detection, i.e. detection performed at run-time, e.g. emulation, suspicious activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/562Static detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/562Static detection
    • G06F21/564Static detection by virus signature recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/046Forward inferencing; Production systems
    • G06N5/047Pattern matching networks; Rete networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/03Indexing scheme relating to G06F21/50, monitoring users, programs or devices to maintain the integrity of platforms
    • G06F2221/034Test or assess a computer or a system

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Virology (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Debugging And Monitoring (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Storage Device Security (AREA)

Abstract

【課題】よく知られた悪意のあるプログラムだけでなく、未知の悪意のある行動を有する新しい悪意のあるプログラムの有効な検出を可能とする。【解決手段】システムは、少なくとも一つの行動パターンを形成し、全ての行動パターンのコンボリューションを算出し、行動パターンに基づいて検出モデルのデータベースから悪意のあるファイルの検出のための少なくとも二つのモデルを選択し、コンボリューションおよび悪意のあるファイルの検出のための少なくとも二つのモデルの分析に基づいて実行されるファイルの有害性の程度を算出し、有害性の程度に基づいて、意思決定パターンを形成し、構築された意思決定パターンと悪意のあるファイルの分析に基づいて以前に構築された意思決定パターンのデータベースからの所定の意思決定パターンの少なくとも一つとの間の類似性の程度が所定の閾値の値を超えるとすれば悪意のあるものとして実行されるファイルを認識する。【選択図】図2

Description

開示は、アンチウィルスのテクノロジーに、および、より詳しくは、訓練された機械学習モデルを使用することで悪意のあるファイルの検出のためのシステムおよび方法に、関連する。
様々な計算装置(パーソナルコンピューター、ノートパソコン、タブレット、スマートフォン等)の幅広い流通のみならず、最近の十年間におけるコンピューターテクノロジーの急速な発展は、様々な活動の領域においておよび莫大な数のタスクについて(インターネットサーフィンから銀行振替および電子文書取引まで)そのような装置の使用に対する強力な推進力になってきたものである。計算装置およびこれらの装置上で動くソフトウェアの数における増大と並行して、悪意のあるプログラムの数は、また急速なペースで増加してきたものである。
現在のところ、莫大な数の種類の悪意のあるプログラムが存在するものである。それらのもののいくつかは、装置のユーザーから(ログイン情報およびパスワード、銀行取引情報、電子文書のような)個人のおよび機密のデータを盗む。他のものは、サービスの拒否(DDoS−分散型サービス妨害)のような攻撃のために、または、他のコンピューターまたはコンピューターネットワーク上での総当たりの方法によってパスワードをより分けるために、ユーザーの装置からいわゆるボットネットを形成する。さらに他のものは、煩わしい広告を通じたユーザーへの有料のコンテンツ、有料の定期購読、および電話番号へのSMSの送付などを提示する。
アンチウィルスとして知られた専門のプログラムは、悪意のあるプログラムの検出、感染の予防、および悪意のあるプログラムに感染させられてきたものである計算装置の作業能力の回復を含む、悪意のあるプログラムに対する闘いにおいて使用される。アンチウィルスプログラムは、
●静的な分析−分析されるプログラムを構成するファイルに含まれたデータに基づいた、分析されるプログラムの作業の起動またはエミュレーションを含む、有害性についてのプログラムの分析であって、それによって、統計的な分析の間に、
○シグネチャ分析−悪意のあるプログラムのシグネチャのデータベースから既知のコード(シグネチャ)に対する分析されるプログラムのコードの特定のセグメントの対応関係についての検索、
○ホワイトおよびブラックリスト−悪意のあるプログラムのチェックサムのデータベース(ブラックリスト)または安全なプログラムのチェックサムのデータベース(ホワイトリスト)における分析されるプログラム(またはそれの部分)の算出されたチェックサムについての検索
を使用することは可能なことであるもの、
●動的な分析−分析されるプログラムの作業の実行またはエミュレーションの過程において得られたデータに基づいた有害性についてのプログラムの分析であって、それによって、動的な分析の間に、
○ヒューリスティックな分析−分析されるプログラムの作業のエミュレーション、(API関数の呼び出しについてのデータ、送信されたパラメーター、および分析されるプログラムのコードセグメントなどを含む)エミュレーションログの作成、および、作成されたログのデータと悪意のあるプログラムの行動シグネチャのデータベースからのデータとの間の対応関係についての検索、
○プロアクティブ保護−分析される起動されたプログラムのAPI関数の呼び出しのインターセプト、(API関数の呼び出しについてのデータ、送信されたパラメーター、および分析されるプログラムのコードセグメントなどを含む)分析されるプログラムの行動のログの作成、および、作成されたログのデータと悪意のあるプログラムの呼び出しのデータベースからのデータとの間の対応関係についての検索
を使用することは可能なことであるもの
のような、あらゆる種類の悪意のあるプログラムを検出するために様々なテクノロジーを用いる。
静的なおよび動的な分析の両方は、それらのプラス面およびマイナス面を有する。静的な分析は、分析がなされるものである計算装置の資源の要求がより少ないものであると共に、それが、分析されるプログラムの実行またはエミュレーションを使用するものではないので、統計的な分析は、より速いものであるが、しかし同時に、あまり有効なものではない、即ち、それは、より低い割合の悪意のあるプログラムの検出およびより高い割合の誤認警報(即ち、アンチウィルスプログラムによって分析されたファイルが、それが安全なものであるのに対して、悪意のあるものであるとの判断を告げること)を有する。動的な分析は、それが、分析されるプログラムの作業の実行またはエミュレーションの間に得られたデータを使用するので、より遅いものであると共に、分析が行われるものである計算装置の資源についてより高い要求をなすが、しかし他方では、それはまたより有効なものである。最新のアンチウィルスプログラムは、静的なおよび動的な分析の両方の要素を含む、包括的な分析を用いる。
コンピューターセキュリティーの最新の基準が、悪意のあるプログラム(特に新しいもの)に対する動作上の応答に頼るので、悪意のあるプログラムの自動的な検出は、主要な注目の的である。そのようなソフトウェアの有効な動作のために、ある者は、しばしば、人工知能の要素および悪意のあるプログラムの検出のためのモデル(即ち、悪意のあるファイルを記述する入力データのある一定のセットに基づいたファイルの有害性に関する意思決定のためのルールのセット)の機械的な教育の様々な方法を使用するが、新しい悪意のあるプログラムを検出するための動作上の適合(学習)のみならず、よく知られた悪意のあるプログラムまたはよく知られた悪意のある行動を備えた悪意のあるプログラムだけでなく、また未知のまたはほとんど研究されてない悪意のある行動を有する新しい悪意のあるプログラムの有効な検出を可能とする。
上述したテクノロジーが、ある一定の特徴的な特徴(即ち、グラフィックインターフェースの存在、データの暗号化、およびコンピューターネットワークによるデータの送信などのような、ある一定のグループのファイルからのファイルのある一定の特異性を記述するデータ)を有する悪意のあるファイルを検出することに良好なものであるとはいえ、既に知られた悪意のあるファイルの特徴的な特徴に類似の、それは、(類似の行動ではあるが)既に知られた悪意のあるファイルの特徴的な特徴とは異なる特徴的な特徴を有する悪意のあるファイルの検出を取り扱うことができないものである。さらには、上述したテクノロジーは、特徴的な特徴の(前述した試験の結果に依存する)訓練および再訓練のみならず、モデルの試験および教育としてモデルの機械教育のそのような態様を開示するものではない。
本開示は、悪意のあるファイルの検出の課題を解決することを可能なものとする。
開示は、ファイルのアンチウィルススキャニングのために設計される。
本開示の技術的な結果は、悪意のあるファイルの検出のための訓練されたモデルを使用することによる悪意のあるファイルの検出である。
本開示のさらに別の技術的な結果は、悪意のあるファイルの検出のための数個のモデルの使用による悪意のあるファイルの検出の精度を増加させることであるが、それらの各々は、独特の、以前に決定された特徴的な特徴で悪意のあるファイルの検出のために訓練されてきたものである。
本開示のさらに別の結果は、悪意のあるファイルの検出のための数個のモデルの使用による悪意のあるファイルの検出のスピードを増加させることであるが、それらの各々は、独特の、以前に決定された特徴的な特徴で悪意のあるファイルの検出のために訓練されてきたものである。
一つの態様において、悪意のあるファイルの検出のための訓練されたモデルを使用することによって悪意のあるファイルを検出するためのシステムは、提供されるが、システムが、実行されるファイルの行動ログから選択されたコマンドおよびパラメーターに基づいて少なくとも一つの行動パターンを形成すると共に、形成された全ての行動パターンのコンボリューションを算出すると共に、実行されるファイルの行動ログから選択されたコマンドおよびパラメーターに基づいて検出モデルのデータベースから悪意のあるファイルの検出のための少なくとも二つのモデルを選択すると共に、コンボリューションおよび悪意のあるファイルの検出のための少なくとも二つのモデルの分析に基づいて実行されるファイルの有害性の程度を算出すると共に、有害性の程度に基づいて、意思決定パターンを形成すると共に、構築された意思決定パターンと悪意のあるファイルの分析に基づいて以前に構築された意思決定パターンのデータベースからの所定の意思決定パターンの少なくとも一つとの間の類似性の程度が、所定の閾値の値を超えるとすれば、悪意のあるものとして実行されるファイルを認識するように、構成されたハードウェアプロセッサを備える。
システムの別の態様において、ハードウェアプロセッサは、少なくともファイルの実行の間に少なくとも一つのコマンドをインターセプトするようにおよびファイルの実行をエミュレートするように設計される、実行されるファイルの行動ログを形成すると共に、各々のインターセプトされたコマンドについて、そのコマンドを記述する少なくとも一つのパラメーターを決定すると共に、インターセプトされたコマンドおよび決定されたパラメーターに基づいて、そのファイルの行動ログを形成するように、構成された。
システムの別の態様において、検出モデルのデータベースから選択される悪意のあるファイルの検出のための各々のモデルは、独特の、以前に決定された特徴的な特徴で悪意のあるファイルの検出のために訓練される。
システムの別の態様において、ハードウェアプロセッサは、構築された意思決定パターンと意思決定パターンのデータベースからの所定の意思決定パターンの少なくとも一つとの間の類似性の程度が所定の閾値の値を超えると共に悪意のあるファイルのためのそれらの検出モデルの援助で算出された有害性の程度が所定の閾値の値を超えるものではない場合には、実行されるファイルの行動ログから選択されたコマンドおよびパラメーターに基づいて検出モデルのデータベースからの少なくとも一つの検出モデルを再訓練するようにさらに構成されたものである。
システムの別の態様において、行動パターンは、少なくとも一つのコマンドおよび述べられたセットからの全てのコマンドを記述するパラメーターのセットを構成する。
システムの別の態様において、悪意のあるファイルの検出のためのモデルは、有害性の程度を決定するための意思決定ルールを構成する。
システムの別の態様において、ハードウェアプロセッサは、行動ログを分析することによって行動パターンを形成するようにさらに構成されたものである。
別の態様において、悪意のあるファイルの検出のための訓練されたモデルを使用することによって悪意のあるファイルを検出するための方法は、提供されるが、方法が、実行されるファイルの行動ログから選択されたコマンドおよびパラメーターに基づいて少なくとも一つの行動パターンを形成すること、形成された全ての行動パターンのコンボリューションを算出すること、実行されるファイルの行動ログから選択されたコマンドおよびパラメーターに基づいて検出モデルのデータベースから悪意のあるファイルの検出のための少なくとも二つのモデルを選択すること、コンボリューションおよび悪意のあるファイルの検出のための少なくとも二つのモデルの分析に基づいて実行されるファイルの有害性の程度を算出すること、有害性の程度に基づいて、意思決定パターンを形成すること、構築された意思決定パターンと悪意のあるファイルの分析に基づいて以前に構築された意思決定パターンのデータベースからの所定の意思決定パターンの少なくとも一つとの間の類似性の程度が、所定の閾値の値を超えるとすれば、悪意のあるものとして実行されるファイルを認識することを備える。
さらに別の態様において、それに命令を記憶するコンピューター読み取り可能な媒体は、実行されたとき、上の方法を行うものである。
例の態様の上の単純化された概要は、開示の基本的な理解を提供することに役に立つ。この概要は、全ての企図された態様の広範囲の概観であるものではないと共に、全ての態様の鍵となるまたは重大な要素を識別すること、または、開示のいずれのまたは全ての態様の範囲を描くことのいずれでもないことが意図されたものである。それの単独の目的は、後に続くものである詳細な記載のより詳細な記載に対する前置きとして単純化された形態における一つ以上の態様を提示することである。前述のことの達成に対して、開示の一つ以上の態様は、請求項に記載されたおよび特定して指摘された特徴を含む。
この明細書の中へ組み込まれると共にそれの一部分を構成する、添付する図面は、開示の一つ以上の例の態様を図示すると共に、詳細な記載と一緒に、それらの原理および実施を説明することに役に立つ。
図1は、悪意のあるファイルの検出のためのモデルの機械学習のシステムの構造図を示す。
図2は、悪意のあるファイルの検出のためのモデルの機械学習の方法の構造図を示す。
図3は、行動パターンの数の関数として有害性の程度を変化させるダイナミクスの例を示す。
図4は、行動パターンの要素の間における関係の図の例を示す。
図5は、悪意のあるファイルの検出のための訓練されたモデルを使用することによって悪意のあるファイルを検出するシステムの構造図を提示する。
図6は、悪意のあるファイルの検出のための訓練されたモデルを使用することによって悪意のあるファイルを検出する方法の構造図を提示する。
図7は、汎用のコンピューターシステム、パーソナルコンピューター、またはサーバーの例を示す。
訓練された機械学習モデルを使用する悪意のあるファイルの検出のためのシステム、方法、およびコンピュータープログラムプロダクトのコンテキストで例示的な態様がここに記載される。当業者は、後に続く記載が実例となるものにすぎないものであると共にいずれの方式でも限定するものであることが意図されるものではないことを実現することになる。他の態様は、それらをこの開示の利益を有する当業者に容易に提案することになる。添付する図面に図示されたような例の態様の実施への参照が今詳細になされることになる。同じ参照符号が同じまたは同様のアイテムを参照するために図面および後に続く記載の至るところで可能性のある範囲まで使用されることになる。
後に続く用語は、開示、図面、およびクレームの至るところで使用されることになる。
悪意のあるファイル−その実行がコンピューター情報の不正な破壊、ブロッキング、変更、複製、または、保護モジュールの無効化に帰着することができることが知られる、ファイル。
実行可能なファイルの悪意のある行動−そのファイルの実行の間に行われることがあると共に情報の不正な破壊、ブロッキング、変更、複製、または、保護モジュールの無効化に帰着することができることが知られる、アクションのグループ。
実行可能なファイルの悪意のある活動−それの悪意のある行動と一致してそのファイルによって行われたアクションのグループ。
平均的なユーザーの計算装置−それらのユーザーの計算装置におけるものと同じアプリケーションが実行される、以前に選択されたグループのユーザーの計算装置の平均化された特性を有する仮説の(理論的な)計算装置。
計算装置によって実行可能なコマンド−コマンドパラメーターまたは上記のコマンドを記述するパラメーターとして知られた、それらの命令のパラメーターに基づいた機械命令または計算装置によって実行可能なスクリプトの命令のセット。
語彙の分析(トークン化)−出力の識別の列(以後、トークン)を形成するために、認識されたグループ(以後、語彙素)への入力の文字の列の分析的な構文解析の処理。
トークン−語彙の分析の処理において語彙素から形成された識別の列。
図1は、悪意のあるファイルの検出のためのモデルの機械学習のシステムの構造図を示す。
機械学習のシステムの構造図は、用意モジュール111、行動ログモジュール112、行動パターンモジュール121、コンボリューション関数モジュール122、検出モデルモジュール131、機械学習モジュール132、有害性モジュール142、および管理モジュール143からなる。
一つの例示的な態様において、検出モデルの機械学習の述べたシステムは、用意モジュール111、行動ログモジュール112、行動パターンモジュール121、コンボリューション関数モジュール122、検出モデルモジュール131、および機械学習モジュール132がサーバー側で作業すると共に行動パターンモジュール121、有害性モジュール142、および管理モジュール143がクライアント側で作業する、クライアント−サーバーアーキテクチャを有する。
例えば、クライアントは、パーソナルコンピューター、ノートパソコン、およびスマートフォンなどのような、ユーザーの計算装置であることがあると共に、サーバーは、サーバーの分散システムのような、アンチウィルス会社の計算装置であることがあると共に、それの手段によって、その他全てのことに加えて、ファイルの予備的な収集およびアンチウィルス分析、およびアンチウィルスのレコードの作成などがなされるが、ここで、悪意のあるファイルの検出のためのモデルの機械学習のシステムは、クライアント側で悪意のあるファイルを検出するために使用されることになるが、それによってそのクライアントのアンチウィルス保護の有効性を高める。
さらに別の例において、クライアントおよびサーバーの両方は、単独でアンチウィルス会社の計算装置であることがあると共に、ここで、悪意のあるファイルの検出のためのモデルの機械学習のシステムは、ファイルの自動化されたアンチウィルス分析およびアンチウィルスのレコードの作成のために使用されることになるが、それによって、アンチウィルス会社の作業の有効性を高める。
用意モジュール111は、
●学習選択のファイルを形成する所定のルールと一致してファイルのデータベースから少なくとも一つのファイルを選択するが、それの後に機械学習モジュール132は、選択されたファイルの分析に基づいて検出のモデルの教育を実行することになるように、
●行動ログモジュール112へ選択されたファイルを送るように、
設計される。
一つの例示的な態様において、少なくとも一つの安全なファイルおよび一つの悪意のあるファイルは、ファイルのデータベースに保たれる。
例えば、ファイルのデータベースは、安全なファイルとしての、オペレーティングシステムのWindows(登録商標)のファイル、および、悪意のあるファイルとしての、バックドアのファイル、データへの不正なアクセス、および、オペレーティングシステムおよび全体としてのコンピューターのリモートコントロールを実行するアプリケーション、を保つことがある。述べたファイルで訓練することおよび機械学習の方法を使用することによって、悪意のあるファイルの検出のためのモデルは、高い精度で前述したバックドアの機能性に類似の機能性を有する悪意のあるファイルを検出することができることになる(精度がより高いほど、より多いファイルが、前述した検出のモデルの教育に使用される)。
さらに別の例示的な態様において、ファイルのデータベースは、追加的に少なくとも
●疑わしいファイル(リスクウェア)−悪意のあるものであるということではないが、まだ悪意のあるアクションを実行することができるものであるファイル、
●未知のファイル−その有害性が決定されてきてないものであると共に未知のままであるファイル(即ち、安全なもの、悪意のあるもの、および疑わしいものなどであるのということではないファイル)
を保つ。
例えば、ファイルのデータベースは、疑わしいファイルとしての、(RAdmin(登録商標)のような)リモートアドミニストレーション、アーカイビング、または(WinZip(登録商標)のような)データの暗号化のアプリケーションファイルなどを有することがある。
さらに別の例示的な態様において、ファイルのデータベースは、少なくとも
●アンチウィルスウェブクローラーによって収集された、
●ユーザーによって送られた、
ファイルを保つ。
述べたファイルは、次にそのようなファイルの有害性に関する判断を告げるために、自動的なファイルの分析の助けを備えたものを含む、アンチウィルスの専門家によって分析される。
例えば、ファイルのデータベースは、ユーザーによって彼らまたは彼女らの計算装置からアンチウィルス会社へ送られたファイルを、それらの有害性をチェックするために、保つことがあるが、それの場合には、送信されたファイルは、安全なものまたは悪意のあるもののいずれかであることがあると共に、上記の安全なおよび悪意のあるファイルの数の間の分布は、上記のユーザーの計算装置に位置させられた全ての安全なおよび悪意のあるファイルの数の間の分布に近いものである(即ち、上記の悪意のあるファイルの数に対する上記の安全なファイルの数の比は、上記のユーザーの計算装置に位置させられた全ての悪意のあるファイルの数に対する全ての安全なファイルの数の比から、指定された閾値の値と比べてより少ない量だけ、異なる。
Figure 2019091435
)。
ユーザーによって送信されたファイル(即ち、主観的に疑わしいものであるファイル)とは違って、疑わしいおよび悪意のあるファイルを検索するように設計されるアンチウィルスウェブクローラーによって収集されたファイルは、より頻繁に悪意のあるものであることが判明する。
さらに別の例示的な態様において、条件の少なくとも一つは、ファイルのデータベースからファイルを選択するための尺度として使用される。
●ファイルのデータベースから選択された安全なおよび悪意のあるファイルの間の分布は、平均的なユーザーの計算装置に位置させられた安全なおよび悪意のあるファイルの間の分布に対応する。
●ファイルのデータベースから選択された安全なおよび悪意のあるファイルの間の分布は、アンチウィルスウェブクローラーの助けと共に収集された安全なおよび悪意のあるファイルの間の分布に対応する。
●ファイルのデータベースから選択されたファイルのパラメーターは、平均的なユーザーの計算装置に位置させられたファイルのパラメーターに対応する。
●ファイルそれら自体がランダムに選択される一方で、選択されたファイルの数は、所定の値に対応する。
例えば、ファイルのデータベースは、100000個のファイルを含むが、それらのうち40%が安全なファイルであると共に60%が悪意のあるファイルである。ファイルのデータベースから15000個のファイル(ファイルのデータベースに保たれるファイルの合計の数の15%)は、選択された安全なおよび悪意のあるファイルの間の分布が、平均的なユーザーの計算装置に位置させられた安全なおよび悪意のあるファイルの間の分布に対応すると共に95対5になるように、選択されるものである。この目的のために、14250個の安全なファイル(安全なファイルの合計の数の35.63%)および750個の悪意のあるファイル(悪意のあるファイルの合計の数の1.25%)は、ファイルのデータベースからランダムに選ばれる。
さらに別の例において、ファイルのデータベースは、1250000個のファイルを含むが、それらのうち95%が安全なファイルであると共に5%が悪意のあるファイルである、即ち、ファイルのデータベースに保たれる安全なおよび悪意のあるファイルの間の分布が、平均的なユーザーの計算装置に位置させられた安全なおよび悪意のあるファイルの間の分布に対応する。これらのファイルのうち、5000個のファイルは、ランダムに選ばれると共に、高い確率でそれらの〜4750個が安全なファイル、および、〜250個が悪意のあるファイルであることが判明する。
さらに別の例示的な態様において、ファイルパラメーターは、少なくとも
●ファイルが安全なもの、悪意のあるもの、潜在的に危険なものであるか、または、ファイルを実行するときコンピューターシステムの行動が決定されるものではないものかどうかなどを特徴付ける、ファイルの有害性、
●ファイルの実行の間に計算装置によって行われたコマンドの数、
●ファイルのサイズ、
●ファイルを利用するアプリケーション
である。
例えば、悪意のあるファイルは、アプリケーション“Adobe Flash(登録商標)”によって実行可能な、かつ、サイズにおいて5kbを超えるものではない、“ActionScript(登録商標)”の言語におけるスクリプトであるファイルのデータベースから選ばれる。
さらに別の例示的な態様において、用意モジュール111は、追加的に
●試験選択のファイルを形成する所定のルールと一致してファイルのデータベースから少なくとも一つの他のファイルを選択するが、それの後に、機械学習モジュール132は、選択されたファイルの分析に基づいて訓練された検出のモデルの検証を実行することになるように、
●行動ログモジュール112へ選択されたファイルを送るように、
設計される。
例えば、ファイルのデータベースは、75000個のファイルを含むが、それらのうち20%が安全なファイルであると共に80%が悪意のあるファイルである。まず第1に、12500個のファイルがファイルのデータベースから選ばれると共に、それらのうちの30%が安全なファイルであると共に70%が悪意のあるファイルであるが、それの後に、機械学習モジュール132は、選択されたファイルの分析に基づいて検出のモデルの教育を行うことになると共に、次に、残りの62500個のファイルから2,500個のファイルを選択すると共に、それらのうちの60%が安全なファイルであると共に40%が悪意のあるファイルであるが、これの後に、機械学習モジュール132は、選択されたファイルの分析に基づいて訓練された検出のモデルのチェックを行うことになる。上述した方式において構築されたデータは、データの相互検証セットと呼ばれる。
行動ログモジュール112は、
●少なくとも
○受信されたファイルの実行、
○受信されたファイルの実行のエミュレーション
の間に、少なくとも一つの実行可能なコマンドをインターセプトするが、ここでファイルの実行のエミュレーションは、述べたファイルのオープニング(例えば、インタープリターによるスクリプトのオープニング)を含むように、
●各々のインターセプトされたコマンドについて上記のコマンドを記述する少なくとも一つのパラメーターを決定するように、
インターセプトされたコマンドおよびそのように決定されたパラメーターに基づいて得られたファイルの行動ログを形成するが、ここで行動ログは、ファイルからのインターセプトされたコマンド(以後、コマンド)の全体を構成するが、ここで各々のコマンドは、そのように決定されたと共にそのコマンドを記述する少なくとも一つのパラメーター(以後、パラメーター)に対応するように、
設計される。
例えば、パスワードを収集すると共にコンピューターネットワークを介してそれらを送信する悪意のあるファイルの実行の間にインターセプトされたコマンドおよび上記のコマンドについて算出されたパラメーターは、
Figure 2019091435
と同様に見えることがある。
一つの例示的な態様において、ファイルからのコマンドのインターセプトは、少なくとも、
●専門のドライバ、
●デバッガ、
●ハイパーバイザ
の援助でなされる。
例えば、ファイルの実行の間におけるコマンドのインターセプトおよびそれらのパラメーターの決定は、WinAPI(登録商標)関数のエントリポイントのスプライシングによるインターセプトを利用するドライバの援助でなされる。
さらに別の例において、ファイルの作業のエミュレーションの間におけるコマンドのインターセプトは、エミュレートされることを必要とするコマンドのパラメーターを決定する、上記のエミュレーションを行うエミュレータによって直接的になされる。
さらに別の例において、仮想マシンにおけるファイルの実行の間におけるコマンドのインターセプトは、エミュレートされることを必要とするコマンドのパラメーターを決定する、ハイパーバイザによってなされる。
さらに別の例示的な態様において、ファイルからのインターセプトされたコマンドは、少なくとも、
●API関数、
●アクションの所定のセットを記述する機械命令のセット(マクロコマンド)
である。
例えば、悪意のあるプログラムは、非常に頻繁にある一定のファイルについての検索を行うと共にそれらの属性を変更するが、それのために、それらは、
Figure 2019091435
のようなコマンドのシーケンスを用いる。
それは、今度は、単一のコマンド
Figure 2019091435
のみによって記述されることがある。
さらに別の例示的な態様において、各々のコマンドは、それの一意の識別子と一致させられる。
例えば、全てのWinAPI(登録商標)関数は、0x0000から0x8000までの範囲における数と一致させられることがあるが、ここで各々のWinAPI(登録商標)関数は、一意の数に対応する(例えば、ReadFile→0x00f0、ReadFileEx→0x00f1、connect→0x03A2)。
さらに別の例示的な態様において、類似のアクションを記述する数個のコマンドは、単一の識別子と一致させられる。
例えば、ファイルからのデータの読出しを記述する、ReadFile、ReadFileEx、ifstream、getline、およびgetcharなどのような全てのコマンドは、識別子_read_data_file(0X70F0)と一致させられる。
行動パターンモジュール121は、
●行動ログから選択されたコマンドおよびパラメーターに基づいて少なくとも一つの行動パターンを形成するが、ここで行動ログは、ファイルからの実行可能なコマンド(以後、コマンド)の全体を構成するが、ここで各々のコマンドは、そのコマンドを記述する少なくとも一つのパラメーター(以後、パラメーター)に対応すると共に、行動パターンが少なくとも一つのコマンドおよびそのセットのコマンドの全てを記述するパラメーター(以後、行動パターンの要素)のセットであるように、
●コンボリューション関数モジュール122へそのように形成された行動パターンを送るように
設計される。
例えば、行動ログから、後に続くコマンドcおよびパラメーターpは、選択される。
Figure 2019091435
選択されたコマンドおよびパラメーターに基づいて、各々一つのコマンドおよびそのコマンドを記述する一つのパラメーターを含む行動パターンは、形成される。
Figure 2019091435
次に、そのように形成されたパターンに基づいて、各々一つのパラメーターおよびそのパラメーターによって記述されることができる全てのコマンドを含む、追加的な行動パターンは、形成される。
Figure 2019091435
これの後に、そのように形成されたパターンに基づいて、各々数個のパラメーターおよびそれらのパラメーターによって同時に記述されることができる全てのコマンドを含む、追加的な行動パターンは、形成される。
Figure 2019091435
一つの例示的な態様において、コマンドおよびパラメーターは、ルールに基づいて行動ログからを選ばれるが、それらによって、少なくとも、
●インクリメントiが前もって指定される、連続したi番目毎のコマンドおよびそれを記述するパラメーター、
●以前の選択されたコマンドから所定の時間の間隔の後に(例えば、10秒毎に)実行されたコマンド、およびそれらを記述するパラメーター、
●ファイルの実行の開始から所定の時間間隔で実行されるコマンドおよびそれらを記述するパラメーター、
●所定のリストからのコマンドおよびそれらを記述するパラメーター、
●所定のリストからのパラメーターおよびそれらのパラメーターによって記述されたコマンド、
●コマンドパラメーターの数が所定の閾値の値と比べてより大きいものである場合におけるコマンドの最初のまたはランダムなk個のパラメーター
が選択される。
例えば、行動ログから、ある者は、(CreateFile、ReadFile、WriteFile、DeleteFile、およびGetFileAttributeなどのような)ハードディスクと共に作業するための全てのコマンド、および、選択されたコマンドを記述する全てのパラメーターを選択する。
さらに別の例において、行動ログから、ある者は、1000番目毎のコマンドおよび選択されたコマンドを記述する全てのパラメーターを選択する。
一つの例示的な態様において、行動ログは、少なくとも二つのファイルから前もって形成されるが、それらの一方が安全なファイルであると共に他方が悪意のあるファイルである。
さらに別の例示的な態様において、行動パターンの各々の要素は、行動パターンの要素のタイプのような特性と一致させられる。行動パターンの要素(コマンドまたはパラメーター)のタイプは、少なくとも、
●行動パターンの要素を数として表現することができるとすれば、“数の範囲”
である。
例えば、connectコマンドのパラメーター
Figure 2019091435
を構成する行動パターンの要素については、上記の行動パターンの要素のタイプは、“0x0000から0xFFFFまでの数の範囲”、
●行動パターンの要素をストリングの形態で表現することができるとすれば、“ストリング”
であることがある。
例えば、connectコマンドを構成する行動パターンの要素については、上記の行動パターンの要素のタイプは、“サイズにおいて32個と比べてより少ない文字のストリング”であることがある。
●行動パターンの要素を所定のデータ構造によって記述されたデータの形態で表現することができるとすれば、その行動パターンの要素のタイプは、“データ構造”であることがある。
例えば、find_recordコマンドのパラメーター
Figure 2019091435
を構成する行動パターンの要素については、この行動パターンの要素のタイプは、“データ構造MD5”であることがある。
さらに別の例示的な態様において、行動パターンは、追加的に、行動パターンの要素として、少なくとも、
●語彙素の形成のための所定のルール、
●以前に訓練された再帰型ニューラルネットワーク
の使用で上記の行動パターンの要素の語彙の分析に基づいて形成されたトークンを含む。
例えば、パラメーター
Figure 2019091435
の語彙の分析の援助で、
語彙素の形成のためのルールに基づいて、
●ストリングがファイルへのパスを含むとすれば、ファイルが位置させられるディスクを決定する、
●ストリングがファイルへのパスを含むとすれば、ファイルが位置させられるフォルダを決定する、
●ストリングがファイルへのパスを含むとすれば、ファイル拡張子を決定する。
ここで、語彙素は、
●ファイルへのパス、
●ファイルが位置させられるフォルダ、
●ファイルの名前、
●ファイルの拡張子
である。
トークン
Figure 2019091435
を形成することができる。
さらに別の例において、パラメーター
Figure 2019091435
の語彙の分析の援助で、
語彙素の形成のためのルールに基づいて、
●パラメーターがIPアドレスを構成するとすれば、上記のIPアドレスを記述するビットマスク(またはメタ文字によって表現された、それの類似物)(即ち、相等
Figure 2019091435
が全ての上記のIPについて真であるビットマスクM)を決定する。
トークン
Figure 2019091435
を構築することができる。
さらに別の例において、数を備える全ての利用可能なパラメーターから、数のトークンは、所定の範囲
Figure 2019091435
において形成される。
と共に、ソーティングは、数の範囲
Figure 2019091435
によってなされる。
さらに別の例示的な態様において、トークンは、ストリングからなる行動パターンの要素から形成される。
例えば、行動パターンは、ディスクの名前、ディレクトリ、ファイル、およびファイル拡張子などを含むファイルへのパスである。この場合には、トークンは、ディスクの名前およびファイル拡張子であることがある。
Figure 2019091435
コンボリューション関数モジュール122は、
●得られた行動パターンについてのそのコンボリューション関数の結果の逆コンボリューション関数が、指定された値と比べてより大きい得られた行動パターンとの類似性の程度を有することになる、即ち、
Figure 2019091435
であるように行動パターンからコンボリューション関数を形成する
ように設計される。
ここで、
は、行動パターンであると共に、
gは、コンボリューション関数であると共に、
−1は、逆コンボリューション関数であると共に、
●機械学習モジュール132へそのように形成されたコンボリューション関数を送る。
一つの例示的な態様において、コンボリューション関数モジュール122は、追加的に、
●得られた行動パターンに基づいて行動パターンの特徴ベクトルを算出するが、ここで、行動パターンの特徴ベクトルは、行動パターンの要素のハッシュ値の和として表現されることがあるように、
●行動パターンの特徴ベクトルからコンボリューション関数を形成するが、ここで、コンボリューション関数は、算出された特徴ベクトルと算出された特徴ベクトルのそのハッシュ関数の結果の逆ハッシュ関数の結果との間の類似性の程度が、所定の値と比べてより大きいものであるように、ハッシュ関数を構成するように、
設計される。
さらに別の例示的な態様において、コンボリューション関数は、計量学習法によって、即ち、所定の閾値の値と比べてより大きい類似性の程度を有する行動パターンについての上記のコンボリューション関数の援助で得られたコンボリューション間の距離が、所定の閾値の値と比べてより小さいものである一方で、所定の閾値の値と比べてより小さい類似性の程度を有する行動パターンについてはそれが所定の閾値の値と比べてより大きいものであるように、形成される。
例えば、行動パターンの特徴ベクトルは、後に続くもののように、算出されることがある。
●まず、100000個の要素からなる、空のビットベクトルが、作成される(ここで、1ビットの情報がベクトルの各々の要素のために取って置かれる)。
●行動パターンrからの1000個の要素が、コマンドcについてのデータの記憶のために確保されると共に、残りの99000個の要素が、行動パターンrからパラメーターcのために確保されるが、ここで、(要素1,001から要素51000までの)50000個の要素が、ストリングパラメーターのために、および、(要素51001から要素76000までの)25000個の要素が、数のパラメーターのために、確保される。
●行動パターンrの各々のコマンドcが、0から999までのある一定の数xと一致させられると共に、対応するビットが、そのように作成されたベクトルに設定される。
Figure 2019091435
●行動パターンrの各々のパラメーターpについてハッシュ値が、式
○ストリングについての、
Figure 2019091435
○数についての、
Figure 2019091435
○他のものについての、
Figure 2019091435
によって算出される
と共に、算出されたハッシュ値に依存して、対応するビットが、作成されたベクトルに設定される。
Figure 2019091435
そのように設定された要素を備えた記載されたビットベクトルは、行動パターンrの特徴ベクトルを構成する。
さらに別の例示的な態様において、行動パターンの特徴ベクトルは、後に続く式によって計算される。
Figure 2019091435
ここで、
bは、計算の位取り法の底である(例えば、2進法のベクトルについてはb=2、ストリング、即ち、文字のグループを表すベクトルについてはb=8)と共に、
は、行動パターンのi番目の要素であると共に、
hは、ハッシュ関数であるが、ここで、
Figure 2019091435
である。
例えば、行動パターンの特徴ベクトルは、後に続くもののように計算されることがある。
●まず、1000個の要素からなる、(以前の例とは異なる)さらに別の空のビットベクトルを作成する(ここで、1ビットの情報がベクトルの各々の要素のために取って置かれる)。
●式
Figure 2019091435
によって行動パターンrの各々のパターン要素rについてのハッシュ値を算出する
と共に、計算されたハッシュ値に依存して、作成されたベクトルに、対応するビットを設定する。
Figure 2019091435
さらに別の例示的な態様において、行動パターンの特徴ベクトルは、Bloomフィルタを構成する。
例えば、行動パターンの特徴ベクトルは、後に続くもののように計算されることがある。
●まず、100000個の要素からなる、(以前の例とは異なる)さらに別の空のベクトルを作成する。
●式
Figure 2019091435
によってハッシュ関数のセット{h}を使用することで行動パターンrの各々のパターン要素rについての少なくとも二つのハッシュ値を算出する。
ここで、
Figure 2019091435
である。
と共に、計算されたハッシュ値に依存して、作成されたベクトルに、対応する要素を設定する。
Figure 2019091435
さらに別の例示的な態様において、行動パターンの特徴ベクトルの構築されたコンボリューション関数の結果のサイズは、行動パターンの上記の特徴ベクトルのサイズと比べてより小さいものである。
例えば、特徴ベクトルは、100000個の要素を含むビットベクトルを構成すると共に、このように12500バイトのサイズを有する一方で、上記の特徴ベクトルのコンボリューション関数の結果は、8個のMD5のハッシュ値のセットを構成すると共に、このように256バイトのサイズ、即ち、特徴ベクトルのサイズの〜2%を有する。
さらに別の例示的な態様において、特徴ベクトルと算出された特徴ベクトルの上記のハッシュ関数の結果の逆ハッシュ関数の結果との間の類似性の程度は、0から1までの範囲における数値を構成すると共に式によって算出される。
Figure 2019091435
ここで、
Figure 2019091435
は、gとのh(r)の同時発生を意味すると共に、
{h(r)}は、行動パターンの要素のハッシュ関数の結果のセットであると共に、
{g}は、行動パターンの要素のハッシュ関数の結果の逆ハッシュ関数の結果のセットであると共に、
は、行動パターンのi番目の要素であると共に、
hは、ハッシュ関数であると共に、
wは、類似性の程度である。
例えば、算出された特徴ベクトルは、ビットベクトル
Figure 2019091435
を構成すると共に、この特徴ベクトルのコンボリューション関数の結果は、
Figure 2019091435
であると共に、上で得られた結果の逆コンボリューション関数の結果は、
Figure 2019091435
である(ここで、太字体は、特徴ベクトルとは異なる要素を示す)。このように、特徴ベクトルおよび逆コンボリューション関数の結果の類似性は、0.92である。
さらに別の例示的な態様において、パラメーターとして行動パターンの要素を使用する前述したハッシュ関数は、行動パターンの要素のタイプに依存する。
Figure 2019091435
例えば、ファイルへのパスを含むストリングを構成する行動パターンからパラメーターのハッシュ値を計算するために、我々は、ハッシュ関数CRC32を、あらゆる他のストリングについてはHoffmanアルゴリズムを、データセットについてはハッシュ関数MD5を、使用する。
さらに別の例示的な態様において、行動パターンの特徴ベクトルのコンボリューション関数の形成は、オートエンコーダによってなされるが、ここで、入力データは、行動パターンのその特徴ベクトルの要素であると共に、出力データは、所定の閾値の値と比べてより大きい入力データに対する類似性の係数を有するデータである。
検出モデルモジュール131は、
●少なくとも、
○検出モデルの機械学習の方法の選択、
○教育モデルのパラメーターの初期化であって、ここで、検出モデルの機械学習の開始に先立って初期化された教育モデルのパラメーターが、用意モジュール111によって選択されたファイルのパラメーターに依存する、ハイパーパラメーターとして知られるもの、
を含む、悪意のあるファイルのための検出のためのモデルを作成するように、
●機械学習モジュール132へそのように作成された教育モデルを送る
ように設計される。
例えば、検出モデルの機械学習の方法を選択するとき、最初に、検出モデルとして人工のニューラルネットまたはランダムフォレストを使用するかどうかについて決断がなされると共に、次に、ランダムフォレストが選ばれるとすれば、ある者は、ランダムフォレストのノードについての分離尺度を選択するか、または、人工のニューラルネットが選ばれるとすれば、ある者は、人工のニューラルネットのパラメーターの数値的な最適化の方法を選択する。機械学習の特定の方法の選びに関する決断は、所定の種類(即ち、データ構造、行動パターンの要素の数、悪意のあるファイルについて検索が行われる計算装置の性能、および計算装置の利用可能な資源など)の入力データ(行動パターン)の使用と共に悪意のあるファイルの検出におけるその方法の有効性(即ち、悪意のあるファイルの検出に生じる第1のおよび第2の種類の誤りの数)に基づいてなされる。
さらに別の例において、検出モデルの機械学習の方法は、少なくとも、
●照合検査、スライディングチェック、相互検証(CV)、
●尺度AICおよびBICなどの数学的な検証、
●A/B試験、スプリット試験、
●スタッキング
に基づいて選択される。
さらに別の例において、計算装置の低い性能の場合には、ランダムフォレストが、選ばれるが、さもなければ人工のニューラルネットが、選ばれる。
一つの例示的な態様において、機械学習は、以前に作成された訓練されてない検出モデル(即ち、そのモデルのパラメーターが、入力データの分析に基づいて、所定の閾値の値と比べてより高い精度で出力データを生じさせることができない検出モデル)について行われる。
さらに別の例示的な態様において、検出モデルの機械学習の方法は、少なくとも、
●意思決定木に基づいた勾配ブースティング、
●意思決定木、
●K最近傍法、
●サポートベクトルマシン(SVM)
である。
さらに別の例示的な態様において、検出モデルモジュール131は、機械学習モジュール132からの要求に応じて検出モデルを作成するように追加的に設計されるが、ここで、ある一定のハイパーパラメーターおよび機械学習の方法は、以前の検出モデルについて選ばれたハイパーパラメーターおよび機械学習方法とは異なるものであるように選ばれる。
機械学習モジュール132は、検出モデルを教育するように設計されるが、それにおいて検出モデルのパラメーターは、得られた行動パターンについての得られたコンボリューション関数の使用と共に計算されると共に、ここで、検出モデルは、上記の検出モデルの計算されたパラメーターの使用と共に少なくとも一つの行動パターンに基づいてファイルの有害性の程度を計算するためのルールのセットを構成する。
例えば、検出モデルは、用意モジュール111によって選択されたファイルの既知のセットで訓練されるが、ここで、上記のファイルのセットは、60%の安全なファイルおよび40%の悪意のあるファイルを含む。
一つの例示的な態様において、ファイルの有害性の程度は、0から1までの数値を構成するが、ここで、0は、上記のファイルが安全なものであることを、および、1は、それが悪意のあるものであることを、意味する。
さらに別の例示的な態様において、行動ログの分析に基づいて形成された行動パターンの数における変化に依存するファイルの有害性の程度における単調な変化を保証する検出モデルの教育の方法が選ばれる。
例えば、ファイルの有害性の程度における単調な変化は、各々の後続の行動パターンを分析する際に、算出された有害性の程度が、以前に算出された有害性の程度と比べてより小さいものであることがないことになることを意味する(例えば、10番目の行動パターンの分析の後には、算出された有害性の程度は、0.2に等しいものであるが、50番目の行動パターンの分析の後には、それが0.4であると共に、100番目の行動パターンの分析の後には、それが0.7である)。
さらに別の例示的な態様において、機械学習モジュール132は、追加的に、
●試験選択のファイルからファイルの有害性の正しい決定を決定するために、試験選択のファイルからのファイルの分析に基づいて形成された得られた行動ログについて訓練された検出モデルのチェックを行うように、
●チェックの否定的な結果の場合には、少なくとも、
○検出モデルの教育に使用された現在のものとは異なる選択のファイルを用意するために用意モジュール111へ、
○現在のものとは異なる、新しい検出モデルを作成するために検出モデルモジュール131へ
リクエストを送るように、
設計される。
訓練された検出モデルのチェックは、後に続くものを伴う。上記の検出モデルは、用意モジュール111によって選択されたファイルのセットに基づいて教育されてきたものであるが、それについては、それらが安全なものまたは悪意のあるものであるかどうかが知られたものであった。悪意のあるファイルの検出のためのモデルが正しく訓練されてきたものであること、即ち、検出モデルが悪意のあるファイルを検出すると共に安全なファイルを見送ることができるものであること、を検証するために、このモデルのチェックが行われる。この目的のために、上記の検出モデルは、用意モジュール111によって選択されたファイルの別のセットからのファイルが悪意のあるものであるかどうかを決定するために使用されるが、それらのファイルが悪意あるものであるかどうかは前もって知られるものである。このように、ある者は、いくつの悪意のあるファイルが“見逃された”ものであったか、および、いくつの安全なファイルが検出されたものであったかを決定する。見逃された悪意のあるファイルおよび検出された安全なファイルの数が所定の閾値の値と比べてより大きいものであるとすれば、その検出モデルは、不適切に訓練されたものであることが認められると共に、それについては(例えば、以前のものとは異なる検出モデルのパラメーターの値を使用する、別の訓練選択のファイルなどについて)繰り返しの機械学習がなされることを必要とする。
例えば、訓練されたモデルについてのチェックを行うとき、ある者は、試験選択のファイルからの悪意のあるファイルの検出における第1のおよび第2の種類の誤りの数をチェックする。そのような誤りの数が所定の閾値の値と比べてより大きいものであるとすれば、新しい教育および試験選択のファイルが選択されると共に新しい検出モデルが作成される。
さらに別の例において、教育選択のファイルは、10000個のファイルを含むものであったが、それらの8500個が悪意のあるものであったと共に1500個が安全なものであった。検出モデルが教育された後に、それは、1200個のファイルを含む試験選択のファイルにおいてチェックされたものであったが、それらの350個が悪意のあるものであったと共に850個が安全なものであった。行われたチェックの結果に従って、350の悪意のあるファイルのうち15個(4%)は、検出を失敗した一方で、850の安全なファイルのうち102個(12%)が悪意のあるものであることが誤って認められたものであった。検出されなかった悪意のあるファイルの数が5%を超えるか、または、ランダムに検出された安全なファイルが0.1%を超える場合には、訓練された検出モデルは、不適切に訓練されたものであることが認められる。
一つの例示的な態様において、システムの行動ログは、システムの以前に形成された行動ログおよび上記のシステムの行動ログの形成の後にインターセプトされたコマンドに基づいて追加的に形成される。
例えば、ファイルの実行の開始の後に、それについてはそのファイルの有害性または安全性に関する判断を告げることが必要なことであるが、インターセプトされた実行可能なコマンドおよびそれらを記述するパラメーターは、行動ログに記録される。これらのコマンドおよびパラメーターの分析に基づいて、そのファイルの有害性の程度が算出される。分析の結果に基づいてファイルが悪意あるものまたは安全なものであることに関する判断が告げられたのではないとすれば、コマンドのインターセプトが継続されることがある。インターセプトされたコマンドおよびそれらを記述するパラメーターは、古い行動ログにまたは新しい行動ログに記録される。第1の場合には、行動ログに記録された全てのコマンドおよびパラメーターの分析に、即ち、有害性の程度を算出するために以前に使用されたものにでさえも、基づいて有害性の程度が算出される。
有害性モジュール142は、
●行動ログモジュール112から得られた行動ログおよび機械学習モジュール132から得られた検出モデルに基づいて有害性の程度を算出するが、ファイルの有害性の程度が、実行可能なファイルの悪意のある行動を記述する、定量的な特性(例えば、0−ファイルが安全な行動のみを有する−から1−上記のファイルが所定の悪意のある行動を有する−までの範囲にあるもの)であるように、
●管理モジュール143へ算出された有害性の程度を送るように、
設計される。
管理モジュール143は、コンピューターシステムのセキュリティーを保証する際における使用のための得られた有害性の程度の分析に基づいてコンピューターシステムの計算資源を配分するように設計される。
一つの例示的な態様において、コンピューターシステムの計算資源は、少なくとも、
●空いているRAMの容量、
●ハードディスクの空き領域の容量、
●(例えば、より大きい深さのエミュレーションと共に)アンチウィルススキャンに費やすことができる、空いているプロセッサの時間(プロセッサの時間の分量)
を含む。
さらに別の例示的な態様において、有害性の程度の分析は、有害性の程度の先行する算出の各々の後における有害性の程度の値における変化のダイナミクスを決定すること、および、少なくとも、
●有害性の程度の値における増加の場合にコンピューターシステムの追加的な資源を配分すること、
●有害性の程度の値における減少の場合にコンピューターシステムの以前に配分された資源を解放すること
に存する。
図2は、悪意のあるファイルの検出のためのモデルの機械学習の方法の構造図を示す。
悪意のあるファイルの検出のためのモデルの機械学習の方法の構造図は、教育選択のファイルが用意されるステップ211、行動ログが形成されるステップ212、行動パターンが形成されるステップ221、コンボリューション関数が形成されるステップ222、検出モデルが作成されるステップ231、検出モデルが訓練されるステップ232、コンピューターシステムの行動が追跡されるステップ241、有害性の程度が算出されるステップ242、およびコンピューターシステムの資源が管理されるステップ243を含む。
ステップ211において、用意モジュール111は、所定の尺度に従ってファイルのデータベースから少なくとも一つのファイルを選択するために使用されるが、ここで、検出モデルの教育は、選択されたファイルに基づいてステップ232においてなされることになる。
ステップ212において、行動ログモジュール112は、
●少なくとも、
○ステップ211において選択されたファイルの実行、
○ステップ211において選択されたファイルの作業のエミュレーション
の間に、少なくとも一つコマンドをインターセプトするために、
●各々のインターセプトされたコマンドについて、そのコマンドを記述する少なくとも一つのパラメーターを決定するために、
●インターセプトされたコマンドおよび決定されたパラメーターに基づいて、得られたファイルの行動ログを形成するために、ここで、行動ログは、ファイルからのインターセプトされたコマンド(以後、コマンド)のセットを表すと共に、ここで、各々のコマンドは、そのコマンドを記述する少なくとも一つの定義されたパラメーター(以後、パラメーター)に対応するが、
使用される。
ステップ221において、行動パターンモジュール121は、ステップ212において形成された行動ログから選択されたコマンドおよびパラメーターに基づいて少なくとも一つの行動パターンを形成するために使用されるが、ここで、行動ログは、ファイルからの実行可能なコマンド(以後、コマンド)のグループを表すと共に、ここで、各々のコマンドは、そのコマンドを記述する少なくとも一つのパラメーター(以後、パラメーター)に対応すると共に、行動パターンが少なくとも一つのコマンドおよびそのセットからの全てのコマンドを記述するパラメーターのセットである。
ステップ222において、コンボリューション関数モジュール122は、前述の行動パターンについてのこのコンボリューション関数の結果の逆コンボリューション関数が、指定された値と比べてより大きい前述の行動パターンに対する類似性の程度を有することになるように、ステップ221において形成された行動パターンのコンボリューション関数を形成するために使用される。
ステップ231において、検出モデルモジュール131は、検出モデルを作成するために使用されるが、それのためには、少なくとも、
●検出モデルの機械学習の方法が選択されると共に、
●教育モデルのパラメーターが初期化されるが、ここで、検出モデルの機械学習の開始に先立って初期化された教育モデルのパラメーターが、ハイパーパラメーターとして知られる。
ステップ211において選択されたファイルのパラメーターに依存するものである。
ステップ232において、機械学習モジュール132は、ステップ231において作成された検出モデルを教育するために使用されるが、それにおいて、その検出モデルのパラメーターは、ステップ221において形成された行動パターンについて、ステップ222において形成されたコンボリューション関数の使用と共に算出されるが、ここで、検出モデルは、ここで、検出モデルは、その検出モデルの算出されたパラメーターの使用と共に少なくとも一つの行動パターンに基づいてファイルの有害性の程度を算出するためのルールのグループを構成する。
ステップ241において、行動ログモジュール112は、
●コンピューターシステムにおいて動くファイルによって実行される少なくとも一つのコマンドをインターセプトするために、
●インターセプトされたコマンドに基づいてシステムの行動ログを形成するために
使用される。
ステップ242において、有害性モジュール142は、ステップ241で形成された、システムの行動ログ、および、ステップ232で訓練されてきたものである検出モデルに基づいて、有害性の程度を算出するために使用される。
ステップ243において、管理モジュール143は、コンピューターシステムのセキュリティーを保証する際における使用のために、ステップ242において算出されたような有害性の程度の分析に基づいて計算資源を配分するために使用される。
図3は、行動パターンの数の関数として有害性の程度を変化させるダイナミクスの例を示す。
行動パターンの数の関数としての有害性の程度を変化させるダイナミクスの例は、悪意のあるファイルの実行の間に形成された行動パターンの数の関数としての有害性の程度における任意の変化のダイナミクスのグラフ311、悪意のあるファイルの実行の間に形成された行動パターンの数の関数としての有害性の程度における単調な変化のダイナミクスのグラフ312、安全なファイルの実行の間に形成された行動パターンの数の関数としての有害性の程度における任意の変化のダイナミクスのグラフ321、および、安全なファイルの実行の間に形成された行動パターンの数の関数としての有害性の程度における単調な変化のダイナミクスのグラフ322を含む。
一つの例示的な態様においては、実行可能なファイルの有害性の程度は、0(上記のファイルが絶対的に安全な行動を有する)から1(上記のファイルが所定の悪意ある行動を有する)までの範囲における値を取る。
グラフ311は、悪意のあるファイルの実行の間に形成された行動パターンの数の関数としての有害性の程度における任意の変化のダイナミクスを示す。
初めに、上記のファイルを実行する際に、形成された行動パターンの数は、大きいものであることはないと共に、おまけに、実行可能なファイルの悪意ある活動は、欠如したものまたは最小限のものであるのかもしれない(例えば、データの初期化が起こるが、それは、安全なものを含む、多数のファイルに対して自然なことである)ので、算出された有害性の程度は、0とはわずかに異なると共に所定の閾値の値(以後、安全性の尺度)を超えるものではないが、それを通過した後に、実行可能なファイルの行動は、安全なものと認められることを停止する(グラフにおいて、この閾値の値は、破線によって指定される)。
しかしながら、時間内に実行可能なファイルの悪意のある活動が増大すると共に有害性の程度が、安全性の尺度を上回る、1に近づくことを始める一方で、有害性の程度は、所定の閾値の値(以後、有害性の尺度)に到達することがないかもしれないが、それの通過の後に、実行可能なファイルの行動は、悪意のあるものであると認められることになる(グラフにおいて、この閾値の値は、鎖線によって指定される)。
増大の期間の後に、悪意のある活動は、停止することがあると共に、有害性の程度は、再度0(時間A)に向かう傾向がある。ある一定の時間で、有害性の程度は、有害性の尺度と比べてより大きいものになることになる(時間B)が、実行可能なファイルの行動は、悪意のあるものとして認識されることになると共に、その結果として、ファイルそれ自体が、悪意のあるものとして認識されることになる。
記載されたアプローチが、実行可能ファイルの長期の明瞭に現わされた悪意のある活動の間に最も頻繁に起こる、有害性の程度における劇的な増大に対して良好に応答するので、悪意のあるものとしてファイルを認識する時間は、悪意のある活動における増大の開始と比べて顕著により遅く生じるかもしれない。
悪意のある活動が時折生じる場合(グラフ311の左側)には、算出された有害性の程度は、その後に実行可能なファイルの行動の有害性、および、その結果として、実行可能なファイルそれ自体の有害性に関する判断が告げられる値に到達するものではないかもしれない。
形成された各々の行動パターンに基づくのではなく有害性の程度が算出される場合には(例えば、計算装置の性能が低いものであるため)、有害性の程度が時間A(悪意のある活動が始まるとき)および時間C(悪意のある活動が終了させられるとき)で算出されることになるが、しかし、時間B(悪意のある活動が生じているものであるとき)では算出されることがないことになる状況は、可能性のあるものであるので、算出された有害性の程度は、有害性の尺度を超えるものではないことになるが、実行可能なファイルの活動は、悪意のあるものとして認識されることがないことになると共に、その結果として、悪意のあるファイルは、検出されることがないことになる。
グラフ312は、悪意のあるファイルの実行の間に形成された行動パターンの数の関数としての有害性の程度における単調な変化のダイナミクスを示す。
初めに、上記のファイルを実行する際に、形成された行動パターンの数は、大きいものであることはないと共に、おまけに、実行可能なファイルの悪意ある活動は、欠如したものまたは最小限のものであるのかもしれない(例えば、データの初期化が起こるが、それは、安全なものを含む、多数のファイルに対して自然なことである)ので、算出された有害性の程度は、0とはわずかに異なると共に所定の閾値の値(以後、安全性の尺度)を超えるものではないが、それを通過した際に、実行可能なファイルの行動は、安全なものと認められることを停止する(グラフにおいて、この閾値の値は、破線によって指定される)。
しかしながら、時間内に実行可能なファイルの悪意のある活動が増大すると共に有害性の程度が、安全性の尺度を上回る、1に近づくことを始める一方で、有害性の程度は、所定の閾値の値(以後、有害性の尺度)に到達することがないかもしれないが、それの通過の後に、実行可能なファイルの行動は、悪意のあるものであると認められることになる(グラフにおいて、この閾値の値は、鎖線によって指定される)。
増大の期間(時間A−B)の後に、悪意のある活動は停止することがある(時間B−A)と共にそれにもかかわらず有害性の程度は低下するものではないことになるが、しかし、実行可能なファイルのいずれの悪意のある活動の間にも増大することを継続するのみである。ある一定の時間で、有害性の程度は、有害性の尺度と比べてより大きいものになることになる(時間D)が、実行可能なファイルの行動は、悪意あるものとして認識されることになると共に、その結果として、ファイルそれ自体が、悪意のあるものとして認識されることになる。
記載されたアプローチが、実行可能ファイルの長期の明瞭に現わされた悪意のある活動の間、および、頻繁な、時折の、あまり長期ではない悪意のある活動の間の両方に起こる、有害性の程度における滑らかな増大に対して良好に応答するので、悪意のあるものとしてファイルを認識する時間は、悪意のある活動の現れの後すぐに生じるかもしれない。
悪意のある活動が時折生じる場合(グラフ312の左側)には、時間にわたる算出された有害性の程度は、その後に実行可能なファイルの行動の有害性および実行可能なファイルそれ自体の有害性に関する判断が告げられる値に到達するかもしれない。
(例えば、計算装置の性能が低いものであるため)形成された各々の行動パターンに基づくのではなく有害性の程度が算出される場合には、有害性の程度が時間A(悪意のある活動が始まるとき)および時間C(悪意のある活動が終了させられるとき)で算出されることになるが、しかし、時間B(悪意のある活動が生じているものであるとき)では算出されることがないことになる状況は、可能性のあるものであるが、それにもかかわらず、有害性の程度が単調に変化するので、算出された有害性の程度は、それらの値を増加させることになるのみであると共に、時間Cで有害性の程度は、有害性の尺度を超えることになるが、実行可能なファイルの活動は、悪意のあるものとして認識されることになると共に、その結果として、悪意のあるファイルは、検出されることになる。
グラフ321は、安全なファイルの実行の間に形成された行動パターンの数の関数としての有害性の程度における任意の変化のダイナミクスを示す。
初めに、上記のファイルを実行する際に、形成された行動パターンの数は、大きいものであることはないと共に、おまけに、悪意のあるファイルの実行の間にもまた実行可能なものである、“疑わしい”コマンド(例えば、ファイルの削除、およびコンピューターネットワークにおけるデータの転送など)が実行されるかもしれないとはいえ、実行可能なファイルについてのそのようなものとして悪意ある活動が無いものであると共に、従って、算出された有害性の程度は、0とは異なると共に所定の閾値の値(以後、安全性の尺度)を超えるものではないが、それを通過した後に、実行可能なファイルの行動は、安全なものと認められることを停止する(グラフにおいて、この閾値の値は、破線によって指定される)。
しかしながら、時間内に実行可能なファイルの悪意のある活動が大きい数の“疑わしい”コマンドの実行の理由で増大すると共に有害性の程度が1に近づくことを始める一方で、有害性の程度は、所定の閾値の値(以後、有害性の尺度)に到達することがないかもしれないが、それの通過の後に、実行可能なファイルの行動は、悪意のあるものであると認められることになる(グラフにおいて、この閾値の値は、鎖線によって指定される)が、しかし、それは、安全性の尺度を超えるかもしれないので、ファイルは、安全なものと認められることを停止すると共に“疑わしい”ものになることがある。
増大の期間の後に、悪意のある活動は、停止することがあると共に、有害性の程度は、再度0に向かう傾向があることにある(時間C)。
(例えば、計算装置の性能が低いものであるため)形成された各々の行動パターンに基づくのではなく有害性の程度が算出される場合には、有害性の程度が時間B(活動が悪意のあるものに最も類似するものである、即ち、“疑わしい”ものになるとき)で算出されるが、しかし、時間A(“疑わしい”活動が増加するとき)では、または、時間C(“疑わしい”活動が減少するものであるとき)ではされないことになる状況は、可能性のあるものであるので、算出された有害性の程度は、安全性の尺度を超えることになるが、実行可能なファイルの活動は、“疑わしい”ものとして認識されることになる(それは、安全なものと認められることがないことになる)と共に、その結果として、安全なファイルは、安全なものとして認識されることがないことになる。
グラフ332は、安全なファイルの実行の間に形成された行動パターンの数の関数としての有害性の程度における単調な変化のダイナミクスを示す。
初めに、上記のファイルを実行する際に、形成された行動パターンの数は、大きいものであることはないと共に、おまけに、悪意のあるファイルの実行の間にもまた実行可能なものである、“疑わしい”コマンド(例えば、ファイルの削除、およびコンピューターネットワークにおけるデータの転送など)が実行されるかもしれないとはいえ、実行可能なファイルについてのそのようなものとして悪意ある活動が無いものであると共に、従って、算出された有害性の程度は、0とは異なると共に所定の閾値の値(以後、安全性の尺度)を超えるものではないが、それを通過した後に、実行可能なファイルの行動は、安全なものと認められることを停止する(グラフにおいて、この閾値の値は、破線によって指定される)。
しかしながら、時間内に実行可能なファイルの悪意のある活動が大きい数の“疑わしい”コマンドの実行の理由で増大すると共に有害性の程度が1に近づくことを始める一方で、有害性の程度は、所定の閾値の値(以後、有害性の尺度)に到達することがないかもしれないが、それの通過の後に、実行可能なファイルの行動は、悪意のあるものであると認められることになる(グラフにおいて、この閾値の値は、鎖線によって指定される)と共に、また、それは、安全性の尺度を超えることがないかもしれないので、ファイルは、安全なものと認められることを継続することになる。
増大の期間(時間A−B)の後に、悪意のある活動は停止することがある(時間B−A)と共にそれにもかかわらず有害性の程度は低下するものではないことになるが、しかし、実行可能なファイルのいずれの悪意のある活動の間にも増大することを継続するのみであると共に、それにもかかわらず安全性の係数を超えるものではないので、実行可能なファイルの活動は、安全なものとして認識されることになると共に、その結果として、上記のファイルが、安全なものとして認識されることになる。
(例えば、計算装置の性能が低いものであるため)形成された各々の行動パターンに基づくのではなく有害性の程度が算出される場合には、有害性の程度が時間B(活動が悪意のあるものに最も類似するものである、即ち、“疑わしい”ものになるとき)で算出されるが、しかし、時間A(“疑わしい”活動が増加するとき)では、または、時間C(“疑わしい”活動が減少するものであるとき)ではされないことになる状況は、可能性のあるものであるが、それにもかかわらず、有害性の程度が単調に変化するので、算出された有害性の程度は、それらの値を増加させることになるのみであると共に、時間A、B、Cで有害性の程度は、安全性の尺度を超えるものではないことになるが、実行可能なファイルの活動は、安全なものとして認識されることになると共に、その結果として、安全なファイルは、安全なものとして認識されることになる。
記載されたアプローチは、有害性の程度の増大における鋭いピークを回避することを可能性のあるものにする、有害性の程度における滑らかな増大を提供するので、“疑わしい”ものとしてファイルを認識する時間は、“疑わしい”活動の現れの後に生じることはないかもしれない。
図4は、行動パターンの要素の間における関係の図の例を示す。
行動パターンの要素の間における関係の図の例は、コマンド411(中空の円)、パラメーター412(ハッチングがかけられた円)、一つのパラメーターを備えた行動パターン421の例、および一つのコマンドを備えた行動パターン422の例を含む。
ファイルの実行の間に、コマンド411がインターセプトされたと共にそれらを記述するパラメーター412が決定された。
Figure 2019091435
述べたコマンド411およびパラメーター412に基づいて、行動パターン(421,422)が形成されると共に行動パターンの要素の間における関係が決定される。
第1のステップにおいて、一つのコマンド411およびそのコマンドを記述する一つのパラメーター412を含むパターンが形成される。
Figure 2019091435
示された例において、8個のインターセプトされたコマンド(それらを記述するパラメーターを備えたもの)に基づいて19個の行動パターンが形成されてきたものである。
第2のステップにおいて、一つのパラメーター412およびそのパラメーター412によって記述することができる全てのコマンド411を含むパターンが形成される。
Figure 2019091435
示された例において、8個のインターセプトされたコマンド(それらを記述するパラメーターを備えたもの)に基づいて7個の行動パターンが加えて形成されてきたものである。
第3のステップにおいて、数個のパラメーター412およびそれらのパラメーター412によって記述することができる全てのコマンド411を含むパターンが形成される。
Figure 2019091435
与えられた例において、8個のインターセプトされたコマンド(それらを記述するパラメーターを備えたもの)に基づいて3個の行動パターンが加えて形成されてきたものである。
図5は、悪意のあるファイルの検出のための訓練されたモデルを使用することによって悪意のあるファイルを検出するシステムの構造図を提示する。
悪意のあるファイルの検出のための訓練されたモデルを使用することによって悪意のあるファイルを検出するシステムの構造図は、分析されるファイル501、行動ログモジュール112、選択モジュール520、検出モデルのデータベース521、行動ログ分析モジュール530、有害性モジュール540、意思決定パターンのデータベース541、および分析モジュール550からなる。
一つの例示的な態様において、上記のシステムは、追加的に実行されるファイルの行動ログモジュール112を含むが、それは、
●少なくとも、
○ファイル501の実行、
○ファイル501の実行のエミュレーション
の間に少なくとも一つのコマンドをインターセプトするように、
●各々のインターセプトされたコマンドについてそのコマンドを記述する少なくとも一つのパラメーターを決定するように、
●インターセプトされたコマンドおよび決定されたパラメーターに基づいて、そのファイルについての行動ログを形成するが、インターセプトされたコマンドおよびそれらを記述するパラメーターがより前のインターセプトされたコマンドからより後のインターセプトされたコマンドまでの時間的な順序で行動ログに入れられる(以後、行動ログにおけるエントリー)ように、
●行動ログ分析モジュール530および選択モジュール520へ構築された行動ログを送るように
設計される。
さらに別の例示的な態様において、行動ログは、ファイル501からの実行可能なコマンド(以後、コマンド)のセットであるが、ここで、各々のコマンドは、そのコマンドを記述する少なくとも一つのパラメーター(以後、パラメーター)に対応する。
さらに別の例示的な態様において、実行されるファイル501のコマンドのインターセプトおよびインターセプトされたコマンドのパラメーターの決定は、少なくとも、
●次のコマンドがインターセプトされることになる時間まで(行動ログ分析モジュール530、有害性モジュール540、および分析モジュール550の援助と共に実行された)有害性について実行されるファイル501を分析することが可能なものであるかどうかに関する決定、
●有害性についての実行されるファイル501の分析が所定の閾値の値より下の述べた計算装置の計算資源の低下に帰着することになるかどうかに関する決定であって、計算装置の資源が少なくとも
○その計算装置の性能、
○その計算装置の空いているRAMの容量、
○(ハードディスクのような)その計算装置の情報記憶媒体における空き領域の容量、
○その計算装置が接続されるコンピューターネットワークの帯域幅
であるもの、
を含む、悪意のあるファイルの検出のための訓練されたモデルを使用することによって悪意のあるファイルを検出するシステムが動くものである計算装置の性能の分析に基づいてなされる。
有害性についてファイル501を分析するために実行されたアクションの全部のシーケンスが、実行されるファイル501の二つの連続して実行されたコマンドの間の間隔と比べてより多くの時間を取るので、悪意のあるファイルの検出のための訓練されたモデルを使用することによって悪意のあるファイルを検出するシステムの性能を増加させるために、実行されるファイル501の全ての実行可能なコマンドを含むものではない行動ログを分析することが必要なことであることがある。
例えば、実行されるファイル501のコマンドは、0.001秒毎に実行される(と共に連続してインターセプトされる)が、しかし、有害性についてのファイル501の分析は、0.15秒を取るので、その時間の間隔の間にインターセプトされた全てのコマンドは、無視されることになると共に、このように、150番目のコマンド毎にのみインターセプトすることは、十分なことである。
選択モジュール520は、
●実行されるファイル501の行動ログから選択されたコマンドおよびパラメーターに基づいて検出モデルのデータベース521から悪意のあるファイルの検出のための少なくとも二つのモデルを選択するが、ここで、悪意のあるファイルの検出のためのモデルは、有害性の程度を決定するための意思決定ルールを構成するように、
●有害性モジュール540へ悪意のあるファイルの決定のための全ての選択されたモデルを送るように
設計される。
一つの例示的な態様において、検出モデルのデータベース521に保たれる悪意のあるファイルの検出のためのモデルは、少なくとも一つの安全なファイルおよび悪意のあるファイルにおける機械学習の方法によって以前に教育されてきたものである。
悪意のあるファイルの検出のためのモデルは、図1〜図4においてさらに詳細に記載される。
さらに別の例示的な態様において、検出のためのモデルの機械学習の方法は、少なくとも
●意思決定木における勾配ブースティング、
●意思決定木、
●kNN最近傍法、
●サポートベクトル
の方法である。
さらに別の例示的な態様において、検出モデルを教育する方法は、行動ログの分析に基づいて構築された行動パターンの数における変動に依存するファイルの有害性の程度における単調な変動を保証する。
例えば、ファイル501の算出された有害性の程度は、そのファイル501の行動ログの分析に基づいて構築された行動パターンの数に依存して、単調に増大するのみであるか、または、変化するものではないことがある。ファイル501の実行の開始において、構築された行動パターンの数は、顕著でないものであると共に、そのファイル501の計算された有害性の程度は、0とほとんど異なるものではないが、時間と共に構築されたパターンの数は増大すると共にそのファイル501の計算された有害性の程度はまた増大するか、または、そのファイル501について悪意のある活動が無いものであるとすれば、計算された有害性の程度は、変化しないままであると共に、このように、悪意のあるファイル501の実行のどんな瞬間でも、ファイルの有害性の程度は、計算される(または、行動ログのどんな記録とも、行動パターンの形成が始まる)と共に、それは、ファイル501の悪意のある活動が上記の有害性の程度の計算の瞬間まで存在するものであったか否かを反映することになる。
さらに別の例示的な態様において、検出モデルのデータベース521から選択された悪意のあるファイルの検出の各々のモデルは、独特の、以前に決定された特徴的な特徴で悪意のあるファイルの検出について訓練される。
例えば、検出モデルのデータベース521に保たれた検出モデルは、
●グラフィック・ユーザー・インターフェース(GUI)を有する、
●コンピューターネットワークにおいてデータを交換する、
●ファイル(例えば、ファミリーTrojan−Cryptorの悪意のあるファイル)を暗号化する、
●それらの拡散についてのネットワークの脆弱性(例えば、ファミリーNet−Wormの悪意のあるファイル)、および(ファミリーP2P−Wormの悪意のあるファイルのような)P2Pネットワークなどを使用する、
ファイルを検出するために訓練されることがある。
このように、悪意のあるファイルは、悪意のあるファイルの検出のための数個の訓練されたモデルの使用と共に検出されることがある。例えば、それの実行の間にユーザーの計算装置においてデータを暗号化すると共にそのファイルが実行される述べたユーザーの計算装置と同じコンピューターネットワークに接続された他の計算装置へそれの複製を送る悪意のあるファイルWannaCry.exeを、脆弱性を利用することでファイルを検出するために訓練される、検出モデル#1、ファイルを暗号化するように設計されたファイルを検出するために訓練される、検出モデル#2、および、(例えば、支払、資金等の形態に関する)要求の提示として解釈されることがあるテキスト情報を含むファイルを検出するために訓練される、検出モデル#3の助けで検出することができる。述べたモデルの援助と共に算出された有害性の程度は、算出された有害性の程度が所定の閾値の値を超える時間の瞬間であることがあるように、異なるものであることがある。例えば、悪意のあるファイルの検出のためのモデルの使用の結果は、それの手段によって悪意のあるファイル501を検出することが可能なものであったが、後に続く表に表現されることがある。
Figure 2019091435
ファイル501は、算出された有害性の程度が0.78を超える場合には、悪意のあるものであるとして認識される。有害性の程度(例えば、0.78)は、ここでは、有害性の程度が算出されたファイルが悪意のあるもの(78%)または安全なもの(22%)であることが判明することがある確率を特徴付ける。悪意のあるファイルの検出のための数個のモデルの使用と共にファイル501を悪意のあるものであるとして認識することができるとすれば、そのときファイルが悪意のあるものである確率は、増加することになる。例えば、表#1におけるデータを提示するために使用された悪意のあるファイルの検出のためのモデルについては、合計の有害性の程度は、式
Figure 2019091435
によって計算されることがある。
ここで、
total−合計の有害性の程度であると共に、
−合計の有害性の程度を計算するために使用された悪意のあるファイルの検出のためのモデルn−モデルの数である−の使用と共に算出された有害性の程度である。
このように、得られた合計の有害性の程度(0.999685)は、算出された有害性の程度によって超えられたときファイルが悪意のあるものであるとして認識される所定の閾値の値(0.78)と比べて顕著により高いものである。すなわち、悪意のあるファイルの検出のための数個のモデルの使用は、悪意のあるファイルの決定の精度を顕著に増加させると共に悪意のあるファイルの検出に生じる第1のおよび第2の種類の誤りを低減することができるものである。
さらに別の例において、悪意のあるファイルの検出のための「数個のモデルの使用は、合計の有害性の程度が、それ自体による悪意のあるファイルの検出のためのモデルの各々を使用するときと比べてはるかにより早く算出された有害性の程度によって超えられたときファイルが悪意のあるものであるとして認識される所定の閾値の値に到達することを許容する。例えば、表#1におけるデータを提示するために使用された悪意のあるファイルの検出のためのモデルについては、算出された有害性の程度が単調に変動するという条件で、その後にファイルが悪意のあるものであるとして認識されることになる行動ログからのコマンドの数は、式
Figure 2019091435
によって計算されることがある。
ここで、
detect−それの分析の後にファイルが悪意のあるものであるとして認識される行動ログからのコマンドの数であると共に、
−それの分析の後にモデルの使用と共にファイルが悪意のあるものであるとして認識される行動ログからのコマンドの数であると共に、
−モデルの使用と共に計算されたような有害性の程度であると共に、
n−それの分析の後にファイルが悪意のあるものであるとして認識される行動ログからのコマンドの数を算出するために使用された悪意のあるファイルの検出のためのモデルの数である。
このように、そのように得られた行動ログからのコマンドの全体の数(207)は、それの分析の後に悪意のあるファイルの検出のためのモデルの一つ(モデル#2)によってファイルが悪意のあるものであるとして認識された行動ログからのコマンドの最早の数(288)と比べて顕著により少ないものである。すなわち、悪意のあるファイルの検出のための数個のモデルの使用は、悪意のあるファイルの決定のスピード(即ち、効率)を顕著に増加させることができるものである。
さらに別の例において、検出モデルのデータベース521にセーブされる検出の異なるモデルは、数個の、必ずしも独特なものではない、以前に決定された特徴的な特徴で悪意のあるファイルの検出について訓練されることがある、即ち、検出モデル#1は、グラフィック・ユーザー・インターフェースを有すると共にコンピューターネットワークにおいてデータを交換するファイルを検出することがある一方で、モデル#2は、ネットワークの脆弱性の使用でコンピューターネットワークにおいてデータを交換すると共にそのコンピューターネットワークを通じて拡散するファイルを検出することがある。これらの検出モデルの両方は、ネットワークの脆弱性の使用によってコンピューターネットワークを通じて拡散するファイルの共通の特徴的な特徴によって前述の悪意のあるファイルWannaCry.exeを検出することがある。
さらに別の例示的な態様において、検出モデルのデータベース521から選択されるものは、ファイルについて訓練された悪意のあるファイルの検出のためのモデルであるが、それの実行の間に少なくとも
i.実行されるファイル501の行動ログから選択されたコマンドと同じコマンドが実行された、
ii.実行されるファイル501の行動ログから選択されたパラメーターと同じパラメーターが使用された。
例えば、行動ログから後に続くコマンド、CreateFileEx、ReadFile、WriteFile、CloseHandle、が選択されたが、それらは、ファイルの暗号化を含む、ファイルの変更のために使用される。検出モデルのデータベース521から選択されるものは、ファミリーTrojan−Cryptorの悪意のあるファイルの検出における使用のために訓練された検出モデルである。
さらに別の例において、行動ログから選択されたものは、(connectのような、ここで上述したパラメーターが電子アドレスへの接続のためのポートを表す)コンピューターネットワークとの作業のためのコマンドを記述するパラメーター8080,21であった。検出モデルのデータベース521から選択されるものは、コンピューターネットワークにおけるデータの交換を提供するファイルの検出における使用のために訓練された検出モデルである。
行動ログ分析モジュール530は、
●実行されるファイル501の行動ログから選択されたコマンドおよびパラメーターに基づいて少なくとも一つの行動パターンを形成するが、ここで、行動パターンは、少なくとも一つのコマンドおよびそのセットにおける全てのコマンドを記述するパラメーターのセットを表すように、
●そのように構築された全ての行動パターンのコンボリューションを算出するように、
●有害性モジュール540へ実行されるファイルの構築されたコンボリューションを送るように
設計される。
一つの例示的な態様において、構築された行動パターンのコンボリューションの算出は、構築された行動パターンの全てにおけるそのコンボリューション関数の結果の逆コンボリューション関数が、与えられた閾値の値と比べてより大きいものであるその行動パターンとの類似性の程度を有するように、所定のコンボリューション関数に基づいてなされる。
コンボリューション関数の形成および使用(コンボリューションの算出)は、図1、図2においてより詳細に記載される。
有害性モジュール540は、
●悪意のあるファイルの検出のための各々の得られたモデルの援助と共に、得られたコンボリューションの分析に基づいて、実行されるファイル501の有害性の程度を算出するように、
●分析モジュール550へ各々の算出された有害性の程度を送るように
設計される。
一つの例示的な態様において、意思決定パターンは、有害性の程度の組成を表す。
例えば、上に記載された、モデル#1、#2、#3に基づいて算出された有害性の程度の組成は、対の集合{0.95,374}、{0.79,288}、{0.87,302}の形態で表されることがある。
さらに別の例において、上に記載された、モデル#1、#2、#3に基づいて算出された有害性の程度の組成は、算出された有害性の程度の中心的な傾向の度合(例えば、算術平均、本事例においては0.87)を表すことがある。
さらに別の例において、有害性の程度の組成は、有害性の程度を算出するために使用された時間または行動パターンの数に対する有害性の程度における変化の依存性を構成する。
分析モジュール550は、
●得られた有害性の程度に基づいて意思決定パターンを形成するように、
●そのように構築された意思決定パターンと、悪意のあるファイルの分析に基づいて以前に構築された、意思決定パターンのデータベース541からの所定の意思決定パターンの少なくとも一つとの間の類似性の程度が所定の閾値の値を超えるとすれば悪意のあるものとして実行されるファイル501を認識するように
設計される。
一つの例示的な態様において、意思決定パターンは、有害性モジュール540から得られた有害性の程度の集合を表す。
さらに別の例示的な態様において、意思決定パターンは、その有害性の程度を算出するために使用された時間または行動パターンの数に対する有害性の程度の依存性を表す。
さらに別の例示的な態様において、意思決定パターンのデータベース541からの意思決定パターンは、検出モデルのデータベース521からのモデルを訓練するために使用された悪意のあるファイル分析に基づいて形成される。
例えば、100000個のファイルに基づいて、それらの75000個は、安全なファイルであると共に25000個は悪意のあるファイルであるが、検出モデルは、(試験を含む)訓練されると共に、次に検出モデルのデータベース521にセーブされる。悪意のあるファイルの検出のためのモデルが訓練されてきたものであった後で、それらは、前述した25000個の悪意のあるファイルの数個(または全て)について意思決定パターンを形成するために使用されるが、それらは、次に意思決定パターンのデータベース541に入れられる。すなわち、悪意のあるファイルの検出のためのモデルの機械教育は、元々、教育および試験サンプルのファイルについて実行される。結果として、悪意のあるファイルの検出のための数個のモデルを訓練することは、可能なことであるが、それらの各々は、独特の、以前に決定された特徴的な特徴で悪意のあるファイルの検出のために訓練されることになる。全ての検出モデルが訓練されてきたものであった後に、悪意のあるファイルの検出のための訓練されたモデルのどれが(25000個の悪意のあるファイルの前述した例の)ある一定の悪意のあるファイルを検出するかに関する決定はなされるが、悪意のあるファイルの検出のためのモデルの一つのセットの使用で一つの悪意のあるファイルを、悪意のあるファイルの検出のためのモデルの第2のセットの使用で別のものを、および、悪意のあるファイルの検出のためのモデルの前述したセットからの悪意のあるファイルの検出のための数個のモデルの使用で第3のものを、検出することができることが分かることがある。悪意のあるファイルの検出のためのどのモデルをどの悪意のあるファイルを検出するために使用することができるかに関する得られたデータに基づいて、意思決定パターンは、構築される。
さらに別の例示的な態様において、分析モジュール550は、追加的に、構築された意思決定パターンと意思決定パターンのデータベース541からの所定の意思決定パターンの少なくとも一つとの間の類似性の程度が所定の閾値の値を超える一方で、悪意のあるファイルの検出のための述べたモデルの援助と共に算出された有害性の程度が所定の閾値の値を超えるものではない場合には、実行されるファイル501の行動ログから選択されたコマンドおよびパラメーターに基づいて検出モデルのデータベース521からの検出の少なくとも一つのモデルを再訓練するように設計される。
図6は、悪意のあるファイルの検出のための訓練されたモデルを使用することによって悪意のあるファイルを検出する方法の構造図を提示する。
悪意のあるファイルの検出のための訓練されたモデルを使用することによって悪意のあるファイルを検出する方法の構造図は、分析されるファイルが実行されるステップ610、行動ログが形成されるステップ620、行動パターンが形成されるステップ630、コンボリューションが計算されるステップ640、検出モデルが選択されるステップ650、有害性の程度が計算されるステップ660、意思決定パターンが構築されるステップ670、ファイルが悪意のあるものであるとして認識されるステップ680、および、検出モデルが再訓練されるステップ690を含む。
ステップ610において、行動ログモジュール112は、少なくとも、
○分析されるファイル501を実行するために、
○分先されるファイル501の実行をエミュレートするために
使用される。
ステップ620において、行動ログモジュール112は、分析されるファイル501についての行動ログを形成するために使用されるが、それのためには、
●少なくとも一つの実行可能なコマンドがインターセプトされる、
●各々のインターセプトされたコマンドについてそのコマンドを記述する少なくとも一つのパラメーターが決定される、
●インターセプトされたコマンドおよびそのように決定されたパラメーターに基づいて、そのファイル501の行動ログが形成される。
ステップ630において、行動ログ分析モジュール530は、実行されるファイル501の行動ログから選択されたコマンドおよびパラメーターに基づいて少なくとも一つの行動パターンを形成するために使用されるが、ここで、行動パターンは、少なくとも一つのコマンドおよびそのセットの全てのコマンドを記述するパラメーターのセットを構成する。
ステップ640において、行動ログ分析モジュール530は、ステップ630において形成された全ての行動パターンのコンボリューションを計算するために使用される。
ステップ650において、選択モジュール520は、実行されるファイル501の行動ログから選択されたコマンドおよびパラメーターに基づいて検出モデルのデータベース521から悪意のあるファイルの検出のための少なくとも二つのモデルを選択するために使用されるが、ここで、悪意のあるファイルの検出のためのモデルは、有害性の程度を決定するための意思決定ルールを表す。
ステップ660において、有害性モジュール540は、ステップ650において選択された悪意のあるファイルの検出のための各々のモデルの援助と共にステップ640において算出されたコンボリューションの分析に基づいて実行されるファイル501の有害性の程度を算出するために使用される。
ステップ670において、分析モジュール550は、ステップ660において得られた有害性の程度に基づいて意思決定パターンを形成するために使用される。
ステップ680において、分析モジュール550は、ステップ670において形成された意思決定パターンと意思決定パターンのデータベース541からの所定の意思決定パターンの少なくとも一つとの間の類似性の程度が、所定の閾値の値を超える場合には、悪意のあるものとして実行されるファイル501を認識するために使用される。
ステップ690において、分析モジュール550は、構築された意思決定パターンと意思決定パターンのデータベース541からの所定の意思決定パターンの少なくとも一つとの間の類似性の程度が所定の閾値の値を超えると共に悪意のあるファイルの検出のためのそれらのモデルの援助と共に算出された有害性の程度が所定の閾値の値を超えるものではない場合には、実行されるファイルの行動ログから選択されたコマンドおよびパラメーターに基づいて検出モデルのデータベース521からの少なくとも一つの検出モデルを再訓練するために使用される。
図7は、悪意のあるファイルの検出のためのシステムおよび方法の態様が例示的な態様と一致して実施されることがある汎用のコンピューターシステムを図示する図である。
示されたように、(パーソナルコンピューターまたはサーバーであることがある)コンピューターシステム20は、中央処理部21、システムメモリ22、および、中央処理部21と関連付けられたメモリを含む、様々なシステムの構成要素を接続するシステムバス23を含む。当業者によって認識されることになるように、システムバス23は、バスメモリまたはバスメモリコントローラー、周辺機器用バス、および、いずれの他のバスアーキテクチャとも交信することができるものであるローカルバスを備えることがある。システムメモリは、永久メモリ(ROM)24およびランダムアクセスメモリ(RAM)25を含むことがある。ベーシックインプット/アウトプットシステム(BIOS)26は、ROM24の使用と共にオペレーティングシステムをロードする時におけるもののような、コンピューターシステム20の要素の間における情報の転送のための基本的な手順を記憶することがある。
コンピューターシステム20は、また、データを読み出すと共に書き込むためのハードディスク27、リムーバブル磁気ディスク29における読み出しおよび書き込みのための磁気ディスクドライブ28、および、CD−ROM,DVD−ROM、および他の光媒体のような、リムーバブル光ディスク31を読み出すと共に書き込むための光学ドライブ30を備えることがある。ハードディスク27、磁気ディスクドライブ28、および光学ドライブ30は、それぞれ、ハードディスクインタフェース32、磁気ディスクインタフェース33、および光学ドライブインタフェース34を介してシステムバス23に接続される。ドライブおよび対応するコンピューター情報媒体は、コンピューターシステム20のコンピューター命令、データ構造、プログラムモジュール、および他のデータの記憶のための電力に独立なモジュールである。
コンピューターシステム20は、コントローラー55を介してシステムバス23に接続された、ハードディスク27、リムーバブル磁気ディスク29、およびリムーバブル光ディスク31を含む。コンピューターによって読み取り可能な形態においてデータを記憶することができるものであるいずれのタイプの媒体56(ソリッドステートドライブ、フラッシュメモリカード、デジタルディスク、およびランダムアクセスメモリ(RAM)など)もまた利用されることがあることは、当業者によって理解されることになる。
コンピューターシステム20は、ファイルシステム36を有するが、それにおいて、オペレーティングシステム35は、追加的なプログラムアプリケーション37、他のプログラムモジュール38、およびプログラムデータ39のみならず、記憶されることがある。コンピューターシステム20のユーザーは、キーボード40、マウス42、または、マイクロフォン、ジョイスティック、ゲームコントローラー、またはスキャナーなどのような、しかしそれらに限定されたものではない、当業者に知られたいずれの他の入力装置をも使用することでコマンドおよび情報を入れることがある。そのような入力装置は、典型的には、シリアルポート46を通じてコンピューターシステム20につながるが、それは、今度はシステムバスに接続されるが、しかし、当業者は、入力装置が、限定無しに、パラレルポート、ゲームポート、またはユニバーサルシリアルバス(USB)を介したもののような他の方式でもまた接続されることがあることを認識することになる。モニター47または他のタイプの表示装置は、また、ビデオアダプター48のようなインタフェースを介してシステムバス23に接続されることがある。モニター47に加えて、パーソナルコンピューターには、ラウドスピーカー、プリンター、等のような(示されたものではない)他の周辺出力装置が備え付けられることがある。
コンピューターシステム20は、一つ以上のリモートコンピューター49へのネットワーク接続を使用することで、ネットワーク環境において動作することがある。(単数または複数の)リモートコンピューター49は、コンピューターシステム20の性質を記述することにおける前述の要素の大部分または全てを備えるローカルコンピューターワークステーションまたはサーバーであることがある。ルーター、ネットワークステーション、ピア装置、または他のネットワークノードのような、しかしそれらに限定されたものではない、他の装置は、また、コンピューターネットワークに存在するものであることがある。
ネットワーク接続は、ローカルエリアコンピューターネットワーク(LAN)50および広域コンピューターネットワーク(WAN)を形成することができる。そのようなネットワークは、企業のコンピューターネットワークおよび会社内のネットワークにおいて使用されると共に、それらは、一般に、インターネットへのアクセスを有する。LANまたはWANのネットワークにおいては、パーソナルコンピューター20は、ネットワークアダプターまたはネットワークインタフェース51を介してローカルエリアネットワーク50に接続される。ネットワークが使用されるとき、コンピューターシステム20は、モデム54またはインターネットのような広域コンピューターネットワークとの通信を可能とする、当業者によく知られた他のモジュールを用いることがある。内部または外部装置であることがある、モデム54は、シリアルポート46によってシステムバス23に接続されることがある。上記のネットワーク接続が、通信モジュールを使用することで別のものへの一つのコンピューターによる接続を確立する数多くのよく理解された方式の限定するものではない例であることは、当業者によって認識されることになる。
様々な態様において、ここに記載されたシステムおよび方法は、ハードウェア、ソフトウェア、ファームウェア、またはそれらのいずれの組み合わせにおいても実施されることがある。ソフトウェアにおいて実施されるとすれば、方法は、非一時的なコンピューター読み取り可能な媒体における一つ以上の命令またはコードとして記憶されることがある。コンピューター読み取り可能な媒体は、データストレージを含む。例の方式で、および、限定するものではないもので、そのようなコンピューター読み取り可能な媒体は、RAM、ROM、EEPROM、CD−ROM、フラッシュメモリ、または他のタイプの電気的な、磁気的な、または光学的な記憶媒体、または、命令またはデータ構造の形態において所望のプログラムコードを保持するかまたは記憶するために使用することができると共に汎用コンピューターのプロセッサによってアクセスすることができるいずれの他の媒体をも備えることができる。
様々な態様において、本開示に記載されたシステムおよび方法は、モジュールの観点から対処されることができる。ここで使用されたような用語“モジュール”は、実在の装置、コンポーネント、または、例えば、特定用途向け集積回路(ASIC)またはフィールド・プログラマブル・ゲート・アレイ(FPGA)によるもののようなハードウェアを使用することで、または、マイクロプロセッサシステムおよび(実行される間に)マイクロプロセッサシステムを特殊用途の装置に変換するモジュールの機能性を実施するための命令のセットによるもののようなハードウェアおよびソフトウェアの組み合わせとして、実施されたコンポーネントの配置を指す。モジュールは、また、二つのものの組み合わせとして、ハードウェアによって単独で促進されたある一定の機能およびハードウェアおよびソフトウェアの組み合わせによって促進された他の機能と共に、実施されることがある。ある一定の実施において、モジュールの少なくとも一部分、および、場合によっては、全ては、(上で図7により詳細に記載されたもののような)汎用コンピューターのプロセッサにおいて実行されることがある。それに応じて、各々のモジュールは、多様な適切な構成において実現されることがあると共に、ここに例示されたいずれの特定の実施にも限定されるべきではない。
明瞭さの利益のために、態様のありふれた特徴の必ずしも全てが開示されるものではないが、本開示のいずれの現実の実施の開発においても、数多くの実施に特有の決断が開発者の具体的な目標を達成するためになされるのでなければならないと共にこれらの具体的な目標が異なる実施および異なる開発者について変動することになることは、認識されることであると思われる。そのような開発の努力が、複雑なかつ時間のかかるものであるかもしれないが、しかし、それにもかかわらず、この開示の利益を有する、当業者にとってエンジニアリングのありふれた仕事であると思われることは、理解されることである。
さらには、本明細書の専門用語または言葉遣いが、ここに提示された教示および指導に照らして、関連技術者の知識との組み合わせにおいて、当業者によって解釈されるものであるように、ここで使用された言葉遣いまたは専門用語が、記述の目的のためのものであると共に制限のためのものではないことは、理解されることである。その上、明細書または特許請求の範囲におけるいずれの用語についても、そのようなものとして明示的に述べられたものではない限り、稀なまたは特殊な意味に帰せられることは、意図されることではない。
ここに開示された様々な態様は、例示の方式によってここに言及された既知のモジュールに対する現在のおよび将来の知られた均等物を包含する。その上、態様および用途が示されてきたおよび記載されてきたものである一方で、上に述べたものと比べてはるかに多数の変更がここに開示された発明の概念を逸脱することなく可能性のあるものであることは、この開示の利益を有する当業者にとって明らかなことであると思われる。

Claims (21)

  1. 悪意のあるファイルの検出のための訓練されたモデルを使用することによって悪意のあるファイルを検出するシステムであって、
    前記システムは、
    実行されるファイルの行動ログから選択されたコマンドおよびパラメーターに基づいて少なくとも一つの行動パターンを形成すると共に、
    形成された全ての行動パターンのコンボリューションを算出すると共に、
    前記実行されるファイルの行動ログから選択されたコマンドおよびパラメーターに基づいて検出モデルのデータベースから悪意のあるファイルの検出のための少なくとも二つのモデルを選択すると共に、
    前記コンボリューションおよび前記悪意のあるファイルの検出のための少なくとも二つのモデルの分析に基づいて実行されるファイルの有害性の程度を算出すると共に、
    前記有害性の程度に基づいて、意思決定パターンを形成すると共に、
    構築された意思決定パターンと悪意のあるファイルの分析に基づいて以前に構築された意思決定パターンのデータベースからの所定の意思決定パターンの少なくとも一つとの間の類似性の程度が、所定の閾値の値を超えるとすれば、悪意のあるものとして前記実行されるファイルを認識する
    ように構成されたハードウェアプロセッサ
    を備える、
    システム。
  2. 請求項1のシステムにおいて、
    前記ハードウェアプロセッサは、
    少なくとも前記ファイルの実行の間に少なくとも一つのコマンドをインターセプトするようにおよび前記ファイルの実行をエミュレートするように設計される、前記実行されるファイルの行動ログを形成すると共に、
    各々のインターセプトされたコマンドについて、そのコマンドを記述する少なくとも一つのパラメーターを決定すると共に、
    前記インターセプトされたコマンドおよび前記決定されたパラメーターに基づいて、そのファイルの行動ログを形成する
    ように構成された、
    システム。
  3. 請求項1のシステムにおいて、
    前記検出モデルのデータベースから選択される悪意のあるファイルの検出のための各々のモデルは、独特の、以前に決定された特徴的な特徴で悪意のあるファイルの検出のために訓練される、
    システム。
  4. 請求項1のシステムにおいて、
    前記ハードウェアプロセッサは、
    前記構築された意思決定パターンと前記意思決定パターンのデータベースからの所定の意思決定パターンの少なくとも一つとの間の類似性の程度が所定の閾値の値を超えると共に悪意のあるファイルのためのそれらの検出モデルの援助で算出された前記有害性の程度が所定の閾値の値を超えるものではない場合には、前記実行されるファイルの行動ログから選択されたコマンドおよびパラメーターに基づいて前記検出モデルのデータベースからの少なくとも一つの検出モデルを再訓練する
    ようにさらに構成されたものである、
    システム。
  5. 請求項1のシステムにおいて、
    前記行動パターンは、少なくとも一つのコマンドおよび述べられたセットからの全てのコマンドを記述するパラメーターのセットを構成する、
    システム。
  6. 請求項1のシステムにおいて、
    前記悪意のあるファイルの検出のためのモデルは、前記有害性の程度を決定するための意思決定ルールを構成する、
    システム。
  7. 請求項2のシステムにおいて、
    前記ハードウェアプロセッサは、
    前記行動ログを分析することによって前記行動パターンを形成する
    ようにさらに構成されたものである、
    システム。
  8. 悪意のあるファイルの検出のための訓練されたモデルを使用することによって悪意のあるファイルを検出する方法であって、
    前記方法は、
    実行されるファイルの行動ログから選択されたコマンドおよびパラメーターに基づいて少なくとも一つの行動パターンを形成すること、
    形成された全ての行動パターンのコンボリューションを算出すること、
    前記実行されるファイルの行動ログから選択されたコマンドおよびパラメーターに基づいて検出モデルのデータベースから悪意のあるファイルの検出のための少なくとも二つのモデルを選択すること、
    前記コンボリューションおよび前記悪意のあるファイルの検出のための少なくとも二つのモデルの分析に基づいて実行されるファイルの有害性の程度を算出すること、
    前記有害性の程度に基づいて、意思決定パターンを形成すること、
    構築された意思決定パターンと悪意のあるファイルの分析に基づいて以前に構築された意思決定パターンのデータベースからの所定の意思決定パターンの少なくとも一つとの間の類似性の程度が、所定の閾値の値を超えるとすれば、悪意のあるものとして前記実行されるファイルを認識すること
    を備える、
    方法。
  9. 請求項8の方法において、
    前記ハードウェアプロセッサは、
    少なくとも前記ファイルの実行の間に少なくとも一つのコマンドをインターセプトするようにおよび前記ファイルの実行をエミュレートするように設計される、前記実行されるファイルの行動ログを形成すると共に、
    各々のインターセプトされたコマンドについて、そのコマンドを記述する少なくとも一つのパラメーターを決定すると共に、
    前記インターセプトされたコマンドおよび前記決定されたパラメーターに基づいて、そのファイルの行動ログを形成する
    ように構成された、
    方法。
  10. 請求項8の方法において、
    前記検出モデルのデータベースから選択される悪意のあるファイルの検出のための各々のモデルは、独特の、以前に決定された特徴的な特徴で悪意のあるファイルの検出のために訓練される、
    方法。
  11. 請求項8の方法において、
    前記ハードウェアプロセッサは、
    前記構築された意思決定パターンと前記意思決定パターンのデータベースからの所定の意思決定パターンの少なくとも一つとの間の類似性の程度が所定の閾値の値を超えると共に悪意のあるファイルのためのそれらの検出モデルの援助で算出された前記有害性の程度が所定の閾値の値を超えるものではない場合には、前記実行されるファイルの行動ログから選択されたコマンドおよびパラメーターに基づいて前記検出モデルのデータベースからの少なくとも一つの検出モデルを再訓練する
    ようにさらに構成されたものである、
    方法。
  12. 請求項8の方法において、
    前記行動パターンは、少なくとも一つのコマンドおよび述べられたセットからの全てのコマンドを記述するパラメーターのセットを構成する、
    方法。
  13. 請求項8の方法において、
    前記悪意のあるファイルの検出のためのモデルは、前記有害性の程度を決定するための意思決定ルールを構成する、
    方法。
  14. 請求項9の方法において、
    前記ハードウェアプロセッサは、
    前記行動ログを分析することによって前記行動パターンを形成する
    ようにさらに構成されたものである、
    方法。
  15. 悪意のあるファイルの検出のための訓練されたモデルを使用することによって悪意のあるファイルを検出するためのそれに記憶された命令を有する非一時的なコンピューター媒体であって、
    前記命令は、
    実行されるファイルの行動ログから選択されたコマンドおよびパラメーターに基づいて少なくとも一つの行動パターンを形成すること、
    形成された全ての行動パターンのコンボリューションを算出すること、
    前記実行されるファイルの行動ログから選択されたコマンドおよびパラメーターに基づいて検出モデルのデータベースから悪意のあるファイルの検出のための少なくとも二つのモデルを選択すること、
    前記コンボリューションおよび前記悪意のあるファイルの検出のための少なくとも二つのモデルの分析に基づいて実行されるファイルの有害性の程度を算出すること、
    前記有害性の程度に基づいて、意思決定パターンを形成すること、
    構築された意思決定パターンと悪意のあるファイルの分析に基づいて以前に構築された意思決定パターンのデータベースからの所定の意思決定パターンの少なくとも一つとの間の類似性の程度が、所定の閾値の値を超えるとすれば、悪意のあるものとして前記実行されるファイルを認識すること
    を備える、
    媒体。
  16. 請求項15の媒体において、
    前記ハードウェアプロセッサは、
    少なくとも前記ファイルの実行の間に少なくとも一つのコマンドをインターセプトするようにおよび前記ファイルの実行をエミュレートするように設計される、前記実行されるファイルの行動ログを形成すると共に、
    各々のインターセプトされたコマンドについて、そのコマンドを記述する少なくとも一つのパラメーターを決定すると共に、
    前記インターセプトされたコマンドおよび前記決定されたパラメーターに基づいて、そのファイルの行動ログを形成する
    ように構成された、
    媒体。
  17. 請求項15の媒体において、
    前記検出モデルのデータベースから選択される悪意のあるファイルの検出のための各々のモデルは、独特の、以前に決定された特徴的な特徴で悪意のあるファイルの検出のために訓練される、
    媒体。
  18. 請求項15の媒体において、
    前記ハードウェアプロセッサは、
    前記構築された意思決定パターンと前記意思決定パターンのデータベースからの所定の意思決定パターンの少なくとも一つとの間の類似性の程度が所定の閾値の値を超えると共に悪意のあるファイルのためのそれらの検出モデルの援助で算出された前記有害性の程度が所定の閾値の値を超えるものではない場合には、前記実行されるファイルの行動ログから選択されたコマンドおよびパラメーターに基づいて前記検出モデルのデータベースからの少なくとも一つの検出モデルを再訓練する
    ようにさらに構成されたものである、
    媒体。
  19. 請求項15の媒体において、
    前記行動パターンは、少なくとも一つのコマンドおよび述べられたセットからの全てのコマンドを記述するパラメーターのセットを構成する、
    媒体。
  20. 請求項15の媒体において、
    前記悪意のあるファイルの検出のためのモデルは、前記有害性の程度を決定するための意思決定ルールを構成する、
    媒体。
  21. 請求項16の媒体において、
    前記ハードウェアプロセッサは、
    前記行動ログを分析することによって前記行動パターンを形成する
    ようにさらに構成されたものである、
    媒体。
JP2018194846A 2017-10-18 2018-10-16 訓練された機械学習モデルを使用することで悪意のあるファイルを検出するシステムおよび方法 Active JP6731988B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201762573970P 2017-10-18 2017-10-18
US62/573,970 2017-10-18
US16/149,263 US10878090B2 (en) 2017-10-18 2018-10-02 System and method of detecting malicious files using a trained machine learning model
US16/149,263 2018-10-02

Publications (2)

Publication Number Publication Date
JP2019091435A true JP2019091435A (ja) 2019-06-13
JP6731988B2 JP6731988B2 (ja) 2020-07-29

Family

ID=63832289

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018194846A Active JP6731988B2 (ja) 2017-10-18 2018-10-16 訓練された機械学習モデルを使用することで悪意のあるファイルを検出するシステムおよび方法

Country Status (4)

Country Link
US (1) US10878090B2 (ja)
EP (1) EP3474177B1 (ja)
JP (1) JP6731988B2 (ja)
CN (1) CN109684836B (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7092998B2 (ja) * 2018-04-26 2022-06-29 富士通株式会社 分析プログラム及び分析方法
US20200372183A1 (en) * 2019-05-21 2020-11-26 Hewlett Packard Enterprise Development Lp Digitally Signing Software Packages With Hash Values
US11029947B2 (en) * 2019-08-30 2021-06-08 Accenture Global Solutions Limited Utilizing artificial intelligence to improve productivity of software development and information technology operations (DevOps)
EP3798885B1 (en) * 2019-09-30 2023-06-07 AO Kaspersky Lab System and method for detection of malicious files
US11399041B1 (en) 2019-11-22 2022-07-26 Anvilogic, Inc. System for determining rules for detecting security threats
US11055652B1 (en) * 2019-11-22 2021-07-06 Anvilogic, Inc. System for sharing detection logic through a cloud-based exchange platform
CN111159111A (zh) * 2019-12-13 2020-05-15 深信服科技股份有限公司 一种信息处理方法、设备、系统和计算机可读存储介质
JP7413011B2 (ja) * 2019-12-27 2024-01-15 キヤノンメディカルシステムズ株式会社 医用情報処理装置
US11290483B1 (en) 2020-04-07 2022-03-29 Anvilogic, Inc. Platform for developing high efficacy detection content
CN111859404B (zh) * 2020-07-30 2023-09-05 中国工商银行股份有限公司 计算机的系统漏洞探测的方法、装置、电子设备及介质
RU2770570C2 (ru) * 2020-08-24 2022-04-18 Акционерное общество "Лаборатория Касперского" Система и способ определения процесса, связанного с вредоносным программным обеспечением, шифрующим файлы компьютерной системы
US20220269807A1 (en) * 2021-02-22 2022-08-25 EMC IP Holding Company LLC Detecting unauthorized encryptions in data storage systems
CN116260660B (zh) * 2023-05-15 2023-07-25 杭州美创科技股份有限公司 网页木马后门识别方法及系统
CN116861430B (zh) * 2023-09-04 2023-11-17 北京安天网络安全技术有限公司 一种恶意文件检测方法、装置、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016182668A1 (en) * 2015-05-11 2016-11-17 Qualcomm Incorporated Methods and systems for behavior-specific actuation for real-time whitelisting
JP2017004489A (ja) * 2015-06-15 2017-01-05 安一恒通(北京)科技有限公司 ファイル識別方法及び装置
JP2017037555A (ja) * 2015-08-12 2017-02-16 日本電信電話株式会社 調整装置、調整方法および調整プログラム
US20170193225A1 (en) * 2016-01-04 2017-07-06 Electronics And Telecommunications Research Institute Behavior-based malicious code detecting apparatus and method using multiple feature vectors

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8726232B1 (en) * 2005-12-02 2014-05-13 The Math Works, Inc. Identification of patterns in modeling environments
EP1879124A1 (en) 2006-06-15 2008-01-16 Deutsche Telekom AG Improved method and system for detecting malicious behavioral patterns in a computer, using machine leaning
US8789172B2 (en) * 2006-09-18 2014-07-22 The Trustees Of Columbia University In The City Of New York Methods, media, and systems for detecting attack on a digital processing device
US8719939B2 (en) * 2009-12-31 2014-05-06 Mcafee, Inc. Malware detection via reputation system
US10742591B2 (en) * 2011-07-06 2020-08-11 Akamai Technologies Inc. System for domain reputation scoring
ES2755780T3 (es) * 2011-09-16 2020-04-23 Veracode Inc Análisis estático y de comportamiento automatizado mediante la utilización de un espacio aislado instrumentado y clasificación de aprendizaje automático para seguridad móvil
US9349103B2 (en) * 2012-01-09 2016-05-24 DecisionQ Corporation Application of machine learned Bayesian networks to detection of anomalies in complex systems
US9288220B2 (en) 2013-11-07 2016-03-15 Cyberpoint International Llc Methods and systems for malware detection
KR102559199B1 (ko) * 2015-11-02 2023-07-25 삼성전자주식회사 배터리 관리 방법 및 배터리 관리 장치
US9928363B2 (en) * 2016-02-26 2018-03-27 Cylance Inc. Isolating data for analysis to avoid malicious attacks
WO2017223294A1 (en) * 2016-06-22 2017-12-28 Invincea, Inc. Methods and apparatus for detecting whether a string of characters represents malicious activity using machine learning
US10972482B2 (en) * 2016-07-05 2021-04-06 Webroot Inc. Automatic inline detection based on static data
US10652252B2 (en) * 2016-09-30 2020-05-12 Cylance Inc. Machine learning classification using Markov modeling
US10726128B2 (en) * 2017-07-24 2020-07-28 Crowdstrike, Inc. Malware detection using local computational models
US11310245B2 (en) * 2018-01-22 2022-04-19 T-Mobile Usa, Inc. Indicator of compromise calculation system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016182668A1 (en) * 2015-05-11 2016-11-17 Qualcomm Incorporated Methods and systems for behavior-specific actuation for real-time whitelisting
JP2017004489A (ja) * 2015-06-15 2017-01-05 安一恒通(北京)科技有限公司 ファイル識別方法及び装置
JP2017037555A (ja) * 2015-08-12 2017-02-16 日本電信電話株式会社 調整装置、調整方法および調整プログラム
US20170193225A1 (en) * 2016-01-04 2017-07-06 Electronics And Telecommunications Research Institute Behavior-based malicious code detecting apparatus and method using multiple feature vectors

Also Published As

Publication number Publication date
US20190114420A1 (en) 2019-04-18
JP6731988B2 (ja) 2020-07-29
EP3474177A1 (en) 2019-04-24
EP3474177B1 (en) 2020-04-29
US10878090B2 (en) 2020-12-29
CN109684836B (zh) 2023-03-21
CN109684836A (zh) 2019-04-26

Similar Documents

Publication Publication Date Title
JP6731988B2 (ja) 訓練された機械学習モデルを使用することで悪意のあるファイルを検出するシステムおよび方法
JP6636096B2 (ja) マルウェア検出モデルの機械学習のシステムおよび方法
US11403396B2 (en) System and method of allocating computer resources for detection of malicious files
RU2679785C1 (ru) Система и способ классификации объектов
JP6715292B2 (ja) 機械学習を用いる悪意のあるファイルを検出するシステムおよび方法
JP7405596B2 (ja) コンピュータシステムのオブジェクト分類のためのシステムおよび方法
JP6731981B2 (ja) 機械学習モデルに基づいた悪意のあるファイルの検出のための計算資源を管理するシステムおよび方法
RU2739865C2 (ru) Система и способ обнаружения вредоносного файла
RU2654151C1 (ru) Система и способ обнаружения вредоносных файлов с использованием обученной модели обнаружения вредоносных файлов
RU2606564C1 (ru) Система и способ блокировки выполнения сценариев
RU2624552C2 (ru) Способ обнаружения вредоносных файлов, исполняемых с помощью стековой виртуальной машины
US10372907B2 (en) System and method of detecting malicious computer systems
RU2673708C1 (ru) Система и способ машинного обучения модели обнаружения вредоносных файлов
EP3252645A1 (en) System and method of detecting malicious computer systems
RU2757265C1 (ru) Система и способ оценки приложения на вредоносность
EP3151148A1 (en) System and method for generating sets of antivirus records for detection of malware on user devices

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190218

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190304

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191111

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191210

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200310

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200630

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200707

R150 Certificate of patent or registration of utility model

Ref document number: 6731988

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250