JP6742398B2 - マルウェアの識別とモデルの不均一性のために現場の分類器を再訓練するためのシステム及び方法 - Google Patents

マルウェアの識別とモデルの不均一性のために現場の分類器を再訓練するためのシステム及び方法 Download PDF

Info

Publication number
JP6742398B2
JP6742398B2 JP2018504758A JP2018504758A JP6742398B2 JP 6742398 B2 JP6742398 B2 JP 6742398B2 JP 2018504758 A JP2018504758 A JP 2018504758A JP 2018504758 A JP2018504758 A JP 2018504758A JP 6742398 B2 JP6742398 B2 JP 6742398B2
Authority
JP
Japan
Prior art keywords
machine learning
determining
learning model
retraining
files
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2018504758A
Other languages
English (en)
Other versions
JP2018526732A (ja
Inventor
ミセレンディノ,スコット,ビー.
クライン,ロバート,エイチ.
ピーターズ,ライアン,ブイ.
カロルマキス,ピーター,イー.
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BluVector Inc
Original Assignee
BluVector Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BluVector Inc filed Critical BluVector Inc
Publication of JP2018526732A publication Critical patent/JP2018526732A/ja
Application granted granted Critical
Publication of JP6742398B2 publication Critical patent/JP6742398B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/566Dynamic detection, i.e. detection performed at run-time, e.g. emulation, suspicious activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W12/00Security arrangements; Authentication; Protecting privacy or anonymity
    • H04W12/12Detection or prevention of fraud
    • H04W12/128Anti-malware arrangements, e.g. protection against SMS fraud or mobile malware
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/03Indexing scheme relating to G06F21/50, monitoring users, programs or devices to maintain the integrity of platforms
    • G06F2221/033Test or assess software
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2107File encryption
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2115Third party
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1433Vulnerability analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Virology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

背景
機械学習は、現代のコンピュータの高速処理のパワーを利用してアルゴリズムを実行し、データの挙動や特性の予測を学習する技術である。機械学習技術は、悪意のあるか又は良性の挙動を示すことが知られている1組のファイルのような、公知のクラス(class)や標識(label)によって、1組の訓練(training)サンプル(訓練セット)上でアルゴリズムを実行して、未知のファイルが悪意のあるものか又は良性であるかどうかのような、未知のものの挙動や特性を予想するという特徴を学習する。
機械学習に対する多くの現代のアプローチは、静的な訓練セットを必要とするアルゴリズムを利用する。静的な訓練セット(決定ツリーに基づくもののような)を必要とするアルゴリズムを利用するこのような機械学習アプローチでは、全ての訓練サンプルが、訓練時間には利用できるものであると仮定する。モデルを夫々の新しいサンプル上で更新するというオンライン又は連続的な学習アルゴリズムとして知られる、教師あり機械学習アルゴリズムの分類(class)というものが存在する。しかし、これらのアルゴリズムでは、夫々の新しいサンプルが専門家のユーザによって分類されることを仮定する。
関連する機械学習方法は、バッチモードアクテイブ学習(BMAL)である。BMALは、随時繰り返されるプロセスにおいて、新しいサンプルのバッチに基づき再訓練される新しい分類器(classifier)を構成する。しかし、BMALは、判断ためにユーザに対して、非標識のサンプルを選択することにフォーカスを当てる。BMALは、何らかの客観的な性能基準が一致するまで学習を繰り返し実行する。付け加えると、BMALは、新しいサンプルが追加されたユーザに対し、元の訓練及びテストデータが送られなければならない複数の場所の間に、訓練データが分割されている場合をカバーすることはできない。
他の関連する従来技術の方法は、以下の特許及び公開出願に記載されている。例えば、米国特許第6、513、025号(以下、‘025特許と称す)、タイトル“多段階機械学習プロセス”は、時間間隔による訓練セットの分割と複数の分類器の生成(それぞれの間隔に対して1つの)に関する。時間間隔は、好ましい実施形態においては、周期的/定期的(固定の頻度)である。‘025特許は、信頼性モデル(どの分類器モデルを利用するかをシステム入力に基づいて選択する方法)をてこ入れして、どの分類器を利用するかを決定する。更に、この特許における分類器の更新と訓練サンプルの追加方法は、連続的である。更に、’025特許では、通信ネットワーク回線に限定されている。
米国特許付与前出願公開No. 20150067857号(以下、‘857公開と称す)は、“現場の訓練可能侵入検出システム”を指向する。’857公開に記載されたシステムは、半教師あり学習(何らかの非標識のサンプルを利用する)に基づいている。この学習は、ファイルではないネットワークトラフィックパターン(ネットフローか他のフローのメタデータ)に基づく。‘857公開では、ラプラシアン正規化された最小二乗学習機を利用するが、ユーザに、複数の分類器の間で選択すること、または、複数の分類器の性能の分析を見ることを許す方法は含まない。’857公開では、更に、現場(in-situ)のサンプル(クライアント企業からのサンプル)だけを利用する。
米国特許付与前出願公開No. 20100293117号(以下、‘117公開と称す)、タイトル“バッチモードアクテイブ学習を促進する方法とシステム”には、訓練セットに夫々のサンプルを含めることにより得る“報酬”の推定値(性能向上の推定値)に基づき、訓練セットに含めるべきドキュメントを選択する方法を開示している。この報酬は、未標識のドキュメントまたはドキュメントの長さに関連する不確実性に基づくことができる。’117公開には、悪意のあるソフトウエアやファイルを検出することは開示していない。
米国特許付与前出願公開No. 20120310864号(以下、‘864公開と称す)、“分類器を進化させるための適応バッチモードアクテイブ学習”は、この技術が画像、音響及びテキストデータ(二値のファイルではなく、及びマルウエア(malware:有害ソフトウエア)の検出のためでもない)に適用することにフォーカスを当てる。更に、’864公開は、性能の所定のレベルに典型的に基づく停止基準を定義することを要する。重要なことには、‘864公開の方法は、完全なサンプル等を維持する代わりに、そのコーパス(corpus)を特徴ベクトルとして表す部分的な訓練コーパスを与える潜在的な必要性のような、現場(in-situ)の学習を受け入れることができないことである。
現存する機械学習技術は、学習アルゴリズムおよびプロセスを開示しているが、元の訓練者にアクセスできないデータに基づき分類器を増強したり再訓練する方法をカバーしてはいない。現存する機械学習技術は、エンドユーザが、機械学習を実施する上で本来責めを負うべき第三者に対し開示することを望まないデータサンプル上の訓練を可能とはしない。
付け加えると、従来のマルウエア(malware)のセンサーには、マルウエアセンサー(アンチウイルス、IDS等)の夫々のインスタンス(instance)は、それらの署名やルールセットが最新のものに更新されているとの仮定の下で、同一であるという本質的な問題がある。そのような場合には、サイバー防御センサーの夫々の配置が同一なので、悪い動作主体ないしマルウエアの著者もセンサーを得ているかもしれず、それで、そのマルウエアをテストし、マルウエアが検出しないようにマルウエアを変更しているかもしれない。このことは、このようなすべてのセンサーを脆弱にするであろう。
発明の要旨
前述した従来技術の欠点を克服する実施形態が本明細書に説明されている。これらの及び他の利点は、マルウェアの識別とモデルの不均一性のために、バッチ処理し、教師あり(supervised)により、現場(in-situ)の機械学習分類器を再訓練するための方法により提供される。この方法によれば、ある場所で親分類器のモデルを生成し、それを別の場所又は複数の場所にある1つ以上の現場の再訓練システム又は複数のシステムに対して提供し;現場の再訓練システム又は複数のシステムにより評価された複数のサンプルにわたり、前記親分類器のクラス決定を判断し(adjudicate);現場の再訓練処理を開始するのに必要な判断サンプルの最小値を決定し(determine);1つまたは複数の現場のシステムからのサンプルを利用して新しい訓練およびテストセットを作成し(create);現場の訓練とテストセットを表す特徴ベクトルと、親の訓練とテストセットを表す特徴ベクトルとを混合し(blend); 混合された訓練セットにわたり機械学習を実施し(conduct);混合されたテストセットと追加された非標識のサンプルを利用して、新しい親モデルを評価し;前記親分類器を再訓練された分類器バージョンにより置き換えるかどうかを選択する。
図1は、マルウェアの識別とモデル不均一性のために現場の分類器を再訓練するための方法100の例示的な実施形態を示す。 図2は、マルウェアの識別とモデル不均一性のために現場の分類器を再訓練するためのシステム200の例示的なアーキテクチャを示す。 図3は、システム200の実施形態による例示的なGUI300の画面例(screen shot)を示す。 図4は、システム200の別の実施形態による例示的なGUI400の別の画面例(screen shot)を示す。 図5は、ユーザAが、ユーザBおよびユーザCの両方の間で信頼関係があるが、ユーザBおよびユーザCが互いに信頼関係に入れていないシナリオを示す。
詳細な説明
マルウェアの識別とモデルの不均一性のために現場の分類器(in-situ classifier)を再訓練するためのシステム及び方法の実施形態が本明細書に記載されている。これらの実施形態は、上述した問題点を克服する。例えば、この実施形態は、ユーザが駆動する現存するモデルの分類予想と現場の再訓練の確認と修正に基づき、現存する機械学習をベースにした分類モデルの増強を与える。本明細書において、“現場(in-situ:その場)”とは、設置(install)された分類器のインスタンス(instance)の物理的な場所において、機械学習を実施するということを意味する。実際、多数のインスタンスを通じて適用された場合に、この実施形態は、夫々のインスタンスがそのインスタンスに固有のモデルを作成することを可能にする。
好ましい実施形態では、未知の/信頼できないソフトウエア又はソフトウエア・アプリケーション・ファイルが良性であるか悪意のあるかどうかを決定するという問題に適用される。この方法によって生成された子分類器は、特有であるばかりでなく、親分類器の統計的性能を維持又は改善する。特に、この実施形態によれば、ソフトウエア分類の偽陽性率を減らすことが実証されている。この実施形態は、現場の訓練セット(in-situ training set)と呼ばれる、元の訓練セットと補足の訓練セットの組み合わせを利用して親分類器を再訓練することを可能とするように設計されている。現場の訓練セットは、ローカルなインスタンスの環境内で発生し、親分類器を構築した相手を含むいかなる他の者との間で共有される可能性のある潜在的に機密であるデータ又は専有データの必要性を排除する。しかし、この実施形態では、ユーザは、他のユーザとの信頼関係を形成することを選択し、潜在的に機密又は専有データの抽象化を使用して現場の訓練データの一部又は全部を、確実に、共有することを選択することができる。
本明細書に記載された実施形態は、従来技術に対して多くの重要な相違点を含む。上記した従来技術とは対照的に、実施形態は、再訓練以前に新しいサンプルの固定していない間隔でバッチ処理を繰り返し必要とするかもしれないが、すべての新しいサンプルが専門家ユーザにより分類されることを仮定せず、そうでなければ、再訓練バッチに含めることが適当だと仮定しない。これらの相違点により、本システムおよび方法の実施形態を、オンライン又は連続的な学習技術の部類(class)とは異ならせる。
加えて、BMALとは対照的に、実施形態によれば、ユーザが、思いのままに、判断すべきサンプルを選択することを可能にする。同様に、実施形態では、ユーザは、客観的な停止基準を使用するというよりは、再訓練のサイクル数を決定する。さらに加えて、実施形態は、新しいサンプルが追加されたユーザに対し、元の訓練及びテストデータが送られなければならない複数の場所の間に、訓練データが分割されている場合をカバーする。
さらに、‘025特許とは対照的に、本明細書に記載の実施形態の現場の学習(in-situ learning)は、現在の分類器の完全な置換を含み、入力空間を細分化することなく、より古いモデルを継続して使用することができる。同様に、本明細書で説明される実施形態は、ユーザにより駆動されるバッチ学習である(全てのイベントが追加の学習に含まれるわけではない)。あるいは、この開示の別の態様では、バッチ学習は自動化プロセスによって駆動されてもよい 。’857公開に反して、本明細書に記載された現場の実施形態は、半教師あり(semi-supervised)であるラプラシアン正規化最小二乗法学習器とは対照的に、完全に、教師あり(supervised)であり得る。教師なし(unsupervised)及び半教師あり(semi-supervised)の学習をシステムの態様で実施することもできるが、教師あり学習(supervised learning)が好ましく、これは、例えば、教師あり学習は、未知のサンプルの分類決定をもたらす可能性があるからである。さらに、本明細書で説明する実施形態によれば、クライアント企業からのサンプルと、製造者によって提供されるサンプルとの混合物を使用することができる。‘117公開とは対照的に、この実施形態によれば、全ての標識されたサンプルを利用する。’864公開とは区別されるように、この実施形態は、単純な停止基準(性能が適切であるか否かの決定を行うユーザを有するシングルパス)を有する。この単純な停止基準によれば、非標識データのバッチと残りの非標識データとの間の距離関数の計算を必要とせず、目的関数の評価に基づいて訓練要素のバッチを選択しない。
この実施形態によれば、ユーザが、分類ソフトウェア/ハードウェアのユーザの配置に、機械学習ベースの分類器を現場で再訓練することを可能にする。再訓練は、全体的な分類器の性能(例えば、偽陽性および偽陰性を低減する)の改善を可能にする。現場での保持(in-situ retaining)は、また、分類モデルの特有なバージョンの作成または生成を可能にする。そのバージョンは、そのインスタンスに固有であり、そのユーザに固有のものであってもよい。調整されたモデルを有することにより、ユーザは、マルウェア生産者が、ユーザのネットワークを危うくしようと試みる前に、検出技術に対してマルウェアをテストすることができないことを保証する。さらに、この調整は、専有または機密性のある特定のタイプのマルウェアの方にバイアスされたモデルを作成するために使用されてもよく、それゆえ、親分類器モデルの作成者にとって利用できないものであってもよい。いくつかの実施形態では、サンプル内容を完全に不明瞭にするが、他のものが再訓練のためにサンプルにてこ入れをすることを可能にする、抽象化されたサンプル表現を使用することによって、複数のユーザの間で共有を容易にすることができる。更に、ユーザは、1つの場所で訓練されたモデルを、それらのネットワーク内または信頼されたパートナーの間で他の場所において共有することを選択することができる。更に加えて、またはこれらの代わりに、現場の再訓練(in-situ retraining)の結果として生成されたモデルは、信頼されたパートナーにエキスポートされるかまたはそれからインポートされることができる。
図1を参照すると、マルウェアの識別とモデル不均一性のために現場の分類器を再訓練するための方法100の例示的な実施形態が示されている。図示のように、方法100の実施形態は、14個のステップのプロセスに関して説明されている。この方法100は、図2に示すようなソフトウェア/ハードウェアのアーキテクチャで実施することができる。この実施形態では、現場の再訓練プロセス(in-situ retraining process)は、図1において"第三者設備"及び"ユーザ(現場)設備"として示した、2つの物理的に分離された場所に関して行われる。第三者(例えば、マルウェア検出ハードウェア/ソフトウェアを販売する企業)は、基本分類器として知られている分類器の初期バージョン(ブロック1-5を参照)を構築する。この基本分類器は、決定ツリー、サポートベクトルマシン、k-最近接近傍、人工ニューラルネットワーク、ベイジアン(Bayesian)ネットワーク等などの教師あり機械学習アルゴリズムを用いて構築される。第三者は、親訓練およびテストセットを構築する:ブロック1。学習が、同一の種類のサンプルで構成され、全ての所望のクラスを網羅する訓練セットにわたって行われる。この実施形態では、2つのクラス(class)のみが使用され、悪意であるか良性であるかである。サンプルは、コンピュータ実行可能プログラムファイル(PE32、PE32+、ELF、DMG等)と、共通のコンピュータソフトウェア(Microsoft Word、Microsoft Excel、PDF等)によって使用されるファイルとを含む。第三者は、特徴(例えば、悪意のある及び/又は良性のファイルに存在する可能性の高い特徴)を、訓練セット(例えば、抽出された特徴ベクトルのように)から抽出する:ブロック2。学習を行い、教師あり機械学習アルゴリズムを用いてモデルを作成する:ブロック3。更に、テストセットを用いてモデルをテストする:ブロック4。このような分類器は、米国特許出願番号14/038、682号(US20140090061号として公開)に記載された方法に従って構築することができる。この出願を参照することにより本明細書に組み入れる。1つまたは複数の分類器を作成して、様々なファイルのタイプをカバーすることができる。
第三者が分類器を作成すると、その分類器は、ユーザ設備(例えば、顧客)に、分類器のインスタンスとして送信/配置される:ブロック5。このような配置5は、複数のユーザ設備(例えば、複数の顧客)、 複数インスタンスの配置の一部であってもよい:。ユーザ設備は、例えば、図2に示すような、システムハードウェアおよびソフトウェアを収容する。本明細書で使用されるように、用語“ユーザ設備”は、企業の物理的ロケーションの一部または全部に配置された、1または複数の現場の再訓練システムを有する複数の物理的ロケーションを含むことができるユーザの企業全体を指す。分類器モデルに加えて、サードパーティはまた、訓練およびテストサンプルから抽出された特徴ベクトルを配信する。特徴ベクトルは、特徴として知られるサンプルの1組の特質または属性に基づくサンプルの要約表現である。特徴ベクトルは、サンプル内容を難読化し、モデル訓練を容易にするサンプルの抽象化された表現である。この特徴には、ファイルヘッダ特性、ファイルの特定の部分または構成要素の存在、n-グラム(n-grams)として知られる連続する2進シーケンス、エントロピー等のような2進表現上の計算のようなものを含むことができる。本明細書に記載された実施形態の重要な特徴は、元の訓練およびテストセットのこの一般化された表現をユーザ設備に送信することである。
引き続き図1を参照すると、元の第三者が作成した基本分類器は、再現可能な現場プロセスにおいて第1の親分類器となる。方法100は、この基本分類器を使用して、各サンプルについてのクラス(例えば、良性または悪意があるか)を予測するユーザネットワーク上の未知のコンテンツを評価する:ブロック6。一実施形態では、ユーザは、グラフィカルユーザインタフェース(GUI)のシステムを使用して、予測されたクラスの一部または全部を検査し、そのサンプルが真に良性かまたは悪意があるかを決定する(例えば、分類を確認または修正する):ブロック7。この開示の別の態様では、現場の再訓練システム(in-situ retraining system)は、人間の介入なしに、予測されたクラスの一部または全部を検査し、サンプルが良性であるか悪意があるかを決定する(例えば、分類を確認または修正する)。分類を確認または修正する行為を判断(adjudication)と呼ぶ。一実施形態では、再訓練マネージャ(例えば、再訓練マネージャサービスとして例示される)は、ユーザの判断活動を監視し、十分な数の現場のサンプル(in-situ sample)が判断された時を決定する。
この実施形態では、再訓練が起こる前に蓄積されなければならない判断イベントの必要な閾値数が存在する。ユーザが、判断イベントの必要な閾値数を超えると、ユーザは、再訓練を実施することを選択することができる。判断されたサンプルは、1つまたは複数の現場の再訓練システムに保存することができる。信頼関係が存在するという仮定の下で、他のシステムユーザ間と共有することによって、判断サンプルに関する情報は取得することもできる。ユーザが再訓練を開始すると、再訓練マネージャは、判断された現場のサンプルから訓練およびテストセットを作成する:ブロック8。その代替としては、現場の再訓練システムは、人間の介入なしに、再訓練を開始することができる。訓練およびテストセットは、判断されたサンプルのサブセットから選択することができる。再訓練マネージャはまた、再訓練およびテストセットの両方から特徴ベクトルを抽出することができる:ブロック9。次に、方法100は、これらの現場の特徴ベクトル(in-situ feature vectors)を、親/基本分類器の特徴ベクトル(及び、もしあれば、共有するパートナーからの特徴ベクトル)と混合する(blend)ことができる:ブロック10。別のモードによれば、一実施形態では、現場のサンプルを追加することなく、親/基本分類器の特徴ベクトル(および共有パートナーからのもの)のサブセットを使用することができる。このサブセットは、利用可能な特徴ベクトルの完全なセットからランダムに選択することができる。1つの形態、加法的方法として知られる混合の実施形態では、現場のサンプルの特徴ベクトルを、親分類器の特徴ベクトルに追加することができる。別の形態、置換方法として知られる第2の混合実施形態では、現場のサンプルの特徴ベクトルは、等しい数の親分類器の特徴ベクトルを置換することができる。別の形態、ハイブリッド法として知られている第3の混合実施形態では、現場のサンプルの特徴ベクトルを、親分類器の特徴ベクトルのサブセットに追加することができる。こうすることで、親セットよりも大きいが、加法的方法によって作成されたものよりも小さい訓練セットを生成することができる。混合にハイブリッド方法を使用することにより、ユーザは、新しい分類モデルに対する現場のサンプルの影響を制限することができる。新しい分類モデルは、親/基本分類器を作成するために使用される同じ機械学習アルゴリズムを使用して、機械学習装置によって訓練される:ブロック11。新たな分類器が作成されると、それを再訓練テストセットに照らして評価する。この再訓練テストセットは、第三者(基本分類器テストセットの特徴ベクトル)とユーザ設備(再訓練テストセットの特徴ベクトル)の両方からのサンプル特徴ベクトルを含む:ブロック12。評価12は、訓練セットに含まれない標識されたサンプルおよび非標識のサンプルの両方に対して生じる。システムGUIは、評価を行う際にユーザを支援するために提供されてもよい。実施形態によれば、どの分類器がよりよいかについて、再訓練マネージャによって提供される自動的推奨を提供することもできる(例えば、図3及び図4を参照)。
引き続き図1を参照すると、評価期間の終了時に、この実施形態では、ユーザは、新しい分類器を受け入れかつ現在の親分類器を置換するか、または新しい分類器を拒否しかつ親分類器を継続するかのいずれかを選択する:ブロック13。この開示の別の態様では、現場の再訓練システムは、人間の介入なしに、新しい分類器を受け入れかつ現在の親分類器を置換するか、または新しい分類器を拒否しかつ親分類器を継続することができる。いずれの態様の場合も、例えば、ユーザの判断において、または現場の再訓練システムによって、この処理を繰り返してもよい:ブロック14。新たな現場の分類器が受け入れられると、それは、次のラウンドの現場の再訓練100のための親/基本分類器となる。ユーザは、さらに、その企業全体の全ての現場の再訓練システムに、再訓練分類器のモデルを配置することを選択することができ、それによって、各システムの親分類器を、新しい再訓練分類器に置き換えることができる。この開示の別の態様では、人間の介入なしに、現場の再訓練システムは、その企業全体の全ての現場の再訓練システムに再訓練分類器モデルを配置し、それによって、各システムの親分類器を新しい再訓練分類器に置き換えることができる。
この実施形態では、連続的な再訓練は、増強(augmentation)のための基礎として、以前のラウンドの訓練およびテストセットを使用する。マルウェアの識別とモデル不均一性のために現場の分類器を再訓練するためのシステムでは、選択的に、元の第三者の基本分類器および関連する訓練およびテストセットに、再訓練を"固定する(anchor)"ことを選択することができる。固定モード(anchor mode)における再訓練時に、元の基本分類器、元の基本分類器の訓練、及び元の基本分類器のテストセット又はそのサブセットは、その後の全ての固定された再訓練のために使用される。
再び図2を参照すると、マルウェアの識別およびモデル不均一性のために現場の分類器を再訓練するためのシステム200の例示的なアーキテクチャが示されている。システム200は、ブレードサーバまたはチェーンサーバを含む1つまたは複数のコンピュータサーバによって実施することができる。サーバは、既知、未知および分類されたファイルに関する情報が記憶されているファイルデータベースをホストすることができる。サーバはまた、親モデル、親訓練およびテストセットの特徴ベクトル、現場のモデル、及び現場の訓練およびテストセットの特徴ベクトルをホストすることができる。サービスとして例示された再訓練マネージャは、サーバ上で実行され、機械学習装置(例えば、機械学習アルゴリズムを実行する機械学習サービス)、及び現場の訓練およびテストセットの特徴ベクトルを使用して、現場のモデルを生成することができる。上述のように、再訓練マネージャは、親モデルおよび親訓練およびテストセットの特徴ベクトルを、現場のモデルおよび現場の訓練およびテストセットの特徴ベクトルに置換することができる。現場のモデルおよび現場の訓練およびテストセットの特徴ベクトルは、新しい親モデルおよび親訓練およびテストセットの特徴ベクトルにそれぞれなる。あるいは、固定された(アンカーされた)再訓練において、元のもの(または固定された訓練が実施される地点に存在するもの)、親モデル、訓練およびテストセットの特徴ベクトルは、現場のモデルおよび現場の訓練およびテストセットの特徴ベクトルと平行なままである。システム200は、以前に分類されたファイルから特徴を抽出し、現場の特徴ベクトルを作成するために、サーバにおいて、特徴抽出装置(例えば、特徴抽出装置サービス)を使用することができる。特徴抽出装置は、サーバによる入力として受信された未知のファイルから、分類のために特徴を抽出することもできる。サーバは、機械学習装置および現場モデルを使用して、ファイルを分類し、ファイル分類を出力することができる。
システム200はまた、サーバが出力する現場のモデル、親モデル、テスト結果および分類の表示を、ユーザに提示することを可能にするためのGUIを含むことができる。このGUIはまた、本明細書で説明されるように、例えば、分類を確認または修正し、訓練を選択し、新しい現場のモデル等を受け入れることを選択する等のユーザ入力のエントリーと受理を可能にする。実施形態によれば、サーバは、GUIを介して入力されたユーザ入力を受理し、本明細書で説明されるようなステップを実行する。この開示の別の態様では、サーバは、現場の再訓練システムによって生成された入力を受理する。
ここで図3を参照すると、システム200の実施形態による例示的なGUI300の画面例(screen shot)が示されている。GUI300は、標識されたサンプル上に現場の再訓練されたモデルの分析を示す、現場の再訓練評価の画面例を示している。図示したように、GUI300は、現場の再訓練されたモデルの分類結果と、基本または親モデルの分類結果との比較を表示することができる。GUI300は、分類スコアの比較を示し、分類スコアは、偽陰性および偽陽性を計数して重みづけする式に基づいてもよく、またはその式から計算されてもよい。GUI300は、ベースモデルのための偽陰性および偽陽性、現場のモデルからの改善と、及び組み合わされたモデル改善(すなわち、現場のモデルとベースモデルを組み合わせたものからの改善)のパーセンテージを示している。
ここで図4を参照すると、システム200の別の実施形態による例示的なGUI400の別の画面例(screen shot)が示されている。GUI400は、非標識されたサンプルの分析を示す現場の再訓練評価の画面例を示している。具体的には、GUI400は、基本モデルに対する新しい現場のモデルを用いて分類の変化を示すグラフを含む。
GUI400はまた、現場の分類器と基本分類器で判断されるように、悪意のある信頼性または可能性が、どれくらいのパーセンテージであるかによって分類されるファイルの数を示す棒グラフを含む(例えば、1877は、悪意のある可能性が0%として現場(in-situ)によって分類されたもの)。この棒グラフは、現場の分類器が、悪意のない信頼性が高い(0―10%)ものか、または悪意のある信頼性が高い (80―90%)ものであることを示し、一方、基本分類器は、これらの極端な場合の外側にある信頼度のレベル(例えば、20―70%)に分類されたより多くのファイルであって、従って、有用性がより低いファイルを示している。
ここで図5を参照すると、特徴ベクトルを共有するための信頼関係シナリオの図が示されている。この実施形態では、複数のユーザ間の判断されたサンプルの特徴ベクトルの安全な共有が可能である。判断されたサンプルの特徴ベクトルを共有するために、ユーザは、まず、互いに信頼関係に入ることを選択しなければならない。基本分類器を作成した第三者設備である可能性があるが、必ずしもそうではない、信頼されたブローカーが、元著作者から共有データを受信してレシーバーに転送することにより、サンプルの特徴ベクトルの転送を容易にすることができる。あるいは、信頼関係にある参加者が、ピアツーピア(peer-to-peer)方式で互いに直接データを送信することができる。このデータは、一般に、信頼関係にある参加者間の送信中に暗号化される。図5に示されているのは、ユーザAは、ユーザBおよびユーザCの両方に信頼関係を持っているが、ユーザBとユーザCは互いに信頼関係に入っていないシナリオである。このシナリオでは、それ故、ユーザBは、現場のデータ(特徴ベクトル)を使用することができ、そのデータは、ユーザAが共有するように選択されるが、ユーザCが共有するように選択されるデータではない。ユーザAは、ユーザBおよびユーザCの両方からのデータを使用することができる。特徴ベクトルのみを共有することによって、ユーザは、それらが共有する他のユーザからの秘密(confidential)のファイルデータまたは機密(sensitive)のファイルデータを保護することができる。
現場の訓練およびテストセットの構築において共有データが使用される場合、ユーザは、共有された特徴ベクトルの自己および各プロバイダに関して共有データに包含することを優先することを選択することができる。各ソースの優先順位付けは、そのソースの判断されたサンプルから取り出される、訓練およびテストセットのパーセントに変換される。
マルウェアの識別とモデル不均一性のために現場の分類器を再訓練するためのシステムおよび方法の実施形態は、本明細書で説明されるように、先行技術の欠点および不利益の多くを克服する。例えば、本明細書に記載された実施形態は、エンドユーザが、機械学習を実施する上で本来責めを負うべき第三者に対し開示することを望まないデータサンプル上の訓練を可能とすることに挑戦するように対処する。このシナリオの一例は、悪意のあるPDFファイルの識別である。第三者は、分類器を訓練するために、悪意のある及び良性のPDFのコーパスを有することができるが、ユーザのPDFファイルに適用されたときに、分類器は、許容できない数の偽陽性を生成する可能性がある。しかし、ユーザは、PDFファイルが機密情報又は専有情報を含むことがあるので、不正確にマークされているPDFファイルを共有することを望まない。ユーザが現場で再訓練を行うことを可能にすることにより、ユーザは、そのサンプルを第三者または他のユーザに提供するコストまたはリスクを生ぜずに、訓練セットにそのデータを追加したという利益を得る。この開示の別の態様では、現場の再訓練システムは、そのサンプルを第三者または他のユーザに提供するコストまたはリスクを生ぜずに、訓練セットにそのデータを追加することができる。
加えて、マルウェアの識別とモデルの不均一性のために現場の分類器を再訓練するためのシステムおよび方法の実施形態によれば、マルウェアセンサ(アンチウイルス、IDS等)の各インスタンスが同一である(各インスタンスの署名が最新に保たれていると仮定する)場合に、サイバー防御の問題を解決する。サイバー防御センサの各配置が同一であり、悪意のある動作主体またはマルウエアの著者もそのセンサーを得ているかもしれないので、悪意のある動作主体が、マルウエアが検出しないように、そのマルウエアをテストしマルウエアを変更することが可能である。現場の訓練によれば、センサの各インスタンスが、ローカルユーザ以外の誰にも利用可能でないデータ上でそれ自体を調整することを可能にする;この方法は、全ての現場で訓練された分類器モデルが特別であることを効果的に保証する。言い換えると、全てのマルウェア識別モデルのセットは、均一ではなく不均一である。悪意のある動作主体は、もはやそのマルウェアの事前テストに依存することができず、ユーザのコミュニティにわたって発見されるというより大きなリスクを負う。
マルウェアの識別とモデル不均一性のために現場の分類器を再訓練するためのシステムおよび方法の実施形態によれば、機械学習の目的のために、潜在的に機密の情報または専有情報の安全な共有の問題にも対処する。ユーザがサンプルの特徴ベクトルを共有するがサンプル自体は共有しないという、ユーザ間の信頼関係を確立することにより、各ユーザは、機密データを露出させることなく、他の作業ができるという利益を得る。
この実施形態は、いくつかの革新的な概念を含む。この実施形態は、各ユーザごとに固有の分類モデルを生成するために、機械学習および現場の再訓練を使用する。本明細書で説明される現場の学習の実施によれば、第三者と現場のデータセットとの組み合わせに基づいて、ユーザが第三者にデータを解放することを必要とせずに、調整するという利点をユーザに可能とする。データセットと、厳密に制御され自動化された機械学習プロセスとの混合によって、ユーザは、不十分な性能をもたらす可能性のある不十分な機械学習法によってもたらされる意図しない誤差を生じにくくなる。このシステムの実施形態によれば、ユーザが、ユーザの優先度を反映しない自動分析に依存するのではなく、再訓練のためにどのサンプルが適格であるかを定義することを可能にする。
この実施形態をテストすれば、広範囲のサンプルのセットについての30%を超える全体的な偽陽性性能改善により、従来の誤分類された99%を超える現場のサンプルについての偽陽性率の全ての減少を実証した。これらの改善は、偽陰性率がほとんど増加しないか増加なしで、達成される。さらに、テスト結果は、分類器を再訓練するために異なるデータを使用することが、同じサンプルについて異なる分類挙動の結果をもたらすということも示している。
本明細書に記載の実施形態による、現場以前の基本セットの形成を含む現場のプロセスの要旨を、以下に説明する(例えば、ステップ1-5が第三者設備において行われ、ステップ6-14は、ユーザ設備において行われる)。
1. 基本訓練およびテストセットの作成;
2. 特徴の抽出;
3. モデル作成のための学習の実施;
4. テストセットを用いてモデルテスト;
5. モデルの配置;
6. 未知のサンプルの分類のためにモデル使用;
7. ユーザまたは現場の再訓練システムは、分類をレビューし、確認または修正する;
8. ソース優先順位付けに基づいて、現場の訓練とテストセットの形成のために、判断したサンプルのサブセットを選択;
9. 特徴の抽出;
10. 現場の訓練と第三者の訓練とテストセットまたはそれらのサブセットを結合;
11. モデルの再訓練;
12. 新モデルの評価;
13. 新モデルの配置または拒否;および
14. 必要に応じて、ステップ6-14の繰り返し。
本明細書で使用される用語および説明は、例示だけのために記載されたものであり、限定を意図するものではない。当業者は、以下の特許請求の範囲とこれらと同等のものに定義された本発明の精神および範囲内で、多くの変形が可能であることを認識するであろうし、特に断らない限り、すべての用語が最も広い可能な意味で理解されるべきである。

Claims (16)

  1. マルウェアの識別のために、機械学習分類器を再訓練するための方法であって、前記方法は:
    第1機械学習モデルと、複数の第1ファイルと関連する複数の第1特性を示す情報とを受信するステップであって、前記第1機械学習モデルのための訓練データが前記複数の第1ファイルを含むステップと;
    前記第1機械学習モデルに基づいて、複数の第2ファイルのための複数のクラス決定を行うステップと;
    ひとつ以上の前記複数のクラス決定を判断するステップであって、前記判断することが、前記ひとつ以上の前記複数のクラス決定を確認あるいは修正するユーザー入力を受信することを含むステップと;
    前記判断することに基づいて、前記複数の第2ファイルと関連する複数の第2特性を決定するステップと;
    前記複数の第1特性の少なくとも一部と、前記複数の第2特性の少なくとも一部とを使って、第2機械学習モデルを決定するステップとを;
    備える機械学習分類器の再訓練方法。
  2. 前記第2機械学習モデルを決定するステップは、前記第1機械学習モデルを訓練しテストするために使われた機械学習アルゴリズムを使って、前記第2機械学習モデルを訓練しテストするステップを含む請求項1に記載の方法。
  3. 前記複数の第1ファイルと前記複数の第2ファイルは、機械実行可能ソフトウェアまたは機械実行可能ソフトウェアによって使用されるファイルタイプを含む請求項1に記載の方法。
  4. 前記複数のクラス決定のうちそれぞれのクラス決定は良性のコンテンツ又は悪意のあるコンテンツのいずれか少なくともひとつである請求項1に記載の方法。
  5. 前記第2機械学習モデルは、企業内のひとつ以上のコンピュータデバイスに分散されている請求項1に記載の方法。
  6. 前記第2機械学習モデルを決定するステップは、前記ひとつ以上の複数のクラス決定の最小値を判断することに基づいて引き起こされる請求項1に記載の方法。
  7. 第1特徴ベクトル表現が、前記複数の第1特性と関連し、第2特徴ベクトル表現が、前記複数の第2特性と関連する請求項1記載の方法。
  8. 前記複数の第1特性の少なくとも一部と、前記複数の第2特性の少なくとも一部とを使うことは、多数の前記複数の第1特性を同数の前記複数の第2特性と交換すること又は前記複数の第2特性を前記複数の第1特性のサブセットに追加することを含む請求項1に記載の方法。
  9. 前記複数の第1特性の少なくとも一部と、前記複数の第2特性の少なくとも一部とを使うことは、前記複数の第2特性を前記複数の第1特性に追加することを含む請求項1に記載の方法。
  10. 前記判断するステップは、訂正された前記複数の分類を確認するステップと、訂正されていない前記複数の分類を調整するステップとを含む請求項1に記載の方法。
  11. 前記第2機械学習モデルを決定するステップは、前記複数の分類の分類閾値数を判断することに基づいて引き起こされる請求項1に記載の方法。
  12. 少なくともひとつのコンピュータデバイスから、複数の第3ファイルに関連する複数の第3特性を示す第2情報を受信するステップを更に含み、第3機械学習モデルが、前記複数の第3ファイルを使って訓練され、前記第2機械学習モデルを決定するステップが、前記複数の第3特性の少なくとも一部を更に使う、請求項1に記載の方法。
  13. 前記第2機械学習モデルに基づいて、少なくともひとつのファイルが悪意のあるコンテンツを含むことを決定するステップを更に含む請求項1に記載の方法。
  14. 前記複数の第2ファイルが組織に特有である請求項1に記載の方法。
  15. 請求項1から14のいずれか1つに記載の方法をプロセッサによって実行するために遂行される際、コンピュータ読み取り可能な命令を記憶するコンピュータ読み取り可能な記憶媒体。
  16. 請求項1から14のいずれか1つに記載の方法を実行するように構成された少なくともひとつのプロセッサとメモリーを含む装置。
JP2018504758A 2015-07-31 2016-06-08 マルウェアの識別とモデルの不均一性のために現場の分類器を再訓練するためのシステム及び方法 Expired - Fee Related JP6742398B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201562199390P 2015-07-31 2015-07-31
US62/199,390 2015-07-31
PCT/US2016/036408 WO2017023416A1 (en) 2015-07-31 2016-06-08 System and method for in-situ classifier retraining for malware identification and model heterogeneity

Publications (2)

Publication Number Publication Date
JP2018526732A JP2018526732A (ja) 2018-09-13
JP6742398B2 true JP6742398B2 (ja) 2020-08-19

Family

ID=57886450

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018504758A Expired - Fee Related JP6742398B2 (ja) 2015-07-31 2016-06-08 マルウェアの識別とモデルの不均一性のために現場の分類器を再訓練するためのシステム及び方法

Country Status (4)

Country Link
US (4) US10121108B2 (ja)
EP (1) EP3329412A4 (ja)
JP (1) JP6742398B2 (ja)
WO (1) WO2017023416A1 (ja)

Families Citing this family (67)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190129941A2 (en) 2013-05-21 2019-05-02 Happify, Inc. Systems and methods for dynamic user interaction for improving happiness
US10813584B2 (en) 2013-05-21 2020-10-27 Happify, Inc. Assessing adherence fidelity to behavioral interventions using interactivity and natural language processing
EP3329412A4 (en) 2015-07-31 2019-01-23 Bluvector, Inc. SYSTEM AND METHOD FOR REFORMING AN IN SITU CLASSIFIER FOR IDENTIFYING MALWARE SOFTWARE AND HETEROGENEITY OF A MODEL
US10127289B2 (en) * 2015-08-19 2018-11-13 Palantir Technologies Inc. Systems and methods for automatic clustering and canonical designation of related data in various data structures
US9992211B1 (en) * 2015-08-27 2018-06-05 Symantec Corporation Systems and methods for improving the classification accuracy of trustworthiness classifiers
US10838846B1 (en) * 2016-05-16 2020-11-17 Jpmorgan Chase Bank, N.A. Method and system for implementing an automation software testing and packaging framework
US20180012237A1 (en) * 2016-07-07 2018-01-11 International Business Machines Corporation Inferring user demographics through categorization of social media data
US10871753B2 (en) * 2016-07-27 2020-12-22 Accenture Global Solutions Limited Feedback loop driven end-to-end state control of complex data-analytic systems
US11960975B2 (en) * 2016-08-12 2024-04-16 Qualcomm Incorporated Systems and methods for multi-instance learning-based classification for streaming inputs
GB2557253B (en) * 2016-12-02 2020-06-03 F Secure Corp Machine learning based malware detection system
US11164119B2 (en) * 2016-12-28 2021-11-02 Motorola Solutions, Inc. Systems and methods for assigning roles to user profiles for an incident
US10699184B2 (en) * 2016-12-29 2020-06-30 Facebook, Inc. Updating predictions for a deep-learning model
US10162741B2 (en) * 2017-01-24 2018-12-25 International Business Machines Corporation Automatically correcting GUI automation using machine learning
JP6880891B2 (ja) * 2017-03-23 2021-06-02 日本電気株式会社 マルウェア判定方法、マルウェア判定装置及びマルウェア判定プログラム
US10789550B2 (en) * 2017-04-13 2020-09-29 Battelle Memorial Institute System and method for generating test vectors
US9864956B1 (en) 2017-05-01 2018-01-09 SparkCognition, Inc. Generation and use of trained file classifiers for malware detection
CA3063738A1 (en) 2017-05-14 2018-11-22 Digital Reasoning Systems, Inc. Systems and methods for rapidly building, managing, and sharing machine learning models
US10616252B2 (en) 2017-06-30 2020-04-07 SparkCognition, Inc. Automated detection of malware using trained neural network-based file classifiers and machine learning
US10305923B2 (en) * 2017-06-30 2019-05-28 SparkCognition, Inc. Server-supported malware detection and protection
WO2019014487A1 (en) * 2017-07-12 2019-01-17 The Regents Of The University Of California DETECTION AND PREVENTION OF DEEP ANTAGONIST LEARNING
US10877735B1 (en) 2017-09-25 2020-12-29 Amazon Technologies, Inc. Automated generation of software applications using analysis of submitted content items
US10848519B2 (en) * 2017-10-12 2020-11-24 Charles River Analytics, Inc. Cyber vaccine and predictive-malware-defense methods and systems
US10740550B1 (en) 2017-11-20 2020-08-11 Amazon Technologies, Inc. Network-accessible data management service with web-of-sheets data model
US10754950B2 (en) * 2017-11-30 2020-08-25 Assured Information Security, Inc. Entity resolution-based malicious file detection
US10705805B1 (en) 2017-12-12 2020-07-07 Amazon Technologies, Inc. Application authoring using web-of-sheets data model
US10630709B2 (en) 2018-02-13 2020-04-21 Cisco Technology, Inc. Assessing detectability of malware related traffic
JP7216501B2 (ja) * 2018-02-14 2023-02-01 株式会社日立システムズ エッジサーバおよびエッジサーバにおけるai学習モデル生成・運用方法
JP7059695B2 (ja) * 2018-03-01 2022-04-26 コニカミノルタ株式会社 学習方法および学習装置
JP7056259B2 (ja) * 2018-03-14 2022-04-19 オムロン株式会社 検査システム、識別システム、及び識別器評価装置
US11308207B2 (en) * 2018-03-30 2022-04-19 Microsoft Technology Licensing, Llc User verification of malware impacted files
US11200320B2 (en) * 2018-03-30 2021-12-14 Microsoft Technology Licensing, Llc Coordinating service ransomware detection with client-side ransomware detection
US11586603B1 (en) 2018-05-23 2023-02-21 Amazon Technologies, Inc. Index sheets for robust spreadsheet-based applications
US11372893B2 (en) * 2018-06-01 2022-06-28 Ntt Security Holdings Corporation Ensemble-based data curation pipeline for efficient label propagation
US11297080B2 (en) 2018-06-06 2022-04-05 Reliaquest Holdings, Llc Threat mitigation system and method
US11709946B2 (en) 2018-06-06 2023-07-25 Reliaquest Holdings, Llc Threat mitigation system and method
US10897480B2 (en) * 2018-07-27 2021-01-19 The Boeing Company Machine learning data filtering in a cross-domain environment
US11521108B2 (en) * 2018-07-30 2022-12-06 Microsoft Technology Licensing, Llc Privacy-preserving labeling and classification of email
US11444957B2 (en) * 2018-07-31 2022-09-13 Fortinet, Inc. Automated feature extraction and artificial intelligence (AI) based detection and classification of malware
US20210241042A1 (en) * 2018-08-15 2021-08-05 Nippon Telegraph And Telephone Corporation Classifier evaluation device, classifier evaluation method, and non-transitory computer readable recording medium
BR112021005978A2 (pt) * 2018-09-28 2021-06-29 Dow Global Technologies Llc sistema para treinar um classificador de aprendizado de máquina híbrido, método implementado por computador, artigo de fabricação, e, dispositivo de computação.
CN109684837B (zh) * 2018-11-21 2024-03-19 全球能源互联网研究院有限公司 一种面向电力企业的移动应用恶意软件检测方法及系统
US11023576B2 (en) * 2018-11-28 2021-06-01 International Business Machines Corporation Detecting malicious activity on a computer system
US11200318B2 (en) * 2018-12-28 2021-12-14 Mcafee, Llc Methods and apparatus to detect adversarial malware
EP3686804A1 (en) * 2019-01-24 2020-07-29 ABB Schweiz AG Managing an installed base of artificial intelligence modules
KR102192196B1 (ko) * 2019-03-14 2020-12-17 주식회사 에프원시큐리티 Ai 기반 머신러닝 교차 검증 기법을 활용한 악성코드 탐지 장치 및 방법
JP7243329B2 (ja) * 2019-03-15 2023-03-22 日本電気株式会社 コンピュータプログラム、イベント異常検知方法及びコンピュータ
USD926810S1 (en) 2019-06-05 2021-08-03 Reliaquest Holdings, Llc Display screen or portion thereof with a graphical user interface
USD926809S1 (en) 2019-06-05 2021-08-03 Reliaquest Holdings, Llc Display screen or portion thereof with a graphical user interface
USD926200S1 (en) 2019-06-06 2021-07-27 Reliaquest Holdings, Llc Display screen or portion thereof with a graphical user interface
USD926782S1 (en) 2019-06-06 2021-08-03 Reliaquest Holdings, Llc Display screen or portion thereof with a graphical user interface
USD926811S1 (en) 2019-06-06 2021-08-03 Reliaquest Holdings, Llc Display screen or portion thereof with a graphical user interface
US11676049B2 (en) * 2019-09-13 2023-06-13 Oracle International Corporation Enhanced model updating using vector space transformations for model mapping
RU2747451C2 (ru) * 2019-09-30 2021-05-05 Акционерное общество "Лаборатория Касперского" Способ обнаружения связанных кластеров
US20210110298A1 (en) * 2019-10-15 2021-04-15 Kinaxis Inc. Interactive machine learning
US20210125065A1 (en) * 2019-10-25 2021-04-29 Affectiva, Inc. Deep learning in situ retraining
US11556737B2 (en) * 2019-12-04 2023-01-17 At&T Intellectual Property I, L.P. System, method, and platform for auto machine learning via optimal hybrid AI formulation from crowd
US12131230B1 (en) 2020-01-23 2024-10-29 Assured Information Security, Inc. Feature equivalence and document abnormality threshold determination
US20210350264A1 (en) * 2020-05-07 2021-11-11 Baidu Usa Llc Method for obfuscated ai model training for data processing accelerators
JP7492858B2 (ja) * 2020-05-15 2024-05-30 シャープ株式会社 画像形成装置
CN111371812B (zh) * 2020-05-27 2020-09-01 腾讯科技(深圳)有限公司 一种病毒检测方法、装置和介质
US11847217B2 (en) * 2020-06-30 2023-12-19 Mcafee, Llc Methods and apparatus to provide and monitor efficacy of artificial intelligence models
US11891882B2 (en) 2020-07-17 2024-02-06 Landmark Graphics Corporation Classifying downhole test data
GB2598186B (en) * 2020-07-17 2022-10-12 Landmark Graphics Corp Classifying downhole test data
US20220083661A1 (en) * 2020-09-11 2022-03-17 Zscaler, Inc. Utilizing Machine Learning to detect malicious Office documents
US20230214658A1 (en) * 2022-01-06 2023-07-06 Mediatek Inc. Structural obfuscation for protecting deep learning models on edge devices
US20230281310A1 (en) * 2022-03-01 2023-09-07 Meta Plataforms, Inc. Systems and methods of uncertainty-aware self-supervised-learning for malware and threat detection
US20230344867A1 (en) * 2022-04-25 2023-10-26 Palo Alto Networks, Inc. Detecting phishing pdfs with an image-based deep learning approach

Family Cites Families (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6513025B1 (en) 1999-12-09 2003-01-28 Teradyne, Inc. Multistage machine learning process
US6917926B2 (en) * 2001-06-15 2005-07-12 Medical Scientists, Inc. Machine learning method
US20040220892A1 (en) * 2003-04-29 2004-11-04 Ira Cohen Learning bayesian network classifiers using labeled and unlabeled data
JP4639296B2 (ja) * 2004-03-18 2011-02-23 株式会社デンソーアイティーラボラトリ 車両用情報処理システム、車両用情報処理方法およびプログラム
US8019758B2 (en) * 2005-06-21 2011-09-13 Microsoft Corporation Generation of a blended classification model
US8161548B1 (en) * 2005-08-15 2012-04-17 Trend Micro, Inc. Malware detection using pattern classification
US7747555B2 (en) * 2006-06-01 2010-06-29 Jeffrey Regier System and method for retrieving and intelligently grouping definitions found in a repository of documents
US7756799B2 (en) * 2006-10-27 2010-07-13 Hewlett-Packard Development Company, L.P. Feature selection based on partial ordered set of classifiers
US7792353B2 (en) 2006-10-31 2010-09-07 Hewlett-Packard Development Company, L.P. Retraining a machine-learning classifier using re-labeled training samples
WO2008150840A1 (en) * 2007-05-29 2008-12-11 University Of Iowa Research Foundation Methods and systems for determining optimal features for classifying patterns or objects in images
US8219511B2 (en) * 2009-02-24 2012-07-10 Microsoft Corporation Unbiased active learning
US20100293117A1 (en) 2009-05-12 2010-11-18 Zuobing Xu Method and system for facilitating batch mode active learning
US8374975B1 (en) * 2009-08-12 2013-02-12 Google Inc. Clustering to spread comments to other documents
PL2591443T3 (pl) * 2010-07-06 2018-03-30 Bae Systems Plc Sposób wspomagania prowadzenia pojazdu w terenie
JP5569935B2 (ja) * 2010-07-23 2014-08-13 日本電信電話株式会社 ソフトウェア検出方法及び装置及びプログラム
JP5961183B2 (ja) * 2010-12-01 2016-08-02 シスコ テクノロジー,インコーポレイテッド 文脈上の確からしさ、ジェネリックシグネチャ、および機械学習法を用いて悪意のあるソフトウェアを検出する方法
US20120166366A1 (en) * 2010-12-22 2012-06-28 Microsoft Corporation Hierarchical classification system
US9100669B2 (en) * 2011-05-12 2015-08-04 At&T Intellectual Property I, Lp Method and apparatus for associating micro-blogs with media programs
JP2012243180A (ja) * 2011-05-23 2012-12-10 Sony Corp 学習装置および方法、並びにプログラム
US20120310864A1 (en) 2011-05-31 2012-12-06 Shayok Chakraborty Adaptive Batch Mode Active Learning for Evolving a Classifier
WO2013052555A1 (en) * 2011-10-03 2013-04-11 Kyaw Thu Systems and methods for performing contextual classification using supervised and unsupervised training
US8793201B1 (en) * 2011-10-27 2014-07-29 Amazon Technologies, Inc. System and method for seeding rule-based machine learning models
US9015083B1 (en) * 2012-03-23 2015-04-21 Google Inc. Distribution of parameter calculation for iterative optimization methods
IL219597A0 (en) * 2012-05-03 2012-10-31 Syndrome X Ltd Malicious threat detection, malicious threat prevention, and a learning systems and methods for malicious threat detection and prevention
EP2864919B1 (en) * 2012-06-21 2023-11-01 Philip Morris Products S.A. Systems and methods for generating biomarker signatures with integrated dual ensemble and generalized simulated annealing techniques
EP2864920B1 (en) * 2012-06-21 2023-05-10 Philip Morris Products S.A. Systems and methods for generating biomarker signatures with integrated bias correction and class prediction
US9292688B2 (en) 2012-09-26 2016-03-22 Northrop Grumman Systems Corporation System and method for automated machine-learning, zero-day malware detection
US9369476B2 (en) 2012-10-18 2016-06-14 Deutsche Telekom Ag System for detection of mobile applications network behavior-netwise
US9686023B2 (en) 2013-01-02 2017-06-20 Qualcomm Incorporated Methods and systems of dynamically generating and using device-specific and device-state-specific classifier models for the efficient classification of mobile device behaviors
US10810193B1 (en) * 2013-03-13 2020-10-20 Google Llc Querying a data graph using natural language queries
US20140358828A1 (en) * 2013-05-29 2014-12-04 Purepredictive, Inc. Machine learning generated action plan
US9497204B2 (en) * 2013-08-30 2016-11-15 Ut-Battelle, Llc In-situ trainable intrusion detection system
US9639818B2 (en) * 2013-08-30 2017-05-02 Sap Se Creation of event types for news mining for enterprise resource planning
US9489514B2 (en) * 2013-10-11 2016-11-08 Verisign, Inc. Classifying malware by order of network behavior artifacts
US11037236B1 (en) * 2014-01-31 2021-06-15 Intuit Inc. Algorithm and models for creditworthiness based on user entered data within financial management application
IL232316A (en) * 2014-04-28 2017-04-30 Verint Systems Ltd System and method for demographic characterization of users of mobile communication terminals based on revalidation - a network of installed Applitzkis and their regime
US20150324686A1 (en) * 2014-05-12 2015-11-12 Qualcomm Incorporated Distributed model learning
US10588589B2 (en) * 2014-07-21 2020-03-17 Zebra Medical Vision Ltd. Systems and methods for prediction of osteoporotic fracture risk
US11182691B1 (en) * 2014-08-14 2021-11-23 Amazon Technologies, Inc. Category-based sampling of machine learning data
EP2990999A1 (en) * 2014-08-29 2016-03-02 Accenture Global Services Limited A machine-learning system to optimise the performance of a biometric system
US9785866B2 (en) * 2015-01-22 2017-10-10 Microsoft Technology Licensing, Llc Optimizing multi-class multimedia data classification using negative data
US9818066B1 (en) * 2015-02-17 2017-11-14 Amazon Technologies, Inc. Automated development and utilization of machine-learning generated classifiers
US10977571B2 (en) * 2015-03-02 2021-04-13 Bluvector, Inc. System and method for training machine learning applications
US10318883B2 (en) * 2015-03-26 2019-06-11 International Business Machines Corporation Identifying optimum times at which to retrain a logistic regression model
US9720738B2 (en) * 2015-04-09 2017-08-01 International Business Machines Corporation Datacenter scheduling of applications using machine learning techniques
US10599844B2 (en) * 2015-05-12 2020-03-24 Webroot, Inc. Automatic threat detection of executable files based on static data analysis
US10410135B2 (en) * 2015-05-21 2019-09-10 Software Ag Usa, Inc. Systems and/or methods for dynamic anomaly detection in machine sensor data
US10943181B2 (en) * 2015-06-26 2021-03-09 Microsoft Technology Licensing, Llc Just in time classifier training
US9935972B2 (en) * 2015-06-29 2018-04-03 Fortinet, Inc. Emulator-based malware learning and detection
EP3329412A4 (en) 2015-07-31 2019-01-23 Bluvector, Inc. SYSTEM AND METHOD FOR REFORMING AN IN SITU CLASSIFIER FOR IDENTIFYING MALWARE SOFTWARE AND HETEROGENEITY OF A MODEL
US10515378B2 (en) * 2015-09-14 2019-12-24 Adobe Inc. Extracting relevant features from electronic marketing data for training analytical models
EP3360105A4 (en) * 2015-10-07 2019-05-15 Way2vat Ltd. SYSTEM AND METHOD OF A COST MANAGEMENT SYSTEM BASED ON BUSINESS DOCUMENT ANALYSIS
US11334928B2 (en) * 2018-04-23 2022-05-17 Microsoft Technology Licensing, Llc Capturing company page quality
US11271939B2 (en) * 2018-07-31 2022-03-08 Splunk Inc. Facilitating detection of suspicious access to resources
US11310268B2 (en) * 2019-05-06 2022-04-19 Secureworks Corp. Systems and methods using computer vision and machine learning for detection of malicious actions

Also Published As

Publication number Publication date
US20230222381A1 (en) 2023-07-13
US20200401941A1 (en) 2020-12-24
US10733539B2 (en) 2020-08-04
US12131237B2 (en) 2024-10-29
US20190311285A1 (en) 2019-10-10
WO2017023416A1 (en) 2017-02-09
US20170032279A1 (en) 2017-02-02
EP3329412A1 (en) 2018-06-06
US11481684B2 (en) 2022-10-25
JP2018526732A (ja) 2018-09-13
US10121108B2 (en) 2018-11-06
EP3329412A4 (en) 2019-01-23

Similar Documents

Publication Publication Date Title
JP6742398B2 (ja) マルウェアの識別とモデルの不均一性のために現場の分類器を再訓練するためのシステム及び方法
JP7086972B2 (ja) 侵入検出のための継続的な学習
US10997307B1 (en) System and method for clustering files and assigning a property based on clustering
US8401982B1 (en) Using sequencing and timing information of behavior events in machine learning to detect malware
US11580222B2 (en) Automated malware analysis that automatically clusters sandbox reports of similar malware samples
Abawajy et al. Iterative classifier fusion system for the detection of Android malware
US20200293655A1 (en) Method and apparatus for producing a machine learning system for malware prediction in low complexity sensor networks
US11836251B2 (en) Malware detection using a machine learning model
US12099599B2 (en) Apparatuses and methods for detecting malware
Saini et al. A hybrid ensemble machine learning model for detecting APT attacks based on network behavior anomaly detection
Patil et al. Malicious web pages detection using feature selection techniques and machine learning
Pavithra et al. A comparative study on detection of malware and benign on the internet using machine learning classifiers
US20230205884A1 (en) Generating high-quality threat intelligence from aggregated threat reports
GB2619589A (en) Fuzz testing of machine learning models to detect malicious activity on a computer
US11775642B1 (en) Malware detection using federated learning
US20220237289A1 (en) Automated malware classification with human-readable explanations
Monika et al. Ensemble-based stegomalware detection system for hidden ransomware attack
Gattani et al. Comparative Analysis for Email Spam Detection Using Machine Learning Algorithms
CN116089938A (zh) 开源组件包的安全检测方法及装置
Madani et al. Study on the different types of neural networks to improve the classification of ransomwares
Pawar et al. Pattern classification under attack on spam filtering
Fukushi et al. Exploration into gray area: Efficient labeling for malicious domain name detection
Fernando Fesad: Ransomware detection with machine learning using adaption to concept drift
Moskal HeAt PATRL: Network-Agnostic Cyber Attack Campaign Triage with Pseudo-Active Transfer Learning
Negi et al. A Robust Approach for Malware Attacks Detection in the Internet of Things Communications

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180412

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190520

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190528

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20190827

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20191025

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191127

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191217

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20200313

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20200513

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200617

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200630

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200728

R150 Certificate of patent or registration of utility model

Ref document number: 6742398

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees