JP2018514840A - 機械学習アプリケーション用のデジタルオブジェクトライブラリ管理システム - Google Patents

機械学習アプリケーション用のデジタルオブジェクトライブラリ管理システム Download PDF

Info

Publication number
JP2018514840A
JP2018514840A JP2017546095A JP2017546095A JP2018514840A JP 2018514840 A JP2018514840 A JP 2018514840A JP 2017546095 A JP2017546095 A JP 2017546095A JP 2017546095 A JP2017546095 A JP 2017546095A JP 2018514840 A JP2018514840 A JP 2018514840A
Authority
JP
Japan
Prior art keywords
digital
objects
machine learning
digital object
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017546095A
Other languages
English (en)
Other versions
JP6929225B2 (ja
Inventor
ミセレンディノ,スコット,ビー.
スタイナー,ドナルド,ディー.
ピーターズ,ライアン,ブイ.
フェアバンクス,ガイ,ビー.
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BluVector Inc
Original Assignee
BluVector Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BluVector Inc filed Critical BluVector Inc
Publication of JP2018514840A publication Critical patent/JP2018514840A/ja
Priority to JP2021130858A priority Critical patent/JP7522705B2/ja
Application granted granted Critical
Publication of JP6929225B2 publication Critical patent/JP6929225B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/562Static detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Debugging And Monitoring (AREA)
  • Stored Programmes (AREA)

Abstract

機械学習アプリケーション用のデジタルオブジェクトライブラリ管理システムおよび方法がここに教示される。そのような方法は、デジタルオブジェクトライブラリに多数の機械可読なデジタルオブジェクトを投入し、前記デジタルオブジェクトを修正して前記デジタルオブジェクトまたはその他のデジタルオブジェクトおよび既存のデジタルオブジェクト間の関係について追加の機械可読なデータを含め、未知のオブジェクトを1以上のカテゴリに分類するために用いられる機械学習モデルの構築および検証用のオブジェクトリストを生成し、クエリを構築してオブジェクトリストを生成し、未知のオブジェクトを1以上のカテゴリに分類するために用いられる機械学習モデルが生成される、モデル生成を開始し;モデル評価を開始し、モデル、オブジェクトリスト、評価結果、およびこれらのオブジェクト間の関連を記憶し、オブジェクトメタデータ、リスト、関連情報、および評価結果の画像表示を生成し、そしてデジタルオブジェクトのライブラリにわたって分散可能なアルゴリズムを実行することを含む。

Description

この出願は、機械学習アプリケーション用のデジタルオブジェクトライブラリ管理システムに関する。
背景
既存の技術水準のデジタルオブジェクト管理システムは、機械学習プロセスの支援に特化していない。デジタルオブジェクト管理システムは通常、ユーザーにデジタル文書を触れさせるために大規模なライブラリシステムによって利用される傾向がある。必要とされるものは、何十万から何十億ものトレーニングおよびテスト例を考慮して管理する必要がある「ビッグデータ」環境において、教師あり機械学習を実行する課題に取り組むシステムである。これは歴史的には、トレーニング計算リソースと比べて、トレーニングデータが限られていた環境で通常行われていた機械学習にとって、新体制である(すなわち、あなたがトレーニングデータを有するなら、トレーナーは、しかるべき期間、そのデータを扱うことができる)。自動化されたデータソースが機械学習アルゴリズムに入力されても、利用することのできる例および/または特徴の数は、学習アルゴリズムの性能によって制限される。
この新たな動作体制は、ユーザーにどのサンプルを使用すべきか選択させる。コーパスからの無作為抽出などの、単純な方法は、収集の偏りを保ち、結果に悪影響を及ぼしうる。結果として、ユーザーがトレーニングサンプルの偏りを理解し、制御する必要がある。
今日、機械学習用のデジタルオブジェクトは通常、階層的なファイルシステム内に記憶されている。ファイル記憶装置は共有であってもよいが、ユーザーのマシンにしばしば限定される。教師あり機械学習のトレーニングおよびテストのリストは、通常、比較的小さな数のサンプルおよび/またはオブジェクトにわたって手動生成される。機械学習技術が「ビッグデータ」環境に組み入れられるについて、何百万から何十億ものサンプルを管理する必要になるだろう。機械学習は通常、スクリプトまたは手動で実行される。トレーニングおよびテストの結果はしばしば、データオブジェクトと同じ階層的なファイルシステム内に記憶される。関連メタデータはしばしば維持されない。データが維持されるなら、結果の語と語のつながり(collocation)を通じて、トレーニング、およびテストのリストが分類器とともにディレクトリ構造内または手動で維持されたスプレッドシート内にあるものと示唆される。
既存の機械学習特許は、機械学習技術により用いられる学習アルゴリズムおよびプロセスを含むが、機械学習システムの入力および出力の準備および管理を含まない。
要約
実施形態は、従来技術のデメリットを克服する機械学習アプリケーション用のデジタルオブジェクトライブラリ管理システムおよび方法を含む。例えば、実施形態は、何十万から何十億ものトレーニングおよびテスト例を考慮して管理する必要がある「ビッグデータ」環境において、教師あり機械学習を実行する課題に取り組むシステムを提供する。さらに、実施形態は、ユーザーがトレーニングサンプルの偏りを理解し、制御することを可能にする。
これらのおよびその他の長所は、デジタルオブジェクトライブラリ管理(DOLM)システムをクラウドストレージソリューションと統合させることによって提供される。DOLMは、多数のオブジェクトおよびオブジェクト間の関係を示すメタデータを含む関連メタデータを追跡して管理する能力を提供する。クラウドストレージソリューションは、ライブラリにわたって分析およびメタデータ抽出の分散処理を可能にする。
これらのおよびその他の長所は、デジタルオブジェクトライブラリに多数の機械可読なデジタルオブジェクトを投入(populate)し、前記デジタルオブジェクトを修正して前記デジタルオブジェクトまたはその他のデジタルオブジェクトおよび既存のデジタルオブジェクト間の関係について追加の機械可読なデータを含め、既知のオブジェクトを1以上のカテゴリに分類するために用いられる機械学習モデルの構築および検証(verification)用のオブジェクトリストを生成し、クエリを構築してオブジェクトリストを生成し、既知のオブジェクトを1以上のカテゴリに分類するために用いられる機械学習モデルが生成される、モデル生成を開始し、モデル評価を開始し、モデル、オブジェクトリスト、評価結果、およびこれらのオブジェクト間の関連を記憶し、オブジェクトメタデータ、リスト、関連情報、および評価結果の画像表示を生成し、デジタルオブジェクトのライブラリにわたって分散可能なアルゴリズムを実行することを含む機械学習アプリケーション用のデジタルオブジェクトライブラリ管理方法によっても提供される。
これらのおよびその他の長所は、機械学習モデルのトレーニングおよびテスト用に用いられるデジタルオブジェクトライブラリ管理システムによっても提供される。前記システムは、機械学習モデルのトレーニングおよびテスト用に用いられるデジタルオブジェクトの記憶、生成および修正を管理するために用いられるデジタルオブジェクトライブラリ管理システム(DOLMS)サーバーを含む。DOLMSサーバーは、デジタルオブジェクトレポジトリ(DOR)、グラフィカルユーザーインターフェース(GUI)ソフトウェア、データベースおよび分散分析モジュールをさらに含む。前記システムは、機械学習モデルのトレーニングおよびテストに用いられるテストおよびトレーニングクラスタのコンピュータならびに前記デジタルオブジェクトを1以上のデジタルオブジェクトライブラリ内に記憶するために用いられるストレージクラスタのコンピュータをさらに含む。
図面の簡単な説明
機械学習アプリケーション用のデジタルオブジェクトライブラリ管理システムおよび方法の実施形態は、以下の図面と併せて理解され、説明される。
図1は、機械学習アプリケーション用のデジタルオブジェクトライブラリ管理システムの実施形態の一例となるアーキテクチャを例示するブロック図である。 図2は、機械学習アプリケーション用のデジタルオブジェクトライブラリ管理方法の一実施形態を例示するフローチャートである。 図3は、一例となるデジタルオブジェクトの一表現である。 図4は、機械学習アプリケーション用のデジタルオブジェクトライブラリ管理システムの一実施形態のコンピュータシステムの構成要素(components)のブロック図である。
詳細な説明
本明細書には、機械学習アプリケーション用のデジタルオブジェクトライブラリ管理システムおよび方法の実施形態が記載される。実施形態機械学習アプリケーション用のデジタルオブジェクトライブラリ管理システムおよび方法は、何十万から何十億ものトレーニングおよびテスト例を考慮して管理する必要がある「ビッグデータ」環境において、教師あり機械学習を実行する課題に取り組む。上で述べたように、これは歴史的には、トレーニング計算リソースと比べて、トレーニングデータが限られていた環境で通常、動作していた機械学習にとって、新体制である。実施形態によれば、ユーザーは、トレーニングサンプルの偏りを理解し、制御することも可能になる。トレーニングサンプルの偏りを明らかにし、管理することによって、実施形態によれば、ユーザーは特定の動作環境に分類器を調整し、または多種多様の動作環境にわたって適用可能なバランスのとれた分類器を構築することが可能となる。さらに、実施形態によれば、ユーザーは、トレーニングおよびテストセットメンバの品質基準を強化し、分散分析(distributed analytic)を用いて新たなメタ特徴を構築することが可能となる。
機械学習アプリケーション用のデジタルオブジェクトライブラリ管理システムおよび方法は、データベースおよびコンピュータ処理環境を用いた大規模なデータセットに基づく教師あり、または半教師あり機械学習に基づく分類モデルを効率的に管理、開発、および評価するためのメカニズムを提供する。言いかえれば、実施形態は、機械学習アプリケーションとともに用いられる分類器または分類モデルをトレーニングするために用いられる。実施形態は、機械学習プロセスで用いられるデジタルオブジェクトの仮想ライブラリを管理し、トレーニングおよびテストセットを自動的に構築するのを助け、モデル開発によって生じたアーチファクトの構成管理(configuration management)を実行し、モデル性能評価を可視化する。機械学習アプリケーション用のデジタルオブジェクトライブラリ管理システムおよび方法の1つの実施は、マルウェア検知用の分類器の構築の管理に関係する。そのような分類器は、2013年9月26日に出願された「System and Method for Automated Machine-Learning, Zero-Day Malware Detection」というタイトルの米国特許出願番号第14/038, 682(「’682特許」)に記載されたものであってもよく、参照によりその全体が本明細書に組み込まれる。
デジタルオブジェクトライブラリ管理システムの実施形態によって処理され、管理されるデジタルオブジェクトは、一般に固定長の2進シーケンスによって表されるものであってもよい。本明細書に記載された実施形態において、デジタルオブジェクトはバイナリブロブ;すなわち、構造のないビット列のレポジトリである。一般に、デジタルオブジェクトライブラリ管理システムの実施形態に用いられるオブジェクトには2種類ある:コンテンツブロブとメタデータブロブである。一般的にいえば、コンテンツブロブ、またはオブジェクトは、ファイルであり、一方、メタデータブロブ、またはオブジェクトは、関連したコンテントブロブを記載する情報を含む。例えば、メタデータオブジェクトは、コンテンツファイル、複数のコンテンツファイル、または1以上のその他のメタデータオブジェクトについての情報を含むXMLファイルであってもよい。メタデータオブジェクトは一般に、コンテンツオブジェクトを参照または指し示す情報(例えば、ポインタ)を含み、メタデータオブジェクトはコンテンツオブジェクトと関連付けられている(すなわち、メタデータオブジェクトがコンテンツオブジェクトを記述する)。
機械学習プロセスに用いられ、それゆえデジタルオブジェクトライブラリ管理システムの実施形態によって提供されるライブラリに記憶される特定タイプのデジタルコンテンツオブジェクトは、デジタルオブジェクトライブラリ管理システムが用いられる機械学習プロセスまたはアプリケーションに依存する。例えば、’682出願に記載されているような機械学習プロセスとともに用いられるデジタルコンテンツオブジェクトは、PE32ファイル、Linux実行ファイル、音声ファイル、文書ファイル、ビデオ映像等であってもよい。画像認識機械学習プロセスで用いられるコンテンツオブジェクトは、画像ファイルであってもよい。言いかえれば、デジタルオブジェクトライブラリ管理システムの実施形態によってライブラリに記憶されたコンテンツオブジェクトは、実質上いかなるタイプのファイルであってもよい。
コンテンツオブジェクトに関連付けられたデジタルメタデータオブジェクト内に含まれる情報は、デジタルオブジェクトライブラリ管理システムが用いられる機械学習プロセスまたは出願にも依存しうる。例えば、’682出願に記載されているような機械学習プロセスとともに用いられる実施形態において、メタデータオブジェクトは、コンテンツオブジェクトファイルが悪質または安全であったか、コンテンツオブジェクトファイルが特定のトレーニングまたは評価リストに属していたか否か、評価が評価リストのメンバであるなら、その評価結果がどうだったのか、およびその他の関連情報を示す情報を含むものであってもよい。いくつかの実施形態において、メタデータオブジェクトは、抽出された特徴(例えば、n−gram、ヘッダフィールド値、length)を含むものであってもよい。画像認識プロセスとともに用いられる実施形態において、メタデータオブジェクトは、画像の特徴を含むものであってもよい。上で述べたように、デジタルメタデータオブジェクトは、1以上のデジタルコンテンツオブジェクトおよび/または1以上のデジタルメタデータオブジェクトと関連付けられたもの、または関連するものであってもよい。
オブジェクトのソースは、一般にアプリケーションの性質に依存し(例えば、マルウェア検知は画像処理等とは大きく異なりうる)、1つのアプリケーションがライブラリに入力する多くのソースを有するものであってもよい。
機械学習アプリケーション用のデジタルオブジェクトライブラリ管理システムおよび方法の実施形態によって、ユーザーはオブジェクトメタデータフィールドおよび意味関係を用いた(例えば、何千万もの)ラベルありデジタルオブジェクトの非常に大きなライブラリからの教師あり機械学習プロセスで利用されるトレーニングおよびテストセットを構築することも可能になる。実施形態は、全ライブラリオブジェクト、トレーニングおよびテストセット、分類器モデルおよびテスト結果に対する構成およびバージョン管理も維持する。
実施形態において、機械学習アプリケーション用のデジタルオブジェクトライブラリ管理システムおよび方法は、いくつかの既存技術を統合して教師あり機械学習用の「ビッグデータ」を管理する問題を解決する。第1に、実施形態は、トレーニングおよびテストサンプルメタデータおよび意味関係を管理するデジタルオブジェクトレポジトリを組み込む。第2に、実施形態は、分散分析を実行すべきクラウドストレージソリューションを提供する。第3に、実施形態は、機械学習プロセス内のトレーニングバイアスを制御する際にユーザーを支援するように調整されているグラフィカルユーザーインターフェース(GUI)を含む。最後に、実施形態は、サンプルストレージおよびメタデータを結び付け、分類器および結果構成管理システムを処理する。
これは、トレーニングおよびテストサンプルメタデータを検索可能な、拡張可能なデータベースに入力するため、ファイルパス名内のトレーニングおよびテストサンプルメタデータを記憶することから離れることによって既存技術を改良する。実施形態は、機械学習およびテストプロセスを自動化する。また、実施形態は、スプレッドシートから構成管理関数を自動化されたサービスに移動する。自動化レベルの上昇により、ユーザーは機械学習ソリューションを開発し、維持することにおいて、エラーと時間を減らすことができる。
図1を参照して、機械学習アプリケーション用のデジタルオブジェクトライブラリ管理システム100の例となるアーキテクチャを例示するブロック図を示す。システム100の実施形態は、3つ(3)のサブシステム:中央の、デジタルオブジェクトライブラリ管理システム(DOLMS)サーバー102;テストおよびトレーニングクラスタのコンピュータ(本明細書では、テストクラスタ104およびトレーニングクラスタ106として示される);およびストレージクラスタのコンピュータ108を含む。DOLMSサーバー102は、デジタルオブジェクトレポジトリ(DOR)ソフトウェア112、グラフィカルユーザーインターフェース(GUI)ソフトウェア114、データベースソフトウェア116、および分散分析モジュール118を含む、システム100のいくつかの機能の構成要素をホストするものであってもよい。DORソフトウェア112は、例えば、FeDORa Commons(登録商標)DORとして実行してもよいし、ストレージクラスタ108と通信するためFeDORa Akurba(登録商標)を含むものであってもよい。GUIソフトウェア114は、DOLMSサーバー102の、例えば、Tomcat(登録商標)ウェブサーバー120の構成要素によってホストされた、例えば、Django(登録商標)ウェブアプリケーションであってもよい。データベースソフトウェア116は、例えば、PostgreSQLデータベースとして実行するものであってもよい。分散分析モジュール118は、例えば、分散Pig(登録商標)分析モジュールとして実行するものであってもよい。DOLMSサーバー102およびその構成要素は、相互に通信、および、例えば、EULFeDORaメッセージ、HTTP、Map/ReduceメッセージおよびAkubra HDFSメッセージを用いたその他のシステム100のコンポーネントと通信するものであってもよい。いくつかのインスタンス化において、DOLMSサーバー102機能は、単一のコンピュータシステム上でホストされるものであってもよい(例えば、DOLMSサーバー102は、自己完結ボックスとして実行するものであってもよい)あるいは、複数のコンピュータシステム(例えば、ハードウェアサーバーまたは仮想マシン)にわたって分散するものであってもよい。
DOR112は、ストレージクラスタ108とインターフェースを有し、システム100およびユーザーがデジタルオブジェクトのライブラリにアクセスし、管理することを可能にする。DOR112は、FOXMLメタデータストアなどの、メタデータストアを含むものであってもよい。DORは、デジタル情報を管理しうるソフトウェアシステムの基礎を提供するデジタル情報について一組の抽象化(abstraction)を利用する概念フレームワークである。メタデータは、データベース内に記憶されないが、検索用にインデックスされる。データは、アクセスポイント(生のビットストリームを含む、仮想データ表示)を通してアクセスされる。各アクセスポイントはURIを有する。カスタムアクセスポイントを作成しうる。DORは、デジタルオブジェクト間のデジタルオブジェクト関係(意味グラフ)の作成を支援する。一例:<is a member of the collection><hasMetadata>。単純なRDFスキーマが用いられる。オブジェクト対オブジェクトの関係が特別なデータストリーム内のデジタルオブジェクトにメタデータとして記憶される。
図1を続けて参照し、テストおよびトレーニングクラスタは、1つの、複合コンピュータシステムまたは別々のテストクラスタ104およびトレーニングクラスタ106としてインスタンス化されるものであってもよい。テストおよびトレーニングクラスタ(例えば、別々のテストクラスタ104およびトレーニングクラスタ106)は、分散して機械学習モデルの生成およびモデルテストおよび評価を実行するために用いられる1以上の仮想および物理コンピュータシステムとして実施するものであってもよい。テストおよびトレーニングクラスタの各要素は、トレーニングおよび時間を減らすべく、オブジェクトのローカルストア、またはキャッシュを維持するものであってもよい。テストおよびトレーニングクラスタは一種の機械学習モデルの構築のためのロジックを含み、提供する。例えば、テストおよびトレーニングクラスタは、’682出願に記載された機械学習アルゴリズムおよび技術ごとに機械学習モデルの構築を支援するロジックを含むものであってもよい。システム100は、それに伴う複数のテストおよびトレーニングクラスタを含み、それぞれ1以上の種類の機械学習技術用のロジックを含み、または支援するものであってもよい。このようにして、システム100は、複数の機械学習モデルの構築を支援するものであってもよい。一実施形態において、テストクラスタ104は、複数のテスト仮想マシン(VM1,VM2,VM3…)を含む仮想テストクラスタとして実施するものであってもよい。各テスト仮想マシンは、図のようにファイルキャッシュを含むものであってもよい。トレーニングクラスタ106は、ローカルファイルキャッシュを含む、例えば、Bare metal trainerとして実施するものであってもよい。
ストレージクラスタ108は、レポジトリ内のデジタルオブジェクトと関連付けられたデジタルコンテンツおよびメタデータを記憶する1以上のマシンで実行するものであってもよい。実施形態において、ストレージクラスタ108は、HDFS/Hadoopクラウドとして実施するものであってもよい。このような実施形態は、複数のノード:例えば、ネームノードおよび複数のワーカーノード(例えば、1…n)を含むものであってもよい。Hadoopクラウドは、DOR112用のストレージバックエンドだが、分析モジュール118(例えば、Pig分析モジュールを含む)に直接アクセス可能でもある。分析モジュール118は、DOR112によって管理されたデジタルメタデータオブジェクトを作成するものであってもよい。ストレージクラスタ108は、機械学習プロセスで用いられることを目的としたデジタルオブジェクトのライブラリを記憶し、提供する。このライブラリは、デジタルオブジェクトおよび(デジタルオブジェクトとして記憶されるものであってもよい)関連メタデータのコレクションを含む。実施形態において、ストレージクラスタ108は、図のようにクラウドストレージとして実施される。DOLMSサーバー102上のローカルストレージは、いくつかのインスタンス化において、ストレージクラスタ108の代わりをするものであってもよい。
システム100アーキテクチャは、共有されたソフトウェアレポジトリ122を含むものであってもよい。実際、システム100は、特にインスタンス化および実行のために必要とされるその他のコンポーネントを含むものであってもよい。図1は、1つの可能なアーキテクチャの実行を例示する。
実施形態において、システム100は、全てのハードウェアの構成要素に必要とされるソフトウェアの構成要素をコピー、インストール、構成およびアップデートするための機構を備えるものであってもよい。
図1を続けて参照し、DOR112は、システム100にロードされ、または作成された全てのデジタルオブジェクトの構成管理を追跡し、維持する。さらに、DOR112は、データベース116内のデジタルオブジェクト間の意味関係の知識を記憶する。DOR112は、ユーザーによって探索(search)および検索(retrieval)に使用可能なオブジェクトおよびそれらの関連メタデータおよび意味関係を作成する。実施形態において、DOR112は、外部のデータベース、記憶装置、サーチエンジンおよびウェブサーバーと情報をやりとりするアプリケーションプログラミングインターフェース(APIs)を有する。インスタンス化は、特定のデータベース、記憶装置、サーチエンジンおよびウェブサーバーの利用に応じて変わるものであってもよい。
GUI114は、ユーザーがDOR112を構成し、DOR112内のオブジェクトを管理し、DOR112を探索し、テストおよびトレーニングクラスタ(例えば、トレーニングクラスタ106およびテストクラスタ104)上で機械学習のトレーニングおよびテストを開始し、テストおよび評価結果を見ることを可能にする。実施形態において、GUI114は、ユーザーのウェブブラウザを介してアクセス可能なアプリケーションであり、DOLM102のウェブサーバー120の構成要素によって提供される。GUI114は、DOR112およびデータベース116と連動して、システム100上でユーザーアカウントおよび権限を管理(作成、編集、および消去)するために用いるものであってもよい。
図1を続けて参照し、実施形態において、分散解析モジュール118は、1以上のデジタルオブジェクト(コレクションと呼ぶ)について、新たな情報を生成するため、ユーザーによって拡張可能で、ストレージクラスタ108内のデジタルオブジェクトにわたって動作する、一組のソフトウェアプログラムである。分析モジュール118は、デジタルオブジェクトのコレクション内のコンテンツ、メタデータまたは意味関係を作成、読み取り、編集し、または削除するものであってもよい。分析モジュール118は、ライブラリ内のデジタルオブジェクトについて、新たなメタデータストリームを作成し、または既存のメタデータを編集するものであってもよい。例えば、分析モジュールは、特定のバイト列の発生の回数を計算し、その結果を新たなメタデータストリームとして記憶するものであってもよい。別の例において、分析は、類似の測定基準(metric)を用いて関連デジタルオブジェクトを特定し、関係メタデータを編集して、この分析結果を反映するものであってもよい。分析モジュール118は、オンデマンドまたは定期的に実行するように構成されるものであってもよい。
分析モジュール118は、例えば、Hadoop(登録商標)に例示されたMapReduceパラダイムを用いて構成し、分散ストレージクラスタ108の多重(multiple)ノードにおいて同時に実行することを可能にするものであってもよい。例えば、分析モジュール118は、Pig分析モジュール118として実行するものであってもよい。Pig分析モジュール118は、ファイルロードおよびファイル上で実行する拡張可能な分析スクリプトを含むものであってもよい。マルウェア分析アプリケーションにおいて、分析モジュール118は、ファイルの類似の、または再利用された部分を発見するように試みるものであってもよい。Hadoopは、Apacheによって提供された分散コンピューティングフレームワークである。Hadoopは、コモディティハードウェアから構築されたコンピュータクラスタ上の非常に大きなデータセット(ビッグデータ)の分散ストレージおよび分散処理用の一組のアルゴリズムを提供する。Haddopの2つの主要な構成要素は、ストレージコンポーネント(Hadoop分散ファイルシステム(HDFS))および処理コンポーネント(MapReduce)である。Hadoopは、ファイルを大きなブロック(例えば、64MBまたは128MB)に分割し、当該ブロックをストレージクラスタ108内のノードに分配する。データを処理するため、Hadoop Mapreduceは、必要なデータを有するストレージクラスタ108内のノードであって、前記データを並列に処理するノードにコードを転送する。H−baseなどの、分散データベースは、Hadoopと連動して実行することで、小さなファイルオブジェクトへのアクセスを改善するものであってもよい。この方法は、計算およびデータが高速ネットワークによってつながった並列ファイルシステムに依存する従来のスーパーコンピュータアーキテクチャを用いるよりも、データの局所性を活用して、分散処理によって、より早く、より効率的にデータを処理する。
本明細書に記載された機械学習アプリケーション用のデジタルオブジェクトライブラリ管理システム100の実施形態は、教師あり機械学習の分類器モデルの制御された構築および評価用に用いられる。分類器モデルは、モデルによって定義されたオブジェクトクラスの一つへの未知のインスタンスの割り当てをもたらす判定ロジックを含む。判定ロジックは、オブジェクト内の一組の特徴に基づく。特徴の定義および選択/縮小はトレーニングプロセスの一部として動的に発生するものであってもよく、またはトレーニング前にユーザーによって静的に定義されるものであってもよい。機械学習アプリケーション用のデジタルオブジェクトライブラリ管理システム100は、一組のラベルありトレーニングインスタンス、すなわち、教師あり機械学習に基づくが、機械学習のいかなる個別のタイプ(individual ro type)に特有でなく、または当該タイプに限定されない分類器モデルの開発に用いられるものであってもよい。教師あり、または半教師あり機械学習用の多くの異なるアルゴリズムおよびプロセスがシステム100の実施形態内で用いられるものであってもよい。システム100の実施形態は、トレーニングおよびテストクラスタ内の教師あり機械学習に1以上の方法を組み込むものであってもよい。
図1を続けて参照し、ユーザーはGUI114を介して、またはDOR API(図示せず)を介してデジタルオブジェクトをDOR112にアップロードするものであってもよい。例えば、GUI114は、ユーザーにローカルマシン、ネットワーク、ネットワークシステムまたはその他のソース上に常駐するデジタルオブジェクトを選択可能にするものであってもよい。あるいは、DOR APIは、既知の記憶場所内のデジテルオブジェクトを検出して、アップロードするものであってもよい。オブジェクトメタデータは、例えば、DOR112によって、ingest上で関連して構築され、例えば、DOR112によって、新たに、アップロードされたデジタルオブジェクトで構築される。オブジェクトメタデータは、本明細書に記載されたようなアップロードされたデジタルオブジェクトに(例えば、ポインタによって)リンクした別個のオブジェクトとして記憶するものであってもよい。共通のメタデータフィールドは、機械学習用のコンテンツおよび特徴に関連したオブジェクトの作成、ingest時間、ソース、既知の分類、オブジェクトのサイズおよび質の測定を含む。メタデータは、デジタルオブジェクト間の関係に関する情報を含むものであってもよい。メタデータは、例えば、GUI114により、または自動化決定に基づき、ユーザーの入力に基づき構築するものであってもよい。既存のデジタルオブジェクトは、必要なら、DOR APIを介して加えられるそれらのメタデータを有するものであってもよい。サンプルファイルは、GUI114を通じてアップロードされ、テストリストオブジェクトと手動で関連づけられるものであってもよい。オブジェクトコンテンツおよびメタデータはいずれも、ストレージクラスタ108内に記憶される。
全クラスのオブジェクトがライブラリに加えられたときに、教師あり機械学習プロセスを開始するものであってもよい。教師あり機械学習プロセスは、機械学習プロセスで用いられたモデルを構築して検証し、既知のオブジェクトを1以上のカテゴリに分類する。教師あり機械学習プロセスにおいて、ユーザーは、メタデータに基づき、クエリ(例えば、SQLクエリ)を構築し、GUI114を用いてトレーニングおよびテストセットプロパティを設定する。トレーニングおよびテストセットプロパティは、クラス間のエントリーのセットサイズおよび望ましいディストリビューションなどの要素を含む。Complexクエリは、オブジェクトメタデータの値に基づき、トレーニングおよびテストセットメンバシップを限定するために用いられる。例えば、ユーザーは、特定の日付(例えば、DATE >= 01012014)の後で作成され、ユーザーの企業(例えば、SOURCE ! = My Company)から供給されたものでなく、安全および悪質なサンプルが均等に混合したものを含む(例えば、BENIGN_RATIO == 0.5)特定のファイルタイプ(例えば、filetype == PDF)のオブジェクトを選択するクエリを生成することによってトレーニングリストを作成することを望むものであってもよい。作成されたトレーニングおよびテストセットは、DOR112内に入力され、当該セットおよびそれらの構成メンバオブジェクト間で意味関係が作成される。
テストおよびトレーニングセットがいったん構築されると、ユーザーは、トレーニングおよびテストクラスタ上(例えば、トレーニングクラスタ106上)で分類器の生成を開始することができる。代表的な実行において、ストレージクラスタ108から適切なオブジェクトをコピーし、それらをトレーニングクラスタ106のノード(図示しないノード)に設定するためにトレーニングリストが用いられる。あるいは、トレーニングクラスタ106のノードは、ストレージクラスタ108からのトレーニングオブジェクトにアクセスできるものであってもよい。使用される特定の機械学習技術(例えば、’682出願を参照)に応じてトレーニングを実行するものであってもよい。システム100は、複数の機械学習のアルゴリズムまたは技術を含むものであってもよい。ユーザーは、システム100に組み込まれたさまざまな機械学習アルゴリズムから選択するものであってもよい。そのような機械学習アルゴリズムの例は、’682出願に記載されたアルゴリズムの他、その他の単純ベイズ、決定木、ランダム森、および人工の神経ネットワークアルゴリズムも含む。トレーニングがいったん完了すると、トレーニング分類器およびトレーニングリストおよびその中のオブジェクト間で意味関係が設定されて、DOR112に結果のモデル/分類器が入力される。意味関係は、<memberOf>、<derivedFrom>、<similarTo>または<contains>に似た形式の分野として、オブジェクトメタデータ内に示すものであってもよい。
複数のモデル/分類器を同時にトレーニングするものであってもよく、集合分類器または分類器バンドルにまとめるものであってもよい。生成される1以上の分類器を、複数のコンピュータ上で同時に生成するものであってもよい。その後、テストセットを用いて分類器を評価するものであってもよい。テストセットは、トレーニングセットからデジタルオブジェクトを含む、または含まないものであってもよい。システム100は、複数のコンピュータ上の分類器を同時にテストするものであってもよい。評価結果がいったん出たら、DOR112内の分類器のメタデータは、分類器およびテストリストおよびその中のオブジェクト間で意味関係が設定されて更新される。
その後、ユーザーは、GUI114を介して結果にアクセスして、分類器を検索し、テスト結果を見て、トレーニングリストを編集するものであってもよい。さらに、GUI114は、データソースによって、ブレイクアウトを示すライブラリの全コンテンツに関する統計を提供するようにしてもよい。実施形態において、GUI114は、認定された外部のパーティーからのウェブポータルを介してデジタルオブジェクトの寄与(contributions)を促進させる。
実施形態において、デジタルオブジェクトライブラリ管理システム100は、機械学習モデルの構築および維持を支援し、悪質なソフトウェアから安全なソフトウェアを分類するために用いられるものであってもよい。多数の既知の安全および悪質なソフトウェアがライブラリ内に(例えば、ストレージクラスタ108内に)記憶される。トレーニングまたはテストセット内に含まれるかどうかを判定すべき各ファイルについて、メタデータを用いてファイルタイプ単位で分類器を生成するものであってもよい。分類器は管理され、新たなサンプルを収集すると、時間とともにアップデートされる。分類器が生成されると、テスト結果を検討して適切なパフォーマンスを確保するか、または新たな学習のメカニズム、特徴セットもしくは特徴選択アルゴリズムをテストする。
図2を参照して、トレーニングおよびテスト機械学習モデル用の方法200の実施形態を例示するフローチャートが示される。方法200は、図1に例示されるシステム100など、機械学習アプリケーション用のデジタルオブジェクトライブラリ管理システムの実施形態によって、および当該実施形態を用いて実装(implement)または実行(execute)するものであってもよい、機械学習アプリケーション用のデジタルオブジェクトライブラリ管理用の方法である。方法200は、ストレージクラスタ108内に記憶するものであってもよい、ライブラリに、複数の機械可読なデジタルオブジェクトを投入する、ブロック202。デジタルオブジェクトは、選択して、上述のように、GUI114および/またはDOR APIを用いて、ライブラリ内に(例えば、ストレージクラスタ108内に)アップロードするものであってもよい。実施形態において、デジタルオブジェクトは、ファイル(例えば、P32ファイル、実行ファイル、音声ファイル、文書ファイル、画像ファイル等)などの、コンテンツオブジェクトである。投入されたライブラリ内のデジタルオブジェクトは、追加の機械可読なデータ、例えば、デジタルオブジェクトおよびデジタルオブジェクト間の関係について、またはその他の方法でデジタルオブジェクトおよびデジタルオブジェクト間の関係を記述するメタデータを含むように修正されるものであってもよい、ブロック204。メタデータを含むべくデジタルオブジェクトの修正204は、ライブラリへの投入202による1以上のデジタルコンテンツオブジェクトと関連付けられているデジタルメタデータオブジェクトを作成するシステム100を含むものであってもよい。あるいは、修正204は、DOR112インターフェースを利用するか、またはその利点を活用するものであってもよい。さらなる代替として、投入202は、ストレージクラスタ108内へのデジタルメタデータオブジェクトの作成および記憶を含むものであってもよく、修正204は、既に存在するデジタルメタデータオブジェクトの編集/修正を含むものであってもよい。いずれにせよ、受け付けたユーザーの入力(例えば、GUIを通じて受け付けた)に基づき、システム100によって修正204を実行するものであってもよい。図3を参照して、システム100の実施形態を用いて作成されたメタデータを有するデジタルオブジェクトの一例が示される。
ライブラリへの投入202および追加の記述データを含むオブジェクトの修正204がいったんなされたら、方法200は、1以上のカテゴリに未知のオブジェクトを分類するために用いられるモデルの構築および検証用のオブジェクトリストを生成するものであってもよい、ブロック206。生成されたリストは、投入されたライブラリからオブジェクトのトレーニングリストおよびテストリストを含むものであってもよい。例えば、トレーニングリストの生成(構築)、その後、検証(テストまたは評価)リストの生成のように、別々の手順でリストの生成206を行うものであってもよい。GUI114を通じてなされたユーザーの選択および入力に基づき、リストの生成206を行うものであってもよい。例えば、GUI114へのユーザーの入力に基づき構築されているクエリに基づき、リストの生成206を行うものであってもよい、ブロック208。これらのクエリは、SQLまたはSQL状のクエリステートメントの形式であってもよい。
方法200は、1以上の機械学習モデルまたはトレーニング分類器の生成を開始するものであってもよい、ブロック210。例えば、構築(トレーニング)リストおよびトレーニングクラスタ106を用いて、機械学習モデルを生成するものであってもよい。それゆえ、システム100および方法200は、1以上のモデルを生成するものであってもよい。トレーニングクラスタ106は、特定の機械学習アルゴリズムおよび技術ごとに機械学習モデルを生成するのに必要なソフトウェアコード(命令)を含むものであってもよい。モデルは、特定のタイプ(例えば、PDF、Windows実行ファイル、Linux実行ファイル、Microsoft Officeファイル)の(またはそうでない可能性より特定のタイプである可能性が高い)(トレーニングリストに記載された)デジタルオブジェクトを含むものであってもよい。単一のコンピュータで、または複数のコンピュータ上で同時に、機械学習モデルを生成するものであってもよい。これは、単一のコンピュータまたは複数のコンピュータにわたってインスタンスを作成されたトレーニングクラスタ106によって行われるものであってもよい。
図2を続けて参照し、機械学習モデルが生成された後、方法200は、1以上の機械学習モデルのテストまたは評価を開始するものであってもよい、ブロック212。機械学習モデルは、例えば、検証(テスト/評価)リストおよびテストクラスタ104を用いてテストするものであってもよい。それゆえ、システム100および方法200は、1以上のモデルをテストするものであってもよい。テストクラスタ104は、特定の機械学習アルゴリズムおよび技術ごとに機械学習モデルをテストするために必要なソフトウェアコード(命令)を含むものであってもよい。テストは、特定のタイプ(例えば、PDF、Windows実行ファイル、Linux実行ファイル、Microsoft Officeファイル)であることが分かっているデジタルオブジェクトを用いて、決定するものであってもよい。評価用に用いられるデジタルオブジェクトは、例えば、デジタルオブジェクトライブラリ管理システムを用いるユーザーによって選択された、テストリストからのものであってもよい。単一のコンピュータで、または複数のコンピュータ上で同時に、1以上の機械学習モデルをテストするものであってもよい。これは、単一のコンピュータまたは複数のコンピュータにわたってインスタンスを作成されたテストクラスタ104によって達成されるものであってもよい。機械学習モデルを評価するとき、システム100は、評価結果を生成するものであってもよい。GUI114を通じてユーザーに表示されることもある、評価結果は、機械学習モデルの効果(例えば、モデルが正確にサンプルのクラスを予測できるか否か)を示す。
方法200はまた、モデル、オブジェクトリスト、評価結果およびこれらのデジタルオブジェクト間の関連を記憶するものであってもよい、ブロック214。モデル、オブジェクトリスト、評価結果およびこれらの関連は、ストレージクラスタ108内への記憶214であってもよい。そのような項目は、例えば、さまざまなオブジェクトリスト(例えば、トレーニングリストまたは評価リスト)内のデジタルオブジェクト(すなわち、constantオブジェクト)を指し示し、一緒に関連付ける情報、評価リスト内の既定のデジタルオブジェクトの評価結果を示す情報等を含むメタデータデジタルオブジェクトの利用を通じて記憶するものであってもよい。方法200は、オブジェクトメタデータ、オブジェクトリスト、関連情報および評価結果の画像表示も生成するものであってもよい、ブロック216。ウェブサーバー120は、画像表示を生成するものであってもよい。生成216による画像表示は、例えば、ユーザーのワークステーション上でユーザーにGUI114によって表示されるものであってもよい。方法200は、デジタルオブジェクトのライブラリにわたって分散可能なアルゴリズムを実行させるものであってもよい。例えば、方法200は、デジタルオブジェクトのライブラリにわたってmap/reduceアルゴリズムの実行218を行うものであってもよい。Map/reduceアルゴリズムは、デジタルオブジェクト(例えば、コンテンツオブジェクト)間の関係を探索し、当該オブジェクトのサブセットについてメタデータを生成し、またはオブジェクトのライブラリについて統計を作成するものであってもよい。Map/reduceアルゴリズムは、複数の物理サーバー上でのライブラリの物理的な分散を活用して、分析時間を減らす。
図4を参照して、機械学習アプリケーション用のデジタルオブジェクトライブラリ管理システムの実施形態の例示となるコンピュータシステムの構成要素が示される。サーバー400は通常、メモリ402、二次記憶装置404、プロセッサ406、ネットワーク接続408を含む。システム400は、GUIおよびその他のインターフェースを表示するための(図示しない)ディスプレイを含むものであってもよい。メモリ402は、RAMまたは類似の種類のメモリを含むものであってもよく、プロセッサ406による実行用の1以上のアプリケーション(例えば、DOLMSサーバーおよびそのDOR、GUI、データベースおよび分散分析モジュール、テストおよびトレーニングクラスタおよびストレージクラスタを提供するために必要なアプリケーション)をホストまたは記憶するものであってもよい。二次記憶装置404は、アプリケーションをより永続的に記憶するハードディスクドライブまたはその他の種類の非揮発性のデータストレージを含むものであってもよい。プロセッサ406は、メモリ402または二次記憶装置404内に記憶された、またはインターネットもしくはその他のネットワークから受信したアプリケーションを実行する。ネットワーク接続408は、ネットワークまたは外部装置への接続(例えば、USBまたはイーサネット接続)用のいかなる種類の接続を含むものであってもよい。
サーバー400は、例えば、アプリケーションに必要な、またはアプリケーションによって用いられる情報を記憶し、維持するために、二次記憶装置404内のデータベースを記憶するものであってもよい。また、プロセッサ406は、特に、上述の方法において、本明細書に記載された機能を提供するために1以上のソフトウェアアプリケーションを実行するものであってもよく、コンピュータまたはその他のマシンによって実行するための、ソフトウェアモジュールなどの、ソフトウェア内で処理を行うものであってもよい。前記処理は、上述のGUI114などの、ウェブページおよびその他のGUIを提供し、支援するものであってもよい。GUIは、例えば、ハイパーテキスト・マークアップ言語(HTML)、拡張マークアップ言語(XML)またはその他のディスプレイ装置上の提示のための、いかなる適切な形式のウェブページとして、フォーマットされるものであってもよい。
サーバー400は、さまざまな構成要素で表現されているが、当業者は、サーバーが追加の、または異なる構成要素を含みうることを十分に理解するであろう。また、以上と一致する実行の態様は、メモリに記憶されているものと記載されているが、当業者は、これらの態様が、その他の種類のコンピュータプログラム製品または二次記憶装置などの、コンピュータ可読媒体に記憶され、または読み込まれうることも十分に理解するであろう。コンピュータ可読媒体は、サーバー400などの、コンピュータシステムを制御するための命令を含み、特定の方法を実行するものであってもよい。サーバー400は、本明細書に記載された機能および方法を実行することを目的としたブレードサーバーシステムの一部であってもよい。
当業者は、本発明の精神および範囲を逸脱することなく、さまざまな修正および変更が上述の実施形態になされることを十分に理解するであろう。それゆえ、本発明が上述の特定の実施形態に限定されないことが理解されるが、それは、以下のクレームによって規定される上記の修正および変更を含むことを意図している。

Claims (19)

  1. デジタルオブジェクトライブラリ管理システム、グラフィカルユーザーインターフェース、分散分析モジュール、および1以上のクラスタのコンピュータを用いた機械学習モデルのトレーニングおよびテストの管理方法であって、
    デジタルオブジェクトライブラリに多数の機械可読なデジタルオブジェクトを投入し;
    前記デジタルオブジェクトを修正して前記デジタルオブジェクトまたはその他のデジタルオブジェクトおよび既存のデジタルオブジェクト間の関係について追加の機械可読なデータを含め;
    未知のオブジェクトを1以上のカテゴリに分類するために用いられる機械学習モデルの構築および検証用のオブジェクトリストを生成し;
    クエリを構築してオブジェクトリストを生成し;
    未知のオブジェクトを1以上のカテゴリに分類するために用いられる1以上の機械学習モデルが生成される、モデル生成を開始し;
    モデル評価を開始し;
    モデル、オブジェクトリスト、評価結果、およびこれらのオブジェクト間の関連を記憶し;
    オブジェクトメタデータ、リスト、関連情報、および評価結果の画像表示を生成し;そして
    前記デジタルオブジェクトのライブラリにわたって分散可能なアルゴリズムを実行すること:
    を含む方法。
  2. 前記デジタルオブジェクトメタデータの修正は、分散可能なアルゴリズムを用いて実行される、請求項1に記載の方法。
  3. 前記システムは、悪質なコンピュータ可読ファイルから安全なコンピュータ可読ファイルを区別する目的で分類器の生成を管理するために用いられる、請求項1に記載の方法。
  4. 前記モデル生成は、複数のコンピュータ上で同時に実行される、請求項1に記載の方法。
  5. 前記モデル評価は、複数のコンピュータ上で同時に実行される、請求項1に記載の方法。
  6. 前記分散可能なアルゴリズムは、Map/Reduceを含む、請求項1に記載の方法。
  7. 分類用に用いられる前記モデルは、教師あり機械学習アルゴリズムによって生成される、請求項1に記載の方法。
  8. 一クラスタのコンピュータが、モデルのトレーニングおよびテスト用に用いられ、別の一クラスタが、データ記憶用に用いられる、請求項1に記載の方法。
  9. 前記デジタルオブジェクトの修正は、前記デジタルオブジェクトについてのユーザー入力の受け付けを含む、請求項1に記載の方法。
  10. 前記オブジェクトリストを生成する構築クエリは、前記クエリを構築すべきユーザーの選択の受け付けを含む、請求項1に記載の方法。
  11. 前記デジタルオブジェクトの修正は、前記デジタルオブジェクトまたはその他のデジタルオブジェクトおよび既存のデジタルオブジェクト間の関係について追加の機械可読なデータを含む1以上のメタデータデジタルオブジェクトの生成を含む、請求項1に記載の方法。
  12. 機械学習モデルのトレーニングおよびテスト用に用いられるデジタルオブジェクトライブラリ管理システムであって:
    機械学習モデルのトレーニングおよびテスト用に用いられるデジタルオブジェクトの記憶、作成および修正を管理するために用いられるデジタルオブジェクトライブラリ管理システム(DOLMS)サーバー、
    前記機械学習モデルのトレーニングおよびテスト用に用いられるテストおよびトレーニングクラスタのコンピュータ;および
    前記デジタルオブジェクトを1以上のデジタルオブジェクトライブラリ内に記憶するために用いられるストレージクラスタのコンピュータ
    を備え、
    前記DOLMSサーバーは:
    デジタルオブジェクトレポジトリ(DOR);
    グラフィカルユーザーインターフェース(GUI)ソフトウェア;
    データベース;および
    分散分析モジュール;
    をさらに含むシステム。
  13. テストおよびトレーニングクラスタは、別のテストクラスタおよびトレーニングクラスタを含む請求項12のシステム。
  14. 前記テストクラスタは、複数のテスト仮想マシンを含む仮想テストクラスタを含む請求項13に記載のシステム。
  15. 前記DORは、ユーザーの選択に基づきアップロードされたデジタルオブジェクトを受け付ける請求項12に記載のシステム。
  16. 前記DORは、前記ストレージクラスタ内の1以上のデジタルオブジェクトライブラリ内の前記デジタルオブジェクトを記憶する請求項15に記載のシステム。
  17. GUIソフトウェアは、ユーザーに表示されるGUIであって、当該GUIを通じて、ユーザーが機械学習モデルのトレーニングおよびテストに影響を及ぼし、前記DORを構築し、DOR内のオブジェクトを管理し、そして前記DORを探索する選択を行うGUIを生成する請求項12に記載のシステム。
  18. 前記分散分析モジュールは、1以上のデジタルオブジェクトについての新たな情報を生成するため、前記ストレージクラスタ内の前記デジタルオブジェクト上で動作する請求項12に記載のシステム。
  19. デジタルオブジェクトライブラリに多数の機械可読なデジタルオブジェクトを投入し;
    前記デジタルオブジェクトを修正して前記デジタルオブジェクトまたはその他のデジタルオブジェクトおよび既存のデジタルオブジェクト間の関係について追加の機械可読なデータを含め;
    未知のオブジェクトを1以上のカテゴリに分類するために用いられる機械学習モデルの構築および検証用のオブジェクトリストを生成し;
    クエリを構築してオブジェクトリストを生成し;
    未知のオブジェクトを1以上のカテゴリに分類するために用いられる1以上の機械学習モデルが生成される、モデル生成を開始し;
    モデル評価を開始し;
    モデル、オブジェクトリスト、評価結果、およびこれらのオブジェクト間の関連を記憶し;
    オブジェクトメタデータ、リスト、関連情報、および評価結果の画像表示を生成し;そして
    デジタルオブジェクトのライブラリにわたって分散可能なアルゴリズムを実行すること:
    によって、デジタルオブジェクトライブラリ管理システム、グラフィカルユーザーインターフェース、分散分析モジュール、および1以上のクラスタのコンピュータを用いた機械学習モデルのトレーニングおよびテストの管理方法を実行するための命令を含む有形のコンピュータ可読媒体。
JP2017546095A 2015-03-02 2015-08-05 機械学習アプリケーション用のデジタルオブジェクトライブラリ管理システム Active JP6929225B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021130858A JP7522705B2 (ja) 2015-03-02 2021-08-10 機械学習アプリケーション用の方法、コンピュータ読み取り可能な媒体、装置およびシステム。

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/635,711 US10977571B2 (en) 2015-03-02 2015-03-02 System and method for training machine learning applications
US14/635,711 2015-03-02
PCT/US2015/043828 WO2016140701A1 (en) 2015-03-02 2015-08-05 Digital object library management system for machine learning applications

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2021130858A Division JP7522705B2 (ja) 2015-03-02 2021-08-10 機械学習アプリケーション用の方法、コンピュータ読み取り可能な媒体、装置およびシステム。

Publications (2)

Publication Number Publication Date
JP2018514840A true JP2018514840A (ja) 2018-06-07
JP6929225B2 JP6929225B2 (ja) 2021-09-01

Family

ID=56848986

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2017546095A Active JP6929225B2 (ja) 2015-03-02 2015-08-05 機械学習アプリケーション用のデジタルオブジェクトライブラリ管理システム
JP2021130858A Active JP7522705B2 (ja) 2015-03-02 2021-08-10 機械学習アプリケーション用の方法、コンピュータ読み取り可能な媒体、装置およびシステム。

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2021130858A Active JP7522705B2 (ja) 2015-03-02 2021-08-10 機械学習アプリケーション用の方法、コンピュータ読み取り可能な媒体、装置およびシステム。

Country Status (4)

Country Link
US (2) US10977571B2 (ja)
EP (1) EP3265926A4 (ja)
JP (2) JP6929225B2 (ja)
WO (1) WO2016140701A1 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018097671A (ja) * 2016-12-14 2018-06-21 株式会社グルーヴノーツ サービス構築装置、サービス構築方法及びサービス構築プログラム
KR102102418B1 (ko) * 2018-12-10 2020-04-20 주식회사 티포러스 인공지능 솔루션을 테스트하는 장치 및 방법
KR20220077311A (ko) * 2020-12-01 2022-06-09 가천대학교 산학협력단 인공지능 모델 훈련 데이터셋의 관리방법
WO2023106264A1 (ja) * 2021-12-06 2023-06-15 444株式会社 システムおよび方法
JP7573617B2 (ja) 2020-01-23 2024-10-25 インターナショナル・ビジネス・マシーンズ・コーポレーション ニューラル・フロー・アテステーション
US12141704B2 (en) 2023-08-22 2024-11-12 International Business Machines Corporation Neural flow attestation

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10713594B2 (en) * 2015-03-20 2020-07-14 Salesforce.Com, Inc. Systems, methods, and apparatuses for implementing machine learning model training and deployment with a rollback mechanism
US10706970B1 (en) 2015-04-06 2020-07-07 EMC IP Holding Company LLC Distributed data analytics
US10505863B1 (en) 2015-04-06 2019-12-10 EMC IP Holding Company LLC Multi-framework distributed computation
US10515097B2 (en) 2015-04-06 2019-12-24 EMC IP Holding Company LLC Analytics platform for scalable distributed computations
US10791063B1 (en) 2015-04-06 2020-09-29 EMC IP Holding Company LLC Scalable edge computing using devices with limited resources
US10496926B2 (en) 2015-04-06 2019-12-03 EMC IP Holding Company LLC Analytics platform for scalable distributed computations
US10541936B1 (en) 2015-04-06 2020-01-21 EMC IP Holding Company LLC Method and system for distributed analysis
US10528875B1 (en) 2015-04-06 2020-01-07 EMC IP Holding Company LLC Methods and apparatus implementing data model for disease monitoring, characterization and investigation
US10860622B1 (en) 2015-04-06 2020-12-08 EMC IP Holding Company LLC Scalable recursive computation for pattern identification across distributed data processing nodes
US10509684B2 (en) 2015-04-06 2019-12-17 EMC IP Holding Company LLC Blockchain integration for scalable distributed computations
US10776404B2 (en) 2015-04-06 2020-09-15 EMC IP Holding Company LLC Scalable distributed computations utilizing multiple distinct computational frameworks
US10511659B1 (en) 2015-04-06 2019-12-17 EMC IP Holding Company LLC Global benchmarking and statistical analysis at scale
US10277668B1 (en) 2015-04-06 2019-04-30 EMC IP Holding Company LLC Beacon-based distributed data processing platform
US10812341B1 (en) 2015-04-06 2020-10-20 EMC IP Holding Company LLC Scalable recursive computation across distributed data processing nodes
US10425350B1 (en) 2015-04-06 2019-09-24 EMC IP Holding Company LLC Distributed catalog service for data processing platform
US10404787B1 (en) 2015-04-06 2019-09-03 EMC IP Holding Company LLC Scalable distributed data streaming computations across multiple data processing clusters
US10541938B1 (en) 2015-04-06 2020-01-21 EMC IP Holding Company LLC Integration of distributed data processing platform with one or more distinct supporting platforms
EP3329412A4 (en) * 2015-07-31 2019-01-23 Bluvector, Inc. SYSTEM AND METHOD FOR REFORMING AN IN SITU CLASSIFIER FOR IDENTIFYING MALWARE SOFTWARE AND HETEROGENEITY OF A MODEL
US10656861B1 (en) * 2015-12-29 2020-05-19 EMC IP Holding Company LLC Scalable distributed in-memory computation
AU2017300259A1 (en) * 2016-07-18 2019-02-14 Nant Holdings Ip, Llc Distributed machine learning systems, apparatus, and methods
US9942264B1 (en) * 2016-12-16 2018-04-10 Symantec Corporation Systems and methods for improving forest-based malware detection within an organization
US10374968B1 (en) 2016-12-30 2019-08-06 EMC IP Holding Company LLC Data-driven automation mechanism for analytics workload distribution
US10162741B2 (en) * 2017-01-24 2018-12-25 International Business Machines Corporation Automatically correcting GUI automation using machine learning
US10503908B1 (en) * 2017-04-04 2019-12-10 Kenna Security, Inc. Vulnerability assessment based on machine inference
JP7216021B2 (ja) * 2017-05-14 2023-01-31 デジタル リーズニング システムズ インコーポレイテッド 機械学習モデルを迅速に構築し、管理し、共有するためのシステム及び方法
US11182693B2 (en) * 2017-10-23 2021-11-23 International Business Machines Corporation Composable natural language lenses for collaborative streams
US11625597B2 (en) * 2017-11-15 2023-04-11 Canon Medical Systems Corporation Matching network for medical image analysis
US11562288B2 (en) 2018-09-28 2023-01-24 Amazon Technologies, Inc. Pre-warming scheme to load machine learning models
US11436524B2 (en) * 2018-09-28 2022-09-06 Amazon Technologies, Inc. Hosting machine learning models
US11443244B2 (en) * 2019-06-05 2022-09-13 International Business Machines Corportation Parallel ensemble of machine learning algorithms
US11625282B2 (en) * 2020-03-11 2023-04-11 Hewlett Packard Enterprise Development Lp Systems and methods of remote machine learning training with remote submission and execution through a coding notebook
US11588830B1 (en) * 2020-06-30 2023-02-21 Sequoia Benefits and Insurance Services, LLC Using machine learning to detect malicious upload activity
CN112100286A (zh) * 2020-08-14 2020-12-18 华南理工大学 基于多维度数据的计算机辅助决策方法、装置、系统及服务器
US11238016B1 (en) 2020-08-24 2022-02-01 Cigna Intellectual Property, Inc. Systems and methods for automated data integration
US20230017384A1 (en) * 2021-07-15 2023-01-19 DryvIQ, Inc. Systems and methods for machine learning classification-based automated remediations and handling of data items
CN114510519A (zh) * 2022-01-25 2022-05-17 北京航天云路有限公司 一种基于工业大数据模型的可视化分析方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002133389A (ja) * 2000-10-26 2002-05-10 Nippon Telegr & Teleph Corp <Ntt> データ分類学習方法、データ分類方法、データ分類学習器、データ分類器、データ分類学習プログラムを記録した記憶媒体、データ分類プログラムを記録した記録媒体
JP2005182696A (ja) * 2003-12-24 2005-07-07 Fuji Xerox Co Ltd 機械学習システム及び機械学習方法、並びにコンピュータ・プログラム
JP2006285982A (ja) * 2005-03-31 2006-10-19 Microsoft Corp 検索エンジンの関連性を改良するデータマイニング技術
JP2007157058A (ja) * 2005-12-08 2007-06-21 Toshiba Corp 分類モデル学習装置、分類モデル学習方法、及び分類モデルを学習するためのプログラム
US20140090061A1 (en) * 2012-09-26 2014-03-27 Northrop Grumman Systems Corporation System and method for automated machine-learning, zero-day malware detection
JP2014071493A (ja) * 2012-09-27 2014-04-21 Toshiba Corp データ分析装置及びプログラム

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6714925B1 (en) 1999-05-01 2004-03-30 Barnhill Technologies, Llc System for identifying patterns in biological data using a distributed network
US20030051026A1 (en) * 2001-01-19 2003-03-13 Carter Ernst B. Network surveillance and security system
US7464143B2 (en) 2002-10-25 2008-12-09 Intraware, Inc. Digital object delivery and management system with dynamically created temporary FTP access codes
US20060277170A1 (en) 2005-06-06 2006-12-07 Paul Watry Digital library system
IL191744A0 (en) 2008-05-27 2009-02-11 Yuval Elovici Unknown malcode detection using classifiers with optimal training sets
JP5212007B2 (ja) * 2008-10-10 2013-06-19 株式会社リコー 画像分類学習装置、画像分類学習方法、および画像分類学習システム
JP2011034377A (ja) * 2009-08-03 2011-02-17 Mitsubishi Electric Corp 情報処理装置及び情報処理方法及びプログラム
US8682812B1 (en) 2010-12-23 2014-03-25 Narus, Inc. Machine learning based botnet detection using real-time extracted traffic features
US8533222B2 (en) 2011-01-26 2013-09-10 Google Inc. Updateable predictive analytical modeling
US8595154B2 (en) 2011-01-26 2013-11-26 Google Inc. Dynamic predictive modeling platform
US10169686B2 (en) * 2013-08-05 2019-01-01 Facebook, Inc. Systems and methods for image classification by correlating contextual cues with images
US9489514B2 (en) * 2013-10-11 2016-11-08 Verisign, Inc. Classifying malware by order of network behavior artifacts

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002133389A (ja) * 2000-10-26 2002-05-10 Nippon Telegr & Teleph Corp <Ntt> データ分類学習方法、データ分類方法、データ分類学習器、データ分類器、データ分類学習プログラムを記録した記憶媒体、データ分類プログラムを記録した記録媒体
JP2005182696A (ja) * 2003-12-24 2005-07-07 Fuji Xerox Co Ltd 機械学習システム及び機械学習方法、並びにコンピュータ・プログラム
JP2006285982A (ja) * 2005-03-31 2006-10-19 Microsoft Corp 検索エンジンの関連性を改良するデータマイニング技術
JP2007157058A (ja) * 2005-12-08 2007-06-21 Toshiba Corp 分類モデル学習装置、分類モデル学習方法、及び分類モデルを学習するためのプログラム
US20140090061A1 (en) * 2012-09-26 2014-03-27 Northrop Grumman Systems Corporation System and method for automated machine-learning, zero-day malware detection
JP2014071493A (ja) * 2012-09-27 2014-04-21 Toshiba Corp データ分析装置及びプログラム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018097671A (ja) * 2016-12-14 2018-06-21 株式会社グルーヴノーツ サービス構築装置、サービス構築方法及びサービス構築プログラム
KR102102418B1 (ko) * 2018-12-10 2020-04-20 주식회사 티포러스 인공지능 솔루션을 테스트하는 장치 및 방법
JP7573617B2 (ja) 2020-01-23 2024-10-25 インターナショナル・ビジネス・マシーンズ・コーポレーション ニューラル・フロー・アテステーション
KR20220077311A (ko) * 2020-12-01 2022-06-09 가천대학교 산학협력단 인공지능 모델 훈련 데이터셋의 관리방법
KR102493655B1 (ko) 2020-12-01 2023-02-07 가천대학교 산학협력단 인공지능 모델 훈련 데이터셋의 관리방법
WO2023106264A1 (ja) * 2021-12-06 2023-06-15 444株式会社 システムおよび方法
JP2023083728A (ja) * 2021-12-06 2023-06-16 444株式会社 システムおよび方法
US12141704B2 (en) 2023-08-22 2024-11-12 International Business Machines Corporation Neural flow attestation

Also Published As

Publication number Publication date
JP2021193571A (ja) 2021-12-23
US20160260023A1 (en) 2016-09-08
JP6929225B2 (ja) 2021-09-01
US20210374609A1 (en) 2021-12-02
US10977571B2 (en) 2021-04-13
EP3265926A4 (en) 2018-10-31
EP3265926A1 (en) 2018-01-10
JP7522705B2 (ja) 2024-07-25
WO2016140701A1 (en) 2016-09-09

Similar Documents

Publication Publication Date Title
JP7522705B2 (ja) 機械学習アプリケーション用の方法、コンピュータ読み取り可能な媒体、装置およびシステム。
US11417131B2 (en) Techniques for sentiment analysis of data using a convolutional neural network and a co-occurrence network
US11507363B2 (en) Methods and systems for packaging and deployment of applications in a multitenant platform
US10803029B2 (en) Generating javascript object notation (JSON) schema from JSON payloads
US20200184272A1 (en) Framework for building and sharing machine learning components
US20190163469A1 (en) Content deployment system having a proxy for continuously providing selected content items to a content publishing engine for integration into a specific release and methods for implementing the same
EP3198484A1 (en) Declarative language and visualization system for recommended data transformations and repairs
US20240296388A1 (en) Cross-model score normalization
US9251245B2 (en) Generating mappings between a plurality of taxonomies
Gawriljuk et al. A scalable approach to incrementally building knowledge graphs
US8849811B2 (en) Enhancing cluster analysis using document metadata
Vu et al. Sand: A tool for creating semantic descriptions of tabular sources
Ahad et al. Comparing and analyzing the characteristics of hadoop, cassandra and quantcast file systems for handling big data
Nandi Spark for Python Developers
Kienzler Mastering Apache Spark 2. x
US9904536B1 (en) Systems and methods for administering web widgets
Owens et al. Hadoop Real World Solutions Cookbook
Quddus Machine Learning with Apache Spark Quick Start Guide: Uncover patterns, derive actionable insights, and learn from big data using MLlib
Kulmukhametov et al. Improving data quality in large-scale repositories through conflict resolution
Vijesh Joe et al. Big data analytics: tools, challenges, and scope in data-driven computing
Klímek et al. Speeding up publication of Linked Data using data chunking in LinkedPipes ETL
Karambelkar Scaling apache solr
Jacob et al. Webscalding: A framework for big data web services
Spiliotopoulos et al. An Interface for User-Centred Process and Correlation Between Large Datasets
De Jager et al. Multimodal Misinformation Detection in a South African Social Media Environment

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180801

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190611

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190730

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20191018

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20191227

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200804

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20201102

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210204

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210608

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20210705

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210810

R150 Certificate of patent or registration of utility model

Ref document number: 6929225

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250