JP6077472B2 - 機械学習を行うためのユーザインターフェース及びワークフロー - Google Patents

機械学習を行うためのユーザインターフェース及びワークフロー Download PDF

Info

Publication number
JP6077472B2
JP6077472B2 JP2013556831A JP2013556831A JP6077472B2 JP 6077472 B2 JP6077472 B2 JP 6077472B2 JP 2013556831 A JP2013556831 A JP 2013556831A JP 2013556831 A JP2013556831 A JP 2013556831A JP 6077472 B2 JP6077472 B2 JP 6077472B2
Authority
JP
Japan
Prior art keywords
data
data set
training data
user interface
profile
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013556831A
Other languages
English (en)
Other versions
JP2014511536A (ja
JP2014511536A5 (ja
Inventor
ディコルポ フィリップ
ディコルポ フィリップ
エス サワント シタルクマル
エス サワント シタルクマル
カウフマン サリー
カウフマン サリー
デール ガリンデズ アラン
デール ガリンデズ アラン
ジャイスワル スメッシュ
ジャイスワル スメッシュ
アガルワル アシシュ
アガルワル アシシュ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NortonLifeLock Inc
Original Assignee
Symantec Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Symantec Corp filed Critical Symantec Corp
Publication of JP2014511536A publication Critical patent/JP2014511536A/ja
Publication of JP2014511536A5 publication Critical patent/JP2014511536A5/ja
Application granted granted Critical
Publication of JP6077472B2 publication Critical patent/JP6077472B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6209Protecting access to data via a platform, e.g. using keys or access control rules to a single file or object, e.g. in a secure envelope, encrypted and accessed using a key, or with access control rules appended to the object itself
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2101Auditing as a secondary aspect
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2107File encryption
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2141Access rights, e.g. capability lists, access control lists, access tables, access matrices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2147Locking files
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/20Network architectures or network communication protocols for network security for managing network security; network security policies in general

Description

本発明の実施形態は、データロスプリベンションに関連し、より具体的には機械学習ベースド検出(MLD、machine learning-based detection)プロファイルをユーザが生成及び展開できるようにするインターフェースを提供するデータロスプリベンション(DLP)システムに関する。
多くの組織では、機密データを特定するため及び機密データへのアクセスを制御するためにデータロスプリベンション(DLP)システムを施行している。典型的なDLPシステムはディープコンテンツ検査及び分析によって機密データを保護し、これには記述的テクノロジ及びフィンガープリンティングテクノロジが含まれる。記述的テクノロジはキーワード、表現又はパターン及びファイルタイプへのマッチを特定することによって並びに他のシグネチャベースド検出手法を行うことによって、機密データを保護する。フィンガープリンティングテクノロジはファイルの全体又は部分への完全一致を特定することによって機密データを保護する。組織の機密データの多くを保護することに関して効果的であれども、非構造化データ並びに製品のフォーミュラ、ソースコード及び営業レポート等の知的財産権を大量に取り扱う場合、フィンガープリンティングテクノロジ及び記述的テクノロジでは限界がある。
非構造化機密データをより正確に保護するために、一部のDLPシステムではベクトル機械学習(VML、vector machine learning)テクノロジの使用が検討されている。しかし、VMLは実装するのにとても複雑である。このため、VMLを用いる現行のDLPシステムでは、機械学習ベースド検出(MLD、machine learning-based detection)プロファイルをデザインするVMLについての専門家が顧客のために必要となっている。そして、顧客に渡されるDLPシステムは、顧客が変更できない既定のMLDプロファイルを有している。このようなDLPシステムでは、ユーザが自己のMLDプロファイルを生成するためのユーザインターフェース又はワークフローは何ら提供されない。
1つの実施形態では、機械学習(ML、machine learning)のためのユーザインターフェースを介して機密データについての陽性例及び機密データについての陰性例を含むデータのトレーニングセットをコンピューティング装置が受信する。コンピューティング装置はデータのトレーニングセットを機械学習を用いて分析して、新たなデータを機密データ又は非機密データとして分類(classify)するのに用いることができるMLDプロファイルをトレーニングする。コンピューティング装置はMLDプロファイルについてのクオリティーメトリックをユーザインターフェースに表示する。1つの実施形態では、MLDプロファイルには統計的データ分類モデル並びに陽性例の統計的に有意な特徴及び陰性例の統計的に有意な特徴を備える特徴セットが含まれ、クオリティーメトリックには偽陽性レーティング、偽陰性レーティング又はメモリ利用レーティングの少なくとも1つが含まれる。1つの実施形態では、コンピューティング装置は、データのトレーニングセットから、偽陽性を起こしたデータ及び偽陰性を起こしたデータの少なくとも1つをユーザインターフェースにて特定する。
1つの実施形態では、コンピューティング装置は、ドキュメントのトレーニングセットを分析する前に、ユーザインターフェースを介してメモリ割り当てに関してのユーザ選択を受信し、データのカテゴリゼーション(categorization)についてのメモリ利用レーティングはメモリ利用割り当てに準拠する。1つの実施形態では、コンピューティング装置は、偽陽性レーティングが偽陽性閾値内である及び偽陰性レーティングが偽陰性閾値内である場合、展開操作を可能とする。MLDプロファイルを展開することについてのユーザ要求を受信したことに応答して、コンピューティング装置はMLDプロファイルをDLPシステムのデータロスプリベンション(DLP)ポリシーに追加する。
1つの実施形態では、コンピューティング装置は、機密データについての陽性例及び機密データについての陰性例に関してのカテゴリゼーション情報を受信する。そして、コンピューティング装置は、データのトレーニングセットに追加すべきデータのカテゴリをユーザインターフェースにて特定してクオリティーメトリックを向上させることができる。1つの実施形態では、コンピューティング装置は、クオリティーメトリックがクオリティー閾値を充足しなかった場合、ユーザ入力に応答してデータのトレーニングセットを変更する。そして、コンピューティング装置は、変更されたデータのトレーニングセットを分析してMLDプロファイルを再トレーニングして、MLDプロファイルについての新たなクオリティーメトリックをユーザインターフェースに表示する。
1つの実施形態では、データのトレーニングセットは、DLPシステムのデータロスプリベンション(DLP)ポリシーにより収集されたものであり、機密データについての複数の陰性例はDLPポリシーにより機密ドキュメントとして誤分類されたドキュメントを含む。この実施形態では、コンピューティング装置は、その後MLDプロファイルをDLPポリシーに展開することができる。
1つの実施形態では、コンピュータ可読媒体が、プロセッサによる命令実行時に、機密データについての複数の陽性例及び機密データについての複数の陰性例を含むトレーニングデータセットを機械学習のためのユーザインターフェースを介して受信するように、該プロセッサを導く命令を含む。その後、プロセッサは、機械学習を用いてトレーニングデータセットを分析して、新たなデータを機密データ又は非機密データとして分類するのに用いることができる機械学習ベースド検出(MLD)プロファイルをトレーニングし、MLDプロファイルについてのクオリティーメトリックをユーザインターフェースに表示する。
1つの実施形態では、MLDプロファイルを生成するための方法が、機密データについての複数の陽性例及び機密データについての複数の陰性例を含むトレーニングデータセットを機械学習のためのユーザインターフェースを介して受信するステップと、機械学習を用いてトレーニングデータセットを分析して、新たなデータを機密データ又は非機密データとして分類するのに用いることができる機械学習ベースド検出(MLD)プロファイルをトレーニングするステップと、MLDプロファイルについてのクオリティーメトリックをユーザインターフェースに表示するステップとを備える。
後述の詳細な説明及び本発明の様々な実施形態についての添付の図面を参照することにより、本発明をより完全に理解することができる。
本発明の1つの実施形態による、例示的なシステムアーキテクチャの図である。 本発明の1つの実施形態による、データロスプリベンションエージェントのブロック図である。 本発明の1つの実施形態による、機械学習のブロック図である。 MLDプロファイルを生成及び展開するための方法についての1つの実施形態を示すフローチャートである。 本発明の実施形態による、MLDプロファイルを生成及び展開するためのユーザインターフェースについての様々な視点を示す図である。 本発明の実施形態による、MLDプロファイルを生成及び展開するためのユーザインターフェースについての様々な視点を示す図である。 本発明の実施形態による、MLDプロファイルを生成及び展開するためのユーザインターフェースについての様々な視点を示す図である。 本発明の実施形態による、MLDプロファイルを生成及び展開するためのユーザインターフェースについての様々な視点を示す図である。 本発明の1つの実施形態による、MLDプロファイル生成時におけるMLマネージャの様々な状態を示す状態図である。 MLDプロファイルを生成して既存のDLPポリシーへMLDプロファイルを展開する方法についての1つの実施形態を示すフローチャートである。 MLDプロファイルを含むDLPポリシーを用いてデータロスからコンピューティング装置を保護する方法についての1つの実施形態を示すフローチャートである。 本明細書中の操作の1以上を行い得る例示的コンピュータシステムのブロック図である。
データロスプリベンション(DLP)システムのための機械学習ベースド検出(MLD)プロファイルを生成、展開及び管理するためのシステムと方法を説明する。本発明の実施形態において、システム及び方法は、ベクトル機械学習についての専門家でないユーザがMLDプロファイルを生成できるようにするユーザインターフェース及びワークフローを提供する。これによりDLPのためのMLDプロファイルを展開するためのコストが減少し、また、MLDプロファイルのコンフィグラビリティが向上する。さらに、これにより、DLPアドミニストレータが継続的にMLDプロファイルを改良できるようになる。
以下の説明では、様々な詳細を述べる。もっとも、本願の開示を得た当業者には、本発明がこれらの詳細を知らなくても実施できるものであると理解されるであろう。一部の場合においては、周知の構造及び装置は、本発明を不明瞭としないために、詳細を示さずにブロック図で示す。例えば、以下の説明ではエンドポイントDLPシステムにてMLDプロファイルを用いるための詳細を提供する。もっとも、当業者にとっては、本発明の実施形態はネットワークDLPシステム及びディスカバーDLPシステム(即ち記憶装置をスキャンして機密データを特定及び/又は分類する類いのDLPシステム)にも適用されることが明らかである。例えば、本発明の実施形態においてはエンタープライズネットワークの中を移動する機密データを検出するためのMLDプロファイルを生成することができる。
後述される詳細な説明の一部は、アルゴリズム及びコンピュータメモリ内のデータビットに対しての操作を表すシンボリック表記で提示される。これらのアルゴリズム的記述及び表記は、業務の内容をもっとも効果的に他の当業者に伝達するために、データ処理技術の当業者により用いられる手段である。ここでは及び一般的には、アルゴリズムとは、所望の結果へ至る自己一貫的なステップのシーケンスとして認識される。ステップとは、物理的な量に対して必要とされる物理的な操作のことである。必ずしもそうではないが、通常は、これらの量は格納、移転、合体、比較及び他の操作の対象とされ得る電気的又は磁気的信号の形をとる。主に慣例からして、これらの信号をビット、値、エレメント、シンボル、キャラクタ、ターム、数字等と呼ぶことが場合によっては便利である。
もっとも、これら全て及びこれらに類似の用語は適切な物理量と関連付けられるべきものであることに留意すべきであり、これらの量についての便利なラベルに過ぎない。以下の説明から自明であるように、そうでないと具体的に宣言されない限り、本明細書中では、“受信する” “分析する” “表示する” “可能とする” “特定する” “変更する”等の用語を伴う説明は、物理量として表現されたコンピュータ装置のレジスタ及びメモリ内のデータを、操作及びコンピュータシステムのメモリ又はレジスタ若しくは情報を格納・伝送・表示する他の装置内の同様に表現されたデータに変換する、コンピュータシステム又は類似の電子的コンピューティング装置の動作又はプロセスを意味する。
本発明はこれらの操作を行うための装置にも関する。この装置は、必要とされる用途のために特に構築されるものであることができ、或いは、コンピュータ内に格納されたコンピュータプログラムにより選択的に起動又は再構成された汎用コンピュータであることができる。このようなコンピュータプログラムは、次のものには限定はされないが、フロッピーディスク、光学ディスク、CD-ROM及び光磁気ディスクを含む任意のタイプのディスク、リードオンリメモリ(ROM)、ランダムアクセスメモリ(RAM)、EPROM、EEPROM、磁気若しくは光学カード又は電子的命令を格納するのに適した他のあらゆるタイプの媒体等のコンピュータ可読記憶媒体に格納されることができる。
図1は、本発明の1つの実施形態による例示的システムアーキテクチャ100を示す。システムアーキテクチャ100は、エンドポイントサーバ115にネットワークされた複数のエンドポイント装置102A〜102Cを含み、さらにエンフォースメントサーバ120にネットワークされている。
各エンドポイントサーバにネットワーク装置はパソコン(PC)、ラップトップ、携帯電話、タブレットコンピュータ又はユーザがアクセスできる他の任意のコンピューティング装置であることできる。各エンドポイント装置102A〜102Cは複数の異なるデータロスベクトルを有する。各データロスベクトルは、エンドポイント装置からデータを移転できる経路である。データロスベクトルの例としては、光学ディスクにファイルを焼く行為、携帯可能ドライブ(例えば、携帯可能なユニバーサルシリアルバス(USB)ドライブ)にデータをコピーする行為、プリンタでデータを印字する行為、ファクシミリを通じてデータを送信する行為、電子メールの送信行為、インスタントメッセージの送信行為、画面コピー操作等がある。
エンドポイント装置102A〜102Cは各々、エンドポイント装置のハードウェア及びソフトウェアを管理するオペレーティングシステム(OS)を実行している。OSは、例えば、Microsoft(登録商標)Windows(登録商標)、Linux(登録商標)、Symbian(登録商標)、Apple(登録商標)社のOS X(登録商標)、Solaris(登録商標)等であることができる。OS上では1以上のアプリケーションが実行されており、エンドポイント装置に含まれる、直接的に接続されている若しくはネットワークされているデータストアに存するデータに対してのアクセス、移動若しくは他の操作を伴う様々な操作を行っている。例えば、アプリケーションにはCD又はDVDバーニングアプリケーション、電子メールアプリケーション、ウェブブラウザ、インスタントメッセージアプリケーション、プリンティングアプリケーション、画面コピー機能が含まれ得る。1つの実施形態では、アプリケーションは、ユーザ命令を受信したことに応答して操作を行う。
各エンドポイント装置102A〜102Cはデータストア135A〜135Cに接続されていることができ、これはハードディスク、テープバックアップ、光学ドライブ、揮発性メモリ(例えば、ランダムアクセスメモリ(RAM))又は他の記憶装置であることができる。データストア135A〜135Cは、エンドポイント装置102A〜102Cとの関係で内蔵のもの又は外付けのものであることができる。1つの実施形態では、データストア135A〜135Cはストレージエリアネットワーク(SAN)又はネットワークアタッチドストレージ(NAS)等のネットワークストレージに組み込まれることができる。1つの実施形態では、データストア135A〜135Cはリレーショナルデータベース等のデータベースに組み込まれることができる。データストア135A〜135Cは機密情報を含むデータを含み得る。データは、ファイル(例えば、ドキュメント)、テーブル又は他のデータフォーマットを含むことができる。機密情報の例には、ソースコード、患者健康情報、保険請求、製品のフォーミュラ、法的書類、合併及び吸収に関する書類、営業レポート、社会保障番号、クレジットカード番号が含まれる。
各エンドポイント装置102A〜102Cは、不正な目的によって機密(例えば、部外秘)情報がエンドポイント装置を離れないようにするために、データロスベクトルを監視するDLPエージェント106を含む。DLPエージェント106は、データロスベクトルをつうじて移動する際に及び/又はデータロスベクトルを通じてデータを送ることについての要求が受信された際にデータをスキャンすることができる。DLPエージェント106がデータロスベクトルを通じて移動するデータ又はデータロスベクトルを通じてデータを移動させることについての要求を検出した際には、DLPエージェント106はDLPポリシー110を実施してデータが機密データであるか(機密情報を含むか)を判断する。DLPポリシー110は、監視すべきコンテンツのタイプ(例えば、メッセージ、表示されたデータ、格納データ等)、どのように機密データを特定するか、及び/又は機密データを検出した際に行うべき動作を指定することができる。1つの実施形態では、DLPポリシー110はMLDプロファイル112を含む。DLPエージェント106は、MLDプロファイル112を用いてデータを処理する機械学習(ML)モジュール108を含む。MLDプロファイル112を用いてデータを処理することにより、MLモジュール108はデータが機密データかを判断する。
一部のタイプのDLP検出手法については、DLPエージェント106はデータをエンドポイントサーバ115へ送り、エンドポイントサーバ115に含まれるグローバルDLP検出エンジン122がデータに機密情報が含まれるかを判断する。一旦グローバルDLP検出エンジン122がファイル又は他のデータが機密情報を含むものであると判断すると、エンドポイントサーバ115はDLPエージェント106にデータが機密データであるか否かを宣言するメッセージを送り返す。そして、データがコンフィデンシャルな情報を含む場合にDLPエージェント106は、DLPポリシー110をエンフォースするための1以上の動作を行うことができる。1つの実施形態では、グローバルDLP検出エンジン122は、MLモジュール108及びMLDプロファイル128を含むDLPポリシー126を含む。DLPポリシー128及びMLDプロファイル128は、DLPポリシー110及びMLDプロファイル112とは異なることができる。
1つの実施形態では、エンドポイントサーバ115はDLPポリシー違反に関するデータのアグレゲータ(例えば、インシデントレポートのアグレゲータ)として機能する。エンドポイントサーバ115は、各エンドポイント装置からそのようなデータを収集して、収集されたデータを、分析のためにエンフォースメントサーバ120に報告することができる。
エンフォースメントサーバ120はDLPポリシーを管理する。これは、(例えば、アドミニストレータの入力に基づいて)DLPポリシーを生成すること及び変更することを含む。そして、エンフォースメントサーバ120はDLPポリシーをエンドポイントサーバ115及び/又はエンドポイント装置102へと伝播させることができる。また、エンフォースメントサーバ120はDLPレスポンスルールを生成してこれをエンドポイントサーバ115及び/又はエンドポイント装置102へと伝播させることもできる。DLPレスポンスルールは、DLPポリシー違反の際に、エンドポイント装置102及び/又はエンドポイントサーバ115がとるべき動作を指定する。エンドポイント装置が取り得る動作の例には、アドミニストレータに通知を送ること、データロスベクトルを通じデータがエンドポイント装置102A〜102Cから離脱することを防止すること、あらゆるデータロスベクトルを通じてエンドポイント装置からデータを移動させないようにするためにエンドポイント装置をロックダウンすること、エンドポイント装置からデータが移動される際にデータを暗号化すること等が含まれる。
1つの実施形態では、エンフォースメントサーバ120は機械学習(ML)マネージャ130を含む。MLマネージャ130は、ユーザがMLDプロファイルを生成及び展開するためのユーザインターフェース及びワークフローを提供する。MLマネージャ130については、図3を参照してより詳しく後述する。
図2は、本発明の1つの実施形態によるデータロスプリベンションエージェント205のブロック図である。DLPエージェント205は、異なるデータロスベクトル、アプリケーション、データ等を監視して、エンドポイント装置からデータを移動させようとする操作を検出することができる。ユーザにより開始される操作には、例えば、エンドポイント装置の任意の記憶装置上の制限付きデータベースのデータについてセーブ又はアクセスを行うこと、制限付きデータベースのデータをアプリケーション内で使用すること、コンフィデンシャルなデータをプリントすること、コンフィデンシャルなデータをネットワーク通信プロトコルで使用すること等が含まれ得る。
DLPエージェント205は、1以上のポリシー違反ディテクタを含むことができ、各々のそれは異なるDLPポリシー250及び/又はDLPポリシー250内の異なるプロファイル255、260、265を処理して、機密データを特定及び/又は保全することができる。DLPポリシー250は、高まったデータロスリスクを表す基準を含むことができる。DLPポリシー250は、DLPポリシー250内に含まれた基準の1以上が充足された場合に、違反されたことになる。基準の例には、ユーザ状態(例えば、ユーザがそのファイルに対してのアクセス権を有するか)、ファイルロケーション(例えば、コピーされようとしているファイルがコンフィデンシャルなデータベースに格納されているか)、ファイルコンテンツ(例えば、ファイルが機密情報を含むか)、時間(操作が通常の営業時間内に要求されているか)、データロスベクトル、操作を試みているアプリケーション等が含まれる。
DLPポリシー250は、1以上のプロファイル255、260、265を含むことができる。各プロファイルは、機密データを特定するのに用いることができる。1つの実施形態では、DLPポリシー250は記述的コンテンツマッチング(DCM)プロファイル255を含む。DCMプロファイル255は、サーチされるべき1以上のキーワード及び/又は正規表現を定義する。例えば、DCMプロファイル255は、正規表現を用いて社会保障番号を定義することができる。DCMプロファイル255を用いて、DLPエージェント205は、スキャンされたデータに含まれる何らかの情報がキーワード及び/又は正規表現にマッチするかを判断する。マッチが発見された場合、データが機密情報を含むものと判断されることができる。
1つの実施形態では、DLPポリシー250はイグザクトデータマッチング(EDM)プロファイル及び/又はインデクスドドキュメントマッチング(IDM)プロファイル260を含む。イグザクトデータマッチング(EDM)は、データベースレコード等の典型的に構造化されたフォーマットをとるデータを保護するのに用いることができる。インデクスドドキュメントマッチング(IDM)は、Microsoft(登録商標)Word若しくはPowerPoint(登録商標)ドキュメント又はCADドローイング等の非構造化データを保護するのに用いることができる。EDM及びIDMの両方では、データを保護することを望んでいる組織によって機密データがまず特定され、及びその後、進行形での正確な検出に資するためにフィンガープリンティングが行われる。1つの実施形態では、フィンガープリンティング処理は、テキストデータをアクセス及び抽出すること、それを正規化すること、及び不可逆ハッシュを用いてそれをセキュアすること、を含む。ファイル又は他のデータをスキャンすべき場合、そのファイル又はコンテンツについてのフィンガープリント(例えば、ハッシュ)が生成され、格納されているフィンガープリントと比較される。マッチが発見された場合には、スキャンされたファイルは機密データを含むものとして特定される。
1つの実施形態では、DLPポリシー250は機械学習ベースド検出(MLD)プロファイル265を含む。ベクトル機械学習及び他のタイプの機械学習を用いて、Microsoft(登録商標)Word、PowerPoint(登録商標)やCADドローイング等の非構造化データを保護することができる。MLDプロファイル265は、トレーニングデータセット270、分類モデル275及び特徴セット280を含むことができる。トレーニングデータセット270は、機密データについての陽性例及び機密データについての陰性例の集合である。トレーニングデータセット270は、MLマネージャによって処理されて分類モデル275及び特徴セット280が生成される。分類モデル275は、データ分類のための統計的モデルであり、境界特徴を表すサポートベクトルのマップを含む。特徴セット280は、リスト等のデータ構造であり、トレーニングデータセット270から抽出された複数の特徴を含む。1つの実施形態では、各特徴はトレーニングデータセット270からのデータに含まれているワードである。
ポリシー違反ディテクタの1例は、機械学習モジュール225である。MLモジュール225は、MLDプロファイル265及び未分類データ(例えば、ファイル235)を入力としてとりデータについての分類を出力するMLエンジン230を含む。MLエンジン230は、分類モデル275及び特徴セット280を用いて入力データを処理する。したがって、MLモジュール225は機密データと非機密データとを区別するのにMLDプロファイル265を用いることができる。
ポリシー違反レスポンダ220は、DLPポリシー違反が検出された場合、1以上のDLPレスポンスルール245を適用する。各DLPレスポンスルール245は、1以上のDLPポリシー250と関連付けられることができる。各DLPレスポンスルール245は、関連付けられたDLPポリシー250の違反に応答してポリシー違反レスポンダ220がとるべき1以上の動作を含む。一旦DLPポリシー250の違反が発見されると、ポリシー違反レスポンダ220が、どのDLPレスポンスルールが違反されたDLPポリシー250に関連付けられているかを判断することができる。その後、レスポンスルール245に含まれる1以上の動作が行われることができる。行われる動作の例には、アドミニストレータに通知を送ること、データロスベクトルを通じてデータがエンドポイント装置から離脱することを防止すること、あらゆるデータロスベクトルを通じてエンドポイント装置からデータを移動させないようにするためにコンピュータをロックダウンすること、エンドポイント装置からデータが移動される際にデータを暗号化すること等が含まれる。
インシデントレポートジェネレータ215は、違反されたDLPポリシー250及び違反されたDLPポリシー250に関連する事情を記録するインシデントレポート240を生成することができる。インシデントレポートジェネレータ215はエンドポイント装置で生じた及び/又は特定のユーザによって試みられたポリシー違反の一部又は全部についてのインシデントレポート240の記録を維持する。ユーザは、例えばユーザログインに基づいて特定されることができる。違反されたDLPポリシーを特定するのに加えて、各インシデントレポート240は、ポリシー違反についての状況を示すこともできる。例えば、インシデントレポート240は、ポリシー違反と関連付けられるアプリケーション、ユーザ、データロスベクトル、機密データのタイプ(例えば、社会保障番号、クレジットカード番号等)等を特定することができる。インシデントレポートジェネレータ215は、いつポリシー違反が起きたかを示すタイムスタンプを含めることもできる。
図3は、本発明の1つの実施形態による、機械学習(ML)マネージャ305のブロック図である。MLマネージャ305は、MLDプロファイルトレーナ325、MLDプロファイルテスタ320及び/又はMLDプロファイルデプロイヤ315を含む。1つの実施形態では、MLマネージャ305はユーザインターフェース310も含む。代替的な実施形態では、1以上のMLDプロファイルトレーナ325、MLDプロファイルテスタ320又はMLRプロファイルトレーナ325を1つのモジュールに組み合わせるか複数のモジュールに分割することができる。
MLDプロファイルトレーナ325は、トレーニングデータセット352に基づいてMLDプロファイル365をトレーニングする。MLDプロファイルトレーニングとは、トレーニングデータセットからコンテンツを抽出して、コンテンツに対して統計的分析を行って、分類モデル及び特徴セットを生成するプロセスをいい、これら双方について詳しく後に述べる。ユーザ(例えば、DLPアドミニストレータ)がトレーニングデータセットにおいて用いるべきデータを指定することができる。1つの実施形態では、ユーザが機密データについての陽性例(陽性データ345)及び機密データについての陰性例(陰性データ350)を選択して、トレーニングデータセット352へこれらを加える。これは、ユーザインターフェース310を介して行われることができる。代替的には、ユーザは、標準的なファイルシステムインターフェース(例えば、Microsoft(登録商標)Explorer(登録商標))を介して、ファイルを陽性データフォルダ及び陰性データフォルダに追加できる。データは、トレーニングデータセットに、個々のファイル(例えば、ドキュメント)として又は単一の圧縮ファイル(例えば、zipファイル)のコンポーネントとして、追加されることができる。
1つの実施形態では、トレーニングデータセット352のためのデータは、インシデントレポート360から抽出される。インシデントレポート360は、DLPポリシー385のエンフォースメント中に、既存のDLPポリシーについて生成されたものかもしれない。インシデントレポート360は、機密データについて操作が行われた又はその操作を行うことが要求されたときの事情を特定することができる。インシデントレポートは、機密データの真性該当事例を含むことができ、また、非機密データが機密データとして分類された偽陽性を含むこともできる。インシデントレポートと関連付けられる又は関連付けられない、他の履歴データも、トレーニングデータセットとして用いられることができる。履歴データは、機密データの真性該当事例、偽陽性、非機密データの真性該当事例、及び/又は偽陰性を含むことができる。
1つの実施形態では、MLDプロファイルトレーナ325は、既存のMLDプロファイルについてインクリメンタル型のトレーニングを行う。インクリメンタル型のトレーニングでは、MLDプロファイルトレーナ325は、MLDプロファイルが最後にトレーニングされてから後に生成されたインシデントレポートに基づいた、新たな陽性データ及び/又は陰性データを、トレーニングデータセットに追加する。MLDプロファイルトレーナ325は、自動的に又はユーザ入力に応答して、インクリメンタル型のトレーニングを行うことができる。1つの実施形態では、既定のスケジュールに従ってインクリメンタル型のトレーニングが行われる。例えば、MLDプロファイルトレーナ325は、MLDプロファイルについて、毎日、毎週、毎月等のように、定期的にトレーニングを行うことができる。
1つの実施形態では、MLDプロファイルトレーナ325は、トレーニングデータセットに閾値に該当する数のドキュメントが追加されるまで、トレーニングデータセット352についてのMLDプロファイル325を生成しない。1つの実施形態では、陽性データ345についての閾値及び陰性データ350についての閾値を追加するものとする。閾値は、例えば、50件の陽性ドキュメント及び50件の陰性ドキュメントとすることができる。1つの実施形態では、MLマネージャ305によって、最大ドキュメントサイズ(例えば、15MB、30MB等)が強制される。最大ドキュメントサイズより大きい如何なるドキュメントもトレーニングデータとして使用することについて棄却することができる。最大ドキュメントサイズをユーザによって選択可能とすることができる。
1つの実施形態では、MLDプロファイルトレーナ325は、モデルジェネレータ330、特徴エクストラクタ335及びクオリティーアナライザ340を含む。特徴エクストラクタ335は、トレーニングデータセット352内の機密データについての陽性例及び機密データについての陰性例分析を行い、陽性データ及び陰性データ中での特徴(例えば、ワード)の出現頻度を決定する。その後、特徴エクストラクタ335は、例えば出現頻度に基づいて、陽性特徴及び陰性特徴をランク付けする。1つの実施形態では、特徴エクストラクタ335は、“the”、“it”、“and”等のありきたりのワードをフィルターアウトする。特徴エクストラクタ335はその後、特徴セット375のために、もっとも高くランクされた特徴を選択する。
1つの実施形態では、特徴エクストラクタ335は、中国キャラクタ(漢字)等のキャラクタベースドアルファベットについては、キャラクタから特徴を生成する。特徴エクストラクタ335は、各キャラクタについて特徴を生成し、また、隣接するキャラクタの組についても特徴を追加的に作成する。例えば、複数のキャラクタ Ξ λ については、特徴エクストラクタ335はΞとλとΞλとについて特徴を生成する。
特徴セット375に追加される特徴の数はメモリ割り当てに基づくことができ、これはMLDプロファイルトレーナ325により自動的に選択され又はユーザにより選択されることができる。メモリ割り当てが増大するにつれ、特徴セット375に含まれる特徴の数も増大し、MLDプロファイルの正確性を向上させ得る。メモリ割り当ては、例えば、およそ30MBからおよそ100MBの間で可変とすることができる。1つの実施形態では、メモリ割り当ては、ハイ、ミデイアム又はローとして選択可能である。代替的には、具体的なメモリ割り当てを選択することができる(例えば、43MB)。結果的なMLDプロファイル365のサイズは、トレーニングドキュメントの数及びメモリ割り当て設定に比例する。1つの実施形態では、DLPエージェントにより実施されるMLDプロファイル365にはより低いメモリ割り当てが用いられ、グローバルDLP検出エンジンにより実施されるMLDプロファイル365にはより高いメモリ割り当てが用いられる。
1つの実施形態では、特徴エクストラクタ335は、特徴セット375を選択するのに、ターム頻度―ドキュメント逆頻度(TF-IDF、term frequency-inverse document frequency)アルゴリズムを用いる。代替的には、特徴エクストラクタ335は、segment-set term frequency-inverse segment-set frequency (STF-ISSF)やsegment-set term frequency-inverse document frequency (STF-IDF)等の他の特徴抽出アルゴリズムを用いることができる。1つの実施形態では、特徴エクストラクタ335が用いる特徴選択アルゴリズムは、ユーザにより選択可能とされる。また、特徴エクストラクタ335は、複数回特徴抽出を行い、各回において異なる特徴抽出アルゴリズムを用いることができる。異なるアルゴリズムを用いて生成された特徴セットは、各々異なる分類モデルを生成するのに用いることができ、クオリティーアナライザ340によりテストされることができる。最良のクオリティーメトリックを有する特徴セットを保存して他を破棄することができる。
特徴エクストラクタ335が特徴セット375を生成した後は、モデルジェネレータ330が、特徴セット375及びトレーニングデータセット352に基づいて、分類モデル380を生成する。分類モデル380は、境界特徴を表すサポートベクトルのマップを含む、データ分類のための統計的モデルである。境界特徴は特徴セット375から選択することができ、特徴セット375で最も高くランクされた特徴を表すことができる。
一旦特徴エクストラクタ335が特徴セット375を生成して、モデルジェネレータ330が分類モデル380を生成すると、MLDプロファイル365は完成する。MLDプロファイル365は、特徴セット375、分類モデル380及び/又はトレーニングデータセット370を含むことができる。MLDプロファイル365は、ユーザ定義の設定を含むこともできる。1つの実施形態では、ユーザ定義の設定は、感度閾値(信頼水準閾値ともいう)を含む。感度閾値は、例えば、75%、90%等と設定できる。MLエンジンが、ドキュメントを機密又は機密でないと分類するのにMLDプロファイル365を用いる場合、MLエンジンは分類に信頼値を付与することができる。ドキュメントについての信頼値が100%の場合、ドキュメントが機密(又は機密でない)との判断は、例えば、信頼値が50%の場合に比してより確実なものである。信頼値が感度閾値よりも少ない場合、ドキュメントが機密ドキュメントと分類されども、インシデントが生成されないようにできる。この機能により、偽陽性及び/又は偽陰性を更に制御又は削減することについて、ユーザを支援できる。MLエンジンが、トレーニングで見られたことのないタイプのドキュメントを分類しようとしている場合、ドキュメントが陽性及び/又は陰性であることについてはとても低い信頼を持つことになる。このような場合においては、偽陽性の頻度を減少させるために感度閾値を用いることができる。1つの実施形態では、MLDプロファイルトレーナ325は、トレーニングに基づいて、自動的にMLDプロファイル365のための感度閾値を選択する。
1つの実施形態では、クオリティーアナライザ340はMLDプロファイル365のクオリティーを分析して、MLDプロファイル365についての1以上のクオリティーメトリックを生成する。クオリティーメトリックには、偽陽性レーティング(MLDプロファイル365によって機密データとして誤分類された機密データについての陰性例)、偽陰性レーティング(MLDプロファイル365によって非機密データとして誤分類された機密データについての陽性例)、及び/又はメモリ利用レーティング(MLDプロファイル365によって利用されるメモリ量)を含めることができる。クオリティーアナライザ340は、クオリティーメトリックを1以上のクオリティー閾値と比較することができる。これらには、偽陽性閾値、偽陰性閾値、及び/又はメモリ利用閾値が含まれ得る。1つの実施形態では、偽陽性閾値は5%とされ、また、偽陰性閾値が5%とされる。代替的には、他の偽陽性及び/又は偽陰性閾値を用いることができる。偽陽性レーティングが偽陽性閾値を上回る場合、偽陰性レーティングが偽陰性閾値を上回る場合、又はメモリ利用レーティングがメモリ利用閾値を上回る場合、MLDプロファイル365は展開されるに相応しくないかもしれない。1以上のクオリティー閾値をMLDプロファイル365が超えていない場合、MLマネージャ305はMLDプロファイル365の展開を許可しないことができる。
トレーニングデータセット352を変更して、及び、特徴セット375及び分類モデル380を再算出することによって、MLDプロファイル365を変更することができる。新たな陽性データ345を追加すること、新たな陰性データ350を追加すること、陽性データ345のインスタンスを削除すること、及び/又は陰性データ350のインスタンスを削除することによって、トレーニングデータセット352を変更することができる。1つの実施形態では、クオリティーアナライザ340が、偽陽性を起こした陰性データ350から、具体的なファイルやドキュメント等を特定し、また、偽陰性を起こした陽性データ345から、具体的なファイルやドキュメント等を特定する。ユーザはこの情報を検討して、トレーニングデータセットに追加すべき追加的データを判断することができる。トレーニングデータセット352において、特定のカテゴリのドキュメントが少なすぎた場合があり得る。例えば、ユーザはソースコードを保護することを望む一方、製品ドキュメンテーションがMLDプロファイル365によりソースコードとしてクロス分類されたかもしれない。ユーザは、陰性データセットに製品ドキュメンテーションの追加的な例を追加することによって、これを是正できる。機密又は非機密と認識・分類され得るデータのカテゴリの例は、ソースコード、レシピ、法的文書、製品ドキュメンテーション、医療履歴文書、保険文書、製品フォーミュラ、患者健康情報等を含む。
1つの実施形態では、ユーザは、ユーザがトレーニングデータセットに追加する各ファイル(例えば、ドキュメント)について特定のカテゴリを指定することができる。そして、クオリティーアナライザ340は、最も多くの偽陽性及び/又は最も多くの偽陰性を起こしたドキュメントカテゴリを特定することができる。1つの実施形態では、クオリティーアナライザ340は、MLDプロファイル365のクオリティーを向上させるためにユーザが追加すべきドキュメントの特定のカテゴリを提案する。
1つの実施形態では、MLマネージャ305は、以前に生成されたMLDプロファイルに加えられた変更を含む、チェンジレポートを維持する。チェンジレポートは、以前に生成されたMLDプロファイルと最近変更されたMLDプロファイルのクオリティーメトリックにおける差を含むこともできる。チェンジレポートは、ユーザが変更をアクセプトするために又は変更をロールバックして以前のMLDプロファイルに戻るために、ユーザに表示することができる。
一旦MLDプロファイル365が展開に相応しいものとなると(例えば、クオリティーメトリックがクオリティー閾値内のものとなった場合)、MLDプロファイルデプロイヤ315はMLDプロファイル315を展開する。1つの実施形態では、MLDプロファイルデプロイヤ315は、該MLDプロファイルを既存のDLPポリシー385に追加する。代替的には、MLDプロファイルデプロイヤ315は、新たなDLPポリシーを生成して、新たなDLPポリシー385にMLDプロファイル365を追加することができる。
1つの実施形態では、MLマネージャ305はVMLテスタ320を含む。VMLテスタは、追加的データをもってMLDプロファイルをテストする。1つの実施形態では、MLDプロファイルテスタは、既定のテスティングデータのセットについて陰性テスティングを行う。既定のテスティングデータのセットは、機密情報を含まないものとして知られるデータを大量に(例えば、10,000個のドキュメント)含むことができる。MLDプロファイルテスタ320は、追加的な陽性データ及び/又は陰性データを含み得る、ユーザ選択データについてMLDプロファイルをテストすることもできる。
図4は、MLDプロファイルを生成及び展開する方法400についての1つの実施形態を図示するフローチャートである。方法400は、ハードウェア(回路、専用のロジック等)、ソフトウェア(汎用コンピュータシステム又は専用機で実行されるもの)又は両者の組合せを含むことができる処理ロジックにより行われる。方法400は、図1のエンフォースメントサーバ120上で実行されているMLマネージャ130のようなMLマネージャによって行われることができる。方法400は下記においてMLマネージャにより行われるものと説明されるが、方法400は他の処理ロジックによっても行われることができる。
図4を参照するに、ブロック405では、MLマネージャが、新たなMLDプロファイル又は変更されるべき既存のMLDプロファイルのための一時的ワークスペースを、生成する。1つの実施形態では、IDM又はEDMプロファイル等の他のプロファイルが既に実行されているような、空のMLDプロファイルが、既存のDLPポリシーについて生成される。他の実施形態では、まだ展開されていない新たなDLPポリシーについて、空のMLDプロファイルが生成される。代替的には、一時的ワークスペースにて既存のMLDプロファイルがオープンされる。1つの実施形態では、機械学習についてのインターフェースを介して、新たなMLDプロファイルを作成せよとのユーザ要求又は既存のMLDプロファイルを変更せよとのユーザ要求、に応答して一時的ワークスペースが生成される。1つの実施形態では、新たなMLDプロファイルは、特定のカテゴリのデータを保護するためのものである。例えば、MLDプロファイルはソースコードを保護するため、患者情報を保護するため、販売データを保護するためのもの等とすることができる。
図5は、空の一時的ワークスペースを示す、本発明の1つの実施形態による、機械学習のためのユーザインターフェースの第1の表示500を示す。示されているように、一時的ワークスペースは、陽性ドキュメントをアップロードするための陽性ボタン505及び陰性ドキュメントをアップロードするための陰性ボタン510を有する。ユーザが陽性ボタン505又は陰性ボタン510を選択することに応答して、MLマネージャはファイルブラウザウィンドウを開くことができる。そして、ユーザはファイルブラウザウィンドウをナビゲートして、アップロードのためのドキュメントを選択することができる。
1つの実施形態では、ユーザインターフェースはメモリ割り当てボタン515を含む。ユーザがメモリ割り当てボタン515を選択することに応答して、MLマネージャはメモリ割り当てについての選択肢をユーザに提示するウインドウを開く。1つの実施形態では、ユーザは、ハイ、ミディアム及びローのメモリ割り当てを選択することができる。各メモリ割り当ては、特定のメモリ利用閾値と関連付けられることができる。代替的には、ユーザは、具体的なメモリ割り当て(例えば、12MB、54MB等)を選択することができる。1つの実施形態では、ユーザインターフェースは、押すとプロファイル名及び/又はプロファイル説明をタイプインできるウインドウを開く追加のボタン515を、含む。
図4に戻るに、方法400のブロック410では、MLマネージャはトレーニングデータセットを受信する。1つの実施形態では、ユーザが、トレーニングデータセットのためのデータを、ユーザインターフェースを介して、選択する。トレーニングデータセットは、機密データについての陽性例及び機密データについての陰性例の両方を含む。トレーニングデータセットは、複数のドキュメントを含むことができる。1つの実施形態では、ユーザが、各ドキュメントについてのカテゴリ(例えば、ソースコード、販売データ、医療記録等)を指定する。1つの実施形態では、MLマネージャが、トレーニングデータセット内の各ドキュメントについてドキュメントサイズをチェックする。MLマネージャは、最大ドキュメントサイズを超えるMLドキュメントを棄却することができる
図6は、トレーニングデータセットを示す、本発明の1つの実施形態による、図5のユーザインターフェースについての第2の表示600を示す。トレーニングデータセットの各ドキュメントは、ドキュメントの複数の属性と共に表示されることができる。1つの実施形態では、表示されるドキュメント属性は、ドキュメントタイプ605(即ちドキュメントが陽性ドキュメントであるか陰性ドキュメントであるか)、ドキュメントの名前610、ドキュメントの日付615(即ち、ドキュメントがアップロードされた日付)、及びドキュメントの作成者620を含む。各ドキュメントには削除ボタン625が付されることもできる。削除ボタン625を選択することにより、ユーザは、特定のドキュメントをトレーニングデータセットから除くことができる。1つの実施形態では、ドキュメントカテゴリも示される。ユーザは、各ドキュメントに、ドキュメントカテゴリを付与することができる。1つの実施形態では、一時的ワークスペースのタブにある×印ボタンをクリックすることにより、プロファイルに加えられた変更の全てがロールバックされる。そして、プロファイルは、最後にあった機能的状態に留まり続ける。
閾値に届く数の陽性ドキュメント及び陰性ドキュメントがトレーニングデータセットに追加されると(例えば、各タイプについて20個のドキュメント、や各タイプについて50個のドキュメント等)、プロファイルをトレーニングする操作が利用可能となる。1つの実施形態では、閾値に届く数の陽性ドキュメント及び陰性ドキュメントが追加されると、“プロファイルをトレーニングする”ボタン630がアクティブになる。ユーザは、MLDプロファイルをトレーニングするために(例えば、MLDプロファイルのために特徴セット及び分類モデルを生成するために)、“プロファイルをトレーニングする”ボタン630を選択することができる。
図4に戻るに、方法400のブロック415では、MLマネージャは、メモリ割り当てについての選択を受信する。ブロック420では、MLマネージャは、機械学習(例えば、ベクトル機械学習)を用いてトレーニングデータセットを分析してMLDプロファイルをトレーニングする。1つの実施形態では、MLマネージャは、トレーニング中においては、MLDプロファイルに対して書き込みロックを行う。1つの実施形態では、MLDプロファイルのトレーニングには、特徴抽出を行うこと(ブロック421)、分類モデルを生成すること(ブロック422)及び分類モデル及び特徴セットのクオリティーを判断すること(ブロック423)が含まれる。ブロック425では、MLマネージャは分析の結果をユーザインターフェースに表示する。結果には、偽陽性レーティング、偽陰性レーティング、メモリ利用レーティング、抽出に失敗した陽性ドキュメント、及び抽出に失敗した陰性ドキュメント等の1以上のクオリティーメトリックが含まれることができる。1つの実施形態では、ユーザは、失敗した抽出情報をクリックしてどのドキュメントについて失敗があったかを知ることができる。
図7は、トレーニングされているMLDプロファイルを示す、図5のユーザインターフェースについての第3の表示700を図示する。1つの実施形態では、ユーザインターフェースが、特徴抽出、正確性算定、モデル作成、及び最終処理を含む、MLDプロファイルトレーニングの各ステップを表示する。MLマネージャがMLDプロファイル生成においてどの段階にあるかを示すためにMLDプロファイルトレーニングの現在ステップをハイライトすることができる、1つの実施形態では、プロファイルがトレーニングされている間、一時的ワークスペースはロックアップされる。また、プロファイルがトレーニングされている間、メモリ割り当てを調整することはできない。これにより、正確なトレーニング結果が得られることが保証される。1つの実施形態では、ユーザは、トレーニングをキャンセルする選択肢をいつでも選択することによって、トレーニングを停止することができる。
図8は、MLDプロファイルトレーニング結果を示す、図5のユーザインターフェースについての第4の表示800を図示する。1つの実施形態では、MLDプロファイルトレーニング結果には、陽性ドキュメントカウント805、陰性ドキュメントカウント810及び総ドキュメントカウント815が含まれる。1つの実施形態では、MLマネージャが特徴セットに含まれる特徴(例えば、ワード等)のリストを表示する。トレーニング結果には、MLDプロファイルについての1以上のクオリティーメトリックも含まれる。1つの実施形態では、クオリティーメトリックには、偽陽性レーティング820、偽陰性レーティング825及びメモリ利用レーティング830が含まれる。ユーザは偽陽性レーティング820を選択して、偽陽性を起こした具体的なドキュメント等の偽陽性についての追加的情報を閲覧することができる。また、ユーザは、偽陰性レーティング825を選択して偽陰性を起こした具体的なドキュメント等の偽陰性についての追加的情報を閲覧することができる。クオリティーメトリックがクオリティー閾値内にある場合、“トレーニングを展開する”ボタン835がアクティブになることができる。ユーザは、“トレーニングを展開する”ボタン835を選択してMLDプロファイルを展開することができる。ユーザは、“トレーニングを棄却”ボタン840を選択してMLDプロファイルを棄却することができる。
図4に戻るに、ブロック430では、分析結果からしてMLDプロファイルが1以上の展開条件を充足しているといえるかを、MLマネージャが判断する。結果が展開条件を満たす場合、方法は、ブロック435へと進む。そうでなければ、方法はブロック440へと進む。
ブロック435では、MLマネージャがMLDプロファイルの展開操作を可能とする。ブロック450では、MLマネージャは(例えば、ユーザがユーザインターフェースの展開ボタンを押下することに基づく)展開コマンドを受信する。MLDプロファイルがポリシーと関連付けられている場合、展開コマンドは検出サーバへのプロファイルの展開をもたらす。DLPポリシーがアクティブなDLPポリシーである場合、MLDプロファイルはアクティブとなり、ドキュメントを監視するのに即座に用いることができる。MLDプロファイルが以前展開されたバージョンを持っている場合、そのバージョンは、新たなバージョンが展開されるまでは、展開されたままとなることに留意されたい。MLDプロファイルの新たなバージョンを展開すると、より古いバージョンは置き換えられてしまう場合がある。
ブロック440では、MLマネージャは、ユーザがトレーニングデータセットに変更を加えるべきであると提案する。トレーニングデータセットのドキュメントをユーザがカテゴライズしていた場合、MLマネージャはトレーニングデータセットに追加されるべきドキュメントのカテゴリを特定することができる。例えば、特定のカテゴリのドキュメントが多数の偽陽性を起こした場合、MLマネージャは、そのカテゴリのドキュメントをトレーニングデータセットの陰性ドキュメントにもっと加えてみることを提案できる。
ブロック445では、MLマネージャが、トレーニングデータセット又はメモリ割り当て選択に関して変更が加えられたかを判断する。トレーニングデータセット又はメモリ割り当てに変更が加えられている場合、方法はブロック420へと戻る。それ以外の場合、方法は終了する。展開されたプロファイルは、展開プロファイルページにて表示されることができる。このページは、現在展開されているプロファイルについての表示をユーザに提供する。
図9は、本発明の1つの実施形態による、MLDプロファイル生成時/変更時におけるMLマネージャの様々な状態を示す状態図900である。ユーザが、新たなMLDプロファイル生成せよとのコマンドを入力すると、MLマネージャは“新規”状態905に入り、これによりMLマネージャは一時的ワークスペース及び空のMLDプロファイルを生成させられる。“新規”状態905からは、MLマネージャは、“プロファイルを管理する”状態910に入ることができる。“プロファイルを管理する”状態910では、MLマネージャは、ユーザ入力に基づいてトレーニングデータセットにドキュメントを追加することができる。また、MLマネージャは、MLDプロファイルを以前の状態にロールバックして“新規”状態905に戻ることができ、又は“トレーニング”状態915へと進むことができる。以前生成されたMLDプロファイルが変更中の場合、MLマネージャは、“プロファイルを管理する”状態910から“アクセプテッド”状態930へと遷移することができる。
“トレーニング”状態915にある間は、MLマネージャはMLDプロファイルをトレーニングする。トレーニングがキャンセルされる又は他の理由により失敗した場合、MLマネージャは“トレーニングが失敗/キャンセルされた”状態920へと遷移する。ユーザによるアクノレジメントの後、MLマネージャは“プロファイルを管理する”状態910に復帰する。トレーニングが成功した場合、MLマネージャは“トレーニング済み”状態925に遷移する。その後、ユーザはMLDプロファイルを棄却してMLマネージャを“プロファイルを管理する”状態910に戻すか、又はMLDプロファイルをアクセプトしてMLマネージャを“アクセプテッド”状態930へと遷移させることができる。“アクセプテッド”状態からは、MLマネージャはMLDプロファイルを展開することができる。
図10は、MLDプロファイルを生成すること及び既存のDLPポリシーへMLDプロファイルを展開することについての方法1000についての1つの実施形態を示すフローチャートである。方法1000は、ハードウェア(回路、専用のロジック等)、ソフトウェア(汎用コンピュータシステム又は専用機で実行されるもの)又は両者の組合せを含むことができる処理ロジックにより行われる。方法1000は、図1のエンフォースメントサーバ120上で実行されているMLマネージャ130のようなMLマネージャによって行われることができる。
図10を参照するに、ブロック1005では、MLマネージャがDLPポリシーによって生成されたインシデントレポート及び/又は履歴データを収集する。インシデントレポートは、非機密ドキュメントとして誤分類されたドキュメント及び/又は機密ドキュメントとして誤分類されたドキュメントを含むことができる。また、インシデントレポートは、機密ドキュメントとして正しく分類されたドキュメント及び/又は非機密ドキュメントとして正しく分類されたドキュメントを含むことができる。
ブロック1010では、MLマネージャは、インシデントレポート/履歴データからのドキュメントをMLDプロファイルのためのトレーニングデータセットに追加する。ブロック1015では、MLマネージャは、機械学習を用いてトレーニングデータセットを分析してMLDプロファイルをトレーニングする。これには、特徴セットを生成すること、分類モデルを生成すること、及び1以上のクオリティーメトリックをMLDプロファイルについて生成することを、含むことができる。ブロック1020では、MLマネージャは、DLPポリシーにMLDプロファイルを追加する。
方法1000は、既存のDLPポリシーについてのインシデントを用いてMLDプロファイルをどのようにして生成するかを示す。したがって、MLマネージャは、方法1000を行って、既存のDLPポリシーを改良して、従来は分類に失敗していたドキュメントについてドキュメントを機密又は非機密として分類できるようにすることができる。
図11は、MLDプロファイルを含むDLPポリシーを用いてデータロスからコンピューティング装置を保護する方法1100についての1つの実施形態を示すフローチャートである。方法1100は、ハードウェア(回路、専用のロジック等)、ソフトウェア(汎用コンピュータシステム又は専用機で実行されるもの)又は両者の組合せを含むことができる処理ロジックにより行われる。方法1100は、図1のエンドポイント装置102A上で実行されているDLPエージェント106のようなDLPエージェントにより行われることができる。方法1100は、図1のエンドポイントサーバ115上で実行されているグローバルDLP検出エンジン122のようなグローバルDLP検出エンジンにより行われることができる。
図11を参照するに、ブロック1105では、処理ロジックは、ドキュメントに対して操作を行うことについての要求を受信する。ブロック1110では、MLモジュールが、MLDプロファイルを用いてドキュメントを分析してドキュメントを分類する。ブロック1225では、処理ロジックが、ドキュメントファイルあ機密又は非機密として分類されたかを判断する。ドキュメントが機密として分類された場合、方法はブロック1330へと進み、DLPレスポンスルールにおいて指定された動作が行われ、また、インシデントレポートが生成される。これには、操作を阻止すること、インシデントレスポンスレポートを生成すること等が含まれ得る。ドキュメントが非機密と分類された場合、方法はブロック1135へと進み、操作が行われる。
図12は、コンピュータシステム1200として例示的に示された、本明細書中で説明した1以上の任意の手法をマシンに行わせるための命令のセットを実行することのできるマシンの概略図的表現を示す。他の実施形態では、マシンは、LAN、イントラネット、エクストラネット又はインターネットで、他のマシンに接続(例えば、ネットワーク)されることができる。マシンはクライアントサーバモデルにおけるサーバとして若しくはクライアントマシンとして又はピアツーピア(又は分散型)ネットワーク環境下でピアマシンとして作動できる。マシンは、パソコン(PC)、タブレットPC、セットトップ(STB)、パーソナルデジタルアシスタント(PDA)、携帯電話、ウェブアプライアンス、サーバ、ネットワークルータ、スイッチ、ブリッジ又はマシンで行われるべき動作を指定する(シーケンシャル若しくはそうでない)命令のセットを実行できる他の任意のマシンであることができる。さらに、1つのマシンのみが図示されていても、“マシン”との用語は、本明細書中で説明した1以上の手法を行うための命令のセット(又は複数のセット)を個別に又は合同的に実行する任意のマシン群をも含むものとして解されるべきである。
例示的なコンピュータシステム1200は、処理装置(プロセッサ)1202、メインメモリ1204(例えば、リードオンリメモリ(ROM)、フラッシュメモリ、シンクロナスDRAM(SDRAM)やRambus DRAM(RDRAM)等のダイナミックランダムアクセスメモリ(DRAM)等)、静的メモリ1206(例えば、フラッシュメモリ、スタティックランダムアクセスメモリ(SRAM)等)、及びデータ記憶装置1218を含み、これらは互いにバス1208を介して通信する。
プロセッサ1202は、1以上のマイクロプロセッサや中央処理装置等の汎用処理装置を表す。より具体的には、プロセッサ1202は複数命令セットコンピューティング(CISC)マイクロプロセッサ、縮小命令セットコンピューティング(RISC)マイクロプロセッサ、超長命令語(VLIW)マイクロプロセッサ若しくは他の命令セットを実装するプロセッサ又は命令セットを複数組み合わせて実装するプロセッサであることができる。プロセッサ1202は、1以上の特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、デジタルシグナルプロセッサ(DSP)、ネットワークプロセッサ等の特殊用途処理装置であることもできる。プロセッサ1202は、本明細書中で説明する操作及びステップを行うための命令1226を実行するように構成されている。
コンピュータシステム1200は、更にネットワークインターフェース装置1222をさらに含むことができる。コンピュータシステム1200はビデオディスプレイ装置1210(例えば、液晶ディスプレイ(LCD)又は陰極線管(CRT))、アルファニューメリック入力装置1212(例えば、キーボード)、カーソル制御装置1214(例えば、マウス)、及び信号生成装置1220(例えば、スピーカ)を含むこともできる。
データ記憶装置1218は、本明細書中で説明される手法及び機能の1以上の任意のものを実装する1以上の命令1226のセット(例えば、ソフトウェア)が格納されるコンピュータ可読記憶媒体1224を含むことができる。命令1226は、コンピュータシステム1200による該命令の実行時において、完全に又は少なくとも部分的にメインメモリ1204上に及び/又はプロセッサ1202内に存在することもでき、メインメモリ1204及びプロセッサ1202はコンピュータ可読記憶媒体たり得る。命令1226は、ネットワークインターフェース装置1222を介してネットワーク1274上でさらに送受信されることもできる。
1つの実施形態では、命令1226は、図2のMLマネージャ205及び/又はMLマネージャをコールするメソッドを含むソフトウェアライブラリ等のMLマネージャのための命令を含む。例示的実施形態ではコンピュータ可読記憶媒体1224は単一媒体として示されているものの、“コンピュータ可読記憶媒体”との語は1以上の命令のセットを格納する単一の又は複数の媒体(例えば、集中型又は分散型のデータベース及び/又は関連するキャッシュ及びサーバ)を含むものと解されるべきである。“コンピュータ可読記憶媒体”との語は、また、機械による実行のための命令のセットを格納、エンコード又はキャリーすることのできる任意の媒体であり、本発明の手法の1以上の任意のものを機械に実行させるもの、を含むものと解されるべきである。したがって、“コンピュータ可読記憶媒体”との語はソリッドステートメモリ、光学媒体及び磁気媒体を含むもとの解されるべきであるがこれらには限定されない。
上記説明は例示的なものであり、限定的なものと解されないべきである。上述の説明を読んで理解した当業者には多くの他の実施形態が見えるであろう。したがって、本発明の範囲は、添付の請求項とそれらの請求項が享受すべきその等価物の全範囲を参照して決定されるべきである。

Claims (23)

  1. 機密データについての複数の陽性例及び機密データについての複数の陰性例を含むトレーニングデータセットを、ユーザインターフェースを介して、受信するステップと、
    機械学習を用いて前記トレーニングデータセットを分析して、機械学習ベースド検出(machine learning-based detection (MLD))プロファイルをトレーニングするステップであって、前記MLDプロファイルは新たなデータを機密データ又は非機密データとして分類するのに用いられる、ステップと、
    前記ユーザインターフェースにおいて、前記MLDプロファイルについてのクオリティーメトリックを表示するステップと
    前記クオリティーメトリックがクオリティー閾値を充足しなかった場合には:
    ユーザ入力に応答して前記トレーニングデータセットを変更するステップと、
    前記変更されたトレーニングデータセットを分析して前記MLDプロファイルを再トレーニングするステップと
    を行うステップと
    を備える方法。
  2. 前記トレーニングデータセットを分析するステップは:
    前記トレーニングデータセットについて特徴抽出を行って前記陽性例の特徴及び前記陰性例の特徴を備える特徴セットを生成するステップと、
    前記トレーニングデータセットから分類モデルを生成するステップと、
    前記クオリティーメトリックを算出するステップであって、前記クオリティーメトリックは偽陽性レーティング、偽陰性レーティング又はメモリ利用レーティングの少なくとも1つを含む、ステップと
    を備える、請求項1に記載の方法。
  3. 前記トレーニングデータセットを分析する前に前記ユーザインターフェースを介してメモリ割り当てに関してのユーザ選択を受信するステップであって、データのカテゴリゼーションについての前記メモリ利用レーティングは前記メモリ割り当てに準拠する、ステップ、をさらに備える請求項2に記載の方法。
  4. 前記偽陽性レーティングが偽陽性閾値内である及び前記偽陰性レーティングが偽陰性閾値内である場合、展開操作を可能とするステップと、
    前記展開操作を行うためのユーザ要求を前記ユーザインターフェースを介して受信するステップと、
    前記ユーザ要求を受信したことに応答して、前記MLDプロファイルをDLPシステムのデータロスプリベンション(DLP)ポリシーに追加するステップと
    をさらに備える請求項2に記載の方法。
  5. 前記トレーニングデータセットから、偽陽性を起こしたデータ及び偽陰性を起こしたデータの少なくとも1つを、前記ユーザインターフェースにて特定するステップ、をさらに備える請求項2に記載の方法。
  6. 機密データについての前記陽性例及び機密データについての前記陰性例に関してのカテゴリゼーション情報を受信するステップと、
    前記トレーニングデータセットに追加すべきデータのカテゴリを前記ユーザインターフェースにて特定して前記クオリティーメトリックを向上させるステップと
    をさらに備える請求項1に記載の方法。
  7. 記MLDプロファイルについての新たなクオリティーメトリックを前記ユーザインターフェースに表示するステッ
    さらに備える請求項1に記載の方法。
  8. 前記トレーニングデータセットはDLPシステムのデータロスプリベンション(DLP)ポリシーにより収集されたものであり、機密データについての前記複数の陰性例は前記DLPポリシーにより機密ドキュメントとして誤分類されたドキュメントを含み、
    前記MLDプロファイルを前記DLPポリシーへ展開するステップ
    をさらに備える請求項1に記載の方法。
  9. 前記MLDプロファイルのための感度閾値についての選択を、前記ユーザインターフェースを介して受信するステップと、
    前記選択に基づいて前記MLDプロファイルのための感度閾値設定を制御するステップと
    をさらに備える請求項1に記載の方法。
  10. 命令を含むコンピュータ可読媒体であって、前記命令が処理装置により実行されると、
    機密データについての複数の陽性例及び機密データについての複数の陰性例を含むトレーニングデータセットを、ユーザインターフェースを介して、受信するステップと、
    機械学習を用いて前記トレーニングデータセットを分析して、機械学習ベースド検出(MLD)プロファイルをトレーニングするステップであって、前記MLDプロファイルは新たなデータを機密データ又は非機密データとして分類するのに用いられる、ステップと、
    前記ユーザインターフェースにおいて、前記MLDプロファイルについてのクオリティーメトリックを表示するステップと
    前記クオリティーメトリックがクオリティー閾値を充足しなかった場合には:
    ユーザ入力に応答して前記トレーニングデータセットを変更するステップと、
    前記変更されたトレーニングデータセットを分析して前記MLDプロファイルを再トレーニングするステップと
    を行うステップと
    を備える方法を前記処理装置に行わせる、コンピュータ可読媒体。
  11. 前記トレーニングデータセットを分析するステップは:
    前記トレーニングデータセットについて特徴抽出を行って前記陽性例の特徴及び前記陰性例の特徴を備える特徴セットを生成するステップと、
    前記トレーニングデータセットから分類モデルを生成するステップと、
    前記クオリティーメトリックを算出するステップであって、前記クオリティーメトリックは偽陽性レーティング、偽陰性レーティング又はメモリ利用レーティングの少なくとも1つを含む、ステップと
    を備える、請求項10に記載のコンピュータ可読媒体。
  12. 前記方法は:
    前記トレーニングデータセットを分析する前に前記ユーザインターフェースを介してメモリ割り当てに関してのユーザ選択を受信するステップであって、データのカテゴリゼーションについての前記メモリ利用レーティングは前記メモリ割り当てに準拠する、ステップ
    をさらに備える、請求項11に記載のコンピュータ可読媒体。
  13. 前記方法は:
    前記偽陽性レーティングが偽陽性閾値内である及び前記偽陰性レーティングが偽陰性閾値内である場合、展開操作を可能とするステップと、
    前記展開操作を行うためのユーザ要求を前記ユーザインターフェースを介して受信するステップと、
    前記ユーザ要求を受信したことに応答して、前記MLDプロファイルをDLPシステムのデータロスプリベンション(DLP)ポリシーに追加するステップと
    をさらに備える、請求項11に記載のコンピュータ可読媒体。
  14. 前記方法は:
    前記トレーニングデータセットから、偽陽性を起こしたデータ及び偽陰性を起こしたデータの少なくとも1つを、前記ユーザインターフェースにて特定するステップ、
    をさらに備える、請求項11に記載のコンピュータ可読媒体。
  15. 前記方法は:
    機密データについての前記陽性例及び機密データについての前記陰性例に関してのカテゴリゼーション情報を受信するステップと、
    前記トレーニングデータセットに追加すべきデータのカテゴリを前記ユーザインターフェースにて特定して前記クオリティーメトリックを向上させるステップと
    をさらに備える、請求項10に記載のコンピュータ可読媒体。
  16. 前記方法は
    記MLDプロファイルについての新たなクオリティーメトリックを前記ユーザインターフェースに表示するステッ
    さらに備える、請求項10に記載のコンピュータ可読媒体。
  17. 前記トレーニングデータセットはDLPシステムのデータロスプリベンション(DLP)ポリシーにより収集されたものであり、機密データについての前記複数の陰性例は前記DLPポリシーにより機密ドキュメントとして誤分類されたドキュメントを含み、前記方法は:
    前記MLDプロファイルを前記DLPポリシーへ展開するステップ
    をさらに備える、請求項10に記載のコンピュータ可読媒体。
  18. 前記方法は:
    前記MLDプロファイルのための感度閾値についての選択を、前記ユーザインターフェースを介して受信するステップと、
    前記選択に基づいて前記MLDプロファイルのための感度閾値設定を制御するステップと
    をさらに備える、請求項10に記載のコンピュータ可読媒体。
  19. コンピューティング装置であって、
    機械学習マネージャのための命令を格納するためのメモリと
    前記命令を実行するための処理装置と
    を備える、コンピューティング装置であって、
    前記命令は前記処理装置に:
    前記機械学習マネージャのためのユーザインターフェースを提供させ、
    機密データについての複数の陽性例及び機密データについての複数の陰性例を含むトレーニングデータセットを、前記ユーザインターフェースを介して、受信させ、
    機械学習を用いて前記トレーニングデータセットを分析させて、新たなデータを機密データ又は非機密データとして分類するのに用いられる機械学習ベースド検出(MLD)プロファイルをトレーニングさせ、
    前記ユーザインターフェースにおいて、前記MLDプロファイルについてのクオリティーメトリックを表示させ
    前記クオリティーメトリックがクオリティー閾値を充足しなかった場合には:
    ユーザ入力に応答して前記トレーニングデータセットを変更することと、
    前記変更されたトレーニングデータセットを分析して前記MLDプロファイルを再トレーニングすることと
    を行わせる
    命令である、コンピューティング装置。
  20. 前記トレーニングデータセットを分析することは:
    前記トレーニングデータセットについて特徴抽出を行って前記陽性例の特徴及び前記陰性例の特徴を備える特徴セットを生成することと、
    前記トレーニングデータセットから分類モデルを生成することと、
    前記クオリティーメトリックを算出することであって、前記クオリティーメトリックは偽陽性レーティング、偽陰性レーティング又はメモリ利用レーティングの少なくとも1つを含む、算出することと
    を備える、請求項19に記載のコンピューティング装置。
  21. 前記命令は、前記処理装置にさらに:
    前記トレーニングデータセットから、偽陽性を起こしたデータ及び偽陰性を起こしたデータの少なくとも1つを、前記ユーザインターフェースにて特定させる、
    請求項20に記載のコンピューティング装置。
  22. 前記トレーニングデータセットはDLPシステムのデータロスプリベンション(DLP)ポリシーにより収集されたものであり、機密データについての前記複数の陰性例は前記DLPポリシーにより機密ドキュメントとして誤分類されたドキュメントを含み、
    前記MLDプロファイルを前記DLPポリシーへ展開させる命令をさらに備える、請求項19に記載のコンピューティング装置。
  23. 前記MLDプロファイルのための感度閾値についての選択を、前記ユーザインターフェースを介して受信させ、
    前記選択に基づいて前記MLDプロファイルのための感度閾値設定を制御させる
    命令をさらに備える請求項19に記載のコンピューティング装置。
JP2013556831A 2011-03-01 2012-02-29 機械学習を行うためのユーザインターフェース及びワークフロー Active JP6077472B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/038,299 2011-03-01
US13/038,299 US8682814B2 (en) 2010-12-14 2011-03-01 User interface and workflow for performing machine learning
PCT/US2012/027158 WO2012118905A1 (en) 2011-03-01 2012-02-29 User interface and workflow for performing machine learning

Publications (3)

Publication Number Publication Date
JP2014511536A JP2014511536A (ja) 2014-05-15
JP2014511536A5 JP2014511536A5 (ja) 2016-09-15
JP6077472B2 true JP6077472B2 (ja) 2017-02-08

Family

ID=46200362

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013556831A Active JP6077472B2 (ja) 2011-03-01 2012-02-29 機械学習を行うためのユーザインターフェース及びワークフロー

Country Status (7)

Country Link
US (2) US8682814B2 (ja)
EP (1) EP2681669B1 (ja)
JP (1) JP6077472B2 (ja)
CN (1) CN103620581B (ja)
AU (1) AU2012223360B2 (ja)
CA (1) CA2828744C (ja)
WO (1) WO2012118905A1 (ja)

Families Citing this family (108)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8983170B2 (en) * 2008-01-18 2015-03-17 Mitek Systems, Inc. Systems and methods for developing and verifying image processing standards for mobile deposit
US9292737B2 (en) 2008-01-18 2016-03-22 Mitek Systems, Inc. Systems and methods for classifying payment documents during mobile image processing
US9842331B2 (en) 2008-01-18 2017-12-12 Mitek Systems, Inc. Systems and methods for mobile image capture and processing of checks
US10685223B2 (en) 2008-01-18 2020-06-16 Mitek Systems, Inc. Systems and methods for mobile image capture and content processing of driver's licenses
US8862522B1 (en) 2010-12-14 2014-10-14 Symantec Corporation Incremental machine learning for data loss prevention
US9015082B1 (en) 2010-12-14 2015-04-21 Symantec Corporation Data quality assessment for vector machine learning
US8682814B2 (en) 2010-12-14 2014-03-25 Symantec Corporation User interface and workflow for performing machine learning
US9094291B1 (en) 2010-12-14 2015-07-28 Symantec Corporation Partial risk score calculation for a data object
US8510446B1 (en) * 2011-03-15 2013-08-13 Symantec Corporation Dynamically populating an identity-correlation data store
US8763072B2 (en) 2011-05-09 2014-06-24 Symantec Corporation Preventing inappropriate data transfers based on reputation scores
US8666916B2 (en) 2011-07-07 2014-03-04 Yahoo! Inc. Method for summarizing event-related texts to answer search queries
KR20130114417A (ko) * 2012-04-09 2013-10-17 한국전자통신연구원 훈련 함수 생성 장치, 훈련 함수 생성 방법 및 그것을 이용한 특징 벡터 분류 방법
US8448260B1 (en) * 2012-05-25 2013-05-21 Robert Hansen Electronic clipboard protection
US9501744B1 (en) 2012-06-11 2016-11-22 Dell Software Inc. System and method for classifying data
US9578060B1 (en) * 2012-06-11 2017-02-21 Dell Software Inc. System and method for data loss prevention across heterogeneous communications platforms
US9779260B1 (en) 2012-06-11 2017-10-03 Dell Software Inc. Aggregation and classification of secure data
US9390240B1 (en) 2012-06-11 2016-07-12 Dell Software Inc. System and method for querying data
US20140108307A1 (en) * 2012-10-12 2014-04-17 Wipro Limited Methods and systems for providing personalized and context-aware suggestions
US9348899B2 (en) * 2012-10-31 2016-05-24 Open Text Corporation Auto-classification system and method with dynamic user feedback
US9122679B1 (en) * 2012-12-28 2015-09-01 Symantec Corporation Method and system for information retrieval effectiveness estimation in e-discovery
US9536139B2 (en) 2013-03-15 2017-01-03 Mitek Systems, Inc. Systems and methods for assessing standards for mobile image quality
US9246944B1 (en) * 2013-05-28 2016-01-26 Symantec Corporation Systems and methods for enforcing data loss prevention policies on mobile devices
US10346616B2 (en) * 2013-07-15 2019-07-09 General Electric Company Systems and methods for data loss prevention
US9256826B2 (en) * 2013-08-14 2016-02-09 Adobe Systems Incorporated Predicting reactions to short-text posts
US20220012346A1 (en) * 2013-09-13 2022-01-13 Vmware, Inc. Risk assessment for managed client devices
US20150244743A1 (en) * 2014-02-21 2015-08-27 Airwatch Llc Risk assessment for managed client devices
US9910724B2 (en) 2013-09-13 2018-03-06 Airwatch Llc Fast and accurate identification of message-based API calls in application binaries
CN103973708B (zh) * 2014-05-26 2018-09-07 中电长城网际系统应用有限公司 一种外泄事件的确定方法和系统
US9349016B1 (en) 2014-06-06 2016-05-24 Dell Software Inc. System and method for user-context-based data loss prevention
US10318882B2 (en) 2014-09-11 2019-06-11 Amazon Technologies, Inc. Optimized training of linear machine learning models
US11100420B2 (en) 2014-06-30 2021-08-24 Amazon Technologies, Inc. Input processing for machine learning
US10452992B2 (en) 2014-06-30 2019-10-22 Amazon Technologies, Inc. Interactive interfaces for machine learning model evaluations
US10540606B2 (en) 2014-06-30 2020-01-21 Amazon Technologies, Inc. Consistent filtering of machine learning data
US9672474B2 (en) 2014-06-30 2017-06-06 Amazon Technologies, Inc. Concurrent binning of machine learning data
US10339465B2 (en) 2014-06-30 2019-07-02 Amazon Technologies, Inc. Optimized decision tree based models
US10169715B2 (en) 2014-06-30 2019-01-01 Amazon Technologies, Inc. Feature processing tradeoff management
US10963810B2 (en) 2014-06-30 2021-03-30 Amazon Technologies, Inc. Efficient duplicate detection for machine learning data sets
US10102480B2 (en) 2014-06-30 2018-10-16 Amazon Technologies, Inc. Machine learning service
US9886670B2 (en) 2014-06-30 2018-02-06 Amazon Technologies, Inc. Feature processing recipes for machine learning
US11182691B1 (en) 2014-08-14 2021-11-23 Amazon Technologies, Inc. Category-based sampling of machine learning data
US9691025B2 (en) * 2014-09-16 2017-06-27 Caterpillar Inc. Machine operation classifier
US10210463B2 (en) * 2014-12-05 2019-02-19 Microsoft Technology Licensing, Llc Quick path to train, score, and operationalize a machine learning project
US10068185B2 (en) * 2014-12-07 2018-09-04 Microsoft Technology Licensing, Llc Error-driven feature ideation in machine learning
US10217171B2 (en) * 2014-12-15 2019-02-26 Hartford Fire Insurance Company System to administer insurance knowledge management tool
US10326748B1 (en) 2015-02-25 2019-06-18 Quest Software Inc. Systems and methods for event-based authentication
US10417613B1 (en) 2015-03-17 2019-09-17 Quest Software Inc. Systems and methods of patternizing logged user-initiated events for scheduling functions
US10127234B1 (en) 2015-03-27 2018-11-13 Amazon Technologies, Inc. Proactive optimizations at multi-tier file systems
US9990506B1 (en) 2015-03-30 2018-06-05 Quest Software Inc. Systems and methods of securing network-accessible peripheral devices
US9842220B1 (en) 2015-04-10 2017-12-12 Dell Software Inc. Systems and methods of secure self-service access to content
US9641555B1 (en) 2015-04-10 2017-05-02 Dell Software Inc. Systems and methods of tracking content-exposure events
US9563782B1 (en) 2015-04-10 2017-02-07 Dell Software Inc. Systems and methods of secure self-service access to content
US9569626B1 (en) 2015-04-10 2017-02-14 Dell Software Inc. Systems and methods of reporting content-exposure events
US9842218B1 (en) 2015-04-10 2017-12-12 Dell Software Inc. Systems and methods of secure self-service access to content
US10540608B1 (en) 2015-05-22 2020-01-21 Amazon Technologies, Inc. Dynamically scaled training fleets for machine learning
US10536352B1 (en) 2015-08-05 2020-01-14 Quest Software Inc. Systems and methods for tuning cross-platform data collection
US9443192B1 (en) 2015-08-30 2016-09-13 Jasmin Cosic Universal artificial intelligence engine for autonomous computing devices and software applications
US9699205B2 (en) 2015-08-31 2017-07-04 Splunk Inc. Network security system
CN105184403B (zh) * 2015-09-01 2018-09-28 华东师范大学 基于机器学习和统计模型检验的工作流最优配置寻优方法
US10664777B2 (en) * 2015-09-11 2020-05-26 Workfusion, Inc. Automated recommendations for task automation
US10079835B1 (en) * 2015-09-28 2018-09-18 Symantec Corporation Systems and methods for data loss prevention of unidentifiable and unsupported object types
ES2696751T3 (es) * 2015-09-29 2019-01-17 Siemens Ag Transmisión de datos de un objeto, encriptada de diferentes modos
US10157358B1 (en) 2015-10-05 2018-12-18 Quest Software Inc. Systems and methods for multi-stream performance patternization and interval-based prediction
US10218588B1 (en) 2015-10-05 2019-02-26 Quest Software Inc. Systems and methods for multi-stream performance patternization and optimization of virtual meetings
US10366053B1 (en) 2015-11-24 2019-07-30 Amazon Technologies, Inc. Consistent randomized record-level splitting of machine learning data
US10394532B2 (en) * 2015-12-22 2019-08-27 Opera Solutions U.S.A., Llc System and method for rapid development and deployment of reusable analytic code for use in computerized data modeling and analysis
US20170185898A1 (en) * 2015-12-26 2017-06-29 Arnab Paul Technologies for distributed machine learning
US10713589B1 (en) 2016-03-03 2020-07-14 Amazon Technologies, Inc. Consistent sort-based record-level shuffling of machine learning data
US10142391B1 (en) 2016-03-25 2018-11-27 Quest Software Inc. Systems and methods of diagnosing down-layer performance problems via multi-stream performance patternization
US10778707B1 (en) 2016-05-12 2020-09-15 Amazon Technologies, Inc. Outlier detection for streaming data using locality sensitive hashing
US10726356B1 (en) 2016-08-01 2020-07-28 Amazon Technologies, Inc. Target variable distribution-based acceptance of machine learning test data sets
US9864933B1 (en) 2016-08-23 2018-01-09 Jasmin Cosic Artificially intelligent systems, devices, and methods for learning and/or using visual surrounding for autonomous object operation
US10789150B2 (en) * 2016-10-07 2020-09-29 Sap Portals Israel Ltd. Static analysis rules and training data repositories
US10452974B1 (en) 2016-11-02 2019-10-22 Jasmin Cosic Artificially intelligent systems, devices, and methods for learning and/or using a device's circumstances for autonomous device operation
US20180165604A1 (en) * 2016-12-09 2018-06-14 U2 Science Labs A Montana Systems and methods for automating data science machine learning analytical workflows
US10607134B1 (en) 2016-12-19 2020-03-31 Jasmin Cosic Artificially intelligent systems, devices, and methods for learning and/or using an avatar's circumstances for autonomous avatar operation
US11777963B2 (en) * 2017-02-24 2023-10-03 LogRhythm Inc. Analytics for processing information system data
US10410014B2 (en) 2017-03-23 2019-09-10 Microsoft Technology Licensing, Llc Configurable annotations for privacy-sensitive user content
JP6880891B2 (ja) * 2017-03-23 2021-06-02 日本電気株式会社 マルウェア判定方法、マルウェア判定装置及びマルウェア判定プログラム
AU2018200877A1 (en) * 2017-03-30 2018-10-18 Accenture Global Solutions Limited Closed loop nodal analysis
US20210142221A1 (en) * 2017-05-08 2021-05-13 British Telecommunications Public Limited Company Autonomous logic modules
US10462208B2 (en) 2017-07-11 2019-10-29 Bank Of America Corporation File transfer system with dynamic file exchange control functions
RU2672394C1 (ru) 2017-07-26 2018-11-14 Общество С Ограниченной Ответственностью "Яндекс" Способы и системы для оценки обучающих объектов посредством алгоритма машинного обучения
US10614233B2 (en) * 2017-07-27 2020-04-07 International Business Machines Corporation Managing access to documents with a file monitor
US11138517B2 (en) * 2017-08-11 2021-10-05 Google Llc On-device machine learning platform
US11250433B2 (en) 2017-11-02 2022-02-15 Microsoft Technologly Licensing, LLC Using semi-supervised label procreation to train a risk determination model
US10102449B1 (en) 2017-11-21 2018-10-16 Jasmin Cosic Devices, systems, and methods for use in automation
US10474934B1 (en) 2017-11-26 2019-11-12 Jasmin Cosic Machine learning for computing enabled systems and/or devices
US10402731B1 (en) 2017-12-15 2019-09-03 Jasmin Cosic Machine learning for computer generated objects and/or applications
CN108664801B (zh) * 2018-03-15 2020-07-10 北京明朝万达科技股份有限公司 一种结合机器学习的数据防泄漏策略动态更新方法及装置
US11238366B2 (en) 2018-05-10 2022-02-01 International Business Machines Corporation Adaptive object modeling and differential data ingestion for machine learning
US20190354718A1 (en) * 2018-05-16 2019-11-21 Microsoft Technology Licensing, Llc. Identification of sensitive data using machine learning
US11443058B2 (en) * 2018-06-05 2022-09-13 Amazon Technologies, Inc. Processing requests at a remote service to implement local data classification
US11500904B2 (en) 2018-06-05 2022-11-15 Amazon Technologies, Inc. Local data classification based on a remote service interface
CN108960433B (zh) * 2018-06-26 2022-04-05 第四范式(北京)技术有限公司 用于运行机器学习建模过程的方法及系统
CN109284631A (zh) * 2018-10-26 2019-01-29 中国电子科技网络信息安全有限公司 一种基于大数据的文档脱敏系统及方法
JP7263074B2 (ja) * 2019-03-22 2023-04-24 キヤノン株式会社 情報処理装置、及びその制御方法、プログラム、記憶媒体
US10915658B1 (en) 2019-07-16 2021-02-09 Capital One Services, Llc System, method, and computer-accessible medium for training models on mixed sensitivity datasets
US20210103808A1 (en) * 2019-10-08 2021-04-08 InteliSecure Automatic triaging of network events
CN111143882A (zh) * 2019-12-31 2020-05-12 杭州依图医疗技术有限公司 一种信息处理方法及装置
US11620673B1 (en) 2020-01-21 2023-04-04 Deepintent, Inc. Interactive estimates of media delivery and user interactions based on secure merges of de-identified records
US11475155B1 (en) 2020-01-21 2022-10-18 Deepintent, Inc. Utilizing a protected server environment to protect data used to train a machine learning system
US11755848B1 (en) * 2020-05-14 2023-09-12 Wells Fargo Bank, N.A. Processing structured and unstructured text to identify sensitive information
US11861470B2 (en) 2020-08-13 2024-01-02 State Farm Mutual Automobile Insurance Company Simplistic machine learning model generation tool for predictive data analytics
US11829516B1 (en) * 2020-09-30 2023-11-28 Amazon Technologies, Inc. Automated actions for application policy violations
KR102632607B1 (ko) * 2020-10-22 2024-02-02 주식회사 마음에이아이 서비스 생성 방법
CN112702339A (zh) * 2020-12-23 2021-04-23 中移(杭州)信息技术有限公司 基于深度迁移学习的异常流量监测与分析方法和装置
US11870757B1 (en) 2021-04-14 2024-01-09 Wells Fargo Bank, N.A. Protecting customer personal information in application pipeline
WO2023009905A1 (en) * 2021-07-29 2023-02-02 Google Llc Determining available memory on a mobile platform

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4132229B2 (ja) * 1998-06-03 2008-08-13 株式会社ルネサステクノロジ 欠陥分類方法
US9311499B2 (en) * 2000-11-13 2016-04-12 Ron M. Redlich Data security system and with territorial, geographic and triggering event protocol
US20040034612A1 (en) * 2002-03-22 2004-02-19 Nick Mathewson Support vector machines for prediction and classification in supply chain management and other applications
US20040133574A1 (en) * 2003-01-07 2004-07-08 Science Applications International Corporaton Vector space method for secure information sharing
US7480640B1 (en) * 2003-12-16 2009-01-20 Quantum Leap Research, Inc. Automated method and system for generating models from data
US7499897B2 (en) * 2004-04-16 2009-03-03 Fortelligent, Inc. Predictive model variable management
US7484065B2 (en) * 2004-04-20 2009-01-27 Hewlett-Packard Development Company, L.P. Selective memory allocation
US8272064B2 (en) * 2005-11-16 2012-09-18 The Boeing Company Automated rule generation for a secure downgrader
US20070300306A1 (en) * 2006-06-21 2007-12-27 Basit Hussain Method and system for providing granular data access control for server-client applications
US8256006B2 (en) * 2006-11-09 2012-08-28 Touchnet Information Systems, Inc. System and method for providing identity theft security
US8160977B2 (en) 2006-12-11 2012-04-17 Poulin Christian D Collaborative predictive model building
US7908234B2 (en) * 2008-02-15 2011-03-15 Yahoo! Inc. Systems and methods of predicting resource usefulness using universal resource locators including counting the number of times URL features occur in training data
US9082080B2 (en) * 2008-03-05 2015-07-14 Kofax, Inc. Systems and methods for organizing data sets
EP2112803B1 (en) * 2008-04-22 2013-12-18 Alcatel Lucent Attack protection for a packet-based network
US8423483B2 (en) * 2008-05-16 2013-04-16 Carnegie Mellon University User-controllable learning of policies
US8214364B2 (en) * 2008-05-21 2012-07-03 International Business Machines Corporation Modeling user access to computer resources
US20090293121A1 (en) * 2008-05-21 2009-11-26 Bigus Joseph P Deviation detection of usage patterns of computer resources
CN100585617C (zh) * 2008-07-04 2010-01-27 西安电子科技大学 基于分类器集成的人脸识别系统及其方法
US8051187B2 (en) * 2008-12-22 2011-11-01 Check Point Software Technologies Ltd. Methods for automatic categorization of internal and external communication for preventing data loss
US8613040B2 (en) * 2008-12-22 2013-12-17 Symantec Corporation Adaptive data loss prevention policies
JP5213758B2 (ja) * 2009-02-26 2013-06-19 三菱電機株式会社 情報処理装置及び情報処理方法及びプログラム
US8286253B1 (en) * 2009-11-23 2012-10-09 Trend Micro Incorporated Data leakage prevention for resource limited device
US9311495B2 (en) * 2010-12-09 2016-04-12 International Business Machines Corporation Method and apparatus for associating data loss protection (DLP) policies with endpoints
US8682814B2 (en) 2010-12-14 2014-03-25 Symantec Corporation User interface and workflow for performing machine learning
US8626682B2 (en) 2011-02-22 2014-01-07 Thomson Reuters Global Resources Automatic data cleaning for machine learning classifiers

Also Published As

Publication number Publication date
JP2014511536A (ja) 2014-05-15
EP2681669A1 (en) 2014-01-08
CN103620581A (zh) 2014-03-05
CN103620581B (zh) 2017-06-06
CA2828744C (en) 2020-08-25
EP2681669A4 (en) 2014-08-13
AU2012223360A1 (en) 2013-09-19
CA2828744A1 (en) 2012-09-07
US9177261B2 (en) 2015-11-03
EP2681669B1 (en) 2020-08-05
US20140172760A1 (en) 2014-06-19
AU2012223360B2 (en) 2017-04-06
US8682814B2 (en) 2014-03-25
WO2012118905A1 (en) 2012-09-07
US20120150773A1 (en) 2012-06-14

Similar Documents

Publication Publication Date Title
JP6077472B2 (ja) 機械学習を行うためのユーザインターフェース及びワークフロー
US9691027B1 (en) Confidence level threshold selection assistance for a data loss prevention system using machine learning
US8862522B1 (en) Incremental machine learning for data loss prevention
US9015082B1 (en) Data quality assessment for vector machine learning
US11106789B2 (en) Dynamic cybersecurity detection of sequence anomalies
US8844059B1 (en) Method and apparatus for preventing data loss through screen capture
US7991747B1 (en) System and method for managing data loss due to policy violations in temporary files
US10503906B2 (en) Determining a risk indicator based on classifying documents using a classifier
US8949371B1 (en) Time and space efficient method and system for detecting structured data in free text
Russo et al. Summarizing vulnerabilities’ descriptions to support experts during vulnerability assessment activities
US8627403B1 (en) Policy applicability determination
CN112602081A (zh) 利用警报置信度分配来增强网络安全和操作监控
US20160202972A1 (en) System and method for checking open source usage
Jiang et al. Recommending new features from mobile app descriptions
Ebrahimi et al. Mobile app privacy in software engineering research: A systematic mapping study
US20090259622A1 (en) Classification of Data Based on Previously Classified Data
US20100228730A1 (en) Inferring sensitive information from tags
Feiz et al. Understanding screen relationships from screenshots of smartphone applications
Alzhrani et al. Automated big text security classification
KR102263111B1 (ko) 데이터 보안 관리 방법 및 이를 수행하기 위한 프로그램을 기록한 기록 매체
Joun et al. Relevance analysis using revision identifier in MS word
Esteva et al. Data mining for “big archives” analysis: A case study
Sharma et al. Bug Report Triaging Using Textual, Categorical and Contextual Features Using Latent Dirichlet Allocation
CN116894018A (zh) 事件数据处理
CN111177737A (zh) 一种基于数据内容的数据加密方法以及相关装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150213

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160426

A524 Written submission of copy of amendment under article 19 pct

Free format text: JAPANESE INTERMEDIATE CODE: A524

Effective date: 20160725

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161220

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170112

R150 Certificate of patent or registration of utility model

Ref document number: 6077472

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250