JP2012524941A - 自動分類ルールを含むデータ分類パイプライン - Google Patents

自動分類ルールを含むデータ分類パイプライン Download PDF

Info

Publication number
JP2012524941A
JP2012524941A JP2012507264A JP2012507264A JP2012524941A JP 2012524941 A JP2012524941 A JP 2012524941A JP 2012507264 A JP2012507264 A JP 2012507264A JP 2012507264 A JP2012507264 A JP 2012507264A JP 2012524941 A JP2012524941 A JP 2012524941A
Authority
JP
Japan
Prior art keywords
classification
classifier
data
pipeline
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012507264A
Other languages
English (en)
Other versions
JP2012524941A5 (ja
JP5600345B2 (ja
Inventor
エイドリアン オルテアン ポール
ロー クライド
ハーディー ジャッド
ベンズビ ニル
カラチ ラン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2012524941A publication Critical patent/JP2012524941A/ja
Publication of JP2012524941A5 publication Critical patent/JP2012524941A5/ja
Application granted granted Critical
Publication of JP5600345B2 publication Critical patent/JP5600345B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/122File system administration, e.g. details of archiving or snapshots using management policies

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Bioethics (AREA)
  • Biotechnology (AREA)
  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Fuzzy Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Primary Health Care (AREA)

Abstract

データ項目の管理をそれらの分類に基づいて容易にするために、データ項目(ファイル)が分類パイプラインを含む拡張可能なデータ処理パイプラインを介して処理される技術について説明される。発見モジュールは、処理するデータ項目を見つける。独立した分類パイプラインは、発見された各データ項目と関連付けられたメタデータ(プロパティ)を入手して、1または複数の分類子は、そのメタデータに基づいてデータ項目を分類する。独立したポリシーモジュールは、データ項目の分類に基づいてポリシーを各データ項目に適用する。複数の分類子は、さまざまな基準に基づいて呼び出され得る。分類子の事前定義された順序付け、権限のある分類子および/または集約機構は、任意の分類競合に対処する。異なる分類子型が提供され得るし、各分類子は、自動的な分類ルールに対応し得るし、分類子は、プロパティを直接変更し(例えば、分類を設定する)または結果をプロパティを変更するための対応するルール機構に返し得る。

Description

本発明は、自動分類ルールを含むデータ分類パイプラインに関する。
典型的な企業環境において維持されて処理されるデータ量は、膨大で急速に増加している。例えば、情報技術(IT)部門が、数十のフォーマット内の何百万あるいは何十億ものファイルを取り扱わなければならないのはよくあることである。さらに、既存の数は、かなりの率で増加する(例えば、1年で二桁の増加)傾向にある。このようなデータのほとんどは、積極的に管理されずに、共有するファイル内に構造化されていない形で保存されている。
既存のデータ管理ツールおよびその実施は、提示し得る多様で複雑なシナリオの変化に対応する能力があまりない。そのようなシナリオは、コンプライアンス、セキュリティ、および格納を含み、そして構造化されていないデータ(例えば、ファイル)、半構造化データ(例えば、ファイルに別のプロパティ/メタデータを足したもの)、および構造化データ(例えば、データベースによる構造化)に適用する。従って、管理コストおよびリスクを低減する何らかの技術が望ましい。
本発明の概要は、以下の発明を実施するための形態でさらに説明される代表的な概念からの選択を簡易な形式において導入するために与えられる。本発明の概要は、特許請求される発明の主題の主要な特徴または不可欠な特徴を明らかにすることを意図せず、特許請求される発明の主題の範囲を限定するであろういかなる方法においても使用されることを意図しない。
簡潔に言えば、本明細書で説明される発明の主題のさまざまな態様は、データ項目(例えば、ファイル)がデータ処理パイプライン(data processing pipeline)を通じて処理される技術に向けられ、データ処理パイプラインは、データ項目をその分類に基づいて管理するのを容易にする分類パイプライン(classification pipeline)を含む。一態様において、分類パイプラインは、発見された各データ項目と関連付けられるメタデータ(例えば、ビジネスインパクト、プライバシーレベルなど)を入手する。1または複数の分類子(classifiers)のセットは、呼び出されるとデータ項目を分類メタデータ(例えば、1または複数のプロパティ)に分類し、分類メタデータは、次に、そのデータ項目と関連付けられる(関連付けられて保存される)。ポリシーは、次に、データ項目が関連付けられた分類メタデータに基づいて各データ項目に適用され、例えば、各ファイルのメタデータに基づいてファイルを消去(expire)したり、ファイルの保護/アクセスレベルを変更したりするなどに適用され得る。
一態様において、データ項目を処理するパイプラインは、項目を発見し、分類し、そしてポリシーを適用する独立したフェーズに対するモジュラーコンポーネントを含む。各フェーズは、拡張可能であり、そのフェーズ内で機能する1または複数のモジュールを含むことができる(またはモジュールを含まない)。各項目の分類メタデータ/プロパティは、設定されたインタフェースまたは取得されたインタフェースを経由して外部で設定または入手され得る。
一態様において、分類フェーズにおいて、複数の分類子モジュールが呼び出され得る。データ項目が以前に分類されたかどうかおよび/または分類された時間といった、さまざまな基準に基づいて、各分類子を呼び出すかどうかの決定が行われ得る。分類子は、データ項目を分類する際、データ項目と関連付けられるプロパティ、および/またはデータ項目自体のコンテンツを任意に使用し得る。分類子の事前定義された順序付け、権限のある(authoritative)分類子および/または集約(aggregation)機構は、異なる分類子が同じ項目を分類することによる競合に対処するのに使用され得る技術に含まれる。
データ項目の場所に基づいてデータ項目を分類する分類子、グローバルリポジトリベースの分類子(所有者および/または著者に基づく)、および/または項目内に含まれるコンテンツに基づいて項目を分類するコンテンツベースの分類子を含む、異なる分類子型が提供され得る。各分類子は、自動分類ルールに対応し得るし、その分類子は、プロパティ値を直接変更し得る、または対応するルール機構がプロパティを変更できるように、変更した結果を対応するルール機構に返し得る。
他の利点は、図面と併用される時に以下の詳細な説明によって明らかになり得る。
本発明は、例として図示され、同様の参照数字が同様の要素を含む添付図に限定されない。
データ管理のために、データ項目を自動的に処理するパイプラインサービスにおいて、データ項目を発見し、そのデータ項目を分類し、そしてその分類に基づいてポリシーを適用することを含む例示的なモジュールを示すブロック図である。 ファイルサーバのファイルを処理してそのファイルと関連付けられたプロパティにする時にパイプラインサービスによって行われる例示的なステップを示す代表的な図である。 データ項目のプロパティが分類ランタイム経由で処理するためのモジュール同士で渡され得る方法を実証する例示的な分類サービスアーキテクチャの代表的な図である。 ポリシーを適用するための項目を分類するステップを含むデータ項目を処理するために用いられる例示的なステップを示すフロー図を備える図である。 ポリシーを適用するための項目を分類するステップを含むデータ項目を処理するために用いられる例示的なステップを示すフロー図を備える図である。 本発明のさまざまな態様が組み込まれ得るコンピューティング環境の例を示す図である。
本明細書で説明される技術のさまざまな態様は、データ項目(オブジェクト)を分類に分類し、そしてその分類に基づいてデータ管理ポリシーを適用することによってデータ(例えば、ファイルサーバ上のファイルまたは同種のもの)を管理することに概ね向けられる。一態様において、これは、分類パイプラインに基づいたデータ分類対応ソリューション用のモジュラーアプローチ経由で達成される。概して、パイプラインは、共通インタフェースを通じて通信を行う一連のモジュラーソフトウェアコンポーネントを備える。さまざまな時点で、データ分類に基づいたデータに適用されるポリシーを用いて、データが発見されて分類される。
ファイルサーバ上で維持されるファイル/データを分類するための異なるファイルの分類型のようなさまざまな例が、本明細書で説明されるが、本明細書で説明されるどの例も限定する例ではないことに留意されたい。例えば、ファイルが分類され得るだけでなく、他のデータ構造も関係のある分類「型」に分類され得るし、例えば、構造化された任意のデータ(例えば、データの表し方およびデータにアクセスすることができる方法を記述する抽象モデルに続く任意のデータ)が、例えば、電子メール項目、データベースのテーブル、ネットワークデータなどに分類され得る。さらに、データを格納する他の方法が使用され得るし、例えば、ファイルサーバの代わりまたはそれに加えて、データが、ローカルストレージ、分散ストレージ、ストレージエリアネットワーク、インターネットストレージなどに維持され得る。そのため、本発明は、本明細書で説明される特定の実施形態、態様、概念、構造、機能性または例に限定されない。むしろ、本明細書で説明される実施形態、態様、概念、構造、機能性または例のいずれも限定するものではないし、本発明は、概してコンピューティングおよびデータ管理において利益を与えるさまざまな方法に使用され得る。
図1は、本明細書で説明される、データ項目を処理するパイプラインを含む技術に関係するさまざまな態様を示し、本明細書で例証されるパイプラインは、ファイルを処理するのに使用され得るが、電子メール項目などの1または複数の他のデータ構造を処理するのに使用され得るようにも理解される。図1の例において、パイプラインは、データストア104によって表されるようなデータの任意のセット上で動作するサービス102として実装される。
概して、パイプライン102は、発見モジュール106、分類サービス108、およびポリシーモジュール113を含む。用語「サービス」は、単一のマシンと必ずしも関連付けられるわけではないが、パイプラインのある実行を調整する機構であることに留意されたい。この例において、分類サービス108は、他のモジュール、つまりメタデータ抽出モジュール(複数可)109、分類モジュール(複数可)110、およびメタデータストレージモジュール(複数可)111を含む。以下で説明されるそれぞれのモジュールは、フェーズであると考えられ得るし、実際、動作ごとのタイムラインが連続する必要はなく、即ち、各フェーズは、比較的独立して行われ得るし、直ちに前のフェーズに続く必要はない。例えば、発見フェーズは、分類フェーズが後で分類する項目を発見して維持し得る。別の例として、データは、週に1回稼動するデータ管理アプリケーション(例えば、バックアップ)を用いて1日ベースで分類され得る。どのフェーズも、実時間のオンライン処理またはオフライン処理、フォアグラウンドまたはバックグラウンド(例えば、遅延)動作、または別個のマシン上に分散される方法によって、独立して行われ得る。
概して、発見モジュール(複数可)106は、分類する項目(例えば、ファイル)を見つけて、分類するために2以上の機構を使用し得る。例として、ファイルサーバ上でファイルを発見する2つの方法があり得、1つの方法では、ファイルシステムをスキャンすることによって動作し、もう1つの方法では、リモートファイルアクセスプロトコルからのファイルの新しい修正を検出する。概して、発見されたデータは、分類するための項目として、直接または中間ストレージ経由で分類フェーズ/サービス108に提供される。このようにして、発見は、分類から論理的にデタッチされ得る。
発見は、いくつかの方法で開始され得る。1つの方法は、要求の後に項目が発見されるオンデマンド方法である。別の方法は、1または複数の項目の変更が発見動作をトリガする実時間の方法である。さらに別の方法は、例えば、通常の就業時間後の1日1回などにスケジュールされた発見方法である。さらに別の方法は、バックグラウンドプロセスまたは同種のものが、例えば、ネットワークまたはサーバ利用が比較的少ない時などの低い優先度で項目を発見するように動作する遅延した発見方法である。さらに、発見は、オンライン動作において、つまり、実データ上で、または元データのポイント・イン・タイムスナップショットなどのデータのオフラインコピー上で稼動され得ることに留意されたい(概して、スナップショットコピーは、特定のデータ項目がある定義された時点にあった時のそれらのコピーを指し、それによって、データ項目が実時間に変更し得る生システムとは対照的に、スナップショットコピー上の作業は、データ項目が処理される時にそれらが変わらない状態を維持するのに役立つことに留意されたい)。
分類フェーズ/サービス108(以下で説明される)に続いて、ポリシーモジュール(複数可)113は、各項目の分類に基づいてポリシーを適用する。例として、情報漏洩保護プロダクトは、あるファイルが「個人識別可能情報」または同種のものを有すると分類し得る。ファイルバックアッププロダクトは、「個人識別可能情報」を有すると分類される任意のファイルが、暗号化されたストレージにバックアップされるようなポリシーに構成され得る。
次に図1に表したような分類に関係するさまざまな態様について、メタデータ抽出モジュール(複数可)109は、データ項目と関連付けれたメタデータを見つける。例えば、ファイルシステムは、それがファイルを関連付ける多くの属性を有し、この属性は、周知の方法で抽出され得る。メタデータ抽出モジュール(複数可)109は、それを分類フェーズへの入力として使用することができるように、分類メタデータの現在の値も抽出する。分類は、生データまたはバックアップデータ上で稼動され得ることに留意されたい。
メタデータのいくつかの例は、プロパティ名(または識別子)、値型プロパティ(property value type)(実値のデータ型、例えば、ストリング、日付、ブール値、順序付けられた値のセットまたは複数セットなどの単純なデータ型を識別する)、および階層的分類法によって記述されるデータ型(文書型、組織単位、または地理的場所)などの複雑なデータ型といったさまざまな要素を有する分類プロパティ定義を含む。分類プロパティ値(「プロパティ値」または単純に「プロパティ」と呼ぶ)は、データ項目を分類する目的でそのデータ項目に割り当てられ得るある値である。この値は、分類プロパティと関連付けられて、その関連付けられたプロパティ定義によって課せられる制限を概ね遵守する。
他の例は、プロパティスキーマ(実行可能な値に対する多くの制限を記述する)および複数の値が単一の値に集約され得る方法を記述する集約ポリシーを含み、パイプラインを実行する間にそのような集約が必要な場合に行う。さらに、メタデータは、言語依存情報、追加の識別子などのプロパティと関連付けられる付加的な属性を備え得る。
例として、型が「順序付けられた値のセット(ordered value set)」で「ビジネスインパクト(Business impact)」という名のプロパティがあり、HBI(高位ビジネスインパクト)、MBI(中位ビジネスインパクト)およびLBI(低位ビジネスインパクト)の値に限られ、HBIはMBIに勝り、MBIはLBIに勝る集約ポリシーを用いると考えてみる。分類プロセスにおいて、プロパティ値をデータ項目に関連付けることは、その文書を文書のクラス(例えば、カテゴリ)に自動的に「結合する(bind)」ことに留意されたい。例えば、プロパティBusinessimpact=HBI”をデータ項目にアタッチすることによって、このデータ項目は、文書Businessimpact=HBI”の「カテゴリ」に暗示的に割り当てられる。
メタデータは、外部のデータソースまたは他のキャッシュ内でも維持され得る。一例では、ユーザ、またはクライアント、および/または1または複数の他の機構が、分類メタデータまたは分類自体を設定し、それを、データベースなどのデータストア内に維持するのを可能にすることを含む。従って、例えば、ユーザは、ファイルを「個人識別可能情報」または同種のものを含むように手動で設定し得る。自動化プロセスは、例えば、ファイルが機密フォルダに付加される時に、プロセスが、関連付けられたメタデータをそのファイルに自動的に設定し得るなど、どのようなフォルダがファイルを含むかに基づいてメタデータを決定するといった同様の動作を行い得る。
さらに、項目用のメタデータは、以前の抽出および/または分類動作によって維持(キャッシュされ得る。従って、メタデータの抽出は、例えば、既存のメタデータを抽出(読み出し)するおよび新しいメタデータを抽出するなど、複数の部分において行われ得る。容易に認識することができるように、既存のメタデータの読み出しは、ほとんど変更しないファイルなどに対する分類効率を上げ得る。さらに、効率機構は、例えば、分類子から受信したタイムスタンプに基づくなど、その分類子のメタデータが更新された最後の時間に基づいて分類子を呼び出すかどうかを決定し得る。ルール変更または分類子変更といった分類子サービス108の構成の変更も、新しい分類をトリガし得る。
ひとたび項目用のメタデータが入手されると、1または複数の分類モジュール110は、そのメタデータに基づいて項目を分類する。その項目のコンテンツも、例えば、ファイルを分類するのに使用され得るファイルのプロパティに関するあるキーワード(例えば、「機密用(confidential)」、タグまたは他のインジケータを探すのに評価され得る。データを分類するのにさまざまな方法がある。例えば、ファイルを分類する時、ファイルは、ユーザによって手動で分類に設定され、および/またはファイルを制御するラインオブビジネス(LOB)アプリケーション(例えば、人材アプリケーション)によって分類されたかもしれない。ファイルは、管理スクリプトを稼動することによって分類に設定され、および/または分類ルールのセットを使用して自動的に分類され得る。
概して、自動分類ルールは、分類パイプラインフェーズ108の一部である一般的で拡張可能な機構を提供する。これによって、管理者または同種のものが、データ項目に適用されてその項目を分類する自動分類ルールを定義できるようになる。各自動分類ルールは、あるデータオブジェクトのセットの分類を決定して、分類プロパティを設定することができる分類モジュール(分類子)をアクティブ化する。1つの分類子モジュールは、同じデータ項目(または異なるデータ項目)に対して異なる分類プロパティを決定するいくつかのルールを含み得る。さらに、複数の分類子は、同じデータ項目に適用され得るし、例えば、異なる2つの分類子がそれぞれ、ファイルが「個人識別可能情報」を有するかどうかを決定し得る。両方の分類子は、同じファイルを評価するのにデプロイ(deploy)され得るし、それによって、たとえ1つの分類子のみが、ファイルが「個人識別可能情報」を含むと決定しても、そのファイルは、そのように分類される。
例として、ルールが包含し得るいくつかの要素は、ルール管理情報(ルール名、識別子など)、ルールスコープ(rule scope)(「c:\folder1内のすべてのファイルといったルールによって管理されるデータ項目のセットの記述」)、およびパイプラインの間にルールがどのようにして実行されるかを記述する、ルール評価オプションを含む。他の要素は、分類子モジュール(このルールによって使用される分類子を参照して実際にプロパティ値に割り当てる)、プロパティ(このルールによって割り当てられたプロパティのセットを定義する任意の記述)、および付加的な実行ポリシー(ファイルのコンテンツおよび同種のものを分類するのに使用される正規表現のような付加的なフィルタなど)のような付加的なルールパラメータを含む。
分類子モジュールの例は、(1)データ項目の場所(例えば、ファイルディレクトリ)に基づいて項目を分類する分類子、(2)データ項目のいくつかの特性に基づいてグローバルリポジトリを使用する(例えば、ファイル所有者に基づいてActive Directory(登録商標)またはADの組織単位を検索する)ことによって分類する分類子、(3)データコンテンツおよびデータ特性に基づいて分類する(例えば、項目のデータのパターンを探す)分類子を含む。これらは例にすぎず、当業者は、項目の他の特性も異なる項目を分類するのに使用され得る、即ち、実質的に、項目間のどの相対的差異も分類目的に使用され得ることを認識し得ることに留意されたい。
一実装において、分類子は、さまざまなモードで動作し得る。例えば、1つの「明示的分類子(explicit classifier)」の動作モードは、例えば、個人情報がファイル内で見つかった時にその分類子が対応するプロパティ「PII」を「存在する(Exists)」または同種のものに設定するように、分類子を1または複数の実プロパティに設定する。もう1つの適するモードは、「非明示的分類子(non−explicit classifier)」であり、例えば、ファイルがc:\debuggerなどのあるディレクトリ内にあるかどうかについて、分類子をTRUEまたはFALSEで返し得る。TRUEまたはFALSEモードにおいて、自動分類ルールは、分類子がTRUEを返す度に設定されるプロパティおよび値に関連付けられる。従って、分類子は、1または複数のプロパティ値を設定し得るし、または分類子を呼び出すルールがそれを行い得る。TRUEまたはFALSE型以外の分類子は、例えば、数値(例えば、確率値)を返してより粒度の高い分類および分類ルールを提供するのに用いられ得ることに留意されたい。
分類に続いて、分類結果、および恐らく他の抽出されたメタデータは、項目と関連付けられて任意に保存される。図1に表すように、メタデータストレージモジュール111は、この動作を行う。格納によって、ポリシーが、後の時間にその分類に基づいて適用されるのが可能になる。
それぞれの分類パイプラインモジュールは、さまざまな企業が所与の実装をカスタマイズし得るように拡張可能である。その拡張性によって、2以上のモジュールがパイプラインの同じフェーズに差し込まれる(plugged)のを可能にする。さらに、どのフェーズも、例えば、(複数のマシンにわたる)分散方法において、並列または縦列で行われ得る。例えば、分類の計算コストが高い場合、ポリシーモジュールに提供される各並列パスの結果を用いて、項目を(例えば、負荷バランシング技術を使用して)、異なるマシン上で稼動する分類子の並列セットに分散することができる。
ポリシーに関して、アプリケーション(パイプラインに直接差し込まれないものを含む)は、項目を対処する方法についてのポリシー決定を行うために、分類メタデータを評価し得る。そのようなアプリケーションは、項目の有効期限(expiration)、監査、バックアップ、保有(retention)、検索(search)、セキュリティ、コンプライアンス、最適化などをチェックする動作を行うアプリケーションを含む。そのような保留動作(pending operation)のいずれも、データがまだ分類されていない、またはその保留動作に関してまだ分類されていないイベント内のデータの分類をトリガし得ることに留意されたい。
容易に認識することができるように、異なる分類子は、異なるおよび恐らく競合する分類結果になり得る。一態様において、プロパティに対する分類値の集約が行われる。このため、その分類プロパティを決定するために、データ項目ごとに、定義された分類ルールが(例えば、管理者またはプロセスによって)評価される。2つの分類ルールが、1つの具体的な分類プロパティに対して同じ値を設定することができる場合、集約プロセスは、その分類プロパティの最終値を決定する。従って、例えば、1つのルールによってプロパティの結果が「1」に設定されて、別のルールによってその同じプロパティの結果が「2」に設定されるであろう場合、定義された集約ポリシーは、いくつかの実施形態において、そのプロパティに与えるべき実値、即ち、「1」または「2」または他の値を決定し得る。この特定のシナリオにおいて、1つのルールは、別のルールのプロパティの設定を上書きしないが、その競合を管理するために集約ポリシーが呼び出されることに留意されたい。
別のシナリオにおいて、権限のある分類子が使用され得る。権限のある分類子は、別の分類子型であり、概して、集約ルールをアクティブ化せずに、他の分類子をオーバーライド(override)することができる分類子である。このような分類子は、例えば、どの競合にも勝るように、その結果のフラグを立てることができる。
別の態様において、分類ルールに対する評価順序を自動的に決定するための機構が提供される。このため、分類ルールの評価順序は、管理者によって決定され得るし、および/または異なるルールと分類子間のなんらかの依存関係(dependencies)によって決定されることによって自動的に決定され得る。例えば、Rule−R1が分類プロパティProperty−P1を設定して、Rule−R2が、Property−P1を使用してProperty−P2の値を決定するClassifier−C1を使用する場合、Rule−R1は、Rule−R2の前に評価される必要がある。
さらに、分類子を稼動するかどうかは、以前の分類子の結果によって決まり得る。従って、例えば、ほとんど誤検出がない1つの分類子が使用され得るし、「TRUE」が出る度にその結果が使用される。二次的な分類子(例えば、検出漏れを無くすために設計される)は、権限のある分類子が「TRUE」を返さない場合(例えば、「FALSE」または恐らく不確実性を示す結果を返す場合)にのみ考慮される。別の例では、事前定義された「高度(altitude)」に基づいて、ある分類子をパイプライン内で順序付ける。例えば、低高度(lower−altitude)の分類子は、高高度(higher altitude)の分類子の前にパイプライン内で実行される。従って、パイプラインにおいて、分類子は、高度が低いものから順にソートされる。
図2は、拡張可能な自動分類ルールをファイルサーバ220上で実装することに向けられたさらに具体的な例を示す。概して、モジュールの代わりに、図2は、パイプラインサービスのさまざまなステップ221から225までを表し、見れば分かるように、このステップ/モジュール221から225までは、図1のモジュール106、109から111まで、および113にそれぞれ対応する。従って、分類ルールは、分類パイプライン内で適用され、1または複数のデータ発見モジュール221(例えば、スキャナ)、1または複数のメタデータ読み取りモジュール222(例えば、抽出器および読み出し器)、分類(分類子)を決定する1または複数のモジュール223のセット、メタデータ(セッター(setters))を格納する1または複数のモジュール224、および分類(ポリシーモジュール)に基づいてポリシーを適用する1または複数のモジュール225を含む。
また図2に表されるように、どのステップにおいてもモジュールの数は、拡張され得る。例えば、分類ステップは、分類子用の拡張性モデルを提供し、管理者は、新しい分類子を登録し、既存の分類子を列挙し、そしてもはや望ましくない分類子の登録を取り消すことができる。
本明細書で概ね説明したように、ファイルサーバ上でファイルを管理するためのステップは、ファイルを分類すること、および各ファイルの分類に基づいてデータ管理ポリシーを適用することを含む。ファイルは、どのポリシーもファイルに適用されないように分類され得ることに留意されたい。
一実装において、ファイルサーバ220上のファイルに対する自動分類プロセスは、そのサーバ220上で定義される分類ルールによって駆動される。ファイルが、分類がアクティブであるファイルサーバ上で格納される時、そのファイルは、自動的に分類される。即ち、そのファイルを分類するユーザからの明示的要求がない。その特定のファイルサーバ上でファイルを分類するのに使用され得るさまざまな分類基準は、(1)分類ルールおよびファイルサーバ上で稼動する分類子、(2)ファイルと関連付けられたままの以前の分類ルール、および/または(3)ファイル(またはその属性)自体に格納されるプロパティを含む。この基準は、プロパティストア234に格納される(しかし、ファイル自体に格納され得る)、プロパティ232の合成セット(resultant set)を提供するために所与のファイルの分類を決定する時に評価される。
一実装において、各分類ルールは、以下に示すような評価オプションを有し得る。
ファイルがまだ分類されていない場合に限り評価する。
たとえファイルがすでに分類されていても評価し、以前の1または複数の分類プロパティ値(例えば、存在するのであれば、同じファイル上での以前の分類プロセスによる実行からの値)を考慮に入れる。
たとえファイルがすでに分類されていても評価するが、以前の分類プロパティ値のいずれも考慮に入れない。
例として、ユーザによってサーバ上のフォルダにファイルとして保存された文書(割り当てられたプロパティがない)を考えてみる。自動分類ルールは、ファイルを中位ビジネスインパクト、つまり、Businessimpact=MBIを有すると分類する。この分類は、文書内部にも格納され得る(ファイルサーバがこの文書型にインストールされるパーサーを有する理由による)。
文書が、次に別のサーバ(および異なるフォルダ)にコピーされると考えてみる。新しいフォルダは、稼動する場合、フォルダ内のファイルを分類する分類ルールに組み込まれ、ファイルがまだ分類されていない場合、高位ビジネスインパクトBusinessimpact=HBIとして分類される。しかしながら、このファイル内のプロパティが、ビジネスインパクトの分類がすでにMBIに設定されていることを示す理由により、そのファイルのビジネスプロパティは、MBIのままである。
上記のルールは、たとえファイルがすでに分類されているとしてもそのファイルを評価するために修正され得るし、ファイル内のプロパティ値を考慮に入れても入れなくてもよい。後続の分類の稼動中にそのルールが評価され、HBIがMBIよりも高位である理由により、集約ポリシーは、そのファイルのプロパティがHBIに設定されることを決定する。
見れば分かるように、各分類ルールは、そのルールに使用される分類子に依存する。別の例として、<scope>、<classifier>、<classification property>、<value>、を含む分類ルールがあり、その分類子が、ファイルを分類するのに使用される具体的な実装を含むと考えてみる。例えば、「フォルダによって分類する(classify by folder)」分類子は、ファイルの場所によってファイルの分類を可能にする。この分類子は、そのファイルの現在のパスを調べて(look at)、ファイルを分類ルールの<scope>で指定されたパスと一致させる。そのパスが<scope>内にある場合、ルールは、<classification property>が、そのルールで指定された<value>を有することができることを示す(この分類プロパティに対する実値を決定するために、複数のルールが集約される必要があり得る理由により、そのプロパティは、必ずしも設定されない)。これは、ルールが、<value>が指定されることを要求するので、明示的分類子であることに留意されたい。
異なる分類子型の例として、「所有者が分類をADから読み出す(Retrieve classification from AD by owner)」分類子は、ファイルの所有者を読み込んで、アクティブディレクトリに問い合わせて、所有者がルールに記載した(mentioned)<classification property>に対する正しい値を解明する。これは、所有者が、<value>を決定することによって、その<value>がルールで指定されないので、非明示的分類子であることに留意されたい。
各分類子は、分類子がどのプロパティを分類論理に使用するかを任意に示し得る。この情報は、分類プロセスが分類子を呼び出す順序を決定する際に役立つのに加え、その分類子を呼び出す前に、どのプロパティがストア234から読み出される必要があるかを示す。
さらに、各分類子は、分類子がどのプロパティを設定用に使用するかを任意に示し得る。この情報は、どのプロパティがこの分類子に関連があるかを示すユーザインタフェース(何も記載されない場合、すべてのプロパティが関連する)に使用され得るのに加え、その分類子を呼び出す前に、この情報が、どのプロパティがストアから読み出されるかを示す分類プロセスに使用され得る。その情報は、明示的および非明示的分類子に関連がある。例えば、「フォルダによって分類する(Classify by folder)」明示的分類子は、示される具体的なプロパティを有しないし、「所有者が分類をADから読み出す(Retrieve classification from AD by owner)」非明示的分類子もプロパティを有しない。しかしながら、「組織単位を決定する(Determine organizational unit)」非明示的分類子のみが「組織単位(Organizational Unit)」プロパティを設定する方法を知っている。
付加的な識別について、任意の情報を使用して、会社名およびバージョンラベルなどの分類子を記述し得る。
分類子は、付加的なパラメータを消費する必要もあり得る。例えば、分類子が、いくつかの粒度表現(granular expressions)に基づいてファイル内の個人情報を見つけるのに構築される場合、その粒度表現は、その分類子にハードコード化される必要はなく、むしろ定期的に更新されるXMLファイルなどの外部リソースから提供され得る。この場合、分類子は、そのXMLファイルのポインタを含む。ファイルサーバリソースマネージャ(FSRM)ベースの分類によって、付加的なパラメータを分類に指定することができ、分類子が呼び出される時に、パラメータが入力として分類子に渡される。
さらに、分類子が稼動する許可レベルの理由により、分類子ランタイムの振る舞いは、異なる分類子間で異なり得る。1つの許可レベルでは、例えば、「ローカルシステム」または「ネットワークサービス」など、いかに高いまたは低い許可レベルが必要であり得るとしても、「ローカルサービス」である。
別の態様は、分類子がファイルのコンテンツにアクセスする必要があるかどうかについてである。例えば、上述したフォルダの分類子は、含んでいるフォルダに基づいてその分類子が分類する理由により、ファイルのコンテンツにアクセスする必要がない。対照的に、ファイル内の具体的なテキストまたはパターン(例えば、クレジットカード番号)を識別する分類子は、そのファイルのコンテンツを処理する必要がある。FSRM分類がそのファイルのコンテンツを分類子に流す(stream)理由により、ファイルのコンテンツにアクセスする必要がある分類子は、高められた権限で稼動する必要はないことに留意されたい。
以下の表は、分類子の一実装のさまざまな特性を要約する。
Figure 2012524941
図2は、API240、API242も表し、それぞれのインタフェースによって、他の外部のアプリケーションが、データ項目用のプロパティを取得しまたは設定できるようになる。概して、GetPropertiesAPI240は、任意の時間においてプロパティを「プルする(pull)」のに使用される(ポリシーモジュールが稼動する時、プロパティをそのモジュールにプッシュするパイプラインとは対照的である)。このAPI240は、分類データフェーズ223の間に設定されたどのようなプロパティも取得することができるように、分類フェーズ223およびストレージフェーズ224の後に示していることに留意されたい。
SetPropertiesAPI242は、任意の時間においてプロパティをシステム内に「プッシュする(push)」のに使用される(しかし、このAPI242は、プロパティを後の、StorePropertiesフェーズ224の間に保存することができるように、分類データフェーズ223と併せて動作するものとして示している、つまり、SetPropertiesが基本的にユーザに向けられた手動の分類であることに留意されたい)。さらに、分類プロセスの一部として、分類子は、分類に使用するためのファイル(例えば、File.CreationTime..)から抽出される付加的な事前定義されたファイルのプロパティにアクセスし得ることに留意されたい。このプロパティは、分類APIを介した分類プロパティとして表示(expose)されないかもしれない。
図3について、フォルダ分類子363を含む分類サービス108に対する1つの例示的なアーキテクチャは、共通のストリーミングインタフェースを介して、例として1(1)から10(10)までラベル付けされ、例えば、実線の矢印がDCOM呼を表す動作を経由して、分類ランタイム370との通信を行うパイプラインモジュール361から365までをアセンブルすることによって構築される。この例において、各パイプラインモジュール361から365までは、PropertyBagオブジェクト(1文書/ファイル当たり1プロパティバッグ)のストリームを処理し、そこで各PropertyBagオブジェクトは、(必要に応じて)以前のパイプラインモジュールから累積したプロパティのリストを保持する。概して、各パイプラインモジュール361から365までの役割は、このファイルプロパティに基づいていくつかのアクションを行い(例えば、プロパティをさらに付加する)、そして同じプロパティバッグをランタイム370に戻すことである。ランタイム370は、プロパティバッグのストリームを次のパイプラインモジュールが完了するまで渡す。
1つのFSRMベースの分類サービスにおいて、パイプラインモジュールは、感度(sensitivity)によって異なってホストされる。より詳細には、ユーザコンテンツを解釈/解析しないパイプラインモジュール(実証された、ファイルシステムのメタデータを解釈する「フォルダ」分類子またはADプロパティに向けられた「AD」分類子など)は、FSRM分類サービス内に直接ホストされ得る。パイプラインモジュールは、ユーザから提供されたコンテンツおよび/またはサードパーティー/外部のモジュールを取り扱う(権限の低いホスティングプロセスにホストされたWord文書を解析する、管理者ではないユーザのアカウントに従って稼動するなど)。
図4Aおよび図4Bでは、項目の発見を表すステップ402から始まる例示的なフロー図のステップによって、さまざまなパイプライン動作を要約する。ステップ402として動作し得るステップ404は、新しい各項目を提供する、またはステップ402が少なくとも1つの項目を提供した後いつでも第1の項目を選択する。
ステップ406では、選択された項目がキャッシュされているかおよびそのキャッシュ内で更新されているかどうかを評価する。そうである場合、その項目は、残りのパイプラインを介して処理される必要がないので、ステップ407に移ってプロパティの要望に基づいて任意のポリシーを適用する。ポリシーは、必要に応じてキャッシュ/更新ファイルに適用されることに留意されたい。ステップ408およびステップ409では、他の項目が何も残らなくなるまでそのプロセスを繰り返す。
項目が残りのパイプラインを介して処理される場合、ステップ406は、今度は項目を、その項目の基本プロパティがスキャンすることを表すステップ410に移る。このような基本プロパティは、ファイルのメタデータ、埋め込まれたプロパティなどになり得る。
ステップ412は、項目と関連付けられた既存の任意のプロパティを読み出すことを表す。このような読み出しは、上述のように、例えば、埋め込まれたモジュールおよびデータベースモジュールなどのさまざまなストレージモジュールから行い得る。
ステップ414では、さまざまなプロパティを集約する。プロパティが競合し得る場合があり、例えば、上記の例において、ファイルの分類プロパティは、ファイル内に埋め込まれ得るし、ファイルと外部でも関連付けられ得ることに留意されたい。タイムスタンプまたは他の競合解消ルールは、勝者(winner)を決定し得るし、そうでなければ分類は、競合するプロパティ値の理由により分類がスキップされない限り強制され得る。ステップ416は、例えば、ストレージモジュールの権限に基づくなど、そのような任意の競合を解消することを表す。
プロセスは、上述したように、分類子の順序付けに基づいて第1の分類子を選択することを表す図4Bのステップ420に続く(分類子が1つだけかもしれないことに留意されたい)。ステップ422は、選択された分類子を呼び出すかどうかを決定することを表す。上述のように、例えば、以前の分類の存在に基づく、タイムスタンプまたは他の基準に基づくなど、特定の分類子が稼動され得ないさまざまな理由がある。呼び出されない場合、ステップ422は、ステップ426に移動して、別の分類子が考慮されるかどうかをチェックする。
ステップ422において選択された分類子が呼び出される場合、上述のように、分類子を呼び出して、任意のパラメータを渡すことを表し、次に分類を行うステップ424が行われる。またも上述したように、分類子がプロパティを直接設定しない場合、その分類子の結果に基づいて対応するルールが使用される。
ステップ426およびステップ427は、他の任意の分類子に対してステップ422およびステップ424のプロセスを繰り返す。他の各分類子は、高度または他の順序付け技術によって決定づけられるような評価の順序に従って選択される。
ステップ430は、分類に基づいて必要に応じてプロパティを集約することを表す。上述のように、これは、任意の競合に対処することを含むが、集約は、権限のある任意の分類子の分類結果に適用しない。
ステップ432は、プロパティの変更を保存することを表し、もしあれば、ファイルと関連付けられたプロパティの変更も保存する。ポリシーモジュールは、ファイルのプロパティが変更されていない場合、ポリシーの適用をスキップし得ることに留意されたい。プロセスは、次に、図4Aのステップ405に返って、任意のポリシー(ステップ407)を適用し、次の項目がもしあれば、その項目が何も残らなくなるまで選択および/処理し得る。
例示的なオペレーティング環境
図5は、図1から図4までの例が実装され得るのに適したコンピューティングおよびネットワーキング環境500の例を図示する。コンピューティングシステム環境500は、適したコンピューティング環境のほんの一例にすぎず、本発明の使用または機能性の範囲に関していかなる限定を示唆することも意図しない。コンピューティングシステム環境500は、例示的なオペレーティング環境500において図示されたコンポーネントの任意の1つまたはその組み合わせに関係する任意の依存性または要件を有するものとして解釈されるべきでない。
本発明は、他の多数の汎用または専用コンピューティングシステム環境または構成との動作が可能である。本発明を用いて適切に使用され得る周知のコンピューティングシステム、環境、および/または構成の例は、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドまたはラップトップデバイス、タブレットデバイス、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラマブル家電、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、上記のシステムまたはデバイスを任意に含む分散コンピューティング環境などを含むが、これに限らない。
本発明は、コンピュータによって実行されるプログラムモジュールなどの、コンピュータ実行可能命令の一般的な文脈において説明され得る。概して、プログラムモジュールは、特定のタスクを行うまたは特定の抽象データ型を実装する、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含む。本発明は、通信ネットワークを介してリンクされるリモート処理デバイスによってタスクが行われる分散コンピューティング環境においても実施され得る。分散コンピューティング環境において、プログラムモジュールは、メモリストレージデバイスを含む、ローカルおよび/またはリモートコンピュータストレージ媒体に配置され得る。
図5を参照して、本発明のさまざまな態様を実装するための例示的なシステムは、コンピュータ510の形式で汎用コンピューティングデバイスを含み得る。コンピュータ510のコンポーネントは、処理ユニット520、システムメモリ530、およびシステムメモリを含むさまざまなシステムコンポーネントを処理ユニット520に接続するシステムバス521を含み得るが、これに限らない。システムバス521は、メモリバスまたはメモリコントローラ、周辺バス、およびさまざまなバスアーキテクチャを任意に使用したローカルバスを含む、いくつかのタイプのバス構造のいずれにもなり得る。例として、そのようなアーキテクチャは、工業標準アーキテクチャ(ISA)バス、マイクロチャネルアーキテクチャ(MCA)バス、拡張ISA(EISA)バス、ビデオエレクトロニクス標準協会(VESA)ローカルバス、およびメザニンバスとしても知られる周辺機器コンポーネント相互接続(PCI)バスを含むが、これに限らない。
コンピュータ510は、典型的には、さまざまなコンピュータ可読媒体を含む。コンピュータ可読媒体は、コンピュータ510によってアクセスすることができる利用可能な任意の媒体にすることができ、揮発性および不揮発性媒体とリムーバブルおよびノンリムーバブル媒体との両方を含む。例として、コンピュータ可読媒体は、コンピュータストレージ媒体および通信媒体を備えることができるが、これに限らない。コンピュータストレージ媒体は、コンピュータ可読命令、データ構造、プログラムモジュールまたは他のデータなどの情報を格納するための任意の方法または技術に実装される、揮発性および不揮発性媒体、リムーバブルおよびノンリムーバブル媒体を含む。コンピュータストレージ媒体は、RAM、ROM、EEPROM、フラッシュメモリまたは他のメモリ技術、CD−ROM、デジタル多用途ディスク(DVD)または他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージまたは他の磁気ストレージデバイス、または所望の情報を格納するために使用することができて、コンピュータ510によってアクセスすることができるその他の媒体を含むが、これに限らない。通信媒体は、典型的には、コンピュータ可読命令、データ構造、プログラムモジュールまたは他のデータを、搬送波または他の移送機構などの変調データ信号で具現化し、任意の情報配信媒体を含む。用語「変調データ信号」は、その特性のうちの1または複数を、その信号内の情報を符号化するような方法で設定または変更する信号を意味する。例として、通信媒体は、有線ネットワークまたは直接有線接続などの有線媒体、および音響、RF、赤外線などの無線媒体および他の無線媒体を含むが、これに限らない。上記の任意の組み合わせも、コンピュータ可読媒体の範囲内に含まれ得る。
システムメモリ530は、読み取り専用メモリ(ROM)531およびランダムアクセスメモリ(RAM)532などの揮発性および/または不揮発性メモリの形式のコンピュータストレージ媒体を含む。スタートアップ時など、コンピュータ510内の要素間で情報を転送するのに役立つ基本ルーチンを含む、基本入力/出力システム533(BIOS)は、典型的には、ROM531に格納される。RAM532は、典型的には、直ちにアクセス可能な、および/または処理ユニット520によって現在動作しているデータおよび/またはプログラムモジュールを含む。例として、図5は、オペレーティングシステム534、アプリケーションプログラム535、他のプログラムモジュール536およびプログラムデータ537が図示されているが、これに限らない。
コンピュータ510は、他のリムーバブル/ノンリムーバブル、揮発性/不揮発性のコンピュータストレージ媒体も含み得る。例として、図5は、ノンリムーバブルで不揮発性の磁気媒体を読み取るまたは書き込むハードディスクドライブ541と、リムーバブルで不揮発性の磁気ディスク552を読み取るまたは書き込む磁気ディスクドライブ551と、CD−ROMまたは他の光媒体などのリムーバブルで不揮発性の光ディスク556を読み取るまたは書き込む光ディスクドライブ555とが図示されている。例示的なオペレーティング環境において使用することができる他のリムーバブル/ノンリムーバブル、揮発性/不揮発性のコンピュータストレージ媒体は、磁気テープカセット、フラッシュメモリカード、デジタル多用途ディスク、デジタルビデオテープ、半導体RAM、半導体ROMなどを含むが、これに限らない。ハードディスクドライブ541は、典型的には、インタフェース540などのノンリムーバブルメモリインタフェースを介してシステムバス521に接続され、磁気ディスクドライブ551および光ディスクドライブ555は、典型的には、インタフェース550などのリムーバブルメモリインタフェースによってシステムバス521に接続される。
上述して図5に図示されたドライブおよびそれらに関連付けられたコンピュータストレージ媒体は、コンピュータ可読命令、データ構造、プログラムモジュールおよび他のデータのストレージをコンピュータ510に提供する。図5において、例えば、ハードディスクドライブ541は、オペレーティングシステム544、アプリケーションプログラム545、他のプログラムモジュール546およびプログラムデータ547を格納するものとして図示される。これらのコンポーネントは、オペレーティングシステム534、アプリケーションプログラム535、他のプログラムモジュール536、およびプログラムデータ537と同じにすることもできるし、または異なることもできることに留意されたい。オペレーティングシステム544、アプリケーションプログラム545、他のプログラムモジュール546、およびプログラムデータ547は、本明細書では、それらが異なるコピーであることを図示するために異なる数字が最小限で与えられている。ユーザは、タブレットまたは電子デジタイザ564、マイクロフォン563、キーボード562、および一般的にマウス、トラックポールまたはタッチパッドと呼ばれるポインティングデバイス561などの入力デバイスを介して、コマンドおよび情報をコンピュータ510に入力し得る。図5に示していない他の入力デバイスは、ジョイスティック、ゲームパッド、衛星放送受信アンテナ、スキャナなどを含み得る。これらと他の入力デバイスは、システムバスに接続されたユーザ入力インタフェース560を介して処理ユニット520に接続されることが多いが、パラレルポート、ゲームポートまたはユニバーサルシリアルバス(USB)などの他のインタフェースおよびバス構造によって接続され得る。モニタ591または他のタイプのディスプレイデバイスも、ビデオインタフェース590などのインタフェース経由でシステムバス521に接続される。モニタ591も、タッチスクリーンパネルなどと一体化され得る。モニタおよび/またはタッチスクリーンパネルを、コンピューティングデバイス510がタブレット型パーソナルコンピュータなどに組み込まれる、ハウジング(housing)に物理的に接続することができることに留意されたい。さらに、コンピューティングデバイス510などのコンピュータは、出力周辺インタフェース594または同種のものを介して接続され得るスピーカ595およびプリンタ596などの、他の周辺出力デバイスも含み得る。
コンピュータ510は、リモートコンピュータ580などの1または複数のリモートコンピュータへの論理接続を使用したネットワーク化環境において動作し得る。リモートコンピュータ580は、パーソナルコンピュータ、サーバ、ルータ、ネットワークPC、ピアデバイスまたは他の共通ネットワークノードにし得るし、メモリストレージデバイス581のみが図5に図示されているが、典型的には、コンピュータ510に対して上述した多くのまたはすべての要素を含む。図5に描画された論理接続は、1または複数のローカルエリアネットワーク(LAN)571および1または複数のワイドエリアネットワーク(WAN)573を含むが、他のネットワークを含も含み得る。そのようなネットワーキング環境は、オフィス、企業規模のコンピュータネットワーク、イントラネットおよびインターネットにおいて当たり前となっている。
LANネットワーキング環境において使用される時、コンピュータ510は、ネットワークインタフェースまたはアダプタ570を介してLAN571に接続される。WANネットワーキング環境において使用される時、コンピュータ510は、典型的には、モデム572、またはインターネットなどの、WAN573上で通信を確立するための他の手段を含む。モデム572は、内部または外部で可能であり、ユーザ入力インタフェース560または他の適切な機構を経由してシステムバス521に接続され得る。インタフェースおよびアンテナを備えるような無線ネットワーキングコンポーネント574は、アクセスポイントまたはピアコンピュータなどの適したデバイスを介してWANまたはLANに接続され得る。ネットワーク化環境において、コンピュータ510またはその一部に対して描画されたプログラムモジュールは、リモートメモリストレージデバイスに格納され得る。例として、図5は、リモートアプリケーションプログラム585がメモリデバイス581上に常駐しているように図示しているが、これに限らない。図示したネットワーク接続は、例示的であり、コンピュータ間で通信リンクを確立する他の手段が使用され得ることが認識され得る。
補助サブシステム599(例えば、コンテンツを補助的に表示するためのシステム)は、ユーザインタフェース560経由で接続され得ることによって、たとえコンピュータシステムの主部が低電力状態であっても、プログラムコンテンツ、システム状況およびイベント通知などのデータをユーザに提供できるようになる。補助サブシステム599は、モデム572および/またはネットワークインタフェース570に接続され得ることによって、主処理ユニット520が低電力状態であってもこのシステム間で通信ができるようになる。
結論
本発明は、さまざまに修正して代替的に構成することが可能であるが、そのいくつかの例示的な実施形態が図面で示され、上記で詳細に説明されている。しかしながら、本発明を開示された具体的な形式に限定することを意図せず、反対に、その意図するところは、本発明の精神および範囲内におけるすべての修正、代替的構成および同等物を網羅することであることを理解されたい。

Claims (15)

  1. コンピューティング環境において、データ項目と関連付けられたメタデータを入手するコンポーネント(109、222)と、それぞれが、分類メタデータに呼び出される場合に前記データ項目を分類するように構成され関連付けられた、1または複数の分類モジュールおよび分類ルール(110、223)と、前記データ項目にポリシーを適用する際に使用される前記データ項目に前記分類メタデータを関連付けるコンポーネント(111、224)とを含む分類パイプライン(108、109、110、111、222、223、224)を備えることを特徴とするシステム(500)。
  2. 前記分類パイプラインはデータ項目を処理するパイプラインに組み込まれ、前記データ項目を処理するパイプラインは前記項目を発見する発見モジュールを含むことを特徴とする請求項1に記載のシステム。
  3. 前記データ項目はファイルに対応し、前記発見モジュールはファイルシステムをスキャンしてその中のファイルを発見するための手段、またはファイルの変更を検出するための手段を有することを特徴とする請求項2に記載のシステム。
  4. 前記分類パイプラインはデータ項目を処理するパイプライン内に組み込まれ、前記データ項目を処理するパイプラインはポリシーを前記データ項目に適用するために前記分類メタデータを評価するポリシーモジュールを含むことを特徴とする請求項1に記載のシステム。
  5. 存在する任意の分類データに基づいて、または前記データファイルの以前の変更を示すタイムスタンプまたは他の識別子に基づいて、分類モジュールを呼び出すかどうかを決定する手段をさらに備えることを特徴とする請求項1に記載のシステム。
  6. 分類メタデータを外部に設定するために前記分類パイプラインとインタラクトするためのインタフェースをさらに備えることを特徴とする請求項1に記載のシステム。
  7. 分類メタデータを外部に取得するために前記分類パイプラインとインタラクトするためのインタフェースをさらに備えることを特徴とする請求項1に記載のシステム。
  8. 前記分類子の設定は前記分類子セット内の別の分類子の分類メタデータをオーバーライドする権限のある分類子を含み、前記分類パイプラインは前記分類メタデータ内に設定された前記分類子の異なる分類子から異なる分類結果を集約するための手段を含むことを特徴とする請求項1に記載のシステム。
  9. コンピューティング環境(500)において、
    第1のフェーズ(106、221)において、データ項目を発見するステップ(402)と、
    前記第1のフェーズとは独立している第2にフェーズ(108、109、110、111、222、223、224、232、234、242、361、362、363、364、365)において、前記データ項目と関連付けられたプロパティを使用して前記データ項目を分類するステップ(410、412、414、416、420、422、424、426、427)と、前記データ項目と関連付けられた少なくとも1つの分類プロパティを備える分類プロパティのセットを格納するステップ(430)(432)と、
    前記第2のフェーズとは独立している第3のフェーズ(113、225)において、前記分類プロパティのセットに基づいてポリシーを前記データ項目に適用するステップ(407)と
    を含むことを特徴とする方法。
  10. 前記データ項目を分類するために前記データ項目と関連付けられたプロパティを使用するステップは、少なくとも1つの分類子を備える分類子のセットからの分類結果を使用して分類ルールを自動的に適用するステップを含むことを特徴とする請求項9に記載の方法。
  11. 前記データ項目を分類するために前記データ項目と関連付けられたプロパティを使用するステップは、複数の分類子を呼び出すステップを有し、前記複数の分類子から複数のプロパティのセットを受信するステップと、ポリシーを適用するのに使用される前記分類プロパティのセット内に前記複数のプロパティのセットを集約するステップとをさらに含むことを特徴とする請求項9に記載の方法。
  12. 前記データ項目を分類するために前記データ項目と関連付けられたプロパティを使用するステップは、分類に使用するためにある分類子から設定されたプロパティを別の分類子に渡すステップを有する事前定義された順序付けにおいて複数の分類子を呼び出すステップを含むことを特徴とする請求項9に記載の方法。
  13. 前記データ項目を分類するために前記データ項目と関連付けられたプロパティを使用するステップは、前記順序付けにおける後続の分類子が、前記順序付けにおける以前の分類子の前記プロパティのセットを変更できるようにするステップを有する、事前定義された順序付けにおいて複数の分類子を呼び出すステップを含むことを特徴とする請求項9に記載の方法
  14. コンピュータ実行可能命令(510)を有する1または複数のコンピュータ可読媒体であって、実行される時に
    データ項目を発見するステップ(402)と、
    前記データ項目と関連付けられたプロパティのプロパティセットを入手するステップ(410、412、414、416)と、
    分類子セットの各分類子を呼び出す(420、422、426、427)かどうかを決定し、および呼び出す場合、前記分類子を呼び出すかどうかを決定するステップ(424)と、
    任意の分類子によって作り出される任意の変更に基づいて前記プロパティのセットを更新するステップ(430、432)と、
    前記プロパティセットに基づいてポリシーを前記データ項目に適用するステップ(407)と
    を備えるステップを行うことを特徴とするコンピュータ実行可能命令。
  15. 任意の分類子によって作り出される任意の変更に基づいて前記プロパティのセットを更新するステップは、前記プロパティのセットを直接更新する分類子を有するステップ、または前記分類子から提供された結果に基づいて前記プロパティセットを更新するルール機構を有するステップを備えることを特徴とする請求項14に記載の1または複数のコンピュータ可読媒体。
JP2012507264A 2009-04-22 2010-04-14 自動分類ルールを含むデータ分類パイプライン Expired - Fee Related JP5600345B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/427,755 US20100274750A1 (en) 2009-04-22 2009-04-22 Data Classification Pipeline Including Automatic Classification Rules
US12/427,755 2009-04-22
PCT/US2010/031106 WO2010123737A2 (en) 2009-04-22 2010-04-14 Data classification pipeline including automatic classification rules

Publications (3)

Publication Number Publication Date
JP2012524941A true JP2012524941A (ja) 2012-10-18
JP2012524941A5 JP2012524941A5 (ja) 2013-05-30
JP5600345B2 JP5600345B2 (ja) 2014-10-01

Family

ID=42993013

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012507264A Expired - Fee Related JP5600345B2 (ja) 2009-04-22 2010-04-14 自動分類ルールを含むデータ分類パイプライン

Country Status (8)

Country Link
US (1) US20100274750A1 (ja)
EP (1) EP2422279A4 (ja)
JP (1) JP5600345B2 (ja)
KR (1) KR101668506B1 (ja)
CN (1) CN102414677B (ja)
BR (1) BRPI1012011A2 (ja)
RU (1) RU2544752C2 (ja)
WO (1) WO2010123737A2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019502998A (ja) * 2015-12-30 2019-01-31 ベリタス テクノロジーズ エルエルシー データオブジェクトを効率よく分類するシステム及び方法
JP2019194882A (ja) * 2014-02-19 2019-11-07 スノーフレーク インク. ファーストクラスデータベース要素としての半構造データの実装

Families Citing this family (67)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8522050B1 (en) * 2010-07-28 2013-08-27 Symantec Corporation Systems and methods for securing information in an electronic file
US9501656B2 (en) * 2011-04-05 2016-11-22 Microsoft Technology Licensing, Llc Mapping global policy for resource management to machines
US9391935B1 (en) * 2011-12-19 2016-07-12 Veritas Technologies Llc Techniques for file classification information retention
WO2013096887A1 (en) 2011-12-23 2013-06-27 Amiato, Inc. Scalable analysis platform for semi-structured data
US10043022B2 (en) * 2012-03-05 2018-08-07 R.R. Donnelley & Sons Company Systems and methods for digital content delivery
US9037587B2 (en) * 2012-05-10 2015-05-19 International Business Machines Corporation System and method for the classification of storage
US20130311881A1 (en) * 2012-05-16 2013-11-21 Immersion Corporation Systems and Methods for Haptically Enabled Metadata
CN103729169B (zh) * 2012-10-10 2017-04-05 国际商业机器公司 用于确定待迁移文件范围的方法和装置
JP6091144B2 (ja) * 2012-10-10 2017-03-08 キヤノン株式会社 画像処理装置及びその制御方法、並びにプログラム
CN102915373B (zh) * 2012-11-06 2016-08-10 无锡江南计算技术研究所 一种数据存储方法和装置
US10536458B2 (en) 2012-11-13 2020-01-14 Koninklijke Philips N.V. Method and apparatus for managing a transaction right
US20140181112A1 (en) * 2012-12-26 2014-06-26 Hon Hai Precision Industry Co., Ltd. Control device and file distribution method
US9514007B2 (en) 2013-03-15 2016-12-06 Amazon Technologies, Inc. Database system with database engine and separate distributed storage service
US20150120644A1 (en) * 2013-10-28 2015-04-30 Edge Effect, Inc. System and method for performing analytics
CN104090891B (zh) * 2013-12-12 2016-05-04 深圳市腾讯计算机系统有限公司 数据处理方法、装置及系统
CN103745262A (zh) * 2013-12-30 2014-04-23 远光软件股份有限公司 一种数据归集方法和装置
CN103699694B (zh) * 2014-01-13 2017-08-29 联想(北京)有限公司 一种数据处理方法和装置
US9848330B2 (en) * 2014-04-09 2017-12-19 Microsoft Technology Licensing, Llc Device policy manager
US10635645B1 (en) * 2014-05-04 2020-04-28 Veritas Technologies Llc Systems and methods for maintaining aggregate tables in databases
US10025804B2 (en) 2014-05-04 2018-07-17 Veritas Technologies Llc Systems and methods for aggregating information-asset metadata from multiple disparate data-management systems
US9953062B2 (en) 2014-08-18 2018-04-24 Lexisnexis, A Division Of Reed Elsevier Inc. Systems and methods for providing for display hierarchical views of content organization nodes associated with captured content and for determining organizational identifiers for captured content
US10095768B2 (en) * 2014-11-14 2018-10-09 Veritas Technologies Llc Systems and methods for aggregating information-asset classifications
CN104408190B (zh) * 2014-12-15 2018-06-26 北京国双科技有限公司 基于Spark的数据处理方法及装置
US10642941B2 (en) * 2015-04-09 2020-05-05 International Business Machines Corporation System and method for pipeline management of artifacts
US9977912B1 (en) * 2015-09-21 2018-05-22 EMC IP Holding Company LLC Processing backup data based on file system authentication
US10713272B1 (en) 2016-06-30 2020-07-14 Amazon Technologies, Inc. Dynamic generation of data catalogs for accessing data
US20180060822A1 (en) * 2016-08-31 2018-03-01 Linkedin Corporation Online and offline systems for job applicant assessment
US11681942B2 (en) 2016-10-27 2023-06-20 Dropbox, Inc. Providing intelligent file name suggestions
US11151102B2 (en) 2016-10-28 2021-10-19 Atavium, Inc. Systems and methods for data management using zero-touch tagging
US9852377B1 (en) 2016-11-10 2017-12-26 Dropbox, Inc. Providing intelligent storage location suggestions
US11138220B2 (en) 2016-11-27 2021-10-05 Amazon Technologies, Inc. Generating data transformation workflows
US10963479B1 (en) 2016-11-27 2021-03-30 Amazon Technologies, Inc. Hosting version controlled extract, transform, load (ETL) code
US11481408B2 (en) 2016-11-27 2022-10-25 Amazon Technologies, Inc. Event driven extract, transform, load (ETL) processing
US10621210B2 (en) 2016-11-27 2020-04-14 Amazon Technologies, Inc. Recognizing unknown data objects
US11277494B1 (en) 2016-11-27 2022-03-15 Amazon Technologies, Inc. Dynamically routing code for executing
US11036560B1 (en) 2016-12-20 2021-06-15 Amazon Technologies, Inc. Determining isolation types for executing code portions
US10545979B2 (en) 2016-12-20 2020-01-28 Amazon Technologies, Inc. Maintaining data lineage to detect data events
US10824474B1 (en) 2017-11-14 2020-11-03 Amazon Technologies, Inc. Dynamically allocating resources for interdependent portions of distributed data processing programs
US11914571B1 (en) 2017-11-22 2024-02-27 Amazon Technologies, Inc. Optimistic concurrency for a multi-writer database
US10866999B2 (en) 2017-12-22 2020-12-15 Microsoft Technology Licensing, Llc Scalable processing of queries for applicant rankings
US10908940B1 (en) 2018-02-26 2021-02-02 Amazon Technologies, Inc. Dynamically managed virtual server system
US10984122B2 (en) 2018-04-13 2021-04-20 Sophos Limited Enterprise document classification
US11500904B2 (en) 2018-06-05 2022-11-15 Amazon Technologies, Inc. Local data classification based on a remote service interface
US11443058B2 (en) * 2018-06-05 2022-09-13 Amazon Technologies, Inc. Processing requests at a remote service to implement local data classification
US11042532B2 (en) 2018-08-31 2021-06-22 International Business Machines Corporation Processing event messages for changed data objects to determine changed data objects to backup
US10983985B2 (en) 2018-10-29 2021-04-20 International Business Machines Corporation Determining a storage pool to store changed data objects indicated in a database
US11023155B2 (en) 2018-10-29 2021-06-01 International Business Machines Corporation Processing event messages for changed data objects to determine a storage pool to store the changed data objects
KR102185980B1 (ko) * 2018-10-29 2020-12-02 주식회사 뉴스젤리 테이블 처리 방법 및 장치
US11409900B2 (en) 2018-11-15 2022-08-09 International Business Machines Corporation Processing event messages for data objects in a message queue to determine data to redact
US11429674B2 (en) 2018-11-15 2022-08-30 International Business Machines Corporation Processing event messages for data objects to determine data to redact from a database
CN110069570B (zh) * 2018-11-16 2022-04-05 北京微播视界科技有限公司 数据处理方法和装置
US11269911B1 (en) 2018-11-23 2022-03-08 Amazon Technologies, Inc. Using specified performance attributes to configure machine learning pipeline stages for an ETL job
US11113238B2 (en) 2019-01-25 2021-09-07 International Business Machines Corporation Methods and systems for metadata tag inheritance between multiple storage systems
US11030054B2 (en) 2019-01-25 2021-06-08 International Business Machines Corporation Methods and systems for data backup based on data classification
US11914869B2 (en) 2019-01-25 2024-02-27 International Business Machines Corporation Methods and systems for encryption based on intelligent data classification
US11210266B2 (en) 2019-01-25 2021-12-28 International Business Machines Corporation Methods and systems for natural language processing of metadata
US11093448B2 (en) 2019-01-25 2021-08-17 International Business Machines Corporation Methods and systems for metadata tag inheritance for data tiering
US11176000B2 (en) * 2019-01-25 2021-11-16 International Business Machines Corporation Methods and systems for custom metadata driven data protection and identification of data
US11113148B2 (en) 2019-01-25 2021-09-07 International Business Machines Corporation Methods and systems for metadata tag inheritance for data backup
US11100048B2 (en) 2019-01-25 2021-08-24 International Business Machines Corporation Methods and systems for metadata tag inheritance between multiple file systems within a storage system
CN110096519A (zh) * 2019-04-09 2019-08-06 北京中科智营科技发展有限公司 一种大数据分类规则的优化方法和装置
FR3095530B1 (fr) * 2019-04-23 2021-05-07 Naval Group Procede de traitement de donnees classifiees, systeme et programme d'ordinateur associes
RU2749969C1 (ru) * 2019-12-30 2021-06-21 Александр Владимирович Царёв Цифровая платформа классификации исходных данных и способы ее работы
US11341163B1 (en) 2020-03-30 2022-05-24 Amazon Technologies, Inc. Multi-level replication filtering for a distributed database
US11861039B1 (en) * 2020-09-28 2024-01-02 Amazon Technologies, Inc. Hierarchical system and method for identifying sensitive content in data
US11841769B2 (en) * 2021-08-12 2023-12-12 EMC IP Holding Company LLC Leveraging asset metadata for policy assignment
US11841965B2 (en) * 2021-08-12 2023-12-12 EMC IP Holding Company LLC Automatically assigning data protection policies using anonymized analytics

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10228486A (ja) * 1997-02-14 1998-08-25 Nec Corp 分散ドキュメント分類システム及びプログラムを記録した機械読み取り可能な記録媒体
JP2001034617A (ja) * 1999-07-16 2001-02-09 Ricoh Co Ltd 情報分析支援装置、情報分析支援方法および記憶媒体
JP2006048220A (ja) * 2004-08-02 2006-02-16 Ricoh Co Ltd 電子ドキュメントのセキュリティ属性付与方法およびそのプログラム
JP2006195998A (ja) * 2005-01-12 2006-07-27 Ricoh Co Ltd ネットワーク装置上の電子文書を文書保存ポリシーを用いて削除する方法
JP2006254140A (ja) * 2005-03-11 2006-09-21 Mitsubishi Electric Corp データ記憶装置

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5495603A (en) * 1993-06-14 1996-02-27 International Business Machines Corporation Declarative automatic class selection filter for dynamic file reclassification
US5903884A (en) * 1995-08-08 1999-05-11 Apple Computer, Inc. Method for training a statistical classifier with reduced tendency for overfitting
US20060028689A1 (en) * 1996-11-12 2006-02-09 Perry Burt W Document management with embedded data
US6092059A (en) * 1996-12-27 2000-07-18 Cognex Corporation Automatic classifier for real time inspection and classification
JP3209163B2 (ja) * 1997-09-19 2001-09-17 日本電気株式会社 分類装置
US6161130A (en) * 1998-06-23 2000-12-12 Microsoft Corporation Technique which utilizes a probabilistic classifier to detect "junk" e-mail by automatically updating a training and re-training the classifier based on the updated training set
US7028250B2 (en) * 2000-05-25 2006-04-11 Kanisa, Inc. System and method for automatically classifying text
US6782377B2 (en) * 2001-03-30 2004-08-24 International Business Machines Corporation Method for building classifier models for event classes via phased rule induction
US6892193B2 (en) * 2001-05-10 2005-05-10 International Business Machines Corporation Method and apparatus for inducing classifiers for multimedia based on unified representation of features reflecting disparate modalities
US6898737B2 (en) * 2001-05-24 2005-05-24 Microsoft Corporation Automatic classification of event data
US7043492B1 (en) * 2001-07-05 2006-05-09 Requisite Technology, Inc. Automated classification of items using classification mappings
TW542993B (en) * 2001-07-12 2003-07-21 Inst Information Industry Multi-dimension and multi-algorithm document classifying method and system
WO2003014975A1 (en) * 2001-08-08 2003-02-20 Quiver, Inc. Document categorization engine
US7349917B2 (en) * 2002-10-01 2008-03-25 Hewlett-Packard Development Company, L.P. Hierarchical categorization method and system with automatic local selection of classifiers
US7912820B2 (en) * 2003-06-06 2011-03-22 Microsoft Corporation Automatic task generator method and system
US20080027830A1 (en) * 2003-11-13 2008-01-31 Eplus Inc. System and method for creation and maintenance of a rich content or content-centric electronic catalog
US7165216B2 (en) * 2004-01-14 2007-01-16 Xerox Corporation Systems and methods for converting legacy and proprietary documents into extended mark-up language format
US7139754B2 (en) * 2004-02-09 2006-11-21 Xerox Corporation Method for multi-class, multi-label categorization using probabilistic hierarchical modeling
US20060218110A1 (en) * 2005-03-28 2006-09-28 Simske Steven J Method for deploying additional classifiers
US7849090B2 (en) * 2005-03-30 2010-12-07 Primal Fusion Inc. System, method and computer program for faceted classification synthesis
US7610285B1 (en) * 2005-09-21 2009-10-27 Stored IQ System and method for classifying objects
US7831795B2 (en) * 2005-11-28 2010-11-09 Commvault Systems, Inc. Systems and methods for classifying and transferring information in a storage network
RU61442U1 (ru) * 2006-03-16 2007-02-27 Открытое акционерное общество "Банк патентованных идей" /Patented Ideas Bank,Ink./ Система автоматизированного упорядочения неструктурированного информационного потока входных данных
US7707129B2 (en) * 2006-03-20 2010-04-27 Microsoft Corporation Text classification by weighted proximal support vector machine based on positive and negative sample sizes and weights
US7539658B2 (en) * 2006-07-06 2009-05-26 International Business Machines Corporation Rule processing optimization by content routing using decision trees
US20080027940A1 (en) * 2006-07-27 2008-01-31 Microsoft Corporation Automatic data classification of files in a repository
US7640345B2 (en) * 2006-09-18 2009-12-29 Emc Corporation Information management
US8024304B2 (en) * 2006-10-26 2011-09-20 Titus, Inc. Document classification toolbar
JP5270863B2 (ja) * 2007-06-12 2013-08-21 キヤノン株式会社 データ管理装置及び方法
US8503797B2 (en) * 2007-09-05 2013-08-06 The Neat Company, Inc. Automatic document classification using lexical and physical features
US20100077001A1 (en) * 2008-03-27 2010-03-25 Claude Vogel Search system and method for serendipitous discoveries with faceted full-text classification
WO2010048758A1 (en) * 2008-10-31 2010-05-06 Shanghai Hewlett-Packard Co., Ltd Classification of a document according to a weighted search tree created by genetic algorithms
US8275726B2 (en) * 2009-01-16 2012-09-25 Microsoft Corporation Object classification using taxonomies
CA2718579C (en) * 2009-10-22 2017-10-03 National Research Council Of Canada Text categorization based on co-classification learning from multilingual corpora

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10228486A (ja) * 1997-02-14 1998-08-25 Nec Corp 分散ドキュメント分類システム及びプログラムを記録した機械読み取り可能な記録媒体
JP2001034617A (ja) * 1999-07-16 2001-02-09 Ricoh Co Ltd 情報分析支援装置、情報分析支援方法および記憶媒体
JP2006048220A (ja) * 2004-08-02 2006-02-16 Ricoh Co Ltd 電子ドキュメントのセキュリティ属性付与方法およびそのプログラム
JP2006195998A (ja) * 2005-01-12 2006-07-27 Ricoh Co Ltd ネットワーク装置上の電子文書を文書保存ポリシーを用いて削除する方法
JP2006254140A (ja) * 2005-03-11 2006-09-21 Mitsubishi Electric Corp データ記憶装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019194882A (ja) * 2014-02-19 2019-11-07 スノーフレーク インク. ファーストクラスデータベース要素としての半構造データの実装
JP7130600B2 (ja) 2014-02-19 2022-09-05 スノーフレーク インク. ファーストクラスデータベース要素としての半構造データの実装
JP2019502998A (ja) * 2015-12-30 2019-01-31 ベリタス テクノロジーズ エルエルシー データオブジェクトを効率よく分類するシステム及び方法
US10706368B2 (en) 2015-12-30 2020-07-07 Veritas Technologies Llc Systems and methods for efficiently classifying data objects

Also Published As

Publication number Publication date
CN102414677B (zh) 2016-04-13
EP2422279A4 (en) 2012-09-05
KR101668506B1 (ko) 2016-10-21
KR20120030339A (ko) 2012-03-28
EP2422279A2 (en) 2012-02-29
RU2544752C2 (ru) 2015-03-20
RU2011142778A (ru) 2013-04-27
WO2010123737A3 (en) 2011-01-20
CN102414677A (zh) 2012-04-11
US20100274750A1 (en) 2010-10-28
BRPI1012011A2 (pt) 2016-05-10
WO2010123737A2 (en) 2010-10-28
JP5600345B2 (ja) 2014-10-01

Similar Documents

Publication Publication Date Title
JP5600345B2 (ja) 自動分類ルールを含むデータ分類パイプライン
JP4222947B2 (ja) マルチメディア・コンテンツ管理オブジェクトを表現するための方法、プログラム、及びシステム
US10417586B2 (en) Attaching ownership to data
KR101219856B1 (ko) 데이터 프로세싱을 자동화하기 위한 방법 및 시스템
US8521741B1 (en) Systems and methods for performing integrated searches with actions
KR101976220B1 (ko) 데이터 보강 제안 기법
US11770450B2 (en) Dynamic routing of file system objects
US9043808B2 (en) State management of operating system and applications
US20200387321A1 (en) System and method for backup data discrimination
US20220229657A1 (en) Extensible resource compliance management
US20230401241A1 (en) System for lightweight objects
US8538980B1 (en) Accessing forms using a metadata registry
US10802881B2 (en) Methods and devices for enabling distributed computers to communicate more effectively in an enterprise requiring flexible approval notifications
US9110933B1 (en) Processing data triggers in an untrusted environment based on information stored in a trusted environment
US7475090B2 (en) Method and apparatus for moving data from an extensible markup language format to normalized format
US20090063416A1 (en) Methods and systems for tagging a variety of applications
US9009731B2 (en) Conversion of lightweight object to a heavyweight object
US11874848B2 (en) Automated dataset placement for application execution
US20240070319A1 (en) Dynamically updating classifier priority of a classifier model in digital data discovery
US7987470B1 (en) Converting heavyweight objects to lightwight objects

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130404

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130404

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20130701

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20130718

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131129

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131204

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140304

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140401

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140718

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140815

R150 Certificate of patent or registration of utility model

Ref document number: 5600345

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees