JP2006516775A - 構造化されていないデータの大集合における類似性および修正履歴の特定 - Google Patents

構造化されていないデータの大集合における類似性および修正履歴の特定 Download PDF

Info

Publication number
JP2006516775A
JP2006516775A JP2006501066A JP2006501066A JP2006516775A JP 2006516775 A JP2006516775 A JP 2006516775A JP 2006501066 A JP2006501066 A JP 2006501066A JP 2006501066 A JP2006501066 A JP 2006501066A JP 2006516775 A JP2006516775 A JP 2006516775A
Authority
JP
Japan
Prior art keywords
document
documents
similarity
cluster
similar
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006501066A
Other languages
English (en)
Other versions
JP4667362B2 (ja
JP2006516775A5 (ja
Inventor
カーソン・ドウェイン・エー
バッセラ・ドナート
スモルスキー・マイケル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Verdasys Inc
Original Assignee
Verdasys Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US10/738,924 external-priority patent/US7490116B2/en
Application filed by Verdasys Inc filed Critical Verdasys Inc
Publication of JP2006516775A publication Critical patent/JP2006516775A/ja
Publication of JP2006516775A5 publication Critical patent/JP2006516775A5/ja
Application granted granted Critical
Publication of JP4667362B2 publication Critical patent/JP4667362B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Storage Device Security (AREA)
  • Document Processing Apparatus (AREA)

Abstract

企業のデータ処理システムにおけるもののように、電子的に保存された文書間の依存関係を効率的に表現する技術に関する。文書間の履歴的な依存関係の表現であって文書が生成される際にリアルタイムに構築される有向グラフとして、文書配布経路が作成される。好ましくは、本システムは、類似するが必ずしも等価ではない文書について高速な照会を可能にする方法でインデックス化された、文書の圧縮階層表現を保持する。文書類似性サービスと組み合わされた配布経路は、機密情報を含むことが知られている他の既存のファイルに類似する情報を含む文書へのアクセスを見つけて規制できるセキュリティ解決手段のような、いくつかのアプリケーションを提供するのに使用することができる。

Description

本件出願は、2003年12月17日に出願された米国特許出願第10/738,924号および2003年12月17日に出願された米国特許出願第10/738,919号の優先権を主張する部分継続出願であり、これらは、2003年1月23日に出願された「所有する電子情報の適応的識別および保護の方法およびシステム(Method and System for Adaptive Identification and Protection
of Proprietary Electronic Information)」という名称の米国特許仮出願第60/442,464号の利益を主張している。上記出願の教示の全体は、ここでの言及によって本明細書に組み込まれたものとする。
今やほぼすべての組織が、知的財産を包含する機密に属する情報を含むその組織の大量の情報を種々のフォーマットの電子ファイルとして保存している。この傾向は、コンピュータのコストが低くて幅広く利用可能であること、電子および磁気記憶媒体そのもののコストが減少し続けていること、および情報のアーカイブとしてのバックアップの維持が比較的容易であることなど、多くの理由による。
データの電子的保存データへの強い動機の1つは、特定の情報を求めて大量のファイルに効率よく照会できる容易な点にある。この課題に対処するために、いくかのアルゴリズム的技法が提案されている。広く知られている技術の1つは、テキスト形式の内容に限られており、ウェブでのサーチエンジンで最も広く使用されている。この技法では、ユーザが単語または単語のセットをサーチエンジンに打ち込み、次いでサーチエンジンが膨大なデータの集まりについてあらかじめインデックス化しておいたイメージを処理して、サーチ条件で指定された単語を含む文書を取って来る(フェッチする)。
この技法を洗練することによって、ユーザは、よりユーザ・フレンドリな人間の言葉の形式(単語セット、すなわち単語「ボストン AND 特売」ではない)で情報を入力できるようになる。これらのいわゆる「自然言語」インターフェイスによって、ユーザは、「ボストン地域で現在特売を宣伝しているのはいずれの取引業者か?」などとクエリ(照会)を入力することができる。画像パターン認識および数学的相関などのその他の技法を用いて、例えば画像のようなテキスト以外のデータの集まりにおいて情報が見つけ出される(例えば、保安カメラで顔を捉えた人物が既知の犯罪者のデータベース内に存在するか否か見つけるため)。
技術が発展し、またハードウェアがより利用可能になり手ごろな価格になるにつれて、コンピュータ・ユーザは、同一文書について複数のコピーを保持できる能力を獲得した(また、そのようにすることを実際に好んでいる)。このようなコピーは、テキストの追加、削除もしくは配置変更、画像のトリミング、1つの文書を2つの文書に分ける、またはいくつかの文書の合体など、わずかな量の編集によってのみ異なっていることがしばしばである。さらに、文書は異なるフォーマットに変換されることがあり、例えば、植字指示付きのテキスト・ファイルを印刷可能形式に変換することができる。これら同一またはきわめて類似した文書の複数のコピーが、同一のコンピュータ上に保持されるかもしれない。しかしながら、これら文書を構内通信網(LAN)または広域通信網(WAN)に接続された多くのコンピュータに分散させることも可能であり、すなわち異なる部署、あるいは物理的に何千マイルも離れた場所にさえ置くことができる。
しかしながら、同一文書について多数のコピーを容易に生成できるということは、あるいくつかの問題を引き起こす。これらの問題としては、以下のものがある。
・データのセキュリティ−−文書のコピーが多くなるとともに、その中身へのアクセス
を管理することが難しくなる。
・文書の分類−−類似の文書のコピーは、ユーザの介在を必要とせずに同一の方法で処理される必要があると考えられ、さらにこれを自動で行なうのが望ましい。
・系図−−特定の文書がいかに発展したのかについて履歴を特定する。
・フォレンジック−−誰が文書を改ざんしたかを特定する。
・法令遵守−−今や、医療業界および金融業界におけるあるいくつかの法律および規則が、文書へのアクセスを管理して、かつ/または文書が所定の時間経過後に自動的に廃棄されるように要求している。
既存のデータ検索アルゴリズムは、文書間の類似性の計算および文書配布経路の再現について、効率性、正確さ、または拡張性が十分ではない。
本発明の一構成によれば、文書の巨大な集合からのデータと所定のデータ一部(新規であってもよく、前記集合に属していてもよい)との間の類似度を効率的に発見するの方法およびシステムが提供される。
さらに詳細には、本システムは、組織のコンピュータにわたって分散されるソフトウェア・プログラムとして実装できる。クライアント側のモニタ・プロセスが、コンピュータ・ユーザのディジタル資産に関するアクティビティ(例えば、機密に属するユーザ文書がコピーされ、変更され、削除され、あるいは送信される)を報告する。これらアクティビティの報告を使用して、データ・セキュリティ・アプリケーションが、文書配布経路(DDP)を文書間の履歴的な関係の表現である有向グラフとして保持することができる。DDPは、ユーザのアクティビティの履歴を観測するシステムにもとづいて構築される。
さらに、本システムは、ユーザ・データ・ファイルについて、類似する(必ずしも等価でなくてよい)情報の高速な照会を可能にするようにインデックス化され、きわめて大きく低減された(「不可逆の」)階層表現を保持する。これより、本システムは、「所定の文書に類似する文書を発見せよ」などといった照会に応答できる。次いで、この情報は、ある操作がクライアント・モニタ処理にとって不可視である場合に、DDPグラフのさらなる追補に使用される。
文書の類似性照会は、ユーザから手動で起動されることができ、または分散データ処理システム・サービスの一部として適用および/もしくは実装することができる。「新規ファイルに類似するデータを含む」既存のファイルを見つけ、新規ファイルに自動的に適切な管理を適用することができる、組織全体にわたるセキュリティの解決手段を提供するために、類似性検出エンジン(SDE)と呼ばれる文書類似性サービスを使用することができる。好ましい実施の形態においては、類似性の判断を高速化するために、SDEは文書のスパース表現を使用する。スパース表現は、好ましくは、ファイルの選択された部分すなわち「チャンク」から割り出された応答型のフーリエ係数の階層で構成される。文書を最もよく表わしているフーリエ係数成分を選択的に選ぶためにアルゴリズムが使用される。
このシステムは、エンドユーザに透過であり、最新のコンピュータ・ワークステーションにおいて利用可能なリソースのわずかな部分しか利用しない。本システムは、多数のクライアント・ワークステーションをサポートするために、専用のサーバまたはサーバ・クラスタを必要とする場合もある。
このように、文書配布経路を自動的に保持および/または再構築する能力を有するデータ管理アプリケーションを提供するために、本システムを使用することができる。この経
路は、1)文書の起源、2)起源の場所からの配布経路、および3)当該文書を改ざんしたユーザの名前および改ざんが生じた時刻、を特定することができる。
組織は、本発明のこの能力を多数の最終用途に適用することができる。例えば、業務の流れに影響する情報交換の致命的なボトルネックを特定して解消することによって、文書の流れおよび能率的な企業実務を監視するために、本発明を使用することができる。
たとえ企業の膨大な文書の集合にわたっても、類似文書をリアルタイムで自動的に特定できるようにすることで、情報セキュリティ・アプリケーションにこの構成を実装することも可能である。機密でない文書の交換を妨げることなく機密に属するデータへの不適切なアクセスまたは配布を防止するために、不可欠なデータ・セキュリティ機能である文書の機密性の判断に文書の類似性分析を利用することができる。
本発明の前記の目的、特徴および利点、ならびに他の目的、特徴および利点は、添付の図面に示した本発明の好ましい実施の形態に関する以下のさらに詳しい説明から明らかになるであろう。添付の図面においては、異なる図であっても同一参照符号は同一部分を指している。図面は必ずしも縮尺どおりではなく、本発明の原理を示すことに重点がおかれている。
<システム環境の概要>
図1は、データ類似性発見システム100を高度に概念化した図である。クライアント・コンピュータ102およびサーバ・コンピュータ104(利用される場合)が、ユーザの作業を継続的に監視し、データ・ファイルまたは価値ある情報を包含する文書ファイルのようなその他「ディジタル資産」についての情報を収集する。監視されるイベントには、コンピュータのオペレーティング・システム(OS)ならびにそのユーザによって変更(生成、コピー、移動、削除、編集、または合体)された文書についての情報の検出および記録のみが含まれる。この情報は、文書配布経路(DDP)150と称されるデータ構造として表わされ、通常は有向グラフとして実現される。有向グラフにおける頂点は文書を表わし、有向グラフにおける辺は文書間の履歴的な関係(historic relationship)を記述する。DDP150は、ファイルおよびそれらのチャンク(ひとまとまりのデータ群)に関するその他の情報とともに、データベースに保存される。
多くの場合において、OSおよびネットワーク・プロトコル・アーキテクチャによって、全文書間の履歴上の関係をシステム100が再構築するのが妨げられる。特に、ユーザが電子メールの添付として文書を受信してディスクに保存した場合、既存の電子メール・プロトコルは、組織的ネットワークの別のワークステーションでのファイルの起源(文書の起源)までさかのぼって当該ファイルを追跡するアプリケーションをサポートしていない。このような場合、システム100は、受信した文書を既存の文書のデータベースに対して照会するように、類似性検出エンジン(SDE)160(以下で詳しく説明する)を使用することができる。次いで、システムは照会結果を使用して、DDP150を最初に構築する。
SDE160は、システムで利用できる文書の「チャンク」のデータベースを維持する。SDE160は、これらのチャンクのデータを高度に圧縮された階層構造表現170に変換する。この階層構造表現170は、チャンク間の類似性を近似的に示して使用するのに最適な形式である。さらに、SDE160は、チャンクの出所についての情報を文書チャンク・データベース175内に保持する。
本システムは、単一のスタンドアロンのローカル・マシン102上で動作するように構
成でき、この場合、DDP150、SDE160、および階層構造170はすべてこのローカル・マシン102に存在する。しかしながら、システムを企業全体にわたるデータの管理またはセキュリティ解決手段として実装できることを理解すべきである。この場合、クライアント装置102およびサーバ104は構内通信網および/またはインターネットワーク接続106を介して接続される。このようなシステムにおいて、インターネット108のような外部のネットワークへの接続も可能であることより、企業の外でファイルが生成されて、かつ/または企業の外に分配される。
ネットワーク化された環境において、DDP150、SDE160、および階層構造170といった各構成要素が、通常は複数のクライアント102およびサーバ104および/またはサーバ・クラスタに分散される。これより、SDE160はローカル・マシン102上の文書の階層化データベース170による表現を保持し、分散によってサーバ104上、および/またはサーバ104のクラスタ上に同一の圧縮された表現を保持できる。クラスタおよび/または分散型の実装において、ローカルSDE160が新規に受信した文書に対する照会に応答できないとき、ローカルSDE160はサーバSDE104に照会を行なう。次いで、ユーザが新規文書を生成したとき、または既存の文書を変更したとき、ローカルSDE160がサーバSDE104を更新する。更新がサーバSDE104に届くと、すぐに他のクライアント・ワークステーション上で動作する他のローカルSDE160による照会が利用可能になる。クライアント102がネットワーク106に接続されていない状況(例えば、ラップトップのユーザがオフィスを離れて旅行中の場合など)においては、ネットワーク接続が回復されるときまで通信要求が延期されて待ち行列に入れられる。
DDP150およびSDE160は多数のさまざまなアプリケーション120において使用される。このようなアプリケーションの一例は、文書の使用についてのアカウンタビリティの境界を使用点(使用時点および使用場所)において確立するために、データ・セキュリティ・アプリケーションが使用される。このアカウンタビリティ・モデルは、権限を与えられたユーザによる文書へのアクセスを追跡できるだけでなく、さらに重要なことには、機密に属する文書のコピーを周辺機器またはネットワーク接続を介してアクセスまたは移動しようとする企てを監視することができる。このようにして、機密に属する知的財産または他の情報を配布もしくは記録しようとする企て、あるいは他に考えられる権限を悪用するイベントを管理または防止するために、SDE依存セキュリティ・アプリケーション120が使用される。
透過システムのイベント・モニタ180と呼ばれるシステム構成要素が、アプリケーション120のエージェントとして動作する。モニタ180は、クライアント102上で動作するオペレーティング・システム(OS)とエンドユーザ・アプリケーション190との間に介装されている。モニタ・プロセス180は、ファイル・システム192、ネットワーク・インターフェイス194、ポート196、および/またはシステム・クリップボード198への読み書き動作を検出するために、センサまたはシム(Shim)を有する。これらモニタ・プロセス180のセンサは、ローカル・ファイル・サーバには見ることも制御するもできない装置にユーザがアクセスするときに常に生じうる、考えられる不正なイベントを検出するために使用されてもよい。これらのイベントには、コンパクト・ディスク読み書き(CD−RW)ドライブ、携帯情報端末(PDA)、ユニバーサル・シリアル・バス(USB)記憶装置、無線装置、ディジタル・ビデオ記録装置などの管理不可能な媒体への文書の書き込みが含まれ、さらには文書の印刷も含まれる。他の疑わしいイベントは、外部ピア・トゥ・ピア(P2P)アプリケーション、外部の電子メール・アプリケーションを介しての文書の送信、インスタント・メッセージ(IM)アプリケーションの実行、およびインターネット108を介してのウェブサイトへの文書のアップロードなどのイベントを検出するために、ネットワーク・センサ194によって検出される。
イベントとともに通常集められるデータはイベントの種類およびDDP150内に保持したいと望まれる情報の種類による。このような情報は以下に示すものを含むことができる。
・ファイル操作の場合には、元/先のファイル名、操作の種類(オープン、書き込み、削除、名前の変更、ゴミ箱への移動)、装置の種類、最初および最後のアクセス時刻
・アプリケーションの呼び出しの場合には、呼び出しプロセスの識別、実行可能な名前、開始時間、終了時間、およびプロセス所有者
・ログオンまたはログオフなどのユーザ操作の場合には、時刻およびユーザの識別子(ID)
・ネットワーク操作の場合には、発信元/宛先のアドレス、ポートおよびホスト名、開始/終了時刻のスタンプ、送信および受信したバイト数、入力および出力のデータ伝送時間
・クリップボード操作の場合には、宛先のプロセスID、イベント開始時刻、関係するファイル名のフルパス
・リムーバブル記憶媒体へのアクセスのようなその他の高レベルの操作の場合には、ファイル名、装置ID、日時、転送されたバイト数、など
類似性発見システムがセキュリティ・システムの一部である場合、ローカル文書へのアクセス規制、リムーバブル媒体への書き込みの禁止、またはネットワーク・トラフィックの制限など、セキュリティ・アプリケーション120によって定義されているように、アクセス・ポリシーを受け取り行使するために、さらにモニタ・プロセス180を使用できる。
イベント・モニタ180処理は、アプリケーション120、DDP150および/またはSDE160による処理を制限するために発見的方法(heuristics)を含んでもよい。典型的な発見的方法は、システム・ファイルへの標準的な呼び出しによって生成された多数の重要でないイベントを自動的にフィルタリングするための承認ファイル・フィルタを含んでもよい。例えば、多種多様な実行可能ファイルおよびダイナミック・ライブラリのオペレーティング・システムのファイル、フォント・ファイルなどは、同一のアプリケーションから繰り返しオープンされてアクセスされるのが、全くあたりまえである。
イベント・モニタ180およびそれとセキュリティ・アプリケーション120とのやり取りについてのさらなる詳細が本件出願と同時に継続中であるヴェルデーシス社(Verdasys,Inc.)による2003年11月12日付の「ディジタル資産の管理された配布(Managed Distribution of Digital Assets)」という名称の関連の米国特許出願第10/706,871号に含まれており、この出願は、その全体がここでの言及によって本明細書に組み込まれたものとする。しかしながら、SDE依存アプリケーションの他の種類も本発明を利用できることを理解すべきである。
<文書の系図を表現する文書配布経路(DDP)150の生成>
前記データ・セキュリティ・アプリケーション120の一部として、システムは、通常システム内における文書の流れについての履歴的なイベントの表現である文書配布経路(DDP)150を生成する。DDPは通常、ノードすなわち頂点が文書の識別子であって、辺が文書間の履歴的な関係を記述する有向グラフであってもよい。このようなグラフを保持することによって、文書が生成、修正、および/またはアクセスされたときに、セキュリティ・ポリシーをリアルタイムに適用することができる。
さらに、文書の新しいバージョンとこれら文書の起源である出所元文書との類似性は、コンピュータ・システムの動作(例えば、文書の名前が変更、または文書がコピーもしく
は合体させられる場合は常に)を監視することによって明らかにされることもしばしばある。その他の場合(例えば、文書がネットワーク108から受信された場合)には、この類似性を、文書がデータベース内の既存の文書と同様であるか否かを判定することによってのみ明らかにできる。これは、SDE160がセキュリティ・アプリケーション120の重要な一部となる状況の別の例である。
図2は、コンピュータ・システム内の文書の流れの経路の一例(シナリオ)、およびいかに典型的なDDP150を構築できるのかを示す図である。最初の時刻tにおいて、システムは、データベース内の3つの文書(図2において、「文書」A,BおよびCと印されている)の起源について何の情報も有していない。しかしながら、セキュリティ・アプリケーションはSDE160を使用し、文書A,BおよびCの比較を実行して文書AおよびCが類似しているという最初の結論を確立することができる。この結果が、図3に示すとおり、DDP150の関係を有するデータ・セットのエントリ群におけるエントリ301として保存される。
さらに、文書Aに高セキュリティ設定が付されているが、文書Cがそのように特定されていない場合、これらの文書が類似であるとSDE160が判断したことから、セキュリティ・アプリケーション120は、今や文書Cにも同一のセキュリティ設定を適用する。このように、新しい文書に直面したときにセキュリティ・アプリケーション120によって適用される一般的アルゴリズムは、類似文書の探索にSDE160を使用することになっている。類似の文書が見つけ出された場合、新しい文書に対して同一セキュリティ設定を仮定することができる。
時刻tにおいて、イベント・モニタ180(図1)によってコピー・イベント202が検出され、文書Aがコピーされて文書A’として保存されたことが報告される。これが、さらなるエントリ302(図3を参照)としてDDP150に記録される。これは単なるコピー操作であるため、文書同士は類似であると推定され、2つの文書間の関係を完成するためにSDE160を使用する必要はない。
時刻tにおいて、文書Bおよび文書Cを合体させて新しい文書BCにするファイル合体イベント203が見られる。文書Cが高セキュリティのラベルを有するので、1つの結果は、このようなラベルが合体後の文書BCに自動的に適用されるというものであろう。
時刻tにおいて、イベント・モニタ180が、文書Aの文書A''への名称変更204を報告する。このイベントが、エントリ304(図3を参照)としてDDP150に保存される。
次に、tにおいて、2つのイベントが生じるが、これは、イベント・モニタ180およびSDE160の他の部分の両者を備えなければフォレンジックに対して解読困難である状況の一例である。イベント205−1が、機密に属する文書A''が編集プログラム(マイクロソフト・ワードなど)にロードされた旨を報告している。イベント205−3は、文書Dがインターネットから受信されて、やはりエディタ(編集プログラム)によってオープンされた旨を報告している。しかしながら、SDE160は、現時点において文書Dの起源を知らない(実際には、この例では、ユーザが作業を行なっている文書Dは個人的な誕生日パーティの招待状であり、正確な判断をするためには、システムがこの文書を機密に属する文書に分類してはならない)。時刻tにおいて、クリップボードについてのカット・アンド・ペースト操作のイベント206が見られる。しかしながら、マイクロソフト・ワードのカット・アンド・ペースト操作はセキュリティ・アプリケーション120の「適用範囲外」であるという事実により、解決すべき問題が存在している。したがって単にファイル名および保存操作を追跡するだけで文書の系図を辿るのは困難である。こ
れより、検出された操作の範囲が、セキュリティ・アプリケーション120には知らされない。
において、イベント・モニタ108が文書Eへの保存操作を見つけ、時刻tにおいて、文書Eがインターネットを介して送信されるというイベント208をイベント・モニタ180が報告する。このユーザは、機密に属する文書A''からの情報を文書Eとして保存して送信し、セキュリティを損なったか?あるいは、このユーザは、単に文書Dから誕生日の招待状用の文書Eを生成しただけか?
ここで、文書A''と文書E、および文書Dと文書Eの比較を要求するSDE160の結果によって、セキュリティ分類の精度を大きく向上させることができる。文書Eが文書Dにきわめて類似するとの報告が返されたならば、これは低セキュリティのイベントであって違反は生じておらず、インターネット転送の動作の続行が許可される(そして/あるいは、報告はされない)。しかしながら、文書Eが文書A''に類似するのであれば、違反が生じていると考えられ、セキュリティ・アプリケーションが、企業のセキュリティ・ポリシーに規定されているとおりに適切な処理を行なう。低リスクのイベントを誤って高リスクのイベントに分類してしまうことは、このような誤りが多数の誤警報につながり、セキュリティ・システムの運営コストを大きく膨大させてしまうため、一般に納得できるものではない。
これらのイベントを記録する適切なエントリ306,307および308(図3参照)がDDP150に入力され、新規ドキュメントDおよびEがどこから由来したのかについての履歴、および文書Eが送り出されたという事実が記録される。
時刻t8において、いずれかのアプリケーションから保存イベント209が検出される。このイベント209では、古いファイルである文書C’と同一の名前を有する新しいファイルに別のデータが保存される。ここでも、同一ファイル名を有するファイルは同一セキュリティ分類に属すると単に仮定するのではなく、文書C’の中身をデータベースと比較して文書C’を分類するために、SDE160のエンジンを使用することができる。
時刻tにおいて、企業のセキュリティ部門が所有情報漏洩の報告を受信したため、フォレンジック調査が要求された。このような調査は、調査人がDDP150の情報を利用できるのであれば、大幅に簡略化され、より正確に行なうことができる。したがって、企業の外部への機密情報の配布を阻止するようにシステムが構成されていなくても、適切なログおよび報告が一旦もたらされると、後の調査によってこのような漏洩を発見し、違反者に対して法的手段に訴えることができる。
SDE160は、また、2つのファイルの比較の結果として、類似性の程度(実際の数字)を報告することができる。次いで、この数字が使用されて、さらに/あるいはDDPに保持される。したがって、新規文書Eが文書A''に60%類似し、文書Dに32%類似していると例えばSDE160が報告する場合、この情報も、いかに文書が作成されたかについてフォレンジックを推測するうえで重要でありうる。
文書から文書への類似性の程度は、好ましくは2つの文書内の「チャンク」の総数に対する類似するチャンクの数にもとづいて計算される(このようなアルゴリズムの1つについての詳細な説明は、後述されている)。ファイルの一方が入手不可能であり、このファイルに対する類似性を他のファイルに対する既知の類似度にもとづいて計算しなければならない場合、確率論に共通の公式を推定として使用してもよい。例えば、入手できない文書Aの文書Bに対する類似度がSABであると分かっており、文書Bの文書Cに対する類似度がSBCであると分かっている場合、文書Aと文書Cとの間の類似度は、
Figure 2006516775
であると推定できる。この公式より、入手不可能なファイルAおよび照会されたファイルCに対する類似度が、既知であるファイルの数が多くなれば、より大幅に正確になりうる。
<SDE160によって使用されるデータの圧縮された内部表現>
次に、SDE160がいかに2つの文書が類似であるか否かを判断するかについて説明する。SDE160の現実の実装は、いくつかの要件を満足していなければならない。通常は、上述した目的のためには、むしろ非類似の情報であっても類似していると考えられるべきである(例えば、大きく変更された文書でも、元の文書に類似していると考えられるべきである)。今や、一般的なユーザが取り扱う情報の量はきわめて大きくなる可能性があり、システム間での大量のデータの転送がきわめて高速に実行可能であることもしばしばであるため、SDE160は、コンピュータ的にきわめて効率的かつ正確でなければならない。SDE160に必要なメモリ量およびディスク空間量は、ユーザに対して透過であるという要件を満足するため、きわめて限られた量である必要がある。
効率的なSDE160の実装における1つの一般的所見は、2つのバイナリ・データ・ストリームから取り出される同一サイズの2つのチャンクについて、一方のチャンクに存在する長い一連のバイトが他方のチャンクの長い一連のバイトとほぼ一致する(必ずしも正確に一致していなくてもよい)ならば、2つのチャンクは通常は類似であると考えられる。数学的には、このような類似度を示す量は、2つのチャンク間の「共分散」であってもよい(共分散の計算のために各チャンクから取り出されたバイトの対は二次元のデータ点であると考えられる)。ここに記載したSDE160の実装において、望ましいチャンクのサイズは、1キロバイト(KBt)が一般的な値である可変のパラメータである。この数値はシステムのパラメータであり、SDE160についての所望の速度と正確さの間のトレードオフ、保持しなければならない情報の量、および典型的な文書のサイズなどに応じて、より大きくすることも、より小さくすることも、可能である。
典型的な動作の例(シナリオ)には、このように2つ以上のチャンクを含むデータ・ストリームを伴い、さらに別個に、このデータ・ストリームが比較されるチャンクのセット(おそらくは大きなセット)を伴う。目標は、ストリームからのチャンクに類似するチャンクがデータ・セット中に存在するか否かを見出すことにある。「部分文字列検索(substring search)」または「編集回数(number of edits)」などの伝統的なアルゴリズムは、これらがチャンクのデータ・セットに対して、ストリームのすべてのチャンクをすべての文字位置(character position)から出発して照会するため、実用的ではない。伝統的なアルゴリズムが所定のストリームからの互いに重なり合わないチャンクのみを照会するように改良された場合、データ・ストリームを分割するときに分割の位置シフトすなわち「位相」を正確に推測することができないため、類似チャンクの対をほとんど発見できないであろう。
好ましい実施の形態においては、代わりに、SDE160がチャンクのフーリエ係数の絶対値を比較し、かなりの大きさで互いの位相がずれているチャンクについて、チャンク間の類似性を見つけ出す。以下に説明する階層的チャンク表現を使用して、SDE160は正確な一致を特定するためにフーリエ係数の全セットの約10%しか必要とせず、それらを低い正確さの形式(それぞれにつき1バイト、あるいは半バイト)で維持することが
できる。
したがって、データ比較のために効果的に利用されるデータの圧縮された内部表現は、データの短いチャンクのフーリエ係数の絶対値の部分集合であって、低い正確さの形式で維持される。
<クラスタリング・アルゴリズムおよびインデックス・アルゴリズム>
このように、フーリエ変換に基づくチャンク比較は、SDE160(図1を参照)の核心をなす手法である。これより、元となる既存の文書ファイル(例えば、前述した文書A,A’,A'',B,Cなど)が、小さなチャンク(それぞれ約1KBt)に分割され、これらのフーリエ係数のいくつかがチャンク・データベース175に保持される。新しいデータ・ストリームを受信すると、SDE160はこのストリームをチャンクのセットに分解し、これらをデータベース175と比較する。SDE160は、新しいデータ・ストリームとデータベース上のチャンクを構成している既存の文書との間の類似度に関して比較の結果を返す。
図4は、高いレベルにおけるSDE160の処理の代表的なフローチャートである。このように、第1の工程400はデータのストリームを受信する工程であり、次いで工程410でストリームのチャンクを決定する。工程420において、チャンクのフーリエ係数が計算され、これらのうちのいくつかのみが保持される一方で、残りは廃棄される(詳細は後述)。次いで、一連の工程430が、各チャンクのフーリエ係数をデータベース内のファイルのチャンクのフーリエ係数と比較するように、順序だてた方法で実行される。その後、工程440において類似度を割り出す。
通常のファイル・システムが分割されて得られるチャンクの数はきわめて多く、これらのフーリエ係数のデータベースへの効率的な照会手段、および圧縮されたフォーマットでデータを保持する方法が必要とされる。特に、簡単なSQLに基づく照会では、わずかに少数のフーリエ係数の大きな相違を、たとえ他のフーリエ級数の良好な一致が勝っていても、一致していないと判断するため、類似のデータ・チャンクを突き止めることができない。しかしながら、SDE160は、いわゆる最近隣探索(nearest neighbor search)を利用して、少数のフーリエ係数の不一致を重大な相違であるとはみなさない。
すなわち工程420において、チャンクの係数で構成されるベクトル・セットの効率的な表現は、係数の大クラスタのツリー状構造であり、クラスタ・サイズが十分に類似するチャンクのグループを表現するのに十分なだけ小さくなるまで、より小さいクラスタに分割される。このクラスタリング・アルゴリズムはフーリエ級数のセットについてのハッシュ関数の概念を実装し、データベースのインデックスと多少類似する役割を果たす。
工程420のさらなる詳細に関し、最初にSDE160、照会されたチャンクを含むクラスタを見つけるために、最も高いレベルのクラスタを検索する。この処理は、クラスタ階層の底部で一致するチャンク(またはチャンクのセット)に到達するまで、あるいは類似のチャンクが存在しないと判断されるまで続けられる。こうして、SDE160は、類似の文書を同一のクラスタ・セットにマッピングすることができ、これより、クラスタにフィットするすべてのチャンクの座標ではなく、クラスタそのものの座標のみを保持することによって、高レベルのデータ圧縮が達成される。
以下で示すとおり、単一のチャンク・ルックアップ・クエリが、存在するのであれば、類似チャンクの発見を保証することが、SDE160の全体性能にとって極めて重要というわけではない。一致するレコードの取り出しが保証されている決定論的なデータベース・アーキテクチャに反して、SDE160の照会は、多くの場合において正しい一致を見
つけるが、すべての場合とは対照的に、その他の場合には形式的に誤った不一致または「発見されず」の応答を返す。このような緩やかな要件の環境においては、照会を速度について大幅に最適化することができる。
階層内のクラスタは、かなりの程度の重なり合いを有しているため、類似のクラスタが発見される可能性があるツリーのすべての分岐枝を下るということは、照会を大部分の分岐枝を下って移動させることになり、(単純なクラスタ・セットと比べて)階層を備えることの利益を無にしてしまう。本照会は、確率論的推定を使用して、所定チャンクをいずれのクラスタが最も受け入れる可能性があるかを判断し、これらのクラスタを通過する階層の分岐枝のみを探索するように進める。この多分岐枝確率論的サーチは、必要とされる正確さと性能との間に設定可能なバランスをもたらし、これがリアルタイムで文書の類似度を判断するために不可欠である。
SDE160が、元々の照会の他にさらに2つの類似の照会を開始するのであれば、工程440における照会の正確さは大きく改善される。これらの照会においては、元のチャンクの最初の半分または最後の半分のいずれかからのデータのみがフーリエ変換に使用され、使用されない半分からのデータはゼロに設定される。照会されたチャンクに類似するチャンクがシステムに存在する場合、それは照会された半チャンクの一方を含む(重なり合うのではなく)であろう。また、それらの類似度はかなり大きいであろう。3つの照会のうち、最も類似するチャンクのセットを取り出した照会が、最も信頼できる結果を生成するであろう。
単一のクラスタ内にファイル・システムからの多数のチャンクが属する可能性があり、またそれが通常であるため、単一のチャンク照会では、いずれの文書が所定のチャンクに類似するチャンクを含むかを判断することができない。したがって、SDE160が所定のファイルまたはストリームのいくつかの連続するチャンクについて実行する複数の照会430からの結果を照会解釈手順440が統合し、所定のファイルに最も類似するいくつかのファイルの名称(または識別子)を出力する。さらにSDE160は、照会結果の正確さを裏打ちするため、結果についての確率論的大きさを出力する。この大きさが、文書配布経路内における類似度の推定として、あるいは情報セキュリティ・システムにおける確定性因子として使用される。
<多種内容ファイルからのデータ抽出>
いくつかの共通する種類のファイル(例えば、オフィス文書)は、異なる性質の情報を異なるストリーム中に別個に保持している。ストリームごとにもとづき、この情報を分離する方法がいくつか存在する。チャンク・データベースのルックアップをより高速にするためにこれらの手段を利用することができる。例えば、テキスト情報は、画像のデータベースと比較する必要がなく、所定の実装例では、ある種の情報(例えば、ダウンロードしたウェブページ)を機密に関すると判断しないよう決定できる。
<好ましい実施の形態の設計に関する数学的側面>
フーリエ係数のスパース表現を使用する比較処理の設計の目的は、ストリームからのデータを、SDE160が利用できるすべての文書からのすべてのチャンクを含む予め定められたデータベースと比較できるアルゴリズムを設計することにあった。2つのn次元データベクトルxおよびyを考える(必ずしも同じ長さでなくてもよい)。これらのベクトルの畳み込みは、以下のとおり定義される。
Figure 2006516775
添字qの関数としての畳み込みが、あるqにおいて平均に比べて大きい値を有する場合、これらベクトルの2つのチャンクは、おそらくは互いに類似している。畳み込みが複数のピークを呈するということは、ベクトルxおよびyの中に一致するチャンクが多数存在し、これら一致するチャンクの対に関し、これらが属するベクトルの始点からのオフセットの距離が異なっているということを意味する。
図5は、畳み込み結果の一例である。図示の信号を生成するために、以下のmatlab(計算機言語の一種)スクリプトを使用した。
clear
n=1000;
a1=rand(n,1);a2=rand(size(a1));
1part=n/4;n1part=1;n2part=n1part+1part-1;
j1part=n1part:n2part;j2part=n/2+(n1part:n2part);
a2(j1part)=a1(j1part);a2(j2part)=a1(j2part+100);
a1=a1-mean(a1);a2=a2-mean(a2);
c=conv(a1,flipud(a2));plot(c)
関数conv(x,y)、さらに正確にはそのピークの高さが、ベクトルxとyの間の類似度のよい指標である。この関数の以下の特徴を、アルゴリズムの構築に使用することができる。ベクトルx、y、およびconv(x,y)のフーリエ・スペクトルについて検討する。畳み込み定理によれば、
Figure 2006516775
であり、ここでFは、ベクトルへのフーリエ分解の適用を示している。この式は、上記式の両辺をexp(ikq)で乗算し、qについて合計し、総和を右辺に入れ換えることによって容易に確認できる。フーリエ係数は、一般に複素数である。絶対値をとり、次いで上記式の両辺の平均を計算すると、以下のとおりである。
Figure 2006516775
ここで、│・│は、複素数の絶対値を取ることを意味しており、<・>は、平均値を取り除いた後の平均化を表わしている。ベクトルxおよびyが両者の間の位相シフト無しで一致する場合、式の右辺の平均は、同一の振幅および長さを有する任意のベクトル間について得られる平均よりも大きくなるであろう。しかしながら、たとえxおよびyの間に位相シフトが存在しても、(xとyの大きさの差と対照的に)これらのフーリエ係数の位相の差に反映され、この位相シフトの影響は絶対値をとることによって除去される。
この公式が、比較アルゴリズムの数学的基礎の1つを提供する。類似のいくつかのアルゴリズムの説明について、例えばエム・ジェイ・アタラー(M.J.Atallah)、エフ・チザ
ク(F.Chyzak)、ピー・デュマス(P.Dumas)の「近似文字列マッチングのためのランダム化アルゴリズム(A Randomized Algorithm for Approximate String Matching)」、http://algo.inria.fr/dumas/AtChDu99/を参照されたい。
この式は、その右辺において、2つのベクトルのフーリエ係数の絶対値間の相関の公式ときわめてよく似ている。したがって、2つのストリームの比較の問題は、それらのフーリエ係数間の相関係数の計算の問題に帰する。我々のニーズにとって十分な正確さで相関係数を推定するためには、文書のチャンクに保存されたデータのフーリエ係数のすべてを保持する必要はない。我々の実験から、実際に必要とされるのは、すべてのフーリエ係数のうちのわずか約10%であることが明らかになっている。これらほとんどが必要とされない係数の指標を選択するために異なる手法も試みて、より低周波数の係数が保持される手法が、最もよい結果を示した。
conv(x,y)のピークを見つけることに比べると、このアプローチの利点の1つは、ある長さ(小さな素数の倍数、好ましくは2の整数乗)のベクトルのフーリエ係数を、ベクトルの長さとほぼ線形である時間で計算できるという事実による。高速フーリエ変換として知られている一般的なアルゴリズムは、ベクトルの長さがnである場合、時間O(nlogn)で動作する。このアルゴリズムを適用することによって、2つのベクトルの畳み込みのフーリエ係数の平均の計算を、時間がベクトルのサイズの平方に比例する畳み込みそのものの直接計算よりも、大幅に高速にすることができる。
ベクトルの係数間の相関の計算の問題について、さらに詳しく検討する。成分が正規分布(ガウス分布)している2つの任意のベクトルを考える。これらの相関係数rの分布関数を調べる。ベクトルが十分に長い長さkである(この記述の目的において、k>10を十分に大きい数字であると考えることができる)場合、量の分布関数yが、分散D=1/(k−3)でほぼ標準的であることが、統計学から知られているのが事実である。
Figure 2006516775
ジー・エイ・コーン(G.A.Korn)、ティー・エム・コーン(T.M.Korn)の「科学者および技術者のための数学ハンドブック(Mathematical Handbook for Scientista and Engineers)」、マグロウヒル社(McGraw-Hill)、1968年を参照されたい。
この記述は、上記の条件のもとでは、2つのベクトルについて測定された相関係数が理論値とは異なっており、相違はベクトルの長さとともにほぼ指数関数的に減少することを意味している。
ある1つのチャンクに保存されたデータのフーリエ係数がいかに分布(正規または他の何らかの分布)しているか明らかでないため、文書のチャンクに保存されたデータのフーリエ成分の相関係数に上記の記述は直接当てはまらない。実際、我々は、現実の多くの場面において、文書のチャンクに保存されたデータのフーリエ係数の分布関数が正規ではないことを見出している。我々は、単純な技法(外れ値を放棄するなど)を適用することが、フーリエ係数の分布関数をほぼ正規に促進させるのに十分であることを見出した。
今や、「文書の2つのチャンクが類似であるか」という質問が、一般的な統計学の枠組みの中に置かれる。我々は、「2つの文書のチャンクが関係していない」という統計的仮
説を考査することを意図した。文書のチャンクに保存されたデータのフーリエ係数の絶対値が正規分布しているという仮定のもとで、この仮説は「上記導入された量yが、ゼロ平均および1/(k−3)の分散を有する正規分布に属している」に帰する(kは、使用するフーリエ係数の数である)。この考査は、統計学においても最も一般的かつよく検討されているものの1つである。この問題の再構成は、我々に「ファイルのチャンクが類似である」および「ファイルのチャンクに保存されたデータのフーリエ係数がよく相関している」という2つの定性的表現を交換可能に使用させる。
我々の結論は、文書のチャンクを利用可能なチャンクのデータベースに対して考査するために、所定のチャンクおよびデータベース内のすべてのチャンクについて「2つのチャンクは関係ない」という仮説を考査することを選択してもよい。しかしながら、ファイル・システムのうちでSDE160に公開されている部分およびチャンクのデータベース175(図1参照)がきわめて大きいかもしれないので、この考査は法外に高価となる。したがって、我々の課題に対して、「すべてのチャンクを考査する」方法すなわち「サーチし尽くす」方法よりも効率的な技法を発明する必要がある。この件への対処の試みにおいて、我々は、文書のチャンクのツリー状の"world inside the world"構造(図6を参照)を設計した。決定的に重要なことは、相関の関係がほぼ推移的であり、aがbと相関し、bがcと相関するならば、aはcと相関するというものである。換言すれば、ベクトルの小クラスタの中心が、ある所定のベクトルとの強い相関を示さないのであれば、その所定のベクトルは、クラスタ内のあらゆるベクトルとの間に強い相関をもたない可能性が高い。
その要素がSDE160に公開された文書のチャンクに保存されたデータのフーリエ係数であって、ユニタリLノルムを有するように正規化されている空間を考える。我々は、この空間内の要素の類似度の大きさとしてベクトル間の相関を使用する。
推移性の近似関係を念頭において、図6に示すようなクラスタの階層構造が生成される。以下の説明は、所定のチャンクに類似するチャンクを求める照会に対してこの構造600がいかに「すべてをチェックする」方法すなわち網羅的サーチよりも効率的な照会をサポートするのかについての詳細な説明である。特に、照会は、照会されたベクトルと相関するクラスタの中心を通過する構造600の分岐枝に掘り下げられる。
次に、上記クラスタの階層構造600を構築するために我々が使用したクラスタリング方法を説明する。一般に、クラスタリングの問題はNP困難(現実的な次元で解けない)であり、進んだアルゴリズムの適用を必要とする(K-means法、遺伝的アルゴリズム、など)。我々の場合には、すべてのチャンクをメモリ内に同時に保持することさえ不可能である(そのメモリのデータをきわめて多数回閲覧することは言うまでもなく不可能である)ことが、従来からのクラスタリング技法の使用の可能性を無くしてしまうきわめて厄介な問題である。我々は、階層の構築の全プロセスにおいて1回のみ、または最大でも数回のみ、すべてのチャンクを監視することができるオンライン・アルゴリズムを構築する必要がある。
我々は、ディッテンバッハ・エム(Dittenbach,M)、ラウバー・エー(Rauber,A)、およびメルクル・ディー(Merkl,D)の「成長する階層自己組織化マップを使用するデータ内階層構造の発見(Uncovering the Hierarchical Structure in Data Using the Growing Hierarchical Self-Organizing Maps)」、ニューロコンピューティング(Neurocomputing)、2002年、48巻(1〜4):199〜216頁、http://www.ifs.tuwien.ac.at/〜mbach/ghsom/に記載の「成長する階層自己組織化マップ(Growing Hierarchical Self-Organizing Maps)」法に類似するアルゴリズムの構築を選択する。
このアルゴリズムにおいて、すべてのクラスタは当該クラスタに新しい要素が挿入されたときに空間内における位置を変化させるが、このような挿入は、要素がクラスタ内に収まる場合にのみ生じる(このようなクラスタが存在しない場合、構造によって別のクラスタが自動的に生成される)。我々の構造において我々が使用するクラスタは所定の半径を有する球形状である。同一階層レベルにあるクラスタの半径は同一であり、階層の上部から底部へと次第に小さくなる。底部レベルではない1つのクラスタから階層のいくつかの分岐枝が発生する。すべての分岐枝は共通の底部に達する。要素は、構造の底部レベルにおいて登録される。我々の理論の構築のために、我々は「クラスタが要素に類似している」という表現を、より厳密な「クラスタが、要素に類似している中心を備えている」という表現に代えて使用する。クラスタの半径は、そのメンバーがその中心で有する最小の相関係数に対応している。
クラスタが少数の要素しか有していない場合、要素が挿入されたときにクラスタは大きく移動して空間内における適切な位置を「学習」する。クラスタの歩幅は、クラスタが成長するにつれて小さくなり、最終的にクラスタは、事実上不動になる。我々は、新しい要素が挿入されたときに、常に中心がクラスタに属するすべての要素の平均であるように、クラスタの中心の座標を更新することを選択する。ひとたびクラスタが元の位置から移動すると、当該クラスタの要素が依然クラスタ内にあるかどうか保証することがもはやできない。しかしながら、中心極限定理によれば、新たなチャンクが挿入されたときに初期位置からのクラスタ中心の移動の総距離は、いくつのチャンクが属しているかにかかわらず有限である。この理由から、要素がそれら要素の属するクラスタの範囲外になることはまれである。アルゴリズムが、階層構造600を定期的に調べて、クラスタの動きを定期的に調べ、各クラスタの要素が受け入れ先クラスタの範囲から外れる可能性を推定する。次いで、前記可能性があるしきい値(典型的には10−3)を超えたクラスタの要素を自動的に再チェックする。
われわれの構造600のクラスタ610は、程度の大きな重なり合いを互いに有しているようである。構造600内に挿入しようとする要素(すなわち、フーリエ係数のセット)620に対して、当該要素を任意のクラスタに挿入するのに十分高い類似度のクラスタ610が複数存在することもしばしばである。これら複数のクラスタのすべては当該要素に対して一定の類似度を呈する。したがって、それらの中からいずれのクラスタが挿入しようとする要素にとって最も適した受け入れ先であるかを判断しなければならないことが、しばしばある。我々は、このロジックをこの章でさらに明らかにする。
我々の階層構造600は、すべてのツリー状構造に共通であるいくつかの問題を抱えている。第1に、これらの構造は、これらが適切にバランスしている場合、すなわち所定のレベルから出発して各分岐枝の要素の数が大まかに同一である場合にのみ、上手く機能する。簡潔なツリー構造では、(要素が挿入されるときに)オンザフライのバランスが可能であるのに対し、より複雑なツリー構造では、定期的なバランス再調整手順が必要になる。我々の構造も、このような手順を必要とし、ワークステーション102(図1参照)が待機状態の間にSDE160が適切な方法を呼び出す。
次に、図7のフローチャートを参照して、所定の要素について十分に高い相関を呈するクラスタのセットを求めて要素のクラスタの階層構造を照会する手順を説明する。データの掘り出しにおいて、このような手順は「類似度サーチ」と称される。ここに検討する手順の目標は、探し歩く構造の分岐枝の数を可能な限り少なくしつつ(したがって、照会を満足するために要する時間を減らす)、サーチ条件を満足するクラスタを可能な限り多く突き止めることにある。形式的に、我々のサーチ条件は常に、「所定の要素とクラスタ中心との相関が、指定のしきい値よりも大である」というものである。このしきい値rの値は、この手順の外部パラメータであり、いかに選択されるのかも含めて、この章で後述
する。このアルゴリズムの全体的目標に沿って、この手順の正確さは、確率論的な条件で表現され、すなわちこの手順は、所定の条件を満足するクラスタをすべて突き止めることを保証しない。
照会される要素をqとする(「照会のベース」とも称される)。階層構造において最上位レベルに位置するすべてのクラスタ(図6を参照)を
Figure 2006516775
とし、それらの中心を
Figure 2006516775
とする。この手順は、最初に階層構造の最上位レベルを調べる(図7を参照、工程701)。幾何学的検討によれば、あるクラスタ
Figure 2006516775
においてqと高い類似度を呈する要素xを発見する可能性は、
Figure 2006516775
とqとの間の相関係数に従って増加する。
xについてcorr(q,x)>rとすると、
Figure 2006516775
(近似)
この公式が、われわれの照会手順の基礎である。この手順の次の工程703は、すべての
Figure 2006516775
についてqとの相関係数を計算する。
次の工程705は、これらの係数の値に従ってクラスタを並べ替える工程である。次の工程707において、qとの高い類似度を呈する要素の収容先である可能性が最も高い
Figure 2006516775
からクラスタの部分集合
Figure 2006516775
を選択する。
Figure 2006516775
内に入るクラスタと他のクラスタとの間の区別に使用される可能性しきい値Pは、この手順の外部パラメータである。このパラメータは、通常はP〜10−2〜10−4の範囲で選択され、これがこの手順の速度と正確さの間の受け入れ可能なトレードオフであることを我々は見出している。パラメータPは、qとの高い類似度を呈する要素をこの手順が報告しない確率である。この手順は、階層構造の最上位レベルにおいてPに相当する相関しきい値
Figure 2006516775
を自動的に計算する。この手順が選択するクラスタの部分集合
Figure 2006516775
は、さらに詳細に調べる価値のある階層構造中の分岐枝の部分集合を特定する。
次の工程709において、この手順は階層構造の次の(より低い)レベルを調べる。構造の当該レベルに属し、かつこの手順の最初の工程で進入する価値があると見出された分岐枝の部分集合に属するすべてのクラスタが集められる。
このようにして、工程709においてクラスタの部分集合
Figure 2006516775
が形成され、
Figure 2006516775
の代わりに
Figure 2006516775
を使用して前述の分析が適用される。この分析の結果として、この部分集合
Figure 2006516775
が、qとの高い類似度を呈するクラスタによって形成される、さらなる
Figure 2006516775
に帰し、必要とされる相関しきい値
Figure 2006516775
の値が計算される。
これらの工程は状態712で手順が階層構造の底部レベルに達したことが発見されるまで繰り返され、このレベルにおいてr(この手順の外部パラメータ、前記を参照)よりも大きいqとの相関を中心が呈するクラスタがこの手順の結果として報告される(工程714)。
すでに述べたように、要素qが階層構造に挿入されるとき、階層構造のレベルlにおいて、当該要素を収容しうる2つ以上のクラスタ
Figure 2006516775
が存在することがしばしばである。これらのクラスタは、
Figure 2006516775
であり、ここでrは、レベルlにおけるクラスタ半径を定める相関しきい値である。qを収容するのに適したクラスタのこの部分集合の中から、qに対してもっとも適切な収容先あろうクラスタを選択しなければならない。次に、いかにクラスタ選択を決定するかについて説明する。
分岐枝上の他のクラスタとともに、要素qを収容する階層構造の底部レベルのあるクラスタ
Figure 2006516775
を選択すると仮定する(ここで、Lは階層の底部レベルを表わしている)。次いで、すでに述べたとおり照会のベースとして行なわれる同一要素qについての類似度照会を実行すると仮定する。以下の条件が、qの最も適切な収容先として底部レベルのクラスタを指定する。そのクラスタは、引き続く類似度照会が、同一要素を最も高い確度で見つけることができるクラスタである。最もqに類似するクラスタは階層の各レベルにおいて見つけられ、その分岐枝がqの収容先として選択される「貪欲な(greedy)」挿入ロジックが、必ずしも策定された基準を満足しないことに注意すべきである。実際、最上位のレベルにおいてあるクラスタがqにきわめて類似している場合、貪欲なロジックは、このクラスタをqの収容先として選択し、このクラスタから出発する分岐枝のみを下ってより低いレベル
の収容先クラスタの選択を続けるであろう。しかしながら、選択された分岐枝に属し、かつ我々の構造の次のレベルにおいて最もqに類似しているクラスタ
Figure 2006516775
が、qとかなり非類似である場合がありうる(また、そのような場合が多い)。特に、
Figure 2006516775
の場合を考えてみよう。ここでrおよび
Figure 2006516775
の意味は、すでに述べたとおりである。このような状況下において、引き続く照会手順は
Figure 2006516775
をqの収容先としての可能性があると考えず、したがって階層内でqを見つけることができないであろう。要素挿入手順の設計において考慮に入れるべき他の重要な側面は、クラスタに新規要素が挿入されたときにすべてのレベルのクラスタが移動するという点である。その結果、ある時点において要素qに対して良好な候補のように思われる階層の分岐枝は、構造が成長するとともに良好な候補ではなくなるかもしれない。
所定の要素qを挿入するのに階層構造の最も適切な分岐枝を突き止めるために我々が使用を好む方法を以下の内容で説明する。
我々は最初に、階層の底部においてqに類似するクラスタのグループを見つけるために、類似度照会手順を実行する。
次いで我々は、平均して、階層のすべてのレベルにおいてqに最も類似している分岐枝に属するクラスタをこのグループ内で見つける。我々は、qと階層のすべてのレベルにおいて分岐枝を構成しているクラスタの中心との間の重み付けしたL距離の二乗平均平方根としてこの平均を定義する。この計算における重み付けは、先の照会手順において
Figure 2006516775
に対応する半径である。
すでに述べたとおり、工程714(図7参照)における要素の類似度の照会は、次に通常、照会された要素(照会ベース)に類似するクラスタのセットを返す。このセット内の各クラスタは、種々の文書からのデータ・チャンクを含む。したがって、ただ1つの照会では、いずれの単一文書が照会されたチャンクを収容しているかを判断するのに十分ではない。しかしながら、SDE160は、ベースとして文書からの連続するチャンクとの複数の類似度照会を実行でき、次いで、これら照会の結果にもとづいていずれの文書が所望のチャンクを含むかを推論することができる。この目標を満足するために、チャンクが含まれる階層のクラスタにそのチャンクをマッピングした文書チャンク・データベースをSDE160は維持している。ひとたび未知の文書の連続するチャンクに対していくつかの類似度照会をSDE160が実行し、これら連続するチャンクに類似するクラスタのセットが得られると、別の手順が実行される。この手順は、文書チャンク・データベースにアクセスし、その連続するチャンクが、類似度照会によって発見されたものと同一のクラスタに含まれ、かつ同一順序である文書を引き出す。これらの文書が、照会された未知の文書と類似であるとして報告される。後処理の正確さは、照会された未知の文書のチャンクの数に従って指数関数的に増加する。これにより、前処理された文書の1つと当該文書との類似度を高い確度で発見するためには、その文書の少数の連続するチャンクのみを調べればよい。
次に、我々の典型的な類似度照会手順(上記参照)において、われわれの手順が引き出すクラスタとの照会のベースの類似度しきい値を指定するパラメータrについて検討する。照会の後処理を簡単にするために、ベースに偶発的に類似する可能性と同程度のクラスタをこの手順が取り出すことがないように十分に高い値をこのパラメータは有する必要がある。同時に、この照会の最終の目標である要素に類似するチャンクを収容するクラスタをこの手順が取り出してしまうことを防止できるので、このパラメータを高くしすぎてもいけない。したがって、照会の後処理手順がいかに実装されるかに応じてこのパラメータは決まり、さらに階層構造の空間の次元(すなわち、含まれるフーリエ・モードの数)によって決まる。我々の実験においては、70の次元が我々の目的にとって適切であると見出されており、パラメータrは、偶発的クラスタ取出しが約1%であるように選択される。
以上、本発明を、本発明の好ましい実施の形態を参照しつつ詳しく示して説明したが、添付の特許請求の範囲に包含される本発明の技術的範囲から離れることなく、形態や詳細においてさまざまな変更が可能であることを、当業者であれば理解できるであろう。
本発明による類似性発見システムの構成要素を示す図である。クライアント側においては、類似性検出エンジン(SDE)がSDE依存アプリケーションからの文書チャンク類似度照会をサポートする。このため、SDEは文書管理に関連するシステム・イベントを監視し、文書ファイルの階層構造表現を保持する。所定のファイルの階層構造の構成要素はデータ「チャンク」のフーリエ成分として参照され、その識別子(ID)ならびに元々のファイルにおける位置が備え付けの文書チャンク・データベースに保存されている。クライアント側のデータベースも文書配布経路(DDP)を保存している。選択的に、企業全体にわたるサーバをクライアントのSDEからのデータを集めるために使用でき、ローカルSDEではサービスできないサービス照会を提供する。 コンピュータ・システムにおける文書の流れの経路の一例(シナリオ)を示す図である。時刻tにおいて、SDEは文書の出所について何ら情報を有しておらず、元々の階層構造ならびに文書配布経路(DDP)を生成するためにファイル・システムをスキャンする。文書の新しいバージョンとそれらの起源の元文書との類似性は、コンピュータ・システムの動作を監視するだけでは網羅できないこともありうる(例えば、文書の名前が変更されるか、またはコピーもしくは統合された場合)。その他の場合(例えば、文書がネットワークから受信された場合)には、この類似性はSDEへの照会によって最もよく明らかにされる。 文書配布経路(DDP)の表現のリレーショナル・データベースのエントリの一例を示す図であり、文書間の関係、およびいかにしてこれらが生成されたのかを記録している。 SDEが類似文書を特定するのに使用するアルゴリズムの高レベル流れ図である。 文書チャンク階層の最下位レベルの成分をそれぞれ表わす2つのベクトルの畳み込みを示す図である。ここで、畳み込みはそれぞれがベクトル長さの4分の1である2つの相対的にオフセットした共通部分、ならびにランダム・ノイズの2つのピークを有している。 データ・ファイルを表わすためにSDEによって使用される階層構造のアーキテクチャを示す図である。この構造は、文書のチャンクに保存されたデータのフーリエ係数のベクトル空間を表現している。より高いレベルのクラスタはそれぞれ、より低いレベルのクラスタ集合への参照を保持している。底部レベルのクラスタが前記フーリエ係数空間の構成要素を収容している。 所定の構成要素(「照会のベース」と称される)に類似するクラスタについて階層構造を照会するために使用される操作のフローチャートである。

Claims (32)

  1. データ処理環境において文書に対して行なわれた操作の履歴の表現を保持する方法であって、
    (i)1つ以上の元文書の識別子、(ii)少なくとも1つの先文書の識別子、(iii)前記1つ以上の元文書が前記先文書の生成に使用された方式を表わしている関係記述子を備えたエントリを含む文書配布経路表現を維持する維持工程と、
    文書間の関係に影響を及ぼす可能性のあるアクセス・イベントを検出する工程であって、ユーザのクライアント・コンピュータ装置のオペレーティング・システム・カーネル内に位置するモニタ処理によって実行される検出工程と、
    新たな元文書を生成するアクセス・イベントまたは既存の文書についての関係記述子に変更が生じるアクセス・イベントの検出に応答して、このアクセス・イベントが前記操作の履歴に対して与える影響を反映させるように、前記文書配布経路表現に新規エントリを生成する生成工程と、
    前記検出したアクセス・イベントからは前記関係記述子を決定できない場合に、
    前記先文書を既存の文書からなるデータベースに対して照会して、適切な関係記述子を決定する照会工程とを備えた、操作履歴表現の保持方法。
  2. 請求項1において、前記文書配布経路表現が、ユーザ識別子、呼び出しプロセス識別子、ネットワーク操作識別子、および記憶媒体識別子で構成されるグループから選択される他のイベント識別子を含む、操作履歴表現の保持方法。
  3. 請求項2において、前記記憶媒体がリムーバブル記憶媒体である、操作履歴表現の保持方法。
  4. 請求項1において、前記データ配布経路が、文書を表わす頂点および文書間の変更関係を表わす辺を有するグラフとして表わされる、操作履歴表現の保持方法。
  5. 請求項4において、前記変更関係を表わす辺が、関連する文書同一であるかまたは変更されているかを特定している、操作履歴表現の保持方法。
  6. 請求項4において、前記変更関係を表わす辺が、文書が変更された手段を特定している、操作履歴表現の保持方法。
  7. 請求項6において、前記変更が、編集、合体、およびコピーで構成されるグループから選択される、操作履歴表現の保持方法。
  8. 請求項6において、前記文書が変更された手段の特定が、当該文書へのユーザのアクセスの監視および/または当該文書に関係する変更イベントの監視にもとづく、操作履歴表現の保持方法。
  9. 請求項4において、前記変更関係を表わす辺が、文書が変更された度合いを定量化している、操作履歴表現の保持方法。
  10. 請求項1において、前記データ配布経路が、データ・セキュリティ・アプリケーションを実装するのに使用され、
    前記照会工程が類似の文書が存在すると判断した場合に、当該類似の文書にすでに割り当てられているセキュリティ分類を前記先文書に適用する、操作履歴表現の保持方法。
  11. 請求項10において、前記モニタ処理が、文書へのユーザのアクセスを当該文書のセキ
    ュリティ分類に従って制限できる、操作履歴表現の保持方法。
  12. 請求項10において、前記モニタ処理が、文書に対するユーザの制御を当該文書のセキュリティ分類に従って制限できる、操作履歴表現の保持方法。
  13. 請求項10において、前記セキュリティ分類は、新規文書がシステムに最初に保存されるときにリアルタイムでその新規文書に対して適用される、操作履歴表現の保持方法。
  14. 請求項1において、少なくとも1対の文書間の最初の変更関係が、文書間の類似性の度合いによって決定される、操作履歴表現の保持方法。
  15. 請求項14において、前記変更関係が、これら文書のアクセス時間または変更時間の少なくとも一方によってさらに決定される、操作履歴表現の保持方法。
  16. 請求項1において、前記データ配布経路が文書削除機能を実装するのに使用され、削除するよう要求された文書に類似する文書が存在すると前記照会工程が判断した場合に、前記類似文書も削除する、操作履歴表現の保持方法。
  17. データ処理システムにおいてディジタル形式で保存された第1および第2の文書が類似しているか否かを、これら第1および第2の文書のスパース表現を比較することによって判断する方法であって、
    前記第1および第2の文書を所定サイズのデータのチャンクに分割する分割工程と、
    文書内のデータの代表としてすべてのチャンクの部分集合を選択する選択工程と、
    選択されたチャンクを表わす係数のセットを決定する決定工程と、
    係数のセットを係数クラスタに組み合わせる工程であって、係数クラスタは所定の類似度基準に従って類似である係数を含む、組合せ工程と、
    両方の文書からのチャンクが該当するクラスタをカウントすることによって、文書間の類似性の度合いを評価する評価工程とを備えた、類似性判断方法。
  18. 請求項17において、前記特定のチャンクを表わす係数が、このチャンクを構成するデータ値についてのフーリエ変換係数として選択される、類似性判断方法。
  19. 請求項18において、前記選択された係数が、フーリエ変換係数の絶対値である、類似性判断方法。
  20. 請求項18において、フーリエ係数が計算される前に、チャンク内のデータが、複素変数の平面内のユニタリ円にマッピングされる、類似性判断方法。
  21. 請求項17において、前記類似性の度合いが、チャンクに保存されたデータの係数の相関を計算することによって割り出される、類似性判断方法。
  22. 請求項21において、係数のベクトルから外れ値が除去された後に、前記相関が線形である、類似性判断方法。
  23. 請求項17において、2つの文書内の類似データの位置において生じうるシフトを明らかにして、前記類似性の度合いの評価工程が行なわれる、類似性判断方法。
  24. 請求項17において、前記クラスタ表現が、少なくとも2つのレベルを有する階層を備え、より低いレベルの階層が順次、より高いレベルの階層におけるチャンクの一部のみを表わす、類似性判断方法。
  25. 請求項17において、前記比較工程が、最初に階層中のより高いレベルで処理を実行し、この高いレベルにおいて照会されたチャンクの係数とクラスタの中心との間に十分な度合いの類似性が見出された場合にのみ、階層のより低いレベルにおいて係数の比較が続行される、類似性判断方法。
  26. 請求項25において、前記階層の所定の低いレベルにおけるチャンクの係数とクラスタとの比較は、照会された文書の係数に類似するとすでに判断された関連の高レベルのクラスタを通過する階層の分岐枝に属するクラスタのみについての検討に限定される、類似性判断方法。
  27. 請求項25において、さらに、
    a.第1の文書について、階層の所定のレベルに位置する係数のセットから導き出されるクラスタ探索セットを選択する選択工程と、
    b.前記クラスタ探索セット内のクラスタについて、このクラスタ探索セット内のクラスタをベース要素として選択された第2の文書の少なくとも1つのチャンクと比較することによって、類似性を計算する計算工程と、
    c.前記第2の要素からのチャンクに対する類似性の度合いに従って、前記比較したクラスタを並べ替える並べ替え工程と、
    d.進入の類似性しきい値を計算する計算工程と、
    e.前記ベース要素に最も類似するクラスタとして、前記クラスタ探索セットの部分集合を選択する選択工程と、
    f.この部分集合をさらに次のクラスタ探索セットとして取り扱う取扱い工程と、
    g.階層の底部に達するまで前記工程b〜前記fを繰り返す繰返し工程と、
    h.繰り返しが完了した場合、工程fで生成された部分集合を解として返す返却工程とを備えた、類似性判断方法。
  28. 請求項17において、前記比較工程が、さらに、2つの文書についての全体的な類似性の度合いを判断するように、階層内の複数のチャンクについての照会の結果を合体させる照会解釈処理を備えた、類似性判断方法。
  29. 請求項28において、さらに、
    前記第1の文書、およびこの類似性判断方法によってすでに処理された処理済み文書セットのすべての文書について、これら文書内の類似のチャンク数を割り出すさらなる工程によって、
    前記第1の文書が、処理済み文書からなるより大規模なセット中の文書のグループに類似していると判断される、類似性判断方法。
  30. 請求項29において、前記第1の文書に類似するチャンクの数が所定数よりも少ない、前記処理済み文書のセット中の文書は、類似であると判断されない、類似性判断方法。
  31. 請求項25において、前記取扱い工程fにおいて生成されたクラスタの部分集合の中から、階層のより上位レベルの親クラスタと共に所定の係数セットに平均が最も類似するクラスタが、対応する係数セットを保存する受け入れ先として選択される、類似性判断方法。
  32. 請求項31において、前記対応する係数セットに対する階層のさまざまなレベルに位置するクラスタの平均した類似性が、さまざまなレベルにおけるクラスタの前記係数セットとの類似性の2乗の算術平均であって、これらレベルにおけるクラスタの次元によって重み付けされた算術平均によって与えられる、類似性判断方法。
JP2006501066A 2003-01-23 2004-01-21 構造化されていないデータの大集合における類似性および修正履歴の特定 Expired - Lifetime JP4667362B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US44246403P 2003-01-23 2003-01-23
US10/738,924 US7490116B2 (en) 2003-01-23 2003-12-17 Identifying history of modification within large collections of unstructured data
US10/738,919 US6947933B2 (en) 2003-01-23 2003-12-17 Identifying similarities within large collections of unstructured data
PCT/US2004/001530 WO2004066086A2 (en) 2003-01-23 2004-01-21 Identifying similarities and history of modification within large collections of unstructured data

Publications (3)

Publication Number Publication Date
JP2006516775A true JP2006516775A (ja) 2006-07-06
JP2006516775A5 JP2006516775A5 (ja) 2007-03-22
JP4667362B2 JP4667362B2 (ja) 2011-04-13

Family

ID=32777026

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006501066A Expired - Lifetime JP4667362B2 (ja) 2003-01-23 2004-01-21 構造化されていないデータの大集合における類似性および修正履歴の特定

Country Status (4)

Country Link
EP (1) EP1590748A4 (ja)
JP (1) JP4667362B2 (ja)
CA (1) CA2553654C (ja)
WO (1) WO2004066086A2 (ja)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006185153A (ja) * 2004-12-27 2006-07-13 Ricoh Co Ltd セキュリティ情報推定装置、セキュリティ情報推定方法、セキュリティ情報推定プログラム及び記録媒体
JP2007334588A (ja) * 2006-06-14 2007-12-27 Ricoh Co Ltd 情報処理装置、情報処理方法及び情報処理プログラム
JP2008181350A (ja) * 2007-01-25 2008-08-07 Fuji Xerox Co Ltd 情報処理システム、情報処理装置及びプログラム
JP2009533727A (ja) * 2006-04-07 2009-09-17 パラメトリク・テクノロジー・コーポレーシヨン 文書の系図を維持するシステムと方法
JP2010026849A (ja) * 2008-07-22 2010-02-04 Hitachi Ltd 文書管理システム、文書管理プログラム及び文書管理方法
JP2010198498A (ja) * 2009-02-26 2010-09-09 Mitsubishi Electric Corp 情報処理装置及び情報処理方法及びプログラム
JP2011028646A (ja) * 2009-07-28 2011-02-10 Nippon Telegr & Teleph Corp <Ntt> コンテンツ流通監視方法及びシステムと、このシステムで使用される装置及びそのプログラム
JP2012083920A (ja) * 2010-10-08 2012-04-26 Fujitsu Ltd 操作制限管理プログラム、操作制限管理装置及び操作制限管理方法
JP2012083923A (ja) * 2010-10-08 2012-04-26 Fujitsu Ltd ログ管理プログラム、ログ管理装置及びログ管理方法
WO2012111144A1 (ja) * 2011-02-18 2012-08-23 株式会社日立製作所 不正操作検知方法、不正操作検知システム及び計算機読み取り可能な非一時的記憶媒体
JP2012174151A (ja) * 2011-02-24 2012-09-10 Mitsubishi Electric Corp ファイル追跡装置及びファイル追跡方法及びファイル追跡プログラム
WO2012164648A1 (ja) * 2011-05-27 2012-12-06 株式会社日立製作所 ファイル来歴記録システム、ファイル来歴管理装置及びファイル来歴記録方法
US8402048B2 (en) 2009-07-14 2013-03-19 Hitachi, Ltd. Trail management method, system, and program
US8719691B2 (en) 2006-12-04 2014-05-06 Fuji Xerox Co., Ltd. Document providing system and computer-readable storage medium

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006338147A (ja) * 2005-05-31 2006-12-14 Ricoh Co Ltd 文書管理装置、文書管理方法およびプログラム
JP4791776B2 (ja) * 2005-07-26 2011-10-12 株式会社リコー セキュリティ情報推定装置、セキュリティ情報推定方法、セキュリティ情報推定プログラム及び記録媒体
JP2008305094A (ja) * 2007-06-06 2008-12-18 Canon Inc 文書管理方法及びその装置
CN112199936B (zh) * 2020-11-12 2024-01-23 深圳供电局有限公司 一种科研项目重复申报智能分析方法、存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0581096A (ja) * 1991-09-19 1993-04-02 Matsushita Electric Ind Co Ltd 電子フアイリング装置の頁消去方式
JPH08292961A (ja) * 1995-04-20 1996-11-05 Fuji Xerox Co Ltd 文書複写関係管理システム
JPH0944432A (ja) * 1995-05-24 1997-02-14 Fuji Xerox Co Ltd 情報処理方法および情報処理装置
JPH0950410A (ja) * 1995-06-01 1997-02-18 Fuji Xerox Co Ltd 情報処理方法及び情報処理装置
JPH10133934A (ja) * 1996-09-05 1998-05-22 Fujitsu Ltd 分散型文書管理システムおよびそれを実現するプログラム記憶媒体
JPH11259459A (ja) * 1998-03-06 1999-09-24 Fuji Xerox Co Ltd 文書管理装置
JP2001023297A (ja) * 1999-07-02 2001-01-26 Sharp Corp コンテンツ流通管理装置およびプログラム記録媒体
JP2001136363A (ja) * 1999-11-02 2001-05-18 Nippon Telegraph & Telephone West Corp コンテンツ利用許諾管理方法ならびにその装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5926812A (en) * 1996-06-20 1999-07-20 Mantra Technologies, Inc. Document extraction and comparison method with applications to automatic personalized database searching
US5940830A (en) * 1996-09-05 1999-08-17 Fujitsu Limited Distributed document management system
US6633882B1 (en) * 2000-06-29 2003-10-14 Microsoft Corporation Multi-dimensional database record compression utilizing optimized cluster models

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0581096A (ja) * 1991-09-19 1993-04-02 Matsushita Electric Ind Co Ltd 電子フアイリング装置の頁消去方式
JPH08292961A (ja) * 1995-04-20 1996-11-05 Fuji Xerox Co Ltd 文書複写関係管理システム
JPH0944432A (ja) * 1995-05-24 1997-02-14 Fuji Xerox Co Ltd 情報処理方法および情報処理装置
JPH0950410A (ja) * 1995-06-01 1997-02-18 Fuji Xerox Co Ltd 情報処理方法及び情報処理装置
JPH10133934A (ja) * 1996-09-05 1998-05-22 Fujitsu Ltd 分散型文書管理システムおよびそれを実現するプログラム記憶媒体
JPH11259459A (ja) * 1998-03-06 1999-09-24 Fuji Xerox Co Ltd 文書管理装置
JP2001023297A (ja) * 1999-07-02 2001-01-26 Sharp Corp コンテンツ流通管理装置およびプログラム記録媒体
JP2001136363A (ja) * 1999-11-02 2001-05-18 Nippon Telegraph & Telephone West Corp コンテンツ利用許諾管理方法ならびにその装置

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4695388B2 (ja) * 2004-12-27 2011-06-08 株式会社リコー セキュリティ情報推定装置、セキュリティ情報推定方法、セキュリティ情報推定プログラム及び記録媒体
JP2006185153A (ja) * 2004-12-27 2006-07-13 Ricoh Co Ltd セキュリティ情報推定装置、セキュリティ情報推定方法、セキュリティ情報推定プログラム及び記録媒体
JP2009533727A (ja) * 2006-04-07 2009-09-17 パラメトリク・テクノロジー・コーポレーシヨン 文書の系図を維持するシステムと方法
JP2007334588A (ja) * 2006-06-14 2007-12-27 Ricoh Co Ltd 情報処理装置、情報処理方法及び情報処理プログラム
US8719691B2 (en) 2006-12-04 2014-05-06 Fuji Xerox Co., Ltd. Document providing system and computer-readable storage medium
JP2008181350A (ja) * 2007-01-25 2008-08-07 Fuji Xerox Co Ltd 情報処理システム、情報処理装置及びプログラム
JP2010026849A (ja) * 2008-07-22 2010-02-04 Hitachi Ltd 文書管理システム、文書管理プログラム及び文書管理方法
JP2010198498A (ja) * 2009-02-26 2010-09-09 Mitsubishi Electric Corp 情報処理装置及び情報処理方法及びプログラム
US8402048B2 (en) 2009-07-14 2013-03-19 Hitachi, Ltd. Trail management method, system, and program
JP2011028646A (ja) * 2009-07-28 2011-02-10 Nippon Telegr & Teleph Corp <Ntt> コンテンツ流通監視方法及びシステムと、このシステムで使用される装置及びそのプログラム
JP2012083920A (ja) * 2010-10-08 2012-04-26 Fujitsu Ltd 操作制限管理プログラム、操作制限管理装置及び操作制限管理方法
JP2012083923A (ja) * 2010-10-08 2012-04-26 Fujitsu Ltd ログ管理プログラム、ログ管理装置及びログ管理方法
WO2012111144A1 (ja) * 2011-02-18 2012-08-23 株式会社日立製作所 不正操作検知方法、不正操作検知システム及び計算機読み取り可能な非一時的記憶媒体
JP2012174151A (ja) * 2011-02-24 2012-09-10 Mitsubishi Electric Corp ファイル追跡装置及びファイル追跡方法及びファイル追跡プログラム
WO2012164648A1 (ja) * 2011-05-27 2012-12-06 株式会社日立製作所 ファイル来歴記録システム、ファイル来歴管理装置及びファイル来歴記録方法
JP5689174B2 (ja) * 2011-05-27 2015-03-25 株式会社日立製作所 ファイル来歴記録システム、ファイル来歴管理装置及びファイル来歴記録方法
US9384177B2 (en) 2011-05-27 2016-07-05 Hitachi, Ltd. File history recording system, file history management system and file history recording method

Also Published As

Publication number Publication date
JP4667362B2 (ja) 2011-04-13
EP1590748A4 (en) 2008-07-30
CA2553654C (en) 2014-04-22
EP1590748A2 (en) 2005-11-02
WO2004066086A2 (en) 2004-08-05
CA2553654A1 (en) 2004-08-05
WO2004066086A3 (en) 2005-01-20

Similar Documents

Publication Publication Date Title
US7490116B2 (en) Identifying history of modification within large collections of unstructured data
JP4667362B2 (ja) 構造化されていないデータの大集合における類似性および修正履歴の特定
US8965925B2 (en) Access controls
US7610285B1 (en) System and method for classifying objects
US8627403B1 (en) Policy applicability determination
CN102054022B (zh) 用于处理并管理与对象相关的数据以供多个应用程序使用的系统及方法
US20180300494A1 (en) Method of identifying and tracking sensitive data and system thereof
US8176018B1 (en) Incremental file system differencing
US10417265B2 (en) High performance parallel indexing for forensics and electronic discovery
US8965941B2 (en) File list generation method, system, and program, and file list generation device
US20120166478A1 (en) Just-in-time analytics on large file systems
US20050246386A1 (en) Hierarchical storage management
US11030054B2 (en) Methods and systems for data backup based on data classification
US20140122540A1 (en) Dimensional Reduction Mechanisms for Representing Massive Communication Network Graphs for Structural Queries
US10817542B2 (en) User clustering based on metadata analysis
US10956453B2 (en) Method to estimate the deletability of data objects
US11914869B2 (en) Methods and systems for encryption based on intelligent data classification
US20200210382A1 (en) System and method of deletion of files and counteracting their restoration
US11853415B1 (en) Context-based identification of anomalous log data
US11526506B2 (en) Related file analysis
US9734195B1 (en) Automated data flow tracking
Abdalla et al. NoSQL: Robust and efficient data management on deduplication process by using a mobile application
CN112100670A (zh) 一种基于大数据的隐私数据分级保护方法
US20240143610A1 (en) Monitoring data usage to optimize storage placement and access using content-based datasets
JP5018346B2 (ja) 情報処理装置及び情報処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070118

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070129

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100608

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100825

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100901

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101126

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101221

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110111

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140121

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4667362

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term