JP2006516775A - 構造化されていないデータの大集合における類似性および修正履歴の特定 - Google Patents
構造化されていないデータの大集合における類似性および修正履歴の特定 Download PDFInfo
- Publication number
- JP2006516775A JP2006516775A JP2006501066A JP2006501066A JP2006516775A JP 2006516775 A JP2006516775 A JP 2006516775A JP 2006501066 A JP2006501066 A JP 2006501066A JP 2006501066 A JP2006501066 A JP 2006501066A JP 2006516775 A JP2006516775 A JP 2006516775A
- Authority
- JP
- Japan
- Prior art keywords
- document
- documents
- similarity
- cluster
- similar
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 claims abstract description 101
- 238000012545 processing Methods 0.000 claims abstract description 9
- 239000013598 vector Substances 0.000 claims description 31
- 230000008569 process Effects 0.000 claims description 16
- 230000008859 change Effects 0.000 claims description 11
- 238000012544 monitoring process Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000013459 approach Methods 0.000 claims description 4
- 230000004044 response Effects 0.000 claims description 2
- FGUUSXIOTUKUDN-IBGZPJMESA-N C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 Chemical compound C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 FGUUSXIOTUKUDN-IBGZPJMESA-N 0.000 claims 2
- 238000012217 deletion Methods 0.000 claims 1
- 230000037430 deletion Effects 0.000 claims 1
- 238000011156 evaluation Methods 0.000 claims 1
- 230000014759 maintenance of location Effects 0.000 claims 1
- 238000004422 calculation algorithm Methods 0.000 description 25
- 230000008901 benefit Effects 0.000 description 5
- 230000007423 decrease Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 238000005315 distribution function Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000004308 accommodation Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000001747 exhibiting effect Effects 0.000 description 3
- 238000003780 insertion Methods 0.000 description 3
- 230000037431 insertion Effects 0.000 description 3
- 230000010363 phase shift Effects 0.000 description 3
- 238000012805 post-processing Methods 0.000 description 3
- 230000000875 corresponding effect Effects 0.000 description 2
- 238000013523 data management Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 230000000717 retained effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241000698776 Duma Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000001010 compromised effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000011842 forensic investigation Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000002427 irreversible effect Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 239000010813 municipal solid waste Substances 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Storage Device Security (AREA)
- Document Processing Apparatus (AREA)
Abstract
Description
of Proprietary Electronic Information)」という名称の米国特許仮出願第60/442,464号の利益を主張している。上記出願の教示の全体は、ここでの言及によって本明細書に組み込まれたものとする。
・データのセキュリティ−−文書のコピーが多くなるとともに、その中身へのアクセス
を管理することが難しくなる。
・文書の分類−−類似の文書のコピーは、ユーザの介在を必要とせずに同一の方法で処理される必要があると考えられ、さらにこれを自動で行なうのが望ましい。
・系図−−特定の文書がいかに発展したのかについて履歴を特定する。
・フォレンジック−−誰が文書を改ざんしたかを特定する。
・法令遵守−−今や、医療業界および金融業界におけるあるいくつかの法律および規則が、文書へのアクセスを管理して、かつ/または文書が所定の時間経過後に自動的に廃棄されるように要求している。
路は、1)文書の起源、2)起源の場所からの配布経路、および3)当該文書を改ざんしたユーザの名前および改ざんが生じた時刻、を特定することができる。
図1は、データ類似性発見システム100を高度に概念化した図である。クライアント・コンピュータ102およびサーバ・コンピュータ104(利用される場合)が、ユーザの作業を継続的に監視し、データ・ファイルまたは価値ある情報を包含する文書ファイルのようなその他「ディジタル資産」についての情報を収集する。監視されるイベントには、コンピュータのオペレーティング・システム(OS)ならびにそのユーザによって変更(生成、コピー、移動、削除、編集、または合体)された文書についての情報の検出および記録のみが含まれる。この情報は、文書配布経路(DDP)150と称されるデータ構造として表わされ、通常は有向グラフとして実現される。有向グラフにおける頂点は文書を表わし、有向グラフにおける辺は文書間の履歴的な関係(historic relationship)を記述する。DDP150は、ファイルおよびそれらのチャンク(ひとまとまりのデータ群)に関するその他の情報とともに、データベースに保存される。
成でき、この場合、DDP150、SDE160、および階層構造170はすべてこのローカル・マシン102に存在する。しかしながら、システムを企業全体にわたるデータの管理またはセキュリティ解決手段として実装できることを理解すべきである。この場合、クライアント装置102およびサーバ104は構内通信網および/またはインターネットワーク接続106を介して接続される。このようなシステムにおいて、インターネット108のような外部のネットワークへの接続も可能であることより、企業の外でファイルが生成されて、かつ/または企業の外に分配される。
・ファイル操作の場合には、元/先のファイル名、操作の種類(オープン、書き込み、削除、名前の変更、ゴミ箱への移動)、装置の種類、最初および最後のアクセス時刻
・アプリケーションの呼び出しの場合には、呼び出しプロセスの識別、実行可能な名前、開始時間、終了時間、およびプロセス所有者
・ログオンまたはログオフなどのユーザ操作の場合には、時刻およびユーザの識別子(ID)
・ネットワーク操作の場合には、発信元/宛先のアドレス、ポートおよびホスト名、開始/終了時刻のスタンプ、送信および受信したバイト数、入力および出力のデータ伝送時間
・クリップボード操作の場合には、宛先のプロセスID、イベント開始時刻、関係するファイル名のフルパス
・リムーバブル記憶媒体へのアクセスのようなその他の高レベルの操作の場合には、ファイル名、装置ID、日時、転送されたバイト数、など
前記データ・セキュリティ・アプリケーション120の一部として、システムは、通常システム内における文書の流れについての履歴的なイベントの表現である文書配布経路(DDP)150を生成する。DDPは通常、ノードすなわち頂点が文書の識別子であって、辺が文書間の履歴的な関係を記述する有向グラフであってもよい。このようなグラフを保持することによって、文書が生成、修正、および/またはアクセスされたときに、セキュリティ・ポリシーをリアルタイムに適用することができる。
は合体させられる場合は常に)を監視することによって明らかにされることもしばしばある。その他の場合(例えば、文書がネットワーク108から受信された場合)には、この類似性を、文書がデータベース内の既存の文書と同様であるか否かを判定することによってのみ明らかにできる。これは、SDE160がセキュリティ・アプリケーション120の重要な一部となる状況の別の例である。
れより、検出された操作の範囲が、セキュリティ・アプリケーション120には知らされない。
次に、SDE160がいかに2つの文書が類似であるか否かを判断するかについて説明する。SDE160の現実の実装は、いくつかの要件を満足していなければならない。通常は、上述した目的のためには、むしろ非類似の情報であっても類似していると考えられるべきである(例えば、大きく変更された文書でも、元の文書に類似していると考えられるべきである)。今や、一般的なユーザが取り扱う情報の量はきわめて大きくなる可能性があり、システム間での大量のデータの転送がきわめて高速に実行可能であることもしばしばであるため、SDE160は、コンピュータ的にきわめて効率的かつ正確でなければならない。SDE160に必要なメモリ量およびディスク空間量は、ユーザに対して透過であるという要件を満足するため、きわめて限られた量である必要がある。
できる。
このように、フーリエ変換に基づくチャンク比較は、SDE160(図1を参照)の核心をなす手法である。これより、元となる既存の文書ファイル(例えば、前述した文書A,A’,A'',B,Cなど)が、小さなチャンク(それぞれ約1KBt)に分割され、これらのフーリエ係数のいくつかがチャンク・データベース175に保持される。新しいデータ・ストリームを受信すると、SDE160はこのストリームをチャンクのセットに分解し、これらをデータベース175と比較する。SDE160は、新しいデータ・ストリームとデータベース上のチャンクを構成している既存の文書との間の類似度に関して比較の結果を返す。
つけるが、すべての場合とは対照的に、その他の場合には形式的に誤った不一致または「発見されず」の応答を返す。このような緩やかな要件の環境においては、照会を速度について大幅に最適化することができる。
いくつかの共通する種類のファイル(例えば、オフィス文書)は、異なる性質の情報を異なるストリーム中に別個に保持している。ストリームごとにもとづき、この情報を分離する方法がいくつか存在する。チャンク・データベースのルックアップをより高速にするためにこれらの手段を利用することができる。例えば、テキスト情報は、画像のデータベースと比較する必要がなく、所定の実装例では、ある種の情報(例えば、ダウンロードしたウェブページ)を機密に関すると判断しないよう決定できる。
フーリエ係数のスパース表現を使用する比較処理の設計の目的は、ストリームからのデータを、SDE160が利用できるすべての文書からのすべてのチャンクを含む予め定められたデータベースと比較できるアルゴリズムを設計することにあった。2つのn次元データベクトルxおよびyを考える(必ずしも同じ長さでなくてもよい)。これらのベクトルの畳み込みは、以下のとおり定義される。
clear
n=1000;
a1=rand(n,1);a2=rand(size(a1));
1part=n/4;n1part=1;n2part=n1part+1part-1;
j1part=n1part:n2part;j2part=n/2+(n1part:n2part);
a2(j1part)=a1(j1part);a2(j2part)=a1(j2part+100);
a1=a1-mean(a1);a2=a2-mean(a2);
c=conv(a1,flipud(a2));plot(c)
ク(F.Chyzak)、ピー・デュマス(P.Dumas)の「近似文字列マッチングのためのランダム化アルゴリズム(A Randomized Algorithm for Approximate String Matching)」、http://algo.inria.fr/dumas/AtChDu99/を参照されたい。
説を考査することを意図した。文書のチャンクに保存されたデータのフーリエ係数の絶対値が正規分布しているという仮定のもとで、この仮説は「上記導入された量yが、ゼロ平均および1/(k−3)の分散を有する正規分布に属している」に帰する(kは、使用するフーリエ係数の数である)。この考査は、統計学においても最も一般的かつよく検討されているものの1つである。この問題の再構成は、我々に「ファイルのチャンクが類似である」および「ファイルのチャンクに保存されたデータのフーリエ係数がよく相関している」という2つの定性的表現を交換可能に使用させる。
する。このアルゴリズムの全体的目標に沿って、この手順の正確さは、確率論的な条件で表現され、すなわちこの手順は、所定の条件を満足するクラスタをすべて突き止めることを保証しない。
xについてcorr(q,x)>rとすると、
の収容先クラスタの選択を続けるであろう。しかしながら、選択された分岐枝に属し、かつ我々の構造の次のレベルにおいて最もqに類似しているクラスタ
Claims (32)
- データ処理環境において文書に対して行なわれた操作の履歴の表現を保持する方法であって、
(i)1つ以上の元文書の識別子、(ii)少なくとも1つの先文書の識別子、(iii)前記1つ以上の元文書が前記先文書の生成に使用された方式を表わしている関係記述子を備えたエントリを含む文書配布経路表現を維持する維持工程と、
文書間の関係に影響を及ぼす可能性のあるアクセス・イベントを検出する工程であって、ユーザのクライアント・コンピュータ装置のオペレーティング・システム・カーネル内に位置するモニタ処理によって実行される検出工程と、
新たな元文書を生成するアクセス・イベントまたは既存の文書についての関係記述子に変更が生じるアクセス・イベントの検出に応答して、このアクセス・イベントが前記操作の履歴に対して与える影響を反映させるように、前記文書配布経路表現に新規エントリを生成する生成工程と、
前記検出したアクセス・イベントからは前記関係記述子を決定できない場合に、
前記先文書を既存の文書からなるデータベースに対して照会して、適切な関係記述子を決定する照会工程とを備えた、操作履歴表現の保持方法。 - 請求項1において、前記文書配布経路表現が、ユーザ識別子、呼び出しプロセス識別子、ネットワーク操作識別子、および記憶媒体識別子で構成されるグループから選択される他のイベント識別子を含む、操作履歴表現の保持方法。
- 請求項2において、前記記憶媒体がリムーバブル記憶媒体である、操作履歴表現の保持方法。
- 請求項1において、前記データ配布経路が、文書を表わす頂点および文書間の変更関係を表わす辺を有するグラフとして表わされる、操作履歴表現の保持方法。
- 請求項4において、前記変更関係を表わす辺が、関連する文書同一であるかまたは変更されているかを特定している、操作履歴表現の保持方法。
- 請求項4において、前記変更関係を表わす辺が、文書が変更された手段を特定している、操作履歴表現の保持方法。
- 請求項6において、前記変更が、編集、合体、およびコピーで構成されるグループから選択される、操作履歴表現の保持方法。
- 請求項6において、前記文書が変更された手段の特定が、当該文書へのユーザのアクセスの監視および/または当該文書に関係する変更イベントの監視にもとづく、操作履歴表現の保持方法。
- 請求項4において、前記変更関係を表わす辺が、文書が変更された度合いを定量化している、操作履歴表現の保持方法。
- 請求項1において、前記データ配布経路が、データ・セキュリティ・アプリケーションを実装するのに使用され、
前記照会工程が類似の文書が存在すると判断した場合に、当該類似の文書にすでに割り当てられているセキュリティ分類を前記先文書に適用する、操作履歴表現の保持方法。 - 請求項10において、前記モニタ処理が、文書へのユーザのアクセスを当該文書のセキ
ュリティ分類に従って制限できる、操作履歴表現の保持方法。 - 請求項10において、前記モニタ処理が、文書に対するユーザの制御を当該文書のセキュリティ分類に従って制限できる、操作履歴表現の保持方法。
- 請求項10において、前記セキュリティ分類は、新規文書がシステムに最初に保存されるときにリアルタイムでその新規文書に対して適用される、操作履歴表現の保持方法。
- 請求項1において、少なくとも1対の文書間の最初の変更関係が、文書間の類似性の度合いによって決定される、操作履歴表現の保持方法。
- 請求項14において、前記変更関係が、これら文書のアクセス時間または変更時間の少なくとも一方によってさらに決定される、操作履歴表現の保持方法。
- 請求項1において、前記データ配布経路が文書削除機能を実装するのに使用され、削除するよう要求された文書に類似する文書が存在すると前記照会工程が判断した場合に、前記類似文書も削除する、操作履歴表現の保持方法。
- データ処理システムにおいてディジタル形式で保存された第1および第2の文書が類似しているか否かを、これら第1および第2の文書のスパース表現を比較することによって判断する方法であって、
前記第1および第2の文書を所定サイズのデータのチャンクに分割する分割工程と、
文書内のデータの代表としてすべてのチャンクの部分集合を選択する選択工程と、
選択されたチャンクを表わす係数のセットを決定する決定工程と、
係数のセットを係数クラスタに組み合わせる工程であって、係数クラスタは所定の類似度基準に従って類似である係数を含む、組合せ工程と、
両方の文書からのチャンクが該当するクラスタをカウントすることによって、文書間の類似性の度合いを評価する評価工程とを備えた、類似性判断方法。 - 請求項17において、前記特定のチャンクを表わす係数が、このチャンクを構成するデータ値についてのフーリエ変換係数として選択される、類似性判断方法。
- 請求項18において、前記選択された係数が、フーリエ変換係数の絶対値である、類似性判断方法。
- 請求項18において、フーリエ係数が計算される前に、チャンク内のデータが、複素変数の平面内のユニタリ円にマッピングされる、類似性判断方法。
- 請求項17において、前記類似性の度合いが、チャンクに保存されたデータの係数の相関を計算することによって割り出される、類似性判断方法。
- 請求項21において、係数のベクトルから外れ値が除去された後に、前記相関が線形である、類似性判断方法。
- 請求項17において、2つの文書内の類似データの位置において生じうるシフトを明らかにして、前記類似性の度合いの評価工程が行なわれる、類似性判断方法。
- 請求項17において、前記クラスタ表現が、少なくとも2つのレベルを有する階層を備え、より低いレベルの階層が順次、より高いレベルの階層におけるチャンクの一部のみを表わす、類似性判断方法。
- 請求項17において、前記比較工程が、最初に階層中のより高いレベルで処理を実行し、この高いレベルにおいて照会されたチャンクの係数とクラスタの中心との間に十分な度合いの類似性が見出された場合にのみ、階層のより低いレベルにおいて係数の比較が続行される、類似性判断方法。
- 請求項25において、前記階層の所定の低いレベルにおけるチャンクの係数とクラスタとの比較は、照会された文書の係数に類似するとすでに判断された関連の高レベルのクラスタを通過する階層の分岐枝に属するクラスタのみについての検討に限定される、類似性判断方法。
- 請求項25において、さらに、
a.第1の文書について、階層の所定のレベルに位置する係数のセットから導き出されるクラスタ探索セットを選択する選択工程と、
b.前記クラスタ探索セット内のクラスタについて、このクラスタ探索セット内のクラスタをベース要素として選択された第2の文書の少なくとも1つのチャンクと比較することによって、類似性を計算する計算工程と、
c.前記第2の要素からのチャンクに対する類似性の度合いに従って、前記比較したクラスタを並べ替える並べ替え工程と、
d.進入の類似性しきい値を計算する計算工程と、
e.前記ベース要素に最も類似するクラスタとして、前記クラスタ探索セットの部分集合を選択する選択工程と、
f.この部分集合をさらに次のクラスタ探索セットとして取り扱う取扱い工程と、
g.階層の底部に達するまで前記工程b〜前記fを繰り返す繰返し工程と、
h.繰り返しが完了した場合、工程fで生成された部分集合を解として返す返却工程とを備えた、類似性判断方法。 - 請求項17において、前記比較工程が、さらに、2つの文書についての全体的な類似性の度合いを判断するように、階層内の複数のチャンクについての照会の結果を合体させる照会解釈処理を備えた、類似性判断方法。
- 請求項28において、さらに、
前記第1の文書、およびこの類似性判断方法によってすでに処理された処理済み文書セットのすべての文書について、これら文書内の類似のチャンク数を割り出すさらなる工程によって、
前記第1の文書が、処理済み文書からなるより大規模なセット中の文書のグループに類似していると判断される、類似性判断方法。 - 請求項29において、前記第1の文書に類似するチャンクの数が所定数よりも少ない、前記処理済み文書のセット中の文書は、類似であると判断されない、類似性判断方法。
- 請求項25において、前記取扱い工程fにおいて生成されたクラスタの部分集合の中から、階層のより上位レベルの親クラスタと共に所定の係数セットに平均が最も類似するクラスタが、対応する係数セットを保存する受け入れ先として選択される、類似性判断方法。
- 請求項31において、前記対応する係数セットに対する階層のさまざまなレベルに位置するクラスタの平均した類似性が、さまざまなレベルにおけるクラスタの前記係数セットとの類似性の2乗の算術平均であって、これらレベルにおけるクラスタの次元によって重み付けされた算術平均によって与えられる、類似性判断方法。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US44246403P | 2003-01-23 | 2003-01-23 | |
US10/738,924 US7490116B2 (en) | 2003-01-23 | 2003-12-17 | Identifying history of modification within large collections of unstructured data |
US10/738,919 US6947933B2 (en) | 2003-01-23 | 2003-12-17 | Identifying similarities within large collections of unstructured data |
PCT/US2004/001530 WO2004066086A2 (en) | 2003-01-23 | 2004-01-21 | Identifying similarities and history of modification within large collections of unstructured data |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2006516775A true JP2006516775A (ja) | 2006-07-06 |
JP2006516775A5 JP2006516775A5 (ja) | 2007-03-22 |
JP4667362B2 JP4667362B2 (ja) | 2011-04-13 |
Family
ID=32777026
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006501066A Expired - Lifetime JP4667362B2 (ja) | 2003-01-23 | 2004-01-21 | 構造化されていないデータの大集合における類似性および修正履歴の特定 |
Country Status (4)
Country | Link |
---|---|
EP (1) | EP1590748A4 (ja) |
JP (1) | JP4667362B2 (ja) |
CA (1) | CA2553654C (ja) |
WO (1) | WO2004066086A2 (ja) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006185153A (ja) * | 2004-12-27 | 2006-07-13 | Ricoh Co Ltd | セキュリティ情報推定装置、セキュリティ情報推定方法、セキュリティ情報推定プログラム及び記録媒体 |
JP2007334588A (ja) * | 2006-06-14 | 2007-12-27 | Ricoh Co Ltd | 情報処理装置、情報処理方法及び情報処理プログラム |
JP2008181350A (ja) * | 2007-01-25 | 2008-08-07 | Fuji Xerox Co Ltd | 情報処理システム、情報処理装置及びプログラム |
JP2009533727A (ja) * | 2006-04-07 | 2009-09-17 | パラメトリク・テクノロジー・コーポレーシヨン | 文書の系図を維持するシステムと方法 |
JP2010026849A (ja) * | 2008-07-22 | 2010-02-04 | Hitachi Ltd | 文書管理システム、文書管理プログラム及び文書管理方法 |
JP2010198498A (ja) * | 2009-02-26 | 2010-09-09 | Mitsubishi Electric Corp | 情報処理装置及び情報処理方法及びプログラム |
JP2011028646A (ja) * | 2009-07-28 | 2011-02-10 | Nippon Telegr & Teleph Corp <Ntt> | コンテンツ流通監視方法及びシステムと、このシステムで使用される装置及びそのプログラム |
JP2012083920A (ja) * | 2010-10-08 | 2012-04-26 | Fujitsu Ltd | 操作制限管理プログラム、操作制限管理装置及び操作制限管理方法 |
JP2012083923A (ja) * | 2010-10-08 | 2012-04-26 | Fujitsu Ltd | ログ管理プログラム、ログ管理装置及びログ管理方法 |
WO2012111144A1 (ja) * | 2011-02-18 | 2012-08-23 | 株式会社日立製作所 | 不正操作検知方法、不正操作検知システム及び計算機読み取り可能な非一時的記憶媒体 |
JP2012174151A (ja) * | 2011-02-24 | 2012-09-10 | Mitsubishi Electric Corp | ファイル追跡装置及びファイル追跡方法及びファイル追跡プログラム |
WO2012164648A1 (ja) * | 2011-05-27 | 2012-12-06 | 株式会社日立製作所 | ファイル来歴記録システム、ファイル来歴管理装置及びファイル来歴記録方法 |
US8402048B2 (en) | 2009-07-14 | 2013-03-19 | Hitachi, Ltd. | Trail management method, system, and program |
US8719691B2 (en) | 2006-12-04 | 2014-05-06 | Fuji Xerox Co., Ltd. | Document providing system and computer-readable storage medium |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006338147A (ja) * | 2005-05-31 | 2006-12-14 | Ricoh Co Ltd | 文書管理装置、文書管理方法およびプログラム |
JP4791776B2 (ja) * | 2005-07-26 | 2011-10-12 | 株式会社リコー | セキュリティ情報推定装置、セキュリティ情報推定方法、セキュリティ情報推定プログラム及び記録媒体 |
JP2008305094A (ja) * | 2007-06-06 | 2008-12-18 | Canon Inc | 文書管理方法及びその装置 |
CN112199936B (zh) * | 2020-11-12 | 2024-01-23 | 深圳供电局有限公司 | 一种科研项目重复申报智能分析方法、存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0581096A (ja) * | 1991-09-19 | 1993-04-02 | Matsushita Electric Ind Co Ltd | 電子フアイリング装置の頁消去方式 |
JPH08292961A (ja) * | 1995-04-20 | 1996-11-05 | Fuji Xerox Co Ltd | 文書複写関係管理システム |
JPH0944432A (ja) * | 1995-05-24 | 1997-02-14 | Fuji Xerox Co Ltd | 情報処理方法および情報処理装置 |
JPH0950410A (ja) * | 1995-06-01 | 1997-02-18 | Fuji Xerox Co Ltd | 情報処理方法及び情報処理装置 |
JPH10133934A (ja) * | 1996-09-05 | 1998-05-22 | Fujitsu Ltd | 分散型文書管理システムおよびそれを実現するプログラム記憶媒体 |
JPH11259459A (ja) * | 1998-03-06 | 1999-09-24 | Fuji Xerox Co Ltd | 文書管理装置 |
JP2001023297A (ja) * | 1999-07-02 | 2001-01-26 | Sharp Corp | コンテンツ流通管理装置およびプログラム記録媒体 |
JP2001136363A (ja) * | 1999-11-02 | 2001-05-18 | Nippon Telegraph & Telephone West Corp | コンテンツ利用許諾管理方法ならびにその装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5926812A (en) * | 1996-06-20 | 1999-07-20 | Mantra Technologies, Inc. | Document extraction and comparison method with applications to automatic personalized database searching |
US5940830A (en) * | 1996-09-05 | 1999-08-17 | Fujitsu Limited | Distributed document management system |
US6633882B1 (en) * | 2000-06-29 | 2003-10-14 | Microsoft Corporation | Multi-dimensional database record compression utilizing optimized cluster models |
-
2004
- 2004-01-21 JP JP2006501066A patent/JP4667362B2/ja not_active Expired - Lifetime
- 2004-01-21 EP EP04704049A patent/EP1590748A4/en not_active Withdrawn
- 2004-01-21 WO PCT/US2004/001530 patent/WO2004066086A2/en active Application Filing
- 2004-01-21 CA CA2553654A patent/CA2553654C/en not_active Expired - Lifetime
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0581096A (ja) * | 1991-09-19 | 1993-04-02 | Matsushita Electric Ind Co Ltd | 電子フアイリング装置の頁消去方式 |
JPH08292961A (ja) * | 1995-04-20 | 1996-11-05 | Fuji Xerox Co Ltd | 文書複写関係管理システム |
JPH0944432A (ja) * | 1995-05-24 | 1997-02-14 | Fuji Xerox Co Ltd | 情報処理方法および情報処理装置 |
JPH0950410A (ja) * | 1995-06-01 | 1997-02-18 | Fuji Xerox Co Ltd | 情報処理方法及び情報処理装置 |
JPH10133934A (ja) * | 1996-09-05 | 1998-05-22 | Fujitsu Ltd | 分散型文書管理システムおよびそれを実現するプログラム記憶媒体 |
JPH11259459A (ja) * | 1998-03-06 | 1999-09-24 | Fuji Xerox Co Ltd | 文書管理装置 |
JP2001023297A (ja) * | 1999-07-02 | 2001-01-26 | Sharp Corp | コンテンツ流通管理装置およびプログラム記録媒体 |
JP2001136363A (ja) * | 1999-11-02 | 2001-05-18 | Nippon Telegraph & Telephone West Corp | コンテンツ利用許諾管理方法ならびにその装置 |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4695388B2 (ja) * | 2004-12-27 | 2011-06-08 | 株式会社リコー | セキュリティ情報推定装置、セキュリティ情報推定方法、セキュリティ情報推定プログラム及び記録媒体 |
JP2006185153A (ja) * | 2004-12-27 | 2006-07-13 | Ricoh Co Ltd | セキュリティ情報推定装置、セキュリティ情報推定方法、セキュリティ情報推定プログラム及び記録媒体 |
JP2009533727A (ja) * | 2006-04-07 | 2009-09-17 | パラメトリク・テクノロジー・コーポレーシヨン | 文書の系図を維持するシステムと方法 |
JP2007334588A (ja) * | 2006-06-14 | 2007-12-27 | Ricoh Co Ltd | 情報処理装置、情報処理方法及び情報処理プログラム |
US8719691B2 (en) | 2006-12-04 | 2014-05-06 | Fuji Xerox Co., Ltd. | Document providing system and computer-readable storage medium |
JP2008181350A (ja) * | 2007-01-25 | 2008-08-07 | Fuji Xerox Co Ltd | 情報処理システム、情報処理装置及びプログラム |
JP2010026849A (ja) * | 2008-07-22 | 2010-02-04 | Hitachi Ltd | 文書管理システム、文書管理プログラム及び文書管理方法 |
JP2010198498A (ja) * | 2009-02-26 | 2010-09-09 | Mitsubishi Electric Corp | 情報処理装置及び情報処理方法及びプログラム |
US8402048B2 (en) | 2009-07-14 | 2013-03-19 | Hitachi, Ltd. | Trail management method, system, and program |
JP2011028646A (ja) * | 2009-07-28 | 2011-02-10 | Nippon Telegr & Teleph Corp <Ntt> | コンテンツ流通監視方法及びシステムと、このシステムで使用される装置及びそのプログラム |
JP2012083920A (ja) * | 2010-10-08 | 2012-04-26 | Fujitsu Ltd | 操作制限管理プログラム、操作制限管理装置及び操作制限管理方法 |
JP2012083923A (ja) * | 2010-10-08 | 2012-04-26 | Fujitsu Ltd | ログ管理プログラム、ログ管理装置及びログ管理方法 |
WO2012111144A1 (ja) * | 2011-02-18 | 2012-08-23 | 株式会社日立製作所 | 不正操作検知方法、不正操作検知システム及び計算機読み取り可能な非一時的記憶媒体 |
JP2012174151A (ja) * | 2011-02-24 | 2012-09-10 | Mitsubishi Electric Corp | ファイル追跡装置及びファイル追跡方法及びファイル追跡プログラム |
WO2012164648A1 (ja) * | 2011-05-27 | 2012-12-06 | 株式会社日立製作所 | ファイル来歴記録システム、ファイル来歴管理装置及びファイル来歴記録方法 |
JP5689174B2 (ja) * | 2011-05-27 | 2015-03-25 | 株式会社日立製作所 | ファイル来歴記録システム、ファイル来歴管理装置及びファイル来歴記録方法 |
US9384177B2 (en) | 2011-05-27 | 2016-07-05 | Hitachi, Ltd. | File history recording system, file history management system and file history recording method |
Also Published As
Publication number | Publication date |
---|---|
JP4667362B2 (ja) | 2011-04-13 |
EP1590748A4 (en) | 2008-07-30 |
CA2553654C (en) | 2014-04-22 |
EP1590748A2 (en) | 2005-11-02 |
WO2004066086A2 (en) | 2004-08-05 |
CA2553654A1 (en) | 2004-08-05 |
WO2004066086A3 (en) | 2005-01-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7490116B2 (en) | Identifying history of modification within large collections of unstructured data | |
JP4667362B2 (ja) | 構造化されていないデータの大集合における類似性および修正履歴の特定 | |
US8965925B2 (en) | Access controls | |
US7610285B1 (en) | System and method for classifying objects | |
US8627403B1 (en) | Policy applicability determination | |
CN102054022B (zh) | 用于处理并管理与对象相关的数据以供多个应用程序使用的系统及方法 | |
US20180300494A1 (en) | Method of identifying and tracking sensitive data and system thereof | |
US8176018B1 (en) | Incremental file system differencing | |
US10417265B2 (en) | High performance parallel indexing for forensics and electronic discovery | |
US8965941B2 (en) | File list generation method, system, and program, and file list generation device | |
US20120166478A1 (en) | Just-in-time analytics on large file systems | |
US20050246386A1 (en) | Hierarchical storage management | |
US11030054B2 (en) | Methods and systems for data backup based on data classification | |
US20140122540A1 (en) | Dimensional Reduction Mechanisms for Representing Massive Communication Network Graphs for Structural Queries | |
US10817542B2 (en) | User clustering based on metadata analysis | |
US10956453B2 (en) | Method to estimate the deletability of data objects | |
US11914869B2 (en) | Methods and systems for encryption based on intelligent data classification | |
US20200210382A1 (en) | System and method of deletion of files and counteracting their restoration | |
US11853415B1 (en) | Context-based identification of anomalous log data | |
US11526506B2 (en) | Related file analysis | |
US9734195B1 (en) | Automated data flow tracking | |
Abdalla et al. | NoSQL: Robust and efficient data management on deduplication process by using a mobile application | |
CN112100670A (zh) | 一种基于大数据的隐私数据分级保护方法 | |
US20240143610A1 (en) | Monitoring data usage to optimize storage placement and access using content-based datasets | |
JP5018346B2 (ja) | 情報処理装置及び情報処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070118 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070129 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100608 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20100825 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20100901 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101126 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20101221 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110111 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140121 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 4667362 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |