JP2006092344A

JP2006092344A - 重複文書検出装置、重複文書検出方法および重複文書検出プログラム

Info

Publication number: JP2006092344A
Application number: JP2004278130A
Authority: JP
Inventors: Hideaki Ashikaga; 英昭足利
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2004-09-24
Filing date: 2004-09-24
Publication date: 2006-04-06

Abstract

【課題】グラフ、写真、イラスト、図面などのグラフィックスを含む文書、ファイル形式が異なった文書などであっても、文書同士の差異を検出することができる重複文書検出装置、重複文書検出方法および重複文書検出プログラムを提供する。
【解決手段】重複文書検出装置は、各種のアプリケーションで作成された２以上の文書を互いに同一のデータフォーマット、例えば画像データに変換する変換部(4)と、変換部(4)によって変換された画像データの文書同士を比較して差異を検出する比較部(6)とを備えている。
【選択図】図１

Description

本発明は、複数の文書から同一の文書を検出する重複文書検出装置、重複文書検出方法および重複文書検出プログラムに関し、特に、グラフ、写真、イラスト、図面などのグラフィックスを含む文書、ファイル形式が異なった文書などであっても、文書同士の差異を検出することができる重複文書検出装置、重複文書検出方法および重複文書検出プログラムに関する。

従来から、例えば、テキストエディタで作成したテキストファイルについて複数の文書を比較しその違いを抽出することができるソフトウエアがある。また、ワープロソフト、プレゼンテーションソフト、ディスクトップパブリッシング（ＤＴＰ）ソフト、ＣＡＤ（図面作成）ソフトなどの文書も、同じアプリケーションで作成された文書同士であれば、バイナリレベルで比較し、違いの有無を確認することができる。

検索対象文書から所望の文書を検索する従来の文書検索装置として、例えば、複数の検索対象文書から基準となる基準文書に近い内容の文書を検出するものが提案されている（例えば、特許文献１参照。）。

この特許文献１に記載された文書検索装置は、基準文書に含まれる複数のキーワードと各キーワードが基準文書に固有に含まれる程度を示す評価値とを格納している。この従来の文書検索装置では、検索対象文書に含まれるキーワードの評価値を、基準文書に固有に含まれる程度を示す評価値に基づき集計して集計値を求め、その集計値を検索対象文書に含まれるキーワード数で除することによって、検索対象文書の文書評価値を求めている。そして、この従来の文書検索装置は、文書評価値と予め設定された基準値とを比較することにより、文書評価値が基準値よりも大きい検索対象文書を基準文書に近い内容の文書として抽出している。
特開２００２−２４２８０号公報

ところで、上述したようなワープロソフト、プレゼンテーションソフト、ＤＴＰソフト、ＣＡＤソフトなどで作成した文書には、例えば、グラフ、写真、イラストなどのグラフィックスを挿入した文書が多用されている。しかしながら、特許文献１では、こうしたグラフィックスを含む文書同士の差異を検出することはできないという問題があった。

また、一度消した文字列と同じ文字列を再入力したケースでは、ファイル中に納められているデータの構造が異なる場合がある。この場合には、文書同士の差異を検出することは難しくなるという問題があった。更にまた、テキストデータであっても、そのデータが「テキスト枠」などに入っていると、文書同士の差異を検出することは難しくなるという問題があった。

一方、同一のアプリケーションであっても、バージョンアップ時にファイルのデータ構造が変わってしまうことがある。このため、バージョンアップ前後の、文書の間で差異を検出することは難しくなるという問題があった。

また、パソコン（ＰＣ）、ファイルサービス、文書管理システムなどでは、全く同じ内容の文書であるにもかかわらず、同一の文書が異なるフォルダにストアされていたり、異なるファイル名やタイムスタンプを付与されてストアされている場合もあり、その記憶容量を圧迫してしまう。また、同一の文書が複数ストアされている場合に、その内の一つを修正しても、それ以外の同一文書を修正することはできず、結果として本来同一文書なのに色々な修正を施された文書が多数発生することになる。

これにより、ファイル数が膨大となり、管理が困難となり、あるいは重複文書の抽出作業やファイルの整理作業に混乱を招くという様々な問題があった。

一方、上記特許文献１に記載された文書検索装置は、検索対象文書から全ての検索ワードを抽出し、抽出された検索ワードと基準文書に含まれているキーワードとを照合している。この従来の文書検索装置では、基準文書に含まれるキーワードと一致する検索ワードを検索対象文書から全て抽出することによって、複数の検索対象文書から基準となる基準文書に類似する内容の文書を検出するものである。このため、従来の文書検索装置は、グラフ、写真、イラストなどのグラフィックスを含む文書同士の差異を検出することができないばかりでなく、上述したような諸々の問題を有している。

従って、本発明の目的は、グラフ、写真、イラスト、図面などのグラフィックスを含む文書、ファイル形式が異なった文書などであっても、文書同士の差異を検出することができる重複文書検出装置、重複文書検出方法および重複文書検出プログラムを提供することにある。

本発明は、上記目的を達成するため、各種のアプリケーションで作成された複数の文書を互いに同一のデータフォーマットに変換する変換部と、前記変換部によって変換された前記複数の文書同士を比較して差異を検出する検出部とを備えたことを特徴とする重複文書検出装置を提供する。

本発明にあっては、各種のアプリケーションの一例として、例えば、ワープロソフト、プレゼンテーションソフト、ＤＴＰソフト、ＣＡＤソフトなどがあり、これらで作成した文書を互いに同一のデータフォーマットに変換することができる。これにより、例えば、文書のデータ構造が異なる場合があっても、文書同士の差異などを容易に検出することができるようになる。

ここでいう「文書」とは、例えば、数字、記号、文字列からなる文書、文字列にグラフ、写真、イラストなどのグラフィックスを挿入した文書、図面などを意味しており、判読可能な形でプリントまたはモニタ表示可能な全ての文書を含んでいる。

上記変換部は、各種のアプリケーションで作成され、文書記憶部に記憶されている複数の文書のうち指定された複数の文書を互いに同一のデータフォーマットに変換して比較してもよい。これにより、指定した複数の文書間で重複文書を検出することができる。

また、上記変換部は、各種のアプリケーションで作成された文書の文書記憶部への保存指令を受けたとき、それを保存する前に、その保存する文書、および文書記憶部に記憶されている他の文書を、前記互いに同一のデータフォーマットに変換してもよい。これにより、ユーザが文書の差異の検出を意識しなくても、保存のタイミングで重複文書の有無を検出することができる。

上記検出部は、複数の文書同士の比較結果として、どの文書とどの文書が重複しているか、あるいは文書同士の差異を表示部に表示してもよい。これにより、比較結果あるいは差異を視覚的に認識することができる。

上記互いに同一のデータフォーマットとして、プリントイメージあるいはモニタ表示用のイメージデータから変換した画像データがある。この画像データを取得することで文書のデータフォーマットを変換することができる。

本発明は、上記目的を達成するため、各種のアプリケーションで作成された複数の文書を互いに同一のデータフォーマットに変換し、変換された前記複数の文書同士を比較して差異を検出することを特徴とする重複文書検出方法を提供する。

本発明は、上記目的を達成するため、各種のアプリケーションで作成された複数の文書を互いに同一のデータフォーマットに変換する変換手段と、前記変換手段によって変換された前記複数の文書同士を比較して差異を検出する検出手段とをコンピュータに実行させるための重複文書検出プログラムを提供する。

本発明では、互いに同一のデータフォーマットに変換された文書同士を比較することができる。このため、例えば、グラフ、写真、イラスト、図面などのグラフィックスを含む文書、ファイル形式が異なった文書などであっても、文書同士の差異部分などを合理的に抽出することができるようになり、重複する文書等を高い精度をもって高速度に検出することができる。

以下、本発明の好適な実施の形態を添付図面に基づいて具体的に説明する。

［第１の実施の形態］
図１は、本発明の代表的な第１の実施形態である重複文書検出装置の構成を示すブロック図である。

同図において、重複文書検出装置は、例えば、ワープロソフト、プレゼンテーションソフト、ＤＴＰソフト、ＣＡＤソフトなどで作成した文書を記憶する文書記憶部１と、その文書記憶部１に格納されている複数の文書から所定の文書を検索する検索条件を指定する指定部２と、その指定部２にて指定された検索条件で文書を検索する検索部３と、その検索部３にて抽出された文書を画像データに変換する変換部４と、その変換部４によって変換された画像データを一時的に格納しておく一時保存部５と、その一時保存部５に一時保存されている画像データ同士を比較する比較部６と、その比較部６の比較結果に基づいてユーザに文書の差異情報などを表示する表示部７とを備えている。

文書記憶部１としては、例えば、各種のアプリケーションで作成した文書を格納するもので、ハードディスクや光ディスクなどの各種の格納装置を備えることができる。

前記各アプリケーションの他にこの文書記憶部１に文書を入力する手段の一例として、例えば、紙に記載された文書を読み込むスキャナ等が挙げられる。

指定部２としては、例えば、キーボード、マウスなどの一般的な入力装置により構成することができる。この指定部２では、ユーザが行うキーボード、マウスからの指示入力により、例えば、ハードディスクドライブ等に格納された文書の検索条件を指定することができる。また、文書一覧を表示して、ユーザが選択する形でもよい。

検索部３では、ユーザが指定する条件に従い、文書記憶部１内に記憶されている文書を検索することができる。検索した文書の名称などは、上述の表示部７上に一覧表示される。

変換部４では、各種アプリケーションより文書のプリントイメージを取得し、これを画像データとして一時保管部５に保存する。またプリントイメージの代わりにモニタ表示用の画像データを取得してもよい。

画像データの保存は、ROWデータのまま保存することも可能だが、jpegやGIF、Windows（登録商標） bit mapなどの一般によく使われる規格で保存することもできる。これらの規格はデータ圧縮のアルゴリズムを含むため、保存容量を節約できるメリットがあるが、jpegなど非可逆圧縮を採用しているものは、jpeg作成時のパラメータを揃えておかないとＲＯＷデータに戻したときに差が発生するので、パラメータを揃える必要がある。

一時保存部５では、上述の変換部４で他のデータフォーマットに変換した複数の文書を画像データとして一時的に保存しておくことができ、HDDなどの記憶装置やCPUの主記憶であるRAMなどが利用できる。処理が終了した後、これらの画像データは削除することが一般的だが、HDDを利用している場合には容量が大きいので、再度重複文書を検出するときに備えて、残しておくこともできる。こうすることで2回目以降は、変換後の画像データが一時保管部５に存在しない文書のみに変換部４を動作させればよいので、処理時間が短縮できる。また、画像データを縮小した縮小画像を作成し、その縮小画像を比較部６で用いる画像データとして格納しておくこともできる。これにより、処理に必要な記憶容量を低減することができるようになり、処理時間を大幅に短縮化することができる。また、縮小画像で同一と判定されたもののみ、縮小していない画像で詳細比較を行うこともできる。こうすることで、判定精度を落とすことなく、処理速度向上や処理に必要な記憶容量削減に貢献できる。

比較部６で、予め複数の文書が互いに同一のデータフォーマットに変換されているので、容易に比較することができる。これにより、各文書の差異部分などを抽出することができるようになり、同一の文書等を高精度に検出することができる。変換部４で画像データに変換し、その画像データを一時記憶部５にROWデータのまま保存している場合には、1画素ずつ対応する位置の画素の画素値と比較し、全ての画素で差異が無ければ同一と判定することができる。また差異がある場合には、どの画素がどう異なっているのかも検出できる。一方、一時記憶部５にjpegなどの規格に基づく圧縮形式で保存している場合には、一旦元のROWデータに戻してから比較することもできるが、保存されているjpegなどの形式のまま、バイナリレベルで比較することもできる。ただしこの場合は、両文書が同一かどうかは分かるが、どこがどう異なっているのかまでは分からない。なお、この比較部６では、一度に２つの文書を比較することができるが、それを繰り返すことで３つ以上の文書を比較することができる。

表示部７の一例として、例えば、ＣＲＴ，ＬＣＤ等のディスプレイを挙げることができる。この表示部７では、ユーザが行うキーボード、マウスからの入力により、例えば、ハードディスクドライブ等に格納された文書を読み出し、表示部７上にファイル名や内容などを一覧表示することができる。一覧表示された複数の文書の中から、所定の文書を選択したり、内容を閲覧したりすることができる。

所要の文書における差異を検出するにあたっては、上記重複文書検出装置を使って効果的に実施することができる。なお、この第１の実施の形態における重複文書検出装置にあっては、重複した文書を検出した場合には、どちらか一方の文書を削除し、ファイル名を変更し、あるいは文書の削除後に残った文書へのリンクを作成するなどの整理作業を自動的に行うことができることは勿論である。

（第１の実施の形態の動作）
次に、図２のフローチャートを参照しながら、第１の実施の形態における重複文書検出装置の動作手順を説明する。なお、図２は、２個の文書を指定した後、２個の文書同士の差異を検出する重複文書検出装置の動作手順を示している。以下の動作手順の説明においては、特に記載のない限り、図１に示す重複文書記憶装置に内蔵されたＣＰＵ（図示せず）が行うものとする。

同図において、ユーザの指定部２の操作に従い、文書記憶部１に格納された文書のうち必要な文書の情報を表示部７上に一覧表示させる。次に、ユーザが表示部７上に表示された文書の情報の一覧を見ながら、指定部２を再度操作し文書(1)を指定すると、その指定情報を受信する（ステップＳ１）。ここで、文書(1)はあるデータフォーマット形式からなるデータ構造を有する文書とし、以下、当該データフォーマットをフォーマットＡとする。

次に、変換部４において文書(1)の画像データを所定のデータフォーマットからなるROWデータの画像データに変換させる（ステップＳ２）。そして、一時保存部５において、変換後の文書(1)の画像データを一時的に保存させる。以下、この所定のデータフォーマットをフォーマットＣ（画像データ）とする。

次いで、フォーマットＡとは異なる形式のデータフォーマット（フォーマットＢとする）を有する文書(2)をユーザが指定し、その指定情報を受信すると、上記操作と同様の操作を順次繰り返して、指定された文書(2)のデータを文書(1)と同一のフォーマットＣによる画像データに変換する（ステップＳ３，Ｓ４）。

このように、ワープロソフト、プレゼンテーションソフト、ＤＴＰソフト、ＣＡＤソフトなどで作成した、互いに異なるデータフォーマットを有する文書(1)、(2)を、同一の画像データのフォーマットＣに変換することにより、例えば、文書のデータの構造が異なる場合であっても、各文書(1)、(2)同士の差異などを容易に検出することができる。

続いて、比較部６において、画像データのフォーマットＣに変換された２つの文書(1)、(2)について、1画素ずつ対応する位置の画素値と比較する（ステップＳ５）。ここで、全ての画素で差異が無ければ同一と判定することができる。また差異がある場合には、どの画素がどう異なっているのか、表示部７上に表示させ（ステップＳ６）、全ての処理を終了する。

（第１の実施の効果）
こうして、各種のアプリケーションソフトで作成した複数の文書を画像データのフォーマットＣに変換することができるとともに、フォーマットＣに変換した各文書(1)、(2)同士を比較することができる。これにより、精度の良い重複文書の検索を即座に且つ簡単に行うことができるようになる。また、各文書(1)、(2)同士をページ単位で比較し、差異のあるページと無いページなどを表示することもできる。

なお、上記第１の実施の形態では、検索対象となる２つの文書(1)、(2)が互いに異なるデータフォーマット形式を有する文書(1)、(2)として説明したが、本発明はこれに限定されるものではなく、文書(1)、(2)が同一のデータフォーマットを有する文書同士であってもよいことは勿論である。

［第２の実施の形態］
図３は、本発明に係る第２の実施の形態である重複文書検出装置の他の動作手順を示している。上記第１の実施の形態では、２つの文書(1)、(2)の差異部分などを検出する一例を説明したが、この第２の実施形態にあっては、３つ以上の文書の差異部分を順次検出している点で上記第１の実施形態と異なっている。

この第２の実施の形態である重複文書検出装置の文書類文書記憶部１内には、多くの文書が保管されている。通常、これらの文書は、フォルダを使ってツリー構造を構築し（ディレクトリ）、その中に保管されている。

（第２の実施の形態の動作）
次に、図１及び図３を参照しながら、第２の実施の形態における重複文書検出装置の動作手順を説明する。

いま、ユーザが表示部７上の表示を見ながら指定部２を操作し、文書記憶部１において、重複文書検出の対象となるフォルダ、及びファイルの拡張子を指定する（ステップＳ１１）。なおここでは、ファイル拡張子を用いて対象となる文書を指定しているが、文書のファイル名に含まれる文字列や文書内に含記載された文字列を指定することも可能である。ユーザの指定を受けると、その条件に従い、検索部３にて条件に合う全てのファイルＦ₁〜Ｆ_Nを検索させる（ステップＳ１２）。

次に、変換部４において、Ｎ個のファイルＦ₁〜Ｆ_Nのうち、ファイルＦ₁を画像データのフォーマットＣに変換させる（ステップＳ１３）。次いで、ファイルＦ₁を画像データとして一時保存部５へ一時的に保存させる（ステップＳ１４）。この処理は、ファイルＦ₁以降の全てのファイルに対して続行される。その処理中において、ファイルＦ₁からファイルＦ_Nまでの全てのファイルＦ₁〜Ｆ_Nが、他の画像データのフォーマットＣに変換されて一時保存部５へ保存されたか否かを監視している（ステップＳ１５）。

もし、最後のＮ個目のファイルＦ_Nが保存されていないと判断した場合は、ステップＳ１３へ戻り、同様の処理を繰り返す。もし、最後のＮ個目のファイルＦ_Nの保存が終了したと判断したならば、Ｎ個のファイルＦ₁〜Ｆ_Nのうち、第ｉ番目の文書Ｆｉと第ｊ番目の文書Ｆｊとから差異の抽出を開始する（ステップＳ１６）。この第２の実施の形態では、全てのｉ（１≦ｉ＜Ｎ−１）とｊ（（ｉ＋１）≦ｊ＜Ｎ）の組み合わせに対して検出範囲を設定している。

次に、一時保存部５から文書Ｆｉを読み出すとともに（ステップＳ１７）、
一時保存部５から文書Ｆｊを読み出す（ステップＳ１８）。次いで、文書Ｆｉと文書Ｆｊとを比較部６において比較させる（ステップＳ１９）。

次に、文書Ｆｉと文書Ｆｊとに差異がないと判断したならば（ステップＳ２０）、文書Ｆｉ及び文書Ｆｊの文書ファイル名を記憶しておく（ステップＳ２１）。次いで、ｊを１加算し（ステップＳ２２）、文書Ｆｊが最後のＮ個目になっていないならば（ステップＳ２３）、ステップＳ１８へ戻り、同様の処理を繰り返す。続いて、ｉを１加算し（ステップＳ２４）、文書Ｆｉが最後のＮ−１個目になっていないならば（ステップＳ２５）、ステップＳ１７へ戻り、同様の処理を繰り返す。

一方、ステップＳ２０において、文書Ｆｉと文書Ｆｊとが異なった文書類であると判断したならば、ｊを１加算し（ステップＳ２２）、文書Ｆｊが最後のＮ個目になっていないならば（ステップＳ２３）、ステップＳ１８へ戻り、同様の処理を繰り返す。続いて、ｉを１加算し（ステップＳ２４）、文書Ｆｉが最後のＮ−１個目になっていないならば（ステップＳ２５）、ステップＳ１７へ戻り、同様の処理を繰り返す。

最後のＮ−１個目の文書Ｆｊと最後のＮ−１個目の文書Ｆｉとの比較処理が終了したならば（ステップＳ２２〜ステップＳ２５）、文書Ｆ₁〜Ｆ_Nからどの文書とどの文書が同じだったか、同じ文書のファイル名を表示部７上に一覧表示させ（ステップＳ２６）、全ての処理を終了する。

（第２の実施の形態の効果）
以上の処理により、各種のアプリケーションソフトで作成した複数の文書から、重複する文書を検出することができる。

［第３の実施の形態］
図４は、本発明に係る第３の実施の形態である重複文書検出装置の他の構成例を概略的に示している。なお、この第３の実施の形態において、上記第１の実施の形態と実質的に同じ部材には同一の部材名と符号を付している。従って、これらの部材に関する詳細な説明は省略する。

同図において、この第３の実施の形態である重複文書検出装置は、第１の実施の形態と同様に、ワープロソフト、プレゼンテーションソフト、ＤＴＰソフト、ＣＡＤソフトなどで作成した文書を記憶する文書記憶部１と、その文書記憶部１に格納されている複数の文書から所定の文書を検索する検索条件を指定する指定部２と、その指定部２にて指定された検索条件で文書を検索する検索部３と、その検索部３にて抽出された文書を画像データに変換する変換部４と、その変換部４によって変換された画像データを一時的に格納しておく一時保存部５と、その一時保存部５に一時保存されている画像データ同士を比較する比較部６と、その比較部６の比較結果に基づいてユーザに文書の差異情報などを表示する表示部７とを備えている。

更に重複文書検出装置は、図４に示すように、操作部８からの指令に基づいて画像データを記憶する画像メモリ９と、画像メモリ９を制御する制御部１０とを備えている。この重複文書検出装置は、ユーザが文書を保存するタイミングを監視しており、ユーザが保存しようとしている文書と、既に保存されている文書の差異を検出し、差異が無いならばそれをユーザに告知し、保存を取りやめるなどの対象をするように促すように構成されている。

（第３の実施の形態の動作）
次に、図４及び図５を参照しながら、第３の実施の形態における重複文書検出装置の動作手順を説明する。図５は、本発明の第３の実施の形態における重複文書検出装置の動作手順を示している。以下、動作手順の説明に関し、特に記載のない限り制御部１０に内蔵されたＣＰＵがその動作を行うものとする。

最初に、ユーザが操作部８を操作し、文書記憶部１に所定の文書を保存するように指示する（ステップＳ３１）。次に、変換部４において、保存を指示された文書を画像データのフォーマットＣに変換させる（ステップＳ３２）。次いで、ユーザの操作により保存を指示された文書（以下、ユーザ文書）のファイル名と同じ拡張子を有するＮ個のファイルＦ₁〜Ｆ_Nを検索部３に検索させる（ステップＳ３３）。ここでは同一文書は同じ拡張子を持つ可能性が高いので、拡張子を限定して重複文書を検出するが、拡張子を限定せずに全ての文書を対象として重複文書検出を行うこともできる。

次に、ｉ＝１として第１番目の文書Ｆ₁から抽出を開始し（ステップＳ３４）、文書Ｆｉをユーザ文書と他の画像データのフォーマットＣに変換させる（ステップＳ３５）。次いで、文書ｉとユーザ文書とを比較部６で比較させる（ステップＳ３６）。

次に、文書ｉとユーザ文書とが異なった文書であると判断したならば（ステップＳ３７）、ｉを１加算し（ステップＳ３８）、文書Ｆｉが最後のＮ個目になっていないならば（ステップＳ３９）、ステップＳ３５へ戻り、同様の処理を繰り返す。もし、文書Ｆｉが最後のＮ個目になっていたならば（ステップＳ３９）、重複文書は無いと判定し文書記憶部１にユーザ文書を保存させ（ステップＳ４０）、全ての処理を終了する。

ステップＳ３７において、文書Ｆｉとユーザ文書とに差異がない、すなわち文書Ｆｉがユーザ文書と重複すると判断したならば、表示部７上に次の（イ）〜（ホ）のようなメッセージを表示させ、ユーザに次の動作を選択させる（ステップＳ４１）。
“あなたが保存しようしている文書と同じ文書が既に存在します。対処方法を指定してください。”
（イ）保存を取り止める。
（ロ）強制的に保存する。
（ハ）強制的に保存し、古い文書を削除する。
（ニ）強制的に保存し、古い文書をショートカットに置き換える。
（ホ）保存を取り止め、代わりに古い文書へのショートカットを保存する。

上記（イ）のようなメッセージの選択を受信した場合には、直ちに全ての処理を終了する。上記（ロ）のようなメッセージの選択を受信した場合には、ユーザ文書を保存した後（ステップＳ４２）、全ての処理を終了する。上記（ハ）のようなメッセージの選択を受信した場合には、ユーザ文書を保存し（ステップＳ４３）、古い文書Ｆｉを削除した後（ステップＳ４４）、全ての処理を終了する。上記（ニ）のようなメッセージの選択を受信した場合は、ユーザ文書を保存し（ステップＳ４５）、古い文書Ｆｉを保存したユーザ文書へのショートカットに置き換えた後（ステップＳ４６）、全ての処理を終了する。そして、上記（ホ）のようなメッセージの選択を受信した場合は、古い文書Ｆｉへのショートカットを保存した後（ステップＳ４７）、全ての処理を終了する。

（第３の実施の形態の効果）
このように、ユーザが文書を保存するタイミングを常時監視し、保存を指示した段階で、同一の文書が既に存在するかどうかをユーザに告知することができる。これにより、ユーザが安易に文書のコピーを作成し、それをあちこちのフォルダに散在させてしまう操作や、同一の文書をホームページから繰り返しダウンロードしてしまうと言った操作を確実に防止することができる。また、残った文書へのリンクを作成することで、それ以降文書を修正する場合は、必ず１つの文書を編集することができるようになり、修正・未修正を含む両方の文書が混在することを防止することができる。更に、多数のユーザによって、文書の編集作業を行うことがあっても、上述した効果を十分に発揮することができる。

本発明の第１の実施の形態に係る重複文書検出装置の構成を示すブロック図である本発明の第１の実施の形態に係る重複文書検出装置の動作手順を示すフローチャートである。本発明の第２の実施の形態に係る重複文書検出装置の他の動作手順を示すフローチャートである。本発明の第３の実施の形態に係る重複文書検出装置の構成を示すブロック図である。本発明の第３の実施の形態に係る重複文書検出装置の更に他の動作手順を示すフローチャートである。

符号の説明

１文書記憶部
２指定部
３検索部
４変換部
５一時保存部
６比較部
７表示部
８操作部
９画像メモリ
１０制御部

Claims

各種のアプリケーションで作成された複数の文書を互いに同一のデータフォーマットに変換する変換部と、
前記変換部によって変換された前記複数の文書同士を比較して差異を検出する検出部とを備えたことを特徴とする重複文書検出装置。
前記変換部は、前記各種のアプリケーションで作成され、文書記憶部に記憶されている複数の文書のうち、指定された複数の文書を前記互いに同一のデータフォーマットに変換することを特徴とする請求項１に記載の重複文書検出装置。
前記変換部は、前記各種のアプリケーションで作成された文書の文書記憶部への保存指令を受けたとき、それを保存する前に、その保存する前記文書、および前記文書記憶部に記憶されている他の文書を、前記互いに同一のデータフォーマットに変換することを特徴とする請求項１に記載の重複文書検出装置。
前記検出部は、前記複数の文書同士の比較結果として、どの文書とどの文書が重複しているか、あるいは文書同士の差異を表示部に表示することを特徴とする請求項１に記載の重複文書検出装置。
前記互いに同一のデータフォーマットは、プリントイメージから変換した画像データであることを特徴とする請求項１に記載の重複文書検出装置。
前記互いに同一のデータフォーマットは、モニタ表示用のイメージデータから変換した画像データであることを特徴とする請求項１に記載の重複文書検出装置。
各種のアプリケーションで作成された複数の文書を互いに同一のデータフォーマットに変換し、
変換された前記複数の文書同士を比較して差異を検出することを特徴とする重複文書検出方法。
各種のアプリケーションで作成された複数の文書を互いに同一のデータフォーマットに変換する変換手段と、
前記変換手段によって変換された前記複数の文書同士を比較して差異を検出する検出手段とをコンピュータに実行させるための重複文書検出プログラム。