JP2006092344A - 重複文書検出装置、重複文書検出方法および重複文書検出プログラム - Google Patents

重複文書検出装置、重複文書検出方法および重複文書検出プログラム Download PDF

Info

Publication number
JP2006092344A
JP2006092344A JP2004278130A JP2004278130A JP2006092344A JP 2006092344 A JP2006092344 A JP 2006092344A JP 2004278130 A JP2004278130 A JP 2004278130A JP 2004278130 A JP2004278130 A JP 2004278130A JP 2006092344 A JP2006092344 A JP 2006092344A
Authority
JP
Japan
Prior art keywords
document
documents
duplicate
duplicate document
difference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004278130A
Other languages
English (en)
Inventor
Hideaki Ashikaga
英昭 足利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2004278130A priority Critical patent/JP2006092344A/ja
Publication of JP2006092344A publication Critical patent/JP2006092344A/ja
Pending legal-status Critical Current

Links

Abstract

【課題】 グラフ、写真、イラスト、図面などのグラフィックスを含む文書、ファイル形式が異なった文書などであっても、文書同士の差異を検出することができる重複文書検出装置、重複文書検出方法および重複文書検出プログラムを提供する。
【解決手段】 重複文書検出装置は、各種のアプリケーションで作成された2以上の文書を互いに同一のデータフォーマット、例えば画像データに変換する変換部(4)と、変換部(4)によって変換された画像データの文書同士を比較して差異を検出する比較部(6)とを備えている。
【選択図】 図1

Description

本発明は、複数の文書から同一の文書を検出する重複文書検出装置、重複文書検出方法および重複文書検出プログラムに関し、特に、グラフ、写真、イラスト、図面などのグラフィックスを含む文書、ファイル形式が異なった文書などであっても、文書同士の差異を検出することができる重複文書検出装置、重複文書検出方法および重複文書検出プログラムに関する。
従来から、例えば、テキストエディタで作成したテキストファイルについて複数の文書を比較しその違いを抽出することができるソフトウエアがある。また、ワープロソフト、プレゼンテーションソフト、ディスクトップパブリッシング(DTP)ソフト、CAD(図面作成)ソフトなどの文書も、同じアプリケーションで作成された文書同士であれば、バイナリレベルで比較し、違いの有無を確認することができる。
検索対象文書から所望の文書を検索する従来の文書検索装置として、例えば、複数の検索対象文書から基準となる基準文書に近い内容の文書を検出するものが提案されている(例えば、特許文献1参照。)。
この特許文献1に記載された文書検索装置は、基準文書に含まれる複数のキーワードと各キーワードが基準文書に固有に含まれる程度を示す評価値とを格納している。この従来の文書検索装置では、検索対象文書に含まれるキーワードの評価値を、基準文書に固有に含まれる程度を示す評価値に基づき集計して集計値を求め、その集計値を検索対象文書に含まれるキーワード数で除することによって、検索対象文書の文書評価値を求めている。そして、この従来の文書検索装置は、文書評価値と予め設定された基準値とを比較することにより、文書評価値が基準値よりも大きい検索対象文書を基準文書に近い内容の文書として抽出している。
特開2002−24280号公報
ところで、上述したようなワープロソフト、プレゼンテーションソフト、DTPソフト、CADソフトなどで作成した文書には、例えば、グラフ、写真、イラストなどのグラフィックスを挿入した文書が多用されている。しかしながら、特許文献1では、こうしたグラフィックスを含む文書同士の差異を検出することはできないという問題があった。
また、一度消した文字列と同じ文字列を再入力したケースでは、ファイル中に納められているデータの構造が異なる場合がある。この場合には、文書同士の差異を検出することは難しくなるという問題があった。更にまた、テキストデータであっても、そのデータが「テキスト枠」などに入っていると、文書同士の差異を検出することは難しくなるという問題があった。
一方、同一のアプリケーションであっても、バージョンアップ時にファイルのデータ構造が変わってしまうことがある。このため、バージョンアップ前後の、文書の間で差異を検出することは難しくなるという問題があった。
また、パソコン(PC)、ファイルサービス、文書管理システムなどでは、全く同じ内容の文書であるにもかかわらず、同一の文書が異なるフォルダにストアされていたり、異なるファイル名やタイムスタンプを付与されてストアされている場合もあり、その記憶容量を圧迫してしまう。また、同一の文書が複数ストアされている場合に、その内の一つを修正しても、それ以外の同一文書を修正することはできず、結果として本来同一文書なのに色々な修正を施された文書が多数発生することになる。
これにより、ファイル数が膨大となり、管理が困難となり、あるいは重複文書の抽出作業やファイルの整理作業に混乱を招くという様々な問題があった。
一方、上記特許文献1に記載された文書検索装置は、検索対象文書から全ての検索ワードを抽出し、抽出された検索ワードと基準文書に含まれているキーワードとを照合している。この従来の文書検索装置では、基準文書に含まれるキーワードと一致する検索ワードを検索対象文書から全て抽出することによって、複数の検索対象文書から基準となる基準文書に類似する内容の文書を検出するものである。このため、従来の文書検索装置は、グラフ、写真、イラストなどのグラフィックスを含む文書同士の差異を検出することができないばかりでなく、上述したような諸々の問題を有している。
従って、本発明の目的は、グラフ、写真、イラスト、図面などのグラフィックスを含む文書、ファイル形式が異なった文書などであっても、文書同士の差異を検出することができる重複文書検出装置、重複文書検出方法および重複文書検出プログラムを提供することにある。
本発明は、上記目的を達成するため、各種のアプリケーションで作成された複数の文書を互いに同一のデータフォーマットに変換する変換部と、前記変換部によって変換された前記複数の文書同士を比較して差異を検出する検出部とを備えたことを特徴とする重複文書検出装置を提供する。
本発明にあっては、各種のアプリケーションの一例として、例えば、ワープロソフト、プレゼンテーションソフト、DTPソフト、CADソフトなどがあり、これらで作成した文書を互いに同一のデータフォーマットに変換することができる。これにより、例えば、文書のデータ構造が異なる場合があっても、文書同士の差異などを容易に検出することができるようになる。
ここでいう「文書」とは、例えば、数字、記号、文字列からなる文書、文字列にグラフ、写真、イラストなどのグラフィックスを挿入した文書、図面などを意味しており、判読可能な形でプリントまたはモニタ表示可能な全ての文書を含んでいる。
上記変換部は、各種のアプリケーションで作成され、文書記憶部に記憶されている複数の文書のうち指定された複数の文書を互いに同一のデータフォーマットに変換して比較してもよい。これにより、指定した複数の文書間で重複文書を検出することができる。
また、上記変換部は、各種のアプリケーションで作成された文書の文書記憶部への保存指令を受けたとき、それを保存する前に、その保存する文書、および文書記憶部に記憶されている他の文書を、前記互いに同一のデータフォーマットに変換してもよい。これにより、ユーザが文書の差異の検出を意識しなくても、保存のタイミングで重複文書の有無を検出することができる。
上記検出部は、複数の文書同士の比較結果として、どの文書とどの文書が重複しているか、あるいは文書同士の差異を表示部に表示してもよい。これにより、比較結果あるいは差異を視覚的に認識することができる。
上記互いに同一のデータフォーマットとして、プリントイメージあるいはモニタ表示用のイメージデータから変換した画像データがある。この画像データを取得することで文書のデータフォーマットを変換することができる。
本発明は、上記目的を達成するため、各種のアプリケーションで作成された複数の文書を互いに同一のデータフォーマットに変換し、変換された前記複数の文書同士を比較して差異を検出することを特徴とする重複文書検出方法を提供する。
本発明は、上記目的を達成するため、各種のアプリケーションで作成された複数の文書を互いに同一のデータフォーマットに変換する変換手段と、前記変換手段によって変換された前記複数の文書同士を比較して差異を検出する検出手段とをコンピュータに実行させるための重複文書検出プログラムを提供する。
本発明では、互いに同一のデータフォーマットに変換された文書同士を比較することができる。このため、例えば、グラフ、写真、イラスト、図面などのグラフィックスを含む文書、ファイル形式が異なった文書などであっても、文書同士の差異部分などを合理的に抽出することができるようになり、重複する文書等を高い精度をもって高速度に検出することができる。
以下、本発明の好適な実施の形態を添付図面に基づいて具体的に説明する。
[第1の実施の形態]
図1は、本発明の代表的な第1の実施形態である重複文書検出装置の構成を示すブロック図である。
同図において、重複文書検出装置は、例えば、ワープロソフト、プレゼンテーションソフト、DTPソフト、CADソフトなどで作成した文書を記憶する文書記憶部1と、その文書記憶部1に格納されている複数の文書から所定の文書を検索する検索条件を指定する指定部2と、その指定部2にて指定された検索条件で文書を検索する検索部3と、その検索部3にて抽出された文書を画像データに変換する変換部4と、その変換部4によって変換された画像データを一時的に格納しておく一時保存部5と、その一時保存部5に一時保存されている画像データ同士を比較する比較部6と、その比較部6の比較結果に基づいてユーザに文書の差異情報などを表示する表示部7とを備えている。
ここでいう「文書」とは、例えば、数字、記号、文字列からなる文書、文字列にグラフ、写真、イラストなどのグラフィックスを挿入した文書、図面などを意味しており、判読可能な形でプリントまたはモニタ表示可能な全ての文書を含んでいる。
文書記憶部1としては、例えば、各種のアプリケーションで作成した文書を格納するもので、ハードディスクや光ディスクなどの各種の格納装置を備えることができる。
前記各アプリケーションの他にこの文書記憶部1に文書を入力する手段の一例として、例えば、紙に記載された文書を読み込むスキャナ等が挙げられる。
指定部2としては、例えば、キーボード、マウスなどの一般的な入力装置により構成することができる。この指定部2では、ユーザが行うキーボード、マウスからの指示入力により、例えば、ハードディスクドライブ等に格納された文書の検索条件を指定することができる。また、文書一覧を表示して、ユーザが選択する形でもよい。
検索部3では、ユーザが指定する条件に従い、文書記憶部1内に記憶されている文書を検索することができる。検索した文書の名称などは、上述の表示部7上に一覧表示される。
変換部4では、各種アプリケーションより文書のプリントイメージを取得し、これを画像データとして一時保管部5に保存する。またプリントイメージの代わりにモニタ表示用の画像データを取得してもよい。
画像データの保存は、ROWデータのまま保存することも可能だが、jpegやGIF、Windows(登録商標) bit mapなどの一般によく使われる規格で保存することもできる。これらの規格はデータ圧縮のアルゴリズムを含むため、保存容量を節約できるメリットがあるが、jpegなど非可逆圧縮を採用しているものは、jpeg作成時のパラメータを揃えておかないとROWデータに戻したときに差が発生するので、パラメータを揃える必要がある。
一時保存部5では、上述の変換部4で他のデータフォーマットに変換した複数の文書を画像データとして一時的に保存しておくことができ、HDDなどの記憶装置やCPUの主記憶であるRAMなどが利用できる。処理が終了した後、これらの画像データは削除することが一般的だが、HDDを利用している場合には容量が大きいので、再度重複文書を検出するときに備えて、残しておくこともできる。こうすることで2回目以降は、変換後の画像データが一時保管部5に存在しない文書のみに変換部4を動作させればよいので、処理時間が短縮できる。また、画像データを縮小した縮小画像を作成し、その縮小画像を比較部6で用いる画像データとして格納しておくこともできる。これにより、処理に必要な記憶容量を低減することができるようになり、処理時間を大幅に短縮化することができる。また、縮小画像で同一と判定されたもののみ、縮小していない画像で詳細比較を行うこともできる。こうすることで、判定精度を落とすことなく、処理速度向上や処理に必要な記憶容量削減に貢献できる。
比較部6で、予め複数の文書が互いに同一のデータフォーマットに変換されているので、容易に比較することができる。これにより、各文書の差異部分などを抽出することができるようになり、同一の文書等を高精度に検出することができる。変換部4で画像データに変換し、その画像データを一時記憶部5にROWデータのまま保存している場合には、1画素ずつ対応する位置の画素の画素値と比較し、全ての画素で差異が無ければ同一と判定することができる。また差異がある場合には、どの画素がどう異なっているのかも検出できる。一方、一時記憶部5にjpegなどの規格に基づく圧縮形式で保存している場合には、一旦元のROWデータに戻してから比較することもできるが、保存されているjpegなどの形式のまま、バイナリレベルで比較することもできる。ただしこの場合は、両文書が同一かどうかは分かるが、どこがどう異なっているのかまでは分からない。なお、この比較部6では、一度に2つの文書を比較することができるが、それを繰り返すことで3つ以上の文書を比較することができる。
表示部7の一例として、例えば、CRT,LCD等のディスプレイを挙げることができる。この表示部7では、ユーザが行うキーボード、マウスからの入力により、例えば、ハードディスクドライブ等に格納された文書を読み出し、表示部7上にファイル名や内容などを一覧表示することができる。一覧表示された複数の文書の中から、所定の文書を選択したり、内容を閲覧したりすることができる。
所要の文書における差異を検出するにあたっては、上記重複文書検出装置を使って効果的に実施することができる。なお、この第1の実施の形態における重複文書検出装置にあっては、重複した文書を検出した場合には、どちらか一方の文書を削除し、ファイル名を変更し、あるいは文書の削除後に残った文書へのリンクを作成するなどの整理作業を自動的に行うことができることは勿論である。
(第1の実施の形態の動作)
次に、図2のフローチャートを参照しながら、第1の実施の形態における重複文書検出装置の動作手順を説明する。なお、図2は、2個の文書を指定した後、2個の文書同士の差異を検出する重複文書検出装置の動作手順を示している。以下の動作手順の説明においては、特に記載のない限り、図1に示す重複文書記憶装置に内蔵されたCPU(図示せず)が行うものとする。
同図において、ユーザの指定部2の操作に従い、文書記憶部1に格納された文書のうち必要な文書の情報を表示部7上に一覧表示させる。次に、ユーザが表示部7上に表示された文書の情報の一覧を見ながら、指定部2を再度操作し文書(1)を指定すると、その指定情報を受信する(ステップS1)。ここで、文書(1)はあるデータフォーマット形式からなるデータ構造を有する文書とし、以下、当該データフォーマットをフォーマットAとする。
次に、変換部4において文書(1)の画像データを所定のデータフォーマットからなるROWデータの画像データに変換させる(ステップS2)。そして、一時保存部5において、変換後の文書(1)の画像データを一時的に保存させる。以下、この所定のデータフォーマットをフォーマットC(画像データ)とする。
次いで、フォーマットAとは異なる形式のデータフォーマット(フォーマットBとする)を有する文書(2)をユーザが指定し、その指定情報を受信すると、上記操作と同様の操作を順次繰り返して、指定された文書(2)のデータを文書(1)と同一のフォーマットCによる画像データに変換する(ステップS3,S4)。
このように、ワープロソフト、プレゼンテーションソフト、DTPソフト、CADソフトなどで作成した、互いに異なるデータフォーマットを有する文書(1)、(2)を、同一の画像データのフォーマットCに変換することにより、例えば、文書のデータの構造が異なる場合であっても、各文書(1)、(2)同士の差異などを容易に検出することができる。
続いて、比較部6において、画像データのフォーマットCに変換された2つの文書(1)、(2)について、1画素ずつ対応する位置の画素値と比較する(ステップS5)。ここで、全ての画素で差異が無ければ同一と判定することができる。また差異がある場合には、どの画素がどう異なっているのか、表示部7上に表示させ(ステップS6)、全ての処理を終了する。
(第1の実施の効果)
こうして、各種のアプリケーションソフトで作成した複数の文書を画像データのフォーマットCに変換することができるとともに、フォーマットCに変換した各文書(1)、(2)同士を比較することができる。これにより、精度の良い重複文書の検索を即座に且つ簡単に行うことができるようになる。また、各文書(1)、(2)同士をページ単位で比較し、差異のあるページと無いページなどを表示することもできる。
なお、上記第1の実施の形態では、検索対象となる2つの文書(1)、(2)が互いに異なるデータフォーマット形式を有する文書(1)、(2)として説明したが、本発明はこれに限定されるものではなく、文書(1)、(2)が同一のデータフォーマットを有する文書同士であってもよいことは勿論である。
[第2の実施の形態]
図3は、本発明に係る第2の実施の形態である重複文書検出装置の他の動作手順を示している。上記第1の実施の形態では、2つの文書(1)、(2)の差異部分などを検出する一例を説明したが、この第2の実施形態にあっては、3つ以上の文書の差異部分を順次検出している点で上記第1の実施形態と異なっている。
この第2の実施の形態である重複文書検出装置の文書類文書記憶部1内には、多くの文書が保管されている。通常、これらの文書は、フォルダを使ってツリー構造を構築し(ディレクトリ)、その中に保管されている。
(第2の実施の形態の動作)
次に、図1及び図3を参照しながら、第2の実施の形態における重複文書検出装置の動作手順を説明する。
いま、ユーザが表示部7上の表示を見ながら指定部2を操作し、文書記憶部1において、重複文書検出の対象となるフォルダ、及びファイルの拡張子を指定する(ステップS11)。なおここでは、ファイル拡張子を用いて対象となる文書を指定しているが、文書のファイル名に含まれる文字列や文書内に含記載された文字列を指定することも可能である。ユーザの指定を受けると、その条件に従い、検索部3にて条件に合う全てのファイルF1〜FNを検索させる(ステップS12)。
次に、変換部4において、N個のファイルF1〜FNのうち、ファイルF1を画像データのフォーマットCに変換させる(ステップS13)。次いで、ファイルF1を画像データとして一時保存部5へ一時的に保存させる(ステップS14)。この処理は、ファイルF1以降の全てのファイルに対して続行される。その処理中において、ファイルF1からファイルFNまでの全てのファイルF1〜FNが、他の画像データのフォーマットCに変換されて一時保存部5へ保存されたか否かを監視している(ステップS15)。
もし、最後のN個目のファイルFNが保存されていないと判断した場合は、ステップS13へ戻り、同様の処理を繰り返す。もし、最後のN個目のファイルFNの保存が終了したと判断したならば、N個のファイルF1〜FNのうち、第i番目の文書Fiと第j番目の文書Fjとから差異の抽出を開始する(ステップS16)。この第2の実施の形態では、全てのi(1≦i<N−1)とj((i+1)≦j<N)の組み合わせに対して検出範囲を設定している。
次に、一時保存部5から文書Fiを読み出すとともに(ステップS17)、
一時保存部5から文書Fjを読み出す(ステップS18)。次いで、文書Fiと文書Fjとを比較部6において比較させる(ステップS19)。
次に、文書Fiと文書Fjとに差異がないと判断したならば(ステップS20)、文書Fi及び文書Fjの文書ファイル名を記憶しておく(ステップS21)。次いで、jを1加算し(ステップS22)、文書Fjが最後のN個目になっていないならば(ステップS23)、ステップS18へ戻り、同様の処理を繰り返す。続いて、iを1加算し(ステップS24)、文書Fiが最後のN−1個目になっていないならば(ステップS25)、ステップS17へ戻り、同様の処理を繰り返す。
一方、ステップS20において、文書Fiと文書Fjとが異なった文書類であると判断したならば、jを1加算し(ステップS22)、文書Fjが最後のN個目になっていないならば(ステップS23)、ステップS18へ戻り、同様の処理を繰り返す。続いて、iを1加算し(ステップS24)、文書Fiが最後のN−1個目になっていないならば(ステップS25)、ステップS17へ戻り、同様の処理を繰り返す。
最後のN−1個目の文書Fjと最後のN−1個目の文書Fiとの比較処理が終了したならば(ステップS22〜ステップS25)、文書F1〜FNからどの文書とどの文書が同じだったか、同じ文書のファイル名を表示部7上に一覧表示させ(ステップS26)、全ての処理を終了する。
(第2の実施の形態の効果)
以上の処理により、各種のアプリケーションソフトで作成した複数の文書から、重複する文書を検出することができる。
[第3の実施の形態]
図4は、本発明に係る第3の実施の形態である重複文書検出装置の他の構成例を概略的に示している。なお、この第3の実施の形態において、上記第1の実施の形態と実質的に同じ部材には同一の部材名と符号を付している。従って、これらの部材に関する詳細な説明は省略する。
同図において、この第3の実施の形態である重複文書検出装置は、第1の実施の形態と同様に、ワープロソフト、プレゼンテーションソフト、DTPソフト、CADソフトなどで作成した文書を記憶する文書記憶部1と、その文書記憶部1に格納されている複数の文書から所定の文書を検索する検索条件を指定する指定部2と、その指定部2にて指定された検索条件で文書を検索する検索部3と、その検索部3にて抽出された文書を画像データに変換する変換部4と、その変換部4によって変換された画像データを一時的に格納しておく一時保存部5と、その一時保存部5に一時保存されている画像データ同士を比較する比較部6と、その比較部6の比較結果に基づいてユーザに文書の差異情報などを表示する表示部7とを備えている。
更に重複文書検出装置は、図4に示すように、操作部8からの指令に基づいて画像データを記憶する画像メモリ9と、画像メモリ9を制御する制御部10とを備えている。この重複文書検出装置は、ユーザが文書を保存するタイミングを監視しており、ユーザが保存しようとしている文書と、既に保存されている文書の差異を検出し、差異が無いならばそれをユーザに告知し、保存を取りやめるなどの対象をするように促すように構成されている。
(第3の実施の形態の動作)
次に、図4及び図5を参照しながら、第3の実施の形態における重複文書検出装置の動作手順を説明する。図5は、本発明の第3の実施の形態における重複文書検出装置の動作手順を示している。以下、動作手順の説明に関し、特に記載のない限り制御部10に内蔵されたCPUがその動作を行うものとする。
最初に、ユーザが操作部8を操作し、文書記憶部1に所定の文書を保存するように指示する(ステップS31)。次に、変換部4において、保存を指示された文書を画像データのフォーマットCに変換させる(ステップS32)。次いで、ユーザの操作により保存を指示された文書(以下、ユーザ文書)のファイル名と同じ拡張子を有するN個のファイルF1〜FNを検索部3に検索させる(ステップS33)。ここでは同一文書は同じ拡張子を持つ可能性が高いので、拡張子を限定して重複文書を検出するが、拡張子を限定せずに全ての文書を対象として重複文書検出を行うこともできる。
次に、i=1として第1番目の文書F1から抽出を開始し(ステップS34)、文書Fiをユーザ文書と他の画像データのフォーマットCに変換させる(ステップS35)。次いで、文書iとユーザ文書とを比較部6で比較させる(ステップS36)。
次に、文書iとユーザ文書とが異なった文書であると判断したならば(ステップS37)、iを1加算し(ステップS38)、文書Fiが最後のN個目になっていないならば(ステップS39)、ステップS35へ戻り、同様の処理を繰り返す。もし、文書Fiが最後のN個目になっていたならば(ステップS39)、重複文書は無いと判定し文書記憶部1にユーザ文書を保存させ(ステップS40)、全ての処理を終了する。
ステップS37において、文書Fiとユーザ文書とに差異がない、すなわち文書Fiがユーザ文書と重複すると判断したならば、表示部7上に次の(イ)〜(ホ)のようなメッセージを表示させ、ユーザに次の動作を選択させる(ステップS41)。
“あなたが保存しようしている文書と同じ文書が既に存在します。対処方法を指定してください。”
(イ)保存を取り止める。
(ロ)強制的に保存する。
(ハ)強制的に保存し、古い文書を削除する。
(ニ)強制的に保存し、古い文書をショートカットに置き換える。
(ホ)保存を取り止め、代わりに古い文書へのショートカットを保存する。
上記(イ)のようなメッセージの選択を受信した場合には、直ちに全ての処理を終了する。上記(ロ)のようなメッセージの選択を受信した場合には、ユーザ文書を保存した後(ステップS42)、全ての処理を終了する。上記(ハ)のようなメッセージの選択を受信した場合には、ユーザ文書を保存し(ステップS43)、古い文書Fiを削除した後(ステップS44)、全ての処理を終了する。上記(ニ)のようなメッセージの選択を受信した場合は、ユーザ文書を保存し(ステップS45)、古い文書Fiを保存したユーザ文書へのショートカットに置き換えた後(ステップS46)、全ての処理を終了する。そして、上記(ホ)のようなメッセージの選択を受信した場合は、古い文書Fiへのショートカットを保存した後(ステップS47)、全ての処理を終了する。
(第3の実施の形態の効果)
このように、ユーザが文書を保存するタイミングを常時監視し、保存を指示した段階で、同一の文書が既に存在するかどうかをユーザに告知することができる。これにより、ユーザが安易に文書のコピーを作成し、それをあちこちのフォルダに散在させてしまう操作や、同一の文書をホームページから繰り返しダウンロードしてしまうと言った操作を確実に防止することができる。また、残った文書へのリンクを作成することで、それ以降文書を修正する場合は、必ず1つの文書を編集することができるようになり、修正・未修正を含む両方の文書が混在することを防止することができる。更に、多数のユーザによって、文書の編集作業を行うことがあっても、上述した効果を十分に発揮することができる。
本発明の第1の実施の形態に係る重複文書検出装置の構成を示すブロック図である 本発明の第1の実施の形態に係る重複文書検出装置の動作手順を示すフローチャートである。 本発明の第2の実施の形態に係る重複文書検出装置の他の動作手順を示すフローチャートである。 本発明の第3の実施の形態に係る重複文書検出装置の構成を示すブロック図である。 本発明の第3の実施の形態に係る重複文書検出装置の更に他の動作手順を示すフローチャートである。
符号の説明
1 文書記憶部
2 指定部
3 検索部
4 変換部
5 一時保存部
6 比較部
7 表示部
8 操作部
9 画像メモリ
10 制御部

Claims (8)

  1. 各種のアプリケーションで作成された複数の文書を互いに同一のデータフォーマットに変換する変換部と、
    前記変換部によって変換された前記複数の文書同士を比較して差異を検出する検出部とを備えたことを特徴とする重複文書検出装置。
  2. 前記変換部は、前記各種のアプリケーションで作成され、文書記憶部に記憶されている複数の文書のうち、指定された複数の文書を前記互いに同一のデータフォーマットに変換することを特徴とする請求項1に記載の重複文書検出装置。
  3. 前記変換部は、前記各種のアプリケーションで作成された文書の文書記憶部への保存指令を受けたとき、それを保存する前に、その保存する前記文書、および前記文書記憶部に記憶されている他の文書を、前記互いに同一のデータフォーマットに変換することを特徴とする請求項1に記載の重複文書検出装置。
  4. 前記検出部は、前記複数の文書同士の比較結果として、どの文書とどの文書が重複しているか、あるいは文書同士の差異を表示部に表示することを特徴とする請求項1に記載の重複文書検出装置。
  5. 前記互いに同一のデータフォーマットは、プリントイメージから変換した画像データであることを特徴とする請求項1に記載の重複文書検出装置。
  6. 前記互いに同一のデータフォーマットは、モニタ表示用のイメージデータから変換した画像データであることを特徴とする請求項1に記載の重複文書検出装置。
  7. 各種のアプリケーションで作成された複数の文書を互いに同一のデータフォーマットに変換し、
    変換された前記複数の文書同士を比較して差異を検出することを特徴とする重複文書検出方法。
  8. 各種のアプリケーションで作成された複数の文書を互いに同一のデータフォーマットに変換する変換手段と、
    前記変換手段によって変換された前記複数の文書同士を比較して差異を検出する検出手段とをコンピュータに実行させるための重複文書検出プログラム。
JP2004278130A 2004-09-24 2004-09-24 重複文書検出装置、重複文書検出方法および重複文書検出プログラム Pending JP2006092344A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004278130A JP2006092344A (ja) 2004-09-24 2004-09-24 重複文書検出装置、重複文書検出方法および重複文書検出プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004278130A JP2006092344A (ja) 2004-09-24 2004-09-24 重複文書検出装置、重複文書検出方法および重複文書検出プログラム

Publications (1)

Publication Number Publication Date
JP2006092344A true JP2006092344A (ja) 2006-04-06

Family

ID=36233237

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004278130A Pending JP2006092344A (ja) 2004-09-24 2004-09-24 重複文書検出装置、重複文書検出方法および重複文書検出プログラム

Country Status (1)

Country Link
JP (1) JP2006092344A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8977949B2 (en) 2007-10-11 2015-03-10 Nec Corporation Electronic document equivalence determination system and equivalence determination method
JP2018136900A (ja) * 2017-02-24 2018-08-30 東芝情報システム株式会社 文章解析装置及び文章解析プログラム
JP2021166070A (ja) * 2020-12-15 2021-10-14 北京百度網訊科技有限公司 文書比較方法、装置、電子機器、コンピュータ読取可能な記憶媒体及びコンピュータプログラム
KR20220001844A (ko) * 2020-06-30 2022-01-06 주식회사 폴라리스오피스 서로 다른 포맷의 전자 문서들에 대한 일치 여부를 나타내는 데이터 제공 방법 및 장치

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8977949B2 (en) 2007-10-11 2015-03-10 Nec Corporation Electronic document equivalence determination system and equivalence determination method
JP2018136900A (ja) * 2017-02-24 2018-08-30 東芝情報システム株式会社 文章解析装置及び文章解析プログラム
KR20220001844A (ko) * 2020-06-30 2022-01-06 주식회사 폴라리스오피스 서로 다른 포맷의 전자 문서들에 대한 일치 여부를 나타내는 데이터 제공 방법 및 장치
KR102414935B1 (ko) 2020-06-30 2022-07-01 주식회사 폴라리스오피스 서로 다른 포맷의 전자 문서들에 대한 일치 여부를 나타내는 데이터 제공 방법 및 장치
JP2021166070A (ja) * 2020-12-15 2021-10-14 北京百度網訊科技有限公司 文書比較方法、装置、電子機器、コンピュータ読取可能な記憶媒体及びコンピュータプログラム

Similar Documents

Publication Publication Date Title
US6779153B1 (en) Creation of web pages through synchronization
JP4700423B2 (ja) 形状を使用する共通チャーティング
US9423926B2 (en) Method for graphical representation of a content collection
JP4053115B2 (ja) 文書画像データの記憶制御方式
US6944819B2 (en) Computer method and apparatus for previewing files outside of an application program
US8482808B2 (en) Image processing apparatus and method for displaying a preview of scanned document data
US7715625B2 (en) Image processing device, image processing method, and storage medium storing program therefor
JP2008234148A (ja) 文書表示装置、文書表示方法及び文書表示プログラム
US6351741B1 (en) Method of locating a file linked to a document in a relocated document directory structure
US8850359B2 (en) Image processor and image processing method
US5574909A (en) Apparatus and method for data search using selected or representative data sample
JP2006189924A (ja) 画像表示プログラム及び画像表示装置
JP6262708B2 (ja) 深い検索性を有するオブジェクト化及びハードコピーからオリジナルの電子ファイルを検出するドキュメント検出方法
JP2008052496A (ja) 画像表示装置、画像表示方法、プログラムおよび記録媒体
JP5271015B2 (ja) 画像処理装置、画像処理方法及びプログラム
JP2003186911A (ja) データ表示装置
JP4542033B2 (ja) 文書コンテンツの複数のレンディションを提供するためのシステムおよび方法
JP2006092344A (ja) 重複文書検出装置、重複文書検出方法および重複文書検出プログラム
JP2008234078A (ja) 情報処理装置、情報処理方法、情報処理プログラム、及び情報処理プログラムを記録した記録媒体
JP2005275979A (ja) 画像検索プログラム
JP2005258592A (ja) フォーマット変換装置およびファイル検索装置
JP2003196638A (ja) ファイリングデータのサムネイルキャプチャリングシステム及びプログラム
JP2006171891A (ja) 画像管理装置、画像管理方法、および画像管理プログラム
JP5298484B2 (ja) 文書処理装置
JP4297755B2 (ja) 画像管理システムおよび画像管理プログラム