JP2006107375A - 文書管理システム、文書管理方法、プログラムおよび記憶媒体 - Google Patents

文書管理システム、文書管理方法、プログラムおよび記憶媒体 Download PDF

Info

Publication number
JP2006107375A
JP2006107375A JP2004296740A JP2004296740A JP2006107375A JP 2006107375 A JP2006107375 A JP 2006107375A JP 2004296740 A JP2004296740 A JP 2004296740A JP 2004296740 A JP2004296740 A JP 2004296740A JP 2006107375 A JP2006107375 A JP 2006107375A
Authority
JP
Japan
Prior art keywords
document
folder
documents
specific
management system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004296740A
Other languages
English (en)
Inventor
Takeshi Kuroda
健 黒田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2004296740A priority Critical patent/JP2006107375A/ja
Publication of JP2006107375A publication Critical patent/JP2006107375A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 重複する文書または重複するフォルダを削除または退避させるための文書の整理を短時間で確実に行うことができ、重複する文書または重複するフォルダによる記憶領域の無駄な消費を抑制することができる文書管理システムを提供する。
【解決手段】 文書管理システムは、複数の文書の中から、ユーザにより選択された文書と重複する文書を抽出し、抽出された重複する文書のリストを表示する。ここで、各文書にはユーザインデックスがそれぞれ関連付けられており、複数の文書のうち、選択された文書に関連付けられたユーザインデックスと一致するユーザインデックスが関連付けられかつ選択された文書のファイルサイズと同じファイルサイズを有する文書が、重複する文書として抽出される(ステップS702〜ステップS705)。
【選択図】 図8

Description

本発明は、文書を管理するための文書管理システム、文書管理方法、プログラムおよび記憶媒体に関する。
従来、文書の管理を行うシステムには、データベースが保持され、このデータベースの中には、複数のフォルダが存在し、各フォルダの中にも階層的に作成されたフォルダが存在する。各フォルダには、それぞれ、1つ以上の文書が格納されている。また、フォルダの運用形態としては、データベース中のフォルダや文書を1ユーザが個人的に管理する場合および複数のユーザが共有して使用する場合がある。
特開平08‐202607号公報
しかしながら、フォルダの配置や文書の配置は、ユーザの判断に委ねられ、同じ文書を含むフォルダが別な名前で2重に複製されている場合、また、内容が同じ文書が別な名前で2重に複製されている場合などがある。これにより、記憶領域が無駄に消費されることになる。特に、特定のフォルダまたは文書を複数のユーザにより共有して使用する場合、各ユーザが個別にフォルダや文書を複製して利用する場合が多く、そのフォルダまたは文書の複製を記憶する領域が非常に増すことになる。
また、内容は同じであるが、名称が異なる複数のフォルダまたは文書が存在する場合、それぞれの名称からそれぞれが同じ内容のものであるか否かを判定することはできいので、フォルダまたは文書のそれぞれの内容を1つ1つ見比べて判断する必要がある。その結果、フォルダまたは文書の整理を行うためには、多くの時間が掛かり、また煩雑な作業が必要である。
本発明の目的は、重複する文書または重複するフォルダを削除または退避させるための文書の整理を短時間で確実に行うことができ、重複する文書または重複するフォルダによる記憶領域の無駄な消費を抑制することができる文書管理システム、文書管理方法、プログラムおよび記憶媒体を提供することにある。
本発明は、上記目的を達成するため、複数の文書を管理する文書管理システムであって、複数の文書の中から、前記特定の文書と重複する文書を抽出する文書抽出手段と、前記文書抽出手段により抽出された前記特定の文書と重複する文書を表す情報を出力する出力手段とを備えることを特徴とする文書管理ステムを提供する。
本発明は、上記目的を達成するため、少なくとも1つの文書が格納されるフォルダ毎に文書の管理を行う文書管理システムであって、特定のフォルダに格納されている文書と重複する文書が格納されているフォルダを抽出するフォルダ抽出手段と、前記フォルダ抽出手段により抽出されたフォルダおよび該フォルダ内の前記特定のフォルダに格納されている文書と重複する文書を表す情報を出力する出力手段とを備えることを特徴とする文書管理システムを提供する。
本発明は、上記目的を達成するため、複数の文書を管理するための文書管理方法であって、複数の文書の中から、前記特定の文書と重複する文書を抽出する文書抽出工程と、前記文書抽出工程で抽出された前記特定の文書と重複する文書を表す情報を出力する出力工程とを備えることを特徴とする文書管理方法を提供する。
本発明は、上記目的を達成するため、少なくとも1つの文書が格納されるフォルダ毎に文書の管理を行うための文書管理方法であって、特定のフォルダに格納されている文書と重複する文書が格納されているフォルダを抽出するフォルダ抽出工程と、前記フォルダ抽出工程で抽出されたフォルダおよび該フォルダ内の前記特定のフォルダに格納されている文書と重複する文書を表す情報を出力する出力工程とを備えることを特徴とする文書管理方法を提供する。
本発明は、上記目的を達成するため、複数の文書を管理する文書管理システムを構築するためのコンピュータにより実行可能なプログラムであって、複数の文書の中から、前記特定の文書と重複する文書を抽出する文書抽出モジュールと、前記文書抽出モジュールにより抽出された前記特定の文書と重複する文書を表す情報を出力する出力モジュールと
を備えることを特徴とするプログラムを提供する。
本発明は、上記目的を達成するため、少なくとも1つの文書が格納されるフォルダ毎に文書の管理を行う文書管理システムを構築するためのコンピュータにより実行可能なプログラムであって、特定のフォルダに格納されている文書と重複する文書が格納されているフォルダを抽出するフォルダ抽出モジュールと、前記フォルダ抽出モジュールにより抽出されたフォルダおよび該フォルダ内の前記特定のフォルダに格納されている文書と重複する文書を表す情報を出力する出力モジュールとを備えることを特徴とするプログラムを提供する。
本発明は、上記目的を達成するため、上記プログラムをコンピュータ読み取り可能に格納したことを特徴とする記憶媒体をそれぞれ提供する。
本発明によれば、重複する文書または重複するフォルダを削除または退避させるための文書の整理を短時間で確実に行うことができ、重複する文書または重複するフォルダによる記憶領域の無駄な消費を抑制することができる。
以下、本発明の実施の形態について図面を参照しながら説明する。
(第1の実施の形態)
図1は本発明の第1の実施の形態に係る文書管理システムの構成を示すブロック図である。
文書管理システムは、図1に示すように、コンピュータにより構成され、該コンピュータは、ROM2またはHDD4に格納されているプログラムに従ってシステム全体の制御を行うCPU1を備える。CPU1の作業領域は、RAM3により提供される。CPU1には、内部バス9を介して、上記ROM2、RAM3およびHDD4とともに、入力装置I/F6、出力装置I/F7、周辺装置I/F8が接続されている。入力装置I/F6は、キーボード10およびマウス11を接続するためのインタフェースである。出力装置I/F7は、表示装置12を接続するためのインタフェースである。周辺装置I/F8は、周辺機器を接続するためのインタフェースである。ここで、HDD4には、文書管理システムを構築するためのプログラム、および文書を保持するデータベースが格納されている。上記プログラムは、上記データベースに保持されている文書の閲覧、編集、検索、データベースへの文書の書き込みなどの様々な処理を行うためのものである。
次に、本文書管理システムにおけるユーザインタフェースについて図2〜図6を参照しながら説明する。図2は図1の文書管理システムにおいて用いられるユーザインタフェース画面の一例を示す図、図3は図2のユーザインタフェース画面上にプルダウンメニューが表示された状態を示す図、図4は文書に関連付けられるユーザインデックスの型枠の一例を示す図、図5は文書とユーザインデックスとが関連付けられた状態を示す図、図6は文書に関連付けられたユーザインデックスの表示例を示す図である。
文書管理システム(上記プログラム)が起動されると、図2に示すユーザインタフェース画面が表示装置12に表示され、ユーザは、このユーザインタフェース画面を用いて様々な操作を実行することができる。本例のユーザインタフェース画面は、メニュー101と、ツリービュー表示エリア102と、文書表示エリア105とを含む。ユーザインタフェース画面上でメニュー101を選択することにより、文書管理システムの情報の取得、処理の実行を指示することが可能になる。
ツリービュー表示エリア102は、文書を保持するデータベースおよび当該データベースを区分するフォルダの構成を階層的にツリー表示する領域であり、その管理構造および文書の存在場所などを視覚的に把握することが可能である。本実施の形態においては、マイキャビネットデータベース103が存在し、その中にはゴミ箱フォルダ、マイフォルダ、企画書、機能仕様書、という4つのフォルダがある。ここで、表示されているデータベースまたはフォルダの中から特定のものが選択されると、選択されたデータベースまたはフォルダに対する様々な操作の指示を行うことが可能である。現在選択中のフォルダは、マイフォルダ104であり、このマイフォルダ104は、選択されている状態にあることを表すために、ハイライト表示される。
文書表示エリア105は、ツリービュー表示エリア102において選択されたフォルダに存在する文書を表示する領域であり、文書表示エリア105には、文書名、文書の作成日時、更新日時がそれぞれリスト表示される。本実施の形態においては、現在選択中のマイフォルダ104の中に存在する8つの文書が表示されている。表示されている文書の中から特定の文書が選択されると、選択された文書に対する様々な操作の指示を行うことが可能である。選択中の文書が例えば概要説明文書106であると、この概要説明文書106は、ハイライト表示される。
上記メニュー101の中からファイルメニューが選択されると、図3に示すように、上記ユーザインタフェース画面上で、プルダウンメニューの表示が行われる。このメニューには、キャビネットへ接続201、キャビネットの切断202、文書のユーザインデックス203、終了204の4つのサブメニューが存在する。キャビネットへ接続201は、データベースへの接続指示選択メニューであり、このメニューにより接続に成功したデータベースのみに対して、そのデータベース中のフォルダまたは文書の閲覧および操作が可能となる。図3に示す画面は、既にデータベースへ接続した後の画面表示状態を表し、改めて接続指示を選択することができないので、これはグレーアウト表示されている。キャビネットの切断202は、データベースとの切断指示選択メニューであり、ツリービュー表示エリア102において、切断を指示するデータベースが選択されてハイライト表示されている場合のみに選択することが可能となる。図3に示す画面においては、フォルダが選択中であるために切断指示を選択することができないので、キャビネットの切断202は、グレーアウト表示されている。文書のユーザインデックス203は、文書表示エリア105において選択中の文書のユーザインデックスの表示を指示するものである。図3に示す画面において、文書のユーザインデックス203が選択されると、概要説明文書205のユーザインデックスの表示が行われることになる。ユーザインデックスについては、図4を用いて後述する。終了204は、この文書管理システムの終了を指示するメニューである。
ユーザインデックスは、ユーザにより定義される、文書に関連付け可能な情報である。ユーザインデックスは、例えば図4に示すように、インデックス名301、インデックス種別302、インデックス値303およびインデックスID304の4つの情報を含む1つのユーザインデックスの型枠として定義される。ここで、インデックス名301は、ユーザインデックス毎にユーザが定義可能な名称である。インデックス種別302は、インデックスの種別を表す。値303は、ユーザインデックスの値が設定されるものであり、インデックスID304は、ユーザインデックスのIDを示す。インデックス種別302により表される種別は、値303のデータ型を示すものであり、この種別としては、可変長文字列または固定長文字列、整数型または日付型などの種別がある。
ユーザは、予め型枠として定義されているユーザインデックスの中から任意のものを用いてユーザインデックスにおける値303に値を設定することによって、ユーザインデックスの実体を作成する。この作成されたユーザインデックスは、対応する文書に関連付けられる。上記値303の以外の情報は、そのユーザインデックスの型枠の定義の際に設定されるものである。
例えば図5に示すように、ユーザインデックスの型枠として予め3つの型枠402(407),403(408),404が定義されているとする。ここで、各型枠(407),403(408),404において、インデックス名301は、それぞれ会議名、プロジェクト番号、チーム番号と定義され、インデックス種別302は、それぞれ可変長文字列、整数型、整数型と定義され、そしてインデックスID304は、それぞれ1,2,3と定義されている。
本実施の形態においては、複数の型枠を1つの文書に対して関連付けることが可能である。ここでは、例えば、文書401に対して、3つの型枠402,403,404を、文書406に対して、2つの型枠407,408をそれぞれ関連付ける場合を説明する。文書401,406は、文書表示エリア105に表示されるものである。各文書401,406に対してそれぞれの型枠を関連付ける際には、それぞれの型枠の値303に個別に対応する値が設定された後に、各文書401,406に対してそれぞれの型枠が関連付けられる。文書401に関連付けられる型枠402,403,404の値303には、その設定値405として、第1回全体説明会、20020611、01がそれぞれ設定される。また、文書406に関連付けられる型枠407,408の値303には、その設定値409として企画審議会、20020922がそれぞれ設定される。
このようにして文書に関連付けられたユーザインデックスは、ユーザインタフェース画面上に表示される。例えば、文書表示エリア105に表示されている概要説明文書205が選択された状態で、メニューにおいて、文書のユーザインデックス203が選択されると、図6に示すようなポップアップダイアログが表示される。このポップダイアログには、概要説明文書205に関連付けられているユーザインデックスが表示される。ここでは、文書名501と、インデックス数502と、各ユーザインデックスの情報としてのインデックス名503、インデックスタイプ504、値505およびID506とが表示される。このダイアログは、OKキー507の押下により閉じられる。
この関連付けられているユーザインデックスは、その文書の文書名が変更され、または文書そのものの複製が行われた場合でも変わることなく保持される。すなわち、ユーザインデックスを一定の規則に基づいて一意に文書に関連付けるような運用を行えば、名称が異なる複数の文書に対して、それぞれのユーザインデックスが同一であるか否かによってそれぞれの文書が同じ内容の文書であるか否かを判定することができる。もちろん、ユーザが1つ1つのユーザインデックスを設定して文書に関連付けるのみでなく、ある一定の規則を文書管理システムに設定し、その規則を満たす操作が行われた場合にシステムが自動的に文書にユーザインデックスを関連付けるようにすることも可能である。
次に、本実施の形態における文書の整理について図7〜図10を参照しながら説明する。図7は図1の文書管理システムにおいて文書の整理を行う場合の操作画面の一例を示す図、図8は図1の文書管理システムにおける文書の整理の手順を示すフローチャート、図9は図8の文書の整理により作成されるリストの一例を示す図、図10は文書の処理の結果を示すダイアログの一例を示す図である。図8に示すフローチャートの手順は、HDD4に格納されているプログラムに従ってCPU1により実行されるものである。
ここでは、概要説明文書106に対して文書の整理を行う場合を例にして説明する。図7に示すように、文書表示エリア105に表示された概要説明文書106が選択された状態でメニュー101の中から文書の整理601が指定されると、概要説明文書106と同じユーザインデックスを持つ文書が検索され、検索結果を表すリストの作成が行われる。
この文書の整理601が指示されると、図8に示すように、CPU1は、まず、ステップS700において、概要説明文書106に関連付けられているユーザインデックスが存在するか否かを判定する。ここで、概要説明文書106に関連付けられているユーザインデックスが存在しない場合、CPU1は、本処理を終了する。これに対し、概要説明文書106に関連付けられているユーザインデックスが存在する場合、CPU1は、ステップS701において、概要説明文書106に関連付けられているユーザインデックスの中から、1つ目のユーザインデックスのID304を取得する。
次いで、CPU1は、ステップS702において、取得されたユーザインデックスのID304と同じID304を持つユーザインデックスと関連付けられている文書があるか否かを判定する。ここで、同じID304を持つユーザインデックスと関連付けられている文書があれば、CPU1は、ステップS703において、当該文書のユーザインデックスの値303と概要説明文書106のユーザインデックスの値303とを比較し、両者が同じ値であるか否かを判定する。ここで、両者が同じ値である場合、CPU1は、ステップS704において、同じID304を持つユーザインデックスと関連付けられている文書のファイルサイズを取得し、この取得されたファイルサイズと概要説明文書106のファイルサイズとが同じサイズであるか否かを判定する。両者のファイルサイズが同じである場合、CPU1は、ステップS705において、同じID304を持つユーザインデックスと関連付けられている文書をリストに追加する。
次いで、CPU1は、ステップS706において、概要説明文書106に関連付けられているユーザインデックスとして、次のユーザインデックスがあるか否かを判定し、次のユーザインデックスがあれば、ステップS707において、当該ユーザインデックスを取得する。そして、CPU1は、ステップS702に戻り、取得された次のユーザインデックスのID304と同じID304を持つユーザインデックスと関連付けられている文書があるか否かを判定する。
上記ステップS702において取得されたユーザインデックスのID304と同じID304を持つユーザインデックスと関連付けられている文書がないと判定された場合、上記ステップS703において同じID304を持つユーザインデックスと関連付けられている文書のユーザインデックスの値303と概要説明文書106のユーザインデックスの値303とが同じ値でないと判定された場合、または、上記ステップS704において同じID304を持つユーザインデックスと関連付けられている文書のファイルサイズと概要説明文書106のファイルサイズとが同じサイズでないと判定された場合、CPU1は、上記ステップS706へ進み、概要説明文書106に関連付けられているユーザインデックスとして、次のユーザインデックスがあるか否かを判定する。
上記ステップS706において概要説明文書106に関連付けられているユーザインデックスとして、次のユーザインデックスがないと判定された場合、CPU1は、本処理を終了する。
上記文書の整理により、例えば図9に示すようなリストが作成される。このリストは、概要説明文書106に関する情報801〜809と、概要説明文書106に関連付けられたユーザインデックスのインデックスID毎に抽出された、概要説明文書106と重複する文書としての候補文書813〜816の一覧とを含む。概要説明文書106に関する情報として、データベース名、フォルダパス名802、文書名803、概要説明文書106に関連付けられた各ユーザインデックスのインデックスIDをそれぞれ示すユーザインデックスID804,806,808、各ユーザインデックスの値303の設定値をそれぞれ示す805,807,809がある。すなわち、概要説明文書106に関連付けられたユーザインデックスの数は3である。そして、ユーザインデックスID804,806,808毎に、同じユーザインデックスIDを有し、ユーザインデックスの設定値が同じで、かつファイルサイズが同じである文書が、概要説明文書106と重複する文書の候補文書としてそれぞれ抽出される。
ここでは、ユーザインデックスID804に対しては、2つの文書813,814が候補文書として抽出されている。1つ目の文書813は、データベース名が「マイキャビネット」、フォルダパス名が「マイフォルダ」、文書名が「Scan-M紹介」という文書である。2つ目の文書814は、データベース名が「マイキャビネット」、フォルダパス名が「企画書¥A(企画書フォルダの下に属する担当Aというサブフォルダ)」、文書名が「概要説明 コピー」という文書である。ユーザインデックスID806に対しては、1つの文書815が候補文書として抽出されている。文書815は、データベース名が「マイキャビネット」、フォルダパス名が「企画書¥A(企画書フォルダの下に属する担当Aというサブフォルダ)」、文書名が「概要説明 コピー」という文書である。ユーザインデックスID808に対しては、1つの文書816が候補文書として抽出されている。文書816は、データベース名が「マイキャビネット」、フォルダパス名が「企画書¥A(企画書フォルダの下に属する担当Aというサブフォルダ)」、文書名が「概要説明 コピー」という文書である。ユーザインデックスID806,808に対してそれぞれ抽出された文書815,816は、ユーザインデックスID804に対して抽出された文書814と同一の文書である。
このリストから、概要説明文書106とファイルサイズが同じで、かつ関連付けられているユーザインデックスが全く同一である文書として、文書814(815,816)を特定することができる。
文書の整理が終了すると、その結果を示すダイアログとして、例えば図10に示すようなダイアログが表示装置12に表示される。このダイアログは、文書の整理の元となる文書の文書名901と、文書の整理の元となる文書と重複する文書のデータベース名902、フォルダパス903および文書名904とを含む。本例においては、文書名901として、概要説明文書106の文書名が表示される。概要説明文書106と重複する文書のデータベース名902として「マイキャビネット」、フォルダパス903として「企画書¥担当A」、文書名904として「概要説明 コピー」とそれぞれ表示される。仮に複数の文書が重複する文書として抽出された場合、複数の重複文書が複数行に渡って表示されることになる。
そして、上記ダイアログに表示された概要説明文書106と重複する文書のうち、削除対象となる少なくとも1つの文書がユーザにより選択されると、選択された文書の行は反転表示される。そして、ユーザにより削除キー905が押下されると、選択された文書は削除される。また、OKキー906の押下により、上記ダイアログは閉じられる。
ここでは、ユーザが削除する文書を選択する例を示したが、重複する文書を自動的に削除して整理するようにすることも可能である。また、重複する文書を削除するのではなく、バックアップ用の専用のデータベース、またはフォルダにまとめて退避させるようにすることも可能である。
このように本実施の形態によれば、特定の文書と同一のユーザインデックスを有し、かつファイルサイズが一致している文書を重複する文書として抽出し、その重複する文書をリストアップするので、重複する文書を削除または退避させるための文書の整理を短時間で確実に行うことができ、重複する文書による記憶領域の無駄な消費を抑制することができる。
(第2の実施の形態)
次に、本発明の第2の実施の形態について図11を参照しながら説明する。図11は本発明の第2の実施の形態に係る文書管理システムにおいてフォルダの整理を行う場合の操作画面の一例を示す図である。本実施の形態は、上記第1の実施の形態と同じ構成を有し、ここでは、その説明は省略する。
具体的には、上記第1の実施の形態と同様に、まず、特定のフォルダに格納されている文書の中から、
本実施の形態においては、フォルダ単位で文書の整理が行われる。具体的には、図11に示すように、ツリービュー表示エリア102に表示されているマイフォルダ104が選択された状態でメニュー101の中からフォルダの整理1001が指定されると、まず、第1の実施の形態と同様に、マイフォルダ104内において各文書に対して重複する文書が抽出され、そのリストが作成される。次いで、マイフォルダ104内の文書と重複する文書が格納されているフォルダが抽出される。このフォルダの抽出の際には、同様に、マイフォルダ104以外のフォルダ毎にマイフォルダ104内の文書のユーザインデックスと一致するユーザインデックスを有しかつファイルサイズが同一の文書が重複する文書として抽出され、この重複する文書が格納されているフォルダが抽出されて、そのリストが作成される。
抽出されたフォルダのリストは、図10に示すダイアログと同等のダイアログで表示される。ここで、抽出されたフォルダ内の全ての文書がそれぞれ特定されたフォルダ内のいずれかの文書に重複する場合、この旨を示す識別情報が抽出されたフォルダに対して付されてリスト上に表示される。また、抽出されたフォルダ内の一部の文書がそれぞれ特定されたフォルダ内のいずれかの文書に重複する場合、この旨を示す識別情報が抽出されたフォルダに対して付されてリスト上に表示される。よって、ユーザは、上記リスト上の識別情報に基づいて、フォルダ全体を削除すればよいか、フォルダ内の一部の文書のみを削除すればよいかを判断することができる。
また、上記第1の実施の形態と同様に、重複する文書またはフォルダを削除するのではなく、バックアップ用の専用のデータベースなどにまとめて退避させるようにすることも可能である。
(第3の実施の形態)
次に、本発明の第3の実施の形態について図12〜図14を参照しながら説明する。図12は本発明の第3の実施の形態に係る文書管理システムにおける文書の整理の手順を示すフローチャート、図13は文書の整理により作成される重複リストの一例を示す図、図14は重複リストを表示するダイアログの一例を示す図である。本実施の形態は、上記第1の実施の形態と同じ構成を有し、その説明は省略する。
本実施の形態における文書の整理においては、ユーザにより選択された文書に対してテキストデータが一致し、かつファイルサイズが一致する文書が検索され、この検索により得られた文書が上記選択された文書と重複する文書としてリストアップされる。
文書の整理を行う場合、図7に示すと同様の画面上において、文書表示エリア105の概要説明文書106が選択された状態でメニュー101の中から文書の整理601が指定される。これにより、概要説明文書106のテキストデータが取得され、さらにデータベース内の各文書のテキストデータの取得が行われる。そして、概要説明文書106と同一のテキストデータを有しかつファイルサイズが同じである文書が概要説明文書106と重複する文書として抽出され、抽出された文書のリストが作成される。
ここで、文書のテキストデータの取得について説明する。文書は、人が判読可能な文字や記号、各種制御コード、またはビットマップ画像や符号化された画像情報など、様々なデータから構成され、文書のテキストデータは、判読可能な文字や記号と、ビットマップ画像や符号化された画像情報のテキストデータとを含む。ここで、判読可能な文字や記号は、文書データから取得することができる。また、ビットマップ画像や符号化された画像情報のテキストデータは、ビットマップ画像や符号化された画像情報を文字や記号として認識可能なパターン画像として認識し、それをテキストデータとして置き換えることによって、取得することが可能である。これは、一般的にOCR処理と呼ばれるものである。このOCR処理は、元来、スキャナなど光学的画像読み取り装置により読み取られたイメージデータの中から文字として認識可能なパターンを認識し、当該パターンをテキストデータに置き換える技術として広まったものであるが、その後、ファイルに格納された電子データからテキストデータに置き換えるまでの処理を含むものがOCR処理とされている。
上記文書の整理を行う場合の手順について図12を参照しながら説明する。図12に示すフローチャートの手順は、HDD4に格納されているプログラムに従ってCPU1により実行されるものである。また、ここでは、概要説明文書106に対して文書の整理を行う場合を例にして説明する。
CPU1は、図12に示すように、まずステップS1301において、概要説明文書106のテキストデータを取得する。取得されたテキストデータは、一時的にファイルとして書き出される。次いで、CPU1は、ステップS1302において、概要説明文書106が存在するデータベース内において、概要説明文書106以外の文書を取得し、続くステップS1303において、取得された文書のテキストデータを取得する。
次いで、CPU1は、ステップS1304において、取得された文書のテキストデータと概要説明文書106のテキストデータとが完全に一致するか否かを判定する。ここで、両者のテキストデータが完全に一致する場合、CPU1は、ステップS1305において、取得された文書のファイルサイズと概要説明文書106のファイルサイズとが同じであるか否かを判定し、両者のファイルサイズが同じである場合、取得された文書を概要説明文書106と同じ文書であると判断して、ステップS1306において、重複リストに追加する。そして、CPU1は、ステップS1307において、次の文書が存在するか否かを判定し、次の文書が存在する場合、上記ステップS1302に戻る。
上記ステップS1304において取得された文書のテキストデータと概要説明文書106のテキストデータとが完全に一致しないと判定された場合、または上記ステップS1305において取得された文書のファイルサイズと概要説明文書106のファイルサイズとが同じでないと判定された場合、CPU1は、上記ステップS1307へ進み、次の文書が存在するか否かを判定する。
上記ステップS1307において次の文書が存在しないと判定された場合、CPU1は、本処理を終了する。この際、上記ステップS301で一時ファイルとして書き出された概要説明文書106のテキストデータファイルは消去される。
上記重複リストとしては、例えば図13に示すような、概要説明文書106と同じ文書であると見なされた文書が記述されたリストが作成される。この重複リストは、データベース名401、フォルダパス402、文書名403から構成され、この重複リストには、まずユーザにより選択された概要説明文書106に関する情報1404(データベース名、フォルダパスおよび文書名)が記述され、概要説明文書106と重複する文書に関する情報1405,1406が順に追加されている。本例では、概要説明文書106と重複する文書として、2つの文書がリストアップされている。この重複リストから、概要説明文書106と重複する文書として、「Scan-M紹介」という文書名の文書と、「概要説明 コピー」という文書名の文書とがあることが分かる。
上記文書の整理が終了すると、例えば図14に示すようなダイアログが表示される。このダイアログは、文書の整理の元となる文書(ユーザにより選択された文書)の文書名1501と、文書の整理の元となる文書と重複する文書のデータベース名1502、フォルダパス1503および文書名1504とを含む。本例においては、「Scan-M紹介」という文書名の文書と「概要説明 コピー」という文書名の文書とのそれぞれに対するデータベース名1502、フォルダパス1503および文書名1504が表示される。
そして、上記ダイアログに表示された概要説明文書106と重複する文書のうち、削除対象となる少なくとも1つの文書がユーザにより選択されると、選択された文書の行は反転表示される。そして、ユーザにより削除キー1505が押下されると、選択された文書は削除される。また、OKキー1506の押下により、上記ダイアログは閉じられる。
ここでは、ユーザが削除する文書を選択する例を示したが、重複する文書を自動的に削除して整理するようにすることも可能である。また、重複する文書を削除するのではなく、バックアップ用の専用のデータベース、またはフォルダにまとめて退避させるようにすることも可能である。
このように本実施の形態によれば、特定の文書のテキストデータと同一のテキストデータを有する文書を重複する文書として抽出し、その重複する文書をリストアップするので、重複する文書を削除または退避させるための文書の整理を短時間で確実に行うことができ、重複する文書による記憶領域の無駄な消費を抑制することができる。
なお、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体(または記録媒体)を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出し実行することによっても、達成されることはいうまでもない。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
また、プログラムコードを供給するための記憶媒体としては、例えば、フロッピー(登録商標)ディスク、ハードディスク、光磁気ディスク、CD−ROM、CD−R、CD−RW、DVD−ROM、DVD−RAM、DVD−RW、DVD+RW、磁気テープ、不揮発性のメモリカード、ROM等を用いることができる。または、プログラムコードを、ネットワークを介してダウンロードしてもよい。
また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているオペレーティングシステム(OS)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれる。
さらに、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張カードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張カードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれる。
本発明の第1の実施の形態に係る文書管理システムの構成を示すブロック図である。 図1の文書管理システムにおいて用いられるユーザインタフェース画面の一例を示す図である。 図2のユーザインタフェース画面上にプルダウンメニューが表示された状態を示す図である。 文書に関連付けられるユーザインデックスの型枠の一例を示す図である。 文書とユーザインデックスとが関連付けられた状態を示す図である。 文書に関連付けられたユーザインデックスの表示例を示す図である。 図1の文書管理システムにおいて文書の整理を行う場合の操作画面の一例を示す図である。 図1の文書管理システムにおける文書の整理の手順を示すフローチャートである。 図8の文書の整理により作成されるリストの一例を示す図である。 文書の処理の結果を示すダイアログの一例を示す図である。 本発明の第2の実施の形態に係る文書管理システムにおいて重複するフォルダの整理を行う場合の操作画面の一例を示す図である。 本発明の第3の実施の形態に係る文書管理システムにおける文書の整理の手順を示すフローチャートである。 文書の整理により作成される重複リストの一例を示す図である。 重複リストを表示するダイアログの一例を示す図である。
符号の説明
1 CPU
2 ROM
4 HDD
10 キーボード
11 マウス
12 表示装置

Claims (15)

  1. 複数の文書を管理する文書管理システムであって、
    複数の文書の中から、前記特定の文書と重複する文書を抽出する文書抽出手段と、
    前記文書抽出手段により抽出された前記特定の文書と重複する文書を表す情報を出力する出力手段と
    を備えることを特徴とする文書管理ステム。
  2. 各文書にそれぞれ関連付けられる付加情報を設定するための付加情報設定手段を備え、
    前記文書抽出手段は、前記複数の文書のうち、前記特定の文書に関連付けられた付加情報と一致する付加情報が関連付けられかつ該特定の文書のファイルサイズと同じファイルサイズを有する文書を、前記特定の文書と重複する文書として抽出することを特徴とする請求項1記載の文書管理システム。
  3. 前記文書抽出手段は、前記複数の文書のうち、前記特定の文書のテキストデータと一致するテキストデータを有する文書を、前記特定の文書と重複する文書として抽出することを特徴とする請求項1記載の文書管理システム。
  4. 前記文書抽出手段により抽出された前記特定の文書と重複する文書を削除するための削除手段を備えることを特徴とする請求項1ないし3のいずれか1つに記載の文書管理システム。
  5. 前記文書抽出手段により抽出された前記特定の文書と重複する文書を前記管理する複数の文書の格納場所と異なる格納場所へ退避させるための退避手段を備えることを特徴とする請求項1ないし3のいずれか1つに記載の文書管理システム。
  6. 少なくとも1つの文書が格納されるフォルダ毎に文書の管理を行う文書管理システムであって、
    特定のフォルダに格納されている文書と重複する文書が格納されているフォルダを抽出するフォルダ抽出手段と、
    前記フォルダ抽出手段により抽出されたフォルダおよび該フォルダ内の前記特定のフォルダに格納されている文書と重複する文書を表す情報を出力する出力手段と
    を備えることを特徴とする文書管理システム。
  7. 各文書にそれぞれ関連付けられる付加情報を設定するための付加情報設定手段を備え、
    前記フォルダ抽出手段は、特定のフォルダに格納されている文書に関連付けられた付加情報と一致する付加情報が関連付けられかつ該文書のファイルサイズと同じファイルサイズを有する文書を前記重複する文書とし、該重複する文書が格納されているフォルダを抽出することを特徴とする請求項6記載の文書管理システム。
  8. 前記フォルダ抽出手段により抽出されたフォルダまたは該フォルダ内の前記重複する文書を削除するための削除手段を備えることを特徴とする請求項7記載の文書管理システム。
  9. 前記フォルダ抽出手段により抽出されたフォルダまたは該フォルダ内の前記重複する文書を該フォルダの格納場所と異なる格納場所へ退避させるための退避手段を備えることを特徴とする請求項7記載の文書管理システム。
  10. 複数の文書を管理するための文書管理方法であって、
    複数の文書の中から、前記特定の文書と重複する文書を抽出する文書抽出工程と、
    前記文書抽出工程で抽出された前記特定の文書と重複する文書を表す情報を出力する出力工程と
    を備えることを特徴とする文書管理方法。
  11. 少なくとも1つの文書が格納されるフォルダ毎に文書の管理を行うための文書管理方法であって、
    特定のフォルダに格納されている文書と重複する文書が格納されているフォルダを抽出するフォルダ抽出工程と、
    前記フォルダ抽出工程で抽出されたフォルダおよび該フォルダ内の前記特定のフォルダに格納されている文書と重複する文書を表す情報を出力する出力工程と
    を備えることを特徴とする文書管理方法。
  12. 複数の文書を管理する文書管理システムを構築するためのコンピュータにより実行可能なプログラムであって、
    複数の文書の中から、前記特定の文書と重複する文書を抽出する文書抽出モジュールと、
    前記文書抽出モジュールにより抽出された前記特定の文書と重複する文書を表す情報を出力する出力モジュールと
    を備えることを特徴とするプログラム。
  13. 少なくとも1つの文書が格納されるフォルダ毎に文書の管理を行う文書管理システムを構築するためのコンピュータにより実行可能なプログラムであって、
    特定のフォルダに格納されている文書と重複する文書が格納されているフォルダを抽出するフォルダ抽出モジュールと、
    前記フォルダ抽出モジュールにより抽出されたフォルダおよび該フォルダ内の前記特定のフォルダに格納されている文書と重複する文書を表す情報を出力する出力モジュールと
    を備えることを特徴とするプログラム。
  14. 請求項12記載のプログラムをコンピュータ読み取り可能に格納したことを特徴とする記憶媒体。
  15. 請求項13記載のプログラムをコンピュータ読み取り可能に格納したことを特徴とする記憶媒体。
JP2004296740A 2004-10-08 2004-10-08 文書管理システム、文書管理方法、プログラムおよび記憶媒体 Pending JP2006107375A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004296740A JP2006107375A (ja) 2004-10-08 2004-10-08 文書管理システム、文書管理方法、プログラムおよび記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004296740A JP2006107375A (ja) 2004-10-08 2004-10-08 文書管理システム、文書管理方法、プログラムおよび記憶媒体

Publications (1)

Publication Number Publication Date
JP2006107375A true JP2006107375A (ja) 2006-04-20

Family

ID=36377008

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004296740A Pending JP2006107375A (ja) 2004-10-08 2004-10-08 文書管理システム、文書管理方法、プログラムおよび記憶媒体

Country Status (1)

Country Link
JP (1) JP2006107375A (ja)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100952298B1 (ko) 2008-04-30 2010-04-12 한양대학교 산학협력단 중복문서 핸들링을 위한 블로그 서비스 장치 및 방법
JP2010198639A (ja) * 2010-06-03 2010-09-09 Konica Minolta Business Technologies Inc 検索フォルダの管理方法、フォルダの管理方法、コンピュータ、およびコンピュータプログラム
JP2011243065A (ja) * 2010-05-19 2011-12-01 Just Syst Corp 電子文書管理装置、表示方法、表示プログラムおよび記録媒体
WO2012114808A1 (ja) * 2011-02-24 2012-08-30 株式会社日立ソリューションズ 文書処理装置、及びファイルサーバ管理支援方法、並びにファイルサーバ管理支援プログラム
US8595205B2 (en) 2008-02-08 2013-11-26 Konica Minolta Business Technologies, Inc. Device and method for managing search conditions
US9291936B2 (en) 2013-06-27 2016-03-22 Canon Kabushiki Kaisha Image-forming apparatus with electro-conductive resin layer having resin particles and process cartridge
US9335650B2 (en) 2013-06-27 2016-05-10 Canon Kabushiki Kaisha Image forming apparatus and process cartridge utilizing a porous charging member
US9690796B2 (en) 2013-07-25 2017-06-27 Fujitsu Limited Non-transitory computer-readable media storing file management program, file management apparatus, and file management method
JP2018180787A (ja) * 2017-04-07 2018-11-15 富士通株式会社 変更検出プログラム、変更検出方法および変更検出装置
CN112416866A (zh) * 2019-08-23 2021-02-26 珠海金山办公软件有限公司 一种重复文件的检测方法、装置及电子设备
CN112988663A (zh) * 2021-03-11 2021-06-18 维沃移动通信有限公司 文件存储方法和电子设备

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8595205B2 (en) 2008-02-08 2013-11-26 Konica Minolta Business Technologies, Inc. Device and method for managing search conditions
KR100952298B1 (ko) 2008-04-30 2010-04-12 한양대학교 산학협력단 중복문서 핸들링을 위한 블로그 서비스 장치 및 방법
JP2011243065A (ja) * 2010-05-19 2011-12-01 Just Syst Corp 電子文書管理装置、表示方法、表示プログラムおよび記録媒体
JP2010198639A (ja) * 2010-06-03 2010-09-09 Konica Minolta Business Technologies Inc 検索フォルダの管理方法、フォルダの管理方法、コンピュータ、およびコンピュータプログラム
WO2012114808A1 (ja) * 2011-02-24 2012-08-30 株式会社日立ソリューションズ 文書処理装置、及びファイルサーバ管理支援方法、並びにファイルサーバ管理支援プログラム
CN103329110A (zh) * 2011-02-24 2013-09-25 株式会社日立解决方案 文档处理装置、文件服务器管理辅助方法以及文件服务器管理辅助程序
JP2012174210A (ja) * 2011-02-24 2012-09-10 Hitachi Solutions Ltd 文書処理装置、及びファイルサーバ管理支援方法、並びにファイルサーバ管理支援プログラム
CN103329110B (zh) * 2011-02-24 2016-02-17 株式会社日立解决方案 文档处理装置和文件服务器管理辅助方法
US9291936B2 (en) 2013-06-27 2016-03-22 Canon Kabushiki Kaisha Image-forming apparatus with electro-conductive resin layer having resin particles and process cartridge
US9335650B2 (en) 2013-06-27 2016-05-10 Canon Kabushiki Kaisha Image forming apparatus and process cartridge utilizing a porous charging member
US9690796B2 (en) 2013-07-25 2017-06-27 Fujitsu Limited Non-transitory computer-readable media storing file management program, file management apparatus, and file management method
JP2018180787A (ja) * 2017-04-07 2018-11-15 富士通株式会社 変更検出プログラム、変更検出方法および変更検出装置
JP7003433B2 (ja) 2017-04-07 2022-01-20 富士通株式会社 変更検出プログラム、変更検出方法および変更検出装置
CN112416866A (zh) * 2019-08-23 2021-02-26 珠海金山办公软件有限公司 一种重复文件的检测方法、装置及电子设备
CN112988663A (zh) * 2021-03-11 2021-06-18 维沃移动通信有限公司 文件存储方法和电子设备

Similar Documents

Publication Publication Date Title
US8078627B2 (en) File management apparatus, method for controlling file management apparatus, computer program, and storage medium
CA2945684C (en) Batch generation of links to documents based on document name and page content matching
JP2006107375A (ja) 文書管理システム、文書管理方法、プログラムおよび記憶媒体
JP5399114B2 (ja) ファイルサーバ運用支援装置、方法、プログラム及び記録媒体
JP2008234078A (ja) 情報処理装置、情報処理方法、情報処理プログラム、及び情報処理プログラムを記録した記録媒体
JPH07319897A (ja) 情報処理方法及び装置
JP2007115132A (ja) 情報処理装置及びその制御方法、情報処理システム、コンピュータプログラム、記憶媒体
JP2006215811A (ja) ファイリング装置、検索管理方法、及びプログラム
JP6123519B2 (ja) 情報処理装置及び情報処理プログラム
JP2008059136A (ja) 漏洩個人情報検索システム、漏洩個人情報検索方法、漏洩個人情報検索装置およびプログラム
JP2008015830A (ja) 帳票のレイアウト構造出力装置及びレイアウト構造作成方法、並びにプログラム
JP2006309593A (ja) 帳票処理装置、帳票処理方法、プログラム及び記録媒体
CN109739835A (zh) 一种数据版本保存方法及装置
KR102593884B1 (ko) 문서 자동 작성 시스템 및 방법, 컴퓨터로 독출 가능한 기록 매체
JP4011662B2 (ja) 電子ファイリング方法及び装置
JP2003316773A (ja) 文書管理システム、方法、プログラム及び記憶媒体
JP2011043930A (ja) 帳票処理システム、帳票処理サーバ装置、帳票処理装置、帳票処理方法、およびプログラム
JP2008003670A (ja) 図面管理システム及び管理方法
JP2004164301A (ja) 情報処理装置、情報処理方法およびその方法をコンピュータに実行させるプログラム
JPH05307472A (ja) プログラム部品情報再利用装置
JPH05282391A (ja) 図面検索装置
JP2006126962A (ja) 文書作成装置、文書作成方法、および文書作成プログラム
JPH07200597A (ja) 文書管理装置
JPH05108457A (ja) ハイパーテキスト情報管理装置
JP2021068183A (ja) 情報処理装置、情報処理方法及びプログラム

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20060419

RD05 Notification of revocation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7425

Effective date: 20070626