JP2010257019A - 文書管理装置、文書管理方法およびそのプログラム - Google Patents

文書管理装置、文書管理方法およびそのプログラム Download PDF

Info

Publication number
JP2010257019A
JP2010257019A JP2009103605A JP2009103605A JP2010257019A JP 2010257019 A JP2010257019 A JP 2010257019A JP 2009103605 A JP2009103605 A JP 2009103605A JP 2009103605 A JP2009103605 A JP 2009103605A JP 2010257019 A JP2010257019 A JP 2010257019A
Authority
JP
Japan
Prior art keywords
file
document
document file
storage unit
similar
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2009103605A
Other languages
English (en)
Inventor
Yasuhiro Masuda
靖宏 増田
Kazusane Saito
和実 斉藤
Isao Magara
勲 真柄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2009103605A priority Critical patent/JP2010257019A/ja
Publication of JP2010257019A publication Critical patent/JP2010257019A/ja
Withdrawn legal-status Critical Current

Links

Images

Abstract

【課題】同一の文書ファイルの重複登録を防止して、記憶容量を節約し、かつ改版のあった文書ファイルをその関連性とともに記憶装置に記憶させることによって、改版の有無、類似性の度合いを容易に確認可能な文書管理装置を提供する。
【解決手段】文書管理装置は、文書ファイル記憶部と、登録要求受付部と、判定基準情報を記憶する判定基準記憶部と、登録対象ファイルと同一である同一文書ファイルまたは類似する類似文書ファイルが文書ファイル記憶部に存在するか否かを判定する判定部と、登録対象ファイルを類似文書ファイルとの関連情報とともに文書ファイル記憶部に記憶させる登録処理部とを備える。
【選択図】図2

Description

本発明は、文書ファイルの検索を目的として蓄積した文書管理装置に関し、特に、データベースへの登録処理を管理するための文書管理装置、文書管理方法およびそのプログラムに関する。
文書管理用のサーバコンピュータにより、記憶装置に蓄積された多数の文書ファイルを管理し、ネットワークにより接続された複数のクライアント端末からの検索要求に応じて検索を実行する文書管理装置は従来知られている。
このような文書管理装置において、文書ファイルを記憶装置に記憶させる際に、既に同一の文書ファイルが記憶装置に記憶されているか否かを判定し、同一の文書ファイルが存在する場合には新規に記憶させないか、あるいは上書き保存することが行われている。たとえば、特許文献1に記載の装置の例では、画像ファイルの撮影日時やファイル名などの情報に基づいて、記憶装置内に同一の画像ファイルが存在するか否かを判別し、同一の画像ファイルが存在する場合には記憶装置への記憶を行わず、ファイル名が一致するが同一の画像ファイルでないと判断した場合には別のファイル名として記憶装置に記憶させることを開示している。
また、特許文献2に記載されているように、ネットワークを介して複数のクライアントコンピュータからの要求に応じて文書ファイルをファイル記憶部に蓄積し、定期的に検索用データをデータベースに登録するように構成された文書管理装置において、登録機能部において、登録対象の文書ファイルに類似する文書ファイルが既にデータベースに登録されている場合には、対応する検索用データに関連付けてリンク情報のみをデータベースに登録することが提案されている。
特許文献1に記載の装置においては、既に記憶装置に登録された文書ファイルが存在するか否かを判定して、記憶装置に記憶させるか否かを決定する存在するか否かの判断を行っている。このような装置においては、文書ファイルの同一性の判断を行って、同一の文書ファイルであれば記憶装置への記憶をしないことで、文書ファイルの重複記憶を排除し、記憶媒体の容量を節約することができる。しかしながら、この装置では、文書ファイルの同一性の判断のみを行っていることから、文書ファイルの改版が行われた場合に内容が同一でなければ他のファイル名を付与して記憶装置に記憶させることとなる。したがって、この装置は、記憶装置に記憶させようとしている文書ファイルと、記憶装置内に既に存在する文書ファイルとの類似性については全く考慮されておらず、文書ファイル間の関連性を考慮した文書ファイル管理がなされていない。
また、特許文献2に記載の装置においては、既に記憶装置に登録された文書ファイルに類似する文書ファイルに関しては、記憶装置への登録を行わずに、リンク情報のみを記憶装置に記憶させるように構成している。この装置は、類似する文書ファイルのリンク情報を検索用データに記録するだけであって、改版のあった文書ファイルについて改版前の文書ファイルと改版後の文書ファイルとの関連性を考慮して記憶装置に記憶するような構成となっていない。
本発明は、同一の文書ファイルの重複登録を防止して、記憶容量を節約し、かつ改版のあった文書ファイルをその関連性とともに記憶装置に記憶させることによって、改版の有無、類似性の度合いを容易に確認可能な文書管理装置、文書管理方法およびそのプログラムを提供する。
本発明に係る文書管理装置は、複数の文書ファイルを記憶する文書ファイル記憶部と、文書ファイル記憶部への文書ファイルの記憶を要求する登録要求を受信する登録要求受付部と、文書ファイルの同一性及び類似性を判定するための判定基準情報を記憶する判定基準記憶部と、登録要求の対象となっている登録対象ファイルと文書ファイル記憶部に記憶されている文書ファイルとを判定基準情報に基づいて比較し、登録対象ファイルと同一である同一文書ファイルまたは類似する類似文書ファイルが文書ファイル記憶部に存在するか否かを判定する判定部と、判定部により類似文書ファイルが存在すると判定した登録対象ファイルを類似文書ファイルとの関連情報とともに文書ファイル記憶部に記憶させる登録処理部とを備える。
ここで、文書ファイルとは、テキスト文書、画像ファイル、HTML文書、バイナリデータファイル、これら文書形式が混在するファイルなどを含むものとする。
本発明によれば、文書ファイル記憶部に同一文書ファイルが重複して記憶されることを防止して、記憶容量の節約が可能であるとともに、類似文書ファイルとの関連情報に基づいて、類似文書ファイルとの関係を容易に把握することが可能となる。
文書管理システムの概略構成を示す説明図。 文書管理装置の機能ブロック図。 文書管理装置の機能ブロック図。 文書管理方法のフローチャート。 判定基準情報テーブルの一例を示す説明図。 改版確認画面の一例を示す説明図。
本発明の詳細を図示した実施形態に基づいて説明する。
図1は、本発明の文書管理装置を含む文書管理システムの説明図である。
図1に示すように、文書管理システムは、ネットワーク20を介してクライアント端末30に接続されるサーバ10を備えている。
サーバ10は、クライアント端末30からの登録要求に応じて各種文書ファイルを記憶する文書ファイル記憶部13と、クライアント端末30からの検索要求に応じて文書ファイル記憶部13に記憶されている文書ファイルの検索処理を実行する検索サーバ11、クライアント端末30からの登録要求に応じて文書ファイル記憶部13に文書ファイルを記憶させる文書管理装置12を備えている。
サーバ11は通信機能部を備えており、インターネット、LANなどのネットワーク20を介して、ユーザが使用する1または複数のクライアント端末30と接続可能となっている。
サーバ11は、CPU、ROM、RAM、ハードディスク、通信インターフェイス、入出力インターフェイスなどを備えた通常のコンピュータシステムで構成することができ、検索サーバ11、文書管理装置12は、コンピュータシステムとアプリケーションソフトウェアとの協働により実現することが可能である。また、検索サーバ11、文書管理装置12、文書ファイル記憶部13は、それぞれネットワークを介して接続される異なるコンピュータシステムで構成することも可能である。
クライアント端末30は、CPU、ROM、RAM、ハードディスク、通信インターフェイス、入出力インターフェイスなどを備えるパーソナルコンピュータで構成され、ユーザが入力する指示入力を受け付けてサーバ10に送信し、サーバ10から送信されてくるデータの表示を行うブラウザ31を備えている。ユーザは、このクライアント端末30のブラウザ31を介して、検索サーバ11に検索要求を送信して文書ファイル記憶部13に記憶されている文書ファイルを検索する機能、文書管理装置12に登録要求を送信して文書ファイル記憶部13に文書ファイルの記憶をさせる機能を利用することが可能である。
図2は、文書管理装置12の概略構成を示すブロック図である。
文書管理装置12は、文書ファイル記憶部13、登録要求受付部201、判定基準記憶部202、判定部203、登録処理部204を備えている。
文書ファイル記憶部13は、前述したように、複数の文書ファイルを記憶するものであって、文書管理装置12に内蔵する記憶装置で構成することも可能であり、外付けで接続された記憶装置またはネットワークを介して接続された記憶装置で構成することが可能である。
登録要求受付部201は、文書ファイル記憶部13への文書ファイルの記憶を要求する登録要求を受信する。
判定基準記憶部202は、文書ファイルの同一性及び類似性を判定するための判定基準情報を記憶する。
判定部203は、登録要求の対象となっている登録対象ファイルと文書ファイル記憶部13に記憶されている文書ファイルとを判定基準情報に基づいて比較し、登録対象ファイルと同一である同一文書ファイルまたは類似する類似文書ファイルが文書ファイル記憶部13に存在するか否かを判定する。
登録処理部204は、判定部203により類似文書ファイルが存在すると判定した登録対象ファイルを類似文書ファイルとの関連情報とともに文書ファイル記憶部13に記憶させる。
図3は、文書管理装置12の具体的な実施例の機能ブロック図である。
この実施例における文書管理装置12は、文書ファイル記憶部13、登録要求受付部201、判定基準記憶部202、判定部203、登録処理部204、判定基準受付部205を備えている。
文書ファイル記憶部13は、複数の文書ファイルを記憶可能な記録媒体であり、文書管理装置12の他の機能部とネットワークを介して接続される別個のハードウェア構成とすることも可能である。
登録要求受付部201は、文書ファイル記憶部13に文書ファイルを記憶させるための登録要求を受信するものであって、ネットワーク20を介してクライアント端末30から送信されてくる登録要求を受信する。
判定基準記憶部202は、文書ファイルの同一性及び類似性を判定するための判定基準情報を記憶するものであり、判定基準受付部205で受け付けた判定基準情報を判定基準記憶部202に記憶させるように構成することができる。判定基準受付部205は、文書管理装置12に設けられた所定の入力手段から入力される判定基準情報またはクライアント端末30から送信されてくる判定基準情報を受け付けて判定基準記憶部202に記憶させる。
判定基準情報は、文書ファイルの同一性を判定するための第1判定基準情報210と、文書ファイルの類似性を判定するための第2判定基準情報211とで構成される。
判定部203は、登録要求の対象となっている登録対象ファイルと文書ファイル記憶部13に記憶されている文書ファイルとを比較し、登録対象ファイルと同一である同一文書ファイルまたは類似する類似文書ファイルが文書ファイル記憶部13に存在するか否かを判定する。判定部203は、登録対象ファイルと文書ファイル記憶部13に記憶されている文書ファイルとの同一性を判定する同一性判定部220、登録対象ファイルと文書ファイル記憶部13に記憶されている文書ファイルとの類似性を判定する類似性判定部221、登録対象ファイルが類似文書ファイルの改版であるか否かを確認する改版確認部222を備えている。
同一性判定部220は、判定基準記憶部202に記憶されている第1判定基準情報210に基づいて、文書ファイルの同一性を判定する。類似性判定部221は、判定基準記憶部202に記憶されている第2判定基準情報211に基づいて、文書ファイルの類似性を判定する。改版確認部222は、登録対象ファイルが類似文書ファイルの改版であるか否かを確認し、改版である場合にはその旨の通知を登録処理部204に送信する。
登録処理部204は、判定部203により類似文書ファイルが存在すると判定した登録対象ファイルを類似文書ファイルとの関連情報とともに文書ファイル記憶部13に記憶させる。この時、改版確認部222により類似文書ファイルの改版であると判定された登録対象ファイルについては、類似文書ファイルの内容を可視透かしデータとして登録対象ファイルと合成し、これを文書ファイル記憶部13に記憶させるように構成でき、さらに、登録対象ファイルに可視透かしデータとして合成された類似文書ファイルを文書ファイル記憶部13から削除するように構成することも可能である。
図4は、文書管理装置12における文書管理方法のフローチャートである。
ステップS402において、文書管理装置12は登録要求を受け付ける。ユーザがクライアント端末30のブラウザ31からサーバ10にアクセスし、文書ファイル記憶部13への文書ファイルの登録要求を送信してきた場合には、登録要求受付部201により登録要求を受信する。
ステップS404において、文書管理装置12は送信されてきた登録要求で登録対象となっている登録対象ファイルを所定の記憶領域に仮登録する。
ステップS406において、文書管理装置12は、登録対象ファイルと同一の文書ファイルが文書ファイル記憶部13に存在するか否かを判定する。ここでは、同一性判定部220が、判定基準記憶部202に記憶されている第1判定基準情報210に基づいて、登録対象ファイルと文書ファイル記憶部13に記憶されている文書ファイルとを比較し、同一文書ファイルが存在するか否かを判定する。
図5は、判定基準記憶部202に記憶されている判定基準情報のテーブルの一例を示す説明図である。
図5に示す判定基準情報テーブル500の例では、2つの文書ファイルのファイルサイズ誤差率501、ファイル名誤差率502、ファイル作成日誤差率503、ファイル更新日誤差率504、ファイル内容誤差率505を項目として有している。
ファイルサイズ誤差率501は、登録対象ファイルのファイルサイズと文書ファイル記憶部13に登録済みの文書ファイルのうち現在比較対象となっている文書ファイルのファイルサイズとの誤差率であって、(登録対象ファイルのファイルサイズと比較対象ファイルのファイルサイズとの差)/(比較対象ファイルのファイルサイズ)で算出することができる。図5に示す例では、同一性判定部220での同一性判定に用いられる第1判定基準情報のファイルサイズ誤差率501は、0%に設定されている。この場合、同一性判定部220は、ファイルサイズの誤差率が0%を超えるような文書ファイル、すなわちファイルサイズが登録対象ファイルと同一でないような文書ファイルに対しては、同一文書ファイルと見なさない。
ファイル名誤差率502は、登録対象ファイルのファイル名と文書ファイル記憶部13に登録済みの文書ファイルのうち現在比較対象となっている文書ファイルのファイル名との不一致度を示すものである。たとえば、登録対象ファイルのファイル名と比較対象ファイルのファイル名の一致する部分の長さを”ファイル名同一部分長”として検出し、(1−(ファイル名同一部分長×2)/(登録対象ファイルのファイル名長+比較対象ファイルのファイル名長))として算出することができる。図5に示す例では、同一性判定部220での同一性判定に用いられる第1判定基準情報210のファイル名誤差率は50%に設定されている。この場合、同一性判定部220は、ファイル名誤差率が50%を超えるような文書ファイルを、同一文書ファイルとみなさない。
文書ファイルを閲覧だけを行って編集をしなかった場合であっても、文書ファイルを保存する際にファイル名の変更が可能であり、任意のファイル名に変更されることを想定して、この項目を同一性判定の判断基準としないように構成することも可能である。また、ファイル名の変更があっただけでも、同一文書ファイルではないと見なすように構成することも可能であり、この場合には、ファイル名誤差率502の値を0%に設定することで実現できる。
ファイル作成日誤差率503は、登録対象ファイルのファイル作成日と文書ファイル記憶部13に登録済みの文書ファイルのうち現在比較対象となっている文書ファイルのファイル作成日との不一致度を示すものである。図5に示す例では、同一性判定部220での同一性判定に用いられる第1判定基準情報210のファイル作成日誤差率503は、0%に設定されている。この場合、同一性判定部220は、ファイル作成日の誤差率が0%を超えるような文書ファイル、すなわちファイル作成日が登録対象ファイルと一致しないような文書ファイルを同一文書ファイルとみなさない。
ファイル更新日誤差率504は、登録対象ファイルのファイル更新日と文書ファイル記憶部13に登録済みの文書ファイルのうち現在比較対象となっている文書ファイルのファイル更新日との不一致度を示すものである。図5に示す例では、同一性判定部220での同一性判定に用いられる第1判定基準情報210のファイル更新日誤差率504は、0%に設定されている。この場合、同一性判定部220は、ファイル変更日の誤差率が0%を超えるような文書ファイル、すなわちファイル更新日が登録対象ファイルと一致しないような文書ファイルを同一文書ファイルとみなさない。
ファイル内容誤差率505は、登録対象ファイルの内容と文書ファイル記憶部13に登録済みの文書ファイルのうち現在比較対象となっている文書ファイルの内容との不一致度を示すものである。文書ファイル同士のファイル内容の誤差は、たとえばテキストデータの比較を行うアプリケーションソフトウェア、バイナリデータの比較を行うアプリケーションソフトウェア、図面の比較を行うアプリケーションソフトウェアなど既存のソフトウェアを用いることができ、たとえば、テキスト比較/バイナリ比較が可能な"SIMPLIA/VF-FILECOMP"(富士通株式会社)、画像ファイルの比較が可能な"PLEMIA/EDM Visual Search"(富士通株式会社)などを用いることが可能である。図5に示す例では、同一性判定部220での同一性判定に用いられる第1判定基準情報210のファイル内容誤差率505は、0%に設定されている。この場合、同一性判定部220は、ファイル内容の誤差率が0%を超えるような文書ファイル、すなわちファイル内容が登録対象ファイルと一致しないような文書ファイルを同一文書ファイルとみなさない。
ステップS406において、文書管理装置12は、登録対象ファイルと同一の文書ファイルが文書ファイル記憶部13に存在すると判断した場合には、ステップS408に移行し、そうでない場合にはステップS416に移行する。
ステップS408において、文書管理装置12は、登録対象ファイルの排除確認処理を実行する。登録対象ファイルと同一の文書ファイルが文書ファイル記憶部13に存在すると同一性判定部220が判断した場合に、登録要求を送信してきたクライアント端末30のブラウザ31にその旨の通知を送信し、登録対象ファイルの登録を続行するか、もしくは排除するかの指示入力を待機する。
ステップS410において、文書管理装置12は、登録対象ファイルを排除する旨の指示入力が送信されてきたか否かを判定する。文書管理装置12は、クライアント端末30から登録対象ファイルの排除を指示する指示入力の送信を受けた場合には、ステップS412に移行し、そうでない場合にはステップS414に移行する。
ステップS412において、文書管理装置12は、所定の記憶領域に格納された登録対象ファイルを排除し、登録対象ファイルの文書ファイル記憶部13に記憶させる処理を実行しない。 ステップS414において、文書管理装置12は、所定の記憶領域に格納された登録対象ファイルに、同一文書ファイルとは異なる他文書名を付与して、文書ファイル記憶部13の所定の領域に記憶させる。
ステップS416において、文書管理装置12は、登録対象ファイルと類似する文書ファイルが文書ファイル記憶部13に存在するか否かを判定する。ここでは、類似性判定部221が、判定基準記憶部202に記憶されている第2判定基準情報211に基づいて、登録対象ファイルと文書ファイル記憶部13に記憶されている文書ファイルとを比較し、類似文書ファイルが存在するか否かを判定する。
類似性判定部221で利用される第2判定基準情報211は、第1判定基準情報210と同様に、図5に示されるようなテーブル構成とすることができる。
図5に示すように、類似性判定部221での類似性判定に用いられる第2判定基準情報211のファイルサイズ誤差率501は、10%に設定されている。この場合、類似性判定部221は、ファイルサイズの誤差が10%を超えるような文書ファイルに対しては、類似文書ファイルと見なさない。
図5に示すように、類似性判定部221での類似性判定に用いられる第2判定基準情報211のファイル名誤差率は50%に設定されている。この場合、類似性判定部221は、ファイル名誤差率が50%を超えるような文書ファイルを、類似文書ファイルとみなさない。前述したように、文書ファイルを保存する際にファイル名の変更が可能であり、任意のファイル名に変更されることを想定して、この項目を類似性判定の判定基準としないように構成することも可能である。
図5に示すように、類似性判定部221での類似性判定に用いられる第2判定基準情報211のファイル作成日誤差率503は、0%に設定されている。この場合、類似性判定部221は、ファイル作成日が登録対象ファイルと一致しないような文書ファイルを類似文書ファイルとみなさない。ここでは、システム側が認識する文書ファイルのファイル作成日は、文書ファイルの内容が編集されるかあるいは改版された場合であっても、最も古い当初のファイル作成日であるのが一般的であると考えられることから、ファイル作成日が異なる文書ファイルは類似文書ファイルではないと判断する。類似文書ファイルであっても、異なるファイル作成日が設定されるような可能性がある場合には、このファイル作成日誤差率503を類似性判定の判定基準としないように構成することも可能である。
図5に示すように、類似性判定部221での類似性判定に用いられる第2判定基準情報211のファイル更新日誤差率504は、"null"に設定されている。この場合、類似性判定部221は、類似性判定の判定基準としてファイル更新日を考慮しない。また、ファイル更新日が順次履歴情報として蓄積されているような場合には、類似性判定部221が、ファイル更新日のうちの何%のファイル更新日が一致するかにより、類似文書ファイルであるか否かの判定を行うように構成することも可能である。
図5に示すように、類似性判定部221での類似性判定に用いられる第2判定基準情報211のファイル内容誤差率505は、10%に設定されている。この場合、類似性判定部221は、ファイル内容の誤差率が10%を超えるような文書ファイルを類似文書ファイルとみなさない。ファイル内容誤差率は、前述したように、たとえばテキストデータの比較を行うアプリケーションソフトウェア、バイナリデータの比較を行うアプリケーションソフトウェア、図面の比較を行うアプリケーションソフトウェアなど既存のソフトウェアを用いることができる。
ステップS416において、文書管理装置12は、登録対象ファイルに類似する類似文書ファイルが文書ファイル記憶部13に存在すると判断した場合には、ステップS418に移行し、そうでない場合にはステップS426に移行する。
ステップS418において、文書管理装置12は、登録対象ファイルの改版確認処理を実行する。登録対象ファイルと類似する類似文書ファイルが文書ファイル記憶部13に存在すると類似性判定部221が判断した場合に、改版確認部222は、登録要求を送信してきたクライアント端末30のブラウザ31にその旨の通知を送信し、改版であるか否かを確認する指示入力を待機する。
たとえば、改版確認部222は、類似文書ファイルのファイル内容を可視電子透かしとし、登録対象ファイルのファイル内容に合成して、登録要求を送信してきたクライアント端末30に送信する。クライアント端末30側において、ユーザが、ブラウザ31に表示される文書ファイルにより、登録対象ファイルが類似文書ファイルの改版であるか否かを目視確認することが可能となる。
図6は、登録対象ファイルのファイル内容に類似文書ファイルのファイル内容を可視電子透かしとして合成した画像の表示例を示す説明図である。
合成画像600は、実線で示された登録対象ファイルのファイル内容である第1ファイル内容610を含んでいる。また、合成画像600には、類似文書ファイルのファイル内容である第2ファイル内容620が、明度または彩度を低くした透かし(ウォーターマーク)として合成されている。
クライアント端末30において、ユーザはブラウザ31で表示される合成画像600を参照して、第1ファイル内容610と第2ファイル内容620との差異を目視確認することが可能となる。ユーザは、この合成画像600を参照して、登録対象ファイルのファイル内容である第1ファイル内容610が、類似文書ファイルのファイル内容である第2ファイル内容620の改版であり、かつ登録対象ファイルを類似文書ファイルとは別に登録する場合にはその旨の指示入力を送信し、登録対象ファイルを文書ファイル記憶部13に記憶させる必要がない場合には登録対象ファイルを排除を指示する指示入力を送信するように構成される。
ステップS420において、文書管理装置12は、クライアント端末30から送信されてくる指示入力に基づいて、登録対象ファイルを改版登録するか否かを判定する。改版確認部222は、ユーザからの改版確認の指示入力があり、類似文書ファイルとは別に登録対象ファイルを登録する旨の指示入力を受信した場合には、ステップS422に移行し、登録対象ファイルを排除する旨の指示入力を受信した場合にはステップS424に移行する。
ステップS422において、文書管理装置12は、登録対象ファイルを類似文書ファイルの改版文書として文書ファイル記憶部13に記憶させる。登録処理部204は、登録対象ファイルを記憶させる領域として、類似文書ファイルが格納されているフォルダと同一のフォルダまたは近隣のフォルダを選択し、登録対象ファイルを選択したフォルダ内に記憶させる。
ステップS424において、文書管理装置12は、所定の記憶領域に格納された登録対象ファイルを排除し、登録対象ファイルを文書ファイル記憶部13に記憶させる処理を実行しない。
ステップS426では、文書管理装置12は、登録対象ファイルの新規登録処理を実行する。登録処理部204は、登録対象ファイルと同一である同一文書ファイルまたは登録対象ファイルに類似する類似文書ファイルが文書ファイル記憶部13に存在しないことから、所定の記憶領域に格納されている登録対象ファイルを新規文書ファイルとして文書ファイル記憶部13に格納する。
このような構成とすることにより、同一文書ファイルを重複して文書ファイル記憶部13に記憶させることがなく、記憶容量を節約することが可能となる。
また、登録対象ファイルに類似する類似文書ファイルが文書ファイル記憶部13に存在する場合には、登録対象ファイルが類似文書ファイルの同一フォルダまたは近隣のフォルダ内に記憶させることで、類似する文書ファイルを関連付けて管理することが可能である。
登録対象ファイルが類似文書ファイルの改版であるか否かについては、類似文書ファイルのファイル内容を透かしとして登録対象ファイルのファイル内容と合成して表示し、ユーザに確認させることで改版であるか否かを容易に判別することが可能となる。
〔他の実施形態〕
(A)同一性判定部220と類似性判定部221は、1つの判定部で構成することも可能である。たとえば、判定基準情報に含まれる第1判定基準情報210、第2判定基準情報211の各項目について、第1の範囲にあるものは同一文書ファイルであると判定し、第2の範囲にあるものは類似文書ファイルであり、第3の範囲にあるものは新規文書ファイルであると判定するように構成できる。
(B)改版確認部222により、登録対象ファイルが類似文書ファイルの改版であると判定された場合に、既に文書ファイル記憶部13に記憶されている旧版である類似文書ファイルを削除するように構成することが可能である。また、文書管理装置12は、旧版である類似文書ファイルの題名、インデックスに旧版であることを示す情報を付加して変更し、他のフォルダに移動するように構成することも可能である。
旧版である類似文書ファイルの削除または移動の処理は、改版確認部222による改版確認処理の際に、ユーザからの指示入力に基づいて、実行するように構成することも可能である。
(C)文書管理装置12は、文書ファイル記憶部13に記憶された文書ファイルからインデックスを抽出して、文書ファイル記憶部13または他の記憶装置に検索用データベースとして登録するように構成することができる。たとえば、各文書ファイルのファイル名、ファイルサイズ、ファイル作成日、ファイル更新日、ファイル格納アドレスなどをインデックスとして抽出し、これをデータベースとして所定の記憶領域に格納しておく。
図1に示す検索サーバ11は、文書ファイルのインデックスが登録されたデータベースを検索することで、文書ファイルの検索処理を高速に実行することが可能となる。
また、同一性判定部220、類似性判定部221における判定処理において、各文書ファイルのインデックスを用いて、同一性の判定及び類似性の判定を実行するように構成することが可能である。
本発明は、テキストデータ、画像データ、バイナリデータ、HTMLデータなどの各種文書ファイルを管理するライブラリ管理システムに適用することができ、文書ファイルの重複登録を排除して記憶容量を節約することが可能であり、また、類似文書ファイルを関連付けて管理することが可能となり、改版の有無などについても管理することが可能となる。
特開2007−193531号公報 特開2002−14985号公報

Claims (8)

  1. 複数の文書ファイルを記憶する文書ファイル記憶部と、
    前記文書ファイル記憶部への文書ファイルの記憶を要求する登録要求を受信する登録要求受付部と、
    文書ファイルの同一性及び類似性を判定するための判定基準情報を記憶する判定基準記憶部と、
    前記登録要求の対象となっている登録対象ファイルと前記文書ファイル記憶部に記憶されている文書ファイルとを前記判定基準情報に基づいて比較し、前記登録対象ファイルと同一である同一文書ファイルまたは類似する類似文書ファイルが前記文書ファイル記憶部に存在するか否かを判定する判定部と、
    前記判定部により類似文書ファイルが存在すると判定した前記登録対象ファイルを前記類似文書ファイルとの関連情報とともに前記文書ファイル記憶部に記憶させる登録処理部と、
    を備える文書管理装置。
  2. 前記判定基準記憶部に記憶される判定基準情報は、文書ファイルの同一性を判定するための第1判定基準情報と、文書ファイルの類似性を判定するための第2判定基準情報とで構成され、
    前記判定部は、前記登録対象ファイルと同一である同一文書ファイルが前記文書ファイル記憶部に存在するか否かを前記第1判定基準情報に基づいて判定する同一性判定部と、前記登録対象ファイルと類似する類似文書ファイルが前記文書ファイル記憶部に存在するか否かを前記第2判定基準情報に基づいて判定する類似性判定部とを備える、請求項1に記載の文書管理装置。
  3. 前記登録対象ファイルと同一である同一文書ファイルが前記文書ファイル記憶部に存在すると前記同一性判定部が判定した場合には、前記登録処理部は登録対象ファイルの文書ファイル記憶部に記憶させない、請求項2に記載の文書管理装置。
  4. 類似文書ファイルが前記文書ファイル記憶部に存在すると前記類似性判定部が判定した前記登録対象ファイルに関して、前記類似文書ファイルの改版であるか否かを判定する改版確認部をさらに備える、請求項2に記載の文書管理装置。
  5. 前記改版確認部は、前記登録対象ファイルに前記類似文書ファイルの内容を可視透かしとして合成した合成文書ファイルの内容を表示し、改版確認指示入力を受信した場合に前記登録対象ファイルを前記類似文書ファイルの改版であると判断する、請求項4に記載の文書管理装置。
  6. 前記判定基準記憶部に格納される判定基準情報の入力を受け付ける判定基準受付部をさらに備える、請求項1に記載の文書管理装置。
  7. ユーザからの登録要求に応じて文書ファイルを文書ファイル記憶部に記憶させる文書管理装置における文書管理方法であって、
    前記文書ファイル記憶部への文書ファイルの記憶を要求する登録要求を受信する段階と、
    前記登録要求の対象となっている登録対象ファイルと前記文書ファイル記憶部に記憶されている文書ファイルとを判定基準情報に基づいて比較し、前記登録対象ファイルと同一である同一文書ファイルまたは類似する類似文書ファイルが前記文書ファイル記憶部に存在するか否かを判定する段階と、
    類似文書ファイルが存在すると判定した前記登録対象ファイルを前記類似文書ファイルとの関連情報とともに前記文書ファイル記憶部に記憶させる段階と、
    を含む文書管理方法。
  8. ユーザからの登録要求に応じて文書ファイルを文書ファイル記憶部に記憶させる文書管理装置における文書管理方法のプログラムであって、
    前記文書ファイル記憶部への文書ファイルの記憶を要求する登録要求を受信する段階と、
    前記登録要求の対象となっている登録対象ファイルと前記文書ファイル記憶部に記憶されている文書ファイルとを判定基準情報に基づいて比較し、前記登録対象ファイルと同一である同一文書ファイルまたは類似する類似文書ファイルが前記文書ファイル記憶部に存在するか否かを判定する段階と、
    類似文書ファイルが存在すると判定した前記登録対象ファイルを前記類似文書ファイルとの関連情報とともに前記文書ファイル記憶部に記憶させる段階と、
    を含む文書管理方法をコンピュータに実行させるためのプログラム。
JP2009103605A 2009-04-22 2009-04-22 文書管理装置、文書管理方法およびそのプログラム Withdrawn JP2010257019A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009103605A JP2010257019A (ja) 2009-04-22 2009-04-22 文書管理装置、文書管理方法およびそのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009103605A JP2010257019A (ja) 2009-04-22 2009-04-22 文書管理装置、文書管理方法およびそのプログラム

Publications (1)

Publication Number Publication Date
JP2010257019A true JP2010257019A (ja) 2010-11-11

Family

ID=43317895

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009103605A Withdrawn JP2010257019A (ja) 2009-04-22 2009-04-22 文書管理装置、文書管理方法およびそのプログラム

Country Status (1)

Country Link
JP (1) JP2010257019A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013069199A (ja) * 2011-09-26 2013-04-18 Nec Corp コンテンツ管理装置
JP2014517426A (ja) * 2011-06-17 2014-07-17 アリババ・グループ・ホールディング・リミテッド 反復データの処理

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014517426A (ja) * 2011-06-17 2014-07-17 アリババ・グループ・ホールディング・リミテッド 反復データの処理
JP2013069199A (ja) * 2011-09-26 2013-04-18 Nec Corp コンテンツ管理装置

Similar Documents

Publication Publication Date Title
RU2629448C2 (ru) Система и способ управления и организации кэша веб-браузера
US9916390B2 (en) Managing web browser cache for offline browsing
US9304979B2 (en) Authorized syndicated descriptions of linked web content displayed with links in user-generated content
AU2013210018B2 (en) Location independent files
US20100169326A1 (en) Method, apparatus and computer program product for providing analysis and visualization of content items association
EP2219107A1 (en) Printing management system, printing management method, and program
JP4670968B2 (ja) 情報管理プログラム及び情報管理システム
US9690796B2 (en) Non-transitory computer-readable media storing file management program, file management apparatus, and file management method
US9734178B2 (en) Searching entity-key associations using in-memory objects
US20120124068A1 (en) Document management apparatus and method for controlling same
US9886446B1 (en) Inverted index for text searching within deduplication backup system
JP2010282241A (ja) ファイル管理装置、ファイル管理システム、ファイル管理方法、および、プログラム
CN112559913B (zh) 一种数据处理方法、装置、计算设备及可读存储介质
US20100250631A1 (en) Information processor, electronic file managing device, electronic file managing system, and computer readable medium
US9529855B2 (en) Systems and methods for point of interest data ingestion
JP2007183954A (ja) ログコンテントに基づく洗練方法
US20130326324A1 (en) Document management server, document management method, and storage medium
JP2010257019A (ja) 文書管理装置、文書管理方法およびそのプログラム
US20120197909A1 (en) Method for determining a similarity of objects
JP3811615B2 (ja) 情報配信システム、装置及び方法並びに記録媒体
US20110307532A1 (en) File processing apparatus, file processing method, and computer program product
JP4469818B2 (ja) データ管理装置、データプログラム及びデータ管理方法
US20110138078A1 (en) Compressing photos for devices
US9465876B2 (en) Managing content available for content prediction
CN101840401A (zh) 词典辅助查询系统及其方法

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20120703