JP2007226769A - 情報管理装置、情報管理方法、情報管理プログラム、記録媒体及び情報管理システム - Google Patents

情報管理装置、情報管理方法、情報管理プログラム、記録媒体及び情報管理システム Download PDF

Info

Publication number
JP2007226769A
JP2007226769A JP2006320792A JP2006320792A JP2007226769A JP 2007226769 A JP2007226769 A JP 2007226769A JP 2006320792 A JP2006320792 A JP 2006320792A JP 2006320792 A JP2006320792 A JP 2006320792A JP 2007226769 A JP2007226769 A JP 2007226769A
Authority
JP
Japan
Prior art keywords
information
page
area
document
region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006320792A
Other languages
English (en)
Other versions
JP4977452B2 (ja
Inventor
Masajiro Iwasaki
雅二郎 岩崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2006320792A priority Critical patent/JP4977452B2/ja
Priority to US11/656,996 priority patent/US20070171482A1/en
Publication of JP2007226769A publication Critical patent/JP2007226769A/ja
Priority to US12/604,063 priority patent/US20100067052A1/en
Application granted granted Critical
Publication of JP4977452B2 publication Critical patent/JP4977452B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/387Composing, repositioning or otherwise geometrically modifying originals
    • H04N1/3871Composing, repositioning or otherwise geometrically modifying originals the composed originals being of different kinds, e.g. low- and high-resolution originals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)
  • Processing Or Creating Images (AREA)

Abstract

【課題】文書データの各ページに含まれた領域を、当該領域のデータの種別によらず検索可能な形式で管理する。
【解決手段】文書データの各ページに含まれる領域のメタ情報と、該文書画像を示す文書画像ID及び該ページを示すページIDと、を対応付けた領域管理テーブルを記憶する記憶部と、文書画像の各ページの領域毎に異なるデータの種別の違いに基づいて、文書データの各ページを領域毎に抽出する領域抽出部と、抽出された領域に対応するページIDと文書IDとを、文書データと当該文書データの該当するページに基づいて抽出する関係抽出部と、抽出された領域のメタ情報と、抽出されたページID及び文書IDと、を対応付けて領域管理テーブルに登録する登録部と、を備える。
【選択図】 図1

Description

本発明は、情報管理装置、情報管理方法、情報管理プログラム、記録媒体及び情報管理システムに関するものであり、複数の文書情報を管理する技術に関するものである。
近年、コンピュータ関連技術の向上、ネットワーク環境が整備によって文書の電子化が進んでいる。これによりオフィスのペーパレス化が促進されている。
具体的には、利用者は、各種書類や文書等をPC(Personal Computer)上で電子文書として作成する。そして、作成された電子文書は、PC又はサーバ上で編集、コピー、転送、共有などが行われる。この際、文書が保存されているPC又はサーバが、ネットワークにより他のPCと接続されている場合、接続されたPCからも電子文書の閲覧、編集等を行うことができる。
このようなオフィス環境においては、複数人が複数のPCで電子文書を作成するため、それぞれの電子文書を共通して管理するのが難しい。これにより利用者の間で混乱を招くこともある。例えば、利用者が必要な電子文書がどのPCでどのように保存されているのかわからないので、検索できない等が考えられる。そこで現在では、いくつかの文書管理システムが提案されている。
例えば、特許文献1では、スキャナ文書、FAX文書、アプリケーションで作成された電子文書、WWW文書などを、文書毎にオリジナルのデータとテキストファイルとページ毎のサムネイル等とを対応付けて保持している。これにより、電子文書毎のフォーマットの違いによらず一括して管理することができる。
また、近年、コンピュータ関連技術の向上により、電子文書が保持する情報は文書のみ成らず、画像、動画等の各種データの添付等を行うことが可能になった。
特開平11−120202号公報
しかしながら特許文献1に記載された発明は、元のファイルと対応付けられているのはテキストとページ毎のサムネイルであり、電子文書に画像などのテキスト以外のデータが付加されている場合、当該データを電子文書と対応付けて管理することができない。このため、利用者が当該データ等を検索できないという問題がある。
本発明は、上記に鑑みてなされたものであって、文書データに含まれた画像などの領域を、当該領域のデータの種別によらず検索可能な形式で管理できる情報管理装置、情報管理方法、情報管理プログラム、記録媒体及び情報管理システムを提供することを目的とする。
上述した課題を解決し、目的を達成するために、請求項1にかかる発明は、文書情報の各ページを構成する領域に含まれる領域情報と、該文書情報及び該ページと該領域情報との関係が示された関係情報と、を対応付けた領域対応情報を記憶する記憶手段と、文書情報のページから、当該ページに配置された種別が異なる領域毎に領域情報を抽出する領域抽出手段と、前記領域抽出手段により抽出された前記領域情報と、当該領域情報の抽出元である前記文書情報のページと、の関係が示された関係情報を、前記文書情報の前記ページから抽出する関係抽出手段と、前記領域抽出手段により抽出された前記領域情報と、前記関係抽出手段により抽出された前記関係情報と、を対応付けて前記領域対応情報に登録する登録手段と、を備えたことを特徴とする。
また、請求項2にかかる発明は、請求項1にかかる発明において、前記領域抽出手段により抽出された前記領域情報から、前記領域情報の特徴を示した特徴情報を抽出する特徴抽出手段と、をさらに備え、前記記憶手段は、前記領域対応情報として、さらに前記特徴情報を、前記領域情報と、前記関係情報とを対応付けて記憶し、前記登録手段は、前記領域抽出手段により抽出された領域情報と、前記関係抽出手段により抽出された前記関係情報と、前記特徴抽出手段により抽出された前記特徴情報とを対応付けて、前記領域対応情報に登録すること、を特徴とする。
また、請求項3にかかる発明は、請求項2にかかる発明において、前記記憶手段に記憶された前記領域対応情報から、前記領域情報を検索する検索手段と、をさらに備えたことを特徴とする。
また、請求項4にかかる発明は、請求項2にかかる発明において、前記記憶手段に記憶された前記領域対応情報において、検索元となる前記領域情報と対応付けられた前記特徴情報と、前記領域対応情報で保持されている特徴情報とを比較して所定の条件を満足した場合に、前記保持されている特徴情報と対応付けられた領域情報を検出する類似情報検索手段と、をさらに備えたことを特徴とする。
また、請求項5にかかる発明は、請求項1乃至4のいずれか一つにかかる発明において、前記記憶手段は、前記関係情報として前記領域情報の前記ページ内の位置情報を記憶し、前記関係抽出手段は、前記文書情報の抽出元のページを構成する領域における、前記領域情報の位置情報を抽出し、前記記憶手段に記憶された前記領域情報を、前記領域情報に対応付けられた前記位置情報に従って配置したページ情報を生成するページ情報生成手段をさらに備えたことを特徴とする。
また、請求項6にかかる発明は、請求項5にかかる発明において、前記記憶手段は、前記領域対応情報において、前記領域情報に含まれる文字情報の配置を特定する文字配置情報を、前記領域情報及び前記関係情報と対応付けて記憶し、前記関係抽出手段は、前記文書情報の抽出元のページに含まれている前記領域情報の種別が文字情報の場合に、該文字情報の配置を特定する文字配置情報を、前記関係情報に含まれる情報として抽出し、前記ページ情報生成手段は、前記記憶手段に記憶された前記領域情報が文字情報の場合に、前記領域情報に対応付けられた前記文字配置情報に従って文字を配置すること、を特徴とする。
また、請求項7にかかる発明は、請求項6にかかる発明において、前記記憶手段は、前記文字配置情報として、フォント名、フォントサイズ及び行方向のいずれか一つ以上を記憶することを特徴とする。
また、請求項8にかかる発明は、請求項1乃至4のいずれか一つにかかる発明において、前記領域抽出手段は、前記領域情報として、当該領域を表示する画像情報を抽出すること、を特徴とする。
また、請求項9にかかる発明は、請求項8にかかる発明において、前記領域抽出手段により抽出された前記画像情報から、前記画像情報により表示される画像に含まれる文字を示す文字情報抽出手段と、をさらに備え、前記記憶手段は、前記領域対応情報として、さらに前記文字情報とを対応付けて記憶し、前記登録手段は、前記領域対応情報に対して、さらに前記文字情報抽出手段により抽出された前記文字情報とを対応付けて登録すること、を特徴とする。
また、請求項10にかかる発明は、請求項9にかかる発明において、前記記憶手段は、前記関係情報として前記画像情報の前記ページ内の位置情報を記憶し、前記関係抽出手段は、前記文書情報の抽出元のページを構成する領域に含まれている前記画像情報の位置情報を抽出し、前記記憶手段に記憶された前記画像情報を、前記画像情報に対応付けられた前記位置情報に従って配置したページ情報を生成すると共に、当該ページ情報の前記文字情報を抽出した前記画像情報の領域に対して、当該文字情報を含めるページ情報生成手段と、をさらに備えることを特徴とする。
また、請求項11にかかる発明は、請求項9又は10にかかる発明において、前記検索手段は、前記画像情報を検索する時に、利用者により入力された文字列をキーとし、前記領域対応情報に対応付けて前記登録手段により登録された前記文字情報に対して検索を行い、該検索で一致した前記文字情報に対応付けられた前記画像情報を検出すること、を特徴とする。
また、請求項12にかかる発明は、請求項1乃至11のいずれか一つにかかる発明において、前記記憶手段は、さらに文書情報のページを示すページ情報と、該文書情報とを対応付けたページ対応情報を記憶し、前記領域対応情報において前記領域情報と対応付けられた前記関係情報として前記ページ情報を含み、前記登録手段は、さらに前記文書情報のページを示すページ情報と、前記文書情報とを対応付けて前記記憶手段に記憶された前記ページ対応情報に登録し、且つ前記領域情報と前記関係情報と該ページ情報とを前記領域対応情報に対応付けて登録し、前記領域情報と、前記記憶手段に記憶された前記領域対応情報において前記領域情報と対応付けられた前記関係情報により特定される前記文書情報及び前記ページ情報のうちいずれか一つ以上と、を出力する出力処理手段と、をさらに備えたことを特徴とする。
また、請求項13にかかる発明は、請求項12にかかる発明において、前記領域情報と、前記記憶手段に記憶された前記領域対応情報において前記領域情報と対応付けられた前記関係情報により特定される前記文書情報及び前記ページ情報と、から構成される木構造を生成する木構造生成手段と、をさらに備え、前記出力処理手段は、前記木構造生成手段により生成された前記木構造で前記文書情報と、前記ページ情報と、前記領域情報と、を出力すること、を特徴とする。
また、請求項14にかかる発明は、請求項13にかかる発明において、前記出力処理手段は、複数の文書情報を出力する際、前記文書情報が生成又は更新が行われた時間系列順に、前記木構造を構成している前記文書情報と、前記ページ情報と、前記領域情報と、を出力処理すること、を特徴とする。
また、請求項15にかかる発明は、文書情報のページから、当該ページに配置された種別が異なる領域毎に領域情報を抽出する領域抽出ステップと、前記領域抽出ステップにより抽出された前記領域情報と、当該領域情報の抽出元である前記文書情報のページと、の関係が示された関係情報を、前記文書情報の前記ページから抽出する関係抽出ステップと、前記領域抽出ステップにより抽出された前記領域情報と、前記関係抽出ステップにより抽出された前記関係情報と、を対応付けて、記憶手段に記憶された領域対応情報として録する登録ステップと、を有することを特徴とする。
また、請求項16にかかる発明は、請求項15にかかる発明において、前記領域抽出ステップにより抽出された前記領域情報から、前記領域情報の特徴を示した特徴情報を抽出する特徴抽出ステップと、をさらに有し、前記登録ステップは、前記領域抽出ステップにより抽出された領域情報と、前記関係抽出ステップにより抽出された前記関係情報と、前記特徴抽出ステップにより抽出された前記特徴情報とを対応付けて、前記領域対応情報として登録すること、を特徴とする。
また、請求項17にかかる発明は、請求項16にかかる発明において、前記記憶手段に記憶された前記領域対応情報から、前記領域情報を検索する検索ステップと、をさらに備えたことを特徴とする。
また、請求項18にかかる発明は、請求項16にかかる発明において、前記記憶手段に記憶された前記領域対応情報において、検索元となる前記領域情報と対応付けられた前記特徴情報と、前記領域対応情報で保持されている特徴情報とを比較して所定の条件を満足した場合に、前記保持されている特徴情報と対応付けられた領域情報を検出する類似情報検索ステップと、をさらに備えたことを特徴とする。
また、請求項19にかかる発明は、請求項15乃至18のいずれか一つにかかる発明において、前記関係抽出ステップは、前記文書情報の抽出元のページを構成する領域における、前記領域情報の位置情報を、前記関係情報に含まれる情報として抽出し、前記記憶手段に記憶された前記領域情報を、前記領域情報に対応付けられた前記関係情報に含まれる前記ページ内の位置情報に従って配置したページ情報を生成するページ情報生成ステップをさらに備えたことを特徴とする。
また、請求項20にかかる発明は、請求項19にかかる発明において、前記関係抽出ステップは、前記文書情報の抽出元のページに含まれている前記領域情報の種別が文字情報の場合に、該文字情報の配置を特定する文字配置情報を、前記関係情報に含まれる情報として抽出し、前記ページ情報生成ステップは、前記記憶手段に記憶された前記領域情報が文字情報の場合に、前記領域情報に対応付けられた前記文字配置情報に従って文字を配置すること、を特徴とする。
また、請求項21にかかる発明は、請求項20にかかる発明において、前記関係抽出ステップは、前記文字配置情報としてフォント名、フォントサイズ及び行方向のいずれか一つ以上を抽出することを特徴とする。
また、請求項22にかかる発明は、請求項15乃至18のいずれか一つにかかる発明において、前記領域抽出ステップは、前記領域情報として、当該領域を表示する画像情報を抽出すること、を特徴とする。
また、請求項23にかかる発明は、請求項22にかかる発明において、前記領域抽出ステップにより抽出された前記画像情報から、前記画像情報により表示される画像に含まれる文字を示す文字情報を抽出する文字情報抽出ステップと、をさらに有し、前記登録ステップは、前記領域対応情報に対して、さらに前記文字情報抽出ステップにより抽出された前記文字情報とを対応付けて登録すること、を特徴とする。
また、請求項24にかかる発明は、請求項23にかかる発明において、前記関係抽出ステップは、前記文書情報の抽出元のページを構成する領域に含まれている前記画像情報の当該ページ内の位置情報を、前記関係情報に含まれる情報として抽出し、前記記憶手段に記憶された前記画像情報を、前記画像情報に対応付けられた前記関係情報に含まれる前記ページ内の前記位置情報に従って配置したページ情報を生成すると共に、当該ページ情報の前記文字情報を抽出した前記画像情報の領域に対して、当該文字情報を含めるページ情報生成ステップをさらに有すること、を特徴とする。
また、請求項25にかかる発明は、請求項23にかかる発明において、前記検索ステップは、前記画像情報を検索する時に、利用者により入力された文字列をキーとし、前記領域対応情報に対応付けて前記登録ステップにより登録された前記文字情報に対して検索を行い、該検索で一致した前記文字情報に対応付けられた前記画像情報を検出すること、を特徴とする。
また、請求項26にかかる発明は、請求項15乃至25のいずれか一つにかかる発明において、前記記憶手段は、さらに文書情報のページを示すページ情報と、該文書情報とを対応付けたページ対応情報を記憶し、前記領域対応情報において前記領域情報と対応付けられた前記関係情報として前記ページ情報を含み、前記登録ステップは、さらに前記文書情報のページを示すページ情報と、前記文書情報とを対応付けてページ対応情報として前記記憶手段に登録し、且つ前記領域情報と前記関係情報と該ページ情報とを前記領域対応情報に対応付けて登録し、前記領域情報と、前記記憶手段に記憶された前記領域対応情報において前記領域情報と対応付けられた前記関係情報により特定される前記文書情報及び前記ページ情報のうちいずれか一つ以上と、を出力する出力処理ステップと、をさらに有することを特徴とする。
また、請求項27にかかる発明は、請求項26にかかる発明において、前記領域情報と、前記記憶手段に記憶された前記領域対応情報において前記領域情報と対応付けられた前記関係情報により特定される前記文書情報及び前記ページ情報と、から構成される木構造を生成する木構造生成ステップと、をさらに備え、前記出力処理ステップは、前記木構造生成ステップにより生成された前記木構造で前記文書情報と、前記ページ情報と、前記領域情報と、を出力すること、を特徴とする。
また、請求項28にかかる発明は、請求項27にかかる発明において、前記出力処理ステップは、複数の文書情報を出力する際、前記文書情報が生成又は更新が行われた時間系列順に、前記木構造を構成している前記文書情報と、前記ページ情報と、前記領域情報と、を出力処理すること、を特徴とする。
また、請求項29にかかる発明は、請求項15乃至28のいずれか一つに記載された情報管理方法をコンピュータに実行させることを特徴とする。
また、請求項30にかかる発明は、請求項29に記載の情報管理プログラムを格納したことを特徴とする。
また、請求項31にかかる発明は、利用者の要求に従って文書情報を処理する情報処理装置と、該情報処理装置で処理された該文書情報を管理する情報管理装置とを備えた情報管理システムであって、前記情報処理装置は、前記情報管理装置に文書情報を送信する送信手段を備え、前記情報管理装置は、文書情報の各ページを構成する領域に含まれる領域情報と、該文書情報及び該ページと該領域情報との関係が示された関係情報と、を対応付けた領域対応情報を記憶する記憶手段と、前記情報処理装置から文書情報を受信する受信手段と、前記受信手段により受信した文書情報のページから、当該ページに配置された種別が異なる領域毎に領域情報を抽出する領域抽出手段と、前記領域抽出手段により抽出された前記領域情報と、当該領域情報の抽出元である前記文書情報のページと、の関係が示された関係情報を、前記文書情報の前記ページから抽出する関係抽出手段と、前記領域抽出手段により抽出された前記領域情報と、前記関係抽出手段により抽出された前記関係情報と、を対応付けて前記領域対応情報に登録する登録手段と、を備えたことを特徴とする。
また、請求項32にかかる発明は、請求項31にかかる発明において、前記情報管理装置は、前記領域抽出手段により抽出された前記領域情報から、前記領域情報の特徴を示した特徴情報を抽出する特徴抽出手段と、をさらに備え、前記記憶手段は、前記領域対応情報として、さらに前記特徴情報を、前記領域情報と、前記関係情報とを対応付けて記憶し、前記登録手段は、前記領域抽出手段により抽出された領域情報と、前記関係抽出手段により抽出された前記関係情報と、前記特徴抽出手段により抽出された前記特徴情報とを対応付けて、前記領域対応情報に登録すること、を特徴とする。
また、請求項1にかかる発明によれば、文書情報について領域対応情報で領域情報と関係情報とを対応付けて登録することで、文書情報を構成する領域毎の領域情報に対して、当該領域情報の種別によらず検索可能な形式で管理できるという効果を奏する。
また、請求項2にかかる発明によれば、文書情報について領域対応情報で領域情報と関係情報とに、さらに領域の特徴を示した特徴情報を対応付けて保持することで、特徴情報を用いて類似する領域情報を検索できるという効果を奏する。
また、請求項3にかかる発明によれば、利用者が検索条件を設定して検索を行うことで情報管理装置に管理された領域情報を容易に取得できるという効果を奏する。
また、請求項4にかかる発明によれば、特徴情報の比較により検索元の領域情報に類似する領域情報を取得できるので、利用者が所望する領域情報を効率よく検出することができるという効果を奏する。
また、請求項5にかかる発明によれば、領域情報を組み合わせてページ情報を生成するため、ページを表示する情報を予め保持している必要がないので、記憶手段に格納する情報量を軽減できるという効果を奏する。
また、請求項6にかかる発明によれば、元のページと同じ位置に文字情報が配置されたページ情報を生成することができるという効果を奏する。
また、請求項7にかかる発明によれば、文字情報のフォント、フォントサイズ及び行方向のうち一つ以上が元のページと同様となるページ情報を生成することができるという効果を奏する。
また、請求項8にかかる発明によれば、領域毎に画像を抽出して管理するので、利用者が文書情報のページ上に配置された画像に対して検索可能な形式で管理できるという効果を奏する。
また、請求項9にかかる発明によれば、画像情報に抽出された文字情報を対応付けられたので、画像に含まれている文字を検索キーとして、画像情報を特定できるという効果を奏する。
また、請求項10にかかる発明によれば、ページ情報に文字情報を含めることで、利用者が当該ページ情報を参照する際に当該文字情報を表示可能となるので、参照時にページに記載された文字情報の把握が容易になるという効果を奏する。
また、請求項11にかかる発明によれば、文字列で画像情報を検出できるので、利用者が所望する画像情報を効率よく検出することができるという効果を奏する。
また、請求項12にかかる発明によれば、領域情報と対応付けられた前記文書情報及び前記ページ情報の少なくとも一つ以上を出力することで、利用者が領域情報を含む文書情報又はページを把握できるという効果を奏する。
また、請求項13にかかる発明によれば、木構造で領域情報とページ情報と文書情報とを出力することで、利用者は文書情報の構造を容易に把握できるという効果を奏する。
また、請求項14にかかる発明によれば、時系列に従って文書情報が出力されるので、複数の文書情報が出力された場合に利用者が文書情報を把握するのが容易になるという効果を奏する。
また、請求項15にかかる発明によれば、文書情報について領域対応情報で領域情報と関係情報とを対応付けて登録することで、文書情報を構成する領域毎の領域情報に対して、当該領域情報の種別によらず検索可能な形式で管理できるという効果を奏する。
また、請求項16にかかる発明によれば、文書情報について領域対応情報で領域情報と関係情報とに、さらに領域の特徴を示した特徴情報を対応付けて保持することで、特徴情報を用いて類似する領域情報を検索できるという効果を奏する。
また、請求項17にかかる発明によれば、利用者が検索条件を設定して検索を行うことで情報管理装置に管理された領域情報を容易に取得できるという効果を奏する。
また、請求項18にかかる発明によれば、特徴情報の比較により検索元の領域情報に類似する領域情報を取得できるので、利用者が所望する領域情報を効率よく検出することができるという効果を奏する。
また、請求項19にかかる発明によれば、領域情報を組み合わせてページ情報を生成するため、ページを表示する情報を予め保持している必要がないので、記憶手段に格納する情報量を軽減できるという効果を奏する。
また、請求項20にかかる発明によれば、元のページと同じ位置に文字情報が配置されたページ情報を生成することができるという効果を奏する。
また、請求項21にかかる発明によれば、文字情報のフォント、フォントサイズ及び行方向のうち一つ以上が元のページと同様となるページ情報を生成することができるという効果を奏する。
また、請求項22にかかる発明によれば、領域毎に画像を抽出して管理するので、利用者が文書情報のページ上に配置された画像に対して検索可能な形式で管理できるという効果を奏する。
また、請求項23にかかる発明によれば、画像情報に抽出された文字情報を対応付けられたので、画像に含まれている文字を検索キーとして、画像情報を特定できるという効果を奏する。
また、請求項24にかかる発明によれば、ページ情報に文字情報を含めることで、利用者が当該ページ情報を参照する際に当該文字情報を表示可能となるので、参照時にページに記載された文字情報の把握が容易になる。
また、請求項25にかかる発明によれば、文字列で画像情報を検出できるので、利用者が所望する画像情報を効率よく検出することができるという効果を奏する。
また、請求項26にかかる発明によれば、領域情報と対応付けられた前記文書情報及び前記ページ情報の少なくとも一つ以上を出力することで、利用者が領域情報を含む文書情報又はページを把握できるという効果を奏する。
また、請求項27にかかる発明によれば、木構造で領域情報とページ情報と文書情報とを出力することで、利用者は文書情報の構造を容易に把握できるという効果を奏する。
また、請求項28にかかる発明によれば、時系列に従って文書情報が出力されるので、複数の文書情報が出力された場合に利用者が文書情報を把握するのが容易になるという効果を奏する。
また、請求項29にかかる発明によれば、請求項15乃至28のいずれか1つに記載の情報管理方法をコンピュータに実行させることができる情報管理プログラムを提供できるという効果を奏する。
また、請求項30にかかる発明によれば、請求項29に記載の情報管理プログラムをコンピュータに読み取らせることができる記録媒体を提供できるという効果を奏する。
また、請求項31にかかる発明によれば、文書情報について領域対応情報で領域情報と関係情報とを対応付けて登録することで、文書情報を構成する領域毎の領域情報に対して、当該領域情報の種別によらず検索可能な形式で管理できるという効果を奏する。
また、請求項32にかかる発明によれば、文書情報について領域対応情報で領域情報と関係情報とに、さらに領域の特徴を示した特徴情報を対応付けて保持することで、特徴情報を用いて類似する領域情報を検索できるという効果を奏する。
以下に添付図面を参照して、この発明にかかる情報管理装置、情報管理方法、情報管理プログラム、記録媒体及び情報管理システムの最良な実施の形態を詳細に説明する。
(第1の実施の形態)
図1は、本発明の実施の形態にかかる文書管理システムの構成を示すブロック図である。本実施の形態にかかる文書管理システムでは、文書管理サーバ100とPC150とがネットワークを介して接続されている。このような構成により、文書管理サーバ100がPC150から送信された文書データの登録や、PC150が文書管理サーバ100に対して文書データの検索などを可能とする。なお、文書管理システムに用いられるネットワークは、無線若しくは有線、またLAN(Local Area Network)や公衆通信回線を問わず、どのようなネットワークでも良い。
また、本実施の形態の文書管理システムで管理される文書データは、文字等も画像として表された文書画像と、文書作成アプリケーションで作成された電子文書とを含むものとする。ただし、後述する処理においては、文書画像の場合について主に説明する。また、当該文書画像は、複数ページを保持できるマルチページ形式又はシングルページのどちらでも良い。
これら文書画像は、利用者が作成した文書画像の他、スキャナにより読み込まれたスキャン文書や、FAXが受信したFAX文書等がある。また、文書管理サーバ100が管理する文書画像は、どのようなフォーマットでもよい。また、マルチページ形式で保持可能なフォーマットの例としては、TIFF等がある。また、電子文書としては、HTMLで作成されたWWW文書等も含まれる。
図1に示すPC150は、通信処理部151と、表示処理部152と、操作処理部153と、を備えている。
通信処理部151は、ネットワークを介して接続されている文書管理サーバ100等の他の装置との間でデータの送受信等の処理を行う。
表示処理部152は、図示しないモニタに対して、例えば文書データを表示する処理を行う。また、表示処理部152は、文書データの検索する画面及び検索結果画面を表示処理する。これらの画面を表示するために、表示処理部152は、Webブラウザを用いる。なお、これらの画面は、通信処理部151が文書管理サーバ100と通信を行うことで、取得することができる。
操作処理部153は、利用者から入力された操作を処理する。これにより、Webブラウザ上に表示された検索画面に対して検索条件を設定することができる。
文書管理サーバ100は、記憶部101と、通信処理部102と、検索部103と、類似情報検索部104と、検索結果生成部105と、領域抽出部106と、関係抽出部107と、領域特徴抽出部108と、ページ特徴抽出部109と、登録部110とを備え、文書データの登録、管理、検索等を行うことを可能とする。
また、文書管理サーバ100は、管理する対象となる文書データの各ページに対して領域の抽出処理を行い、文書画像とページと抽出された領域とを対応付けて記憶する。また、文書管理サーバ100は、PC150等からの要求により文書に含まれている領域又はページの検索を行い、検索結果をPC150等に送信する。
記憶部101は、文書メタデータベース121と、データ格納部122とを備えている。また、記憶部101は、HDD(Hard Disk Drive)、光ディスク、メモリカード、RAM(Random Access Memory)などの一般的に利用されているあらゆる記憶手段により構成することができる。
文書メタデータベース121は、文書管理テーブルと、ページ管理テーブルと、領域管理テーブルとを有している。
図2は、文書管理テーブルのテーブル構造を示した図である。本図に示すように、文書管理テーブルは、文書IDと、タイトルと、作成更新日と、ページ数と、ファイルフォーマットと、ファイルパスと、ファイル名とを対応付けて保持する。また、本実施の形態では、これらの情報を、属性等を示した文書のメタ情報という。
文書IDは、文書データ毎に付与されたユニークなIDであり、これにより文書データを特定できる。タイトルは文書データのタイトルである。作成更新日は、文書データの作成日又は最終更新日を保持する。ページ数は文書データのページ数を保持している。ファイルフォーマットは、文書データ毎のフォーマットを保持している。これにより、管理している文書が、スキャナ文書、FAX文書、アプリケーションで作成された電子文書、又はWWW文書等のうちいずれかのフォーマットであるか特定することができる。
ファイルパスは、文書データが格納された場所を示している。そして、ファイル名は、文書データのファイル名を示している。
図3は、ページ管理テーブルのテーブル構造を示した図である。本図に示すように、ページ管理テーブルは、ページIDと、文書IDと、ページ番号と、特徴量と、テキスト特徴量と、サムネイルパスとを対応付けて保持している。また、本実施の形態では、これらの情報を、ページのメタ情報という。
ページIDは、文書データを構成するページ毎に付与されたユニークなIDであり、このIDにより当該文書管理サーバ100が管理している文書データのページを一意に特定できる。文書IDは、当該ページを含んでいる文書データを特定するIDとする。ページ番号は、当該ページを含んでいる文書データ中における、当該ページのページ番号とする。特徴量は、当該ページの全体の画像として捉え、当該画像から抽出された特徴を示すものである。
そして、テキスト特徴量は、当該ページに含まれるテキスト情報から抽出された特徴とし、例えばテキスト情報中のキーワードや頻出回数等を保持する。また、文書データが文書画像の場合、OCRを用いることで当該ページの文書画像から抽出されたテキスト情報に対して、テキスト特徴量の抽出を行う。サムネイルパスは、画面全体を表したサムネイルが格納されている場所を保持する。
図4は、領域管理テーブルのテーブル構造を示した図である。本図に示すように、領域管理テーブルは、領域IDと、文書IDと、ページIDと、領域座標と、種別と、タイトルと、テキストと、周囲テキストと、特徴量と、サムネイルパスとを対応付けて保持している。また、本実施の形態では、これらの情報を、領域のメタ情報という。
領域IDは、文書データから抽出された領域毎に付与されたユニークなIDであり、このIDにより当該文書管理サーバ100が管理している文書データに含まれている領域を特定できる。文書IDとページIDは、当該領域を含んでいる文書データ及びページを特定するIDとする。領域座標は、当該領域を特定する座標を保持し、本実施の形態では左上の頂点座標と右下の頂点座標を保持することで当該領域を特定する。
種別は、当該領域のデータの種別を特定する情報を保持する。データの種別としては、例えばテキスト、画像、動画等とする。また、本実施の形態では、画像をさらに図、表又は写真に分類する。なお、本実施の形態は、データの種別をこのような種別に制限するものではなく、さらに他の種別を用いて分類しても良い。タイトルは、当該領域を示すタイトルを保持する。テキストは当該領域に含まれていたテキスト情報を保持する。
周囲テキストは、例えばデータの種別が画像の場合に、当該画像の周囲に配置されていたテキスト情報を保持する。これにより、利用者は、検索画面からテキストで検索条件を設定して、関連のある画像を検索することができる。
特徴量は、当該領域を特定する特徴量を保持する。また、特徴量は、例えば種別が画像であれば画像の特徴量が格納され、種別がテキストであればテキスト特徴量が格納される。このように特徴量は種別に応じて異なる種類の特徴量を保持する。これにより、同じ種別の特徴量を比較することで、各領域が類似するか否か適切に判断することができる。なお、特徴量の抽出方法については後述する。サムネイルパスは、領域を表したサムネイルが格納されている場所を保持する。
データ格納部122は、文書データと、文書データから抽出された領域毎のデータと、各ページ又は領域を示したサムネイルを格納する。また、領域毎のデータとは、例えば文書データの各ページに含まれていた画像データや、動画データ、テキストデータ等とする。
通信処理部102は、PC150等のネットワークを介して接続されている装置との間でデータを送受信する処理を行う。また、通信処理部102が受信するデータとしては、例えばPC150等から登録される文書データ等や文書データを検索する際の検索条件等がある。また、送信するデータとしては、例えば管理している文書データや、検索画面や検索結果が示された画面のデータ等がある。
登録部110は、通信処理部102で受信した登録対象となる文書データの登録処理を行う。また、登録部110は、受信した文書データを、記憶部101のデータ格納部122に格納する。また、登録部110は、データ格納部122に格納した文書データのメタ情報を、文書メタデータベース121の文書管理テーブルに格納する。具体的には、登録部110は、文書データから、タイトル、作成更新日、ページ数を抽出する。そして、登録部110は、抽出したメタ情報と、文書データのファイル名と、当該ファイル名の拡張子で示されたファイルフォーマットと、さらに文書データの格納先のファイルパスと、を文書IDと対応付けて文書管理テーブルに登録する。また、文書IDは、登録する際に自動的に生成される。
また、登録部110は、文書データのみならずページ管理テーブル及び領域管理テーブルに対してデータの登録も行う。この各ページ及び各領域の登録は、後述する。
ページ特徴抽出部109は、PC150等から管理対象として受信した文書データの各ページから特徴量を抽出する。また、本実施の形態にかかるページ特徴抽出部109は、各ページを画像データとして捉え、当該画像データから画像としての特徴量を抽出する。なお、ページ特徴抽出部109は、抽出対象となる文書データが文書画像ではなく文書作成アプリケーションで作成された電子文書等の場合、画像データに変換した後に特徴量の抽出を行う。これにより、ページ特徴抽出部109は、文書データのフォーマットによらず、各文書データから特徴量を抽出することができる。なお、画像データから特徴量を抽出する手法は、どのような手法を用いても良い。
図5は、文書管理サーバ100で管理対象となる文書データに含まれていたページ画像の例を示した説明図である。本図に示したページ画像は、2つの画像領域と画像毎に対応する文書コラムからなる。そして、ページ特徴抽出部109は、ページ全体505を示したページ画像から特徴量を抽出する。
また、ページ特徴抽出部109は、各ページから画像としての特徴量を抽出するほかに、ページ番号やテキスト特徴量も抽出する。また、ページ特徴抽出部109は、文書データが文書画像の場合、当該文書画像に含まれるページ画像に対してOCR(Optical Character Reader)等を用いて、テキスト情報を抽出する。そして、ページ特徴抽出部109は、当該抽出されたテキスト情報から、テキスト特徴量を抽出する。
また、本実施の形態にかかるテキスト特徴量は、当該ページに含まれているテキストから特徴量として生成されたベクトル(配列)データとする。つまり、ページ特徴抽出部109は、当該ページに含まれているテキストデータに対して形態素解析をして単語を抽出する。そして、ページ特徴抽出部109は、抽出した単語に対して重み付けを算出することで、どのキーワードがどのくらい重要であるというかというベクトルデータを生成する。
また、抽出した単語に対して重み付けを行う方法としては、どのような方法を用いても良いが、本実施の形態においてはtf―idf法により重み付けの算出を行う。tf−idf法は、単語が当該ページに何回出現したか(出現回数が多いほど重要と判断)及び管理している全文書データのうち何ページでその単語が出現したか(出現回数が少ないほど重要と判断)に基づいて、単語の重み付けを算出する方法である。
次に示す式(1)がtf―idf法による重み付けの算出式である。
wi,j=tfi,j×log(N/dfi) ……(1)
wi,jは、文書データのページDiの単語の重み付みを示し、tfi,jは、ページDiにおける当該単語の頻度を示し、dfiは当該単語が出現する全文書データ中のページの数を示し、Nが管理している文書データに含まれる総ページ数を示している。このようにして、ページ特徴抽出部109は、ページ毎に、単語と単語の重み付けの配列によるテキスト特徴量を抽出することができる。
また、ページ特徴抽出部109は、当該画面を表したサムネイルを生成する。そして、生成されたサムネイルは、データ格納部122に格納される。
そして、ページ特徴抽出部109により抽出されたメタ情報は、登録部110によりページ管理テーブルに登録される。つまり、登録部110は、ページ特徴抽出部109により抽出されたページ番号と、特徴量と、テキスト特徴量と、サムネイルの格納先(サムネイルパス)とに、ページIDと文書IDとを対応付けて、ページ管理テーブルに登録する。文書IDは、当該ページが含まれている文書データを文書管理テーブルに登録した際に生成されたIDである。また、ページIDは、ページ管理テーブルに登録する際に自動的に生成される。
領域抽出部106は、PC150から送信されてきた文書データの各ページから、当該ページ上に配置された領域毎に、領域を示すデータを抽出する。例えば、領域抽出部106は、ページ内に画像領域であれば、当該画像領域を画像データとして抽出する。また、領域抽出部106は、ページ内にテキスト領域があれば、当該テキスト領域をテキストデータとして抽出する。このテキストデータを抽出する手法はどのような手法を用いても良いが、例えばOCRを用いる等が考えられる。また、他の領域についても同様の処理により抽出される。また、領域抽出部106は、テキスト領域で抽出する際、テキスト領域に含まれるコラム毎に抽出しても良い。
図5で示した例では、領域抽出部106は、当該ページに含まれている画像領域501及び画像領域502を当該ページから抽出する。さらには、領域抽出部106は、テキスト領域503及びテキスト領域504についても抽出する。なお、このテキスト領域503及びテキスト領域504のフォーマットは、テキストでもよいし、文書の構成を保持するために画像データとして抽出しても良い。
また、領域抽出部106が、種別毎に領域を抽出する方法としては、どのような方法を用いても良い。例えば、対象がスキャナなどで原稿をスキャンされた文書画像の場合、領域抽出部106は、画像のエッジ検出等を行い、テキスト領域又は画像領域の範囲を特定し、当該領域毎に抽出を行う。この際に、領域抽出部106は、領域毎の種別を特定する。
関係抽出部107は、領域抽出部106により抽出された領域毎のデータと、当該データを含んでいた文書データと当該文書データのページとの関係を抽出する。本実施の形態に係る関係抽出部107は、各領域のページ上の座標領域と、当該領域毎のデータを含むページを示したページIDと、当該ページを含んだ文書IDと、を抽出する。これにより、抽出された領域毎のデータは、どの文書のどのページのどの位置に存在したのか特定することができる。換言すれば文書データに含まれているページと領域とから成るツリー構造を生成するために必要な情報が抽出されたことになる。
領域特徴抽出部108は、領域抽出部106により抽出された各領域から特徴量を抽出する。また、領域特徴抽出部108は、当該領域の種別毎に異なる特徴量を抽出する。例えば、抽出する対象となる領域が画像領域の場合、領域特徴抽出部108は、画像データの特徴量を抽出する。また、抽出する対象となる領域が文書領域の場合、領域特徴抽出部108は、領域に含まれるテキスト情報からテキスト特徴量を抽出する。また、領域のデータが動画データや音声データの場合もそれぞれのフォーマットに適した特徴量を抽出する。これにより、各領域の種別に応じた特徴量が領域管理テーブルに登録される。
また、文書データが文書画像の場合、領域特徴抽出部108は、テキスト領域から特徴量を抽出する際、OCR等を用いて領域内のテキストデータを取得する。その後に、領域特徴抽出部108は、取得したテキストデータから特徴量を抽出する。
また、領域特徴抽出部108は、抽出された領域毎にタイトルと、テキストとを可能であれば抽出する。また、領域特徴抽出部108は、抽出された領域の種別が画像の場合、周囲テキストを可能であれば抽出する。領域特徴抽出部108が行う当該領域のタイトル、テキスト及び周囲テキストの抽出方法としてはどのような手法を用いても良いが、本実施の形態では以下の手法を用いる。
まず、タイトルの抽出する例について説明する。領域特徴抽出部108は、当該領域が画像の場合、当該画像領域に含まれているテキストや、画像の周辺にあるテキスト領域に含まれている文字列をタイトルとして取得する。
図5で示した例では、領域特徴抽出部108は、画像領域502に対応するタイトルとして、画像領域502の下領域にある「秋」をタイトルとして抽出する。仮に「秋」という文字列が下部領域にない場合、領域特徴抽出部108は、画像から抽出した「紅葉の季節」をタイトルとして抽出する。さらにこの「紅葉の季節」という文字列が画像領域502に含まれていなかった場合、画像領域502に対応するテキスト領域504から適切な文字列を抽出する。なお、画像に対応するテキスト領域の判定手法は、どのような手法を用いても良い。
また、領域特徴抽出部108は、当該領域がテキストの場合、重み付け等を考慮して適切な文字列をタイトルとして抽出する。
次に、領域特徴抽出部108が、テキストを抽出する場合について説明する。当該領域が画像データの場合、領域特徴抽出部108は、当該領域に対してOCRにより文字情報を抽出する処理を行う。そして、領域特徴抽出部108は、この抽出された文字情報を、当該領域のテキストとする。なお、当該領域が文書データの場合、当該領域に含まれていた文書が、当該領域のテキストとなることは言うまでもない。
図5で示した例では、領域特徴抽出部108は、画像領域501のタイトルとして「冬の山」を抽出する。また、領域特徴抽出部108は、画像領域502のテキストとして「紅葉の季節」を抽出する。
次に、領域特徴抽出部108は、領域が画像の場合、周囲テキストを抽出する。これは、図5で示した例では、領域特徴抽出部108は、「秋」やテキスト領域504のテキストを、画像領域502の周囲テキストとして抽出する。
また、領域特徴抽出部108は、当該領域を表したサムネイルを生成する。そして、生成されたサムネイルは、データ格納部122に格納される。
その後に、登録部110が、関係抽出部107により抽出された関係と、領域抽出部106により特定された各領域の種別と、領域特徴抽出部108により抽出された特徴量等とを、領域管理テーブルに登録する。つまり、登録部110は、関係抽出部107により抽出された文書IDとページIDと領域座標と、領域抽出部106により特定された種別と、領域特徴抽出部108により抽出されたタイトル、テキスト、周囲テキスト、特徴量、サムネイルパスとを、領域IDと対応付けて領域管理テーブルに登録する。なお、領域IDは、領域管理テーブルに登録する際に自動的に生成される。
このように登録部110が領域管理テーブルに登録することで、文書管理サーバ100は、文書データに含まれた領域毎のデータの種別によらず検索可能な形式で管理できる。その際に、特徴量も登録するので、特徴量を用いた類似検索も可能となる。
また、登録部110により画像データから抽出されたテキスト等が登録された。これにより、後述する検索部103により文字列で画像データによる領域又はページを検索できるので、利用者が所望する画像データを効率よく検出できる。
検索部103は、PC150等の文書データの検索要求に基づいて、文書メタデータベース121の文書管理テーブル、ページ管理テーブル及び領域管理テーブルに対して検索処理を行う。次に、PC150に表示される検索画面と共に詳細に説明する。
図6が、PC150に表示される文書画像検索を行う画面例を示した説明図である。当該検索画面は、PC150で文書画像の検索を行いたい場合に表示される。そして、当該検索画面には、検索条件を設定する項目が表示される。また、検索対象601は、利用者が検索対象を‘文書’、‘ページ’、‘領域’のいずれか一つを選択する項目とする。本図では‘領域’が検索対象と設定されている状態とする。また、表示形式604は、表示形式を‘通常’、‘サムネイル’、‘ツリー’かのいずれか一つを選択する項目とする。本図では‘通常’形式が設定されている状態とする。PC150の操作処理部153は、利用者の入力により各項目に対して検索条件を設定する。そして、操作処理部153が、利用者からの検索ボタン602の押下を受け付けた場合、PC150の通信処理部151が、文書管理サーバ100に対して設定された検索条件を送信する。本図では、検索条件として、テキスト603に‘特徴’を入力した例とする。
そして、文書管理サーバ100の通信処理部102がPC150からの検索条件の受信処理を終了した後、検索部103が、受信した検索条件で該当するテーブルに対して検索処理を行う。具体的には、図6で示した検索対象601で‘文書’が選択された場合は、検索部103は、文書管理テーブルに対して検索を行う。また、‘ページ’が選択された場合は、ページ管理テーブルに対して検索を行う。また、‘領域’が選択された場合は、領域管理テーブルに対して検索を行う。また、検索部103は、受信した検索条件を検索キーとして検索する。これにより、検索部103は、利用者が所望する文書画像、又は文書画像に含まれているページ若しくは領域を取得することができる。これによりPC150等から利用者からの要求に応じて領域又はページの情報を効率よく検出できる。
検索結果生成部105は、ツリー構造生成部111を有し、検索部103で行われた検索結果及び後述する類似情報検索部104で行われた検索結果を示したHTMLファイルを生成する。また、検索結果生成部105は、ページ又は領域の詳細情報が示されたHTMLファイルを生成する。そして、生成されたHTMLファイルは、通信処理部102により検索要求を行ったPC150に送信される。そして、PC150の通信処理部151が当該HTMLファイルを受信した場合、表示処理部152が当該HTMLファイルを表示する処理を行う。なお、ツリー構造生成部111の処理については後述する。
図7は、当該HTMLファイルがPC150に表示された画面例を示した説明図である。当該検索結果画面は、図6で示した検索画面で検索対象が「領域」でテキストに「特徴」が設定された場合の検索結果の例とする。そして、表示形式は「通常」の場合とする。また、検索結果として表示する項目は、どの項目でも良いが、本実施の形態においては領域IDと、領域名(タイトル)と、種別と、テキストが表示される例とする。本図で示した検索結果画面が表示された際、利用者が領域名をクリックすることで、当該領域の詳細情報を示した画面が表示される。なお、この画面については後述する。また、ボタン701を押下すると同様の条件で検索した結果を、PC150の表示処理部152が各領域をサムネイルで表示する。つまり、容易に表示形式の変更を可能としている。
図8は、図7の画面例でボタン701が押下された場合又は図6の表示形式で「サムネイル」の選択をした場合の、各領域がサムネイル表示された画面例を示した説明図である。当該検索結果画面においては、領域毎に「検索」ボタンと「参照」ボタンが表示される。そして、利用者が「検索」ボタンを押下すると、類似する領域の検索が行われる。また、「参照」ボタンを押下すると、当該領域の詳細な情報が表示される。なお、利用者がボタン803を押下した場合は、図7で示した画面が再表示される。このように図8で示した画面では、サムネイルが表示されることで、利用者は領域毎の内容を容易に把握することができる。
次に、図7で示した画面例から図8で示した画面例が表示されるまでの処理について説明する。図7で示した画面からボタン701が押下された場合、再度PC150の通信処理部151が、文書管理サーバ100に対して検索条件及びサムネイルを表示する旨のフラグを送信する。そして、これらの情報を受信した後、文書管理サーバ100の検索部103が再度、受信した検索条件で検索を行う。当該検索と上述した検索との違いは、サムネイルを表示する旨のフラグに基づいて、領域管理テーブルに対して検索を行う際に「サムネイルパス」のフィールド情報を取得する点にある。そして、検索結果生成部105が、検索結果に基づいてHTMLファイルを生成するが、その際に当該サムネイルパスから生成されたサムネイルが存在するURLを領域毎に記載する。そして、生成されたHTMLファイルは、PC150に送信される。これにより、PC150は、領域毎にサムネイルが示された検索結果を表示することができる。
図9は、図8の画面例で参照ボタンが押下された場合に、押下された領域の詳細説明が表示された画面例を示した説明図である。当該詳細説明画面では、文書管理サーバ100の領域管理テーブルが保持している当該領域のメタ情報を表示する。これにより、利用者は、当該領域を把握することができる。
次に、図8で示した画面例から図9で示した画面例を表示するまでの処理について説明する。図8で示した画面から「参照」ボタンが押下された場合、PC150の通信処理部151が、当該「参照」ボタンが押下された領域の領域IDと詳細表示する旨の情報を、文書管理サーバ100に対して送信する。そして、文書管理サーバ100がこれらの情報を受信した後、文書管理サーバ100の検索部103が、領域管理テーブルに対して受信した領域IDをキーに検索を行う。そして、検索部103は、検索条件に一致するレコードにおける表示に必要なフィールド情報を全て取得する。そして、検索結果生成部105は、取得した情報に基づいて詳細情報が記載されたHTMLファイルを生成する。そして、PC150が、生成されたHTMLファイルを再度受信することで、領域の詳細情報を表示することができる。
また、図9で示したような領域の詳細表示画面で、当該領域のメタ情報のみならず、当該領域を含む文書画像又はページのメタ情報を表示しても良い。これは、領域管理テーブルが領域とページと文書画像の対応関係を保持しているので実現できる。
また、利用者が図9で示した画面の実行ボタン901を押下した場合に、当該領域を含むページのサムネイル及び当該ページのメタ情報を含む画面が表示される。これは、文書管理サーバ100の領域管理テーブルで領域IDとページIDの対応付けを保持しているために実現できる。つまり、検索部103が当該領域の当該ページIDを取得した後、当該ページIDをキーにページ管理テーブルに対して検索を行うことで、表示するために必要な情報を取得できるためである。
また、利用者が図9で示した画面の「オリジナルを開く」ボタン902を押下した場合に、当該領域を含む文書データが表示される。これは、文書管理サーバ100の領域管理テーブルで領域IDと文書IDの対応付けを保持しているために実現できる。つまり、検索部103が当該領域の当該文書IDを取得した後、当該文書IDをキーに文書管理テーブルに対して検索を行うことで、当該文書の格納先のパスを取得できるためである。
また、検索ボタン903を押下することで、当該領域に類似する領域の検索を行うことができる。この際に、類似する領域を時系列で表示することもできる。なお、詳細については後述する。
図1に戻り、類似情報検索部104は、PC150に表示された領域に類似する領域の検索を行う。また、類似情報検索部104は、同様に類似するページの検索も行う。領域又はページの検索方法としては、どのような方法を用いても良いが、本実施の形態では領域管理テーブルが保持する特徴量又はページ管理テーブルが保持する特徴量を用いて検索を行う。なお、類似画像検索の詳細な処理手順については後述する。
そして、類似情報検索部104の行った検索結果に基づいて、検索結果生成部105がHTMLファイルを生成する。この生成されたHTMLファイルは、通信処理部102によりPC150に送信される。これにより、類似画像検索結果をPC150に表示することができる。
図10は、図8で示した画面例において検索ボタン801を押下した場合に表示される類似領域の検索結果の画面例を示した説明図である。本図に示すように検索元となる領域をWebブラウザの上部に表示し、類似すると判断された領域をWebブラウザの下部に表示する。上部で類似画像の重み付けや表示形式を変更することができる。表示形式としては、‘サムネイル’又は‘ツリー’から選択できるものとする。なお、本図においては表示形式を‘サムネイル’とした場合とする。
図11は、類似ページの検索結果の表示形式として‘ツリー’を選択した場合の画面例を示した説明図である。本図で示した例では、類似ページを検索した場合とする。本図で示した最上段に存在する文書画像が検索元のページを含んだものである。そして、矩形1102内に検索元のページと最も類似度が高いページを含んだ文書画像が示されている。そして、下方になるにつれて類似度が低くなるように表示されている。
また、当該HTMLファイルに含まれるツリー構造は、ツリー構造生成部111が生成する。つまり、類似情報検索部104が類似するページの検索結果を取得した後、ツリー構造生成部111は、取得した類似ページのメタ情報に含まれた文書ID、ページIDをキーにして、文書管理テーブル及び領域管理テーブルに対して検索することで、類似ページを含む文書画像及び当該類似ページに含まれた領域のメタ情報を取得する。そして、類似情報検索部104は、取得した文書画像、類似ページ及び領域を対応付けてツリー構造を生成する。なお、ツリー構造で示されたページ及び領域のサムネイルは、メタ情報で保持しているサムネイルパスにより表示できる。これにより利用者が文書データをツリー構造により容易に把握できる。
そして、検索結果生成部105は、生成されたツリー構造に基づいてHTMLファイルを生成する。これにより、PC150は、類似ページの検索結果がツリー構造で表示される。なお、図11では類似ページの検索結果について説明したが、類似領域についても同様の処理により実現できる。また、利用者が図11で示したボタン1103を押下した場合、各ページに含まれている領域をさらに多く表示することができる。
図12は、図11で示したボタン1103が押下された場合の画面例を示した説明図である。本図で示した画面では、3個の領域が表示されることとなった。このような画面を表示するためには、文書管理サーバ100で再度検索を行う等、どのような方法を用いても良い。また、ボタン1201を押下することで再び図11で示した画面例が表示される。
また、検索結果生成部105は、類似情報検索部104の検索結果に基づいて、画像データが生成又は更新された時系列で記載されたHTMLファイルを生成してもよい。例えば、図9で示した画面で検索ボタン903を押下することで、当該領域に類似する領域を含む文書データを時系列で表示する等が考えられる。
図13は、類似ページの検索結果を時系列のツリー構造として表示する場合の画面例を示した説明図である。本図の中央の範囲1301が検索元のページ及び当該ページに含まれる領域である。ページが左端に示され、当該ページより右側に構成される領域が表示されている。ページ及び領域は、個別に類似するページ及び領域毎に線分でリンク付けされた状態で表示される。なお、本図の縦方向は作成日又は最終更新日を示した時間軸である。
次に、類似するページを検索する場合について説明する。文書管理サーバ100の類似情報検索部104は、検索元のページの特徴量と、ページ管理テーブルに格納されている各レコードの特徴量を比較して、当該ページの類似度を算出する。そして、類似情報検索部104は、算出された類似度が所定の基準より高い場合に類似していると判断し、当該類似度を算出する際に用いられた特徴量が格納されたレコードを類似しているページの情報として取得する。また、類似する領域の検索についても領域管理テーブルを用いて同様の処理を行うことで取得できる。なお、所定の基準としては、例えば類似度が0〜1までの値をとる場合に0.3以下が類似していると判断する等が考えられる。また、類似する領域についても同様の手順で行うため、説明を省略する。
そして、ツリー構造生成部111が、これらの検索結果に基づいて、類似すると判断されたページ群及び領域群を時系列順に対応付ける。そして、検索結果生成部105が、ツリー構造生成部111により生成された時系列順に対応付けられたページ群及び領域群を、時系列順に配置して、HTMLファイルを生成する。
ところで、同一の文書データをバージョン毎に管理、つまり更新された時間毎に管理する場合がある。この場合、本実施の形態の文書管理システムが、上述した時系列で文書データの表示を実現できるので、利用者は、バージョンの変化に伴い更新されたページ又は領域をツリー構造で確認することができる。これにより、利用者は、ページ又は領域単位で更新の履歴が容易に理解できる。
次に、以上のように構成された本実施の形態にかかる文書管理サーバ100における文書データの受信から当該文書データの登録までの処理について説明する。図14は、本実施の形態にかかる文書管理サーバ100における上述した処理の手順を示すフローチャートである。
通信処理部102は、PC150等から管理対象となる文書データを受信する処理を行う(ステップS1401)。次に、登録部110は、受信した文書データをデータ格納部122に格納すると共に、当該文書データからメタ情報を抽出し、当該抽出したメタ情報と文書データが格納されているパスとを文書管理テーブルに登録する(ステップS1402)。
そして、ページ特徴抽出部109は、登録された文書データのページから、メタ情報、当該ページの画像としての特徴量、及びテキスト特徴量を抽出する(ステップS1403)。次に、登録部110は、ページ特徴抽出部109により抽出されたメタ情報、特徴量及びテキスト特徴量を、ページ管理テーブルに登録する(ステップS1404)。
次に、領域抽出部106が、登録された文書データのページに対して、当該ページに含まれているデータの種別等に基づいて、領域毎に抽出する(ステップS1405)。
そして、領域特徴抽出部108は、抽出された領域毎に特徴量を抽出する(ステップS1406)。なお、この抽出される特徴量は、領域毎のデータの種別により異なる。
次に、関係抽出部107が、抽出された領域毎に、当該領域を含む文書データと、当該領域を含むページとの関係を抽出する(ステップS1407)。この抽出される情報の例としては、文書ID、ページID及びページ内の座標領域とする。
そして、登録部110は、領域特徴抽出部108により抽出された特徴量と、関係抽出部107により抽出された関係とを対応付けて、領域管理テーブルに登録する(ステップS1408)。
そして、登録部110は、全てのページについて処理を終了したか否か判断する(ステップS1409)。終了していないと判断した場合(ステップS1409:No)、登録部110は、次のページを登録対象に設定して(ステップS1410)、ページ特徴抽出部109によるページからメタ情報及び特徴量の抽出処理から行われる(ステップS1403)。
また、登録部110が、全てのページについて処理を終了したと判断した場合(ステップS1409:Yes)、処理を終了する。
文書管理サーバ100は、上述した処理を行うことで文書データと、文書データに含まれるページ及び領域とを、別テーブルで管理することができる。
次に、以上のように構成された本実施の形態にかかる文書管理システムにおけるPCからの文書データのページの検索要求から検索結果の表示までの処理について説明する。図15は、本実施の形態にかかる文書管理システムにおける上述した処理の手順を示すフローチャートである。
PC150の表示処理部152は、Webブラウザ上に検索画面を表示する(ステップS1501)。そして、操作処理部153は、利用者が入力デバイスを介して入力したページを検索するための検索条件を入力処理する(ステップS1502)。また、検索条件としてページを選択するためには、図6で示した例では、検索対象601を‘ページ’に設定する。
そして、通信処理部151が、入力処理されたページの検索条件を、文書管理サーバ100に送信処理する(ステップS1503)。また、通信処理部151は、検索条件と共に、表示する際の条件(例えば、表示形式、表示数など)についても送信処理する。これにより文書管理サーバ100により検索処理が行われる。
次に、文書管理サーバ100の通信処理部102が、PC150からのページの検索条件及び表示する際の条件を受信処理する(ステップS1511)。そして、検索部103が、受信したページの検索条件をキーとして、ページ管理テーブルに対して検索を行う(ステップS1512)。
そして、検索が終了した後、検索結果生成部105は、受信した表示する際の条件により、ツリー構造を生成するか否か判断する(ステップS1513)。そして、ツリー構造を生成しないと判断した場合(ステップS1513:No)、ツリー構造生成部111による処理は特に行われない。なお、表示する際の条件としてツリーとする場合、図6で示した例では、利用者は表示形式604を‘ツリー’に設定しておく。
また、ツリー構造を生成すると判断した場合(ステップS1513:Yes)、ツリー構造生成部111は、検索結果に基づいてツリー構造を生成する(ステップS1514)。なお、ツリー構造生成部111が生成するツリーに含まれる構成は、検索条件を満たしたページを含む文書データ毎に、当該文書データを特定するページ(例えば最初のページと)と検索条件を満たしたページと検索条件を満たしたページに含まれる領域とする。
また、ツリー構造生成部111が生成する上述した構成は、ステップS1512の検索結果より得られた文書ID及びページIDにより特定できる。つまり、当該文書ID及びページ数=1を検索条件として設定して、ページ管理テーブルに対して検索することで、最初のページを取得できる。また、検索条件として当該ページIDで領域管理テーブルに対して検索を行うことで、当該ページに含まれている構成を取得できる。
そして、検索結果生成部105は、検索部103の検索結果が示されたHTMLファイルを生成する(ステップS1515)。また、検索結果生成部105は、ツリー構造生成部111においてツリー構造が生成されていた場合、当該ツリー構造を含めてHTMLファイルを生成する。
次に、通信処理部102は、生成されたHTMLファイルをPC150に対して送信する処理を行う(ステップS1516)。
そして、PC150の通信処理部151は、検索結果が記載されたHTMLファイルを、文書管理サーバ100から受信処理する(ステップS1504)。そして、表示処理部152は、受信したHTMLファイルをWebブラウザ上に表示する処理を行う(ステップS1505)。
これにより、利用者が設定した条件に従って、文書データに含まれるページの検索を行うことができる。
次に、以上のように構成された本実施の形態にかかる文書管理システムにおけるPCからの文書データの領域の検索要求から検索結果の表示までの処理について説明する。図16は、本実施の形態にかかる文書管理システムにおける上述した処理の手順を示すフローチャートである。
図16で示した領域検索のフローチャートは、図15で示したページ検索のフローチャートとほぼ同様となる。異なる点としては、図15のステップS1502のページを検索するための検索条件がステップS1602では領域を検索するための検索条件となる点と、図15のステップS1512のページ管理テーブルに対する検索がステップS1612においては領域管理テーブルに対する検索となる点がある。なお、ステップS1614で生成されるツリーの構成も、ステップS1612の検索結果で文書ID及びページIDを得られるので、図15の説明と同様の手順により得られる。他の点については図15と同様のため説明を省略する。
次に、以上のように構成された本実施の形態にかかる文書管理システムにおけるPC150に表示された領域又はページから、当該領域又はページに類似する領域又はページの検索から検索結果の表示までの処理について説明する。図17は、本実施の形態にかかる文書管理システムにおける上述した処理の手順を示すフローチャートである。
PC150の表示処理部152は、Webブラウザ上にページ及び領域の少なくとも一つ以上を表示処理する(ステップS1701)。この表示処理された画面としては、例えば図8、図9又は図10等とする。
そして、操作処理部153は、利用者が入力デバイスから選択された検索元となるページ又は領域と、類似するページ又は領域を検索する旨の入力処理を行う(ステップS1702)。これは、図8で示した例では、任意の領域の「検索」ボタンを押下することで、検索元となる領域と、類似する領域を検索する旨が設定されたことになる。
次に、通信処理部151は、検索元のページID又は領域IDと、類似するページ又は領域を検索する旨を、文書管理サーバ100に送信する(ステップS1703)。これにより、文書管理サーバ100が、類似する領域又はページの検索処理を開始する。
そして、文書管理サーバ100の通信処理部102は、PC150から、類似するページ又は領域を検索する旨と、ページID又は領域IDを受信処理する(ステップS1711)。
そして、類似するページ又は領域を検索する旨を受信したことから、類似情報検索部104が、受信したページID又は領域IDに対応付けられた特徴量を取得し、取得した特徴量を検索条件として設定する(ステップS1712)。これは領域IDの場合であれば、類似情報検索部104は、領域管理テーブルに対して領域IDで検索をすることで対応付けられた特徴量を取得できる。また、ページIDに対応付けられた特徴量も、同様にページ管理テーブルから取得できる。以降は、説明を容易にするために、領域IDを用いた例について説明するが、ページIDの場合もほぼ同様の処理により取得できる。
また、取得した特徴量を検索条件として設定する手法としてはどのような手法を用いても良い。また、特徴量を検索条件として設定する際にパラメータに対する重み付けを変更しても良い。この重み付けを変更する例としては、図10で示した画面例で利用を受け付ける。また、重み付けを変更して検索する手法についても、周知の手法を問わず、どのような手法を用いても良い。
次に、類似情報検索部104は、設定された検索条件で、類似する領域又はページに対して検索を行う(ステップS1713)。これは、上述したように類似情報検索部104が、検索条件の特徴量と、上述したように各レコードの特徴量とから類似度を算出し、当該類似度に基づいて類似する領域又はページを取得する。
そして、検索が終了した後、検索結果生成部105は、受信した表示する際の条件により、ツリー構造を生成するか否か判断する(ステップS1714)。そして、ツリー構造を生成しないと判断した場合(ステップS1714:No)、ツリー構造生成部111による処理は特に行われない。また、ツリーを生成する例としては、図9で示した画面例で「時系列表示」で検索が行われた場合等がある。
また、ツリー構造を生成すると判断した場合(ステップS1714:Yes)、ツリー構造生成部111は、検索結果に基づいてツリー構造を生成する(ステップS1715)。なお、ツリー構造生成部111が生成するツリーに含まれる構成は、図11に示した文書データ毎のツリー、又は図13に示した時系列により対応付けられたツリーのどちらでもよい。
そして、検索結果生成部105は、類似情報検索部104の検索結果が示されたHTMLファイルを生成する(ステップS1716)。また、検索結果生成部105は、ツリー構造生成部111においてツリー構造が生成されていた場合、当該ツリー構造を含めてHTMLファイルを生成する。
次に、通信処理部102は、生成されたHTMLファイルをPC150に対して送信する処理を行う(ステップS1717)。
そして、PC150の通信処理部151は、検索結果が記載されたHTMLファイルを、文書管理サーバ100から受信する(ステップS1704)。そして、表示処理部152は、受信したHTMLファイルをWebブラウザ上に表示する処理を行う(ステップS1705)。
これにより、本実施の形態の文書管理システムで、類似するページ又は領域の検索を行うことができる。
また、上述した実施の形態においては、リレーショナルデータベースの各テーブルに文書データ、ページ、領域毎に情報が格納した。しかしながら、情報の保持方法をこのような形式に制限するものではなく、例えば、文書データのメタ情報をXMLにより記述し、XMLデータベースに格納することも可能である。
上述した実施の形態では、利用者が操作するPC150と文書の管理及び検索を行う文書管理サーバ100とに分けたシステムについて説明した。このような構成により文書管理及び検索を、通常用いられているクライアント・サーバのシステムで実現することができる。
また、上述した実施の形態のように複数の装置を備えた構成とするのではなく、スタンドアロンで、上述したPC150及び文書管理サーバ100の機能を実現しても良い。
また、上述した実施の形態の文書管理サーバでは、領域又はページ単位での検索を可能にすると共に、膨大な文書データを管理している場合でも所望する情報に容易に辿り着くことができる。
また、文書データに含まれている画像等を検索する際、当該画像等に対応した特徴量を用いることで、当該画像等に類似する領域又はページを検索することができる。また、類似する領域又はページを検索する際、特徴量の他にメタ情報などの複数の異なる条件を組み合わせて、検索することができる。
また、検索結果を出力する際、ページと領域とを含んだツリーが記載されたHTMLファイルを生成できるので、利用者が当該ページと領域との関係を容易に把握できる。
(第2の実施の形態)
第1の実施の形態においては、ページ毎の画像としてサムネイルを用意した。しかしながら、第1の実施の形態は、ページを表示する際にサムネイル等の一枚の画像で表示することに制限するものではない。そこで、第2の実施の形態として、領域を組み合わせてページを表示する場合について説明する。
図18は、第2の実施の形態にかかる文書管理システムの構成を示すブロック図である。本実施の形態にかかる文書管理サーバ1900は、上述した第1の実施の形態にかかる文書管理サーバ100とは、検索結果生成部105とは処理が異なる検索結果生成部1902に変更され、文書メタDB121とは格納されているテーブルが異なる文書メタDB1911に変更されている点で異なる。以下の説明では、上述した第1の実施の形態と同一の構成要素には同一の符号を付してその説明を省略している。
記憶部101の文書メタDB1911のページ管理テーブル及び領域管理テーブルは、第1の実施の形態の領域管理テーブルとはフィールド構成が異なる。ページ管理テーブルでは、サムネイルパスのフィールドが削除された以外は同様のフィールド構成と成っている。
そして、図19は、領域管理テーブルのテーブル構造を示した図である。本図に示すように、領域管理テーブルは、第1の実施の形態の領域管理テーブルのフィールドに、さらにフォントサイズと、フォント名と、行方向とを対応付けて保持している。このようにフォントサイズと、フォント名と、行方向とを保持することで、テキスト領域内の構成を元の文書とほぼ同様に再現することができる。
検索結果生成部1902は、第1の実施の形態の検索結果生成部105と異なる点としては、ページを含む検索結果又はページの詳細表示に当該ページに含まれる領域を組み合わせて生成する点がある。他の点は、検索結果生成部105と同様のため説明を省略する。
図20は、検索結果生成部1902が生成したHTMLファイルを、PC150で表示した画面例を示した説明図である。本図に示すように、ページ2106は、画像2101、画像2102と、テキスト領域2103、テキスト領域2104、テキスト領域2105を組み合わせることで実現されている。検索結果生成部105は、これらの領域を、領域管理テーブルで保持されている領域座標に従ってページ2106内に配置したHTMLファイルを生成する。また、検索結果生成部105は、テキスト領域の場合、領域座標に従って確保された領域に、領域管理テーブルのフォントサイズ、フォント名及び行方向に従ってテキストを配置する。これにより、検索結果生成部105は、元のページのレイアウトを実現することができる。なお、図示はしないが、各領域を太枠で囲む等の処理を行って表示しても良い。これにより、各領域の視認性を向上させることができる。
これによりページ毎にサムネイル等の画像データを保持する必要がないので、記憶部101に格納されるデータ量を軽減できる。
(第2の実施の形態の変形例)
また、上述した各実施の形態に限定されるものではなく、種々の変形が可能である。例えば、第2の実施の形態では、テキスト領域にテキストを配置したが、当該当該ページのテキスト領域から抽出した画像データを配置しても良い。そこで変形例としてページを表示する際に領域がテキスト領域であるか否かに係わらず、画像を組み合わせて表示する例について説明する。なお、他の構成及び処理については、第2の実施形態と同様なので説明を省略する。
領域抽出部106は、文書画像の各ページに対して、領域毎に画像データを抽出する。なお、文書データが文書画像以外のデータの場合、後述する第3の実施の形態で説明する処理を行うこととする。また、領域抽出106は、抽出した画像データに対して画像補正を行う。例えば色補正でコントラストを高く、彩度を高める画像補正を行う。これにより、デジタルドキュメントに近い色の画像データが作成される。
当該変形例の検索結果生成部1902は、第2の実施の形態の検索結果生成部1902と異なる点として、ページを含む検索結果又はページの詳細表示を行うためのHTMLファイルを生成する際に、当該ページの各領域がテキスト領域であるか否かを問わず、各領域から抽出された画像のみを組み合わせて生成する点とする。また、本変形例の検索結果生成部1902は、HTMLファイルのテキスト領域にテキスト画像を配置する際、当該テキスト画像の属性として、当該テキスト領域から抽出したテキスト情報を埋め込む。
これにより、PC150が当該HTMLファイルを表示している時に、利用者がポインティングデバイスで当該テキスト領域を指示した場合、当該テキスト領域に埋め込まれたテキスト情報をポップアップ表示することができる。
図21は、検索結果生成部1902が生成したHTMLファイルを、PC150で表示した画面例を示した説明図である。本図に示すように、ページ2114は、画像2101、画像2102と、テキスト画像2111、テキスト画像2112、テキスト画像2113を組み合わせることで実現されている。そして、当該PC150は、文書が表されたテキスト画像、例えばテキスト画像2112がポインティングデバイスで指し示された場合、当該画像の属性として埋め込まれたテキスト情報をポップアップ表示する。当該ポップアップ表示2115では、埋め込まれたテキスト情報を、フォントデータを用いて表示している。これにより、文字列を含む画像を参照するより、視認性が向上している。これにより、利用者はより容易に当該文書の内容を把握することができる。
なお、本実施の形態では、利用者がテキスト領域をポインティングデバイスで指し示した場合、PC150が当該テキスト領域に含まれる文書を、文字コードを用いてポップアップ表示した。しかしながら、テキストの表示をこのような手法に制限するものではなく、当該テキスト領域の画像を表示した後に、テキスト領域に含まれていたテキストを、フォントデータを利用して表示する手法であればどのような手法を用いても良い。例えば利用者からテキスト領域の画像の選択を受け付けた場合、PC150が文書管理サーバ1900に対して当該テキスト領域に含まれるテキスト情報の送信を要求する。そして、文書管理サーバ1900がPC150にテキスト情報を送信したあと、PC150が受信したテキスト情報を、フォントデータを利用して別ウィンドウ等に表示しても良い。
(第3の実施の形態)
第1及び2の実施の形態においては、文書データとして文書画像を用いた例について主に説明した。そこで、第3の実施の形態として、文書画像以外の文書データに対して処理を行った例について説明する。なお、第3の実施の形態の文書管理システムの構成は、第1の文書管理システムの構成と同様として、説明を省略する。
本実施の形態の文書管理システムで管理される文書データとしては、例えば文書作成アプリケーションで作成された電子文書等とする。なお、本実施の形態で用いる電子文書は、文書作成アプリケーションで作成された電子文書のみならず、文字コード(例えばJISコードやunicode)によるテキスト情報を含んだデータであればどのようなデータでも良い。
領域抽出部106は、PC150から送信されてきた文書データが電子文書の場合、当該電子文書のページ毎に画像データに変換する処理を行い、当該画像データから領域毎に領域を示す画像データを抽出する。このように電子文書を画像データに変換することで、後の処理を文書画像データの場合と統一させることができる。
また、領域抽出部106は、電子文書のテキスト領域から、直接テキスト情報を抽出する。電子文書から直接テキスト情報を抽出することで、画像データからOCR等でテキスト情報を抽出する場合より精度を向上させることができる。
本実施の形態に示す文書管理サーバは、電子文書の各ページを画像データに変換してから処理を行うことで、文書画像データ(スキャンした紙原稿、FAX受信データ含む)と統一して処理及び管理することができる。
(第4の実施の形態)
第1の実施の形態では、類似検索において検索元が領域の場合のみ説明した。そこで、第4の実施の形態では、類似検索の検索元がページ又は文書の場合について説明する。
図22は、第4の実施の形態にかかる文書管理システムの構成を示すブロック図である。本実施の形態にかかる文書管理サーバ2200は、上述した第2の実施の形態にかかる文書管理サーバ1900とは、類似情報検索部104とは処理が異なる類似情報検索部2201に変更され、検索結果生成部1902とは処理が異なる検索結果生成部2202に変更されている点で異なる。以下の説明では、上述した第2の実施の形態と同一の構成要素には同一の符号を付してその説明を省略している。
類似情報検索部2201は、PC150等の文書データ検索要求に基づいて、文書メタデータベース121の文書管理テーブル、ページ管理テーブル及び領域管理テーブルに対して検索処理を行う。また、類似情報検索部2201が、第2の実施形態にかかる類似情報検索部104と異なる点として、類似するページ又は類似する文書の検索を実行可能とする点である。
図23は、PC150に表示される類似ページ検索を行う画面例を示した説明図である。当該検索画面は、PC150で類似するページの検索を行いたい場合に表示される。なお、本実施の形態において、類似ページの検索とは、利用者から検索対象として選択されたページに類似するページの検索又は、選択されたページに含まれる各領域に類似する領域の検索を行うことをいう。
図23に示すように、表示単位2301では、ページ及び領域のいずれかの選択を受け付ける。そして、ページの選択を受け付けた場合、文書管理サーバ2200は、類似するページの検索を行う。また、領域の選択を受け付けた場合、文書管理サーバ2200は、ページに含まれる各領域に類似する領域の検索を行う。
また、当該検索画面は、表示単位2301において領域の選択を受け付けた場合、表示する領域の種別2302で、検索対象となる領域の種別の選択を受け付ける。本実施の形態にかかる検索画面では、領域の種別としてテキスト、図、表及び写真のうちいずれか一つ以上の選択を受け付ける。そして、文書管理サーバ2200は、表示する領域の種別2302で選択を受け付けた領域の種別に限り、類似する領域の検索を行う。
また、図23に示す検索画面において、利用者から検索元欄2303へのファイル名の入力を受け付けることで、PC150の操作処理部153は、検索対象となるページを含む文書を決定する。
図24は、PC150の表示処理部152が表示する類似ページ検索で、ページの選択を受け付ける画面の例を示した説明図である。図24に示す類似ページ検索画面は、図23において文書を決定した後に表示される。図24に示す類似ページ検索画面では、当該文書に含まれるページをサムネイル2401として表示する。そして、当該類似ページ検索画面において、利用者が矢印ボタン2402、2403を押下することで、表示処理部152がサムネイル2401に表示されるページを変更する。このサムネイル2401に表示されたページが、類似検索の対象となる。そして、操作処理部153は、利用者が検索ボタン2402の押下を受け付けた場合に、通信処理部151が、類似ページ検索を行う旨と共に、選択された“表示単位”、選択された“表示する領域の種別”及びサムネイル2401に表示されたページの情報を、文書管理サーバ2200に送信する。これにより、文書管理サーバ2200が、類似ページ検索を行う。なお、詳細な類似ページ検索手順については、後述する。なお、本実施の形態とは異なるが、サムネイル2401から、検索対象となる領域の選択を、利用者から受け付けても良い。
また、類似情報検索部2201は、類似ページ検索の検索を行う際に、利用者により選択されたページに含まれる領域毎に、文書メタDB1911の領域管理テーブルに格納されている各領域との間の類似度を算出する。そして、類似情報検索部2201は、算出された類似度に基づいて、検索元の領域に類似すると判断された領域又は当該領域を含むページを検出する処理を行う。なお、詳細な手順については後述する。
また、類似情報検索部2201は、利用者から入力された文書に類似する文書の検索も行う。図25が、PC150に表示される類似文書検索を行う画面例を示した説明図である。また、 類似文書検索とは、利用者から検索対象となる文書書の選択を受け付け、選択を受け付けた文書に類似する文書の検索を行うことをいう。
また、図25に示す検索画面において、利用者から検索元欄2501へのファイル名の入力を受け付けることで、PC150の操作処理部153は、検索対象となる文書を決定する。そして、操作処理部153は、利用者が検索ボタン2502の押下を受け付けた場合に、通信処理部151が、類似文書検索を行う旨と共に、選択された文書の情報を、文書管理サーバ2200に送信する。これにより、文書管理サーバ2200が、類似文書検索を行う。なお、詳細な類似文書検索手順については、後述する。
検索結果生成部2202は、検索部103で行われた検索結果及び後述する類似情報検索部2201で行われた検索結果を示したHTMLファイルを生成する。また、検索結果生成部2202が、第2の実施形態にかかる検索結果生成部105と異なる点として、類似ページの検索結果及び類似文書の検索結果を示したHTMLファイルを生成する点とする。なお、HTMLファイルの例については後述する。
次に、以上のように構成された本実施の形態にかかる文書管理サーバ2200における類似ページ検索を行い、検索元の領域の種別毎に、検索元の領域に類似する領域を示すサムネイルが配列されたHTMLファイルを作成するまでの処理について説明する。図26は、本実施の形態にかかる文書管理サーバ2200における上述した処理の手順を示すフローチャートである。
まず、通信処理部102が、類似ページ検索を行う旨と検索元のページの情報とを受信する(ステップS2601)。本実施の形態では、通信処理部102は、類似ページ検索の要求と共に、図24で示した画面で利用者から選択された“表示単位”、“表示する領域の種別”及びページの情報を受信する。また、本フローチャートでは、選択された“表示単位”が領域であり、“表示する領域の種別”が、“図”、“表”及び“テキスト”の例とする。つまり、本フローチャートでは、利用者により選択されたページに含まれる“図”、“表”及び“テキスト”毎に類似する領域を検索し、検索された領域のサムネイルが“図”、“表”及び“テキスト”毎に配置されているHTMLファイルの作成を行うことになる。
次に、領域抽出部106が、検索元のページに含まれているデータの種別毎に、各領域を抽出する(ステップS2602)。
そして、領域特徴抽出部108は、抽出された領域毎に特徴量を抽出する(ステップS2603)。なお、この抽出される特徴量は、領域毎のデータの種別により異なる。
次に、類似情報検索部2201が、検索元のページから抽出された領域である“図”、“表”及び“テキスト”毎に、領域管理テーブルに格納されている各領域との間で類似度を算出する(ステップS2604)。この類似度は、領域の特徴量を比較することで算出することができる。なお、類似度は、上述したように0〜1までの値をとり、0.3以下の領域が類似していると判断される。なお、異なる種別間では、類似度は1となる。
そして、検索結果生成部2202は、検索元のページに含まれている“図”、“表”及び“テキスト”毎に、領域管理テーブルに格納さている領域のうち、類似度が高いと判断された領域のサムネイルを、類似度が高い順に配列したHTMLファイルを生成する(ステップS2605)。
そして、通信処理部102は、生成されたHTMLファイルを、PC150に送信する(ステップS2606)。これにより、PC150は、検索元のページに含まれている領域毎に類似する領域を表示することができる。
図27は、検索結果生成部2202がステップS2605の処理で生成したHTMLファイルを、PC150で表示した画面例を示した説明図である。本図に示すように、ページ2701は、“図”、“表”及び“テキスト”毎に類似する領域のサムネイルが配列されている。
次に、以上のように構成された本実施の形態にかかる文書管理サーバ2200における類似ページ検索を行い、検索元のページに類似するページのサムネイルが配列されたHTMLファイルを作成するまでの処理について説明する。図28は、本実施の形態にかかる文書管理サーバ2200における上述した処理の手順を示すフローチャートである。
まず、通信処理部102が、類似ページ検索を行う旨と検索元のページの情報を受信する(ステップS2801)。本フローチャートでは、選択された“表示単位”がページの例とする。つまり、本フローチャートでは、利用者により選択されたページに類似するーページを検索し、類似すると判断されたページのサムネイルが類似度の高い順に配置されているHTMLファイルの作成を行う。
次に、領域抽出部106が、検索元のページに含まれているデータの種別毎に、各領域を抽出する(ステップS2802)。
そして、領域特徴抽出部108は、抽出された領域毎に特徴量を抽出する(ステップS2803)。なお、この抽出される特徴量は、領域毎のデータの種別により異なる。
また、領域特徴抽出部108は、抽出された各領域を示す画像データに対して、再補正を行う。例えば、スキャンされた文書データから抽出された領域の画像データに対して、色補正でコントラストを高く、彩度を向上させるように補正する。これにより、デジタルドキュメントに近い色の画像データが作成される。これにより画像データの再現性が向上するので、適切な類似度の算出が可能となる。
次に、類似情報検索部2201は、文書メタDB1911のページ管理テーブルに格納されているページから検索対象となるページを設定し、当該ページに含まれている領域を特定する(ステップS2804)。そして、類似情報検索部2201は、当該ページに含まれている領域の情報(例えば特徴量など)を、領域管理テーブル1911から取得する。
次に、類似情報検索部2201が、検索元のページに含まれている領域毎に、検索対象として取得したページの領域との間で、類似度を算出する(ステップS2805)。
図29は、類似情報検索部2201が類似度を算出する際の概念を示した説明図である。図29に示すように、検索元のページから抽出された領域毎に、検索対象として取得した各ページに含まれる各領域と類似度を算出する。また、類似情報検索部2201は、当該ページに複数のテキスト領域が存在と判断した場合、複数のテキスト領域を結合して1つのテキスト領域とした後に、当該テキスト領域との類似度を算出する。
また、類似度は、上述したように0〜1までの値をとり、0.3以下の領域が類似していると判断される。なお、異なる種別間では、類似度は1となる。そこで、類似情報検索部2201は、算出された類似度のうち最も低い類似度の領域が、検索元の領域に類似している領域と判断する。図29で示した例では、検索元の領域である図αと、文書メタDB1911から取得したページの各領域と類似度を算出して、図Aとは類似度“0.6”が、図Bとは類似度“0.25”が,図Aとは類似度“1”が,テキストAとは類似度が“1”が算出されたものとする。この場合、類似情報検索部2201は、図αに類似する領域を図Bと判断し、当該領域間の類似度を“0.25”と判断する。このような処理により、類似情報検索部2201は、検索元の各領域に対して、類似する領域の判断及び当該領域間の類似度の算出を行う。また、類似情報検索部2201は、検索元の領域と、同一の種別の領域が検索対象のページに存在しない場合、類似する領域が無かったものとして類似度を“1”とする。
なお、本実施の形態は、上述した処理手順で類似度を算出するが、他の処理を用いて類似度を算出しても良い。
図28に戻り、類似情報検索部2201は、ステップS2805で算出された領域毎の類似度に基づいて、ページ間の類似度を算出する(ステップS2806)。本実施の形態では、類似情報検索部2201は、算出された各領域の類似度の平均を算出することでページ間の類似度を算出する。なお、本実施の形態は、ページ間の類似度を平均値に限るものではなく、合計値など他の値を用いても良い。
次に、類似情報検索部2201は、ページ管理テーブルに、類似度の算出対象としていないページが他にあるか否か判断する(ステップS2807)。
そして、類似情報検索部2201は、類似度の算出対象とされていないページがあると判断した場合(ステップS2807:Yes)、当該ページを類似度の算出対象ページとして設定する(ステップS2808)。その後、類似情報検索部2201は、当該ページに含まれている類似度の特定する処理から再び行う(ステップS2804)。
また、類似情報検索部2201が、ページ管理テーブルに格納されている全てのページに対して類似度の算出を行い、他にページがないと判断した場合(ステップS2807:No)、検索結果生成部2202は、ページ管理テーブルに格納されていたページのうち、類似度が高いページの順に、当該ページのサムネイルが配置されたHTMLファイルの生成を行う(ステップS2809)。
そして、通信処理部102は、生成されたHTMLファイルを、PC150に送信する(ステップS2810)。これにより、PC150は、検索元のページに類似するページを表示することができる。
図30は、検索結果生成部2202がステップS2810の処理で生成したHTMLファイルを、PC150で表示した画面例を示した説明図である。本図に示すように、ページ3001は、類似度が高い順に、文書メタDB1911に格納されていたページのサムネイルが配列されている。
次に、以上のように構成された本実施の形態にかかる文書管理サーバ2200における類似文書検索を行い、検索元の文書に類似する文書に含まれるページのサムネイルが配列されたHTMLファイルを作成するまでの処理について説明する。図31は、本実施の形態にかかる文書管理サーバ2200における上述した処理の手順を示すフローチャートである。
まず、通信処理部102が、類似文書検索を行う旨と検索元の文書の情報を受信する(ステップS3101)。
次に、ページ特徴抽出部109が、検索元の文書に含まれている各ページの特徴量を抽出する(ステップS3102)。
そして、類似情報検索部2201は、文書メタDB1911の文書管理テーブルに格納されている文書のうち検索対象となる文書を1つ設定し、当該文書に含まれているページを特定する(ステップS3103)。なお、ページの特定は、文書管理テーブルとページ管理テーブルとを利用することで可能とする。そして、類似情報検索部2201は、当該文書に含まれているページの情報を、ページ管理テーブルから取得する。
次に、類似情報検索部2201が、検索元の文書に含まれているページ毎に、検索対象として取得した文書のページとの間で、類似度を算出する(ステップS3104)。
当該類似度の算出は、検索元の任意のページと、検索対象の文書に含まれている各ページとページ特徴量を比較することで行う。なお、類似度は、上述したように0〜1までの値をとり、0.3以下の領域が類似していると判断される。そして、類似情報検索部2201は、ページ毎に類似度を算出した後、類似度の数値が最も低いページが類似するページと判断する。そして、類似情報検索部2201は、この処理を検索元の全てのページに対して行う。なお、本実施の形態においては、ページ特徴量を用いてページ毎の類似度を算出するが、ページに含まれている各領域毎に類似度を算出して、ページ毎の類似度を算出してもよい。
そして、類似情報検索部2201は、ページ毎の類似度に基づいて、文書間の類似度を算出する(ステップS3105)。本実施の形態では、類似情報検索部2201は、算出された各ページの類似度の平均を算出することで文書間の類似度を算出する。なお、本実施の形態は、文書間の類似度を平均値に限るものではなく、合計値など他の値を用いても良い。
そして、類似情報検索部2201は、ページ管理テーブルに、類似度の算出対象とされて文書が他にあるか否か判断する(ステップS3106)。
次に、類似情報検索部2201は、類似度の算出対象とされていない文書があると判断した場合(ステップS3106:Yes)、当該文書を類似度の算出対象の文書として設定する(ステップS3107)。その後、類似情報検索部2201は、当該文書に含まれているページの特定する処理から再び行う(ステップS3103)。
また、類似情報検索部2201が、文書管理テーブルに格納されている全ての文書に対して類似度の算出を行い、他に文書がないと判断した場合(ステップS3106:No)、検索結果生成部2202は、文書管理テーブルに格納されていた文書のうち、類似度が高い文書の順に、当該文書の1ページ目のサムネイルが配置されたHTMLファイルの生成を行う(ステップS3108)。
そして、通信処理部102は、生成されたHTMLファイルを、PC150に送信する(ステップS3109)。これにより、PC150は、検索元の文書に類似する文書を表示することができる。
また、上述した実施の形態の文書管理サーバでは、ページに含まれている領域に類似する領域、類似するページ及び類似する文の検索を可能とすることで利便性が向上する。また、文書管理サーバが膨大な文書データを管理している場合でも、利用者は所望する情報に容易に辿り着くことができる。
(変形例)
また、上述した各実施の形態に限定されるものではなく、以下に例示するような種々の変形が可能である。
(変形例1)
上述した実施の形態において、類似するページ又は領域を検索する際に、検索元のページ又は領域の特徴量をキーにして検索を行った。しかしながら、このような類似情報の検索に制限するものではなく、類似検索により検出されたページ又は領域の特徴量をキーとしてさらに検索を行っても良い。
そこで、本変形例では、類似検索により検出されたページ又は領域の特徴量を用いてさらに、類似するページ又は領域を検索し、時系列順に配置されたHTMLファイルを生成する場合について説明する。なお、類似検索により検出されたページ又は領域の特徴量をキーとして検索する処理を1段階行うことに制限せず、再帰的に複数回行ってもよい。なお、上述した実施の形態と同様の点については説明を省略する。また、検索する処理を再帰的に行うことで、検索元の領域又はページを中心として広がるツリー構造を生成することができる。
また、本変形例では、最初の検索元のページ又は領域の作成更新時間より古いページ又は領域の特徴量をキーとして検索する場合、当該ページ又は領域の作成更新日より過去に作成更新された領域又はページが検出されるように検索条件を設定する。また、検索元のページ又は領域の作成更新時間より新しいページ又は領域の特徴量をキーとして検索する場合、当該ページ又は領域の作成更新日よりも後に作成更新された領域又はページが検出されるように検索条件を設定する。
図32−1は、本変形例とは別の例として類似する領域を検索する際、上述した作成更新日の検索条件を設定しなかった場合に、類似する領域を再帰的に検索することで生成されたツリーを示した説明図ある。図32−1の(A)は、検索元の領域の特徴量をキーに類似情報検索部が検出した領域と、検索元の領域によるツリーを示した図である。そして、さらに検出した領域の特徴量をキーに類似情報検索部が検出した場合のツリーを図32−1の(B)に示した。このように作成更新日に条件を設けない場合に、多量の領域が検出されることになる。そこで、本変形例では類似する領域又はページを再帰的に検索する際に、検索条件として作成更新日を設定した。検索条件としては上述した通りとなる。
図32−2は、本変形例で類似する領域を検索する際に、作成更新日について検索条件として上述した設定を行った場合に、類似する領域を再帰的に検索することで生成されたツリーを示した説明図ある。図32−2の(A)は、図32−1の(A)と同様なので説明を省略する。
そして、再帰的に検索を行った結果を時系列に従って表示すると、図32−2の(B)で示した図となる。このような表示は、文書画像の履歴管理を行う場合に有効である。つまり、一つの当該文書画像に対して複数の利用者が、編集をすることで複数の文書画像が生成された場合、当該複数の利用者により編集された文書画像の履歴は、図32−2(B)で示したようになる。このように本変形例の文書管理サーバは、複数人により編集された文書画像の履歴を管理することができる。また、このような複数人により編集された文書画像の履歴を利用者が容易に理解できるように表示することができる。また、このような再帰的な検索は、領域、ページに限らず、文書に対して適用してもよい。
(変形例2)
また、変形例1では、類似する領域又はページを再帰的に検索した後、時系列に従って表示されたHTMLファイルを生成する場合の例について説明したが、この再帰的な検索を行った後に時系列順に表示することに制限するものではない。
そこで、本変形例では、再帰的な類似検索により検出された領域を類似度に従って表示する場合について説明する。なお、特徴量から類似度の算出する手法は、周知の手法を問わず、どのような手法を用いても良い。
図33は、本変形例で類似する領域を検索する際に、類似する領域を再帰的に検索することで生成されたツリーを示した説明図である。図33の(A)において検索元の領域に類似する順に領域がツリーとして生成されている。
そして、図33の(B)において検出された領域の特徴量をキーとして検出された領域を、検索元の領域と対応付けている。この再帰的に検出された領域においても類似度順に配置している。そして、検索結果生成部は、本図の(B)で示したようなHTMLファイルを生成する。
具体的な手順としては、本変形例にかかる類似情報検索部が、類似する領域又はページを検索する際に、特徴量による検索元のページ又は領域との類似度を取得する。そして、さらに検出されたページ又は領域の特徴量をキーに、さらに類似するページ又は領域を検索し、その際検出された類似度と検索元との類似度を取得する。そして、このように再帰的に検索した場合も検索元と検出された領域とを対応付ける。このようにして、検索結果生成部は、再帰的に検索された場合でも、検索元と検出された領域又はページとの間でリンクがなされているHTMLファイルを生成する。
本変形例により、利用者は、多量の電子書を管理している文書管理サーバから、所望する情報が記載された領域又はページを特定することができる。また類似するページ又は領域同士がリンクされたツリーが記載されたHTMLを生成するので、利用者は領域又はページといったオブジェクト間の関係を容易に把握できる。
図34は、文書管理サーバの機能を実現するためのプログラムを実行したPCのハードウェア構成を示した図である。本実施の形態の文書管理サーバは、CPU(Central Processing Unit)2001などの制御装置と、ROM(Read Only Memory)2002やRAM(Random Access Memory)2003などの記憶装置と、HDD(Hard Disk Drive)、CDドライブ装置などの外部記憶装置2004と、ディスプレイ装置などの表示装置2005と、キーボードやマウスなどの入力装置2006と、通信インターフェース2007と、これらを接続するバス2008とを備えており、通常のコンピュータを利用したハードウェア構成となっている。
本実施形態の文書管理サーバで実行される文書管理プログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、フレキシブルディスク(FD)、CD−R、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録されて提供される。
また、本実施形態の文書管理サーバで実行される文書管理プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また、本実施形態の文書管理サーバで実行される文書管理プログラムをインターネット等のネットワーク経由で提供または配布するように構成しても良い。
また、本実施形態の文書管理プログラムを、ROM等に予め組み込んで提供するように構成してもよい。
本実施の形態の文書管理サーバで実行される文書管理プログラムは、上述した各部(通信処理部、検索部、類似情報検索部、検索結果生成部、領域抽出部、関係抽出部、領域特徴抽出部、ページ特徴抽出部、登録部)を含むモジュール構成となっており、実際のハードウェアとしてはCPUが上記記憶媒体から文書管理プログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、通信処理部、検索部、類似情報検索部、検索結果生成部、領域抽出部、関係抽出部、領域特徴抽出部、ページ特徴抽出部、登録部が主記憶装置上に生成されるようになっている。
以上のように、本発明にかかる情報管理装置、情報管理方法、情報管理プログラム、記録媒体及び情報管理システムは、文書画像の管理に有用であり、特に、文書画像においてページ又は領域に対して検索を行う技術として適している。
第1の実施の形態にかかる文書管理システムの構成を示すブロック図である。 第1の実施の形態にかかる文書管理サーバの文書メタデータベースに格納されている文書管理テーブルのテーブル構造を示した図である。 第1の実施の形態にかかる文書管理サーバの文書メタデータベースに格納されているページ管理テーブルのテーブル構造を示した図である。 第1の実施の形態にかかる文書管理サーバの文書メタデータベースに格納されている領域管理テーブルのテーブル構造を示した図である。 文書管理サーバで管理対象となる文書データに含まれていたページの例を示した説明図である。 PCに表示される文書画像検索を行う画面例を示した説明図である。 検索結果生成部により生成されたHTMLファイルがPCに表示された画面例を示した説明図である。 文書画像の検索結果として示された各領域がサムネイル表示されたPCの画面例を示した説明図である。 検索結果として示された領域の詳細説明が表示されたPCの画面例を示した説明図である。 図8で示した画面例において検索ボタンを押下した場合にPCに表示される類似領域の検索結果の画面例を示した説明図である。 類似ページの検索結果の表示形式として「ツリー」を選択した場合のPCの画面例を示した説明図である。 図11で示した画面例において、右に移動してさらに領域を表示するボタンが押下された場合のPCの画面例を示した説明図である。 類似ページの検索結果を時系列のツリー構造として表示する場合のPCの画面例を示した説明図である。 第1の実施の形態にかかる文書管理サーバにおける文書画像の受信から当該文書画像の登録までの処理の手順を示すフローチャートである。 第1の実施の形態にかかる文書管理システムにおけるPCからの文書画像のページの検索要求から検索結果の表示までの処理の手順を示すフローチャートである。 第1の実施の形態にかかる文書管理システムにおけるPCからの文書画像の領域の検索要求から検索結果の表示までの処理の手順を示すフローチャートである。 第1の実施の形態にかかる文書管理システムにおけるPCに表示された領域又はページに類似する領域又はページの検索から検索結果の表示までの処理の手順を示すフローチャートである。 第2の実施の形態にかかる文書管理システムの構成を示すブロック図である。 第2の実施の形態にかかる文書管理サーバの文書メタデータベースに格納されている領域管理テーブルのテーブル構造を示した図である。 第2の実施の形態にかかる文書管理サーバの検索結果生成部が生成したHTMLファイルを、PCで表示した画面例を示した説明図である。 第2の実施の形態の変形例にかかる文書管理サーバの検索結果生成部が生成したHTMLファイルを、PCで表示した画面例を示した説明図である。 第4の実施の形態にかかる文書管理システムの構成を示すブロック図である。 第4の実施の形態にかかるPCが表示する類似ページ検索を行う画面例を示した説明図である。 第4の実施の形態にかかるPCの表示処理部が表示する類似ページ検索で、ページの選択を受け付ける画面の例を示した説明図である。 第4の実施の形態にかかるPCに表示される類似文書検索を行う画面例を示した説明図である。 第4の実施の形態にかかる文書管理サーバが類似ページ検索を行い、検索元の領域の種別毎に、検索元の領域に類似する領域を示すサムネイルが配列されたHTMLファイルを作成するまでの処理の手順を示すフローチャートである。 第4の実施の形態にかかる文書管理サーバの検索結果生成部が類似ページ検索の結果として生成したHTMLファイルを、PCで表示した画面例を示した説明図である。 第4の実施の形態にかかる文書管理サーバが類似ページ検索を行い、検索元のページに類似するページのサムネイルが配列されたHTMLファイルを作成するまでの処理の手順を示すフローチャートである。 第4の実施の形態にかかる文書管理サーバの類似情報検索部が類似度を算出する際の概念を示した説明図である。 第4の実施の形態にかかる文書管理サーバの検索結果生成部が類似ページ検索の結果として生成したHTMLファイルを、PCで表示した第2の画面例を示した説明図である。 第4の実施の形態にかかる文書管理サーバが類似文書検索を行い、検索元の文書に類似する文書に含まれるページのサムネイルが配列されたHTMLファイルを作成するまでの処理の手順を示すフローチャートである。 変形例1とは別の例として類似する領域を検索する際に、作成更新日について検索条件を設定しなかった場合に、類似する領域を再帰的に検索することで生成されたツリーを示した説明図である。 変形例1で類似する領域を検索する際に、作成更新日について検索条件として所定の設定を行った場合に、類似する領域を再帰的に検索することで生成されたツリーを示した説明図である。 変形例2で類似する領域を検索する際に、類似する領域を再帰的に検索することで生成されたツリーを示した説明図である。 文書管理サーバの機能を実現するためのプログラムを実行したPCのハードウェア構成を示した図である。
符号の説明
100、1900、2200 文書管理サーバ
101 記憶部
102 通信処理部
103 検索部
104、2201 類似情報検索部
105、1902、2202 検索結果生成部
106 領域抽出部
107 関係抽出部
108 領域特徴抽出部
109 ページ特徴抽出部
110 登録部
111 ツリー構造生成部
121、1911 文書メタデータベース
122 データ格納部
150 PC
151 通信処理部
152 表示処理部
153 操作処理部
501 画像領域
502 画像領域
503 画像領域
503 文書領域
504 文書領域
505 ページ全体
601 検索対象
602 検索ボタン
603 テキスト
604 表示形式
701 ボタン
801 検索ボタン
802 表示形式
803 ボタン
901 実行ボタン
902 「オリジナルを開く」ボタン
903 検索ボタン
1101 検索元と同じ文書画像
1102 検索元のページ及び検索されたページ
1103 ボタン
1201 ボタン
1301 検索元の文書画像
2001 CPU
2002 ROM
2003 RAM
2004 外部記憶装置
2005 表示装置
2006 入力装置
2007 通信インターフェース
2008 バス

Claims (32)

  1. 文書情報の各ページを構成する領域に含まれる領域情報と、該文書情報及び該ページと該領域情報との関係が示された関係情報と、を対応付けた領域対応情報を記憶する記憶手段と、
    文書情報のページから、当該ページに配置された種別が異なる領域毎に領域情報を抽出する領域抽出手段と、
    前記領域抽出手段により抽出された前記領域情報と、当該領域情報の抽出元である前記文書情報のページと、の関係が示された関係情報を、前記文書情報の前記ページから抽出する関係抽出手段と、
    前記領域抽出手段により抽出された前記領域情報と、前記関係抽出手段により抽出された前記関係情報と、を対応付けて前記領域対応情報に登録する登録手段と、
    を備えたことを特徴とする情報管理装置。
  2. 前記領域抽出手段により抽出された前記領域情報から、前記領域情報の特徴を示した特徴情報を抽出する特徴抽出手段と、をさらに備え、
    前記記憶手段は、前記領域対応情報として、さらに前記特徴情報を、前記領域情報と、前記関係情報とを対応付けて記憶し、
    前記登録手段は、前記領域抽出手段により抽出された領域情報と、前記関係抽出手段により抽出された前記関係情報と、前記特徴抽出手段により抽出された前記特徴情報とを対応付けて、前記領域対応情報に登録すること、
    を特徴とする請求項1に記載の情報管理装置。
  3. 前記記憶手段に記憶された前記領域対応情報から、前記領域情報を検索する検索手段と、をさらに備えたことを特徴とする請求項2に記載の情報管理装置。
  4. 前記記憶手段に記憶された前記領域対応情報において、検索元となる前記領域情報と対応付けられた前記特徴情報と、前記領域対応情報で保持されている特徴情報とを比較して所定の条件を満足した場合に、前記保持されている特徴情報と対応付けられた領域情報を検出する類似情報検索手段と、
    をさらに備えたことを特徴とする請求項2に記載の情報管理装置。
  5. 前記記憶手段は、前記関係情報として前記領域情報の前記ページ内の位置情報を記憶し、
    前記関係抽出手段は、前記文書情報の抽出元のページを構成する領域における、前記領域情報の位置情報を抽出し、
    前記記憶手段に記憶された前記領域情報を、前記領域情報に対応付けられた前記位置情報に従って配置したページ情報を生成するページ情報生成手段をさらに備えたことを特徴とする請求項1乃至4のいずれか一つに記載の情報管理装置。
  6. 前記記憶手段は、前記領域対応情報において、前記領域情報に含まれる文字情報の配置を特定する文字配置情報を、前記領域情報及び前記関係情報と対応付けて記憶し、
    前記関係抽出手段は、前記文書情報の抽出元のページに含まれている前記領域情報の種別が文字情報の場合に、該文字情報の配置を特定する文字配置情報を、前記関係情報に含まれる情報として抽出し、
    前記ページ情報生成手段は、前記記憶手段に記憶された前記領域情報が文字情報の場合に、前記領域情報に対応付けられた前記文字配置情報に従って文字を配置すること、
    を特徴とする請求項5に記載の情報管理装置。
  7. 前記記憶手段は、前記文字配置情報として、フォント名、フォントサイズ及び行方向のいずれか一つ以上を記憶することを特徴とする請求項6に記載の情報管理装置。
  8. 前記領域抽出手段は、前記領域情報として、当該領域を表示する画像情報を抽出すること、
    を特徴とする請求項1乃至4のいずれか一つに記載の情報管理装置。
  9. 前記領域抽出手段により抽出された前記画像情報から、前記画像情報により表示される画像に含まれる文字を示す文字情報を抽出する文字情報抽出手段と、をさらに備え、
    前記記憶手段は、前記領域対応情報として、さらに前記文字情報とを対応付けて記憶し、
    前記登録手段は、前記領域対応情報に対して、さらに前記文字情報抽出手段により抽出された前記文字情報とを対応付けて登録すること、
    を特徴とする請求項8に記載の情報管理装置。
  10. 前記記憶手段は、前記関係情報として前記画像情報の前記ページ内の位置情報を記憶し、
    前記関係抽出手段は、前記文書情報の抽出元のページを構成する領域に含まれている前記画像情報の位置情報を抽出し、
    前記記憶手段に記憶された前記画像情報を、前記画像情報に対応付けられた前記位置情報に従って配置したページ情報を生成すると共に、当該ページ情報の前記文字情報を抽出した前記画像情報の領域に対して、当該文字情報を含めるページ情報生成手段と、
    をさらに備えることを特徴とする請求項9に記載の情報管理装置。
  11. 前記検索手段は、前記画像情報を検索する時に、利用者により入力された文字列をキーとし、前記領域対応情報に対応付けて前記登録手段により登録された前記文字情報に対して検索を行い、該検索で一致した前記文字情報に対応付けられた前記画像情報を検出すること、
    を特徴とする請求項9又は10に記載の情報管理装置。
  12. 前記記憶手段は、さらに文書情報のページを示すページ情報と、該文書情報とを対応付けたページ対応情報を記憶し、前記領域対応情報において前記領域情報と対応付けられた前記関係情報として前記ページ情報を含み、
    前記登録手段は、さらに前記文書情報のページを示すページ情報と、前記文書情報とを対応付けて前記記憶手段に記憶された前記ページ対応情報に登録し、且つ前記領域情報と前記関係情報と該ページ情報とを前記領域対応情報に対応付けて登録し、
    前記領域情報と、前記記憶手段に記憶された前記領域対応情報において前記領域情報と対応付けられた前記関係情報により特定される前記文書情報及び前記ページ情報のうちいずれか一つ以上と、を出力する出力処理手段と、をさらに備えたことを特徴とする請求項1乃至11のいずれか一つに記載の情報管理装置。
  13. 前記領域情報と、前記記憶手段に記憶された前記領域対応情報において前記領域情報と対応付けられた前記関係情報により特定される前記文書情報及び前記ページ情報と、から構成される木構造を生成する木構造生成手段と、をさらに備え、
    前記出力処理手段は、前記木構造生成手段により生成された前記木構造で前記文書情報と、前記ページ情報と、前記領域情報と、を出力すること、
    を特徴とする請求項12に記載の情報管理装置。
  14. 前記出力処理手段は、複数の文書情報を出力する際、前記文書情報が生成又は更新が行われた時間系列順に、前記木構造を構成している前記文書情報と、前記ページ情報と、前記領域情報と、を出力処理すること、
    を特徴とする請求項13に記載の情報管理装置。
  15. 文書情報のページから、当該ページに配置された種別が異なる領域毎に領域情報を抽出する領域抽出ステップと、
    前記領域抽出ステップにより抽出された前記領域情報と、当該領域情報の抽出元である前記文書情報のページと、の関係が示された関係情報を、前記文書情報の前記ページから抽出する関係抽出ステップと、
    前記領域抽出ステップにより抽出された前記領域情報と、前記関係抽出ステップにより抽出された前記関係情報と、を対応付けて、記憶手段に記憶された領域対応情報として録する登録ステップと、
    を有することを特徴とする情報管理方法。
  16. 前記領域抽出ステップにより抽出された前記領域情報から、前記領域情報の特徴を示した特徴情報を抽出する特徴抽出ステップと、をさらに有し、
    前記登録ステップは、前記領域抽出ステップにより抽出された領域情報と、前記関係抽出ステップにより抽出された前記関係情報と、前記特徴抽出ステップにより抽出された前記特徴情報とを対応付けて、前記領域対応情報として登録すること、
    を特徴とする請求項15に記載の情報管理方法。
  17. 前記記憶手段に記憶された前記領域対応情報から、前記領域情報を検索する検索ステップと、をさらに備えたことを特徴とする請求項16に記載の情報管理方法。
  18. 前記記憶手段に記憶された前記領域対応情報において、検索元となる前記領域情報と対応付けられた前記特徴情報と、前記領域対応情報で保持されている特徴情報とを比較して所定の条件を満足した場合に、前記保持されている特徴情報と対応付けられた領域情報を検出する類似情報検索ステップと、
    をさらに備えたことを特徴とする請求項16に記載の情報管理方法。
  19. 前記関係抽出ステップは、前記文書情報の抽出元のページを構成する領域における、前記領域情報の位置情報を、前記関係情報に含まれる情報として抽出し、
    前記記憶手段に記憶された前記領域情報を、前記領域情報に対応付けられた前記関係情報に含まれる前記ページ内の位置情報に従って配置したページ情報を生成するページ情報生成ステップをさらに備えたことを特徴とする請求項15乃至18のいずれか一つに記載の情報管理方法。
  20. 前記関係抽出ステップは、前記文書情報の抽出元のページに含まれている前記領域情報の種別が文字情報の場合に、該文字情報の配置を特定する文字配置情報を、前記関係情報に含まれる情報として抽出し、
    前記ページ情報生成ステップは、前記記憶手段に記憶された前記領域情報が文字情報の場合に、前記領域情報に対応付けられた前記文字配置情報に従って文字を配置すること、
    を特徴とする請求項19に記載の情報管理方法。
  21. 前記関係抽出ステップは、前記文字配置情報としてフォント名、フォントサイズ及び行方向のいずれか一つ以上を抽出することを特徴とする請求項20に記載の情報管理方法。
  22. 前記領域抽出ステップは、前記領域情報として、当該領域を表示する画像情報を抽出すること、
    を特徴とする請求項15乃至18のいずれか一つに記載の情報管理方法。
  23. 前記領域抽出ステップにより抽出された前記画像情報から、前記画像情報により表示される画像に含まれる文字を示す文字情報を抽出する文字情報抽出ステップと、をさらに有し、
    前記登録ステップは、前記領域対応情報に対して、さらに前記文字情報抽出ステップにより抽出された前記文字情報とを対応付けて登録すること、
    を特徴とする請求項22に記載の情報管理方法。
  24. 前記関係抽出ステップは、前記文書情報の抽出元のページを構成する領域に含まれている前記画像情報の当該ページ内の位置情報を、前記関係情報に含まれる情報として抽出し、
    前記記憶手段に記憶された前記画像情報を、前記画像情報に対応付けられた前記関係情報に含まれる前記ページ内の前記位置情報に従って配置したページ情報を生成すると共に、当該ページ情報の前記文字情報を抽出した前記画像情報の領域に対して、当該文字情報を含めるページ情報生成ステップをさらに有すること、
    を特徴とする請求項23に記載の情報管理方法。
  25. 前記検索ステップは、前記画像情報を検索する時に、利用者により入力された文字列をキーとし、前記領域対応情報に対応付けて前記登録ステップにより登録された前記文字情報に対して検索を行い、該検索で一致した前記文字情報に対応付けられた前記画像情報を検出すること、
    を特徴とする請求項23に記載の情報管理方法。
  26. 前記記憶手段は、さらに文書情報のページを示すページ情報と、該文書情報とを対応付けたページ対応情報を記憶し、前記領域対応情報において前記領域情報と対応付けられた前記関係情報として前記ページ情報を含み、
    前記登録ステップは、さらに前記文書情報のページを示すページ情報と、前記文書情報とを対応付けてページ対応情報として前記記憶手段に登録し、且つ前記領域情報と前記関係情報と該ページ情報とを前記領域対応情報に対応付けて登録し、
    前記領域情報と、前記記憶手段に記憶された前記領域対応情報において前記領域情報と対応付けられた前記関係情報により特定される前記文書情報及び前記ページ情報のうちいずれか一つ以上と、を出力する出力処理ステップと、をさらに有することを特徴とする請求項15乃至25のいずれか一つに記載の情報管理方法。
  27. 前記領域情報と、前記記憶手段に記憶された前記領域対応情報において前記領域情報と対応付けられた前記関係情報により特定される前記文書情報及び前記ページ情報と、から構成される木構造を生成する木構造生成ステップと、をさらに備え、
    前記出力処理ステップは、前記木構造生成ステップにより生成された前記木構造で前記文書情報と、前記ページ情報と、前記領域情報と、を出力すること、
    を特徴とする請求項26に記載の情報管理方法。
  28. 前記出力処理ステップは、複数の文書情報を出力する際、前記文書情報が生成又は更新が行われた時間系列順に、前記木構造を構成している前記文書情報と、前記ページ情報と、前記領域情報と、を出力処理すること、
    を特徴とする請求項27に記載の情報管理方法。
  29. 請求項15乃至28のいずれか一つに記載された情報管理方法をコンピュータに実行させることを特徴とする情報管理プログラム。
  30. 請求項29に記載の情報管理プログラムを格納したことを特徴とするコンピュータ読み取り可能な記録媒体。
  31. 利用者の要求に従って文書情報を処理する情報処理装置と、該情報処理装置で処理された該文書情報を管理する情報管理装置とを備えた情報管理システムであって、
    前記情報処理装置は、
    前記情報管理装置に文書情報を送信する送信手段を備え、
    前記情報管理装置は、
    文書情報の各ページを構成する領域に含まれる領域情報と、該文書情報及び該ページと該領域情報との関係が示された関係情報と、を対応付けた領域対応情報を記憶する記憶手段と、
    前記情報処理装置から文書情報を受信する受信手段と、
    前記受信手段により受信した前記文書情報のページから、当該ページに配置された種別が異なる領域毎に領域情報を抽出する領域抽出手段と、
    前記領域抽出手段により抽出された前記領域情報と、当該領域情報の抽出元である前記文書情報のページと、の関係が示された関係情報を、前記文書情報の前記ページから抽出する関係抽出手段と、
    前記領域抽出手段により抽出された前記領域情報と、前記関係抽出手段により抽出された前記関係情報と、を対応付けて前記領域対応情報に登録する登録手段と、
    を備えたことを特徴とする情報管理システム。
  32. 前記情報管理装置は、
    前記領域抽出手段により抽出された前記領域情報から、前記領域情報の特徴を示した特徴情報を抽出する特徴抽出手段と、をさらに備え、
    前記記憶手段は、前記領域対応情報として、さらに前記特徴情報を、前記領域情報と、前記関係情報とを対応付けて記憶し、
    前記登録手段は、前記領域抽出手段により抽出された領域情報と、前記関係抽出手段により抽出された前記関係情報と、前記特徴抽出手段により抽出された前記特徴情報とを対応付けて、前記領域対応情報に登録すること、
    を特徴とする請求項31に記載の情報管理システム。
JP2006320792A 2006-01-24 2006-11-28 情報管理装置、情報管理方法、情報管理プログラム、記録媒体及び情報管理システム Expired - Fee Related JP4977452B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2006320792A JP4977452B2 (ja) 2006-01-24 2006-11-28 情報管理装置、情報管理方法、情報管理プログラム、記録媒体及び情報管理システム
US11/656,996 US20070171482A1 (en) 2006-01-24 2007-01-24 Method and apparatus for managing information, and computer program product
US12/604,063 US20100067052A1 (en) 2006-01-24 2009-10-22 Method and apparatus for managing information, and computer program product

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2006015591 2006-01-24
JP2006015591 2006-01-24
JP2006320792A JP4977452B2 (ja) 2006-01-24 2006-11-28 情報管理装置、情報管理方法、情報管理プログラム、記録媒体及び情報管理システム

Publications (2)

Publication Number Publication Date
JP2007226769A true JP2007226769A (ja) 2007-09-06
JP4977452B2 JP4977452B2 (ja) 2012-07-18

Family

ID=38285228

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006320792A Expired - Fee Related JP4977452B2 (ja) 2006-01-24 2006-11-28 情報管理装置、情報管理方法、情報管理プログラム、記録媒体及び情報管理システム

Country Status (2)

Country Link
US (2) US20070171482A1 (ja)
JP (1) JP4977452B2 (ja)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009110506A (ja) * 2007-10-11 2009-05-21 Ricoh Co Ltd 情報処理装置及び情報処理プログラム
JP2009146262A (ja) * 2007-12-17 2009-07-02 Hitachi Software Eng Co Ltd 衛星画像の選択操作支援方法及び装置
JP2009169538A (ja) * 2008-01-11 2009-07-30 Ricoh Co Ltd 文書検索装置、文書検索方法及び文書検索プログラム
JP2009223675A (ja) * 2008-03-17 2009-10-01 Ricoh Co Ltd 情報処理装置,情報処理方法,プログラム,および記録媒体
JP2009271892A (ja) * 2008-05-12 2009-11-19 Canon Inc 情報処理装置、データ処理方法およびプログラム
JP2012137852A (ja) * 2010-12-24 2012-07-19 Toshiba Corp 情報処理装置、情報検索方法及びプログラム
JP2012146275A (ja) * 2010-12-20 2012-08-02 Profield Co Ltd 電子ブック処理装置、電子ブック処理方法、およびプログラム
JP2012230628A (ja) * 2011-04-27 2012-11-22 Toshiba Corp 映像表示装置、映像表示管理装置、映像表示方法、及び映像表示管理方法
JP2013084060A (ja) * 2011-10-06 2013-05-09 Ntt Data Corp 類似文書可視化装置、類似文書可視化方法およびプログラム
JP2014013579A (ja) * 2013-08-06 2014-01-23 Toshiba Corp 電子機器、情報の検索を行うための方法及びプログラム
JP2015072545A (ja) * 2013-10-02 2015-04-16 富士ゼロックス株式会社 文書データ処理システム、文書データ処理プログラム
JP2015170005A (ja) * 2014-03-05 2015-09-28 日本電信電話株式会社 ファイル管理システム、サーバ装置、ファイル管理方法、ユーザインタフェース提供方法ならびにファイル管理プログラム
JP2016045564A (ja) * 2014-08-20 2016-04-04 富士ゼロックス株式会社 画像処理装置およびプログラム
JP2020087122A (ja) * 2018-11-28 2020-06-04 株式会社リコー データ生成装置、データ生成方法及びプログラム

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008209985A (ja) * 2007-02-23 2008-09-11 Canon Inc データ処理装置、電子文書登録方法、及びコンピュータプログラム
US20080292195A1 (en) * 2007-05-22 2008-11-27 Vijayasenan Deepu Data Processing System And Method
US8140525B2 (en) 2007-07-12 2012-03-20 Ricoh Company, Ltd. Information processing apparatus, information processing method and computer readable information recording medium
US8144988B2 (en) * 2007-09-06 2012-03-27 Ricoh Company, Ltd. Document-image-data providing system, document-image-data providing device, information processing device, document-image-data providing method, information processing method, document-image-data providing program, and information processing program
US8194982B2 (en) * 2007-09-18 2012-06-05 Ricoh Company, Ltd. Document-image-data providing system, document-image-data providing device, information processing device, document-image-data providing method, information processing method, document-image-data providing program, and information processing program
US8254669B2 (en) * 2007-09-19 2012-08-28 Ricoh Company, Ltd. Data processing apparatus, computer program product, and data processing method for predicting an optimum function based on a case database and image feature values calculated by a feature-value calculating unit
JP5151394B2 (ja) * 2007-10-25 2013-02-27 株式会社リコー 情報管理装置、情報管理方法、及びプログラム
US20090112830A1 (en) * 2007-10-25 2009-04-30 Fuji Xerox Co., Ltd. System and methods for searching images in presentations
JP4926004B2 (ja) * 2007-11-12 2012-05-09 株式会社リコー 文書処理装置、文書処理方法及び文書処理プログラム
US9613150B2 (en) * 2007-12-28 2017-04-04 International Business Machines Corporation Remote viewing of documents via the web in real-time
JP4458184B2 (ja) * 2008-06-09 2010-04-28 ソニー株式会社 情報管理装置、通信処理装置、および方法、並びにプログラム
JP5444115B2 (ja) * 2010-05-14 2014-03-19 株式会社Nttドコモ データ検索装置、データ検索方法及びプログラム
US20110295879A1 (en) * 2010-05-27 2011-12-01 Neuone, Llc Systems and methods for document management
WO2012050251A1 (ko) * 2010-10-14 2012-04-19 엘지전자 주식회사 이동 단말기 및 그 제어방법
JP5195881B2 (ja) * 2010-11-30 2013-05-15 コニカミノルタビジネステクノロジーズ株式会社 文書閲覧装置、文書閲覧装置における表示方法、および表示プログラム
JP6045330B2 (ja) * 2012-12-21 2016-12-14 キヤノン株式会社 ファクス管理装置、情報処理方法及びプログラム
CN103077238B (zh) * 2013-01-09 2017-04-05 百度在线网络技术(北京)有限公司 电子文档的提供方法、系统、母书服务器及子书客户端
JP6323994B2 (ja) * 2013-06-06 2018-05-16 キヤノン株式会社 コンテンツ管理装置、コンテンツ管理方法及びプログラム
JP2015215853A (ja) * 2014-05-13 2015-12-03 株式会社リコー システム、画像処理装置、画像処理方法およびプログラム
JP2021051364A (ja) * 2019-09-20 2021-04-01 富士ゼロックス株式会社 情報処理装置及びプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0991305A (ja) * 1995-09-27 1997-04-04 Canon Inc 情報処理方法及び装置
JPH10320412A (ja) * 1997-05-22 1998-12-04 Tec Corp 文書作成装置
JPH11203305A (ja) * 1998-01-12 1999-07-30 Ricoh Co Ltd 文書画像処理方法および記録媒体
JP2005107931A (ja) * 2003-09-30 2005-04-21 Ricoh Co Ltd 画像検索装置

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5553277A (en) * 1992-12-29 1996-09-03 Fujitsu Limited Image search method for searching and retrieving desired image from memory device
US6415307B2 (en) * 1994-10-24 2002-07-02 P2I Limited Publication file conversion and display
JPH10307846A (ja) * 1997-03-03 1998-11-17 Toshiba Corp ドキュメント情報管理システム、ドキュメント情報管理方法、及びドキュメント検索方法
US7596755B2 (en) * 1997-12-22 2009-09-29 Ricoh Company, Ltd. Multimedia visualization and integration environment
US6353823B1 (en) * 1999-03-08 2002-03-05 Intel Corporation Method and system for using associative metadata
US6397213B1 (en) * 1999-05-12 2002-05-28 Ricoh Company Ltd. Search and retrieval using document decomposition
US6501855B1 (en) * 1999-07-20 2002-12-31 Parascript, Llc Manual-search restriction on documents not having an ASCII index
US7162691B1 (en) * 2000-02-01 2007-01-09 Oracle International Corp. Methods and apparatus for indexing and searching of multi-media web pages
US6925475B2 (en) * 2001-10-12 2005-08-02 Commissariat A L'energie Atomique Process and apparatus for management of multimedia databases
US8635531B2 (en) * 2002-02-21 2014-01-21 Ricoh Company, Ltd. Techniques for displaying information stored in multiple multimedia documents
US7283992B2 (en) * 2001-11-30 2007-10-16 Microsoft Corporation Media agent to suggest contextually related media content
US7043474B2 (en) * 2002-04-15 2006-05-09 International Business Machines Corporation System and method for measuring image similarity based on semantic meaning
CA2397424A1 (en) * 2002-08-09 2004-02-09 Mohammed Lamine Kherfi Content-based image retrieval using positive and negative examples
US7872669B2 (en) * 2004-01-22 2011-01-18 Massachusetts Institute Of Technology Photo-based mobile deixis system and related techniques
US7707039B2 (en) * 2004-02-15 2010-04-27 Exbiblio B.V. Automatic modification of web pages
US7812860B2 (en) * 2004-04-01 2010-10-12 Exbiblio B.V. Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device
US20050210008A1 (en) * 2004-03-18 2005-09-22 Bao Tran Systems and methods for analyzing documents over a network
JP4349183B2 (ja) * 2004-04-01 2009-10-21 富士ゼロックス株式会社 画像処理装置および画像処理方法
US8521737B2 (en) * 2004-10-01 2013-08-27 Ricoh Co., Ltd. Method and system for multi-tier image matching in a mixed media environment
US8156427B2 (en) * 2005-08-23 2012-04-10 Ricoh Co. Ltd. User interface for mixed media reality
US8332401B2 (en) * 2004-10-01 2012-12-11 Ricoh Co., Ltd Method and system for position-based image matching in a mixed media environment
US8600989B2 (en) * 2004-10-01 2013-12-03 Ricoh Co., Ltd. Method and system for image matching in a mixed media environment
US7809722B2 (en) * 2005-05-09 2010-10-05 Like.Com System and method for enabling search and retrieval from image files based on recognized information
WO2006127480A2 (en) * 2005-05-20 2006-11-30 Perfect Market Technologies, Inc. A search apparatus having a search result matrix display
US7433895B2 (en) * 2005-06-24 2008-10-07 Microsoft Corporation Adding dominant media elements to search results
JP2007034847A (ja) * 2005-07-28 2007-02-08 Canon Inc 検索装置及び検索方法
WO2007019571A2 (en) * 2005-08-09 2007-02-15 Compography, Inc. Methods and apparatuses to assemble, extract and deploy content from electronic documents
JP4856925B2 (ja) * 2005-10-07 2012-01-18 株式会社リコー 画像処理装置、画像処理方法及び画像処理プログラム
US20070133947A1 (en) * 2005-10-28 2007-06-14 William Armitage Systems and methods for image search
JP4859025B2 (ja) * 2005-12-16 2012-01-18 株式会社リコー 類似画像検索装置、類似画像検索処理方法、プログラム及び情報記録媒体
JP2009533727A (ja) * 2006-04-07 2009-09-17 パラメトリク・テクノロジー・コーポレーシヨン 文書の系図を維持するシステムと方法
US8060514B2 (en) * 2006-08-04 2011-11-15 Apple Inc. Methods and systems for managing composite data files
US7801358B2 (en) * 2006-11-03 2010-09-21 Google Inc. Methods and systems for analyzing data in media material having layout

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0991305A (ja) * 1995-09-27 1997-04-04 Canon Inc 情報処理方法及び装置
JPH10320412A (ja) * 1997-05-22 1998-12-04 Tec Corp 文書作成装置
JPH11203305A (ja) * 1998-01-12 1999-07-30 Ricoh Co Ltd 文書画像処理方法および記録媒体
JP2005107931A (ja) * 2003-09-30 2005-04-21 Ricoh Co Ltd 画像検索装置

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009110506A (ja) * 2007-10-11 2009-05-21 Ricoh Co Ltd 情報処理装置及び情報処理プログラム
JP2009146262A (ja) * 2007-12-17 2009-07-02 Hitachi Software Eng Co Ltd 衛星画像の選択操作支援方法及び装置
JP2009169538A (ja) * 2008-01-11 2009-07-30 Ricoh Co Ltd 文書検索装置、文書検索方法及び文書検索プログラム
JP2009223675A (ja) * 2008-03-17 2009-10-01 Ricoh Co Ltd 情報処理装置,情報処理方法,プログラム,および記録媒体
US8749577B2 (en) 2008-05-12 2014-06-10 Canon Kabushiki Kaisha Information processing apparatus, data processing method, and computer-readable recording medium storing program
JP2009271892A (ja) * 2008-05-12 2009-11-19 Canon Inc 情報処理装置、データ処理方法およびプログラム
JP2012146275A (ja) * 2010-12-20 2012-08-02 Profield Co Ltd 電子ブック処理装置、電子ブック処理方法、およびプログラム
US8930335B2 (en) 2010-12-24 2015-01-06 Kabushiki Kaisha Toshiba Information processing apparatus, information search method and program
JP2012137852A (ja) * 2010-12-24 2012-07-19 Toshiba Corp 情報処理装置、情報検索方法及びプログラム
JP2012230628A (ja) * 2011-04-27 2012-11-22 Toshiba Corp 映像表示装置、映像表示管理装置、映像表示方法、及び映像表示管理方法
US8856653B2 (en) 2011-04-27 2014-10-07 Kabushiki Kaisha Toshiba Video display apparatus, video display management apparatus, video display method and video display management method
JP2013084060A (ja) * 2011-10-06 2013-05-09 Ntt Data Corp 類似文書可視化装置、類似文書可視化方法およびプログラム
JP2014013579A (ja) * 2013-08-06 2014-01-23 Toshiba Corp 電子機器、情報の検索を行うための方法及びプログラム
JP2015072545A (ja) * 2013-10-02 2015-04-16 富士ゼロックス株式会社 文書データ処理システム、文書データ処理プログラム
JP2015170005A (ja) * 2014-03-05 2015-09-28 日本電信電話株式会社 ファイル管理システム、サーバ装置、ファイル管理方法、ユーザインタフェース提供方法ならびにファイル管理プログラム
JP2016045564A (ja) * 2014-08-20 2016-04-04 富士ゼロックス株式会社 画像処理装置およびプログラム
JP2020087122A (ja) * 2018-11-28 2020-06-04 株式会社リコー データ生成装置、データ生成方法及びプログラム
JP7135785B2 (ja) 2018-11-28 2022-09-13 株式会社リコー データ生成装置、データ生成方法及びプログラム

Also Published As

Publication number Publication date
US20070171482A1 (en) 2007-07-26
US20100067052A1 (en) 2010-03-18
JP4977452B2 (ja) 2012-07-18

Similar Documents

Publication Publication Date Title
JP4977452B2 (ja) 情報管理装置、情報管理方法、情報管理プログラム、記録媒体及び情報管理システム
US7162691B1 (en) Methods and apparatus for indexing and searching of multi-media web pages
CN100437578C (zh) 文档图像信息管理装置和文档图像信息管理方法
JP5167821B2 (ja) 文書検索装置、文書検索方法及び文書検索プログラム
US8271512B2 (en) Presenting digitized content on a network using a cross-linked layer of electronic documents derived from a relational database
US20090052804A1 (en) Method process and apparatus for automated document scanning and management system
US7949206B2 (en) Scanned image management device
US20070171473A1 (en) Information processing apparatus, Information processing method, and computer program product
US8482808B2 (en) Image processing apparatus and method for displaying a preview of scanned document data
US20060235855A1 (en) Digital library system
JP2000222394A (ja) 文書管理装置及びその文書管理方法並びにその制御プログラムを記録した記録媒体
KR20060101803A (ko) 동적 열람이 가능한 전자 문서의 제작 및 열람 방법
JP2009200699A (ja) 画像処理装置および画像処理方法
US20070185832A1 (en) Managing tasks for multiple file types
JP2006202081A (ja) メタデータ生成装置
Hurley The Making of America II Testbed Project: a digital library service model
US8447748B2 (en) Processing digitally hosted volumes
JP2010092383A (ja) 電子文書ファイル検索装置、電子文書ファイル検索方法及びコンピュータプログラム
US7418653B1 (en) System and method for data publication through web pages
CN100489857C (zh) 管理信息的方法和装置
JP2010170525A (ja) 付加画像処理システム、画像形成装置及び付加画像追加方法
JP2005149210A (ja) 画像処理装置及びその制御方法、プログラム
JP2009110506A (ja) 情報処理装置及び情報処理プログラム
Amato et al. Using milos to build a multimedia digital library application: The photobook experience
Kuhn Sweave and the open document format–the odfWeave package

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090716

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110615

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110621

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110819

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111220

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120213

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120410

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120416

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150420

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees