JP5167821B2 - 文書検索装置、文書検索方法及び文書検索プログラム - Google Patents

文書検索装置、文書検索方法及び文書検索プログラム Download PDF

Info

Publication number
JP5167821B2
JP5167821B2 JP2008004802A JP2008004802A JP5167821B2 JP 5167821 B2 JP5167821 B2 JP 5167821B2 JP 2008004802 A JP2008004802 A JP 2008004802A JP 2008004802 A JP2008004802 A JP 2008004802A JP 5167821 B2 JP5167821 B2 JP 5167821B2
Authority
JP
Japan
Prior art keywords
unit
document
search
page
document information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008004802A
Other languages
English (en)
Other versions
JP2009169538A (ja
Inventor
雅二郎 岩崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2008004802A priority Critical patent/JP5167821B2/ja
Priority to US12/318,246 priority patent/US20090183115A1/en
Priority to CN2009100023430A priority patent/CN101488145B/zh
Publication of JP2009169538A publication Critical patent/JP2009169538A/ja
Application granted granted Critical
Publication of JP5167821B2 publication Critical patent/JP5167821B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、文書情報の検索結果を表示する文書検索装置、文書検索方法及び文書検索プログラムに関するものである。
近年、コンピュータ関連技術の向上、ネットワーク環境の整備によって文書の電子化が進んでいる。これによりオフィスのペーパレス化が促進されている。
具体的には、利用者は、各種書類や文書等をPC(Personal Computer)上で電子文書として作成する。そして、作成された電子文書は、PC又はサーバ上で編集、コピー、転送、共有などが行われる。この際、文書が保存されているPC又はサーバが、ネットワークにより他のPCと接続されている場合、接続されたPCからも電子文書の閲覧、編集等を行うことができる。
このようなオフィス環境においては、複数人が複数のPCで電子文書を作成するため、それぞれの電子文書を共通して管理するのが難しい。これにより利用者の間で混乱を招くこともある。例えば、利用者が必要な電子文書がどのPCでどのように保存されているのかわからないので、検索できない等が考えられる。そこで現在では、いくつかの文書管理システムが提案されている。
例えば、特許文献1では、スキャナ文書、FAX文書、アプリケーションで作成された電子文書、WWW文書などを、文書毎にオリジナルのデータとテキストファイルとページ毎のサムネイル等とを対応付けて保持している。これにより、検索が行われた場合に、電子文書の各ページのサムネイルを必要に応じて表示することができる。
特開平11−120202号公報
しかしながら特許文献1に記載された発明では、複数の文書データに対して検索を行い、ページ単位で表示を行うと、煩雑になるため利用者が所望するページを見つけ出すのが難しいという問題がある。
本発明は、上記に鑑みてなされたものであって、ページなどの文書データに含まれる要素を容易に取得できる文書検索装置、文書検索方法及び文書検索プログラムを提供することを目的とする。
上述した課題を解決し、目的を達成するために、請求項1にかかる発明は、文書情報と、文書情報を構成する各要素と、前記文書情報内における前記要素の順序を示す要素番号と、を対応付けて記憶する対応関係記憶部と、複数の文字列を検索条件として要求された場合に、前記対応関係記憶部に記憶された前記各要素から、当該複数の文字列のいずれか一つ以上を含む前記要素を検索する検索部と、前記検索部で検索された前記要素と対応付けられている前記文書情報を特定する文書特定部と、前記文書特定部により特定された前記文書情報のうち、前記複数の文字列のそれぞれが異なる前記要素に含まれている前記文書情報について、当該異なる前記要素の前記要素番号の間隔が所定の間隔以上の場合に、当該異なる前記要素を、前記検索部で検索された検索結果から削除する削除部と、前記文書特定部により特定された前記文書情報単位で、前記削除部で削除された後の前記要素をまとめる纏め部と、前記纏め部により前記文書情報単位でまとめられた前記要素を表示処理する表示処理部と、を備えることを特徴とする。
また、請求項にかかる発明は、請求項にかかる発明において、前記対応関係記憶部が記憶する各要素がページを示していること、を特徴とする。
また、請求項にかかる発明は、請求項1又は2にかかる発明において、前記表示処理部により表示された前記文書情報の選択を受け付ける選択受付部と、前記選択受付部により選択を受け付けた前記文書情報のページの一覧を表示する一覧表示部と、をさらに備えることを特徴とする。
また、請求項にかかる発明は、請求項1又は2にかかる発明において、前記表示処理部により表示された前記文書情報の選択を受け付ける選択受付部と、前記表示処理部が表示した前記文書情報に対する検索条件の入力を受け付ける入力受付部と、をさらに備え、前記検索部は、前記選択受付部により選択された前記文書情報内の前記要素として、前記表示処理部により表示処理された前記要素から、前記入力受付部により入力を受け付けた前記検索条件に一致する前記要素を検索すること、を特徴とする。
また、請求項にかかる発明は、請求項1又は2にかかる発明において、前記表示処理部により表示された前記文書情報の選択を受け付ける選択受付部と、前記表示処理部が表示した前記文書情報に対する検索条件の入力を受け付ける入力受付部と、をさらに備え、前記検索部は、前記選択受付部により選択された前記文書情報と前記対応関係記憶部と対応付けられている前記要素から、前記入力受付部により入力を受け付けた前記検索条件に一致する前記要素を検索すること、をさらに備えることを特徴とする。
また、請求項にかかる発明は、請求項1にかかる発明において、前記対応関係記憶部は、前記要素が前記文書情報のページを構成する各領域を示し、当該領域の情報と前記文書情報のページとを対応付けた領域対応情報と、当該ページと当該ページを表すページ画像情報と前記文書情報と対応付けたページ対応情報と、を記憶し、前記検索部は、前記対応関係記憶部に記憶された各領域の情報に対して、任意の検索条件で検索し、前記表示処理部は、前記検索部で検出された前記領域の情報と前記対応関係記憶部で対応付けられた前記ページを表すページ画像情報を、前記文書特定部により特定された前記文書情報毎にソートして表示すること、を特徴とする。
また、請求項にかかる発明は、請求項にかかる発明において、前記表示処理部は、前記ページ画像情報のうち、前記検索部で検出された前記領域を、他の領域と識別可能に表示すること、を特徴とする。
また、請求項にかかる発明は、文書情報と、文書情報を構成する各要素と、前記文書情報内における前記要素の順序を示す要素番号と、を対応付けて対応関係記憶部に記憶する対応関係記憶ステップと、検索部が、複数の文字列を検索条件として要求された場合に、前記対応関係記憶部に記憶された前記各要素から、当該複数の文字列のいずれか一つ以上を含まれている前記要素を検索する検索ステップと、文書特定部が、前記検索ステップで検索された前記要素と対応付けられている前記文書情報を特定する文書特定ステップと、削除部が、前記文書特定部により特定された前記文書情報のうち、前記複数の文字列のそれぞれが異なる前記要素に含まれている前記文書情報について、当該異なる前記要素の前記要素番号の間隔が所定の間隔以上の場合に、当該異なる前記要素を、前記検索部で検索された検索結果から削除する削除ステップと、纏め部が、前記文書特定ステップにより特定された前記文書情報単位で、前記削除ステップで削除された後の前記要素をまとめる纏めステップと、表示処理部が、前記纏めステップにより前記文書情報単位でまとめられた前記要素を表示処理する表示処理ステップと、を有することを特徴とする。
また、請求項にかかる発明は、文書情報を検索する手段として、コンピュータを機能させるプログラムであって、文書情報と、文書情報を構成する各要素と、前記文書情報内における前記要素の順序を示す要素番号と、を対応付けて対応関係記憶部に記憶する対応関係記憶手段と、複数の文字列を検索条件として要求された場合に、前記対応関係記憶部に記憶された前記各要素から、当該複数の文字列のいずれか一つ以上を含む前記要素を検索する検索手段と、前記検索手段で検索された前記要素と対応付けられている前記文書情報を特定する文書特定手段と、前記文書特定手段により特定された前記文書情報のうち、前記複数の文字列のそれぞれが異なる前記要素に含まれている前記文書情報について、当該異なる前記要素の前記要素番号の間隔が所定の間隔以上の場合に、当該異なる前記要素を、前記検索手段で検索された検索結果から削除する削除手段と、前記文書特定手段により特定された前記文書情報単位で、前記削除手段で削除された後の要素をまとめる纏め手段と、前記纏め手段により前記文書情報単位でまとめられた前記要素を表示処理する表示処理手段、としてコンピュータを機能させることを特徴とする。
本発明によれば、文書情報毎にまとめて要素を表示処理するので、閲覧の効率を高め、所望の要素を容易に特定できるという効果を奏する。
以下に添付図面を参照して、この発明にかかる文書検索装置、文書検索方法及び文書検索プログラムの最良な実施の形態を詳細に説明する。
(第1の実施の形態)
図1は、本発明の第1の実施の形態にかかる文書検索装置100の構成を示すブロック図である。本図に示すように文書検索装置100の内部は、要素対応記憶部101と、文書データ記憶部102と、ページ画像記憶部103と、操作処理部104と、検索部105と、登録部106と、削除部107と、文書特定部108と、表示処理部109と、纏め部110とを備え、文書データの登録、管理、検索等を行うことを可能とする。文書検索装置100は、モニタ152と、入力デバイス151と接続されている。
また、本実施の形態の文書検索装置100で管理される文書データは、文字等も画像として表された文書画像と、文書作成アプリケーションで作成された電子文書とを含むものとする。
要素対応記憶部101は、文書管理テーブルと、ページ対応管理テーブルと、を記憶する。
図2は、文書管理テーブルのテーブル構造を示した図である。本図に示すように、文書管理テーブルは、文書IDと、タイトルと、作成更新日と、ページ数と、ファイルフォーマットと、ファイルパスと、ファイル名とを対応付けて保持する。
文書IDは、文書データ毎に付与されたユニークなIDであり、これにより文書データを特定できる。タイトルは文書データのタイトルである。作成更新日は、文書データの作成日又は最終更新日を保持する。ページ数は文書データのページ数を保持している。ファイルフォーマットは、文書データ毎のフォーマットを保持している。これにより、管理している文書が、スキャナ文書、FAX文書、アプリケーションで作成された電子文書、又はWWW文書等のうちいずれかのフォーマットであるか特定することができる。
ファイルパスは、文書データが格納された場所を示している。そして、ファイル名は、文書データのファイル名を示している。
図3は、ページ対応管理テーブルのテーブル構造を示した図である。本図に示すように、ページ対応管理テーブルは、ページIDと、文書IDと、ページ番号と、特徴量と、テキスト特徴量と、サムネイルパスと、プレビューパスと、を対応付けて保持している。
ページIDは、文書データを構成するページ毎に付与されたユニークなIDであり、このIDにより当該文書検索装置100が管理している文書データのページを一意に特定できる。文書IDは、当該ページを含んでいる文書データを特定するIDとする。ページ番号は、当該ページを含んでいる文書データ中における、当該ページのページ番号とする。特徴量は、当該ページの全体の画像として捉え、当該画像から抽出された特徴を示すものである。
そして、テキスト特徴量は、当該ページに含まれるテキスト情報から抽出された特徴とし、例えばテキスト情報中のキーワードや頻出回数等を保持する。また、文書データが文書画像の場合、OCRを用いることで当該ページの文書画像から抽出されたテキスト情報に対して、テキスト特徴量の抽出を行う。サムネイルパスは、画面全体を表したサムネイルが格納されている場所を保持する。プレビューパスは、画面全体を表したプレビュー画像が格納されている場所を保持する。
文書データ記憶部102は、文書データと、当該文書を表すサムネイルを格納する。
ページ画像記憶部103は、文書データの各ページを表すプレビュー画像と、文書データの各ページを表すサムネイルを格納する。
これら、要素対応記憶部101、文書データ記憶部102及びページ画像記憶部103は、HDD(Hard Disk Drive)、光ディスク、メモリカード、RAM(Random Access Memory)などの一般的に利用されているあらゆる記憶手段により構成することができる。
登録部106は、文書データを検索可能とするための登録を行う。このために、登録部106は、文書データを文書データ記憶部102に登録し、当該文書データの各ページから生成されたページ画像データ及びサムネイルをページ画像記憶部103に登録する。さらに、登録部106は、当該文書データ及び各ページの情報を、文書管理テーブル及びページ対応管理テーブルに登録する。
操作処理部104は、入力受付部111と、選択受付部112とを備え、入力デバイス151から入力された操作を処理する。
入力受付部111は、入力デバイス151から検索条件の入力を受け付ける。この検索条件の入力は、最初に表示された検索画面、及び検索後に表示される検索結果画面等に対して行うことができる。
選択受付部112は、表示処理部109により表示された複数の文書データから、文書データの選択を受け付ける。
検索部105は、入力受付部111で入力された検索条件で、文書管理テーブル及びページ対応管理テーブルのいずれか一つ以上に対して検索を行う。検索部105は、文書データを検出する目的で検索を行ってもよいし、文書データに含まれるページを検出する目的で検索を行ってもよい。
また、検索部105は、ページに対する検索条件として、複数の文字列を含むことを検索条件として入力された場合、当該複数の文字列のうちいずれか一つ以上を含むページを検索する。具体的には検索部105は、ページ対応管理テーブルのフィールド“テキスト特徴量”に対して、複数の文字列のうちいずれか一つ以上を含むことを検索条件として、検索し、当該検索条件を満足するレコードのページID、ページ番号、文書ID及びサムネイルパスを検出する。
文書特定部108は、検索部105がページを検出する目的で検索を行った場合に、検出された各ページに対して、当該ページを含む文書データを特定する。当該ページを含む文書データの特定は、ページ対応管理テーブルにおいて、ページIDと対応付けられている文書IDから特定できる。これにより、検出された各ページを文書データ毎にまとめて表示可能となる。
削除部107は、複数の文字列を含むことを検索条件として入力された際、文書特定部108により特定された文書データ内で、複数の文字列のそれぞれが異なるページに含まれている場合に、これらページのページ番号の間隔が所定の間隔以上であれば、これらページを、検索部105で検索された検索結果から削除する。本実施の形態では、2ページ以上の場合に削除するものとするが、必要に応じて変更しても良い。
図4〜図7は、検索部105により検出されたページのうち、削除する条件の例を示す説明図である。図4〜図7においては、検索条件として文字列‘A’及び文字列‘B’が入力されたものとする。
図4に示す例では、ページ401に文字列‘A’及び文字列‘B’が含まれており、文字列‘A’を含むページと、文字列‘B’を含むページの間隔が、2ページ以内のため、削除部107は、ページ401の削除を行わない。
図5に示す例では、ページ501に文字列‘A’が含まれ、ページ501の次ページであるページ502に文字列‘B’が含まれている。この場合、ページ501と、ページ502との間隔が、2ページ以内のため、削除部107は、ページ501、502の削除を行わない。
図6に示す例では、ページ601に文字列‘A’が含まれ、ページ601から2ページ先であるページ602に文字列‘B’が含まれている。この場合、ページ601と、ページ602との間隔が、2ページ以内のため、削除部107は、ページ601、602の削除を行わない。
図7に示す例では、ページ701に文字列‘A’が含まれ、ページ701から3ページ先であるページ702に文字列‘B’が含まれている。この場合、ページ701と、ページ702との間隔が、2ページより大きいため、削除部107は、ページ701及び702を削除する。
つまり、利用者が文字列‘A’及び文字列‘B’を検索条件としてページの検索を行った場合に、これら文字列‘A’及び文字列‘B’が複数のページにまたがっていれば、検索条件に一致するページとして検出されないことになる。しかしながら、これらページは文字列‘A’及び文字列‘B’が近傍に存在する以上、利用者にとって有益な情報が記載されているページとなり得る。
一方、文字列‘A’及び文字列‘B’を検索条件として文書データを検索した場合、これらページを含む文書データを検出することはできる。しかしながら、利用者は、検出された文書データにおいて、いずれのページに文字列‘A’又は文字列‘B’が記載されているのか確認するために、当該文書データに対して再度これらの文字列を検索条件として検索を行う必要がある。また、文書データの検索を行う場合、文字列‘A’と文字列‘B’とが全く異なるページに存在する場合においても検出されるため、利用者にとってさほど有益でない場合もある。
そこで、本実施の形態にかかる文書検索装置100においては、複数の文字列が検索条件として設定された場合に、これら複数の文字列を含むページが、2ページ以内であれば検出されるようにした。これにより、これら複数の文字列を含まずとも、これら複数の文字列と関連するページを利用者に対して提示することができる。
纏め部110は、削除部107が削除した後のページ群を、文書特定部108により特定された文書データ毎にまとめる。
表示処理部109は、一覧表示処理部121を備え、モニタ152に対して、情報を表示する。また、表示処理部109は、文書データの検索する画面及び検索結果画面を表示する。例えば、表示処理部109は、纏め部110により文書データ毎にまとめられたページ群を表示する。表示処理部109は、これら画面をWebブラウザ上に表示しても良い。
一覧表示処理部121は、表示処理部109が文書データ毎にページをまとめて表示した場合に、選択受付部112が文書データの選択を受け付けた際に、当該文書データに含まれているページの一覧を表示する。
図8は、表示処理部109が表示する検索画面の例を示した図である。図8に示すように、キーワード801に検索キーとなる文字列の入力を受け付ける。
検索対象802は、検索対象としてページか文書データかの選択を受け付ける。なお、本実施の形態においては、検索対象がページの場合について説明する。
表示単位803は、検索結果をページ単位か、文書単位かの選択を受け付ける。詳細説明804は、検索結果を表示する際に、文書データ又はページの詳細説明を表示するか否かの選択を受け付ける。検索ボタン805は、押下された場合に検索を開始する。
ここで、従来の検索結果について説明する。図9は、従来からのページの検索結果として表示されるページ検索結果の画面を示す図である。図9において、D(番号)が文書データの名称を示し、P(番号)がページ番号を示している。従来のページの検索結果では、検索条件に該当するページが、同一文書データであるか否かにかかわらず表示される。これでは、利用者が、検索結果として表示された各ページの関係を把握できない。
そこで、本実施の形態にかかる文書検索装置100では、検索条件に一致するページを文書データ毎にまとめて表示することとした。
図10は、表示処理部109が表示した検索結果の第1の例を示した図である。当該検索結果を表示するために検索画面(図8参照)において、表示単位を「ページ単位」と、詳細説明を「なし」と設定されたものとする。図10に示す検索結果では、文書データD32、D20、D2に含まれるページが、それぞれ文書データ毎にまとめられた上で、ページ番号順に表示される。
図10に示す例では、同一文書データに関わらずページ毎に画面上で表示されている。このため、検索条件に一致した文書データが多数の場合には、利用者が閲覧する際の操作負担が大きい。そこで文書データが多数の場合に適した表示手法について説明する。
図11は、表示処理部109が表示した検索結果の第2の例を示した図である。当該検索結果を表示するために検索画面(図8参照)において、表示単位を「文書単位」と、詳細説明を「なし」と設定されたものとする。図11に示す検索結果では、文書データ(D32、D20、D2)毎にページを重畳して表示される。
図11に示す例では、文書データのうち最もページ番号が小さいページの画像データが参照できる。これにより、利用者が所望の文書データか否かを判断できる場合も多い。
また、表示処理部109は、ヒットしたページのうち最もページ番号が小さいページを表示するのではなく、当該文書データのフロントページを必ず最上位に表示してもよい。さらに、表示処理部109は、検索一致したページか否かにかかわらず、文書データの全ページを重畳して表示し、ヒットしたページは判別可能に表示しても良い。判別可能に表示する例としては、どのような手法を用いても良いが、例えば色分けするなどが考えられる。また、表示処理部109が切替ボタンを表示し、操作処理部104のボタン操作の受け付けに応じて、表示処理部109が全ページ表示か、検索条件に一致したページのみ表示か切り替えても良い。
次に、図11に示すようにページが文書データ毎にまとめられた場合に、各ページを表示するための操作について説明する。この場合、利用者が入力デバイス151で各文書データを指し示す。これにより、一覧表示処理部121が文書データとしてまとめられた各ページを表示する。
図12は、一覧表示処理部121が表示したページ一覧の第1の例を示した図である。図12に示すように、カーソル1202が文書データD20を選択した場合に、一覧表示処理部121がウィンドウ1201内に、文書データD20を構成する2ページ(ページP4及びページP10)を表示する。このように、当該ウィンドウ1201内には、検索でヒットしたページのみ表示される。そして、他のページを表示したい場合には、ページめくりの操作を受け付けることで、参照可能となる。このように、一覧表示処理部121は、ページめくりする旨の操作を受け付けた場合、次ページ又は前ページを表示する。また、一覧表示処理部121は、検索にヒットしたページのみ表示することに制限するものではなく、例えば、利用者に選択された文書データ内全てのページを参照可能にし、これらページのうち検索でヒットしたページのみハイライト表示しても良い。
また、ウィンドウ1201内には、検索ボックス1203が存在し、文書データD20内に含まれているページの検索を可能としている。この文書内検索では先の文書検索でヒットしたページに対して検索してもよいし、ヒットしたページだけでなく全ページに対して検索しても良い。
図12に示した画面例においては、ページP10以降のページを表示したい場合、ページP10をカーソル1202でクリックすると、一覧表示処理部121は、一番上のページを一番下に移動させることで、上から2番目にあったページが表示される。また、一覧表示処理部121は、当該ウィンドウ1201においてページの重畳を表示し、少しはみだしているページの一部をクリックすることで、当該ページを一番上に表示してもよい。
このように、表示処理部109が表示する各文書データに対してマウスオーバーやダブルクリック等の処理が行われると、一覧表示処理部121が、選択された文書データのページを見開きで表示する。そして、クリック操作によってページがめくれるなどの処理を行う。
また、ページの一覧表示手法は、図12に示した表示形態に制限するものではなく、さまざまな手法が考えられる。そこで、表示手法の他の例について説明する。
図13は、一覧表示処理部121が表示したページ一覧の第2の例を示した図である。ウィンドウ1301には4ページのサムネイル画像が表示されている。図13に示す画面例では、検索結果としてまとめられたページ数に応じてウィンドウサイズを変更する。
図14は、一覧表示処理部121が表示したページ一覧の第3の例を示した図である。図14に示すウィンドウ1401内では、文書データ内に検索条件に一致したページが大量にある。そこで、一覧表示処理部121が、スクロールバー1402を表示している。これにより、利用者は検索条件に一致した全てのページのサムネイルを閲覧することができる。
また、各ページのサムネイル以外の情報を表示するためには、利用者が、検索画面において詳細設定を「あり」と設定することで可能となる。これにより、文書名、ページ番号、ファイル形式などを表示することが可能となる。
そこで、再び検索結果の表示例について説明する。図15は、表示処理部109が表示した検索結果の第3の例を示した図である。当該検索結果を表示するために検索画面(図8参照)において、表示単位を「ページ単位」と、詳細説明を「あり」と設定されたものとする。図15に示す検索結果では、文書データ毎にまとめられたページが、ページ順に表示されている。さらに、表示処理部109は、ページ毎に詳細な情報を表示する。詳細な情報の例として、表示処理部109は、文書タイトル、作成日、ページ番号、及びヒットした文字列(単語)を含むテキストを表示する。このテキスト表示においては、ヒットした文字列等をハイライト表示しても良い。
図16は、表示処理部109が表示した検索結果の第4の例を示した図である。当該検索結果を表示するために検索画面(図8参照)において、表示単位を「文書単位」と、詳細説明を「あり」と設定されたものとする。図16に示す検索結果では、文書データ毎にページを重畳して表示される。さらに、表示処理部109は、文書データ毎に詳細な情報を表示する。詳細な情報の例として、表示処理部109は、文書タイトル、作成日、ページ番号、及びヒットした文字列(単語)を含むテキストを表示する。
図16に示すようにページが文書データ毎にまとめられた場合についても、ページ一覧を表示することができる。なお、その際の操作については、上述した操作と同様なので説明を省略する。
図17は、一覧表示処理部121が表示したページ一覧の第4の例を示した図である。図17に示すように、一覧表示処理部121は、ウィンドウ1701内に、検索条件に一致した各ページのサムネイル及び詳細情報を表示している。なお、図17に示す画面構成で表示するのではなく、図13で示した画面構成で表示してもよい。
また、図13又は図17で示した画面が表示されている場合に、操作処理部104が、任意のサムネイルの選択、及び当該サムネイル上でマウスのホイールの操作を受け付けた場合、一覧表示処理部121は、当該サムネイルの拡大表示を行う。次に、拡大表示されたあとの画面例について説明する。
図18に示す画面例は、一覧表示処理部121による拡大表示後のページ一覧の画面例を示した図である。図18に示した例では、一覧表示処理部121が、ウィンドウ1805の下欄に、ページ一覧1804を表示している。そして、一覧表示処理部121は、拡大表示されたページ画像1806を表示する。また、他のページを拡大表示したい場合、ページ一覧1804からのページ選択、又はページ戻し1801若しくはページ送り1802の押下により可能とする。また、当該ウィンドウ1805においても検索ボックス1803を表示し、任意のページの検索を実行できる。
本実施の形態においては、入力受付部111が、文書内検索ボックス1803に対する文字列の入力を受け付けた場合、検索部105は、各ウィンドウに表示されているページの一覧から、入力された文字列を含むページを絞り込むよう検索を行う。これにより、さらに、利用者に適したページを提示できる。
また、文書内検索ボックスを用いて検索を行う手法は、上述した手法に限らず、文書内検索ボックスに入力された文字列を含むページを全て表示するように、検索部105が、要素対応記憶部101に対して検索を行ってもよい。
次に、以上のように構成された本実施の形態にかかる文書検索装置100における文書検索処理について説明する。図19は、本実施の形態にかかる文書検索装置100における上述した処理の手順を示すフローチャートである。なお、本実施の形態においては、利用者が、複数の文字列を検索条件として検索した場合について説明する。
まず、入力受付部111が、検索画面から、複数の文字列を検索条件として入力を受け付ける(ステップS1901)。
次に、検索部105が、入力を受け付けた複数の文字列のうち、いずれか一つ以上がテキスト特徴量として含まれているページの検索を、ページ対応管理テーブルに対して行う(ステップS1902)。そして、検索部105は、検出されたレコードのページID、ページ番号、文書ID及びサムネイルパスを取得する。
そして、文書特定部108が、取得した文書IDから、検出されたページを含む文書データを特定する(ステップS1903)。
次に、削除部107が、文書特定部108により特定された文書データ内で、複数の文字列のそれぞれが異なるページに含まれている場合に、これらページのページ番号の間隔が所定の間隔以上であれば、これらページを、検索部105で検索された検索結果から削除する(ステップS1904)。本実施の形態では、所定の間隔を2ページとする。
次に、纏め部110が、削除部107が削除した後の検索結果となるページ群を、文書特定部108により特定された文書データ毎にまとめる(ステップS1905)。
次に、表示処理部109が、検索画面で設定された表示単位に基づいて、文書データ単位で表示するか否か判断する(ステップS1906)。具体的には、検索画面で設定された表示単位が、文書データ単位であれば、文書データ単位で表示すると判断し、表示単位がページ単位であればページ単位で表示すると判断する。
そして、表示処理部109が、文書データ単位で表示すると判断した場合(ステップS1906:Yes)、文書データ毎にまとめられたページを重畳して表示する(ステップS1907)。この画面例としては、図11に示した画面や、図16で示した画面などが考えられる。
一方、表示処理部109が、文書データ単位で表示しないと判断した場合(ステップS1906:No)、文書データ毎にまとめられたページ群をページ番号順に、各ページのサムネイルを表示する(ステップS1908)。この画面例としては、図10に示した画面や、図15で示した画面などが考えられる。
上述した処理手順により、文書検索装置100が、利用者に対して文書データ毎にまとめてページを表示することができる。
本実施の形態にかかる文書検索装置100は、ページ等の要素を文書データ単位にまとめて表示するので、閲覧の効率を高めることができる。
また、本実施の形態においては、文書を検索するためにスタンドアローンの装置として説明した。しかしながら、操作処理部、及び表示処理部(GUI画面)をクライアント側で構成し、それ以外の構成をWebアプリケーションサーバ側で構成し、クライアント・サーバ上で実行しても良い。
本実施の形態では、検索条件として文字列が入力された例について説明したが、文書データの検索手法として、画像検索などさまざまな手法を用いても良い。
また、複数の文字列を検索条件として設定した場合に、所定の間隔以内であれば検出できるようにしたため、関連する要素の検出が容易となる。また、ページなどの要素間にまたがる場合であっても容易に検出することが可能となる。さらに、ページなどの要素単位で検索する場合に、効率よく所望の情報を特定することが可能となる。
(第2の実施の形態)
第1の実施の形態においては、検索対象となる要素がページの例について説明した。しかしながら、検索対象となる要素をページに制限するものではない。そこで、第2の実施の形態では、検索対象となる要素として、ページ内の領域を選択可能とした例について説明する。
図20は、第2の実施の形態にかかる文書検索装置2000の構成を示すブロック図である。図20に示す文書検索装置2000は、上述した第1の実施の形態にかかる文書検索装置100とは、要素対応記憶部2001に領域対応管理テーブルが追加されていること、検索部105とは処理が異なる検索部2002に変更され、文書特定部108とは処理が異なる文書特定部2003に変更され、削除部107とは処理が異なる削除部2006に変更され、纏め部110とは処理が異なる纏め部2005に変更され、表示処理部109とは処理が異なる表示処理部2004に変更された構成を有している点で異なる。以下の説明では、上述した第1の実施の形態と同一の構成要素には同一の符号を付してその説明を省略している。
要素対応記憶部2001は、要素を検索可能とするために、領域対応管理テーブルを、さらに記憶する。
図21は、領域対応管理テーブルのテーブル構造を示した図である。本図に示すように、領域対応管理テーブルは、領域IDと、文書IDと、ページIDと、領域座標と、種別と、タイトルと、テキストと、周囲テキストと、特徴量と、サムネイルパスとを対応付けて保持している。
領域IDは、文書データから分割された領域毎に付与されたユニークなIDであり、このIDにより当該文書検索装置2000が管理している文書データに含まれている領域を特定できる。文書IDとページIDは、当該領域を含んでいる文書データ及びページを特定するIDとする。領域座標は、当該領域を特定する座標を保持し、本実施の形態では左上の頂点座標と右下の頂点座標を保持することで当該領域を特定する。
種別は、当該領域のデータの種別を特定する情報を保持する。データの種別としては、例えばテキスト、画像、動画等とする。タイトルは、当該領域を示すタイトルを保持する。テキストは当該領域に含まれていたテキスト情報を保持する。
周囲テキストは、例えばデータの種別が画像の場合に、当該画像の周囲に配置されていたテキスト情報を保持する。これにより、利用者は、検索画面からテキストで検索条件を設定して、関連のある画像を検索することができる。
特徴量は、当該領域を特定する特徴量を保持する。また、特徴量は、例えば種別が画像であれば画像の特徴量が格納され、種別がテキストであればテキスト特徴量が格納される。このように特徴量は種別に応じて異なる種類の特徴量を保持する。これにより、同じ種別の特徴量を比較することで、各領域が類似するか否か適切に判断することができる。なお、特徴量の抽出方法については後述する。サムネイルパスは、領域を表したサムネイルが格納されている場所を保持する。
検索部2002は、検索画面で検索対象として領域が選択された場合に、領域対応管理テーブルに対して検索を行う。領域に対して検索を行う際、検索部2002は、領域対応管理テーブルのフィールド“特徴量”に対して検索し、当該検索条件を満足するレコードの領域ID、ページID、ページ番号、文書ID及びサムネイルパスを検出する。なお、他の検索手法については、第1の実施の形態と同様として説明を省略する。
文書特定部2003は、検索部2002が領域を検出する目的で検索を行った場合、検出された各領域に対して、当該領域を含むページ及び文書データを特定する。当該領域を含むページ及び文書データの特定は、領域対応管理テーブルにおいて、領域IDと対応付けられているページID及び文書IDから特定できる。これにより、検出された各領域を、ページ毎又は文書データ毎にまとめて表示可能となる。なお、ページを検出する目的で検索を行った場合の処理は、第1の実施の形態と同様として説明を省略する。
削除部2006は、複数の文字列を含むことを検索条件として入力された際、文書特定部2003により特定された文書データ又はページ内で、複数の文字列のそれぞれが異なるページ又は領域に含まれている場合に、これらページのページ番号又はこれら領域の間隔が所定の間隔以上であれば、これら領域(ページ番号の場合はページに含まれる領域)を、検索部2002で検索された検索結果から削除する。
纏め部2005は、削除部2006が削除した後の各領域群を、文書特定部2003により特定された文書データ又はページ毎にまとめる。
表示処理部2004は、一覧表示処理部2011を備え、モニタ152に対して、情報の表示処理を行う。
表示処理部2004は、第1の実施の形態にかかる表示処理部109と異なる点として、検索対象が領域の場合、纏め部2005により纏められた文書データ単位又はページ単位で表示する。文書単位で表示する場合、第1の実施の形態と同様に表示する。また、表示処理部2004は、ページ単位で表示する際、文書データ単位でまとめた後、ページ番号順にページを表示するが、その際、検出された領域についてハイライト表示を行う。
一覧表示処理部2011は、表示処理部2004が文書データ毎にページをまとめて表示した場合に、選択受付部112が文書データの選択を受け付けた際、当該文書データに含まれているページのうち、検出された領域を含むページの一覧を表示する。
図22は、第2の実施の形態にかかる一覧表示処理部2011が表示したページ一覧の例を示した図である。図22に示すように、一覧表示処理部2011は、ウィンドウ2201内に、検索条件に一致した領域を含むページのサムネイル及び詳細情報を表示している。その際、一覧表示処理部2011は、検索条件に一致した領域2202、2203及び2204をハイライト表示している。領域2203及び2204は、同一ページに二つの文書要素が検出された例とする。
本実施の形態にかかる文書検索装置2000では領域がテキストの場合について説明したが、画像などであっても良い。
また、本実施の形態にかかる文書検索装置2000においては、第1の実施の形態にかかる文書検索装置100の効果の他に、文書内に含まれる領域の検索が容易になると共に、領域をハイライト表示するために視認性が向上する。
図23は、文書検索装置100、2000の機能を実現するためのプログラムを実行したPCのハードウェア構成を示した図である。文書検索装置100、2000は、CPU(Central Processing Unit)2301等の制御装置と、ROM(Read Only Memory)2302やRAM(Random Access Memory)2303等の記憶装置と、文書データなどを記憶するHDD(Hard Disk Drive)2305と、通信I/F2304と、これらを接続するバス2306を備えており、通常のコンピュータを利用したハードウェア構成となっている。
本実施形態の文書検索装置100、2000で実行される文書検索プログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、フレキシブルディスク(FD)、CD−R、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録されて提供される。
また、本実施形態の文書検索装置100、2000で実行される文書検索プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また、本実施形態の文書検索装置100、2000で実行される文書検索プログラムをインターネット等のネットワーク経由で提供または配布するように構成しても良い。
また、本実施形態の文書検索プログラムを、ROM等に予め組み込んで提供するように構成してもよい。
本実施の形態の文書検索装置100、2000で実行される文書検索プログラムは、上述した各部(操作処理部、登録部、検索部、文書特定部、削除部、表示処理部)を含むモジュール構成となっており、実際のハードウェアとしてはCPUが上記記録媒体から文書検索プログラムを読み出して実行することにより上記各部がRAM2303上にロードされ、操作処理部、登録部、検索部、文書特定部、削除部、表示処理部がRAM2303上に生成されるようになっている。
以上のように、本発明にかかる文書検索装置、文書検索方法及び文書検索プログラムは、文書データの表示に有用であり、特に、文書データに含まれる要素を表示する技術に適している。
第1の実施の形態にかかる文書検索装置の構成を示すブロック図である。 文書管理テーブルのテーブル構造を示した図である。 ページ対応管理テーブルのテーブル構造を示した図である。 検索部により検出されたページのうち、削除する条件の第1の例を示す説明図である。 検索部により検出されたページのうち、削除する条件の第2の例を示す説明図である。 検索部により検出されたページのうち、削除する条件の第3の例を示す説明図である。 検索部により検出されたページのうち、削除する条件の第4の例を示す説明図である。 表示処理部が表示する検索画面の例を示した図である。 従来からのページの検索結果として表示されるページ検索結果の画面を示す図である。 表示処理部が表示した検索結果の第1の例を示した図である。 表示処理部が表示した検索結果の第2の例を示した図である。 一覧表示処理部が表示したページ一覧の第1の例を示した図である。 一覧表示処理部が表示したページ一覧の第2の例を示した図である。 一覧表示処理部が表示したページ一覧の第3の例を示した図である。 表示処理部が表示した検索結果の第3の例を示した図である。 表示処理部が表示した検索結果の第4の例を示した図である。 一覧表示処理部が表示したページ一覧の第4の例を示した図である。 一覧表示処理部による拡大表示後のページ一覧の画面例を示した図である。 第1の実施の形態にかかる文書検索装置における文書データの検索処理の手順を示すフローチャートである。 第2の実施の形態にかかる文書検索装置の構成を示すブロック図である。 領域対応管理テーブルのテーブル構造を示した図である。 第2の実施の形態にかかる一覧表示処理部が表示したページ一覧の例を示した図である。 文書検索装置の機能を実現するためのプログラムを実行したPCのハードウェア構成を示した図である。
符号の説明
100、2000 文書検索装置
101、2001 要素対応記憶部
102 文書データ記憶部
103 ページ画像記憶部
104 操作処理部
105、2002 検索部
106 登録部
107、2006 削除部
108、2003 文書特定部
109、2004 表示処理部
110、2005 纏め部
111 入力受付部
112 選択受付部
121、2011 一覧表示処理部
151 入力デバイス
152 モニタ
2301 CPU
2302 ROM
2303 RAM
2304 通信I/F
2305 HDD

Claims (9)

  1. 文書情報と、文書情報を構成する各要素と、前記文書情報内における前記要素の順序を示す要素番号と、を対応付けて記憶する対応関係記憶部と、
    複数の文字列を検索条件として要求された場合に、前記対応関係記憶部に記憶された前記各要素から、当該複数の文字列のいずれか一つ以上を含む前記要素を検索する検索部と、
    前記検索部で検索された前記要素と対応付けられている前記文書情報を特定する文書特定部と、
    前記文書特定部により特定された前記文書情報のうち、前記複数の文字列のそれぞれが異なる前記要素に含まれている前記文書情報について、当該異なる前記要素の前記要素番号の間隔が所定の間隔以上の場合に、当該異なる前記要素を、前記検索部で検索された検索結果から削除する削除部と、
    前記文書特定部により特定された前記文書情報単位で、前記削除部で削除された後の前記要素をまとめる纏め部と、
    前記纏め部により前記文書情報単位でまとめられた前記要素を表示処理する表示処理部と、
    を備えることを特徴とする文書検索装置。
  2. 前記対応関係記憶部が記憶する各要素がページを示しており、
    前記表示処理部は、前記文書特定部により特定された前記文書情報毎に、前記検索部で検索された前記ページを重畳して表示処理すること、
    を特徴とする請求項1に記載の文書検索装置。
  3. 前記表示処理部により表示された前記文書情報の選択を受け付ける選択受付部と、
    前記選択受付部により選択を受け付けた前記文書情報のページの一覧を表示する一覧表示部と、
    をさらに備えることを特徴とする請求項1又は2に記載の文書検索装置。
  4. 前記表示処理部により表示された前記文書情報の選択を受け付ける選択受付部と、
    前記表示処理部が表示した前記文書情報に対する検索条件の入力を受け付ける入力受付部と、をさらに備え、
    前記検索部は、前記選択受付部により選択された前記文書情報内の前記要素として、前記表示処理部により表示処理された前記要素から、前記入力受付部により入力を受け付けた前記検索条件に一致する前記要素を検索すること、
    を特徴とする請求項1又は2に記載の文書検索装置。
  5. 前記表示処理部により表示された前記文書情報の選択を受け付ける選択受付部と、
    前記表示処理部が表示した前記文書情報に対する検索条件の入力を受け付ける入力受付部と、をさらに備え、
    前記検索部は、前記選択受付部により選択された前記文書情報と前記対応関係記憶部と対応付けられている前記要素から、前記入力受付部により入力を受け付けた前記検索条件に一致する前記要素を検索すること、
    をさらに備えることを特徴とする請求項1又は2に記載の文書検索装置。
  6. 前記対応関係記憶部は、前記要素が前記文書情報のページを構成する各領域を示し、当該領域の情報と前記文書情報のページとを対応付けた領域対応情報と、当該ページと当該ページを表すページ画像情報と前記文書情報と対応付けたページ対応情報と、を記憶し、
    前記検索部は、前記対応関係記憶部に記憶された各領域の情報に対して、任意の検索条件で検索し、
    前記表示処理部は、前記検索部で検出された前記領域の情報と前記対応関係記憶部で対応付けられた前記ページを表すページ画像情報を、前記文書特定部により特定された前記文書情報毎にソートして表示すること、
    を特徴とする請求項1に記載の文書検索装置。
  7. 前記表示処理部は、前記ページ画像情報のうち、前記検索部で検出された前記領域を、他の領域と識別可能に表示すること、
    を特徴とする請求項に記載の文書検索装置。
  8. 文書情報と、文書情報を構成する各要素と、前記文書情報内における前記要素の順序を示す要素番号と、を対応付けて対応関係記憶部に記憶する対応関係記憶ステップと、
    検索部が、複数の文字列を検索条件として要求された場合に、前記対応関係記憶部に記憶された前記各要素から、当該複数の文字列のいずれか一つ以上を含まれている前記要素を検索する検索ステップと、
    文書特定部が、前記検索ステップで検索された前記要素と対応付けられている前記文書情報を特定する文書特定ステップと、
    削除部が、前記文書特定部により特定された前記文書情報のうち、前記複数の文字列のそれぞれが異なる前記要素に含まれている前記文書情報について、当該異なる前記要素の前記要素番号の間隔が所定の間隔以上の場合に、当該異なる前記要素を、前記検索部で検索された検索結果から削除する削除ステップと、
    纏め部が、前記文書特定ステップにより特定された前記文書情報単位で、前記削除ステップで削除された後の前記要素をまとめる纏めステップと、
    表示処理部が、前記纏めステップにより前記文書情報単位でまとめられた前記要素を表示処理する表示処理ステップと、
    を有することを特徴とする文書検索方法。
  9. 文書情報を検索する手段として、コンピュータを機能させるプログラムであって、
    文書情報と、文書情報を構成する各要素と、前記文書情報内における前記要素の順序を示す要素番号と、を対応付けて対応関係記憶部に記憶する対応関係記憶手段と、
    複数の文字列を検索条件として要求された場合に、前記対応関係記憶部に記憶された前記各要素から、当該複数の文字列のいずれか一つ以上を含む前記要素を検索する検索手段と、
    前記検索手段で検索された前記要素と対応付けられている前記文書情報を特定する文書特定手段と、
    前記文書特定手段により特定された前記文書情報のうち、前記複数の文字列のそれぞれが異なる前記要素に含まれている前記文書情報について、当該異なる前記要素の前記要素番号の間隔が所定の間隔以上の場合に、当該異なる前記要素を、前記検索手段で検索された検索結果から削除する削除手段と、
    前記文書特定手段により特定された前記文書情報単位で、前記削除手段で削除された後の要素をまとめる纏め手段と、
    前記纏め手段により前記文書情報単位でまとめられた前記要素を表示処理する表示処理手段、
    としてコンピュータを機能させることを特徴とする文書検索プログラム。
JP2008004802A 2008-01-11 2008-01-11 文書検索装置、文書検索方法及び文書検索プログラム Expired - Fee Related JP5167821B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2008004802A JP5167821B2 (ja) 2008-01-11 2008-01-11 文書検索装置、文書検索方法及び文書検索プログラム
US12/318,246 US20090183115A1 (en) 2008-01-11 2008-12-23 Document searching apparatus, document searching method, and computer-readable recording medium
CN2009100023430A CN101488145B (zh) 2008-01-11 2009-01-07 文档搜索装置及文档搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008004802A JP5167821B2 (ja) 2008-01-11 2008-01-11 文書検索装置、文書検索方法及び文書検索プログラム

Publications (2)

Publication Number Publication Date
JP2009169538A JP2009169538A (ja) 2009-07-30
JP5167821B2 true JP5167821B2 (ja) 2013-03-21

Family

ID=40851788

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008004802A Expired - Fee Related JP5167821B2 (ja) 2008-01-11 2008-01-11 文書検索装置、文書検索方法及び文書検索プログラム

Country Status (3)

Country Link
US (1) US20090183115A1 (ja)
JP (1) JP5167821B2 (ja)
CN (1) CN101488145B (ja)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8335986B2 (en) * 2009-08-26 2012-12-18 Apple Inc. Previewing different types of documents
US8407197B2 (en) * 2009-09-08 2013-03-26 Zoom Catalog, Llc System and method to research documents in online libraries
US10956475B2 (en) 2010-04-06 2021-03-23 Imagescan, Inc. Visual presentation of search results
US20110246453A1 (en) * 2010-04-06 2011-10-06 Krishnan Basker S Apparatus and Method for Visual Presentation of Search Results to Assist Cognitive Pattern Recognition
US20120246565A1 (en) * 2011-03-24 2012-09-27 Konica Minolta Laboratory U.S.A., Inc. Graphical user interface for displaying thumbnail images with filtering and editing functions
CN102902688B (zh) * 2011-07-27 2016-08-10 汉王科技股份有限公司 关键词查找结果显示方法和装置
US9772999B2 (en) 2011-10-24 2017-09-26 Imagescan, Inc. Apparatus and method for displaying multiple display panels with a progressive relationship using cognitive pattern recognition
US10467273B2 (en) * 2011-10-24 2019-11-05 Image Scan, Inc. Apparatus and method for displaying search results using cognitive pattern recognition in locating documents and information within
US11010432B2 (en) 2011-10-24 2021-05-18 Imagescan, Inc. Apparatus and method for displaying multiple display panels with a progressive relationship using cognitive pattern recognition
JP5911326B2 (ja) * 2012-02-10 2016-04-27 キヤノン株式会社 情報処理装置、情報処理装置の制御方法、およびプログラム
US9195717B2 (en) * 2012-06-26 2015-11-24 Google Inc. Image result provisioning based on document classification
US10074216B2 (en) * 2013-11-13 2018-09-11 Sony Corporation Information processing to display information based on position of the real object in the image
CN105511823A (zh) * 2015-11-26 2016-04-20 深圳开立生物医疗科技股份有限公司 一种快速显示超声存储图像的方法、装置及其超声设备
JP2017157083A (ja) * 2016-03-03 2017-09-07 富士ゼロックス株式会社 ファイル再構築装置およびプログラム
CN111104626B (zh) * 2018-10-26 2023-11-24 北京易数科技有限公司 信息存储方法和装置
US11645295B2 (en) 2019-03-26 2023-05-09 Imagescan, Inc. Pattern search box
CN112347324B (zh) * 2019-08-08 2024-06-25 珠海金山办公软件有限公司 一种文档查询方法、装置、电子设备及存储介质
JP2021043519A (ja) * 2019-09-06 2021-03-18 富士ゼロックス株式会社 情報処理システム及びプログラム
CN114661904B (zh) * 2022-03-10 2023-04-07 北京百度网讯科技有限公司 文档处理模型的训练方法、装置、设备、存储介质及程序
AU2022241473B1 (en) * 2022-09-27 2024-04-18 Canva Pty Ltd Document searching systems and methods

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6262732B1 (en) * 1993-10-25 2001-07-17 Scansoft, Inc. Method and apparatus for managing and navigating within stacks of document pages
JP3694149B2 (ja) * 1997-07-07 2005-09-14 株式会社リコー 画像検索装置、画像検索用キーテキストの生成方法、並びにその装置としてコンピュータを機能させるためのプログラムおよびその方法をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
US5987457A (en) * 1997-11-25 1999-11-16 Acceleration Software International Corporation Query refinement method for searching documents
ATE240559T1 (de) * 1998-09-03 2003-05-15 Ricoh Kk Speichermedien mit video- beziehungsweise audioindexinformation, verwaltungsverfahren und wiederauffindungsverfahren für video-, bzw audioinformation und videowiederauffindungssystem
JP2001101203A (ja) * 1999-09-29 2001-04-13 Sony Corp 電子ファイリング装置および電子ファイリング装置を利用した文書の検索方法
JP2004157668A (ja) * 2002-11-05 2004-06-03 Ricoh Co Ltd 検索システム、検索方法および検索プログラム
JP2005092688A (ja) * 2003-09-19 2005-04-07 Ricoh Co Ltd 検索システム、検索プログラム及び記録媒体
JP2006018630A (ja) * 2004-07-02 2006-01-19 Canon Inc データ検索方法及び装置、プログラム、コンピュータ可読メモリ
US20060122956A1 (en) * 2004-12-03 2006-06-08 Kabushiki Kaisha Toshiba Electronic document management apparatus and electronic document management program
JP4700452B2 (ja) * 2005-09-16 2011-06-15 株式会社リコー 情報管理装置、情報管理方法、情報管理プログラムおよび記録媒体
JP4977452B2 (ja) * 2006-01-24 2012-07-18 株式会社リコー 情報管理装置、情報管理方法、情報管理プログラム、記録媒体及び情報管理システム
JP2007200014A (ja) * 2006-01-26 2007-08-09 Ricoh Co Ltd 情報処理装置、情報処理方法、情報処理プログラム及び記録媒体

Also Published As

Publication number Publication date
US20090183115A1 (en) 2009-07-16
JP2009169538A (ja) 2009-07-30
CN101488145B (zh) 2011-07-06
CN101488145A (zh) 2009-07-22

Similar Documents

Publication Publication Date Title
JP5167821B2 (ja) 文書検索装置、文書検索方法及び文書検索プログラム
US7315848B2 (en) Web snippets capture, storage and retrieval system and method
US11226976B2 (en) Systems and methods for graphical exploration of forensic data
CN102483765B (zh) 文件搜索系统和程序
KR101153009B1 (ko) 텍스트 요약을 갖는 라이브 그래픽 미리보기
US20060085442A1 (en) Document image information management apparatus and document image information management program
US20100067052A1 (en) Method and apparatus for managing information, and computer program product
US20090052804A1 (en) Method process and apparatus for automated document scanning and management system
US20100067064A1 (en) Image processing apparatus and image processing method
US20230281377A1 (en) Systems and methods for displaying digital forensic evidence
JP2006331418A (ja) ソートしたコンテキスト内のリンク情報を表示するシステム及び方法
JP5627332B2 (ja) データ検索装置及びその制御方法、コンピュータプログラム
JP5200699B2 (ja) 情報処理装置、情報処理方法およびプログラム
JP2010092383A (ja) 電子文書ファイル検索装置、電子文書ファイル検索方法及びコンピュータプログラム
JP2009075678A (ja) 画像処理装置、画像処理方法、画像処理プログラム及び記憶媒体
JP2006309509A (ja) 閲覧画面再利用装置、閲覧画面再利用プログラム、及び記録媒体
JP4513437B2 (ja) 木構造情報作成のためのプログラム及び装置
JP2005339580A (ja) 文書データ管理装置およびプログラム
AU2002246646B2 (en) Web snippets capture, storage and retrieval system and method
JP2008287606A (ja) 情報処理装置およびプログラム
JP5362427B2 (ja) 検索結果表示方法及び装置、並びに検索結果表示プログラム
AU2002246646A1 (en) Web snippets capture, storage and retrieval system and method
JP3656799B2 (ja) 帳票データ検索装置
JP2006185320A (ja) 画像検索装置
JP2005056081A (ja) 文書管理装置及び記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100623

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120515

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120713

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121127

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121210

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160111

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees