JP2004178180A - 全文検索情報の登録及び検索方式 - Google Patents

全文検索情報の登録及び検索方式 Download PDF

Info

Publication number
JP2004178180A
JP2004178180A JP2002342371A JP2002342371A JP2004178180A JP 2004178180 A JP2004178180 A JP 2004178180A JP 2002342371 A JP2002342371 A JP 2002342371A JP 2002342371 A JP2002342371 A JP 2002342371A JP 2004178180 A JP2004178180 A JP 2004178180A
Authority
JP
Japan
Prior art keywords
registration
search
document
full
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2002342371A
Other languages
English (en)
Inventor
Yoshinobu Mita
良信 三田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2002342371A priority Critical patent/JP2004178180A/ja
Publication of JP2004178180A publication Critical patent/JP2004178180A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】文書を文書データベース登録後にすぐに、全文検索を可能にする。全文検索用の登録処理の際に他のアプリの妨げにならないように負荷の軽い全文検索登録処理を行うと共に恒久的には、検索速度が速く、全文検索情報がコンパクトな全文検索を使えるようにする。
【解決手段】2つの全文検索用登録処理とそれに対応する検索方式を併せ持ち、それぞれを仮登録と本登録とすると、文書が文書データベースに登録する際に、一旦仮登録が行われ、夜間等に本登録が行われる。仮登録は登録速度重視型(軽負荷)で、本登録は検索速度と検索データベースの小容量化を重視した方式とするので、全体のパフォーマンスが向上する。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
大量に文書を保存しているデータベースに対し、全文検索処理を有効にする為の全文検索登録方式において、仮登録と本登録処理の2形態を有する技術に関するものである。
【0002】
【従来の技術】
全文検索処理は文書中のテキストを調べて、キーワードがその中に存在するか否かを検索するために膨大な処理時間がかかる。検索時間の短縮のために通常は基本処理として文書中からテキストを抽出してそのテキストに対応する文書のID(認識)番号をテーブルとして作成しておく。しかしながら、この全文検索用テーブル(データベース)の作成処理には、処理時間が多くかかり、文書を扱うアプリケーションの他の処理を妨げるために、コンピュータが使用されない夜間に行われる事が多かった。
【0003】
【発明が解決しようとする課題】
しかしながら夜間に全文検索用テーブルを作成を行うと文書を文書データベースに登録した当日には検索ができないという不都合があった。
【0004】
また当日に検索を可能にするためには、全文検索用のテーブルの作成に処理時間がかかり、他のアプリケーションを快適に動作させるのに支障があった。
【0005】
また、全文検索データベースは登録する文書が多くなるほど、データベースサイズが大きくなり、登録作業に費やす処理時間が長くなる傾向が、この問題をより大きくしていた。
【0006】
【課題を解決するための手段】
本発明では、文書を文書データベースに登録した当日分に関しては負荷の小さい全文検索用登録(全文検索用のテーブル作成)を行い、夜間に当日分の登録文書の正規の全文検索用登録を行うことにより、データベースに登録した文書を当日に検索する事を可能とする。実際の検索では負荷の小さい全文検索用登録のテーブル“1”からの検索と通常の全文検索用登録テーブル“2”のそれぞれについて検索処理を行い、検索結果のリストが足し合わされる。また、負荷の小さい全文検索用登録について簡単に補足すると通常検索に比べ一般に作成されるテーブル容量は大きく、検索にかかる時間は長めとなるのが一般的です。従って、恒久的に使用する検索方式としては好ましくはありません。
【0007】
ただし、負荷の小さい仮登録用の全文検索として恒久的に用いられる全文検索方式を用いても一定以上の効果が得られます。それは、登録文書数が少ない場合には高速で登録処理が終わるからです。また、メリットとして2種類の異なる全文検索処理方式を使わないので、比較的簡単に実施できるからです。
【0008】
【発明の実施の形態】
以下、図面を参照して本発明の好適な実施形態を詳細に説明する。
【0009】
[実施形態1]
図1は本発明の実施形態1の全文検索処理を含むアプリケーションソフトが動作する文書検索装置の全体構成を示す図である。
【0010】
1はCPUであり、本実施形態の処理を実行する為の各種制御を行う。2はCD−ROMドライブ装置であり、外部からのデータの取りだしに用いる。3はプリンタであり、ディスプレイ装置9に表示される画像等のプリントを行う。4はハードディスクドライブ装置であり、主に主記憶装置として用いられ、本実施形態で実行する処理プログラムやアプリケーション等を記憶する。また、複数種類の文書(画像)データを記憶する。5はフロッピー(R)ディスクドライブ装置であり、外部からのデータの取り込みや外部へのデータの取り出しに用いる。6は通信部であり、ネットワーク等との接続を可能にし、外部のコンピュータやネットワーク上のスキャナやプリンタやディスク装置との間でデータの授受が行える。7はキーボードであり、本実施形態で実行される処理の指示や、検索条件等の文字列の入力等、操作者の対話的入力を受け付ける。8はマウス等のポインティングデバイスであり、キーボード7と共に操作者の対話的入力を受け付ける。9はディスプレイ装置であり、文書画像を表示する為のメモリを搭載するディスプレイカードやモニタなどを含み、本実施形態の処理を実行するためのウィンドウや処理結果を表示する。
【0011】
(実施例1)
実施形態1のアプリケーション動作中のウィンドウ表示画面について図2を用いて説明する。
【0012】
図2は本発明の実施形態1のアプリケーション動作中のウィンドウ表示画面を示す図である。尚、このウィンドウ表示画面はたとえばディスプレイ装置9のモニタ上に表示される。
【0013】
18aはウィンドウ200をアイコン化して表示する最小化ボタンである。18bはウィンドウ200をモニタ前面に最大化して表示する最大化ボタンである。18cはウィンドウ200の表示を消去する「閉じるボタン」である。12はウィンドウ200のタイトルを表示するタイトルバーである。17は現在起動しているアプリケーション名と、表示しているイメージの文書名が表示される領域である。また、13は各種の処理機能を表示するメニューであり、14はメニュー13に表示される処理機能と同様の処理機能をボタン化して表示したツールボタンである。このメニュー13、あるいはツールボタン14に表示される任意のボタンをポインティングデバイス8を使用して選択する事で、その選択した処理機能を実行させることが可能である。11はツールバーであり、ある特定のモードでの動作の選択に使われる。22は検索結果として表示される文書画像の枠の外部であるウィンドウ背景部を表示する領域である。15は検索結果として表示されている文書画像である。
【0014】
図2においてメニュー13の“ツール”メニューを選択すると、図3に示すようなプルダウンメニューが表示される。プルダウンメニューには、文書画像データに含まれる文字列の登録処理、全文検索を実行するための“登録処理”、“全文検索”メニューが含まれている。実施形態1での通常の登録処理は、入力した文書画像データを検索対象にするための操作で、たとえば、夜間やシステムのアイドル時に自動的に実行されるようになっている。
【0015】
次に実施形態1で実行される文書画像データの登録処理について、図6を用いて説明する。
【0016】
図6は本発明の実施形態1で実行される文書画像データの登録処理及び仮登録処理のを示すフローチャートである。
【0017】
まず当日限りに有効な全文検索の為の文書の仮登録処理について説明する。
【0018】
ステップS12で全文検索の為の仮登録の為の検索テーブルを指定する。これにより文書データベース中に新たに追加された文書中のテキストは仮登録の為の検索テーブルに対して、登録処理が行われる。検索テーブルはたとえば図9のようになっていて、たとえば“ab”というキーワードに対して“a”行の文書IDと“b”行の文書IDで共通する文書IDから文書の数を絞り込んで、最終的に絞り込まれた文書の内容から本当に“ab”が文書中に存在するかを確かめて、ヒット文書を確定するようになっている。
【0019】
ステップ13では処理対象の文書データのIDと文書中のテキストを関連付けして仮登録用の全文検索用テーブルに登録する。
【0020】
ステップ14では処理対象の文書データの登録処理が全て終了したか否かを判定する。登録処理が全て終了している(ステップ14でyes)場合には処理を終了し、登録処理が終了していない(ステップ14でno)場合にはステップS11にもどり、登録処理を繰り返す。以上のような仮登録の処理は、文書を文書データベースに登録する際に行われてもよいし、例えば1時間程度といった一定時間毎に行っても良いし、メニューから仮登録処理が起動されても良い。
【0021】
また、本登録処理についても本登録用の全文検索テーブルに対して登録が行われる点を除けば、仮登録と同じである。但し、全文検索テーブルは例えば図8で示すようなテーブルである。登録文書中のテーブルから2〜3文字ずつを切り抜いて対応する文書IDを登録する。処理が仮登録より複雑になり処理時間がかかるが、この方式だと前述した“最終的に絞り込まれた文書”の数が少なくなり、絞り込まれた文書の内容から本当にキーワードが文書中に存在するかを確かめる処理が大幅に減り検索が速くなる。本登録処理は例えば夜間に行われるが本登録の済んでいない文書に対して行われる。そして仮登録が終わっている文書の全ての文書に対して本登録が終了すると、仮登録用の検索テーブル内容は全てクリアされる。
【0022】
尚、文書画像データに変更があった場合にも同様に登録処理を行うが、その場合には、その変更前の文書画像データのIDを検索用テーブルから削除した上で登録処理を行う。これは仮登録用データベースでも本登録用データベースでも同じである。
【0023】
ところで文書画像中のテキストを抽出する技術としてOCR技術は一般的である。
【0024】
次に図6で説明した登録処理によって登録された文書画像データに対して実行される全文検索処理について説明する。
【0025】
全文検索を行う場合、図2に示したメニュー13の“ツール”メニューを選択する。これにより図3に示すようなプルダウンメニューが表示され、“全文検索”メニューを選択すると、図4に示すようなダイアログボックスが表示される。検索を実行する操作者は、編集ボックス31に文字列を入力して、追加ボタン33を押すとキーワードリスト32に入力した文字列がキーワードリスト32に入力した文字列がキーワードとして追加される。削除ボタン34は、キーワードリスト32の中の1つを選択して押す事により、選択されたキーワードを削除する事ができる。
【0026】
35、36はAND、OR論理を指定するチェックボタンであり、キーワードリスト32中のキーワード全てを含む文書データを検索する場合にはANDのチェックボタン35にチェックを付け、複数のキーワードのうちいずれか1つ以上を含む文書データを検索する場合にはORチェックボタン36にチェックを付ける。キャンセルボタン37はキーワードリスト32中にキーワードが1つ以上列挙されている場合にイネーブルとなり、この検索ボタン37を押すと、キーワードリスト32中のキーワードを検索条件とした検索が実行される。
【0027】
検索ボタンが押され、ヒットした文書がある場合に、図5で示すヒットリストウィンドウが表示される。図5は本発明の実施形態1のヒットリストウィンドウを説明するための図である。
【0028】
図5に示すように検索された文書画像データ数を示すヒット数としてIDリスト中のIDの数が表示ボックス45内に表示される。46はヒット文書リスト表示部であり、検索された文書画像データのサイズ、ページ数、作成日、更新日等がIDリストを基に調べられ表示される。閉じるボタン48はヒットリストウィンドウを閉じるときに押すボタンである。検索ボタン49はメニュー13の“ツール”メニューのプルダウンメニューの”全文検索”メニューと同じ働きをする。開くボタン47はヒット文書リスト表示部46でフォーカスが当たっている文書画像データを図2のドキュメント表示部23に表示させるためのものである。後述するテキスト表示部50は簡易的なものであるが、開くボタン47では文書中のフォントサイズ、種類、レイアウト等を忠実に再現する。
【0029】
またテキスト表示部50には、ヒット文書リスト表示部46でフォーカスが当たっている文書画像データ中のテキスト部分が抽出されて表示され、検索に用いられたキーワードが斜線枠53で示すように強調表示される。次ヒットボタン51前ヒットボタン52を押すことにより、斜線枠53にカーソルが当てられ、そのカーソルの位置が前後に存在する斜線枠53に移動して、テキスト部分の表示領域がスクロールされる。
【0030】
尚、文書画像データは、画像データではなくアプリケーションで作成されたテキストデータ等であっても、本発明になんら影響はない。
【0031】
また画像データの場合では、文書画像データからOCR(文字認識)されて得られたテキスト部分が表示される。
【0032】
以上が本発明の全体的な構成と動作であるが、以下に本発明に特有な部分の詳細を説明する。
【0033】
図4に示す検索ボタン37がマウスポインタを使ってクリックされると図7に示す検索処理が行われる。ステップ101で検索ボタンが押された事を認識するとステップ102で仮登録の全文検索のテーブル(データベース)を選択し、ステップ103で選択した全文検索データベースから実際の検索処理を行う。これは検索の際に設定されたキーワードを分解した文字から、対応する文書のIDを求めて、全ての分解文字に対応するIDの共通IDを残す処理をする。但し、得られた共通IDの文書ではキーワードとして連続した文字列が含まれている保証がないのでステップ104で本当に文書中にキーワードが含まれているかを調べて、キーワードが含まれている文書に対応するIDのみを確定し、ステップ105で図5に示すヒットリストダイアログ(ヒットリストウィンドウ)にヒットした文書を最終的に確定したIDから特定して列挙する。
【0034】
ステップ105では次の本登録用の全文検索データベースを使って検索を行った時には図5のヒットリストダイアログにヒットした文書を追加する。従って検索者はすべての全文検索データベースに対しての検索を終了しないうちに、ヒット文書を確認して開いたり使用する事が可能である。
【0035】
ステップ106では仮登録用の全文検索データベースと本登録用の全文検索データベースの2つについて検索を終えたか判断し、終えていれば処理を終了し、本登録用の全文検索データベースに対する検索を終えていない場合は、ステップ102からの処理を繰り返す。ステップ102では本登録用の全文検索テーブルが選択され、以下同様の処理が行われる。
【0036】
ところで仮登録の全文検索用データベースの例である図9と本登録用の全文検索データベースでは、複数文字の対する文書IDとなっているので、同一文字列に対するIDの数は仮登録用データベースに比較して少ない。また、いくつかの文字列に対するIDの共通項を求めるので最終的に残る文書IDは非常に少なくなり、実際の文書データ中のテキストを開いてヒットする文書を特定する作業は少なくなり、検索時間が速くなる。
【0037】
(変形例)
仮登録の全文検索データベースに登録した文書が、本登録の全文検索データベースに登録されるまでの周期は1日に限定されず、3日とか1週単位であっても全く構わない事は容易に想像できる。
【0038】
また仮登録と本登録の全文検索方式を同一の方式を採用しても構わない。仮登録では数時間から数日単位の新規文書のみを扱うので、登録データベース自体が小さく仮登録の処理は短い時間で可能だからである。
【0039】
(実施例2)
実施例1では当日に文書データベースに登録された文書の検索の為に仮登録用の全文検索データベースを作成したが、この仮登録処理を一切行わない構成であっても良い。その場合は仮登録用の全文検索データベースに対する図7のステップ102、ステップ103の処理はスキップされステップ104においては本登録用の全文検索データベースにまだ登録されていない文書全てについて文書を実際に開いて内容を確かめてキーワードが存在するか否かの処理を行いヒット文書を確定するが、その他の処理は基本的に実施例1と同じである。
【0040】
(実施例3)
実施例1では全文検索の登録処理について仮登録と本登録でテーブルを作成する方式は1文字単位か複数文字単位かの差はあるが、基本的なアルゴリズムは同一でそれ故、検索方式もほぼ同じであった。しかしながら仮登録と本登録の全文検索方式は全く異なるアルゴリズムに基付いて行われても構わない。この場合は仮登録のデータベースから検索する場合と、本登録のデータベースから検索する場合とでは検索方式も異なる事になる。
【0041】
尚、本発明は複数の機器(例えばホストコンピュータ、インターフェイス機器、スキャナ、プリンタなど)から構成されるシステムに適用しても、1つの機器からなる装置(例えば、複写機、ファクシミリ装置など)に適用してもよい。
【0042】
また、本発明の目的は前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出し実行することによっても、達成されることはいうまでもない。
【0043】
この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
【0044】
プログラムコードを供給する為の記憶媒体としては、たとえば、フロッピー(R)ディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどを用いることができる。
【0045】
またコンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼動しているOS(オペレーティングシステム)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることはいうまでもない。
【0046】
さらに、記憶媒体から読み出されたプログラムコードがコンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることはいうまでもない。
【0047】
【発明の効果】
以上、説明したように全文検索を行う為の登録処理を仮登録処理と本登録処理に分け、仮登録処理には登録負荷の軽い処理を採用することでCPUの負荷をかけずに全文検索をすぐに有効とすると共に、本登録処理では検索速度の速い検索に対応する処理で且つテーブル容量の小さな処理方式を採用して、検索時のスピードアップと低負荷を実現しやすくなった。
【0048】
いずれにしても2つの検索処理を用いることにより恒久的な検索に求められる機能と一時的な検索に求められる機能をより高いレベルで併せ持つことが可能になった。
【図面の簡単な説明】
【図1】本発明の実施形態1の全文検索の処理を含むアプリケーションソフトが動作する画像検索装置の全体構成を示す図である。
【図2】本発明の実施形態1のアプリケーション動作中のウィンドウ表示画面を示す図である。
【図3】本発明の実施形態1のプルダウンメニューの一例を示す図である。
【図4】本発明の実施形態1の検索を行う為のダイアログボックスを示す図である。
【図5】本発明の実施形態1のヒットリストウィンドウを説明するための図である。
【図6】本発明の実施形態1で実行される文書画像データの登録処理を示すフローチャートである。
【図7】検索処理を示すフローチャートである。
【図8】全文検索用テーブル
【図9】全文検索用テーブル
【符号の説明】
1 CPU
2 CD−ROMドライブ
3 プリンタ
4 HDD
5 FDD
6 通信部
7 キーボード
8 マウス
9 ディスプレイ装置

Claims (3)

  1. 保存されている文書に対する検索情報をあらかじめ登録して、検索時に登録情報をもとに検索を行う文書検索方式において検索登録及び対応する検索方式として2種類以上の方式を有する、または2つの独立した全文検索登録データベースを有する事を特徴とする。
  2. 請求項1において仮登録と本登録の検索情報を有し、仮登録は文書を文書データベースに登録する時等、短い周期で全文検索登録を行い、本登録では長い間隔またはユーザの実行命令時に全文検索登録を行う事を特徴とする。
  3. 請求項2において本登録は既に仮登録された文書及び、仮登録も本登録もされていない文書に対して行い、本登録後には仮登録の登録情報を破棄するまたは、仮登録の登録情報から、本登録が終わった文書に対応する文書情報を削除する事を特徴とする文書登録及び検索方式。
JP2002342371A 2002-11-26 2002-11-26 全文検索情報の登録及び検索方式 Withdrawn JP2004178180A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002342371A JP2004178180A (ja) 2002-11-26 2002-11-26 全文検索情報の登録及び検索方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002342371A JP2004178180A (ja) 2002-11-26 2002-11-26 全文検索情報の登録及び検索方式

Publications (1)

Publication Number Publication Date
JP2004178180A true JP2004178180A (ja) 2004-06-24

Family

ID=32704461

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002342371A Withdrawn JP2004178180A (ja) 2002-11-26 2002-11-26 全文検索情報の登録及び検索方式

Country Status (1)

Country Link
JP (1) JP2004178180A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006285460A (ja) * 2005-03-31 2006-10-19 Konica Minolta Holdings Inc 情報検索システム
JP2007156844A (ja) * 2005-12-05 2007-06-21 Toshiba Corp データ登録・検索システムおよびデータ登録・検索方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006285460A (ja) * 2005-03-31 2006-10-19 Konica Minolta Holdings Inc 情報検索システム
JP2007156844A (ja) * 2005-12-05 2007-06-21 Toshiba Corp データ登録・検索システムおよびデータ登録・検索方法

Similar Documents

Publication Publication Date Title
US6549913B1 (en) Method for compiling an image database, an image database system, and an image data storage medium
US7401078B2 (en) Information processing apparatus, document search method, program, and storage medium
JP2002207749A (ja) 画像の統合された注釈及び検索のためのエージェント
US20050097080A1 (en) System and method for automatically locating searched text in an image file
US20080140608A1 (en) Information Managing Apparatus, Method, and Program
JP2001337994A (ja) サムネイル表示システムと方法およびその処理プログラムを記録した記録媒体
JP2008226110A (ja) 情報処理装置、情報処理方法および制御プログラム
JP2001256255A (ja) データ検索装置及びデータ検索方法
JP3994188B2 (ja) マルチメディアデータ検索システム、マルチメディア検索方法および該検索方法を実現するためのプログラム
JP2005107931A (ja) 画像検索装置
JP2004178180A (ja) 全文検索情報の登録及び検索方式
JP2000099535A (ja) 画像検索装置及びその方法、コンピュータ可読メモリ
JP2007115132A (ja) 情報処理装置及びその制御方法、情報処理システム、コンピュータプログラム、記憶媒体
JP2000020549A (ja) 文書データベースシステムへの入力支援装置
JP2000099234A (ja) 画像検索装置及びその方法、コンピュータ可読メモリ
JP2005327023A (ja) ヒット数予想を利用した全文検索の検索方式
JP3167412B2 (ja) データベース検索処理装置
JP2004178181A (ja) 全文検索のマルチデータベース化による登録内容の移動方式
JP3933407B2 (ja) 文書処理装置、文書処理方法および文書処理プログラムが格納された記憶媒体
US6625606B1 (en) System and method for filing/searching data having a full-text function and media for recording the method
JP2004102887A (ja) 文書作成支援装置、文書作成支援方法、プログラムおよび記録媒体
JP2000137561A (ja) 画像検索装置及びその方法、コンピュータ可読メモリ
JP2990314B2 (ja) データ管理装置
JPH10312387A (ja) 情報処理装置及び方法並びに情報処理プログラムを記録した記録媒体
JP3193249B2 (ja) キーワード検索方法

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20060207