JPH0922417A - 文書検索システムおよび文書検索表示システム - Google Patents

文書検索システムおよび文書検索表示システム

Info

Publication number
JPH0922417A
JPH0922417A JP7171986A JP17198695A JPH0922417A JP H0922417 A JPH0922417 A JP H0922417A JP 7171986 A JP7171986 A JP 7171986A JP 17198695 A JP17198695 A JP 17198695A JP H0922417 A JPH0922417 A JP H0922417A
Authority
JP
Japan
Prior art keywords
search
document
word
character string
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP7171986A
Other languages
English (en)
Other versions
JP3505610B2 (ja
Inventor
Katsumi Marukawa
勝美 丸川
Hiromichi Fujisawa
浩道 藤澤
Yoshihiro Shima
好博 嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP17198695A priority Critical patent/JP3505610B2/ja
Publication of JPH0922417A publication Critical patent/JPH0922417A/ja
Application granted granted Critical
Publication of JP3505610B2 publication Critical patent/JP3505610B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 記憶するデータ量が少なくて済み、検索ノイ
ズを低減できる文書検索システムを提供する。 【構成】 ユーザが検索キー1を入力する。検索文字列
展開部5にて、コンフュージョンマトリクス10を用い
て、検索文字列に展開する。テキストサーチ部15に
て、テキスト20の中から検索文字列を含む文書を求め
る。単語サーチ部25にて、単語辞書30の中から検索
文字列と部分一致する単語を求める。検索文字列確認部
65にて、前記文書中の検索文字列が前記単語の一部か
否かを判定する。出力結果処理部55Aにて、ある文書
が含む検索文字列が全て前記単語の一部である場合に当
該文書を疑似ヒット文書と判定し、そうでない場合に当
該文書をヒット文書と判定し、ヒット文書のみを、又
は、求めた全ての文書を、又は、ヒット文書と疑似ヒッ
ト文書の2種類を区別して全ての文書を、検索結果60
として出力する。 【効果】 高精度に文書を検索することが出来る。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文書検索システムおよ
び文書検索表示システムに関し、さらに詳しくは、記憶
するデータ量が少なくて済むと共に高精度に文書を検索
することが出来る文書検索システムおよび検索結果を容
易に検証することが出来る文書検索表示システムに関す
る。
【0002】
【従来の技術】特開昭62−44878号公報に開示の
装置では、文書を画像として蓄積するとともに、画像中
の文字を認識して得られた全ての候補文字をテキストと
して蓄積する。そして、前記テキストと検索キーとのス
トリングマッチングによりフルテキストサーチを行い、
文書を検索する。また、検索結果の文書の画像を表示す
る。
【0003】これに対し、特願平5−326330号公
報に開示の装置では、文書を画像として蓄積するととも
に、画像中の文字を認識して得られた第1候補文字をテ
キストとして蓄積する。一方、誤認識しやすい文字をグ
ループ化したコンフュージュンマトリクスを利用して検
索キーを検索文字列に展開する。そして、前記テキスト
と前記検索文字列とのストリングマッチングによりフル
テキストサーチを行い、文書を検索する。また、検索結
果の文書の画像を表示する。
【0004】
【発明が解決しようとする課題】上記特開昭62−44
878号に開示の装置では、文字認識結果の全ての候補
文字を含むテキストを記憶する必要があるため、記憶す
るデータ量が増大する問題点がある。
【0005】他方、上記特願平5−326330号に開
示の装置では、文字認識結果の第1候補文字のみのテキ
ストを記憶するため、記憶するデータ量が少なくて済む
利点がある。しかし、検索ノイズが多い問題点がある。
例えば、図18に示す文書があり、検索キーが「イラ
ク」であるとき、コンフュージュンマトリクスを利用し
て検索キー「イラク」を展開した検索文字列の一つであ
る「イテク」が文書中に含まれるため、この文書がヒッ
トする。しかし、この文書は、検索キー「イラク」から
検索されるべきでない検索ノイズである。
【0006】さらに、従来の装置では、検索結果の文書
の画像を単に表示するだけなので、検索結果が正しいか
否かをユーザが検証しにくい問題点がある。
【0007】そこで、本発明の第1の目的は、記憶する
データ量が少なくて済むと共に検索ノイズを低減でき、
高精度に文書を検索することが出来る文書検索システム
を提供することにある。また、本発明の第2の目的は、
検索結果が正しいか否かをユーザが容易に検証できる文
書検索表示システムを提供することにある。
【0008】
【課題を解決するための手段】第1の観点では、本発明
は、文書の画像中の文字を認識して得られた第1位候補
文字をテキストとして蓄積するテキスト蓄積手段と、誤
認識されやすい文字をグループ化したコンフュージュン
マトリクス手段と、そのコンフュージュンマトリクス手
段を用いて検索キーを検索文字列に展開する検索文字列
展開手段と、前記テキストを検索して前記検索文字列の
いずれかを含む文書(以下、サーチ文書という)を求め
るテキストサーチ手段とを有する文書検索システムにお
いて、単語辞書手段と、その単語辞書手段を検索して前
記検索文字列が部分一致する単語(以下、サーチ単語と
いう)を求める単語サーチ手段と、前記テキストサーチ
手段で求めた文書に含まれる検索文字列が前記サーチ単
語の一部であるか否かを判定する検索文字列確認手段
と、ある文書が含む検索文字列が全て前記サーチ単語の
一部である場合に当該文書を疑似ヒット文書と判定しそ
うでない場合に当該文書をヒット文書と判定するサーチ
文書判定手段とを具備したことを特徴とする文書検索シ
ステムを提供する。
【0009】第2の観点では、この発明は、文書の画像
中の文字を認識して得られた第1位候補文字をテキスト
として蓄積するテキスト蓄積手段と、誤認識されやすい
文字をグループ化したコンフュージュンマトリクス手段
と、そのコンフュージュンマトリクス手段を用いて検索
キーを検索文字列に展開する検索文字列展開手段と、前
記テキストを検索して前記検索文字列のいずれかを含む
文書(以下、サーチ文書という)を求めるテキストサー
チ手段とを有する文書検索システムにおいて、単語辞書
手段と、その単語辞書手段を検索して前記検索文字列が
部分一致する単語(以下、サーチ単語という)を求める
単語サーチ手段と、前記コンフュージュンマトリクス手
段を用いて前記サーチ単語を展開し拡張するサーチ単語
拡張手段と、前記テキストサーチ手段で求めた文書に含
まれる検索文字列が前記拡張したサーチ単語の一部であ
るか否かを判定する検索文字列確認手段と、ある文書が
含む検索文字列が全て前記拡張したサーチ単語の一部で
ある場合に当該文書を疑似ヒット文書と判定しそうでな
い場合に当該文書をヒット文書と判定するサーチ文書判
定手段とを具備したことを特徴とする文書検索システム
を提供する。
【0010】第3の観点では、この発明は、上記構成の
文書検索システムにおいて、前記単語サーチ手段は、サ
ーチ単語の文字列と,サーチ単語長と,サーチ単語中で
検索文字列が部分一致した位置とを含む単語サーチ結果
を出力し、前記検索文字列確認手段は、テキスト中で検
索文字列が存在した位置と前記単語サーチ結果とに基づ
いて当該検索文字列が前記サーチ単語または前記拡張サ
ーチ単語の一部であるか否かを判定することを特徴とす
る文書検索システムを提供する。
【0011】第4の観点では、この発明は、上記構成の
文書検索システムにおいて、前記ヒット文書のみを検索
結果として出力するか、前記全てのサーチ文書を検索結
果として出力するか、前記ヒット文書と前記疑似ヒット
文書を2種類の検索結果として出力するか、の少なくと
も一つを行う出力結果処理手段を具備したことを特徴と
する文書検索システムを提供する。第5の観点では、こ
の発明は、上記構成の文書検索システムにおいて、文書
の画像を蓄積する画像蓄積手段と、指定されたサーチ文
書の画像を表示する画像表示手段と、文書の画像中の文
字を切り出すために用いた文字枠の座標(以下、文字枠
座標という)を蓄積する文字枠座標蓄積手段と、指定さ
れたサーチ文書の画像を表示する際に前記文字枠座標を
利用して当該画像上の検索文字列部分を他の部分と異な
る表示形態にする強調表示手段とを具備したことを特徴
とする文書検索システムを提供する。
【0012】第6の観点では、この発明は、文書の画像
を蓄積する画像蓄積手段と、文書の画像中の文字を認識
して得られたテキストを蓄積するテキスト蓄積手段と、
前記テキストを検索して前記検索キーを含む文書(以
下、サーチ文書という)を求めるテキストサーチ手段
と、指定されたサーチ文書の画像を表示する画像表示手
段とを有する文書検索表示システムにおいて、文書の画
像中の文字を切り出すために用いた文字枠の座標(以
下、文字枠座標という)を蓄積する文字枠座標蓄積手段
と、指定されたサーチ文書の画像を表示する際に前記文
字枠座標を利用して当該画像上の検索キー部分を他の部
分と異なる表示形態にする強調表示手段とを具備したこ
とを特徴とする文書検索表示システムを提供する。
【0013】
【作用】上記第1の観点による文書検索システムでは、
文字認識結果の第1候補文字のみのテキストを記憶する
ため、記憶するデータ量が少なくて済む。また、上記文
書検索システムでは、検索文字列と部分一致するサーチ
単語を求めておき、テキスト中に検索文字列が存在した
とき、それが前記サーチ単語の一部であるか否かを調べ
る。そして、ある文書が含む検索文字列が全て前記サー
チ単語の一部である場合は当該文書を疑似ヒット文書と
判定し、そうでない場合は当該文書をヒット文書と判定
する。先述のように、検索文字列と部分一致する単語が
存在する文書は、検索結果として抽出される。しかし、
検索結果として抽出されても、検索文字列と完全一致す
る箇所が全く存在しない文書は、正しい検索結果である
確率が低い。一方、検索文字列と完全一致する箇所が1
ヵ所でもある文書は、正しい検索結果である確率が高
い。前者は疑似ヒット文書と判定され、後者はヒット文
書と判定されるため、この区別を利用することで、検索
ノイズを低減でき、高精度に文書を検索することが出来
る。
【0014】上記第2の観点による文書検索システムで
も、前記第1の観点による文書検索システムと同様に、
記憶するデータ量が少なくて済むと共に検索ノイズを低
減でき、高精度に文書を検索することが出来る。さら
に、サーチ単語を拡張するため、検索ノイズをさらに的
確に低減することが出来る。
【0015】上記第3の観点による文書検索システムで
は、テキスト中で検索文字列が存在した位置と単語サー
チ結果とを利用するため、テキスト中の検索文字列がサ
ーチ単語または拡張サーチ単語の一部であるか否かを、
部分テキストマッチングにより好適に判定することが出
来る。
【0016】上記第4の観点による文書検索システムで
は、ヒット文書のみを検索結果として出力する場合は、
検索ノイズを低減した検索結果が得られる。全てのサー
チ文書を検索結果として出力する場合は、検索洩れの確
率を減らすことが出来る。ヒット文書と疑似ヒット文書
を2種類の検索結果として出力する場合は、ユーザの使
い勝手を向上させることが出来る。
【0017】上記第5の観点による文書検索システムで
は、指定されたサーチ文書の画像を単に表示するだけで
なく、当該画像上の検索文字列部分を強調表示するた
め、検索結果が正しいか否かをユーザが容易に検証でき
るようになる。
【0018】上記第6の観点による文書検索システムで
は、指定されたサーチ文書の画像を単に表示するだけで
なく、当該画像上の検索キー部分を強調表示するため、
検索結果が正しいか否かをユーザが容易に検証できるよ
うになる。
【0019】
【実施例】以下、図に示す実施例により本発明を詳細に
説明する。なお、これにより本発明が限定されるもので
はない。
【0020】−第1実施例− 図1に、本発明の第1実施例の文書検索システム100
の構成を示す。この文書検索システム100において、
テキスト20は、図2に示すように、紙の形態の文書2
01をスキャナ205により画像として取り込み、文字
認識部210により画像中の文字を認識し、第1位候補
文字をデータ管理部215により記憶することを、複数
の文書201について、それぞれ行って蓄積したもので
ある。
【0021】図1に戻り、ユーザが検索キー1を入力す
ると、検索文字列展開部5にて、コンフュージョンマト
リクス10を用いて、検索キー1を検索文字列2に展開
し、それを有限オートマトン(以下、オートマトンと呼
ぶ)の形態で出力する。図3に示すように、コンフュー
ジュンマトリクス10は、誤って認識しやすい類似した
複数の文字をグループ化して格納している。検索キー1
の各文字についてインデックステーブル401からコン
フュージュンマトリクス10をアクセスし、類似した文
字(以下、コンフュージョンデータという)を取り出
し、それらコンフュージョンデータを組み合せて、検索
文字列2を得る。例えば、検索キー1として「イラク」
が入力されたとすると、 「イラク」,「イラケ」,「イラタ」,「イラ夕」 「イテク」,「イテケ」,「イテタ」,「イテ夕」 「ィラク」,「ィラケ」,「ィラタ」,「ィラ夕」 「ィテク」,「ィテケ」,「ィテタ」,「ィテ夕」 の16種類の検索文字列2を得る。これを、図4に示す
ようなオートマトン400として出力する。
【0022】図1に戻り、テキストサーチ部15は、オ
ートマトンによりテキスト20を検索する。具体的に
は、テキスト20中の文字を1つずつ取り込んでオート
マトンの文字と照合し、一致すると次の状態に遷移さ
せ、最終の状態に達したときにそのオートマトンに該当
する文字列が存在したと判定する。そして、テキストサ
ーチ結果3を出力する。状態の遷移は、具体的には図5
に示すような状態遷移表500に従って行う。なお、図
5に示す状態遷移表500は、図4のオートマトン40
0に対応するものである。例えば、状態遷移表500に
おいて、状態番号0でテキスト20から「イ」を取り込
むと、状態番号1に遷移する。次に、状態番号1でテキ
スト20から「ラ」を取り込むと、状態番号2に遷移す
る。次に、状態番号2でテキスト20から「ク」を取り
込むと、状態番号3に遷移する。状態番号3は、最終の
状態であるから、図4のオートマトン400に該当する
文字列が存在したと判定する。なお、状態番号3からは
状態番号0に戻る。
【0023】図6に、テキストサーチ結果3のデータ構
造を示す。このテキストサーチ結果3において、サーチ
文書数欄1001には、検索文字列2がヒットした文書
数“M”が登録される。また、検索文字列2がヒットし
た文書ごとの文書ID欄1015,1015,…には、
当該文書の識別子“D1”,“D2”,…が登録され
る。また、サーチ文字列数欄1020,1020,…に
は、当該文書において検索文字列2がヒットした箇所の
数“N1”,“N2”,…が登録される。また、一つの
文書において検索文字列2がヒットした箇所ごとのサー
チ先頭文字位置欄1025,1025,…には、当該文
書の先頭文字から当該ヒットした箇所の先頭文字までの
文字数“S11”,“S12”,…が登録される。
【0024】図1に戻り、単語サーチ部25は、予め設
けた単語辞書30の中から検索文字列2が部分一致する
単語(以下、サーチ単語という)を求める。そして、単
語サーチ結果4を出力する。なお、完全一致する単語は
サーチ単語ではない。図7の(a)に、単語サーチ結果
4のデータ構造を示す。この単語サーチ結果4におい
て、サーチ単語数欄1115には、求められたサーチ単
語数“C”が登録される。また、サーチ単語ごとのサー
チ単語欄1130には、当該サーチ単語の文字列“W
1”,“W2”,…が登録される。また、サーチ単語長
欄1135には、当該サーチ単語の文字列数“L1”,
“L2”,…が登録される。また、サーチ先頭文字位置
欄1140には、当該サーチ単語の先頭文字から検索文
字列2の先頭文字までの文字数“B1”,“B2”,…
が登録される。また、サーチ終了文字位置欄1145に
は、当該サーチ単語の先頭文字から検索文字列2の終了
文字までの文字数“E1”,“E2”,…が登録され
る。図7の(b)に、サーチ単語長“Lk”と,サーチ
先頭文字位置“Bk”と,サーチ終了文字位置“Ek”
と,前方不一致文字数Iと,後方不一致文字数Jの関係
を示す。
【0025】図1に戻り、検索文字列確認部65は、検
索文字列部分追加部35と部分テキストマッチング部4
5とから構成される。前記検索文字列部分追加部35
は、コンフュージョンマトリクス10を用いて単語サー
チ結果4のサーチ単語の文字列(図7の1130)を展
開し、新たなオートマトンを生成する。図8に、新たな
オートマトンの生成方法を示す。 (a)は、検索キー「イラク」を展開した検索文字列か
ら生成したオートマトン400である。 (b)は、検索キー「イラク」を展開した検索文字列の
一つである「イテク」と部分一致したサーチ単語「ハイ
テク」である。 (c)に示すように、検索キー「イラク」から生成した
オートマトン400とサーチ単語「ハイテク」とを比較
して不一致文字を抽出し、その不一致文字とコンフュー
ジョンマトリクス10からコンフュージョンデータを得
る。 (d)に示すように、前記コンフュージョンデータを用
いてオートマトン400を拡張し、新たなオートマトン
920を生成する。
【0026】図1に戻り、部分テキストマッチング部4
5は、検索文字列がヒットしたテキスト中の位置情報
(図6の1025)を利用して、テキスト20と新たな
オートマトン920とを部分的にマッチングさせ、ある
位置でヒットした検索文字列が他の単語に包含されるか
否かを判定し、文字列確認結果6を出力する。図9に、
文字列確認結果6のデータ構造を示す。この文字列確認
結果6において、サーチ文書ID欄1201には、テキ
ストサーチ結果3の文書ID欄1015の内容“D
1”,“D2”,…が登録される。また、サーチ先頭文
字位置欄1205には、テキストサーチ結果3のサーチ
先頭文字位置欄1025の内容“S11”,“S12”,…
が登録される。また、検索文字列種フラグ1210に
は、各サーチ先頭位置欄1205の位置でヒットした検
索文字列が他の単語に包含されるなら“0”を格納し、
他の単語に包含されないなら“1”を格納する。
【0027】図1に戻り、出力結果処理部55Aは、文
字列確認結果6を解析し、あるサーチ文書に対応する検
索文字列種フラグが1つでも“0”の場合、そのサーチ
文書をヒット文書と判定する。一方、あるサーチ文書に
対応する検索文字列種フラグが全て“1”の場合、その
サーチ文書を疑似ヒット文書と判定する。そして、指示
された出力形式が「ヒット文書のみ出力」ならヒット文
書と判定したサーチ文書IDのみを検索結果60として
出力する。一方、指示された出力形式が「全てのサーチ
文書を無条件で出力」なら全てのサーチ文書IDを検索
結果60として出力する。さらに、指示された出力形式
が「ヒット文書と疑似ヒット文書を区別して出力」なら
ヒット文書と判定したサーチ文書IDにヒット文書を示
すマークを付し,疑似ヒット文書と判定したサーチ文書
IDに疑似ヒット文書を示すマークを付した検索結果6
0を出力する。
【0028】図10に、前記検索文字列確認部65での
処理のフローチャートを示す。破線枠1301の処理
が、前記検索文字列部分追加部35の処理に相当する。
また、破線枠1305の処理が、前記部分テキストマッ
チング部45の処理に相当する。
【0029】ステップ1320では、単語サーチ結果4
(図7)のサーチ単語Wk(k=1〜C)についてステ
ップ1325〜1399の処理を行う。ステップ132
5では、着目しているサーチ単語Wkのサーチ先頭文字
位置Bkを入力する。ステップ1330では、Bk≠1
か判定する。Bk≠1なら、検索文字列の前方に不一致
文字があるので、ステップ1335へ進む。Bk=1な
ら、検索文字列の前方に不一致文字がないので、ステッ
プ1360へ進む。ステップ1335では、前方不一致
文字数I(=Bk−1)を算出する。ステップ1340
では、i=1〜Iについてステップ1345,1350
を実行する。ステップ1345では、サーチ単語Wkの
i番目の文字とコンフュージョンマトリクス10からコ
ンフュージョンデータを得る(図8の(c)参照)。ステ
ップ1350では、コンフュージョンデータから部分オ
ートマトンを生成する。既に生成された部分オートマト
ンがあれば、その後に追加する。ステップ1355で
は、検索文字列のオートマトンに部分オートマトンを前
方接続する。
【0030】ステップ1360では、後方不一致文字数
J(=Lk−Ek)を算出する。ステップ1365では、
J≠0か判定する。J≠0なら、検索文字列の後方に不
一致文字があるので、ステップ1366へ進む。J=0
なら、検索文字列の後方に不一致文字がないので、前記
ステップ1320に戻る。ステップ1366では、j=
1〜Jについてステップ1367,1368を実行す
る。ステップ1367では、サーチ単語Wkの(Ek+
j)番目の文字とコンフュージョンマトリクス10から
コンフュージョンデータを得る。ステップ1368で
は、コンフュージョンデータから部分オートマトンを生
成する。既に生成された部分オートマトンがあれば、そ
の後に追加する。ステップ1369では、検索文字列の
オートマトンに部分オートマトンを後方接続する。これ
により、新たなオートマトン920が生成されたことに
なる。
【0031】ステップ1371では、テキストサーチ結
果3に登録されたサーチ文書Dm(m=1〜M)につい
てステップ1372〜1399の処理を行う。ステップ
1372では、サーチ文書Dmのテキスト20を入力す
る。ステップ1373では、n=1〜Nm(=サーチ文
字列数1020)についてステップ1375〜1399
を行う。ステップ1375では、テキストサーチ結果3
に登録されたサーチ先頭文字位置Smnを入力する。ス
テップ1380では、部分テキストマッチング開始位置
Tn(=Smn−I)を算出する。ステップ1392で
は、サーチ文書Dmのテキスト20のTn番目の文字か
ら(Tn+Lk−1)番目の文字まで順に取り出して、
新たなオートマトン920での状態の遷移を行う。ステ
ップ1395では、新たなオートマトン920で最終の
状態に到達したか否かを判定する。到達したならステッ
プ1398へ進み、到達しなかったならステップ139
9へ進む。ステップ1398では、文字列確認結果6の
サーチ文書Dmのサーチ先頭文字位置Smnに対応する
検索文字列種フラグに“1”を登録する。ステップ13
99では、文字列確認結果6のサーチ文書Dmのサーチ
先頭文字位置Smnに対応する検索文字列種フラグに
“0”を登録する。
【0032】図11は、前記出力結果処理部55Aの処
理のフローチャートである。ステップ1405では、文
字列確認結果6に登録されたサーチ文書Dm(m=1〜
M)についてステップ1406〜1430の処理を行
う。ステップ1406では、図12に示す検索結果中間
データ7におけるサーチ文書Dmのヒット文書フラグを
“0”にする。ステップ1415では、文字列確認結果
6に登録されたサーチ先頭文字位置Smn(n=1〜N
m)についてステップ1420〜1430の処理を行
う。ステップ1420では、文字列確認結果6に登録さ
れたサーチ先頭文字位置Smnに対応する検索文字列種
フラグが“0”か否かを判定し、“0”ならステップ1
430へ進み、“1”なら前記ステップ1415に戻
る。ステップ1430では、検索結果中間データ7にお
けるサーチ文書Dmのヒット文書フラグを“1”にす
る。
【0033】ステップ1470では、指示された出力形
式が「ヒット文書のみ出力」か否か判定し、「ヒット文
書のみ出力」ならステップ1471へ進み、「ヒット文
書のみ出力」でないなら何もしない。ステップ1471
では、検索結果中間データ7におけるヒット文書フラグ
が“1”のサーチ文書IDを検索結果60として出力す
る。
【0034】ステップ1472では、指示された出力形
式が「全てのサーチ文書を無条件で出力」か否か判定
し、「全てのサーチ文書を無条件で出力」ならステップ
1473へ進み、「全てのサーチ文書を無条件で出力」
でないなら何もしない。ステップ1473では、検索結
果中間データ7における全てのサーチ文書IDを検索結
果60として出力する。
【0035】ステップ1474では、指示された出力形
式が「ヒット文書と疑似ヒット文書を区別して出力」か
否か判定し、「ヒット文書と疑似ヒット文書を区別して
出力」ならステップ1475へ進み、「ヒット文書と疑
似ヒット文書を区別して出力」でないなら何もしない。
ステップ1475では、検索結果中間データ7における
ヒット文書フラグが“1”のサーチ文書IDにヒット文
書を示すマークを付し,“0”のサーチ文書IDに疑似
ヒット文書を示すマークを付した検索結果60を出力す
る。
【0036】以上の文書検索システム100によれば、
ヒット文書のみを検索結果として出力する場合は、検索
ノイズを低減した検索結果が得られる。また、全てのサ
ーチ文書を検索結果として出力する場合は、検索洩れの
確率を減らすことが出来る。さらに、ヒット文書と疑似
ヒット文書を2種類の検索結果として出力する場合は、
ユーザの使い勝手を向上させることが出来る。
【0037】−第2実施例− 第2実施例は、検索結果の文書の画像を表示すると共に
その画像上で検索文字列の部分を強調表示する実施例で
ある。図13に、本発明の第2実施例にかかる文書検索
表示システム200の構成を示す。第1実施例の文書検
索システム200との相違点は、画像1520および文
字枠座標1530を蓄積している点および出力結果処理
部55Aの代りに出力結果処理部55Bを備える点であ
る。図14に示すように、紙の形態の文書1501をス
キャナ1505により画像として取り込み、データ管理
部1515により文書ごとに画像1520を蓄積する。
また、文字認識部1510により画像中の文字を認識
し、第1位候補文字をデータ管理部1515によりテキ
スト20として蓄積する。また、文字認識部1515が
画像中の文字を切り出すために設定した文字枠の左上座
標と右下座標の2つの座標を文字枠座標1530として
蓄積する。図15に、文字枠1615の左上座標162
0と右下座標1625を示す。1601は文書の画像で
ある。1605は画像の原点である。図16に、文字枠
座標1530のデータ構造を示す。この文字枠座標15
30において、文書ID欄1650には、文書ID“d
1”,“d2”,…を登録する。また、文字位置欄16
52には、当該文書の先頭文字を“1”とする文字順を
登録する。また、文字枠座標欄1654には、対応する
文字の文字枠の左上座標と右下座標を登録する。
【0038】図1に戻り、出力結果処理部55Bは、図
11に示した出力結果処理の外に、画像表示処理を実行
する。図17は、画像表示処理のフローチャートであ
る。ステップ1760では、表示指示されたサーチ文書
の画像をCRTに表示する。ステップ1762では、表
示指示されたサーチ文書がヒット文書か否かを判定し、
ヒット文書ならステップ1764へ進み、ヒット文書で
ないなら何もしない。ステップ1764では、当該ヒッ
ト文書における検索文字列種フラグ“0”のサーチ先頭
文字位置を順に取り出し、ステップ1766を反復す
る。ステップ1766では、当該サーチ先頭文字位置か
ら検索キー1の文字数分の各文字に対応する文字枠座標
を取り出し、それら文字枠座標で規定される画像の部分
をハイライト表示にする。
【0039】ステップ1768では、表示指示されたサ
ーチ文書が疑似ヒット文書か否かを判定し、疑似ヒット
文書ならステップ1770へ進み、疑似ヒット文書でな
いなら何もしない。ステップ1770では、当該疑似ヒ
ット文書における全てのサーチ先頭文字位置を順に取り
出し、ステップ1772を反復する。ステップ1772
では、当該サーチ先頭文字位置から検索キー1の文字数
分の各文字に対応する文字枠座標を取り出し、それら文
字枠座標で規定される画像の部分をハイライト表示にす
る。以上の文書検索表示システム200によれば、指示
されたサーチ文書の画像とこれに含まれる検索文字列2
の位置を明確にユーザに提示することが出来るので、検
索結果の当否をユーザは容易に検証することが出来る。
【0040】
【発明の効果】本発明の文書検索システムによれば、記
憶するデータ量が少なくて済むと共に検索ノイズを低減
でき、高精度に文書を検索することが出来る。また、本
発明の文書検索表示システムによれば、検索結果が正し
いか否かをユーザが容易に検証できるようになる。
【図面の簡単な説明】
【図1】本発明の第1実施例の文書検索システムを示す
構成図である。
【図2】紙の形態の文書からテキストを蓄積する作業の
説明図である。
【図3】コンフュージュンマトリクスとそのアクセス方
法を示す説明図である。
【図4】検索キーを展開して作成したオートマトンの説
明図である。
【図5】図4のオートマトンに対応する状態遷移表を示
す説明図である。
【図6】テキストサーチ結果のデータ構造図である。
【図7】単語サーチ結果のデータ構造図である。
【図8】サーチ単語を展開して作成した新たなオートマ
トンの説明図である。
【図9】文字列確認結果のデータ構造図である。
【図10】検索文字列確認部での処理を示すフローチャ
ートである。
【図11】出力結果処理部での処理を示すフローチャー
トである。
【図12】検索結果中間データのデータ構造図である。
【図13】本発明の第2実施例の文書検索表示システム
を示す構成図である。
【図14】紙の形態の文書からテキスト,画像,文字枠
座標を蓄積する作業の説明図である。
【図15】文字枠座標の説明図である。
【図16】文字枠座標のデータ構造図である。
【図17】出力結果処理部での画像表示処理を示すフロ
ーチャートである。
【図18】文書の一例の説明図である。
【符号の説明】
1:検索キー 5:検索文字列展開部 10:コンフュージョンマトリクス 15:テキストサーチ部 20:テキスト(の蓄積部) 25:単語サーチ部 30:単語辞書 35:検索文字列部分追加部 45:部分テキストマッチング部 55A,55B:出力結果処理部 60:検索結果 65:検索文字列確認部 100:文書検索システム 200:文書検索表示システム 1520:画像(の蓄積部) 1530:文字枠座標(の蓄積部)

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 文書の画像中の文字を認識して得られた
    第1位候補文字をテキストとして蓄積するテキスト蓄積
    手段と、誤認識されやすい文字をグループ化したコンフ
    ュージュンマトリクス手段と、そのコンフュージュンマ
    トリクス手段を用いて検索キーを検索文字列に展開する
    検索文字列展開手段と、前記テキストを検索して前記検
    索文字列のいずれかを含む文書(以下、サーチ文書とい
    う)を求めるテキストサーチ手段とを有する文書検索シ
    ステムにおいて、 単語辞書手段と、その単語辞書手段を検索して前記検索
    文字列が部分一致する単語(以下、サーチ単語という)
    を求める単語サーチ手段と、前記テキストサーチ手段で
    求めた文書に含まれる検索文字列が前記サーチ単語の一
    部であるか否かを判定する検索文字列確認手段と、ある
    文書が含む検索文字列が全て前記サーチ単語の一部であ
    る場合に当該文書を疑似ヒット文書と判定しそうでない
    場合に当該文書をヒット文書と判定するサーチ文書判定
    手段とを具備したことを特徴とする文書検索システム。
  2. 【請求項2】 文書の画像中の文字を認識して得られた
    第1位候補文字をテキストとして蓄積するテキスト蓄積
    手段と、誤認識されやすい文字をグループ化したコンフ
    ュージュンマトリクス手段と、そのコンフュージュンマ
    トリクス手段を用いて検索キーを検索文字列に展開する
    検索文字列展開手段と、前記テキストを検索して前記検
    索文字列のいずれかを含む文書(以下、サーチ文書とい
    う)を求めるテキストサーチ手段とを有する文書検索シ
    ステムにおいて、 単語辞書手段と、その単語辞書手段を検索して前記検索
    文字列が部分一致する単語(以下、サーチ単語という)
    を求める単語サーチ手段と、前記コンフュージュンマト
    リクス手段を用いて前記サーチ単語を拡張サーチ単語に
    展開するサーチ単語展開手段と、前記テキストサーチ手
    段で求めた文書に含まれる検索文字列が前記拡張サーチ
    単語の一部であるか否かを判定する検索文字列確認手段
    と、ある文書が含む検索文字列が全て前記拡張サーチ単
    語の一部である場合に当該文書を疑似ヒット文書と判定
    しそうでない場合に当該文書をヒット文書と判定するサ
    ーチ文書判定手段とを具備したことを特徴とする文書検
    索システム。
  3. 【請求項3】 請求項1または請求項2に記載の文書検
    索システムにおいて、前記単語サーチ手段は、サーチ単
    語の文字列と,サーチ単語長と,サーチ単語中で検索文
    字列が部分一致した位置とを含む単語サーチ結果を出力
    し、前記検索文字列確認手段は、テキスト中で検索文字
    列が存在した位置と前記単語サーチ結果とに基づいて当
    該検索文字列が前記サーチ単語または前記拡張サーチ単
    語の一部であるか否かを判定することを特徴とする文書
    検索システム。
  4. 【請求項4】 請求項1から請求項3のいずれかに記載
    の文書検索システムにおいて、前記ヒット文書のみを検
    索結果として出力するか、前記全てのサーチ文書を検索
    結果として出力するか、前記ヒット文書と前記疑似ヒッ
    ト文書を2種類の検索結果として出力するか、の少なく
    とも一つを行う出力結果処理手段を具備したことを特徴
    とする文書検索システム。
  5. 【請求項5】 請求項1から請求項4のいずれかに記載
    の文書検索システムにおいて、文書の画像を蓄積する画
    像蓄積手段と、指定されたサーチ文書の画像を表示する
    画像表示手段と、文書の画像中の文字を切り出すために
    用いた文字枠の座標(以下、文字枠座標という)を蓄積
    する文字枠座標蓄積手段と、指定されたサーチ文書の画
    像を表示する際に前記文字枠座標を利用して当該画像上
    の検索文字列部分を他の部分と異なる表示形態にする強
    調表示手段とを具備したことを特徴とする文書検索シス
    テム。
  6. 【請求項6】 文書の画像を蓄積する画像蓄積手段と、
    文書の画像中の文字を認識して得られたテキストを蓄積
    するテキスト蓄積手段と、前記テキストを検索して前記
    検索キーを含む文書(以下、サーチ文書という)を求め
    るテキストサーチ手段と、指定されたサーチ文書の画像
    を表示する画像表示手段とを有する文書検索表示システ
    ムにおいて、 文書の画像中の文字を切り出すために用いた文字枠の座
    標(以下、文字枠座標という)を蓄積する文字枠座標蓄
    積手段と、指定されたサーチ文書の画像を表示する際に
    前記文字枠座標を利用して当該画像上の検索キー部分を
    他の部分と異なる表示形態にする強調表示手段とを具備
    したことを特徴とする文書検索表示システム。
JP17198695A 1995-07-07 1995-07-07 文書検索システム Expired - Fee Related JP3505610B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP17198695A JP3505610B2 (ja) 1995-07-07 1995-07-07 文書検索システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP17198695A JP3505610B2 (ja) 1995-07-07 1995-07-07 文書検索システム

Publications (2)

Publication Number Publication Date
JPH0922417A true JPH0922417A (ja) 1997-01-21
JP3505610B2 JP3505610B2 (ja) 2004-03-08

Family

ID=15933421

Family Applications (1)

Application Number Title Priority Date Filing Date
JP17198695A Expired - Fee Related JP3505610B2 (ja) 1995-07-07 1995-07-07 文書検索システム

Country Status (1)

Country Link
JP (1) JP3505610B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006040150A (ja) * 2004-07-29 2006-02-09 Mitsubishi Electric Corp 音声データ検索装置
JP2007272463A (ja) * 2006-03-30 2007-10-18 Toshiba Corp 情報検索装置、情報検索方法および情報検索プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006040150A (ja) * 2004-07-29 2006-02-09 Mitsubishi Electric Corp 音声データ検索装置
JP2007272463A (ja) * 2006-03-30 2007-10-18 Toshiba Corp 情報検索装置、情報検索方法および情報検索プログラム

Also Published As

Publication number Publication date
JP3505610B2 (ja) 2004-03-08

Similar Documents

Publication Publication Date Title
US5099426A (en) Method for use of morphological information to cross reference keywords used for information retrieval
JP6461980B2 (ja) 検索結果におけるコヒーレントな質問回答
US7343371B2 (en) Queries-and-responses processing method, queries-and-responses processing program, queries-and-responses processing program recording medium, and queries-and-responses processing apparatus
JP2000315216A (ja) 自然言語検索方法および装置
JPH06215029A (ja) テキスト検索方法
US11531693B2 (en) Information processing apparatus, method and non-transitory computer readable medium
CN112925563B (zh) 一种面向代码重用的源代码推荐方法
US20120221324A1 (en) Document Processing Apparatus
JP2002189747A (ja) 文書情報の検索方法
JP5910134B2 (ja) テキスト検索装置及びプログラム
US7409381B1 (en) Index to a semi-structured database
JPH08147320A (ja) 情報検索方法及びシステム
JPH0844771A (ja) 情報検索装置
JPH0922417A (ja) 文書検索システムおよび文書検索表示システム
JP2817103B2 (ja) データ検索装置及びデータ検索方法
JP5326781B2 (ja) 抽出規則作成システム、抽出規則作成方法及び抽出規則作成プログラム
JP4965766B2 (ja) 関係情報抽出装置および属性情報抽出装置
US9224040B2 (en) Method for object recognition and describing structure of graphical objects
JP6447549B2 (ja) テキスト検索装置、テキスト検索方法及びプログラム
JP2005158044A (ja) 情報検索プログラム、当該プログラムを格納するコンピュータ読み取り可能な記録媒体、情報検索方法、および情報検索装置
JPH07134720A (ja) 文章作成システムにおける関連情報提示方法及び装置
JPH06325091A (ja) 類似度評価型データベース検索装置
JPH07225761A (ja) 文書データの一致検証方式
JP3924899B2 (ja) テキスト検索装置およびテキスト検索方法
KR20020015100A (ko) 웹 브라우저를 이용한 정보 검색 시스템

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20031202

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20031202

LAPS Cancellation because of no payment of annual fees