JP3505610B2 - 文書検索システム - Google Patents

文書検索システム

Info

Publication number
JP3505610B2
JP3505610B2 JP17198695A JP17198695A JP3505610B2 JP 3505610 B2 JP3505610 B2 JP 3505610B2 JP 17198695 A JP17198695 A JP 17198695A JP 17198695 A JP17198695 A JP 17198695A JP 3505610 B2 JP3505610 B2 JP 3505610B2
Authority
JP
Japan
Prior art keywords
search
document
word
character string
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP17198695A
Other languages
English (en)
Other versions
JPH0922417A (ja
Inventor
勝美 丸川
浩道 藤澤
好博 嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP17198695A priority Critical patent/JP3505610B2/ja
Publication of JPH0922417A publication Critical patent/JPH0922417A/ja
Application granted granted Critical
Publication of JP3505610B2 publication Critical patent/JP3505610B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文書検索システムに
し、さらに詳しくは、記憶するデータ量が少なくて済む
と共に高精度に文書を検索することが出来る文書検索シ
ステムに関する。
【0002】
【従来の技術】特開昭62−44878号公報に開示の
装置では、文書を画像として蓄積するとともに、画像中
の文字を認識して得られた全ての候補文字をテキストと
して蓄積する。そして、前記テキストと検索キーとのス
トリングマッチングによりフルテキストサーチを行い、
文書を検索する。また、検索結果の文書の画像を表示す
る。
【0003】これに対し、特願平5−326330号公
報に開示の装置では、文書を画像として蓄積するととも
に、画像中の文字を認識して得られた第1候補文字をテ
キストとして蓄積する。一方、誤認識しやすい文字をグ
ループ化したコンフュージュンマトリクスを利用して検
索キーを検索文字列に展開する。そして、前記テキスト
と前記検索文字列とのストリングマッチングによりフル
テキストサーチを行い、文書を検索する。また、検索結
果の文書の画像を表示する。
【0004】
【発明が解決しようとする課題】上記特開昭62−44
878号に開示の装置では、文字認識結果の全ての候補
文字を含むテキストを記憶する必要があるため、記憶す
るデータ量が増大する問題点がある。
【0005】他方、上記特願平5−326330号に開
示の装置では、文字認識結果の第1候補文字のみのテキ
ストを記憶するため、記憶するデータ量が少なくて済む
利点がある。しかし、検索ノイズが多い問題点がある。
例えば、図18に示す文書があり、検索キーが「イラ
ク」であるとき、コンフュージュンマトリクスを利用し
て検索キー「イラク」を展開した検索文字列の一つであ
る「イテク」が文書中に含まれるため、この文書がヒッ
トする。しかし、この文書は、検索キー「イラク」から
検索されるべきでない検索ノイズである。
【0006】さらに、従来の装置では、検索結果の文書
の画像を単に表示するだけなので、検索結果が正しいか
否かをユーザが検証しにくい問題点がある。
【0007】 そこで、本発明の目的は、記憶するデー
タ量が少なくて済むと共に検索ノイズを低減でき、高精
度に文書を検索することが出来る文書検索システムを提
供することにある。
【0008】
【課題を解決するための手段】第1の観点では、本発明
は、検索キーを誤認識されやすい範囲まで展開して検索
文字列を出力する検索文字列展開手段と、テキストを検
索して前記検索文字列を含む文書を求めるテキストサー
チ手段と、単語辞書と、前記単語辞書を検索して前記検
索文字列が部分一致する単語を求める単語サーチ手段
と、前記テキストサーチ手段で求めた文書に含まれる検
索文字列が前記単語サーチ手段で求めた単語の一部であ
るか否かを判定する検索文字列確認手段と、前記テキス
トサーチ手段で求めた文書に含まれる検索文字列が全て
前記単語サーチ手段で求めた単語の一部である場合に当
該文書を疑似ヒット文書と判定しそうでない場合に当該
文書をヒット文書と判定しヒット文書のみを検索結果と
して出力する出力結果処理手段とを有することを特徴と
する文書検索システムを提供する。
【0009】第2の観点では、発明は、前記検索文字
列確認手段は、単語サーチ手段で求めた単語を誤認識さ
れやすい範囲まで展開して拡張サーチ単語を出力する
ーチ単語展開手段を有し、前記テキストサーチ手段で求
めた文書に含まれる検索文字列が前記拡張サーチ単語の
一部であるか否かを判定することにより前記テキストサ
ーチ手段で求めた文書に含まれる検索文字列が前記単語
サーチ手段で求めた単語の一部であるか否かを判定する
手段であることを特徴とする請求項1に記載の文書検索
システムを提供する。
【0010】 第3の観点では、本発明は、前記テキス
トは、文書の画像中の文字を認識して得られた第1位候
補文字であることを特徴とする請求項1又は請求項2に
記載の文書検索システムを提供する。
【0011】 第4の観点では、本発明は、前記出力結
果処理手段は、操作者の指示に応じてヒット文書および
疑似ヒット文書を検索結果として出力しうることを特徴
とする請求項1から請求項3のいずれかに記載の文書検
索システムを提供する。
【0012】 第5の観点では、本発明は、前記出力結
果処理手段は、操作者の指示に応じてヒット文書および
疑似ヒット文書を検索結果として且つ両者を区別して出
力しうることを特徴とする請求項1から請求項4のいず
れかに記載の文書検索システムを提供する。
【0013】
【作用】上記第1の観点による文書検索システムでは、
検索文字列と部分一致するサーチ単語を求めておき、テ
キスト中に検索文字列が存在したとき、それが前記サー
チ単語の一部であるか否かを判定する。そして、その判
定結果に基づき検索結果を出力する。すなわち、ある文
書が含む検索文字列が全て前記サーチ単語の一部である
場合は当該文書を疑似ヒット文書と判定し、そうでない
場合は当該文書をヒット文書と判定する。先述のよう
に、検索文字列と部分一致する単語が存在する文書は、
検索結果として抽出される。しかし、検索結果として抽
出されても、検索文字列と完全一致する箇所が全く存在
しない文書は、正しい検索結果である確率が低い。一
方、検索文字列と完全一致する箇所が1ヵ所でもある文
書は、正しい検索結果である確率が高い。前者は疑似ヒ
ット文書と判定され、後者はヒット文書と判定され、ヒ
ット文書だけが出力されるため、検索ノイズを低減で
き、高精度に文書を検索することが出来る。
【0014】上記第2の観点による文書検索システムで
も、前記第1の観点による文書検索システムと同様に
索ノイズを低減でき、高精度に文書を検索することが
出来る。さらに、サーチ単語を拡張するため、検索ノイ
ズをさらに的確に低減することが出来る。
【0015】
【0016】 上記第3の観点による文書検索システム
では、文字認識結果の第1候補文字のみのテキストを記
憶するため、記憶するデータ量が少なくて済む。
【0017】 上記第4の観点による文書検索システム
では、ヒット文書および疑似ヒット文書を出力しうるの
で、ユーザの使い勝手を向上させることが出来る。
【0018】 上記第5の観点による文書検索システム
では、ヒット文書および疑似ヒット文書を2種類の検索
結果として出力しうるので、ユーザの使い勝手を向上さ
せることが出来る。
【0019】
【実施例】以下、図に示す実施例により本発明を詳細に
説明する。なお、これにより本発明が限定されるもので
はない。
【0020】−第1実施例− 図1に、本発明の第1実施例の文書検索システム100
の構成を示す。この文書検索システム100において、
テキスト20は、図2に示すように、紙の形態の文書2
01をスキャナ205により画像として取り込み、文字
認識部210により画像中の文字を認識し、第1位候補
文字をデータ管理部215により記憶することを、複数
の文書201について、それぞれ行って蓄積したもので
ある。
【0021】図1に戻り、ユーザが検索キー1を入力す
ると、検索文字列展開部5にて、コンフュージョンマト
リクス10を用いて、検索キー1を検索文字列2に展開
し、それを有限オートマトン(以下、オートマトンと呼
ぶ)の形態で出力する。図3に示すように、コンフュー
ジュンマトリクス10は、誤って認識しやすい類似した
複数の文字をグループ化して格納している。検索キー1
の各文字についてインデックステーブル401からコン
フュージュンマトリクス10をアクセスし、類似した文
字(以下、コンフュージョンデータという)を取り出
し、それらコンフュージョンデータを組み合せて、検索
文字列2を得る。例えば、検索キー1として「イラク」
が入力されたとすると、 「イラク」,「イラケ」,「イラタ」,「イラ夕」 「イテク」,「イテケ」,「イテタ」,「イテ夕」 「ィラク」,「ィラケ」,「ィラタ」,「ィラ夕」 「ィテク」,「ィテケ」,「ィテタ」,「ィテ夕」 の16種類の検索文字列2を得る。これを、図4に示す
ようなオートマトン400として出力する。
【0022】図1に戻り、テキストサーチ部15は、オ
ートマトンによりテキスト20を検索する。具体的に
は、テキスト20中の文字を1つずつ取り込んでオート
マトンの文字と照合し、一致すると次の状態に遷移さ
せ、最終の状態に達したときにそのオートマトンに該当
する文字列が存在したと判定する。そして、テキストサ
ーチ結果3を出力する。状態の遷移は、具体的には図5
に示すような状態遷移表500に従って行う。なお、図
5に示す状態遷移表500は、図4のオートマトン40
0に対応するものである。例えば、状態遷移表500に
おいて、状態番号0でテキスト20から「イ」を取り込
むと、状態番号1に遷移する。次に、状態番号1でテキ
スト20から「ラ」を取り込むと、状態番号2に遷移す
る。次に、状態番号2でテキスト20から「ク」を取り
込むと、状態番号3に遷移する。状態番号3は、最終の
状態であるから、図4のオートマトン400に該当する
文字列が存在したと判定する。なお、状態番号3からは
状態番号0に戻る。
【0023】図6に、テキストサーチ結果3のデータ構
造を示す。このテキストサーチ結果3において、サーチ
文書数欄1001には、検索文字列2がヒットした文書
数“M”が登録される。また、検索文字列2がヒットし
た文書ごとの文書ID欄1015,1015,…には、
当該文書の識別子“D1”,“D2”,…が登録され
る。また、サーチ文字列数欄1020,1020,…に
は、当該文書において検索文字列2がヒットした箇所の
数“N1”,“N2”,…が登録される。また、一つの
文書において検索文字列2がヒットした箇所ごとのサー
チ先頭文字位置欄1025,1025,…には、当該文
書の先頭文字から当該ヒットした箇所の先頭文字までの
文字数“S11”,“S12”,…が登録される。
【0024】図1に戻り、単語サーチ部25は、予め設
けた単語辞書30の中から検索文字列2が部分一致する
単語(以下、サーチ単語という)を求める。そして、単
語サーチ結果4を出力する。なお、完全一致する単語は
サーチ単語ではない。図7の(a)に、単語サーチ結果
4のデータ構造を示す。この単語サーチ結果4におい
て、サーチ単語数欄1115には、求められたサーチ単
語数“C”が登録される。また、サーチ単語ごとのサー
チ単語欄1130には、当該サーチ単語の文字列“W
1”,“W2”,…が登録される。また、サーチ単語長
欄1135には、当該サーチ単語の文字列数“L1”,
“L2”,…が登録される。また、サーチ先頭文字位置
欄1140には、当該サーチ単語の先頭文字から検索文
字列2の先頭文字までの文字数“B1”,“B2”,…
が登録される。また、サーチ終了文字位置欄1145に
は、当該サーチ単語の先頭文字から検索文字列2の終了
文字までの文字数“E1”,“E2”,…が登録され
る。図7の(b)に、サーチ単語長“Lk”と,サーチ
先頭文字位置“Bk”と,サーチ終了文字位置“Ek”
と,前方不一致文字数Iと,後方不一致文字数Jの関係
を示す。
【0025】図1に戻り、検索文字列確認部65は、検
索文字列部分追加部35と部分テキストマッチング部4
5とから構成される。前記検索文字列部分追加部35
は、コンフュージョンマトリクス10を用いて単語サー
チ結果4のサーチ単語の文字列(図7の1130)を展
開し、新たなオートマトンを生成する。図8に、新たな
オートマトンの生成方法を示す。 (a)は、検索キー「イラク」を展開した検索文字列か
ら生成したオートマトン400である。 (b)は、検索キー「イラク」を展開した検索文字列の
一つである「イテク」と部分一致したサーチ単語「ハイ
テク」である。 (c)に示すように、検索キー「イラク」から生成した
オートマトン400とサーチ単語「ハイテク」とを比較
して不一致文字を抽出し、その不一致文字とコンフュー
ジョンマトリクス10からコンフュージョンデータを得
る。 (d)に示すように、前記コンフュージョンデータを用
いてオートマトン400を拡張し、新たなオートマトン
920を生成する。
【0026】図1に戻り、部分テキストマッチング部4
5は、検索文字列がヒットしたテキスト中の位置情報
(図6の1025)を利用して、テキスト20と新たな
オートマトン920とを部分的にマッチングさせ、ある
位置でヒットした検索文字列が他の単語に包含されるか
否かを判定し、文字列確認結果6を出力する。図9に、
文字列確認結果6のデータ構造を示す。この文字列確認
結果6において、サーチ文書ID欄1201には、テキ
ストサーチ結果3の文書ID欄1015の内容“D
1”,“D2”,…が登録される。また、サーチ先頭文
字位置欄1205には、テキストサーチ結果3のサーチ
先頭文字位置欄1025の内容“S11”,“S12”,…
が登録される。また、検索文字列種フラグ1210に
は、各サーチ先頭位置欄1205の位置でヒットした検
索文字列が他の単語に包含されるなら“”を格納し、
他の単語に包含されないなら“”を格納する。
【0027】図1に戻り、出力結果処理部55Aは、文
字列確認結果6を解析し、あるサーチ文書に対応する検
索文字列種フラグが1つでも“0”の場合、そのサーチ
文書をヒット文書と判定する。一方、あるサーチ文書に
対応する検索文字列種フラグが全て“1”の場合、その
サーチ文書を疑似ヒット文書と判定する。そして、指示
された出力形式が「ヒット文書のみ出力」ならヒット文
書と判定したサーチ文書IDのみを検索結果60として
出力する。一方、指示された出力形式が「全てのサーチ
文書を無条件で出力」なら全てのサーチ文書IDを検索
結果60として出力する。さらに、指示された出力形式
が「ヒット文書と疑似ヒット文書を区別して出力」なら
ヒット文書と判定したサーチ文書IDにヒット文書を示
すマークを付し,疑似ヒット文書と判定したサーチ文書
IDに疑似ヒット文書を示すマークを付した検索結果6
0を出力する。
【0028】図10に、前記検索文字列確認部65での
処理のフローチャートを示す。破線枠1301の処理
が、前記検索文字列部分追加部35の処理に相当する。
また、破線枠1305の処理が、前記部分テキストマッ
チング部45の処理に相当する。
【0029】ステップ1320では、単語サーチ結果4
(図7)のサーチ単語Wk(k=1〜C)についてステ
ップ1325〜1399の処理を行う。ステップ132
5では、着目しているサーチ単語Wkのサーチ先頭文字
位置Bkを入力する。ステップ1330では、Bk≠1
か判定する。Bk≠1なら、検索文字列の前方に不一致
文字があるので、ステップ1335へ進む。Bk=1な
ら、検索文字列の前方に不一致文字がないので、ステッ
プ1360へ進む。ステップ1335では、前方不一致
文字数I(=Bk−1)を算出する。ステップ1340
では、i=1〜Iについてステップ1345,1350
を実行する。ステップ1345では、サーチ単語Wkの
i番目の文字とコンフュージョンマトリクス10からコ
ンフュージョンデータを得る(図8の(c)参照)。ステ
ップ1350では、コンフュージョンデータから部分オ
ートマトンを生成する。既に生成された部分オートマト
ンがあれば、その後に追加する。ステップ1355で
は、検索文字列のオートマトンに部分オートマトンを前
方接続する。
【0030】ステップ1360では、後方不一致文字数
J(=Lk−Ek)を算出する。ステップ1365では、
J≠0か判定する。J≠0なら、検索文字列の後方に不
一致文字があるので、ステップ1366へ進む。J=0
なら、検索文字列の後方に不一致文字がないので、前記
ステップ1320に戻る。ステップ1366では、j=
1〜Jについてステップ1367,1368を実行す
る。ステップ1367では、サーチ単語Wkの(Ek+
j)番目の文字とコンフュージョンマトリクス10から
コンフュージョンデータを得る。ステップ1368で
は、コンフュージョンデータから部分オートマトンを生
成する。既に生成された部分オートマトンがあれば、そ
の後に追加する。ステップ1369では、検索文字列の
オートマトンに部分オートマトンを後方接続する。これ
により、新たなオートマトン920が生成されたことに
なる。
【0031】ステップ1371では、テキストサーチ結
果3に登録されたサーチ文書Dm(m=1〜M)につい
てステップ1372〜1399の処理を行う。ステップ
1372では、サーチ文書Dmのテキスト20を入力す
る。ステップ1373では、n=1〜Nm(=サーチ文
字列数1020)についてステップ1375〜1399
を行う。ステップ1375では、テキストサーチ結果3
に登録されたサーチ先頭文字位置Smnを入力する。ス
テップ1380では、部分テキストマッチング開始位置
Tn(=Smn−I)を算出する。ステップ1392で
は、サーチ文書Dmのテキスト20のTn番目の文字か
ら(Tn+Lk−1)番目の文字まで順に取り出して、
新たなオートマトン920での状態の遷移を行う。ステ
ップ1395では、新たなオートマトン920で最終の
状態に到達したか否かを判定する。到達したならステッ
プ1398へ進み、到達しなかったならステップ139
9へ進む。ステップ1398では、文字列確認結果6の
サーチ文書Dmのサーチ先頭文字位置Smnに対応する
検索文字列種フラグに“1”を登録する。ステップ13
99では、文字列確認結果6のサーチ文書Dmのサーチ
先頭文字位置Smnに対応する検索文字列種フラグに
“0”を登録する。
【0032】図11は、前記出力結果処理部55Aの処
理のフローチャートである。ステップ1405では、文
字列確認結果6に登録されたサーチ文書Dm(m=1〜
M)についてステップ1406〜1430の処理を行
う。ステップ1406では、図12に示す検索結果中間
データ7におけるサーチ文書Dmのヒット文書フラグを
“0”にする。ステップ1415では、文字列確認結果
6に登録されたサーチ先頭文字位置Smn(n=1〜N
m)についてステップ1420〜1430の処理を行
う。ステップ1420では、文字列確認結果6に登録さ
れたサーチ先頭文字位置Smnに対応する検索文字列種
フラグが“0”か否かを判定し、“0”ならステップ1
430へ進み、“1”なら前記ステップ1415に戻
る。ステップ1430では、検索結果中間データ7にお
けるサーチ文書Dmのヒット文書フラグを“1”にす
る。
【0033】ステップ1470では、指示された出力形
式が「ヒット文書のみ出力」か否か判定し、「ヒット文
書のみ出力」ならステップ1471へ進み、「ヒット文
書のみ出力」でないなら何もしない。ステップ1471
では、検索結果中間データ7におけるヒット文書フラグ
が“1”のサーチ文書IDを検索結果60として出力す
る。
【0034】ステップ1472では、指示された出力形
式が「全てのサーチ文書を無条件で出力」か否か判定
し、「全てのサーチ文書を無条件で出力」ならステップ
1473へ進み、「全てのサーチ文書を無条件で出力」
でないなら何もしない。ステップ1473では、検索結
果中間データ7における全てのサーチ文書IDを検索結
果60として出力する。
【0035】ステップ1474では、指示された出力形
式が「ヒット文書と疑似ヒット文書を区別して出力」か
否か判定し、「ヒット文書と疑似ヒット文書を区別して
出力」ならステップ1475へ進み、「ヒット文書と疑
似ヒット文書を区別して出力」でないなら何もしない。
ステップ1475では、検索結果中間データ7における
ヒット文書フラグが“1”のサーチ文書IDにヒット文
書を示すマークを付し,“0”のサーチ文書IDに疑似
ヒット文書を示すマークを付した検索結果60を出力す
る。
【0036】以上の文書検索システム100によれば、
ヒット文書のみを検索結果として出力する場合は、検索
ノイズを低減した検索結果が得られる。また、全てのサ
ーチ文書を検索結果として出力する場合は、検索洩れの
確率を減らすことが出来る。さらに、ヒット文書と疑似
ヒット文書を2種類の検索結果として出力する場合は、
ユーザの使い勝手を向上させることが出来る。
【0037】−第2実施例− 第2実施例は、検索結果の文書の画像を表示すると共に
その画像上で検索文字列の部分を強調表示する実施例で
ある。図13に、本発明の第2実施例にかかる文書検索
表示システム200の構成を示す。第1実施例の文書検
索システム200との相違点は、画像1520および文
字枠座標1530を蓄積している点および出力結果処理
部55Aの代りに出力結果処理部55Bを備える点であ
る。図14に示すように、紙の形態の文書1501をス
キャナ1505により画像として取り込み、データ管理
部1515により文書ごとに画像1520を蓄積する。
また、文字認識部1510により画像中の文字を認識
し、第1位候補文字をデータ管理部1515によりテキ
スト20として蓄積する。また、文字認識部1515が
画像中の文字を切り出すために設定した文字枠の左上座
標と右下座標の2つの座標を文字枠座標1530として
蓄積する。図15に、文字枠1615の左上座標162
0と右下座標1625を示す。1601は文書の画像で
ある。1605は画像の原点である。図16に、文字枠
座標1530のデータ構造を示す。この文字枠座標15
30において、文書ID欄1650には、文書ID“d
1”,“d2”,…を登録する。また、文字位置欄16
52には、当該文書の先頭文字を“1”とする文字順を
登録する。また、文字枠座標欄1654には、対応する
文字の文字枠の左上座標と右下座標を登録する。
【0038】図1に戻り、出力結果処理部55Bは、図
11に示した出力結果処理の外に、画像表示処理を実行
する。図17は、画像表示処理のフローチャートであ
る。ステップ1760では、表示指示されたサーチ文書
の画像をCRTに表示する。ステップ1762では、表
示指示されたサーチ文書がヒット文書か否かを判定し、
ヒット文書ならステップ1764へ進み、ヒット文書で
ないなら何もしない。ステップ1764では、当該ヒッ
ト文書における検索文字列種フラグ“0”のサーチ先頭
文字位置を順に取り出し、ステップ1766を反復す
る。ステップ1766では、当該サーチ先頭文字位置か
ら検索キー1の文字数分の各文字に対応する文字枠座標
を取り出し、それら文字枠座標で規定される画像の部分
をハイライト表示にする。
【0039】ステップ1768では、表示指示されたサ
ーチ文書が疑似ヒット文書か否かを判定し、疑似ヒット
文書ならステップ1770へ進み、疑似ヒット文書でな
いなら何もしない。ステップ1770では、当該疑似ヒ
ット文書における全てのサーチ先頭文字位置を順に取り
出し、ステップ1772を反復する。ステップ1772
では、当該サーチ先頭文字位置から検索キー1の文字数
分の各文字に対応する文字枠座標を取り出し、それら文
字枠座標で規定される画像の部分をハイライト表示にす
る。以上の文書検索表示システム200によれば、指示
されたサーチ文書の画像とこれに含まれる検索文字列2
の位置を明確にユーザに提示することが出来るので、検
索結果の当否をユーザは容易に検証することが出来る。
【0040】
【発明の効果】本発明の文書検索システムによれば、記
憶するデータ量が少なくて済むと共に検索ノイズを低減
でき、高精度に文書を検索することが出来る。
【図面の簡単な説明】
【図1】本発明の第1実施例の文書検索システムを示す
構成図である。
【図2】紙の形態の文書からテキストを蓄積する作業の
説明図である。
【図3】コンフュージュンマトリクスとそのアクセス方
法を示す説明図である。
【図4】検索キーを展開して作成したオートマトンの説
明図である。
【図5】図4のオートマトンに対応する状態遷移表を示
す説明図である。
【図6】テキストサーチ結果のデータ構造図である。
【図7】単語サーチ結果のデータ構造図である。
【図8】サーチ単語を展開して作成した新たなオートマ
トンの説明図である。
【図9】文字列確認結果のデータ構造図である。
【図10】検索文字列確認部での処理を示すフローチャ
ートである。
【図11】出力結果処理部での処理を示すフローチャー
トである。
【図12】検索結果中間データのデータ構造図である。
【図13】本発明の第2実施例の文書検索表示システム
を示す構成図である。
【図14】紙の形態の文書からテキスト,画像,文字枠
座標を蓄積する作業の説明図である。
【図15】文字枠座標の説明図である。
【図16】文字枠座標のデータ構造図である。
【図17】出力結果処理部での画像表示処理を示すフロ
ーチャートである。
【図18】文書の一例の説明図である。
【符号の説明】
1:検索キー 5:検索文字列展開部 10:コンフュージョンマトリクス 15:テキストサーチ部 20:テキスト(の蓄積部) 25:単語サーチ部 30:単語辞書 35:検索文字列部分追加部 45:部分テキストマッチング部 55A,55B:出力結果処理部 60:検索結果 65:検索文字列確認部 100:文書検索システム 200:文書検索表示システム 1520:画像(の蓄積部) 1530:文字枠座標(の蓄積部)
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平7−152774(JP,A) 特開 昭62−44878(JP,A) 丸川勝美、外2名,文書認識と全文検 索の融合技術に関する実験的検討,情報 処理学会研究報告95−FI−39,1995年 9月14日,第95巻,第87号,p.65− 72 丸川勝美、外2名,認識機能の出力あ いまい性を許容した情報検索手法の一検 討,電子情報通信学会論文誌,1996年 5月25日,第J79−D−II巻,第5 号,p.785−794 (58)調査した分野(Int.Cl.7,DB名) G06F 17/30

Claims (5)

    (57)【特許請求の範囲】
  1. 【請求項1】 検索キーを誤認識されやすい範囲まで展
    開して検索文字列を出力する検索文字列展開手段と、テ
    キストを検索して前記検索文字列を含む文書を求めるテ
    キストサーチ手段と、単語辞書と、前記単語辞書を検索
    して前記検索文字列が部分一致する単語を求める単語サ
    ーチ手段と、前記テキストサーチ手段で求めた文書に含
    まれる検索文字列が前記単語サーチ手段で求めた単語の
    一部であるか否かを判定する検索文字列確認手段と、
    記テキストサーチ手段で求めた文書に含まれる検索文字
    列が全て前記単語サーチ手段で求めた単語の一部である
    場合に当該文書を疑似ヒット文書と判定しそうでない場
    合に当該文書をヒット文書と判定しヒット文書のみを検
    索結果として出力する出力結果処理手段とを有すること
    を特徴とする文書検索システム。
  2. 【請求項2】 前記検索文字列確認手段は、単語サーチ
    手段で求めた単語を誤認識されやすい範囲まで展開して
    拡張サーチ単語を出力するサーチ単語展開手段を有し、
    前記テキストサーチ手段で求めた文書に含まれる検索文
    字列が前記拡張サーチ単語の一部であるか否かを判定す
    ることにより前記テキストサーチ手段で求めた文書に含
    まれる検索文字列が前記単語サーチ手段で求めた単語の
    一部であるか否かを判定する手段であることを特徴とす
    る請求項1に記載の文書検索システム。
  3. 【請求項3】 前記テキストは、文書の画像中の文字を
    認識して得られた第1位候補文字であることを特徴とす
    る請求項1又は請求項2に記載の文書検索システム。
  4. 【請求項4】 前記出力結果処理手段は、操作者の指示
    に応じてヒット文書および疑似ヒット文書を検索結果と
    して出力しうることを特徴とする請求項1から請求項3
    のいずれかに記載の文書検索システム。
  5. 【請求項5】 前記出力結果処理手段は、操作者の指示
    に応じてヒット文書および疑似ヒット文書を検索結果と
    して且つ両者を区別して出力しうることを特徴とする請
    求項1から請求項4のいずれかに記載の文書検索システ
JP17198695A 1995-07-07 1995-07-07 文書検索システム Expired - Fee Related JP3505610B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP17198695A JP3505610B2 (ja) 1995-07-07 1995-07-07 文書検索システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP17198695A JP3505610B2 (ja) 1995-07-07 1995-07-07 文書検索システム

Publications (2)

Publication Number Publication Date
JPH0922417A JPH0922417A (ja) 1997-01-21
JP3505610B2 true JP3505610B2 (ja) 2004-03-08

Family

ID=15933421

Family Applications (1)

Application Number Title Priority Date Filing Date
JP17198695A Expired - Fee Related JP3505610B2 (ja) 1995-07-07 1995-07-07 文書検索システム

Country Status (1)

Country Link
JP (1) JP3505610B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4511274B2 (ja) * 2004-07-29 2010-07-28 三菱電機株式会社 音声データ検索装置
JP2007272463A (ja) * 2006-03-30 2007-10-18 Toshiba Corp 情報検索装置、情報検索方法および情報検索プログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
丸川勝美、外2名,文書認識と全文検索の融合技術に関する実験的検討,情報処理学会研究報告95−FI−39,1995年 9月14日,第95巻,第87号,p.65−72
丸川勝美、外2名,認識機能の出力あいまい性を許容した情報検索手法の一検討,電子情報通信学会論文誌,1996年 5月25日,第J79−D−II巻,第5号,p.785−794

Also Published As

Publication number Publication date
JPH0922417A (ja) 1997-01-21

Similar Documents

Publication Publication Date Title
US5099426A (en) Method for use of morphological information to cross reference keywords used for information retrieval
JP2832988B2 (ja) データ検索システム
US7409381B1 (en) Index to a semi-structured database
JP2000163437A (ja) 文書分類方法および文書分類装置ならびに文書分類処理プログラムを記録した記録媒体
JP3281639B2 (ja) 文書検索システム
JP3505610B2 (ja) 文書検索システム
JPH0844771A (ja) 情報検索装置
JP2817103B2 (ja) データ検索装置及びデータ検索方法
JPH0773197A (ja) 異表記語辞書作成支援装置
JP3477822B2 (ja) 文書登録検索システム
JP4965766B2 (ja) 関係情報抽出装置および属性情報抽出装置
JP3222193B2 (ja) 情報検索装置
JP2835335B2 (ja) データ検索装置及びデータ検索方法
JPH07134720A (ja) 文章作成システムにおける関連情報提示方法及び装置
JPH08212230A (ja) 文書検索方法及び文書検索装置
JPH09101969A (ja) 適合フィードバックを用いた全文検索方法および装置
KR20020015100A (ko) 웹 브라우저를 이용한 정보 검색 시스템
JP2773667B2 (ja) 関連情報検索装置
JPH07296005A (ja) 日本語テキスト登録・検索装置
JPH0635971A (ja) 文書検索装置
JPH05128159A (ja) キーワード抽出方法及び装置
JPH02253474A (ja) テキストベース検索方法
JP2001092845A (ja) 文書取得方法及び記録媒体
JP4046221B2 (ja) 文書処理装置
JPH09269952A (ja) 文書検索装置及びその方法

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20031202

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20031202

LAPS Cancellation because of no payment of annual fees