JPH06223121A - 情報検索装置 - Google Patents

情報検索装置

Info

Publication number
JPH06223121A
JPH06223121A JP5008734A JP873493A JPH06223121A JP H06223121 A JPH06223121 A JP H06223121A JP 5008734 A JP5008734 A JP 5008734A JP 873493 A JP873493 A JP 873493A JP H06223121 A JPH06223121 A JP H06223121A
Authority
JP
Japan
Prior art keywords
character
document
candidate
recognition
candidates
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP5008734A
Other languages
English (en)
Other versions
JP2586372B2 (ja
Inventor
Satoru Kaneda
悟 金田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP5008734A priority Critical patent/JP2586372B2/ja
Publication of JPH06223121A publication Critical patent/JPH06223121A/ja
Application granted granted Critical
Publication of JP2586372B2 publication Critical patent/JP2586372B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】 【目的】 文字認識結果を対象に検索と修正を行う情報
検索装置と情報修正装置において、不確かな認識による
検索漏れを防ぐこと、修正作業を後回しにすることを可
能にする。 【構成】 文書画像データ蓄積手段10から文書画像を
読み出し、文字認識手段11が文字毎に文字画像を分割
し文字認識を行い候補文字とその確からしさを出力す
る。確からしさの評価手段12は、上記候補文字と確か
らしさから、検索漏れが防がれるように、候補を選択し
て、文書認識データ蓄積手段13に列挙して保存する。
検索手段14は、上記文書認識データを読み出し文字列
検索する際に、各文字が候補に含まれれば良いという条
件で文字単位の照合を行う。従って、候補に正しい文字
が含まれていれば、修正作業を経なくても検索漏れを防
ぐことができる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文書画像を処理する装
置における文書情報の検索および修正に関するものであ
る。
【0002】
【従来の技術】近年、文書情報の増大にともない、文書
画像を電子化して蓄積(ファイル)しておき、検索して
取り出す装置の需要が高まっている。このような電子フ
ァイル装置において、文字認識を利用して文書画像の文
書の内容に基づく検索を可能にする情報検索装置が望ま
れている。
【0003】以下、上述した従来の情報検索装置につい
て図を用いて説明する。図5は従来の文字認識を利用し
た情報検索装置のフローチャートである。
【0004】文書を登録する際は、文書をスキャナなど
の画像入力手段1を利用して文書画像データとして入力
し、文書画像蓄積手段2に蓄積する。さらに、文字認識
手段3を利用して文書画像データに含まれている文字パ
タン部分を文字認識する。文字認識で認識が不確かな箇
所が候補の文字が複数ある箇所については、キーボード
などで登録者が修正作業を行う。この認識結果データを
文書画像データと対応づけて認識結果データ蓄積手段6
に蓄積する。
【0005】前記のようにして登録した文書から目的の
文書を検索する際は、キーボード7などからキーワード
などの検索条件を入力し、条件を満たす認識結果データ
を文字検索手段8などにより検索し、認識結果データに
対応する文書画像データを出力する。
【0006】しかしながら、上記のような方式では、文
書登録時に上記文字認識後に上記修正作業が必要にな
り、手間がかかる。
【0007】また、上記修正作業を行わないと、認識結
果データに誤りが含まれる可能性があり、検索対象キー
ワードを文字列検索するときに、前記キーワードを含む
認識結果データに誤りがあると、一致しないため検索漏
れが生じる。検索漏れを防ぐために、キーワードの検索
時に数文字までの不一致を許す照合手法や、検索文字列
と類似したパタン形状の文字列を検索文字列と一緒に検
索する手法が考えられてきた。こうした従来例として、
信学技報CA87−25(1987年5月29日)、特
開平4−158478号公報等に記載がある。
【0008】
【発明が解決しようとする課題】しかし、従来技術で行
われていた、検索漏れを防ぐために数文字までの不一致
を許す照合手法を使うと、不適当な検索結果が生じる
(過検索)という問題がある。例えば、1文字までの誤
りを許す検索手法で、検索文字列(”自由”など)を検
索すると、まったく別の文字列(”理由”や”自然”な
ど)とも一致していると判断してしまう。
【0009】また、検索文字列と類似形状の文字列とを
一緒に検索する手法では、文書画像に書体が異なる文字
が含まれている場合など、誤認識の傾向があらかじめ予
想されたものと異なる文字が含まれている場合に、検索
漏れが起こる。
【0010】また、従来技術で、検索対象とする文書認
識データに認識が不確かであった箇所や認識時の候補が
何であったかといった情報が含まれていない場合、この
データだけを用いて修正作業するのは困難である。上記
の文書認識データに含まれない情報は、別に保存してお
く必要があり、管理が困難である。
【0011】
【課題を解決するための手段】図1は本発明の構成を示
すブロック図である。図1に示すように、上記の課題を
解決する第1の装置は、入力された文書画像データを蓄
積する文書画像蓄積手段10と、文書画像データに含ま
れる文字部分の文字パタンを認識し、候補となる文字コ
ードとその確からしさの推定値を出力する文字認識手段
11と、確からしさに応じて、最も有力な候補の文字コ
ード、あるいは、複数の候補が存在することを示す識別
コードをともなう複数の候補の文字コード、あるいは、
候補多数を示す識別コード、の何れかを選択して出力す
る確からしさの評価手段12と、これらのコード列を文
書認識データとして蓄積する文書認識データ蓄積手段1
3と、入力手段から入力した任意のキーワードを上記の
文書認識データから検索する検索手段14、を備えるこ
とを特徴とするデータ検索装置である。
【0012】ここで、確からしさの評価手段12は、認
識が不確かな文字については、候補となる複数の文字コ
ードを列挙して出力する。ただし、候補の数が多い場合
は、候補を列挙すると文書認識データが大きくなってし
まうため、代わりに、全ての文字が候補であること(候
補多数)を示す識別コードだけを出力する。
【0013】第2の装置は、第1の装置に加え、文書認
識データを読み込んで、複数の候補から正しい文字コー
ドの選択や、認識できなかった部分への正しい文字コー
ドの挿入を自動あるいは手作業で行う修正手段15を備
えることを特徴とする情報検索装置である。
【0014】
【作用】確からしさの評価手段12は、文字認識手段1
1により文字認識時に得られた複数の候補文字と該候補
文字の確からしさの推定値をもとに、候補の文字の確か
らしさが高い文字は1つの候補を出力し、候補の文字の
確からしさがそれほど高くない、いくつかの文字を列挙
すばその中のどれか正しい文字であることがある確から
しさで推定されるときは複数の候補を出力し、前記の候
補数が多数になる場合は、候補多数の識別コードを出力
する。
【0015】このため、上記のようにして得られた文書
認識データと検索対象キーワードとの文字ごとの照合を
する際に、一致条件をキーワードの各文字が文書認識デ
ータの候補の中のどれかと一致すればよいとしておくこ
とで、検索漏れを低減することができる。また、画像の
条件が良い場合など高い確からしさで認識できる場合は
候補を列挙しないので、余分な一致の発生が低減され
る。
【0016】また、文字認識の不確かさを評価して、誤
りのあいそうな箇所とその候補を選択しているため、余
分な候補が除去され、文書認識のデータ量が過大になる
のが防がれる。
【0017】また、文書認識データに、認識が不確かな
箇所と候補の情報が含まれるため、これを使って後から
修正作業を行うことも可能である。
【0018】
【実施例】以下この発明の実施例について図面を参照し
ながら説明するが、この発明は以下の実施例に限定され
るものではない。
【0019】図2は本発明の実施例の構成のブロック図
を示すものである。図2において文書をスキャナ16な
どの画像読み取り手段で、画像データとして読み込み、
文書画像データ蓄積手段17に蓄積する。文字認識手段
18は、文書画像データ蓄積手段17から画像データを
読み出して、文字が書かれた領域を識別して、文字パタ
ンを認識し、候補となる文字コードとその確からしさを
推定して確率値で出力する。
【0020】確からしさを推定するためには、パタンを
処理して得られるいくつかの統計量を軸とするベクトル
空間を仮定して、あらかじめいろいろな文字についてそ
の空間での座標を求めておく。そして、文字認識時に認
識対象とする文字パタンを、同様に処理して上記ベクト
ル空間での座標を求め、学習時に近傍にあった座標を見
つけ、それらとの距離から推定する。
【0021】確からしさの評価手段19は、図3に示す
ようなアルゴリズムに従う。各文字ごとに、文字認識手
段が出力した候補のうち最も有力な候補をリストの先頭
に入れる。そして、認識の確からしさをもとに、正しい
文字がリストに含まれる確率Pを求める。確率Pが、あ
るしきい値Pthより小さいならば、候補から次に有力
な候補をリストに追加して、確率Pを求めなおして繰り
返す。選び出されたリストの中の候補の数(リストの長
さ)が1個ならば、この文字列コードだけを出力する。
リストの中の候補の数があるしきい値の個数Nthより
少ないなら、候補が複数個あることを示す識別コードと
共に出力候補の文字コードを出力する。出力候補の数が
Nthを越えていたならば、出力候補の文字コードの代
わりに、全ての文字が候補であることを示す識別コー
ド、すなわち、候補多数を示す識別コードを出力する。
【0022】識別コードの具体的な例としては、正規表
現に準拠した記述が考えられる。例えば、候補とし
て{”B”、”E”、”3”}を列挙する表現は、”
[BE3]”となり、認識不可の表現は、”.”とな
る。NECというパタンを認識した結果、Nをはっきり
認識し、Eの候補が{”B”、”E”、”3”}で、C
が候補多数であった場合、正規表現で記述すると、”N
[BE3]*”となる。
【0023】文書認識データ蓄積手段20は、評価手段
19が出力する文字コードと識別コードからなるコード
列を文字認識データとして蓄積する。
【0024】文字列検索手段21は、キーボード24な
どの入力手段から入力した検索対象キーワードと文書認
識データ蓄積手段20から読み出した文書認識データと
を比較照合し、検索対象キーワードを含む文書認識デー
タを検索する。
【0025】この文字列照合の例として図4に示したも
のは、文書認識データのテキストとキーワードを1文字
1文字比較して、キーワードの文字列とテキストが全て
の文字で一致している場合、キーワードの一致が成立し
たと判断するものである。ただし、候補複数を示す識別
コードがあった場合は、該当するキーワードの文字がこ
こに列挙された候補に含まれてたならば、この文字は一
致しているとみなす。また、候補多数を示す識別コード
があった場合は、該当するキーワードの文字が何であっ
ても、この文字は一致しているとみなす。
【0026】検索結果を知らせるために、上記の検索文
字列が含まれる文書認識データ、あるいは、この文書認
識データに対応する文書画像データをディスプレイ22
から表示する。
【0027】文書認識データ修正手段23は、文書認識
データをディスプレイ22に表示し、複数の候補が列挙
されている箇所については、ユーザーにキーボード24
から正しいものを選択される。また、候補が特定されな
かった箇所についは、正しい文字コードをキーボード2
4から入力させる。
【0028】
【発明の効果】以上の実施例によれば、第1に、文字パ
タンの認識時に1つの候補だけでは確からしさを保証で
きない箇所は、確からしさの推定値が十分になるように
複数の文字を候補にしたり、全ての文字を候補として指
定するため、認識結果のテキストデータの大きさを過大
にすることを防ぐことができる。
【0029】第2に、認識文字毎の認識の確からしさに
応じて候補を列挙するため、検索漏れと過検索の低減を
両立することができる。
【0030】第3に、文書画像に部分的なノイズや異フ
ォントが含まれる場合など、誤認識の傾向が異なるとき
でも、個別に誤認識の傾向を示すデータ等を用意しなく
ても検索できる。
【0031】第4、に修正作業を後から行うことができ
るため、検索前の修正作業の手間と時間を省くことがで
きる。
【0032】第5に、これらの修正作業を形態素解析な
どを行って、候補となる文字を選択した場合、この単語
が辞書に含まれるかどうかによって候補を選択するよう
な処理を行う場合も、これらの処理は処理装置に余裕が
できるまで後回しできる。
【0033】第6に、認識結果内に複数の候補を記述す
る際の仕様が統一されてさえいれば、文字認識手段は異
なっていてもかまわないため、英文や手書き文など文書
ごとの特性に応じた異なる文字認識手段が作成した認識
結果も同一の検索手段で検索することができる。
【0034】第7に、将来、より高性能な文書認識手段
に切り替えた場合でも、それまでに蓄積した文書認識デ
ータを継続して利用することができる。
【図面の簡単な説明】
【図1】この発明の構成を示すブロック図である。
【図2】この発明の実施例を示すブロック図である。
【図3】確からしさの評価手段の実施例の動作を示すフ
ローチャートである。
【図4】文字列検索の動作例を示す図である。
【図5】従来技術を示すブロック図である。
【符号の説明】
16 スキャナ 17 文書画像データ蓄積手段 18 文字認識手段 19 確からしさの評価手段 20 文書認識データ蓄積手段 21 文字列検索手段 23 修正手段

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 文書画像データを文字認識して得られた
    文書認識データ群から、任意の検索キーワードを含む文
    書認識データを検索する情報検索装置において、 入力された文書画像データを蓄積する文書画像データ蓄
    積手段と、 文書画像データに含まれる文字部分の文字パタンを認識
    し、候補となる文字コード及び該文字コードの確からし
    さの推定値を出力する文字認識手段と、 確からしさに応じて、最も有力な候補の文字コード、あ
    るいは、複数の候補が存在することを示す識別コードを
    ともなう複数の候補の文字コード、あるいは、候補多数
    を示す識別コード、の何れかを選択して出力する確から
    しさの評価手段と、 これらのコード列を文書認識データとして蓄積する文書
    認識データ蓄積手段と、 入力手段から入力した任意のキーワードを上記の文書認
    識データから検索する検索手段、を備えることを特徴と
    する情報検索装置。
  2. 【請求項2】 請求項1記載の情報検索装置に、さら
    に、文書認識データを読み込んで、複数の候補からの正
    しい文字コードの選択や、候補多数であった部分への正
    しい文字コードの入力を自動あるいは手作業で行う修正
    手段を備えることを特徴とする情報検索装置。
JP5008734A 1993-01-22 1993-01-22 情報検索装置及び情報検索方法 Expired - Lifetime JP2586372B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5008734A JP2586372B2 (ja) 1993-01-22 1993-01-22 情報検索装置及び情報検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5008734A JP2586372B2 (ja) 1993-01-22 1993-01-22 情報検索装置及び情報検索方法

Publications (2)

Publication Number Publication Date
JPH06223121A true JPH06223121A (ja) 1994-08-12
JP2586372B2 JP2586372B2 (ja) 1997-02-26

Family

ID=11701187

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5008734A Expired - Lifetime JP2586372B2 (ja) 1993-01-22 1993-01-22 情報検索装置及び情報検索方法

Country Status (1)

Country Link
JP (1) JP2586372B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11265391A (ja) * 1998-03-17 1999-09-28 Nippon Telegr & Teleph Corp <Ntt> 情報検索装置
JP2001175661A (ja) * 1999-12-14 2001-06-29 Mitsubishi Electric Corp 全文検索装置及び全文検索方法
JP2009230658A (ja) * 2008-03-25 2009-10-08 Mitsubishi Electric Corp 文字検索システム
JP2020123273A (ja) * 2019-01-31 2020-08-13 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4332356B2 (ja) 2003-01-22 2009-09-16 キヤノン株式会社 情報検索装置及び方法並びに制御プログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0282380A (ja) * 1988-09-19 1990-03-22 Sanyo Electric Co Ltd 文字認識方法
JPH0350692A (ja) * 1989-07-18 1991-03-05 Seiko Epson Corp 文字認識装置
JPH03160580A (ja) * 1989-11-20 1991-07-10 Fujitsu Ltd 文字認識システムにおける文字修正方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0282380A (ja) * 1988-09-19 1990-03-22 Sanyo Electric Co Ltd 文字認識方法
JPH0350692A (ja) * 1989-07-18 1991-03-05 Seiko Epson Corp 文字認識装置
JPH03160580A (ja) * 1989-11-20 1991-07-10 Fujitsu Ltd 文字認識システムにおける文字修正方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11265391A (ja) * 1998-03-17 1999-09-28 Nippon Telegr & Teleph Corp <Ntt> 情報検索装置
JP2001175661A (ja) * 1999-12-14 2001-06-29 Mitsubishi Electric Corp 全文検索装置及び全文検索方法
JP2009230658A (ja) * 2008-03-25 2009-10-08 Mitsubishi Electric Corp 文字検索システム
JP2020123273A (ja) * 2019-01-31 2020-08-13 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム

Also Published As

Publication number Publication date
JP2586372B2 (ja) 1997-02-26

Similar Documents

Publication Publication Date Title
JP3689455B2 (ja) 情報処理方法及び装置
JP3639126B2 (ja) 住所認識装置及び住所認識方法
US6917709B2 (en) Automated search on cursive records not having an ASCII index
US7756335B2 (en) Handwriting recognition using a graph of segmentation candidates and dictionary search
EP2372584A1 (en) Local item extraction
JP2007042097A (ja) キー文字抽出プログラム、キー文字抽出装置、キー文字抽出方法、一括地名認識プログラム、一括地名認識装置および一括地名認識方法
JPH087033A (ja) 情報処理方法及び装置
EP2138959B1 (en) Word recognizing method and word recognizing program
JPH11328317A (ja) 日本語文字認識誤り訂正方法及び装置、並びに、誤り訂正プログラムを記録した記録媒体
JP3917349B2 (ja) 文字認識結果を利用して情報を検索する検索装置および方法
US11797551B2 (en) Document retrieval apparatus, document retrieval system, document retrieval program, and document retrieval method
US11755659B2 (en) Document search device, document search program, and document search method
JP2001175661A (ja) 全文検索装置及び全文検索方法
JP2586372B2 (ja) 情報検索装置及び情報検索方法
WO2000036530A1 (fr) Methode de recherche et dispositif correspondant, support enregistre
JPH11232296A (ja) 文書ファイリングシステムおよび文書ファイリング方法
JP3975825B2 (ja) 文字認識誤り訂正方法、装置及びプログラム
Lu et al. Word searching in document images using word portion matching
US9224040B2 (en) Method for object recognition and describing structure of graphical objects
JP4677750B2 (ja) 文書属性取得方法および装置並びにプログラムを記録した記録媒体
JPH07319880A (ja) キーワード抽出・検索装置
US20230005282A1 (en) Information processing apparatus, information processing method, computer program product, and recording medium
JP2004005761A (ja) キーワード抽出・検索装置
JP2006163830A (ja) 文字認識装置、文字認識方法、および文字認識プログラム
JP4633271B2 (ja) 辞書学習方法及び辞書学習プログラム

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19961008