JPH1115920A - 文字認識結果修正方法及び装置、記録媒体 - Google Patents

文字認識結果修正方法及び装置、記録媒体

Info

Publication number
JPH1115920A
JPH1115920A JP9163674A JP16367497A JPH1115920A JP H1115920 A JPH1115920 A JP H1115920A JP 9163674 A JP9163674 A JP 9163674A JP 16367497 A JP16367497 A JP 16367497A JP H1115920 A JPH1115920 A JP H1115920A
Authority
JP
Japan
Prior art keywords
recognition
word
character
candidate
redundant word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9163674A
Other languages
English (en)
Inventor
Hideyuki Isoyama
秀幸 磯山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
N T T DATA KK
NTT Data Group Corp
Original Assignee
N T T DATA KK
NTT Data Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by N T T DATA KK, NTT Data Corp filed Critical N T T DATA KK
Priority to JP9163674A priority Critical patent/JPH1115920A/ja
Publication of JPH1115920A publication Critical patent/JPH1115920A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】 【課題】 辞書サイズの増大を抑えつつ「字」、「大
字」等を含む地名単語の認識結果を正しく修正する文字
認識結果修正装置を提供する。 【解決手段】 「字」や「大字」のように、単語意味に
実質的な変更を与えることなく付加することが可能な文
字を冗長語とし、これを冗長語格納部12に定義してお
く。そして、認識候補文字設定部10で文字列イメージ
に対して文字認識を施し、認識結果に冗長語が含まれる
かどうかを文字判定部11で判定する。冗長語が含まれ
る場合、ずらし位置設定部13において冗長語を削除し
て得られる新たな文字列を、単語辞書15内の認識単語
と比較照合される認識候補文字列として追加する。該当
する認識単語がある場合は、DPマッチング部142で
冗長語を最適な位置に挿入し、修正結果として出力す
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、OCR等の文字読
取装置を用いた文字認識手法に関し、特に、OCR等を
用いて売上伝票、配送伝票等に記入された住所地名を認
識する場合の認識精度を高めるための技術に関する。
【0002】
【従来の技術】OCRを用いて帳票類の記載文字列の認
識を行うシステムでは、認識精度をいかに高めるかがそ
のシステムの実用化を図る上で重要な要素となる。従来
より、この種の用途における認識精度を高めるための単
語処理手法が種々提案されている。例えば、住所や地名
等の文字列の認識においては、記入される文字列の種類
が有限である点に着目し、実在する地名や住所の単語
(以下、地名単語)を予め文字認識に用いる単語辞書に
登録しておき、登録された地名単語と文字認識結果との
比較照合を行う手法がある。この方法では、認識対象文
字列を構成する個々の文字毎に、認識候補文字を一つ以
上設定しておき、先頭の配列位置から順に、予め登録さ
れた地名単語との単語照合を行うことで、適切な認識結
果を得るようにする。この方法は、一つの地域には唯一
の地名(あるいは住所)が対応するようになっているの
が通常であり、記入文字の配列位置と、単語辞書に登録
されている地名単語における配列位置とが1:1に対応
していることを利用したものである。
【0003】
【発明が解決しようとする課題】しかし、実際に帳票等
に住所が記入される場面では、町や村の中の区画を表す
「字」「大字」が記入される場合とされない場合とがあ
るため、その表記にばらつきが生じる。一方、従来の単
語処理手法では、帳票の記入文字の配列位置と単語辞書
に登録されている地名単語の構成文字の配列位置とが
1:1に対応していることを前提としているので、単語
辞書に登録されている地名単語と記入された文字列との
照合の際に、「字」「大字」の記入の有無によって配列
位置がずれた場合には、正しい地名を出力できない場合
も生じる。例えば京都の地名にある通称名称「入る」
「上る」等に関しても同様の問題がある。
【0004】このような問題の解決手法として、「字」
「大字」等を含む地名単語、部分的に含む地名単語、含
まない地名単語のすべてを辞書に登録しておくことが考
えられる。しかし、一つの地名に対してこれらの複数の
地名単語を登録すると単語辞書のサイズが飛躍的に大き
くなってしまうため、現実的な解決手法とは言い難い。
【0005】そこで本発明の課題は、文字認識の結果を
適切に修正して、出力される文字列等の精度を高めると
ともに単語辞書に登録すべき認識単語数の増加を抑える
ことができる、文字認識結果の修正技術を提供すること
にある。
【0006】
【課題を解決するための手段】上記課題を解決するため
に、本発明は、コンピュータ装置による文字認識結果の
修正方法を提供する。第1の方法は、画像情報の文字認
識により得られた認識候補文字列と予め用意された認識
単語とを比較照合し、前記認識候補文字列を構成する個
々の文字の特徴及び配列位置の一致度が最大となる認識
単語を修正結果として出力する方法であって、前記認識
候補文字列に、単語意味に実質的な変更を与えることな
く付加することが可能な冗長語または前記冗長語となり
得る順で並ぶ冗長語候補が含まれる場合、前記認識候補
文字列から前記冗長語または冗長語候補を削除したと仮
定したときの他の認識候補文字がずれ得る配列位置の範
囲を特定し、特定した範囲の配列位置の情報を前記比較
照合時の判断要素に含めることを特徴とする。
【0007】また、第2の方法は、画像情報の文字認識
により得られた認識候補文字列と予め用意された認識単
語とを比較照合し、前記認識候補文字列を構成する個々
の文字の特徴及び配列位置の一致度が最大となる認識単
語を修正結果として出力する方法であって、前記認識候
補文字列に、単語意味に実質的な変更を与えることなく
付加することが可能な冗長語または前記冗長語となり得
る順で並ぶ冗長語候補が含まれる場合、前記認識候補文
字列から前記冗長語または冗長語候補を削除して得られ
る新たな文字列を前記認識単語と比較照合される新たな
認識候補文字列として追加することを特徴とする。
【0008】第3の方法は、画像情報の文字認識により
得られた認識候補文字列と予め用意された認識単語とを
比較照合し、前記認識候補文字列を構成する個々の文字
の特徴及び文字配列位置の一致度が最大となる認識単語
を修正結果として出力する方法であって、単語意味に実
質的な変更を与えることなく付加することが可能な冗長
語または前記冗長語となり得る順で並ぶ冗長語候補を予
め規定しておき、前記認識候補文字列の個々の認識候補
文字の特定中に前記冗長語または冗長語候補を検出した
ときに前記冗長語または冗長語候補を該当する認識単語
の所定配列位置に挿入した新たな文字列を生成し、生成
した文字列を前記認識候補文字列と比較照合される新た
な認識単語として追加することを特徴とする。
【0009】また、本発明は、文字認識結果の修正装置
を提供する。この装置は、画像情報の文字認識により得
られた複数の認識候補文字の列を個々の認識候補文字の
配列位置の情報と共にリスト化する手段と、複数の認識
単語を格納した単語辞書と、前記リスト化された認識候
補文字列に、単語意味に実質的な変更を与えることなく
付加することが可能な冗長語または前記冗長語となり得
る順で並ぶ冗長語候補が存在するかどうかを判定する文
字列判定手段と、前記冗長語または前記冗長語候補が存
在する場合に当該冗長語または冗長語候補を削除したと
きの他の認識候補文字がずれ得る配列位置の情報を前記
リスト化された認識候補文字の各々に設定するずらし位
置設定手段と、前記認識候補文字及び配列位置の情報と
前記単語辞書内の認識単語とを比較照合して前記認識候
補文字に対する文字特徴及び配列位置の一致度が最大と
なる認識単語を修正結果として特定する比較照合手段
と、を備えて構成される。
【0010】本発明の文字認識装置の修正装置におい
て、前記比較照合手段は、例えば以下のように構成され
る。 (1)認識候補文字列から前記冗長語または冗長語候補
を削除して得られる新たな文字列を生成する手段を備
え、生成された文字列を前記認識単語と比較照合される
認識候補文字列として追加する。 (2)前記認識単語に前記前記冗長語または冗長語候補
を所定位置に挿入した新たな文字列を生成する手段を備
え、生成された新たな文字列を前記認識候補文字列と比
較照合される認識単語として追加する。 (3)認識候補文字毎に文字認識の対象となった画像情
報との適合度を表す点数情報を対応付けて保持する手段
と文字特徴が類似し且つ文字配列位置が一致する文字を
前記認識単語から検出する度に当該認識候補文字の点数
情報を前記認識単語の得点として累積加算する手段とを
含み、総得点が大きい認識単語ほど前記一致度の高い認
識単語と判定する。なお、前記総得点を算出する際に、
同一認識単語内で一つの認識候補文字がもとの配列位置
と、前記冗長語または冗長語候補を削除した後の配列位
置との双方で重複して得点されているかどうかを判定
し、重複して得点されているときは重複分の得点を減算
するようにする。
【0011】本発明は、さらに、下記の処理をコンピュ
ータ装置に実行させるためのプログラムを当該コンピュ
ータ装置が読みとり可能な形態で記録した記録媒体をも
提供する。 (1)画像情報の文字認識により得られた複数の認識候
補文字の列を個々の認識候補文字の配列位置の情報と共
にリスト化する処理、 (2)複数の認識単語を格納した単語辞書を形成する処
理、 (3)前記リスト化された認識候補文字列に、単語意味
に実質的な変更を与えることなく付加することが可能な
冗長語または前記冗長語となり得る順で並ぶ冗長語候補
が存在するかどうかを判定する処理、 (4)前記冗長語または前記冗長語候補が存在する場合
に当該冗長語または冗長語候補を削除したときの他の認
識候補文字がずれ得る配列位置の情報を前記リスト化さ
れた認識候補文字の各々に設定する処理、 (5)前記認識候補文字及び配列位置の情報と前記単語
辞書内の認識単語とを比較照合して前記認識候補文字に
対する文字特徴及び配列位置の一致度が最大となる認識
単語を修正結果として特定する処理。
【0012】
【発明の実施の形態】以下、図面を参照して本発明の実
施の形態を詳細に説明する。図1は、本発明の文字認識
結果修正装置の一実施形態を示す構成図である。この文
字認識装置は、例えば汎用のワークステーションやパー
ソナルコンピュータ等の情報処理装置が所定のコンピュ
ータプログラムを読み込んで実行することにより形成さ
れる、認識候補文字設定部10,文字判定部11,冗長
語格納部12,ずらし位置設定部13,比較照合部1
4,単語辞書15の機能ブロックを備えている。比較照
合部14は累積加算処理部141及びDPマッチング部
142を含んで構成される。なお、上記コンピュータプ
ログラムは、通常は、上記情報処理装置が備える外部記
憶装置等に格納されて随時読み出されて実行されるよう
になっているが、情報処理装置とは分離可能なメディ
ア、例えばCD−ROMやFD等に格納されて流通し、
システム構築時に上記情報処理装置にインストールされ
て随時実行に供されるものであってもよい。
【0013】認識候補文字設定部10は、文字イメージ
に対して公知の認識手法を用いて文字認識を行い、その
結果得られた認識候補文字をリスト化するものである。
これにより得られたリストを文字認識結果リスト(cc
リスト)と称する。
【0014】文字判定部11は、冗長語格納部12内に
格納されている冗長語とccリストとの照合処理を行
い、ccリスト中の文字及びその配列を認識するととも
に、ccリスト中に冗長語又は冗長語候補となり得る並
びの文字が含まれているか否かを判定する。ずらし位置
設定部13は、ccリスト中に冗長語または冗長語候補
が含まれる場合、ccリスト内の認識候補文字列から冗
長語または冗長語候補を削除したと仮定したときの他の
認識候補文字がずれ得る配列位置の範囲を特定するもの
である。この処理の詳細については後述する。
【0015】比較照合部14のうち累積加算処理部14
1は、ccリストの個々の認識候補文字毎に文字認識の
対象となった画像情報との適合度を表す点数情報を対応
付けて保持するとともに、認識単語毎の点数情報を保持
しておき、文字特徴が類似し且つ文字配列位置が一致す
る文字を単語辞書15内の認識単語から検出する度に、
該当認識候補文字の点数情報をそれが含まれている認識
単語の得点として累積加算する処理手段を含んで構成さ
れる。そして、総得点が大きい認識単語ほど認識候補文
字列との一致度が高いと判定する。なお、総得点を算出
する際に、同一認識単語内で一つの認識候補文字がもと
の配列位置と冗長語または冗長語候補を削除した後の配
列位置との双方で重複して得点されているときは重複分
の得点を減算する。DPマッチング部142は、マッチ
ング結果である認識単語をソートして出力するものであ
る。
【0016】次に、本実施形態の文字認識修正装置を用
いて住所文字列の認識結果の修正を行う場合の具体的な
動作を図2〜図6を参照しながら説明する。前提とし
て、「大分市大字神崎246」の文字列が記述された帳
票の文字列イメージをスキャナ等で読み込んで入力した
とする。また、単語辞書15には、「字」や「大字」等
の冗長語が一切含まれない状態で地名単語が登録されて
おり、一方、「字」や「大字」等の冗長語については、
冗長語格納部12に一括して定義され、随時読み出し可
能に格納されているものとする。
【0017】上記文字列イメージは、認識候補文字設定
部10において文字認識され、その結果得られた認識候
補文字列がリスト化(ccリスト)される。本例におけ
るccリストの内容例を図2に示す。図2の例では、認
識対象文字列の第1番目から第10番目の各配列位置
に、それぞれ該当文字の認識結果である認識候補文字が
存在する。個々の文字について複数の認識候補文字が認
識された場合は、図示上方にある文字ほど文字列イメー
ジに存在する文字との適合度が高くなっている。例え
ば、5番目の配列位置においては、「宇」が文字列イメ
ージの該当文字との適合度が最も高く、ついで「字」、
「芋」の順に適合度が低くなっている。そして最も高い
「宇」には3点、二位の「字」には2点、三位の「芋」
には1点、のような得点情報が与えられている。
【0018】文字判定部11は、このccリスト中の文
字の組み合わせを認識するとともに、リスト中に冗長語
となり得る文字、文字の組み合わせがccリストに含ま
れているか否かを判定する。例えば図3に示すように、
5番目の配列位置において得点が二位の認識候補文字が
「字」となっているので、冗長語となり得る。更に、4
番目の配列位置では、得点が一位の認識候補文字が
「大」となっているので、上記「字」と組み合わせた
「大字」という組み合わせが冗長語となり得る。従っ
て、図2のccリストの場合は、 文字認識結果リスト
の冗長語以降の各認識候補文字に対して、ずらし位置の
設定を行う(ステップS103)。
【0019】この処理では、冗長語がある場合と無い場
合のそれぞれにおいて認識候補文字がとり得る配列位置
を求め、その配列位置を各認識候補文字に対するずらし
位置として設定する。換言すると、各認識候補文字に対
して、冗長語の単語長分の長さの余裕(範囲)を持たせ
て配列位置のずれ量を設定する。
【0020】ずらし位置の設定は、文字認識結果リスト
の先頭の配列位置から順に行う。図2の例では、最初の
文字は「大」であり、2番目の文字によっては、冗長語
である「大字」となるようにもみえる。しかし、2番目
の文字は「分」、「介」であるので、1番目の文字が冗
長語となる可能性はない。つまり2,3番目の配列位置
には冗長語となり得る文字が出てこないので、ずらし位
置の設定処理は行わない。4番目の配列位置には、
「大」という文字があり、5番目の配列位置には「字」
という文字がある。これらは冗長語候補となる。つまり
4番目と5番目の文字の組み合わせによって「大字」と
なる可能性がある。従って、6番目以降の文字列には、
「大字」という二文字分のずらし位置が設定される。例
えば、7番目の配列位置の「崎」は、7番目の配列位置
あるいは5番目の配列位置をとり得るように設定され
る。
【0021】一方、5番目の配列位置には、得点が二位
の認識候補文字として「字」が存在し、この文字は単独
で冗長語となり得る。従って、この文字の影響のみを考
えると、配列位置が6番目以降の認識候補文字には、
「字」という1文字分のずらし位置が設定される。例え
ば、7番目の配列位置の「崎」は、7番目の配列位置あ
るいは6番目の配列位置をとり得るように設定される。
6番目以降の配列位置には、冗長語となり得る文字はな
いが、既に述べたように、「字」及び「大字」の影響に
よって、すべて1文字あるいは2文字分のずれが生じ得
る。そこで、6番目以降の各配列位置に、その文字がと
り得る配列位置を複数設定する。例えば、7番目の配列
位置の「崎」は、6番目の配列位置(「字」を削除した
とき)のほか、5番目の配列位置(「大字」を削除した
とき)をもとり得るように設定する。
【0022】上記のように、配列位置のそれぞれに対し
て設定される最大ずらし位置(もとのままの配列位置)
と最小ずらし位置(冗長語をすべて削除した場合の位
置)とを設定した文字認識結果リストの例を示したのが
図3である。勿論、6番目以降の配列位置に、「字」、
「大字」という冗長語があるときには、これによる1文
字あるいは2文字のずれが上記4,5番目の配列位置に
おける「字」、「大字」によるずれと重なるので、ずら
し位置は、最大で4文字、最小で0文字分となる。しか
し、このようにすべての冗長語についてずらし位置の設
定を行うと、複数のマッチング処理が必要となり、処理
時間が長くなる。そこで、必要に応じて、ずらし位置の
差(最大ずらし位置−最小ずらし位置)に対して上限値
を設定するようにするとよい。なお、ずらし位置の設定
は、冗長語が存在するときにのみ行われ、その他の場合
には、単純な照合処理と同様に、配列位置を1:1に固
定した単語照合を行う。
【0023】上述のようにしてずらし位置がccリスト
に設定された後、あるいはccリストの認識候補文字列
に冗長語が含まれていなかった場合は、累積加算処理部
141において、ずらし位置が設定されたccリストと
単語辞書15との照合処理を行う。
【0024】この照合処理の内容を図4及び図5を用い
て説明する。図5は、照合処理部14における処理手順
説明図である。まず、単語辞書15内のすべての地名単
語の点数を初期値、例えば0点とする(ステップS10
1)。そして、ccリストにおける各配列位置の文字
が、それぞれ単語辞書15内の地名単語を構成できる場
合には、その文字の得点を地名単語の点数に加算する
(ステップS102)。図4(a)のccリストと同図
(b)に示された単語辞書15内の地名単語「大分市大
久保」、「大分市神崎」とを例にとると、ccリストに
おけるもとの配列位置(最大ずらし位置)が1番目の文
字「大」については、「大分市大久保」、「大分市神
崎」のいずれにおいても1番目の配列位置にあるので、
その文字の得点である3点を、「大分市大久保」、「大
分市神崎」の両者に加算する。ccリストで2番目の配
列位置で得点が一位となる文字「分」も同様なので、さ
らに「大分市大久保」、「大分市神崎」に3点ずつを累
積加算する。
【0025】一方、ccリストで2番目の配列位置で、
得点が二位である文字「介」は、「大分市大久保」、
「大分市神崎」のいずれにも該当しないので、累積加算
処理は行わない。このようにして、三番目の配列位置の
「市」と「中」、4番目の配列位置の「大」と「太」…
のように加算処理を進めていく。
【0026】6番目の配列位置の「神」に関しては、
「大分市大久保」、「大分市神崎」ともに6番目の配列
位置が「神」とはなっていない。しかし、上記ずらし位
置が設定されていることから、「神」は4,5,6番目
のいずれかの配列位置をとり得る。従って、「大分市神
崎」に対して、「神」の得点である3点を加算する。以
上の処理を、単語辞書15内のすべての地名単語に対し
て進める。その結果、「大分市大久保」の総得点は、3
+3+3+3+0+2=14点となり、「大分市神崎」
の総得点は、3+3+3+3+3=15点となる。この
ようにして累積加算処理を行った後に、総得点が高い順
にソートして、最上位の地名単語を候補単語(文字列)
とする。
【0027】DPマッチング部142では、累積加算処
理部141により得られた候補単語について総得点の多
重加算分の修正を行い、最終的な候補単語を出力する。
ここでの処理内容を示したのが図6及び図7である。
【0028】まず、候補単語等について、累積加算処理
部141による処理の基礎となった個々の認識候補文字
にずらし位置が設定されていたかどうかを判定する(ス
テップS201)。ずらし位置が設定されている場合は
(ステップ201:Yes)、得点が重複して加算されて
いるので、その重複加算分を削除する(ステップS20
2)。例えば、単語辞書15に、仮に「大分市神崎神
谷」という地名単語が登録されていた場合、ccリスト
で6番目の配列位置の文字「神」は、4,5,6番目の
配列位置をとり得るようにずらし位置が設定されるの
で、「大分市神崎神谷」における4番目の配列位置、6
番目の配列位置の「神」にそれぞれについて得点加算さ
れ、結果として得点が二重に加算されてしまう。そこ
で、「大分市神崎神谷」の総得点から、重複分である3
点を減算する。
【0029】この時点で総得点の再ソートを行ってもよ
いが、ここでは、さらに、候補単語について冗長語が存
在するかどうかをチェックする(ステップS203)。
そして、存在する場合は(ステップS203:Yes)、
その冗長語を候補単語の最適な位置、つまり、「字」や
「大字」の挿入が予定される位置に挿入し(ステップS
204)、総得点を再計算する(ステップS205)。
このようにして総得点を再計算した結果、総得点が高く
なる場合には、冗長語を最適位置に加えた候補単語をそ
のまま出力する。例えば、「大分市神崎」においては、
「大分市大字神崎」とすると、総得点がより高くなるの
で(3+3+3+3+2+3+3=20点)、これをそ
のまま出力する。図7は、このDPマッチング部142
における処理の内容を示す図であり、(a)はccリス
ト、(b)は候補単語、(c)は最終的に出力される候
補単語を表している。
【0030】なお、DPマッチング部142における処
理は、累積処理部141において最上位の候補単語につ
いて行うことが好ましいが、すべての地理単語に対して
行ってもよい。但し、この場合は、処理時間の短縮のた
めに、総得点に対して適宜しきい値を設け、総得点がし
きい値を超えるものに対してのみ行うことが好ましい。
【0031】このように、本実施形態の文字認識結果修
正装置では、単語辞書15に登録されている地名単語と
ccリストとの照合を行う際に、「字」「大字」のよう
な冗長語の有無によって配列位置がずれた場合であって
も正しく認識できるようになる。また、冗長語である
「字」「大字」等が存在する地名を、これらの冗長語が
ない地名で代表して単語辞書15に登録することが可能
なので、辞書サイズの増加を抑えることも可能になる。
【0032】本実施形態は、以上のとおりであるが、本
発明は、上記例のほかにも種々の変形例が可能である。
例えば、本実施形態では、単語辞書15に冗長語を除い
た地名単語を格納しておき、DPマッチング部142の
出力として、冗長語である「字」や「大字」を単語辞書
15内の該当単語の最適位置に挿入して出力する場合の
例を示したが、逆に、単語辞書15に冗長語が挿入され
た地名単語を格納しておき、出力時に冗長語を削除する
ようにしてもよい。
【0033】また、本実施形態では、「字」、「大字」
等を冗長語として説明したが、例えば京都の地名等にあ
る通称名称(「入る」「上る」等)に関しても同様に冗
長語として処理可能である。また、冗長語は、地名等に
限定されるものでもない。例えば、単語の意味に実質的
な変更を与えることなく任意に付加可能である単語は、
すべて冗長語として処理することが可能なので、欧米人
の氏名におけるMr.やMrs.、日本語の「様」等の敬称
や、「あの」「その」等の指示語も、冗長語に含めるこ
とが可能な場合も多い。
【0034】
【発明の効果】以上の説明から明らかなように、本発明
によれば、単語辞書に登録すべき認識単語数の増加を抑
えながら文字認識の精度を高めることができる、という
特有の効果がある。
【図面の簡単な説明】
【図1】本発明の一実施形態に係る文字認識結果修正装
置の機能ブロック図。
【図2】認識候補文字設定部により生成されるccリス
トの内容例を示す図。
【図3】ずらし位置設定部における配列位置の範囲を示
す説明図。
【図4】累積加算処理部における処理の説明図であり、
(a)はccリスト、(b)は単語辞書から取り出した
地名単語の例を示す図である。
【図5】累積加算処理の手順説明図。
【図6】DPマッチング処理の手順説明図。
【図7】DPマッチング処理過程の説明図であり、
(a)はccリスト、(b)は該当する認識単語、
(c)は冗長語が挿入された認識単語を示すものであ
る。
【図8】DPマッチング処理結果の説明図であり、
(a)はccリスト、(b)は総得点の再計算後の候補
単語の例を示すものである。
【符号の説明】
10 認識候補文字設定部 11 文字判定部 12 冗長語格納部 13 ずらし位置設定部 14 比較照合部 141 累積加算処理部 142 DPマッチング部 15 単語辞書

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 画像情報の文字認識により得られた認識
    候補文字列と予め用意された認識単語とを比較照合し、
    前記認識候補文字列を構成する個々の文字の特徴及び配
    列位置の一致度が最大となる認識単語を修正結果として
    出力する方法であって、 前記認識候補文字列に、単語意味に実質的な変更を与え
    ることなく付加することが可能な冗長語または前記冗長
    語となり得る順で並ぶ冗長語候補が含まれる場合、前記
    認識候補文字列から前記冗長語または冗長語候補を削除
    したと仮定したときの他の認識候補文字がずれ得る配列
    位置の範囲を特定し、特定した範囲の配列位置の情報を
    前記比較照合時の判断要素に含めることを特徴とする、
    コンピュータ装置による文字認識結果の修正方法。
  2. 【請求項2】 画像情報の文字認識により得られた認識
    候補文字列と予め用意された認識単語とを比較照合し、
    前記認識候補文字列を構成する個々の文字の特徴及び配
    列位置の一致度が最大となる認識単語を修正結果として
    出力する方法であって、 前記認識候補文字列に、単語意味に実質的な変更を与え
    ることなく付加することが可能な冗長語または前記冗長
    語となり得る順で並ぶ冗長語候補が含まれる場合、前記
    認識候補文字列から前記冗長語または冗長語候補を削除
    して得られる新たな文字列を前記認識単語と比較照合さ
    れる新たな認識候補文字列として追加することを特徴と
    する、コンピュータ装置による文字認識結果の修正方
    法。
  3. 【請求項3】 画像情報の文字認識により得られた認識
    候補文字列と予め用意された認識単語とを比較照合し、
    前記認識候補文字列を構成する個々の文字の特徴及び文
    字配列位置の一致度が最大となる認識単語を修正結果と
    して出力する方法であって、 単語意味に実質的な変更を与えることなく付加すること
    が可能な冗長語または前記冗長語となり得る順で並ぶ冗
    長語候補を予め規定しておき、前記認識候補文字列の個
    々の認識候補文字の特定中に前記冗長語または冗長語候
    補を検出したときに前記冗長語または冗長語候補を該当
    する認識単語の所定配列位置に挿入した新たな文字列を
    生成し、生成した文字列を前記認識候補文字列と比較照
    合される新たな認識単語として追加することを特徴とす
    る、コンピュータ装置による文字認識結果の修正方法。
  4. 【請求項4】 画像情報の文字認識により得られた複数
    の認識候補文字の列を個々の認識候補文字の配列位置の
    情報と共にリスト化する手段と、 複数の認識単語を格納した単語辞書と、 前記リスト化された認識候補文字列に、単語意味に実質
    的な変更を与えることなく付加することが可能な冗長語
    または前記冗長語となり得る順で並ぶ冗長語候補が存在
    するかどうかを判定する文字列判定手段と、 前記冗長語または前記冗長語候補が存在する場合に当該
    冗長語または冗長語候補を削除したときの他の認識候補
    文字がずれ得る配列位置の情報を前記リスト化された認
    識候補文字の各々に設定するずらし位置設定手段と、 前記認識候補文字及び配列位置の情報と前記単語辞書内
    の認識単語とを比較照合して前記認識候補文字に対する
    文字特徴及び配列位置の一致度が最大となる認識単語を
    修正結果として特定する比較照合手段と、 を備えて成る文字認識結果修正装置。
  5. 【請求項5】 前記比較照合手段は、認識候補文字列か
    ら前記冗長語または冗長語候補を削除して得られる新た
    な文字列を生成する手段をさらに備え、生成された文字
    列を前記認識単語と比較照合される認識候補文字列とし
    て追加するように構成されることを特徴とする請求項4
    記載の文字認識結果修正装置。
  6. 【請求項6】 前記比較照合手段は、前記認識単語に前
    記冗長語または冗長語候補を所定位置に挿入した新たな
    文字列を生成する手段をさらに備え、生成された新たな
    文字列を前記認識候補文字列と比較照合される認識単語
    として追加するように構成されることを特徴とする請求
    項4記載の文字認識結果修正装置。
  7. 【請求項7】 前記比較照合手段は、認識候補文字毎に
    文字認識の対象となった画像情報との適合度を表す点数
    情報を対応付けて保持する手段と、文字特徴が類似し且
    つ配列位置が一致する文字を前記単語辞書内の認識単語
    から検出する度に当該認識候補文字の点数情報を前記認
    識単語の得点として累積加算する手段とを含み、総得点
    が大きい認識単語ほど前記一致度の高い認識単語と判定
    するように構成されることを特徴とする請求項5または
    6記載の文字認識結果修正装置。
  8. 【請求項8】 前記比較照合手段は、前記総得点を算出
    する際に、同一認識単語内で一つの認識候補文字がもと
    の配列位置と前記冗長語または冗長語候補を削除した後
    の配列位置との双方で重複して得点されているかどうか
    を判定し、重複して得点されているときは重複分の得点
    を減算するように構成されることを特徴とする請求項7
    記載の文字認識結果修正装置。
  9. 【請求項9】 画像情報の文字認識により得られた複数
    の認識候補文字の列を個々の認識候補文字の配列位置の
    情報と共にリスト化する処理と、 複数の認識単語を格納した単語辞書を形成する処理と、 前記リスト化された認識候補文字列に、単語意味に実質
    的な変更を与えることなく付加することが可能な冗長語
    または前記冗長語となり得る順で並ぶ冗長語候補が存在
    するかどうかを判定する処理と、 前記冗長語または前記冗長語候補が存在する場合に当該
    冗長語または冗長語候補を削除したときの他の認識候補
    文字がずれ得る配列位置の情報を前記リスト化された認
    識候補文字の各々に設定する処理と、 前記認識候補文字及び配列位置の情報と前記単語辞書内
    の認識単語とを比較照合して前記認識候補文字に対する
    文字特徴及び配列位置の一致度が最大となる認識単語を
    修正結果として特定する処理と、をコンピュータ装置に
    実行させるためのプログラムを当該コンピュータ装置が
    読みとり可能な形態で記録してなる記録媒体。
JP9163674A 1997-06-20 1997-06-20 文字認識結果修正方法及び装置、記録媒体 Pending JPH1115920A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9163674A JPH1115920A (ja) 1997-06-20 1997-06-20 文字認識結果修正方法及び装置、記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9163674A JPH1115920A (ja) 1997-06-20 1997-06-20 文字認識結果修正方法及び装置、記録媒体

Publications (1)

Publication Number Publication Date
JPH1115920A true JPH1115920A (ja) 1999-01-22

Family

ID=15778450

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9163674A Pending JPH1115920A (ja) 1997-06-20 1997-06-20 文字認識結果修正方法及び装置、記録媒体

Country Status (1)

Country Link
JP (1) JPH1115920A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010051459A (ko) * 1999-11-12 2001-06-25 가나이 쓰토무 지명표기사전 작성방법 및 지명표기사전 작성장치
KR101276203B1 (ko) * 2009-12-10 2013-06-20 한국전자통신연구원 매개 인터페이스 장치를 이용한 한/영 타이프라이터 시스템 및 문자열 입력 방법

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010051459A (ko) * 1999-11-12 2001-06-25 가나이 쓰토무 지명표기사전 작성방법 및 지명표기사전 작성장치
KR101276203B1 (ko) * 2009-12-10 2013-06-20 한국전자통신연구원 매개 인터페이스 장치를 이용한 한/영 타이프라이터 시스템 및 문자열 입력 방법
US8775159B2 (en) 2009-12-10 2014-07-08 Electronics And Telecommunications Research Institute Typewriter system and text input method using mediated interface device

Similar Documents

Publication Publication Date Title
US5933531A (en) Verification and correction method and system for optical character recognition
JPH11505052A (ja) 語彙辞書の検索範囲を削減するシステム及び方法
US20080292186A1 (en) Word recognition method and word recognition program
JPH1115920A (ja) 文字認識結果修正方法及び装置、記録媒体
JP2000089786A (ja) 音声認識結果の修正方法および装置
JP3975825B2 (ja) 文字認識誤り訂正方法、装置及びプログラム
JPS6262388B2 (ja)
JP2998054B2 (ja) 文字認識方法及び文字認識装置
JP3071745B2 (ja) 文字認識結果の後処理方法
WO2022059556A1 (ja) 文書検索装置
JP2002259912A (ja) オンライン文字列認識装置及びオンライン文字列認識方法
JPH0441388B2 (ja)
JP2908460B2 (ja) 誤認識修正方法及び装置
JP2000251017A (ja) 単語辞書作成装置および単語認識装置
JP3548372B2 (ja) 文字認識装置
JP2000163411A (ja) 住所地名入力支援装置、住所地名入力支援方法、及び記憶媒体
JP2619499B2 (ja) べた書き住所の文字認識後処理方式
JPH04111186A (ja) 住所文字列に対する文字認識結果修正方法
JP2839515B2 (ja) 文字読取システム
JPS61133487A (ja) 文字認識装置
JP2874199B2 (ja) 単語辞書照合装置
JPH11143984A (ja) 文字読取装置
JPH07271920A (ja) 文字認識装置
JP2790064B2 (ja) 記号列読み取り装置
JPH0816729A (ja) 文字認識後処理方式