JP3481850B2

JP3481850B2 - 文字認識装置

Info

Publication number: JP3481850B2
Application number: JP04183298A
Authority: JP
Inventors: 保直伊崎
Original assignee: Fujitsu Ltd; Fujitsu Frontech Ltd
Current assignee: Fujitsu Ltd; Fujitsu Frontech Ltd
Priority date: 1998-02-24
Filing date: 1998-02-24
Publication date: 2003-12-22
Anticipated expiration: 2018-02-24
Also published as: JPH11238101A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、入力文字列、特に
住所文字列の下位部分、具体的には丁目、番地、号、部
屋番号など、数字文字列で記入される部分を高精度で認
識する文字認識装置に関する。近年、文字認識装置の適
用分野が広まるに伴って、文字認識装置は様々な業務に
使われてきている。例えば、申込書のように不特定記入
者が手書き漢字で記入するような場合が増えてきてい
る。そこでは漢字に記入されるため漢字を含む３０００
字種以上の文字を認識する必要があり、住所の知識処理
が適用しにくい数字の文字列を高精度で認識することが
必要になってきている。

【０００２】

【従来の技術】従来の文字認識装置としては、例えば図
２３に示すようなものがある。図２３において、まず、
入力の文字列ａはイメージメモリ１０１内に格納され
る。次に、定義体メモリ１０２内に格納された予め定義
体と呼ばれる、認識対象の入力文字列ａが記入される文
字枠の帳票上の位置座標が格納された情報によって記入
された文字を文字切り出し部１０３で１文字ずつ検出、
切り出してそれを１文字ずつ認識して候補文字を出力す
る。住所の場合だと住所単語を使った知識処理をこれら
の候補文字にかける処理が知識処理部１０４で一般に行
なわれている。この中の１文字の認識は次のように行な
われる。多数の不特定の筆記者により予め決められた書
式に従って記入された文字を収集し、この文字から認識
方式に依存する特徴を特徴抽出部１０５を抽出し、統計
的な手法等により標準パターンを作成する。例えば、標
準パターンは収集した文字から平均パターンとして作成
されることもある。手書き文字の場合には、記入者によ
り大きな字形変形が生じるため各字種に複数の標準パタ
ーンを持つ。通常一つのパターンをテンプレートと呼
び、これらを格納する辞書１０６が複数テンプレート辞
書である。一般に住所のような漢字を含む文字列を認識
する場合３０００字種以上の字種が辞書１０６に格納さ
れている。辞書照合方法は、入力文字列ａから切り出し
た一文字から特徴を抽出し、この特徴と標準パターンの
辞書１０６とのあいだでマッチング部１０７により類似
度計算あるいは距離計算を行い、最大の類似度をもつカ
テゴリあるいは最小の距離となるテンプレートのカテゴ
リを認識結果としている。候補文字は距離の小さい順に
例えば８位までをとって候補文字列としている。

【０００３】マッチング部１０７でマッチングして得ら
れた候補文字列は、候補文字列バッファメモリ１０８内
に格納される。次に、前記知識処理部１０４による知識
処理は記入文字列とその候補文字列を対象として、知識
処理対象の知識辞書１０９の単語文字列がその候補文字
列の中に存在するかどうかを照らし合わせて候補の順位
などで得点をつけて最も妥当な単語を知識処理結果とす
ることで行なわれる。

【０００４】認識結果は、認識結果メモリ１１０内に格
納される。なお、１０３〜１０５，１０７で示す各部は
ソフトウェアによる処理を示し、１０１，１０２，１０
６，１０８〜１１０で示すものはハードウェアよりな
る。

【０００５】

【発明が解決しようとする課題】このような従来の文字
認識装置にあっては、住所文字列を認識する場合、住所
単語を知識辞書として持ち認識候補文字列と照らし合わ
せて最も確からしい住所単語を認識結果としている。し
かし次のような問題点があった。第１の問題点は住所単
語としてもてるのは丁目番地の直前までの住所文字列で
あり、丁目番地以降の数字文字列は単語辞書としてもつ
ことはない。この理由は数字文字列は組み合わせとして
いくらでも作ることができ、例えば４桁の数字文字列で
は１１１１から９９９９までありうる。

【０００６】また第２の問題点は数字文字列を単語とし
て全て持ったとして知識処理をかけた場合、数字の個々
の認識精度が高くなければ結果的にどれかの数字文字列
ともマッチングしてしまい誤った数字文字列となってし
まうことになりやすい。第２の問題点は１文字を認識す
る方法と関係があり、認識処理は標準パターンからなる
辞書とマッチングするわけであるが辞書の容量が大きく
なればなるほど認識処理に時間がかかり、現実に装置と
して実現するには容量に制限が加わる。容量一定と考え
た場合、認識する対象の字種が多いほど１字種当たりの
容量は少なくなり文字の変形の多様性を反映できなくな
る。これは具体的にはテンプレート数が少なくなること
に相当する。逆に認識対象字種が少ないほど１字種当た
りの辞書容量を増やすことができ文字の変形の多様性を
反映できる。

【０００７】これらの結果、住所文字列を認識する場
合、３０００字種もの辞書で文字列の最初から最後まで
認識すると知識処理のきかない数字文字列部分の認識精
度が相対的に低くなってしまう。本発明は、このような
従来の問題点に鑑みてなされたものであって、住所など
の下位部分の数字文字列を高い精度で認識することがで
きる文字認識装置を提供することを目的とする。

【０００８】

【課題を解決するための手段】この目的を達成するため
に、本発明は、次のように構成する（図１、参照）。請
求項１の発明は、全認識対象字種を格納した第１辞書１
２を用いて入力文字列を認識して候補文字列を求める文
字認識装置において、数字だけを認識するための数字字
種を格納した第２辞書１３と、英数カナだけを認識する
ための英数カナ字種を格納した第３辞書１４と、第１の
辞書〜第３辞書１２〜１４を用いて入力文字列を認識処
理した後に第２辞書１３で認識した結果と第３辞書１４
で認識した結果が認識可能であったか認識不能であった
かを判別する判別手段２０と、認識可能であったとき両
認識結果を比較する比較手段２１と、該比較手段２１で
比較した比較結果が一致したとき、前記第１辞書１２で
認識した結果を該比較結果で置き換える置き換え手段２
２と、を備える。

【０００９】請求項２の発明は、全認識対象字種を格納
した第１辞書１２を用いて入力文字列を認識して候補文
字列を求める文字認識装置において、数字だけを認識す
るための数字字種を格納した第２辞書１３と、英数カナ
だけを認識するための英数カナ字種を格納した第３辞書
１４と、第１の辞書〜第３辞書１２〜１４を用いて入力
文字列を認識処理した後に第２辞書１３で認識した結果
と第３辞書１４で認識した結果が認識可能であったか認
識不能であったかを判別する判別手段２０と、認識可能
であったとき両認識結果を比較する比較手段２１と、前
記第１辞書１２で認識した候補文字に数字が現われたと
き、該比較手段２１で比較した比較結果が一致した場合
には、１番上位に現われた候補文字の数字を該比較結果
で置き換え、前記１番上位に現われた数字で下位の数字
を置き換える置き換え手段と、を備える。

【００１０】請求項３の発明は、全認識対象字種を格納
した第１辞書１２を用いて入力文字列を認識して候補文
字列を求める文字認識装置において、数字だけを認識す
るための数字字種を格納した第２辞書１３と、英数カナ
だけを認識するための英数カナ字種を格納した第３辞書
１４と、最初に第２辞書１３と第３辞書１４を用いて数
字および英数カナの認識処理を行った後に第２辞書１３
で認識した結果と第３辞書１４で認識した結果が認識可
能であったか認識不能であったかを判別する判別手段
と、認識可能であったとき両認識結果を比較する比較手
段と、該比較手段で比較した比較結果が一致しないと
き、第１辞書で認識し候補文字列を求め、比較結果が一
致したときはその比較結果を候補文字列の１位に設定す
る設定手段と、を備える。

【００１１】請求項４の発明は、請求項１，２記載の文
字認識装置において、前記第２辞書１３および第３辞書
１４による両認識結果が認識可能であって一致するが前
記第１辞書１２の認識結果とは一致しないときは、該当
する入力文字パターンを前記第１辞書１２に追加する辞
書追加手段を設けた。このような構成を備えた本発明に
よれば、第１の辞書〜第３の辞書１２〜１４を用いて入
力文字列を認識処理した後に第２辞書１３で認識した結
果と第３辞書１４で認識した結果が認識可能であったか
認識不能であったかを判別し、認識可能であったとき両
認識結果を比較し、比較結果が一致したとき、第１辞書
１２で認識した結果を比較結果で置き換えるので、入力
文字列、特に住所文字列の丁目、番地、号、部屋番号な
どの数字文字列を高精度で認識することができる。

【００１２】また、第１辞書で認識した候補文字に数字
が現われたとき、比較結果が一致した場合には１番上位
に現われた候補文字の数字を比較結果で置き換え、１番
上位に現われた数字で下位の数字に置き換えるので、前
記と同様に住所文字列の数字文字列を高精度で認識する
ことができる。また、最初に第２辞書１３と第３辞書１
４を用いて数字および英数カナの認識処理を行った後に
第２辞書１３で認識した結果と第３辞書１４で認識した
結果とを比較し、比較結果が一致しないとき、第１辞書
１２で認識し候補文字列を求め、比較結果が一致したと
きはその比較結果を候補文字列の１位に設定する場合に
も、前記と同様な効果を得ることができる。

【００１３】また、第２辞書１３および第３辞書１４に
よる両認識結果が認識可能であって一致するが、第１辞
書１２の認識結果とは一致しないときは、該当する入力
文字パターンを第１辞書１２に追加するので、全字種を
認識するための第１辞書１２による認識精度を高めるこ
とができる。

【００１４】

【発明の実施の形態】図２は本発明の第１の実施形態を
示す全体構成図である。図２において、ａは帳票に記入
された入力文字列、例えば、住所文字列であり、入力文
字列ａは、スキャナ（図外）により読み取られてイメー
ジメモリ１内に格納される。入力文字列ａは定義体メモ
リ２内に格納された定義体を参照して文字切り出し部３
により一文字ずつ切り出される。

【００１５】定義体は、手書き、活字、字種の指定、読
取り領域（行位置、フィールド左右端位置）の指定、知
識処理の指定を行う。例えば、図３に示すように、例え
ば、ＯＭＲマーク領域４、イメージ読取り領域５、クリ
アエリア６、手書き文字枠７、活字文字枠８、ＩＤフィ
ールド９などの指定、行マーク１０で示す行位置などの
指定を行う。文字切り出し部３で切り出された文字は、
特徴抽出部１１により特徴を抽出する。

【００１６】１２は第１辞書であり、第１辞書１２内に
は住所文字列において、全字種を認識するために、約３
０００の字種が予め格納されている。第１辞書１２には
字種ごとに複数のテンプレートが格納されている。１３
は第２辞書であり、第２辞書１３内には数字だけを認識
するために、字種としての数字文字が予め格納されてい
る。１４は第３辞書であり、第３辞書１４内には英数カ
ナだけを認識するために字種としての英数カナ文字が予
め格納されている。

【００１７】マッチング部１５は特徴抽出部１１で抽出
した特徴から全文字種を認識するための第１辞書１２を
用いて認識を行い、候補文字列を求める。すなわち、マ
ッチング部１５は、抽出した特徴と第１辞書１２とのあ
いだで類似度計算または距離計算を行い、最大の類似度
をもつカテゴリまたは最小の距離となるテンプレートの
カテゴリを認識結果として候補文字列とする。また、同
様に数字だけを認識するための第２辞書１３を用いて認
識を行い、数字の認識結果を求める。また、同様に英数
カナだけを認識するための第３辞書１４を用いて認識を
行い、英数カナの認識結果を求める。

【００１８】第１辞書１２を用いて全字種の認識を行っ
て求めた候補文字列は、第１辞書候補列バッファメモリ
１６内に格納される。第２辞書１３を用いて数字の認識
を行って求めた認識結果は、第２辞書結果バッファメモ
リ１７内に格納される。第３辞書１４を用いて英数カナ
の認識を行って求めた認識結果は、第３辞書結果バッフ
ァメモリ１８内に格納される。

【００１９】認識結果修正部１９は、第１，２，３辞書
１２，１３，１４を使った認識結果から判断し、第１辞
書１２を使った候補文字列を修正する。数字を認識する
場合、第１辞書１２を使って認識するより第２，第３辞
書１３，１４を使ったほうが認識精度は高いし、また認
識対象以外の文字パターン、すなわち第２辞書１３では
数字以外、第３辞書１４では英数カナ以外の文字は認識
不能（リジェクト）となる可能性が高いため、第２，第
３結果が一致して認識不能ではないとき、この結果は第
１辞書１２を使って認識した結果の数字よりも精度が高
くなる。

【００２０】認識結果修正部１９は、図４に示すよう
に、判別手段としての判別部２０、比較手段としての比
較部２１および置き換え手段としての置き換え部２２に
より構成される。判別部２０は第１辞書〜第３辞書１
２，１３，１４を用いて入力文字列ａを認識処理した後
に第２辞書１３で認識した結果と第３辞書１４で認識し
た結果が認識可能であったか認識不能であったかを判別
する。比較部２１は認識可能であったとき両認識結果を
比較する。置き換え部２２は比較部２１で比較した比較
結果が一致したとき、第１辞書１２で認識した結果を比
較結果で置き換える。

【００２１】知識処理部２３は、住所単語を格納した知
識辞書２４を用いて、修正された候補文字列に知識処理
を施し、最も妥当な単語を知識処理結果とする。この知
識処理結果は、認識結果として認識結果メモリ２５内に
格納される。なお、３，１１，１５，１９，２３で示す
各部はソフトウェアによる処理を示し、１，２，１２〜
１４，１６〜１８，２４，２５で示すものは、ハードウ
ェアよりなる。

【００２２】図５は入力文字列と候補文字列の例を示す
図である。図５において、入力文字列ａは、例えば「ア
パート１７」であるとする。この入力文字列ａを文字切
り出し部３により文字切り出しを行い、特徴抽出部１１
で特徴を抽出し、マッチング部１５により全文字種を認
識するための第１辞書１２を用いて認識処理を行うこと
で、候補文字列ｂが８位まで求められる。求めた候補文
字列ｂは、第１辞書候補列バッファメモリ１６内に格納
される。候補文字列ｂは１位は例えば「アパート１ク」
であり、候補文字列ｂの最後の文字ｃが「ク」になって
おり、入力文字列ａの最後の文字「７」と一致しない。

【００２３】図６は第２，第３辞書１３，１４による認
識結果を示す。図６において、数字だけを認識する第２
辞書１３を用いて入力文字列ａを一文字ごとに認識した
認識結果ｄは、例えば「？？？４１７」となる。この認
識結果ｄのうちの「？」は認識結果ｄが認識不能であっ
たことを示している。英数カナだけを認識する第３辞書
１４を用いて入力文字列ａを一文字ごとに認識した認識
結果ｅは、例えば「ア？ート１７」となる。この認識結
果ｅのうちの「？」は認識結果ｅが認識不能であったこ
とを表わしている。認識結果ｄと認識結果ｅを比較し、
一致すれば、一致した数字を１位の候補文字列ｂに置き
換える。候補結果ｄと認識結果ｅを比較すると「１７」
が一致しているので、「１７」を１位の候補文字列ｂに
置き換える。この場合、元の候補文字列ｂの順位を１つ
下へ移動する。この際１位に入れた結果と同じものが候
補文字列ｂにあればそれを取り除く。候補文字列ｂの一
位は、「アパート１７」となり、入力文字列ａと同じに
なる。図５の候補文字列ｂの最後の文字「ク７フタグタ
フラ」は、図７のｆに示すように「７クフタグタフラ」
に変更される。

【００２４】図８は図２の動作を説明するフローチャー
トである。図８において、まず、ステップＳ１で第１辞
書１２で入力文字列を認識し、候補文字列を求める。例
えば、入力文字列が図５のａに示すように、「アパート
１７」であるとき、第１辞書１２により図５のｂに示す
ように、１位から８位までの候補文字列を求めて第１辞
書候補列バッファメモリ１６に格納する。

【００２５】次に、ステップＳ２で第２辞書１３を用い
て数字だけを認識し、認識結果を求める。例えば、入力
文字列が図５のａに示すように「アパート１７」である
とき、第２辞書１３を用いた認識結果は、図６のｄに示
すように「？？？４１７」となり、これらが第２辞書結
果バッファメモリ１７内に格納される。次に、ステップ
Ｓ３で第３辞書１４を用いて英数カナだけを認識し、認
識結果を求める。例えば、入力文字列が図５のａに示す
ように「アパート１７」であるとき、第３辞書１４を用
いた認識結果は、図６のｅに示すように「ア？ート１
７」となり、これらが第３辞書結果バッファメモリ１８
内に格納される。

【００２６】次に、ステップＳ４で第２辞書１３による
認識結果が認識不能であったかを判別する。認識不能で
あったときは、ステップＳ８に進み、認識可能であった
ときは、ステップＳ５に進む。図６の認識結果ｄは最初
の３文字は「？」であるから、認識不能であり、残りの
３文字「４１７」は認識可能である。次に、ステップＳ
５で第３辞書１４による認識結果が認識不能であったか
を判別する。認識不能であったときは、ステップＳ８に
進み、認識可能であったときは、ステップＳ６に進む。
図６の認識結果ｅは、２番目の文字が「？」で認識不能
であり、残りの文字は「アート１７」で認識可能であ
る。

【００２７】次に、ステップＳ６で第２辞書１３による
認識結果と第３辞書１４による認識結果を比較し、一致
しているか判別する。第２辞書１３による数字だけの認
識結果ｄは、「？？？４１７」であり、第３辞書１４に
よる英数カナだけの認識結果ｅは、「ア？ート１７」で
あり、５番目と６番目の文字「１７」が一致し、他は一
致していない。一致しているときは、ステップＳ７に進
み、一致していないときは、ステップＳ８に進む。

【００２８】ステップＳ７では、一致している５番目の
文字が「１」のときは、候補文字列ｂの５番目の文字が
「１」であり、同じであるから、置き換えずに、「１」
を残す。一致している６番目の文字が「７」のときは、
候補文字列ｂの６番目の第１の文字「ク」に一致した認
識結果ｄに「７」を入れ、候補文字列ｂを順次下位に１
つ移動させる。図７に示すように、２位には「ク」が入
り、その際、認識結果ｄの「７」と同じものがあれば取
り除く。

【００２９】次に、ステップＳ８で入力文字列の文字数
分一文字ごとに前記処理を繰り返して行い、最後の文字
の処理が終了していないときは、ステップＳ４に戻り、
最後の文字を処理して終了とする。こうして、修正され
た候補文字列ｂとして例えば「アパート１７」が得られ
る。この修正した候補文字列ｂは、入力文字列ａと一致
している。このように、入力文字列ａが住所文字列のと
き、丁目、番地、号、部屋番号などの数字文字列を高精
度に認識することができる。

【００３０】図９は本発明の第２の実施形態に係る認識
結果修正部を示す図である。本発明の第２の実施形態に
おいては、図２の認識結果修正部１９の代りに、図９の
認識結果修正部１９Ａを用いる。その他の構成は図２と
同様である。図９において、第２の実施形態に係る認識
結果修正部１９Ａは、判別手段としての判別部２０、比
較手段としての比較部２１および置き換え手段としての
第２の置き換え部２２Ａにより構成される。

【００３１】比較部２１は、第１辞書〜第３辞書１２，
１３，１４を用いて入力文字列ａを認識処理した後に第
２辞書１３で認識した結果と第３辞書で認識した結果が
認識可能であったか認識不能であったかを判別する。比
較部２１は認識可能であったとき両認識結果を比較す
る。第２の置き換え部２２Ａは第１辞書１２で認識した
候補文字に数字が現われたとき、比較部２１で比較した
比較結果が一致した場合には１番上位に現われた候補文
字の数字を得られた比較結果で置き換え、１番上位に現
われた数字で下位の数字を置き換える。

【００３２】図１０に示すように、１位から５位まで
「９クフ７タ」という候補文字があったとき、候補文字
の中の数字を入れ換える。比較部２１で比較して得られ
た比較結果が「７」のとき、候補文字の中の１位の数字
「９」については「７」を入れ、４位の「７」は１位で
あった「９」を入れる。したがって、１位の候補文字列
ｂは「アパート１７」になる。

【００３３】図１１は本発明の第２の実施形態の動作を
説明するフローチャートである。

【００３４】本フローチャートは、第１の実施形態の動
作を説明する図８のフローチャートとは、ステップＳ７
がステップ７Ａに変わっているだけで他のステップＳ１
〜Ｓ６，Ｓ８は同じである。ステップＳ７Ａにおいて
は、比較結果が一致したとき、候補文字列ｂの中の数字
について、一致した結果を１番上位に入れ、候補文字の
一番上位の数字を下位の数字の位置へ移す。図１０に示
すように、１位から５位の候補文字「９クフ７タ」を
「７クフ９タ」に修正する。本実施形態においても、求
めた候補文字列ｂは入力文字列ａ、特に住所文字列の丁
目、号、部屋番号などの数字文字列を精度よく認識する
ことができる。

【００３５】図１２は本発明の第３の実施形態を示す全
体構成図である。図１２において、本発明の第１の実施
形態を示す図２に対して、認識処理順制御部２６が設け
られ、また、図２の認識結果修正部１９とは内容が異な
る認識結果修正部１９Ｂをもつ。認識処理順制御部２６
は、最初に第２辞書１３と第３辞書１４を用いて数字お
よび英数カナの認識処理を行うように認識処理順を制御
する。また、第２辞書１３による認識結果ｄと第３辞書
１４による認識結果ｅが一致しないときは、第１辞書１
２を用いて認識処理を行い、候補文字列ｂを求める。

【００３６】認識結果修正部１９Ｂは、図１３に示すよ
うに、判別手段としての判別部２０と、比較手段として
の比較部２１と、設定手段としての設定部２７により構
成される。判別部２０は、第２辞書１３で認識した結果
と第３辞書１４で認識した結果が認識可能であったか認
識不能であったかを判別する。

【００３７】比較部２１は認識可能であったとき第２辞
書１３で認識した結果と第３辞書１４で認識した結果と
を比較する。設定部２７は比較部２１で比較した比較結
果が一致しないとき、第１辞書１２で認識し候補文字列
ｂを求め、比較結果が一致したときはその比較結果を候
補文字列ｂの１位に設定する。

【００３８】図１４は図１２の動作を説明するフローチ
ャートである。図１４において、まず、ステップＳ１１
で第２辞書１３を用いて入力文字列ａを認識処理し、数
字の認識結果ｄを求める。次に、ステップＳ１２で第３
辞書１４を用いて入力文字列ａを認識処理し、英数カナ
の認識結果ｅを求める。次に、ステップＳ１２Ａで第２
辞書１３による認識結果ｄが認識不能であったかを判別
し、認識不能であったときはステップＳ１４に進み、認
識可能であったときはステップＳ１２Ｂに進む。次に、
ステップＳ１２Ｂで第３辞書１４による認識結果ｅが認
識不能であったかを判別し、認識不能であったときはス
テップＳ１４に進み、認識可能であったときはステップ
Ｓ１３に進む。

【００３９】次に、ステップＳ１３で第２辞書１３によ
る認識結果ｄと第３辞書１４による認識結果ｅとを比較
し、一致しないときは、ステップＳ１４に進み、一致し
たときはステップＳ１５に進む。比較した結果が一致し
ないときは、ステップＳ１４で第１辞書１２を用いて入
力文字列ａを全字種について認識処理し、候補文字列ｂ
を求め、ステップＳ１７に進む。

【００４０】第２辞書１３による認識結果ｄおよび第３
辞書１４による認識結果ｅが図６に示すようなものであ
るとすると、第１番目の文字から第４番目の文字まで不
一致であるから、図５の候補文字列ｂの１位では、第１
番目から第４番目の文字の候補文字列は「アパート」に
なる。比較した結果が一致したときは、ステップＳ１５
で一致した認識結果ｄを候補文字列ｂの１位とする。

【００４１】図６に示すように、認識結果ｄと認識結果
ｅを比較すると、第５番目の「１」と、第６番目の
「７」が一致するから、「１７」を候補文字列ｂの１位
とする。したがって、１位の候補文字列ｂとしては、
「アパート１７」が求められる。次に、ステップＳ１６
で第１辞書１２で全字種について認識処理を行い、２位
以降の候補とする。例えば、図５の５番目と６番目の文
字で示すように、「１７」、「メフ」、「ヅタ」、「ヅ
グ」、「メタ」、「ブフ」、「ブラ」が第２位〜第８位
の候補文字となる。次に、ステップＳ１７で入力文字列
ａの文字数分繰り返して前記のような処理を行い、すべ
ての文字の処理が終了するまで処理を行う。本実施形態
においても、前記実施形態と同様に入力文字列ａ、特に
住所文字列の丁目、番地、号、部屋番号などの数字文字
列を精度良く認識することができる。

【００４２】図１５は本発明の第４の実施形態を示す全
体構成図である。図１５において、本発明の第１の実施
形態を示す図２に対して、特徴バッファメモリ２８と、
辞書追加手段としての辞書追加部２９が設けられてい
る。認識結果修正部１９において、第２辞書１３による
数字の認識結果ｄと第３辞書１４による英数カナの認識
結果ｅとが一致し、全字種の第１辞書１２による最上位
の数字候補が一致しないとき、特徴抽出部１１で抽出し
たその該当文字パターンを特徴バッファメモリ２８に格
納し、辞書追加部２９により、格納した該当文字パター
ンを第１辞書１２に追加する。

【００４３】図１６に示すように、例えば第１辞書１２
の字種ｘがテンプレート１，２，３よりなるとき、数
字、英数カナだけを認識したとき、認識結果が一致し、
全字種の第１辞書１２で認識したとき最上位の数字候補
と一致しないとき、その該当文字を特徴抽出部１１で抽
出した該当文字パターンとして特徴バッファメモリ２８
に格納し、これを字種ｘのテンプレート４として第１辞
書１２に追加する。

【００４４】図１７は図１５の動作を説明するフローチ
ャートである。図１７において、ステップＳ２１で第２
辞書１３による認識結果ｄは認識不能であったか判別す
る。認識不能であったときは、処理を終了とし、認識可
能であったときは、ステップＳ２２に進む。ステップＳ
２２では、第３辞書１４による認識結果ｅは、認識不能
であったか判別し、認識不能であったときは、処理を終
了とし、認識可能であったときは、ステップＳ２３に進
む。ステップＳ２３では第２辞書１３による認識辞書ｄ
と第３辞書１４による認識結果ｅとを比較し、等しいか
判別する。等しいときは処理を終了とし、等しくないと
きはステップＳ２５に進む。

【００４５】ステップＳ２５では、第２辞書１３による
認識結果ｄと第３辞書１４による認識結果ｅが等しい
が、第１辞書１２による認識結果とは等しくないときの
当該文字の特徴を特徴抽出部１１で抽出して、特徴バッ
ファメモリ２８に格納し、格納した当該文字パターンを
辞書追加部２９により第１辞書１２に追加する。例え
ば、図１６に示すように、字種ｘとして数字「７」のテ
ンプレート１，２，３が第１辞書１２に格納されている
とき、特徴バッファメモリ２８に格納された当該文字パ
ターンを字種「７」のテンプレート４として第１辞書１
２に格納する。

【００４６】このように、本実施形態においては、全字
種の第１辞書１２で正しく認識できなかった数字文字を
追加することができ、第１辞書１２による数字文字の認
識精度をさらに高めることができる。図１８は本発明の
第５の実施形態を示す全体構成図である。図１８におい
て、図１５に対して、蓄積処理手段としての蓄積処理部
３０、蓄積バッファメモリ３１およびパターン作成手段
としてのパターン作成部３２が追加して設けられてい
る。その他の構成は、図１５と同様になっている。

【００４７】蓄積処理部３０は、認識結果修正部１９に
おいて、第２，第３辞書１３，１４による認識結果が認
識可能であって、第２辞書１３による認識結果ｄと第３
辞書１４による認識結果ｅが等しく、第１辞書１２によ
る認識結果が等しくないとき、文字パターンが格納され
ている特徴バッファメモリ２８から当該文字パターンを
取り出して、所定数、例えば１０文字になるまで蓄積バ
ッファメモリ３１に蓄積処理する。例えば図１９に示す
ように、蓄積バッファメモリ３１には１字種で１０文字
パターンになるまで、蓄積する。パターン作成部３２
は、蓄積された文字パターンが所定数になると、各字種
ごとに平均パターンを作成し、辞書追加部２９により、
作成された平均パターンを字種ごとに第２辞書１２に追
加する。

【００４８】図２０は図１８の動作を説明するフローチ
ャートである。図２０のフローチャートは、図１７のフ
ローチャートに対して、ステップＳ２４Ａおよびステッ
プＳ２４Ｂが追加して設けられており、他のステップＳ
２１〜２４，ステップＳ２５は同じになっている。ステ
ップＳ２４Ａでは、第２，第３辞書１３，１４による認
識結果ｄ，ｅが認識可能であって、両者を比較した比較
結果が等しいが、第１辞書１２による認識結果とは等し
くないときは、特徴を抽出して当該文字パターンを字種
ごとに蓄積バッファメモリ３１に蓄積しておく。

【００４９】次に、ステップＳ２４Ｂで蓄積バッファメ
モリ３１に蓄積した文字パターンが、図１９に示すよう
に、例えば一字種ごとに１０文字パターンになったら、
パターン作成部３２により平均を作成し、ステップＳ２
５で作成した平均パターンを辞書追加部２９により第１
辞書１２に追加する。このように、第５の実施形態にお
いては、全字種の第１辞書１２で正しく認識できなかっ
た数字文字を第２辞書１２に追加するとき、該当文字パ
ターンを所定数になるまで蓄積しておいて平均パターン
を作成して追加するため、追加する文字パターンの精度
を高めることができ、その結果、数字文字をさらに精度
良く認識することができる。

【００５０】図２１は本発明の第６の実施形態を示す全
体構成図である。図２１において、本発明の第４の実施
形態を示す図１５に対して、入力処理手段としての表示
入力処理部３３が追加して設けられている。その他の構
成は、図１５と同様になっている。表示入力処理部３３
は、追加する該当文字を表示部３４に表示し、オペレー
タが入力部３５から追加を指示したときは、辞書追加部
２９で該当文字パターンを第１辞書１２に追加するよう
に入力処理する。

【００５１】図２２は図２１の動作を説明するフローチ
ャートである。図２２のフローチャートは、図１７のフ
ローチャートに対して、ステップＳ２４Ｃおよびステッ
プＳ２４Ｄが追加して設けられており、その他のステッ
プＳ２１〜２４、ステップＳ２５は同様になっている。
ステップＳ２４Ｃでは、認識結果メモリ２５内に認識結
果が得られた後に、認識結果修正部１９による修正があ
るとき、特徴バッファメモリ２８の文字パターンを表示
入力処理部３３により表示部３４に表示する。この際、
特徴バッファメモリ２８には判断を容易にするために、
文字切り出し部３によって切り出された文字パターンも
格納してある。

【００５２】次に、ステップＳ２４Ｄでオペレータは表
示部３４に表示された文字パターンを見て辞書に追加す
るか否かを判断し、追加するときは入力部３５から追加
を指示する。入力部３５からの追加指示によりステップ
Ｓ２５で表示入力処理部３３は辞書追加部２９で第１辞
書１２への文字パターンを追加するように入力処理す
る。

【００５３】第６の実施形態においては、第１辞書１２
への追加を表示入力処理部３３を通じてオペレータが指
示するため、追加する文字パターンの精度がさらに良く
なり、数字文字列をさらに精度良く認識することができ
る。

【００５４】

【発明の効果】以上説明してきたように、本発明によれ
ば、第１辞書〜第３辞書を用いて入力文字列を認識処理
した後に第２辞書で認識した結果と第３辞書で認識した
結果が認識可能であったか認識不能であったかを判別
し、認識可能であったとき両認識結果を比較し、比較結
果が一致したとき、第１辞書で認識した結果を比較結果
で置き換えるため、入力文字列、特に住所文字列の丁
目、番地、号、部屋番号などの数字文字列を高精度で認
識することができる。

【００５５】また、第１辞書で認識した候補文字に数字
が現われたとき、比較結果が一致した場合には、１番上
位に現われた候補文字の数字を比較結果で置き換え、１
番上位に現われた数字で下位の数字を置き換えるため、
前記と同様に住所文字列の数字文字列を高精度で認識す
ることができる。また、最初に第２辞書と第３辞書を用
いて数字および英数カナの認識処理を行った後に第２辞
書で認識した結果と第３辞書で認識した結果とを比較
し、比較結果が一致しないとき、第１辞書で認識し候補
文字列を求め、比較結果が一致したときはその比較結果
を候補文字列の１位に設定する場合にも、前記と同様な
効果を得ることができる。

【００５６】また、第２辞書および第３辞書による両認
識結果が認識可能であって一致するが、第１辞書の認識
結果とは一致しないときは、該当する入力文字パターン
を第１辞書に追加するため、全字種を認識するための第
１辞書による認識精度を高めることができる。

【図面の簡単な説明】

【図１】本発明の原理説明図

【図２】本発明の第１の実施形態を示す全体構成図

【図３】定義体の説明図

【図４】認識結果修正部の構成例を示す図

【図５】入力文字列と候補文字列の例を示す図

【図６】第２，第３辞書による認識結果の例を示す図

【図７】修正された候補文字列の例を示す図

【図８】図２の動作を説明するフローチャート

【図９】本発明の第２の実施形態に係る認識結果修正部
の例を示す図

【図１０】修正された候補文字の例を示す図

【図１１】本発明の第２の実施形態の動作を説明するフ
ローチャート

【図１２】本発明の第３の実施形態を示す全体構成図

【図１３】図１３の認識結果修正部の構成例を示す図

【図１４】図１３の動作を説明するフローチャート

【図１５】本発明の第４の実施形態を示す全体構成図

【図１６】第１辞書への追加の説明図

【図１７】図１６の動作を説明するフローチャート

【図１８】本発明の第５の実施形態を示す全体構成図

【図１９】蓄積バッファメモリの格納例を示す図

【図２０】図１９の動作を説明するフローチャート

【図２１】本発明の第６の実施形態を示す全体構成図

【図２２】図２２の動作を説明するフローチャート

【図２３】従来例を示す図

【符号の説明】

１：イメージメモリ２：定義体メモリ３：文字切り出し部４：ＯＭＲマーク領域５：イメージ読取り領域６：クリアエリア７：手書き文字枠８：活字文字枠９：ＩＤフィールド１０：行マーク１２：第１辞書１３：第２辞書１４：第３辞書１５：マッチング部１６：第１辞書候補列バッファメモリ１７：第２辞書結果バッファメモリ１８：第３辞書結果バッファメモリ１９，１９Ａ，１９Ｂ：認識結果修正部２０：判別部（判別手段）２１：比較部（比較手段）２２：置き換え部（置き換え手段）２２Ａ：第２の置き換え部（置き換え手段）２３：知識処理部２４：知識辞書２５：認識結果メモリ２６：認識処理順制御部２７：設定部（設定手段）２８：特徴バッファメモリ２９：辞書追加部（辞書追加手段）３０：蓄積処理部（蓄積処理手段）３１：蓄積バッファメモリ３２：パターン作成部（パターン作成手段）３３：表示入力処理部（表示入力処理手段）３４：表示部３５：入力部

───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06K 9/00 - 9/76

Claims

(57)【特許請求の範囲】

【請求項１】全認識対象字種を格納した第１辞書を用い
て入力文字列を認識して候補文字列を求める文字認識装
置において、数字だけを認識するための数字字種を格納した第２辞書
と、英数カナだけを認識するための英数カナ字種を格納した
第３辞書と、第１の辞書〜第３辞書を用いて入力文字列を認識処理し
た後に第２辞書で認識した結果と第３辞書で認識した結
果が認識可能であったか認識不能であったかを判別する
判別手段と、認識可能であったとき両認識結果を比較する比較手段
と、該比較手段で比較した比較結果が一致したとき、前記第
１辞書で認識した結果を該比較結果で置き換える置き換
え手段と、を備えたことを特徴とする文字認識装置。
【請求項２】全認識対象字種を格納した第１辞書を用い
て入力文字列を認識して候補文字列を求める文字認識装
置において、数字だけを認識するための数字字種を格納した第２辞書
と、英数カナだけを認識するための英数カナ字種を格納した
第３辞書と、第１の辞書〜第３辞書を用いて入力文字列を認識処理し
た後に第２辞書で認識した結果と第３辞書で認識した結
果が認識可能であったか認識不能であったかを判別する
判別手段と、認識可能であったとき両認識結果を比較する比較手段
と、前記第１辞書で認識した候補文字に数字が現われたと
き、該比較手段で比較した比較結果が一致した場合に
は、１番上位に現われた候補文字の数字を該比較結果で
置き換え、前記１番上位に現われた数字で下位の数字を
置き換える置き換え手段と、を備えたことを特徴とする
文字認識装置。
【請求項３】全認識対象字種を格納した第１辞書を用い
て入力文字列を認識して候補文字列を求める文字認識装
置において、数字だけを認識するための数字字種を格納した第２辞書
と、英数カナだけを認識するための英数カナ字種を格納した
第３辞書と、最初に第２辞書と第３辞書を用いて数字および英数カナ
の認識処理を行った後に第２辞書で認識した結果と第３
辞書で認識した結果が認識可能であったか認識不能であ
ったかを判別する判別手段と、認識可能であったとき第２辞書で認識した結果と第３辞
書で認識した結果とを比較する比較手段と、該比較手段で比較した比較結果が一致しないとき、第１
辞書で認識し候補文字列を求め、比較結果が一致したと
きはその比較結果を候補文字列の１位に設定する設定手
段と、を備えたことを特徴とする文字認識装置。
【請求項４】請求項１，２記載の文字認識装置におい
て、前記第２辞書および第３辞書による両認識結果が認識可
能であって一致するが前記第１辞書の認識結果とは一致
しないときは、該当する入力文字パターンを前記第１辞
書に追加する辞書追加手段を設けたことを特徴とする文
字認識装置。