JPH03161890A

JPH03161890A - 文字認識装置

Info

Publication number: JPH03161890A
Application number: JP1301248A
Authority: JP
Inventors: Toru Matsuo; 松尾　徹; Kota Fujimura; 恒太藤村
Original assignee: Sanyo Electric Co Ltd
Current assignee: Sanyo Electric Co Ltd
Priority date: 1989-11-20
Filing date: 1989-11-20
Publication date: 1991-07-11
Anticipated expiration: 2013-05-25
Also published as: JP2755738B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】（イ）産業上の利用分野本発明は、文字認識装置に係り、修正作業の簡便化や単
語照合等の後処理の精度を向上させるため、認識候補文
字を最小限に絞り込む文字認識装置に関するものである
。

（ロ）従来技術従来の文字認識では、認識結果として、候補文字は定数
個（通常１０個程度）に固定されているものがある。ま
た電子情報通信学会論文誌（Ｄ）Ｖｏｌ．Ｊ７１−Ｄ　
Ｎｏ．６　ｐｐｌ０３７−１０４７　１９８８年６月の
論文「情景画像からの文字パターン抽出と認識」に開示
されているように、各文字カテゴリ毎に距離（または類
似度）のしきい値が設定されて、個数可変のものがある
。更に、電子情報通信学会論文誌Ｄ−ＩＩＶｏｌ．　Ｊ
７２−Ｄ−　ＩＩ　　Ｎｏ．７　ｐｐ９９３−１０００
　　１９８９年７月の論文「候補文字補完と言語処理に
よる漢字認識の誤り訂正処理法」に開示されているよう
に、固定しきい値により制限を加えたもの等の種々の方
式によりある程度候補文字は絞られていたが、十分とは
いえなかった。

（ハ）発明が解決しようとする課題候補文字の数は、選択する側の繁雑さからすると、でき
るだけ少ないことが望ましい。

従来の各方法では候補の絞り込みが十分でなく、修正作
業において、候補選択の際に、ほとんど類似していない
ような文字まで候補に挙がっており、選択が繁雑であっ
た。

また、認識後に単語照合等の後処理にかける場合には、
候補文字が必要以上に多くなるため、組合せの数が増え
ることにより、別の単語と照合されてしまい、正しい結
果が得られないことがあった。

本発明は、上述した従来の問題点に鑑み、認識精度を損
なうことなく候補文字の数を絞り込み、修正作業を容易
に、あるいは後処理を高精度にすることをその課題とす
る。

（二）課題を解決するための手段本発明は、各文字カテゴリ毎の標準字体をもつ標準パタ
ーン辞書と、入力された文字パターンと上記標準パター
ン辞書に登録されている文字種との間の標準パターン間
距離を算出するパターン間距離算出部と、算出された距
離の小さい順に文字を並べ替える距離順並べ替え部と、
候補文字をおおまかに限定する第１次候補文字絞り部と
、並べ替え後の隣合う文字の間の距離差を算出するとと
もに距離差計算部と距離差の平均並びに分散を計算し、
候補文字の絞り込みの可否を判定しかつ最大距離差のと
ころで、候補文字とそれ以外に分割する第２次候補文字
絞り部とを具備し、　距離差の最大となるところを見つ
けることにより、それより距離の小さい文字を候補文字
として残し、それ以外は棄却することを特徴とする。

（ホ）作用候補文字を絞り込むことができるかどうかは、距離差の
バラッキが大きいかそうでないかによって決定するため
、類似文字の少ない場合には、類似文字とそうでない文
字との間に明らかな距離差を生じる。したがって、距離
差に候補文字と棄却文字の分離点が求まり、候補は絞ら
れる。逆に、類似文字の多い場合は無理に候補を絞るこ
とは避け、候補文字は全て残されることになる。

以上のように、この発明は、無理なくかつ効果的に候補
文字が絞られる。

（へ）実施例以下、本発明の一実施例を図面を参照して説明する。

本発明においては、候補文字の絞り込みは、候補文字を
距離の小さい順（類似度の大きい順）に並べた際の、距
離差に基づいて行われる。

まず本発明の概念につき第１図に従い説明する。第１図
は候補文字を距離の小さい順に並べたときの様子を示す
概念図であり、この図においては第１次候補文字を１０
個としている。同図では、黒丸が１つの候補文字を表し
、距離を横軸として、距離軸方向の分布を示す。

第１図（ａ）は距離差にバラツキがある場合を示し、図
中の破線の所で距離差が最大となっている。すなわち、
第３位の文字と第４位の文字の間には有意な距離差があ
り、そこを境に候補文字に含める文字と、棄却すべき文
字のグループとを分離することができる。

また、第１図（ｂ）は、距離差はほぼ同じである場合を
示す。この場合は、第１図（ａ）の場合にように２つの
グループに分離することは危険である。この場合には、
強制的に候補を絞り込むことは避け、すべての文字を候
補文字として残す。

実際の場合に当てはめてみると、第１図（ａ）は比較的
類似文字の少ない場合に相当し、第１図（ｂ）は類似文
字が多く存在する場合に相当する。

本発明においては、まず、第ｌ図の（ａ）の場合である
か、（ｂ）の場合であるかの判定が必要である。

この判定につき、まず説明すると、各候補文字間の距離
差の平均を求め、その値よりも極端に大きいものがある
かどうかを判定基準とする。すなわち、極端に大きいも
のがあれば、候補文字はさらに絞り込み可能であると考
える。もしそうでなければ、これ以上の絞り込みは行わ
ない。

この方式では、候補文字数があらかじめ数文字に限定さ
れている必要がある（第１図では１０候補であった）。

このため、第１段階として、従来法を用いて候補文字を
数文字に限定しておく。第２段階では、上記の方式によ
り、その候補文字群の距離差を求め、可能であれば、候
補に含める文字と棄却する文字とに分割を行う。

次に第２図および第３図に従い本発明を更に説明する。

第２図は本発明の構成の一例を示す構成図、第３図は処
理の流れ図を示す。

パターン間距離算出部２では、入力された文字パターン
ｌと標準パターン辞書３に登録されている文字種全てに
対し、特徴比較を行い標準パターンとのパターン間距離
を算出する。標準パターン辞書３は各文字カテゴリ毎の
標準字体が格納されている。パターン間距離算出部２で
得られた結果すなわち、文字種とその距離値は、距離順
並べ替え部４に与えられる。距離順並べ替え部４では、
第１図に示すように、距離の小さい順に並び替えられる
。そして、並び替えられたデータは第ｌ次候補文字絞り
部５に与えられる。第ｌ次候補文字絞り部５は与えられ
たデータに基づき、数候補に絞る。この処理では、従来
法を用いて候補をおおまかに絞り込む。この処理は、単
に候補文字を定数個（例えば、ｌＯ個程度）に絞る程度
でもよいし、あるいは、文字カテゴリ毎にしきい値を設
定することによって候補を絞ってもよい。

続いて、データは第２次候補文字絞り部６に送られる。

第２次候補文字絞り部６は距離差計算部６１、平均並び
に分散計算部６２、絞り込み可否判定部、および候補文
字分離部６４を備え、次のような処理が行われる。

まず、必要であれば距離値の小さい順に並べ替えた後、
（本実施例では第１次候補文字絞り部の時点においてす
でに距離順に並んでいるため第２図では省略してある。

）距離差計算部６１にデータが与えられる。距離差計算
部６１おいて、隣合う文字の距離の差分を計算する。平
均並びに分散計算部６２では、距離差の平均並びに分散
値を計算する。そして、絞り込み可否判定部６３では、
その平均値と分散とをもとに、距離差の極端に大きいも
のがあるかどうかを判定する。具体的には、以下の式を
満たす距離差のものが存在する場合には、候補文字分離
部６４が、最大の距離差のところで分割し、候補文字と
それ以上の距離の文字候補は棄却する。

（距離差）〉（距離差平均）＋（距離差の分散の２倍）もし、上式を満たす距離差のものがない場合には、第１
次候補文字絞り部５で選別された、文字をそのまま候補
文字として採用する。

得られた候補文字は、後処理部７に渡され、単語照合等
の処理が行われる。

また、第２図の例では示していないが、後処理を行わな
い場合には、修正時に次候補文字とじて採用される。

次に本発明の処理手順につき第３図の流れ図に従い説明
する。

ステップＳ１において、パターン間距離算出部２で、入
力された文字パターンと標準パターン辞書３に登録され
ている文字種全てに対し、特徴比較を行う。

続いて、ステップＳ２において、ステップＳ１で得られ
た結果（文字種とその距離値）が、距離順並べ替え部４
で、距離の小さい順に並び替えられる。

ステップＳ３では、第１次候補文字絞り部５によって数
候補に絞られる。

その後、第２次候補文字絞り部６での処理が行なわれる
。第２次候補文字絞り部６では、次のような処理が行わ
れる。

ステップＳ４において、距離差計算部６ｌにおいて、隣
合う文字の距離の差分を計算する。そして、ステップＳ
５において、平均並びに分散計算部６２で距離差の平均
および分散の計算を行ない１　０ステップＳ６に進む。

ステップＳ６においては、絞り込み可否判定部６３で、
その平均値と分散とをもとに、距離差の極端に大きいも
のがあるかどうかを判定する。

上述した所定の距離差のものが存在する場合にはステッ
プＳ７へ進む。ステップＳ７では、候補文字分離部６４
で、最大の距離差のところで分割し、それ以上の距離の
文字候補は棄却し、そして、動作を終了する。

一方、距離差のものがない場合には、ステップＳ８へ進
み、第１次候補文字絞り処理で選別された、文字をその
まま候補文字として採用し、そして、動作を終了する。

（ト）発明の効果以上説明したように本発明によれば、文字認識精度を損
なうことなくゝ、大幅に候補文字を絞ることができ、修
正時において、使用者の候補文字選択の繁雑さを軽減で
きる。また、認識後処理を行う場合にも、候補文字を減
少させることで、単語照合の組合せの数が減って、処理
の高速化と高精１１度化が可能である。

【図面の簡単な説明】

第１図は本発明の概念図、第２図は本発明の実施例を示
す構成図、第３図は本発明における処理の流れ図である
。２・・・パターン間距離算出部、３・・・標準パターン
辞書、４・・・距離順並び替え部、５・・一第１次候補
文字絞り部、６・・・第２次候補文字絞り部。１２第２図入力文字パターン特開平３−１６１８９０　（５）第３図１１Ｍ＆

Claims

【特許請求の範囲】

（１）各文字カテゴリ毎の標準字体をもつ標準パターン
辞書、入力された文字パターンと上記標準パターン辞書に登録
されている文字種との間の標準パターン間距離を算出す
るパターン間距離算出部、この算出部にて算出された距離の小さい順に文字を並べ
替える距離順並べ替え部、候補文字をおおまかに限定する第１次候補文字絞り部、並べ替え後の隣合う文字の間の距離差を算出する距離差
計算部と距離差の平均並びに分散を計算する平均・分散
計算部と候補文字の絞り込みの可否を判定する絞り込み
可否判定部と最大距離差のところで、候補文字とそれ以
外に分割する候補文字分離部と、を備えてなる第２次候
補文字絞り部、とを具備し、距離差の最大となるところを見つけることにより、それ
より距離の小さい文字を候補文字として残し、それ以外
は棄却することを特徴とする文字認識装置。