JPS5995682A

JPS5995682A - 文字認識後処理方式

Info

Publication number: JPS5995682A
Application number: JP57206452A
Authority: JP
Inventors: Koichi Ejiri; 公一江尻; Hajime Sato; 元佐藤
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1982-11-25
Filing date: 1982-11-25
Publication date: 1984-06-01

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔技術分野〕本発明は文字認識に関し、更に詳細には、１文字率位の
文字認識処理の後に、同処理の結果に基いて入力文字を
最終的に同定するための文字ｇ識後処理方式に関する。

〔従来技術〕

文字認識装置に？いては、一般に、入力文字からストロ
ーク等の特徴を抽出し、それを辞書内の各文字の特徴と
比較することにより、入力文字に対する１つ以上の候補
文字を同定するという処理を行う。しかし、このような
１文字率位の文字認識処理では、類似文字を高精度で識
別できない場合がある。例えば、英文字と数字の場合に
限っても、英文字０と数字０１英文字ｌ（工／Ｉ／）と
数字１、英文字ｑ（キュー）と数字９等はしばしば識別
が困難となる。このような類似文字の組合せは、マルチ
フォント文字を扱う場合は更に増加する。

前記のような類似文字の識別困難を克服する従来技術と
しては、単語単位の出現頻度を利用する方式（特公昭４
５−２３２９６号°゛文字認識装置゛）や、前後の文字
の接続頻度を利用する方式（特公昭５６−１９６５８号
“文字フィールド識別装置”）が知られている。しかし
前者は、候補文字のすべての組合せに対して単語の出現
頻度を調べる関係上、処理時間が長くなるという問題が
ある。また後者は、単語または文字列の先頭から順次決
定して行くため、最初に不確定の文字があると、その後
の判定を誤るという問題がある。

〔目的〕

本発明は前記の如き問題点を解消するために、文字列中
の認識し易い文字を核とし、それとの接続頻度を利用し
て残りの文字を順に同定して行くようにした文字認識後
処理方式を提供することを目的とするものである。

〔実施例〕

以下、図面を参照しながら、本発明を実施例により詳細
に説明する。

実施例１第１図は文字認識後処理の流れ図である。図示の処理に
先行して、Ｊ文字単位の公知の文字認識処理が行われ、
各入力文字に対する第１、第２候補文字とそれぞれの入
力文字からの距＊ｒ、、ｒ２（特徴ベクトル間の距離）
が選定され、記憶装置に得られている。

第１図において、ステップ１〜８は、一括して認識すべ
き入力文字列（例えば単語）を切り出し、それぞれの候
補文字と距離を取り込む処理段階であり、各ステップは
以下の通りである。

ステップ１：文字数のカウンタＮをクリアする。

ステップ２：１つの入力文字に対する第１、第２候補文
字とその距離ｒ１、ｒ２を読み込む。

ステップ３：カウンタＮに１を加算する。

ステップ４：読み込んだ入力文字がブランク文字か判定
する。

ステップ５：カウンタＮが２未満か判定する。

ステップ６：読み込んだ入力文字の第１、第２候補文字
の距離ｒ１、ｒ２が近いか判定する。具体的には、候補
文字間の距離の差ｊｒ＝ｒ２−ｒ、がある閾値（例えば
ｉｏ　）を越えるか調べ、越える場合は「遠い」、越え
ない場合は「近い」と判定する。

ステップ７：読み込んだ入力文字の第２候補文字を消去
する。つまり、Δｒが大きい場合、その入力文字が第１
候補文字である確度が高いから、第２候補文字は１医袖
から外す。

ステップ８：カウンタＮが最大値ＮＭ未清か判定する。

以上の説明から明らかなように、ステップ１〜８により
、２字以上のブランク文字で区切らねたＮＭ字未満の連
続した入力文字の列を切り出し、また第１候補文字であ
る可能性の高い入力文字については、その第２候補文字
を消去する。尚、ＮＭ字以上の入力文字列は、その先頭
からＮＭ＠目の文字で強制的に切り出す。

以上のようにして切り出されたＮＭ字以下の入力文字列
について、認識を実行するのがステップ９〜１１であり
、以下その内容を説明する。

ステップ９：入力文字列のうち、第１候補文字のみ残っ
ている（第２候補文字を消去Ｉ−だ）入力文字は、その
第１候補文字と同定する。向、いずれの入力文字も第２
候補文字が消去されずに残っている場合は、第１、第２
候補文字の距離差ｊｒ＝ｒ２−ｒ１が最大の入力文字を
捜し、それをその第１候補文字と同定する。

ステップｌＯニステップ９または同ステップｌＯで同定
された入力文字と、それに隣接する未同定の入力文字の
第１、第２候補文字との接続頻度を調べ、その人力文字
を接続頻度の高い方の候補文字と同定する。

ステップｌｌ：入力文字列中の全文字が同定されたか判
定する。未同定の入力文字が桟っていればステップｌＯ
に戻り、残っていなければステップ１から矢の入力文字
列の処理を開始する。

第２図は、英文字について調べた接続頻度の一覧図であ
る。ただし総サンプル数は２８４０５組であり、大文字
と小文字の区別はしてない。また、Ｓ１Ｔ、Ｕ、Ｗ、Ｘ
、Ｚは示してない。この図は、例えばＥＲと接続する頻
度はＥの行とＲの行の交差位置の値３４９、ＲＥと接続
する頻度はＲ１の行と旦の行の交差位置の値４０５、と
いうように用いる。

次に、入力文字列として単語１ｅｖｅｌが切り出された
場合を例に、前記の処理を説明する。

１文字単位の文字認識処理により、第３図（ａ）に示す
ように各入力文字の第１、第２候補文字が選定され、そ
れぞれの第１、第２候補文字間の距離Δｒが同図の如く
であったとする。

ｊｒが大きい（例えば」０以上）の入力文字については
、第１図のステップ７で第２候補文字が消去される。し
たがって、ステップ９において入力文字列は、第３図の
■のように中央の３文字が先ず同定される。

ステップ１０で、先頭の入力文字の第１、第２快補文字
１、■と、２番目の同定済み入力文字ｅとの接続頻度が
調べられる。１ｅの接続頻度は第２図に示してないが、
英語単語を想定しているので、Ｉｅの接続頻度（第２図
から９６）に比べはるかに低い。したがって、先頭Ｑ入
゛力文牢はその第２候補文字ｌと同定され、入力文字列
は第３図（ｂ）の■のように最終の文字を残してｌｅ　
ｖｅ−と認識される。

最終入力文字も同様で、ｅｌとｅｌの接続頻度は前者の
組合せの方が高いので、ｌと同定され、第３図（ｂ）の
■に示すように入力文字列は１ｅｖｅｌと認識される。

因みに、この入力文字列について、第１候補文字のみ選
んだ場合、第３図（Ｃ）に示すように１ｅｖｅｌと誤認
識される。また、特公昭５６−１９６５８号の文字の接
続頻度のみにより先頭から順に同定する方式の場合、先
ず１ｅ−−−と同定され、次にｅとの接続頻度の高いｒ
（第２図から、ｅｖよりｅｒＯ方が接続Ｈ度がはるかに
高い）が選ばれ、１ｅｒ−−と同定され、最終的に褐３
図（Ｃ）のように１−ｅｒｅｌと誤識されてしまう。特
公昭４５−２３２９６号の単語の出現頻度による方式の
場合は、第３図（ｅ）に示す如く、１ｅｒｅｌ、１ｃｒ
ｅｌ、１ｅｖｅｌ、・・・というように、２５＝３２通
りもの組合せく文字数が多ければ組合せ数は更に多くな
る）について調べなければならず、最終的な認識結果を
得るまでに長い時間がかかる。

実施例２本実施例は、第１、第２候補文字に必要に応じて１つ以
上の可能文字ヲ追加して候補範囲を拡大してから、最終
的な同定を行う例であり、その処理の流れを第４図に示
す。向、第１図と同様なステップは同一符号を付しであ
る。

ステップ１．２．３．４．５．７．８．９．１１は第１
図の対応ステップと同じである。

ステップ２０：第１図のステップ６と同様であるが、第
１、第２候補文字間の距離７　ｒ＝ｒ２−　ｒ、そのも
のの値を判定する代りに、Ｐ　＝　”／ｒの値かあする閾値以上であるか判定している。このＰ値が太きいほ
ど、第１候補文字である可能性が高い。

ステップ２１：追加されたステップである。このステッ
プでは、第１、第２候補文字のほかに、その入力文字で
ある可能性の高い１つ以上の可能文字を候補文字として
追加する。この可能文字は、第１、第２候補文字によっ
て予め決めることかできる。英数字（記号を含む）を対
象とした場合、可能文字は第５図を参照して選ぶことが
できる。

ステップ２２：第１図のステップ１０と同様であるが、
追加された可能文字についても接続頻度を調べる点が異
なる。

次に、入力文字列として単＠　５Ｏｕｔｈｅｒ口が切り
出された場合を例に、処理を説明する。

各人力文字の第１、第２恢補文字が第６図のように選定
され、それぞれのＰＩｉｉが同図の如くであったとする
（尚、先頭から４．５．６査目の入力文字については跋
当する第２候補文字が無かったとする）。Ｐ値の小さな
先頭と２査目の入力文字については、ステップ２１で第
５図にしたがって、第６図に示すような可能文字が追加
選定される。

ステップ９において、第１候補文字のみの４．５．６番
目の入力文字が同定される。したかつて、この段階で入
力文字列は−−−ｔ　ｈ　ｅ　−一と認識される。

ステップ２２において、６番目の同定済み入力文字ｅと
、７番目の入力文字の第１、第２候補文字ｖ、ｒの組合
せｅｖ、ｅｒの接続頻度が調べられる。ｅｒの接続頻度
の方が高いから（第２図参照）、７番目の入力文字はｒ
と同定され、入力文字列は−−−ｔ　ｈ　ｅ　ｒ−一と
認識される。３番目の入力文字の候補文字ｕ、ｖと同定
済みの４査目の入力文字ｔとの組合せｕｔ、ｖｔの接続
頻度が調べ、・３番目の入力文字がＵと同定される。こ
の段階で、入力文字列は−−ｕ　ｔ　ｈ　ｅ　ｒ−と認
識される。最終文字も同様にｎと同定される。次に、２
査目の入力文字は、その第１、第２候補文字Ｏ（ゼロ）
、Ｏ（オー）、可能文字υ、Ｑと、３番目の同定済み入
力文字Ｕとの組合せＱｕ、Ｏｕ、ＤｕＳＱｕの接続頻度
が調べられ、Ｏと同定される。同様にして先頭の入力文
字はＳと同定され、入力文字列は最終的に５ｏｕｔｈｅ
ｒｎと認識される。

本実施例は、候補文字が２つだけでは不足するような種
類の文字、例えば漢字のｇ鍼を行う場合に好適、である
。

以上の説明では、未同定の入力文字は、その削または後
に隣接する同定済み入力文字との接続頻度のみから同定
したが、前後に同定済み文字が隣接する場合には、前後
それぞれの隣接文字との間で別々に接続頻度が最高の候
補文字を選び、選んだ候補文字が相違するならば、接続
頻度が高い万の候補文字を選び、それに同定するように
してもよい。

例によって説明しよう。

入力文字列として単＠　Ｅ　Ｎ　Ｇ　Ｌ　Ａ　Ｎ　Ｄが
切り出され、候補文字とＰ値が第７図に示す如くである
とする。第１候補文字の６の入力文字はそれに同定され
る。したがって、先ず入力文字タリはＥＮＧ−Ｌ　−Ｎ
−と認識される。５番目の入力文字はＰ値が犬ぎいから
、第１候補文字Ａと同定され、ＥＮＧ−ＬＡＮ−まで認
識される。３査目と最後の入力文字はＰ値が小さく、接
続Ｊ）ｊ４度を調べる必要がある（ここでは、説明を簡
単にするため、可能文字は追加選定されないものとする
）。最後の人力文字の第１、第２候補文字Ｄ１０（セロ
）と、前隣りの同定済み入力文字Ｎとの接続頻度Ｈ（Ｎ
、Ｄ）、Ｈ（Ｎ、０）は前者が大きいので、最後の入力
文字はＤと同定される。これで、ＥＮ−ＬＡＮ　Ｄまで
認識できた。

３番目の入力文字は、その前後とも同定済みである。そ
れで、前隣りの入力文字へと、第１、第２候補文字Ｃ，
Ｇの接続頻度は、第２図からｉ′１（Ｎ、Ｃ）＝７９、
Ｈ（Ｎ、Ｇ）＝２０２となり、一応Ｇが候補として選ば
れる。一方、後隣りの入力文字りとの接続頻度は、Ｈ（
Ｃ，Ｌ）＝１９、）（（Ｇ。

Ｌ）＝４であり、Ｃが候補として選ばしる。この２つの
候補文字Ｇ、Ｃのうち、接続頻度はＨ（Ｎ、Ｇ））Ｈ（
Ｃ，１，）であるから、Ｇが最終的に選ばれ、３番目の
入力文字はＧと同定される。か（して、入力文字列はＥ
ＮＧＬＡＮＤとｇ識される。

尚、実施例１のステップ」Ｏと、実施例２のステップ２
２において、同定済み文字と隣接する未同定の入力文字
の候補文字（０］′能文字含む。以下同様）との接続頻
度を調べ、最高の接続頻度となる候補文字を選んでも、
その接続頻度がある閾値（例えば１０）を越えず、その
候補文字に同定すると誤認識の恐れがある場合もあり得
る。この問題を回避するには、ステップ１０または四を
第８図に示すようなステップ３０〜３６から成る構成に
すると効果的である。即ち、未同定の入力文字のうちで
、Ｐ値の大きい入力文字の候補文字、　ｃｌ　、　（・
は未決を意味する）を準既決文字として選び、隣接する
未同定の入力文字の候補文字ｃｌ　、−、（または”ｊ
＋ｘ　）との組の接続頻度を調べ、接続頻度が最も高い
Ｃ′　とＣ′・　またはσ　）の組を選び、その接続頻
度が胸Ｊ−ＩＪ＋１ツブあ、３５）。ある入力文字の既決文字Ｃ１と、隣接
する入力文字のすべての未決文字Ｃ′ｉ−□、（または
Ｃｉ＋、）との組の接続頻度を調べ、すべての組で接続
頻度が閾値鳴を下回わるならば、既決文字Ｃｉを接続の
核としての候補文字から除き、いずれかの組で閾値ＨＴ
以上の接続頻度となれば、最大の接続頻度のｑｌ、、、
□、（またはＣ’ｉ＋ｓ）を既決文字とする（ステップ
３０〜３６）。このようにして、未同定の入力文字のす
べてに対する既決文字が得られれば、それぞれの入力文
字はその既決文字と同定されたことになり、入力文字列
の認識を終了する。

前述の各実施例の処理は、ここまでの説明に基き、汎用
のプログラム処理装置または専用のハードウェアによっ
て容易に実行できることは明らかであるから、実行手段
の具体例についての説明は割愛する。尚、前記の第２図
と第５図に示す内容は予めテーブルとして用意しておき
、処理中に同テーブルを参照するのが一般に有利である
。

〔効果〕

以上に詳述した如く、本発明は入力文字列中の認識し易
い文字を核とし、接続頻度によって順次他の文字を同足
して行く方式であるから、前述したような従来方式より
も高速で確実な文字認識を行うことができる。

【図面の簡単な説明】

第１図は本発明の一実施例を示す処理流れ図、第２図は
接続頻度の一覧図、第３図は処理の一例を従来方式と対
比して示す説明図、第４図は本発明の他の一実施例を、
示す処理流れ図、第５図（ａ）、（ｂ）は可能文字の選
定に用いる一覧図、第６図は処理の一例の説明図、第７
図は変形処理の説明図、第８図は第１図および第４図の
変形例を示す処理流れ図である。オ８図

Claims

【特許請求の範囲】

（１）文字認識装置において、１文字率位に入力文字に
対する１つ以上の候補文字を選定する文字認識処理の後
処理方式であって、第１の処理段階と、それに続く第２
の処理段階とから成り、前記第１の処理段階では前記文
字認識処理により所定以上の確度の候補文字が選定され
た入力文字をその候補文字と同定し、前記第２の処理段
階では、未同定の入力文字を、その候補文字のうち同人
力文字に隣接する同定済み入力文字との接続頻度が最も
高いものと同定し、連続する入力文字のすべてを同定す
るまで前記＝２の処理段階を繰り返えすことを特徴とす
る文字認識処理方式。
（２）前記文字認識処理で選定された候補文字の確度が
所定より低い入力文字については、１つ以上の候補文字
を追加選定してから前記第２の処理段階を行うことを特
徴とする特許請求の範囲第１項記載の文字認識後処理方
式。