JPS5995682A - 文字認識後処理方式 - Google Patents

文字認識後処理方式

Info

Publication number
JPS5995682A
JPS5995682A JP57206452A JP20645282A JPS5995682A JP S5995682 A JPS5995682 A JP S5995682A JP 57206452 A JP57206452 A JP 57206452A JP 20645282 A JP20645282 A JP 20645282A JP S5995682 A JPS5995682 A JP S5995682A
Authority
JP
Japan
Prior art keywords
character
characters
candidate
input
identified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP57206452A
Other languages
English (en)
Inventor
Koichi Ejiri
公一 江尻
Hajime Sato
元 佐藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP57206452A priority Critical patent/JPS5995682A/ja
Publication of JPS5995682A publication Critical patent/JPS5995682A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔技術分野〕 本発明は文字認識に関し、更に詳細には、1文字率位の
文字認識処理の後に、同処理の結果に基いて入力文字を
最終的に同定するための文字g識後処理方式に関する。
〔従来技術〕
文字認識装置に?いては、一般に、入力文字からストロ
ーク等の特徴を抽出し、それを辞書内の各文字の特徴と
比較することにより、入力文字に対する1つ以上の候補
文字を同定するという処理を行う。しかし、このような
1文字率位の文字認識処理では、類似文字を高精度で識
別できない場合がある。例えば、英文字と数字の場合に
限っても、英文字0と数字01英文字l(工/I/)と
数字1、英文字q(キュー)と数字9等はしばしば識別
が困難となる。このような類似文字の組合せは、マルチ
フォント文字を扱う場合は更に増加する。
前記のような類似文字の識別困難を克服する従来技術と
しては、単語単位の出現頻度を利用する方式(特公昭4
5−23296号°゛文字認識装置゛)や、前後の文字
の接続頻度を利用する方式(特公昭56−19658号
“文字フィールド識別装置”)が知られている。しかし
前者は、候補文字のすべての組合せに対して単語の出現
頻度を調べる関係上、処理時間が長くなるという問題が
ある。また後者は、単語または文字列の先頭から順次決
定して行くため、最初に不確定の文字があると、その後
の判定を誤るという問題がある。
〔目的〕
本発明は前記の如き問題点を解消するために、文字列中
の認識し易い文字を核とし、それとの接続頻度を利用し
て残りの文字を順に同定して行くようにした文字認識後
処理方式を提供することを目的とするものである。
〔実施例〕
以下、図面を参照しながら、本発明を実施例により詳細
に説明する。
実施例1 第1図は文字認識後処理の流れ図である。図示の処理に
先行して、J文字単位の公知の文字認識処理が行われ、
各入力文字に対する第1、第2候補文字とそれぞれの入
力文字からの距*r、、r2(特徴ベクトル間の距離)
が選定され、記憶装置に得られている。
第1図において、ステップ1〜8は、一括して認識すべ
き入力文字列(例えば単語)を切り出し、それぞれの候
補文字と距離を取り込む処理段階であり、各ステップは
以下の通りである。
ステップ1:文字数のカウンタNをクリアする。
ステップ2:1つの入力文字に対する第1、第2候補文
字とその距離r1、r2を読み込む。
ステップ3:カウンタNに1を加算する。
ステップ4:読み込んだ入力文字がブランク文字か判定
する。
ステップ5:カウンタNが2未満か判定する。
ステップ6:読み込んだ入力文字の第1、第2候補文字
の距離r1、r2が近いか判定する。具体的には、候補
文字間の距離の差jr=r2−r、がある閾値(例えば
io )を越えるか調べ、越える場合は「遠い」、越え
ない場合は「近い」と判定する。
ステップ7:読み込んだ入力文字の第2候補文字を消去
する。つまり、Δrが大きい場合、その入力文字が第1
候補文字である確度が高いから、第2候補文字は1医袖
から外す。
ステップ8:カウンタNが最大値NM未清か判定する。
以上の説明から明らかなように、ステップ1〜8により
、2字以上のブランク文字で区切らねたNM字未満の連
続した入力文字の列を切り出し、また第1候補文字であ
る可能性の高い入力文字については、その第2候補文字
を消去する。尚、NM字以上の入力文字列は、その先頭
からNM@目の文字で強制的に切り出す。
以上のようにして切り出されたNM字以下の入力文字列
について、認識を実行するのがステップ9〜11であり
、以下その内容を説明する。
ステップ9:入力文字列のうち、第1候補文字のみ残っ
ている(第2候補文字を消去I−だ)入力文字は、その
第1候補文字と同定する。向、いずれの入力文字も第2
候補文字が消去されずに残っている場合は、第1、第2
候補文字の距離差jr=r2−r1が最大の入力文字を
捜し、それをその第1候補文字と同定する。
ステップlOニステップ9または同ステップlOで同定
された入力文字と、それに隣接する未同定の入力文字の
第1、第2候補文字との接続頻度を調べ、その人力文字
を接続頻度の高い方の候補文字と同定する。
ステップll:入力文字列中の全文字が同定されたか判
定する。未同定の入力文字が桟っていればステップlO
に戻り、残っていなければステップ1から矢の入力文字
列の処理を開始する。
第2図は、英文字について調べた接続頻度の一覧図であ
る。ただし総サンプル数は28405組であり、大文字
と小文字の区別はしてない。また、S1T、U、W、X
、Zは示してない。この図は、例えばERと接続する頻
度はEの行とRの行の交差位置の値349、REと接続
する頻度はR1の行と旦の行の交差位置の値405、と
いうように用いる。
次に、入力文字列として単語1evelが切り出された
場合を例に、前記の処理を説明する。
1文字単位の文字認識処理により、第3図(a)に示す
ように各入力文字の第1、第2候補文字が選定され、そ
れぞれの第1、第2候補文字間の距離Δrが同図の如く
であったとする。
jrが大きい(例えば」0以上)の入力文字については
、第1図のステップ7で第2候補文字が消去される。し
たがって、ステップ9において入力文字列は、第3図の
■のように中央の3文字が先ず同定される。
ステップ10で、先頭の入力文字の第1、第2快補文字
1、■と、2番目の同定済み入力文字eとの接続頻度が
調べられる。1eの接続頻度は第2図に示してないが、
英語単語を想定しているので、Ieの接続頻度(第2図
から96)に比べはるかに低い。したがって、先頭Q入
゛力文牢はその第2候補文字lと同定され、入力文字列
は第3図(b)の■のように最終の文字を残してle 
ve−と認識される。
最終入力文字も同様で、elとelの接続頻度は前者の
組合せの方が高いので、lと同定され、第3図(b)の
■に示すように入力文字列は1evelと認識される。
因みに、この入力文字列について、第1候補文字のみ選
んだ場合、第3図(C)に示すように1evelと誤認
識される。また、特公昭56−19658号の文字の接
続頻度のみにより先頭から順に同定する方式の場合、先
ず1e−−−と同定され、次にeとの接続頻度の高いr
(第2図から、evよりerO方が接続H度がはるかに
高い)が選ばれ、1er−−と同定され、最終的に褐3
図(C)のように1−erelと誤識されてしまう。特
公昭45−23296号の単語の出現頻度による方式の
場合は、第3図(e)に示す如く、1erel、1cr
el、1evel、・・・というように、25=32通
りもの組合せく文字数が多ければ組合せ数は更に多くな
る)について調べなければならず、最終的な認識結果を
得るまでに長い時間がかかる。
実施例2 本実施例は、第1、第2候補文字に必要に応じて1つ以
上の可能文字ヲ追加して候補範囲を拡大してから、最終
的な同定を行う例であり、その処理の流れを第4図に示
す。向、第1図と同様なステップは同一符号を付しであ
る。
ステップ1.2.3.4.5.7.8.9.11は第1
図の対応ステップと同じである。
ステップ20:第1図のステップ6と同様であるが、第
1、第2候補文字間の距離7 r=r2− r、そのも
のの値を判定する代りに、P = ”/rの値かあす る閾値以上であるか判定している。このP値が太きいほ
ど、第1候補文字である可能性が高い。
ステップ21:追加されたステップである。このステッ
プでは、第1、第2候補文字のほかに、その入力文字で
ある可能性の高い1つ以上の可能文字を候補文字として
追加する。この可能文字は、第1、第2候補文字によっ
て予め決めることかできる。英数字(記号を含む)を対
象とした場合、可能文字は第5図を参照して選ぶことが
できる。
ステップ22:第1図のステップ10と同様であるが、
追加された可能文字についても接続頻度を調べる点が異
なる。
次に、入力文字列として単@ 5Outher口が切り
出された場合を例に、処理を説明する。
各人力文字の第1、第2恢補文字が第6図のように選定
され、それぞれのPIiiが同図の如くであったとする
(尚、先頭から4.5.6査目の入力文字については跋
当する第2候補文字が無かったとする)。P値の小さな
先頭と2査目の入力文字については、ステップ21で第
5図にしたがって、第6図に示すような可能文字が追加
選定される。
ステップ9において、第1候補文字のみの4.5.6番
目の入力文字が同定される。したかつて、この段階で入
力文字列は−−−t h e −一と認識される。
ステップ22において、6番目の同定済み入力文字eと
、7番目の入力文字の第1、第2候補文字v、rの組合
せev、erの接続頻度が調べられる。erの接続頻度
の方が高いから(第2図参照)、7番目の入力文字はr
と同定され、入力文字列は−−−t h e r−一と
認識される。3番目の入力文字の候補文字u、vと同定
済みの4査目の入力文字tとの組合せut、vtの接続
頻度が調べ、・3番目の入力文字がUと同定される。こ
の段階で、入力文字列は−−u t h e r−と認
識される。最終文字も同様にnと同定される。次に、2
査目の入力文字は、その第1、第2候補文字O(ゼロ)
、O(オー)、可能文字υ、Qと、3番目の同定済み入
力文字Uとの組合せQu、Ou、DuSQuの接続頻度
が調べられ、Oと同定される。同様にして先頭の入力文
字はSと同定され、入力文字列は最終的に5outhe
rnと認識される。
本実施例は、候補文字が2つだけでは不足するような種
類の文字、例えば漢字のg鍼を行う場合に好適、である
以上の説明では、未同定の入力文字は、その削または後
に隣接する同定済み入力文字との接続頻度のみから同定
したが、前後に同定済み文字が隣接する場合には、前後
それぞれの隣接文字との間で別々に接続頻度が最高の候
補文字を選び、選んだ候補文字が相違するならば、接続
頻度が高い万の候補文字を選び、それに同定するように
してもよい。
例によって説明しよう。
入力文字列として単@ E N G L A N Dが
切り出され、候補文字とP値が第7図に示す如くである
とする。第1候補文字の6の入力文字はそれに同定され
る。したがって、先ず入力文字タリはENG−L −N
−と認識される。5番目の入力文字はP値が犬ぎいから
、第1候補文字Aと同定され、ENG−LAN−まで認
識される。3査目と最後の入力文字はP値が小さく、接
続J)j4度を調べる必要がある(ここでは、説明を簡
単にするため、可能文字は追加選定されないものとする
)。最後の人力文字の第1、第2候補文字D10(セロ
)と、前隣りの同定済み入力文字Nとの接続頻度H(N
、D)、H(N、0)は前者が大きいので、最後の入力
文字はDと同定される。これで、EN−LAN Dまで
認識できた。
3番目の入力文字は、その前後とも同定済みである。そ
れで、前隣りの入力文字へと、第1、第2候補文字C,
Gの接続頻度は、第2図からi′1(N、C)=79、
H(N、G)=202となり、一応Gが候補として選ば
れる。一方、後隣りの入力文字りとの接続頻度は、H(
C,L)=19、)((G。
L)=4であり、Cが候補として選ばしる。この2つの
候補文字G、Cのうち、接続頻度はH(N、G))H(
C,1,)であるから、Gが最終的に選ばれ、3番目の
入力文字はGと同定される。か(して、入力文字列はE
NGLANDとg識される。
尚、実施例1のステップ」Oと、実施例2のステップ2
2において、同定済み文字と隣接する未同定の入力文字
の候補文字(0]′能文字含む。以下同様)との接続頻
度を調べ、最高の接続頻度となる候補文字を選んでも、
その接続頻度がある閾値(例えば10)を越えず、その
候補文字に同定すると誤認識の恐れがある場合もあり得
る。この問題を回避するには、ステップ10または四を
第8図に示すようなステップ30〜36から成る構成に
すると効果的である。即ち、未同定の入力文字のうちで
、P値の大きい入力文字の候補文字、 cl 、 (・
は未決を意味する)を準既決文字として選び、隣接する
未同定の入力文字の候補文字cl 、−、(または”j
+x )との組の接続頻度を調べ、接続頻度が最も高い
C′ とC′・ またはσ )の組を選び、その接続頻
度が胸J−IJ+1 ツブあ、35)。ある入力文字の既決文字C1と、隣接
する入力文字のすべての未決文字C′i−□、(または
Ci+、)との組の接続頻度を調べ、すべての組で接続
頻度が閾値鳴を下回わるならば、既決文字Ciを接続の
核としての候補文字から除き、いずれかの組で閾値HT
以上の接続頻度となれば、最大の接続頻度のql、、、
□、(またはC’i+s)を既決文字とする(ステップ
30〜36)。このようにして、未同定の入力文字のす
べてに対する既決文字が得られれば、それぞれの入力文
字はその既決文字と同定されたことになり、入力文字列
の認識を終了する。
前述の各実施例の処理は、ここまでの説明に基き、汎用
のプログラム処理装置または専用のハードウェアによっ
て容易に実行できることは明らかであるから、実行手段
の具体例についての説明は割愛する。尚、前記の第2図
と第5図に示す内容は予めテーブルとして用意しておき
、処理中に同テーブルを参照するのが一般に有利である
〔効果〕
以上に詳述した如く、本発明は入力文字列中の認識し易
い文字を核とし、接続頻度によって順次他の文字を同足
して行く方式であるから、前述したような従来方式より
も高速で確実な文字認識を行うことができる。
【図面の簡単な説明】
第1図は本発明の一実施例を示す処理流れ図、第2図は
接続頻度の一覧図、第3図は処理の一例を従来方式と対
比して示す説明図、第4図は本発明の他の一実施例を、
示す処理流れ図、第5図(a)、(b)は可能文字の選
定に用いる一覧図、第6図は処理の一例の説明図、第7
図は変形処理の説明図、第8図は第1図および第4図の
変形例を示す処理流れ図である。 オ8図

Claims (2)

    【特許請求の範囲】
  1. (1)文字認識装置において、1文字率位に入力文字に
    対する1つ以上の候補文字を選定する文字認識処理の後
    処理方式であって、第1の処理段階と、それに続く第2
    の処理段階とから成り、前記第1の処理段階では前記文
    字認識処理により所定以上の確度の候補文字が選定され
    た入力文字をその候補文字と同定し、前記第2の処理段
    階では、未同定の入力文字を、その候補文字のうち同人
    力文字に隣接する同定済み入力文字との接続頻度が最も
    高いものと同定し、連続する入力文字のすべてを同定す
    るまで前記=2の処理段階を繰り返えすことを特徴とす
    る文字認識処理方式。
  2. (2)前記文字認識処理で選定された候補文字の確度が
    所定より低い入力文字については、1つ以上の候補文字
    を追加選定してから前記第2の処理段階を行うことを特
    徴とする特許請求の範囲第1項記載の文字認識後処理方
    式。
JP57206452A 1982-11-25 1982-11-25 文字認識後処理方式 Pending JPS5995682A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP57206452A JPS5995682A (ja) 1982-11-25 1982-11-25 文字認識後処理方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57206452A JPS5995682A (ja) 1982-11-25 1982-11-25 文字認識後処理方式

Publications (1)

Publication Number Publication Date
JPS5995682A true JPS5995682A (ja) 1984-06-01

Family

ID=16523605

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57206452A Pending JPS5995682A (ja) 1982-11-25 1982-11-25 文字認識後処理方式

Country Status (1)

Country Link
JP (1) JPS5995682A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0593844A2 (en) * 1992-10-19 1994-04-27 Atr Auditory And Visual Perception Research Laboratories Character recognition system
EP0657840A2 (en) * 1993-12-10 1995-06-14 International Business Machines Corporation Method of, and apparatus for, character recognition through related spelling heuristics

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0593844A2 (en) * 1992-10-19 1994-04-27 Atr Auditory And Visual Perception Research Laboratories Character recognition system
EP0593844A3 (en) * 1992-10-19 1994-09-28 Atr Auditory Visual Perception Character recognition system
US6219449B1 (en) 1992-10-19 2001-04-17 Atr Auditory Character recognition system
EP0657840A2 (en) * 1993-12-10 1995-06-14 International Business Machines Corporation Method of, and apparatus for, character recognition through related spelling heuristics

Similar Documents

Publication Publication Date Title
US7171350B2 (en) Method for named-entity recognition and verification
Lehal et al. A shape based post processor for Gurmukhi OCR
JPS6120038B2 (ja)
JPS5995682A (ja) 文字認識後処理方式
JPS6262388B2 (ja)
JP2827066B2 (ja) 数字列混在文書の文字認識の後処理方法
JPH03154985A (ja) 最尤度単語認識方式
JP3151866B2 (ja) 英文字認識方法
JPS62285189A (ja) 文字認識後処理方式
JP2746345B2 (ja) 文字認識の後処理方法
Abdeen et al. Improved Arabic handwriting word segmentation approach using Random Forests
KR940007933B1 (ko) 사용자 독립형 온라인 한글문자 인식방법
JP2930996B2 (ja) 画像認識方法および画像認識装置
JP2685257B2 (ja) 認識方法
JPH0212482A (ja) 単語認識装置
JPH076213A (ja) 文字列認識装置
JPH0125106B2 (ja)
JPH04111186A (ja) 住所文字列に対する文字認識結果修正方法
JPH03189890A (ja) 複合語照合方法
JPS6252912B2 (ja)
JPS62206693A (ja) 認識装置における候補項選択方法
JPH08249427A (ja) 文字認識方法および装置
JPH031711B2 (ja)
JPS6275785A (ja) 文字認識装置
JPS5953986A (ja) 文字認識装置