JPS58214969A - 文字読取装置 - Google Patents

文字読取装置

Info

Publication number
JPS58214969A
JPS58214969A JP57098822A JP9882282A JPS58214969A JP S58214969 A JPS58214969 A JP S58214969A JP 57098822 A JP57098822 A JP 57098822A JP 9882282 A JP9882282 A JP 9882282A JP S58214969 A JPS58214969 A JP S58214969A
Authority
JP
Japan
Prior art keywords
character
pitch
category
block
positions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP57098822A
Other languages
English (en)
Inventor
Yoshitake Tsuji
辻 善丈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp, Nippon Electric Co Ltd filed Critical NEC Corp
Priority to JP57098822A priority Critical patent/JPS58214969A/ja
Publication of JPS58214969A publication Critical patent/JPS58214969A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 本発明は文字読取装置、特に文字枠等の制限を持たない
紙面上の文字列イメージの分離ミスによる文字の読取り
を補償する文字読取装置に関するものである。
従来、印字あるいは手書き文字を光学的に読み取る装置
(以下OCRと称す)において、英数字及びカタカナを
対象とするものはすでに実用化されており、最近では、
漢字を読み取ることも可能となっている。
しかしこのようなOCR,における読取対象も、種々な
印刷文字や品質を持つ郵便物や文書等の文字枠指定のな
いものとすると、隣接文字イメージの接触や印字ぶれに
よる文字ピッチの変化等によって、正しく文字を分離す
ることが困難な場合が生じ、それ故、文字読取精度の低
下を招く。
ところで、一般に、郵便物などの紙面上の個々の文字ピ
ッチは、等ピッチで印字される場合が多いため、紙面上
の複数個の文字塊イメージから、統計的な分布等を用い
ておおよその個々の文字ピッチの推定を行なうことがで
きる。
そこで、本発明の目的は、前述した従来の欠点である文
字接触による不正確な文字分離による読取精度の低下を
、紙面上の複数個の文字塊イメージより統計的に推定さ
れた文字ピッチ(以下、平均ピッチと呼ぶ)を用いて複
数個の分離可能位置を求め1分離可能な複数通りの分離
文字イメージ列を生成し、文字識別の結果得られる複数
通りの文字カテゴリ列の平均信頼度のうち、最大の平均
信頼度を有する文字カテゴリ列を読取り結果として出力
することによって、複雑な文字分離処理や文字識別処理
を考えることなく、容易に、従来の欠点を解決した文字
読取装置を提供することができる。
本発明によれば、紙面上に記載された文字列イメージを
走査し、文字単位に分離した後、予め用意した文字識別
辞書と照合することによ−で文字カテゴリを得、る文字
読取装置において、2値量子化した文字列イメージを白
ビツト垂直列に囲まれた複数個の文字塊に分割し、複数
個の文字塊のピッチPiを得る手段と、複数個の文字塊
のピッチPiから文字列イメージの個々の文字の平均ピ
ッチPm f得る平均ピッチ抽出手段と、文字塊のピッ
チPiが平均ピッチPmより大なる場合、文字塊のピッ
チP(が平均ピッチPyaの1倍(%=2゜3、・・・
)に近かければ、文字塊のピ・ソチPiを九で除算する
ことによって、文字塊におけるn個の等分割位置Pi、
j(j=1・−・n)を得る等ピッチ推定手段と、等分
割位置Pi、jから前記文字塊を両方向に垂直走査し、
一定特容幅内に1最も黒ビットの少ない垂直列位置Pi
、j+△j、及びPi、j−Δjt(以下、文字分離可
能位置と称す)を得る手段と、等分割位置Pi、j及び
文字分離可能位Wt、Pt、j+Δj3、Pi、j−△
ハを用いて、ビ・ツチPiを持つ文字塊を、慣通υの可
能な複数個の文字イメージに分割する候補文字イメージ
抽出列手段と、文字イメージに対し、文字識別辞書を用
いて、文字イメージを識別し、識別結果として、文字カ
テゴリ及び文字カテゴリの信頼度を出力する文字識別手
段と、候補文字イメージ抽出手段によって得られた複数
個の文字イメージを、順次、文字識別手段において識別
し、複数個の文字イメージに対応する文字カテゴリ列の
平均信頼度を得る手段と、m通りの可能な複数個の文字
イメージに対して、それぞれ平均信頼度を求め%気侭の
平均信頼度のうち、最大の平均信頼度を有する複数個の
文字イメージに対応する文字カテゴリ列を文字塊に対応
する読取結果とする手段とを有することを特徴とする文
字読取装置が得られる。
以下本発明について具体的実施例を示す図を参照して説
明する。
第1図は、等文字ピッチを持つ2値鍬子化された英文字
列イメージにおける文字塊の一例を示したものである。
図において、斜線部で示した文字塊“Han“ //S
“、0”triそれぞれピッチPI。
P、、P、を持つ。文字の接触が生じた文字塊″Ran
“のピッチP1i!、−文字として得られた文字塊″S
″。
“O“のピッチP、、P、に比べて、3倍程度の大きさ
となる。尚、図中点線は、各文字塊が白ビツト垂直列で
囲まれていることを示すためのものであシ、このような
文字塊を抽出する手法は、例えば同一出願人による特願
昭56−27512号明細書で示されている技術を用い
て求めることができる。前述したような複数個の文字塊
から一文字の平均ピッチの算出は、予めOCRの読取対
象とする文字の可能な文字ピッチ範囲における任意の文
字ピッチPmに対して、前述した複数個の文字塊のピッ
チが、前述した文字ピッチPm付近に最も多く現われれ
ば1文字ピッチPmを平均ピッチとする方法や前述した
複数個の文字塊ピッチの算術平均より算出する方法等が
考えられ、公知の技術を用いて求めることができる。
第2図は、文字塊より文字分離可能位置を検出する方法
の一例を示したものである。図において、斜線部で示し
た文字塊“M i 8 ”は、文字の接触を生じたため
1文字塊のピッチP4ハ、前述した平均ピッチPtnよ
り大きくなる。
尚、図に示した文字ピッチP4は、平均ピ・ソチPmP
m         P m に対して、2P慣+  2 ≦P4 (3Ptrc +
  2  を満P 。
足する場合(即ち、丁−〒3となる場合)を示している
図において、等分割位置11. 、T4は文字塊のピッ
チP4を3つに分割した位置である。等分割位置ハから
図中へτで示した一定許容幅内、左右方向に、文字塊イ
メージを走査し、最も黒ビ・ントの数が少ない垂1a列
位置ll111及び′v、2を検出し、文字分離可能位
置とする。等分割位置T、がら同様にして、文字分離可
能位置Ill、、及び1゛2.が得られる。このように
して求めた等分割位置及び文字分離可能位置を用いて、
文字塊“M i 8“の文字分離が3通シに行なわれる
。即ち、等分割位置T+及びT、を用いる場合、文字分
離可能位置′V1.及び711.。
を用いる場合、文字分離可能位置′r12及びT2.を
用いる場合である。
尚、第2図で示した文字分離可能位置Ill、、及びT
ttは、予め設定された範囲内にある、ため統合され、
どちらか一方の垂直列位置(例えば、1゛、I とする
)によって代表される。
第3図は、接触を含む文字塊に対して複数連υの文字塊
の分離イメージ列を得るための具体的一実施例を示す論
理ブロック図である。
】は走査装置でろ!7%紙面上の印字又は手書きされた
文字列を光学的に走査して、電気信号に変換し、2値に
M子化した文字列イメージを順次、文字列イメージメモ
リ2へ書き込む。31−を文字塊抽出装置であり、文字
列イメージメモリ2に格納された文字列イメージから白
ビットで矩形状に囲まれた文字塊を順次検出し、各文字
塊の始娼位置及び大きさを文字塊位置レジスタ4へ格納
する。
尚、文字塊の大きさに、文字塊のピッチ及び高さを表わ
すものと畔る。平均ピッチ算出回路5は、複数個の文字
塊のピッチを順次、文字塊位置レジスタ4から読み出し
、前述したように平均ピッチPtnを算出して、平均ピ
ッチレジスタ6へ格納する。平均ピッチが算出されると
%制御装置40によって、平均ピッチより大なるピッチ
を持つ文字塊の大きさを順次、文字塊位置レジスタ4か
ら読み出し接触文字塊位置レジスタ7へ格納すると共に
、文字列イメージメモリ2から対応する文字塊イメージ
を接触文字塊メモリ11へ、+1a次転送する。等ピッ
チ分割回路8Vi、接触文字塊位置レジスタ7から文字
塊のピッチPi’(、但し、t−1・・・kであり、k
け、接触を含む文字塊の個数を表わす)を読み出し、平
均ピ・ソチPmで除算することによって、前述した文字
塊に含まれる文字数n(但しn≧2)を推定した後1文
字塊のピッチPjf:s個に等分割することによって、
文字塊に含丑れる複数個の文字の等分割位置Pij(但
し、j=1・・・九であり、Pi、n = Pi を満
タス)ヲ、K出り、、等分割位置レジスタ9へ格納する
等分割位置レジスタ9へ等分割位1fiPj、jが格納
されると、順次、レジスタ10へ等分割位置Ps、j 
(j=1・・・tL)を読み出す。レジスタ10に値が
格納されると、制御装置40は、ビ・ソチPiを持つ文
字塊の高さを接触文字位置レジスタ7から入力し、接触
文字塊メモリ11に格納されたピッチPiを持つ文字塊
イメージを、レジスタ1゜の内容である等分割位置Pi
、jから始めて、最初に右方向に順次、一定許容幅Δτ
内の一垂直列イメージを、文字塊の高さ分だけビット計
数回路12へ転送する。ビット計数回路121′i、−
垂直列イメージの黒ビットの個数を計数し、比較回路1
3へ転送する。比較回路13は、最小黒ビツト数記憶レ
ジスタ14(但し、初期値としてセット可能な黒ビット
の最大n数がセットされているものとする。)とビット
計数回路12の出力である一垂直列イメージの黒ビット
の個数とを比較し、ビット計数回路12の出力が小さけ
れば、ビット計数回路12の出力を最小黒ビツト数記憶
レジスタ14へ格納し、信号線131より検知信号を制
御装置40へ送る。検知信号を制御装置4oが受けとる
と、ビット計数回路12へ出力したー垂直列イメージの
位置Pi、j+△jをレジスタ15へ転送する。
制御装置40によって、右方向K、順次、一定許容幅Δ
τ分の一垂直列イメージがビット計数回路12へ転送京
れ、比較回路12で比較された後、制御装置40は、レ
ジスタ15の内容を、等分割位RPi、jに対して、右
方向に見た文字分離可能位置P i 、 j+Δj+と
して、分離可能位置レジスタ16へ格納する。同様にし
て、制御装ft40によって等分割位置Pi、jから始
めて、左方向に、順次、゛一定許容幅Δτ内の一垂直列
イメージをビット計数回路へ転送し、等分割位置Pi、
jに対して、左方向に見た文字分離可能位置Pi、j−
△j、を検出し、分離可能位置レジスタ16へ格納する
次に、等分割位置pi、j+1をレジスタ10へ読み出
し、同様にし、で、文字分離可能位置を検出する動作を
繰り返すことによって、ピッチPiを持つ文字塊の文字
分離可能位置が、分離可能位置レジスタ16に格納され
る。
尚、ピッチPiを持つ文字塊の等分割位f!、Pj、j
(j=i=i・・・n)を格納した等分割位置レジスタ
9の内容も制御装置40によって、分離可能位置レジス
タへ格納する。
以上の動作を、接触文字塊位置レジスタ7へ格納された
文字塊のピッチPiに対して、i=1からKまで繰り返
〆すことにより、接触が生じたに個の文字塊に対する文
字分離可能位置を分離可能位1ftレジスタ16へ格納
することがで入る。
番号17で示される比較回路、同3oで示される文字パ
ターンメモリについては後述する。
第4図は本発明における具体的一実施例を示す論理ブロ
ック図である。第3図において説明した分離可能位置レ
ジスタ16に、接触した文字塊における文字分離可能位
置及び等分割位置の格納が終了すると、ピッチPiを持
つ文字塊の文字分離可能位置P s + j+Δj1及
びPi、j−Δit (但し、j=1・・・t@、i=
l・・・k)を順次、比較回路17へ転送する。比較回
路17ば、2つの文字分離可能位置Pi、j+lsj、
及びpt、j−Δj、が許容範囲内であるか否かを検知
し、許容範囲内であれば、統合信号を信号線171より
出方する。制御装置40は比較回路17より出力される
統合信号を受けとすると。
文字分離可能位置Pi、j+Δj、及びP s + j
−Δj、のどちらか一方を分離可能位置レジスタ16よ
シ消去する。
尚、文字分離可能位置Pi、j+△ハ及びP i 、 
j−△j。
の統合は等分割位置Pi、jに対して、行なっても良°
い。更に、文字分離可能位置Pi、j+Δj、及びPi
j−△j、の統合は第3図で示したそれぞれの最小黒ビ
ット数記憶レジスタの内容を用すで、どちらを消去する
かを決定しても良い。
次に、制御装置40は分離可能位置レジスタ】6からピ
ッチpi(==i・・・K)を持つ文字塊の等分割位置
Pi、j (j=1・・・tL)を用いて、第3図で示
した接触文字塊メモリから読み出したピッチPiを持つ
文字塊イメージをn個に分離して、n個の文字イメージ
を生成し、順次、文字パターンメモIJ30へ書き込む
文字識別装置20は、文字パターンメモI730から順
次、出力される文字イメージに対して、予め用意された
文字識別辞書メモリ21に格納された文字識別のための
特徴を用いて、所定の文字カテゴリ(但し、リジェクト
も含む)及び出方した文字カテゴIJ [おける確から
しさく以下、信頼度と呼び)を、それぞれ候補文字カテ
ゴリ列レジメタ2,2及び信頼度列レジスタ23へ順次
格納する。
尚、前述したりジェツトの信頼度は第−位であった文字
カテゴリの信頼度を用いるとする。また、信頼度は、文
字識別装置において前述した特徴との照合結果得られる
入力文字イメージに対する距離や類似度等に相当するも
のである。
24は、累積和算出回路であり、信頼度列レジスタ23
から順次信頼度を読み出し、複数個の信頼度の和を求め
る。正規化回路26は、累積和算出回路24かり出力さ
れる複数個の信頼度の和を、累積和算回路24へ順次入
力した信頼度の個数で除算することにより平均信頼度を
算出する。
比較回路27は、最大平均信頼度レジスタ28(但し、
初期値として、0にリセットされている。)の内容と正
規化回路24から出力される平均信頼度と比較し、正規
化回路24から出力される平均信頼度が最大平均信頼度
レジスタ28の内容より大きければ、前述した平均信頼
度を最大平均信頼度レジスタ28へ転送し、信号線27
1より最大値検知信号を制御装置40へ送る。制御装置
40に、最大値検知信号を受けとると、候補文字レジス
タ22の複数個の文字カテゴリを順次、接触文字カデゴ
リ列レジスタ25へ1き込む。
次に、制御装置40は、分離可能位置レジスタ16から
ピッチPiを持つ文字塊における複数個の文字分離可能
位置を用いて、毒通りの文字可能位置の系列を求め、ピ
ッチPiを持つ文字塊をm通りの文字イメージの系列を
生成する。各文字イメージの系列t;f、前述したよう
に、文字識別装置20、正規化回路26、比較回路27
によって、平均信頼度が順次評価され、最終的にピッチ
Piを持つ文字塊イメージに対応する文字カテゴリ列が
文字カテゴリ列レジスタ25にセットされる。
以上の操作をすべての接触を含む文字塊に対して行なわ
れる。尚、本発明において、紙面上にバリアプルピッチ
(Variable Pi tch )で記載された文
字列に接触が生じても、前述した許容範囲6丁を拡け、
可能な候補文字列イメージを生成することにより対処で
きることは言うまでもない。また、前述した可能な文字
分離位置の算出は、処理速度等から垂直列位置の黒ビツ
ト密度に基づいて決定されるが、黒ビットの変化量等の
情報を加えて決定することも可能である。
以上述べたように、本発明によって文字の接触が生じ、
文字切り出しが困難な場合でも、容易に対処できる文字
読取装置を実現することが可能となる。
【図面の簡単な説明】
第1図は、等文字ピッチを持つ2値量子化された英文字
列イメージにおける文字塊の一例を示す図である。 第2図は、文字塊J:9文字分離可能位置を検出する方
法の一例を示す図である。 第3図は、接触を含む文字塊に対して複数通りの文字塊
の分離イメージ列を得るための具体的一実施例を示す論
理ブロック図である。 第3図において、1は走査装置、2は文字列イメージメ
モリ、3は文字塊抽出装置% 4は文字塊位置レジスタ
、5は平均ピッチ算出回路% 6は平均ピッチレジスタ
、7は接触文字塊位置レジスタ、8は等ピッチ分割回路
、9は等分割位置レジスタ、10はレジスタ、11は接
触文字塊メモリ、12はビット計数回路、13は比較回
路、14は最小黒ビツト数記憶レジスタ、15iまレジ
スタ、16は分離ロエ能位置レジスタ、40は制御装置
である。 第4図は、本発明における具体的一実施例を示す論理ブ
ロック図である。 第4図において、17け比較回路、30iよ文字パター
ンメモリ、20は文字識別装置、2Hよ文字識別辞書メ
モリ% 22は候補文字カテゴリ列レジスタ、23は信
頼度列レジスタ、24は累積和算出回路、25は文字カ
テゴリ列レジスタ、26は正規化回路、27は比較回路
、28V;j最太平均第3図 ;+4図 9

Claims (1)

  1. 【特許請求の範囲】 紙面上に記載された文字列イメージを走査し、文字単位
    に分離した後、予め用意した文字識別辞書と照合するこ
    とに工って文字カテゴリを得る文字読取装置において%
     2値量子化した前記文字列イメージを白ビツト垂直列
    に囲まれた複数個の文字塊に分割し、複数個の前記文字
    塊のピッチPiを得る手段と、複数個の前記文字塊のピ
    ッチPiから前記文字列イメージの個々の文字の平均ピ
    ッチPmを得る平均ピッチ抽出手段と、前記文字塊のピ
    ッチPiが前記平均ピッチPmよシ太なる場合、前記文
    字塊のピッチPiが前記平均ピッチPfrLの3倍(s
    =2.3.・・・)に近かければ、前記文字塊のピッチ
    P(をnで除算することによって、前記文字塊における
    n個の等分割位置Pt、j (j=1・・?L)を得る
    等ピッチ推定手段と、前記等分割位置Pi、 jから前
    記文字塊を両方向に垂直走査し、一定許容幅内に、最も
    黒ビットの少ない垂直列位置Pi、j+Δj、及びPi
    、j−Δit (以下、文字分離可能位置。 と称す)を得る手段と、前記等分割位置Pi、j及び前
    記゛文字分離可能位置P $ l j+△j1%”’*
    j−Δj。 を用いて、前記ピッチp<を持つ文字塊を、m通りの可
    能な複数個の文字イメージに分割する候補文字イメージ
    列抽出手段と、前記文字イメージに対し、前記文字識別
    辞書を用いて、前記文字イメージを識別し、識別結果と
    して、文字カテゴリ及び前記文字カテゴリの信頼度を出
    力する文字識別手段と、前記候補文字イメージ抽出手段
    によって得られた前記複数個の文字イメージを順次、文
    字識別手段において、識別し、前記複数個の文字イメー
    ジに対応する文字カテゴリ列の平均信頼度を得る手段と
    、前記m通シの可能な複数個の文字イメージに対して、
    それぞれ平均信頼度を求め、m個の平均信頼度のうち、
    最大の平均信頼度を有する前記複数個の文字イメージに
    対応する文字力テゴリ列を前記文字塊に対応する読取結
    果とする手段とを有することを特徴とする文字読取装置
JP57098822A 1982-06-09 1982-06-09 文字読取装置 Pending JPS58214969A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP57098822A JPS58214969A (ja) 1982-06-09 1982-06-09 文字読取装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP57098822A JPS58214969A (ja) 1982-06-09 1982-06-09 文字読取装置

Publications (1)

Publication Number Publication Date
JPS58214969A true JPS58214969A (ja) 1983-12-14

Family

ID=14229992

Family Applications (1)

Application Number Title Priority Date Filing Date
JP57098822A Pending JPS58214969A (ja) 1982-06-09 1982-06-09 文字読取装置

Country Status (1)

Country Link
JP (1) JPS58214969A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59180783A (ja) * 1983-03-31 1984-10-13 Toshiba Corp 光学的文字読取装置
JPS63307593A (ja) * 1987-06-08 1988-12-15 Nec Corp 連続文字認識装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59180783A (ja) * 1983-03-31 1984-10-13 Toshiba Corp 光学的文字読取装置
JPS63307593A (ja) * 1987-06-08 1988-12-15 Nec Corp 連続文字認識装置

Similar Documents

Publication Publication Date Title
US4259661A (en) Apparatus and method for recognizing a pattern
US8306325B2 (en) Text character identification system and method thereof
US4516265A (en) Optical character reader
EP0621541B1 (en) Method and apparatus for automatic language determination
EP0220032A2 (en) Pattern classification means
EP0548893A2 (en) Character segmentation using an associative memory for optical character recognition
US6834121B2 (en) Apparatus for rough classification of words, method for rough classification of words, and record medium recording a control program thereof
EP0436819B1 (en) Handwriting recognition employing pairwise discriminant measures
US5375176A (en) Method and apparatus for automatic character type classification of European script documents
JP2005242579A (ja) 文書処理装置、文書処理方法、および文書処理プログラム
JPH0726836B2 (ja) テキスト方位決定方法
JPH05500129A (ja) 光学式文字認識のための行ごとのセグメント化及びしきい値設定
Kim et al. Word segmentation of printed text lines based on gap clustering and special symbol detection
JPS5991582A (ja) 文字読取装置
US5038391A (en) Optical character reader
CN109726722B (zh) 一种字符分割方法及装置
JPS58214969A (ja) 文字読取装置
US20070230793A1 (en) Method and apparatus for pattern matching processing
JPH0567237A (ja) 空白認識方法、空白認識装置、文字認識装置、英日翻 訳装置
US4607387A (en) Pattern check device
JP2000322514A (ja) パターン抽出装置及び文字切り出し装置
JP4221960B2 (ja) 帳票識別装置及びその識別方法
JPS6223350B2 (ja)
JP2778436B2 (ja) 文字切り出し装置
JPH05128308A (ja) 文字認識装置