JPS59158479A - 文字分離装置 - Google Patents

文字分離装置

Info

Publication number
JPS59158479A
JPS59158479A JP58033076A JP3307683A JPS59158479A JP S59158479 A JPS59158479 A JP S59158479A JP 58033076 A JP58033076 A JP 58033076A JP 3307683 A JP3307683 A JP 3307683A JP S59158479 A JPS59158479 A JP S59158479A
Authority
JP
Japan
Prior art keywords
character
width
block
class
average
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP58033076A
Other languages
English (en)
Other versions
JPH0259502B2 (ja
Inventor
Yoshitake Tsuji
辻 善丈
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp, Nippon Electric Co Ltd filed Critical NEC Corp
Priority to JP58033076A priority Critical patent/JPS59158479A/ja
Priority to DE8484102139T priority patent/DE3480667D1/de
Priority to EP84102139A priority patent/EP0120334B1/en
Priority to US06/585,130 priority patent/US4594732A/en
Publication of JPS59158479A publication Critical patent/JPS59158479A/ja
Publication of JPH0259502B2 publication Critical patent/JPH0259502B2/ja
Granted legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 本発明は、紙面上に記載された文字群イメージを、個々
の文字に分離する文字分離装置、特に文字間の接触が生
じる場合も含まれた不特定な文字ピッチを持つ文字群イ
メージにおける文字分離装置に関するものである。
各種印刷文字群を光学的に読み散る装置(以下OCRと
呼ぶ)において、一連の文字を認識する場合、各文字を
1字毎に分離して文字認識部に送出1 してやる必要が
ある。しかし、このような0C)1における読取対象も
不特定な文字ピッチや品質を持つ郵便物や文書のような
ものになると、通常のタイプライタ−等の印字の際に生
じる印字ぶわ1等によって、文字間の接触が生じること
は決してまれではないため、必ずしも相隣る各文字間を
機械的に直裁して分離できるとは言えない。
更に、上述したような広汎な適用範囲がLられると、予
め文字ピッチが分からないため、個々の(3) 文字幅が異なる紙面上の文字イメージから正確な文字ピ
ッチを求めることが困難となる。その結果、文字間の接
触を含む文字イメージを1文字単位に分離することは更
に困難な問題となる。一方、従来の技術として、予め与
えられる標準文字ピッチを規準として得られる分離可能
領域間で、文字部イメージを示す黒ビットの密度が極小
値となる分離方法等のように予め与えられる標準文字ピ
ッチに基づいた手法や同一出願人による特願昭49−7
5985号明細1(特公昭57−6626号公報)で示
されたように、郵便番号のように、文字数が予め既知で
あるような条件を利用した文字分離手法などがあるが、
いずれも上述したような条件下では、個々の文字を正し
く分離できない場合が生じる。
また、特公昭50−15096号公報で示されたような
文字イメージにおける黒ビツト白ビットの変化量に着目
した手法を適用しても、上述した条件下では、予め、分
離可能領域を推定できなければ、接融する文字イメージ
や1文字イメージの特徴によっては、不正確な分離が生
じることもあり、ま(4) た多くのパラメータ、を用いた複雑な演算回路が必要と
なる。
そこで、本発明の目的は、上述した問題点を解決するた
めに、白地で分離可能な複数個の文字イメージ(以下、
文字塊と呼ぶ)から得られる平均文字高さに基づいて、
−文字となり得る文字塊幅のおおよその範囲を設定し、
1文字幅クラスの初期情報を得た後、複数個の文字塊幅
に関する頻度情報を、可能なn個の文字幅クラスに順次
、クラスター化することtこよって、文字間の接触を含
む文字幅クラスの情報を得るようにした文字分離装置を
提供することにある。
本発明の第2の目的は、文字間の接触を含む文字幅クラ
スに属する文字塊内に含まれる文字数の予測を、隣接す
る文字塊クラスの平均文字幅を逐次修正しながら得た一
文字の平均文字幅に基づいて、行なうことによって、文
字間の接触を含む文字塊内に含まれる文字数の予測精度
を向上させるようにした文字分離装置を提供することに
ある。
本発明の第3の目的は前述した条件下でも文字(5) 間の接触を含む文字塊幅の分離を容易に可能にするとと
もζこ、1文字となる文字塊における不必要な文字分離
を避けることが可能な文字分離装置を提供することlこ
ある。
本発明により5ば、紙面上に記載された複数個の文字列
イメージを走査し、−文字単位に分離する文字分離装置
において、複数個の文字列イメージから白地で分離可能
な複数個の文字イメージ(以下、文字塊と呼ぶ)を抽出
し、文字塊幅と文字塊高さを検出する手段と、複数個の
文字塊高さから平均文字高さを算出する手段と、複数個
の文字塊幅に関する頻度情報を格納する頻度テーブルと
、平均文字高さに基づいて、−文字となり得る文字塊幅
の可能な範囲を抽出する手段と、頻度テーブル内の頻度
情報を用いて、一定許容幅で最頻度となる文字塊幅の上
、下限値U、Lと平均値μを、−文字となり得る文字塊
幅の可能な範囲内で検出し、1文字幅クラスC1の初期
情報とする手段と、1文字幅クラスC1の初期情報を用
いて、頻度テーブル内の文字塊幅に関する頻度情報を、
可能なn(6) 個の文字幅クラスC,、C,・・・Cn(但し、n≧1
)に、順次クラスター化し、文字幅クラスCi(但し、
i≧1)の上、下限値Ui 、 Liと平均値内を含む
情報を検出する文字塊分布クラスタ一手段と、文字幅ク
ラスCj((BL/、j≧2)に属する文字塊に含まれ
る文字数を文字幅クラスCj−,の平均値μ、−1と文
字幅クラスCj 、に属する文字塊に含まれる文字数l
j−+(但し、i+=1)に基づいて算出した1文字の
平均文字幅に基づいて、推定する文字数11G定手段と
、文字幅クラスCj(イリし、j〉2)に属する文字塊
幅を選択し、文字幅クラスCjの文字数lJに基づいて
、文字塊における一文字単位の分離推定位置を決定する
接触文字分離位置決定手段とを有する文字分離装置を提
供することができる。
以下、本発明における具体的一実施例を参照して説明す
る。
第1図は本発明が適用される文字列イメージの一部を示
した一例である。図において、斜線で示した白地で分離
可能な文字イメージ即ち文字塊を(7) 矩形領域で示しており、図中Vi 、Hi(i=l・・
・5)は、各文字塊の幅及び高さを示している。ここで
、文字塊幅V、、V、を持つ文字塊は文字間の接触によ
って、それぞれ、2文字、4文字を含んだ文字イメージ
となっているため、通常文字認識を行なうには、1文字
単位に分離する必要が生じる。この場合、個々の文字幅
は、使用されるフォントや文字カテゴリなどによりそれ
ぞれ異なり、更に文字ピッチが不特定となるため、文字
間の接触が生じた場合の分離位置を容易に求めることが
できないが、以下に述べるように本発明を適用すること
によっ°C容易に解決することができる。
第2図は、第1図で示したような紙面上の複数個の文字
塊幅の頻度分布の一例に基づいて本発明の詳細な説明す
るために示した図である。図中、複数個の文字塊1こ関
する頻度分布の横軸Vは、文字塊幅■の値を示しており
、縦軸NUMは任意の文字塊幅の値における文字塊の個
数、即ち、頻度値を示している。尚、図中、頻度分布は
通常用いられるタイプライタ−文字の一例を示したもの
で(8) ある。最初に図に示した頻度分布から1文字となり得る
可能な文字塊幅の区間A1を求める。ここで区間A1は
、第1図で示した複数個の文字塊高さH,、H,、H5
・・・の平均高さHmと、重み係数α、。
へ(但しα、〈〜)から設定することができる。
尚、平均高さHoは、複数個の文字高さの最大値に基づ
いて高さの上限値と下限値を設けて、一定の区間内の平
均高さとして算出しても良い。また、予め、文字ピッチ
が与えらnる場合には、与えらイ1.た文字ピッチも考
慮して、−文字となり得る文字塊幅の区間A1を限定す
ることも可能である。
次に、−文字となり得る文字塊幅の区間Al内で、一定
許容幅Δτ(図中Δτ=3)で最頻度を持つ区間A2を
求める。尚、図で示した区間A2を表わす情報は、その
下限値り1.上限値り、+2.平均値L1+1からなり
、図中C1で示した1文字幅クラスの初期情報となる。
次に、図で示した頻度分布をこ基づいて、前述した初期
情報から始めて、文字塊内に含まれる文字(9) 数が唯一に決定できる領域(以下、文字幅クラスと呼ぶ
)を順次抽出する。例えば、図ではC,、C。
及びC3が各文字幅クラス(但し、C1は1文字幅クラ
ス)であり、それぞれ、下限値り、 、 L、 、 L
、と上限値U、 、 U2. U、及び平均値μm、馬
、μ、を含む情報で表わされる。また、前述した文字幅
クラスの抽出処理にあたって、1文字幅クラスC1のみ
検出される場合、接触を含む文字塊(以下、接触文字塊
と呼ぶ)が含まれないことを意味する。
次に、1文字幅クラスC1以外の文字幅クラスCi (
i≧2)は、前述したように接触文字塊を含むため、ま
ず、文字幅クラスCiに属する接触文字塊内に含まれる
文字数1+ を後述する方法に基づいて算出することに
よって、接触文字塊のl!l−1個の分離位置を決定す
ることができる。
尚、以下の説明を行なうにあたり、図で示した区間Aの
下限値、上限値、平均値を文字幅クラスC1の初期情報
として、それぞれ、 L、、UTN−μ!Nで表わし、
前述した文字幅クラスC1(i≧1)の下限値、上限値
、平均値、文字幅クラスCiに属(10) する文字塊内に含まれる文字数をそれぞれ、Li。
Ui、μI 、 llとする。ここで、文字幅クラスC
7は、1文字幅クラスであるため、4:=lとなる。
第3図は、本発明の具体的一実施例を示す論理ブロック
図である。走査装置1は、紙面上の記載された文字列イ
メージを光学的に走査して、電気信号に変換し、2値量
子化後、文字列イメージメモリ2へ書き込む。3は、文
字塊抽出装置であり、文字列イメージメモリ2に格納さ
れた文字列イメージから文字塊を順次抽出し、各文字塊
の始端位置及び大きさを文字塊レジスタ4へ格納する。
尚、文字塊の大きさは、文字塊幅及び文字塊高さを表わ
すものとする。また、このような文字塊抽出装置3は、
例えば、同一出願人による特願昭56−27512号 
明細書で示されている技術を用いて求めることができる
文字塊レジスタ4に格納された複数個の文字塊幅は、制
御装置7へ、順次送られる。制御装置7は、順次転送さ
れる文字塊幅をメモリから構成される頻度テーブル5の
アドレスに変換し、変換したアドレスに対応する頻度テ
ーブル5の内容を、読み出し、イングリメントした後、
頻度テーブル5内の同一記憶場所に再度書き込まれる。
このようにして、頻度テーブル5内に文字列イメージメ
モリ2より抽出された文字塊幅Viの頻度値が、頻度テ
ーブル5のアドレスVi番地に格納されることによって
、第2図で示した文字塊幅に関する頻度分布が頻度テー
ブル5に格納されることになる。尚、頻度テーブル5は
、最初Oに初期化されているとする。一方、制御装置7
によって、文字塊レジスタ4に格納された複数個の文字
塊高さは、順次、平均高さ算出部51へ転送される。尚
、図中点線で示した5は、第2図で述べた1文字幅クラ
スC1の初期情報としての文字塊幅の下限値LI。
上限値UTN+平均値μTN  を算出する1文字幅ク
ラス初期情報抽出手段を示しており、平均高さ算出部5
1、乗算部52、定数レジスタ53.55および最頻度
文字幅算出部54から構成さnる。
平均高さ検出部51は、複数個の文字塊高さの平均値H
□(以下、平均文字高さと呼ぶ)を算出する。
尚、平均高さ検出部51において、複数個の文字塊高さ
の最大値を算出した後、リミッタ−を用いて一定区間を
設けた後、平均値H1nを算出する回路を用いても良い
。定数レジスタ53は、第2図で示した重み係数α8.
へ(但し、0〈α1〈へ)を予め格納する。乗算部52
は、平均文字高さ馬と重み係数へ及び偽 との乗算を行
ない、α1・Hffl及びαtHm(但し、αJ(−<
α、H−)  を算出する。乗算部52により算出され
たα1・馬及び%−H,,は、可能な一文字幅の区間を
表わすものであり、それぞれ、最頻度文字幅算出部54
へ転送される。定数レジスタ55は、一定許容幅Δτが
予め格納されている。
最頻度文字幅算出部54は可能な1文字幅の区間(a、
u−、偽H−)内に属する文字塊幅の頻度値を制御装置
7を介して、頻度テーブル6より読み出し、定数レジス
タ55の内容である一定許容幅Δτで最頻度値を持つ区
間、即ち前述した下限値”1 +上限値U、N、平均値
μINを算出し、1文字幅クラスC1の初期情報として
、初期情報レジスタ8へ格納する0 (13) 9は、文字幅分布クラスタ一手段であり、初期情報レジ
スタ8の内容に基づいて、第2図で示したようζこ可能
なn個の文字幅クラスC1v ”t t・・・Cn(但
し、n≧1)に、順次クラスター化し、文字幅クラスC
iの下限値Li1上限値Uiと平均値用を含む情報を抽
出し、文字幅クラス情報レジスタ10へ格納する。尚、
文字幅分布クラスタ一手段9の具体的な一実施例は後述
する。
11は、接触文字数推定手段であり、文字幅分布クラス
タ一手段9によって、接触文字塊があることを意味する
文字幅クラスC1(i≧2)が検出されると、文字幅ク
ラスクー情報レジスタ10の内容に基づいて、文字幅ク
ラスC1(i≧2)に属する文字塊に含まれる文字数4
(1≧2)を決定し、文字幅クラス文字数情報レジスタ
12へ順次格納する。
尚、接触文字数推定手段11は後述する。
以上の処理により、文字幅クラス情報レジスタ10には
各文字幅クラスCi (但し、i≧1)の下限値Li1
上限値Ui、平均値μm がセットされており、文字幅
クラス文字数情報レジスタ12には、(14) 各文字幅クラスCi (但し、i≧1)の文字数11(
(i l、 、l+は常に1であるため、セットされな
いとする)がセットされることになる。
13は、細挟部である。選択部13は文字塊レジス〃4
に格納された複数個の文字塊が、前述したいずれの文字
幅クラスに属するかを、文字幅クラス情報レジスタ9番
こ格納された各文字幅クラスCi(但し、1ン1)の下
限値Li1上限値[]i  と比較することによって、
選択し、前述した複数個の文字塊のうち、文字幅クラス
cj(但し、J≧2)にP+4する文字塊のみ、接触文
字分離位置決定手段14に送られる。尚、選択部13に
おいて、選択された文字幅クラスC8に属する文字塊及
び文字幅クラスCIの下限値り、より小さくなる文字塊
は、文字間の接触を含才ない文字塊即ち1文字イメージ
であるとして、通常の文字認識部で1文字単位の認識が
行なわれる。
次に、選択部13tこおいて、選択された文字幅クラス
Cj  (但し、j≧2)に属する文字塊は、接触文字
塊分離位置決定手段14に送られる。接触文(15) 字塊分離位置決定手段14は、選択部13によって、選
択され、た文字幅クラスCj  (但し、j≧2)に属
する文字塊における文字数/、を文字幅クラスの文字数
情報レジスタから読み出し、文字数ljに基づいて、文
字幅クラスcjに属する文字塊の11=1個の文字間の
接触が生じた文字塊分離位置を決定する。ここで、 7
1.−11個の接触文字塊分離位置の決定は、例えば、
除算回路を用いて、文字塊幅をその文字塊内に含まれる
文字数I+ によって按する11−1個の分離位置を求
めるようにした簡単な手段を用いても良い。また、同−
出願人子こよる特願昭49−75985号明細書で示さ
れたような技術を用いることもできる。また、文字部を
構成する黒ビット・ヒストグラムが形作る輪郭文字の形
状あるいは密度を調べる等の従来技術を前述した1、−
1個の分離位置付近で適用することによって、文字認識
部で1文字単位に認識する場合における微少な位置ずわ
、の影響を少なくするようにし、文字認識部の処理負担
を軽減するような手段を用いても良い。
(16) 第4図は、本発明における文字幅分布クラスタ一手段9
の具体的な一実施例を示す論理ブロック図である。尚、
図において、信号線の末尾にSを付けることにより、そ
の信号を表わすものとする。
図中、点線で示した文字幅分布クラスク一手段9は、カ
ウンター90、頻度値レジスタ91、ゼロ検出部92、
減算部93、比較部94、閾値レジスタ95から構成さ
n、る。尚、第3図で示した初期情報レジスタ8の内容
である下限値fil、上限値UIN 、平均値μINが
、?lf制御装置7によって文字幅クラスC1の初期値
として、文字幅クラス情報レジスタ10に予め転送され
ているとする。初期情報レジスタ8の内容である上限値
UINが、カウンタ90iこ転送されると、カウンタ9
0は1力1クンドアツブし、その値を制御装j17へ転
送すると、制御装置7は、頻度テーブル6よりカウンタ
90の内容である文字塊幅に対応する頻度値を読み出し
、頻度値レジスタ91に格納する。ゼロ検出部92は頻
度値レジスタ91の内容が0であると、その出力信号9
21Sが′ON″になることによって、OR回路96が
開き再びカラ(17) ンター90は、1カウントアツプされる。一方、ゼロ検
出部92は頻度値レジスタ91の内容が0でなければ、
減算部93へ、カウンター90の内容を転送する。減算
部93はカウンター90の内容である文字塊幅Pから文
字幅クラスC4の上限値Ui(但し、最初は、文字幅ク
ラスCIの初期情報として得られる上限値UINとなる
)を減じ、その値(PUi)を比較部94へ転送する。
比較部94において、閾値レジスタ95の内容と減q1
部93からの出力値(p−Ui)  とを比較し、閾値
レジスタ95の内容が減算部93の出カイII!lより
も大きれば、その出力信号941Sを′″ON“にする
。以下、出力信号941Sが’ON“となった時、出力
信号941Sを更新信号と呼ぶことにする。一方、闇値
レジスゲ95の内容が減算部93の出力値よりも大きく
ならなければ、比較部94は、その出力信号941Sを
’OF”F“にする。以下、出力信号941Sが’OF
F“となった時、出力信号941Sをクラス検出信号と
呼ぶことにする。尚、閾値レジスタ95の内容は、第3
図で示した平均高さ検出部51で得らn、た平均文字高
さHえに基づい(18) て、設定しても良いし、また、前述した文字幅クラスC
1の初期情報である平均値μTNに基づいて設定しても
良い。次に比較部94において、その出力信号941S
が更新信号となると、制御袋ft7は、文字幅クラス情
報レジスタ10に格納され、た文字幅クラスCiの上限
値Ui (但し、最初は文字幅クラスC1の初期情報と
して得らn、た上限値UTNとなる)および平均値用(
倒し、最初は文字幅クラスCIの初期情報として得られ
た平均値μINとなる)を、そnぞれカウンター90の
内容である文字塊幅Pで更新する。即ち、上限値Uiと
して、カウンター90の内容である文字塊幅Pを格納し
、平均値I’−Li μムとじて一一Σ−を算出し、格納する。
前述した更新処理が終了すると、制御装置7より制御信
号718が’ON“となり、OR回路96が開いて、カ
ウンター90は再び1カウントアツプされる。一方、比
較部94#こおいて、その出力信号941Sがクラス検
出信号となると、制御装置7は、次の文字幅クラスCi
+tの初期情報が得られたと解釈して、カウンター90
の内容である文字塊幅Pを、次の文字幅クラスCi+1
の下限値Li−H、上限値Ui+、 、平均値μl+1
  として、文字幅クラス情報レジスタ10へ登録し、
前述したように、制御信号71、8を’ON“にする。
そこで、カウンター90は再び1カウントア、プされ、
次の文字幅クラスCi+xの更新が同様にして行なわれ
ていく。
以上の操作が、頻度テーブル6に格納された文字塊幅の
最上限値まで行なわれる。
尚、第4図で示した文字幅分布クラスター処理はプロセ
ッサを用いたハードウェア上で容易に実現するための一
実施例であり、例えば、ソフトウェア処理として、実現
する場合には第2図で示した文字塊幅の頻度分布に基づ
いて、頻度値の大きさも考慮して統計的に前述した各文
字幅クラスの情報を検出する方法を用いることも可能と
なる。
第5図は本発明における接触文字数推定手段の具体的な
一実施例を示す論理ブロック図である。
図中、点線で示した接触文字数推定手段11は、第2図
で示した文字塊幅の頻度分布において、1文字における
文字塊幅の分散は1文字幅が異なるための影響により大
きくなるが、同じ文字数が含まれる文字塊幅における分
散は小さくなる。即ち、文字幅の極端に異なる文字同志
の接触確率は小さいという性質に着目して、実現される
。即ち、1文字を含む文字幅クラスCIの平均値μmを
用いて、文字幅クラスCiの文字数/lを推定するより
は、順次得られる文字幅クラスC1−1の平均値μm−
1と文字数li司に基づいて算出される1文字幅の平均
値りを用いて、文字幅クラスCiの文字敷石を推定する
方が、精度良く得られるという性質を利用することがで
きる。
そこで、まず文字幅クラス情報レジスタ10に格納され
た文字幅クラスCj(但し、j≧2)の平均値μSがレ
ジスタ111に転送される。レジスタ112は1文字幅
の平均値んを格納する。尚、レジスタ112の初期値は
制御装置7によって文字幅クラスC1の平均値角がセッ
トされる。除算部113はレジスタ111の内容である
平均値μJをレジスタ112の内容である1文字幅の平
均値μ。を除算(但し、除算は四捨五入で行なわれる)
することによって、(21) 文字幅クラスCjに属する文字塊に含まれる文字数71
を算出し、レジスタ114に格納する。レジスタ114
の内容は、制御装置7によって、文字幅クラスCjにお
ける文字数情報/、として、文字幅クラス文字数情報レ
ジスタ12にセットされる。
除算部115は、レジスタ111の内容である文字幅ク
ラスCjの平均値μJをレジスタ114の内容である文
字数1.で除算することによって、修正された1文字幅
の平均値を算出し、制御装置7によって、レジスタ11
2に格納される。
以上の動作を文字間の接触を含む文字幅クラスCj(j
≧2)について行なわれる。
以上、述べたように本発明を適用することによって、不
特定なフォントや文字ピッチを持つ広範囲な印刷物にお
いて、文字間の接触が生じても、安定に接触が含まれた
文字イメージ内に含まれる文字数が推定可能となり、容
易に接触を含む文字分離位置を検出することが可能とな
る。また、本発明の適用範囲は、スクリプトフォントを
持つタイプライタ−のように予め各文字間が接続するよ
(22) うに設計された場合にも適用可能である。
【図面の簡単な説明】
第1図は、本発明が適用される文字列イメージの一部を
一例として示した図である。第2図は、本発明の詳細な
説明するために示した図である。 第3図は、本発明Iこおける具体的一実施例を示す論理
ブ[コック図である。第4図は、本発明における文字幅
分布クラスタ一手段の具体的な一実施例を示す論理ブロ
ック図である。第5図は、本発明lこおける接触文字数
推定手段の具体的な一実施例を示す論理ブロック図であ
る。 図において、Iは走査装置、2は文字列イメージメモリ
、3は文字塊抽出装置、4は文字塊レジスタ、5は1文
字幅クラス初期情報抽出手段、5Iは平均高さ検出部、
52は乗1部、53及び55は定数レジスタ、54は最
頻度文字幅検出部、8は初期情報レジスタ、9は文字幅
分布クラスタ一手段、10は文字幅クラス情報レジスタ
、11は接触文字数推定手段、12は文字幅クラス文字
数レジスタ、(23) 13は選択部、14は接触文字分離位置決定手段、6は
頻度テーブル、7は制御装置である。 (24) 第 l 医 第 5 図

Claims (2)

    【特許請求の範囲】
  1. (1)紙面上に記載された複数個の文字列イメージを走
    査し、−文字単位に分離する文字分離装置において、前
    記複数個の文字列イメージから白地で分離可能な複数個
    の文字イメージ(以下、文字塊と呼ぶ)を抽出し、文字
    塊幅と文字塊高さを検出する手段と、前記複数個の文字
    塊高さから平均文字高さを算出する手段と、前記複数個
    の文字塊幅に関する頻度情報を格納する頻度テーブルと
    、前記平均文字高さに基づいて、−文字となり得る文字
    塊幅の可能な範囲を抽出する手段と、前記頻度テーブル
    内の頻度情報を用いて、一定許容幅で最頻度きなる文字
    塊幅の上、下限値U、Lと平均値μを、前記−文字とな
    り得る文字塊幅の可能な範囲内で検出し、1文字幅クラ
    スC1の初期情報さする手段と、前記1文字幅クラスC
    1の初期情報を用いて、前記頻度テーブル内の文字塊幅
    に関する頻度情報を、可能なn個の文字幅クラスC,、
    C,・・・Cn(但し、n≧1)に、順次クラスター化
    し、文字幅クラスC4(但し、i≧1)の上、下限値U
    i。 Liと平均値μmを含む情報を検出する文字塊分布クラ
    スタ一手段々、前記文字幅クラスCj(但し、j≧2)
    に属する文字塊に含まれる文字数を文字幅クラスCj−
    1の平均値μm−1と文字幅クラスCj−1に属する文
    字塊に含まれる文字数’+−1(但し1.N、’= 1
    )に基づいて算出した1文字の平均文字幅に基づいて、
    推定する文字数推定手段と、前記文字幅クラスCj(但
    し、j≧2)に属する文字塊幅を選択し、文字幅クラス
    Cjの文字数1.に基づいて、前記文字塊における一文
    字単位の分離推定位置を決定する接触文字分離位置決定
    手段とを有することを特徴とする文字分離装置。
  2. (2)前記平均文字高さは、複数個の文字塊高さの最大
    値に基づいて、上限値と下限値を設け、前記上限値と下
    限値との区間に属する文字塊高さにおける平均値もしく
    は最頻度値を用いるようにした特許請求の範囲第(1)
    項記載の文字分離装置。
JP58033076A 1983-03-01 1983-03-01 文字分離装置 Granted JPS59158479A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP58033076A JPS59158479A (ja) 1983-03-01 1983-03-01 文字分離装置
DE8484102139T DE3480667D1 (de) 1983-03-01 1984-02-29 System zum bestimmen des zeichenabstandes.
EP84102139A EP0120334B1 (en) 1983-03-01 1984-02-29 Letter pitch detection system
US06/585,130 US4594732A (en) 1983-03-01 1984-03-01 Letter pitch detection system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58033076A JPS59158479A (ja) 1983-03-01 1983-03-01 文字分離装置

Publications (2)

Publication Number Publication Date
JPS59158479A true JPS59158479A (ja) 1984-09-07
JPH0259502B2 JPH0259502B2 (ja) 1990-12-12

Family

ID=12376619

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58033076A Granted JPS59158479A (ja) 1983-03-01 1983-03-01 文字分離装置

Country Status (1)

Country Link
JP (1) JPS59158479A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04112283A (ja) * 1990-09-03 1992-04-14 Canon Inc 画像処理方法及び装置
JP2013101610A (ja) * 2011-11-08 2013-05-23 Canon Inc 平均文字幅を判定する方法及び装置、並びに文字分割方法及び装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04112283A (ja) * 1990-09-03 1992-04-14 Canon Inc 画像処理方法及び装置
JP2868134B2 (ja) * 1990-09-03 1999-03-10 キヤノン株式会社 画像処理方法及び装置
JP2013101610A (ja) * 2011-11-08 2013-05-23 Canon Inc 平均文字幅を判定する方法及び装置、並びに文字分割方法及び装置

Also Published As

Publication number Publication date
JPH0259502B2 (ja) 1990-12-12

Similar Documents

Publication Publication Date Title
JP3833153B2 (ja) 画像処理方法及び装置
JP4006224B2 (ja) 画像品質判定方法、判定装置、判定プログラム
US20030063802A1 (en) Image processing method, apparatus and system
WO2015183015A1 (ko) 문자 인식 방법 및 그 장치
US7796817B2 (en) Character recognition method, character recognition device, and computer product
US11983910B2 (en) Image processing system, image processing method, and storage medium each for obtaining pixels of object using neural network
JP6874387B2 (ja) 画像処理装置、画像処理方法およびプログラム
CN101599125A (zh) 复杂背景下图像处理的二值化方法
US11935314B2 (en) Apparatus for generating a binary image into a white pixel, storage medium, and method
JP2016162420A (ja) 注目領域検出装置、注目領域検出方法及びプログラム
CN115273115A (zh) 一种文档元素标注方法、装置、电子设备和存储介质
CN109145907B (zh) 基于常用字字频统计的文本图像倒置检测方法及装置
CN113221778B (zh) 手写表格的检测与识别方法及装置
CN114581928A (zh) 一种表格识别方法及系统
JP5887242B2 (ja) 画像処理装置、画像処理方法、及びプログラム
JP2011087144A (ja) テロップ文字領域検出方法,テロップ文字領域検出装置およびテロップ文字領域検出プログラム
JP5601027B2 (ja) 画像処理装置及び画像処理プログラム
JPS59158479A (ja) 文字分離装置
JP2002342710A (ja) 文字切出し装置及びそれに用いる文字切出し方法並びにそのプログラム
JP2861860B2 (ja) 宛名行抽出装置
JPS63205783A (ja) 画調識別装置
JP2001034763A (ja) 文書画像処理装置、その文書タイトル抽出方法及び文書タグ情報付与方法
CN108961531B (zh) 纸币冠字号识别的方法、装置、设备及存储介质
JP2827960B2 (ja) 宛名行抽出装置
JP4974794B2 (ja) 文書認識装置、文書認識方法、コンピュータプログラム