JPH0259502B2 - - Google Patents

Info

Publication number
JPH0259502B2
JPH0259502B2 JP58033076A JP3307683A JPH0259502B2 JP H0259502 B2 JPH0259502 B2 JP H0259502B2 JP 58033076 A JP58033076 A JP 58033076A JP 3307683 A JP3307683 A JP 3307683A JP H0259502 B2 JPH0259502 B2 JP H0259502B2
Authority
JP
Japan
Prior art keywords
character
width
block
class
characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
JP58033076A
Other languages
English (en)
Other versions
JPS59158479A (ja
Inventor
Yoshitake Tsuji
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Electric Co Ltd filed Critical Nippon Electric Co Ltd
Priority to JP58033076A priority Critical patent/JPS59158479A/ja
Priority to DE8484102139T priority patent/DE3480667D1/de
Priority to EP84102139A priority patent/EP0120334B1/en
Priority to US06/585,130 priority patent/US4594732A/en
Publication of JPS59158479A publication Critical patent/JPS59158479A/ja
Publication of JPH0259502B2 publication Critical patent/JPH0259502B2/ja
Granted legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Description

【発明の詳細な説明】 本発明は、紙面上に記載された文字群イメージ
を、個々の文字に分離する文字分離装置、特に文
字間の接触が生じる場合も含まれた不特定な文字
ピツチを持つ文字群イメージにおける文字分離装
置に関するものである。
各種印刷文字群を光学的に読み取る装置(以下
OCRと呼ぶ)において、一連の文字を認識する
場合、各文字を1字毎に分離して文字認識部に送
出してやる必要がある。しかし、このような
OCRにおける読取対象も不特定な文字ピツチや
品質を持つ郵便物や文書のようなものになると、
通常のタイプライター等の印字の際に生じる印字
ぶれ等によつて、文字間の接触が生じることは決
してまれではないため、必ずしも相隣る各文字間
を機械的に直裁して分離できるとは言えない。
更に、上述したような広汎な適用範囲がとられ
ると、予め文字ピツチが分からないため、個々の
文字幅が異なる紙面上の文字イメージから正確な
文字ピツチを求めることが困難となる。その結
果、文字間の接触を含む文字イメージを1文字単
位に分離することは更に困難な問題となる。一
方、従来の技術として、予め与えられる標準文字
ピツチを規準として得られる分離可能領域間で、
文字部イメージを示す黒ビツトの密度が極小値と
なる分離方法等のように予め与えられる標準文字
ピツチに基づいた手法や同一出願人による特願昭
49−75985号明細書(特公昭57−6626号公報)で
示されたように、郵便番号のように、文字数が予
め既知であるような条件を利用した文字分離手法
などがあるが、いずれも上述したような条件下で
は、個々の文字を正しく分離できない場合が生じ
る。また、特公昭50−15096号公報で示されたよ
うな文字イメージにおける黒ビツト白ビツトの変
化量に着目した手法を適用しても、上述した条件
下では、予め、分離可能領域を推定できなけれ
ば、接融する文字イメージや一文字イメージの特
徴によつては、不正確な分離が生じることもあ
り、また多くのパラメータを用いた複雑な演算回
路が必要となる。
そこで、本発明の目的は、上述した問題点を解
決するために、白地で分離可能な複数個の文字イ
メージ(以下、文字塊と呼ぶ)から得られる平均
文字高さに基づいて、一文字となり得る文字塊幅
のおおよその範囲を設定し、1文字幅クラスの初
期情報を得た後、複数個の文字塊幅に関する頻度
情報を、可能なn個の文字幅クラスに順次、クラ
スター化することによつて、文字間の接触を含む
文字幅クラスの情報を得るようにした文字分離装
置を提供することにある。
本発明の第2の目的は、文字間の接触を含む文
字幅クラスに属する文字塊内に含まれる文字数の
予測を、隣接する文字塊クラスの平均文字幅を逐
次修正しながら得た一文字の平均文字幅に基づい
て、行なうことによつて、文字間の接触を含む文
字塊内に含まれる文字数の予測精度を向上させる
ようにした文字分離装置を提供することにある。
本発明の第3の目的は前述した条件下でも文字
間の接触を含む文字塊幅の分離を容易に可能にす
るとともに、1文字となる文字塊における不必要
な文字分離を避けることが可能な文字分離装置を
提供することにある。
本発明によれば、紙面上に記載された複数個の
文字列イメージを走査し、一文字単位に分離する
文字分離装置において、複数個の文字列イメージ
から白地で分離可能な複数個の文字イメージ(以
下、文字塊と呼ぶ)を抽出し、文字塊幅と文字塊
高さを検出する手段と、複数個の文字塊高さから
平均文字高さを算出する手段と、複数個の文字塊
幅に関する頻度情報を格納する頻度テーブルと、
平均文字高さに基づいて、一文字となり得る文字
塊幅の可能な範囲を抽出する手段と、頻度テーブ
ル内の頻度情報を用いて、一定許容幅で最頻度と
なる文字塊幅の上、下限値U,Lと平均値μを、
一文字となり得る文字塊幅の可能な範囲内で検出
し、1文字幅クラスC1の初期情報とする手段と、
1文字幅クラスC1の初期情報を用いて、頻度テ
ーブル内の文字塊幅に関する頻度情報を、可能な
n個の文字幅クラスC1,C2…Co(但し、n≧1)
に、順次クラスター化し、文字幅クラスCi(但し、
i≧1)の上、下限値Ui,Liと平均値μiを含む情
報を検出する文字塊分布クラスター手段と、文字
幅クラスCj(但し、j≧2)に属する文字塊に含
まれる文字数を文字幅クラスCj-1の平均値μj-1
文字幅クラスCj-1に属する文字塊に含まれる文字
数lj-1(但し、l1=1)に基づいて算出した1文字
の平均文字幅に基づいて、推定する文字数推定手
段と、文字幅クラスCj(但し、j≧2)に属する
文字塊幅を選択し、文字幅クラスCjの文字数lj
基づいて、文字塊における一文字単位の分離推定
位置を決定する接触文字分離位置決定手段とを有
する文字分離装置を提供することができる。
以下、本発明における具体的一実施例を参照し
て説明する。
第1図は本発明が適用される文字列イメージの
一部を示した一例である。図において、斜線で示
した白地で分離可能な文字イメージ即ち文字塊を
矩形領域で示しており、図中Vi,Hi(i=1…
5)は、各文字塊の幅及び高さを示している。こ
こで、文字塊幅V1,V5を持つ文字塊は文字間の
接触によつて、それぞれ、2文字、4文字を含ん
だ文字イメージとなつているため、通常文字認識
を行なうには、1文字単位に分離する必要が生じ
る。この場合、個々の文字幅は、使用されるフオ
ントや文字カテゴリなどによりそれぞれ異なり、
更に文字ピツチが不特定となるため、文字間の接
触が生じた場合の分離位置を容易に求めることが
できないが、以下に述べるように本発明を適用す
ることによつて容易に解決することができる。
第2図は、第1図で示したような紙面上の複数
個の文字塊幅の頻度分布の一例に基づいて本発明
の原理を説明するために示した図である。図中、
複数個の文字塊に関する頻度分布の横軸Vは、文
字塊幅Vの値を示しており、縦軸NUMは任意の
文字塊幅の値における文字塊の個数、即ち、頻度
値を示している。尚、図中、頻度分布は通常用い
られるタイプライター文字の一例を示したもので
ある。最初に図に示した頻度分布から1文字とな
り得る可能な文字塊幅の区間A1を求める。ここ
で区間A1は、第1図で示した複数個の文字塊高
さH1,H2,H3…の平均高さHnと、重み係数α1
α2(但しα1<α2)から設定することができる。
尚、平均高さHnは、複数個の文字高さの最大
値に基づいて高さの上限値と下限値を設けて、一
定の区間内の平均高さとして算出しても良い。ま
た、予め、文字ピツチが与えられる場合には、与
えられた文字ピツチも考慮して、一文字となり得
る文字塊幅の区間A1を限定することも可能であ
る。
次に、一文字となり得る文字塊幅の区間A1内
で、一定許容幅Δτ(図中Δτ=3)で最頻度を持
つ区間A2を求める。尚、図で示した区間A2を
表わす情報は、その下限値L1、上限値L1+2、
平均値L1+1からなり、図中C1で示した1文字
幅クラスの初期情報となる。
次に、図で示した頻度分布に基づいて、前述し
た初期情報から始めて、文字塊内に含まれる文字
数が唯一に決定できる領域(以下、文字幅クラス
と呼ぶ)を順次抽出する。例えば、図ではC1
C2及びC3が各文字幅クラス(但し、C1は1文字
幅クラス)であり、それぞれ、下限値L1,L2
L3と上限値U1,U2,U3及び平均値μ1,μ2,μ3
含む情報で表わされる。また、前述した文字幅ク
ラスの抽出処理にあたつて、1文字幅クラスC1
のみ検出される場合、接触を含む文字塊(以下、
接触文字塊と呼ぶ)が含まれないことを意味す
る。
次に、1文字幅クラスC1以外の文字幅クラスCi
(i≧2)は、前述したように接触文字塊を含む
ため、まず、文字幅クラスCiに属する接触文字塊
内に含まれる文字数liを後述する方法に基づいて
算出することによつて、接触文字塊li−1個の分
離位置を決定することができる。
尚、以下の説明を行なうにあたり、図で示した
区間Aの下限値、上限値、平均値を文字幅クラス
C1の初期情報として、それぞれ、L1,UIN,μIN
表わし、前述した文字幅クラスCi(i≧1)の下
限値、上限値、平均値、文字幅クラスCiに属する
文字塊内に含まれる文字数をそれぞれ、Li,Ui
μi,liとする。ここで、文字幅クラスC1は、1文
字幅クラスであるため、l1=1となる。
第3図は、本発明の具体的一実施例を示す論理
ブロツク図である。走査装置1は、紙面上の記載
された文字列イメージを光学的に走査して、電気
信号に変換し、2値量子化後、文字列イメージメ
モリ2へ書き込む。3は、文字塊抽出装置であ
り、文字列イメージメモリ2に格納された文字列
イメージから文字塊を順次抽出し、各文字塊の始
端位置及び大きさを文字塊レジスタ4へ格納す
る。尚、文字塊の大きさは、文字塊幅及び文字塊
高さを表わすものとする。また、このような文字
塊抽出装置3は、例えば、同一出願人による特願
昭56−27512号明細書で示されている技術を用い
て求めることができる。
文字塊レジスタ4に格納された複数個の文字塊
幅は、制御装置7へ、順次送られる。制御装置7
は、順次転送される文字塊幅をメモリから構成さ
れる頻度テーブル6のアデレスに変換し、変換し
たアデレスに対応する頻度テーブル6の内容を、
読み出し、イングリメントした後、頻度テーブル
6内の同一記憶場所に再度書き込まれる。このよ
うにして、頻度テーブル6内に文字列イメージメ
モリ2より抽出された文字塊幅Viの頻度値が、頻
度テーブル6のアデレスVi番地に格納されること
によつて、第2図で示した文字塊幅に関する頻度
分布が頻度テーブル6に格納されることになる。
尚、頻度テーブル6は、最初0に初期化されてい
るとする。一方、制御装置7によつて、文字塊レ
ジスタ4に格納された複数個の文字塊高さは、順
次、平均高さ算出部51へ転送される。尚、図中
点線で示した5は、第2図で述べた1文字幅クラ
スC1の初期情報としての文字塊幅の下限値L1
上限値UIN、平均値μINを算出する1文字幅クラス
初期情報抽出手段を示しており、平均高さ算出部
51、乗算部52、定数レジスタ53,55およ
び最頻度文字幅算出部54から構成される。
平均高さ算出部51は、複数個の文字塊高さの
平均値Hn(以下、平均文字高さと呼ぶ)を算出す
る。尚、平均高さ検出部51において、複数個の
文字塊高さの最大値を算出した後、リミツターを
用いて一定区間を設けた後、平均値Hnを算出す
る回路を用いても良い。定数レジスタ53は、第
2図で示した重み係数α1,α2(但し、0<α1<α2
を予め格納する。乗算部52は、平均文字高さ
Hnと重み係数α1及α2との乗算を行ない、α1・Hn
及びα2Hn(但し、α1Hn<α2Hn)を算出する。乗
算部52により算出されたα1・Hn及びα2・Hn
は、可能な一文字幅の区間を表わすものであり、
それぞれ、最頻度文字幅算出部54へ転送され
る。定数レジスタ55は、一定許容幅Δτが予め
格納されている。最頻度文字幅算出部54は可能
な1文字幅の区間α1Hn,α2Hn内に属する文字塊
幅の頻度値を制御装置7を介して、頻度テーブル
6より読み出し、定数レジスタ55の内容である
一定許容幅Δτで最頻度値を持つ区間、即ち前述
した下限値L1、上限値UIN、平均値μINを算出し、
1文字幅クラスC1の初期情報として、初期情報
レジスタ8へ格納する。
9は、文字幅分布クラスター手段であり、初期
情報レジスタ8の内容に基づいて、第2図で示し
たように可能なn個の文字幅クラスC1,C2,…
Co(但し、n≧1)に、順次クラスター化し、文
字幅クラスCiの下限値Li、上限値Ui、平均値μi
含む情報を抽出し、文字幅クラス初期情報レジス
タ10へ格納する。尚、文字幅分布クラスター手
段9の具体的な一実施例は後述する。
11は、接触文字数推定手段であり、文字幅分
布クラスター手段9によつて、接触文字塊がある
ことを意味する文字幅クラスCi(i≧2)が検出
されると、文字幅クラスター情報レジスタ10の
内容に基づいて、文字幅クラスCi(i≧2)に属
する文字塊に含まれる文字数li(i≧2)を決定
し、文字幅クラス文字数情報レジスタ12へ順次
格納する。尚、接触文字数推定手段11は後述す
る。
以上の処理により、文字幅クラス情報レジスタ
10には各文字幅クラスCi(但し、i≧1)の下
限値Li、上限値Ui、平均値μiがセツトされてお
り、文字幅クラス文字数情報レジスタ12には、
各文字幅クラスCi(但し、i≧1)の文字数li(但
し、liは常に1であるため、セツトされないとす
る)がセツトされることになる。
13は選択部である。選択部13は文字塊レジ
スタ4に格納された複数個の文字塊が、前述した
いずれの文字幅クラスに属するかを、文字幅クラ
スタ情報レジスタ9に格納された各文字幅クラス
Ci(但し、i≧1)の下限値Li、上限値Uiと比較
することによつて、選択し、前述した複数個の文
字塊のうち、文字幅クラスCj(但し、j≧2)に
属する文字塊のみ、接触文字分離位置決定手段1
4に送られる。尚、選択部13において、選択さ
れた文字幅クラスC1に属する文字塊及び文字幅
クラスC1の下限値L1より小さくなる文字塊は、
文字間の接触を含まない文字塊即ち1文字イメー
ジであるとして、通常の文字認識部で1文字単位
の認識が行なわれる。
次に、選択部13において、選択された文字幅
クラスCj(但し、j≧2)に属する文字塊は、接
触文字塊分離位置決定手段14に送られる。接触
文字塊分離位置決定手段14は、選択部13によ
つて、選択された文字幅クラスCj(但し、j≧2)
に属する文字塊における文字数ljを文字幅クラス
の文字数情報レジスタから読み出し、文字数lj
基づいて、文字幅クラスCjに属する文字塊のlj
1個の文字間の接触が生じた文字塊分離位置を決
定する。ここで、lj−1個の接触文字塊分離位置
の決定は、例えば、除算回路を用いて、文字塊幅
をその文字塊内に含まれる文字数liによつて按す
るli−1個の分離位置を求めるようにした簡単な
手段を用いても良い。また、同一出願人による特
願昭49−75985号明細書(特公昭57−6626号公報)
で示されたような技術を用いることもできる。ま
た、文字部を構成する黒ビツト・ヒストグラムが
形作る輪郭文字の形状あるいは密度を調べる等の
従来技術を前述したli−1個の分離位置付近で適
用することによつて、文字認識部で1文字単位に
認識する場合における微少な位置ずれの影響を少
なくするようにし、文字認識部の処理負担を軽減
するような手段を用いても良い。
第4図は、本発明における文字幅分布クラスタ
ー手段9の具体的な一実施例を示す論理ブロツク
図である。尚、図において、信号線の末尾にSを
付けることにより、その信号を表わすものとす
る。
図中、点線で示した文字幅分布クラスター手段
9は、カウンター90、頻度値レジスタ91、ゼ
ロ検出部92、減算部33、比較部94、閾値レ
ジスタ95から構成される。尚、第3図で示した
初期情報レジスタの内容である下限値L1、上限
値UIN、平均値μINが、制御装置7によつて文字幅
クラスC1の初期値として、文字幅クラス情報レ
ジスタ10に予め転送されているとする。初期情
報レジスタ8の内容である上限値UINが、カウン
タ90に転送されると、カウンタ90は1カウン
トアツプし、その値を制御装置7へ転送すると、
制御装置7は、頻度テーブル6よりカウンタ90
の内容である文字塊幅に対応する頻度数を読み出
し、頻度値レジスタ91に格納する。ゼロ検出部
92は頻度値レジスタ91の内容が0であると、
その出力信号921Sが“ON”になることによ
つて、OR回路96が開き再びカウンター90
は、1カウントアツプされる。一方、ゼロ検出部
92は頻度値レジスタ91の内容が0でなけれ
ば、減算部93へ、カウンター90の内容を転送
する。減算部93はカウンター90の内容である
文字塊幅Pから文字幅クラスCiの上限値Ui(但し、
最初は、文字幅クラスC1の初期情報として得ら
れる上限値UINとなる)を減じ、その値(P−
Ui)を比較部94へ転送する。比較部94におい
て、閾値レジスタ95の内容と減算部93からの
出力値(P−Ui)とを比較し、閾値レジスタ95
の内容が減算部93の出力値よりも大きれば、そ
の出力信号941Sを“ON”にする。以下、出
力信号941Sが“ON”となつた時、出力信号
941Sを更新信号と呼ぶことにする。一方、閾
値レジスタ95の内容が減算部93の出力値より
も大きくならなければ、比較部94は、その出力
信号741Sを“OFF”にする。以下、出力信
号941Sが“OFF”となつた時、出力信号9
41Sをクラス検出信号と呼ぶことにする。尚、
閾値レジスタ95の内容は、第3図で示した平均
高さ検出部51で得られた平均文字高さHnに基
づいて、設定しても良いし、また、前述した文字
幅クラスC1の初期情報である平均値μINに基づい
て設定しても良い。次に比較部94において、そ
の出力信号941Sが更新信号となると、制御装
置7は、文字幅クラス情報レジスタ10に格納さ
れた文字幅クラスCiの上限値Ui(但し、最初は文
字幅クラスC1の初期情報として得られた上限値
UINとなる)および平均値μi(但し、最初は文字幅
クラスC1の初期情報として得られた平均値μIN
なる)を、それぞれカウンター90の内容である
文字塊幅Pで更新する。即ち、上限値Uiとして、
カウンター90の内容である文字塊幅Pを格納
し、平均値μiとしてP−Li/2を算出し、格納する。
前述した更新処理が終了すると、制御装置7よ
り制御信号71Sが“ON”となり、OR回路9
6が開いて、カウンター90は再び1カウントア
ツプされる。一方、比較部94において、その出
力信号941Sがクラス検出信号となると、制御
装置7は、次の文字幅クラスCi+1の初期情報が得
られたと解釈して、カウンター90の内容である
文字塊幅Pを、次の文字幅クラスCi+1の下限値
Li+1、上限値Ui+1、平均値μi+1として、文字幅ク
ラス情報レジスタ10へ登録し、前述したよう
に、制御信号71Sを“ON”にする。そこで、
カウンター90は再び1カウントアツプされ、次
の文字幅クラスCi+1の更新が同様にして行なわれ
ていく。
以上の操作が、頻度テーブル6に格納された文
字塊幅の最上限値まで行なわれる。
尚、第4図で示した文字幅分布クラスター処理
はプロセツサを用いたハードウエア上で容易に実
現するための一実施例であり、例えば、ソフトウ
エア処理として、実現する場合には第2図で示し
た文字塊幅の頻度分布に基づいて、頻度値の大き
さも考慮して統計的に前述した各文字幅クラスの
情報を検出する方法を用いることも可能となる。
第5図は本発明における接触文字数推定手段の
具体的な一実施例を示す論理ブロツク図である。
図中、点線で示した接触文字数推定手段11は、
第2図で示した文字塊幅の頻度分布において、1
文字における文字塊幅の分散は1文字幅が異なる
ための影響により大きくなるが、同じ文字数が含
まれる文字塊幅における分散は小さくなる。即
ち、文字幅の極端に異なる文字同志の接触確率は
小さいという性質に着目して、実現される。即
ち、1文字を含む文字幅クラスC1の平均値μ1を用
いて、文字幅クラスCiの文字数liを推定するより
は、順次得られる文字幅クラスCi-1の平均値μi-1
と文字数li-1に基づいて算出される1文字幅の平
均値μnを用いて、文字幅クラスCiの文字数liを推
定する方が、精度良く得られるという性質を利用
することができる。
そこで、まず文字幅クラス情報レジスタ10に
格納された文字幅クラスCj(但し、j≧2)の平
均値μjがレジスタ111に転送される。レジスタ
112は1文字幅の平均値μnを格納する。尚、
レジスタ112の初期値は制御装置7によつて文
字幅クラスC1の平均値μ1がセツトされる。除算部
113はレジスタ111の内容である平均値μi
レジスタ112の内容である1文字幅の平均値
μnを除算(但し、除算は四捨五入で行なわれる)
することによつて、文字幅クラスCjに属する文字
塊に含まれる文字数ljを算出し、レジスタ114
に格納する。レジスタ114の内容は、制御装置
7によつて、文字幅クラスCjにおける文字数情報
ljとして、文字幅クラス文字数情報レジスタ12
にセツトされる。
除算部115は、レジスタ111の内容である
文字幅クラスjの平均値μjをレジスタ114の内
容である文字数ljで除算することによつて、修正
された1文字幅の平均値を算出し、制御装置7に
よつて、レジスタ112に格納される。
以上の動作を文字間の接触を含む文字幅クラス
Cj(j≧2)について行なわれる。
以上、述べたように本発明を適用することによ
つて、不特定なフオントや文字ピツチを持つ広範
囲な印刷物において、文字間の接触が生じても、
安定に接触が含まれた文字イメージ内に含まれる
文字数が推定可能となり、容易に接触を含む文字
分離位置を検出することが可能となる。また、本
発明の適用範囲は、スクリプトフオントを持つタ
イプライターのように予め各文字間が接続するよ
うに設計された場合にも適用可能である。
【図面の簡単な説明】
第1図は、本発明が適用される文字列イメージ
の一部を一例として示した図である。第2図は、
本発明の原理を説明するために示した図である。
第3図は、本発明における具体的一実施例を示す
論理ブロツク図である。第4図は、本発明におけ
る文字幅分布クラスター手段の具体的な一実施例
を示す論理ブロツク図である。第5図は、本発明
における接触文字数推定手段の具体的な一実施例
を示す論理ブロツク図である。 図において、1は走査装置、2は文字列イメー
ジメモリ、3は文字塊抽出装置、4は文字塊レジ
スタ、5は1文字幅クラス初期情報抽出手段、5
1は平均高さ検出部、52は乗算部、53及び5
5は定数レジスタ、54は最頻度文字幅検出部、
8は初期情報レジスタ、9は文字幅分布クラスタ
ー手段、10は文字幅クラス情報レジスタ、11
は接触文字数推定手段、12は文字幅クラス文字
数レジスタ、13は選択部、14は接触文字分離
位置決定手段、6は頻度テーブル、7は制御装置
である。

Claims (1)

  1. 【特許請求の範囲】 1 紙面上に記載された複数個の文字列イメージ
    を走査し、一文字単位に分離する文字分離装置に
    おいて、前記複数個の文字列イメージから白地で
    分離可能な複数個の文字イメージ(以下、文字塊
    と呼ぶ)を抽出し、文字塊幅と文字塊高さを検出
    する手段と、前記複数個の文字塊高さから平均文
    字高さを算出する手段と、前記複数個の文字塊幅
    に関する頻度情報を格納する頻度テーブルと、前
    記平均文字高さに基づいて、一文字となり得る文
    字塊幅の可能な範囲を抽出する手段と、前記頻度
    テーブル内の頻度情報を用いて、一定許容幅で最
    頻度となる文字塊幅の上、下限値U,Lと平均値
    μを、前記一文字となり得る文字塊幅の可能な範
    囲内で検出し、1文字幅クラスC1の初期情報と
    する手段と、前記1文字幅クラスC1の初期情報
    を用いて、前記頻度テーブル内の文字塊幅に関す
    る頻度情報を、可能なn個の文字幅クラスC1
    C2…Co(但し、n≧1)に、順次クラスター化
    し、文字幅クラスCi(但し、i≧1)の上、下限
    値Ui,Liと平均値μiを含む情報を検出する文字塊
    分布クラスター手段と、前記文字幅クラスCj(但
    し、j≧2)に属する文字塊に含まれる文字数を
    文字幅クラスCj-1の平均値μj-1と文字幅クラス
    Cj-1に属する文字塊に含まれる文字数lj-1(但し、
    l1=1)に基づいて算出した1文字の平均文字幅
    に基づいて、推定する文字数推定手段と、前記文
    字幅クラスCj(但し、j≧2)に属する文字塊幅
    を選択し、文字幅クラスCjの文字数ljに基づい
    て、前記文字塊における一文字単位の分離推定位
    置を決定する接触文字分離位置決定手段とを有す
    ることを特徴とする文字分離装置。 2 前記平均文字高さは、複数個の文字塊高さの
    最大値に基づいて、上限値と下限値を設け、前記
    上限値と下限値との区間に属する文字塊高さにお
    ける平均値もしくは最頻度値を用いるようにした
    特許請求の範囲第1項記載の文字分離装置。
JP58033076A 1983-03-01 1983-03-01 文字分離装置 Granted JPS59158479A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP58033076A JPS59158479A (ja) 1983-03-01 1983-03-01 文字分離装置
DE8484102139T DE3480667D1 (de) 1983-03-01 1984-02-29 System zum bestimmen des zeichenabstandes.
EP84102139A EP0120334B1 (en) 1983-03-01 1984-02-29 Letter pitch detection system
US06/585,130 US4594732A (en) 1983-03-01 1984-03-01 Letter pitch detection system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58033076A JPS59158479A (ja) 1983-03-01 1983-03-01 文字分離装置

Publications (2)

Publication Number Publication Date
JPS59158479A JPS59158479A (ja) 1984-09-07
JPH0259502B2 true JPH0259502B2 (ja) 1990-12-12

Family

ID=12376619

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58033076A Granted JPS59158479A (ja) 1983-03-01 1983-03-01 文字分離装置

Country Status (1)

Country Link
JP (1) JPS59158479A (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2868134B2 (ja) * 1990-09-03 1999-03-10 キヤノン株式会社 画像処理方法及び装置
JP6046982B2 (ja) * 2011-11-08 2016-12-21 キヤノン株式会社 文字幅を判定する方法及び装置、文字集合を分割する装置、及びコンピュータプログラム

Also Published As

Publication number Publication date
JPS59158479A (ja) 1984-09-07

Similar Documents

Publication Publication Date Title
US7054485B2 (en) Image processing method, apparatus and system
US8306325B2 (en) Text character identification system and method thereof
US6226402B1 (en) Ruled line extracting apparatus for extracting ruled line from normal document image and method thereof
EP0472313B1 (en) Image processing method and apparatus therefor
EP0120334B1 (en) Letter pitch detection system
EP0054439A2 (en) Character segmentation method
JPS63158678A (ja) 単語間スペ−ス検出方法
US20190266447A1 (en) An image processing method and an image processing system
US6266445B1 (en) Classification-driven thresholding of a normalized grayscale image
EP0524797B1 (en) Image processing method and apparatus
JPS5991582A (ja) 文字読取装置
JPH0259502B2 (ja)
JP2827960B2 (ja) 宛名行抽出装置
JP2861860B2 (ja) 宛名行抽出装置
EP0113119B1 (en) Character pitch detecting apparatus
JP2580976B2 (ja) 文字切出し装置
JPH0368431B2 (ja)
JPH05128308A (ja) 文字認識装置
JPH08249419A (ja) 表領域判定装置
JPH0632074B2 (ja) 正規化方法
JPS63101983A (ja) 文字列抽出方式
JP3442041B2 (ja) 画像処理装置および画像処理方法
JP2005208979A (ja) 特徴量抽出装置および特徴量抽出方法、ならびに文書ファイリング装置
JPH0326427B2 (ja)
JPH0776979B2 (ja) 画像処理方法