JPH0728938A - 文字認識装置 - Google Patents

文字認識装置

Info

Publication number
JPH0728938A
JPH0728938A JP5192748A JP19274893A JPH0728938A JP H0728938 A JPH0728938 A JP H0728938A JP 5192748 A JP5192748 A JP 5192748A JP 19274893 A JP19274893 A JP 19274893A JP H0728938 A JPH0728938 A JP H0728938A
Authority
JP
Japan
Prior art keywords
character
label value
unit
character recognition
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5192748A
Other languages
English (en)
Inventor
Naohiro Amamoto
直弘 天本
Sadamasa Hirogaki
節正 広垣
Yoshitaka Hamaguchi
佳孝 濱口
Makoto Torigoe
真 鳥越
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP5192748A priority Critical patent/JPH0728938A/ja
Publication of JPH0728938A publication Critical patent/JPH0728938A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】 【構成】 文字切出し部5には、文書Aをイメージデー
タとして読取った文字列データが入力される。文字切出
し部5は、先ず、文字列を構成する画素のうち、連結し
ている画素には、同一のラベル値を付与する。次に、文
字切出し部5は、例えば、同一ラベル値を有する文字は
1文字であるといったように、付与したラベル値に基づ
き各文字の1文字を構成する領域を判定する。文字認識
部6は、文字切出し部5で判定された文字領域の画像に
対して文字認識を行う。 【効果】 正確な文字切出しを行うことができる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、例えば、OCR(光学
式文字読取装置)等に用いられ、文書画像から文字認識
を行う文字認識装置に関する。
【0002】
【従来の技術】一般に、光学式文字読取装置では、帳票
等に記入された活字や手書き文字といった文書の画像を
読取り、この文書画像から文字認識を行っている。この
ような文字認識の手順としては、先ず、帳票等の媒体か
ら文書画像を読取り、これから各々の文字を形成する画
像を抽出する(切出す)ことが必要である。
【0003】従来では、この切出し方法として、例え
ば、特開平3−179585号公報に示すように、読取
った文書画像から各文字の輪郭線の位置を検出して、こ
の輪郭線の位置から文字画像の位置を特定し、輪郭線で
囲まれる画像情報を抽出することにより、各々の文字を
切出すといったものがあった。また、これ以外の手法と
して、文字列と平行な方向にヒストグラムを作成し、こ
のヒストグラムを用いて各々の文字を切出すといったも
のがある。
【0004】
【発明が解決しようとする課題】しかしながら、上記従
来の文字切出しにおいて、輪郭線検出による文字切出し
では、輪郭を検出するために複雑な処理を必要とし、高
速処理が難しいという問題があった。
【0005】また、ヒストグラムによる文字切出しの手
法では、例えば、欧文の斜体文字のように、ヒストグラ
ム分布において、空白部分が現れないものに関しては、
文字の切出しを行えないといった問題点があった。図2
は、この一例を示す図である。即ち、欧文斜体文字で
「figure」と綴った場合、“f”と“i”とはヒ
ストグラム投影で空白部分が現れないため、二つの文字
としては切出すことができず、文字認識を正確に行えな
いという問題点を有していた。
【0006】本発明は、上記従来の問題点を解決するた
めになされたもので、文字認識を正確に行うことので
き、かつ文字認識処理の高速化を図ることのできる文字
認識装置を提供することを目的とする。
【0007】
【課題を解決するための手段】第1発明の文字認識装置
は、イメージデータ表示された文字列で、当該文字列を
構成する画素のうち、連結している画素には、同一のラ
ベル値を付与し、このラベル値に基づき各文字の1文字
を構成する領域を判定する文字切出し部と、前記文字切
出し部で判定された文字領域の画像に対して文字認識を
行う文字認識部とを備えたことを特徴とするものであ
る。
【0008】第2発明の文字認識装置は、イメージデー
タ表示された文字列の中から各文字の文字幅を検出する
文字幅検出部と、前記文字幅検出部で検出された各文字
幅を一定値と比較し、当該一定値を超えた文字があった
場合は、当該文字は複合文字であると判定する複合文字
判定部と、前記複合文字判定部で複合文字と判定された
文字に対して、当該複合文字を構成する画素のうち、連
結している画素には同一のラベル値を付与し、このラベ
ル値に基づき当該複合文字中の1文字を構成する領域を
判定する文字切出し部と、前記文字切出し部で判定され
た文字領域の画像と、前記文字幅検出部で検出された文
字幅の画像に対して文字認識を行う文字認識部とを備え
たことを特徴とするものである。
【0009】
【作用】第1発明の文字認識装置においては、先ず、文
書の画像が読取部によって読取られ、イメージデータと
して出力される。次に、行切出し部は、文書のイメージ
データから行を切出し、これを行バッファに格納する。
文字切出し部は、行バッファから、1行ずつ取出し、文
字列を構成する画素のうち、連結している画素には同一
のラベル値を付与する。そして、付与したラベル値に基
づき各文字の1文字を構成する領域として外接矩形を求
める。この文字領域判定処理は、例えば、同一ラベル値
を有する文字は1文字であるといったように判定し、更
に、異なったラベル値の外接矩形に対して分離文字であ
るかを判定して各文字の外接矩形を求める。その後、文
字認識部は各文字の外接矩形の画像に対して文字認識を
行う。
【0010】第2発明の文字認識装置においては、第1
発明と同様に、文書のイメージデータが行切出しされ、
これが行バッファに格納される。次に、文字幅検出部は
文字列における各文字幅を検出する。そして、複合文字
判定部は、文字幅検出部で検出された各文字が複合文字
であるか否かを判定し、複合文字と判定された文字に関
してのみ、文字切出し部は、連結している画素に対して
同一のラベル値を付与し、このラベル値に基づき1文字
の外接矩形を求める。その後、文字認識部は文字幅検出
部で検出された文字幅の画像と、文字切出し部で判定さ
れた文字領域の画像とに対して文字認識を行う。
【0011】
【実施例】以下、本発明の実施例を図面を用いて詳細に
説明する。図1は本発明の文字認識装置の第1実施例を
示すブロック図である。図の装置は、読取部1、領域抽
出部2、行切出し部3、行バッファ4、文字切出し部
5、文字認識部6からなる。
【0012】読取部1は、文書Aを光学的に読取り、文
字を含むイメージデータを出力する機能を有している。
領域抽出部2は、読取部1から出力されたイメージデー
タから、文字領域の抽出を行うものである。行切出し部
3は、領域抽出部2で抽出された文字領域から1行単位
に画像を切出し、行バッファ4に格納するためのもので
ある。また、文字切出し部5は、行バッファ4から文字
列のイメージデータを取出し、文字列を構成する画素の
うち、連結している画素には、同一のラベル値を付与
し、このラベル値に基づき各文字の1文字を構成する領
域を判定、即ち、1文字単位の画像(文字パターン)の
切出しを行うものである。また、文字認識部6は、文字
切出し部5で切出された文字パターンに基づき文字認識
を行う機能を有している。
【0013】次に、上記構成の文字認識装置の動作につ
いて説明する。先ず、読取部1によって、認識媒体であ
る文書の読取りが行われ、文字を含むイメージデータが
出力される。その後、領域抽出部2は、読取部1から出
力されたイメージデータに基づき、文字領域の抽出を行
う。そして、行切出し部3は、領域抽出部2で抽出され
た文字領域から1行単位に画像を切出し、行バッファ4
に格納する。次いで、文字切出し部5は、行バッファ4
から文字列のイメージデータを取出し、文字切出しを行
う。
【0014】図3は、文字切出し部5の処理内容を示す
フローチャートである。先ず、文字切出し部5は、行バ
ッファ4より、文字の画像データを取出し(ステップS
1)、この画像データに対してラベル付け処理を行う
(ステップS2)。
【0015】図4は、このラベル付け処理の説明図であ
る。本処理では、処理対象となる画像を2回走査する。
また、図4(a)は、この処理対象となる画像である。
この走査において、先ず1回目の走査では各黒画素毎に
仮ラベル値を与える。図4(b)は、左方向から右方向
へ走査した場合の仮ラベル値を示している。このラベル
値は、処理対象となっている画素の直上および左隣の画
素の値によって以下のように決められている。
【0016】(1)直上の画素のみが黒:直上の画素の
仮ラベル値と同じ値 (2)左隣の画素のみが黒:左隣の画素の仮ラベル値と
同じ値 (3)直上および左隣の画素が共に黒:直上の仮ラベル
値と同じ値 (4)直上および左隣の画素が共に白:新しい値 但し、(3)の場合、直上の画素と左隣の画素とで与え
られている仮ラベル値が異なる場合には、同一黒連結領
域に異なったラベル値が与えられることになるため、ラ
ベル値変換テーブルを用意する。
【0017】図4(c)はこのラベル値変換テーブルで
あり、仮ラベル値に対する同一ラベル値の関係は、以下
のようになっている。即ち、ある仮ラベル値に隣接する
ラベル値が異なる場合、そのうちで最も小さい値を同一
ラベル値とする。例えば、仮ラベル値が“1”の場合、
隣接する仮ラベル値はすべてこれより大きいため、同一
ラベル値も“1”である(尚、図中、仮ラベル値と同一
ラベル値が同じ場合は空白としている)。また、“2”
の場合も“1”と同様である。そして、“3”の場合、
隣接する仮ラベル値で最も小さい値は“1”であるた
め、同一ラベル値は“1”となる。以下、“4”〜
“8”の場合も同様に、同一ラベル値が、隣接する仮ラ
ベル値で最も小さい値となる。
【0018】更に、各黒連結領域に対して一意に番号が
与えられるように、ラベル値変換テーブルに所定の操作
を行う。即ち、同一ラベル値が、仮ラベル値と同じ値の
ものは、その仮ラベル値に対する同一ラベル値にする。
例えば“7”の場合ではその同一ラベル値が“4”であ
るため、この値“4”が仮ラベル値である場合の同一ラ
ベル値は“3”である。更に、仮ラベル値が“3”であ
る場合の同一ラベル値は“1”であり、この値“1”が
仮ラベル値である場合の同一ラベル値は“1”である。
従って、仮ラベル値“7”の同一ラベル値は“1”とな
る。この結果を示したのが図4(d)である。これによ
り、同一ラベル値は、1、2、5の3種類となり、これ
を連続番号となるよう演算処理を行うと、ラベル値変換
テーブルは図4(e)に示すようになる。
【0019】次に、処理対象の画像を1回目とは逆方
向、即ち、右下から左上に走査しながら、各黒画素毎に
与えられた仮ラベル値を、図4(e)に示されたラベル
値変換テーブルの値を用いて、各画素毎にラベル値の付
け直しを行う。この処理によって得られたのが図4
(f)の値である。図から明かなように、同一ブロック
は同一ラベル値となっている。以上の処理により、例え
ば図2に示した文字列においても、各文字における黒画
素の集合には一意に番号が与えられるため、分離が可能
となる。
【0020】図5は、この状態を示す説明図である。こ
の図5に示すように、文字列「figure」の例えば
「f」にはラベル値“1”といったように、各文字にラ
ベル値が付与されている。そして、図3のステップS3
の処理として、文字外接矩形抽出処理を行う。この文字
外接矩形抽出処理では、先ず、同一のラベル値を持つ黒
画素を囲む外接矩形を各々のラベル値について求める。
この処理により、f、g、u、r、eに関しては文字の
切出しは完了する。また、例えば、「f]と「i」のよ
うに、文字が文字列方向に重なっている場合でも、同一
のラベル値で外接矩形を求めるため、正確な文字切出し
を行うことができる。尚、図5においては、図面上の煩
雑さを避けるため、「f」と「i」とは分離した状態で
示している。
【0021】また、「i」のように、上下に分離した文
字に関しては、二つの異なったラベル値が付与されるた
め、以下の条件で統合処理を行う。図6に統合条件の説
明図を示す。統合条件として、x方向にのみ重なってい
る、即ち、(ye1<ys2)かつ(xs1≦xe2か
つxe1≧xs2)の条件を満たしている矩形は、分離
文字として一つの矩形に統合する。
【0022】各文字の外接矩形が得られると、その外接
矩形に基づき文字パターン抽出処理として、文字画像を
抽出する(図3におけるステップS4)。そして、この
文字画像は、図示しないパターンメモリに格納する(ス
テップS5)。そして、以上の動作が最終文字まで終了
したか否かを判定し(ステップS6)、最終文字ではな
い場合は、ステップS1からの処理を繰り返し、最終文
字であった場合は、文字認識処理を終了する。
【0023】以上、行バッファ4からの文字列データに
ラベル付け処理を施すことによって1文字のパターンを
抽出する手法について説明したが、この処理の高速化を
実現する第2実施例を次に説明する。
【0024】図7は、第2実施例による文字認識装置の
ブロック図である。図の装置は、読取部1、領域抽出部
2、行切出し部3、行バッファ4、文字切出し部5a、
文字認識部6a、文字幅検出部7、複合文字判定部8か
らなる。ここで、読取部1〜行バッファ4は、上述した
第1実施例と同様の機能を有するものである。
【0025】また、文字幅検出部7は、行バッファ4か
らの文字列データから、各文字の文字幅を検出する機能
を有している。複合文字判定部8は、文字幅検出部7で
検出された各文字幅を予め定めた一定値と比較し、その
一定値を超えた文字があった場合は、当該文字は複合文
字であると判定する機能を有しているものである。
【0026】尚、文字切出し部5aおよび文字認識部6
aの動作は、上記第1実施例と同様であるが、文字切出
し部5aは、複合文字判定部8で複合文字と判定された
文字のみをラベル付け処理によって文字切出しするもの
である。また、文字認識部6aは、文字幅検出部7で1
文字と判定された文字と、文字切出し部5aで切出した
文字とに基づき文字認識を行う機能を有している。
【0027】次に、このように構成された第2実施例の
動作を説明する。図8は、文字認識のフローチャートで
ある。先ず、行バッファ4から1行分のデータを読出し
(ステップS1)、文字の進行方向に垂直な方向に走査
し、黒画素が存在するラインで切出しを行い、1文字も
しくは複数の文字の外接矩形を求める(ステップS
2)。尚、ここでの文字切出し処理は、高速な処理であ
れば、特に限定はなく、例えばヒストグラム分布等、既
知の手法で行う。
【0028】図9に、この処理で文字切出しを行った結
果の一例を示す。文字幅検出部7は、図示のような各切
出し文字について、各文字幅を検出するが、ここでは、
「f」と「i」とが、重なって文字切出しされているた
め、その文字幅(文字の外接矩形幅)が他の文字よりも
大きくなっている。次に、複合文字判定部8では、各文
字の外接矩形の幅を予め実験的に求められた一定値TH
Lと比較し、複合文字か否かの判定を行う(ステップS
3)。即ち、外接矩形の幅が一定値よりも大きい場合は
複合文字と判断して、この複合文字に対して、上記第1
実施例におけるラベル付け処理を行う(ステップS
4)。その後は、第1実施例と同様に文字外接矩形抽出
処理を行い(ステップS5)、更に文字認識部6aがパ
ターン抽出処理を行って(ステップS6)、抽出した文
字パターンを順次パターンメモリに格納する(ステップ
S7)。
【0029】一方、ステップS3の複合文字判定の結
果、1文字であると判定された文字については、ステッ
プS4のラベル付け処理とステップS5の文字外接矩形
抽出処理を行わず、そのまま、ステップS6のパターン
抽出処理に移行する。パターン抽出処理の後、文字認識
が最終文字まで完了したかを判定し(ステップS8)、
完了していない場合は、ステップS3に戻って、複合文
字判定処理から繰り返して行い、最終文字であった場合
は、文字認識処理を終了する。
【0030】このように、第2実施例では、2文字以上
が一つの矩形として抽出される場合のみ、ラベル付け処
理を行うように構成したので、正確な文字切出しを行う
ことができるだけでなく、高速処理が可能となる。
【0031】
【発明の効果】以上説明したように、第1発明の文字認
識装置によれば、文字列を構成する画素のうち、連結し
ている画素には同一のラベル値を付与し、このラベル値
に基づいて文字切出しを行うよう構成したので、欧文の
ように、従来のヒストグラム分布等では、正確な文字切
出しが行えなかった文字列から容易に個々の文字パター
ンを抽出することが可能となり、従って、正確な文字認
識を行うことができる。
【0032】また、第2発明の文字認識装置によれば、
最初に文字列における各文字幅を抽出し、この文字幅に
基づき複合文字と判定された文字についてのみ、第1発
明と同様のラベル値に基づく文字切出しを行うよう構成
したので、文字認識を正確に行えるだけでなく、文字認
識処理の高速化を図ることができる。
【図面の簡単な説明】
【図1】本発明における第1実施例の文字認識装置の構
成を示すブロック図である。
【図2】従来の文字認識装置の問題点の説明図である。
【図3】第1実施例の文字認識装置における文字認識処
理のフローチャートである。
【図4】本発明の文字認識装置におけるラベル付け処理
の説明図である。
【図5】本発明の文字認識装置における文字切出しの一
例を示す図である。
【図6】本発明の文字認識装置における分離文字の統合
条件の説明図である。
【図7】本発明における第2実施例の文字認識装置の構
成を示すブロック図である。
【図8】第2実施例の文字認識装置における文字認識処
理を示すフローチャートである。
【図9】第2実施例の文字認識装置における複合文字の
説明図である。
【符号の説明】
5、5a 文字切出し部 6、6a 文字認識部 7 文字幅検出部 8 複合文字判定部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 鳥越 真 東京都港区虎ノ門1丁目7番12号 沖電気 工業株式会社内

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 イメージデータ表示された文字列で、当
    該文字列を構成する画素のうち、連結している画素に
    は、同一のラベル値を付与し、このラベル値に基づき各
    文字の1文字を構成する領域を判定する文字切出し部
    と、 前記文字切出し部で判定された文字領域の画像に対して
    文字認識を行う文字認識部とを備えたことを特徴とする
    文字認識装置。
  2. 【請求項2】 イメージデータ表示された文字列の中か
    ら各文字の文字幅を検出する文字幅検出部と、 前記文字幅検出部で検出された各文字幅を一定値と比較
    し、当該一定値を超えた文字があった場合は、当該文字
    は複合文字であると判定する複合文字判定部と、 前記複合文字判定部で複合文字と判定された文字に対し
    て、当該複合文字を構成する画素のうち、連結している
    画素には同一のラベル値を付与し、このラベル値に基づ
    き当該複合文字中の1文字を構成する領域を判定する文
    字切出し部と、 前記文字切出し部で判定された文字領域の画像と、前記
    文字幅検出部で検出された文字幅の画像に対して文字認
    識を行う文字認識部とを備えたことを特徴とする文字認
    識装置。
JP5192748A 1993-07-07 1993-07-07 文字認識装置 Pending JPH0728938A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5192748A JPH0728938A (ja) 1993-07-07 1993-07-07 文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5192748A JPH0728938A (ja) 1993-07-07 1993-07-07 文字認識装置

Publications (1)

Publication Number Publication Date
JPH0728938A true JPH0728938A (ja) 1995-01-31

Family

ID=16296401

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5192748A Pending JPH0728938A (ja) 1993-07-07 1993-07-07 文字認識装置

Country Status (1)

Country Link
JP (1) JPH0728938A (ja)

Similar Documents

Publication Publication Date Title
US6226402B1 (en) Ruled line extracting apparatus for extracting ruled line from normal document image and method thereof
JPH05233873A (ja) 領域分割方法
IL98293A (en) A method for distinguishing between text and graphics
JPH0728938A (ja) 文字認識装置
JP3276555B2 (ja) フォーマット認識装置及び文字読取り装置
JP2003196592A (ja) 画像処理プログラム及び画像処理装置
JP2558668B2 (ja) 文字パタ−ン抽出方法
JPH0728933A (ja) 文字認識装置
JP3379663B2 (ja) 文字認識装置
JPH07230525A (ja) 罫線認識方法及び表処理方法
JPH0728934A (ja) 文書画像処理装置
JPS6254380A (ja) 文字認識装置
US6142374A (en) Optical character reader
JPH0713996A (ja) 文字認識装置
JPH0773273A (ja) パターン切出しおよび認識方法とそのシステム
JPH09106437A (ja) 文字切出し装置および文字切出し方法
JPH10171924A (ja) 文字認識装置
JPS6327990A (ja) 文字認識方法
JPH08202824A (ja) 文書画像認識装置
JPH05108887A (ja) パターン切出しおよび認識方法とそのシステム
JPH08171609A (ja) 文字列高速抽出装置
JPH1040334A (ja) パターン抽出装置及びパターン領域の切り出し方法
JPH06301814A (ja) 文字読取装置
JPH0844820A (ja) 光学的文字読取装置
JPH04585A (ja) 文字認識装置及び文字切り出し方法