JP2721415B2 - 文字画像抽出方法 - Google Patents

文字画像抽出方法

Info

Publication number
JP2721415B2
JP2721415B2 JP2042044A JP4204490A JP2721415B2 JP 2721415 B2 JP2721415 B2 JP 2721415B2 JP 2042044 A JP2042044 A JP 2042044A JP 4204490 A JP4204490 A JP 4204490A JP 2721415 B2 JP2721415 B2 JP 2721415B2
Authority
JP
Japan
Prior art keywords
processing
black pixel
image
character
column
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2042044A
Other languages
English (en)
Other versions
JPH03244096A (ja
Inventor
功 菅野
浩一 樋口
義征 山下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2042044A priority Critical patent/JP2721415B2/ja
Publication of JPH03244096A publication Critical patent/JPH03244096A/ja
Application granted granted Critical
Publication of JP2721415B2 publication Critical patent/JP2721415B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は、文字認識機能を有する光学式文字読取り装
置(Optical Character Reader、以下OCRという)等に
おいて、文字画像を抽出するための文字画像抽出方法に
関するものである。
(従来の技術) 従来、このような分野の技術としては、特公昭62−75
90号公報(文献1)、及び特開昭64−36384号公報(文
献2)に記載されるものがあった。
例えば、OCRは、各種帳票上に記載されている文字を
コンピュータ等に入力する装置として広く普及しつつあ
る。従来のOCRでは、文字記入枠をドロップアウトカラ
ー(OCRが感知できない色)で印刷し、文字を非ドロッ
プアウトカラー(OCRが感知できる色)で記入するとい
った制限を設けることにより、入力時に文字画像のみを
光学的に読取るという方法が一般的であった。
ところが、このような文字画像抽出方法では、指定さ
れたドロップアウトカラーで文字記入枠が印刷された帳
票しか用いる事ができず、印刷コストが増加するといっ
た問題もあり、文字記入枠が非ドロップアウトカラーで
印刷されているものでも、文字画像抽出可能なOCRの要
求が高まり、それに対する種々の提案がなされている。
第2図は、文字が文字記入枠に接している例を示す図
である。この図に示すように、従来の提案では、帳票等
において文字記入枠10が非ドロップアウトカラーで描か
れていても、その文字記入枠10内に記入された文字画像
11を抽出することは可能である。しかし、文字記入枠10
に接するように記入されている文字画像11を抽出するこ
とができなかった。そこで、前記文献1,2では、このよ
うな場合でも文字画像を抽出するための方法が記載され
ている。
即ち、前記文献1の方法では、先ず文字記入枠10を構
成する縦線及び横線と、文字画像11を構成する縦線及び
横線とに対し、太さ及び長さに関してそれぞれ異なる制
限を設定し、文字記入枠10の制限に該当する縦線及び横
線を検出する。そして、前記の検出された縦線及び横線
に相当するパタンを消去した後、これら消去した縦線及
び横線と、これら以外の文字等が交わっていた部分のパ
タンを補充する方法であった。
これに対して前記文献2の方法では、入力画像全体を
細線化し、この細線化パタンの文字記入枠10上の屈折点
及び分岐点から分離候補点を抽出する。そして、抽出さ
れた分離候補点と予め定められた分離タイプとから、分
離情報を抽出した後、前記入力画像、細線化パタン及び
分離情報を入力とし、前記入力画像の分離画素を決定
し、その分離画素により、前記入力画像から文字画像の
みを分離・抽出する方法であった。
(発明が解決しようとする課題) しかしながら、上記の文字画像抽出方法では、次のよ
うな課題があった。
(a) 前記文献1の方法では、帳票上の画像の性質と
走査部の性質から、縦線及び横線の太さ及び長さに関す
る制限を設定することが必要となる。しかも、抽出文字
画像を構成する縦線及び横線のうち、例外的に文字記入
枠10を構成する縦線及び横線の線幅より細く長いものが
ある場合、その線を文字記入枠10として検出して抽出文
字画像から消去してしまうため、正確な文字画像11が抽
出できない。さらに、文献1の方法では次のような問題
もある。
即ち、第3図(a),(b)は文字記入枠の削除に伴
う文字線の欠落を示す図であり、同図(a)は文字記入
枠削除前の図、及び同図(b)は文字記入枠削除後の図
である。この図に示すように、抽出文字画像が文字記入
枠10と交差している部分では、その交差部分も文字記入
枠10と共に消去してしまうため、その後、消去された部
分を修正処理する必要があり、その修正処理に時間がか
かるという問題もあった。
(b) 前記文献2の方法では、原画像パタンを細線化
する必要があり、これをコンピュータプログラムを用い
たソフトウェアで実現しようとすると、処理時間が増大
し、逆にこの処理時間を短縮しようとすると、コンピュ
ータのハードウェア量が増加するという問題があった。
本発明は前記従来技術が持っていた課題として、抽出
文字と文字記入枠の縦線及び横線の太さと長さに制限が
存在する点と、抽出文字パタンの復元処理あるいは画像
パタンの細線化に時間がかかるといった点について解決
した文字画像抽出方法を提供するものである。
(課題を解決するための手段) 本発明は前記課題を解決するために、入力媒体を光電
変換して2値画像を生成し、その2値画像から文字部分
を切り出して抽出する文字画像抽出方法において、前記
2値画像のうち所定の処理対象領域内の処理対象行また
は処理対象列の処理対象黒画素列が該処理対象領域の予
め設定された所定の辺に接しているか否かを判定する辺
接触判定処理と、前記処理対象黒画素列が、前記処理対
象行または処理対象列の1行前または1列前の黒画素列
と接触しているか否かを判定する黒画素連結判定処理
と、前記処理対象行または処理対象列より以前に処理を
行った行または列の黒画素の連続の発生している辺の位
置を検出しそれを保存する辺接触位置保存処理と、前記
処理対象行または処理対象列に黒画素列が2箇所存在す
る際に、前記処理対象黒画素列が左・右のどちらに、ま
たは上・下のどちらに位置しているのかを検出しその検
出結果を保存する黒画素位置検出処理とを、実行する。
その後、前記辺接触判定処理、黒画素連結判定処理、
辺接触位置保存処理及び黒画素位置検出処理の各処理結
果に基づき、黒画素状態判定処理によって前記処理対象
画素列の保存状態を判定し、該保存状態の判定結果に基
づき、文字部分を抽出するようにしたものである。
(作 用) 本発明によれば、以上のように文字画像抽出方法を構
成したので、2値画像が入力されると、辺接触判定処理
では、処理対象黒画素列の所定の辺への接触状況を判定
し、黒画素連結判定処理では、処理対象黒画素列の前行
または前列からの連結状況を判定し、さらに辺接触位置
保存処理では、以前に処理した行または列の残留黒画素
列の所定の辺への接触位置の検出と保存を行うと共に、
黒画素位置検出処理では、処理対象行において黒画素列
が2箇所存在する場合の処理対象黒画素列の位置の検出
を行う。これらの各処理を行うと、黒画素状態判定処理
では、辺接触判定処理、黒画素連結判定処理、辺接触位
置保存処理及び黒画素位置検出処理の各処理結果に基づ
き、処理対象黒画素列の保存状態を判定する。この黒画
素状態判定処理の判定結果に基づき、文字部分を抽出す
れば、簡単かつ的確に文字画像のみの抽出が行える。従
って、前記課題を解決できるのである。
(実施例) 第4図は、本発明の実施例にかかる文字画像抽出方法
を説明するための文字画像抽出装置の機能ブロック図で
ある。
この文字画像抽出装置は、光電変換部21により入力媒
体Dinにおける読取り領域内の画像を読取って2値画像
に量子化する読取部20と、該読取部20により読取られた
2値画像を例えばラインバッファ31に保存する画像保存
手段30と、該画像保存手段30に保存されている2値画像
の中から文字画像のみを抽出・出力する文字画像抽出部
40とで、構成されている。
文字画像抽出部40は、画像保存手段30に保存されてい
る2値画像を入力し、文字認識のときに妨げとなる例え
ば文字記入枠画像を消去し、文字画像のみを抽出・出力
する機能を有している。この文字画像抽出部40は、各文
字記入枠画像を含めた各文字画像を予め設定されている
範囲で切り出す文字切り出し手段41を備え、その文字切
り出し手段41の出力側には、パタンレジスタ42、処理領
域切り出し手段43、第1の処理領域保存手段44−1、及
び黒画素列検出手段45が接続されている。パタンレジス
タ42は、文字切り出し手段41により切り出された画像を
保存し、文字画像を画像出力Doutの形で出力する機能を
有している。処理領域切り出し手段43は、パタンレジス
タ42に保存されている画像のうち1本の文字記入枠画像
を含む処理対象となる領域(これを「処理領域」とい
う)を切り出す機能を有し、その出力側に接続された第
1の処理領域保存手段44−1は、処理領域切り出し手段
43により切り出された画像を保存するものである。黒画
素列検出手段45は、第1の処理領域保存手段44−1に保
存されている画像のうち、処理対象となる1行(これを
「処理行」という)の画像中の、処理対象となる1つ以
上の黒画素の連続(これを「処理対象黒画素列」とい
う)を検出する機能を有している。
この黒画素列検出手段45の出力側には、第1の辺接触
判定手段46−1及び黒画素連結判定手段47が接続され、
さらにそれらの出力側に、黒画素状態判定手段48、第2
の処理領域保存手段44−2、及びラベル値列検出手段49
が接続されている。ラベル値列検出手段49の出力側に
は、第2の辺接触判定手段46−2、ラベル値列連結判定
手段50、ラベル値状態判定手段51、及び第3の処理領域
保存手段44−3が接続されている。
第1の辺接触判定手段46−1は、処理対象黒画素列が
処理領域の所定の辺に接しているか否かを判定する機能
を有し、また黒画素連結判定手段47は、処理対象黒画素
列が処理行の1行前の処理済み行の中の1つ以上の“1"
あるいは“2"のラベル値の連続のいずれかと接触してい
るか否かを判定する機能を有している。黒画素状態判定
手段48は、第1の辺接触判定手段46−1及び黒画素連結
判定手段47の各判定結果を用い後述する第1の規則に従
い、処理対象黒画素列に対して“0"(消去画素)、“1"
(優先画素)、“2"(保留画素)の3種類のいずれかの
値にラベル付けする機能を有している。
黒画素状態判定手段48の出力側に接続された第2の処
理領域保存手段44−2は、黒画素状態判定手段48により
設定されたラベル付け結果を処理領域分順次保存する機
能を有し、さらにその出力側のラベル値検出列手段49
は、第2の処理領域保存手段44−2に保存されている処
理領域分のラベル値の中の処理対象となる1行分のラベ
ル値列のうち、“1"または“2"で示される1つ以上の画
素の連続(これを「処理対象ラベル値列」という)を検
出する機能を有している。第2の辺接触判定手段46−2
は、処理対象ラベル値列が処理領域の所定の辺に接して
いるか否かを判定する機能を有し、またラベル値連結判
定手段50は、処理対象ラベル値列が、処理対象行の1行
前の処理済みの行の中の1つ以上のラベル値の連続と接
触しているか否かを判定する機能を有している。
ラベル値状態判定手段51は、第2の辺接触判定手段46
−2及びラベル値列連結判定手段50の各判定結果を用
い、後述する第2の規則に従い、処理対象ラベル値列に
対して“0"あるいは“1"の2値に設定する機能を有し、
さらにその出力側に接続された第3の処理領域保存手段
44−3は、ラベル値状態判定手段51により設定されたラ
ベル値を処理領域分順次保存し、その保存結果をラベル
値列連結判定手段50にフィードバックすると共に、最終
的な保存値をパタンレジスタ42にフィードバックする機
能を有している。
以上のような文字画像抽出装置において、第1及び第
2の辺接触判定手段46−1,46−2は、ラインバッファ31
に保存された2値画像のうち、所定の処理対象領域内の
処理対象行(または処理対象列)の処理対象黒画素列
が、処理対象領域の予め与えられている所定の辺に接し
ているか否かを判定する辺接触判定処理を行う機能を有
すると共に、第1の辺接触判定手段46−1では、処理対
象行(または処理対象列)より以前に処理を行った行
(または列)の黒画素の連続の発生している辺の位置を
検出・保存する辺接触位置保存処理を行う。黒画素連結
判定手段47及びラベル値列連結判定手段50は、処理対象
黒画素列が、処理対象行(または処理対象列)の1行前
(または1列前)の黒画素列と接触しているか否かを判
定する黒画素連結判定処理を行う。また、黒画素状態判
定手段48及びラベル値状態判定手段51は、処理対象行
(または処理対象列)に黒画素列が2箇所存在する際
に、処理対象黒画素列が左・右(または上・下)どちら
に位置しているのかを検出・保存する黒画素位置検出処
理を行うと共に、処理対象黒画素列の保存状態を判定す
る黒画素状態判定処理を行う機能を有している。
第1図は、第4図の文字画像抽出装置における文字画
像抽出手順のフローチャートであり、この第1図と第5
図(a)〜(c)及び第6図(a)〜(i)までを参照
しつつ、本発明の実施例である文字画像抽出方法につい
て説明する。
なお、第5図(a)〜(c)は、文字画像及び文字記
入枠画像の例を示すもので、同図(a)はラインバッフ
ァ31内の画像例、同図(b)はパタンレジスタ42に最初
に保存される画像例、同図(c)は第1の処理領域保存
手段44−1に保存される処理領域の例を示す図である。
第5図(c)において、文字記入枠画像50内には文字画
像51が描かれ、その文字記入枠画像50の右辺の破線が処
理領域52として示されている。この処理領域52におい
て、左辺が52a、右辺が52b、行方向が53a、列方向が53b
でそれぞれ示されている。
また、第6図(a)〜(i)は、処理領域内の画像の
変化を示す図であり、同図(a),(d),(g)は文
字画像51が縦方向の文字記入枠画像50に接触及び交差し
ている場合の典型的な処理領域内の原画像例を示す図で
ある。さらに同図(b),(c)と(e),(f)と
(h),(i)は、それぞれ同図(a),(d)及び
(g)を処理領域の画像とした時の一定処理後の第2の
処理領域保存手段44−2及び第3の処理領域保存手段44
−3の内容を示している。なお第6図では、図面を見易
くするために、“0"は表示せずにブランクの状態で示し
ている。
以下の説明では、説明の簡単化を図るために、縦方向
の文字記入枠画像50を消去する場合に処理の範囲を限定
して文字画像抽出方法について説明する。
第1図のフローチャートは、ステップ100〜122の処理
手順からなり、ステップ105及び114によって辺接触判定
処理130aと辺接触位置保存処理130bが行われ、ステップ
107で黒画素位置検出処理132が実行され、さらにステッ
プ108及び117によって黒画素状態判定処理133が実行さ
れる構成になっている。
第1図のフローチャートにおいて、先ず、読取部20
が、入力媒体Dinの予め設定された読取領域の走査を開
始すると、読取部20は、“0"(白画素)呼び“1"(黒画
素)の2値に量子化された画像を走査順に画素毎に出力
し、その2値画像を画像保存手段30のラインバッファ31
に順次保存させる(ステップ100)。そのため、ライン
バッファ31には、第5図(a)に示すような画像が保存
される。
ステップ101において、文字切り出し手段41では、予
め与えられている入力媒体Dinのフォーマット情報に基
づき、画像保存手段30に保存されている2値画像の中か
ら、少なくとも文字記入枠画像50を含む範囲で各文字画
像51を切り出し、その切り出した画像を順次パタンレジ
スタ42に保存させる。その結果、パタンレジスタ42に
は、第5図(b)に示すような画像が保存される。な
お、文字切り出し手段41に予め与えられる入力媒体Din
のフォーマット情報は、画像の各部分の切り出し範囲を
示すもので、例えば入力媒体Dinのエッジからの距離と
して与えられる。
ステップ102では、処理領域切り出し手段43により、
前記入力媒体Dinのフォーマット情報に基づき、パタン
レジスタ42に保存されている2値画像から、消去対象と
なる文字記入枠画像50が1本だけ含まれている範囲(即
ち、処理領域)を切り出し、その切り出した2値画像を
順次第1の処理領域保存手段44−1に所存させる。な
お、本実施例では、処理領域切り出し手段43によって切
り出される処理領域を、説明の簡単化を図るために、第
5図(c)の破線で囲まれている右側の縦方向文字記入
枠画像50を含む部分のみとして以後の説明を行う。
次に、ステップ103において処理行座標変数Yの初期
値として“1"を設定した後、ステップ104において、黒
画素列検出手段45により、第1の処理領域保存手段44−
1に保存された処理領域内のY行目の黒画素列(即ち、
処理対象黒画素列)を検出し、ステップ105に進む。ス
テップ105では、第1の辺接触判定手段46−1により、
前記の処理対象黒画素列が第5図(c)の処理領域52の
左辺52aあるいは右辺52bに接触しているか否かを調べ、
接触している場合には、どちらの辺に接触しているのか
を記憶する。
ステップ106において、黒画素連結判定手段47では、
前記の処理対象黒画素列が、第2の処理領域保存手段44
−2に保存されている画像中のラベル値列のいずれかと
連結しているか否かを判定する。ここで、第2の処理領
域保存手段44−2に保存されている画像中のラベル値列
は、黒画素状態判定手段48により、処理行の1行前の画
像に対し処理を行うことにより、与えられる。また、前
記処理行が1行目の場合、その前の1行、つまり処理対
象外の1行に文字画像が存在していることは考えにくい
ため1行前の画像は全て白画素であるとする。
ステップ107において、黒画素状態判定手段48では、
処理行の黒画素列の数を検出し、その数が2の場合、処
理対象黒画素列が左・右のどちら側に位置するのかを検
出し、結合子bを介してステップ108へ進む。ステップ1
08では、黒画素状態判定手段48の検出出力と、第1の辺
接触判定手段46−1及び黒画素連結判定手段47からの情
報とを用い、下記の第1の規則に従い処理対象黒画素列
の各画素に対して“0"、“1"、“2"の3値のラベル付け
を行い、その結果を、ステップ109において、画素毎
に、順次第2の処理領域保存手段44−2に保存する。な
お、ステップ108において、ラベル付けにおけるラベル
値の“1"及び“2"はそれぞれ黒画素及び黒画素候補画素
を示しており、以後の説明では、これらの1つ以上の連
続を「ラベル値列」と称するが、これらは黒画素列の一
種である。
以上のステップ104〜109までの処理をステップ110及
び111を介して処理領域内の全ての行について行う。
処理領域内の原画像を第6図(a),(d)及び
(g)として以上の処理を行った場合、第6図(b),
(e)及び(h)に示すようなラベル付けの結果が得ら
れる。この第6図から明らかなように、ステップ100〜1
11までの処理を行うことにより、最上端の行から、第5
図の文字記入枠画像50が文字画像51に接する部分まで
の、文字記入枠画像50が消去される。
これ以降のステップ112〜119の処理は、前記の処理領
域を、以上までの処理とは逆方向、即ち最下行から最上
行に向かって行うものである。
まず、ステップ112では、処理行座標変数Yから1を
減じて、処理行の初期値を処理領域の最下行とし、ステ
ップ113に進む。ステップ113では、ラベル値列検出手段
49により、処理領域内のY行目のラベル値が“1"または
“2"の1つ以上の連続(これを「処理対象ラベル値列」
という)を検出する。ステップ114では、第2の辺接触
判定手段46−2により、処理対象ラベル値列が、第5図
(c)に示す処理領域52の左辺52aあるいは右辺52bに接
触しているか否かを調べ、接触している場合にはどちら
の辺に接触しているのかを記憶する。次にステップ115
では、ラベル値列連結判定手段50において、処理対象ラ
ベル値列が、第3の処理領域保存手段44−3に保存され
ている画像中の黒画素列のいずれかと連結しているか否
かを判定する。ここで、第3の処理領域保存手段44−3
に保存されている画像中の黒画素列は、ラベル値状態判
定手段51により、処理行の1行前の画像(本実施例の場
合、1行下の行の画像)に対して処理された結果が第3
の処理領域保存手段44−3に保存されたものである。た
だし、処理行が最下行の場合、その下の1行、即ち処理
領域外の1行に文字画像51が存在していることが考えに
くいので、本実施例では1行下の画像を全て白画素であ
るとする。
次にステップ116では、ラベル値状態判定手段51によ
り、処理対象行の中の全ての処理対象ラベル値列の数を
検出し、結合子cを介してステップ117へ進む。ステッ
プ117では、ステップ116の情報と、第2の辺接触判定手
段46−2及びラベル値列連結判定手段50からの情報とを
用い、各画素に対するラベル値を参照しつつ、下記の第
2の規則に従い、処理対象ラベル値列の各画素に対して
“0"あるいは“1"の2値を設定し、その結果を、ステッ
プ118において、画素毎に順次第3の処理領域保存手段4
4−3に保存する。
以上のステップ113〜ステップ118までの処理を、ステ
ップ119を介して処理領域内の全ての行について行う。
処理領域内の原画像を第6図(a),(d)及び
(g)として行った場合、以上までの処理を行うことに
より第6図(c),(f)及び(i)ののような画像結
果が得られる。この第6図から明らかなように、以上の
ような処理を行うことにより、処理領域内の全ての文字
記入枠画像50が消去され、文字画像51のみが残ることに
なる。
次に、ステップ120において、第3の処理領域保存手
段44−3に保存されている画像を、パタンレジスタ42に
書き込む。この結果、パタンレジスタ42内の1文字分の
画像は、文字記入枠画像50のみが消去されたものとなる
ので、これをステップ121において画像出力Doutの形で
出力する。
以上の全ての処理をステップ122及び結合子aを介し
てラインバッファ31内の全ての文字画像について行え
ば、本実施例の処理が終了し、文字画像のみの抽出が行
える。
以上説明したように、本実施例の文字画像抽出方法で
は、次のような利点を有している。
(i) 本実施例では、ステップ105,114の辺接触判定
処理130aにより、処理対象黒画素列の所定の辺への接触
状況の判定を行い、ステップ106,115の黒画素連結判定
処理131により、処理対象黒画素列の前行からの連結状
況の判定を行い、さらにステップ105,114の辺接触位置
保存処理130bにより、以前に処理した行の残留黒画素列
の所定の辺への接触位置の検出・保存を行い、ステップ
107の黒画素位置検出処理132により、処理対象行におい
て黒画素列が2箇所存在する場合の処理対象黒画素列の
位置の検出を行った後、ステップ108,117の黒画素状態
判定処理133により、処理対象黒画素列の保存状態を判
定するという簡単な処理を行うのみで、文字記入枠や罫
線等を含む画像から、文字のみの画像抽出が的確に行え
る。そのため、従来の方法では文字画像と文字記入枠画
像のそれぞれに対して存在した色の種類の制限を除去す
ることができ、OCR等の適用範囲が拡大する。
また、本実施例の抽出方法では、2値画像を処理する
ので、大容量を必要とする多値の画像メモリを必要とせ
ず、それによって装置規模の小形化、処理速度の高速化
及び低コスト化が図れる。しかも、本実施例では、文字
画像及び文字記入枠画像の線幅あるいは線長に全く無関
係に文字画像の抽出のみが行えるので、入力媒体Dinに
おける線画像に対する制限事項を削除でき、それによっ
て本実施例の文字画像抽出方法を種々の装置に適用で
き、汎用性がより向上する。
(ii) 第7図(a)〜(c)は、処理領域内の他の画
像の変化を示す図であり、同図(a)は縦方向の文字記
入枠画像50に文字画像51が接していない場合の処理領域
内の画像例である。さらに第7図(b)及び(c)は、
同図(a)を処理領域の画像とした時の一定処理後の第
2の処理領域保存手段44−2と第3の処理領域保存手段
44−3の各内容を示す。なお、この第7図では、図面の
簡略化を図るために、“0"は表示しないでブランクとし
ている。
第7図(a)に示すように、文字画像51が文字記入枠
画像50に接触・交差していない場合でも、第1図と同様
の処理手順により、第7図(c)に示すように、文字記
入枠画像50を消去することができる。
(iii) 本実施例では、説明の簡単化のため、消去対
象とする文字記入枠画像50を右端の縦方向の文字記入枠
画像1箇所に限定したが、他の縦方向の文字記入枠画像
も第1図と同様の方法で処理することができる。
(iv) 実施例では縦方向の左・右の文字記入枠画像の
消去方法について説明したが、横方向の上・下の文字記
入枠画像に対しては、例えば第4図に示す第1の処理領
域保存手段44−1以降の各手段の走査方向を変更し、さ
らに予め各文字記入枠画像を中心付近に含む位置情報を
処理領域切り出し手段43等に与えることにより、上・下
の文字記入枠画像を的確に消去することができる。
なお、本発明は、図示の実施例に限定されず、種々の
変形が可能である。その変形例としては、例えば次のよ
うなものがある。
(a) 第1図のステップ108,117で使用される第1,第
2の規則は一例を示すものであって、それらの中に別の
規則を追加等して処理内容を変更することも可能であ
る。さらに第1図のフローチャートにおいて他の処理ス
テップを追加したり、あるいは削除する等して、処理手
順を変更することも可能である。
(b) 本発明の文字画像抽出方法に用いられる第4図
の文字画像抽出装置において、例えばラインバッファ31
やパタンレジスタ42等を他のメモリ等で構成したり、さ
らに第4図の各ブロックを個別回路で構成する以外に、
それらの各ブロックをコンピュータによるプログラム制
御等により実行しても良い。
(発明の効果) 以上詳細に説明したように、本発明によれば、辺接触
判定処理により、処理対象黒画素列の所定の辺への接触
状況の判定を行い、黒画素連結判定処理により、処理対
象黒画素列の前行(または前列)からの連結状況の判定
を行い、さらに辺接触位置保存処理により、それ以前に
処理した行(または列)の残留黒画素列の所定の辺への
接触位置の検出・保存を行い、黒画素位置検出処理によ
り、処理対象行において黒画素列が2箇所存在する場合
の処理対象黒画素列の位置の検出を行った後、黒画素状
態判定処理により、処理対象黒画素列の保存状態を判定
し、その判定結果に基づき、文字部分を抽出するように
したので、文字画像抽出処理が簡単となり、文字記入枠
や罫線等を含む画像から、文字のみの画像抽出が的確に
行える。そのため、従来の文字画像と文字記入枠画像の
それぞれに対して存在した色の種類の制限を除去でき、
OCR等の適用範囲が広がる。その上、2値画像から文字
画像のみの抽出を行うようにしたので、大容量を必要と
する多値の画像メモリを必要とせず、それによって装置
規模の小形化、処理速度の高速化及び低コスト化が図れ
る。さらに本発明では、文字画像及び文字記入枠画像の
線幅あるいは線長に全く無関係に、文字画像のみの抽出
が行えるので、入力媒体における線画像に対する制限事
項を削除することができ、それによって汎用性の向上が
図れる。
【図面の簡単な説明】
第1図は本発明の実施例を示す文字画像抽出手順のフロ
ーチャート、第2図は文字が記入枠に接している例を示
す図、第3図(a),(b)は文字記入枠の削除に伴う
文字線の欠落を示す図、第4図は本発明の実施例を示す
文字画像抽出装置の機能ブロック図、第5図(a)〜
(c)は文字画像及び文字記入枠画像の例を示す図、第
6図(a)〜(i)は処理領域内の画像の変化を示す
図、第7図(a)〜(c)は処理領域内の他の画像の変
化を示す図である。 20……読取部、30……画像保存手段、40……文字画像抽
出部、41……文字切り出し手段、42……パタンレジス
タ、43……処理領域切り出し手段、44−1,44−2,44−3
……第1,第2,第3の処理領域保存手段、45……黒画素列
検出手段、46−1,46−2……第1,第2の辺接触判定手
段、47……黒画素連結判定手段、48……黒画素状態判定
手段、49……ラベル値列検出手段、50……ラベル値列連
結判定手段、51……ラベル値状態判定手段、130a……辺
接触判定処理、130b……辺接触位置保存処理、131……
黒画素連結判定処理、132……黒画素位置検出処理、133
……黒画素状態判定処理。

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】入力媒体を光電変換して2値画像を生成
    し、その2値画像から文字部分を切り出して抽出する文
    字画像抽出方法において、 前記2値画像のうち所定の処理対象領域内の処理対象行
    または処理対象列の処理対象黒画素列が該処理対象領域
    の予め設定された所定の辺に接しているか否かを判定す
    る辺接触判定処理と、 前記処理対象黒画素列が、前記処理対象行または処理対
    象列の1行前または1列前の黒画素列と接触しているか
    否かを判定する黒画素連結判定処理と、 前記処理対象行または処理対象列より以前に処理を行っ
    た行または列の黒画素の連続の発生している辺の位置を
    検出しそれを保存する辺接触位置保存処理と、 前記処理対象行または処理対象列に黒画素列が2箇所存
    在する際に、前記処理対象黒画素列が左・右のどちら
    に、または上・下のどちらに位置しているのかを検出し
    その検出結果を保存する黒画素位置検出処理とを、実行
    し、 前記辺接触判定処理、黒画素連結判定処理、辺接触位置
    保存処理及び黒画素位置検出処理の各処理結果に基づ
    き、黒画素状態判定処理によって前記処理対象黒画素列
    の保存状態を判定し、 該保存状態の判定結果に基づき、文字部分を抽出するこ
    とを特徴とする文字画像抽出方法。
JP2042044A 1990-02-22 1990-02-22 文字画像抽出方法 Expired - Lifetime JP2721415B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2042044A JP2721415B2 (ja) 1990-02-22 1990-02-22 文字画像抽出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2042044A JP2721415B2 (ja) 1990-02-22 1990-02-22 文字画像抽出方法

Publications (2)

Publication Number Publication Date
JPH03244096A JPH03244096A (ja) 1991-10-30
JP2721415B2 true JP2721415B2 (ja) 1998-03-04

Family

ID=12625128

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2042044A Expired - Lifetime JP2721415B2 (ja) 1990-02-22 1990-02-22 文字画像抽出方法

Country Status (1)

Country Link
JP (1) JP2721415B2 (ja)

Also Published As

Publication number Publication date
JPH03244096A (ja) 1991-10-30

Similar Documents

Publication Publication Date Title
JP2940936B2 (ja) 表領域識別方法
JP3338537B2 (ja) 画像傾き検出装置
JP2930612B2 (ja) 画像形成装置
US5075895A (en) Method and apparatus for recognizing table area formed in binary image of document
JP4655335B2 (ja) 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体
JP3727974B2 (ja) 画像処理装置及び方法
JP2001043313A (ja) 文字切出し方法
EP0766193B1 (en) Optical character reader with skew correction
JP2721415B2 (ja) 文字画像抽出方法
JP2908495B2 (ja) 文字画像抽出装置
JP5723803B2 (ja) 画像処理装置及びプログラム
JPH0656618B2 (ja) 画像情報の文字・図形分離方法
EP0975146A1 (en) Locating the position and orientation of multiple objects with a smart platen
JP2803736B2 (ja) 文字認識方式
JP3191265B2 (ja) 画像入力装置およびその画像入力制御方法
JP2708604B2 (ja) 文字認識方法
JP2803735B2 (ja) 罫線を含んだ文字認識装置
JP3199033B2 (ja) 光学式文字読取方法、及び光学式文字読取装置
JPH0660220A (ja) 文書画像の領域抽出方法
JP4230478B2 (ja) 文書処理装置、方法およびプログラム
JPH0433074B2 (ja)
JPH04316180A (ja) 文書画像の属性判別方法
JPH0343879A (ja) 文字認識装置およびその文字領域分離方法
JPH05128305A (ja) 領域分割方法
JPH1049602A (ja) 帳票認識方法