JPH09311905A - 行検出方法および文字認識装置 - Google Patents

行検出方法および文字認識装置

Info

Publication number
JPH09311905A
JPH09311905A JP8128354A JP12835496A JPH09311905A JP H09311905 A JPH09311905 A JP H09311905A JP 8128354 A JP8128354 A JP 8128354A JP 12835496 A JP12835496 A JP 12835496A JP H09311905 A JPH09311905 A JP H09311905A
Authority
JP
Japan
Prior art keywords
line
row
projection information
candidate area
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP8128354A
Other languages
English (en)
Other versions
JP4011646B2 (ja
Inventor
Akihiko Nakao
昭彦 中尾
Koji Yura
浩司 由良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP12835496A priority Critical patent/JP4011646B2/ja
Priority to DE69728469T priority patent/DE69728469T2/de
Priority to EP97108229A priority patent/EP0809205B1/en
Priority to US08/863,029 priority patent/US6035064A/en
Publication of JPH09311905A publication Critical patent/JPH09311905A/ja
Application granted granted Critical
Publication of JP4011646B2 publication Critical patent/JP4011646B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)

Abstract

(57)【要約】 【課題】高速で行検出精度の高い行検出方法およびそれ
を用いた文字認識装置を提供する。 【解決手段】行方向射影情報算出部5は、行候補領域の
それぞれについて、その行候補領域に属する外接矩形デ
ータに基づき前記外接矩形の重心位置をピークとする関
数Fi(x)を求めて、これらを重ね合わせることによ
り行方向射影情報G(x)を算出し、行の分割・統合部
6は、行候補領域の行方向射影情報から得られる射影値
の極大点位置とその行候補領域に属する各外接矩形の重
心位置を比較して行候補領域の分割位置を求めて行候補
領域を分割し、隣接する2つの行候補領域の行方向射影
情報を比較して、一方の行候補領域の行方向射影情報か
ら得られる射影値の極大点位置が他方の行候補領域の行
方向射影情報に基づき予め定められる範囲内にあるとき
前記2つの行候補領域を統合する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、例えば、光学的文
字読取装置(OCR)等において、紙に書かれた文書を
直接読み取って文字認識する際に、その文書画像から文
字行を検出する文字検出方法および、それを用いた文字
認識装置に関する。
【0002】
【従来の技術】例えば、手書きまたは活字で記載された
書状をスキャナ等の画像読取装置で読取り、その読み取
られた文書画像から文字を認識して文章情報を取り出す
文字認識装置において、文書画像から文字または文字列
を切り出す処理が必要である。
【0003】文字列を検出する方法としては、例えば、
画像上の黒画素の固まりに外接する矩形情報を求め、そ
れらを統合して文字列を検出する方法等がある。この文
字行検出方法は、まず、スキャナ等により読み取られた
書状の画像に対し、微分・2値化処理を施して2値化画
像を求める。さらに、2値化画像上の黒画素の連結して
いる画像領域を求めて、その領域に外接する矩形情報を
求める。その後、求めた各矩形領域の形状・位置などを
基に、外接矩形領域を統合して行候補領域を切り出す。
【0004】このようにして切り出された行領域候補
は、たとえば、スキャナ等で読み取られた書状が汚れて
いたり、行が斜めに書かれていたり、あるいは同一行内
で文字サイズが不均等であるために外接矩形情報が不正
確で、本来1行であったものが複数行に分かれて切り出
されたり、隣合う複数の行がまとめて1行として切り出
されたりする場合がある。
【0005】そこで、従来の行検出方法では、各行候補
領域内の射影情報を算出して行候補領域の統合・分割を
行うようになっている。すなわち、行候補領域の2値化
画像が切り出されると(図11のステップS100)、
図11のフローチャートに示した手順に従って行方向の
射影情報が算出される。
【0006】まず、行領域候補内の各画素を順に評価し
て(ステップS101)、その画素が黒画素であった場
合は(ステップS103)、行方向にその画素を射影し
た位置の射影値を増やし射影情報を更新する(ステップ
S104)。
【0007】全ての画素についての評価が終了すると行
方向の射影情報が求まる(ステップS105)。例え
ば、図3(a)のような行画像内の黒画素を行方向に射
影した場合、図3(c)のような結果を得る。
【0008】このようにして求められた各行候補領域の
射影情報をもとに、行候補の分離位置の検出あるいは各
行候補領域の統合の可否を判断し、最終的に行を検出す
るようになっていた。
【0009】
【発明が解決しようとする課題】しかし、従来の行検出
方法では、各行候補領域内の画素を1つずつ黒画素か否
か判定して、黒画素である場合は現在の射影情報に加算
するといった判定処理が必須であるので一行あたりの計
算量が多くなり、また、高速に演算するためには専用の
ハードウェアが必要であった。
【0010】また、行候補の分割・統合処理を何度も実
行する場合には処理時間が長くかかるという問題点があ
った。さらに、行に属する文字を画素情報として扱って
いるので、例えば、書状に文字が斜めに書かれている場
合等の文字行の検出の精度が低いという問題点があっ
た。そこで、本発明は、高速で、行検出精度の高い行検
出方法およびそれを用いた文字認識装置を提供すること
を目的とする。
【0011】
【課題を解決するための手段】本発明の行検出方法は、
入力された文書画像を2値化し、この2値化画像をその
画像中の画素連結成分を求めた外接矩形データに変換
し、この外接矩形データに基づき外接矩形を統合して行
候補領域を検出し、この検出された行候補領域に属する
外接矩形データに基づき、それぞれの外接矩形単位の射
影情報を求め、それぞれの外接矩形の射影情報に基づき
前記行候補領域の行方向射影情報を算出し、この行方向
射影情報に基づき、前記行候補領域から文字行を検出す
ることにより、高速でしかも精度の高い文字行検出が行
える。
【0012】また、前記外接矩形の位置と大きさに基づ
き前記外接矩形の射影情報を求め、各行候補領域毎にそ
れに属する全ての外接矩形の射影情報を重ね合わせるこ
とにより前記行候補領域のそれぞれの行方向射影情報を
算出することにより、射影情報の計算の高速化が図れ
る。
【0013】また、前記外接矩形の位置と大きさに基づ
き前記外接矩形の重心位置をピークとする射影情報を求
め、各行候補領域毎にそれに属する全ての外接矩形の射
影情報を重ね合わせることにより前記行候補領域のそれ
ぞれの行方向射影情報を算出することにより、射影情報
の計算の高速化が図れる。
【0014】また、前記行候補領域の行方向射影情報か
ら得られる射影値の極大値および極小値から行候補領域
を行方向と直交する方向に複数行に分割すべきか否かを
判定し、複数行に分割すべきと判定されたとき行方向射
影情報の極小値に基づき行分割位置を求め、それぞれの
外接矩形の重心位置と行分割位置とを比較することによ
り外接矩形を複数の行に区分し、この区分されたそれぞ
れの行の外接矩形を統合することにより文字行を検出す
ることにより、文字行検出が高速に、しかも高精度に行
える。
【0015】また、前記行候補領域の行方向射影情報か
ら得られる射影値の極大値および極小値から行候補領域
を行方向と直交する方向に複数行に分割すべきか否かを
判定し、複数行に分割すべきと判定されたとき行方向射
影情報に基づいてそれぞれの行領域を求め、それぞれの
外接矩形の重心位置と行領域とを比較して外接矩形をそ
れぞれの行に区分し、この区分されたそれぞれの行の外
接矩形を統合することにより文字行を検出することによ
り、文字行検出が高速に行え、しかも高精度に行える。
【0016】また、前記行候補領域の行方向射影情報か
ら得られる射影値の極大値および極小値から行候補領域
を行方向と直交する方向に複数行に分割すべきか否かを
判定し、複数行に分割すべきと判定されたとき行方向射
影情報に基づいてそれぞれの行領域を求め、それぞれの
外接矩形の重心位置と行領域とを比較して、当該外接矩
形の重心位置がそれぞれの行領域間に存在するとき、当
該外接矩形をそれぞれの行領域に分割することにより文
字行を検出することにより、文字行検出が高速に行え、
しかも高精度に行える。
【0017】また、本発明の行検出方法は、入力された
文書画像を2値化し、この2値化画像をその画像中の画
素連結成分を求めた外接矩形データに変換し、この外接
矩形データに基づき行候補領域を検出し、この行候補領
域が行方向に2分して検出されるとき、各外接矩形単位
で求められた射影情報をそれぞれの行候補領域について
重ね合わせることにより行候補領域の行射影情報を求
め、一方の行射影情報の極大点の位置を他方の行射影情
報と比較することによりそれぞれの行候補領域の統合の
可否を判定し、この判定結果に基づいて行候補領域の統
合を行うことにより文字行を検出することにより文字行
検出が高速に行え、しかも高精度に行える。
【0018】本発明の文字認識装置は、文書画像を光電
変換して入力する画像入力手段と、この画像入力手段で
入力された画像を2値化し、この2値化画像をその画像
中の画素連結成分を求めた外接矩形データに変換する変
換手段と、この変換手段により変換された前記外接矩形
データに基づき外接矩形を統合して行候補領域を検出す
る行候補検出手段と、この行候補検出手段で検出された
行候補領域に属する外接矩形データに基づき、それぞれ
の外接矩形単位の射影情報を求め、それぞれの外接矩形
の射影情報に基づき前記行候補領域の行方向射影情報を
算出する算出手段と、この算出手段で算出された行候補
領域の行方向射影情報に基づき文字行を検出する文字行
検出手段と、この文字行検出手段で検出された文字行か
ら文字を検出して文字認識を行う文字認識手段と、を具
備しすることにより、高速でしかも精度の高い文字行検
出が行え、従って、高速でしかも文字認識率の高い文字
認識が可能となる。
【0019】また、前記算出手段は、前記外接矩形の位
置と大きさに基づき前記外接矩形の射影情報を求め、行
候補領域に属する全ての外接矩形の射影情報を重ね合わ
せることにより前記行候補領域の行方向射影情報を算出
することにより、射影情報の計算の高速化が図れる。
【0020】また、前記算出手段は、前記外接矩形の位
置と大きさに基づき前記外接矩形の重心位置をピークと
する射影情報を求め、行候補領域に属する全ての外接矩
形の射影情報を重ね合わせることにより前記行候補領域
の行方向射影情報を算出することにより、射影情報の計
算の高速化が図れる。
【0021】また、前記文字行検出手段は、前記算出手
段で算出された行候補領域の行方向射影情報から得られ
る射影値の極大値および極小値から行候補領域を行方向
と直交する方向に複数行に分割すべきか否かを判定し、
複数行に分割すべきと判定されたとき行方向射影情報の
極小値に基づき行分割位置を求め、それぞれの外接矩形
の重心位置と行分割位置とを比較することにより外接矩
形を複数の行に区分し、この区分されたそれぞれの行の
外接矩形を統合することにより文字行を検出することに
より、文字行検出が高速に行え、しかも高精度に行え
る。
【0022】また、前記文字行検出手段は、前記算出手
段で算出された行候補領域の行方向射影情報から得られ
る射影値の極大値および極小値から行候補領域を行方向
と直交する方向に複数行に分割すべきか否かを判定し、
複数行に分割すべきと判定されたとき行方向射影情報に
基づいてそれぞれの行領域を求め、それぞれの外接矩形
の重心位置と行領域とを比較して外接矩形をそれぞれの
行に区分し、この区分されたそれぞれの行の外接矩形を
統合することにより文字行を検出することにより、文字
行検出が高速に行え、しかも高精度に行える。
【0023】また、前記文字行検出手段は、前記算出手
段で算出された行候補領域の行方向射影情報から得られ
る射影値の極大値および極小値から行候補領域を行方向
と直交する方向に複数行に分割すべきか否かを判定し、
複数行に分割すべきと判定されたとき行方向射影情報に
基づいてそれぞれの行領域を求め、それぞれの外接矩形
の重心位置と行領域とを比較して、当該外接矩形の重心
位置がそれぞれの行領域間に存在するとき、当該外接矩
形をそれぞれの行領域に分割することにより文字行を検
出することにより、文字行検出が高速に行え、しかも高
精度に行える。
【0024】また、前記文字行検出手段は、前記行候補
検出手段で検出された行候補領域が行方向に2分して検
出されるとき、前記算出手段で算出された一方の行候補
領域の行方向射影情報の極大点の位置を他方の行候補領
域の行射影情報と比較することによりそれぞれの行候補
領域の統合の可否を判定し、この判定結果に基づいて行
候補領域の統合を行うことにより文字行を検出すること
により、文字行検出が高速に行え、しかも高精度に行え
る。
【0025】
【発明の実施の形態】以下、本発明の一実施形態につい
て図面を参照して説明する。図1は、本実施形態に係る
行検出方法を適用した文字認識装置の構成を示したもの
で、例えば、コンピュータ用の光学的文字読取装置(O
CR)として紙に書かれた文字を直接読み取ったり、郵
便物処理システム等に用いられて書状上の画像から宛名
情報を認識したりするものである。
【0026】図1において、画像入力部1は、スキャナ
等から構成され、例えば書状上の画像を光学的に読取り
電気信号に変換して出力するようになっている。なお、
ここで扱う文字は手書き文字であっても活字文字であっ
てもよい。
【0027】画像入力部1で読み取られた書状の文書画
像に対し、2値化処理部2で所定の2値化処理を施して
2値化画像を求め、それを黒画素連結領域抽出部3に送
る。黒画素連結領域抽出部3は、文書の2値化画像の黒
画素の連結している領域を抽出して、その各領域に外接
する矩形情報を求めるようになっている。ここで求めら
れた各黒画素連結領域の外接矩形情報は候補検出部4に
送られる。
【0028】行候補検出部4は、各矩形情報に含まれる
各矩形領域の形状・位置などを基に、外接矩形領域を統
合して行候補領域を切り出して、その行候補の矩形情報
を抽出するようになっている。各行候補領域の矩形情
報、および、それに含まれる黒画素連結領域の外接矩形
情報(以下、黒画素外接矩形情報と呼ぶこともある)は
所定のメモリに記憶される。
【0029】行方向射影情報算出部5は、切り出された
行候補のそれぞれについて、その行方向の射影情報を算
出するようになっている。その詳細は後述する。行の分
割・統合部6は、算出された射影情報に基づき、行候補
領域の分割・統合処理を行って最終的に文字行の検出を
行うようになっている。その詳細は後述する。
【0030】文字認識部7は、検出された文字行から文
字を検出して、具備された辞書8を参照して文字認識を
行うようになっている。本発明の行検出方法は、特に、
行方向射影情報算出部5、行の分割・統合部6の処理に
特徴付けられるものである。
【0031】次に、行方向射影情報算出部5における行
候補領域の行方向射影情報の算出処理について、図2に
示すフローチャートを参照して説明する。まず射影情報
を求めたい行候補の矩形情報と、その行候補に属するn
個(n1)の黒画素外接矩形情報を所定のメモリから
読み出す(ステップS1)。
【0032】次に、n個の黒画素外接矩形のそれぞれに
ついて(ステップS2)、行候補内での位置および形状
に基づき、後述する手順に従って、関数Fi (x)(1
n)を求める(ステップS4)。このとき、x軸
方向は行方向と垂直な方向に取り、座標系の取り方は行
に対する相対座標系であってもよいし、書状の座標系を
そのまま使用しても良い。
【0033】その行候補に属する全ての黒画素外接矩形
についての関数Fi (x)を求めたら(ステップS3〜
ステップS5)、ステップS6に進む。ステップS6で
は、全て(i=1〜n)の黒画素外接矩形についての関
数Fi(x)を加算した式(1)で定義されるG(x)
を算出する。
【0034】
【数1】
【0035】すなわち、G(x)は、黒画素外接矩形情
報から算出した行方向の射影情報とみなすことができ
る。例えば、画像入力部1で読み取られた書状上の画像
から検出された行候補が図3(a)で示すものであると
き、この行候補は、図3(b)に示すような黒画素外接
矩形から構成されているものとする。このとき、図2の
処理が実行されて、最終的にステップS6において算出
される行方向射影情報G(x)は、図3(c)に示すよ
うな形状の射影情報を表現するものとなる。
【0036】次に、黒画素外接矩形から関数Fi(x)
を算出する方法の一具体例について図4を参照して説明
する。図4において、行候補領域21に対する相対座標
系を考え、行方向にY軸、行垂直方向(行方向と直交す
る方向)にX軸を取る。行候補領域21に属する第i番
目の黒画素外接矩形22がX軸方向のXsからXeの範
囲に存在している場合、Fi(x)は式(2)で定義す
る。
【0037】
【数2】
【0038】式(2)において、定数a=1とした場合
を図4に示す。なお、定数aの値は「1」に限らず、他
の値であってもよい。式(2)で示す関数Fi(x)
は、図4に示すように、黒画素外接矩形22の行垂直方
向(x方向)に占める範囲ΔX(=Xe−Xs)の中心
(Xs+ΔX/2)において最大値(例えば、ΔX/
2)、黒画素外接矩形22のx方向の2つの端点で最小
値(例えば、「0」)をとるような二等辺三角形状のも
のであるが、これは、一般に文字行の行中心に文字線密
度が集中して射影値が高くなることに対応している。す
なわち、関数Fi(x)は、行の重心に射影値のピーク
がくるように定義するのが望ましく、特に、式(2)に
限定するものではない。
【0039】式(2)において、aは定数としている
が、aは黒画素外接矩形の位置・形状の関数であっても
よい。次式(3)は、式(2)で定義されるFi(x)
のaの部分がΔXi とΔYiの関数である場合の一例で
ある。ここで、ΔXi とΔYi をそれぞれ ΔXi (=Xei−Xsi) ΔYi (=Yei−Ysi) とする。
【0040】
【数3】 式(3)において、定数a=1とした場合を図5に示
す。なお、定数aの値は「1」に限らず、他の値であっ
てもよい。
【0041】式(3)の関数Eは、黒画素外接矩形iの
位置の関数であってもよい。次式(4)は、関数Eが黒
画素外接矩形iの重心の位置(Xgi、Ygi)の関数であ
る場合の一例である。ここで、 (Xgi、Ygi)=((Xsi+Xei)/2、(Ysi
+Yei)/2) とする。
【0042】
【数4】
【0043】式(4)において、a=1、b=1とした
場合を図6に示す。なお、図6では、Y1の値は定数と
しているが、何らかの関数で定義されるものであっても
よく、例えば、黒画素外接矩形が属する行領域位置情報
から算出されるものであってもよい。また、関数Fi
(x)は、式(5)に示すように、n(≧2)次式であ
ってもよい。
【0044】
【数5】
【0045】式(5)において、定数a=1、n=2と
した場合を図7に示す。なお、式(5)において、定数
aは「1」以外の値であってもよい。さらに、関数Fi
(x)は二等辺三角形状に限らず、例えば、台形状のも
のでもよい。その場合の関数Fi(x)を式(6)に示
す。
【0046】
【数6】
【0047】式(6)において、定数a=3、b=2/
3とした場合を図8に示す。式(6)で定義した関数Q
i は、ΔXiのみの関数であり、a、bは定数としてい
るが、a、bは、黒画素外接矩形の位置・形状の関数で
あってもよい。
【0048】このように、外接矩形単位の射影情報を各
黒画素の加算により求める代わりに簡易な関数によって
簡略的に求めることにより高速な処理が可能となるもの
である。
【0049】また、図4〜図8では、黒画素外接矩形の
座標系として、行に対する相対座標を用いる場合を扱っ
ているが、書状画像の座標系を使用してもよい。さて、
行候補領域21に属する全ての黒画素外接矩形から算出
された関数Fi(x)を加算することにより、式(1)
より、行候補領域21の行方向射影情報G(x)が得ら
れるわけであるが、この行方向射影情報G(x)は、結
局、行候補領域21の画素点分布射影を表していること
になる。そして、行方向射影情報G(x)の極大点の位
置が行候補領域21の重心位置にほぼ一致してただ1つ
あるとき、その行候補領域は分割する必要のない文字行
である可能性が非常に高いことになる。
【0050】次に、行の分割・統合部6における行の分
割処理について、図9に示すフローチャートを参照して
説明する。図1の行候補検出部4では、例えば、書状が
汚れていたり、行が斜めに書かれていたり、文字サイズ
が不均一であるといった場合に、隣合う複数の行がまと
めて1つの行候補領域として検出される可能性が高い。
【0051】そこで、本来複数の行であるものがまとめ
て1行として検出された行を分割する場合には、従来手
法では行候補領域内の2値化画像の画素を行方向に射影
して作成した射影情報で極大値・極小値を取る位置を見
つけ、最小の極小値があらかじめ用意した方法で求まる
基準値より小さい場合は射影情報が最小極小値をとる位
置で行を行垂直方向に2つに分割する。
【0052】しかし、この従来手法では、画素単位に処
理を行っていたため、書状の座標系に対し文字行が傾い
て記載されている場合、書状から行情報を切り出した時
に隣合う行の領域同士が重なり合っており、行分割の際
に隣接行の一部を取り込んで再分割されてしまうといっ
た問題点がある。
【0053】そこで、本発明に係る行分割処理は、行候
補領域内の黒画素外接矩形情報を用いて、行の分割位置
を求めることを特徴とする。以下、行候補領域の行方向
にy軸、行垂直方向にx軸を取って説明する。
【0054】まず、行方向射影情報算出部5で算出され
た各行候補領域の行方向射影情報G(x)の最小極小値
の位置αを求める(ステップS10)。すなわち、図1
0(a)に示すように、行候補領域31の行方向射影情
報G(x)から行候補領域31の画素点分布射影32が
2つの極大点A、Bを持ち、その間に最小極小値が1つ
存在する場合、この行候補領域31は2つの行が混じり
合っている可能性が高い。
【0055】この最小極小値が予め定められた基準値と
比較し、基準値より小さい場合は行を直線x=α(3
3)を基準に行垂直方向に分割することになる。行を分
割する際には、各黒画素外接矩形について重心位置をも
とめ(図10の×印)、重心がx=αを境にしたどちら
側に位置するかを評価する。例えば、黒画素外接矩形の
重心が図10の極大点位置Aに近い場合はA側の、極大
点位置Bに近い場合はB側の行に属するものと判断し、
それぞれを区別して登録する(ステップS12)。
【0056】行候補領域31内の全黒画素外接矩形につ
いてステップS11、ステップS12の評価が終ると、
図10(b)に示すように、A側に属する黒画素外接矩
形を統合することによって新たな行35を抽出する。同
様にB側に属する黒画素外接矩形を統合することによっ
て新たな行36を抽出する(ステップS13)。
【0057】次に、行の分割・統合部6における、他の
行の分割処理について、図11に示すフローチャートを
参照して説明する。すなわち、ここでは、隣り合う行と
文字の一部が接触しているために2行が1行として検出
された行を再分割する処理について説明する。
【0058】以下、行候補領域の行方向にy軸、行垂直
方向にx軸を取って説明する。まず、図9、図10の説
明と同様、図12(a)に示すような行方向射影情報算
出部5で算出された各行候補領域41の行方向射影情報
G(x)の最小極小値の位置αを求める(ステップS2
0)。この最小極小値が予め定められた基準値と比較
し、基準値より小さい場合は行を直線x=α(33)を
基準に行垂直方向に分割することになる。
【0059】行を分割する際には、まず、射影情報G
(x)のうち、文字の大きさ等を考慮した予め定められ
た閾値thより値が大きい範囲、すなわち、図12の領
域Aa、Bbを求める。なお、ここでは、領域Aa、B
bを求めるのに、閾値thを用いる方法を述べている
が、直線x=αの両側からそれぞれ最大値の位置をもと
め、その位置から一定幅範囲をとってAa、Bbとする
方法も考えられる。
【0060】次に、各黒画素外接矩形について重心位置
(図12(a)の行候補領域41内の各黒画素外接矩形
の×印)を求め、重心が領域Aa、Baのいずれに含ま
れているかを調べる(ステップS23、ステップS2
4)。領域AaまたはBaに含まれている場合は、それ
ぞれその黒画素外接矩形は、その含まれている領域側の
行に属するものと判断し、それぞれを区別して登録する
(ステップS25、ステップS26)。
【0061】黒画素外接矩形の重心が領域AaにもBa
にも含まれていない場合は、ステップS27に進み、そ
の黒画素外接矩形をx=αの位置で2つに分割し、分割
後の矩形はそれぞれの重心が属する側の行に属するもの
と判断して、それぞれを区別して登録する(ステップS
28)。
【0062】行候補領域41内の全黒画素外接矩形につ
いて、ステップS23〜ステップS28評価が終了する
と(ステップS22)、図12(b)に示すように、領
域Aa側に属する黒画素外接矩形を統合することによっ
て新たな行54を抽出する。同様に、領域Ba側に属す
る黒画素外接矩形を統合することによって新たな行55
を抽出する(ステップS29)。
【0063】次に、行の分割・統合部6における行の統
合処理について、図13に示すフローチャートを参照し
て説明する。図1の行候補検出部4では、例えば、書状
が汚れていたり、行が斜めに書かれていたり、文字サイ
ズが不均一であるといった場合に、本来1行であったも
のが複数の行候補領域に分かれて検出される可能性が高
い。
【0064】そこで、本発明の行の統合処理は、行候補
領域内の黒画素外接矩形情報を用いて算出された行方向
射影情報に基づき行の統合を行うものである。以下、行
候補領域の行方向にy軸、行垂直方向にx軸を取って説
明する。
【0065】図14(a)に示すような2つの行候補領
域SとTを統合すべきか否は、まずy軸方向の行間距離
Δyが予め用意された固定のしきい値または予め用意さ
れた計算方法で算出されたしきい値よりも大きいか否か
で判定する(ステップS30)。もしもしきい値よりも
大きい場合は行候補領域SとTはそれぞれ別個の行であ
ると判断できるので、これらの統合は行わない(ステッ
プS32)。一方、Δyがしきい値よりも小さい場合は
ステップS31に進む。
【0066】ステップS31では、図1の行方向射影情
報算出部5で算出された行候補領域SおよびTのそれぞ
れの行方向射影情報GS (x)、GT (x)から、文字
サイズ等を考慮した最も文字行らしい範囲PS 、PT
(図14(b)参照)をあらかじめ用意された統計的な
手法等を用いて算出する。
【0067】次に、GS (x)の極大値がPT のピーク
範囲に含まれるか、または、GT (x)の極大値がPS
のピーク範囲に含まれるかを調べる(ステップS33、
S34)。
【0068】少なくとも一方の条件が満たされている場
合は、図14(c)に示すように、行候補領域SとTを
統合し、行候補領域AとBに属する黒画素外接矩形情報
を1つにまとめることによって2行を統合したあとの行
候補領域72の矩形情報および、行候補領域72内の黒
画素外接矩形情報を得る(ステップS36)。どちらの
条件も満たされない場合は行候補領域AとBの統合は行
わない(ステップS35)。
【0069】図1の行の分割・統合部6で、行候補検出
部4で検出された全ての行候補に対し、図9、図11、
図13に示した行の分割・統合処理を繰り返し実行し
て、各行候補の分割・統合が行われなくなった時点で最
終的に文字行が検出されることになる。
【0070】以上、説明したように、上記実施形態によ
れば、画像入力部1で文書画像を入力し、その文書画像
を2値化処理部2で2値化して得られた2値化画像を、
黒画素連結領域抽出部3でその2値化画像中の画素連結
成分を求めた外接矩形データに変換し、行候補検出部4
で前記外接矩形データに基づき前記画素連結成分を統合
して行候補領域を検出し、行方向射影情報算出部5で、
この検出された行候補領域のそれぞれに属する外接矩形
データに基づき、その外接矩形の射影情報を求めて、こ
の外接矩形の射影情報に基づき前記行候補領域のそれぞ
れの行方向射影情報を算出し、この算出された各行候補
領域の行方向射影情報と前記外接矩形データに基づき行
分割・統合部6で前記行候補領域に対し分割・統合処理
を施して文字行を検出し、文字認識部7でその検出され
た各文字行から文字を検出して文字認識を行うことによ
り、高速でしかも精度の高い文字行検出が行え、従っ
て、高速でしかも文字認識率の高い文字認識が可能とな
る。
【0071】また、行方向射影情報算出部5は、外接矩
形の位置と大きさに基づき前記外接矩形の重心位置をピ
ークとする射影情報Fi(x)を求め、各行候補領域毎
に属する全ての外接矩形の射影情報Fi(x)を重ね合
わせて、行方向射影情報G(x)を算出することによ
り、各行候補領域に属する黒画素外接矩形の位置情報と
幅情報から行方向の射影情報が算出できるため行候補領
域の射影情報計算が高速に実行できる。
【0072】また、行の分割・統合部6は、行候補領域
の行方向射影情報から得られる射影値の極大点位置と、
その行候補領域に属する各外接矩形の重心位置を比較し
て前記行候補領域の分割位置を求め、その分割位置に基
づき行候補領域を分割し、隣接する2つの行候補領域の
行方向射影情報を比較して、一方の行候補領域の行方向
射影情報から得られる射影値の極大点位置が他方の行候
補領域の行方向射影情報に基づき予め定められる範囲内
にあるとき、前記2つの行候補領域を統合することによ
り、従来よりも同一時間内により多くの行の分割判定お
よび統合処理が実行でき、行検出性能を向上できる。す
なわち、行が書状に対し斜めに書かれている場合にも行
の分割、統合判定処理が高精度に行え、各行候補は、そ
の行候補に属する文字を画素情報としてでなく矩形情報
の形で持っているので、隣接行からの文字の入り込みの
検出が容易で、行の分割判定処理が高精度に行える。
【0073】
【発明の効果】以上説明したように、本発明によれば、
高速でしかも行検出精度の高い行検出方法およびそれを
用いた文字認識装置を提供できる。
【図面の簡単な説明】
【図1】本発明の一実施形態に係る行検出方法を用いた
文字認識装置の構成を概略的に示した図。
【図2】行方向射影情報算出処理動作を説明するための
フローチャート。
【図3】行方向射影情報について説明するための図。
【図4】行方向射影情報算出処理の一例を具体的に説明
するための図。
【図5】行方向射影情報算出処理の他の例を具体的に説
明するための図。
【図6】行方向射影情報算出処理のさらに他の例を具体
的に説明するための図。
【図7】行方向射影情報算出処理のさらに他の例を具体
的に説明するための図。
【図8】行方向射影情報算出処理のさらに他の例をを具
体的に説明するための図。
【図9】行の分割処理を説明するための図。
【図10】図5の行の分割処理を具体的に説明するため
の図。
【図11】その他の行の分割処理動作を説明するための
フローチャート。
【図12】図7の行の分割処理を具体的に説明するため
の図。
【図13】行の統合処理動作を説明するためのフローチ
ャート。
【図14】行の統合処理を具体的に説明するための図。
【図15】従来の行方向射影情報算出処理動作を説明す
るためのフローチャート。
【符号の説明】
1…画像入力部、2…2値化処理部、3…黒画素連結領
域抽出部、4…行候補領域検出部、5…行方向射影情報
算出部、6…行の分割・統合部、7…文字認識部、8…
辞書。

Claims (14)

    【特許請求の範囲】
  1. 【請求項1】 入力された文書画像を2値化し、この2
    値化画像をその画像中の画素連結成分を求めた外接矩形
    データに変換し、この外接矩形データに基づき外接矩形
    を統合して行候補領域を検出し、この検出された行候補
    領域に属する外接矩形データに基づき、それぞれの外接
    矩形単位の射影情報を求め、それぞれの外接矩形の射影
    情報に基づき前記行候補領域の行方向射影情報を算出
    し、この行方向射影情報に基づき、前記行候補領域から
    文字行を検出することを特徴とする行検出方法。
  2. 【請求項2】 前記外接矩形の位置と大きさに基づき前
    記外接矩形の射影情報を求め、行候補領域に属する全て
    の外接矩形の射影情報を重ね合わせることにより前記行
    候補領域の行方向射影情報を算出することを特徴とする
    請求項1記載の行検出方法。
  3. 【請求項3】 前記外接矩形の位置と大きさに基づき前
    記外接矩形の重心位置をピークとする射影情報を求め、
    行候補領域に属する全ての外接矩形の射影情報を重ね合
    わせることにより前記行候補領域のそれぞれの行方向射
    影情報を算出することを特徴とする請求項1記載の行検
    出方法。
  4. 【請求項4】 前記行候補領域の行方向射影情報から得
    られる射影値の極大値および極小値から行候補領域を行
    方向と直交する方向に複数行に分割すべきか否かを判定
    し、複数行に分割すべきと判定されたとき行方向射影情
    報の極小値に基づき行分割位置を求め、それぞれの外接
    矩形の重心位置と行分割位置とを比較することにより外
    接矩形を複数の行に区分し、この区分されたそれぞれの
    行の外接矩形を統合することにより文字行を検出するこ
    とを特徴とする請求項1記載の行検出方法。
  5. 【請求項5】 前記行候補領域の行方向射影情報から得
    られる射影値の極大値および極小値から行候補領域を行
    方向と直交する方向に複数行に分割すべきか否かを判定
    し、複数行に分割すべきと判定されたとき行方向射影情
    報に基づいてそれぞれの行領域を求め、それぞれの外接
    矩形の重心位置と行領域とを比較して外接矩形をそれぞ
    れの行に区分し、この区分されたそれぞれの行の外接矩
    形を統合することにより文字行を検出することを特徴と
    する請求項1記載の行検出方法。
  6. 【請求項6】 前記行候補領域の行方向射影情報から得
    られる射影値の極大値および極小値から行候補領域を行
    方向と直交する方向に複数行に分割すべきか否かを判定
    し、複数行に分割すべきと判定されたとき行方向射影情
    報に基づいてそれぞれの行領域を求め、それぞれの外接
    矩形の重心位置と行領域とを比較して、当該外接矩形の
    重心位置がそれぞれの行領域間に存在するとき、当該外
    接矩形をそれぞれの行領域に分割することにより文字行
    を検出することを特徴とする請求項1記載の行検出方
    法。
  7. 【請求項7】 入力された文書画像を2値化し、この2
    値化画像をその画像中の画素連結成分を求めた外接矩形
    データに変換し、この外接矩形データに基づき行候補領
    域を検出し、この行候補領域が行方向に2分して検出さ
    れるとき、各外接矩形単位で求められた射影情報をそれ
    ぞれの行候補領域について重ね合わせることにより行候
    補領域の行射影情報を求め、一方の行射影情報の極大点
    の位置を他方の行射影情報と比較することによりそれぞ
    れの行候補領域の統合の可否を判定し、この判定結果に
    基づいて行候補領域の統合を行うことにより文字行を検
    出することを特徴とする行検出方法。
  8. 【請求項8】 文書画像を光電変換して入力する画像入
    力手段と、 この画像入力手段で入力された画像を2値化し、この2
    値化画像をその画像中の画素連結成分を求めた外接矩形
    データに変換する変換手段と、 この変換手段により変換された前記外接矩形データに基
    づき外接矩形を統合して行候補領域を検出する行候補検
    出手段と、 この行候補検出手段で検出された行候補領域に属する外
    接矩形データに基づき、それぞれの外接矩形単位の射影
    情報を求め、それぞれの外接矩形の射影情報に基づき前
    記行候補領域の行方向射影情報を算出する算出手段と、 この算出手段で算出された行候補領域の行方向射影情報
    に基づき文字行を検出する文字行検出手段と、 この文字行検出手段で検出された文字行から文字を検出
    して文字認識を行う文字認識手段と、 を具備したことを特徴とする文字認識装置。
  9. 【請求項9】 前記算出手段は、 前記外接矩形の位置と大きさに基づき前記外接矩形の射
    影情報を求め、行候補領域に属する全ての外接矩形の射
    影情報を重ね合わせることにより前記行候補領域の行方
    向射影情報を算出すること特徴とする請求項8記載の文
    字認識装置。
  10. 【請求項10】 前記算出手段は、 前記外接矩形の位置と大きさに基づき前記外接矩形の重
    心位置をピークとする射影情報を求め、行候補領域に属
    する全ての外接矩形の射影情報を重ね合わせることによ
    り前記行候補領域の行方向射影情報を算出することを特
    徴とする請求項8記載の文字認識装置。
  11. 【請求項11】 前記文字行検出手段は、 前記算出手段で算出された行候補領域の行方向射影情報
    から得られる射影値の極大値および極小値から行候補領
    域を行方向と直交する方向に複数行に分割すべきか否か
    を判定し、複数行に分割すべきと判定されたとき行方向
    射影情報の極小値に基づき行分割位置を求め、それぞれ
    の外接矩形の重心位置と行分割位置とを比較することに
    より外接矩形を複数の行に区分し、この区分されたそれ
    ぞれの行の外接矩形を統合することにより文字行を検出
    することを特徴とする請求項8記載の文字認識装置。
  12. 【請求項12】 前記文字行検出手段は、 前記算出手段で算出された行候補領域の行方向射影情報
    から得られる射影値の極大値および極小値から行候補領
    域を行方向と直交する方向に複数行に分割すべきか否か
    を判定し、複数行に分割すべきと判定されたとき行方向
    射影情報に基づいてそれぞれの行領域を求め、それぞれ
    の外接矩形の重心位置と行領域とを比較して外接矩形を
    それぞれの行に区分し、この区分されたそれぞれの行の
    外接矩形を統合することにより文字行を検出することを
    特徴とする請求項8記載の文字認識装置。
  13. 【請求項13】 前記文字行検出手段は、 前記算出手段で算出された行候補領域の行方向射影情報
    から得られる射影値の極大値および極小値から行候補領
    域を行方向と直交する方向に複数行に分割すべきか否か
    を判定し、複数行に分割すべきと判定されたとき行方向
    射影情報に基づいてそれぞれの行領域を求め、それぞれ
    の外接矩形の重心位置と行領域とを比較して、当該外接
    矩形の重心位置がそれぞれの行領域間に存在するとき、
    当該外接矩形をそれぞれの行領域に分割することにより
    文字行を検出することを特徴とする請求項8記載の文字
    認識装置。
  14. 【請求項14】 前記文字行検出手段は、 前記行候補検出手段で検出された行候補領域が行方向に
    2分して検出されるとき、前記算出手段で算出された一
    方の行候補領域の行方向射影情報の極大点の位置を他方
    の行候補領域の行射影情報と比較することによりそれぞ
    れの行候補領域の統合の可否を判定し、この判定結果に
    基づいて行候補領域の統合を行うことにより文字行を検
    出することを特徴とする請求項8記載の文字認識装置。
JP12835496A 1996-05-23 1996-05-23 行検出方法および文字認識装置 Expired - Fee Related JP4011646B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP12835496A JP4011646B2 (ja) 1996-05-23 1996-05-23 行検出方法および文字認識装置
DE69728469T DE69728469T2 (de) 1996-05-23 1997-05-21 Gerät und Verfahren zur Ermittlung der Zeichenlinie mittels vereinfachter Projektionsinformation; Zeichenerkennungsgerät und Verfahren
EP97108229A EP0809205B1 (en) 1996-05-23 1997-05-21 Character line detecting apparatus using simplified projection information and method thereof and character recognition apparatus thereof and method thereof
US08/863,029 US6035064A (en) 1996-05-23 1997-05-23 Apparatus and method for detecting and recognizing character line using simplified projection information

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP12835496A JP4011646B2 (ja) 1996-05-23 1996-05-23 行検出方法および文字認識装置

Publications (2)

Publication Number Publication Date
JPH09311905A true JPH09311905A (ja) 1997-12-02
JP4011646B2 JP4011646B2 (ja) 2007-11-21

Family

ID=14982753

Family Applications (1)

Application Number Title Priority Date Filing Date
JP12835496A Expired - Fee Related JP4011646B2 (ja) 1996-05-23 1996-05-23 行検出方法および文字認識装置

Country Status (4)

Country Link
US (1) US6035064A (ja)
EP (1) EP0809205B1 (ja)
JP (1) JP4011646B2 (ja)
DE (1) DE69728469T2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014035622A (ja) * 2012-08-08 2014-02-24 Fuji Xerox Co Ltd 画像処理装置及び画像処理プログラム
WO2017069001A1 (ja) * 2015-10-19 2017-04-27 国立大学法人東京農工大学 プログラム、情報記憶媒体及び情報処理装置

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7013035B2 (en) * 1998-09-25 2006-03-14 Canon Kabushiki Kaisha Image processing method for setting an extraction area, and apparatus and recording medium
US6850634B1 (en) * 1998-09-25 2005-02-01 Canon Kabushiki Kaisha Image processing apparatus, method, and storage medium for processing a radiation image
US6868183B1 (en) * 1999-04-01 2005-03-15 Kabushiki Kaisha Toshiba Image processing apparatus, image forming apparatus, and image processing method depending on the type of original image
US7031553B2 (en) * 2000-09-22 2006-04-18 Sri International Method and apparatus for recognizing text in an image sequence of scene imagery
US7321687B2 (en) * 2002-03-07 2008-01-22 Canon Kabushiki Kaisha Apparatus and method for image processing to label an object in a binary image
US7096432B2 (en) * 2002-05-14 2006-08-22 Microsoft Corporation Write anywhere tool
RU2251738C2 (ru) * 2003-01-28 2005-05-10 "Аби Софтвер Лтд." Способ приведения в соответствие заполненной машиночитаемой формы и ее шаблона при наличии искажений (варианты)
US8620080B2 (en) * 2008-09-26 2013-12-31 Sharp Laboratories Of America, Inc. Methods and systems for locating text in a digital image
US8705836B2 (en) * 2012-08-06 2014-04-22 A2iA S.A. Systems and methods for recognizing information in objects using a mobile device
US9160946B1 (en) 2015-01-21 2015-10-13 A2iA S.A. Systems and methods for capturing images using a mobile device
CN113920497B (zh) * 2021-12-07 2022-04-08 广东电网有限责任公司东莞供电局 一种铭牌识别模型的训练、铭牌的识别方法及相关装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6043555B2 (ja) * 1980-02-26 1985-09-28 株式会社トキメック 印字文字切出し装置
US4998285A (en) * 1988-03-11 1991-03-05 Kabushiki Kaisha Toshiba Character recognition apparatus
JP3187182B2 (ja) * 1993-01-06 2001-07-11 株式会社東芝 光学的手書き文字列認識方法および装置
JP3388867B2 (ja) * 1994-03-31 2003-03-24 株式会社東芝 宛名領域検出装置および宛名領域検出方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014035622A (ja) * 2012-08-08 2014-02-24 Fuji Xerox Co Ltd 画像処理装置及び画像処理プログラム
WO2017069001A1 (ja) * 2015-10-19 2017-04-27 国立大学法人東京農工大学 プログラム、情報記憶媒体及び情報処理装置

Also Published As

Publication number Publication date
EP0809205A3 (en) 1999-09-15
EP0809205A2 (en) 1997-11-26
EP0809205B1 (en) 2004-04-07
JP4011646B2 (ja) 2007-11-21
DE69728469T2 (de) 2005-05-12
US6035064A (en) 2000-03-07
DE69728469D1 (de) 2004-05-13

Similar Documents

Publication Publication Date Title
US6754385B2 (en) Ruled line extracting apparatus for extracting ruled line from normal document image and method thereof
US20030198386A1 (en) System and method for identifying and extracting character strings from captured image data
JP2002133426A (ja) 多値画像から罫線を抽出する罫線抽出装置
JP4011646B2 (ja) 行検出方法および文字認識装置
JP7433887B2 (ja) 画像を処理するための装置、プログラム、画像処理方法
JP2008011484A (ja) 文字図形列抽出装置,文字図形列抽出方法,その方法を実行するプログラム,そのプログラムを記録した記録媒体
JP2000251082A (ja) 文書画像傾き検出装置
CN112200053A (zh) 一种融合局部特征的表格识别方法
KR100295360B1 (ko) 쉐이딩알고리즘을이용한영상처리방법
JP3268552B2 (ja) 領域抽出方法、宛名領域抽出方法、宛名領域抽出装置、及び画像処理装置
JP5424694B2 (ja) 画像認識装置、及びプログラム
JP4867894B2 (ja) 画像認識装置、画像認識方法及びプログラム
JPH0256688A (ja) 文字切出し装置
JP2861860B2 (ja) 宛名行抽出装置
JP2000357287A (ja) ナンバープレート認識方法および認識装置
JPH08305794A (ja) 宛名行抽出装置
JP4731748B2 (ja) 画像処理装置、方法、プログラム及び記憶媒体
JPH07160810A (ja) 文字認識装置
JPH06282684A (ja) 文字認識装置
JPH05135204A (ja) 文字認識装置
JP3084833B2 (ja) 特徴抽出装置
JP3127413B2 (ja) 文字認識装置
JPH05274472A (ja) 画像認識装置
JPH0498477A (ja) 文字切り出し方法
JP2000113101A (ja) 文字切り出し方法および装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040802

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041012

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041213

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050201

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050404

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20050407

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20050513

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070730

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070906

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100914

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees