JP2007018533A - 画像処理装置、画像処理方法、及び画像処理プログラムを記録した、コンピュータ読み取り可能な記録媒体 - Google Patents
画像処理装置、画像処理方法、及び画像処理プログラムを記録した、コンピュータ読み取り可能な記録媒体 Download PDFInfo
- Publication number
- JP2007018533A JP2007018533A JP2006258182A JP2006258182A JP2007018533A JP 2007018533 A JP2007018533 A JP 2007018533A JP 2006258182 A JP2006258182 A JP 2006258182A JP 2006258182 A JP2006258182 A JP 2006258182A JP 2007018533 A JP2007018533 A JP 2007018533A
- Authority
- JP
- Japan
- Prior art keywords
- component
- basic
- character
- binarization
- components
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Character Input (AREA)
- Image Analysis (AREA)
Abstract
【課題】文書画像から連結成分を抽出し、抽出した連結成分から、文字認識を行う基本成分を抽出する技術に関し、連結成分のうち、2値化と文字認識の不要な成分を除去し、文字認識処理の効率を向上することを目的とする。
【解決手段】連結成分の外接矩形に含まれるグレースケール画像を基本成分とし、基本成分同士の包含関係から文字以外の基本成分を判定し、文字以外と判定された基本成分については、2値化と文字認識を省略することで処理の効率をあげる。
【選択図】図5
【解決手段】連結成分の外接矩形に含まれるグレースケール画像を基本成分とし、基本成分同士の包含関係から文字以外の基本成分を判定し、文字以外と判定された基本成分については、2値化と文字認識を省略することで処理の効率をあげる。
【選択図】図5
Description
本発明は、文書画像の認識技術に関し、特に、カラーの図形、あるいはグレースケールの図形を含む文書画像から連結成分を抽出し、文字認識の単位となる基本成分を求め、求められた基本成分の特徴から2値化と文字認識すべき基本成分を抽出する技術に関する。
カラー文書及びグレースケール文書の、文書全体に占める割合は増加しており、これらの文書の文字を効率的に認識する技術の確立が求められている。
文書画像の認識効率の向上のためには、2値化と文字認識を行う画像の単位を適切に抽出することが必要である。従って、画像の単位である基本成分を適切に抽出し、さらに、あらかじめ図形と判定できる基本成分を削除しておくことが重要な課題となる。
従来のカラー文書認識技術では、
1.同色の画素をクラスタリングする色ラベリング法。
2.カラー画像から画素ごとの明度成分などのグレースケール値を抽出し、グレースケール画像を生成し、そのグレースケール画像のエッジを抽出し、2値化とラベリングを行う方法。
により連結成分を抽出し、この連結成分の外接矩形に含まれるグレースケール画像を基本成分として文字を認識する方法が有力である。
1.同色の画素をクラスタリングする色ラベリング法。
2.カラー画像から画素ごとの明度成分などのグレースケール値を抽出し、グレースケール画像を生成し、そのグレースケール画像のエッジを抽出し、2値化とラベリングを行う方法。
により連結成分を抽出し、この連結成分の外接矩形に含まれるグレースケール画像を基本成分として文字を認識する方法が有力である。
特に、低解像度のカラー文書に対しては、後者が有効である。図8は、従来の連結成分の抽出処理フロー例である。以下図11(1)に示すグレースケール画像から連結成分を抽出する処理について説明する。図11(1)のa−a’断面のグレースケール値を図9(2)に示す。
1a.図9(1)に示すソーベルフィルタ等の差分フィルタを用い、グレースケール画像からエッジを抽出した、エッジグレー画像を生成する。この結果を図9(3)に示す。この場合、エッジグレー画像のb−b’の部分のグレースケール値は、0になることなく、正から負に変化する。
1b.エッジグレー画像を2値化し、エッジ2値画像を生成する。この結果を図11(2)に示す。
1c.エッジ2値画像をラベリングし、連結成分を求める。
1b.エッジグレー画像を2値化し、エッジ2値画像を生成する。この結果を図11(2)に示す。
1c.エッジ2値画像をラベリングし、連結成分を求める。
従来の文字認識技術においては、求められた連結成分の外接矩形に含まれるグレースケール画像を基本成分とし、全ての基本成分の2値化と文字認識を行っている。
あるいは、2値化と文字認識の効率をあげるため、基本成分を、大きさ・位置等の幾何的関係から分類し、図形等、文字でないと判定されたものについては2値化と文字認識を省略するという方法が有力である。特に、文字認識結果のみでは文字か図形かわかりづらい場合であっても、基本成分の親子関係、即ち包含関係を用いることにより、正しく識別する方法が提案されている。(国際特許出願番号:JP99−01986)
以下、図7(1)に示す入力画像から抽出した、図7(2)に示す基本成分に対する文字成分抽出処理のフロー概要を図10に示す。
2a.基本成分が所定数以上の子の基本成分を含む場合、基本成分を削除する。
この場合、基本成分1は9個の基本成分を含み、通常の文字の範囲を超えているため削除され、基本成分10は4個の基本成分を含むが、通常の文字の範囲であるため、削除されずそのままとなる。
2b.基本成分が所定数以上の他の基本成分と重なっている場合、基本成分を削除する。
この場合、基本成分6と基本成分9、基本成分7と基本成分8が重なっているが、重なりが通常の文字の範囲であるためそのままとなる。
2c.基本成分が文字成分を含む場合、すなわち、文字を含む場合、この基本成分を削除する。
2d.2a、2b、2cの条件にあてはまらない場合は基本成分を文字成分と判定し、基本成分を文字成分として抽出する。
以下、図7(1)に示す入力画像から抽出した、図7(2)に示す基本成分に対する文字成分抽出処理のフロー概要を図10に示す。
2a.基本成分が所定数以上の子の基本成分を含む場合、基本成分を削除する。
この場合、基本成分1は9個の基本成分を含み、通常の文字の範囲を超えているため削除され、基本成分10は4個の基本成分を含むが、通常の文字の範囲であるため、削除されずそのままとなる。
2b.基本成分が所定数以上の他の基本成分と重なっている場合、基本成分を削除する。
この場合、基本成分6と基本成分9、基本成分7と基本成分8が重なっているが、重なりが通常の文字の範囲であるためそのままとなる。
2c.基本成分が文字成分を含む場合、すなわち、文字を含む場合、この基本成分を削除する。
2d.2a、2b、2cの条件にあてはまらない場合は基本成分を文字成分と判定し、基本成分を文字成分として抽出する。
この例の場合、基本成分の包含関係から2値化と文字認識の前に削除されるのは、基本成分1のみであり、基本成分2〜10が文字成分として抽出され、2値化と文字認識を行う。
従来の文字成分の抽出では、処理フロー中、2cの文字成分を含むか否かの判定のためにすべての基本成分について2値化と文字認識する必要がある。この処理では、本来個々には2値化と文字認識する必要のない、他の文字に包含されている偏、旁等の子の基本成分についても2値化と文字認識を行うため、無駄な処理時間を要する。
本発明では、上記課題を、以下の手段で解決する。
2値化と文字認識を行う基本成分の抽出に関しては、連結成分の外接矩形を求め、外接矩形内のグレースケール画像を基本成分とする基本成分抽出手段と、基本成分同士の包含関係から、独立成分と、親を持つ成分と、2値化と文字認識を行う不確定成分とに分類するタイプ判定手段と、不確定成分を2値化する2値化手段と、2値化手段で2値化された画像の文字認識を行い、文字と判定された基本成分は文字成分とし、文字成分に含まれる基本成分を削除する文字認識手段とを設ける。
2値化と文字認識手段は、タイプ判定手段で不確定成分とされた基本成分についてのみ、2値化と文字認識を行う。
これにより、独立成分と、親を持つ成分との、2値化と文字認識処理を省略する。
本発明は、基本成分同士の包含関係を利用し、2値化と文字認識する必要のない、他の文字に包含されている偏、旁等の子の基本成分については、事前に削除し、無駄な2値化と文字認識を省略することが可能となる。
図1は、連結成分を抽出する、本発明の第1の構成例を示す。差分フィルタ手段3aは、例えば図9(1)に示すソーベルフィルタであり、グレースケール画像からエッジを抽出し、エッジグレー画像を生成する。生成されたエッジグレー画像におけるエッジは、図9(3)に示す如く、画像の境界を中心に、境界の両側に対称的に発生する。
画像変換手段3cは、差分フィルタの出力値が負に変化した場合は、この値が負のピークを越えるまで出力値を0とし、差分フィルタの出力値が正に変化した場合は、この値が正のピークを越えてから0になるまで出力値を0とし、それ以外の場合は差分フィルタの出力値を出力する。
画像変換手段3cは、例えば図2(1)に示す画素ずれ差分フィルタ手段3bを用い、前記の式による変換を行う。画素ずれフィルタ手段3bは、図2(2)に示すごとく、境界から画素ずれしたエッジグレー画像を生成する。この変換により、図3(1)の太線で示す如く、差分フィルタ手段3aで生成されたエッジの外側が除去された出力が得られる。
2値化手段3dは、画像変換手段3cで得られたエッジグレー画像を2値化し、エッジ2値画像を生成する。図11(1)のグレースケール画像に、本発明による上記の処理を施し、得られたエッジ2値画像を図3(2)に示す。この図に示すごとく、図11(2)に示す、従来のエッジ2値画像ではb−b’部分で接触していた文字と図形が分離される。
ここで得られたエッジ2値画像をラベリング手段3eでラベリングすることで、文字と図形がそれぞれ別の連結成分として抽出される。
次に、抽出した連結成分をもとに2値化と文字認識を行う対象とする基本成分の抽出について説明する。図4は、2値化と文字認識を行う対象とする基本成分を抽出する、本発明の第2の構成例を示し、図5は、タイプ判定処理のフローを示す。基本成分抽出手段4aは、前記ラベリング手段で得られた連結成分の、外接矩形内のグレースケール画像を基本成分として抽出し、基本成分保持手段4bに出力する。
タイプ判定手段4cは、基本成分保持手段4bに保持されている基本成分を、図5に示す処理フローに従って、以下の通り親を持つ成分(タイプ0のまま)と、独立成分(タイプ2)と、2値化と文字認識を行う不確定成分(タイプ1)とに分類する。
5a.k番目の基本成分の、親となる基本成分の有無を判定する。親がある場合は、タイプを変更せず、次へ進む。
5b.k番目の基本成分に親がない場合、子となる基本成分の有無を判定する。子がない場合は、k番目の基本成分は独立成分(タイプ2)とする。
5c.子がある場合、k番目の基本成分を不確定成分(タイプ1)とし、この基本成分を2値化と文字認識手段4dに送り、図6に示す2値化と文字認識処理を行う。
5d.未処理の基本成分がなくなるまで上記の処理を繰り返す。
5b.k番目の基本成分に親がない場合、子となる基本成分の有無を判定する。子がない場合は、k番目の基本成分は独立成分(タイプ2)とする。
5c.子がある場合、k番目の基本成分を不確定成分(タイプ1)とし、この基本成分を2値化と文字認識手段4dに送り、図6に示す2値化と文字認識処理を行う。
5d.未処理の基本成分がなくなるまで上記の処理を繰り返す。
次に、図6に示す、2値化と文字認識について説明する。基本成分Xが、タイプ判定手段4cから2値化と文字認識手段4dに送られたものとする。
6a.基本成分Xの2値化と文字認識を行い、文字中文字でない、文字、すなわち、文字成分と判定された場合、基本成分Xにフラグ1を付け、それ以外は、基本成分Xにフラグ2を付ける。
6b.基本成分Xの子の有無を判定し、子がない場合、フラグ1の基本成分を文字成分(タイプ3)、フラグ2の基本成分を不確定成分(タイプ1)とする。
6a.基本成分Xの2値化と文字認識を行い、文字中文字でない、文字、すなわち、文字成分と判定された場合、基本成分Xにフラグ1を付け、それ以外は、基本成分Xにフラグ2を付ける。
6b.基本成分Xの子の有無を判定し、子がない場合、フラグ1の基本成分を文字成分(タイプ3)、フラグ2の基本成分を不確定成分(タイプ1)とする。
6c.子があり、フラグが1の基本成分を文字成分(タイプ3)とし、子は部分成分(タイプ4)として、2値化と文字認識を行わずに削除する。
6d.子があり、フラグが2の基本成分については、さらに子に着目し、子の基本成分を、番号j=0から順に、2値化と文字認識を繰り返す。
6e.基本成分Xのj番目の子が、文字成分(タイプ3)、または図形成分(タイプ5)の場合、基本成分Xを図形成分(タイプ5)とし、削除する。
6d.子があり、フラグが2の基本成分については、さらに子に着目し、子の基本成分を、番号j=0から順に、2値化と文字認識を繰り返す。
6e.基本成分Xのj番目の子が、文字成分(タイプ3)、または図形成分(タイプ5)の場合、基本成分Xを図形成分(タイプ5)とし、削除する。
6f.j番目の子が不確定成分(タイプ1)の場合、次の子について2値化と文字認識を行う。
6g.以上の処理を子がなくなるまで繰り返し、子がなくなった時点で、Xのフラグが1の場合、Xを文字成分(タイプ3)とし、フラグが2の場合、Xを不確定成分(タイプ1)とする。
6g.以上の処理を子がなくなるまで繰り返し、子がなくなった時点で、Xのフラグが1の場合、Xを文字成分(タイプ3)とし、フラグが2の場合、Xを不確定成分(タイプ1)とする。
この処理を、図7(2)に示す基本成分に適用した場合を例に説明する。
(1)基本成分2は、親が無く、子(3、4)があるため、不確定成分(タイプ1)として、2値化と文字認識を行う。2値化と文字認識の結果、基本成分2は文字と判定され、フラグ=1となる。基本成分2には子があるため、基本成分2を文字成分(タイプ3)とし、子である基本成分3、4は部分成分(タイプ4)として削除し、2値化と文字認識を省略する。
(1)基本成分2は、親が無く、子(3、4)があるため、不確定成分(タイプ1)として、2値化と文字認識を行う。2値化と文字認識の結果、基本成分2は文字と判定され、フラグ=1となる。基本成分2には子があるため、基本成分2を文字成分(タイプ3)とし、子である基本成分3、4は部分成分(タイプ4)として削除し、2値化と文字認識を省略する。
(2)基本成分5は、親も子もないため、2値化と文字認識をせずに独立成分(タイプ2)とする。
(3)基本成分6〜9は、親があるため、処理をせず、基本成分10を処理する。基本成分10は、子があるため、2値化と文字認識を行う。2値化と文字認識の結果、基本成分10は文字と判定され、フラグ=1となる。基本成分10には子があるため、基本成分10を文字成分(タイプ3)とし、子である基本成分6〜9は部分成分(タイプ4)として削除し、2値化と文字認識を省略する。
以上説明したごとく、本発明によれば、基本成分2〜9については、2値化と文字認識することなく、文字認識すべき成分か否かを判定できる。
3a 差分フィルタ手段
3b 画素ずれ差分フィルタ手段
3c 画像変換手段
3d 2値化手段
3e ラベリング手段
4a 基本成分抽出手段
4b 基本成分保持手段
4c タイプ判定手段
4d 2値化と文字認識手段
4e 2値化手段
4f 文字認識手段
3b 画素ずれ差分フィルタ手段
3c 画像変換手段
3d 2値化手段
3e ラベリング手段
4a 基本成分抽出手段
4b 基本成分保持手段
4c タイプ判定手段
4d 2値化と文字認識手段
4e 2値化手段
4f 文字認識手段
Claims (3)
- 画像の連結成分を抽出し、抽出した連結成分をもとに2値化と文字認識を行う対象とする基本成分を抽出する画像処理装置であって、
連結成分の外接矩形を求め、外接矩形内のグレースケール画像を基本成分とする基本成分抽出手段と、
基本成分同士の包含関係から、独立成分と、親を持つ成分と、2値化と文字認識を行う不確定成分とに分類するタイプ判定手段と、
不確定成分を2値化する2値化手段と、
2値化手段で2値化された画像の文字認識を行い、文字と判定された基本成分を文字成分とし、文字成分に含まれる基本成分を削除する文字認識手段とを有することを特徴とする画像処理装置。 - 画像の連結成分を抽出し、抽出した連結成分をもとに2値化と文字認識を行う対象とする基本成分を抽出する画像処理方法であって、
連結成分の外接矩形を求め、外接矩形内のグレースケール画像を基本成分とする基本成分を抽出し、
基本成分同士の包含関係から、独立成分と、親を持つ成分と、2値化と文字認識を行う不確定成分とにタイプ分類し、
不確定成分を2値化し、
該2値化された画像の文字認識を行い、文字と判定された基本成分は文字成分とし、文字成分に含まれる基本成分を削除することを特徴とする画像処理方法。 - 画像の連結成分を抽出し、抽出した連結成分をもとに2値化と文字認識を行う対象とする基本成分を抽出する画像処理をコンピュータに行わせるプログラムを記録した記録媒体であって、
連結成分の外接矩形を求め、外接矩形内のグレースケール画像を基本成分とする基本成分抽出手順と、
基本成分同士の包含関係から、独立成分と、親を持つ成分と、2値化と文字認識を行う不確定成分とに分類するタイプ判定手順と、
不確定成分を2値化する2値化手順と、
2値化手順で2値化された画像の文字認識を行い、文字と判定された基本成分は文字成分とし、文字成分に含まれる基本成分を削除する文字認識手順とを実現させるプログラムを記録したコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006258182A JP2007018533A (ja) | 2006-09-25 | 2006-09-25 | 画像処理装置、画像処理方法、及び画像処理プログラムを記録した、コンピュータ読み取り可能な記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006258182A JP2007018533A (ja) | 2006-09-25 | 2006-09-25 | 画像処理装置、画像処理方法、及び画像処理プログラムを記録した、コンピュータ読み取り可能な記録媒体 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP36473399A Division JP3890840B2 (ja) | 1999-12-22 | 1999-12-22 | 画像処理装置、画像処理方法、及び画像処理プログラムを記録した、コンピュータ読み取り可能な記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007018533A true JP2007018533A (ja) | 2007-01-25 |
Family
ID=37755595
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006258182A Pending JP2007018533A (ja) | 2006-09-25 | 2006-09-25 | 画像処理装置、画像処理方法、及び画像処理プログラムを記録した、コンピュータ読み取り可能な記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007018533A (ja) |
-
2006
- 2006-09-25 JP JP2006258182A patent/JP2007018533A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4323328B2 (ja) | 取り込み画像データから文字列を識別して抜出するシステムおよび方法 | |
Fan et al. | Marginal noise removal of document images | |
JP4261005B2 (ja) | 領域ベースのイメージ2値化システム | |
US8947736B2 (en) | Method for binarizing scanned document images containing gray or light colored text printed with halftone pattern | |
Rigaud et al. | Robust frame and text extraction from comic books | |
JP2015065654A (ja) | 自動修復を用いたカラー文書画像セグメンテーション及び二値化 | |
TW200540728A (en) | Text region recognition method, storage medium and system | |
JP2011139366A (ja) | 画像処理装置、画像処理方法、及びプログラム | |
JP2006067585A (ja) | デジタル画像におけるキャプションを位置特定及び抽出する方法及び装置 | |
US20090148043A1 (en) | Method for extracting text from a compound digital image | |
Song et al. | Surface defect detection method using saliency linear scanning morphology for silicon steel strip under oil pollution interference | |
JP3753357B2 (ja) | 文字抽出方法および記録媒体 | |
Shobha Rani et al. | An efficient technique for detection and removal of lines with text stroke crossings in document images | |
EP2735997B1 (en) | Image processing apparatus | |
JP4049560B2 (ja) | 網点除去方法及びシステム | |
JP2010186246A (ja) | 画像処理装置、方法、及び、プログラム | |
US6983071B2 (en) | Character segmentation device, character segmentation method used thereby, and program therefor | |
JP4591967B2 (ja) | 画像処理装置、画像処理方法、プログラム及び情報記録媒体 | |
JP2007018533A (ja) | 画像処理装置、画像処理方法、及び画像処理プログラムを記録した、コンピュータ読み取り可能な記録媒体 | |
Nor et al. | Image segmentation and text extraction: application to the extraction of textual information in scene images | |
JP3890840B2 (ja) | 画像処理装置、画像処理方法、及び画像処理プログラムを記録した、コンピュータ読み取り可能な記録媒体 | |
JP4116377B2 (ja) | 画像処理方法および画像処理装置 | |
JP4383429B2 (ja) | 帳票イメージ処理方法及びその装置 | |
RU2609069C2 (ru) | Обнаружение текста в изображениях графических пользовательских интерфейсов | |
Aparna et al. | A complete OCR system development of Tamil magazine documents |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080617 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080805 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20081028 |