JP2007018533A

JP2007018533A - 画像処理装置、画像処理方法、及び画像処理プログラムを記録した、コンピュータ読み取り可能な記録媒体

Info

Publication number: JP2007018533A
Application number: JP2006258182A
Authority: JP
Inventors: Hiroaki Takebe; 浩明武部
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2006-09-25
Filing date: 2006-09-25
Publication date: 2007-01-25

Abstract

【課題】文書画像から連結成分を抽出し、抽出した連結成分から、文字認識を行う基本成分を抽出する技術に関し、連結成分のうち、２値化と文字認識の不要な成分を除去し、文字認識処理の効率を向上することを目的とする。
【解決手段】連結成分の外接矩形に含まれるグレースケール画像を基本成分とし、基本成分同士の包含関係から文字以外の基本成分を判定し、文字以外と判定された基本成分については、２値化と文字認識を省略することで処理の効率をあげる。
【選択図】図５

Description

本発明は、文書画像の認識技術に関し、特に、カラーの図形、あるいはグレースケールの図形を含む文書画像から連結成分を抽出し、文字認識の単位となる基本成分を求め、求められた基本成分の特徴から２値化と文字認識すべき基本成分を抽出する技術に関する。

カラー文書及びグレースケール文書の、文書全体に占める割合は増加しており、これらの文書の文字を効率的に認識する技術の確立が求められている。

文書画像の認識効率の向上のためには、２値化と文字認識を行う画像の単位を適切に抽出することが必要である。従って、画像の単位である基本成分を適切に抽出し、さらに、あらかじめ図形と判定できる基本成分を削除しておくことが重要な課題となる。

従来のカラー文書認識技術では、
１．同色の画素をクラスタリングする色ラベリング法。
２．カラー画像から画素ごとの明度成分などのグレースケール値を抽出し、グレースケール画像を生成し、そのグレースケール画像のエッジを抽出し、２値化とラベリングを行う方法。
により連結成分を抽出し、この連結成分の外接矩形に含まれるグレースケール画像を基本成分として文字を認識する方法が有力である。

特に、低解像度のカラー文書に対しては、後者が有効である。図８は、従来の連結成分の抽出処理フロー例である。以下図１１（１）に示すグレースケール画像から連結成分を抽出する処理について説明する。図１１（１）のａ−ａ’断面のグレースケール値を図９（２）に示す。

１ａ．図９（１）に示すソーベルフィルタ等の差分フィルタを用い、グレースケール画像からエッジを抽出した、エッジグレー画像を生成する。この結果を図９（３）に示す。この場合、エッジグレー画像のｂ−ｂ’の部分のグレースケール値は、０になることなく、正から負に変化する。
１ｂ．エッジグレー画像を２値化し、エッジ２値画像を生成する。この結果を図１１（２）に示す。
１ｃ．エッジ２値画像をラベリングし、連結成分を求める。

従来の文字認識技術においては、求められた連結成分の外接矩形に含まれるグレースケール画像を基本成分とし、全ての基本成分の２値化と文字認識を行っている。

あるいは、２値化と文字認識の効率をあげるため、基本成分を、大きさ・位置等の幾何的関係から分類し、図形等、文字でないと判定されたものについては２値化と文字認識を省略するという方法が有力である。特に、文字認識結果のみでは文字か図形かわかりづらい場合であっても、基本成分の親子関係、即ち包含関係を用いることにより、正しく識別する方法が提案されている。（国際特許出願番号：ＪＰ９９−０１９８６）
以下、図７（１）に示す入力画像から抽出した、図７（２）に示す基本成分に対する文字成分抽出処理のフロー概要を図１０に示す。
２ａ．基本成分が所定数以上の子の基本成分を含む場合、基本成分を削除する。
この場合、基本成分１は９個の基本成分を含み、通常の文字の範囲を超えているため削除され、基本成分１０は４個の基本成分を含むが、通常の文字の範囲であるため、削除されずそのままとなる。
２ｂ．基本成分が所定数以上の他の基本成分と重なっている場合、基本成分を削除する。
この場合、基本成分６と基本成分９、基本成分７と基本成分８が重なっているが、重なりが通常の文字の範囲であるためそのままとなる。
２ｃ．基本成分が文字成分を含む場合、すなわち、文字を含む場合、この基本成分を削除する。
２ｄ．２ａ、２ｂ、２ｃの条件にあてはまらない場合は基本成分を文字成分と判定し、基本成分を文字成分として抽出する。

この例の場合、基本成分の包含関係から２値化と文字認識の前に削除されるのは、基本成分１のみであり、基本成分２〜１０が文字成分として抽出され、２値化と文字認識を行う。

従来の文字成分の抽出では、処理フロー中、２ｃの文字成分を含むか否かの判定のためにすべての基本成分について２値化と文字認識する必要がある。この処理では、本来個々には２値化と文字認識する必要のない、他の文字に包含されている偏、旁等の子の基本成分についても２値化と文字認識を行うため、無駄な処理時間を要する。

本発明では、上記課題を、以下の手段で解決する。

２値化と文字認識を行う基本成分の抽出に関しては、連結成分の外接矩形を求め、外接矩形内のグレースケール画像を基本成分とする基本成分抽出手段と、基本成分同士の包含関係から、独立成分と、親を持つ成分と、２値化と文字認識を行う不確定成分とに分類するタイプ判定手段と、不確定成分を２値化する２値化手段と、２値化手段で２値化された画像の文字認識を行い、文字と判定された基本成分は文字成分とし、文字成分に含まれる基本成分を削除する文字認識手段とを設ける。

２値化と文字認識手段は、タイプ判定手段で不確定成分とされた基本成分についてのみ、２値化と文字認識を行う。

これにより、独立成分と、親を持つ成分との、２値化と文字認識処理を省略する。

本発明は、基本成分同士の包含関係を利用し、２値化と文字認識する必要のない、他の文字に包含されている偏、旁等の子の基本成分については、事前に削除し、無駄な２値化と文字認識を省略することが可能となる。

図１は、連結成分を抽出する、本発明の第１の構成例を示す。差分フィルタ手段３ａは、例えば図９（１）に示すソーベルフィルタであり、グレースケール画像からエッジを抽出し、エッジグレー画像を生成する。生成されたエッジグレー画像におけるエッジは、図９（３）に示す如く、画像の境界を中心に、境界の両側に対称的に発生する。

画像変換手段３ｃは、差分フィルタの出力値が負に変化した場合は、この値が負のピークを越えるまで出力値を０とし、差分フィルタの出力値が正に変化した場合は、この値が正のピークを越えてから０になるまで出力値を０とし、それ以外の場合は差分フィルタの出力値を出力する。

画像変換手段３ｃは、例えば図２（１）に示す画素ずれ差分フィルタ手段３ｂを用い、前記の式による変換を行う。画素ずれフィルタ手段３ｂは、図２（２）に示すごとく、境界から画素ずれしたエッジグレー画像を生成する。この変換により、図３（１）の太線で示す如く、差分フィルタ手段３ａで生成されたエッジの外側が除去された出力が得られる。

２値化手段３ｄは、画像変換手段３ｃで得られたエッジグレー画像を２値化し、エッジ２値画像を生成する。図１１（１）のグレースケール画像に、本発明による上記の処理を施し、得られたエッジ２値画像を図３（２）に示す。この図に示すごとく、図１１（２）に示す、従来のエッジ２値画像ではｂ−ｂ’部分で接触していた文字と図形が分離される。

ここで得られたエッジ２値画像をラベリング手段３ｅでラベリングすることで、文字と図形がそれぞれ別の連結成分として抽出される。

次に、抽出した連結成分をもとに２値化と文字認識を行う対象とする基本成分の抽出について説明する。図４は、２値化と文字認識を行う対象とする基本成分を抽出する、本発明の第２の構成例を示し、図５は、タイプ判定処理のフローを示す。基本成分抽出手段４ａは、前記ラベリング手段で得られた連結成分の、外接矩形内のグレースケール画像を基本成分として抽出し、基本成分保持手段４ｂに出力する。

タイプ判定手段４ｃは、基本成分保持手段４ｂに保持されている基本成分を、図５に示す処理フローに従って、以下の通り親を持つ成分（タイプ０のまま）と、独立成分（タイプ２）と、２値化と文字認識を行う不確定成分（タイプ１）とに分類する。

５ａ．ｋ番目の基本成分の、親となる基本成分の有無を判定する。親がある場合は、タイプを変更せず、次へ進む。
５ｂ．ｋ番目の基本成分に親がない場合、子となる基本成分の有無を判定する。子がない場合は、ｋ番目の基本成分は独立成分（タイプ２）とする。
５ｃ．子がある場合、ｋ番目の基本成分を不確定成分（タイプ１）とし、この基本成分を２値化と文字認識手段４ｄに送り、図６に示す２値化と文字認識処理を行う。
５ｄ．未処理の基本成分がなくなるまで上記の処理を繰り返す。

次に、図６に示す、２値化と文字認識について説明する。基本成分Ｘが、タイプ判定手段４ｃから２値化と文字認識手段４ｄに送られたものとする。
６ａ．基本成分Ｘの２値化と文字認識を行い、文字中文字でない、文字、すなわち、文字成分と判定された場合、基本成分Ｘにフラグ１を付け、それ以外は、基本成分Ｘにフラグ２を付ける。
６ｂ．基本成分Ｘの子の有無を判定し、子がない場合、フラグ１の基本成分を文字成分（タイプ３）、フラグ２の基本成分を不確定成分（タイプ１）とする。

６ｃ．子があり、フラグが１の基本成分を文字成分（タイプ３）とし、子は部分成分（タイプ４）として、２値化と文字認識を行わずに削除する。
６ｄ．子があり、フラグが２の基本成分については、さらに子に着目し、子の基本成分を、番号ｊ＝０から順に、２値化と文字認識を繰り返す。
６ｅ．基本成分Ｘのｊ番目の子が、文字成分（タイプ３）、または図形成分（タイプ５）の場合、基本成分Ｘを図形成分（タイプ５）とし、削除する。

６ｆ．ｊ番目の子が不確定成分（タイプ１）の場合、次の子について２値化と文字認識を行う。
６ｇ．以上の処理を子がなくなるまで繰り返し、子がなくなった時点で、Ｘのフラグが１の場合、Ｘを文字成分（タイプ３）とし、フラグが２の場合、Ｘを不確定成分（タイプ１）とする。

この処理を、図７（２）に示す基本成分に適用した場合を例に説明する。
（１）基本成分２は、親が無く、子（３、４）があるため、不確定成分（タイプ１）として、２値化と文字認識を行う。２値化と文字認識の結果、基本成分２は文字と判定され、フラグ＝１となる。基本成分２には子があるため、基本成分２を文字成分（タイプ３）とし、子である基本成分３、４は部分成分（タイプ４）として削除し、２値化と文字認識を省略する。

（２）基本成分５は、親も子もないため、２値化と文字認識をせずに独立成分（タイプ２）とする。

（３）基本成分６〜９は、親があるため、処理をせず、基本成分１０を処理する。基本成分１０は、子があるため、２値化と文字認識を行う。２値化と文字認識の結果、基本成分１０は文字と判定され、フラグ＝１となる。基本成分１０には子があるため、基本成分１０を文字成分（タイプ３）とし、子である基本成分６〜９は部分成分（タイプ４）として削除し、２値化と文字認識を省略する。

以上説明したごとく、本発明によれば、基本成分２〜９については、２値化と文字認識することなく、文字認識すべき成分か否かを判定できる。

本発明の第１の構成例画素ずれ差分フィルタ及び画素ずれ差分フィルタの出力本発明のエッジの外側除去結果本発明の第２の構成例タイプ判定処理のフロー２値化と文字認識処理のフロー基本成分例従来の連結成分の抽出処理フロー例ソーベルフィルタ及びソーベルフィルタの出力従来の文字成分抽出処理フロー例グレースケール画像とエッジ２値画像

符号の説明

３ａ差分フィルタ手段
３ｂ画素ずれ差分フィルタ手段
３ｃ画像変換手段
３ｄ２値化手段
３ｅラベリング手段
４ａ基本成分抽出手段
４ｂ基本成分保持手段
４ｃタイプ判定手段
４ｄ２値化と文字認識手段
４ｅ２値化手段
４ｆ文字認識手段

Claims

画像の連結成分を抽出し、抽出した連結成分をもとに２値化と文字認識を行う対象とする基本成分を抽出する画像処理装置であって、
連結成分の外接矩形を求め、外接矩形内のグレースケール画像を基本成分とする基本成分抽出手段と、
基本成分同士の包含関係から、独立成分と、親を持つ成分と、２値化と文字認識を行う不確定成分とに分類するタイプ判定手段と、
不確定成分を２値化する２値化手段と、
２値化手段で２値化された画像の文字認識を行い、文字と判定された基本成分を文字成分とし、文字成分に含まれる基本成分を削除する文字認識手段とを有することを特徴とする画像処理装置。
画像の連結成分を抽出し、抽出した連結成分をもとに２値化と文字認識を行う対象とする基本成分を抽出する画像処理方法であって、
連結成分の外接矩形を求め、外接矩形内のグレースケール画像を基本成分とする基本成分を抽出し、
基本成分同士の包含関係から、独立成分と、親を持つ成分と、２値化と文字認識を行う不確定成分とにタイプ分類し、
不確定成分を２値化し、
該２値化された画像の文字認識を行い、文字と判定された基本成分は文字成分とし、文字成分に含まれる基本成分を削除することを特徴とする画像処理方法。
画像の連結成分を抽出し、抽出した連結成分をもとに２値化と文字認識を行う対象とする基本成分を抽出する画像処理をコンピュータに行わせるプログラムを記録した記録媒体であって、
連結成分の外接矩形を求め、外接矩形内のグレースケール画像を基本成分とする基本成分抽出手順と、
基本成分同士の包含関係から、独立成分と、親を持つ成分と、２値化と文字認識を行う不確定成分とに分類するタイプ判定手順と、
不確定成分を２値化する２値化手順と、
２値化手順で２値化された画像の文字認識を行い、文字と判定された基本成分は文字成分とし、文字成分に含まれる基本成分を削除する文字認識手順とを実現させるプログラムを記録したコンピュータ読み取り可能な記録媒体。