JP4323328B2

JP4323328B2 - 取り込み画像データから文字列を識別して抜出するシステムおよび方法

Info

Publication number: JP4323328B2
Application number: JP2003586825A
Authority: JP
Inventors: フイタオ・ルオ
Original assignee: Hewlett Packard Development Co LP
Current assignee: Hewlett Packard Development Co LP
Priority date: 2002-04-19
Filing date: 2003-04-17
Publication date: 2009-09-02
Anticipated expiration: 2023-04-17
Also published as: EP1497787A1; EP1497787B1; DE60303202T2; DE60303202D1; AU2003221718A1; US20030198386A1; JP2005523530A; WO2003090155A1

Description

［発明の分野］
本発明は、画像データから文字列を識別して抜出するシステムおよび方法に関し、詳細には、本開示は、複雑な自然のシーンの取り込み画像データに見られる文字列を識別して抜出するシステムおよび方法を提供する。

［発明の背景］
デジタル画像が普及しデジタル画像を取り込みやすくなったことにより、取り込み画像データの画像内容を解析して識別することが可能なことが望ましくなっており、時によっては必要になっている。
一例として、文書を走査する場合、走査されて取り込まれた文書データは、文書中の各種画像データを別様に処理するために分離されて抜出されることが多い。
走査文書内に含まれることが多い様々な種類の画像データとしては、英数字テキスト、自然の画像、およびグラフィック画像が挙げられる。
走査文書画像データ内のテキストに対応する画像データは、自然の画像データまたはグラフィック画像データとは別様に処理されて強調されることが多い。
多くの場合、抜出されたテキストは後に、光学文字認識ソフトウェアを通して処理され、テキストをデジタルビットマップフォーマットから電子編集が可能な符号化フォーマットに変換することができる。

走査文書の場合、もたらされるテキストビットマップを背景と明らかに異なるように走査プロセスの品質が容易に制御されるため、テキスト画像データは文書画像のデジタルビットマップフォーマットから容易に識別され抜出される。
たとえば、明るい背景上に暗色のテキストがある場合、明るい背景から暗いテキストに移る際に大きな勾配があり、また暗いテキストから明るい背景に移る際に第２の勾配がある。
画像データからテキストデータを抜出するように設計されたフィルタは当分野において既知であり、一般に、こういった大きな勾配を検出することに基づいてテキストデータを識別して抜出する。
走査文書中のテキストを識別する別の既知の技法はしきい値処理と呼ばれる。
しきい値処理技法は、画像中のテキストが特定の輝度を有し、その一方で他の画像データタイプは特定の輝度を有さないと想定する。
文書画像データが解析されて、文書画像のデジタルビットマップ内で所定の輝度を有するすべてのピクセル値が識別される。
次に、こういったピクセルはテキストであると想定される。
この実施形態の変形形態では、しきい値処理技法は、対象ピクセル付近の背景輝度を考慮に入れるように適合される。

こういったテキスト抜出技法は、走査文書内の印字テキストに対しては信頼性が高いが、自然の環境内に見られる文字列を識別するには信頼性が低い。
具体的には、自然の環境内に見られる文字列を含む掲示された標識の取り込みデジタル画像は、走査文書内のタイプされたテキストと同じ差別化特徴を有さない。
図１Ａは、走査文書１０内に見られる文字列１１Ａおよび１１Ｂの一例を示す。
見て分かるように、テキスト（１１Ａおよび１１Ｂ）は一般に、エッジ検出を比較的単純なプロセスにするために自然の画像（１２Ａおよび１２Ｂ）から分離される。
さらに、テキスト文字列は、テキストの検出に役立つ、関連する大きな勾配を有する独特のエッジを有する。
図１Ｂは、自然環境の取り込み画像１４に見られる文字列１３の一例を示す。
図１Ａに示す文字列とは対照的に、文字列１３のエッジは文字に関して一部の情報しか提供しない。
たとえば、検出されるエッジは文字のエッジに対応するものもあれば、しないものもある。
さらに、間隔、照明、背景輝度、前景輝度、および画像の歪みはすべて、非均一で予測がつきにくい文字列特徴を表し、それにより単純なエッジ検出またはしきい値処理を使用して、自然環境に見られるこういった種類の文字列を識別し抜出することができない。

残念なことに、取り込み画像データから文字列を抜出する既知の技法は信頼性が比較的低い。
たとえば、１つの既知の技法は、自然環境内に見られる文字列の特定の特徴に関連する前提に基づいている。
この技法は、２つの主要なアルゴリズムを使用してカラー画像からテキストを見つけることにより実施される。
２つの主要なアルゴリズムのうち一方は画像を均一な色を有する連結した構成要素に分けることに基づき、他方はカラー画像のグレースケール画像での局所空間変化の計算に基づく。
この技法の基本となる前提は、文字列テキストの色が均一であり、かつテキスト領域が高いグレースケール変化を有するはずであるということである。
問題は、テキストがこれら前提に従って行動しない場合が多く、その結果、この技法によって検出されない場合があることである。
したがって、この技法は、自然環境の取り込み画像データ中の文字列を検出する際には信頼性がない。

第２の技法は、階層アルゴリズムに従ってテキスト検出を実行する。
まず、取り込み画像から、画像勾配情報に応じてエッジピクセル情報が得られる。
エッジピクセルは文字の線および文字の湾曲を画定するグループにまとめられ、このグループが次にテキスト列に結合される。
この技法に伴う問題は頑健性に欠け、その結果、信頼できない抜出結果を提供することである。
特にこの技法は、単純に画像勾配情報に基づいてエッジ検出を行う。
しかし、非均一な照明、雑音、または分布を有する取り込み画像では、この種類のエッジピクセル検出の信頼性は大幅に低下するか、または不可能である。
その結果、誤ったエッジピクセル情報により、文字の線および湾曲が識別されない場合がある。
さらに、この技法は、単純に関連するエッジピクセルの連結性に基づき、画像の他の態様をすべて無視して、画像内の特定の湾曲および線を所与の文字に割り当てる。
しかし文字のエッジが急旋回し、かつ／または予想されるように連結していない場合、連結性のみに基づいた判断は文字を２つのセグメントに「分割」してしまう場合がある。
最後に、この技法は、小さな（また多くの場合極めて重要な）文字ストリングの点、アクセント記号、および句読点を識別しない。
国際公開第０１／３７２１２号欧州特許出願公開第０８５４４３３号米国特許第６２４９６０４号 J. Canny,「A Computational Approach to Edge Detection」, 1986年, IEEE Tran. PAMI, vol. 8, no. 6 R. Gonzalez, R. Woods, Addison Wesley,「Digital Image Processing」, 1992年 A. P. Dempster, N. M. Laird, D. B. Rubin,「Maximum likelihood from incomplete data via the EM algorithm」, 1977年, Journal of Royal Statistical Society, ser. B, vol. 39, p 1 - 38

したがって、自然環境の取り込み画像データから文字列画像データを抜出する信頼性の高いシステムおよび方法が必要である。

［発明の概要］
取り込み画像データ内の文字列を検出するシステムおよび方法を記載する。
文字のエッジが画像データ内で検出されて、画像データのエッジ表現が生成される。
エッジ表現は、関連する大きさおよび方向をそれぞれ有する複数の単一幅エッジピクセルを含む。
隣接するエッジピクセルのラベル付けに応じて、エッジピクセルラベルが割り当てられる。
一実施形態では、エッジピクセルのラベル付けはエッジピクセルの連結性に基づく。
別の実施形態では、エッジピクセルのラベル付けはさらにエッジピクセルの方向に基づく。
文字境界エリア画定部が、エッジ表現情報を使用するとともに、同様のエッジピクセルラベルに応じて作成される。
一実施形態では、文字画定部は、高文字曲率エリアにおける終点エッジピクセルを識別してリンクすることによって作成される。
文字境界画定部は方向情報を使用してフィルタリングされて、文字前景情報および文字背景情報が識別される。
一実施形態では、画定部は、文字境界エリア画定部の幾何学的形状および／またはグレースケール均一性のうちの一方または両方を解析することによってさらにフィルタリングされる。
フィルタリングされた画定部は、隣接する境界エリア画定部の互いの相対位置に応じて隣接する境界画定部と組み合わせられて、線画定部が形成される。

［発明の詳細な説明］
概して、本発明は、自然環境の取り込みデジタル画像から文字列を抜出するシステムおよび方法である。
本開示において述べる取り込み画像データは、少なくとも１つの文字列のグラフィック表現に対応する画像データの少なくとも一部を含むことに留意されたい。
取り込み画像データは、環境内で、文字列のグラフィック表現の周囲に自然に見られる他の被写体（たとえば、有生命被写体および無生命被写体）に対応する画像データをさらに含むことができる。
自然環境に掲示される標識に対応する画像データは、標識の外縁によって囲まれた線内に単一の言葉、語句、文章、または文字列のグラフィック表現を含む場合が多い。
図１Ｂは、自然環境の取り込み画像１４内に見られる文字列１３の一例を示す。

図２は、自然環境の取り込みデジタル画像データから文字列を抜出する本発明の方法の第１の実施形態を示す。
図示の方法によれば、まずエッジが検出されて、デジタル画像のエッジ表現が求められる（２０）。
デジタル画像はカラーデジタル画像であっても、またはグレースケールデジタル画像であってもよいことに留意されたい。
一実施形態では、カラー画像をグレースケール画像に変換し、グレースケール画像を使用して画像のエッジ表現を得ることができる。
１つまたは複数の関連するデジタル成分値（たとえば、ＲＧＢ値、ＣＭＹＫ値等）をそれぞれ有する複数のピクセルを含むカラー画像の場合、エッジ検出はカラー画像の各成分に対して行うことができる。
たとえば、画像がＲＧＢ色空間で表される場合、画像中のピクセルすべての赤色成分のみを解析して、デジタル画像のエッジ表現を得ることができる。
別法として、各成分または成分の組み合わせを使用して、デジタル画像のエッジ表現を生成することができる。

一実施形態では、エッジ表現は、取り込み画像データ内の検出されたエッジに単一幅エッジピクセルマップを生成するアルゴリズムを使用して、デジタル画像を処理することによって得られ、マップ中の各エッジピクセルは関連する大きさ成分および方向成分を有する。
アルゴリズムは、検出されたエッジが複数ピクセル幅を有する場合であっても単一幅エッジピクセルを生成することに留意されたい。
このアルゴリズムは、参照により本明細書に援用される「A Computational Approach to Edge Detection」（J. Canny, IEEE Tran. PAMI, vol. 8, no. 6, 1986）に述べられている変形Ｃａｎｎｙアルゴリズムを使用して実施することができる。
一般にＣａｎｎｙアルゴリズムは、文字が画像背景と独特の十分なコントラストを有すると想定し、それにより文字境界がこのアルゴリズムによって検出可能である。
同様の結果を提供する他のアルゴリズムも使用することができることに留意されたい。

図３Ａは、本発明によるエッジ検出の一実施形態を示す。
まずデジタル画像が、ガウスフィルタまたは同様の拡散型フィルタを使用してフィルタリングされて、画像内のエッジの検出を妨害し得るいずれの雑音も除去する（３０）。
次に画像データは、１）表現中の各エッジピクセルの大きさを表す中間エッジマップ（３１Ａ）、および２）前の隣接エッジピクセルとの関係に応じて各エッジピクセルへの方向を提供するエッジ方向マップ、を含むデジタル画像の単一ピクセル幅エッジ表現を生成するエッジ検出アルゴリズムによって処理される（３１）。
図３Ｂはエッジ方向画定部の一実施形態を示す。
図示のように、エッジピクセルには、対象ピクセルが前の隣接エッジピクセルである対象ピクセルＩへの相対方向を示す値１〜８を割り当てることができる。
中間エッジマップはしきい値処理フィルタによってフィルタリングされて、小さいエッジピクセルを除去し、二値エッジマップ３３Ａが生成される（３２）。

図２を再び参照すると、エッジ検出（２０）が実行され、エッジ表現が生成されると、エッジピクセルラベルが他の隣接エッジピクセルのラベルに応じて割り当てられる（２１）。

一実施形態では、ラベル付けは図４Ａに示すように実行される。
まず、ラベル付けはピクセルの連結性に従って実行される（４０）。
具体的には、すべてのＮ連結ピクセルが同じ値を有するように各ピクセルにラベル値が与えられる。
図４ＢはＮ連結ピクセルの概念を示し、ここでＮ＝８である。
図示のように、エッジピクセルが、ラベル値Ｌ１を有する対象エッジピクセルＩの周囲のいずれかのピクセル位置Ｐにある場合、そのエッジピクセル値もラベル値Ｌ１を有することになる。
次に、エッジピクセルが評価されて終点エッジピクセルが特定され（４１）、次に、適切なラベルを割り当てるように終点エッジピクセルを他のエッジピクセルにリンクする（４２）。
終点エッジピクセルを見つける目的は、エッジ検出（すなわち、図２のブロック２０）中に誤って生成されたエッジ表現内の文字のエッジの途切れを識別することにある。
具体的には、エッジの検出に使用されるアルゴリズムに応じて、結果得られるエッジ表現の高曲率角に途切れが発生する場合がある。
一実施形態では、終点は以下のアルゴリズムに従って検出される。
エッジ表現中の各エッジピクセルｐ毎に、８近傍（図３Ｂに示すように）を評価し、ｋ番目の近傍ピクセルがエッジピクセルである場合に「neighbor[k-1]=1」であり、その他の場合は「neighbor[k-1]=0」であるように８要素整数配列近傍を設定する。
さらに、整数の変数ncountが近傍中のエッジピクセルｋの数に設定される。
（１）If（ncount>=3)、ｐは終点ではない。（６）に進む。
（２）If(ncount<=1)、ｐは終点である。（６）に進む。
（３）If((neighbor[2]==1 and neighbor[0]==1) or (neighbor[4]==1 and neighbor[0]==1))、ｐは終点ではない。（６）に進む。
（４）For(k=0; k<8; k++){
If((neighbor[k]==1) and (neighbor[(k+1)] mod 8]==1))、
ｐは終点である。（６）に進む。
}
（５）ｐは終点ではない。
（７）終了。

終点リンキング（４２）は、あらゆる終点についてｋ×ｋ近傍がチェックされて、検出された他のいずれの終点も見つけるように実行される。
別の終点が近傍において検出される場合、評価プロセスが実行されて、これら２つの終点をリンクすることができるか否かがチェックされる。
２つの終点がリンクされる場合、２つの終点に関連するエッジピクセルにはすべて同じラベルが割り当てられる。
一実施形態では、この評価プロセスは、２つの終点をリンクする最適な最短距離経路を探索することによって設計される。
リンキングを適格なものにするために、この最適経路上のあらゆるピクセルは所定のしきい値を越える勾配を有する（このしきい値選択の一選択肢は、図３Ａの３２において使用されるものと同じしきい値を使用するというものである）。

最適経路の探索に使用することができる１つのアルゴリズムについて以下述べる。
２つの終点ｅ１およびｅ２が（ｒ１，ｃ１）および（ｒ２，ｃ２）のそれぞれにあると想定する。
但し、ｒおよびｃは画像全体の座標系に対する点の行および列の座標である。
（（ｒ１＋ｒ２）／２，（ｃ１＋ｃ２）／２）が中心になるようにｋ×ｋ矩形探索近傍（ＳＮＥ）が終点対に対して定義される。
ＳＮＥ内にある各８連結点対ｐおよびｑについて、点ｑにおけるグレースケール勾配が所定のしきい値を越える場合はｄｉｓｔ（ｐ，ｑ）＝１であり、その他の場合はｄｉｓｔ（ｐ，ｑ）＝＋∞であるようにｐからｑまでの距離が画定される。
画像のグレースケール勾配は、参照として本明細書に援用される「Digital Image Processing」（R. Gonzalez and R. Woods, Addison Wesley, 1992）に述べられているようにソーベル（Ｓｏｂｅｌ）演算子を使用して計算可能であり、または図３Ａに関連して上に述べたＣａｎｎｙアルゴリズムの副産物として得ることができることに留意する。
ＳＮＥ内の各点から終点ｅ１までの最短距離は、この距離画定部およびダイナミックプログラミングを用いて計算することができる。
より具体的には、ＳＮＥ内の点ｐからの最短距離をＳＤ（ｐ）として表す場合、ＳＤ（ｐ）は、

として得ることができ、式中ＮＥ（ｐ）は点ｐと８連結される点の集合を表す。
したがって、ＳＤ（ｅ１）＝０を開始点として定義し、最短距離関数がダイナミックプログラミングを用いてＳＮＥ内の各点について計算される。
終点リンキング評価のために、ＳＤ（ｅ２）を使用する。
すなわち、２つの終点ｅ１およびｅ２はＳＤ（ｅ２）が無限未満である場合にのみリンクされる。

図２を参照すると、ラベルがピクセルのエッジに割り当てられると、境界エリア画定部が作成される（２２）。
図５は、文字エッジ５３および対応する境界エリア（文字枠とも呼ぶ）の一例を示す。
文字枠画定部は、枠内の文字および枠自体の両方に関連する情報を提供する。
一実施形態では、エッジピクセルがラベル付けられると同時に、境界エリア画定部も作成されていることに留意されたい。
一実施形態では、文字枠は、文字および枠に関連する情報を含むデータ構造に従って定義される。
文字枠データ構造（ＢｏｘＣｏｍｐ）の一例を以下に示す。
structure BoxComp
{
RECT rect;
Int col0;
Int row0;
Int h0;
Int textColor;
Int edgeIndex;
Int threshold;
}
ＢｏｘＣｏｍｐ構造は文字枠の表現に必要な特徴フィールドを含む。
上に示す例では、ｒｅｃｔが枠（または境界エリア）識別子に対応し、ｒｏｗ０およびｃｏｌ０は枠の中心座標に対応し（画像全体に対する座標系を想定して）、ｈ０はピクセル数での枠の高さであり、ｔｅｘｔＣｏｌｏｒは文字が背景に対して暗い文字である（ｔｅｘｔＣｏｌｏｒ＝０）であるか、それとも背景に対して明るい文字であるか（ｔｅｘｔＣｏｌｏｒ＝１）を示し、ｅｄｇｅＩｎｄｅｘは文字のエッジピクセルに使用されるラベル値を表し、ｔｈｒｅｓｈｏｌｄは文字枠を二値ビットマップに変換する際に使用される推奨値である。
上の例に示すすべてのフィールドが必要であるわけではなく、後の処理ステップにおけるデータ構造を使用しやすくするために含んでよいことに留意されたい。
たとえば、高さｈ０は文字枠座標から容易に求められる。
したがって、実際の実施態様は速度要件とメモリ要件との間のトレードオフに基づいて決定されるべきである。

したがって、すべてのエッジがラベル付けられると、異なるエッジラベル（すなわち、ｅｄｇｅＩｎｄｅｘ）毎に対応する文字枠画定部があるように、エッジピクセルに割り当てられたそれぞれの異なるラベル毎に単一の文字枠が作成される。
一実施形態では、作成される文字枠は、エッジピクセル座標情報から得られる枠の幾何学的座標情報（ｒｅｃｔ、ｃｏｌ０、ｒｏｗ０、ｈ０）も含む。
終点リンキング中、リンクされたエッジピクセルの集合が結合され、共通の文字枠ラベルが再びラベル付けられる。

図２を参照すると、すべての文字枠が画定されると、枠は、エッジピクセル表現から得られる方向情報を使用してフィルタリングされて、文字前景情報および文字背景情報が識別される（２３）。
文字枠をフィルタリングする目的は、枠のいくつかが、誤って文字枠と特定された文字列以外の画像データに対応する場合があることにある（本明細書では負の文字候補と呼ぶ）。
枠をフィルタリングすることにより、真の文字枠（本明細書では正の文字候補と呼ぶ）からこういった誤った枠が検出される。
さらに、方向情報を使用して文字の背景および前景を識別することができ、したがって方向情報を使用して、特定された背景および前景を解析して、文字枠が正の文字候補であるか、それとも負の文字候補であるかを判断することができる。

一実施形態では、文字枠は、各文字枠に対応するエッジの位相解析を実行することにより、方向情報を使用してフィルタリングされる。
位相解析は２つのフィルタリングプロセスを含む。
第１のプロセスでは、ラスタ走査投影線を使用して、ピクセル線単位で文字枠候補内のすべてのエッジピクセルと交差する（図６Ａ）。
投影線に沿った最初と最後の交点がＰ１およびＰ２と表される（線に沿って交点が２つしかないと想定するものではないことに留意する）。
対になった各エッジピクセルの方向情報が、前に求められたエッジ表現情報、特に方向情報から得られる。
対になった各エッジピクセル毎に、グレースケール勾配ベクトルが投影方向に投影される。

図６Ｂは、図６Ａに示すＰ１およびＰ２それぞれの勾配ベクトルを示す。
投影された勾配ベクトルは、各交点での輝度変化を特徴付け、したがって前景が背景よりも暗いか、それとも明るいかを示す。
たとえば、図６Ｂでは、交点Ｐ１において、投影された勾配ベクトルの方向により、前景がより暗く、背景がより明るいことが示される（勾配はグレースケールの低い方から高い方を指す）。
同じ原理がＰ２にも当てはまる（Ｐ２では、前景色と勾配投影方向の間の関係がＰ１において用いられるものとは逆であることに留意する）。
交点におけるグレースケール勾配ベクトルがラスタ走査投影線に垂直な場合、投影勾配ベクトルはゼロであり、前景色についての指示を得ることができないことに留意されたい。

勾配投影情報に基づいて、各交点は「＋」（暗い前景を示す）、「−」（明るい前景を示す）、または「０」（指示なし）で表すことができる。
一実施態様では、最終投影勾配ベクトルの大きさではなく方向が前景／背景解析に使用されるため、上記勾配投影情報（大きさ情報および方向情報を含む）が必要ないことに留意する。
一実施形態では、勾配方向は、エッジ方向マップ（図３Ａの構成要素３３Ｂ）の形で表される、図４Ｂに示すように８つの離散値に量子化することができ、方向解析をエッジ方向マップに基づいて実行することができる。

走査線上の最初と最後の交点の方向情報が得られると、交点対Ｐ１およびＰ２は、それぞれの指示が両方とも「＋」である、または両方とも「−」である場合に「マッチ」対として定義される。
投影線プロセスは、垂直方向および水平方向それぞれにおいて候補枠全体にわたってラスタ走査様式で実行される。
マッチ対をもたらす投影線の割合は、投影測定値（projection measure）として使用される。
一実施形態では、投影線の７５％を越える投影測定値を有する候補枠が正の候補とみなされる。

第２の位相プロセスはエッジ方向一貫性測定であり、これもまた、エッジピクセル表現から得られるエッジ勾配ベクトルの方向および前の位相解析からの結果に基づく。
上に示したように、候補枠の前景／背景色（明るいか、または暗いか）は、エッジピクセルのエッジ方向マップから類推することができる。
しかし、異なるエッジピクセル対から類推される前景色は、１つの候補枠で同じではない場合がある。
テキスト領域に対応する正の候補枠の場合、前景／背景色指示（エッジ方向マップに基づく）はかなり一貫性があるはずであるが、非テキスト雑音を表す負の候補枠の場合、前景／背景色指示は、雑音信号のランダム特徴に似ている。
したがって、エッジピクセルの前景／背景色指示統計に対する一貫性測定が、正の候補枠から負の候補枠を分離する良好なフィルタリング測定としての役割を果たす。
エッジピクセルの大半が同じ前景色指示（「＋」または「−」）を有する枠のみが、このフィルタリングプロセスを乗り越える。
さらにフィルタリングステップは、文字枠データ構造のｔｅｘｔＣｏｌｏｒフィールドをもたらし、ｔｅｘｔＣｏｌｏｒフィールドは後に、文字枠を二値化する際に使用される。

本発明の別の実施形態によれば、候補枠は図７Ａに示すようにフィルタリングされる。
具体的には、まず幾何学的解析７０が各枠に対して実行される。
幾何学的解析は本質的に、各候補枠のサイズ（ピクセル数で）およびアスペクト比を測定する。
適切なサイズおよびアスペクト比を有する枠のみが次に、後のフィルタリング解析中に考慮される。
幾何学的解析に通らなかった残りの候補は負の候補７２Ｂとして記憶される。
一実施形態では、幾何学的解析は位相解析７１に先立って実行される。
位相解析７１は、上に述べたように幾何学的解析７０からフィルタリングされた候補に対して実行される。
位相解析は、エッジ検出中に得られた方向情報を使用して、文字枠の考えられる前景および背景を識別する。
位相解析基準に通らない文字枠は負の候補とみなされ、幾何学的解析中に判断された負の候補とともに記憶される。
位相基準に通った候補は次に、グレースケール解析７２中に考慮される。

一般に、候補枠のグレースケール解析は元のデジタル画像のグレースケール版を使用して実行され、各枠の前景ピクセルおよび背景ピクセルのグレースケール分布を測定する。
次に分布を用いて、前景と背景の間のコントラストを示すことができる。
十分なコントラストが存在する場合、枠は正の候補であるとみなされる。
図７Ｂは、本発明によるグレースケール解析の一実施形態を示す。
まず枠のサイズが評価されて、グレースケール解析を実行するに十分大きいか否かが判断される（７３）（一実施形態では、枠の高さがしきい値と比較される）。
枠が小さすぎる（たとえば、高さがしきい値未満である）場合、統計学的解析は小さなピクセル値母集団に対しては確実に実行することができないため、枠は迂回する。
迂回した枠は正の候補であると想定される。
枠が分布解析に十分大きな母集団の値を提供する場合、元の取り込み画像のグレースケール画像を使用して二値化される（７４）。
枠の二値化は、候補枠ピクセルを元画像のグレースケール版中の対応するピクセルに再びマッピングし、次に二値化関数を使用して候補枠のグレースケール画像を候補枠の二値ビットマップに変換することによって実行される。
枠が二値化されると、分布解析が枠の二値ビットマップに対して実行される。
所与の二値枠の前景ピクセルおよび背景ピクセルのグレースケール平均および標準偏差はｇ_ｆ、ｇ_ｂ、σ_ｆ、およびσ_ｂとしてそれぞれ定義される。
背景ピクセルと前景ピクセルの間のコントラストｃは、以下に示す式２に従って定義される。
式２ｃ＝ｅｘｐ（（（ｇ_ｆ−ｇ_ｂ）^２）／σ_ｆ ^２）＋ｅｘｐ（（（ｇ_ｆ−ｇ_ｂ）^２）／σ_ｂ ^２）
ブロック７６（図７Ｂ）に示すように、二値枠のコントラストが許容可能値を越える（すなわち、十分に高い）場合、枠は正の候補とみなされる。
越えない場合は負の候補とみなされ、残りの負の候補７２Ｂ（図７Ａ）とともに保存される。

図２を再び参照すると、フィルタリングされた境界エリア画定部が、それぞれの互いの相対位置に応じて、他の隣接する境界エリア画定部と組み合わせられ／結合されて、テキスト線画定部が形成される（２４）。
一実施形態によれば、線は水平であるとみなされる。
本発明の別の実施形態では、線画定部は、所与の線について組み合わせられた境界エリア画定部を追跡するデータ構造によって実施される。
図８Ａは、データ構造８０および組み合わせられた境界エリア画定部８１〜８４との関係の一例を示す。
図示のように、データ構造は以下のデータフィールドを含む。
すなわち、ｒｅｃｔは組み合わせられた、または結合された文字枠の線画定部を識別し、ｃｈｉｌｄ＿ｎｕｍは、この線画定部を作成するために結合された文字枠（子枠とも呼ぶ）の数である。
一実施形態では、データ構造８０は、ＢｏｘＣｏｍｐデータ構造において表されるすべての子枠の容器として機能する。
言い換えれば、子枠は、テキスト線におけるそれぞれの空間的関係に基づいて双方向リストデータ構造（ＢｏｘＣｏｍｐを埋め込む）を使用してリンクされる。
すなわち、枠Ａが枠Ｂの左側に空間的にある場合、枠Ａはリスト中の枠Ｂの前にリンクされる。
枠の空間的関係は、それぞれを包含する矩形の中心点を使用して求めることができる。
このリスト設計によれば、２つのデータフィールド、すなわちｌｅｆｔ＿ｐｔｒおよびｒｉｇｈｔ＿ｐｔｒが、線構造の左側および右側のそれぞれで文字枠のＢｏｘＣｏｍｐデータ構造に繋がる２つのポインタとして含まれる。
これら２つのポインタを使用して、それぞれの空間的関係に関わる子枠に素早くアクセスすることができる。

一実施形態では、境界エリア画定部は、まず現在の正の候補を現在の線画定部に割り当て、続けて、現在の線画定部を中心とする予め規定された近傍エリア内の正の候補を探索することによって結合される。
別の正の候補がエリアに重複していることが見つかる場合、その別の正の候補は現在の線に結合され、次に新しい線画定部の周囲の近傍エリアが探索される。
正の候補が、線に関連するいずれの候補を中心にする所与の線についてもそれ以上見つからない場合、新しい候補に新しい線画定部が割り当てられ、プロセスが繰り返される。
正の候補の線への結合を実施するアルゴリズムの一実施形態について以下述べる。
入力：正の候補
出力：線画定部配列
（１）正の候補がそれ以上ない場合、（６）に進む。
（２）現在の正の候補を得て、現在の線画定部を割り振り、現在の候補を線画定部に加える。
（３）現在の線画定部の境界エリアの予め規定された近傍を見て、他に正の候補がこの近傍に重複しているか否かを調べる。ない場合、（１）に進む。
（４）現在の線画定部と結合することができる場合、現在の線画定部に加える。
（５）（３）に進む。
（６）終了。
上に示すプロセスの（４）の結合基準は、重複した候補を、線画定部の３つの他の関連する文字枠、すなわち対象の現在の線に関連する収容枠および線画定部の左右両方の子枠、と比較する。
結合基準を満たすには、重複した候補枠は、左右いずれかの子枠と同様の高さ、および／または左右の子枠の高さの間にある高さを有することが必要である。
候補枠は、図８Ａの枠８１〜８４の間の単方向矢印によって表される、同じ線画定部の候補間にリンクを作成することによって「加え」られる。

本発明の一実施形態では、文字枠が結合されて線画定部を形成した後、各線画定部に関連する各文字枠周囲の予め規定されているエリアが探索されて、文字列に関連する「他の文字」要素が見つけられる。
たとえば、下付き文字「ｉ」および「ｊ」の点、様々なアクセント記号、および句読点が、文字であるには小さすぎるため、または水平に並んでいないために前の処理ステップ中に除外されている場合がある。
こういった「他の文字」要素は、線画定部情報、およびそれまでにフィルタリングされて除外され、記憶されている負の候補文字枠を使用して見つけられる。
一般に、負の候補枠は、サイズおよび文字枠への近接度が与えられた上で、各線中の文字枠に対するそれぞれの関係を鑑みて評価される。
図８Ｂを参照すると、より具体的には、各線包含枠８５、候補枠８６Ａ〜８６Ｄそれぞれの周囲の予め規定されたエリア８７Ａおよび８７Ｂが、特定の特徴（たとえば、サイズ）を有する負の候補を求めて探索される。
一実施形態では、これら「他の文字」要素は、以下のプロセスに従って見つけられ、線画定部に結合される。
（１）各Ｌ容器毎に、点探索エリアを画定する。
（２）Ｎ容器を見て、いずれかの枠が点探索エリアにほぼ重複するか否かを調べる。
（３）重複する各枠毎に、欠けている点として適合するに適切なサイズ範囲にあるか否かを調べる。適切なサイズ範囲にある場合、Ｌ容器に結合させる。
但し、Ｌ容器は線画定部に対応し、Ｎ容器は負の候補枠に対応する。

本発明の別の実施形態では、テキスト線画定部の「他の文字」要素は負の候補枠から探索されない。
その代わり、前のフィルタリング手順から得られる負の候補枠はすべて、メモリの消費を低減するために記憶されることなく破棄される。
この場合、「他の文字」要素は、予め規定される近傍エリア８７Ａおよび８７Ｂにおいてのみ図４Ａで述べた文字枠生成方法を繰り返すことによって見つけられる。
これら文字枠が首尾良く生成され、次に評価されて「他の文字」が見つけられると、これら文字枠を上に述べたように線画定部に結合することによってさらに処理することができる。

本発明の一実施形態によれば、可能なすべての候補およびすべての関連する「他の文字」要素が各線画定部に識別されると、各線画定部エリアに関連する各画定部文字枠が二値化される。
図９Ａは文字枠の二値化の一実施形態を示す。
まず文字枠が評価されて、十分に大きいか否かが判断される（９０）。
具体的には、エッジ変調二値化（９１）は、正確な結果を得るには最小限の母集団を必要とする統計学的演算である。
枠のサイズ（すなわち、ピクセル数）が十分に大きくない場合は、従来のしきい値処理は文字枠のグレースケール版に対して実行されて、二値文字枠が得られる。
一実施形態では、枠の高さ（文字枠画定部から得られる）がしきい値と比較される。
高さがしきい値未満の場合、しきい値処理（９２）が実行される。
高さがしきい値未満ではない場合は、エッジ変調二値化（９１）が実行されて、二値文字枠が得られる。

エッジ変調二値化は、文字枠画定部、元のグレースケール画像、ならびにエッジマップ（すなわち、エッジ表現の大きさ情報）およびエッジ方向マップ（すなわち、エッジ表現の方向情報）を含むエッジ表現を使用して実行される。
図９Ｂを参照すると、まず近傍枠９４が文字枠９３に対して画定される。
一実施形態では、近傍枠９４は、文字枠９３を１．１〜１．２倍拡張することによって得られる。
ラスタ走査手順が使用されて、近傍枠内の文字枠を線毎に走査する。
ラスタ走査が文字枠内の文字のエッジと交差すると、交点が左から右にｐ_１，ｐ_２，ｐ_３，・・・，ｐ_Ｎとラベル付けられる。
さらに、ラスタ走査が近傍枠と交差する点がｐ_０およびｐ_{（Ｎ＋１）}とラベル付けられる。
これらＮ＋２個の交点が一緒になって、ピクセル線をＮ＋２個のセグメント（ｐ_０，ｐ_１），（ｐ_１，ｐ_２），・・・，（ｐ_（Ｎ），ｐ_{（Ｎ＋１）}）に分ける。
セグメント表記は（ｐ_（ｋ），ｐ_{（ｋ＋１）}）と画定され、ラスタ走査線上の点ｐ_（ｋ）とｐ_{（ｋ＋１）}の間にあるピクセルを表す。
一実施形態では、二値化プロセスが各ピクセルセグメントに前景および背景という２つの二値カテゴリを割り当てる。
このプロセスによって二値化されている要素はピクセルセグメントであることから、二値化プロセスは「エッジ変調二値化」と呼ばれる。
これは、ピクセルセグメントではなく個々のピクセルを二値化する一般的な従来技術による二値化アルゴリズムとは対照的である。
言い換えれば、本発明者らは、１つのセグメント中のピクセルは、前景あるいは背景という同じ二値カテゴリに属すべきであると想定する。

文字枠を二値化するために、セグメントグループがまず、勾配ベクトル方向に基づいて前景（Ｆ）、背景（Ｂ）、および不確実（Ｕ）のセグメントに分類される。
図６に関連して上に述べたように、各交点対（ｐ_（ｋ）、ｐ_{（ｋ＋１）}）は、２点の投影勾配ベクトルの方向に応じて「マッチする」か、あるいは「マッチしない」。
したがって、点対（ｐ_（ｋ）、ｐ_{（ｋ＋１）}）が前に「マッチ」していた場合、「マッチする」点の対によって特定されるセグメントは、前に求められた文字枠ｔｅｘｔｃｏｌｏｒフィールド（図７Ａの位相解析７１中に求められる）に基づいて前景（Ｆ）セグメントまたは背景（Ｂ）セグメントのいずれかとして分類することができる。
対が「マッチしない」場合、こういったセグメントは不確実（Ｕ）として分類される。

別の実施形態では、近傍枠交点が、これら各点におけるラプラシアンを求めることにより、またラプラシアンの符号に基づいて処理され、近傍交点対は「マッチする」対または「マッチしない」対に分類される。
これら交点対は次に、上に述べたように前景（Ｆ）、背景（Ｂ）、および不確実（Ｕ）にさらに分類することができる。

すべてのセグメントが（Ｆ）、（Ｂ）、または（Ｕ）に分類されると、セグメントは統計学的に評価されて、以下のアルゴリズムに従ってセグメントの３つの分類（Ｆ）、（Ｂ）、および（Ｕ）の二値グループを求めることによって（Ｆ）または（Ｂ）のいずれかとして再分類される。
（１）Ｎ（ｇ_ｆ，σ_ｆ）およびＮ（ｇ_ｂ，σ_ｂ）として表す２つのガウスモデルが、（Ｆ）セグメントおよび（Ｂ）セグメントのグレースケール分布にそれぞれ適合される。
但し、ｇ_ｆ（ｇ_ｂ）およびσ_ｆ（ｇ_ｂ）は、前景（背景）ピクセルのガウス分布の平均および標準偏差を表す。
（２）２つのガウスモデル間の重み付き距離を測定する。
式３距離＝ｅｘｐ（（（ｇ_ｆ−ｇ_ｂ）^２）／σ_ｆ ^２）＋ｅｘｐ（（（ｇ_ｆ−ｇ_ｂ）^２）／σ_ｂ ^２）
距離がしきい値未満の場合、（Ｕ）グループからのピクセルは、（Ｆ）モデルおよび（Ｂ）モデルまでのそれぞれの距離に基づいて（Ｆ）グループまたは（Ｂ）グループのいずれかに分類され、（４）に進む。
（３）前景セグメント（Ｆ）および背景セグメント（Ｂ）のピクセルを初期化データとして使用してＥＭアルゴリズムを実行して、Ｍ個の線分を２つのガウスモデルにグループ化する。
（４）終了。
（３）において、ＥＭアルゴリズムについては、参照により本明細書に援用される「Maximum likelihood from incomplete data via the EM algorithm」(A. P. Dempster, N. M. Laird, and D. B. Rubin, Journal of Royal Statistical Society, ser. B, vol. 39, pages 1 - 38, 1977)に述べられている。

図１０は、本発明による取り込み画像データから文字列を抜出するシステムの一実施形態を示す。
図示のように、取り込み画像データはコンバータ１００Ａによってグレースケール画像データに変換される。
このデータはエッジ検出器１００Ｂに提供される。
別法として、取り込み画像データはエッジ検出器１００Ｂに直接提供される。
エッジ検出器１００Ｂは、エッジマップの形の大きさ情報、およびエッジ方向マップの形の方向情報を含む取り込み画像データのエッジ表現を生成する。

境界エリア画定部作成器１０１がエッジ表現を使用して、各文字に関連する各境界エリア毎に画定部（すなわち、文字枠）を特定して生成する。
画定部作成器１０１は、隣接ピクセルへの近接度に応じて、またエッジピクセルの方向情報に応じてエッジマップ中の各エッジピクセルをラベル付けるエッジピクセルラベラー１０１Ａを少なくとも備える。
さらに、画定部作成器１０１は任意選択で、エッジにおける意図的ではない区切点および単一の連続したエッジへの、特定された区切点に関連する結合（再ラベル付けにより）エッジを特定する終点検出器１０１Ｂおよび終点リンカ０１Ｃを備える。
ラベル付けられたエッジが使用されて、境界エリア画定部（候補枠とも呼ばれる）が作成される。

候補枠フィルタ１０２は、エッジ検出表現からの方向情報を使用して、各候補枠を通して投影された走査線に沿った点をマッチングして、文字の前景および背景を識別する位相解析器１０２Ａを少なくとも備える。
さらに、文字枠フィルタ１０２は任意選択で、幾何学的形状解析器１０２Ｂおよびグレースケール解析器１０２Ｃを備える。
幾何学的形状解析器１０２Ｂは、アスペクト比が期待されるしきい値内にない場合、候補枠をフィルタリングして除外する。
言い換えれば、アスペクト比が、枠が文字列中の文字を表す可能性が低いようなものである場合、フィルタリングされる。
グレースケール解析器１０２Ｃは、元のデジタル画像のグレースケール版に対して統計学的解析を実行して、各枠の前景および背景のグレースケール分布を測定する。
分布を使用して、前景と背景の間のコントラストを示す。
十分なコントラストが存在する場合、枠は正の候補と考えられる。
候補枠フィルタ１０２は、正および負の候補枠の両方を生成する。

正および負両方の候補枠が、正の候補結合器１０３Ａおよび「他の文字」要素検出器１０３Ｂを含む線画定部作成器１０３によって線画定部に結合される。
正の候補結合器１０３Ａは、正の各候補周囲の所定のエリア内を探索して、他の正の候補を見つける。
正の候補がエリア内で見つけられた場合、線画定部に結合される。
「他の文字」要素検出器１０３Ｂは、負の候補を処理して、句読点等、文字以外の文字記号に対応する正の候補周囲に予め規定されたエリア内にある文字枠を識別する。
識別された「他の文字」候補は次に、対応する線画定部と結合される。

したがって、取り込み画像データから文字列を抜出するシステムおよび方法について述べた。

上記説明において、いくつかの特定の詳細について本発明の完全な理解を提供するために述べた。
しかし、こういった特定の詳細は本発明の実施に使用する必要がないことが当業者には明らかであろう。
さらに、例示として図示し説明した特定の実施形態は決して限定を意味するものではないことを理解されたい。
こういった実施形態の詳細への言及は特許請求の範囲を限定するように意図されていない。

走査文書内に見られる一般的な文字列および自然の画像の一例を示す。自然環境に見られる文字列の取り込みデジタル画像の一例を示す。自然環境の取り込み画像データから文字列を抜出する方法の第１の実施形態を示す。本発明の一実施形態によるエッジ検出方法を示す。本発明の一実施形態によるエッジ検出画定部を示す。本発明の一実施形態によるエッジピクセルラベル付けを示す。Ｎ連結ピクセルの概念を示し、ここでＮ＝８である。本発明による文字のエッジおよび対応する文字枠の一例を示す。文字枠のエッジピクセルと交わるラスタ走査投影線を示す。図６Ａに示すエッジピクセル対の投影勾配ベクトルを示す。本発明の一実施形態による候補文字枠をフィルタリングする方法を示す。本発明の一実施形態によるグレースケール解析の方法を示す。境界エリア枠の線および境界エリア枠との対応する関係を定義するデータ構造の一例を示す。枠を含む同じ線内の候補枠についての予め規定された探索エリアを示す。本発明の一実施形態による境界エリア枠を二値化する方法を示す。近傍枠のラスタ走査から得られる交点およびエッジ変調二値化の実行に使用される文字枠を示す。本発明の一実施形態による取り込みデジタル画像からテキストを抜出するシステムを示す。

符号の説明

１２Ａ，１２Ｂ・・・自然な画像，
３０・・・ローパスフィルタ，
３１・・・エッジ検出，
３２・・・しきい値フィルタ，
３３Ａ・・・二値エッジマップ，
３３Ｂ・・・エッジ方向マップ，
１００Ａ・・・グレースケールコンバータ，
１００Ｂ・・・エッジ検出器，
１０１・・・境界エリア画定部作成器，
１０１Ａ・・・エッジピクセルラベラー，
１０１Ｂ・・・終点検出器，
１０１Ｃ・・・終点リンキング，
１０２・・・候補枠フィルタ，
１０２Ａ・・・位相解析器，
１０２Ｂ・・・幾何学的解析器，
１０２Ｃ・・・グレースケール解析器，
１０３・・・線画定部作成器，
１０３Ａ・・・正の候補枠結合器，
１０３Ｂ・・・他の文字要素検出器，
１０４・・・二値化器，

Claims

少なくとも１つの文字列に対応する画像データを含む取り込み画像データを処理する方法であって、
前記画像データ内のエッジを検出して（２０）、前記検出されたエッジを単一ピクセル幅で表すように関連付けられた複数のエッジピクセルを含み、少なくとも、各エッジピクセルのピクセル値情報および隣接するエッジピクセルとの位置関係を示す方向情報を含むエッジ表現を生成することと、
隣接する他のエッジピクセルにエッジピクセルラベルが付されているときに、各エッジピクセルに、隣接するエッジピクセルと同じエッジピクセルラベルを割り当てること（２１）と、
方向情報を使用するとともに、前記割り当てられたエッジピクセルラベルに応じて、同じエッジピクセルラベルが割り当てられたエッジピクセル全てを含むエッジピクセル枠を定義すること（２２）と、
方向情報を使用して、前記定義されたエッジピクセル枠をフィルタリングすること（２３）により、前記定義されたエッジピクセル枠から、誤ってエッジピクセル枠であると特定された負のエッジピクセル枠を識別することと、
隣接するエッジピクセル枠の互いの相対位置に応じて、フィルタリングされた前記隣接するエッジピクセル枠において、前記負のエッジピクセル枠以外の正のエッジピクセル枠を結合する結合線を定義すること（２４）と
を含む方法。
前記エッジピクセルをラベルすることは、終点エッジピクセルを識別することに依存する
請求項１記載の方法。
前記方向情報を使用してフィルタリングすることは、
寸法補助線を使用してエッジピクセル枠を走査することであって、エッジピクセル対および各エッジピクセル対の関連する勾配ベクトルを識別して、前記対の関連する前記負のエッジピクセル枠と前記正のエッジピクセル枠とを評価すること
をさらに含む
請求項１記載の方法。
前記方向情報を使用してフィルタリングすることは、
前記エッジピクセル対の前記勾配ベクトル情報を統計学的に解析することであって、それによって各エッジピクセル枠に関連する前景の明暗を識別すること
をさらに含む
請求項３記載の方法。
前記フィルタリングすることは、
前記エッジピクセル枠の幾何学的特徴を解析すること
をさらに含む
請求項１記載の方法。
前記フィルタリングすることは、
方向情報からエッジピクセル対を識別することであって、前記エッジピクセル枠から、前記負のエッジピクセル枠と前記正のエッジピクセル枠とを識別すること
をさらに含む
請求項１記載の方法。
前記フィルタリングすることは、
前記エッジピクセル枠のグレースケール特徴を解析することであって、前記エッジピクセル枠から、前記負のエッジピクセル枠と前記正のエッジピクセルと枠とを識別すること
をさらに含む
請求項１記載の方法。
前記結合線を定義することは、
ａ）現在の前記正のエッジピクセル枠を現在の結合線に割り当てることと、
ｂ）前記現在の線付近にある予め画定されたエリアを探索することと、
ｃ）前記予め画定されたエリアに少なくとも重複する新しいエッジピクセル枠を見つけることと、
ｄ）前記新しいエッジピクセル枠を前記現在の結合線に結合することと、
ｅ）新しいエッジピクセル枠がなくなるまでｂ）〜ｄ）を繰り返すことと
を含む
請求項１記載の方法。
各エッジピクセル枠の前景および背景のピクセルセグメント全体を二値化することにより、各結合線に関連する各エッジピクセル枠を二値化すること
をさらに含む請求項１記載の方法。
少なくとも１つの文字列に対応する画像データを含む取り込み画像データを処理するシステムであて、
前記画像データ内のエッジを検出して、前記検出されたエッジを単一ピクセル幅で表すように関連付けられた複数のエッジピクセルを含み、少なくとも、各エッジピクセルのピクセル値情報および隣接するエッジピクセルとの位置関係を示す方向情報を含むエッジ表現を生成するエッジ検出器（１００Ｂ）と、
隣接する他のエッジピクセルにエッジピクセルラベルが付されているときに、隣接するエッジピクセルと同じエッジピクセルラベルを各エッジピクセルに割り当てるエッジピクセルラベラーを少なくとも備え、方向情報を使用するとともに、前記割り当てられたエッジピクセルラベルに応じて、同じエッジピクセルラベルが割り当てられたエッジピクセル全てを含むエッジピクセル枠を定義するエッジピクセル枠定義器（１０１）と、
方向情報を使用してエッジピクセル枠をフィルタリングすることにより、エッジピクセル枠から、誤ってエッジピクセル枠と特定された負のエッジピクセル枠と、前記負のエッジピクセル以外の正のエッジピクセル枠とを識別するエッジピクセル枠フィルタ（１０２）と、
隣接するエッジピクセル枠の互いの相対位置に応じて、フィルタリングされた前記隣接するエッジピクセル枠において、前記負のエッジピクセル枠以外の正のエッジピクセル枠を結合する結合線を定義する結合線定義器（１０３）と
を備えるシステム。