JP4208918B2

JP4208918B2 - 文書画像からテキストを抽出する方法及び装置並びにコンピュータプログラム及びその記憶媒体

Info

Publication number: JP4208918B2
Application number: JP2006348393A
Authority: JP
Inventors: ヤンキン・ワン; ユウヤーピン; ドゥシャンフェン
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2005-12-29
Filing date: 2006-12-25
Publication date: 2009-01-14
Anticipated expiration: 2026-12-25
Also published as: US20070160295A1; JP2007184916A; CN100517374C; CN1991865A; US7813554B2

Description

本発明は、一般に画像処理に関する。特に、本発明は、文書画像からテキストを抽出する装置、文書画像からテキストを抽出する方法、コンピュータプログラム及びその記憶媒体に関する。

テキスト抽出は、光学文字認識（ＯＣＲ）、テキストによるビデオ検索、文書画像圧縮等の多くのアプリケーションに対して非常に重要なステップである。現在の殆どの技術は、単純な背景を有する画像からテキストを抽出することを目的としている。近年、複雑な画像からテキストを抽出する技術は、複雑な文書の解析、工学図面解析等の益々多くの分野において必要とされている。しかし、複雑な背景を有する文書画像からテキストを抽出することは非常に困難な問題である。多くの方法が研究者たちにより提案されてきたが、それらの方法の殆どが単純な画像又はそれ程複雑でない画像に対してのみ効果的である。

現在のテキスト抽出方法は、カラークラスタリングに基づく方法及びエッジ解析に基づく方法の２つのグループに分類される。

カラークラスタリングに基づく方法は、テキストが単一の前景色を有すると仮定する。しかし、これは、特に小さな文字の場合には必ずしも当てはまるとは限らない。例えば、テキスト文字は異なる色で印刷されることもあり、画像は不均一な照度条件の下で取り込まれることもある。また、小さなテキストの場合、遷移領域が線幅と比較して広すぎるため、前景色は必ずしも一様であるとは限らない。従って、画像全体に対して適切なグローバルな２値化閾値を取得することは困難であり、一様でない色を持つ淡色の背景を全て削除することは不可能である。

一方、エッジ解析に基づく方法は、テキストが背景に対して大きなコントラストを有すると仮定する。しかし、複雑な背景を有する画像において、テキストでないオブジェクトが、背景に対して大きなコントラストを有する可能性があり、これは、エッジ検出処理後にテキストのエッジとテキストでないエッジとが相互に接触する原因となる。このことは、エッジ解析に対して問題又は不安定な結果をもたらすことが多い。

例えば、特許文献１は、画像処理方法、その装置及び画像処理機能を格納する記録媒体を開示する。

図１０に、特許文献１により開示される画像処理方法のフローチャートを示す。

背景画像においてもノイズ妨害認識のない２値画像を取得するために、閾値処理される元の画像の密度画像が、ステップＳ１０１において入力され、ステップＳ１０２において格納される。その後、ステップＳ１０３において、ある特定の画素が認識され、その画素が文字のエッジであるか否か、又は罫線であるか否かが判断される。ステップＳ１０４において、エッジと判断された画素の２値画像における画素値が判定され格納される。ステップＳ１０５において、それら動作が元の画像の全ての画素に対して繰り返され、ステップＳ１０６において、エッジ以外の画素の全ての連結成分が見つけ出される。ステップＳ１０７において、ある特定の連結成分の周辺に接触させられ、かつ既に判定された画素値を有する画素が認識され、黒画素及び白画素の数がそれぞれカウントされる。ステップＳ１０８において、黒画素及び白画素の数は相互に比較され、黒画素数の方が大きい場合、ステップＳ１１０において、連結成分全体は黒画素として登録される。黒画素数の方が大きくない場合、ステップＳ１０９において、連結成分全体は白画素として登録される。ステップＳ１１１において、この動作は全ての連結成分に対して繰り返され、２値画像は、ステップＳ１１２において生成され、ステップＳ１１３において出力される。
特開２０００−２０７１４号公報

上述の方法によると、背景に現れる連結成分により形成される長い線が認識され、２値化エッジマップから除去される。しかし、２値化された後のエッジマップにおいて、結合したテキスト行が長い連結成分を形成する場合がある。この場合、結合したテキスト行からテキストを分離することは容易ではなく、結合したテキスト行全体が背景と考えられ、かつ上述の方法に従って無視される可能性がある。ところが、テキスト行は、要求対象であり、単純に除去されるべきではないものである。従って、複雑な背景を有する走査済文書画像が上述の従来技術に従って２値化され、かつ処理される場合、有用なテキストが失われる可能性がある。

よって、本発明の目的は、上述の従来技術における欠点を克服するように、文書画像からテキストを抽出する装置、文書画像からテキストを抽出する方法、コンピュータプログラム及びその記憶媒体を提供することである。

上記目的を達成するために、本発明の一態様によれば、勾配画像に対して閾値を用いて２値化し、当該２値化により得られる画像における各連結成分の画素数が所定画素数より小さいかを判定する処理を行う処理手段と、前記処理手段で前記各連結成分の画素数が前記所定画素数より小さいと判定されると、前記２値化により得られる画像を使用してテキストを抽出する抽出手段とを有する装置であって、前記処理手段で前記各連結成分の画素数が前記所定画素数より小さいと判定されるまで、前記２値化に用いる閾値を大きくしていくことを特徴とする装置が提供される。

上記目的を達成するために、本発明の一態様によれば、文書画像から勾配画像を得る得手段と、前記勾配画像に対して閾値を用いて２値化し、当該２値化により得られる画像におけるネガティブエッジ連結成分及びポジティブエッジ連結成分を検索する検索手段と、前記検索されたネガティブエッジ連結成分及びポジティブエッジ連結成分の中から所定の値より長い連結成分を前記２値化により得られる画像から除去する除去手段と、前記除去手段で前記長い連結成分の除去された前記２値化により得られる画像における各連結成分の画素数が所定画素数より小さいかを判定する処理を行う処理手段と、前記処理手段で前記各連結成分の画素数が前記所定画素数より小さいと判定されると、前記２値化により得られる画像を使用してテキストを抽出する抽出手段とを有する装置であって、前記処理手段で前記各連結成分の画素数が前記所定画素数より小さくないと判定されると、前記勾配画像に対して前記閾値を大きくした閾値を用いて２値化し、再度、前記処理手段で当該２値化により得られる画像における各連結成分の画素数が前記所定画素数より小さいかを判定する処理を行うことを特徴とする装置が提供される。

上記目的を達成するために、本発明の別の態様によれば、処理手段と、抽出手段とを有する装置にて実行される方法であって、前記処理手段が、勾配画像に対して閾値を用いて２値化し、当該２値化により得られる画像における各連結成分の画素数が所定画素数より小さいかを判定する処理を行う処理工程と、前記抽出手段が、前記処理工程で前記各連結成分の画素数が前記所定画素数より小さいと判定されると、前記２値化により得られる画像を使用してテキストを抽出する抽出工程とを有し、前記処理工程で前記各連結成分の画素数が前記所定画素数より小さいと判定されるまで、前記２値化に用いる閾値を大きくしていくことを特徴とする方法が提供される。

上記目的を達成するために、本発明の別の態様によれば、得手段と、検索手段と、除去手段と、処理手段と、抽出手段とを有する装置にて実行される方法であって、前記得手段が、文書画像から勾配画像を得る得工程と、前記検索手段が、前記勾配画像に対して閾値を用いて２値化し、当該２値化により得られる画像におけるネガティブエッジ連結成分及びポジティブエッジ連結成分を検索する検索工程と、前記除去手段が、前記検索されたネガティブエッジ連結成分及びポジティブエッジ連結成分の中から所定の値より長い連結成分を前記２値化により得られる画像から除去する除去工程と、前記処理手段が、前記除去工程で前記長い連結成分の除去された前記２値化により得られる画像における各連結成分の画素数が所定画素数より小さいかを判定する処理を行う処理工程と、前記抽出手段が、前記処理工程で前記各連結成分の画素数が前記所定画素数より小さいと判定されると、前記２値化により得られる画像を使用してテキストを抽出する抽出工程とを有し、前記処理工程で前記各連結成分の画素数が前記所定画素数より小さくないと判定されると、前記勾配画像に対して前記閾値を大きくした閾値を用いて２値化し、再度、前記処理工程で当該２値化により得られる画像における各連結成分の画素数が前記所定画素数より小さいかを判定する処理を行うことを特徴とする方法が提供される。

複雑な背景を有する文書画像からテキストを抽出する方法をコンピュータに実行させるためのコンピュータプログラムが提供される。

更に、複雑な背景を有する文書画像からテキストを抽出する方法をコンピュータに実行させるためのコンピュータプログラムを記憶したコンピュータにより読み取り可能な記憶媒体が提供される。

本発明の他の目的、特徴及び利点は、添付の図面と関連付けることにより以下の説明から明らかとなるだろう。図中、同一の図中符号は、同一の要素又は同様の要素を示す。

添付の図面は、本明細書の一部と連携し、かつ一部を構成し、本発明の実施形態を図示し、その記述により本発明の説明に資するものである。

以下の詳細な説明において、本発明を理解するために多くの特定の詳細を示す。しかし、本発明は、それら特定の詳細に限定されるべきでないことは、当業者には理解されるだろう。
［コンピュータシステムの例］
本発明の方法は、任意の画像処理機器、例えばパーソナルコンピュータ（ＰＣ）、ノートブック、又はカメラ、ビデオカメラ、スキャナに組み込まれたシングルチップマイクロコンピュータ（ＳＣＭ）等において実現されてもよい。当業者は、ソフトウェア、ハードウェア、及び／又はファームウェアによって本発明の方法を容易に実現するだろう。尚、方法の任意のステップ又はステップの任意の組み合わせ、或いは構成要素の任意の組み合わせを実現するために、Ｉ／Ｏ機器、メモリ素子、ＣＰＵなどのマイクロプロセッサなどを使用する必要があることは、当業者には明らかである。以下の説明及び本発明の方法において、そのような機器が実際に使用される場合でも、それらについて必ずしも説明するとは限らない。

上述の画像処理機器として、図１のブロック図に、本発明と共に使用されてもよい典型的なコンピュータシステムの一例を示す。尚、図１はコンピュータシステムの種々の構成要素を示すが、構成要素を相互に接続する特定のアーキテクチャー又は方法を表すことを意図しておらず、それらの詳細は本発明に密接に関係するわけではない。また、より少ない構成要素又はより多くの構成要素を有するネットワークコンピュータ及び他のデータ処理システムが、本発明と共に使用されてもよいことは理解されるだろう。

図１に示すように、データ処理システムの形態であるコンピュータシステムは、マイクロプロセッサ１０２、ＲＯＭ１０４、揮発性ＲＡＭ１０５及び不揮発性メモリ１０６に結合されるバス１０１を含む。インテルのペンティアム(登録商標)マイクロプロセッサであってもよいマイクロプロセッサ１０２は、図１の例に示すように、キャッシュメモリ１０３に結合される。バス１０１はこれらの種々の構成要素を相互接続し、またそれら構成要素１０３、１０４、１０５及び１０６をディスプレイ制御部／表示機器１０７及び入出力（Ｉ／Ｏ）機器等の周辺機器と相互接続する。入出力機器は、従来技術において周知のマウス、キーボード、モデム、ネットワークインタフェース、プリンタ及び他の機器であってもよい。通常、入出力機器１０９は、入出力制御部１０８を介してシステムに結合される。揮発性ＲＡＭ１０５は、一般にダイナミックＲＡＭ（ＤＲＡＭ）として実現され、リフレッシュするため又はメモリにデータを維持するために継続的に電力を必要とする。不揮発性メモリ１０６は、一般に磁気ハードドライブ、光磁気ドライブ、光ドライブ、ＤＶＤＲＡＭ又は他の種類のメモリシステムであり、電源がシステムから取り外された後でもデータを維持する。通常は、不揮発性メモリはランダムアクセスメモリであるが、これは必須ではない。図１は、不揮発性メモリがデータ処理システムの残りの構成要素に直接結合されるローカルデバイスであることを示す。しかし、本発明は、モデム又はイーサネット（登録商標）インタフェースなどのネットワークインタフェースを介してデータ処理システムに結合されるネットワーク記憶機器などのシステムから遠隔の不揮発性メモリを利用してもよいことが理解されるだろう。バス１０１は、従来技術の周知の種々のブリッジ、制御部及び／又はアダプタを介して互いに接続される１つ以上のバスを含んでもよい。一実施形態において、Ｉ／Ｏ制御部１０８はＵＳＢ周辺機器を制御するＵＳＢ（Universal Serial Bus）アダプタを含む。
［複雑な背景を有する文書画像からのテキスト抽出方法及び装置］
本発明に係る複雑な背景を有する文書画像からテキストを抽出する方法及び装置において、エッジ情報はテキストを抽出するために使用され、背景エッジの妨害を克服するために、次の新規な動作を行う。１）エッジの分類に基づいてエッジマップにおける背景オブジェクトで形成された長い連結成分又は（長い背景エッジ連結成分と呼ばれる）非常に近接するテキストを除去する。２）エッジ連結成分サイズのフィードバックを使用してエッジマップを再計算する。３）エッジ連結成分分類に基づいてテキストマップをマーク付けする。

ここで、連結成分は連結エッジをカバーする領域であり、エッジ分類はエッジ画素をポジティブエッジ又はネガティブエッジに分類することを意図し、これについては以下に更に詳細に説明する。エッジマップとは、オブジェクトのエッジ画素のみを含む画像であり、エッジ連結成分サイズのフィードとは、エッジ連結成分のサイズを一種のフィードバックとして見ることができることを意味する。そして、そのフィードバックを使用してエッジマップを再計算するべきか否かを判定することができる。

本発明に従って複雑な背景を有する文書画像からテキストを抽出する方法は、一般に、以下のステップから成る。（１）エッジマップを計算するステップ。（２）エッジを「ポジティブエッジ」と「ネガティブエッジ」の２種類に分類し、同じ種類のエッジで形成された連結成分（ＣＣ）を検索し、同じ種類のエッジで形成された連結成分が十分に長い場合、そのエッジを除去するステップ。（３）（エッジ連結成分と呼ばれる）双方の種類のエッジで形成された連結成分を検索し、双方の種類のエッジで形成された連結成分のサイズが長すぎる場合、そのバウンディングボックスのエッジマップを再計算し、連結成分を再検索するステップ。（４）連結成分を「通常テキスト」、「反転テキスト」及び「背景」の３種類に分類し、マークマップを生成するステップ。「通常テキスト」の連結成分の前景画素は「通常テキスト」としてマーク付けされ、「反転テキスト」の連結成分の前景画素は「反転テキスト」としてマーク付けされ、残りの画素は「背景」としてマーク付けされる。（５）マークマップ上で、（テキスト連結成分と呼ばれる）同一のマークを有する画素で形成された連結成分を検索し、その連結成分からテキスト行を形成するステップ。

以下において、本発明に係る複雑な背景を有する文書画像からテキストを抽出する方法及び複雑な背景を有する文書画像からテキストを抽出する装置の実施形態について、添付の図面を参照して説明する。図２は、本発明に係る複雑な背景を有する文書画像からテキストを抽出する方法を示すフローチャートである。

図２に示すように、画像を入力した後、ステップ１において、エッジマップが元の画像にソーベル演算子を実行することにより計算され、そして、勾配画像が２値化される。

そして、ステップ２において、エッジ分類に基づく長い背景エッジ連結成分は除去される。

このステップにおいて、連結成分解析がエッジマップ上で行われる。複雑な背景を有する画像から計算されたエッジマップの場合、連結成分解析処理を大きく妨害する２種類の連結成分、即ち長い線のエッジで形成された連結成分及び互いに非常に近接するテキストエッジで形成された接触連結成分が存在する。

上述の２種類の連結成分は、テキストエッジで形成された連結成分の付近に現れる可能性があり、テキストエッジで形成された連結成分と接触する可能性もある。これにより、連結成分解析は妨害される。従って、連結成分解析の前にそれら連結成分を除去する方法を見つけることが望まれる。この目的のため、エッジ分類方法が本発明において使用される。

本発明の方法によれば、エッジは、勾配方向によってネガティブエッジ及びポジティブエッジに分類される。P₀が現在のエッジ画素のグレーレベルであり、P_neighborが８つの隣接するエッジ画素のグレーレベルであると仮定する。現在のエッジ画素の種類は、以下の式により判定される。

式：エッジの種類＝
ネガティブエッジ：｜P₀-max(P_neighbor)|＜|P₀-min(P_neighbor)|の場合、
ポジティブエッジ：｜P₀-max(P_neighbor)|≧|P₀-min(P_neighbor)|の場合、（１）
エッジの分類後、ネガティブエッジ連結成分及びポジティブエッジ連結成分は、個別に検索される。それら連結成分のいずれかが１００等の所定の閾値より長い場合、その連結成分は、背景連結成分であると考えられ、エッジマップから除去される。この動作の後、長い線に属するエッジは除去される。更に、近接するテキストの接触しているエッジが除去され、残りのエッジが分離される。図３に、エッジの分類及び長い背景エッジ連結成分を除去した結果の一例を示す。

長い線の妨害だけでなく、近接するテキストの妨害も本発明の方法に従って除去されることが、図３に示される結果から分かる。

長い線のエッジ連結成分を除去することは容易に実現され、上述した特許公開２０００−２０７１４号公報にて開示されるような多くの種類の方法が存在する。しかし、エッジマップにおいて、近接するテキスト行が長い連結成分を形成する場合がある。テキスト行は望ましい対象が目的とするものであり、単純に除去されるべきではない。分類後、テキスト付近には２種類のエッジ連結成分が存在する。図３に示すように、一方は外側エッジ連結成分であり、他方は内側エッジ連結成分である。外側エッジ連結成分は長いが、内側エッジ連結成分は比較的短いことが分かる。外側の長い連結成分がエッジマップから除去される場合、残りの内側エッジ連結成分はテキストの輪郭を形成し、更なるエッジ解析に使用される。

上述のステップ２で説明したように、背景オブジェクトで形成された長い連結成分及び非常に近接するテキストが、エッジの分類に基づいてエッジマップから除去される。その後、エッジマップは、ステップ３において連結成分のサイズのフィードバックを使用して再計算される。

長い背景エッジ連結成分が除去された後、２種類のエッジで形成された連結成分は再検索される（ここでは、「ネガティブ」及び「ポジティブ」を区別する必要はない）。

エッジに基づくテキスト抽出方法が６０画素より小さいサイズを有するテキストに適用されると仮定される。そのため、６０画素より大きい連結成分は破棄される（連結成分のサイズは、連結成分のバウンディングボックスのより短い境界線により決定されることが多い）。しかし、複雑な背景を有する画像において、テキストのエッジ及び背景のエッジは互いに接触し、それらは６０画素より大きいサイズを有する連結成分を形成する場合がある。従って、この状況に対処する必要がある。大きな連結成分の各々のバウンディングボックスにおいてエッジ閾値を調整することにより、相対的に低いコントラストを有するエッジ画素は削除される（それらエッジは背景オブジェクトに属するだろう）。そのフローチャート及び一例がそれぞれ図４及び図５に示される。

図４に、本発明に係る、連結成分のサイズのフィードバックを使用してローカルエッジマップを再計算するフローチャートを示す。

最初に、ネガティブエッジ及びポジティブエッジを区別せずに、２種類のエッジで形成された連結成分は、ステップＳ４１において入力エッジマップ上で再検索される。

ステップＳ４２において、連結成分の画素数は６０画素などの所定の閾値と比較され、連結成分に近接するエッジマップが再計算されるべきかを決定する。連結成分の画素数が６０画素より小さい場合、処理は終了し、図２のステップ４に進む。

一方、ステップＳ４２において、連結成分の画素数が所定の閾値より小さくないことが決定される場合、連結成分が背景に属する可能性があり、かつ廃棄されるべきであることを意味し、ステップＳ４３に進む。

ステップＳ４３において、ローカルエッジマップを再計算し、かつ複雑な背景の妨害を除去するように、閾値は２０などの所定の値だけ増加される。

ステップＳ４４において、対応する勾配ブロックは新しい閾値を使用して再び２値化され、各文字は複雑な背景から分離される。

その後、ステップＳ４５において、全ての連結成分の画素数が６０画素より小さいか否かが判断される。画素数が６０画素より小さい場合、図２のステップ４に進む。

全ての連結成分の画素数が６０画素より小さくない場合、ステップＳ４６に進み、画素数が６０画素より大きい別の連結成分を検索する。ステップＳ４６に戻り、画素数が６０画素より大きいそのような連結成分を処理し続ける。

本発明に係る、連結成分のフィードバックを使用してエッジマップを再計算することによりテキストに近接する背景の妨害を除去する一例及びその結果を図５に示す。図５の例において、大きな連結成分のバウンディングボックスの黒色矩形のエッジは再計算され、淡色を有する矩形は小さな連結成分のバウンディングボックスであり、かつエッジマップを再計算する必要はない。

上述のステップ３に関して、従来技術の適切な閾値処理方法を使用できるが、画像全体に対して適切な閾値を取得することは困難である。エッジ連結成分のサイズのフィードバックを使用して複数の領域を含む連結成分に注目する。それら領域において、所望のテキストは、グローバル情報の代わりにローカル情報を使用することにより取得される。

更に、背景及びテキストは、ローカル領域において異なるコントラストを有することが多い。不適切なエッジ閾値によりエッジは接触する。上述のステップに従ってエッジ閾値を調整し、かつエッジマップを再計算することにより、背景オブジェクトのエッジ及び所望のテキストのエッジは容易に分離される。分離されると、エッジの解析による背景オブジェクトの除去は閾値処理方法より容易になる。更に、再計算されたエッジマップを使用することにより、テキストが通常テキストであるか又は反転テキストであるかを容易に決定でき、これにより、更なるテキスト行のマージに対して利点が得られる。

このステップの後、背景オブジェクトに属する殆どのエッジ画素が除去され、テキストに属するエッジ画素は確保される。このように、各文字は背景から容易に分離される。これは、テキストの位置を正確に特定することを大いに助長する。

図２に戻ると、ステップ３において、ローカルエッジマップがエッジ連結成分のサイズのフィードバックを使用して再計算された後、ステップ４に進む。

ステップ４において、テキストマップは、エッジ連結成分の分類に基づいてマーク付けされる。このステップにおいて、先のステップで得られたエッジ連結成分は、「通常テキスト」、「反転テキスト」及び「背景」の３種類に分類される。「通常テキスト」の連結成分の前景画素が「通常テキスト」としてマーク付けされ、「反転テキスト」の連結成分の前景画素が「反転テキスト」としてマーク付けされ、残りの画素は「背景」としてマーク付けされるマークマップが生成される。

マークマップには、「通常テキスト」、「反転テキスト」及び「背景」の３種類の画素が存在する。マークマップは、テキストでない成分を破棄すること及び同様のプロパティ（即ち、「通常テキスト」又は「反転テキスト」）を有する文字をテキスト行にマージすることを助長する。更に、マークマップは、次のステップ５で得られるテキスト行をより適切に２値化することを助長する。

ステップ５において、テキスト連結成分は、検索され、かつ行にマージされる。マークマップにおいて、同一のマークを有する画素で形成された連結成分（テキスト連結成分と呼ぶ）が検索され、テキスト行を形成する。テキスト連結成分から行を形成する理由が主に２つある。第１の理由は、いくつかのテキストが欠落しており、かつ多くのノイズが存在する可能性があるため、マーク付けされたテキストマップが最後の２値画像として使用されないからである。テキスト連結成分から行を形成することにより、欠落しているテキストを見つけ、かつノイズを除去することが容易になる。もう一方の理由は、連結成分がテキストであるか否かをその特徴のみを使用して判断することが困難であるため、テキストエッジ連結成分をフィルタリングする先の動作が確実ではないからである。しかし、テキスト行の場合、テキスト行を分類するための更に有効な特徴が見つけられるため、非常に容易となる。

従来技術において、テキスト行形成方法が多く存在する。本発明は、以下のステップを含むそれら方法のうち１つの方法を採用する。

ステップ５１：テキスト画像のエッジマップにおいて、同一のマークを有する連結成分を見つける。

ステップ５２：交差する連結成分をマージする。

ステップ５３：テキストでない連結成分を破棄する。

ステップ５４：近接する連結成分を使用することにより行のシード（seed）を形成し、他の連結成分を行にマージする。

ステップ５５：遠隔の連結成分を使用することにより行のシードを形成し、ステップ５４により残された連結成分を行にマージする。

ステップ５６：同一の連結成分を使用することにより行のシードを形成し、ステップ５５により残された連結成分を行にマージする。

ステップ５７：マージされた各行に対して、実際のテキスト行か否かを判断する。

上述の処理の後、明確なテキストは、複雑な背景を有する画像から抽出される。図６及び図７に、本発明によるテキスト抽出方法を使用することによるテキスト抽出の結果を示す。

本発明によるテキスト抽出方法は、主に複雑な背景を有する画像におけるテキストを抽出するための方法である。そのテキスト抽出方法は、ＯＣＲ（光学文字認識）、テキストによるビデオ検索及び文書画像圧縮などにおける前処理等において主に使用される。

典型的な応用例が図８に示される。図８において、本発明によるエッジに基づくテキスト抽出方法は、まずカラー文書画像を処理するのに使用される。２値化テキスト行は光学文字認識方法を使用して処理され、認識された文字が出力される。

次に、本発明に係る複雑な背景を有する文書画像からテキストを抽出する装置について、添付の図面を参照して説明する。図９は、本発明の一実施形態に従って、複雑な背景を有する文書画像からテキストを抽出する装置を示すブロック図である。

図９に示すように、本発明の一実施形態に従う複雑な背景を有する文書画像からテキストを抽出する装置は、次の構成を有する。即ち、エッジマップ計算ユニット９０１、長い背景連結成分除去ユニット９０２、エッジマップ再計算ユニット９０３、テキストマップマークユニット９０４及びテキスト連結成分検索／マージユニット９０５を有する。

エッジマップ計算ユニット９０１は、入力文書画像のエッジマップを計算し、計算されたエッジマップを長い背景連結成分除去ユニット９０２に出力する。

長い背景連結成分除去ユニット９０２は、エッジマップ計算ユニット９０１により計算されたエッジマップのエッジを「ポジティブエッジ」及び「ネガティブエッジ」の２種類に分類し、同じ種類のエッジで形成された連結成分（ＣＣ）を検索する。同じ種類のエッジで形成された連結成分が十分に長い場合、長い背景連結成分除去ユニット９０２はそのエッジを除去する。

エッジマップ再計算ユニット９０３は、長い背景連結成分除去ユニット９０２により除去される同じ種類のエッジで形成された長い連結成分を含むエッジマップにおいて、２種類のエッジで形成された連結成分（エッジ連結成分と呼ぶ）を検索する。２種類のエッジで形成された連結成分のサイズが大きすぎる場合、エッジマップ再計算ユニット９０３は、バウンディングボックスにおいてエッジマップを再計算し、連結成分を再検索する。

エッジマップ再計算ユニット９０３によりエッジマップを再計算した後、テキストマップマークユニット９０４は連結成分を「通常テキスト」、「反転テキスト」及び「背景」の３種類に分類し、マークマップを生成する。テキストマップマークユニット９０４により生成されたマークマップにおいて、「通常テキスト」の連結成分の前景画素は「通常テキスト」としてマーク付けされる。「反転テキスト」の連結成分の前景画素は「反転テキスト」としてマーク付けされ、残りの画素は「背景」としてマーク付けされる。

テキスト連結成分検索／マージユニット９０５は、テキストマップマークユニット９０４により生成されたマークマップにおいて、同一のマークを有する画素で形成された連結成分（テキスト連結成分と呼ぶ）を検索し、連結成分からテキスト行を形成する。

本発明に係る複雑な背景を有する文書画像からテキストを抽出する装置の上述したユニット９０１〜９０５において実行される全ての詳細な処理は、図２を参照して説明したステップ１〜５とそれぞれ同一であるため、ここでは省略する。ユニット９０１〜９０５はエッジマップ計算ユニット９０１、長い背景連結成分除去ユニット９０２、エッジマップ再計算ユニット９０３、テキストマップマークユニット９０４及びテキスト連結成分検索／マージユニット９０５である。

更に、本発明の一実施形態に従う装置は、テキストが本発明による上記方法及び装置を使用して抽出された後、文書画像を入力する入力ユニット及び２値化テキスト行を出力する出力ユニットを含むべきであることは、当業者には理解されるべきである。

本発明の一実施形態に従う複雑な背景を有する文書画像からテキストを抽出する装置は、次の手段を有するものとして更に実現されることを当業者は理解すべきである。即ち、第１のコントラスト閾値より高いコントラストを有するエッジを前記画像から抽出する第１のエッジ抽出手段。前記抽出したエッジから連結エッジを検索する検索手段。前記検索した連結エッジの画素数が所定のサイズより大きい場合、第２のコントラスト閾値より高いコントラストを有するエッジを抽出する第２のエッジ抽出手段。ここで、前記第２のコントラスト閾値は前記第１のコントラスト閾値より高い。

本発明の好適な実施形態において、第２のエッジ抽出手段は、前記検索した連結エッジの画素数が前記所定のサイズ以下である場合、前記検索した連結エッジがテキストエッジであると判定する。

更に、第２のエッジ抽出手段は、前記連結エッジの画素数が所定のサイズより大きい場合、第２のコントラスト閾値より高いコントラストを有するエッジを前記連結エッジからのみ抽出できる。

本発明の別の好適な実施形態において、第２のエッジ抽出手段は、前記連結エッジをカバーする領域の画素数が所定のサイズより大きい場合、第２のコントラスト閾値より高いコントラストを有するエッジを前記領域から抽出する。このような場合、複雑な背景を有する文書画像からテキストを抽出する装置は、次の各手段を有する。即ち、前記第２のエッジ抽出手段において抽出された前記エッジから連結エッジを検索する第２の連結エッジ検索手段。前記検索した連結エッジの画素数が所定のサイズより大きい場合、第３のコントラスト閾値より高いコントラストを有するエッジを抽出する第３のエッジ抽出手段。ここで、前記第３のコントラスト閾値は前記第２のコントラスト閾値より高い。

本発明に従って複雑な背景を有する文書画像からテキストを抽出する装置は、P₀が現在のエッジ画素のグレーレベルであり、P_neighborがＮ個の隣接するエッジ画素のグレーレベルである場合、
式：エッジの種類＝
ネガティブエッジ：｜P₀-max(P_neighbor)|＜|P₀-min(P_neighbor)|の場合
ポジティブエッジ：｜P₀-max(P_neighbor)|≧|P₀-min(P_neighbor)|の場合
上記式に基づいてエッジを「ポジティブエッジ」及び「ネガティブエッジ」の２種類に分類するエッジ分類手段。同じ種類のエッジで形成された連結エッジをカバーする領域の画素数が所定の閾値より大きい場合、背景として前記連結エッジをカバーする前記領域を除去するエッジ除去手段とを更に有する。

本発明の更に別の実施形態において、複雑な背景を有する文書画像からテキストを抽出する装置は、抽出したエッジからテキストをマーク付けするテキストマップマーク付け手段を更に有する。連結エッジをカバーする領域の前景画素は「通常テキスト」としてマーク付けされ、反転連結エッジをカバーする領域の前景画素は「反転テキスト」としてマーク付けされ、残りの画素は「背景」としてマーク付けされる。複雑な背景を有する文書画像からテキストを抽出する装置は、同一のマークを有する画素で形成されたテキスト領域を検索し、かつテキスト行を形成する手段を更に有する。

本発明の別の好適な実施形態による、複雑な背景を有する文書画像からテキストを抽出する別の装置は、次のそれぞれの手段を有する。即ち、コントラスト閾値を調整する調整手段。前記調整されたコントラスト閾値に基づいてテキスト領域を判定するテキスト領域判定手段。前記調整手段は、前記コントラスト閾値より高いコントラストを有するエッジを目標領域から抽出し、前記抽出したエッジから連結エッジを検索し、前記検索した連結エッジをカバーする領域が新しい目標領域であるべきかを判定する目標領域判定手段を有する。前記調整手段は、前記判定された新しい目標領域が所定のサイズより大きい場合に前記コントラスト閾値を拡大し、前記判定された新しい目標領域が予め決めれたサイズ以下である場合に前記コントラスト閾値の調整を終了する。前記テキスト領域判定手段は、調整が終了した前記コントラスト閾値に対応する目標領域がテキスト領域であるべきであると判定する。

上述の構成による複雑な背景を有する文書画像からテキストを抽出する装置は、P₀が現在のエッジ画素のグレーレベルであり、P_neighborがＮ個の隣接するエッジ画素のグレーレベルである場合、
式：エッジの種類＝
ネガティブエッジ：｜P₀-max(P_neighbor)|＜|P₀-min(P_neighbor)|の場合
ポジティブエッジ：｜P₀-max(P_neighbor)|≧|P₀-min(P_neighbor)|の場合
上記式に基づいてエッジを「ポジティブエッジ」及び「ネガティブエッジ」の２種類に分類するエッジ分類手段。同じ種類のエッジで形成された連結エッジをカバーする領域の画素数が所定の閾値より大きい場合、背景として前記連結エッジをカバーする前記領域を除去するエッジ除去手段とを更に具備できる。

上述の構成を有する複雑な背景を有する文書画像からテキストを抽出する装置は、次の手段を更に有してもよい。ネガティブエッジ及びポジティブエッジを区別せず双方の種類のエッジで形成された連結エッジをカバーする領域を検索する検索手段。ネガティブエッジ及びポジティブエッジを区別せず双方の種類のエッジで形成された連結エッジをカバーする検索した領域の画素数が第２の閾値より大きい場合、画素数が第２の閾値より大きい検索した領域のローカルエッジを再計算する手段。再計算されたローカルエッジに基づいて複雑な背景の妨害を除去する第２の除去手段。

複雑な背景を有する文書画像からテキストを抽出する前記装置の好適な一実施形態において、ローカルエッジ再計算手段は、２値化閾値を所定の値だけ増加し、増加した所定の２値化閾値を使用する。これにより、画素数が第２の所定の閾値より大きい検索した領域の周囲の勾配ブロックを２値化する。

本発明の別の実施形態において、複雑な背景を有する文書画像からテキストを抽出する装置は、抽出されたエッジからテキストをマーク付けするテキストマップマーク付け手段を更に有する。連結エッジをカバーする領域の前景画素は「通常テキスト」としてマーク付けされ、反転連結エッジをカバーする領域の前景画素は「反転テキスト」としてマーク付けされ、残りの画素は「背景」としてマーク付けされる。更に、複雑な背景を有する文書画像からテキストを抽出する装置は、同一のマークを有する画素で形成されたテキスト領域を検索し、テキスト行を形成する手段を更に有してもよい。

本発明の一実施形態に従って複雑な背景を有する文書画像からテキストを抽出する装置は、次の手段を有するものとして実現される。文書画像のエッジマップにおいて背景オブジェクトにより形成される長い連結成分又は非常に近接するテキストをエッジの分類に基づいて除去する手段。エッジ連結成分のサイズのフィードバックを使用して除去された背景オブジェクトで形成された長い連結成分又は非常に近接するテキストを有する文書画像の新しいエッジマップを再計算する手段。エッジ連結成分の分類に基づいてテキストマップをマーク付けする手段。

本発明の好適な一実施形態に従って複雑な背景を有する文書画像からテキストを抽出する装置は、文書画像の元の画像に対してソーベル演算子を実行することにより文書画像のエッジマップを計算する手段を更に有する。

本発明の一実施形態において、長い連結成分を除去する手段は、P₀が現在のエッジ画素のグレーレベルであり、P_neighborがＮ個の隣接するエッジ画素のグレーレベルである場合、
式：エッジの種類＝
ネガティブエッジ：｜P₀-max(P_neighbor)|＜|P₀-min(P_neighbor)|の場合、
ポジティブエッジ：｜P₀-max(P_neighbor)|≧|P₀-min(P_neighbor)|の場合、
上記式に基づいてエッジマップのエッジを「ポジティブエッジ」及び「ネガティブエッジ」の２種類に分類する。同じ種類のエッジで形成された連結成分のいずれかが所定の閾値より長い場合、その連結成分は背景連結成分と考えられ、エッジマップから除去される。

Ｎは８であり、所定の閾値は１００であるのが好ましい。

本発明の別の実施形態において、新しいエッジマップを再計算する手段は、ネガティブエッジ及びポジティブエッジを区別せずに双方の種類のエッジで形成された連結成分を検索する。ネガティブエッジ及びポジティブエッジを区別せずに双方の種類のエッジで形成された検索された連結成分が第２の所定の閾値より大きい場合、第２の所定の閾値より大きい検索された連結成分のローカルエッジマップを再計算する。再計算されたローカルエッジマップにおいて複雑な背景の妨害を除去する。第２の所定の閾値は６０であるのが好ましい。

本発明の別の好適な実施形態によると、テキストマップをマーク付けする手段は、エッジ連結成分を「通常テキスト」、「反転テキスト」及び「背景」の３種類に分類し、マークマップが形成される。ここで、「通常テキスト」の連結成分の前景画素は「通常テキスト」としてマーク付けされ、「反転テキスト」の連結成分の前景画素は「反転テキスト」としてマーク付けされ、残りの画素は「背景」としてマーク付けされる。

上述の構成を有する複雑な背景を有する文書画像からテキストを抽出する装置は、マークマップにおいて同一のマークを有する画素で形成されたテキスト連結成分を検索し、かつテキスト連結成分からテキスト行を形成する手段を更に有する。

本発明の複雑な背景を有する文書画像からテキストを抽出する１つの好適な装置において、テキスト連結成分を検索し、かつ形成する手段は、次の処理を行う。ｄ１）テキスト画像のエッジマップにおいて同一のマークを有する連結成分を見つける。ｄ２）交差する連結成分をマージする。ｄ３）テキストでない連結成分を破棄する。ｄ４）近接する連結成分を使用することにより行のシードを形成し、かつ他の連結成分をマージする。ｄ５）遠隔の連結成分を使用することにより行のシードを形成し、かつ残された連結成分を行にマージする。ｄ６）同一の連結成分を使用することにより行のシードを形成し、かつ残された連結成分を行にマージする。ｄ７）マージした行の各々に対して、実際のテキスト行であるか否かを判断する。

本発明の方法及び装置の上述した詳細な実施形態に加え、本発明の目的は、上述のような任意の情報処理機器においてプログラム又はプログラムのセットを実行することにより実現されてもよい。情報処理機器は、後続する任意の処理装置と通信してもよい。前記情報処理機器及び後続する処理装置は、周知のユニバーサル機器であってもよい。

尚、本発明は、上述の実施形態の機能を実現するソフトウェアのプログラムを直接又は間接的にシステム又は装置に供給し、供給されたプログラムコードをシステム又は装置のコンピュータにより読み出し、実行することにより本発明が実現される場合を含む。そのような場合、その形態は、プログラム機能が提供される限りプログラムの形態に限定されない。プログラムは、実施形態において示されるフローチャートに対応するプログラムである。

コンピュータを使用して本発明の機能処理を実現するためにコンピュータにインストールされるプログラムコード自体が本発明を実現するものである。即ち、本発明は、本発明の機能処理を実現するためのコンピュータプログラム自体を含む。

この場合、プログラムの形態に特に限定されず、プログラム機能を有する限り、オブジェクトコード、インタプリタにより実行されるプログラム、ＯＳに供給されるスクリプトデータ等が使用されてもよい。

プログラムを供給する記録媒体として、次のような媒体が使用されてもよい。フロッピー（登録商標）ディスク、ハードディスク、光ディスク、光磁気ディスク、ＭＯ、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、ＣＤ−ＲＷ、磁気テープ、不揮発性メモリカード、ＲＯＭ、ＤＶＤ（ＤＶＤ−ＲＯＭ、ＤＶＤ−Ｒ。

別のプログラム供給方法として、クライアントコンピュータのブラウザを使用してインターネットの特定のホームページに対する接続が確立され、ホームページからハードディスク等の記録媒体にダウンロードされ、プログラムを供給してもよい。プログラムは圧縮された自動インストール機能を含むファイル又は本発明のコンピュータプログラム自体である。本発明のプログラムを形成するプログラムコードは、複数のファイルに分割されてもよく、それらファイルが異なるホームページからダウンロードされてもよい。即ち、本発明は、コンピュータを使用して本発明の機能処理を実現するためのプログラムファイルを複数のユーザにダウンロードさせるＷＷＷサーバを更に含む。

本発明の暗号化されたプログラムを格納するＣＤ−ＲＯＭ等の記憶媒体がユーザに配布され、所定の条件をクリアしたユーザは、プログラムを解読する鍵情報をインターネットを介してホームページからダウンロードすることを許可されてもよい。暗号化されたプログラムは、コンピュータにインストールされるように鍵情報を使用して実行され、本発明を実現してもよい。

上述の実施形態の機能は、読み出したプログラムコードをコンピュータにより実行することにより実現されるだけでなく、プログラムの命令に基づいてコンピュータ上で稼動するＯＳ等により実行される一部又は全ての実際の処理動作により実現されてもよい。

更に、上述の実施形態の機能は、コンピュータに挿入された機能拡張ボード又はコンピュータに接続された機能拡張ユニットに記録媒体から読み出したプログラムが書き込まれた後、実現されてもよい。機能拡張ボード又は機能拡張ユニットに配置されたＣＰＵ等により実行される一部又は全ての実際の処理により実現される。

本明細書において説明されたことは、本発明の原理の応用例にすぎない。例えば、本発明を動作させる最適な実施形態として実現される上述の機能は、例示する目的で示される。特定の例として、例えば、他の設計が波形データを取得し、かつ解析して、音声を判定するために使用されてもよい。また、本発明は、音声を検出する以外の目的で使用されてもよい。従って、他の構成及び方法は、本発明の趣旨の範囲から逸脱せずに当業者により実現されてもよい。

本発明と共に使用されてもよいコンピュータシステムを示すブロック図である。本発明に係る複雑な背景を有する文書画像からテキストを抽出する方法を示すフローチャートである。エッジの分類及び長い背景エッジ連結成分を除去した結果の一例を示す図である。本発明に係る連結成分サイズのフィードバックを使用してローカルエッジマップを再計算する方法を示すフローチャートである。本発明に係る連結成分サイズのフィードバックを使用してエッジマップを再計算することにより、テキストに近接する背景の妨害を除去した結果の一例を示す図である。、本発明の方法を使用することによるテキスト抽出の結果を示す図である。本発明に係る複雑な背景を有する文書画像からテキストを抽出する方法の典型的な応用例を示す図である。本発明の実施形態に従う複雑な背景を有する文書画像からテキストを抽出する装置を示すブロック図である。従来技術による画像処理方法を示すフローチャートである。

Claims

勾配画像に対して閾値を用いて２値化し、当該２値化により得られる画像における各連結成分の画素数が所定画素数より小さいかを判定する処理を行う処理手段と、
前記処理手段で前記各連結成分の画素数が前記所定画素数より小さいと判定されると、前記２値化により得られる画像を使用してテキストを抽出する抽出手段とを有する装置であって、
前記処理手段で前記各連結成分の画素数が前記所定画素数より小さいと判定されるまで、前記２値化に用いる閾値を大きくしていくことを特徴とする装置。
文書画像から勾配画像を得る得手段と、
前記勾配画像に対して閾値を用いて２値化し、当該２値化により得られる画像におけるネガティブエッジ連結成分及びポジティブエッジ連結成分を検索する検索手段と、
前記検索されたネガティブエッジ連結成分及びポジティブエッジ連結成分の中から所定の値より長い連結成分を前記２値化により得られる画像から除去する除去手段と、
前記除去手段で前記長い連結成分の除去された前記２値化により得られる画像における各連結成分の画素数が所定画素数より小さいかを判定する処理を行う処理手段と、
前記処理手段で前記各連結成分の画素数が前記所定画素数より小さいと判定されると、前記２値化により得られる画像を使用してテキストを抽出する抽出手段とを有する装置であって、
前記処理手段で前記各連結成分の画素数が前記所定画素数より小さくないと判定されると、前記勾配画像に対して前記閾値を大きくした閾値を用いて２値化し、再度、前記処理手段で当該２値化により得られる画像における各連結成分の画素数が前記所定画素数より小さいかを判定する処理を行うことを特徴とする装置。
前記各連結成分を通常テキスト、反転テキスト、背景に分類し、当該分類された前記各連結成分からテキスト行を形成する手段を更に有することを特徴とする請求項１又は２に記載の装置。
処理手段と、抽出手段とを有する装置にて実行される方法であって、
前記処理手段が、勾配画像に対して閾値を用いて２値化し、当該２値化により得られる画像における各連結成分の画素数が所定画素数より小さいかを判定する処理を行う処理工程と、
前記抽出手段が、前記処理工程で前記各連結成分の画素数が前記所定画素数より小さいと判定されると、前記２値化により得られる画像を使用してテキストを抽出する抽出工程とを有し、
前記処理工程で前記各連結成分の画素数が前記所定画素数より小さいと判定されるまで、前記２値化に用いる閾値を大きくしていくことを特徴とする方法。
得手段と、検索手段と、除去手段と、処理手段と、抽出手段とを有する装置にて実行される方法であって、
前記得手段が、文書画像から勾配画像を得る得工程と、
前記検索手段が、前記勾配画像に対して閾値を用いて２値化し、当該２値化により得られる画像におけるネガティブエッジ連結成分及びポジティブエッジ連結成分を検索する検索工程と、
前記除去手段が、前記検索されたネガティブエッジ連結成分及びポジティブエッジ連結成分の中から所定の値より長い連結成分を前記２値化により得られる画像から除去する除去工程と、
前記処理手段が、前記除去工程で前記長い連結成分の除去された前記２値化により得られる画像における各連結成分の画素数が所定画素数より小さいかを判定する処理を行う処理工程と、
前記抽出手段が、前記処理工程で前記各連結成分の画素数が前記所定画素数より小さいと判定されると、前記２値化により得られる画像を使用してテキストを抽出する抽出工程とを有し、
前記処理工程で前記各連結成分の画素数が前記所定画素数より小さくないと判定されると、前記勾配画像に対して前記閾値を大きくした閾値を用いて２値化し、再度、前記処理工程で当該２値化により得られる画像における各連結成分の画素数が前記所定画素数より小さいかを判定する処理を行うことを特徴とする方法。
形成する手段が、前記各連結成分を通常テキスト、反転テキスト、背景に分類し、当該分類された前記各連結成分からテキスト行を形成する工程を更に有することを特徴とする請求項４又は５に記載の方法。
請求項４乃至６の何れか１項に記載の方法をコンピュータに実行させるためのコンピュータプログラム。
請求項７に記載のコンピュータプログラムを記憶したコンピュータにより読み取り可能な記憶媒体。