JP4904330B2

JP4904330B2 - 画像からテキストを抽出する方法及び装置

Info

Publication number: JP4904330B2
Application number: JP2008284748A
Authority: JP
Inventors: シュリーフェン; ヤンキン・ワン; ホンジュ・ジャン
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2007-11-14
Filing date: 2008-11-05
Publication date: 2012-03-28
Anticipated expiration: 2028-11-05
Also published as: JP2009123206A; CN101436248B; CN101436248A

Description

本発明は、画像からテキストを抽出する方法及び装置に関し、特に、自然画像からテキストを自動抽出する方法及び装置に関する。

自然画像からのテキスト抽出は、ナンバープレートの位置特定及び内容ベースの画像／ビデオ索引付け等、非常に広く適用される。しかし、低い画像コントラスト及び複雑な背景に加えて、サイズ、様式、向き及び字並びの差異によるテキストの相違は、自動テキスト抽出の問題を極めて困難にする。

画像及びビデオからテキストを抽出する種々の手法は、特定の用途に対して提案されている（非特許文献１〜３を参照）。利用される特徴に従って、テキスト抽出方法は、領域ベースの方法及びテクスチャベースの方法の２種類に分類される。

領域ベースの方法は、連結成分（以下、「ＣＣ」と呼ぶ）ベースの手法及びエッジベースの手法の２つの手法に更に分割される。これら２つの手法は、ＣＣ又はエッジ等の下部構造の識別後にこれらの下部構造をマージしてテキストのバウンディングボックスを示すことにより、ボトムアップ式に動作する。尚、いくつかの手法は、ＣＣベースの手法及びエッジベースの方法の双方の組合せを使用する。

テクスチャベースの方法において、テキストを背景から区別する明確なテクスチャ特性を画像内のテキストが有するかが観察される。ガボールフィルタ（Ｇａｂｏｒｆｉｌｔｅｒｓ）、ウェーブレット（Ｗａｖｅｌｅｔ）、ＦＦＴ及び空間変化等に基づく技術は、画像内のテキスト領域のテクスチャ特性を検出するために使用可能である。

ＣＣベースの方法は、全てのテキスト領域が画像内で識別されるまで、小さい成分をより大きな成分に順次グループ化することによるボトムアップ方式を使用する。テキスト成分の空間構成を使用して成分をマージし、それによって非テキスト成分をフィルタリングしてテキスト領域の境界を示すには、幾何学的解析が必要とされる。ＣＣベースの方法の重要な点は、成分を生成する方法及び幾何学的解析処理であり、これらは、種々のＣＣベースの方法の主な相違点でもある。
C. M. Lee, and A. Kankanhalli, Automatic Extraction of Characters in Complex Images, International Journal of Pattern Recognition Artificial Intelligence, 9 (1) (1995) 67-82. Yu Zhong, Kalle Karu, and Anil K. Jain, Locating Text In Complex Color Images, Pattern Recognition, 28 (10) (1995) 1523-1535. V. Wu, R. Manmatha, and E. M, Riseman, TextFinder: An Automatic System to Detect and Recognize Text in Images, IEEE Transactions on Pattern Analysis and Machine Intelligence, 21 (11) (1999) 1224-1229.

しかし、画像からのテキスト抽出の精度は、種々の条件に依存して変化する。例えば、画像は不均一な照明条件下にあり且つ／又は画像内の文字は異なるサイズ及び形状を有する。更に、現在の方法の大部分は、水平又は垂直に整列されたテキストストリングしか検出できない。更に、画像の背景が非常に複雑な場合、テキスト抽出の精度も低下する。

本発明は、上述の状況に鑑みてなされたものであり、本発明の目的は、画像からテキストを抽出する確実な方法及び装置を提供することである。

本発明にかかる画像からテキストストリングを生成する方法は、画像上でエッジとなる画素を検出し、当該検出された画素と隣接する画素との画素値の差分に基づいて、暗いエッジ画像及び明るいエッジ画像の２種類のエッジ画像を生成するステップと、
前記２種類のエッジ画像のそれぞれの上で連結成分を見つけるステップと、
前記２種類のエッジ画像のそれぞれにおいて、見つけられた前記連結成分から所定の条件を満たす連結成分を除去するステップと、
前記２種類のエッジ画像のそれぞれにおいて、前記除去の後に残される前記連結成分から、同一直線上に存在する連結成分を１つにグループ化するステップと、
前記２種類のエッジ画像のそれぞれについて、前記グループ化された連結成分に基づいてテキストストリングを生成するステップと、
を有することを特徴とする。

本発明にかかる画像からテキストストリングを生成する装置は、画像上でエッジとなる画素を検出し、当該検出された画素と隣接する画素との画素値の差分に基づいて、暗いエッジ画像及び明るいエッジ画像の２種類のエッジ画像を生成する検出手段と、
前記２種類のエッジ画像のそれぞれの上で連結成分を見つける手段と、
前記２種類のエッジ画像のそれぞれにおいて、見つけられた前記連結成分から所定の条件を満たす連結成分を除去する除去手段と、
前記２種類のエッジ画像のそれぞれにおいて、前記除去の後に残される前記連結成分から、同一直線上に存在する連結成分を１つにグループ化するグループ化手段と、
前記２種類のエッジ画像のそれぞれについて、前記グループ化された連結成分に基づいてテキストストリングを生成する生成手段と、
を備えることを特徴とする。

本発明において提供される方法及び装置は、不均一な照明条件にあり且つサイズ及び形状の異なる文字を有する画像からテキストを確実に抽出でき、任意の向きのテキストストリングを抽出できる。更に、白背景の黒テキスト及び黒背景の白テキストの双方が抽出可能である。

本発明の更なる特徴は、実施形態の以下の説明から、添付の図面を参照して明らかとなるだろう。

添付の図面を参照して、本発明の好適な実施形態を詳細に説明する。

図１は、本発明の実施形態に従って、自然画像内のテキストを抽出する処理全体を示すフローチャートである。図１に示すように、本発明に従ってテキストを抽出する処理は、５つの主な段階から構成される。すなわち、「暗い」エッジ画像及び「明るい」エッジ画像の２つのエッジ画像は入力画像上で検出され（ステップＳ１００）、２つのエッジ画像のそれぞれで連結成分を見つけ（ステップＳ２００）、非テキスト成分を可能な限り除去し（ステップＳ３００）、同一線上の成分はハフ変換を使用して１つにグループ化され（ステップＳ４００）、テキストストリングは成分グループから生成される（ステップＳ５００）。

第１のステップは、入力画像（元の自然画像）上でのエッジの検出である（ステップＳ１００）。連結成分は、検出されたエッジ画像上で生成される。Cannyオペレータ（Canny operator）及びSobelオペレータ（Sobel operator）等の複数の一般的なエッジ検出技術がある。しかし、これらの技術により取得されるエッジ画像上では、テキストオブジェクトのエッジと非テキストオブジェクトのエッジとが互いに接触する場合があり、その結果正確なテキスト成分を見つけられないため、本発明はこれらの技術を使用しない。

非テキストオブジェクトの干渉を減少するため、本発明は、近接する文字のエッジを分離すると共に、テキストオブジェクトのエッジを非テキストオブジェクトから効果的に分離できる特定のエッジ検出方法を提案した。この方法により、「暗い」エッジのエッジ画像及び「明るい」エッジのエッジ画像の２つのエッジ画像が得られる。「暗い」エッジは、白背景上の黒テキストを検出するために使用され、「明るい」エッジは、黒背景上の白テキストを検出するために使用される。

次に図２に従って、本発明において提案されるステップＳ１００のエッジ検出方法を詳細に説明する。

図２は、本発明の実施形態に係るエッジ検出処理の例を示すフローチャートである。

最初にステップＳ１１０において、各画素の勾配は以下の式により算出される。

G₀ = max(|I₀ − I_n|)
式中、G₀は画素の勾配であり、I₀は画素のグレー値であり、I_nは隣接画素のグレー値である。隣接画素は８個であってもよく、又は４個であってもよい。

上記の式は、中心画素とその隣接画素との間の差分を算出し、最大差分を中心画素の勾配として選択することを意味する。

その後ステップＳ１２０において、勾配のヒストグラムは算出される。その後、エッジ閾値は勾配のヒストグラムから判定される。この場合、大津の方法等の閾値を判定するいくつかの一般的な方法が適用可能である。

本発明において、閾値は、画素の何パーセント（例えば３５％）がエッジであるかを単純に特定することにより判定される。

次にステップＳ１３０において、閾値より大きい勾配を有する全ての画素はエッジとして設定される。

ステップＳ１４０において、検出されたエッジは、以下の式により「暗い」エッジ及び「明るい」エッジの２種類に分類される。

最後にステップＳ１５０において、２つのエッジ画像は、「暗い」エッジ及び「明るい」エッジをそれぞれ抽出することにより生成される。

図５は、ナンバープレートのストリングを含み、ナンバープレートの１つの文字がプライバシー保護のため隠されている自然画像を示す図である。図６は、図５に示す元の自然画像上で検出されたエッジ画像を示す図である。このエッジ画像は、ステップＳ１５０において生成される。図６において、「暗い」エッジは暗画素で表され、「明るい」エッジはグレー画素で表され、非エッジは白画素で表される。

図１を再度参照すると、エッジ検出の実行後にステップＳ２００へ進む。ステップＳ２００において、連結成分は、双方の種類のエッジ画像において個別に見つけられる。すなわち連結成分は、各種類のエッジ画像（すなわち、暗いエッジ及び明るいエッジ）に対してそれぞれ見つけられる。更に、後続の処理は、同様に２つの成分グループに対して個別に実行される。

次にステップＳ３００へ進み、非テキスト成分を除去する。ステップＳ３００において、非テキスト成分をフィルタリングするために、いくつかの経験則が使用される。この経験則を以下に示す。

１）テキスト成分のサイズは、[Hmni, Hmax]の範囲内になければならない。Hmin及びHmaxは、本発明が適用される実際の用途に従って特定される。多くの場合、Hmin = 12及びHmax = 45が適切である。Hmaxより大きいサイズのテキストを抽出するため、本実施形態は元の画像を縮小し、テキスト抽出ステップ全体を縮小画像に適用する。

図７は、「暗い」エッジ画像上で検出された連結成分を示す図である。サイズが[Hmin, Hmax]の範囲外の成分は除去される。

２）画像領域をHmax*Hmaxのサイズの格子に分割し、各格子に「含まれる」成分の数を数える。成分の中心点が格子に含まれる場合、その成分は格子に含まれる。格子内の成分の数が所定の閾値（例えば１８）より大きい場合、この格子内の全成分は削除される。この経験則は、テキスト成分の近傍では成分数はあまり大きくないという観察に基づく。

３）各成分の境界矩形において判定される閾値により、各成分を２値化する（例えば、大津（Otsu）の閾値法により）。「暗い」エッジ画像上で検出された成分において、そのバウンディングボックス(bounding box)の４つの境界線上の黒画素の数が４つの境界線上の全画素の２０％より大きい場合、その成分は削除される。同様に、「明るい」エッジ画像上で検出された成分において、そのバウンディングボックス(bounding box)の４つの境界線上の白画素の数が４つの境界線上の全画素の２０％より大きい場合、その成分は削除される。

図８は、非テキスト連結成分を除去の後の連結成分を示す図である。図８を図５とを比較すると、大部分の非テキスト成分がフィルタリングされる一方、図中符号８０１〜８０３で示されるテキスト成分は画像内に残存していることがわかる。

非テキスト成分を除去後、ステップＳ４００へ進み、中心点が同一線上にある成分は１つにグループ化される。図３は、本発明の実施形態に従って、同一線上の成分のグループ化の例を示すフローチャートである。

図３に示すように、ステップＳ４１０において、成分の中心点はハフ変換を使用してパラメータ空間に変換される。その後、テキストストリングを通る線は、パラメータ空間上で極大点を見つけることにより検出される。極大点は、注目点を中心とする所定の範囲内の点であり、極大点の値は、その範囲内の他の任意の点の値より大きい。

次にステップＳ４２０において、中心点が同一線上にあるか又は同一線に近接する成分は１つにグループ化される。従って、出力される成分グループは取得される。

図１を再度参照すると、同一直線上の成分を１つにグループ化した後、ステップＳ５００へ進み、テキストストリングは、ステップＳ４００において取得されたグループから生成される。図４は、本発明の実施形態に従って、線上の成分のグループからテキストストリングを生成する例を示すフローチャートである。

図４に示すように、ステップＳ５１０において、文字の平均の高さは、グループ内の全ての成分の高さの平均値として選択される。次にステップＳ５２０において、高さが平均の高さと非常に異なる（例えば、高差の閾値は２０％に設定されてもよい）成分は、非テキスト成分と見なされ除去される。最後にステップＳ５３０において、テキストストリングは、隣接する成分を繰り返し連結することにより生成される。２つの隣接する成分間の距離が所定の閾値（例えば、ストリングの高さの１．２倍）より小さい場合、これらの成分は連結される。

更に各ストリングの領域は、ストリングの高さに加えて、開始点及び終了点を使用して識別可能である。

ステップＳ５００においてテキストストリングを生成後、テキストストリングは出力され、光学的文字認識（ＯＣＲ）処理等の更なる処理に使用されてもよい。

図９は、本発明の実施形態によって、線９０１で示すように位置を特定されたテキストストリングを示す図である。図５と比較すると、ナンバープレートの場所のテキストストリングが正確に見つけられていることがわかる。

本発明は、自動ナンバープレート認識システムにおいて使用可能である。別の興味深い使用法は、辞書とカメラとを組み合わせる電訳機（electric translator）である。図１０は、本発明を適用可能な例であるデジタルカメラを有する電訳機を示すブロック図である。

図１０に示すように、外国語のストリングを含む画像は、電訳機のデジタルカメラにより取得される。本実施形態の方法を使用して画像上のテキストストリングを抽出後、ＯＣＲ処理は、テキストストリングを母国語に翻訳するために実行される。最後に、母国語のテキストストリングはユーザに対して表示される。

図１１は、本発明の実施形態に従って、画像からテキストを抽出する装置の例を示すブロック図である。その詳細な説明は省略する。

上述の方法は、上述の機能を実現するソフトウェアのプログラムコードを格納した記憶媒体をコンピュータシステム又は装置に提供することにより実現されてもよい。そのシステム又は装置のコンピュータ（あるいはＣＰＵ又はＭＰＵ）を用いて、記憶媒体に格納されたプログラムコードを読み出して実行することにより、上述の実施形態の機能は実現される。この場合、記憶媒体から読み出されたプログラムコードは実施形態に係る機能を実現し、プログラムコードを格納した記憶媒体は本発明を構成する。フロッピディスク(登録商標)、ハードディスク、光ディスク及び光磁気ディスク等の記憶媒体は、プログラムコードを提供するために使用される。ＣＤ−ＲＯＭ、ＣＤ−Ｒ、磁気テープ、不揮発性メモリカード及びＲＯＭ等が更に使用される。

更に、上述の機能は、コンピュータにより読み出されたプログラムコードを実行することによってのみ実現されるのではない。本発明は、コンピュータ上で稼動しているＯＳ（オペレーティングシステム）等が、プログラムコードの指示に従って処理の一部又は全部を実行し、上述の実施形態に係る機能を実現する場合を更に含む。

更に、記録媒体から読み出されたプログラムコードは、コンピュータに挿入された機能拡張カード又はコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれてもよい。その後、その機能拡張カード又は機能拡張ユニットに含まれるＣＰＵ等は、そのプログラムコードの指示に従って処理の一部又は全部を行ってもよく、上述の実施形態の機能を実現してもよい。

実施形態を参照して本発明を説明したが、本発明は開示される実施形態に限定されないことが理解されるべきである。添付の特許請求の範囲の範囲は、そのような変形、並びに等価な構成及び機能の全てを含むように最も広範に解釈されるべきである。

本発明の実施形態に従って、自然画像内のテキストを抽出する処理全体を示すフローチャートである。本発明の実施形態に係るエッジ検出処理の例を示すフローチャートである。本発明の実施形態に従って、同一線上の成分のグループ化の例を示すフローチャートである。本発明の実施形態に従って、線上の成分のグループからテキストストリングを生成する例を示すフローチャートである。ナンバープレートのストリングを含み、ナンバープレートの１つの文字がプライバシー保護のため隠されている自然画像を示す図である。図５に示す元の自然画像上で検出されたエッジ画像を示し、「暗い」エッジ（暗画素）及び「明るい」エッジ（グレー画素）を同一画像上に示す図である。「暗い」エッジ画像上で検出された連結成分を示し、「格子」が画像上に重ねられる図である。非テキスト連結成分を除去後の連結成分を示す図である。本発明の実施形態によって、線で示すように位置を特定されたテキストストリングを示す図である。本発明を適用可能な例であるデジタルカメラを有する電訳機を示すブロック図である。本発明の実施形態に従って、画像からテキストを抽出する装置の例を示すブロック図である。

Claims

画像からテキストストリングを生成する方法であって、
前記画像上でエッジとなる画素を検出し、当該検出された画素と隣接する画素との画素値の差分に基づいて、暗いエッジ画像及び明るいエッジ画像の２種類のエッジ画像を生成するステップと、
前記２種類のエッジ画像のそれぞれの上で連結成分を見つけるステップと、
前記２種類のエッジ画像のそれぞれにおいて、見つけられた前記連結成分から所定の条件を満たす連結成分を除去するステップと、
前記２種類のエッジ画像のそれぞれにおいて、前記除去の後に残される前記連結成分から、同一直線上に存在する連結成分を１つにグループ化するステップと、
前記２種類のエッジ画像のそれぞれについて、前記グループ化された連結成分に基づいてテキストストリングを生成するステップと、
を有することを特徴とする方法。
前記画像上でエッジを検出する検出ステップは、
G₀が画素の勾配であり、I₀が前記画素のグレー値であり且つI_nが隣接画素のグレー値であって、前記隣接画素の数が４又は８である場合、式G₀ = max(|I₀−I_n|)により各画素の勾配を算出するステップと、
閾値が判定される基準となる前記勾配のヒストグラムを算出するステップと、
前記閾値より大きい勾配を有する前記画素をエッジとして設定するステップと、
により、前記エッジを暗いエッジ及び明るいエッジの２種類に分類するステップと、
暗いエッジ画像及び明るいエッジ画像の２つのエッジ画像を生成するステップと、を更に有することを特徴とする請求項１に記載の方法。
前記所定の条件は、連結成分のサイズと、所定領域内の連結成分の数と、及び、前記エッジ画像上のある特定の色の画素数と前記エッジ画像上の全画素数との比と、のうちの少なくとも１つを含むことを特徴とする請求項１に記載の方法。
前記グループ化するステップは、
ハフ変換を使用して連結成分の中心点をパラメータ空間に変換し、ストリングを通る線を検出するために、前記パラメータ空間上で極大点を検出するステップと、
中心点が同一線上にあるか又は同一線に近接する連結成分を１つにグループ化するステップと、を更に有することを特徴とする請求項１に記載の方法。
前記テキストストリングを生成するステップは、
グループ内の前記連結成分の高さから前記テキストストリングにおけるテキストの平均の高さを決定するステップと、
高さが前記平均の高さから所定の程度異なる連結成分を除去するステップと、
隣接する連結成分を連結するステップと、を更に有することを特徴とする請求項１に記載の方法。
画像からテキストストリングを生成する装置であって、
前記画像上でエッジとなる画素を検出し、当該検出された画素と隣接する画素との画素値の差分に基づいて、暗いエッジ画像及び明るいエッジ画像の２種類のエッジ画像を生成する検出手段と、
前記２種類のエッジ画像のそれぞれの上で連結成分を見つける手段と、
前記２種類のエッジ画像のそれぞれにおいて、見つけられた前記連結成分から所定の条件を満たす連結成分を除去する除去手段と、
前記２種類のエッジ画像のそれぞれにおいて、前記除去の後に残される前記連結成分から、同一直線上に存在する連結成分を１つにグループ化するグループ化手段と、
前記２種類のエッジ画像のそれぞれについて、前記グループ化された連結成分に基づいてテキストストリングを生成する生成手段と、
を備えることを特徴とする装置。
前記検出手段は、更に、
G₀が画素の勾配であり、I₀が前記画素のグレー値であり且つI_nが隣接画素のグレー値であって、前記隣接画素の数が４又は８である場合、式G₀ = max(|I₀−I_n|)により各画素の勾配を算出し、
閾値が判定される基準となる前記勾配のヒストグラムを算出し、
前記閾値より大きい勾配を有する前記画素をエッジとして設定し、

により、前記エッジを暗いエッジ及び明るいエッジの２種類に分類し、
暗いエッジ画像及び明るいエッジ画像の２つのエッジ画像を生成することを特徴とする請求項６に記載の装置。
前記所定の条件は、連結成分のサイズと、所定領域内の連結成分の数と、及び、前記エッジ画像上のある特定の色の画素数と前記エッジ画像上の全画素数との比と、のうちの少なくとも１つを含むことを特徴とする請求項６に記載の装置。
前記グループ化手段は、更に、
ハフ変換を使用して連結成分の中心点をパラメータ空間に変換し、ストリングを通る線を検出するために、前記パラメータ空間上で極大点を検出し、
中心点が同一線上にあるか又は同一線に近接する連結成分を１つにグループ化することを特徴とする請求項６に記載の装置。
前記テキストストリングを生成する生成手段は、更に、
グループ内の前記連結成分の高さから前記テキストストリング内のテキストの平均の高さを決定し、
高さが前記平均の高さから所定の程度異なる連結成分を除去し、
隣接する連結成分を連結することを特徴とする請求項６に記載の装置。