JP2013257866A

JP2013257866A - 自然風景の中のテキストの発見

Info

Publication number: JP2013257866A
Application number: JP2013111587A
Authority: JP
Inventors: Bala Raja; ラジャ・バーラ; Wang Zigan; ジガン・ファン; Hengzhou Ding; ヘンジョウ・ディン; P Allebach Jan; ジャン・ピー・アレバック; Charles A Bouman; チャールズ・エイ・バウマン
Original assignee: Xerox Corp
Current assignee: Xerox Corp
Priority date: 2012-06-12
Filing date: 2013-05-28
Publication date: 2013-12-26
Anticipated expiration: 2033-05-28
Also published as: JP6000899B2; DE102013210375A1; US8837830B2; US20130330004A1

Abstract

【課題】写真画像、デジタル画像、及び／又は電子画像等の自然風景内のテキストを見つけるための、効率的なエッジ検出、及び閉曲線に基づく方法の提供を簡単にする。
【解決手段】エッジ情報（例えば、画像内の構造物又は物体のエッジ）を、エッジ検出技術を介して取得する。多少のレベルのノイズが存在していてもテキスト文字からのエッジにより閉曲線が形成される。閉曲線のリンク及び候補テキスト線の形成は、２つ追加的な特徴である。候補テキスト線の分類子を適用して、誤認識のテキスト特定をさらに取り除く。電子画像の自然風景内にテキストが配置される候補テキスト領域を強調してユーザに提示する。
【選択図】なし

Description

本発明の例示的な実施形態は、一般に電子画像内でテキストを検出すること関する。しかし、本例示的実施形態は、その他の同様な目的に対しても適用可能であることは言うまでもない。

最近、文書に価値を付加する方法として画像のパーソナル化及びカスタマイズ化が注目されている。このことは、取引や販売促進のマーケティングの用途で特に言えるが、個人用のカレンダ、写真集、グリーティングカード等を作成する写真店等の画像集約市場でも同様に注目を集めている。画像をパーソナル化する１つの方法は、テキストが画像の自然な一部になるような効果を用いて、画像に個人用テキストメッセージを組み込む。現在、このように画像をパーソナル化する技術がいくつか存在し、例えば、ＸＭＰｉｅ、ＤｉｒｅｃｔＳｍｉｌｅ、及びＡｌｐｈａＰｉｃｔｕｒｅｓ等のソフトウェア会社により供給されている。これらのアプリケーションでは、フォトリアリスティックな画像で、狙った効果をもたらすよう意図されている。それと同時に、これらの方法は面倒で複雑であり、高性能のデザインツールと、画像処理経験を有するデザイナーによる入力が必要となる。このような理由から、デザイナーを何人も雇い、顧客が使用するパーソナル化用のストックテンプレートのライブラリが作成されている。このような状況では、パーソナル化のために、顧客が用いることができる画像が限定されてしまう。

道路標識、看板広告又は垂れ幕等のテキストが既に存在する場所で画像内に個人用テキストを組み込むのが自然な選択である。画像内のテキストの自動検知は、非常に面白い技術あり、広く研究されている課題である。さらに、この課題は、どのように文書内のテキストを検出し認識するかという課題と、どのように自然風景の中でテキストを見つけるかという課題の２つに分類することができる。文書テキスト検出は、研究者によって研究され続けており、光学式文字認識（ＯＣＲ）及びその他の文書認識技術への先駆けとなっている。しかし、文書に適用可能なテキスト検出技術は、実際の画像風景内でのテキストの発見に関してどうひいき目にみても不十分であり、大抵の場合は、全く役にたたない。というのもテキストは異なる姿を見せる可能性があり、その姿は、大きさ、位置、明暗の度合い、書体等の様々な要因により著しく変化する可能性がある。さらに、検出アルゴリズムは、テキストとその他の画像内の詳細部及び構造物とを混同する可能性がある。最先端の技術では、一般的に想定を設けてられており、したがって、その技術自体も全体の課題のうちの一部に制約される。例えば、ナンバープレートの認識では通常、位置、角度、距離等、見え方がほとんど変化しない管理された環境内でナンバープレートの画像を捕捉する。さらに、これらのアルゴリズムの多くは、コンピュータ的に負担が大きく、これにより、リアルタイム式、又は相互対話式の用途には不適当とされている。

したがって、画像のパーソナル化及びその他の用途で用いるために、電子画像内の自然風景の中のテキスト領域を自動的に検出することを容易にする、手軽で自動のシステム及び方法が必要となる。

本発明の実施形態の一様態では、自然風景の電子画像内のテキストを自動的に検出する、コンピュータで実行する方法が提案され、この方法は、分析のための電子画像を受信するステップと、その電子画像上でエッジ検出アルゴリズムを実行するステップと、検出されたエッジに応じて、電子画像内の閉曲線を特定するステップと、閉要素間のリンクを確立するステップとを含む。この方法は、特定された閉曲線に応じて、候補テキスト線を特定するステップと、候補テキスト線をテキスト領域として、又は非テキスト領域として分類するステップと、グラフィカル・ユーザ・インターフェース（ＧＵＩ）を介して確認された電子画像内のテキスト領域を出力するステップとをさらに含む。

別の様態によると、自然風景の電子画像内のテキストの自動検出を容易にする、コンピュータ化されたシステムが提案され、このシステムは、コンピュータ実行可能命令を格納するメモリと、その命令を実行するよう設定されたプロセッサとを含み、この命令が、分析のための電子画像を受信することと、電子画像上でエッジ検出アルゴリズムを実行することと、検出されたエッジに応じて、電子画像内の閉曲線を特定することとを含む。このプロセッサは、閉要素間のリンクを確立することと、特定された閉曲線に応じて、候補テキスト線を特定することと、候補テキスト線をテキスト領域として、又は非テキスト領域として分類することとに関する格納命令を実行するようさらに設定される。このシステムは、グラフィカル・ユーザ・インターフェース（ＧＵＩ）をさらに含み、このグラフィカルユーザインターフェース上で、確認された電子画像内のテキスト領域をユーザに表示する。

本明細書には、少なくとも１枚のカラーで描かれた図面が含まれる。カラー図面（複数可）を有する本明細のコピーは、手数料を支払い申請すれば米国特許商標局により発行される。

図１は、画像内のテキスト領域を自動的に検出する方法を示すフローチャートである。図２は、閉曲線を特定する方法を示すフローチャートである。図３は、入力画像の例を示す説明図である。図４は、検出アルゴリズムにより生成されたエッジマップの説明図である。図５は、本明細書で記載する閉曲線特定方法で生成した閉曲線を含む、精製されたエッジマップを含む説明図である。図６は、後処理のステップで、１つの画素だけで隔てられた２つの開口先端が特定され、それらを接続させたときの処理前及び処理後の画像の説明図である。図７は、後処理ステップで、エッジマップ内に残っている開口先端を全部なくなるまで繰り返し浸食させたときの処理前及び処理後の画像の説明図である。図８は、２つの閉曲線が単一のエッジに互いに付いたときの「エラーモード」が検出された画像の例を示す説明図である。図９は、本明細書で記載する技術で修正可能な問題を抱えたエッジセットの例を示す説明図である。図１０は、閉曲線を囲む全ての背景画素を薄い灰色でマークして現れたエッジセットを示す説明図である。図１１は、誤って接続させた曲線から、首尾よく文字「Ｂ」を分離させたエッジセットを示す説明図である。図１２は、追加した後処理のステップを適用後の、精製されたエッジマップを示す説明図である。図１３は、候補テキスト線を形成する方法を示すフローチャートである。図１４は、閉曲線間のリンクの確立に関する追加的な詳細を示す説明図である。図１５は、後述の３つの基準を満たす閉曲線がリンクされたエッジマップの説明図である。図１６は、確立されたリンクを含み、テキスト文字を通るリンクが候補テキスト線として選択されたエッジマップの説明図である。図１７は、残りのテキスト文字の閉曲線を通って候補テキスト線が拡張した、エッジマップを示す説明図である。図１８は、閉曲線の候補テキストの文字列を囲んだ境界多角形（ｂｏｕｎｄｉｎｇｐｏｌｙｇｏｎｓ）を黄色で示したオリジナル画像を示す説明図である。図１９は、複数の境界多角形が計算された別の画像の例を示す説明図である。図２０は、検出されたテキスト領域に分類子を適用して誤認警報の割合をさらに抑える、候補テキスト線を分類する方法を示す説明図である。図２１は、適度なアスペクト比、及びその閉曲線全体に渡る著しい変化を見せるテキスト文字の例を示す説明図である。図２２は、ほとんど変化しない、非常に大きなアスペクト比を閉曲線が見せる、画像内の縦型窓用ブラインド内で誤認識されたテキスト線を示す説明図である。図２３は、閉曲線が非常に大きな画素率、即ち、「コンパクト過ぎる」を有し、ほとんど変化を見せない誤認識されたテキスト線を示す説明図である。

本明細書に記載するシステム及び方法により、写真画像、デジタル画像、及び／又は電子画像等の自然風景内でテキストを見つける方法が提供される。記載される方法では、既知のエッジ検出技術、又はアルゴリズムから得られるエッジ情報（例えば、画像内の構造物又は物体のエッジ）が利用される。この方法では、ノイズが多少のレベルで発生したとしても、テキスト文字からのエッジが閉曲線を形成するとみなす。閉曲線のリンク、及び候補テキスト線の形成は、記載される方法の２つ追加的な特徴であり、本明細書でさらに詳細に記載する。最終的に、候補テキスト線の分類子と適用して、誤認識されるテキストが特定されることをさらに抑える。

本明細書に記載するシステム及び方法は、いくつかの分野で潜在的な用途を見出す。その一例が、個人用テキストメッセージを自然効果として、画像に組み込んだ画像のパーソナル化である。ユーザが個人用メッセージと入れ替えることができそうな既存テキストを含んだ画像内領域を特定するために本発明を使用することができる。本発明はまた、画像の「パーソナル化に対する適合性」（ＳＦＰ）を評価する評価基準に関する高性能の処理ステップとしても使用することができる。簡単に要約すると、画像がテキストベースのパーソナル化に適しているかどうかを判定する際、既存のテキスト（例えば、看板、垂れ幕等）が存在している場所が一般に、個人用テキストメッセージを書き込むための自然な画像領域を提案するときに、重要な目安を提供する。したがって、自然風景の中に埋め込まれたテキストを正確かつ効率的に見つけ出す能力は、効果的なＳＦＰの判定、及び画像のパーソナル化のために、及びデザイン支援として機能するために有益である。その他に、例えば、画像理解及び画像認識、セキュリティ、監視、ナンバープレート認識等の様々な用途が想定される。テキスト領域の検出は、記載される方法を用いる用途に依存する。例えば、画像のパーソナル化では、特定されたテキスト領域を、（ユーザに対して）見やすくマークアップ又は強調し、コンピュータ５０上、又はコンピュータ５０と関連するグラフィカル・ユーザ・インターフェース（ＧＵＩ）を介してユーザに提示することができる。

コンピュータ５０を本明細書に記載するシステム及び方法をサポートするために設定される、可能性のあるハードウェアの１つとして用いることができる。本明細書では、独立型のアーキテクチャを例示しているが、全ての好適なコンピュータ環境を本実施形態により使用可能であることは言うまでもない。例えば、独立型、マルチプロセッサ、分散型、クライアント／サーバ、ミニコンピュータ、メインフレーム、スーパーコンピュータ、デジタル及びアナログを含むコンピュータアーキテクチャを本実施形態により用いることができるがこれらには限定しない。

コンピュータ５０は、プロセッシングユニット（図示せず）及びシステムメモリ（図示せず）を含み、このプロセッシングユニットは、本明細書に記載する種々の機能、手順、方法、プロトコル、技術等を実行するためのコンピュータ実行可能命令（例えば、モジュール、プログラム、ルーチン、アルゴリズム等）のセットを１つ以上実行し、システムメモリは、そのコンピュータ実行可能命令を格納する。コンピュータは、システムバス（図示せず）さらに含むことができ、このシステムバスは、システムメモリからプロセッシングユニットまでを含む種々のシステムコンポーネント間を接続する。プロセッシングユニットは、様々な市販プロセッサのうち任意のものでよい。デュアルマイクロプロセッサ及びその他のマルチプロセッサアーキテクチャもプロセッシングユニットとして使用可能である。

本明細書で使用される「アルゴリズム」又は「モジュール」とは、コンピュータ実行可能命令のセットのことを指し、これらは、コンピュータ可読媒体（例えば、メモリ、ハードドライブ、ディスク、フラッシュドライブ、又はその他の全ての好適な記憶媒体）上に永続的に格納される。さらに、本明細書に記載する方法のステップは、ユーザにより特別なことが行われない限り、コンピュータ及び／又はプロセッサによりを実行される。

コンピュータ５０は一般に、少なくともいくらかのコンピュータ可読媒体の形態を含む。コンピュータ可読媒体は、コンピュータがアクセス可能な全ての利用可能媒体でよい。例として、コンピュータ可読媒体には、コンピュータ格納媒体及び通信媒体が含まれ得るが、これらに限定はしない。コンピュータ記憶媒体には、揮発性媒体及び不揮発性媒体、取り外し可能媒体、及び非取り外し可能媒体が含まれ、これらは、コンピュータ可読命令、データ構造、プログラムモジュール又はその他のデータ等の情報を格納するための全ての方法又は技術により実行される。

通信媒体は一般に、搬送波又はその他の搬送機構等の、変調データ信号内でコンピュータ可読命令、データ構造、プログラムモジュール又はその他のデータを具体化し、また通信媒体には、全ての情報配信媒体が含まれる。用語「変調データ信号」とは、その信号内の情報をコード化するように、その特徴のうちの１つ以上を設定、又は変更した信号を意味する。例として、通信媒体には、有線ネットワーク又は直接有線接続等の有線媒体、及び音響、ＲＦ、赤外線、並びにその他の無線媒体等の無線媒体が含まれるが、これらには限定しない。上記の全ての組み合わせも、コンピュータ可読媒体の範囲に含むことができる。

ユーザは、キーボード（図示せず）、ポインティングディバイス（図示せず）、マウス、サムパッド、音声入力、スタイラスペン、タッチスクリーン等を用いて、命令及び情報をコンピュータに入力することができる。コンピュータ５０は、遠隔コンピュータ（複数可）等の１つ以上の遠隔コンピュータと論理的接続、及び／又は物理的接続したネットワーク環境で動作可能である。図示する論理的接続にはローカルエリアネットワーク（ＬＡＮ）、及びワイドエリアネットワーク（ＷＡＮ）が含まれる。企業内コンピュータネットワーク、つまりイントラネット、及びインターネットのようなネットワーク環境はオフィス内では一般的である。

図１には、画像内のテキスト領域を自動的に検出する方法が示される。この方法は、コンピュータ５０により実行される。１０２で、電子画像（例えば、走査された写真、デジタル画像、又はその他の好適な電子画像）を受信する。１０４で、検出画像内でエッジを検出する。ある例では、キャニーエッジ検出アルゴリズムを実行して、又は行って画像内のエッジを検出しているが、本明細書に記載する方法及びシステムと連動して、全ての好適なエッジ検出アルゴリズム、又は技術を適用することも可能であることは言うまでもない。１０６で、検出したエッジを用いて閉曲線を特定する。１０８で、特定された閉曲線から候補テキスト線を形成する。１１０で、候補テキスト線をテキスト領域、又は非テキスト領域として分類する。

図２には、閉曲線を特定する方法が図１の１０６の関連として詳細に示される。この方法は、コンピュータ５０により実行される。１２２で、閾値Ｔ_ｏｐｅｎより短い距離で隔てられた閉曲線の開口先端を接続してエッジを形成する。１２４で、残っている開口先端を（例えば、既知の形態学的侵食技術等を用いて）繰り返し浸食させる。１２５で、接続したエッジ要素を閉曲線の候補として特定する。１２６で、単一のエッジに２つの閉曲線が互いに付く場合に、誤って付いている状態が発生したかどうか対する判定を行う。発生している場合、１２８で、そのような誤って接続された要素を分離させる。誤って接続された要素を分離させた後、又は１２６で、誤認識された状態が存在しないと判定された場合、次いで１３０で、特定した閉曲線をテキスト文字の候補として出力する。

引き続いて図１及び図２、並びにそれらに関連して記載した方法を参照して、図３〜図８、及びそれに関連して記載した１つ以上の又は動作の例を説明するが、それらのステップ又は動作は、図１及び図２の方法に関連して実行される。

図３には、画像１５０の一例が示され、図１の方法を用いて、この画像に対して画像内のテキストの線を特定する。

図４には、エッジマップ１６０が示され、このエッジマップは、１０４でエッジ検出アルゴリズム（例えば、キャニーアルゴリズム等）を適用することにより作成される。その目的はテキスト「ＲｕｓｓｉａｎＴｅａＲｏｏｍ」を検出することである。しかし、画像内のその他の詳細部及び構造物で込み入ったエッジマップ１６０内にテキストが紛れてしまうため、テキストの検出は困難である。しかし、テキスト文字からのエッジ曲線は、高い確率で、自己閉鎖していることに注目する。言い換えれば、テキスト文字に関する曲線は閉じているが、構造物からのエッジは一般に、障害物、低いコントラスト等の様々な理由により分離している。したがって、後処理のステップを２つ適用することで、過度のエッジ詳細部を取り除き、閉曲線１６２をそのまま維持する。その結果を図５の精製済みエッジマップ１７０内に示す。

図６及び図７には、前述した２つ後処理ステップが示される。アルゴリズムは検索して閉曲線を検出するため、まず閉曲線の開口先端が検索される。開口先端の例を緑の画素として図６及び図７内に示す。図６に示す通り、「処理前」の画像１８０内で、１組の開口先端１８２が特定される。第１の後処理１２２（図２）では、１画素だけで隔てられた２つ開口先端１８２を全て接続しようと試みる。このステップの狙いは、ノイズが存在するために発生するテキスト文字のエッジ曲線内の小さな隙間を閉じることである。図６では、文字「Ｉ」に関する曲線が首尾よく閉じられて「処理後」の画像１９０が生成され、この画像１９０内では、開口先端１８２が閉じられてエッジ１９２が形成されている。

図７には、処理前の画像２００及び処理後の画像２１０が示される。第２の後処理ステップ（図２の１２４）により、エッジマップ内に開口先端がなくなるまで、残っている開口先端１８２を繰り返し浸食し続ける。処理後の画像２１０内の男性の顔の上のエッジのほとんどが浸食後に取り除かれている。

図５に戻ると、ステップ開口先端を接続するステップ（１２２）、及び浸食ステップ（１２４）が完了後、精製されたエッジマップ（例えば、図５を参照）を出力する。但し、精製されたエッジマップ内の非テキストのエッジのほとんどが取り除かれている。接続された要素の分析も図５のエッジマップ上で実行され、色分けを用いてそれぞれの接続された閉曲線の要素を示される。

図８には、画像２２０の例が示され、この画像２２０内では、２つの閉曲線が互い単一のエッジに付いているため「エラーモード」（例えば、間違った閉曲線）が検出されている。図８に示す通り、１２２及び１２４の後でも、単語「ＮＯＢＯＤＹ」内の文字「Ｂ」が、この画像内のいくらかの別の詳細部に付いたままであり、単語「ＧＥＴＳ」内の文字「Ｓ」及び単語「ＨＵＲＴ」内の文字「Ｈ」も相互に付いている。図８には、開口先端は残っていないが、誤認識された閉要素が検出されている。追加の後処理１２６及び１２８（図２）を設けてこの問題に取り組む。つまり、誤って接続された閉曲線が存在することが１２６の判定により示された場合、１２８で、アルゴリズムが誤って接続された閉曲線を分離しようと試みる。

図９には、一例として問題を抱えるエッジセット２３０が示される。間違って接続された閉曲線２３２からのエッジ画素を白で示し、その他のエッジ画素を灰色で示す。１２８（図２）でアルゴリズムを実行するとき、境界ボックスの境界を分析し、全ての背景画素を、接続要素を分析することよりマークして目立たせる。

図１０には、閉曲線２３２を囲む全ての背景画素を、薄い灰色でマークして現れたエッジセット２４０が示される。図１０で見られるように、閉曲線２３２のエッジ画素と、閉曲線とリンクするエッジ画素との間には差が存在する。閉曲線のエッジ画素は、閉曲線２３２の内側の画素（黒）から背景画素（薄い灰色）を分離させ、その一方で、閉曲線とリンクするエッジ画素２４２は、背景画素の２つ部分を単に分けている。アルゴリズムは、この観察に基づいて、首尾よく閉曲線をリンクするエッジ画素を取り除くことができ、１２８（図２）で閉曲線を分離させることができる。

図１１には、エッジセット２５０が示され、その中では、文字「Ｂ」が首尾よく分離されている。但し、文字「Ｂ」閉曲線２３２の内側には、隔離された円が２つ存在し、それらも当然文字「Ｂ」に属する。最後のステップで、これらの円も文字「Ｂ」の曲線と組み合わされる。

図１２には、追加の後処理ステップ１２６〜１２８（図２）を適用後の、精製されたエッジマップ２６０が示される。この図１２では、各閉曲線がテキスト文字候補として見なされ、図２の方法の１３０で行われるように、見やすくするために異なる色で色分けされる。

図１３には、候補テキスト線を形成する方法が示され、この方法は、例えば、図１の方法の１０８で実行される。この方法は、コンピュータ５０により実行される。２７０で、閉曲線間のリンクを確立する。同一線上のリンクを抽出し、それらのリンクは高い確率でテキスト線に属する。そのような線を見つけるために、トータル最小２乗法を用いて直線を繰り返し合わせ、閉曲線の中央からその線までの距離に対して閾値を適用することに基づく、しらみつぶし探索法で検討する。したがって、２７２で、検討するためのリンクが選択され、閉曲線に関連する２つの中央を通して直線を合わせる。続くステップで、両方の曲線からリンクを次々に拡張させる。２７２で、選択された現在の閉曲線に対して、２７４で、選択されたリンク以外の全ての関連リンクを特定する。関連するリンクのうちの１つに付いた対応曲線が選択され、その曲線の中央は前回に合わせた線から最も短い距離を有する。同様にその距離が所定の閾値Ｔ_ｆよりも短い場合、この閉曲線を現在の曲線の後に加えて、閉曲線の配列を形成する。前に合わせた線も、新しく加えられた曲線を求めることにより再度合わされる。さらに、新しく加えられた閉曲線が現在の曲線となり、計算される距離が所定の閾値より長くなるまでこのステップが繰り返される。

２７６で、最初に選択されたリンクから両方の閉曲線を拡張した後、配列内の曲線の総数を算出する。所定の数（例えば、４）以上の曲線が存在する場合、その配列を候補テキスト線として特定する。次いでこの配列内の全ての閉曲線、及びこれらの閉曲線に関する全てのリンクを取り除く。２７８で、全てのリンクが処理されるまで、この方法（例えば、２７２、２７４、及び２７６）を繰り返して、その他のリンクを考察する。２７９で、必要に応じて候補テキスト線を拡張する。

図１４及び図１５には、閉曲線間のリンクを確立するステップに関する追加の詳細が示され、この詳細は、例えば、図２の方法の１３２で行われる。図１４に関連して、２つ閉曲線がエッジマップ２８０の一部でリンクされ得る前に、３つの基準を評価する。第１に、２つ閉曲線の中央間の距離が閾値Ｔ_ｄより短いかどうかに関する判定を行う。図１４には、この閾値をどのように算出するかが示される。２つ「Ｏ」の文字を考察すると、文字ごとの幅と高さは、それぞれｗ_１，ｈ_１及びｗ_２，ｈ_２となる。次いで、以下の式で閾値を算出する。
但し、ｍ′は正の増倍係数である（例えば、０．５又はその他のいくらかの所定の係数）。図１４で見られる通り、閾値の式の中の第２の項１／２（ｈ_１＋ｈ_２）ｍ′により、２つ文字の間の隙間が決定され、この隙間の閾値を平均の高さの倍数になるよう設定する。

第２に、２つ文字間の高さの割合に閾値を適用する（例えば、０．６又はその他のいくらかの所定の閾値）。第２の基準を以下の式で算出する。
この第２の基準は、２つ文字の高さが比較可能である必要があることを表す。

最終的に、隣接する閉曲線の背景画素や文字が統計的な意味で類似し、テキスト画素も同様であるという前提に基づいて、色に関する制約を設ける。最初に、エッジ画素を閉曲線ごとに拡張する。次いで、拡張した曲線で覆われた全ての画素の輝度−クロミナンス色空間のクロミナンスチャネル上で、２つモードを有する混合ガウス分布を推定する。例えば、ＣＩＥＬＡＢ空間のａ＊チャネルとｂ＊チャネルを用いることができる。次に、背景モード間、及び２つ文字に関するテキストモード間のカルバック・ライブラー・ダイバージェンスの平均を以下の式で計算する。

但し、Ｃ_１及びＣ_２は任意の２つ閉曲線／文字を表し、Ｇ_１，１，Ｇ_１，２及びＧ_２，１，Ｇ_２，２はこの２つ文字に関して、それぞれ推定される背景モード及びテキストモードである。試行錯誤に基づいて距離が、２と選択された閾値Ｔ_ｃより短い場合、２つ文字間のリンクを維持する。

図１５には、前述の３つの基準を満たす閉曲線がリンクされたエッジマップ２９０が示される。リンク２９２は黄色で示されている。具体的には、リンクは閉曲線の中央間で黄色の実線で示されている。

図１６には、図１４で確立されたリンクを有するエッジマップ３１０が示され、この中では、テキスト文字を通るリンク（図１４内の２８２）が候補テキスト線３１２として選択されている。この特定なケースでは、テキスト線「ＲｕｓｓｉａｎＴｅａＲｏｏｍ」のその部分、及びオリジナル画像内での複数の窓により引き起こされた誤認識によるリンク３１４（図１４のリンク２８４）を除く他の全ての偽リンクが取り除かれている。

図１７には、エッジマップ３２０が示され、その中では、図１５のリンク２９８で行われるように、候補テキスト線が残っているテキスト文字の閉曲線を通って拡張される。例えば、アルゴリズムにより、候補テキスト線３１２（図１６）等のテキストの部分的な線だけを見つけることができる。したがって、２９８で、候補テキスト線３１２を両端から拡張する。この拡張は、閉曲線をリンクさせ、線を合わせる前述したのと同じ方法を適用して行われるが、緩和された閾値Ｔ_ｄ、Ｔ_ｈ、及びＴ_ｆが用いられる。図１６内の候補テキスト線３１２を拡張すると、図１７に示される結果が得られる。つまり、全テキスト線「ＲｕｓｓｉａｎＴｅａＲｏｏｍ」を得られる。この例では、説明するための誤認識のテキスト線３１４を未だに残している。

図１８には、オリジナル画像１５０が示され、その中では、閉曲線の候補テキスト文字列を囲んだ境界多角形３３０を黄色で示される。

図１９には、画像３４０の別の例が示され、その中では、複数の境界多角形３４０が計算されている。

図２０には、候補テキスト線を分類する方法が示され、この方法では、誤認警報の割合をさらに抑えるために、分類子を適用してテキスト領域を検出する。この方法は、コンピュータ５０により実行される。分類子のための特徴のセットを生成さする。３５０で、候補テキスト線内の全ての閉曲線に関する、分類されたアスペクト比の中央、上部及び下部の四分位点を生成する。３５２で、候補テキスト線内の全ての閉曲線に関する、分類された画素率（例えば、テキスト画素対背景画素の比率）の中央、上部及び下部の四分位点を生成する。３５４で、前面のガウス分布と背景のガウス分布との間のカルバック・ライブラー（ＫＬ）ダイバージェンスを生成する（例えば、ガウス分布は前面画素及び背景画素からそれぞれ推定される）。３５６で、上述の情報を用いて、候補テキスト線をテキスト又は非テキストに対して本物か誤認識か分類する。３５８で、特定されたテキスト線を出力する。

３５０で決定されたアスペクト比の特徴に関する発見的問題解決が図２１に示される。図２１では、画像３７０内の「ＡＶＶＩＬ」のテキスト文字は、適度なアスペクト比、及びその閉曲線全体で著しい変化を示す（例えば、「Ｉ」は、「Ａ」よりもかなり大きなアスペクト比を有する）。図２２では、縦型窓用ブラインドによる誤認識画像３８０により、閉曲線全体でほとんど変化しない、非常に大きなアスペクト比が示される。画素率に関する発見的問題解決も図２３に示される。本物のテキスト「ＡＶＶＩＬ」は、非常にコンパクトというわけではなく、ストローク間は多くの背景画素で満たされているが、図２３の画像３９０内の曲線は非常にコンパクトである。その結果、本物のテキストは変化のある中程度の画素率を有し、一方誤認識では一般にさらに大きな画素率を示す。最終的に、３５４で生成されたＫＬダイバージェンスにより背景モードとテキストモードとの間の対比が測定され、一般的には低い対比を示す構造によるいくつかの誤認警報を取り除くのに役立つ。

３５０、３５２、及び３５４で決定された特徴を３５６で分類子に供給し、この分類子が候補テキスト線を、テキストとして、又は非テキストとして分類する。これに関しては、あらゆる好適な分類子を用いることができる。ある例では、ロジスティック回帰分類子を用いる（米国特許出願第１３／３４９，７５１号明細書の領域分類でも用いられている）。別の例では、適用可能ロジスティック回帰分類子を用い、この適用可能ロジスティックは、回帰分類子「改良」型のロジスティック回帰と見なすことができる。

前述した方法、技術、手順等は、本明細書に記載されたコンピュータ５０、及び／又はそれに含まれ、関連して記載されたプロセッサ（図示せず）などのコンピュータ、プロセッサ等により実行されることを理解されたい。

好ましい実施形態を参照して、本発明の例示的な実施形態を説明してきた。前述の詳細な記述を読み理解することで、第三者により修正及び変更が行われることは明らかである。そのような全ての修正及び変更は、付随する請求項又は同等物の範囲に入る限りにおいて、本発明の例示的な実施形態に含まれると解釈されることを意図する。

Claims

自然風景の電子画像内のテキストを自動的に検出する、コンピュータで実行する方法であって、
分析のための電子画像を受信するステップと、
前記電子画像上でエッジ検出アルゴリズムを実行するステップと、
検出されたエッジに応じて、前記電子画像内の閉曲線を特定するステップと、
閉要素間のリンクを確立するステップと、
前記特定された閉曲線に応じて、候補テキスト線を特定するステップと、
候補テキスト線をテキスト領域として、又は非テキスト領域として分類するステップと、
確認された前記電子画像内のテキスト領域を、グラフィカル・ユーザ・インターフェース（ＧＵＩ）を介して出力するステップと、を含む方法。
自然風景の電子画像内のテキストの自動検出を容易にする、コンピュータ化したシステムであって、
コンピュータ実行可能命令を格納するメモリと、
前記命令を実行するよう設定されたプロセッサであって、前記命令により、
分析のための電子画像を受信し、
前記電子画像上でエッジ検出アルゴリズムを実行し、
検出されたエッジに応じて、前記電子画像内の閉曲線を特定し、
閉要素間のリンクを確立し、
前記特定された閉曲線に応じて、候補テキスト線を特定し、
候補テキスト線をテキスト領域として、又は非テキスト領域として分類する、プロセッサと、
前記電子画像内の確認されたテキスト領域が、それを介してユーザに表示されるグラフィカル・ユーザ・インターフェース（ＧＵＩ）と、を含むシステム。
前記電子画像内の閉曲線を特定するための前記命令が、
潜在的な閉曲線の開口先端を特定し、
閾値Ｔ_ｏｐｅｎより短い距離で隔てられた全ての２つ開口先端を接続させてエッジを形成し、
前記潜在的な閉曲線内に開口先端がなくなるまで、残っている全ての開口先端を浸食させ、
１つ以上の閉曲線を出力するための命令をさらに含む、請求項２に記載のシステム。
前記メモリが、コンピュータ実行可能命令を格納し、前記プロセッサが、前記コンピュータ実行可能命令を実行するよう設定され、前記命令により、
１つ以上の誤って接続された閉曲線を検出し、
前記１つ以上の誤って接続された閉曲線を切断する、請求項３に記載のシステム。
前記１つ以上の誤って接続された閉曲線を切断するための前記命令が、
連結成分アルゴリズムを実行して、閉要素に隣接するエッジ画素と、２つ背景画素領域を隔てるエッジ画素とを区別し、
２つ背景画素領域を隔て、且つ、閉要素に隣接しないエッジ画素を取り除くための命令をさらに含む請求項４に記載のシステム。
閉要素間のリンクを確立するための前記命令により、
２つ閉曲線の中央間の距離が第１の閾値Ｔ_ｄより短いかどうかを判定し、
前記２つの閉曲線間の前記高さの割合に第２の閾値を適用することと、
画素の色に制約を適用し、これにより、隣接する閉曲線の背景画素どうしが互いに類似し、且つ、テキスト画素どうしが互いに類似する、請求項２に記載のシステム。
前記メモリがコンピュータ実行可能命令を格納し、前記プロセッサが前記コンピュータ実行可能命令を実行するよう設定され、前記命令により、
各閉曲線のエッジ画素を拡張させ、
拡張した曲線で覆われた全ての画素の輝度−クロミナンス色空間のクロミナンスチャネル上で２つのモードを有する混合ガウス分布を推定し、
前記２つ文字に関して、背景モード間及びテキストモード間のカルバック・ライブラー・ダイバージェンスの平均を以下の式で計算し、
但し、Ｃ_１及びＣ_２は任意の２つ閉曲線／文字を表し、Ｇ_１，１，Ｇ_１，２及びＧ_２，１，Ｇ_２，２はこの２つ文字に関して、それぞれ推定される背景モード及びテキストモードであり、
前記距離Ｄが、閾値Ｔ_ｃより短い場合、前記２つ閉曲線間のリンクを維持する、請求項６に記載のシステム。
候補テキスト線を特定するための前記命令が、
検討するためのリンクを選択し、
前記リンクに接続した２つ閉曲線のそれぞれの中央を通して直線を合わせ、
第１の閉曲線に関して、これらの前記選択されたリンク以外の全ての関連するリンクを特定し、前記関連するリンクのうちの１つに付く第２の閉曲線を選択し、その他の閉曲線に対して前記第２の閉曲線は、合わせた線からの最も短い距離を有する中央を含み、前記合わせた直線までの前記距離も所定の閾値Ｔ_ｆより短い場合、前記第１の閉曲線の後に第２の閉曲線を加えて、閉曲線の配列を形成し、
新しく加えられた第２の閉曲線を含めることにより前記合わせた線を再度合わせ、
前記所定の閾値Ｔ_ｆより短い距離を有する中央を含む閉曲線が、全て前記候補テキスト線に加えられるまで前記処理ステップを繰り返すための命令をさらに含む、請求項２に記載のシステム。
前記メモリが、コンピュータ実行可能命令を格納し、前記プロセッサが、前記コンピュータ実行可能命令を実行するよう設定され、前記命令が、
前記最初に選択されたリンクからの前記２つ閉曲線が拡張された後、前記候補テキスト線内の閉曲線の総数を算出し、
少なくとも所定の数の閉曲線が候補テキスト線内に存在する場合、前記候補テキスト線がテキスト線であることを確認するための命令である、請求項８に記載のシステム。
候補テキスト線を、テキスト領域として又は非テキスト領域として分類するための前記命令が
前記候補テキスト線内の全ての閉曲線に関する格納されたアスペクト比の中間、上部、及び下部の四分位点を計算し、
前記候補テキスト線内の全ての閉曲線に関するテキスト対背景画素の比率の中間、上部、及び下部の四分位点を計算し、
前面画素のガウス分布と、背景画素のガウス分布との間のカルバック・ライブラー・ダイバージェンスを計算し、
前記カルバック・ライブラー・ダイバージェンスに応じて、前記候補テキスト線をテキスト領域又は非テキスト領域として分類し、
前記画像内の特定されたテキスト領域をユーザに出力するための命令をさらに含む、請求項２に記載のシステム。