JP6000899B2 - テキストを自動的に検出する方法 - Google Patents

テキストを自動的に検出する方法 Download PDF

Info

Publication number
JP6000899B2
JP6000899B2 JP2013111587A JP2013111587A JP6000899B2 JP 6000899 B2 JP6000899 B2 JP 6000899B2 JP 2013111587 A JP2013111587 A JP 2013111587A JP 2013111587 A JP2013111587 A JP 2013111587A JP 6000899 B2 JP6000899 B2 JP 6000899B2
Authority
JP
Japan
Prior art keywords
text
closed
closed curve
edge
curves
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013111587A
Other languages
English (en)
Other versions
JP2013257866A (ja
JP2013257866A5 (ja
Inventor
ラジャ・バーラ
ジガン・ファン
ヘンジョウ・ディン
ジャン・ピー・アレバック
チャールズ・エイ・バウマン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xerox Corp filed Critical Xerox Corp
Publication of JP2013257866A publication Critical patent/JP2013257866A/ja
Publication of JP2013257866A5 publication Critical patent/JP2013257866A5/ja
Application granted granted Critical
Publication of JP6000899B2 publication Critical patent/JP6000899B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/181Segmentation; Edge detection involving edge growing; involving edge linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/1801Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
    • G06V30/18076Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by analysing connectivity, e.g. edge linking, connected component analysis or slices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)

Description

本発明の例示的な実施形態は、一般に電子画像内でテキストを検出すること関する。しかし、本例示的実施形態は、その他の同様な目的に対しても適用可能であることは言うまでもない。
最近、文書に価値を付加する方法として画像のパーソナル化及びカスタマイズ化が注目されている。このことは、取引や販売促進のマーケティングの用途で特に言えるが、個人用のカレンダ、写真集、グリーティングカード等を作成する写真店等の画像集約市場でも同様に注目を集めている。画像をパーソナル化する1つの方法は、テキストが画像の自然な一部になるような効果を用いて、画像に個人用テキストメッセージを組み込む。現在、このように画像をパーソナル化する技術がいくつか存在し、例えば、XMPie、DirectSmile、及びAlphaPictures等のソフトウェア会社により供給されている。これらのアプリケーションでは、フォトリアリスティックな画像で、狙った効果をもたらすよう意図されている。それと同時に、これらの方法は面倒で複雑であり、高性能のデザインツールと、画像処理経験を有するデザイナーによる入力が必要となる。このような理由から、デザイナーを何人も雇い、顧客が使用するパーソナル化用のストックテンプレートのライブラリが作成されている。このような状況では、パーソナル化のために、顧客が用いることができる画像が限定されてしまう。
道路標識、看板広告又は垂れ幕等のテキストが既に存在する場所で画像内に個人用テキストを組み込むのが自然な選択である。画像内のテキストの自動検知は、非常に面白い技術あり、広く研究されている課題である。さらに、この課題は、どのように文書内のテキストを検出し認識するかという課題と、どのように自然風景の中でテキストを見つけるかという課題の2つに分類することができる。文書テキスト検出は、研究者によって研究され続けており、光学式文字認識(OCR)及びその他の文書認識技術への先駆けとなっている。しかし、文書に適用可能なテキスト検出技術は、実際の画像風景内でのテキストの発見に関してどうひいき目にみても不十分であり、大抵の場合は、全く役にたたない。というのもテキストは異なる姿を見せる可能性があり、その姿は、大きさ、位置、明暗の度合い、書体等の様々な要因により著しく変化する可能性がある。さらに、検出アルゴリズムは、テキストとその他の画像内の詳細部及び構造物とを混同する可能性がある。最先端の技術では、一般的に想定を設けてられており、したがって、その技術自体も全体の課題のうちの一部に制約される。例えば、ナンバープレートの認識では通常、位置、角度、距離等、見え方がほとんど変化しない管理された環境内でナンバープレートの画像を捕捉する。さらに、これらのアルゴリズムの多くは、コンピュータ的に負担が大きく、これにより、リアルタイム式、又は相互対話式の用途には不適当とされている。
したがって、画像のパーソナル化及びその他の用途で用いるために、電子画像内の自然風景の中のテキスト領域を自動的に検出することを容易にする、手軽で自動のシステム及び方法が必要となる。
本発明の実施形態の一様態では、自然風景の電子画像内のテキストを自動的に検出する、コンピュータで実行する方法が提案され、この方法は、分析のための電子画像を受信するステップと、その電子画像上でエッジ検出アルゴリズムを実行するステップと、検出されたエッジに応じて、電子画像内の閉曲線を特定するステップと、閉要素間のリンクを確立するステップとを含む。この方法は、特定された閉曲線に応じて、候補テキスト線を特定するステップと、候補テキスト線をテキスト領域として、又は非テキスト領域として分類するステップと、グラフィカル・ユーザ・インターフェース(GUI)を介して確認された電子画像内のテキスト領域を出力するステップとをさらに含む。
別の様態によると、自然風景の電子画像内のテキストの自動検出を容易にする、コンピュータ化されたシステムが提案され、このシステムは、コンピュータ実行可能命令を格納するメモリと、その命令を実行するよう設定されたプロセッサとを含み、この命令が、分析のための電子画像を受信することと、電子画像上でエッジ検出アルゴリズムを実行することと、検出されたエッジに応じて、電子画像内の閉曲線を特定することとを含む。このプロセッサは、閉要素間のリンクを確立することと、特定された閉曲線に応じて、候補テキスト線を特定することと、候補テキスト線をテキスト領域として、又は非テキスト領域として分類することとに関する格納命令を実行するようさらに設定される。このシステムは、グラフィカル・ユーザ・インターフェース(GUI)をさらに含み、このグラフィカルユーザインターフェース上で、確認された電子画像内のテキスト領域をユーザに表示する。
本明細書には、少なくとも1枚のカラーで描かれた図面が含まれる。カラー図面(複数可)を有する本明細のコピーは、手数料を支払い申請すれば米国特許商標局により発行される。
図1は、画像内のテキスト領域を自動的に検出する方法を示すフローチャートである。 図2は、閉曲線を特定する方法を示すフローチャートである。 図3は、入力画像の例を示す説明図である。 図4は、検出アルゴリズムにより生成されたエッジマップの説明図である。 図5は、本明細書で記載する閉曲線特定方法で生成した閉曲線を含む、精製されたエッジマップを含む説明図である。 図6は、後処理のステップで、1つの画素だけで隔てられた2つの開口先端が特定され、それらを接続させたときの処理前及び処理後の画像の説明図である。 図7は、後処理ステップで、エッジマップ内に残っている開口先端を全部なくなるまで繰り返し浸食させたときの処理前及び処理後の画像の説明図である。 図8は、2つの閉曲線が単一のエッジに互いに付いたときの「エラーモード」が検出された画像の例を示す説明図である。 図9は、本明細書で記載する技術で修正可能な問題を抱えたエッジセットの例を示す説明図である。 図10は、閉曲線を囲む全ての背景画素を薄い灰色でマークして現れたエッジセットを示す説明図である。 図11は、誤って接続させた曲線から、首尾よく文字「B」を分離させたエッジセットを示す説明図である。 図12は、追加した後処理のステップを適用後の、精製されたエッジマップを示す説明図である。 図13は、候補テキスト線を形成する方法を示すフローチャートである。 図14は、閉曲線間のリンクの確立に関する追加的な詳細を示す説明図である。 図15は、後述の3つの基準を満たす閉曲線がリンクされたエッジマップの説明図である。 図16は、確立されたリンクを含み、テキスト文字を通るリンクが候補テキスト線として選択されたエッジマップの説明図である。 図17は、残りのテキスト文字の閉曲線を通って候補テキスト線が拡張した、エッジマップを示す説明図である。 図18は、閉曲線の候補テキストの文字列を囲んだ境界多角形(bounding polygons)を黄色で示したオリジナル画像を示す説明図である。 図19は、複数の境界多角形が計算された別の画像の例を示す説明図である。 図20は、検出されたテキスト領域に分類子を適用して誤認警報の割合をさらに抑える、候補テキスト線を分類する方法を示す説明図である。 図21は、適度なアスペクト比、及びその閉曲線全体に渡る著しい変化を見せるテキスト文字の例を示す説明図である。 図22は、ほとんど変化しない、非常に大きなアスペクト比を閉曲線が見せる、画像内の縦型窓用ブラインド内で誤認識されたテキスト線を示す説明図である。 図23は、閉曲線が非常に大きな画素率、即ち、「コンパクト過ぎる」を有し、ほとんど変化を見せない誤認識されたテキスト線を示す説明図である。
本明細書に記載するシステム及び方法により、写真画像、デジタル画像、及び/又は電子画像等の自然風景内でテキストを見つける方法が提供される。記載される方法では、既知のエッジ検出技術、又はアルゴリズムから得られるエッジ情報(例えば、画像内の構造物又は物体のエッジ)が利用される。この方法では、ノイズが多少のレベルで発生したとしても、テキスト文字からのエッジが閉曲線を形成するとみなす。閉曲線のリンク、及び候補テキスト線の形成は、記載される方法の2つ追加的な特徴であり、本明細書でさらに詳細に記載する。最終的に、候補テキスト線の分類子と適用して、誤認識されるテキストが特定されることをさらに抑える。
本明細書に記載するシステム及び方法は、いくつかの分野で潜在的な用途を見出す。その一例が、個人用テキストメッセージを自然効果として、画像に組み込んだ画像のパーソナル化である。ユーザが個人用メッセージと入れ替えることができそうな既存テキストを含んだ画像内領域を特定するために本発明を使用することができる。本発明はまた、画像の「パーソナル化に対する適合性」(SFP)を評価する評価基準に関する高性能の処理ステップとしても使用することができる。簡単に要約すると、画像がテキストベースのパーソナル化に適しているかどうかを判定する際、既存のテキスト(例えば、看板、垂れ幕等)が存在している場所が一般に、個人用テキストメッセージを書き込むための自然な画像領域を提案するときに、重要な目安を提供する。したがって、自然風景の中に埋め込まれたテキストを正確かつ効率的に見つけ出す能力は、効果的なSFPの判定、及び画像のパーソナル化のために、及びデザイン支援として機能するために有益である。その他に、例えば、画像理解及び画像認識、セキュリティ、監視、ナンバープレート認識等の様々な用途が想定される。テキスト領域の検出は、記載される方法を用いる用途に依存する。例えば、画像のパーソナル化では、特定されたテキスト領域を、(ユーザに対して)見やすくマークアップ又は強調し、コンピュータ50上、又はコンピュータ50と関連するグラフィカル・ユーザ・インターフェース(GUI)を介してユーザに提示することができる。
コンピュータ50を本明細書に記載するシステム及び方法をサポートするために設定される、可能性のあるハードウェアの1つとして用いることができる。本明細書では、独立型のアーキテクチャを例示しているが、全ての好適なコンピュータ環境を本実施形態により使用可能であることは言うまでもない。例えば、独立型、マルチプロセッサ、分散型、クライアント/サーバ、ミニコンピュータ、メインフレーム、スーパーコンピュータ、デジタル及びアナログを含むコンピュータアーキテクチャを本実施形態により用いることができるがこれらには限定しない。
コンピュータ50は、プロセッシングユニット(図示せず)及びシステムメモリ(図示せず)を含み、このプロセッシングユニットは、本明細書に記載する種々の機能、手順、方法、プロトコル、技術等を実行するためのコンピュータ実行可能命令(例えば、モジュール、プログラム、ルーチン、アルゴリズム等)のセットを1つ以上実行し、システムメモリは、そのコンピュータ実行可能命令を格納する。コンピュータは、システムバス(図示せず)さらに含むことができ、このシステムバスは、システムメモリからプロセッシングユニットまでを含む種々のシステムコンポーネント間を接続する。プロセッシングユニットは、様々な市販プロセッサのうち任意のものでよい。デュアルマイクロプロセッサ及びその他のマルチプロセッサアーキテクチャもプロセッシングユニットとして使用可能である。
本明細書で使用される「アルゴリズム」又は「モジュール」とは、コンピュータ実行可能命令のセットのことを指し、これらは、コンピュータ可読媒体(例えば、メモリ、ハードドライブ、ディスク、フラッシュドライブ、又はその他の全ての好適な記憶媒体)上に永続的に格納される。さらに、本明細書に記載する方法のステップは、ユーザにより特別なことが行われない限り、コンピュータ及び/又はプロセッサによりを実行される。
コンピュータ50は一般に、少なくともいくらかのコンピュータ可読媒体の形態を含む。コンピュータ可読媒体は、コンピュータがアクセス可能な全ての利用可能媒体でよい。例として、コンピュータ可読媒体には、コンピュータ格納媒体及び通信媒体が含まれ得るが、これらに限定はしない。コンピュータ記憶媒体には、揮発性媒体及び不揮発性媒体、取り外し可能媒体、及び非取り外し可能媒体が含まれ、これらは、コンピュータ可読命令、データ構造、プログラムモジュール又はその他のデータ等の情報を格納するための全ての方法又は技術により実行される。
通信媒体は一般に、搬送波又はその他の搬送機構等の、変調データ信号内でコンピュータ可読命令、データ構造、プログラムモジュール又はその他のデータを具体化し、また通信媒体には、全ての情報配信媒体が含まれる。用語「変調データ信号」とは、その信号内の情報をコード化するように、その特徴のうちの1つ以上を設定、又は変更した信号を意味する。例として、通信媒体には、有線ネットワーク又は直接有線接続等の有線媒体、及び音響、RF、赤外線、並びにその他の無線媒体等の無線媒体が含まれるが、これらには限定しない。上記の全ての組み合わせも、コンピュータ可読媒体の範囲に含むことができる。
ユーザは、キーボード(図示せず)、ポインティングディバイス(図示せず)、マウス、サムパッド、音声入力、スタイラスペン、タッチスクリーン等を用いて、命令及び情報をコンピュータに入力することができる。コンピュータ50は、遠隔コンピュータ(複数可)等の1つ以上の遠隔コンピュータと論理的接続、及び/又は物理的接続したネットワーク環境で動作可能である。図示する論理的接続にはローカルエリアネットワーク(LAN)、及びワイドエリアネットワーク(WAN)が含まれる。企業内コンピュータネットワーク、つまりイントラネット、及びインターネットのようなネットワーク環境はオフィス内では一般的である。
図1には、画像内のテキスト領域を自動的に検出する方法が示される。この方法は、コンピュータ50により実行される。102で、電子画像(例えば、走査された写真、デジタル画像、又はその他の好適な電子画像)を受信する。104で、検出画像内でエッジを検出する。ある例では、キャニーエッジ検出アルゴリズムを実行して、又は行って画像内のエッジを検出しているが、本明細書に記載する方法及びシステムと連動して、全ての好適なエッジ検出アルゴリズム、又は技術を適用することも可能であることは言うまでもない。106で、検出したエッジを用いて閉曲線を特定する。108で、特定された閉曲線から候補テキスト線を形成する。110で、候補テキスト線をテキスト領域、又は非テキスト領域として分類する。
図2には、閉曲線を特定する方法が図1の106の関連として詳細に示される。この方法は、コンピュータ50により実行される。122で、閾値Topenより短い距離で隔てられた閉曲線の開口先端を接続してエッジを形成する。124で、残っている開口先端を(例えば、既知の形態学的侵食技術等を用いて)繰り返し浸食させる。125で、接続したエッジ要素を閉曲線の候補として特定する。126で、単一のエッジに2つの閉曲線が互いに付く場合に、誤って付いている状態が発生したかどうか対する判定を行う。発生している場合、128で、そのような誤って接続された要素を分離させる。誤って接続された要素を分離させた後、又は126で、誤認識された状態が存在しないと判定された場合、次いで130で、特定した閉曲線をテキスト文字の候補として出力する。
引き続いて図1及び図2、並びにそれらに関連して記載した方法を参照して、図3〜図8、及びそれに関連して記載した1つ以上の又は動作の例を説明するが、それらのステップ又は動作は、図1及び図2の方法に関連して実行される。
図3には、画像150の一例が示され、図1の方法を用いて、この画像に対して画像内のテキストの線を特定する。
図4には、エッジマップ160が示され、このエッジマップは、104でエッジ検出アルゴリズム(例えば、キャニーアルゴリズム等)を適用することにより作成される。その目的はテキスト「Russian Tea Room」を検出することである。しかし、画像内のその他の詳細部及び構造物で込み入ったエッジマップ160内にテキストが紛れてしまうため、テキストの検出は困難である。しかし、テキスト文字からのエッジ曲線は、高い確率で、自己閉鎖していることに注目する。言い換えれば、テキスト文字に関する曲線は閉じているが、構造物からのエッジは一般に、障害物、低いコントラスト等の様々な理由により分離している。したがって、後処理のステップを2つ適用することで、過度のエッジ詳細部を取り除き、閉曲線162をそのまま維持する。その結果を図5の精製済みエッジマップ170内に示す。
図6及び図7には、前述した2つ後処理ステップが示される。アルゴリズムは検索して閉曲線を検出するため、まず閉曲線の開口先端が検索される。開口先端の例を緑の画素として図6及び図7内に示す。図6に示す通り、「処理前」の画像180内で、1組の開口先端182が特定される。第1の後処理122(図2)では、1画素だけで隔てられた2つ開口先端182を全て接続しようと試みる。このステップの狙いは、ノイズが存在するために発生するテキスト文字のエッジ曲線内の小さな隙間を閉じることである。図6では、文字「I」に関する曲線が首尾よく閉じられて「処理後」の画像190が生成され、この画像190内では、開口先端182が閉じられてエッジ192が形成されている。
図7には、処理前の画像200及び処理後の画像210が示される。第2の後処理ステップ(図2の124)により、エッジマップ内に開口先端がなくなるまで、残っている開口先端182を繰り返し浸食し続ける。処理後の画像210内の男性の顔の上のエッジのほとんどが浸食後に取り除かれている。
図5に戻ると、ステップ開口先端を接続するステップ(122)、及び浸食ステップ(124)が完了後、精製されたエッジマップ(例えば、図5を参照)を出力する。但し、精製されたエッジマップ内の非テキストのエッジのほとんどが取り除かれている。接続された要素の分析も図5のエッジマップ上で実行され、色分けを用いてそれぞれの接続された閉曲線の要素を示される。
図8には、画像220の例が示され、この画像220内では、2つの閉曲線が互い単一のエッジに付いているため「エラーモード」(例えば、間違った閉曲線)が検出されている。図8に示す通り、122及び124の後でも、単語「NOBODY」内の文字「B」が、この画像内のいくらかの別の詳細部に付いたままであり、単語「GETS」内の文字「S」及び単語「HURT」内の文字「H」も相互に付いている。図8には、開口先端は残っていないが、誤認識された閉要素が検出されている。追加の後処理126及び128(図2)を設けてこの問題に取り組む。つまり、誤って接続された閉曲線が存在することが126の判定により示された場合、128で、アルゴリズムが誤って接続された閉曲線を分離しようと試みる。
図9には、一例として問題を抱えるエッジセット230が示される。間違って接続された閉曲線232からのエッジ画素を白で示し、その他のエッジ画素を灰色で示す。128(図2)でアルゴリズムを実行するとき、境界ボックスの境界を分析し、全ての背景画素を、接続要素を分析することよりマークして目立たせる。
図10には、閉曲線232を囲む全ての背景画素を、薄い灰色でマークして現れたエッジセット240が示される。図10で見られるように、閉曲線232のエッジ画素と、閉曲線とリンクするエッジ画素との間には差が存在する。閉曲線のエッジ画素は、閉曲線232の内側の画素(黒)から背景画素(薄い灰色)を分離させ、その一方で、閉曲線とリンクするエッジ画素242は、背景画素の2つ部分を単に分けている。アルゴリズムは、この観察に基づいて、首尾よく閉曲線をリンクするエッジ画素を取り除くことができ、128(図2)で閉曲線を分離させることができる。
図11には、エッジセット250が示され、その中では、文字「B」が首尾よく分離されている。但し、文字「B」閉曲線232の内側には、隔離された円が2つ存在し、それらも当然文字「B」に属する。最後のステップで、これらの円も文字「B」の曲線と組み合わされる。
図12には、追加の後処理ステップ126〜128(図2)を適用後の、精製されたエッジマップ260が示される。この図12では、各閉曲線がテキスト文字候補として見なされ、図2の方法の130で行われるように、見やすくするために異なる色で色分けされる。
図13には、候補テキスト線を形成する方法が示され、この方法は、例えば、図1の方法の108で実行される。この方法は、コンピュータ50により実行される。270で、閉曲線間のリンクを確立する。同一線上のリンクを抽出し、それらのリンクは高い確率でテキスト線に属する。そのような線を見つけるために、トータル最小2乗法を用いて直線を繰り返し合わせ、閉曲線の中央からその線までの距離に対して閾値を適用することに基づく、しらみつぶし探索法で検討する。したがって、272で、検討するためのリンクが選択され、閉曲線に関連する2つの中央を通して直線を合わせる。続くステップで、両方の曲線からリンクを次々に拡張させる。272で、選択された現在の閉曲線に対して、274で、選択されたリンク以外の全ての関連リンクを特定する。関連するリンクのうちの1つに付いた対応曲線が選択され、その曲線の中央は前回に合わせた線から最も短い距離を有する。同様にその距離が所定の閾値Tよりも短い場合、この閉曲線を現在の曲線の後に加えて、閉曲線の配列を形成する。前に合わせた線も、新しく加えられた曲線を求めることにより再度合わされる。さらに、新しく加えられた閉曲線が現在の曲線となり、計算される距離が所定の閾値より長くなるまでこのステップが繰り返される。
276で、最初に選択されたリンクから両方の閉曲線を拡張した後、配列内の曲線の総数を算出する。所定の数(例えば、4)以上の曲線が存在する場合、その配列を候補テキスト線として特定する。次いでこの配列内の全ての閉曲線、及びこれらの閉曲線に関する全てのリンクを取り除く。278で、全てのリンクが処理されるまで、この方法(例えば、272、274、及び276)を繰り返して、その他のリンクを考察する。279で、必要に応じて候補テキスト線を拡張する。
図14及び図15には、閉曲線間のリンクを確立するステップに関する追加の詳細が示され、この詳細は、例えば、図2の方法の132で行われる。図14に関連して、2つ閉曲線がエッジマップ280の一部でリンクされ得る前に、3つの基準を評価する。第1に、2つ閉曲線の中央間の距離が閾値Tより短いかどうかに関する判定を行う。図14には、この閾値をどのように算出するかが示される。2つ「O」の文字を考察すると、文字ごとの幅と高さは、それぞれw,h及びw,hとなる。次いで、以下の式で閾値を算出する。
但し、m′は正の増倍係数である(例えば、0.5又はその他のいくらかの所定の係数)。図14で見られる通り、閾値の式の中の第2の項1/2(h+h)m′により、2つ文字の間の隙間が決定され、この隙間の閾値を平均の高さの倍数になるよう設定する。
第2に、2つ文字間の高さの割合に閾値を適用する(例えば、0.6又はその他のいくらかの所定の閾値)。第2の基準を以下の式で算出する。
この第2の基準は、2つ文字の高さが比較可能である必要があることを表す。
最終的に、隣接する閉曲線の背景画素や文字が統計的な意味で類似し、テキスト画素も同様であるという前提に基づいて、色に関する制約を設ける。最初に、エッジ画素を閉曲線ごとに拡張する。次いで、拡張した曲線で覆われた全ての画素の輝度−クロミナンス色空間のクロミナンスチャネル上で、2つモードを有する混合ガウス分布を推定する。例えば、CIELAB空間のa*チャネルとb*チャネルを用いることができる。次に、背景モード間、及び2つ文字に関するテキストモード間のカルバック・ライブラー・ダイバージェンスの平均を以下の式で計算する。

但し、C及びCは任意の2つ閉曲線/文字を表し、G1,1,G1,2及びG2,1,G2,2はこの2つ文字に関して、それぞれ推定される背景モード及びテキストモードである。試行錯誤に基づいて距離が、2と選択された閾値Tより短い場合、2つ文字間のリンクを維持する。
図15には、前述の3つの基準を満たす閉曲線がリンクされたエッジマップ290が示される。リンク292は黄色で示されている。具体的には、リンクは閉曲線の中央間で黄色の実線で示されている。
図16には、図14で確立されたリンクを有するエッジマップ310が示され、この中では、テキスト文字を通るリンク(図14内の282)が候補テキスト線312として選択されている。この特定なケースでは、テキスト線「Russian Tea Room」のその部分、及びオリジナル画像内での複数の窓により引き起こされた誤認識によるリンク314(図14のリンク284)を除く他の全ての偽リンクが取り除かれている。
図17には、エッジマップ320が示され、その中では、図15のリンク298で行われるように、候補テキスト線が残っているテキスト文字の閉曲線を通って拡張される。例えば、アルゴリズムにより、候補テキスト線312(図16)等のテキストの部分的な線だけを見つけることができる。したがって、298で、候補テキスト線312を両端から拡張する。この拡張は、閉曲線をリンクさせ、線を合わせる前述したのと同じ方法を適用して行われるが、緩和された閾値T、T、及びTが用いられる。図16内の候補テキスト線312を拡張すると、図17に示される結果が得られる。つまり、全テキスト線「Russian Tea Room」を得られる。この例では、説明するための誤認識のテキスト線314を未だに残している。
図18には、オリジナル画像150が示され、その中では、閉曲線の候補テキスト文字列を囲んだ境界多角形330を黄色で示される。
図19には、画像340の別の例が示され、その中では、複数の境界多角形340が計算されている。
図20には、候補テキスト線を分類する方法が示され、この方法では、誤認警報の割合をさらに抑えるために、分類子を適用してテキスト領域を検出する。この方法は、コンピュータ50により実行される。分類子のための特徴のセットを生成さする。350で、候補テキスト線内の全ての閉曲線に関する、分類されたアスペクト比の中央、上部及び下部の四分位点を生成する。352で、候補テキスト線内の全ての閉曲線に関する、分類された画素率(例えば、テキスト画素対背景画素の比率)の中央、上部及び下部の四分位点を生成する。354で、前面のガウス分布と背景のガウス分布との間のカルバック・ライブラー(KL)ダイバージェンスを生成する(例えば、ガウス分布は前面画素及び背景画素からそれぞれ推定される)。356で、上述の情報を用いて、候補テキスト線をテキスト又は非テキストに対して本物か誤認識か分類する。358で、特定されたテキスト線を出力する。
350で決定されたアスペクト比の特徴に関する発見的問題解決が図21に示される。図21では、画像370内の「AVVIL」のテキスト文字は、適度なアスペクト比、及びその閉曲線全体で著しい変化を示す(例えば、「I」は、「A」よりもかなり大きなアスペクト比を有する)。図22では、縦型窓用ブラインドによる誤認識画像380により、閉曲線全体でほとんど変化しない、非常に大きなアスペクト比が示される。画素率に関する発見的問題解決も図23に示される。本物のテキスト「AVVIL」は、非常にコンパクトというわけではなく、ストローク間は多くの背景画素で満たされているが、図23の画像390内の曲線は非常にコンパクトである。その結果、本物のテキストは変化のある中程度の画素率を有し、一方誤認識では一般にさらに大きな画素率を示す。最終的に、354で生成されたKLダイバージェンスにより背景モードとテキストモードとの間の対比が測定され、一般的には低い対比を示す構造によるいくつかの誤認警報を取り除くのに役立つ。
350、352、及び354で決定された特徴を356で分類子に供給し、この分類子が候補テキスト線を、テキストとして、又は非テキストとして分類する。これに関しては、あらゆる好適な分類子を用いることができる。ある例では、ロジスティック回帰分類子を用いる(米国特許出願第13/349,751号明細書の領域分類でも用いられている)。別の例では、適用可能ロジスティック回帰分類子を用い、この適用可能ロジスティックは、回帰分類子「改良」型のロジスティック回帰と見なすことができる。
前述した方法、技術、手順等は、本明細書に記載されたコンピュータ50、及び/又はそれに含まれ、関連して記載されたプロセッサ(図示せず)などのコンピュータ、プロセッサ等により実行されることを理解されたい。
好ましい実施形態を参照して、本発明の例示的な実施形態を説明してきた。前述の詳細な記述を読み理解することで、第三者により修正及び変更が行われることは明らかである。そのような全ての修正及び変更は、付随する請求項又は同等物の範囲に入る限りにおいて、本発明の例示的な実施形態に含まれると解釈されることを意図する。

Claims (5)

  1. 自然風景の電子画像内のテキストを自動的に検出する、コンピュータで実行する方法であって、
    分析のための電子画像を受信するステップと、
    前記電子画像でエッジ検出アルゴリズムを実行するステップと、
    検出されたエッジに応じて、前記電子画像内の閉曲線を特定するステップと、
    閉要素間のリンクを確立するステップと、
    前記特定された閉曲線に応じて、候補テキスト線を特定するステップと、
    前記候補テキスト線を、テキスト領域又は非テキスト領域として分類するステップと、
    前記電子画像内の前記テキスト領域を、グラフィカル・ユーザ・インターフェースを介してユーザに出力するステップと、
    を含み、
    前記候補テキスト線を特定するステップは、
    検討するためのリンクを選択する第1のステップと、
    前記リンクにより接続された第1の閉曲線及び第2の閉曲線のそれぞれの中央を接続する直線を合わせる第2のステップと、
    前記第1の閉曲線及び前記第2の閉曲線の各々に関して、前記選択されたリンク以外の全ての関連するリンクを特定し、前記関連するリンクのうちの1つに付く第3の閉曲線を選択する第3のステップと、
    前記第3の閉曲線を含めることにより、前記第1の閉曲線、前記第2の閉曲線、及び前記第3の閉曲線を接続する前記合わせた線を再度合わせる第4のステップと、
    所定の閾値Tより短い距離を有する中央を含む閉曲線が、全て前記候補テキスト線に加えられるまで前記第1のステップ〜前記第4のステップを繰り返す第5のステップと、
    を更に含む、
    テキストを自動的に検出する方法。
  2. 前記閉曲線を特定するステップは、
    潜在的な閉曲線の開口先端を特定するステップと、
    閾値Topenより短い距離で隔てられた全ての2つの開口先端を接続させてエッジを形成するステップと、
    前記潜在的な閉曲線内に開口先端がなくなるまで、残っている全ての開口先端を浸食させるステップと、
    1つ以上の閉曲線を出力するステップと、
    を更に含む、請求項1に記載のテキストを自動的に検出する方法。
  3. 1つ以上の誤って接続された閉曲線を検出するステップと、
    前記1つ以上の誤って接続された閉曲線を切断するステップと、
    を更に含む、請求項2に記載のテキストを自動的に検出する方法。
  4. 前記閉曲線を切断するステップは、
    連結成分アルゴリズムを実行して、閉要素に隣接するエッジ画素と、2つの背景画素領域を隔てるエッジ画素とを区別するステップと、
    前記2つの背景画素領域を隔て且つ前記閉要素に隣接しないエッジ画素を取り除くステップと、
    を更に含む、請求項3に記載のテキストを自動的に検出する方法。
  5. 前記閉要素間のリンクを確立するステップは、
    2つの閉曲線の中央間の距離が第1の閾値Tより短いかどうかを判定するステップと、
    前記2つの閉曲線間の高さの割合に第2の閾値を適用するステップと、
    画素の色に制約を適用し、これにより、隣接する閉曲線の背景画素どうしが互いに類似し、且つ、テキスト画素どうしが互いに類似するステップと、
    を更に含む、請求項1に記載のテキストを自動的に検出する方法。
JP2013111587A 2012-06-12 2013-05-28 テキストを自動的に検出する方法 Expired - Fee Related JP6000899B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US13/494,173 US8837830B2 (en) 2012-06-12 2012-06-12 Finding text in natural scenes
US13/494,173 2012-06-12

Publications (3)

Publication Number Publication Date
JP2013257866A JP2013257866A (ja) 2013-12-26
JP2013257866A5 JP2013257866A5 (ja) 2016-07-07
JP6000899B2 true JP6000899B2 (ja) 2016-10-05

Family

ID=49626053

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013111587A Expired - Fee Related JP6000899B2 (ja) 2012-06-12 2013-05-28 テキストを自動的に検出する方法

Country Status (3)

Country Link
US (1) US8837830B2 (ja)
JP (1) JP6000899B2 (ja)
DE (1) DE102013210375A1 (ja)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104794479B (zh) * 2014-01-20 2018-06-29 北京大学 基于局部笔画宽度变换的自然场景图片中文本检测方法
US9754171B1 (en) 2014-06-27 2017-09-05 Blinker, Inc. Method and apparatus for receiving vehicle information from an image and posting the vehicle information to a website
US9558419B1 (en) 2014-06-27 2017-01-31 Blinker, Inc. Method and apparatus for receiving a location of a vehicle service center from an image
US10733471B1 (en) 2014-06-27 2020-08-04 Blinker, Inc. Method and apparatus for receiving recall information from an image
US9779318B1 (en) 2014-06-27 2017-10-03 Blinker, Inc. Method and apparatus for verifying vehicle ownership from an image
US10540564B2 (en) 2014-06-27 2020-01-21 Blinker, Inc. Method and apparatus for identifying vehicle information from an image
US9563814B1 (en) 2014-06-27 2017-02-07 Blinker, Inc. Method and apparatus for recovering a vehicle identification number from an image
US9600733B1 (en) 2014-06-27 2017-03-21 Blinker, Inc. Method and apparatus for receiving car parts data from an image
US9607236B1 (en) 2014-06-27 2017-03-28 Blinker, Inc. Method and apparatus for providing loan verification from an image
US9594971B1 (en) 2014-06-27 2017-03-14 Blinker, Inc. Method and apparatus for receiving listings of similar vehicles from an image
US10579892B1 (en) 2014-06-27 2020-03-03 Blinker, Inc. Method and apparatus for recovering license plate information from an image
US9892337B1 (en) 2014-06-27 2018-02-13 Blinker, Inc. Method and apparatus for receiving a refinancing offer from an image
US9589202B1 (en) 2014-06-27 2017-03-07 Blinker, Inc. Method and apparatus for receiving an insurance quote from an image
US10572758B1 (en) 2014-06-27 2020-02-25 Blinker, Inc. Method and apparatus for receiving a financing offer from an image
US10867327B1 (en) 2014-06-27 2020-12-15 Blinker, Inc. System and method for electronic processing of vehicle transactions based on image detection of vehicle license plate
US9773184B1 (en) 2014-06-27 2017-09-26 Blinker, Inc. Method and apparatus for receiving a broadcast radio service offer from an image
US9818154B1 (en) 2014-06-27 2017-11-14 Blinker, Inc. System and method for electronic processing of vehicle transactions based on image detection of vehicle license plate
US9760776B1 (en) 2014-06-27 2017-09-12 Blinker, Inc. Method and apparatus for obtaining a vehicle history report from an image
US9589201B1 (en) 2014-06-27 2017-03-07 Blinker, Inc. Method and apparatus for recovering a vehicle value from an image
US10515285B2 (en) 2014-06-27 2019-12-24 Blinker, Inc. Method and apparatus for blocking information from an image
US9811754B2 (en) * 2014-12-10 2017-11-07 Ricoh Co., Ltd. Realogram scene analysis of images: shelf and label finding
CN106156766B (zh) * 2015-03-25 2020-02-18 阿里巴巴集团控股有限公司 文本行分类器的生成方法及装置
US9464914B1 (en) 2015-09-01 2016-10-11 International Business Machines Corporation Landmark navigation
CN108242059B (zh) * 2016-12-26 2021-03-12 深圳怡化电脑股份有限公司 图像边界查找方法和装置
US10685225B2 (en) 2017-12-29 2020-06-16 Wipro Limited Method and system for detecting text in digital engineering drawings
EP3738098A4 (en) * 2018-08-21 2021-05-12 Huawei Technologies Co., Ltd. INPAINTING BASED ON BINARIZATION AND STANDARDIZATION TO REMOVE TEXT
CN109344824B (zh) * 2018-09-21 2022-06-10 泰康保险集团股份有限公司 一种文本行区域检测方法、装置、介质和电子设备
CN111914830A (zh) * 2019-05-07 2020-11-10 阿里巴巴集团控股有限公司 一种图像中的文本行定位方法、装置、设备及系统
CN111027560B (zh) * 2019-11-07 2023-09-29 浙江大华技术股份有限公司 文本检测方法以及相关装置
US11721119B2 (en) * 2020-12-18 2023-08-08 Konica Minolta Business Solutions U.S.A., Inc. Finding natural images in document pages
CN113516114B (zh) * 2021-05-19 2023-09-29 西安建筑科技大学 一种自然场景文本检测方法、设备和介质
US20230409469A1 (en) * 2022-06-17 2023-12-21 Verizon Patent And Licensing Inc. System and method for user interface testing

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4791675A (en) * 1985-12-31 1988-12-13 Schlumberger Systems And Services, Inc. VSP Connectivity pattern recognition system
EP0385009A1 (en) * 1989-03-03 1990-09-05 Hewlett-Packard Limited Apparatus and method for use in image processing
US5350303A (en) * 1991-10-24 1994-09-27 At&T Bell Laboratories Method for accessing information in a computer
JP3278471B2 (ja) * 1991-11-29 2002-04-30 株式会社リコー 領域分割方法
JPH0728951A (ja) * 1993-07-13 1995-01-31 Ricoh Co Ltd オンライン文字図形認識装置
JPH10261047A (ja) * 1997-03-19 1998-09-29 Fujitsu Ltd 文字認識装置
US6233364B1 (en) * 1998-09-18 2001-05-15 Dainippon Screen Engineering Of America Incorporated Method and system for detecting and tagging dust and scratches in a digital image
JP3913985B2 (ja) * 1999-04-14 2007-05-09 富士通株式会社 文書画像中の基本成分に基づく文字列抽出装置および方法
JP2000298725A (ja) * 1999-04-15 2000-10-24 Nec Corp テキストデータ検出装置およびその方法
US6909805B2 (en) * 2001-01-31 2005-06-21 Matsushita Electric Industrial Co., Ltd. Detecting and utilizing add-on information from a scanned document image
US20030095113A1 (en) * 2001-11-21 2003-05-22 Yue Ma Index and retrieval system and method for scanned notes from whiteboard
US20030198386A1 (en) * 2002-04-19 2003-10-23 Huitao Luo System and method for identifying and extracting character strings from captured image data
JP4583218B2 (ja) * 2004-07-05 2010-11-17 インターナショナル・ビジネス・マシーンズ・コーポレーション 対象コンテンツを評価する方法、コンピュータ・プログラム、システム
WO2007028166A2 (en) * 2005-09-02 2007-03-08 Blindsight, Inc. A system and method for detecting text in real-world color images
US8031940B2 (en) * 2006-06-29 2011-10-04 Google Inc. Recognizing text in images using ranging data
US8155437B2 (en) * 2007-09-07 2012-04-10 CVISION Technologies, Inc. Perceptually lossless color compression
CN101436248B (zh) * 2007-11-14 2012-10-24 佳能株式会社 用于根据图像生成文本字符串的方法和设备
US8098891B2 (en) * 2007-11-29 2012-01-17 Nec Laboratories America, Inc. Efficient multi-hypothesis multi-human 3D tracking in crowded scenes
CN101470806B (zh) * 2007-12-27 2012-06-27 东软集团股份有限公司 车灯检测方法和装置、感兴趣区域分割方法和装置
US8917935B2 (en) * 2008-05-19 2014-12-23 Microsoft Corporation Detecting text using stroke width based text detection
US8351691B2 (en) * 2008-12-18 2013-01-08 Canon Kabushiki Kaisha Object extraction in colour compound documents
AU2009201252B2 (en) * 2009-03-31 2011-06-02 Canon Kabushiki Kaisha Colour correcting foreground colours for visual quality improvement
US8244070B2 (en) * 2009-06-01 2012-08-14 Xerox Corporation Real-time image personalization
US8175617B2 (en) * 2009-10-28 2012-05-08 Digimarc Corporation Sensor-based mobile search, related methods and systems
US8233668B2 (en) * 2010-08-09 2012-07-31 John Bean Technologies Corporation Distinguishing abutting food product
US20120045132A1 (en) * 2010-08-23 2012-02-23 Sony Corporation Method and apparatus for localizing an object within an image
US8610712B2 (en) * 2011-03-01 2013-12-17 Adobe Systems Incorporated Object selection in stereo image pairs

Also Published As

Publication number Publication date
JP2013257866A (ja) 2013-12-26
US20130330004A1 (en) 2013-12-12
US8837830B2 (en) 2014-09-16
DE102013210375A1 (de) 2013-12-12

Similar Documents

Publication Publication Date Title
JP6000899B2 (ja) テキストを自動的に検出する方法
US10872239B2 (en) Entrance detection from street-level imagery
US11302109B2 (en) Range and/or polarity-based thresholding for improved data extraction
AU2020319589B2 (en) Region proposal networks for automated bounding box detection and text segmentation
CN109196514B (zh) 图像分类和标记
US7236632B2 (en) Automated techniques for comparing contents of images
CN104298982B (zh) 一种文字识别方法及装置
US20150161465A1 (en) Text recognition for textually sparse images
CA3129608C (en) Region proposal networks for automated bounding box detection and text segmentation
CN104182722B (zh) 文本检测方法和装置以及文本信息提取方法和系统
JP6882362B2 (ja) 身元確認書類を含む画像を識別するシステムおよび方法
JP2009169518A (ja) 領域識別装置およびコンテンツ識別装置
JP5679229B2 (ja) 画像処理装置、画像処理方法、及びプログラム
US20200089817A1 (en) Composition Engine for Analytical Models
KR20230030907A (ko) 가짜 영상 탐지 방법 및 이를 수행하기 위한 장치
Viitaniemi et al. Detecting hand-head occlusions in sign language video
JP2016151978A (ja) 画像処理装置及び画像処理プログラム
Lakshminarasimha et al. Data augmentation based face anti-spoofing (FAS) scheme using deep learning techniques
Antunes OMECO: Generating personalized business card designs from images
Nasim et al. Dark Channel Prior (DCP) based Bangla car plate detection and recognition in foggy weather
Kang et al. Head pose estimation using random forest and texture analysis
Patel et al. Emotions reflecting chat application
Malhotra et al. Automated Puzzle Solver Using Image Processing
CN112270377A (zh) 目标图像提取方法、神经网络训练方法和装置
Rajalingam Text Segmentation and Recognition for Enhanced Image Spam Detection

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160524

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160524

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20160524

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20160817

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160818

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160823

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160831

R150 Certificate of patent or registration of utility model

Ref document number: 6000899

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees