JP2014525626A - 画像領域を使用するテキスト検出 - Google Patents

画像領域を使用するテキスト検出 Download PDF

Info

Publication number
JP2014525626A
JP2014525626A JP2014528402A JP2014528402A JP2014525626A JP 2014525626 A JP2014525626 A JP 2014525626A JP 2014528402 A JP2014528402 A JP 2014528402A JP 2014528402 A JP2014528402 A JP 2014528402A JP 2014525626 A JP2014525626 A JP 2014525626A
Authority
JP
Japan
Prior art keywords
image
text
geometric
blob
projection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014528402A
Other languages
English (en)
Other versions
JP5837205B2 (ja
Inventor
コー、ヒュン―イル
ユ、キスン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2014525626A publication Critical patent/JP2014525626A/ja
Application granted granted Critical
Publication of JP5837205B2 publication Critical patent/JP5837205B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/1475Inclination or skew detection or correction of characters or of image to be recognised
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Geometry (AREA)
  • Character Input (AREA)
  • Image Analysis (AREA)

Abstract

方法は、画像データで識別された画像領域のセットの指示を受信することを含む。その方法は、画像領域の安定性に少なくとも部分的に基づいて、テキスト抽出のために画像領域のセットから画像領域を選択することをさらに含む。

Description

本開示は、概して画像処理に関する。
関連出願の説明
技術における進歩は、より小型で、より強力な計算機器をもたらした。例えば、小型で、軽く、かつユーザによって容易に持ち運ばれる携帯用ワイヤレス電話、携帯情報端末(PDA)、およびページング機器のような、ワイヤレス計算機器を含む様々な携帯用パーソナル計算機器が現在存在している。より具体的には、セルラ電話およびインターネットプロトコル(IP)電話のような携帯用ワイヤレス電話は、ワイヤレスネットワーク上で音声およびデータパケットを通信することができる。さらに、多くのこのようなワイヤレス電話は、その中に組み込まれるその他のタイプの機器を含む。例えば、ワイヤレス電話は、デジタルスチルカメラ、デジタルビデオカメラ、デジタルレコーダ、およびオーディオファイルプレーヤも含むことができる。
テキスト検出は、機器のカメラによって捕捉された画像におけるテキストを識別するために計算デバイスによって行われうる。従来のテキスト検出は、画像におけるテキストの色が画像の背景色と異なることを、明示的にまたは暗黙的に要求しうる。そのような従来のテキスト検出は、画像の背景と実質的に同じ色を有するテキストを確実に検出することができないことがある。代わりに、色のセグメント化の方法が、テキスト検出のために使用されることができる。色のセグメント化は、画像の背景と実質的に同じ色を有するテキストのテキスト検出を可能にしうる。しかしながら、色のセグメント化は、パーソナルコンピュータを基準とした実施を計算的に要望する傾向にあり、ワイヤレス電話のような携帯用電子機器には適していないことがある。
2値化プロセスが入力画像の非テキスト部分と入力画像の検出されたテキスト部分を対比させる2値画像を生成するように行われた後、投影プロファイル分析は、テキストラインの歪み(例えば、テキストラインが水平から外れているアングル)を推定するために、および/またはテキストの傾き(例えば、イタリックテキストのような、テキストが傾いているアングル)を推定するために、2値画像に適用されうる。傾きおよび歪みに対する補償は、テキストのより強固な文字認識を可能にする。しかしながら、2値画像におけるテキストの正確な投影プロファイル分析もまた、計算的に要望し、携帯用電子機器には適していないことがある。
本願は、各々がその全文に参照により組み込まれる、2011年9月6日に出願された米国仮特許出願第61/531,547号、2011年10月5日に出願された米国仮特許出願第61/543,548号、および2012年3月6日に出願された米国非仮出願第13/412,853号による優先権を主張する。
ブロブ(blob)に基づくテキスト抽出は、画像におけるテキストブロブを、安定した、曲線の、かつ重複しないブロブとして位置付けることを含む。ブロブ抽象化は、投影プロファイル分析の計算負荷を低減するために、投影プロファイル分析の前に行われうる。テキストの傾きおよび歪みは、後に続く文字認識処理のための投影プロファイル分析に基づいて補償(compensated)されうる。
特定の実施形態では、方法は、画像データで識別された画像領域のセットの指示を受信すること、および画像領域の安定性に少なくとも部分的に基づいて、テキスト抽出のために画像領域のセットから画像領域を選択することを含む。いくつかの実施形態では、画像領域は画像領域の曲線性にさらに部分的に基づいて選択されうる。
別の特定の実施形態では、装置は画像データで識別された画像領域のセットの指示を生成するように構成された画像領域抽出器を含む。その装置はまた、画像領域の安定性に少なくとも部分的に基づいてテキスト抽出のために画像領域のセットから画像領域を選択するように構成されたテキスト画像領域選択器も含む。
別の特定の実施形態では、方法は、画像領域に対応する幾何学的図形を識別することを含む。画像領域は、少なくとも画像データにおいて識別されたテキストの一部に対応する。その方法はさらに、幾何学的図形に少なくとも部分的に基づいて、テキストのためのバウンディングボックスを決定することを含む。
いくつかの実施形態では、適合エラーが利用されうる。例えば、しきい値を超える画像領域に関係する第1の幾何学的図形の第1の適合エラーに応じて、その方法は、画像領域に対応する複数の幾何学的図形を識別することを含むことができる。
いくつかの実施形態では、投影プロファイル分析が利用されうる。例えば、その方法は、複数の投影ラインを使用して幾何学的図形の投影プロファイルを決定することを含むことができる。投影プロファイルの値は、各特定の投影ラインに対応し、幾何学的図形を有する特定の投影ラインの交差点間の距離に基づきうる。
別の特定の実施形態では、その方法は、画像領域に対応する複数の幾何学的図形を識別することを含むことができ、その画像領域の各々は、テキストの少なくとも一部に対応する。複数の幾何学的図形の第1の投影プロファイルは、テキストの歪みを推定するために決定されうる。複数の幾何学的図形の第2の投影プロファイルは、テキストの傾きを推定するために決定されうる。
別の特定の実施形態では、その方法は、画像領域のセットから画像領域を抽出することを含むことができ、その画像領域の各々は、テキストの少なくとも一部に対応する。その方法はさらに、抽出された画像領域を複数のクラスタに区分化すること、および他のクラスタの各々から独立した各クラスタの投影プロファイルを決定することを含むことができる。
別の特定の実施形態では、その方法は、画像データで識別された画像領域に対応する幾何学的図形の第1のセットに第1の投影プロファイル分析を行うことを含むことができる。第1の投影プロファイル分析は、幾何学的図形の第2のセットおよび幾何学的図形の第3のセットに幾何学的図形第1のセットを区分化することができる。その方法はさらに、幾何学的図形の第2のセットに第2の投影プロファイル分析を行うことを含むことができる。第2の投影プロファイル分析は、幾何学的図形の第4のセットおよび幾何学的図形の第5のセットに幾何学的図形の第2のセットを区分化することができる。
開示された実施形態の少なくとも1つによって提供される特定の利点は、背景色とは異なるテキストの色を通常要求する従来の2値化技法と比較してテキスト色が背景色とは異なることを要求することなく、ならびに色セグメント化技法と比較して低減された計算要望を伴って、画像内のテキストを識別する能力を含む。
本開示の他の態様、利点、および特徴が、下記のセクション:図面の簡単な説明、発明を実施するための形態、および特許請求の範囲、を含む本願全体の検討後に明らかになるであろう。
テキスト検出を提供するためのシステムの特定の実施形態のブロック図。 図1のシステムによって行われうるテキスト検出の方法のフロー図。 図1のシステムによって検出されうるテキストを含む画像の例を例示する図。 図1のシステムによって行われうるブロブ抽出の例示的な例を描写する図。 図4のブロブ抽出の結果の例示的な例を描写する図。 図1のシステムによって検出されうるテキスト画像データの例を例示する図。 図1のシステムによって行われうる投影プロファイル分析の例示的な例を描写する図。 図1のシステムによって行われうるブロブ抽象化の例示的な例を描写する図。 図1のシステムによって行われうるテキスト効果補償(text effect compensation)の例を例示する図。 図1のシステムによって行われうるテキスト効果補償の追加の例を例示する図。 図1のシステムによって行われうる傾き補償(tilt compensation)の例示的な例を描写する図。 図1のシステムによって検出および訂正されうるテキスト歪みおよび傾きの例示的な例を描写する図。 図1のシステムによって行われうる抽象化されたブロブの中央ライン処理の特定の実施形態を例示する図。 図1のシステムによって行われうるストローク幅の決定の例示的な例を描写する図。 ブロブに基づくテキスト検出の特定の例示的な実施形態のフローチャート。 図1のシステムによって行われうるブロブ抽象化の例を例示する図。 図1のシステムによって行われうる幾何学的図形を使用するブロブ抽象化の方法の特定の例示的な実施形態のフローチャート。 図1のシステムによって行われうるブロブ投影の例示的な例を描写する図。 図1のシステムによって行われうる幾何学的図形を使用するブロブ投影の方法の特定の例示的な実施形態のフローチャート。 図1のシステムによって行われうる投影プロファイル分析の例示的な例を描写する図。 図1のシステムによって行われうる投影プロファイル分析の方法の特定の例示的な実施形態のフローチャート。 図1のシステムによって行われうるブロブのセットを区分化する例示的な例を描写する図。 図1のシステムによって行われうるブロブのセットを区分化する方法の特定の例示的な実施形態のフローチャート。 図1のシステムによって行われうる幾何学的図形に対する複数の投影プロファイル分析の例示的な例を描写する図。 図1のシステムによって行われうる幾何学的図形に対する複数の投影分析を行う方法の特定の例示的な実施形態のフローチャート。 ブロブに基づくテキスト抽出器を含む携帯用デバイスのブロック図。
図1を参照すると、画像領域に基づくテキスト検出(例えば、ブロブ抽出)を含むシステム100の特定の実施形態が例示されている。システム100は、ブロブアブストラクタ(abstractor)112に結合されたテキストブロブ抽出器104を含む。ブロブアブストラクタ112は、テキスト領域検出器および2値化エンジン114に結合されている。テキストブロブ抽出器104は、画像データ102を受信し、ブロブ抽出器106でブロブを識別するように構成されている。「ブロブ」は、画像データ102の実質的に均質的な領域である。例えば、ブロブ抽出器106は、画像データ102をスキャンし、実質的に変化しない画素明度または彩度を有する画像データ102の領域を識別するように構成されうる。例示するために、画像の色空間の領域が識別され、識別された色空間内の画素値を有する連続的な画素のセットはブロブとして識別されうる。ブロブ抽出器106は、いずれのブロブがテキスト候補であるか非テキスト候補であるかを検出するように特に構成されることなく画像データ内のブロブを識別するように構成される「汎用」ブロブ抽出器でありうる。ブロブ抽出器106によって識別されるブロブの指示105は、テキストブロブ選択器107に提供されうる。例えば、指示105は、各識別されたブロブに対応する画像データ102の画素のリストおよび各識別されたブロブのインデックスのような、識別されたブロブのリストを含むことができる。別の例として、指示105は、ブロブ画素データへのポインタのリストまたはアレイを含むことができる。別の例として、指示105は、画像データ102または画像データ102のサブセットを含むことができ、各画素に関して、その画素が(もしあれば)属する各ブロブを示すことができる。
特定の実施形態では、テキストブロブ選択器107は、安定したかつ曲線のブロブ選択器108および重複領域リムーバ110を含む。テキストブロブ選択器107は、ブロブ抽出器106によって識別されたブロブの指示105を受信し、安定したかつ曲線であるブロブのセットを選択するように構成されうる。例えば、ブロブの安定性は、ブロブのサイズがしきい値における変化に実質的に伴って変化しないことを示しうる。例示するために、しきい値は画像の色空間における領域の境界に対応し、色空間の領域の境界における小規模な変化は、不安定なブロブが、色空間の領域の境界における小規模な変化に応じて著しくサイズを変化させる一方で、安定したブロブに関しては、サイズにおける相対的に小規模な変化を引き起こしうる。1つまたは複数の安定したブロブを位置付ける際、安定したかつ曲線のブロブ選択器108は、識別された安定したブロブも曲線であるかどうかを決定するように構成されうる。ここで使用されるように、「曲線」は、ブロブのサイズと比較されると小規模であるストローク幅を有することに対応する。例えば、字「s」を含むブロブは、字「s」の外法寸法に対応するサイズを有し、字の横断面の厚さに対応する、ストローク幅を有しうる。テキストが曲線である傾向がある(例えば、字および文字が、ペンまたは他の執筆道具によって作り出されうる直線および曲線で形成される傾向にある)ので、曲線でないブロブは、テキスト候補として拒絶されうる。安定したかつ曲線のブロブ選択器108は、安定性に関する要件を満たし、さらに、曲線に関する要件を満たすブロブを識別する際に、重複領域リムーバ110に識別されたブロブの指示を提供しうる。
重複領域リムーバ110は、ブロブ抽出器106によって識別され、安定したかつ曲線のブロブ選択器108によって選択された特定の安定したかつ曲線のブロブと重複するブロブを取り除くことができる。例示するために、ブロブ抽出器106は、互いに重複しうる画像の単一の領域内の複数のブロブを識別しうる。重複するブロブがテキスト検出において曖昧性をもたらしうるので、一度認識された字に、または他のテキストに対応しうる安定したかつ曲線のブロブが識別されると、重複領域リムーバ110は、識別された安定したかつ曲線のブロブと重複する全ての他のブロブを位置付けし、取り除く。画像データ102に現れる字または他のテキストは、互いに重複しないことが前提とされうる。したがって、一度ブロブが字またはテキストに関する基準を満たすとして選択されると、選択されたブロブと重複するあらゆるブロブは取り除かれうる。重複するブロブが重複領域リムーバ110によって取り除かれた後、安定したかつ曲線のブロブ選択器108は、テキストブロブ選択器107が安定した、曲線の、かつ重複しないブロブのセットを識別するまで、安定性および曲線性の要件を満たす追加のブロブを識別するために、ブロブ抽出器106によって識別されたブロブのセットの残りのブロブの処理を継続しうる。テキストブロブ抽出器104は、画像データ102におけるテキストに対応する可能性があるとして、この識別されたブロブのセットを出力する。
特定の実施形態では、ブロブアブストラクタ112は、テキストブロブ抽出器104から受信されたブロブに1つまたは複数の計算を行い、テキスト領域検出器および2値化エンジン114での動作を支援するための分析を行うように構成される。例えば、図8に関係して説明されるように、ブロブアブストラクタ112は、識別されたブロブに対応する幾何学的図形のセットを決定し、後の光学式文字認識(OCR)処理のためのテキスト認識に作用しうる歪み、傾き、または他の効果を決定するために幾何学的図形を処理するように構成されうる。例えば、計算要件は、画素のセットとしての代わりに、幾何学的図形として識別されたブロブを抽象化することによって著しく低減されうる。低減された計算要件は、ハンドヘルドデバイス、またはデスクトップ計算システムと比較して比較的に限定された処理リソースを有しうる他のデバイスに行われるテキスト抽出を可能にしうる。
テキスト領域検出器および2値化エンジン114は、ブロブ抽出器112からの出力を受信し、テキスト領域検出および2値化を行うように構成される。例えば、テキスト領域検出器および2値化エンジン114は、テキストに対応する画像データ102における領域を位置付けし、黒い背景上に白いテキストを、または白い背景上に黒いテキストを有する白黒画像のような、1の値を有するテキスト領域に対応する画素、および他の値を有する非テキスト領域に対応する画素を有する2値画像を生成するように構成されうる。テキスト領域検出器および2値化エンジン114は、検出されたテキストを画像の非テキストエリアと対比する2値画像を含みうるテキスト画像データ116を生成しうる。テキスト画像データの例は、図9−11で例示されている。
図2を参照すると、ブロブを使用するテキスト認識の方法の特定の実施形態が描写され、概して200と指定されている。方法200は、図1のシステム100のような、ブロブに基づく画像処理テキストエンジンで行われうる。方法200は、202で、ブロブを認識することを含む。例えば、画像データが受信され、実質的に均質的である画像の領域を識別するために1つまたは複数のテストまたはフィルタが受信された画像データに行われうる。例示するために、画素値の1つまたは複数の範囲が選択され、画素のセットが、連続的な領域にあり、選択された範囲における値を有するとして識別されうる。別の例として、特定の画素が識別され、識別された画素の画素値の所定の範囲内の画素値を有する識別された画素に隣接する他の画素が位置付けされうる。この方法で、実質的に均質的な画素値または色空間の値を有する画像の領域がブロブとして識別されうる。
識別されたブロブは、204−212で、処理ループでテスト候補を識別するように処理される(さらなる例は図4に関係して描写されている)。204で、識別されたブロブの最も安定したブロブが選択される。例えば、ブロブの各々が、各ブロブに対する特定の安定値を決定するように処理されうる。例示するために、2値化に類似しうるプロセスが異なるしきい値を用いて複数回、行われうる。識別されたブロブの各々に対するしきい値の変化に応じたブロブサイズの変化が決定されうる。例えば、しきい値における変化に関係するブロブのサイズの微分値(derivative value)または変化の度合いが安定性の測定値として識別され、使用されうる。206で、識別されたブロブの最も安定したブロブを識別した後に、ブロブが曲線であるかどうかの決定がなされる。例えば、ブロブのストローク幅は、ブロブのサイズと比較されうる。ブロブの曲線決定の例は、図14に関係して例示されている。
206で識別されたブロブが曲線であると決定することに応じて、208で重複するブロブが取り除かれる。例えば、208で、曲線のブロブによって占有された領域と重複するあらゆるブロブが取り除かれうる。結果として、識別されたブロブのセットにおける重複するブロブに起因した曖昧性が、テキストが画像内の他のテキストと重複しないという前提の下、取り除かれうる。206でブロブが曲線でないと決定することに応じて、または208で識別された曲線のブロブの領域における重複するブロブを取り除いた後、処理は、210で、処理されるべき状態のままであるさらなる識別されたブロブが存在するかどうかの決定を継続する。210で処理されるべき状態のままであるさらなるブロブが存在すると決定することに応じて、212でその次に安定したブロブが選択され、206で処理は、その次に安定したブロブが曲線であるかどうかを決定するように継続する。処理は、202で識別されたブロブの全てが処理され、かつ安定した曲線のブロブとして識別されるか、または取り除かれるかのいずれかが行われるまで継続しうる。
処理の間、ブロブは、206でブロブが曲線でないと決定することに応じて、または208でブロブが曲線であると決定される別のブロブと重複すると決定することに応じて、識別されたブロブのセットから取り除かれうる。他の実施形態では、ブロブはブロブが安定していないと決定することに応じて取り除かれうる。210で、処理されるべきさらなるブロブが存在しないという決定がなされる(例えば、206で全ての識別されたブロブが曲線であると決定されるか、または取り除かれるかのいずれかが行われる)とき、214で、残りのブロブ(つなり、取り除かれなかったブロブ)は抽象化される。例えば、ブロブに対応するパラメータ化された幾何学的図形が、図8に関係して説明されているように追加の画像テキスト処理に関して識別されうる。214で残りのブロブを抽象化した後、216でテキスト領域は検出され、1つまたは複数の規格化された2値画像が生成される。検出されたテキスト領域および規格化された2値画像の生成が、残りのブロブを抽象化した結果に基づいて行われうる。例えば、規格化は、例示的な例のような、歪みおよび傾きを含むテキスト効果を取り除くための画像データの処理を含むことができる。
ブロブ識別を使用し、曲線でかつ安定したブロブを選択するための基準を適用することによるテキスト抽出を行うことによって、方法200は、色のセグメント化に基づいた方法と比較して、実質的に低減された処理の複雑性で入力画像の文字タイプの領域の検出を可能にする。例えば、色のセグメント化は、パーソナルコンピュータに基づくインプリメンテーションさえも計算的に要望する処理を必要としうる。加えて、ブロブ抽出およびブロブ抽象化を行うことによって、規格化された2値画像は、画像データが、単一の背景色および、その背景色とは異なる単一のテキスト色を有することを暗黙的または明示的に必要することなく、効果的に生成されうる。その代わりにテキストは、重複しない、安定したかつ曲線であるという基準を満たす画像の均質的な領域(その均質的な領域がどの色であろうと)に基づいて、識別される。テキストが図1のシステム200を使用して、または図2の方法200を行うことによって識別されうる画像の例は、図3において例示されている。
図3は、ブロブ抽出を使用して検出可能でありうるテキストを含む、画像302、304、および306を例示している。画像302は、テキスト色および背景色が同じであるテキストを含む。(色に基づく2値化のような)ブロブ抽出に基づかない2値化エンジンは、2値化エンジンが、テキスト色が背景色とは異なることを求めうるので、第1の画像302におけるテキストを正確に識別することに失敗しうる。しかしながら、図1および図2に関係して説明されたブロブ抽出および抽象化は、異なる色のついた境界内の均質的な領域として字の各々を識別し、したがって、画像302におけるテキストを正確に識別しうる。
画像304は、画像の背景色と実質的に類似した色を有し、異なる色の付いた領域によって縁どられたアジアの文字のテキストを含む。従来のテキスト抽出エンジンは、画像の背景と共通の色を共有し、異なる色の付いた画素の大規模の領域によって囲まれたテキストの文字を識別することが困難でありうる。
画像306は、多くのエッジおよび様々な色を有する複雑な色のスキームを有する背景画像に重ね合わせられた白いテキストを有する看板を含む。画像306におけるテキストの背景は、複数の色を有し、複雑であるため、ならびにテキストの色(例えば「fish」という言葉にける「ish」)が背景の一部と類似しているため、従来の2値化およびテキスト抽出はテキストを区別することができないことがある。しかしながら、図2のブロブに基づく方法200は、図4に関係して例示されているような、画像306におけるテキストの識別を可能にする。
図4を参照すると、図2の方法200の適用を例示する概括的な図が例示されており、概して400として指定されている。図3の画像306に対応する画像402は、テキスト抽出のために検査される。処理の間、ブロブのセットは識別され、安定性に関して評価されうる。例えば、画像402の領域404の処理は、複数のブロブが識別されることをもたらしうる。ブロブ406は、識別ブロブの最も安定したものとして識別されうる。ブロブ406は、画像402における実質的に類似した色の大規模な領域に対応する。ブロブ406は、画像402における「fish&chips」というフレーズから字「ish」および「&」を取り囲む複数の重複するブロブの最も大規模なものでありうる。
画像402または領域404における識別されたブロブのセットの最も安定したブロブとしてブロブ406を識別した後、ブロブ406が曲線であるかどうかの決定408がなされる。ブロブ406のストローク幅は、(図14に関係してさらに詳細に説明される)ブロブ406のサイズと比較して大きいので、ブロブ406は、画像402におけるテキストに対応する可能性がないと決定される。
識別されたブロブのセットにおけるその次に安定したブロブが識別される。例えば、(ブロブ406と重複する)別のブロブ410は、その次に安定したブロブとして識別されうる。ブロブ410は、検査され、曲線でないと決定される。結果として、ブロブ410は考慮から取り除かれる。ブロブ410の安定性に基づいて、かつブロブ410が前に検査されたブロブ406と重複するかどうかから独立して、ブロブ410が曲線テストのために選択されうる。
別のブロブ412が、その次に安定したブロブとして識別されるとき、ブロブ412は、曲線性に関して検査される。ブロブ412は、曲線性に関する制約を満たさないと決定され、考慮から取り除かれる。(「fish」という言葉における字「s」に密接して対応する)ブロブ416は、その次に安定したブロブとして識別されるとき、ブロブ416は曲線性に関してテストされ、ブロブ416が曲線であるという決定414がなされる。ブロブ416が安定した曲線のブロブであるため、ブロブ416は、テキストに対応する可能性があり、ブロブ416と重複するブロブが取り除かれる。同様に、(字「i」に対応する)ブロブ418は、その次に安定したブロブとして識別され、曲線であると決定されるとき、ブロブ418と重複するブロブは考慮から取り除かれる。
ブロブ420は、その次に安定したブロブとして識別されうる。ブロブ420は、字「c」を含み、字「c」と実質的に類似した色を有する画像背景の一部も含む。ブロブ420は、曲線でないとして識別され、考慮から取り除かれる。ブロブ420は、その次に安定したブロブであると決定され、曲線であると決定される、字「c」のみを含むブロブと重複する。結果として、字「c」を含むブロブがテキストに関する候補として保持される。この方法で、安定性および曲線性の基準を使用するブロブ抽出は、領域404におけるテキストに対応するブロブを明らかにして、類似の色の付いた背景と重複する画像402の字を首尾よく識別することができる。
ブロブ406は、最も安定したブロブとして記述され、重複するブロブ410、412、および416は、連続したその次に安定したブロブとして記述されているけれども、ブロブの安定性の決定がブロブのサイズおよび/または重複から独立しうることは理解されるべきである。例えば、ブロブ406は、最も安定したブロブであると決定されうる。ブロブ406が曲線でないと決定された後、ブロブ416は、その次に安定したブロブであると決定されうる。この例では、ブロブ416が曲線であると決定した後、重複するブロブ410および412は、ブロブ410または412のどちらかが曲線であるかどうかをテストすることなく曲線のブロブ416と重複することに起因して考慮から取り除かれる。別の例として、(ブロブ406よりもむしろ)ブロブ416が最も安定したブロブであると決定されうる。ブロブ416が曲線であると決定された後、ブロブ416と重複するブロブ406、410、および412が、ブロブ406、410、および410のいずれかが曲線であるかどうかを決定することなく、考慮から取り除かれる。
図5を参照すると、図4の4の画像402に対応し、図2の方法200にしたがって画像504のエリアのブロブ抽出を行った結果である画像502が例示されている。ブロブ506のセットは、安定した、曲線の、かつ重複しない画像502のセクションに対応する。図8に関係してさらに詳細に説明されるように、ブロブ506のセットは、テキスト領域検出を行い、規格化された2値画像を生成する前の、抽象化のためのブロブアブストラクタに示されうる。
図6を参照すると、ブロブに基づくテキスト抽出の例600は、第1の画像602、およびブロブのセット603として例示された第1の画像602に対するブロブ抽出/規格化の結果を含む。ブロブ603のセットは、第1の画像602における看板にある字の各々が、安定性、曲線性、および非重複の基準のブロブ抽出および適用にしたがって識別されていることを例示している。識別されたブロブは、ブロブのセット603を生成するためにテキスト効果を取り除くことによって規格化されている。
例600はさらに、背景とは異なる色を有する字「boo」の第1のセット、および背景と同じ色を有し、ならびに各字の輪郭を描く白い縁を有する字「hoo」の第2のセットを含む第2の画像604を含む。図1−図5と関係して記述されてきたブロブ抽出プロセスは、ブロブのセット605を生成するためにテキスト効果を取り除くことによって規格化されうる抽出されたブロブを生成することができる。ブロブのセット605は、字「boo」に対応するブロブの第1のセット、および字「hoo」に対応するブロブの第2のセットを含む。
図7を参照すると、投影プロファイル分析の例が例示されており、概して700と指定されている。第1の例702は、一連の識別されたブロブを渡る、第1の投影方向にしたがう投影ラインの第1のセット706を使用した投影プロファイル分析を例示しており、テキストのラインの投影プロファイル708をもたらす。投影プロファイル分析の第2の例704は、第2の投影方向にしたがう投影ラインの第2のセット710を例示しており、テキストのラインのより大規模な投影プロファイル712をもたらす。
投影プロファイル分析は、図1のテキストブロブ抽出器104によって、または図2の方法200のブロブ抽出部分に関係して説明されたように、識別されるブロブに行われうる。投影プロファイル分析は、テストされるべき方向の数(例えば、M個の方向)を選択することを含むことができ、幅Wおよび高さHを有する画像の領域の各画素に行われ、順序(order)W×H×Mに投影プロファイル分析を行う全体的な複雑性をもたらす。投影プロファイル分析は、最小の決定された投影プロファイルを選択すること(例えば、投影プロファイル712よりも小さいとして投影プロファイル708を選択すること)を含むことができ、投影プロファイルラインの水平に対するアングルに対応するとしてテキスト歪みを識別すること(つまり、ラインが最小の計算された投影プロファイルをもたらすこと)を含むことができる。図7で例示されている投影プロファイル分析が画素のグループとして抽出されたブロブに行われているけれども、テキストの歪みおよび傾きを決定するための計算の複雑性は、図8と関係してさらに詳細に説明されるように、投影プロファイル分析の前にブロブ抽象化を行うことによって著しく低減されうる。
図8を参照すると、ブロブ抽象化の例が描写され、概して800と指定されている。画像802は、数字および韓国の文字を有するテキストを含む。画像802に対応するブロブ抽出は、画像804で例示されているブロブの識別をもたらす。画像804は、黒い背景に対する白い画素として抽出されたブロブを例示している。画像804における抽出されたブロブは、画像806における抽象化されたブロブを生成するためにブロブ抽象化プロセスによって処理されうる。
ブロブ抽象化は、識別されたブロブの各々を実質的にカバー、または取り囲む楕円(または他の形状)を位置付けることによって行われうる。個々の画素の集合として識別されたブロブを使用する(それにより、各ブロブにおける画素の数と同等のパラメータの数を有する)ことの計算的に安価な(inexpesive)代わりとして、比較的少数のパラメータを使用して識別されうる、楕円、三角形、矩形、または他の形状のような、パラメータの図が使用されうる。画像806において描写されているブロブ抽象化の結果において例示されているように、ブロブ抽出からの各ブロブは、代表的な楕円807のような楕円と一致されている。幾何学的形状が概してブロブと同じ傾斜のスパンおよびアングルに対応するように、楕円は、エネルギー最小化技法、最小2乗誤差技法、またはその対応するブロブとの幾何学的形状の一致を得るための1つまたは他の技法にしたがって選択されうる。
図8は、テキストを含む画像808の第2の例を含む。ブロブ抽出の結果は、画像808におけるテキストに対応するブロブを含み、さらに1つまた複数の他の非テキストブロブも含む画像810に提供される。ブロブ抽象化を行った結果は、画像812で描写されている。例示されているように、画像812におけるブロブ抽象化の結果は、楕円のセットを含み、各楕円は概して、対応するブロブのサイズに対応し、その対応するブロブの方位と実質的に一致する方位(つまり、長軸(longaxis))を有する。非テキストブロブは、非テキストブロブのための対応する楕円が1つまたは複数の最小サイズのしきい値を満していないことに起因して除外されている。
ブロブ抽象化を行った後、投影プロファイル分析は、図8において例示されている楕円内の画素のような、識別された幾何学的図形内に囲われている画素を使用して投影プロファイル分析を行うことによって、ある実施形態において計算的に簡略化されうる。別の実施形態では、計算的複雑性が、幾何学的図形を記述している式にしたがって幾何学的図形の各々に関する投影値を決定することによってより著しく低減されうる。例えば、楕円に関する投影値を決定するための計算は比較的容易であり、n×Mの全体の投影プロファイル分析の複雑性をもたらし、ここにおいて、nは抽象化されたブロブの数(つまり、楕円の数)に対応し、Mはテストされるべきテキスト投影アングルの数に対応する。
抽出されたブロブに直接投影プロファイル分析を行うことと比較して、投影プロファイル分析の前にブロブ抽象化を使用することによって確保されうる計算サイクルは、テキスト抽出の間に著しい遅延をもたらすことなく行われる追加の処理動作を可能にしうる。例えば、投影プロファイル分析が、図12と関係してさらに詳細に説明されるように、テキストのラインの歪みの決定を可能にすることができるけれども、傾きを推定すること、弱透視歪曲(weak perspective distortion)に対する補償、および複数の歪みへの対処のような、他の処理も行われ、の各々が図10に関係してさらに詳細に記載されている。
図9を参照すると、ブロブ抽象化に基づく画像におけるテキストの歪みおよび傾きの訂正の例900が描写されている。平方四辺形として例示されているテキスト領域内にあるとして識別されているテキストを有する画像902が例示されている。テキストは、各字が傾斜している(例えば、イタリック体である)ことを示す、傾きを有しており、そのテキストは概して、水平のテキストラインに従い、したがってほとんど、または全く歪みを有さない。画像902におけるテキストは、ブロブ抽出を使用して識別され、楕円または他のパラメータの形状として抽象化されうる。投影プロファイル分析は、ブロブの各々の傾き(つまり、識別されたテキストにおける字の各々の傾き)の量を識別するために行われ、ブロブの各々に関して識別される傾きは、ブロブの補償されたセット903をもたらすように補償されうる。ブロブの補償されたセット903は、実質的に傾きを有さないとして例示されている。結果として文字認識は、図11に関係してより詳細に記述されるように、傾きによって引き起こされた文字の重複を除外することによって向上した信頼性を持って行われうる。
図9は、識別されたテキスト領域内の文字を含む第2の画像904を例示している。識別されたテキスト領域内の文字は、ブロブの補償されたセット905として、ブロブ抽出、抽象化、ならびに歪みおよび傾き補償の後に例示される。図9は、2つのテキストエリアを含む第3の画像906を例示している。第3の画像906に適用されるブロブ抽象化、抽出、および補償の結果は、ブロブの補償されたセット907として提供される。
図10を参照すると、入力画像および対応するブロブの抽出、抽象化、ならびに補償の結果の第1の例1002が例示されている。第1の例1002は、テキスト「Software That Sees」ならびにテキスト「HOME」および「ENTERTAINMENT」にも適用される傾き補償を例示している。光学式文字認識は、傾き補償の後、より高い信頼性を持って行われうる。第2の例1004は、弱透視補償を例示している。弱透視は、遠隔のオブジェクトの画像捕捉の間に引き起こされうる比較的共通の歪曲でありうる。弱透視の効果に対する補償は、歪み検出および補償、ならびに傾き検出および補償と類似しうる。第3の例1006は、テキストの別個のラインとして画像の領域を識別することによって複数のテキストラインの検出を可能するテキストラインの分離を例示している。第4の例1008は、複数の歪みへの対処の例を提供している。例1008における画像は、3つのテキストラインを有しており、最初の2つのテキストラインは、第1の歪み方向を有しており、3番目のテキストラインは第2の歪み方向を有している。複数の歪みへの対処は、テキストの単一のラインとしてテキストの下部のラインを識別し、テキストの別のラインとしてテキストの2つの上部ラインを識別する第1の投影プロファイル分析を行うことができ、ここで両ラインは水平の歪みを有している。画像の上部への2次的な投影プロファイル分析は、各々が類似の、非水平の歪みを有しているテキストの2つの別個のラインを識別することができる。例1002−1008は、ブロブ抽象化から生じる効果に起因した、低減された計算要件を有する、傾き補償、透視補償、テキストライン分離、および複数歪みへの対処を例示している。
図11を参照すると、傾きを含む画像テキストの例1102が例示されている。検査される各字に対応する垂直の空間を識別する文字のセグメント化ルーチンが字間の明確な分離を識別しないことがあるように、画像テキストの各字が傾けられる。例えば、字「f」1106に関するセグメント化は、「f」の両端を省き、「f」が光学式文字識別の間、認識不可能になることを引き起こす。同様に、「f」に隣接する字「o」および「t」が、「f」との重複に起因して、誤認されることもある。別の例として、字「h」1110に関するセグメント化は、「h」の左手部分が切断されているので、光学式文字認識の間、エラーをもたらしうる。
傾き補償されたテキストの例1104は、傾きを有するテキストの例1102に適用されるように、図8と関係して記述され、例示されているようにブロブ抽象化からの結果でありうる。例えば、ブロブ抽象化および投影プロファイル分析は、ブロブの傾きを推定するために例1102において例示されているブロブに行われ、ブロブは、例1104の傾き補償されたテキストを生成するために推定された傾きに基づいて変更されうる。傾き補償されたテキストは、傾き補償後の字「h」1112に対する、ならびに字「f」1108に対する文字のセグメント化がより正確に字を区別することができることを例示している。
図12を参照すると、図1−図11に関係して説明された投影プロファイル分析の前にブロブに基づくテキスト抽出およびブロブ抽象化を使用して、検出および補償されうるテキストの歪みおよび傾きの例示的な例1200が描写されている。ベースライン1204を有するテキスト1202が例示されている。ベースライン1204は概して、テキスト1202の字の各々の下部に対応する。ベースライン1204は、水平ライン1208を用いてアングル1210を形成する。アングル1210は、テキスト1202の歪みとして称される。加えて、テキスト1202の各文字は、ベースライン1204に直角であるライン1206に対するアングル1214を形成する。ベースライン1204に直角であるライン1206からの文字のアングル1214は、文字の傾きとして称される。ここで例示および記述されているように、文字の歪みおよび傾きの両方が、投影プロファイル分析の前のブロブ抽出およびブロブ抽象化の結果として低減された処理の複雑性を使用して、検出および補償されうる。
図13は、テキスト画像ならびにブロブ抽出および抽象化の結果1310を提示している例1300を描写している。例1300では、テキストは韓国の文字として例示されている。テキストが抽出され、識別されたブロブは、楕円で例示されているように、代表的なブロブの抽象化1304にしたがって抽象化されている。漢字および他のアルファベットのような、多くのタイプのテキストが図12で例示されているベースラインのような、ヘッドラインおよびベースラインに密接に一致しないので、センターラインの識別が、他の配列の基準に加えて、または代わりに使用されうる。
例えば、第1の抽象化されたブロブ1304は、第2の抽象化されたブロブ1306よりも著しく小さいサイズを有する。したがって、ベースライン分析は、テキスト1302のテキストラインの適切な識別をもたらさないことがある。しかしながら、最小平均2乗分析を使用するような、ブロブの中央を通るライン1308を発見することは、歪み推定を可能にするために中央ラインの識別をもたらしうる。
開示されたシステムおよび方法にしたがって使用されうる歪み推定方法の他の例は、テキストの複数のラインで有効でありうる、図7に関係して説明されているような、アルファベット、投影プロファイル歪み推定に有効でありうるベース/ヘッドライン一致、および、図13で例示されているような、ブロブ抽象化に基づく中央ライン一致を含む。抽象化されたブロブを使用する歪み推定方法の各々のための計算的負荷が比較的小規模でありうるので、複数の歪み推定方法が行われ、複数の歪み推定方法の最良の結果または最も意味のある結果がさらなる処理のための選択された歪みとして使用されうる。
図14は、ストローク幅を使用して曲線性を決定する方法の例示的な実施形態1400を提供している。実施形態1400は、第1の代表的な画素p1、第2の代表的な画素p2、および第3の例示的な画素p3のような複数の画素を有する字Aを含むブロブを例示している。字Aは、幅Wおよび高さHを有する画素エリアに及ぶ。(例えば、p1、p2、p3を含む)ポイントのセットが、例えばランダムまたは疑似ランダム選択にしたがって、選択されうる。例として、100つのポイントが選択されうる。各選択されたポイントに関して、ストローク幅の推定が、p1を通る例示された代表的なラインのセット1404のような、選択されたポイントを通るラインのセットを決定することによって得られうる。各ラインwは、異なるアングルであり、i番目の選択されたポイントを通る最も短い長さを有するラインは、選択されたポイント(si)を通るストローク幅に対応しうる:
Figure 2014525626

例示するために、画素p1を通る例示された代表的なライン1404のセットの最も短いライン1402は、画素p1でのブロブのストローク幅を示す。同様に、ストローク幅は、各選択されたポイントに対して決定され、平均的なストローク幅は選択されたポイントに対する決定されたストローク幅の算術平均として決定されうる。例えば、平均ストローク幅は
Figure 2014525626
によって決定されうる。
ブロブのストローク幅を決定した後、ブロブの曲線は、ブロブのストローク幅と比較された、ブロブのサイズの比として計算されうる。例えば、曲線性は
Figure 2014525626
として計算されうる。
ブロブのストローク幅および曲線性を決定した後、ブロブは、曲線性がしきい値を満たすかどうかを決定することによってテキストブロブの候補であるとして識別されうる。例えば、しきい値は、全体のテキストに良質な一般的な結果を提供するしきい値として決定されるか、あるいは指定のしきい値は遭遇する可能性のあるアルファベットの指定のタイプに提供されうる。例えば、アジアのスクリプトを使用してテキストを識別するための領域において使用されることが求められるデバイスは、ラテンアルファベットの検出に対するよりもアジアのスクリプトに対する方が効率的でありうるしきい値を有することができる一方で、ラテンアルファベットを使用してテキストを決定するために使用されることが求められるデバイスは、アジアのスクリプトのブロブを検出する際に第1のしきい値よりも効率的でない第2のしきい値を有しうる。
図15は、方法1500の特定の実施形態を描写している。方法1500は、1052で、画像データで識別されたブロブのセットの指示を受信することを含む。例えば、ブロブのセットは、図1のブロブ抽出器106によって識別され、図1のブロブ抽出器106によって識別されたブロブのセットの指示は、図1のテキストブロブ選択器107で受信されうる。ブロブのセットの各ブロブは、実質的に類似した画素値を有する画像データの結合された画素のグループでありうる。例示するため、グループにおける任意の2つの画素に関して、2つの画素を結びつけるグループ内に壊れていないパス(例えば、パスの各ステップが、第1の画素から、第1の画素に隣接する第2の画素へのものである)が存在するとき、画素のグループは「結合された」とみなされうる。
ブロブの曲線性は、ブロブのサイズのブロブのストローク幅との比較に基づいて決定される。例えば、図1の安定したかつ曲線のブロブ選択器108がブロブのセットの1つまたは複数のブロブの曲線性の測定値を決定しうる。例示するために、曲線性の測定値は、図14に関係して説明されているように、ブロブのストローク幅と比較されたブロブのサイズの比に基づきうる。
1504で、ブロブは、ブロブの安定性、およびブロブの曲線性に少なくとも部分的に基づいてテキスト抽出のためにブロブのセットから選択されうる。ブロブを選択することは、安定性の基準を満たすブロブのセットのブロブを識別すること、および最も安定したブロブが曲線性の基準を満たすかどうかを決定することを含むことができる。例えば、安定したかつ曲線のブロブ選択器108は、安定性の基準および曲線性基準を満たす1つまたは複数のブロブを決定することができる。例示するために、ブロブのセットの各ブロブの安定性測定値が決定されうる。各決定された安定性測定値は、しきい値における変化に関係したブロブのサイズにおける変化を示しうる。
ブロブは、決定された安定性測定値の比較に基づいて、ブロブのセットの最も安定したブロブを選択することによって安定性の基準を満たすとして識別されうる。図4と関係して記述されているように、安定性の基準は、選択されたブロブよりも安定した他のブロブがないことであり、ブロブのセットの最も安定したブロブであると決定されたブロブによって満たされうる。
最も安定したブロブが曲線性の基準を満たすことを決定した後、最も安定したブロブと重複する全てのブロブがブロブのセットから取り除かれうる。例示するために、ブロブのセットの少なくとも1つのブロブは、ブロブのセットの別のブロブと重複しうる。図1の重複領域リムーバ110は、選択されたブロブの安定したかつ曲線のブロブ選択器108から指示を受信し、重複領域リムーバ110は、選択されたブロブと重複する(例えば、選択されたブロブと共通の1つまたは複数の画素を有する)全てのブロブを取り除きうる。特定の実施形態では、ブロブのセットの少なくとも1つのブロブはテキスト抽出のために選択され、ブロブのセットの少なくとも別のブロブはテキスト抽出のために選択されないこともある。
選択されたブロブに対応する幾何学的図形のセットは決定されうる。例えば、図1のブロブアブストラクタ112は、テキストブロブ抽出器104から受信されたブロブのセットに楕円または他の幾何学的図形を適合させることができる。幾何学的図形のセットの投影プロファイルが、図7−図8に関係して説明されるように、決定されうる。
図16を参照すると、図1のブロブアブストラクタ112によって行われうるブロブ抽象化の例が、描写され、概して1600と指定される。画像1602はスクリプトのテキストを含む。画像1602に対応するブロブ抽出は、画像1605で例示されているブロブ1604の識別をもたらす。画像1602に対応するブロブ抽出は、図1のブロブ抽出器104によって行われうる。画像1605は、白い背景に対する黒い画素として抽出されたブロブ1604を例示している。
ブロブ抽象化は、画像1602で識別されたブロブ1604に対応する第1の幾何学的図形1606を識別することによって行われうる。第1の幾何学的図形1606は、ブロブ1604のパラメータを計算することによって、幾何学的図形の表およびデータベースから所定の幾何学的図形を選択することによって、1つまたは複数の他の技法によって、またはそれらのあらゆる組み合わせによって識別されうる。個々の画素の集合として識別されたブロブを使用する(それにより、各ブロブにおける画素の数と同等のパラメータの数を有する)ことの計算的に安価な代わりとして、比較的少ないパラメータを使用して識別されうる、楕円、三角形、矩形、または他の形状のような、パラメータの図が使用されうる。
第1の幾何学的図形1606の第1の適合エラーは、決定され、しきい値と比較されうる。第1の適合エラーは、ブロブ1604の全体のエリアと比較して、第1の幾何学的図形1606の外に位置付けられた画像1605において例示されているブロブ1604の一部に対応しうる。しきい値を超える第1の幾何学的図形1606の適合エラーに応じて、第2の抽象化は、ブロブ1604に対応する複数の幾何学的図形1608、1610を識別することによって行われうる。複数の幾何学的図形1608、1610は、ブロブ1604のパラメータを計算することによって、幾何学的図形の表またはデータベースから所定の幾何学的図形を選択することによって、1つまたは複数の他の技法によって、あるいはそれらのあらゆる組み合わせによって識別されうる。
複数の幾何学的図形1608、1610の第2の適合エラーは決定されうる。複数の幾何学的図形1608、1610の第2の適合エラーが第1の幾何学的図形1606の第1の適合エラーよりも小さいという決定に応じて、複数の幾何学的図形1608、1610への投影プロファイル分析が行われうる。そうでなければ、第1の幾何学的図形1606は、ブロブ1604へのより良い適合として選択され、第1の幾何学的図形1606への投影プロファイル分析が行われうる。特定の実施形態では、第1の幾何学的図形1606は、楕円を含み、複数の幾何学的図形1608、1610は、複数の楕円を含みうる。
図17を参照すると、幾何学的図形を使用するブロブ抽象化の方法の特定の実施形態が描写され、概して1700と指定されている。方法1700は、図1のブロブアブストラクタ112のような、ブロブアブストラクタで行われうる。方法1700は、1702で、画像データで識別されたブロブに対応する第1の幾何学的図形を識別することを含む。例示するために、図1のブロブアブストラクタ112は、画像データ1602におけるブロブ1604に対応する図16の第1の幾何学的図形1606を識別することができる。第1の幾何学的図形1606は、ブロブ1604のパラメータを計算することによって、幾何学的図形の表またはデータベースから所定の幾何学的図形を選択することによって、1つまたは複数の他の技法によって、あるいはそれらのあらゆる組み合わせによって識別されうる。
1704で、ブロブに関係した幾何学的図形の第1の適合エラーは決定されうる。例えば、第1の幾何学的図形1606の外に位置付けられたブロブ1604のエリアは、ブロブ1604の全体のエリアと比較されうる。1706で、幾何学的図形の第1の適合エラーがしきい値を超えるかどうかの決定がなされうる。第1の適合エラーがしきい値を超えない場合、1710で、方法が終了する。第1の適合エラーがしきい値を越える場合、1708で、ブロブに対応する複数の幾何学的図形が識別される。例示するために、ブロブアブストラクタ112は、ブロブ1604に対応する幾何学的図形1608、1610を含む複数の幾何学的図形を識別することができる。複数の幾何学的図形1608、1610は、ブロブ1604のパラメータを計算することによって、幾何学的図形の表またはデータベースから所定の幾何学的図形を選択することによって、1つまたは複数の他の技法によって、あるいはそれらのあらゆる組み合わせによって識別されうる。
図18を参照すると、ブロブ投影の例が描写され、概して1800と指定されている。第1の例1802は、幾何学的図形1804を横切る代表的な投影ライン1808を例示している。幾何学的図形1804は、図16の幾何学的図形1606でありうる。第1の例1802では、投影ライン1808が幾何学的図形1804を横切る場合、2値「1」が投影プロファイル1806の対応する投影で割り当てられる。投影ライン1808が幾何学的図形1804を横切らない場合、2値「0」が投影プロファイル1806の対応する投影で割り当てられる。複数の投影ライン(例えば、図7の複数の投影ライン702)は、幾何学的図形1804の投影プロファイル1806を決定するように使用されうる。例えば、代表的な投影ライン1808のような、幾何学的図形1804を横切る複数の投影ラインの投影ラインの全ての事例は、2値「1」が投影プロファイル1806の対応するポイントで割り当てられることをもたらす。
第2の例1810は、幾何学的図形1812を横切る投影ライン1816を例示している。幾何学的図形1812は、図16の幾何学的図形1606でありうる。第2の例1810では、投影ライン1816は、2つの異なる交差点1818、1820で幾何学的図形1812を横切るように提示されている。2つの交差点1818、1820の間の距離が計算され、幾何学的図形1812の投影プロファイル1814の対応する投影を決定するように使用される。複数の投影ライン(例えば、図7の投影ライン706のセット)は、幾何学的図形1812の投影プロファイル1814を決定するように使用されうる。例えば、幾何学的図形1812を横切る複数の投影ラインのうちの投影ライン1816の全ての事例に関して、投影ライン1816が第2の事例で幾何学的図形1812を横切るかどうかの決定がなされうる。幾何学的図形1812が2つの異なる交差点(例えば、事例1818、1820)で投影ラインによって横切られる場合、2つの異なる交差点1818、1820の間の距離が、幾何学的図形の投影プロファイル1814の対応する投影(例えば、投影1822)に割り当てられうる。投影ラインが幾何学的図形1812を横切らない、あるいは単一の例でのみ幾何学的図形1812を横切る場合、2値「0」が、幾何学的図形1812の投影プロファイル1814の対応する投影に割り当てられうる。
図18の第2の例1810にしたがってブロブを投影することは、第1の例1802にしたがってブロブを投影するよりも正確なブロブの反映をもたらしうる。例えば、第2の例1810にしたがってブロブを投影することは、第1の例1802にしたがってブロブを投影するよりも正確に、筆記体、およびインディアン語のスクリプトのような、繋がった文字の形状を反映することができる。
図19を参照すると、幾何学的図形を使用するブロブ投影の方法の特定の実施形態が描写され、概して1900と指定されている。方法1900は、図1のテキスト領域の検出器および2値化エンジン114で行われうる。方法1900は、1902で、画像データで識別されたブロブに対応する幾何学的図形を識別することを含む。例示するために、幾何学的図形は、図18の幾何学的図形1812に対応しうる。幾何学的図形1812は、ブロブのパラメータを計算することによって、幾何学的図形の表またはデータベースから所定の幾何学的図形を選択することによって、1つまたは複数の他の技法によって、あるいはそれらのあらゆる組み合わせによって識別されうる。
1904で、複数の投影ラインを使用する幾何学的図形の投影プロファイルの決定がなされ、ここにおいて、各特定の投影ラインに対応する投影プロファイルの値は、幾何学的図形を有する特定の投影ラインの交差点間の距離に基づく。例示するために、幾何学的図形1812の図18の投影プロファイル1814が決定されうる。各特定の投影ラインに対応する投影プロファイルの値は、幾何学的図形を有する特定の投影ラインの交差点間の距離に基づきうる。例えば、投影1822は、交差点1818、1820との間の距離1816に基づく。
図20を参照すると、投影プロファイル分析の例が描写され、概して2000と指定されている。代表的な投影ライン2014、2016を含む平行の投影ラインの第1のセット2030は、代表的な幾何学的図形2020、2022、および2024のような、画像データにおけるテキストとして識別されたブロブに対応する(楕円として例示されている)複数の幾何学的図形2036を通じて投影される。平行の投影ラインの第1のセット2030は、第1のアングル2018に対応し、複数の幾何学的図形2036の第1の投影プロファイル2012を決定するために複数の幾何学的図形2036を通じて投影される。テキストの歪みは、平行の投影ラインの第1のセット2030の水平の基準への第1のアングル2018に対応する。第1の投影プロファイル2012は、複数の幾何学的図形2036を横切る平行の投影ラインの複数のセットのアングルに対応する複数の投影プロファイルを投影することによって決定されうる。第1の投影プロファイル2012は、(例えば、複数の幾何学的図形2036を横切るより少数の平行の投影ラインからの結果である)複数の投影プロファイルのあらゆる他の投影プロファイルよりも小さい複数の投影プロファイルから投影プロファイルを選択することによって決定されうる。
代表的な投影ライン2004、2006、2008を含む水平の投影ライン2032の第2のセットは、複数の幾何学的図形2036を通じて投影される。平行の投影ラインの第2のセット2032は、第2のアングル2010に対応し、複数の幾何学的図形2036の第2の投影プロファイル2002を決定するために複数の幾何学的図形2036を通じて投影される。テキストの傾きは、テキストラインからの直角(例えば、投影ライン2014に対して直角)からの逸脱を示す平行の投影ラインの第2のセット2032の第2のアングル2010に対応する。第2の投影プロファイル2012は、複数の幾何学的図形2036を横切る平行の投影ラインの複数のセットのアングルに対応する複数の投影プロファイルを投影することによって決定されうる。第2の投影プロファイル2002は、複数の投影プロファイルのあらゆる他の投影プロファイルよりも少ない、複数の幾何学的図形2036を有する平行の投影ラインの交差点を有する複数の投影プロファイルから投影プロファイルを選択することによって決定されうる。
バウンディングボックス2026が推定されうる。バウンディングボックス2026が、テキストを取り囲むように選択されうる。バウンディングボックスは、少なくとも6度の自由度(6 degrees of freedom)を有しうる。6度の自由度の例は、バウンディングボックス2026の「x」および「y」の座標の位置、バウンディングボックス2026の高さおよび幅、ならびに第1のアングル2016および第2のアングル2010を含む。
図21を参照すると、投影プロファイル分析の方法の特定の実施形態が描写され、概して2100と指定されている。方法2100は、図1のテキスト領域検出器および2値化エンジン114で行われうる。方法2100は、2102で、画像データでテキストとして識別されたブロブに対応する複数の幾何学的図形を識別することを含む。例示するために、複数の幾何学的図形は、図20の複数の幾何学的図形2036でありうる。複数の幾何学的図形2036は、ブロブのパラメータを計算することによって、幾何学的図形の表またはデータベースから所定の幾何学的図形を選択することによって、1つまたは複数の他の技法によって、あるいはそれらのあらゆる組み合わせによって識別されうる。
2104で、複数の幾何学的図形の第1の投影プロファイルの決定が、テキストの歪みを推定するためになされうる。例示するために、平行の投影ラインの複数のセットのアングルに対応する複数の投影プロファイルは、図20の複数の幾何学的図形2036を横切るように投影されうる。第1の投影プロファイル2012は、最小のサポートを有する複数の投影プロファイルから投影プロファイルを選択することによって決定されることができ、ここにおいてサポートは、その投影プロファイルの結果がゼロではない領域として定義される。
2106で、複数の幾何学的図形の第2の投影プロファイルの決定は、テキストの傾きを推定するためになされうる。例示するために、図20の第2の投影プロファイル2002は、複数の幾何学的図形2036を横切る平行の投影ラインの複数のセットのアングルに対応する複数の投影プロファイルを投影することによって、ならびに最小のサポートを有する複数の投影プロファイルから投影プロファイルを選択することによって決定されうる。
図22を参照すると、ブロブのセットを区分化する例が描写され、概して2200と指定されている。画像データで識別されたブロブ2202の第1の抽出されたセットは、2つの別個のフォント(例えば、ストローク幅)で「Hello World」というフレーズを備える。ブロブ2202の第1の抽出されたセットは、2つのクラスタ2204、2212のような、複数のクラスタに区分化されうる。区分化することは、ブロブ2202のテキストのストローク幅に少なくとも基づきうる。例えば、字「H」2206のストローク幅は、第1のクラスタ2202における字「W」2207のストローク幅と類似している。代わりの例として、字「H」2214のストローク幅は、第2のクラスタ2212における字「W」2216のストローク幅と類似している。代わりとして、あるいは加えて、区分化することは、ブロブの色の類似性、ブロブの1つまたは複数の特性、またはそれらのあらゆる組み合わせに少なくとも部分的に基づきうる。
第1のクラスタ2204が第2の投影プロファイル2218に干渉せず、第2のクラスタ2212が第1の投影プロファイル2210に干渉しないように、第1のおよび第2の投影プロファイル2210、2218は第1のクラスタ2204および第2のクラスタ2212のそれぞれに関して、別個に決定されうる。特定の実施形態では、投影プロファイル2210、2218は、図19の方法1900、図21の方法2100、またはそれらの組み合わせにしたがって決定されうる。
図22にしたがってブロブのセットを区分化することは、ブロブ2202の区分化されないクラスタに投影プロファイル分析を行うことと比較してより信頼性のある方法でテキストラインを発見することをもたらしうることは認識されるだろう。非テキストブロブを含む他の画像成分が所与のクラスタに関するテキストライン抽出に干渉する可能性が低いことも認識されるだろう。
図23を参照すると、ブロブのセットを区分化する方法の特定の実施形態が描写され、概して2300と指定されている。方法2300は、図1のテキスト領域の検出器および2値化エンジン114で行われうる。方法2300は、2302で、画像データで識別されたブロブのセットからブロブを抽出することを含む。例示するために、図22のブロブ2202のセットは、画像データで識別されたブロブのセットからテキスト候補として抽出されうる。
2304で、抽出されたブロブは、複数のクラスタに区分化されうる。例示するために、ブロブ2202のセットは、第1のクラスタ2204および第2のクラスタ2212に区分化されうる。区分化することは、ブロブ2202のセットにおける個々のブロブのテキストのストローク幅に少なくとも基づきうる。例えば、字「H」2206に対応する個々のブロブのストローク幅は、第1のクラスタ2204における字「W」2208に対応する個々のブロブのストローク幅と類似している。代わりの例として、字「H」2214に対応する個々のブロブのストローク幅は、第2のクラスタ2212の字「W」2216に対応する個々のブロブのストローク幅と類似している。代わりとして、あるいは加えて、区分化することは、ブロブの色の類似性、ブロブの1つまたは複数の特性、またはそれらのあらゆる組み合わせに少なくとも部分的に基づきうる。
2306で、各クラスタの投影プロファイルは、他のクラスタの各々から独立して決定されうる。例示するため、第1のクラスタ2204が第2の投影プロファイル2218に干渉せず、第2のクラスタ2212が第1の投影プロファイル2210に干渉しないように、第1のおよび第2の投影プロファイル2210、2218は第1のクラスタ2204および第2のクラスタ2212のそれぞれに関して、別個に決定されうる。投影プロファイル2210、2218は、図21の方法2100にしたがって決定されうる。
図23のクラスタリング方法は、図22のブロブ2202の区分化されないクラスタに投影プロファイル分析を行うことと比較してより信頼性のある方法でテキストラインを発見することをもたらしうることは認識されるだろう。非テキストブロブを含む他の画像成分が所与のクラスタに関するテキストライン抽出に干渉する可能性が低いことも認識されるだろう。
図24を参照すると、幾何学的図形に複数の投影プロファイル分析を行う例が描写され、概して2400と指定されている。第1の画像は、画像データで識別されたブロブに対応する幾何学的図形2402の第1のセットを含みうる。第1の投影プロファイル分析2420は、幾何学的図形の第1のセット2402を幾何学的図形の第2のセット2404および幾何学的図形の第3のセット2406に区分化するために幾何学的図形の第1のセット2402に行われうる。第1の投影プロファイル分析2420は、図21の方法2100にしたがって行われうる。
第2の投影プロファイル分析2422は、幾何学的図形の第2のセット2404を幾何学的図形の第4のセット2408および幾何学的図形の第5のセット2410に区分化するために幾何学的図形の第2のセット2404に行われうる。第2の投影プロファイル分析2422は、図21の方法2100にしたがって行われうる。特定の実施形態では、幾何学的図形の第3のセット2406はテキストの第1のラインに対応し、幾何学的図形の第4のセット2408はテキストの第2のラインに対応し、幾何学的図形の第5のセット2410はテキストの第3のラインに対応しうる。
図24で例示されているような複数の投影プロファイル分析を行うことは、類似のストローク幅と色であるが異なる歪みを有するテキストラインを発見することをもたらしうることは認識されるだろう。
図25を参照すると、幾何学的図形に複数の投影プロファイル分析を行う方法が描写され、概して2500と指定されている。方法2500は、図1のテキスト領域の検出器および2値化エンジン114で行われうる。方法2500は、2502で、幾何学的図形の第1のセットを幾何学的図形の第2のセットおよび幾何学的図形の第3のセットに区分化するために、画像データで識別されたブロブに対応する幾何学的図形の第1のセットに第1の投影プロファイル分析を行うことを含む。例示するために、第1の投影プロファイル分析は、図24の幾何学的図形の第1のセット2402を幾何学的図形の第2のセット2404および幾何学的図形の第3のセット2406に区分化するために幾何学的図形の第1のセット2402に行われうる。第1の投影プロファイル分析は、図21の方法2100にしたがって行われうる。
2504で、幾何学的図形の第2のセットへの第2の投影プロファイル分析は、幾何学的図形の第2のセットを幾何学的図形の第4のセットおよび幾何学的図形の第5のセットに区分化するために行われうる。例示するために、第2の投影プロファイル分析は、図24の幾何学的図形の第2のセット2404を幾何学的図形の第4のセット2408および幾何学的図形の第5のセット2410に区分化するために幾何学的図形2404の第2のセット2404に行われうる。第2の投影プロファイル分析は、図21の方法2100にしたがって行われうる。追加の投影プロファイル分析は、文字に対応する個々のブロブの幅、ブロブ内の文字の色、ブロブの1つまたは複数の特性、またはそれらのあらゆる組み合わせに少なくとも部分的に基づいて、幾何学的図形の第3、第4、および第5のセット2406、2408、2410に行われうる。追加の投影プロファイル分析は、幾何学的図形の結果のセットがテキストの別個のラインにさらに分割されることができなくなるまで、行われうる。
図26を参照すると、ブロブに基づくテキスト抽出器2664を含む電子デバイスの特定の例示的な実施形態のブロック図は描写され、概して2600と指定される。デバイス2600は、メモリ2632に結合された、デジタル信号プロセッサ(DSP)2610のようなプロセッサを含む。例示的な例では、ブロブに基づくテキスト抽出器2664は、図1のシステム100を含むことができ、あるいは図2−25のうちのいずれかの1つまたは複数、またはそれらのあらゆる組み合わせにしたがって動作することができる。
特定の実施形態では、ブロブに基づくテキスト抽出器2264はプロセッサ2610に一体化され、図1に関係して記述された機能の少なくとも一部を行うための専用の回路または他の論理を含むことができる。特定の実施形態では、メモリ2632は、プロセッサ2610に図1−25のいずれかに関係して記述された機能の少なくとも一部を行わせるためにプロセッサ2610によって実行可能でありうる命令2656を含む。例えば、命令2656は、コンピュータ(プロセッサ2610)に、図2の方法200、図15の方法1500、図17の方法1700、図19の方法1900、図21の方法2100、図23の方法2300、図25の方法2500、またはそれらのあらゆる組み合わせを行わせることがコンピュータによって実行可能である命令を含むことができる。例示するために、命令2656は、画像データで識別された画像領域のセット(例えば、ブロブのセット)の指示を受信するためのコード、および安定性および曲線性に少なくとも部分的に基づいてテキスト抽出のために、画像領域のセットから画像領域を選択するためのコードを含むことができる。
図26は、カメラコントローラ2660に結合されうるカメラ2642を例示しており、ブロブに基づくテキスト抽出器2664がカメラ2642から受信された画像データまたはビデオデータにおけるテキストを検出するために、ブロブに基づくテキスト抽出器2664に画像データを提供することができる。図26はまた、プロセッサ2610およびディスプレイ2628に結合されるディスプレイコントローラ2626を提示している。符号器/復号器(コーデック)2634はまた、プロセッサ2610に結合されることができる。スピーカ2636およびマイクロフォン2638は、コーデック2634に結合されることができる。
図26はまた、ワイヤレスコントローラ2640が、プロセッサ2610およびワイヤレスアンテナ2698に結合されることができることを示す。特定の実施形態では、プロセッサ2610、カメラコントローラ2660、ディスプレイコントローラ2626、メモリ2632、コーデック2634、およびワイヤレスコントローラ2640は、システムインパッケージ、またはシステムオンチップデバイス2622に含まれる。特定の実施形態では、入力デバイス2630および電源2644が、システムオンチップデバイス2622に結合される。さらに、特定の実施形態では、図26に例示されているように、ディスプレイ2628、カメラ2642、入力デバイス2630、スピーカ2636、マイクロフォン2638、ワイヤレスアンテナ2698、および電源2044は、システムオンチップデバイス2622の外部にある。しかしながら、ディプレイ2628、カメラ2642、入力デバイス2630、スピーカ2636、マイクロフォン2638、ワイヤレスアンテナ2698、および電源2644の各々は、インタフェースまたはコントローラのような、システムオンチップデバイス2622の成分に結合されることができる。
記述されたシステムおよび方法と関連して、ブロブ抽象化を行う方法は、投影を推定する前にブロブを簡略化された幾何学的形態にコンバートすることを含むことができ、投影を推定することは簡略化された幾何学的形態のパラメータに基づく。例えば、その方法は図1のブロブアブストラクタ112によって行われうる。簡略化された幾何学的形態にコンバートされたブロブは、テキストブロブ抽出器104、または図1のようなテキストブロブ抽出器から受信された画素ドメインブロブでありうる。しかしながら他の実施形態では、方法は、図1に関係して記述された曲線性、安定性、および/または重複基準の1つまたは複数に基づいて選択されず、その代わりに図1の汎用ブロブ抽出器106のような、汎用ブロブ抽出器から受信されうるブロブを使用して行われうる。
簡略化された幾何学的形態は、図8に関係して記述されているような、ブロブにおける画素の数よりも小さいパラメータの数を使用して記述されうる、楕円、長円、台形、平行四辺形、ひし形、矩形、三角形、あらゆる他のタイプの多角形、あるいはそれらのあらゆる組み合わせのような、あらゆるタイプの幾何学的形態、または幾何学的形態の組み合わせでありうる。いくつかの実施形態では、ブロブ抽象化は、ブロブ自体を変更することなく、ブロブの特性に基づいて簡略化された幾何学的形態のパラメータを決定するための1つまたは複数の技法(例えば、エネルギー最小化または最小2乗エラー)を適用することによってブロブを簡略化された幾何学的形態に「コンバート」することを含む。簡略化された幾何学的形態を決定した後、投影プロファイル分析は、歪み、傾き、歪みと傾きの両方、またはブロブに関連付けられた1つまたは複数の他の特性を推定するために簡略化された幾何学的形態を使用して行われうる。ブロブは、簡略化された幾何学的形態を使用して決定される特性を補償するために変更されうる。例えば、ブロブに対応するテキストの推定された傾きが簡略化された幾何学的形態の1つまたは複数の推定された投影に基づいて決定されるとき、ブロブは、回転変換をブロブに適用することによって推定された傾きを実質的に補償するために変更されうる。
記述されたシステムおよび方法と関連して、図1のブロブ抽出器106、あるいは図1の画像データ102における1つまたは複数の画像領域を識別するように構成されたあらゆる他の回路またはプロセッサのような画像データにおける画像領域のセットを識別するための手段を含む装置が開示されている。装置はまた、ブロブの安定性に少なくとも部分的に基づいて、テキスト抽出のためにブロブのセットから画像領域を選択するための手段を含む。その装置は、図1の安定したかつ曲線のブロブ選択器108、あるいは例示的な例として図1−図2、および4に関係して記述されたような、安定性処理を適用するように構成されたあらゆる他の回路またはプロセッサを含むことができる。曲線性処理もまた、図1−図2、図4、および図14に関係して記述されるように、適用されうる。
記述されたシステムおよび方法と関連して、画像領域に対応する幾何学的図形を識別するための手段を含む装置が開示されており、画像領域は、画像データで識別されたテキストの少なくとも一部に対応する。その装置は、図1のブロブアブストラクタ112、図26の命令2656を実施するようにプログラミングされたプロセッサ2610、あるいは画像領域に対応する幾何学的図形を識別するように構成されたあらゆる他の回路またはプロセッサを含むことができ、画像領域は、画像データで識別されたテキストの少なくとも一部に対応する。装置はまた、幾何学的図形に少なくとも部分的に基づいて、テキストのためのバウンディングボックスを決定するための手段も含む。その装置は、図1のブロブアブストラクタ112、図1のテキスト領域検出器および2値化エンジン114、図26の命令2656を実施するようにプログラミングされたプロセッサ2610、あるいは幾何学的図形に少なくとも部分的に基づいてテキストのためのバウンディングボックスを決定するように構成されたあらゆる他の回路またはプロセッサを含むことができる。
装置は、しきい値を超える幾何学的図形の第1の適合エラーに応じて画像領域に対応する複数の幾何学的図形を識別するための手段を含むことができる。その装置は、図1のブロブアブストラクタ112、図26の命令2656を実施するようにプログラミングされたプロセッサ2610、あるいはしきい値を超える幾何学的図形の第1の適合エラーに応じて画像領域に対応する複数の幾何学的図形を識別するように構成されたあらゆる他の回路またはプロセッサを含むことができる。
装置は、複数の投影ラインを使用して幾何学的図形の投影プロファイルを決定するための手段を含み、各特定の投影ラインに対応する投影プロファイルの値は、幾何学的図形を有する特定の投影ラインの交差点との間の距離に基づく。その装置は、図1のテキスト領域検出器および2値化エンジン114、図26の命令2656を実施するようにプログラミングされたプロセッサ2610、あるいは複数の投影ラインを使用して幾何学的図形の投影プロファイルを決定するように構成されたあらゆる他の回路またはプロセッサを含むことができる。
装置は、画像領域に対応する複数の幾何学的図形を識別するための手段を含むことができ、画像領域の各々は、テキストの少なくとも一部に対応する。その装置は、図1のブロブアブストラクタ112、図26の命令2656を実施するようにプログラミングされたプロセッサ2610、あるいは画像データにおけるテキストとして識別されたブロブに対応する複数の幾何学的図形を識別するように構成されたあらゆる他の回路またはプロセッサを含むことができる。装置はまた、テキストの歪みを推定するために複数の幾何学的図形の第1の投影プロファイルを決定するための手段、およびテキストの傾きを推定するために複数の幾何学的図形の第2の投影プロファイルを決定するための手段も含むことができる。その装置は、図1のテキスト領域検出器および2値化エンジン114、図26の命令2656を実施するようにプログラミングされたプロセッサ2610、あるいはテキストの歪みおよび傾きを推定するために複数の幾何学的図形の投影プロファイルを決定するように構成されたあらゆる他の回路またはプロセッサを含むことができる。
装置は、図1のテキスト領域検出器および2値化エンジン114、図26の命令2656を実施するようにプログラミングされたプロセッサ2610、あるいは画像データで識別されたブロブのセットからブロブを抽出するように構成されたあらゆる他の回路またはプロセッサのような、画像領域のセットから画像領域を抽出するための手段を含むことができ、画像領域の各々はテキストの少なくとも一部に対応する。装置はさらに、抽出された画像領域を複数のクラスタに区分化するための手段、および他のクラスタの各々から独立した各クラスタの投影プロファイルを決定するための手段を含むことができる。その装置は、図1のテキスト領域検出器および2値化エンジン114、図26の命令2656を実施するようにプログラミングされたプロセッサ2610、あるいは抽出されたブロブを複数のクラスタに区分化し、他のクラスタの各々から独立した各クラスタの投影プロファイルを決定するように構成されたあらゆる他の回路またはプロセッサを含むことができる。
装置は、幾何学的図形の第1のセットを幾何学的図形の第2および第3のセットに区分化するために、画像データで識別された画像領域に対応する幾何学的図形の第1のセットに第1の投影プロファイル分析を行うための手段を含むことができる。その装置は、図1のテキスト領域検出器および2値化エンジン114、図26の命令2656を実施するようにプログラミングされたプロセッサ2610、あるいは幾何学的図形の第1のセットに第1の投影プロファイル分析を行うように構成されたあらゆる他の回路またはプロセッサを含むことができる。装置は、幾何学的図形の第2のセットを幾何学的図形の第4のセットおよび幾何学的図形の第5のセットに区分化するために幾何学的図形の第2のセットに第2の投影プロファイル分析を行うための手段を含むことができる。その装置は、図1のテキスト領域検出器および2値化エンジン114、図26の命令2656を実施するようにプログラミングされたプロセッサ2610、あるいは幾何学的図形の第2のセットを幾何学的図形の第4のセットおよび幾何学的図形の第5のセットに区分化するために幾何学的図形の第2のセットに第2の投影プロファイル分析を行うように構成されたあらゆる他の回路またはプロセッサを含むことができる。
様々な態様がブロブに関係して記述されているけれども、他の実施形態では、テキスト抽出が非ブロブ画像領域に少なくとも部分的に基づきうる。例えば、方法は、画像データで識別された画像領域のセットの指示を受信すること、および1つまたは複数の基準に少なくとも部分的に基づいて、テキスト抽出のために画像領域のセットから画像領域を選択することを含むことができる。特定の実施形態では、方法は、画像領域の安定性に少なくとも部分的に基づいてテキスト抽出のために画像領域のセットから画像領域を選択することを含む。いくつかの実施形態では、画像領域はブロブでありうる(例えば、実質的に類似した画素値を有する画素の結合したグループでありうる)。他の実施形態では、画像の領域の1つまたは複数(または全て)はブロブではなく、その代わりに、1つまたは複数の選択基準にしたがって識別され、安定性のようなテキストに関する特性のためにさらに処理されうる、場合によっては重複する画像データの領域でありうる。
当業者は、ここに開示された実施形態に関連して説明された様々な例示的な論理ブロック、構成、モジュール、回路、およびアルゴリズムステップが、電子ハードウェア、コンピュータソフトウェア、あるいは両方の組み合わせとしてインプリメントされうることをさらに理解するであろう。様々な例示的な成分、ブロック、構成、モジュール、回路、およびステップは、概してそれらの機能の観点から上で記述されてきた。このような機能が、ハードウェアまたはソフトウェアとして実現されるかどうかは、システム全体に課せられている、特定のアプリケーションおよび設計制約に依存する。当業者は、それぞれの特定のアプリケーションのための様々な方法で、記述された機能をインプリメントしうるけれども、このようなインプリメンテーションの決定は、本開示の範囲からの逸脱を引き起こすとして解釈されるべきでない。
ここで開示された実施形態に関連して記述されたアルゴリズムまたは方法のステップは、直接ハードウェアにおいて、プロセッサによって実施されるソフトウェアモジュールにおいて、あるいはその2つの組み合わせにおいて、実現されうる。ソフトウェアモジュールは、ランダムアクセスメモリ(RAM)、フラッシュメモリ、読み出し専用メモリ(ROM)、プログラマブル読み出し専用メモリ(PROM)、消去可能プログラマブル読み出し専用メモリ(EPROM)、電気的消去可能プログラマブル読み出し専用メモリ(EEPROM)、レジスタ、ハードディスク、リムーバブルディスク、コンパクトディスク読み出し専用メモリ(CD−ROM)、あるいは当技術分野において周知であるあらゆる他の形態の記憶媒体に存在しうる。典型的な非トランジトリな(例えば、有体の)記憶媒体は、プロセッサがこの記憶媒体から情報を読み取り、またこの記憶媒体に情報を書き込むことができるように、プロセッサに結合される。代わりとして、記憶媒体は、プロセッサと一体化されうる。プロセッサおよび記憶媒体は、特定用途向け集積回路(ASIC)内に存在しうる。ASICは、コンピューティングデバイスまたはユーザ端末内に存在しうる。代わりとしてプロセッサおよび記憶媒体は、計算デバイスまたはユーザ端末においてディスクリート成分として存在しうる。
開示された実施形態の先の記述は、当業者が開示された実施形態を製造および使用することを可能にするように提供される。これらの実施形態への様々の変更は、当業者にとって容易に明らかであり、ここに定義された原理は、本開示の範囲から逸脱することなく他の実施形態に適用されうる。したがって、本開示は、ここに提示された実施形態に限定されるようには意図されないけれども、以下の特許請求の範囲によって定義されるような原理および新規な特徴と一致する可能な最も広い範囲を与えられることとなる。
開示された実施形態の先の記述は、当業者が開示された実施形態を製造および使用することを可能にするように提供される。これらの実施形態への様々の変更は、当業者にとって容易に明らかであり、ここに定義された原理は、本開示の範囲から逸脱することなく他の実施形態に適用されうる。したがって、本開示は、ここに提示された実施形態に限定されるようには意図されないけれども、以下の特許請求の範囲によって定義されるような原理および新規な特徴と一致する可能な最も広い範囲を与えられることとなる。
以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
[1] 画像データで識別された画像領域のセットの指示を受信することと、画像領域安定性に少なくとも部分的に基づいて、テキスト抽出のために前記画像領域のセットから画像領域を選択することと、を備える、コンピュータによって実施される方法。
[2] 前記画像領域のセットの各画像領域は、実質的に類似した画素値を有する前記画像データの結合された画素のグループに対応するブロブである、[1]に記載のコンピュータによって実施される方法。
[3] 前記画像領域は、さらに画像領域曲線性に少なくとも部分的に基づいて選択される、[1]に記載のコンピュータによって実施される方法。
[4] 前記画像領域曲線性は、画像領域サイズと画像領域ストローク幅との比較に基づいて決定される、[3]に記載のコンピュータによって実施される方法。
[5] 前記画像領域を選択することは、安定性の基準を満たす前記画像領域のセットの画像領域を識別することと、識別された前記画像領域が曲線性の基準を満たすかどうかを決定することと、を含む、[3]に記載のコンピュータによって実施される方法。
[6] 前記画像領域のセットの各画像領域の安定性測定値を決定することをさらに備え、前記安定性の基準を満たす前記画像領域を識別することは、決定された前記安定性測定値の比較に基づいて前記画像領域のセットの最も安定した画像領域を選択することを備える、[5]に記載のコンピュータによって実施される方法。
[7] 各決定された安定性測定値は、しきい値における変化に関係した画像領域のサイズにおける変化を示す、[6]に記載のコンピュータによって実施される方法。
[8] 前記画像領域を選択することは、識別された前記画像領域が前記曲線性の基準を満たしていることを決定した後、識別された前記画像領域と重複する全ての画像領域を前記画像領域のセットから取り除くことをさらに含む、[5]に記載のコンピュータによって実施される方法。
[9] 選択された前記画像領域に対応する幾何学的図形のセットを決定することと、前記幾何学的図形のセットの投影プロファイルを決定することと、をさらに備える、[1]に記載のコンピュータによって実施される方法。
[10] 前記画像領域のセットの少なくとも1つの画像領域は、テキスト抽出にために選択され、前記画像領域のセットの少なくとも別の画像領域は、テキスト抽出のために選択されない、[1]に記載のコンピュータによって実施される方法。
[11] 前記画像領域のセットの少なくとも1つの画像領域は、前記画像領域のセットの別の画像領域と重複する、[1]に記載のコンピュータによって実施される方法。
[12] 画像データで識別された画像領域のセットの指示を生成するように構成された画像領域抽出器と、画像領域安定性に少なくとも部分的に基づいてテキスト抽出のために前記画像領域のセットから画像領域を選択するように構成されたテキスト画像領域選択器と、を備える、装置。
[13] 前記テキスト画像領域選択器は、画像領域曲線性に少なくとも部分的に基づいて前記画像領域を選択するようにさらに構成される、[12]に記載の装置。
[14] 前記テキスト画像領域選択器は、前記画像領域のセットから安定したかつ曲線の画像領域を選択するように構成された選択器と、選択された前記安定したかつ曲線の画像領域と重複する前記画像領域のセットから画像領域を取り除くように構成された重複領域リムーバ、を含む、[13]に記載の装置。
[15] 選択された前記画像領域に対応する幾何学的図形のセットを決定するように構成された画像領域アブストラクタをさらに備える、[12]に記載の装置。
[16] 幾何学的図形のセットの投影プロファイルを決定するように構成されたテキスト領域検出器をさらに備える、[12]に記載の装置。
[17] 画像データにおいて画像領域のセットを識別するための手段と、画像領域安定性に少なくとも部分的に基づいて、テキスト抽出のために前記画像領域のセットから画像領域を選択するための手段と、を備える、装置。
[18] 前記画像領域は、さらに画像領域曲線性に少なくとも部分的に基づいて選択される、[17]に記載の装置。
[19] プロセッサによって実行可能なプログラム命令を記憶するコンピュータ可読記憶媒体であって、前記プログラム命令は、画像データで識別された画像領域のセットの指示を受信するためのコードと、画像領域安定性に少なくとも部分的に基づいて、テキスト抽出のために前記画像領域のセットから画像領域を選択するためのコードと、を備える、コンピュータ可読記憶媒体。
[20] 前記プログラム命令は、さらに画像領域曲線性に少なくとも部分的に基づいて前記画像領域を選択するためのコードをさらに備える、[19]に記載のコンピュータ可読記憶媒体。
[21] 画像領域に対応する幾何学的図形を識別することと、前記画像領域は画像データで識別されたテキストの少なくとも一部に対応し、前記幾何学的図形に少なくとも部分的に基づいて、前記テキストのためのバウンディングボックスを決定することと、を備えるコンピュータによって実施される方法。
[22] しきい値を超える前記画像領域に関係した前記幾何学的図形の第1の適合エラーに応じて、前記画像領域に対応する複数の幾何学的図形を識別するこ、をさらに備える、[21]に記載のコンピュータによって実施される方法。
[23] 前記第1の適合エラーは、前記画像領域の全体のエリアと比較される前記幾何学的図形の外に位置付けられた前記画像領域のエリアに対応する、[22]に記載のコンピュータによって実施される方法。
[24] 前記複数の幾何学的図形の第2の適合エラーが前記第1の適合エラーよりも小さいことに応じて、前記複数の幾何学的図形に投影プロファイル分析を行うことをさらに備える、[22]に記載のコンピュータによって実施される方法。
[25] 前記複数の幾何学的図形は2つの幾何学的図形から成る、[22]に記載のコンピュータによって実施される方法。
[26] 前記幾何学的図形は楕円であり、前記複数の幾何学的図形は複数の楕円を含む、[22]に記載のコンピュータによって実施される方法。
[27] 複数の投影ラインを使用して前記幾何学的図形の投影プロファイルを決定することをさらに備え、各特定の投影ラインに対応する前記投影プロファイルの値は、前記幾何学的図形を有する前記特定の投影ラインの交差点間の距離に基づく、[21]に記載のコンピュータによって実施される方法。
[28] 画像領域に対応する複数の幾何学的図形を識別することと、前記画像領域の各々は、前記テキストの少なくとも一部に対応する、前記テキストの歪みを推定するために前記複数の幾何学的図形の第1の投影プロファイルを決定することと、前記テキストの傾きを推定するために前記複数の幾何学的図形の第2の投影プロファイルを決定することと、をさらに備える、[21]に記載のコンピュータによって実施される方法。
[29] 前記第1の投影プロファイルを決定することは、前記複数の幾何学的図形を横切る平行の投影ラインの複数のセットのアングルに対応する複数の投影プロファイルを決定することと、前記複数の投影プロファイルのあらゆる他の投影プロファイルよりも小さい前記複数の投影プロファイルから投影プロファイルを選択することとを含む、[28]に記載のコンピュータによって実施される方法。
[30] 前記歪みは、水平の基準に対応する前記平行の投影ラインの前記アングルに対応する、[29]に記載のコンピュータによって実施される方法。
[31] 前記第2の投影プロファイルを決定することは、前記複数の幾何学的図形を横切る平行の投影ラインの複数のセットのアングルに対応する複数の投影プロファイルを決定することと、前記複数の投影プロファイルのあらゆる他の投影プロファイルよりも少ない前記複数の幾何学的図形を有する平行の投影プロファイルの交差点を有する前記複数の投影プロファイルから投影プロファイルを選択することとを含む、[28]に記載のコンピュータによって実施される方法。
[32] 画像領域のセットから画像領域を抽出することと、前記画像領域の各々は前記テキストの少なくとも一部に対応する、前記抽出された画像領域を複数のクラスタに区分化することと、他のクラスタの各々から独立して各クラスタの投影プロファイルを決定することと、をさらに備える、[21]に記載のコンピュータによって実施される方法。
[33] 抽出された前記画像領域を区分化することは、前記テキストのストローク幅に少なくとも部分的に基づく、[32]に記載のコンピュータによって実施される方法。
[34] 抽出された前記画像領域を区分化することは、前記テキストの色に少なくとも部分的に基づく、[32]に記載のコンピュータによって実施される方法。
[35] 幾何学的図形の第1のセットを幾何学的図形の第2のセットおよび幾何学的図形の第3のセットに区分化するために、前記画像データで識別された画像領域に対応する前記幾何学的図形の第1のセットに第1の投影プロファイル分析を行うことと、前記幾何学的図形の第2のセットを幾何学的図形の第4のセットおよび幾何学的図形の第5のセットに区分化するために前記幾何学的図形の第2のセットに第2の投影プロファイル分析を行うことと、をさらに備える、[32]に記載のコンピュータによって実施される方法。
[36] 前記幾何学的図形の第3のセットは、前記テキストの第1のラインに対応し、前記幾何学的図形の第4のセットは、前記テキストの第2のラインに対応し、前記幾何学的図形の第5のセットは、前記テキストの第3のラインに対応する、[35]に記載のコンピュータによって実施される方法。
[37] プロセッサと、 画像領域に対応する幾何学的図形を識別することと、前記画像領域は画像データで識別されたテキストの少なくとも一部に対応する、 前記幾何学的図形に少なくとも部分的に基づいて、前記テキストのためのバウンディングボックスを決定することと、が前記プロセッサによって実行可能な命令を記憶するメモリと、を備える、装置。
[38] 前記命令はさらに、しきい値を超える前記画像領域に関係した前記幾何学的図形の第1の適合エラーに応じて、前記画像領域に対応する複数の幾何学的図形を識別することが前記プロセッサによって実行可能である、[37]に記載の装置。
[39] 前記命令はさらに、複数の投影ラインを使用して前記幾何学的図形の投影プロファイルを決定することが前記プロセッサによって実行可能であり、各特定の投影ラインに対応する前記投影プロファイルの値は、前記幾何学的図形を有する前記特定の投影ラインの交差点間の距離に基づく、[27]に記載の装置。
[40] 前記命令はさらに、画像領域に対応する複数の幾何学的図形を識別することと、前記画像領域の各々は、前記テキストの少なくとも一部に対応し、前記テキストの歪みを推定するために前記複数の幾何学的図形の第1の投影プロファイルを決定することと、前記テキストの傾きを推定するために前記複数の幾何学的図形の第2の投影プロファイルを決定することと、が前記プロセッサによって実行可能である、[27]に記載の装置。
[41] 前記命令はさらに、画像領域のセットから画像領域を抽出することと、前記画像領域の各々は前記テキストの少なくとも一部に対応する、前記抽出された画像領域を複数のクラスタに区分化することと、他のクラスタの各々から独立して各クラスタの投影プロファイルを決定することと、が前記プロセッサによって実行可能である、[27]に記載の装置。
[42] 前記命令はさらに、幾何学的図形の第1のセットを幾何学的図形の第2のセットおよび幾何学的図形の第3のセットに区分化するために、前記画像データで識別された画像領域に対応する前記幾何学的図形の第1のセットに第1の投影プロファイル分析を行うことと、前記幾何学的図形の第2のセットを幾何学的図形の第4のセットおよび幾何学的図形の第5のセットに区分化するために前記幾何学的図形の第2のセットに第2の投影プロファイル分析を行うことと、が前記プロセッサによって実行可能である、[27]に記載の装置。

Claims (42)

  1. 画像データで識別された画像領域のセットの指示を受信することと、
    画像領域安定性に少なくとも部分的に基づいて、テキスト抽出のために前記画像領域のセットから画像領域を選択することと、
    を備える、コンピュータによって実施される方法。
  2. 前記画像領域のセットの各画像領域は、実質的に類似した画素値を有する前記画像データの結合された画素のグループに対応するブロブである、請求項1に記載のコンピュータによって実施される方法。
  3. 前記画像領域は、さらに画像領域の曲線性に少なくとも部分的に基づいて選択される、請求項1に記載のコンピュータによって実施される方法。
  4. 前記画像領域の曲線性は、画像領域サイズと画像領域ストローク幅との比較に基づいて決定される、請求項3に記載のコンピュータによって実施される方法。
  5. 前記画像領域を選択することは、
    安定性の基準を満たす前記画像領域のセットの画像領域を識別することと、
    識別された前記画像領域が曲線性の基準を満たすかどうかを決定することと、
    を含む、請求項3に記載のコンピュータによって実施される方法。
  6. 前記画像領域のセットの各画像領域の安定性測定値を決定することをさらに備え、前記安定性の基準を満たす前記画像領域を識別することは、決定された前記安定性測定値の比較に基づいて前記画像領域のセットの最も安定した画像領域を選択することを備える、請求項5に記載のコンピュータによって実施される方法。
  7. 各決定された安定性測定値は、しきい値における変化に関係した画像領域のサイズにおける変化を示す、請求項6に記載のコンピュータによって実施される方法。
  8. 前記画像領域を選択することは、識別された前記画像領域が前記曲線性の基準を満たしていることを決定した後、識別された前記画像領域と重複する全ての画像領域を前記画像領域のセットから取り除くことをさらに含む、請求項5に記載のコンピュータによって実施される方法。
  9. 選択された前記画像領域に対応する幾何学的図形のセットを決定することと、
    前記幾何学的図形のセットの投影プロファイルを決定することと、
    をさらに備える、請求項1に記載のコンピュータによって実施される方法。
  10. 前記画像領域のセットの少なくとも1つの画像領域は、テキスト抽出にために選択され、前記画像領域のセットの少なくとも別の画像領域は、テキスト抽出のために選択されない、請求項1に記載のコンピュータによって実施される方法。
  11. 前記画像領域のセットの少なくとも1つの画像領域は、前記画像領域のセットの別の画像領域と重複する、請求項1に記載のコンピュータによって実施される方法。
  12. 画像データで識別された画像領域のセットの指示を生成するように構成された画像領域抽出器と、
    画像領域の安定性に少なくとも部分的に基づいてテキスト抽出のために前記画像領域のセットから画像領域を選択するように構成されたテキスト画像領域選択器と、
    を備える、装置。
  13. 前記テキスト画像領域選択器は、画像領域曲線性に少なくとも部分的に基づいて前記画像領域を選択するようにさらに構成される、請求項12に記載の装置。
  14. 前記テキスト画像領域選択器は、
    前記画像領域のセットから安定したかつ曲線の画像領域を選択するように構成された選択器と、
    選択された前記安定したかつ曲線の画像領域と重複する前記画像領域のセットから画像領域を取り除くように構成された重複領域リムーバと
    を含む、請求項13に記載の装置。
  15. 選択された前記画像領域に対応する幾何学的図形のセットを決定するように構成された画像領域アブストラクタをさらに備える、請求項12に記載の装置。
  16. 幾何学的図形のセットの投影プロファイルを決定するように構成されたテキスト領域検出器をさらに備える、請求項12に記載の装置。
  17. 画像データにおいて画像領域のセットを識別するための手段と、
    画像領域の安定性に少なくとも部分的に基づいて、テキスト抽出のために前記画像領域のセットから画像領域を選択するための手段と、
    を備える、装置。
  18. 前記画像領域は、さらに画像領域の曲線性に少なくとも部分的に基づいて選択される、請求項17に記載の装置。
  19. プロセッサによって実行可能なプログラム命令を記憶するコンピュータ可読記憶媒体であって、前記プログラム命令は、
    画像データで識別された画像領域のセットの指示を受信するためのコードと、画像領域の安定性に少なくとも部分的に基づいて、テキスト抽出のために前記画像領域のセットから画像領域を選択するためのコードと、
    を備える、コンピュータ可読記憶媒体。
  20. 前記プログラム命令は、さらに画像領域の曲線性に少なくとも部分的に基づいて前記画像領域を選択するためのコードをさらに備える、請求項19に記載のコンピュータ可読記憶媒体。
  21. 画像領域に対応する幾何学的図形を識別することと、前記画像領域は画像データで識別されたテキストの少なくとも一部に対応し、
    前記幾何学的図形に少なくとも部分的に基づいて、前記テキストのためのバウンディングボックスを決定することと、
    を備えるコンピュータによって実施される方法。
  22. しきい値を超える前記画像領域に関係した前記幾何学的図形の第1の適合エラーに応じて、前記画像領域に対応する複数の幾何学的図形を識別すること
    をさらに備える、請求項21に記載のコンピュータによって実施される方法。
  23. 前記第1の適合エラーは、前記画像領域の全体のエリアと比較される前記幾何学的図形の外に位置付けられた前記画像領域のエリアに対応する、請求項22に記載のコンピュータによって実施される方法。
  24. 前記複数の幾何学的図形の第2の適合エラーが前記第1の適合エラーよりも小さいことに応じて、前記複数の幾何学的図形に投影プロファイル分析を行うことをさらに備える、請求項22に記載のコンピュータによって実施される方法。
  25. 前記複数の幾何学的図形は2つの幾何学的図形から成る、請求項22に記載のコンピュータによって実施される方法。
  26. 前記幾何学的図形は楕円であり、前記複数の幾何学的図形は複数の楕円を含む、請求項22に記載のコンピュータによって実施される方法。
  27. 複数の投影ラインを使用して前記幾何学的図形の投影プロファイルを決定することをさらに備え、
    各特定の投影ラインに対応する前記投影プロファイルの値は、前記幾何学的図形を有する前記特定の投影ラインの交差点間の距離に基づく、
    請求項21に記載のコンピュータによって実施される方法。
  28. 画像領域に対応する複数の幾何学的図形を識別することと、前記画像領域の各々は、前記テキストの少なくとも一部に対応する、
    前記テキストの歪みを推定するために前記複数の幾何学的図形の第1の投影プロファイルを決定することと、
    前記テキストの傾きを推定するために前記複数の幾何学的図形の第2の投影プロファイルを決定することと、
    をさらに備える、請求項21に記載のコンピュータによって実施される方法。
  29. 前記第1の投影プロファイルを決定することは、前記複数の幾何学的図形を横切る平行の投影ラインの複数のセットのアングルに対応する複数の投影プロファイルを決定することと、前記複数の投影プロファイルのあらゆる他の投影プロファイルよりも小さい前記複数の投影プロファイルから投影プロファイルを選択することとを含む、請求項28に記載のコンピュータによって実施される方法。
  30. 前記歪みは、水平の基準に対応する前記平行の投影ラインの前記アングルに対応する、請求項29に記載のコンピュータによって実施される方法。
  31. 前記第2の投影プロファイルを決定することは、前記複数の幾何学的図形を横切る平行の投影ラインの複数のセットのアングルに対応する複数の投影プロファイルを決定することと、前記複数の投影プロファイルのあらゆる他の投影プロファイルよりも少ない前記複数の幾何学的図形を有する平行の投影プロファイルの交差点を有する前記複数の投影プロファイルから投影プロファイルを選択することとを含む、請求項28に記載のコンピュータによって実施される方法。
  32. 画像領域のセットから画像領域を抽出することと、前記画像領域の各々は前記テキストの少なくとも一部に対応する、
    前記抽出された画像領域を複数のクラスタに区分化することと、
    他のクラスタの各々から独立して各クラスタの投影プロファイルを決定することと、
    をさらに備える、請求項21に記載のコンピュータによって実施される方法。
  33. 抽出された前記画像領域を区分化することは、前記テキストのストローク幅に少なくとも部分的に基づく、請求項32に記載のコンピュータによって実施される方法。
  34. 抽出された前記画像領域を区分化することは、前記テキストの色に少なくとも部分的に基づく、請求項32に記載のコンピュータによって実施される方法。
  35. 幾何学的図形の第1のセットを幾何学的図形の第2のセットおよび幾何学的図形の第3のセットに区分化するために、前記画像データで識別された画像領域に対応する前記幾何学的図形の第1のセットに第1の投影プロファイル分析を行うことと、
    前記幾何学的図形の第2のセットを幾何学的図形の第4のセットおよび幾何学的図形の第5のセットに区分化するために前記幾何学的図形の第2のセットに第2の投影プロファイル分析を行うことと、
    をさらに備える、請求項32に記載のコンピュータによって実施される方法。
  36. 前記幾何学的図形の第3のセットは、前記テキストの第1のラインに対応し、前記幾何学的図形の第4のセットは、前記テキストの第2のラインに対応し、前記幾何学的図形の第5のセットは、前記テキストの第3のラインに対応する、請求項35に記載のコンピュータによって実施される方法。
  37. プロセッサと、
    画像領域に対応する幾何学的図形を識別することと、前記画像領域は画像データで識別されたテキストの少なくとも一部に対応する、
    前記幾何学的図形に少なくとも部分的に基づいて、前記テキストのためのバウンディングボックスを決定することと、
    が前記プロセッサによって実行可能な命令を記憶するメモリと、
    を備える、装置。
  38. 前記命令はさらに、しきい値を超える前記画像領域に関係した前記幾何学的図形の第1の適合エラーに応じて、前記画像領域に対応する複数の幾何学的図形を識別することが前記プロセッサによって実行可能である、請求項37に記載の装置。
  39. 前記命令はさらに、複数の投影ラインを使用して前記幾何学的図形の投影プロファイルを決定することが前記プロセッサによって実行可能であり、各特定の投影ラインに対応する前記投影プロファイルの値は、前記幾何学的図形を有する前記特定の投影ラインの交差点間の距離に基づく、
    請求項27に記載の装置。
  40. 前記命令はさらに、
    画像領域に対応する複数の幾何学的図形を識別することと、前記画像領域の各々は、前記テキストの少なくとも一部に対応し、
    前記テキストの歪みを推定するために前記複数の幾何学的図形の第1の投影プロファイルを決定することと、
    前記テキストの傾きを推定するために前記複数の幾何学的図形の第2の投影プロファイルを決定することと、
    が前記プロセッサによって実行可能である、請求項27に記載の装置。
  41. 前記命令はさらに、
    画像領域のセットから画像領域を抽出することと、前記画像領域の各々は前記テキストの少なくとも一部に対応する、
    前記抽出された画像領域を複数のクラスタに区分化することと、
    他のクラスタの各々から独立して各クラスタの投影プロファイルを決定することと、
    が前記プロセッサによって実行可能である、請求項27に記載の装置。
  42. 前記命令はさらに、
    幾何学的図形の第1のセットを幾何学的図形の第2のセットおよび幾何学的図形の第3のセットに区分化するために、前記画像データで識別された画像領域に対応する前記幾何学的図形の第1のセットに第1の投影プロファイル分析を行うことと、前記幾何学的図形の第2のセットを幾何学的図形の第4のセットおよび幾何学的図形の第5のセットに区分化するために前記幾何学的図形の第2のセットに第2の投影プロファイル分析を行うことと、
    が前記プロセッサによって実行可能である、請求項27に記載の装置。
JP2014528402A 2011-09-06 2012-07-31 画像領域を使用するテキスト検出 Expired - Fee Related JP5837205B2 (ja)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201161531547P 2011-09-06 2011-09-06
US61/531,547 2011-09-06
US201161543548P 2011-10-05 2011-10-05
US61/543,548 2011-10-05
US13/412,853 US8942484B2 (en) 2011-09-06 2012-03-06 Text detection using image regions
US13/412,853 2012-03-06
PCT/US2012/048974 WO2013036329A1 (en) 2011-09-06 2012-07-31 Text detection using image regions

Publications (2)

Publication Number Publication Date
JP2014525626A true JP2014525626A (ja) 2014-09-29
JP5837205B2 JP5837205B2 (ja) 2015-12-24

Family

ID=47753234

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014528402A Expired - Fee Related JP5837205B2 (ja) 2011-09-06 2012-07-31 画像領域を使用するテキスト検出

Country Status (6)

Country Link
US (1) US8942484B2 (ja)
EP (1) EP2754097A1 (ja)
JP (1) JP5837205B2 (ja)
KR (1) KR20140045573A (ja)
CN (1) CN103765441A (ja)
WO (1) WO2013036329A1 (ja)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9251144B2 (en) * 2011-10-19 2016-02-02 Microsoft Technology Licensing, Llc Translating language characters in media content
US9064191B2 (en) 2012-01-26 2015-06-23 Qualcomm Incorporated Lower modifier detection and extraction from devanagari text images to improve OCR performance
US9053361B2 (en) 2012-01-26 2015-06-09 Qualcomm Incorporated Identifying regions of text to merge in a natural image or video frame
US9047540B2 (en) 2012-07-19 2015-06-02 Qualcomm Incorporated Trellis based word decoder with reverse pass
US9141874B2 (en) 2012-07-19 2015-09-22 Qualcomm Incorporated Feature extraction and use with a probability density function (PDF) divergence metric
US9014480B2 (en) 2012-07-19 2015-04-21 Qualcomm Incorporated Identifying a maximally stable extremal region (MSER) in an image by skipping comparison of pixels in the region
US9262699B2 (en) 2012-07-19 2016-02-16 Qualcomm Incorporated Method of handling complex variants of words through prefix-tree based decoding for Devanagiri OCR
US9076242B2 (en) * 2012-07-19 2015-07-07 Qualcomm Incorporated Automatic correction of skew in natural images and video
US20140193029A1 (en) * 2013-01-08 2014-07-10 Natalia Vassilieva Text Detection in Images of Graphical User Interfaces
US10296933B2 (en) * 2013-04-12 2019-05-21 Facebook, Inc. Identifying content in electronic images
US9245192B2 (en) * 2013-09-20 2016-01-26 Here Global B.V. Ad collateral detection
US9329692B2 (en) 2013-09-27 2016-05-03 Microsoft Technology Licensing, Llc Actionable content displayed on a touch screen
US9245341B2 (en) 2014-04-14 2016-01-26 Intuit Inc. Image acquisition using a level-indication icon
KR20160032586A (ko) * 2014-09-16 2016-03-24 삼성전자주식회사 관심영역 크기 전이 모델 기반의 컴퓨터 보조 진단 장치 및 방법
KR200483242Y1 (ko) * 2015-10-23 2017-05-02 김우섭 모바일 디바이스를 이용한 신분증 인식 장치
CN107481253B (zh) * 2017-08-03 2021-03-16 上海音乐学院 一种基于边缘的斑点检测方法
KR102598104B1 (ko) * 2018-02-23 2023-11-06 삼성전자주식회사 외부 전자 장치로부터 텍스트 정보를 수신하는 시간 동안에 발생된 움직임을 보상하여 이미지에 포함된 객체 위에 텍스트 정보를 표시하는 방법 및 그 전자 장치
JP7067262B2 (ja) * 2018-05-21 2022-05-16 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
US11017258B2 (en) * 2018-06-05 2021-05-25 Microsoft Technology Licensing, Llc Alignment of user input on a screen
CN110807807B (zh) * 2018-08-01 2022-08-05 深圳市优必选科技有限公司 一种单目视觉的目标定位的图案、方法、装置及设备
CN109409356B (zh) * 2018-08-23 2021-01-08 浙江理工大学 一种基于swt的多方向中文印刷体文字检测方法
US11023720B1 (en) * 2018-10-30 2021-06-01 Workday, Inc. Document parsing using multistage machine learning
CN111401110A (zh) * 2019-01-03 2020-07-10 百度在线网络技术(北京)有限公司 用于提取信息的方法和装置
CN111695381B (zh) * 2019-03-13 2024-02-02 杭州海康威视数字技术股份有限公司 一种文本特征提取方法、装置、电子设备及可读存储介质
CN110135408B (zh) * 2019-03-26 2021-02-19 北京捷通华声科技股份有限公司 文本图像检测方法、网络以及设备
WO2020194004A1 (en) * 2019-03-28 2020-10-01 The Nielsen Company (Us), Llc Methods and apparatus to detect a text region of interest in a digital image using machine-based analysis
US11410446B2 (en) 2019-11-22 2022-08-09 Nielsen Consumer Llc Methods, systems, apparatus and articles of manufacture for receipt decoding
US11810380B2 (en) 2020-06-30 2023-11-07 Nielsen Consumer Llc Methods and apparatus to decode documents based on images using artificial intelligence
CN112200181B (zh) * 2020-08-19 2023-10-10 西安理工大学 一种基于粒子群优化算法的文字形状逼近方法
CN113420167A (zh) * 2021-05-14 2021-09-21 北京达佳互联信息技术有限公司 多媒体资源处理方法、装置、电子设备及存储介质
US11822216B2 (en) 2021-06-11 2023-11-21 Nielsen Consumer Llc Methods, systems, apparatus, and articles of manufacture for document scanning
US11625930B2 (en) 2021-06-30 2023-04-11 Nielsen Consumer Llc Methods, systems, articles of manufacture and apparatus to decode receipts based on neural graph architecture
WO2024043602A1 (ko) * 2022-08-26 2024-02-29 삼성전자 주식회사 이미지로부터 텍스트를 획득하는 방법 및 서버

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5442715A (en) * 1992-04-06 1995-08-15 Eastman Kodak Company Method and apparatus for cursive script recognition
JP3733161B2 (ja) * 1995-08-01 2006-01-11 キヤノン株式会社 画像処理装置および方法
JPH1021332A (ja) 1996-07-03 1998-01-23 Tamura Electric Works Ltd 非線形正規化方法
JP3077745B2 (ja) * 1997-07-31 2000-08-14 日本電気株式会社 データ処理方法および装置、情報記憶媒体
JP3639126B2 (ja) 1998-01-22 2005-04-20 富士通株式会社 住所認識装置及び住所認識方法
JP3904840B2 (ja) * 2000-08-15 2007-04-11 富士通株式会社 多値画像から罫線を抽出する罫線抽出装置
JP4421134B2 (ja) 2001-04-18 2010-02-24 富士通株式会社 文書画像検索装置
US7139004B2 (en) * 2002-01-25 2006-11-21 Xerox Corporation Method and apparatus to convert bitmapped images for use in a structured text/graphics editor
US20030164819A1 (en) * 2002-03-04 2003-09-04 Alex Waibel Portable object identification and translation system
JP4112968B2 (ja) * 2002-12-26 2008-07-02 富士通株式会社 ビデオテキスト処理装置
US7542610B2 (en) 2005-05-09 2009-06-02 Like.Com System and method for use of images with recognition analysis
US20070115510A1 (en) * 2005-11-18 2007-05-24 International Business Machines Corporation Marking images of text with speckle patterns for theft deterrence
US8031940B2 (en) 2006-06-29 2011-10-04 Google Inc. Recognizing text in images using ranging data
JP5015540B2 (ja) * 2006-09-28 2012-08-29 富士通株式会社 電子透かし埋め込み装置および検出装置
JP5152203B2 (ja) * 2008-01-24 2013-02-27 富士通株式会社 画像処理装置、画像処理方法、画像処理プログラムおよび画像補正装置
US20100073735A1 (en) * 2008-05-06 2010-03-25 Compulink Management Center, Inc. Camera-based document imaging
CN101593278B (zh) * 2008-05-27 2013-01-16 佳能株式会社 文档图像的语言判别方法和系统
CN101587540B (zh) * 2009-04-16 2011-08-03 大连理工大学 一种利用页面文档几何失真检测文档来源的打印机取证方法
CN101930587A (zh) * 2009-06-19 2010-12-29 株式会社理光 水印信息扩展编码、嵌入、评估、检测提取方法和装置
US8520983B2 (en) 2009-10-07 2013-08-27 Google Inc. Gesture-based selective text recognition
KR101645994B1 (ko) 2009-12-29 2016-08-05 삼성전자주식회사 문자 인식 영역 검출 장치 및 문자 인식 방법
CN101894154B (zh) * 2010-07-13 2012-02-15 重庆大学 一种图像文档关键图案的提取方法

Also Published As

Publication number Publication date
EP2754097A1 (en) 2014-07-16
CN103765441A (zh) 2014-04-30
WO2013036329A1 (en) 2013-03-14
JP5837205B2 (ja) 2015-12-24
KR20140045573A (ko) 2014-04-16
US8942484B2 (en) 2015-01-27
US20130058575A1 (en) 2013-03-07

Similar Documents

Publication Publication Date Title
JP5837205B2 (ja) 画像領域を使用するテキスト検出
Tian et al. Text flow: A unified text detection system in natural scene images
US5410611A (en) Method for identifying word bounding boxes in text
CN110050277A (zh) 用于将手写文本转换成数字墨水的方法和系统
US9519838B2 (en) Character recognition method
CN107392141B (zh) 一种基于显著性检测和lsd直线检测的机场提取方法
US20160026899A1 (en) Text line detection in images
CN105303156B (zh) 字符检测装置、方法及程序
US9959475B2 (en) Table data recovering in case of image distortion
WO2019128254A1 (zh) 图像分析方法、装置、电子设备及可读存储介质
Shivakumara et al. New gradient-spatial-structural features for video script identification
Chiang et al. Recognition of multi-oriented, multi-sized, and curved text
CN111340020A (zh) 一种公式识别方法、装置、设备及存储介质
CN113011426A (zh) 一种识别证件的方法和装置
JPH06301781A (ja) コンピュータによるパターン認識のためのイメージ変換方法及び装置
CN111738252B (zh) 图像中的文本行检测方法、装置及计算机系统
JP6628336B2 (ja) 情報処理システム
CN114511857A (zh) 一种ocr识别结果处理方法、装置、设备及存储介质
Gui et al. A fast caption detection method for low quality video images
KR102167433B1 (ko) 다중 패턴 문자 영상 자동 생성 기반 문자 인식 장치 및 그 방법
US9152876B1 (en) Methods and systems for efficient handwritten character segmentation
Xu et al. Touching character separation in Chinese handwriting using visibility-based foreground analysis
CN114387600A (zh) 文本特征识别方法、装置、计算机设备和存储介质
US20230036812A1 (en) Text Line Detection
KR101012101B1 (ko) 한글 인식 방법 및 장치

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141224

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150106

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150331

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20151006

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20151104

R150 Certificate of patent or registration of utility model

Ref document number: 5837205

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees