JP2014525626A

JP2014525626A - 画像領域を使用するテキスト検出

Info

Publication number: JP2014525626A
Application number: JP2014528402A
Authority: JP
Inventors: コー、ヒュン―イル; ユ、キスン
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2011-09-06
Filing date: 2012-07-31
Publication date: 2014-09-29
Anticipated expiration: 2032-07-31
Also published as: US20130058575A1; JP5837205B2; CN103765441A; US8942484B2; EP2754097A1; WO2013036329A1; KR20140045573A

Abstract

方法は、画像データで識別された画像領域のセットの指示を受信することを含む。その方法は、画像領域の安定性に少なくとも部分的に基づいて、テキスト抽出のために画像領域のセットから画像領域を選択することをさらに含む。

Description

本開示は、概して画像処理に関する。

関連出願の説明

技術における進歩は、より小型で、より強力な計算機器をもたらした。例えば、小型で、軽く、かつユーザによって容易に持ち運ばれる携帯用ワイヤレス電話、携帯情報端末（ＰＤＡ）、およびページング機器のような、ワイヤレス計算機器を含む様々な携帯用パーソナル計算機器が現在存在している。より具体的には、セルラ電話およびインターネットプロトコル（ＩＰ）電話のような携帯用ワイヤレス電話は、ワイヤレスネットワーク上で音声およびデータパケットを通信することができる。さらに、多くのこのようなワイヤレス電話は、その中に組み込まれるその他のタイプの機器を含む。例えば、ワイヤレス電話は、デジタルスチルカメラ、デジタルビデオカメラ、デジタルレコーダ、およびオーディオファイルプレーヤも含むことができる。

テキスト検出は、機器のカメラによって捕捉された画像におけるテキストを識別するために計算デバイスによって行われうる。従来のテキスト検出は、画像におけるテキストの色が画像の背景色と異なることを、明示的にまたは暗黙的に要求しうる。そのような従来のテキスト検出は、画像の背景と実質的に同じ色を有するテキストを確実に検出することができないことがある。代わりに、色のセグメント化の方法が、テキスト検出のために使用されることができる。色のセグメント化は、画像の背景と実質的に同じ色を有するテキストのテキスト検出を可能にしうる。しかしながら、色のセグメント化は、パーソナルコンピュータを基準とした実施を計算的に要望する傾向にあり、ワイヤレス電話のような携帯用電子機器には適していないことがある。

２値化プロセスが入力画像の非テキスト部分と入力画像の検出されたテキスト部分を対比させる２値画像を生成するように行われた後、投影プロファイル分析は、テキストラインの歪み（例えば、テキストラインが水平から外れているアングル）を推定するために、および／またはテキストの傾き（例えば、イタリックテキストのような、テキストが傾いているアングル）を推定するために、２値画像に適用されうる。傾きおよび歪みに対する補償は、テキストのより強固な文字認識を可能にする。しかしながら、２値画像におけるテキストの正確な投影プロファイル分析もまた、計算的に要望し、携帯用電子機器には適していないことがある。

本願は、各々がその全文に参照により組み込まれる、２０１１年９月６日に出願された米国仮特許出願第６１／５３１，５４７号、２０１１年１０月５日に出願された米国仮特許出願第６１／５４３，５４８号、および２０１２年３月６日に出願された米国非仮出願第１３／４１２，８５３号による優先権を主張する。

ブロブ（blob）に基づくテキスト抽出は、画像におけるテキストブロブを、安定した、曲線の、かつ重複しないブロブとして位置付けることを含む。ブロブ抽象化は、投影プロファイル分析の計算負荷を低減するために、投影プロファイル分析の前に行われうる。テキストの傾きおよび歪みは、後に続く文字認識処理のための投影プロファイル分析に基づいて補償(compensated)されうる。

特定の実施形態では、方法は、画像データで識別された画像領域のセットの指示を受信すること、および画像領域の安定性に少なくとも部分的に基づいて、テキスト抽出のために画像領域のセットから画像領域を選択することを含む。いくつかの実施形態では、画像領域は画像領域の曲線性にさらに部分的に基づいて選択されうる。

別の特定の実施形態では、装置は画像データで識別された画像領域のセットの指示を生成するように構成された画像領域抽出器を含む。その装置はまた、画像領域の安定性に少なくとも部分的に基づいてテキスト抽出のために画像領域のセットから画像領域を選択するように構成されたテキスト画像領域選択器も含む。

別の特定の実施形態では、方法は、画像領域に対応する幾何学的図形を識別することを含む。画像領域は、少なくとも画像データにおいて識別されたテキストの一部に対応する。その方法はさらに、幾何学的図形に少なくとも部分的に基づいて、テキストのためのバウンディングボックスを決定することを含む。

いくつかの実施形態では、適合エラーが利用されうる。例えば、しきい値を超える画像領域に関係する第１の幾何学的図形の第１の適合エラーに応じて、その方法は、画像領域に対応する複数の幾何学的図形を識別することを含むことができる。

いくつかの実施形態では、投影プロファイル分析が利用されうる。例えば、その方法は、複数の投影ラインを使用して幾何学的図形の投影プロファイルを決定することを含むことができる。投影プロファイルの値は、各特定の投影ラインに対応し、幾何学的図形を有する特定の投影ラインの交差点間の距離に基づきうる。

別の特定の実施形態では、その方法は、画像領域に対応する複数の幾何学的図形を識別することを含むことができ、その画像領域の各々は、テキストの少なくとも一部に対応する。複数の幾何学的図形の第１の投影プロファイルは、テキストの歪みを推定するために決定されうる。複数の幾何学的図形の第２の投影プロファイルは、テキストの傾きを推定するために決定されうる。

別の特定の実施形態では、その方法は、画像領域のセットから画像領域を抽出することを含むことができ、その画像領域の各々は、テキストの少なくとも一部に対応する。その方法はさらに、抽出された画像領域を複数のクラスタに区分化すること、および他のクラスタの各々から独立した各クラスタの投影プロファイルを決定することを含むことができる。

別の特定の実施形態では、その方法は、画像データで識別された画像領域に対応する幾何学的図形の第１のセットに第１の投影プロファイル分析を行うことを含むことができる。第１の投影プロファイル分析は、幾何学的図形の第２のセットおよび幾何学的図形の第３のセットに幾何学的図形第１のセットを区分化することができる。その方法はさらに、幾何学的図形の第２のセットに第２の投影プロファイル分析を行うことを含むことができる。第２の投影プロファイル分析は、幾何学的図形の第４のセットおよび幾何学的図形の第５のセットに幾何学的図形の第２のセットを区分化することができる。

開示された実施形態の少なくとも１つによって提供される特定の利点は、背景色とは異なるテキストの色を通常要求する従来の２値化技法と比較してテキスト色が背景色とは異なることを要求することなく、ならびに色セグメント化技法と比較して低減された計算要望を伴って、画像内のテキストを識別する能力を含む。

本開示の他の態様、利点、および特徴が、下記のセクション：図面の簡単な説明、発明を実施するための形態、および特許請求の範囲、を含む本願全体の検討後に明らかになるであろう。

テキスト検出を提供するためのシステムの特定の実施形態のブロック図。図１のシステムによって行われうるテキスト検出の方法のフロー図。図１のシステムによって検出されうるテキストを含む画像の例を例示する図。図１のシステムによって行われうるブロブ抽出の例示的な例を描写する図。図４のブロブ抽出の結果の例示的な例を描写する図。図１のシステムによって検出されうるテキスト画像データの例を例示する図。図１のシステムによって行われうる投影プロファイル分析の例示的な例を描写する図。図１のシステムによって行われうるブロブ抽象化の例示的な例を描写する図。図１のシステムによって行われうるテキスト効果補償（text effect compensation）の例を例示する図。図１のシステムによって行われうるテキスト効果補償の追加の例を例示する図。図１のシステムによって行われうる傾き補償（tilt compensation）の例示的な例を描写する図。図１のシステムによって検出および訂正されうるテキスト歪みおよび傾きの例示的な例を描写する図。図１のシステムによって行われうる抽象化されたブロブの中央ライン処理の特定の実施形態を例示する図。図１のシステムによって行われうるストローク幅の決定の例示的な例を描写する図。ブロブに基づくテキスト検出の特定の例示的な実施形態のフローチャート。図１のシステムによって行われうるブロブ抽象化の例を例示する図。図１のシステムによって行われうる幾何学的図形を使用するブロブ抽象化の方法の特定の例示的な実施形態のフローチャート。図１のシステムによって行われうるブロブ投影の例示的な例を描写する図。図１のシステムによって行われうる幾何学的図形を使用するブロブ投影の方法の特定の例示的な実施形態のフローチャート。図１のシステムによって行われうる投影プロファイル分析の例示的な例を描写する図。図１のシステムによって行われうる投影プロファイル分析の方法の特定の例示的な実施形態のフローチャート。図１のシステムによって行われうるブロブのセットを区分化する例示的な例を描写する図。図１のシステムによって行われうるブロブのセットを区分化する方法の特定の例示的な実施形態のフローチャート。図１のシステムによって行われうる幾何学的図形に対する複数の投影プロファイル分析の例示的な例を描写する図。図１のシステムによって行われうる幾何学的図形に対する複数の投影分析を行う方法の特定の例示的な実施形態のフローチャート。ブロブに基づくテキスト抽出器を含む携帯用デバイスのブロック図。

図１を参照すると、画像領域に基づくテキスト検出（例えば、ブロブ抽出）を含むシステム１００の特定の実施形態が例示されている。システム１００は、ブロブアブストラクタ（abstractor）１１２に結合されたテキストブロブ抽出器１０４を含む。ブロブアブストラクタ１１２は、テキスト領域検出器および２値化エンジン１１４に結合されている。テキストブロブ抽出器１０４は、画像データ１０２を受信し、ブロブ抽出器１０６でブロブを識別するように構成されている。「ブロブ」は、画像データ１０２の実質的に均質的な領域である。例えば、ブロブ抽出器１０６は、画像データ１０２をスキャンし、実質的に変化しない画素明度または彩度を有する画像データ１０２の領域を識別するように構成されうる。例示するために、画像の色空間の領域が識別され、識別された色空間内の画素値を有する連続的な画素のセットはブロブとして識別されうる。ブロブ抽出器１０６は、いずれのブロブがテキスト候補であるか非テキスト候補であるかを検出するように特に構成されることなく画像データ内のブロブを識別するように構成される「汎用」ブロブ抽出器でありうる。ブロブ抽出器１０６によって識別されるブロブの指示１０５は、テキストブロブ選択器１０７に提供されうる。例えば、指示１０５は、各識別されたブロブに対応する画像データ１０２の画素のリストおよび各識別されたブロブのインデックスのような、識別されたブロブのリストを含むことができる。別の例として、指示１０５は、ブロブ画素データへのポインタのリストまたはアレイを含むことができる。別の例として、指示１０５は、画像データ１０２または画像データ１０２のサブセットを含むことができ、各画素に関して、その画素が（もしあれば）属する各ブロブを示すことができる。

特定の実施形態では、テキストブロブ選択器１０７は、安定したかつ曲線のブロブ選択器１０８および重複領域リムーバ１１０を含む。テキストブロブ選択器１０７は、ブロブ抽出器１０６によって識別されたブロブの指示１０５を受信し、安定したかつ曲線であるブロブのセットを選択するように構成されうる。例えば、ブロブの安定性は、ブロブのサイズがしきい値における変化に実質的に伴って変化しないことを示しうる。例示するために、しきい値は画像の色空間における領域の境界に対応し、色空間の領域の境界における小規模な変化は、不安定なブロブが、色空間の領域の境界における小規模な変化に応じて著しくサイズを変化させる一方で、安定したブロブに関しては、サイズにおける相対的に小規模な変化を引き起こしうる。１つまたは複数の安定したブロブを位置付ける際、安定したかつ曲線のブロブ選択器１０８は、識別された安定したブロブも曲線であるかどうかを決定するように構成されうる。ここで使用されるように、「曲線」は、ブロブのサイズと比較されると小規模であるストローク幅を有することに対応する。例えば、字「ｓ」を含むブロブは、字「ｓ」の外法寸法に対応するサイズを有し、字の横断面の厚さに対応する、ストローク幅を有しうる。テキストが曲線である傾向がある（例えば、字および文字が、ペンまたは他の執筆道具によって作り出されうる直線および曲線で形成される傾向にある）ので、曲線でないブロブは、テキスト候補として拒絶されうる。安定したかつ曲線のブロブ選択器１０８は、安定性に関する要件を満たし、さらに、曲線に関する要件を満たすブロブを識別する際に、重複領域リムーバ１１０に識別されたブロブの指示を提供しうる。

重複領域リムーバ１１０は、ブロブ抽出器１０６によって識別され、安定したかつ曲線のブロブ選択器１０８によって選択された特定の安定したかつ曲線のブロブと重複するブロブを取り除くことができる。例示するために、ブロブ抽出器１０６は、互いに重複しうる画像の単一の領域内の複数のブロブを識別しうる。重複するブロブがテキスト検出において曖昧性をもたらしうるので、一度認識された字に、または他のテキストに対応しうる安定したかつ曲線のブロブが識別されると、重複領域リムーバ１１０は、識別された安定したかつ曲線のブロブと重複する全ての他のブロブを位置付けし、取り除く。画像データ１０２に現れる字または他のテキストは、互いに重複しないことが前提とされうる。したがって、一度ブロブが字またはテキストに関する基準を満たすとして選択されると、選択されたブロブと重複するあらゆるブロブは取り除かれうる。重複するブロブが重複領域リムーバ１１０によって取り除かれた後、安定したかつ曲線のブロブ選択器１０８は、テキストブロブ選択器１０７が安定した、曲線の、かつ重複しないブロブのセットを識別するまで、安定性および曲線性の要件を満たす追加のブロブを識別するために、ブロブ抽出器１０６によって識別されたブロブのセットの残りのブロブの処理を継続しうる。テキストブロブ抽出器１０４は、画像データ１０２におけるテキストに対応する可能性があるとして、この識別されたブロブのセットを出力する。

特定の実施形態では、ブロブアブストラクタ１１２は、テキストブロブ抽出器１０４から受信されたブロブに１つまたは複数の計算を行い、テキスト領域検出器および２値化エンジン１１４での動作を支援するための分析を行うように構成される。例えば、図８に関係して説明されるように、ブロブアブストラクタ１１２は、識別されたブロブに対応する幾何学的図形のセットを決定し、後の光学式文字認識（ＯＣＲ）処理のためのテキスト認識に作用しうる歪み、傾き、または他の効果を決定するために幾何学的図形を処理するように構成されうる。例えば、計算要件は、画素のセットとしての代わりに、幾何学的図形として識別されたブロブを抽象化することによって著しく低減されうる。低減された計算要件は、ハンドヘルドデバイス、またはデスクトップ計算システムと比較して比較的に限定された処理リソースを有しうる他のデバイスに行われるテキスト抽出を可能にしうる。

テキスト領域検出器および２値化エンジン１１４は、ブロブ抽出器１１２からの出力を受信し、テキスト領域検出および２値化を行うように構成される。例えば、テキスト領域検出器および２値化エンジン１１４は、テキストに対応する画像データ１０２における領域を位置付けし、黒い背景上に白いテキストを、または白い背景上に黒いテキストを有する白黒画像のような、１の値を有するテキスト領域に対応する画素、および他の値を有する非テキスト領域に対応する画素を有する２値画像を生成するように構成されうる。テキスト領域検出器および２値化エンジン１１４は、検出されたテキストを画像の非テキストエリアと対比する２値画像を含みうるテキスト画像データ１１６を生成しうる。テキスト画像データの例は、図９−１１で例示されている。

図２を参照すると、ブロブを使用するテキスト認識の方法の特定の実施形態が描写され、概して２００と指定されている。方法２００は、図１のシステム１００のような、ブロブに基づく画像処理テキストエンジンで行われうる。方法２００は、２０２で、ブロブを認識することを含む。例えば、画像データが受信され、実質的に均質的である画像の領域を識別するために１つまたは複数のテストまたはフィルタが受信された画像データに行われうる。例示するために、画素値の１つまたは複数の範囲が選択され、画素のセットが、連続的な領域にあり、選択された範囲における値を有するとして識別されうる。別の例として、特定の画素が識別され、識別された画素の画素値の所定の範囲内の画素値を有する識別された画素に隣接する他の画素が位置付けされうる。この方法で、実質的に均質的な画素値または色空間の値を有する画像の領域がブロブとして識別されうる。

識別されたブロブは、２０４−２１２で、処理ループでテスト候補を識別するように処理される（さらなる例は図４に関係して描写されている）。２０４で、識別されたブロブの最も安定したブロブが選択される。例えば、ブロブの各々が、各ブロブに対する特定の安定値を決定するように処理されうる。例示するために、２値化に類似しうるプロセスが異なるしきい値を用いて複数回、行われうる。識別されたブロブの各々に対するしきい値の変化に応じたブロブサイズの変化が決定されうる。例えば、しきい値における変化に関係するブロブのサイズの微分値（derivative value）または変化の度合いが安定性の測定値として識別され、使用されうる。２０６で、識別されたブロブの最も安定したブロブを識別した後に、ブロブが曲線であるかどうかの決定がなされる。例えば、ブロブのストローク幅は、ブロブのサイズと比較されうる。ブロブの曲線決定の例は、図１４に関係して例示されている。

２０６で識別されたブロブが曲線であると決定することに応じて、２０８で重複するブロブが取り除かれる。例えば、２０８で、曲線のブロブによって占有された領域と重複するあらゆるブロブが取り除かれうる。結果として、識別されたブロブのセットにおける重複するブロブに起因した曖昧性が、テキストが画像内の他のテキストと重複しないという前提の下、取り除かれうる。２０６でブロブが曲線でないと決定することに応じて、または２０８で識別された曲線のブロブの領域における重複するブロブを取り除いた後、処理は、２１０で、処理されるべき状態のままであるさらなる識別されたブロブが存在するかどうかの決定を継続する。２１０で処理されるべき状態のままであるさらなるブロブが存在すると決定することに応じて、２１２でその次に安定したブロブが選択され、２０６で処理は、その次に安定したブロブが曲線であるかどうかを決定するように継続する。処理は、２０２で識別されたブロブの全てが処理され、かつ安定した曲線のブロブとして識別されるか、または取り除かれるかのいずれかが行われるまで継続しうる。

処理の間、ブロブは、２０６でブロブが曲線でないと決定することに応じて、または２０８でブロブが曲線であると決定される別のブロブと重複すると決定することに応じて、識別されたブロブのセットから取り除かれうる。他の実施形態では、ブロブはブロブが安定していないと決定することに応じて取り除かれうる。２１０で、処理されるべきさらなるブロブが存在しないという決定がなされる（例えば、２０６で全ての識別されたブロブが曲線であると決定されるか、または取り除かれるかのいずれかが行われる）とき、２１４で、残りのブロブ（つなり、取り除かれなかったブロブ）は抽象化される。例えば、ブロブに対応するパラメータ化された幾何学的図形が、図８に関係して説明されているように追加の画像テキスト処理に関して識別されうる。２１４で残りのブロブを抽象化した後、２１６でテキスト領域は検出され、１つまたは複数の規格化された２値画像が生成される。検出されたテキスト領域および規格化された２値画像の生成が、残りのブロブを抽象化した結果に基づいて行われうる。例えば、規格化は、例示的な例のような、歪みおよび傾きを含むテキスト効果を取り除くための画像データの処理を含むことができる。

ブロブ識別を使用し、曲線でかつ安定したブロブを選択するための基準を適用することによるテキスト抽出を行うことによって、方法２００は、色のセグメント化に基づいた方法と比較して、実質的に低減された処理の複雑性で入力画像の文字タイプの領域の検出を可能にする。例えば、色のセグメント化は、パーソナルコンピュータに基づくインプリメンテーションさえも計算的に要望する処理を必要としうる。加えて、ブロブ抽出およびブロブ抽象化を行うことによって、規格化された２値画像は、画像データが、単一の背景色および、その背景色とは異なる単一のテキスト色を有することを暗黙的または明示的に必要することなく、効果的に生成されうる。その代わりにテキストは、重複しない、安定したかつ曲線であるという基準を満たす画像の均質的な領域（その均質的な領域がどの色であろうと）に基づいて、識別される。テキストが図１のシステム２００を使用して、または図２の方法２００を行うことによって識別されうる画像の例は、図３において例示されている。

図３は、ブロブ抽出を使用して検出可能でありうるテキストを含む、画像３０２、３０４、および３０６を例示している。画像３０２は、テキスト色および背景色が同じであるテキストを含む。（色に基づく２値化のような）ブロブ抽出に基づかない２値化エンジンは、２値化エンジンが、テキスト色が背景色とは異なることを求めうるので、第１の画像３０２におけるテキストを正確に識別することに失敗しうる。しかしながら、図１および図２に関係して説明されたブロブ抽出および抽象化は、異なる色のついた境界内の均質的な領域として字の各々を識別し、したがって、画像３０２におけるテキストを正確に識別しうる。

画像３０４は、画像の背景色と実質的に類似した色を有し、異なる色の付いた領域によって縁どられたアジアの文字のテキストを含む。従来のテキスト抽出エンジンは、画像の背景と共通の色を共有し、異なる色の付いた画素の大規模の領域によって囲まれたテキストの文字を識別することが困難でありうる。

画像３０６は、多くのエッジおよび様々な色を有する複雑な色のスキームを有する背景画像に重ね合わせられた白いテキストを有する看板を含む。画像３０６におけるテキストの背景は、複数の色を有し、複雑であるため、ならびにテキストの色（例えば「ｆｉｓｈ」という言葉にける「ｉｓｈ」）が背景の一部と類似しているため、従来の２値化およびテキスト抽出はテキストを区別することができないことがある。しかしながら、図２のブロブに基づく方法２００は、図４に関係して例示されているような、画像３０６におけるテキストの識別を可能にする。

図４を参照すると、図２の方法２００の適用を例示する概括的な図が例示されており、概して４００として指定されている。図３の画像３０６に対応する画像４０２は、テキスト抽出のために検査される。処理の間、ブロブのセットは識別され、安定性に関して評価されうる。例えば、画像４０２の領域４０４の処理は、複数のブロブが識別されることをもたらしうる。ブロブ４０６は、識別ブロブの最も安定したものとして識別されうる。ブロブ４０６は、画像４０２における実質的に類似した色の大規模な領域に対応する。ブロブ４０６は、画像４０２における「ｆｉｓｈ＆ｃｈｉｐｓ」というフレーズから字「ｉｓｈ」および「＆」を取り囲む複数の重複するブロブの最も大規模なものでありうる。

画像４０２または領域４０４における識別されたブロブのセットの最も安定したブロブとしてブロブ４０６を識別した後、ブロブ４０６が曲線であるかどうかの決定４０８がなされる。ブロブ４０６のストローク幅は、（図１４に関係してさらに詳細に説明される）ブロブ４０６のサイズと比較して大きいので、ブロブ４０６は、画像４０２におけるテキストに対応する可能性がないと決定される。

識別されたブロブのセットにおけるその次に安定したブロブが識別される。例えば、（ブロブ４０６と重複する）別のブロブ４１０は、その次に安定したブロブとして識別されうる。ブロブ４１０は、検査され、曲線でないと決定される。結果として、ブロブ４１０は考慮から取り除かれる。ブロブ４１０の安定性に基づいて、かつブロブ４１０が前に検査されたブロブ４０６と重複するかどうかから独立して、ブロブ４１０が曲線テストのために選択されうる。

別のブロブ４１２が、その次に安定したブロブとして識別されるとき、ブロブ４１２は、曲線性に関して検査される。ブロブ４１２は、曲線性に関する制約を満たさないと決定され、考慮から取り除かれる。（「ｆｉｓｈ」という言葉における字「ｓ」に密接して対応する）ブロブ４１６は、その次に安定したブロブとして識別されるとき、ブロブ４１６は曲線性に関してテストされ、ブロブ４１６が曲線であるという決定４１４がなされる。ブロブ４１６が安定した曲線のブロブであるため、ブロブ４１６は、テキストに対応する可能性があり、ブロブ４１６と重複するブロブが取り除かれる。同様に、（字「ｉ」に対応する）ブロブ４１８は、その次に安定したブロブとして識別され、曲線であると決定されるとき、ブロブ４１８と重複するブロブは考慮から取り除かれる。

ブロブ４２０は、その次に安定したブロブとして識別されうる。ブロブ４２０は、字「ｃ」を含み、字「ｃ」と実質的に類似した色を有する画像背景の一部も含む。ブロブ４２０は、曲線でないとして識別され、考慮から取り除かれる。ブロブ４２０は、その次に安定したブロブであると決定され、曲線であると決定される、字「ｃ」のみを含むブロブと重複する。結果として、字「ｃ」を含むブロブがテキストに関する候補として保持される。この方法で、安定性および曲線性の基準を使用するブロブ抽出は、領域４０４におけるテキストに対応するブロブを明らかにして、類似の色の付いた背景と重複する画像４０２の字を首尾よく識別することができる。

ブロブ４０６は、最も安定したブロブとして記述され、重複するブロブ４１０、４１２、および４１６は、連続したその次に安定したブロブとして記述されているけれども、ブロブの安定性の決定がブロブのサイズおよび／または重複から独立しうることは理解されるべきである。例えば、ブロブ４０６は、最も安定したブロブであると決定されうる。ブロブ４０６が曲線でないと決定された後、ブロブ４１６は、その次に安定したブロブであると決定されうる。この例では、ブロブ４１６が曲線であると決定した後、重複するブロブ４１０および４１２は、ブロブ４１０または４１２のどちらかが曲線であるかどうかをテストすることなく曲線のブロブ４１６と重複することに起因して考慮から取り除かれる。別の例として、（ブロブ４０６よりもむしろ）ブロブ４１６が最も安定したブロブであると決定されうる。ブロブ４１６が曲線であると決定された後、ブロブ４１６と重複するブロブ４０６、４１０、および４１２が、ブロブ４０６、４１０、および４１０のいずれかが曲線であるかどうかを決定することなく、考慮から取り除かれる。

図５を参照すると、図４の４の画像４０２に対応し、図２の方法２００にしたがって画像５０４のエリアのブロブ抽出を行った結果である画像５０２が例示されている。ブロブ５０６のセットは、安定した、曲線の、かつ重複しない画像５０２のセクションに対応する。図８に関係してさらに詳細に説明されるように、ブロブ５０６のセットは、テキスト領域検出を行い、規格化された２値画像を生成する前の、抽象化のためのブロブアブストラクタに示されうる。

図６を参照すると、ブロブに基づくテキスト抽出の例６００は、第１の画像６０２、およびブロブのセット６０３として例示された第１の画像６０２に対するブロブ抽出／規格化の結果を含む。ブロブ６０３のセットは、第１の画像６０２における看板にある字の各々が、安定性、曲線性、および非重複の基準のブロブ抽出および適用にしたがって識別されていることを例示している。識別されたブロブは、ブロブのセット６０３を生成するためにテキスト効果を取り除くことによって規格化されている。

例６００はさらに、背景とは異なる色を有する字「ｂｏｏ」の第１のセット、および背景と同じ色を有し、ならびに各字の輪郭を描く白い縁を有する字「ｈｏｏ」の第２のセットを含む第２の画像６０４を含む。図１−図５と関係して記述されてきたブロブ抽出プロセスは、ブロブのセット６０５を生成するためにテキスト効果を取り除くことによって規格化されうる抽出されたブロブを生成することができる。ブロブのセット６０５は、字「ｂｏｏ」に対応するブロブの第１のセット、および字「ｈｏｏ」に対応するブロブの第２のセットを含む。

図７を参照すると、投影プロファイル分析の例が例示されており、概して７００と指定されている。第１の例７０２は、一連の識別されたブロブを渡る、第１の投影方向にしたがう投影ラインの第１のセット７０６を使用した投影プロファイル分析を例示しており、テキストのラインの投影プロファイル７０８をもたらす。投影プロファイル分析の第２の例７０４は、第２の投影方向にしたがう投影ラインの第２のセット７１０を例示しており、テキストのラインのより大規模な投影プロファイル７１２をもたらす。

投影プロファイル分析は、図１のテキストブロブ抽出器１０４によって、または図２の方法２００のブロブ抽出部分に関係して説明されたように、識別されるブロブに行われうる。投影プロファイル分析は、テストされるべき方向の数（例えば、Ｍ個の方向）を選択することを含むことができ、幅Ｗおよび高さＨを有する画像の領域の各画素に行われ、順序（order）Ｗ×Ｈ×Ｍに投影プロファイル分析を行う全体的な複雑性をもたらす。投影プロファイル分析は、最小の決定された投影プロファイルを選択すること（例えば、投影プロファイル７１２よりも小さいとして投影プロファイル７０８を選択すること）を含むことができ、投影プロファイルラインの水平に対するアングルに対応するとしてテキスト歪みを識別すること（つまり、ラインが最小の計算された投影プロファイルをもたらすこと）を含むことができる。図７で例示されている投影プロファイル分析が画素のグループとして抽出されたブロブに行われているけれども、テキストの歪みおよび傾きを決定するための計算の複雑性は、図８と関係してさらに詳細に説明されるように、投影プロファイル分析の前にブロブ抽象化を行うことによって著しく低減されうる。

図８を参照すると、ブロブ抽象化の例が描写され、概して８００と指定されている。画像８０２は、数字および韓国の文字を有するテキストを含む。画像８０２に対応するブロブ抽出は、画像８０４で例示されているブロブの識別をもたらす。画像８０４は、黒い背景に対する白い画素として抽出されたブロブを例示している。画像８０４における抽出されたブロブは、画像８０６における抽象化されたブロブを生成するためにブロブ抽象化プロセスによって処理されうる。

ブロブ抽象化は、識別されたブロブの各々を実質的にカバー、または取り囲む楕円（または他の形状）を位置付けることによって行われうる。個々の画素の集合として識別されたブロブを使用する（それにより、各ブロブにおける画素の数と同等のパラメータの数を有する）ことの計算的に安価な（inexpesive）代わりとして、比較的少数のパラメータを使用して識別されうる、楕円、三角形、矩形、または他の形状のような、パラメータの図が使用されうる。画像８０６において描写されているブロブ抽象化の結果において例示されているように、ブロブ抽出からの各ブロブは、代表的な楕円８０７のような楕円と一致されている。幾何学的形状が概してブロブと同じ傾斜のスパンおよびアングルに対応するように、楕円は、エネルギー最小化技法、最小２乗誤差技法、またはその対応するブロブとの幾何学的形状の一致を得るための１つまたは他の技法にしたがって選択されうる。

図８は、テキストを含む画像８０８の第２の例を含む。ブロブ抽出の結果は、画像８０８におけるテキストに対応するブロブを含み、さらに１つまた複数の他の非テキストブロブも含む画像８１０に提供される。ブロブ抽象化を行った結果は、画像８１２で描写されている。例示されているように、画像８１２におけるブロブ抽象化の結果は、楕円のセットを含み、各楕円は概して、対応するブロブのサイズに対応し、その対応するブロブの方位と実質的に一致する方位（つまり、長軸（longaxis））を有する。非テキストブロブは、非テキストブロブのための対応する楕円が１つまたは複数の最小サイズのしきい値を満していないことに起因して除外されている。

ブロブ抽象化を行った後、投影プロファイル分析は、図８において例示されている楕円内の画素のような、識別された幾何学的図形内に囲われている画素を使用して投影プロファイル分析を行うことによって、ある実施形態において計算的に簡略化されうる。別の実施形態では、計算的複雑性が、幾何学的図形を記述している式にしたがって幾何学的図形の各々に関する投影値を決定することによってより著しく低減されうる。例えば、楕円に関する投影値を決定するための計算は比較的容易であり、ｎ×Ｍの全体の投影プロファイル分析の複雑性をもたらし、ここにおいて、ｎは抽象化されたブロブの数（つまり、楕円の数）に対応し、Ｍはテストされるべきテキスト投影アングルの数に対応する。

抽出されたブロブに直接投影プロファイル分析を行うことと比較して、投影プロファイル分析の前にブロブ抽象化を使用することによって確保されうる計算サイクルは、テキスト抽出の間に著しい遅延をもたらすことなく行われる追加の処理動作を可能にしうる。例えば、投影プロファイル分析が、図１２と関係してさらに詳細に説明されるように、テキストのラインの歪みの決定を可能にすることができるけれども、傾きを推定すること、弱透視歪曲（weak perspective distortion）に対する補償、および複数の歪みへの対処のような、他の処理も行われ、の各々が図１０に関係してさらに詳細に記載されている。

図９を参照すると、ブロブ抽象化に基づく画像におけるテキストの歪みおよび傾きの訂正の例９００が描写されている。平方四辺形として例示されているテキスト領域内にあるとして識別されているテキストを有する画像９０２が例示されている。テキストは、各字が傾斜している（例えば、イタリック体である）ことを示す、傾きを有しており、そのテキストは概して、水平のテキストラインに従い、したがってほとんど、または全く歪みを有さない。画像９０２におけるテキストは、ブロブ抽出を使用して識別され、楕円または他のパラメータの形状として抽象化されうる。投影プロファイル分析は、ブロブの各々の傾き（つまり、識別されたテキストにおける字の各々の傾き）の量を識別するために行われ、ブロブの各々に関して識別される傾きは、ブロブの補償されたセット９０３をもたらすように補償されうる。ブロブの補償されたセット９０３は、実質的に傾きを有さないとして例示されている。結果として文字認識は、図１１に関係してより詳細に記述されるように、傾きによって引き起こされた文字の重複を除外することによって向上した信頼性を持って行われうる。

図９は、識別されたテキスト領域内の文字を含む第２の画像９０４を例示している。識別されたテキスト領域内の文字は、ブロブの補償されたセット９０５として、ブロブ抽出、抽象化、ならびに歪みおよび傾き補償の後に例示される。図９は、２つのテキストエリアを含む第３の画像９０６を例示している。第３の画像９０６に適用されるブロブ抽象化、抽出、および補償の結果は、ブロブの補償されたセット９０７として提供される。

図１０を参照すると、入力画像および対応するブロブの抽出、抽象化、ならびに補償の結果の第１の例１００２が例示されている。第１の例１００２は、テキスト「ＳｏｆｔｗａｒｅＴｈａｔＳｅｅｓ」ならびにテキスト「ＨＯＭＥ」および「ＥＮＴＥＲＴＡＩＮＭＥＮＴ」にも適用される傾き補償を例示している。光学式文字認識は、傾き補償の後、より高い信頼性を持って行われうる。第２の例１００４は、弱透視補償を例示している。弱透視は、遠隔のオブジェクトの画像捕捉の間に引き起こされうる比較的共通の歪曲でありうる。弱透視の効果に対する補償は、歪み検出および補償、ならびに傾き検出および補償と類似しうる。第３の例１００６は、テキストの別個のラインとして画像の領域を識別することによって複数のテキストラインの検出を可能するテキストラインの分離を例示している。第４の例１００８は、複数の歪みへの対処の例を提供している。例１００８における画像は、３つのテキストラインを有しており、最初の２つのテキストラインは、第１の歪み方向を有しており、３番目のテキストラインは第２の歪み方向を有している。複数の歪みへの対処は、テキストの単一のラインとしてテキストの下部のラインを識別し、テキストの別のラインとしてテキストの２つの上部ラインを識別する第１の投影プロファイル分析を行うことができ、ここで両ラインは水平の歪みを有している。画像の上部への２次的な投影プロファイル分析は、各々が類似の、非水平の歪みを有しているテキストの２つの別個のラインを識別することができる。例１００２−１００８は、ブロブ抽象化から生じる効果に起因した、低減された計算要件を有する、傾き補償、透視補償、テキストライン分離、および複数歪みへの対処を例示している。

図１１を参照すると、傾きを含む画像テキストの例１１０２が例示されている。検査される各字に対応する垂直の空間を識別する文字のセグメント化ルーチンが字間の明確な分離を識別しないことがあるように、画像テキストの各字が傾けられる。例えば、字「ｆ」１１０６に関するセグメント化は、「ｆ」の両端を省き、「ｆ」が光学式文字識別の間、認識不可能になることを引き起こす。同様に、「ｆ」に隣接する字「ｏ」および「ｔ」が、「ｆ」との重複に起因して、誤認されることもある。別の例として、字「ｈ」１１１０に関するセグメント化は、「ｈ」の左手部分が切断されているので、光学式文字認識の間、エラーをもたらしうる。

傾き補償されたテキストの例１１０４は、傾きを有するテキストの例１１０２に適用されるように、図８と関係して記述され、例示されているようにブロブ抽象化からの結果でありうる。例えば、ブロブ抽象化および投影プロファイル分析は、ブロブの傾きを推定するために例１１０２において例示されているブロブに行われ、ブロブは、例１１０４の傾き補償されたテキストを生成するために推定された傾きに基づいて変更されうる。傾き補償されたテキストは、傾き補償後の字「ｈ」１１１２に対する、ならびに字「ｆ」１１０８に対する文字のセグメント化がより正確に字を区別することができることを例示している。

図１２を参照すると、図１−図１１に関係して説明された投影プロファイル分析の前にブロブに基づくテキスト抽出およびブロブ抽象化を使用して、検出および補償されうるテキストの歪みおよび傾きの例示的な例１２００が描写されている。ベースライン１２０４を有するテキスト１２０２が例示されている。ベースライン１２０４は概して、テキスト１２０２の字の各々の下部に対応する。ベースライン１２０４は、水平ライン１２０８を用いてアングル１２１０を形成する。アングル１２１０は、テキスト１２０２の歪みとして称される。加えて、テキスト１２０２の各文字は、ベースライン１２０４に直角であるライン１２０６に対するアングル１２１４を形成する。ベースライン１２０４に直角であるライン１２０６からの文字のアングル１２１４は、文字の傾きとして称される。ここで例示および記述されているように、文字の歪みおよび傾きの両方が、投影プロファイル分析の前のブロブ抽出およびブロブ抽象化の結果として低減された処理の複雑性を使用して、検出および補償されうる。

図１３は、テキスト画像ならびにブロブ抽出および抽象化の結果１３１０を提示している例１３００を描写している。例１３００では、テキストは韓国の文字として例示されている。テキストが抽出され、識別されたブロブは、楕円で例示されているように、代表的なブロブの抽象化１３０４にしたがって抽象化されている。漢字および他のアルファベットのような、多くのタイプのテキストが図１２で例示されているベースラインのような、ヘッドラインおよびベースラインに密接に一致しないので、センターラインの識別が、他の配列の基準に加えて、または代わりに使用されうる。

例えば、第１の抽象化されたブロブ１３０４は、第２の抽象化されたブロブ１３０６よりも著しく小さいサイズを有する。したがって、ベースライン分析は、テキスト１３０２のテキストラインの適切な識別をもたらさないことがある。しかしながら、最小平均２乗分析を使用するような、ブロブの中央を通るライン１３０８を発見することは、歪み推定を可能にするために中央ラインの識別をもたらしうる。

開示されたシステムおよび方法にしたがって使用されうる歪み推定方法の他の例は、テキストの複数のラインで有効でありうる、図７に関係して説明されているような、アルファベット、投影プロファイル歪み推定に有効でありうるベース／ヘッドライン一致、および、図１３で例示されているような、ブロブ抽象化に基づく中央ライン一致を含む。抽象化されたブロブを使用する歪み推定方法の各々のための計算的負荷が比較的小規模でありうるので、複数の歪み推定方法が行われ、複数の歪み推定方法の最良の結果または最も意味のある結果がさらなる処理のための選択された歪みとして使用されうる。

図１４は、ストローク幅を使用して曲線性を決定する方法の例示的な実施形態１４００を提供している。実施形態１４００は、第１の代表的な画素ｐ１、第２の代表的な画素ｐ２、および第３の例示的な画素ｐ３のような複数の画素を有する字Ａを含むブロブを例示している。字Ａは、幅Ｗおよび高さＨを有する画素エリアに及ぶ。（例えば、ｐ１、ｐ２、ｐ３を含む）ポイントのセットが、例えばランダムまたは疑似ランダム選択にしたがって、選択されうる。例として、１００つのポイントが選択されうる。各選択されたポイントに関して、ストローク幅の推定が、ｐ１を通る例示された代表的なラインのセット１４０４のような、選択されたポイントを通るラインのセットを決定することによって得られうる。各ラインｗは、異なるアングルであり、ｉ番目の選択されたポイントを通る最も短い長さを有するラインは、選択されたポイント（ｓｉ）を通るストローク幅に対応しうる：

例示するために、画素ｐ１を通る例示された代表的なライン１４０４のセットの最も短いライン１４０２は、画素ｐ１でのブロブのストローク幅を示す。同様に、ストローク幅は、各選択されたポイントに対して決定され、平均的なストローク幅は選択されたポイントに対する決定されたストローク幅の算術平均として決定されうる。例えば、平均ストローク幅は

によって決定されうる。

ブロブのストローク幅を決定した後、ブロブの曲線は、ブロブのストローク幅と比較された、ブロブのサイズの比として計算されうる。例えば、曲線性は

として計算されうる。

ブロブのストローク幅および曲線性を決定した後、ブロブは、曲線性がしきい値を満たすかどうかを決定することによってテキストブロブの候補であるとして識別されうる。例えば、しきい値は、全体のテキストに良質な一般的な結果を提供するしきい値として決定されるか、あるいは指定のしきい値は遭遇する可能性のあるアルファベットの指定のタイプに提供されうる。例えば、アジアのスクリプトを使用してテキストを識別するための領域において使用されることが求められるデバイスは、ラテンアルファベットの検出に対するよりもアジアのスクリプトに対する方が効率的でありうるしきい値を有することができる一方で、ラテンアルファベットを使用してテキストを決定するために使用されることが求められるデバイスは、アジアのスクリプトのブロブを検出する際に第１のしきい値よりも効率的でない第２のしきい値を有しうる。

図１５は、方法１５００の特定の実施形態を描写している。方法１５００は、１０５２で、画像データで識別されたブロブのセットの指示を受信することを含む。例えば、ブロブのセットは、図１のブロブ抽出器１０６によって識別され、図１のブロブ抽出器１０６によって識別されたブロブのセットの指示は、図１のテキストブロブ選択器１０７で受信されうる。ブロブのセットの各ブロブは、実質的に類似した画素値を有する画像データの結合された画素のグループでありうる。例示するため、グループにおける任意の２つの画素に関して、２つの画素を結びつけるグループ内に壊れていないパス（例えば、パスの各ステップが、第１の画素から、第１の画素に隣接する第２の画素へのものである）が存在するとき、画素のグループは「結合された」とみなされうる。

ブロブの曲線性は、ブロブのサイズのブロブのストローク幅との比較に基づいて決定される。例えば、図１の安定したかつ曲線のブロブ選択器１０８がブロブのセットの１つまたは複数のブロブの曲線性の測定値を決定しうる。例示するために、曲線性の測定値は、図１４に関係して説明されているように、ブロブのストローク幅と比較されたブロブのサイズの比に基づきうる。

１５０４で、ブロブは、ブロブの安定性、およびブロブの曲線性に少なくとも部分的に基づいてテキスト抽出のためにブロブのセットから選択されうる。ブロブを選択することは、安定性の基準を満たすブロブのセットのブロブを識別すること、および最も安定したブロブが曲線性の基準を満たすかどうかを決定することを含むことができる。例えば、安定したかつ曲線のブロブ選択器１０８は、安定性の基準および曲線性基準を満たす１つまたは複数のブロブを決定することができる。例示するために、ブロブのセットの各ブロブの安定性測定値が決定されうる。各決定された安定性測定値は、しきい値における変化に関係したブロブのサイズにおける変化を示しうる。

ブロブは、決定された安定性測定値の比較に基づいて、ブロブのセットの最も安定したブロブを選択することによって安定性の基準を満たすとして識別されうる。図４と関係して記述されているように、安定性の基準は、選択されたブロブよりも安定した他のブロブがないことであり、ブロブのセットの最も安定したブロブであると決定されたブロブによって満たされうる。

最も安定したブロブが曲線性の基準を満たすことを決定した後、最も安定したブロブと重複する全てのブロブがブロブのセットから取り除かれうる。例示するために、ブロブのセットの少なくとも１つのブロブは、ブロブのセットの別のブロブと重複しうる。図１の重複領域リムーバ１１０は、選択されたブロブの安定したかつ曲線のブロブ選択器１０８から指示を受信し、重複領域リムーバ１１０は、選択されたブロブと重複する（例えば、選択されたブロブと共通の１つまたは複数の画素を有する）全てのブロブを取り除きうる。特定の実施形態では、ブロブのセットの少なくとも１つのブロブはテキスト抽出のために選択され、ブロブのセットの少なくとも別のブロブはテキスト抽出のために選択されないこともある。

選択されたブロブに対応する幾何学的図形のセットは決定されうる。例えば、図１のブロブアブストラクタ１１２は、テキストブロブ抽出器１０４から受信されたブロブのセットに楕円または他の幾何学的図形を適合させることができる。幾何学的図形のセットの投影プロファイルが、図７−図８に関係して説明されるように、決定されうる。

図１６を参照すると、図１のブロブアブストラクタ１１２によって行われうるブロブ抽象化の例が、描写され、概して１６００と指定される。画像１６０２はスクリプトのテキストを含む。画像１６０２に対応するブロブ抽出は、画像１６０５で例示されているブロブ１６０４の識別をもたらす。画像１６０２に対応するブロブ抽出は、図１のブロブ抽出器１０４によって行われうる。画像１６０５は、白い背景に対する黒い画素として抽出されたブロブ１６０４を例示している。

ブロブ抽象化は、画像１６０２で識別されたブロブ１６０４に対応する第１の幾何学的図形１６０６を識別することによって行われうる。第１の幾何学的図形１６０６は、ブロブ１６０４のパラメータを計算することによって、幾何学的図形の表およびデータベースから所定の幾何学的図形を選択することによって、１つまたは複数の他の技法によって、またはそれらのあらゆる組み合わせによって識別されうる。個々の画素の集合として識別されたブロブを使用する（それにより、各ブロブにおける画素の数と同等のパラメータの数を有する）ことの計算的に安価な代わりとして、比較的少ないパラメータを使用して識別されうる、楕円、三角形、矩形、または他の形状のような、パラメータの図が使用されうる。

第１の幾何学的図形１６０６の第１の適合エラーは、決定され、しきい値と比較されうる。第１の適合エラーは、ブロブ１６０４の全体のエリアと比較して、第１の幾何学的図形１６０６の外に位置付けられた画像１６０５において例示されているブロブ１６０４の一部に対応しうる。しきい値を超える第１の幾何学的図形１６０６の適合エラーに応じて、第２の抽象化は、ブロブ１６０４に対応する複数の幾何学的図形１６０８、１６１０を識別することによって行われうる。複数の幾何学的図形１６０８、１６１０は、ブロブ１６０４のパラメータを計算することによって、幾何学的図形の表またはデータベースから所定の幾何学的図形を選択することによって、１つまたは複数の他の技法によって、あるいはそれらのあらゆる組み合わせによって識別されうる。

複数の幾何学的図形１６０８、１６１０の第２の適合エラーは決定されうる。複数の幾何学的図形１６０８、１６１０の第２の適合エラーが第１の幾何学的図形１６０６の第１の適合エラーよりも小さいという決定に応じて、複数の幾何学的図形１６０８、１６１０への投影プロファイル分析が行われうる。そうでなければ、第１の幾何学的図形１６０６は、ブロブ１６０４へのより良い適合として選択され、第１の幾何学的図形１６０６への投影プロファイル分析が行われうる。特定の実施形態では、第１の幾何学的図形１６０６は、楕円を含み、複数の幾何学的図形１６０８、１６１０は、複数の楕円を含みうる。

図１７を参照すると、幾何学的図形を使用するブロブ抽象化の方法の特定の実施形態が描写され、概して１７００と指定されている。方法１７００は、図１のブロブアブストラクタ１１２のような、ブロブアブストラクタで行われうる。方法１７００は、１７０２で、画像データで識別されたブロブに対応する第１の幾何学的図形を識別することを含む。例示するために、図１のブロブアブストラクタ１１２は、画像データ１６０２におけるブロブ１６０４に対応する図１６の第１の幾何学的図形１６０６を識別することができる。第１の幾何学的図形１６０６は、ブロブ１６０４のパラメータを計算することによって、幾何学的図形の表またはデータベースから所定の幾何学的図形を選択することによって、１つまたは複数の他の技法によって、あるいはそれらのあらゆる組み合わせによって識別されうる。

１７０４で、ブロブに関係した幾何学的図形の第１の適合エラーは決定されうる。例えば、第１の幾何学的図形１６０６の外に位置付けられたブロブ１６０４のエリアは、ブロブ１６０４の全体のエリアと比較されうる。１７０６で、幾何学的図形の第１の適合エラーがしきい値を超えるかどうかの決定がなされうる。第１の適合エラーがしきい値を超えない場合、１７１０で、方法が終了する。第１の適合エラーがしきい値を越える場合、１７０８で、ブロブに対応する複数の幾何学的図形が識別される。例示するために、ブロブアブストラクタ１１２は、ブロブ１６０４に対応する幾何学的図形１６０８、１６１０を含む複数の幾何学的図形を識別することができる。複数の幾何学的図形１６０８、１６１０は、ブロブ１６０４のパラメータを計算することによって、幾何学的図形の表またはデータベースから所定の幾何学的図形を選択することによって、１つまたは複数の他の技法によって、あるいはそれらのあらゆる組み合わせによって識別されうる。

図１８を参照すると、ブロブ投影の例が描写され、概して１８００と指定されている。第１の例１８０２は、幾何学的図形１８０４を横切る代表的な投影ライン１８０８を例示している。幾何学的図形１８０４は、図１６の幾何学的図形１６０６でありうる。第１の例１８０２では、投影ライン１８０８が幾何学的図形１８０４を横切る場合、２値「１」が投影プロファイル１８０６の対応する投影で割り当てられる。投影ライン１８０８が幾何学的図形１８０４を横切らない場合、２値「０」が投影プロファイル１８０６の対応する投影で割り当てられる。複数の投影ライン（例えば、図７の複数の投影ライン７０２）は、幾何学的図形１８０４の投影プロファイル１８０６を決定するように使用されうる。例えば、代表的な投影ライン１８０８のような、幾何学的図形１８０４を横切る複数の投影ラインの投影ラインの全ての事例は、２値「１」が投影プロファイル１８０６の対応するポイントで割り当てられることをもたらす。

第２の例１８１０は、幾何学的図形１８１２を横切る投影ライン１８１６を例示している。幾何学的図形１８１２は、図１６の幾何学的図形１６０６でありうる。第２の例１８１０では、投影ライン１８１６は、２つの異なる交差点１８１８、１８２０で幾何学的図形１８１２を横切るように提示されている。２つの交差点１８１８、１８２０の間の距離が計算され、幾何学的図形１８１２の投影プロファイル１８１４の対応する投影を決定するように使用される。複数の投影ライン（例えば、図７の投影ライン７０６のセット）は、幾何学的図形１８１２の投影プロファイル１８１４を決定するように使用されうる。例えば、幾何学的図形１８１２を横切る複数の投影ラインのうちの投影ライン１８１６の全ての事例に関して、投影ライン１８１６が第２の事例で幾何学的図形１８１２を横切るかどうかの決定がなされうる。幾何学的図形１８１２が２つの異なる交差点（例えば、事例１８１８、１８２０）で投影ラインによって横切られる場合、２つの異なる交差点１８１８、１８２０の間の距離が、幾何学的図形の投影プロファイル１８１４の対応する投影（例えば、投影１８２２）に割り当てられうる。投影ラインが幾何学的図形１８１２を横切らない、あるいは単一の例でのみ幾何学的図形１８１２を横切る場合、２値「０」が、幾何学的図形１８１２の投影プロファイル１８１４の対応する投影に割り当てられうる。

図１８の第２の例１８１０にしたがってブロブを投影することは、第１の例１８０２にしたがってブロブを投影するよりも正確なブロブの反映をもたらしうる。例えば、第２の例１８１０にしたがってブロブを投影することは、第１の例１８０２にしたがってブロブを投影するよりも正確に、筆記体、およびインディアン語のスクリプトのような、繋がった文字の形状を反映することができる。

図１９を参照すると、幾何学的図形を使用するブロブ投影の方法の特定の実施形態が描写され、概して１９００と指定されている。方法１９００は、図１のテキスト領域の検出器および２値化エンジン１１４で行われうる。方法１９００は、１９０２で、画像データで識別されたブロブに対応する幾何学的図形を識別することを含む。例示するために、幾何学的図形は、図１８の幾何学的図形１８１２に対応しうる。幾何学的図形１８１２は、ブロブのパラメータを計算することによって、幾何学的図形の表またはデータベースから所定の幾何学的図形を選択することによって、１つまたは複数の他の技法によって、あるいはそれらのあらゆる組み合わせによって識別されうる。

１９０４で、複数の投影ラインを使用する幾何学的図形の投影プロファイルの決定がなされ、ここにおいて、各特定の投影ラインに対応する投影プロファイルの値は、幾何学的図形を有する特定の投影ラインの交差点間の距離に基づく。例示するために、幾何学的図形１８１２の図１８の投影プロファイル１８１４が決定されうる。各特定の投影ラインに対応する投影プロファイルの値は、幾何学的図形を有する特定の投影ラインの交差点間の距離に基づきうる。例えば、投影１８２２は、交差点１８１８、１８２０との間の距離１８１６に基づく。

図２０を参照すると、投影プロファイル分析の例が描写され、概して２０００と指定されている。代表的な投影ライン２０１４、２０１６を含む平行の投影ラインの第１のセット２０３０は、代表的な幾何学的図形２０２０、２０２２、および２０２４のような、画像データにおけるテキストとして識別されたブロブに対応する（楕円として例示されている）複数の幾何学的図形２０３６を通じて投影される。平行の投影ラインの第１のセット２０３０は、第１のアングル２０１８に対応し、複数の幾何学的図形２０３６の第１の投影プロファイル２０１２を決定するために複数の幾何学的図形２０３６を通じて投影される。テキストの歪みは、平行の投影ラインの第１のセット２０３０の水平の基準への第１のアングル２０１８に対応する。第１の投影プロファイル２０１２は、複数の幾何学的図形２０３６を横切る平行の投影ラインの複数のセットのアングルに対応する複数の投影プロファイルを投影することによって決定されうる。第１の投影プロファイル２０１２は、（例えば、複数の幾何学的図形２０３６を横切るより少数の平行の投影ラインからの結果である）複数の投影プロファイルのあらゆる他の投影プロファイルよりも小さい複数の投影プロファイルから投影プロファイルを選択することによって決定されうる。

代表的な投影ライン２００４、２００６、２００８を含む水平の投影ライン２０３２の第２のセットは、複数の幾何学的図形２０３６を通じて投影される。平行の投影ラインの第２のセット２０３２は、第２のアングル２０１０に対応し、複数の幾何学的図形２０３６の第２の投影プロファイル２００２を決定するために複数の幾何学的図形２０３６を通じて投影される。テキストの傾きは、テキストラインからの直角（例えば、投影ライン２０１４に対して直角）からの逸脱を示す平行の投影ラインの第２のセット２０３２の第２のアングル２０１０に対応する。第２の投影プロファイル２０１２は、複数の幾何学的図形２０３６を横切る平行の投影ラインの複数のセットのアングルに対応する複数の投影プロファイルを投影することによって決定されうる。第２の投影プロファイル２００２は、複数の投影プロファイルのあらゆる他の投影プロファイルよりも少ない、複数の幾何学的図形２０３６を有する平行の投影ラインの交差点を有する複数の投影プロファイルから投影プロファイルを選択することによって決定されうる。

バウンディングボックス２０２６が推定されうる。バウンディングボックス２０２６が、テキストを取り囲むように選択されうる。バウンディングボックスは、少なくとも６度の自由度（6 degrees of freedom）を有しうる。６度の自由度の例は、バウンディングボックス２０２６の「ｘ」および「ｙ」の座標の位置、バウンディングボックス２０２６の高さおよび幅、ならびに第１のアングル２０１６および第２のアングル２０１０を含む。

図２１を参照すると、投影プロファイル分析の方法の特定の実施形態が描写され、概して２１００と指定されている。方法２１００は、図１のテキスト領域検出器および２値化エンジン１１４で行われうる。方法２１００は、２１０２で、画像データでテキストとして識別されたブロブに対応する複数の幾何学的図形を識別することを含む。例示するために、複数の幾何学的図形は、図２０の複数の幾何学的図形２０３６でありうる。複数の幾何学的図形２０３６は、ブロブのパラメータを計算することによって、幾何学的図形の表またはデータベースから所定の幾何学的図形を選択することによって、１つまたは複数の他の技法によって、あるいはそれらのあらゆる組み合わせによって識別されうる。

２１０４で、複数の幾何学的図形の第１の投影プロファイルの決定が、テキストの歪みを推定するためになされうる。例示するために、平行の投影ラインの複数のセットのアングルに対応する複数の投影プロファイルは、図２０の複数の幾何学的図形２０３６を横切るように投影されうる。第１の投影プロファイル２０１２は、最小のサポートを有する複数の投影プロファイルから投影プロファイルを選択することによって決定されることができ、ここにおいてサポートは、その投影プロファイルの結果がゼロではない領域として定義される。

２１０６で、複数の幾何学的図形の第２の投影プロファイルの決定は、テキストの傾きを推定するためになされうる。例示するために、図２０の第２の投影プロファイル２００２は、複数の幾何学的図形２０３６を横切る平行の投影ラインの複数のセットのアングルに対応する複数の投影プロファイルを投影することによって、ならびに最小のサポートを有する複数の投影プロファイルから投影プロファイルを選択することによって決定されうる。

図２２を参照すると、ブロブのセットを区分化する例が描写され、概して２２００と指定されている。画像データで識別されたブロブ２２０２の第１の抽出されたセットは、２つの別個のフォント（例えば、ストローク幅）で「ＨｅｌｌｏＷｏｒｌｄ」というフレーズを備える。ブロブ２２０２の第１の抽出されたセットは、２つのクラスタ２２０４、２２１２のような、複数のクラスタに区分化されうる。区分化することは、ブロブ２２０２のテキストのストローク幅に少なくとも基づきうる。例えば、字「Ｈ」２２０６のストローク幅は、第１のクラスタ２２０２における字「Ｗ」２２０７のストローク幅と類似している。代わりの例として、字「Ｈ」２２１４のストローク幅は、第２のクラスタ２２１２における字「Ｗ」２２１６のストローク幅と類似している。代わりとして、あるいは加えて、区分化することは、ブロブの色の類似性、ブロブの１つまたは複数の特性、またはそれらのあらゆる組み合わせに少なくとも部分的に基づきうる。

第１のクラスタ２２０４が第２の投影プロファイル２２１８に干渉せず、第２のクラスタ２２１２が第１の投影プロファイル２２１０に干渉しないように、第１のおよび第２の投影プロファイル２２１０、２２１８は第１のクラスタ２２０４および第２のクラスタ２２１２のそれぞれに関して、別個に決定されうる。特定の実施形態では、投影プロファイル２２１０、２２１８は、図１９の方法１９００、図２１の方法２１００、またはそれらの組み合わせにしたがって決定されうる。

図２２にしたがってブロブのセットを区分化することは、ブロブ２２０２の区分化されないクラスタに投影プロファイル分析を行うことと比較してより信頼性のある方法でテキストラインを発見することをもたらしうることは認識されるだろう。非テキストブロブを含む他の画像成分が所与のクラスタに関するテキストライン抽出に干渉する可能性が低いことも認識されるだろう。

図２３を参照すると、ブロブのセットを区分化する方法の特定の実施形態が描写され、概して２３００と指定されている。方法２３００は、図１のテキスト領域の検出器および２値化エンジン１１４で行われうる。方法２３００は、２３０２で、画像データで識別されたブロブのセットからブロブを抽出することを含む。例示するために、図２２のブロブ２２０２のセットは、画像データで識別されたブロブのセットからテキスト候補として抽出されうる。

２３０４で、抽出されたブロブは、複数のクラスタに区分化されうる。例示するために、ブロブ２２０２のセットは、第１のクラスタ２２０４および第２のクラスタ２２１２に区分化されうる。区分化することは、ブロブ２２０２のセットにおける個々のブロブのテキストのストローク幅に少なくとも基づきうる。例えば、字「Ｈ」２２０６に対応する個々のブロブのストローク幅は、第１のクラスタ２２０４における字「Ｗ」２２０８に対応する個々のブロブのストローク幅と類似している。代わりの例として、字「Ｈ」２２１４に対応する個々のブロブのストローク幅は、第２のクラスタ２２１２の字「Ｗ」２２１６に対応する個々のブロブのストローク幅と類似している。代わりとして、あるいは加えて、区分化することは、ブロブの色の類似性、ブロブの１つまたは複数の特性、またはそれらのあらゆる組み合わせに少なくとも部分的に基づきうる。

２３０６で、各クラスタの投影プロファイルは、他のクラスタの各々から独立して決定されうる。例示するため、第１のクラスタ２２０４が第２の投影プロファイル２２１８に干渉せず、第２のクラスタ２２１２が第１の投影プロファイル２２１０に干渉しないように、第１のおよび第２の投影プロファイル２２１０、２２１８は第１のクラスタ２２０４および第２のクラスタ２２１２のそれぞれに関して、別個に決定されうる。投影プロファイル２２１０、２２１８は、図２１の方法２１００にしたがって決定されうる。

図２３のクラスタリング方法は、図２２のブロブ２２０２の区分化されないクラスタに投影プロファイル分析を行うことと比較してより信頼性のある方法でテキストラインを発見することをもたらしうることは認識されるだろう。非テキストブロブを含む他の画像成分が所与のクラスタに関するテキストライン抽出に干渉する可能性が低いことも認識されるだろう。

図２４を参照すると、幾何学的図形に複数の投影プロファイル分析を行う例が描写され、概して２４００と指定されている。第１の画像は、画像データで識別されたブロブに対応する幾何学的図形２４０２の第１のセットを含みうる。第１の投影プロファイル分析２４２０は、幾何学的図形の第１のセット２４０２を幾何学的図形の第２のセット２４０４および幾何学的図形の第３のセット２４０６に区分化するために幾何学的図形の第１のセット２４０２に行われうる。第１の投影プロファイル分析２４２０は、図２１の方法２１００にしたがって行われうる。

第２の投影プロファイル分析２４２２は、幾何学的図形の第２のセット２４０４を幾何学的図形の第４のセット２４０８および幾何学的図形の第５のセット２４１０に区分化するために幾何学的図形の第２のセット２４０４に行われうる。第２の投影プロファイル分析２４２２は、図２１の方法２１００にしたがって行われうる。特定の実施形態では、幾何学的図形の第３のセット２４０６はテキストの第１のラインに対応し、幾何学的図形の第４のセット２４０８はテキストの第２のラインに対応し、幾何学的図形の第５のセット２４１０はテキストの第３のラインに対応しうる。

図２４で例示されているような複数の投影プロファイル分析を行うことは、類似のストローク幅と色であるが異なる歪みを有するテキストラインを発見することをもたらしうることは認識されるだろう。

図２５を参照すると、幾何学的図形に複数の投影プロファイル分析を行う方法が描写され、概して２５００と指定されている。方法２５００は、図１のテキスト領域の検出器および２値化エンジン１１４で行われうる。方法２５００は、２５０２で、幾何学的図形の第１のセットを幾何学的図形の第２のセットおよび幾何学的図形の第３のセットに区分化するために、画像データで識別されたブロブに対応する幾何学的図形の第１のセットに第１の投影プロファイル分析を行うことを含む。例示するために、第１の投影プロファイル分析は、図２４の幾何学的図形の第１のセット２４０２を幾何学的図形の第２のセット２４０４および幾何学的図形の第３のセット２４０６に区分化するために幾何学的図形の第１のセット２４０２に行われうる。第１の投影プロファイル分析は、図２１の方法２１００にしたがって行われうる。

２５０４で、幾何学的図形の第２のセットへの第２の投影プロファイル分析は、幾何学的図形の第２のセットを幾何学的図形の第４のセットおよび幾何学的図形の第５のセットに区分化するために行われうる。例示するために、第２の投影プロファイル分析は、図２４の幾何学的図形の第２のセット２４０４を幾何学的図形の第４のセット２４０８および幾何学的図形の第５のセット２４１０に区分化するために幾何学的図形２４０４の第２のセット２４０４に行われうる。第２の投影プロファイル分析は、図２１の方法２１００にしたがって行われうる。追加の投影プロファイル分析は、文字に対応する個々のブロブの幅、ブロブ内の文字の色、ブロブの１つまたは複数の特性、またはそれらのあらゆる組み合わせに少なくとも部分的に基づいて、幾何学的図形の第３、第４、および第５のセット２４０６、２４０８、２４１０に行われうる。追加の投影プロファイル分析は、幾何学的図形の結果のセットがテキストの別個のラインにさらに分割されることができなくなるまで、行われうる。

図２６を参照すると、ブロブに基づくテキスト抽出器２６６４を含む電子デバイスの特定の例示的な実施形態のブロック図は描写され、概して２６００と指定される。デバイス２６００は、メモリ２６３２に結合された、デジタル信号プロセッサ（ＤＳＰ）２６１０のようなプロセッサを含む。例示的な例では、ブロブに基づくテキスト抽出器２６６４は、図１のシステム１００を含むことができ、あるいは図２−２５のうちのいずれかの１つまたは複数、またはそれらのあらゆる組み合わせにしたがって動作することができる。

特定の実施形態では、ブロブに基づくテキスト抽出器２２６４はプロセッサ２６１０に一体化され、図１に関係して記述された機能の少なくとも一部を行うための専用の回路または他の論理を含むことができる。特定の実施形態では、メモリ２６３２は、プロセッサ２６１０に図１−２５のいずれかに関係して記述された機能の少なくとも一部を行わせるためにプロセッサ２６１０によって実行可能でありうる命令２６５６を含む。例えば、命令２６５６は、コンピュータ（プロセッサ２６１０）に、図２の方法２００、図１５の方法１５００、図１７の方法１７００、図１９の方法１９００、図２１の方法２１００、図２３の方法２３００、図２５の方法２５００、またはそれらのあらゆる組み合わせを行わせることがコンピュータによって実行可能である命令を含むことができる。例示するために、命令２６５６は、画像データで識別された画像領域のセット（例えば、ブロブのセット）の指示を受信するためのコード、および安定性および曲線性に少なくとも部分的に基づいてテキスト抽出のために、画像領域のセットから画像領域を選択するためのコードを含むことができる。

図２６は、カメラコントローラ２６６０に結合されうるカメラ２６４２を例示しており、ブロブに基づくテキスト抽出器２６６４がカメラ２６４２から受信された画像データまたはビデオデータにおけるテキストを検出するために、ブロブに基づくテキスト抽出器２６６４に画像データを提供することができる。図２６はまた、プロセッサ２６１０およびディスプレイ２６２８に結合されるディスプレイコントローラ２６２６を提示している。符号器／復号器（コーデック）２６３４はまた、プロセッサ２６１０に結合されることができる。スピーカ２６３６およびマイクロフォン２６３８は、コーデック２６３４に結合されることができる。

図２６はまた、ワイヤレスコントローラ２６４０が、プロセッサ２６１０およびワイヤレスアンテナ２６９８に結合されることができることを示す。特定の実施形態では、プロセッサ２６１０、カメラコントローラ２６６０、ディスプレイコントローラ２６２６、メモリ２６３２、コーデック２６３４、およびワイヤレスコントローラ２６４０は、システムインパッケージ、またはシステムオンチップデバイス２６２２に含まれる。特定の実施形態では、入力デバイス２６３０および電源２６４４が、システムオンチップデバイス２６２２に結合される。さらに、特定の実施形態では、図２６に例示されているように、ディスプレイ２６２８、カメラ２６４２、入力デバイス２６３０、スピーカ２６３６、マイクロフォン２６３８、ワイヤレスアンテナ２６９８、および電源２０４４は、システムオンチップデバイス２６２２の外部にある。しかしながら、ディプレイ２６２８、カメラ２６４２、入力デバイス２６３０、スピーカ２６３６、マイクロフォン２６３８、ワイヤレスアンテナ２６９８、および電源２６４４の各々は、インタフェースまたはコントローラのような、システムオンチップデバイス２６２２の成分に結合されることができる。

記述されたシステムおよび方法と関連して、ブロブ抽象化を行う方法は、投影を推定する前にブロブを簡略化された幾何学的形態にコンバートすることを含むことができ、投影を推定することは簡略化された幾何学的形態のパラメータに基づく。例えば、その方法は図１のブロブアブストラクタ１１２によって行われうる。簡略化された幾何学的形態にコンバートされたブロブは、テキストブロブ抽出器１０４、または図１のようなテキストブロブ抽出器から受信された画素ドメインブロブでありうる。しかしながら他の実施形態では、方法は、図１に関係して記述された曲線性、安定性、および／または重複基準の１つまたは複数に基づいて選択されず、その代わりに図１の汎用ブロブ抽出器１０６のような、汎用ブロブ抽出器から受信されうるブロブを使用して行われうる。

簡略化された幾何学的形態は、図８に関係して記述されているような、ブロブにおける画素の数よりも小さいパラメータの数を使用して記述されうる、楕円、長円、台形、平行四辺形、ひし形、矩形、三角形、あらゆる他のタイプの多角形、あるいはそれらのあらゆる組み合わせのような、あらゆるタイプの幾何学的形態、または幾何学的形態の組み合わせでありうる。いくつかの実施形態では、ブロブ抽象化は、ブロブ自体を変更することなく、ブロブの特性に基づいて簡略化された幾何学的形態のパラメータを決定するための１つまたは複数の技法（例えば、エネルギー最小化または最小２乗エラー）を適用することによってブロブを簡略化された幾何学的形態に「コンバート」することを含む。簡略化された幾何学的形態を決定した後、投影プロファイル分析は、歪み、傾き、歪みと傾きの両方、またはブロブに関連付けられた１つまたは複数の他の特性を推定するために簡略化された幾何学的形態を使用して行われうる。ブロブは、簡略化された幾何学的形態を使用して決定される特性を補償するために変更されうる。例えば、ブロブに対応するテキストの推定された傾きが簡略化された幾何学的形態の１つまたは複数の推定された投影に基づいて決定されるとき、ブロブは、回転変換をブロブに適用することによって推定された傾きを実質的に補償するために変更されうる。

記述されたシステムおよび方法と関連して、図１のブロブ抽出器１０６、あるいは図１の画像データ１０２における１つまたは複数の画像領域を識別するように構成されたあらゆる他の回路またはプロセッサのような画像データにおける画像領域のセットを識別するための手段を含む装置が開示されている。装置はまた、ブロブの安定性に少なくとも部分的に基づいて、テキスト抽出のためにブロブのセットから画像領域を選択するための手段を含む。その装置は、図１の安定したかつ曲線のブロブ選択器１０８、あるいは例示的な例として図１−図２、および４に関係して記述されたような、安定性処理を適用するように構成されたあらゆる他の回路またはプロセッサを含むことができる。曲線性処理もまた、図１−図２、図４、および図１４に関係して記述されるように、適用されうる。

記述されたシステムおよび方法と関連して、画像領域に対応する幾何学的図形を識別するための手段を含む装置が開示されており、画像領域は、画像データで識別されたテキストの少なくとも一部に対応する。その装置は、図１のブロブアブストラクタ１１２、図２６の命令２６５６を実施するようにプログラミングされたプロセッサ２６１０、あるいは画像領域に対応する幾何学的図形を識別するように構成されたあらゆる他の回路またはプロセッサを含むことができ、画像領域は、画像データで識別されたテキストの少なくとも一部に対応する。装置はまた、幾何学的図形に少なくとも部分的に基づいて、テキストのためのバウンディングボックスを決定するための手段も含む。その装置は、図１のブロブアブストラクタ１１２、図１のテキスト領域検出器および２値化エンジン１１４、図２６の命令２６５６を実施するようにプログラミングされたプロセッサ２６１０、あるいは幾何学的図形に少なくとも部分的に基づいてテキストのためのバウンディングボックスを決定するように構成されたあらゆる他の回路またはプロセッサを含むことができる。

装置は、しきい値を超える幾何学的図形の第１の適合エラーに応じて画像領域に対応する複数の幾何学的図形を識別するための手段を含むことができる。その装置は、図１のブロブアブストラクタ１１２、図２６の命令２６５６を実施するようにプログラミングされたプロセッサ２６１０、あるいはしきい値を超える幾何学的図形の第１の適合エラーに応じて画像領域に対応する複数の幾何学的図形を識別するように構成されたあらゆる他の回路またはプロセッサを含むことができる。

装置は、複数の投影ラインを使用して幾何学的図形の投影プロファイルを決定するための手段を含み、各特定の投影ラインに対応する投影プロファイルの値は、幾何学的図形を有する特定の投影ラインの交差点との間の距離に基づく。その装置は、図１のテキスト領域検出器および２値化エンジン１１４、図２６の命令２６５６を実施するようにプログラミングされたプロセッサ２６１０、あるいは複数の投影ラインを使用して幾何学的図形の投影プロファイルを決定するように構成されたあらゆる他の回路またはプロセッサを含むことができる。

装置は、画像領域に対応する複数の幾何学的図形を識別するための手段を含むことができ、画像領域の各々は、テキストの少なくとも一部に対応する。その装置は、図１のブロブアブストラクタ１１２、図２６の命令２６５６を実施するようにプログラミングされたプロセッサ２６１０、あるいは画像データにおけるテキストとして識別されたブロブに対応する複数の幾何学的図形を識別するように構成されたあらゆる他の回路またはプロセッサを含むことができる。装置はまた、テキストの歪みを推定するために複数の幾何学的図形の第１の投影プロファイルを決定するための手段、およびテキストの傾きを推定するために複数の幾何学的図形の第２の投影プロファイルを決定するための手段も含むことができる。その装置は、図１のテキスト領域検出器および２値化エンジン１１４、図２６の命令２６５６を実施するようにプログラミングされたプロセッサ２６１０、あるいはテキストの歪みおよび傾きを推定するために複数の幾何学的図形の投影プロファイルを決定するように構成されたあらゆる他の回路またはプロセッサを含むことができる。

装置は、図１のテキスト領域検出器および２値化エンジン１１４、図２６の命令２６５６を実施するようにプログラミングされたプロセッサ２６１０、あるいは画像データで識別されたブロブのセットからブロブを抽出するように構成されたあらゆる他の回路またはプロセッサのような、画像領域のセットから画像領域を抽出するための手段を含むことができ、画像領域の各々はテキストの少なくとも一部に対応する。装置はさらに、抽出された画像領域を複数のクラスタに区分化するための手段、および他のクラスタの各々から独立した各クラスタの投影プロファイルを決定するための手段を含むことができる。その装置は、図１のテキスト領域検出器および２値化エンジン１１４、図２６の命令２６５６を実施するようにプログラミングされたプロセッサ２６１０、あるいは抽出されたブロブを複数のクラスタに区分化し、他のクラスタの各々から独立した各クラスタの投影プロファイルを決定するように構成されたあらゆる他の回路またはプロセッサを含むことができる。

装置は、幾何学的図形の第１のセットを幾何学的図形の第２および第３のセットに区分化するために、画像データで識別された画像領域に対応する幾何学的図形の第１のセットに第１の投影プロファイル分析を行うための手段を含むことができる。その装置は、図１のテキスト領域検出器および２値化エンジン１１４、図２６の命令２６５６を実施するようにプログラミングされたプロセッサ２６１０、あるいは幾何学的図形の第１のセットに第１の投影プロファイル分析を行うように構成されたあらゆる他の回路またはプロセッサを含むことができる。装置は、幾何学的図形の第２のセットを幾何学的図形の第４のセットおよび幾何学的図形の第５のセットに区分化するために幾何学的図形の第２のセットに第２の投影プロファイル分析を行うための手段を含むことができる。その装置は、図１のテキスト領域検出器および２値化エンジン１１４、図２６の命令２６５６を実施するようにプログラミングされたプロセッサ２６１０、あるいは幾何学的図形の第２のセットを幾何学的図形の第４のセットおよび幾何学的図形の第５のセットに区分化するために幾何学的図形の第２のセットに第２の投影プロファイル分析を行うように構成されたあらゆる他の回路またはプロセッサを含むことができる。

様々な態様がブロブに関係して記述されているけれども、他の実施形態では、テキスト抽出が非ブロブ画像領域に少なくとも部分的に基づきうる。例えば、方法は、画像データで識別された画像領域のセットの指示を受信すること、および１つまたは複数の基準に少なくとも部分的に基づいて、テキスト抽出のために画像領域のセットから画像領域を選択することを含むことができる。特定の実施形態では、方法は、画像領域の安定性に少なくとも部分的に基づいてテキスト抽出のために画像領域のセットから画像領域を選択することを含む。いくつかの実施形態では、画像領域はブロブでありうる（例えば、実質的に類似した画素値を有する画素の結合したグループでありうる）。他の実施形態では、画像の領域の１つまたは複数（または全て）はブロブではなく、その代わりに、１つまたは複数の選択基準にしたがって識別され、安定性のようなテキストに関する特性のためにさらに処理されうる、場合によっては重複する画像データの領域でありうる。

当業者は、ここに開示された実施形態に関連して説明された様々な例示的な論理ブロック、構成、モジュール、回路、およびアルゴリズムステップが、電子ハードウェア、コンピュータソフトウェア、あるいは両方の組み合わせとしてインプリメントされうることをさらに理解するであろう。様々な例示的な成分、ブロック、構成、モジュール、回路、およびステップは、概してそれらの機能の観点から上で記述されてきた。このような機能が、ハードウェアまたはソフトウェアとして実現されるかどうかは、システム全体に課せられている、特定のアプリケーションおよび設計制約に依存する。当業者は、それぞれの特定のアプリケーションのための様々な方法で、記述された機能をインプリメントしうるけれども、このようなインプリメンテーションの決定は、本開示の範囲からの逸脱を引き起こすとして解釈されるべきでない。

ここで開示された実施形態に関連して記述されたアルゴリズムまたは方法のステップは、直接ハードウェアにおいて、プロセッサによって実施されるソフトウェアモジュールにおいて、あるいはその２つの組み合わせにおいて、実現されうる。ソフトウェアモジュールは、ランダムアクセスメモリ（ＲＡＭ）、フラッシュメモリ、読み出し専用メモリ（ＲＯＭ）、プログラマブル読み出し専用メモリ（ＰＲＯＭ）、消去可能プログラマブル読み出し専用メモリ（ＥＰＲＯＭ）、電気的消去可能プログラマブル読み出し専用メモリ（ＥＥＰＲＯＭ）、レジスタ、ハードディスク、リムーバブルディスク、コンパクトディスク読み出し専用メモリ（ＣＤ−ＲＯＭ）、あるいは当技術分野において周知であるあらゆる他の形態の記憶媒体に存在しうる。典型的な非トランジトリな（例えば、有体の）記憶媒体は、プロセッサがこの記憶媒体から情報を読み取り、またこの記憶媒体に情報を書き込むことができるように、プロセッサに結合される。代わりとして、記憶媒体は、プロセッサと一体化されうる。プロセッサおよび記憶媒体は、特定用途向け集積回路（ＡＳＩＣ）内に存在しうる。ＡＳＩＣは、コンピューティングデバイスまたはユーザ端末内に存在しうる。代わりとしてプロセッサおよび記憶媒体は、計算デバイスまたはユーザ端末においてディスクリート成分として存在しうる。

開示された実施形態の先の記述は、当業者が開示された実施形態を製造および使用することを可能にするように提供される。これらの実施形態への様々の変更は、当業者にとって容易に明らかであり、ここに定義された原理は、本開示の範囲から逸脱することなく他の実施形態に適用されうる。したがって、本開示は、ここに提示された実施形態に限定されるようには意図されないけれども、以下の特許請求の範囲によって定義されるような原理および新規な特徴と一致する可能な最も広い範囲を与えられることとなる。

開示された実施形態の先の記述は、当業者が開示された実施形態を製造および使用することを可能にするように提供される。これらの実施形態への様々の変更は、当業者にとって容易に明らかであり、ここに定義された原理は、本開示の範囲から逸脱することなく他の実施形態に適用されうる。したがって、本開示は、ここに提示された実施形態に限定されるようには意図されないけれども、以下の特許請求の範囲によって定義されるような原理および新規な特徴と一致する可能な最も広い範囲を与えられることとなる。
以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
［１］画像データで識別された画像領域のセットの指示を受信することと、画像領域安定性に少なくとも部分的に基づいて、テキスト抽出のために前記画像領域のセットから画像領域を選択することと、を備える、コンピュータによって実施される方法。
［２］前記画像領域のセットの各画像領域は、実質的に類似した画素値を有する前記画像データの結合された画素のグループに対応するブロブである、［１］に記載のコンピュータによって実施される方法。
［３］前記画像領域は、さらに画像領域曲線性に少なくとも部分的に基づいて選択される、［１］に記載のコンピュータによって実施される方法。
［４］前記画像領域曲線性は、画像領域サイズと画像領域ストローク幅との比較に基づいて決定される、［３］に記載のコンピュータによって実施される方法。
［５］前記画像領域を選択することは、安定性の基準を満たす前記画像領域のセットの画像領域を識別することと、識別された前記画像領域が曲線性の基準を満たすかどうかを決定することと、を含む、［３］に記載のコンピュータによって実施される方法。
［６］前記画像領域のセットの各画像領域の安定性測定値を決定することをさらに備え、前記安定性の基準を満たす前記画像領域を識別することは、決定された前記安定性測定値の比較に基づいて前記画像領域のセットの最も安定した画像領域を選択することを備える、［５］に記載のコンピュータによって実施される方法。
［７］各決定された安定性測定値は、しきい値における変化に関係した画像領域のサイズにおける変化を示す、［６］に記載のコンピュータによって実施される方法。
［８］前記画像領域を選択することは、識別された前記画像領域が前記曲線性の基準を満たしていることを決定した後、識別された前記画像領域と重複する全ての画像領域を前記画像領域のセットから取り除くことをさらに含む、［５］に記載のコンピュータによって実施される方法。
［９］選択された前記画像領域に対応する幾何学的図形のセットを決定することと、前記幾何学的図形のセットの投影プロファイルを決定することと、をさらに備える、［１］に記載のコンピュータによって実施される方法。
［１０］前記画像領域のセットの少なくとも１つの画像領域は、テキスト抽出にために選択され、前記画像領域のセットの少なくとも別の画像領域は、テキスト抽出のために選択されない、［１］に記載のコンピュータによって実施される方法。
［１１］前記画像領域のセットの少なくとも１つの画像領域は、前記画像領域のセットの別の画像領域と重複する、［１］に記載のコンピュータによって実施される方法。
［１２］画像データで識別された画像領域のセットの指示を生成するように構成された画像領域抽出器と、画像領域安定性に少なくとも部分的に基づいてテキスト抽出のために前記画像領域のセットから画像領域を選択するように構成されたテキスト画像領域選択器と、を備える、装置。
［１３］前記テキスト画像領域選択器は、画像領域曲線性に少なくとも部分的に基づいて前記画像領域を選択するようにさらに構成される、［１２］に記載の装置。
［１４］前記テキスト画像領域選択器は、前記画像領域のセットから安定したかつ曲線の画像領域を選択するように構成された選択器と、選択された前記安定したかつ曲線の画像領域と重複する前記画像領域のセットから画像領域を取り除くように構成された重複領域リムーバ、を含む、［１３］に記載の装置。
［１５］選択された前記画像領域に対応する幾何学的図形のセットを決定するように構成された画像領域アブストラクタをさらに備える、［１２］に記載の装置。
［１６］幾何学的図形のセットの投影プロファイルを決定するように構成されたテキスト領域検出器をさらに備える、［１２］に記載の装置。
［１７］画像データにおいて画像領域のセットを識別するための手段と、画像領域安定性に少なくとも部分的に基づいて、テキスト抽出のために前記画像領域のセットから画像領域を選択するための手段と、を備える、装置。
［１８］前記画像領域は、さらに画像領域曲線性に少なくとも部分的に基づいて選択される、［１７］に記載の装置。
［１９］プロセッサによって実行可能なプログラム命令を記憶するコンピュータ可読記憶媒体であって、前記プログラム命令は、画像データで識別された画像領域のセットの指示を受信するためのコードと、画像領域安定性に少なくとも部分的に基づいて、テキスト抽出のために前記画像領域のセットから画像領域を選択するためのコードと、を備える、コンピュータ可読記憶媒体。
［２０］前記プログラム命令は、さらに画像領域曲線性に少なくとも部分的に基づいて前記画像領域を選択するためのコードをさらに備える、［１９］に記載のコンピュータ可読記憶媒体。
［２１］画像領域に対応する幾何学的図形を識別することと、前記画像領域は画像データで識別されたテキストの少なくとも一部に対応し、前記幾何学的図形に少なくとも部分的に基づいて、前記テキストのためのバウンディングボックスを決定することと、を備えるコンピュータによって実施される方法。
［２２］しきい値を超える前記画像領域に関係した前記幾何学的図形の第１の適合エラーに応じて、前記画像領域に対応する複数の幾何学的図形を識別するこ、をさらに備える、［２１］に記載のコンピュータによって実施される方法。
［２３］前記第１の適合エラーは、前記画像領域の全体のエリアと比較される前記幾何学的図形の外に位置付けられた前記画像領域のエリアに対応する、［２２］に記載のコンピュータによって実施される方法。
［２４］前記複数の幾何学的図形の第２の適合エラーが前記第１の適合エラーよりも小さいことに応じて、前記複数の幾何学的図形に投影プロファイル分析を行うことをさらに備える、［２２］に記載のコンピュータによって実施される方法。
［２５］前記複数の幾何学的図形は２つの幾何学的図形から成る、［２２］に記載のコンピュータによって実施される方法。
［２６］前記幾何学的図形は楕円であり、前記複数の幾何学的図形は複数の楕円を含む、［２２］に記載のコンピュータによって実施される方法。
［２７］複数の投影ラインを使用して前記幾何学的図形の投影プロファイルを決定することをさらに備え、各特定の投影ラインに対応する前記投影プロファイルの値は、前記幾何学的図形を有する前記特定の投影ラインの交差点間の距離に基づく、［２１］に記載のコンピュータによって実施される方法。
［２８］画像領域に対応する複数の幾何学的図形を識別することと、前記画像領域の各々は、前記テキストの少なくとも一部に対応する、前記テキストの歪みを推定するために前記複数の幾何学的図形の第１の投影プロファイルを決定することと、前記テキストの傾きを推定するために前記複数の幾何学的図形の第２の投影プロファイルを決定することと、をさらに備える、［２１］に記載のコンピュータによって実施される方法。
［２９］前記第１の投影プロファイルを決定することは、前記複数の幾何学的図形を横切る平行の投影ラインの複数のセットのアングルに対応する複数の投影プロファイルを決定することと、前記複数の投影プロファイルのあらゆる他の投影プロファイルよりも小さい前記複数の投影プロファイルから投影プロファイルを選択することとを含む、［２８］に記載のコンピュータによって実施される方法。
［３０］前記歪みは、水平の基準に対応する前記平行の投影ラインの前記アングルに対応する、［２９］に記載のコンピュータによって実施される方法。
［３１］前記第２の投影プロファイルを決定することは、前記複数の幾何学的図形を横切る平行の投影ラインの複数のセットのアングルに対応する複数の投影プロファイルを決定することと、前記複数の投影プロファイルのあらゆる他の投影プロファイルよりも少ない前記複数の幾何学的図形を有する平行の投影プロファイルの交差点を有する前記複数の投影プロファイルから投影プロファイルを選択することとを含む、［２８］に記載のコンピュータによって実施される方法。
［３２］画像領域のセットから画像領域を抽出することと、前記画像領域の各々は前記テキストの少なくとも一部に対応する、前記抽出された画像領域を複数のクラスタに区分化することと、他のクラスタの各々から独立して各クラスタの投影プロファイルを決定することと、をさらに備える、［２１］に記載のコンピュータによって実施される方法。
［３３］抽出された前記画像領域を区分化することは、前記テキストのストローク幅に少なくとも部分的に基づく、［３２］に記載のコンピュータによって実施される方法。
［３４］抽出された前記画像領域を区分化することは、前記テキストの色に少なくとも部分的に基づく、［３２］に記載のコンピュータによって実施される方法。
［３５］幾何学的図形の第１のセットを幾何学的図形の第２のセットおよび幾何学的図形の第３のセットに区分化するために、前記画像データで識別された画像領域に対応する前記幾何学的図形の第１のセットに第１の投影プロファイル分析を行うことと、前記幾何学的図形の第２のセットを幾何学的図形の第４のセットおよび幾何学的図形の第５のセットに区分化するために前記幾何学的図形の第２のセットに第２の投影プロファイル分析を行うことと、をさらに備える、［３２］に記載のコンピュータによって実施される方法。
［３６］前記幾何学的図形の第３のセットは、前記テキストの第１のラインに対応し、前記幾何学的図形の第４のセットは、前記テキストの第２のラインに対応し、前記幾何学的図形の第５のセットは、前記テキストの第３のラインに対応する、［３５］に記載のコンピュータによって実施される方法。
［３７］プロセッサと、画像領域に対応する幾何学的図形を識別することと、前記画像領域は画像データで識別されたテキストの少なくとも一部に対応する、前記幾何学的図形に少なくとも部分的に基づいて、前記テキストのためのバウンディングボックスを決定することと、が前記プロセッサによって実行可能な命令を記憶するメモリと、を備える、装置。
［３８］前記命令はさらに、しきい値を超える前記画像領域に関係した前記幾何学的図形の第１の適合エラーに応じて、前記画像領域に対応する複数の幾何学的図形を識別することが前記プロセッサによって実行可能である、［３７］に記載の装置。
［３９］前記命令はさらに、複数の投影ラインを使用して前記幾何学的図形の投影プロファイルを決定することが前記プロセッサによって実行可能であり、各特定の投影ラインに対応する前記投影プロファイルの値は、前記幾何学的図形を有する前記特定の投影ラインの交差点間の距離に基づく、［２７］に記載の装置。
［４０］前記命令はさらに、画像領域に対応する複数の幾何学的図形を識別することと、前記画像領域の各々は、前記テキストの少なくとも一部に対応し、前記テキストの歪みを推定するために前記複数の幾何学的図形の第１の投影プロファイルを決定することと、前記テキストの傾きを推定するために前記複数の幾何学的図形の第２の投影プロファイルを決定することと、が前記プロセッサによって実行可能である、［２７］に記載の装置。
［４１］前記命令はさらに、画像領域のセットから画像領域を抽出することと、前記画像領域の各々は前記テキストの少なくとも一部に対応する、前記抽出された画像領域を複数のクラスタに区分化することと、他のクラスタの各々から独立して各クラスタの投影プロファイルを決定することと、が前記プロセッサによって実行可能である、［２７］に記載の装置。
［４２］前記命令はさらに、幾何学的図形の第１のセットを幾何学的図形の第２のセットおよび幾何学的図形の第３のセットに区分化するために、前記画像データで識別された画像領域に対応する前記幾何学的図形の第１のセットに第１の投影プロファイル分析を行うことと、前記幾何学的図形の第２のセットを幾何学的図形の第４のセットおよび幾何学的図形の第５のセットに区分化するために前記幾何学的図形の第２のセットに第２の投影プロファイル分析を行うことと、が前記プロセッサによって実行可能である、［２７］に記載の装置。

Claims

画像データで識別された画像領域のセットの指示を受信することと、
画像領域安定性に少なくとも部分的に基づいて、テキスト抽出のために前記画像領域のセットから画像領域を選択することと、
を備える、コンピュータによって実施される方法。
前記画像領域のセットの各画像領域は、実質的に類似した画素値を有する前記画像データの結合された画素のグループに対応するブロブである、請求項１に記載のコンピュータによって実施される方法。
前記画像領域は、さらに画像領域の曲線性に少なくとも部分的に基づいて選択される、請求項１に記載のコンピュータによって実施される方法。
前記画像領域の曲線性は、画像領域サイズと画像領域ストローク幅との比較に基づいて決定される、請求項３に記載のコンピュータによって実施される方法。
前記画像領域を選択することは、
安定性の基準を満たす前記画像領域のセットの画像領域を識別することと、
識別された前記画像領域が曲線性の基準を満たすかどうかを決定することと、
を含む、請求項３に記載のコンピュータによって実施される方法。
前記画像領域のセットの各画像領域の安定性測定値を決定することをさらに備え、前記安定性の基準を満たす前記画像領域を識別することは、決定された前記安定性測定値の比較に基づいて前記画像領域のセットの最も安定した画像領域を選択することを備える、請求項５に記載のコンピュータによって実施される方法。
各決定された安定性測定値は、しきい値における変化に関係した画像領域のサイズにおける変化を示す、請求項６に記載のコンピュータによって実施される方法。
前記画像領域を選択することは、識別された前記画像領域が前記曲線性の基準を満たしていることを決定した後、識別された前記画像領域と重複する全ての画像領域を前記画像領域のセットから取り除くことをさらに含む、請求項５に記載のコンピュータによって実施される方法。
選択された前記画像領域に対応する幾何学的図形のセットを決定することと、
前記幾何学的図形のセットの投影プロファイルを決定することと、
をさらに備える、請求項１に記載のコンピュータによって実施される方法。
前記画像領域のセットの少なくとも１つの画像領域は、テキスト抽出にために選択され、前記画像領域のセットの少なくとも別の画像領域は、テキスト抽出のために選択されない、請求項１に記載のコンピュータによって実施される方法。
前記画像領域のセットの少なくとも１つの画像領域は、前記画像領域のセットの別の画像領域と重複する、請求項１に記載のコンピュータによって実施される方法。
画像データで識別された画像領域のセットの指示を生成するように構成された画像領域抽出器と、
画像領域の安定性に少なくとも部分的に基づいてテキスト抽出のために前記画像領域のセットから画像領域を選択するように構成されたテキスト画像領域選択器と、
を備える、装置。
前記テキスト画像領域選択器は、画像領域曲線性に少なくとも部分的に基づいて前記画像領域を選択するようにさらに構成される、請求項１２に記載の装置。
前記テキスト画像領域選択器は、
前記画像領域のセットから安定したかつ曲線の画像領域を選択するように構成された選択器と、
選択された前記安定したかつ曲線の画像領域と重複する前記画像領域のセットから画像領域を取り除くように構成された重複領域リムーバと
を含む、請求項１３に記載の装置。
選択された前記画像領域に対応する幾何学的図形のセットを決定するように構成された画像領域アブストラクタをさらに備える、請求項１２に記載の装置。
幾何学的図形のセットの投影プロファイルを決定するように構成されたテキスト領域検出器をさらに備える、請求項１２に記載の装置。
画像データにおいて画像領域のセットを識別するための手段と、
画像領域の安定性に少なくとも部分的に基づいて、テキスト抽出のために前記画像領域のセットから画像領域を選択するための手段と、
を備える、装置。
前記画像領域は、さらに画像領域の曲線性に少なくとも部分的に基づいて選択される、請求項１７に記載の装置。
プロセッサによって実行可能なプログラム命令を記憶するコンピュータ可読記憶媒体であって、前記プログラム命令は、
画像データで識別された画像領域のセットの指示を受信するためのコードと、画像領域の安定性に少なくとも部分的に基づいて、テキスト抽出のために前記画像領域のセットから画像領域を選択するためのコードと、
を備える、コンピュータ可読記憶媒体。
前記プログラム命令は、さらに画像領域の曲線性に少なくとも部分的に基づいて前記画像領域を選択するためのコードをさらに備える、請求項１９に記載のコンピュータ可読記憶媒体。
画像領域に対応する幾何学的図形を識別することと、前記画像領域は画像データで識別されたテキストの少なくとも一部に対応し、
前記幾何学的図形に少なくとも部分的に基づいて、前記テキストのためのバウンディングボックスを決定することと、
を備えるコンピュータによって実施される方法。
しきい値を超える前記画像領域に関係した前記幾何学的図形の第１の適合エラーに応じて、前記画像領域に対応する複数の幾何学的図形を識別すること
をさらに備える、請求項２１に記載のコンピュータによって実施される方法。
前記第１の適合エラーは、前記画像領域の全体のエリアと比較される前記幾何学的図形の外に位置付けられた前記画像領域のエリアに対応する、請求項２２に記載のコンピュータによって実施される方法。
前記複数の幾何学的図形の第２の適合エラーが前記第１の適合エラーよりも小さいことに応じて、前記複数の幾何学的図形に投影プロファイル分析を行うことをさらに備える、請求項２２に記載のコンピュータによって実施される方法。
前記複数の幾何学的図形は２つの幾何学的図形から成る、請求項２２に記載のコンピュータによって実施される方法。
前記幾何学的図形は楕円であり、前記複数の幾何学的図形は複数の楕円を含む、請求項２２に記載のコンピュータによって実施される方法。
複数の投影ラインを使用して前記幾何学的図形の投影プロファイルを決定することをさらに備え、
各特定の投影ラインに対応する前記投影プロファイルの値は、前記幾何学的図形を有する前記特定の投影ラインの交差点間の距離に基づく、
請求項２１に記載のコンピュータによって実施される方法。
画像領域に対応する複数の幾何学的図形を識別することと、前記画像領域の各々は、前記テキストの少なくとも一部に対応する、
前記テキストの歪みを推定するために前記複数の幾何学的図形の第１の投影プロファイルを決定することと、
前記テキストの傾きを推定するために前記複数の幾何学的図形の第２の投影プロファイルを決定することと、
をさらに備える、請求項２１に記載のコンピュータによって実施される方法。
前記第１の投影プロファイルを決定することは、前記複数の幾何学的図形を横切る平行の投影ラインの複数のセットのアングルに対応する複数の投影プロファイルを決定することと、前記複数の投影プロファイルのあらゆる他の投影プロファイルよりも小さい前記複数の投影プロファイルから投影プロファイルを選択することとを含む、請求項２８に記載のコンピュータによって実施される方法。
前記歪みは、水平の基準に対応する前記平行の投影ラインの前記アングルに対応する、請求項２９に記載のコンピュータによって実施される方法。
前記第２の投影プロファイルを決定することは、前記複数の幾何学的図形を横切る平行の投影ラインの複数のセットのアングルに対応する複数の投影プロファイルを決定することと、前記複数の投影プロファイルのあらゆる他の投影プロファイルよりも少ない前記複数の幾何学的図形を有する平行の投影プロファイルの交差点を有する前記複数の投影プロファイルから投影プロファイルを選択することとを含む、請求項２８に記載のコンピュータによって実施される方法。
画像領域のセットから画像領域を抽出することと、前記画像領域の各々は前記テキストの少なくとも一部に対応する、
前記抽出された画像領域を複数のクラスタに区分化することと、
他のクラスタの各々から独立して各クラスタの投影プロファイルを決定することと、
をさらに備える、請求項２１に記載のコンピュータによって実施される方法。
抽出された前記画像領域を区分化することは、前記テキストのストローク幅に少なくとも部分的に基づく、請求項３２に記載のコンピュータによって実施される方法。
抽出された前記画像領域を区分化することは、前記テキストの色に少なくとも部分的に基づく、請求項３２に記載のコンピュータによって実施される方法。
幾何学的図形の第１のセットを幾何学的図形の第２のセットおよび幾何学的図形の第３のセットに区分化するために、前記画像データで識別された画像領域に対応する前記幾何学的図形の第１のセットに第１の投影プロファイル分析を行うことと、
前記幾何学的図形の第２のセットを幾何学的図形の第４のセットおよび幾何学的図形の第５のセットに区分化するために前記幾何学的図形の第２のセットに第２の投影プロファイル分析を行うことと、
をさらに備える、請求項３２に記載のコンピュータによって実施される方法。
前記幾何学的図形の第３のセットは、前記テキストの第１のラインに対応し、前記幾何学的図形の第４のセットは、前記テキストの第２のラインに対応し、前記幾何学的図形の第５のセットは、前記テキストの第３のラインに対応する、請求項３５に記載のコンピュータによって実施される方法。
プロセッサと、
画像領域に対応する幾何学的図形を識別することと、前記画像領域は画像データで識別されたテキストの少なくとも一部に対応する、
前記幾何学的図形に少なくとも部分的に基づいて、前記テキストのためのバウンディングボックスを決定することと、
が前記プロセッサによって実行可能な命令を記憶するメモリと、
を備える、装置。
前記命令はさらに、しきい値を超える前記画像領域に関係した前記幾何学的図形の第１の適合エラーに応じて、前記画像領域に対応する複数の幾何学的図形を識別することが前記プロセッサによって実行可能である、請求項３７に記載の装置。
前記命令はさらに、複数の投影ラインを使用して前記幾何学的図形の投影プロファイルを決定することが前記プロセッサによって実行可能であり、各特定の投影ラインに対応する前記投影プロファイルの値は、前記幾何学的図形を有する前記特定の投影ラインの交差点間の距離に基づく、
請求項２７に記載の装置。
前記命令はさらに、
画像領域に対応する複数の幾何学的図形を識別することと、前記画像領域の各々は、前記テキストの少なくとも一部に対応し、
前記テキストの歪みを推定するために前記複数の幾何学的図形の第１の投影プロファイルを決定することと、
前記テキストの傾きを推定するために前記複数の幾何学的図形の第２の投影プロファイルを決定することと、
が前記プロセッサによって実行可能である、請求項２７に記載の装置。
前記命令はさらに、
画像領域のセットから画像領域を抽出することと、前記画像領域の各々は前記テキストの少なくとも一部に対応する、
前記抽出された画像領域を複数のクラスタに区分化することと、
他のクラスタの各々から独立して各クラスタの投影プロファイルを決定することと、
が前記プロセッサによって実行可能である、請求項２７に記載の装置。
前記命令はさらに、
幾何学的図形の第１のセットを幾何学的図形の第２のセットおよび幾何学的図形の第３のセットに区分化するために、前記画像データで識別された画像領域に対応する前記幾何学的図形の第１のセットに第１の投影プロファイル分析を行うことと、前記幾何学的図形の第２のセットを幾何学的図形の第４のセットおよび幾何学的図形の第５のセットに区分化するために前記幾何学的図形の第２のセットに第２の投影プロファイル分析を行うことと、
が前記プロセッサによって実行可能である、請求項２７に記載の装置。