JP2014525626A - 画像領域を使用するテキスト検出 - Google Patents
画像領域を使用するテキスト検出 Download PDFInfo
- Publication number
- JP2014525626A JP2014525626A JP2014528402A JP2014528402A JP2014525626A JP 2014525626 A JP2014525626 A JP 2014525626A JP 2014528402 A JP2014528402 A JP 2014528402A JP 2014528402 A JP2014528402 A JP 2014528402A JP 2014525626 A JP2014525626 A JP 2014525626A
- Authority
- JP
- Japan
- Prior art keywords
- image
- text
- geometric
- blob
- projection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/63—Scene text, e.g. street names
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/60—Analysis of geometric attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/146—Aligning or centring of the image pick-up or image-field
- G06V30/1475—Inclination or skew detection or correction of characters or of image to be recognised
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Geometry (AREA)
- Character Input (AREA)
- Image Analysis (AREA)
Abstract
Description
例示するために、画素p1を通る例示された代表的なライン1404のセットの最も短いライン1402は、画素p1でのブロブのストローク幅を示す。同様に、ストローク幅は、各選択されたポイントに対して決定され、平均的なストローク幅は選択されたポイントに対する決定されたストローク幅の算術平均として決定されうる。例えば、平均ストローク幅は
以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
[1] 画像データで識別された画像領域のセットの指示を受信することと、画像領域安定性に少なくとも部分的に基づいて、テキスト抽出のために前記画像領域のセットから画像領域を選択することと、を備える、コンピュータによって実施される方法。
[2] 前記画像領域のセットの各画像領域は、実質的に類似した画素値を有する前記画像データの結合された画素のグループに対応するブロブである、[1]に記載のコンピュータによって実施される方法。
[3] 前記画像領域は、さらに画像領域曲線性に少なくとも部分的に基づいて選択される、[1]に記載のコンピュータによって実施される方法。
[4] 前記画像領域曲線性は、画像領域サイズと画像領域ストローク幅との比較に基づいて決定される、[3]に記載のコンピュータによって実施される方法。
[5] 前記画像領域を選択することは、安定性の基準を満たす前記画像領域のセットの画像領域を識別することと、識別された前記画像領域が曲線性の基準を満たすかどうかを決定することと、を含む、[3]に記載のコンピュータによって実施される方法。
[6] 前記画像領域のセットの各画像領域の安定性測定値を決定することをさらに備え、前記安定性の基準を満たす前記画像領域を識別することは、決定された前記安定性測定値の比較に基づいて前記画像領域のセットの最も安定した画像領域を選択することを備える、[5]に記載のコンピュータによって実施される方法。
[7] 各決定された安定性測定値は、しきい値における変化に関係した画像領域のサイズにおける変化を示す、[6]に記載のコンピュータによって実施される方法。
[8] 前記画像領域を選択することは、識別された前記画像領域が前記曲線性の基準を満たしていることを決定した後、識別された前記画像領域と重複する全ての画像領域を前記画像領域のセットから取り除くことをさらに含む、[5]に記載のコンピュータによって実施される方法。
[9] 選択された前記画像領域に対応する幾何学的図形のセットを決定することと、前記幾何学的図形のセットの投影プロファイルを決定することと、をさらに備える、[1]に記載のコンピュータによって実施される方法。
[10] 前記画像領域のセットの少なくとも1つの画像領域は、テキスト抽出にために選択され、前記画像領域のセットの少なくとも別の画像領域は、テキスト抽出のために選択されない、[1]に記載のコンピュータによって実施される方法。
[11] 前記画像領域のセットの少なくとも1つの画像領域は、前記画像領域のセットの別の画像領域と重複する、[1]に記載のコンピュータによって実施される方法。
[12] 画像データで識別された画像領域のセットの指示を生成するように構成された画像領域抽出器と、画像領域安定性に少なくとも部分的に基づいてテキスト抽出のために前記画像領域のセットから画像領域を選択するように構成されたテキスト画像領域選択器と、を備える、装置。
[13] 前記テキスト画像領域選択器は、画像領域曲線性に少なくとも部分的に基づいて前記画像領域を選択するようにさらに構成される、[12]に記載の装置。
[14] 前記テキスト画像領域選択器は、前記画像領域のセットから安定したかつ曲線の画像領域を選択するように構成された選択器と、選択された前記安定したかつ曲線の画像領域と重複する前記画像領域のセットから画像領域を取り除くように構成された重複領域リムーバ、を含む、[13]に記載の装置。
[15] 選択された前記画像領域に対応する幾何学的図形のセットを決定するように構成された画像領域アブストラクタをさらに備える、[12]に記載の装置。
[16] 幾何学的図形のセットの投影プロファイルを決定するように構成されたテキスト領域検出器をさらに備える、[12]に記載の装置。
[17] 画像データにおいて画像領域のセットを識別するための手段と、画像領域安定性に少なくとも部分的に基づいて、テキスト抽出のために前記画像領域のセットから画像領域を選択するための手段と、を備える、装置。
[18] 前記画像領域は、さらに画像領域曲線性に少なくとも部分的に基づいて選択される、[17]に記載の装置。
[19] プロセッサによって実行可能なプログラム命令を記憶するコンピュータ可読記憶媒体であって、前記プログラム命令は、画像データで識別された画像領域のセットの指示を受信するためのコードと、画像領域安定性に少なくとも部分的に基づいて、テキスト抽出のために前記画像領域のセットから画像領域を選択するためのコードと、を備える、コンピュータ可読記憶媒体。
[20] 前記プログラム命令は、さらに画像領域曲線性に少なくとも部分的に基づいて前記画像領域を選択するためのコードをさらに備える、[19]に記載のコンピュータ可読記憶媒体。
[21] 画像領域に対応する幾何学的図形を識別することと、前記画像領域は画像データで識別されたテキストの少なくとも一部に対応し、前記幾何学的図形に少なくとも部分的に基づいて、前記テキストのためのバウンディングボックスを決定することと、を備えるコンピュータによって実施される方法。
[22] しきい値を超える前記画像領域に関係した前記幾何学的図形の第1の適合エラーに応じて、前記画像領域に対応する複数の幾何学的図形を識別するこ、をさらに備える、[21]に記載のコンピュータによって実施される方法。
[23] 前記第1の適合エラーは、前記画像領域の全体のエリアと比較される前記幾何学的図形の外に位置付けられた前記画像領域のエリアに対応する、[22]に記載のコンピュータによって実施される方法。
[24] 前記複数の幾何学的図形の第2の適合エラーが前記第1の適合エラーよりも小さいことに応じて、前記複数の幾何学的図形に投影プロファイル分析を行うことをさらに備える、[22]に記載のコンピュータによって実施される方法。
[25] 前記複数の幾何学的図形は2つの幾何学的図形から成る、[22]に記載のコンピュータによって実施される方法。
[26] 前記幾何学的図形は楕円であり、前記複数の幾何学的図形は複数の楕円を含む、[22]に記載のコンピュータによって実施される方法。
[27] 複数の投影ラインを使用して前記幾何学的図形の投影プロファイルを決定することをさらに備え、各特定の投影ラインに対応する前記投影プロファイルの値は、前記幾何学的図形を有する前記特定の投影ラインの交差点間の距離に基づく、[21]に記載のコンピュータによって実施される方法。
[28] 画像領域に対応する複数の幾何学的図形を識別することと、前記画像領域の各々は、前記テキストの少なくとも一部に対応する、前記テキストの歪みを推定するために前記複数の幾何学的図形の第1の投影プロファイルを決定することと、前記テキストの傾きを推定するために前記複数の幾何学的図形の第2の投影プロファイルを決定することと、をさらに備える、[21]に記載のコンピュータによって実施される方法。
[29] 前記第1の投影プロファイルを決定することは、前記複数の幾何学的図形を横切る平行の投影ラインの複数のセットのアングルに対応する複数の投影プロファイルを決定することと、前記複数の投影プロファイルのあらゆる他の投影プロファイルよりも小さい前記複数の投影プロファイルから投影プロファイルを選択することとを含む、[28]に記載のコンピュータによって実施される方法。
[30] 前記歪みは、水平の基準に対応する前記平行の投影ラインの前記アングルに対応する、[29]に記載のコンピュータによって実施される方法。
[31] 前記第2の投影プロファイルを決定することは、前記複数の幾何学的図形を横切る平行の投影ラインの複数のセットのアングルに対応する複数の投影プロファイルを決定することと、前記複数の投影プロファイルのあらゆる他の投影プロファイルよりも少ない前記複数の幾何学的図形を有する平行の投影プロファイルの交差点を有する前記複数の投影プロファイルから投影プロファイルを選択することとを含む、[28]に記載のコンピュータによって実施される方法。
[32] 画像領域のセットから画像領域を抽出することと、前記画像領域の各々は前記テキストの少なくとも一部に対応する、前記抽出された画像領域を複数のクラスタに区分化することと、他のクラスタの各々から独立して各クラスタの投影プロファイルを決定することと、をさらに備える、[21]に記載のコンピュータによって実施される方法。
[33] 抽出された前記画像領域を区分化することは、前記テキストのストローク幅に少なくとも部分的に基づく、[32]に記載のコンピュータによって実施される方法。
[34] 抽出された前記画像領域を区分化することは、前記テキストの色に少なくとも部分的に基づく、[32]に記載のコンピュータによって実施される方法。
[35] 幾何学的図形の第1のセットを幾何学的図形の第2のセットおよび幾何学的図形の第3のセットに区分化するために、前記画像データで識別された画像領域に対応する前記幾何学的図形の第1のセットに第1の投影プロファイル分析を行うことと、前記幾何学的図形の第2のセットを幾何学的図形の第4のセットおよび幾何学的図形の第5のセットに区分化するために前記幾何学的図形の第2のセットに第2の投影プロファイル分析を行うことと、をさらに備える、[32]に記載のコンピュータによって実施される方法。
[36] 前記幾何学的図形の第3のセットは、前記テキストの第1のラインに対応し、前記幾何学的図形の第4のセットは、前記テキストの第2のラインに対応し、前記幾何学的図形の第5のセットは、前記テキストの第3のラインに対応する、[35]に記載のコンピュータによって実施される方法。
[37] プロセッサと、 画像領域に対応する幾何学的図形を識別することと、前記画像領域は画像データで識別されたテキストの少なくとも一部に対応する、 前記幾何学的図形に少なくとも部分的に基づいて、前記テキストのためのバウンディングボックスを決定することと、が前記プロセッサによって実行可能な命令を記憶するメモリと、を備える、装置。
[38] 前記命令はさらに、しきい値を超える前記画像領域に関係した前記幾何学的図形の第1の適合エラーに応じて、前記画像領域に対応する複数の幾何学的図形を識別することが前記プロセッサによって実行可能である、[37]に記載の装置。
[39] 前記命令はさらに、複数の投影ラインを使用して前記幾何学的図形の投影プロファイルを決定することが前記プロセッサによって実行可能であり、各特定の投影ラインに対応する前記投影プロファイルの値は、前記幾何学的図形を有する前記特定の投影ラインの交差点間の距離に基づく、[27]に記載の装置。
[40] 前記命令はさらに、画像領域に対応する複数の幾何学的図形を識別することと、前記画像領域の各々は、前記テキストの少なくとも一部に対応し、前記テキストの歪みを推定するために前記複数の幾何学的図形の第1の投影プロファイルを決定することと、前記テキストの傾きを推定するために前記複数の幾何学的図形の第2の投影プロファイルを決定することと、が前記プロセッサによって実行可能である、[27]に記載の装置。
[41] 前記命令はさらに、画像領域のセットから画像領域を抽出することと、前記画像領域の各々は前記テキストの少なくとも一部に対応する、前記抽出された画像領域を複数のクラスタに区分化することと、他のクラスタの各々から独立して各クラスタの投影プロファイルを決定することと、が前記プロセッサによって実行可能である、[27]に記載の装置。
[42] 前記命令はさらに、幾何学的図形の第1のセットを幾何学的図形の第2のセットおよび幾何学的図形の第3のセットに区分化するために、前記画像データで識別された画像領域に対応する前記幾何学的図形の第1のセットに第1の投影プロファイル分析を行うことと、前記幾何学的図形の第2のセットを幾何学的図形の第4のセットおよび幾何学的図形の第5のセットに区分化するために前記幾何学的図形の第2のセットに第2の投影プロファイル分析を行うことと、が前記プロセッサによって実行可能である、[27]に記載の装置。
Claims (42)
- 画像データで識別された画像領域のセットの指示を受信することと、
画像領域安定性に少なくとも部分的に基づいて、テキスト抽出のために前記画像領域のセットから画像領域を選択することと、
を備える、コンピュータによって実施される方法。 - 前記画像領域のセットの各画像領域は、実質的に類似した画素値を有する前記画像データの結合された画素のグループに対応するブロブである、請求項1に記載のコンピュータによって実施される方法。
- 前記画像領域は、さらに画像領域の曲線性に少なくとも部分的に基づいて選択される、請求項1に記載のコンピュータによって実施される方法。
- 前記画像領域の曲線性は、画像領域サイズと画像領域ストローク幅との比較に基づいて決定される、請求項3に記載のコンピュータによって実施される方法。
- 前記画像領域を選択することは、
安定性の基準を満たす前記画像領域のセットの画像領域を識別することと、
識別された前記画像領域が曲線性の基準を満たすかどうかを決定することと、
を含む、請求項3に記載のコンピュータによって実施される方法。 - 前記画像領域のセットの各画像領域の安定性測定値を決定することをさらに備え、前記安定性の基準を満たす前記画像領域を識別することは、決定された前記安定性測定値の比較に基づいて前記画像領域のセットの最も安定した画像領域を選択することを備える、請求項5に記載のコンピュータによって実施される方法。
- 各決定された安定性測定値は、しきい値における変化に関係した画像領域のサイズにおける変化を示す、請求項6に記載のコンピュータによって実施される方法。
- 前記画像領域を選択することは、識別された前記画像領域が前記曲線性の基準を満たしていることを決定した後、識別された前記画像領域と重複する全ての画像領域を前記画像領域のセットから取り除くことをさらに含む、請求項5に記載のコンピュータによって実施される方法。
- 選択された前記画像領域に対応する幾何学的図形のセットを決定することと、
前記幾何学的図形のセットの投影プロファイルを決定することと、
をさらに備える、請求項1に記載のコンピュータによって実施される方法。 - 前記画像領域のセットの少なくとも1つの画像領域は、テキスト抽出にために選択され、前記画像領域のセットの少なくとも別の画像領域は、テキスト抽出のために選択されない、請求項1に記載のコンピュータによって実施される方法。
- 前記画像領域のセットの少なくとも1つの画像領域は、前記画像領域のセットの別の画像領域と重複する、請求項1に記載のコンピュータによって実施される方法。
- 画像データで識別された画像領域のセットの指示を生成するように構成された画像領域抽出器と、
画像領域の安定性に少なくとも部分的に基づいてテキスト抽出のために前記画像領域のセットから画像領域を選択するように構成されたテキスト画像領域選択器と、
を備える、装置。 - 前記テキスト画像領域選択器は、画像領域曲線性に少なくとも部分的に基づいて前記画像領域を選択するようにさらに構成される、請求項12に記載の装置。
- 前記テキスト画像領域選択器は、
前記画像領域のセットから安定したかつ曲線の画像領域を選択するように構成された選択器と、
選択された前記安定したかつ曲線の画像領域と重複する前記画像領域のセットから画像領域を取り除くように構成された重複領域リムーバと
を含む、請求項13に記載の装置。 - 選択された前記画像領域に対応する幾何学的図形のセットを決定するように構成された画像領域アブストラクタをさらに備える、請求項12に記載の装置。
- 幾何学的図形のセットの投影プロファイルを決定するように構成されたテキスト領域検出器をさらに備える、請求項12に記載の装置。
- 画像データにおいて画像領域のセットを識別するための手段と、
画像領域の安定性に少なくとも部分的に基づいて、テキスト抽出のために前記画像領域のセットから画像領域を選択するための手段と、
を備える、装置。 - 前記画像領域は、さらに画像領域の曲線性に少なくとも部分的に基づいて選択される、請求項17に記載の装置。
- プロセッサによって実行可能なプログラム命令を記憶するコンピュータ可読記憶媒体であって、前記プログラム命令は、
画像データで識別された画像領域のセットの指示を受信するためのコードと、画像領域の安定性に少なくとも部分的に基づいて、テキスト抽出のために前記画像領域のセットから画像領域を選択するためのコードと、
を備える、コンピュータ可読記憶媒体。 - 前記プログラム命令は、さらに画像領域の曲線性に少なくとも部分的に基づいて前記画像領域を選択するためのコードをさらに備える、請求項19に記載のコンピュータ可読記憶媒体。
- 画像領域に対応する幾何学的図形を識別することと、前記画像領域は画像データで識別されたテキストの少なくとも一部に対応し、
前記幾何学的図形に少なくとも部分的に基づいて、前記テキストのためのバウンディングボックスを決定することと、
を備えるコンピュータによって実施される方法。 - しきい値を超える前記画像領域に関係した前記幾何学的図形の第1の適合エラーに応じて、前記画像領域に対応する複数の幾何学的図形を識別すること
をさらに備える、請求項21に記載のコンピュータによって実施される方法。 - 前記第1の適合エラーは、前記画像領域の全体のエリアと比較される前記幾何学的図形の外に位置付けられた前記画像領域のエリアに対応する、請求項22に記載のコンピュータによって実施される方法。
- 前記複数の幾何学的図形の第2の適合エラーが前記第1の適合エラーよりも小さいことに応じて、前記複数の幾何学的図形に投影プロファイル分析を行うことをさらに備える、請求項22に記載のコンピュータによって実施される方法。
- 前記複数の幾何学的図形は2つの幾何学的図形から成る、請求項22に記載のコンピュータによって実施される方法。
- 前記幾何学的図形は楕円であり、前記複数の幾何学的図形は複数の楕円を含む、請求項22に記載のコンピュータによって実施される方法。
- 複数の投影ラインを使用して前記幾何学的図形の投影プロファイルを決定することをさらに備え、
各特定の投影ラインに対応する前記投影プロファイルの値は、前記幾何学的図形を有する前記特定の投影ラインの交差点間の距離に基づく、
請求項21に記載のコンピュータによって実施される方法。 - 画像領域に対応する複数の幾何学的図形を識別することと、前記画像領域の各々は、前記テキストの少なくとも一部に対応する、
前記テキストの歪みを推定するために前記複数の幾何学的図形の第1の投影プロファイルを決定することと、
前記テキストの傾きを推定するために前記複数の幾何学的図形の第2の投影プロファイルを決定することと、
をさらに備える、請求項21に記載のコンピュータによって実施される方法。 - 前記第1の投影プロファイルを決定することは、前記複数の幾何学的図形を横切る平行の投影ラインの複数のセットのアングルに対応する複数の投影プロファイルを決定することと、前記複数の投影プロファイルのあらゆる他の投影プロファイルよりも小さい前記複数の投影プロファイルから投影プロファイルを選択することとを含む、請求項28に記載のコンピュータによって実施される方法。
- 前記歪みは、水平の基準に対応する前記平行の投影ラインの前記アングルに対応する、請求項29に記載のコンピュータによって実施される方法。
- 前記第2の投影プロファイルを決定することは、前記複数の幾何学的図形を横切る平行の投影ラインの複数のセットのアングルに対応する複数の投影プロファイルを決定することと、前記複数の投影プロファイルのあらゆる他の投影プロファイルよりも少ない前記複数の幾何学的図形を有する平行の投影プロファイルの交差点を有する前記複数の投影プロファイルから投影プロファイルを選択することとを含む、請求項28に記載のコンピュータによって実施される方法。
- 画像領域のセットから画像領域を抽出することと、前記画像領域の各々は前記テキストの少なくとも一部に対応する、
前記抽出された画像領域を複数のクラスタに区分化することと、
他のクラスタの各々から独立して各クラスタの投影プロファイルを決定することと、
をさらに備える、請求項21に記載のコンピュータによって実施される方法。 - 抽出された前記画像領域を区分化することは、前記テキストのストローク幅に少なくとも部分的に基づく、請求項32に記載のコンピュータによって実施される方法。
- 抽出された前記画像領域を区分化することは、前記テキストの色に少なくとも部分的に基づく、請求項32に記載のコンピュータによって実施される方法。
- 幾何学的図形の第1のセットを幾何学的図形の第2のセットおよび幾何学的図形の第3のセットに区分化するために、前記画像データで識別された画像領域に対応する前記幾何学的図形の第1のセットに第1の投影プロファイル分析を行うことと、
前記幾何学的図形の第2のセットを幾何学的図形の第4のセットおよび幾何学的図形の第5のセットに区分化するために前記幾何学的図形の第2のセットに第2の投影プロファイル分析を行うことと、
をさらに備える、請求項32に記載のコンピュータによって実施される方法。 - 前記幾何学的図形の第3のセットは、前記テキストの第1のラインに対応し、前記幾何学的図形の第4のセットは、前記テキストの第2のラインに対応し、前記幾何学的図形の第5のセットは、前記テキストの第3のラインに対応する、請求項35に記載のコンピュータによって実施される方法。
- プロセッサと、
画像領域に対応する幾何学的図形を識別することと、前記画像領域は画像データで識別されたテキストの少なくとも一部に対応する、
前記幾何学的図形に少なくとも部分的に基づいて、前記テキストのためのバウンディングボックスを決定することと、
が前記プロセッサによって実行可能な命令を記憶するメモリと、
を備える、装置。 - 前記命令はさらに、しきい値を超える前記画像領域に関係した前記幾何学的図形の第1の適合エラーに応じて、前記画像領域に対応する複数の幾何学的図形を識別することが前記プロセッサによって実行可能である、請求項37に記載の装置。
- 前記命令はさらに、複数の投影ラインを使用して前記幾何学的図形の投影プロファイルを決定することが前記プロセッサによって実行可能であり、各特定の投影ラインに対応する前記投影プロファイルの値は、前記幾何学的図形を有する前記特定の投影ラインの交差点間の距離に基づく、
請求項27に記載の装置。 - 前記命令はさらに、
画像領域に対応する複数の幾何学的図形を識別することと、前記画像領域の各々は、前記テキストの少なくとも一部に対応し、
前記テキストの歪みを推定するために前記複数の幾何学的図形の第1の投影プロファイルを決定することと、
前記テキストの傾きを推定するために前記複数の幾何学的図形の第2の投影プロファイルを決定することと、
が前記プロセッサによって実行可能である、請求項27に記載の装置。 - 前記命令はさらに、
画像領域のセットから画像領域を抽出することと、前記画像領域の各々は前記テキストの少なくとも一部に対応する、
前記抽出された画像領域を複数のクラスタに区分化することと、
他のクラスタの各々から独立して各クラスタの投影プロファイルを決定することと、
が前記プロセッサによって実行可能である、請求項27に記載の装置。 - 前記命令はさらに、
幾何学的図形の第1のセットを幾何学的図形の第2のセットおよび幾何学的図形の第3のセットに区分化するために、前記画像データで識別された画像領域に対応する前記幾何学的図形の第1のセットに第1の投影プロファイル分析を行うことと、前記幾何学的図形の第2のセットを幾何学的図形の第4のセットおよび幾何学的図形の第5のセットに区分化するために前記幾何学的図形の第2のセットに第2の投影プロファイル分析を行うことと、
が前記プロセッサによって実行可能である、請求項27に記載の装置。
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201161531547P | 2011-09-06 | 2011-09-06 | |
US61/531,547 | 2011-09-06 | ||
US201161543548P | 2011-10-05 | 2011-10-05 | |
US61/543,548 | 2011-10-05 | ||
US13/412,853 | 2012-03-06 | ||
US13/412,853 US8942484B2 (en) | 2011-09-06 | 2012-03-06 | Text detection using image regions |
PCT/US2012/048974 WO2013036329A1 (en) | 2011-09-06 | 2012-07-31 | Text detection using image regions |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014525626A true JP2014525626A (ja) | 2014-09-29 |
JP5837205B2 JP5837205B2 (ja) | 2015-12-24 |
Family
ID=47753234
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014528402A Expired - Fee Related JP5837205B2 (ja) | 2011-09-06 | 2012-07-31 | 画像領域を使用するテキスト検出 |
Country Status (6)
Country | Link |
---|---|
US (1) | US8942484B2 (ja) |
EP (1) | EP2754097A1 (ja) |
JP (1) | JP5837205B2 (ja) |
KR (1) | KR20140045573A (ja) |
CN (1) | CN103765441A (ja) |
WO (1) | WO2013036329A1 (ja) |
Families Citing this family (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9251144B2 (en) * | 2011-10-19 | 2016-02-02 | Microsoft Technology Licensing, Llc | Translating language characters in media content |
US9064191B2 (en) | 2012-01-26 | 2015-06-23 | Qualcomm Incorporated | Lower modifier detection and extraction from devanagari text images to improve OCR performance |
US8831381B2 (en) | 2012-01-26 | 2014-09-09 | Qualcomm Incorporated | Detecting and correcting skew in regions of text in natural images |
US9076242B2 (en) * | 2012-07-19 | 2015-07-07 | Qualcomm Incorporated | Automatic correction of skew in natural images and video |
US9047540B2 (en) | 2012-07-19 | 2015-06-02 | Qualcomm Incorporated | Trellis based word decoder with reverse pass |
US9141874B2 (en) | 2012-07-19 | 2015-09-22 | Qualcomm Incorporated | Feature extraction and use with a probability density function (PDF) divergence metric |
US9183458B2 (en) | 2012-07-19 | 2015-11-10 | Qualcomm Incorporated | Parameter selection and coarse localization of interest regions for MSER processing |
US9262699B2 (en) | 2012-07-19 | 2016-02-16 | Qualcomm Incorporated | Method of handling complex variants of words through prefix-tree based decoding for Devanagiri OCR |
US20140193029A1 (en) * | 2013-01-08 | 2014-07-10 | Natalia Vassilieva | Text Detection in Images of Graphical User Interfaces |
US10296933B2 (en) * | 2013-04-12 | 2019-05-21 | Facebook, Inc. | Identifying content in electronic images |
US9245192B2 (en) * | 2013-09-20 | 2016-01-26 | Here Global B.V. | Ad collateral detection |
US9329692B2 (en) | 2013-09-27 | 2016-05-03 | Microsoft Technology Licensing, Llc | Actionable content displayed on a touch screen |
US9245341B2 (en) | 2014-04-14 | 2016-01-26 | Intuit Inc. | Image acquisition using a level-indication icon |
KR20160032586A (ko) * | 2014-09-16 | 2016-03-24 | 삼성전자주식회사 | 관심영역 크기 전이 모델 기반의 컴퓨터 보조 진단 장치 및 방법 |
KR200483242Y1 (ko) * | 2015-10-23 | 2017-05-02 | 김우섭 | 모바일 디바이스를 이용한 신분증 인식 장치 |
CN107481253B (zh) * | 2017-08-03 | 2021-03-16 | 上海音乐学院 | 一种基于边缘的斑点检测方法 |
KR102598104B1 (ko) | 2018-02-23 | 2023-11-06 | 삼성전자주식회사 | 외부 전자 장치로부터 텍스트 정보를 수신하는 시간 동안에 발생된 움직임을 보상하여 이미지에 포함된 객체 위에 텍스트 정보를 표시하는 방법 및 그 전자 장치 |
JP7067262B2 (ja) * | 2018-05-21 | 2022-05-16 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置及びプログラム |
US11017258B2 (en) * | 2018-06-05 | 2021-05-25 | Microsoft Technology Licensing, Llc | Alignment of user input on a screen |
CN110807807B (zh) * | 2018-08-01 | 2022-08-05 | 深圳市优必选科技有限公司 | 一种单目视觉的目标定位的图案、方法、装置及设备 |
CN109409356B (zh) * | 2018-08-23 | 2021-01-08 | 浙江理工大学 | 一种基于swt的多方向中文印刷体文字检测方法 |
US11023720B1 (en) * | 2018-10-30 | 2021-06-01 | Workday, Inc. | Document parsing using multistage machine learning |
CN111401110A (zh) * | 2019-01-03 | 2020-07-10 | 百度在线网络技术(北京)有限公司 | 用于提取信息的方法和装置 |
CN111695381B (zh) * | 2019-03-13 | 2024-02-02 | 杭州海康威视数字技术股份有限公司 | 一种文本特征提取方法、装置、电子设备及可读存储介质 |
CN110135408B (zh) * | 2019-03-26 | 2021-02-19 | 北京捷通华声科技股份有限公司 | 文本图像检测方法、网络以及设备 |
GB2595412B8 (en) * | 2019-03-28 | 2023-10-11 | Nielsen Consumer Llc | Methods and apparatus to detect a text region of interest in a digital image using machine-based analysis |
US11410446B2 (en) | 2019-11-22 | 2022-08-09 | Nielsen Consumer Llc | Methods, systems, apparatus and articles of manufacture for receipt decoding |
US11810380B2 (en) | 2020-06-30 | 2023-11-07 | Nielsen Consumer Llc | Methods and apparatus to decode documents based on images using artificial intelligence |
CN112200181B (zh) * | 2020-08-19 | 2023-10-10 | 西安理工大学 | 一种基于粒子群优化算法的文字形状逼近方法 |
CN113420167A (zh) * | 2021-05-14 | 2021-09-21 | 北京达佳互联信息技术有限公司 | 多媒体资源处理方法、装置、电子设备及存储介质 |
US11822216B2 (en) | 2021-06-11 | 2023-11-21 | Nielsen Consumer Llc | Methods, systems, apparatus, and articles of manufacture for document scanning |
US11625930B2 (en) | 2021-06-30 | 2023-04-11 | Nielsen Consumer Llc | Methods, systems, articles of manufacture and apparatus to decode receipts based on neural graph architecture |
WO2024043602A1 (ko) * | 2022-08-26 | 2024-02-29 | 삼성전자 주식회사 | 이미지로부터 텍스트를 획득하는 방법 및 서버 |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5442715A (en) * | 1992-04-06 | 1995-08-15 | Eastman Kodak Company | Method and apparatus for cursive script recognition |
JP3733161B2 (ja) * | 1995-08-01 | 2006-01-11 | キヤノン株式会社 | 画像処理装置および方法 |
JPH1021332A (ja) | 1996-07-03 | 1998-01-23 | Tamura Electric Works Ltd | 非線形正規化方法 |
JP3077745B2 (ja) * | 1997-07-31 | 2000-08-14 | 日本電気株式会社 | データ処理方法および装置、情報記憶媒体 |
JP3639126B2 (ja) | 1998-01-22 | 2005-04-20 | 富士通株式会社 | 住所認識装置及び住所認識方法 |
JP3904840B2 (ja) * | 2000-08-15 | 2007-04-11 | 富士通株式会社 | 多値画像から罫線を抽出する罫線抽出装置 |
JP4421134B2 (ja) | 2001-04-18 | 2010-02-24 | 富士通株式会社 | 文書画像検索装置 |
US7139004B2 (en) * | 2002-01-25 | 2006-11-21 | Xerox Corporation | Method and apparatus to convert bitmapped images for use in a structured text/graphics editor |
US20030164819A1 (en) * | 2002-03-04 | 2003-09-04 | Alex Waibel | Portable object identification and translation system |
JP4112968B2 (ja) * | 2002-12-26 | 2008-07-02 | 富士通株式会社 | ビデオテキスト処理装置 |
US7542610B2 (en) | 2005-05-09 | 2009-06-02 | Like.Com | System and method for use of images with recognition analysis |
US20070115510A1 (en) * | 2005-11-18 | 2007-05-24 | International Business Machines Corporation | Marking images of text with speckle patterns for theft deterrence |
US8031940B2 (en) | 2006-06-29 | 2011-10-04 | Google Inc. | Recognizing text in images using ranging data |
JP5015540B2 (ja) * | 2006-09-28 | 2012-08-29 | 富士通株式会社 | 電子透かし埋め込み装置および検出装置 |
WO2009093324A1 (ja) * | 2008-01-24 | 2009-07-30 | Fujitsu Limited | 画像処理装置、画像処理方法、画像処理プログラムおよび画像補正装置 |
US20100073735A1 (en) * | 2008-05-06 | 2010-03-25 | Compulink Management Center, Inc. | Camera-based document imaging |
CN101593278B (zh) * | 2008-05-27 | 2013-01-16 | 佳能株式会社 | 文档图像的语言判别方法和系统 |
CN101587540B (zh) * | 2009-04-16 | 2011-08-03 | 大连理工大学 | 一种利用页面文档几何失真检测文档来源的打印机取证方法 |
CN101930587A (zh) * | 2009-06-19 | 2010-12-29 | 株式会社理光 | 水印信息扩展编码、嵌入、评估、检测提取方法和装置 |
US8520983B2 (en) | 2009-10-07 | 2013-08-27 | Google Inc. | Gesture-based selective text recognition |
KR101645994B1 (ko) | 2009-12-29 | 2016-08-05 | 삼성전자주식회사 | 문자 인식 영역 검출 장치 및 문자 인식 방법 |
CN101894154B (zh) * | 2010-07-13 | 2012-02-15 | 重庆大学 | 一种图像文档关键图案的提取方法 |
-
2012
- 2012-03-06 US US13/412,853 patent/US8942484B2/en active Active
- 2012-07-31 EP EP12743639.2A patent/EP2754097A1/en not_active Withdrawn
- 2012-07-31 WO PCT/US2012/048974 patent/WO2013036329A1/en active Application Filing
- 2012-07-31 JP JP2014528402A patent/JP5837205B2/ja not_active Expired - Fee Related
- 2012-07-31 CN CN201280041787.5A patent/CN103765441A/zh active Pending
- 2012-07-31 KR KR1020147006031A patent/KR20140045573A/ko not_active Application Discontinuation
Also Published As
Publication number | Publication date |
---|---|
US8942484B2 (en) | 2015-01-27 |
KR20140045573A (ko) | 2014-04-16 |
EP2754097A1 (en) | 2014-07-16 |
US20130058575A1 (en) | 2013-03-07 |
CN103765441A (zh) | 2014-04-30 |
JP5837205B2 (ja) | 2015-12-24 |
WO2013036329A1 (en) | 2013-03-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5837205B2 (ja) | 画像領域を使用するテキスト検出 | |
Tian et al. | Text flow: A unified text detection system in natural scene images | |
US5410611A (en) | Method for identifying word bounding boxes in text | |
CN110050277A (zh) | 用于将手写文本转换成数字墨水的方法和系统 | |
US9519838B2 (en) | Character recognition method | |
CN107392141B (zh) | 一种基于显著性检测和lsd直线检测的机场提取方法 | |
US20160026899A1 (en) | Text line detection in images | |
US9959475B2 (en) | Table data recovering in case of image distortion | |
CN105303156B (zh) | 字符检测装置、方法及程序 | |
WO2014026483A1 (zh) | 一种字符识别方法及相关装置 | |
Shivakumara et al. | New gradient-spatial-structural features for video script identification | |
Chiang et al. | Recognition of multi-oriented, multi-sized, and curved text | |
CN111738252B (zh) | 图像中的文本行检测方法、装置及计算机系统 | |
CN111340020A (zh) | 一种公式识别方法、装置、设备及存储介质 | |
CN113011426A (zh) | 一种识别证件的方法和装置 | |
KR102167433B1 (ko) | 다중 패턴 문자 영상 자동 생성 기반 문자 인식 장치 및 그 방법 | |
JP6628336B2 (ja) | 情報処理システム | |
CN114511857A (zh) | 一种ocr识别结果处理方法、装置、设备及存储介质 | |
US20230036812A1 (en) | Text Line Detection | |
Gui et al. | A fast caption detection method for low quality video images | |
KR101012101B1 (ko) | 한글 인식 방법 및 장치 | |
US9152876B1 (en) | Methods and systems for efficient handwritten character segmentation | |
Xu et al. | Touching character separation in Chinese handwriting using visibility-based foreground analysis | |
CN114387600A (zh) | 文本特征识别方法、装置、计算机设备和存储介质 | |
Mitchell et al. | Newspaper layout analysis incorporating connected component separation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20141224 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150106 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150331 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20151006 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20151104 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5837205 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |