JP2017138989A - 画像に含まれるテキストを検出する方法、装置及びコンピュータ読み取り可能な記録媒体 - Google Patents

画像に含まれるテキストを検出する方法、装置及びコンピュータ読み取り可能な記録媒体 Download PDF

Info

Publication number
JP2017138989A
JP2017138989A JP2017018957A JP2017018957A JP2017138989A JP 2017138989 A JP2017138989 A JP 2017138989A JP 2017018957 A JP2017018957 A JP 2017018957A JP 2017018957 A JP2017018957 A JP 2017018957A JP 2017138989 A JP2017138989 A JP 2017138989A
Authority
JP
Japan
Prior art keywords
text
strong
candidate
weak
classified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017018957A
Other languages
English (en)
Other versions
JP6188976B2 (ja
Inventor
ホジン チョ
Hojin Choi
ホジン チョ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Stradvision Inc
Original Assignee
Stradvision Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Stradvision Inc filed Critical Stradvision Inc
Publication of JP2017138989A publication Critical patent/JP2017138989A/ja
Application granted granted Critical
Publication of JP6188976B2 publication Critical patent/JP6188976B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/12Bounding box

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】テキスト領域とノンテキスト領域を分ける。【解決手段】画像に含まれているテキストを検出する方法において、入力画像を取得し、入力画像に含まれているピクセルのフィーチャー値を参照して、前記入力画像の少なくとも1つのテキスト候補を検出又は検出するようにサポートしているステップ、検出されたテキスト候補が含まれる領域内で選択された少なくとも一つのピクセルのフィーチャー値またはこれに変換した値を参照して、検出されたテキストの候補を第1閾値と比較して強いテキストまたはノンテキストに分類したり、分類するようにサポートして、ノンテキストに分類されたテキスト候補を第2閾値と比較して弱いテキストまたはノンテキストに分類したり、分類するようにサポートしているステップ、強いテキストと弱いテキストの関連情報を参照して弱いテキストを強いテキストに分類するステップを有する。【選択図】図2

Description

本発明は、画像に含まれるテキストを検出する方法、装置、及びコンピュータ読み取り可能な記録媒体に関するもので、より詳細には、入力画像が取得されると、前記入力画像に含まれているピクセルのフィーチャー値を参照にして、前記入力画像から少なくとも1つのテキスト候補を検出したり、検出するようにサポートするプロセス、前記検出されたテキスト候補が含まれる領域内で選択された少なくとも一つのピクセルのフィーチャー値またはこれを変換した値を参照して、(i)前記検出されたテキスト候補を第1閾値と比較して強いテキスト(strong text)または強くないテキスト(non-strong text)に分類したり、分類するようにサポートして、(ii)前記 強くないテキスト(non-strong text)に分類されたテキスト候補を第2閾値と比較して弱いテキスト(weak text)またはノンテキスト(non-text)に分類したり、分類するようにサポートするプロセス、及び前記強いテキスト(strong text)と前記弱いテキスト(weak text)の関連情報を参照して前記 弱いテキスト(weak text)を前記強いテキスト(strong text)に分類したり、分類するようにサポートするかどうかを判断するプロセスを含む方法、装置及びコンピュータ読み取り可能な記録媒体に関するものでる。
画像内のテキストは、有意義な情報を提供する場合が多いので、シーンのテキスト(scenetext)を検出し、認識することは画像及びビデオの検索(image and video retrieval)、多言語翻訳、automotiveassistanceなど、さまざまなコンピュータビジョンアプリケーションで重要と考えられてきた。
シーンテキスト検出アルゴリズム(scene text detection algorithm)は、画像上でのテキスト(文字)を検出するためのアルゴリズムで、テキストの候補を抽出する方法に応じて大きくスライディングウィンドウ(sliding window)方式と連結成分分析(connected componentanalysis 、connected component labellingとも呼ばれる)方式とに分割することができる。
スライディングウィンドウ方式は、ウィンドウをイメージの全ての場所から複数のスケールでシフトさせ、シーンの画像のテキストを検出する技術である。この技術は、入力画像に対して徹底的に検索が行われるため、どれだけ多くのテキスト領域が検出されるかを示す要精検率(recallrate)が高いという長所がある。一方、徹底したウィンドウスキャンにより、多くの計算量を避けることができず、多くのテキスト候補が大量の偽陽性(false positive)を引き起こし得る。したがって、リアルタイムアプリケーションには不適合である。スライディングウィンドウ(sliding window)方式は、X.Chen and AL Yuille.Detecting and reading text in natural scenes. In Proc. CVPR 2004、pages 366-373、2004などで紹介されたことがある。
このように、スライディングウィンドウ方式が多く計算量を要するため、近年では連結成分分析方式が多く使用される傾向にある。連結成分分析方式は、入力画像から同様のテキスト属性を共有するピクセルの集合であるテキスト候補を抽出し、ノンテキスト(non-text)候補を抑制(suppression)するために、テキストの候補を分析(精製)する作業を実行する。SWT(stroke width transform)とMSER(maximallystable extremal region)は、連結成分分析の代表的な技術である。この方法は、シーンのテキスト検出で最先端の性能を提供する。連結成分分析方式はB. Epshtein、E. Ofek、andY.Wexler. Detecting text in natural scenes with ストローク幅(strokewidth) transform。 In Proc. CVPR2010、pages 2963-2970、2010などで紹介されたことがある。
しかし、連結成分分析方式でテキスト候補を分析(精製)するために使用される一般的な制約(constraints)は、複数の トゥルーテキスト(truetext)を検出するのに制限的に評価され、結果的に低い要精検率を示す限界がある。
したがって、画像内のテキスト検出時の最適な性能を出しながらも、高い要精検率を持つことができるテキスト検出技術が要求されている。
本発明は、上述した問題点をすべて解決することをその目的とする。
また、本発明は、最適なパフォーマンスを出しながらも、高い要精検率を持つことができるテキスト検出技術を提供することを他の目的とする。
また、本発明は、多重閾値を利用して、テキスト候補を強いテキスト、弱いテキスト、ノンテキストに分類することにより、高い要精検率を持つことができるテキスト検出技術を提供することを他の目的とする。
また、本発明は、テキストの候補が強いテキストと弱いテキストに分類された後、強いテキストと弱いテキストの位置情報、サイズ情報、カラー情報、ストローク幅情報の少なくとも一部を参照にして弱いテキストを強いテキストに編入させることで、高い要精検率を持つことができるテキスト検出技術を提供することを他の目的とする。
前記目的を達成するための本発明の代表的な構成は以下の通りである。
本発明の一態様によれば、画像に含まれているテキストを検出する方法であって、(a)入力画像が取得されると、装置は、前記入力イメージに含まれているピクセルのフィーチャー値を参照にして、前記入力画像から少なくとも1つのテキスト候補を検出したり、検出するようにサポートしているステップ、(b)前記装置が前記検出されたテキスト候補が含まれる領域内で選択された少なくとも一つのピクセルのフィーチャー値またはこれを変換した値を参照して、(i)前記検出されたテキストの候補を第1閾値と比較して強いテキストまたは強くないテキスト(non-strong text)に分類したり、分類するようにサポートして、(ii)前記強くないテキストに分類されたテキスト候補を第2閾値と比較して弱いテキストまたはノンテキストに分類したり、分類するようにサポートしているステップ、及び(c)前記装置が、前記強いテキストと前記弱いテキストの関連情報を参照して前記弱いテキストを前記強いテキストに分類したり、分類するようにサポートするかどうかを判断するステップを含む方法が提供される。
本発明の他の態様によれば、画像に含まれているテキストを検出する装置であって、画像を取得する通信部、及び前記画像が取得されると、(i)前記入力画像に含まれているピクセルのフィーチャー値を参照して、前記入力画像の少なくとも1つのテキスト候補を検出したり、検出するようにサポートして、(ii)前記検出されたテキスト候補が含まれる領域内で選択された少なくとも一つのピクセルのフィーチャー値またはこれを変換した値を参照して、前記検出されたテキストの候補を第1閾値と比較して強いテキストまたは強くないテキストに分類したり、分類するようにサポートして、前記強くないテキストに分類されたテキスト候補を第2閾値と比較して弱いテキストまたはノンテキストに分類したり、分類するようにサポートしており、(iii)前記強いテキストと前記弱いテキストの関連情報を参照して前記弱いテキストを前記強いテキストに分類したり、分類するようにサポートするかどうかを判断するプロセッサを含む装置が提供される。
この他にも、本発明を実施するための他の方法、装置、及び前記の方法を実行するためのコンピュータプログラムを記録するためのコンピュータ読み取り可能な記録媒体がさらに提供される。
本発明によれば、次のような効果がある。
本発明は、最適なパフォーマンスを出しながらも、高い要精検率を持つことができるテキスト検出技術を提供する効果がある。
また、本発明は、多重閾値を利用して、テキスト候補を強いテキスト、弱いテキスト、ノンテキストに分類することで、テキスト検出時の高い要精検率を達成することができる効果がある。
また、本発明は、テキストの候補が強いテキストと弱いテキストに分類された後、強いテキストと弱いテキストの位置情報、サイズ情報、カラー情報、ストローク幅情報などの関連情報を参照にして弱いテキストを強いテキストに編入させることで、テキスト検出時の高い要精検率を達成することができる効果がある。
図1は、本発明の一実施形態に係る画像に含まれるテキストを検出する装置の構成を示すブロック図である。 図2は、本発明の一実施形態に係る装置は、画像に含まれているテキストを検出する過程を示すフローチャートである。 図3は、本発明の一実施形態に係るER木構造の例を示す図である。 図4は、MLBP変換の例を示す図である。 図5は、本発明に係るテキスト検出手法を使用して例示画像からテキストを検出する場合は、各過程での中間結果を示す図である。 図6は、他のテキスト検出技術と本発明の性能を比較実験した結果を示す図である。 図7は、他のテキスト検出技術と本発明の性能を比較実験した結果を示す図である。 図8は、他のテキスト検出技術と本発明の性能を比較実験した結果を示す図である。
後述する本発明の詳細な説明は、本発明が実施されることができる特定の実施例を例示として示す添付図面を参照する。これらの実施例は、当業者が本発明を実施することができる様十分に詳細に説明されている。本発明の様々な実施例は、互いに異なるが、相互に排他的である必要はないことが理解されるべきである。例えば、ここに記載されている特定の形状、構造、及び特性は、一実施形態に関連して、本発明の精神と範囲を逸脱なく、他の実施例で実装することができる。また、それぞれの開示された実施例内の個々の構成要素の位置または配置は、本発明の精神と範囲を逸脱しなく変更されることがあることが理解されるべきである。したがって、後述する詳細な説明は、限定的な意味として取りたいものではなく、本発明の範囲は、適切に説明された場合、その請求項が主張するように均等なすべての範囲と添付された請求項によってのみ限定される。図面で同様の参照符号は、いくつかの側面に亘って同一または類似の機能を指す。
本発明は、以下の基準(criteria)が考慮されたテキスト検出技術を提案する。本発明者は、下記の基準を満たしている、本発明に係る検出機をキャニーテキストデテクター(Canny Text Detector)と命名する。各基準を満たすための、本発明の構成については、当構成に対する説明で詳しく述べられる。
1.リコール(recall):できるだけ多くのテキスト領域が検出されなければならない。
2.プリシジョン(precision):検出結果はノンテキスト(non-text)領域を含んでいてはならない。
3.ユニークネス(uniqueness):検出されたテキストは、一度だけ表示(mark)しなければならない。
4.コンパクトネス(compactness):検出された領域(バウンディングボックス)は、エキストラマージン(extra margin)を最小限に抑えるように、テキスト領域を含むべきである。
以下では、前記の基準を満たしている本発明の様々な実施形態に係る画像に含まれるテキストを検出する装置及び方法について詳細に説明する。
図1は、本発明の一実施形態に係る画像に含まれるテキストを検出する装置の構成を示したブロック図であり、図2は、本発明の一実施形態に係る装置が、画像に含まれているテキストを検出する過程を示すフローチャートである。
図1を参照すると、本発明の一実施形態に係る画像に含まれるテキストを検出する装置(100)は、通信部(110)、プロセッサ(120)と格納部(130)を含んでいる。
通信部(110)は、外部装置とデータを送受信したり、内部の構造要素の間でデータを送受信する構成である。特に、通信部(110)は、テキストを検出するための入力画像を取得することができる(S210)。
プロセッサ(120)は、各種データの演算を実行する構成である。まず、プロセッサ(120)は、前記入力画像が取得されると、前記入力画像に含まれているピクセルのフィーチャー値を参照にして、前記入力画像の少なくとも1つのテキスト候補を検出したり、検出するようにサポートすることができる(S220)。
このとき、プロセッサ(120)は、入力画像から所定の領域に含まれるすべてのピクセルのフィーチャー値が前記所定の領域の外側の境界領域のフィーチャー値よりも大きいとき、前記所定の領域を1つのテキスト候補として検出したり、検出するようにサポートすることができる。これは、次の数式で表現することができる。
(数式1)
ここで、xとyは、シングルチャンネル(single channel)画像Iのピクセルのインデックスであり、tはテキスト候補領域を抽出するために使用されている閾値(threshold)であり、B(Rt)は、Rtの境界領域のピクセルの集合である。もちろん、逆の場合であって、入力画像から所定の領域に含まれるすべてのピクセルのフィーチャー値が前記所定の領域の外側の境界領域のフィーチャー値よりも小さいとき、前記所定の領域を1つのテキスト候補として検出したり、検出ようにサポートすることができる。
一方、次のように、ERs(Extremal Regions)を利用して、ER木構造を構成することもできる。つまり、プロセッサ(120)は、前記所定の領域のピクセル輝度(intensity)レベルを変更しながら、前記少なくとも一つのテキスト候補を検出したり、検出するようにサポートすることができ、前記検出された少なくとも一つのテキスト候補から、(i)前記所定の領域のピクセル輝度レベルが相対的に大きい下位レベルのテキスト候補と(ii)前記下位レベルのテキスト候補の領域を含み、前記所定の領域のピクセル輝度レベルが比較的小さい上位レベルのテキスト候補のうち前記所定の領域のピクセル輝度レベルが最も大きいテキスト候補を、それぞれ子ノードと親ノードに割り当て、木構造を構成したり、構成するようにサポートすることができる。
図3は、本発明の一実施形態に係るER木構造の例を示す図である。
図3に図示された例では、輝度レベルが136であるテキスト候補と、前記輝度レベルが136であるテキスト候補の領域を含み、輝度レベルが133であるテキスト候補がそれぞれER木構造の子ノードと親ノードに割り当てられていることを知ることができる。
次に、プロセッサ(120)は、多重閾値分類を実行したり、実行するようにサポートすることができる(S240)。つまり、プロセッサ(120)は、検出されたテキスト候補が含まれる領域内で選択された少なくとも一つのピクセルのフィーチャー値またはこれを変換した値を参照して、前記検出されたテキストの候補を第1閾値と比較して強いテキストまたは強くないテキストに分類したり、分類するようにサポートして、前記強くないテキストに分類されたテキスト候補を第2閾値と比較して弱いテキストまたはノンテキストに分類したり、分類するようにサポートすることができる。例えば、プロセッサ(120)は、AdaBoostアルゴリズムでトレーニングされた分類機を用いて前記検出されたテキスト候補を分類したり、分類するようにサポートすることができる。
ここで、前記検出されたテキスト候補が含まれる領域は、エキストラ マージン(extra margin)を最小限に抑えながら前記検出されたテキストの候補を含むバウンディングボックスの領域であることがある。
また、強いテキストは検出されたテキストの候補が実際にテキストである可能性が相対的に高いテキスト候補を意味する。一方、弱いテキストは検出されたテキストの候補が実際にテキストである可能性が強いテキストより相対的に低いテキスト候補を言い、ノンテキストは、検出されたテキストの候補が実際にテキストである可能性が非常に低いテキスト候補を言う。
また、第1閾値は、高閾値であることができ、第2閾値は、低閾値であることがある。異なる閾値は、異なる精度を満足させることができるが、例えば、第1閾値は、99%の精度を、第2閾値は90%の精度を満足させることができる。このように、第2閾値は、第1閾値に比べて低い正確性が示されるが、比較的高い要精検率を示すことができる。
また、プロセッサ(120)は、検出されたテキスト候補が含まれる領域内で選択されたピクセルのフィーチャー値をMLBP(Mean Local Binary Pattern)に変換した値を参照して前記分類の作業を実行したり、実行するようにサポートすることができる。
図4は、MLBP変換の例を示す図である。
図4を参照すると、検出されたテキスト候補が含まれる領域内で選択されたピクセルを囲む8つの隣接するピクセル(3×3パッチ内の隣接するピクセル)の平均値が先に計算される。そして、中央の選択されたピクセルを除いた残りの8つの隣接するピクセルと前記計算された平均値が比較され、特定の隣接するピクセルの値が平均値よりも大きい場合は、隣接するピクセルに1が割り当てられ、小さい場合は0が割り当てられる。そして、左上の隣接するピクセルから時計回りに、新たに割り当てられた値が読まれ、8つのビットからなる2進数でエンコードされる。図4に示された例では、MLBP値は2進数00110101(2)であることがわかる。しかし、本発明で使用することができるフィーチャー(feature)がMLBPに限定されるものではなく、様々な他のフィーチャーが使用されることがあるとするものである。
一方、テキスト候補が二ステップを経て二つの閾値と比較されて分類されることもあるが、(これをdoublethreshold classificationとすることにする。)二ステップ以上を経て、分類が行われることもある。すなわち、前記第1閾値と前記第2閾値の間に少なくとも一つの中間閾値があることがあり、この場合、プロセッサ(120)は、(ii−1)「non-strong text」に分類されたテキスト候補を前記中間閾値と比較して、前記強いテキストまたは次順位弱いテキストに分類したり、分類するようにサポートして、(ii−2)前記次順位弱いテキストを前記第2閾値と比較して、前記弱いテキストまたは前記ノンテキストで分類したり、分類するようにサポートすることができる。
一方、プロセッサ(120)は、多重閾値分類を実行する前に、「Non-MaximumSuppression」を実行したり、実行するようにサポートすることもできる(S230)。
つまり、検出されたテキストの候補が複数のとき、プロセッサ(120)は、前記検出された複数のテキスト候補が含まれる領域が所定割合以上にお互い重なり合うテキスト候補を含む少なくとも一つのテキスト候補セットを識別し、識別された各テキストの候補セットに対して所定の条件を満たしているテキストの候補を選択したり、選択するようにサポートすることができる。この場合、プロセッサ(120)は、前記所定の条件を満たしているテキスト候補が含まれている領域内で選択された少なくとも一つのピクセルのフィーチャー値またはこれを変換した値を参照して、(i)前記所定の条件を満足しているテキストの候補を前記第1閾値と比較して、前記強いテキストまたは前記強くないテキストに分類したり、分類するようにサポートして、(ii)前記強くないテキストに分類されたテキストの候補を前記第2閾値と比較して、前記弱いテキストまたは前記ノンテキストに分類したり、分類するようにサポートすることができる。
前記のように、テキスト候補が含まれる領域が相互に重なる場合は、MSERs(Maximally Stable Extremal Region)とERsでしばしば現れる。ER木構造は、ユニークネス(uniqueness)基準を保障するために繰り返されるER(node)を抑制し、マキシマムスタビリティを持つ1つのERだけを選択することができる。
ER木構造を構成した場合「Non-MaximumSuppression」過程を具体的に説明すると、(a)前述したER木構造内の特定のノードに対して、前記特定のノードに対応するテキスト候補が含まれる領域と、前記特定のノードに対応するテキスト候補領域を含み、前記所定の領域のピクセル輝度レベルが比較的小さい、祖先ノードに対応するテキスト候補が含まれる領域が所定割合以上に重なる場合が所定回数以上である場合、(b)プロセッサ(120)は、自分の特定の祖先ノードに対しテキスト候補が含まれる領域の変化量が相対的に最も小さなノードに対応するテキスト候補を選択したり、選択するようにサポートすることができる。
(a)の判断は、下記の式に使用されることができる。
(数式2)
ここで、Rt−kはER木構造でRtの親ノードを指す。|R|はRのバウンディングボックス領域(テキスト候補が含まれる領域)を指す。
例えば、O(Rt−k、Rt)>0.7である場合が5回以上の場合(b)が実行されることがある。(b)は、スタビリティが最大のERが選択されていることとして表現されることがありますが、スタビリティは次の式で表すことができる。
(数式3)
例えば、数式2でk=2に設定することができる。この場合、スタビリティは、特定のノードと特定のノードの祖父母ノードに対し考慮することができる。
ちなみに、 スタビリティが同じERが二つ以上ある場合、ERの領域(バウンディングボックスの領域)が最小であるものが選択されることがある。これにより、ユニークネスとコンパクトネス基準を満たすことができる。
また、Rtで重なる回数が3より大きく、Rtが「non−maximum」制約によって除去されなければRtは、テキスト候補として考慮されることがある。しかし、テキスト候補が過度に大きいか小さいアスペクト比を持つ場合、そのようなテキスト候補は削除されることがある。
前記の場合、プロセッサ(120)は、前記選択されたテキストの候補が含まれる領域内で選択された、少なくとも一つのピクセルのフィーチャー値またはこれを変換した値を参照して、(i)前記所定の条件を満たしているテキスト候補を前記第1閾値と比較して、前記強いテキストまたは前記強くないテキストに分類したり、分類するようにサポートして、(ii)前記強くないテキストに分類されたテキストの候補を前記第2閾値と比較して、前記弱いテキストまたは前記ノンテキストに分類したり、分類するようにサポートすることができる。
再び、図2を参照すると、プロセッサ(120)は、ヒステリシスを考慮して、テキストトラッキングを実行したり、実行するようにサポートすることができる(S250)。つまり、プロセッサ(120)は、前記のように分類された強いテキストと弱いテキストの関連情報を参照して前記弱いテキストを前記強いテキストに分類したり、分類するようにサポートするかどうかを判断することができる。より具体的には、プロセッサ(120)は、前記強いテキストと前記弱いテキストの関連情報を参照して前記弱いテキストを前記強いテキストまたはノンテキストに分類したり、分類するようサポートすることができる。
前述したように強いテキストに分類されたテキストの候補は、実際にtextである可能性が高い。しかし、弱いテキストに分類されたテキストの候補の場合にも、実際にテキストである可能性がある。したがって、本発明は、弱いテキストの場合強いテキストと特徴が類似した場合強いテキストに編入させる。つまり、強いテキストの隣で弱いテキスト)に分類されたテキストの候補を探して、このようなテキストの候補が強いテキストと同様の特徴を持つ場合弱いテキストを強いテキストに変換する。これにより、高い要精検率を達成することができる。
強いテキストと弱いテキストが類似の特徴があることを判断するために考慮される強いテキストと弱いテキストの関連情報は、前記強いテキストと前記弱いテキストの位置情報、サイズ情報、カラー情報、ストローク幅情報の少なくとも一部を含むことすることができる。
次に、プロセッサ(120)は、前記第1閾値と比較して分類された強いテキスト及び前記弱いテキストから編入された強いテキストをグルーピングしたり、グルーピングするようにサポートすることができる(S260)。
また、第1強いテキストとこれに隣接した第1弱いテキストから編入された第2強いテキストがグルーピングされて前記第2強いテキストとこれに隣接した第2弱いテキストの関連情報を参照して前記第2弱いテキストが第3強いテキストに分類されると、プロセッサ(120)は、前記第3強いテキストを前記第1強いテキスト及び前記第2強いテキストと一緒にグルーピングしたり、グルーピングするようにサポートすることができる。このように、本発明は、テキストグルーピング時に出発点となった強いテキストから一つのテキストずつ拡張しながらグルーピングを行うことができるようになる。
また、出力にコンパクトなバウンディングボックスを提供するために、「minimum-area encasingrectangle」が計算されることができる。キャラクターピクセルの2D座標を使用して2Dイメージ空間でグルーピングされたテキストを取り囲む最小の長方形を計算することができる。
図5は、本発明に係るテキスト検出手法を使用して例示画像からテキストを検出する場合は、各過程での中間結果を示す図である。
図5の(a)の入力画像が取得された場合、(b)は、「non-maximum suppression」が行われて選択されたERを示す。(c)は、テキスト候補が高い閾値を利用して分類された結果を示すが、比較的少ない数の強いテキストが分類されたことを知ることができる。(d)は、低い閾値を利用して、追加の分類がなされ、多くのテキスト候補が弱いテキストに分類された結果を示す。(e)は、テキストトラッキングの結果を示す。その結果、多くの弱いテキストが強いテキストに編入される。(f)は、最終的にテキストグルーピングが行われた結果を示す。
一方、プロセッサ(120)は、前述した通信部(110)と、後述する格納部(130)との間のデータの流れを制御する機能を実行する。つまり、プロセッサ(120)は、入力データからテキストを検出する装置(100)の各構成要素間のデータの流れを制御することにより、通信部(110)、格納部(130)でそれぞれ固有の機能を実行するように制御する。
プロセッサ(120)は、MPU(Micro Processing Unit)やCPU(CentralProcessing Unit)、キャッシュメモリ(Cache Memory)、データバス(Data Bus)などのハードウェア構成を含むことができる。また、オペレーティングシステム、特定の目的を実行するアプリケーションのソフトウェア構成をさらに含むこともある。
格納部(130)は、各種データを格納する構成である。特に、格納部(130)は、テキスト検出の各ステップで算出された中間結果のデータを格納することができる。また、オペレーティングシステム、特定の目的を実行するアプリケーションのソフトウェアを格納することができる。
以下では、前述したテキスト検出方法及び装置を実装して、本発明者が実験した結果を簡単に説明する。
図6〜8は、他のテキスト検出技術と本発明の性能を比較実験した結果を示す図である。
図6は、ICDAR 2011のデータセットのキャラクターレベルのリコール(recall)についてM.-C. Sung、B. Jun、H. Cho、and D.Kim.Scene text detection with robust charactER candidate extractionmethod. In Proc.ICDAR 2015、pages 426-430、2015で提案された最新のテキスト候補の検出方法と本発明を比較した結果を示すテーブルである
図6に示されている「Sung et al.」と比較して、本発明は、ER木構造で「non-maximumsuppression」を利用して、テキスト候補の数を減らし、initial ERがSung et al.の1/3程度であることが分かることができる。本発明の最終的なlocalization結果は、関連性が落ちるテキスト候補を90%以上削減しながら、かなりの要精検率を達成したと評価することができる。
図7は、ICDAR 2013のデータセットに対して、本発明と他の技術のプリシジョン、リコール、ハーモニックミーン(harmonic mean、調和平均)を評価した結果を示すテーブルである。
図7に示すように、X.-C. Yin、X. Yin、K.Huang、and H.-W. Hao。Robust textdetection in natural scene images。IEEE Trans。PattERn Analysis Machine Intelligence、36(5):970-983、May 2014で提案されたアルゴリズムと比較しても、本発明のハーモニックミーン(調和平均)などが優れていることができる。
図8は、Y.-F. Pan、X. Hou、andC.-L. Liu。 A hybrid approach to detect and localizetexts in natural scene images. IEEE Trans. Image Processing、20(3):800-813、2011年から提案された多言語データセットに対して実験した結果を示すテーブルである。
図8に示すように、本発明は、他のアルゴリズムと比較して改善されたリコール、プリシジョン、ハーモニックミーン(調和平均)を示すことが分かる。
一方、これまでに説明した本発明に係る実施例は、様々なコンピュータの構成要素を介して実行することができるプログラム命令の形で実装されて、コンピュータ読み取り可能な記録媒体に記録することができる。前記コンピュータ読み取り可能な記録媒体は、プログラム命令、データファイル、データ構造などを単独で、または組み合わせて含むことができる。前記コンピュータ読み取り可能な記録媒体に記録されているプログラムの命令は、本発明のために特別に設計されて構成されたものか、コンピュータソフトウェア分野の当業者に公知されて使用可能なものであることもできる。コンピュータ読み取り可能な記録媒体の例には、ハードディスク、フロッピーディスク、及び磁気テープのような磁気媒体、CD−ROM、DVDなどの光記録媒体、プティカルディスク(floptical disk)のような自己-光媒体(magneto-optical media)、及びROM、RAM、フラッシュメモリなどのようなプログラム命令を格納して実行するように特別に構成さハードウェア装置が含まれる。プログラム命令の例には、コンパイラによって作られるような機械語コードだけでなく、インタプリタなどを使用して、コンピュータによって実行されることができる高級言語コードも含まれる。前記のハードウェア装置は、本発明に係る処理を実行するために1つ以上のソフトウェアモジュールとして動作するように構成することができ、その逆も同様である。
以上で、本発明の具体的な構成要素などの特定の事項と限定された実施例及び図面によって説明されたが、これは本発明のより全般的な理解を助けるために提供されたものであり、本発明が前記実施例に限定されるものではなく、本発明が属する技術分野で通常の知識を有する者であれば、このような記載から多様な修正及び変形を図ることができる。
したがって、本発明の思想は、前記説明した実施例に限定されて決まってはならず、後述する特許請求の範囲だけでなく、この特許請求の範囲と均等にまたは等価的に変形されたすべてのものは、本発明の思想の範疇に属するものである。
100:イメージに含まれているテキストを検出する装置
110:通信部
120:プロセッサ
130:格納部

Claims (24)

  1. 画像に含まれるテキストを検出する方法であって、
    (a)入力画像が取得されると、装置が、前記入力画像に含まれているピクセルのフィーチャー値を参照にして、前記入力画像の少なくとも1つのテキスト候補を検出したり、検出するようにサポートするステップ、
    (b)前記装置が、前記検出されたテキスト候補が含まれる領域内で選択された少なくとも一つのピクセルのフィーチャー値またはこれを変換した値を参照して、(i)前記検出されたテキストの候補を第1閾値と比較して強いテキスト(strong text)または強くないテキスト(non-strong text)に分類したり、分類するようにサポートして、(ii)前記強くないテキスト(non-strong text)に分類されたテキスト候補を第2閾値と比較して、弱いテキスト(weak text)またはノンテキスト(non-text)に分類したり、分類するようにサポートしているステップ、及び
    (c)前記装置が、前記強いテキスト(strong text)と前記弱いテキスト(weak text)の関連情報を参照して前記弱いテキスト(weak text)を前記強いテキスト(strong text)に分類したり、分類するようにサポートするかどうかを判断するステップを含み、
    前記(c)ステップは、
    前記装置が、前記強いテキスト(strong text)と前記弱いテキスト(weak text)の関連情報を参照して前記弱いテキスト(weak text)を前記強いテキスト(strong text)またはノンテキスト(non-text)に分類したり、分類するようにサポートすることを特徴とする、テキストを検出する方法。
  2. 前記検出されたテキストの候補が複数のとき、前記(a)ステップの後に、(a1)前記装置が、前記検出された複数のテキスト候補が含まれる領域が所定の割合以上重なり合うテキスト候補を含む少なくとも一つのテキスト候補セットを識別し、識別された各テキストの候補セットに対して所定の条件を満たしているテキストの候補を選択したり、選択するようにサポートするステップをさらに含み、
    前記(b)ステップは、
    前記所定の条件を満たしているテキスト候補が含まれている領域内で選択された少なくとも一つのピクセルのフィーチャー値またはこれを変換した値を参照して、(i)前記所定の条件を満たしているテキスト候補を前記第1閾値と比較して、前記強いテキスト(strong text)または前記強くないテキスト(non-strong text)に分類したり、分類するようにサポートして、(ii)前記強くないテキスト(non-strong text)に分類されたテキストの候補を前記第2しきい値と比較して、前記弱いテキスト(weak text)または前記ノンテキスト(non-text)に分類したり、分類するようにサポートすることを特徴とする、請求項1に記載のテキストを検出する方法。
  3. 前記(a)ステップで、
    前記装置は、前記入力画像から所定の領域に含まれるすべてのピクセルのフィーチャー値が前記所定の領域の外側の境界領域のフィーチャー値よりも大きいまたは小さいとき、前記所定の領域を1つのテキスト候補として検出したり、検出するようにサポートしていることを特徴とする、請求項1に記載のテキストを検出する方法。
  4. 前記装置は、前記所定の領域のピクセル輝度レベルを変更しながら、前記少なくとも一つのテキスト候補を検出したり、検出するようにサポートして、
    前記検出された少なくとも一つのテキスト候補から、(i)前記所定の領域のピクセル輝度レベルが相対的に大きい下位レベルのテキスト候補と(ii)前記下位レベルのテキスト候補の領域を含み、前記所定の領域のピクセル輝度レベルが比較的小さい上位レベルのテキスト候補のうち、前記所定の領域のピクセル輝度レベルが最大のテキスト候補を、それぞれ子ノードと親ノードに割り当て、木構造を構成したり、構成するようにサポートすることを特徴とする、請求項3に記載のテキストを検出する方法。
  5. 前記木構造から特定のノードに対して、前記特定のノードに対応するテキスト候補が含まれる領域と、前記特定のノードに対応するテキスト候補の領域を含み、前記所定の領域のピクセル輝度レベルが比較的小さい、祖先ノードに対応するテキスト候補が含まれる領域が所定割合以上に重なる場合が所定回数以上である場合、
    前記装置は、自分の特定の祖先ノードに対しテキスト候補が含まれる領域の変化量が比較的最も小さなノードに対応するテキスト候補を選択したり、選択するようにサポートして、
    前記(b)ステップは、
    前記選択されたテキストの候補が含まれる領域内で選択された少なくとも一つのピクセルのフィーチャー値またはこれを変換した値を参照して、(i)前記所定の条件を満たしているテキストの候補を前記第1閾値と比較して、前記強いテキスト(strong text)または前記強くないテキスト(non-strong text)に分類したり、分類するようにサポートして、(ii)前記強くないテキスト(non-strong text)に分類されたテキスト候補を前記第2しきい値と比較して、前記弱いテキスト(weak text)または前記ノンテキスト(non-text)に分類したり、分類するようにサポートすることを特徴とする、請求項4に記載のテキストを検出する方法。
  6. (d)前記装置が、前記第1閾値と比較して分類された強いテキスト(strong text)及び前記弱いテキスト(weak text)から編入された強いテキスト(strong text)をグルーピングしたり、グルーピングするようサポートするステップをさらに含むことを特徴とする、請求項1に記載のテキストを検出する方法。
  7. 第1強いテキスト(strong text)及び第1弱いテキスト(weak text)から編入された第2強いテキスト(strong text)がグルーピングされて前記第2強いテキスト(strongtext)と第2弱いテキスト(weak text)の関連情報を参照して前記第2弱いテキスト(weak text)が第3強いテキスト(strong text)に分類されると、
    前記装置は、前記第3強いテキスト(strong text)を前記第1強いテキスト(strong text)及び前記第2強いテキスト(strong text)と一緒にグルーピングしたり、グルーピングするようサポートすることを特徴とする、請求項6に記載のテキストを検出する方法。
  8. 前記(b)ステップは、
    前記第1閾値と前記第2閾値の間に少なくとも一つの中間閾値があるとき、(i)前記強くないテキスト(non-strong text)に分類されたテキストの候補を、前記の中間閾値と比較して、前記強いテキスト(strong text)または次順位弱いテキスト(weak text)に分類したり、分類するようにサポートして、(ii)前記次順位弱いテキスト(weak text)を前記第2閾値と比較して、前記弱いテキスト(weak text)または前記non−textに分類したり、分類するようにサポートすることを特徴とする、請求項1に記載のテキストを検出する方法。
  9. 前記(b)ステップで、
    前記装置は、前記検出されたテキスト候補が含まれる領域内で選択されたピクセルのフィーチャー値をMLBP(Mean Local Binary Pattern)で変換した値を参照して、前記(i)及び前記(ii)を実行したり、実行するようにサポートしていることを特徴とする、請求項1に記載のテキストを検出する方法。
  10. 前記(b)ステップで、
    前記装置は、AdaBoostアルゴリズムでトレーニングされた分類機を用いて前記検出されたテキスト候補を分類したり、分類するようにサポートすることを特徴とする、請求項1に記載のテキストを検出する方法。
  11. 前記(c)ステップで、
    前記の関連情報は、前記強いテキスト(strong text)と前記弱いテキスト(weak text)の位置情報、サイズ情報、カラー情報、ストローク幅情報の少なくとも一部を含むことを特徴とする、請求項1に記載のテキストを検出する方法。
  12. 前記検出されたテキスト候補が含まれる領域は、
    エキストラ マージン(extra margin)を最小限に抑えながら前記検出されたテキストの候補を含むバウンディングボックスの領域であることを特徴とする、請求項1に記載のテキストを検出する方法。
  13. 画像に含まれるテキストを検出する装置において、
    入力画像を取得する通信部、及び
    前記入力画像が取得されると、(i)前記入力画像に含まれているピクセルのフィーチャー値を参照にして、前記入力画像の少なくとも1つのテキスト候補を検出したり、検出するようにサポートして、(ii)前記検出されたテキスト候補が含まれる領域内で選択された少なくとも一つのピクセルのフィーチャー値またはこれを変換した値を参照して、前記検出されたテキストの候補を第1閾値と比較して強いテキスト(strong text)または強くないテキスト(non-strong text)に分類したり、分類するようにサポートして、前記強くないテキスト(non-strong text)に分類されたテキスト候補を第2閾値と比較して弱いテキスト(weak text)またはノンテキスト(non-text)に分類したり、分類するようにサポートしており、(iii)前記強いテキスト(strong text)と前記弱いテキスト(weak text)の関連情報を参照して前記弱いテキスト(weak text)を前記強いテキスト(strong text)に分類したり、分類するようにサポートするかどうかを判断するプロセッサを含み、
    前記(iii)で、
    前記プロセッサは、前記強いテキスト(strong text)と前記弱いテキスト(weak text)の関連情報を参照して前記弱いテキスト(weak text)を前記強いテキスト(strong text)またはノンテキスト(non-text)に分類したり、分類するようにサポートしていることを特徴とする、テキストを検出する装置。
  14. 前記検出されたテキストの候補が複数のとき、前記(i)の後に、前記プロセッサが、前記検出された複数のテキスト候補が含まれる領域が所定割合以上に重なり合うテキスト候補を含む少なくとも一つのテキスト候補セットを識別し、識別された各テキストの候補セットに対して所定の条件を満たしているテキストの候補を選択したり、選択するようにサポートして、
    前記所定の条件を満たしているテキスト候補が含まれる領域内で選択された少なくとも一つのピクセルのフィーチャー値またはこれを変換した値を参照して、(i)前記所定の条件を満たしているテキストの候補を前記第1閾値と比較して、前記強いテキスト(strong text)または前記強くないテキスト(non-strong text)に分類したり、分類するようにサポートして、(ii)前記強くないテキスト(non-strong text)に分類されたテキストの候補を前記第2閾値と比較して、前記弱いテキスト(weak text)または前記ノンテキスト(non-text)に分類したり、分類するようにサポートすることを特徴とする、請求項13に記載のテキストを検出する装置。
  15. 前記(i)で、
    前記プロセッサは、前記入力画像から所定の領域に含まれるすべてのピクセルのフィーチャー値が前記所定の領域の外側の境界領域のフィーチャー値より大きいか小さいとき、前記所定の領域を1つのテキスト候補として検出したり、検出するようにサポートしていることを特徴とする、請求項13に記載のテキストを検出する装置。
  16. 前記プロセッサは、前記所定の領域のピクセル輝度レベルを変更しながら、前記少なくとも一つのテキスト候補を検出したり、検出するようにサポートして、
    前記検出された少なくとも一つのテキスト候補から、(i)前記所定の領域のピクセル輝度レベルが相対的に大きい下位レベルのテキスト候補と(ii)前記下位レベルのテキスト候補の領域を含み、前記所定の領域のピクセル輝度レベルが比較的小さい上位レベルのテキスト候補のうち、前記所定の領域のピクセル輝度レベルが最大のテキスト候補を、それぞれ子ノードと親ノードに割り当て、木構造を構成したり、構成するようにサポートすることを特徴とする、請求項15に記載のテキストを検出する装置。
  17. 前記木構造から特定のノードに対して、前記特定のノードに対応するテキスト候補が含まれる領域と、前記特定のノードに対応するテキスト候補の領域を含み、前記所定の領域のピクセル輝度レベルが比較的小さい、祖先ノードに対応するテキスト候補が含まれる領域が所定割合以上に重なる場合が所定回数以上である場合、
    前記プロセッサが、自分の特定の祖先ノードに対しテキスト候補が含まれる領域の変化量が比較的最も小さなノードに対応するテキスト候補を選択したり、選択するようにサポートして、
    前記選択されたテキストの候補が含まれる領域内で選択された少なくとも一つのピクセルのフィーチャー値またはこれを変換した値を参照して、(i)前記所定の条件を満たすテキスト候補を前記第1閾値と比較して、前記強いテキスト(strong text)または前記強くないテキスト(non-strong text)に分類したり、分類するようにサポートして、(ii)前記強くないテキスト(non-strong text)に分類されたテキストの候補を前記第2閾値と比較して、前記弱いテキスト(weak text)または前記ノンテキスト(non-text)に分類したり、分類するようにサポートすることを特徴とする、請求項16に記載のテキストを検出する装置。
  18. 前記プロセッサが、前記(iii)の後に(iv)前記第1閾値と比較して分類された強いテキスト(strong text)及び前記弱いテキスト(weak text)から編入された強いテキスト(strong text)をグルーピングしたり、グルーピングするようにサポートしていることを特徴とする、請求項13に記載のテキストを検出する装置。
  19. 第1強いテキスト(strong text)及び第1弱いテキスト(weak text)から編入された第2強いテキスト(strong text)がグルーピングされて前記第2強いテキスト(strong text)と第2弱いテキスト(weak text)の関連情報を参照して前記第2弱いテキスト(weak text)が第3強いテキスト(strong text)に分類されると、
    前記プロセッサは、前記第3強いテキスト(strong text)を前記第1強いテキスト(strong text)及び前記第2強いテキスト(strong text)と一緒にグルーピングしたり、グルーピングするようにサポートすることを特徴とする、請求項18に記載のテキストを検出する装置。
  20. 前記(ii)で、
    前記第1閾値と前記第2閾値の間に少なくとも一つの中間閾値があるとき、(ii−1)前記強くないテキスト(non-strong text)に分類されたテキストの候補を、前記の中間閾値と比較して、前記強いテキスト(strong text)または次順位弱いテキスト(weak text)に分類したり、分類するようにサポートして、(ii−2)前記次順位弱いテキスト(weak text)を前記第2閾値と比較して、前記弱いテキスト(weak text)または前記ノンテキスト(non-text)に分類したり、分類するようにサポートすることを特徴とする、請求項13に記載のテキストを検出する装置。
  21. 前記(ii)で、
    前記プロセッサは、前記検出されたテキスト候補が含まれる領域内で選択されたピクセルのフィーチャー値をMLBP(Mean Local Binary Pattern)に変換した値を参照にして、前記分類の作業を実行したり、実行するようにサポートしていることを特徴とする、請求項13に記載のテキストを検出する装置。
  22. 前記(ii)で、
    前記プロセッサは、AdaBoostアルゴリズムでトレーニングされた分類機を用いて前記検出されたテキスト候補を分類したり、分類するようにサポートすることを特徴とする、請求項13に記載のテキストを検出する装置。
  23. 前記(iii)で、
    前記の関連情報は、前記強いテキスト(strong text)と前記弱いテキスト(weak text)の位置情報、サイズ情報、カラー情報、ストローク幅情報の少なくとも一部を含むことを特徴とする、請求項13に記載のテキストを検出する装置。
  24. 前記検出されたテキスト候補が含まれる領域は、
    エキストラ マージン(extra margin)を最小限に抑えながら前記検出されたテキストの候補を含むバウンディングボックスの領域であることを特徴とする、請求項13に記載のテキストを検出する装置。

JP2017018957A 2016-02-03 2017-02-03 画像に含まれるテキストを検出する方法、装置及びコンピュータ読み取り可能な記録媒体 Active JP6188976B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/014,441 2016-02-03
US15/014,441 US9524430B1 (en) 2016-02-03 2016-02-03 Method for detecting texts included in an image and apparatus using the same

Publications (2)

Publication Number Publication Date
JP2017138989A true JP2017138989A (ja) 2017-08-10
JP6188976B2 JP6188976B2 (ja) 2017-08-30

Family

ID=57538559

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017018957A Active JP6188976B2 (ja) 2016-02-03 2017-02-03 画像に含まれるテキストを検出する方法、装置及びコンピュータ読み取り可能な記録媒体

Country Status (5)

Country Link
US (1) US9524430B1 (ja)
EP (1) EP3203417B1 (ja)
JP (1) JP6188976B2 (ja)
KR (1) KR101782589B1 (ja)
CN (1) CN107038409B (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9984305B2 (en) 2016-04-19 2018-05-29 Texas Instruments Incorporated Efficient SIMD implementation of 3x3 non maxima suppression of sparse 2D image feature points
US10496894B2 (en) 2017-03-31 2019-12-03 Tata Consultancy Services Limited System and method for text localization in images
CN107832202A (zh) * 2017-11-06 2018-03-23 郑州云海信息技术有限公司 一种检测硬盘的方法、装置及计算机可读存储介质
WO2019095092A1 (en) * 2017-11-14 2019-05-23 Symbol Technologies, Llc Methods and apparatus for detecting and recognizing graphical character representations in image data using symmetrically-located blank areas
CN109460768B (zh) * 2018-11-15 2021-09-21 东北大学 一种用于组织病理学显微图像的文本检测与去除方法
US10430691B1 (en) * 2019-01-22 2019-10-01 StradVision, Inc. Learning method and learning device for object detector based on CNN, adaptable to customers' requirements such as key performance index, using target object merging network and target region estimating network, and testing method and testing device using the same to be used for multi-camera or surround view monitoring
US10713948B1 (en) * 2019-01-31 2020-07-14 StradVision, Inc. Method and device for alerting abnormal driver situation detected by using humans' status recognition via V2V connection
CN110188622B (zh) * 2019-05-09 2021-08-06 新华三信息安全技术有限公司 一种文字定位方法、装置及电子设备
WO2021070089A1 (en) * 2019-10-11 2021-04-15 Pepper Esports Inc. Method and system for processing textual depictions in a computer game screenshot
CN112418220A (zh) * 2020-12-02 2021-02-26 浙江诺诺网络科技有限公司 一种单字检测方法、装置、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000298725A (ja) * 1999-04-15 2000-10-24 Nec Corp テキストデータ検出装置およびその方法
JP2001092921A (ja) * 1999-09-17 2001-04-06 Toshiba Corp 文字行領域抽出方法と文字行領域検出に用いられる学習方法
JP2014530424A (ja) * 2011-09-27 2014-11-17 インテル・コーポレーション Adaboost学習アルゴリズムを使用して顔特徴点の位置を検出するための方法、装置、およびコンピュータ可読記録媒体
JP2014229314A (ja) * 2013-05-24 2014-12-08 キヤノン株式会社 テキスト検出の方法及び装置
JP2014228953A (ja) * 2013-05-20 2014-12-08 オムロン株式会社 画像処理装置および画像処理方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6778700B2 (en) * 2001-03-14 2004-08-17 Electronics For Imaging, Inc. Method and apparatus for text detection
US7236632B2 (en) * 2003-04-11 2007-06-26 Ricoh Company, Ltd. Automated techniques for comparing contents of images
WO2007028166A2 (en) * 2005-09-02 2007-03-08 Blindsight, Inc. A system and method for detecting text in real-world color images
KR100745753B1 (ko) * 2005-11-21 2007-08-02 삼성전자주식회사 영상의 문자 영역 검출장치 및 방법
US8917935B2 (en) * 2008-05-19 2014-12-23 Microsoft Corporation Detecting text using stroke width based text detection
KR101645994B1 (ko) * 2009-12-29 2016-08-05 삼성전자주식회사 문자 인식 영역 검출 장치 및 문자 인식 방법
US8867828B2 (en) * 2011-03-04 2014-10-21 Qualcomm Incorporated Text region detection system and method
CN104182722B (zh) * 2013-05-24 2018-05-18 佳能株式会社 文本检测方法和装置以及文本信息提取方法和系统
CN103279753B (zh) * 2013-06-09 2016-03-09 中国科学院自动化研究所 一种基于树结构指导的英文场景文本块识别方法
US20150039637A1 (en) * 2013-07-31 2015-02-05 The Nielsen Company (Us), Llc Systems Apparatus and Methods for Determining Computer Apparatus Usage Via Processed Visual Indicia

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000298725A (ja) * 1999-04-15 2000-10-24 Nec Corp テキストデータ検出装置およびその方法
JP2001092921A (ja) * 1999-09-17 2001-04-06 Toshiba Corp 文字行領域抽出方法と文字行領域検出に用いられる学習方法
JP2014530424A (ja) * 2011-09-27 2014-11-17 インテル・コーポレーション Adaboost学習アルゴリズムを使用して顔特徴点の位置を検出するための方法、装置、およびコンピュータ可読記録媒体
JP2014228953A (ja) * 2013-05-20 2014-12-08 オムロン株式会社 画像処理装置および画像処理方法
JP2014229314A (ja) * 2013-05-24 2014-12-08 キヤノン株式会社 テキスト検出の方法及び装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
宮本 一正、外4名: ""複数特徴量を用いた低品質定型文字の一認識手法"", 電子情報通信学会論文誌, vol. 82, no. 4, JPN6017010407, 25 April 1999 (1999-04-25), JP, pages 771 - 779, ISSN: 0003524447 *

Also Published As

Publication number Publication date
KR101782589B1 (ko) 2017-09-27
EP3203417B1 (en) 2023-09-27
KR20170092476A (ko) 2017-08-11
EP3203417C0 (en) 2023-09-27
CN107038409B (zh) 2021-06-04
CN107038409A (zh) 2017-08-11
EP3203417A2 (en) 2017-08-09
JP6188976B2 (ja) 2017-08-30
US9524430B1 (en) 2016-12-20
EP3203417A3 (en) 2017-08-16

Similar Documents

Publication Publication Date Title
JP6188976B2 (ja) 画像に含まれるテキストを検出する方法、装置及びコンピュータ読み取り可能な記録媒体
US9552536B2 (en) Image processing device, information storage device, and image processing method
JP5570629B2 (ja) 分類器の学習方法及び装置、並びに処理装置
US8351691B2 (en) Object extraction in colour compound documents
CN106687990B (zh) 用于基于渐进式改良从视频序列选择帧的方法
Du et al. Online deformable object tracking based on structure-aware hyper-graph
JP5691953B2 (ja) 文字を含む画像を処理する方法及び装置
US20110295778A1 (en) Information processing apparatus, information processing method, and program
JP4100885B2 (ja) 帳票認識装置、方法、プログラムおよび記憶媒体
JP2012073684A (ja) 画像認識方法及び装置並びにプログラム
JP2020053073A (ja) 学習方法、学習システム、および学習プログラム
US10614312B2 (en) Method and apparatus for determining signature actor and identifying video based on probability of appearance of signature actor
KR20220149727A (ko) 결함 검출 시스템
Shivakumara et al. Detection of curved text in video: Quad tree based method
Han et al. Class-aware feature aggregation network for video object detection
US10296782B2 (en) Processing device and method for face detection
CN107315984B (zh) 一种行人检索的方法及装置
JP2010102709A (ja) 文字列認識方法、文字列認識システム及び文字列認識プログラム用記録媒体
JP2014197412A (ja) 画像の類似検索システム及び方法
CN104966109B (zh) 医疗化验单图像分类方法及装置
US9710703B1 (en) Method and apparatus for detecting texts included in a specific image
Xu et al. Robust seed localization and growing with deep convolutional features for scene text detection
CN111488400B (zh) 数据分类方法、装置和计算机可读存储介质
JP2011087144A (ja) テロップ文字領域検出方法,テロップ文字領域検出装置およびテロップ文字領域検出プログラム
Guru et al. An eigen value based approach for text detection in video

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170628

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170711

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170801

R150 Certificate of patent or registration of utility model

Ref document number: 6188976

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S631 Written request for registration of reclamation of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313631

S633 Written request for registration of reclamation of name

Free format text: JAPANESE INTERMEDIATE CODE: R313633

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250