JP5775225B2 - マルチレイヤ連結成分をヒストグラムと共に用いるテキスト検出 - Google Patents

マルチレイヤ連結成分をヒストグラムと共に用いるテキスト検出 Download PDF

Info

Publication number
JP5775225B2
JP5775225B2 JP2014537674A JP2014537674A JP5775225B2 JP 5775225 B2 JP5775225 B2 JP 5775225B2 JP 2014537674 A JP2014537674 A JP 2014537674A JP 2014537674 A JP2014537674 A JP 2014537674A JP 5775225 B2 JP5775225 B2 JP 5775225B2
Authority
JP
Japan
Prior art keywords
spatial
bins
histogram
bin
connected components
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2014537674A
Other languages
English (en)
Other versions
JP2014531097A (ja
Inventor
シャン−シュアン ツァイ
シャン−シュアン ツァイ
ヴァスデーヴ パラメスワラン
ヴァスデーヴ パラメスワラン
ラデク グジェシュチャク
ラデク グジェシュチャク
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Oyj
Original Assignee
Nokia Oyj
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Oyj filed Critical Nokia Oyj
Publication of JP2014531097A publication Critical patent/JP2014531097A/ja
Application granted granted Critical
Publication of JP5775225B2 publication Critical patent/JP5775225B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/40Image enhancement or restoration using histogram techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/1801Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
    • G06V30/18076Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by analysing connectivity, e.g. edge linking, connected component analysis or slices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)
  • Facsimile Image Signal Circuits (AREA)
  • Image Processing (AREA)

Description

本発明の実施形態の非限定的な例は、一般的にはデジタルイメージングデバイスに及び関連するソフトウェアに関し、より具体的には、スマートフォンのカメラなどで撮影されたデジタルイメージから、テキストを検出し認識することに関する。
背景
テキスト認識技術は、コンピュータ・ビジョンやパターン認識の分野でしばしば用いられる。特に、視覚イメージをデジタルテキストに変換するアプリケーションにおいて、必要とされる。フラットベッド・スキャナを用いて紙のドキュメントをデジタルドキュメントに変換するOCR(光学式文字認識:Optical Character Recognition)システムは、画像をデジタルテキストに変換するために、この技術を使う。スマートフォン・デバイスにおける翻訳サービスのような、モバイルビジョン・アプリケーションもまた、ユーザが撮影した写真の中の外国語テキストを翻訳するために、この技術を使う。デジタルマップを作成する分野においては、この技術は、車載装置等から定期的に収集される画像から、デジタルコンテンツを作成するために使用されうる。そのような画像から、店頭のテキストや交通標識が特定され、POI(Point of Interest)情報を作成するために使用されうる。しかし、テキスト検出に関する現在のアプローチは、当初予想したような進歩を見せていない。
現在のところ、テキスト認識システムが最も成功を収めた分野は文書変換システムである。これは、しばしば90%以上の正確性を有する。しかし、フラットベッド・スキャナを用いたテキスト認識システム以外では、それほど成功しているとは言えない。その理由の一つは、通常の景色においては、光の当たり具合や見え方の条件が一様でないことであり、それがテキスト認識の正確性を悪化させてしまっている。この問題を解決するためのアプローチの一つは、自然風景テキスト検出アルゴリズムを利用することである。このアルゴリズムは、通常、認識を試行する前の、テキストの場所特定のために用いられる。テキストの場所を特定することにより、光の条件が良好なものとなり、次のステージにおいてなされるテキスト認識やパターンマッチングが良好に行われうる。しかし、このアプローチも、当初予想したような進歩を見せていない。
非常に大まかに言えば、テキスト検出技術は、2つの異なるカテゴリに分けられることができる。一つは領域に基づくテキスト検出法であり、もう一つは連結成分(connected component)に基づくテキスト検出法である。領域に基づく方法では、デジタル画像に対してスライディング・ウィンドウ(sliding window)が適用されると共に、ウィンドウがテキストを含んでいるかどうかを分類するテストが行われる。例えば非特許文献1や非特許文献2を参照されたい。非特許文献1の手法では、離散コサイン変換空間における特徴が、領域を分類するために使用される。非特許文献2の手法では、intensity(明度)やgradient(階調)等の特徴を使用して、分類を行うためのAdaboostアルゴリズムをトレーニングする。
連結成分に基づくアプローチでは、テキストに関する解析の対象となるデジタル画像は、まず二値画像に変換される。その画像における連結成分が、文字の候補であると考えられる。これらの文字候補がペアにされ、関係付けられて、テキストラインを形成する。そして通常、テキストラインの幾何学的な性質が、偽陽性をふるい落とすために使用される。例えば非特許文献3〜5を参照されたい。また特許文献1も参照されたい。特許文献1は、非特許文献4の著者が発明者として示されており、非特許文献4に似た名称の発明が開示されている。
非特許文献4の著者であるEpshteinらの仕事は、Stroke Width Transform(SWT)に基づくテキスト検出スキームであると考えられる。特に、Epshteinらは、画像中のエッジを見つけるためにCannyのエッジ検出技術(非特許文献6参照)を使用し、その後、検出された個々のエッジの傾きの方向の光線を検出することにより、文字候補を構成する文字ストロークの両側の特定を、対応するエッジに基づいて試みる。非特許文献5の著者であるH. Chenらの技術は文字候補としてMSER(非特許文献7参照)を用いている。MSERの改善にCannyのエッジが用いられる。H. Chenらの技術はまた、ストローク幅を計算するための方法に基づいて、距離変換(distance transform)を使用する。最後に、非特許文献8においては、2値レベルの処理を拡張すべく、拡張されたMSER領域を使用することが開示されている。
本願発明者は、非特許文献8の著者であるLukas Neumannらの技術、すなわち、テキストが存在する場所を特定するために可能性のあるすべての領域を網羅的にサーチする技術は、時間がかかりすぎると考えている。
本願の技術分野において必要とされていることは、デジタルイメージング技術によりキャプチャされた風景中のテキストを認識することについての改善であり、特に、前述のような、(例えばスマートフォン等において)POI情報を収集したり、(例えば車載カメラにおいて)デジタルマップを作成したりするような、ダイナミックなアプリケーションに使用するために好適な技術の改善である。
US2009/0285482
Y. Zhang, H. Zhang, and A. K. Jain, "Automatic caption localization in compressed video," IEEE Trans. Pattern Anal. Mach. Intell., vol. 22, no. 4, pp. 385-392, 2000 X. Chen and A. L. Yuille, "A time-efficient cascade for real-time object detection: With applications for the visually impaired" in CVPR - Workshops, 2005, p. 28 A. Clavelli and D. Karatzas, "Text Segmentation in Colour Posters from the Spanish Civil War Era", Int. Conf. on Document Analysis and Recognition, 2009, pp. 181 - 185 B. Epshtein, E. Ofek, and Y. Wexler, "Detecting text in natural scenes with stroke width transform" in CVPR, 2010, pp. 2963 -2970 H. Chen, S. S. Tsai, G. Schroth, D. Chen, R. Grzeszczuk, B. Girod, "Robust text detection in natural images with edge-enhanced maximally stable extremal regions," in ICIP, 2011. Canny, J., "A Computational Approach To Edge Detection" IEEE Trans. Pattern Analysis and Machine Intelligence, 8(6):679-698, 1986 J. Matas, O. Chum, M. Urban, and T. Pajdla, "Robust wide baseline stereo from maximally stable extremal regions" in British Machine Vision Conference, 2002, vol. 1, pp. 384-393 Lukas Neumann, Jiri Matas, "Text localization in real-world images using efficiently pruned exhaustive search", Int. Conf. on Document Analysis and Retrieval, 2011
摘要
本発明の例示的実施形態を用いれば、前述の及び他の問題が解決され、更なる利益を得ることが可能となる。
本発明の第1の側面によれば、少なくとも一つのプロセッサと、コンピュータプログラムコードを含む少なくとも一つのメモリとを備える次のような装置が提供される。この第1の側面において、前記少なくとも一つのメモリおよび前記プログラムコードは、前記少なくとも一つのプロセッサと共に、前記装置に、少なくとも、デジタル画像を複数値レベルの画像に変換することと;連結成分に基づいて、前記複数値レベルの画像から、複数のスケールセットを形成すること、ただし前記スケールセットの各々は他とは異なるサイズの空間ビンを規定する、前記形成することと;複数のスケールセットの各々について、各空間ビンにつき、それぞれのスケールセットから抽出された連結成分のカウント値を生成し、各スケールセットについて、連結成分を表現している隣接空間ビンを関係付けることと;その後、異なるスケールセットからの連結成分を合体し、合体した連結成分に対して、テキストライン検出処理を行うことと;を行わせる。
本発明の第2の側面によれば、次のような方法が提供される。この方法は、デジタル画像を複数値レベルの画像に変換することと;少なくとも一つのプロセッサによって、連結成分に基づいて、前記複数値レベルの画像から、複数のスケールセットを形成すること、ただし前記スケールセットの各々は他とは異なるサイズの空間ビンを規定する、前記形成することと;前記複数のスケールセットの各々につき、個々の空間ビンについて、それぞれのスケールセットから抽出された連結成分のカウント値を生成することと、連結成分を表現している隣接空間ビンを関係付けることと;その後、異なるスケールセットからの連結成分を合体することと;合体した連結成分に対して、テキストライン検出処理を行うことと;を含む。
本発明の第3の側面によれば、少なくとも一つのプロセッサにより実行可能なプログラム命令を触知可能に格納した、次のようなコンピュータ可読メモリが提供される。このプログラム命令は、デジタル画像を複数値レベルの画像に変換するためのコードと;連結成分に基づいて、前記複数値レベルの画像から、複数のスケールセットを形成するためのコードであって、ここで前記スケールセットの各々は他とは異なるサイズの空間ビンを規定する、前記コードと;前記複数のスケールセットの各々につき、個々の空間ビンについて、それぞれのスケールセットから抽出された連結成分のカウント値を生成するコードと、連結成分を表現している隣接空間ビンを関係付けるコードと;を含む。前記プログラムはさらに、前記異なるスケールセットの前記連結成分を合体するコードと;合体した連結成分に対してテキストライン検出を行うコードと;を含む。
撮影されたデジタル画像から得られたマルチレベル画像を描いたものである。第2列に示されるような、それぞれ異なる複数の空間ビン及びスケールにマルチレベル画像の連結成分が通されて、複数の異なるスケールからなるセットが作られ、第3列で抽出された領域が、異なるスケールのために用いられる。 デジタル画像から抽出した様々な大きさの領域(例えば図1で抽出された領域)から得られた特徴カウントのヒストグラムを示したものである。 図2のヒストグラムに水平方向フィルタリングを施したものを描いたものである。 図3Aから、三つ以上の連結成分を有するヒストグラム・ビンをマーキングしたものを描いたものである。 図3Bでマークされたビンに保持された連結成分を水平方向及び鉛直方向に関係付けたものを描いたものである。 図1における領域Aに示されるテキストを認識することについて、単純な二値化スキーム(左)と、本明細書の教示に従うマルチレイヤスキーム(右)とを比較している。 本明細書の教示に従って処理した後の、図1のデジタル画像の全体を描いたものであるが、左の図はヒストグラム・フィルタリングを行う前のものであり、右の図はヒストグラム・フィルタリングを行った後のものである。 本明細書の教示のある具現化形態に従うホスト装置であって、本明細書で説明されたテキスト検出を行うためのプログラムを有するホスト装置の具体的なブロック図を示している。このプログラムはコンピュータ可読メモリに格納されている。 本明細書の教示の例示的実施形態に従う方法の実行の様子、またはコンピュータ可読メモリに格納されたコンピュータプログラム命令の実行の結果を描いた論理フロー図である。
詳細説明
デジタル的に撮影された風景画像からテキストを検出する既存の多くの取り組みが、二値化の手法を利用している。これらの手法において、二値化は、風景画像を二値レベルの画像に変換するために適用されるが、これは例えば、全体的な二値化(global binarization)や適応的な二値化(adaptive binarization)、MSER(maximally stable extremal regions)等を利用して行われる。MSERについては、例えば非特許文献7を参照のこと。二値レベル画像の連結成分(connected component)を、テキスト文字候補として考えることや、その後の処理におけるテキストライン形成のための基本的な構成要素として用いることも行われてきた。
本願発明者は、文字候補の生成を最も基本的な段階であると考えている。すなわち、上述の二値化処理の性能は、極めて重要であると考えている。しかし、画像を二値化形態に変換するにおいては、風景イメージにおいて、テキストが、背景に対して良好なコントラストを有していることが仮定されている。この仮定は全ての自然風景イメージに対して有効であるというわけではない。例えば、カメラで撮影された写真を考えてみると、撮影されたシーンにおいて、テキストが存在する部分にはピントが合っていないかもしれず、動きによるぶれが存在するかもしれず、テキストが存在する領域の光の当たり具合も一様ではないかもしれない。
これらの問題にうまく対処するために、本明細書は開示する技術思想においては、テキスト検出のために、複数値レベルのアプローチを用いる。これは、はじめに[摘要]の項に紹介されたものであり、続いて[詳細説明]の項で図1−5を参照しながら説明される。[詳細説明]の項では、具体的な例を用いて様々な処理段階を詳しく説明する。本明細書の教示によれば、風景画像は、二値レベルの画像に変換されるのではなく、複数値レベルの画像に変換される。複数値レベルの画像では、二値レベルの画像に比べてディテールがより多く保存されている。二値レベルの画像において、基本的な構成要素として用いられるものは、二値レベル画像中の連結成分である。しかし、本明細書で詳述される複数値レベルのアプローチでは、互いに異なる複数のスケールのセットの連結成分が利用される。これは、異なる大きさの領域が重なり合うことをもたらし、本明細書の教示は、複数次元のヒストグラムを利用して処理を行う。基本的に、ヒストグラムは、マルチレイヤ連結成分を整理・体系化するために用いられる。後に図5において示されるように、異なるサイズの重なり合う領域を用いるこの体系立ったアプローチは、優れたテキスト検出アルゴリズムをもたらす。
互いに重なり合う連結成分は、複数値レベルの画像の、互いに異なる複数のスケールのセットから生成される。これら複数の連結成分は、複数次元のヒストグラムを用いて整理される。複数値レベルの画像の連結成分の各々は、その空間的及び幾何学的サイズに基づき、ヒストグラムのビンのいずれかに含められる。このとき、実施形態によっては、更なる幾何学的特性も考慮される。複数値レベルの画像は、例えば、適応的二値化やMSERによる抽出を用いて生成される。あるサイズ範囲の連結成分は、あるスケールセットのビンの中にカウントされる。別のサイズ範囲の連結成分は、別のスケールセットのビンの中にカウントされる。このようにして、複数値レベルの画像が、連結成分を用いて複数のスケールセットを形成するために利用される。これは、アルファベットや数値の文字候補となる。図3Bに描かれるように、一定以上の数の連結成分が存在するヒストグラム・ビンの中の連結成分が、文字候補であると扱われる。定められたカットオフ数より少ない連結成分しか存在しないヒストグラム・ビンは、テキストとして考慮されるものから除外される。図3Aに見られるように、実施形態によっては、ヒストグラムは、鉛直方向又は水平方向に引き延ばされる。ヒストグラムを空間的に重ねることは、境界効果を減少させるために行われる。同じビンの、重なった連結成分は、重なり合いが一重であれば、互いに関係付けられる。そして、図3Cに描かれるように、同じヒストグラム・ビンの中の文字候補はペアを組むように連結され、また、空間的に隣接するヒストグラム・ビンも連結される。そして、ペアを組むように連結された文字候補のクラスターからテキストラインが形成される。
既存のテキスト認識技術において用いられてきた単純な二値化処理と比較すると、本明細書の教示は、画像の連結成分であってマルチレイヤ連結成分を、ヒストグラムを用いて、テキスト検出のための複数のレベルへと分離する。さらに、これら既存の技術とは異なり、重なり合ったヒストグラムも用いられ、これは境界効果を軽減するために用いされうる。ヒストグラムを用いて、ペアを組むように連結し関係付けることも、既存のアプローチには存在しない特徴である。
これから、図1−5を用いて、上記の技術のより具体的な例を紹介する。図1の一番上の列には風景画像が示されている。この画像は複数値のレベルの画像に変換されている。図1ではMSERを用いて変換が行われているが、適応的二値化法(adaptive binarization)やその他の抽出技術を使っても、同様の結果を得ることができる。図2の二番目の列は、空間的グリッドで仕切られたビンの位置を示している。第2列の各ブロック中には、濃淡の異なるグリッド線が描かれており、各ブロックにおいて、2つの異なる組のグリッドが設けられていることが示されている。これは、画像中の各点または各画素は、各ブロックに対して、互いに重なり合う2つの異なるビンに含まれることを意味している。この技術は、ブロック毎に3つまたはそれ以上の組のグリッドを設けるような形態に容易に拡張できる。(このとき各ブロックに属するグリッドは各々同じ大きさを有し、また各々他のグリッドに重なり合っている。)またこの技術は、ブロック毎のグリッドの組が1つしかないような形態にも変形できる。(この場合は、あるグリッドが他のグリッドに重なることがない。各グリッドの大きさは互いに等しい。)いずれにせよ、等しいサイズを有するグリッドの集まりが、1つのレベルセットを構成すると考えられることができる。なお、図1でビンの位置を示す列において、各ブロックは、それぞれ異なるサイズのグリッドを有している。従って、これらのブロックは、各々、MSER(又は適応的二値化等の)抽出法における、異なるスケールセット(scale set)を表している。図1には、全部で5つのスケールセットが描かれている。ビンの位置を示す、この第2列は、図2のヒストグラムがどのように形成されるのかの概念を読者に理解してもらうためにも提示されている。
図1の一番下の列は、一番上の画像のマルチレベル抽出(multi-level extraction)の結果を示したものである。各ブロックはそれぞれ1つのレベルを表している。また各ブロックは、その真上に描かれた第2列のブロックのグリッド線によって、概念的に分割されている。従って、最も左に位置する抽出領域は、最も小さなサイズのビン(最も小さなスケールセット)で分割されている。例えば、各ビンは10−30個の画素を含む。最も右に位置する抽出結果は、最も大きなサイズのビン(最も大きなスケールセット)で分割されている。例えば、各ビンは42−126個の画素を含む。これをマルチレイヤ抽出(multi-layer extraction)という。サイズの異なる各ビンは異なる抽出レベルを表す。各ビンには連結成分(connected component)が位置する。図1の左端の領域は、画像全体の抽出結果を描いていないように見えるが、これは図で表すことの限界のためである。実際には画像全体が抽出されており、複数のレベルまたはスケールについて、それぞれ異なるサイズのビンに従って、抽出が行われる。これは、各ブロックにおいて、同じサイズを有するビン同士が重なり合う(図1に描かれるように、スケール毎に2つ以上の重なり合うグリッドが存在する場合)だけでなく、他のブロックにおける、異なるサイズを有するビンとも重なり合うことを意味している。これは元の画像における同じ特定の画素が、重なり合う複数のビンの中に表現されうるからである。
これらのビンが、ヒストグラムを生成するために使用される。連結成分(connected component)は、スケールセットに基づいて、複数値レベル画像(multi-level image )から抽出される。そして上述のように、図1の一番下の列の各ブロックは、一つのスケールセットを表す。図1の一番左に描かれる最も小さなスケールセットは、比較的小さなサイズのフォントを有する文字候補を同定する可能性がある。図1の一番右に描かれる、最も大きなスケールセットは、比較的大きなサイズのフォントを有する文字候補を同定する可能性がある。MSERにおいては、各スケールセットは、異なるMSER検出領域に対応する。
図1の一番下の列に描かれた、様々なスケールセットによる抽出結果の各々は、一つのヒストグラムを生成する。そして、抽出されたビンに位置する成分(component)がカウントされ、そのカウント数が、対応するヒストグラムにおける同じビンに配置される。各レベルにおいて、同サイズのビンが重なり合っていることにより、各成分は、ソフトウェアによって修正されない限り、2度・3度とカウントされるであろう。(いくつカウントされるかは、各レベルにおいて重なり合うグリッドがいくつ設けられているかによる。)しかし、抽出の全てのスケールレベルにおいて、重なり合う同サイズグリッドの種類の数が等しい限り、全ての画素が同様に2度・3度とカウントされるため、複数回カウントされることは、たとえ修正されなくとも、最終的な結果に影響を及ぼさない。しかし、異なる抽出セットにおいては異なる数の同サイズグリッドが用いられる場合は、後の処理で重なり合う異サイズのビンを関係付ける際に、ヒストグラムカウント値に対して何らかの規格化が必要になるであろう。
MSERは、テキスト検出において非常に有用であることが示されてきた。画像において、テキスト文字は、多くの場合、一様な色を有している。つまり、文字を構成する線上における色の変化は比較的少なく、文字の境界において大きな変化を示す。画像のこのような条件が、MSERが求める安定的な結果に深く関わっている。そして、MSERは、テキスト文字の候補として扱われることができる。ボケやノイズがあると、境界が明確でなくなる。そこで、多くの領域が検出され、実際は存在する文字が認識されないということが少なくなるようにするためには、MSER検出には、緩やかな閾値が好ましいと考えられている。緩やかな閾値を用いると、MSERの数が増加し、計算の複雑性が増すことになるが、これは、本明細書で詳述されるヒストグラム・フィルタリングによる高速かつ効率的な処理により、埋め合わせることができる。
図2はヒストグラムを描いている。この実施形態において、ヒストグラムは、スケールセット毎に、連結成分(connected component)のサイズ、x座標、y座標という次元(特徴)を有している。別の実施形態では、他の幾何学的成分を用いることもできる。例えば、デカルトのxy座標系の代わりに球座標系を用いることもできる。隣接する空間ビンは、x,yの単位値ずつずれている。そして、各ヒストグラム/スケールセットにおけるこれら隣接するビンによる連結成分が、以下詳述されるように関係付けられる。なお、本明細書に表示される事項をソフトウェアにより実装する場合、図2に描かれるような、目に見えるヒストグラムを生成する必要はない。ビンや、各ビンに対応するカウント値が、ソフトウェアによる実装においてデジタルビットとして表現されれば十分である。図示されているものを明確にするために述べると、図2のヒストグラムは、図1に描かれた抽出レベルから生成されたものと同じではない。重要なことは、異なるヒストグラムには、異なる空間グリッド(すなわち異なるサイズのビン)が存在するということである。ビンごとに連結成分のカウント値を有するこれらの三次元ヒストグラムは、図1に例示された、マルチレベル抽出法から形成されたものである。これらのヒストグラムを作成する手法の一つは、連結成分が表現されるビンをカウントするために、ビンの中心と、ビン/境界ボックスのサイズを使うことである。図2のヒストグラムは、境界効果を和らげるために、空間的にオーバーラップさせられている。ヒストグラム中の濃淡は、ビンの中の連結成分のカウント数又は存在確率を表す。
図2の5つのヒストグラムは各々異なるスケールレベルに対応しており、それぞれ空間的なフィルタリングが施される。図3Aに描かれるように、上述の図2のヒストグラムは水平方向に引き延ばされている。すなわち、各ビンについて、水平方向に隣接するビンのカウント値が加えられている。同じことが、鉛直方向にも行われる。この処理は、特に他との繋がりのない孤立した領域を除去することから、文字候補の特定に役立つ。また前述のように、比較的緩い境界閾値を用いるために、多くの数のMSERが生成されるが、上記の処理は、MSERの数を減らすために、計算負荷の減少にも非常に役立つ。
図3Aに示されるような水平方向のフィルタリングと、鉛直方向に施される同様のフィルタリング等の結果が、方向性を有するヒストグラム(directional histogram)であると考えることができるのであれば、処理は次に進み、このヒストグラムから、所定の(一定の)閾値以下のカウント値しか有さないビンを処理から除外する(図3B参照)。この閾値は、例えば、全ての単語が最低三つの文字を含むと仮定して、連結成分3つとしてもよい。これらの領域に含まれるMSERのみが、テキスト文字の候補として保持される。ある実施形態に従い実装されるソフトウェアは、このステップについて、各レベルのヒストグラムで残された連結成分のインデックスをリストにして残すように構成されてもよい。このリストを用いて、他の連結成分一つだけと重なっている連結成分は、その連結成分と合体させられる。互いに他の複数の連結成分と重なっている連結成分が存在する場合、最も大きな領域は除去される。図5は、このフィルタリングの結果を示している。左側がフィルタリングを行う前のものであり、右側がフィルタリングを行った後のものである。テキスト検出アルゴリズムの上記における処理に起因するノイズが、効果的に除去されていることが判る。読者が容易に比較できるように、図1に示した領域A及びBが、図5においても示されている。
最後に、図3Cに対応する処理において、同じヒストグラム・ビンに含まれる連結成分や、隣接する同サイズのビンに含まれる連結成分が関係付けられる。図3Cは、水平方向における関係付けの様子を、ある色(グレースケールにおけるある濃淡レベル)によって表し、縦方向における関係付けの様子を別の色(グレースケールにおける別の濃淡レベル)によって表している。
そして、様々なスケールセットにおいてそれぞれ関係付けられた複数の連結成分が合体させられる。この処理においては、小さなスケールセットから始めて大きなスケールセットへと処理を進めていくことが便利である。一連のセットの各々について、次の大きなヒストグラムからの連結したMSERの組を加えていくように処理を進めていくことが便利である。新たに加えたMSER領域が、当該スケールセットにおいて、他のMSER領域と空間的に重なり合っているのであれば、それは元のものと合体させられ、その合体を反映させるべく更新される。新たに加えたMSER領域が、当該スケールセットにおいて、他の2つまたはそれ以上のMSER領域と空間的に重なり合っているのであれば、その領域は合体させられない。
その後、関係付けられた連結成分に対してテキストライン検出が実行される。テキストは通常、直線的な形状や若干カーブした形状に現れることから、テキストライン検出は、テキスト検出処理において重要な段階である。テキスト線の生成のために、文字候補を組み合わせたグループにおける、線幅(stroke width)と文字高(character height)とを比較するルールが用いられる。例えば、線幅のメジアンに対する最大比が1.5であるとか、(上付き・下付き文字を考慮に入れて)文字高のメジアンに対して最大比が2.0であるとかなどとしてもよい。
図1の領域Bからの結果が図4に示されている。左側、単純な二値化処理による結果を示し、右側は、上述のマルチレベルヒストグラム処理による結果を示している。注意すべきは、テキストワード"BAND"について、単純な二値化処理によっては初めの三つの文字"BAN"をうまく分離できていないが、本明細書の教示を用いると、ずっとよく分離することができている。本明細書の教示は、異なる領域が結合することについての課題にうまく対処している。また、注意すべきは、図4の左側に示された、単純な二値化技術によっても、テキストはなお認識可能であるものの、図4に示された二つの結果の間の相違は、十分顕著なものであることである。他の画像において、単純な二値化技術によってはテキストと認識できないような場合であっても、本明細書の教示に従うアルゴリズムによれば、認識されることが可能な場合もある。
更なる性能向上のために、上述の処理に追加の改良を加えることもできる。例えば、誤った文字候補を除去するために、線幅テスト(stroke width test)を行ってもよい。また、組み合わせるような関係付け(pairwise linking)を行う前に、文字候補のサイズを比較したり、(例えばCanny のエッジ等の技術を用いて)候補文字のエッジを強調したりしてもよい。
本明細書の教示の例示的実施形態は、従来技術に比べて次のような技術的効果を提供する。本明細書の教示による技術は、複数値レベルの画像を処理することができ、既知の技術に比べてより多くの情報を保持することができる。また、複数次元のアプローチは、隣接する似たような連結成分を保存することができ、ノイズとなるような他の連結成分を除去することができる(図5参照)。さらに、上述のように、成分の連結及び関係付けは、それを進めるためにヒストグラムを用いる場合に、より簡単な処理となる。
本明細書により教示される事項の実施形態は、ナビゲーションマッピングやPOIサービスにおいて利用されると有利である。本明細書により教示される事項の実施形態は、ユーザのスマートフォンからPOI情報を生成したり、車載デジタルマッピングプラットフォームからPOI情報を生成したりするために利用することができる。これらのPOI情報は、デジタルマップやPOIと共に表示されることができるだろう。例えば、ユーザは、図1のイメージを、そのスマートフォンを用いてキャプチャし、サービスプロバイダのサーバへアップロードしてもよい。そのサーバは、上述のマルチレイヤ抽出及びテキスト認識を行って、図4に描かれたようなバンド名や講演時間を抽出し、サービスプロバイダの顧客が、このバンドが演奏している場所の近くの住所やホテルを検索したり、このバンド名を検索したりする際に、そのバンド名や講演時間を提示してもよい。
本発明の実施形態が実装されうるホストデバイスには非常に様々なものが含まれる。そのようなホストデバイスは、例えば携帯端末やスマートフォン、サーバ、コンピュータ装置などであることができ、写真撮影装置を有しているものでも有していないものであってもよい。例えば、上記の例のサーバは自身でデジタルカメラを有していないだろう。図6のホストデバイスを参照されたい。このホストデバイスは、一般的に表されたものであり、何らかの制限を加えるものではない。このホストデバイスは、コンピュータ又はデータプロセッサ(DP)等の一つ又は複数のコントローラ10A,コンピュータ可読記憶媒体10B,出力部10Fを有している。記録媒体10Bは、コンピュータ命令によるプログラム10Cや処理又は解析の対象となるデジタル画像10Eを格納している。出力部10Fは、別のサーバ等の他のデバイスに、マルチレベル抽出画像処理の結果を、様々な形態で提供する。
プログラム10Cの少なくともいずれかは、関連するDP10Aに実行される時に、装置10が、上に例示的に詳細に説明された、本発明の例示的実施形態に従った処理を行うことを可能にするプログラム命令を含んでいる。そのようなプログラムの一つは、ブロック10Dで示された、マルチレベル抽出及びヒストグラム生成アルゴリズムであり、メモリ10Bに格納される。本発明の例示的実施形態は、従って、少なくとも部分的には、ユーザ端末(UE)10のDP10Aによって実行可能なコンピュータソフトウェアにより実装されることができ、また、ソフトウェア及びハードウェア(及びファームウェア)の組み合わせにより実装されることができる。
典型的なホストデバイスは、移動端末やスマートフォンが有するような、他の電子機器との無線通信機能を有する必要はない。
コンピュータ可読メモリは、ローカルな技術環境に適したあらゆるタイプのものであってよい。例えば、半導体ベースのメモリデバイス,フラッシュメモリ,磁気メモリデバイス・システム,光学式メモリデバイス・システム,固定式・移動式メモリ等の様々な適合するデータ格納技術を用いて実装されてもよい。DP10Aは、ローカルな技術環境に適したあらゆるタイプのものであってよく、非限定的な例として、一つ以上の汎用コンピュータ,特定用途向けコンピュータ,ASIC(application specific integrated circuits),ROIC(ead-out integrated circuits),マイクロプロセッサ,デジタル信号プロセッサ(DSP),マルチコアプロセッサ・アーキテクチャに基づくプロセッサを含んでもよい。
図7は、本明細書の例示的実施形態に従う方法の実行の様子、またはコンピュータプログラム命令の実行の結果を描いた論理フロー図である。これらの例示的実施形態において、ブロック702は、デジタル画像を複数値レベルの画像に変換し、複数値レベルの画像の連結成分から複数のスケールセットを形成する、最初のステップを与える。ここでは、空間セットの各々が、異なるサイズの空間ビンを定義する。次に、ブロック704は、スケールセット毎の処理になる。つまり、複数のスケールセットの各々について、各空間ビンにつき、それぞれのレベルから抽出された連結成分のカウント値が求められる。また、各スケールセットについて、連結成分を表現している隣接空間ビンが関係付けられる。次に、ブロック705においては、異なるスケールセットからの連結成分が合体させられ、合体された連結成分に対して、テキストライン検出処理が行われる。
図7の残りの部分は、さらに具体的な様々な実施形態がまとめられている。ブロック706には、複数のスケールセットの各々について、各空間ビンの要素のカウント値がヒストグラムを形成することが述べられている。また、複数のスケールセットの各々について、ヒストグラムを生成した後であって隣接する空間ビンを関係付ける前に、所定の値より少ないカウント値しか有さない全ての空間ビンが処理から除外されることも述べられている。ブロック708には、上記の例の二つの具体的特徴が示されている。各ヒストグラムは、他のヒストグラムとは異なるサイズのビンを定めていることと、各ヒストグラムが、同じサイズを有し互いに重なり合う少なくとも2種類のビンを有することとが示されている。
ブロック710には、複数のスケールセットの各々について、ヒストグラムを生成した後に、ヒストグラムが引き延ばされることが記載されている。これは、各空間ビンのカウント値に、水平方向を及び鉛直方向に隣接する空間ビンのカウント値を加えることによって行われる。またブロック710には、孤立した領域からなる空間ビンは除去されることも記載されている。この場合、ブロック704において記述される空間ビンの関係付けは、引き延ばされたヒストグラムに対して、孤立したビンの除去の後に、行われる。ブロック712には、所定の閾値未満のカウント値しか有さない全ての空間ビンが除去されるブロック706が、ブロック710に記述される、引き延ばされたヒストグラムに対して行われることが述べられている。
上に述べたが図7にはまとめられていないこととして、隣接ビンを関係付けるときやテキスト検出を行う際に、テキストの線幅を検査して、誤ったテキスト文字候補を除去することや、文字のサイズを比較して基本的な文字のサイズが似たような場合にのみ空間ビンを関係付けることにより、性能が向上しうることがある。上述の例においては、MSER(Maximally Stable Extremal Region)を用いて複数値レベルの各々から成分を抽出したが、二値化法(適応的二値化法を含む)も、同様の目的に使用することができる。
図7に示す種々のブロックや、上に説明した詳細な実装例は、方法ステップ、コンピュータプログラムコードの処理から生じる動作、関連する機能を実行するように構成される論理回路要素を複数繋げたものの何れか、または全てと見なされてもよい。
一般に、様々な例示的実施形態がハードウェアまたは特定用途向け回路、ソフトウェア、ロジック、またはそれらの組み合わせで実装されうる。例えば、ある場合ではハードウェアで実装されてもよく、一方別の場合では、コントローラやマイクロプロセッサ等のコンピュータデバイスによって実行されるファームウェアやソフトウェアで実装されてもよい。ただし、本発明はこれらに限定されるものではない。本発明の例示的実施形態の種々の側面は、ブロック図、フローチャート、または他の図的記述を使用して記述ないし示され得る。これらのブロック、装置、システム、技術、またはここで記述される方法は、非限定的な例として、ハードウェア、ソフトウェア、ファームウェア、特定用途向け回路やロジック、汎用ハードウェア、コントローラや他のコンピュータデバイス、またはそれらの組み合わせで実装されてもよいと理解されるべきである。
上述した本発明の例示的実施形態への種々の修正や変更は、添付図面と併せて上の説明を考慮すれば、本願に関連する技術分野の当業者には明らかになるだろう。そして、如何なる全ての修正変更も本発明の非限定かつ例示的実施形態の範囲内である。
さらに、本発明の様々な非限定的及び例示的な実施形態は、その他の特徴の対応する使用なしに、利益をもたらすために使用されうる。従って、上述の説明は、本発明の原理や教授、例示的実施形態の説明に過ぎないと考えるべきであり、これらを限定するものであると考えてはならない。

Claims (20)

  1. 少なくとも一つのプロセッサと、コンピュータプログラムコードを含む少なくとも一つのメモリとを備える装置であって、前記少なくとも一つのメモリおよび前記プログラムコードが、前記少なくとも一つのプロセッサと共に、前記装置に少なくとも:
    デジタル画像を複数値レベルの画像に変換することと;
    連結成分に基づいて、前記複数値レベルの画像から、複数のスケールセットを形成すること、ただし前記スケールセットの各々は他とは異なるサイズの空間ビンを規定する、前記形成することと;
    前記複数のスケールセットの各々につき:
    個々の空間ビンについて、それぞれのスケールセットから抽出された連結成分のカウント値を生成すること、および
    前記カウント値に基づいて、隣接空間ビンが表現する連結成分を関係付けることと;
    前記異なる複数のスケールセットからの前記関係付けされた連結成分を合体することと;
    前記合体された連結成分に対してテキストライン検出を行うことと;
    を行わせるように構成される、装置。
  2. 前記複数のスケールセットの各々について、各空間ビンの成分のカウント値がヒストグラムを構成し、
    前記少なくとも一つのメモリおよび前記コンピュータプログラムコードは、前記少なくとも一つのプロセッサと共に、前記装置に、少なくとも更に、前記複数のスケールの各々について、前記ヒストグラムを生成した後であって前記隣接する空間ビンを関係付ける前に、所定の値未満のカウント値しか有さない全ての空間ビンを除去することを実行させるように構成される、
    請求項1に記載の装置。
  3. 前記ヒストグラムの各々は他のヒストグラムとは異なるサイズのビンを規定する、請求項2に記載の装置。
  4. 前記ヒストグラムの各々は、ビンのサイズが同じであって互いに重なり合う2種類のグリッドを含む、請求項3に記載の装置。
  5. 請求項2に記載の装置であって、
    前記少なくとも一つのメモリおよび前記コンピュータプログラムコードは、前記少なくとも一つのプロセッサと共に、前記装置に、少なくとも更に:
    前記複数のスケールセットの各々について、前記ヒストグラムの生成の後に、各空間ビンに対して,鉛直方向及び水平方向に隣接するビンのカウント値を加えることにより,前記ヒストグラムを引き延ばすことと;
    その後、孤立した領域を含む空間ビンを除去することと;
    を行わせるように構成され、ここで、前記空間ビンの関係付けは、前記引き延ばされたヒストグラムに対して前記除去することを行った後に行われる、装置。
  6. 前記引き延ばされたヒストグラムから、所定の閾値未満のカウント値しか有さない全ての空間ビンが除去される、請求項5に記載の装置。
  7. 請求項6に記載の装置であって、前記少なくとも一つのメモリ及び前記コンピュータプログラムコードは、前記少なくとも一つのプロセッサと共に、前記装置に:
    隣接ビンを関係付ける際またはテキストライン検出を行う際に、誤ったテキスト文字候補を取り除くべく、テキスト線幅を検査することと;
    文字のサイズを比較し、基本的な文字が同じようなサイズの隣接空間ビンについてのみ関係付けを行うことと;
    の少なくともいずれかを実行させるように構成される、装置。
  8. MSERまたは二値化の手法を用いて、複数値レベルから前記連結成分が抽出される、請求項1に記載の装置。
  9. デジタル画像を複数値レベルの画像に変換することと;
    少なくとも一つのプロセッサによって、連結成分に基づいて、前記複数値レベルの画像から、複数のスケールセットを形成すること、ただし前記スケールセットの各々は他とは異なるサイズの空間ビンを規定する、前記形成することと;
    前記複数のスケールセットの各々につき:
    個々の空間ビンについて、それぞれのスケールセットから抽出された連結成分のカウント値を生成すること、および
    前記カウント値に基づいて、隣接空間ビンが表現する連結成分を関係付けることと;
    前記異なる複数のスケールセットからの前記関係付けされた連結成分を合体することと;
    前記合体された連結成分に対してテキストライン検出を行うことと;
    を含む、方法。
  10. 前記複数のスケールセットの各々について、各空間ビンの連結成分のカウント値がヒストグラムを構成する、請求項9に記載の方法であって、
    前記複数のスケールの各々について、前記ヒストグラムを生成した後であって前記隣接する空間ビンを関係付ける前に、所定の値未満のカウント値しか有さない全ての空間ビンを除去することを更に含む、方法。
  11. 前記ヒストグラムの各々は他のヒストグラムとは異なるサイズのビンを規定する、請求項10に記載の方法。
  12. 前記ヒストグラムの各々は、ビンのサイズが同じであって互いに重なり合う2種類のグリッドを含む、請求項11に記載の装置。
  13. 前記複数のスケールセットの各々について、前記ヒストグラムの生成の後に、各空間ビンに対して,鉛直方向及び水平方向に隣接するビンのカウント値を加えることにより,前記ヒストグラムを引き延ばすことと;
    その後、孤立した領域を含む空間ビンを除去することと;
    を含み、ここで、前記空間ビンを関係付けることは、前記引き延ばされたヒストグラムに対して前記除去することを行った後に行われる、請求項10に記載の方法。
  14. 前記引き延ばされたヒストグラムから、所定の閾値未満のカウント値しか有さない全ての空間ビンが除去される、請求項13に記載の方法。
  15. 隣接ビンを関係付ける際またはテキストライン検出を行う際に、誤ったテキスト文字候補を取り除くべく、テキスト線幅を検査することと;
    文字のサイズを比較し、基本的な文字が同じようなサイズの隣接空間ビンについてのみ関係付けを行うことと;
    の少なくとも1つを更に含む、請求項14に記載の方法。
  16. MSERまたは二値化の手法を用いて、複数値レベルから前記連結成分が抽出される、請求項9に記載の方法。
  17. コンピュータ可読命令を含むコンピュータプログラムであって、前記コンピュータ可読命令は、装置の処理手段で実行されると、前記装置に動作を行わせ、前記動作は
    デジタル画像を複数値レベルの画像に変換することと;
    連結成分に基づいて、前記複数値レベルの画像から、複数のスケールセットを形成することであって、ここで前記スケールセットの各々は他とは異なるサイズの空間ビンを規定する、前記形成することと;
    前記複数のスケールセットの各々につき:
    個々の空間ビンについて、それぞれのスケールセットから抽出された連結成分のカウント値を生成すること、および
    前記カウント値に基づいて、隣接空間ビンが表現する連結成分を関係付けることと;
    前記異なる複数のスケールセットからの前記関係付けされた連結成分を合体することと;
    前記合体された連結成分に対してテキストライン検出を行うことと;
    を含む、コンピュータプログラム
  18. 前記動作は、前記複数のスケールの各々について、前記ヒストグラムを生成した後であって前記隣接する空間ビンを関係付ける前に、所定の値未満のカウント値しか有さない全ての空間ビンを除去することを含む、請求項17に記載のコンピュータプログラム
  19. 前記動作は、
    前記複数のスケールセットの各々について、前記ヒストグラムの生成の後に、各空間ビンに対して,鉛直方向及び水平方向に隣接するビンのカウント値を加えることにより,前記ヒストグラムを引き延ばすことと;
    その後、孤立した領域を含む空間ビンを除去することと;
    を更に含み、前記関係付けられた隣接空間ビンは、前記除去の後に、前記引き延ばされたヒストグラムから得られる、請求項18に記載のコンピュータプログラム
  20. 前記引き延ばされたヒストグラムから、所定の閾値未満のカウント値しか有さない全ての空間ビンが除去される、請求項19に記載のコンピュータプログラム
JP2014537674A 2011-11-21 2012-10-17 マルチレイヤ連結成分をヒストグラムと共に用いるテキスト検出 Expired - Fee Related JP5775225B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/301,103 2011-11-21
US13/301,103 US8611662B2 (en) 2011-11-21 2011-11-21 Text detection using multi-layer connected components with histograms
PCT/FI2012/050994 WO2013076358A1 (en) 2011-11-21 2012-10-17 Text detection using multi-layer connected components with histograms

Publications (2)

Publication Number Publication Date
JP2014531097A JP2014531097A (ja) 2014-11-20
JP5775225B2 true JP5775225B2 (ja) 2015-09-09

Family

ID=48427024

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014537674A Expired - Fee Related JP5775225B2 (ja) 2011-11-21 2012-10-17 マルチレイヤ連結成分をヒストグラムと共に用いるテキスト検出

Country Status (7)

Country Link
US (1) US8611662B2 (ja)
EP (1) EP2783328B1 (ja)
JP (1) JP5775225B2 (ja)
KR (1) KR101617681B1 (ja)
CN (1) CN103946866B (ja)
IN (1) IN2014CN04624A (ja)
WO (1) WO2013076358A1 (ja)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8731296B2 (en) * 2011-04-21 2014-05-20 Seiko Epson Corporation Contact text detection in scanned images
US9064191B2 (en) 2012-01-26 2015-06-23 Qualcomm Incorporated Lower modifier detection and extraction from devanagari text images to improve OCR performance
US9053361B2 (en) 2012-01-26 2015-06-09 Qualcomm Incorporated Identifying regions of text to merge in a natural image or video frame
US9076242B2 (en) 2012-07-19 2015-07-07 Qualcomm Incorporated Automatic correction of skew in natural images and video
US9014480B2 (en) 2012-07-19 2015-04-21 Qualcomm Incorporated Identifying a maximally stable extremal region (MSER) in an image by skipping comparison of pixels in the region
US9047540B2 (en) 2012-07-19 2015-06-02 Qualcomm Incorporated Trellis based word decoder with reverse pass
US9262699B2 (en) 2012-07-19 2016-02-16 Qualcomm Incorporated Method of handling complex variants of words through prefix-tree based decoding for Devanagiri OCR
US9141874B2 (en) 2012-07-19 2015-09-22 Qualcomm Incorporated Feature extraction and use with a probability density function (PDF) divergence metric
US9047528B1 (en) * 2013-02-19 2015-06-02 Amazon Technologies, Inc. Identifying characters in grid-based text
US9928572B1 (en) 2013-12-20 2018-03-27 Amazon Technologies, Inc. Label orientation
US9460357B2 (en) * 2014-01-08 2016-10-04 Qualcomm Incorporated Processing text images with shadows
US9858304B2 (en) * 2014-04-15 2018-01-02 Raytheon Company Computing cross-correlations for sparse data
US9183636B1 (en) * 2014-04-16 2015-11-10 I.R.I.S. Line segmentation method
CN104182750B (zh) * 2014-07-14 2017-08-01 上海交通大学 一种在自然场景图像中基于极值连通域的中文检测方法
WO2016014020A1 (en) 2014-07-21 2016-01-28 Hewlett-Packard Development Company, L.P. Radial histogram matching
US9235757B1 (en) * 2014-07-24 2016-01-12 Amazon Technologies, Inc. Fast text detection
CN104751147A (zh) * 2015-04-16 2015-07-01 成都汇智远景科技有限公司 一种图像识别方法
CN104766095A (zh) * 2015-04-16 2015-07-08 成都汇智远景科技有限公司 一种移动终端图像识别方法
US9471990B1 (en) * 2015-10-20 2016-10-18 Interra Systems, Inc. Systems and methods for detection of burnt-in text in a video
US10083353B2 (en) * 2016-10-28 2018-09-25 Intuit Inc. Identifying document forms using digital fingerprints
CN107688806B (zh) * 2017-08-21 2021-04-20 西北工业大学 一种基于仿射变换的自由场景文本检测方法
CN108985288B (zh) * 2018-07-17 2022-06-14 电子科技大学 一种基于TGMSERs的SAR图像溢油检测方法
CN110008950A (zh) * 2019-03-13 2019-07-12 南京大学 一种对形状鲁棒的自然场景中文本检测的方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6413687A (en) * 1987-07-07 1989-01-18 Nec Corp System for detecting character row
US5920655A (en) 1995-02-10 1999-07-06 Canon Kabushiki Kaisha Binarization image processing for multi-level image data
JP3868654B2 (ja) * 1998-03-27 2007-01-17 株式会社リコー 画像処理装置
JP4418726B2 (ja) * 2004-10-01 2010-02-24 日本電信電話株式会社 文字列探索装置、探索方法およびこの方法のプログラム
US7570816B2 (en) 2005-03-31 2009-08-04 Microsoft Corporation Systems and methods for detecting text
CN100565559C (zh) * 2007-03-14 2009-12-02 中国科学院自动化研究所 基于连通分量和支持向量机的图像文本定位方法和装置
CN101615252B (zh) * 2008-06-25 2012-07-04 中国科学院自动化研究所 一种自适应图像文本信息提取方法
US8189917B2 (en) 2008-09-25 2012-05-29 Sharp Laboratories Of America, Inc. Methods and systems for locating text in a digital image
CN102163284B (zh) * 2011-04-11 2013-02-27 西安电子科技大学 面向中文环境的复杂场景文本定位方法

Also Published As

Publication number Publication date
WO2013076358A1 (en) 2013-05-30
EP2783328B1 (en) 2018-08-22
EP2783328A1 (en) 2014-10-01
KR101617681B1 (ko) 2016-05-11
US8611662B2 (en) 2013-12-17
US20130129216A1 (en) 2013-05-23
CN103946866B (zh) 2018-06-01
IN2014CN04624A (ja) 2015-09-18
EP2783328A4 (en) 2016-09-28
CN103946866A (zh) 2014-07-23
JP2014531097A (ja) 2014-11-20
KR20140091762A (ko) 2014-07-22

Similar Documents

Publication Publication Date Title
JP5775225B2 (ja) マルチレイヤ連結成分をヒストグラムと共に用いるテキスト検出
CN110414507B (zh) 车牌识别方法、装置、计算机设备和存储介质
CN111985464B (zh) 面向法院判决文书的多尺度学习的文字识别方法及系统
US9053361B2 (en) Identifying regions of text to merge in a natural image or video frame
CN109918987B (zh) 一种视频字幕关键词识别方法及装置
US9171204B2 (en) Method of perspective correction for devanagari text
US9076056B2 (en) Text detection in natural images
WO2018233038A1 (zh) 基于深度学习的车牌识别方法、装置、设备及存储介质
CN109583345B (zh) 道路识别方法、装置、计算机装置及计算机可读存储介质
Sain et al. Multi-oriented text detection and verification in video frames and scene images
US9171224B2 (en) Method of improving contrast for text extraction and recognition applications
CN110852311A (zh) 一种三维人手关键点定位方法及装置
WO2019204577A1 (en) System and method for multimedia analytic processing and display
Tabassum et al. Text detection using MSER and stroke width transform
Yasmeen et al. Text detection and classification from low quality natural images
CN112686122A (zh) 人体及影子的检测方法、装置、电子设备、存储介质
Vidhyalakshmi et al. Text detection in natural images with hybrid stroke feature transform and high performance deep Convnet computing
Arai et al. Text extraction from TV commercial using blob extraction method
Satish et al. Edge assisted fast binarization scheme for improved vehicle license plate recognition
Nor et al. Image segmentation and text extraction: application to the extraction of textual information in scene images
CN113743413B (zh) 一种结合图像语义信息的视觉slam方法及系统
Liu Digits Recognition on Medical Device
Chugh et al. Character localization from natural images using nearest neighbours approach
Shabana et al. TEXT DETECTION AND RECOGNITION IN NATURAL IMAGES
JP6513311B2 (ja) 文字認識装置および文字認識方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140425

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150304

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150310

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150529

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150622

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150702

R150 Certificate of patent or registration of utility model

Ref document number: 5775225

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees