JP5775225B2

JP5775225B2 - マルチレイヤ連結成分をヒストグラムと共に用いるテキスト検出

Info

Publication number: JP5775225B2
Application number: JP2014537674A
Authority: JP
Inventors: シャン−シュアンツァイ; ヴァスデーヴパラメスワラン; ラデクグジェシュチャク
Original assignee: Nokia Oyj
Current assignee: Nokia Oyj
Priority date: 2011-11-21
Filing date: 2012-10-17
Publication date: 2015-09-09
Anticipated expiration: 2032-10-17
Also published as: WO2013076358A1; EP2783328B1; EP2783328A1; KR101617681B1; US8611662B2; US20130129216A1; CN103946866B; IN2014CN04624A; EP2783328A4; CN103946866A; JP2014531097A; KR20140091762A

Description

本発明の実施形態の非限定的な例は、一般的にはデジタルイメージングデバイスに及び関連するソフトウェアに関し、より具体的には、スマートフォンのカメラなどで撮影されたデジタルイメージから、テキストを検出し認識することに関する。

背景

テキスト認識技術は、コンピュータ・ビジョンやパターン認識の分野でしばしば用いられる。特に、視覚イメージをデジタルテキストに変換するアプリケーションにおいて、必要とされる。フラットベッド・スキャナを用いて紙のドキュメントをデジタルドキュメントに変換するOCR（光学式文字認識：Optical Character Recognition）システムは、画像をデジタルテキストに変換するために、この技術を使う。スマートフォン・デバイスにおける翻訳サービスのような、モバイルビジョン・アプリケーションもまた、ユーザが撮影した写真の中の外国語テキストを翻訳するために、この技術を使う。デジタルマップを作成する分野においては、この技術は、車載装置等から定期的に収集される画像から、デジタルコンテンツを作成するために使用されうる。そのような画像から、店頭のテキストや交通標識が特定され、ＰＯＩ（Point of Interest）情報を作成するために使用されうる。しかし、テキスト検出に関する現在のアプローチは、当初予想したような進歩を見せていない。

現在のところ、テキスト認識システムが最も成功を収めた分野は文書変換システムである。これは、しばしば９０％以上の正確性を有する。しかし、フラットベッド・スキャナを用いたテキスト認識システム以外では、それほど成功しているとは言えない。その理由の一つは、通常の景色においては、光の当たり具合や見え方の条件が一様でないことであり、それがテキスト認識の正確性を悪化させてしまっている。この問題を解決するためのアプローチの一つは、自然風景テキスト検出アルゴリズムを利用することである。このアルゴリズムは、通常、認識を試行する前の、テキストの場所特定のために用いられる。テキストの場所を特定することにより、光の条件が良好なものとなり、次のステージにおいてなされるテキスト認識やパターンマッチングが良好に行われうる。しかし、このアプローチも、当初予想したような進歩を見せていない。

非常に大まかに言えば、テキスト検出技術は、２つの異なるカテゴリに分けられることができる。一つは領域に基づくテキスト検出法であり、もう一つは連結成分（connected component）に基づくテキスト検出法である。領域に基づく方法では、デジタル画像に対してスライディング・ウィンドウ（sliding window）が適用されると共に、ウィンドウがテキストを含んでいるかどうかを分類するテストが行われる。例えば非特許文献１や非特許文献２を参照されたい。非特許文献１の手法では、離散コサイン変換空間における特徴が、領域を分類するために使用される。非特許文献２の手法では、intensity（明度）やgradient（階調）等の特徴を使用して、分類を行うためのAdaboostアルゴリズムをトレーニングする。

連結成分に基づくアプローチでは、テキストに関する解析の対象となるデジタル画像は、まず二値画像に変換される。その画像における連結成分が、文字の候補であると考えられる。これらの文字候補がペアにされ、関係付けられて、テキストラインを形成する。そして通常、テキストラインの幾何学的な性質が、偽陽性をふるい落とすために使用される。例えば非特許文献３〜５を参照されたい。また特許文献１も参照されたい。特許文献１は、非特許文献４の著者が発明者として示されており、非特許文献４に似た名称の発明が開示されている。

非特許文献４の著者であるEpshteinらの仕事は、Stroke Width Transform（SWT）に基づくテキスト検出スキームであると考えられる。特に、Epshteinらは、画像中のエッジを見つけるためにCannyのエッジ検出技術（非特許文献６参照）を使用し、その後、検出された個々のエッジの傾きの方向の光線を検出することにより、文字候補を構成する文字ストロークの両側の特定を、対応するエッジに基づいて試みる。非特許文献５の著者であるH. Chenらの技術は文字候補としてＭＳＥＲ（非特許文献７参照）を用いている。ＭＳＥＲの改善にCannyのエッジが用いられる。H. Chenらの技術はまた、ストローク幅を計算するための方法に基づいて、距離変換（distance transform）を使用する。最後に、非特許文献８においては、２値レベルの処理を拡張すべく、拡張されたＭＳＥＲ領域を使用することが開示されている。

本願発明者は、非特許文献８の著者であるLukas Neumannらの技術、すなわち、テキストが存在する場所を特定するために可能性のあるすべての領域を網羅的にサーチする技術は、時間がかかりすぎると考えている。

本願の技術分野において必要とされていることは、デジタルイメージング技術によりキャプチャされた風景中のテキストを認識することについての改善であり、特に、前述のような、（例えばスマートフォン等において）ＰＯＩ情報を収集したり、（例えば車載カメラにおいて）デジタルマップを作成したりするような、ダイナミックなアプリケーションに使用するために好適な技術の改善である。

US2009/0285482

Y. Zhang, H. Zhang, and A. K. Jain, "Automatic caption localization in compressed video," IEEE Trans. Pattern Anal. Mach. Intell., vol. 22, no. 4, pp. 385-392, 2000 X. Chen and A. L. Yuille, "A time-efficient cascade for real-time object detection: With applications for the visually impaired" in CVPR - Workshops, 2005, p. 28 A. Clavelli and D. Karatzas, "Text Segmentation in Colour Posters from the Spanish Civil War Era", Int. Conf. on Document Analysis and Recognition, 2009, pp. 181 - 185 B. Epshtein, E. Ofek, and Y. Wexler, "Detecting text in natural scenes with stroke width transform" in CVPR, 2010, pp. 2963 -2970 H. Chen, S. S. Tsai, G. Schroth, D. Chen, R. Grzeszczuk, B. Girod, "Robust text detection in natural images with edge-enhanced maximally stable extremal regions," in ICIP, 2011. Canny, J., "A Computational Approach To Edge Detection" IEEE Trans. Pattern Analysis and Machine Intelligence, 8(6):679-698, 1986 J. Matas, O. Chum, M. Urban, and T. Pajdla, "Robust wide baseline stereo from maximally stable extremal regions" in British Machine Vision Conference, 2002, vol. 1, pp. 384-393 Lukas Neumann, Jiri Matas, "Text localization in real-world images using efficiently pruned exhaustive search", Int. Conf. on Document Analysis and Retrieval, 2011

摘要

本発明の例示的実施形態を用いれば、前述の及び他の問題が解決され、更なる利益を得ることが可能となる。

本発明の第１の側面によれば、少なくとも一つのプロセッサと、コンピュータプログラムコードを含む少なくとも一つのメモリとを備える次のような装置が提供される。この第１の側面において、前記少なくとも一つのメモリおよび前記プログラムコードは、前記少なくとも一つのプロセッサと共に、前記装置に、少なくとも、デジタル画像を複数値レベルの画像に変換することと；連結成分に基づいて、前記複数値レベルの画像から、複数のスケールセットを形成すること、ただし前記スケールセットの各々は他とは異なるサイズの空間ビンを規定する、前記形成することと；複数のスケールセットの各々について、各空間ビンにつき、それぞれのスケールセットから抽出された連結成分のカウント値を生成し、各スケールセットについて、連結成分を表現している隣接空間ビンを関係付けることと；その後、異なるスケールセットからの連結成分を合体し、合体した連結成分に対して、テキストライン検出処理を行うことと；を行わせる。

本発明の第２の側面によれば、次のような方法が提供される。この方法は、デジタル画像を複数値レベルの画像に変換することと；少なくとも一つのプロセッサによって、連結成分に基づいて、前記複数値レベルの画像から、複数のスケールセットを形成すること、ただし前記スケールセットの各々は他とは異なるサイズの空間ビンを規定する、前記形成することと；前記複数のスケールセットの各々につき、個々の空間ビンについて、それぞれのスケールセットから抽出された連結成分のカウント値を生成することと、連結成分を表現している隣接空間ビンを関係付けることと；その後、異なるスケールセットからの連結成分を合体することと；合体した連結成分に対して、テキストライン検出処理を行うことと；を含む。

本発明の第３の側面によれば、少なくとも一つのプロセッサにより実行可能なプログラム命令を触知可能に格納した、次のようなコンピュータ可読メモリが提供される。このプログラム命令は、デジタル画像を複数値レベルの画像に変換するためのコードと；連結成分に基づいて、前記複数値レベルの画像から、複数のスケールセットを形成するためのコードであって、ここで前記スケールセットの各々は他とは異なるサイズの空間ビンを規定する、前記コードと；前記複数のスケールセットの各々につき、個々の空間ビンについて、それぞれのスケールセットから抽出された連結成分のカウント値を生成するコードと、連結成分を表現している隣接空間ビンを関係付けるコードと；を含む。前記プログラムはさらに、前記異なるスケールセットの前記連結成分を合体するコードと；合体した連結成分に対してテキストライン検出を行うコードと；を含む。

撮影されたデジタル画像から得られたマルチレベル画像を描いたものである。第２列に示されるような、それぞれ異なる複数の空間ビン及びスケールにマルチレベル画像の連結成分が通されて、複数の異なるスケールからなるセットが作られ、第３列で抽出された領域が、異なるスケールのために用いられる。デジタル画像から抽出した様々な大きさの領域（例えば図１で抽出された領域）から得られた特徴カウントのヒストグラムを示したものである。図２のヒストグラムに水平方向フィルタリングを施したものを描いたものである。図３Ａから、三つ以上の連結成分を有するヒストグラム・ビンをマーキングしたものを描いたものである。図３Ｂでマークされたビンに保持された連結成分を水平方向及び鉛直方向に関係付けたものを描いたものである。図１における領域Ａに示されるテキストを認識することについて、単純な二値化スキーム（左）と、本明細書の教示に従うマルチレイヤスキーム（右）とを比較している。本明細書の教示に従って処理した後の、図１のデジタル画像の全体を描いたものであるが、左の図はヒストグラム・フィルタリングを行う前のものであり、右の図はヒストグラム・フィルタリングを行った後のものである。本明細書の教示のある具現化形態に従うホスト装置であって、本明細書で説明されたテキスト検出を行うためのプログラムを有するホスト装置の具体的なブロック図を示している。このプログラムはコンピュータ可読メモリに格納されている。本明細書の教示の例示的実施形態に従う方法の実行の様子、またはコンピュータ可読メモリに格納されたコンピュータプログラム命令の実行の結果を描いた論理フロー図である。

詳細説明

デジタル的に撮影された風景画像からテキストを検出する既存の多くの取り組みが、二値化の手法を利用している。これらの手法において、二値化は、風景画像を二値レベルの画像に変換するために適用されるが、これは例えば、全体的な二値化（global binarization）や適応的な二値化（adaptive binarization）、ＭＳＥＲ（maximally stable extremal regions）等を利用して行われる。ＭＳＥＲについては、例えば非特許文献７を参照のこと。二値レベル画像の連結成分（connected component）を、テキスト文字候補として考えることや、その後の処理におけるテキストライン形成のための基本的な構成要素として用いることも行われてきた。

本願発明者は、文字候補の生成を最も基本的な段階であると考えている。すなわち、上述の二値化処理の性能は、極めて重要であると考えている。しかし、画像を二値化形態に変換するにおいては、風景イメージにおいて、テキストが、背景に対して良好なコントラストを有していることが仮定されている。この仮定は全ての自然風景イメージに対して有効であるというわけではない。例えば、カメラで撮影された写真を考えてみると、撮影されたシーンにおいて、テキストが存在する部分にはピントが合っていないかもしれず、動きによるぶれが存在するかもしれず、テキストが存在する領域の光の当たり具合も一様ではないかもしれない。

これらの問題にうまく対処するために、本明細書は開示する技術思想においては、テキスト検出のために、複数値レベルのアプローチを用いる。これは、はじめに［摘要］の項に紹介されたものであり、続いて［詳細説明］の項で図１−５を参照しながら説明される。［詳細説明］の項では、具体的な例を用いて様々な処理段階を詳しく説明する。本明細書の教示によれば、風景画像は、二値レベルの画像に変換されるのではなく、複数値レベルの画像に変換される。複数値レベルの画像では、二値レベルの画像に比べてディテールがより多く保存されている。二値レベルの画像において、基本的な構成要素として用いられるものは、二値レベル画像中の連結成分である。しかし、本明細書で詳述される複数値レベルのアプローチでは、互いに異なる複数のスケールのセットの連結成分が利用される。これは、異なる大きさの領域が重なり合うことをもたらし、本明細書の教示は、複数次元のヒストグラムを利用して処理を行う。基本的に、ヒストグラムは、マルチレイヤ連結成分を整理・体系化するために用いられる。後に図５において示されるように、異なるサイズの重なり合う領域を用いるこの体系立ったアプローチは、優れたテキスト検出アルゴリズムをもたらす。

互いに重なり合う連結成分は、複数値レベルの画像の、互いに異なる複数のスケールのセットから生成される。これら複数の連結成分は、複数次元のヒストグラムを用いて整理される。複数値レベルの画像の連結成分の各々は、その空間的及び幾何学的サイズに基づき、ヒストグラムのビンのいずれかに含められる。このとき、実施形態によっては、更なる幾何学的特性も考慮される。複数値レベルの画像は、例えば、適応的二値化やＭＳＥＲによる抽出を用いて生成される。あるサイズ範囲の連結成分は、あるスケールセットのビンの中にカウントされる。別のサイズ範囲の連結成分は、別のスケールセットのビンの中にカウントされる。このようにして、複数値レベルの画像が、連結成分を用いて複数のスケールセットを形成するために利用される。これは、アルファベットや数値の文字候補となる。図３Ｂに描かれるように、一定以上の数の連結成分が存在するヒストグラム・ビンの中の連結成分が、文字候補であると扱われる。定められたカットオフ数より少ない連結成分しか存在しないヒストグラム・ビンは、テキストとして考慮されるものから除外される。図３Ａに見られるように、実施形態によっては、ヒストグラムは、鉛直方向又は水平方向に引き延ばされる。ヒストグラムを空間的に重ねることは、境界効果を減少させるために行われる。同じビンの、重なった連結成分は、重なり合いが一重であれば、互いに関係付けられる。そして、図３Ｃに描かれるように、同じヒストグラム・ビンの中の文字候補はペアを組むように連結され、また、空間的に隣接するヒストグラム・ビンも連結される。そして、ペアを組むように連結された文字候補のクラスターからテキストラインが形成される。

既存のテキスト認識技術において用いられてきた単純な二値化処理と比較すると、本明細書の教示は、画像の連結成分であってマルチレイヤ連結成分を、ヒストグラムを用いて、テキスト検出のための複数のレベルへと分離する。さらに、これら既存の技術とは異なり、重なり合ったヒストグラムも用いられ、これは境界効果を軽減するために用いされうる。ヒストグラムを用いて、ペアを組むように連結し関係付けることも、既存のアプローチには存在しない特徴である。

これから、図１−５を用いて、上記の技術のより具体的な例を紹介する。図１の一番上の列には風景画像が示されている。この画像は複数値のレベルの画像に変換されている。図１ではＭＳＥＲを用いて変換が行われているが、適応的二値化法（adaptive binarization）やその他の抽出技術を使っても、同様の結果を得ることができる。図２の二番目の列は、空間的グリッドで仕切られたビンの位置を示している。第２列の各ブロック中には、濃淡の異なるグリッド線が描かれており、各ブロックにおいて、２つの異なる組のグリッドが設けられていることが示されている。これは、画像中の各点または各画素は、各ブロックに対して、互いに重なり合う２つの異なるビンに含まれることを意味している。この技術は、ブロック毎に３つまたはそれ以上の組のグリッドを設けるような形態に容易に拡張できる。（このとき各ブロックに属するグリッドは各々同じ大きさを有し、また各々他のグリッドに重なり合っている。）またこの技術は、ブロック毎のグリッドの組が１つしかないような形態にも変形できる。（この場合は、あるグリッドが他のグリッドに重なることがない。各グリッドの大きさは互いに等しい。）いずれにせよ、等しいサイズを有するグリッドの集まりが、１つのレベルセットを構成すると考えられることができる。なお、図１でビンの位置を示す列において、各ブロックは、それぞれ異なるサイズのグリッドを有している。従って、これらのブロックは、各々、ＭＳＥＲ（又は適応的二値化等の）抽出法における、異なるスケールセット（scale set）を表している。図１には、全部で５つのスケールセットが描かれている。ビンの位置を示す、この第２列は、図２のヒストグラムがどのように形成されるのかの概念を読者に理解してもらうためにも提示されている。

図１の一番下の列は、一番上の画像のマルチレベル抽出（multi-level extraction）の結果を示したものである。各ブロックはそれぞれ１つのレベルを表している。また各ブロックは、その真上に描かれた第２列のブロックのグリッド線によって、概念的に分割されている。従って、最も左に位置する抽出領域は、最も小さなサイズのビン（最も小さなスケールセット）で分割されている。例えば、各ビンは１０−３０個の画素を含む。最も右に位置する抽出結果は、最も大きなサイズのビン（最も大きなスケールセット）で分割されている。例えば、各ビンは４２−１２６個の画素を含む。これをマルチレイヤ抽出（multi-layer extraction）という。サイズの異なる各ビンは異なる抽出レベルを表す。各ビンには連結成分（connected component）が位置する。図１の左端の領域は、画像全体の抽出結果を描いていないように見えるが、これは図で表すことの限界のためである。実際には画像全体が抽出されており、複数のレベルまたはスケールについて、それぞれ異なるサイズのビンに従って、抽出が行われる。これは、各ブロックにおいて、同じサイズを有するビン同士が重なり合う（図１に描かれるように、スケール毎に２つ以上の重なり合うグリッドが存在する場合）だけでなく、他のブロックにおける、異なるサイズを有するビンとも重なり合うことを意味している。これは元の画像における同じ特定の画素が、重なり合う複数のビンの中に表現されうるからである。

これらのビンが、ヒストグラムを生成するために使用される。連結成分（connected component）は、スケールセットに基づいて、複数値レベル画像（multi-level image ）から抽出される。そして上述のように、図１の一番下の列の各ブロックは、一つのスケールセットを表す。図１の一番左に描かれる最も小さなスケールセットは、比較的小さなサイズのフォントを有する文字候補を同定する可能性がある。図１の一番右に描かれる、最も大きなスケールセットは、比較的大きなサイズのフォントを有する文字候補を同定する可能性がある。ＭＳＥＲにおいては、各スケールセットは、異なるＭＳＥＲ検出領域に対応する。

図１の一番下の列に描かれた、様々なスケールセットによる抽出結果の各々は、一つのヒストグラムを生成する。そして、抽出されたビンに位置する成分（component）がカウントされ、そのカウント数が、対応するヒストグラムにおける同じビンに配置される。各レベルにおいて、同サイズのビンが重なり合っていることにより、各成分は、ソフトウェアによって修正されない限り、２度・３度とカウントされるであろう。（いくつカウントされるかは、各レベルにおいて重なり合うグリッドがいくつ設けられているかによる。）しかし、抽出の全てのスケールレベルにおいて、重なり合う同サイズグリッドの種類の数が等しい限り、全ての画素が同様に２度・３度とカウントされるため、複数回カウントされることは、たとえ修正されなくとも、最終的な結果に影響を及ぼさない。しかし、異なる抽出セットにおいては異なる数の同サイズグリッドが用いられる場合は、後の処理で重なり合う異サイズのビンを関係付ける際に、ヒストグラムカウント値に対して何らかの規格化が必要になるであろう。

ＭＳＥＲは、テキスト検出において非常に有用であることが示されてきた。画像において、テキスト文字は、多くの場合、一様な色を有している。つまり、文字を構成する線上における色の変化は比較的少なく、文字の境界において大きな変化を示す。画像のこのような条件が、ＭＳＥＲが求める安定的な結果に深く関わっている。そして、ＭＳＥＲは、テキスト文字の候補として扱われることができる。ボケやノイズがあると、境界が明確でなくなる。そこで、多くの領域が検出され、実際は存在する文字が認識されないということが少なくなるようにするためには、ＭＳＥＲ検出には、緩やかな閾値が好ましいと考えられている。緩やかな閾値を用いると、ＭＳＥＲの数が増加し、計算の複雑性が増すことになるが、これは、本明細書で詳述されるヒストグラム・フィルタリングによる高速かつ効率的な処理により、埋め合わせることができる。

図２はヒストグラムを描いている。この実施形態において、ヒストグラムは、スケールセット毎に、連結成分（connected component）のサイズ、ｘ座標、ｙ座標という次元（特徴）を有している。別の実施形態では、他の幾何学的成分を用いることもできる。例えば、デカルトのｘｙ座標系の代わりに球座標系を用いることもできる。隣接する空間ビンは、ｘ，ｙの単位値ずつずれている。そして、各ヒストグラム／スケールセットにおけるこれら隣接するビンによる連結成分が、以下詳述されるように関係付けられる。なお、本明細書に表示される事項をソフトウェアにより実装する場合、図２に描かれるような、目に見えるヒストグラムを生成する必要はない。ビンや、各ビンに対応するカウント値が、ソフトウェアによる実装においてデジタルビットとして表現されれば十分である。図示されているものを明確にするために述べると、図２のヒストグラムは、図１に描かれた抽出レベルから生成されたものと同じではない。重要なことは、異なるヒストグラムには、異なる空間グリッド（すなわち異なるサイズのビン）が存在するということである。ビンごとに連結成分のカウント値を有するこれらの三次元ヒストグラムは、図１に例示された、マルチレベル抽出法から形成されたものである。これらのヒストグラムを作成する手法の一つは、連結成分が表現されるビンをカウントするために、ビンの中心と、ビン／境界ボックスのサイズを使うことである。図２のヒストグラムは、境界効果を和らげるために、空間的にオーバーラップさせられている。ヒストグラム中の濃淡は、ビンの中の連結成分のカウント数又は存在確率を表す。

図２の５つのヒストグラムは各々異なるスケールレベルに対応しており、それぞれ空間的なフィルタリングが施される。図３Ａに描かれるように、上述の図２のヒストグラムは水平方向に引き延ばされている。すなわち、各ビンについて、水平方向に隣接するビンのカウント値が加えられている。同じことが、鉛直方向にも行われる。この処理は、特に他との繋がりのない孤立した領域を除去することから、文字候補の特定に役立つ。また前述のように、比較的緩い境界閾値を用いるために、多くの数のＭＳＥＲが生成されるが、上記の処理は、ＭＳＥＲの数を減らすために、計算負荷の減少にも非常に役立つ。

図３Ａに示されるような水平方向のフィルタリングと、鉛直方向に施される同様のフィルタリング等の結果が、方向性を有するヒストグラム（directional histogram）であると考えることができるのであれば、処理は次に進み、このヒストグラムから、所定の（一定の）閾値以下のカウント値しか有さないビンを処理から除外する（図３Ｂ参照）。この閾値は、例えば、全ての単語が最低三つの文字を含むと仮定して、連結成分３つとしてもよい。これらの領域に含まれるＭＳＥＲのみが、テキスト文字の候補として保持される。ある実施形態に従い実装されるソフトウェアは、このステップについて、各レベルのヒストグラムで残された連結成分のインデックスをリストにして残すように構成されてもよい。このリストを用いて、他の連結成分一つだけと重なっている連結成分は、その連結成分と合体させられる。互いに他の複数の連結成分と重なっている連結成分が存在する場合、最も大きな領域は除去される。図５は、このフィルタリングの結果を示している。左側がフィルタリングを行う前のものであり、右側がフィルタリングを行った後のものである。テキスト検出アルゴリズムの上記における処理に起因するノイズが、効果的に除去されていることが判る。読者が容易に比較できるように、図１に示した領域Ａ及びＢが、図５においても示されている。

最後に、図３Ｃに対応する処理において、同じヒストグラム・ビンに含まれる連結成分や、隣接する同サイズのビンに含まれる連結成分が関係付けられる。図３Ｃは、水平方向における関係付けの様子を、ある色（グレースケールにおけるある濃淡レベル）によって表し、縦方向における関係付けの様子を別の色（グレースケールにおける別の濃淡レベル）によって表している。

そして、様々なスケールセットにおいてそれぞれ関係付けられた複数の連結成分が合体させられる。この処理においては、小さなスケールセットから始めて大きなスケールセットへと処理を進めていくことが便利である。一連のセットの各々について、次の大きなヒストグラムからの連結したＭＳＥＲの組を加えていくように処理を進めていくことが便利である。新たに加えたＭＳＥＲ領域が、当該スケールセットにおいて、他のＭＳＥＲ領域と空間的に重なり合っているのであれば、それは元のものと合体させられ、その合体を反映させるべく更新される。新たに加えたＭＳＥＲ領域が、当該スケールセットにおいて、他の２つまたはそれ以上のＭＳＥＲ領域と空間的に重なり合っているのであれば、その領域は合体させられない。

その後、関係付けられた連結成分に対してテキストライン検出が実行される。テキストは通常、直線的な形状や若干カーブした形状に現れることから、テキストライン検出は、テキスト検出処理において重要な段階である。テキスト線の生成のために、文字候補を組み合わせたグループにおける、線幅（stroke width）と文字高（character height）とを比較するルールが用いられる。例えば、線幅のメジアンに対する最大比が１．５であるとか、（上付き・下付き文字を考慮に入れて）文字高のメジアンに対して最大比が２．０であるとかなどとしてもよい。

図１の領域Bからの結果が図４に示されている。左側、単純な二値化処理による結果を示し、右側は、上述のマルチレベルヒストグラム処理による結果を示している。注意すべきは、テキストワード"BAND"について、単純な二値化処理によっては初めの三つの文字"BAN"をうまく分離できていないが、本明細書の教示を用いると、ずっとよく分離することができている。本明細書の教示は、異なる領域が結合することについての課題にうまく対処している。また、注意すべきは、図４の左側に示された、単純な二値化技術によっても、テキストはなお認識可能であるものの、図４に示された二つの結果の間の相違は、十分顕著なものであることである。他の画像において、単純な二値化技術によってはテキストと認識できないような場合であっても、本明細書の教示に従うアルゴリズムによれば、認識されることが可能な場合もある。

更なる性能向上のために、上述の処理に追加の改良を加えることもできる。例えば、誤った文字候補を除去するために、線幅テスト（stroke width test）を行ってもよい。また、組み合わせるような関係付け（pairwise linking）を行う前に、文字候補のサイズを比較したり、（例えばCanny のエッジ等の技術を用いて）候補文字のエッジを強調したりしてもよい。

本明細書の教示の例示的実施形態は、従来技術に比べて次のような技術的効果を提供する。本明細書の教示による技術は、複数値レベルの画像を処理することができ、既知の技術に比べてより多くの情報を保持することができる。また、複数次元のアプローチは、隣接する似たような連結成分を保存することができ、ノイズとなるような他の連結成分を除去することができる（図５参照）。さらに、上述のように、成分の連結及び関係付けは、それを進めるためにヒストグラムを用いる場合に、より簡単な処理となる。

本明細書により教示される事項の実施形態は、ナビゲーションマッピングやＰＯＩサービスにおいて利用されると有利である。本明細書により教示される事項の実施形態は、ユーザのスマートフォンからＰＯＩ情報を生成したり、車載デジタルマッピングプラットフォームからＰＯＩ情報を生成したりするために利用することができる。これらのＰＯＩ情報は、デジタルマップやＰＯＩと共に表示されることができるだろう。例えば、ユーザは、図１のイメージを、そのスマートフォンを用いてキャプチャし、サービスプロバイダのサーバへアップロードしてもよい。そのサーバは、上述のマルチレイヤ抽出及びテキスト認識を行って、図４に描かれたようなバンド名や講演時間を抽出し、サービスプロバイダの顧客が、このバンドが演奏している場所の近くの住所やホテルを検索したり、このバンド名を検索したりする際に、そのバンド名や講演時間を提示してもよい。

本発明の実施形態が実装されうるホストデバイスには非常に様々なものが含まれる。そのようなホストデバイスは、例えば携帯端末やスマートフォン、サーバ、コンピュータ装置などであることができ、写真撮影装置を有しているものでも有していないものであってもよい。例えば、上記の例のサーバは自身でデジタルカメラを有していないだろう。図６のホストデバイスを参照されたい。このホストデバイスは、一般的に表されたものであり、何らかの制限を加えるものではない。このホストデバイスは、コンピュータ又はデータプロセッサ（ＤＰ）等の一つ又は複数のコントローラ１０Ａ，コンピュータ可読記憶媒体１０Ｂ，出力部１０Ｆを有している。記録媒体１０Ｂは、コンピュータ命令によるプログラム１０Ｃや処理又は解析の対象となるデジタル画像１０Ｅを格納している。出力部１０Ｆは、別のサーバ等の他のデバイスに、マルチレベル抽出画像処理の結果を、様々な形態で提供する。

プログラム１０Ｃの少なくともいずれかは、関連するＤＰ１０Ａに実行される時に、装置１０が、上に例示的に詳細に説明された、本発明の例示的実施形態に従った処理を行うことを可能にするプログラム命令を含んでいる。そのようなプログラムの一つは、ブロック１０Ｄで示された、マルチレベル抽出及びヒストグラム生成アルゴリズムであり、メモリ１０Ｂに格納される。本発明の例示的実施形態は、従って、少なくとも部分的には、ユーザ端末（ＵＥ）１０のＤＰ１０Ａによって実行可能なコンピュータソフトウェアにより実装されることができ、また、ソフトウェア及びハードウェア（及びファームウェア）の組み合わせにより実装されることができる。

典型的なホストデバイスは、移動端末やスマートフォンが有するような、他の電子機器との無線通信機能を有する必要はない。

コンピュータ可読メモリは、ローカルな技術環境に適したあらゆるタイプのものであってよい。例えば、半導体ベースのメモリデバイス，フラッシュメモリ，磁気メモリデバイス・システム，光学式メモリデバイス・システム，固定式・移動式メモリ等の様々な適合するデータ格納技術を用いて実装されてもよい。ＤＰ１０Ａは、ローカルな技術環境に適したあらゆるタイプのものであってよく、非限定的な例として、一つ以上の汎用コンピュータ，特定用途向けコンピュータ，ＡＳＩＣ（application specific integrated circuits），ＲＯＩＣ（ead-out integrated circuits），マイクロプロセッサ，デジタル信号プロセッサ（DSP），マルチコアプロセッサ・アーキテクチャに基づくプロセッサを含んでもよい。

図７は、本明細書の例示的実施形態に従う方法の実行の様子、またはコンピュータプログラム命令の実行の結果を描いた論理フロー図である。これらの例示的実施形態において、ブロック７０２は、デジタル画像を複数値レベルの画像に変換し、複数値レベルの画像の連結成分から複数のスケールセットを形成する、最初のステップを与える。ここでは、空間セットの各々が、異なるサイズの空間ビンを定義する。次に、ブロック７０４は、スケールセット毎の処理になる。つまり、複数のスケールセットの各々について、各空間ビンにつき、それぞれのレベルから抽出された連結成分のカウント値が求められる。また、各スケールセットについて、連結成分を表現している隣接空間ビンが関係付けられる。次に、ブロック７０５においては、異なるスケールセットからの連結成分が合体させられ、合体された連結成分に対して、テキストライン検出処理が行われる。

図７の残りの部分は、さらに具体的な様々な実施形態がまとめられている。ブロック７０６には、複数のスケールセットの各々について、各空間ビンの要素のカウント値がヒストグラムを形成することが述べられている。また、複数のスケールセットの各々について、ヒストグラムを生成した後であって隣接する空間ビンを関係付ける前に、所定の値より少ないカウント値しか有さない全ての空間ビンが処理から除外されることも述べられている。ブロック７０８には、上記の例の二つの具体的特徴が示されている。各ヒストグラムは、他のヒストグラムとは異なるサイズのビンを定めていることと、各ヒストグラムが、同じサイズを有し互いに重なり合う少なくとも２種類のビンを有することとが示されている。

ブロック７１０には、複数のスケールセットの各々について、ヒストグラムを生成した後に、ヒストグラムが引き延ばされることが記載されている。これは、各空間ビンのカウント値に、水平方向を及び鉛直方向に隣接する空間ビンのカウント値を加えることによって行われる。またブロック７１０には、孤立した領域からなる空間ビンは除去されることも記載されている。この場合、ブロック７０４において記述される空間ビンの関係付けは、引き延ばされたヒストグラムに対して、孤立したビンの除去の後に、行われる。ブロック７１２には、所定の閾値未満のカウント値しか有さない全ての空間ビンが除去されるブロック７０６が、ブロック７１０に記述される、引き延ばされたヒストグラムに対して行われることが述べられている。

上に述べたが図７にはまとめられていないこととして、隣接ビンを関係付けるときやテキスト検出を行う際に、テキストの線幅を検査して、誤ったテキスト文字候補を除去することや、文字のサイズを比較して基本的な文字のサイズが似たような場合にのみ空間ビンを関係付けることにより、性能が向上しうることがある。上述の例においては、ＭＳＥＲ（Maximally Stable Extremal Region）を用いて複数値レベルの各々から成分を抽出したが、二値化法（適応的二値化法を含む）も、同様の目的に使用することができる。

図７に示す種々のブロックや、上に説明した詳細な実装例は、方法ステップ、コンピュータプログラムコードの処理から生じる動作、関連する機能を実行するように構成される論理回路要素を複数繋げたものの何れか、または全てと見なされてもよい。

一般に、様々な例示的実施形態がハードウェアまたは特定用途向け回路、ソフトウェア、ロジック、またはそれらの組み合わせで実装されうる。例えば、ある場合ではハードウェアで実装されてもよく、一方別の場合では、コントローラやマイクロプロセッサ等のコンピュータデバイスによって実行されるファームウェアやソフトウェアで実装されてもよい。ただし、本発明はこれらに限定されるものではない。本発明の例示的実施形態の種々の側面は、ブロック図、フローチャート、または他の図的記述を使用して記述ないし示され得る。これらのブロック、装置、システム、技術、またはここで記述される方法は、非限定的な例として、ハードウェア、ソフトウェア、ファームウェア、特定用途向け回路やロジック、汎用ハードウェア、コントローラや他のコンピュータデバイス、またはそれらの組み合わせで実装されてもよいと理解されるべきである。

上述した本発明の例示的実施形態への種々の修正や変更は、添付図面と併せて上の説明を考慮すれば、本願に関連する技術分野の当業者には明らかになるだろう。そして、如何なる全ての修正変更も本発明の非限定かつ例示的実施形態の範囲内である。

さらに、本発明の様々な非限定的及び例示的な実施形態は、その他の特徴の対応する使用なしに、利益をもたらすために使用されうる。従って、上述の説明は、本発明の原理や教授、例示的実施形態の説明に過ぎないと考えるべきであり、これらを限定するものであると考えてはならない。

Claims

少なくとも一つのプロセッサと、コンピュータプログラムコードを含む少なくとも一つのメモリとを備える装置であって、前記少なくとも一つのメモリおよび前記プログラムコードが、前記少なくとも一つのプロセッサと共に、前記装置に少なくとも：
デジタル画像を複数値レベルの画像に変換することと；
連結成分に基づいて、前記複数値レベルの画像から、複数のスケールセットを形成すること、ただし前記スケールセットの各々は他とは異なるサイズの空間ビンを規定する、前記形成することと；
前記複数のスケールセットの各々につき：
個々の空間ビンについて、それぞれのスケールセットから抽出された連結成分のカウント値を生成すること、および
前記カウント値に基づいて、隣接空間ビンが表現する連結成分を関係付けることと；
前記異なる複数のスケールセットからの前記関係付けされた連結成分を合体することと；
前記合体された連結成分に対してテキストライン検出を行うことと；
を行わせるように構成される、装置。
前記複数のスケールセットの各々について、各空間ビンの成分のカウント値がヒストグラムを構成し、
前記少なくとも一つのメモリおよび前記コンピュータプログラムコードは、前記少なくとも一つのプロセッサと共に、前記装置に、少なくとも更に、前記複数のスケールの各々について、前記ヒストグラムを生成した後であって前記隣接する空間ビンを関係付ける前に、所定の値未満のカウント値しか有さない全ての空間ビンを除去することを実行させるように構成される、
請求項１に記載の装置。
前記ヒストグラムの各々は他のヒストグラムとは異なるサイズのビンを規定する、請求項２に記載の装置。
前記ヒストグラムの各々は、ビンのサイズが同じであって互いに重なり合う２種類のグリッドを含む、請求項３に記載の装置。
請求項２に記載の装置であって、
前記少なくとも一つのメモリおよび前記コンピュータプログラムコードは、前記少なくとも一つのプロセッサと共に、前記装置に、少なくとも更に：
前記複数のスケールセットの各々について、前記ヒストグラムの生成の後に、各空間ビンに対して，鉛直方向及び水平方向に隣接するビンのカウント値を加えることにより，前記ヒストグラムを引き延ばすことと；
その後、孤立した領域を含む空間ビンを除去することと；
を行わせるように構成され、ここで、前記空間ビンの関係付けは、前記引き延ばされたヒストグラムに対して前記除去することを行った後に行われる、装置。
前記引き延ばされたヒストグラムから、所定の閾値未満のカウント値しか有さない全ての空間ビンが除去される、請求項５に記載の装置。
請求項６に記載の装置であって、前記少なくとも一つのメモリ及び前記コンピュータプログラムコードは、前記少なくとも一つのプロセッサと共に、前記装置に：
隣接ビンを関係付ける際またはテキストライン検出を行う際に、誤ったテキスト文字候補を取り除くべく、テキスト線幅を検査することと；
文字のサイズを比較し、基本的な文字が同じようなサイズの隣接空間ビンについてのみ関係付けを行うことと；
の少なくともいずれかを実行させるように構成される、装置。
ＭＳＥＲまたは二値化の手法を用いて、複数値レベルから前記連結成分が抽出される、請求項１に記載の装置。
デジタル画像を複数値レベルの画像に変換することと；
少なくとも一つのプロセッサによって、連結成分に基づいて、前記複数値レベルの画像から、複数のスケールセットを形成すること、ただし前記スケールセットの各々は他とは異なるサイズの空間ビンを規定する、前記形成することと；
前記複数のスケールセットの各々につき：
個々の空間ビンについて、それぞれのスケールセットから抽出された連結成分のカウント値を生成すること、および
前記カウント値に基づいて、隣接空間ビンが表現する連結成分を関係付けることと；
前記異なる複数のスケールセットからの前記関係付けされた連結成分を合体することと；
前記合体された連結成分に対してテキストライン検出を行うことと；
を含む、方法。
前記複数のスケールセットの各々について、各空間ビンの連結成分のカウント値がヒストグラムを構成する、請求項９に記載の方法であって、
前記複数のスケールの各々について、前記ヒストグラムを生成した後であって前記隣接する空間ビンを関係付ける前に、所定の値未満のカウント値しか有さない全ての空間ビンを除去することを更に含む、方法。
前記ヒストグラムの各々は他のヒストグラムとは異なるサイズのビンを規定する、請求項１０に記載の方法。
前記ヒストグラムの各々は、ビンのサイズが同じであって互いに重なり合う２種類のグリッドを含む、請求項１１に記載の装置。
前記複数のスケールセットの各々について、前記ヒストグラムの生成の後に、各空間ビンに対して，鉛直方向及び水平方向に隣接するビンのカウント値を加えることにより，前記ヒストグラムを引き延ばすことと；
その後、孤立した領域を含む空間ビンを除去することと；
を含み、ここで、前記空間ビンを関係付けることは、前記引き延ばされたヒストグラムに対して前記除去することを行った後に行われる、請求項１０に記載の方法。
前記引き延ばされたヒストグラムから、所定の閾値未満のカウント値しか有さない全ての空間ビンが除去される、請求項１３に記載の方法。
隣接ビンを関係付ける際またはテキストライン検出を行う際に、誤ったテキスト文字候補を取り除くべく、テキスト線幅を検査することと；
文字のサイズを比較し、基本的な文字が同じようなサイズの隣接空間ビンについてのみ関係付けを行うことと；
の少なくとも１つを更に含む、請求項１４に記載の方法。
ＭＳＥＲまたは二値化の手法を用いて、複数値レベルから前記連結成分が抽出される、請求項９に記載の方法。
コンピュータ可読命令を含むコンピュータプログラムであって、前記コンピュータ可読命令は、装置の処理手段で実行されると、前記装置に動作を行わせ、前記動作は：
デジタル画像を複数値レベルの画像に変換することと；
連結成分に基づいて、前記複数値レベルの画像から、複数のスケールセットを形成することであって、ここで前記スケールセットの各々は他とは異なるサイズの空間ビンを規定する、前記形成することと；
前記複数のスケールセットの各々につき：
個々の空間ビンについて、それぞれのスケールセットから抽出された連結成分のカウント値を生成すること、および
前記カウント値に基づいて、隣接空間ビンが表現する連結成分を関係付けることと；
前記異なる複数のスケールセットからの前記関係付けされた連結成分を合体することと；
前記合体された連結成分に対してテキストライン検出を行うことと；
を含む、コンピュータプログラム。
前記動作は、前記複数のスケールの各々について、前記ヒストグラムを生成した後であって前記隣接する空間ビンを関係付ける前に、所定の値未満のカウント値しか有さない全ての空間ビンを除去することを含む、請求項１７に記載のコンピュータプログラム。
前記動作は、
前記複数のスケールセットの各々について、前記ヒストグラムの生成の後に、各空間ビンに対して，鉛直方向及び水平方向に隣接するビンのカウント値を加えることにより，前記ヒストグラムを引き延ばすことと；
その後、孤立した領域を含む空間ビンを除去することと；
を更に含み、前記関係付けられた隣接空間ビンは、前記除去の後に、前記引き延ばされたヒストグラムから得られる、請求項１８に記載のコンピュータプログラム。
前記引き延ばされたヒストグラムから、所定の閾値未満のカウント値しか有さない全ての空間ビンが除去される、請求項１９に記載のコンピュータプログラム。