JP5939056B2

JP5939056B2 - 画像におけるテキスト領域を位置決めする方法及び装置

Info

Publication number: JP5939056B2
Application number: JP2012145538A
Authority: JP
Inventors: パン・イーフォン; ジュ・ユアヌピン; スヌ・ジュヌ; 直井　聡; 聡直井
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2011-06-30
Filing date: 2012-06-28
Publication date: 2016-06-22
Anticipated expiration: 2032-06-28
Also published as: CN102855478A; JP2013016168A; CN102855478B

Description

本発明は、一般的に、画像処理に関し、具体的には、画像におけるテキスト領域を位置決めする方法及び装置に関する。

画像に対してインデクシング、検索、分類などを行う各種のアプリケーションにおいて、画像から画像内容に関する情報を抽出する必要がある。画像には通常、テキスト情報がある。このテキスト情報は画像の内容に対して比較的に高い相関性を有する。したがって、これらのテキスト情報の取得は、画像のアプリケーションにおいて重要なものである。通常、まず、画像におけるテキスト領域を位置決めし、次に、テキスト領域の位置している画像ブロックに対して抽出及び光学文字認識（ＯＣＲ）処理を行って、テキスト情報を取得する。画像は、自然シーンによる画像と、人工的に付加されたテキストによる画像とに分けることができる。人工的に付加されたテキストによる画像は人の関与があるため、その中からテキスト領域を位置決めすることは相対的に簡単である。自然シーンによる画像は画像を単位とするため、テキスト領域の画像と非テキスト領域の画像とを区別し難い。そのため、その中からテキスト領域を位置決めするのは難しい。本発明は、画像中のテキスト領域を位置決めすることに着目して、自然シーンによる画像を含む比較的複雑な画像を処理することができる。

以下に、本発明の幾つかの局面に対する基本的な理解をもたらすように本発明に関して簡単に概説する。ここで理解すべきことは、この概説が、本発明に関する網羅的な概説ではないということである。本発明の主要部分を特定することを意図するものでなく、本発明の範囲を限定することを意図するものでもない。単に、話を単純化するために幾つかの概念を表して、後述する詳細な説明に先行する説明とすることを目的とする。

本発明の目的は、従来技術の上記問題点に対して、画像におけるテキスト領域を位置決め可能な方法及び装置を提供することにある。この技術的な方策は、画像から、高速かつ正確にテキスト領域を位置決めすることができ、任意の種類の画像に適用する。

上記目的を実現するために、本発明の１つの局面によれば、画像におけるテキスト領域を位置決めする方法を提供する。上記方法は、入力画像における各画素の周りに存在可能なテキストの大きさを推定するステップと、上記テキストの大きさ及び領域の差異度に基づいて、上記入力画像から候補筆画領域を抽出するステップと、上記候補筆画領域から真の筆画領域を特定するステップと、上記真の筆画領域をマージしてテキスト領域を形成するステップとを含む。

本発明の他の局面によれば、画像におけるテキスト領域の位置決め装置を提供する。上記装置は、入力画像における各画像の周りに存在可能なテキストの大きさを推定するための推定ユニットと、上記テキストの大きさ及び領域の差異度に基づいて、上記入力画像から候補筆画領域を抽出するための抽出ユニットと、上記候補筆画領域から真の筆画領域を特定するための特定ユニットと、真の筆画単位をマージしてテキスト領域を形成するためのマージ・ユニットとを含む。

また、本発明の他の局面によれば、さらに記憶媒体を提供する。上記記憶媒体は、機械による読み取り可能なプログラムコードを有する。情報処理装置において上記プログラムコードを実行すると、上記プログラムコードは、上記情報処理装置に本発明による上記方法を実行させる。

また、本発明の他の局面によれば、さらにプログラムを提供する。上記プログラムはコンピュータ実行可能なコマンドを有する。情報処理装置において上記コマンドを実行すると、上記コマンドは、情報処理装置に本発明による上記方法を実行させる。

処理すべき自然シーンによる画像の例を示す図である。本発明による一実施例に係る画像中のテキスト領域を位置決めする方法を示すフローチャートである。画像ピラミッドの構造を示す模式図である。図２のステップＳ２０１の詳細を示すフローチャートである。図２のステップＳ２０２の詳細を示すフローチャートである。図２のステップＳ２０３の詳細を示すフローチャートである。図２のステップＳ２０４の詳細を示すフローチャートである。図７ＡのステップＳ７０２の詳細を示すフローチャートである。全ての筆画領域を接続するチェーン構造を示す模式図である。行分け後のチェーン構造を示す模式図である。字分け後のチェーン構造を示す模式図である。本発明による一実施例に係る画像におけるテキスト領域の位置決め方法の処理結果を示す模式図である。本発明による一実施例に係る画像におけるテキスト領域の位置決め装置の構成を示すブロック図である。本発明の実施例の方法及び装置を実現するためのコンピュータを模式的に示すブロック図である。

以下、図面を参照しながら本発明の例示的な実施例を詳細に説明する。話を明瞭かつ簡潔にするために、本明細書においては、実際的な実施形態のすべての特徴を説明している訳ではない。しかし、理解すべきことは、何れのこのような実際的な実施例を開発する過程においても、実施形態によって限定された決まりを多くしなければならないという点である。例えば、システム及び業務に関する制約条件などの制約条件が満たされ、前述の制約条件は実施形態によって変わる可能性がある。なお、開発作業は非常に複雑でかつ時間がかかるものであるが、本開示内容の恩恵を受ける当業者には、このような開発作業が単に日常的な任務であることも理解されよう。

ここで、さらに説明すべきことは、不必要な詳細により、本発明を分かりにくくすることのないように、図面において本発明の技術的な方策と密接に関係する装置構造及び／又は処理ステップのみを示す一方、本発明とあまり関係していない他の詳細を省略しているという点である。また、さらに指摘すべきことは、本発明の一図面、又は一種類の実施形態において説明した要素及び特徴は、一つ又は複数の他の図面若しくは実施例に示された要素及び特徴と組み合わせてもよいという点である。

以下、図２を参照しながら本発明の一実施例による画像中のテキスト領域の位置決め方法の流れを説明する。

図１は本発明が処理可能な画像の一つの具体的な例を示す。図１に示す自然シーンによる画像において、家としての背景及び交通標識としての前景がある。しかし、上述のように、当該画像は画素を単位とし、画像中のテキスト領域に対して人工的に付加されたタグが一切ないため、その中から正確に、迅速にテキスト領域を抽出し難い。

図２に示すように、本発明の一実施例による画像中のテキスト領域の位置決め方法は、入力された画像における画素毎の周りに存在可能なテキストの大きさを推定するステップ（Ｓ２０１）と、上記テキストの大きさ及び領域の差異度に基づいて、上記入力された画像から候補筆画領域を抽出するステップ（Ｓ２０２）と、上記候補筆画領域から真の筆画領域を特定するステップ（Ｓ２０３）と、上記真の筆画領域をマージしてテキスト領域を形成するステップ（Ｓ２０４）とを含む。

以下、図３及び図４を参照しながら図２のステップＳ２０１を具体的に説明する。

図３は、画像ピラミッドの構造を示している。なお、階層Ｌｎ（ｎ≧１）毎に１枚のピラミッド画像が存在している。第１階層Ｌ１に対応するピラミッド画像は元の入力画像である。図１は、入力画像の具体例を示す。各階層Ｌｎは第１階層Ｌ１に対するスケーリング係数ｓｃ_ｎを有する。各階層Ｌｎ（ｎ＞１）に対してスケーリング係数ｓｃ_ｎで入力画像を均等な比率で縮小してこの階層のピラミッド画像を得る。例えば、入力画像は８×８画素の大きさである。ステップ幅が１／２である場合、第２階層の第１階層Ｌ１に対するスケーリング係数はｓｃ_２＝１／２であり、最近隣接内挿法を採用すると、４×４画素の大きさの第２階層のピラミッド画像が得られる。順次に類推すると、図３のように、入力画像から複数のスケーリングの画像ピラミッドを取得することができる。第ｎ階層（ｎ≧１）については、ステップ幅がｓｔｅｐであれば、第ｎ階層のスケーリング係数がｓｃ_ｎ＝ｓｔｅｐ^ｎ−１となることは明らかである。入力画像における各画素のスケーリング係数は、各階層のピラミッド画像におけるその対応する画素（当該画素自身を含む）の確信度及び各階層のピラミッド画像のスケーリング係数により算出されたものであり、式２を参照しながら後述する。

図４は図２中のステップＳ２０１の詳細を示すフローチャートである。

まず、上述のように、入力画像に基づいて複数の階層のピラミッド画像、すなわち、画像ピラミッド（ステップＳ４０１）を生成する。

その後、各階層のピラミッド画像に対して、各画素の周りにテキストの存在する確率を推定する（ステップＳ４０２）。具体的には、各階層のピラミッド画像に対して、一定の大きさのスキャンウィンドウでスキャンして、各階層のピラミッド画像の各画素の周りにテキストの存在する確率を取得する。本実施例において、各階層のピラミッド画像のスキャンウィンドウの大きさは元の入力画像の大きさとして固定される。画素毎に、当該画素を中心としたスキャンウィンドウ内の局所テクスチャ、例えば、勾配方向ヒストグラムＨＯ（ＨｉｓｔｏｇｒａｍｓｏｆＯｒｉｅｎｔｅｄＧｒａｄｉｅｎｔ）Ｇ特徴を算出する。算出されたＨＯＧ特徴を訓練済みの分類器に入力し、分類器は当該画素の周りにテキストの存在する確信度（確率）を返すことができる。

分類器を訓練する際に、一つの画素の周りにテキスト領域が存在しているか否かということは既に分かっている。すなわち、一つの画素が、テキスト領域を構成する画素の一つであるか否かということは既に分かっている。例えば、１は当該画素の周りにテキスト領域が存在することを示し、０は当該画素の周りにテキスト領域が存在しないことを示す。一枚の画像における画素毎に、一定の大きさのスキャンウィンドウでＨＯＧ特徴を算出し、算出したＨＯＧ特徴及び１又は０で表された当該画素の周りにテキストが存在するか否かの確信度を分類器に入力する。大量の訓練が行われた分類器はステップＳ４０２に適用可能である。

注意すべきことは、ここで局所テクスチャが上述のＨＯＧ特徴に限定されないという点である。例えば、ウェーブレット特徴を算出してもよい。一つの画素を中心とするスキャンウィンドウ内の画素に対してウェーブレット変換を行い、変換によって得られたウェーブレット係数の統計量、例えば、平均値及び／又は分散を当該画素のウェーブレット特徴とする。分類器については、Ｗａｌｄｂｏｏｓｔ、ＡｄａＢｏｏｓｔ等の分類器を選択することができる。

ステップＳ４０３では、まず、入力画像の各画素に対して、各階層のピラミッド画像における、その対応する画素の座標を算出する。例えば、第２階層のピラミッド画像が対応するスケーリング係数ｓｃ_２が２の場合、入力画像における座標が（ａ，ｂ）である画素は、第２階層のピラミッド画像における座標が（２ａ，２ｂ）である画素に対応する。すなわち、入力画像において画素の横座標及び縦座標にそれぞれ対応するピラミッドの階層のスケーリング係数を乗じると、当該スケーリング係数の対応するピラミッド画像において対応する画素の横座標及び縦座標が得られる。スケーリング係数が整数ではない値である場合、算出結果を四捨五入して整数化して、対応する画素の横座標及び縦座標とする。入力画像中の一つの画素について、第１階層のピラミッド、すなわち、入力画像におけるその対応する画素がそれ自身であるということは明らかである。したがって、入力画像における一つの画素について、各階層のピラミッド画像それぞれにおいて、対応する画素が一つ存在する。

入力画像におけるｉ番目の画素ｓ_ｉが対応する各階層のピラミッド画像（第１階層のピラミッド画像、すなわち入力画像自身を含む）における各画素によって構成された集合をＰ_ｉとする。ｊはＰ_ｉに属し、ある階層のピラミッド画像における、ｓ_ｉに対応する画素であり、当該ピラミッド画像の対応するスケーリング係数はｓｃ_ｊであることを仮定する。ステップＳ４０２で算出されたｊの周りにテキストが存在する確信度はｗ_ｊであることを仮定する。以下の式１、２に従って入力画像における画素ｓ_ｉの周りにテキストが存在する確率

及びスケーリング係数ｓｃ_ｉを算出する。

ただし、

は、それぞれ、確信度及びスケーリング係数の正規化因子を示す。

また、上記式１及び２において、ｗ_ｊは重み付け係数として、各階層のピラミッドにおいて対応する画素の情報を第１階層のピラミッド画像としての元の入力画像に投影する。

スケーリング係数ｓｃ_ｉ及びスキャンウィンドウの大きさにより、入力画像における画素ｓ_ｉの周りに存在可能なテキストの大きさを算出することができる。例えば、スキャンウィンドウの長さｌｅｎｇｔｈ又は幅ｗｉｄｔｈでスキャンウィンドウの大きさを示すと、ｌｅｎｇｔｈ／ｓｃ_ｉ又はｗｉｄｔｈ／ｓｃ_ｉを半径とする円、又はｌｅｎｇｔｈ／ｓｃ_ｉ及びｗｉｄｔｈ／ｓｃ_ｉを長さ及び幅とする矩形の領域は、入力画像における画素ｓ_ｉの周りに存在可能なテキストの大きさを表すことができる。

式２の変形として、ｓｃ_ｊをｌｅｎｇｔｈ／ｓｃ_ｊに置き換えると、等式の左辺はｌｅｎｇｔｈ／ｓｃ_ｉになる。上記説明から分かるように、式２の物理的意義は、各階層のピラミッドにおける、入力画像中の各画素ｓ_ｉに対応する画素ｊの確信度ｗ_ｊと、当該ピラミッド階層に対応するテキストの大きさｌｅｎｇｔｈ／ｓｃ_ｊとに基づいて、入力画像における各画素ｓ_ｉの周りに存在可能なテキストの大きさｌｅｎｇｔｈ／ｓｃ_ｉを算出するというものである。

前記式１、２の候補として、入力画像における画素ｓ_ｉに対応する画素のうち、確信度ｗ_ｊの最も高い画素ｊの確信度ｗ_ｊとスケーリング係数ｓｃ_ｊとを、画素ｓ_ｉの周りにテキストが存在する確率

とスケーリング係数ｓｃ_ｉとする。

ステップＳ４０１−Ｓ４０３によれば、元の入力画像における、各画素の周りにテキストが存在する確率と、各画素の周りに存在可能なテキストの大きさを取得することができる。

ここで画像ピラミッドを採用してスケーリング変換を行うことで、任意な大きさの文字を検出することができる。相対的には、スケーリング変更を行わずに、大きさが一定のウィンドウで画像をスキャンする場合、すなわち、上記実施例の第１階層のみが存在する場合、依然として、各画素周りにテキストが存在する確率を取得することができ、各画素の周りに存在可能なテキストの大きさはスキャンウィンドウの大きさである。この場合、本発明を依然として実現することができるが、スケーリング変換がないため、大きさが一定の文字のみを検出することができる。

注意すべきことは、スケーリング変換の方法が、上述された、スキャンウィンドウが変化せずに各階層のピラミッド画像スケーリングをズームする場合に限定されないという点である。入力画像をズームせずに、大きさの変化するスキャンウィンドウ（すなわち、スケーリング変換）を採用して入力画像に対して複数回のスキャンを行ってもよい。この場合、各回のスキャンの結果により、同様に、入力画像における各画素の周りにテキストが存在する確率と、各画素の周りに存在可能なテキストの大きさとを算出することができる。

以下、図５を参照しながら、図２中のステップＳ２０２を具体的に説明する。

図５は、図２中のステップＳ２０２の詳細を示すフローチャートである。

上述のように、ステップＳ２０２において、ステップＳ２０１で算出された各画素の周りに存在可能なテキストの大きさ及び領域差異度に基づいて、上記入力画像から候補筆画領域を抽出する。

具体的には、予め決められた条件を満たすまで、領域（当初は画素）のマージの反複によって入力画像における類似の領域をマージし続ける。これにより、候補筆画領域としてマージした複数の領域が得られる。マージの基準は、主に領域内の差異度、領域間の差異度、領域周りに存在可能なテキストの大きさを考慮したものである。

まず、ステップＳ５０１において、入力画像における隣接した領域に対して領域間の差異度及び領域内の差異度を算出する。領域内の差異度は、例えば領域内の最も大きい色差である。階調画像について、領域内の最も大きい色差は領域内の全ての画素のうち、階調値最高の画素と階調値最低の画素との間の、階調値の差の絶対値である。例えば、（Ｙ，Ｃｒ，Ｃｂ）が示す色彩画像に対して各画素の

の値を算出することができ、領域内の各画素間の最大の

の差の絶対値を領域内の最大色差とする。領域間の差異度は、階調画像について二つの領域の諧調の平均値の差の絶対値をとることができ、カラー画像について２つの領域の

の平均値の差の絶対値をとることができる。まず、隣接した領域は隣接した画素であり、隣接した画素の領域内の差異度は０であり、隣接した画素の領域間の差異度は、例えば隣接した画素の階調値の差の絶対値（階調画像について）、又は隣接した画素の

の差の絶対値又は隣接した画素の輝度の差の絶対値（カラー画像について）である。

ステップＳ５０１において、仮に、隣接した領域をＣ_１、Ｃ_２とし、領域Ｃ_１の画素のうち領域Ｃ_２の画素と隣接した画素からなる集合をＣ_１とし、領域Ｃ_２の画素のうち領域Ｃ_１の画素と隣接した画素からなる集合をＣ_２とする。上述のように、Ｃ_１、Ｃ_２の範囲で領域内の差異度及び領域間の差異度を算出する実施形態以外、単にＣ_１、Ｃ_２だけの範囲において上述の方法を採用して、Ｃ_１、Ｃ_２の領域内の差異度及び領域間の差異度を算出して、Ｃ_１、Ｃ_２の領域内の差異度及び領域間の差異度を表してもよい。

次に、ステップＳ５０２において、ステップＳ２０１で推定した入力画像における、画素毎の周りに存在可能なテキストの大きさに基づいて、領域の周りに存在可能なテキストの大きさを推定し、推定された領域の周りに存在可能なテキストの大きさに基づいて、各領域内の差異度を調整する。

当該ステップは、発明者による以下の発見、すなわち、領域内の差異度及び領域間の差異度のみに基づいて隣接した領域をマージするか否かを決めることが完全に正確な訳ではないことを基づいたものである。隣接した領域Ｃ_１、Ｃ_２の周りに存在可能なテキストの大きさが小さいと分かっていれば、Ｃ_１、Ｃ_２は、マージすべきではないものである可能性が高い。隣接した領域Ｃ_１、Ｃ_２の周りに存在可能なテキストの大きさが大きいと分かっていれば、Ｃ_１、Ｃ_２は、マージすべきものである可能性が高い。したがって、更に領域周りに存在可能なテキストの大きさを考慮し、領域内の差異度を調整することにより、隣接した領域Ｃ_１、Ｃ_２をマージすべきか否かについて、より正確に判断することができる。

領域Ｃ_１に１つの画素のみが含まれている場合、領域Ｃ_１における唯一の画素のスケーリング係数ｓｃ_ｉ及びスキャンウィンドウの大きさを使用して入力画像における領域Ｃ_１の周りに存在可能なテキストの大きさを算出することができる。例えば、スキャンウィンドウの長さｌｅｎｇｔｈ又は幅ｗｉｄｔｈでスキャンウィンドウの大きさを示すと、ｌｅｎｇｔｈ／ｓｃ_ｉ又はｗｉｄｔｈ／ｓｃ_ｉを半径とする円、又はｌｅｎｇｔｈ／ｓｃ_ｉ及びｗｉｄｔｈ／ｓｃ_ｉを長さ及び幅とする矩形の領域は、入力画像中の領域Ｃ_１の周りに存在可能なテキストの大きさを表すことができる。領域Ｃ_１に一つより多い画素が含まれると、領域Ｃ_１におけるスケーリング係数ｓｃ_ｉの平均値及びスキャンウィンドウの大きさにより、入力画像における領域Ｃ_１の周りに存在可能なテキストの大きさを算出することができる。例えば、スキャンウィンドウの長さｌｅｎｇｔｈ又は幅ｗｉｄｔｈでスキャンウィンドウの大きさを示し、ｓｃ_ｉの平均値をａ＿ｓｃ_ｉとすると、ｌｅｎｇｔｈ／ａ＿ｓｃ_ｉ又はｗｉｄｔｈ／ａ＿ｓｃ_ｉを半径とする円、又はｌｅｎｇｔｈ／ａ＿ｓｃ_ｉ及びｗｉｄｔｈ／ａ＿ｓｃ_ｉを長さ及び幅とする矩形の領域は、入力画像中の領域Ｃ_１の周りに存在可能なテキストの大きさを表すことができる。

次に、ステップＳ５０３において、隣接した領域の領域間の差異度が、隣接した領域の調整後の領域内の差異度の最小値よりも小さいか否かを判断する。判断結果が肯定の場合、ステップＳ５０４に進んで、隣接した領域Ｃ_１、Ｃ_２をマージした後に、ステップＳ５０５に進む。判断結果が否定の場合、直接、ステップＳ５０５に進む。

注意すべきことは、現在のすべての隣接した領域に対して、ステップＳ５０１−Ｓ５０３を行うという点である。

ステップＳ５０５において、現在のすべての隣接した領域のいずれもステップＳ５０３での判断においてマージ条件を満たしていないか否かを判断する。判断結果が否定の場合に、すなわち、新たにマージした少なくとも一つの領域がある場合に、ステップＳ５０１に戻る。判断結果が肯定の場合、現在のすべての隣接した領域のいずれもマージすることができず、すなわち、すべての候補筆画領域を既に抽出していることを意味する。

以下に、上記ステップＳ５０１−Ｓ５０３を実現する例示的な式３、４を表す。

Ｄｉｆ（Ｃ_１，Ｃ_２）は領域間の差異度を示す。Ｄ（Ｃ_１，Ｃ_２）がｔｒｕｅである場合には領域Ｃ_１、Ｃ_２をマージし、Ｄ（Ｃ_１，Ｃ_２）がｆａｌｓｅである場合には領域Ｃ_１、Ｃ_２をマージしない。ｍｉｎ（）は最小値をとることを示し、Ｉｎｔ（Ｃ_１）、Ｉｎｔ（Ｃ_２）はそれぞれ、領域Ｃ_１、Ｃ_２の領域内の差異度を表す。τ（Ｃ_１）、τ（Ｃ_２）はそれぞれ、領域Ｃ_１、Ｃ_２のスケーリング正則化項であり、領域Ｃ_１、Ｃ_２の周りに存在可能なテキストの大きさを表す。上述のように、ステップＳ２０１により、１つの画素の周りに存在可能なテキストの大きさが得られるとともに、その中の各画素の周りに存在可能なテキストの大きさに基づいてＣ_１、Ｃ_２の周りに存在可能なテキストの大きさ

を算出することができる。

にそれぞれ、経験によって得られる係数値Ｋを乗算すると、領域Ｃ_１、Ｃ_２のスケーリング正則化項τ（Ｃ_１）、τ（Ｃ_２）が得られる。ＭＩｎｔ（Ｃ_１，Ｃ_２）は、中間算出結果となり、隣接した領域の調整後の領域内の差異度の最小値である。

以下に、図６を参照して図２のステップＳ２０３を詳細に説明する。

図６は、図２のステップＳ２０３の詳細を示すフローチャートである。

上述のように、ステップＳ２０２で複数の候補筆画領域が取得されている。以下、ステップＳ２０３において、背景から誤って抽出した候補筆画領域をフィルタリングし、除去して真の筆画領域を特定する。

ステップＳ２０２において、条件付き確率場ＣＲＦモデルを採用し、同時に、個別の筆画特徴と隣接した筆画との関係を考慮して、候補筆画領域が真の筆画領域であるか否かを正確に特定する。

まず、ステップＳ６０１において、候補筆画領域のうち、互いに相関する候補筆画領域を特定する。具体的には、候補筆画領域のサイズ情報及び候補筆画領域の間の距離に基づいて、上記候補筆画領域が相関するか否かを判断する。一つの候補筆画領域が一つの連通領域であり、連通領域の外切矩形の幅及び高さを当該候補筆画領域の幅ｗ及び高さｈとし、二つの候補筆画領域ｉ及びｊの質量中心間の距離をｄｉｓｔ（ｒ_ｉ，ｒ_ｊ）とし、ｍｉｎ［］が最小値をとることを表し、以下の式５により、二つの候補筆画領域が相関するか否かを判断する。

式５を満たした候補筆画領域は、相関すると考えられる。全ての候補筆画領域に対して以上の判断を行うと、候補筆画領域近隣図が得られる。なお、候補筆画領域をノードとし、相関する候補筆画領域の対応するノードが互いに接続する。

ステップＳ６０２において、次の式６に従って真の筆画領域を特定する。

Ｅは確信度を示し、訓練された分類器によって与えられるものである。Ｘは特徴の観測値を示す。Ｙは真の筆画領域であるか否かを示す。Ｇは候補筆画領域近隣図を示す。Λはパラメータを示す。ｘ_ｉは、例えば候補筆画領域のサイズ、確信度などの特徴である。上記ステップＳ２０１では、一つの画素の周りにテキスト領域が存在する確信度を算出することで、候補筆画領域の周りにテキスト領域の存在する確信度を算出して（例えば、候補筆画領域における各画素の周りにテキスト領域の存在する確信度の平均値をとる）候補筆画領域ｉの特徴ｘ_ｉとすることができる。ｙ_ｉは、候補筆画領域ｉが真の筆画領域であるか否かを示す。ｙ_ｉが１である場合、ｉは真の筆画領域である。ｙ_ｉが０である場合、ｉは真の筆画領域ではない。λ_uni、λb_iは、分類器を訓練することによって得られたパラメータである。Ｎ_ｉはｉと相関する全ての候補筆画領域の集合である。ｊはＮ_ｉにおける一つの候補筆画領域である。ｘ_ｊは候補筆画領域ｊの特徴を示し、例えば、候補筆画領域ｊにおける各画素周りにテキスト領域の存在する確信度である。ｙ_ｊは候補筆画領域ｊが真の筆画領域であるか否かを示し、ｙ_ｊが１である場合、ｊは真の筆画領域である。ｙ_ｊが０である場合、ときに、ｊは真の筆画領域ではない。λ_ijは、重み係数であり、ｊとｉの相関度を反映している。次の式７、８を採用して重み係数λ_ijを算出する。

各候補筆画領域ｉに対して、それと相関する全ての候補筆画領域（すなわち、Ｎ_ｉ）及びｉ自身を利用して、ｉの所在しているテキスト行ｌ_ｉをフィットする。具体的には、特徴区間において一つの点は一つの候補筆画領域の特徴を示す。Ｎ_ｉ及びｉの対応する点をフィットし、同一のフィッティング曲線に属する点の対応する候補筆画領域を、ｉの所在のテキスト行ｌ_ｉに属すると特定する。ｊは、Ｎ_ｉに属する、ｉと相関する候補筆画領域の一つである。dist（j,l_i）はｊの質量中心からｌ_ｉまでの距離である。

は経験によって得られる正規化因子である。ｅｘｐ［］は、自然対数ｅを底とする指数関数である。

は回帰誤差である。以上から分かるように、ｊとｌ_ｉの距離が遠いほど、

が小さくなる。

の使用により、ｉと相関する候補筆画領域ｊの重み係数と異なるようにし、ｉと同一のテキスト行に属するｊがｉに対する影響がより大きくなる。よって、ｉから離れた特徴の類似する候補筆画領域がｉに大きい影響を与えることが回避される。

上記の式において、Ｅ（ｘ_ｉ，ｘ_ｊ，ｙ_ｉ，ｙ_ｊ，λ_ｂｉ）の代わりにＥ（ｘ_ｉｊ，ｙ_ｉ，ｙ_ｊ，λ_ｂｉ）を使用可能であり、ｘ_ｉｊは、候補筆画領域ｉ及びｊにおける各画素の周りにテキスト領域の存在する確信度の平均値の差の絶対値をとることができる。ｘ_ｉｊは、候補筆画領域ｉとｊの質量中心の距離をとることもでき、領域間の関係をよりよく反映できるようになっている。Ｅ（ｘ_ｉ，ｙ_ｉ，λ_ｕｎｉ）
は、単一の候補筆画領域が真の筆画領域であるか否かについての確信度であり（呈する値がｙ_ｉの場合によるものである）、Ｅ（ｘ_ｉ，ｘ_ｊ，ｙ_ｉ，ｙ_ｊ，λ_ｂｉ）は、呈する値がｙ_ｉ，ｙ_ｊの場合の確信度を示し、

は、相関する候補筆画領域間の関係を示す。

各候補筆画領域ｉに対して、ｉ、及びｉに対する全てのｊが真の筆画領域であるか否かを仮定する、すなわち、ｙ_ｉ、ｙ_ｊの値を仮定する。全ての値取りの可能性及び相応する特徴（すなわち、ｘ_ｉ、ｘ_ｊ及び／又はｘ_ｉｊ）が訓練済みの分類器に入力され、分類器からＥ（ｘ_ｉ，ｙ_ｉ，λ_ｕｎｉ）の代わりにＥ（ｘ_ｉ，ｘ_ｊ，ｙ_ｉ，ｙ_ｊ，λ_ｂｉ）の値が返され、Ｅ（Ｘ，Ｙ，Ｇ，Λ）が算出される。Ｅ（Ｘ，Ｙ，Ｇ，Λ）を最大値にすると、対応するｙ_ｉ、ｙ_ｊの値取り結果が真の筆画領域の特定結果とされる。

すなわち、ステップＳ６０２において、入力画像におけるすべての候補筆画領域それぞれが真の筆画領域であるか否かに関する多種の仮定の組合せを生成する。各種の仮定の組合せそれぞれに対して、上記仮定の組合せ及び各候補筆画領域における画素の特徴に基づいて各候補筆画領域の第１の確信度を算出し、上記仮定の組合せ及び互いに相関する候補筆画領域における画素の特徴に基づいて、第１の確信度と対応する第２の確信度を算出する。次に、上記第１の確信度及び第２の確信度に基づいて、当該仮定の組合せの場合を表す確信度を算出する。当該仮定の組合せの場合を表す確信度が最も高い場合に対応する仮定の組合せを、真の筆画領域の特定結果とする。なお、上記互いに相関する候補筆画領域は同一のテキスト行に属する場合に、上記仮定の組合せの場合を表す確信度の算出において、それに対応する第２の確信度に、比較的に大きい重み係数を付与する。

以上で、ステップＳ２０３において、真の筆画領域を取得している。以下、ステップＳ２０４では、真の筆画領域をマージして、テキスト領域を形成する。

以下、図７Ａ−７Ｂ、８Ａ−８Ｃを参照しながら、図２のステップＳ２０４を説明する。

図７Ａは、図２のステップＳ２０４の詳細を示すフローチャートである。図８Ａは全ての真の筆画領域を接続するチェーン構造の模式図である。図８Ｂは行分け後のチェーン構造の模式図である。図８Ｃは字分け後のチェーン構造の模式図である。

ステップＳ２０３において、真の筆画領域は既に特定されている。ステップＳ２０４において、これらの筆画領域をマージして、テキスト領域を形成する。

まず、ステップＳ７０１において、筆画領域間の距離に基づいて筆画領域間の接続関係を特定する。筆画領域間の距離は、筆画領域の質量中心間のユークリッド距離によって表すことができる。図８Ａに示すように、筆画領域間の距離に基づいて、最小全域木アルゴリズムを採用して全ての筆画領域をチェーン構造に従って接続することができる。最小全域木アルゴリズムは本技術分野において既知のアルゴリズムであるので、ここでは説明しないものとする。

図８Ａにおいて、筆画領域間の距離のみを基づいて筆画領域間の関係を判断する場合に、同一行における異なる字に属する筆画領域や、異なる行に属する筆画領域は、距離が近いために接続される可能性があるということは明らかである。したがって、後述のステップＳ７０２、Ｓ７０３において、このような誤接続を取り除くことに着目する。

ステップＳ７０２において、異なるテキスト行に属する筆画領域間の接続関係を取り除く。図７Ｂは図７ＡのステップＳ７０２の詳細のフローチャートを示す。

ステップＳ７０２１において、チェーン構造において一本の接続辺によって接続された二つの筆画領域間のユークリッド距離が閾値ｔｈ_ｅｄより大きいか否かを判断する。判断結果が否定の場合に、直接、ステップＳ７０２３に進む。判断結果が肯定の場合に、当該接続辺を切断し（ステップＳ７０２２）、ステップＳ７０２３に進む。

上記状況に類似させ、距離のみの場合には、まだ誤接続が残されるおそれがある。したがって、ステップＳ７０２３−Ｓ７０２５において、更に検出して誤接続を切断する。

ステップＳ７０２１及びＳ７０２２を行うと、本来の最小全域木アルゴリズムによって生成された一つのチェーン構造は、既に複数のチェーン構造に分割された可能性がある。各チェーン構造に対して、後述のステップＳ７０２３−Ｓ７０２５を実行する。

ステップＳ７０２３において、同一のチェーン構造に属する筆画領域を一本の中心線ｌにフィットする。例えば、最小二乗法を利用して、同一のチェーン構造に属する筆画領域の質量中心を一本の中心線ｌにフィットする。

当該チェーン構造に属する各筆画領域から当該中心線ｌまでの距離が予め設けられた閾値ｔｈ_ｌｅより大きいか否かを判断する（ステップＳ７０２４）。

判断結果が肯定の場合、中心線ｌの両側それぞれに少なくとも一つのテキスト行があることを表す。したがって、当該チェーン構造における，当該中心線１を跨る接続辺を切断する。（ステップＳ７０２５）
ステップＳ７０２５により、一つのチェーン構造は二つの新しいチェーン構造になるので、再びＳ７０２３に戻し、判断を続ける。

ステップＳ７０２４の判断結果が否定の場合、現在のチェーン構造において、一つのテキスト行しかないことを表す。したがって、テキスト行間の接続辺がなくなり、ステップＳ７０２が終了し、ステップＳ７０３に進み、同一のテキスト行に属する各字間の誤接続を切断する。ステップＳ７０２の処理結果は、図８Ｂに示される。

ステップＳ７０３において、ステップＳ７０２により得られたチェーン構造それぞれは一つのテキスト行を表す。各チェーン構造においては、複数の筆画領域が存在し、筆画領域は接続辺によって接続されている。接続されている各筆画領域間の枠距離ｂｄ及びテキスト行全体（即ち、チェーン構造）の平均枠距離ａ＿ｂｄを算出する。接続辺によって接続される二つの筆画領域の枠距離とは、この二つの筆画領域の外接矩形の隣接した辺間の距離を指す。接続辺によって接続される二つの筆画領域の枠距離ｂｄがテキスト全体の平均枠距離ａ＿ｂｄよりもはるかに大きい場合（例えば、ｂｄ＞ａ＿ｂｄ＊ξ、ξは経験で予め設けられた定数である）は、この二つの筆画領域が異なる字に属すべきであることを表し、これらの接続辺を切断する。すなわち、ステップＳ７０３では、異なる字に属する筆画領域間の接続関係を取り除く。ステップＳ７０３の処理結果は、図８Ｃに示す。

以上において、複数のチェーン構造を取得している。チェーン構造それぞれが一つの字を表し、各チェーン構造において、接続辺によって接続された複数の筆画領域を含む。チェーン構造毎の外接矩形を当該チェーン構造の対応する字のテキスト領域とすることができる。図９は本発明による一実施例とする画像におけるテキスト領域の位置決め方法の処理結果を示す模式図である。

以下、図１０を参照して、本発明の一実施例による画像におけるテキスト領域を位置決めする装置の構造を説明する。図１０は、本発明の一実施例による画像におけるテキスト領域を位置決めする装置の構造を示すブロック図である。図１０に示すように、当該実施例による画像におけるテキスト領域を位置決めする装置１００は、入力画像における各画素の周りに存在可能なテキストの大きさを推定するための推定ユニット１０１と、上記テキストの大きさ及び領域の差異度に基づいて、上記入力画像から候補筆画領域を抽出するための抽出ユニット１０２と、上記候補筆画領域から、真の筆画領域を特定するための特定ユニット１０３と、テキスト領域を形成するように上記真の筆画領域をマージするためのマージ・ユニット１０４とを含む。

上記推定ユニット１０１は、上記入力画像に基づいて複数階層のピラミッド画像を生成するための画像ピラミッド生成ユニット１０１１と、各階層のピラミッド画像における各画素の周りにテキストの存在する確率を推定するための推定サブユニット１０１２と、上記確率及びピラミッド階層に対応するテキストの大きさに基づいて、上記入力画像における各画素の周りに存在可能なテキストの大きさを算出するための算出ユニット１０１３とを含む。

上記抽出ユニット１０２は、上記入力画像における隣接した領域に対して領域間の差異度及び領域内の差異度を算出するための差異度算出ユニット１０２１と、推定された入力画像における各画素の周りに存在可能なテキストの大きさに基づいて領域の周りに存在可能なテキストの大きさを推定し、推定された領域の周りに存在可能なテキストの大きさに基づいて各領域内の差異度を調整するための調整ユニット１０２２と、隣接した領域の領域間の差異度及び上記隣接した領域の調整後の領域内の差異度に基づいて上記隣接した領域をマージするための隣接領域マージ・ユニット１０２３とを含む。

上記特定ユニット１０３は、候補筆画領域のうち互いに相関する候補筆画領域を特定するための相関特定ユニット１０３１と、入力画像におけるすべての候補筆画領域それぞれが真の筆画領域であるか否かに関する多種の仮定組合せを生成するための仮定組合せユニット１０３２と、仮定組合せ毎に、上記仮定組合せ及び各候補筆画領域における画素の特徴に基づいて、各候補筆画領域の第１の確信度を算出し、上記仮定組合せ及び互いに相関する候補筆画領域における特徴に基づいて、第１の確信度に対応する第２の確信度を算出し、その後、上記第１の確信度と上記第２の確信度に基づいて、当該仮定組合せの場合を表す確信度を算出するための確信度算出ユニット１０３３と、当該仮定組合せの場合を表す確信度の最も高い場合に対応する仮定組合せを真の筆画領域の特定結果とするための特定サブユニット１０３４とを含む。なお、上記互いに相関する候補筆画領域が同一のテキスト行に属する場合に、当該仮定組合せの場合を表す確信度の算出において、その対応する第２の確信度に比較的に大きい重み係数を付与する。なお、上記相関特定ユニットは、候補筆画領域のサイズ情報及び候補筆画領域間の距離に基づいて、上記候補筆画領域が相関するか否かを判断する。なお、上記確信度算出ユニットは、特徴空間において候補筆画領域をフィットし、同一のフィッティング曲線に属する候補筆画領域を同一のテキスト行に属すると特定し、回帰誤差に基づいて確信度の算出における重み係数を算出する。

上記マージ・ユニット１０４は、筆画領域間の距離に基づいて筆画領域間の接続関係を特定するための接続ユニット１０４１と、異なるテキスト行に属する筆画領域間の接続関係を取り除くための行分けユニット１０４２と、異なる字に属する筆画領域間の接続関係を取り除くための字分けユニット１０４３とを含む。

本発明による画像におけるテキスト領域の位置決め装置１００に含まれた推定ユニット１０１、抽出ユニット１０２、特定ユニット１０３、マージ・ユニット１０４での処理はそれぞれ上述した画像におけるテキスト領域の位置決め方法のステップＳ２０１−Ｓ２０４での処理と類似しており、話を簡潔にするために、これらのユニットに対する詳細説明を省略する。

同様に、推定ユニット１０１に含まれた画像ピラミッド生成ユニット１０１１、推定サブユニット１０１２、算出ユニット１０１３での処理はそれぞれ、上述したステップＳ４０１−Ｓ４０３での処理と類似し、抽出ユニット１０２に含まれた差異度算出ユニット１０２１、調整ユニット１０２２、隣接領域マージ・ユニット１０２３での処理はそれぞれ、上述したステップＳ５０１−Ｓ５０５での処理と類似し、特定ユニット１０３に含まれた相関特定ユニット１０３１、仮定組合せユニット１０３２、確信度算出ユニット１０３３、特定サブユニット１０３４での処理はそれぞれ、上述したステップＳ６０１−Ｓ６０２での処理と類似し、マージ・ユニット１０４に含まれた接続ユニット１０４１、行分けユニット１０４２、字分けユニット１０４３での処理はそれぞれ上述したステップＳ７０１−Ｓ７０３での処理と類似しており、話を簡潔にするために、これらのユニットに対する詳細説明を省略する。

また、ここで指摘すべきことは、上記装置中の各構成モジュール、ユニットは、ソフトウェア、ファームウェア、ハードウェア又はそれらの組合せによって構成されてよい。構成に使用可能な具体的な手段又は方式は、当業者に既に知られているものであるため、ここでは説明しない。ソフトウェア又はファームウェアにより実現される場合、記憶媒体又はネットワークから専用ハードウェア構造を有するコンピュータ（例えば、図１１に示された汎用コンピュータ１１００）に、当該ソフトウェアを構成するプログラムをインストールする。当該コンピュータは、各種のプログラムがインストールされると、各種機能の実行等が可能である。

図１１は、本発明の実施例による方法及び装置を実施するためのコンピュータを模式的に示すブロック図である。

図１１において、中央処理ユニット（ＣＰＵ）１１０１は、リードオンリーメモリ（ＲＯＭ）１１０２に記憶されたプログラム、又は記憶部１１０８からランダムアクセスメモリ（ＲＡＭ）１１０３にロードされたプログラムに基づいて、各種の処理を実行する。ＲＡＭ１１０３において、必要に応じ、ＣＰＵ１１０１が各種の処理等を実行する場合に必要とされるデータも記憶される。ＣＰＵ１１０１、ＲＯＭ１１０２及びＲＡＭ１１０３は、バス１１０４を経由して互いに接続される。入力／出力インターフェース１１０５もバス１１０４に接続される。

入力部１１０６（キーボード、マウス等を含む）と、出力部１１０７（例えば、陰極線管（ＣＲＴ）、液晶ディスプレイ（ＬＣＤ）等のようなディスプレイ及びスピーカ等を含む）と、記憶部１１０８（ハードディスク等を含む）と、通信部１１０９（ＬＡＮカードのようなネットワークインターフェースカード、モデム等を含む）は、入力／出力インターフェース１１０５に接続される。通信部１１０９はネットワーク（例えば、インターネット）を経由して通信処理を実行する。必要に応じ、ドライバ１１１０は入力／出力インターフェース１１０５に接続されてもよい。取り外し可能な媒体１１１１、例えば磁気ディスク、光ディスク、光磁気ディスク、半導体メモリ等が必要に応じてドライバ１１１０に取り付けられ、これによりその中から読み出されたコンピュータプログラムが必要に応じて記憶部１１０８にインストールされる。

ソフトウェアにより、上述の一連の処理を実現する場合は、ネットワーク、例えばインターネット、又は記憶媒体、例えば取り外し可能な媒体１１１１からソフトウェアを構成するプログラムをインストールする。

このような記憶媒体は、図１１に示された、その中にプログラムが記憶されており、デバイスから離れて配送されてユーザにプログラムを提供する取り外し可能な媒体１１１１に限定されないことを、当業者は理解すべきである。取り外し可能な媒体１１１１としては、例えば、磁気ディスク（フロッピー（登録商標）・ディスク含む）、光ディスク（コンパクトディスク・リードオンリーメモリ（ＣＤ−ＲＯＭ）やディジタル多用途ディスク（ＤＶＤ）を含む）、光磁気ディスク（ミニディスク（ＭＤ）（登録商標）含む）及び半導体メモリがある。又は、記憶媒体は、ＲＯＭ１１０２、記憶部１１０８に含まれるハードディスクであって、プログラムが記憶されており、且つそれらを含むデバイスとともにユーザに配布されるハードディスクなどであってもよい。

本発明は、コンピュータで読み取り可能な命令コードが記憶されたプログラムを提供する。上記命令コードは、コンピュータで読取られて実行されると、上記本発明の実施例による方法を実行することができる。

同様に、上述のコンピュータで読み取り可能な命令コードが記憶されたプログラム製品を搭載する記憶媒体も本発明の開示に含まれる。上記記憶媒体は、フロッピー(登録商標）ディスク、光ディスク、磁気光ディスク、メモリカード、メモリースティック等を含むが、それらに限定されない。

以上の本発明の具体的な実施例に対する記述において、一種の実施形態に対して記述し及び／又は示した特徴は、同一又は類似の形態で一つ又は複数の他の実施形態で使用されたり、他の実施形態における特徴と組合せたり、あるいは、他の実施形態における特徴の代替としたりすることができる。

強調すべきことは、専門用語「含む／有する」が、本文で使用される場合、特徴、要素、ステップ又は構成部分の存在を意味するが、一つ又は複数の他の特徴、要素、ステップ又は構成部分の存在又は付加を排除する訳でないという点である。

また、本発明の方法は、明細書に記述された時系列に従って実行されることに限られず、他の時系列に従って順次、並行に、又は個別に実行されてもよい。したがって、本明細書で記述された方法の実行順序は本発明の技術的範囲を制限するものでない。

以上で、本発明の具体的な実施形態を説明したが、上述の全ての実施形態及び実施例は例示的なものであり、限定的なものではないことを理解すべきである。当業者は、本願の特許請求の範囲の趣旨及び範囲内において本発明に対する各種の修正、改良又は均等物を企図することができる。これらの修正、改良又は均等物も本発明の保護範囲内に含まれると考えられる。
（付記１）
画像におけるテキスト領域を位置決めする方法であって、
入力画像における各画素の周りに存在可能なテキストの大きさを推定するステップと、
前記テキストの大きさ及び領域差異度に基づいて、前記入力画像から候補筆画領域を抽出するステップと、
前記候補筆画領域から真の筆画領域を特定するステップと、
前記真の筆画領域をマージしてテキスト領域を形成するステップと
を含む方法。
（付記２）
前記入力画像における各画素の周りに存在可能なテキストの大きさを推定するステップは、
前記入力画像に基づいて複数の階層のピラミッド画像を生成するステップと、
各階層のピラミッド画像における各画素の周りにテキストの存在する確率を推定するステップと、
前記確率及びピラミッドの階層に対応するテキストの大きさに基づいて前記入力画像における各画素の周りに存在可能なテキストの大きさを算出するステップと
を更に含む、付記１に記載の方法。
（付記３）
前記候補筆画領域を抽出するステップは、
前記入力画像における隣接した領域に対して、領域間の差異度と領域内の差異度を算出するステップと、
推定された入力画像における各画素の周りに存在可能なテキストの大きさに基づいて、領域の周りに存在可能なテキストの大きさを推定し、推定された領域の周りに存在可能なテキストの大きさに基づいて各領域内の差異度を調整するステップと、
隣接した領域の領域間の差異度及び隣接した領域の調整後の領域内の差異度に基づいて、前記隣接した領域をマージすべきか否かを判断するステップと、
前記隣接した領域をマージすべきと判断された場合に、前記隣接した領域をマージし、上述したステップを繰り返すステップと
を更に含み、
現在のすべての隣接した領域をいずれもマージすべきではないと判断された場合は、候補筆画領域を抽出したことを意味する、付記１に記載の方法。
（付記４）
隣接した領域の領域間の差異度が、隣接した領域の調整後の領域内の差異度の最小値よりも小さい場合に、前記隣接した領域をマージする、付記３に記載の方法。
（付記５）
前記の抽出ステップを開始する際の隣接した領域は、隣接した画素であり、前記領域の差異度は色差を含む、付記３又は４に記載の方法。
（付記６）
前記真の筆画領域を特定するステップは、
候補筆画領域のうち互いに相関する候補筆画領域を特定するステップと、
入力画像におけるすべての候補筆画領域のそれぞれが真の筆画領域であるか否かについての多種の仮定組合せを生成するステップと、
各種の仮定組合せに対して、前記仮定組合せ及び各候補筆画領域における画素の特徴に基づいて、各候補筆画領域の第１の確信度を算出し、前記仮定組合せ及び互いに相関する候補筆画領域における画素の特徴に基づいて、第１の確信度に対応する第２の確信度を算出し、その後、前記第１の確信度及び前記第２の確信度に基づいて、当該仮定組合せの場合を表す確信度を算出するステップと、
当該仮定組合せの場合を表す確信度の最も高い場合に対応した仮定組合せを、真の筆画領域を特定する結果とするステップと、
前記互いに相関する候補筆画領域が同一のテキスト行に属した場合に、当該仮定組合せの場合を表す確信度の算出において、その対応する第２の確信度に大きい重み係数を付加するステップと
を更に含む、付記１に記載の方法。
（付記７）
候補筆画領域のサイズ情報及び候補筆画領域間の距離に基づいて、前記候補筆画領域が相関するか否かを判断するステップを更に含む、付記６に記載の方法。
（付記８）
特徴空間において候補筆画領域をフィットし、同一のフィッティング曲線に属する候補筆画領域を、同一のテキスト行に属すると特定するステップと、
回帰誤差に基づいて、前記当該仮定組合せの場合を表す確信度の算出における重み係数を算出するステップと
を更に含む、付記６又は７に記載の方法。
（付記９）
前記真の筆画領域をマージするステップは、
筆画領域間の距離に基づいて筆画領域間の接続関係を特定するステップと、
異なるテキスト行に属する筆画領域間の接続関係を取り除くステップと、
異なる字に属する筆画領域間の接続関係を取り除くステップと
を更に含む、付記１に記載の方法。
（付記１０）
画像におけるテキスト領域を位置決めする装置であって、
入力画像における各画素の周りに存在可能なテキストの大きさを推定するための推定ユニットと、
前記テキストの大きさ及び領域の差異度に基づいて、前記入力画像から候補筆画領域を抽出するための抽出ユニットと、
前記候補筆画領域から真の筆画領域を特定するための特定ユニットと、
真の筆画単位をマージしてテキスト領域を形成するためのマージ・ユニットと
を含む装置。
（付記１１）
前記推定ユニットは、
前記入力画像に基づいて複数の階層のピラミッド画像を生成するための画像ピラミッド生成ユニットと、
各階層のピラミッド画像における各画素の周りにテキストの存在する確率を推定するための推定サブユニットと、
前記確率及びピラミッド階層に対応するテキストの大きさに基づいて前記入力画像における各画素の周りに存在可能なテキストの大きさを算出するための算出ユニットと
を含む、付記１０に記載の装置。
（付記１２）
前記抽出ユニットは、
前記入力画像における隣接した領域に対して、領域間の差異度及び領域内の差異度を算出するための差異度算出ユニットと、
推定された入力画像における各画素の周りに存在可能なテキストの大きさに基づいて、領域の周りに存在可能なテキストの大きさを推定し、推定された領域の周りに存在可能なテキストの大きさに基づいて、各領域内の差異度を調整するための調整ユニットと、
隣接した領域の領域間の差異度及び前記隣接した領域の調整後の領域内の差異度に基づいて、前記隣接した領域をマージする隣接領域マージ・ユニットと
を含む、付記１０に記載の装置。
（付記１３）
前記特定ユニットは、
候補筆画領域のうち互いに相関する候補筆画領域を特定するための相関特定ユニットと、
入力画像におけるすべての候補筆画領域それぞれが真の筆画領域であるか否かについての多種の仮定組合せを生成するための仮定組合せユニットと、
各種の仮定組合せに対して、前記仮定組合せ及び各候補筆画領域における画素の特徴に基づいて、各候補筆画領域の第１の確信度を算出し、前記仮定組合せ及び互いに相関する候補筆画領域における画素の特徴に基づいて、第１の確信度に対応する第２の確信度を算出し、その後、前記第１の確信度及び前記第２の確信度に基づいて、当該仮定組合せにおける場合を表す確信度を算出するための確信度算出ユニットと、
当該仮定組合せにおける場合を表す確信度の最も高い場合に対応した仮定組合せを、真の筆画領域を特定する結果とする特定サブユニットと
を含み、
前記互いに相関する候補筆画領域が同一のテキスト行に属した場合に、当該仮定組合せにおける場合を表す確信度の算出において、その対応する第２の確信度に大きい重み係数を付加する、付記１０に記載の装置。
（付記１４）
前記相関特定ユニットは、候補筆画領域のサイズ情報及び候補筆画領域間の距離に基づいて、前記候補筆画領域が相関するか否かを判断する、付記１３に記載の装置。
（付記１５）
前記確信度算出ユニットは、
特徴空間において候補筆画領域をフィットし、同一のフィッティング曲線に属する候補筆画領域を、同一のテキスト行に属すると特定し、回帰誤差に基づいて、当該仮定組合せにおける場合を表す確信度の算出における重み係数を算出する、付記１３又は１４に記載の装置。
（付記１６）
前記マージ・ユニットは、
筆画領域間の距離に基づいて筆画領域間の接続関係を特定するための接続ユニットと、
異なるテキスト行に属する筆画領域間の接続関係を取り除くための行分けユニットと、
異なる字に属する筆画領域間の接続関係を取り除くための字分けユニットと
を含む、付記１０に記載の装置。

１００装置
１０１推定ユニット
１０２抽出ユニット
１０３特定ユニット
１０４マージ・ユニット

Claims

画像におけるテキスト領域を位置決めする方法であって、
入力画像における各画素の周りに存在可能なテキストの大きさを推定するステップと、
前記テキストの大きさ及び領域差異度に基づいて、前記入力画像から候補筆画領域を抽出するステップと、
前記候補筆画領域から真の筆画領域を特定するステップと、
前記真の筆画領域をマージしてテキスト領域を形成するステップと
を含み、
前記候補筆画領域を抽出するステップは、
前記入力画像における隣接した領域に対して、領域間の差異度と領域内の差異度を算出するステップと、
推定された入力画像における各画素の周りに存在可能なテキストの大きさに基づいて、領域の周りに存在可能なテキストの大きさを推定し、推定された領域の周りに存在可能なテキストの大きさに基づいて各領域内の差異度を調整するステップと、
隣接した領域の領域間の差異度及び隣接した領域の調整後の領域内の差異度に基づいて、前記隣接した領域をマージすべきか否かを判断するステップと、
前記隣接した領域をマージすべきと判断された場合に、前記隣接した領域をマージし、上述したステップを繰り返すステップと
を含み、
現在のすべての隣接した領域をいずれもマージすべきではないと判断された場合は、候補筆画領域を抽出したことを意味する、
方法。
隣接した領域の領域間の差異度が、隣接した領域の調整後の領域内の差異度の最小値よりも小さい場合に、前記隣接した領域をマージする、請求項１に記載の方法。
前記の抽出ステップを開始する際の隣接した領域は、隣接した画素であり、前記領域の差異度は色差を含む、請求項１又は２に記載の方法。
画像におけるテキスト領域を位置決めする方法であって、
入力画像における各画素の周りに存在可能なテキストの大きさを推定するステップと、
前記テキストの大きさ及び領域差異度に基づいて、前記入力画像から候補筆画領域を抽出するステップと、
前記候補筆画領域から真の筆画領域を特定するステップと、
前記真の筆画領域をマージしてテキスト領域を形成するステップと
を含み、
前記真の筆画領域を特定するステップは、
候補筆画領域のうち互いに相関する候補筆画領域を特定するステップと、
入力画像におけるすべての候補筆画領域のそれぞれが真の筆画領域であるか否かについての多種の仮定組合せを生成するステップと、
各種の仮定組合せに対して、前記仮定組合せ及び各候補筆画領域における画素の特徴に基づいて、各候補筆画領域の第１の確信度を算出し、前記仮定組合せ及び互いに相関する候補筆画領域における画素の特徴に基づいて、第１の確信度に対応する第２の確信度を算出し、その後、前記第１の確信度及び前記第２の確信度に基づいて、当該仮定組合せの場合を表す確信度を算出するステップと、
当該仮定組合せの場合を表す確信度の最も高い場合に対応した仮定組合せを、真の筆画領域を特定する結果とするステップと、
前記互いに相関する候補筆画領域が同一のテキスト行に属した場合に、当該仮定組合せの場合を表す確信度の算出において、その対応する第２の確信度に大きい重み係数を付加するステップと
を含む、方法。
候補筆画領域のサイズ情報及び候補筆画領域間の距離に基づいて、前記候補筆画領域が相関するか否かを判断するステップを更に含む、請求項４に記載の方法。
特徴空間において候補筆画領域をフィットし、同一のフィッティング曲線に属する候補筆画領域を、同一のテキスト行に属すると特定するステップと、
回帰誤差に基づいて、当該仮定組合せの場合を表す確信度の算出における重み係数を算出するステップと
を更に含む、請求項４又は５に記載の方法。
画像におけるテキスト領域を位置決めする方法であって、
入力画像における各画素の周りに存在可能なテキストの大きさを推定するステップと、
前記テキストの大きさ及び領域差異度に基づいて、前記入力画像から候補筆画領域を抽出するステップと、
前記候補筆画領域から真の筆画領域を特定するステップと、
前記真の筆画領域をマージしてテキスト領域を形成するステップと
を含み、
前記真の筆画領域をマージするステップは、
筆画領域間の距離に基づいて筆画領域間の接続関係を特定するステップと、
異なるテキスト行に属する筆画領域間の接続関係を取り除くステップと、
異なる字に属する筆画領域間の接続関係を取り除くステップと
を含む、方法。
画像におけるテキスト領域を位置決めする装置であって、
入力画像における各画素の周りに存在可能なテキストの大きさを推定するための推定ユニットと、
前記テキストの大きさ及び領域の差異度に基づいて、前記入力画像から候補筆画領域を抽出するための抽出ユニットと、
前記候補筆画領域から真の筆画領域を特定するための特定ユニットと、
真の筆画単位をマージしてテキスト領域を形成するためのマージ・ユニットと
を含み、
前記抽出ユニットは、
前記入力画像における隣接した領域に対して、領域間の差異度と領域内の差異度を算出し、
推定された入力画像における各画素の周りに存在可能なテキストの大きさに基づいて、領域の周りに存在可能なテキストの大きさを推定し、推定された領域の周りに存在可能なテキストの大きさに基づいて各領域内の差異度を調整し、
隣接した領域の領域間の差異度及び隣接した領域の調整後の領域内の差異度に基づいて、前記隣接した領域をマージすべきか否かを判断し、
前記隣接した領域をマージすべきと判断された場合に、前記隣接した領域をマージし、上述したステップを繰り返し、
現在のすべての隣接した領域をいずれもマージすべきではないと判断された場合は、候補筆画領域を抽出したことを意味する、
装置。