JP5939056B2 - 画像におけるテキスト領域を位置決めする方法及び装置 - Google Patents

画像におけるテキスト領域を位置決めする方法及び装置 Download PDF

Info

Publication number
JP5939056B2
JP5939056B2 JP2012145538A JP2012145538A JP5939056B2 JP 5939056 B2 JP5939056 B2 JP 5939056B2 JP 2012145538 A JP2012145538 A JP 2012145538A JP 2012145538 A JP2012145538 A JP 2012145538A JP 5939056 B2 JP5939056 B2 JP 5939056B2
Authority
JP
Japan
Prior art keywords
area
text
stroke
areas
difference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012145538A
Other languages
English (en)
Other versions
JP2013016168A (ja
Inventor
パン・イーフォン
ジュ・ユアヌピン
スヌ・ジュヌ
直井 聡
聡 直井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JP2013016168A publication Critical patent/JP2013016168A/ja
Application granted granted Critical
Publication of JP5939056B2 publication Critical patent/JP5939056B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)

Description

本発明は、一般的に、画像処理に関し、具体的には、画像におけるテキスト領域を位置決めする方法及び装置に関する。
画像に対してインデクシング、検索、分類などを行う各種のアプリケーションにおいて、画像から画像内容に関する情報を抽出する必要がある。画像には通常、テキスト情報がある。このテキスト情報は画像の内容に対して比較的に高い相関性を有する。したがって、これらのテキスト情報の取得は、画像のアプリケーションにおいて重要なものである。通常、まず、画像におけるテキスト領域を位置決めし、次に、テキスト領域の位置している画像ブロックに対して抽出及び光学文字認識(OCR)処理を行って、テキスト情報を取得する。画像は、自然シーンによる画像と、人工的に付加されたテキストによる画像とに分けることができる。人工的に付加されたテキストによる画像は人の関与があるため、その中からテキスト領域を位置決めすることは相対的に簡単である。自然シーンによる画像は画像を単位とするため、テキスト領域の画像と非テキスト領域の画像とを区別し難い。そのため、その中からテキスト領域を位置決めするのは難しい。本発明は、画像中のテキスト領域を位置決めすることに着目して、自然シーンによる画像を含む比較的複雑な画像を処理することができる。
以下に、本発明の幾つかの局面に対する基本的な理解をもたらすように本発明に関して簡単に概説する。ここで理解すべきことは、この概説が、本発明に関する網羅的な概説ではないということである。本発明の主要部分を特定することを意図するものでなく、本発明の範囲を限定することを意図するものでもない。単に、話を単純化するために幾つかの概念を表して、後述する詳細な説明に先行する説明とすることを目的とする。
本発明の目的は、従来技術の上記問題点に対して、画像におけるテキスト領域を位置決め可能な方法及び装置を提供することにある。この技術的な方策は、画像から、高速かつ正確にテキスト領域を位置決めすることができ、任意の種類の画像に適用する。
上記目的を実現するために、本発明の1つの局面によれば、画像におけるテキスト領域を位置決めする方法を提供する。上記方法は、入力画像における各画素の周りに存在可能なテキストの大きさを推定するステップと、上記テキストの大きさ及び領域の差異度に基づいて、上記入力画像から候補筆画領域を抽出するステップと、上記候補筆画領域から真の筆画領域を特定するステップと、上記真の筆画領域をマージしてテキスト領域を形成するステップとを含む。
本発明の他の局面によれば、画像におけるテキスト領域の位置決め装置を提供する。上記装置は、入力画像における各画像の周りに存在可能なテキストの大きさを推定するための推定ユニットと、上記テキストの大きさ及び領域の差異度に基づいて、上記入力画像から候補筆画領域を抽出するための抽出ユニットと、上記候補筆画領域から真の筆画領域を特定するための特定ユニットと、真の筆画単位をマージしてテキスト領域を形成するためのマージ・ユニットとを含む。
また、本発明の他の局面によれば、さらに記憶媒体を提供する。上記記憶媒体は、機械による読み取り可能なプログラムコードを有する。情報処理装置において上記プログラムコードを実行すると、上記プログラムコードは、上記情報処理装置に本発明による上記方法を実行させる。
また、本発明の他の局面によれば、さらにプログラムを提供する。上記プログラムはコンピュータ実行可能なコマンドを有する。情報処理装置において上記コマンドを実行すると、上記コマンドは、情報処理装置に本発明による上記方法を実行させる。
処理すべき自然シーンによる画像の例を示す図である。 本発明による一実施例に係る画像中のテキスト領域を位置決めする方法を示すフローチャートである。 画像ピラミッドの構造を示す模式図である。 図2のステップS201の詳細を示すフローチャートである。 図2のステップS202の詳細を示すフローチャートである。 図2のステップS203の詳細を示すフローチャートである。 図2のステップS204の詳細を示すフローチャートである。 図7AのステップS702の詳細を示すフローチャートである。 全ての筆画領域を接続するチェーン構造を示す模式図である。 行分け後のチェーン構造を示す模式図である。 字分け後のチェーン構造を示す模式図である。 本発明による一実施例に係る画像におけるテキスト領域の位置決め方法の処理結果を示す模式図である。 本発明による一実施例に係る画像におけるテキスト領域の位置決め装置の構成を示すブロック図である。 本発明の実施例の方法及び装置を実現するためのコンピュータを模式的に示すブロック図である。
以下、図面を参照しながら本発明の例示的な実施例を詳細に説明する。話を明瞭かつ簡潔にするために、本明細書においては、実際的な実施形態のすべての特徴を説明している訳ではない。しかし、理解すべきことは、何れのこのような実際的な実施例を開発する過程においても、実施形態によって限定された決まりを多くしなければならないという点である。例えば、システム及び業務に関する制約条件などの制約条件が満たされ、前述の制約条件は実施形態によって変わる可能性がある。なお、開発作業は非常に複雑でかつ時間がかかるものであるが、本開示内容の恩恵を受ける当業者には、このような開発作業が単に日常的な任務であることも理解されよう。
ここで、さらに説明すべきことは、不必要な詳細により、本発明を分かりにくくすることのないように、図面において本発明の技術的な方策と密接に関係する装置構造及び/又は処理ステップのみを示す一方、本発明とあまり関係していない他の詳細を省略しているという点である。また、さらに指摘すべきことは、本発明の一図面、又は一種類の実施形態において説明した要素及び特徴は、一つ又は複数の他の図面若しくは実施例に示された要素及び特徴と組み合わせてもよいという点である。
以下、図2を参照しながら本発明の一実施例による画像中のテキスト領域の位置決め方法の流れを説明する。
図1は本発明が処理可能な画像の一つの具体的な例を示す。図1に示す自然シーンによる画像において、家としての背景及び交通標識としての前景がある。しかし、上述のように、当該画像は画素を単位とし、画像中のテキスト領域に対して人工的に付加されたタグが一切ないため、その中から正確に、迅速にテキスト領域を抽出し難い。
図2に示すように、本発明の一実施例による画像中のテキスト領域の位置決め方法は、入力された画像における画素毎の周りに存在可能なテキストの大きさを推定するステップ(S201)と、上記テキストの大きさ及び領域の差異度に基づいて、上記入力された画像から候補筆画領域を抽出するステップ(S202)と、上記候補筆画領域から真の筆画領域を特定するステップ(S203)と、上記真の筆画領域をマージしてテキスト領域を形成するステップ(S204)とを含む。
以下、図3及び図4を参照しながら図2のステップS201を具体的に説明する。
図3は、画像ピラミッドの構造を示している。なお、階層Ln(n≧1)毎に1枚のピラミッド画像が存在している。第1階層L1に対応するピラミッド画像は元の入力画像である。図1は、入力画像の具体例を示す。各階層Lnは第1階層L1に対するスケーリング係数scを有する。各階層Ln(n>1)に対してスケーリング係数scで入力画像を均等な比率で縮小してこの階層のピラミッド画像を得る。例えば、入力画像は8×8画素の大きさである。ステップ幅が1/2である場合、第2階層の第1階層L1に対するスケーリング係数はsc=1/2であり、最近隣接内挿法を採用すると、4×4画素の大きさの第2階層のピラミッド画像が得られる。順次に類推すると、図3のように、入力画像から複数のスケーリングの画像ピラミッドを取得することができる。第n階層(n≧1)については、ステップ幅がstepであれば、第n階層のスケーリング係数がsc=stepn−1となることは明らかである。入力画像における各画素のスケーリング係数は、各階層のピラミッド画像におけるその対応する画素(当該画素自身を含む)の確信度及び各階層のピラミッド画像のスケーリング係数により算出されたものであり、式2を参照しながら後述する。
図4は図2中のステップS201の詳細を示すフローチャートである。
まず、上述のように、入力画像に基づいて複数の階層のピラミッド画像、すなわち、画像ピラミッド(ステップS401)を生成する。
その後、各階層のピラミッド画像に対して、各画素の周りにテキストの存在する確率を推定する(ステップS402)。具体的には、各階層のピラミッド画像に対して、一定の大きさのスキャンウィンドウでスキャンして、各階層のピラミッド画像の各画素の周りにテキストの存在する確率を取得する。本実施例において、各階層のピラミッド画像のスキャンウィンドウの大きさは元の入力画像の大きさとして固定される。画素毎に、当該画素を中心としたスキャンウィンドウ内の局所テクスチャ、例えば、勾配方向ヒストグラムHO(Histograms of Oriented Gradient)G特徴を算出する。算出されたHOG特徴を訓練済みの分類器に入力し、分類器は当該画素の周りにテキストの存在する確信度(確率)を返すことができる。
分類器を訓練する際に、一つの画素の周りにテキスト領域が存在しているか否かということは既に分かっている。すなわち、一つの画素が、テキスト領域を構成する画素の一つであるか否かということは既に分かっている。例えば、1は当該画素の周りにテキスト領域が存在することを示し、0は当該画素の周りにテキスト領域が存在しないことを示す。一枚の画像における画素毎に、一定の大きさのスキャンウィンドウでHOG特徴を算出し、算出したHOG特徴及び1又は0で表された当該画素の周りにテキストが存在するか否かの確信度を分類器に入力する。大量の訓練が行われた分類器はステップS402に適用可能である。
注意すべきことは、ここで局所テクスチャが上述のHOG特徴に限定されないという点である。例えば、ウェーブレット特徴を算出してもよい。一つの画素を中心とするスキャンウィンドウ内の画素に対してウェーブレット変換を行い、変換によって得られたウェーブレット係数の統計量、例えば、平均値及び/又は分散を当該画素のウェーブレット特徴とする。分類器については、Waldboost、AdaBoost等の分類器を選択することができる。
ステップS403では、まず、入力画像の各画素に対して、各階層のピラミッド画像における、その対応する画素の座標を算出する。例えば、第2階層のピラミッド画像が対応するスケーリング係数scが2の場合、入力画像における座標が(a,b)である画素は、第2階層のピラミッド画像における座標が(2a,2b)である画素に対応する。すなわち、入力画像において画素の横座標及び縦座標にそれぞれ対応するピラミッドの階層のスケーリング係数を乗じると、当該スケーリング係数の対応するピラミッド画像において対応する画素の横座標及び縦座標が得られる。スケーリング係数が整数ではない値である場合、算出結果を四捨五入して整数化して、対応する画素の横座標及び縦座標とする。入力画像中の一つの画素について、第1階層のピラミッド、すなわち、入力画像におけるその対応する画素がそれ自身であるということは明らかである。したがって、入力画像における一つの画素について、各階層のピラミッド画像それぞれにおいて、対応する画素が一つ存在する。
入力画像におけるi番目の画素sが対応する各階層のピラミッド画像(第1階層のピラミッド画像、すなわち入力画像自身を含む)における各画素によって構成された集合をPとする。jはPに属し、ある階層のピラミッド画像における、sに対応する画素であり、当該ピラミッド画像の対応するスケーリング係数はscであることを仮定する。ステップS402で算出されたjの周りにテキストが存在する確信度はwであることを仮定する。以下の式1、2に従って入力画像における画素sの周りにテキストが存在する確率
Figure 0005939056
及びスケーリング係数scを算出する。
Figure 0005939056
Figure 0005939056
ただし、
Figure 0005939056
Figure 0005939056
は、それぞれ、確信度及びスケーリング係数の正規化因子を示す。
また、上記式1及び2において、wは重み付け係数として、各階層のピラミッドにおいて対応する画素の情報を第1階層のピラミッド画像としての元の入力画像に投影する。
スケーリング係数sc及びスキャンウィンドウの大きさにより、入力画像における画素sの周りに存在可能なテキストの大きさを算出することができる。例えば、スキャンウィンドウの長さlength又は幅widthでスキャンウィンドウの大きさを示すと、length/sc又はwidth/scを半径とする円、又はlength/sc及びwidth/scを長さ及び幅とする矩形の領域は、入力画像における画素sの周りに存在可能なテキストの大きさを表すことができる。
式2の変形として、scをlength/scに置き換えると、等式の左辺はlength/scになる。上記説明から分かるように、式2の物理的意義は、各階層のピラミッドにおける、入力画像中の各画素sに対応する画素jの確信度wと、当該ピラミッド階層に対応するテキストの大きさlength/scとに基づいて、入力画像における各画素sの周りに存在可能なテキストの大きさlength/scを算出するというものである。
前記式1、2の候補として、入力画像における画素sに対応する画素のうち、確信度wの最も高い画素jの確信度wとスケーリング係数scとを、画素sの周りにテキストが存在する確率
Figure 0005939056
とスケーリング係数scとする。
ステップS401−S403によれば、元の入力画像における、各画素の周りにテキストが存在する確率と、各画素の周りに存在可能なテキストの大きさを取得することができる。
ここで画像ピラミッドを採用してスケーリング変換を行うことで、任意な大きさの文字を検出することができる。相対的には、スケーリング変更を行わずに、大きさが一定のウィンドウで画像をスキャンする場合、すなわち、上記実施例の第1階層のみが存在する場合、依然として、各画素周りにテキストが存在する確率を取得することができ、各画素の周りに存在可能なテキストの大きさはスキャンウィンドウの大きさである。この場合、本発明を依然として実現することができるが、スケーリング変換がないため、大きさが一定の文字のみを検出することができる。
注意すべきことは、スケーリング変換の方法が、上述された、スキャンウィンドウが変化せずに各階層のピラミッド画像スケーリングをズームする場合に限定されないという点である。入力画像をズームせずに、大きさの変化するスキャンウィンドウ(すなわち、スケーリング変換)を採用して入力画像に対して複数回のスキャンを行ってもよい。この場合、各回のスキャンの結果により、同様に、入力画像における各画素の周りにテキストが存在する確率と、各画素の周りに存在可能なテキストの大きさとを算出することができる。
以下、図5を参照しながら、図2中のステップS202を具体的に説明する。
図5は、図2中のステップS202の詳細を示すフローチャートである。
上述のように、ステップS202において、ステップS201で算出された各画素の周りに存在可能なテキストの大きさ及び領域差異度に基づいて、上記入力画像から候補筆画領域を抽出する。
具体的には、予め決められた条件を満たすまで、領域(当初は画素)のマージの反複によって入力画像における類似の領域をマージし続ける。これにより、候補筆画領域としてマージした複数の領域が得られる。マージの基準は、主に領域内の差異度、領域間の差異度、領域周りに存在可能なテキストの大きさを考慮したものである。
まず、ステップS501において、入力画像における隣接した領域に対して領域間の差異度及び領域内の差異度を算出する。領域内の差異度は、例えば領域内の最も大きい色差である。階調画像について、領域内の最も大きい色差は領域内の全ての画素のうち、階調値最高の画素と階調値最低の画素との間の、階調値の差の絶対値である。例えば、(Y,Cr,Cb)が示す色彩画像に対して各画素の
Figure 0005939056
の値を算出することができ、領域内の各画素間の最大の
Figure 0005939056
の差の絶対値を領域内の最大色差とする。領域間の差異度は、階調画像について二つの領域の諧調の平均値の差の絶対値をとることができ、カラー画像について2つの領域の
Figure 0005939056
の平均値の差の絶対値をとることができる。まず、隣接した領域は隣接した画素であり、隣接した画素の領域内の差異度は0であり、隣接した画素の領域間の差異度は、例えば隣接した画素の階調値の差の絶対値(階調画像について)、又は隣接した画素の
Figure 0005939056
の差の絶対値又は隣接した画素の輝度の差の絶対値(カラー画像について)である。
ステップS501において、仮に、隣接した領域をC、Cとし、領域Cの画素のうち領域Cの画素と隣接した画素からなる集合をCとし、領域Cの画素のうち領域Cの画素と隣接した画素からなる集合をCとする。上述のように、C、Cの範囲で領域内の差異度及び領域間の差異度を算出する実施形態以外、単にC、Cだけの範囲において上述の方法を採用して、C、Cの領域内の差異度及び領域間の差異度を算出して、C、Cの領域内の差異度及び領域間の差異度を表してもよい。
次に、ステップS502において、ステップS201で推定した入力画像における、画素毎の周りに存在可能なテキストの大きさに基づいて、領域の周りに存在可能なテキストの大きさを推定し、推定された領域の周りに存在可能なテキストの大きさに基づいて、各領域内の差異度を調整する。
当該ステップは、発明者による以下の発見、すなわち、領域内の差異度及び領域間の差異度のみに基づいて隣接した領域をマージするか否かを決めることが完全に正確な訳ではないことを基づいたものである。隣接した領域C、Cの周りに存在可能なテキストの大きさが小さいと分かっていれば、C、Cは、マージすべきではないものである可能性が高い。隣接した領域C、Cの周りに存在可能なテキストの大きさが大きいと分かっていれば、C、Cは、マージすべきものである可能性が高い。したがって、更に領域周りに存在可能なテキストの大きさを考慮し、領域内の差異度を調整することにより、隣接した領域C、Cをマージすべきか否かについて、より正確に判断することができる。
領域Cに1つの画素のみが含まれている場合、領域Cにおける唯一の画素のスケーリング係数sc及びスキャンウィンドウの大きさを使用して入力画像における領域Cの周りに存在可能なテキストの大きさを算出することができる。例えば、スキャンウィンドウの長さlength又は幅widthでスキャンウィンドウの大きさを示すと、length/sc又はwidth/scを半径とする円、又はlength/sc及びwidth/scを長さ及び幅とする矩形の領域は、入力画像中の領域Cの周りに存在可能なテキストの大きさを表すことができる。領域Cに一つより多い画素が含まれると、領域Cにおけるスケーリング係数scの平均値及びスキャンウィンドウの大きさにより、入力画像における領域Cの周りに存在可能なテキストの大きさを算出することができる。例えば、スキャンウィンドウの長さlength又は幅widthでスキャンウィンドウの大きさを示し、scの平均値をa_scとすると、length/a_sc又はwidth/a_scを半径とする円、又はlength/a_sc及びwidth/a_scを長さ及び幅とする矩形の領域は、入力画像中の領域Cの周りに存在可能なテキストの大きさを表すことができる。
次に、ステップS503において、隣接した領域の領域間の差異度が、隣接した領域の調整後の領域内の差異度の最小値よりも小さいか否かを判断する。判断結果が肯定の場合、ステップS504に進んで、隣接した領域C、Cをマージした後に、ステップS505に進む。判断結果が否定の場合、直接、ステップS505に進む。
注意すべきことは、現在のすべての隣接した領域に対して、ステップS501−S503を行うという点である。
ステップS505において、現在のすべての隣接した領域のいずれもステップS503での判断においてマージ条件を満たしていないか否かを判断する。判断結果が否定の場合に、すなわち、新たにマージした少なくとも一つの領域がある場合に、ステップS501に戻る。判断結果が肯定の場合、現在のすべての隣接した領域のいずれもマージすることができず、すなわち、すべての候補筆画領域を既に抽出していることを意味する。
以下に、上記ステップS501−S503を実現する例示的な式3、4を表す。
Figure 0005939056
Figure 0005939056
Dif(C,C)は領域間の差異度を示す。D(C,C)がtrueである場合には領域C、Cをマージし、D(C,C)がfalseである場合には領域C、Cをマージしない。min()は最小値をとることを示し、Int(C)、Int(C)はそれぞれ、領域C、Cの領域内の差異度を表す。τ(C)、τ(C)はそれぞれ、領域C、Cのスケーリング正則化項であり、領域C、Cの周りに存在可能なテキストの大きさを表す。上述のように、ステップS201により、1つの画素の周りに存在可能なテキストの大きさが得られるとともに、その中の各画素の周りに存在可能なテキストの大きさに基づいてC、Cの周りに存在可能なテキストの大きさ
Figure 0005939056
Figure 0005939056
を算出することができる。
Figure 0005939056
Figure 0005939056
にそれぞれ、経験によって得られる係数値Kを乗算すると、領域C、Cのスケーリング正則化項τ(C)、τ(C)が得られる。MInt(C,C)は、中間算出結果となり、隣接した領域の調整後の領域内の差異度の最小値である。
以下に、図6を参照して図2のステップS203を詳細に説明する。
図6は、図2のステップS203の詳細を示すフローチャートである。
上述のように、ステップS202で複数の候補筆画領域が取得されている。以下、ステップS203において、背景から誤って抽出した候補筆画領域をフィルタリングし、除去して真の筆画領域を特定する。
ステップS202において、条件付き確率場CRFモデルを採用し、同時に、個別の筆画特徴と隣接した筆画との関係を考慮して、候補筆画領域が真の筆画領域であるか否かを正確に特定する。
まず、ステップS601において、候補筆画領域のうち、互いに相関する候補筆画領域を特定する。具体的には、候補筆画領域のサイズ情報及び候補筆画領域の間の距離に基づいて、上記候補筆画領域が相関するか否かを判断する。一つの候補筆画領域が一つの連通領域であり、連通領域の外切矩形の幅及び高さを当該候補筆画領域の幅w及び高さhとし、二つの候補筆画領域i及びjの質量中心間の距離をdist(r,r)とし、min[]が最小値をとることを表し、以下の式5により、二つの候補筆画領域が相関するか否かを判断する。
Figure 0005939056
式5を満たした候補筆画領域は、相関すると考えられる。全ての候補筆画領域に対して以上の判断を行うと、候補筆画領域近隣図が得られる。なお、候補筆画領域をノードとし、相関する候補筆画領域の対応するノードが互いに接続する。
ステップS602において、次の式6に従って真の筆画領域を特定する。
Figure 0005939056
Eは確信度を示し、訓練された分類器によって与えられるものである。Xは特徴の観測値を示す。Yは真の筆画領域であるか否かを示す。Gは候補筆画領域近隣図を示す。Λはパラメータを示す。xは、例えば候補筆画領域のサイズ、確信度などの特徴である。上記ステップS201では、一つの画素の周りにテキスト領域が存在する確信度を算出することで、候補筆画領域の周りにテキスト領域の存在する確信度を算出して(例えば、候補筆画領域における各画素の周りにテキスト領域の存在する確信度の平均値をとる)候補筆画領域iの特徴xとすることができる。yは、候補筆画領域iが真の筆画領域であるか否かを示す。yが1である場合、iは真の筆画領域である。yが0である場合、iは真の筆画領域ではない。λuni、λbiは、分類器を訓練することによって得られたパラメータである。Nはiと相関する全ての候補筆画領域の集合である。jはNにおける一つの候補筆画領域である。xは候補筆画領域jの特徴を示し、例えば、候補筆画領域jにおける各画素周りにテキスト領域の存在する確信度である。yは候補筆画領域jが真の筆画領域であるか否かを示し、yが1である場合、jは真の筆画領域である。yが0である場合、ときに、jは真の筆画領域ではない。λijは、重み係数であり、jとiの相関度を反映している。次の式7、8を採用して重み係数λijを算出する。
Figure 0005939056
Figure 0005939056
各候補筆画領域iに対して、それと相関する全ての候補筆画領域(すなわち、N)及びi自身を利用して、iの所在しているテキスト行lをフィットする。具体的には、特徴区間において一つの点は一つの候補筆画領域の特徴を示す。N及びiの対応する点をフィットし、同一のフィッティング曲線に属する点の対応する候補筆画領域を、iの所在のテキスト行lに属すると特定する。jは、Nに属する、iと相関する候補筆画領域の一つである。dist(j,li)はjの質量中心からlまでの距離である。
Figure 0005939056
は経験によって得られる正規化因子である。exp[]は、自然対数eを底とする指数関数である。
Figure 0005939056
は回帰誤差である。以上から分かるように、jとlの距離が遠いほど、
Figure 0005939056
が小さくなる。
Figure 0005939056
の使用により、iと相関する候補筆画領域jの重み係数と異なるようにし、iと同一のテキスト行に属するjがiに対する影響がより大きくなる。よって、iから離れた特徴の類似する候補筆画領域がiに大きい影響を与えることが回避される。
上記の式において、E(x,x,y,y,λbi)の代わりにE(xij,y,y,λbi)を使用可能であり、xijは、候補筆画領域i及びjにおける各画素の周りにテキスト領域の存在する確信度の平均値の差の絶対値をとることができる。xijは、候補筆画領域iとjの質量中心の距離をとることもでき、領域間の関係をよりよく反映できるようになっている。E(x,y,λuni
は、単一の候補筆画領域が真の筆画領域であるか否かについての確信度であり(呈する値がyの場合によるものである)、E(x,x,y,y,λbi)は、呈する値がy,yの場合の確信度を示し、
Figure 0005939056
は、相関する候補筆画領域間の関係を示す。
各候補筆画領域iに対して、i、及びiに対する全てのjが真の筆画領域であるか否かを仮定する、すなわち、y、yの値を仮定する。全ての値取りの可能性及び相応する特徴(すなわち、x、x及び/又はxij)が訓練済みの分類器に入力され、分類器からE(x,y,λuni)の代わりにE(x,x,y,y,λbi)の値が返され、E(X,Y,G,Λ)が算出される。E(X,Y,G,Λ)を最大値にすると、対応するy、yの値取り結果が真の筆画領域の特定結果とされる。
すなわち、ステップS602において、入力画像におけるすべての候補筆画領域それぞれが真の筆画領域であるか否かに関する多種の仮定の組合せを生成する。各種の仮定の組合せそれぞれに対して、上記仮定の組合せ及び各候補筆画領域における画素の特徴に基づいて各候補筆画領域の第1の確信度を算出し、上記仮定の組合せ及び互いに相関する候補筆画領域における画素の特徴に基づいて、第1の確信度と対応する第2の確信度を算出する。次に、上記第1の確信度及び第2の確信度に基づいて、当該仮定の組合せの場合を表す確信度を算出する。当該仮定の組合せの場合を表す確信度が最も高い場合に対応する仮定の組合せを、真の筆画領域の特定結果とする。なお、上記互いに相関する候補筆画領域は同一のテキスト行に属する場合に、上記仮定の組合せの場合を表す確信度の算出において、それに対応する第2の確信度に、比較的に大きい重み係数を付与する。
以上で、ステップS203において、真の筆画領域を取得している。以下、ステップS204では、真の筆画領域をマージして、テキスト領域を形成する。
以下、図7A−7B、8A−8Cを参照しながら、図2のステップS204を説明する。
図7Aは、図2のステップS204の詳細を示すフローチャートである。図8Aは全ての真の筆画領域を接続するチェーン構造の模式図である。図8Bは行分け後のチェーン構造の模式図である。図8Cは字分け後のチェーン構造の模式図である。
ステップS203において、真の筆画領域は既に特定されている。ステップS204において、これらの筆画領域をマージして、テキスト領域を形成する。
まず、ステップS701において、筆画領域間の距離に基づいて筆画領域間の接続関係を特定する。筆画領域間の距離は、筆画領域の質量中心間のユークリッド距離によって表すことができる。図8Aに示すように、筆画領域間の距離に基づいて、最小全域木アルゴリズムを採用して全ての筆画領域をチェーン構造に従って接続することができる。最小全域木アルゴリズムは本技術分野において既知のアルゴリズムであるので、ここでは説明しないものとする。
図8Aにおいて、筆画領域間の距離のみを基づいて筆画領域間の関係を判断する場合に、同一行における異なる字に属する筆画領域や、異なる行に属する筆画領域は、距離が近いために接続される可能性があるということは明らかである。したがって、後述のステップS702、S703において、このような誤接続を取り除くことに着目する。
ステップS702において、異なるテキスト行に属する筆画領域間の接続関係を取り除く。図7Bは図7AのステップS702の詳細のフローチャートを示す。
ステップS7021において、チェーン構造において一本の接続辺によって接続された二つの筆画領域間のユークリッド距離が閾値thedより大きいか否かを判断する。判断結果が否定の場合に、直接、ステップS7023に進む。判断結果が肯定の場合に、当該接続辺を切断し(ステップS7022)、ステップS7023に進む。
上記状況に類似させ、距離のみの場合には、まだ誤接続が残されるおそれがある。したがって、ステップS7023−S7025において、更に検出して誤接続を切断する。
ステップS7021及びS7022を行うと、本来の最小全域木アルゴリズムによって生成された一つのチェーン構造は、既に複数のチェーン構造に分割された可能性がある。各チェーン構造に対して、後述のステップS7023−S7025を実行する。
ステップS7023において、同一のチェーン構造に属する筆画領域を一本の中心線lにフィットする。例えば、最小二乗法を利用して、同一のチェーン構造に属する筆画領域の質量中心を一本の中心線lにフィットする。
当該チェーン構造に属する各筆画領域から当該中心線lまでの距離が予め設けられた閾値thleより大きいか否かを判断する(ステップS7024)。
判断結果が肯定の場合、中心線lの両側それぞれに少なくとも一つのテキスト行があることを表す。したがって、当該チェーン構造における,当該中心線1を跨る接続辺を切断する。(ステップS7025)
ステップS7025により、一つのチェーン構造は二つの新しいチェーン構造になるので、再びS7023に戻し、判断を続ける。
ステップS7024の判断結果が否定の場合、現在のチェーン構造において、一つのテキスト行しかないことを表す。したがって、テキスト行間の接続辺がなくなり、ステップS702が終了し、ステップS703に進み、同一のテキスト行に属する各字間の誤接続を切断する。ステップS702の処理結果は、図8Bに示される。
ステップS703において、ステップS702により得られたチェーン構造それぞれは一つのテキスト行を表す。各チェーン構造においては、複数の筆画領域が存在し、筆画領域は接続辺によって接続されている。接続されている各筆画領域間の枠距離bd及びテキスト行全体(即ち、チェーン構造)の平均枠距離a_bdを算出する。接続辺によって接続される二つの筆画領域の枠距離とは、この二つの筆画領域の外接矩形の隣接した辺間の距離を指す。接続辺によって接続される二つの筆画領域の枠距離bdがテキスト全体の平均枠距離a_bdよりもはるかに大きい場合(例えば、bd>a_bd*ξ、ξは経験で予め設けられた定数である)は、この二つの筆画領域が異なる字に属すべきであることを表し、これらの接続辺を切断する。すなわち、ステップS703では、異なる字に属する筆画領域間の接続関係を取り除く。ステップS703の処理結果は、図8Cに示す。
以上において、複数のチェーン構造を取得している。チェーン構造それぞれが一つの字を表し、各チェーン構造において、接続辺によって接続された複数の筆画領域を含む。チェーン構造毎の外接矩形を当該チェーン構造の対応する字のテキスト領域とすることができる。図9は本発明による一実施例とする画像におけるテキスト領域の位置決め方法の処理結果を示す模式図である。
以下、図10を参照して、本発明の一実施例による画像におけるテキスト領域を位置決めする装置の構造を説明する。図10は、本発明の一実施例による画像におけるテキスト領域を位置決めする装置の構造を示すブロック図である。図10に示すように、当該実施例による画像におけるテキスト領域を位置決めする装置100は、入力画像における各画素の周りに存在可能なテキストの大きさを推定するための推定ユニット101と、上記テキストの大きさ及び領域の差異度に基づいて、上記入力画像から候補筆画領域を抽出するための抽出ユニット102と、上記候補筆画領域から、真の筆画領域を特定するための特定ユニット103と、テキスト領域を形成するように上記真の筆画領域をマージするためのマージ・ユニット104とを含む。
上記推定ユニット101は、上記入力画像に基づいて複数階層のピラミッド画像を生成するための画像ピラミッド生成ユニット1011と、各階層のピラミッド画像における各画素の周りにテキストの存在する確率を推定するための推定サブユニット1012と、上記確率及びピラミッド階層に対応するテキストの大きさに基づいて、上記入力画像における各画素の周りに存在可能なテキストの大きさを算出するための算出ユニット1013とを含む。
上記抽出ユニット102は、上記入力画像における隣接した領域に対して領域間の差異度及び領域内の差異度を算出するための差異度算出ユニット1021と、推定された入力画像における各画素の周りに存在可能なテキストの大きさに基づいて領域の周りに存在可能なテキストの大きさを推定し、推定された領域の周りに存在可能なテキストの大きさに基づいて各領域内の差異度を調整するための調整ユニット1022と、隣接した領域の領域間の差異度及び上記隣接した領域の調整後の領域内の差異度に基づいて上記隣接した領域をマージするための隣接領域マージ・ユニット1023とを含む。
上記特定ユニット103は、候補筆画領域のうち互いに相関する候補筆画領域を特定するための相関特定ユニット1031と、入力画像におけるすべての候補筆画領域それぞれが真の筆画領域であるか否かに関する多種の仮定組合せを生成するための仮定組合せユニット1032と、仮定組合せ毎に、上記仮定組合せ及び各候補筆画領域における画素の特徴に基づいて、各候補筆画領域の第1の確信度を算出し、上記仮定組合せ及び互いに相関する候補筆画領域における特徴に基づいて、第1の確信度に対応する第2の確信度を算出し、その後、上記第1の確信度と上記第2の確信度に基づいて、当該仮定組合せの場合を表す確信度を算出するための確信度算出ユニット1033と、当該仮定組合せの場合を表す確信度の最も高い場合に対応する仮定組合せを真の筆画領域の特定結果とするための特定サブユニット1034とを含む。なお、上記互いに相関する候補筆画領域が同一のテキスト行に属する場合に、当該仮定組合せの場合を表す確信度の算出において、その対応する第2の確信度に比較的に大きい重み係数を付与する。なお、上記相関特定ユニットは、候補筆画領域のサイズ情報及び候補筆画領域間の距離に基づいて、上記候補筆画領域が相関するか否かを判断する。なお、上記確信度算出ユニットは、特徴空間において候補筆画領域をフィットし、同一のフィッティング曲線に属する候補筆画領域を同一のテキスト行に属すると特定し、回帰誤差に基づいて確信度の算出における重み係数を算出する。
上記マージ・ユニット104は、筆画領域間の距離に基づいて筆画領域間の接続関係を特定するための接続ユニット1041と、異なるテキスト行に属する筆画領域間の接続関係を取り除くための行分けユニット1042と、異なる字に属する筆画領域間の接続関係を取り除くための字分けユニット1043とを含む。
本発明による画像におけるテキスト領域の位置決め装置100に含まれた推定ユニット101、抽出ユニット102、特定ユニット103、マージ・ユニット104での処理はそれぞれ上述した画像におけるテキスト領域の位置決め方法のステップS201−S204での処理と類似しており、話を簡潔にするために、これらのユニットに対する詳細説明を省略する。
同様に、推定ユニット101に含まれた画像ピラミッド生成ユニット1011、推定サブユニット1012、算出ユニット1013での処理はそれぞれ、上述したステップS401−S403での処理と類似し、抽出ユニット102に含まれた差異度算出ユニット1021、調整ユニット1022、隣接領域マージ・ユニット1023での処理はそれぞれ、上述したステップS501−S505での処理と類似し、特定ユニット103に含まれた相関特定ユニット1031、仮定組合せユニット1032、確信度算出ユニット1033、特定サブユニット1034での処理はそれぞれ、上述したステップS601−S602での処理と類似し、マージ・ユニット104に含まれた接続ユニット1041、行分けユニット1042、字分けユニット1043での処理はそれぞれ上述したステップS701−S703での処理と類似しており、話を簡潔にするために、これらのユニットに対する詳細説明を省略する。
また、ここで指摘すべきことは、上記装置中の各構成モジュール、ユニットは、ソフトウェア、ファームウェア、ハードウェア又はそれらの組合せによって構成されてよい。構成に使用可能な具体的な手段又は方式は、当業者に既に知られているものであるため、ここでは説明しない。ソフトウェア又はファームウェアにより実現される場合、記憶媒体又はネットワークから専用ハードウェア構造を有するコンピュータ(例えば、図11に示された汎用コンピュータ1100)に、当該ソフトウェアを構成するプログラムをインストールする。当該コンピュータは、各種のプログラムがインストールされると、各種機能の実行等が可能である。
図11は、本発明の実施例による方法及び装置を実施するためのコンピュータを模式的に示すブロック図である。
図11において、中央処理ユニット(CPU)1101は、リードオンリーメモリ(ROM)1102に記憶されたプログラム、又は記憶部1108からランダムアクセスメモリ(RAM)1103にロードされたプログラムに基づいて、各種の処理を実行する。RAM1103において、必要に応じ、CPU1101が各種の処理等を実行する場合に必要とされるデータも記憶される。CPU1101、ROM1102及びRAM1103は、バス1104を経由して互いに接続される。入力/出力インターフェース1105もバス1104に接続される。
入力部1106(キーボード、マウス等を含む)と、出力部1107(例えば、陰極線管(CRT)、液晶ディスプレイ(LCD)等のようなディスプレイ及びスピーカ等を含む)と、記憶部1108(ハードディスク等を含む)と、通信部1109(LANカードのようなネットワークインターフェースカード、モデム等を含む)は、入力/出力インターフェース1105に接続される。通信部1109はネットワーク(例えば、インターネット)を経由して通信処理を実行する。必要に応じ、ドライバ1110は入力/出力インターフェース1105に接続されてもよい。取り外し可能な媒体1111、例えば磁気ディスク、光ディスク、光磁気ディスク、半導体メモリ等が必要に応じてドライバ1110に取り付けられ、これによりその中から読み出されたコンピュータプログラムが必要に応じて記憶部1108にインストールされる。
ソフトウェアにより、上述の一連の処理を実現する場合は、ネットワーク、例えばインターネット、又は記憶媒体、例えば取り外し可能な媒体1111からソフトウェアを構成するプログラムをインストールする。
このような記憶媒体は、図11に示された、その中にプログラムが記憶されており、デバイスから離れて配送されてユーザにプログラムを提供する取り外し可能な媒体1111に限定されないことを、当業者は理解すべきである。取り外し可能な媒体1111としては、例えば、磁気ディスク(フロッピー(登録商標)・ディスク含む)、光ディスク(コンパクトディスク・リードオンリーメモリ(CD−ROM)やディジタル多用途ディスク(DVD)を含む)、光磁気ディスク(ミニディスク(MD)(登録商標)含む)及び半導体メモリがある。又は、記憶媒体は、ROM1102、記憶部1108に含まれるハードディスクであって、プログラムが記憶されており、且つそれらを含むデバイスとともにユーザに配布されるハードディスクなどであってもよい。
本発明は、コンピュータで読み取り可能な命令コードが記憶されたプログラムを提供する。上記命令コードは、コンピュータで読取られて実行されると、上記本発明の実施例による方法を実行することができる。
同様に、上述のコンピュータで読み取り可能な命令コードが記憶されたプログラム製品を搭載する記憶媒体も本発明の開示に含まれる。上記記憶媒体は、フロッピー(登録商標)ディスク、光ディスク、磁気光ディスク、メモリカード、メモリースティック等を含むが、それらに限定されない。
以上の本発明の具体的な実施例に対する記述において、一種の実施形態に対して記述し及び/又は示した特徴は、同一又は類似の形態で一つ又は複数の他の実施形態で使用されたり、他の実施形態における特徴と組合せたり、あるいは、他の実施形態における特徴の代替としたりすることができる。
強調すべきことは、専門用語「含む/有する」が、本文で使用される場合、特徴、要素、ステップ又は構成部分の存在を意味するが、一つ又は複数の他の特徴、要素、ステップ又は構成部分の存在又は付加を排除する訳でないという点である。
また、本発明の方法は、明細書に記述された時系列に従って実行されることに限られず、他の時系列に従って順次、並行に、又は個別に実行されてもよい。したがって、本明細書で記述された方法の実行順序は本発明の技術的範囲を制限するものでない。
以上で、本発明の具体的な実施形態を説明したが、上述の全ての実施形態及び実施例は例示的なものであり、限定的なものではないことを理解すべきである。当業者は、本願の特許請求の範囲の趣旨及び範囲内において本発明に対する各種の修正、改良又は均等物を企図することができる。これらの修正、改良又は均等物も本発明の保護範囲内に含まれると考えられる。
(付記1)
画像におけるテキスト領域を位置決めする方法であって、
入力画像における各画素の周りに存在可能なテキストの大きさを推定するステップと、
前記テキストの大きさ及び領域差異度に基づいて、前記入力画像から候補筆画領域を抽出するステップと、
前記候補筆画領域から真の筆画領域を特定するステップと、
前記真の筆画領域をマージしてテキスト領域を形成するステップと
を含む方法。
(付記2)
前記入力画像における各画素の周りに存在可能なテキストの大きさを推定するステップは、
前記入力画像に基づいて複数の階層のピラミッド画像を生成するステップと、
各階層のピラミッド画像における各画素の周りにテキストの存在する確率を推定するステップと、
前記確率及びピラミッドの階層に対応するテキストの大きさに基づいて前記入力画像における各画素の周りに存在可能なテキストの大きさを算出するステップと
を更に含む、付記1に記載の方法。
(付記3)
前記候補筆画領域を抽出するステップは、
前記入力画像における隣接した領域に対して、領域間の差異度と領域内の差異度を算出するステップと、
推定された入力画像における各画素の周りに存在可能なテキストの大きさに基づいて、領域の周りに存在可能なテキストの大きさを推定し、推定された領域の周りに存在可能なテキストの大きさに基づいて各領域内の差異度を調整するステップと、
隣接した領域の領域間の差異度及び隣接した領域の調整後の領域内の差異度に基づいて、前記隣接した領域をマージすべきか否かを判断するステップと、
前記隣接した領域をマージすべきと判断された場合に、前記隣接した領域をマージし、上述したステップを繰り返すステップと
を更に含み、
現在のすべての隣接した領域をいずれもマージすべきではないと判断された場合は、候補筆画領域を抽出したことを意味する、付記1に記載の方法。
(付記4)
隣接した領域の領域間の差異度が、隣接した領域の調整後の領域内の差異度の最小値よりも小さい場合に、前記隣接した領域をマージする、付記3に記載の方法。
(付記5)
前記の抽出ステップを開始する際の隣接した領域は、隣接した画素であり、前記領域の差異度は色差を含む、付記3又は4に記載の方法。
(付記6)
前記真の筆画領域を特定するステップは、
候補筆画領域のうち互いに相関する候補筆画領域を特定するステップと、
入力画像におけるすべての候補筆画領域のそれぞれが真の筆画領域であるか否かについての多種の仮定組合せを生成するステップと、
各種の仮定組合せに対して、前記仮定組合せ及び各候補筆画領域における画素の特徴に基づいて、各候補筆画領域の第1の確信度を算出し、前記仮定組合せ及び互いに相関する候補筆画領域における画素の特徴に基づいて、第1の確信度に対応する第2の確信度を算出し、その後、前記第1の確信度及び前記第2の確信度に基づいて、当該仮定組合せの場合を表す確信度を算出するステップと、
当該仮定組合せの場合を表す確信度の最も高い場合に対応した仮定組合せを、真の筆画領域を特定する結果とするステップと、
前記互いに相関する候補筆画領域が同一のテキスト行に属した場合に、当該仮定組合せの場合を表す確信度の算出において、その対応する第2の確信度に大きい重み係数を付加するステップと
を更に含む、付記1に記載の方法。
(付記7)
候補筆画領域のサイズ情報及び候補筆画領域間の距離に基づいて、前記候補筆画領域が相関するか否かを判断するステップを更に含む、付記6に記載の方法。
(付記8)
特徴空間において候補筆画領域をフィットし、同一のフィッティング曲線に属する候補筆画領域を、同一のテキスト行に属すると特定するステップと、
回帰誤差に基づいて、前記当該仮定組合せの場合を表す確信度の算出における重み係数を算出するステップと
を更に含む、付記6又は7に記載の方法。
(付記9)
前記真の筆画領域をマージするステップは、
筆画領域間の距離に基づいて筆画領域間の接続関係を特定するステップと、
異なるテキスト行に属する筆画領域間の接続関係を取り除くステップと、
異なる字に属する筆画領域間の接続関係を取り除くステップと
を更に含む、付記1に記載の方法。
(付記10)
画像におけるテキスト領域を位置決めする装置であって、
入力画像における各画素の周りに存在可能なテキストの大きさを推定するための推定ユニットと、
前記テキストの大きさ及び領域の差異度に基づいて、前記入力画像から候補筆画領域を抽出するための抽出ユニットと、
前記候補筆画領域から真の筆画領域を特定するための特定ユニットと、
真の筆画単位をマージしてテキスト領域を形成するためのマージ・ユニットと
を含む装置。
(付記11)
前記推定ユニットは、
前記入力画像に基づいて複数の階層のピラミッド画像を生成するための画像ピラミッド生成ユニットと、
各階層のピラミッド画像における各画素の周りにテキストの存在する確率を推定するための推定サブユニットと、
前記確率及びピラミッド階層に対応するテキストの大きさに基づいて前記入力画像における各画素の周りに存在可能なテキストの大きさを算出するための算出ユニットと
を含む、付記10に記載の装置。
(付記12)
前記抽出ユニットは、
前記入力画像における隣接した領域に対して、領域間の差異度及び領域内の差異度を算出するための差異度算出ユニットと、
推定された入力画像における各画素の周りに存在可能なテキストの大きさに基づいて、領域の周りに存在可能なテキストの大きさを推定し、推定された領域の周りに存在可能なテキストの大きさに基づいて、各領域内の差異度を調整するための調整ユニットと、
隣接した領域の領域間の差異度及び前記隣接した領域の調整後の領域内の差異度に基づいて、前記隣接した領域をマージする隣接領域マージ・ユニットと
を含む、付記10に記載の装置。
(付記13)
前記特定ユニットは、
候補筆画領域のうち互いに相関する候補筆画領域を特定するための相関特定ユニットと、
入力画像におけるすべての候補筆画領域それぞれが真の筆画領域であるか否かについての多種の仮定組合せを生成するための仮定組合せユニットと、
各種の仮定組合せに対して、前記仮定組合せ及び各候補筆画領域における画素の特徴に基づいて、各候補筆画領域の第1の確信度を算出し、前記仮定組合せ及び互いに相関する候補筆画領域における画素の特徴に基づいて、第1の確信度に対応する第2の確信度を算出し、その後、前記第1の確信度及び前記第2の確信度に基づいて、当該仮定組合せにおける場合を表す確信度を算出するための確信度算出ユニットと、
当該仮定組合せにおける場合を表す確信度の最も高い場合に対応した仮定組合せを、真の筆画領域を特定する結果とする特定サブユニットと
を含み、
前記互いに相関する候補筆画領域が同一のテキスト行に属した場合に、当該仮定組合せにおける場合を表す確信度の算出において、その対応する第2の確信度に大きい重み係数を付加する、付記10に記載の装置。
(付記14)
前記相関特定ユニットは、候補筆画領域のサイズ情報及び候補筆画領域間の距離に基づいて、前記候補筆画領域が相関するか否かを判断する、付記13に記載の装置。
(付記15)
前記確信度算出ユニットは、
特徴空間において候補筆画領域をフィットし、同一のフィッティング曲線に属する候補筆画領域を、同一のテキスト行に属すると特定し、回帰誤差に基づいて、当該仮定組合せにおける場合を表す確信度の算出における重み係数を算出する、付記13又は14に記載の装置。
(付記16)
前記マージ・ユニットは、
筆画領域間の距離に基づいて筆画領域間の接続関係を特定するための接続ユニットと、
異なるテキスト行に属する筆画領域間の接続関係を取り除くための行分けユニットと、
異なる字に属する筆画領域間の接続関係を取り除くための字分けユニットと
を含む、付記10に記載の装置。
100 装置
101 推定ユニット
102 抽出ユニット
103 特定ユニット
104 マージ・ユニット

Claims (8)

  1. 画像におけるテキスト領域を位置決めする方法であって、
    入力画像における各画素の周りに存在可能なテキストの大きさを推定するステップと、
    前記テキストの大きさ及び領域差異度に基づいて、前記入力画像から候補筆画領域を抽出するステップと、
    前記候補筆画領域から真の筆画領域を特定するステップと、
    前記真の筆画領域をマージしてテキスト領域を形成するステップと
    を含み、
    前記候補筆画領域を抽出するステップは、
    前記入力画像における隣接した領域に対して、領域間の差異度と領域内の差異度を算出するステップと、
    推定された入力画像における各画素の周りに存在可能なテキストの大きさに基づいて、領域の周りに存在可能なテキストの大きさを推定し、推定された領域の周りに存在可能なテキストの大きさに基づいて各領域内の差異度を調整するステップと、
    隣接した領域の領域間の差異度及び隣接した領域の調整後の領域内の差異度に基づいて、前記隣接した領域をマージすべきか否かを判断するステップと、
    前記隣接した領域をマージすべきと判断された場合に、前記隣接した領域をマージし、上述したステップを繰り返すステップと
    を含み、
    現在のすべての隣接した領域をいずれもマージすべきではないと判断された場合は、候補筆画領域を抽出したことを意味する、
    方法。
  2. 隣接した領域の領域間の差異度が、隣接した領域の調整後の領域内の差異度の最小値よりも小さい場合に、前記隣接した領域をマージする、請求項に記載の方法。
  3. 前記の抽出ステップを開始する際の隣接した領域は、隣接した画素であり、前記領域の差異度は色差を含む、請求項又はに記載の方法。
  4. 画像におけるテキスト領域を位置決めする方法であって、
    入力画像における各画素の周りに存在可能なテキストの大きさを推定するステップと、
    前記テキストの大きさ及び領域差異度に基づいて、前記入力画像から候補筆画領域を抽出するステップと、
    前記候補筆画領域から真の筆画領域を特定するステップと、
    前記真の筆画領域をマージしてテキスト領域を形成するステップと
    を含み、
    前記真の筆画領域を特定するステップは、
    候補筆画領域のうち互いに相関する候補筆画領域を特定するステップと、
    入力画像におけるすべての候補筆画領域のそれぞれが真の筆画領域であるか否かについての多種の仮定組合せを生成するステップと、
    各種の仮定組合せに対して、前記仮定組合せ及び各候補筆画領域における画素の特徴に基づいて、各候補筆画領域の第1の確信度を算出し、前記仮定組合せ及び互いに相関する候補筆画領域における画素の特徴に基づいて、第1の確信度に対応する第2の確信度を算出し、その後、前記第1の確信度及び前記第2の確信度に基づいて、当該仮定組合せの場合を表す確信度を算出するステップと、
    当該仮定組合せの場合を表す確信度の最も高い場合に対応した仮定組合せを、真の筆画領域を特定する結果とするステップと、
    前記互いに相関する候補筆画領域が同一のテキスト行に属した場合に、当該仮定組合せの場合を表す確信度の算出において、その対応する第2の確信度に大きい重み係数を付加するステップと
    を含む、方法。
  5. 候補筆画領域のサイズ情報及び候補筆画領域間の距離に基づいて、前記候補筆画領域が相関するか否かを判断するステップを更に含む、請求項に記載の方法。
  6. 特徴空間において候補筆画領域をフィットし、同一のフィッティング曲線に属する候補筆画領域を、同一のテキスト行に属すると特定するステップと、
    回帰誤差に基づいて、当該仮定組合せの場合を表す確信度の算出における重み係数を算出するステップと
    を更に含む、請求項又はに記載の方法。
  7. 画像におけるテキスト領域を位置決めする方法であって、
    入力画像における各画素の周りに存在可能なテキストの大きさを推定するステップと、
    前記テキストの大きさ及び領域差異度に基づいて、前記入力画像から候補筆画領域を抽出するステップと、
    前記候補筆画領域から真の筆画領域を特定するステップと、
    前記真の筆画領域をマージしてテキスト領域を形成するステップと
    を含み、
    前記真の筆画領域をマージするステップは、
    筆画領域間の距離に基づいて筆画領域間の接続関係を特定するステップと、
    異なるテキスト行に属する筆画領域間の接続関係を取り除くステップと、
    異なる字に属する筆画領域間の接続関係を取り除くステップと
    を含む、方法。
  8. 画像におけるテキスト領域を位置決めする装置であって、
    入力画像における各画素の周りに存在可能なテキストの大きさを推定するための推定ユニットと、
    前記テキストの大きさ及び領域の差異度に基づいて、前記入力画像から候補筆画領域を抽出するための抽出ユニットと、
    前記候補筆画領域から真の筆画領域を特定するための特定ユニットと、
    真の筆画単位をマージしてテキスト領域を形成するためのマージ・ユニットと
    を含み、
    前記抽出ユニットは、
    前記入力画像における隣接した領域に対して、領域間の差異度と領域内の差異度を算出し、
    推定された入力画像における各画素の周りに存在可能なテキストの大きさに基づいて、領域の周りに存在可能なテキストの大きさを推定し、推定された領域の周りに存在可能なテキストの大きさに基づいて各領域内の差異度を調整し、
    隣接した領域の領域間の差異度及び隣接した領域の調整後の領域内の差異度に基づいて、前記隣接した領域をマージすべきか否かを判断し、
    前記隣接した領域をマージすべきと判断された場合に、前記隣接した領域をマージし、上述したステップを繰り返し、
    現在のすべての隣接した領域をいずれもマージすべきではないと判断された場合は、候補筆画領域を抽出したことを意味する、
    装置。
JP2012145538A 2011-06-30 2012-06-28 画像におけるテキスト領域を位置決めする方法及び装置 Expired - Fee Related JP5939056B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201110192175.3 2011-06-30
CN201110192175.3A CN102855478B (zh) 2011-06-30 2011-06-30 图像中文本区域定位方法和装置

Publications (2)

Publication Number Publication Date
JP2013016168A JP2013016168A (ja) 2013-01-24
JP5939056B2 true JP5939056B2 (ja) 2016-06-22

Family

ID=47402055

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012145538A Expired - Fee Related JP5939056B2 (ja) 2011-06-30 2012-06-28 画像におけるテキスト領域を位置決めする方法及び装置

Country Status (2)

Country Link
JP (1) JP5939056B2 (ja)
CN (1) CN102855478B (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105117706B (zh) * 2015-08-28 2019-01-18 小米科技有限责任公司 图像处理方法和装置、字符识别方法和装置
CN106570500B (zh) * 2016-11-11 2018-01-23 北京三快在线科技有限公司 文本行的识别方法及装置、计算设备
CN108121988B (zh) * 2016-11-30 2021-09-24 富士通株式会社 信息处理方法和装置以及信息检测方法和装置
CN108717542B (zh) * 2018-04-23 2020-09-15 北京小米移动软件有限公司 识别文字区域的方法、装置及计算机可读存储介质
CN108921167A (zh) * 2018-06-22 2018-11-30 四川斐讯信息技术有限公司 一种彩色图片自动裁剪方法及系统
CN109308476B (zh) * 2018-09-06 2019-08-27 邬国锐 票据信息处理方法、系统及计算机可读存储介质
CN109670532B (zh) * 2018-11-23 2022-12-09 腾讯医疗健康(深圳)有限公司 生物体器官组织图像的异常识别方法、装置及系统
CN110610166B (zh) * 2019-09-18 2022-06-07 北京猎户星空科技有限公司 文本区域检测模型训练方法、装置、电子设备和存储介质
CN112215123B (zh) * 2020-10-09 2022-10-25 腾讯科技(深圳)有限公司 一种目标检测方法、装置及存储介质
CN112419174B (zh) * 2020-11-04 2022-09-20 中国科学院自动化研究所 基于门循环单元的图像文字去除方法、系统及装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0646253A (ja) * 1992-07-27 1994-02-18 Oki Electric Ind Co Ltd 文書画像の領域抽出方法
JP3476595B2 (ja) * 1995-06-26 2003-12-10 シャープ株式会社 画像領域分割方法、および画像2値化方法
JPH09186858A (ja) * 1996-01-08 1997-07-15 Canon Inc 画像処理方法及び装置、及びコンピュータ制御装置
US6185329B1 (en) * 1998-10-13 2001-02-06 Hewlett-Packard Company Automatic caption text detection and processing for digital images
JP4112968B2 (ja) * 2002-12-26 2008-07-02 富士通株式会社 ビデオテキスト処理装置
JP2006318341A (ja) * 2005-05-16 2006-11-24 Sony Corp 検知対象画像判定装置、検知対象画像判定方法および検知対象画像判定プログラム
CN101526944B (zh) * 2008-12-23 2011-10-12 广州乐庚信息科技有限公司 图像检索比对方法

Also Published As

Publication number Publication date
CN102855478B (zh) 2015-11-25
JP2013016168A (ja) 2013-01-24
CN102855478A (zh) 2013-01-02

Similar Documents

Publication Publication Date Title
JP5939056B2 (ja) 画像におけるテキスト領域を位置決めする方法及び装置
US11120556B2 (en) Iterative method for salient foreground detection and multi-object segmentation
JP4545641B2 (ja) 類似画像検索方法,類似画像検索システム,類似画像検索プログラム及び記録媒体
CN105184763B (zh) 图像处理方法和装置
JP6075190B2 (ja) 画像処理方法及び装置
US10748023B2 (en) Region-of-interest detection apparatus, region-of-interest detection method, and recording medium
CN110913243B (zh) 一种视频审核的方法、装置和设备
CN108629286B (zh) 一种基于主观感知显著模型的遥感机场目标检测方法
WO2019071976A1 (zh) 基于区域增长和眼动模型的全景图像显著性检测方法
CN109993753B (zh) 遥感影像中城市功能区的分割方法及装置
CN111274964B (zh) 一种基于无人机视觉显著性分析水面污染物的检测方法
CN106157330B (zh) 一种基于目标联合外观模型的视觉跟踪方法
EP2821935B1 (en) Vehicle detection method and device
CN104077765B (zh) 图像分割装置、图像分割方法
Shi et al. Adaptive graph cut based binarization of video text images
JP6542230B2 (ja) 投影ひずみを補正するための方法及びシステム
CN114445788A (zh) 车辆停放检测方法、装置、终端设备和可读存储介质
JP5786838B2 (ja) 画像領域分割装置、方法、およびプログラム
US8891869B2 (en) System and method for effectively performing an integrated segmentation procedure
WO2018223370A1 (zh) 一种基于时空约束的视频显著性检测方法及系统
CN111476821B (zh) 基于在线学习的目标跟踪方法
Xu et al. An edge-oriented framework for saliency detection
Song et al. Unsupervised change detection for remote sensing images based on principal component analysis and differential evolution
CN110929572B (zh) 林火识别方法和系统
US20240153294A1 (en) Automatic template recommendation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150319

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160119

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160126

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160324

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160419

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160502

R150 Certificate of patent or registration of utility model

Ref document number: 5939056

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees