JP7132050B2

JP7132050B2 - テキスト行の区分化方法

Info

Publication number: JP7132050B2
Application number: JP2018172774A
Authority: JP
Inventors: アガワルシュバーン; チャンヨンミャン
Original assignee: コニカミノルタラボラトリーユー．エス．エー．，インコーポレイテッド
Priority date: 2017-11-30
Filing date: 2018-09-14
Publication date: 2022-09-06
Anticipated expiration: 2038-09-14
Also published as: JP2019102061A; US10318803B1; US20190163971A1

Description

本発明は、文書画像の処理、特に文書画像に関するテキスト行（ｔｅｘｔｌｉｎｅ）の区分化のための方法に関する。

テキスト行の区分化、すなわち文書画像（例えば、手書きの文書）からテキストの行を区分化することは、インテリジェント文字／単語認識（ＩＣＲ／ＩＷＲ）システムの重要な部分である。

多くの方法が説明されてきたが、異なる勾配、傾き、行間の接続を有する種々の文書のサンプルにおいて、良好に機能できる一般的なアルゴリズムを得ることは困難である。

オフラインのインテリジェント単語／文字認識の分野では、従来のＩＣＲ／ＩＷＲシステムは、一般的に、入力されるテキスト文書画像を処理するために、テキスト行の区分化、単語／文字の区分化、および認識モジュール（通常、ｋＮＮのＣＮＮ）という段階を含み、出力される単語または文字を生成する。ロバストなテキスト行および単語の区分化は、主要なボトルネックである。テキスト行の区分化における誤りは、単語／文字認識モジュールに対する歪んだ入力、ひいては誤った出力をもたらす。多次元のリカレントニューラルネットワークの導入によって、行の区分化の段階を回避することを試みる提案がある。言い換えれば、入力されるテキスト文書画像は、認識されたテキストを出力する、多次元のＲＮＮに直接入力される。ＲＮＮのアプローチは、より良好な認識精度を与えるが、非常に高い計算コストがかかり、現在、リアルタイムのオフラインのＩＣＲ／ＩＷＲシステムにおいて展開することは困難である。

Ｇ．Ｌｏｕｌｏｕｄｉｓ、Ｂ．Ｇａｔｏｓ、Ｉ．ＰｒａｔｉｋａｋｉｓおよびＣ．Ｈａｌａｔｓｉｓの、Ｔｅｘｔｌｉｎｅａｎｄｗｏｒｄｓｅｇｍｅｎｔａｔｉｏｎｏｆｈａｎｄｗｒｉｔｔｅｎｄｏｃｕｍｅｎｔｓ，ＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ４２，ｎｏ．１２（２００９）：３１６９－３１８３（以下「Ｌｏｕｌｏｕｄｉｓ２００９」）は、「手書きの文書をそれらの個別の要素、すなわち、テキスト行および単語に区分化する方法論」を記載している。テキスト行の区分化は、文書画像の連結成分のサブセットに、ハフ変換を適用することによって実現される。後処理の工程は、誤りの可能性があるアラームの訂正、ハフ変換が作成し損ねたテキスト行の検出、および、最後にはスケルトン化に基づく新たな方法を用いた垂直連結文字の効率的な分離を含む。

Ａ．ＶｉｎｃｉａｒｅｌｌｉおよびＪ．Ｌｕｅｔｔｉｎの、Ａｎｅｗｎｏｒｍａｌｉｚａｔｉｏｎｔｅｃｈｎｉｑｕｅｆｏｒｃｕｒｓｉｖｅｈａｎｄｗｒｉｔｔｅｎｗｏｒｄｓ，Ｐａｔｔｅｒｎｒｅｃｏｇｎｉｔｉｏｎｌｅｔｔｅｒｓ，２２（９），１０４３－１０５０（２００１）は、筆記体の手書きの単語を正規化するための方法を記載している。これは、コア領域の概念を用いて単語のベースラインを識別し、正規化のために用いる。

本発明は、平均の文字高さの推定のための新たな方法、およびテキスト行を識別するよりロバストな方法を用いる、ＩＣＲ／ＩＷＲシステムのための改良されたテキスト行の区分化方法を対象とする。

本発明の追加の特徴および利点は、以下の説明において記載され、その一部は当該説明から明らかであり、または、本発明の実施によって理解され得る。本発明の目的および他の利点は、明細書およびその特許請求の範囲、ならびに添付する図面において、具体的に示された構成によって実現および達成される。

上述した目的を達成するために、本発明は、二値の文書画像に対して実行されるテキスト行の区分化方法であって、前記文書画像において連結成分を検出し、前記連結成分の重心およびバウンディングボックスを計算するステップ（ａ）と、前記連結成分を、前記連結成分のバウンディングボックスのサイズに基づいて、通常サイズの連結成分の第１のサブセット、大きいサイズの連結成分の第２のサブセット、および小さいサイズの連結成分の第３のサブセットを含む３つのサブセットに分類するステップ（ｂ）と、前記連結成分の第１のサブセットの前記重心にハフ変換を適用することによって、前記連結成分の第１のサブセットから複数の候補行を検出するステップ（ｃ）と、全ての候補行のうち、行のバウンディングボックスの平均高さの所定の乗数倍よりも大きい、行のバウンディングボックスの高さを有する候補行を削除するステップ（ｄ）と、ここで、残りの候補行は、正当な行を構成し、前記第１のサブセットの前記連結成分の各々について、前記連結成分と前記正当な行の各々との間の重なり領域を計算し、前記重なり領域のうちの最大の領域が、前記連結成分のバウンディングボックスの領域の所定の割合よりも大きくない（所定の割合と同じ、または、所定の割合よりも小さい）場合、新たな行を正当な行として追加するステップ（ｅ）と、ここで、前記新たな行は、前記連結成分の前記重心を通り、全ての候補行の平均の角度に等しい角度を有し、前記連結成分の第２のサブセットの各々を、２つ以上の連結成分に分解するステップ（ｆ）と、前記第１のサブセットの前記連結成分の各々と、前記第３のサブセットの前記連結成分の各々と、前記ステップ（ｆ）において前記第２のサブセットの前記連結成分を分解することによって取得された前記連結成分の各々とを、前記ステップ（ｅ）において取得された前記正当な行のうちの最も近接する行に割り当てて、区分化されたテキスト行を生成するステップ（ｇ）と、を含む方法を提供する。

いくつかの実施形態では、前記ステップ（ｃ）は、前記連結成分の第１のサブセットの前記重心にハフ変換を適用して、複数のセルを有するアキュムレータアレイを生成するステップ（ｃ１）と、前記セルのうち、最大の値を有する前記アキュムレータアレイのセルを特定し、当該値が所定の閾値よりも大きい場合、特定した前記セルに対応する行を候補行のリストに追加し、前記連結成分の第１のサブセットから前記候補行に属する前記連結成分を削除するステップ（ｃ２）と、最大の値を有する前記セルの前記値が、前記所定の閾値よりも大きくなくなる（前記所定の閾値と同じになる、または、前記所定の閾値よりも小さくなる）まで、前記ステップ（ｃ１）および（ｃ２）を繰り返すステップと、を含む。

いくつかの実施形態では、前記ステップ（ｄ）は、前記ステップ（ｃ）において検出された前記候補行の各々について、前記候補行に属する前記第１のサブセットの全ての連結成分の境界を示す、行のバウンディングボックスを計算するステップと、全ての候補行の前記行のバウンディングボックスについて、行のバウンディングボックスの平均高さを計算するステップと、前記行のバウンディングボックスの平均高さの前記所定の乗数倍よりも大きい、行のバウンディングボックスの高さを有する全ての候補行を削除するステップと、を含む。

いくつかの実施形態では、前記ステップ（ｂ）において、前記連結成分は、前記連結成分のバウンディングボックスのサイズ、および前記連結成分の平均高さに基づいて、３つのサブセットに分類される。

いくつかの実施形態では、前記方法は、前記ステップ（ｇ）において生成された、前記区分化されたテキスト行を用いて、テキスト行の平均高さを計算するステップ（ｈ）と、前記ステップ（ａ）において検出された前記連結成分を、前記連結成分のバウンディングボックスのサイズと、前記ステップ（ｈ）において計算された前記テキスト行の平均高さとに基づいて、通常サイズの前記連結成分の第１のサブセット、大きいサイズの前記連結成分の第２のサブセット、および小さいサイズの前記連結成分の第３のサブセットを含む３つのサブセットに分類するステップ（ｉ）と、前記ステップ（ｉ）において取得された前記連結成分の前記３つのサブセットを用いて、前記ステップ（ｃ）、（ｄ）、（ｅ）、（ｆ）および（ｇ）を繰り返すステップと、をさらに含む。

いくつかの実施形態では、前記ステップ（ｈ）は、前記ステップ（ｇ）において生成された、前記区分化されたテキスト行の各々について、前記テキスト行の各行について、画素濃度を表す画素濃度のヒストグラムを計算するステップと、ｋ＝２を用いたｋ平均クラスタリングの計算を前記画素濃度のヒストグラムに適用して、ヒストグラムの要素を、高濃度の行および低濃度の行に対応する２つのクラスに分類するステップと、前記テキスト行の高さとして、最も広い高濃度の領域の幅を計算するステップと、前記テキスト行の平均高さとして、全てのテキスト行の前記高さの平均を計算するステップと、を含む。

他の態様では、本発明は、データ処理装置を制御するためのコンピュータープログラム、および、コンピュータープログラムを内部に格納したコンピューター読取可能な記録媒体（例えば、メモリーまたは記憶装置）を提供し、当該コンピュータープログラムは、上述した方法をデータ処理装置に実行させるように構成される。

前述した一般的な説明、および後述する詳細な説明は共に、具体的および例示的であり、特許請求の範囲に記載された本発明のさらなる説明を提供することを目的とするものであると理解される。

従来の行の区分化方法を概略的に説明する図である。本発明の一実施形態に係るテキスト行の検出方法を概略的に説明する図である。本発明の他の実施形態に係るテキスト行の区分化方法を概略的に説明する図である。手書きの単語のためのコア領域の推定の一例を示す図である。例示的なテキスト行の画像、および対応する画素濃度のヒストグラムを示す図である。図５Ａの例の画素濃度のヒストグラムにおいて、ｋ＝２を用いたｋ平均クラスタリングの結果を示す図である。本発明の一実施形態に係るテキスト行の高さを推定する方法を概略的に説明する図である。本発明の他の実施形態に係るテキスト行の区分化方法を概略的に説明する図である。テキスト行の区分化のためのテキストのサンプル、およびそれらの処理を示す図である。テキスト行の区分化のためのテキストのサンプル、およびそれらの処理を示す図である。テキスト行の区分化のためのテキストのサンプル、およびそれらの処理を示す図である。本発明の実施形態が実装され得るコンピューターシステムを概略的に説明する図である。

図１は、Ｌｏｕｌｏｕｄｉｓ２００９に記載されているような、手書きの文書のための従来の行の区分化方法を概略的に説明する図である。当該方法は、テキストの内容を表す前景画素（すなわち、黒画素）、および背景画素（すなわち、白画素）を含む二値画像である、テキスト文書画像の入力（ステップＳ１００）によって始まる。入力画像に連結成分解析が適用され、連結成分が抽出される（ステップＳ１０１）。連結成分（ＣＣ）は、連結された前景画素のグループである。ＣＣの特性、例えば、それらの重心、バウンディングボックス（ＣＣのバウンディングボックスは、ＣＣの境界を示す横辺および縦辺を有する長方形のボックスである）、および高さ等が、当該ステップにおいて計算される。そして、平均の文字高さとしてのＣＣの平均高さを用いて、分類のための基準が設定され、ＣＣが、それらのサイズに基づいて、３つのサブセットに分類される（ステップＳ１０２）。３つのサブセットを、通常サイズのための第１のサブセット、大きいサイズ（大サイズ）のための第２のサブセット、および小さいサイズ（小サイズ）のための第３のサブセットと称する。一例では、３つのサブセットのための境界線は、ＣＣの平均高さの、第１の所定の閾値サイズｓ１（例えば０．５）倍と、ＣＣの平均高さの、第２の所定の閾値サイズｓ２（例えば３）倍とに設定される。より具体的には、この例において、ＣＣは、以下の条件を満たす場合、通常サイズのＣＣに分類される。

ここで、ＨおよびＷは、ＣＣの高さおよび幅であり、ＡＨは、上記で算出された平均の文字高さであり、ＡＷは、この例では、算出されたＡＨと同じになるように設定された平均の文字幅である。ｓ３は、第３の所定の閾値サイズ（例えば０．５）である。ＣＣは、以下の条件を満たす場合、大サイズのＣＣに分類される。

ＣＣは、上述したこれらの条件を満たさない場合、小サイズのＣＣに分類される。

一般的な事項として、通常サイズのＣＣは、１つ以上のテキスト文字を含み、小サイズのＣＣは、句読点、ダイアクリティカルマーク（発音区別符号）、「ｉ」等の小さい文字等であり、大サイズのＣＣは、通常、互いに接触して１つのＣＣになる複数の行からの文字に起因する。図８Ａは、サンプルのテキスト画像を示し、パネル（ａ）、（ｂ）および（ｃ）は、通常サイズのＣＣ、大サイズのＣＣ、および小サイズのＣＣのバウンディングボックス８１、８２および８３をそれぞれ示す。

通常サイズのＣＣのサブセットが、ＣＣの重心にハフ変換を適用することによって、行（線）を検出するために用いられる（ステップＳ１０３）。

ハフ変換は、一連の点から直線を見つけるために用いられ得る、数学的手法である。ハフ変換は、以下に示すようなヘッセ標準形における直線を用いる。

ここで、ρは、原点から線までの垂直距離、θは、線の垂直方向と正のｘ軸との間の角度である。ハフ変換では、線は、極座標において（ρ，θ）と表される。ｘ－ｙ平面における対象の点について、その点を通る各直線は、（ρ，θ）空間における点を与え、その点を通る全ての直線は、（ρ，θ）空間における曲線を与える。ｘ－ｙ平面における一連の点について、（ρ，θ）空間におけるアキュムレータアレイ（ａｃｃｕｍｕｌａｔｏｒａｒｒａｙ）が構成され、アキュムレータアレイの各セルにおける値は、当該セルの（ρ，θ）値に対応する直線上に位置する点の数を表し得る。（ρ，θ）空間におけるアキュムレータアレイは、ハフ変換である。一連の点（例えば、ＣＣの重心）にハフ変換を適用することによって、高い値を有するアキュムレータアレイのセルは、好ましくは、点によって形成される線を表す。

図８Ａ、図８Ｂのサンプルのテキスト画像を用いて、通常サイズのＣＣのバウンディングボックス８１（パネル（ｄ））、通常サイズＣＣの重心８４（パネル（ｅ））、および、ハフ変換によって検出された行８５（パネル（ｆ））を示す。

テキスト行の検出の後、大サイズのＣＣのサブセットは、より小さいＣＣに分解される（ステップＳ１０４）。一例では、これは、これらのＣＣにまず細線化を適用してから、行間の接合点を削除することによって行われる。接合点が見つからない場合、２つの行の中間点が接合点であるとみなされる。そして、通常サイズのＣＣ、小サイズのＣＣ、および大サイズのＣＣを分解することによって生じたＣＣの各々を含む各ＣＣは、ステップＳ１０３において検出された最も近接するテキスト行に割り当てられて（ステップＳ１０５）、区分化されたテキスト行を出力として生成する。

図１に示す行の区分化方法は、ほとんどの手書きのバリエーションに対して、非常にロバストである。それは、ＣＣの平均高さが、テキスト文書における平均の文字高さに非常に近いという仮定に基づいている。しかし、文書画像が、ＣＣの平均高さを高くさせ得る多くの行間の接続を有する場合、この仮定はしばしば機能しない。図８Ａおよび図８Ｂに示すサンプルテキストでは、例えば、２つのＣＣ８１Ａは、従来の方法によって通常サイズのＣＣに分類され（パネル（ａ）およびパネル（ｄ））、パネル（ｆ）では、それらの重心８４Ａが、検出された行８５から離れて位置することが確認され得る。

この問題に対処するために、本発明の実施形態は、平均の行の高さおよびバウンディングボックスの重なり（重複）を用いて、新たな行を識別するための方法を提供する。また、本発明の実施形態は、Ｌｏｕｌｏｕｄｉｓ２００９に記載された方法に追加される改良段階として用いられる、テキストのコア領域を用いて平均の文字高さを概算するための方法を提供する。

図２は、本発明の一実施形態に係るテキスト行の検出方法を概略的に説明する図である。本方法は、図１の方法のステップＳ１０３における「行を算出」するモジュールを、置換するために用いられ得る。図２の方法に対する入力は、図１のステップＳ１０２によって生成される通常サイズのＣＣのサブセットである。ＣＣの重心、バウンディングボックスおよび高さは、ステップＳ１０１において計算されている。

図２を参照すると、ステップＳ２０１において、ＣＣの重心のハフ変換が計算される。いくつかの実装では、ハフ変換のρの分解能は、ＣＣの平均高さの０．２倍に設定される。ハフ変換は、アキュムレータアレイの各（ρ，θ）セルについて、重みを与える。より高い重みを有する（ρ，θ）セルに寄与する重心は、行内に位置するより高い可能性を有する。文書画像は、（一般的なビットマップ画像と比較して）テキストが書き込まれている特殊な場合であるため、ほとんどの場合、比較的小さい傾斜または傾きの角度を有するほぼ水平な行では、テキスト行を表すとみなされる（ρ，θ）セルのθの値に、追加の制限が課せられてもよい。一実装では、ステップＳ２０１において、θは８５～９５度の範囲に制限される。同様に、例えば、書き手が２つの異なるテキスト行を交差させる可能性が低いという仮定のように、他の情報が、行の検出を制限するための条件として用いられてもよい。

ステップＳ２０２では、全てのセルのうち、最大値を有する（ρ，θ）セルが分析されて、その値が所定の閾値、例えば５よりも大きいかどうかが判断される。閾値よりも大きい場合（ステップＳ２０２において「ｙｅｓ」）、（ρ，θ）セルは、候補行とみなされて、候補行のリストに追加され（ステップＳ２０３）、その行に属する全ての重心は、重心のリストから削除される（ステップＳ２０４）。そして、処理はステップＳ２０１に戻り、残りの重心のみを用いて、再びハフ変換が算出される。

したがって、ステップＳ２０１～２０４の各々の繰り返しが、元の重心のリストから、一つの行および対応する重心を抽出する。

ステップＳ２０２において、最大値を有する（ρ，θ）セルが、閾値よりも大きい値を有しない場合（ステップＳ２０２において「ｎｏ」）、全ての行が抽出されたとみなされる。結果は、候補行のリストと、残りのＣＣの（それらの重心およびバウンディングボックスを含む）リストとなる（ステップＳ２０５）。

各候補行について、その行に属する全てのＣＣの境界を示す行のバウンディングボックスが取得され、行のバウンディングボックスの高さが計算される（ステップＳ２０６）。全ての候補行の行のバウンディングボックスの平均高さと、全ての候補行の平均の傾斜角θとが計算される（ステップＳ２０６）。

そして、行のバウンディングボックスの平均高さの所定の乗数（例えば、１．２）倍よりも大きい、行のバウンディングボックスの高さを有する全ての候補行は、正当でない行とみなされて、候補行のリストから削除される（ステップＳ２０７）。残りの行は、正当な行とみなされる。

次に、任意の正当な行に属していない各重心（これは、ステップＳ２０５の結果としての、任意の候補行の一部ではない重心と、ステップＳ２０７において、行のリストから削除された正当でない行に属する重心とを含む）について、対応するＣＣ、およびそのバウンディングボックスが取得され、ＣＣのバウンディングボックスと、候補行の各々との間の重なりが計算される（ステップＳ２０８）。ＣＣのバウンディングボックスが、ＣＣのバウンディングボックスの領域の所定の割合（例えば、３分の１）よりも大きい、正当な行のいずれかとの重なりを有しない場合（ステップＳ２０９において「ＮＯ」）、新たな行が追加される。新たな行は、以下のパラメーターを有する（ステップＳ２１０）。

ここで、ｃｘおよびｃｙはそれぞれ、ＣＣの重心のｘ座標およびｙ座標である。言い換えれば、新たな行は、ＣＣの重心を通り、平均の傾斜角を有するものである。

ステップＳ２０９において、ＣＣのバウンディングボックスが、ＣＣのバウンディングボックスの領域の所定の割合（例えば、３分の１）よりも大きい、正当な行の少なくとも１つとの重なりを有する場合（ステップＳ２０９において「ＹＥＳ」）、何の措置もなされない。

ステップＳ２０９およびＳ２１０は、任意の正当な行に属しない各重心について、全てのこのような重心が処理される（ステップＳ２１１において「ＮＯ」になる）まで、繰り返される。これにより、テキスト行の検出ステップが終了し、検出されたテキスト行が出力される。

上述したように、Ｌｏｕｌｏｕｄｉｓ２００９に記載されたアルゴリズムは、ほとんどの現実世界のシナリオについて良好に機能する。それは、ＣＣの平均高さに応じた、ＣＣの３つのカテゴリーへの分類に基づいている。しかし、行が、ＣＣの平均高さについての高い値、ひいては誤ったサブ分類をもたらす、多数の相互接続を有する場合、当該方法はしばしば機能しない。このことは、行間の接続のいくつかが、通常サイズのＣＣのカテゴリーに分類されることにつながり、ひいては、それらが分解されずに、行の１つに割り当てられてしまう。図８Ａおよび図８Ｂにおけるサンプルのテキスト画像は、２つの例である８１Ａを示す。

図３に示す、本発明の他の実施形態に係る行の区分化方法は、この問題を解決するのに役立つ改良モジュールを提供する。改良モジュールは、テキスト行のコア領域を用いて、行の高さを判断する。ローマ字のコア領域は、文字の中央領域であり、全ての文字は、コア領域を含み、いくつかの文字は、コア領域のみを含み、いくつかの他の文字は、コア領域の上および／または下の部分も含む。図４は、コア領域の近似の例を与える。コア領域の概念は、単語のベースがコア領域を用いて計算され、テキストの勾配および傾きを推定するために用いられる、単語正規化のためのテキスト文書の区分化において広く用いられる。

図３の改良モジュールは、図１（ステップＳ３００）に示す従来の行の区分化方法を用いて取得される、一連のテキスト行の画像を入力として取り込み、より正確なテキスト行の区分化を表す、新たな一連のテキスト行を出力する。上述した問題によって、入力されるテキスト行は、単一の行に割り当てられた、いくつかの大きい複数の行のＣＣを有してもよい。テキスト行のほとんどは正しく区分化されているため、入力されるテキスト行が用いられて、コアテキスト領域が抽出され得る。上述したように、コア領域は、ローマ字の主要な部分を表し、長い文字についての外れ値を無視し、平均の文字高さについて良好な近似を与えることができる。より詳細に後述されるステップＳ３０１は、コア領域のアプローチを用いて、テキスト行の平均高さを算出する。

図３の方法のステップＳ３０２は、入力画像におけるＣＣを計算し、平均の文字高さを用いてＣＣを３つのサブセットに分類する、図１の従来の方法のステップＳ１０１およびＳ１０２と同様である。しかし、ステップＳ３０２は、（ステップＳ１０２のように）ＣＣを用いて算出された平均の文字高さではなく、ステップＳ３０１において算出されたテキスト行の平均高さを用いて、ＣＣをサブセットに分類するための基準を設定する。言い換えれば、ステップＳ１０２の式において、ここでは、ＡＨはテキスト行の平均高さＡＨ’に置換され、ＡＷはＡＨ’と等しいＡＷ’に置換される。ステップＳ３０３の行の算出は、図２の方法を用いて実行され得る。ステップＳ３０４（大きいＣＣの分解）およびＳ３０５（最も近接する行に対するＣＣの割り当て）は、図１のステップＳ１０４およびＳ１０５と同様である。

コア領域を用いてテキスト行の高さを計算するステップＳ３０１について、図６を参照して詳細に説明する。

ステップＳ３０１に入力されたテキスト行の画像の各々について、当該画像の各行における前景画素の数を計算することによって、画素濃度のヒストグラムが生成される（ステップＳ６０１）。一般的な手書きのような、比較的低い傾斜角を有するテキスト行の画像について、ヒストグラムは、行の中心が当該行の上端および下端と比較して高い画素濃度を有する、およそガウス分布となる。図５Ａは、例示的な行の画像と、右側に対応する画素濃度のヒストグラムとを示す図である。このヒストグラムの表現では、縦軸が、画素位置の行インデックスであり、横軸が、当該行における前景画素の数または濃度である。

ヒストグラムを生成した後、ｋ平均（ｋ－ｍｅａｎｓ）クラスタリングの計算が、ヒストグラムの値に適用されて、ヒストグラムの要素が、高濃度の行および低濃度の行に対応する２つのクラスに分類される（ステップＳ６０２）。図５Ｂは、図５Ａの例における画素濃度データにおいて、ｋ＝２を用いたｋ平均クラスタリングの結果を示す図である。高濃度の行の行インデックスが、ヒストグラムの単一の連続領域にあるという通常の状況では、高濃度の領域の幅が、コア領域の高さとして取得される（ステップＳ６０３）。この状況が、図５Ｂに示される。

入力されるテキスト行の画像が、１つ以上の実際のテキスト行からなるテキストを含む場合に発生し得る、高密度の行が、ヒストグラムの２つ以上の連続領域において現れるという状況では、高密度の領域の各々の幅が計算され、最大幅がコア領域の高さとして取得される（ステップＳ６０３）。

ステップＳ６０１からＳ６０３は、入力される全てのテキスト行の画像について、コア領域の高さを計算するために繰り返される（ステップＳ６０４）。そして、入力される全てのテキスト行のコア領域の高さの平均が算出され（ステップＳ６０５）、図３のステップＳ３０２において平均の文字高さとして用いられて、通常サイズのサブセット、大サイズのサブセットおよび小サイズのサブセットに、ＣＣが分類される。

図８Ｃは、図８Ａにおけるサンプルのテキスト画像と同じものを用いて、ステップＳ３０２の結果として図３の方法を用いて、ＣＣを３つのサブセットに分類した結果を示す図である。パネル（ｇ）、（ｈ）および（ｉ）は、ステップＳ３０２によって取得された、通常サイズのＣＣ、大サイズのＣＣおよび小サイズのＣＣのバウンディングボックスをそれぞれ示す。図８Ａのパネル（ａ）および（ｂ）と比較すると、従来の方法によって、誤って通常サイズのＣＣに分類された２つのＣＣ（パネル（ａ））が、ここでは、大サイズのＣＣ８２に分類される（パネル（ｈ））ことがわかる。したがって、これらの大サイズのＣＣは、ステップＳ３０４において適切に分解され、ステップＳ３０５においてテキスト行に正しく割り当てられ得る。

改良モジュール、すなわち、図３の方法は、任意の行の区分化アルゴリズムに適用され、その制度を向上させ得る。言い換えれば、ある区分化方法を用いたテキスト行の区分化の１回のパスの後に、行の区分化の改良された結果を生み出すために、図３の方法が適用され得る。

図７は、本発明の他の実施形態に係る行の区分化方法を示すフローチャートである。図１の方法と同様に、入力されるデータは、二値のテキスト文書画像である。図７の方法において、ステップＳ７０１～Ｓ７０５は、図１の方法のステップＳ１０１～Ｓ１０５とそれぞれ同様である。１回目にステップＳ７０２が実行されるとき、ステップＳ７０１において算出されたＣＣの平均高さは、ＣＣを３つのサブセットに分類するための基準を設定するのに用いられる。ステップＳ７０３における行の検出は、上述した図２の方法を用いて、あるいは、従来の行の検出方法によって、実行されてもよい。ステップＳ７０１～Ｓ７０５が一回実行された後、ステップＳ７０５によって出力されるテキスト行を用いて、コア領域の平均高さを計算するという、コア領域の高さの計算ステップ（ステップＳ７０７）が実行される。ステップＳ７０７のコア領域の高さの計算は、上述した図６の方法を用いて実行される。そして、処理はステップＳ７０２に戻り、ＣＣを３つのサブセットに分類するが、今回は、ステップＳ７０７において取得されたコア領域の平均高さを用いて、分類のための基準が設定される。

図７の処理フローは、フラグ「出力」によって制御される。処理が始まったとき、フラグは「ＮＯ」に初期化され、ステップＳ７０５の後、フラグが「ＮＯ」である場合（ステップＳ７０６）、ステップＳ７０７が実行される。ステップＳ７０７は、ステップＳ７０２に戻る前に、フラグを「ＹＥＳ」に設定する。ステップＳ７０２では、フラグが「ＮＯ」である場合、ステップＳ７０１によって取得された平均高さが用いられ（１回目）、フラグが「ＹＥＳ」である場合、ステップＳ７０７によって取得された平均高さが用いられる（２回目）。２回目のステップＳ７０６が実行され、フラグは「ＹＥＳ」に設定されて、処理は終了する。

図７の方法は、図３の方法と同じ改良された結果を達成できる。

本発明の実施形態は、ＩＣＲ／ＩＷＲのためのテキスト行の区分化に関するロバストな方法を提供する。本方法は、Ｌｏｕｌｏｕｄｉｓ２００９に記載された従来の方法に対して、以下に挙げるいくつかの利益および利点を有する。本方法は、相互接続から独立した、コア領域を用いて平均の文字高さを概算するための、ロバストな方法を提供する。本方法は、連結成分からテキスト行を見つけるための、より正確な方法を提供する。高さおよび行のより正確な計算は、ＩＣＲ／ＩＷＲのための、より良好な認識精度をもたらす。図２の行の検出方法では、初期段階における誤った行の削除（例えば、平均高さの１．２倍よりも高い行の削除、ステップＳ２０７）は、行の区分化、およびＩＣＲ／ＩＷＲシステムの計算の複雑性を低減させる。文字高さは、続く単語／文字の区分化段階のために再使用され得る。図３の方法は、任意の他の行の区分化方法によって生成される、行の区分化結果を改良するために用いられ得る。

上述した種々の方法は、ハードウェア、ソフトウェアまたはファームウェアにおいて実装され得る。例えば、図９は、本発明の実施形態が実装され得る例示的なコンピューターを示す図である。図９に示すように、このコンピューター１０は、中央処理装置（ＣＰＵ）１０１、メモリー１０２、キーボード等の入力部１０３、コンピューターモニター等の表示部１０４、およびネットワークインターフェース１０５を備え、（図示されない構成要素も含む）これらの全ての構成要素は、バス１０６を介して、相互に内部的に通信する。ネットワークインターフェース１０５を通して、コンピューター１０は、ＬＡＮまたはＷＡＮ等のネットワーク２０に接続され、当該ネットワークに接続される他の装置と通信する。通常、メモリー１０２は、動作中に必要に応じてソフトウェアプログラムを実行するように構成されるＣＰＵ１０１がアクセス可能な、コンピューターが実行可能な指示、またはソフトウェアプログラムを記憶する。好ましくは、そのようなソフトウェアプログラムは、ＧＵＩ（グラフィックユーザーインターフェース）を実装するコンピューターオペレーティングシステムにおいて、動作するように設計される。一実施形態では、メモリー１０２におけるそのようなソフトウェアは、ＣＰＵ１０１によって実行されると、コンピューター１０が上述したテキスト行の区分化方法を実行することを可能にする、プログラム１００を含む。また、ＣＰＵ１０１は、他の種類のソフトウェア（例えば、管理ソフトウェア）、アプリケーション（例えば、ネットワーク通信アプリケーション）、オペレーティングシステム等を実行するようにも構成される。

当業者には明らかなように、本発明の思想または範囲から逸脱することなく、本発明のテキスト行の区分化方法および関連する装置において、種々の改良および変更が行われ得る。したがって、本発明は、添付する特許請求の範囲およびその均等物の範囲に入る改良および変更を包含することが意図される。

Claims

二値の文書画像に対して実行されるテキスト行の区分化方法であって、
前記文書画像において連結成分を検出し、前記連結成分の重心およびバウンディングボックスを計算するステップ（ａ）と、
前記連結成分を、前記連結成分のバウンディングボックスのサイズに基づいて、通常サイズの連結成分の第１のサブセット、大きいサイズの連結成分の第２のサブセット、および小さいサイズの連結成分の第３のサブセットを含む３つのサブセットに分類するステップ（ｂ）と、
前記連結成分の第１のサブセットの前記重心にハフ変換を適用することによって、前記連結成分の第１のサブセットから複数の候補行を検出するステップ（ｃ）と、
全ての候補行のうち、行のバウンディングボックスの平均高さの所定の乗数倍よりも大きい、行のバウンディングボックスの高さを有する候補行を削除するステップ（ｄ）と、ここで、残りの候補行は、正当な行を構成し、
前記第１のサブセットの前記連結成分の各々について、前記連結成分と前記正当な行の各々との間の重なり領域を計算し、前記重なり領域のうちの最大の領域が、前記連結成分のバウンディングボックスの領域の所定の割合よりも大きくない場合、新たな行を正当な行として追加するステップ（ｅ）と、ここで、前記新たな行は、前記連結成分の前記重心を通り、全ての候補行の平均の角度に等しい角度を有し、
前記連結成分の第２のサブセットの各々を、２つ以上の連結成分に分解するステップ（ｆ）と、
前記第１のサブセットの前記連結成分の各々と、前記第３のサブセットの前記連結成分の各々と、前記ステップ（ｆ）において前記第２のサブセットの前記連結成分を分解することによって取得された前記連結成分の各々とを、前記ステップ（ｅ）において取得された前記正当な行のうちの最も近接する行に割り当てて、区分化されたテキスト行を生成するステップ（ｇ）と、
を含む方法。
前記所定の乗数は、１．２である請求項１に記載の方法。
前記所定の割合は、３分の１である請求項１または２に記載の方法。
前記ステップ（ｃ）は、
前記連結成分の第１のサブセットの前記重心にハフ変換を適用して、複数のセルを有するアキュムレータアレイを生成するステップ（ｃ１）と、
前記セルのうち、最大の値を有する前記アキュムレータアレイのセルを特定し、当該値が所定の閾値よりも大きい場合、特定した前記セルに対応する行を候補行のリストに追加し、前記連結成分の第１のサブセットから前記候補行に属する前記連結成分を削除するステップ（ｃ２）と、
最大の値を有する前記セルの前記値が、前記所定の閾値よりも大きくなくなるまで、前記ステップ（ｃ１）および（ｃ２）を繰り返すステップと、
を含む請求項１～３のいずれか一項に記載の方法。
前記ステップ（ｃ１）において、前記ハフ変換の角度は、８５～９５度の範囲に制限される請求項４に記載の方法。
前記所定の閾値は、５である請求項４または５に記載の方法。
前記ステップ（ｄ）は、
前記ステップ（ｃ）において検出された前記候補行の各々について、前記候補行に属する前記第１のサブセットの全ての連結成分の境界を示す、行のバウンディングボックスを計算するステップと、
全ての候補行の前記行のバウンディングボックスについて、行のバウンディングボックスの平均高さを計算するステップと、
前記行のバウンディングボックスの平均高さの前記所定の乗数倍よりも大きい、行のバウンディングボックスの高さを有する全ての候補行を削除するステップと、
を含む請求項１～６のいずれか一項に記載の方法。
前記ステップ（ｂ）において、前記連結成分は、前記連結成分のバウンディングボックスのサイズ、および前記連結成分の平均高さに基づいて、３つのサブセットに分類され、前記連結成分は、

という条件を満たす場合、通常サイズの前記連結成分の第１のサブセットに分類され、ここで、ＨおよびＷは、前記連結成分の高さおよび幅であり、ＡＨは、前記連結成分の平均高さであり、ＡＷは、ＡＨに等しい平均の文字幅であり、ｓ１、ｓ２およびｓ３は、所定の閾値サイズであり、前記連結成分は、

という条件を満たす場合、大きいサイズの前記連結成分の第２のサブセットに分類され、上述した前記条件を満たさない場合、小さいサイズの前記連結成分の第３のサブセットに分類される請求項１～７のいずれか一項に記載の方法。
前記ステップ（ｇ）において生成された、前記区分化されたテキスト行を用いて、テキスト行の平均高さを計算するステップ（ｈ）と、
前記ステップ（ａ）において検出された前記連結成分を、前記連結成分のバウンディングボックスのサイズと、前記ステップ（ｈ）において計算された前記テキスト行の平均高さとに基づいて、通常サイズの前記連結成分の第１のサブセット、大きいサイズの前記連結成分の第２のサブセット、および小さいサイズの前記連結成分の第３のサブセットを含む３つのサブセットに分類するステップ（ｉ）と、ここで、前記連結成分は、

という条件を満たす場合、通常サイズの前記連結成分の第１のサブセットに分類され、ここで、ＨおよびＷは、前記連結成分の高さおよび幅であり、ＡＨ’は、前記テキスト行の平均高さであり、ＡＷ’は、ＡＨ’に等しく、ｓ１、ｓ２およびｓ３は、所定の閾値サイズであり、前記連結成分は、

という条件を満たす場合、大きいサイズの前記連結成分の第２のサブセットに分類され、上述した前記条件を満たさない場合、小さいサイズの前記連結成分の第３のサブセットに分類され、
前記ステップ（ｉ）において取得された前記連結成分の前記３つのサブセットを用いて、前記ステップ（ｃ）、（ｄ）、（ｅ）、（ｆ）および（ｇ）を繰り返すステップと、
をさらに含む請求項８に記載の方法。
前記ステップ（ｈ）は、
前記ステップ（ｇ）において生成された、前記区分化されたテキスト行の各々について、
前記テキスト行の各行について、画素濃度を表す画素濃度のヒストグラムを計算するステップと、
ｋ＝２を用いたｋ平均クラスタリングの計算を前記画素濃度のヒストグラムに適用して、ヒストグラムの要素を、高濃度の行および低濃度の行に対応する２つのクラスに分類するステップと、
前記テキスト行の高さとして、最も広い高濃度の領域の幅を計算するステップと、
前記テキスト行の平均高さとして、全てのテキスト行の前記高さの平均を計算するステップと、
を含む請求項９に記載の方法。
データ処理装置を制御するためのコンピュータープログラムであって、請求項１～１０のいずれか一項に記載の方法を前記データ処理装置に実行させるように構成されるコンピュータープログラム。
請求項１１に記載のコンピュータープログラムを格納したコンピューター読取可能な記録媒体。