JP4480421B2

JP4480421B2 - 文書画像レイアウト解析プログラム

Info

Publication number: JP4480421B2
Application number: JP2004059954A
Authority: JP
Inventors: 浩明武部; 克仁藤本; 聡直井
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2004-03-04
Filing date: 2004-03-04
Publication date: 2010-06-16
Anticipated expiration: 2024-03-04
Also published as: JP2005250816A

Description

本発明は、文書画像における、文字、行、テキストブロック、図、フレームなどの要素の物理的な配置である文書画像レイアウトを解析する、文書画像レイアウト解析プログラムに関する。

近年、スキャナ等の光学機器を用いてコンピュータに取り込んだ文書画像中の文字成分を識別し、文字コードとして出力する光学的文字読取（ＯＣＲ）が、盛んに利用されている。ＯＣＲでは、印刷文字、手書き文字等による文書画像を光学的に走査し読み取って、量子化されたデータを得る。そして、そのデータから文字成分を含んだテキストブロックを抽出する。次に、このテキストブロックから文字成分を抽出して、パターンマッチング等の手法により文字認識を行う。

従来、ある文書画像からテキストブロックを抽出する方法としては、以下のような方法が提案されている。例えば、特許文献１には、基礎要素の集合に対して、それらの近接性（文字成分同士が比較的密に配置されているなど）と同質性（文字成分の大きさがほぼ同じくらいであるなど）に基づいて統合して行を生成する。そして、同様に、行の集合に対しても、それらの近接性と同質性に基づき統合して段（テキストブロック）を生成する。また同時に、生成された段（テキストブロック）を制約と考えることにより、行と段（テキストブロック）を抽出しなおすことが開示されている。具体的には、文書画像における黒画素による連結成分を基礎要素として、それらを統合させ行を生成し、行を統合させてテキストブロックを生成することを基本としている。文書要素に対して、その周辺にある他の文書要素との大きさと位置の関係から、２つの文書要素を統合するかどうかの判断を下す。

また、特許文献２には、文書画像から空白領域の集合を抽出し、それらの中から所定の大きさに関する条件を満たすものを選択して、それらによって被覆される領域以外の領域を抽出することで、文書画像からテキストブロック領域を切り出すことが開示されている。
特開平１１−２１９４０７号公報特開平２−２６３２７２号公報

しかし、文書要素のレイアウトは複雑かつ多様であり、文書要素の集合に対し、文書要素間の局所的な配置関係の情報のみから、特許文献１のように、一階上の同じ文書要素を構成する文書要素同士をリンクすることは、極めて困難である。例えば、テキストブロック同士が入り組んで配置されている場合や、テキストブロックと図が入り組んで配置されている場合などに、文字成分を過統合して、複数行の文字列をまとめて１行としてしまう問題があった。

図２１、図２２は、過統合の例を示す図であり、図２１は、テキストブロック抽出結果を示し、図２２は行抽出結果を示している。
図２１では、文書画像３００において、２つのテキストブロック３１０、３２０が抽出されていることを示している。図２２では、図２１のようなテキストブロック３１０、３２０における行抽出結果（行ａ〜ｎ）を示している。ここで、ａ〜ｈの行は正しく抽出できているが、ｊ〜ｎの行は左右にわたり過統合しており、さらに、ｉ、ｋ、ｍ及びｎの行は上下にわたり過統合している。これらの行を文字認識しても正しい文章が得られない。

また、ある条件を満たす空白領域の集合によって、テキストブロック領域を閉領域として取り出す特許文献２の方式では、以下のような問題がある。
テキストブロック領域を囲む適切な空白領域の大きさは文書画像の各領域によって異なり、固定した条件では、適切な空白領域を選択することは難しい。

図２３は、複数の図に囲まれた領域にテキストブロック領域が配置されているレイアウトの例である。
このような場合、テキストブロック領域３３０のように、図などの他の文書要素と簡単な矩形で分離できないような形で配置されているため、特許文献２の方式であるようなテキストブロック領域を囲む適切な空白領域を選択してテキストブロック領域を切り出すことは、さらに困難である。

本発明はこのような点に鑑みてなされたものであり、複雑なレイアウトの文書画像においても、適切なテキストブロックを抽出可能な文書画像レイアウト解析プログラムを提供することを目的とする。

上記目的を達成するために、文書画像レイアウトを解析する処理をコンピュータに機能させる、以下のような文書画像レイアウト解析プログラムが提供される。

この文書画像レイアウト解析プログラムは、コンピュータに、文書画像における空白領域を仮想的なセパレータとして抽出し、前記仮想的なセパレータを越えたテキスト要素の統合を禁止するもとで、複数の前記テキスト要素を統合して統合テキスト要素として抽出し、抽出した前記統合テキスト要素が行として適合か不適合かを検証し、不適合の場合は、前記空白領域の大きさを制御パラメータにより変化させ、不適合とされた前記統合テキスト要素に対して前記仮想的なセパレータを再抽出し、新たな前記統合テキスト要素を抽出する処理を再帰的に繰り返す、処理を実行させるとともに、前記コンピュータに、前記抽出した前記統合テキスト要素における行において、前記行を囲む文字列矩形内に含まれる、連結成分あるいは前記連結成分を統合したものを文字認識して認識信頼度が高いものを文字候補とし、前記文字列矩形の一角を原点とした２次元座標を用いて番号付けされた前記文字候補を含む、前記原点を一角とした矩形検査領域を前記番号順に設定し、前記矩形検査領域内に前記文字候補より後ろの前記番号の前記文字候補を含まないという条件の下で、前記文字候補の読み取り順序を決定し、統合する前記文字候補より後ろの前記読み取り順序のものを含まないという条件の下で、前記読み取り順序に応じて前記文字候補を順番に統合して生成される新たな生成行が、前記文字列矩形内において前記行の垂直方向に複数存在するときに、前記行を行として不適合であると判定する、処理を実行させる。

また、上記目的を達成するために、文書画像レイアウトを解析する処理をコンピュータに機能させる、以下のような文書画像レイアウト解析プログラムが提供される。
この文書画像レイアウト解析プログラムは、コンピュータに、文書画像における空白領域を仮想的なセパレータとして抽出し、前記仮想的なセパレータを越えたテキスト要素の統合を禁止するもとで、複数の前記テキスト要素を統合して統合テキスト要素として抽出し、抽出した前記統合テキスト要素がテキストブロックとして適合か不適合かを検証し、不適合の場合は、前記空白領域の大きさを制御パラメータにより変化させ、不適合とされた前記統合テキスト要素に対して前記仮想的なセパレータを再抽出し、新たな前記統合テキスト要素を抽出する処理を再帰的に繰り返す、処理を実行させるとともに、前記コンピュータに、前記抽出した前記統合テキスト要素における行において、前記行を囲む文字列矩形内に含まれる、連結成分あるいは前記連結成分を統合したものを文字認識して認識信頼度が高いものを文字候補とし、前記文字列矩形の一角を原点とした２次元座標を用いて番号付けされた前記文字候補を含む、前記原点を一角とした矩形検査領域を前記番号順に設定し、前記矩形検査領域内に前記文字候補より後ろの前記番号の前記文字候補を含まないという条件の下で、前記文字候補の読み取り順序を決定し、統合する前記文字候補より後ろの前記読み取り順序のものを含まないという条件の下で、前記読み取り順序に応じて前記文字候補を順番に統合して生成される新たな生成行が、前記文字列矩形内において前記行の垂直方向に複数存在するときに、前記行を含んだテキストブロックをテキストブロックとして不適合であると判定する、処理を実行させる。

また、上記目的を達成するために、文書画像レイアウトを解析する処理をコンピュータに機能させる、以下のような文書画像レイアウト解析プログラムが提供される。
この文書画像レイアウト解析プログラムは、コンピュータに、文書画像における空白領域を仮想的なセパレータとして抽出し、前記仮想的なセパレータを越えたテキスト要素の統合を禁止するもとで、複数の前記テキスト要素を統合して統合テキスト要素として抽出し、抽出した前記統合テキスト要素がテキストブロックとして適合か不適合かを検証し、不適合の場合は、前記空白領域の大きさを制御パラメータにより変化させ、不適合とされた前記統合テキスト要素に対して前記仮想的なセパレータを再抽出し、新たな前記統合テキスト要素を抽出する処理を再帰的に繰り返す、処理を実行させるとともに、前記コンピュータに、前記抽出した前記統合テキスト要素内に含まれる行において、所定の行数以上の前記行が、前記統合テキスト要素内にある連結成分から推定される前記統合テキスト要素の平均文字間隔よりも大きい同一の空白領域と交差するとき、抽出された前記統合テキスト要素をテキストブロックとして不適合であると判定する、処理を実行させる。

本発明は、文書画像における空白領域を仮想的なセパレータとして抽出し、さらに、そのセパレータを越えたテキスト要素の統合を禁止するもとで、複数のテキスト要素を統合して統合テキスト要素として抽出するので、文書画像のレイアウトに応じた統合テキスト要素を抽出することができる。

また、抽出した統合テキスト要素に対して行またはテキストブロックとして適合か不適合かを検証し、その検証の結果、統合テキスト要素が不適合の場合は、行またはテキストブロックとしての条件が満たされるまで、空白領域の大きさを制御パラメータにより変化させ、仮想セパレータの再抽出及び、統合テキスト要素を抽出する処理を再帰的に繰り返すので、正しい文章として認識可能になる適切な統合テキスト要素を抽出することができる。

以下、本発明の実施の形態を図面を参照して詳細に説明する。
図１は、本発明の文書画像レイアウト解析プログラムの原理を示す図である。
本発明の文書画像レイアウト解析プログラムは、文書画像レイアウトを解析する処理をコンピュータ１０に機能させるプログラムである。このプログラムは、コンピュータ１０に、文書画像における空白領域を仮想的なセパレータ（以下仮想セパレータという）として抽出し（ステップＳ１）、仮想セパレータを越えたテキスト要素の統合を禁止するもとで、複数のテキスト要素を統合して統合テキスト要素として抽出する（ステップＳ２）処理を実行させる。

なお、テキスト要素とは、文字成分あるいは、複数の文字成分からなる行または複数の行からなるテキストブロックであり、統合テキスト要素とは、複数のテキスト要素を統合した行またはテキストブロックである。

さらに、このプログラムは、コンピュータ１０に、抽出した統合テキスト要素が行またはテキストブロックとして適合か不適合かを検証し（ステップＳ３）、検証の結果、統合テキスト要素が正しくない場合は、ステップＳ１に戻って、空白領域の大きさを制御パラメータ（詳しくは後述する）により変化させ、不適合とされた統合テキスト要素に対して仮想セパレータを再抽出し、新たな統合テキスト要素を抽出する処理を再帰的に繰り返す処理を実行させる。

以下、上記のようなプログラムを実行したときのコンピュータ１０による文書画像レイアウト解析処理の概要を、具体例を挙げて説明する。
図２乃至図５は、本発明の文書画像レイアウト解析プログラムによる文書画像レイアウト解析処理の概要を示す図である。

文書画像レイアウト解析処理が開始すると、図２のような文書画像２０において、ある制御パラメータ（後述する）に応じてその大きさ（Ｘ、Ｙ方向の大きさ）を決定する空白領域（空白矩形）を、仮想セパレータ２１ａ、２１ｂ、２１ｃ、２１ｄ、２１ｅとして抽出する（ステップＳ１）。

次に、ステップＳ１の処理で抽出された仮想セパレータ２１ａ、２１ｂ、２１ｃ、２１ｄ、２１ｅを越えたテキスト要素である複数の文字成分や行の統合を禁止するもとで、図３のように文字成分間の近接性と均質性に基づき文字成分を行に、同様に行をテキストブロックへとテキスト要素を統合して統合テキスト要素（ここではテキストブロック）２２ａ、２２ｂ、２２ｃ、２２ｄ、２２ｅとして抽出する（ステップＳ２）。

さらに、抽出されたテキストブロック２２ａ、２２ｂ、２２ｃ、２２ｄ、２２ｅのそれぞれに対して、テキストブロックとしての条件を満たすか否かを検証する（ステップＳ３）。

ここでの条件とは、文字認識により正しい文章として認識しうるテキストブロックであるための条件である。例えば、図３のように抽出されたテキストブロック２２ａ、２２ｂ、２２ｃ、２２ｄ、２２ｅにおいて、テキストブロック２２ｂ、２２ｃについては、文字認識しても正しい文章として認識されず、ステップＳ３の検証処理では、テキストブロックとしての条件を満たさず不適合であると判定される（この条件についての詳細は後述する）。

このとき、ステップＳ１に戻って、仮想セパレータとして抽出する空白領域の大きさを制御パラメータにより変化させ（具体的にはより細い空白領域が仮想セパレータとして抽出されるようにする）、そのテキストブロック２２ｂ、２２ｃに対して図４のように仮想セパレータ２３ａ、２３ｂ、２３ｃ、２３ｄ、２３ｅを再抽出し、図５のように新たなテキストブロック２４ａ、２４ｂ、２４ｃ、２４ｄ、２４ｅ、２４ｆを抽出する。

上記のような処理が、テキストブロックとしての条件が満たされるまで処理が再帰的に繰り返される。
なお、制御パラメータは、再帰回数と統合テキスト要素の大きさやそれに含まれる文字の大きさに基づいて設定される。

このような、文書画像レイアウト解析プログラムによれば文書画像のレイアウトに応じた統合テキスト要素を抽出することができる。
また、抽出した統合テキスト要素に対して行またはテキストブロックとして適合か不適合かを検証し、その検証の結果、統合テキスト要素が不適合の場合は、行またはテキストブロックとしての条件が満たされるまで、空白領域の大きさを制御パラメータにより変化させ、仮想セパレータの再抽出及び、統合テキスト要素を抽出する処理を再帰的に繰り返すので、正しい文章として認識可能になる適切な統合テキスト要素を抽出することができる。

以下、本発明の実施の形態の詳細を説明する。
図６は、文書画像レイアウト解析プログラムを適用する文書画像レイアウト解析装置のハードウェア構成例である。

文書画像レイアウト解析装置１００は、例えばＰＣ（パーソナルコンピュータ）であり、ＣＰＵ（Central Processing Unit）１０１、ＲＯＭ（Read Only Memory）１０２、ＲＡＭ（Random Access Memory）１０３、ＨＤＤ（Hard Disk Drive）１０４、グラフィック処理部１０５、入力Ｉ／Ｆ（Interface）１０６、通信Ｉ／Ｆ１０７などによって構成され、これらはバス１０８を介して相互に接続されている。

ここで、ＣＰＵ１０１は、ＲＯＭ１０２や、ＨＤＤ１０４に格納されているプログラムや、各種データに応じて各部を制御する。
ＲＯＭ１０２は、ＣＰＵ１０１が実行する基本的なプログラムやデータを格納している。

ＲＡＭ１０３は、ＣＰＵ１０１が実行途中のプログラムや、演算途中のデータを格納している。
ＨＤＤ１０４は、ＣＰＵ１０１が実行するＯＳ（Operation System）や、本発明の文書画像レイアウト解析プログラムなど各種アプリケーションプログラム、図示しないスキャナなどの光学機器によって読み込んだ文書画像データなどの各種データを格納している。

グラフィック処理部１０５には、表示装置として例えば、ディスプレイ１０５ａが接続されており、ＣＰＵ１０１からの描画命令に従って、ディスプレイ１０５ａの画面上に、文書画像などを表示する。

入力Ｉ／Ｆ１０６には、マウス１０６ａやキーボード１０６ｂが接続されており、ユーザにより入力された情報を受信し、バス１０８を介してＣＰＵ１０１に伝送する。
通信Ｉ／Ｆ１０７は、例えば、インターネットなどのネットワーク１２０と接続して、ネットワーク１２０上に接続された他の装置との通信を行う。

次に、文書画像レイアウト解析装置１００で行われる文書画像レイアウト解析処理の詳細を説明する。
なお、以下では、前述した統合テキスト要素はテキストブロックであるとして説明を進めるが、行であってもよい。

以下で示す文書画像レイアウト解析処理は、ＣＰＵ１０１の制御のもと、例えば、ＲＯＭ１０２またはＨＤＤ１０４に格納された本発明の文書画像レイアウト解析プログラムや、文書画像データなどの各種データが読み出され、ＲＡＭ１０３に展開されて実行されることによって実現される。

図７は、文書画像レイアウト解析処理全体の概要を示す図である。
文書画像レイアウト解析処理は、図のように、連結成分属性付与処理（ステップＳ１０）と、再帰的テキストブロック抽出処理（ステップＳ２０）からなる。

連結成分属性付与処理（ステップＳ１０）は、文書画像の黒画素による全ての連結成分に、文字成分、セパレータ、図、フレーム、ノイズのいずれかの属性を付与する。ここで、図とは、文字成分、セパレータ、フレームまたはノイズではなく、かつ、それ自身の中に文字成分を含まない連結成分のことである。またフレームとは、複数の文字成分を内側に含んだ枠のことである。

再帰的テキストブロック抽出処理（ステップＳ２０）は、前述の図１で示したステップＳ１〜Ｓ３の処理に相当する。ステップＳ１０の連結成分属性付与処理で属性の付与された連結成分の集合に対して、仮想セパレータの抽出、テキストブロックの抽出、そしてテキストブロックとしての条件を満たしているかの検証を行い、テキストブロックが正しくない場合は、空白領域の大きさを制御パラメータにより変化させ、そのテキストブロックに対して仮想セパレータを再抽出し、新たなテキストブロックを抽出する処理を再帰的に繰り返す処理を行う。

まず、連結成分属性付与処理の詳細を説明する。
図８は、連結成分属性付与処理の流れを示す一例のフローチャートである。
例えば、ＨＤＤ１０４に格納された文書画像がＣＰＵ１０１の制御のもと取り出されると、その文書画像に対し、まずラベリング処理が行われる。

図９は、ラベリング処理の具体例を示す図である。
例えば「た」という文字成分は、黒画素による３つの連結成分２０１、２０２、２０３からなる。ラベリング処理では、連結成分２０１、２０２、２０３を囲む最小の長方形である外接矩形２０１ａ、２０２ａ、２０３ａの座標値（ＸＹ座標）を得ることで、黒画素の連結成分の情報を取得する。このような処理を文書画像中の全ての連結成分に対し行う（ステップＳ１１）。

次に、ステップＳ１１の処理で得られた連結成分の集合Ｓに対して、セパレータ判別処理を行う。ここでは、連結成分の外接矩形の長い辺の長さがある一定値以上であり、かつ外接矩形の縦横比がある一定値以上であるとき、その連結成分はセパレータであると判別する（ステップＳ１２）。

また、連結成分の集合Ｓに対して、ノイズ判別処理を行う。ここでは、連結成分の外接矩形の面積がある一定値以下であるとき、その連結成分はノイズであると判別する（ステップＳ１３）。

さらに、連結成分の集合Ｓから、ステップＳ１２、Ｓ１３の処理で判別されたセパレータとノイズを除いた集合Ｓａに対して、階層化処理を行う。
図１０は、階層化処理の具体例を示す図である。

例えば、「区」のような文字成分は、黒画素による２つの連結成分２１１、２１２からなる。これらは、連結成分２１１、２１２の外接矩形２１１ａ、２１２ａの座標値によりステップＳ１１の処理でラベリングされている。この文字の場合、連結成分２１１の中に連結成分２１２が包含されている。このような連結成分同士の関連がある場合、連結成分２１１の“子”に連結成分２１２を登録し、連結成分２１２の“親”に連結成分２１１を登録するといった階層化処理を行う（ステップＳ１４）。

階層化処理が終わると集合Ｓａに対して、文字認識処理を行う。ここでは、連結成分に対して、まず、その外接矩形の領域をそのまま１文字認識する。そして、文字認識結果の信頼度が高いとき、その連結成分に文字成分フラグ“ＣＨ”を付ける。次に、例えば、図１０のように、“子”を持っている連結成分がある場合には、“子”の連結成分の集合に対して重なり統合を行い、その結果得られる全ての重なり成分の外接矩形領域を１文字認識する。

図１１は、文字成分を包含するフレームを示した図である。
この図のように連結成分２２０は、重なり統合の結果、例えば、文字認識結果の信頼度が高い外接矩形領域２２１、２２２、２２３、２２４を“子”として有している。このように、文字認識結果の信頼度が高い“子”をある一定数以上有している場合、その連結成分２２０は複数の文字を囲んだフレームである可能性があるので、連結成分２２０にフレームフラグ“ＦＲ”をつける（ステップＳ１５）。

次に、集合Ｓａに対して、文字成分・フレーム・図判別処理を行う。具体的には、連結成分に文字成分フラグ“ＣＨ”がついている場合、その連結成分の“親”が存在するならば、その“親”に文字成分フラグ“ＣＨ”がついていないときは“親”に、フレームフラグ“ＦＲ”をつける。また、“親”に文字成分フラグ“ＣＨ”がついているときは、“子”であるその連結成分の信頼度と“親”の連結成分の信頼度を比較して、“子”の連結成分の信頼度が高ければ、“親”の文字成分フラグ“ＣＨ”を取り消し、フレームフラグ“ＦＲ”をつける。ここで、集合Ｓａに対して、フレームフラグ“ＦＲ”のついている連結成分を全てフレームにする。残りの連結成分の中で、文字成分フラグ“ＣＨ”のついていないもので、外接矩形の面積がある一定値以上であるとき、それを図とする。さらに残りの連結成分を文字成分とする（ステップＳ１６）。

最後に、文字成分とした連結成分の集合に対して、重なり統合処理を行う（ステップＳ１７）。
以上のような処理で、文書画像中の全ての連結成分に対して、文字成分、セパレータ、図、フレーム、ノイズのいずれかの属性を付与することができる。

次に、図７で示したステップＳ２０の再帰的テキストブロック抽出処理の詳細を説明する。
図１２は、再帰的テキストブロック抽出処理の流れを示す一例のフローチャートである。

連結成分属性付与処理が終わり、再帰的テキストブロック抽出処理が開始すると、まず、文書画像内のある矩形領域Ｐにおける極大空白矩形を求める処理が行われる。
文書画像における空白矩形とは、文書画像内の矩形領域であって、内部に黒画素を含まないものである。そして、空白矩形の集合のうち、自分以外に自分自身を含む空白矩形が存在しないものを極大空白矩形という。

図１３は、極大空白矩形の一例を示す図である。
文書画像内のある矩形領域Ｐを表している。この矩形領域Ｐ内には、図７のステップ１０で説明した処理により得られた外接矩形の集合Ｓ＝｛Ｒ_i∈Ｐ，ｉ＝１，２，…，ｎ｝が与えられている（図ではｎ＝５の場合について示している）。ここで、矩形領域Ｐにおける空白矩形（以下ＰにおけるＳ空白矩形と称す）の集合を、矩形領域Ｐ内の矩形領域であり、集合Ｓに属する全ての矩形と重ならないものとする。また、ＰにおけるＳ空白矩形の集合のうち、自分以外に自分自身を含むＰにおけるＳ空白矩形が存在しないものをＰにおけるＳ極大空白矩形という。以下、ＰにおけるＳ極大空白矩形の集合をＭ（Ｐ，Ｓ）で表す。図１３では、Ｍ（Ｐ，Ｓ）のうち矩形領域Ｐ内で最大となる、ＰにおけるＳ極大空白矩形２３０を示している。

Ｍ（Ｐ，Ｓ）は制御パラメータｎ、ｘによって決定し、以下の式で定義される。
Ｍ_n,x（Ｐ，Ｓ）＝｛Ｔ∈Ｍ（Ｐ，Ｓ）｜ｍｉｎ（Ｔ^X，Ｔ^Y）≧ｎａｎｄｍａｘ（Ｔ^X，Ｔ^Y）≧ｘ｝
ここで、Ｔ^XはＭ（Ｐ，Ｓ）に含まれるＰにおけるＳ極大空白矩形Ｔの横（Ｘ方向）の長さを表し、Ｔ^YはＴの縦（Ｙ方向）の長さを表す。ｍｉｎ（Ｔ^X，Ｔ^Y）≧ｎは、Ｔ^X，Ｔ^Yのうち短いほうが制御パラメータｎ以上であることを示し、ｍａｘ（Ｔ^X，Ｔ^Y）≧ｘはＴ^X，Ｔ^Yのうち長いほうが制御パラメータｘ以上であることを示す（ステップＳ２１）。

制御パラメータｎ、ｘは、再帰回数とテキストブロックの大きさやそれに含まれる文字の大きさに基づいて設定する。
ところで、前述した連結成分属性付与処理によって外接矩形に付与された属性をもとに、外接矩形の集合Ｓのうち、文字成分の外接矩形の集合を“Ｃ”、フレームやセパレータ、図など文字成分以外の外接矩形の集合を“Ｈ”として、“Ｈ”は、他の外接矩形との統合を禁止するリンク禁止領域として分類されているものとする。

このとき、ステップＳ２１で求めた矩形領域ＰにおけるＣ∪Ｈ（ＣとＨの和集合）極大空白矩形集合Ｍ_n,x（Ｐ，Ｃ∪Ｈ）を、仮想セパレータとしてリンク禁止領域である“Ｈ”に追加する。そして追加されたリンク禁止領域を“Ｈａ”とする（ステップＳ２２）。

次に、文字成分の外接矩形の集合“Ｃ”に対して、リンク禁止領域“Ｈａ”を超える統合を禁止するもとで、近接性あるいは同質性に基づいて統合を行いテキストブロックの抽出を行う。具体的な方法については、特開平１１−２１９４０７号公報に開示されている。処理結果としては、テキストブロックとそれを構成する行が得られる（ステップＳ２３）。

次に、抽出されたテキストブロック数をｌとして、ループ回数ｉ＝０とし（ステップＳ２４）、ｉ＝ｌとなるまで以下の処理を繰り返す。
すなわち、ｉ＜ｌであるか否かを判断し（ステップＳ２５）、ｉ＜ｌである場合には、抽出したテキストブロックＢ_iがテキストブロック適合性条件（詳細は後述する）を満たすか否かを判断し（ステップＳ２６）、満たす場合にはｉをインクリメントして（ステップＳ２７）、ステップＳ２４の処理に戻る。ｉ＝ｌとなった場合、すなわち矩形領域Ｐ内の全てのテキストブロックＢ_iがテキストブロック適合性条件を満たした場合には、文書画像内の矩形領域Ｐに対する処理を終了して、別の矩形領域に対してステップＳ２１からの処理を繰り返す（リターン）。

一方、ステップＳ２６の処理でテキストブロックＢ_iがテキストブロック適合性条件を満たさない場合には、テキストブロックＢ_iを矩形領域Ｐとし、テキストブロックＢ_i内の文字成分の外接矩形Ｕ、文字成分以外の外接矩形Ｖとして、Ｃ＝｛Ｕ∈Ｃ｜Ｕ∩Ｐ≠φ｝、Ｈ＝｛Ｖ∈Ｈ｜Ｖ∩Ｐ≠φ｝と新たに定義する。そして、これらＰ、Ｃ、Ｈに対して、制御パラメータｎ、ｘを変化させ（ステップＳ２８）、ステップＳ２１からの処理を再度行う（ステップＳ２９）。再帰処理が終わる（リターンする）とｉをインクリメントした後（ステップＳ２７）、ステップＳ２４の処理に戻り、次のテキストブロックＢ_i+1についての検証を行う（ステップＳ２６）。

なお、再帰処理の際、制御パラメータｎ、ｘは、ともに減少させていくように設定する。すなわち、テキストブロック適合性条件を満たさなかったテキストブロックＢ_iにおいては、仮想セパレータとして設定する極大空白矩形を小さいものにしていく。

このようにすることで、テキストブロックと図が複雑に入り組んで配置されている場合でも、文字成分を過統合して、複数行の文字列をまとめて１行としてしまうなどの問題を解消できる。

次に、図１２におけるテキストブロックとしての適合性を検証する処理（ステップＳ２６）の詳細を説明する。
ステップＳ２３の処理におけるテキストブロック抽出結果が、テキストブロックとしての条件（テキストブロック適合性条件）を満たすかどうかを判断するために、以下の２つの処理を行う。

図１４は、テキストブロックとしての適合性検証の処理の概略を示す図である。
ステップＳ３０：テキストブロックを構成する各行について、行が、行の方向（縦または横）の垂直方向にわたって、文字を２文字以上含まないか判断する。

図１５は、あるテキストブロックを構成する行の一例を示す図である。
図のようにテキストブロック２４０において、行２４１〜２４５が得られているものとする。このとき、行２４２、２４４、２４５については、行方向の垂直方向にわたり２文字以上の文字を含んでいる。すなわち、抽出された行はその領域内に、行の垂直方向に複数の行を有している。このような行２４２、２４４、２４５は、文字認識を行っても正しい文章が得られないため、行として不適合であるとともに、このような行２４２、２４４、２４５を含むテキストブロック２４０は、テキストブロックとして不適合であると判定される。

ステップＳ４０：テキストブロックを構成する行について、所定の行数以上の行が、文字間隔よりも大きい同一の空白領域と交差しないか判断する。
図１６は、図１５のテキストブロックの空白領域を示した図である。

図のようにテキストブロック２４０は、全ての行が、文字間隔よりも大きい同一の空白領域２５０と交差している。このようなテキストブロック２４０では、文字認識を行っても正しい文章が得られないためテキストブロックとして不適合とする。

以下、図１４のそれぞれの処理についての詳細を説明する。
図１７は、テキストブロック適合性検証処理の１つめの処理の詳細を示すフローチャートである。

抽出されたテキストブロックＢ_iに対して、行抽出結果を｛Ｌ_j：ｊ＝１、２、…、ｍ｝とする。このとき、まず、ｊ＝０として（ステップＳ３１）、ｊ＝ｍとなるまで以下の処理を繰り返す。

まず、ｊ＜ｍであるか否かを判断する（ステップＳ３２）。ｊ＜ｍである場合には、行Ｌ_jに対し、文字候補集合Ｍの中から行Ｌ_jに含まれる文字候補Ｍ_Ljを求める。なお、文字候補集合Ｍは、前述した連結成分属性付与処理（図７）で文字成分と判別されたもののうち、認識信頼度が高い文字成分（前述のフラグ“ＣＨ”が付加されたものを用いても良い）からなる集合である（ステップＳ３３）。

次に、ステップＳ３３の処理で求められた文字候補Ｍ_Ljに対して行生成を行う。
行生成は、行Ｌ_jにおける文字候補Ｍ_Ljに付与される読み取り順序に応じて生成される。

図１８は、読み取り順序を付与する処理の概略を示す図である。
行Ｌ_jに含まれる文字候補Ｍ_Lj（外接矩形で図示している）は、例えば、その外接矩形の左上点のＹ座標の小さい順にソートされる。Ｙ座標が同一の場合は、Ｘ座標が小さい順にソートされる。これにより、文字候補Ｍ_Ljは、図のように番号（１）〜（１６）と番号付けされる。

ここで、行Ｌ_jを囲む文字列矩形の一角を原点２６０としたときに、その原点２６０を一角として文字候補Ｍ_Ljを含む矩形検査領域２６１、２６２を設定する。文字候補Ｍ_Ljの読み取り順序は、この矩形検査領域２６１、２６２内に、文字候補Ｍ_Ljより後ろの読み取り順序のものを含まないという条件のもとで、文字候補Ｍ_Ljの読み取り順序を決定する。

具体的には、まず、番号（１）の文字候補Ｍ_Ljから順に、原点２６０を一角として文字候補Ｍ_Ljを含む矩形検査領域を設定し、その文字候補Ｍ_Ljより後ろの番号の文字候補Ｍ_Ljが含まれない場合に、読み取り番号の付与を行う。その文字候補Ｍ_Ljより後ろの番号が含まれる場合には、読み取り番号の付与は行わない。例えば、図１８のように番号（１）の文字候補Ｍ_Ljを含む矩形検査領域２６１は、番号（４）、（５）、（６）、（７）の文字候補Ｍ_Ljを含む。よって読み取り番号の付与は行わない。番号（２）、（３）の文字候補Ｍ_Ljについても同様に、読み取り番号の付与は行われない。番号（４）の文字候補Ｍ_Ljについては、矩形検査領域２６２にそれ以外のものを含まないので、読み取り番号１が付与される。このような処理を繰り返すことで図のような読み取り番号１〜１６が行Ｌ_jに対して付与される。

図１９は、行生成の処理の概略を示す図である。
文字候補Ｍ_Ljを図１８で示したような処理で決定した読み取り順序（付与された読み取り番号）に従って順に統合して、新たに行Ｌ_jkを生成する。ここで、図１９のように、読み取り番号５の文字候補Ｍ_Ljを統合して外接矩形２７１（点線で図示している）で表される行Ｌ_jkを生成しようとすると、読み取り番号５より後ろの、読み取り番号８の文字候補Ｍ_Ljがその外接矩形２７１に含まれてしまう。この場合、読み取り番号５の文字候補Ｍ_Ljの統合をせず、読み取り番号１〜４の文字候補Ｍ_Ljを１つの行Ｌ_j1として確定する。このように、統合する文字候補Ｍ_Ljより後ろの読み取り順序のものを含まないという条件の下で、読み取り順序に応じて文字候補Ｍ_Ljを順番に統合して新たな生成行とする。同様にして、図のように新たに行Ｌ_j2、Ｌ_j3、Ｌ_j4が生成される（ステップＳ３４）。

次に、ステップＳ３４の処理により新たに生成された行Ｌ_jkの中に、行Ｌ_jの垂直方向に複数並ぶものがないか否かを判断する（ステップＳ３５）。そのような行Ｌ_jkがない場合には、ｊをインクリメントし（ステップＳ３６）、ステップＳ３２からの処理を繰り返す。また、図１９で示したような行Ｌ_jのように、垂直方向に並んだ複数の行Ｌ_j2、Ｌ_j3が生成された場合には、行Ｌ_jは行として不適合として判定され、その行Ｌ_jを含む抽出したテキストブロックＢ_iは不適合と判断され（ステップＳ３７）処理を終了する。

一方、ステップＳ３２において、ｊ＝ｍとなった場合、すなわち、テキストブロックＢ_iを構成する全ての行Ｌ_jに対して、垂直方向に複数の行Ｌ_jkを持たないという判断がなされた場合は、テキストブロックＢ_iは、テキストブロックとして適合であると判断され（ステップＳ３８）処理を終了する。

次に、図１４で示したテキストブロック適合性検証処理の２つめの処理（ステップＳ４０）の詳細を説明する。
図２０は、テキストブロック適合性検証処理の２つめの処理の詳細を示すフローチャートである。

前述したステップＳ３０のテキストブロック適合性検証処理と同様に、抽出されたテキストブロックＢ_iに対して、行抽出結果を｛Ｌ_j：ｊ＝１、２、…、ｍ｝とする。そして、まず、テキストブロックＢ_iに含まれる文字成分Ｃ_iを求める（ステップＳ４１）。

次に、テキストブロックＢ_iに含まれる連結成分である文字成分Ｃ_iから推定される平均文字間隔を求める（ステップＳ４２）。そして、平均文字間隔から、前述した極大空白矩形を設定する制御パラメータ（ｎ，ｘ）の設定を行い（ステップＳ４３）、Ｂ_iにおけるＣ_i極大空白矩形集合Ｍ_n,x（Ｂ_i,Ｃ_i）を求める（ステップＳ４４）。

次に、Ｂ_iにおけるＣ_i極大空白矩形集合Ｍ_n,x（Ｂ_i,Ｃ_i）に含まれる極大空白矩形が、｛Ｌ_j：ｊ＝１、２、…、ｍ｝の所定の行数（ｔｈ）以上の行Ｌ_jと交差するものがないか否かを判断する（ステップＳ４５）。ここで、そのような極大空白矩形がない場合には、抽出したテキストブロックＢ_iは適合であるとし（ステップＳ４６）、一定本数以上の行Ｌ_jと交差するものがある場合には、テキストブロックＢ_iは不適合であるとし（ステップＳ４７）、テキストブロック適合性検証処理を終える。

所定の行数（ｔｈ）は、例えば、抽出されたテキストブロックＢ_iを構成する行数に応じて設定し、例えば、その行数の１割などとする。
以上のように、本発明によれば、従来技術では困難であった、テキストブロック同士が入り組んで配置されている場合や、テキストブロックと図が入り組んで配置されている場合や、テキストブロックが他の文書要素と矩形で分離できない形で配置されている場合であっても、テキストブロックを正しく抽出することができる。これにより、雑誌や広告などの複雑なレイアウト構造を持つ文書に対して、テキストブロックを高精度に抽出することができる。

なお、上記では、テキスト要素を統合してテキストブロックや行を抽出するとしたが、抽出された仮想セパレータに基づいて生成される閉領域をそのまま抽出することによって、テキスト要素のほかに、図や表、写真などの文書要素を抽出するようにしてもよい。

そして、抽出した文書要素のうちテキスト要素が行またはテキストブロックとして適合か不適合かを前述のように検証し、不適合の場合は、空白領域の大きさを制御パラメータｎ，ｘにより変化させ、不適合とされたテキスト要素に対して仮想的なセパレータを再抽出し、前記文書要素を抽出する処理を再帰的に繰り返すような処理を行うようにしてもよい。

なお、上記の処理機能は、コンピュータ（図６で示したようなハードウェア構成である）によって実現することができる。その場合、文書画像レイアウト解析装置１００が有すべき機能の処理内容を記述したプログラムが提供される。そのプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリなどがある。磁気記録装置には、ハードディスク装置（ＨＤＤ）、フレキシブルディスク（ＦＤ）、磁気テープなどがある。光ディスクには、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ、ＣＤ−ＲＯＭ、ＣＤ−Ｒ（Recordable）／ＲＷ（ReWritable）などがある。光磁気記録媒体には、ＭＯ（Magneto-Optical disk）などがある。

プログラムを流通させる場合には、例えば、そのプログラムが記録されたＤＶＤ、ＣＤ−ＲＯＭなどの可搬型記録媒体が販売される。また、プログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することもできる。

プログラムを実行するコンピュータは、例えば、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、自己の記憶装置に格納する。そして、コンピュータは、自己の記憶装置からプログラムを読み取り、プログラムに従った処理を実行する。なお、コンピュータは、可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することもできる。また、コンピュータは、サーバコンピュータからプログラムが転送される毎に、逐次、受け取ったプログラムに従った処理を実行することもできる。

本発明は、例えば、スキャナなどの光学機器により読み込んだ広告記事などの様々な文書画像において文字認識処理を行う際に適用される。
（付記１）文書画像レイアウトを解析する処理をコンピュータに機能させる文書画像レイアウト解析プログラムにおいて、
コンピュータに、
文書画像における空白領域を仮想的なセパレータとして抽出し、
前記仮想的なセパレータを越えたテキスト要素の統合を禁止するもとで、複数の前記テキスト要素を統合して統合テキスト要素として抽出する、
処理を実行させることを特徴とする文書画像レイアウト解析プログラム。

（付記２）前記コンピュータに、
抽出した前記統合テキスト要素が行またはテキストブロックとして適合か不適合かを検証し、
不適合の場合は、前記空白領域の大きさを制御パラメータにより変化させ、不適合とされた前記統合テキスト要素に対して前記仮想的なセパレータを再抽出し、新たな前記統合テキスト要素を抽出する処理を再帰的に繰り返す、
処理を更に実行させることを特徴とする付記１記載の文書画像レイアウト解析プログラム。

（付記３）前記抽出した前記統合テキスト要素における行において、前記行を囲む文字列矩形内に含まれる、連結成分あるいは前記連結成分を統合したものを文字認識して認識信頼度が高いものを文字候補とし、
前記文字列矩形の一角を原点とし、前記原点を一角として前記文字候補を含むような矩形検査領域を設定し、
前記矩形検査領域内に前記文字候補より後ろの読み取り順序のものを含まないという条件の下で、前記文字候補の前記読み取り順序を決定し、
統合する前記文字候補より後ろの前記読み取り順序のものを含まないという条件の下で、前記読み取り順序に応じて前記文字候補を順番に統合して生成される新たな生成行が、前記文字列矩形内において前記行の垂直方向に複数存在するときに、前記行を行として不適合であると判定することを特徴とする付記２記載の文書画像レイアウト解析プログラム。

（付記４）前記抽出した前記統合テキスト要素における行において、前記行を囲む文字列矩形内に含まれる、連結成分あるいは前記連結成分を統合したものを文字認識して認識信頼度が高いものを文字候補とし、
前記文字列矩形の一角を原点とし、前記原点を一角として前記文字候補を含むような矩形検査領域を設定し、
前記矩形検査領域内に前記文字候補より後ろの読み取り順序のものを含まないという条件の下で、前記文字候補の前記読み取り順序を決定し、
統合する前記文字候補より後ろの前記読み取り順序のものを含まないという条件の下で、前記読み取り順序に応じて前記文字候補を順番に統合して生成される新たな生成行が、前記文字列矩形内において前記行の垂直方向に複数存在するときに、前記行を含んだテキストブロックをテキストブロックとして不適合であると判定することを特徴とする付記２記載の文書画像レイアウト解析プログラム。

（付記５）前記抽出した前記統合テキスト要素内に含まれる行において、所定の行数以上の前記行が、前記統合テキスト要素内にある連結成分から推定される前記統合テキスト要素の平均文字間隔よりも大きい同一の空白領域と交差するとき、抽出された前記統合テキスト要素をテキストブロックとして不適合であると判定することを特徴とする付記２記載の文書画像レイアウト解析プログラム。

（付記６）文書画像から抽出した行を検証する処理をコンピュータに機能させる行抽出結果検証プログラムにおいて、
コンピュータに、
抽出した前記行において、前記行を囲む文字列矩形内に含まれる、連結成分あるいは前記連結成分を統合したものを文字認識して認識信頼度が高いものを文字候補とし、
前記文字列矩形の一角を原点とし、前記原点を一角として前記文字候補を含むような矩形検査領域を設定し、
前記矩形検査領域内に前記文字候補より後ろの読み取り順序のものを含まないという条件の下で、前記文字候補の前記読み取り順序を決定し、
統合する前記文字候補より後ろの前記読み取り順序のものを含まないという条件の下で、前記読み取り順序に応じて前記文字候補を順番に統合して生成される新たな生成行が、前記文字列矩形内において前記行の垂直方向に複数存在するときに、抽出した前記行は行として不適合であると判定する、
処理を実行させることを特徴とする行抽出結果検証プログラム。

（付記７）文書画像から抽出したテキストブロックを検証する処理をコンピュータに機能させるテキストブロック抽出結果検証プログラムにおいて、
コンピュータに、
抽出した前記テキストブロックに含まれる行において、前記行を囲む文字列矩形内に含まれる、連結成分あるいは前記連結成分を統合したものを文字認識して認識信頼度が高いものを文字候補とし、
前記文字列矩形の一角を原点とし、前記原点を一角として前記文字候補を含むような矩形検査領域を設定し、
前記矩形検査領域内に前記文字候補より後ろの読み取り順序のものを含まないという条件の下で、前記文字候補の前記読み取り順序を決定し、
統合する前記文字候補より後ろの前記読み取り順序のものを含まないという条件の下で、前記読み取り順序に応じて前記文字候補を順番に統合して生成される新たな生成行が、前記文字列矩形内において前記行の垂直方向に複数存在するときに、前記行を含んだテキストブロックをテキストブロックとして不適合であると判定する、
処理を実行させることを特徴とするテキストブロック抽出結果検証プログラム。

（付記８）文書画像から抽出したテキストブロックを検証する処理をコンピュータに機能させるテキストブロック抽出結果検証プログラムにおいて、
コンピュータに、
抽出した前記テキストブロックに含まれる行において、所定の行数以上の前記行が、前記テキストブロック内にある連結成分から推定される前記テキストブロックの平均文字間隔よりも大きい同一の空白領域と交差するとき、抽出された前記テキストブロックをテキストブロックとして不適合であると判定する、
処理を実行させることを特徴とするテキストブロック抽出結果検証プログラム。

（付記９）文書画像レイアウトを解析する処理をコンピュータに機能させる文書画像レイアウト解析プログラムにおいて、
コンピュータに、
文書画像における空白領域を仮想的なセパレータとして抽出し、
前記仮想的なセパレータに基いて生成される閉領域を抽出することにより文書要素を抽出し、
抽出した文書要素のうちテキスト要素が行またはテキストブロックとして適合か不適合かを検証し、
不適合の場合は、前記空白領域の大きさを制御パラメータにより変化させ、不適合とされたテキスト要素に対して前記仮想的なセパレータを再抽出し、前記文書要素を抽出する処理を再帰的に繰り返す、
処理を実行させることを特徴とする文書画像レイアウト解析プログラム。

（付記１０）文書画像レイアウトを解析する文書画像レイアウト解析装置において、
文書画像における空白領域を仮想的なセパレータとして抽出する仮想セパレータ抽出手段と、
前記仮想的なセパレータを越えたテキスト要素の統合を禁止するもとで、複数の前記テキスト要素を統合して統合テキスト要素として抽出する統合テキスト要素抽出手段と、
を有することを特徴とする文書画像レイアウト解析装置。

（付記１１）抽出した前記統合テキスト要素が行またはテキストブロックとして適合か不適合かを検証する検証手段を更に有し、
不適合の場合は、前記仮想セパレータ抽出手段は、前記空白領域の大きさを制御パラメータにより変化させ、不適合とされた前記統合テキスト要素に対して前記仮想的なセパレータを再抽出し、前記統合テキスト要素抽出手段は、新たな前記統合テキスト要素を抽出する処理を再帰的に繰り返すことを特徴とする付記１０記載の文書画像レイアウト解析装置。

本発明の文書画像レイアウト解析プログラムの原理を示す図である。本発明の文書画像レイアウト解析プログラムによる文書画像レイアウト解析処理の概要を示す図である（その１）。本発明の文書画像レイアウト解析プログラムによる文書画像レイアウト解析処理の概要を示す図である（その２）。本発明の文書画像レイアウト解析プログラムによる文書画像レイアウト解析処理の概要を示す図である（その３）。本発明の文書画像レイアウト解析プログラムによる文書画像レイアウト解析処理の概要を示す図である（その４）。文書画像レイアウト解析プログラムを適用する文書画像レイアウト解析装置のハードウェア構成例である。文書画像レイアウト解析処理全体の概要を示す図である。連結成分属性付与処理の流れを示す一例のフローチャートである。ラベリング処理の具体例を示す図である。階層化処理の具体例を示す図である。文字成分を包含するフレームを示した図である。再帰的テキストブロック抽出処理の流れを示す一例のフローチャートである。極大空白矩形の一例を示す図である。テキストブロックとしての適合性検証の処理の概略を示す図である。あるテキストブロックを構成する行の一例を示す図である。図１５のテキストブロックの空白領域を示した図である。テキストブロック適合性検証処理の１つめの処理の詳細を示すフローチャートである。読み取り順序を付与する処理の概略を示す図である。行生成の処理の概略を示す図である。テキストブロック適合性検証処理の２つめの処理の詳細を示すフローチャートである。過統合の例を示す図であり、テキストブロック抽出結果を示す図である。過統合の例を示す図であり、行抽出結果を示す図である。複数の図に囲まれた領域にテキストブロック領域が配置されているレイアウトの例である。

符号の説明

１０コンピュータ
２０文書画像
２１ａ、２１ｂ、２１ｃ、２１ｄ、２１ｅ、２３ａ、２３ｂ、２３ｃ、２３ｄ、２３ｅ仮想セパレータ
２２ａ、２２ｂ、２２ｃ、２２ｄ、２２ｅ、２４ａ、２４ｂ、２４ｃ、２４ｄ、２４ｅ、２４ｆテキストブロック

Claims

文書画像レイアウトを解析する処理をコンピュータに機能させる文書画像レイアウト解析プログラムにおいて、
コンピュータに、
文書画像における空白領域を仮想的なセパレータとして抽出し、
前記仮想的なセパレータを越えたテキスト要素の統合を禁止するもとで、複数の前記テキスト要素を統合して統合テキスト要素として抽出し、
抽出した前記統合テキスト要素が行として適合か不適合かを検証し、
不適合の場合は、前記空白領域の大きさを制御パラメータにより変化させ、不適合とされた前記統合テキスト要素に対して前記仮想的なセパレータを再抽出し、新たな前記統合テキスト要素を抽出する処理を再帰的に繰り返す、
処理を実行させるとともに、
前記コンピュータに、
前記抽出した前記統合テキスト要素における行において、前記行を囲む文字列矩形内に含まれる、連結成分あるいは前記連結成分を統合したものを文字認識して認識信頼度が高いものを文字候補とし、
前記文字列矩形の一角を原点とした２次元座標を用いて番号付けされた前記文字候補を含む、前記原点を一角とした矩形検査領域を前記番号順に設定し、
前記矩形検査領域内に前記文字候補より後ろの前記番号の前記文字候補を含まないという条件の下で、前記文字候補の読み取り順序を決定し、
統合する前記文字候補より後ろの前記読み取り順序のものを含まないという条件の下で、前記読み取り順序に応じて前記文字候補を順番に統合して生成される新たな生成行が、前記文字列矩形内において前記行の垂直方向に複数存在するときに、前記行を行として不適合であると判定する、
処理を実行させることを特徴とする文書画像レイアウト解析プログラム。
文書画像レイアウトを解析する処理をコンピュータに機能させる文書画像レイアウト解析プログラムにおいて、
コンピュータに、
文書画像における空白領域を仮想的なセパレータとして抽出し、
前記仮想的なセパレータを越えたテキスト要素の統合を禁止するもとで、複数の前記テキスト要素を統合して統合テキスト要素として抽出し、
抽出した前記統合テキスト要素がテキストブロックとして適合か不適合かを検証し、
不適合の場合は、前記空白領域の大きさを制御パラメータにより変化させ、不適合とされた前記統合テキスト要素に対して前記仮想的なセパレータを再抽出し、新たな前記統合テキスト要素を抽出する処理を再帰的に繰り返す、
処理を実行させるとともに、
前記コンピュータに、
前記抽出した前記統合テキスト要素における行において、前記行を囲む文字列矩形内に含まれる、連結成分あるいは前記連結成分を統合したものを文字認識して認識信頼度が高いものを文字候補とし、
前記文字列矩形の一角を原点とした２次元座標を用いて番号付けされた前記文字候補を含む、前記原点を一角とした矩形検査領域を前記番号順に設定し、
前記矩形検査領域内に前記文字候補より後ろの前記番号の前記文字候補を含まないという条件の下で、前記文字候補の読み取り順序を決定し、
統合する前記文字候補より後ろの前記読み取り順序のものを含まないという条件の下で、前記読み取り順序に応じて前記文字候補を順番に統合して生成される新たな生成行が、前記文字列矩形内において前記行の垂直方向に複数存在するときに、前記行を含んだテキストブロックをテキストブロックとして不適合であると判定する、
処理を実行させることを特徴とする文書画像レイアウト解析プログラム。
文書画像レイアウトを解析する処理をコンピュータに機能させる文書画像レイアウト解析プログラムにおいて、
コンピュータに、
文書画像における空白領域を仮想的なセパレータとして抽出し、
前記仮想的なセパレータを越えたテキスト要素の統合を禁止するもとで、複数の前記テキスト要素を統合して統合テキスト要素として抽出し、
抽出した前記統合テキスト要素がテキストブロックとして適合か不適合かを検証し、
不適合の場合は、前記空白領域の大きさを制御パラメータにより変化させ、不適合とされた前記統合テキスト要素に対して前記仮想的なセパレータを再抽出し、新たな前記統合テキスト要素を抽出する処理を再帰的に繰り返す、
処理を実行させるとともに、
前記コンピュータに、
前記抽出した前記統合テキスト要素内に含まれる行において、所定の行数以上の前記行が、前記統合テキスト要素内にある連結成分から推定される前記統合テキスト要素の平均文字間隔よりも大きい同一の空白領域と交差するとき、抽出された前記統合テキスト要素をテキストブロックとして不適合であると判定する、
処理を実行させることを特徴とする文書画像レイアウト解析プログラム。