JP2006244309A

JP2006244309A - 文書画像レイアウト解析プログラム、文書画像レイアウト解析装置、および文書画像レイアウト解析方法

Info

Publication number: JP2006244309A
Application number: JP2005061529A
Authority: JP
Inventors: Hiroaki Takebe; 浩明武部; Katsuto Fujimoto; 克仁藤本; Satoshi Naoi; 聡直井
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2005-03-04
Filing date: 2005-03-04
Publication date: 2006-09-14
Anticipated expiration: 2025-03-04
Also published as: US20060204096A1; JP4443443B2; US7627176B2

Abstract

【課題】適切なテキストブロックの組み合わせとして、単一の抽出条件では抽出が困難な組み合わせのテキストブロックを抽出できるようにする。
【解決手段】テキストブロック抽出手段２により、抽出条件記憶手段１に記憶されたテキストブロック抽出条件それぞれに従って、文書画像４からテキストブロックが抽出される。そして、テキストブロック統合手段３により、テキストブロック抽出手段２で抽出された複数のテキストブロック抽出結果５ａ，５ｂ，・・・それぞれに含まれるテキストブロックの文字認識が行われ、文字認識結果に基づいてテキストブロックが示す範囲の正確性が判定され、正確性が高いテキストブロックが選択され、テキストブロック統合結果６として出力される。
【選択図】図１

Description

本発明は文書画像内の文章が記述された要素をテキストブロックとして抽出する文書画像レイアウト解析プログラム、文書画像レイアウト解析装置、および文書画像レイアウト解析方法に関し、特に各要素内の文章の正しさに基づいてテキストブロックを抽出する文書画像レイアウト解析プログラム、文書画像レイアウト解析装置、および文書画像レイアウト解析方法に関する。

近年、スキャナ等の光学機器を用いて取り込んだ文書画像中の文字成分を識別し、文字コードとして出力する光学式文字読取装置（ＯＣＲ：Optical Character Reader）がある。ＯＣＲの機能は、コンピュータ上のソフトウェアで実現することもできる。

ＯＣＲでは、印刷文字、手書き文字等による文書画像が光学的に読み取られる。ＯＣＲは、読み取った文書画像から、文字成分を含むテキストブロックを抽出する。そして、ＯＣＲは、抽出したテキストブロックから文字成分を抽出し、パターンマッチング等の手法により文字認識を行う。

ここで、テキストブロックを抽出するには、文書画像に含まれる複数の文書要素の物理的な配置（レイアウト）を解析する必要がある。なお、文書画像における文書要素には、文字、行、テキストブロック、図、表、罫線、セルなどが含まれる。

従来、文書画像からテキストブロックを抽出する方法としては以下のような方法が提案されている。
例えば、基礎要素の集合に対して、それらの近接性（文字成分同士が比較的密に配置されている）と同質性（文字成分の大きさがほぼ同じ大きさである）に基づいて統合し、行を生成する。同様に、行の集合に対して、それらの近接性と同質性に基づき統合して段（テキストブロック）を生成することで、テキストブロックを抽出できる（例えば、特許文献１参照）。

また、文書画像から空白領域を抽出し、それらの中から大きさに関する条件を満たすものを選択して、それらによって被覆される領域以外の領域を抽出することで、文書画像からテキストブロック領域を切り出すこともできる（例えば、特許文献２参照）。
特開平１１−２１９４０７号公報特開平２−２６３２７２号公報

しかし、文書要素のレイアウトは複雑かつ多様であり、従来の方法では正しく適すブロックを抽出できない場合があった。
例えば、特許文献１記載の方式では、テキストブロック同士が入り組んで配置されている場合や、テキストブロックと図が入り組んで配置されている場合などに、文字成分を過統合して、複数行の文字列をまとめて１行としてしまうことがある。また、特許文献２記載の方式では、テキストブロックが他の文書要素と矩形で分離できない形で配置されている場合に、正しくテキストブロックを抽出することは非常に難しい。

そこで、本出願人は、複雑なレイアウトの文書画像においても、テキストブロックを抽出可能な文書画像レイアウト解析プログラムを発明し、特許出願を行っている（特願２００４−０５９９５４）。この発明では、文書画像の空白領域を仮想的なセパレータ（テキストブロック間の境界）として利用する。このとき、抽出する空白領域のサイズを処理のパラメータとして設定する。テキストブロック抽出をおこなった場合、抽出されたテキストブロックの適合性を検証する。そして、適合性能の条件を満たすテキストブロックが抽出されるまで、パラメータの値を変化させながら、テキストブロックの抽出処理を再帰的に行う。これにより、複雑なレイアウトの文書であっても、適切なテキストブロックの抽出が可能となる。

ただし、特願２００４−０５９９５４の発明を用いても、適切なテキストブロックを抽出できない場合もある。具体的には、空白セパレータ抽出におけるパラメータの初期値が固定値であること、また２回目以降の値も初期値に依存して決まる。このことから、与えられる画像に対しパラメータがフィットせずに、適切な空白領域が抽出されずに、テキストブロック抽出が失敗することがある。

例えば、画像の傾きやノイズの影響で、初回の空白セパレータ抽出処理でセパレータが抽出されず、テキストブロックが過統合されることがある。この場合、２回目以降の空白セパレータ抽出処理でセパレータが抽出されるが、抽出されるセパレータが適切ではなくなり、テキストブロックが過統合される場合があり得る。

また、初回の空白セパレータ抽出処理によって得られるセパレータが、タイトルのような比較的大きい文字からなる行の内部まで達し、その行が分離した状態で抽出される場合もある。仮想的なセパレータによるテキストブロックの抽出方式では、分離されてしまった行の統合処理等は行われない。

本発明はこのような点に鑑みてなされたものであり、適切なテキストブロックの組み合わせとして、単一の抽出条件では抽出が困難な組み合わせのテキストブロックを抽出できる文書画像レイアウト解析プログラム、文書画像レイアウト解析装置、および文書画像レイアウト解析方法を提供することを目的とする。

本発明では上記課題を解決するために、図１に示すような文書画像レイアウト解析プログラムが提供される。本発明に係る文書画像レイアウト解析プログラムは、文書画像４に含まれるテキストのレイアウトを解析して、文字認識の処理対象とする範囲を示すテキストブロックを抽出するために、図１に示す機能をコンピュータに実行させることができる。

抽出条件記憶手段１は、テキストブロックを抽出するための条件を定義した複数の抽出条件を記憶する。テキストブロック抽出手段２は、抽出条件記憶手段１に記憶されたテキストブロック抽出条件それぞれに従って、文書画像４からテキストブロックを抽出する。テキストブロック統合手段３は、テキストブロック抽出手段２で抽出された複数のテキストブロック抽出結果５ａ，５ｂ，・・・それぞれに含まれるテキストブロックの文字認識を行い、文字認識結果に基づいてテキストブロックが示す範囲の正確性を判定し、正確性が高いテキストブロックを選択してテキストブロック統合結果６として出力する。

このような文書画像レイアウト解析プログラムをコンピュータに実行させれば、テキストブロック抽出手段２により、抽出条件記憶手段１に記憶されたテキストブロック抽出条件それぞれに従って、文書画像４からテキストブロックが抽出される。そして、テキストブロック統合手段３により、テキストブロック抽出手段２で抽出された複数のテキストブロック抽出結果５ａ，５ｂ，・・・それぞれに含まれるテキストブロックの文字認識が行われ、文字認識結果に基づいてテキストブロックが示す範囲の正確性が判定され、正確性が高いテキストブロックが選択され、テキストブロック統合結果６として出力される。

また、上記課題を解決するために、文書画像に含まれるテキストのレイアウトを解析して、文字認識の処理対象とする範囲を示すテキストブロックを抽出する文書画像レイアウト解析装置において、テキストブロックを抽出するための条件を定義した複数の抽出条件を記憶する抽出条件記憶手段と、前記抽出条件記憶手段に記憶された前記テキストブロック抽出条件それぞれに従って、前記文書画像からテキストブロックを抽出するテキストブロック抽出手段と、前記テキストブロック抽出手段で抽出された複数のテキストブロック抽出結果それぞれに含まれるテキストブロックの文字認識を行い、文字認識結果に基づいてテキストブロックが示す範囲の正確性を判定し、正確性が高いテキストブロックを選択してテキストブロック統合結果として出力するテキストブロック統合手段と、を有することを特徴とする文書画像レイアウト解析装置が提供される。

また、上記課題を解決するために、文書画像に含まれるテキストのレイアウトを解析して、文字認識の処理対象とする範囲を示すテキストブロックを抽出するための文書画像レイアウト解析方法において、テキストブロック抽出手段が、予めテキストブロックを抽出するための条件を定義した複数の抽出条件が記憶された抽出条件記憶手段を参照し、前記テキストブロック抽出条件それぞれに従って、前記文書画像からテキストブロックを抽出し、テキストブロック統合手段が、前記テキストブロック抽出手段で抽出された複数のテキストブロック抽出結果それぞれに含まれるテキストブロックの文字認識を行い、文字認識結果に基づいてテキストブロックが示す範囲の正確性を判定し、正確性が高いテキストブロックを選択してテキストブロック統合結果として出力する、ことを特徴とする文書画像レイアウト解析方法が提供される。

本発明では、複数の抽出条件それぞれに基づいて抽出された複数のテキストブロックの中から正確性が高いテキストブロックを選択してテキストブロック統合結果とするようにした。これにより、単一の抽出条件では抽出が困難な、適切な組み合わせのテキストブロックの抽出が可能となる。

以下、本発明の実施の形態を図面を参照して説明する。
図１は、本実施の形態の概略を示す図である。本発明に係る文書画像レイアウト解析装置は、抽出条件記憶手段１、テキストブロック抽出手段２、およびテキストブロック統合手段３を有する。

抽出条件記憶手段１は、テキストブロックを抽出するための条件を定義した複数の抽出条件を記憶する。抽出条件としては、例えば、テキストブロック間の境界を示すセパレータと判定するための、セパレータに含まれるべき空白領域の大きさを示す条件が設定される。

テキストブロック抽出手段２は、抽出条件記憶手段１に記憶されたテキストブロック抽出条件それぞれに従って、文書画像４からテキストブロックを抽出する。例えば、テキストブロック抽出手段２は、抽出条件として、セパレータに含まれるべき空白領域の大きさを示す条件が設定されている場合、文書画像４から、抽出条件を満たす空白領域を探し出し、その空白領域をセパレータとする。そして、テキストブロック抽出手段２は、セパレータで分けられた残りの領域を、テキストブロックとして抽出する。これにより、抽出条件毎のテキストブロック抽出結果５ａ，５ｂ，・・・が生成される。

テキストブロック統合手段３は、テキストブロック抽出手段２で抽出された複数のテキストブロック抽出結果５ａ，５ｂ，・・・それぞれに含まれるテキストブロックの文字認識を行い、文字認識結果に基づいてテキストブロックが示す範囲の正確性を判定する。そして、テキストブロック統合手段３は、正確性が高いテキストブロックを選択してテキストブロック統合結果６として出力する。

このような文書画像レイアウト解析装置によれば、テキストブロック抽出手段２により、抽出条件記憶手段１に記憶されたテキストブロック抽出条件それぞれに従って、文書画像４からテキストブロックが抽出される。そして、テキストブロック統合手段３により、テキストブロック抽出手段２で抽出された複数のテキストブロック抽出結果５ａ，５ｂ，・・・それぞれに含まれるテキストブロックの文字認識が行われ、文字認識結果に基づいてテキストブロックが示す範囲の正確性が判定され、正確性が高いテキストブロックが選択され、テキストブロック統合結果６として出力される。その結果、単一の抽出条件では抽出が困難な、適切な組み合わせのテキストブロックの抽出が可能となる。

次に、本実施の形態の詳細を説明する。
［第１の実施の形態］
以下の実施の形態では、セパレータ（テキストブロック間の境界）とする空白領域の大きさを示すパラメータのセット（パラメータセット）を、複数用意する。そして、各パラメータセットを初期値として、再帰的なテキストブロック抽出処理（特願２００４−０５９９５４参照）を実行する。このようにして生成された複数のテキストブロック抽出結果を統合することにより、テキストブロックの抽出精度を向上させる。

複数のテキストブロック抽出結果を統合させる方法としては、あらゆる組み合わせの可能性から必要最小限の組み合わせを取り出すのにグラフ理論におけるクリークの考え方を用いるものとする。すなわち、同時に出現可能なテキストブロック（グラフ上ノードで示す）同士をパスで接続したグラフを生成し、そのグラフから、全てのノード間が互いに接続された関係となるノードの組み合わせをクリークとして抽出する。

なお、組み合わせの評価には認識コストと言語コストを用いるものとする。認識コストとは、文字認識による認識の確からしさを示す正読確率に応じた数値である。正読確率が高いほど、認識コストが低く設定される。言語コストとは、文字認識結果における文章が言語的に自然であることを数値化したものである。文章が言語的に自然であるほど、言語コストが低く設定される。

そして、抽出された組み合わせ候補を、認識コストと言語コストから決まるテキストブロック評価値の総和より順位付けし、最高値の組み合わせを最終解（テキストブロック統合結果）とする。

なお、以下の実施の形態では、コンピュータを用いて、文書画像レイアウト解析処理を行うものとする。
図２は、本実施の形態に用いるコンピュータのハードウェア構成例を示す図である。コンピュータ１００は、ＣＰＵ(Central Processing Unit)１０１によって装置全体が制御されている。ＣＰＵ１０１には、バス１０８を介してＲＡＭ(Random Access Memory)１０２、ハードディスクドライブ（ＨＤＤ:Hard Disk Drive）１０３、グラフィック処理装置１０４、入力インタフェース１０５、通信インタフェース１０６、およびＬＡＮインタフェース１０７が接続されている。

ＲＡＭ１０２には、ＣＰＵ１０１に実行させるＯＳ(Operating System)のプログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。また、ＲＡＭ１０２には、ＣＰＵ１０１による処理に必要な各種データが格納される。ＨＤＤ１０３には、ＯＳやアプリケーションプログラムや文書画像が格納される。

グラフィック処理装置１０４には、モニタ１１が接続されている。グラフィック処理装置１０４は、ＣＰＵ１０１からの命令に従って、画像をモニタ１１の画面に表示させる。入力インタフェース１０５には、キーボード１２とマウス１３とが接続されている。入力インタフェース１０５は、キーボード１２やマウス１３から送られてくる信号を、バス１０８を介してＣＰＵ１０１に送信する。

通信インタフェース１０６は、外部入出力機器との間のデータ通信を行う。例えば、通信インタフェース１０６には、イメージスキャナ１４を接続できる。この場合、イメージスキャナ１４で読みとった文書画像を示す画像データが、イメージスキャナ１４から通信インタフェース１０６を介してＣＰＵ１０１に渡される。

ＬＡＮインタフェース１０７は、ネットワーク１０に接続されている。ＬＡＮインタフェース１０７は、ネットワーク１０を介して、他のコンピュータとの間でデータの送受信を行う。

以上のようなハードウェア構成によって、本実施の形態の処理機能を実現することができる。以下の例では、イメージスキャナ１４で読み取った文書画像の文字認識のために、文書画像のレイアウトを解析するものとする。

図３は、本実施の形態の文書画像レイアウト解析機能を示すブロック図である。コンピュータ１００は、文書画像読み取り部１１０、文書画像レイアウト解析部１２０、および文字認識部１３０を有している。

文書画像読み取り部１１０は、イメージスキャナ１４を制御し、文書２１の画像を読み取らせる。イメージスキャナ１４が読み取った文書画像は、文書画像読み取り部１１０を介して、文書画像レイアウト解析部１２０に渡される。なお、文書画像読み取り部１１０は、予めＨＤＤ１０３に格納されている文書画像を文書画像レイアウト解析部１２０に渡すこともできる。

文書画像レイアウト解析部１２０は、渡された文書画像のレイアウトを解析し、テキストブロックの最適な組み合わせ（文書画像レイアウト解析結果）を決定する。決定された画像レイアウト解析結果が、レイアウト情報として文字認識部１３０に渡される。

文字認識部１３０は、画像レイアウト解析結果で示されるテキストブロック毎に文字を認識する。そして、文字認識部１３０は、読み取った結果をキャラクタコードに変換し、文字テキストデータ２２を生成する。

次に、文書画像レイアウト解析部１２０の内部の構成について説明する。文書画像レイアウト解析部１２０は、パラメータセットテーブル１２１、テキストブロック抽出部１２２、およびテキストブロック統合部１２３を有している。

パラメータセットテーブル１２１は、テキストブロックを抽出する際の空白領域のための初期条件を示すパラメータが複数格納されたデータテーブルである。パラメータセットテーブル１２１内のパラメータセットは、ユーザによって予め登録されている。パラメータセットテーブル１２１の具体的内容は後述する。

テキストブロック抽出部１２２は、パラメータセットテーブル１２１に格納されたパラメータセットそれぞれに基づいて、テキストブロック抽出処理を行う。これにより、テキストブロック抽出部１２２では、パラメータセット毎のテキストブロック抽出結果が生成される。生成されたテキストブロック抽出結果は、テキストブロック統合部１２３に渡される。

テキストブロック統合部１２３は、受け取ったテキストブロック抽出結果の統合処理を行う。複数のテキストブロック抽出結果を統合することで、文書画像レイアウト解析結果が得られる。

図４は、パラメータセットテーブルのデータ構造例を示す図である。パラメータセットテーブル１２１には、セパレータの判定基準となる２つの制御パラメータｎ，ｘの組が複数登録されている。

ここで、パラメータセットの個数をｐ＿ｎｕｍとし、個々のパラメータセットをＰ（ｉ）とおく（ｉは、パラメータセットを一意に識別するための番号であり、０以上の整数である）。また、Ｐ（ｉ）に対応するテキストブロック抽出結果をＲ_iとする。

次に、文書画像レイアウト解析部１２０における処理を詳細に説明する。
図５は、文書画像レイアウト解析処理の手順を示すフローチャートである。以下、図５に示す処理を、ステップ番号に沿って説明する。なお、この処理は、Ｒ₀，Ｒ₁，・・・，Ｒ_{p_num-1}から一度に統合結果を求める並列方式である。

［ステップＳ１１］テキストブロック抽出部１２２は、パラメータセットの識別番号を示すｉの初期値を０にセットする。
［ステップＳ１２］テキストブロック抽出部１２２は、ｉがｐ＿ｎｕｍ未満か否かを判断する。ｐ＿ｎｕｍ未満であれば処理がステップＳ１３に進められる。ｐ＿ｎｕｍ以上であれば処理がステップＳ１６に進められる。

［ステップＳ１３］テキストブロック抽出部１２２は、Ｐ＝Ｐ（ｉ）として、テキストブロック抽出処理を行う。テキストブロック抽出処理の詳細は後述する。
［ステップＳ１４］テキストブロック抽出部１２２は、ステップＳ１３のテキストブロック抽出結果を、Ｒ_iに代入する。

［ステップＳ１５］テキストブロック抽出部１２２は、ｉをインクリメント（１加算）し、処理をステップＳ１２に進める。これにより、ｉがｐ＿ｎｕｍに達するまで順次ｉのカウントアップが行われ、全てのパラメータセットに応じたテキストブロック抽出処理が行われる。

［ステップＳ１６］全てのパラメータセットに応じたテキストブロック抽出処理が完了すると、テキストブロック統合部１２３が、パラメータセット毎のテキストブロック抽出結果Ｒ₀，Ｒ₁，・・・，Ｒ_{p_num-1}を統合する。統合された結果が、文書画像レイアウト解析結果となる。

次に、テキストブロック抽出処理（ステップＳ１３）とテキストブロック抽出結果統合処理（ステップＳ１６）とについて、詳細に説明する。
図６は、テキストブロック抽出処理の手順を示すフローチャートである。以下、図６に示す処理をステップ番号に沿って説明する。

［ステップＳ２１］テキストブロック抽出部１２２は、まず、連結成分属性付与処理を行う。具体的には、テキストブロック抽出部１２２は、文書画像の黒画素による全ての連結成分に、文字成分、セパレータ、図、フレーム、ノイズのいずれかの属性を付与する。ここで、図とは、文字成分、セパレータ、フレームまたはノイズではなく、かつ、それ自身の中に文字成分を含まない連結成分のことである。またフレームとは、複数の文字成分を内側に含んだ枠のことである。

［ステップＳ２２］テキストブロック抽出部１２２は、再帰的テキストブロック抽出処理を行う。具体的には、テキストブロック抽出部１２２は、ステップＳ２１の連結成分属性付与処理で属性の付与された連結成分の集合に対して、仮想セパレータの抽出、テキストブロックの抽出、そしてテキストブロックとしての条件を満たしているかの検証を行う。そして、テキストブロック抽出部１２２は、テキストブロックが正しくない場合は、空白領域の大きさを制御パラメータにより変化させ、そのテキストブロックに対して仮想セパレータを再抽出し、新たなテキストブロックを抽出する処理を再帰的に繰り返す処理を行う。

まず、連結成分属性付与処理の詳細を説明する。
図７は、連結成分属性付与処理の手順を示すフローチャートである。以下、図７に示す処理をステップ番号に沿って説明する。

［ステップＳ３１］テキストブロック抽出部１２２は、ラベリング処理を行う。ラベリング処理は、文書画像から連結成分（連続した黒画素で構成される図形）を検出し、その連結成分の位置情報を取得する処理である。例えば、イメージスキャナ１４で読み取られた文書画像がＣＰＵ１０１の制御のもと取り出されると、その文書画像に対し、まずラベリング処理が行われる。

図８は、ラベリング処理の具体例を示す図である。例えば「た」という文字成分は、黒画素による３つの連結成分２０１、２０２、２０３からなる。ラベリング処理では、連結成分２０１、２０２、２０３を囲む最小の長方形である外接矩形２０１ａ、２０２ａ、２０３ａの座標値（例えば、外接矩形の左上と右下の角のＸＹ座標）を得ることで、黒画素の連結成分２０１、２０２、２０３の位置を示す情報を取得する。このような処理を文書画像中の全ての連結成分に対し行う。

図７に戻り、ステップＳ３２以降の処理を説明する。
［ステップＳ３２］テキストブロック抽出部１２２は、ステップＳ３１の処理で得られた連結成分の集合Ｓに基づいて、セパレータ判別処理を行う。セパレータとは、テキストブロック間の境界を表す連結成分（例えば、文章を区切る罫線など）である。ここでは、テキストブロック抽出部１２２は、連結成分の外接矩形の長い辺の長さがある一定値以上であり、かつ外接矩形の縦横比がある一定値以上であるとき、その連結成分はセパレータであると判別する。

［ステップＳ３３］テキストブロック抽出部１２２は、連結成分の集合Ｓに対して、ノイズ判別処理を行う。ここでは、テキストブロック抽出部１２２は、連結成分の外接矩形の面積がある一定値以下であるとき、その連結成分はノイズであると判別する。

［ステップＳ３４］テキストブロック抽出部１２２は、連結成分の集合Ｓから、ステップＳ３２、Ｓ３３の処理で判別されたセパレータとノイズを除いた集合Ｓａに対して、階層化処理を行う。階層化処理は、互いに関連する連結成分のそれぞれに対して、親子関係を定義する処理である。

図９は、階層化処理の具体例を示す図である。例えば、「区」のような文字成分は、黒画素による２つの連結成分２１１、２１２からなる。これらは、連結成分２１１、２１２の外接矩形２１１ａ、２１２ａの座標値によりステップＳ３１の処理でラベリングされている。この文字の場合、連結成分２１１の中に連結成分２１２が包含されている。このような連結成分同士の関連がある場合、連結成分２１１の“子”に連結成分２１２を登録し、連結成分２１２の“親”に連結成分２１１を登録するといった階層化処理を行う。

図７に戻り、ステップＳ３５以降の処理を説明する。
［ステップＳ３５］テキストブロック抽出部１２２は、階層化処理が終わると集合Ｓａに対して、文字認識処理を行う。

ここでは、テキストブロック抽出部１２２は、連結成分に対して、まず、その外接矩形の領域をそのまま１文字認識する。そして、テキストブロック抽出部１２２は、文字認識結果の信頼度が高いとき、その連結成分に文字成分フラグ“ＣＨ”を付ける。

次に、テキストブロック抽出部１２２は、例えば、図９のように、“子”を持っている連結成分がある場合には、“子”の連結成分の集合に対して重なり統合（親子関係を有する連結成分を包含する外接矩形領域を定義する処理）を行い、その結果得られる全ての重なり成分の外接矩形領域を１文字認識する。

図１０は、文字成分を包含するフレームを示した図である。図１０に示す連結成分２２０は、重なり統合の結果、例えば、文字認識結果の信頼度が高い外接矩形領域２２１、２２２、２２３、２２４を“子”として有している。このように、文字認識結果の信頼度が高い“子”をある一定数以上有している場合、その連結成分２２０は複数の文字を囲んだフレームである可能性があるので、連結成分２２０にフレームフラグ“ＦＲ”をつける。

図７に戻り、ステップＳ３６以降の処理を説明する。
［ステップＳ３６］テキストブロック抽出部１２２は、集合Ｓａに対して、文字成分・フレーム・図判別処理を行う。具体的には、連結成分に文字成分フラグ“ＣＨ”がついている場合、その連結成分の“親”が存在するならば、その“親”に文字成分フラグ“ＣＨ”がついていないときは“親”にフレームフラグ“ＦＲ”をつける。

また、テキストブロック抽出部１２２は、“親”に文字成分フラグ“ＣＨ”がついているときは、“子”であるその連結成分の信頼度と“親”の連結成分の信頼度を比較して、“子”の連結成分の信頼度が高ければ、“親”の文字成分フラグ“ＣＨ”を取り消し、フレームフラグ“ＦＲ”をつける。

ここで、テキストブロック抽出部１２２は、集合Ｓａに対して、フレームフラグ“ＦＲ”のついている連結成分を全てフレームにする。また、テキストブロック抽出部１２２は、残りの連結成分の中で、文字成分フラグ“ＣＨ”のついていないもので、外接矩形の面積がある一定値以上であるとき、それを図とする。さらに、テキストブロック抽出部１２２は、残りの連結成分を文字成分とする。

［ステップＳ３７］最後に、テキストブロック抽出部１２２は、文字成分とした連結成分の集合に対して、重なり統合処理を行う。
以上のような処理で、文書画像中の全ての連結成分に対して、文字成分、セパレータ、図、フレーム、ノイズのいずれかの属性を付与することができる。

次に、図６で示したステップＳ２２の再帰的テキストブロック抽出処理の詳細を説明する。
図１１は、再帰的テキストブロック抽出処理の手順を示す一例のフローチャートである。以下、図１１に示す処理をステップ番号に沿って説明する。

［ステップＳ４１］テキストブロック抽出部１２２は、連結成分属性付与処理が終わり、再帰的テキストブロック抽出処理が開始すると、まず、文書画像内のある矩形領域Ｐにおける極大空白矩形を求める。

文書画像における空白矩形とは、文書画像内の矩形領域であって、内部に黒画素を含まないものである。そして、空白矩形の集合のうち、自分自身を含む他の空白矩形が存在しないものを極大空白矩形という。

図１２は、極大空白矩形の一例を示す図である。文書画像内のある矩形領域Ｑを表している。この矩形領域Ｑ内には、図６のステップＳ２１で説明した処理により得られた外接矩形の集合Ｓ_Q＝｛Ｕ_k∈Ｑ，ｋ＝１，２，…，ｎ_S｝が与えられている。ｎ_Sは、矩形領域Ｑに含まれる外接矩形の総数であり、図１２ではｎ_S＝５の場合について示している。

ここで、矩形領域Ｑにおける空白矩形（以下ＱにおけるＷ空白矩形と称す）の集合は、矩形領域Ｑ内の矩形領域であり、集合Ｓ_Qに属する全ての外接矩形Ｕ_kと重ならないものとする。また、矩形領域ＱにおけるＷ空白矩形の集合のうち、自分自身を含むＱにおける他のＷ空白矩形が存在しないものをＱにおけるＷ極大空白矩形という。以下、ＱにおけるＳ極大空白矩形の集合をＭ（Ｑ，Ｗ）で表す。図１２では、Ｍ（Ｑ，Ｗ）のうち矩形領域Ｑ内で最大となる、ＱにおけるＷ極大空白矩形２３０を示している。

Ｍ（Ｑ，Ｗ）は制御パラメータｎ、ｘによって決定し、以下の式で定義される。
Ｍ_n,x（Ｑ，Ｗ）＝｛Ｔ∈Ｍ（Ｑ，Ｗ）｜ｍｉｎ（Ｔ^X，Ｔ^Y）≧ｎａｎｄｍａｘ（Ｔ^X，Ｔ^Y）≧ｘ｝
ここで、Ｔ^XはＭ（Ｑ，Ｗ）に含まれるＱにおけるＷ極大空白矩形Ｔの横（Ｘ方向）の長さを表し、Ｔ^YはＴの縦（Ｙ方向）の長さを表す。ｍｉｎ（Ｔ^X，Ｔ^Y）≧ｎは、Ｔ^X，Ｔ^Yのうち短いほうが制御パラメータｎ以上であることを示し、ｍａｘ（Ｔ^X，Ｔ^Y）≧ｘはＴ^X，Ｔ^Yのうち長いほうが制御パラメータｘ以上であることを示す。

制御パラメータｎ、ｘの初期値は、パラメータセットテーブル１２１から選択されたパラメータセットの値である。その後、再帰的にテキストブロック抽出処理が行われる毎に、制御パラメータｎ、ｘの値が更新される。例えば、制御パラメータｎ、ｘを更新する場合、再帰回数とテキストブロックの大きさやそれに含まれる文字の大きさに基づいて、値が決定される。

［ステップＳ４２］ここで、前述した連結成分属性付与処理によって外接矩形に付与された属性をもとに、外接矩形の集合Ｓ_Qのうち、文字成分の外接矩形の集合を“Ｃ”、フレームやセパレータ、図など文字成分以外の外接矩形の集合を“Ｈ”として、“Ｈ”は、他の外接矩形との統合を禁止するリンク禁止領域として分類されているものとする。

このとき、テキストブロック抽出部１２２は、ステップＳ４１で求めた矩形領域ＱにおけるＣ∪Ｈ（ＣとＨの和集合）極大空白矩形集合Ｍ_n,x（Ｑ，Ｃ∪Ｈ）を、仮想セパレータとしてリンク禁止領域である“Ｈ”に追加する。そして追加されたリンク禁止領域を“Ｈａ”とする。

［ステップＳ４３］テキストブロック抽出部１２２は、文字成分の外接矩形の集合“Ｃ”に対して、リンク禁止領域“Ｈａ”を超える統合を禁止するもとで、近接性あるいは同質性に基づいて統合を行いテキストブロックの抽出を行う。具体的な方法については、特開平１１−２１９４０７号公報に開示されている。処理結果としては、テキストブロックとそれを構成する行が得られる。

［ステップＳ４４］テキストブロック抽出部１２２は、抽出されたテキストブロック数をｌ（ｌは０以上の整数）として、ループ回数ａ＝０とし、ａ＝ｌとなるまでステップＳ４５〜Ｓ４９の処理を繰り返す。

［ステップＳ４５］テキストブロック抽出部１２２は、ａ＜ｌであるか否かを判断する。ａがｌ未満であれば処理がステップＳ４６に進められる。ａ＝ｌとなった場合、すなわち矩形領域Ｑ内の全てのテキストブロックＢ_aがテキストブロック適合性条件を満たした場合には、文書画像内の矩形領域Ｑに対する再帰的テキストブロック抽出処理が終了し、呼び出し元の処理に戻る。

［ステップＳ４６］ａ＜ｌである場合には、テキストブロック抽出部１２２は、ステップＳ４３で抽出されたテキストブロックのうち、ａ番目のテキストブロックＢ_aを選択する。そして、テキストブロック抽出部１２２は、抽出したテキストブロックＢ_aがテキストブロック適合性条件を満たすか否かを判断する。

具体的には、テキストブロック抽出部１２２は、まず、テキストブロックを構成する各行について、行が、行の方向（縦または横）の垂直方向にわたって、文字を２文字以上含まないか判断する。すなわち、行方向に文字が１つの行に並んでいるか否かを判断する。行からはずれた文字（行の方向の垂直方向に並んだ文字）があれば、そのテキストブロックは不適合と判定される。

次に、テキストブロック抽出部１２２は、テキストブロックを構成する行について、所定の行数以上の行が、文字間隔よりも大きい同一の空白領域と交差しないか判断する。すなわち、間に大きな空白領域を挟んだテキストブロックは、実際には個別の２つのテキストブロックである可能性が高いため、不適合と判断される。

テキストブロック抽出部１２２は、テキストブロックがこれらの全ての適合性条件の判定において適合と判定された場合、そのテキストブロックに関して、テキストブロック適合性条件を満たしていると判定する。テキストブロック抽出部１２２は、テキストブロック適合性条件を満たす場合、処理がステップＳ４７に進められる。テキストブロック適合性条件を満たさない場合、処理がステップＳ４８に進められる。

［ステップＳ４７］テキストブロックＢ_aが満たす場合、テキストブロック抽出部１２２は、ａをインクリメント、処理をステップＳ４５に進める。これにより、次のテキストブロックＢ_a+1についての検証が行われる。

［ステップＳ４８］一方、ステップＳ４６の処理でテキストブロックＢ_aがテキストブロック適合性条件を満たさない場合には、テキストブロック抽出部１２２は、テキストブロックＢ_aを矩形領域Ｑとし、テキストブロックＢ_a内の文字成分の外接矩形Ｕ、文字成分外の外接矩形Ｖとして、Ｃ＝｛Ｕ∈Ｃ｜Ｕ∩Ｑ≠φ｝、Ｈ＝｛Ｖ∈Ｈ｜Ｖ∩Ｑ≠φ｝と新たに定義する。そして、これらＱ、Ｃ、Ｈに応じて、制御パラメータｎ、ｘを変化させる。

［ステップＳ４９］テキストブロック抽出部１２２は、ステップＳ４８で設定した制御パラメータを用いて、ステップＳ４１からの処理を再度行う。処理が終わる（リターンする）と処理がステップＳ４７に進められ、次のテキストブロックＢ_a+1についての検証が行われる。

なお、再帰処理の際、ステップＳ４８において、制御パラメータｎ、ｘを、ともに減少させていくように変更する。すなわち、テキストブロック適合性条件を満たさなかったテキストブロックＢ_aにおいては、仮想セパレータとして設定する極大空白矩形を小さいものにしていく。

このようにすることで、テキストブロックと図が複雑に入り組んで配置されている場合でも、文字成分を過統合して、複数行の文字列をまとめて１行としてしまうなどの問題を解消できる。

以上のようにして、各パラメータセットに応じたテキストブロック抽出結果が得られる。
次に、テキストブロック抽出結果の統合処理（ステップＳ１６）について詳細に説明する。

パラメータセットがＰ（ｉ）のときのテキストブロック抽出結果Ｒ_iを、｛Ｔ_i ^j｜ｊ＝０，１，２，・・・，ｔ（ｉ）＿ｎｕｍ−１｝で表す。Ｔ_i ^jは、Ｒ_iに含まれるｊ番目のテキストブロックを示している。ｔ（ｉ）＿ｎｕｍは、テキストブロック抽出結果Ｒ_iに含まれるテキストブロックの総数である。また、Ｔ_i ^jに連結するテキストブロックの集合をＳ_Tとおく。

図１３は、テキストブロックの統合例を示す図である。例えば、Ｒ₀とＲ₁が図１３のように表されたとする。ここで、テキストブロックＴ₀ ¹に連結するテキストブロックを抽出する。その場合、テキストブロック統合部１２３は、まず、テキストブロックＴ₀ ¹と少なくとも一部が重なるテキストブロックをＲ₁から抽出し、連結対象とする。次に、テキストブロック統合部１２３は、Ｒ₁から抽出されたテキストブロックに対して、少なくとも一部が重なるテキストブロックをＲ₀から抽出し、連結対象とする。

以後、同様に、テキストブロック統合部１２３は、連結対象として抽出されたテキストブロックに対して少なくとも一部が重なるテキストブロックを、他のテキストブロック抽出結果から抽出し、連結対象とする。このような重複関係に基づく連結対象の抽出処理が、テキストブロックが抽出されなくなるまで続けられる。図１３の例では、テキストブロックＴ₀ ¹の連結対象の集合Ｓ_Tは、｛Ｔ₀ ¹，Ｔ₀ ²，Ｔ₁ ¹，Ｔ₁ ²，Ｔ₁ ³｝となる。

図１４は、テキストブロック抽出結果統合処理の手順を示すフローチャートである。以下、図１４に示す処理をステップ番号に沿って説明する。なお、並列方式の場合、｛Ｔ₀ ^j（ｊ＝０，１，２，・・・，ｔ（０）＿ｎｕｍ−１）｝に重複するテキストブロックを、｛Ｔ_i ^j｜ｉ＝１，２，・・・，ｐ＿ｎｕｍ−１、ｊ＝０，１，２，・・・，ｔ（ｉ）＿ｎｕｍ−１｝から求める。

なお、テキストブロック抽出結果に含まれる各テキストブロックには、統合対象としての検討を行ったか否かを示すフラグが設けられている。検討していないテキストブロックのフラグは０であり、検討したテキストブロックのフラグは１である。このフラグの初期値は０である。

［ステップＳ５１］テキストブロック統合部１２３は、ｊの初期値を０に設定する。
［ステップＳ５２］テキストブロック統合部１２３は、ｊ＜ｔ（ｉ）＿ｎｕｍが満たされるか否かを判断する。ｊがｔ（ｉ）＿ｎｕｍ未満であれば、処理がステップＳ５３に進められる。ｊ＝ｔ（ｉ）＿ｎｕｍであれば、テキストブロック抽出結果統合処理が終了する。

［ステップＳ５３］テキストブロック統合部１２３は、Ｔ_i ^jのフラグが０か否かを判定する。フラグが０であれば、処理がステップＳ５４に進められる。フラグが１であれば、処理がステップＳ５８に進められる。

［ステップＳ５４］テキストブロック統合部１２３は、Ｔ_i ^jのフラグに１を設定する。
［ステップＳ５５］テキストブロック統合部１２３は、Ｔ_i ^jをＳ_Tに登録する。
［ステップＳ５６］テキストブロック統合部１２３は、Ｔ_i ^jに連結するテキストブロックを探索する。

［ステップＳ５７］テキストブロック統合部１２３は、最適組み合わせ探索処理を行う。
［ステップＳ５８］テキストブロック統合部１２３は、ｊの値をインクリメント（１加算）して、処理をステップＳ５２に進める。

次に、連結集合探索処理の詳細について説明する。連結集合探索処理では、テキストブロック統合部１２３は、Ｔ_i ^jに連結するテキストブロックの集合Ｓ_Tを求める。そして、テキストブロック統合部１２３は、Ｔ_i ^jに対して領域が重複するＴ_m ^N（ｍ≠ｉ）を全て求めＳ_Tに登録する。さらに、テキストブロック統合部１２３は、再帰的にＴ_m ^Nに対して、Ｔ_m ^Nに重複するＴ_p ^q（ｐ≠ｍ）を求めて、Ｓ_Tに登録する。

図１５は、連結集合探索処理の手順を示すフローチャートである。以下、図１５に示す処理をステップ番号に沿って説明する。
［ステップＳ６１］テキストブロック統合部１２３は、Ｔ_i ^jに対して少なくとも一部が重複するテキストブロックを、他のテキストブロック抽出結果（並列方式の場合｛Ｔ_i ^j｜ｉ＝０，１，２，・・・，ｐ＿ｎｕｍ−１、ｊ＝０，１，２，・・・，ｔ（ｉ）＿ｎｕｍ−１｝）から取得し、重複するテキストブロックの集合を｛Ｔ_m ^N(k)｝（ｍ≠ｉ）とする。また、重複するテキストブロックの個数をｘ_i ^jとする。

ｋは、重複するテキストブロックを識別する識別番号であり、０≦ｋ＜ｘ_i ^jである。Ｎ（ｋ）は、ｋ番のテキストブロックのテキストブロック抽出結果内での識別番号を示している。

なお、図１４のステップＳ５６で呼び出された連結集合探索処理の場合、ｉ＝０のテキストブロック抽出結果｛Ｔ₀ ^j｝に対して少なくとも一部が重複するテキストブロックの集合が得られる（ｊはステップＳ５１またはステップＳ５８で設定された値である）。

また、ステップＳ６７から再帰的に呼び出された連結集合探索処理の場合、呼び出し前のステップＳ６６の処理でＳ_Tに登録されたテキストブロックＴ_m ^N(k)に重複する少なくとも一部が重複するテキストブロックの集合が得られる。

［ステップＳ６２］テキストブロック統合部１２３は、ｋを０に初期化する。
［ステップＳ６３］テキストブロック統合部１２３は、ｋ＜ｘ_i ^jか否かを判断する。ｋがｘ_i ^j未満であれば処理がステップＳ６４に進められる。ｋがｘ_i ^j以上であれば、現在実行している連結集合探索処理が終了し、呼び出し元に処理が戻される。

［ステップＳ６４］テキストブロック統合部１２３は、Ｔ_m ^N(k)のフラグが０か否かを判断する。フラグが０であれば処理がステップＳ６５に進められる。フラグが１であれば、処理がステップＳ６８に進められる。

［ステップＳ６５］テキストブロック統合部１２３は、Ｔ_m ^N(k)のフラグを１に設定する。
［ステップＳ６６］テキストブロック統合部１２３は、Ｔ_m ^N(k)をＳ_Tに登録する。

［ステップＳ６７］テキストブロック統合部１２３は、Ｔ_m ^N(k)に対する連結集合探索処理を再帰的に実行する。再帰的に実行した連結集合探索処理が終了すると、処理がステップＳ６８に進められる。

［ステップＳ６８］テキストブロック統合部１２３は、ｋをインクリメント（１加算）し、処理をステップＳ６３に進める。
このようにして、連結集合探索処理が再帰的に実行される。

次に、最適組み合わせ探索処理の詳細について説明する。
図１６は、最適組み合わせ探索処理の手順を示すフローチャートである。以下、図１６に示す処理をステップ番号に沿って説明する。

［ステップＳ７１］テキストブロック統合部１２３は、テキストブロック抽出結果に対して、文字認識処理を行う。この文字認識処理では、後処理として言語処理（言語としての自然さの検証）も行う。

［ステップＳ７２］テキストブロック統合部１２３は、正読確率によって決まる認識コストと形態素解析コストによって決まる言語コストを求め、テキストブロック抽出結果に値を付与する。

［ステップＳ７３］テキストブロック統合部１２３は、テキストブロック抽出結果の配置による可能な組み合わせをグラフによって表現する。グラフは、ノードがテキストブロックであり、ノードとノードがパスで結ばれているのは、テキストブロック間で重複がなく両立可能であることを示す。

［ステップＳ７４］テキストブロック統合部１２３は、論理的に必要最小限の組み合わせをグラフからクリークとして求め、それらを組み合わせ候補とする。
［ステップＳ７５］テキストブロック統合部１２３は、抽出された組み合わせ候補を、テキストブロックの認識コストと言語コストの値により順位付けし、最小コストの組み合わせを最終結果とする。

次に、最小コストクリーク探索処理について詳細に説明する。本実施の形態では、クリークを２つずつ対比し、優劣をつける。そして、優位な方のクリークに得点を加点する。そして、各クリークの得点によってクリークの順位付けを行う。なお、優劣の比較には、認識コストと言語コストが用いられる。認識コストには正読確率の逆数に比例する値が用いられ、言語コストには形態素解析コストが用いられる。

図１７は、最小コストクリーク探索処理の手順を示すフローチャートである。以下、図１７に示す処理をステップ番号に沿って説明する。
［ステップＳ８１］テキストブロック統合部１２３は、各クリークについて認識コストを計算する。認識コストとは、テキストブロック内の文字認識を行い、そのときの認識の確からしさを示す数値である。文字認識が正確であるほど、認識コストの値は小さくなる。

［ステップＳ８２］テキストブロック統合部１２３は、各クリークについて言語コストを計算する。言語コストとは、文字認識を行い、文字の配列を文章としてとらえたときの、文章の言語としての正しさを示す数値である。文章が正しいほど、言語コストの値は低くなる。

［ステップＳ８３］テキストブロック統合部１２３は、比較対象とするクリークを２つ選択する。
［ステップＳ８４］テキストブロック統合部１２３は、選択した２つのクリークの認識コストと言語コストの両方を比較し、優位な差があるか否かを判定する。認識コストにおける有意な差は例えば１０を用い、言語コストにおける有意な差は例えば５０を用いる。その場合、認識コストと言語コストとの何れか一方で優位な差があれば、コストの値が小さい方のクリークを、優位なクリークとする。なお、認識コストによる優位なクリークと、言語コストによる優位なクリークとが異なるクリークとなる場合、例えば、優位な差がないと判断する。

優位な差が存在した場合、処理がステップＳ８８に進められる。優位な差が存在しない場合、処理がステップＳ８５に進められる。
［ステップＳ８５］テキストブロック統合部１２３は、比較対象のクリークそれぞれの認識コストと言語コストとを正規化した値の和を取る。このとき、認識コストの正規化値には、正読確率が用いられる。言語コストの正規化値には、言語コストの逆数を定数倍したものが用いられる。

なお、言語コストの正規化値については、別の方法も考えられる。例えば、テキストブロック統合部１２３は、数多くのサンプル（テキストブロック抽出結果であり、正解と失敗を含む）に対し、サンプルの言語コストを求める。さらに、テキストブロック統合部１２３は、言語コスト値と、文字認識結果が正解である頻度と誤りである頻度（正解確率）をあらかじめ調べてテーブル化しておく。そして、テキストブロック統合部１２３は、そのテーブルを用いて言語コストを正解確率に変換し、得られた正解確率を正規化に用いることもできる。

［ステップＳ８６］テキストブロック統合部１２３は、比較対照のクリークの正規化した値の和を比較し、優位な差があるか否か（所定値以上の差があるか）を判定する。優位な差があれば、テキストブロック統合部１２３は、正規化した値の小さい方を優位なクリークと判断し、処理をステップＳ８８に進める。優位な差が無い場合、処理がステップＳ８７に進められる。

［ステップＳ８７］テキストブロック統合部１２３は、テキストブロックの数が少ない方のクリークを優位なクリークと判定する。
［ステップＳ８８］テキストブロック統合部１２３は、優位と判定されたクリークに得点（例えば、１点）を加点する。

［ステップＳ８９］テキストブロック統合部１２３は、全ての組み合わせを比較したか否かを判定する。全てのクリークの組み合わせの比較が完了した場合、処理がステップＳ９０に進められる。比較していないクリークの組み合わせがある場合、処理がステップＳ８３に進められる。

［ステップＳ９０］テキストブロック統合部１２３は、得点の最も高いクリークを、最小コストクリークとして選択し、最小コストクリーク探索処理を終了する。
以上のような処理によって、複数のパラメータセット毎に生成されたテキストブロックを統合することができる。

次に、本実施の形態による文書画像レイアウト解析処理の具体例について説明する。
図１８は、解析対象の文書画像の例を示す図である。図１８に示す文書画像３００には、横書きの見出し、縦書きの文章等が混在している。このような文書画像３００が文書画像レイアウト解析部１２０に入力されると、テキストブロック抽出部１２２によって、パラメータセット毎にテキストブロック抽出処理が行われる。

図１９は、テキストブロック抽出結果の第１の例を示す図である。このテキストブロック抽出結果３０１では、文書画像３００から８つのテキストブロック３１１〜３１８が抽出されている。このテキストブロック抽出結果３０１のままでは、テキストブロック３１３の文字認識を行ったときに、意味の通らない文章が生成されてしまう。

図２０は、テキストブロック抽出結果の第２の例を示す図である。このテキストブロック抽出結果３０２では、文書画像から１１個のテキストブロック３２１〜３３１が抽出されている。このテキストブロック抽出結果３０２のままでは、テキストブロック３２９，３３０の文字認識を行ったときに、意味の通らない文章が生成されてしまう。

そこで、図１９と図２０とに示したテキストブロック抽出結果の統合処理が、テキストブロック統合部１２３によって行われる。その際、まず、連結集合探索処理によって、テキストブロック抽出結果３０１，３０２の間の連結集合が探索される。

図２１は、連結集合探索処理結果を示す図である。なお、テキストブロック統合部１２３は、各テキストブロック抽出結果３０１，３０２に含まれるテキストブロックを、識別番号によって管理している。図２１の例では、テキストブロック抽出結果３０１に含まれる各テキストブロック３１１〜３１８に対して、それぞれ「Ｔ１１，Ｔ１２，・・・，Ｔ１８」の識別番号が設定されている。また、テキストブロック抽出結果３０２に含まれる各テキストブロック３２１〜３３１に対して、それぞれ「Ｔ２１，Ｔ２２，・・・，Ｔ３１」の識別番号が設定されている。

これらのテキストブロック抽出結果３０１，３０２から連結集合を探索すると、連結集合探索結果３０３として、５つの連結集合３４１〜３４５が得られる。ここで、連結集合３４３〜３４５については、同じ範囲を示すテキストブロック同士が連結されており、統合後も、そのまま１つのテキストブロックとすることができる。

一方、連結集合３４１，３４２については、異なる範囲を示す複数のテキストブロックが含まれている。そのため、連結集合３４１，３４２の中から、最適なテキストブロックの組み合わせを決定する必要がある。そこで、テキストブロック統合部１２３は、連結集合３４１，３４２それぞれに対して、最適組み合わせ探索処理を行う。

まず、連結集合３４１の最適組み合わせ探索処理について説明する。
図２２は、連結集合の第１の例を示す図である。連結集合３４１は、テキストブロック抽出結果３０１に含まれていた２つのテキストブロック３１７，３１８と、テキストブロック抽出結果３０２に含まれていた３つのテキストブロック３２９〜３３１とで構成されている。

ここで、テキストブロック３１７は、テキストブロック３１８，３３１とは重複していないが、テキストブロック３２９，３３０と重複している。また、テキストブロック３１８は、テキストブロック３１７とは重複していないが、テキストブロック３２９〜３３１と重複している。テキストブロック３２９〜３３１の間では、重複関係は存在しない。

このような重複関係に基づいて、テキストブロック統合部１２３がグラフを作成する。そして、テキストブロック統合部１２３は、グラフの中からクリークを抽出する。
図２３は、グラフとクリークとの第１の例を示す図である。連結集合３４１から生成されたグラフ４０には、５つのノードが含まれる。各ノードがテキストブロックを示している。グラフ４０では、各ノードに、対応するテキストブロックの識別番号が付与されている。

ノード間の重複関係がパス（ノード間を接続する線）で示されている。ノードとノードがパスで結ばれているのは、テキストブロック間で重複がなく両立可能であることを示している。

このようなグラフ４０から、両立可能な論理的に必要最小限の組み合わせが、クリーク４１〜４３として求められる。すなわち、グラフ４０から複数のノードを選択し、選択された全てのノード間にパスが設けられていれば、選択されたノードの組がクリークとして抽出される。

クリークが生成されると、クリーク毎の認識コストと言語コストとが計算される。
図２４は、コスト計算結果を示す図である。この例では、クリーク４１の認識コストが「１０５」、言語コストが「２５０」である。クリーク４２の認識コストが「１６０」、言語コストが「１４４０」である。クリーク４３の認識コストが「２３５」、言語コストが「７８０」である。

図２０、図２１を参照すると分かるように、識別番号が「Ｔ３１」のテキストブロック３３１は、内容が「た。」である。そのため、文字認識をすると、文字切り出しに失敗し、認識コストが大きくなる。また、識別番号が「Ｔ２９」「Ｔ３０」のテキストブロック３２９，３３０は、元々繋がりの無い文章を１つのテキストブロックに含めているため、言語コストが大きくなる。

そのため、「Ｔ２９」，「Ｔ３０」，「Ｔ３１」のノードを含むクリーク４２，４３は、それらを含まないクリーク４１に比べて言語コストが高くなっている。その結果、３つのクリーク４１〜４３間で最小コストクリーク探索処理が行われると、クリーク４１が最小コストクリークとして選択される。

次に、連結集合３４２の最適組み合わせ探索処理について説明する。
図２５は、連結集合の第２の例を示す図である。連結集合３４２は、テキストブロック抽出結果３０１に含まれていた３つのテキストブロック３１３，３１４，３１６と、テキストブロック抽出結果３０２に含まれていた５つのテキストブロック３２３〜３２５，３２７，３２８とで構成されている。

このような連結集合３４２から、テキストブロック統合部１２３がグラフを作成する。そして、テキストブロック統合部１２３は、グラフの中からクリークを抽出する。
図２６は、グラフとクリークとの第２の例を示す図である。連結集合３４２から生成されたグラフ５０には、８つのノードが含まれる。このようなグラフ５０から、両立可能な論理的に必要最小限の組み合わせが、クリーク５１，５２，５３，・・・として求められる。

そして、最小コストクリーク探索処理が行われ、最小コストクリークが選択される。この例では、クリーク５２が選択されたものとする。
２つの連結集合３４１，３４２それぞれの最小コストクリークに含まれるテキストブロックが、テキストブロック抽出結果の統合結果に含められる。

図２７は、テキストブロック抽出結果の統合結果を示す図である。図２７に示すように、複数のテキストブロック抽出結果を統合し、それぞれから適切なテキストブロックを採用することで、全体として正確なテキストブロック抽出が可能となっている。

具体的には、テキストブロック抽出結果３０１では、テキストブロック３１３，３１４，３１６の領域が不適切であったが、その領域については、テキストブロック抽出結果３０２に含まれているテキストブロック３２３〜３２５，３２７，３２８が採用されることで、適切なテキストブロック抽出結果となっている。

また、テキストブロック抽出結果３０２では、テキストブロック３２９，３３０，３３１の領域が不適切であったが、その領域については、テキストブロック抽出結果３０１に含まれているテキストブロック３１７，３１８が採用されることで、適切なテキストブロック抽出結果となっている。

以上のようにして、異なる条件で抽出されたテキストブロック抽出結果と統合することで、適切なテキストブロックが抽出できる。テキストブロックの取り方が適切であれば、その後の文字認識処理における文字認識の正確性が向上する。

実際に、新聞・雑誌・広告などから収集した複雑なレイアウトを持つ４０文書に対して、精度評価実験を行った。再帰的テキストブロック抽出処理を１回だけ行う場合と、パラメータの初期値を変えて５回処理させ、結果を統合する場合とを比較した。その結果、テキストブロックが正しく抽出される確率が96.3%から98.0%に向上した。

［第２の実施の形態］
第２の実施の形態は、テキストブロック抽出結果の統合を、テキストブロック抽出結果が得られる毎に、逐次実行するものである（逐次方式）。

第２の実施の形態は、文書画像レイアウト解析処理の内容が第１の実施の形態と異なる。また、第２の実施の形態の機能ブロックは、図３に示した第１の実施の形態と同様である。そこで、図３に示す構成を用いて、第２の実施の形態における文書画像レイアウト解析処理について説明する。

第２の実施の形態では、テキストブロック抽出部１２２は、Ｒ₀，Ｒ₁，・・・，Ｒ_{p_num-1}の順番でテキストブロック抽出結果を取得する。そして、テキストブロック統合部１２３が、順次、それ以前に得られている統合結果に、新たに取得されたテキストブロック抽出結果を統合する。具体的には、テキストブロック統合部１２３は、パラメータセットの識別番号であるｉがｉ≧１のとき、Ｐ（ｉ）から得られるテキストブロック抽出結果Ｒ_iを、Ｐ（ｉ−１）までのテキストブロック抽出結果Ｒ_i-1に統合し、統合結果を改めてＲ_iと設定する。

図２８は、第２の実施の形態の文書画像レイアウト解析処理の手順を示すフローチャートである。以下、図２８に示す処理を、ステップ番号に沿って説明する。
［ステップＳ８１］テキストブロック抽出部１２２は、パラメータセットの識別番号を示すｉの初期値を０にセットする。

［ステップＳ８２］テキストブロック抽出部１２２は、Ｐ＝Ｐ（ｉ）として、テキストブロック抽出処理を行う。テキストブロック抽出処理の詳細は後述する。
［ステップＳ８３］テキストブロック抽出部１２２は、ステップＳ８２のテキストブロック抽出結果を、Ｒ_iに代入する。

［ステップＳ８４］テキストブロック抽出部１２２は、ｉをインクリメント（１加算）し、処理をステップＳ８２に進める。
［ステップＳ８５］テキストブロック抽出部１２２は、ｉがｐ＿ｎｕｍ未満か否かを判断する。ｐ＿ｎｕｍ未満であれば処理がステップＳ８６に進められる。ｐ＿ｎｕｍ以上であれば処理が終了する。

［ステップＳ８６］テキストブロック抽出部１２２は、Ｐ＝Ｐ（ｉ）として、テキストブロック抽出処理を行う。テキストブロック抽出処理の詳細は、図６に示した第１の実施の形態におけるテキストブロック抽出処理と同様である。

［ステップＳ８７］テキストブロック抽出部１２２は、ステップＳ８６のテキストブロック抽出結果を、Ｒ_iに代入する。
［ステップＳ８８］テキストブロック統合部１２３が、テキストブロック抽出結果Ｒ_iとＲ_i-1とを統合する。統合処理の詳細は、図１４に示した第１の実施の形態におけるテキストブロック抽出結果統合処理と同様である。

［ステップＳ８９］テキストブロック抽出部１２２は、ステップＳ８８による統合結果を、Ｒ_iに代入する。
［ステップＳ９０］テキストブロック抽出部１２２は、ｉをインクリメント（１加算）し、処理をステップＳ８５に進める。

これにより、ｉがｐ＿ｎｕｍに達するまで順次、各パラメータセットに応じたテキストブロック抽出結果が得られる。そして、テキストブロック抽出結果が得られる毎に、それ以前に生成されたテキストブロック抽出結果に対して統合される。すなわち、テキストブロック抽出結果を逐次統合することができる。

テキストブロック抽出結果を逐次統合することで、テキストブロック抽出結果を格納するためのメモリ領域を削減することができる。
また、テキストブロック抽出結果を逐次統合する毎に、統合結果を認識コストや言語コストで評価し、評価結果が所定値未満（正規化した値で評価する場合は、所定値以上）となった時点で、文書画像レイアウト解析処理を終了させることもできる。これにより、所定の条件を満たす評価が得られた以後は、テキストブロック抽出処理等を行わずにすみ、処理時間を短縮することができる。

［その他の応用例］
上記の実施の形態では、セパレータ抽出のための初期パラメータを変えることで、複数のテキストブロック抽出結果を生成しているが、全く異なる手法で複数のテキストブロック抽出処理を行い、その結果を統合することもできる。例えば、特許文献１や特許文献２記載の技術でテキストブロックを抽出し、その抽出結果を統合することもできる。テキストブロック抽出処理の多様性が増すほど、より精度の高い統合結果を得ることができる。

なお、上記の処理機能は、コンピュータによって実現することができる。その場合、文書画像レイアウト解析部１２０が有すべき機能の処理内容を記述したプログラムが提供される。そのプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリなどがある。磁気記録装置には、ハードディスク装置（ＨＤＤ）、フレキシブルディスク（ＦＤ）、磁気テープなどがある。光ディスクには、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）／ＲＷ（ReWritable）などがある。光磁気記録媒体には、ＭＯ（Magneto-Optical disk）などがある。

プログラムを流通させる場合には、例えば、そのプログラムが記録されたＤＶＤ、ＣＤ−ＲＯＭなどの可搬型記録媒体が販売される。また、プログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することもできる。

プログラムを実行するコンピュータは、例えば、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、自己の記憶装置に格納する。そして、コンピュータは、自己の記憶装置からプログラムを読み取り、プログラムに従った処理を実行する。なお、コンピュータは、可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することもできる。また、コンピュータは、サーバコンピュータからプログラムが転送される毎に、逐次、受け取ったプログラムに従った処理を実行することもできる。

なお、本発明は、上述の実施の形態にのみ限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変更を加えることができる。
以上説明した実施の形態の主な技術的特徴は、以下の付記の通りである。

（付記１）文書画像に含まれるテキストのレイアウトを解析して、文字認識の処理対象とする範囲を示すテキストブロックを抽出する文書画像レイアウト解析プログラムにおいて、
コンピュータを、
テキストブロックを抽出するための条件を定義した複数の抽出条件を記憶する抽出条件記憶手段、
前記抽出条件記憶手段に記憶された前記テキストブロック抽出条件それぞれに従って、前記文書画像からテキストブロックを抽出するテキストブロック抽出手段、
前記テキストブロック抽出手段で抽出された複数のテキストブロック抽出結果それぞれに含まれるテキストブロックの文字認識を行い、文字認識結果に基づいてテキストブロックが示す範囲の正確性を判定し、正確性が高いテキストブロックを選択してテキストブロック統合結果として出力するテキストブロック統合手段、
として機能させることを特徴とする文書画像レイアウト解析プログラム。

（付記２）前記テキストブロック統合手段は、文字認識による認識の確からしさを示す正読確率が高いほど、テキストブロックが示す範囲の正確性を高く評価することを特徴とする付記１記載の文書画像レイアウト解析プログラム。

（付記３）前記テキストブロック統合手段は、文字認識結果における文章が言語的に自然であるほど、テキストブロックが示す範囲の正確性を高く評価することを特徴とする付記１記載の文書画像レイアウト解析プログラム。

（付記４）前記テキストブロック統合手段は、複数の前記テキストブロック抽出結果それぞれに含まれるテキストブロックのうち領域が重複するテキストブロック同士を関連づけ、関連づけられたテキストブロックの集合を連結集合とし、前記連結集合から正確性が高いテキストブロックの組み合わせを選択することを特徴とする付記１記載の文書画像レイアウト解析プログラム。

（付記５）前記テキストブロック統合手段は、前記連結集合に含まれるテキストブロックから領域の重複関係が無いテキストブロックの組み合わせを抽出し、各テキストブロックの文字認識結果に基づいて、各組み合わせに含まれるテキストブロックが示す範囲の正確性を評価し、評価の高い組み合わせに含まれるテキストブロックを選択することを特徴とする付記４記載の文書画像レイアウト解析プログラム。

（付記６）前記テキストブロック統合手段は、テキストブロック毎の文字認識による認識の確からしさを示す正読確率と、文字認識結果における文章が言語的な自然さを示す数値とを正規化し、組み合わせに含まれるテキストブロック毎の正規化した値の和を、組み合わせに含まれるテキストブロックの範囲の正確性を示す値とすることを特徴とする付記５記載の文書画像レイアウト解析プログラム。

（付記７）前記テキストブロック統合手段は、組み合わせに含まれるテキストブロックが示す範囲の正確性を前記組み合わせ毎に数値化し、組み合わせを２つずつ対比し、正確性を示す数値が対比相手の組み合わせよりも所定値以上の差で高く評価されている組み合わせに得点を与え、最も得点の高い組み合わせに含まれるテキストブロックを選択することを特徴とする付記４記載の文書画像レイアウト解析プログラム。

（付記８）前記抽出条件記憶手段には、テキストブロック間の境界を示すセパレータと判定するための、前記セパレータに含まれるべき空白領域の大きさを示す条件が前記抽出条件として格納されていることを特徴とする付記１記載の文書画像レイアウト解析プログラム。

（付記９）文書画像に含まれるテキストのレイアウトを解析して、文字認識の処理対象とする範囲を示すテキストブロックを抽出する文書画像レイアウト解析装置において、
テキストブロックを抽出するための条件を定義した複数の抽出条件を記憶する抽出条件記憶手段と、
前記抽出条件記憶手段に記憶された前記テキストブロック抽出条件それぞれに従って、前記文書画像からテキストブロックを抽出するテキストブロック抽出手段と、
前記テキストブロック抽出手段で抽出された複数のテキストブロック抽出結果それぞれに含まれるテキストブロックの文字認識を行い、文字認識結果に基づいてテキストブロックが示す範囲の正確性を判定し、正確性が高いテキストブロックを選択してテキストブロック統合結果として出力するテキストブロック統合手段と、
を有することを特徴とする文書画像レイアウト解析装置。

（付記１０）文書画像に含まれるテキストのレイアウトを解析して、文字認識の処理対象とする範囲を示すテキストブロックを抽出するための文書画像レイアウト解析方法において、
テキストブロック抽出手段が、予めテキストブロックを抽出するための条件を定義した複数の抽出条件が記憶された抽出条件記憶手段を参照し、前記テキストブロック抽出条件それぞれに従って、前記文書画像からテキストブロックを抽出し、
テキストブロック統合手段が、前記テキストブロック抽出手段で抽出された複数のテキストブロック抽出結果それぞれに含まれるテキストブロックの文字認識を行い、文字認識結果に基づいてテキストブロックが示す範囲の正確性を判定し、正確性が高いテキストブロックを選択してテキストブロック統合結果として出力する、
ことを特徴とする文書画像レイアウト解析方法。

（付記１１）文書画像に含まれるテキストのレイアウトを解析して、文字認識の処理対象とする範囲を示すテキストブロックを抽出する文書画像レイアウト解析プログラムを記録したコンピュータ読み取り可能な記録媒体において、
前記コンピュータを、
テキストブロックを抽出するための条件を定義した複数の抽出条件を記憶する抽出条件記憶手段、
前記抽出条件記憶手段に記憶された前記テキストブロック抽出条件それぞれに従って、前記文書画像からテキストブロックを抽出するテキストブロック抽出手段、
前記テキストブロック抽出手段で抽出された複数のテキストブロック抽出結果それぞれに含まれるテキストブロックの文字認識を行い、文字認識結果に基づいてテキストブロックが示す範囲の正確性を判定し、正確性が高いテキストブロックを選択してテキストブロック統合結果として出力するテキストブロック統合手段、
として機能させることを特徴とする文書画像レイアウト解析プログラムを記録したコンピュータ読み取り可能な記録媒体。

本実施の形態の概略を示す図である。本実施の形態に用いるコンピュータのハードウェア構成例を示す図である。本実施の形態の文書画像レイアウト解析機能を示すブロック図である。パラメータセットテーブルのデータ構造例を示す図である。文書画像レイアウト解析処理の手順を示すフローチャートである。テキストブロック抽出処理の手順を示すフローチャートである。連結成分属性付与処理の手順を示すフローチャートである。ラベリング処理の具体例を示す図である。階層化処理の具体例を示す図である。文字成分を包含するフレームを示した図である。再帰的テキストブロック抽出処理の手順を示す一例のフローチャートである。極大空白矩形の一例を示す図である。テキストブロックの統合例を示す図である。テキストブロック抽出結果統合処理の手順を示すフローチャートである。連結集合探索処理の手順を示すフローチャートである。最適組み合わせ探索処理の手順を示すフローチャートである。最小コストクリーク探索処理の手順を示すフローチャートである。解析対象の文書画像の例を示す図である。テキストブロック抽出結果の第１の例を示す図である。テキストブロック抽出結果の第２の例を示す図である。連結集合探索処理結果を示す図である。連結集合の第１の例を示す図である。グラフとクリークとの第１の例を示す図である。コスト計算結果を示す図である。連結集合の第２の例を示す図である。グラフとクリークとの第２の例を示す図である。テキストブロック抽出結果の統合結果を示す図である。第２の実施の形態の文書画像レイアウト解析処理の手順を示すフローチャートである。

符号の説明

１抽出条件記憶手段
２テキストブロック抽出手段
３テキストブロック統合手段
４文書画像
５ａ，５ｂ，・・・テキストブロック抽出結果
６テキストブロック統合結果

Claims

文書画像に含まれるテキストのレイアウトを解析して、文字認識の処理対象とする範囲を示すテキストブロックを抽出する文書画像レイアウト解析プログラムにおいて、
コンピュータを、
テキストブロックを抽出するための条件を定義した複数の抽出条件を記憶する抽出条件記憶手段、
前記抽出条件記憶手段に記憶された前記テキストブロック抽出条件それぞれに従って、前記文書画像からテキストブロックを抽出するテキストブロック抽出手段、
前記テキストブロック抽出手段で抽出された複数のテキストブロック抽出結果それぞれに含まれるテキストブロックの文字認識を行い、文字認識結果に基づいてテキストブロックが示す範囲の正確性を判定し、正確性が高いテキストブロックを選択してテキストブロック統合結果として出力するテキストブロック統合手段、
として機能させることを特徴とする文書画像レイアウト解析プログラム。
前記テキストブロック統合手段は、文字認識による認識の確からしさを示す正読確率が高いほど、テキストブロックが示す範囲の正確性を高く評価することを特徴とする請求項１記載の文書画像レイアウト解析プログラム。
前記テキストブロック統合手段は、文字認識結果における文章が言語的に自然であるほど、テキストブロックが示す範囲の正確性を高く評価することを特徴とする請求項１記載の文書画像レイアウト解析プログラム。
前記テキストブロック統合手段は、複数の前記テキストブロック抽出結果それぞれに含まれるテキストブロックのうち領域が重複するテキストブロック同士を関連づけ、関連づけられたテキストブロックの集合を連結集合とし、前記連結集合から正確性が高いテキストブロックの組み合わせを選択することを特徴とする請求項１記載の文書画像レイアウト解析プログラム。
前記テキストブロック統合手段は、前記連結集合に含まれるテキストブロックから領域の重複関係が無いテキストブロックの組み合わせを抽出し、各テキストブロックの文字認識結果に基づいて、各組み合わせに含まれるテキストブロックが示す範囲の正確性を評価し、評価の高い組み合わせに含まれるテキストブロックを選択することを特徴とする請求項４記載の文書画像レイアウト解析プログラム。
前記テキストブロック統合手段は、テキストブロック毎の文字認識による認識の確からしさを示す正読確率と、文字認識結果における文章が言語的な自然さを示す数値とを正規化し、組み合わせに含まれるテキストブロック毎の正規化した値の和を、組み合わせに含まれるテキストブロックの範囲の正確性を示す値とすることを特徴とする請求項５記載の文書画像レイアウト解析プログラム。
前記テキストブロック統合手段は、組み合わせに含まれるテキストブロックが示す範囲の正確性を前記組み合わせ毎に数値化し、組み合わせを２つずつ対比し、正確性を示す数値が対比相手の組み合わせよりも所定値以上の差で高く評価されている組み合わせに得点を与え、最も得点の高い組み合わせに含まれるテキストブロックを選択することを特徴とする請求項４記載の文書画像レイアウト解析プログラム。
前記抽出条件記憶手段には、テキストブロック間の境界を示すセパレータと判定するための、前記セパレータに含まれるべき空白領域の大きさを示す条件が前記抽出条件として格納されていることを特徴とする請求項１記載の文書画像レイアウト解析プログラム。
文書画像に含まれるテキストのレイアウトを解析して、文字認識の処理対象とする範囲を示すテキストブロックを抽出する文書画像レイアウト解析装置において、
テキストブロックを抽出するための条件を定義した複数の抽出条件を記憶する抽出条件記憶手段と、
前記抽出条件記憶手段に記憶された前記テキストブロック抽出条件それぞれに従って、前記文書画像からテキストブロックを抽出するテキストブロック抽出手段と、
前記テキストブロック抽出手段で抽出された複数のテキストブロック抽出結果それぞれに含まれるテキストブロックの文字認識を行い、文字認識結果に基づいてテキストブロックが示す範囲の正確性を判定し、正確性が高いテキストブロックを選択してテキストブロック統合結果として出力するテキストブロック統合手段と、
を有することを特徴とする文書画像レイアウト解析装置。
文書画像に含まれるテキストのレイアウトを解析して、文字認識の処理対象とする範囲を示すテキストブロックを抽出するための文書画像レイアウト解析方法において、
テキストブロック抽出手段が、予めテキストブロックを抽出するための条件を定義した複数の抽出条件が記憶された抽出条件記憶手段を参照し、前記テキストブロック抽出条件それぞれに従って、前記文書画像からテキストブロックを抽出し、
テキストブロック統合手段が、前記テキストブロック抽出手段で抽出された複数のテキストブロック抽出結果それぞれに含まれるテキストブロックの文字認識を行い、文字認識結果に基づいてテキストブロックが示す範囲の正確性を判定し、正確性が高いテキストブロックを選択してテキストブロック統合結果として出力する、
ことを特徴とする文書画像レイアウト解析方法。