JP2011070558A

JP2011070558A - 文書画像処理装置、文書画像処理方法および文書画像処理プログラム

Info

Publication number: JP2011070558A
Application number: JP2009223031A
Authority: JP
Inventors: Yoshio Komaki; 由夫小巻
Original assignee: Konica Minolta Business Technologies Inc
Current assignee: Konica Minolta Business Technologies Inc
Priority date: 2009-09-28
Filing date: 2009-09-28
Publication date: 2011-04-07
Also published as: US8538154B2; US20110075932A1

Abstract

【課題】背景文字や、繰り返し表れる小さい文字列要素を含む文書スタイルに対しても、適切に見出し領域を抽出すること。
【解決手段】文書画像処理装置は、設定された範囲内の見出し候補を、所定のスタイル種別による特徴量に基づいてグループ化し（Ｓ１０４）、グループごとにグループ特性を検出する（Ｓ１０６）。グループ特性の検出結果に所定の抽出ルールを適用することで、設定された範囲から、範囲を代表する代表グループを選択すると（Ｓ１０８）、設定された範囲内の見出し候補のうち、代表グループに属する見出し候補を見出し領域の一部として判定する（Ｓ１１２）。代表グループに属する見出し候補の位置に基づいて、設定された範囲を分割し（Ｓ１１６）、分割後の範囲を新たに設定された範囲として、グループ化、代表グループの選択および見出し判定の処理を再実行する（Ｓ１１６，Ｓ１０４）。
【選択図】図１４

Description

本発明は、本発明は、文書画像処理装置、文書画像処理方法および文書画像処理プログラムに関し、特に、文書画像から見出し領域を抽出することのできる文書画像処理装置、文書画像処理方法および文書画像処理プログラムに関する。

従来、文書画像全体の文字列要素領域を対象として，特徴量に基づいた共通した抽出ルールを用いて見出し（タイトル見出し、セクション見出し）を抽出する方法があった。

たとえば特許文献１では、文書画像処理装置において、文書画像に含まれる全ての行から行単位に特定の特徴量に基づいてリスト構造（見出し相当）が抽出されることが記載されている。

特開平１１−２３８０９６号公報

しかしながら、特許文献１の技術は、文書に含まれる全ての行を対象とし、文書全体を１つの範囲として特定の特徴量を用いて見出しを抽出するものである。したがって、見出しを適切に抽出できる文書スタイルに大きな制限があるという問題があった。

つまり、背景文字や、繰り返し表れる小さい文字列要素（たとえば、箇条書き、表示媒体であるページやスライドに付加されたヘッダ，フッタ、など）を含む文書スタイルの場合、文書全体に対して一律に同じルールを適用すると、適切に見出し領域を抽出することができない。

従来、このようなスタイルの文書から複数の異なるレベルの見出しを適切に抽出するためには、特徴量抽出処理の追加、ルールの複雑化が必要である。しかし、特徴量抽出処理の追加、ルールの複雑化をすることは、コスト増加や処理時間増加を生じさせるため、実際上できないという課題があった。

本発明は、上記のような問題を解決するためになされたものであって、その目的は、背景文字や、繰り返し表れる小さい文字列要素を含む文書スタイルに対しても、適切に見出し領域を抽出することのできる文書画像処理装置、文書画像処理方法および文書画像処理プログラムを提供することである。

この発明のある局面に従う文書画像処理装置は、文書画像から、見出し領域を抽出するための文書画像処理装置であって、文書画像を記憶するための記憶手段と、文書画像における複数の文字列要素領域のうち見出し領域の候補の領域を、見出し候補として検出するための検出手段と、検出された見出し候補のうちから、見出し領域を抽出する処理を行なうための抽出手段とを備える抽出手段は、複数の文字列要素領域を含む範囲を処理対象の範囲に設定するための設定手段と、設定された範囲内の見出し候補を、所定のスタイル種別による特徴量に基づいてグループ化するためのグループ化手段と、グループごとにグループ特性を検出し、グループ特性の検出結果に所定の抽出ルールを適用することで、設定された範囲から、範囲を代表する代表グループを選択するための選択手段と、設定された範囲内の見出し候補のうち、代表グループに属する見出し候補を見出し領域の一部として判定するための判定手段と、代表グループに属する見出し候補の位置に基づいて、設定された範囲を分割するための分割手段とを含み、抽出手段は、分割後の範囲を新たに設定された範囲として、グループ化手段、選択手段および判定手段の処理を再実行する。

好ましくは、グループ特性は、設定された範囲に依存した特徴を含む。
好ましくは、依存した特徴は、設定された範囲内の見出し候補の上限位置、および、設定された範囲内の本文領域との順序関係の少なくともいずれかを含む。

好ましくは、分割手段は、代表グループに属する見出し候補の前もしくは後で、設定された範囲を分割する。

好ましくは、選択手段は、さらに、グループ特性の検出結果に抽出ルールを適用した場合に所定の基準を満たさないグループについては、代表グループから除外する。

好ましくは、判定手段は、さらに、代表グループから除外されたグループのみが含まれる範囲内の見出し候補を、非見出しとして判定する。

好ましくは、分割手段は、分割後の範囲のうち、判定手段による判定が未済みである見出し候補が存在している範囲を、新たに設定された範囲とする。

好ましくは、選択手段は、グループ特性として、グループごとのスタイル種別による特徴量をさらに用いる。

好ましくは、検出手段は、複数の文字列要素領域を小領域と大領域とに分類し、小領域を見出し候補として検出し、大領域を本文領域として検出する。

好ましくは、抽出手段は、範囲の分割のレベルに応じて、見出し領域を階層化する。
この発明の他の局面に従う文書画像処理方法は、文書画像を記憶する記憶部を備えた文書画像処理装置によって実行される、記憶部に記憶された文書画像から見出し領域を抽出するための方法であって、文書画像における複数の文字列要素領域のうち見出し領域の候補の領域を、見出し候補として検出するステップと、複数の文字列要素領域を含む範囲を処理対象の範囲に設定するステップと、設定された範囲内の見出し候補を、所定のスタイル種別による特徴量に基づいてグループ化するステップと、グループごとにグループ特性を検出し、グループ特性の検出結果に所定の抽出ルールを適用することで、設定された範囲から、範囲を代表する代表グループを選択するステップと、設定された範囲内の見出し候補のうち、代表グループに属する見出し候補を見出し領域の一部として判定するステップと、代表グループに属する見出し候補の位置に基づいて、設定された範囲を分割するステップと、分割後の範囲を新たに設定された範囲として、グループ化するステップ、選択するステップおよび判定するステップの処理を再実行するステップとを備える。

この発明のさらに他の局面に従う文書画像処理プログラムは、文書画像から見出し領域を抽出するためのプログラムであって、文書画像における複数の文字列要素領域のうち見出し領域の候補の領域を、見出し候補として検出するステップと、複数の文字列要素領域を含む範囲を処理対象の範囲に設定するステップと、設定された範囲内の見出し候補を、所定のスタイル種別による特徴量に基づいてグループ化するステップと、グループごとにグループ特性を検出し、グループ特性の検出結果に所定の抽出ルールを適用することで、設定された範囲から、範囲を代表する代表グループを選択するステップと、設定された範囲内の見出し候補のうち、代表グループに属する見出し候補を見出し領域の一部として判定するステップと、代表グループに属する見出し候補の位置に基づいて、設定された範囲を分割するステップと、分割後の範囲を新たに設定された範囲として、グループ化するステップ、選択するステップおよび判定するステップの処理を再実行するステップとをコンピュータに実行させる。

本発明によると、背景文字や、繰り返し表れる小さい文字列要素を含む文書スタイルに対しても、適切に見出し領域を抽出することができる。

本発明の実施の形態に従う文書画像処理装置を含むシステムの概略構成図である。本発明の実施の形態に従う文書画像処理装置における概略構成を示すブロック図である。図１に示したシステムに含まれるパーソナルコンピュータの概略構成を示すブロック図である。本発明の実施の形態に従う文書画像処理装置における機能構成を示すブロック図である。本発明の実施の形態に従う文書画像処理装置が生成する電子化文書のデータ構造の一例を示す図である。本発明の実施の形態において、電子化文書に含まれるしおりデータのデータ構造の一例を示す図である。本発明の実施の形態における画像解析処理を示すフローチャートである。本発明の実施の形態における文字列要素判別処理を示すフローチャートである。文字列要素領域の例を示す図である。サンプル文書を示す図である。図１０のサンプル文書に対して設定された文字列要素領域の例を示す図である。図１１の部分拡大図である。図１０に示したサンプル文書における文字列要素領域の分類結果を示す図である。本発明の実施の形態における見出し抽出処理を示すフローチャートである。（Ａ），（Ｂ）は、図１０に示したサンプル文書全体を範囲とし、範囲内の見出し候補をグループ化した結果を示す図である。図１５（Ａ）に示した範囲内のグループに対する見出し判定の結果を示す表である。（Ａ），（Ｂ）は、図１５（Ａ）に示した範囲の分割後の範囲それぞれにおける見出し候補をグループ化した結果を示す図である。図１７（Ａ）に示した範囲内のグループに対する見出し判定の結果を示す表である。図１７（Ａ）に示した範囲の分割後の範囲それぞれにおける見出し候補をグループ化した結果を示す図である。図１９に示した範囲内のグループに対する見出し判定の結果を示す表である。図１９に示した範囲の分割後の範囲それぞれにおける見出し候補をグループ化した結果を示す図である。図２１に示した範囲内のグループに対する見出し判定の結果を示す表である。本発明の実施の形態における見出し抽出処理の結果を模式的に示した図である。図１０に示したサンプル文書に対して設定された見出し領域／非見出し領域を示す図である。本発明の実施の形態における見出し抽出処理の比較例を説明するための図である。

本発明の実施の形態について図面を参照しながら詳細に説明する。なお、図中同一または相当部分には同一符号を付してその説明は繰返さない。

本実施の形態において、文書画像処理装置は、文書画像内の見出し候補のうち見出し抽出ルールを適用する範囲を（段階的に）設定する。そして、設定された範囲ごとに見出し抽出ルールを用いることで、複数レベルの見出しを含む多様な文書スタイルを持つ文書画像に対して、適切に見出し領域を抽出するものである。

以下に、本実施の形態の文書画像処理装置について詳細に説明する。
＜構成について＞
（全体システム構成）
本実施の形態においては、代表的に、本発明に係る文書画像処理装置の一形態であるＭＦＰ（Multi Function Peripheral）について説明する。なお、本発明に係る文書画像処理装置は、ＭＦＰに限らず、複写機、ファクシミリ装置、スキャナ装置などにも適用可能である。

図１を参照して、本実施の形態に従うＭＦＰ１は、原稿３００を読取るための画像読取部１０４と、紙媒体などへの印刷処理を行なうためのプリント部１０６とを含んで構成される。

特に、本実施の形態に従うＭＦＰ１は、画像読取部１０４で原稿３００を読取ることで文書画像を取得し、この文書画像を含む電子化文書４００を生成する。代表的に、電子化文書４００にはＰＤＦ（Portable Document Format）などのフォーマットを採用できる。この際、ＭＦＰ１は、文書画像から少なくとも１つの見出し領域を抽出し、抽出した見出し領域に対して文書画像内での位置を特定するための閲覧ナビゲート情報を生成する。

なお、「閲覧ナビゲート情報」とは、ユーザによる電子化文書に含まれる文書画像の閲覧を支援するための情報であり、より具体的には、当該文書画像に含まれる見出し領域等が存在する位置を特定するための情報である。このような閲覧ナビゲート情報は、一例として「しおり（bookmark）」、「注釈」、「スレッド」、「リンク」などを含み、見出し領域の位置を特定するための情報に加えて、対応する見出し領域のサムネイル（縮小画像）などを含めてもよい。本実施の形態においては、特に「閲覧ナビゲート情報」の代表例として「しおり」を用いる構成について説明する。

ＭＦＰ１は、生成した電子化文書４００を自身の記憶部（図示しない）に格納したり、ネットワークを介してパーソナルコンピュータＰＣ１，ＰＣ２，ＰＣ３（以下、「パーソナルコンピュータＰＣ」とも総称する）や携帯端末ＭＴに送信したりする。代表的な使用形態として、ＭＦＰ１が設置されている同一のオフィス内に敷設されたネットワークであるＬＡＮ（Local Area Network）に接続されているパーソナルコンピュータＰＣ１，ＰＣ２に対しては、ＭＦＰ１から電子化文書４００が直接的に送信される。一方、ＬＡＮとＷＡＮ（Wide Area Network）との接続点には、サーバ装置ＳＲＶが設けてあり、ＭＦＰ１とは離れたオフィスにあるパーソナルコンピュータＰＣ３などに対しては、ＭＦＰ１からサーバ装置ＳＲＶを介して電子化文書４００が送信される。さらに、携帯端末ＭＴには、ＷＡＮおよび公衆携帯電話網や無線ＬＡＮなどの無線ネットワーク回線（図示しない）を介して、ＭＦＰ１から電子化文書４００が送信される。ここで、サーバ装置ＳＲＶは代表的に、メールサーバ、ＦＴＰ（File Transfer Protocol）サーバ、Ｗｅｂサーバ、ＳＭＢサーバなどからなる。

画像読取部１０４は、原稿をセットするための戴荷台と、原稿台ガラスと、戴荷台にセットされた原稿を原稿台ガラスに自動的に一枚ずつ搬送する搬送部と、読取られた原稿を排出するための排出台とを含む（いずれも図示しない）。これにより、複数枚の原稿を連続的に読取って、一つの電子化文書４００として生成することができる。

（ＭＦＰの概略構成）
図２を参照して、ＭＦＰ１は、制御部１００と、メモリ部１０２と、画像読取部１０４と、プリント部１０６と、通信インターフェイス部１０８と、データ格納部１１０とを含む。

制御部１００は、代表的にＣＰＵ（Central Processing Unit）などの演算装置から構成され、プログラムを実行することで本実施の形態に従う文書画像処理を実現する。メモリ部１０２は、代表的にＤＲＡＭ（Dynamic Random Access Memory）などの揮発性の記憶装置であり、制御部１００で実行されるプログラムやプログラムの実行に必要なデータなどを保持する。通信インターフェイス部１０８は、代表的に、ネットワーク（たとえば、図１に示すＬＡＮ）を介してパーソナルコンピュータＰＣ（図１）や携帯端末ＭＴとの間でデータを送受信するための部位であり、たとえば、ＬＡＮアダプタおよびそれを制御するドライバソフトなどを含む。プリント部１０６は、プリント処理を行なうための部位であり、プリント処理に係るハードウェア構成に加えて、各部の作動を制御するための制御装置をも含む。データ格納部１１０は、代表的にハードディスク装置やフラッシュメモリなどの不揮発性の記憶装置であり、制御部１００で生成された電子化文書４００などを格納する。

（パーソナルコンピュータの構成）
図３を参照して、パーソナルコンピュータＰＣは、オペレーティングシステム（ＯＳ：Operating System）を含む各種プログラムを実行するＣＰＵ（Central Processing Unit）２０１と、ＣＰＵ２０１でのプログラムの実行に必要なデータを一時的に記憶するメモリ部２１３と、ＣＰＵ２０１で実行されるプログラムを不揮発的に記憶するハードディスク部（ＨＤＤ：Hard Disk Drive）２１１とを含む。また、ハードディスク部２１１には、ＭＦＰ１で生成された電子化文書を表示するための閲覧アプリケーションが記憶されており、このようなプログラムは、入出力インターフェイス部２１７またはＣＤ−ＲＯＭドライブ２１５によって、それぞれメモリカード（たとえばＳＤカード）２１７ａまたはＣＤ−ＲＯＭ（Compact Disk-Read Only Memory）２１５ａなどから読取られる。

ＣＰＵ２０１は、キーボードやマウスなどからなる入力部２０９を介してユーザからの指示を受取るとともに、プログラムの実行によって生成される画面出力をディスプレイ部２０５へ出力する。また、ＣＰＵ２０１は、ＬＡＮカードなどからなる通信インターフェイス部２０７を介して、ＬＡＮやＷＡＮに接続されたＭＦＰ１やサーバ装置ＳＲＶ（図１）から電子化文書を取得し、ハードディスク部２１１などに格納する。また、上述の各部は、内部バス２０３を介して相互にデータを授受する。

なお、携帯端末ＭＴについては、図３においてＣＤ−ＲＯＭドライブ２１５などを取り除いたものとほぼ等価であるので、詳細な説明は繰返さない。

（ＭＦＰの機能的構成）
図４を参照して、ＭＦＰ１の機能構成としては、画像読取部１０４と、画像前処理部１２と、画像バッファ部１３と、圧縮処理部１４と、電子化文書生成部１５と、画像解析部１６と、しおりデータ生成部１７と、送信部１８と、画像処理部１９と、プリント部１０６とを含む。ＭＦＰ１の機能は、主としてＭＦＰ１の制御部１００やメモリ部１０２（図２）などによって実現される。

画像読取部１０４は、原稿３００を読取って文書画像を取得し、その文書画像を画像前処理部１２へ出力する。画像前処理部１２は、主としてパーソナルコンピュータＰＣなどでの表示に適するように、文書画像の表示特性などを調整する。さらに、画像前処理部１２が文書画像に含まれるノイズを除去してもよい。そして、画像前処理部１２で画像処理が施された文書画像は、画像バッファ部１３へ送られる。

画像バッファ部１３は、取得された文書画像のデータを一時的に格納する部位であり、一旦格納した文書画像を圧縮処理部１４、画像解析部１６および画像処理部１９へ出力する。

圧縮処理部１４は、画像バッファ部１３から出力される文書画像を圧縮処理して、電子化文書生成部１５へ出力する。この圧縮処理による圧縮度合いは、生成される電子化文書の大きさや、要求される文書画像の解像度などに応じて変化させてもよく、また圧縮処理はＪＰＥＧ（Joint Photographic Experts Group）などの非可逆変換であってもよい。なお、高解像度が要求される場合などには、圧縮処理を省略してもよい。

画像解析部１６は、画像バッファ部１３から出力される文書画像を解析し、見出し領域を抽出する。画像解析部１６は、その機能として、検出部１６１と、見出し抽出部１６２とを含む。

検出部１６１は、文書画像を複数の文字列要素領域に分割し、これら複数の文字列要素領域のうちから見出し候補を検出する。本実施の形態では、複数の文字列要素を小領域と大領域とに分類し、小領域を見出し候補、大領域を本文として検出する。たとえば、領域の大きさ（行数，面積，文字数など）と、特定の文字（見出しとして使われる頻度が小さい文字，ピリオド，句読点など）の有無とに基づいて、大領域と小領域とに分類される。

なお、本実施の形態において、「文字列要素領域」とは、前後余白や句読点により区分される一連の行領域を囲む領域であり、段落（本文）、見出し、ヘッダ・フッタの領域に対応する。文字列要素領域の設定方法の具体例は、後述する。

見出し抽出部１６２は、検出部１６１にて検出された見出し候補のうちから、見出し候補を抽出する。そのために、見出し抽出部１６２は、次のような処理を行なう。

見出し抽出部１６２は、検出された見出し候補のうち見出し抽出ルールを適用する範囲を（段階的に）設定する。設定された範囲内の見出し候補（小領域）を所定のスタイル種別による特徴量に基づいて、グループ化する。

「スタイル種別」とは、文字列のスタイル上の特徴を識別するための項目を表わし、インデント量，行高さ，文字色，背景色，領域の中央位置，行揃え，線幅の太さ，前後の文字列要素領域との距離，文字列修飾（下線，囲み），文字サイズ，文字間隔，フォント，文字修飾（太文字，斜体）などを含む。本実施の形態において、見出し候補のグループ化に用いるスタイル種別としては、論理要素の区別に有効なものを予め定めることが望ましい。具体的には、たとえば、スタイル種別として、「インデント量（左辺開始位置）」および「行高さ」が用いられる。これらのスタイル種別それぞれの特徴量（つまり、左辺開始位置の値および行高さの値）が類似している領域は、同一グループと設定する。たとえば、左辺開始位置および行高さの特徴量（値）の分布が所定範囲以内に収まる場合は同一グループとされる。

見出し抽出部１６２は、グループ毎にグループ特性を検出し、グループ特性の検出結果に所定の見出し抽出ルール（後述）を適用することにより、範囲を代表するグループ（以下「代表グループ」という）を選択（検出）する。代表グループは、設定された範囲のうち、最も見出しらしい特性（特徴）を有する見出し候補のグループを表わす。

「グループ特性」は、見出し／非見出しらしさを示す情報、すなわち、グループに属する見出し候補が、範囲を代表する見出しであるかの判定に有効な情報である。グループ特性は、グループ化に用いられた上記スタイル種別による特徴量すなわち、ｉ）「左辺開始位置」およびｉｉ）「行高さ」を含み、さらに、設定された範囲に依存した特徴として、設定された範囲内の見出し候補の上限位置、および、設定された範囲内の本文（大領域）との順序関係の少なくともいずれかを含む。具体的には、前者の特徴として、ｉｉｉ）「グループ内で最上流にある見出し候補の位置」が用いられる。後者の特徴として、ｉｖ）「範囲内において、全ての本文領域よりも上流に位置する見出し候補を含むか否か」、および、ｖ）「範囲内において、下流に本文が無い見出し候補を含むか否か」が用いられる。

見出し抽出部１６２は、グループ特性の検出結果に見出し抽出ルールを適用した場合に所定の基準を満たさない（たとえば所定のしきい値未満である）グループについては、代表グループから除外することが望ましい。このような処理を加えることで、見出の誤判定を避けることができる。

見出し抽出部１６２は、代表グループに含まれる見出し候補を見出し領域として判定する。また、代表グループから除外されたグループに属する見出し候補を、非見出し候補として判定してもよい。言い換えると、代表グループから除外されたグループのみが含まれる範囲内の見出し候補を非見出しとして判定してもよい。

見出し抽出部１６２は、代表グループに含まれる見出し候補の位置に基づいて、元の範囲を分割する。具体的には、代表グループに属する見出し候補の前もしくは後で、設定された範囲を分割する。また、分割後の範囲のうち、見出し／非見出しの判定が未済みである見出し候補が存在している範囲のみを、新たに設定された範囲とする。

見出し抽出部１６２は、分割後の範囲に対しても、上記と同様の処理を再度実行する。これにより、設定できる範囲がなくなるまで、見出し候補のグループ化から範囲の分割までの処理が繰返される。

このように、設定された範囲に依存したグループ特性の検出結果を利用して、見出しらしさが最も高い代表グループが選択される。したがって、複数レベルの見出しを含む多様な文書スタイルを持つ文書画像に対して、適切に見出し領域を抽出することが可能となる。

見出し抽出部１６２は、見出し領域と判定された見出し候補の情報（位置情報など）を、しおりデータ生成部１７に出力する。

しおりデータ生成部１７は、画像解析部１６から出力される見出し領域の情報に基づいて、しおりデータを生成する。なお、しおりデータ生成部１７は、見出し以外の特定の論理要素（たとえば、図、表、キャプションなど）についても、しおりデータに含めてもよい。しおりデータ生成部１７は、生成したしおりデータを電子化文書生成部１５へ出力する。

電子化文書生成部１５は、圧縮処理部１４で圧縮された文書画像に、しおりデータ生成部１７からのしおりデータを付加することで、電子化文書を生成する。そして、この生成された電子化文書は、ユーザによる設定などに応じて、データ格納部１１０へ格納され、もしくは送信部１８へ出力される。送信部１８は、通信インターフェイス部１０８によって実現され、ＬＡＮなどのネットワークを介してパーソナルコンピュータＰＣ（図１）などへ電子化文書生成部１５で生成された電子化文書を送信する。

一方、画像処理部１９は、ユーザ操作に応じて、画像バッファ部１３から出力される文書画像をプリント部１０６でのプリント動作に適した画像に変換する。代表的に、ＲＧＢ表示系で規定された文書画像をカラープリントに適したＣＭＹＫ表示系の画像データなどに変換する。このとき、プリント部１０６の特性に応じた色調整を行なってもよい。プリント部１０６は、画像処理部１９から出力される画像データに基づいて紙媒体などへの印刷処理を行なう。

なお、各機能ブロックの動作は、メモリ部１０２中に格納されたソフトウェアを実行することで実現されてもよいし、少なくとも１つについては、ハードウェアで実現されてもよい。

（電子化文書のデータ構造例）
図５を参照して、電子化文書４００は、ヘッダ部４０２と、文書画像部４０４と、しおりデータ部４０６と、フッタ部４０８とからなる。ヘッダ部４０２およびフッタ部４０８には、電子化文書４００の属性についての情報、たとえば作成日時・作成者・著作権情報などが格納される。文書画像部４０４には、各ページに対応する文書画像が格納される。なお、この文書画像は、上述したように圧縮された状態で格納されてもよい。しおりデータ部４０６には、文書画像に含まれる見出し領域すなわち、見出しと判定された文字列要素領域（小領域）を特定するためのしおりデータが格納される。

図６を参照して、しおりデータには、各見出し領域に対応付けて、ページ番号・領域左上座標・領域右下座標・要素種別などが格納される。ページ番号は、対応する見出し領域が存在するページを特定するための位置情報である。また、領域左上座標および領域右下座標は、対応する見出し領域のページ内での位置（矩形）を特定するための位置情報である。また、要素種別は、対応する見出し領域の種別を特定するための情報である。なお、しおりデータには、見出し以外の種別の文書要素（領域）の位置情報がさらに含まれてもよい。

＜動作について＞
ＭＦＰ１が実行する処理のうち、画像解析部１６が実行する処理（以下「画像解析処理」という）が最も特徴的な処理である。したがって、以下に、画像解析処理の詳細について説明する。

図７のフローチャートを参照して、本発明の実施の形態における画像解析処理について説明する。図７のフローチャートに示す処理は、予めプログラムとしてメモリ部１０２に格納されており、制御部１００がこのプログラムを読み出して実行することにより、画像解析処理の機能が実現される。

図７を参照して、画像解析部１６は、文書画像のデータを入力する（ステップＳ２）。入力した文書画像のデータは、ページ毎に内部メモリ上に記憶される。

次に、内部メモリ上の各ページのデータを読み出して、内容領域の判別を行なう（ステップＳ４）。内容領域とは、各ページの部分領域であり、各内容領域は一段分の文字を含む。

「内容領域」とはページ上の一つの段落に相当する領域であり、各ページに対して同じ
場所に設定する。内容領域は既存の様々の方法で求めることができる。

たとえば、ページの濃度画像に対して上下方向への射影ヒストグラムを作成し、濃度の累計が低い位置から内容領域の横方向の位置を得る。同様に左右方向への射影ヒストグラムを作成し内容領域の上下の開始終了位置を求める。

次に、画像解析部１６は、行領域の判別を行なう（ステップＳ６）。行領域は既存の様々の方法で求めることができる。たとえば、内容領域の濃度画像に対して左右方向への射影ヒストグラムを作成し、濃度の累計が低い位置から各行領域の上端下端の位置を得る。

続いて、画像解析部１６は、文字列要素領域の判別（文字列要素判別処理）を行なう（ステップＳ８）。文字列要素領域は、行領域を統合することで作成される。画像解析部１６は、各行領域の右余白の大きさ及び行末の文字種を使って統合を制御する。

図８のフローチャートを参照して、本発明の実施の形態における文字列要素判別処理について説明する。

図８を参照して、まず、初期状態の文字列要素領域を１つ生成する（ステップＳ１０２）。そして、読み順に従って未処理の行領域を一つ取得する（ステップＳ１０４）。具体的には、ページ番号が小さく左側にある内容領域において最も上側にある行領域を取得する。

ここで、ステップＳ１０４での行領域の取得に成功したか否かが判断される（ステップＳ１０６）。未処理の行領域がない場合は、所得に失敗したとして（ステップＳ１０６にてＮＯ）、ステップＳ１１４に進む。

これに対し、行領域の取得に成功した場合（ステップＳ１０６にてＹＥＳ）、取得した行領域を文字列要素領域に統合する（ステップＳ１０８）。

次に、画像解析部１６は、取得した行領域が最終行であるか否かを判断する（ステップＳ１１０）。具体的には、取得した行領域の右余白が所定値以上あるか、または、行末の文字種がピリオドであるかが判定される。右余白の所定値は、たとえば、行領域に含む文字の高さに設定される。取得した行領域が最終行であると判断された場合（ステップＳ１１０にてＹＥＳ）、ステップＳ１１２に進む。そうでない場合は（ステップＳ１１０にてＮＯ）、ＳＴＥＰ１０４に戻り、上記処理を繰返す。

ステップＳ１１２では、画像解析部１６は、文字列要素領域を完成させる。この処理が終わると、ステップＳ１１４に進む。

ステップＳ１１４では、全ての内容領域を処理済みかどうかを判断する。未処理の内容領域があれば（ステップＳ１１４にてＮＯ）、ステップＳ１０２に戻る。未処理の内容領域がなければ（ステップＳ１１４にてＹＥＳ）、文字列要素判別処理は終了する。

図９を参照して、文字列要素領域の例を説明する。
図９（Ａ）には、図７のステップＳ６で判別された行領域の一部が示されていると仮定する。図９（Ｂ）には、図９（Ａ）に示した行領域に対して行なわれた文字列要素領域の判別結果が示される。

行領域ＬＥ１，１１，１４，１５，２３，１１が、ステップＳ１１０において、右余白ありと判定される。したがって、行領域１，１５は、各々、単独で文字列要素領域ＣＥ１＃，４＃を構成する。また、行領域ＬＥ２〜１１，ＬＥ１２〜１４，ＬＥ１６〜２３は、それぞれ、上下方向に統合されて文字列要素領域ＣＥ２＃，３＃，５＃が生成される。

ただし、文字列要素領域に右余白がある場合は、右余白を除いた領域を文字列要素領域として設定されるものとする。

本実施の形態では、上記方法により文字列要素領域を設定することとしたが、限定的ではなく、公知の手法により設定されてもよい。

文字列要素領域が設定された後に画像解析部１６が実行する処理については、図１０に示すサンプル文書を例に説明する。

図１０は、背景文字が挿入されたサンプル文書３０を示す図である。図１０に示すサンプル文書３０は、画像読取部１０４によって取得された画像であり、画像バッファ部１３に格納されている。サンプル文書３０には、背景文字として“プロジェクトＡ”と“２００９年度活動”が繰り返し挿入されている。このような背景文字が挿入されることで、読み手が文書の一部だけを見た場合でも、文書の主題を確認することができる。

図１０のサンプル文書３０に対して設定された文字列要素領域の例を、図１１に示す。
図１１を参照して、サンプル文書３０に対して、文字列要素領域ＣＥ１〜ＣＥ２１が設定されている。図１２は、図１１の部分拡大図である。

図１１に示した文字列要素領域ＣＥ１〜ＣＥ２１を例に、以降の処理について説明する。

再び図７を参照して、文字列要素判別処理が終わると、画像解析部１６の検出部１６１は、文字列要素領域を大領域と小領域に分類する（ステップＳ１０）。具体的には、たとえば、各文書領域の面積、文書全体の平均文字高さ、文書全体の平均内容領域の幅を求める。文書領域の面積が文書全体の平均文字高さ×文書全体の平均内容領域の幅×２より大きければ、その文字列要素領域は大領域であると判断し、そうでなければ小領域と判断する。

または、各領域が所定値（例えば１行）より小さければ小領域と判定するようにしてもよい。同様に、各領域の文字数から判定することも可能である。

図１３は、サンプル文書３０の文字列要素領域ＣＥ１〜ＣＥ２１の分類結果を示す図である。図１３（Ａ）には、サンプル文書３０の文字列要素領域ＣＥ１〜ＣＥ２１が模式的に矩形として示されている。図１３（Ｂ）は、図１３（Ａ）に示した文字列要素領域ＣＥ１〜ＣＥ２１の分類結果を示している。

図１３（Ａ）および（Ｂ）を参照して、文字列要素領域ＣＥ５，ＣＥ１０，ＣＥ１６，ＣＥ１８，ＣＥ２１が、それぞれ、大領域ＢＥ１〜ＢＥ５と判定されている。それ以外の領域ＣＥ１〜ＣＥ４，ＣＥ６〜ＣＥ９，ＣＥ１１〜ＣＥ１５，ＣＥ１７，ＣＥ１９，ＣＥ２０が、それぞれ、小領域ＳＥ１〜ＳＥ１６と判定されている。

小領域ＳＥ〜ＳＥ１６が、見出し領域の候補（以下「見出し候補」という）として扱われる。大領域ＢＥ１〜ＢＥ５が、本文領域として扱われる。

次に、小領域である見出し候補ＳＥ１〜ＳＥ１６から見出し領域を抽出する処理（見出し抽出処理）が実行される（ステップＳ１２）。

図１４は、本実施の形態における見出し抽出処理を示すフローチャートである。
図１４を参照して、見出し抽出部１６２は、はじめに、文書全体を処理対象の範囲に設定する（ステップＳ１０２）。具体的には、文書画像中の全ての文字列要素領域ＣＥ１〜ＣＥ２１（つまり、見出し候補ＳＥ１〜ＳＥ１６および本文領域ＢＥ１〜ＢＥ５）を含む範囲が、処理対象とされる。

見出し抽出部１６２は、設定された範囲内の見出し候補ＳＥ１〜ＳＥ１６について、所定のスタイル種別についての特徴量が類似した見出し候補をグループ化する（ステップＳ１０４）。つまり、左辺開始位置および行高さの双方が同一または所定範囲内の見出し候補を同一グループと設定する。

図１５は、サンプル文書３０全体を範囲Ｒ１とし、範囲Ｒ１内の見出し候補ＳＥ１〜ＳＥ１６をグループ化した結果を示す図である。図１５（Ａ）には、全ての文字列要素領域すなわち、見出し候補ＳＥ１〜ＳＥ１６および本文領域ＢＥ１〜ＢＥ５を含む範囲Ｒ１が、処理対象の範囲として設定された例が示されている。図１５（Ｂ）には、図１５（Ａ）に示した範囲Ｒ１に対して、見出し候補（小領域）ＳＥ１〜ＳＥ１６がグループ化された結果が示されている。

図１５（Ｂ）を参照して、見出し候補ＳＥ１，ＳＥ２，ＳＥ５，ＳＥ６，ＳＥ９，ＳＥ１０，ＳＥ１２，ＳＥ１３，ＳＥ１５，ＳＥ１６が、“グループ１”である。見出し候補ＳＥ３が、“グループ２”である。見出し候補ＳＥ４，ＳＥ７，ＳＥ１４が、“グループ３”である。見出し候補ＳＥ８，ＳＥ１１が、“グループ４”である。

見出し抽出部１６２は、グループごとに、グループ特性を検出する（ステップＳ１０６）。本実施の形態では、グループごとに、ｉ）「左辺開始位置」、ｉｉ）「行高さ」、ｉｉｉ）「グループ内で最上流にある見出し候補の位置」が用いられる。後者の特徴として、ｉｖ）「範囲内において、全ての本文領域よりも上流に位置する見出し候補を含むか否か」、および、ｖ）「範囲内において、下流に本文が無い見出し候補を含むか否か」を検出する。

これらグループ特性が検出されると、見出し抽出部１６２は、検出結果を所定の見出し抽出ルールに従って比較することで、範囲を代表するグループを選択する（ステップＳ１０８）。選択されたグループに含まれる見出し候補は、見出し領域として確定される。

見出し抽出ルールは、ｉ）〜ｖ）のグループ特性の検出結果が、見出しである確からしさを示しているかを判定する。ここでは、各検出結果に対して、予めポイントを加算／減算するルールを定めておく。見出し抽出部１６２は、ポイントの総計が最大であるグループを、範囲を代表するグループ（代表グループ）と判定する。ここで、ｉ）〜ｖ）のグループ特性ごとに用いる条件と加点・減点を行なうポイントとを示す。

ｉ）「左開始位置」が最も左側にある（インデント量が小さい）グループ：＋１点
ｉｉ）「行高さ」が最も大きいグループ：＋１点
ｉｉｉ）最上流の見出し候補の位置が、範囲内で最も上にあるグループ：＋１点
ｉｖ）範囲内において全ての本文より上流にある見出し候補を含むグループ：＋５点
ｖ）範囲内において、下流に本文が無い見出し候補を含むグループ：−１０点
なお、上述のグループ特性ごとの加算／減算点の重みは、上記に限定されない。

図１６は、範囲Ｒ１内のグループ１〜４に対する見出し判定の結果を示す表である。図１６に示すような情報が、見出し抽出処理において、たとえばメモリ部１０２の作業領域に一時的に記録される。

図１６の表は、列方向に、グループ１〜４が記述されている。行方向には、７つの項目すなわち、見出し数、ｉ）左開始位置、ｉｉ）行高さ、ｉｉｉ）最上流位置、ｉｖ）全ての本文より上流にある候補領域（見出し候補）を含むか否か、ｖ）下流に本文が無い候補領域（見出し候補）を含むか否か、総ポイントが記述されている。

見出し数の項目には、グループごとに含まれる見出し候補の数が記録されている。
ｉ）左開始位置の項目からｖ）下流に本文が無い候補領域（見出し候補）を含むか否かの項目までの欄において、その上段には、それぞれの検出結果が記録されている。これらの項目の下段には、上記条件（抽出ルール）を適用した結果のポイント数が記録されている。

総ポイントの項目には、グループごとに、ポイント数の総計が記録されている。
見出し抽出部１６２は、範囲内に代表グループが存在するか否かを判定する（ステップＳ１１０）。具体的には、範囲内にポイントの総計が、所定のしきい値（たとえば５点）以上のグループが存在しなければ、範囲内に代表グループが存在しないと判定する。言い換えると、範囲内でポイントの総計が最大であるグループのポイント総計が、しきい値未満であれば、そのグループは、代表グループから除外される。これによりその範囲に代表グループは存在しないと判定される。

範囲内に代表グループが存在すれば（ステップＳ１１０にてＹＥＳ）、つまり、ポイントの総計が５点以上のグループが存在すれば、代表グループに属する見出し候補を見出し領域と判定する（ステップＳ１１２）。範囲Ｒ１内においては、グループ２の総ポイントが７点である。したがって、グループ２が、代表グループと判定され、グループ２内の見出し候補が見出し領域と判定される。

一方、範囲内に代表グループが存在しないと判断された場合（ステップＳ１１０にてＮＯ）、つまり、ポイントの総計が５点以上のグループが存在しない場合、範囲内に見出しらしい見出し候補のグループは存在しないと判断し、ステップＳ１１８に進む。

ステップＳ１１８では、未処理の範囲が存在するか否かが判定される。未処理の範囲がある場合は（ステップＳ１１８でＹＥＳ）、見出し抽出部１６２は、未処理の範囲を処理対象の範囲に設定する（ステップＳ１２０）。未処理の範囲がない場合は（ステップＳ１１８でＮＯ）、見出し抽出処理を終了する。

このように、総ポイントにしきい値を設けることで、見出しらしい見出し候補のグループが存在しないであろうと推定される範囲については、見出し判定から除外する。これにより、見出し抽出処理の時間を短縮することができる。

ステップＳ１１２の後、見出し抽出部１６２は、見出し領域の位置情報をしおりデータ生成部１７へ出力する（ステップＳ１１４）。

続いて、元の範囲Ｒ１を、代表グループに属する見出し領域の位置から範囲を分割する（ステップＳ１１６）。分割後の範囲が、未処理の範囲として新たに設定される。設定された未処理の範囲のうちの一つ（たとえば、上流に位置する範囲）が、処理対象の範囲として設定される。本実施の形態では、代表グループに属する見出し領域の上辺と下辺との間を除くことで、元の範囲Ｒ１が分割される。

範囲が分割されると、ステップＳ１０４に戻り、処理対象の範囲に対して上記処理を繰返す。

したがって、図１５（Ａ）に示した範囲Ｒ１の分割後の２つの範囲に対しても、再度ステップＳ１０４〜Ｓ１１６の処理が実行される。

図１７は、図１５（Ａ）に示した範囲Ｒ１の分割後の２つの範囲Ｒ１１，Ｒ１２それぞれにおける見出し候補ＳＥ１〜ＳＥ２，ＳＥ４〜ＳＥ１６をグループ化（ステップＳ１０４）した結果を示す図である。図１７（Ａ）には、前回の範囲Ｒ１における代表グループ（グループ２）に属する見出し（小領域ＳＥ３）の位置を基準として、２つの範囲Ｒ１１，Ｒ１２が設定された例が示されている。図１７（Ｂ）には、図１７（Ａ）に示した範囲Ｒ１１，Ｒ１２それぞれに対して、見出し候補（小領域）がグループ化された結果が示されている。

範囲Ｒ１１において、見出し候補ＳＥ１，ＳＥ２が、“グループ１＿１”である。範囲Ｒ１２において、見出し候補ＳＥ５，ＳＥ６，ＳＥ９，ＳＥ１０，ＳＥ１２，ＳＥ１３，ＳＥ１５，ＳＥ１６が、“グループ１＿２”である。範囲Ｒ１２におけるグループ３およびグループ４は、範囲Ｒ１のときと同じである。

範囲Ｒ１１，Ｒ１２内のグループに対する見出し判定の結果を、図１８に示す。
図１８（Ａ）は、範囲Ｒ１１内のグループ１＿１に対する見出し判定の結果を示す表である。図１７（Ｂ）および図１８（Ａ）を参照して、範囲Ｒ１１内には、グループ１＿１しか含まれず、範囲Ｒ１１内に本文領域が存在しない。そのため、このような範囲Ｒ１１内のグループ１＿１に対しては、見出し抽出ルールを適用することなく見出し判定を終了することとしてもよい。

図１８（Ｂ）は、範囲Ｒ１２内のグループ１＿２，グループ３，グループ４に対する見出し判定の結果を示す表である。範囲Ｒ１２では、グループ３が、総ポイントが最も高く、かつ、しきい値（５点）以上である。したがって、範囲Ｒ１２における代表グループは、グループ３と選択される（ステップＳ１０８，ステップＳ１１０でＹＥＳ）。これにより、グループ３に属する見出し候補ＳＥ４，ＳＥ７，ＳＥ１４は、見出し領域と判定され、当該領域ＳＥ４，ＳＥ７，ＳＥ１４の位置情報がしおりデータ生成部１７に出力される（ステップＳ１１２，Ｓ１１４）。

図１９は、元の範囲Ｒ１２が、範囲Ｒ１２における代表グループ（グループ３）に属する見出し（領域ＳＥ４，ＳＥ７，ＳＥ１４）の位置を基準として、３つの範囲Ｒ２１，Ｒ２２，Ｒ２３に分割された例を示す図である。

範囲Ｒ２１，Ｒ２２，Ｒ２３ごとに、再度、見出し候補のグループ化が行なわれる（ステップＳ１０４）。範囲Ｒ２１において、見出し候補ＳＥ５，ＳＥ６が“グループ１＿２＿１”である。範囲Ｒ２２において、見出し候補ＳＥ９，ＳＥ１０，ＳＥ１２，ＳＥ１３が“グループ１＿２＿２”である。範囲Ｒ２２におけるグループ４は、範囲Ｒ１のときと同じである。範囲Ｒ２３において、見出し候補ＳＥ１５，ＳＥ１６が“グループ１＿２＿３”である。

範囲Ｒ２１，Ｒ２２，Ｒ２３内のグループに対する見出し判定の結果を、図２０に示す。

図２０（Ａ）は、範囲Ｒ２１内のグループ１＿２＿１に対する見出し判定の結果を示す表である。図２０（Ｂ）は、範囲Ｒ２２内のグループ１＿２＿２，グループ４に対する見出し判定の結果を示す表である。図２０（Ｃ）は、範囲Ｒ２３内のグループ１＿２＿３に対する見出し判定の結果を示す表である。

図２０（Ａ）を参照して、範囲Ｒ２１には、本文領域ＢＥ１が存在するが、本文領域ＢＥ１は、範囲Ｒ２１の最上流に位置しているため、グループ１＿２＿１の総ポイントは、−７点と低い値となる。このように、グループ１＿２＿１の総ポイントはしきい値（５点）未満であるので、範囲Ｒ２１に代表グループは存在しないと判断される（ステップＳ１１０にてＮＯ）。その結果、グループ１＿２＿１は、見出し候補から除外される。

図２０（Ｂ）を参照して、範囲Ｒ２２では、グループ４が、総ポイントが最も高く、かつ、５点以上である。したがって、範囲Ｒ２２における代表グループは、グループ４と選択される（ステップＳ１０８，ステップＳ１１０でＹＥＳ）。これにより、グループ４に属する見出し候補ＳＥ８，ＳＥ１１は、見出し領域と判定され、当該領域ＳＥ８，ＳＥ１１の位置情報がしおりデータ生成部１７に出力される（ステップＳ１１２，ステップＳ１１４）。

図２０（Ｃ）を参照して、範囲Ｒ２３内のグループ１＿２＿３の総ポイントは、３点であり、しきい値（５点）未満である。したがって、範囲Ｒ２３に代表グループは存在しないと判断される（ステップＳ１１０にてＮＯ）。その結果、グループ１＿２＿３は、見出し候補から除外される。

図２１は、代表グループが存在した元の範囲Ｒ２２が、範囲Ｒ２２における代表グループ（グループ４）に属する見出し（領域ＳＥ８，ＳＥ１１）の位置を基準として、２つの範囲Ｒ３１，Ｒ３２に分割された例を示す図である。

範囲Ｒ３１，Ｒ３２ごとに、再度、見出し候補のグループ化が行なわれる（ステップＳ１０４）。範囲Ｒ３１において、見出し候補ＳＥ９，ＳＥ１０が“グループ１＿２＿３＿１”である。範囲Ｒ３２において、見出し候補ＳＥ１２，ＳＥ１３が“グループ１＿２＿３＿２”である。

範囲Ｒ３１，Ｒ３２内のグループに対する見出し判定の結果を、図２２に示す。
図２２（Ａ）は、範囲Ｒ３１内のグループ１＿２＿３＿１に対する見出し判定の結果を示す表である。図２２（Ｂ）は、範囲Ｒ３２内のグループ１＿２＿３＿２に対する見出し判定の結果を示す表である。

図２２（Ａ）を参照して、範囲Ｒ３１には、本文領域ＢＥ２が存在するが、本文領域ＢＥ２は、範囲Ｒ３１の最上流に位置しているため、グループ１＿２＿３＿１の総ポイントは、−７点と低い値となる。このように、グループ１＿２＿３＿１の総ポイントはしきい値（５点）未満であるので、範囲Ｒ３１に代表グループは存在しないと判断される（ステップＳ１１０にてＮＯ）。その結果、グループ１＿２＿３＿１は、見出し候補から除外される。

図２２（Ｂ）を参照して、範囲Ｒ３２内のグループ１＿２＿３＿２の総ポイントは、８点であり、５点以上である。したがって、グループ１＿２＿３＿２は、範囲Ｒ３２の代表グループと決定される（ステップＳ１０８，ステップＳ１１０でＹＥＳ）。これにより、グループ１＿２＿３＿２に属する見出し候補ＳＥ１２，ＳＥ１３は、見出し領域と判定され、当該領域ＳＥ１２，ＳＥ１３の位置情報がしおりデータ生成部１７に出力される（ステップＳ１１２，Ｓ１１４）。

グループ１＿２＿３＿２に属する見出しの位置から新たな範囲を設定するが、範囲内に見出し候補を含まないため無効とする。

図１０に示したサンプル文書３０に対して設定された見出し領域を、図２３，図２４に示す。

図２３を参照して、図１３（Ｂ）に示した小領域（見出し候補）ＳＥ１〜ＳＥ１４のうち、グレー以外の領域ＳＥ３，ＳＥ４，ＳＥ７，ＳＥ８，ＳＥ１１〜ＳＥ１４が見出し領域と判定されている。これらの領域は、上記処理の結果、見出しのグループ（代表グループ）として抽出されたグループ２，グループ３，グループ４，グループ１＿２＿３＿２に属する領域である。

グレーで示された小領域ＳＥ１，ＳＥ２，ＳＥ５，ＳＥ６，ＳＥ９，ＳＥ１０，ＳＥ１５，ＳＥ１６は、上記処理の結果、見出しから除外されたグループ１＿１，グループ１＿２＿１，グループ１＿２＿３，グループ１＿２＿３＿１に属する領域である。

図２４を参照すると、非見出しとして判定された見出し候補ＳＥ１，ＳＥ２，ＳＥ５，ＳＥ６，ＳＥ９，ＳＥ１０，ＳＥ１５，ＳＥ１６は、背景文字の領域に対応していることが分かる。

以上のように、本実施の形態によると、背景文字が繰り返し挿入されたような文書に対しても、段階的な範囲の絞り込みと、算出が容易な少数のスタイル種別（左開始位置および行高さ）による特徴量の使用とによって、適切に見出しを抽出することが可能となる。

＜比較例＞
図１０に示したサンプル文書３０に対して、範囲の絞り込みを行なわず文書全体を１つの範囲とした場合の見出し判定を、本実施の形態の比較例として説明する。

比較例においても、図１３（Ｂ）に示したような見出し候補の文字列要素領域（小領域）ＳＥ１−ＳＥ１６が検出されていると仮定する。

図２５は、本発明の実施の形態における見出し抽出処理の比較例を説明するための図である。

図２５には、各見出し候補ＳＥ１−ＳＥ１６について、上記スタイル種別「左開始位置」および「行高さ」それぞれの特徴量が示されている。

従来のグループ分けでは、左開始位置および行高さが類似した見出し候補を同じグループに分けるルールが、全ての見出し候補ＳＥ１−ＳＥ１６に対して用いられる。これによるグループ分けの結果が、図２５の右側の列に示されている。なお、比較例におけるグループ分けの結果は、本実施の形態にける範囲Ｒ１でのグループ分けの結果と等しい。

比較例では、グループ１には、背景文字と見出しが混在している。そのため、この状態のままでは見出しを適切に抽出できない。引き続いて、グループを選択するルールを適用しても、見出し候補ＳＥ１２，ＳＥ１３を見出しとしない判定抜け、または背景文字を見出しとする誤判定が生じる。

見出し候補ＳＥ１２，１３と背景文字とを区別できるようなスタイル種別による特徴量を追加することも考えられるが、有効なスタイル種別の選定は文書タイプに依存し容易ではない。また、判定に用いるスタイル種別の追加に伴い、新たな処理の追加が必要であり、コスト増加や処理時間の増加が生じる。

これに対し、本実施の形態では、見出し抽出ルールを適用する範囲を適切に設定し、範囲内でのグループ特性を用いて見出しを抽出するため、ＭＦＰ１によれば、レベルが異なる複数の見出しにも対応可能である。

＜変形例＞
見出し抽出処理において行なわれた範囲設定の細分化のレベルに応じて、見出し領域を階層分けすることもできる。このことについて、上記サンプル文書３０を例に説明する。サンプル文書３０に対して、はじめに設定された範囲Ｒ１をレベル１、範囲Ｒ１より分割された範囲Ｒ１１，Ｒ１２をレベル２、範囲Ｒ１２より分割された範囲Ｒ２１，Ｒ２２，Ｒ２３をレベル３、範囲Ｒ２２より分割された範囲Ｒ３１，Ｒ３２をレベル４とする。そうすると、レベル１の見出し領域（つまり、範囲Ｒ１から抽出された見出し領域）が最上位の階層、レベル２の見出し領域（つまり、範囲Ｒ１２から抽出された見出し領域）が、レベル１の見出し領域の次の階層といったように、見出し領域を階層分けすることができる。つまり、範囲の分割（絞り込み）により、見出し領域の親子関係を検出することができる。

このように見出し領域を階層分けする場合、各見出し領域の階層を示すデータもしおりデータ生成部１７に出力してよい。しおりデータ生成部１７は、見出し領域ごとの階層データに基づいて、ＰＤＦへ付与するしおりを階層化してもよい。

また、しおりデータ生成部１７は、ユーザにより選択された階層の見出し領域（たとえば、階層１〜３の見出し領域）のみをしおりとしてＰＤＦへ付与することとしてもよい。または、ユーザが見出し抽出処理の前に、見出し抽出の階層数を指定しておくと、ユーザが指定した階層レベルで見出し抽出を終了してもよい。このように、見出しの階層ごとに利用形態を変更することで、しおり作成の利便性が向上する。

また、上記実施の形態では、グループ化に用いるスタイル種別として左辺開始位置および行高さを用いたが、レイアウト上有意な他のスタイル種別を用いてもよい。例えば、文字色，背景色，領域の中央位置，領域の行揃えの違い（左寄せ、右寄せ、中央揃えを判定して別グループにする）、線幅の太さ，上下の領域との間隔などを用いてもよい。また、これらのスタイル種別のうち、グループ化に用いるものを、ユーザに選択させてもよい。ユーザは、処理対象の文書中の、見出しとそれ以外（背景文字など）との特徴（属性）の違いに着目して、グループ化に適切なスタイル種別を選択することができる。このようにすることで、より多様なスタイルの文書に対応可能になる。

また、上記実施の形態では、グループを評価するルールに用いるグループ特性として、設定された範囲に依存する他の特徴（項目）を用いてもよい。

たとえば、グループ内の見出し候補領域の個数の少なさ（個数が少ない方がポイントが高い）、グループ内の見出し候補領域の最上流と最下流の間の読み順に沿った距離の大きさ（距離が大きい方がポイントが高い）などがある。このように、設定された範囲に依存する項目をさらに用いることで、より多様なスタイルの文書に対応することができる。その結果、見出し抽出の精度をさらに向上させることができる。

また、上記実施の形態では、文書の内容が上から下へ進むことを想定した。他段組など、内容の進行方向が上下する文書の場合には、内容の進行方向に沿って上流であるか下流かを判断することで、このような文書にも対応可能である。

また、本実施の形態の文書画像処理装置が行なう、文書処理方法を、プログラムとして提供することもできる。このようなプログラムは、ＣＤ−ＲＯＭ（Compact Disc-ROM）などの光学媒体や、メモリカードなどのコンピュータ読取り可能な記録媒体にて記録させて、プログラム製品として提供することもできる。また、ネットワークを介したダウンロードによって、プログラムを提供することもできる。

なお、本実施の形態に係るプログラムは、コンピュータのオペレーティングシステム（ＯＳ）の一部として提供されるプログラムモジュールのうち、必要なモジュールを所定の配列で所定のタイミングで呼出して処理を実行させるものであってもよい。その場合、プログラム自体には上記モジュールが含まれずＯＳと協働して処理が実行される。このようなモジュールを含まないプログラムも、本実施の形態に係るプログラムに含まれ得る。

また、本実施の形態に係るプログラムは他のプログラムの一部に組込まれて提供されるものであってもよい。その場合にも、プログラム自体には上記他のプログラムに含まれるモジュールが含まれず、他のプログラムと協働して処理が実行される。このような他のプログラムに組込まれたプログラムも、本実施の形態に係るプログラムに含まれ得る。

提供されるプログラム製品は、ハードディスクなどのプログラム格納部にインストールされて実行される。なお、プログラム製品は、プログラム自体と、プログラムが記憶された記憶媒体とを含む。

今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

１ＭＦＰ、１２画像前処理部、１３画像バッファ部、１４圧縮処理部、１５電子化文書生成部、１６画像解析部、１７データ生成部、１８送信部、１９画像処理部、１００制御部、１０２メモリ部、１０４画像読取部、１０６プリント部、１０８通信インターフェイス部、１１０データ格納部、１６１検出部、１６２見出し抽出部、２０１ＣＰＵ、２０３内部バス、２０５ディスプレイ部、２０７通信インターフェイス部、２０９入力部、２１１ハードディスク部、２１３メモリ部、２１５ＣＤ−ＲＯＭドライブ、２１７入出力インターフェイス部、２１７ａメモリカード、ＭＴ携帯端末、ＰＣ，ＰＣ１，ＰＣ２，ＰＣ３パーソナルコンピュータ、ＳＲＶサーバ装置。

Claims

文書画像から、見出し領域を抽出するための文書画像処理装置であって、
前記文書画像を記憶するための記憶手段と、
前記文書画像における複数の文字列要素領域のうち前記見出し領域の候補の領域を、見出し候補として検出するための検出手段と、
検出された前記見出し候補のうちから、前記見出し領域を抽出する処理を行なうための抽出手段とを備え、
前記抽出手段は、
前記複数の文字列要素領域を含む範囲を処理対象の範囲に設定するための設定手段と、
設定された範囲内の見出し候補を、所定のスタイル種別による特徴量に基づいてグループ化するためのグループ化手段と、
グループごとにグループ特性を検出し、前記グループ特性の検出結果に所定の抽出ルールを適用することで、前記設定された範囲から、範囲を代表する代表グループを選択するための選択手段と、
前記設定された範囲内の見出し候補のうち、前記代表グループに属する見出し候補を前記見出し領域の一部として判定するための判定手段と、
前記代表グループに属する見出し候補の位置に基づいて、前記設定された範囲を分割するための分割手段とを含み、
前記抽出手段は、分割後の範囲を新たに設定された範囲として、前記グループ化手段、前記選択手段および前記判定手段の処理を再実行する、文書画像処理装置。
前記グループ特性は、前記設定された範囲に依存した特徴を含む、請求項１に記載の文書画像処理装置。
前記依存した特徴は、前記設定された範囲内の見出し候補の上限位置、および、前記設定された範囲内の本文領域との順序関係の少なくともいずれかを含む、請求項２に記載の文書画像処理装置。
前記分割手段は、前記代表グループに属する見出し候補の前もしくは後で、前記設定された範囲を分割する、請求項２または３に記載の文書画像処理装置。
前記選択手段は、さらに、前記グループ特性の検出結果に前記抽出ルールを適用した場合に所定の基準を満たさないグループについては、前記代表グループから除外する、請求項４に記載の文書画像処理装置。
前記判定手段は、さらに、前記代表グループから除外されたグループのみが含まれる範囲内の見出し候補を、非見出しとして判定する、請求項５に記載の文書画像処理装置。
前記分割手段は、分割後の範囲のうち、前記判定手段による判定が未済みである見出し候補が存在している範囲を、前記新たに設定された範囲とする、請求項６に記載の文書画像処理装置。
前記選択手段は、前記グループ特性として、グループごとの前記スタイル種別による特徴量をさらに用いる、請求項２〜７のいずれかに記載の文書画像処理装置。
前記検出手段は、前記複数の文字列要素領域を小領域と大領域とに分類し、前記小領域を前記見出し候補として検出し、前記大領域を前記本文領域として検出する、請求項３に記載の文書画像処理装置。
前記抽出手段は、範囲の分割のレベルに応じて、前記見出し領域を階層化する、請求項１〜９のいずれかに記載の文書画像処理装置。
文書画像を記憶する記憶部を備えた文書画像処理装置によって実行される、前記記憶部に記憶された前記文書画像から見出し領域を抽出するための方法であって、
前記文書画像における複数の文字列要素領域のうち前記見出し領域の候補の領域を、見出し候補として検出するステップと、
前記複数の文字列要素領域を含む範囲を処理対象の範囲に設定するステップと、
設定された範囲内の見出し候補を、所定のスタイル種別による特徴量に基づいてグループ化するステップと、
グループごとにグループ特性を検出し、前記グループ特性の検出結果に所定の抽出ルールを適用することで、前記設定された範囲から、範囲を代表する代表グループを選択するステップと、
前記設定された範囲内の見出し候補のうち、前記代表グループに属する見出し候補を前記見出し領域の一部として判定するステップと、
前記代表グループに属する見出し候補の位置に基づいて、前記設定された範囲を分割するステップと、
分割後の範囲を新たに設定された範囲として、前記グループ化するステップ、前記選択するステップおよび前記判定するステップの処理を再実行するステップとを備える、文書画像処理方法。
文書画像から見出し領域を抽出するためのプログラムであって、
前記文書画像における複数の文字列要素領域のうち前記見出し領域の候補の領域を、見出し候補として検出するステップと、
前記複数の文字列要素領域を含む範囲を処理対象の範囲に設定するステップと、
設定された範囲内の見出し候補を、所定のスタイル種別による特徴量に基づいてグループ化するステップと、
グループごとにグループ特性を検出し、前記グループ特性の検出結果に所定の抽出ルールを適用することで、前記設定された範囲から、範囲を代表する代表グループを選択するステップと、
前記設定された範囲内の見出し候補のうち、前記代表グループに属する見出し候補を前記見出し領域の一部として判定するステップと、
前記代表グループに属する見出し候補の位置に基づいて、前記設定された範囲を分割するステップと、
分割後の範囲を新たに設定された範囲として、前記グループ化するステップ、前記選択するステップおよび前記判定するステップの処理を再実行するステップとをコンピュータに実行させる、文書画像処理プログラム。