JP5412916B2

JP5412916B2 - 文書画像処理装置、文書画像処理方法および文書画像処理プログラム

Info

Publication number: JP5412916B2
Application number: JP2009080167A
Authority: JP
Inventors: 由夫小巻
Original assignee: Konica Minolta Inc
Current assignee: Konica Minolta Inc
Priority date: 2009-03-27
Filing date: 2009-03-27
Publication date: 2014-02-12
Anticipated expiration: 2029-03-27
Also published as: US20100245875A1; JP2010231637A; US8611666B2

Description

本発明は、文書画像処理装置、文書画像処理方法および文書画像処理プログラムに関し、特に、文書画像から見出し領域を抽出することのできる文書画像処理装置、文書画像処理方法および文書画像処理プログラムに関する。

従来、特定のフォーマットに限定されずに見出し部分の抽出を行なうものがあった。例えば特許文献１では文字サイズにより文字ブロックを見出しと本文に分類し、分類した見出しと本文を関連づける実施例が開示されている。

特開２０００−２５１０６７号公報

しかしながら、文字サイズが本文と見出しで明確な違いが無い文書も多数存在し、これらの文書に対して文字サイズで見出しと本文の分類をすることはできない。文字サイズの代わりに文字色，背景色，字下げなどの他の種別を用いる場合にも、それぞれの文書は限定される。

また、属性に統一性のない見出しが連続して配置された文書も多く存在する。従来技術では、このような文書に対して、ユーザの手間無く適切に見出し領域を抽出することはできない。

本発明は、上記のような問題を解決するためになされたものであって、その目的は、見出しが連続して配置された文書画像から、ユーザの手間無く自動的に見出し領域を抽出することのできる文書画像処理装置、文書画像処理方法および文書画像処理プログラムを提供することである。

この発明のある局面に従う文書画像処理装置は、文書画像から、見出し領域を抽出するための文書画像処理装置であって、文書画像を構成する複数の文字列要素領域を小領域と大領域とに分類するための分類手段と、読み順が大領域の直前に位置する小領域を第１の候補として判定するための第１の候補判定手段と、第１の候補ごとに、当該第１の候補である小領域の直後に位置する大領域の特徴との差異に基づいて各第１の候補が見出しであるか否かの評価処理を行なうことにより、第１の候補の少なくとも一部を第１の見出しと判定するための第１の評価処理手段と、読み順が第１の見出しの直前に位置する小領域を第２の候補として判定するための第２の候補判定手段と、第２の候補ごとに、当該第２の候補である小領域の直後に位置する第１の見出しの特徴との差異に基づいて各第２の候補が見出しであるか否かの評価処理を行なうことにより、第２の候補の少なくとも一部を第２の見出しと判定するための第２の評価処理手段と、第１の見出しおよび第２の見出しと判定された小領域を、見出し領域として抽出するための抽出手段とを備える。

好ましくは、第１の評価処理手段は、第１の候補ごとに、複数のスタイル種別のうち、第１の候補である小領域の直後に位置する大領域と特徴が異なるスタイル種別について、第１の候補の特徴を含み、かつ、第１の候補である小領域の直後に位置する大領域の特徴を含まない第１の特徴区分を設定するための第１の設定手段と、設定された第１の特徴区分に含まれる特徴を有する、第１の候補である小領域の直後に位置する大領域および第１の候補の少なくとも一方をグループ化するための第１のグループ化手段と、第１の候補ごとに、第１のグループ化手段によりグループ化された各領域群の大きさに基づいて、第１の見出し評価度を算出するための第１の算出手段と、算出された第１の見出し評価度に基づいて、各第１の候補の論理要素が見出しであるか否かを判定するため第１の見出し判定手段とを含み、第２の評価処理手段は、第２の候補ごとに、複数のスタイル種別のうち、第２の候補である小領域の直後に位置する第１の見出しと特徴が異なるスタイル種別について、第２の候補の特徴を含み、かつ、第２の候補である小領域の直後に位置する第１の見出しの特徴を含まない第２の特徴区分を設定するため第２の設定手段と、設定された第２の特徴区分に含まれる特徴を有する、第２の候補である小領域の直後に位置する第１の見出しおよび第２の候補の少なくとも一方をグループ化するための第２のグループ化手段と、第２の候補ごとに、第２のグループ化手段によりグループ化された各領域群の大きさに基づいて、第２の見出し評価度を算出するための第２の算出手段と、算出された第２の見出し評価度に基づいて、各第２の候補の論理要素が見出しであるか否かを判定するため第２の見出し判定手段とを含む。

好ましくは、第２のグループ化手段は、第２の候補ごとに、第２の特徴区分に含まれる特徴を有する、第２の候補である小領域の直後に位置する第１の見出しおよび第２の候補の両方をグループ化し、第２の算出手段は、第１の見出し群および第２の候補群の大きさから、第２の見出し評価度を算出する。

好ましくは、第２のグループ化手段は、さらに、第２の候補ごとに、第２の特徴区分に含まれない特徴を有する、第２の候補である小領域の直後に位置する第１の見出しおよび第２の候補の少なくとも一方をグループ化し、第２の算出手段は、さらに、第２の特徴区分に含まれない各領域群の大きさを、第２の見出し評価度の算出に用いる。

好ましくは、第２の設定手段は、さらに、第２の候補ごとの第２の見出し評価度の値に差異がなければ、第２の特徴区分を変更する。

好ましくは、複数のスタイル種別は、インデント量、行揃え、前後の文字列要素領域との距離、文字列修飾、先頭文字種、終端文字種、言語種別、文字サイズ、行高さ、文字間隔、フォント、文字修飾、文字色、背景色のうちのいずれかを含む。

好ましくは、第２の候補の特徴は、スタイル種別の特徴量であり、第２のグループ化手段は、第２の候補の特徴値の前後所定範囲を第２の特徴区分として設定する。

好ましくは、第２の候補の特徴は、スタイル種別の特徴量であり、第２のグループ化手段は、第２の候補の特徴値と第２の候補である小領域の直後に位置する第１の見出しの特徴値との間を区切り点とし、区切り点よりも第２の候補の特徴値側の特徴を含むように第２の特徴区分を設定する。

好ましくは、第２の見出しと判定された小領域および他の小領域の特徴を比較し、他の小領域のうち判定された小領域と類似した特徴を有する小領域を、新たな第２の見出しとして判定するための手段をさらに備える。

好ましくは、第２の見出しが抽出された場合に、第２の見出しを第１の見出しに置き換えて、第２の候補判定手段および第２の評価処理手段の処理を繰り返すための手段をさらに備える。

好ましくは、第２の評価処理手段は、第２の候補ごとに、第２の候補である小領域の直後に位置する第１の見出しについての第１の候補である小領域の直後に位置する大領域の特徴と比較し、対応の第１の候補である小領域の直後に位置する大領域の特徴と類似する第２の候補を、見出しの候補から除外するための手段をさらに含む。

この発明の他の局面に従う文書画像処理方法は、文書画像を記憶する記憶部を備えた文書画像処理装置によって実行される、記憶部に記憶された文書画像から見出し領域を抽出するための方法であって、文書画像を構成する複数の文字列要素領域を小領域と大領域とに分類するステップと、読み順が大領域の直前に位置する小領域を第１の候補として判定するステップと、第１の候補ごとに、当該第１の候補である小領域の直後に位置する大領域の特徴との差異に基づいて各第１の候補が見出しであるか否かの評価処理を行なうことにより、第１の候補の少なくとも一部を第１の見出しと判定するステップと、読み順が第１の見出しの直前に位置する小領域を第２の候補として判定するステップと、第２の候補ごとに、当該第２の候補である小領域の直後に位置する第１の見出しの特徴との差異に基づいて各第２の候補が見出しであるか否かの評価処理を行なうことにより、第２の候補の少なくとも一部を第２の見出しと判定するステップと、第１の見出しおよび第２の見出しと判定された小領域を、見出し領域として抽出するステップとを備える。

この発明のさらに他の局面に従う文書画像処理プログラムは、文書画像から見出し領域を抽出するためのプログラムであって、文書画像を構成する複数の文字列要素領域を小領域と大領域とに分類するステップと、読み順が大領域の直前に位置する小領域を第１の候補として判定するステップと、第１の候補ごとに、当該第１の候補である小領域の直後に位置する大領域の特徴との差異に基づいて各第１の候補が見出しであるか否かの評価処理を行なうことにより、第１の候補の少なくとも一部を第１の見出しと判定するステップと、読み順が第１の見出しの直前に位置する小領域を第２の候補として判定するステップと、第２の候補ごとに、当該第２の候補である小領域の直後に位置する第１の見出しの特徴との差異に基づいて各第２の候補が見出しであるか否かの評価処理を行なうことにより、第２の候補の少なくとも一部を第２の見出しと判定するステップと、第１の見出しおよび第２の見出しと判定された小領域を、見出し領域として抽出するステップとをコンピュータに実行させる。

本発明によると、小領域が連続して配置されている場合であっても、大領域を基準とした階層ごとに、両者の特徴の差異に基づいて、各小領域が見出しか否かを判定することができる。そのため、階層化された見出しを含む文書など、様々なスタイルの文書画像から、ユーザの手間を要することなく、見出し領域を精度良く抽出することができる。

本発明の実施の形態に従う文書画像処理装置を含むシステムの概略構成図である。本発明の実施の形態に従う文書画像処理装置における概略構成を示すブロック図である。図１に示したシステムに含まれるパーソナルコンピュータの概略構成を示すブロック図である。本発明の実施の形態に従う文書画像処理装置における機能構成を示すブロック図である。本発明の実施の形態に従う文書画像処理装置が生成する電子化文書のデータ構造の一例を示す図である。本発明の実施の形態において、電子化文書に含まれるしおりデータのデータ構造の一例を示す図である。本発明の実施の形態における見出し領域抽出処理を示すフローチャートである。図７のステップＳ４で判別される内容領域を説明するための図である。本発明の実施の形態における文字列要素判別処理を示すフローチャートである。文字列要素領域を説明するための図である。本発明の実施の形態において、ページ単位で生成された文字列要素領域の例を示す図である。図１１に示す文字列要素領域について大領域と小領域との分類結果を示す図である。第１の候補（見出し１候補）と、第１の候補に関連付けられる大領域との関係を示す図である。本発明の実施の形態における見出し１候補評価処理を示すフローチャートである。見出し１候補ごとに設定された、大領域と区分可能なスタイル種別の例を示す図である。見出し１候補ごとに設定された特徴区分の例を示す図である。特徴区分の設定方法を説明するための図であり、見出し１候補とそれに関連付けられる大領域とのインデント量の違いを示す図である。区分可能なスタイル種別がインデント量である場合の特徴区分の設定方法の一例を示す図である。区分可能なスタイル種別がインデント量である場合の特徴区分の設定方法の他のを示す図である。見出し１候補ごとの、特徴区分によるグループ化の結果の一例を示す図である。見出し１候補ごとの、見出し評価度および見出し判定結果を示す図である。第２の候補（見出し２候補）と、第２の候補に関連付けられる第１の見出し（見出しと判定された見出し１候補：見出し１）との関係を示す図である。本発明の実施の形態における見出しＮ＋１候補評価処理を示すフローチャートである。本発明の実施の形態において、見出し２候補ごとに設定された、見出し１と区分可能なスタイル種別の例を示す図である。本発明の実施の形態において、見出し２候補ごとに設定された特徴区分の例を示す図である。本発明の実施の形態において、見出し２候補ごとの、特徴区分によるグループ化の結果の一例を示す図である。本発明の実施の形態において、見出し２候補ごとの、見出し評価度および見出し判定結果を示す図である。本発明の実施の形態において、図１１に示した文字列要素領域からなる文書に対して抽出された見出し領域を示す図である。本発明の実施の形態の変形例１における文字列要素領域の例を示す図である。本発明の実施の形態の変形例１において、見出し２候補と、見出し２候補に関連付けられる見出し１との関係を示す図である。本発明の実施の形態の変形例１において、見出し２候補ごとに設定された、見出し１と区分可能なスタイル種別の例を示す図である。本発明の実施の形態の変形例１において、見出し２候補ごとに設定された、関連する大領域と区分可能なスタイル種別の例を示す図である。本発明の実施の形態の変形例１において、図２９に示した文字列要素領域からなる文書に対して抽出された見出し領域を示す図である。本発明の実施の形態の変形例２における文字列要素領域の例を示す図である。本発明の実施の形態の変形例２において、見出し２候補と、見出し２候補に関連付けられる見出し１との関係を示す図である。本発明の実施の形態の変形例２において、見出し２候補ごとに設定された、見出し１と区分可能なスタイル種別の例を示す図である。本発明の実施の形態の変形例２において、見出し２候補ごとに設定された特徴区分の例を示す図である。本発明の実施の形態の変形例２において、見出し２候補ごとの、特徴区分によるグループ化の結果の一例を示す図である。本発明の実施の形態の変形例２において、見出し２候補ごとの、見出し評価度および見出し判定結果を示す図である。本発明の実施の形態の変形例２において、図３４に示した文字列要素領域からなる文書に対して抽出された見出し領域を示す図である。従来の見出し領域の抽出方法を説明するための図であり、（Ａ），（Ｂ），（Ｃ）には、それぞれ、文字サイズが異なる複数の文書スタイルの例が示されている。従来の見出し領域の抽出方法を説明するための図であり、特定の文字サイズを用いて図４１（Ａ）の文書画像から見出し領域を抽出する場合の例が示されている。従来の見出し領域の抽出方法を説明するための図であり、特定の文字サイズを用いて図４１（Ｂ）の文書画像から見出し領域を抽出する場合の例が示されている。従来の見出し領域の抽出方法を説明するための図であり、特定の文字サイズを用いて図４１（Ｃ）の文書画像から見出し領域を抽出する場合の例が示されている。従来の見出し領域の抽出方法を説明するための図であり、文字サイズをグループ化することにより図４１（Ｃ）の文書画像から見出し領域を抽出する場合の例が示されている。従来の見出し領域の抽出方法を説明するための図であり、文字サイズをグループ化することにより図４１（Ａ）の文書画像から見出し領域を抽出する場合の例が示されている。

本発明の実施の形態について図面を参照しながら詳細に説明する。なお、図中同一または相当部分には同一符号を付してその説明は繰返さない。

本発明の実施の形態の説明に先立ち、図４１〜図４６を用いて、従来より存在する一般的な見出し部分の抽出方法について説明する。

従来より、あらかじめ設けた特徴区分に対して見出しレベルを割り当てることで、見出し領域（見出し部分）を抽出する技術（以下、「従来例１」という）が存在する。また、特徴が似た領域をグループ化した上でグループに対して見出しレベルを割り当てることで、見出し領域を抽出する技術（以下、「従来例２」という）が存在する。

図４１（Ａ）には、見出しに対応する領域１ａ，３ａの文字サイズの方が本文に対応する領域２ａ，４ａの文字サイズよりも大きい例が示されている。図４１（Ｂ）には、見出しに対応する領域１ｂ，３ｂの文字サイズと本文に対応する領域２ｂ，４ｂの文字サイズとが同じ例が示されている。図４１（Ｃ）には、見出しに対応する領域１ｃ，３ｃの文字サイズの方が本文に対応する領域２ｃ，４ｃの文字サイズよりも小さい例が示されている。なお、図４１（Ａ）の文書スタイルでは、同じ見出しであっても、領域３ａの文字サイズの方が、領域１ａの文字サイズよりも大きいとする。

これらのスタイルの場合、読み手は容易に見出し部分を判別することが可能である。
従来例１では、特定のサイズである１０ポイント以上の領域を見出しとし、１０ポイント未満であれば見出しとはしないという特徴区分を設けるとする。その場合、図４１（Ａ）の文書では、図４２に示されるように、領域１ａ，３ａを見出しとして正しく抽出することができる。

しかしながら、このような特徴区分であると、図４１（Ｂ），（Ｃ）の文書スタイルの場合は、見出し部分のサイズが小さいため、図４３，図４４に示されるように、見出しを正しく抽出できない。

従来例２では、特徴が似た領域をグループ化した上で見出しの判定を行なう。図４１（Ｃ）の文書スタイルの場合、文字サイズでグループ化することで図４５に示すようにグループＡ，Ｂに分類される。従来例２によると、位置が高いグループまたは行数が少ないグループを見出しと判定することで、見出しを正しく抽出することができる。

しかしながら、図４１（Ａ）の文書スタイルのように、見出しに対応する領域１ａ，３ａの文字サイズにバラツキがあるものも考えられる。この場合は、従来例２では、図４６に示されるように見出しを一つにグループ化できず、正しく見出しを抽出することができない。

以上の従来方法では、使用するスタイル種別（たとえば文字サイズ）、および、特徴量（たとえば１０ポイント）の設定が固定的であるため、正しく見出しを抽出することができない場合がある。たとえば、従来例１では、文字サイズに加え、第１行の先頭文字の種別（英字／数字／日本語）を判別することで、見出しを正しく抽出することが可能になったり、従来例２では、グループＢの特徴量の範囲を領域１，３を含む程度に広くすることで正しく抽出することが可能になったりする。

そこで、本実施の形態では、複数のスタイル種別を使用し、かつ、特徴区分を動的に設定する。

なお、「スタイル種別」とは、インデント量，行揃え，前後の文字列要素領域との距離，文字列修飾（下線，囲み），文字種（先頭または終端），言語種別，文字サイズ，行高さ，文字間隔，フォント，文字修飾（太文字，斜体），文字色，背景色などを含む。見出し領域を精度良く抽出するためには、上記種別のうち、少なくとも、インデント量、文字の大きさに関する特徴量（たとえば、文字サイズまたは行高さ）、および、第１行の先頭文字種を使用することが好ましい。なお、スタイル種別には、読み手が識別可能で文書作成ツールなどで利用可能な様々な種別が含まれ得る。

また、「特徴区分」とは、見出し領域と他領域とを識別するために用いられる、スタイル種別ごとの特徴値または範囲を表わす。なお、「特徴」とは、領域そのものや領域内の行，文字の「属性」と言い換えることもできる。

＜構成について＞
（全体システム構成）
本実施の形態においては、代表的に、本発明に係る文書画像処理装置の一形態であるＭＦＰ（Multi Function Peripheral）について説明する。なお、本発明に係る文書画像処理装置は、ＭＦＰに限らず、複写機、ファクシミリ装置、スキャナ装置などにも適用可能である。

図１を参照して、本実施の形態に従うＭＦＰ１は、原稿３００を読取るための画像読取部１０４と、紙媒体などへの印刷処理を行なうためのプリント部１０６とを含んで構成される。

特に、本実施の形態に従うＭＦＰ１は、画像読取部１０４で原稿３００を読取ることで文書画像を取得し、この文書画像を含む電子化文書４００を生成する。代表的に、電子化文書４００にはＰＤＦ（Portable Document Format）などのフォーマットを採用できる。この際、ＭＦＰ１は、文書画像から少なくとも１つの見出し領域を抽出し、抽出した見出し領域に対して文書画像内での位置を特定するための閲覧ナビゲート情報を生成する。

なお、「閲覧ナビゲート情報」とは、ユーザによる電子化文書に含まれる文書画像の閲覧を支援するための情報であり、より具体的には、当該文書画像に含まれる見出し領域等が存在する位置を特定するための情報である。このような閲覧ナビゲート情報は、一例として「しおり（bookmark）」、「注釈」、「スレッド」、「リンク」などを含み、見出し領域の位置を特定するための情報に加えて、対応する見出し領域のサムネイル（縮小画像）などを含めてもよい。本実施の形態においては、特に「閲覧ナビゲート情報」の代表例として「しおり」を用いる構成について説明する。

ＭＦＰ１は、生成した電子化文書４００を自身の記憶部（図示しない）に格納したり、ネットワークを介してパーソナルコンピュータＰＣ１，ＰＣ２，ＰＣ３（以下、「パーソナルコンピュータＰＣ」とも総称する）や携帯端末ＭＴに送信したりする。代表的な使用形態として、ＭＦＰ１が設置されている同一のオフィス内に敷設されたネットワークであるＬＡＮ（Local Area Network）に接続されているパーソナルコンピュータＰＣ１，ＰＣ２に対しては、ＭＦＰ１から電子化文書４００が直接的に送信される。一方、ＬＡＮとＷＡＮ（Wide Area Network）との接続点には、サーバ装置ＳＲＶが設けてあり、ＭＦＰ１とは離れたオフィスにあるパーソナルコンピュータＰＣ３などに対しては、ＭＦＰ１からサーバ装置ＳＲＶを介して電子化文書４００が送信される。さらに、携帯端末ＭＴには、ＷＡＮおよび公衆携帯電話網や無線ＬＡＮなどの無線ネットワーク回線（図示しない）を介して、ＭＦＰ１から電子化文書４００が送信される。ここで、サーバ装置ＳＲＶは代表的に、メールサーバ、ＦＴＰ（File Transfer Protocol）サーバ、Ｗｅｂサーバ、ＳＭＢサーバなどからなる。

画像読取部１０４は、原稿をセットするための戴荷台と、原稿台ガラスと、戴荷台にセットされた原稿を原稿台ガラスに自動的に一枚ずつ搬送する搬送部と、読取られた原稿を排出するための排出台とを含む（いずれも図示しない）。これにより、複数枚の原稿を連続的に読取って、一つの電子化文書４００として生成することができる。

（ＭＦＰの概略構成）
図２を参照して、ＭＦＰ１は、制御部１００と、メモリ部１０２と、画像読取部１０４と、プリント部１０６と、通信インターフェイス部１０８と、データ格納部１１０とを含む。

制御部１００は、代表的にＣＰＵ（Central Processing Unit）などの演算装置から構成され、プログラムを実行することで本実施の形態に従う文書画像処理を実現する。メモリ部１０２は、代表的にＤＲＡＭ（Dynamic Random Access Memory）などの揮発性の記憶装置であり、制御部１００で実行されるプログラムやプログラムの実行に必要なデータなどを保持する。通信インターフェイス部１０８は、代表的に、ネットワーク（たとえば、図１に示すＬＡＮ）を介してパーソナルコンピュータＰＣ（図１）や携帯端末ＭＴとの間でデータを送受信するための部位であり、たとえば、ＬＡＮアダプタおよびそれを制御するドライバソフトなどを含む。プリント部１０６は、プリント処理を行なうための部位であり、プリント処理に係るハードウェア構成に加えて、各部の作動を制御するための制御装置をも含む。データ格納部１１０は、代表的にハードディスク装置やフラッシュメモリなどの不揮発性の記憶装置であり、制御部１００で生成された電子化文書４００などを格納する。

（パーソナルコンピュータの構成）
図３を参照して、パーソナルコンピュータＰＣは、オペレーティングシステム（ＯＳ：Operating System）を含む各種プログラムを実行するＣＰＵ（Central Processing Unit）２０１と、ＣＰＵ２０１でのプログラムの実行に必要なデータを一時的に記憶するメモリ部２１３と、ＣＰＵ２０１で実行されるプログラムを不揮発的に記憶するハードディスク部（ＨＤＤ：Hard Disk Drive）２１１とを含む。また、ハードディスク部２１１には、ＭＦＰ１で生成された電子化文書を表示するための閲覧アプリケーションが記憶されており、このようなプログラムは、入出力インターフェイス部２１７またはＣＤ−ＲＯＭドライブ２１５によって、それぞれメモリカード（たとえばＳＤカード）２１７ａまたはＣＤ−ＲＯＭ（Compact Disk-Read Only Memory）２１５ａなどから読取られる。

ＣＰＵ２０１は、キーボードやマウスなどからなる入力部２０９を介してユーザからの指示を受取るとともに、プログラムの実行によって生成される画面出力をディスプレイ部２０５へ出力する。また、ＣＰＵ２０１は、ＬＡＮカードなどからなる通信インターフェイス部２０７を介して、ＬＡＮやＷＡＮに接続されたＭＦＰ１やサーバ装置ＳＲＶ（図１）から電子化文書を取得し、ハードディスク部２１１などに格納する。また、上述の各部は、内部バス２０３を介して相互にデータを授受する。

なお、携帯端末ＭＴについては、図３においてＦＤＤドライブ２１７やＣＤ−ＲＯＭドライブ２１５などを取り除いたものとほぼ等価であるので、詳細な説明は繰返さない。

（ＭＦＰの機能的構成）
図４を参照して、ＭＦＰ１の機能構成としては、画像読取部１０４と、画像前処理部１２と、画像バッファ部１３と、圧縮処理部１４と、電子化文書生成部１５と、画像解析部１６と、しおりデータ生成部１７と、送信部１８と、画像処理部１９と、プリント部１０６とを含む。ＭＦＰ１の機能は、主としてＭＦＰ１の制御部１００やメモリ部１０２（図２）などによって実現される。

画像読取部１０４は、原稿３００を読取って文書画像を取得し、その文書画像を画像前処理部１２へ出力する。画像前処理部１２は、主としてパーソナルコンピュータＰＣなどでの表示に適するように、文書画像の表示特性などを調整する。さらに、画像前処理部１２が文書画像に含まれるノイズを除去してもよい。そして、画像前処理部１２で画像処理が施された文書画像は、画像バッファ部１３へ送られる。

画像バッファ部１３は、取得された文書画像のデータを一時的に格納する部位であり、一旦格納した文書画像を圧縮処理部１４、画像解析部１６および画像処理部１９へ出力する。

圧縮処理部１４は、画像バッファ部１３から出力される文書画像を圧縮処理して、電子化文書生成部１５へ出力する。この圧縮処理による圧縮度合いは、生成される電子化文書の大きさや、要求される文書画像の解像度などに応じて変化させてもよく、また圧縮処理はＪＰＥＧ（Joint Photographic Experts Group）などの非可逆変換であってもよい。なお、高解像度が要求される場合などには、圧縮処理を省略してもよい。

画像解析部１６は、画像バッファ部１３から出力される文書画像を解析し、見出し領域を抽出する。画像解析部１６は、その機能として、分類部１６１と、候補判定部１６２と、評価処理部１６３と、抽出部１６４とを含む。

分類部１６１は、文書画像を複数の文字列要素領域（詳しくは後述）に分割し、文字列要素領域を小領域と大領域とに分類する。たとえば、領域の大きさ（行数，面積，文字数など）と、特定の文字（見出しとして使われる頻度が小さい文字，ピリオド，句読点など）の有無とに基づいて、分類する。

候補判定部１６２は、小領域と大領域との配置関係を比較することにより、関連付けられる大領域が存在する小領域を、第１の見出し候補（以下「見出し１候補」という）として判定する。「関連付けられる大領域」は、たとえば、読み順が見出し１候補の後続（直後）の大領域を示す。つまり、見出し１候補は、読み順が（関連付けられる）大領域の直前に位置する小領域を表わしている。

候補判定部１６２は、さらに、読み順が第１の見出しの直前に位置する小領域を第２の候補（以下「見出し２候補」という）として判定する。「第１の見出し」とは、第１の見出し候補のうち、後述の評価処理部１６３により見出しと判定された小領域を表わす。また、以下の説明において、当該小領域を「見出し１」とも表わす。

なお、上記のように、見出し２候補は、読み順が第１の見出しの直前に位置する小領域であるとしているが、本実施の形態において「直前に位置する」とは、見出し２候補と第１の見出しとの間に何ら領域が存在しない場合のほか、見出し２候補と第１の見出しとの間に、両者の関連付けを妨げない範囲で、下線などの領域が存在する場合も含まれるものとする。また、見出し１候補と関連付けられる大領域との位置関係においても、同様であるものとする。

評価処理部１６３は、見出し１候補ごとに、関連付けられる大領域の特徴との差異に基づいて見出しか否かの評価処理を行なう。そして、その評価結果に基づいて、見出し１候補が見出しか否かを判定する。また、見出し２候補ごとに、関連付けられる第１の見出し（見出し１）の特徴との差異に基づいて各見出し２候補が見出しであるか否かの評価処理を行なう。そして、その評価結果に基づいて、見出し２候補が見出しか否かを判定する。

本実施の形態において、より上位の見出し候補が無くなるまで、つまり、読み順が、見出しと判定された小領域の直前に小領域がないと判断されるまで、候補判定部１６２および評価処理部１６３の処理を繰返す。具体的には、第２の見出し候補のうち、評価処理部１６３により見出しと判定された小領域を「第２の見出し」と表わすとする。そうすると、上述の説明における第２の見出しを第１の見出しに置き換えて（読み替えて）、候補判定部１６２および評価処理部１６３の処理を繰返す。

なお、評価処理部１６３における具体的な処理例については後述する。
抽出部１６４は、評価処理部１６３により見出しと判定された小領域を、見出し領域として抽出する。抽出された見出し領域の情報（位置情報など）は、しおりデータ生成部１７へ送られる。

しおりデータ生成部１７は、画像解析部１６から出力される見出し領域の情報に基づいて、しおりデータを生成する。なお、しおりデータ生成部１７は、見出し以外の特定の論理要素（たとえば、図、表、キャプションなど）についても、しおりデータに含めてもよい。しおりデータ生成部１７は、生成したしおりデータを電子化文書生成部１５へ出力する。

電子化文書生成部１５は、圧縮処理部１４で圧縮された文書画像に、しおりデータ生成部１７からのしおりデータを付加することで、電子化文書を生成する。そして、この生成された電子化文書は、ユーザによる設定などに応じて、データ格納部１１０へ格納され、もしくは送信部１８へ出力される。送信部１８は、通信インターフェイス部１０８によって実現され、ＬＡＮなどのネットワークを介してパーソナルコンピュータＰＣ（図１）などへ電子化文書生成部１５で生成された電子化文書を送信する。

一方、画像処理部１９は、ユーザ操作に応じて、画像バッファ部１３から出力される文書画像をプリント部１０６でのプリント動作に適した画像に変換する。代表的に、ＲＧＢ表示系で規定された文書画像をカラープリントに適したＣＭＹＫ表示系の画像データなどに変換する。このとき、プリント部１０６の特性に応じた色調整を行なってもよい。プリント部１０６は、画像処理部１９から出力される画像データに基づいて紙媒体などへの印刷処理を行なう。

なお、各機能ブロックの動作は、メモリ部１０２中に格納されたソフトウェアを実行することで実現されてもよいし、少なくとも１つについては、ハードウェアで実現されてもよい。

（電子化文書のデータ構造例）
図５を参照して、電子化文書４００は、ヘッダ部４０２と、文書画像部４０４と、しおりデータ部４０６と、フッタ部４０８とからなる。ヘッダ部４０２およびフッタ部４０８には、電子化文書４００の属性についての情報、たとえば作成日時・作成者・著作権情報などが格納される。文書画像部４０４には、各ページに対応する文書画像が格納される。なお、この文書画像は、上述したように圧縮された状態で格納されてもよい。しおりデータ部４０６には、文書画像に含まれる見出し領域すなわち、見出しと判定された文字列要素領域を特定するためのしおりデータが格納される。

図６を参照して、しおりデータには、各見出し領域に対応付けて、ページ番号・領域左上座標・領域右下座標・要素種別などが格納される。ページ番号は、対応する見出し領域が存在するページを特定するための位置情報である。また、領域左上座標および領域右下座標は、対応する見出し領域のページ内での位置（矩形）を特定するための位置情報である。また、要素種別は、対応する見出し領域の種別を特定するための情報である。なお、しおりデータには、見出し以外の種別の文書要素（領域）の位置情報がさらに含まれてもよい。

＜動作について＞
ＭＦＰ１が実行する処理のうち、画像解析部１６が実行する見出し領域抽出処理が最も特徴的な処理である。したがって、以下に、見出し領域抽出処理の詳細について説明する。

図７のフローチャートを参照して、本発明の実施の形態における見出し領域抽出処理について説明する。図７のフローチャートに示す処理は、予めプログラムとしてメモリ部１０２に格納されており、制御部１００がこのプログラムを読み出して実行することにより、見出し領域抽出処理の機能が実現される。

図７を参照して、画像解析部１６は、文書画像のデータを入力する（ステップＳ２）。入力した文書画像のデータは、ページ毎に内部メモリ上に記憶される。

次に、内部メモリ上の各ページのデータを読み出して、内容領域の判別を行う（ステップＳ４）。内容領域とは、各ページの部分領域であり、各内容領域は一段分の文字を含む。

図８には、入力した文書画像の各ページに設定した内容領域（Ｘ１，Ｙｌ）−（Ｘ２，Ｙ２），（Ｘ３，Ｙｌ）−（Ｘ４，Ｙ２）が示されている。

「内容領域」とはページ上の一つの段落に相当する領域であり、各ページに対して同じ場所に設定する。内容領域は既存の様々の方法で求めることができる。

たとえば、ページの濃度画像に対して上下方向への射影ヒストグラムを作成し、濃度の累計が低い位置から内容領域の横方向の位置Ｘ１，Ｘ２，Ｘ３，Ｘ４を得る。同様に左右方向への射影ヒストグラムを作成し内容領域の上下の開始終了位置Ｙｌ，Ｙ２を求める。

次に、画像解析部１６は、行領域の判別を行う（ステップＳ６）。行領域は既存の様々の方法で求めることができる。たとえば、内容領域の濃度画像に対して左右方向への射影ヒストグラムを作成し、濃度の累計が低い位置から各行領域の上端下端の位置を得る。

続いて、画像解析部１６は、文字列要素領域の判別（文字列要素判別処理）を行う（ステップＳ８）。文字列要素領域は、行領域を統合することで作成される。画像解析部１６は、各行領域の右余白の大きさ及び行末の文字種を使って統合を制御する。

図９のフローチャートを参照して、本発明の実施の形態における文字列要素判別処理について説明する。

図９を参照して、まず、初期状態の文字列要素領域を１つ生成する（ステップＳ１０２）。そして、読み順に従って未処理の行領域を一つ取得する（ステップＳ１０４）。具体的には、ページ番号が小さく左側にある内容領域において最も上側にある行領域を取得する。

ここで、ステップＳ１０４での行領域の取得に成功したか否かが判断される（ステップＳ１０６）。未処理の行領域がない場合は、所得に失敗したとして（ステップＳ１０６にてＮＯ）、ステップＳ１１４に進む。

これに対し、行領域の取得に成功した場合（ステップＳ１０６にてＹＥＳ）、取得した行領域を文字列要素領域に統合する（ステップＳ１０８）。

次に、画像解析部１６は、取得した行領域が最終行であるか否かを判断する（ステップＳ１１０）。具体的には、取得した行領域の右余白が所定値以上あるか、または、行末の文字種がピリオドであるかが判定される。右余白の所定値は、たとえば、行領域に含む文字の高さに設定される。取得した行領域が最終行であると判断された場合（ステップＳ１１０にてＹＥＳ）、ステップＳ１１２に進む。そうでない場合は（ステップＳ１１０にてＮＯ）、ＳＴＥＰ１０４に戻り、上記処理を繰返す。

ステップＳ１１２では、画像解析部１６は、文字列要素領域を完成させる。この処理が終わると、ステップＳ１１４に進む。

ステップＳ１１４では、全ての内容領域を処理済みかどうかを判断する。未処理の内容領域があれば（ステップＳ１１４にてＮＯ）、ステップＳ１０２に戻る。未処理の内容領域がなければ（ステップＳ１１４にてＹＥＳ）、文字列要素判別処理は終了する。

図１０を参照して、文字列要素領域の例を説明する。
図１０（Ａ）には、図７のステップＳ６で判別された行領域の一部が示されていると仮定する。図１０（Ｂ）には、図１０（Ａ）に示した行領域に対して行なわれた文字列要素領域の判別結果が示される。

行領域（図において「ＬＥ」と示す）１，１１，１４，１５，２３，１１が、ステップＳ１１０において、右余白ありと判定される。したがって、行領域１，１５は、各々、単独で文字列要素領域（図において「ＣＥ」と示す）１＃，４＃を構成する。また、行領域２〜１１，１２〜１４，１６〜２３は、それぞれ、上下方向に統合されて文字列要素領域２＃，３＃，５＃が生成される。

なお、文字列要素領域に右余白がある場合は、右余白を除いた領域を文字列要素領域として設定されるものとする。

再び図７を参照して、文字列要素判別処理が終わると、画像解析部１６の分類部１６１は、文字列要素領域を大領域と小領域に分類する（ステップＳ１０）。具体的には、たとえば、各文書領域の面積、文書全体の平均文字高さ、文書全体の平均内容領域の幅を求める。文書領域の面積が文書全体の平均文字高さ×文書全体の平均内容領域の幅×２より大きければ、その文字列要素領域は大領域であると判断し、そうでなければ小領域と判断する。

このような分類について、図１１〜図１３を用いて説明する。
図１１には、ページ単位で生成された文字列要素領域の例が示されている。

図１１（Ａ）を参照して、ページＰＧ１において、文字列要素領域１〜１６（ＣＥ１〜ＣＥ１６）が生成されたとする。また、図１１（Ｂ）を参照して、ページＰＧ２において、文字列要素領域１７〜２３（ＣＥ１７〜ＣＥ２３）が生成されたとする。

なお、全ての領域１〜２３は、文字サイズ、文字色、文字高さは統一されているものとする。行頭文字種は、以下のようであると仮定する。領域１，２，４，５，７は漢字、領域３，８，１３，２０は平仮名、領域６，９，１２，１６，１９，２３は片仮名、他の領域１１，１５，１８，２２は英字、他の領域１０，１４，１７，２１は数字である。

図１２には、図１１に示す文字列要素領域について大領域と小領域との分類結果が示されている。

図１２を参照して、太枠で示す文字列要素領域１，２，４，５，７，１０，１１，１４，１５，１７，１８，２１，２２が小領域に分類される。それ以外の文字列要素領域３，６，８，９，１２，１３，１６，１９，２０，２３が大領域に分類される。

文字列要素領域の分類が終わると、画像解析部１６の候補判定部１６２は、各小領域の後続する文字列要素領域が大領域か小領域かを判定する（ステップＳ１２）。つまり、各小領域の下側に連続する大領域があるかを判定する。

候補判定部１６２は、後続する大領域がある小領域を「見出し１候補」と判定する（ステップＳ１４）。また、見出し１候補に後続する大領域を、直上の見出し１候補に関連付ける。

図１３には、見出し１候補と、見出し１候補に関連付けられる大領域との関係が示されている。

図１３を参照して、図１２において小領域として示した文字列要素領域のうち、文字列要素領域２，５，７，１１，１５，１８，２２が、見出し１候補として判定される。以下の説明において、見出し１候補として判定された各文字列要素領域を、「見出し１候補領域」ともいう。見出し１候補領域に後続する大領域が関連づけられる大領域である。

ステップＳ１４の処理が終わると、見出し１候補評価処理が実行される（ステップＳ１６）。

図１４のフローチャートを参照して、本発明の実施の形態における見出し１候補評価処理について説明する。

はじめに、見出し１候補ごとに、見出し１候補の特徴と、それに関連付けられる大領域の特徴とを比較して、その差異が一定以上のスタイル種別を探す（ステップＳ２０２）。

本実施の形態では、初期設定のスタイル種別は、たとえば、行高さ，インデント量，行頭文字種，文字色である。

ここで、「行高さ」の判定には、たとえば、領域の第１行の高さを用いる。ただし、これに代えて、領域の高さ、領域に含む行数、文字のベースライン位置を推定する方法などの既存の文字高さ検出方法が利用可能である。

「インデント量」の判定には、たとえば、各段落の左基準位置（内容領域の左辺）から文字列要素領域の左辺までの距離を用いる。

「行頭文字種」の判定には、たとえば、第１行の第１文字の文字種（たとえば、数字・日本語・英字）を用いる。なお、第１行の先頭複数行に対して、ピリオド，括弧などの組み合わせ，出現順を考慮して文字種を判定してもよい。または、フォント，文字種の違い（“１”，“Ｉ”，“一”）などを考慮してもよい。または、“第”，“章”，“〇”などの見出しとして良く使われる文字種を区別するようにしてもよい。行頭文字種の判定は、文字認識した結果と文字種判定用の辞書データ（メモリ部１０２に予め記憶されている）とを参照することで行なうことができる。

「文字色」の判定には、たとえば、文字の線部分の色の値を用いる。なお、背景色と組み合わせて文字色を判定してもよい。

比較結果から、見出し１候補と、それに関連付けられる大領域とを区分可能なスタイル種別を設定する（ステップＳ２０４）。なお、複数のスタイル種別には、予め優先順位が定められており、複数の区分可能なスタイル種別があると判断された場合は、順位が上位であるスタイル種別を用いることとする。または、異なるスタイル種別の差異の大きさを比較する基準データを用意しておき、基準データに対して最も差異が大きいスタイル種別を用いるようにしてもよい。ここで、有意な差異があるスタイル種別が見つからない見出し１候補は、候補から外すこととする。

初期設定のスタイル種別を用いた場合における、各見出し１候補について設定される区分可能なスタイル種別の例について図１５を用いて説明する。

図１５を参照して、上述の見出し１候補領域２，５，７，１１，１５，１８，２２は、それぞれに関連付けられる大領域と区分可能なスタイル種別として「インデント量」が設定されている。行頭文字種にも差異があるが、インデント量の方が行頭文字種よりも優先順位が上位であるからである。

なお、図１５等、以降の表に示されるように、見出し判定対象の小領域を「領域Ａ」、比較対象の領域を「領域Ｂ」とも表わす。

次に、区分可能なスタイル種別に対して、見出し１候補と、それに関連付けられる大領域とを区分可能な特徴区分を設ける（ステップＳ２０６）。

見出し１候補ごとに設定された特徴区分の例を図１６に示す。
図１６を参照して、上述の見出し１候補領域２，５，７，１１，１５，１８，２２は、それぞれに関連付けられる大領域と区分可能な特徴区分として、次のような特徴区分が設定されている。すなわち、見出し１候補を含む区分として、インデント量０．５以上１．５未満（「０．５，１．５」）が設定され、大領域を含む区分として、０．５未満１．５以下（見出し１候補の区分以外）が設定されている。

ここで、図１７〜図１９を参照して、特徴区分の設定方法の一例を説明する。
図１７に示されるように、見出し１候補領域２のインデント量が１．０であり、それに関連付けられた大領域３のインデント量が０であるとする。その場合、図１８に示されるように、見出し１候補と、それに関連付けられる大領域との中央値を求める。そして、見出し１候補の近傍で中央値を含む区間を“見出し１候補を含む区分”とする。つまり、本実施の形態では、見出し１候補の特徴値の前後所定範囲を見出し１を含む区分として設定する。それ以外を“大領域を含む区分”とする。

本実施の形態では、図１８に示したように、見出し１候補の特徴に近いか否かにより特徴区分を設定するが、このような設定方法に限定されない。たとえば、図１９に示されるように、見出し１候補の特徴と、それに関連付けられた大領域の特徴とのうちいずれに近いか否かによって、特徴区分が設定されてもよい。具体的には、見出し１候補の特徴値と大領域の特徴値との中間点（中央値）を区切りとする。そして、見出し１候補の特徴値を含む方の区間を、“見出し１候補を含む区分”とし、それ以外を“大領域を含む区分”と設定してよい。

再び図１４を参照して、見出し１候補ごとに、設定した特徴区分すなわち、見出し１候補を含む区分（以下「第１の区分」ともいう）および大領域を含む区分（以下「第２の区分」ともいう）による領域のグループ化を行なう（ステップＳ２０８）。具体的には、設定した特徴区分を用いて、ａ−ｉ）第１の区分に含まれる見出し１候補の個数、ａ−ｉｉ）第１の区分に含まれる大領域の個数、ａ−ｉｉｉ）第２の区分に含まれる見出し１候補の個数、ａ−ｉｖ）第２の区分に含まれる大領域の個数を求める。

その結果、図２０に示されるように、全ての見出し１候補は、ａ−ｉ）の個数が７個（領域２，５，７，１１，１５，１８，２２）、ａ−ｉｉ）の個数が０個、ａ−ｉｉｉ）の個数が０個、ａ−ｉｖ）の個数が１０個（領域３，６，８，９，１２，１３，１６，１９，２０，２３）となった。

次に、見出し１候補ごとに、見出し評価度を算出する（ステップＳ２１０）。見出し評価度の算出は、たとえば、以下のような式（１）を用いて行なう。

見出し評価度
＝（（Ｋa１×（Ｃa１―Ｃa２）―Ｋa２×（Ｃa３―Ｃa４））＊Ｋa３）
／（Ｓa１＋Ｓa２） …（１）
ただし、Ｃa１：ａ−ｉ）の個数、Ｃa２：ａ−ｉｉ）の個数、Ｃa３：ａ−ｉｉｉ）の個数、Ｃa４：ａ−ｉｖ）の個数、Ｓa１：見出し１候補の個数の総数、Ｓa２：大領域の個数の総数、Ｋa１，Ｋa２：係数（それぞれ：１）、Ｋa３：係数（：１０）とする。

算出の結果、見出し評価度が所定値以上の見出し１候補を「見出し１」と決定する（ステップＳ２１２）。ここでは所定値は“５”と設定されている。図２１に示されるように、全ての見出し１候補が、見出し評価度が１０であるため、全ての見出し１候補が、見出し１と判定される（判定結果：○）。

この処理が終わると、メインルーチンに戻る。
なお、見出し評価度の算出は、以下の式（２）のように、見出し１候補の個数のみから求めることも可能である。

見出し評価度
＝（（Ｋa１×（Ｃa１）―Ｋa２×（Ｃa３））＊Ｋa３）／（Ｓa１） …（２）
あるいは、見出し評価度の算出は、以下の式（３）のように、大領域の個数のみから求めることも可能である。

見出し評価度
＝（（Ｋa２×（Ｃa４））＊Ｋa３―Ｋa１×（Ｃa２））／（Ｓa２） …（３）
図７を再度参照して、上述のような見出し１候補評価処理が終わると、変数Ｎを“１”とする（ステップＳ１８）。変数Ｎは、大領域を基準とした配置順位（階層）を管理するためのものである。

配置関係から、見出し１候補以外の小領域のうち、関連付けられる見出しＮがある小領域を「見出しＮ＋１候補」とする（ステップＳ２０）。具体的には、見出しＮの直前に位置する小領域があれば、それを見出しＮ＋１候補とする。見出しＮ＋１候補が無い場合は（ステップＳ２２にてＮＯ）、ステップＳ２８へ進む。見出しＮ＋１候補が存在する場合は（ステップＳ２２にてＹＥＳ）、ステップＳ２４に進む。

変数Ｎ＝１の場合、見出しＮ＋１候補は、「見出し２候補」である。
図２２において、見出し２候補（文字列要素領域１，４，１０，１４，１７，２１）をハッチングで示している。見出し２候補は、見出し１と判定された領域２，５，７，１１，１５，１８，２２の直前（直上）に存在している。

変数Ｎ＝２の場合、見出しＮ＋１候補が無いため、ステップＳ２８へ進む。
ステップＳ２４において、見出しＮ＋１候補評価処理を実行する。

図２３を参照して、本実施の形態における見出しＮ＋１候補評価処理を説明する。見出しＮ＋１候補評価処理も、上述の見出し１候補評価処理と同様の手順にて実行されてよい。そのため、各処理において、見出し１候補評価処理と共通する事項については詳細な説明は繰返さない。

はじめに、見出しＮ＋１候補の特徴と、それに関連付けられる見出しＮの特徴とを比較して、差異が一定以上のスタイル種別を探す（ステップＳ３０２）。

次に、比較結果から、見出しＮ＋１候補と、それに関連付けられる見出しＮとを区分可能なスタイル種別を設定する（ステップＳ３０４）。Ｎ＝１の場合の結果を図２４に示す。

区分可能なスタイル種別に対して、見出しＮ＋１候補と、それに関連付けられる見出しＮとを区分可能な特徴区分を設ける（ステップＳ３０６）。Ｎ＝１の結果を図２５に示す。

次に、見出しＮ＋１候補ごとに、設定した特徴区分すなわち、見出しＮ＋１候補を含む区分（以下「第３の区分」ともいう）および関連する見出しＮを含む区分（以下「第４の区分」ともいう）による領域のグループ化を行なう（ステップＳ３０８）。具体的には、設定した特徴区分を用いて、ｂ−ｉ）第３の区分に含まれる見出しＮ＋１候補の個数、ｂ−ｉｉ）第３の区分に含まれる見出しＮの個数、ｂ−ｉｉｉ）第４の区分に含まれる見出しＮ＋１候補の個数、ｂ−ｉｖ）第４の区分に含まれる見出しＮの個数を求める。

グループ化の結果が図２６に示されている。
図２６を参照して、見出し２候補１０，１４については、ｂ−ｉ）の個数すなわち、行頭文字種が数字である見出し２候補の個数は、４個（領域１０，１４，１７，２１）である。ｂ−ｉｉ）の個数すなわち、行頭文字種が数字である見出し１の個数は、０個である。ｂ−ｉｉｉ）の個数すなわち、行頭文字種が数字以外である見出し２候補の個数は、２個（領域１，４）である。ｂ−ｉｖ）の個数すなわち、行頭文字種が数字以外である見出し１の個数は、８個（領域２，５，７，９，１１，１５，１８，２２）である。

見出し２候補１，４については、ｂ−ｉ）の個数すなわち、インデント量［−０．５，＋０．５］に含まれる見出し２候補の個数は、２個（領域１，４）である。ｂ−ｉｉ）の個数すなわち、インデント量［−０．５，＋０．５］に含まれる見出し１の個数は、０個である。ｂ−ｉｉｉ）の個数すなわち、インデント量［−０．５，＋０．５］以外である見出し２候補の個数は、４個（領域１０，１４，１７，２１）である。ｂ−ｉｖ）の個数すなわち、インデント量［−０．５，＋０．５］以外である見出し１の個数は、８個（領域２，５，７，９，１１，１５，１８，２２）である。

見出し２候補１７，２１については、ｂ−ｉ）の個数すなわち、インデント量［１，＋３］に含まれる見出し２候補の個数は、２個（領域１７，２１）である。ｂ−ｉｉ）の個数すなわち、インデント量［１，＋３］に含まれる見出し１の個数は、０個である。ｂ−ｉｉｉ）の個数すなわち、インデント量［１，＋３］以外である見出し２候補の個数は、４個（領域１，４，１０，１４）である。ｂ−ｉｖ）の個数すなわち、インデント量［１，＋３］以外である見出し１の個数は、８個（領域２，５，７，９，１１，１５，１８，２２）である。

グループ化処理が終わると、見出しＮ＋１候補ごとに、見出し評価度を算出する（ステップＳ３１０）。見出し評価度の算出は、たとえば、上記式（１）と同様の式（４）を用いて行なってよい。

見出し評価度
＝（（Ｋb１×（Ｃb１―Ｃb２）―Ｋb２×（Ｃb３―Ｃb４））＊Ｋb３）
／（Ｓb１＋Ｓb２） …（４）
ただし、Ｃb１：ｂ−ｉ）の個数、Ｃb２：ｂ−ｉｉ）の個数、Ｃb３：ｂ−ｉｉｉ）の個数、Ｃb４：ｂ−ｉｖ）の個数、Ｓb１：見出しＮ＋１候補の個数の総数、Ｓb２：見出しＮの個数の総数、Ｋb１，Ｋb２：係数（それぞれ：１）、Ｋb３：係数（：１０）とする。

算出の結果、見出し評価度が所定値以上の見出しＮ＋１候補を「見出しＮ＋１」と決定する（ステップＳ３１２）。ここでは所定値は“４”と設定されている。

変数Ｎ＝１の場合、図２７に示されるように、全ての見出し２候補が、見出し評価度が４以上であるため、全ての見出し２候補が、見出し２と判定される（判定結果：○）。

この処理が終わると、メインルーチンに戻る。
再び図７を参照して、見出しＮ＋１候補評価処理が終わると、変数Ｎを１だけインクリメントし（ステップＳ２６）、ステップＳ２０に戻る。そして、見出しＮ＋１候補が存しなくなるまで、ステップＳ２０〜Ｓ２６の処理が繰り返される。

見出しＮ＋１候補が存在しないと判断されると、ステップＳ２８において、見出しと判定された領域すなわち、見出し１から見出しＮまでの全ての文字列要素領域を、しおりデータ生成部１７へ出力する。

図２８においてハッチングで示した領域は、図１１に示した文字列要素領域からなる文書に対して抽出された見出し領域（すなわち見出し１から見出しＮ）である。

これにより、しおりデータ生成部１７は、入力された見出し領域をしおりとして機能させるために、図６に示したようなしおりデータを生成する。

以上で、本発明の実施の形態における見出し領域抽出処理は終了される。
上述のように、本実施の形態によると、設定した特徴区分により見出しＮおよび見出しＮ＋１候補をグループ化することで、階層的な見出しを持つ文書に対して見出し領域を適切に抽出することができる。その結果、適切なしおりを付加したＰＤＦを生成することができる。

＜変形例１＞
上記実施の形態では、見出しＮ＋１候補の特徴と見出しＮの特徴とを比較して、見出しＮ＋１候補と、それに関連付けられる見出しＮとを区分可能な特徴区分を設定した。

これに対し、本変形例では、関連する大領域まで遡って、見出しＮ＋１候補の特徴の比較を行なう。

本変形例では、入力され文書画像のデータから、図２９に示すように、ページＰＧ１ａにおいて、文字列要素領域ＣＥ１ａ〜ＣＥ１６ａが抽出されているものとする。

図２９に示す文字列要素領域ＣＥ１ａ〜ＣＥ１６ａのそれぞれの特徴は、領域ＣＥ１４ａ以外は図１１（Ａ）に示したページＰＧ１における文字列要素領域ＣＥ１〜ＣＥ１６と同一であるものと仮定する。

図１１（Ａ）の例では、ページＰＧ１において、小領域１４と小領域１５とが同じインデント（１．０）であり、小領域１４の行頭文字種は数字、小領域１５の行頭文字種は英字であった。

これに対し、ページＰＧ１ａにおいては、小領域１４ａと小領域１５ａとが異なるインデント量であり、小領域１４ａのインデント量は、“０”である。これは、直上の大領域１３ａのインデント量と同じである。また、小領域１４ａの行頭文字種は、平仮名であるものとする。

本例においても、図７、図１４および図２３のフローチャートに基づいて、見出し領域抽出処理が実行される。

図７のフローチャートにおいて、Ｎ＝１の場合に、ステップＳ２０において、見出しＮ＋１候補の検索処理が実行されたとする。その場合の見出し２候補と、それに関連付けられる見出し１との関係を図３０に示す。

図３０において、見出し２候補がハッチングで示されており、各見出し２候補に関連付けられる見出し１が図中矢印で表わされている。

図２３のステップＳ３０２において、上記実施の形態と同様に、見出し２候補の特徴と、それに関連付けられる見出し１の特徴とを比較して、差異が一定以上のスタイル種別を探す。そして、差異が一定以上のスタイル種別があれば、ステップＳ３０４において、見出し２候補と、それに関連付けられる見出し１とを区別可能なスタイル種別が設定される。その結果が、図３１に示される。

なお、ここでは、行頭文字種として良く使われる“第”を、日本語一般とは区別して判断しているものとする。

図３１を参照して、本例では、見出し２候補の小領域１４ａと見出し１の小領域１５ａとは、行頭文字種だけでなく、インデント量も異なる。行頭文字種よりもインデント量の方が、優先順位が上位であるため、見出し２候補領域１４ａと見出し１領域１５ａとを区分可能なスタイル種別として、インデント量が設定される。

さらに、本変形例では、ステップＳ３０４とステップＳ３０６との間に、以下の処理を実行する。すなわち、見出しＮ＋１候補ごとに、関連付けられる大領域まで遡って、関連する大領域と区別可能なスタイル種別があるか否かを判定する。つまり、見出し２候補の特徴と、それに関連付けられる大領域の特徴とを比較して、差異が一定以上のスタイル種別を探す。そして、差異が一定以上のスタイル種別があれば、見出し２候補と、それに関連付けられる大領域とを区別可能なスタイル種別が設定される。その結果が、図３２に示される。

図３２に示されるように、見出し２候補である小領域１４ａは、関連付けられる大領域１６ａと区別可能なスタイル種別がないと判断される。そのため、本変形例では、このような小領域を、見出しＮ＋１候補から除外する。

図３３においてハッチングで示した領域は、本変形例において、図２９に示した文字列要素領域からなる文書に対して抽出された見出し領域（すなわち見出し１から見出しＮ）である。

図２８のフローチャートによる処理だけでは、領域１４ａも見出し２と判定されることになるが、本変形例によると、領域１４ａは、見出し２とはならない。

位置が近傍であるほど（距離が近いほど）、見出しと本文とでスタイルの違いが明確であり、論理的な役割がスタイルの相違として表現されている場合が多い。したがって、見出しＮ＋１候補の特徴と、後続の領域のうち最初に登場する大領域の特徴とで有意差が存在しなければ、その見出しＮ＋１候補は、直前の大領域の一部である可能性が高い。

以上のように、本変形例によると、見出しＮ＋１候補の判定において、関連付けられる大領域すなわち、後続の領域のうち最初に登場する大領域との特徴の比較も行なうことで、本文の一部が見出しとして誤判定されることを回避することができる。

＜変形例２＞
上記実施の形態では、見出しＮ＋１候補についての見出し評価度の算出には、上記式（４）を用いた。

これに対し、本変形例では、上記式（４）よりも、簡略化した評価式を用いる。
本変形例では、入力され文書画像のデータから、図３４に示すように、ページＰＧ１ｂにおいて、文字列要素領域ＣＥ１ｂ〜ＣＥ１６ｂが抽出されているものとする。ページＰＧ１ｂに示す文書は、「見出し２候補」に相当する文字列要素領域１ｂ，４ｂ，１０ｂ，１４ｂのインデント量にばらつきがある。

図７のフローチャートにおいて、Ｎ＝１の場合に、ステップＳ２０において、見出しＮ＋１候補の検索処理が実行されたとする。その場合の見出し２候補と、それに関連付けられる見出し１との関係を図３５に示す。

図３５において、見出し２候補がハッチングで示されており、各見出し２候補に関連付けられる見出し１が図中矢印で表わされている。

図２３のステップＳ３０２において、上記実施の形態と同様に、見出し２候補の特徴と、それに関連付けられる見出し１の特徴とを比較して、差異が一定以上のスタイル種別を探す。そして、差異が一定以上のスタイル種別があれば、ステップＳ３０４において、見出し２候補と、それに関連付けられる見出し１とを区別可能なスタイル種別が設定される。その結果が、図３６に示される。ここでは、両者の特徴の差異は、インデント量のみであると仮定する。

次に、図２３のステップＳ３０６において、区分可能なスタイル種別に対して見出し２候補とそれに関連付けられる見出し１とを区分可能な特徴区分を設ける。その結果を、図３７に示す。

続いて、図２３のステップＳ３０８において、設定した特徴区分によるグループ化が行なわれる。グループ化の結果が、図３８に示される。

図３８には、上記実施の形態で説明したようなｂ−ｉ）〜ｂ−ｉｖ）の個数のカウント結果が示されている。

そして、ステップＳ３１０において、見出し２候補ごとに、見出し評価度が算出される。

本変形例では、見出し評価度の算出に、見出し１（見出しＮ）の個数のみを用いる。つまり、たとえば、上記式（３）と同様の式（５）により、見出し評価度が算出される。

見出し評価度＝（（Ｋb２×（Ｃb４））＊Ｋb３―Ｋb１×（Ｃb２））／（Ｓb２）
…（５）
なお、上述のように、Ｃb２：第３の区分（見出しＮ＋１候補を含む特徴区分）に含まれる見出しＮの個数（ｂ−ｉｉ）の個数）、Ｃb４：第４の区分（関連する見出しＮを含む特徴区分）に含まれる見出しＮの個数（ｂ−ｉｖ）の個数）、Ｓb２：見出しＮの個数の総数、Ｋb１，Ｋb２：係数（それぞれ：１）、Ｋb３：係数（：１０）である。

上記評価式（５）による算出の結果、全ての見出し２候補領域１ｂ，４ｂ，１０ｂ，１４ｂの見出し評価度は、“１０”である。

ステップＳ３１２において、見出し評価度が所定値以上の見出し２候補が「見出し２」と決定される。ここでも、上記実施の形態と同様に、所定値は、たとえば“４”と設定されてよい。したがって、図３９に示されるように、図３４に示した見出し２候補である小領域１ｂ，４ｂ，１０ｂ，１４ｂは全て、見出し２と判定される（判定結果：○）。

図４０においてハッチングで示した領域は、本変形例において、図３４に示した文字列要素領域からなる文書に対して抽出された見出し領域（すなわち見出し１から見出しＮ）である。

このように、見出しＮ＋１候補が見出しであるかどうかを判定する際に、設定した特徴区分により見出しＮのみをグループ化するだけでも、特徴量にバラツキがある文書に対して見出し領域を適切に抽出できる効果がある。

なお、上記式（５）は、特に、本文部分の特徴に一貫性がある文書に適している。見出しの特徴に一貫性がある文書に対しては、上記式（２）と同様の式（６）のように、見出しＮ＋１候補に関する個数Ｃb１，Ｃb３を用いて、見出し評価度を算出するようにしてもよい。

見出し評価度
＝（（Ｋb１×（Ｃb１）―Ｋb２×（Ｃb３））＊Ｋb３）／（Ｓb１） …（６）
あるいは、個数Ｃb２，Ｃb３によるマイナス評価を除いて、評価度の算出を簡略化してもよい。つまり、以下のような式（７）〜（９）を用いて、見出し評価度を算出してもよい。

見出し評価度＝（（Ｋb１×（Ｃb１）＋Ｋb２×（Ｃb４））＊Ｋb３）
／（Ｓb１＋Ｓb２） …（７）
見出し評価度＝（（Ｋb１×（Ｃb１）３）／（Ｓb１） …（８）
見出し評価度＝（（Ｋb２×（Ｃb４））＊Ｋb３）／（Ｓb２） …（９）
このような式（７）〜（９）を用いた見出し度の評価は、スタイルの統一性が低い文書に対して有効的である。

評価度の算出に用いる式は、ユーザが選択できてもよい。また、選択のタイミングは、見出し抽出処理が実行される前や、処理の途中であってもよい。このようにすることで、たとえば、ある式を用いてうまく見出しが抽出されなかった場合に、他の式を用いて見出しがうまく抽出されるまで見出し判定を行なうことが可能となる。

＜その他の変形例＞
上記の実施の形態では、図２３のステップＳ３０８において、見出しＮ＋１候補群と見出しＮ群をグループ化した。しかしながら、本来見出しとなるべき小領域であっても、つまり、見出しＮ＋１の階層と同じ階層の小領域があったとしても、同じ見出しＮ＋１候補群とならない可能性がある。たとえば、当該小領域と大領域との距離の相違等の理由により、小領域が見出し１にならなかった場合には、小領域は、見出しＮ＋１にもならない。このような不都合を解消するために、ステップＳ３１２（見出しＮ＋１の決定）の後で、見出しＮ＋１と同じ特徴を持つ小領域があるかどうかを検索する。そして、あると判断されれば、その小領域を新たな見出しＮ＋１として追加する処理を追加してもよい。

または、上記の実施の形態では、区別可能なスタイル種別が複数存在する場合、優先順位に従ってその中から１つを選択した（図１４のステップＳ２０４、図２３のステップＳ３０４）。しかしながら、区別可能な複数のスタイル種別を組み合わせてもよい（たとえばＡＮＤ条件の組み合わせ）。そうすることで、見出し１候補や見出しＮ＋１候補を含む区分を適切に設定することが可能になる。

または、上記実施の形態では、１つのスタイル種別に対して、１つの特徴区分を設定した（図１４のステップＳ２０６、図２３のステップＳ３０６）。しかしながら、１つのスタイル種別に対して、複数の異なる特徴区分を設定可能としてもよい。たとえば、見出し２候補ごとの見出し評価度の値に差異がほとんどなければ、特徴区分を変更してもよい。そして、設定した特徴区分について、領域のグループ化および見出し評価度の算出を実行し（繰り返し）、候補間の差異が最大の見出し評価度を用いて見出し判定（図１４のステップＳ２１２、図２３のステップＳ３１２）を行なうようにしてもよい。

または、見出し評価度の判定（算出）では、各特徴区分に含まれる領域の個数を用いた（図１４のステップＳ２１０、図２３のステップＳ３１０）。しかしながら、判定対象の小領域（領域Ａ）から他の領域までの距離を併用するようにしてもよい。これは、近傍であるほど（距離が近いほど）、見出しと本文でスタイルの違いが明確であり、論理的な役割がスタイルの相違として表現されている場合が多いためである。言い換えれば、連続しない離れた領域や、別ページの領域とのスタイルの相違は、書き手によって意図されたものでない場合があるためである。

判定対象の小領域（領域Ａ）が見出しＮ＋１候補であるとすると、たとえば、個数の代わりに、見出しＮ＋１候補からの距離の関数の総和を用い、距離が近い場合にはＣb１及びＣb２が大きく計数されるようにしてもよい。

この場合、Ｃb１＃：見出しＮ＋１候補（領域Ａ）を含む特徴区分に含まれる見出しＮ＋１候補の距離関数の総和、Ｃb２＃：見出しＮ＋１候補（領域Ａ）を含む特徴区分に含まれる見出しＮの距離関数の総和とされる。

このように、近い距離に同じ特徴の領域がある場合の方が見出し度の評価の影響度を大きくすることで、より人の感覚にあった見出し評価が可能になる。

図９の文字列要素判別処理において、最終行と判断された場合に文字列要素領域を完成することとした（ステップＳ１１０，Ｓ１１２）。しかしながら、次行との特徴（行高さなど）が変化するかを判定し、次行との特徴（行高さなど）が変化する場合に、文字列要素領域を完成させてもよい。

上記実施の形態および各変形例では、ＭＦＰ１を例に説明したが、たとえば、図３に示したようなパーソナルコンピュータＰＣや、携帯電話等の携帯端末において、上記見出し領域抽出処理が実行されてもよい。本実施の形態における見出し領域抽出処理は、少なくとも、ＣＰＵ等の演算装置、および、文書画像等を記憶するためのメモリを搭載した様々なコンピュータにて実行され得る。

また、本発明の文書画像処理装置が行なう、見出し領域抽出処理方法（文書画像処理方法）を、プログラムとして提供することもできる。このようなプログラムは、ＣＤ−ＲＯＭ（Compact Disc-ROM）などの光学媒体や、メモリカードなどのコンピュータ読取り可能な記録媒体にて記録させて、プログラム製品として提供することもできる。また、ネットワークを介したダウンロードによって、プログラムを提供することもできる。

なお、本発明にかかるプログラムは、コンピュータのオペレーティングシステム（ＯＳ）の一部として提供されるプログラムモジュールのうち、必要なモジュールを所定の配列で所定のタイミングで呼出して処理を実行させるものであってもよい。その場合、プログラム自体には上記モジュールが含まれずＯＳと協働して処理が実行される。このようなモジュールを含まないプログラムも、本発明にかかるプログラムに含まれ得る。

また、本発明にかかるプログラムは他のプログラムの一部に組込まれて提供されるものであってもよい。その場合にも、プログラム自体には上記他のプログラムに含まれるモジュールが含まれず、他のプログラムと協働して処理が実行される。このような他のプログラムに組込まれたプログラムも、本発明にかかるプログラムに含まれ得る。

提供されるプログラム製品は、ハードディスクなどのプログラム格納部にインストールされて実行される。なお、プログラム製品は、プログラム自体と、プログラムが記憶された記憶媒体とを含む。

今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

１ＭＦＰ、１２画像前処理部、１３画像バッファ部、１４圧縮処理部、１５電子化文書生成部、１６画像解析部、１７データ生成部、１８送信部、１９画像処理部、１００制御部、１０２メモリ部、１０４画像読取部、１０６プリント部、１０８通信インターフェイス部、１１０データ格納部、１６１分類部、１６２候補判定部、１６３評価処理部、１６４抽出部、２０１ＣＰＵ、２０３内部バス、２０５ディスプレイ部、２０７通信インターフェイス部、２０９入力部、２１１ハードディスク部、２１３メモリ部、２１５ＣＤ−ＲＯＭドライブ、２１７入出力インターフェイス部、２１７ａメモリカード、ＭＴ携帯端末、ＰＣ，ＰＣ１，ＰＣ２，ＰＣ３パーソナルコンピュータ、ＳＲＶサーバ装置。

Claims

文書画像から、見出し領域を抽出するための文書画像処理装置であって、
前記文書画像を構成する複数の文字列要素領域を小領域と大領域とに分類するための分類手段と、
読み順が前記大領域の直前に位置する小領域を第１の候補として判定するための第１の候補判定手段と、
前記第１の候補ごとに、当該第１の候補である小領域の直後に位置する大領域の特徴との差異に基づいて各前記第１の候補が見出しであるか否かの評価処理を行なうことにより、前記第１の候補の少なくとも一部を第１の見出しと判定するための第１の評価処理手段と、
読み順が前記第１の見出しの直前に位置する小領域を第２の候補として判定するための第２の候補判定手段と、
前記第２の候補ごとに、当該第２の候補である小領域の直後に位置する第１の見出しの特徴との差異に基づいて各前記第２の候補が見出しであるか否かの評価処理を行なうことにより、前記第２の候補の少なくとも一部を第２の見出しと判定するための第２の評価処理手段と、
前記第１の見出しおよび前記第２の見出しと判定された小領域を、前記見出し領域として抽出するための抽出手段とを備える、文書画像処理装置。
前記第１の評価処理手段は、
前記第１の候補ごとに、複数のスタイル種別のうち、前記第１の候補である小領域の直後に位置する大領域と特徴が異なるスタイル種別について、前記第１の候補の特徴を含み、かつ、前記第１の候補である小領域の直後に位置する大領域の特徴を含まない第１の特徴区分を設定するための第１の設定手段と、
設定された前記第１の特徴区分に含まれる特徴を有する、前記第１の候補である小領域の直後に位置する大領域および前記第１の候補の少なくとも一方をグループ化するための第１のグループ化手段と、
前記第１の候補ごとに、前記第１のグループ化手段によりグループ化された各領域群の大きさに基づいて、第１の見出し評価度を算出するための第１の算出手段と、
算出された前記第１の見出し評価度に基づいて、各前記第１の候補の論理要素が見出しであるか否かを判定するため第１の見出し判定手段とを含み、
前記第２の評価処理手段は、
前記第２の候補ごとに、前記複数のスタイル種別のうち、前記第２の候補である小領域の直後に位置する第１の見出しと特徴が異なるスタイル種別について、前記第２の候補の特徴を含み、かつ、前記第２の候補である小領域の直後に位置する第１の見出しの特徴を含まない第２の特徴区分を設定するため第２の設定手段と、
設定された前記第２の特徴区分に含まれる特徴を有する、前記第２の候補である小領域の直後に位置する第１の見出しおよび前記第２の候補の少なくとも一方をグループ化するための第２のグループ化手段と、
前記第２の候補ごとに、前記第２のグループ化手段によりグループ化された各領域群の大きさに基づいて、第２の見出し評価度を算出するための第２の算出手段と、
算出された前記第２の見出し評価度に基づいて、各前記第２の候補の論理要素が見出しであるか否かを判定するため第２の見出し判定手段とを含む、請求項１に記載の文書画像処理装置。
前記第２のグループ化手段は、前記第２の候補ごとに、前記第２の特徴区分に含まれる特徴を有する、前記第２の候補である小領域の直後に位置する第１の見出しおよび前記第２の候補の両方をグループ化し、
前記第２の算出手段は、第１の見出し群および第２の候補群の大きさから、前記第２の見出し評価度を算出する、請求項２に記載の文書画像処理装置。
前記第２のグループ化手段は、さらに、前記第２の候補ごとに、前記第２の特徴区分に含まれない特徴を有する、前記第２の候補である小領域の直後に位置する第１の見出しおよび前記第２の候補の少なくとも一方をグループ化し、
前記第２の算出手段は、さらに、前記第２の特徴区分に含まれない各領域群の大きさを、前記第２の見出し評価度の算出に用いる、請求項２または３に記載の文書画像処理装置。
前記第２の設定手段は、さらに、前記第２の候補ごとの前記第２の見出し評価度の値に差異がなければ、前記第２の特徴区分を変更する、請求項２〜４のいずれかに記載の文書画像処理装置。
前記複数のスタイル種別は、インデント量、行揃え、前後の文字列要素領域との距離、文字列修飾、先頭文字種、終端文字種、言語種別、文字サイズ、行高さ、文字間隔、フォント、文字修飾、文字色、背景色のうちのいずれかを含む、請求項２〜５のいずれかに記載の文書画像処理装置。
前記第２の候補の特徴は、スタイル種別の特徴量であり、
前記第２のグループ化手段は、前記第２の候補の特徴値の前後所定範囲を前記第２の特徴区分として設定する、請求項２〜６のいずれかに記載の文書画像処理装置。
前記第２の候補の特徴は、スタイル種別の特徴量であり、
前記第２のグループ化手段は、前記第２の候補の特徴値と前記第２の候補である小領域の直後に位置する第１の見出しの特徴値との間を区切り点とし、前記区切り点よりも前記第２の候補の特徴値側の特徴を含むように前記第２の特徴区分を設定する、請求項２〜６のいずれかに記載の文書画像処理装置。
前記第２の見出しと判定された小領域および他の小領域の特徴を比較し、前記他の小領域のうち前記判定された小領域と類似した特徴を有する小領域を、新たな第２の見出しとして判定するための手段をさらに備える、請求項１〜８のいずれかに記載の文書画像処理装置。
前記第２の見出しが抽出された場合に、前記第２の見出しを前記第１の見出しに置き換えて、前記第２の候補判定手段および前記第２の評価処理手段の処理を繰り返すための手段をさらに備える、請求項１〜９のいずれかに記載の文書画像処理装置。
前記第２の評価処理手段は、前記第２の候補ごとに、前記第２の候補である小領域の直後に位置する第１の見出しについての前記第１の候補である小領域の直後に位置する大領域の特徴と比較し、対応の前記第１の候補である小領域の直後に位置する大領域の特徴と類似する前記第２の候補を、見出しの候補から除外するための手段をさらに含む、請求項１〜１０のいずれかに記載の文書画像処理装置。
文書画像を記憶する記憶部を備えた文書画像処理装置によって実行される、前記記憶部に記憶された前記文書画像から見出し領域を抽出するための方法であって、
前記文書画像を構成する複数の文字列要素領域を小領域と大領域とに分類するステップと、
読み順が前記大領域の直前に位置する小領域を第１の候補として判定するステップと、
前記第１の候補ごとに、当該第１の候補である小領域の直後に位置する大領域の特徴との差異に基づいて各前記第１の候補が見出しであるか否かの評価処理を行なうことにより、前記第１の候補の少なくとも一部を第１の見出しと判定するステップと、
読み順が前記第１の見出しの直前に位置する小領域を第２の候補として判定するステップと、
前記第２の候補ごとに、当該第２の候補である小領域の直後に位置する第１の見出しの特徴との差異に基づいて各前記第２の候補が見出しであるか否かの評価処理を行なうことにより、前記第２の候補の少なくとも一部を第２の見出しと判定するステップと、
前記第１の見出しおよび前記第２の見出しと判定された小領域を、前記見出し領域として抽出するステップとを備える、文書画像処理方法。
文書画像から見出し領域を抽出するためのプログラムであって、
前記文書画像を構成する複数の文字列要素領域を小領域と大領域とに分類するステップと、
読み順が前記大領域の直前に位置する小領域を第１の候補として判定するステップと、
前記第１の候補ごとに、当該第１の候補である小領域の直後に位置する大領域の特徴との差異に基づいて各前記第１の候補が見出しであるか否かの評価処理を行なうことにより、前記第１の候補の少なくとも一部を第１の見出しと判定するステップと、
読み順が前記第１の見出しの直前に位置する小領域を第２の候補として判定するステップと、
前記第２の候補ごとに、当該第２の候補である小領域の直後に位置する第１の見出しの特徴との差異に基づいて各前記第２の候補が見出しであるか否かの評価処理を行なうことにより、前記第２の候補の少なくとも一部を第２の見出しと判定するステップと、
前記第１の見出しおよび前記第２の見出しと判定された小領域を、前記見出し領域として抽出するステップとをコンピュータに実行させる、文書画像処理プログラム。