JP5098614B2

JP5098614B2 - 文章処理装置の制御方法および文章処理装置

Info

Publication number: JP5098614B2
Application number: JP2007319758A
Authority: JP
Inventors: 由夫小巻
Original assignee: Konica Minolta Business Technologies Inc
Current assignee: Konica Minolta Business Technologies Inc
Priority date: 2007-12-11
Filing date: 2007-12-11
Publication date: 2012-12-12
Anticipated expiration: 2027-12-11
Also published as: JP2009145963A

Description

この発明は、文書画像を含む電子化文書を処理する文書処理装置の制御方法および文書処理装置に関し、特に文書画像に含まれる内容領域に対して閲覧ナビゲート情報を生成する技術に関する。

省資源は、省スペースの観点から、紙原稿などに記載された文書を電子化文書に変換して管理する文書管理システムが実用化されている。このような文書管理システムではスキャナ等を用いて原稿を読取ることで文書画像を生成し、これらの文書画像から電子化文書を生成する。

このような文書画像は、文書を画素の集合である画像（イメージ）として格納するので、原稿文書に含まれる文字列や図表などの内容を特定するためのデータ（代表的に、テキストデータ等）を元来含んでいない。また、紙原稿などに記載された文書が電子化して利用できるようにデザインされているとは限らない。そのためすべての文書画像を一度には表現できないコンピュータ上の閲覧ソフト（ビューア）を用いて電子化文章を閲覧しようとする場合には、ユーザは探索的にスクロール（表現画面切換）を行なう必要があり、非常に手間のかかる作業であった。

このような電子化文書に対して、文書画像上の注目すべき箇所へ閲覧ナビゲート情報（代表的に、「しおり」もしくは「電子しおり」）をユーザが対話的に設定可能なアプリケーションソフトが実用化されている。このようなしおりを注目すべき箇所に予め設定しておくことによりユーザは探索的なスクロールを行なうことなく注目すべき箇所をすばやく閲覧することが可能である。

ここで、ユーザが文書画像を確認しながら対話的にしおりを設定することは非常に手間のかかる作業であり、多数の紙原稿などから電子化文書を生成する場合などに適用するのは現実的ではない。そこで、たとえば特開平９−２９７７６５号公報（特許文献１）においては、対話的にしおりを設定する方法として文字サイズと行数から見出し・タイトルを判定する技術が開示されている。たとえば文字サイズが最頻度の文字サイズよりも１．３倍大きい行を見出しとし、１．５倍大きい行をタイトルとするような技術が示されている。
特開平９−２９７７６５号公報

しかしながら、特開平９−２９７７６５号公報（特許文献１）には文字サイズに従って見出し・タイトル等を判定するすなわち特定のスタイルであるかどうかに基づいて見出し・タイトル等を判定することが可能であるが、文字サイズ等の当該特定のスタイル付けがない場合においては上記公報においては見出し・タイトル等を判定することはできない。

一方、ユーザにとって文字サイズ等の当該特定のスタイル付けは必ずしも必要ではなく、見出し・タイトルなどの異なる要素ごとに一貫して同じスタイル付けがなされていればそれらを区別することは可能である場合が多いと考えられる。

本発明は、上記のような問題を解決するためになされたものであって、見出し・タイトル等の内容領域を高精度に抽出することが可能な文書処理装置の制御方法および文書処理装置を提供することを目的とする。

本発明に係る文書処理方法は、文書画像を含む電子化文書を生成する文書処理方法であって、文書画像から少なくとも１つの内容領域を抽出するステップと、抽出した少なくとも１つの内容領域について、文書画像内での位置を示す位置情報および文字情報を含む属性情報を取得するステップと、内容領域の文書画像内での位置を特定するための閲覧ナビゲート情報を生成するステップとを備える。閲覧ナビゲート情報を生成するステップは、少なくとも１つの内容領域を対応する属性情報の文字情報に基づいて、少なくとも１つのグループに分類するステップと、分類された各グループに所属する内容領域に対応する属性情報の位置情報に基づいて、分類された各グループの統計量を算出するステップと、統計量の算出結果に基いて、各グループの各々を所定分類の中から判定するステップとを含む。

好ましくは、所定分類は、タイトル、見出し、ヘッダ、フッタ、本文に相当する。
好ましくは、属性情報の文字情報は、文字サイズ、文字色および文字修飾を少なくとも１つ含む。

好ましくは、文書画像は、ページ単位で区分され、分類された各グループの統計量を算出するステップは、各グループに所属する内容領域について、文書画像の区分されたページ内における内容領域の位置の平均および分散値を算出するステップと、各グループに所属する内容領域について、文書画像全体における内容領域の出現順序に従って規定された位置の平均、最小、最大および分散値を算出するステップとを含む。

特に、閲覧ナビゲート情報を生成するステップは、文書画像全体の面積を算出するステップをさらに含む。判定するステップは、文書画像全体の面積に対する各グループの総面積の割合に基いて本文相当のグループを判定するステップとを含む。

特に、判定するステップは、分類されたグループのうち本文相当のグループの位置の統計量に基いて見出し相当のグループを判定するステップをさらに含む。

特に、判定するステップは、分類されたグループのうち本文相当のグループおよび見出し相当のグループの位置の統計量に基いてタイトル相当のグループを判定するステップをさらに含む。

特に、閲覧ナビゲート情報を生成するステップは、文書画像全体の区分されたページ内における内容領域の位置の平均を算出するステップをさらに含む。判定するステップは、分類されたグループのうちの文書画像の区分された内容領域の生きの平均と、文書画像全体の区分されたページ内における内容領域の位置の平均との比較に基づいてヘッダあるいはフッタ相当のグループを判定するステップをさらに含む。

好ましくは、原稿を読み取ることで文書画像を生成するステップと、文書画像に閲覧ナビゲート情報を付加することで電子化文書を生成するステップとをさらに備える。

本発明に係る文書処理装置は、文書画像を含む電子化文書を生成する文書処理装置であって、文書画像から少なくとも１つの内容領域を抽出し、内容領域について文書画像内での位置を示す位置情報および文字情報を含む属性情報を取得する取得部と、内容領域の文書画像内での位置を特定するための閲覧ナビゲート情報を生成する情報生成部とを備える。情報生成部は、少なくとも１つの内容領域を対応する属性情報の文字情報に基づいて、少なくとも１つのグループに分類する分類手段と、分類された各グループに所属する内容領域に対応する属性情報の位置情報に基づいて、分類された各グループの位置に関する統計量を算出する算出手段と、統計量の算出結果に基いて、各グループの各々を所定分類の中から判定する判定手段とを含む。

本発明に係る文書処理方法は、少なくとも１つの内容領域を対応する属性情報の文字情報に基づいて、少なくとも１つのグループに分類し、分類された各グループに所属する内容領域に対応する属性情報の位置情報に基づいて、分類された各グループの位置に関する統計量を算出する。そして、統計量の算出結果に基いて、各グループの各々を所定分類の中から判定する。したがって、内容領域を属性情報に基づいてグループ分けし、そして、位置に関する統計量に基いて、グループを所定分類に判定するため見出し・タイトル等の内容領域を高精度に抽出することができる。

この発明の実施の形態について図面を参照しながら詳細に説明する。なお、図中の同一または相当部分については同一符号を付してその説明については繰返さない。

（実施の形態）
（全体システム構成）
図１は、本発明の実施の形態に従う文書処理装置を含むシステムの概略構成図である。

本実施の形態においては、代表的に、本発明に係る文書処理装置を搭載するＭＦＰ（Multi Function Peripheral）について説明する。なお、本発明に係る文書処理装置は、ＭＦＰに限らず、複写機、ファクシミリ装置、スキャナ装置等にも適用することができる。

図１を参照して、本発明の実施の形態に従うＭＦＰ１は、原稿３００を読取るための画像読取部１０４と、紙媒体などへの印刷処理を行なうためのプリント部１０６とを含んで構成される。

特に、本発明の実施の形態に従うＭＦＰ１は、画像読取部１０４で原稿３００を読取ることにより文書画像を取得し、この文書画像を含む電子化文書４００を生成する。代表的に、電子化文書４００には、ＰＤＦ（Portable Document Format）などのフォーマットを採用することができる。

また、ＭＦＰ１は、文書画像に含まれる内容領域を抽出して、各内容領域についての属性情報を取得するとともに、抽出した各内容領域のうち特定の領域に対して文書画像内の内容例えばタイトル・見出し等を特定するための閲覧ナビゲート情報を生成する。

本明細書において、「内容領域」とは文書に含まれる情報資源であり、行単位の内容要素（コンテンツ）である。また、明細書において「閲覧ナビゲート情報」では、ユーザによる電子化文書に含まれる文書画像の閲覧を支援するための情報であり、より具体的には、当該文書画像に含まれる内容領域のうち所定のものが存在する位置を特定するための情報である。このような閲覧ナビゲート情報は、一例として「しおり（bookmark）」、「注釈」、「スレッド」、「リンク」等を含み、文書画像における内容領域の位置を特定するための情報を少なくとも含む。なお、本発明の実施の形態においては、特に「閲覧ナビゲート情報」の代表例として「しおり」を用いる構成について説明する。

ＭＦＰ１は、生成した電子化文書４００を自身の記憶部（図示せず）に格納したり、ネットワークを介してパーソナルコンピュータＰＣ１，ＰＣ２，ＰＣ３（以下、「パーソナルコンピュータＰＣ」とも称される）に送信したりする。

代表的な使用形態として、ＭＦＰ１が設置されている同一のオフィス内に敷設されたネットワークであるＬＡＮ（Local Area Network）に接続されているパーソナルコンピュータＰＣ１，ＰＣ２に対してはＭＦＰ１から電子化文書４００が直接的に送信される。

一方、ＬＡＮとＷＡＮ（Wide Area Network）との接続点には、サーバ装置ＳＲＶが設けられており、ＭＦＰ１とは離れたオフィスにあるパーソナルコンピュータＰＣ３等に対しては、ＭＦＰ１からサーバ装置ＳＲＶを介して電子化文書４００が送信される。ここで、サーバ装置ＳＲＶは代表的に、メールサーバ、ＦＴＰ（File Transfer Protocol）サーバ、Ｗｅｂサーバ、ＳＭＢサーバ等で構成される。

画像読取部１０４は、原稿をセットするための載荷台と、原稿台ガラスと、載荷台にセットされた原稿を原稿台ガラスに自動的に１枚ずつ搬送する搬送部と、読取られた原稿を排出するための排出台とを含む。これにより複数枚の原稿を連続的に読取って、１つの電子化文書４００として生成することが可能である。

（ＭＦＰの概略構成）
図２は、本発明の実施の形態に従うＭＦＰ１における概略構成を説明するブロック図である。

図２を参照して、本発明の実施の形態に従うＭＦＰ１は、制御部１００と、メモリ部１０２と、画像読取部１０４と、プリント部１０６と、通信インターフェイス部１０８と、データ格納部１１０とを含む。

制御部１００は、代表的にはＣＰＵ（Central Processing Unit）などの演算装置から構成され、プログラムを実行することにより本発明の実施の形態に従う文書処理方法を実現する。

メモリ部１０２は、代表的にＤＲＡＭ（Dynamic Random Access Memory）などの揮発性の記憶装置であり、制御部１００で実行されるプログラムやプログラムの実行に必要なデータ等を保持する。

通信インターフェイス部１０８は、代表的にネットワーク（たとえばＬＡＮ）を介してパーソナルコンピュータＰＣとの間でデータを送受信するための部位であり、たとえばＬＡＮアダプタおよびそれを制御するドライバソフト等を含む。

プリント部１０６は、プリント処理を行なうための部位であり、プリント処理に係るハードウェア構成に加えて各部の作動を制御するための制御装置をも含む。

データ格納部１１０は、代表的にはハードディスク装置やフラッシュメモリ等の不揮発性の記憶装置であり、制御部１００で生成された電子化文書４００等を格納する。

図３は、本発明の実施の形態に従うパーソナルコンピュータＰＣの概略構成を説明するブロック図である。

図３を参照して、本発明の実施の形態に従うパーソナルコンピュータＰＣは、オペレーティングシステム（ＯＳ：Operating System）を含む各種プログラムを実行するＣＰＵ（Central Processing Unit）２０１と、ＣＰＵ２０１のプログラムの実行に必要なデータを一時的に記憶するメモリ部２１３と、ＣＰＵ２０１で実行されるプログラムを不揮発的に記憶するハードディスク部（ＨＤＤ：Hard Disk Drive）２１１とを含む。また、ハードディスク部２１１には、ＭＦＰ１で生成された電子化文書を表示するための閲覧アプリケーションが記憶されており、このようなプログラムは、ＦＤＤドライブ２１７またはＣＤ−ＲＯＭドライブ２１５によってそれぞれフレキシブルディスク２１７ａまたはＣＤ−ＲＯＭ（Compact Disc-Read Only Memory）２１５ａなどから読取られる。

ＣＰＵ２０１は、キーボードやマウス等からなる入力部２０９を介してユーザからの指示を受取るとともに、プログラムの実行によって生成される画面出力をディスプレイ部２０５へ出力する。また、ＣＰＵ２０１は、ＬＡＮカード等からなる通信インターフェイス部２０７を介してＬＡＮやＷＡＮに接続されたＭＦＰ１や、サーバ装置ＳＲＶから電子化文書を取得し、ハードディスク部２１１に格納する。また上述の各部は内部バス２０３を介して相互にデータを授受する。

図４は、本発明の実施の形態に従うＭＦＰ１における機能構成を説明するブロック図である。これらの機能は、主としてＭＦＰ１の制御部１００やメモリ部１０２等によって実現される。

図４を参照して、本発明の実施の形態に従うＭＦＰ１の機能構成としては、画像読取部１０４と、画像前処理部１２と、画像バッファ部１３と、圧縮処理部１４と、電子化文書生成部１５と、画像解析部１６と、しおりデータ生成部１７と、送信部１８と、画像処理部１９と、プリント部１０６と、データ格納部１１０とを含む。

画像読取部１０４は、原稿３００を読取って文書画像を取得し、その文書画像を画像前処理部１２へ出力する。画像前処理部１２は、主としてパーソナルコンピュータＰＣなどの表示に適するように文書画像の表示特性等を調整する。さらに画像前処理部１２が文書画像に含まれるノイズを除去することも可能である。そして、画像前処理部１２で画像処理が施された文書画像は、画像バッファ部１３へ送出される。

画像バッファ部１３は、取得された文書画像のデータを一時的に格納する部位であり、一旦格納した文書画像は圧縮処理部１４、画像解析部１６および画像処理部１９に出力される。

圧縮処理部１４は、画像バッファ部１６から出力される文書画像を圧縮処理して電子化文書生成部１５へ出力する。この圧縮処理による圧縮度合は、生成される電子化文書の大きさや、要求される文書画像の解像度などに応じて変化させることも可能であり、また、圧縮処理は，ＪＰＥＧ（Joint Photographic Experts Group）などの非可逆変換であってもよい。なお、高解像度が要求される場合には圧縮処理を省略することも可能である。

画像解析部１６は、画像バッファ部１３から出力される文書画像について各ページ毎に行単位で内容領域を抽出し、さらに抽出した各内容領域についての属性情報を取得する。ここで、属性情報には、各内容領域ごとに文書画像内での位置、当該内容領域に含まれる文字の大きさ、当該内容領域に含まれる文字の色、当該内容領域の背景色等が含まれる。これらの属性情報が、しおりデータ生成部１７へ送られる。

しおりデータ生成部１７は、画像解析部１６から出力される各内容領域の属性情報に基づいて、抽出された各内容領域のうち特定のものに対してしおりデータを生成する。そして、しおりデータ生成部１７は、生成したしおりデータを電子化文書生成部１５へ出力する。電子化文書生成部１５は、圧縮処理部１４で圧縮された文書画像に、しおりデータ生成部１７からのしおりデータを付加することで電子化文書を生成する。

そして、この生成された電子化文書は、ユーザによる設定などに応じて、データ格納部１１０へ格納され、もしくは送信部１８へ出力される。送信部１８は、通信インターフェイス部１０８によって実現され、ＬＡＮなどのネットワークを介してパーソナルコンピュータＰＣなどへ電子化文書生成部１５で生成された電子化文書を送信する。

一方、画像処理部１９は、ユーザ操作に応じて、画像バッファ部１３から出力される文書画像をプリント部１０６でのプリント動作に適した画像に変換する。代表的に、ＲＧＢ表示系で規定された文書画像をカラープリントに適したＣＭＹ系の表示系の画像データに変換することができる。このとき、プリント部１０６の特性に応じた色調整を行なうこともできる。プリント部１０６は、画像処理部１９から出力される画像データに基づいて紙媒体などへの印刷処理を実行することができる。

図５は、本発明の実施の形態に従う文書画像の一例図である。
図５を参照して、ここでは文書画像４２０が示されており、３ページからなるテキスト文書で構成されている。

図６は、図５の文書画像における内容領域の種類を説明する図である。
図６を参照して、内容領域の種類として、ここでは、「ヘッダ」、「タイトル」、「見出し」、「本文」等を指し示すものとする。

具体的には、各ページの右側上端に「ヘッダ」が設けられており、「２００４／６／８」と記述されている。１ページ目の「ヘッダ」に続いて「タイトル」である「文書サンプル」の記述がある。この記述は、「本文」と同じフォントサイズで下線で引かれており、黒色で記述されているものとする。また、「見出し」は「本文」より小さいフォントサイズで赤色で記述されているものとする。１ページ目には、「全文」と記述された「見出し」が設けられており、２ページ目には、「天皇」、「戦争の放棄」と記述された「見出し」が設けられている。また、３ページ目には、「国民の権利及び義務・・・」、「国会」と記述された「見出し」が設けられている。

また、本文はタイトルと同じフォントサイズで下線が引かれており青色で記述されているものとする。

（電子化文書の生成処理手順）
図７は、本発明の実施の形態に従う電子化文書の生成処理の具体例を説明するフロー図である。

図７のフロー図に示される処理は、制御部１００がメモリ部１０２にプログラムを読出して実行し、図４に示される各機能を制御することで実現される。

図４および図７を参照して、まず画像読取部１０４が、ユーザ設定などに応じて原稿３００を読取って文書画像を生成する（ステップＳ１００）。

次に、画像前処理部１２がこの生成された文書画像を調整する（ステップＳ１０２）。
そして調整後の文書画像は画像バッファ部１３に格納される。

続いて圧縮処理部１４が画像バッファ部１３に格納された文書画像を圧縮処理して電子化文書生成部１５へ出力する（ステップＳ１０４）。

一方、画像解析部１６が、画像バッファ部１３に格納された文書画像から内容領域を行単位で抽出する（ステップＳ１０６）。

そして、画像解析部１６が１ページ目の文書画像に含まれる内容領域に応じて、各内容領域の位置を特定するための基準となる閲覧パスを文書画像内に設定する（ステップＳ１０８）。

さらに、画像解析部１６は、抽出された各内容領域の閲覧パスを基準とする位置（「閲覧パス上の位置」）およびページ上の位置を取得する（ステップＳ１１０）。

同時に、画像解析部１６は、抽出された各内容領域の属性を求める（ステップＳ１１２）。具体的には、上述した各内容領域の「ページ」、「ページ上の位置」、「閲覧パス上の位置」に加えて「文字サイズ」、「文字色（Ｒ，Ｇ，Ｂ）」、「文字修飾」を取得する。これらは属性情報としてしおりデータ生成部１７へ出力される。

しおりデータ生成部１７は、この各内容領域の属性情報を用いて、内容領域の全体を少なくとも１つのグループに分類する（ステップＳ１１４）。

そして、その後、しおりデータ生成部１７は、文書全体における内容領域の統計量を算出する（ステップＳ１１６）。

次に、しおりデータ生成部１７は、各グループについての内容領域の統計量を算出する（ステップＳ１１８）。

そして、次に各グループの種類を判定する（ステップＳ１２０）。
具体的には、しおりデータ生成部１７は、算出された統計量に基づいて各グループの種類を判定する。

そして、次にしおりデータ生成部１７は、このように判定されたグループに従って当該グループに所属する各内容領域の文書画像内での位置を示すしおりデータを生成する（ステップＳ１１２）。

続いて、電子化文書生成部１５が、圧縮処理部１４からの（圧縮された）文書画像にしおりデータ生成部１７からのしおりデータを付加することにより電子化文書を生成する（ステップＳ１２４）。そして、電子化文書の生成処理を終了する。

（内容領域の抽出処理）
図８は、図７のステップＳ１０６における行単位における内容領域の抽出処理を説明するための図である。

図８を参照して、ここでは、図５および図６で説明した文書画像４２０について、行単位で内容領域の抽出処理を実行した結果がが示されている。

この文書画像４２０は、ページ領域４２１，４２２，４２３を含み、上述したように各ページ領域においては「タイトル」、「ヘッダ」、「見出し」、「本文」がそれぞれ記述されている。

画像解析部１６は、このような文書画像に対して文字列を含む矩形領域を行単位で順次抽出する。

そして、ここで示されるように文書画像４２０に含まれるページ領域４２１，４２２，４２３の各々において複数の内容領域４３０が抽出される。このような内容領域４３０の抽出処理については、たとえば特開平０９−１３４４０６号公報に開示されているような公知の方法を用いることができる。

ここで抽出対象とする内容領域の種別は、予め任意に設定することが可能であり、一例として「文字列」、「段落」、「図」、「表」、「写真」等を抽出対象とすることができる。なお、このような抽出対象の種別の選択についても上述したような公知の技術を用いることで実現できる。

なお、ここでは、横書き原稿に対して内容領域４３０を抽出する構成について説明するが、縦書き原稿に対しても同様に内容領域４３０を抽出することも可能である。

この場合、画像解析部１６は、紙面上下方向を「行方向」と見なして各内容領域４３０を抽出する。なお、「横書き原稿」と「縦書き原稿」との区別は、文書中の内容要素の密度に基づいて判断することができる。具体的には、一般的に「横書き原稿」においては紙面左側に内容要素が集中する一方、紙面右側の内容要素が位置する密度は低い。一方で「縦書き原稿」においては紙面上側に内容要素が集中する一方で、紙面下側の内容要素が位置する密度は低い。このような内容要素の偏在性に基づいて「横書き原稿」と「縦書き原稿」を区別することができる。

以下では、便宜上抽出された各内容領域４３０に対して「行１」〜「行２３」の識別番号を割り当てて説明するが、画像解析部１６は、このような識別番号を必ずしも割当てる必要はなく、内容領域４３０を出現順（抽出順）に並べておくことにより、内容領域を識別（特定）するようにすることも可能である。

（閲覧パスの設定処理）
図９は、図７のステップＳ１０８における閲覧パスの設定処理を説明するための図である。

図９を参照して、画像解析部１６は、抽出した内容領域４３０の位置に応じて閲覧パス４４０を設定する。より詳細には、画像解析部１６は、文書画像の行の始点側にあって、行と直交する方向に延びる閲覧パス４４０を設定する。そして、文書画像内に配置される行の先頭側に閲覧パス４４０の始点（基準点）を設定する。すなわち、閲覧パス４４０は、原稿の記述順序に対応した方向に延びる。代表的に、「横書き原稿」であれば、図９（ａ）に示すように紙面左端を紙面上から紙面下に向かう閲覧パス４４０が設定される。なお、文書画像に含まれる各ページ領域に対し同一の位置に閲覧パス４４０が設定される。そして、この閲覧パス４４０の基準点は紙面左側上に設定される。なお、「縦書き原稿」であれば紙面上端を紙面右から紙面左に向かう閲覧パスが設定される。そして、この場合の閲覧パスの基準点は紙面右上に設定される。その他については「横書き原稿」の場合と同様である。

ここで、閲覧パス４４０は、「行の始点側」に設定されるが、この「行の始点側」は抽出した内容領域４３０のうち最も始点側に位置する内容領域に応じて決定される。すなわち、閲覧パス４４０を設定するためには、文書画像に含まれる内容領域４３０のうち最も始点側に位置するものを抽出する必要がある。しかしながら、多数の原稿を画像読取部１０４で読取って電子化文書を生成する場合などには、対象となる原稿の枚数を予め知ることができない。そのためすべてのページに含まれる内容領域４３０を抽出した後に閲覧パス４４０を設定しようとすると効率が低下するおそれがある。そこで、本実施の形態に従う画像解析部１６は、文書画像４２０の１ページ目のページ領域４２１に含まれる内容領域４３０に基づいて閲覧パス４４０を設定する。具体的には画像解析部１６は、ページ領域４２１内に存在する内容領域４３０を囲む領域４５０を取得し、この領域４５０に基づいて閲覧パス４４０を設定する。

なお、本例においては、一例として１段組の文書に適用した場合について説明するが、複数段組の文書に適用することも可能である。

図９（ｂ）は、２段組された原稿に対して閲覧パスを設定する場合を説明する図である。

図９（ｂ）においては、２段組された文書画像４２０に含まれるページ領域４２４，４２５の各々において複数の内容領域４３０が抽出される。

そして、ページ領域４２４に含まれる内容領域４３０の抽出処理の結果に基いて内容領域を囲む領域４５３，４５５が取得される。この取得された領域４５３，４５５に対応付けて閲覧パス４４０が設定され、領域４５３と領域４５５が連結されるように閲覧パスが設定される。そして次ページ以降については１ページに設定した閲覧パスと同様の手順に従って順序付けが実行されることになる。

（位置取得処理）
図７のステップＳ１１０における各内容領域についての閲覧パス４４０を基準とした距離の取得処理について図９を参照して説明する。

図９を参照して、本明細書では、閲覧パス４４０上の各内容領域４３０に対応する行位置を「閲覧パス上位置」と規定する。たとえば、「閲覧パス上位置」は、符号４５２で示される距離となる。なお、「閲覧パス上位置」としては１ページ目の始点を基準として算出した「絶対値」を用いる。

なお、ステップＳ１１０において、各内容領域について、ページ番号とともに、対応するページの始点を基準として算出したページ上の位置を取得する。

このように、画像解析部１６は、抽出した内容領域４３０の各々について「閲覧パス上の位置」と「ページ上の位置」とを取得する。

（その他の属性情報の取得処理）
図８のステップＳ１１２における各内容領域の領域の属性として「文字サイズ」、「文字色」、「文字修飾」の代表値の取得処理は、公知の文字認識技術などを用いて実行することが可能である。本実施の形態に従う画像解析部１６は、各内容領域の文字認識を行なって「文字サイズ」および「文字色」、「文字修飾」を取得する。

具体的には、各内容領域が含む文字領域に相当する属性値の代表値を用いることができる。文字サイズは、抽出された内容領域の中間データから得ることができる。あるいは、抽出された内容領域の高さから判断することも可能である。

文字色は、文字領域に含まれる背景色以外の画素値の代表値であり、背景色をＲＧＢ（１，１，１）の場合を白とし、背景色以外の画素値の平均値を求めることにより算出される。

文字修飾の種類としては太字、下線、囲み等があり、文字修飾の種類の判定は、文字色の密度やランレングスの分布等を用いることによって識別する。なお、これらの属性値は絶対的な属性値を判断する必要はなく相対的に区別できる程度のデータを用いることが可能である。

ここで各内容領域に文字の大きさや文字色等が複数の種類含まれる場合には、最も頻度の高いものの値もしくはすべての値についての平均値を採用することも可能である。

（属性情報）
図１０は、図８に示す文書画像４２０から取得される各内容領域の属性情報の具体例を説明する図である。

図１０を参照して、画像解析部１６は、文書画像４２０から抽出した各内容領域４３０について、データ欄４６１〜４６７に記述されているようなデータを属性情報として出力する。

ここで、この図１０におけるデータ欄４６７に格納されている「グループＩＤ」については、後述するしおりデータ生成部１７を決定するため画像解析部１６が出力する属性情報には含まれない。

（グループへの分類処理）
図１１は、図７のステップＳ１１４におけるグループへの分類処理を説明するフロー図である。なお、当該分類処理は、しおりデータ生成部１７で実行される。

図１１を参照して、まずグループＩＤテーブルを初期化する（ステップＳ１１）。そして、次に各内容領域の閲覧パス上の位置を参照して、先頭から順に属性情報を取得する（ステップＳ１２）。

そして、次に各属性（文字サイズ、文字色、文字修飾）を参照して、グループＩＤテーブルに類似した属性のテーブルがあるかどうかを判断する（ステップＳ１３）。

ステップＳ１３において、類似した属性のテーブルがなければ、グループＩＤテーブルに新規テーブルを追加して各属性値を格納する。そして、新規テーブルのＩＤをグループＩＤとする（ステップＳ１４）。

一方、ステップＳ１３において各属性を参照して、グループＩＤテーブルに類似した属性のテーブルがある場合には、類似したテーブルのＩＤをグループＩＤとする（ステップＳ１５）。

そして、すべての内容領域にグループＩＤを付与したかどうかを判断する（ステップＳ１６）。全ての内容領域についてグループＩＤを付与した場合にはグループの分類を終了する。

一方、ステップＳ１６においてすべての内容領域にグループＩＤを付与していない場合には、ステップＳ１２に戻り、上述の処理を繰り返して次の内容領域についてのグループＩＤの付与を実行する。

図１２は、図１０の内容領域の属性情報に基いて分類されたグループＩＤテーブルを説明する一例図である。

ここでは、図１１のステップＳ１５において、文字サイズが±１の範囲は類似であるものとし、また、文字色については色相が変化しない範囲は類似であるものとした場合において分類されたグループＩＤテーブルが示されている。

たとえば、図１１を参照してステップＳ１３において、行１については文字サイズが「５」であり、文字色（Ｒ，Ｇ，Ｂ）が（０，０，０）黒であり文字修飾がないのでグループＩＤ番号１となる。同様にして行１〜行２３についてそれぞれグループ分けしてグループＩＤ番号を付与する。

本例においては、グループＩＤのＩＤ番号１〜４がそれぞれ設けられ、属性パターンとして、文字サイズが「５」、文字色（Ｒ，Ｇ，Ｂ）が（０，０，０）の黒、文字修飾がなしのグループＩＤ番号１と、文字サイズが「１０」、文字色（Ｒ，Ｇ，Ｂ）が（０，０，０）の黒、文字修飾として下線がある場合のグループＩＤ番号２と、文字サイズが「８」で、文字色（Ｒ，Ｇ，Ｂ）が（０．８〜１，０，０）の赤、文字修飾がないグループＩＤ番号３と、文字サイズが「１０〜１０．５」で、文字色（Ｒ，Ｇ，Ｂ）が（０，０，０．５〜０．８）の青、文字修飾として下線がある場合のグループＩＤ番号４の４つの属性パターンのテーブルが示されている。

このように、しおりデータ生成部１７は、属性値の各々について分類を行ない、これらの分類結果を統合してグループＩＤを決定する。すなわち、しおりデータ生成部１７は、各属性値の分類結果に応じた処理に従って、内容領域について少なくとも１つのグループに分類する。

上述したようなグループへの分類処理は、文書内に現われる種別（たとえば、「タイトル」、「見出し」等）を共通にする内容領域同士をグルーピングするための処理である。すなわちこのような種別を共通にする内容領域同士は、いずれも類似した「文字サイズ」や文字色や文字修飾を有していると考えられるため、上述のように近似した属性情報を有する内容領域同士をグルーピングすることにより文書内の種別に応じた分類処理を実現することが可能である。

そして、図１０のデータ４６７に示されるように上記グループＩＤテーブルに基いて行１〜行２３のそれぞれについてグループＩＤが付与されることになる。

（統計量の算出処理）
図１３は、文書内の各内容領域についての閲覧パス上の位置の分布を説明する図である。ここで、横軸が閲覧パス上の位置を指し示し、縦軸が面積を指し示す。そして、各内容領域についてグループＩＤ番号に従ってプロットされている場合が示されている。

図１４は、文書内の各内容領域についてのページ上の位置の分布を説明する図である。ここで、横軸が閲覧パス上の位置を指し示し、縦軸が面積を指し示す。そして、各内容領域についてグループＩＤ番号に従ってプロットされている場合が示されている。

しおりデータ生成部１７は、図７のステップＳ１１６において、上記画像解析部１６からの各内容領域４３０の属性情報に基いて文書全体の統計量を算出する。具体的には、図１３および図１４のデータに基づいて内容領域の位置の統計量を算出する。さらに、グループ分けされた内容領域の領域数および総面積等の統計量も算出する。

図１５は、ステップＳ１１６において文書全体についての内容領域の統計量を算出した結果を説明する図である。

図１５を参照して、ここでは、文書全体の内容領域数、内容領域数の総面積、内容領域のページ上の位置の平均値および分散値ならびに閲覧パス上の位置の平均値および分散値が示されている。一例として、領域数が「２３」であり総面積が「１０４５９」であり、ページ上の位置の平均が「１９．７」であり、分散値が「１８６．０」、閲覧パス上の位置の平均値が「６９．１」、分散値が「１６３８．２」として示されている。

図１６は、ステップＳ１１８において各グループＩＤの統計量を算出した結果を説明する図である。

図１６を参照して、ここでは、各グループにおいて含まれる内容領域の領域数、各グループにおいて含まれる内容領域の総面積、内容領域のページ上の位置の平均値および分散値、閲覧パス上の位置の平均値および分散値が算出される。なお、総面積の括弧書き内には、文章全体の総面積に対する割合が示されている。

一例として、グループＩＤ番号１である場合の領域数は「３」であり、総面積は「１８０」、ページ上の位置の平均値は「１．３」、分散値は「０．２」として算出された場合が示されている。また閲覧パス上の位置の平均値は「４８．８」、最小値は「２」、最大値は「９５」、分散値は「１４４１．６」として算出された場合が示されている。同様にして、グループＩＤ番号２〜４についても同様の方式に従って計算される。

そして、これらの結果に基づいて図７で説明したステップＳ１２０において各グループの種類が判定される。

具体的には、総面積、ページ上の位置の分散値等、閲覧パス上の位置の分散値等に基いて、判定される。

図１７は、各グループの種類を判定するフロー図である。
図１７を参照して、全体の統計量と各グループの統計量とを比較して、本文、ヘッダあるいはフッタ相当のグループを求める（ステップＳ２２）。

具体的には、次表に示される判定条件に基いて本文、ヘッダあるいはフッタ相当のグループを求める。

ここで、総面積、ページ上の位置の分散、閲覧パス上の位置の分散について、全体の値に近い大きな値を持つグループを本文相当グループと判定する。より具体的には、一例としてそれぞれについて全体の統計量の値の５０％以上の値であるグループを本文相当グループとする。本文相当グループは、一般的なレイアウトを考えると文章全体の中で一番領域数が多く総面積が大きいと考えられ、また、それぞれ分散して配置されるためページ上あるいは閲覧パス上の位置として偏りがなく、分散の値も大きいと考えられる。したがって、該当する条件に当てはまるグループを本文相当グループと判定する。

次に、総面積が全体の値と比較して小さく、ページ上の位置の分散も全体の値よりも極めて小さく、閲覧パス上の位置の分散が全体の値に近い大きな値を持つグループをヘッダあるいはフッタ相当グループと判定する。ヘッダ相当グループは、一般的なレイアウトを考えると領域数が少なく総面積が小さいと考えられ、また、ページ上の位置としては、ページ毎に上部領域の一部領域を用いて配置される場合が多いためページ上の位置の分散の値は極めて小さいと考えられる。また、閲覧パス上の位置としては、ページ毎に満遍なく配置されるため分散の値は大きくなると考えられる。より具体的には、一例として総面積が全体の値の２０％以下、ページ上の位置の分散値が全体の値の５％以下、また、閲覧パス上の位置が全体の値の５０％以上の値であるグループをヘッダあるいはフッタ相当グループと判定する。

なお、ヘッダあるいはフッタ相当グループと判定された場合に、ヘッダ相当グループとするか、フッタ相当グループとするかは、ページ上の位置の平均値で判定することができる。ヘッダあるいはフッタは、文章内の付加的な部分であり、一般的なレイアウトを考えると、ヘッダは、ページ毎に最上部領域に位置し、フッタは、ページの最下部領域に位置すると考えられる。したがって、より具体的には、一例としてページ上の位置の平均値が全体の値の平均値よりも小さい場合には、ヘッダ相当グループと判定する。また、ページ上の位置の平均値が全体の値の平均値よりも大きい場合には、フッタ相当グループと判定する。

図１６を参照して、本例においては、一例としてグループＩＤ番号４の統計量が全体の統計量と比較した場合、総面積、ページ上の位置の分散、閲覧パス上の位置の分散について、全体の値に近い大きな値を持つため本体相当のグループであると判定することが可能である。

また、本例においては、一例としてグループＩＤ番号１の統計量が全体の統計量と比較した場合、総面積が全体の値と比較して小さく、ページ上の位置の分散も全体の値よりも極めて小さく、閲覧パス上の位置の分散が全体の値に近い大きな値を持つためヘッダあるいはフッタ相当のグループであると判定することが可能である。そして、この場合、ページ上の位置の平均値は、全体の値の平均値よりも小さいため、ヘッダ相当グループと判定することが可能である。

次に、再び図１７を参照して、本文相当グループの統計量と未判定のグループの統計量とを比較して見出し相当のグループを求める（ステップＳ２３）。

具体的には、次表に示される判定条件に基いて見出し相当のグループを求める。

ここで、総面積が本文相当グループの値よりも小さい値を持ち、閲覧パス上の位置の平均の値が本文相当グループの値に近い値を持ち、閲覧パス上の位置の分散の値が本文相当グループの値に近い大きな値を持つグループを見出し相当グループと判定する。見出し相当グループは、一般的なレイアウトを考えると、見出しは対応する本文相当箇所に比べて、文字数が少なく占める面積は小さいという特徴がある。また、対応する本文相当箇所の近くに配置されるため閲覧パス上の位置の平均値は本文相当グループの閲覧パス上の位置の平均値に近いと考えられる。また、本文相当グループと同様に、それぞれ分散して配置されるため閲覧パス上の位置として偏りがなく、分散の値も大きいと考えられる。

より具体的には、一例として未判定の対象となるグループの総面積が本文相当グループの総面積よりも少なく、また、閲覧パス上の位置の平均の値が本文相当グループの値に近い値を持つか否かを判定するために、未判定の対象となる閲覧パス上の位置の平均値について、本文相当グループの閲覧パス上の位置の平均値との差分の絶対値が本文相当グループの閲覧パス上の位置の平均値の３０％以下であり、さらに、未判定の対象となる閲覧パス上の位置の分散値が本文相当グループの閲覧パス上の位置の分散値の７０％以上であるグループを見出し相当のグループと判定する。

図１６を参照して、本例においては、一例としてグループＩＤ番号３の統計量が本文相当グループと比較した場合、総面積、閲覧パス上の位置の平均および閲覧パス上の位置の分散について、上述の条件を満たすため見出し相当のグループであると判定することが可能である。

次に、再び図１７を参照して、見出し、本文相当グループの統計量と、未判定のグループの統計量とを比較して、まずタイトル候補のグループを求める（ステップＳ２４）。

具体的には、次表に示される判定条件に基いてタイトル候補のグループを求める。

ここで、見出し、本文相当グループの閲覧パス上の位置の最小値の中で最小の値を求め、その値よりも閲覧パス上の位置の最大値が大きい未判定のグループをタイトル候補のグループと判定する。タイトル候補グループは、一般的なレイアウトを考えると、タイトルは、位置としては、見出し、本文相当グループの内容領域の位置よりも前にある場合が多いと考えられるため、閲覧パス上の位置は、見出し、本文相当グループの最小値よりも小さいと考えられる。

図１６を参照して、本例においては、一例としてグループＩＤ番号２の統計量が見出し、本文相当グループと比較した場合、閲覧パス上の位置について、上述の条件を満たすためタイトル候補のグループであると判定することが可能である。

次に、再び図１７を参照して、次に、タイトル候補として判定された中からタイトル相当のグループを判定する。具体的には、まず、タイトル候補のグループが複数あるかどうかを判定する（ステップＳ２５）。ステップＳ２５において、タイトル候補グループが複数ある場合には、総面積が大きい方をタイトル相当のグループと判定する（ステップＳ２７）。一般的なレイアウトを考えると、タイトルは、文字サイズが大きく総面積としては、複数のタイトル候補グループがある場合には、その中の一番大きいものと考えられる。

一方、タイトル候補グループが１つしかない場合には、当該タイトル候補グループをタイトル相当のグループと判定する（ステップＳ２６）。

図１６を参照して、本例においては、一例としてグループＩＤ番号３のみがタイトル候補のグループに該当するためタイトル相当のグループと判定することが可能である。

次に、再び図１７を参照して、上記において求められたそれぞれのグループから領域個別の属性を用いてさらに絞り込みを行う（ステップＳ２７）。例えば、見出し相当のグループに所定数以上の領域が含まれる場合には、一部の内容領域をグループから削除することも可能である。一例として、見出し相当のグループとして求められた場合、領域数の個数が２以上の場合に文字サイズが大きいものを残して他を削除することも可能である。これにより、例えば、見出し相当のグループに含まれる全ての内容領域を出力するのではなく、内容領域の局所的な属性を用いて一部を選択的に出力することにより１ページ当たりのしおり数を制限することが可能となる。

上述した処理によって得られた情報に基づいてしおりデータ生成部１７は、選択された内容領域の文書画像内での位置を示すしおりデータを文書画像に付加することにより電子化文書４００を生成する。

図１８は、電子化文書生成部１５が生成する電子化文書のデータ構成の一例を示す図である。

図１８（ａ）を参照して電子化文書は、ヘッダ部４０２と、本体部４０４と、しおりデータ部４０５と、フッダ部４０６とから構成される。

ヘッダ部４０２およびフッタ部４０６には電子化文書の属性についての情報、たとえば作成日時・作成者・著作権情報等が格納される。

本体部４０４は、各ページに対応する文書画像が格納される。また、しおりデータ部４０５には、しおりデータ生成部１７が生成したしおりデータが格納される。

図１８（ｂ）に示されるように、複数のページデータとしおりデータがあり、ページツリーとしおり階層を介してドキュメントカテゴリの下に配置される構成を取る。具体的には、ページツリーにページ間の順序が記述される。

図１９は、しおりデータ部４０５のデータ構造の一例を示す図である。
図１９を参照して、しおりデータ部４０５には、選択されたグループの内容領域の文書画像内での位置を示す位置情報が格納される。本例においては、タイトルおよび見出しの内容領域に対してしおりデータが生成される場合について説明する。

たとえば、「しおり１」として格納される位置情報である「ページ１，（４）」は、対象となる内容領域が文書画像の「１」ページ目で、「ページ上の位置」が「４」であることを示している。当該「しおり１」は、グループＩＤ番号２のタイトルに対応するものである。

また、「しおり２」として格納される位置情報である「ページ１，（１４）」は、対象となる内容領域が文書画像の「１」ページ目で、「ページ上の位置」が「１４」であることを示している。当該「しおり２」は、グループＩＤ番号３の見出しに対応するものである。なお、他のしおりについても同様にしおりデータが生成されるものとする。

上述のような処理により文書画像に含まれる各内容領域に応じてグループ分けをして分類することにより、効率的にしおり等の閲覧ナビゲート情報を生成することができる。

なお、本例においては電子化文書４００は、タイトル、ヘッダ、フッタ、見出し、本文のそれぞれに１つのグループが割当てられる構成について説明したが、複数のグループが割当てられる場合についても同様に適用することが可能である。

また、本実施の形態においては内容領域の属性として、領域内の文字サイズ、文字色、文字修飾の種類を用いてグルーピングする方式について説明したが、それ以外の文字を特定する属性情報を用いることも可能である。

たとえば、フォントの識別、インデント位置、センターリング・右揃え等の文字揃え、前後左右の余白の大きさ、領域の幅、高さと幅の比率等の文字の属性情報を用いることも可能である。

また、より多様なスタイルを持つ文書画像に対応するために文字修飾の種類としては太字、下線、囲みの他にイタリック体、幅広文字などを識別して属性パターンに含めることも可能である。

本実施の形態においては、原稿をスキャンすることにより簡単な操作で適切な位置にしおりが自動的に設定されたＰＤＦ形式の電子化文書を得ることができるため、電子化文書の閲覧時にＰＤＦビューアのしおり機能を使った効率的な文書の閲覧が可能となる。

また、上記の実施の形態においてはしおりが設定されたＰＤＦ形式の電子化文書を生成するＭＦＰに関するものについて説明したが、特にＭＦＰに限られず、文書画像から抽出したタイトル・見出し等の領域についてしおり機能を利用する他の機器においても同様に適用することが可能である。

また、タイトル・見出し等の領域に対して選択的に文字認識処理を行ない文字コードを文書画像の検索キーとして生成する方式や、タイトル・見出し等の領域に相当する画像を組合せて、目次や要約を生成する方式にも適用可能である。本方式によりさまざまなスタイルの文書画像に対し適切なタイトル・見出し等の領域の抽出が可能となり、有用な検索キー、目次や要約等も生成することが可能である。

上述の実施の形態においては、本発明に係る処理がＭＦＰ１で実行される場合について説明したが、原稿３００を読取るための画像読取機能を備えたコンピュータにおいて上記処理が実行されてもよい。この場合には、コンピュータを文書処理装置として機能させるための図４に示された処理機能を実行させるプログラムを提供することもできる。このようなプログラムは、コンピュータに付属するフレキシブルディスク、ＣＤ−ＲＯＭ（Compact Disk-Read Only Memory）、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random Access Memory）およびメモリカードなどのコンピュータ読取り可能な記憶媒体にて記憶させて、プログラム製品として提供することもできる。あるいは、コンピュータに内蔵するハードディスクなどの記憶媒体にて記憶させて、プログラムを提供することもできる。また、ネットワークを介したダウンロードによって、プログラムを提供することもできる。

また、画像読取機能を他の装置またはコンピュータで実現した上で、生成された文書画像を受取って、上記のような処理に従って閲覧ナビゲート情報のみを生成してもよい。また、文書画像と閲覧ナビゲート情報とが同一の電子化文書に含まれる構成について例示したが、必ずしも同一の電子化文書に閲覧ナビゲート情報を付加しなくてもよく、別のファイルとして出力してもよい。

なお、本発明にかかるプログラムは、コンピュータのオペレーティングシステム（ＯＳ）の一部として提供されるプログラムモジュールのうち、必要なモジュールを所定の配列で所定のタイミングで呼出して処理を実行させるものであってもよい。その場合、プログラム自体には上記モジュールが含まれずＯＳと協働して処理が実行される。このようなモジュールを含まないプログラムも、本発明にかかるプログラムに含まれ得る。

また、本発明にかかるプログラムは他のプログラムの一部に組込まれて提供されるものであってもよい。その場合にも、プログラム自体には上記他のプログラムに含まれるモジュールが含まれず、他のプログラムと協働して処理が実行される。このような他のプログラムに組込まれたプログラムも、本発明にかかるプログラムに含まれ得る。

提供されるプログラム製品は、ハードディスクなどのプログラム格納部にインストールされて実行される。なお、プログラム製品は、プログラム自体と、プログラムが記憶された記憶媒体とを含む。

今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

本発明の実施の形態に従う文書処理装置を含むシステムの概略構成図である。本発明の実施の形態に従うＭＦＰ１における概略構成を説明するブロック図である。本発明の実施の形態に従うパーソナルコンピュータＰＣの概略構成を説明するブロック図である。本発明の実施の形態に従うＭＦＰ１における機能構成を説明するブロック図である。本発明の実施の形態に従う文書画像の一例図である。図５の文書画像における内容領域の種類を説明する図である。本発明の実施の形態に従う電子化文書の生成処理の具体例を説明するフロー図である。図７のステップＳ１０６における行単位における内容領域の抽出処理を説明するための図である。図７のステップＳ１０８における閲覧パスの設定処理を説明するための図である。図８に示す文書画像４２０から取得される各内容領域の属性情報の具体例を説明する図である。図７のステップＳ１１４におけるグループへの分類処理を説明するフロー図である。図１０の内容領域の属性情報に基いて分類されたグループＩＤテーブルを説明する一例図である。文書内の各内容領域についての閲覧パス上の位置の分布を説明する図である。文書内の各内容領域についてのページ上の位置の分布を説明する図である。ステップＳ１１６において文書全体についての内容領域の統計量を算出した結果を説明する図である。ステップＳ１１８において各グループＩＤの統計量を算出した結果を説明する図である。各グループの種類を判定するフロー図である。電子化文書生成部１５が生成する電子化文書のデータ構成の一例を示す図である。しおりデータ部４０５のデータ構造の一例を示す図である。

符号の説明

１ＭＦＰ、１２画像前処理部、１３画像バッファ部、１４圧縮処理部、１５電子化文書生成部、１６画像解析部、１７しおりデータ生成部、１８送信部、１９画像処理部、１００制御部、１０２メモリ部、１０４画像読取部、１０６プリント部、１０８，２０７通信インターフェイス部、１１０データ格納部、２０１ＣＰＵ、２０３内部バス、２０５ディスプレイ部、２０９入力部、２１１ＨＤＤ、２１３メモリ部、２１５ＣＤ−ＲＯＭドライブ、２１７ＦＤＤドライブ。

Claims

文書画像を含む電子化文書を生成する文書処理装置の制御方法であって、
文書画像から少なくとも１つの内容領域を抽出するステップと、
抽出した前記少なくとも１つの内容領域について、前記文書画像内での位置を示す位置情報および文字情報を含む属性情報を取得するステップと、
前記内容領域の前記文書画像内での位置を特定するための閲覧ナビゲート情報を生成するステップとを備え、
前記閲覧ナビゲート情報を生成するステップは、
前記少なくとも１つの内容領域を対応する属性情報の文字情報に基づいて、少なくとも１つのグループに分類するステップと、
分類された各グループに所属する内容領域に対応する前記属性情報の位置情報に基づいて、分類された各グループの統計量を算出するステップと、
前記統計量の算出結果に基いて、各グループの各々を所定分類の中から判定するステップとを含み、
前記文書画像は、ページ単位で区分され、
前記分類された各グループの統計量を算出するステップは、
各グループに所属する内容領域について、前記文書画像の区分されたページ内における内容領域の位置の平均および分散値を算出するステップと、
各グループに所属する内容領域について、文書画像全体における内容領域の出現順序に従って規定された位置の平均、最小、最大および分散値を算出するステップとを含む、文書処理装置の制御方法。
前記所定分類は、タイトル、見出し、ヘッダ、フッタ、本文に相当する、請求項１記載の文書処理装置の制御方法。
前記属性情報の文字情報は、文字サイズ、文字色および文字修飾を少なくとも１つ含む、請求項１記載の文書処理装置の制御方法。
前記閲覧ナビゲート情報を生成するステップは、前記文書画像全体の面積を算出するステップをさらに含み、
前記判定するステップは、前記文書画像全体の面積に対する各グループの総面積の割合に基いて本文相当のグループを判定するステップとを含む、請求項１記載の文書処理装置の制御方法。
前記判定するステップは、分類されたグループのうち本文相当のグループの位置の統計量に基いて見出し相当のグループを判定するステップをさらに含む、請求項４記載の文書処理装置の制御方法。
前記判定するステップは、分類されたグループのうち本文相当のグループおよび見出し相当のグループの位置の統計量に基いてタイトル相当のグループを判定するステップをさらに含む、請求項５記載の文書処理装置の制御方法。
前記閲覧ナビゲート情報を生成するステップは、前記文書画像全体の区分されたページ内における内容領域の位置の平均を算出するステップをさらに含み、
前記判定するステップは、分類されたグループのうちの前記文書画像の区分された内容領域の位置の平均と、前記文書画像全体の区分されたページ内における内容領域の位置の平均との比較に基づいてヘッダあるいはフッタ相当のグループを判定するステップをさらに含む、請求項１記載の文書処理装置の制御方法。
原稿を読み取ることで前記文書画像を生成するステップと、
前記文書画像に前記閲覧ナビゲート情報を付加することで前記電子化文書を生成するステップとをさらに備える、請求項１記載の文書処理装置の制御方法。
文書画像を含む電子化文書を生成する文書処理装置であって、
文書画像から少なくとも１つの内容領域を抽出し、内容領域について前記文書画像内での位置を示す位置情報および文字情報を含む属性情報を取得する取得部と、
前記内容領域の前記文書画像内での位置を特定するための閲覧ナビゲート情報を生成する情報生成部とを備え、
前記情報生成部は、
前記少なくとも１つの内容領域を対応する属性情報の文字情報に基づいて、少なくとも１つのグループに分類する分類手段と、
分類された各グループに所属する内容領域に対応する前記属性情報の位置情報に基づいて、分類された各グループの統計量を算出する算出手段と、
前記統計量の算出結果に基いて、各グループの各々を所定分類の中から判定する判定手段とを含み、
前記文書画像は、ページ単位で区分され、
前記算出手段は、
各グループに所属する内容領域について、前記文書画像の区分されたページ内における内容領域の位置の平均および分散値を算出する第１算出手段と、
各グループに所属する内容領域について、文書画像全体における内容領域の出現順序に従って規定された位置の平均、最小、最大および分散値を算出する第２算出手段とを含む、文書処理装置。