JP2011039839A

JP2011039839A - 文書処理装置、文書処理方法および文書処理プログラム

Info

Publication number: JP2011039839A
Application number: JP2009187381A
Authority: JP
Inventors: Koji Fujiwara; 浩次藤原
Original assignee: Konica Minolta Business Technologies Inc
Current assignee: Konica Minolta Business Technologies Inc
Priority date: 2009-08-12
Filing date: 2009-08-12
Publication date: 2011-02-24

Abstract

【課題】図中テキストと背景付きテキストとを判別することにより、精度良く見出し領域を抽出することのできる文書処理装置、文書処理方法および文書処理プログラムを提供する。
【解決手段】文書処理装置１は、文書画像から、テキスト領域および非テキスト領域を特定し（ステップＳ４〜８）、特定されたテキスト領域のうち、非テキスト領域と重なったテキスト領域を、重畳テキスト領域として検出する（ステップＳ１０）。非テキスト領域のうち、重畳テキスト領域が重なった領域について、背景グラフィックである度合いを表わす背景度を算出し（ステップＳ１２）、背景度の算出結果に基づいて、重畳テキスト領域のうち、見出し領域の候補から除外するための図中テキストを検出する（ステップＳ１４）。
【選択図】図６

Description

本発明は、文書処理装置、文書処理方法および文書処理プログラムに関し、特に、文書画像から見出し領域を検出することのできる文書処理装置、文書処理方法および文書処理プログラムに関する。

スキャン文書（文書画像）から自動で見出し領域を抽出する技術において、図中テキスト（図の中に存在するテキスト要素）や図キャプション（図の近傍に存在するテキスト要素）が見出しとして誤検出されることがある。図中テキストや図キャプションは、本文とは独立しているためである。

このような誤検出を避けるために、特許文献１では、図の近傍内のテキストについては見出しとして検出しないことが記載されている。

また、特許文献２では、文書画像の空白領域を解析することにより文書要素に分解し、その過程でキャプションが検出できた場合は図表と認識し、そのキャプションと図表近傍のテキストとを図表の一部とみなすことが記載されている。

特開平６−１５００５８号公報特開平５−９４５３５号公報

しかしながら、見出しとして検出すべき背景付きテキストがスキャン文書に含まれていた場合、上記のような従来技術を適用すると、背景付きテキストとテキスト付きの図とを区別できないため、見出しの検出漏れを起こしてしまう。つまり、背景付きテキストも図中テキスト（図，表などと重なっているテキスト）と認識されるため、背景付きテキストが見出し候補から除外されてしまうという問題がある。このように、背景付きテキストとテキスト付きの図とを区別できないことが、新たな検出精度低下の要因の一つとなっていた。

本発明は、上記のような問題を解決するためになされたものであって、その目的は、図中テキストと背景付きテキストとを判別することにより、精度良く見出し領域を抽出することのできる文書処理装置、文書処理方法および文書処理プログラムを提供することである。

この発明のある局面に従う文書処理装置は、文書画像から見出し領域を抽出するための文書処理装置であって、文書画像から、第１のテキスト領域および第１の非テキスト領域を特定するための特定手段と、特定された第１のテキスト領域のうち、第１の非テキスト領域と重なったテキスト領域を、第２のテキスト領域として検出するための第１の検出手段と、第１の非テキスト領域のうち、第２のテキスト領域が重なった第２の非テキスト領域について、背景グラフィックである度合いを表わす背景度を算出するための算出手段と、背景度の算出結果に基づいて、第２のテキスト領域のうち、見出し領域の候補から除外するための第３のテキスト領域を検出するための第２の検出手段とを備える。

好ましくは、第２の非テキスト領域内の画像の画像情報を記憶するための記憶手段をさらに備え、算出手段は、画像情報に基づいて得られる、第２の非テキスト領域内の画像における色または輝度の不均一度から、背景度を算出する。

より望ましくは、算出手段は、第２の非テキスト領域から、第２のテキスト領域との重なりを除いた部分における画像についての、色または輝度の不均一度を算出する。

好ましくは、算出手段は、第２の非テキスト領域に対する、第２のテキスト領域の位置から、背景度を算出する。

好ましくは、算出手段は、第２の非テキスト領域内の、複数の第２のテキスト領域の規則性から、背景度を算出する。

好ましくは、第２のテキスト領域の位置として、第２のテキスト領域が第２の非テキスト領域に完全に含まれるか否かを検出することににより、背景度を算出する。

好ましくは、複数の第２のテキスト領域の規則性として、第２のテキスト領域の先頭位置または中心位置の行方向へのばらつきの有無を検出することににより、背景度を算出する。

好ましくは、第２の検出手段は、第２のテキスト領域のうち、背景度が予め定められたしきい値以下である第２の非テキスト領域を検出し、検出された第２の非テキスト領域に重なった第２のテキスト領域を、第３のテキスト領域として検出する。

好ましくは、第２の検出手段は、各第２のテキスト領域について、重なった第２の非テキスト領域の背景度の総和を求め、総和または総和の平均が予め定められたしきい値以下である第２のテキスト領域を、第３のテキスト領域として検出する。

好ましくは、第１の検出手段は、第１の非テキスト領域と所定の割合以上重なったテキスト領域を、第２のテキスト領域として検出する。

好ましくは、算出手段は、第２の非テキスト領域のうち、第２のテキスト領域の周囲の特定の範囲内に限定して、色または輝度の不均一度による背景度を算出する。

好ましくは、特定手段は、文書画像から複数の初期テキスト領域を抽出するための抽出手段と、予め定められた複数種類の特徴種別に基づいて初期テキスト領域を分割するための分割手段とを含み、第１のテキスト領域は、分割手段による処理後のテキスト領域を表わす。

この発明の他の局面に従う文書処理方法は、制御部を備えた文書処理装置において、文書画像から見出し領域を抽出するための方法であって、制御部が、文書画像から、第１のテキスト領域および第１の非テキスト領域を特定するステップと、制御部が、特定された第１のテキスト領域のうち、第１の非テキスト領域と重なったテキスト領域を、第２のテキスト領域として検出するステップと、制御部が、第１の非テキスト領域のうち、第２のテキスト領域が重なった第２の非テキスト領域について、背景グラフィックである度合いを表わす背景度を算出するステップと、制御部が、背景度の算出結果に基づいて、第２のテキスト領域のうち、見出し領域の候補から除外するための第３のテキスト領域を検出するステップとを備える。

この発明のさらに他の局面に従う文書処理プログラムは、文書画像から見出し領域を抽出するためのプログラムであって、文書画像から、第１のテキスト領域および第１の非テキスト領域を特定するステップと、特定された第１のテキスト領域のうち、第１の非テキスト領域と重なったテキスト領域を、第２のテキスト領域として検出するステップと、第１の非テキスト領域のうち、第２のテキスト領域が重なった第２の非テキスト領域について、背景グラフィックである度合いを表わす背景度を算出するステップと、背景度の算出結果に基づいて、第２のテキスト領域のうち、見出し領域の候補から除外するための第３のテキスト領域を検出するステップとをコンピュータに実行させる。

本発明によると、非テキスト領域と重なるテキスト領域のうち、見出し領域の候補から除外するためのテキスト領域（すなわち、図中テキスト）を検出することができる。その結果、見出し領域を精度良く検出することができる。

本発明の実施の形態に従う文書処理装置を含むシステムの概略構成図である。本発明の実施の形態に従う文書処理装置（ＭＦＰ）における概略のハードウェア構成を示すブロック図である。本発明の実施の形態に従う文書処理装置の操作パネル部の外観例を示す図である。本発明の実施の形態に従う端末の概略のハードウェア構成を示す模式図である。本発明の実施の形態に従う文書処理装置の機能構成を示す機能ブロック図である。本発明の実施の形態に従う電子化文書生成処理を示すフローチャートである。文書画像の一例を示す図である。文書要素抽出直後の文書要素管理情報の一例を示す図である。文字認識実行後の文書要素管理情報の一例を示す図である。テキスト要素の分割後の文書要素管理情報の一例を示す図である。各テキスト要素について、見出し候補か否かが判別された場合の文書要素管理情報の一例を示す図である。重畳テキスト領域（非テキスト領域に重なるテキスト領域）の例を示す図である。重畳テキスト領域の他の例を示す図である。テキスト管理情報の一例を示す図である。本発明の実施の形態において文書処理装置が生成する電子化文書のデータ構造の一例を示す図である。見出しメタデータのデータ構造の一例を示す図である。本発明の実施の形態の変形例１において、背景度の算出に用いられる領域を説明するための図である。本発明の実施の形態の変形例１において、背景度の算出に用いられる領域を説明するための図である。

本発明の実施の形態について図面を参照しながら詳細に説明する。なお、図中同一または相当部分には同一符号を付してその説明は繰返さない。

＜構成について＞
（全体システム構成）
図１は、本発明の実施の形態に従う文書処理装置を含むシステムの概略構成図である。本実施の形態においては、代表的に、本発明に係る文書処理装置を搭載するＭＦＰ（Multi Function Peripheral）について説明する。なお、本発明に係る文書処理装置は、ＭＦＰに限らず、ＰＣ（Personal Computer）、複写機、ファクシミリ装置、スキャナ装置などにも適用可能である。

図１を参照して、本実施の形態に従うＭＦＰ１は、原稿３００を読取るための画像読取部１０４と、紙媒体などへの印刷処理を行なうためのプリント部１０６とを含む。

特に、本実施の形態に従うＭＦＰ１は、画像読取部１０４で原稿３００を読取ることで文書画像を取得し、この文書画像を含む電子化文書を生成する。この際、ＭＦＰ１は、読取った文書画像に含まれる文書要素のうち「見出し」であると特定されたものについて、付属情報を生成する。そして、ＭＦＰ１は、読取った文書画像に付属情報を付加して、電子化文書４００を生成する。代表的に、電子化文書４００にはＰＤＦ（Portable Document Format）などのフォーマットを採用できる。

「文書要素」とは、文書を構成する記述要素である。「付属情報」は、「メタデータ（meta data）」とも称される。付属情報は、少なくとも文書画像内における位置を特定す
るための位置データを含み、さらに、たとえば各文書要素に対応するテキストデータなどを含んでもよい。付属情報は、たとえば「しおり」である。

ＭＦＰ１は、インターネットを介して、メールサーバＭＳおよび複数の端末ＰＣ１，ＰＣ２（以下、「端末ＰＣ」という）と接続されている。

画像読取部１０４は、原稿をセットするための戴荷台と、原稿台ガラスと、戴荷台にセットされた原稿を原稿台ガラスに自動的に一枚ずつ搬送する搬送部と、読取られた原稿を排出するための排出台とを含む（いずれも図示しない）。これにより、複数枚の原稿を連続的に読取って、一つの電子化文書として生成することができる。

（ＭＦＰ１の概略構成）
図２は、本発明の実施の形態に従うＭＦＰ１における概略のハードウェア構成を示すブロック図である。

図２を参照して、ＭＦＰ１の機能構成としては、制御部１００と、メモリ部１０２と、画像読取部１０４と、プリント部１０６と、通信インターフェイス部１０８と、操作パネル部１１０と、記憶部１１２とを含む。

制御部１００は、代表的にＣＰＵ（Central Processing Unit）などの演算装置から構
成され、プログラムを実行することで本実施の形態に従う文書処理を実現する。メモリ部１０２は、代表的にＤＲＡＭ（Dynamic Random Access Memory）などの揮発性の記憶装置であり、制御部１００で実行されるプログラムやプログラムの実行に必要なデータなどを保持する。通信インターフェイス部１０８は、代表的に、インターネットを介して端末ＰＣ（図１）との間でデータを送受信するための部位であり、たとえば、ＬＡＮアダプタおよびそれを制御するドライバソフトなどを含む。プリント部１０６は、プリント処理を行なうための部位であり、プリント処理に係るハードウェア構成に加えて、各部の作動を制御するための制御装置をも含む。記憶部１１２は、代表的にハードディスク装置やフラッシュメモリなどの不揮発性の記憶装置であり、制御部１００の動作のためのプログラムや制御部１００で生成された電子化文書などを格納する。

操作パネル部１１０の外観例を図３に示す。操作パネル部１１０は、液晶表示装置やタッチパネルなどから構成される表示パネル１１０ａと、ストップボタン１１０ｂと、スタートボタン１１０ｃと、英数キーなどを含む操作ボタン１１０ｄとを備えている。

なお、本実施の形態では、表示機能と指示の入力機能とを兼ね備えた操作パネル部１１０を備えることとしたが、これに代えて、表示部とハードウェアボタンを含む入力部との両方を備えることとしてもよい。

（端末の構成）
図４は、本発明の実施の形態に従う端末ＰＣの概略のハードウェア構成を示す模式図である。

図４を参照して、端末ＰＣは、たとえば一般的なパーソナルコンピュータであり、オペレーティングシステム（ＯＳ：Operating System）を含む各種プログラムを実行するＣＰＵ（Central Processing Unit）２０１と、ＣＰＵ２０１でのプログラムの実行に必要なデータを一時的に記憶するメモリ部２１３と、ＣＰＵ２０１で実行されるプログラムを不揮発的に記憶するハードディスク部（ＨＤＤ：Hard Disk Drive）２１１とを含む。また、ハードディスク部２１１には、文書データ（ＭＦＰ１で生成された電子化文書を含む）を表示するための閲覧アプリケーションプログラム（以下、「ビューワ」という）、および、文書データを印刷するための印刷ドライバソフトが記憶されている。このようなプログラムは、ＦＤＤドライブ２１７またはＣＤ−ＲＯＭドライブ２１５によって、それぞれフレキシブルディスク２１７ａまたはＣＤ−ＲＯＭ（Compact Disk-Read Only Memory）２１５ａなどから読取られてよい。

ＣＰＵ２０１は、キーボードやマウスなどからなる入力部２０９を介してユーザからの指示を受取るとともに、プログラムの実行によって生成される画面出力をディスプレイ部２０５へ出力する。また、ＣＰＵ２０１は、ＬＡＮカードなどからなる通信インターフェイス部２０７を介して、ＬＡＮやＷＡＮに接続されたＭＦＰ１やサーバ装置（図示せず）から電子化文書を取得し、ハードディスク部２１１などに格納する。また、上述の各部は、内部バス２０３を介して相互にデータを授受する。

なお、端末ＰＣは、パーソナルコンピュータに限定されず、携帯電話などの携帯端末であってもよい。その場合の端末ＰＣは、図４においてＦＤＤドライブ２１７やＣＤ−ＲＯＭドライブ２１５などを取り除いたものとほぼ等価であるので、詳細な説明は繰返さない。

（ＭＦＰの機能構成）
本実施の形態におけるＭＦＰ１は、テキスト領域と非テキスト領域とが重なっている場合に、テキスト領域と重なっている非テキスト領域が、テキストの背景であるか否かを検出する。これにより、非テキスト領域と重なっているテキスト領域（以下「重畳テキスト領域」ともいう）が、図中テキストおよび背景付きテキストのいずれに対応するかが検出される。そして、図中テキストと判定されたテキスト領域については、見出し領域として判定しないことで、見出し領域を精度良く検出することができる。

なお、本実施の形態において、テキストの背景であると判断された非テキスト領域を「背景グラフィック」という。背景ではないと判断された非テキスト領域を「図領域」という。

また、「図中テキスト」とは、背景ではないと判断された非テキスト領域（図領域）に重なるテキスト領域を表わす。「背景付きテキスト」とは、背景と判断された非テキスト領域（背景グラフィック）に重なるテキスト領域を表わす。

以下に、ＭＦＰ１の具体的な機能構成例を示す。
図５は、本発明の実施の形態に従うＭＦＰ１の機能構成を示す機能ブロック図である。

図５を参照して、ＭＦＰ１の機能構成としては、画像読取部１０４と、画像バッファ部１２と、圧縮処理部１４と、特定部１８と、図中テキスト検出部２６と、見出し検出部２８と、メタデータ生成部３０と、電子化文書生成部３２と、通信インターフェイス部１０８と、記憶部１１２とを含む。

画像読取部１０４は、原稿３００を読取って文書画像を取得し、その文書画像を画像バッファ部１２へ出力する。画像バッファ部１２は、画像読取部１０４が逐次的に出力する文書画像のデータを一時的に格納する部位であり、一旦格納した文書画像を圧縮処理部１４および文書要素抽出部２０に出力する。

圧縮処理部１４は、画像バッファ部１２から出力される文書画像を圧縮処理して、電子化文書生成部３２へ出力する。この圧縮処理による圧縮度合いは、生成される電子化文書の大きさや、要求される文書画像の解像度などに応じて変化させてもよく、また圧縮処理はＪＰＥＧ（Joint Photographic Experts Group）などの非可逆変換であってもよい。なお、高解像度が要求される場合などには、圧縮処理を省略してもよい。

特定部１８は、文書画像からテキスト領域および非テキスト領域を特定する。ここで特定されるテキスト領域および非テキスト領域は、１つの段落、１つの図など、まとまりごとに特定される。本実施の形態では、特定部１８は、文書要素抽出部２０と、文字認識部２２と、テキスト要素分割部２４とを含む。

文書要素抽出部２０は、画像バッファ部１２から出力される文書画像を解析し、当該文書画像に含まれる文書要素を抽出する。文書要素としては、テキスト要素、非テキスト要素がある。各文書要素は、矩形領域として検出される。テキスト要素の領域すなわち、テキスト領域の抽出は、たとえば、特開平６−２１４９８３号公報に開示される方法により可能である。また、その認識処理の過程において、図、写真、表など非テキスト要素の領域すなわち、非テキスト領域も抽出する。

文書要素抽出部２０は、また、テキスト要素について、「段（段組）」を検出し、さらに、各段の「行方向」、および、各段の「接続情報」を検出する。そして、抽出した各段の接続情報に基づいて、テキスト領域をハンドリングする。このようにして検出されたテキスト領域を、「初期テキスト領域」という。また、初期テキスト領域内のテキスト要素を「初期テキスト要素」という。

段はたとえば、「図書の電子のための文書認識技術（鎌田博、藤本克仁、黒川浩司）、雑誌FUJITSU、VOL.49,No.6、1998」に開示された公知技術で検出することができる。各段の接続情報は、各段が、文脈等からどの段に接続されるべきかを示す情報（すなわち段の順序を示す情報）であり、たとえば特開平１０−４０２４８号公報に開示される公知の技術で検出することができる。行方向の検出は、周知の方法で検出することができる。

文書要素抽出部２０は、各文書要素の文書画像内における位置も抽出する。そして、初期テキスト領域について抽出された位置情報は、文字認識部２２に出力される。

文字認識部２２は、文書要素抽出部２０にて抽出された初期テキスト領域について、文字認識すなわち、ＯＣＲ（Optical Character Recognition）を実行する。具体的には、初期テキスト領域の各行について、文字認識処理により文字列を抽出する。これにより、各初期テキスト領域中の画像は、行単位でテキストデータに変換される。行単位のテキストデータは、テキスト要素分割部２４に出力される。

テキスト要素分割部２４は、文書要素抽出部２０で抽出された初期テキスト領域（要素）を、本文・見出しが混在したり異なる種類の見出し同士が混在したりしないように、予め定められた条件に基づいて分割する。具体的には、たとえば、初期テキスト領域は、行単位のテキストデータの属性（特徴）に基づいて分割される。

テキスト要素分割部２４は、たとえば、特開平６−２１４９８３号公報の参考文献に開示されているような複数種類の行特徴を用いて、各初期テキスト領域を分割することができる。

本実施の形態では、次のような種類の行特徴（以下「特徴種別」という）すなわち、行間、文字間隔、行の高さ、行揃え（左揃え／中央揃え／右揃え）、インデント（上記参考文献では「オフセット」）、字下げの有無（上記参考文献では「第１行オフセット」）、特定行頭文字（上記参考文献では「小タイトル」）が用いられる。なお、本実施の形態では、行間、文字間隔、行高さ、インデントについては、予め定められた間隔で量子化された値を用いるものとする。

テキスト要素分割部２４は、分割後の初期テキスト領域すなわち、見出し判別の処理対象となるテキスト領域の各々の要素について、上記のような特徴種別を利用して要素種別を判別する。

テキスト要素分割部２４は、テキスト要素ごとに、文書画像中の対応する位置を示す位置データ、要素種別、および、テキスト要素に含まれる少なくとも一部の文字列データ（ＯＣＲテキスト）を図中テキスト検出部２６に出力する。

本実施の形態では、上記のような手法によって、以下の処理対象となるテキスト領域（テキスト要素）と非テキスト領域（非テキスト要素）とを特定したが、上記手法に限定されない。

図中テキスト検出部２６は、図などの非テキスト領域と位置が重なるテキスト領域を、「重畳テキスト領域」として検出する。そして、重畳テキスト領域と重なる非テキスト領域が、背景グラフィックか否かを判定する。つまり、重畳テキスト領域と重なる非テキスト領域の画像が、背景グラフィックか、それ以外（図、表、写真など）であるかが判定される。

これにより、背景グラフィックと判定された非テキスト領域と重なる重畳テキスト領域の要素が、背景付きテキストとして検出される。背景グラフィックでないと判定された非テキスト領域（すなわち図領域）と重なる重畳テキスト領域が、図中テキストとして検出される。このように、重畳テキスト領域と判定された文書要素が、図中テキストと背景付きテキストとに分類される。

背景グラフィックか否かの具体的な判定方法については後述する。
図中テキスト検出部２６は、図中テキストと判定されたテキスト要素を見出し検出部２８に通知する。

見出し検出部２８は、まず、テキスト要素分割部２４から得られる複数のテキスト領域のうち、図中テキストと判定されたものを除外する。そして、除外後のテキスト領域の中から見出し領域を検出する。言い換えると、除外後のテキスト領域で特定されるテキスト要素が、見出し要素として検出される。

具体的には次の手順により、見出し要素が抽出される。
まず、見出し検出部２８は、上記７つの特徴種別（行間、文字間隔、行の高さ、行揃え、インデント、字下げの有無、特定行頭文字）に基づいて、各テキスト要素をクラスタリングし、テキスト要素をグループ化する。つまり、同じような特徴量（属性）を有するテキスト要素を同一のグループとする。

また、各テキスト要素について、上記特徴種別それぞれの特徴量に基づいて、統合見出し度を算出する。統合見出し度の算出方法については後述する。

そして、統合見出し度が予め定められたしきい値以上のテキスト要素を特定する。特定されたテキスト要素を、見出し要素として検出（特定）する。なお、グループ単位で見出し要素を特定してもよい。たとえば、グループ内の統合見出し度の平均値が予め定められたしきい値以上のグループを特定し、特定されたグループ内のテキスト要素を、見出し要素として特定してもよい。

メタデータ生成部３０は、見出し検出部２８により見出し要素と検出されたテキスト要素について、位置データとテキストデータとを含むメタデータを生成する。そして、メタデータ生成部３０は、生成したメタデータを電子化文書生成部３２へ出力する。

電子化文書生成部３２は、圧縮処理部１４からの（圧縮された）文書画像に、メタデータ生成部３０からのメタデータを付加することで、電子化文書を生成する。

電子化文書生成部３２は、生成した電子化文書をユーザによる設定などに応じて、記憶部１１２へ格納し、または通信インターフェイス部１０８へ出力する。通信インターフェイス部１０８は、電子化文書生成部３２で生成された電子化文書をＬＡＮなどのネットワークを介して、端末ＰＣ（図１）などへ送信する。

なお、図５に示した各機能ブロックの動作は、メモリ部１０２中に格納されたソフトウェアを実行することで実現されてもよいし、少なくとも１つについては、ハードウェアで実現されてもよい。

＜動作について＞
図６は、本発明の実施の形態に従う電子化文書生成処理を示すフローチャートである。図６のフローチャートに示される電子化文書生成処理は、制御部１００がプログラムをメモリ部１０２などに読出して実行し、図５に示される各機能を制御することで実現される。

図５および図６を参照して、まず、画像読取部１０４が原稿３００を（光学的に）読取って文書画像を生成する（ステップＳ２）。この生成された文書画像は、画像バッファ部１２に格納される。そして、圧縮処理部１４が、画像バッファ部１２に格納された文書画像を圧縮処理して、電子化文書生成部３２へ出力する。電子化文書生成部３２において、公知の手法により電子化文書が生成される。

一方、文書要素抽出部２０が、画像バッファ部１２に格納された文書画像を解析し、文書画像中の文書要素を抽出する（ステップＳ４）。具体的には、初期テキスト領域（要素）および非テキスト領域（要素）が抽出される。文書要素の抽出について図７および図８を用いて説明する。

図７は、生成された文書画像の一例を示す図である。図８は、文書要素抽出直後の文書要素管理情報の一例を示す図である。

たとえば、図７に示すような画像を１頁目に持つ文書に対し、文書要素を抽出したとする。その場合、図８のような文書要素管理情報が得られる。

図８を参照して、文書要素管理情報は、６つの項目すなわち、要素ＩＤ、頁番号、領域左上座標、領域右下座標、要素種別および、ＯＣＲテキストの項目を含む。

要素ＩＤは、各文書要素を一意に特定するための識別データである。なお、後の説明をし易くするために、図８では、要素ＩＤ“３”は存在していない。

頁番号は、対応の文書要素が存在するページを特定するための位置データである。また、領域左上座標および領域右下座標は、対応のテキスト要素のページ内での領域（矩形）を特定するための位置データである。領域左上座標および領域右下座標は、対応するテキスト要素の領域のサイズを特定するための情報でもある。

要素種別は、対応する文書要素の種別（セクション見出し、本文、図など）を特定するための情報である。なお、この時点では、テキスト要素の要素種別は検出されていないため、要素種別の項目において、テキスト要素と非テキスト要素（図，表，写真）とが区別されているのみである。

ＯＣＲテキストは、対応するテキスト要素の少なくとも一部のテキストデータである。なお、この時点では、ＯＣＲ実行前なので、未検出であることを示すフラグ（＊）が記述されている。

再び図６を参照して、文書要素が抽出されると、文字認識部２２は、各初期テキスト領域の画像について文字認識（ＯＣＲ）を実行する（ステップＳ６）。これにより、行単位のテキストデータが生成される。この時点で、文書要素管理情報におけるＯＣＲテキストの項目に、認識された文字列が格納される。

図９は、文字認識実行後の文書要素管理情報の一例を示す図である。
図９を参照して、ＯＣＲテキストの項目には、たとえば、最初の１行目の文字列のみ格納される。または、行頭文字から所定バイト数の文字列のみが格納されてもよい。

続いて、テキスト要素分割部２４は、各初期テキスト領域を、上記７つの特徴種別（行間、文字間隔、行の高さ、行揃え、インデント、字下げの有無、特定行頭文字）を用いて分割する（ステップＳ８）。初期テキスト領域が分割されると、分割後の各領域が以降の処理対象のテキスト領域として特定される。これにより、初期テキスト要素が分割される。

図１０は、テキスト要素の分割後の文書要素管理情報の一例を示す図である。
図１０を参照して、図８，９における要素ＩＤ“４”の初期テキスト要素が、２つに分割されている。図１０における要素ＩＤ“３”のテキスト要素は、図８，９における要素ＩＤ“４”の初期テキスト要素の一部である。図１０における要素ＩＤ“４”のテキスト要素は、図８，９における要素ＩＤ“４”の初期テキスト要素の残りの部分である。

本実施の形態では、この時点において、各テキスト要素が本文であるか見出し候補であるかが暫定的に判別される。なお、この時点で見出し候補には、要素種別が「タイトル（表題）」、「セクション（章・節・項）見出し」、「図中テキスト（仮）」が含まれる。

要素種別の判別は、上述の特開平６−２１４９８３号公報の参考文献など、公知の技術により実現可能である。

各テキスト要素について、テキスト要素の種別が暫定的に判別された場合の文書要素管理情報の一例を図１１に示す。

本実施の形態では、「図中テキスト（仮）」と判別されたテキスト要素が、図中テキストおよび背景付きテキストのいずれであるかを判定する。そして、後に詳述するように、図中テキストを除外した見出し候補の統合見出し度を算出することにより、見出しか否かを検出する。したがって、本実施の形態によると、図１１において見出し候補であったテキスト要素から、精度良く見出しを抽出することができる。

次に、図中テキスト検出部２６は、重畳テキスト領域を検出する（ステップＳ１０）。つまり、ステップＳ８で得られたテキスト領域のうち、ステップＳ４で抽出された各非テキスト領域に、所定の割合（たとえば３割）以上重なるものを検出する。本実施の形態では、各要素の位置が矩形領域として抽出されているため、各要素を囲む領域同士で重なりを判定できる。

重畳テキスト領域の例を、図１２および図１３に示す。
図１２に示した文書画像では、２つの非テキスト領域ＡＲ１０，ＡＲ２０がある。非テキスト領域ＡＲ１０に重なるテキスト領域ＴＸ１１（「２．詳細内容」）が、重畳テキスト領域として検出される。また、非テキスト領域ＡＲ２０に重なるテキスト領域ＴＸ２１（「減少傾向」）も、重畳テキスト領域として検出される。

図１３に示した文書画像では、２つの非テキスト領域ＡＲ３０，ＡＲ４０がある。非テキスト領域ＡＲ３０に重なるテキスト領域ＴＸ３１（「世界経済のトレンド」）およびテキスト領域ＴＸ３２（「−ＢＲＩＣＳの台頭−」）が、重畳テキスト領域として検出される。また、非テキスト領域ＡＲ４０に重なるテキスト領域ＴＸ４１（「ロシア」）、テキスト領域ＴＸ４２（「中国」）およびテキスト領域ＴＸ４３（「インド」）も、重畳テキスト領域として検出される。

続いて、重畳テキスト領域と重なる各非テキスト領域について、背景度を算出する（ステップＳ１２）。背景度は、（見出しを含む可能性のある）背景グラフィックである可能性の高さを示す。背景度を“Ｂ”で表わすと、背景度Ｂは、以下の式（１）により算出される。

Ｂ＝１／（ｗ_ｃＣ＋ｗ_ｉＩ＋ｗ_ｔＴ） …（１）
ただし、ｗ_ｃ，ｗ_ｉ，ｗ_ｔ：予め定められた重み係数。

“Ｃ”は、「判定対象画像」の色および／または輝度の不均一度を示す。「判定対象画像」とは、非テキスト領域内の画像であって、たとえば、非テキスト領域内における、重畳テキスト領域を除いた部分の画像を表わす。または、判定対象画像は、非テキスト領域から、重畳テキスト領域内における文字，記号などを構成している線や点のみが刳り貫かれた部分の画像であってもよい。

不均一度Ｃは、たとえば、判定対象画像のＲＧＢ値の共分散行列の対角和として算出される。あるいは、不均一度Ｃは、画像のエッジの総量として算出されてもよい。あるいは、ＲＧＢ値に代えてＣＭＹＫ値などを用いてもよい。また、輝度を用いて、公知の手法により不均一度Ｃが算出されてもよい。

不均一度Ｃは、均一である程低く、不均一である程高くなる。その結果、判定対象画像の色および／または輝度が均一である程、背景度は高くなる。

このように、判定対象画像の不均一度Ｃを算出するためには、判定対象画像についての画像情報が別途記憶されているものとする。本実施の形態では、たとえば、頁ごとに、テキスト部分のみの画像とテキスト以外（文字，記号などを構成している線や点のみが刳り貫かれた部分）の画像とを記憶している（これらの画像を合成すると元の画像となる）。本実施の形態では、両画像の画像情報は、画素単位で記憶されるが、限定的ではない。

なお、非テキスト領域の画像から重畳テキスト領域（矩形）を除いた部分を判定対象画像として、背景度を求めてもよい。または、（重畳テキスト領域を含んだ）非テキスト領域の画像を判定対象画像として背景度を求めてもよいが、上述の手法と比較すると精度は落ちる。

“Ｉ”は、位置ずれ度を表わし、重畳テキスト領域が非テキスト領域に完全に含まれる場合に「０」、そうでない場合には予め定められた正の定数として算出される。その結果、非テキスト領域内に重畳テキスト領域が完全に含まれる場合の方が、そうでない場合に比べて、背景度は高くなる。

“Ｔ”は、ばらつき度を表わし、一つの非テキスト領域に、複数個の重畳テキスト領域が含まれている場合に、以下に説明する値Ｔ１，Ｔ２のうち小さい方の値として算出される。値Ｔ１は、重畳テキスト領域中のテキスト行の先頭位置の行方向への画像座標の分散として算出される。値Ｔ２は、重畳テキスト領域中のテキスト行の中心位置の行方向への画像座標の分散として算出される。その結果、複数個の重畳テキスト領域の行の先頭位置または中心位置が統一されている（ばらつきが小さい）程、背景度は高くなる。なお、一つの非テキスト領域に一つの重畳テキスト領域しか含まれていない場合には、ばらつき度Ｔには、所定値（たとえば「０」）が代入されてよい。

上記式（１）により背景度Ｂが算出されると、図中テキスト検出部２６は、背景度Ｂが予め定められたしきい値以上である非テキスト領域を、背景グラフィックと特定する。それ以外の非テキスト領域を図領域と判定する。図領域と判定された非テキスト領域に重なる重畳テキスト領域を、図中テキストとして検出する（ステップＳ１４）。

図１２および図１３に示した例では、非テキスト領域ＡＲ１０のような着色された矩形や、非テキスト領域ＡＲ３０のような色帯が、背景グラフィックとして検出される。非テキスト領域ＡＲ１０，ＡＲ３０は、色（輝度）が均一であり、重畳テキスト領域を完全に含んでおり、かつ、非テキスト領域ＡＲ３０のように２以上の重畳テキスト領域がある場合でもこれらの行方向のばらつきが少ないためである。

これに対し、非テキスト領域ＡＲ２０内の表や、非テキスト領域ＡＲ４０内の図は、図領域と判定される。非テキスト領域ＡＲ２０，ＡＲ４０は、色（輝度）が均一でなく、重畳テキスト領域を完全に含んでいないか、完全に含んでいたとしても、非テキスト領域ＡＲ４０のように２以上の重畳テキスト領域がある場合にこれらの行方向のばらつきが大きいためである。

図６のステップＳ１０〜Ｓ１４の処理の結果は、テキスト管理情報に格納される。
図１４は、テキスト管理情報の一例を示す図である。テキスト管理情報は、たとえばメモリ部１０２に一時記憶される。

図１４を参照して、テキスト管理情報は、５つの項目すなわち、要素ＩＤ、重畳フラグ、図フラグ、要素グループおよび、見出しフラグの項目を含む。

テキスト管理情報における要素ＩＤは、図１１の文書要素管理情報に含まれるテキスト要素の要素ＩＤを表わす。

重畳フラグは、対応するテキスト要素が重畳テキストか否かを示す識別データである。たとえば、重畳テキストと検出されたテキスト要素の重畳フラグは「１」にセットされ、他は「０」とされる。

図フラグは、対応するテキスト要素（重畳テキスト）が図中テキストか否かを示す識別データである。たとえば、図中テキストとして検出したテキスト要素の図フラグは「１」にセットされ、それ以外は「０」とされる。

要素グループＩＤ（＝グループＩＤ）は、対応するテキスト要素が属するグループを一意に特定するための識別データであり、後述のステップＳ１６の処理で決定される。なお、本実施の形態のような、テキスト要素のグループ化をした場合、同じ要素種別（たとえばセクション見出し）であっても、同じグループとは限らない。また逆に、異なる要素種別であったとしても、同一グループとなり得る。

見出しフラグは、対応するテキスト要素が見出しか否かを示す識別データである。たとえば、見出しであれば「１」、それ以外（非見出し）であれば「０」がセットされる。見出しか否かは、後述のステップＳ２０の処理で判定される。

図６を再び参照して、次に、見出し検出部２８は、図中テキスト以外のテキスト要素を上記７つの特徴種別に基づいてグループ化する（ステップＳ１６）。このように、見出し検出部２８は、ステップＳ８で特定された複数のテキスト要素から、ステップＳ１４にて図中テキストと判定されたテキスト要素（つまり、図フラグが１にセットされたテキスト要素）を、見出し要素の検出対象から除外する。

グループ化処理がされると、各要素ＩＤに対応付けて、グループＩＤを記憶する。
なお、本実施の形態では上記７つの特徴種別（行間、文字間隔、行の高さ、行揃え、インデント、字下げの有無、特定行頭文字）を用いて初期テキスト領域の分割、および、テキスト要素のグループ化を行なうこととしたが、これら全ての特徴種別を用いなくてもよい。また、分割に用いる特徴種別とグループ化に用いる特徴種別とが完全に一致していなくてもよい。ただし、分割およびグループ化の精度をある程度高く保つためには、７つの特徴種別のうち、行の高さ、行揃えおよびインデントは必ず用いることが好ましい。

見出し検出部２８は、対象のテキスト要素（図フラグが１ではないテキスト要素）ごとに、統合見出し度を算出する（ステップＳ１８）。この処理について、具体的に説明する。

各特徴種別ｉについては、特徴種別の各値に対して、個別見出し度ｈｉ（ｖｉ）が予め設定されている。たとえば、特徴種別ｉを「文字サイズ」と仮定すると、その特徴量（ｖｉ）：…、１０、１２、…それぞれに対して、見出しらしさを表わす個別見出し度ｈｉ：…、５０、１００、…が予め設定されている。

本実施の形態では、たとえば、特徴種別ごとに、特徴種別の各値と個別見出し度とが対応付けられたテーブルが、メモリ部１０２に予め記憶されている。

各テキスト要素ｋについて、各個別見出し度に初期設定の重みｗｉを掛ける。そして、個別見出し度の重み付け総和により、テキスト要素ｋごとの統合見出し度Ｈｋが算出される。

統合見出し度Ｈｋは、以下の式（２）により求められる。

なお、初期設定の重み係数ｗｉは、たとえば、多数の文書を対象にした実験の結果に基づいて、予め定められている。

統合見出し度が算出されると、見出し検出部２８は、見出し要素を検出する（ステップＳ１４）。具体的には、グループごとに、統合見出し度の平均値を算出し、算出された平均値が予め定められたしきい値以上のグループを特定する。特定されたグループ内の全てのテキスト要素を見出し要素として検出する。統合見出し度の平均値が予め定められたしきい値未満のグループのテキスト要素を非見出し要素と特定する。

なお、本実施の形態では、上記のような手法で、見出し要素を検出した。しかし、見出し要素の検出方法は、このような手法に限定されず、たとえば、公知の線形・非線形の識別器（たとえば、ニューラルネットワーク、サポートベクターマシン、ＬＶＱ（Learning vector quantization））などを適用可能である。これらの識別器についても、重みまたはそれと同等の意味を持つパラメータが存在し、同様の処理を行なうことができる。

または、公知の手法により判別された要素種別が、「タイトル（表題）」および「セクション（章・節・項）見出し」と判別されたテキスト要素を、見出し要素として検出してもよい。

見出し検出部２８は、見出し要素と判定したテキスト要素の見出しフラグを「１」にセットする。

見出し検出部２８は、見出し検出が終わると、見出しフラグが１（見出し）であるテキスト要素についての文書要素データをメタデータ生成部３０に出力する。具体的には、図１１の文書要素管理情報のうち、見出しと判定された各テキスト要素について６項目のデータを出力する。その後、ステップＳ２２に進む。

ステップＳ２２において、メタデータ生成部３０は、見出し検出部２８より入力した情報に基づいて、見出し要素についてのメタデータ（見出しメタデータ）を生成する。そして、電子化文書生成部３２が、圧縮処理部１４からの（圧縮された）文書画像に、メタデータ生成部３０からの見出しメタデータを付加する（埋め込む）ことで、電子化文書を生成する（ステップＳ１１６）。

さらに、ユーザの設定に応じて、電子化文書の出力処理が実行される（ステップＳ２４）。具体的には、通信インターフェイス部１０８から、ネットワークを介して接続された所定の送信先に電子化文書が送信される。もしくは、ユーザの設定に応じて、記憶部１１２の所定のディレクトリに電子化文書が格納される。

以上で、本実施の形態における電子化文書の生成処理は終了する。
＜電子化文書の構造例について＞
図１５は、本発明の実施の形態においてＭＦＰ１が生成する電子化文書４００のデータ構造の一例を示す図である。

図１５を参照して、電子化文書４００は、ヘッダ部４０２と、文書画像部４０４と、メタデータ部４０６と、フッタ部４０８とからなる。ヘッダ部４０２およびフッタ部４０８には、電子化文書４００の属性についての情報、たとえば作成日時・作成者・著作権情報などが格納される。文書画像部４０４には、各ページに対応する文書画像が格納される。なお、この文書画像は、上述したように圧縮された状態で格納されてもよい。メタデータ部４０６には、文書画像に含まれる見出し要素を特定するための見出しメタデータが格納される。

図１６は、見出しメタデータのデータ構造の一例を示す図である。
図１６を参照して、見出しメタデータには、図１１に示した文書要素管理情報のうち、見出しと特定されたテキスト要素すなわち、見出し要素についての情報が格納される。

具体的には、見出しメタデータには、見出し要素ごとに、要素ＩＤ、頁番号、領域左上座標、領域右下座標、要素種別、ＯＣＲテキストが含まれる。見出しメタデータに含まれるこれらのデータは、既に説明済みであるため、ここでの説明は繰返さない。

以上のように、本実施の形態によると、テキスト領域と重なる非テキスト領域が背景グラフィックか否かが検出される。したがって背景グラフィックと判定された非テキスト領域と重なるテキスト領域を、見出し候補として見出し検出の対象とすることができる。その結果、見出し要素（領域）を精度良く検出することができる。

なお、本実施の形態では、非テキスト領域の背景度の算出に、色（輝度）の均一度、重なり度合い（重なる位置）、および、複数の重畳テキスト領域の行方向のばらつきを用いた。しかし、これら全てを用いるものに限定されず、これらのうち１つまたは２つを用いてもよい。ただし、色（輝度）の均一度は、背景度の算出に含めることが好ましい。

また、上記実施の形態では、図中テキストと判別されたテキスト領域は、見出し要素検出処理（図６のステップＳ１６〜Ｓ２０）の前に見出し候補から除外されることとした。しかしながら、全てのテキスト要素について見出し要素検出処理を行なった後で、図中テキストを見出し要素から除外してもよい。

または、文書要素抽出処理（ステップＳ４）において、図中テキストを判別し、要素分割（図６のステップＳ８）以降の処理で、図中テキストと判別された領域を除外してもよい。

＜変形例１＞
背景度のパラメータＣ（色（輝度）の不均一度）を算出する対象の画像すなわち、判定対象画像の変形例について説明する。

上記実施の形態では、判定対象画像は、非テキスト領域内における、重畳テキスト領域を除いた部分の画像として説明した。つまり、判定対象画像を囲む矩形は、非テキスト要素を囲む矩形と一致していた。

本実施の形態の変形例１について、図１７および図１８を参照してより詳細に説明する。

図１７を参照して、非テキスト要素の外形が、矩形ではない飾り枠５０１であるとする。その場合、非テキスト領域は、破線５０２で囲まれた領域である。

上記実施の形態では、判定対象画像を囲む矩形は、破線で示された矩形５０２と一致していたため、飾り枠５０１自体も色（輝度）の不均一度の算出対象となっていた。

判定対象画像を囲む矩形は、非テキスト領域を囲む矩形（破線５０２）よりも内側に設定されてもよい。たとえば、判定対象画像を囲む矩形は、重畳テキスト領域５０３の周囲の所定範囲の位置（矩形５０４）としてもよい。矩形５０４は、たとえば、重畳テキスト領域５０３を所定倍率分だけ拡大した領域である。

判定対象画像を、矩形５０４で囲まれる領域内とすることにより、飾り枠５０１の影響で、本来背景グラフィックである非テキスト要素の領域を、図領域と誤検出する可能性を低減することができる。

また、用紙をスキャンする際に、画像を歪んで読み込んでしまった場合にも対応できる。図１８を参照して、判定対象画像を、非テキスト領域を囲む矩形（破線５１２）よりも内側であって、テキスト領域５１３の周囲の所定範囲の位置（矩形５１４）とすることで、斜めに歪んだ非テキスト領域の矩形枠５１１が、色（輝度）の不均一度の算出への影響を低減することができる。

なお、矩形５０４，５１４は、重畳テキスト領域５０３，５１３を所定倍分拡大した領域であるとしたが、限定的ではない。たとえば、矩形５０４，５１４は、重畳テキスト領域５０３，５１３の各辺より所定の長さ分だけ範囲を広げた領域であってもよい。あるいは、矩形５０４，５１４は、非テキスト領域５０２，５１２を所定倍率分だけ縮小した領域であってもよいし、非テキスト領域５０２，５１２の各辺より所定の長さ分だけ範囲を狭めた領域であってもよい。

＜変形例２＞
上記実施の形態では、非テキスト領域の背景度を求め、背景度が低い（予め定められたしきい値未満の）非テキスト領域に重なるテキスト領域を、見出し候補から除外すべき図中テキストであると判定した。しかし、各テキスト領域の図中テキスト度（図中テキストらしさの度合い）を直接求めてもよい。

具体的には、まず、各テキスト領域について、重なる非テキスト領域の背景度の総和の平均を算出する。この値は、背景付きテキスト度（背景付きテキストらしさの度合い）を表わしている。そして、算出された値が、予め定められたしきい値未満である（背景付きテキストらしくない）テキスト領域を、図中テキストと判定してもよい。

これにより、１つのテキスト領域が複数の非テキスト領域にまたがって重なっている場合にでも、そのテキスト領域が図中テキストであるか否かを容易に推定することができる。なお、上記例では、重なる非テキスト領域の背景度の総和の平均値に基づいて図中テキストを特定したが、重なる非テキスト領域の背景度の総和そのものに基づいて図中テキストを特定してもよい。この場合も、背景度の総和が、予め定められたしきい値未満であるテキスト領域を、図中テキストと判定してよい。

以上説明したような、本実施の形態およびその変形例１，２の文書処理装置（たとえばＭＦＰ１）が行なう文書処理方法を、プログラムとして提供することもできる。このようなプログラムは、ＣＤ−ＲＯＭ（Compact Disc-ROM）などの光学媒体や、メモリカードなどのコンピュータ読取り可能な記録媒体にて記録させて、プログラム製品として提供することもできる。また、ネットワークを介したダウンロードによって、プログラムを提供することもできる。

なお、本実施の形態にかかるプログラムは、コンピュータのオペレーティングシステム（ＯＳ）の一部として提供されるプログラムモジュールのうち、必要なモジュールを所定の配列で所定のタイミングで呼出して処理を実行させるものであってもよい。その場合、プログラム自体には上記モジュールが含まれずＯＳと協働して処理が実行される。このようなモジュールを含まないプログラムも、本発明にかかるプログラムに含まれ得る。

また、本実施の形態にかかるプログラムは他のプログラムの一部に組込まれて提供されるものであってもよい。その場合にも、プログラム自体には上記他のプログラムに含まれるモジュールが含まれず、他のプログラムと協働して処理が実行される。このような他のプログラムに組込まれたプログラムも、本発明にかかるプログラムに含まれ得る。

提供されるプログラム製品は、ハードディスクなどのプログラム格納部にインストールされて実行される。なお、プログラム製品は、プログラム自体と、プログラムが記憶された記憶媒体とを含む。

今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

１ＭＦＰ、１２画像バッファ部、１４圧縮処理部、１８特定部、２０文書要素抽出部、２２文字認識部、２４テキスト要素分割部、２６図中テキスト検出部、２８見出し検出部、３０メタデータ生成部、３２電子化文書生成部、１００制御部、１０２メモリ部、１０４画像読取部、１０６プリント部、１０８通信インターフェイス部、１１０操作パネル部、１１２記憶部、２０１ＣＰＵ、２０３内部バス、２０５ディスプレイ部、２０７通信インターフェイス部、２０９入力部、２１１ハードディスク部、２１３メモリ部、２１５ＣＤ−ＲＯＭドライブ、２１７ＦＤＤドライブ、２１７ａフレキシブルディスク、３００原稿、ＰＣ１，ＰＣ２端末、ＭＳメールサーバ。

Claims

文書画像から見出し領域を抽出するための文書処理装置であって、
前記文書画像から、第１のテキスト領域および第１の非テキスト領域を特定するための特定手段と、
特定された前記第１のテキスト領域のうち、前記第１の非テキスト領域と重なったテキスト領域を、第２のテキスト領域として検出するための第１の検出手段と、
前記第１の非テキスト領域のうち、前記第２のテキスト領域が重なった第２の非テキスト領域について、背景グラフィックである度合いを表わす背景度を算出するための算出手段と、
前記背景度の算出結果に基づいて、前記第２のテキスト領域のうち、前記見出し領域の候補から除外するための第３のテキスト領域を検出するための第２の検出手段とを備えた、文書処理装置。
前記第２の非テキスト領域内の画像の画像情報を記憶するための記憶手段をさらに備え、
前記算出手段は、前記画像情報に基づいて得られる、前記第２の非テキスト領域内の画像における色または輝度の不均一度から、前記背景度を算出する、請求項１に記載の文書処理装置。
前記算出手段は、前記第２の非テキスト領域に対する、前記第２のテキスト領域の位置から、前記背景度を算出する、請求項１または２に記載の文書処理装置。
前記算出手段は、前記第２の非テキスト領域内の、複数の前記第２のテキスト領域の規則性から、前記背景度を算出する、請求項１〜３のいずれかに記載の文書処理装置。
前記第２のテキスト領域の位置として、前記第２のテキスト領域が前記第２の非テキスト領域に完全に含まれるか否かを検出することににより、前記背景度を算出する、請求項３に記載の文書処理装置。
前記複数の第２のテキスト領域の規則性として、前記第２のテキスト領域の先頭位置または中心位置の行方向へのばらつきの有無を検出することににより、前記背景度を算出する、請求項４に記載の文書処理装置。
前記第２の検出手段は、前記第２のテキスト領域のうち、前記背景度が予め定められたしきい値以下である前記第２の非テキスト領域を検出し、前記検出された第２の非テキスト領域に重なった前記第２のテキスト領域を、前記第３のテキスト領域として検出する、請求項１〜４のいずれかに記載の文書処理装置。
前記第２の検出手段は、各前記第２のテキスト領域について、重なった前記第２の非テキスト領域の前記背景度の総和を求め、前記総和または前記総和の平均が予め定められたしきい値以下である前記第２のテキスト領域を、前記第３のテキスト領域として検出する、請求項１〜４のいずれかに記載の文書処理装置。
前記第１の検出手段は、前記第１の非テキスト領域と所定の割合以上重なったテキスト領域を、前記第２のテキスト領域として検出する、請求項１〜８のいずれかに記載の文書処理装置。
前記算出手段は、前記第２の非テキスト領域のうち、前記第２のテキスト領域の周囲の特定の範囲内に限定して、色または輝度の不均一度による前記背景度を算出する、請求項２に記載の文書処理装置。
前記特定手段は、
前記文書画像から複数の初期テキスト領域を抽出するための抽出手段と、
予め定められた複数種類の特徴種別に基づいて前記初期テキスト領域を分割するための分割手段とを含み、
前記第１のテキスト領域は、前記分割手段による処理後のテキスト領域を表わす、請求項１〜１０のいずれかに記載の文書処理装置。
制御部を備えた文書処理装置において、文書画像から見出し領域を抽出するための方法であって、
前記制御部が、前記文書画像から、第１のテキスト領域および第１の非テキスト領域を特定するステップと、
前記制御部が、特定された前記第１のテキスト領域のうち、前記第１の非テキスト領域と重なったテキスト領域を、第２のテキスト領域として検出するステップと、
前記制御部が、前記第１の非テキスト領域のうち、前記第２のテキスト領域が重なった第２の非テキスト領域について、背景グラフィックである度合いを表わす背景度を算出するステップと、
前記制御部が、前記背景度の算出結果に基づいて、前記第２のテキスト領域のうち、前記見出し領域の候補から除外するための第３のテキスト領域を検出するステップとを備えた、文書処理方法。
文書画像から見出し領域を抽出するためのプログラムであって、
前記文書画像から、第１のテキスト領域および第１の非テキスト領域を特定するステップと、
特定された前記第１のテキスト領域のうち、前記第１の非テキスト領域と重なったテキスト領域を、第２のテキスト領域として検出するステップと、
前記第１の非テキスト領域のうち、前記第２のテキスト領域が重なった第２の非テキスト領域について、背景グラフィックである度合いを表わす背景度を算出するステップと、
前記背景度の算出結果に基づいて、前記第２のテキスト領域のうち、前記見出し領域の候補から除外するための第３のテキスト領域を検出するステップとをコンピュータに実行させる、文書処理プログラム。