JP4856925B2

JP4856925B2 - 画像処理装置、画像処理方法及び画像処理プログラム

Info

Publication number: JP4856925B2
Application number: JP2005295412A
Authority: JP
Inventors: 広文西田
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2005-10-07
Filing date: 2005-10-07
Publication date: 2012-01-18
Anticipated expiration: 2025-10-07
Also published as: CN1945599A; JP2007102715A; CN100424716C; US20070081179A1; US8041113B2

Description

本発明は、画像処理装置、画像処理方法及び画像処理プログラムに関するものであり、特に画像データから文字を含む領域を抽出する技術に関するものである。

スキャナやデジタルカメラなどの画像入力機器を通してコンピュータに入力された文書画像を文書構成要素、すなわち、文字ブロック，写真・絵・図，表，罫線に分離する処理は、通常、「幾何的レイアウト解析」や「ページセグメンテーション」と呼ばれる。この「幾何的レイアウト解析」や「ページセグメンテーション」は、多くの場合、２値文書画像上で行われる。また、「幾何的レイアウト解析」や「ページセグメンテーション」は、前処理として、入力の際に生じる傾きを補正する「スキュー補正」を伴う。このようにしてスキュー補正された２値文書画像の「幾何的レイアウト解析」や「ページセグメンテーション」は、大きく２通りのアプローチ（トップダウン解析及びボトムアップ解析）に分類される。

ここで、トップダウン解析について説明する。トップダウン解析は、ページを大きな構成要素から小さな構成要素に分離する。例えば、ページをコラムに、そして、コラムをパラグラフに、パラグラフを文字行に、というように、大きな構成要素から小さなものに分離してゆくアプローチである。トップダウン解析は、ページのレイアウト構造についての仮定に基づくモデル（例えば、マンハッタンレイアウトでは、文字行は直立矩形である）を利用して、効率的に計算ができる反面、仮定が成り立たないようなデータについては、とんでもない間違いを生じるという欠点がある。一般に、複雑なレイアウトはモデル化も複雑になるため、取り扱いが難しい。

次に、ボトムアップ解析について説明する。ボトムアップ解析は、特許文献１、２に記載されているように、近隣の構成要素の位置関係を参照して、要素を統合してゆく。例えば、連結成分を文字行、そして、文字行をコラムに、というように、小さな構成要素を大きなものにグループ化してゆくアプローチである。しかしながら、特許文献１に記載されているようなボトムアップ解析は、局所的な情報に基づく方法なので、文書画像データ全体のレイアウトに関する仮定にあまり依存せずに多様なレイアウトに対応できる反面、局所的な判断の間違いが蓄積してゆくという欠点がある。例えば、２つの異なるコラム間にまたがる２つの文字が、誤って１つの文字行に統合されてしまえば、それらの２つのコラムも１つのコラムとして誤って抽出されてしまう。また、特許文献２に記載されているような構成要素の統合では、言語による文字の並び方の特性や、文字列方向（縦／横）などの知識が必要となる。

このように２つのアプローチは相補的であるが、これらの「隙間」を埋めるアプローチがいくつか提案されている。これら提案されたアプローチでは、言語の種別に依存しないアプローチも存在する。このようなアプローチして、文字でない部分、すなわち「背景」、あるいは２値文書画像で言うところの「白地」を利用する方法がある。背景や白地の利用の利点としては、
（１）言語に依存しない（多くの言語でも白地が区切りとして使われる）ので、行方向（横書き／縦書き）についての知識を必要としない。
（２）大局的な処理なので、局所的な判断間違いが累積する可能性が少ない。
（３）複雑なレイアウトにも、柔軟に対応できる。
などが挙げられる。

このような背景解析に属する代表的な方法としては、「極大白矩形系列によるページセグメンテーション」がある。

ここで、「極大白矩形系列によるページセグメンテーション」について簡単に説明する。準備として、「最大白矩形問題」を定義する。まず、ｒｂを文書画像データ全体に対応する矩形領域、そして、Ｃ＝[ｒ０，ｒ１，・・・，ｒｎ]（ｒｉ⊂ｒｂ；ｉ＝０，１，・・・，ｎ）を、それぞれ２値文書画像黒連結成分をちょうど囲むような矩形領域とする。図６に、矩形領域の集合の一例を示す。さらに、矩形に対して、次のような性質を満たす評価関数Ｑを導入する。２つの矩形ｒとｒ′について、
ｒ⊆ｒ′ならば、Ｑ（ｒ）≦Ｑ（ｒ′）
を満たす評価関数Ｑである。例えば、関数Ｑ（r）を矩形ｒの面積とすると、上記の性質は満たされる。「最大白矩形問題」とは、Ｃの要素ｒ０，ｒ１，・・・，ｒｎ（ｒｉ⊂ｒｂ；ｉ＝０，１，・・・，ｎ）と重ならないような矩形のうち、Ｑの値が最大になるものを見つける問題である。この問題の拡張として、非特許文献１，２においては、「極大白矩形」、すなわち、それ以上拡張するとＣの要素のいずれかと重なり合ってしまうような白矩形を、Ｑの値が大きい順に数え上げるアルゴリズムを提案している。

このようにして極大白矩形の系列によって背景領域（２値文書画像の白領域）を被覆してゆくことにより、コラムや文字行などの文書構成要素を、「いずれの白矩形にも被覆されていない部分」として抽出できると期待できる。

特開２０００−０６７１５８公報特許第３１８７８９５号公報 H.S.Baird，"Background structure in document images，"in Document Image Analysis（H.Bunke，P.S.P.Wang，and H.S.Baird，Eds.），Singapore: World Scientific，1994，pp.17−34. TM Breuel，"Two algorithms for geometric layout analysis，"in Proceedings of IAPR Workshop on Document Analysis Systems（Princeton，NJ，USA），2002.

しかしながら、上述した「極大白矩形系列によるページセグメンテーション」に代表される背景解析に属する方法は、言語の種別に依存していないことから、言語固有の複雑なレイアウトに対応することが難しいという問題がある。

本発明は、上記に鑑みてなされたものであって、レイアウト解析処理の高効率化を図りつつ、言語固有のレイアウトに対応した固有の領域分割により高精度化を実現する画像処理装置、画像処理方法及び画像処理プログラムを提供することを目的とする。

上述した課題を解決し、目的を達成するために、請求項１にかかる発明は、文書画像データを、それ以上拡張すると内部に黒画素を含んでしまう極大白矩形の系列をセパレータとして用いて、文字を含む文書領域毎に分割して抽出する第１の領域抽出手段と、前記文書画像データで用いられた言語の種別を判定する種別判定手段と、前記第１の領域抽出手段により抽出された前記文書領域に対して、前記種別判定手段により判定された言語の種別の書字方向に応じた規則に基づいて分割又は結合して文書領域を抽出する第２の領域抽出手段と、を備えたことを特徴とする。

また、請求項２にかかる発明は、請求項１にかかる発明において、前記種別判定手段により判定された前記言語の種別により、前記第１の領域抽出手段により抽出された前記文書領域から、さらに抽出を行うか否か判定する抽出判定手段と、をさらに備え、前記第２の領域抽出手段は、前記抽出判定手段により抽出すると判定された場合に、前記種別判定手段により判定された言語の種別の書字方向に応じた規則に基づいて分割又は結合して文書領域を抽出すること、を特徴とする。

また、請求項３にかかる発明は、請求項１にかかる発明において、前記第１の領域抽出手段により抽出された前記文書領域の属性を判定する属性判定手段と、をさらに備え、前記第２の領域抽出手段は、前記第１の領域抽出手段により抽出された前記文書領域に対して、前記種別判定手段により判定された前記言語の種別の書字方向、及び前記属性判定手段により判定された前記属性、に応じた規則に基づいて分割又は結合して文書領域を抽出すること、を特徴とする。

また、請求項４にかかる発明は、請求項３にかかる発明において、前記種別判定手段により判定された前記言語の種別及び前記属性判定手段により判定された前記属性により、前記第１の領域抽出手段により抽出された前記文書領域から、さらに抽出を行うか否か判定する抽出判定手段と、をさらに備え、前記第２の抽出手段は、前記抽出判定手段により抽出すると判定された場合に、前記第１の領域抽出手段により抽出された前記文書領域に対して、前記種別判定手段により判定された前記言語の種別の書字方向、及び前記属性判定手段により判定された前記属性、に応じた規則に基づいて分割又は結合して文書領域を抽出すること、を特徴とする。

また、請求項５にかかる発明は、請求項２にかかる発明において、前記種別判定手段は、前記文書画像データ全体から言語の種別を判定し、前記抽出判定手段は、前記種別判定手段により判定された前記言語の種別により、前記第１の領域抽出手段により抽出された前記文書領域に対して、さらに抽出を行うか否か判定すること、を特徴とする。

また、請求項６にかかる発明は、請求項２又は４にかかる発明において、前記種別判定手段は、前記文書画像データの、前記第１の領域抽出手段により抽出された前記文書領域毎に言語の種別を判定し、前記抽出判定手段は、前記第１の領域抽出手段により抽出された前記文書領域毎に、前記種別判定手段により判定された前記言語の種別により、さらに抽出するか否か判定すること、を特徴とする。

また、請求項７にかかる発明は、請求項１乃至６のいずれか一つにかかる発明において、前記第２の領域抽出手段により抽出された前記文書領域に対して、文書画像データを使用するアプリケーション又はタスクに応じた規則により分割又は結合にして文書領域を抽出する第３の領域抽出手段と、を、さらに備えたことを特徴とする。

また、請求項８にかかる発明は、請求項７にかかる発明において、前記文書画像データを使用するアプリケーション又はタスクに適した抽出を行うか否か判定する第２の抽出判定手段と、前記第３の領域抽出手段は、前記第２の抽出判定手段により抽出すると判定された場合に、前記第２の領域抽出手段により抽出された前記文書領域に対して、前記アプリケーション又はタスクに応じた規則により分割又は結合にして文書領域を抽出すること、を特徴とする。

また、請求項９にかかる発明は、請求項３にかかる発明において、前記属性判定手段は、前記文書画像データの属性として、前記第１の領域抽出手段により抽出された前記文書領域内に含まれている文字の方向及び文字サイズのうち少なくとも１つ以上を判定すること、を特徴とする。

また、請求項１０にかかる発明は、請求項３にかかる発明において、言語の種別と、属性と、当該言語の種別の書字方向及び当該属性に応じた抽出の規則と、を対応付けた抽出規則対応情報を記憶する記憶手段と、をさらに備え、前記第２の領域抽出手段は、前記種別判定手段により判定された前記言語の種別と、前記属性判定手段により判定された前記属性と、前記抽出規則対応情報で対応付けられた前記規則に基づいて、前記第１の領域抽出手段により抽出された前記文書領域に対して分割又は結合して、文書領域を抽出すること、を特徴とする。

また、請求項１１にかかる発明は、請求項１乃至１０のいずれか一つにかかる発明において、前記第２の領域抽出手段は、前記第１の領域抽出手段により抽出された前記文書領域に対して、異なる行方向の文字列が含まれている文書領域を行方向が異なる文字列毎に文書領域の分割、文字サイズが大きい文字を含む文書領域同士の結合、前記文書領域の読み順に従って文書領域同士の結合のうち少なくとも１つ以上を行うことで、文書領域を抽出すること、を特徴とする。

また、請求項１２にかかる発明は、文書画像データを、それ以上拡張すると内部に黒画素を含んでしまう極大白矩形の系列をセパレータとして用いて、文字を含む文書領域毎に分割して抽出する第１の領域抽出ステップと、前記文書画像データで用いられた言語の種別を判定する種別判定ステップと、前記第１の領域抽出ステップにより抽出された前記文書領域に対して、前記種別判定ステップにより判定された言語の種別の書字方向に応じた規則に基づいて分割又は結合して文書領域を抽出する第２の領域抽出ステップと、を備えたことを特徴とする。

また、請求項１３にかかる発明は、請求項１２にかかる発明において、前記種別判定ステップにより判定された前記言語の種別により、前記第１の領域抽出ステップにより抽出された前記文書領域から、さらに抽出を行うか否か判定する抽出判定ステップと、をさらに備え、前記第２の領域抽出ステップは、前記抽出判定ステップにより抽出すると判定された場合に、前記種別判定ステップにより判定された言語の種別の書字方向に応じた規則に基づいて分割又は結合して文書領域を抽出すること、を特徴とする。

また、請求項１４にかかる発明は、請求項１３にかかる発明において、前記第１の領域抽出ステップにより抽出された前記文書領域の属性を判定する属性判定ステップと、をさらに備え、前記第２の領域抽出ステップは、前記第１の領域抽出ステップにより抽出された前記文書領域に対して、前記種別判定ステップにより判定された前記言語の種別の書字方向、及び前記属性判定ステップにより判定された前記属性、に応じた規則に基づいて分割又は結合して文書領域を抽出すること、を特徴とする。

また、請求項１５にかかる発明は、請求項１４にかかる発明において、前記種別判定ステップにより判定された前記言語の種別及び前記属性判定ステップにより判定された前記属性により、前記第１の領域抽出ステップにより抽出された前記文書領域から、さらに抽出を行うか否か判定する抽出判定ステップと、をさらに備え、前記第２の抽出ステップは、前記抽出判定ステップにより抽出すると判定された場合に、前記第１の領域抽出ステップにより抽出された前記文書領域に対して、前記種別判定ステップにより判定された前記言語の種別の書字方向、及び前記属性判定ステップにより判定された前記属性、に応じた規則に基づいて分割又は結合して文書領域を抽出すること、を特徴とする。

また、請求項１６にかかる発明は、請求項１３にかかる発明において、前記種別判定ステップは、前記文書画像データ全体から言語の種別を判定し、前記抽出判定ステップは、前記種別判定ステップにより判定された前記言語の種別により、前記第１の領域抽出ステップにより抽出された前記文書領域に対して、さらに抽出を行うか否か判定すること、を特徴とする。

また、請求項１７にかかる発明は、請求項１３又は１５にかかる発明において、前記種別判定ステップは、前記文書画像データの、前記第１の領域抽出ステップにより抽出された前記文書領域毎に言語の種別を判定し、前記抽出判定ステップは、前記第１の領域抽出ステップにより抽出された前記文書領域毎に、前記種別判定ステップにより判定された前記言語の種別により、さらに抽出するか否か判定すること、を特徴とする。

また、請求項１８にかかる発明は、請求項１２乃至１７のいずれか一つにかかる発明において、前記第２の領域抽出ステップにより抽出された前記文書領域に対して、文書画像データを使用するアプリケーション又はタスクに応じた規則により分割又は結合にして文書領域を抽出する第３の領域抽出ステップと、を、さらに備えたことを特徴とする。

また、請求項１９にかかる発明は、請求項１８にかかる発明において、前記文書画像データを使用するアプリケーション又はタスクに適した抽出を行うか否か判定する第２の抽出判定ステップと、前記第３の領域抽出ステップは、前記第２の抽出判定ステップにより抽出すると判定された場合に、前記第２の領域抽出ステップにより抽出された前記文書領域に対して、前記アプリケーション又はタスクに応じた規則により分割又は結合にして文書領域を抽出すること、を特徴とする。

また、請求項２０にかかる発明は、請求項１４にかかる発明において、前記属性判定ステップは、前記文書画像データの属性として、前記第１の領域抽出ステップにより抽出された前記文書領域内に含まれている文字の方向及び文字サイズのうち少なくとも１つ以上を判定すること、を特徴とする。

また、請求項２１にかかる発明は、請求項１４にかかる発明において、前記第２の領域抽出ステップは、言語の種別と、属性と、当該言語の種別の書字方向及び当該属性に応じた抽出の規則と、を対応付けた、記憶手段に記憶された抽出規則対応情報から、前記種別判定ステップにより判定された前記言語の種別と、前記属性判定ステップにより判定された前記属性と、対応付けられた、前記規則に基づいて、前記第１の領域抽出ステップにより抽出された前記文書領域に対して分割又は結合して、文書領域を抽出すること、を特徴とする。

また、請求項２２にかかる発明は、請求項１２乃至２１のいずれか一つにかかる発明において、前記第２の領域抽出ステップは、前記第１の領域抽出ステップにより抽出された前記文書領域に対して、異なる行方向の文字列が含まれている文書領域を行方向が異なる文字列毎に文書領域の分割、文字サイズが大きい文字を含む文書領域同士の結合、前記文書領域の読み順に従って文書領域同士の結合のうち少なくとも１つ以上を行うことで、文書領域を抽出すること、を特徴とする。

また、請求項２３にかかる発明は、請求項１２乃至２２のいずれか一つにかかる発明をコンピュータで実行させることを特徴とする。

請求項１にかかる発明によれば、言語の種別に非依存の極大白矩形の系列によるページセグメンテーションで文書領域を抽出した後に、言語の種別の書字方向に応じた規則で分割又は結合して文書領域を抽出するので、レイアウト解析処理の高効率化を図りつつ、言語固有のレイアウトに対応した固有の領域分割により高精度化を実現するという効果を奏する。

また、請求項２にかかる発明によれば、言語の種別に応じた抽出処理を必要な場合に限り行うことを可能としたため、抽出処理による負荷を軽減できるという効果を奏する。

また、請求項３にかかる発明によれば、言語の種別に加えて、文書領域の属性に応じた規則に基づいて分割又は結合して文書領域を抽出するので、より高精度に文書領域を抽出することができるという効果を奏する。

また、請求項４にかかる発明によれば、言語の種別の書字方向及び属性に応じた抽出処理を必要な場合に限り行うことを可能としたため、抽出処理による負荷を軽減できるという効果を奏する。

また、請求項５にかかる発明によれば、文書画像データ全体から言語の種別を判断するので、多くの情報に基づいて言語の種別を判断できるので、高精度で言語の種別を判断できるという効果を奏する。

また、請求項６にかかる発明によれば、文書領域毎に言語の種別を判断するので、文書領域毎に異なる言語の文字の場合に文書領域毎に適切な抽出を行うことで、より高精度に文字領域を抽出できるという効果を奏する。

また、請求項７にかかる発明によれば、文書画像データを使用するアプリケーション又はタスクに応じた規則で文書領域を抽出できるので、アプリケーション又はタスクに応じて適切な文書領域を抽出できるという効果を奏する。

また、請求項８にかかる発明によれば、文書画像データを使用するアプリケーション又はタスクに応じた抽出処理を必要な場合に限り行うことを可能としたため、抽出処理による負荷を軽減できるという効果を奏する。

また、請求項９にかかる発明によれば、文字の方向及び文字サイズのうち少なくとも１つ以上により判定することで、これらの属性に応じて適切に文書領域を抽出できるという効果を奏する。

また、請求項１０にかかる発明によれば、言語の種別と、属性と、当該言語の種別の書字方向及び当該属性に応じた抽出の規則との対応付けを記憶し、この対応付けにより処理に用いる抽出する規則を決定するため、より適切な抽出処理を可能とするという効果を奏する。

また、請求項１１にかかる発明によれば、異なる行方向の文字列が含まれている文書領域を行方向が異なる文字列毎に文書領域の分割、文字サイズが大きい文字を含む文書領域同士の結合、前記文書領域の読み順に従って文書領域同士の結合により、文書領域の抽出を行うので、より適切な文書領域の抽出を実現できるという効果を奏する。

また、請求項１２にかかる発明によれば、言語の種別に非依存の極大白矩形の系列によるページセグメンテーションで文書領域を抽出した後に、言語の種別の書字方向に応じた規則で分割又は結合して文書領域を抽出するので、レイアウト解析処理の高効率化を図りつつ、言語固有のレイアウトに対応した固有の領域分割により高精度化を実現するという効果を奏する。

また、請求項１３にかかる発明によれば、言語の種別に応じた抽出処理を必要な場合に限り行うことを可能としたため、抽出処理による負荷を軽減できるという効果を奏する。

また、請求項１４にかかる発明によれば、言語の種別に加えて、文書領域の属性に応じた規則に基づいて分割又は結合して文書領域を抽出するので、より高精度に文書領域を抽出することができるという効果を奏する。

また、請求項１５にかかる発明によれば、言語の種別の書字方向及び属性に応じた抽出処理を必要な場合に限り行うことを可能としたため、抽出処理による負荷を軽減できるという効果を奏する。

また、請求項１６にかかる発明によれば、文書画像データ全体から言語の種別を判断するので、多くの情報に基づいて言語の種別を判断できるので、高精度で言語の種別を判断できるという効果を奏する。

また、請求項１７にかかる発明によれば、文書領域毎に言語の種別を判断するので、文書領域毎に異なる言語の文字の場合に文書領域毎に適切な抽出を行うことで、より高精度に文字領域を抽出できるという効果を奏する。

また、請求項１８にかかる発明によれば、文書画像データを使用するアプリケーション又はタスクに応じた規則で文書領域を抽出できるので、アプリケーション又はタスクに応じて適切な文書領域を抽出できるという効果を奏する。

また、請求項１９にかかる発明によれば、文書画像データを使用するアプリケーション又はタスクに応じた抽出処理を必要な場合に限り行うことを可能としたため、抽出処理による負荷を軽減できるという効果を奏する。

また、請求項２０にかかる発明によれば、文字の方向及び文字サイズのうち少なくとも１つ以上により判定することで、これらの属性に応じて適切に文書領域を抽出できるという効果を奏する。

また、請求項２１にかかる発明によれば、言語の種別と、属性と、当該言語の種別の書字方向及び当該属性に応じた抽出の規則との対応付けを記憶し、この対応付けにより処理に用いる抽出する規則を決定するため、より適切な抽出処理を可能とするという効果を奏する。

また、請求項２２にかかる発明によれば、異なる行方向の文字列が含まれている文書領域を行方向が異なる文字列毎に文書領域の分割、文字サイズが大きい文字を含む文書領域同士の結合、前記文書領域の読み順に従って文書領域同士の結合により、文書領域の抽出を行うので、より適切な文書領域の抽出を実現できるという効果を奏する。

また、請求項２３にかかる発明によれば、コンピュータに読み取らせて実行することによって、請求項１２乃至２２のいずれか一つに記載された画像処理方法をコンピュータの利用で実現することができ、これら各画像処理方法と同様の効果を奏する。

以下に添付図面を参照して、この発明にかかる画像処理装置、画像処理方法及び画像処理プログラムの最良な実施の形態を詳細に説明する。

（第１の実施の形態）
図１は、本発明の第１の実施の形態にかかる画像処理装置の構成を示すブロック図である。本図に示すように画像処理装置１００の内部は、画像入力処理部１０１と、第１の領域抽出部１０２と、言語種別判定部１０３と、属性判定部１０４と、抽出判断部１０５と、第２の領域抽出部１０６と、記憶部１０７を備え、入力処理された画像データに対してレイアウト解析処理して、文字列を含む領域を抽出する処理を行う。

記憶部１０７は、データベースを保持している。また、記憶部１０７は、当該データベース内で抽出規則対応テーブルを格納している。また、記憶部１０７は、記憶手段であり、例えばＨＤＤ、光ディスク、メモリカードなどの一般的に用いられるあらゆる記憶手段で構成することができる。

図２は、抽出規則対応テーブルの構造を示した図である。本図に示すように、抽出規則対応テーブルは、言語の種別と、行方向と、文字サイズと、領域抽出部とを対応付けて保持している。また、領域抽出部とは、後述する第２の領域抽出部１０６に含まれた構成をいう。これら第２の領域抽出部１０６に含まれた構成は、所定の規則に基づいて画像データに含まれる領域の分割又は結合して、文字列を含む領域を抽出する。つまり、抽出規則対応テーブルは、第２の領域抽出部１０６で実行可能な処理を、言語種別、属性（行方向、文字サイズ）と対応付けて保持している。なお、具体的な抽出規則対応テーブルの利用方法については後述する。

画像入力処理部１０１は、画像データの入力処理を行う。本実施の形態の画像入力処理部１０１は、画像データを入力処理する際に、２値化を施して、２値画像データを生成する。また、画像入力処理部１０１は、あらゆる画像データを入力処理の対象とすることができる。例えば、画像入力処理部１０１は、図示しない画像処理装置１００に接続された画像データを入力処理しても良いし、他の装置からネットワークを介して受信した画像データを入力処理しても良い。

つまり、入力処理対象となる画像データはモノクロに制限するものではなく、カラー画像やグレイ画像でもよい。そして、カラー画像やグレイ画像の場合には、上述したように２値化などによる前処理を施す。そして、２値化して入力処理が行われた画像データは、一般性を失うことなく、スキュー補正され、文字が黒画素として表されているとする。

図３は、画像入力処理部１０１が入力処理した２値画像データの例を示した図である。なお、本図においては、文字部分は塗り潰している。本図に示した２値画像データのように、文字列を含んでいる画像データが、本実施の形態に係る画像処理装置１００により領域毎に抽出する対象となる（以下、このような文字列を含んだ画像データを文書画像データという）。

第１の領域抽出部１０２は、白矩形抽出部１１１と、白矩形分割部１１２とを備え、画像入力処理部１０１により入力処理された文書画像データに対して、コラムなどの所定の文字列のまとまり毎に分割して、領域を抽出する（以下、このような領域を文書領域という）。また、第１の領域抽出部１０２は、言語の種別によらず、文書画像データを分割して文書領域を抽出する技術であれば、どの様な領域抽出の手順を用いても良い。例えば、領域抽出の方法として、背景解析に属する方法を用いても良い。なお、本実施の形態においては、第１の領域抽出部１０２は、「極大白矩形系列によるページセグメンテーション」を施して分割を行った後に文書領域を抽出する。

白矩形抽出部１１１は、文書画像データ又は、後述する白矩形分割部１１２で分割された文書領域から、極大白矩形系列を抽出する。

図４は、極大白矩形の例を示す説明図である。本図で示した黒い矩形は、２値文書画像黒連結成分をちょうど囲む矩形領域である。そして、これらの矩形領域とそれ以上拡張すると重なり合ってしまう最大白矩形が、本図の網掛けで示す矩形である。

白矩形分割部１１２は、白矩形抽出部１１１により抽出された極大白矩形系列をセパレータとして、その極大白矩形系列を含む文書画像データ又は文書領域を、さらにいくつかの文書領域に分離する。このように、白矩形抽出部１１１及び白矩形分割部１１２の処理を繰り返して行うことで、文書画像データが分割され、文書領域が抽出されることになる。

図５は、極大白矩形系列によるページセグメンテーションを用いたレイアウト解析処理の基本的アプローチを概略的に示した説明図である。本図に示すように、極大白矩形系列によるページセグメンテーションで、文書画像データの祖から密への再帰的分割による階層的処理を行う。これにより、処理の効率化を図ることが可能となった。

極大白矩形系列によるページセグメンテーションの概略について説明する。まず、白矩形抽出部１１１は、文書画像データ全体に対して極大白矩形系列抽出の終了条件の下限値を大きく設定して、粗いスケールで処理する。これにより、白矩形系列が抽出される。そして、白矩形分割部１１２は、抽出された白矩形系列をセパレータとして、文書画像データ全体をいくつかの文書領域に分割する。

次に、白矩形抽出部１１１は、分割された各文書領域について極大白矩形系列抽出の終了条件の下限値を前よりも小さく設定して、再び極大白矩形系列抽出を行う。そして、白矩形分割部１１２は、抽出された極大白矩形系列を用いて、より細かな分割を行う。このような処理を再帰的に繰り返す。なお、階層的処理における極大白矩形系列抽出の終了条件である下限値は、文書領域のサイズなどに応じて設定するようにすれば良い。また、極大白矩形系列抽出の終了条件である下限値の他に、白矩形として望ましい形やサイズに関する拘束条件を導入するようにしても良い。例えば、文書領域のセパレータとして適当でない形をした白矩形を除外する等である。このように文書領域のセパレータとして適当でない形をした白矩形を除外するのは、長さが短いものや幅が狭すぎるものは、文字の間の隙間である可能性が高いからである。このような長さや幅について拘束条件は、文書領域内で推定される文字のサイズに応じて決めることができる。なお、極大白矩形系列によるページセグメンテーションによる詳細な手順については後述する。

このように、第１の領域抽出部１０２が、極大白矩形系列の抽出と、文書領域の分割を再帰的に繰り返すことで、文書領域の抽出処理として祖から密へと再帰分離による階層的処理が行われるため、レイアウト解析処理の高効率化を図ることができる。

言語種別判定部１０３は、文書画像データ全体についての言語種別を判定する。言語の種別の判定手順としては、例えば自動またはユーザによる入力を問わず、どのような手順を用いても良い。なお、本実施の形態の言語種別判定部１０３は、自動で言語の種別を判別する。また、自動で言語の種別する技術としては、どのような技術を用いても良い。また、言語種別判定部１０３は、特開２００５−０６３４１９号公報に記載された公知技術を用いて行う。

次に、言語種別を判定する必要性について説明する。図６は、本実施の形態に係る第１の領域抽出部１０２から領域を抽出した結果の例を示した図である。本図で示した文書領域５０１の楕円で囲んだ部分では、縦書きの段落と横書きの段落の隙間が狭いために，２つの行方向が異なる文書領域が融合している。このような現象は、日本語のように縦書きと横書きが混在する文書画像に固有であり，ヨーロッパ系の横書き文書では生じない。また、このような問題を解決するために、例外処理を組み込んでも良いが、思わぬ副作用が発生する可能性を否定できない。つまり、言語の種別毎に固有の複雑なレイアウトに対応するために、言語の種別に特化した具体的な処理が必要となる。そこで、本実施の形態においては、言語種別判定部１０３で言語の種別の判定を行うこととした。

また、言語種別判定部１０３は、文書画像データ全体から言語の種別を判断するので、多くの文字情報に基づいて言語の種別を判断できる。これにより、高精度で言語の種別を判断できる。

属性判定部１０４は、第１の領域抽出部１０２により抽出された文書領域毎に、属性を判定する。また、判定する対象となる属性はどのような属性でも良いが、本実施の形態においては属性として文字行の方向、文字サイズとする。また、文字行の方向又は文字サイズを判定する技術は、公知の技術を問わず、どのような技術を用いても良い。なお、本実施の形態の属性判定部１０４は、文字行の方向の判定として、公知の技術である特許第３２２０２２６号又は特開２０００−１１３１０３号公報に記載された技術を用いることとする。

図７は、本実施の形態に係る属性判定部１０４が、領域分割された文書画像データに対して文字行の方向の判定を行った結果の例を示した図である。本図に示した文字行の方向の判定の対象となった文書画像データは、図６で示した文書画像データと同様のものとする。また、図示しないが、属性判定部１０４は、文字行の方向と同様に文字サイズについても、抽出された文書領域毎に判定を行う。

抽出判断部１０５は、言語の種別及び抽出された各文書領域の属性により、各文書領域に対してさらに抽出処理を行うか否か判断する。また、本実施の形態の抽出判断部１０５による抽出するか否かの判断は、言語種別判定部１０３により判定された言語の種別と、属性判定部１０４により判定された文字行の方向及び文字サイズをキーとして、記憶部１０７に記憶されている抽出規則対応テーブルに対して検索を行い、一致するレコードがあるか否かによるものとする。そして、抽出判断部１０５は、一致するレコードが存在した場合に抽出処理を行うと判断する。また、抽出判断部１０５が、検索で一致するレコードの数は１つに制限するものではなく、複数存在しても良い。この場合、後述する第２の領域抽出部１０６で、複数の処理が行われる。

抽出判断部１０５が抽出するか否か判断することで、言語の種別及び属性に応じた抽出処理を必要な場合に限り行うこととしたため、抽出処理による負荷を軽減できる。

また、抽出判断部１０５の判断例としては、言語が日本語で、その文書領域の文字方向が「縦」で、文字サイズが所定のサイズより小さい場合は、抽出規則対応テーブルで抽出判断部１０５が‘日本語縦用修正部’のレコードが検索される。これにより、後述する第２の領域抽出部１０６の日本語縦用修正部が、この文書領域に対して抽出処理を行う。このように、各文書領域を抽出するか否かの判断は、抽出規則対応テーブルで該当するレコードがある場合に、第２の領域抽出部１０６で抽出処理を行い、それ以外は領域抽出を行わないとする。なお、本実施の形態は、このような抽出規則対応テーブルを用いて抽出するか否かを判断するものに制限するものではなく、抽出するか否かの判断基準としてどのような基準を設けても良い。

なお、本実施の形態においては、言語の種別及び抽出された文書領域の属性から抽出処理を行うか否か判断したが、言語の種別及び抽出された文書領域の属性のうち少なくとも１つ以上を用いて抽出処理を行うか否か判断を行うものであればよい。また、他の例としては、言語の種別のみで抽出するか否か判断する場合、領域毎に抽出するか否か判断するのではなく、文書画像データ全体に対して抽出するか否かを判断しても良い。

第２の領域抽出部１０６は、後処理修正部１２１と、大文字修正部１２２と、読み順修正部１２３とを備え、抽出判断部１０５で抽出すると判断された文書領域に対して、言語の種別及び属性に応じた分割又は結合を行い、文書領域を抽出する。

図８は、第２の領域抽出部１０６の構成を示すブロック図である。本図に示すように、第２の領域抽出部１０６では、後処理修正部１２１、大文字修正部１２２及び読み順修正部１２３の順に処理を行う。そして、後処理修正部１２１、大文字修正部１２２及び読み順修正部１２３のそれぞれに含まれる構成のうち、上述した抽出判断部１０５で一致したレコードの‘領域抽出部’フィールドで保持していた構成が、処理を行う。

抽出判断部１０５が、言語の種別が‘日本語’であり、行方向が‘縦方向’であり、文字サイズが所定の文字サイズより‘小’さいと判定された文書領域を、抽出するか否か判断する場合について説明する。この場合、抽出判断部１０５は、図２で示した抽出規則対応テーブルから、領域抽出部が‘日本語縦用修正部’のレコードを検索する。これにより、抽出判断部１０５は、第２の領域抽出部１０６で、抽出すると判断する。そして、第２の領域抽出部１０６において、検索されたレコードが保持していた構成である日本語縦用修正部７０１ａが、当該文書領域に対して分割又は結合し、領域を抽出する。

後処理修正部１２１は、日本語縦用修正部７０１ａと、日本語横用修正部７０１ｂと、ヨーロッパ系言語用修正部７０１ｃ等の、第１の領域抽出部１０２で抽出処理を行った後に必要な修正処理を行う構成を備えている。

また、日本語縦用修正部７０１ａと、日本語横用修正部７０１ｂと、ヨーロッパ系言語用修正部７０１ｃ等の、第１の領域抽出部１０２で抽出処理を行った後に必要な修正処理を行う構成は、言語毎に必要な修正処理として周知の処理を問わず、どのような処理を行っても良い。

また、後処理修正部１２１は、言語の種別、属性に応じて、第１の領域抽出部１０２で抽出処理した後に必要な処理を行う。例えば、言語の種別が‘日本語’であり、行方向が‘縦’と判定された文書領域では、図６の文書領域５０１のように、行方向が‘横’の文字列が含まれている場合もある。逆に、行方向が‘横’と判定された文書領域に、行方向が‘縦’の文字列が含まれている場合もある。このような文書領域に対して、後処理修正部１２１に含まれている構成が、領域の分割を行うので、より適切に文書領域を抽出することができる。

図９は、日本語縦用修正部７０１ａで領域抽出の対象となる文書領域の例を示した図である。本図で示した文書領域は、図６の文書領域５０１の実際の文字列を示したものである。つまり、第１の領域抽出部１０２が抽出した文書領域では、縦の文字列に横の文字列が含まれている。そして、日本語縦用修正部７０１ａは、行方向が縦と判定された文書領域において、縦方向の射影を取り、射影値が連続して‘０’でない区間に対して所定の要件を満たした場合に再抽出を行う。これにより、行方向が縦の文書領域に横の文書領域が含まれている場合に抽出を行うことができる。なお、詳細な処理手順については後述する。

図１０は、日本語縦用修正部７０１ａ等の後処理修正部１２１で、各文書領域に対して抽出処理を行った結果を示した図である。本図に示すように、日本語縦用修正部７０１ａは、行方向が縦の文書領域９０１と、行方向が横の文書領域９０２及び文書領域９０３とを、抽出することを可能とする。

また、図１０の楕円で囲んだ部分は，図６で示した「極大白矩形系列によるページセグメンテーション」による領域抽出では、縦書きの段落と横書きの段落の隙間が狭いため、２つの異なる行方向の文書領域が抽出されずに、１つの文書領域とされた。しかしながら、日本語縦用修正部７０１ａに代表される後処理修正部１２１で行われる言語依存の後処理により、行方向の異なる文書領域の抽出を可能とした。

大文字修正部１２２は、日本語用大文字修正部７０２ａと、ヨーロッパ系言語用大文字修正部７０２ｂ等の、言語毎に文字サイズが大きい場合に必要な処理を行う構成を備えている。

また、大文字修正部１２２では、所定の文字サイズより大きい文字を含む文書領域について、文書領域の範囲の修正を行う。

このような、文書領域の範囲の修正を行う必要性について説明する。例えば、文書の見出し等には大きな文字が使われることがある。これらの大きな文字は、段落やコラムを構成する文字群と違い、言語の種別に依存する規則を用いずに、適切に文書領域を抽出することは困難である。この理由としては、例えば、見出しは少数の文字から構成されることが多いので文字サイズや文字間隔などを統計的に推定するのが難しいこと、見出しに用いられる文字は図や写真と混同を生じやすいこと、また言語の種別に応じて文字の構成や文字列の並び方が異なること、が挙げられる。

図１１は、文字サイズが大きい文字を含む文書画像データを、第１の領域抽出部１０２が抽出した場合の例を示した図である。本図に示すように、文字サイズが大きい文字の見出しでは、見出しとして文書領域が抽出されるのではなく、文字毎に文書領域が抽出されることがある。

そして、大文字修正部１２２に含まれる日本語用大文字修正部７０２ａ等の言語毎に備えられた各構成が、文字サイズが大きい文字を含む文書領域を、適切な文書領域の範囲に修正する。このような構成を備えたことで、言語毎に定められた適切な規則により、大きい文字を含む文書領域の範囲を修正することができる。なお、文書領域を修正する際の手順については後述する。

また、大文字修正部１２２は、文字サイズが大きいために１つの文字が複数の構成要素（例えば漢字一文字の偏と旁）毎に領域として抽出された場合でも、これら構成要素を結合して適切な文字を含む文書領域を生成する。この構成要素を結合する手段としては、周知の結合手段を問わず、どのような手段を用いても良い。

また、ヨーロッパ系言語大文字修正部７０２ｃ等の修正処理を行う構成においては、言語毎に必要な修正処理として周知の処理を問わず、どのような処理を行っても良い。これにより、ヨーロッパ系言語大文字修正部７０２ｃ等は、文字間隔が大きいために文字毎に分割された文書領域に対しても、１つのまとまりになるように結合等を行い、適切な文書領域を抽出できる。

図１２は、大文字修正部１２２が、文書領域を結合し、文書領域を再抽出した結果の例を示した図である。本図で示した結果の例は、図１１で示した文書画像データに対して処理を行ったものである。本図に示すように、１つの文字が複数の文書領域に分割されていたのが結合された上で、見出しなどの文字サイズの大きな文書領域が結合され、１つの文書領域として抽出されているのが確認できる。

読み順修正部１２３は、日本語用読み順修正部７０３ａと、ヨーロッパ系言語用読み順修正部７０３ｂ等の、言語毎に読み順に基づいて必要な処理を行う構成を備えている。

また、読み順修正部１２３に含まれる言語毎の各構成は、言語毎に定められた読み順に基づいて、文書領域を結合又は分割して、文書領域を抽出する。例えば、日本語読み順修正部７０３ａは、行間隔が空いているために分割された複数の文書領域であっても、当該複数の文書領域の読み順を判断して、繋がっていると判断された場合、これら複数の文書領域を結合し、文書領域を抽出する。このように、読み順修正部１２３に含まれる言語毎の各構成は、読み順に従って分割又は結合して、適切な文書領域を抽出することができる。なお、読み順修正部１２３に含まれる各構成が行う読み順を判断する処理は、公知の処理を問わずどの様な処理を用いても良い。

このように、第１の領域抽出部１０２による言語・タスクに依存しない文書領域の抽出の後で、言語種別判定部１０３で文書画像の言語の種別を判定し、属性判定部１０４で属性を判定した後、言語の種別と各々の文書領域の属性に固有の後処理又は修正を行うことを可能とした。これにより、画像処理装置１００は、言語の種別と、文書領域毎の属性に基づいて分割又は結合して、領域を抽出することで、固有の複雑なレイアウトに対応した領域抽出を行うことを可能にした。これにより、文書画像データに対するレイアウト解析処理の高効率化と高精度化を図ることができる。

次に、以上のように構成された本実施の形態にかかる画像処理装置１００における文書画像データの入力処理から文書画像データの文書領域の抽出までの処理について説明する。図１３は、本実施の形態にかかる画像処理装置１００における上述した処理の手順を示すフローチャートである。

まず、画像入力処理部１０１は、文書画像データを入力処理すると共に、入力処理する文書画像データの２値化処理を施す（ステップＳ１１０１）。

次に、第１の領域抽出部１０２は、入力処理された文書画像データに対して、「極大白矩形系列によるページセグメンテーション」で分割し、文書領域毎に抽出する（ステップＳ１１０２）。

そして、言語種別判定部１０３は、入力処理された文書画像データ全体から言語の種別を判定する（ステップＳ１１０３）。

次に、属性判定部１０４は、抽出された文書領域毎に属性（文字行の方向又は文字サイズ）を判定する（ステップＳ１１０４）。

そして、抽出判断部１０５は、言語種別判定部１０３により判定された言語種別、及び属性判定部１０４により判定された文書領域の属性により、当該文書領域を抽出するか否か判断する（ステップＳ１１０５）。なお、抽出判断部１０５が、抽出するか否か判断する際に、記憶部１０７に記憶されている抽出規則対応テーブルを用いる。また、抽出判断部１０５が抽出しないと判断した場合（ステップＳ１１０５：Ｎｏ）、第２の領域抽出部１０６による抽出処理は行わない。

そして、抽出判断部１０５が抽出すると判断した場合（ステップＳ１１０５：Ｙｅｓ）、第２の領域抽出部１０６は、当該文書領域に対して分割又は結合し、文書領域の再抽出を行う（ステップＳ１１０６）。また、第２の領域抽出部１０６では、後処理修正部１２１、大文字修正部１２２、読み順修正部１２３の順に処理を行う。

そして、抽出判断部１０５は、ステップＳ１１０４による属性の判定が全ての文書領域に対して行われたか否か判断する（ステップＳ１１０７）。そして、抽出判断部１０５は、全ての文書領域については終了していないと判断した場合（ステップＳ１１０７：Ｎｏ）、抽出判断部１０５は、判定していない文書領域についての属性の判定から開始する（ステップＳ１１０４）。

また、抽出判断部１０５が、全ての文書領域について終了したと判断した場合（ステップＳ１１０７：Ｙｅｓ）、処理を終了する。

上述した処理手順により、文書画像データを適切な文書領域に抽出することを可能にすると共に、文書画像データに対するレイアウト解析処理の高効率化することが可能となる。なお、上述した処理手順は、本実施の形態による文書画像データの入力処理から文書画像データの文書領域の抽出までの処理手順の例を示したものであり、本発明をこの処理手順に制限するものではない。

次に、本実施の形態にかかる第１の領域抽出部１０２における文書画像データの抽出処理について説明する。図１４は、本実施の形態にかかる領域抽出部１０２における上述した処理の手順を示すフローチャートである。

まず、白矩形抽出部１１１は、２値化された文書画データの黒連結成分をちょうど囲むような矩形領域の集合Ｃ＝[ｒ０，ｒ１，・・・，ｒｎ]（ｒｉ⊂ｒｂ；ｉ＝０，１，・・・，ｎ）を求め、この集合Ｃをアルゴリズムへ入力する（ステップＳ１２０１）。図４は、矩形領域の集合の一例を示す説明図である。

次に、白矩形抽出部１１１は、文書画像データ全体に対して、極大白矩形系列を抽出する（ステップＳ１２０２）。極大白矩形系列の抽出は、白矩形ｒの評価関数Ｑ（ｒ）を白矩形ｒの面積とし、処理している文書領域のサイズに応じて決まる下限値ｔについて、Ｑ（ｒ）≧ｔを満たすような極大白矩形をＱ（ｒ）の値が大きい順に数え上げる。これには、前述した非特許文献２に記載の方法を使えば良い。また、下限値ｔは、例えばｗとｈを処理している文書領域のそれぞれ幅と高さ、ａを定数として、
ｔ＝ａ・ｍｉｎ（ｗ，ｈ）
とすれば良い。さらに、文書領域のセパレータとしての適当でない形をした白矩形、例えば、長さが短いものや幅が狭すぎるものは、文字の間の隙間である可能性が高いので、そのような白矩形を除外するための拘束条件を設定する。これには、文書領域内にある黒矩形の大きさの分布から文字のサイズｓを推定し、例えば、ｂを定数として、幅も高さもｂ・ｓより小さいような極大白矩形を、数え上げの際に除外するようにすれば良い。

そして、白矩形分割部１１２は、抽出された白矩形系列をセパレータとして文書画像データ全体をいくつかの文書領域に分割し、さらに白矩形抽出部１１１が白矩形系列により分割された文書領域を抽出し（ステップＳ１２０３）、抽出された各文書領域をスタックに積む（ステップＳ１２０４）。ここで、スタックは、最後に入力したデータが先に出力されるデータ構造である。図６は、図３の矩形領域の集合について文書画像データ全体で抽出された極大白矩形系列により分割し、抽出された文書領域を示す説明図である。

次に、白矩形抽出部１１１は、スタックが空であるか否かを判断する（ステップＳ１２０５）。

そして、白矩形抽出部１１１は、スタックが空でなければ（ステップＳ１２０５：Ｎｏ）、スタックの最上部に積まれている文書領域を取り出し（ステップＳ１２０６）、その文書領域に対応する２値文書画像内で極大白矩形系列を抽出する（ステップＳ１２０７）。

次に、白矩形分割部１１２は、抽出された白矩形系列をセパレータとして、その文書領域をいくつかの文書領域に分割し、さらに白矩形抽出部１１１が白矩形系列により分割された文書領域を抽出した後（ステップＳ１２０８）、ステップＳ１２０５に進む。つまり、スタックが空でない限り、ステップＳ１２０６〜Ｓ１２０８の処理が繰り返されることになる。

一方、白矩形抽出部１１１はスタックが空であると判断した場合には（ステップＳ１２０５：Ｙｅｓ）、第１の領域抽出部１０２が、文書画像データの領域抽出結果を出力して（ステップＳ１２０９）、処理を終了する。

以上のように本実施の形態においては、スタックを利用することで、文書領域が「深さ優先」の順序に従い、評価関数Ｑ（ｒ）の下限値を決めながら祖から密へ階層的に分割が行うことを可能とする。なお、スタックは、画像処理装置１００が備えたＲＡＭ等に備えられているものとする。

上述した処理手順により、行方向が混在した文書領域を適切な行方向の文書領域に抽出することを可能にする。なお、上述した処理手順は、本実施の形態による第１の領域抽出部１０２で抽出された文書領域に対して再抽出するまでの処理手順の例を示したものであり、本発明をこの処理手順に制限するものではない。

上述したフローチャートでは、第１の領域抽出部１０２による領域抽出処理について説明したが、これに限るものではなく、ステップＳ１２０９での領域抽出結果に基づいて再度ステップＳ１２０１から再度領域抽出処理して、祖から密への再帰的分割による階層的処理が実行されることになる。

以上が、第１の領域抽出部１０２による抽出処理の説明である。これにより、言語に依存せず（多くの言語でも白地が区切りとして使われる）、また、行方向（横書き／縦書き）についての知識を必要とせず、大局的な処理なので、局所的な判断間違いが累積する可能性が少なく、複雑なレイアウトにも、柔軟に対応できるような文書画像領域抽出を行なうことができる。

次に、第２の領域抽出部１０６の後処理修正部１２１で、文書領域をさらに抽出する場合の処理手順について説明する。後述する処理手順は、言語の種別が‘日本語’と、当該文書領域の行方向が‘縦’と判定された場合とする。この場合において、抽出判断部１０５は、抽出規則対応テーブルにより、修正する構成として日本語縦用修正部７０１ａを選択する。

そして、日本語縦用修正部７０１ａは、当該文書領域に対して再抽出を行う。図１５は、本実施の形態にかかる日本語縦用修正部７０１ａにおける上述した処理の手順を示すフローチャートである。

まず、日本語縦用修正部７０１ａは、当該文書領域に対して、縦方向に射影をとる（ステップＳ１４０１）。図１６−１は、日本語縦用修正部７０１ａが、文書領域に対して縦方向の射影をとった例を示している。

次に、日本語縦用修正部７０１ａは、射影値が連続して‘０’でない区間の幅の統計（例えば，モード）から文字幅ｓを推定する（ステップＳ１４０２）。

そして、日本語縦用修正部７０１ａは、射影値が連続して‘０’でない区間の最大幅ｗを算出する（ステップＳ１４０３）。なお、図１６−１に示した例では、符号１５０１で示した文書領域が、射影値が連続して‘０’でない区間の最大幅ｗをとる。

次に、日本語縦用修正部７０１ａは、算出されたｗがｃ・ｓ（ｃは定数，例えば，１０）より大きいか否か判断する（ステップＳ１４０４）。そして、算出されたｗがｃ・ｓより小さいと判断した場合（ステップＳ１４０４：Ｎｏ）、特に処理を行わずに終了する。つまり、日本語縦用修正部７０１ａは、ｗが、文字幅を基準とした所定の幅より大きければ行が横方向の文書領域が含まれていると判断する。

また、日本語縦用修正部７０１ａは、ｗがｃ・ｓより大きいと判断した場合（ステップＳ１４０４：Ｙｅｓ）、当該ｗに対応する両端の部分で、文書領域を横方向に分断する（ステップＳ１４０５）。図１６―２は、日本語縦用修正部７０１ａが横方向に分割した後の文書領域を示した説明図である。

そして、日本語縦用修正部７０１ａは、分断された文書領域内で横方向に射影をとる（ステップＳ１４０６）。次に、日本語縦用修正部７０１ａは、射影値が連続して０であるような区間のそれぞれについて、その幅を算出する（ステップＳ１４０７）。

次に、日本語縦用修正部７０１ａは、算出した幅がｄ・ｓ（ｄは定数，例えば，０．７）より大きいか否か判断する（ステップＳ１４０８）。そして、日本語縦用修正部７０１ａは幅が小さいと判断した場合（ステップＳ１４０８：Ｎｏ）、特に処理を行わずに終了する。

そして、日本語縦用修正部７０１ａは、幅が大きいと判断した場合（ステップＳ１４０８：Ｙｅｓ）、当該文書領域の幅の部分でさらに縦に分割する（ステップＳ１４０９）。図１６―３は、日本語縦用修正部７０１ａがさらに縦方向に分割した後の文書領域を示した説明図である。

次に、第２の領域抽出部１０６の大文字修正部１２２で、文書領域を文字サイズに応じて結合し、領域を抽出する処理手順について説明する。後述する処理手順は、言語の種別が‘日本語’と、当該文書領域の行方向は判定されず、当該文書領域の文字サイズが‘大’と判定された場合とする。この場合において、抽出判断部１０５は、抽出規則対応テーブルにより、修正する構成として日本語用大文字修正部７０２ａを選択する。

そして、日本語用大文字修正部７０２ａは、文字サイズが大きい文書領域の結合処理を行う。図１７は、本実施の形態にかかる日本語用大文字修正部７０２ａにおける上述した処理の手順を示すフローチャートである。

まず、日本語用大文字修正部７０２ａは、当該処理の対象となる文書領域に近接する文書領域があるか探索する（ステップＳ１６０１）。

そして、日本語用大文字修正部７０２ａは、探索によりチェックしていない文書領域を発見したか否か判断する（ステップＳ１６０２）。

また、日本語用大文字修正部７０２ａはチェックしていない文書領域を発見した場合（ステップＳ１６０２：Ｙｅｓ）、発見した文書領域に含まれている文字の文字サイズが大きく、処理の対象となる文書領域に含まれている文字とほほ同じサイズであるか否か判断する（ステップＳ１６０３）。そして、日本語用大文字修正部７０２ａは、両文書領域に含まれている文字の文字サイズが等しくないと判断した場合（ステップＳ１６０３：Ｎｏ）、再び処理対象の文書領域に近接する文書領域の探索から開始する（ステップＳ１６０１）。

また、日本語用大文字修正部７０２ａは、両文書領域に含まれている文字の文字サイズが等しいと判断した場合（ステップＳ１６０３：Ｙｅｓ）、これら２つの文書領域の結合処理を行う（ステップＳ１６０４）。

そして、日本語用大文字修正部７０２ａは、探索によりチェックしていない文書領域を発見できなかった場合（ステップＳ１６０２：Ｎｏ）、処理を終了する。

上述した処理手順により、文字サイズが大きいために文字間隔で分割された文書領域を結合して適切な文書領域で抽出することを可能にする。なお、上述した処理手順は、本実施の形態による日本語用大文字修正部７０２ａが、文字サイズが大きい文書領域の結合処理手順の例を示したものであり、本発明をこの処理手順に制限するものではない。

なお、本実施の形態においては、第２の領域抽出部１０２で、言語に依存する処理として、後処理修正、大文字修正及び読み順修正を行う場合の例について説明したが、これらの処理に制限するものではない。例えば、言語に依存する処理として、これらの処理とは異なる処理等を行っても良い。

上述した実施の形態においては、「極大白矩形系列によるページセグメンテーション」を施して分割して文書領域を抽出した後に、言語の種別に応じた規則を備えた第２の領域抽出部１０６に含まれた各構成が分割又は結合して文書領域を抽出するので、レイアウト解析処理の高効率化を図りつつ、言語固有のレイアウトに対応した固有の領域分割により高精度化を実現できる。

（第２の実施の形態）
図１８は、第２の実施の形態にかかる画像処理装置１６００の構成を示すブロック図である。上述した第１の実施の形態にかかる画像処理装置１００とは、言語種別判定部１０３とは処理が異なる言語種別判定部１６０１に変更され、抽出判断部１０５とは処理が異なる抽出判断部１６０２に変更された構成を有している点で異なる。以下の説明では、上述した第１の実施の形態と同一の構成要素には同一の符号を付してその説明を省略している。なお、第１の実施の形態の画像処理装置１００では、文書画像データ全体から言語の種別を判定していたのに対し、本実施の形態の画像処理装置１６００は、文書領域毎に言語の種別を判定している点で異なる。

言語種別判定部１６０１は、第１の領域抽出部１０２で抽出された文書領域毎に言語種別を判定する。また、言語種別判定部１６０１は、他の処理については言語種別判定部１０３と同様なので説明を省略する。

抽出判断部１６０２は、言語種別判定部１０３で判定された各文書領域の言語の種別及び属性判定部１０４で判定された各文書領域の属性により、各文書領域に対してさらに抽出するか否か判断する。また、抽出判断部１６０２は、第１の実施の形態に係る抽出判断部１０５とは、判断に用いた言語種別が文書画像データ全体のものであるか、又は抽出された文書領域毎のものであるか以外に違いはないので、説明を省略する。

次に、以上のように構成された本実施の形態にかかる画像処理装置１６００における文書画像データの入力処理から文書画像データの文書領域の抽出までの処理について説明する。図１９は、本実施の形態にかかる画像処理装置１６００における上述した処理の手順を示すフローチャートである。

まず、第１の実施の形態の図１３のステップＳ１１０１〜Ｓ１１０２と同様にして、文書画像データに対して領域抽出処理を行う（ステップＳ１７０１〜Ｓ１７０２）。

次に、言語種別判定部１６０１は、抽出された文書領域毎に言語の種別を判定する（ステップＳ１７０３）。そして、属性判定部１０４が、抽出された文書領域毎に属性（文字行の方向又は文字サイズ）を判定する（ステップＳ１７０４）。

そして、抽出判断部１６０２は、言語種別判定部１６０１により判定された言語種別、及び属性判定部１０４により判定された文書領域の属性により、当該文書領域を抽出するか否か判断する（ステップＳ１７０５）。なお、抽出判断部１０５が、抽出するか否か判断する際に、記憶部１０７に記憶されている抽出規則対応テーブルを用いる。

次に、第２の領域抽出部１０６は、抽出判断部１６０２により抽出すると判断された文書領域に対して領域抽出を行う（ステップＳ１７０６）。

そして、抽出判断部１６０２は、ステップＳ１７０３による言語の種別の判定が全ての文書領域に対して行われたか否か判断する（ステップＳ１７０７）。そして、抽出判断部１６０２は、全ての文書領域については終了していないと判断した場合（ステップＳ１７０７：Ｎｏ）、抽出判断部１６０２は、判定していない文書領域についての言語の判定から開始する（ステップＳ１７０３）。

また、抽出判断部１６０２が、全ての文書領域について終了したと判断した場合（ステップＳ１７０７：Ｙｅｓ）、処理を終了する。

上述した処理手順により、文書画像データを文書領域毎に異なる言語の種別であっても適切な文書領域に抽出することを可能にすると共に、文書画像データに対するレイアウト解析処理の高効率化することが可能となる。なお、上述した処理手順は、本実施の形態による文書画像データの入力処理から文書画像データの文書領域の抽出までの処理手順の例を示したものであり、本発明をこの処理手順に制限するものではない。

上述したように、本実施の形態に係る画像処理装置１６００では、第１の実施の形態で示した効果の他に、抽出された文書領域毎に言語の種別を判断して、処理を行うか否か判断するので、文書領域毎に異なる言語で記載されている場合でも、適切に文書領域を抽出することができる。

（第３の実施の形態）
上述した実施の形態における画像処理装置は、第２の領域抽出部１０６による抽出処理の後に特に処理は行わなかった。しかしながら、本発明は、第１の領域抽出部１０２及び第２の領域抽出部１０６による抽出処理のみに制限するものではない。そこで、第３の実施の形態に係る画像処理装置１８００では、さらに抽出する構成を備えた場合について説明する。

図２０は、第３の実施の形態にかかる画像処理装置１８００の構成を示すブロック図である。上述した第１の実施の形態にかかる画像処理装置１００とは、記憶部１０７とは保持している情報が異なる記憶部１８０１に変更され、目的別抽出判断部１８０２と、第３の領域抽出部１８０３が追加されている点で異なる。以下の説明では、上述した第１の実施の形態と同一の構成要素には同一の符号を付してその説明を省略している。

記憶部１８０１は、データベースを保持している。また、記憶部１８０１は、当該データベース内で抽出規則対応テーブル及びアプリケーション規則対応テーブルを格納している。また、記憶部１８０１は、記憶手段であり、例えばＨＤＤ、光ディスク、メモリカードなどの一般的に用いられるあらゆる記憶手段で構成することができる。なお、抽出規則対応テーブルは、第１の実施の形態の記憶部１０７で格納されている抽出規則対応テーブルと同様なので説明を省略する。

図２１は、アプリケーション規則対応テーブルの構造を示した図である。本図に示すように、アプリケーション規則対応テーブルは、画像データを使用する目的である目的アプリケーションと、アプリケーション別領域抽出部とを対応付けて保持している。また、アプリケーション別領域抽出部とは、後述する第３の領域抽出部１８０３含まれた、文書画像データを用いるアプリケーション毎に定められた規則に基づいて分割又は結合等して領域を抽出する構成をいう。つまり、アプリケーション規則対応テーブルは、第３の領域抽出部１８０３で実行可能な処理を、目的アプリケーションと対応付けて保持している。なお、具体的なアプリケーション規則対応テーブルの利用方法については後述する。

目的別抽出判断部１８０２は、文書領域毎に抽出された文書画像データを用いる目的、具体的にはアプリケーションやタスクに応じて，後述する第３の領域抽出部１８０３で領域抽出を行う必要があるか否かを判断する。また、本実施の形態の目的別抽出判断部１８０２による抽出するか否かの判断は、使用するアプリケーション又はタスクをキーとして、記憶部１８０１に記憶されているアプリケーション規則対応テーブルに対して検索を行い、一致するレコードがあるか否かによるものとする。そして、目的別抽出判断部１８０２は、一致するレコードが存在した場合に抽出処理を行うと判断する。また、目的別抽出判断部１８０２が、検索で一致するレコードの数は１つに制限するものではなく、複数存在しても良い。この場合、後述する第３の領域抽出部１０６で、複数の処理が行われる。

また、目的別抽出判断部１８０２の判断例としては、アプリケーションが日本語ＯＣＲの場合、アプリケーション規則対応テーブルでアプリケーション別領域抽出部が‘日本語ＯＣＲ用領域抽出部’のレコードが検索される。これにより、後述する第３の領域抽出部１８０３の日本語ＯＣＲ用領域抽出部１８１１ａが、この文書領域に対して抽出処理を行う。このように、各文書領域を抽出するか否かの判断は、アプリケーション規則対応テーブルルで該当するレコードがある場合に、第３の領域抽出部１８０３で抽出処理を行い、それ以外は行わないとする。なお、本実施の形態は、このような抽出規則対応テーブルを用いて抽出処理を行うか否か判断するものに制限するものではなく、抽出するか否かの判断基準としてどのような基準を設けても良い。なお、用いるアプリケーションの設定はどのように設定しても良く、例えば、文書画像データの入力時に、利用者からアプリケーションの入力を受け付けても良い。

また、本実施の形態では、アプリケーション以外に、タスク等他の処理を目的として設定しても良い。

次に、アプリケーションやタスクにより望まれる領域抽出の結果が異なる点について説明する。例えば、ＯＣＲのようなアプリケーションでは、図１０で示したような抽出結果の例よりさらに細かい「行単位」での分割が望まれる。他の例としては、作業者が文書画像データを編集するようなタスクでは，図１０で示したような「段組単位」での分割が望ましい。なぜならば、編集のようなタスクでは，ＯＣＲに望まれるような「行単位」の細かい分割では，作業者は行単位で編集を行うことになり負担が大きくなるからである。

また、「行単位」の分割でも，言語の種別により方式が異なる。例えば、英語のようなヨーロッパ系言語では、単語間にスペースがあり、文字の大きさがそれぞれ異なり、さらに文字の配置もベースラインを基準に上下に変動する点で、日本語とは異なる。そこで、本実施の形態においては、第３の領域抽出部１８０３で、言語の種別及びアプリケーションやタスクに応じた構成を備え、言語の種別及びアプリケーションやタスクに応じた文書領域の抽出を可能とした。

第３の領域抽出部１８０３は、日本語ＯＣＲ用領域抽出部１８１１ａと、ヨーロッパ系言語ＯＣＲ用領域抽出部１８１１ｂ等の、アプリケーション毎に適した抽出処理を行う構成を備えている。

そして、日本語ＯＣＲ用領域抽出部１８１１ａと、ヨーロッパ系言語ＯＣＲ用領域抽出部１８１１ｂ等の、アプリケーション毎に適した抽出処理を行う構成は、目的別抽出判断部１８０２により選択された場合に、文書領域毎に抽出処理を行う。

例えば、日本語ＯＣＲで処理を行うために、文字行の切り出す必要がある。そこで、日本語ＯＣＲ用領域抽出部１８１１ａが選択された場合、日本語ＯＣＲ用領域抽出部１８１１ａは、文書領域に対して文字行毎に分割し、分割された文書領域を抽出する。また、文字行毎の分割する処理としてはどのような処理を用いても良い。なお、本実施の形態に係る日本語ＯＣＲ用領域抽出部１８１１ａが行う文字行毎の分割処理として、特願２００４−１０２７９６に記載されている公知技術を用いることとする。

図２２は、日本語ＯＣＲ用領域抽出部１８１１ａで、各文書領域について抽出処理を行った結果の例を示した図である。この日本語ＯＣＲ用領域抽出部１８１１ａが抽出処理を行う前は、第１の実施の形態の図１０で示した例とする。図２２に示すように、日本語ＯＣＲ用領域抽出部１８１１ａは、文書領域をさらに細分化して、日本語ＯＣＲの読込に適した文字行毎に分割することを可能とした。

ヨーロッパ系言語ＯＣＲ用領域抽出部１８１１ｂ等の他の構成についても、それぞれアプリケーション毎に適した文書領域に抽出する処理を行う。また、これらの構成で行う処理は、周知の技術を問わず、どのような技術を用いても良い。

次に、以上のように構成された本実施の形態にかかる画像処理装置１８００における文書画像データの入力処理から文書画像データの文書領域の抽出までの処理について説明する。図２３は、本実施の形態にかかる画像処理装置１８００における上述した処理の手順を示すフローチャートである。

まず、第１の実施の形態の図１３のステップＳ１１０１〜ステップＳ１１０７と同様にして、文書画像データを文書領域毎に抽出する（ステップＳ２２０１〜Ｓ２２０７）。

そして、目的別抽出判断部１８０２が、文書領域毎に抽出された文書画像データを用いるアプリケーション又はタスクにより、さらに文書領域を抽出するか否か判断する（ステップＳ２２０８）。そして、文書領域を抽出しないと判断した場合（ステップＳ２２０８：Ｎｏ）、第３の領域抽出部１８０３による処理を行わずに終了する。

また、目的別抽出判断部１８０２が文書領域を抽出すると判断した場合（ステップＳ２２０８：Ｙｅｓ）、次に、第３の領域抽出部１８０３に含まれる構成が、各文書領域に対して領域の抽出を行う（ステップＳ２２０９）。なお、文書領域の抽出を行う構成は、予め目的別抽出判断部１８０２により選択されているものとする。そして全ての文書領域に対して抽出処理が終了した場合に終了する。

上述したように、本実施の形態に係る画像処理装置１８００では、第１の実施の形態で示した効果の他に、アプリケーションやタスクに応じた構成を１つまたは複数選択して、抽出処理を行うことで、画像データを使用する目的となるアプリケーションやタスクに固有の領域抽出方式を組み込むことが可能になる。つまり、目的に応じて適切な文書領域を抽出できる。これにより、さらにレイアウト解析処理の高効率化と高精度化を図ることができる。

（第４の実施の形態）
図２４は、第４の実施の形態にかかる画像処理装置２４００の構成を示すブロック図である。上述した第３の実施の形態にかかる画像処理装置１８００とは、言語種別判定部１０３とは処理が異なる言語種別判定部１６０１に変更され、抽出判断部１０５とは処理が異なる抽出判断部１６０２に変更された構成を有している点で異なる。以下の説明では、上述した第３の実施の形態と同一の構成要素には同一の符号を付してその説明を省略している。また、言語種別判定部１６０１及び抽出判断部１６０２は、第２の実施の形態の画像処理装置１６００で用いられた構成要素と同一の構成要素とし、説明を省略する。

つまり、本実施の形態に係る画像処理装置２４００は、第２の実施の形態に係る画像処理装置１６００のように文書領域毎に言語の種別を判断して第２の領域抽出部１０６で抽出する処理までを行い、その後は第３の実施の形態に係る画像処理装置１８００のようにアプリケーション又はタスクに適切な抽出処理を行うこととする。

次に、以上のように構成された本実施の形態にかかる画像処理装置２４００における文書画像データの入力処理から文書画像データの文書領域の抽出までの処理について説明する。図２５は、本実施の形態にかかる画像処理装置２４００における上述した処理の手順を示すフローチャートである。

まず、第２の実施の形態の図１９のステップＳ１７０１〜ステップＳ１７０８と同様にして、文書画像データを文書領域毎に抽出する（ステップＳ２５０１〜Ｓ２５０７）。

そして、第３の実施の形態の図２３のステップＳ２２０５〜ステップＳ２２０９と同様にして、アプリケーション又はタスクに適した抽出処理を行う（ステップＳ２５０８〜Ｓ２５０９）。

また、本実施の形態に係る画像処理装置２４００では、第３の実施の形態で示した効果の他に、第２の実施の形態で示したように、抽出された文書領域毎に言語の種別を判断して、処理を行うか否か判断するので、文書領域毎に異なる言語で記載されている場合でも、適切に文書領域を抽出することができる。

図２６は、上述した実施の形態の画像処理装置の機能を実現するためのプログラムを実行したＰＣ(Personal Computer)のハードウェア構成を示した図である。上述した実施の形態の画像処理装置は、ＣＰＵ（Central Processing Unit）２６０１等の制御装置と、ＲＯＭ（Read Only Memory）２６０２やＲＡＭ（Random Access Memory）２６０３等の記憶装置と、ＨＤＤ（Hard Disk Drive）、ＣＤ（Compact Disk）ドライブ装置等の外部記憶装置２６０４と、ディスプレイ装置等の表示装置２６０５と、キーボードやマウス等の入力装置２６０６と、通信Ｉ／Ｆ（Interface）２６０７と、これらを接続するバス２６０８を備えており、通常のコンピュータを利用したハードウェア構成となっている。

なお、上述した実施の形態においては画像処理装置として通常のパーソナルコンピュータを適用した場合について説明したが、これに限るものではなく、ＰＤＡ（Personal Digital Assistants）と称される携帯用情報端末、palmTopＰＣ、携帯電話、ＰＨＳ（Personal Handyphone System）等であっても良い。

また、上述した画像処理装置では、ソフトウェアにより各構成を実現したが、リアルタイム性が重要視される場合には、処理を高速化する必要がある。そのためには、論理回路（図示せず）を別途設け、論理回路の動作により各種の演算処理を実行するのが望ましい。

上述した実施の形態の画像処理装置で実行される画像処理プログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ、ＤＶＤ（Digital Versatile Disk）等のコンピュータで読み取り可能な記録媒体に記録されて提供される。

また、上述した実施の形態の画像処理装置で実行される画像処理プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また、本実施形態の画像処理装置で実行される画像処理プログラムをインターネット等のネットワーク経由で提供または配布するように構成しても良い。

また、本実施形態の画像処理プログラムを、ＲＯＭ等に予め組み込んで提供するように構成してもよい。

上述した実施の形態の画像処理装置で実行される画像処理プログラムは、上述した各部（画像入力処理部と、第１の領域抽出部と、言語種別判定部と、属性判定部と、抽出判断部と、第２の領域抽出部と、必要に応じて目的別抽出判断部と第３の領域抽出部）を含むモジュール構成となっており、実際のハードウェアとしてはＣＰＵが上記記録媒体から画像処理プログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、画像入力処理部と、第１の領域抽出部と、言語種別判定部と、属性判定部と、抽出判断部と、第２の領域抽出部と、必要に応じて目的別抽出判断部と第３の領域抽出部が主記憶装置上に生成されるようになっている。

また、上述した実施の形態においては、画像処理装置としてＰＣ等のコンピュータを適用したが、これに限るものではない。例えば、図２７に示すように、画像読み取り手段であるスキャナ部２７０１及び画像印刷装置であるプリンタ部２７０２を備えた画像形成装置であるデジタル複合機２７００に備えられる情報処理装置に画像処理装置１００を適用し、デジタル複合機２７００のスキャナ部２７０１で読み取ったスキャン画像に対してレイアウト解析処理を施しても良い。なお、適用する画像処理装置は画像処理装置１００に制限するものではなく、他の実施の形態等で示した画像処理装置を用いても良い。

また、上述した実施の形態の画像処理装置は、ローカルなシステム（例えばＰＣ単体）を適用したが、これに限るものではない。例えば、図２８に示すように、サーバコンピュータＳにネットワークＮを介してクライアントコンピュータＣが複数台接続されたサーバクライアントシステムに適用しても良い。この場合、各クライアントコンピュータＣからサーバコンピュータＳに対して画像を送信し、サーバコンピュータＳ（画像処理装置１００）において画像に対してレイアウト解析処理を施すことになる。なお、適用する画像処理装置は画像処理装置１００に制限するものではなく、他の実施の形態等で示した画像処理装置を用いても良い。

以上のように、本発明にかかる画像処理装置、画像処理方法及び画像処理プログラムは、画像データから文字を含む領域を抽出する技術に有用であり、特に、言語の種別によらない領域の抽出と言語の種別に応じた領域の抽出を組み合わせる技術として適している。

第１の実施の形態にかかる画像処理装置の構成を示すブロック図である。第１の実施の形態にかかる画像処理装置の記憶部に格納された抽出規則対応テーブルの構造を示した図である。第１の実施の形態にかかる画像処理装置の画像入力処理部が入力処理した２値画像データの例を示した図である。極大白矩形の例を示す説明図である。極大白矩形系列によるページセグメンテーションを用いたレイアウト解析処理の基本的アプローチを概略的に示した説明図である。第１の実施の形態にかかる第１の領域抽出部で領域抽出した結果の例を示した図である。第１の実施の形態にかかる属性判定部が、領域抽出された文書画像データに対して文字行の方向の判定を行った結果の例を示した図である。第１の実施の形態にかかる第２の領域抽出部の構成を示すブロック図である。第１の実施の形態にかかる日本語縦用修正部で領域抽出の対象となる文書領域の例を示した図である。第１の実施の形態にかかる日本語縦用修正部等の後処理修正部で、各文書領域に対して抽出処理を行った結果を示した図である。文字サイズが大きい文字を含む文書画像データを、第１の領域抽出部が抽出した場合の例を示した図である。第１の実施の形態にかかる大文字修正部が、文書領域を結合し、文書領域を再抽出した結果の例を示した図である。第１の実施の形態にかかる画像処理装置における文書画像データの入力処理から文書画像データの文書領域の抽出までの処理の手順を示すフローチャートである。第１の実施の形態にかかる領域抽出部における文書画像データの抽出処理の手順を示すフローチャートである。第１の実施の形態にかかる日本語縦用修正部における文書領域に対して再抽出を行う処理の手順を示すフローチャートである。第１の実施の形態にかかる日本語縦用修正部が、文書領域に対して縦方向の射影をとった例を示す図である。第１の実施の形態にかかる日本語縦用修正部が横方向に分割した後の文書領域を示した説明図である。第１の実施の形態にかかる日本語縦用修正部がさらに縦方向に分割した後の文書領域を示した説明図である。第１の実施の形態にかかる日本語用大文字修正部における文字サイズが大きい文書領域の結合処理の手順を示すフローチャートである。第２の実施の形態にかかる画像処理装置の構成を示すブロック図である。第２の実施の形態にかかる画像処理装置における文書画像データの入力処理から文書画像データの文書領域の抽出までの処理の手順を示すフローチャートである。第３の実施の形態にかかる画像処理装置の構成を示すブロック図である。第３の実施の形態にかかる画像処理装置の記憶部に格納されたアプリケーション規則対応テーブルの構造を示した図である。第３の実施の形態にかかる日本語ＯＣＲ用領域抽出部で、各文書領域について抽出処理を行った結果の例を示した図である。第３の実施の形態にかかる画像処理装置における文書画像データの入力処理から文書画像データの文書領域の抽出するまで処理の手順を示すフローチャートである。第４の実施の形態にかかる画像処理装置の構成を示すブロック図である。第４の実施の形態にかかる画像処理装置における文書画像データの入力処理から文書画像データの文書領域の抽出までの処理の手順を示すフローチャートである。画像処理装置の機能を実現するためのプログラムを実行したＰＣのハードウェア構成を示した図である。デジタル複合機を示す外観斜視図である。サーバクライアントシステムを示す模式図である。

符号の説明

１００、１６００、１８００、２４００画像処理装置
１０１画像入力処理部
１０２第１の領域抽出部
１０３、１６０１言語種別判定部
１０４属性判定部
１０５、１６０２抽出判断部
１０６第２の領域抽出部
１０７、１８０１記憶部
１１１白矩形抽出部
１１２白矩形分割部
１２１後処理修正部
１２２大文字修正部
１２３読み順修正部
５０１文書領域
７０１ａ日本語縦用修正部
７０１ｂ日本語横用修正部
７０１ｃヨーロッパ系言語用修正部
７０２ａ日本語用大文字修正部
７０２ｂヨーロッパ系言語用大文字修正部
７０３ａ日本語用読み順修正部
７０３ｂヨーロッパ系言語用読み順修正部
９０１文書領域
９０２文書領域
９０３文書領域
１５０１文書領域
１８０２目的別抽出判断部
１８０３第３の領域抽出部
１８１１ａ日本語ＯＣＲ用領域抽出部
１８１１ｂヨーロッパ系言語ＯＣＲ用領域抽出部
２６０１ＣＰＵ
２６０２ＲＯＭ
２６０３ＲＡＭ
２６０４外部記憶装置
２６０５表示装置
２６０６入力装置
２６０７通信Ｉ／Ｆ
２６０８バス
２７００デジタル複合機
２７０１スキャナ部
２７０２プリンタ部

Claims

文書画像データを、それ以上拡張すると内部に黒画素を含んでしまう極大白矩形の系列をセパレータとして用いて、文字を含む文書領域毎に分割して抽出する第１の領域抽出手段と、
前記文書画像データで用いられた言語の種別を判定する種別判定手段と、
前記第１の領域抽出手段により抽出された前記文書領域に対して、前記種別判定手段により判定された言語の種別の書字方向に応じた規則に基づいて分割又は結合して文書領域を抽出する第２の領域抽出手段と、
を備えたことを特徴とする画像処理装置。
前記種別判定手段により判定された前記言語の種別により、前記第１の領域抽出手段により抽出された前記文書領域から、さらに抽出を行うか否か判定する抽出判定手段と、をさらに備え、
前記第２の領域抽出手段は、前記抽出判定手段により抽出すると判定された場合に、前記種別判定手段により判定された言語の種別の書字方向に応じた規則に基づいて分割又は結合して文書領域を抽出すること、
を特徴とする請求項１に記載の画像処理装置。
前記第１の領域抽出手段により抽出された前記文書領域の属性を判定する属性判定手段と、をさらに備え、
前記第２の領域抽出手段は、前記第１の領域抽出手段により抽出された前記文書領域に対して、前記種別判定手段により判定された前記言語の種別の書字方向、及び前記属性判定手段により判定された前記属性、に応じた規則に基づいて分割又は結合して文書領域を抽出すること、
を特徴とする請求項１に記載の画像処理装置。
前記種別判定手段により判定された前記言語の種別及び前記属性判定手段により判定された前記属性により、前記第１の領域抽出手段により抽出された前記文書領域から、さらに抽出を行うか否か判定する抽出判定手段と、をさらに備え、
前記第２の抽出手段は、前記抽出判定手段により抽出すると判定された場合に、前記第１の領域抽出手段により抽出された前記文書領域に対して、前記種別判定手段により判定された前記言語の種別の書字方向、及び前記属性判定手段により判定された前記属性、に応じた規則に基づいて分割又は結合して文書領域を抽出すること、
を特徴とする請求項３に記載の画像処理装置。
前記種別判定手段は、前記文書画像データ全体から言語の種別を判定し、
前記抽出判定手段は、前記種別判定手段により判定された前記言語の種別により、前記第１の領域抽出手段により抽出された前記文書領域に対して、さらに抽出を行うか否か判定すること、
を特徴とする請求項２に記載の画像処理装置。
前記種別判定手段は、前記文書画像データの、前記第１の領域抽出手段により抽出された前記文書領域毎に言語の種別を判定し、
前記抽出判定手段は、前記第１の領域抽出手段により抽出された前記文書領域毎に、前記種別判定手段により判定された前記言語の種別により、さらに抽出するか否か判定すること、
を特徴とする請求項２又は４に記載の画像処理装置。
前記第２の領域抽出手段により抽出された前記文書領域に対して、文書画像データを使用するアプリケーション又はタスクに応じた規則により分割又は結合にして文書領域を抽出する第３の領域抽出手段と、
を、さらに備えたことを特徴とする請求項１乃至６のいずれか１つに記載の画像処理装置。
前記文書画像データを使用するアプリケーション又はタスクに適した抽出を行うか否か判定する第２の抽出判定手段と、
前記第３の領域抽出手段は、前記第２の抽出判定手段により抽出すると判定された場合に、前記第２の領域抽出手段により抽出された前記文書領域に対して、前記アプリケーション又はタスクに応じた規則により分割又は結合にして文書領域を抽出すること、
を特徴とする請求項７に記載の画像処理装置。
前記属性判定手段は、前記文書画像データの属性として、前記第１の領域抽出手段により抽出された前記文書領域内に含まれている文字の方向及び文字サイズのうち少なくとも１つ以上を判定すること、
を特徴とする請求項３に記載の画像処理装置。
言語の種別と、属性と、当該言語の種別の書字方向及び当該属性に応じた抽出の規則と、を対応付けた抽出規則対応情報を記憶する記憶手段と、をさらに備え、
前記第２の領域抽出手段は、前記種別判定手段により判定された前記言語の種別と、前記属性判定手段により判定された前記属性と、前記抽出規則対応情報で対応付けられた前記規則に基づいて、前記第１の領域抽出手段により抽出された前記文書領域に対して分割又は結合して、文書領域を抽出すること、
を特徴とする請求項３に記載の画像処理装置。
前記第２の領域抽出手段は、前記第１の領域抽出手段により抽出された前記文書領域に対して、異なる行方向の文字列が含まれている文書領域を行方向が異なる文字列毎に文書領域の分割、文字サイズが大きい文字を含む文書領域同士の結合、前記文書領域の読み順に従って文書領域同士の結合のうち少なくとも１つ以上を行うことで、文書領域を抽出すること、
を特徴とする請求項１乃至１０のいずれか１つに記載の画像処理装置。
文書画像データを、それ以上拡張すると内部に黒画素を含んでしまう極大白矩形の系列をセパレータとして用いて、文字を含む文書領域毎に分割して抽出する第１の領域抽出ステップと、
前記文書画像データで用いられた言語の種別を判定する種別判定ステップと、
前記第１の領域抽出ステップにより抽出された前記文書領域に対して、前記種別判定ステップにより判定された言語の種別の書字方向に応じた規則に基づいて分割又は結合して文書領域を抽出する第２の領域抽出ステップと、
を備えたことを特徴とする画像処理方法。
前記種別判定ステップにより判定された前記言語の種別により、前記第１の領域抽出ステップにより抽出された前記文書領域から、さらに抽出を行うか否か判定する抽出判定ステップと、をさらに備え、
前記第２の領域抽出ステップは、前記抽出判定ステップにより抽出すると判定された場合に、前記種別判定ステップにより判定された言語の種別の書字方向に応じた規則に基づいて分割又は結合して文書領域を抽出すること、
を特徴とする請求項１２に記載の画像処理方法。
前記第１の領域抽出ステップにより抽出された前記文書領域の属性を判定する属性判定ステップと、をさらに備え、
前記第２の領域抽出ステップは、前記第１の領域抽出ステップにより抽出された前記文書領域に対して、前記種別判定ステップにより判定された前記言語の種別の書字方向、及び前記属性判定ステップにより判定された前記属性、に応じた規則に基づいて分割又は結合して文書領域を抽出すること、
を特徴とする請求項１３に記載の画像処理方法。
前記種別判定ステップにより判定された前記言語の種別及び前記属性判定ステップにより判定された前記属性により、前記第１の領域抽出ステップにより抽出された前記文書領域から、さらに抽出を行うか否か判定する抽出判定ステップと、をさらに備え、
前記第２の抽出ステップは、前記抽出判定ステップにより抽出すると判定された場合に、前記第１の領域抽出ステップにより抽出された前記文書領域に対して、前記種別判定ステップにより判定された前記言語の種別の書字方向、及び前記属性判定ステップにより判定された前記属性、に応じた規則に基づいて分割又は結合して文書領域を抽出すること、
を特徴とする請求項１４に記載の画像処理方法。
前記種別判定ステップは、前記文書画像データ全体から言語の種別を判定し、
前記抽出判定ステップは、前記種別判定ステップにより判定された前記言語の種別により、前記第１の領域抽出ステップにより抽出された前記文書領域に対して、さらに抽出を行うか否か判定すること、
を特徴とする請求項１３に記載の画像処理方法。
前記種別判定ステップは、前記文書画像データの、前記第１の領域抽出ステップにより抽出された前記文書領域毎に言語の種別を判定し、
前記抽出判定ステップは、前記第１の領域抽出ステップにより抽出された前記文書領域毎に、前記種別判定ステップにより判定された前記言語の種別により、さらに抽出するか否か判定すること、
を特徴とする請求項１３又は１５に記載の画像処理方法。
前記第２の領域抽出ステップにより抽出された前記文書領域に対して、文書画像データを使用するアプリケーション又はタスクに応じた規則により分割又は結合にして文書領域を抽出する第３の領域抽出ステップと、
を、さらに備えたことを特徴とする請求項１２乃至１７のいずれか１つに記載の画像処理方法。
前記文書画像データを使用するアプリケーション又はタスクに適した抽出を行うか否か判定する第２の抽出判定ステップと、
前記第３の領域抽出ステップは、前記第２の抽出判定ステップにより抽出すると判定された場合に、前記第２の領域抽出ステップにより抽出された前記文書領域に対して、前記アプリケーション又はタスクに応じた規則により分割又は結合にして文書領域を抽出すること、
を特徴とする請求項１８に記載の画像処理方法。
前記属性判定ステップは、前記文書画像データの属性として、前記第１の領域抽出ステップにより抽出された前記文書領域内に含まれている文字の方向及び文字サイズのうち少なくとも１つ以上を判定すること、
を特徴とする請求項１４に記載の画像処理方法。
前記第２の領域抽出ステップは、言語の種別と、属性と、当該言語の種別の書字方向及び当該属性に応じた抽出の規則と、を対応付けた、記憶手段に記憶された抽出規則対応情報から、前記種別判定ステップにより判定された前記言語の種別と、前記属性判定ステップにより判定された前記属性と、対応付けられた、前記規則に基づいて、前記第１の領域抽出ステップにより抽出された前記文書領域に対して分割又は結合して、文書領域を抽出すること、
を特徴とする請求項１４に記載の画像処理方法。
前記第２の領域抽出ステップは、前記第１の領域抽出ステップにより抽出された前記文書領域に対して、異なる行方向の文字列が含まれている文書領域を行方向が異なる文字列毎に文書領域の分割、文字サイズが大きい文字を含む文書領域同士の結合、前記文書領域の読み順に従って文書領域同士の結合のうち少なくとも１つ以上を行うことで、文書領域を抽出すること、
を特徴とする請求項１２乃至２１のいずれか１つに記載の画像処理方法。
請求項１２乃至２２のいずれか１つに記載された画像処理方法をコンピュータで実行させることを特徴とする画像処理プログラム。