JP2007066084A

JP2007066084A - 文書処理装置、文書処理方法、および文書処理用プログラム

Info

Publication number: JP2007066084A
Application number: JP2005252379A
Authority: JP
Inventors: Yoshihisa Oguro; 慶久大黒
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2005-08-31
Filing date: 2005-08-31
Publication date: 2007-03-15

Abstract

【課題】文書要素を分離するための空白帯セパレータを高精度に検出して、文書領域を高精度に抽出することが可能な文書処理装置を提供することを目的とする。
【解決手段】文書画像中で、文書要素を分離するための空白帯セパレータを検出する文書処理装置において、文書画像の黒画素の外接矩形を検出する矩形検出部１１と、文書画像を分割線により複数の短冊状の部分領域に分割し、各部分領域において、外接矩形に基づいて、前記分割線と垂直に交わる空白領域を検出し、異なる部分領域の対象となる２つの空白領域間に、共通の空白領域があるか否かを検出し、共通な空白領域がある場合にはこれらを連結した連結空白領域を空白帯セパレータとして検出する空白帯セパレータ検出部１３とを備えている。
【選択図】図５

Description

本発明は、文書処理装置、文書処理方法、および文書処理用プログラムに関し、詳細には、多種多様なレイアウトの原稿から精度良く文字領域を抽出するための空白帯セパレータを検出する文書処理装置、文書処理方法、および文書処理用プログラムに関する。

文書画像の構造を解析しようとした場合、黒画素領域を抽出し、抽出された黒画素領域の間に存在するセパレータ（空白領域）を基に画像を領域分割する方法が知られている。ここでは、文書の内容が大きく変化するセパレータをうまく抽出することが必要である。

文書要素間のセパレータとして空白帯（以降、「空白帯セパレータ」とも称する）を使用する方法として、例えば、特許文献１で知られている。特許文献１では、対象領域内の射影分布を縦または横方向について求め、射影分布中である閾値より小さい区間を空白帯としている。

特開平１１−６６２３０号公報

しかしながら、複雑なレイアウトの原稿においては、空白帯が領域全体を横断または縦断する場合を除いて黒画素が極端に少ない位置はまれであり、射影分布において空白帯の開始位置および終了位置を示す黒画素計数結果の明確な変化は起らないため、射影分布によって部分的な空白帯を検出することは困難であるという問題がある。

本発明は、上記課題に鑑みてなされたものであり、文書要素を分離するための空白帯セパレータを高精度に検出して、文書領域を高精度に抽出することが可能な文書処理装置、文書処理方法、および文書処理用プログラムを提供することを目的とする。

上記した課題を解決して、本発明の目的を達成するために、本発明は、文書画像中で、文書要素を分離するための空白帯セパレータを検出する文書処理装置において、前記文書画像の黒画素の外接矩形を検出する外接矩形検出手段と、前記文書画像を分割線により複数の短冊状の部分領域に分割する分割手段と、各部分領域において、前記外接矩形に基づいて、前記分割線と垂直に交わる空白領域を検出する空白領域検出手段と、異なる部分領域の対象となる２つの空白領域間に、共通の空白領域があるか否かを検出し、共通な空白領域がある場合にはこれらを連結した連結空白領域を前記空白帯セパレータとして検出する空白帯セパレータ検出手段と、を備えたことを特徴とする。

また、本発明の好ましい態様によれば、前記分割手段は、前記文書画像の水平方向および垂直方向の両方向に分割線を施して前記短冊状の部分領域に分割することが望ましい。

また、本発明の好ましい態様によれば、前記空白帯セパレータ検出手段は、前記共通の空白領域を検出する場合に、距離の離れた前記２つの空白領域から順に処理を開始し、当該共通の空白領域が求められた場合には、前記２つの空白領域に関する処理を終了することが望ましい。

また、本発明の好ましい態様によれば、前記空白帯セパレータ検出手段は、前記連結空白領域のサイズに応じて、空白帯セパレータとして採用するか否かを決定することが望ましい。

また、本発明の好ましい態様によれば、前記空白帯セパレータ検出手段は、前記対象となる２つの空白領域のサイズに応じて、当該空白領域を空白帯セパレータとするか否かを決定することが望ましい。

また、本発明の好ましい態様によれば、前記空白帯セパレータ検出手段は、前記連結空白領域の外側方向に空白領域を探索し、前記連結空白領域を拡大することが望ましい。

上記した課題を解決して、本発明の目的を達成するために、本発明は、文書画像中で、文書要素を分離するための空白帯セパレータを検出する文書処理方法において、前記文書画像の黒画素の外接矩形を検出する外接矩形検出工程と、前記文書画像を分割線により複数の短冊状の部分領域に分割する分割工程と、各部分領域において、前記外接矩形に基づいて、前記分割線と垂直に交わる空白領域を検出する空白帯検出工程と、異なる部分領域の対象となる２つの空白領域間に、共通の空白領域があるか否かを検出し、共通な空白領域がある場合にはこれらを連結した連結空白領域を前記空白帯セパレータとして検出する空白帯セパレータ検出工程と、を含むことを特徴とする。

上記した課題を解決して、本発明の目的を達成するために、文書画像中で、文書要素を分離するための空白帯セパレータを検出するための文書処理用プログラムにおいて、前記文書画像の黒画素の外接矩形を検出する外接矩形検出工程と、前記文書画像を分割線により複数の短冊状の部分領域に分割する分割工程と、各部分領域において、前記外接矩形に基づいて、前記分割線と垂直に交わる空白領域を検出する空白帯検出工程と、異なる部分領域の対象となる２つの空白領域間に、共通の空白領域があるか否かを検出し、共通な空白領域がある場合にはこれらを連結した連結空白領域を前記空白帯セパレータとして検出する空白帯セパレータ検出工程と、をコンピュータに実行させることを特徴とする。

本発明によれば、文書画像の黒画素の外接矩形を検出し、文書画像を分割線により複数の短冊状の部分領域に分割し、各部分領域において、外接矩形に基づいて、分割線と垂直に交わる空白領域を検出し、異なる部分領域の対象となる２つの空白領域間に、共通の空白領域があるか否かを検出し、共通な空白領域がある場合にはこれらを連結した連結空白領域を文書要素を分離するための空白帯セパレータとして検出することとしたので、多種多様なレイアウトの文書に対しても、文字領域のセパレータとして機能する空白帯セパレータを高精度に検出することができ、文字領域の抽出精度を向上させることが可能な文書処理装置、文書処理方法、および文書処理用プログラムを提供することが可能となるという効果を奏する。

以下、この発明に係る文書処理装置、文書処理方法、および文書処理用プログラムの好適な実施の形態について、図面を参照しつつ詳細に説明する。なお、この実施の形態によりこの発明が限定されるものではない。また、下記実施の形態における構成要素には、当業者が容易に想定できるものまたは実質的に同一のものが含まれる。

（発明の原理）
図１〜図４を参照して、本発明の原理を従来技術との比較により説明する。図１は、切り出し処理を説明するための図である。図１−１は原稿例、図１−２は図１−１の原稿の矩形抽出例、図１−３は切り出し例を示す図である。

図１−１に示す原稿の黒画素の外接矩形を求めると、図１−２に示すようになる。同図において、波線は外接矩形を示している。この外接矩形を連結して行に成長させると（行切り出し処理）、図３−３に示すようになる。同図において、切り出し領域を実線で示している。切り出し処理は公知であるのでその詳細な説明は省略する。外接矩形の成長を、水平方向および垂直方向の両方向で実施すると、水平行と垂直行との両方が切り出される。

図２を参照して、上述した射影によって空白帯セパレータを抽出可能な原稿例と抽出不可能な原稿例について説明する。図２−１は、射影によって空白帯セパレータを抽出可能な例を示す図である。同図において、波線は空白帯セパレータを示している。図２−２は射影によって空白帯セパレータを抽出不可能な例を示す図である。同図において、波線は射影によって抽出可能な空白帯セパレータを示し、一点鎖線は射影によって抽出不可能な場合を示している。

図３は、射影によって空白帯セパレータを抽出できない場合の具体例を説明するための図である。複雑なレイアウトの原稿の場合、外接矩形間の距離が近接する個所があり、距離の近い外接矩形同士を単純に連結していくと、誤った行を生成してしまう可能性がある。

図３−１は、行方向が異なる行が近接する場合、図３−２は行方向が同じ行が近接する場合を示している。いずれも空白領域によって文書要素が分離されている。

図４は、切り出し結果を統合して文字領域を生成する例を示している。図４−１は、行が正しく切り出された場合、図４−２は行が正しく切り出されなかった場合を示している。このように、誤った行を統合して文字領域（段落）を構成しても、正しい結果を得ることができない。

本実施の形態では、連続する空白領域（空白帯）に注目する。一般的に下式（１）に示すように、文字間よりも行間は広く、行間よりも段落間は広い傾向がある。また、特別な場合を除いて、文字間の空白は行高さより小さい。

文字間＜行間＜段落間・・・（１）

したがって、文字間より大きい空白帯が連続している場合は、行間か段落間である可能性が高い。そこで、文字間距離として適当な閾値を設定し、それを越える空白帯の連続を求めてそれを空白帯セパレータとし、空白帯セパレータを跨って外接矩形を統合することを禁止すれば、誤った外接矩形の統合を避けることができる。

（実施の形態）
図５は、本発明の実施の形態に係る文書処理装置１の構成を示す図である。文書処理装置１は、図５に示すように、文書処理装置１の全体を制御する制御部１０と、画像入力部として機能するスキャナなどの画像入力装置２０と、ＣＲＴ（Cathode Ray Tube）、ＬＣＤ（Liquid Crystal Display）などの表示装置３０と、入力部として機能するキーボードやマウスなどの操作部４０と、外部記憶装置となるＨＤドライブ５０と、ＣＤ（Compact Disc）−ＲＯＭ６１に記録されたプログラムやデータを読み取るＣＤ−ＲＯＭドライブ６０と、ＦＤ６１に記録されたプログラムやデータを読み取るＦＤドライブ７０と、文書処理装置１とネットワークとの通信を司る通信部８０とがバスを介して互いに接続された構成となっており、通常のコンピュータを利用したハードウェア構成となっている。

制御部１０は、各部を集中的に制御するＣＰＵ（Central Processing Unit）を備えており、このＣＰＵには、ＢＩＯＳなどを記憶した読出し専用メモリであるＲＯＭ（Read Only Memory）と、各種データを書換え可能に記憶し、ＣＰＵのワークエリアとして使用されるＲＡＭ（Random Access Memory）を備えており、文書処理装置の全体動作を制御する。

本実施の形態の文書処理装置１で実行される文書処理用プログラムは、インストール可能な形式又は実行可能な形式のファイルでＨＤドライブ５０、ＣＤ−ＲＯＭ６１、ＦＤ７１、ＣＤ−Ｒ、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）等のコンピュータで読み取り可能な記録媒体に記録されて提供される。また、本実施の形態の文書処理用プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また、本実施の形態の文書処理用プログラムをインターネット等のネットワーク経由で提供または配布するように構成しても良い。また、本実施の形態の文書処理用プログラムを、ＲＯＭ等に予め組み込んで提供するように構成してもよい。

制御部１０では、ＣＰＵが、ＨＤドライブ５０、ＣＤ−ＲＯＭドライブ６０、またはＦＤドライブ７０から文書処理用プログラムをリードして、ＲＡＭ上で当該プログラムを実行することにより、矩形抽出部１１、検出方向設定部１２、空白帯セパレータ検出部１３、領域識別部１４として機能する。

矩形抽出部１１は、画像入力装置２０によって入力されＲＡＭに記憶された原稿画像の黒画素の連続する範囲毎に、それと外接する矩形（外接矩形）を検出する。検出方向設定処理部１２は、原稿画像の検出方向を水平方向（行方向）および垂直方向（列方向）に設定する。

空白帯セパレータ検出部１３は、空白帯セパレータ検出処理を実行して、文書要素を分離するための空白帯セパレータを検出する。具体的には、空白帯セパレータ検出部１３は、検出方向設定処理部１２により設定された検出方向と直交する方向に分割線で原稿画像を短冊状に分割する。そして、空白帯セパレータ検出部１３は短冊状の各部分領域において、外接矩形に基づいて分割線と垂直に交わる空白領域を検出し、異なる部分領域の対象となる２つの空白領域間に、共通の空白領域があるか否かを検出し、共通な空白領域がある場合にはこれらを連結した連結空白領域を空白帯セパレータとして検出する。

領域識別部１４は、原稿画像を領域識別し、文字領域、表領域、図領域、写真領域などに分類する。ここで、文書領域の識別は、空白帯セパレータ検出部１３で検出された空白帯セパレータを使用して行う。

以下、上記文書処理装置１の空白帯セパレータの検出方法を詳細に説明する。ここでは、上記図２−２のような複雑なレイアウトの原稿を処理対象としている。前述したように、このようなレイアウトの場合、縦方向および横方向に射影分布を求めても、黒画素の計数結果に明確な変化は見られないことは明らかである。本実施の形態では、黒画素の外接矩形のみに注目し、黒画素そのものには注目しない。すなわち、上記図１−２における外接矩形に対して処理を実行する。

図６〜図１５を参照して、制御部１０の空白帯セパレータの検出方法を詳細に説明する。図６は、制御部１０の空白帯セパレータ検出方法を説明するためのフローチャートである。図７〜図１５は、制御部１０の空白帯セパレータ検出方法を説明するための図である。

図６−１において、まず、画像入力装置２０によって、原稿画像を入力してＲＡＭに格納する（ステップＳ１）。次に、矩形抽出部１１は、原稿画像において、黒画素の連続する範囲毎に、それと外接する矩形（外接矩形）を求める（ステップＳ２）。この後、検出方向設定処理部１２は、検出方向を水平方向（行方向）に設定する（ステップＳ３）。

空白帯セパレータ検出部１３は、矩形抽出結果に基づいて、水平方向について空白帯セパレータ検出処理を実行する（ステップＳ４）。

つづいて、検出方向設定部１２は、検出方向を垂直方向（列方向）に設定する（ステップＳ５）。そして、空白帯セパレータ検出部１３は、矩形抽出結果に基づいて、垂直方向空白帯セパレータ検出処理を実行する（ステップＳ６）。

上記ステップＳ４およびＳ６の空白帯セパレータ検出部１３の空白帯セパレータ検出処理の詳細を説明する。図６−２において、まず、原稿画像を分割線により短冊状に分割する（ステップＳ１１）。検出方向が水平方向（行方向）の場合は、原稿画像を垂直方向（列方向）に短冊上に分割する。

図７は、原稿画像をＮ等分の短冊状の部分領域に分割した例（例えば、Ｎ＝８）を示す図である。まず、図７に示すように、処理対象領域を短冊状に分割する。ここで、分割単位は、処理対象をＮ等分してもよいし、固定幅にて分割してもよい。短冊状に分割された部分領域の詳細は、図８のようになる。

次に、短冊状の各部分領域内で、部分領域を横断する横断空白領域（空白領域）を検出し、検出結果を部分領域毎にＲＡＭに記憶する（ステップＳ１２）。具体的には、図８の各部分領域において、領域を横断する横断空白領域を検出する。これは、部分領域内の外接矩形の座標をソートしておき、隣接する外接矩形間の終点と始点との距離を順次求め、予め設定した閾値以上の空白を検出することによって横断空白領域を検出することができる。なお、射影分布を用いても横断空白領域を検出することができる。

また、図８に示すように、短冊状の部分領域を、・・・、ｎ−２、ｎ−１、ｎ、ｎ＋１、ｎ＋２、・・・というように、その存在位置の左から右（垂直の場合、上から下）の順に番号づけしておくことにより、開始する部分領域はｎが小さい順から先に、終了する部分領域はｎが大きい順から先にとすることにより、注目する横断空白領域を容易に選択することができる。

そして、部分領域間において共通な空白領域を検出し、これらを連結して、より長い空白領域を作成する（ステップＳ１３）。図９は、部分領域を横断する空白領域の検出結果を示す図である（横断空白領域１、横断空白領域２、横断空白領域３）。求めた横断空白領域に共通な空白領域を見つけることによって、セパレータ候補となる空白領域の連続を求めることができる。ここでは、横断空白領域１と横断空白領域３間の共通空白領域を求める場合を例に説明する。

まず、横断空白領域１と横断空白領域３の始点と終点座標とを比較し、重複する範囲がなければ、両者に共通する空白領域は存在しない。両者に重複する範囲がある場合は、横断空白領域１の属する部分領域（ｎ−１）と横断空白領域３の属する部分領域（ｎ＋１）との間に存在する部分領域（この場合ｎのみ）において、横断空白領域（この場合、横断空白領域２）の座標の始点と終点とが、横断空白領域１と横断空白領域３と重複する範囲があるものが１つ以上存在する場合は、横断空白領域１と横断空白領域３を連結する横断空白領域が存在することになり、それらの重複範囲が共通空白領域である。最初に注目した２つの横断空白領域の間に、重複する横断空白領域を持たない空白領域がある場合は、注目した２つの横断空白領域の間に共通な空白領域は存在しない。

図１０は、横断空白領域１と横断空白領域３との間に共通な空白領域２を求めて、横断空白領域１〜３を連結した結果を示す。

連結し終わった空白領域の長さが所定の閾値より長いか否かを判断する（ステップＳ１４）。なお、空白帯セパレータとして機能する空白領域を求める場合に、実用上は極大な空白領域のみを求めることにしてもよい。たとえば、図９において、横断空白領域１と横断空白領域３との間の空白領域２を求めることができれば、横断空白領域１と横断空白領域２間と、横断空白領域２と横断空白領域３間の空白領域を求める必要はない。

この判断の結果、連結空白領域の長さが所定の閾値よりも長い場合には（ステップＳ１４の「Ｙｅｓ」）、連結空白領域を空白帯セパレータとして、当該連結空白領域の座標を、ＲＡＭの現在の検出方向用の記録領域に格納する（ステップＳ１５）。他方、連結空白領域の長さが所定の閾値よりも長くない場合には（ステップＳ１４の「Ｎｏ」）、連結空白領域を空白帯セパレータとして採用しない。連結空白領域が複数検出された場合には、検出された領域数だけステップＳ１４、Ｓ１５の処理を繰り返す。なお、検出方向が垂直方向（列方向）の場合は、原稿画像を水平方向（行方向）に短冊上に分割して、同様の処理を行う。

なお、上記ステップＳ１４では、連結し終わった空白領域の長さが所定の閾値より長い場合に、空白帯セパレータとして採用することとしたが、ステップＳ１４の処理は必ずしも必要なものではなく、ステップＳ１４の処理を省略して、連結し終わった空白領域を空白帯セパレータとして採用することとしても、本発明の課題を解決することが可能である。

前述したように、連続する空白領域は段落間だけでなく行間にも存在する。また、定ピッチで印刷された原稿においては、文字間の空白が段落全体を通じて他の行と同期してしまい、文字間を分離するような連結空白領域を生じる可能性がある。そこで、求められた連結空白領域のサイズを判定し、予め設定した閾値より細い場合には空白帯セパレータとして採用しないことにしてもよい。閾値に関しては、空白領域の長さに応じて、その幅を決定することができる。例えば、長い空白領域については小さい（細い）閾値を設定し、短い空白領域については大きい（太い）閾値を設定することにしてもよい。

図１１は、黒画素が疎な原稿の場合の部分領域の一例を示す図である。上述した方法により、図１１の部分領域を横断する横断空白領域を求めると、図１２に示すようになる。これらの横断空白領域を連結すると、ｎ−１〜ｎ＋１の範囲に及ぶ空白帯セパレータとなる。これは実際に使用する空白帯セパレータより長く感じられる。そこで、最初に注目する空白領域のサイズに制限を設け、閾値よりも大きい空白領域の場合は、その空白領域を空白帯セパレータとしないことにしてもよい。図１２において、空白領域の幅に制限を設けた場合には、ｎ−１およびｎ＋１の横断空白領域を採用せずに最終的な空白帯セパレータは、図１３に示すようになる。

また、図１４に示すような原稿の場合、その横断空白領域を求めた結果は上記図９と同じとなり、セパレータとなる空白帯は図１０と同じとなる。しかしながら、短冊状の部分領域の単位でしか、セパレータの長さが求められないので、本来、セパレータが挿入されるべき、図１４の破線丸部分の空白領域を連結することができない。

そこで、２つの空白領域および共通の空白領域を連結した連結空白領域を求めた後、連結空白領域の外側方向に空白領域を探索し、空白領域を拡大することにしてもよい。具体的には、求められた空白帯セパレータ範囲に対し、外側（始点についてはｎが小さい方、終点についてはｎの大きい方）に、最も近接する矩形を求めればよい。これは、矩形を始点および終点に関して、それぞれソートしておけば容易に実現できる。図１５に、極大な空白帯セパレータを求めた結果を示している。

また、対象として空白領域のサイズと、それと隣接する空白領域の間の距離に応じて、空白帯セパレータとして採用するか否かを決定することにしてもよい。

以上説明したように、本実施の形態によれば、文書画像の黒画素の外接矩形を検出し、文書画像を分割線により複数の短冊状の部分領域に分割し、各部分領域において、外接矩形に基づいて、分割線と垂直に交わる空白領域を検出し、異なる部分領域の対象となる２つの空白領域間に、共通の空白領域があるか否かを検出し、共通な空白領域がある場合にはこれらを連結した連結空白領域を、文書要素を分離するための空白帯セパレータとして検出することとしたので、多種多様なレイアウトの文書に対してもセパレータとして機能する空白帯セパレータを高精度に検出することができ、文字領域の抽出精度を向上させることが可能となる。

以上のように、本発明に係る文書処理装置、文書処理方法、および文書処理用プログラムは、文字処理装置やＯＣＲ認識装置等の各種装置、文字処理用やＯＣＲ用の各種プログラムに好適に実施可能である。

原稿例を示す図である。図１−１の原稿の矩形抽出例を示す図である。図１−１の原稿の文字領域の切り出し例を示す図である。射影によって空白帯セパレータを抽出可能な例を示す図である。射影によって空白帯セパレータを抽出不可能な例を示す図である。行方向が異なる行が近接する場合の例を示す図である。行方向が同じ行が近接する場合の例を示す図である。行が正しく切り出された場合の例を示す図である。行が正しく切り出されなかった場合の例を示す図である。本実施の形態に係る文字処理装置の構成を示す図である。制御部の空白帯セパレータ検出処理を説明するためのフローチャートである（その１）。制御部の空白帯セパレータ検出処理を説明するためのフローチャートである（その２）。原稿画像をＮ等分の短冊状の部分領域に分割する例（例えば、Ｎ＝８）を示す図である。短冊状に分割された部分領域の詳細を示す図である。領域を横断する空白領域の検出結果を示す図である。横断空白領域１と横断空白領域３との間に共通な空白領域２を求めて、横断空白領域１〜３を連結した結果を示す図である。黒画素が疎な原稿の部分領域の分割例を示す図である。図１１の部分領域を横断する空白領域を求める場合を説明するための図である。図１２の空白帯を検出した場合を説明するための図である。横断空白領域を求めた結果を示す図である。極大な空白帯セパレータを求めた結果を示す図である。

符号の説明

１０制御部
１１矩形抽出部
１２検出方向設定部
１３空白帯セパレータ検出部
１４領域識別部
２０画像入力装置
３０表示装置
４０操作部
５０ＨＤドライブ
６０ＣＤ−ＲＯＭドライブ
６１ＣＤ−ＲＯＭ
７０ＦＤドライブ
７１ＦＤ
８０通信部

Claims

文書画像中で、文書要素を分離するための空白帯セパレータを検出する文書処理装置において、
前記文書画像の黒画素の外接矩形を検出する外接矩形検出手段と、
前記文書画像を分割線により複数の短冊状の部分領域に分割する分割手段と、
各部分領域において、前記外接矩形に基づいて、前記分割線と垂直に交わる空白領域を検出する空白領域検出手段と、
異なる部分領域の対象となる２つの空白領域間に、共通の空白領域があるか否かを検出し、共通な空白領域がある場合にはこれらを連結した連結空白領域を前記空白帯セパレータとして検出する空白帯セパレータ検出手段と、
を備えたことを特徴とする文書処理装置。
前記分割手段は、前記文書画像の水平方向および垂直方向の両方向に分割線を施して、前記短冊状の部分領域に分割することを特徴とする請求項１に記載の文書処理装置。
前記空白帯セパレータ検出手段は、前記共通の空白領域を検出する場合に、距離の離れた前記２つの空白領域から順に処理を開始し、当該共通の空白領域が求められた場合には、前記２つの空白領域に関する処理を終了することを特徴とする請求項１に記載の文書処理装置。
前記空白帯セパレータ検出手段は、前記連結空白領域のサイズに応じて、空白帯セパレータとして採用するか否かを決定することを特徴とする請求項１に記載の文書処理装置。
前記空白帯セパレータ検出手段は、前記対象となる２つの空白領域のサイズに応じて、当該空白領域を空白帯セパレータとするか否かを決定することを特徴とする請求項１に記載の文書処理装置。
前記空白帯セパレータ検出手段は、前記連結空白領域の外側方向に空白領域を探索し、前記連結空白領域を拡大することを特徴とする請求項１に記載の文書処理装置。
文書画像中で、文書要素を分離するための空白帯セパレータを検出する文書処理方法において、
前記文書画像の黒画素の外接矩形を検出する外接矩形検出工程と、
前記文書画像を分割線により複数の短冊状の部分領域に分割する分割工程と、
各部分領域において、前記外接矩形に基づいて、前記分割線と垂直に交わる空白領域を検出する空白帯検出工程と、
異なる部分領域の対象となる２つの空白領域間に、共通の空白領域があるか否かを検出し、共通な空白領域がある場合にはこれらを連結した連結空白領域を前記空白帯セパレータとして検出する空白帯セパレータ検出工程と、
を含むことを特徴とする文書処理方法。
文書画像中で、文書要素を分離するための空白帯セパレータを検出するための文書処理用プログラムにおいて、
前記文書画像の黒画素の外接矩形を検出する外接矩形検出工程と、
前記文書画像を分割線により複数の短冊状の部分領域に分割する分割工程と、
各部分領域において、前記外接矩形に基づいて、前記分割線と垂直に交わる空白領域を検出する空白帯検出工程と、
異なる部分領域の対象となる２つの空白領域間に、共通の空白領域があるか否かを検出し、共通な空白領域がある場合にはこれらを連結した連結空白領域を前記空白帯セパレータとして検出する空白帯セパレータ検出工程と、
をコンピュータに実行させることを特徴とする文書処理用プログラム。