JP2009070242A

JP2009070242A - 領域分割方法及び装置、並びにプログラム

Info

Publication number: JP2009070242A
Application number: JP2007239484A
Authority: JP
Inventors: Toshifumi Yamaai; 敏文山合
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2007-09-14
Filing date: 2007-09-14
Publication date: 2009-04-02
Anticipated expiration: 2027-09-14
Also published as: JP4974367B2

Abstract

【課題】手動入力を利用して領域分割を行うときに、識別の必要な領域に対するおおまかな位置指定で正確な領域識別を可能にする。
【解決手段】ステップＳ１で文書を読み取って画像入力を行い、ステップＳ２で文書の画像を表示する。ステップＳ３で、識別したい領域の一部をポインティングデバイスによりおおまかに指定し、ステップＳ４で指定領域を表示する。ステップＳ５でユーザー指定領域をＣＰＵ２で扱いやすい領域に変換し、ステップＳ６でユーザー指定領域の内部の情報抽出を行う。ステップＳ７でその情報を利用して領域分割を行い、ステップＳ８で領域分割の結果を表示する。
【選択図】図２

Description

本発明は、文書の画像データより文字領域、表領域、写真領域等の領域を識別して抽出する領域分割方法及び装置、並びにその方法を実行するためのコンピュータプログラムに関する。

文書を読み取って生成した画像データを処理し、テキストデータとして再利用する場合、文字で書かれた文章の存在範囲などを示すレイアウト情報を取得することが重要である。例えば、文書の文字認識を行う場合、文書をイメージスキャナ等で画像データとして読み込み、文字領域と図形領域等に領域分割を行なってレイアウト情報を得る。そして、文字領域に関しては文字認識処理を行なってテキストデータへ変換する。この場合、領域分割は文字認識処理の前処理として利用されることになる。領域分割は、文字認識処理の前処理だけでなく、文書の画像データを光ディスク等にファィリングしたり、ファクシミリで送信したりする場合にも、文書の画像中の属性の異なる領域の処理方法を最適化する等のために重要な技術である。

自動的に領域分割を行う技術としては、射影を利用する方法（特許文献１）、黒画素の統合による方法（特許文献２）等、様々な手法が提案されている。しかし、これらの自動的な領域分割技術では、複雑なレイアウトや不規則な形式の文書を正確に領域分割することは非常に困難である。

また、手動による情報を利用して領域分割を行う技術として、領域分割装置に対して、ユーザーが文書画像中の任意の領域を選択し、選択した各領域毎にその内部にポイントを１つずつ指定し、領域分割装置において該指定されたポイントの位置を証拠として利用して文書画像の領域分割を行うようにした領域分割方法及び装置がある（特許文献３）。この技術によれば、ユーザーの領域指定情報を積極的に利用することで、領域分割の精度を高めることができる。

しかしながら、特許文献３に記載されている技術では、文書画像中の領域分割する領域中の１点をそれぞれ指定することで領域識別を行うため、文書画像中に存在するほぼ全ての領域を指定しないと、正確が領域識別ができない。つまり、１０個の領域のうち、識別が必要が領域が１個であるとしても、残りの９個の識別不要な領域をも選択しないと、正確な識別が行えない。そのため、自動領域識別を行った結果を修正をする場合や、単純に１、２個の領域の識別が必要な場合での使用には適していない。また、ＰＤＡ（携帯情報端末）の表示部やＭＦＰ（マルチファンクションプリンタ）の操作パネルなどのようなサイズの小さな画面では、正確なポイントの指定（位置指定）は困難である。

特開平５−２６６２５０号公報特開平５−２７４４７２号公報特開平９−１２８４７９号公報

本発明は、このような問題を解決するためになされたもので、その目的は、手動入力を利用して領域分割を行うときに、識別の必要な領域に対するおおまかな位置指定で正確な領域識別を可能にすることである。

請求項１の発明は、文書画像を表示する工程と、ユーザーにより指定された、表示されている文書画像の分割対象領域の一部であるユーザー指定領域の位置情報を取得する工程と、前記ユーザー指定領域中の文書画像データに基づいて、前記分割対象領域の抽出を行う工程とを有することを特徴とする領域分割方法である。
請求項２の発明は、請求項１記載の領域分割方法において、前記抽出を行う工程は、前記ユーザー指定領域の内部及び近接している周辺の情報を抽出する特徴抽出工程と、該抽出された情報に基づいて、前記ユーザー指定領域を文字候補、表候補、図又は写真候補に分類する属性分類工程と、分類された各候補に応じた領域抽出処理を行う工程とを有することを特徴とする。
請求項３の発明は、請求項１記載の領域分割方法において、前記抽出を行う工程は、前記一部の領域の内部及び近接している周辺の情報を抽出する特徴抽出工程と、該抽出された情報に基づいて、前記ユーザー指定領域の位置情報を探索するのに、２つ以上の領域分割手法から適当な手法を割り当て、領域抽出処理を行う工程とを有することを特徴とする。
請求項４の発明は、請求項２記載の領域分割方法において、前記特徴抽出工程は、二値画像から黒画素或いは白画素の連結成分矩形を抽出する矩形抽出工程と、罫線を抽出する罫線抽出工程とを有し、前記属性分類工程は、これらの抽出結果から予め定められた特徴量空間のどのカテゴリに最も近いかで属性の分類結果を得ることを特徴とする。
請求項５の発明は、請求項２記載の領域分割方法において、前記領域抽出処理を行う工程は、前記属性分類工程にて表候補となった領域に対して、ユーザー指定領域に含まれる画素の連結成分から連結がなくなる位置まで成長させ、最大の連結矩形である領域をユーザー指定の表領域とすることを特徴とする。
請求項６の発明は、請求項２記載の領域分割方法において、前記領域抽出処理を行う工程は、前記属性分類工程にて表候補となった領域に対して、ユーザー指定領域に含まれる罫線、及び近接している罫線を抽出する罫線抽出工程と、それらの罫線と連結しているとみなせる罫線を抽出する罫線連結判定工程と、前記罫線連結判定工程により罫線が連結しているとみなされた罫線が存在する範囲を取得する連結罫線領域抽出工程とを有し、該連結罫線領域抽出工程によって得られた領域をユーザー指定の表領域とすることを特徴とする。
請求項７の発明は、領域分割装置のコンピュータに、請求項１〜６のいずれかに記載された領域分割方法の各工程を実行させるためのプログラムである。
請求項８の発明は、請求項７記載のプログラムがインストールされたコンピュータを有する領域分割装置である。

［作用］
本発明によれば、ユーザーは、表示されている文書画像の識別対象領域の一部の領域をおおまかに指定し、領域分割装置が、その一部の領域内の画像情報に基づいて、識別対象領域の抽出を行う。

本発明によれば、手動入力を利用して領域分割を行うときに、識別の必要な領域に対するおおまかな位置指定で正確な領域抽出が可能になる。

以下、本発明の実施形態について図面を参照しながら説明する。
［第１の実施形態］
図１は本発明の第１の実施形態の領域分割装置の構成を示す概略ブロック図である。この領域分割装置は、領域分割処理をマイクロプロセッサ等のデジタル処理により実行し得るように構成したものである。

この領域分割装置は、文書を光学的に読み取り、電気信号である文書画像データに変換するスキャナ１と、この領域分割装置全体の制御や各種処理を行うＣＰＵ２と、領域分割された文書画像データなどを蓄積するメモリ３と、スキャナ１から入力された文書画像データや領域分割された文書画像データなどを表示するディスプレイ４と、領域分割された文書画像データなどを印刷する印刷装置５と、マウス、タブレットとペンなどのポインティングデバイス６と、ＣＰＵ２が動作するときに使用する各種プログラムが格納されたプログラム格納ＲＯＭ／ＲＡＭ７と、ＣＰＵ２が動作するときにデータ及びプログラムを一時的に記憶するワークエリアＲＡＭ８と、ＣＤ−ＲＯＭやＦＤからプログラムを読み込むためのＣＤ−ＲＯＭ／ＦＤドライブ９とを備えており、これらがバス１０に接続されている。

図２は本実施形態の領域分割装置の動作を示すフローチャートである。
まずステップＳ１で画像入力を行う。ここでは、図３に示すサンプル文書１１をスキャナ１にセットする。スキャナ１から出力されたサンプル文書１１の文書画像データは、ステップＳ２でディスプレイ４に送られ、サンプル文書１１の画像が表示される。

次いでステップＳ３で、ユーザーは、ディスプレイ４に表示されているサンプル文書１１の画像を見ながらポインティングデバイス６を操作することで、指定領域を入力する。ここでは、図４に示すように、表１１ａの一部の領域を丸１２で囲むことで、表１１ａの位置をおおまかに指定する。このようにユーザーが指定した領域（以下、ユーザー指定領域と言う）は、ステップＳ４でディスプレイ４に表示される。

次にステップＳ５で、ＣＰＵ２は、ユーザー指定領域を、ＣＰＵ２で扱いやすい領域に変換する。例えば、ユーザーが丸１２で囲んだ領域の座標の最大値及び最小値に基づいて矩形データで扱ったり、ユーザー指定領域そのものを切り取って扱ったりしてもよい。

次にステップＳ６でユーザー指定領域の内部の情報抽出を行う。例としてユーザー指定領域の内部の画像データを二値化し、射影のヒストグラムをＸ，Ｙ軸双方に取ることなどがある（特公平７−９５３３５号公報参照）。ユーザー指定領域の内部の射影のヒストグラムの０に近い値の連続値はおよそ文字間、行間の情報とみなすことが可能であり、ステップＳ７でその情報を利用して領域分割を行う。この例では射影のヒストグラムの０の連続値が続いた場合、その付近が領域の切れ目と判断することが可能である。（文字領域の場合）。

次いでステップＳ８で領域分割の結果をディスプレイ４に表示する。ここでは、サンプル文書１１の表１１ａが表領域として抽出され、その外側に表領域を示す枠１３が表示される。もしも抽出された表領域とサンプル文書１１の表領域１１ａとが不一致であった場合は、ステップＳ９でユーザーはポインティングデバイス６を用いて修正する。このように必要に応じて修正された領域分割結果は文字認識装置などで利用するため、ステップＳ１０で出力される。

このように、本実施形態の領域分割装置によれば、ユーザーは、文書画像をディスプレイ４で見ながら、抽出したい領域全体を正確に指定せず、その一部をおおまかに指定するだけで、自動的に領域全体を高精度に抽出することができる。また、その高速性と相まって、インタラクティブな修正も可能である。

［第２の実施形態］
図６は本発明の第２の実施形態の領域分割装置の動作を示すフローチャートである。この図において、図２と同一又は対応するステップには、図２と同じ符号を付した。なお、本実施形態及び後述する第３乃至第５の実施形態の領域分割装置の概略構成のブロック図は第１の実施形態（図１）と同じである。さらに、本実施形態及び後述する第３乃至第５の実施形態にて、スキャナ１から読み取る文書も第１の実施形態と同じサンプル文書１１であり、ユーザー指定領域も第１の実施形態と同じ、丸１２である。

本実施形態では、領域抽出の前に、ステップＳ１１でユーザー指定領域の属性判別（文字、表、図又は写真）を行う。属性判別は本出願人の特許である特許第３３４４７７４号、特許第３２１５１６３号などの既知の技術で対応可能である。

図７は、属性判別処理の一例を示すフローチャートである。
まずステップＳ２１でユーザー指定領域の画像データを入力し、次いでステップＳ２２で画像データを二値化する。ただし、ユーザー指定領域の画像データが二値である場合、この二値化処理は行わない。

次にステップＳ２３で黒画素連結成分の抽出を行い、次いでステップＳ２４で白画素連結成分の抽出を行う。そして、ステップＳ２３の抽出結果を用いて、ステップＳ２５で黒画素罫線矩形を抽出し、ステップＳ２４の抽出結果を用いて、ステップＳ２６で白画素罫線矩形の抽出を行う。ここで、黒画素罫線矩形を抽出は、水平方向、垂直方向のそれぞれについて、長い黒画素連結のみで行い、白画素罫線矩形を抽出は、水平方向、垂直方向のそれぞれについて、長い白画素連結のみで行う。最後にステップＳ２７で、ルールベース或いは特徴量ベースにより、表か否かを判別する。

図８〜図１０はルールベースによる判別例を説明するための図である。
図８に示すように、ユーザー指定領域内に４本ずつの横罫線２１及び縦罫線２２からなる表の一部が存在し、それらの罫線により区画された９個（横３個×縦３個）のセルのうち、上段のセルに文字「ＸＸＸ」、「ＹＹＹ」、「ＺＺＺ」が記入されているものとする。

このように、白背景、黒字で表が描かれている場合、罫線は黒画素であるため、図９に示すように、ユーザー指定領域に対して長い黒画連結のみで、水平方向の黒画素罫線矩形２３、垂直方向の黒画素罫線矩形２４が検出される。

しかし、白画素罫線矩形は、水平方向、垂直方向それぞれの罫線から罫線の間にしか存在できないため、白画素連結の長いものはなく、太くなる傾向がある。図１０Ａは、図８の表からステップＳ２６で得られる白画素罫線矩形を、分かり易くするため黒に反転して表示したものである。縦罫線に関しては太過ぎるため、この場合の矩形の縦横比の制限により得られない。また、図８では、セルの内部に文字が存在するため、その文字数が多くて文字の左右に十分な長さの余白が存在しない場合は、例えば図１０Ｂに示すように、セル内の文字「ＸＸＸ」の左右の余白の長さＬ１、Ｌ２が、白画素連結を長いとみなす閾値未満の場合は（「ＹＹＹ」、「ＺＺＺ」も同じ）、検出される白画素罫線矩形は図１０Ｃに示すようなものとなる。

このように、ステップＳ１１で属性判別を行った後に、ステップＳ１２で、判別された属性に応じた領域範囲の作成（領域抽出処理）を実行する。

本実施形態によれば、領域抽出の前に属性判別を行い、判別された属性（文字、表、図又は写真）に応じて最適な抽出方法を用いることで、最適な抽出結果を得ることができる。

［第３の実施形態］
図１１は本発明の第３の実施形態の領域分割装置の動作を示すフローチャートである。この図において、図６（第２の実施形態）と同一又は対応するステップには図６と同じ符号を付した。

本実施形態では、ステップＳ１３でユーザー指定領域の内部特性の分類を行い、その分類の結果に応じて、ステップＳ１４で領域範囲の作成（領域抽出処理）を実行する。つまり、ユーザー指定領域の分類を、その後のユーザーの利用目的に応じた分類ではなく、あくまで領域分割を成功させるのに役に立つ分類を行い、内部の情報から推測される、最適な領域分割手法を選択する。

本実施形態は、例えば長い横線が沢山あるにも拘わらず表領域ではない場合などに有効である。図１２にその例を示す。この例では、文字「○」、「△」、「□」の下に長い横線２１が存在する。この図に示されている領域の一部をユーザーが丸２２で囲むと、第２の実施形態の場合、ステップＳ１１の属性判別手段によっては「表領域」と判別することもある。そして、ステップＳ１３の表領域に対する領域範囲作成手法が後述する第４の実施形態のようなものであった場合、ユーザーが考える領域より狭い範囲を結果として出力することになってしまう。

このような場合が生じることを考慮すると、属性判別手段により、ユーザーが後段の処理で使用する属性を出力するのではなく、領域抽出手段にとって有効となるような属性を出力することにもメリットがある。図１２のような例であれば、長い横線が多いからといって表という属性を出力するよりも、その後に位置する複数の領域抽出手法のうちのどれが最適かという結果を出力する方がよりユーザーフレンドリーな結果となる。真の属性については領域が決定した後で再判定することも可能である。

本実施形態によれば、ユーザー指定領域の内部特性の分類結果に応じて最適な領域抽出手法を選択するため、図１２のような場合でも、正確な領域抽出を行うことができる。

［第４の実施形態］
図１３は本発明の第４の実施形態の領域分割装置の動作を示すフローチャートである。この図において、図６（第２の実施形態）と同一又は対応するステップには図６と同じ符号を付した。

本実施形態では、ステップＳ１５でユーザー指定領域の属性の判別を行い、表と判別されたときに、ステップＳ１６で表領域の抽出を行う。ここで、ステップＳ１５では、第２の実施形態のステップＳ１１とは異なり、表の判別及び背景か白か黒かの判別のみ行う。

ステップＳ１６の具体的構成例のフローチャートを図１４に示す。
ステップＳ３１で文書画像データをワークエリアＲＡＭ８に読み込み、ステップＳ３２で文書画像の全面から前景色で罫線抽出を行う。この罫線抽出の方法は、ハフ変換を利用するものや画素連続（ランと呼ぶ）のうち、閾値以上の長いものだけを利用して連結成分を求めることで罫線候補を作成するなど、既存のものを利用して構わない。

こうして全画面上に得られた罫線矩形のうち、ステップＳ３３でユーザー指定領域に含まれるものの抽出する。図１５Ａは、ステップＳ３３の抽出結果の一例であり、フリーハンド曲線により定まるユーザー指定領域３１内に含まれる罫線３２（横罫線２本、縦罫線２本を実線で表示）が抽出されている。

次に、ステップＳ３４でユーザー指定領域に含まれている罫線（ステップＳ３３で抽出）と交差或いは接触をしている罫線を抽出する。図１５Ｂは、ステップＳ３３で抽出された罫線３２と交差或いは接触している罫線（図１５Ａの破線３３）を抽出した結果を示している。

最後にステップＳ３５で、ステップＳ３４で抽出された罫線の座標の最大値及び最小値から表領域を確定する。これにより、図１５Ｂに実線で示す表領域が抽出される。

このように、本実施形態によれば、ユーザー指定領域が表領域であった場合に、高精度の抽出結果が得られる。なお、図１４では、処理を単純化するために、最初に全画面上の罫線を抽出しているが、見つかった罫線の近辺から探索していく方法でもよく、罫線抽出の方法の相違が結果に大きく影響することはない。

［第５の実施形態］
図１６は本発明の第５の実施形態の領域分割装置の動作を説明するための図である。本実施形態の領域分割装置の基本的な動作のフローは図６（第２の実施形態）と同じであり、分類結果（ステップＳ１１の属性判別）で表と判定されたときの、領域範囲の求め方（ステップＳ１２に対応）についての発明である。

ここではユーザー指定領域中の連結成分を求め、その連結成分がユーザー指定範囲に接触しているものについて調べる。そして、指定領域ぎりぎりの位置に接触している連結成分に対して、探索範囲を広げ、広げた範囲にも画素が連続していたら、その連結成分を成長させる（大きくする）。これを繰り返していくと、指定領域範囲に収まっている画素と連結されている画素が明らかになり、それを囲む領域が抽出される。

図１６の場合、フリーハンド曲線により定まるユーザー指定領域４１を囲む矩形の領域４２（破線で表示）を簡易的にユーザー指定領域とする。また、領域４２内の黒画素（３本の横罫線の各々の一部、１本の縦罫線の一部、８個の○）をユーザー指定領域に含まれる画素と考える。そして、これらの画素が含まれる連結成分を操作していき、連結成分矩形を最終的に抽出する。

図１７は、画素の連結成分を利用した矩形抽出方法の一例を示す図である。図のＡに示すように、主走査方向に黒ラン（黒の矩形として図示）の抽出を行い、Ｂに示すように、黒ランの連結成分を統合して、矩形領域５１〜５３を作成する。次にＣに示すように、副走査方向にも矩形を成長させていき、矩形領域５４及び５５を作成する。このとき、矩形に重なりがあっても、ランが連結していないもの（ここでは矩形領域５３）は統合せず、別扱いとする。

なお、ここでは、単純に白背景で黒前景という前提であるが、多値画像及び明度反転画像も検出の対象となることがある。その場合、多値画像であれば最初に二値化を行って、条件を整える。次に図７に示した処理フローにより、前景と背景を判別するステップを行う。そして、得られた前景色、背景色をそれぞれ白或いは黒に割り当て、前述した本実施形態の処理を行うことで対応可能である。

以上の第１乃至第４の実施形態に共通していえることは、ユーザーの意図した領域を高速に抽出する（切り出す）ことができるという点であり、判別可能な易しい表（単純な構成の表）であれば、おおまかな指定でも抽出できるという点である。また、自動判別が難しい表については、ユーザーによる指定時に実際に必要な領域に近づけるといったことをすることで、より精度の高い抽出結果が得られる。さらに、この表の難易度と自動領域抽出のトレードオフの関係はユーザーが学習して使いこなすのが容易であるというメリットがある。

本発明の第１の実施形態の領域分割装置の構成例を示す概略ブロック図である。本発明の第１の実施形態の領域分割装置の動作を示すフローチャートである。本発明の第１の実施形態のサンプル文書を示す図である。本発明の第１の実施形態のサンプル文書の表領域の一部を指定する態様の一例を示す図である。本発明の第１の実施形態のサンプル文書から抽出された表領域を示す図である。本発明の第２の実施形態の領域分割装置の動作を示すフローチャートである。本発明の第２の実施形態における属性判別処理の一例を示すフローチャートである。本発明の第２の実施形態における表の一例を示す図である。図７の属性判別処理により、図８の表から抽出される黒画素罫線矩形を示す図である。図７の属性判別処理により、図８の表から抽出される白画素罫線矩形を示す図である。本発明の第３の実施形態の領域分割装置の動作を示すフローチャートである。本発明の第３の実施形態の領域分割装置の使用が好適な領域を示す図である。本発明の第４の実施形態の領域分割装置の動作を示すフローチャートである。図１３における表の抽出処理の具体的構成例を示すフローチャートである。図１４の抽出処理により抽出される罫線及び表を示す図である。本発明の第５の実施形態の領域分割装置の動作を説明するための図である。画素の連結成分を利用した矩形抽出方法の一例を示す図である。

符号の説明

１・・・スキャナ、２・・・ＣＰＵ、４・・・ディスプレイ、６・・・ポインティングデバイス。

Claims

文書画像を表示する工程と、ユーザーにより指定された、表示されている文書画像の分割対象領域の一部であるユーザー指定領域の位置情報を取得する工程と、前記ユーザー指定領域中の文書画像データに基づいて、前記分割対象領域の抽出を行う工程とを有することを特徴とする領域分割方法。
請求項１記載の領域分割方法において、
前記抽出を行う工程は、前記ユーザー指定領域の内部及び近接している周辺の情報を抽出する特徴抽出工程と、該抽出された情報に基づいて、前記ユーザー指定領域を文字候補、表候補、図又は写真候補に分類する属性分類工程と、分類された各候補に応じた領域抽出処理を行う工程とを有することを特徴とする領域分割方法。
請求項１記載の領域分割方法において、
前記抽出を行う工程は、前記一部の領域の内部及び近接している周辺の情報を抽出する特徴抽出工程と、該抽出された情報に基づいて、前記ユーザー指定領域の位置情報を探索するのに、２つ以上の領域分割手法から適当な手法を割り当て、領域抽出処理を行う工程とを有することを特徴とする領域分割方法。
請求項２記載の領域分割方法において、
前記特徴抽出工程は、二値画像から黒画素或いは白画素の連結成分矩形を抽出する矩形抽出工程と、罫線を抽出する罫線抽出工程とを有し、前記属性分類工程は、これらの抽出結果から予め定められた特徴量空間のどのカテゴリに最も近いかで属性の分類結果を得ることを特徴とする領域分割方法。
請求項２記載の領域分割方法において、
前記領域抽出処理を行う工程は、前記属性分類工程にて表候補となった領域に対して、ユーザー指定領域に含まれる画素の連結成分から連結がなくなる位置まで成長させ、最大の連結矩形である領域をユーザー指定の表領域とすることを特徴とする領域分割方法。
請求項２記載の領域分割方法において、
前記領域抽出処理を行う工程は、前記属性分類工程にて表候補となった領域に対して、ユーザー指定領域に含まれる罫線、及び近接している罫線を抽出する罫線抽出工程と、それらの罫線と連結しているとみなせる罫線を抽出する罫線連結判定工程と、前記罫線連結判定工程により罫線が連結しているとみなされた罫線が存在する範囲を取得する連結罫線領域抽出工程とを有し、該連結罫線領域抽出工程によって得られた領域をユーザー指定の表領域とすることを特徴とする領域分割方法。
領域分割装置のコンピュータに、請求項１〜６のいずれかに記載された領域分割方法の各工程を実行させるためのプログラム。
請求項７記載のプログラムがインストールされたコンピュータを有する領域分割装置。