JP2006085665A - 画像処理装置、画像処理プログラム、記憶媒体、画像処理方法および画像形成装置 - Google Patents

画像処理装置、画像処理プログラム、記憶媒体、画像処理方法および画像形成装置 Download PDF

Info

Publication number
JP2006085665A
JP2006085665A JP2005000769A JP2005000769A JP2006085665A JP 2006085665 A JP2006085665 A JP 2006085665A JP 2005000769 A JP2005000769 A JP 2005000769A JP 2005000769 A JP2005000769 A JP 2005000769A JP 2006085665 A JP2006085665 A JP 2006085665A
Authority
JP
Japan
Prior art keywords
white rectangle
image processing
extraction
area
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005000769A
Other languages
English (en)
Inventor
Hirofumi Nishida
広文 西田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2005000769A priority Critical patent/JP2006085665A/ja
Priority to US11/201,366 priority patent/US7616813B2/en
Publication of JP2006085665A publication Critical patent/JP2006085665A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text

Abstract

【課題】レイアウト解析処理の高効率化を図る。
【解決手段】矩形領域の集合全体で抽出された極大白矩形系列により矩形領域の集合全体を少なくとも1以上の領域に分離して格納し、格納した各領域を当該各領域で再び抽出された極大白矩形系列により少なくとも1以上の部分領域に分離するという処理を、再帰的に繰り返す。これにより、極大白矩形系列抽出の終了条件を設定しながら祖から密への再帰的分離による階層的処理が行われることになり、レイアウト解析処理の高効率化を図ることができる。
【選択図】 図2

Description

本発明は、画像処理装置、画像処理プログラム、記憶媒体、画像処理方法および画像形成装置に関する。
スキャナやデジタルカメラなどの画像入力機器を通してコンピュータに入力された文書画像を文書構成要素(例えば、文字、文字行、パラグラフ、コラムなど)に分離する処理は、通常、「幾何的レイアウト解析」や「ページセグメンテーション」と呼ばれる。この「幾何的レイアウト解析」や「ページセグメンテーション」は、多くの場合、2値画像上で行われる。また、「幾何的レイアウト解析」や「ページセグメンテーション」は、前処理として、入力の際に生じる傾きを補正する「スキュー補正」を伴う。このようにしてスキュー補正された2値画像の「幾何的レイアウト解析」や「ページセグメンテーション」は、大きく2通りのアプローチ(トップダウン解析及びボトムアップ解析)に分類される。
ここで、トップダウン解析について説明する。トップダウン解析は、ページを大きな構成要素から小さな構成要素に分離する。例えば、ページをコラムに、そして、コラムをパラグラフに、パラグラフを文字行に、というように、大きな構成要素から小さなものに分離してゆくアプローチである。トップダウン解析は、ページのレイアウト構造についての仮定に基づくモデル(例えば、マンハッタンレイアウトでは、文字行は直立矩形である)を利用して、効率的に計算ができる反面、仮定が成り立たないようなデータについては、とんでもない間違いを生じるという欠点がある。一般に、複雑なレイアウトはモデル化も複雑になるため、取り扱いが難しい。
次に、ボトムアップ解析について説明する。ボトムアップ解析は、特許文献1、2に記載されているように、近隣の構成要素の位置関係を参照して、要素を統合してゆく。例えば、連結成分を文字行、そして、文字行をコラムに、というように、小さな構成要素を大きなものにグループ化してゆくアプローチである。しかしながら、特許文献1に記載されているようなボトムアップ解析は、局所的な情報に基づく方法なので、ページ全体のレイアウトに関する仮定にあまり依存せずに多様なレイアウトに対応できる反面、局所的な判断の間違いが蓄積してゆくという欠点がある。例えば、2つの異なるコラム間にまたがる2つの文字が、誤って1つの文字行に統合されてしまえば、それらの2つのコラムも1つのコラムとして誤って抽出されてしまう。また、特許文献2に記載されているような構成要素の統合では、言語による文字の並び方の特性や、文字列方向(縦/横)などの知識が必要となる。
このように2つのアプローチは相補的であるが、これらの「隙間」を埋めるアプローチとして、文字でない部分、すなわち「背景」、あるいは2値画像で言うところの「白地」を利用する方法がある。背景や白地の利用の利点としては、
(1)言語に依存しない(多くの言語でも白地が区切りとして使われる)。また、行方向(横書き/縦書き)についての知識を必要としない。
(2)大局的な処理なので、局所的な判断間違いが累積する可能性が少ない。
(3)複雑なレイアウトにも、柔軟に対応できる。
などが挙げられる。
このような背景解析に属する代表的な方法としては、「極大白矩形系列によるページセグメンテーション」がある。ここで、「極大白矩形系列によるページセグメンテーション」について簡単に説明する。準備として、「最大白矩形問題」を定義する。まず、rbをページ全体に対応する矩形領域、そして、C=[r0,r1,・・・,rn](ri⊂rb;i=0,1,・・・,n)を、それぞれ2値画像黒連結成分をちょうど囲むような矩形領域とする。図4に、矩形領域の集合の一例を示す。さらに、矩形に対して、次のような性質を満たす評価関数Qを導入する。2つの矩形rとr′について、
r⊆r′ならば、Q(r)≦Q(r′)
を満たす評価関数Qである。例えば、関数Q(r)を矩形rの面積とすると、上記の性質は満たされる。「最大白矩形問題」とは、Cの要素r0,r1,・・・,rn(ri⊂rb;i=0,1,・・・,n)と重ならないような矩形のうち、Qの値が最大になるものを見つける問題である。図18に示すように、黒い矩形を2値画像黒連結成分、関数Qを矩形の面積とすると、最大白矩形は網掛けで示す矩形になる。この問題の拡張として、非特許文献1,2,3においては、「極大白矩形」、すなわち、それ以上拡張するとCの要素のいずれかと重なり合ってしまうような白矩形を、Qの値が大きい順に数え上げるアルゴリズムを提案している。
このようにして極大白矩形の系列によって背景領域(2値画像の白領域)を被覆してゆくことにより、コラムや文字行などの文書構成要素を、「いずれの白矩形にも被覆されていない部分」として抽出できると期待できる。
特開2000−067158公報 特開2000−113103公報 H.S.Baird,"Background structure in document images,"in Document Image Analysis(H.Bunke,P.S.P.Wang,and H.S.Baird,Eds.),Singapore:World Scientific,1994,pp.17−34. H.S.Baird,S.E.Jones,and S.J.Fortune,"Image segmentation by shape directed covers,"in Proceedings of the 10th International Conference on Pattern Recognition(Atlantic City,NJ,USA),1990,pp.820−825. TM Breuel,"Two algorithms for geometric layout analysis,"in Proceedings of IAPR Workshop on Document Analysis Systems(Princeton,NJ,USA),2002.
しかしながら、「極大白矩形系列によるページセグメンテーション」を用いた背景解析によるアプローチには有望な点と同時に、解決せねばならない問題がいくつか存在する。
第1には、白矩形の文書構成要素の「セパレータとしての良さ」を測る尺度をどのように定義し、極大白矩形系列抽出で使うかが問題となる。関数Qとして、面積や長さ(矩形の幅と高さの大きい方)などを使うことが自然であるが、面積の大きい順に極大白矩形系列で被覆した結果が、必ずしも文書の領域分離として意味があるとは限らないからである。
第2には、極大白矩形系列抽出の終了基準(Qの下限値)をどのように設定するかが問題となる。非特許文献1では、白矩形の面積と縦横比を組み合わせたヒューリスティック関数を導入して終了条件を決めているが、このような経験則がうまく働かない場合も多い。データから観測される統計量を用いて、終了基準をデータの特質により決めることができれば信頼性が増すことが期待できる。
第3には、極大白矩形系列抽出の終了を遅くした(Qの下限値を下げた)場合に、計算量が増大する問題をどのように解消するかが問題となる。評価値Qが大きい極大白矩形だけを数え上げるだけであれば、計算量は問題にならない。しかし、評価値Qが小さくなるにつれて、極大白矩形の数も多くなる。このような問題への対処として、非特許文献3では、論文などのコラムのセパレータに対応する白矩形検出のために、ほんの少数の「背が高い」白矩形のみを用いている。このような対処は、より複雑なレイアウトを持つ文書や、日本語のように縦横混在のものには不適当である。
また、「極大白矩形系列によるページセグメンテーション」を用いた背景解析によるテキスト領域分割に求められる事項としては、
(1)異なるコラム同士が統合されないこと。
(2)行が複数のテキスト領域に分断されないこと。
(3)できるだけ少ない数のテキスト領域が生成されること。
が挙げられる。
本発明は、レイアウト解析処理の高効率化を図ることを目的とする。
本発明は、レイアウト解析処理の高効率化と高精度化とを図ることを目的とする。
本発明は、各階層での領域の性質に応じて極大白矩形系列抽出の終了条件を設定可能にすることを目的とする。
請求項1記載の発明の画像処理装置は、2値画像のレイアウト解析処理を行う画像処理装置において、前記2値画像の黒連結成分に外接する矩形領域の集合を抽出する矩形領域抽出手段と、この矩形領域抽出手段により抽出された矩形領域の集合全体から、それ以上拡張すると内部に黒画素を含んでしまうような極大白矩形の系列を、極大白矩形系列抽出の終了条件を設定しつつ抽出する第1白矩形抽出手段と、この第1白矩形抽出手段により抽出された前記極大白矩形系列をセパレータとして矩形領域の集合全体を少なくとも1以上の領域に分離して抽出する第1領域抽出手段と、抽出された各領域を所定のデータ構造で格納する格納手段と、この格納手段に格納されている前記各領域をデータ構造に従って取り出し、その領域内での極大白矩形系列を、極大白矩形系列抽出の終了条件を設定しつつ抽出する第2白矩形抽出手段と、この第2白矩形抽出手段により抽出された前記極大白矩形系列をセパレータとしてその領域を少なくとも1以上の部分領域に分離して抽出する第2領域抽出手段と、を備え、前記第1白矩形抽出手段と前記第1領域抽出手段と前記格納手段と前記第2白矩形抽出手段と前記第2領域抽出手段とを再帰的に繰り返す。
したがって、矩形領域の集合全体で抽出された極大白矩形系列により矩形領域の集合全体が少なくとも1以上の領域に分離されて格納され、格納された各領域を当該各領域で再び抽出された極大白矩形系列により少なくとも1以上の部分領域に分離するという処理が、再帰的に繰り返される。これにより、極大白矩形系列抽出の終了条件を設定しながら祖から密への再帰的分離による階層的処理が行われることになり、レイアウト解析処理の高効率化を図ることが可能になる。
請求項2記載の発明は、請求項1記載の画像処理装置において、前記第1白矩形抽出手段または前記第2白矩形抽出手段は、白矩形の評価関数を計算する計算手段と、極大白矩形系列抽出の終了条件である前記評価関数の下限値を決める下限値決定手段と、前記評価関数の値が大きい順に、下限値以上の前記極大白矩形を列挙する列挙手段と、を有する。
したがって、各階層での領域の性質に応じた極大白矩形系列抽出の終了条件の設定が可能になる。
請求項3記載の発明は、請求項2記載の画像処理装置において、前記評価関数は、白矩形の面積である。
したがって、評価関数を容易に算出することが可能になる。
請求項4記載の発明は、請求項2記載の画像処理装置において、前記評価関数の下限値は、処理する領域の大きさに応じて決められる。
したがって、例えば、矩形領域の集合全体に対しては、極大白矩形系列抽出の終了条件の下限値を大きく設定して粗いスケールで処理し、分離された各領域については、極大白矩形系列抽出の終了条件の下限値を前よりも小さく設定して再び極大白矩形系列抽出を行い、より細かな分離を行うことが可能になる。
請求項5記載の発明は、請求項2記載の画像処理装置において、前記第1白矩形抽出手段は、前記矩形領域抽出手段により抽出された矩形領域の集合全体から、処理対象の性質に関する値を計算する手段を有しており、前記評価関数の下限値は、計算された処理対象の性質に関する値に応じて決められる。
したがって、処理対象の性質に関する値(例えば、テキスト文書の場合、文字のサイズ、文字間隔、行間隔など)に応じて下限値を設定することにより、異なるコラム同士が統合されず、行が複数のテキスト領域に分断されず、かつ、できるだけ少ない数のテキスト領域が生成されるような分離が可能になる。
請求項6記載の発明は、請求項2記載の画像処理装置において、前記第2白矩形抽出手段は、前記格納手段により格納されている前記各領域をデータ構造に従って取り出し、その領域内の処理対象の性質に関する値を計算する手段を有しており、前記評価関数の下限値は、計算された処理対象の性質に関する値に応じて決められる。
したがって、処理対象の性質に関する値(例えば、テキスト文書の場合、文字のサイズ、文字間隔、行間隔など)に応じて下限値を設定することにより、異なるコラム同士が統合されず、行が複数のテキスト領域に分断されず、かつ、できるだけ少ない数のテキスト領域が生成されるような分離が可能になる。
請求項7記載の発明は、請求項2記載の画像処理装置において、前記列挙手段は、白矩形の形についての制約条件を設定する条件設定手段と、前記制約条件を満たさない白矩形を列挙から除外する除外手段と、を有する。
したがって、領域のセパレータとしての適当でない形をした白矩形、例えば、長さが短いものや幅が狭すぎるものは、文字の間の隙間である可能性が高いので、そのような白矩形を除外することが可能になる。
請求項8記載の発明は、請求項1ないし7の何れか一記載の画像処理装置において、前記格納手段は、抽出された各領域をスタックに積む。
したがって、スタックを利用することにより、領域が「深さ優先」の順序に従い、祖から密へ階層的に分離が行われることになる。
請求項9記載の発明は、請求項1ないし7の何れか一記載の画像処理装置において、前記格納手段は、抽出された各領域をキューに入れる。
したがって、キューを利用することにより、領域が「幅優先」の順序に従い、祖から密へ階層的に分離が行われることになる。
請求項10記載の発明は、請求項1ないし7の何れか一記載の画像処理装置において、前記格納手段は、抽出された各領域をヒープに入れる。
したがって、ヒープを利用することにより、領域が「大きさ優先」の順序に従い、祖から密へ階層的に分離が行われることになる。
請求項11記載の発明の画像処理プログラムは、2値画像のレイアウト解析処理をコンピュータに実行させる画像処理プログラムにおいて、前記2値画像の黒連結成分に外接する矩形領域の集合を抽出する矩形領域抽出機能と、この矩形領域抽出機能により抽出された矩形領域の集合全体から、それ以上拡張すると内部に黒画素を含んでしまうような極大白矩形の系列を、極大白矩形系列抽出の終了条件を設定しつつ抽出する第1白矩形抽出機能と、この第1白矩形抽出機能により抽出された前記極大白矩形系列をセパレータとして矩形領域の集合全体を少なくとも1以上の領域に分離して抽出する第1領域抽出機能と、抽出された各領域を所定のデータ構造で格納する格納機能と、この格納機能に格納されている前記各領域をデータ構造に従って取り出し、その領域内での極大白矩形系列を、極大白矩形系列抽出の終了条件を設定しつつ抽出する第2白矩形抽出機能と、この第2白矩形抽出機能により抽出された前記極大白矩形系列をセパレータとしてその領域を少なくとも1以上の部分領域に分離して抽出する第2領域抽出機能と、を前記コンピュータに実行させ、前記第1白矩形抽出機能と前記第1領域抽出機能と前記格納機能と前記第2白矩形抽出機能と前記第2領域抽出機能とを再帰的に繰り返す。
したがって、矩形領域の集合全体で抽出された極大白矩形系列により矩形領域の集合全体が少なくとも1以上の領域に分離されて格納され、格納された各領域を当該各領域で再び抽出された極大白矩形系列により少なくとも1以上の部分領域に分離するという処理が、再帰的に繰り返される。これにより、極大白矩形系列抽出の終了条件を設定しながら祖から密への再帰的分離による階層的処理が行われることになり、レイアウト解析処理の高効率化を図ることが可能になる。
請求項12記載の発明は、請求項11記載の画像処理プログラムにおいて、前記第1白矩形抽出機能または前記第2白矩形抽出機能は、白矩形の評価関数を計算する計算機能と、極大白矩形系列抽出の終了条件である前記評価関数の下限値を決める下限値決定機能と、前記評価関数の値が大きい順に、下限値以上の前記極大白矩形を列挙する列挙機能と、を有している。
したがって、各階層での領域の性質に応じた極大白矩形系列抽出の終了条件の設定が可能になる。
請求項13記載の発明は、請求項12記載の画像処理プログラムにおいて、前記評価関数は、白矩形の面積である。
したがって、評価関数を容易に算出することが可能になる。
請求項14記載の発明は、請求項12記載の画像処理プログラムにおいて、前記評価関数の下限値は、処理する領域の大きさに応じて決められる。
したがって、例えば、矩形領域の集合全体に対しては、極大白矩形系列抽出の終了条件の下限値を大きく設定して粗いスケールで処理し、分離された各領域については、極大白矩形系列抽出の終了条件の下限値を前よりも小さく設定して再び極大白矩形系列抽出を行い、より細かな分離を行うことが可能になる。
請求項15記載の発明は、請求項12記載の画像処理プログラムにおいて、前記第1白矩形抽出機能は、前記矩形領域抽出機能により抽出された矩形領域の集合全体から、処理対象の性質に関する値を計算する機能を有しており、前記評価関数の下限値は、計算された処理対象の性質に関する値に応じて決められる。
したがって、処理対象の性質に関する値(例えば、テキスト文書の場合、文字のサイズ、文字間隔、行間隔など)に応じて下限値を設定することにより、異なるコラム同士が統合されず、行が複数のテキスト領域に分断されず、かつ、できるだけ少ない数のテキスト領域が生成されるような分離が可能になる。
請求項16記載の発明は、請求項12記載の画像処理プログラムにおいて、前記第2白矩形抽出機能は、前記格納機能により格納されている前記各領域をデータ構造に従って取り出し、その領域内の処理対象の性質に関する値を計算する機能を有しており、前記評価関数の下限値は、計算された処理対象の性質に関する値に応じて決められる。
したがって、処理対象の性質に関する値(例えば、テキスト文書の場合、文字のサイズ、文字間隔、行間隔など)に応じて下限値を設定することにより、異なるコラム同士が統合されず、行が複数のテキスト領域に分断されず、かつ、できるだけ少ない数のテキスト領域が生成されるような分離が可能になる。
請求項17記載の発明は、請求項12記載の画像処理プログラムにおいて、前記列挙機能は、白矩形の形についての制約条件を設定する条件設定機能と、前記制約条件を満たさない白矩形を列挙から除外する除外機能と、を有している。
したがって、領域のセパレータとしての適当でない形をした白矩形、例えば、長さが短いものや幅が狭すぎるものは、文字の間の隙間である可能性が高いので、そのような白矩形を除外することが可能になる。
請求項18記載の発明は、請求項11ないし17の何れか一記載の画像処理プログラムにおいて、前記格納機能は、抽出された各領域をスタックに積む。
したがって、スタックを利用することにより、領域が「深さ優先」の順序に従い、祖から密へ階層的に分離が行われることになる。
請求項19記載の発明は、請求項11ないし17の何れか一記載の画像処理プログラムにおいて、前記格納機能は、抽出された各領域をキューに入れる。
したがって、キューを利用することにより、領域が「幅優先」の順序に従い、祖から密へ階層的に分離が行われることになる。
請求項20記載の発明は、請求項11ないし17の何れか一記載の画像処理プログラムにおいて、前記格納機能は、抽出された各領域をヒープに入れる。
したがって、ヒープを利用することにより、領域が「大きさ優先」の順序に従い、祖から密へ階層的に分離が行われることになる。
請求項21記載の発明の記憶媒体は、請求項11ないし20のいずれか一記載の画像処理プログラムを記憶する。
したがって、請求項11ないし20のいずれか一記載のプログラムを有体物の形態で取り扱うことが可能となる。
請求項22記載の発明の画像処理方法は、2値画像のレイアウト解析処理を行う画像処理方法において、前記2値画像の黒連結成分に外接する矩形領域の集合を抽出する矩形領域抽出工程と、この矩形領域抽出工程により抽出された矩形領域の集合全体から、それ以上拡張すると内部に黒画素を含んでしまうような極大白矩形の系列を、極大白矩形系列抽出の終了条件を設定しつつ抽出する第1白矩形抽出工程と、この第1白矩形抽出工程により抽出された前記極大白矩形系列をセパレータとして矩形領域の集合全体を少なくとも1以上の領域に分離して抽出する第1領域抽出工程と、抽出された各領域を所定のデータ構造で格納する格納工程と、この格納工程に格納されている前記各領域をデータ構造に従って取り出し、その領域内での極大白矩形系列を、極大白矩形系列抽出の終了条件を設定しつつ抽出する第2白矩形抽出工程と、この第2白矩形抽出工程により抽出された前記極大白矩形系列をセパレータとしてその領域を少なくとも1以上の部分領域に分離して抽出する第2領域抽出工程と、を含み、前記第1白矩形抽出工程と前記第1領域抽出工程と前記格納工程と前記第2白矩形抽出工程と前記第2領域抽出工程とを再帰的に繰り返す。
したがって、矩形領域の集合全体で抽出された極大白矩形系列により矩形領域の集合全体が少なくとも1以上の領域に分離されて格納され、格納された各領域を当該各領域で再び抽出された極大白矩形系列により少なくとも1以上の部分領域に分離するという処理が、再帰的に繰り返される。これにより、極大白矩形系列抽出の終了条件を設定しながら祖から密への再帰的分離による階層的処理が行われることになり、レイアウト解析処理の高効率化を図ることが可能になる。
請求項23記載の発明は、請求項22記載の画像処理方法において、前記第1白矩形抽出工程または前記第2白矩形抽出工程は、白矩形の評価関数を計算する計算工程と、極大白矩形系列抽出の終了条件である前記評価関数の下限値を決める下限値決定工程と、前記評価関数の値が大きい順に、下限値以上の前記極大白矩形を列挙する列挙工程と、を含む。
したがって、各階層での領域の性質に応じた極大白矩形系列抽出の終了条件の設定が可能になる。
請求項24記載の発明は、請求項23記載の画像処理方法において、前記評価関数は、白矩形の面積である。
したがって、評価関数を容易に算出することが可能になる。
請求項25記載の発明は、請求項23記載の画像処理方法において、前記評価関数の下限値は、処理する領域の大きさに応じて決められる。
したがって、例えば、矩形領域の集合全体に対しては、極大白矩形系列抽出の終了条件の下限値を大きく設定して粗いスケールで処理し、分離された各領域については、極大白矩形系列抽出の終了条件の下限値を前よりも小さく設定して再び極大白矩形系列抽出を行い、より細かな分離を行うことが可能になる。
請求項26記載の発明は、請求項23記載の画像処理方法において、前記第1白矩形抽出工程は、前記矩形領域抽出工程により抽出された矩形領域の集合全体から、処理対象の性質に関する値を計算する工程を含み、前記評価関数の下限値は、計算された処理対象の性質に関する値に応じて決められる。
したがって、処理対象の性質に関する値(例えば、テキスト文書の場合、文字のサイズ、文字間隔、行間隔など)に応じて下限値を設定することにより、異なるコラム同士が統合されず、行が複数のテキスト領域に分断されず、かつ、できるだけ少ない数のテキスト領域が生成されるような分離が可能になる。
請求項27記載の発明は、請求項23記載の画像処理方法において、前記第2白矩形抽出工程は、前記格納工程により格納されている前記各領域をデータ構造に従って取り出し、その領域内の処理対象の性質に関する値を計算する工程を含み、前記評価関数の下限値は、計算された処理対象の性質に関する値に応じて決められる。
したがって、処理対象の性質に関する値(例えば、テキスト文書の場合、文字のサイズ、文字間隔、行間隔など)に応じて下限値を設定することにより、異なるコラム同士が統合されず、行が複数のテキスト領域に分断されず、かつ、できるだけ少ない数のテキスト領域が生成されるような分離が可能になる。
請求項28記載の発明は、請求項23記載の画像処理方法において、前記列挙工程は、白矩形の形についての制約条件を設定する条件設定工程と、前記制約条件を満たさない白矩形を列挙から除外する除外工程と、を含む。
したがって、領域のセパレータとしての適当でない形をした白矩形、例えば、長さが短いものや幅が狭すぎるものは、文字の間の隙間である可能性が高いので、そのような白矩形を除外することが可能になる。
請求項29記載の発明は、請求項22ないし28の何れか一記載の画像処理方法において、前記格納工程は、抽出された各領域をスタックに積む。
したがって、スタックを利用することにより、領域が「深さ優先」の順序に従い、祖から密へ階層的に分離が行われることになる。
請求項30記載の発明は、請求項22ないし28の何れか一記載の画像処理方法において、前記格納工程は、抽出された各領域をキューに入れる。
したがって、キューを利用することにより、領域が「幅優先」の順序に従い、祖から密へ階層的に分離が行われることになる。
請求項31記載の発明は、請求項22ないし28の何れか一記載の画像処理方法において、前記格納工程は、抽出された各領域をヒープに入れる。
したがって、ヒープを利用することにより、領域が「大きさ優先」の順序に従い、祖から密へ階層的に分離が行われることになる。
請求項32記載の発明の画像形成装置は、原稿画像を読み取る画像読取手段と、この画像読取手段により読み取られたスキャン画像のレイアウト解析処理を行う請求項1ないし10のいずれか一記載の画像処理装置と、画像を用紙上に印刷する画像印刷装置と、を備える。
したがって、請求項1ないし10のいずれか一記載の発明と同様の作用を奏する画像形成装置が得られる。
本発明によれば、極大白矩形系列抽出の終了条件を設定しながら祖から密への再帰的分離による階層的処理を行うことにより、レイアウト解析処理の高効率化を図ることができる。
[第一の実施の形態]
本発明の第一の実施の形態を図1ないし図7に基づいて説明する。
図1は、本実施の形態の画像処理装置1の電気的な接続を示すブロック図である。図1に示すように、画像処理装置1は、PCなどのコンピュータであり、画像処理装置1の各部を集中的に制御するCPU(Central Processing Unit)2、情報を格納するROM(Read Only Memory)3及びRAM(Random Access Memory)4等の一次記憶装置5、データファイル(例えば、カラービットマップ画像データ)を記憶する記憶部であるHDD(Hard Disk Drive)6等の二次記憶装置7、情報を保管したり外部に情報を配布したり外部から情報を入手するためのCD−ROMドライブ等のリムーバブルディスク装置8、ネットワーク9を介して外部の他のコンピュータと通信により情報を伝達するためのネットワークインターフェース10、処理経過や結果等を操作者に表示するCRT(Cathode Ray Tube)やLCD(Liquid Crystal Display)等の表示装置11、並びに操作者がCPU2に命令や情報等を入力するためのキーボード12、マウス等のポインティングデバイス13等から構成されており、これらの各部間で送受信されるデータをバスコントローラ14が調停して動作する。
なお、本実施の形態においては、画像処理装置1として一般的なパーソナルコンピュータを適用して説明しているが、これに限るものではなく、PDA(Personal Digital Assistants)と称される携帯用情報端末、palmTopPC、携帯電話、PHS(Personal Handyphone System)等であっても良い。
このような画像処理装置1では、ユーザが電源を投入するとCPU2がROM3内のローダーというプログラムを起動させ、HDD6よりオペレーティングシステムというコンピュータのハードウェアとソフトウェアとを管理するプログラムをRAM7に読み込み、このオペレーティングシステムを起動させる。このようなオペレーティングシステムは、ユーザの操作に応じてプログラムを起動したり、情報を読み込んだり、保存を行ったりする。オペレーティングシステムのうち代表的なものとしては、Windows(登録商標)、UNIX(登録商標)等が知られている。これらのオペレーティングシステム上で走る動作プログラムをアプリケーションプログラムと呼んでいる。
ここで、画像処理装置1は、アプリケーションプログラムとして、画像処理プログラムをHDD6に記憶している。この意味で、HDD6は、画像処理プログラムを記憶する記憶媒体として機能する。
また、一般的には、画像処理装置1のHDD6等の二次記憶装置7にインストールされるアプリケーションプログラムは、CD−ROMやDVD−ROM等の光情報記録メディアやFD等の磁気メディア等の記憶媒体8aに記録され、この記憶媒体8aに記録されたアプリケーションプログラムがHDD6等の二次記憶装置7にインストールされる。このため、CD−ROM等の光情報記録メディアやFD等の磁気メディア等の可搬性を有する記憶媒体8aも、画像処理プログラムを記憶する記憶媒体となり得る。さらには、画像処理プログラムは、例えばネットワークインターフェース10を介して外部から取り込まれ、HDD6等の二次記憶装置7にインストールされても良い。
画像処理装置1は、オペレーティングシステム上で動作する画像処理プログラムが起動すると、この画像処理プログラムに従い、CPU2が各種の演算処理を実行して各部を集中的に制御する。画像処理装置1のCPU2が実行する各種の演算処理のうち、本実施の形態の特長的な処理であるレイアウト解析処理について以下に説明する。
なお、リアルタイム性が重要視される場合には、処理を高速化する必要がある。そのためには、論理回路(図示せず)を別途設け、論理回路の動作により各種の演算処理を実行するようにするのが望ましい。
ここで、画像処理装置1のCPU2が実行するレイアウト解析処理について説明する。レイアウト解析処理が施される画像データは、一般性を失うことなく、スキュー補正された2値画像が与えられていて、文字が黒画素として表されているとする。なお、現画像がカラー画像やグレイ画像の場合には、2値化などにより文字を抽出する前処理を施せばよい。本実施の形態におけるレイアウト解析処理の基本的アプローチは、図2に示すように、祖から密への再帰的分離による階層的処理を行うことにより、処理の効率化を図るようにしたものである。概略的には、まず、ページ全体に対して極大白矩形系列抽出の終了条件の下限値を大きく設定して、粗いスケールで処理する。この段階で、抽出された白矩形系列をセパレータとしてページ全体をいくつかの領域に分離する。次に、各領域について極大白矩形系列抽出の終了条件の下限値を前よりも小さく設定して、再び極大白矩形系列抽出を行い、より細かな分離を行う。このような処理を再帰的に繰り返してゆく。なお、階層的処理における極大白矩形系列抽出の終了条件である下限値は、領域のサイズなどに応じて設定するようにすれば良い。また、極大白矩形系列抽出の終了条件である下限値の他に、白矩形として望ましい形やサイズに関する拘束条件を導入するようにしても良い。例えば、領域のセパレータとして適当でない形をした白矩形を除外する等である。このように領域のセパレータとして適当でない形をした白矩形を除外するのは、長さが短いものや幅が狭すぎるものは、文字の間の隙間である可能性が高いからである。このような長さや幅について拘束条件は、領域内で推定される文字のサイズに応じて決めることができる。
次に、レイアウト解析処理の流れについて詳述する。図3は、レイアウト解析処理の流れを示すフローチャートである。図3に示すように、まず、前処理として、2値画像の黒連結成分をちょうど囲むような矩形領域の集合C=[r0,r1,・・・,rn](ri⊂rb;i=0,1,・・・,n)を求め、この集合Cをアルゴリズムへ入力する(ステップS1:矩形領域抽出手段)。図4は、矩形領域の集合の一例を示す説明図である。
次に、ページ全体に対して、極大白矩形系列を抽出する(ステップS2:第1白矩形抽出手段)。極大白矩形系列の抽出は、白矩形rの評価関数Q(r)を白矩形rの面積とし(計算手段)、処理している領域のサイズに応じて決まる下限値tについて、Q(r)≧tを満たすような極大白矩形をQ(r)の値が大きい順に数え上げる(列挙手段)。これには、前述した非特許文献3に記載の方法を使えば良い。また、下限値tは、例えばwとhを処理している領域のそれぞれ幅と高さ、aを定数として、
t=a・min(w,h)
とすれば良い(下限値決定手段)。さらに、領域のセパレータとしての適当でない形をした白矩形、例えば、長さが短いものや幅が狭すぎるものは、文字の間の隙間である可能性が高いので、そのような白矩形を除外するための拘束条件を設定する(条件設定手段)。これには、領域内にある黒矩形の大きさの分布から文字のサイズsを推定し、例えば、bを定数として、幅も高さもb・sより小さいような極大白矩形を、数え上げの際に除外するようにすれば良い(除外手段)。
次いで、抽出された白矩形系列をセパレータとしてページ全体をいくつかの領域に分離し、白矩形系列により分離された領域を抽出し(ステップS3:第1領域抽出手段)、抽出された各領域をスタックに積む(ステップS4:格納手段)。ここで、スタックは、最後に入力したデータが先に出力されるデータ構造である。図5は、図4の矩形領域の集合についてページ全体で抽出された極大白矩形系列により分離された領域を示す説明図である。
続くステップS5では、スタックが空であるか否かを判断する。
スタックが空でなければ(ステップS5のN)、スタックの最上部に積まれている領域を取り出し(ステップS6)、その領域に対応する2値画像内で極大白矩形系列を抽出した後(ステップS7:第2白矩形抽出手段)、抽出された白矩形系列をセパレータとして、その領域をいくつかの部分領域に分離し、白矩形系列により分離された領域を抽出した後(ステップS8:第2領域抽出手段)、ステップS5に進む。つまり、スタックが空でない限り、ステップS6〜S8の処理が繰り返されることになる。ここで、図6−1はスタックに積まれた領域を示す説明図、図6−2は抽出された極大白矩形系列により分離された領域を示す説明図である。
一方、スタックが空である場合には(ステップS5のY)、領域分離結果を出力して(ステップS9)、処理を終了する。図7は、図4の矩形領域の集合に対するレイアウト解析結果を示す説明図である。
以上のように本実施の形態においては、スタックを利用することにより、領域が「深さ優先」の順序に従い、評価関数Q(r)の下限値を決めながら祖から密へ階層的に分離が行われることになる。
本実施の形態においては第二階層までのレイアウト解析処理について説明したが、これに限るものではなく、ステップS9での領域分離結果に基づいて再度ステップS1から再度レイアウト解析処理することにより、祖から密への再帰的分離による階層的処理が実行されることになる。
このように本実施の形態によれば、矩形領域の集合全体で抽出された極大白矩形系列により矩形領域の集合全体が少なくとも1以上の領域に分離されて格納され、格納された各領域を当該各領域で再び抽出された極大白矩形系列により少なくとも1以上の部分領域に分離するという処理が、再帰的に繰り返される。これにより、極大白矩形系列抽出の終了条件を設定しながら祖から密への再帰的分離による階層的処理が行われることになり、レイアウト解析処理の高効率化を図ることが可能になる。
[第二の実施の形態]
本発明の第二の実施の形態を図8に基づいて説明する。なお、前述した第一の実施の形態と同一部分は同一符号で示し説明も省略する。本実施の形態は、第一の実施の形態とは、レイアウト解析処理の流れが異なるものである。
本実施の形態のレイアウト解析処理の流れについて詳述する。図8は、レイアウト解析処理の流れを示すフローチャートである。図8に示すように、まず、前処理として、図4に示したような2値画像の黒連結成分をちょうど囲むような矩形領域の集合C=[r0,r1,・・・,rn](ri⊂rb;i=0,1,・・・,n)を求め、この集合Cをアルゴリズムへ入力する(ステップS11)。
次に、ページ全体に対して、極大白矩形系列を抽出する(ステップS12)。極大白矩形系列の抽出は、白矩形rの評価関数Q(r)を白矩形rの面積とし、処理している領域のサイズに応じて決まる下限値tについて、Q(r)≧tを満たすような極大白矩形をQ(r)の値が大きい順に数え上げる。これには、前述した非特許文献3に記載の方法を使えば良い。また、下限値tは、例えばwとhを処理している領域のそれぞれ幅と高さ、aを定数として、
t=a・min(w,h)
とすれば良い。さらに、領域のセパレータとしての適当でない形をした白矩形、例えば、長さが短いものや幅が狭すぎるものは、文字の間の隙間である可能性が高いので、そのような白矩形を除外するための拘束条件を設定する。これには、領域内にある黒矩形の大きさの分布から文字のサイズsを推定し、例えば、bを定数として、幅も高さもb・sより小さいような極大白矩形を、数え上げの際に除外するようにすれば良い。
次いで、抽出された白矩形系列をセパレータとしてページ全体をいくつかの領域に分離し、白矩形系列により分離された領域を抽出し(ステップS13)、抽出された各領域をキューに入れる(ステップS14)。ここで、キューは、先に入力したデータが先に出力されるデータ構造である。
続くステップS15では、キューが空であるか否かを判断する。
キューが空でなければ(ステップS15のN)、キューの先頭にある領域を取り出し(ステップS16)、その領域に対応する2値画像内で極大白矩形系列を抽出した後(ステップS17)、抽出された白矩形系列をセパレータとして、その領域をいくつかの部分領域に分離し、白矩形系列により分離された領域を抽出した後(ステップS18)、ステップS15に進む。つまり、キューが空でない限り、ステップS16〜S18の処理が繰り返されることになる。
一方、キューが空である場合には(ステップS15のY)、領域分離結果を出力して(ステップS19)、処理を終了する。
以上のように本実施の形態においては、キューを利用することにより、領域が「幅優先」の順序に従い、評価関数Q(r)の下限値を決めながら祖から密へ階層的に分離が行われることになる。
[第三の実施の形態]
本発明の第三の実施の形態を図9に基づいて説明する。なお、前述した第一の実施の形態と同一部分は同一符号で示し説明も省略する。本実施の形態は、第一の実施の形態とは、レイアウト解析処理の流れが異なるものである。
本実施の形態のレイアウト解析処理の流れについて詳述する。図9は、レイアウト解析処理の流れを示すフローチャートである。図9に示すように、まず、前処理として、図4に示したような2値画像の黒連結成分をちょうど囲むような矩形領域の集合C=[r0,r1,・・・,rn](ri⊂rb;i=0,1,・・・,n)を求め、この集合Cをアルゴリズムへ入力する(ステップS21)。
次に、ページ全体に対して、極大白矩形系列を抽出する(ステップS22)。極大白矩形系列の抽出は、白矩形rの評価関数Q(r)を白矩形rの面積とし、処理している領域のサイズに応じて決まる下限値tについて、Q(r)≧tを満たすような極大白矩形をQ(r)の値が大きい順に数え上げる。これには、前述した非特許文献3に記載の方法を使えば良い。また、下限値tは、例えばwとhを処理している領域のそれぞれ幅と高さ、aを定数として、
t=a・min(w,h)
とすれば良い。さらに、領域のセパレータとしての適当でない形をした白矩形、例えば、長さが短いものや幅が狭すぎるものは、文字の間の隙間である可能性が高いので、そのような白矩形を除外するための拘束条件を設定する。これには、領域内にある黒矩形の大きさの分布から文字のサイズsを推定し、例えば、bを定数として、幅も高さもb・sより小さいような極大白矩形を、数え上げの際に除外するようにすれば良い。
次いで、抽出された白矩形系列をセパレータとしてページ全体をいくつかの領域に分離し、白矩形系列により分離された領域を抽出し(ステップS23)、抽出された各領域をヒープに入れる(ステップS24)。ここで、ヒープは、最も大きい領域が常に先頭に入り、その後に大きさの順に領域が拡張される、いわゆる「優先順位付きキュー」である。
続くステップS25では、ヒープが空であるか否かを判断する。
ヒープが空でなければ(ステップS25のN)、ヒープの先頭にある領域を取り出し(ステップS26)、その領域に対応する2値画像内で極大白矩形系列を抽出した後(ステップS27)、抽出された白矩形系列をセパレータとして、その領域をいくつかの部分領域に分離し、白矩形系列により分離された領域を抽出した後(ステップS28)、ステップS25に進む。つまり、ヒープが空でない限り、ステップS26〜S28の処理が繰り返されることになる。
一方、ヒープが空である場合には(ステップS25のY)、領域分離結果を出力して(ステップS29)、処理を終了する。
以上のように本実施の形態においては、ヒープを利用することにより、領域が「大きさ優先」の順序に従い、評価関数Q(r)の下限値を決めながら祖から密へ階層的に分離が行われることになる。
[第四の実施の形態]
本発明の第四の実施の形態を図10ないし図15に基づいて説明する。なお、前述した第一ないし第三の実施の形態と同一部分は同一符号で示し説明も省略する。本実施の形態は、第一の実施の形態とは、レイアウト解析処理の流れが異なるものである。
本実施の形態のレイアウト解析は、特に、テキスト領域分割に関するものである。テキスト領域分割に求められる事項としては、
(1)異なるコラム同士が統合されないこと。
(2)行が複数のテキスト領域に分断されないこと。
(3)できるだけ少ない数のテキスト領域が生成されること。
が挙げられる。そこで、本実施の形態においては、極大白矩形系列抽出の終了基準や白矩形の文書構成要素の「セパレータとしての良さ」を測る尺度の中に、処理対象の性質に関する値(例えば、テキスト文書の場合、文字のサイズ、文字間隔、行間隔など)を取り入れたものである。
概略的には、まず、テキスト文書のページ全体に対して文字サイズ、文字間隔、行間隔などの統計量を計算し、それらに基づいて極大白矩形系列抽出の終了条件の下限値を大きく設定して、粗いスケールで処理する。この段階で、抽出された白矩形系列をセパレータとしてページ全体をいくつかの領域に分離する。次に、各領域について文字サイズ、文字間隔、行間隔などの統計量を計算し、それらに基づいて極大白矩形系列抽出の終了条件の下限値を前よりも小さく設定して、再び極大白矩形系列抽出を行い、より細かな分離を行う。このような処理を再帰的に繰り返してゆく。なお、階層的処理における極大白矩形系列抽出の終了条件である下限値は、文字サイズ、文字間隔、行間隔などに応じて設定するようにすれば良い。また、極大白矩形系列抽出の終了条件である下限値の他に、白矩形として望ましい形やサイズに関する拘束条件を導入するようにしても良い。例えば、領域のセパレータとして適当でない形をした白矩形を除外する等である。このように領域のセパレータとして適当でない形をした白矩形を除外するのは、文字サイズに比べて長さが短いもの、あるいは、文字間隔や行間隔幅が狭すぎるものは、文字の間の隙間である可能性が高いからである。このような長さや幅について拘束条件は、領域内で計算される文字サイズ、文字間隔、行間隔に応じて決めることができる。
本実施の形態のレイアウト解析処理の流れについて詳述する。図10は、レイアウト解析処理の流れを示すフローチャートである。図10に示すように、まず、前処理として、縦方向と横方向に黒画素間の狭い隙間を埋める処理を施した(短い白ランを黒に変える)後、2値画像の黒連結成分をちょうど囲むような矩形領域の集合C=[r0,r1,・・・,rn](ri⊂rb;i=0,1,・・・,n)を求め、この集合Cをアルゴリズムへ入力する(ステップS31:矩形領域抽出手段)。図11は、矩形領域の集合の一例を示す説明図である。
次に、ページ全体に対して、黒矩形の大きさと間隔に関する統計量から、文字サイズ、文字間隔、行間隔を求める(ステップS32)。そのために、図12に示すように、縦横のスキャンラインから、黒ランと白ランの長さのヒストグラムを計算する。縦横のスキャンラインすべてから計算された黒ランのヒストグラムのモードを代表文字サイズ、縦方向のスキャンラインすべてと横方向のスキャンラインすべてから、それぞれ計算された白ランのヒストグラムのうち、総サンプル数の多いほうのヒストグラムのモードを行間隔、少ないほうのモードを文字間隔とする。
次に、ページ全体に対して、極大白矩形系列を抽出する(ステップS33:第1白矩形抽出手段)。極大白矩形系列の抽出は、白矩形rの評価関数Q(r)を白矩形rの面積とし(計算手段)、処理している領域のサイズに応じて決まる下限値tについて、Q(r)≧tを満たすような極大白矩形をQ(r)の値が大きい順に数え上げる(列挙手段)。これには、前述した非特許文献3に記載の方法を使えば良い。また、下限値tは、例えばwとhを処理している領域のそれぞれ幅と高さ、sを計算された文字の大きさ、aを定数として、
t=a・s・min(w,h)
とすれば良い(下限値決定手段)。さらに、領域のセパレータとしての適当でない形をした白矩形、例えば、長さが短いものや幅が狭すぎるものは、文字の間の隙間である可能性が高いので、そのような白矩形を除外するための拘束条件を設定する(条件設定手段)。これには、領域内で推定された文字のサイズsと、例えば、bを定数として、幅も高さもb・sより小さいような極大白矩形を、数え上げの際に除外するようにすれば良い(除外手段)。
次いで、抽出された白矩形系列をセパレータとしてページ全体をいくつかの領域に分離し、白矩形系列により分離された領域を抽出し(ステップS34:第1領域抽出手段)、抽出された各領域をスタックに積む(ステップS35:格納手段)。ここで、スタックは、最後に入力したデータが先に出力されるデータ構造である。図13は、図11の矩形領域の集合についてページ全体で抽出された極大白矩形系列により分離された領域を示す説明図である。
続くステップS36では、スタックが空であるか否かを判断する。
スタックが空でなければ(ステップS36のN)、スタックの最上部に積まれている領域を取り出し(ステップS37)、その領域に対応する2値画像内で、上述した方法と同様に黒矩形の大きさと間隔に関する統計量から、文字サイズ、文字間隔、行間隔を求め(ステップS38)、極大白矩形系列を抽出した後(ステップS39:第2白矩形抽出手段)、抽出された白矩形系列をセパレータとして、その領域をいくつかの部分領域に分離する(ステップS40:第2領域抽出手段)。
ここで、Q(r)の下限値tは、sを計算された文字の大きさ、dを計算された行間隔、aを定数として、
t=a・s・d
などとすれば良い(下限値決定手段)。さらに、領域のセパレータとしての適当でない形をした白矩形、例えば、文字サイズに比べて長さが短いものや、文字間隔や行間隔に比べて幅が狭すぎるものは、文字や行の間の隙間である可能性が高いので、そのような白矩形を除外するための拘束条件を設定する(条件設定手段)。これには、例えば、△を文字間隔、f,g,hを定数として、長さがf・sより短いか、幅がg・dやh・△より小さいような極大白矩形を、数え上げの際に除外するようにすれば良い(除外手段)。
そして、白矩形系列により分離された領域を抽出した後は(ステップS40:第2領域抽出手段)、ステップS36に進む。つまり、スタックが空でない限り、ステップS37〜S40の処理が繰り返されることになる。ここで、図14−1はスタックに積まれた領域を示す説明図、図14−2は抽出された極大白矩形系列により分離された領域を示す説明図である。
一方、スタックが空である場合には(ステップS36のY)、領域分離結果を出力して(ステップS41)、処理を終了する。図15は、図11の矩形領域の集合に対するレイアウト解析結果を示す説明図である。図15に示すように、本実施の形態のレイアウト解析結果によれば、テキスト領域分割に関し、
(1)異なるコラム同士が統合されないこと。
(2)行が複数のテキスト領域に分断されないこと。
(3)できるだけ少ない数のテキスト領域が生成されること。
を実現することができる。
以上のように本実施の形態においては、スタックを利用することにより、領域が「深さ優先」の順序に従い、評価関数Q(r)の下限値を決めながら祖から密へ階層的に分離が行われることになる。
本実施の形態においては第二階層までのレイアウト解析処理について説明したが、これに限るものではなく、ステップS41での領域分離結果に基づいて再度ステップS31から再度レイアウト解析処理することにより、祖から密への再帰的分離による階層的処理が実行されることになる。
このように本実施の形態によれば、矩形領域の集合全体で抽出された極大白矩形系列により矩形領域の集合全体が少なくとも1以上の領域に分離されて格納され、格納された各領域を当該各領域で再び抽出された極大白矩形系列により少なくとも1以上の部分領域に分離するという処理が、再帰的に繰り返される。これにより、極大白矩形系列抽出の終了条件を設定しながら祖から密への再帰的分離による階層的処理が行われることになり、レイアウト解析処理の高効率化を図ることが可能になる。
また、本実施の形態においては、極大白矩形系列抽出の終了基準や白矩形の文書構成要素の「セパレータとしての良さ」を測る尺度の中に、処理対象の性質に関する値(例えば、テキスト文書の場合、文字のサイズ、文字間隔、行間隔など)を取り入れるようにしたことにより、異なるコラム同士が統合されず、行が複数のテキスト領域に分断されず、かつ、できるだけ少ない数のテキスト領域が生成されるような分離を行なうことが可能になるので、特にテキスト領域分割に関するレイアウト解析処理の高精度化を図ることが可能になる。
なお、ステップS35においては、ステップS34において抽出された各領域(白矩形系列により分離された領域)をスタックに積むようにしたが、これに限るものではない。第二の実施の形態で説明したようにキューを利用することにより、領域が「幅優先」の順序に従い、評価関数Q(r)の下限値を決めながら祖から密へ階層的に分離が行われるものであっても良いし、第三の実施の形態で説明したようにヒープを利用することにより、領域が「大きさ優先」の順序に従い、評価関数Q(r)の下限値を決めながら祖から密へ階層的に分離が行われるものであっても良い。
なお、各実施の形態においては、画像処理装置1としてPCなどのコンピュータを適用したがこれに限るものではない。例えば、図16に示すように、画像読取手段であるスキャナ部21及び画像印刷装置であるプリンタ部22を備えた画像形成装置であるデジタル複合機20に備えられる情報処理装置に画像処理装置1を適用し、デジタル複合機20のスキャナ部21で読み取ったスキャン画像に対してレイアウト解析処理を施すようにしても良い。
また、各実施の形態の画像処理装置1としては、ローカルなシステム(例えば、パーソナルコンピュータ単体)を適用したが、これに限るものではない。例えば、図17に示すように、サーバコンピュータSにネットワークNを介してクライアントコンピュータCが複数台接続されたサーバクライアントシステムを適用するようにしても良い。この場合、各クライアントコンピュータCからサーバコンピュータSに対して画像を送信し、サーバコンピュータS(画像処理装置1)において画像に対してレイアウト解析処理を施すことになる。
本発明の第一の実施の形態の画像処理装置の電気的な接続を示すブロック図である。 レイアウト解析処理の基本的アプローチを概略的に示す説明図である。 レイアウト解析処理の流れを示すフローチャートである。 矩形領域の集合の一例を示す説明図である。 図4の矩形領域の集合についてページ全体で抽出された極大白矩形系列により分離された領域を示す説明図である。 スタックに積まれた領域を示す説明図である。 抽出された極大白矩形系列により分離された領域を示す説明図である。 図4の矩形領域の集合に対するレイアウト解析結果を示す説明図である。 本発明の第二の実施の形態のレイアウト解析処理の流れを示すフローチャートである。 本発明の第三の実施の形態のレイアウト解析処理の流れを示すフローチャートである。 本発明の第四の実施の形態のレイアウト解析処理の流れを示すフローチャートである。 矩形領域の集合の一例を示す説明図である。 矩形領域の文字サイズ、文字間隔、行間隔の計算手法を示す説明図である。 図11の矩形領域の集合についてページ全体で抽出された極大白矩形系列により分離された領域を示す説明図である。 スタックに積まれた領域を示す説明図である。 抽出された極大白矩形系列により分離された領域を示す説明図である。 図11の矩形領域の集合に対するレイアウト解析結果を示す説明図である。 デジタル複合機を示す外観斜視図である。 サーバクライアントシステムを示す模式図である。 最大白矩形を示す説明図である。
符号の説明
1 画像処理装置
8a 記憶媒体
20 画像形成装置
21 画像読取手段
22 画像印刷装置

Claims (32)

  1. 2値画像のレイアウト解析処理を行う画像処理装置において、
    前記2値画像の黒連結成分に外接する矩形領域の集合を抽出する矩形領域抽出手段と、
    この矩形領域抽出手段により抽出された矩形領域の集合全体から、それ以上拡張すると内部に黒画素を含んでしまうような極大白矩形の系列を、極大白矩形系列抽出の終了条件を設定しつつ抽出する第1白矩形抽出手段と、
    この第1白矩形抽出手段により抽出された前記極大白矩形系列をセパレータとして矩形領域の集合全体を少なくとも1以上の領域に分離して抽出する第1領域抽出手段と、
    抽出された各領域を所定のデータ構造で格納する格納手段と、
    この格納手段に格納されている前記各領域をデータ構造に従って取り出し、その領域内での極大白矩形系列を、極大白矩形系列抽出の終了条件を設定しつつ抽出する第2白矩形抽出手段と、
    この第2白矩形抽出手段により抽出された前記極大白矩形系列をセパレータとしてその領域を少なくとも1以上の部分領域に分離して抽出する第2領域抽出手段と、
    を備え、
    前記第1白矩形抽出手段と前記第1領域抽出手段と前記格納手段と前記第2白矩形抽出手段と前記第2領域抽出手段とを再帰的に繰り返す、
    ことを特徴とする画像処理装置。
  2. 前記第1白矩形抽出手段および前記第2白矩形抽出手段は、
    白矩形の評価関数を計算する計算手段と、
    極大白矩形系列抽出の終了条件である前記評価関数の下限値を決める下限値決定手段と、
    前記評価関数の値が大きい順に、下限値以上の前記極大白矩形を列挙する列挙手段と、
    を有することを特徴とする請求項1記載の画像処理装置。
  3. 前記評価関数は、白矩形の面積である、
    ことを特徴とする請求項2記載の画像処理装置。
  4. 前記評価関数の下限値は、処理する領域の大きさに応じて決められる、
    ことを特徴とする請求項2記載の画像処理装置。
  5. 前記第1白矩形抽出手段は、前記矩形領域抽出手段により抽出された矩形領域の集合全体から、処理対象の性質に関する値を計算する手段を有しており、
    前記評価関数の下限値は、計算された処理対象の性質に関する値に応じて決められる、
    ことを特徴とする請求項2記載の画像処理装置。
  6. 前記第2白矩形抽出手段は、前記格納手段により格納されている前記各領域をデータ構造に従って取り出し、その領域内の処理対象の性質に関する値を計算する手段を有しており、
    前記評価関数の下限値は、計算された処理対象の性質に関する値に応じて決められる、
    ことを特徴とする請求項2記載の画像処理装置。
  7. 前記列挙手段は、
    白矩形の形についての制約条件を設定する条件設定手段と、
    前記制約条件を満たさない白矩形を列挙から除外する除外手段と、
    を有することを特徴とする請求項2記載の画像処理装置。
  8. 前記格納手段は、抽出された各領域をスタックに積む、
    ことを特徴とする請求項1ないし7の何れか一記載の画像処理装置。
  9. 前記格納手段は、抽出された各領域をキューに入れる、
    ことを特徴とする請求項1ないし7の何れか一記載の画像処理装置。
  10. 前記格納手段は、抽出された各領域をヒープに入れる、
    ことを特徴とする請求項1ないし7の何れか一記載の画像処理装置。
  11. 2値画像のレイアウト解析処理をコンピュータに実行させる画像処理プログラムにおいて、
    前記2値画像の黒連結成分に外接する矩形領域の集合を抽出する矩形領域抽出機能と、
    この矩形領域抽出機能により抽出された矩形領域の集合全体から、それ以上拡張すると内部に黒画素を含んでしまうような極大白矩形の系列を、極大白矩形系列抽出の終了条件を設定しつつ抽出する第1白矩形抽出機能と、
    この第1白矩形抽出機能により抽出された前記極大白矩形系列をセパレータとして矩形領域の集合全体を少なくとも1以上の領域に分離して抽出する第1領域抽出機能と、
    抽出された各領域を所定のデータ構造で格納する格納機能と、
    この格納機能に格納されている前記各領域をデータ構造に従って取り出し、その領域内での極大白矩形系列を、極大白矩形系列抽出の終了条件を設定しつつ抽出する第2白矩形抽出機能と、
    この第2白矩形抽出機能により抽出された前記極大白矩形系列をセパレータとしてその領域を少なくとも1以上の部分領域に分離して抽出する第2領域抽出機能と、
    を前記コンピュータに実行させ、
    前記第1白矩形抽出機能と前記第1領域抽出機能と前記格納機能と前記第2白矩形抽出機能と前記第2領域抽出機能とを再帰的に繰り返す、
    ことを特徴とする画像処理プログラム。
  12. 前記第1白矩形抽出機能または前記第2白矩形抽出機能は、
    白矩形の評価関数を計算する計算機能と、
    極大白矩形系列抽出の終了条件である前記評価関数の下限値を決める下限値決定機能と、
    前記評価関数の値が大きい順に、下限値以上の前記極大白矩形を列挙する列挙機能と、
    を有していることを特徴とする請求項11記載の画像処理プログラム。
  13. 前記評価関数は、白矩形の面積である、
    ことを特徴とする請求項12記載の画像処理プログラム。
  14. 前記評価関数の下限値は、処理する領域の大きさに応じて決められる、
    ことを特徴とする請求項12記載の画像処理プログラム。
  15. 前記第1白矩形抽出機能は、前記矩形領域抽出機能により抽出された矩形領域の集合全体から、処理対象の性質に関する値を計算する機能を有しており、
    前記評価関数の下限値は、計算された処理対象の性質に関する値に応じて決められる、
    ことを特徴とする請求項12記載の画像処理プログラム。
  16. 前記第2白矩形抽出機能は、前記格納機能により格納されている前記各領域をデータ構造に従って取り出し、その領域内の処理対象の性質に関する値を計算する機能を有しており、
    前記評価関数の下限値は、計算された処理対象の性質に関する値に応じて決められる、
    ことを特徴とする請求項12記載の画像処理プログラム。
  17. 前記列挙機能は、
    白矩形の形についての制約条件を設定する条件設定機能と、
    前記制約条件を満たさない白矩形を列挙から除外する除外機能と、
    を有していることを特徴とする請求項12記載の画像処理プログラム。
  18. 前記格納機能は、抽出された各領域をスタックに積む、
    ことを特徴とする請求項11ないし17の何れか一記載の画像処理プログラム。
  19. 前記格納機能は、抽出された各領域をキューに入れる、
    ことを特徴とする請求項11ないし17の何れか一記載の画像処理プログラム。
  20. 前記格納機能は、抽出された各領域をヒープに入れる、
    ことを特徴とする請求項11ないし17の何れか一記載の画像処理プログラム。
  21. 請求項11ないし20のいずれか一記載の画像処理プログラムを記憶することを特徴とする記憶媒体。
  22. 2値画像のレイアウト解析処理を行う画像処理方法において、
    前記2値画像の黒連結成分に外接する矩形領域の集合を抽出する矩形領域抽出工程と、
    この矩形領域抽出工程により抽出された矩形領域の集合全体から、それ以上拡張すると内部に黒画素を含んでしまうような極大白矩形の系列を、極大白矩形系列抽出の終了条件を設定しつつ抽出する第1白矩形抽出工程と、
    この第1白矩形抽出工程により抽出された前記極大白矩形系列をセパレータとして矩形領域の集合全体を少なくとも1以上の領域に分離して抽出する第1領域抽出工程と、
    抽出された各領域を所定のデータ構造で格納する格納工程と、
    この格納工程に格納されている前記各領域をデータ構造に従って取り出し、その領域内での極大白矩形系列を、極大白矩形系列抽出の終了条件を設定しつつ抽出する第2白矩形抽出工程と、
    この第2白矩形抽出工程により抽出された前記極大白矩形系列をセパレータとしてその領域を少なくとも1以上の部分領域に分離して抽出する第2領域抽出工程と、
    を含み、
    前記第1白矩形抽出工程と前記第1領域抽出工程と前記格納工程と前記第2白矩形抽出工程と前記第2領域抽出工程とを再帰的に繰り返す、
    ことを特徴とする画像処理方法。
  23. 前記第1白矩形抽出工程または前記第2白矩形抽出工程は、
    白矩形の評価関数を計算する計算工程と、
    極大白矩形系列抽出の終了条件である前記評価関数の下限値を決める下限値決定工程と、
    前記評価関数の値が大きい順に、下限値以上の前記極大白矩形を列挙する列挙工程と、
    を含むことを特徴とする請求項22記載の画像処理方法。
  24. 前記評価関数は、白矩形の面積である、
    ことを特徴とする請求項23記載の画像処理方法。
  25. 前記評価関数の下限値は、処理する領域の大きさに応じて決められる、
    ことを特徴とする請求項23記載の画像処理方法。
  26. 前記第1白矩形抽出工程は、前記矩形領域抽出工程により抽出された矩形領域の集合全体から、処理対象の性質に関する値を計算する工程を含み、
    前記評価関数の下限値は、計算された処理対象の性質に関する値に応じて決められる、
    ことを特徴とする請求項23記載の画像処理方法。
  27. 前記第2白矩形抽出工程は、前記格納工程により格納されている前記各領域をデータ構造に従って取り出し、その領域内の処理対象の性質に関する値を計算する工程を含み、
    前記評価関数の下限値は、計算された処理対象の性質に関する値に応じて決められる、
    ことを特徴とする請求項23記載の画像処理方法。
  28. 前記列挙工程は、
    白矩形の形についての制約条件を設定する条件設定工程と、
    前記制約条件を満たさない白矩形を列挙から除外する除外工程と、
    を含むことを特徴とする請求項23記載の画像処理方法。
  29. 前記格納工程は、抽出された各領域をスタックに積む、
    ことを特徴とする請求項22ないし28の何れか一記載の画像処理方法。
  30. 前記格納工程は、抽出された各領域をキューに入れる、
    ことを特徴とする請求項22ないし28の何れか一記載の画像処理方法。
  31. 前記格納工程は、抽出された各領域をヒープに入れる、
    ことを特徴とする請求項22ないし28の何れか一記載の画像処理方法。
  32. 原稿画像を読み取る画像読取手段と、
    この画像読取手段により読み取られたスキャン画像のレイアウト解析処理を行う請求項1ないし10のいずれか一記載の画像処理装置と、
    画像を用紙上に印刷する画像印刷装置と、
    を備えることを特徴とする画像形成装置。
JP2005000769A 2004-08-18 2005-01-05 画像処理装置、画像処理プログラム、記憶媒体、画像処理方法および画像形成装置 Pending JP2006085665A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2005000769A JP2006085665A (ja) 2004-08-18 2005-01-05 画像処理装置、画像処理プログラム、記憶媒体、画像処理方法および画像形成装置
US11/201,366 US7616813B2 (en) 2004-08-18 2005-08-11 Background area extraction in document layout analysis

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004238026 2004-08-18
JP2005000769A JP2006085665A (ja) 2004-08-18 2005-01-05 画像処理装置、画像処理プログラム、記憶媒体、画像処理方法および画像形成装置

Publications (1)

Publication Number Publication Date
JP2006085665A true JP2006085665A (ja) 2006-03-30

Family

ID=35909687

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005000769A Pending JP2006085665A (ja) 2004-08-18 2005-01-05 画像処理装置、画像処理プログラム、記憶媒体、画像処理方法および画像形成装置

Country Status (2)

Country Link
US (1) US7616813B2 (ja)
JP (1) JP2006085665A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8254669B2 (en) 2007-09-19 2012-08-28 Ricoh Company, Ltd. Data processing apparatus, computer program product, and data processing method for predicting an optimum function based on a case database and image feature values calculated by a feature-value calculating unit
US8792719B2 (en) 2011-07-29 2014-07-29 Brother Kogyo Kabushiki Kaisha Image processing device determining attributes of regions
US8830529B2 (en) 2011-07-29 2014-09-09 Brother Kogyo Kabushiki Kaisha Image processing device for accurately identifying region in image without increase in memory requirement
US8837836B2 (en) 2011-07-29 2014-09-16 Brother Kogyo Kabushiki Kaisha Image processing device identifying attribute of region included in image
US8929663B2 (en) 2011-07-29 2015-01-06 Brother Kogyo Kabushiki Kaisha Image processing device identifying region in image as one of uniform region and nonuniform region
US9092892B2 (en) 2012-03-30 2015-07-28 Brother Kogyo Kabushiki Kaisha Image processing device determining binarizing threshold value
US9158987B2 (en) 2012-03-30 2015-10-13 Brother Kogyo Kabushiki Kaisha Image processing device that separates image into plural regions
US9230186B2 (en) 2012-03-30 2016-01-05 Brother Kogyo Kabushiki Kaisha Image processing device generating binary image data by selecting specific component

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI284288B (en) * 2004-06-04 2007-07-21 Benq Corp Text region recognition method, storage medium and system
US8176414B1 (en) * 2005-09-30 2012-05-08 Google Inc. Document division method and system
JP4768451B2 (ja) * 2006-01-18 2011-09-07 株式会社リコー 画像処理装置、画像形成装置、プログラムおよび画像処理方法
JP4341629B2 (ja) * 2006-01-27 2009-10-07 カシオ計算機株式会社 撮像装置、画像処理方法及びプログラム
US8160364B2 (en) * 2007-02-16 2012-04-17 Raytheon Company System and method for image registration based on variable region of interest
CN109640045B (zh) * 2018-12-20 2021-05-18 湖南国科微电子股份有限公司 芯片及图像处理方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0461817A3 (en) * 1990-06-15 1993-11-18 American Telephone & Telegraph Image segmenting apparatus and methods
JP2579397B2 (ja) * 1991-12-18 1997-02-05 インターナショナル・ビジネス・マシーンズ・コーポレイション 文書画像のレイアウトモデルを作成する方法及び装置
US5699453A (en) * 1994-09-30 1997-12-16 Xerox Corporation Method and apparatus for logically tagging of document elements in the column by major white region pattern matching
JP3940491B2 (ja) 1998-02-27 2007-07-04 株式会社東芝 文書処理装置および文書処理方法
JP3850995B2 (ja) 1998-08-18 2006-11-29 株式会社リコー 文書画像処理方法および文書画像処理方法をコンピュータに実行させるプログラムを記録した機械読み取り可能な記録媒体
JP2000113103A (ja) 1998-09-30 2000-04-21 Ricoh Co Ltd 文書画像の方向判定方法、装置および記録媒体
JP3204259B2 (ja) * 1999-10-06 2001-09-04 インターナショナル・ビジネス・マシーンズ・コーポレーション 文字列抽出方法、手書き文字列抽出方法、文字列抽出装置、および画像処理装置
JP4393161B2 (ja) * 2003-11-20 2010-01-06 キヤノン株式会社 画像処理装置及び画像処理方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8254669B2 (en) 2007-09-19 2012-08-28 Ricoh Company, Ltd. Data processing apparatus, computer program product, and data processing method for predicting an optimum function based on a case database and image feature values calculated by a feature-value calculating unit
US8792719B2 (en) 2011-07-29 2014-07-29 Brother Kogyo Kabushiki Kaisha Image processing device determining attributes of regions
US8830529B2 (en) 2011-07-29 2014-09-09 Brother Kogyo Kabushiki Kaisha Image processing device for accurately identifying region in image without increase in memory requirement
US8837836B2 (en) 2011-07-29 2014-09-16 Brother Kogyo Kabushiki Kaisha Image processing device identifying attribute of region included in image
US8929663B2 (en) 2011-07-29 2015-01-06 Brother Kogyo Kabushiki Kaisha Image processing device identifying region in image as one of uniform region and nonuniform region
US9092892B2 (en) 2012-03-30 2015-07-28 Brother Kogyo Kabushiki Kaisha Image processing device determining binarizing threshold value
US9158987B2 (en) 2012-03-30 2015-10-13 Brother Kogyo Kabushiki Kaisha Image processing device that separates image into plural regions
US9230186B2 (en) 2012-03-30 2016-01-05 Brother Kogyo Kabushiki Kaisha Image processing device generating binary image data by selecting specific component

Also Published As

Publication number Publication date
US20060039608A1 (en) 2006-02-23
US7616813B2 (en) 2009-11-10

Similar Documents

Publication Publication Date Title
JP4856925B2 (ja) 画像処理装置、画像処理方法及び画像処理プログラム
US8645819B2 (en) Detection and extraction of elements constituting images in unstructured document files
JP5659563B2 (ja) 識別方法、識別装置およびコンピュータプログラム
JP4768451B2 (ja) 画像処理装置、画像形成装置、プログラムおよび画像処理方法
US20070143272A1 (en) Method and apparatus for retrieving similar image
US8693790B2 (en) Form template definition method and form template definition apparatus
US7616813B2 (en) Background area extraction in document layout analysis
JP6262188B2 (ja) 文字の中央区域の垂直投影を用いて文書画像内のテキスト文字を区分化する方法
US7796817B2 (en) Character recognition method, character recognition device, and computer product
JP5915628B2 (ja) 画像形成装置、テキストデータの埋め込み方法及び埋め込みプログラム
JP4785655B2 (ja) 文書処理装置及び文書処理方法
US20090234820A1 (en) Image processing apparatus, image processing method, and computer-readable storage medium
US8538154B2 (en) Image processing method and image processing apparatus for extracting heading region from image of document
US10423851B2 (en) Method, apparatus, and computer-readable medium for processing an image with horizontal and vertical text
US20210056336A1 (en) Image processing apparatus, image processing method, and storage medium
JP4232679B2 (ja) 画像形成装置およびプログラム
US11941903B2 (en) Image processing apparatus, image processing method, and non-transitory storage medium
JP2006253842A (ja) 画像処理装置、画像形成装置、プログラム、記憶媒体および画像処理方法
JP4275973B2 (ja) 加筆画像抽出装置、プログラム、記憶媒体及び加筆画像抽出方法
JP2005157928A (ja) スタンプ処理装置、電子承認システム、プログラム、及び記録媒体
JP2004080341A (ja) 画像処理装置、画像処理方法、プログラム、及び記録媒体
Parodi et al. Efficient and flexible text extraction from document pages
JP3565310B2 (ja) 一般の文書画像から罫線を抽出する罫線抽出装置および方法
JP7417116B2 (ja) 情報処理システム、情報処理方法、プログラム
JP4651407B2 (ja) 画像処理装置およびコンピュータプログラムおよび記憶媒体