JP4856925B2 - 画像処理装置、画像処理方法及び画像処理プログラム - Google Patents

画像処理装置、画像処理方法及び画像処理プログラム Download PDF

Info

Publication number
JP4856925B2
JP4856925B2 JP2005295412A JP2005295412A JP4856925B2 JP 4856925 B2 JP4856925 B2 JP 4856925B2 JP 2005295412 A JP2005295412 A JP 2005295412A JP 2005295412 A JP2005295412 A JP 2005295412A JP 4856925 B2 JP4856925 B2 JP 4856925B2
Authority
JP
Japan
Prior art keywords
document
extraction
area
extracted
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005295412A
Other languages
English (en)
Other versions
JP2007102715A (ja
Inventor
広文 西田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2005295412A priority Critical patent/JP4856925B2/ja
Priority to US11/518,910 priority patent/US8041113B2/en
Priority to CNB2006101599928A priority patent/CN100424716C/zh
Publication of JP2007102715A publication Critical patent/JP2007102715A/ja
Application granted granted Critical
Publication of JP4856925B2 publication Critical patent/JP4856925B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/263Language identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Processing Or Creating Images (AREA)
  • Character Input (AREA)
  • Image Analysis (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は、画像処理装置、画像処理方法及び画像処理プログラムに関するものであり、特に画像データから文字を含む領域を抽出する技術に関するものである。
スキャナやデジタルカメラなどの画像入力機器を通してコンピュータに入力された文書画像を文書構成要素、すなわち、文字ブロック,写真・絵・図,表,罫線に分離する処理は、通常、「幾何的レイアウト解析」や「ページセグメンテーション」と呼ばれる。この「幾何的レイアウト解析」や「ページセグメンテーション」は、多くの場合、2値文書画像上で行われる。また、「幾何的レイアウト解析」や「ページセグメンテーション」は、前処理として、入力の際に生じる傾きを補正する「スキュー補正」を伴う。このようにしてスキュー補正された2値文書画像の「幾何的レイアウト解析」や「ページセグメンテーション」は、大きく2通りのアプローチ(トップダウン解析及びボトムアップ解析)に分類される。
ここで、トップダウン解析について説明する。トップダウン解析は、ページを大きな構成要素から小さな構成要素に分離する。例えば、ページをコラムに、そして、コラムをパラグラフに、パラグラフを文字行に、というように、大きな構成要素から小さなものに分離してゆくアプローチである。トップダウン解析は、ページのレイアウト構造についての仮定に基づくモデル(例えば、マンハッタンレイアウトでは、文字行は直立矩形である)を利用して、効率的に計算ができる反面、仮定が成り立たないようなデータについては、とんでもない間違いを生じるという欠点がある。一般に、複雑なレイアウトはモデル化も複雑になるため、取り扱いが難しい。
次に、ボトムアップ解析について説明する。ボトムアップ解析は、特許文献1、2に記載されているように、近隣の構成要素の位置関係を参照して、要素を統合してゆく。例えば、連結成分を文字行、そして、文字行をコラムに、というように、小さな構成要素を大きなものにグループ化してゆくアプローチである。しかしながら、特許文献1に記載されているようなボトムアップ解析は、局所的な情報に基づく方法なので、文書画像データ全体のレイアウトに関する仮定にあまり依存せずに多様なレイアウトに対応できる反面、局所的な判断の間違いが蓄積してゆくという欠点がある。例えば、2つの異なるコラム間にまたがる2つの文字が、誤って1つの文字行に統合されてしまえば、それらの2つのコラムも1つのコラムとして誤って抽出されてしまう。また、特許文献2に記載されているような構成要素の統合では、言語による文字の並び方の特性や、文字列方向(縦/横)などの知識が必要となる。
このように2つのアプローチは相補的であるが、これらの「隙間」を埋めるアプローチがいくつか提案されている。これら提案されたアプローチでは、言語の種別に依存しないアプローチも存在する。このようなアプローチして、文字でない部分、すなわち「背景」、あるいは2値文書画像で言うところの「白地」を利用する方法がある。背景や白地の利用の利点としては、
(1)言語に依存しない(多くの言語でも白地が区切りとして使われる)ので、行方向(横書き/縦書き)についての知識を必要としない。
(2)大局的な処理なので、局所的な判断間違いが累積する可能性が少ない。
(3)複雑なレイアウトにも、柔軟に対応できる。
などが挙げられる。
このような背景解析に属する代表的な方法としては、「極大白矩形系列によるページセグメンテーション」がある。
ここで、「極大白矩形系列によるページセグメンテーション」について簡単に説明する。準備として、「最大白矩形問題」を定義する。まず、rbを文書画像データ全体に対応する矩形領域、そして、C=[r0,r1,・・・,rn](ri⊂rb;i=0,1,・・・,n)を、それぞれ2値文書画像黒連結成分をちょうど囲むような矩形領域とする。図6に、矩形領域の集合の一例を示す。さらに、矩形に対して、次のような性質を満たす評価関数Qを導入する。2つの矩形rとr′について、
r⊆r′ならば、Q(r)≦Q(r′)
を満たす評価関数Qである。例えば、関数Q(r)を矩形rの面積とすると、上記の性質は満たされる。「最大白矩形問題」とは、Cの要素r0,r1,・・・,rn(ri⊂rb;i=0,1,・・・,n)と重ならないような矩形のうち、Qの値が最大になるものを見つける問題である。この問題の拡張として、非特許文献1,2においては、「極大白矩形」、すなわち、それ以上拡張するとCの要素のいずれかと重なり合ってしまうような白矩形を、Qの値が大きい順に数え上げるアルゴリズムを提案している。
このようにして極大白矩形の系列によって背景領域(2値文書画像の白領域)を被覆してゆくことにより、コラムや文字行などの文書構成要素を、「いずれの白矩形にも被覆されていない部分」として抽出できると期待できる。
特開2000−067158公報 特許第3187895号公報 H.S.Baird,"Background structure in document images,"in Document Image Analysis(H.Bunke,P.S.P.Wang,and H.S.Baird,Eds.),Singapore: World Scientific,1994,pp.17−34. TM Breuel,"Two algorithms for geometric layout analysis,"in Proceedings of IAPR Workshop on Document Analysis Systems(Princeton,NJ,USA),2002.
しかしながら、上述した「極大白矩形系列によるページセグメンテーション」に代表される背景解析に属する方法は、言語の種別に依存していないことから、言語固有の複雑なレイアウトに対応することが難しいという問題がある。
本発明は、上記に鑑みてなされたものであって、レイアウト解析処理の高効率化を図りつつ、言語固有のレイアウトに対応した固有の領域分割により高精度化を実現する画像処理装置、画像処理方法及び画像処理プログラムを提供することを目的とする。
上述した課題を解決し、目的を達成するために、請求項1にかかる発明は、文書画像データを、それ以上拡張すると内部に黒画素を含んでしまう極大白矩形の系列をセパレータ として用いて、文字を含む文書領域毎に分割して抽出する第1の領域抽出手段と、前記文書画像データで用いられた言語の種別を判定する種別判定手段と、前記第1の領域抽出手段により抽出された前記文書領域に対して、前記種別判定手段により判定された言語の種別の書字方向に応じた規則に基づいて分割又は結合して文書領域を抽出する第2の領域抽出手段と、を備えたことを特徴とする。
また、請求項2にかかる発明は、請求項1にかかる発明において、前記種別判定手段により判定された前記言語の種別により、前記第1の領域抽出手段により抽出された前記文書領域から、さらに抽出を行うか否か判定する抽出判定手段と、をさらに備え、前記第2の領域抽出手段は、前記抽出判定手段により抽出すると判定された場合に、前記種別判定手段により判定された言語の種別の書字方向に応じた規則に基づいて分割又は結合して文書領域を抽出すること、を特徴とする。
また、請求項3にかかる発明は、請求項1にかかる発明において、前記第1の領域抽出手段により抽出された前記文書領域の属性を判定する属性判定手段と、をさらに備え、前記第2の領域抽出手段は、前記第1の領域抽出手段により抽出された前記文書領域に対して、前記種別判定手段により判定された前記言語の種別の書字方向、及び前記属性判定手段により判定された前記属性に応じた規則に基づいて分割又は結合して文書領域を抽出すること、を特徴とする。
また、請求項4にかかる発明は、請求項3にかかる発明において、前記種別判定手段により判定された前記言語の種別及び前記属性判定手段により判定された前記属性により、前記第1の領域抽出手段により抽出された前記文書領域から、さらに抽出を行うか否か判定する抽出判定手段と、をさらに備え、前記第2の抽出手段は、前記抽出判定手段により抽出すると判定された場合に、前記第1の領域抽出手段により抽出された前記文書領域に対して、前記種別判定手段により判定された前記言語の種別の書字方向、及び前記属性判定手段により判定された前記属性に応じた規則に基づいて分割又は結合して文書領域を抽出すること、を特徴とする。
また、請求項5にかかる発明は、請求項2にかかる発明において、前記種別判定手段は、前記文書画像データ全体から言語の種別を判定し、前記抽出判定手段は、前記種別判定手段により判定された前記言語の種別により、前記第1の領域抽出手段により抽出された前記文書領域に対して、さらに出を行うか否か判定すること、を特徴とする。
また、請求項6にかかる発明は、請求項2又は4にかかる発明において、前記種別判定手段は、前記文書画像データの、前記第1の領域抽出手段により抽出された前記文書領域毎に言語の種別を判定し、前記抽出判定手段は、前記第1の領域抽出手段により抽出された前記文書領域毎に、前記種別判定手段により判定された前記言語の種別により、さらに抽出するか否か判定すること、を特徴とする。
また、請求項7にかかる発明は、請求項1乃至6のいずれか一つにかかる発明において、前記第2の領域抽出手段により抽出された前記文書領域に対して、文書画像データを使用するアプリケーション又はタスクに応じた規則により分割又は結合にして文書領域を抽出する第3の領域抽出手段と、を、さらに備えたことを特徴とする。
また、請求項8にかかる発明は、請求項7にかかる発明において、前記文書画像データを使用するアプリケーション又はタスクに適した抽出を行うか否か判定する第2の抽出判定手段と、前記第3の領域抽出手段は、前記第2の抽出判定手段により抽出すると判定された場合に、前記第2の領域抽出手段により抽出された前記文書領域に対して、前記アプ リケーション又はタスクに応じた規則により分割又は結合にして文書領域を抽出すること、を特徴とする。
また、請求項9にかかる発明は、請求項3にかかる発明において、前記属性判定手段は、前記文書画像データの属性として、前記第1の領域抽出手段により抽出された前記文書領域内に含まれている文字の方向及び文字サイズのうち少なくとも1つ以上を判定すること、を特徴とする。
また、請求項10にかかる発明は、請求項3にかかる発明において、言語の種別と、属性と、当該言語の種別の書字方向及び当該属性に応じた抽出の規則とを対応付けた抽出規則対応情報を記憶する記憶手段と、をさらに備え、前記第2の領域抽出手段は、前記種別判定手段により判定された前記言語の種別と、前記属性判定手段により判定された前記属性と、前記抽出規則対応情報で対応付けられた前記規則に基づいて、前記第1の領域抽出手段により抽出された前記文書領域に対して分割又は結合して、文書領域を抽出すること、を特徴とする。
また、請求項11にかかる発明は、請求項1乃至10のいずれか一つにかかる発明において、前記第2の領域抽出手段は、前記第1の領域抽出手段により抽出された前記文書領域に対して、異なる行方向の文字列が含まれている文書領域を行方向が異なる文字列毎に文書領域の分割、文字サイズが大きい文字を含む文書領域同士の結合、前記文書領域の読み順に従って文書領域同士の結合のうち少なくとも1つ以上を行うことで、文書領域を抽出すること、を特徴とする。
また、請求項12にかかる発明は、文書画像データを、それ以上拡張すると内部に黒画 素を含んでしまう極大白矩形の系列をセパレータとして用いて、文字を含む文書領域毎に分割して抽出する第1の領域抽出ステップと、前記文書画像データで用いられた言語の種別を判定する種別判定ステップと、前記第1の領域抽出ステップにより抽出された前記文書領域に対して、前記種別判定ステップにより判定された言語の種別の書字方向に応じた規則に基づいて分割又は結合して文書領域を抽出する第2の領域抽出ステップと、を備えたことを特徴とする。
また、請求項13にかかる発明は、請求項12にかかる発明において、前記種別判定ステップにより判定された前記言語の種別により、前記第1の領域抽出ステップにより抽出された前記文書領域から、さらに抽出を行うか否か判定する抽出判定ステップと、をさらに備え、前記第2の領域抽出ステップは、前記抽出判定ステップにより抽出すると判定された場合に、前記種別判定ステップにより判定された言語の種別の書字方向に応じた規則に基づいて分割又は結合して文書領域を抽出すること、を特徴とする。
また、請求項14にかかる発明は、請求項13にかかる発明において、前記第1の領域抽出ステップにより抽出された前記文書領域の属性を判定する属性判定ステップと、をさらに備え、前記第2の領域抽出ステップは、前記第1の領域抽出ステップにより抽出された前記文書領域に対して、前記種別判定ステップにより判定された前記言語の種別の書字 方向、及び前記属性判定ステップにより判定された前記属性に応じた規則に基づいて分割又は結合して文書領域を抽出すること、を特徴とする。
また、請求項15にかかる発明は、請求項14にかかる発明において、前記種別判定ステップにより判定された前記言語の種別及び前記属性判定ステップにより判定された前記属性により、前記第1の領域抽出ステップにより抽出された前記文書領域から、さらに抽出を行うか否か判定する抽出判定ステップと、をさらに備え、前記第2の抽出ステップは、前記抽出判定ステップにより抽出すると判定された場合に、前記第1の領域抽出ステップにより抽出された前記文書領域に対して、前記種別判定ステップにより判定された前記言語の種別の書字方向、及び前記属性判定ステップにより判定された前記属性に応じた規則に基づいて分割又は結合して文書領域を抽出すること、を特徴とする。
また、請求項16にかかる発明は、請求項13にかかる発明において、前記種別判定ステップは、前記文書画像データ全体から言語の種別を判定し、前記抽出判定ステップは、前記種別判定ステップにより判定された前記言語の種別により、前記第1の領域抽出ステップにより抽出された前記文書領域に対して、さらに出を行うか否か判定すること、を特徴とする。
また、請求項17にかかる発明は、請求項13又は15にかかる発明において、前記種別判定ステップは、前記文書画像データの、前記第1の領域抽出ステップにより抽出された前記文書領域毎に言語の種別を判定し、前記抽出判定ステップは、前記第1の領域抽出ステップにより抽出された前記文書領域毎に、前記種別判定ステップにより判定された前記言語の種別により、さらに抽出するか否か判定すること、を特徴とする。
また、請求項18にかかる発明は、請求項12乃至17のいずれか一つにかかる発明において、前記第2の領域抽出ステップにより抽出された前記文書領域に対して、文書画像データを使用するアプリケーション又はタスクに応じた規則により分割又は結合にして文書領域を抽出する第3の領域抽出ステップと、を、さらに備えたことを特徴とする。
また、請求項19にかかる発明は、請求項18にかかる発明において、前記文書画像データを使用するアプリケーション又はタスクに適した抽出を行うか否か判定する第2の抽出判定ステップと、前記第3の領域抽出ステップは、前記第2の抽出判定ステップにより抽出すると判定された場合に、前記第2の領域抽出ステップにより抽出された前記文書領域に対して、前記アプリケーション又はタスクに応じた規則により分割又は結合にして文書領域を抽出すること、を特徴とする。
また、請求項20にかかる発明は、請求項14にかかる発明において、前記属性判定ステップは、前記文書画像データの属性として、前記第1の領域抽出ステップにより抽出された前記文書領域内に含まれている文字の方向及び文字サイズのうち少なくとも1つ以上を判定すること、を特徴とする。
また、請求項21にかかる発明は、請求項14にかかる発明において、前記第2の領域抽出ステップは、言語の種別と属性と、当該言語の種別の書字方向及び当該属性に応じた抽出の規則とを対応付けた、記憶手段に記憶された抽出規則対応情報から、前記種別判定ステップにより判定された前記言語の種別と、前記属性判定ステップにより判定された前記属性と対応付けられた、前記規則に基づいて、前記第1の領域抽出ステップにより抽出された前記文書領域に対して分割又は結合して、文書領域を抽出すること、を特徴とする。
また、請求項22にかかる発明は、請求項12乃至21のいずれか一つにかかる発明において、前記第2の領域抽出ステップは、前記第1の領域抽出ステップにより抽出された前記文書領域に対して、異なる行方向の文字列が含まれている文書領域を行方向が異なる文字列毎に文書領域の分割、文字サイズが大きい文字を含む文書領域同士の結合、前記文書領域の読み順に従って文書領域同士の結合のうち少なくとも1つ以上を行うことで、文書領域を抽出すること、を特徴とする。
また、請求項23にかかる発明は、請求項12乃至22のいずれか一つにかかる発明をコンピュータで実行させることを特徴とする。
請求項1にかかる発明によれば、言語の種別に非依存の極大白矩形の系列によるページ セグメンテーションで文書領域を抽出した後に、言語の種別の書字方向に応じた規則で分割又は結合して文書領域を抽出するので、レイアウト解析処理の高効率化を図りつつ、言語固有のレイアウトに対応した固有の領域分割により高精度化を実現するという効果を奏する。
また、請求項2にかかる発明によれば、言語の種別に応じた抽出処理を必要な場合に限り行うことを可能としたため、抽出処理による負荷を軽減できるという効果を奏する。
また、請求項3にかかる発明によれば、言語の種別に加えて、文書領域の属性に応じた規則に基づいて分割又は結合して文書領域を抽出するので、より高精度に文書領域を抽出することができるという効果を奏する。
また、請求項4にかかる発明によれば、言語の種別の書字方向及び属性に応じた抽出処理を必要な場合に限り行うことを可能としたため、抽出処理による負荷を軽減できるという効果を奏する。
また、請求項5にかかる発明によれば、文書画像データ全体から言語の種別を判断するので、多くの情報に基づいて言語の種別を判断できるので、高精度で言語の種別を判断できるという効果を奏する。
また、請求項6にかかる発明によれば、文書領域毎に言語の種別を判断するので、文書領域毎に異なる言語の文字の場合に文書領域毎に適切な抽出を行うことで、より高精度に文字領域を抽出できるという効果を奏する。
また、請求項7にかかる発明によれば、文書画像データを使用するアプリケーション又 はタスクに応じた規則で文書領域を抽出できるので、アプリケーション又はタスクに応じて適切な文書領域を抽出できるという効果を奏する。
また、請求項8にかかる発明によれば、文書画像データを使用するアプリケーション又 はタスクに応じた抽出処理を必要な場合に限り行うことを可能としたため、抽出処理による負荷を軽減できるという効果を奏する。
また、請求項9にかかる発明によれば、文字の方向及び文字サイズのうち少なくとも1つ以上により判定することで、これらの属性に応じて適切に文書領域を抽出できるという効果を奏する。
また、請求項10にかかる発明によれば、言語の種別と、属性と、当該言語の種別の書 字方向及び当該属性に応じた抽出の規則との対応付けを記憶し、この対応付けにより処理に用いる抽出する規則を決定するため、より適切な抽出処理を可能とするという効果を奏する。
また、請求項11にかかる発明によれば、異なる行方向の文字列が含まれている文書領域を行方向が異なる文字列毎に文書領域の分割、文字サイズが大きい文字を含む文書領域同士の結合、前記文書領域の読み順に従って文書領域同士の結合により、文書領域の抽出を行うので、より適切な文書領域の抽出を実現できるという効果を奏する。
また、請求項12にかかる発明によれば、言語の種別に非依存の極大白矩形の系列によ るページセグメンテーションで文書領域を抽出した後に、言語の種別の書字方向に応じた規則で分割又は結合して文書領域を抽出するので、レイアウト解析処理の高効率化を図りつつ、言語固有のレイアウトに対応した固有の領域分割により高精度化を実現するという効果を奏する。
また、請求項13にかかる発明によれば、言語の種別に応じた抽出処理を必要な場合に限り行うことを可能としたため、抽出処理による負荷を軽減できるという効果を奏する。
また、請求項14にかかる発明によれば、言語の種別に加えて、文書領域の属性に応じた規則に基づいて分割又は結合して文書領域を抽出するので、より高精度に文書領域を抽出することができるという効果を奏する。
また、請求項15にかかる発明によれば、言語の種別の書字方向及び属性に応じた抽出処理を必要な場合に限り行うことを可能としたため、抽出処理による負荷を軽減できるという効果を奏する。
また、請求項16にかかる発明によれば、文書画像データ全体から言語の種別を判断するので、多くの情報に基づいて言語の種別を判断できるので、高精度で言語の種別を判断できるという効果を奏する。
また、請求項17にかかる発明によれば、文書領域毎に言語の種別を判断するので、文書領域毎に異なる言語の文字の場合に文書領域毎に適切な抽出を行うことで、より高精度に文字領域を抽出できるという効果を奏する。
また、請求項18にかかる発明によれば、文書画像データを使用するアプリケーション 又はタスクに応じた規則で文書領域を抽出できるので、アプリケーション又はタスクに応じて適切な文書領域を抽出できるという効果を奏する。
また、請求項19にかかる発明によれば、文書画像データを使用するアプリケーション 又はタスクに応じた抽出処理を必要な場合に限り行うことを可能としたため、抽出処理による負荷を軽減できるという効果を奏する。
また、請求項20にかかる発明によれば、文字の方向及び文字サイズのうち少なくとも1つ以上により判定することで、これらの属性に応じて適切に文書領域を抽出できるという効果を奏する。
また、請求項21にかかる発明によれば、言語の種別と、属性と、当該言語の種別の書 字方向及び当該属性に応じた抽出の規則との対応付けを記憶し、この対応付けにより処理に用いる抽出する規則を決定するため、より適切な抽出処理を可能とするという効果を奏する。
また、請求項22にかかる発明によれば、異なる行方向の文字列が含まれている文書領域を行方向が異なる文字列毎に文書領域の分割、文字サイズが大きい文字を含む文書領域同士の結合、前記文書領域の読み順に従って文書領域同士の結合により、文書領域の抽出を行うので、より適切な文書領域の抽出を実現できるという効果を奏する。
また、請求項23にかかる発明によれば、コンピュータに読み取らせて実行することによって、請求項12乃至22のいずれか一つに記載された画像処理方法をコンピュータの利用で実現することができ、これら各画像処理方法と同様の効果を奏する。
以下に添付図面を参照して、この発明にかかる画像処理装置、画像処理方法及び画像処理プログラムの最良な実施の形態を詳細に説明する。
(第1の実施の形態)
図1は、本発明の第1の実施の形態にかかる画像処理装置の構成を示すブロック図である。本図に示すように画像処理装置100の内部は、画像入力処理部101と、第1の領域抽出部102と、言語種別判定部103と、属性判定部104と、抽出判断部105と、第2の領域抽出部106と、記憶部107を備え、入力処理された画像データに対してレイアウト解析処理して、文字列を含む領域を抽出する処理を行う。
記憶部107は、データベースを保持している。また、記憶部107は、当該データベース内で抽出規則対応テーブルを格納している。また、記憶部107は、記憶手段であり、例えばHDD、光ディスク、メモリカードなどの一般的に用いられるあらゆる記憶手段で構成することができる。
図2は、抽出規則対応テーブルの構造を示した図である。本図に示すように、抽出規則対応テーブルは、言語の種別と、行方向と、文字サイズと、領域抽出部とを対応付けて保持している。また、領域抽出部とは、後述する第2の領域抽出部106に含まれた構成をいう。これら第2の領域抽出部106に含まれた構成は、所定の規則に基づいて画像データに含まれる領域の分割又は結合して、文字列を含む領域を抽出する。つまり、抽出規則対応テーブルは、第2の領域抽出部106で実行可能な処理を、言語種別、属性(行方向、文字サイズ)と対応付けて保持している。なお、具体的な抽出規則対応テーブルの利用方法については後述する。
画像入力処理部101は、画像データの入力処理を行う。本実施の形態の画像入力処理部101は、画像データを入力処理する際に、2値化を施して、2値画像データを生成する。また、画像入力処理部101は、あらゆる画像データを入力処理の対象とすることができる。例えば、画像入力処理部101は、図示しない画像処理装置100に接続された画像データを入力処理しても良いし、他の装置からネットワークを介して受信した画像データを入力処理しても良い。
つまり、入力処理対象となる画像データはモノクロに制限するものではなく、カラー画像やグレイ画像でもよい。そして、カラー画像やグレイ画像の場合には、上述したように2値化などによる前処理を施す。そして、2値化して入力処理が行われた画像データは、一般性を失うことなく、スキュー補正され、文字が黒画素として表されているとする。
図3は、画像入力処理部101が入力処理した2値画像データの例を示した図である。なお、本図においては、文字部分は塗り潰している。本図に示した2値画像データのように、文字列を含んでいる画像データが、本実施の形態に係る画像処理装置100により領域毎に抽出する対象となる(以下、このような文字列を含んだ画像データを文書画像データという)。
第1の領域抽出部102は、白矩形抽出部111と、白矩形分割部112とを備え、画像入力処理部101により入力処理された文書画像データに対して、コラムなどの所定の文字列のまとまり毎に分割して、領域を抽出する(以下、このような領域を文書領域という)。また、第1の領域抽出部102は、言語の種別によらず、文書画像データを分割して文書領域を抽出する技術であれば、どの様な領域抽出の手順を用いても良い。例えば、領域抽出の方法として、背景解析に属する方法を用いても良い。なお、本実施の形態においては、第1の領域抽出部102は、「極大白矩形系列によるページセグメンテーション」を施して分割を行った後に文書領域を抽出する。
白矩形抽出部111は、文書画像データ又は、後述する白矩形分割部112で分割された文書領域から、極大白矩形系列を抽出する。
図4は、極大白矩形の例を示す説明図である。本図で示した黒い矩形は、2値文書画像黒連結成分をちょうど囲む矩形領域である。そして、これらの矩形領域とそれ以上拡張すると重なり合ってしまう最大白矩形が、本図の網掛けで示す矩形である。
白矩形分割部112は、白矩形抽出部111により抽出された極大白矩形系列をセパレータとして、その極大白矩形系列を含む文書画像データ又は文書領域を、さらにいくつかの文書領域に分離する。このように、白矩形抽出部111及び白矩形分割部112の処理を繰り返して行うことで、文書画像データが分割され、文書領域が抽出されることになる。
図5は、極大白矩形系列によるページセグメンテーションを用いたレイアウト解析処理の基本的アプローチを概略的に示した説明図である。本図に示すように、極大白矩形系列によるページセグメンテーションで、文書画像データの祖から密への再帰的分割による階層的処理を行う。これにより、処理の効率化を図ることが可能となった。
極大白矩形系列によるページセグメンテーションの概略について説明する。まず、白矩形抽出部111は、文書画像データ全体に対して極大白矩形系列抽出の終了条件の下限値を大きく設定して、粗いスケールで処理する。これにより、白矩形系列が抽出される。そして、白矩形分割部112は、抽出された白矩形系列をセパレータとして、文書画像データ全体をいくつかの文書領域に分割する。
次に、白矩形抽出部111は、分割された各文書領域について極大白矩形系列抽出の終了条件の下限値を前よりも小さく設定して、再び極大白矩形系列抽出を行う。そして、白矩形分割部112は、抽出された極大白矩形系列を用いて、より細かな分割を行う。このような処理を再帰的に繰り返す。なお、階層的処理における極大白矩形系列抽出の終了条件である下限値は、文書領域のサイズなどに応じて設定するようにすれば良い。また、極大白矩形系列抽出の終了条件である下限値の他に、白矩形として望ましい形やサイズに関する拘束条件を導入するようにしても良い。例えば、文書領域のセパレータとして適当でない形をした白矩形を除外する等である。このように文書領域のセパレータとして適当でない形をした白矩形を除外するのは、長さが短いものや幅が狭すぎるものは、文字の間の隙間である可能性が高いからである。このような長さや幅について拘束条件は、文書領域内で推定される文字のサイズに応じて決めることができる。なお、極大白矩形系列によるページセグメンテーションによる詳細な手順については後述する。
このように、第1の領域抽出部102が、極大白矩形系列の抽出と、文書領域の分割を再帰的に繰り返すことで、文書領域の抽出処理として祖から密へと再帰分離による階層的処理が行われるため、レイアウト解析処理の高効率化を図ることができる。
言語種別判定部103は、文書画像データ全体についての言語種別を判定する。言語の種別の判定手順としては、例えば自動またはユーザによる入力を問わず、どのような手順を用いても良い。なお、本実施の形態の言語種別判定部103は、自動で言語の種別を判別する。また、自動で言語の種別する技術としては、どのような技術を用いても良い。また、言語種別判定部103は、特開2005−063419号公報に記載された公知技術を用いて行う。
次に、言語種別を判定する必要性について説明する。図6は、本実施の形態に係る第1の領域抽出部102から領域を抽出した結果の例を示した図である。本図で示した文書領域501の楕円で囲んだ部分では、縦書きの段落と横書きの段落の隙間が狭いために,2つの行方向が異なる文書領域が融合している。このような現象は、日本語のように縦書きと横書きが混在する文書画像に固有であり,ヨーロッパ系の横書き文書では生じない。また、このような問題を解決するために、例外処理を組み込んでも良いが、思わぬ副作用が発生する可能性を否定できない。つまり、言語の種別毎に固有の複雑なレイアウトに対応するために、言語の種別に特化した具体的な処理が必要となる。そこで、本実施の形態においては、言語種別判定部103で言語の種別の判定を行うこととした。
また、言語種別判定部103は、文書画像データ全体から言語の種別を判断するので、多くの文字情報に基づいて言語の種別を判断できる。これにより、高精度で言語の種別を判断できる。
属性判定部104は、第1の領域抽出部102により抽出された文書領域毎に、属性を判定する。また、判定する対象となる属性はどのような属性でも良いが、本実施の形態においては属性として文字行の方向、文字サイズとする。また、文字行の方向又は文字サイズを判定する技術は、公知の技術を問わず、どのような技術を用いても良い。なお、本実施の形態の属性判定部104は、文字行の方向の判定として、公知の技術である特許第3220226号又は特開2000−113103号公報に記載された技術を用いることとする。
図7は、本実施の形態に係る属性判定部104が、領域分割された文書画像データに対して文字行の方向の判定を行った結果の例を示した図である。本図に示した文字行の方向の判定の対象となった文書画像データは、図6で示した文書画像データと同様のものとする。また、図示しないが、属性判定部104は、文字行の方向と同様に文字サイズについても、抽出された文書領域毎に判定を行う。
抽出判断部105は、言語の種別及び抽出された各文書領域の属性により、各文書領域に対してさらに抽出処理を行うか否か判断する。また、本実施の形態の抽出判断部105による抽出するか否かの判断は、言語種別判定部103により判定された言語の種別と、属性判定部104により判定された文字行の方向及び文字サイズをキーとして、記憶部107に記憶されている抽出規則対応テーブルに対して検索を行い、一致するレコードがあるか否かによるものとする。そして、抽出判断部105は、一致するレコードが存在した場合に抽出処理を行うと判断する。また、抽出判断部105が、検索で一致するレコードの数は1つに制限するものではなく、複数存在しても良い。この場合、後述する第2の領域抽出部106で、複数の処理が行われる。
抽出判断部105が抽出するか否か判断することで、言語の種別及び属性に応じた抽出処理を必要な場合に限り行うこととしたため、抽出処理による負荷を軽減できる。
また、抽出判断部105の判断例としては、言語が日本語で、その文書領域の文字方向が「縦」で、文字サイズが所定のサイズより小さい場合は、抽出規則対応テーブルで抽出判断部105が‘日本語縦用修正部’のレコードが検索される。これにより、後述する第2の領域抽出部106の日本語縦用修正部が、この文書領域に対して抽出処理を行う。このように、各文書領域を抽出するか否かの判断は、抽出規則対応テーブルで該当するレコードがある場合に、第2の領域抽出部106で抽出処理を行い、それ以外は領域抽出を行わないとする。なお、本実施の形態は、このような抽出規則対応テーブルを用いて抽出するか否かを判断するものに制限するものではなく、抽出するか否かの判断基準としてどのような基準を設けても良い。
なお、本実施の形態においては、言語の種別及び抽出された文書領域の属性から抽出処理を行うか否か判断したが、言語の種別及び抽出された文書領域の属性のうち少なくとも1つ以上を用いて抽出処理を行うか否か判断を行うものであればよい。また、他の例としては、言語の種別のみで抽出するか否か判断する場合、領域毎に抽出するか否か判断するのではなく、文書画像データ全体に対して抽出するか否かを判断しても良い。
第2の領域抽出部106は、後処理修正部121と、大文字修正部122と、読み順修正部123とを備え、抽出判断部105で抽出すると判断された文書領域に対して、言語の種別及び属性に応じた分割又は結合を行い、文書領域を抽出する。
図8は、第2の領域抽出部106の構成を示すブロック図である。本図に示すように、第2の領域抽出部106では、後処理修正部121、大文字修正部122及び読み順修正部123の順に処理を行う。そして、後処理修正部121、大文字修正部122及び読み順修正部123のそれぞれに含まれる構成のうち、上述した抽出判断部105で一致したレコードの‘領域抽出部’フィールドで保持していた構成が、処理を行う。
抽出判断部105が、言語の種別が‘日本語’であり、行方向が‘縦方向’であり、文字サイズが所定の文字サイズより‘小’さいと判定された文書領域を、抽出するか否か判断する場合について説明する。この場合、抽出判断部105は、図2で示した抽出規則対応テーブルから、領域抽出部が‘日本語縦用修正部’のレコードを検索する。これにより、抽出判断部105は、第2の領域抽出部106で、抽出すると判断する。そして、第2の領域抽出部106において、検索されたレコードが保持していた構成である日本語縦用修正部701aが、当該文書領域に対して分割又は結合し、領域を抽出する。
後処理修正部121は、日本語縦用修正部701aと、日本語横用修正部701bと、ヨーロッパ系言語用修正部701c等の、第1の領域抽出部102で抽出処理を行った後に必要な修正処理を行う構成を備えている。
また、日本語縦用修正部701aと、日本語横用修正部701bと、ヨーロッパ系言語用修正部701c等の、第1の領域抽出部102で抽出処理を行った後に必要な修正処理を行う構成は、言語毎に必要な修正処理として周知の処理を問わず、どのような処理を行っても良い。
また、後処理修正部121は、言語の種別、属性に応じて、第1の領域抽出部102で抽出処理した後に必要な処理を行う。例えば、言語の種別が‘日本語’であり、行方向が‘縦’と判定された文書領域では、図6の文書領域501のように、行方向が‘横’の文字列が含まれている場合もある。逆に、行方向が‘横’と判定された文書領域に、行方向が‘縦’の文字列が含まれている場合もある。このような文書領域に対して、後処理修正部121に含まれている構成が、領域の分割を行うので、より適切に文書領域を抽出することができる。
図9は、日本語縦用修正部701aで領域抽出の対象となる文書領域の例を示した図である。本図で示した文書領域は、図6の文書領域501の実際の文字列を示したものである。つまり、第1の領域抽出部102が抽出した文書領域では、縦の文字列に横の文字列が含まれている。そして、日本語縦用修正部701aは、行方向が縦と判定された文書領域において、縦方向の射影を取り、射影値が連続して‘0’でない区間に対して所定の要件を満たした場合に再抽出を行う。これにより、行方向が縦の文書領域に横の文書領域が含まれている場合に抽出を行うことができる。なお、詳細な処理手順については後述する。
図10は、日本語縦用修正部701a等の後処理修正部121で、各文書領域に対して抽出処理を行った結果を示した図である。本図に示すように、日本語縦用修正部701aは、行方向が縦の文書領域901と、行方向が横の文書領域902及び文書領域903とを、抽出することを可能とする。
また、図10の楕円で囲んだ部分は,図6で示した「極大白矩形系列によるページセグメンテーション」による領域抽出では、縦書きの段落と横書きの段落の隙間が狭いため、2つの異なる行方向の文書領域が抽出されずに、1つの文書領域とされた。しかしながら、日本語縦用修正部701aに代表される後処理修正部121で行われる言語依存の後処理により、行方向の異なる文書領域の抽出を可能とした。
大文字修正部122は、日本語用大文字修正部702aと、ヨーロッパ系言語用大文字修正部702b等の、言語毎に文字サイズが大きい場合に必要な処理を行う構成を備えている。
また、大文字修正部122では、所定の文字サイズより大きい文字を含む文書領域について、文書領域の範囲の修正を行う。
このような、文書領域の範囲の修正を行う必要性について説明する。例えば、文書の見出し等には大きな文字が使われることがある。これらの大きな文字は、段落やコラムを構成する文字群と違い、言語の種別に依存する規則を用いずに、適切に文書領域を抽出することは困難である。この理由としては、例えば、見出しは少数の文字から構成されることが多いので文字サイズや文字間隔などを統計的に推定するのが難しいこと、見出しに用いられる文字は図や写真と混同を生じやすいこと、また言語の種別に応じて文字の構成や文字列の並び方が異なること、が挙げられる。
図11は、文字サイズが大きい文字を含む文書画像データを、第1の領域抽出部102が抽出した場合の例を示した図である。本図に示すように、文字サイズが大きい文字の見出しでは、見出しとして文書領域が抽出されるのではなく、文字毎に文書領域が抽出されることがある。
そして、大文字修正部122に含まれる日本語用大文字修正部702a等の言語毎に備えられた各構成が、文字サイズが大きい文字を含む文書領域を、適切な文書領域の範囲に修正する。このような構成を備えたことで、言語毎に定められた適切な規則により、大きい文字を含む文書領域の範囲を修正することができる。なお、文書領域を修正する際の手順については後述する。
また、大文字修正部122は、文字サイズが大きいために1つの文字が複数の構成要素(例えば漢字一文字の偏と旁)毎に領域として抽出された場合でも、これら構成要素を結合して適切な文字を含む文書領域を生成する。この構成要素を結合する手段としては、周知の結合手段を問わず、どのような手段を用いても良い。
また、ヨーロッパ系言語大文字修正部702c等の修正処理を行う構成においては、言語毎に必要な修正処理として周知の処理を問わず、どのような処理を行っても良い。これにより、ヨーロッパ系言語大文字修正部702c等は、文字間隔が大きいために文字毎に分割された文書領域に対しても、1つのまとまりになるように結合等を行い、適切な文書領域を抽出できる。
図12は、大文字修正部122が、文書領域を結合し、文書領域を再抽出した結果の例を示した図である。本図で示した結果の例は、図11で示した文書画像データに対して処理を行ったものである。本図に示すように、1つの文字が複数の文書領域に分割されていたのが結合された上で、見出しなどの文字サイズの大きな文書領域が結合され、1つの文書領域として抽出されているのが確認できる。
読み順修正部123は、日本語用読み順修正部703aと、ヨーロッパ系言語用読み順修正部703b等の、言語毎に読み順に基づいて必要な処理を行う構成を備えている。
また、読み順修正部123に含まれる言語毎の各構成は、言語毎に定められた読み順に基づいて、文書領域を結合又は分割して、文書領域を抽出する。例えば、日本語読み順修正部703aは、行間隔が空いているために分割された複数の文書領域であっても、当該複数の文書領域の読み順を判断して、繋がっていると判断された場合、これら複数の文書領域を結合し、文書領域を抽出する。このように、読み順修正部123に含まれる言語毎の各構成は、読み順に従って分割又は結合して、適切な文書領域を抽出することができる。なお、読み順修正部123に含まれる各構成が行う読み順を判断する処理は、公知の処理を問わずどの様な処理を用いても良い。
このように、第1の領域抽出部102による言語・タスクに依存しない文書領域の抽出の後で、言語種別判定部103で文書画像の言語の種別を判定し、属性判定部104で属性を判定した後、言語の種別と各々の文書領域の属性に固有の後処理又は修正を行うことを可能とした。これにより、画像処理装置100は、言語の種別と、文書領域毎の属性に基づいて分割又は結合して、領域を抽出することで、固有の複雑なレイアウトに対応した領域抽出を行うことを可能にした。これにより、文書画像データに対するレイアウト解析処理の高効率化と高精度化を図ることができる。
次に、以上のように構成された本実施の形態にかかる画像処理装置100における文書画像データの入力処理から文書画像データの文書領域の抽出までの処理について説明する。図13は、本実施の形態にかかる画像処理装置100における上述した処理の手順を示すフローチャートである。
まず、画像入力処理部101は、文書画像データを入力処理すると共に、入力処理する文書画像データの2値化処理を施す(ステップS1101)。
次に、第1の領域抽出部102は、入力処理された文書画像データに対して、「極大白矩形系列によるページセグメンテーション」で分割し、文書領域毎に抽出する(ステップS1102)。
そして、言語種別判定部103は、入力処理された文書画像データ全体から言語の種別を判定する(ステップS1103)。
次に、属性判定部104は、抽出された文書領域毎に属性(文字行の方向又は文字サイズ)を判定する(ステップS1104)。
そして、抽出判断部105は、言語種別判定部103により判定された言語種別、及び属性判定部104により判定された文書領域の属性により、当該文書領域を抽出するか否か判断する(ステップS1105)。なお、抽出判断部105が、抽出するか否か判断する際に、記憶部107に記憶されている抽出規則対応テーブルを用いる。また、抽出判断部105が抽出しないと判断した場合(ステップS1105:No)、第2の領域抽出部106による抽出処理は行わない。
そして、抽出判断部105が抽出すると判断した場合(ステップS1105:Yes)、第2の領域抽出部106は、当該文書領域に対して分割又は結合し、文書領域の再抽出を行う(ステップS1106)。また、第2の領域抽出部106では、後処理修正部121、大文字修正部122、読み順修正部123の順に処理を行う。
そして、抽出判断部105は、ステップS1104による属性の判定が全ての文書領域に対して行われたか否か判断する(ステップS1107)。そして、抽出判断部105は、全ての文書領域については終了していないと判断した場合(ステップS1107:No)、抽出判断部105は、判定していない文書領域についての属性の判定から開始する(ステップS1104)。
また、抽出判断部105が、全ての文書領域について終了したと判断した場合(ステップS1107:Yes)、処理を終了する。
上述した処理手順により、文書画像データを適切な文書領域に抽出することを可能にすると共に、文書画像データに対するレイアウト解析処理の高効率化することが可能となる。なお、上述した処理手順は、本実施の形態による文書画像データの入力処理から文書画像データの文書領域の抽出までの処理手順の例を示したものであり、本発明をこの処理手順に制限するものではない。
次に、本実施の形態にかかる第1の領域抽出部102における文書画像データの抽出処理について説明する。図14は、本実施の形態にかかる領域抽出部102における上述した処理の手順を示すフローチャートである。
まず、白矩形抽出部111は、2値化された文書画データの黒連結成分をちょうど囲むような矩形領域の集合C=[r0,r1,・・・,rn](ri⊂rb;i=0,1,・・・,n)を求め、この集合Cをアルゴリズムへ入力する(ステップS1201)。図4は、矩形領域の集合の一例を示す説明図である。
次に、白矩形抽出部111は、文書画像データ全体に対して、極大白矩形系列を抽出する(ステップS1202)。極大白矩形系列の抽出は、白矩形rの評価関数Q(r)を白矩形rの面積とし、処理している文書領域のサイズに応じて決まる下限値tについて、Q(r)≧tを満たすような極大白矩形をQ(r)の値が大きい順に数え上げる。これには、前述した非特許文献2に記載の方法を使えば良い。また、下限値tは、例えばwとhを処理している文書領域のそれぞれ幅と高さ、aを定数として、
t=a・min(w,h)
とすれば良い。さらに、文書領域のセパレータとしての適当でない形をした白矩形、例えば、長さが短いものや幅が狭すぎるものは、文字の間の隙間である可能性が高いので、そのような白矩形を除外するための拘束条件を設定する。これには、文書領域内にある黒矩形の大きさの分布から文字のサイズsを推定し、例えば、bを定数として、幅も高さもb・sより小さいような極大白矩形を、数え上げの際に除外するようにすれば良い。
そして、白矩形分割部112は、抽出された白矩形系列をセパレータとして文書画像データ全体をいくつかの文書領域に分割し、さらに白矩形抽出部111が白矩形系列により分割された文書領域を抽出し(ステップS1203)、抽出された各文書領域をスタックに積む(ステップS1204)。ここで、スタックは、最後に入力したデータが先に出力されるデータ構造である。図6は、図3の矩形領域の集合について文書画像データ全体で抽出された極大白矩形系列により分割し、抽出された文書領域を示す説明図である。
次に、白矩形抽出部111は、スタックが空であるか否かを判断する(ステップS1205)。
そして、白矩形抽出部111は、スタックが空でなければ(ステップS1205:No)、スタックの最上部に積まれている文書領域を取り出し(ステップS1206)、その文書領域に対応する2値文書画像内で極大白矩形系列を抽出する(ステップS1207)。
次に、白矩形分割部112は、抽出された白矩形系列をセパレータとして、その文書領域をいくつかの文書領域に分割し、さらに白矩形抽出部111が白矩形系列により分割された文書領域を抽出した後(ステップS1208)、ステップS1205に進む。つまり、スタックが空でない限り、ステップS1206〜S1208の処理が繰り返されることになる。
一方、白矩形抽出部111はスタックが空であると判断した場合には(ステップS1205:Yes)、第1の領域抽出部102が、文書画像データの領域抽出結果を出力して(ステップS1209)、処理を終了する。
以上のように本実施の形態においては、スタックを利用することで、文書領域が「深さ優先」の順序に従い、評価関数Q(r)の下限値を決めながら祖から密へ階層的に分割が行うことを可能とする。なお、スタックは、画像処理装置100が備えたRAM等に備えられているものとする。
上述した処理手順により、行方向が混在した文書領域を適切な行方向の文書領域に抽出することを可能にする。なお、上述した処理手順は、本実施の形態による第1の領域抽出部102で抽出された文書領域に対して再抽出するまでの処理手順の例を示したものであり、本発明をこの処理手順に制限するものではない。
上述したフローチャートでは、第1の領域抽出部102による領域抽出処理について説明したが、これに限るものではなく、ステップS1209での領域抽出結果に基づいて再度ステップS1201から再度領域抽出処理して、祖から密への再帰的分割による階層的処理が実行されることになる。
以上が、第1の領域抽出部102による抽出処理の説明である。これにより、言語に依存せず(多くの言語でも白地が区切りとして使われる)、また、行方向(横書き/縦書き)についての知識を必要とせず、大局的な処理なので、局所的な判断間違いが累積する可能性が少なく、複雑なレイアウトにも、柔軟に対応できるような文書画像領域抽出を行なうことができる。
次に、第2の領域抽出部106の後処理修正部121で、文書領域をさらに抽出する場合の処理手順について説明する。後述する処理手順は、言語の種別が‘日本語’と、当該文書領域の行方向が‘縦’と判定された場合とする。この場合において、抽出判断部105は、抽出規則対応テーブルにより、修正する構成として日本語縦用修正部701aを選択する。
そして、日本語縦用修正部701aは、当該文書領域に対して再抽出を行う。図15は、本実施の形態にかかる日本語縦用修正部701aにおける上述した処理の手順を示すフローチャートである。
まず、日本語縦用修正部701aは、当該文書領域に対して、縦方向に射影をとる(ステップS1401)。図16−1は、日本語縦用修正部701aが、文書領域に対して縦方向の射影をとった例を示している。
次に、日本語縦用修正部701aは、射影値が連続して‘0’でない区間の幅の統計(例えば,モード)から文字幅sを推定する(ステップS1402)。
そして、日本語縦用修正部701aは、射影値が連続して‘0’でない区間の最大幅wを算出する(ステップS1403)。なお、図16−1に示した例では、符号1501で示した文書領域が、射影値が連続して‘0’でない区間の最大幅wをとる。
次に、日本語縦用修正部701aは、算出されたwがc・s(cは定数,例えば,10)より大きいか否か判断する(ステップS1404)。そして、算出されたwがc・sより小さいと判断した場合(ステップS1404:No)、特に処理を行わずに終了する。つまり、日本語縦用修正部701aは、wが、文字幅を基準とした所定の幅より大きければ行が横方向の文書領域が含まれていると判断する。
また、日本語縦用修正部701aは、wがc・sより大きいと判断した場合(ステップS1404:Yes)、当該wに対応する両端の部分で、文書領域を横方向に分断する(ステップS1405)。図16―2は、日本語縦用修正部701aが横方向に分割した後の文書領域を示した説明図である。
そして、日本語縦用修正部701aは、分断された文書領域内で横方向に射影をとる(ステップS1406)。次に、日本語縦用修正部701aは、射影値が連続して0であるような区間のそれぞれについて、その幅を算出する(ステップS1407)。
次に、日本語縦用修正部701aは、算出した幅がd・s(dは定数,例えば,0.7)より大きいか否か判断する(ステップS1408)。そして、日本語縦用修正部701aは幅が小さいと判断した場合(ステップS1408:No)、特に処理を行わずに終了する。
そして、日本語縦用修正部701aは、幅が大きいと判断した場合(ステップS1408:Yes)、当該文書領域の幅の部分でさらに縦に分割する(ステップS1409)。図16―3は、日本語縦用修正部701aがさらに縦方向に分割した後の文書領域を示した説明図である。
上述した処理手順により、行方向が混在した文書領域を適切な行方向の文書領域に抽出することを可能にする。なお、上述した処理手順は、本実施の形態による第1の領域抽出部102で抽出された文書領域に対して再抽出するまでの処理手順の例を示したものであり、本発明をこの処理手順に制限するものではない。
次に、第2の領域抽出部106の大文字修正部122で、文書領域を文字サイズに応じて結合し、領域を抽出する処理手順について説明する。後述する処理手順は、言語の種別が‘日本語’と、当該文書領域の行方向は判定されず、当該文書領域の文字サイズが‘大’と判定された場合とする。この場合において、抽出判断部105は、抽出規則対応テーブルにより、修正する構成として日本語用大文字修正部702aを選択する。
そして、日本語用大文字修正部702aは、文字サイズが大きい文書領域の結合処理を行う。図17は、本実施の形態にかかる日本語用大文字修正部702aにおける上述した処理の手順を示すフローチャートである。
まず、日本語用大文字修正部702aは、当該処理の対象となる文書領域に近接する文書領域があるか探索する(ステップS1601)。
そして、日本語用大文字修正部702aは、探索によりチェックしていない文書領域を発見したか否か判断する(ステップS1602)。
また、日本語用大文字修正部702aはチェックしていない文書領域を発見した場合(ステップS1602:Yes)、発見した文書領域に含まれている文字の文字サイズが大きく、処理の対象となる文書領域に含まれている文字とほほ同じサイズであるか否か判断する(ステップS1603)。そして、日本語用大文字修正部702aは、両文書領域に含まれている文字の文字サイズが等しくないと判断した場合(ステップS1603:No)、再び処理対象の文書領域に近接する文書領域の探索から開始する(ステップS1601)。
また、日本語用大文字修正部702aは、両文書領域に含まれている文字の文字サイズが等しいと判断した場合(ステップS1603:Yes)、これら2つの文書領域の結合処理を行う(ステップS1604)。
そして、日本語用大文字修正部702aは、探索によりチェックしていない文書領域を発見できなかった場合(ステップS1602:No)、処理を終了する。
上述した処理手順により、文字サイズが大きいために文字間隔で分割された文書領域を結合して適切な文書領域で抽出することを可能にする。なお、上述した処理手順は、本実施の形態による日本語用大文字修正部702aが、文字サイズが大きい文書領域の結合処理手順の例を示したものであり、本発明をこの処理手順に制限するものではない。
なお、本実施の形態においては、第2の領域抽出部102で、言語に依存する処理として、後処理修正、大文字修正及び読み順修正を行う場合の例について説明したが、これらの処理に制限するものではない。例えば、言語に依存する処理として、これらの処理とは異なる処理等を行っても良い。
上述した実施の形態においては、「極大白矩形系列によるページセグメンテーション」を施して分割して文書領域を抽出した後に、言語の種別に応じた規則を備えた第2の領域抽出部106に含まれた各構成が分割又は結合して文書領域を抽出するので、レイアウト解析処理の高効率化を図りつつ、言語固有のレイアウトに対応した固有の領域分割により高精度化を実現できる。
(第2の実施の形態)
図18は、第2の実施の形態にかかる画像処理装置1600の構成を示すブロック図である。上述した第1の実施の形態にかかる画像処理装置100とは、言語種別判定部103とは処理が異なる言語種別判定部1601に変更され、抽出判断部105とは処理が異なる抽出判断部1602に変更された構成を有している点で異なる。以下の説明では、上述した第1の実施の形態と同一の構成要素には同一の符号を付してその説明を省略している。なお、第1の実施の形態の画像処理装置100では、文書画像データ全体から言語の種別を判定していたのに対し、本実施の形態の画像処理装置1600は、文書領域毎に言語の種別を判定している点で異なる。
言語種別判定部1601は、第1の領域抽出部102で抽出された文書領域毎に言語種別を判定する。また、言語種別判定部1601は、他の処理については言語種別判定部103と同様なので説明を省略する。
抽出判断部1602は、言語種別判定部103で判定された各文書領域の言語の種別及び属性判定部104で判定された各文書領域の属性により、各文書領域に対してさらに抽出するか否か判断する。また、抽出判断部1602は、第1の実施の形態に係る抽出判断部105とは、判断に用いた言語種別が文書画像データ全体のものであるか、又は抽出された文書領域毎のものであるか以外に違いはないので、説明を省略する。
次に、以上のように構成された本実施の形態にかかる画像処理装置1600における文書画像データの入力処理から文書画像データの文書領域の抽出までの処理について説明する。図19は、本実施の形態にかかる画像処理装置1600における上述した処理の手順を示すフローチャートである。
まず、第1の実施の形態の図13のステップS1101〜S1102と同様にして、文書画像データに対して領域抽出処理を行う(ステップS1701〜S1702)。
次に、言語種別判定部1601は、抽出された文書領域毎に言語の種別を判定する(ステップS1703)。そして、属性判定部104が、抽出された文書領域毎に属性(文字行の方向又は文字サイズ)を判定する(ステップS1704)。
そして、抽出判断部1602は、言語種別判定部1601により判定された言語種別、及び属性判定部104により判定された文書領域の属性により、当該文書領域を抽出するか否か判断する(ステップS1705)。なお、抽出判断部105が、抽出するか否か判断する際に、記憶部107に記憶されている抽出規則対応テーブルを用いる。
次に、第2の領域抽出部106は、抽出判断部1602により抽出すると判断された文書領域に対して領域抽出を行う(ステップS1706)。
そして、抽出判断部1602は、ステップS1703による言語の種別の判定が全ての文書領域に対して行われたか否か判断する(ステップS1707)。そして、抽出判断部1602は、全ての文書領域については終了していないと判断した場合(ステップS1707:No)、抽出判断部1602は、判定していない文書領域についての言語の判定から開始する(ステップS1703)。
また、抽出判断部1602が、全ての文書領域について終了したと判断した場合(ステップS1707:Yes)、処理を終了する。
上述した処理手順により、文書画像データを文書領域毎に異なる言語の種別であっても適切な文書領域に抽出することを可能にすると共に、文書画像データに対するレイアウト解析処理の高効率化することが可能となる。なお、上述した処理手順は、本実施の形態による文書画像データの入力処理から文書画像データの文書領域の抽出までの処理手順の例を示したものであり、本発明をこの処理手順に制限するものではない。
上述したように、本実施の形態に係る画像処理装置1600では、第1の実施の形態で示した効果の他に、抽出された文書領域毎に言語の種別を判断して、処理を行うか否か判断するので、文書領域毎に異なる言語で記載されている場合でも、適切に文書領域を抽出することができる。
(第3の実施の形態)
上述した実施の形態における画像処理装置は、第2の領域抽出部106による抽出処理の後に特に処理は行わなかった。しかしながら、本発明は、第1の領域抽出部102及び第2の領域抽出部106による抽出処理のみに制限するものではない。そこで、第3の実施の形態に係る画像処理装置1800では、さらに抽出する構成を備えた場合について説明する。
図20は、第3の実施の形態にかかる画像処理装置1800の構成を示すブロック図である。上述した第1の実施の形態にかかる画像処理装置100とは、記憶部107とは保持している情報が異なる記憶部1801に変更され、目的別抽出判断部1802と、第3の領域抽出部1803が追加されている点で異なる。以下の説明では、上述した第1の実施の形態と同一の構成要素には同一の符号を付してその説明を省略している。
記憶部1801は、データベースを保持している。また、記憶部1801は、当該データベース内で抽出規則対応テーブル及びアプリケーション規則対応テーブルを格納している。また、記憶部1801は、記憶手段であり、例えばHDD、光ディスク、メモリカードなどの一般的に用いられるあらゆる記憶手段で構成することができる。なお、抽出規則対応テーブルは、第1の実施の形態の記憶部107で格納されている抽出規則対応テーブルと同様なので説明を省略する。
図21は、アプリケーション規則対応テーブルの構造を示した図である。本図に示すように、アプリケーション規則対応テーブルは、画像データを使用する目的である目的アプリケーションと、アプリケーション別領域抽出部とを対応付けて保持している。また、アプリケーション別領域抽出部とは、後述する第3の領域抽出部1803含まれた、文書画像データを用いるアプリケーション毎に定められた規則に基づいて分割又は結合等して領域を抽出する構成をいう。つまり、アプリケーション規則対応テーブルは、第3の領域抽出部1803で実行可能な処理を、目的アプリケーションと対応付けて保持している。なお、具体的なアプリケーション規則対応テーブルの利用方法については後述する。
目的別抽出判断部1802は、文書領域毎に抽出された文書画像データを用いる目的、具体的にはアプリケーションやタスクに応じて,後述する第3の領域抽出部1803で領域抽出を行う必要があるか否かを判断する。また、本実施の形態の目的別抽出判断部1802による抽出するか否かの判断は、使用するアプリケーション又はタスクをキーとして、記憶部1801に記憶されているアプリケーション規則対応テーブルに対して検索を行い、一致するレコードがあるか否かによるものとする。そして、目的別抽出判断部1802は、一致するレコードが存在した場合に抽出処理を行うと判断する。また、目的別抽出判断部1802が、検索で一致するレコードの数は1つに制限するものではなく、複数存在しても良い。この場合、後述する第3の領域抽出部106で、複数の処理が行われる。
また、目的別抽出判断部1802の判断例としては、アプリケーションが日本語OCRの場合、アプリケーション規則対応テーブルでアプリケーション別領域抽出部が‘日本語OCR用領域抽出部’のレコードが検索される。これにより、後述する第3の領域抽出部1803の日本語OCR用領域抽出部1811aが、この文書領域に対して抽出処理を行う。このように、各文書領域を抽出するか否かの判断は、アプリケーション規則対応テーブルルで該当するレコードがある場合に、第3の領域抽出部1803で抽出処理を行い、それ以外は行わないとする。なお、本実施の形態は、このような抽出規則対応テーブルを用いて抽出処理を行うか否か判断するものに制限するものではなく、抽出するか否かの判断基準としてどのような基準を設けても良い。なお、用いるアプリケーションの設定はどのように設定しても良く、例えば、文書画像データの入力時に、利用者からアプリケーションの入力を受け付けても良い。
また、本実施の形態では、アプリケーション以外に、タスク等他の処理を目的として設定しても良い。
次に、アプリケーションやタスクにより望まれる領域抽出の結果が異なる点について説明する。例えば、OCRのようなアプリケーションでは、図10で示したような抽出結果の例よりさらに細かい「行単位」での分割が望まれる。他の例としては、作業者が文書画像データを編集するようなタスクでは,図10で示したような「段組単位」での分割が望ましい。なぜならば、編集のようなタスクでは,OCRに望まれるような「行単位」の細かい分割では,作業者は行単位で編集を行うことになり負担が大きくなるからである。
また、「行単位」の分割でも,言語の種別により方式が異なる。例えば、英語のようなヨーロッパ系言語では、単語間にスペースがあり、文字の大きさがそれぞれ異なり、さらに文字の配置もベースラインを基準に上下に変動する点で、日本語とは異なる。そこで、本実施の形態においては、第3の領域抽出部1803で、言語の種別及びアプリケーションやタスクに応じた構成を備え、言語の種別及びアプリケーションやタスクに応じた文書領域の抽出を可能とした。
第3の領域抽出部1803は、日本語OCR用領域抽出部1811aと、ヨーロッパ系言語OCR用領域抽出部1811b等の、アプリケーション毎に適した抽出処理を行う構成を備えている。
そして、日本語OCR用領域抽出部1811aと、ヨーロッパ系言語OCR用領域抽出部1811b等の、アプリケーション毎に適した抽出処理を行う構成は、目的別抽出判断部1802により選択された場合に、文書領域毎に抽出処理を行う。
例えば、日本語OCRで処理を行うために、文字行の切り出す必要がある。そこで、日本語OCR用領域抽出部1811aが選択された場合、日本語OCR用領域抽出部1811aは、文書領域に対して文字行毎に分割し、分割された文書領域を抽出する。また、文字行毎の分割する処理としてはどのような処理を用いても良い。なお、本実施の形態に係る日本語OCR用領域抽出部1811aが行う文字行毎の分割処理として、特願2004−102796に記載されている公知技術を用いることとする。
図22は、日本語OCR用領域抽出部1811aで、各文書領域について抽出処理を行った結果の例を示した図である。この日本語OCR用領域抽出部1811aが抽出処理を行う前は、第1の実施の形態の図10で示した例とする。図22に示すように、日本語OCR用領域抽出部1811aは、文書領域をさらに細分化して、日本語OCRの読込に適した文字行毎に分割することを可能とした。
ヨーロッパ系言語OCR用領域抽出部1811b等の他の構成についても、それぞれアプリケーション毎に適した文書領域に抽出する処理を行う。また、これらの構成で行う処理は、周知の技術を問わず、どのような技術を用いても良い。
次に、以上のように構成された本実施の形態にかかる画像処理装置1800における文書画像データの入力処理から文書画像データの文書領域の抽出までの処理について説明する。図23は、本実施の形態にかかる画像処理装置1800における上述した処理の手順を示すフローチャートである。
まず、第1の実施の形態の図13のステップS1101〜ステップS1107と同様にして、文書画像データを文書領域毎に抽出する(ステップS2201〜S2207)。
そして、目的別抽出判断部1802が、文書領域毎に抽出された文書画像データを用いるアプリケーション又はタスクにより、さらに文書領域を抽出するか否か判断する(ステップS2208)。そして、文書領域を抽出しないと判断した場合(ステップS2208:No)、第3の領域抽出部1803による処理を行わずに終了する。
また、目的別抽出判断部1802が文書領域を抽出すると判断した場合(ステップS2208:Yes)、次に、第3の領域抽出部1803に含まれる構成が、各文書領域に対して領域の抽出を行う(ステップS2209)。なお、文書領域の抽出を行う構成は、予め目的別抽出判断部1802により選択されているものとする。そして全ての文書領域に対して抽出処理が終了した場合に終了する。
上述した処理手順により、文書画像データを適切な文書領域に抽出することを可能にすると共に、文書画像データに対するレイアウト解析処理の高効率化することが可能となる。なお、上述した処理手順は、本実施の形態による文書画像データの入力処理から文書画像データの文書領域の抽出までの処理手順の例を示したものであり、本発明をこの処理手順に制限するものではない。
上述したように、本実施の形態に係る画像処理装置1800では、第1の実施の形態で示した効果の他に、アプリケーションやタスクに応じた構成を1つまたは複数選択して、抽出処理を行うことで、画像データを使用する目的となるアプリケーションやタスクに固有の領域抽出方式を組み込むことが可能になる。つまり、目的に応じて適切な文書領域を抽出できる。これにより、さらにレイアウト解析処理の高効率化と高精度化を図ることができる。
(第4の実施の形態)
図24は、第4の実施の形態にかかる画像処理装置2400の構成を示すブロック図である。上述した第3の実施の形態にかかる画像処理装置1800とは、言語種別判定部103とは処理が異なる言語種別判定部1601に変更され、抽出判断部105とは処理が異なる抽出判断部1602に変更された構成を有している点で異なる。以下の説明では、上述した第3の実施の形態と同一の構成要素には同一の符号を付してその説明を省略している。また、言語種別判定部1601及び抽出判断部1602は、第2の実施の形態の画像処理装置1600で用いられた構成要素と同一の構成要素とし、説明を省略する。
つまり、本実施の形態に係る画像処理装置2400は、第2の実施の形態に係る画像処理装置1600のように文書領域毎に言語の種別を判断して第2の領域抽出部106で抽出する処理までを行い、その後は第3の実施の形態に係る画像処理装置1800のようにアプリケーション又はタスクに適切な抽出処理を行うこととする。
次に、以上のように構成された本実施の形態にかかる画像処理装置2400における文書画像データの入力処理から文書画像データの文書領域の抽出までの処理について説明する。図25は、本実施の形態にかかる画像処理装置2400における上述した処理の手順を示すフローチャートである。
まず、第2の実施の形態の図19のステップS1701〜ステップS1708と同様にして、文書画像データを文書領域毎に抽出する(ステップS2501〜S2507)。
そして、第3の実施の形態の図23のステップS2205〜ステップS2209と同様にして、アプリケーション又はタスクに適した抽出処理を行う(ステップS2508〜S2509)。
上述した処理手順により、文書画像データを適切な文書領域に抽出することを可能にすると共に、文書画像データに対するレイアウト解析処理の高効率化することが可能となる。なお、上述した処理手順は、本実施の形態による文書画像データの入力処理から文書画像データの文書領域の抽出までの処理手順の例を示したものであり、本発明をこの処理手順に制限するものではない。
また、本実施の形態に係る画像処理装置2400では、第3の実施の形態で示した効果の他に、第2の実施の形態で示したように、抽出された文書領域毎に言語の種別を判断して、処理を行うか否か判断するので、文書領域毎に異なる言語で記載されている場合でも、適切に文書領域を抽出することができる。
図26は、上述した実施の形態の画像処理装置の機能を実現するためのプログラムを実行したPC(Personal Computer)のハードウェア構成を示した図である。上述した実施の形態の画像処理装置は、CPU(Central Processing Unit)2601等の制御装置と、ROM(Read Only Memory)2602やRAM(Random Access Memory)2603等の記憶装置と、HDD(Hard Disk Drive)、CD(Compact Disk)ドライブ装置等の外部記憶装置2604と、ディスプレイ装置等の表示装置2605と、キーボードやマウス等の入力装置2606と、通信I/F(Interface)2607と、これらを接続するバス2608を備えており、通常のコンピュータを利用したハードウェア構成となっている。
なお、上述した実施の形態においては画像処理装置として通常のパーソナルコンピュータを適用した場合について説明したが、これに限るものではなく、PDA(Personal Digital Assistants)と称される携帯用情報端末、palmTopPC、携帯電話、PHS(Personal Handyphone System)等であっても良い。
また、上述した画像処理装置では、ソフトウェアにより各構成を実現したが、リアルタイム性が重要視される場合には、処理を高速化する必要がある。そのためには、論理回路(図示せず)を別途設け、論理回路の動作により各種の演算処理を実行するのが望ましい。
上述した実施の形態の画像処理装置で実行される画像処理プログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、フレキシブルディスク(FD)、CD−R、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録されて提供される。
また、上述した実施の形態の画像処理装置で実行される画像処理プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また、本実施形態の画像処理装置で実行される画像処理プログラムをインターネット等のネットワーク経由で提供または配布するように構成しても良い。
また、本実施形態の画像処理プログラムを、ROM等に予め組み込んで提供するように構成してもよい。
上述した実施の形態の画像処理装置で実行される画像処理プログラムは、上述した各部(画像入力処理部と、第1の領域抽出部と、言語種別判定部と、属性判定部と、抽出判断部と、第2の領域抽出部と、必要に応じて目的別抽出判断部と第3の領域抽出部)を含むモジュール構成となっており、実際のハードウェアとしてはCPUが上記記録媒体から画像処理プログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、画像入力処理部と、第1の領域抽出部と、言語種別判定部と、属性判定部と、抽出判断部と、第2の領域抽出部と、必要に応じて目的別抽出判断部と第3の領域抽出部が主記憶装置上に生成されるようになっている。
また、上述した実施の形態においては、画像処理装置としてPC等のコンピュータを適用したが、これに限るものではない。例えば、図27に示すように、画像読み取り手段であるスキャナ部2701及び画像印刷装置であるプリンタ部2702を備えた画像形成装置であるデジタル複合機2700に備えられる情報処理装置に画像処理装置100を適用し、デジタル複合機2700のスキャナ部2701で読み取ったスキャン画像に対してレイアウト解析処理を施しても良い。なお、適用する画像処理装置は画像処理装置100に制限するものではなく、他の実施の形態等で示した画像処理装置を用いても良い。
また、上述した実施の形態の画像処理装置は、ローカルなシステム(例えばPC単体)を適用したが、これに限るものではない。例えば、図28に示すように、サーバコンピュータSにネットワークNを介してクライアントコンピュータCが複数台接続されたサーバクライアントシステムに適用しても良い。この場合、各クライアントコンピュータCからサーバコンピュータSに対して画像を送信し、サーバコンピュータS(画像処理装置100)において画像に対してレイアウト解析処理を施すことになる。なお、適用する画像処理装置は画像処理装置100に制限するものではなく、他の実施の形態等で示した画像処理装置を用いても良い。
以上のように、本発明にかかる画像処理装置、画像処理方法及び画像処理プログラムは、画像データから文字を含む領域を抽出する技術に有用であり、特に、言語の種別によらない領域の抽出と言語の種別に応じた領域の抽出を組み合わせる技術として適している。
第1の実施の形態にかかる画像処理装置の構成を示すブロック図である。 第1の実施の形態にかかる画像処理装置の記憶部に格納された抽出規則対応テーブルの構造を示した図である。 第1の実施の形態にかかる画像処理装置の画像入力処理部が入力処理した2値画像データの例を示した図である。 極大白矩形の例を示す説明図である。 極大白矩形系列によるページセグメンテーションを用いたレイアウト解析処理の基本的アプローチを概略的に示した説明図である。 第1の実施の形態にかかる第1の領域抽出部で領域抽出した結果の例を示した図である。 第1の実施の形態にかかる属性判定部が、領域抽出された文書画像データに対して文字行の方向の判定を行った結果の例を示した図である。 第1の実施の形態にかかる第2の領域抽出部の構成を示すブロック図である。 第1の実施の形態にかかる日本語縦用修正部で領域抽出の対象となる文書領域の例を示した図である。 第1の実施の形態にかかる日本語縦用修正部等の後処理修正部で、各文書領域に対して抽出処理を行った結果を示した図である。 文字サイズが大きい文字を含む文書画像データを、第1の領域抽出部が抽出した場合の例を示した図である。 第1の実施の形態にかかる大文字修正部が、文書領域を結合し、文書領域を再抽出した結果の例を示した図である。 第1の実施の形態にかかる画像処理装置における文書画像データの入力処理から文書画像データの文書領域の抽出までの処理の手順を示すフローチャートである。 第1の実施の形態にかかる領域抽出部における文書画像データの抽出処理の手順を示すフローチャートである。 第1の実施の形態にかかる日本語縦用修正部における文書領域に対して再抽出を行う処理の手順を示すフローチャートである。 第1の実施の形態にかかる日本語縦用修正部が、文書領域に対して縦方向の射影をとった例を示す図である。 第1の実施の形態にかかる日本語縦用修正部が横方向に分割した後の文書領域を示した説明図である。 第1の実施の形態にかかる日本語縦用修正部がさらに縦方向に分割した後の文書領域を示した説明図である。 第1の実施の形態にかかる日本語用大文字修正部における文字サイズが大きい文書領域の結合処理の手順を示すフローチャートである。 第2の実施の形態にかかる画像処理装置の構成を示すブロック図である。 第2の実施の形態にかかる画像処理装置における文書画像データの入力処理から文書画像データの文書領域の抽出までの処理の手順を示すフローチャートである。 第3の実施の形態にかかる画像処理装置の構成を示すブロック図である。 第3の実施の形態にかかる画像処理装置の記憶部に格納されたアプリケーション規則対応テーブルの構造を示した図である。 第3の実施の形態にかかる日本語OCR用領域抽出部で、各文書領域について抽出処理を行った結果の例を示した図である。 第3の実施の形態にかかる画像処理装置における文書画像データの入力処理から文書画像データの文書領域の抽出するまで処理の手順を示すフローチャートである。 第4の実施の形態にかかる画像処理装置の構成を示すブロック図である。 第4の実施の形態にかかる画像処理装置における文書画像データの入力処理から文書画像データの文書領域の抽出までの処理の手順を示すフローチャートである。 画像処理装置の機能を実現するためのプログラムを実行したPCのハードウェア構成を示した図である。 デジタル複合機を示す外観斜視図である。 サーバクライアントシステムを示す模式図である。
符号の説明
100、1600、1800、2400 画像処理装置
101 画像入力処理部
102 第1の領域抽出部
103、1601 言語種別判定部
104 属性判定部
105、1602 抽出判断部
106 第2の領域抽出部
107、1801 記憶部
111 白矩形抽出部
112 白矩形分割部
121 後処理修正部
122 大文字修正部
123 読み順修正部
501 文書領域
701a 日本語縦用修正部
701b 日本語横用修正部
701c ヨーロッパ系言語用修正部
702a 日本語用大文字修正部
702b ヨーロッパ系言語用大文字修正部
703a 日本語用読み順修正部
703b ヨーロッパ系言語用読み順修正部
901 文書領域
902 文書領域
903 文書領域
1501 文書領域
1802 目的別抽出判断部
1803 第3の領域抽出部
1811a 日本語OCR用領域抽出部
1811b ヨーロッパ系言語OCR用領域抽出部
2601 CPU
2602 ROM
2603 RAM
2604 外部記憶装置
2605 表示装置
2606 入力装置
2607 通信I/F
2608 バス
2700 デジタル複合機
2701 スキャナ部
2702 プリンタ部

Claims (23)

  1. 文書画像データを、それ以上拡張すると内部に黒画素を含んでしまう極大白矩形の系列 をセパレータとして用いて、文字を含む文書領域毎に分割して抽出する第1の領域抽出手段と、
    前記文書画像データで用いられた言語の種別を判定する種別判定手段と、
    前記第1の領域抽出手段により抽出された前記文書領域に対して、前記種別判定手段により判定された言語の種別の書字方向に応じた規則に基づいて分割又は結合して文書領域を抽出する第2の領域抽出手段と、
    を備えたことを特徴とする画像処理装置。
  2. 前記種別判定手段により判定された前記言語の種別により、前記第1の領域抽出手段により抽出された前記文書領域から、さらに抽出を行うか否か判定する抽出判定手段と、をさらに備え、
    前記第2の領域抽出手段は、前記抽出判定手段により抽出すると判定された場合に、前記種別判定手段により判定された言語の種別の書字方向に応じた規則に基づいて分割又は結合して文書領域を抽出すること、
    を特徴とする請求項1に記載の画像処理装置。
  3. 前記第1の領域抽出手段により抽出された前記文書領域の属性を判定する属性判定手段と、をさらに備え、
    前記第2の領域抽出手段は、前記第1の領域抽出手段により抽出された前記文書領域に対して、前記種別判定手段により判定された前記言語の種別の書字方向、及び前記属性判定手段により判定された前記属性に応じた規則に基づいて分割又は結合して文書領域を抽出すること、
    を特徴とする請求項1に記載の画像処理装置。
  4. 前記種別判定手段により判定された前記言語の種別及び前記属性判定手段により判定された前記属性により、前記第1の領域抽出手段により抽出された前記文書領域から、さら 抽出を行うか否か判定する抽出判定手段と、をさらに備え、
    前記第2の抽出手段は、前記抽出判定手段により抽出すると判定された場合に、前記第1の領域抽出手段により抽出された前記文書領域に対して、前記種別判定手段により判定された前記言語の種別の書字方向、及び前記属性判定手段により判定された前記属性に応じた規則に基づいて分割又は結合して文書領域を抽出すること、
    を特徴とする請求項3に記載の画像処理装置。
  5. 前記種別判定手段は、前記文書画像データ全体から言語の種別を判定し、
    前記抽出判定手段は、前記種別判定手段により判定された前記言語の種別により、前記第1の領域抽出手段により抽出された前記文書領域に対して、さらに出を行うか否か判定すること、
    を特徴とする請求項2に記載の画像処理装置。
  6. 前記種別判定手段は、前記文書画像データの、前記第1の領域抽出手段により抽出された前記文書領域毎に言語の種別を判定し、
    前記抽出判定手段は、前記第1の領域抽出手段により抽出された前記文書領域毎に、前記種別判定手段により判定された前記言語の種別により、さらに抽出するか否か判定すること、
    を特徴とする請求項2又は4に記載の画像処理装置。
  7. 前記第2の領域抽出手段により抽出された前記文書領域に対して、文書画像データを使用するアプリケーション又はタスクに応じた規則により分割又は結合にして文書領域を抽出する第3の領域抽出手段と、
    を、さらに備えたことを特徴とする請求項1乃至6のいずれか1つに記載の画像処理装置。
  8. 前記文書画像データを使用するアプリケーション又はタスクに適した抽出を行うか否か判定する第2の抽出判定手段と、
    前記第3の領域抽出手段は、前記第2の抽出判定手段により抽出すると判定された場合に、前記第2の領域抽出手段により抽出された前記文書領域に対して、前記アプリケーシ ョン又はタスクに応じた規則により分割又は結合にして文書領域を抽出すること、
    を特徴とする請求項7に記載の画像処理装置。
  9. 前記属性判定手段は、前記文書画像データの属性として、前記第1の領域抽出手段により抽出された前記文書領域内に含まれている文字の方向及び文字サイズのうち少なくとも1つ以上を判定すること、
    を特徴とする請求項3に記載の画像処理装置。
  10. 言語の種別と、属性と、当該言語の種別の書字方向及び当該属性に応じた抽出の規則とを対応付けた抽出規則対応情報を記憶する記憶手段と、をさらに備え、
    前記第2の領域抽出手段は、前記種別判定手段により判定された前記言語の種別と、前記属性判定手段により判定された前記属性と、前記抽出規則対応情報で対応付けられた 規則に基づいて、前記第1の領域抽出手段により抽出された前記文書領域に対して分割又は結合して、文書領域を抽出すること、
    を特徴とする請求項3に記載の画像処理装置。
  11. 前記第2の領域抽出手段は、前記第1の領域抽出手段により抽出された前記文書領域に対して、異なる行方向の文字列が含まれている文書領域を行方向が異なる文字列毎に文書領域の分割、文字サイズが大きい文字を含む文書領域同士の結合、前記文書領域の読み順に従って文書領域同士の結合のうち少なくとも1つ以上を行うことで、文書領域を抽出すること、
    を特徴とする請求項1乃至10のいずれか1つに記載の画像処理装置。
  12. 文書画像データを、それ以上拡張すると内部に黒画素を含んでしまう極大白矩形の系列 をセパレータとして用いて、文字を含む文書領域毎に分割して抽出する第1の領域抽出ステップと、
    前記文書画像データで用いられた言語の種別を判定する種別判定ステップと、
    前記第1の領域抽出ステップにより抽出された前記文書領域に対して、前記種別判定ステップにより判定された言語の種別の書字方向に応じた規則に基づいて分割又は結合して文書領域を抽出する第2の領域抽出ステップと、
    を備えたことを特徴とする画像処理方法。
  13. 前記種別判定ステップにより判定された前記言語の種別により、前記第1の領域抽出ステップにより抽出された前記文書領域から、さらに抽出を行うか否か判定する抽出判定ステップと、をさらに備え、
    前記第2の領域抽出ステップは、前記抽出判定ステップにより抽出すると判定された場合に、前記種別判定ステップにより判定された言語の種別の書字方向に応じた規則に基づいて分割又は結合して文書領域を抽出すること、
    を特徴とする請求項12に記載の画像処理方法。
  14. 前記第1の領域抽出ステップにより抽出された前記文書領域の属性を判定する属性判定ステップと、をさらに備え、
    前記第2の領域抽出ステップは、前記第1の領域抽出ステップにより抽出された前記文書領域に対して、前記種別判定ステップにより判定された前記言語の種別の書字方向、及び前記属性判定ステップにより判定された前記属性に応じた規則に基づいて分割又は結合して文書領域を抽出すること、
    を特徴とする請求項13に記載の画像処理方法。
  15. 前記種別判定ステップにより判定された前記言語の種別及び前記属性判定ステップにより判定された前記属性により、前記第1の領域抽出ステップにより抽出された前記文書領域から、さらに抽出を行うか否か判定する抽出判定ステップと、をさらに備え、
    前記第2の抽出ステップは、前記抽出判定ステップにより抽出すると判定された場合に、前記第1の領域抽出ステップにより抽出された前記文書領域に対して、前記種別判定ステップにより判定された前記言語の種別の書字方向、及び前記属性判定ステップにより判定された前記属性に応じた規則に基づいて分割又は結合して文書領域を抽出すること、
    を特徴とする請求項14に記載の画像処理方法。
  16. 前記種別判定ステップは、前記文書画像データ全体から言語の種別を判定し、
    前記抽出判定ステップは、前記種別判定ステップにより判定された前記言語の種別により、前記第1の領域抽出ステップにより抽出された前記文書領域に対して、さらに出を行うか否か判定すること、
    を特徴とする請求項13に記載の画像処理方法。
  17. 前記種別判定ステップは、前記文書画像データの、前記第1の領域抽出ステップにより抽出された前記文書領域毎に言語の種別を判定し、
    前記抽出判定ステップは、前記第1の領域抽出ステップにより抽出された前記文書領域毎に、前記種別判定ステップにより判定された前記言語の種別により、さらに抽出するか否か判定すること、
    を特徴とする請求項13又は15に記載の画像処理方法。
  18. 前記第2の領域抽出ステップにより抽出された前記文書領域に対して、文書画像データを使用するアプリケーション又はタスクに応じた規則により分割又は結合にして文書領域を抽出する第3の領域抽出ステップと、
    を、さらに備えたことを特徴とする請求項12乃至17のいずれか1つに記載の画像処理方法。
  19. 前記文書画像データを使用するアプリケーション又はタスクに適した抽出を行うか否か判定する第2の抽出判定ステップと、
    前記第3の領域抽出ステップは、前記第2の抽出判定ステップにより抽出すると判定された場合に、前記第2の領域抽出ステップにより抽出された前記文書領域に対して、前記アプリケーション又はタスクに応じた規則により分割又は結合にして文書領域を抽出すること、
    を特徴とする請求項18に記載の画像処理方法。
  20. 前記属性判定ステップは、前記文書画像データの属性として、前記第1の領域抽出ステップにより抽出された前記文書領域内に含まれている文字の方向及び文字サイズのうち少なくとも1つ以上を判定すること、
    を特徴とする請求項14に記載の画像処理方法。
  21. 前記第2の領域抽出ステップは、言語の種別と属性と、当該言語の種別の書字方向及 び当該属性に応じた抽出の規則とを対応付けた、記憶手段に記憶された抽出規則対応情報から、前記種別判定ステップにより判定された前記言語の種別と、前記属性判定ステップにより判定された前記属性と対応付けられた、前記規則に基づいて、前記第1の領域抽出ステップにより抽出された前記文書領域に対して分割又は結合して、文書領域を抽出すること、
    を特徴とする請求項14に記載の画像処理方法。
  22. 前記第2の領域抽出ステップは、前記第1の領域抽出ステップにより抽出された前記文書領域に対して、異なる行方向の文字列が含まれている文書領域を行方向が異なる文字列毎に文書領域の分割、文字サイズが大きい文字を含む文書領域同士の結合、前記文書領域の読み順に従って文書領域同士の結合のうち少なくとも1つ以上を行うことで、文書領域を抽出すること、
    を特徴とする請求項12乃至21のいずれか1つに記載の画像処理方法。
  23. 請求項12乃至22のいずれか1つに記載された画像処理方法をコンピュータで実行させることを特徴とする画像処理プログラム。
JP2005295412A 2005-10-07 2005-10-07 画像処理装置、画像処理方法及び画像処理プログラム Expired - Fee Related JP4856925B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2005295412A JP4856925B2 (ja) 2005-10-07 2005-10-07 画像処理装置、画像処理方法及び画像処理プログラム
US11/518,910 US8041113B2 (en) 2005-10-07 2006-09-12 Image processing device, image processing method, and computer program product
CNB2006101599928A CN100424716C (zh) 2005-10-07 2006-09-29 图像处理装置,图像处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005295412A JP4856925B2 (ja) 2005-10-07 2005-10-07 画像処理装置、画像処理方法及び画像処理プログラム

Publications (2)

Publication Number Publication Date
JP2007102715A JP2007102715A (ja) 2007-04-19
JP4856925B2 true JP4856925B2 (ja) 2012-01-18

Family

ID=37910829

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005295412A Expired - Fee Related JP4856925B2 (ja) 2005-10-07 2005-10-07 画像処理装置、画像処理方法及び画像処理プログラム

Country Status (3)

Country Link
US (1) US8041113B2 (ja)
JP (1) JP4856925B2 (ja)
CN (1) CN100424716C (ja)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4977452B2 (ja) * 2006-01-24 2012-07-18 株式会社リコー 情報管理装置、情報管理方法、情報管理プログラム、記録媒体及び情報管理システム
US8380650B2 (en) * 2007-01-29 2013-02-19 Nec Corporation Information extraction rule making support system, information extraction rule making support method, and information extraction rule making support program
CN101276363B (zh) * 2007-03-30 2011-02-16 夏普株式会社 文档图像的检索装置及文档图像的检索方法
JP5402099B2 (ja) * 2008-03-06 2014-01-29 株式会社リコー 情報処理システム、情報処理装置、情報処理方法およびプログラム
US8463738B2 (en) * 2008-03-06 2013-06-11 Nec Corporation Attribute extraction method, system, and program
JP4577420B2 (ja) * 2008-07-10 2010-11-10 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
JP4577421B2 (ja) * 2008-07-10 2010-11-10 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
JP4577419B2 (ja) * 2008-07-10 2010-11-10 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
JP2010211439A (ja) * 2009-03-10 2010-09-24 Fuji Xerox Co Ltd 文字出力装置およびプログラム
JP5005005B2 (ja) 2009-07-30 2012-08-22 インターナショナル・ビジネス・マシーンズ・コーポレーション コンテンツ読み上げ順序を視覚化するための視覚化プログラム、視覚化方法、及び視覚化装置
US8000528B2 (en) * 2009-12-29 2011-08-16 Konica Minolta Systems Laboratory, Inc. Method and apparatus for authenticating printed documents using multi-level image comparison based on document characteristics
JP5812702B2 (ja) * 2011-06-08 2015-11-17 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 文字の読み順を決定するための読み順決定装置、方法及びプログラム
JP5994251B2 (ja) * 2012-01-06 2016-09-21 富士ゼロックス株式会社 画像処理装置及びプログラム
JP5652428B2 (ja) * 2012-05-15 2015-01-14 コニカミノルタ株式会社 画像出力装置、画像出力方法、及び、プログラム
CN103049183B (zh) * 2012-12-07 2016-06-22 腾讯科技(深圳)有限公司 一种应用于社交平台的媒体内容展示方法及系统
CN103902993A (zh) * 2012-12-28 2014-07-02 佳能株式会社 文档图像识别方法和设备
JP5865856B2 (ja) 2013-02-27 2016-02-17 京セラドキュメントソリューションズ株式会社 画像処理装置及びこれを備えた画像形成装置
CN104376317B (zh) * 2013-08-12 2018-12-14 福建福昕软件开发股份有限公司北京分公司 一种将纸质文件转换为电子文件的方法
JP6729486B2 (ja) * 2017-05-15 2020-07-22 京セラドキュメントソリューションズ株式会社 情報処理装置、情報処理プログラム及び情報処理方法
JP6554193B1 (ja) * 2018-01-30 2019-07-31 三菱電機インフォメーションシステムズ株式会社 記入領域抽出装置および記入領域抽出プログラム
JP6954229B2 (ja) * 2018-05-25 2021-10-27 京セラドキュメントソリューションズ株式会社 画像処理装置及び画像形成装置
JP2020027598A (ja) * 2018-12-27 2020-02-20 株式会社シグマクシス 文字認識装置、文字認識方法及び文字認識プログラム
US11562593B2 (en) * 2020-05-29 2023-01-24 Microsoft Technology Licensing, Llc Constructing a computer-implemented semantic document
US11367296B2 (en) * 2020-07-13 2022-06-21 NextVPU (Shanghai) Co., Ltd. Layout analysis
CN111832476A (zh) * 2020-07-13 2020-10-27 上海肇观电子科技有限公司 版面分析方法、阅读辅助设备、电路和介质
CN113033338B (zh) * 2021-03-09 2024-03-29 太极计算机股份有限公司 电子报头版头条新闻位置识别方法及装置

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3187895B2 (ja) 1991-05-02 2001-07-16 株式会社リコー 文字領域抽出方法
EP0701220B1 (en) * 1994-09-12 2001-07-04 Adobe Systems Inc. Method and apparatus for viewing electronic documents
JPH103516A (ja) * 1996-06-17 1998-01-06 Canon Inc 情報処理方法及び装置
JP3835652B2 (ja) * 1997-09-10 2006-10-18 株式会社リコー 文書画像の日本語英語判定方法および記録媒体
US6047251A (en) * 1997-09-15 2000-04-04 Caere Corporation Automatic language identification system for multilingual optical character recognition
JP3850995B2 (ja) 1998-08-18 2006-11-29 株式会社リコー 文書画像処理方法および文書画像処理方法をコンピュータに実行させるプログラムを記録した機械読み取り可能な記録媒体
US6393145B2 (en) * 1999-01-12 2002-05-21 Microsoft Corporation Methods apparatus and data structures for enhancing the resolution of images to be rendered on patterned display devices
JP2001056837A (ja) * 1999-08-19 2001-02-27 Ricoh Co Ltd 文書認識方法および記録媒体
JP4521942B2 (ja) 2000-07-24 2010-08-11 キヤノン株式会社 文書管理装置及び方法
JP3962891B2 (ja) * 2000-08-09 2007-08-22 富士ゼロックス株式会社 文書画像処理装置、文書画像処理方法、及び記憶媒体
JP2002342343A (ja) * 2001-05-18 2002-11-29 Ricoh Co Ltd 文書管理システム
JP4616522B2 (ja) * 2001-07-12 2011-01-19 株式会社リコー 文書認識装置、文書画像の領域識別方法、プログラム及び記憶媒体
JP4111787B2 (ja) 2002-09-11 2008-07-02 株式会社リコー 行切り出し装置、行切り出し方法、プログラム及び記録媒体
US6810136B2 (en) * 2002-10-18 2004-10-26 Olive Software Inc. System and method for automatic preparation of data repositories from microfilm-type materials
JP4678712B2 (ja) 2003-07-31 2011-04-27 株式会社リコー 言語識別装置、プログラム及び記録媒体
CN100382096C (zh) 2003-08-20 2008-04-16 奥西-技术有限公司 文档扫描设备及方法
US20070035780A1 (en) * 2005-08-02 2007-02-15 Kabushiki Kaisha Toshiba System and method for defining characteristic data of a scanned document

Also Published As

Publication number Publication date
CN1945599A (zh) 2007-04-11
JP2007102715A (ja) 2007-04-19
CN100424716C (zh) 2008-10-08
US20070081179A1 (en) 2007-04-12
US8041113B2 (en) 2011-10-18

Similar Documents

Publication Publication Date Title
JP4856925B2 (ja) 画像処理装置、画像処理方法及び画像処理プログラム
JP5659563B2 (ja) 識別方法、識別装置およびコンピュータプログラム
JP4546291B2 (ja) 画像処理装置およびその制御方法
JP3359095B2 (ja) 画像処理方法及び装置
JP3302147B2 (ja) 文書画像処理方法
US8107727B2 (en) Document processing apparatus, document processing method, and computer program product
US7391917B2 (en) Image processing method
JP3253356B2 (ja) 文書画像の領域識別方法
CN102782702B (zh) 在光学字符识别(ocr)过程中的段落识别
US8355578B2 (en) Image processing apparatus, image processing method, and storage medium
EP1473642A2 (en) Information processing apparatus, method, storage medium and program
JPH0668300A (ja) 文書画像のレイアウトモデルを作成する方法及び装置
JPH10162150A (ja) ページ解析システム
JPH08235349A (ja) ページ解析システム
JP4785655B2 (ja) 文書処理装置及び文書処理方法
US20150046784A1 (en) Extraction device for composite graph in fixed layout document and extraction method thereof
US20090274369A1 (en) Image processing device, image processing method, program, and storage medium
US8538154B2 (en) Image processing method and image processing apparatus for extracting heading region from image of document
JP2006085665A (ja) 画像処理装置、画像処理プログラム、記憶媒体、画像処理方法および画像形成装置
US8023735B2 (en) Image processing apparatus for extracting representative characteristic from image data and storing image data to be associated with representative characteristic
JP2006221569A (ja) 文書処理システム、文書処理方法、プログラムおよび記憶媒体
JP3837193B2 (ja) 文字行抽出方法および装置
JP5950700B2 (ja) 画像処理装置、画像処理方法及びプログラム
JP2006253842A (ja) 画像処理装置、画像形成装置、プログラム、記憶媒体および画像処理方法
JP2007310501A (ja) 情報処理装置、その制御方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080917

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110510

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110701

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110701

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111025

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111031

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141104

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4856925

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees