JP2007172132A - レイアウト解析プログラム、レイアウト解析装置、レイアウト解析方法 - Google Patents

レイアウト解析プログラム、レイアウト解析装置、レイアウト解析方法 Download PDF

Info

Publication number
JP2007172132A
JP2007172132A JP2005366466A JP2005366466A JP2007172132A JP 2007172132 A JP2007172132 A JP 2007172132A JP 2005366466 A JP2005366466 A JP 2005366466A JP 2005366466 A JP2005366466 A JP 2005366466A JP 2007172132 A JP2007172132 A JP 2007172132A
Authority
JP
Japan
Prior art keywords
layout analysis
extracted
binary image
character
extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005366466A
Other languages
English (en)
Other versions
JP4771804B2 (ja
Inventor
Yutaka Katsuyama
裕 勝山
Hiroaki Takebe
浩明 武部
Koji Kurokawa
浩司 黒川
Katsuto Fujimoto
克仁 藤本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2005366466A priority Critical patent/JP4771804B2/ja
Priority to US11/384,327 priority patent/US7711189B2/en
Priority to CNB2006100747956A priority patent/CN100568263C/zh
Publication of JP2007172132A publication Critical patent/JP2007172132A/ja
Application granted granted Critical
Publication of JP4771804B2 publication Critical patent/JP4771804B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text

Abstract

【課題】カラー画像であっても高精度でテキストブロックを抽出するレイアウト解析プログラム、レイアウト解析装置、レイアウト解析方法を提供する。
【解決手段】2値画像に基づいて、パターンで区切られた領域の抽出を行い、該抽出の結果を分割領域とする分割領域抽出ステップと、分割領域毎に、第1の2値画像レイアウト解析処理により抽出された文字要素の集合の抽出を行い、文字要素集合とする文字要素集合抽出ステップと、第2の2値画像レイアウト解析処理により抽出された非文字要素に重ならないように、分割領域内で文字要素集合を含む領域の抽出を行い、テキストブロックとするテキストブロック抽出ステップと、テキストブロックと第2の2値画像レイアウト解析処理により抽出された非文字要素とに基づいて、レイアウト情報を生成するレイアウト情報生成ステップとをコンピュータに実行させる。
【選択図】図1

Description

本発明は、画像からテキストブロックなどを抽出するレイアウト解析プログラム、レイアウト解析装置、レイアウト解析方法に関するものである。
OCR(Optical Character Reader)技術は、スキャナなどで読み込んだ文書画像を対象に、レイアウト認識し、文字領域の文字認識を行うものである。近年、一般文書などの文書画像の保管、検索、再利用のためにOCRアプリケーションや文書管理システムが注目を集めている。また、最近では、e−文書法の要件にもあるように、白黒のスキャンでなく、カラーのスキャンを行う場合が増えている。
カラー画像のOCR技術では、一般的に、以下の順序で処理が行われる。
1.レイアウト解析処理
2.2値化処理
3.文字領域の文字認識処理
上述したOCR技術における3つの処理のうち、レイアウト解析処理の処理精度は、他の2つの処理に比べて相対的に劣る傾向にある。更に、この傾向は、カラー画像に対するレイアウト解析処理において顕著である。
次に、カラー画像のレイアウト解析を行う従来のレイアウト解析装置の構成の一例について説明する。図17は、従来のカラー画像のためのレイアウト解析処理の構成の一例を示すブロック図である。このレイアウト解析装置は、画像取得部101、NiblackDeltaGNoiseRemoveFast2値化部102、2値画像レイアウト解析部103、テキストブロック分割部104、テキストブロック再構築部105、レイアウト情報生成部106を備える。
次に、カラー画像のレイアウト解析を行う従来のレイアウト解析装置の動作の一例について説明する。まず、画像取得部101は、まず、カラー画像を取得する。次に、NiblackDeltaGNoiseRemoveFast2値化部102は、Niblack2値化処理ベースの2値化処理であるNiblackDeltaGNoiseRemoveFast2値化処理を行う。次に、2値画像レイアウト解析部103は、2値画像を対象としたレイアウト解析処理である2値画像レイアウト解析処理を行う。ここでは、2値画像レイアウト解析処理として特許文献1の技術を用いる。その結果、文字要素であるテキストブロックと非文字要素である図表セパレータブロック(図領域、表領域、セパレータ、枠領域)が抽出される。
次に、テキストブロック分割部104は、テキストブロックを対象に、一旦テキストブロックを分割する。この処理は、新聞などに対して、段が正しく抽出されずに、2段をまとめて1つのテキストブロックとして抽出する場合があるために行われる。また、分割においては、テキストブロック内部の黒画素を縦横に投影して作成した黒画素の周期性についてヒストグラムを生成し、この結果を用いて、分割する位置を決めている。
次に、テキストブロックを再構築部105は、隣接するテキストブロックの上下端座標や左右端座標が近い場合に、2つのテキストブロックを統合する形で、テキストブロックを再構築する。次に、レイアウト情報生成部106は、得られたテキストブロックと図表セパレータブロックをレイアウト情報として出力し、レイアウト解析を終了する。
また、特許文献2に示された、画像処理装置、画像処理システム、画像処理方法、及び記憶媒体は、原画像である多値画像から複数の2値画像を取得し、複数の2値画像から黒画素の固まりを含む領域を抽出し、黒画素の固まりの開始画素及び終了画素の密集状態に基づいて領域を分割し、分割した領域内の原画像のヒストグラムから領域の属性(文字や図など)を識別するものである。
また、特許文献3に示された、文書画像中の基本成分に基づく文字列抽出装置および方法は、2値画像、多階調画像、カラー画像等の文書画像から基本成分の集合を抽出し、基本成分間の包含関係を用いて各基本成分が文字成分であるか否かの判定を行う。そして、判定結果に基づいて文字成分の集合を抽出し、文字成分の集合から文字列を抽出する。この文字列抽出装置における2値画像生成部によれば、各画素の明度成分が所定のしきい値で2値化され、描画領域に対応する値と背景領域に対応する値のいずれか一方を持つ画素から構成される2値画像が生成される。また、この2値画像生成部によれば、図・表のパターン抽出は保証されないが、文字パターンは高精度に抽出される。また、白抜き文字部分は、反転され、文字が黒、背景が白のパターンとして抽出される。
特開平11−219407号公報 特開2001−184511号公報 再表00/62243
しかしながら、従来のレイアウト解析技術のうち、1種類の2値化方法だけを用いる技術では、文字と図の両方を高精度に抽出することができない。また、文字領域における複数の背景色や白抜き文字に対応できない。例えば、上述したNiblackDeltaGNoiseRemoveFast2値化処理は、罫線の接続性を保つ傾向があるが、白抜き文字を抽出できない。また、文字と図が近くにある場合、接触しやすく正しくテキストブロックを抽出できない場合がある。
また、特許文献2の技術のように、多値画像のヒストグラムを用いて文字領域を抽出するものは、高い精度が得られない。一般に、文字領域は、多値(濃淡)画像から抽出するよりも2値画像から抽出した方が高精度である。また、特許文献2の技術では、複数の2値画像から領域を求めているが、完全包含の関係にある2つの領域のうち大きい方の領域の原画像ヒストグラムを生成する際に、内部にある小さい方の領域を除外する程度の関係しか用いていない。
本発明は上述した問題点を解決するためになされたものであり、カラー画像であっても高精度でテキストブロックを抽出するレイアウト解析プログラム、レイアウト解析装置、レイアウト解析方法を提供することを目的とする。
上述した課題を解決するため、本発明は、画像のレイアウトの解析をコンピュータに実行させるレイアウト解析プログラムであって、2値画像に基づいて、パターンで区切られた領域の抽出を行い、該抽出の結果を分割領域とする分割領域抽出ステップと、前記分割領域抽出ステップにより抽出された分割領域毎に、第1の2値画像レイアウト解析処理により抽出された文字要素の集合の抽出を行い、該抽出の結果を文字要素集合とする文字要素集合抽出ステップと、第2の2値画像レイアウト解析処理により抽出された非文字要素に重ならないように、前記文字要素集合抽出ステップにより抽出された前記分割領域内で文字要素集合を含む領域の抽出を行い、該抽出の結果をテキストブロックとするテキストブロック抽出ステップと、前記テキストブロック抽出ステップにより抽出されたテキストブロックと前記第2の2値画像レイアウト解析処理により抽出された非文字要素とに基づいて、レイアウト情報を生成するレイアウト情報生成ステップとをコンピュータに実行させるものである。
また、本発明に係るレイアウト解析プログラムにおいて、前記文字要素集合抽出ステップは、更に、前記第2の2値画像レイアウト解析処理により抽出された文字要素のうち前記第1の2値画像レイアウト解析処理により抽出された非文字要素に包含される文字要素を、前記文字要素集合に含めることを特徴とするものである。
また、本発明に係るレイアウト解析プログラムにおいて、前記テキストブロック抽出ステップは、更に、前記分割領域抽出ステップにより抽出された分割領域内でセパレータを抽出し、該セパレータと前記第2の2値画像レイアウト解析処理により抽出された非文字要素とに重ならないように、前記文字要素集合抽出ステップにより抽出された前記分割領域内で文字要素集合を含む領域の抽出を行い、該抽出の結果をテキストブロックとすることを特徴とするものである。
また、本発明に係るレイアウト解析プログラムにおいて、前記テキストブロック抽出ステップは、更に、前記第1の2値画像レイアウト解析処理により抽出された非文字要素がテキストブロックであると判断した場合、該非文字要素をテキストブロックとすることを特徴とするものである。
また、本発明に係るレイアウト解析プログラムにおいて、前記テキストブロック抽出ステップは、更に、前記第1の2値画像レイアウト解析処理により抽出された非文字要素における縦方向の黒画素の分布の周期性と横方向の黒画素の分布の周期性に基づいて、該非文字要素がテキストブロックであるか否かを判断することを特徴とするものである。
また、本発明に係るレイアウト解析プログラムにおいて、前記第1の2値画像レイアウト解析処理は、前記第2の2値画像レイアウト解析処理よりも文字要素の抽出の精度が高いことを特徴とするものである。
また、本発明に係るレイアウト解析プログラムにおいて、前記第1の2値画像レイアウト解析処理は、カラー画像である原画像に対して第1の2値化処理を行い、該2値化処理により得られる第1の2値画像に対してレイアウト解析を行うものであり、前記第2の2値画像レイアウト解析処理は、前記原画像に対して前記第1の2値化処理と異なる第2の2値化処理を行い、該2値化処理により得られる第2の2値画像に対してレイアウト解析を行うものであり、前記分割領域抽出ステップは、前記第2の2値画像に基づいて、前記分割領域の抽出を行うことを特徴とするものである。
また、本発明に係るレイアウト解析プログラムにおいて、前記分割領域抽出ステップは、前記第2の2値画像に対して輝度の反転を行い、該反転により得られる反転2値画像から黒画素の連結した領域を抽出し、該領域に外接する矩形を抽出し、該矩形の中で所定の条件を満たすものを抽出して矩形分割領域とし、矩形分割領域から当該矩形分割領域に包含される矩形分割領域を除いた領域を前記分割領域とすることを特徴とするものである。
また、本発明に係るレイアウト解析プログラムにおいて、前記第1の2値画像レイアウト解析処理は、2値画像である原画像に対してレイアウト解析を行うものであり、前記第2の2値画像レイアウト解析処理は、前記原画像に対して輝度の反転を行い、該反転により得られる反転2値画像に対してレイアウト解析を行うものであり、前記分割領域抽出ステップは、前記反転2値画像に基づいて、前記分割領域の抽出を行うことを特徴とするものである。
また、本発明に係るレイアウト解析プログラムにおいて、前記分割領域抽出ステップは、前記反転2値画像から黒画素の連結した領域を抽出し、該領域に外接する矩形を抽出し、該矩形の中で所定の条件を満たすものを抽出して矩形分割領域とし、矩形分割領域から当該矩形分割領域に包含される矩形分割領域を除いた領域を前記分割領域とすることを特徴とするものである。
また、本発明に係るレイアウト解析プログラムにおいて、前記文字要素は文字矩形であることを特徴とするものである。
また、本発明は、画像のレイアウトの解析を行うレイアウト解析装置であって、2値画像に基づいて、パターンで区切られた領域の抽出を行い、該抽出の結果を分割領域とする分割領域抽出部と、前記分割領域抽出部により抽出された分割領域毎に、第1の2値画像レイアウト解析処理により抽出された文字要素の集合の抽出を行い、該抽出の結果を文字要素集合とする文字要素集合抽出部と、第2の2値画像レイアウト解析処理により抽出された非文字要素に重ならないように、前記文字要素集合抽出部により抽出された前記分割領域内で文字要素集合を含む領域の抽出を行い、該抽出の結果をテキストブロックとするテキストブロック抽出部と、前記テキストブロック抽出部により抽出されたテキストブロックと前記第2の2値画像レイアウト解析処理により抽出された非文字要素とに基づいて、レイアウト情報を生成するレイアウト情報生成部とを備えたものである。
また、本発明に係るレイアウト解析装置において、前記文字要素集合抽出部は、更に、前記第2の2値画像レイアウト解析処理により抽出された文字要素のうち前記第1の2値画像レイアウト解析処理により抽出された非文字要素に包含される文字要素を、前記文字要素集合に含めることを特徴とするものである。
また、本発明に係るレイアウト解析装置において、前記テキストブロック抽出部は、更に、前記分割領域抽出部により抽出された分割領域内でセパレータを抽出し、該セパレータと前記第2の2値画像レイアウト解析処理により抽出された非文字要素とに重ならないように、前記文字要素集合抽出部により抽出された前記分割領域内で文字要素集合を含む領域の抽出を行い、該抽出の結果をテキストブロックとすることを特徴とするものである。
また、本発明に係るレイアウト解析装置において、前記テキストブロック抽出部は、更に、前記第1の2値画像レイアウト解析処理により抽出された非文字要素がテキストブロックであると判断した場合、該非文字要素をテキストブロックとすることを特徴とするものである。
また、本発明に係るレイアウト解析装置において、前記テキストブロック抽出部は、更に、前記第1の2値画像レイアウト解析処理により抽出された非文字要素における縦方向の黒画素の分布の周期性と横方向の黒画素の分布の周期性に基づいて、該非文字要素がテキストブロックであるか否かを判断することを特徴とするものである。
また、本発明に係るレイアウト解析装置において、前記第1の2値画像レイアウト解析処理は、前記第2の2値画像レイアウト解析処理よりも文字要素の抽出の精度が高いことを特徴とするものである。
また、本発明に係るレイアウト解析装置において、前記第1の2値画像レイアウト解析処理は、カラー画像である原画像に対して第1の2値化処理を行い、該2値化処理により得られる第1の2値画像に対してレイアウト解析を行うものであり、前記第2の2値画像レイアウト解析処理は、前記原画像に対して前記第1の2値化処理と異なる第2の2値化処理を行い、該2値化処理により得られる第2の2値画像に対してレイアウト解析を行うものであり、前記分割領域抽出部は、前記第2の2値画像に基づいて、前記分割領域の抽出を行うことを特徴とするものである。
また、本発明に係るレイアウト解析装置において、前記分割領域抽出部は、前記第2の2値画像に対して輝度の反転を行い、該反転により得られる反転2値画像から黒画素の連結した領域を抽出し、該領域に外接する矩形を抽出し、該矩形の中で所定の条件を満たすものを抽出して矩形分割領域とし、矩形分割領域から当該矩形分割領域に包含される矩形分割領域を除いた領域を前記分割領域とすることを特徴とするものである。
また、本発明は、画像のレイアウトの解析を行うレイアウト解析方法であって、2値画像に基づいて、パターンで区切られた領域の抽出を行い、該抽出の結果を分割領域とする分割領域抽出ステップと、前記分割領域抽出ステップにより抽出された分割領域毎に、第1の2値画像レイアウト解析処理により抽出された文字要素の集合の抽出を行い、該抽出の結果を文字要素集合とする文字要素集合抽出ステップと、第2の2値画像レイアウト解析処理により抽出された非文字要素に重ならないように、前記文字要素集合抽出ステップにより抽出された前記分割領域内で文字要素集合を含む領域の抽出を行い、該抽出の結果をテキストブロックとするテキストブロック抽出ステップと、前記テキストブロック抽出ステップにより抽出されたテキストブロックと前記第2の2値画像レイアウト解析処理により抽出された非文字要素とに基づいて、レイアウト情報を生成するレイアウト情報生成ステップとを実行するものである。
本発明によれば、カラー画像であっても高精度でテキストブロックを抽出することができる。
以下、本発明の実施の形態について図面を参照しつつ説明する。
本実施の形態では、カラー画像のレイアウト解析を行うレイアウト解析装置について説明する。また、本実施の形態では、e−文書法の要件を満たすカラー画像に対するレイアウト解析について説明する。すなわち、以後の説明に用いる解像度[dpi]、文字サイズ、文書サイズ等は、e−文書法の要件を満たす値とする。
まず、本実施の形態に係るレイアウト解析装置の構成について説明する。
図1は、本実施の形態に係るレイアウト解析装置の構成の一例を示すブロック図である。このレイアウト解析装置は、画像取得部11、解像度調整部12、文字要素抽出用2値化部21、解像度調整部22、2値画像レイアウト解析部23、非文字要素抽出用2値化部31、解像度調整部32、2値画像レイアウト解析部33、反転部41、矩形削除部42、矩形分割領域抽出部52、独立分割領域抽出部53、非文字要素内文字要素抽出部61、文字要素集合抽出部62、空白セパレータ抽出部63、テキストブロック抽出部64、テキストブロック変換部65、レイアウト情報生成部66を備える。
次に、本実施の形態に係るレイアウト解析装置によるカラー画像のレイアウト解析の動作について説明する。ここでは、実際の動作で得られた画像の具体例を用いて説明する。カラー画像のレイアウト解析を行う場合、矩形削除部42は必要とされない。
画像取得部11は、レイアウト解析の対象となるカラー画像を取得する。図2は、本実施の形態に係る画像取得部11の出力の一例を示す画像である。すなわち、この画像は、レイアウト解析の対象となる原画像である。画像取得部11は、カラー画像のレイアウト解析を行う場合、カラー画像を解像度調整部12へ渡す。
ここで、入力される紙の大きさが一定の範囲(A4程度)であっても、読み取り解像度が異なると画像のサイズが異なる。カラー画像の解像度やサイズを一定に保つため、解像度調整部12は、規定の解像度より大きなカラー画像が入力された場合、カラー画像の縮小を行う。本実施の形態において、解像度調整部12は、解像度が150〜250dpiになるように単純な間引き縮小を行う。解像度調整部12により調整されたカラー画像は、文字要素抽出用2値化部21と非文字要素抽出用2値化部31に渡される。カラー画像中には、文字要素と非文字要素が含まれる。文字要素抽出用2値化部21と非文字要素抽出用2値化部31のいずれも、文字要素と非文字要素を抽出することができる。文字要素は、文字の外接矩形である文字矩形として抽出され、非文字要素である図、表、セパレータなどは、これらを含む矩形として抽出される。
次に、文字要素抽出用2値化部21は、解像度調整部12により調整されたカラー画像に対して文字要素の抽出を得意とする2値化処理である文字要素抽出用2値化処理を行い、テキストブロック抽出用2値画像を生成する。ここで、文字要素抽出用2値化処理は、例えば、特許文献3における2値画像生成部の技術である。図3は、本実施の形態に係る文字要素抽出用2値化部21の出力の一例を示す画像である。すなわち、この画像は、2値画像である。
次に、解像度調整部22は、文字要素抽出用2値化部21により得られた文字要素抽出用2値画像を、この後の2値画像レイアウト解析部23に適した解像度に調整する。本実施の形態において、解像度調整部22は、解像度が400dpi程度になるよう拡大する。次に、2値画像レイアウト解析部23は、解像度調整部22により得られた文字要素抽出用2値画像に対して2値画像レイアウト解析処理を行う。ここで、2値画像レイアウト解析処理は、例えば、特許文献1の技術である。2値画像レイアウト解析部23により、文字要素抽出用2値画像から、文字要素と非文字要素が矩形として抽出され、個別に保存される。図4は、本実施の形態に係る2値画像レイアウト解析部23の出力の一例を示す画像である。この画像では、特に、文字要素である文字矩形が、表の中の文字も含め、良く抽出されている。
一方、非文字要素抽出用2値化部31は、解像度調整部12により調整されたカラー画像に対して非文字要素を得意とする非文字要素抽出用2値化処理を行い、非文字要素抽出用2値画像を生成する。ここで、非文字要素抽出用2値化処理は、例えば、上述したNiblackDeltaGNoiseRemoveFast2値化処理である。図5は、本実施の形態に係る非文字要素抽出用2値化部31の出力の一例を示す画像である。すなわち、この画像は、2値画像である。
次に、解像度調整部32は、非文字要素抽出用2値化部31により得られた非文字要素抽出用2値画像を、この後の2値画像レイアウト解析部33に適した解像度に調整する。本実施の形態において、解像度調整部32は、解像度調整部22と同様であり、解像度が400dpi程度になるよう拡大する。次に、2値画像レイアウト解析部33は、解像度調整部32により得られた非文字要素抽出用2値画像に対して2値画像レイアウト解析処理を行う。ここで、2値画像レイアウト解析処理は、2値画像レイアウト解析部23と同様であり、例えば、特許文献1の技術である。2値画像レイアウト解析部33により、非文字要素抽出用2値画像からも、文字要素と非文字要素が抽出され、個別に保存される。図6は、本実施の形態に係る2値画像レイアウト解析部33の出力の一例を示す画像である。この画像では、図4と比較して、特に、非文字要素である図や表が、良く抽出されている。
次に、反転部41は、非文字要素抽出用2値画像の輝度を反転し、反転2値画像を生成する。この反転2値画像は、枠線などのパターンを白、枠線の背景領域を黒で表すものである。カラー画像のレイアウト解析を行う場合、反転部41は、反転2値画像を矩形分割領域抽出部52へ渡す。
次に、矩形分割領域抽出部52は、反転2値画像のラベリングを行うことにより黒画素連結領域を抽出し、抽出した黒画素連結領域の外接矩形を抽出し、抽出した外接矩形の中で所定のサイズより大きいものを矩形分割領域とする。ここで、反転2値画像を用いることにより、枠線などのパターンで区切られた領域が矩形分割領域として抽出される。また、非文字要素抽出用2値画像の全体が矩形分割領域となる場合もある。図7は、本実施の形態に係る矩形分割領域抽出部52の出力の一例を示す画像である。この画像では、矩形分割領域として、枠線や表が抽出されている。
次に、独立分割領域抽出部53は、矩形分割領域の包含関係を抽出し、矩形分割領域から、それぞれ独立した部分である独立分割領域を抽出する。つまり、ある矩形分割領域から、その矩形分割領域に包含される矩形分割領域を除いた領域が、独立分割領域として抽出される。従って、独立分割領域は互いに重ならない。図8は、本実施の形態に係る独立分割領域抽出部53の動作の一例を示す画像である。独立分割領域抽出部53は、図中の矩形分割領域0〜5から、以下の独立分割領域0〜5を抽出する。
独立分割領域0
=矩形分割領域0から矩形分割領域1,3を除いた領域
独立分割領域1
=矩形分割領域1から矩形分割領域2を除いた領域
独立分割領域2
=矩形分割領域2
独立分割領域3
=矩形分割領域3から矩形分割領域4,5を除いた領域
独立分割領域4
=矩形分割領域4
独立分割領域5
=矩形分割領域5
例えば、独立分割領域0は、矩形分割領域0の内側で矩形分割領域1,3の外側の領域を表す。
非文字要素内文字要素抽出部61は、2値画像レイアウト解析部23により抽出された(文字要素抽出用2値画像から抽出された)非文字要素内で、2値画像レイアウト解析部33により抽出された(非文字要素抽出用2値画像から抽出された)文字要素を抽出する。
次に、文字要素集合抽出部62は、2値画像レイアウト解析部23により抽出された(文字要素抽出用2値画像から抽出された)文字要素のうち、独立分割領域に含まれる文字要素の集合を独立分割領域毎に抽出し、これを文字要素集合とする。また、文字要素集合抽出部62は、非文字要素内文字要素抽出部61により抽出された文字要素のうち、独立分割領域内の文字要素を、対応する文字要素集合に含める。図9は、本実施の形態に係る文字要素集合抽出部62の出力の一例を示す画像である。この画像では、図4の文字要素が独立分割領域毎に分割され文字要素集合として認識されている。
次に、空白セパレータ抽出部63は、各独立分割領域を白画素で満たす画像を生成し、その上に、文字要素集合生成部62により生成された文字要素集合を黒画素で描画し、更に、2値画像レイアウト解析部33により抽出された(非文字要素抽出用2値画像から抽出された)非文字要素を黒画素で描画する。次に、空白セパレータ抽出部63は、この画像において、縦長の所定のサイズより大きい白領域を抽出し、抽出した白領域の中心の縦線を仮想的な空白セパレータとして抽出する。図10は、本実施の形態に係る空白セパレータ抽出部63の一例の出力を表す画像である。この画像では、空白セパレータが縦長の矩形として抽出されている。本実施の形態における具体例では、縦長の所定のサイズを縦2000画素、横75画素とした。空白セパレータ抽出部63が空白セパレータを抽出することにより、独立分割領域内の空白により分離されているテキストブロックを正確に分離することができる。
次に、テキストブロック抽出部64は、文字要素集合抽出部62により抽出された文字要素集合、2値画像レイアウト解析部33により抽出された(非文字要素抽出用2値画像から抽出された)非文字要素、空白セパレータ抽出部63により抽出された空白セパレータを用いて、テキストブロックの抽出を行う。ここで、テキストブロック抽出部64は、非文字要素や空白セパレータの矩形に重複しないように文字要素集合をまとめた矩形を抽出し、テキストブロックとする。この処理は、上述した2値画像レイアウト解析処理の技術を用いることができる。
次に、テキストブロック変換部65は、2値画像レイアウト解析部33により抽出された(非文字要素抽出用2値画像から抽出された)非文字要素のうち、所定の条件を満たすものをテキストブロックに変換する。図11は、本実施の形態に係るテキストブロック変換部65の動作の一例を示す画像である。この図には、2値画像レイアウト解析部33により抽出された(非文字要素抽出用2値画像から抽出された)非文字要素の2値画像が表され、更に説明のため、2値画像の右側には後述する縦方向の黒画素数分布としきい値分布、2値画像の下側には後述する横方向の黒画素数分布としきい値分布が表されている。
まず、テキストブロック変換部65は、2値画像レイアウト解析部33により抽出された(非文字要素抽出用2値画像から抽出された)非文字要素の領域において、黒画素を縦座標毎にカウントすることにより縦方向の黒画素数分布を算出する。同様に、黒画素を横座標毎にカウントすることにより横方向の黒画素数分布を算出する。次に、テキストブロック変換部65は、縦方向の黒画素数分布の移動平均を行い、得られた値を0.5倍し、縦方向の黒画素数しきい値分布とする。同様に、横方向の黒画素数分布から、横方向の黒画素数しきい値分布を算出する。本実施の形態における具体例では、移動平均の窓サイズを21画素とした。
次に、テキストブロック変換部65は、縦座標毎に黒画素数分布と黒画素数しきい値分布の比較を行い、黒画素数分布の値が黒画素数しきい値分布の値を超える座標を縦方向の黒判定座標とする。同様に、横方向の黒画素数分布と黒画素数しきい値分布から、横方向の黒判定座標を算出する。次に、テキストブロック変換部65は、縦方向の黒判定座標が連続する幅のヒストグラムを算出し、縦方向の連続黒判定幅ヒストグラムとする。同様に、横方向の黒判定座標から、横方向の連続黒判定幅ヒストグラムを算出する。
次に、テキストブロック変換部65は、縦方向の連続黒判定幅ヒストグラムの中で最頻値の幅の値を算出し、最頻値の幅における頻度と最頻値の幅に隣接する幅における頻度とを合算し、縦方向の最頻値付近の頻度とする。同様に、横方向の連続黒判定幅ヒストグラムから、横方向の最頻値付近の頻度を算出する。次に、テキストブロック変換部65は、(縦方向の最頻値付近の頻度/縦方向の全頻度)を算出し、縦方向の最頻値付近の集中率とする。同様に、(横方向の最頻値付近の頻度)/(横方向の全頻度)を算出し、横方向の最頻値付近の集中率とする。
縦方向と横方向の少なくとも一方の最頻値付近の集中率が、所定の集中率しきい値を超えた場合、対象の非文字要素が所定の条件を満たすと判断する。つまり、非文字要素のうち、縦方向または横方向において一定の幅毎に黒画素が分布するものをテキストブロックと見なすことができる。
次に、レイアウト情報生成部66は、テキストブロック抽出部64により抽出されたテキストブロック、テキストブロック変換部65により抽出されたテキストブロック、2値画像レイアウト解析部33により抽出された(非文字要素抽出用2値画像から抽出された)非文字要素を、重複を許してまとめ、レイアウト情報として出力し、カラー画像のレイアウト解析を終了する。図12は、本実施の形態に係るレイアウト情報生成部66の出力の一例を示す画像である。この画像では、文字要素集合がまとめられ、矩形のテキストブロックとして抽出されている。上述したように、本実施の形態によれば、文字要素抽出用2値化部21と非文字要素抽出用2値化部31から抽出された要素を、特長を活かして組み合わせることにより、カラー画像であっても高精度でテキストブロックを抽出することができる。
次に、レイアウト解析装置の評価の具体例について説明する。
評価は、文字捕捉率と分離率の測定を行った。文字捕捉率と分離率は、事前に作成した正解データとレイアウト解析結果との比較により計算する。
正解データとして、サンプルデータ中でレイアウト解析装置が文字と認識すべき箇所を四角で囲んだものを、正解文字領域とする。図13は、本実施の形態の評価における正解文字領域の一例を示す図である。図と表に対しても同様の処理を行い、それぞれ正解図領域、正解表領域とする。正解データは、文字列1行に対して生成される。また、正解文字領域が分離されるべき場所において、レイアウト解析装置が1つの行として認識することは好ましくないため、正解文字領域が分離されて認識されるべき場所には分離領域を設定しておき、認識領域がこれを超えた場合、減点の対象とする。図14は、本実施の形態の評価における分離領域の一例を示す図である。分離領域の幅は、分離すべき領域の間隔の最大値をとる。分離領域の高さは、分離すべき領域の高さと同等とする。図15は、本実施の形態の評価における分離領域のサイズの一例を示す図である。
捕捉率は、レイアウト解析装置により出力された認識領域が正解領域をどの程度捕らえているかを測る指標である。レイアウト解析装置により出力される文字、図、表の認識領域が、それぞれの正解領域を含む割合から捕捉率を算出する。捕捉率のうち、文字捕捉率は、以下の式で算出される。
文字捕捉率={(レイアウト解析装置により出力された文字領域に含まれるおよその文字数)−(文字領域の不要な分割に対する減点)}/(全ての正解文字のおよその数)
およその文字数は、正解領域の幅と高さから1文字の大きさを予想し、算出する。1つの領域になるべき文字領域を不要に分割した場合、算出式は、不要な分割1件につき4文字分の捕捉漏れと同等の減点を行う。また、捕捉率を算出する際、マージンが用いられる。文字捕捉率において、横書き正解文字領域の場合、高さに所定の係数を掛けた長さをマージンとする。このとき、レイアウト解析出力結果の領域は、このマージン長さ分が拡張され、その拡張領域内に正解文字領域が含まれていれば正解とされる。縦書き正解領域の場合、横幅に所定の係数を掛けた長さをマージンとする。本評価では、係数を50%に設定して評価する。
分離率は、レイアウト解析装置が別の文字列として認識しなければならない箇所を分離して認識しているかを測る指標である。分離率の計算対象は、文字領域のみとし、図領域や表領域が分離領域を越えても評価の対象としない。レイアウト解析装置により出力された認識領域が分離領域を超えていた場合、分離すべき場所を正確に認識できなかったと判断し、不正解とする。分離領域の幅は、分離のマージンとして定義される。認識領域が重複したのみで分離領域を越えなかった場合は許容範囲内であり、正解とする。分離率は、以下の式で算出される。
分離率=1−(レイアウト解析装置により出力された文字領域のうち、分離領域を越えた文字領域の長さ)/(分離領域の長さ)
図16は、本実施の形態の評価における分離率の算出の一例を示す図である。この例における分離率は、以下の式で算出される。
分離率=1−((X1+X2)/(S1+S2))
X1,X2は、文字領域の高さであり、S1,S2は、それぞれの文字領域に対応する分離領域の高さである。すなわち、長辺にかかる部分の割合を算出する。
本実施の形態において、評価対象は、63種類のカラー文書画像である。内訳は、カタログ(6種類)、コミック(5種類)、JEITA(Japan Electronics and Information Technology industries Association)のプリンタ用評価画像(17種類)、雑誌(6種類)、新聞(8種類)、オフィス文書(社内レポート)(5種類)、パンフレット(5種類)、プレゼンテーション用ページ(5種類)、論文(6種類)である。これらの文書を24bitカラー、150dpiでスキャンし、評価用のカラー画像を生成した。
また、文字捕捉率と分離率は、上述した式の結果そのままではなく、評価対象の文書の種類の出現確率、評価対象の文書の種類の中に存在すると期待される文字数を考慮して、以下の重みをつけて算出する。
カタログ=3440
コミック=1800
JEITAのプリンタ用評価画像=10796
雑誌=7475
新聞=4530
オフィス文書(社内レポート)=14634
パンフレット=3514
プレゼンテーション用ページ=2463
論文=16318
まず、それぞれの種類の画像における平均値を算出し、この重みを掛ける加重平均を行い、最終的な値とする。
以上説明した評価の結果、上述した従来のレイアウト解析装置による文字捕捉率が90.92%、分離率が95.18%であったのに対して、本実施の形態のレイアウト解析装置による文字捕捉率が96.89%、分離率が96.82%となり、本発明の有効性が確認された。
次に、本実施の形態に係るレイアウト解析装置が、2値画像のレイアウト解析を行う場合の動作について説明する。
画像取得部11は、2値画像のレイアウト解析を行う場合、2値画像を解像度調整部22と解像度調整部32へ渡す。解像度調整部22と解像度調整部32の処理は、上述のカラー画像のレイアウト解析の場合と同様である。2値画像のレイアウト解析を行う場合、反転部41は、反転2値画像を矩形削除部42へ渡す。矩形削除部42は、反転2値画像のラベリングを行うことにより黒画素連結領域を抽出し、抽出した黒画素連結領域の外接矩形を抽出し、抽出した外接矩形の中で最も面積の大きいものを反転2値画像から削除し、得られた反転2値画像を矩形分割領域抽出部52と2値画像レイアウト解析部33へ渡す。以後の処理は、上述したカラー画像のレイアウト解析の場合と同様である。
このような処理を行うことにより、本実施の形態のレイアウト解析装置は、2値画像に対しても高精度でテキストブロックの抽出を行うことができる。
また、本実施の形態に係るレイアウト解析装置は、OCR装置に容易に適用することができ、OCR装置の性能をより高めることができる。ここで、OCR装置には、例えば情報処理装置、スキャナ等が含まれ得る。
更に、レイアウト解析装置を構成するコンピュータにおいて上述した各ステップを実行させるプログラムを、レイアウト解析プログラムとして提供することができる。上述したプログラムは、コンピュータにより読取り可能な記録媒体に記憶させることによって、レイアウト解析装置を構成するコンピュータに実行させることが可能となる。ここで、上記コンピュータにより読取り可能な記録媒体としては、ROMやRAM等のコンピュータに内部実装される内部記憶装置、CD−ROMやフレキシブルディスク、DVDディスク、光磁気ディスク、ICカード等の可搬型記憶媒体や、コンピュータプログラムを保持するデータベース、或いは、他のコンピュータ並びにそのデータベースや、更に回線上の伝送媒体をも含むものである。
なお、分割領域抽出ステップと分割領域抽出部は、実施の形態における反転部41、矩形削除部42、矩形分割領域抽出部52、独立分割領域抽出部53に対応する。また、文字要素集合抽出ステップと文字要素集合抽出部は、実施の形態における非文字要素内文字要素抽出部61、文字要素集合抽出部62に対応する。また、テキストブロック抽出ステップとテキストブロック抽出部は、実施の形態における空白セパレータ抽出部63、テキストブロック抽出部64、テキストブロック変換部65に対応する。また、レイアウト情報生成ステップとレイアウト情報生成部は、実施の形態におけるレイアウト情報生成部66に対応する。
また、第1の2値画像レイアウト解析処理は、2値画像レイアウト解析部22に対応する。また、第2の2値画像レイアウト解析処理は、実施の形態における2値画像レイアウト解析部32に対応する。また、第1の2値化処理は、実施の形態における文字要素抽出用2値化部21に対応する。また、第2の2値化処理は、実施の形態における非文字要素抽出用2値化部31に対応する。また、分割領域は、実施の形態における独立分割領域に対応する。
(付記1) 画像のレイアウトの解析をコンピュータに実行させるレイアウト解析プログラムであって、
2値画像に基づいて、パターンで区切られた領域の抽出を行い、該抽出の結果を分割領域とする分割領域抽出ステップと、
前記分割領域抽出ステップにより抽出された分割領域毎に、第1の2値画像レイアウト解析処理により抽出された文字要素の集合の抽出を行い、該抽出の結果を文字要素集合とする文字要素集合抽出ステップと、
第2の2値画像レイアウト解析処理により抽出された非文字要素に重ならないように、前記文字要素集合抽出ステップにより抽出された前記分割領域内で文字要素集合を含む領域の抽出を行い、該抽出の結果をテキストブロックとするテキストブロック抽出ステップと、
前記テキストブロック抽出ステップにより抽出されたテキストブロックと前記第2の2値画像レイアウト解析処理により抽出された非文字要素とに基づいて、レイアウト情報を生成するレイアウト情報生成ステップと
をコンピュータに実行させるレイアウト解析プログラム。
(付記2) 付記1に記載のレイアウト解析プログラムにおいて、
前記文字要素集合抽出ステップは、更に、前記第2の2値画像レイアウト解析処理により抽出された文字要素のうち前記第1の2値画像レイアウト解析処理により抽出された非文字要素に包含される文字要素を、前記文字要素集合に含めることを特徴とするレイアウト解析プログラム。
(付記3) 付記1または付記2に記載のレイアウト解析プログラムにおいて、
前記テキストブロック抽出ステップは、更に、前記分割領域抽出ステップにより抽出された分割領域内でセパレータを抽出し、該セパレータと前記第2の2値画像レイアウト解析処理により抽出された非文字要素とに重ならないように、前記文字要素集合抽出ステップにより抽出された前記分割領域内で文字要素集合を含む領域の抽出を行い、該抽出の結果をテキストブロックとすることを特徴とするレイアウト解析プログラム。
(付記4) 付記1乃至付記3のいずれかに記載のレイアウト解析プログラムにおいて、
前記テキストブロック抽出ステップは、更に、前記第1の2値画像レイアウト解析処理により抽出された非文字要素がテキストブロックであると判断した場合、該非文字要素をテキストブロックとすることを特徴とするレイアウト解析プログラム。
(付記5) 付記4に記載のレイアウト解析プログラムにおいて、
前記テキストブロック抽出ステップは、更に、前記第1の2値画像レイアウト解析処理により抽出された非文字要素における縦方向の黒画素の分布の周期性と横方向の黒画素の分布の周期性に基づいて、該非文字要素がテキストブロックであるか否かを判断することを特徴とするレイアウト解析プログラム。
(付記6) 付記1乃至付記5のいずれかに記載のレイアウト解析プログラムにおいて、
前記第1の2値画像レイアウト解析処理は、前記第2の2値画像レイアウト解析処理よりも文字要素の抽出の精度が高いことを特徴とするレイアウト解析プログラム。
(付記7) 付記1乃至付記6のいずれかに記載のレイアウト解析プログラムにおいて、
前記第1の2値画像レイアウト解析処理は、カラー画像である原画像に対して第1の2値化処理を行い、該2値化処理により得られる第1の2値画像に対してレイアウト解析を行うものであり、
前記第2の2値画像レイアウト解析処理は、前記原画像に対して前記第1の2値化処理と異なる第2の2値化処理を行い、該2値化処理により得られる第2の2値画像に対してレイアウト解析を行うものであり、
前記分割領域抽出ステップは、前記第2の2値画像に基づいて、前記分割領域の抽出を行うことを特徴とするレイアウト解析プログラム。
(付記8) 付記7に記載のレイアウト解析プログラムにおいて、
前記分割領域抽出ステップは、前記第2の2値画像に対して輝度の反転を行い、該反転により得られる反転2値画像から黒画素の連結した領域を抽出し、該領域に外接する矩形を抽出し、該矩形の中で所定の条件を満たすものを抽出して矩形分割領域とし、矩形分割領域から当該矩形分割領域に包含される矩形分割領域を除いた領域を前記分割領域とすることを特徴とするレイアウト解析プログラム。
(付記9) 付記1乃至付記6のいずれかに記載のレイアウト解析プログラムにおいて、
前記第1の2値画像レイアウト解析処理は、2値画像である原画像に対してレイアウト解析を行うものであり、
前記第2の2値画像レイアウト解析処理は、前記原画像に対して輝度の反転を行い、該反転により得られる反転2値画像に対してレイアウト解析を行うものであり、
前記分割領域抽出ステップは、前記反転2値画像に基づいて、前記分割領域の抽出を行うことを特徴とするレイアウト解析プログラム。
(付記10) 付記9に記載のレイアウト解析プログラムにおいて、
前記分割領域抽出ステップは、前記反転2値画像から黒画素の連結した領域を抽出し、該領域に外接する矩形を抽出し、該矩形の中で所定の条件を満たすものを抽出して矩形分割領域とし、矩形分割領域から当該矩形分割領域に包含される矩形分割領域を除いた領域を前記分割領域とすることを特徴とするレイアウト解析プログラム。
(付記11) 付記1乃至付記10のいずれかに記載のレイアウト解析プログラムにおいて、
前記文字要素は文字矩形であることを特徴とするレイアウト解析プログラム。
(付記12) 画像のレイアウトの解析を行うレイアウト解析装置であって、
2値画像に基づいて、パターンで区切られた領域の抽出を行い、該抽出の結果を分割領域とする分割領域抽出部と、
前記分割領域抽出部により抽出された分割領域毎に、第1の2値画像レイアウト解析処理により抽出された文字要素の集合の抽出を行い、該抽出の結果を文字要素集合とする文字要素集合抽出部と、
第2の2値画像レイアウト解析処理により抽出された非文字要素に重ならないように、前記文字要素集合抽出部により抽出された前記分割領域内で文字要素集合を含む領域の抽出を行い、該抽出の結果をテキストブロックとするテキストブロック抽出部と、
前記テキストブロック抽出部により抽出されたテキストブロックと前記第2の2値画像レイアウト解析処理により抽出された非文字要素とに基づいて、レイアウト情報を生成するレイアウト情報生成部と
を備えるレイアウト解析装置。
(付記13) 付記12に記載のレイアウト解析装置において、
前記文字要素集合抽出部は、更に、前記第2の2値画像レイアウト解析処理により抽出された文字要素のうち前記第1の2値画像レイアウト解析処理により抽出された非文字要素に包含される文字要素を、前記文字要素集合に含めることを特徴とするレイアウト解析装置。
(付記14) 付記12または付記13に記載のレイアウト解析装置において、
前記テキストブロック抽出部は、更に、前記分割領域抽出部により抽出された分割領域内でセパレータを抽出し、該セパレータと前記第2の2値画像レイアウト解析処理により抽出された非文字要素とに重ならないように、前記文字要素集合抽出部により抽出された前記分割領域内で文字要素集合を含む領域の抽出を行い、該抽出の結果をテキストブロックとすることを特徴とするレイアウト解析装置。
(付記15) 付記12乃至付記14のいずれかに記載のレイアウト解析装置において、
前記テキストブロック抽出部は、更に、前記第1の2値画像レイアウト解析処理により抽出された非文字要素がテキストブロックであると判断した場合、該非文字要素をテキストブロックとすることを特徴とするレイアウト解析装置。
(付記16) 付記15に記載のレイアウト解析装置において、
前記テキストブロック抽出部は、更に、前記第1の2値画像レイアウト解析処理により抽出された非文字要素における縦方向の黒画素の分布の周期性と横方向の黒画素の分布の周期性に基づいて、該非文字要素がテキストブロックであるか否かを判断することを特徴とするレイアウト解析装置。
(付記17) 付記12乃至付記16のいずれかに記載のレイアウト解析装置において、
前記第1の2値画像レイアウト解析処理は、前記第2の2値画像レイアウト解析処理よりも文字要素の抽出の精度が高いことを特徴とするレイアウト解析装置。
(付記18) 付記12乃至付記17のいずれかに記載のレイアウト解析装置において、
前記第1の2値画像レイアウト解析処理は、カラー画像である原画像に対して第1の2値化処理を行い、該2値化処理により得られる第1の2値画像に対してレイアウト解析を行うものであり、
前記第2の2値画像レイアウト解析処理は、前記原画像に対して前記第1の2値化処理と異なる第2の2値化処理を行い、該2値化処理により得られる第2の2値画像に対してレイアウト解析を行うものであり、
前記分割領域抽出部は、前記第2の2値画像に基づいて、前記分割領域の抽出を行うことを特徴とするレイアウト解析装置。
(付記19) 付記18に記載のレイアウト解析装置において、
前記分割領域抽出部は、前記第2の2値画像に対して輝度の反転を行い、該反転により得られる反転2値画像から黒画素の連結した領域を抽出し、該領域に外接する矩形を抽出し、該矩形の中で所定の条件を満たすものを抽出して矩形分割領域とし、矩形分割領域から当該矩形分割領域に包含される矩形分割領域を除いた領域を前記分割領域とすることを特徴とするレイアウト解析装置。
(付記20) 画像のレイアウトの解析を行うレイアウト解析方法であって、
2値画像に基づいて、パターンで区切られた領域の抽出を行い、該抽出の結果を分割領域とする分割領域抽出ステップと、
前記分割領域抽出ステップにより抽出された分割領域毎に、第1の2値画像レイアウト解析処理により抽出された文字要素の集合の抽出を行い、該抽出の結果を文字要素集合とする文字要素集合抽出ステップと、
第2の2値画像レイアウト解析処理により抽出された非文字要素に重ならないように、前記文字要素集合抽出ステップにより抽出された前記分割領域内で文字要素集合を含む領域の抽出を行い、該抽出の結果をテキストブロックとするテキストブロック抽出ステップと、
前記テキストブロック抽出ステップにより抽出されたテキストブロックと前記第2の2値画像レイアウト解析処理により抽出された非文字要素とに基づいて、レイアウト情報を生成するレイアウト情報生成ステップと
を実行するレイアウト解析方法。
本実施の形態に係るレイアウト解析装置の構成の一例を示すブロック図である。 本実施の形態に係る画像取得部11の出力の一例を示す画像である。 本実施の形態に係る文字要素抽出用2値化部21の出力の一例を示す画像である。 本実施の形態に係る2値画像レイアウト解析部23の出力の一例を示す画像である。 本実施の形態に係る非文字要素抽出用2値化部31の出力の一例を示す画像である。 本実施の形態に係る2値画像レイアウト解析部33の出力の一例を示す画像である。 本実施の形態に係る矩形分割領域抽出部52の出力の一例を示す画像である。 本実施の形態に係る独立分割領域抽出部53の動作の一例を示す画像である。 本実施の形態に係る文字要素集合抽出部62の出力の一例を示す画像である。 本実施の形態に係る空白セパレータ抽出部63の出力の一例を示す画像である。 本実施の形態に係るテキストブロック変換部65の動作の一例を示す画像である。 本実施の形態に係るレイアウト情報生成部66の出力の一例を示す画像である。 本実施の形態の評価における正解文字領域の一例を示す図である。 本実施の形態の評価における分離領域の一例を示す図である。 本実施の形態の評価における分離領域のサイズの一例を示す図である。 本実施の形態の評価における分離率の算出の一例を示す図である。 従来のカラー画像のためのレイアウト解析処理の構成の一例を示すブロック図である。
符号の説明
11 画像取得部、12 解像度調整部、21 文字要素抽出用2値化部、22 解像度調整部、23 2値画像レイアウト解析部、31 非文字要素抽出用2値化部、32 解像度調整部、33 2値画像レイアウト解析部、41 反転部、42 矩形削除部、52 矩形分割領域抽出部、53 独立分割領域抽出部、61 非文字要素内文字要素抽出部、62 文字要素集合抽出部、63 空白セパレータ抽出部、64 テキストブロック抽出部、65 テキストブロック変換部、66 レイアウト情報生成部。

Claims (10)

  1. 画像のレイアウトの解析をコンピュータに実行させるレイアウト解析プログラムであって、
    2値画像に基づいて、パターンで区切られた領域の抽出を行い、該抽出の結果を分割領域とする分割領域抽出ステップと、
    前記分割領域抽出ステップにより抽出された分割領域毎に、第1の2値画像レイアウト解析処理により抽出された文字要素の集合の抽出を行い、該抽出の結果を文字要素集合とする文字要素集合抽出ステップと、
    第2の2値画像レイアウト解析処理により抽出された非文字要素に重ならないように、前記文字要素集合抽出ステップにより抽出された前記分割領域内で文字要素集合を含む領域の抽出を行い、該抽出の結果をテキストブロックとするテキストブロック抽出ステップと、
    前記テキストブロック抽出ステップにより抽出されたテキストブロックと前記第2の2値画像レイアウト解析処理により抽出された非文字要素とに基づいて、レイアウト情報を生成するレイアウト情報生成ステップと
    をコンピュータに実行させるレイアウト解析プログラム。
  2. 請求項1に記載のレイアウト解析プログラムにおいて、
    前記文字要素集合抽出ステップは、更に、前記第2の2値画像レイアウト解析処理により抽出された文字要素のうち前記第1の2値画像レイアウト解析処理により抽出された非文字要素に包含される文字要素を、前記文字要素集合に含めることを特徴とするレイアウト解析プログラム。
  3. 請求項1または請求項2に記載のレイアウト解析プログラムにおいて、
    前記テキストブロック抽出ステップは、更に、前記分割領域抽出ステップにより抽出された分割領域内でセパレータを抽出し、該セパレータと前記第2の2値画像レイアウト解析処理により抽出された非文字要素とに重ならないように、前記文字要素集合抽出ステップにより抽出された前記分割領域内で文字要素集合を含む領域の抽出を行い、該抽出の結果をテキストブロックとすることを特徴とするレイアウト解析プログラム。
  4. 請求項1乃至請求項3のいずれかに記載のレイアウト解析プログラムにおいて、
    前記テキストブロック抽出ステップは、更に、前記第1の2値画像レイアウト解析処理により抽出された非文字要素がテキストブロックであると判断した場合、該非文字要素をテキストブロックとすることを特徴とするレイアウト解析プログラム。
  5. 請求項1乃至請求項4に記載のレイアウト解析プログラムにおいて、
    前記テキストブロック抽出ステップは、更に、前記第1の2値画像レイアウト解析処理により抽出された非文字要素における縦方向の黒画素の分布の周期性と横方向の黒画素の分布の周期性に基づいて、該非文字要素がテキストブロックであるか否かを判断することを特徴とするレイアウト解析プログラム。
  6. 請求項1乃至請求項5のいずれかに記載のレイアウト解析プログラムにおいて、
    前記第1の2値画像レイアウト解析処理は、前記第2の2値画像レイアウト解析処理よりも文字要素の抽出の精度が高いことを特徴とするレイアウト解析プログラム。
  7. 請求項1乃至請求項6のいずれかに記載のレイアウト解析プログラムにおいて、
    前記第1の2値画像レイアウト解析処理は、カラー画像である原画像に対して第1の2値化処理を行い、該2値化処理により得られる第1の2値画像に対してレイアウト解析を行うものであり、
    前記第2の2値画像レイアウト解析処理は、前記原画像に対して前記第1の2値化処理と異なる第2の2値化処理を行い、該2値化処理により得られる第2の2値画像に対してレイアウト解析を行うものであり、
    前記分割領域抽出ステップは、前記第2の2値画像に基づいて、前記分割領域の抽出を行うことを特徴とするレイアウト解析プログラム。
  8. 請求項7に記載のレイアウト解析プログラムにおいて、
    前記分割領域抽出ステップは、前記第2の2値画像に対して輝度の反転を行い、該反転により得られる反転2値画像から黒画素の連結した領域を抽出し、該領域に外接する矩形を抽出し、該矩形の中で所定の条件を満たすものを抽出して矩形分割領域とし、矩形分割領域から当該矩形分割領域に包含される矩形分割領域を除いた領域を前記分割領域とすることを特徴とするレイアウト解析プログラム。
  9. 画像のレイアウトの解析を行うレイアウト解析装置であって、
    2値画像に基づいて、パターンで区切られた領域の抽出を行い、該抽出の結果を分割領域とする分割領域抽出部と、
    前記分割領域抽出部により抽出された分割領域毎に、第1の2値画像レイアウト解析処理により抽出された文字要素の集合の抽出を行い、該抽出の結果を文字要素集合とする文字要素集合抽出部と、
    第2の2値画像レイアウト解析処理により抽出された非文字要素に重ならないように、前記文字要素集合抽出部により抽出された前記分割領域内で文字要素集合を含む領域の抽出を行い、該抽出の結果をテキストブロックとするテキストブロック抽出部と、
    前記テキストブロック抽出部により抽出されたテキストブロックと前記第2の2値画像レイアウト解析処理により抽出された非文字要素とに基づいて、レイアウト情報を生成するレイアウト情報生成部と
    を備えるレイアウト解析装置。
  10. 画像のレイアウトの解析を行うレイアウト解析方法であって、
    2値画像に基づいて、パターンで区切られた領域の抽出を行い、該抽出の結果を分割領域とする分割領域抽出ステップと、
    前記分割領域抽出ステップにより抽出された分割領域毎に、第1の2値画像レイアウト解析処理により抽出された文字要素の集合の抽出を行い、該抽出の結果を文字要素集合とする文字要素集合抽出ステップと、
    第2の2値画像レイアウト解析処理により抽出された非文字要素に重ならないように、前記文字要素集合抽出ステップにより抽出された前記分割領域内で文字要素集合を含む領域の抽出を行い、該抽出の結果をテキストブロックとするテキストブロック抽出ステップと、
    前記テキストブロック抽出ステップにより抽出されたテキストブロックと前記第2の2値画像レイアウト解析処理により抽出された非文字要素とに基づいて、レイアウト情報を生成するレイアウト情報生成ステップと
    を実行するレイアウト解析方法。
JP2005366466A 2005-12-20 2005-12-20 レイアウト解析プログラム、レイアウト解析装置、レイアウト解析方法 Expired - Fee Related JP4771804B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2005366466A JP4771804B2 (ja) 2005-12-20 2005-12-20 レイアウト解析プログラム、レイアウト解析装置、レイアウト解析方法
US11/384,327 US7711189B2 (en) 2005-12-20 2006-03-21 Layout analysis program, layout analysis apparatus and layout analysis method
CNB2006100747956A CN100568263C (zh) 2005-12-20 2006-04-14 布局分析设备和布局分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005366466A JP4771804B2 (ja) 2005-12-20 2005-12-20 レイアウト解析プログラム、レイアウト解析装置、レイアウト解析方法

Publications (2)

Publication Number Publication Date
JP2007172132A true JP2007172132A (ja) 2007-07-05
JP4771804B2 JP4771804B2 (ja) 2011-09-14

Family

ID=38173551

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005366466A Expired - Fee Related JP4771804B2 (ja) 2005-12-20 2005-12-20 レイアウト解析プログラム、レイアウト解析装置、レイアウト解析方法

Country Status (3)

Country Link
US (1) US7711189B2 (ja)
JP (1) JP4771804B2 (ja)
CN (1) CN100568263C (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010092265A (ja) * 2008-10-08 2010-04-22 Calsonic Kansei Corp 表面形状データ作成方法およびこれに用いる表面形状データ作成装置

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005073015A (ja) * 2003-08-26 2005-03-17 Canon Inc 画像処理装置及び画像処理方法及びコンピュータプログラム
JP4717562B2 (ja) * 2005-09-02 2011-07-06 キヤノン株式会社 画像処理装置及び方法
JP4771804B2 (ja) * 2005-12-20 2011-09-14 富士通株式会社 レイアウト解析プログラム、レイアウト解析装置、レイアウト解析方法
JP2009031876A (ja) * 2007-07-24 2009-02-12 Sharp Corp 画像処理装置およびそれを備えた画像形成装置、画像読取装置、画像処理方法、画像処理プログラム、画像処理プログラムを記録した記録媒体
CN101551859B (zh) * 2008-03-31 2012-01-04 夏普株式会社 图像辨别装置及图像检索装置
JP5222126B2 (ja) * 2008-12-25 2013-06-26 キヤノン株式会社 画像処理方法、画像処理装置及びプログラム
JP4977232B2 (ja) * 2010-05-12 2012-07-18 株式会社東芝 文字読取結果確認装置および文字読取結果確認方法
WO2012127578A1 (ja) * 2011-03-18 2012-09-27 富士通株式会社 画像処理装置、画像処理方法及び画像処理用コンピュータプログラム
CN103377379A (zh) * 2012-04-27 2013-10-30 佳能株式会社 文本检测设备、文本信息提取系统及其方法
CN102681986A (zh) * 2012-05-23 2012-09-19 董名垂 页面即时翻译系统及页面即时翻译方法
US8867838B2 (en) * 2012-09-13 2014-10-21 Xerox Corporation Method and system for a text data entry from an electronic document
US9355313B2 (en) * 2014-03-11 2016-05-31 Microsoft Technology Licensing, Llc Detecting and extracting image document components to create flow document
CN104461545B (zh) * 2014-12-12 2018-09-07 百度在线网络技术(北京)有限公司 将移动终端中内容提供至用户的方法及装置
CN104751148B (zh) * 2015-04-16 2018-09-07 同方知网数字出版技术股份有限公司 一种版式文件中识别科学公式的方法
CN107886015B (zh) * 2016-09-29 2021-06-11 株式会社理光 条形码打印方法以及条形码打印装置
CN114595903B (zh) * 2022-05-10 2022-07-29 安徽智享云科技有限公司 一种基于bim的施工现场布局优化系统及方法
CN114722442B (zh) * 2022-06-08 2022-09-09 广东三维家信息科技有限公司 柜体的布局方法、装置、计算机设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09114923A (ja) * 1995-10-23 1997-05-02 Ricoh Co Ltd 領域分割装置
JP2001297303A (ja) * 2000-02-09 2001-10-26 Ricoh Co Ltd 文書画像認識方法、装置及びコンピュータ読み取り可能な記録媒体
JP2002108847A (ja) * 2000-09-28 2002-04-12 Toshiba Corp 文書認識装置及び文書認識方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59101969A (ja) * 1982-12-01 1984-06-12 Dainippon Screen Mfg Co Ltd 2値画像パタ−ンのデ−タ処理方法及び装置
US5181255A (en) * 1990-12-13 1993-01-19 Xerox Corporation Segmentation of handwriting and machine printed text
JPH03290774A (ja) * 1990-04-06 1991-12-20 Fuji Facom Corp 文書画像の文章領域抽出装置
CA2077969C (en) * 1991-11-19 1997-03-04 Daniel P. Huttenlocher Method of deriving wordshapes for subsequent comparison
US5680479A (en) * 1992-04-24 1997-10-21 Canon Kabushiki Kaisha Method and apparatus for character recognition
US5872864A (en) * 1992-09-25 1999-02-16 Olympus Optical Co., Ltd. Image processing apparatus for performing adaptive data processing in accordance with kind of image
US5848184A (en) * 1993-03-15 1998-12-08 Unisys Corporation Document page analyzer and method
DE69519323T2 (de) * 1994-04-15 2001-04-12 Canon Kk System zur Seitensegmentierung und Zeichenerkennung
JP4077919B2 (ja) * 1998-01-30 2008-04-23 キヤノン株式会社 画像処理方法及び装置及びその記憶媒体
US6160913A (en) * 1998-03-25 2000-12-12 Eastman Kodak Company Method and apparatus for digital halftone dots detection and removal in business documents
US6360009B2 (en) * 1998-09-23 2002-03-19 Xerox Corporation Image segmentation apparatus and method
US6373981B1 (en) * 1998-12-21 2002-04-16 Xerox Corporation Method and apparatus for segmenting data to create mixed raster content planes
JP2001043312A (ja) 1999-05-26 2001-02-16 Ricoh Co Ltd 文書画像処理装置
US6941014B2 (en) * 2000-12-15 2005-09-06 Xerox Corporation Method and apparatus for segmenting an image using a combination of image segmentation techniques
JP4771804B2 (ja) * 2005-12-20 2011-09-14 富士通株式会社 レイアウト解析プログラム、レイアウト解析装置、レイアウト解析方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09114923A (ja) * 1995-10-23 1997-05-02 Ricoh Co Ltd 領域分割装置
JP2001297303A (ja) * 2000-02-09 2001-10-26 Ricoh Co Ltd 文書画像認識方法、装置及びコンピュータ読み取り可能な記録媒体
JP2002108847A (ja) * 2000-09-28 2002-04-12 Toshiba Corp 文書認識装置及び文書認識方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010092265A (ja) * 2008-10-08 2010-04-22 Calsonic Kansei Corp 表面形状データ作成方法およびこれに用いる表面形状データ作成装置

Also Published As

Publication number Publication date
JP4771804B2 (ja) 2011-09-14
CN1987895A (zh) 2007-06-27
US20070140560A1 (en) 2007-06-21
CN100568263C (zh) 2009-12-09
US7711189B2 (en) 2010-05-04

Similar Documents

Publication Publication Date Title
JP4771804B2 (ja) レイアウト解析プログラム、レイアウト解析装置、レイアウト解析方法
CN111814722B (zh) 一种图像中的表格识别方法、装置、电子设备及存储介质
US7054485B2 (en) Image processing method, apparatus and system
CA2789813C (en) Document page segmentation in optical character recognition
JP5624004B2 (ja) ハーフトーンパターンで印刷されたグレーまたは淡色テキストを含む、スキャンされた文書画像を2値化するための方法
US10817559B2 (en) Image processing apparatus with document similarity processing, and image processing method and storage medium therefor
JP3278471B2 (ja) 領域分割方法
US8693790B2 (en) Form template definition method and form template definition apparatus
US20100033765A1 (en) Document type classification for scanned bitmaps
US6532302B2 (en) Multiple size reductions for image segmentation
KR20120132314A (ko) 화상 처리 장치, 화상 처리 방법, 및 컴퓨터 판독 가능한 매체
US8538154B2 (en) Image processing method and image processing apparatus for extracting heading region from image of document
CN110598566A (zh) 图像处理方法、装置、终端和计算机可读存储介质
CN112861865B (zh) 一种基于ocr技术的辅助审计方法
JP5412903B2 (ja) 文書画像処理装置、文書画像処理方法および文書画像処理プログラム
US20120250105A1 (en) Method Of Analyzing Digital Document Images
JP5049922B2 (ja) 画像処理装置及び画像処理方法
Kumar et al. Quad: Quality assessment of documents
US8805076B2 (en) Image processing apparatus, image processing method and computer readable medium
Dey et al. A comparative study of margin noise removal algorithms on marnr: A margin noise dataset of document images
JP5517028B2 (ja) 画像処理装置
JP4731748B2 (ja) 画像処理装置、方法、プログラム及び記憶媒体
US20220406083A1 (en) Image processing apparatus, control method thereof, and storage medium
JP4587167B2 (ja) 画像処理装置及び画像処理方法
KR20230062275A (ko) 문서 분류를 위한 데이터 증강 방법 및 그 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080911

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110315

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110516

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110621

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110621

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140701

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4771804

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees