JP3960756B2 - 文書画像レイアウト識別方法および装置 - Google Patents

文書画像レイアウト識別方法および装置 Download PDF

Info

Publication number
JP3960756B2
JP3960756B2 JP2001115134A JP2001115134A JP3960756B2 JP 3960756 B2 JP3960756 B2 JP 3960756B2 JP 2001115134 A JP2001115134 A JP 2001115134A JP 2001115134 A JP2001115134 A JP 2001115134A JP 3960756 B2 JP3960756 B2 JP 3960756B2
Authority
JP
Japan
Prior art keywords
text
size
document image
candidate
density
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001115134A
Other languages
English (en)
Other versions
JP2002015323A (ja
Inventor
浩明 武部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2001115134A priority Critical patent/JP3960756B2/ja
Publication of JP2002015323A publication Critical patent/JP2002015323A/ja
Application granted granted Critical
Publication of JP3960756B2 publication Critical patent/JP3960756B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、文書画像を認識するための方法および装置に関し、さらに詳細には、文書画像のレイアウト識別処理におけるテキスト抽出処理を正確かつ高速に行うことができる文書レイアト識別方法および装置に関するものである。
【0002】
【従来の技術】
従来、レイアウト識別処理は次のように行われていた。
まず、2値の文書画像をラベリングし、連結成分の外接矩形を抽出した後、外接矩形の相対的な大きさに基づいて、テキスト、図、セパレータ等の属性を推定する。その後、テキスト候補の外接矩形を対象として、それらの相対的な大きさ、位置関係、または、周期性等を考慮することにより、テキストが構成する行及び段の抽出処理を行う。
【0003】
【発明が解決しようとする課題】
しかしながら、テキストの外接矩形を推定するときに、図10に示すように、文書に写真や新聞の見出しによく使われるような背景模様が含まれる場合、従来の方法では、写真や背景模様を構成する要素の一部が、誤ってテキストと判定されてしまうといった問題があった。
さらに、写真や背景模様は、図11(a)(b)の拡大図に示すように網点から構成されており、テキストと誤判定される要素の個数が、実際のテキストの個数と比べ、はるかに多い。そのため、テキストと誤判定された要素の影響によって、行または段抽出処理が正しく行われなかったり、行または段抽出処理の処理時間が膨大になってしまっていた。
【0004】
本発明は上記問題点を解決するためになされたものであって、その目的とするところは、文書画像に写真の一部や背景模様等、小さな構成要素が多数配置されていても、テキストの行及び段抽出処理に無駄な時間をかけることなく、正確なレイアウト識別が可能な文書レイアウト識別方法および装置を提供することである。
【0005】
【課題を解決するための手段】
図1は本発明の概要を説明する図である。
同図に示すように2値化された文書画像データはラベリング手段1でラベリング処理を施され、連結成分の外接矩形が求められる。テキストサイズ推定手段2は、各外接矩形の大きさの最頻値からテキストサイズを推定する。テキスト候補推定手段3は上記推定されたテキストサイズと各外接矩形の大きさからテキスト候補を推定する。
密集度に基づくテキスト候補判定手段4は、テキスト候補を中心とした一定の大きさの領域内に含まれるテキスト候補の個数を密集度として求め、密集度がしきい値以下のものをテキストと判定する。
すなわち、相対的な大きさに基づいてテキストと推定されたテキスト候補が、本当にテキストかどうかを、テキスト候補の周辺における矩形の密集度から再度判定し、誤判定されたテキスト候補が行及び段抽出処理に回されることを防ぐ。
具体的には、テキスト候補を中心としたある一定の大きさの領域を想定し、その内部に含まれるテキスト候補の個数を密集度として計算し、密集度があるしきい値以下であればテキストと判定し、しきい値以上ならば非テキストと判定する。また、テキスト候補の矩形集合から、新たな矩形集合を生成し、その2つの集合間で矩形の重複チェックを例えば平面走査法によって行うことにより、処理の高速化を図ることができる。
【0006】
【発明の実施の形態】
図2は本発明の処理を行うためのシステムの構成例を示す図である。本発明は、同図に示すように、CPU11、RAM12、ROM13、外部記憶装置14、プリンタ、ディスプレイ、キーボード等から構成される入出力装置15、記録媒体読み取り装置16、画像読み取りを行うカラー入力装置、CCDカメラ、スキャナ等の画像入力装置17、図示しない通信インタフェース等から構成されるシステムで実現することができる。
そして、上記スキャナ17等の画像入力装置から読み込んだ例えば前記図10に示す文書画像からテキスト部分を識別する。
【0007】
次に本発明の実施例を図3に示すフローチャートにより説明する。
図3に示すフローチャートにおいて処理対象となるデータは、上記スキャナ等の画像入力装置から入力された2値化された前記図10に示したような写真、背景模様に含む文書画像である。また、処理結果として得られる出力は、テキスト候補の外接矩形の集合である。
(1)ラベリング
入力された2値文書画像に対し、ラベリング処理を施す。すなわち、画像全体をラベリングして、図4に示すように黒画素連結領域を抽出する。
その結果、連結成分の個数と、各連結成分の外接矩形の座標が得られる。
【0008】
(2)テキストサイズ推定
上記各外接矩形に関し、次のようにヒストグラムを生成し、ヒストグラムからテキストサイズを推定する。
まず、図5(a)に示すように外接矩形の左上点を(X1 ,Y1 )、右下点を(X2 ,Y2 )とし、dx=X2 −X1 +1,dy=Y2 −Y1 +1とおく。なお、+1するのは、両端点の画素をdx,dyに含ませるためである。
次に、t=max(dx,dy)とし、ヒストグラムH1 (t)に、dx×dyすなわち外接矩形の面積を加算し、ヒストグラムH2 (t)に1を加算する。その結果、例えば図5(b)に示すようなヒストグラムH1 (t)、H2 (t)が作成される。
そして最終的に、H(t)=H1 (t)×H2 (t)により、図5(b)に示すようにヒストグラムH(t)を得る。このヒストグラムHの最大を与えるtが、テキストサイズTであると推定する。
上記のように外接矩形の面積のヒストグラムH1 (t)と外接矩形の個数のヒストグラムH2 (t)を作成し、それらを掛け合わせたヒストグラムH(t)によりテキストサイズTを推定することにより、文書画像中に、数は少なく面積の大きな矩形、数が多く面積が小さい矩形が存在しても、それらに大きく影響されることなくなくテキストサイズTを推定することができる。
【0009】
(3)矩形の大きさに基づくテキスト候補推定
前記文書画像中の各矩形に対し、t=max(dx,dy)を求め、ある数kを用いた条件式:t≦T×kを満たすものをテキスト候補と推定する。例えば、kは5などである。
【0010】
(4)密集度に基づくテキスト候補の推定
まず、密集度の定義を示す。ある領域内の矩形集合において、点Aにおける矩形の密集度とは、図6に示すように、点Aを中心とし1辺がある定められた長さの正方形の中に含まれる矩形の個数のことである。
密集度に基づくテキスト候補の推定処理においては、以下に説明するように、上記テキスト候補の矩形集合とテキストサイズTから近傍集合を生成して密集度を求め、密集度がしきい値以上のものをテキスト候補として出力する。
【0011】
▲1▼ 近傍集合生成
矩形に対し、矩形の中心点を中心とし1辺が〔テキストサイズT〕×Lの正方形を、近傍と呼ぶことにする。ここで、Lはあらかじめ定められた数で、例えば0.6などである。各矩形に対し、このような近傍を求める。
▲2▼ 重複チェックによる密集度の計算
各近傍に対し、近傍領域に含まれる矩形を後述する平面走査法により効率的に調べ上げ、各矩形に対しその近傍に含まれる矩形の個数を求める。そして、近傍に含まれる矩形の個数をその矩形の密集度ωとする。
そして、各矩形について、上記密集度ωと予め定められたしきい値thを比較し、ω≦thであれば、その矩形はテキスト候補として判定する。また、それ以外は非テキストと判定する。ここで、上記しきい値thは例えば10などである。
【0012】
以下、上記平面走査法による近傍領域に含まれる矩形の個数の求め方について説明する。平面走査法は、図7に示すように文書画像を走査線により走査して、各テキスト候補の矩形Rt〔i〕(i=1…N)の近傍Rn〔i〕(i=1…N)に含まれる矩形の個数を求める方法である。
まず、以下で使用する記述について説明する。
・矩形情報
i番目の矩形情報R〔i〕は以下のような形式を持つ。
x1:左上x座標
y1:左上y座標
x2:右下x座標
y2:右下y座標
【0013】
・カレント情報
カレント情報とは上記した走査線の役割を果たすものであり、i番目のカレントC〔i〕は以下の形式で表現される。
x :x座標
label :ラベル番号
flag1 :INまたはOUTの属性
flag2 :TEXT(テキスト候補)またはNEIGHBOR(近傍)の属性
【0014】
・スキャン集合
スキャンテキスト集合とは、上記走査線上に乗っているテキスト集合である。また、スキャン近傍集合とは上記走査線上に乗っている近傍の集合である。
・密集度の情報
i番目のテキスト候補の密集度ω〔i〕は、i番目のテキスト候補の近傍に重複するテキスト候補の個数で表され、以下の形式で表現される。
num :重複しているテキスト矩形の個数
label :重複しているテスト矩形のラベル番号
【0015】
次に平面走査法による密集度の計算について説明する。
(1) テキスト候補をRt〔i〕(i=1,…,N)によって表し、Rt〔i〕(i=1,…,N)にテキスト候補の外接矩形座標とラベル番号を代入する。
(2) 近傍をRn〔i〕(i=1,…,N)によって表し、Rn〔i〕(i=1,…,N)に、テキスト候補Rt〔i〕の近傍の座標と、Rt〔i〕のラベル番号を代入する。
【0016】
(3) カレントをC〔i〕(i=1,…,4N)によて表す。まず、C〔2i−1〕(i=i,…,N)についてxにはテキスト候補Rt〔i〕のx1を、label にはRt〔i〕のlabel を、flag1 にはINを、flag2 にはTEXTを代入する。また、C〔2i〕(i=i,…,N)について、xにはテキスト候補Rt〔i〕のx2を、label にはRt〔i〕のlabel を、flag1 にはOUTを、flag2 にはTEXTを代入する。
次に、C〔2i−1+2N〕((i=1,…,4N)について、xには近傍Rn〔i〕のlabel を、flag1 にはINを、flag2 にはNEIGHBORを代入する。また、C〔2i+2N〕(i=i,…,N)について、xには近傍Rn〔i〕のx2を、label にはRn〔i〕のlabel を、flag1 にはOUTを、flag2 にはNEIGHBORを代入する。
すなわち、テキストRt〔i〕のIN(x=x1)について、カレントC〔2i−1〕が、テキストRt〔i〕のOUT(x=x2)について、カレントC〔2i〕が、その近傍Rn〔i〕のIN(x=x1)について、カレントC〔2i−1+N〕が、Rn〔i〕のOUT(x=x2)について、カレントC〔2i+N〕が定められる。
(4) C〔i〕(i=i,…,4N)をxに関しソートする。
【0017】
(5) C〔i〕(i=i,…,4N)について以下の処理を行う。
(i) flag1 =IN、flag2 =TEXTの場合
図8(a)に示すようにC〔i〕のlabel 番号をLとするとき、テキスト候補Rt〔L〕をスキャンテキスト集合に登録する。
【0018】
(ii) flag1=OUT、flag2 =TEXTの場合
C〔i〕のlabel 番号をLとするとき、テキスト候補Rt〔L〕が、スキャン近傍集合(走査線上に乗っている近傍)に属する近傍で、その近傍のx1が上記テキスト候補Rt〔L〕のx1より小さいもの、と重なっているかをチェックする。重なっていれば、重なっている近傍のラベル番号をL1,…Lkとするとき、ω〔L1〕,ω〔L2〕,…,ω〔Lk〕について、個数を一つ増加させ、ω〔L1〕,ω〔L2〕,…,ω〔Lk〕のラベル番号に上記Lを記録する。上記処理によりω〔L1〕,ω〔L2〕,…,ω〔Lk〕にRt〔L〕が登録されたので、Rt〔L〕をスキャンテキスト集合から抹消する。
例えば、図8(b)に示すように近傍Rn〔L1〕、Rn〔L2〕がRt〔L〕と重なっており、そのx1がRt〔L〕のx1より小さい場合には、ω(L1),ω〔L2〕の個数を1増加させ、Rt〔L〕をスキャン近傍集合から抹消する。
なお、Rt〔L〕がスキャン近傍集合に属する近傍で、そのx1がRt〔L〕のx1より大きいもの(図8ではRn〔L3〕)と重なっているかは、次の(iii) でチェックされるので、ここではチェックする必要はない。
【0019】
(iii) flag1 =IN、flag2 =NEIGHBORの場合
C〔i〕のlabel 番号をLとするとき、Rn〔L〕をスキャン近傍集合に登録する。そして、Rn〔L〕がスキャンテキスト集合(走査線上に乗っているテキスト候補の集合)に属するテキスト矩形と重なっているかをチェックする。そして重なっていれば、その個数とラベル番号をω〔L〕に記録する。
例えば図9(a)に示すように、Rn〔L〕がRt〔Lm〕、Rt〔Ln〕と重なっている場合、ω(L)に個数2を加え、ラベル番号Lm,Lnを登録する。
【0020】
(iv)flag1 =OUT、flag2 =NEIGHBORの場合
C〔i〕のlabel 番号をLとするとき、Rn〔L〕がスキャンテキスト集合(走査線上に乗っているテキスト候補の集合)に属するテキスト矩形と重なっているかをチェックし、ω〔L〕に含まれていない分だけ、その個数とラベル番号をω〔L〕に追加する。そしてRn〔L〕をスキャン近傍集合から抹消する。
例えば、図9(b)に示すようにRn〔L〕がRt〔Lk〕と重なっている場合には、ω〔L〕に個数1を追加し、ラベル番号Lkを追加する。なお、Rt〔Li〕は、Rn〔L〕がスキャン近傍集合に登録されるとき、すなわち(iii) でチェックしており、すでに登録済である。
【0021】
【発明の効果】
以上説明したように、本発明においては、テキスト候補を中心とした一定の大きさの領域内に含まれるテキスト候補の個数を密集度として求め、密集度がしきい値以下のものをテキストと判定しているので、文書画像において写真の一部や背景模様等、小さな構成要素が多数配置されていても、それらをテキストと誤判定することがない。このため、テキストの行及び段抽出処理に無駄な時間をかけることなく、正確なレイアウト識別が可能となる。
【図面の簡単な説明】
【図1】本発明の概要を説明する図である。
【図2】本発明を実現するためのシステムの構成例を示す図である。
【図3】本発明の実施例の処理を示すフローチャートである。
【図4】黒画素連結領域と外接矩形を説明する図である。
【図5】テキストサイズの推定方法を説明する図である。
【図6】本発明における密集度の定義を示す図である。
【図7】平面走査法を説明する図(1)である。
【図8】平面走査法を説明する図(2)である。
【図9】平面走査法を説明する図(3)である。
【図10】本発明が対象とする文書画像の一例を示す図である。
【図11】文書画像中に含まれる写真、背景模様の1例を示す図である。
【符号の説明】
1 ラベリング手段
2 テキストサイズ推定手段
3 テキスト候補推定手段
4 密集度によるテキスト候補判定手段

Claims (3)

  1. コンピュータが、
    2値化された文書画像の黒画素の連結成分に関する外接矩形を記憶手段から読み出し、 読み出した外接矩形の大きさからテキストサイズを推定して前記記憶手段に記憶し、
    読み出したテキストサイズに基づきテキスト候補を推定して前記記憶手段に記憶し、
    読み出したテキスト候補を中心とした一定の大きさの領域内に含まれるテキスト候補の個数を密集度として求め、密集度がしきい値以下のものをテキストと判定し、判定されたテキスト候補を前記記憶手段に記憶する、
    ことを特徴とする文書画像レイアウト識別方法。
  2. 2値化された文書画像の黒画素の連結成分に関する外接矩形の集合からテキストを抽出する文書画像レイアウト識別装置であって、
    上記外接矩形の大きさからテキストサイズを推定する手段と、
    上記推定されたテキストサイズに基づきテキスト候補を推定する手段と、
    テキスト候補を中心とした一定の大きさの領域内に含まれるテキスト候補の個数を密集度として求め、密集度がしきい値以下のものをテキストと判定する手段とを備えた
    ことを特徴する文書画像レイアウト識別装置。
  3. コンピュータを、
    2値化された文書画像の黒画素の連結成分に関する外接矩形を記憶手段から読み出す手段、
    読み出した外接矩形の大きさからテキストサイズを推定して前記記憶手段に記憶する手段、
    読み出したテキストサイズ基づきテキスト候補を推定して前記記憶手段に記憶する手段、
    読み出したテキスト候補を中心とした一定の大きさの領域内に含まれるテキスト候補の個数を密集度として求め、密集度がしきい値以下のものをテキストと判定し、判定されたテキスト候補を前記記憶手段に記憶する手段、
    として機能させるための文書画像レイアウト識別プログラム。
JP2001115134A 2000-04-26 2001-04-13 文書画像レイアウト識別方法および装置 Expired - Fee Related JP3960756B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001115134A JP3960756B2 (ja) 2000-04-26 2001-04-13 文書画像レイアウト識別方法および装置

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2000-125473 2000-04-26
JP2000125473 2000-04-26
JP2001115134A JP3960756B2 (ja) 2000-04-26 2001-04-13 文書画像レイアウト識別方法および装置

Publications (2)

Publication Number Publication Date
JP2002015323A JP2002015323A (ja) 2002-01-18
JP3960756B2 true JP3960756B2 (ja) 2007-08-15

Family

ID=26590819

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001115134A Expired - Fee Related JP3960756B2 (ja) 2000-04-26 2001-04-13 文書画像レイアウト識別方法および装置

Country Status (1)

Country Link
JP (1) JP3960756B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1306447C (zh) * 2004-02-27 2007-03-21 致伸科技股份有限公司 影像图文分离方法
JP4943501B2 (ja) * 2007-03-29 2012-05-30 パイオニア株式会社 画像処理装置及び方法、並びに、光学式の文字識別装置及び方法
JP4960897B2 (ja) 2008-01-30 2012-06-27 株式会社リコー 画像処理装置、画像処理方法、プログラム、記憶媒体

Also Published As

Publication number Publication date
JP2002015323A (ja) 2002-01-18

Similar Documents

Publication Publication Date Title
US6226402B1 (en) Ruled line extracting apparatus for extracting ruled line from normal document image and method thereof
US8155445B2 (en) Image processing apparatus, method, and processing program for image inversion with tree structure
JP4208918B2 (ja) 文書画像からテキストを抽出する方法及び装置並びにコンピュータプログラム及びその記憶媒体
JP3904840B2 (ja) 多値画像から罫線を抽出する罫線抽出装置
US8947736B2 (en) Method for binarizing scanned document images containing gray or light colored text printed with halftone pattern
US6411733B1 (en) Method and apparatus for separating document image object types
JP2001297303A (ja) 文書画像認識方法、装置及びコンピュータ読み取り可能な記録媒体
JP4250483B2 (ja) 画像処理装置、画像処理方法ならびにプログラム、記憶媒体
US11568623B2 (en) Image processing apparatus, image processing method, and storage medium
JP4077919B2 (ja) 画像処理方法及び装置及びその記憶媒体
JP4613397B2 (ja) 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体
JP4565396B2 (ja) 画像処理装置および画像処理プログラム
JP4049560B2 (ja) 網点除去方法及びシステム
JP3960756B2 (ja) 文書画像レイアウト識別方法および装置
JP2006253842A (ja) 画像処理装置、画像形成装置、プログラム、記憶媒体および画像処理方法
JP4281236B2 (ja) 画像認識装置、画像認識方法、および、画像認識プログラムを記憶したコンピュータ読取り可能な記録媒体
JP4204185B2 (ja) 文字認識装置、文字認識方法、および記録媒体
Elmore et al. A morphological image preprocessing suite for ocr on natural scene images
JP4738645B2 (ja) 網掛け領域検出装置、網掛け領域検出方法、プログラムおよび記憶媒体
JP4651407B2 (ja) 画像処理装置およびコンピュータプログラムおよび記憶媒体
JPH10154191A (ja) 帳票識別方法及び装置並びに帳票識別プログラムを記録した媒体
JP2022167414A (ja) 画像処理装置、画像処理方法およびプログラム
JP3162414B2 (ja) 罫線認識方法及び表処理方法
JP2009020816A (ja) 文書認識装置、文書認識方法、コンピュータプログラム
JP2005208979A (ja) 特徴量抽出装置および特徴量抽出方法、ならびに文書ファイリング装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040805

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061107

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070213

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070412

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070515

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070515

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100525

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110525

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120525

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130525

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140525

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees