JP2002015323A - 文書画像レイアウト識別方法および装置 - Google Patents
文書画像レイアウト識別方法および装置Info
- Publication number
- JP2002015323A JP2002015323A JP2001115134A JP2001115134A JP2002015323A JP 2002015323 A JP2002015323 A JP 2002015323A JP 2001115134 A JP2001115134 A JP 2001115134A JP 2001115134 A JP2001115134 A JP 2001115134A JP 2002015323 A JP2002015323 A JP 2002015323A
- Authority
- JP
- Japan
- Prior art keywords
- text
- document image
- rectangle
- density
- size
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Image Analysis (AREA)
- Character Input (AREA)
- Document Processing Apparatus (AREA)
Abstract
成要素が多数配置されていても、テキストの行及び段抽
出処理に無駄な時間をかけることなく、正確なしイアウ
ト識別を可能とすること。 【解決手段】 2値化された文書画像データをラベリン
グ手段1でラベリング処理し、連結成分の外接矩形が求
める。テキストサイズ推定手段2は、各外接矩形の大き
さの最頻値からテキストサイズを推定する。テキスト候
補推定手段3は上記推定されたテキストサイズと各外接
矩形の大きさからテキスト候補を推定する。密集度に基
づくテキスト候補判定手段4は、テキスト候補を中心と
した一定の大きさの領域内に含まれるテキスト候補の個
数を密集度として求め、密集度がしきい値以下のものを
テキストと判定する。
Description
るための方法および装置に関し、さらに詳細には、文書
画像のレイアウト識別処理におけるテキスト抽出処理を
正確かつ高速に行うことができる文書レイアイト識別方
法および装置に関するものである。
行われていた。まず、2値の文書画像をラベリングし、
連結成分の外接矩形を抽出した後、外接矩形の相対的な
大きさに基づいて、テキスト、図、セパレータ等の属性
を推定する。その後、テキスト候補の外接矩形を対象と
して、それらの相対的な大きさ、位置関係、または、周
期性等を考慮することにより、テキストが構成する行及
び段の抽出処理を行う。
トの外接矩形を推定するときに、図10に示すように、
文書に写真や新聞の見出しによく使われるような背景模
様が含まれる場合、従来の方法では、写真や背景模様を
構成する要素の一部が、誤ってテキストと判定されてし
まうといった問題があった。さらに、写真や背景模様
は、図11(a)(b)の拡大図に示すように網点から
構成されており、テキストと誤判定される要素の個数
が、実際のテキストの個数と比べ、はるかに多い。その
ため、テキストと誤判定された要素の影響によって、行
または段抽出処理が正しく行われなかったり、行または
段抽出処理の処理時間が膨大になってしまっていた。
れたものであって、その目的とするところは、文書画像
に写真の一部や背景模様等、小さな構成要素が多数配置
されていても、テキストの行及び段抽出処理に無駄な時
間をかけることなく、正確なレイアウト識別が可能な文
書レイアウト識別方法および装置を提供することであ
る。
明する図である。同図に示すように2値化された文書画
像データはラベリング手段1でラベリング処理を施さ
れ、連結成分の外接矩形が求められる。テキストサイズ
推定手段2は、各外接矩形の大きさの最頻値からテキス
トサイズを推定する。テキスト候補推定手段3は上記推
定されたテキストサイズと各外接矩形の大きさからテキ
スト候補を推定する。密集度に基づくテキスト候補判定
手段4は、テキスト候補を中心とした一定の大きさの領
域内に含まれるテキスト候補の個数を密集度として求
め、密集度がしきい値以下のものをテキストと判定す
る。すなわち、相対的な大きさに基づいてテキストと推
定されたテキスト候補が、本当にテキストかどうかを、
テキスト候補の周辺における矩形の密集度から再度判定
し、誤判定されたテキスト候補が行及び段抽出処理に回
されることを防ぐ。具体的には、テキスト候補を中心と
したある一定の大きさの領域を想定し、その内部に含ま
れるテキスト候補の個数を密集度として計算し、密集度
があるしきい値以下であればテキストと判定し、しきい
値以上ならば非テキストと判定する。また、テキスト候
補の矩形集合から、新たな矩形集合を生成し、その2つ
の集合間で矩形の重複チェックを例えば平面走査法によ
って行うことにより、処理の高速化を図ることができ
る。
システムの構成例を示す図である。本発明は、同図に示
すように、CPU11、RAM12、ROM13、外部
記憶装置14、プリンタ、ディスプレイ、キーボード等
から構成される入出力装置15、記録媒体読み取り装置
16、画像読み取りを行うカラー入力装置、CCDカメ
ラ、スキャナ等の画像入力装置17、図示しない通信イ
ンタフェース等から構成されるシステムで実現すること
ができる。そして、上記スキャナ17等の画像入力装置
から読み込んだ例えば前記図10に示す文書画像からテ
キスト部分を識別する。
ャートにより説明する。図3に示すフローチャートにお
いて処理対象となるデータは、上記スキャナ等の画像入
力装置から入力された2値化された前記図10に示した
ような写真、背景模様に含む文書画像である。また、処
理結果として得られる出力は、テキスト候補の外接矩形
の集合である。 (1)ラベリング 入力された2値文書画像に対し、ラベリング処理を施
す。すなわち、画像全体をラベリングして、図4に示す
ように黒画素連結領域を抽出する。その結果、連結成分
の個数と、各連結成分の外接矩形の座標が得られる。
し、ヒストグラムからテキストサイズを推定する。ま
ず、図5(a)に示すように外接矩形の左上点を
(X1 ,Y1 )、右下点を(X2 ,Y2 )とし、dx=
X2 −X1 +1,dy=Y2 −Y1 +1とおく。なお、
+1するのは、両端点の画素をdx,dyに含ませるた
めである。次に、t=max(dx,dy)とし、ヒス
トグラムH1 (t)に、dx×dyすなわち外接矩形の
面積を加算し、ヒストグラムH2 (t)に1を加算す
る。その結果、例えば図5(b)に示すようなヒストグ
ラムH1 (t)、H2 (t)が作成される。そして最終
的に、H(t)=H1 (t)×H2 (t)により、図5
(b)に示すようにヒストグラムH(t)を得る。この
ヒストグラムHの最大を与えるtが、テキストサイズT
であると推定する。上記のように外接矩形の面積のヒス
トグラムH1 (t)と外接矩形の個数のヒストグラムH
2 (t)を作成し、それらを掛け合わせたヒストグラム
H(t)によりテキストサイズTを推定することによ
り、文書画像中に、数は少なく面積の大きな矩形、数が
多く面積が小さい矩形が存在しても、それらに大きく影
響されることなくなくテキストサイズTを推定すること
ができる。
推定 前記文書画像中の各矩形に対し、t=max(dx,d
y)を求め、ある数kを用いた条件式:t≦T×kを満
たすものをテキスト候補と推定する。例えば、kは5な
どである。
いて、点Aにおける矩形の密集度とは、図6に示すよう
に、点Aを中心とし1辺がある定められた長さの正方形
の中に含まれる矩形の個数のことである。密集度に基づ
くテキスト候補の推定処理においては、以下に説明する
ように、上記テキスト候補の矩形集合とテキストサイズ
Tから近傍集合を生成して密集度を求め、密集度がしき
い値以上のものをテキスト候補として出力する。
サイズT〕×Lの正方形を、近傍と呼ぶことにする。こ
こで、Lはあらかじめ定められた数で、例えば0.6な
どである。各矩形に対し、このような近傍を求める。 重複チェックによる密集度の計算 各近傍に対し、近傍領域に含まれる矩形を後述する平面
走査法により効率的に調べ上げ、各矩形に対しその近傍
に含まれる矩形の個数を求める。そして、近傍に含まれ
る矩形の個数をその矩形の密集度ωとする。そして、各
矩形について、上記密集度ωと予め定められたしきい値
thを比較し、ω≦thであれば、その矩形はテキスト
候補として判定する。また、それ以外は非テキストと判
定する。ここで、上記しきい値thは例えば10などで
ある。
まれる矩形の個数の求め方について説明する。平面走査
法は、図7に示すように文書画像を走査線により走査し
て、各テキスト候補の矩形Rt〔i〕(i=1…N)の
近傍Rn〔i〕(i=1…N)に含まれる矩形の個数を
求める方法である。まず、以下で使用する記述について
説明する。 ・矩形情報 i番目の矩形情報R〔i〕は以下のような形式を持つ。 x1:左上x座標 y1:左上y座標 x2:右下x座標 y2:右下y座標
あり、i番目のカレントC〔i〕は以下の形式で表現さ
れる。 x :x座標 label :ラベル番号 flag1 :INまたはOUTの属性 flag2 :TEXT(テキスト候補)またはNEIGHB
OR(近傍)の属性
テキスト集合である。また、スキャン近傍集合とは上記
走査線上に乗っている近傍の集合である。 ・密集度の情報 i番目のテキスト候補の密集度ω〔i〕は、i番目のテ
キスト候補の近傍に重複するテキスト候補の個数で表さ
れ、以下の形式で表現される。 num :重複しているテキスト矩形の個数 label :重複しているテススト矩形の個数
て説明する。 (1) テキスト候補をRt〔i〕(i=1,…,N)によ
って表し、Rt〔i〕(i=1,…,N)にテキスト候
補の外接矩形座標とラベル番号を代入する。 (2) 近傍をRn〔i〕(i=1,…,N)によって表
し、Rn〔i〕(i=1,…,N)に、テキスト候補R
t〔i〕の近傍の座標と、Rt〔i〕のラベル番号を代
入する。
N)によつて表す。まず、C〔2i−1〕(i=i,
…,N)についてxにはテキスト候補Rt〔i〕のx1
を、label にはRt〔i〕のlabel を、flag1 にはIN
を、flag2 にはTEXTを代入する。また、C〔2i〕
(i=i,…,N)について、xにはテキスト候補Rt
〔i〕のx2を、label にはRt〔i〕のlabel を、fl
ag1 にはOUTを、flag2にはTEXTを代入する。次
に、C〔2i−1+2N〕((i=1,…,4N)につ
いて、xには近傍Rn〔i〕のlabel を、flag1 にはI
Nを、flag2 にはNEIGHBORを代入する。また、
C〔2i+2N〕(i=i,…,N)について、xには
近傍Rn〔i〕のx2を、label にはRn〔i〕のlabe
l を、flag1 にはOUTを、flag2 にはNEIGHBO
Rを代入する。すなわち、テキストRt〔i〕のIN
(x=x1)について、カレントC〔2i−1〕が、テ
キストRt〔i〕のOUT(x=x2)について、カレ
ントC〔2i〕が、その近傍Rn〔i〕のIN(x=x
1)について、カレントC〔2i−1+N〕が、Rn
〔i〕のOUT(x=x2)について、カレントC〔2
i+N〕が定められる。 (4) C〔i〕(i=i,…,4N)をxに関しソートす
る。
て以下の処理を行う。 (i) flag1 =IN、flag2 =TEXTの場合 図8(a)に示すようにC〔i〕のlabel 番号をLとす
るとき、テキスト候補Rt〔L〕をスキャンテキスト集
合に登録する。
場合 C〔i〕のlabel 番号をLとするとき、テキスト候補R
t〔L〕が、スキャン近傍集合(走査線上に乗っている
近傍)に属する近傍で、その近傍のx1が上記テキスト
候補Rt〔L〕のx1より小さいもの、と重なっている
かをチェックする。重なっていれば、重なっている近傍
のラベル番号をL1,…Lkとするとき、ω〔L1〕,
ω〔L2〕,…,ω〔Lk〕について、個数を一つ増加
させ、ω〔L1〕,ω〔L2〕,…,ω〔Lk〕のラベ
ル番号に上記Lを記録する。上記処理によりω〔L
1〕,ω〔L2〕,…,ω〔Lk〕にRt〔L〕が登録
されたので、Rt〔L〕をスキャンテキスト集合から抹
消する。例えば、図8(b)に示すように近傍Rn〔L
1〕、Rn〔L2〕がRt〔L〕と重なっており、その
x1がRt〔L〕のx1より小さい場合には、ω(L
1),ω〔L2〕の個数を1増加させ、Rt〔L〕をス
キャン近傍集合から抹消する。なお、Rt〔L〕がスキ
ャン近傍集合に属する近傍で、そのx1がRt〔L〕の
x1より大きいもの(図8ではRn〔L3〕)と重なっ
ているかは、次の(iii) でチェックされるので、ここで
はチェックする必要はない。
BORの場合 C〔i〕のlabel 番号をLとするとき、Rn〔L〕をス
キャン近傍集合に登録する。そして、Rn〔L〕がスキ
ャンテキスト集合(走査線上に乗っているテキスト候補
の集合)に属するテキスト矩形と重なっているかをチェ
ックする。そして重なっていれば、その個数とラベル番
号をω〔L〕に記録する。例えば図9(a)に示すよう
に、Rn〔L〕がRt〔Lm〕、Rt〔Ln〕と重なっ
ている場合、ω(L)に個数2を加え、ラベル番号L
m,Lnを登録する。
BORの場合 C〔i〕のlabel 番号をLとするとき、Rn〔L〕がス
キャンテキスト集合(走査線上に乗っているテキスト候
補の集合)に属するテキスト矩形と重なっているかをチ
ェックし、ω〔L〕に含まれていない分だけ、その個数
とラベル番号をω〔L〕に追加する。そしてRn〔L〕
をスキャン近傍集合から抹消する。例えば、図9(b)
に示すようにRn〔L〕がRt〔Lk〕と重なっている
場合には、ω〔L〕に個数1を追加し、ラベル番号Lk
を追加する。なお、Rt〔Li〕は、Rn〔L〕がスキ
ャン近傍集合に登録されるとき、すなわち(iii) でチェ
ックしており、すでに登録済である。
は、テキスト候補を中心とした一定の大きさの領域内に
含まれるテキスト候補の個数を密集度として求め、密集
度がしきい値以下のものをテキストと判定しているの
で、文書画像において写真の一部や背景模様等、小さな
構成要素が多数配置されていても、それらをテキストと
誤判定することがない。このため、テキストの行及び段
抽出処理に無駄な時間をかけることなく、正確なレイア
ウト識別が可能となる。
す図である。
ある。
る。
る。
である。
を示す図である。
Claims (5)
- 【請求項1】 2値化された文書画像の黒画素の連結成
分に関する外接矩形の集合からテキストを抽出する文書
画像レイアウト識別方法であって、 文書画像上の各点に対し、その点を中心としたある一定
の大きさの領域に含まれる外接矩形の個数によって文書
画像上の各地点に外接矩形がどれだけ密集しているかの
度合いを定義し、 各外接矩形の中心における密集度があるしきい値以下の
ものをテキスト矩形と判定することを特徴とする文書画
像レイアウト識別方法。 - 【請求項2】 すべての外接矩形に対し、外接矩形の中
心における近傍を作り、近傍と外接矩形の重複を調べ、
外接矩形の密集度を測定することを特徴とする請求項1
の文書画像レイアウト識別方法。 - 【請求項3】 2値化された文書画像の黒画素の連結成
分に関する外接矩形の集合からテキストを抽出する文書
画像レイアウト識別装置であって、 上記外接矩形の大きさからテキストサイズを推定する手
段と、 上記推定されたテキストサイズに基づきテキスト候補を
推定する手段と、 テキスト候補を中心とした一定の大きさの領域内に含ま
れるテキスト候補の個数を密集度として求め、密集度が
しきい値以下のものをテキストと判定する手段とを備え
たことを特徴する文書画像レイアウト識別装置。 - 【請求項4】 2値化された文書画像の黒画素の連結成
分に関する外接矩形の集合からテキストを抽出するプロ
グラムであって、 上記プログラムは、文書画像上の各点に対し、その点を
中心としたある一定の大きさの領域に含まれる外接矩形
の個数によって文書画像上の各地点に外接矩形がどれだ
け密集しているかの度合いを調べる処理と、 各外接矩形の中心における密集度があるしきい値以下の
ものをテキスト矩形と判定する処理をコンピュータに実
行させることを特徴とする文書画像レイアウト識別プロ
グラム。 - 【請求項5】 2値化された文書画像の黒画素の連結成
分に関する外接矩形の集合からテキストを抽出するプロ
グラムを記録した記録媒体であって、 上記プログラムは、文書画像上の各点に対し、その点を
中心としたある一定の大きさの領域に含まれる外接矩形
の個数によって文書画像上の各地点に外接矩形がどれだ
け密集しているかの度合いを調べ、 各外接矩形の中心における密集度があるしきい値以下の
ものをテキスト矩形と判定することを特徴とする文書画
像レイアウト識別プログラムを記録した記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001115134A JP3960756B2 (ja) | 2000-04-26 | 2001-04-13 | 文書画像レイアウト識別方法および装置 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000-125473 | 2000-04-26 | ||
JP2000125473 | 2000-04-26 | ||
JP2001115134A JP3960756B2 (ja) | 2000-04-26 | 2001-04-13 | 文書画像レイアウト識別方法および装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002015323A true JP2002015323A (ja) | 2002-01-18 |
JP3960756B2 JP3960756B2 (ja) | 2007-08-15 |
Family
ID=26590819
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001115134A Expired - Fee Related JP3960756B2 (ja) | 2000-04-26 | 2001-04-13 | 文書画像レイアウト識別方法および装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3960756B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1306447C (zh) * | 2004-02-27 | 2007-03-21 | 致伸科技股份有限公司 | 影像图文分离方法 |
WO2008120376A1 (ja) * | 2007-03-29 | 2008-10-09 | Pioneer Corporation | 画像処理装置及び方法、並びに、光学式の文字識別装置及び方法 |
US8218863B2 (en) | 2008-01-30 | 2012-07-10 | Ricoh Company, Ltd. | Image processing apparatus, image processing method and image processing means |
-
2001
- 2001-04-13 JP JP2001115134A patent/JP3960756B2/ja not_active Expired - Fee Related
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1306447C (zh) * | 2004-02-27 | 2007-03-21 | 致伸科技股份有限公司 | 影像图文分离方法 |
WO2008120376A1 (ja) * | 2007-03-29 | 2008-10-09 | Pioneer Corporation | 画像処理装置及び方法、並びに、光学式の文字識別装置及び方法 |
US8218863B2 (en) | 2008-01-30 | 2012-07-10 | Ricoh Company, Ltd. | Image processing apparatus, image processing method and image processing means |
Also Published As
Publication number | Publication date |
---|---|
JP3960756B2 (ja) | 2007-08-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3904840B2 (ja) | 多値画像から罫線を抽出する罫線抽出装置 | |
US6411733B1 (en) | Method and apparatus for separating document image object types | |
JP3601658B2 (ja) | 文字列抽出装置及びパターン抽出装置 | |
JP2001297303A (ja) | 文書画像認識方法、装置及びコンピュータ読み取り可能な記録媒体 | |
US8391607B2 (en) | Image processor and computer readable medium | |
US20210056336A1 (en) | Image processing apparatus, image processing method, and storage medium | |
US20020012465A1 (en) | Character string extraction apparatus and method based on basic component in document image | |
US7146047B2 (en) | Image processing apparatus and method generating binary image from a multilevel image | |
JP4077919B2 (ja) | 画像処理方法及び装置及びその記憶媒体 | |
JP4613397B2 (ja) | 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体 | |
JP5111055B2 (ja) | 画像処理装置及び画像処理方法、コンピュータプログラム | |
JP2000207489A (ja) | 文字抽出方法、装置および記録媒体 | |
JP5049922B2 (ja) | 画像処理装置及び画像処理方法 | |
JP4049560B2 (ja) | 網点除去方法及びシステム | |
JP5601027B2 (ja) | 画像処理装置及び画像処理プログラム | |
JP2006253842A (ja) | 画像処理装置、画像形成装置、プログラム、記憶媒体および画像処理方法 | |
JP3960756B2 (ja) | 文書画像レイアウト識別方法および装置 | |
JP3268552B2 (ja) | 領域抽出方法、宛名領域抽出方法、宛名領域抽出装置、及び画像処理装置 | |
Song et al. | Raster to vector conversion of construction engineering drawings | |
JP4651407B2 (ja) | 画像処理装置およびコンピュータプログラムおよび記憶媒体 | |
JP4738645B2 (ja) | 網掛け領域検出装置、網掛け領域検出方法、プログラムおよび記憶媒体 | |
Elmore et al. | A morphological image preprocessing suite for ocr on natural scene images | |
JP4204185B2 (ja) | 文字認識装置、文字認識方法、および記録媒体 | |
JP2022167414A (ja) | 画像処理装置、画像処理方法およびプログラム | |
JPH10154191A (ja) | 帳票識別方法及び装置並びに帳票識別プログラムを記録した媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040805 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20061107 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061227 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070213 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070412 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070515 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070515 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100525 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110525 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120525 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130525 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140525 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |