JPH08249419A - 表領域判定装置 - Google Patents

表領域判定装置

Info

Publication number
JPH08249419A
JPH08249419A JP7051586A JP5158695A JPH08249419A JP H08249419 A JPH08249419 A JP H08249419A JP 7051586 A JP7051586 A JP 7051586A JP 5158695 A JP5158695 A JP 5158695A JP H08249419 A JPH08249419 A JP H08249419A
Authority
JP
Japan
Prior art keywords
image
area
table area
graphic
ruled line
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7051586A
Other languages
English (en)
Inventor
Norio Yamamoto
紀夫 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP7051586A priority Critical patent/JPH08249419A/ja
Publication of JPH08249419A publication Critical patent/JPH08249419A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)

Abstract

(57)【要約】 【目的】 高精度に表領域の判定を行なうことのできる
表領域判定装置を提供することを目的とするものであ
る。 【構成】 画像入力部1において、表領域か否かの判定
を行なう対象となる文書画像を入力する。図形領域抽出
部2は、文書画像から表領域を含む図形領域のみを抽出
し、図形領域画像を生成して、画像記憶部3に記憶す
る。罫線抽出部4では、画像記憶部3に記憶されている
図形領域画像から、垂直線,水平線等の罫線を抽出し
て、罫線画像を生成する。次に、黒画素計数部5におい
て、画像記憶部3に記憶されている図形領域画像と、罫
線抽出部4で生成した罫線画像の黒画素数を計数する。
表領域度算出部6では、黒画素計数部5から得られる2
つの黒画素数の値から表領域度を求める。表領域判定部
7は、表領域度をもとに、対象画像が表領域か否かを判
定し、判定結果を出力する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、一般の文書画像から表
領域を認識する表領域判定装置に関するものである。
【0002】
【従来の技術】一般の文書画像には、文字や、図、表、
写真等の異なる領域が混在している。画像処理を行なう
場合、各領域の特性に応じた処理が行なわれる。例え
ば、文字領域については文字認識処理、図形領域につい
てはベクトル化処理、表領域については表構造認識処
理、写真領域については中間調処理といった処理が行な
われる。しかし、これらの処理を施すためには、それぞ
れの領域の特性を判定しなければならない。そのため、
各領域ごとの処理に先だって、各領域に分離する必要が
ある。
【0003】従来、表領域を判定する方法としては、領
域から表を形成する罫線を抽出できるか否かによって判
定するものが多かった。この手法の1例として、例え
ば、特開平4−195694号公報に記載されている表
領域判定方法がある。この方法は、まず、領域内の連結
黒画素のうち、あらかじめ定めたサイズより大きなもの
を表領域候補として抽出し、その中の横罫線の数が閾値
以上であれば、その領域を表領域と判定しようというも
のである。
【0004】しかし、このような手法は、罫線の有無で
表か否かの判定を行なっているため、通常の線図形中に
罫線状の線分が存在する場合に、これを表と誤って判定
してしまう。図5は、従来の方法によって表と誤認識さ
れる線図形の一例の説明図である。図5に示す図形で
は、円の中に格子状の線図形が描かれている。従来の表
領域の判定方法では、円内の格子を表の罫線として認識
してしまう。このように、従来の判定方法を用いた場
合、図5に示すような線図形であっても表と認識すると
いった、誤認識が発生するという問題があった。
【0005】
【発明が解決しようとする課題】本発明は、上述した問
題点に鑑みてなされたもので、高精度に表領域の判定を
行なうことのできる表領域判定装置を提供することを目
的とするものである。
【0006】
【課題を解決するための手段】本発明は、表領域判定装
置において、読み取った画像から図形領域のみを抽出し
た図形領域画像を生成する図形領域抽出部と、前記図形
領域画像から罫線のみを抽出した罫線画像を生成する罫
線抽出部と、前記図形領域画像および前記罫線画像中の
特定色の画素数を計数する画素計数部と、前記図形領域
画像の特定色の画素数と前記罫線画像中の特定色の画素
数から表領域度を算出する表領域度算出部と、前記表領
域度から入力画像が表領域であるか否かの判定を行ない
判定結果を出力する表領域判定部を有することを特徴と
するものである。
【0007】
【作用】本発明によれば、読み取った画像から表を含む
図形領域のみを抽出した図形領域画像を生成し、生成し
た図形領域画像から罫線のみを抽出した罫線画像を生成
し、図形領域画像および罫線画像中の特定色の画素数を
計数する。特定色としては、例えば黒あるいは白とする
ことができる。例えば、黒画素を計数した時、図形領域
画像中の黒画素数と罫線画像中の黒画素数から表領域度
を算出する。この表領域度から入力画像が表領域である
か否かの判定を行ない、判定結果を出力する。このよう
に、本発明では、罫線だけでなく、表領域度を算出して
判定しているので、高精度に表領域を判定することがで
きる。表領域度としては、図形領域画像中の黒画素数
と、罫線画像中の黒画素数の比を用いることができる。
この場合、表領域度は図形領域画像中の罫線部分が占め
る面積比を表わし、この面積比が一定の閾値以上である
か否かを判定することによって表領域か否かの判定を行
なうことができる。
【0008】
【実施例】図1は、本発明の表領域判定装置の一実施例
を示すブロック図である。図中、1は画像入力部、2は
図形領域抽出部、3は画像記憶部、4は罫線抽出部、5
は黒画素計数部、6は表領域度算出部、7は表領域判定
部である。
【0009】画像入力部1は、表領域であるか否かの判
定を行なう対象となる文書画像を入力する。図形領域抽
出部2は、画像入力部1で入力された文書画像から、図
形領域を抽出し、図形領域のみからなる図形領域画像を
生成する。画像記憶部3は、図形領域抽出部2で生成さ
れた図形領域画像が記録される。罫線抽出部4は、画像
記憶部3に記憶されている図形領域画像から、罫線部分
を抽出し、罫線部分のみの罫線画像を生成する。黒画素
計数部5は、画像記憶部3に記憶されている図形領域画
像中の黒画素数を数える。また、罫線抽出部4で生成さ
れた罫線画像中の黒画素数を数える。
【0010】表領域度算出部6は、黒画素計数部5から
得られる、画像記憶部3に記憶されている図形領域画像
中の黒画素数と、罫線画像中の黒画素数をもとに、入力
された文書画像の表領域度を算出する。表領域判定部7
は、表領域度算出部6で算出された表領域度から、表領
域か否かの判定を行ない、判定結果を出力する。
【0011】以下、本発明の表領域判定装置の一実施例
における動作の一例を説明する。画像入力部1におい
て、表領域であるか否かの判定を行なう対象となる文書
画像を入力する。入力された文書画像から、図形領域抽
出部2において、表領域を含む図形領域のみが抽出さ
れ、図形領域画像が生成される。上述のように文書画像
には一般に図形部分と文字部分等が存在する。図形領域
の抽出方法は、文字/図形分離手法として広く知られて
おり、例えば、特開平3−102964号公報に記載さ
れている手法を始めとして様々な手法がある。図形領域
抽出部2における図形領域の抽出手法としては、公知の
どの手法を用いてもよい。最も簡単な方法としては、領
域内の連結黒画素を求め、その大きさが閾値以上なら図
形、閾値未満なら文字とみなす、という方法が考えられ
る。図形領域抽出部2で生成された図形領域画像は、画
像記憶部3に記憶される。
【0012】罫線抽出部4では、画像記憶部3に記憶さ
れている図形領域画像から、垂直線,水平線等の罫線を
抽出して、罫線画像を生成する。具体的な抽出方法とし
ては、例えば、特開平2−210586号公報に記載さ
れている方法などを用いることができる。基本的に、水
平または垂直方向に画像を走査し、閾値以上黒画素が連
続している部分を罫線として取り出すことができる。閾
値は画像の大きさ、読み取り解像度等により設定すれば
よい。
【0013】次に、黒画素計数部5において、画像記憶
部3に記憶されている図形領域画像と、罫線抽出部4で
生成した罫線画像の黒画素数を計数する。計数した2つ
の画像の黒画素数は表領域度算出部6に送られる。表領
域度算出部6では、黒画素計数部5から得られる2つの
黒画素数の値から表領域度を求める。表領域度とは、そ
の画像が表領域である確率を数値的に表したもので、種
々の値を用いることができる。例えば、以下の式により
計算された値を用いることができる。 表領域度=罫線画像の黒画素数/図形領域画像の黒画素
数 この式は、画像中の図形領域のうち、罫線部分がどのく
らいの割合を占めるかを表わすものである。計算される
表領域度は、0〜1の値をとり得る。この値が大きいほ
ど対象領域は表領域である確率が高いこととなる。
【0014】具体例を用いて上述の動作の一例を説明す
る。図2は、表画像の一例の説明図、図3は、図形領域
画像の一例の説明図、図4は、罫線画像の一例の説明図
である。ここでは、図2に示すような表を含む文書画像
が画像入力部1から入力されたものとする。図形領域抽
出部2では、画像入力部1から入力された文書画像か
ら、図形領域を抽出する。図2に示す表画像は、図形領
域抽出部2によって図3に示すような図形領域が抽出さ
れる。図3に示す図形領域画像は、画像記憶部3に記憶
される。
【0015】罫線抽出部4は、画像記憶部3に記憶され
ている図3に示す図形領域画像から、罫線を抽出する。
この処理によって得られる罫線画像を図4に示す。左上
のセル内の斜線は、水平または垂直方向に見ると閾値未
満しか黒画素が連続していないため、罫線として抽出さ
れなかった。図3に示す図形領域画像および図4に示す
罫線画像は、黒画素計数部5において、それぞれ黒画素
数が計数される。ここでは、仮に図3に示す図形領域画
像の黒画素数を1860、図4に示す罫線画像の黒画素
数を1800とする。これらの値が表領域度算出部6に
送られる。
【0016】表領域度算出部6では、2つの黒画素数か
ら、表領域度を求める。表領域度を上述の式によって求
めると、 1800/1860=0.9677・・・ となる。すなわち、対象領域の表領域度は約0.97と
いうことになる。この値は、対象領域は約97%の確率
で表領域であると考えられる。表領域判定部7では、こ
の表領域度の値が閾値以上であれば、表領域であると結
果を出力し、閾値未満なら表領域ではないと結果を出力
する。閾値は対象によって設定するが、通常は0.6〜
0.9位の値を用いることができる。この例の場合に
は、表領域度が約0.97であるので、表領域であるも
のと判定され、その旨の結果が表領域判定部7から出力
される。
【0017】例えば、従来の技術で示した図5に示すよ
うな画像を考えてみる。図5に示した画像では、円の内
部に格子状の水平線および垂直線が含まれている。従来
の方法では水平線、垂直線が罫線とみなされ、表領域で
あると判定されてしまう。一方、本発明では罫線部分と
して抽出される水平線、垂直線部分の黒画素数を60
0、円上の部分の黒画素数を500、したがって図形領
域の黒画素数を2つの合計の1100とすれば、この場
合の表領域度は 600/1100=0.5454・・・ となる。表領域判定部7で用いる閾値を例えば0.7に
設定しておけば、図5に示した画像は表画像でないと判
定することができる。
【0018】このように、上述の実施例では、従来のよ
うに単に罫線があるか否かの判断だけで表領域の判定を
行なうのではなく、罫線部分が図形領域に占める割合を
判定基準として用いることにより、より高精度、かつ柔
軟な判定を可能としている。
【0019】上述の例では、黒画素計数部5において図
形領域画像と罫線画像の黒画素を計数したが、これに限
らず、白画素を計数して判定するように構成することも
できる。また、表領域度算出部6において計算する表領
域度は、上述の式に限られるものではなく、図形領域画
像および罫線画像の特定色の画素数から算出される種々
の値を用いることが可能である。
【0020】
【発明の効果】以上の説明から明らかなように、本発明
によれば、図形領域画像および罫線画像の特定色の画素
数から算出される表領域度を用いて、入力画像が表領域
であるか否かの判定を行なうように構成したので、従来
のように罫線状の線分があるか否かで表領域か否かの判
定を行なう場合に比べ、より高精度、かつ柔軟な表領域
判定を行なうことができるという効果がある。
【図面の簡単な説明】
【図1】 本発明の表領域判定装置の一実施例を示すブ
ロック図である。
【図2】 表画像の一例の説明図である。
【図3】 図形領域画像の一例の説明図である。
【図4】 罫線画像の一例の説明図である。
【図5】 従来の方法によって表と誤認識される線図形
の一例の説明図である。
【符号の説明】
1…画像入力部、2…図形領域抽出部、3…画像記憶
部、4…罫線抽出部、5…黒画素計数部、6…表領域度
算出部、7…表領域判定部。

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 読み取った画像から図形領域のみを抽出
    した図形領域画像を生成する図形領域抽出部と、前記図
    形領域画像から罫線のみを抽出した罫線画像を生成する
    罫線抽出部と、前記図形領域画像および前記罫線画像中
    の特定色の画素数を計数する画素計数部と、前記図形領
    域画像の特定色の画素数と前記罫線画像中の特定色の画
    素数から表領域度を算出する表領域度算出部と、前記表
    領域度から入力画像が表領域であるか否かの判定を行な
    い判定結果を出力する表領域判定部を有することを特徴
    とする表領域判定装置。
JP7051586A 1995-03-10 1995-03-10 表領域判定装置 Pending JPH08249419A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7051586A JPH08249419A (ja) 1995-03-10 1995-03-10 表領域判定装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7051586A JPH08249419A (ja) 1995-03-10 1995-03-10 表領域判定装置

Publications (1)

Publication Number Publication Date
JPH08249419A true JPH08249419A (ja) 1996-09-27

Family

ID=12891043

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7051586A Pending JPH08249419A (ja) 1995-03-10 1995-03-10 表領域判定装置

Country Status (1)

Country Link
JP (1) JPH08249419A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006309611A (ja) * 2005-04-28 2006-11-09 Canon Marketing Japan Inc 解析装置、プログラム及び記録媒体
US8009908B2 (en) 2006-10-27 2011-08-30 Konica Minolta Business Technologies, Inc. Area testing method for image processing
US8483482B2 (en) 2009-07-10 2013-07-09 Fuji Xerox Co., Ltd. Image processing device, image processing method and computer-readable medium

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006309611A (ja) * 2005-04-28 2006-11-09 Canon Marketing Japan Inc 解析装置、プログラム及び記録媒体
JP4646300B2 (ja) * 2005-04-28 2011-03-09 キヤノンマーケティングジャパン株式会社 繰り返し行決定装置、繰り返し行決定方法、プログラム及び記録媒体
US8009908B2 (en) 2006-10-27 2011-08-30 Konica Minolta Business Technologies, Inc. Area testing method for image processing
US8483482B2 (en) 2009-07-10 2013-07-09 Fuji Xerox Co., Ltd. Image processing device, image processing method and computer-readable medium

Similar Documents

Publication Publication Date Title
JP3320759B2 (ja) 文書画像傾き検出装置およびその方法
Nakano et al. An algorithm for the skew normalization of document image
EP0472313A2 (en) Image processing method and apparatus therefor
JP2018055255A (ja) 情報処理装置、情報処理方法及びプログラム
JPH0721310A (ja) 文書認識装置
JPH08249419A (ja) 表領域判定装置
US6983071B2 (en) Character segmentation device, character segmentation method used thereby, and program therefor
CN112560857B (zh) 文字区域边界检测方法、设备、存储介质及装置
CN112766272A (zh) 目标检测方法、装置和电子系统
JP2861860B2 (ja) 宛名行抽出装置
JP4213357B2 (ja) 画像処理装置、画像処理方法及び該方法を実行させるためのプログラム
JP2902097B2 (ja) 情報処理装置及び文字認識装置
JP3914119B2 (ja) 文字認識方法および文字認識装置
JP2000222577A (ja) 罫線処理方法、装置および記録媒体
JPS59158479A (ja) 文字分離装置
JP2576080B2 (ja) 文字切出し方法
JP2009272714A (ja) 画像処理装置、画像処理方法、プログラム及びプログラムを記録した記録媒体
JP2982221B2 (ja) 文字読み取り装置
CN115731250A (zh) 文本分割方法、装置、设备及存储介质
JP3100825B2 (ja) 線認識方法
JP2023055368A (ja) 情報処理装置、情報処理システム、およびプログラム
JP2747136B2 (ja) 文字認識装置
JPH0676103A (ja) 文書画像の文章領域抽出装置
JP4248700B2 (ja) 罫線識別方法、罫線識別装置および記録媒体
JPS5942906B2 (ja) 線幅抽出装置

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term
S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R370 Written measure of declining of transfer procedure

Free format text: JAPANESE INTERMEDIATE CODE: R370