JPH1049676A - 罫線認識方法 - Google Patents

罫線認識方法

Info

Publication number
JPH1049676A
JPH1049676A JP8206813A JP20681396A JPH1049676A JP H1049676 A JPH1049676 A JP H1049676A JP 8206813 A JP8206813 A JP 8206813A JP 20681396 A JP20681396 A JP 20681396A JP H1049676 A JPH1049676 A JP H1049676A
Authority
JP
Japan
Prior art keywords
ruled line
histogram
threshold value
run
recognition method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8206813A
Other languages
English (en)
Inventor
Goro Bessho
吾朗 別所
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP8206813A priority Critical patent/JPH1049676A/ja
Publication of JPH1049676A publication Critical patent/JPH1049676A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 予め文書の形式を想定することなく、あらゆ
るタイプの表および帳簿に対応できる。 【解決手段】 ランヒストグラム算出部5は、抽出され
た黒ランのヒストグラムを算出し、罫線パラメータ抽出
部7は、そのヒストグラムを基に罫線抽出のためのパラ
メータ(黒ランの閾値)を抽出する。矩形抽出部8は、
閾値以上の黒ランからなる連結成分(矩形)を抽出し、
実線罫線抽出部10は近接している矩形を統合し、実線
罫線を抽出する。罫線パラメータ抽出部14は、罫線ヒ
ストグラムから、罫線抽出に必要なパラメータ(罫線長
さの閾値)を抽出する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、表や帳表などの罫
線を含む文書画像の罫線認識方法に関する。
【0002】
【従来の技術】一般に、文書認識装置で文書を処理する
場合に、文書画像を文字領域、表領域、図その他の領域
などに分類して、それぞれの領域に応じた適切な処理を
行う場合が多い。
【0003】従来、表領域の処理に関しては、黒ランの
長さをしきい値処理し、実線罫線を認識する方法(例え
ば、特開平3−172983号公報を参照)、本出願人
が先に提案した黒画素連結成分の大きさや間隔から点線
罫線を認識する方法(特開平7−230525号公報を
参照)などがある。
【0004】
【発明が解決しようとする課題】しかし、上記した方法
は、文書の形式を予め想定してしきい値を決定している
ので、想定していた文書から外れたものが入力されると
罫線を正しく認識できないという問題点があった。
【0005】本発明の目的は、予め文書の形式を想定す
ることなく、あらゆるタイプの表および帳簿に対応でき
る罫線認識方法を提供することにある。
【0006】
【課題を解決するための手段】前記目的を達成するため
に、請求項1記載の発明では、文書画像から第1の閾値
以上の長さを持つ黒ランを抽出し、該抽出された黒ラン
について、連結している黒ランを統合し、実線罫線とし
て抽出し、該抽出された実線罫線について、第2の閾値
以上の長さを持つ実線罫線を罫線として認識する罫線認
識方法であって、前記第1、第2の閾値を自動的に決定
することを特徴としている。
【0007】請求項2記載の発明では、前記第1の閾値
は、前記文書画像に対して黒ランの長さのヒストグラム
を求め、該ヒストグラムを基に決定することを特徴とし
ている。
【0008】請求項3記載の発明では、前記第2の閾値
は、前記文書画像に対して罫線の長さのヒストグラムを
求め、該ヒストグラムを基に決定することを特徴として
いる。
【0009】請求項4記載の発明では、前記第1、第2
の閾値は、前記文書画像の主走査方向と副走査方向にお
いてそれぞれ独立に決定することを特徴としている。
【0010】請求項5記載の発明では、前記第1、第2
の閾値は、前記文書画像を表示し、表示された画像を参
照して入力される黒ランの長さおよび罫線の長さを基に
決定することを特徴としている。
【0011】請求項6記載の発明では、文書画像から黒
画素連結矩形を抽出し、該抽出された矩形の幅および高
さが所定の閾値以内にあり、該矩形同士の間隔が所定の
閾値以内にある矩形を点線罫線として認識する罫線認識
方法であって、前記所定の閾値を自動的に決定すること
を特徴としている。
【0012】請求項7記載の発明では、前記所定の閾値
は、画像全面に対して、前記黒画素連結矩形の幅、高
さ、間隔のヒストグラムを求め、該ヒストグラムを基に
決定することを特徴としている。
【0013】請求項8記載の発明では、前記所定の閾値
は、前記文書画像の主走査方向と副走査方向においてそ
れぞれ独立に決定することを特徴としている。
【0014】請求項9記載の発明では、前記所定の閾値
は、前記文書画像を表示し、表示された画像を参照して
入力される黒画素連結矩形の幅、高さ、間隔を基に決定
することを特徴としている。
【0015】
【発明の実施の形態】以下、本発明の一実施例を図面を
用いて具体的に説明する。 〈実施例1〉図1は、本発明の実施例1の構成を示す。
図において、1はスキャナ等の2値画像入力部、2は2
値画像を格納する2値イメージメモリ、3は2値画像か
ら黒ランを抽出するラン抽出部、4は抽出されたランを
格納するランメモリ、5はランの長さによるヒストグラ
ムを算出するランヒストグラム算出部、6はランヒスト
グラムを格納するランヒストグラムメモリ、7は罫線抽
出に必要なパラメータを抽出する罫線パラメータ抽出
部、8は罫線パラメータを用いて矩形を抽出する矩形抽
出部、9は矩形メモリ、10は矩形を統合して実線罫線
を抽出する実線罫線抽出部、11は罫線メモリ、12は
罫線の長さのヒストグラムを算出する罫線ヒストグラム
算出部、13は罫線ヒストグラムメモリ、14は罫線抽
出に必要なパラメータを抽出する罫線パラメータ抽出部
である。
【0016】図6は、実施例1の処理フローチャートで
ある。以下、図1、6を参照して実施例1の動作を説明
する。まず、スキャナ等の2値画像入力部1によって、
原稿を読み取り、2値イメージメモリ2に格納する(ス
テップ101)。
【0017】次いで、ラン抽出部3は、2値イメージメ
モリ2に格納された2値画像から黒ランを抽出し、ラン
メモリ4に格納する(ステップ102)。ランヒストグ
ラム算出部5は、ランメモリ4から読み出される黒ラン
の長さを基にヒストグラムを算出し、ランヒストグラム
メモリ6に格納する(ステップ103)。この時、文書
画像では一般に文字が圧倒的に多いため、1文字の大き
さに相当するランにピークが見られる。図2は、黒ラン
ヒストグラムの一例を示す。
【0018】罫線パラメータ抽出部7は、ランヒストグ
ラムメモリ6内のランヒストグラムから、罫線抽出に必
要なパラメータを抽出する(ステップ104)。罫線抽
出に必要なパラメータ(閾値)としては、例えば、「罫
線を構成するのに十分な大きさの黒ラン」が挙げられ
る。
【0019】矩形抽出部8では、上記したように決定し
た黒ランの長さ(つまり、黒ランの閾値)以上の黒ラン
からなる連結成分(矩形)をランメモリ4から抽出し、
その結果を矩形メモリ9に格納する(ステップ10
5)。そして、実線罫線抽出部10では、矩形メモリ1
0内の矩形について、矩形どうしが近接しているものを
統合し(例えば、注目する罫線方向について矩形間の距
離が所定の閾値以内にある矩形同士を統合する)、実線
罫線として抽出し、罫線メモリ11に格納する(ステッ
プ106)。
【0020】罫線ヒストグラム算出部12は、罫線メモ
リ11内の罫線の長さのヒストグラムを算出し、罫線ヒ
ストグラムメモリ13に格納する(ステップ107)。
このとき、文書画像では同一の長さの罫線が多く使用さ
れるため、よく見られる長さの罫線情報を得ることがで
きる。
【0021】罫線パラメータ抽出部14は、罫線ヒスト
グラムメモリ13内の罫線ヒストグラムから、罫線抽出
に必要なパラメータを抽出する(ステップ108)。罫
線抽出に必要なパラメータ(閾値)としては、例えば、
「罫線を構成するのに十分な大きさの罫線の長さ」が挙
げられる。
【0022】上記したようにして得られた罫線パラメー
タを用いて、同様の種類の表を認識させた場合に、認識
精度の向上を図ることができる。
【0023】〈実施例2〉本実施例2では、上記実施例
1で説明した処理方法を、主走査方向と副走査方向の両
方向に対して行う。従って、主走査方向の罫線パラメー
タと副走査方向の罫線パラメータを2つ抽出することに
なる。これは、主走査方向と副走査方向で異なる種類の
罫線が用いられている場合に有効である。
【0024】〈実施例3〉図3は、実施例3の構成を示
す。また、図7は、実施例3の処理フローチャートであ
る。本実施例は、実施例1で抽出されるパラメータを、
表示された画像を参照しながら指定するものである。そ
のために、本実施例では、画像表示部22とパラメータ
指定部23と罫線パラメータメモリ24を新たに設けて
いる。他の構成要素は実施例1と同様である。
【0025】実施例1と同様に、スキャナ等の2値画像
入力部20によって、原稿を読み取り、2値イメージメ
モリ21に格納する(ステップ201)。次いで、画像
表示部22において、読み取った2値画像を表示する
(ステップ202)。なお、このとき、原画像と文書画
像のレイアウトが分かる圧縮画像の両方を表示できるよ
うにした方がよい。
【0026】パラメータ指定部23では、表示された画
像を参照しながら、文字との識別に用いるためのしきい
値になる黒ランの長さ、および一番短い長さを持つ罫線
の長さなどをマウスなどを用いながら指定する(ステッ
プ203)。ここで指定された長さが罫線パラメータと
して罫線パラメータメモリ24に格納される。
【0027】ラン抽出部25は、上記したようにパラメ
ータ指定された黒ランの長さ以上の黒ランを2値イメー
ジメモリ21から抽出し、ランメモリ26に格納する
(ステップ204)。矩形抽出部27では、黒ランの長
さ以上の黒ランからなる連結成分をランメモリ26から
抽出し、その結果を矩形メモリ28に格納する(ステッ
プ205)。そして、実線罫線抽出部29では、矩形メ
モリ28内の矩形について、矩形どうしが近接している
ものを統合し、実線罫線として抽出し、パラメータ指定
部23で指定された閾値以上の長さを持つ実線罫線を、
罫線として抽出する(ステップ206)。
【0028】〈実施例4〉図4は、実施例4の構成を示
し、本実施例では点線罫線を認識する。点線罫線を認識
する場合は、ランによる閾値処理が不要であるので、実
施例4の構成では、実施例1の構成からラン抽出部とラ
ンメモリを除き、実施例1の実線罫線抽出部を、点線罫
線抽出部に置き換えて構成されている。また、図8は、
実施例4の処理フローチャートである。
【0029】スキャナ等の2値画像入力部30によっ
て、原稿を読み取り、2値イメージメモリ31に格納す
る(ステップ301)。矩形抽出部32では、2値イメ
ージメモリ31に格納されている2値画像中から黒画素
連結矩形を抽出し、矩形メモリ33に格納する(ステッ
プ302)。
【0030】次いで、ヒストグラム算出部34では、矩
形メモリ33から矩形の幅、高さ、最も近い矩形どうし
の間隔を求め、それぞれの値のヒストグラムを算出し
て、ヒストグラムメモリ35に格納する(ステップ30
3)。罫線パラメータ抽出部36では、上記算出された
ヒストグラムから、点線認識に必要なパラメータを求め
る(ステップ304)。点線が画像中に存在する場合、
点線の1つ1つが矩形を構成することになり、点線の特
徴から、矩形の幅、高さ、間隔がほぼ一定になる。従っ
て、上記のヒストグラムからそれぞれの値がピークを持
つものが点線認識に必要なパラメータ値となる。
【0031】点線罫線抽出部38では、上記ステップ3
04で求めた罫線パラメータを参照して、矩形メモリ3
3から読み出される矩形を点線罫線として抽出する(ス
テップ305)。
【0032】〈実施例5〉本実施例5では、上記実施例
4で説明した処理方法を、主走査方向と副走査方向の両
方向に対して行う。従って、主走査方向の罫線パラメー
タと副走査方向の罫線パラメータを2つ抽出することに
なる。これは、主走査方向と副走査方向で異なる種類の
点線罫線が用いられている場合に有効である。
【0033】〈実施例6〉本実施例6も点線罫線を認識
する実施例であり、実施例3と同様に表示画像を用いて
罫線パラメータを指定するものである。本実施例の構成
は、実施例3の構成からラン抽出部とランメモリを除い
て構成されている。前述した実施例4と同様に、点線を
認識する場合には、ランによるしきい値処理が不要であ
るので、矩形抽出部45によって矩形を直接求めればよ
い。
【0034】実施例3と異なる点は、パラメータ指定部
43では、表示された画像を参照しながら、黒画素連結
矩形の幅、高さ、間隔の値をマウスなどを用いながら指
定することによって、閾値が指定される(ステップ40
3)。このようにして指定された矩形の幅、高さ、間隔
の値が罫線パラメータ(閾値)として罫線パラメータメ
モリ44に格納される。以下、点線罫線抽出部47で
は、ステップ403で指定された罫線パラメータを用い
て、矩形メモリ46から読み出される矩形を点線罫線と
して抽出する(ステップ404)。
【0035】なお、本発明は上記したものに限定され
ず、ソフトウェアによっても実現することができる。本
発明をソフトウェアによって実現する場合には、CP
U、ROM、RAM、ハードディスク、キーボード、C
D−ROMドライブなどからなる汎用の処理装置を用意
する。そして、CD−ROMなどの記録媒体には、本発
明の罫線認識方法の処理機能を実現するプログラムが記
録されている。本発明の罫線認識の処理を行うときは、
CD−ROMドライブにセットされた該記録媒体から、
上記した処理機能を実現するプログラムが読み出され、
RAM上にロードされて、CPUによって逐一実行され
る。また、罫線認識の処理対象となるデータは、スキャ
ナなどの2値画像入力部から入力される文書画像データ
である。
【0036】
【発明の効果】以上、説明したように、本発明によれ
ば、従来のように予め文書の種類を想定して求めたパラ
メータが不要になるため、あらゆるタイプの表および帳
票に対して、罫線認識を行うことが可能となる。
【図面の簡単な説明】
【図1】本発明の実施例1の構成を示す。
【図2】黒ランヒストグラムの例を示す。
【図3】本発明の実施例3の構成を示す。
【図4】本発明の実施例4の構成を示す。
【図5】本発明の実施例6の構成を示す。
【図6】実施例1の処理フローチャートである。
【図7】実施例3の処理フローチャートである。
【図8】実施例4の処理フローチャートである。
【図9】実施例6の処理フローチャートである。
【符号の説明】
1 2値画像入力部 2 2値イメージメモリ 3 ラン抽出部 4 ランメモリ 5 ランヒストグラム算出部 6 ランヒストグラムメモリ 7、14 罫線パラメータ抽出部 8 矩形抽出部 9 矩形メモリ 10 実線罫線抽出部 11 罫線メモリ 12 罫線ヒストグラム算出部 13 罫線ヒストグラムメモリ

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 文書画像から第1の閾値以上の長さを持
    つ黒ランを抽出し、該抽出された黒ランについて、連結
    している黒ランを統合し、実線罫線として抽出し、該抽
    出された実線罫線について、第2の閾値以上の長さを持
    つ実線罫線を罫線として認識する罫線認識方法であっ
    て、前記第1、第2の閾値を自動的に決定することを特
    徴とする罫線認識方法。
  2. 【請求項2】 前記第1の閾値は、前記文書画像に対し
    て黒ランの長さのヒストグラムを求め、該ヒストグラム
    を基に決定することを特徴とする請求項1記載の罫線認
    識方法。
  3. 【請求項3】 前記第2の閾値は、前記文書画像に対し
    て罫線の長さのヒストグラムを求め、該ヒストグラムを
    基に決定することを特徴とする請求項1記載の罫線認識
    方法。
  4. 【請求項4】 前記第1、第2の閾値は、前記文書画像
    の主走査方向と副走査方向においてそれぞれ独立に決定
    することを特徴とする請求項1記載の罫線認識方法。
  5. 【請求項5】 前記第1、第2の閾値は、前記文書画像
    を表示し、表示された画像を参照して入力される黒ラン
    の長さおよび罫線の長さを基に決定することを特徴とす
    る請求項1記載の罫線認識方法。
  6. 【請求項6】 文書画像から黒画素連結矩形を抽出し、
    該抽出された矩形の幅および高さが所定の閾値以内にあ
    り、該矩形同士の間隔が所定の閾値以内にある矩形を点
    線罫線として認識する罫線認識方法であって、前記所定
    の閾値を自動的に決定することを特徴とする罫線認識方
    法。
  7. 【請求項7】 前記所定の閾値は、画像全面に対して、
    前記黒画素連結矩形の幅、高さ、間隔のヒストグラムを
    求め、該ヒストグラムを基に決定することを特徴とする
    請求項6記載の罫線認識方法。
  8. 【請求項8】 前記所定の閾値は、前記文書画像の主走
    査方向と副走査方向においてそれぞれ独立に決定するこ
    とを特徴とする請求項6記載の罫線認識方法。
  9. 【請求項9】 前記所定の閾値は、前記文書画像を表示
    し、表示された画像を参照して入力される黒画素連結矩
    形の幅、高さ、間隔を基に決定することを特徴とする請
    求項6記載の罫線認識方法。
JP8206813A 1996-08-06 1996-08-06 罫線認識方法 Pending JPH1049676A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8206813A JPH1049676A (ja) 1996-08-06 1996-08-06 罫線認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8206813A JPH1049676A (ja) 1996-08-06 1996-08-06 罫線認識方法

Publications (1)

Publication Number Publication Date
JPH1049676A true JPH1049676A (ja) 1998-02-20

Family

ID=16529522

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8206813A Pending JPH1049676A (ja) 1996-08-06 1996-08-06 罫線認識方法

Country Status (1)

Country Link
JP (1) JPH1049676A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6785420B2 (en) 2000-03-15 2004-08-31 Ricoh Company, Ltd. Method and apparatus for table recognition, apparatus for character recognition, and computer product
US7769234B2 (en) 2006-08-31 2010-08-03 Fujitsu Limited Ruled line extracting program, ruled line extracting apparatus and ruled line extracting method
JP2012053617A (ja) * 2010-08-31 2012-03-15 Fuji Xerox Co Ltd 画像処理装置及びプログラム
US8542931B2 (en) 2009-02-05 2013-09-24 Fuji Xerox Co., Ltd. Ruled line extraction technique based on comparision results and indentifying noise based on line thickness

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6785420B2 (en) 2000-03-15 2004-08-31 Ricoh Company, Ltd. Method and apparatus for table recognition, apparatus for character recognition, and computer product
US7769234B2 (en) 2006-08-31 2010-08-03 Fujitsu Limited Ruled line extracting program, ruled line extracting apparatus and ruled line extracting method
US8542931B2 (en) 2009-02-05 2013-09-24 Fuji Xerox Co., Ltd. Ruled line extraction technique based on comparision results and indentifying noise based on line thickness
JP2012053617A (ja) * 2010-08-31 2012-03-15 Fuji Xerox Co Ltd 画像処理装置及びプログラム

Similar Documents

Publication Publication Date Title
US20020006220A1 (en) Method and apparatus for recognizing document image by use of color information
US7630544B1 (en) System and method for locating a character set in a digital image
JP2002298085A (ja) 文字認識装置、文字認識方法、及び記録媒体
JP3753357B2 (ja) 文字抽出方法および記録媒体
JPH1049676A (ja) 罫線認識方法
JP3391987B2 (ja) 帳票認識装置
JP4040231B2 (ja) 文字抽出方法及び装置並びに記憶媒体
JPH05159062A (ja) 文書認識装置
KR100277831B1 (ko) 문서 영상에서의 표 분석방법
JP4162195B2 (ja) 画像処理装置、及び画像処理プログラム
JPH08237404A (ja) 光学文字認識モードの選択方法
JP3142950B2 (ja) 線分認識方式
JPH10334184A (ja) 罫線消去方法、装置、表処理方法、装置、文字認識方法、装置および記録媒体
JP2931041B2 (ja) 表内文字認識方法
JP3157534B2 (ja) 表認識方法
JPH1097588A (ja) 罫線認識方法、表処理方法および記録媒体
JP3411795B2 (ja) 文字認識装置
JP2007174523A (ja) 画像処理装置、画像処理方法、プログラムコード及び記憶媒体
JPH10187887A (ja) 書体識別装置および書体識別方法および情報記録媒体
JP2000048191A (ja) 画像処理方法及び画像処理プログラムを記録した媒体
JP2002269573A (ja) 文書認識方法及びその装置並びに記録媒体
JP5012551B2 (ja) 情報処理装置およびプログラム
JP2000040153A (ja) 画像処理方法、画像処理プログラムを記録した媒体及び画像処理装置
JP2003030584A (ja) 文書認識装置、文書画像の領域識別方法、プログラム及び記憶媒体
JP3243389B2 (ja) 文書識別方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040524

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040601

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040730

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040831