JPH03160582A - 文書画像データに於ける罫線と文字の分離方法 - Google Patents

文書画像データに於ける罫線と文字の分離方法

Info

Publication number
JPH03160582A
JPH03160582A JP1301134A JP30113489A JPH03160582A JP H03160582 A JPH03160582 A JP H03160582A JP 1301134 A JP1301134 A JP 1301134A JP 30113489 A JP30113489 A JP 30113489A JP H03160582 A JPH03160582 A JP H03160582A
Authority
JP
Japan
Prior art keywords
contact
picture
character
memory
thinning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1301134A
Other languages
English (en)
Inventor
Hiroshi Akiyama
博 秋山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanyo Electric Co Ltd
Original Assignee
Sanyo Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanyo Electric Co Ltd filed Critical Sanyo Electric Co Ltd
Priority to JP1301134A priority Critical patent/JPH03160582A/ja
Publication of JPH03160582A publication Critical patent/JPH03160582A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (イ)産業上の利用分野 本発明は、罫線に沿って記入された文字と罫線が接触し
ている場合においても、両者を分離することにより、文
字認識に適した画像を提供する方式に関する。
(ロ)従来の技術 本発明の従来例としては、特開昭64−36384号の
r文字認識装置」がある。この従来例では、文字とアン
ダーラインあるいはオーバーラインとの接触部のパター
ン、及びその分離方法を幾つか予め用意することにより
、文字とアンダーラインあるいはオーバーラインを分離
している。
(ハ)発明が解決しようとする課題 上記のような従来の分離方法では、数字のような簡単な
字形に対しては、有効であると思われるが、一般の文字
に拡張した場合には、登録している接触パターンで自動
的に分離を行えば、文字の一部が欠落してトボロジー(
ループ、コーナー端点なと)が変化してしまい、その後
の文字認識にとって不適当な文字パターンが得られしま
う問題点がある。
(二)課題を解決するための手段 本発明の罫線と文字の分離方法は、イメージスキャナか
ら文書画像を読み込み、細線化処理後の画像から文字と
罫線の接触候補位置をn×n(nは整数)マトリクス、
例えば3×3の局所パターン特徴により抽出し、この情
報をもとに輪郭追跡処理後の画像で対応する付近の接触
位置を3×3の局所パターン特徴により決定し、互いに
接触している部分を分離できるような方式を提供するも
のである。
(ホ) 作用 本発明の罫線と文字の分離方法によれば、細線化画像と
輪郭追跡の接触位置の局所パターンを抽出することによ
り、罫線と文字が接触した場合においても、精度よくこ
れ等を分離することができ、文字認識装置に適した画像
を得ることが可能となる。
(へ)実施例 以下に処理領域が既知である表枠内部あるいは罫線に沿
って記入された文字領域に関して、本発明の罫線と文字
の分離方式を適用した実施例について、図を参照しなが
ら説明する。
第1図は、本発明の罫線と文字の分離方法における一実
施例を示すブロック図である。この図において、(10
)はデータの伝送路であるシステムバス、(11)は文
書画像を入力するためのイメージスキャナである。(1
2)はイメージスキャナ(11)から読み込んだ入力画
像を書き込むための入力画像メモリ、(l3)は入力画
像メモリ(12)の内容を細線化し書き込むための細線
化画像メモリ、(14)は入力画像メモリ(12)の内
容を輪郭追跡し書き込むための輪郭画像メモリ、(15
)は入力画像メモリ(12)の内容から罫線を除去した
出力画像メモリである。
(16)は参照すべき標準の罫線要素などの必要情報を
書き込むための補助メモリである。(17)は入力画像
メモリ(12)の内容を細線化処理するための細線化回
路、(18)は入力画像メモリ(l2)の内容を輪郭追
跡するための輪郭追跡回路、(l9)は細線化画像メモ
リ(13)および輪郭画像メモリ(14)の内容から特
徴マスクテーブルメモリ(21)の内容に従って接触部
分の特徴を抽出する特徴抽出回路である。
(21)は罫線と文字の接触部分の3×3の局所パター
ン特徴を書き込むための特徴マスクテーブルメモリ、(
22)は予め登録した標準となる罫線テーブルメモリで
ある。(23)は細線化画像メモリの内容から特徴マス
クテーブルメモリ(21)の内容に従って抽出した接触
候補位置の座標を書き込むためのブロダラムメモリであ
る。(25)は出力画像メモリの内容を文字認識装置に
出力するための外部1/Fである。
次に、第2図のフローチャートに基づき処理の流れを説
明する。
Sllにおいて、文書画像をイメージスキャナ(l1)
から読み込み、入力画像メモリ(12)に書き込む。
S12において、罫線テーブルメモリ(22)に予め書
き込まれている罫線位置を参照し、付近の文字側(アン
ダーラインならば上側、表枠ならば内側)のヒストグラ
ムを射影特徴抽出回路(20)により求め、第3図に示
す如く、ヒストグラムの幅から罫線付近で文字の高さL
を設定する。
S13において、罫線位置の文字側を512で求めたL
の幅のみ、細線化回路(17)および輪郭追跡回路(1
8)により、第4図(a)の源画像を同図(b)に示す
如き細線画像に変換、および同図(c)に示す如き輪郭
画像に変更し、夫々を細線化画像メモリ(13)および
輪郭画像メモリ(14)に書き込む。
514において、細線化画像メモリ(13)の罫線付近
で特徴マスクテーブルメモリ(21)に予め登録されて
いる3×3の局所パターン特徴が発見できた位置を接触
候補位置テーブルメモリ(23)に書き込む。3×3の
局所パターン特徴は、第5図(a)のように任意の画X
Pの隣接点の集合で定義し、0から7までの方向を与え
る。Oから7の方向は、第5図(b)のビット列に対応
し、白画素はO、黒画素は1で表現する。例えば、第5
図(C)は第5図(d)のビット列で表現され、特徴マ
スクテーブルメモリ(21)に書き込まれる。第4図(
b)においては、CO、C1、C2が抽出される。この
時、3×3の局所パターン特徴により切断可能と判定で
きる場合(例えば、O、2、4、6方向が黒画素)、ま
たは、接触候補位置間がLよりも長い場合には、切断す
るための情報を同時に書き込む。
切断箇所は、左右両側が考えられるが、情報としては可
能/不可能を170に対応させ、第6因に示す接触候補
位置テーブルメモリ(23)に書き込めばよい。
S15において、接触候補位置テーブルメモリ(23)
に従って、輪郭画像メモリ(14)の接触候補付近で特
徴マスクテーブルメモリ(21)に予め登録されている
3×3の局所パターン特徴を抽出し、その位置を接触箇
所とする。これらの局所パターン特徴は、罫線と文字の
接触パターンにより、一接触候補に対して、1〜2@所
抽出できる。第4図(c)においては、DO、D1、D
2、D3が抽出される。そこで、それぞれの接触点を結
ぶ線分が、除去可能かどうかを以下の手法を用いて、チ
ェックする。
(1)Doの左側の線分 接触候補位置テーブルメモリ(23)により、除去可能
(DOの左側の部分の長さ>L)。
(2)線分Do−DI 2点間の距離(くL)により明らかに除去不可能。
(3)線分DI−D2 第4図(b)の細線化画像の線分CO−CIの上下の画
素位置を入力画像メモリ(12)からチェックした場合
、肉厚がないため罫線と判断し、除去可能。
(4〉 線分D2−03 第4図(b)の細線化画像の線分CI−C2の上下の画
素位置を入力画像メモリ(12)からチェックした場合
、肉厚があるため文字の一部と判断し、除去不可能。
(5)D3の右側の線分 接触候補位置メモリ(23)により、除去可能(D3の
右側の部分の長さ>L)。
除去部分の画素については、注目画素(3×3マスクの
中心画素)に対して、連結性が保てるように除去を行な
う。例えば、Do.DI,D2、D3については、第7
図(a)〜(d)に示すように、横方向に連結した画素
を罫線要素と考えて、連結性が保存できる範囲で除去す
べき画素(図中の斜線画素)を決定する。この時、まず
端点の画素を決めた後、罫線テーブルメモリ(22)に
登録している罫線に沿って入力画像メモリ(12)から
罫線を除去し、これを出力画像メモリ(15)に書き込
めばよい。
この後は上述の515〜517を繰り返すことにより、
罫線と文字の分離が行なわれる。
本実施例では、第4図の接触パターンに関して、3×3
の局所パターン特徴を抽出し、第7図に示すように切断
画素を決定したが、3×3の局所パターン特徴を増やし
たn×nマトリクスを用いれば、表粋の上下左右側面や
更に接触する文字と罫線を分離することが可能となる。
また、本実施例では、罫線位置が予めわかっている場合
について、説明したが、未知の場合においても、Hou
gh変換等により直線を抽出した後、文字と罫線が接触
する可能性部分について本手法を適用すればよい。
(ト)発明の効果 本発明の罫線と文字の分離方法によれば、罫線と文字が
接触している場合においても、細線化画像および輪郭画
像から接触部分のn×nの局所パターン特徴に注目する
ことにより、精度よく両者を分離することができ、文字
認識装置にとって、必要な画像を効率よく抽出できるた
め、きわめて有用である。
【図面の簡単な説明】
第1図は本発明の罫線と文字の分離方法を実現するため
のブロック図、第2図は処理フロー図、第3図は罫線に
沿った方向のヒストグラム図、第4図は入力画像、細線
化画像、並びに輪郭画像を示す図、第5図(a)〜(d
)は3×3の局所パターン特徴の概念図、第6図は接触
候補位置を書き込むテーブル図、第7図は接触位置の3
×3マスクから除去すべき画素図である。 10・・・システムバス、l1・・・イメージスキャナ
、12、13、14、15・・・画像メモリ、16・・
・補助メモリ、l7・・・細線化回路、l8・・・輪郭
追跡回路、19・・・接触特徴抽出回路、20・・・射
影特徴抽出回路、2l・・・特徴マスクテーブルメモリ
、22・・・罫線テーブルメモリ、23・・・接触候補
位置テーブルメモリ、24・・・プログラムメモリ、2
5・・・外部1/F,L・・・文字の高さ、CO1 CI. C2・・・接触候補位置、 D1、 D2、 D3、 D4・・・切断位置。

Claims (1)

    【特許請求の範囲】
  1. (1)罫線に沿って記入された文字と罫線が接触してい
    る文書画像データに対して、細線化及び輪郭抽出を行な
    いn×n(nは整数)マトリクスの局所パターン特徴で
    接触部分を抽出し、文字の高さよりも接点間が長い場合
    、あるいは接触付近の細線化画像と入力画像の特徴を比
    較することにより、互いに接触している部分を分離する
    事を特徴とした文書画像データに於ける罫線と文字の分
    離方法。
JP1301134A 1989-11-20 1989-11-20 文書画像データに於ける罫線と文字の分離方法 Pending JPH03160582A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1301134A JPH03160582A (ja) 1989-11-20 1989-11-20 文書画像データに於ける罫線と文字の分離方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1301134A JPH03160582A (ja) 1989-11-20 1989-11-20 文書画像データに於ける罫線と文字の分離方法

Publications (1)

Publication Number Publication Date
JPH03160582A true JPH03160582A (ja) 1991-07-10

Family

ID=17893221

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1301134A Pending JPH03160582A (ja) 1989-11-20 1989-11-20 文書画像データに於ける罫線と文字の分離方法

Country Status (1)

Country Link
JP (1) JPH03160582A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5859929A (en) * 1995-12-01 1999-01-12 United Parcel Service Of America, Inc. System for character preserving guidelines removal in optically scanned text
US5889887A (en) * 1995-03-06 1999-03-30 Fujitsu Limited Pattern extracting device and method to extract a pattern from a combination and variety of patterns

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5889887A (en) * 1995-03-06 1999-03-30 Fujitsu Limited Pattern extracting device and method to extract a pattern from a combination and variety of patterns
US6052480A (en) * 1995-03-06 2000-04-18 Fujitsu Limited Pattern re-recognizing table generating device and pattern recognizing device to improve a reliability for a recognition of a pattern overlapping or intersecting a line in an image
US5859929A (en) * 1995-12-01 1999-01-12 United Parcel Service Of America, Inc. System for character preserving guidelines removal in optically scanned text

Similar Documents

Publication Publication Date Title
JP2940936B2 (ja) 表領域識別方法
US5075895A (en) Method and apparatus for recognizing table area formed in binary image of document
JP3728224B2 (ja) 文書処理装置及び方法
US20090316219A1 (en) Image processing apparatus, image processing method and computer-readable storage medium
JPH03160582A (ja) 文書画像データに於ける罫線と文字の分離方法
JPS61117670A (ja) 文字切り出し処理方式
JPH08339421A (ja) 画像の文字領域決定方法
JP3162414B2 (ja) 罫線認識方法及び表処理方法
JP2909132B2 (ja) 光学的文字読取装置
JP2002269547A (ja) 印影読取方法および装置
JP2004178107A (ja) 帳票処理装置
JPH0573718A (ja) 領域属性識別方式
JP3411795B2 (ja) 文字認識装置
JPS63250787A (ja) 文字切出し方法
JP2925270B2 (ja) 文字読取装置
JP2931041B2 (ja) 表内文字認識方法
JPH05128305A (ja) 領域分割方法
JP2979089B2 (ja) 情景画像中の文字認識方式
JP3112190B2 (ja) 認識対象領域の設定方法
JP2004240500A (ja) 画像処理装置、画像処理プログラムおよび記憶媒体
JPH0261775A (ja) 表画像認識方式
JP2795222B2 (ja) 文字切り出し方法および文字切り出し装置
JPH05174179A (ja) 文書画像処理装置
JPH05114047A (ja) 文字切り出し装置
JPH02263272A (ja) 文書画像処理装置