JP2683116B2 - 罫線の除去方法 - Google Patents

罫線の除去方法

Info

Publication number
JP2683116B2
JP2683116B2 JP1280297A JP28029789A JP2683116B2 JP 2683116 B2 JP2683116 B2 JP 2683116B2 JP 1280297 A JP1280297 A JP 1280297A JP 28029789 A JP28029789 A JP 28029789A JP 2683116 B2 JP2683116 B2 JP 2683116B2
Authority
JP
Japan
Prior art keywords
temporary character
temporary
ruled line
character
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP1280297A
Other languages
English (en)
Other versions
JPH03141483A (ja
Inventor
一郎 小倉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuji Electric Co Ltd
Original Assignee
Fuji Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Electric Co Ltd filed Critical Fuji Electric Co Ltd
Priority to JP1280297A priority Critical patent/JP2683116B2/ja
Publication of JPH03141483A publication Critical patent/JPH03141483A/ja
Application granted granted Critical
Publication of JP2683116B2 publication Critical patent/JP2683116B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は、表のように本文文字のほかに罫線が含まれ
る文書画像において、上記文字を認識するために文書画
像中の罫線を除去する方法に関する。
(従来の技術) この種の罫線除去方法の第1の従来技術としては、文
書画像を複数の短冊状領域に分割し、各分割領域毎の投
影データから仮文字列(文字と思われる部分のブロッ
ク)を抽出している。そして、横書文書において、横罫
線はアンダーラインというラベル付けを行うことにより
除去していた。一方、縦罫線を含む領域は大きな仮文字
列として判断され、隣の仮文字列が本文と判断される場
合には、この本文仮文字列を基準として大きな仮文字列
を分割処理することにより文字列を切出し、この文字列
の中から更に文字の切出しを行うため、縦罫線も文字と
して切出していた。
なお、縦書文書においては逆に横罫線を含む領域が大
きな仮文字列として判断され、横罫線を文字として切出
していた。
また、第2の従来技術としては、文字列を切出す前に
黒画素が連続する部分を抽出し、この連続性が直線的か
どうかで罫線であるか否かの判断を行い、しかる後に罫
線を除去する方法が知られている。
(発明が解決しようとする課題) 前述した第1の従来技術では、横書文書では縦罫線、
縦書文書では横罫線を文字として切り出していたため、
これらの罫線を含む文書画像について文字認識装置によ
り認識を行うと、縦罫線または横罫線を細い文字(横書
文書では“1"や“I"、縦書文書では“一”)として認識
してしまい、正確な文字認識ができないという問題があ
った。
また、第2の従来技術では、黒画素が連続する部分の
抽出、検出に多くの時間がかかるという問題があった。
本発明は上記問題点を解決するために提案されたもの
で、その目的とするところは、短い処理時間で縦罫線及
び横罫線を完全に除去し、文字認識の正確性を高めるよ
うにした罫線の除去方法を提供することにある。
(課題を解決するための手段) 上記目的を達成するため、本発明は、罫線を含む文書
画像を複数の短冊上領域に分割し、各短冊状領域毎の投
影データから文字と思われる部分のブロックとしての複
数の仮文字列を抽出し、これらの仮文字列のうち、前記
罫線の影響により本文文字を含む本文仮文字列よりも大
きな仮文字列を、当該仮文字列に隣接する前記本文仮文
字列を基準として複数に分割すると共に、これらの分割
された仮文字列について、文字と思われる部分としての
仮文字を抽出し、これらの仮文字のうち、その幅が所定
値より狭い細い仮文字を検出し、この細い仮文字の外側
に黒画素が存在する場合に前記細い仮文字を罫線とみな
して文書画像から除去するものである。
(作用) 本発明によれば、複数の短冊状領域から大きい仮文字
列を分割し、この大きい仮文字列を、隣接する本文仮文
字列に基づいて更に複数の仮文字列に分割すると共に、
これらの分割された仮文字列内の細い仮文字についてそ
の周囲の黒画素の有無により罫線判別処理を行ない、黒
画素が存在する場合に当該細い仮文字を罫線とみなして
除去する。
(実施例) 以下、図に沿って本発明の一実施例を説明する。ま
ず、第1図はこの実施例による罫線の除去処理を示すフ
ローチャートである。
同図において、始めに縦罫線や横罫線を含む文書画像
をイメージスキャナ等の入力装置を介して、メモリに取
込む(S1)。次いで、文書画像を複数の短冊状領域に分
割して各領域毎に投影演算し(S2)、分割された仮文字
列を抽出する(S3)。
この分解された仮文字列の一例を第2図(a)に示
す。同図において、1〜5は分割形成された短冊状領域
であり、6〜16はこれらの短冊状領域1〜5毎に投影演
算されて抽出された仮文字列である。図から明らかなよ
うに、仮文字列6,11,16は短冊状領域1,3,5内の罫線の存
在により、本文文字を含む他の仮文字列7〜10,12〜15
よりも大きくなっている。
再び第1図において、ステップS3により抽出された仮
文字列6〜16の中から、本文とみなされるものをラベリ
ングする(S4)。ここで、本文としてラベリングされる
仮文字列は、第2図(a)における仮文字列7〜10,12
〜15である。
そして、これらの本文仮文字列7〜10,12〜15を基準
として、大きな仮文字列6,11,16の分割処理を行う(S
5)。この分割処理により、第2図(b)に示すよう
に、罫線を含むことによって切り出せなかった仮文字列
17〜28を分割することができ、仮文字列(行)の切り出
しが終了する。よって、以上のステップS2〜S5が仮文字
列(行)の切り出し処理となる。
次に第1図において、上述のように切り出した仮文字
列に対して投影演算処理を行い、文字と思われる部分す
なわち仮文字を抽出する(S6)。そして、これらの仮文
字の中から、罫線と考えられる細い仮文字を検出する
(S7)。ここで、細い仮文字の検出基準は罫線の判定基
準であることを考えて、例えばその太さが1mm以下のも
のを細い仮文字として検出する(S8)。
この細い仮文字について、例えば横書文書では、着目
する仮文字列の上下に黒画素があるかを調べる(S9)。
調べる範囲は、例えば第3図に示すように細い仮文字1
7′を含み、かつ着目している仮文字列17の上の仮文字
列までの範囲P1と、着目している仮文字列17の下の仮文
字列18までの範囲P2である。これらの範囲内に黒画素が
あった場合、この細い仮文字17′は罫線であると判断
し、当該仮文字17′を無効として仮文字列17から罫線を
除去する(S10参照)。
これらのステップS6〜S10が罫線除去による本文文字
の切り出し処理となる。
なお、第2図に示したような横書文書における横罫線
の検出及び除去は、アンダーラインによるラベル付けに
より行なえばよく、また、本発明は縦書文書において横
罫線を除去する場合にも、細い仮文字の外側に存在する
黒画素の探索領域の方向を異ならせれば適用可能であ
る。
(発明の効果) 以上のように本発明によれば、罫線を含む文書画像を
複数の短冊状領域に分割し、仮文字列を抽出して大きな
仮文字列を分割処理すると共に、これらの分割された仮
文字列について仮文字を抽出する際に、細い仮文字につ
いてのみその付近で罫線の判別処理を行うようにしたの
で、罫線を正確かつ迅速に除去することができる。従っ
て、第1の従来技術では不可能であった横書文書におけ
る縦罫線や縦書文書における横罫線の除去が可能にな
り、文字認識の精度を高めることができる。
また、第2の従来技術のように黒画素が連続する部分
を抽出する方法と異なり、文書画像の中の細い仮文字の
付近のみを調べるものであるから、罫線判別のための処
理時間を大幅に短縮することが可能である。
【図面の簡単な説明】
第1図は本発明の一実施例を示すフローチャート、第2
図は文書画像を短冊状領域に分割して仮文字列を抽出し
た例を示す説明図、第3図は細い仮文字の付近において
黒画素の有無を調べる様子を示す説明図である。 1〜5……短冊状領域、6〜28……仮文字列 17′……細い仮文字

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】罫線が含まれる文書画像から前記罫線を検
    出して除去することにより文字認識を行なうための罫線
    の除去方法において、 前記文書画像を複数の短冊状領域に分割し、各短冊状領
    域毎の投影データから文字と思われる部分のブロックと
    しての複数の仮文字列を抽出し、これらの仮文字列のう
    ち、前記罫線の影響により本文文字を含む本文仮文字列
    よりも大きな仮文字列を、当該仮文字列に隣接する前記
    本文仮文字列を基準として複数に分割すると共に、これ
    らの分割された仮文字列について、文字と思われる部分
    としての仮文字を抽出し、これらの仮文字のうち、その
    幅が所定値より狭い細い仮文字を検出し、この細い仮文
    字の外側に黒画素が存在する場合に前記細い仮文字を罫
    線とみなして除去することを特徴とする罫線の除去方
    法。
JP1280297A 1989-10-27 1989-10-27 罫線の除去方法 Expired - Lifetime JP2683116B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1280297A JP2683116B2 (ja) 1989-10-27 1989-10-27 罫線の除去方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1280297A JP2683116B2 (ja) 1989-10-27 1989-10-27 罫線の除去方法

Publications (2)

Publication Number Publication Date
JPH03141483A JPH03141483A (ja) 1991-06-17
JP2683116B2 true JP2683116B2 (ja) 1997-11-26

Family

ID=17623025

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1280297A Expired - Lifetime JP2683116B2 (ja) 1989-10-27 1989-10-27 罫線の除去方法

Country Status (1)

Country Link
JP (1) JP2683116B2 (ja)

Also Published As

Publication number Publication date
JPH03141483A (ja) 1991-06-17

Similar Documents

Publication Publication Date Title
CA2656425A1 (en) Recognizing text in images
JPS6077279A (ja) 文字イメ−ジ切出し方法
JPH09311905A (ja) 行検出方法および文字認識装置
JP2683116B2 (ja) 罫線の除去方法
JPH0410087A (ja) 基本ライン抽出方法
JP2002170077A (ja) 文字認識装置及び文字認識方法
JPH07160810A (ja) 文字認識装置
JP4242962B2 (ja) 文字切出装置
JPH07230525A (ja) 罫線認識方法及び表処理方法
JPH0728935A (ja) 文書画像処理装置
US11710331B2 (en) Systems and methods for separating ligature characters in digitized document images
JP3190794B2 (ja) 文字切り出し装置
JPH0676103A (ja) 文書画像の文章領域抽出装置
JP3220226B2 (ja) 文字列方向判別方法
JP2569132B2 (ja) 特殊文字行の判別方法
JPH04276885A (ja) 文字切出し装置
JP2520174B2 (ja) 文字自動抽出装置
JP2878327B2 (ja) 文字切り出し装置
JPH09106437A (ja) 文字切出し装置および文字切出し方法
JP3039427B2 (ja) 文字切り出し方式及び方法
JPH0731713B2 (ja) キ−ワ−ド検出方式
JPH05282487A (ja) 文字認識装置
JPH09167206A (ja) 日英混在文書のスペース検出方法、ピッチ書式判定方法、定ピッチ英数文字列のスペース検出方法、及びプロポーショナルピッチ英数文字列のスペース検出方法
JP2003030585A (ja) 画像処理装置、方法、プログラム及び記憶媒体
JPH04260980A (ja) 図形認識装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Effective date: 20060124

Free format text: JAPANESE INTERMEDIATE CODE: A131

A02 Decision of refusal

Effective date: 20060523

Free format text: JAPANESE INTERMEDIATE CODE: A02