JPH07152861A - 文字領域切り出し方法 - Google Patents

文字領域切り出し方法

Info

Publication number
JPH07152861A
JPH07152861A JP5296721A JP29672193A JPH07152861A JP H07152861 A JPH07152861 A JP H07152861A JP 5296721 A JP5296721 A JP 5296721A JP 29672193 A JP29672193 A JP 29672193A JP H07152861 A JPH07152861 A JP H07152861A
Authority
JP
Japan
Prior art keywords
image data
coordinates
coordinate
black
ruled line
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5296721A
Other languages
English (en)
Inventor
Motohiro Machida
基宏 町田
Akimichi Tanaka
明通 田中
Osamu Nakamura
修 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP5296721A priority Critical patent/JPH07152861A/ja
Publication of JPH07152861A publication Critical patent/JPH07152861A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】 【目的】 読み取り時の文字部分の位置ズレを許容し、
伝票形式の定義のための作業量を削減可能な文字領域切
り出し方法を提供すること。 【構成】 帳票の2値のイメージデータと、イメージデ
ータ範囲の座標とを入力し、前記帳票イメージデータの
主走査および副走査方向における各走査線について、2
値のいずれかの画素の反転回数および同種画素の連なり
の長さを検出し、前記検出された画素反転回数および同
種画素の連なりの長さが、大小判定基準値を満足する走
査線に対しては、前記走査線に含まれる画素数の補正を
行い、前記各走査方向において極大画素数を有する走査
線の座標を記入欄の罫線の座標として記入欄座標を出力
する。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、文字イメージデータか
ら文字コードへ変換する文字認識に関し、特に、伝票読
み取りのための罫線で囲まれた文字領域切り出しを行う
方法に関する。
【0002】
【従来の技術】計算機システムにデータを入力する手段
として、文字認識技術を応用した装置が開発されてお
り、キーボードからのデータ入力に比べ操作が簡単、デ
ータ入力を迅速に行える等の理由から次第に普及しつつ
ある。
【0003】この種の装置は、スキャナ等から入力した
イメージデータ(微少な画素データの集合)中の文字イ
メージデータをJISやシフトJIS等の文字コードに
変換する機能を有し、主に、伝票等の文書入力に使用さ
れている。
【0004】この種の装置の有用性は読み取り精度に大
きく左右され、さらに読み取り精度は、大別して、文字
部分の位置確定、文字認識アルゴリズム、および各種知
識処理の適用の3つの技術要素により決定される。
【0005】これらの内、文字部分の位置確定には、そ
の文字領域に関する情報を予め定義しておき、この定義
情報を用いて読み取り対象とすべき文字部分の切り出し
を行うことが一般的になっている。
【0006】
【発明が解決しようとする課題】しかしながら、伝票形
式を予め定義しておく従来の方法には、読み取り時に発
生する文字部分の位置ズレに柔軟に対応できないという
問題点があった。
【0007】また、伝票形式の定義では、文字認識の対
象とする領域を精度良く定義する必要があり、このため
の作業にはかなりの時間を要するという問題があった。
【0008】本発明は、前記従来技術の問題点を解決す
るためになされたものであり、本発明の目的は、文字領
域切り出し方法において、読み取り時の文字部分の位置
ズレを許容し、伝票形式の定義のための作業量を削減可
能とする技術を提供することにある。
【0009】本発明の前記目的並びにその他の目的及び
新規な特徴は、本明細書の記載及び添付図面によって明
らかにする。
【0010】
【課題を解決するための手段】前記目的を達成するため
に、本発明では、文字領域切り出し方法において、帳票
の2値のイメージデータと、イメージデータ範囲の座標
とを入力し、前記帳票イメージデータの主走査および副
走査方向における各走査線について、2値のいずれかの
画素の反転回数および同種画素の連なりの長さを検出
し、前記検出された画素反転回数および同種画素の連な
りの長さが、大小判定基準値を満足する走査線に対して
は、前記走査線に含まれる画素数の補正を行い、前記各
走査方向において極大画素数を有する走査線の座標を記
入欄の罫線の座標とし、前記罫線座標で区切られるイメ
ージデータ範囲が複数存在する場合には、前記イメージ
データ範囲を分割し、分割したイメージデータ範囲のイ
メージデータに対して、前記画素数補正からイメージデ
ータ範囲の分割までの処理を繰り返し、前記罫線座標で
区切られるイメージデータ範囲が単一である場合には、
文字領域の範囲を示す記入欄座標を出力することを特徴
とする。
【0011】
【作用】前記手段によれば、文字領域切り出し方法にお
いて、帳票の2値のイメージデータと、イメージデータ
範囲の座標とを入力し、前記帳票イメージデータの主走
査および副走査方向における各走査線について、2値の
いずれかの画素の反転回数および同種画素の連なりの長
さを検出し、前記検出された画素反転回数および同種画
素の連なりの長さが、大小判定基準値を満足する走査線
に対しては、前記走査線に含まれる画素数の補正を行
い、前記各走査方向において極大画素数を有する走査線
の座標を記入欄の罫線の座標として記入欄座標を出力す
るようにしたので、読み取り時の文字部分の位置ズレを
許容し、伝票形式の定義のための作業時間を短縮するこ
とが可能となる。
【0012】これにより、ワードプロセッサーやパソコ
ン等により作成された伝票を精度良く読み取ることが可
能となる。
【0013】
【実施例】以下、図面を用いて本発明の実施例を説明す
る。
【0014】なお、実施例を説明するための全図におい
て、同一機能を有するものは同一符号を付け、その繰り
返しの説明は省略する。
【0015】図1は、本発明の一実施例である文字領域
切り出し方法を実現するための処理手順を示すフローチ
ャートである。
【0016】図1において、文字領域切り出し処理ブロ
ック101は、その処理ブロック中に同じ処理ブロック
101を持つ再帰的構造を有し、帳票イメージデータと
領域座標を入力とし、罫線座標および記入欄座標を出力
とする処理ブロックである。
【0017】本実施例の文字切り出し方法においては、
始めに、帳票イメージデータと領域座標とが、黒画素数
変換処理ブロック102に入力され、黒画素数変換処理
ブロック102では、直行するX座標およびY座標にお
いて、帳票イメージデータの白黒反転回数、黒画素の連
なりの長さに基づき黒画素数を増減補正する処理が行わ
れる。
【0018】以後、説明を簡単にするため、イメージデ
ータの主走査軸をX、また、副走査軸をYと呼ぶことに
する。
【0019】次に、黒画素周辺分布取得処理ブロック1
03で、直行するX座標およびY座標においてイメージ
データ中の黒画素を計数する処理が行われる。
【0020】次に、罫線座標検出処理ブロック104
で、計数結果から罫線座標を検出する処理が行われる。
【0021】次に、罫線座標取得処理ブロック105
で、検出した罫線座標を取得する処理が行われる。
【0022】次に、記入欄検出処理ブロック106で、
取得した罫線座標から記入欄を検出する処理が行われ
る。
【0023】記入欄検出処理ブロック106において記
入欄が検出された場合には、記入欄座標取得処理ブロッ
ク107において、検出した記入欄の領域を取得する処
理が行われる。
【0024】記入欄検出処理ブロック106において記
入欄が検出されなかった場合には、分割領域座標生成処
理ブロック108において、罫線座標に基づいて領域を
分割し、その領域座標を生成する処理が行われる。
【0025】次に、文字領域切り出し処理ブロック10
1と同じ処理ブロック101で、前記文字領域切り出し
処理ブロック101と同じ処理が行われる。
【0026】また、次領域座標取得処理ブロック109
では、次の領域座標を取得する処理が行われる。
【0027】次に、図2を用いて、図1における黒画素
数変換処理ブロック102の黒画素数変換処理手順につ
いて、X方向の黒画素周辺分布を取得する場合を例に挙
げて説明する。
【0028】図2は、X方向の黒画素周辺分布を取得す
る場合における、図1の黒画素数変換処理ブロック10
2の黒画素数変換処理手順を示すフローチャートであ
る。
【0029】黒画素数変換処理においては、始めに、帳
票イメージデータと領域座標とが、白黒反転計数処理ブ
ロック201に入力され、白黒反転計数処理ブロック2
01では、入力された帳票イメージデータを基に、X座
標およびY座標上における白黒反転回数tを計数する処
理が行われる。
【0030】次に、処理ブロック202で、入力された
白黒反転回数tを、帳票イメージデータサイズ幅(Xe
−Xs)で乗した値が、閾値aより大きいか否かを判断
する処理が行われる。
【0031】入力された白黒反転回数tを、帳票イメー
ジデータサイズ幅(Xe−Xs)で乗した値が、閾値a
より大きい場合には、処理ブロック203で、入力され
たX方向の黒画素の連なりの長さnを定数α(0≦α<
1)倍する処理が行われる。
【0032】ここで、入力されたX方向の黒画素の連な
りの長さnは、X方向の黒画素の積分値である。
【0033】なお、前記処理ブロック202および処理
ブロック203からなる、X座標およびY座標上におけ
る白黒反転回数に基づく黒画素数補正処理の概念につい
ては、図3を用いて後で詳細に説明する。
【0034】次に、処理ブロック204で、入力された
X方向の黒画素の連なりの長さnが閾値bより小さいか
否かを判断する処理が行われる。
【0035】入力されたX方向の黒画素の連なりの長さ
nが閾値bより小さい場合には、処理ブロック205
で、入力されたX方向の黒画素の連なりの長さnをα
(0≦α<1)倍する処理が行われる。
【0036】次に、処理ブロック206で、X方向の黒
画素の連なりの長さnが閾値cより大きいか否かを判断
する処理が行われる。
【0037】X方向の黒画素の連なりの長さnが閾値c
より大きい場合には、処理ブロック207で、X方向の
黒画素の連なりの長さnを定数β(1<β)倍する処理
が行われる。
【0038】ここで、閾値bと閾値cの間には、b<c
の関係がある。
【0039】なお、前記処理ブロック204、処理ブロ
ック205、処理ブロック206および処理ブロック2
07からなる、黒画素の連なりの長さに基づく黒画素数
補正処理の概念については、図4を用いて後で詳細に説
明する。
【0040】次に、図3を用いて、X方向における白黒
反転回数に基づく黒画素数補正処理の概念を説明する。
【0041】図3は、X方向における白黒反転回数に基
づく黒画素数補正処理の概念を説明するための図であ
る。
【0042】図3(A)は、記入欄301の例を示し、
図3(B)は、記入欄301のイメージデータに対する
X方向の白黒反転回数tを帳票イメージデータサイズ
(Xe−Xs)で乗じた値をX軸に、Y座標をY軸に示
したグラフ302である。
【0043】グラフ302におけるY座標領域303
は、X軸の値が閾値aより大きいY座標領域を示す。
【0044】図2における処理ブロック202の条件を
満たした場合には、処理ブロック203の処理により黒
画素の連なりの長さnは小さく変換される。
【0045】図3(C)は、X方向における白黒反転回
数に基づく黒画素数補正処理を行う前のX方向の黒画素
周辺分布を示すグラフ304であり、図3(D)は、X
方向における白黒反転回数に基づく黒画素数補正処理を
行った後のX方向の黒画素周辺分布を示すグラフ305
である。
【0046】なお、図3(C)、図3(D)では、記入
欄301のイメージデータに対するX方向の黒画素の連
なりの長さnをX軸に、Y座標をY軸に示している。
【0047】次に、図4を用いて、黒画素の連なりの長
さに基づく黒画素数補正処理の概念を説明する。
【0048】図4は、Y方向の黒画素の連なりの長さに
基づく黒画素数補正処理の概念を説明するための図であ
る。
【0049】図4において、401、402は記入欄イ
メージデータの例であり、記入欄イメージデータ402
は、元の記入欄イメージデータ401が、図2の処理ブ
ロック204、処理ブロック206の処理により、閾値
bより小さい黒画素の連なりの長さnは小さく、閾値c
より長い黒画素の連なりの長さnは大きく補正された記
入欄イメージデータである。
【0050】また、グラフ403は、記入欄イメージデ
ータ401に対するY方向の黒画素の連なりの長さに基
づく黒画素数補正処理を行う前の黒画素周辺分布を示す
グラフであり、グラフ404は、記入欄イメージデータ
402に対するY方向の黒画素の連なりの長さに基づく
黒画素数補正処理を行った後の黒画素周辺分布を示すグ
ラフである。。
【0051】次に、図5を用いて、図1における記入欄
検出処理ブロック106の記入欄検出処理について説明
する。
【0052】図5は、図1における記入欄検出処理ブロ
ック106の記入欄を検出する処理手順を示すフローチ
ャートである。
【0053】記入欄検出処理ブロック106は、領域座
標と罫線座標から記入欄を検出する処理を行う。
【0054】記入欄を検出する処理手順は、始めに、処
理ブロック501において、入力された罫線座標から、
罫線がX方向およびY方向に各2本あるか否かを判断す
る。
【0055】入力された罫線座標から、罫線がX方向お
よびY方向に各2本ある場合には、処理ブロック502
で、入力された領域座標および罫線座標から、その領域
の端点座標と罫線座標が一致するか否かを判断する。
【0056】前記処理ブロック501、処理ブロック5
02の記入欄検出処理の概念は、図6を用いて後で詳細
に説明する。
【0057】前記処理ブロック501、処理ブロック5
02において、記入欄として判断されなかった場合に
は、罫線座標503が出力される。
【0058】この出力された罫線座標503は、縦罫線
か横罫線かどちらか一方のものである。
【0059】次に、図6を用いて、図5における処理ブ
ロック501、処理ブロック502の記入欄検出処理の
概念について説明する。
【0060】図6は、図5における処理ブロック50
1、処理ブロック502の記入欄検出処理の概念を説明
するための図である。
【0061】図6に示すように、Y方向の黒画素周辺分
布601からX1およびX2の罫線を、同様にX方向の黒
画素周辺分布602からY1およびY2の罫線を各2本検
出し、かつ、その座標(Xs,Ys)、(Xe,Ye)
を用いて4本の罫線座標が表現可能な場合に、その領域
座標を記入欄座標と判断する。
【0062】次に、図7を用いて、図1における分割領
域座標生成処理ブロック108の分割領域座標生成概念
について説明する。
【0063】ただし、前記図5の罫線座標503が、Y
方向の罫線座標の場合を例に挙げて説明する。
【0064】図7は、図1における分割領域座標生成処
理ブロック108の分割領域座標生成概念を説明するた
めの図である。
【0065】図7に示すように、Y方向の黒画素周辺分
布701からX1、X2およびX3の罫線を3本、同様に
X方向702の黒画素周辺分布からY1およびY2の罫線
を2本検出したとする。
【0066】この場合には、前記記入欄検出処理ブロッ
ク106の処理においては記入欄が検出されず、罫線座
標503としてX2が分割領域座標生成処理ブロック1
08の処理に渡される。
【0067】そして、その罫線座標X2により領域分割
が行われ、新たに2つの領域の生成が行われる。
【0068】次に、図8を用いて、図1における処理ブ
ロック101の再帰的な文字領域切り出し方法について
詳細に説明する。
【0069】図8は、図1における文字領域切り出し処
理ブロック101の再帰的な文字領域切り出し方法を説
明するための図である。
【0070】図8(A)に示すように、X方向黒画素周
辺分布801を拾得し、罫線検出結果に基づき領域を分
割する。
【0071】次に、図8(B)に示すように、分割され
た各領域内において、Y方向の黒画素周辺分布802を
拾得し、罫線検出結果に基づき領域を分割する。
【0072】この際、分割できなかった領域は記入欄と
して、その領域座標を取得する。
【0073】次に、図8(C)に示すように、分割され
た各領域内においてX方向黒画素周辺分布803を拾得
し、罫線検出結果に基づき領域を分割する。
【0074】次に、図8(D)に示すように、分割され
た各領域内においてY方向の黒画素周辺分布804を拾
得し、罫線検出結果に基づき領域を分割する。
【0075】前記処理を、罫線が検出されなくなるまで
再帰的に繰り返すことで、帳票イメージデータ中の罫線
で囲まれた記入欄座標を取得する。
【0076】以上、本発明を実施例に基づき具体的に説
明したが、本発明は、前記実施例に限定されるものでは
なく、その要旨を逸脱しない範囲で種々変更し得ること
は言うまでもない。
【0077】
【発明の効果】以上説明したように、本発明によれば、
文字領域切り出し方法において、帳票の2値のイメージ
データと、イメージデータ範囲の座標とを入力し、前記
帳票イメージデータの主走査および副走査方向における
各走査線について、2値のいずれかの画素の反転回数お
よび同種画素の連なりの長さを検出し、前記検出された
画素反転回数および同種画素の連なりの長さが、大小判
定基準値を満足する走査線に対しては、前記走査線に含
まれる画素数の補正を行い、前記各走査方向において極
大画素数を有する走査線の座標を記入欄の罫線の座標と
して記入欄座標を出力するようにしたので、読み取り時
の文字部分の位置ズレを許容し、伝票形式の定義のため
の作業時間を短縮することが可能となる。
【0078】これにより、ワードプロセッサーやパソコ
ン等により作成された伝票を精度良く読み取ることが可
能となる。
【図面の簡単な説明】
【図1】本発明の一実施例である文字領域切り出し方法
を実現するための処理手順を示すフローチャートであ
る。
【図2】X方向の黒画素周辺分布を取得する場合におけ
る、図1の黒画素数変換処理ブロック102の黒画素数
変換処理手順を示すフローチャートである。
【図3】X方向における白黒反転回数に基づく黒画素数
補正処理の概念を説明するための図である。
【図4】Y方向の黒画素の連なりの長さに基づく黒画素
数補正処理の概念を説明するための図である。
【図5】図1における記入欄検出処理ブロック106の
記入欄を検出する処理手順を示すフローチャートであ
る。
【図6】図5における処理ブロック501、処理ブロッ
ク502の記入欄検出処理の概念を説明するための図で
ある。
【図7】図1における分割領域座標生成処理ブロック1
08の分割領域座標生成概念を説明するための図であ
る。
【図8】図1における処理ブロック101の再帰的な文
字領域切り出し方法を説明するための図である。
【符号の説明】
101…文字領域切り出し処理ブロック、102…黒画
素数変換処理ブロック、103…黒画素周辺分布取得処
理ブロック、104…罫線座標検出処理ブロック、10
5…罫線座標取得処理ブロック、106…記入欄検出処
理ブロック、107…記入欄座標取得処理ブロック、1
08…分割領域座標生成処理ブロック、109…次領域
座標取得処理ブロック、201…白黒反転計数処理ブロ
ック、202…白黒反転回数と閾値を比較する処理ブロ
ック、203…白黒反転回数に基づく黒画素数変換処理
ブロック、204、206…黒画素の連なりの長さと閾
値とを比較する処理ブロック、205、207…黒画素
の連なりの長さに基づく黒画素数変換処理ブロック、3
01…記入欄イメージデータ、302…白黒反転回数を
示すグラフ、303…閾値a以上のY座標範囲、304
…処理前のX方向の黒画素周辺分布を示すグラフ、30
5…黒画素数補正処理後のX方向への黒画素周辺分布を
示すグラフ、401…黒画素数補正処理前のイメージデ
ータ、402…黒画素数補正処理後のイメージデータ、
403…黒画素数補正処理前のY方向への黒画素周辺分
布を示すグラフ、404…黒画素数補正処理後のY方向
への黒画素周辺分布を示すグラフ、501…X方向およ
びY方向罫線の数が各々2本か判断する処理ブロック、
502…領域座標で罫線座標が表現できるか否か判断す
る処理ブロック、503…罫線座標。

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 帳票の2値のイメージデータと、イメー
    ジデータ範囲の座標とを入力し、前記帳票イメージデー
    タの主走査および副走査方向における各走査線につい
    て、2値のいずれかの画素の反転回数および同種画素の
    連なりの長さを検出し、前記検出された画素反転回数お
    よび同種画素の連なりの長さが、大小判定基準値を満足
    する走査線に対しては、前記走査線に含まれる画素数の
    補正を行い、前記各走査方向において極大画素数を有す
    る走査線の座標を記入欄の罫線の座標とし、前記罫線座
    標で区切られるイメージデータ範囲が複数存在する場合
    には、前記イメージデータ範囲を分割し、分割したイメ
    ージデータ範囲のイメージデータに対して、前記画素数
    補正からイメージデータ範囲の分割までの処理を繰り返
    し、前記罫線座標で区切られるイメージデータ範囲が単
    一である場合には、文字領域の範囲を示す記入欄座標を
    出力することを特徴とする文字領域切り出し方法。
JP5296721A 1993-11-26 1993-11-26 文字領域切り出し方法 Pending JPH07152861A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5296721A JPH07152861A (ja) 1993-11-26 1993-11-26 文字領域切り出し方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5296721A JPH07152861A (ja) 1993-11-26 1993-11-26 文字領域切り出し方法

Publications (1)

Publication Number Publication Date
JPH07152861A true JPH07152861A (ja) 1995-06-16

Family

ID=17837233

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5296721A Pending JPH07152861A (ja) 1993-11-26 1993-11-26 文字領域切り出し方法

Country Status (1)

Country Link
JP (1) JPH07152861A (ja)

Similar Documents

Publication Publication Date Title
US6347156B1 (en) Device, method and storage medium for recognizing a document image
JP2940496B2 (ja) パタンマッチング符号化装置及び方法
US6507677B2 (en) Image data adjusting device and method
US8295646B2 (en) Resolution converting method
JP4565396B2 (ja) 画像処理装置および画像処理プログラム
JP2005184685A (ja) 画像処理装置、プログラムおよび記録媒体
JPH09147109A (ja) 特定マーク検出方法及び特定マーク検出装置
JPH07152861A (ja) 文字領域切り出し方法
US6661535B1 (en) Moire fringe eliminating apparatus and a method for eliminating moire fringes
JP3698867B2 (ja) 円形パターン判定方法、装置および記録媒体
JP4382472B2 (ja) 網点領域識別装置、および網点領域識別方法
JP2009071829A (ja) 画像処理装置、画像形成装置及び画像処理装置の細線化方法
JPH07282189A (ja) 文字領域切り出し方法
JPH10327315A (ja) 画像処理装置
JP3966448B2 (ja) 画像処理装置、画像処理方法、該方法を実行するプログラムおよび該プログラムを記録した記録媒体
JP2845376B2 (ja) 画素密度変換装置
JP2007328652A (ja) 画像処理装置および画像処理プログラム
JP2007249580A (ja) 画像処理装置、画像処理プログラムおよび画像処理方法
JPH10340337A (ja) 図枠線図形のある図面のイメージデータの傾き及び伸縮の補正方法
JPH05342340A (ja) 画像処理方法及びその装置
JP3080102B2 (ja) データ処理方法および装置
JP2973892B2 (ja) 文字認識方式
JP2637395B2 (ja) 図形変換方法
JPH07120392B2 (ja) 文字パターン切り出し装置
JPH03209579A (ja) 画像処理装置及び画像処理方法