JP4248700B2 - 罫線識別方法、罫線識別装置および記録媒体 - Google Patents

罫線識別方法、罫線識別装置および記録媒体 Download PDF

Info

Publication number
JP4248700B2
JP4248700B2 JP24141899A JP24141899A JP4248700B2 JP 4248700 B2 JP4248700 B2 JP 4248700B2 JP 24141899 A JP24141899 A JP 24141899A JP 24141899 A JP24141899 A JP 24141899A JP 4248700 B2 JP4248700 B2 JP 4248700B2
Authority
JP
Japan
Prior art keywords
solid line
run
threshold
extracted
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP24141899A
Other languages
English (en)
Other versions
JP2001067471A (ja
Inventor
裕子 杉浦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP24141899A priority Critical patent/JP4248700B2/ja
Publication of JP2001067471A publication Critical patent/JP2001067471A/ja
Application granted granted Critical
Publication of JP4248700B2 publication Critical patent/JP4248700B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、画像中から罫線を識別する罫線識別方法、罫線識別装置および罫線識別処理プログラムを記録した記録媒体に関する。
【0002】
【従来の技術】
短罫線を識別処理する従来技術として、例えば特開平7−13999号公報に記載された表認識装置がある。この装置では、表の枠を抽出し、その枠内部に対して短罫線(桁線)の識別処理を行なっている。入力された表画像の全領域に対して短罫線識別を行なうと、文字の一部を短罫線として誤認識する確率が高くなる。そこで、上記装置では、短罫線の識別処理対象領域を枠内部に限定することにより、短罫線の誤認識率を低く抑えている。しかしながら、枠の識別処理に手間がかかることや枠を誤識別した場合には、短罫線の識別精度が大幅に悪化する可能性が高い。また、枠内部に文字が存在する場合にも、短罫線を誤認識する可能性が高くなる。
【0003】
【発明が解決しようとする課題】
ところで、実線を識別する方法としては、連続黒画素(2値画像の場合)のランが所定の閾値以上のものを実線として識別する方法がある。そして、ランの長さを決定するためには、識別対象の画像のラン分布を調べて、実線に相当するラン長を決定する方法などが考えられる。
【0004】
上記した方法は、長い実線の場合には有効であるが、文字の大きさと同等以下の短い実線の場合には、短い実線を識別するためのラン長を決定することが難しいという問題がある。また、閾値として一つの固定値を設定しているので、特に短い実線の識別精度が低くなるという問題もある。
【0005】
本発明の目的は、長い実線と短い実線とを2段階に分けて識別することにより、全体の実線識別精度を向上させた罫線識別方法、罫線識別装置および記録媒体を提供することにある。
【0006】
【課題を解決するための手段】
本発明では、ランの閾値を変えながら、まず長い実線を識別し、次いで短い実線を識別する。それぞれの実線の識別後、必要なら実線であるか否かの判定処理を実行して、識別の精度を向上させる。
具体的には、画像を入力し、該画像について、少なくとも主走査あるいは副走査方向の各ライン毎に黒画素連結を調べ、該黒画素連結をランとして抽出する。そして、抽出されたランについて、第1の閾値以上の長さのランを抽出し、該抽出したランについて接触しているラン同士を統合して長い実線とする。また、抽出されたランについて、第2の閾値以上で且つ前記第1の閾値以下である第3の閾値未満の長さのランを抽出し、該抽出したランについて接触しているラン同士を統合して短い実線とする
【0007】
【発明の実施の形態】
以下、本発明の一実施例を図面を用いて具体的に説明する。
まず、本発明で使用する用語を以下ように定義する。
表処理:画像において、実線や点線を含む罫線の抽出処理、罫線で包含された領域(枠)の抽出処理、枠内の文字部を抽出する処理、文字を認識する処理、表全体を再現する処理等を含む処理をいう。
ラン:1ライン(1走査)上での黒画素連結を一塊としたものをいう。
矩形:2値画像データの画像部(例えば黒画素部)を一塊として、それらが接触包含される外接四角形で囲んだ範囲を矩形と定義する。連結する黒画素を全て包含する外接範囲を矩形とする。
矩形抽出:矩形の位置座標を抽出することをいう。
処理方向:図9に示すように、画像が2次元(X,Y)の画像であれば、X方向(主走査方向)の処理とY方向(副走査方向)の処理の2方向の処理がある。罫線抽出の場合には、罫線がX方向に延びている場合とY方向に延びている場合があり、X方向とY方向の2方向についてそれぞれ処理を行なう。
罫線:実線、点線を含む全ての線をいう。
【0008】
(実施例1)
本実施例は、識別対象画像のラン分布を調べる必要のない、つまり固定閾値による実線識別処理方法の利点を活かしつつ、従来の全実線識別に対して一つ固定閾値による認識方法ではなく、長い実線(一般に使用されている文字サイズより大きい実線)用の第1の閾値と、短い実線(一般的に使用されている文字サイズより同等以下)用の第2の閾値を設定し、識別を2段階に分けることにより、全体の実線識別精度を向上させた実施例である。
【0009】
図1は、本発明の実施例1の構成を示す。図において、1は2値画像入力部、2は画像圧縮処理部、3は長実線識別処理部、4は短実線識別処理部である。
【0010】
スキャナなどの2値画像入力部1で処理対象の画像を取り込み、2値化データに変換し、画像圧縮処理部2では高速化のために圧縮画像を作成する。圧縮画像とは、例えば1/4圧縮の場合には、4画素が全て白画素であった場合にのみ1つの白画素に置き換え、4画素中1つでも黒画素が含まれていれば、1つの黒画素に置き換えるという圧縮処理である。圧縮率は、1/4圧縮に限らず、1/2圧縮、1/8圧縮のいずれでもよい。
【0011】
次に、長実線識別処理3で長実線を識別し、続いて短実線識別処理部4で短実線を識別する。従来は全ての実線に対して一度に実線識別処理を行なっていたが、本発明では、長実線識別処理部3と短実線識別処理部4に示すように、2段階に分けて識別処理を行なう。
【0012】
図2は、長実線識別処理部3と短実線識別処理部4の処理で共通に用いられるラン抽出処理のフローチャートを示す。ラン抽出処理としてはどのような方法を用いてもよいが、少なくともランの位置情報が得られることが必要である。また、2値画像入力部から入力された2値データをそのまま使用するか、処理時間短縮のために圧縮画像データを用いるか、何れでもよい。ただし、本発明では、実線識別処理の場合には圧縮画像データを用い、ラン抽出処理の場合には2値データを用いる。
【0013】
主走査方向の1ライン毎に黒画素連結を調べ、黒画素連結が途切れたとき(ステップ102,103)、黒画素一塊をランとして登録する(ステップ104)。同様の処理を全ラインについて繰返す(ステップ101、106)。
【0014】
図3は、長実線識別の処理フローチャートを示す。長実線識別処理としてはどのような方法を用いてもよいが、実線識別情報として、識別した実線の位置を示すアドレス情報が得られることが必要である。図3は、実線識別処理の一例として一方向の罫線識別例を示す。X、Y方向の両方向に実線を識別するには、図3の処理を両方向に繰り返せばよい。
【0015】
図2の処理で抽出されたランについて、その長さが所定の閾値A以上であるとき(ステップ202)、実線ランとして登録する(ステップ203)。次に、その実線ラン同士が接触しているか否かを調べ(ステップ206)、接触していれば、それらを統合し実線として登録する(ステップ207)。同様の処理を全てのランの数だけ繰返す(ステップ201、208)。
【0016】
ここで、閾値Aとしては、例えば一般的な帳票画像の場合に使用されている文字サイズより大きい値を与える。この閾値Aは、処理対象の画像毎に決定してもよいし、任意の一定値を与えてもよい。ただし、文字サイズより大きい値であることが望ましい。
【0017】
図4は、短実線識別の処理フローチャートを示す。短実線識別処理としてはどのような方法を用いてもよいが、識別した実線の位置を示すアドレス情報が得られることが必要である。また、処理を簡単にするために長実線識別処理と同様の処理とすることが望ましい。長実線識別処理と同様の処理を用いた場合の例を図4に示す。前述した図3の長実線処理と異なる点は、図4のステップ302における閾値である。図2の処理で抽出されたランについて、その長さが所定の閾値B以上で、所定の閾値A’未満であるとき(ステップ302)、実線ランとして登録する(ステップ303)。次に、その実線ラン同士が接触しているか否かを調べ(ステップ306)、接触していれば、それらを統合し実線として登録する(ステップ307)。同様の処理を全てのランの数だけ繰返す(ステップ301、308)。
【0018】
ここで、閾値A’は、長実線識別処理におけるステップ202の閾値Aと同値であることが望ましい。しかしながら、処理によっては、閾値A’とAは必ずしも同値でなくてもよい。ただし、閾値A’は、一般的な帳票画像の場合に使用されている文字サイズより大きい値を与えることが望ましく、閾値A’は処理対象の画像毎に決定してもよいし、あるいは一定値を設定してもよい。
【0019】
一方、閾値Bについては、ノイズサイズ以上の値であることが望ましく、一般的な帳票画像の場合に使用されている文字サイズよりも小さい値であることが望ましい。
【0020】
(実施例2)
上記したように識別された実線は100%正しいとは限らない。そこで、通常は実線識別処理後に、実線が正しいか否かの判断処理(実線誤判定処理)を実行して、誤識別した実線を除去する処理を追加している。
【0021】
ところで、実施例1の実線識別処理において、長い実線は精度よく識別されるのに対して、短い実線は識別精度が低い。そこで、本実施例では、全ての実線に対して一律に正しいか否かの判断処理を行うのではなく、例えば長い実線として識別された実線に対しては簡易に、短い実線識別で認識された実線に対しては詳細に実線誤判定処理を行う。つまり、それぞれの特徴に合致するような実線誤判定処理を設ける。また、低精度の短実線の誤判定処理を行うとき、精度良く識別された長実線の情報を利用することが可能となり、実線全体の識別精度が向上すると共に、処理時間が短縮化される。
【0022】
図5は、実施例2の構成を示す。図5は実線識別処理の場合を示すが、通常実線識別処理だけで100%に近い識別率の精度を出すことは不可能である。識別精度を向上させるためには実線識別処理の後に、識別された実線に対して誤判定処理を行ない、誤識別された実線を除去することで、実線識別精度を向上させる方法を採る。
【0023】
図5において、長実線識別処理部3と短実線識別処理部4の後処理として、それぞれの特性に対応した誤判定処理部5,6を設ける。長実線誤判定処理部5と短実線誤判定処理部6の処理内容は、識別された実線が正しいか否かを判定する処理であり、例えば標準的な長実線、短実線と比較することにより判定するなどの方法を用いる。また、長実線誤判定処理部5と短実線誤判定処理部6の処理が同等の処理であってもよい。
【0024】
(実施例3)
実施例3は、認識対象画像中に短い実線がないことが予め分かっている場合、実施例1の2段階認識処理の内、長い実線認識処理のみ実行するなど、無駄な処理を行うことなく目的の実線のみ認識処理を実行することで、処理時間の短縮化を図る実施例である。
【0025】
実施例3では、実施例2の処理を分割して、利用し易いように構成したものである。図6は、処理対象画像中に短実線がなく、長実線のみ識別したい場合に処理が実行される実施例の構成を示す。同様に、図7は、短実線識別のみ単独に実行する場合の実施例の構成を示す。図6,7の処理内容は前述したものと同様であるので、説明は省略する。
【0026】
(実施例4)
図8は、本発明をソフトウェアによって実現する実施例4の構成例を示す。CD−ROMなどの記録媒体には本発明の罫線識別処理機能が記録されていて、これをシステムにインストールする。スキャナなどから取り込まれた帳票などの画像から長い実線、短い実線を識別処理し、その結果をディスプレイなどに表示出力する。
【0027】
なお、上記した各実施例は、例えばOCR(文字認識装置)などに適用される。
【0028】
【発明の効果】
以上、説明したように、本発明によれば、実線を識別する際に、ランの閾値を2段階に分けることにより、長い実線と短い実線をそれぞれ精度良く識別することができる。
【図面の簡単な説明】
【図1】本発明の実施例1の構成を示す。
【図2】ラン抽出処理のフローチャートを示す。
【図3】長実線識別の処理フローチャートを示す。
【図4】短実線識別の処理フローチャートを示す。
【図5】本発明の実施例2の構成を示す。
【図6】本発明の実施例3の第1の構成を示す。
【図7】本発明の実施例3の第2の構成を示す。
【図8】本発明をソフトウェアによって実現する場合の構成例を示す。
【図9】画像のX、Y方向を示す。
【符号の説明】
1 2値画像入力部
2 画像圧縮処理部
3 長実線識別処理部
4 短実線識別処理部

Claims (3)

  1. 画像中から罫線としての長い実線と短い実線を識別する罫線識別方法であって、
    画像を入力するステップと、
    前記画像について、少なくとも主走査あるいは副走査方向の各ライン毎に黒画素連結を調べ、該黒画素連結をランとして抽出するステップと、
    前記抽出されたランについて、第1の閾値以上の長さのランを抽出し、該抽出したランについて接触しているラン同士を統合して長い実線とするステップと、
    前記抽出されたランについて、第2の閾値以上で且つ前記第1の閾値以下である第3の閾値未満の長さのランを抽出し、該抽出したランについて接触しているラン同士を統合して短い実線とするステップと、
    を有することを特徴とする罫線識別方法。
  2. 画像中から罫線としての長い実線と短い実線を識別する罫線識別装置であって、
    画像を入力する手段と、
    前記画像について、少なくとも主走査あるいは副走査方向の各ライン毎に黒画素連結を調べ、該黒画素連結をランとして抽出する手段と、
    前記抽出されたランについて、第1の閾値以上の長さのランを抽出し、該抽出したランについて接触しているラン同士を統合して長い実線とする手段と、
    前記抽出されたランについて、第2の閾値以上で且つ前記第1の閾値以下である第3の閾値未満の長さのランを抽出し、該抽出したランについて接触しているラン同士を統合して短い実線とする手段と、
    を有することを特徴とする罫線識別装置。
  3. 画像中から罫線としての長い実線と短い実線を識別する罫線識別装置の機能をコンピュータに実現させるためのプログラムを記録したコンピュータ読取可能な記録媒体であって、
    画像を入力する機能と、
    前記画像について、少なくとも主走査あるいは副走査方向の各ライン毎に黒画素連結を調べ、該黒画素連結をランとして抽出する機能と、
    前記抽出されたランについて、第1の閾値以上の長さのランを抽出し、該抽出したランについて接触しているラン同士を統合して長い実線とする機能と、
    前記抽出されたランについて、第2の閾値以上で且つ前記第1の閾値以下である第3の閾値未満の長さのランを抽出し、該抽出したランについて接触しているラン同士を統合して短い実線とする機能と、
    をコンピュータに実現させるためのプログラムを記録したコンピュータ読取可能な記録媒体。
JP24141899A 1999-08-27 1999-08-27 罫線識別方法、罫線識別装置および記録媒体 Expired - Fee Related JP4248700B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP24141899A JP4248700B2 (ja) 1999-08-27 1999-08-27 罫線識別方法、罫線識別装置および記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP24141899A JP4248700B2 (ja) 1999-08-27 1999-08-27 罫線識別方法、罫線識別装置および記録媒体

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2007070858A Division JP2007193837A (ja) 2007-03-19 2007-03-19 罫線識別方法、罫線識別装置および記録媒体

Publications (2)

Publication Number Publication Date
JP2001067471A JP2001067471A (ja) 2001-03-16
JP4248700B2 true JP4248700B2 (ja) 2009-04-02

Family

ID=17074007

Family Applications (1)

Application Number Title Priority Date Filing Date
JP24141899A Expired - Fee Related JP4248700B2 (ja) 1999-08-27 1999-08-27 罫線識別方法、罫線識別装置および記録媒体

Country Status (1)

Country Link
JP (1) JP4248700B2 (ja)

Also Published As

Publication number Publication date
JP2001067471A (ja) 2001-03-16

Similar Documents

Publication Publication Date Title
KR100480781B1 (ko) 치아영상으로부터 치아영역 추출방법 및 치아영상을이용한 신원확인방법 및 장치
US5864629A (en) Character recognition methods and apparatus for locating and extracting predetermined data from a document
JP2000207489A (ja) 文字抽出方法、装置および記録媒体
JP2004280334A (ja) 画像読み取り装置
US6983071B2 (en) Character segmentation device, character segmentation method used thereby, and program therefor
JP4248700B2 (ja) 罫線識別方法、罫線識別装置および記録媒体
KR101048399B1 (ko) 문자 검출 방법 및 장치
JP2005250786A (ja) 画像認識方法
JP4213357B2 (ja) 画像処理装置、画像処理方法及び該方法を実行させるためのプログラム
JP4409713B2 (ja) 文書画像認識装置及び記録媒体
JP2007193837A (ja) 罫線識別方法、罫線識別装置および記録媒体
JP4094240B2 (ja) 画像特性判別処理装置、画像特性判別処理方法、該方法を実行させるためのプログラム及び該プログラムを格納したコンピュータ読み取り可能な記憶媒体
JP3753354B2 (ja) 破線識別装置および記録媒体
JP3545227B2 (ja) 画像処理方法及び装置、光学式文字読取装置
JP3391987B2 (ja) 帳票認識装置
JP4270767B2 (ja) 罫線情報処理方法と罫線情報処理プログラムと画像処理装置及び記憶媒体
JP2000222571A (ja) 表処理方法、装置および記録媒体
JP2670074B2 (ja) 車両番号認識装置
KR101786734B1 (ko) 문자 세선화 장치 및 방법
JP2520174B2 (ja) 文字自動抽出装置
JPH07168911A (ja) 文書認識装置
JP2022054632A (ja) ナンバプレート認識プログラム及びナンバプレート認識装置
JP3734614B2 (ja) 画像処理方法、装置および記録媒体
JP2891821B2 (ja) バーコードの識別方法
JP3030814B2 (ja) ノイズ成分除去方法及びノイズ成分除去プログラムを記録した記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040318

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060821

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060927

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061127

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070117

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080818

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081201

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090114

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120123

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 4248700

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120123

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130123

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140123

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees