JP3904840B2 - 多値画像から罫線を抽出する罫線抽出装置 - Google Patents

多値画像から罫線を抽出する罫線抽出装置 Download PDF

Info

Publication number
JP3904840B2
JP3904840B2 JP2001064194A JP2001064194A JP3904840B2 JP 3904840 B2 JP3904840 B2 JP 3904840B2 JP 2001064194 A JP2001064194 A JP 2001064194A JP 2001064194 A JP2001064194 A JP 2001064194A JP 3904840 B2 JP3904840 B2 JP 3904840B2
Authority
JP
Japan
Prior art keywords
ruled line
area
region
pixel
binary image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001064194A
Other languages
English (en)
Other versions
JP2002133426A (ja
Inventor
敦子 小原
克仁 藤本
聡 直井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2001064194A priority Critical patent/JP3904840B2/ja
Priority to US09/917,748 priority patent/US7164795B2/en
Priority to CNB011254041A priority patent/CN1213382C/zh
Publication of JP2002133426A publication Critical patent/JP2002133426A/ja
Priority to US10/941,863 priority patent/US7440618B2/en
Application granted granted Critical
Publication of JP3904840B2 publication Critical patent/JP3904840B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/12Edge-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/155Removing patterns interfering with the pattern to be recognised, such as ruled lines or underlines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • G06T2207/10008Still image; Photographic image from scanner, fax or copier
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30176Document
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)
  • Image Processing (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、濃淡画像(gray scale image)やカラー画像等の多値画像から罫線を抽出する罫線抽出装置と、多値画像から任意のパターンを抽出するパターン抽出装置に関する。
【0002】
【従来の技術】
近年、スキャナ等の入力機器の普及に伴って、コンピュータにより文書画像を取り扱う機会が増加しており、OCR(Optical Character Reader)の需要が増加している。OCRは、ソフトウェアまたは文字認識装置として、ユーザに提供される。
【0003】
入力機器により入力された画像が濃淡画像である場合、文字認識装置において、適当な方法で画像を二値化する必要がある。特に、OHR(Over Head Reader)のような非接触型画像入力装置を用いた場合、スキャナと比較して、濃淡むら、影、歪み等の画像の劣化が見られることが多い。このため、適切な二値化を行うことが重要となる。
【0004】
従来使用されている二値化方法としては、画像全体を同一しきい値で二値化する大局的二値化と、画像の局所的な領域に注目して二値化を行う局所的二値化とがある。
【0005】
【発明が解決しようとする課題】
しかしながら、帳票のように、罫線を含む文書の濃淡画像から罫線を抽出する場合、上述した従来の二値化方法には、以下のような問題がある。
【0006】
大局的二値化においては、画像に影があったりして、画像の濃度(gray level)が部分的に変動する場合には、二値化結果が掠れたり、潰れたりして、正確に罫線を抽出することができない。
【0007】
また、局所的二値化においては、影の影響はかなり削減されるが、注目画素周辺の近傍領域を対象として二値化処理を行うため、薄い罫線の近くに濃い文字が存在する場合等は、罫線部分が背景であると誤認されてしまう可能性がある。さらに、濃淡むら等を原因とするノイズが二値化されて黒パターンになってしまい、罫線抽出処理に悪影響を与えてしまう。
【0008】
また、いずれの二値化方法においても、罫線と背景の濃度差がほとんどない場合には、二値化結果が掠れたり、潰れたりして、正確に二値化が行われないことが多い。
【0009】
このように、従来の大局的二値化および局所的二値化では、掠れや潰れのない良好な二値画像を常に得られるという訳ではない。したがって、得られた二値画像を用いて罫線抽出処理を行うと、掠れまたは潰れのために、罫線が正確に抽出できないという問題がある。
【0010】
また、帳票等では、紙の裏側に書かれた罫線、文字、図形等のパターンや、冊子の場合、次のページに書かれたパターンが、紙を通して薄く見えることがある。このような場合、入力された画像にも、裏から透けて見えるパターンが写ってしまい、入力画像から特定のパターンを抽出する際に、不要な裏写りのパターンを抽出してしまうという問題もある。
【0011】
本発明の第1の課題は、濃淡画像に影があったり、罫線と背景の濃度差が少ないような場合であっても、正確に罫線を抽出することができる罫線抽出装置を提供することである。
【0012】
また、本発明の第2の課題は、濃淡画像等の多値画像から、罫線を含む任意のパターンを抽出する際に、必要なパターンを正確に抽出することができるパターン抽出装置を提供することである。
【0013】
【課題を解決するための手段】
図1は、本発明の第1の局面における罫線抽出装置の原理図である。図1の罫線抽出装置は、二値化手段11、12、抽出手段13、判定手段14、および出力手段15を備える。
【0014】
二値化手段11は、多値画像16を二値化して、第1の二値画像17を生成し、二値化手段12は、二値化手段11とは異なる方法で多値画像を二値化して、第2の二値画像18を生成する。抽出手段13は、二値画像17を用いて罫線候補領域を抽出し、判定手段14は、二値画像18を用いて、抽出された罫線候補領域が罫線に対応するか否かを判定する。そして、出力手段15は、罫線に対応すると判定された罫線候補領域の情報を出力する。
【0015】
二値化手段11は、入力された多値画像16から、罫線候補領域をもれなく抽出可能な二値画像17を生成し、二値化手段12は、多値画像16から、罫線候補領域を正確に検証可能な二値画像18を生成する。二値画像17としては、例えば、膨張したパターンを含む潰れ気味の二値画像が生成され、二値画像18としては、例えば、パターンの薄い部分が省略された掠れ気味の二値画像が生成される。
【0016】
抽出手段13は、潰れ気味の二値画像17から罫線の候補となる領域を抽出し、判定手段14は、掠れ気味の二値画像18を用いて、その候補領域が実際の罫線に対応するか否かを判定する。そして、出力手段15は、罫線に対応する領域のみを抽出結果として出力する。
【0017】
このように、多値画像を2種類の異なる方法で二値化することで、得られた2種類の二値画像をそれぞれ目的に合わせて使用することが可能となる。そして、一方の二値画像を用いて罫線候補領域を抽出し、もう一方の二値画像を用いて罫線候補領域を検証することで、罫線をより正確に抽出することができる。
【0018】
例えば、図1の二値化手段11、12、抽出手段13、および判定手段14は、後述する図28のCPU(中央処理装置)101およびメモリ102の組み合わせに対応し、図1の出力手段15は、図28の出力装置104に対応する。
【0019】
また、本発明の第2の局面において、パターン抽出装置は、抽出手段、判定手段、および出力手段を備える。例えば、抽出手段および判定手段は、図28のCPU101およびメモリ102の組み合わせに対応し、出力手段は、図28の出力装置104に対応する。
【0020】
抽出手段は、多値画像から判定対象領域を抽出する。判定手段は、その判定対象領域に含まれるパターンの輪郭部分について、輪郭線の接線方向に垂直な方向の濃度変化に基づく評価値を求め、その評価値が一定値以上であれば、判定対象領域を必要なパターン領域であると判定し、評価値が一定値より小さければ、判定対象領域を不要なパターン領域であると判定する。そして、出力手段は、必要なパターン領域の情報を出力する。
【0021】
抽出手段は、多値画像から、必要なパターンを含むか否かを判定するための判定対象領域を抽出する。判定手段は、その領域に含まれるパターンの輪郭部分について、輪郭線の接線方向に垂直な方向の濃度変化に基づき、評価値を計算する。そして、評価値が一定値以上であれば、判定対象領域を必要なパターンを含む領域であると判定し、評価値が一定値より小さければ、判定対象領域を不要なパターンを含む領域であると判定する。そして、出力手段は、必要なパターン領域のみを抽出結果として出力する。
【0022】
通常、裏写りのパターンは、表側のパターンと比較して、輪郭がぼやけ、にじんだような形状になっているという特徴がある。裏写りのパターンの輪郭がぼやけるということは、パターンの輪郭から内側へ向けての濃度変化が少なく、また、逆に輪郭が鮮明であるということは、その濃度変化が大きいことであるといえる。
【0023】
そこで、輪郭線の接線方向に垂直な方向の濃度変化に対応する評価値を用いることで、抽出されたパターンが紙の表側に書かれたもの(必要なパターン)であるか、裏写り(不要なパターン)であるかを判定することができる。このような判定を行うことで、抽出されたパターン領域から、不要な裏写りパターンのパターン領域を除外して、表側のパターンのパターン領域のみを、必要なパターン領域として出力することができる。
本発明の別の罫線抽出装置は、二値化手段11、12、抽出手段13、判定手段14、出力手段15、および記憶手段を備える。二値化手段11は、多値画像を二値化して、第1の二値画像17を生成し、記憶手段は、その二値画像17を記憶する。二値化手段12は、二値化手段11とは異なる方法で多値画像を二値化して、第2の二値画像18を生成し、記憶手段に格納する。抽出手段13は、二値画像17を用いて罫線候補領域を抽出し、判定手段14は、二値画像18を用いて、抽出された罫線候補領域内の黒画素の割合が一定値より大きいとき、その罫線候補領域が罫線に対応すると判定する。そして、出力手段15は、罫線に対応すると判定された罫線候補領域の情報を出力する。
【0024】
【発明の実施の形態】
以下、図面を参照しながら、本発明の実施の形態を詳細に説明する。
本実施形態においては、濃淡画像から2種類の異なる処理により得られた2種類の二値画像と、元の濃淡画像とを、各処理の目的に応じて使い分けながら、罫線を抽出する。これらの二値画像としては、掠れ気味の二値画像と、潰れ気味でノイズのある二値画像とを用いる。
【0025】
最初に、潰れ気味の二値画像を用いて罫線候補の位置を検出する。このような潰れ気味の二値画像を用いることで、掠れの影響を考慮せずに、罫線候補の領域を抽出することが可能となる。次に、掠れ気味の二値画像および濃淡画像を用いて、罫線候補として抽出された領域が罫線であるか否かを判定する。このとき、二値化結果が黒となった領域の濃度と、二値化結果が白となった領域の濃度を比較して、濃度差が小さい領域を統合していくことで、罫線部分を抽出する。
【0026】
このように、濃淡画像から罫線を抽出する処理において、濃淡画像から掠れ気味の二値画像と潰れ気味の二値画像を作成することで、異なる二値画像をそれぞれ目的に合わせて使用することが可能となり、罫線部分が正確に抽出される。
【0027】
処理の対象は、濃淡情報を持つ濃淡画像であり、スキャナ等の接触型入力装置により入力された画像と、OHR等の非接触型入力装置により入力された画像の両方を含む。また、画像に影があるか否かは問わず、罫線濃度が薄い場合であっても、処理の対象とする。抽出の対象となる罫線は、主として、実線で構成される罫線を想定しており、点線は必ずしも想定していない。
【0028】
図2は、本実施形態の罫線抽出装置による処理のフローチャートである。罫線抽出装置は、まず、濃淡画像を入力し(ステップS1)、潰れ気味の二値画像を生成して(ステップS2)、その二値画像を処理対象とする(ステップS3)。そして、全線分候補抽出処理を行い、横方向および縦方向に黒画素密度の高い領域を、罫線候補領域として抽出する(ステップS4)。
【0029】
次に、濃淡画像から掠れ気味の二値画像を生成し(ステップS5)、その二値画像を処理対象とする(ステップS6)。そして、線分検証処理を行い、ステップS4で抽出された罫線候補領域が罫線であるか否かを判定する(ステップS7)。そして、線分統合処理を行い(ステップS8)、端線分抽出処理を行い(ステップS9)、丸角抽出処理を行って(ステップS10)、処理を終了する。
【0030】
次に、図3から図13までを参照しながら、図2の各処理について具体的に説明する。
図2の処理では、入力された濃淡画像から文字、罫線等のストローク画素(パターン)を抽出する際に、掠れのない潰れ気味の二値画像と、潰れはないが多少掠れのある二値画像の2種類の二値画像が作成される。
【0031】
一般に、影・濃淡むらに対して安定した二値画像を得るためには、一定しきい値による二値化では不充分なため、Niblack の局所的二値化が用いられる。Niblack の局所的二値化とは、各画素の閾値T=E+Kσ(E:対象画素の近傍領域の画素濃度の平均、σ:対象画素の近傍領域の画素濃度の標準偏差、K:所定の定数)として、画素毎に二値化を実行する方法である。画素の近傍領域としては、対象画素を中心とするN×N(Nは定数)の矩形領域が用いられる。
【0032】
しかし、この方法をそのまま適用すると、背景および太い線の内部において、画素近傍のすべての画素が一様な濃度であるため、ごま塩状ノイズが発生してしまう。そこで、本実施形態では、このごま塩状ノイズを除去するために、先願の「画像処理装置及び画像処理方法」(特願平11−335495)に記載された背景判別による二値化処理を、基本となる二値化処理として用いることにする。
【0033】
この方法では、画素近傍毎に得られる情報を元に対象画素が背景であるか否かを判別する背景判別処理を、Niblack の局所的二値化と組み合わせて用いる。例えば、対象画素の局所しきい値Tにより白と判定された画素を白画素とし、そのしきい値Tにより黒と判定された画素を黒画素として、平均濃度差Δgを次式により定義する。
【0034】
Δg=近傍領域内の白画素の平均濃度−近傍領域内の黒画素の平均濃度
このとき、Δgが所定のしきい値Δgmin より小さければ、対象画素は背景と判定され、背景と判定されなかった画素について、Niblack の局所的二値化が行われる。このような背景判別処理を用いることで、影あり画像に対しても掠れやノイズのかなり少ない良好な二値化結果を得ることができる。
【0035】
図2のステップS2では、罫線抽出装置は、濃淡画像に対して背景判別による二値化処理を行い、注目画素が白画素と判定された場合、その画素を対象として、再度、背景判別による二値化処理を行う。2回目の背景判別による二値化処理においては、注目画素を中心とする近傍領域(局所領域)内で、黒画素と判断された画素は処理対象から除く。
【0036】
例えば、図3に示すように、罫線上の注目画素21(×印の画素)の近傍領域22(点線で囲まれた矩形領域)内に、異なる濃度の黒領域23、24がある場合、1回の二値化処理だけでは、黒領域24内の画素21が白画素と判断される可能性がある。しかし、黒領域23を除外して2回目の二値化処理を行うことで、画素21を正確に黒画素と判断することが可能となる。
【0037】
ただし、黒領域24が黒領域23と比較してごく薄い場合であっても、画素21は黒画素と判断される。このように、ステップS2の二値化処理では、本来黒画素と判断したくない部分に関しても黒画素とみなされるため、ストロークの膨張やノイズの増加が起こる。したがって、得られる二値画像は、潰れ気味ではあるが掠れはほとんどない画像となる。
【0038】
このように、1回目の局所的二値化を行った結果、注目画素が白画素と判断された場合、その注目画素の近傍領域内で白画素と判断された画素のみを対象として、再度、局所的二値化が行われる。これにより、薄い罫線の近くに濃い文字パターンが存在しているような場合であっても、罫線部分を白画素と誤認することが防止できる。
【0039】
ここでは、2回目の二値化処理において、1回目の二値化処理で黒画素と判断された画素を除外するものとしたが、その代わりに、近傍領域の形を変更することも可能である。例えば、2回目の処理における近傍領域として、注目画素を含む縦長、横長、斜め方向等の複数の領域を用いて判定を行う。そして、それらの領域による複数の判定結果のうち、どれか1つでも注目画素が黒画素と判定されたものがあれば、注目画素は黒画素であると判断する。
【0040】
このように、近傍領域の形を変更して、再度、局所的二値化を行うことで、薄い罫線の近くに濃い文字パターンが存在しているような場合であっても、罫線部分を白画素と誤認することが防止できる。
【0041】
また、図2のステップS5では、罫線抽出装置は、濃淡画像に対して背景判別による二値化処理を行い、注目画素が白画素と判定されたとき、その注目画素の近傍領域内の黒画素の平均濃度と白画素の平均濃度を比較して、再度二値化処理を行うか否かを決定する。そして、2つの平均濃度が所定の条件を満たせば、2回目の背景判別による二値化処理を行う。この条件としては、例えば、以下のようなものが用いられる。
(1)近傍領域内の平均濃度比が一定値以上
(2)近傍領域内の平均濃度差が一定値以上
(3)近傍領域内の平均濃度比および平均濃度差が一定値以上
ここで、平均濃度比および平均濃度差は、例えば、次式により定義される。
【0042】
平均濃度比=白画素の平均濃度/黒画素の平均濃度
平均濃度差=白画素の平均濃度−黒画素の平均濃度
そして、このような条件が満たされる場合にのみ、2回目の二値化処理が行われる。この場合も、ステップS2の処理と同様に、注目画素を中心とする近傍領域内で黒画素と判断された画素を処理対象から除くか、または、近傍領域の形を変更して、2回目の二値化処理を行うものとする。
【0043】
注目画素が白画素と判断され、かつ、近傍領域内の平均濃度比または平均濃度差の値が大きいということは、注目画素以外の部分に濃い黒画素が存在する可能性があることを表している。そこで、注目画素を正確に二値化するために、注目画素以外の部分の濃い黒画素を除外して、再度、判定を行う。しかし、平均濃度比または平均濃度差の値が小さい場合には、2回目の二値化処理が行われないため、掠れが残ることになる。
【0044】
また、先願の背景判別処理では、平均濃度差を用いて判別を行っていたが、ここでは、新たにパターンの複雑さを表す輪郭率という判断基準を設ける。輪郭率は、注目画素を中心とする近傍領域中の黒画素の分布(パターン)の複雑さを示す値であり、輪郭数/黒画素数で表される。ここで、輪郭数は、近傍領域内の黒画素に接する白画素の数であり、黒画素数は、近傍領域内の黒画素の数である。そして、この輪郭率の値が一定値以上となった場合には、注目画素は背景であるものとみなして、その二値化結果を白とする。
【0045】
このように、輪郭率を判断基準として用いて、それが一定値以上である場合に注目画素を背景と判断することで、背景中のノイズを取り除き、良好な二値画像を得ることができる。
【0046】
上述したように、ここでは、1回目の局所的二値化を行った結果、注目画素が白画素と判断された場合、その注目画素の近傍領域内で白画素と判断された画素のみを対象として再度局所的二値化を行うか否かを、近傍領域内の平均濃度比と平均濃度差のうち少なくとも一方の値に従って決定する。
【0047】
これにより、薄い罫線の近くに濃い文字パターンが存在しているような場合であっても、罫線部分を白画素と誤認することが防止され、かつ、二値化結果のパターンが膨張することも防止される。こうして得られた二値画像は、多少の掠れを含むが、それ以外の罫線/文字ストロークは良好に二値化されている画像である。
【0048】
さらに、近傍領域毎に得られる情報から、注目画素が縦または横直線の一部である可能性が高い場合には、その注目画素の二値化結果を黒とすることも考えられる。
【0049】
この場合、まず、近傍領域を対象に算出された二値化しきい値を用いて、近傍領域内の各画素が白または黒のどちらになるかを判断する。次に、その結果に対して、注目画素を中心とする一定幅(例えば、1ドット幅)の縦長領域および横長領域を設定する。そして、縦長領域または横長領域内に黒画素が一定割合以上含まれている場合は、注目画素は縦直線または横直線の一部である可能性が高いと判断して、その二値化結果を黒とする。
【0050】
このように、白画素と判断された注目画素を含む縦長パターンまたは横長パターンが存在した場合に、その注目画素を黒画素とみなすことで、多少の掠れのある縦横方向成分であっても、それを正確に二値化することができる。
【0051】
次に、図2のステップS4では、罫線抽出装置は、ステップS2で作成された潰れ気味の二値画像を用いて、全線分候補抽出処理を行い、罫線候補領域を抽出する。ここでは、先願の「画像抽出方式」(特開平6−309498)に記載された線分抽出処理を用いて、二値画像から直線の候補領域を抽出する。
【0052】
この線分抽出処理では、二値画像に対して隣接投影値を算出し、直線候補領域を矩形近似により検出する。隣接投影とは、ある行または列の黒画素の投影値に、その周囲の行または列の投影値を足し合わせた結果を、その行または列の投影値とする投影法である。この投影法によれば、ある行または列の周囲の黒画素の分布を大局的にとらえることが可能である。二値画像の縦横両方向について、同様の処理が行われる。
【0053】
罫線候補領域の検出結果は、1つ以上の線分候補の集合で表される。例えば、図4の検出結果では、1つの罫線候補領域が、短い線分候補領域31、32、および33の集合として表されている。このように、罫線候補を線分の集合として表現することで、多少画像に傾きがある場合でも、罫線候補を抽出することが可能となる。抽出された候補領域の位置は、横方向の座標値(X座標値)と縦方向の座標値(Y座標値)として記憶され、次の線分検証処理の対象領域として用いられる。
【0054】
ここでは、処理対象とする二値画像が掠れのない潰れ気味の画像であるため、罫線候補領域の抽出は、黒画素密度の非常に高い部分に限定して行うことができる。画像に掠れがある場合には、罫線候補領域が抽出されない可能性があるが、潰れ気味の画像を用いれば、部分的に罫線と接近した文字や、文字と文字が接触した部分等が余分に候補として抽出される可能性はあっても、罫線部分が候補として抽出されない可能性はほとんどなくなる。
【0055】
このように、掠れのない潰れ気味の二値画像を用いて罫線候補領域を抽出することで、掠れの影響を受けずに、罫線候補の位置を確実に検出することが可能となる。
【0056】
次に、図2のステップS7では、罫線抽出装置は、線分検証処理を行い、ステップS4の全線分候補抽出処理において抽出された線分候補が、罫線の一部であるか、またはそれ以外の文字ストローク等であるかを判断する。この処理では、ステップS5で作成された掠れ気味の二値画像と元の濃淡画像、および、線分候補領域の座標情報が用いられる。
【0057】
まず、各線分候補領域毎に、掠れ気味の二値画像に含まれる黒画素の濃度と白画素の濃度を比較し、それらの差が小さければ、白画素の部分を黒画素とみなす線分内補完を行う。そして、線分内補完の結果、黒画素率が一定値以上となった候補領域は、罫線を構成する部分であるとみなす線分決定を行う。黒画素率とは、候補領域内の画素数に対する黒画素数の割合を表す。
【0058】
このように、あらかじめ罫線候補として抽出された領域が罫線であるか否かを、掠れ気味の二値画像および濃淡画像を用いて決定することで、罫線の掠れを解消し、罫線部分と文字部分を分離して、罫線部分のみを抽出することが可能となる。
【0059】
図5は、このような線分検証処理のフローチャートである。罫線抽出装置は、まず、掠れ気味の二値画像において各線分候補に対応する領域を参照し、その領域内で黒画素である領域(黒画素領域)の濃淡画像における濃度を調査する(ステップS11)。また、同じ線分候補領域内で、白画素である領域(白画素領域)の濃淡画像における濃度を調査する(ステップS12)。そして、黒画素領域の平均濃度と白画素領域の平均濃度の差が、しきい値(一定値)以下であるか否かを判定する(ステップS13)。
【0060】
平均濃度差が一定値を越えれば、その線分候補領域は線分ではないと判断し(ステップS17)、処理を終了する。また、平均濃度差が一定値以下であれば、白画素領域を黒画素領域とみなして、線分候補領域の黒画素率が一定値以上であるか否かを判定する(ステップS15)。黒画素率としては、例えば、線分候補領域の長さに対する黒画素領域の長さの割合が用いられる。
【0061】
そして、黒画素率が一定値以上であれば、その線分候補領域は線分であると判断し(ステップS16)、黒画素率が一定値未満であれば、その線分候補領域は線分ではないと判断して(ステップS17)、処理を終了する。
【0062】
例えば、図6のような濃淡画像から、図7のような掠れ気味の二値画像が得られ、横方向の罫線を構成する固定長の線分候補領域として、領域41、42、43、および44が抽出された場合を考える。
【0063】
図7において、領域b1、b2、およびb3は、線分候補領域41内の黒画素領域を表し、領域w1およびw2は、線分候補領域41内の白画素領域を表す。また、領域b4、b5、およびb6は、線分候補領域43内の黒画素領域を表し、領域w3およびw4は、線分候補領域43内の白画素領域を表す。
【0064】
黒画素領域b1、b2、およびb3の範囲は、図8に示すように、黒画素が分布している領域に限られ、白画素領域w1およびw2の範囲は、2つの黒画素領域の間にある同じ幅の領域に限られる。他の黒画素領域および白画素領域についても同様である。
【0065】
まず、線分候補領域41が罫線であるかどうかを判断するために、図6の濃淡画像において、領域b1、b2、b3、w1、およびw2のそれぞれに対応する位置の画素の濃度を調査し、各領域を構成する画素の平均濃度を求める。領域w1およびw2の場合は、もともと罫線を構成する部分であるため、領域b1、b2、およびb3の濃度と近い濃度になり、領域w1およびw2の画素は黒画素に変更される。したがって、領域41の長さに対する黒画素領域の長さの割合が100%となり、領域41は線分であると判断される。
【0066】
また、領域44における黒画素領域は文字の一部であり、白画素領域は背景である。このため、黒画素領域と白画素領域の平均濃度差は大きくなり、白画素領域の画素は白画素のままとなる。したがって、領域44の長さに対する黒画素領域の長さの割合は一定値未満となり、領域44は線分ではないと判断される。領域42に関しては、白画素領域が存在しないため、線分であると判断される。
【0067】
また、領域43に関しては、黒画素領域b5およびb6は文字の一部であり、白画素領域w3およびw4は背景である。このため、領域44の場合と同様に、黒画素領域と白画素領域の平均濃度差は大きくなる。したがって、領域43の長さに対する黒画素領域の長さの割合は一定値未満となり、領域43は線分ではないと判断される。
【0068】
しかし、この領域43内には、部分的に罫線が含まれているため、実際の罫線領域は、領域41および42と、領域43の一部分とからなる。そこで、罫線領域を正確に抽出するために、後述する端線分抽出処理が行われる。また、縦方向の罫線についても、横方向と同様の線分検証処理が行われる。
【0069】
このように、線分候補領域内において、黒画素領域の濃度と白画素領域の濃度の差が小さい場合に、白画素領域の画素を黒画素とみなすことで、罫線の掠れを解消し、かつ、罫線部分と文字部分を分離することが可能となる。また、黒画素率が一定値以上の線分候補領域を線分であると判断することで、黒画素密度の高い罫線領域を抽出することが可能となる。
【0070】
次に、図2のステップS8では、罫線抽出装置は、線分統合処理を行い、線分であると判断された複数の線分候補領域を統合して、直線領域を生成する。また、図2のステップS9では、統合後の各直線領域の両端部に関して端線分抽出処理を行い、罫線端をより正確に検出する。
【0071】
端線分抽出処理では、線分検証処理と同様に、ステップS5で作成された掠れ気味の二値画像と元の濃淡画像が用いられ、さらに、統合された線分候補領域の座標情報が用いられる。まず、直線領域の各端部を対象に、黒画素領域と白画素領域の濃度を比較し、それらの差が小さければ、白画素を黒画素とみなして線分内補完を行う。そして、黒画素の割合が一定値以上になった領域を、罫線の端線分として直線領域に加える。
【0072】
図9は、このような線分統合処理および端線分抽出処理のフローチャートである。ここでは、右端の端線分を抽出する処理を記載しているが、左端についても同様の処理が行われるものとする。
【0073】
罫線抽出装置は、まず、線分であると判断された線分候補領域を対象として、互いに接触または重複している領域同士を統合し(ステップS21)、統合結果を直線とみなす(ステップS22)。例えば、図7の場合は、領域41および42が統合され、1つの直線とみなされる。
【0074】
次に、各直線領域の右端から外側に向かって、直線と同じ幅で一定長さを持つ矩形領域を設定し、これを処理範囲とする(ステップS23)。そして、その処理範囲の左端を処理開始点とする(ステップS24)。以後、処理は左から右に向かって行われる。
【0075】
次に、掠れ気味の二値画像から、処理開始点の右側において最も左に存在する黒画素領域を検出し(ステップS25)、その黒画素領域の右隣に位置する白画素領域を検出する(ステップS26)。そして、黒画素領域と白画素領域の濃淡画像における濃度を調査し、黒画素領域の平均濃度と白画素領域の平均濃度の差が、しきい値(一定値)以下であるか否かを判定する(ステップS27)。
【0076】
平均濃度差が一定値以下であれば、白画素領域を黒画素領域とみなして、処理開始点から白画素領域の右端までを罫線の一部であると判断する(ステップS28)。そして、白画素領域の右端を新たな処理開始点として(ステップS29)、ステップS25以降の処理を繰り返す。
【0077】
ステップS27において、平均濃度差が一定値を越えれば、次に、処理範囲の左端から白画素領域の右端までの長さに対する黒画素領域の長さの割合が、一定値以上であるか否かを判定する(ステップS30)。そして、その割合が一定値以上であれば、ステップS28以降の処理を行う。
【0078】
黒画素領域の長さの割合が一定値未満であれば、処理範囲の左端から黒画素領域の右端までを罫線の一部であると判断する(ステップS31)。そして、処理範囲の左端から黒画素領域の右端までを含む矩形領域を、端線分として設定し、処理を終了する。罫線領域は、直線領域と左右の端線分領域を統合することで生成される。
【0079】
図7の領域41および42が1つの直線に統合された場合、まず、その右側の黒画素領域b4は、領域42の黒領域と連結しているため、罫線の一部とみなされる。次に、黒画素領域b4の左端を処理開始点として、黒画素領域b4と白画素領域w3に対応する濃淡画像の濃度が調べられ、平均濃度が比較される。ところが、黒画素領域b4は罫線の一部であり、白画素領域w3は背景であるため、平均濃度差は一定値を越えてしまう。
【0080】
そこで、白画素領域w3は白画素のまま残され、次に、黒画素領域b4の左端から白画素領域w3の右端までの長さに対する領域b4の長さの割合が計算される。そして、その割合が一定値未満と判定され、領域b4の左端から右端までが端線分として抽出される。
【0081】
もし、領域b4と領域w3の平均濃度差が一定値以下、あるいは、領域b4の長さの割合が一定値以上であれば、領域b4の左端から領域w3の右端までが罫線の一部と判断される。次に、領域w3の右端を処理開始点として、さらに処理が続行される。そして、同様の処理を繰り返すことで罫線端が検出され、領域b4の左端から新たに検出された罫線端までの領域が、端線分として抽出される。
【0082】
以上の処理において、画像に多少の傾きがあった場合にも対応できるように、領域b4、b5、およびb6の位置は、領域42のY座標値に対して上下に多少ずれていても、許容するようにする。また、縦方向の線分候補領域についても、横方向と同様の処理が行われる。
【0083】
ところで、図2の罫線抽出処理では、あらかじめ濃淡画像全体に対して掠れ気味の二値画像を作成している。しかし、潰れ気味の二値画像を用いて検出された罫線候補領域に限定して、掠れ気味の二値画像を作成しても、同様の処理結果が得られる。このように、罫線候補領域に対応する濃淡画像内の領域を対象として二値化処理を行い、掠れ気味の二値画像を部分的に作成することで、二値化処理に要する時間を短縮することができる。
【0084】
端線分が抽出されると、罫線抽出装置は、次に、罫線であると判断された各領域の情報から罫線画像を作成する。具体的には、各罫線領域内の黒画素と、線分検証および端線分抽出における線分内補完により黒画素とみなされた画素とを抽出し、それらの画素を改めて黒画素とした新たな二値画像を作成する。これにより、濃淡画像から罫線部分のみを選択的に二値化した罫線画像を得ることができる。二値画像のみを対象とした従来の罫線抽出処理を行う場合は、この罫線画像を用いればよい。
【0085】
しかし、罫線画像は、直線部分のみを選択した画像であるため、直線部分以外は白画素となっている。このため、一般に使用されている帳票等によく出現する角の丸いパターン(丸角部)に関して処理を行うと、得られた罫線画像は、丸角部に関しては空白となり、丸角部により接続されているはずの縦横の罫線が分離した状態になってしまう。そこで、図2のステップS10において、罫線抽出装置は、丸角部を抽出し、罫線構造をより正確に復元する。
【0086】
例えば、図10のような丸角のある表の濃淡画像からは、図11のような罫線画像が生成される。図11の領域51は、図10の表の左上の丸角部に対応し、図12に示すように、横罫線部分と判断された領域52と縦罫線部分と判断された領域53の間にある。したがって、このままでは、罫線部分とはみなされない。
【0087】
そこで、縦方向と横方向の両方において、罫線領域52と53の端点間の距離を計算し、それらの値が一定値以下である場合には、領域52と53に挟まれた領域51内に丸角部が存在する可能性が高いものとみなす。そして、領域51に関して、上述した掠れ気味の二値画像を部分的に作成し、一定サイズ以上のパターンが得られれば、それを丸角パターンとして抽出する。
【0088】
抽出されたパターンを罫線画像に付加することで、図13に示すように、丸角部を含む罫線画像を作成することができる。ここでは、丸角パターンを抽出する処理について説明したが、同様の処理により任意の形状の角部のパターンを抽出することができる。
【0089】
このように、縦方向の罫線領域と横方向の罫線領域の距離が一定値以下である場合に、縦横罫線間の領域に対応する濃淡画像の領域を検出し、その領域内の二値化処理を行うことで、角部の二値化パターンを得ることができる。また、得られた二値化パターンのサイズが一定値以上である場合にのみ、それを角部のパターンとして抽出することで、罫線画像からノイズを除外することができる。
【0090】
ところで、図2のステップS9の端線分抽出処理では、罫線の確定時において、罫線候補およびそれを延長した領域における濃度変化だけに基づいて、罫線であるか否かを確定している。これにより、図7に示したような直線が存在する場合に、直線部分と文字部分とを分離することが可能となる。
【0091】
しかし、図14に示すような塗り潰しセルを含む画像の場合、罫線領域の長さが正確でなくなり、罫線の誤抽出が起こる可能性がある。図14の濃淡画像においては、セル61が塗り潰されており、この画像から、図15のような潰れ気味の二値画像と、図16のような掠れ気味の二値画像と、図17のような線分候補領域が得られたとする。このとき、図16の二値画像では、セル61の内部は白画素領域となっているため、この中に罫線は存在しない。
【0092】
それにもかかわらず、罫線部分とセル61内の濃度差が小さければ、線分候補領域62および63の左端部に対して端線分抽出処理を行うと、セル61の内部が黒画素領域とみなされてしまい、必要以上に端線分が延長される。
【0093】
そこで、必要以上の線分の延長を防ぐために、濃度変化だけではなく、ノイズを含むがすべてのパターンが二値化されている潰れ気味の二値画像の情報を利用する。
【0094】
図15の潰れ気味の二値画像では、罫線部分とセル61の周囲で、黒画素密度が高くなっている。潰れ気味の二値画像は局所的二値化により作成されるため、セル61の内部は濃度の濃い背景部分と同様に扱われ、白い部分よりノイズが多くなる傾向にある。しかし、基本的には背景部分と同じ特徴を持つ。
【0095】
そこで、潰れ気味の二値画像において、黒画素密度が比較的高い領域を、罫線が存在する可能性のある領域として扱う。この場合、罫線候補として抽出された領域の周辺部が罫線であるか否かを判定する処理において、潰れ気味の二値画像の黒画素密度が一定値以上であるような領域のみを判定対象とする。塗り潰しセルの内部が判定対象から除外されるように、黒画素密度のしきい値を設定することで、罫線をセルの内部まで伸ばしてしまうことが防止される。
【0096】
このような端線分抽出処理を行う場合、図9のフローチャートは、図18および図19に示すように変更される。図18のステップS41〜S46の処理は、図9のステップS21〜S26の処理と同様であり、図19のステップS49〜S53の処理は、図9のステップS27〜S31の処理と同様である。
【0097】
図18のステップS46において、黒画素領域の右隣の白画素領域が検出されると、次に、罫線抽出装置は、検出された黒画素領域と白画素領域を囲む領域に対して、潰れ気味の二値画像の対応する領域を参照し、その領域の黒画素密度を調査する(図19のステップS47)。そして、得られた黒画素密度が一定値以上か否かを判定する(ステップS48)。
【0098】
黒画素密度が一定値以上であれば、白画素領域が罫線である可能性があるので、それらの黒画素領域と白画素領域を対象に、ステップS49以降の処理を行う。また、黒画素密度が一定値より小さければ、白画素領域を罫線以外の領域とみなし、ステップS53の処理を行う。
【0099】
このように、図19の処理では、潰れ気味の二値画像の黒画素密度が一定値より小さい領域を、ステップS49の判定対象から除外しているが、このような領域についてステップS49の判定を行うこともできる。この場合、黒画素密度が一定値以上の領域を処理するときには、許容する濃度差のしきい値を緩める(大きくする)方向へ変化させ、黒画素密度が一定値より小さい領域を処理するときには、そのしきい値を厳しくする(小さくする)方向へ変化させる。これにより、図19の処理と同様に、罫線の伸ばしすぎを防ぐことが可能となる。
【0100】
さらに、図5の線分検証処理において、同様に、潰れ気味の二値画像の黒画素密度を調査し、その値に基づいてステップS13のしきい値を変化させてもよい。これにより、罫線の伸ばしすぎの可能性がさらに低下する。
【0101】
ところで、帳票等では、紙の裏側に書かれた罫線や、冊子の場合、次のページに書かれた罫線が、紙を通して薄く見えることがある。このような場合、入力された画像にも、裏から透けて見える罫線が写ってしまう。このような罫線を裏写り罫線と呼ぶことにする。
【0102】
図20は、表側に印刷された罫線と裏写り罫線の例を示している。表側罫線のパターンは、紙71の表側に印刷された罫線72により反射された光により生成されるが、裏写り罫線のパターンは、裏側に印刷された罫線73により反射された光が紙71を通過する際に、紙71の繊維によって拡散反射されることにより、生成される。このため、裏写り罫線のパターンは、表側罫線のパターンと比較して、輪郭がぼやけ、にじんだような形状になっていて、罫線の直線性が薄れているという特徴がある。
【0103】
一方、図2の罫線抽出処理によれば、抽出精度が向上するため、入力画像に含まれる濃い罫線だけでなく、薄い罫線も抽出することが可能である。このため、紙に書かれた情報を濃淡画像として入力した場合、裏面や次のページに書かれた罫線が透けて見えていると、裏写り罫線を抽出してしまう可能性がある。そこで、濃い罫線と薄い罫線の両方を抽出した後、抽出された罫線が表側に書かれたものであるか、裏写りであるかを判定する必要がある。
【0104】
この判定には、上述した裏写り罫線の特徴を利用することができる。具体的には、抽出された罫線領域の輪郭部における濃度変化の情報を用い、濃度の変化量が大きい場合は表側罫線であると判断し、変化量が小さい場合は裏写りであると判断する。表側罫線と裏写り罫線が同じ程度の濃度をもつ場合でも、輪郭部の濃度変化には違いが生じるため、判定が可能となる。
【0105】
裏写り罫線の輪郭がぼやけるということは、罫線のパターンの輪郭からパターンの内側へ向けての濃度変化が少なく、また、逆に輪郭が鮮明であるということは、輪郭からパターンの内側へ向けての濃度変化が大きいことであるといえる。
【0106】
そこで、罫線の輪郭線に垂直な方向(罫線に垂直な方向)の濃度変化を考えると、裏写り罫線は濃度変化が少なく、表側罫線は濃度変化が大きいといえる。また、裏写り罫線はにじんだような形状になっているため、罫線の輪郭線に沿った方向(罫線に平行な方向)の濃度変化は、裏写り罫線の方が表側罫線より変化量が大きいと考えられる。
【0107】
また、表側罫線の輪郭が鮮明であるということは、罫線の濃度に無関係であると考えられ、裏写り罫線の輪郭がぼやけるということも、濃度に無関係であると考えれる。したがって、輪郭の鮮明さに基づく判定方法によれば、表側罫線の濃度が薄い場合や、裏写り罫線の濃度が濃い場合でも、正しく判定することが可能になる。
【0108】
ここでは、端線分抽出処理により抽出された罫線領域を、改めて罫線候補領域に指定し、その領域に含まれるパターンの輪郭部分に関して、(罫線に垂直な方向の濃度変化/罫線に平行な方向の濃度変化)を評価値として用いて、輪郭部分の濃度変化を評価する。この評価値は、表側罫線の場合、より値が大きくなり、逆に裏写り罫線の場合、より値が小さくなる傾向にある。
【0109】
図21は、罫線候補の直線パターンの輪郭部分を示しており、図22は、図21の領域81の拡大図である。輪郭からパターンの内側へ向かって、画素の濃度が段階的に濃くなっていく様子が分かる。図22において、画素82に対して2つの方向が定義されており、垂直方向aは、罫線に垂直な方向に対応し、水平方向bは、罫線に平行な方向に対応する。
【0110】
このように、罫線に垂直な方向の濃度変化と罫線に平行な方向の濃度変化を利用して、罫線候補のパターンが表側罫線であるか、裏写り罫線であるかを判定することで、必要な画像情報のみを取り出すことが可能となる。
【0111】
図23は、このような裏写り判定を行う罫線抽出処理のフローチャートである。図23のステップS61〜S69の処理は、図2のステップS1〜S9の処理と同様であり、図23のステップS72の処理は、図2のステップS10の処理と同様である。
【0112】
図23のステップS69において罫線領域が確定すると、罫線抽出装置は、その領域を改めて罫線候補領域とし、縦横の罫線候補領域の交点で、罫線候補領域を分割して、裏写り判定の対象となる領域を生成する(ステップS70)。
【0113】
ここでは、判定対象領域の単位を、罫線の交点を基準として設定する。罫線の種類は、セルを構成する辺の途中で変わることはないので、セルの辺を単位として、線種の判断を行うこととする。具体的には、ある一本の罫線に注目し、その罫線に垂直に交差する別の罫線が存在する場合に、2つの罫線の交点を線種の変わる候補点とみなし、2つの交点にはさまれた領域を判定対象領域とする。
【0114】
例えば、図24に示すような罫線候補領域(矩形)が抽出された場合、罫線候補領域91は分割されず、罫線候補領域92は、交点94で2つの領域に分割される。そして、交点93と交点94にはさまれた領域95が、判定対象領域となる。他の罫線候補領域についても、同様の分割が行われる。
【0115】
次に、罫線抽出装置は、それぞれの判定対象領域に対して、裏写り判定を行う(ステップS71)。その結果、裏写り罫線と判定された領域は、罫線ではないものとみなし、罫線候補から除外する。そして、表側罫線と判定された領域のみを罫線領域として残し、ステップS72の処理を行う。ステップS71において、裏写り判定は以下の手順で行われる。
(1)判定対象領域の輪郭部分の画素毎に、罫線に水平な方向および罫線に垂直な方向の濃度変化を算出する。
【0116】
ここでは、ある画素を注目画素として、罫線に平行な方向に、注目画素と隣接する画素、または数ドット離れた画素を、対象画素として選択する。そして、注目画素と対象画素の濃度の差を計算し、得られた値を、注目画素における、罫線に平行な方向の濃度変化量とする。同様に、罫線に垂直な方向に、注目画素と隣接する画素、または数ドット離れた画素を、対象画素として選択し、注目画素と対象画素の濃度の差を、注目画素における、罫線に垂直な方向の濃度変化量とする。
【0117】
例えば、図24の判定対象領域95の場合、図25に示すように、網掛け領域を輪郭部分として、この領域に含まれる画素について濃度変化量を算出する。輪郭部分の一部の領域96を拡大すると、図26のようになる。図26は、3ドット×8ドットの領域を表しており、画素97が注目画素を表している。ここで、画素98、99が対象画素として選択されると、画素97と画素98の濃度差が、画素97における、罫線に平行な方向の濃度変化量となり、画素97と画素99の濃度差が、画素97における、罫線に垂直な方向の濃度変化量となる。
(2)画素毎に、(罫線に垂直な方向の濃度変化/罫線に水平な方向の濃度変化)の値を算出する。
(3)判定対象領域の輪郭部分のすべての画素について、算出された画素毎の値の平均値を求め、その値を判定対象領域の評価値とする。
(4)一定値以上の評価値を持つ判定対象領域を表側罫線の領域であると判定し、一定値未満の評価値を持つ判定対象領域を裏写り罫線の領域であると判定する。そして、裏写り罫線の領域を罫線領域から除外し、表側罫線の領域を罫線領域として出力する。
【0118】
このように、濃淡画像から抽出された判定対象領域毎に、その輪郭部分に対して、罫線に垂直な方向の濃度変化と、罫線に平行な方向の濃度変化を算出し、(罫線に垂直な方向の濃度変化/罫線に平行な方向の濃度変化)の値に基づいて裏写り判定を行うことで、罫線情報を正確に抽出することが可能となる。
【0119】
上述した手順では、罫線に垂直な方向の濃度変化と、罫線に水平な方向の濃度変化の両方に基づいて評価値を算出しているが、その代わりに、罫線に垂直な方向の濃度変化をそのまま評価値として用いても、有効な裏写り判定を行うことが可能である。この場合、輪郭部分の少なくとも一部の画素について、評価値が一定値以上であれば、判定対象領域を表側罫線の領域であると判定し、それ以外の判定対象領域を裏写り罫線の領域であると判定する。
【0120】
また、あらかじめ決められた一定のしきい値を用いて判定を行う代わりに、すべての判定対象領域の評価値の分布を表すヒストグラム等を生成し、それらの判定対象領域を2つのグループに分割可能な評価値のしきい値を、その都度求めて、得られたしきい値に基づいて判定を行ってもよい。
【0121】
この場合、例えば、大津のしきい値選定法(大津,「判別および最小2乗基準に基づく自動しきい値選定法(An Automatic Threshold Selection Method Based on Discriminant and Least Squares Criteria)」,電子通信学会論文誌'80/4 Vol.J63-D No.4, pp.349-356, 1980. )を適用することにより、評価値の分布を2つに分割することができる。この方法では、クラス間分散または分散比率(=クラス内分散/クラス間分散)に基づいて最適なしきい値が求められ、与えられた分布が2つのグループに分割される。
【0122】
そして、罫線抽出装置は、評価値が大きい方のグループに属する判定対象領域を、表側罫線の領域であると判定し、評価値が小さい方のグループに属する判定対象領域を、裏写り罫線の領域であると判定する。
【0123】
また、図23の罫線抽出処理では、図2の処理と同様の手順で、濃淡画像からの罫線領域を抽出した後に、裏写り判定を行っているが、ステップS71の裏写り判定は、他の如何なる方法で抽出された罫線領域に対しても、適用することができる。
【0124】
以上説明した罫線抽出処理は、帳票の認識だけでなく、図面認識における直線認識や画像中の罫線と図形の認識のように、広い意味での直線抽出処理に適用することができる。
【0125】
さらに、罫線抽出処理で用いた裏写り判定を、罫線以外の任意のパターンを抽出する処理に対して、適用することも可能である。この判定を適用することで、抽出結果から不要な裏写りのパターンが除外され、必要なパターンのみを抽出することができる。
【0126】
この場合、パターン抽出装置は、まず、パターン領域の候補となるパターン候補領域を濃淡画像から抽出する。次に、抽出されたパターン候補領域に含まれるパターンの輪郭線の接線方向の濃度変化と、接線方向に垂直な方向の濃度変化を求める。
【0127】
例えば、パターン候補領域の輪郭部分が図27のような形状をしている場合、垂直方向aは、パターンの輪郭線の接線方向に垂直な方向に対応し、水平方向bは、パターンの輪郭線の接線方向に対応する。濃度変化の算出方法については、罫線の場合と同様である。
【0128】
次に、(接線方向に垂直な方向の濃度変化/接線方向の濃度変化)の値、または接線方向に垂直な方向の濃度変化を、評価値として用いて、パターン候補領域が紙の表側のパターンであるか、裏写りのパターンであるかを判定する。そして、裏写りのパターンの領域を除外し、表側のパターンの領域を抽出結果として出力する。
【0129】
以上説明した実施形態では、多値画像の一例として濃淡画像を用いているが、本実施形態の罫線抽出処理やパターン抽出処理は、濃淡画像やカラー画像を含む任意の多値画像に対して適用可能である。
【0130】
また、本実施形態の罫線抽出装置およびパターン抽出装置は、例えば、図28に示すような情報処理装置(コンピュータ)を用いて構成される。図28の情報処理装置は、CPU(中央処理装置)101、メモリ102、入力装置103、出力装置104、外部記憶装置105、媒体駆動装置106、ネットワーク接続装置107、および画像入力装置108を備え、それらはバス109により互いに接続されている。
【0131】
メモリ102は、例えば、ROM(read only memory)、RAM(random access memory)等を含み、処理に用いられるプログラムとデータを格納する。CPU101は、メモリ102を利用してプログラムを実行することにより、必要な処理を行う。
【0132】
入力装置103は、例えば、キーボード、ポインティングデバイス、タッチパネル等であり、ユーザからの指示や情報の入力に用いられる。出力装置104は、例えば、ディスプレイ、プリンタ、スピーカ等であり、ユーザへの問い合わせや処理結果の出力に用いられる。
【0133】
外部記憶装置105は、例えば、磁気ディスク装置、光ディスク装置、光磁気ディスク(magneto-opticaldisk)装置、テープ装置等である。情報処理装置は、この外部記憶装置105に、上述のプログラムとデータを保存しておき、必要に応じて、それらをメモリ102にロードして使用する。
【0134】
媒体駆動装置106は、可搬記録媒体110を駆動し、その記録内容にアクセスする。可搬記録媒体110としては、メモリカード、フロッピーディスク、CD−ROM(compact disk read only memory )、光ディスク、光磁気ディスク等、任意のコンピュータ読み取り可能な記録媒体が用いられる。ユーザは、この可搬記録媒体110に上述のプログラムとデータを格納しておき、必要に応じて、それらをメモリ102にロードして使用する。
【0135】
ネットワーク接続装置107は、LAN(local area network)等の任意の通信ネットワークに接続され、通信に伴うデータ変換を行う。また、情報処理装置は、上述のプログラムとデータをネットワーク接続装置107を介して他の装置から受け取り、必要に応じて、それらをメモリ102にロードして使用する。
【0136】
画像入力装置108は、例えば、スキャナ、OHR等であり、処理対象の多値画像を入力する。
図29は、図28の情報処理装置にプログラムとデータを供給することのできるコンピュータ読み取り可能な記録媒体を示している。可搬記録媒体110やサーバ111のデータベース112に保存されたプログラムとデータは、メモリ102にロードされる。このとき、サーバ111は、プログラムとデータを搬送する搬送信号を生成し、ネットワーク上の任意の伝送媒体を介して、情報処理装置に送信する。そして、CPU101は、ロードされたデータを用いてプログラムを実行し、必要な処理を行う。
【0137】
(付記1) 多値画像を二値化して、第1の二値画像を生成する第1の二値化手段と、
前記第1の二値化手段とは異なる方法で前記多値画像を二値化して、第2の二値画像を生成する第2の二値化手段と、
前記第1の二値画像を用いて罫線候補領域を抽出する抽出手段と、
前記第2の二値画像を用いて、抽出された罫線候補領域が罫線に対応するか否かを判定する判定手段と、
罫線に対応すると判定された罫線候補領域の情報を出力する出力手段と
を備えることを特徴とする罫線抽出装置。
(付記2) 前記第1の二値化手段は、前記第1の二値画像として、潰れ気味の二値画像を生成し、前記第2の二値化手段は、前記第2の二値画像として、掠れ気味の二値画像を生成し、前記判定手段は、該掠れ気味の二値画像と前記多値画像を用いて判定を行うことを特徴とする付記1記載の罫線抽出装置。
(付記3) 前記判定手段は、前記罫線候補領域の範囲内で、前記掠れ気味の二値画像における黒画素領域の濃度と白画素領域の濃度の差を求め、該濃度の差がしきい値より小さければ、該白画素領域の画素を黒画素とみなすことを特徴とする付記2記載の罫線抽出装置。
(付記4) 前記判定手段は、前記罫線候補領域内の黒画素の割合が一定値より大きいとき、該罫線候補領域が罫線に対応すると判定することを特徴とする付記3記載の罫線抽出装置。
(付記5) 前記判定手段は、前記黒画素領域と白画素領域を囲む領域に対応する、潰れ気味の二値画像の領域において、黒画素密度を求め、該黒画素密度が一定値以上であれば、前記しきい値を大きくする方向へ変化させ、該黒画素密度が一定値より小さければ、該しきい値を小さくする方向へ変化させることを特徴とする付記3記載の罫線抽出装置。
(付記6) 前記判定手段は、前記罫線候補領域の範囲内で、前記掠れ気味の二値画像における黒画素領域と白画素領域を求め、該黒画素領域と白画素領域を囲む領域に対応する、潰れ気味の二値画像の領域において、黒画素密度を求め、該黒画素密度が一定値以上であれば、該黒画素領域の濃度と該白画素領域の濃度の差を求め、該濃度の差が一定値より小さければ、該白画素領域の画素を黒画素とみなすことを特徴とする付記2記載の罫線抽出装置。
(付記7) 前記第2の二値化手段は、前記罫線候補領域の位置に対応する前記多値画像内の領域を二値化して、前記第2の二値画像を部分的に生成することを特徴とする付記1記載の罫線抽出装置。
(付記8) 罫線に対応すると判定された縦方向の罫線候補領域と横方向の罫線候補領域の距離が一定値より小さいとき、該縦方向の罫線候補領域と横方向の罫線候補領域の間の領域の二値画像から、一定値より大きなサイズのパターンを抽出する手段をさらに備え、前記出力手段は、抽出されたパターンを罫線の角部として出力することを特徴とする付記1記載の罫線抽出装置。
(付記9) 多値画像から判定対象領域を抽出する抽出手段と、
前記判定対象領域に含まれる罫線の輪郭部分について、罫線に垂直な方向の濃度変化に基づく評価値を求め、該評価値が一定値以上であれば、該判定対象領域を必要な罫線領域であると判定し、該評価値が一定値より小さければ、該判定対象領域を不要な罫線領域であると判定する判定手段と、
前記必要な罫線領域の情報を出力する出力手段と
を備えることを特徴とする罫線抽出装置。
(付記10) 多値画像から判定対象領域を抽出する抽出手段と、
前記判定対象領域に含まれる罫線の輪郭部分について、罫線に垂直な方向の濃度変化と罫線に平行な方向の濃度変化とに基づく評価値を求め、該評価値が一定値以上であれば、該判定対象領域を必要な罫線領域であると判定し、該評価値が一定値より小さければ、該判定対象領域を不要な罫線領域であると判定する判定手段と、
前記必要な罫線領域の情報を出力する出力手段と
を備えることを特徴とする罫線抽出装置。
(付記11) 多値画像から複数の判定対象領域を抽出する抽出手段と、
各判定対象領域に含まれる罫線の輪郭部分について、罫線に垂直な方向の濃度変化に基づく評価値を求め、該評価値の分布に基づいて、前記複数の判定対象領域を2つのグループに分割し、該評価値が大きい方のグループに属する判定対象領域を、必要な罫線領域であると判定し、該評価値が小さい方のグループに属する判定対象領域を、不要な罫線領域であると判定する判定手段と、
前記必要な罫線領域の情報を出力する出力手段と
を備えることを特徴とする罫線抽出装置。
(付記12) 多値画像から判定対象領域を抽出する抽出手段と、
前記判定対象領域に含まれるパターンの輪郭部分について、輪郭線の接線方向に垂直な方向の濃度変化に基づく評価値を求め、該評価値が一定値以上であれば、該判定対象領域を必要なパターン領域であると判定し、該評価値が一定値より小さければ、該判定対象領域を不要なパターン領域であると判定する判定手段と、
前記必要なパターン領域の情報を出力する出力手段と
を備えることを特徴とするパターン抽出装置。
(付記13) 多値画像の局所的二値化処理を行う第1の二値化手段と、
前記局所的二値化処理により注目画素が白画素と判定されたとき、該注目画素の近傍領域内で白画素と判定された画素を対象として、再度、局所的二値化処理を行う第2の二値化手段と、
前記第2の二値化手段による処理結果を出力する出力手段と
を備えることを特徴とする画像処理装置。
(付記14) 多値画像の局所的二値化処理を行う第1の二値化手段と、
前記局所的二値化処理により注目画素が白画素と判定されたとき、該注目画素の近傍領域の形を変更して、再度、局所的二値化処理を行う第2の二値化手段と、
前記第2の二値化手段による処理結果を出力する出力手段と
を備えることを特徴とする画像処理装置。
(付記15) 多値画像の局所的二値化処理を行う第1の二値化手段と、
前記局所的二値化処理により注目画素が白画素と判定されたとき、該注目画素の近傍領域内の黒画素の平均濃度と白画素の平均濃度を比較して、再度局所的二値化処理を行うか否かを決定する決定手段と、
再度局所的二値化処理を行うと決定されたとき、前記近傍領域内で白画素と判定された画素を対象として、局所的二値化処理を行う第2の二値化手段と、
前記第2の二値化手段による処理結果を出力する出力手段と
を備えることを特徴とする画像処理装置。
(付記16) 多値画像を局所的二値化処理において、注目画素の近傍領域内のパターンの複雑さに基づいて、該注目画素が背景であるか否かを判定する判定手段と、
前記判定手段の判定結果に基づいて、前記局所的二値化処理を行う二値化手段と、
前記二値化手段による処理結果を出力する出力手段と
を備えることを特徴とする画像処理装置。
(付記17) 多値画像の局所的二値化処理を行う二値化手段と、
前記局所的二値化処理により注目画素が白画素と判定されたとき、該注目画素の近傍領域内に、該注目画素を含む縦長領域および横長領域のうち少なくとも一方を設定し、設定された領域内の黒画素の割合が一定値より大きいとき、該注目画素を黒画素と判定する判定手段と、
処理結果を出力する出力手段と
を備えることを特徴とする画像処理装置。
(付記18) コンピュータのためのプログラムを記録した記録媒体であって、該プログラムは、
多値画像を二値化して、第1の二値画像を生成し、
前記第1の二値画像とは異なる方法で前記多値画像を二値化して、第2の二値画像を生成し、
前記第1の二値画像を用いて罫線候補領域を抽出し、
前記第2の二値画像を用いて、抽出された罫線候補領域が罫線に対応するか否かを判定し、
罫線に対応すると判定された罫線候補領域の情報を出力する
処理を前記コンピュータに実行させることを特徴とするコンピュータ読み取り可能な記録媒体。
(付記19) コンピュータのためのプログラムを記録した記録媒体であって、該プログラムは、
多値画像から判定対象領域を抽出し、
前記判定対象領域に含まれるパターンの輪郭部分について、輪郭線の接線方向に垂直な方向の濃度変化に基づく評価値を求め、
前記評価値が一定値以上であれば、前記判定対象領域を必要なパターン領域であると判定し、
前記評価値が一定値より小さければ、前記判定対象領域を不要なパターン領域であると判定し、
前記必要なパターン領域の情報を出力する
処理を前記コンピュータに実行させることを特徴とするコンピュータ読み取り可能な記録媒体。
(付記20) 多値画像を二値化して、第1の二値画像を生成し、
前記第1の二値画像とは異なる方法で前記多値画像を二値化して、第2の二値画像を生成し、
前記第1の二値画像を用いて罫線候補領域を抽出し、
前記第2の二値画像を用いて、抽出された罫線候補領域が罫線に対応するか否かを判定し、
罫線に対応すると判定された罫線候補領域の情報を出力する
処理をコンピュータに実行させるためのプログラム。
(付記21) 多値画像から判定対象領域を抽出し、
前記判定対象領域に含まれるパターンの輪郭部分について、輪郭線の接線方向に垂直な方向の濃度変化に基づく評価値を求め、
前記評価値が一定値以上であれば、前記判定対象領域を必要なパターン領域であると判定し、
前記評価値が一定値より小さければ、前記判定対象領域を不要なパターン領域であると判定し、
前記必要なパターン領域の情報を出力する
処理をコンピュータに実行させるためのプログラム。
(付記22) コンピュータのためのプログラムを搬送する搬送信号であって、該プログラムは、
多値画像を二値化して、第1の二値画像を生成し、
前記第1の二値画像とは異なる方法で前記多値画像を二値化して、第2の二値画像を生成し、
前記第1の二値画像を用いて罫線候補領域を抽出し、
前記第2の二値画像を用いて、抽出された罫線候補領域が罫線に対応するか否かを判定し、
罫線に対応すると判定された罫線候補領域の情報を出力する
処理を前記コンピュータに実行させることを特徴とする搬送信号。
(付記23) コンピュータのためのプログラムを搬送する搬送信号であって、該プログラムは、
多値画像から判定対象領域を抽出し、
前記判定対象領域に含まれるパターンの輪郭部分について、輪郭線の接線方向に垂直な方向の濃度変化に基づく評価値を求め、
前記評価値が一定値以上であれば、前記判定対象領域を必要なパターン領域であると判定し、
前記評価値が一定値より小さければ、前記判定対象領域を不要なパターン領域であると判定し、
前記必要なパターン領域の情報を出力する
処理を前記コンピュータに実行させることを特徴とする搬送信号。
(付記24) 多値画像を二値化して、第1の二値画像を生成し、
前記第1の二値画像とは異なる方法で前記多値画像を二値化して、第2の二値画像を生成し、
前記第1の二値画像を用いて罫線候補領域を抽出し、
前記第2の二値画像を用いて、抽出された罫線候補領域が罫線に対応するか否かを判定し、
罫線に対応すると判定された罫線候補領域の情報を出力する
ことを特徴とする罫線抽出方法。
(付記25) 多値画像から判定対象領域を抽出し、
前記判定対象領域に含まれるパターンの輪郭部分について、輪郭線の接線方向に垂直な方向の濃度変化に基づく評価値を求め、
前記評価値が一定値以上であれば、前記判定対象領域を必要なパターン領域であると判定し、
前記評価値が一定値より小さければ、前記判定対象領域を不要なパターン領域であると判定し、
前記必要なパターン領域の情報を出力する
ことを特徴とするパターン抽出方法。
【0138】
【発明の効果】
本発明によれば、多値画像から生成された2種類の異なる二値画像を目的に合わせて使用することで、多値画像に影があったり、罫線と背景の濃度差が少ないような場合であっても、正確に罫線を抽出することができる。したがって、スキャナにより入力された画像だけでなく、非接触型入力装置から取り込んだ画像からも、罫線を抽出することが可能となる。
【0139】
また、多値画像から抽出されたパターン候補領域に裏写り判定を適用することで、不要な裏写りのパターンを除外して、必要なパターンのみを抽出することが可能となる。
【図面の簡単な説明】
【図1】本発明の罫線抽出装置の原理図である。
【図2】第1の罫線抽出処理のフローチャートである。
【図3】2種類の黒領域を示す図である。
【図4】第1の線分候補を示す図である。
【図5】線分検証処理のフローチャートである。
【図6】濃淡画像を示す図である。
【図7】二値画像と線分候補を示す図である。
【図8】黒画素領域と白画素領域を示す図である。
【図9】第1の線分統合処理および端線分抽出処理のフローチャートである。
【図10】丸角部を含む濃淡画像を示す図である。
【図11】第1の罫線画像を示す図である。
【図12】丸角部を示す図である。
【図13】第2の罫線画像を示す図である。
【図14】塗り潰しセルを含む濃淡画像を示す図である。
【図15】潰れ気味の二値画像を示す図である。
【図16】掠れ気味の二値画像を示す図である。
【図17】第2の線分候補を示す図である。
【図18】第2の線分統合処理および端線分抽出処理のフローチャート(その1)である。
【図19】第2の線分統合処理および端線分抽出処理のフローチャート(その2)である。
【図20】表側罫線と裏写り罫線を示す図である。
【図21】罫線の輪郭部分を示す図である。
【図22】輪郭部分の垂直方向と水平方向を示す図である。
【図23】第2の罫線抽出処理のフローチャートである。
【図24】罫線候補領域を示す図である。
【図25】判定対象領域を示す図である。
【図26】注目画素と対象画素を示す図である。
【図27】パターン候補の輪郭部分を示す図である。
【図28】情報処理装置の構成図である。
【図29】記録媒体を示す図である。
【符号の説明】
11、12 二値化手段
13 抽出手段
14 判定手段
15 出力手段
16 濃淡画像
17、18 二値画像
21、82、97、98、99 画素
22 近傍領域
23、24 黒領域
31、32、33、41、42、43、44、62、63 線分候補領域
51、81、95、96 領域
52、53 罫線領域
61 セル
71 紙
72、73 罫線
91、92 罫線候補領域
93、94 交点
101 CPU
102 メモリ
103 入力装置
104 出力装置
105 外部記憶装置
106 媒体駆動装置
107 ネットワーク接続装置
108 画像入力装置
109 バス
110 可搬記録媒体
111 サーバ
112 データベース

Claims (23)

  1. 多値画像を二値化して、第1の二値画像を生成する第1の二値化手段と、
    前記第1の二値画像を記憶する記憶手段と、
    前記第1の二値化手段とは異なる方法で前記多値画像を二値化して、第2の二値画像を生成し、前記記憶手段に格納する第2の二値化手段と、
    前記第1の二値画像を用いて罫線候補領域を抽出する抽出手段と、
    前記第2の二値画像を用いて、抽出された罫線候補領域内の黒画素の割合が一定値より大きいとき、該罫線候補領域が罫線に対応する判定する判定手段と、
    罫線に対応すると判定された罫線候補領域の情報を出力する出力手段と
    を備えることを特徴とする罫線抽出装置。
  2. 前記第1の二値化手段は、前記第1の二値画像として、潰れ気味の二値画像を生成し、前記第2の二値化手段は、前記第2の二値画像として、掠れ気味の二値画像を生成し、前記判定手段は、該掠れ気味の二値画像と前記多値画像を用いて判定を行うことを特徴とする請求項1記載の罫線抽出装置。
  3. 前記判定手段は、前記罫線候補領域の範囲内で、前記掠れ気味の二値画像における黒画素領域の濃度と白画素領域の濃度の差を求め、該濃度の差がしきい値より小さければ、該白画素領域の画素を黒画素とみなすことを特徴とする請求項2記載の罫線抽出装置。
  4. 前記判定手段は、前記黒画素領域と白画素領域を囲む領域に対応する、潰れ気味の二値画像の領域において、黒画素密度を求め、該黒画素密度が一定値以上であれば、前記しきい値を大きくする方向へ変化させ、該黒画素密度が一定値より小さければ、該しきい値を小さくする方向へ変化させることを特徴とする請求項3記載の罫線抽出装置。
  5. 前記判定手段は、前記罫線候補領域の範囲内で、前記掠れ気味の二値画像における黒画素領域と白画素領域を求め、該黒画素領域と白画素領域を囲む領域に対応する、潰れ気味の二値画像の領域において、黒画素密度を求め、該黒画素密度が一定値以上であれば、該黒画素領域の濃度と該白画素領域の濃度の差を求め、該濃度の差が一定値より小さければ、該白画素領域の画素を黒画素とみなすことを特徴とする請求項2記載の罫線抽出装置。
  6. 罫線に対応すると判定された縦方向の罫線候補領域と横方向の罫線候補領域の距離が一定値より小さいとき、該縦方向の罫線候補領域と横方向の罫線候補領域の間の領域の二値画像から、一定値より大きなサイズのパターンを抽出する手段をさらに備え、前記出力手段は、抽出されたパターンを罫線の角部として出力することを特徴とする請求項1、2、または3記載の罫線抽出装置。
  7. 罫線に対応すると判定された複数の罫線候補領域から判定対象領域を抽出する抽出手段と、前記判定対象領域に含まれる罫線の輪郭部分について、罫線に垂直な方向の濃度変化に基づく評価値を求め、該評価値が一定値以上であれば、該判定対象領域を必要な罫線領域であると判定し、該評価値が一定値より小さければ、該判定対象領域を不要な罫線領域であると判定する判定手段と、前記必要な罫線領域の情報を出力する出力手段とをさらに備えることを特徴とする請求項1記載の罫線抽出装置。
  8. 罫線に対応すると判定された複数の罫線候補領域から判定対象領域を抽出する抽出手段と、前記判定対象領域に含まれる罫線の輪郭部分について、罫線に垂直な方向の濃度変化と罫線に平行な方向の濃度変化とに基づく評価値を求め、該評価値が一定値以上であれば、該判定対象領域を必要な罫線領域であると判定し、該評価値が一定値より小さければ、該判定対象領域を不要な罫線領域であると判定する判定手段と、前記必要な罫線領域の情報を出力する出力手段とをさらに備えることを特徴とする請求項1記載の罫線抽出装置。
  9. 罫線に対応すると判定された複数の罫線候補領域から複数の判定対象領域を抽出する抽出手段と、各判定対象領域に含まれる罫線の輪郭部分について、罫線に垂直な方向の濃度変化に基づく評価値を求め、該評価値の分布に基づいて、前記複数の判定対象領域を2つのグループに分割し、該評価値が大きい方のグループに属する判定対象領域を、必要な罫線領域であると判定し、該評価値が小さい方のグループに属する判定対象領域を、不要な罫線領域であると判定する判定手段と、前記必要な罫線領域の情報を出力する出力手段とをさらに備えることを特徴とする請求項1記載の罫線抽出装置。
  10. 前記多値画像から判定対象領域を抽出する抽出手段と、前記判定対象領域に含まれるパターンの輪郭部分について、輪郭線の接線方向に垂直な方向の濃度変化に基づく評価値を求め、該評価値が一定値以上であれば、該判定対象領域を必要なパターン領域であると判定し、該評価値が一定値より小さければ、該判定対象領域を不要なパターン領域であると判定する判定手段と、前記必要なパターン領域の情報を出力する出力手段とをさらに備えることを特徴とする請求項1記載の罫線抽出装置。
  11. 前記第1または第2の二値化手段は、前記多値画像の局所的二値化処理を行う第1の局所的二値化手段と、前記局所的二値化処理により注目画素が白画素と判定されたとき、該注目画素の近傍領域内で白画素と判定された画素を対象として、再度、局所的二値化処理を行う第2の局所的二値化手段とを含むことを特徴とする請求項1記載の罫線抽出装置
  12. 前記第1または第2の二値化手段は、前記多値画像の局所的二値化処理を行う第1の局所的二値化手段と、前記局所的二値化処理により注目画素が白画素と判定されたとき、該注目画素の近傍領域の形を変更して、再度、局所的二値化処理を行う第2の局所的二値化手段とを含むことを特徴とする請求項1記載の罫線抽出装置
  13. 前記第2の二値化手段は、前記多値画像の局所的二値化処理を行う第1の局所的二値化手段と、前記局所的二値化処理により注目画素が白画素と判定されたとき、該注目画素の近傍領域内の黒画素の平均濃度と白画素の平均濃度を比較して、再度局所的二値化処理を行うか否かを決定する決定手段と、再度局所的二値化処理を行うと決定されたとき、前記近傍領域内で白画素と判定された画素を対象として、局所的二値化処理を行う第2の局所的二値化手段とを含むことを特徴とする請求項1記載の罫線抽出装置
  14. 前記第2の二値化手段は、前記多値画像局所的二値化処理において、注目画素の近傍領域内のパターンの複雑さに基づいて、該注目画素が背景であるか否かを判定する判定手段と、前記判定手段の判定結果に基づいて、前記局所的二値化処理を行う局所的二値化手段とを含むことを特徴とする請求項1記載の罫線抽出装置
  15. 前記第2の二値化手段は、前記多値画像の局所的二値化処理を行う局所的二値化手段と、前記局所的二値化処理により注目画素が白画素と判定されたとき、該注目画素の近傍領域内に、該注目画素を含む縦長領域および横長領域のうち少なくとも一方を設定し、設定された領域内の黒画素の割合が一定値より大きいとき、該注目画素を黒画素と判定する判定手段とを含むことを特徴とする請求項1記載の罫線抽出装置
  16. コンピュータのためのプログラムを記録した記録媒体であって、該プログラムは、
    多値画像を二値化して、第1の二値画像を生成し、
    前記第1の二値画像を記憶手段に格納し、
    前記第1の二値画像とは異なる方法で前記多値画像を二値化して、第2の二値画像を生成し、
    前記第2の二値画像を前記記憶手段に格納し、
    前記第1の二値画像を用いて罫線候補領域を抽出し、
    前記第2の二値画像を用いて、抽出された罫線候補領域内の黒画素の割合が一定値より大きいとき、該罫線候補領域が罫線に対応する判定し、
    罫線に対応すると判定された罫線候補領域の情報を出力する
    処理を前記コンピュータに実行させることを特徴とするコンピュータ読み取り可能な記録媒体。
  17. 前記プログラムは、前記第1の二値画像として、潰れ気味の二値画 像を生成し、前記第2の二値画像として、掠れ気味の二値画像を生成し、該掠れ気味の二値画像と前記多値画像を用いて前記罫線候補領域が前記罫線に対応するか否かを判定する処理を前記コンピュータに実行させることを特徴とする請求項16記載の記録媒体。
  18. 前記プログラムは、前記罫線候補領域の範囲内で、前記掠れ気味の二値画像における黒画素領域の濃度と白画素領域の濃度の差を求め、該濃度の差がしきい値より小さければ、該白画素領域の画素を黒画素とみなす処理を前記コンピュータに実行させることを特徴とする請求項17記載の記録媒体。
  19. 前記プログラムは、罫線に対応すると判定された複数の罫線候補領域から判定対象領域を抽出し、前記判定対象領域に含まれるパターンの輪郭部分について、輪郭線の接線方向に垂直な方向の濃度変化に基づく評価値を求め、前記評価値が一定値以上であれば、前記判定対象領域を必要なパターン領域であると判定し、前記評価値が一定値より小さければ、前記判定対象領域を不要なパターン領域であると判定し、前記必要なパターン領域の情報を出力する処理を前記コンピュータにさらに実行させることを特徴とする請求項16記載の記録媒体。
  20. 多値画像を二値化して、第1の二値画像を生成し、
    前記第1の二値画像を記憶手段に格納し、
    前記第1の二値画像とは異なる方法で前記多値画像を二値化して、第2の二値画像を生成し、
    前記第2の二値画像を前記記憶手段に格納し、
    前記第1の二値画像を用いて罫線候補領域を抽出し、
    前記第2の二値画像を用いて、抽出された罫線候補領域内の黒画素の割合が一定値より大きいとき、該罫線候補領域が罫線に対応する判定し、
    罫線に対応すると判定された罫線候補領域の情報を出力する
    処理をコンピュータに実行させるためのプログラム。
  21. 前記第1の二値画像として、潰れ気味の二値画像を生成し、前記第2の二値画像として、掠れ気味の二値画像を生成し、該掠れ気味の二値画像と前記多値画像を用いて前記罫線候補領域が前記罫線に対応するか否かを判定する処理を前記コンピュータに実行させることを特徴とする請求項20記載のプログラム。
  22. 前記罫線候補領域の範囲内で、前記掠れ気味の二値画像における黒画素領域の濃度と白画素領域の濃度の差を求め、該濃度の差がしきい値より小さければ、該白画素領域の画素を黒画素とみなす処理を前記コンピュータに実行させることを特徴とする請求項21記載のプログラム。
  23. 罫線に対応すると判定された複数の罫線候補領域から判定対象領域を抽出し、前記判定対象領域に含まれるパターンの輪郭部分について、輪郭線の接線方向に垂直な方向の濃度変化に基づく評価値を求め、前記評価値が一定値以上であれば、前記判定対象領域を必要なパターン領域であると判定し、前記評価値が一定値より小さければ、前記判定対象領域を不要なパターン領域であると判定し、前記必要なパターン領域の情報を出力する処理を前記コンピュータにさらに実行させることを特徴とする請求項20記載のプログラム。
JP2001064194A 2000-08-15 2001-03-08 多値画像から罫線を抽出する罫線抽出装置 Expired - Fee Related JP3904840B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2001064194A JP3904840B2 (ja) 2000-08-15 2001-03-08 多値画像から罫線を抽出する罫線抽出装置
US09/917,748 US7164795B2 (en) 2000-08-15 2001-07-31 Apparatus for extracting ruled line from multiple-valued image
CNB011254041A CN1213382C (zh) 2000-08-15 2001-08-15 用于从多值图象提取划线的设备
US10/941,863 US7440618B2 (en) 2000-08-15 2004-09-16 Apparatus for extracting rules line from multiple-valued image

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2000-246207 2000-08-15
JP2000246207 2000-08-15
JP2001064194A JP3904840B2 (ja) 2000-08-15 2001-03-08 多値画像から罫線を抽出する罫線抽出装置

Publications (2)

Publication Number Publication Date
JP2002133426A JP2002133426A (ja) 2002-05-10
JP3904840B2 true JP3904840B2 (ja) 2007-04-11

Family

ID=26597969

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001064194A Expired - Fee Related JP3904840B2 (ja) 2000-08-15 2001-03-08 多値画像から罫線を抽出する罫線抽出装置

Country Status (3)

Country Link
US (2) US7164795B2 (ja)
JP (1) JP3904840B2 (ja)
CN (1) CN1213382C (ja)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3574584B2 (ja) * 1998-12-16 2004-10-06 富士通株式会社 表画像処理装置及びそのプログラム記憶媒体
JP4366011B2 (ja) * 2000-12-21 2009-11-18 キヤノン株式会社 文書処理装置及び方法
JP3925112B2 (ja) * 2001-06-20 2007-06-06 富士ゼロックス株式会社 画像処理装置
JP3898075B2 (ja) * 2002-03-18 2007-03-28 株式会社リコー 画像処理装置、画像処理方法及び記録媒体
JP4047192B2 (ja) * 2003-02-24 2008-02-13 キヤノン株式会社 画像圧縮装置及び方法、画像伸張装置及び方法、プログラム
WO2004081887A1 (ja) * 2003-03-14 2004-09-23 Fujitsu Limited 紙葉類識別方法及び紙葉類識別装置
US7463770B2 (en) * 2003-07-21 2008-12-09 Lockheed Martin Corporation Methods and systems for detection of repeating patterns of features
JP4250483B2 (ja) * 2003-08-25 2009-04-08 キヤノン株式会社 画像処理装置、画像処理方法ならびにプログラム、記憶媒体
IL162878A0 (en) * 2004-07-06 2005-11-20 Hi Tech Solutions Ltd Multi-level neural network based characters identification method and system
JP4713107B2 (ja) * 2004-08-20 2011-06-29 日立オムロンターミナルソリューションズ株式会社 景観中文字列認識方式および装置
JP2007156879A (ja) * 2005-12-06 2007-06-21 Sony Corp 情報処理装置および方法、並びにプログラム
US7734092B2 (en) * 2006-03-07 2010-06-08 Ancestry.Com Operations Inc. Multiple image input for optical character recognition processing systems and methods
JP4702244B2 (ja) * 2006-09-26 2011-06-15 沖電気工業株式会社 帳票読取装置
JP2008252862A (ja) * 2007-03-05 2008-10-16 Ricoh Co Ltd 画像処理装置、画像処理方法及び画像処理プログラム
US20080219561A1 (en) * 2007-03-05 2008-09-11 Ricoh Company, Limited Image processing apparatus, image processing method, and computer program product
JP5042917B2 (ja) * 2007-07-12 2012-10-03 株式会社リコー 画像処理装置およびプログラム
US8260057B2 (en) 2007-07-12 2012-09-04 Ricoh Company, Limited Image processing apparatus that obtains a ruled line from a multi-value image
JP4867894B2 (ja) * 2007-11-05 2012-02-01 沖電気工業株式会社 画像認識装置、画像認識方法及びプログラム
US20090214134A1 (en) * 2008-02-27 2009-08-27 Motorola, Inc. System and method for image data extraction and assembly in digital cameras
KR101330665B1 (ko) * 2008-02-29 2013-11-15 삼성전자주식회사 하프토닝 이미지의 보정장치 및 방법, 그리고 그를 이용한화상형성장치
JP5710101B2 (ja) * 2008-12-24 2015-04-30 大日本印刷株式会社 印刷物検査装置、及び印刷物検査方法
CN101789081B (zh) * 2009-01-22 2013-03-27 佳能株式会社 模糊文档图像的二值化方法及其设备
JP5361574B2 (ja) * 2009-07-01 2013-12-04 キヤノン株式会社 画像処理装置、画像処理方法、及びプログラム
JP4940270B2 (ja) * 2009-07-06 2012-05-30 シャープ株式会社 画像形成装置
US8406554B1 (en) * 2009-12-02 2013-03-26 Jadavpur University Image binarization based on grey membership parameters of pixels
US8315426B2 (en) * 2010-03-12 2012-11-20 Mitsubishi Electric Research Laboratories, Inc. Method for handling pixel occlusions in stereo images using iterative support and decision processes
JP5725276B2 (ja) * 2010-08-03 2015-05-27 富士ゼロックス株式会社 二値化処理装置、画像処理装置、二値化処理プログラム、画像処理プログラム
CN102375978A (zh) * 2010-08-17 2012-03-14 富士通株式会社 处理图像的方法和设备
JP5640645B2 (ja) * 2010-10-26 2014-12-17 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
US8942484B2 (en) * 2011-09-06 2015-01-27 Qualcomm Incorporated Text detection using image regions
KR101549495B1 (ko) 2013-12-26 2015-09-03 조선대학교산학협력단 문자 추출 장치 및 그 방법
US10262430B2 (en) 2014-04-28 2019-04-16 Eizo Corporation Annotation line determining unit, annotation line removing unit, medical display, and method therefor
JP2018534703A (ja) * 2015-09-10 2018-11-22 エスワイエヌシー−アールエックス、リミテッド 自動画像特徴除去
JP6903966B2 (ja) * 2017-03-16 2021-07-14 富士フイルムビジネスイノベーション株式会社 情報処理装置、情報処理システム及びプログラム
CN111583157B (zh) * 2020-05-13 2023-06-02 杭州睿琪软件有限公司 图像处理方法、系统及计算机可读存储介质

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6073408A (ja) 1983-09-30 1985-04-25 Matsushita Electric Ind Co Ltd パタ−ン認識装置
US4718090A (en) * 1986-04-14 1988-01-05 Cooper Jr James E Method and apparatus for high-speed processing of video images
US4903316A (en) * 1986-05-16 1990-02-20 Fuji Electric Co., Ltd. Binarizing apparatus
US5125045A (en) * 1987-11-20 1992-06-23 Hitachi, Ltd. Image processing system
US5086484A (en) * 1988-08-24 1992-02-04 Canon Kabushiki Kaisha Image processing apparatus with fixed or variable threshold
US5153925A (en) * 1989-04-27 1992-10-06 Canon Kabushiki Kaisha Image processing apparatus
JP2843079B2 (ja) * 1989-12-22 1999-01-06 本田技研工業株式会社 走行路判別方法
US5200841A (en) * 1990-05-25 1993-04-06 Nikon Corporation Apparatus for binarizing images
JPH0477973A (ja) 1990-07-20 1992-03-12 Canon Inc 画像形成装置
JPH06203165A (ja) 1993-01-07 1994-07-22 Canon Inc 画像情報処理方法及び装置
JP2951814B2 (ja) 1993-02-25 1999-09-20 富士通株式会社 画像抽出方式
US5995665A (en) * 1995-05-31 1999-11-30 Canon Kabushiki Kaisha Image processing apparatus and method
KR0181129B1 (ko) * 1995-06-17 1999-05-01 김광호 화상처리장치의 화소 이치화 장치 및 방법
US5898795A (en) * 1995-12-08 1999-04-27 Ricoh Company, Ltd. Character recognition method using a method for deleting ruled lines
US5933525A (en) * 1996-04-10 1999-08-03 Bbn Corporation Language-independent and segmentation-free optical character recognition system and method
US5969325A (en) * 1996-06-03 1999-10-19 Accu-Sort Systems, Inc. High speed image acquisition system and method of processing and decoding barcode symbol
JP3615333B2 (ja) * 1996-12-05 2005-02-02 株式会社リコー 罫線消去装置
JP3695163B2 (ja) * 1998-07-31 2005-09-14 コニカミノルタビジネステクノロジーズ株式会社 画像形成装置
US6185329B1 (en) * 1998-10-13 2001-02-06 Hewlett-Packard Company Automatic caption text detection and processing for digital images
JP3756719B2 (ja) * 2000-01-20 2006-03-15 理想科学工業株式会社 文書修飾装置及び画像処理装置

Also Published As

Publication number Publication date
CN1338703A (zh) 2002-03-06
JP2002133426A (ja) 2002-05-10
CN1213382C (zh) 2005-08-03
US20020021840A1 (en) 2002-02-21
US7164795B2 (en) 2007-01-16
US7440618B2 (en) 2008-10-21
US20050031208A1 (en) 2005-02-10

Similar Documents

Publication Publication Date Title
JP3904840B2 (ja) 多値画像から罫線を抽出する罫線抽出装置
US7751648B2 (en) Image processing apparatus, image processing method, and computer program
US5828771A (en) Method and article of manufacture for determining whether a scanned image is an original image or fax image
JP3768052B2 (ja) カラー画像処理方法、カラー画像処理装置、及びそのための記録媒体
JP6080259B2 (ja) 文字切り出し装置及び文字切り出し方法
US8947736B2 (en) Method for binarizing scanned document images containing gray or light colored text printed with halftone pattern
JP2001297303A (ja) 文書画像認識方法、装置及びコンピュータ読み取り可能な記録媒体
JP3830998B2 (ja) 罫線除去方法及びこれを用いた文字認識装置
JP3411472B2 (ja) パターン抽出装置
US6947596B2 (en) Character recognition method, program and recording medium
JP4391704B2 (ja) 多値画像から二値画像を生成する画像処理装置および方法
JP4049560B2 (ja) 網点除去方法及びシステム
JP2010074342A (ja) 画像処理装置、画像形成装置、及びプログラム
JP2001043313A (ja) 文字切出し方法
JP3830350B2 (ja) カラー画像処理方法、カラー画像処理装置、プログラム、及び記録媒体
JP4847378B2 (ja) 画像処理装置、画像処理方法、プログラム及びコンピュータ読取可能な記録媒体
JP3476595B2 (ja) 画像領域分割方法、および画像2値化方法
JPH09305707A (ja) 画像抽出方式
JP4738645B2 (ja) 網掛け領域検出装置、網掛け領域検出方法、プログラムおよび記憶媒体
JP3517077B2 (ja) パターン抽出装置及びパターン領域の切り出し方法
JP2003317107A (ja) 罫線抽出方法及び装置
JP3565310B2 (ja) 一般の文書画像から罫線を抽出する罫線抽出装置および方法
JPH0916715A (ja) 文字認識装置および方法
JP3756660B2 (ja) 画像認識方法、装置および記録媒体
JP2000331118A (ja) 画像処理装置及び記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040805

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061003

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061110

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070109

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070110

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110119

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110119

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120119

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130119

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130119

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140119

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees