JP3411472B2 - パターン抽出装置 - Google Patents
パターン抽出装置Info
- Publication number
- JP3411472B2 JP3411472B2 JP14147097A JP14147097A JP3411472B2 JP 3411472 B2 JP3411472 B2 JP 3411472B2 JP 14147097 A JP14147097 A JP 14147097A JP 14147097 A JP14147097 A JP 14147097A JP 3411472 B2 JP3411472 B2 JP 3411472B2
- Authority
- JP
- Japan
- Prior art keywords
- pattern
- ruled line
- unevenness
- line
- pixel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/155—Removing patterns interfering with the pattern to be recognised, such as ruled lines or underlines
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Input (AREA)
- Image Analysis (AREA)
Description
及びパターン抽出方法に関し、特に、手書き用文字認識
装置、印刷文字認識装置、図面認識装置などにおいて、
文字や図形や記号やイメージなどのパターンの範囲を示
す枠や罫線などを抽出する場合に適用して好適なもので
ある。
力周辺機器として、光学文字読み取り装置OCR(op
tical character reader)など
に代表される手書き文字認識装置の需要が増加してい
る。
識を行う前に、入力された画像から文字パターンを1文
字ずつ切り出す文字の切り出し処理が行われる。光学文
字読み取り装置において、個々の文字の高い認識率を実
現するためには、認識の前処理である文字の切り出し処
理を正確に行うことが重要になる。
文字を読み取る場合、帳票などの文字の記入位置を予め
指定した文書(ドロップアウトカラーではなく、黒枠な
どの罫線と文字とが同じような色又は濃度で記入された
文書)に対し、指定された範囲内に文字を記入すること
により、高い認識率を実現するようにしていた。
は、指定範囲を示す罫線や枠に文字が接触したり、指定
範囲を示す罫線や枠から文字がはみ出したりした場合、
文字を正確に切り出すことが困難となり、文字の認識率
が低下するという問題があった。例えば、現在使用され
ている光学文字読み取り装置では、枠を除去する際、文
字枠のわずかな傾きや凹凸に対応することができず、文
字枠の位置や線幅の変動により本来の文字部分の一部が
欠けてしまったり、枠が残存したりする。
する場合、罫線の位置や線の太さなどの情報を予め格納
しておく必要があるとともに、帳票フォーマットが変更
されると文字が記入されている範囲を示す情報を更新す
る必要があり、ユーザの負担が大きかった。さらに、文
字を記入する範囲を指定する方法では、未知の形式の帳
票は処理できないという問題もあった。
03259において、枠の位置やサイズ等のフォーマッ
ト情報の入力を必要とせずに、枠の抽出や除去を行うこ
とが可能な技術を提案した。ここに記載されている方法
により処理可能な帳票は、一文字枠、ブロック枠(横一
行枠またはフリーフォマット枠)、または枠の外形が矩
形状となっており横枠線が規則的に配置されている構造
を持つ表を有するものであった。また、外形が矩形とな
っていない表を有する帳票や表の一部分にさらに細かい
表構造を有する帳票、また点線と実線とが混在している
帳票などに対しても対応することが可能であった。
細書及び図面に記載されているパターン抽出装置の処理
の概要について説明する。まず、入力された画像にラベ
リングを行い、縦、横または斜めの8方向のいずれかで
画素が繋がっている8連結の部分パターンを連結パター
ンとして抽出する。
ターンに対してマスク処理を行うことにより、縦横線分
を細線化し、文字と枠の太さの差を減らす。ここで、マ
スク処理は、連結パターンに対し、画像全体に対して横
長、縦長の2種類のマスクによる走査を行って、パター
ンがマスク内において占める割合を算出し、その割合が
ある所定値より大きければそのマスク内を全てパターン
とみなし、また所定値以下であれば、マスク内のパター
ンを削除することにより、縦横成分を抽出するものであ
る。
及び縦方向に複数に分割し、横方向及び縦方向に分割し
たそれぞれの範囲内でパターンの隣接投影値を算出し、
この隣接投影値に基づいて、ある一定の長さの線分又は
直線の一部を矩形近似により検出する。ここで、隣接投
影値とは、注目行又は注目列の投影値に周囲の行又は列
の投影値を足し合わせたものである。
うち、近隣の矩形線分同士を統合して長い直線とし、統
合して得られた直線を矩形近似し、帳票の横枠または縦
枠を構成する罫線候補とする。
探索を行い、横線の場合は左右端、縦線の場合は上下端
を検出する。次に、ある一定の間隔で並んでいる小さい
パターンを検出して点線を抽出し、この点線に対して上
述した直線と同様に矩形近似を行う。
の中から、各行の横枠を構成している2本の横線の組を
決定する。これは、上から順番に横線を2本抽出し、抽
出した2本の横線の長さが同じ、又は下の直線の方が長
ければ、その2本を横線の組とする。そして、抽出した
2本の横線の長さが同じ、又は下の直線の方が長いこと
とすることができない場合に限り、下の直線の方が短く
ても組にする。
の中から、横枠の2本組として決定された2本の横線に
上下とも達しているものを縦枠とする。次に、2本組の
横枠と、該2本組の横枠の上下に達している2本の縦枠
とで囲まれた矩形範囲をセルとして抽出し、セルを構成
する枠を罫線とみなし、セルを構成しない枠を罫線以外
のパターンとみなす。
と縦枠によって4辺を囲まれた矩形範囲の内部がさらに
細かく分割されている場合、その矩形範囲を新たに表と
みなして上述した処理を繰り返すことにより、その矩形
範囲をさらに小さな矩形に分割する。
関して、規則的な構造や不規則的な構造のいずれに対し
ても、矩形領域で構成されている表であれば処理可能で
あった。また、処理の対象とする罫線に関して、実線や
点線のいずれに対しても、処理可能であった。
たパターン抽出装置では、画素密度の高い領域を罫線候
補としているため、文字どうしが接近したり接触したり
している場合、その領域の画素密度が高くなることか
ら、文字領域が罫線候補とみなされることがあった。
内に「文字」という文字列201が記入されている場
合、矩形領域202内のパターンは画素密度が高いこと
から、文字列201の一部であるにもかかわらず、罫線
候補とみなされる。ところが、この矩形領域202は、
帳票200を構成しているいずれの枠にも接触していな
いことから、矩形領域202はセルを構成することがで
きず、罫線でないとみなすことが可能である。
に「文字」という文字列204が記入されている場合、
矩形領域205内のパターンは画素密度が高いことか
ら、文字列204の一部であるにもかかわらず、罫線候
補とみなされる。そして、この矩形領域205は、帳票
203を構成している縦枠207、208に接触し、矩
形領域205は縦枠207、208及び横枠206とと
もにセルを構成することが可能なことから、罫線とみな
されることがあった。このため、文字列204の一部が
罫線とみなされ、帳票203から「文字」という文字列
204を正確に切り出すことが困難になることから、文
字認識を正確に行うことができなくなるという問題があ
った。
かどうかを正確に判別することが可能なパターン抽出装
置を提供することである。
ために、本発明によれば、パターンを入力するパターン
入力手段と、前記パターンの凹凸度を算出する凹凸度算
出手段と、前記凹凸度に基づいて、前記パターンの属性
を判別するパターン判別手段とを備えている。
が小さいパターンと文字や記号などの凹凸度が大きいパ
ターンとを区別することが可能となり、罫線や直線など
が文字や記号などと誤って判別されることを減らすこと
が可能となることから、パターンの判別精度を向上させ
ることが可能となる。
の探索方向の変化回数に基づいて、凹凸度を算出するよ
うにしている。このことにより、パターンの凹凸度を的
確に算出することが可能となり、凹凸度が小さいパター
ンと凹凸度が大きいパターンとを正確に区別することが
可能となる。
に画素を探索し、前記所定方向に隣接画素が存在しない
場合に限り、前記所定方向と異なる方向の画素を探索
し、異なる方向に探索された画素を計数するようにして
いる。
在している間は同一方向に画素の探索が行われ、罫線や
直線などに文字や記号などの他のパターンが接触してい
る場合においても、罫線や直線を正確に検出することが
可能となるとともに、パターンの凹凸に対応して探索方
向に隣接画素が存在しない場合には、画素の探索方向が
変化して、その変化回数が計数されることから、パター
ンの探索を行いながらパターンの凹凸度を調べることが
可能となる。
に隣接画素が存在しない場合、斜め隣の画素を探索する
ようにしている。このことにより、パターンの両端の探
索の途中でパターンの凹凸を調べることが可能となるこ
とから、パターンを1回走査するだけで、パターンの両
端を正確に検出することが可能となるとともに、パター
ンの凹凸を効率的に検出することが可能となる。
の傾きに基づく探索方向の変化回数を算出することによ
り、パターンの凹凸度を補正するようにしている。この
ことにより、パターンが傾いている場合においても、パ
ターンの凹凸度を精度よく算出することが可能となる。
下の空白を介してパターンが分離している場合、その空
白には画素が存在しているものとみなして探索を行う。
このことにより、パターンがかすれにより分離している
場合においても、そのパターンの凹凸度を算出すること
が可能になる。
探索された画素の探索回数を探索されたパターンの長さ
で規格化するようにしている。このことにより、探索範
囲の大きさをパターンごとに変化させた場合において
も、探索範囲の大きさの違いによるパターンの凹凸度の
変動を除去することが可能となり、そのパターン自体の
形状に基づく凹凸度を算出することが可能となる。
に対して交差するパターンの数に基づいて、凹凸度を算
出するようにしている。このことにより、パターンの凹
凸度を算出する際にパターンの交差回数も考慮すること
が可能となり、パターンの凹凸度をより正確に求めるこ
とが可能となる。
の凹凸度がしきい値以下の場合、そのパターンは罫線を
構成するものと判別するようにしている。このことによ
り、文字の一部が誤って罫線候補として抽出された場合
においても、文字の一部が罫線とみなされることを防止
することが可能となることから、文字が記入されている
帳票内から認識処理の対象となる文字だけを精度よく抽
出することが可能となり、文字認識の精度を向上させる
ことが可能となる。
の凹凸度がしきい値以上の場合、そのパターンは文字を
構成するものと判別するようにしている。このことによ
り、文字の一部が誤って罫線候補として抽出された場合
においても、文字の一部が罫線とみなされることを防止
することが可能となることから、文字認識の精度を向上
させることが可能となる。
となるパターンから所定の範囲内に他のパターンが存在
する場合、パターンの凹凸度を判別するしきい値を変化
させるようにしている。
して抽出された場合、その文字の残りのパターンがその
罫線候補に接して存在していることから、他のパターン
が近くに存在する罫線候補については、パターンの凹凸
度のしきい値を小さく設定することにより、その罫線候
補のパターンが文字と判定される確率を高くすることが
可能となる。
れた場合、文字などの他のパターンはその罫線候補から
離れて存在していることから、他のパターンから離れて
存在している罫線候補については、パターンの凹凸度の
しきい値を大きく設定することにより、罫線がかすれて
いる場合においても、その罫線候補のパターンが文字と
誤って判定される確率を低くすることが可能となる。
た原画像データから連結した画素で構成される部分パタ
ーンを抽出する連結パターン抽出手段と、前記部分パタ
ーンから画素密度の高い矩形領域を罫線候補として抽出
する罫線候補抽出手段と、前記矩形領域内の部分パター
ンを探索する探索手段と、前記探索手段の探索結果に基
づいて、前記部分パターンの凹凸度を算出する凹凸度算
出手段と、前記凹凸度に基づいて、前記部分パターンが
罫線を構成するものかどうかを判別する罫線判別手段と
を備えている。
り、文字がつぶれたりするために、文字が存在する部分
の画素密度が高くなり、文字が罫線候補として抽出され
た場合においても、文字は罫線に比べて凹凸度が大きい
ことから、凹凸度に基づいて文字と罫線とを区別するこ
とが可能となり、文字が罫線と誤って判別されることを
減らすことができる。
ーンを所定の領域ごとに分割して凹凸度を算出するよう
にしている。このことにより、文字と罫線とが混在した
領域が1つの罫線候補として抽出された場合において
も、罫線の部分と文字の部分とを分けて別々に凹凸度を
算出することが可能となり、罫線と文字とが1つの部分
パターンとして一括して処理されることを防止すること
が可能となることから、罫線の凹凸度が文字の凹凸度に
影響されて罫線が文字とみなされたり、文字の凹凸度が
罫線の凹凸度に影響されて文字が罫線とみなされたりす
ることをなくすことができる。
パターンを所定の大きさのマスクで走査し、前記部分パ
ターンが前記マスク内で占める割合が所定値以上の場
合、前記マスク内の画素を全て前記部分パターンとみな
し、前記部分パターンが前記マスク内で占める割合が前
記所定値より小さい場合、前記マスク内には前記部分パ
ターンがないものとみなすマスク処理手段を備えてい
る。
くなっている場合、マスクの長手方向に並んでいる画素
についてはマスク内で占める割合が大きくなり、マスク
の長手方向とは異なる方向に並んでいる画素については
マスク内で占める割合が小さくなることから、原画像に
存在する極端な斜め成分を除去することが可能となり、
罫線候補の抽出を容易にすることが可能となる。
で四方が囲まれた矩形領域をセルとして抽出し、セルを
構成しない罫線候補を罫線から除外するようにしてい
る。このことにより、例えば、文字に下線が引かれてい
る場合などにおいて、下線の部分はセルを構成しないの
で、下線が罫線候補として抽出された場合においても、
下線を罫線から除外することが可能となり、罫線抽出の
信頼度を向上させることが可能となる。
出手段は、罫線候補をセル単位ごとに分割して凹凸度を
算出するようにしている。このことにより、各セルを構
成している枠の凹凸度を各セルごとに独立して求めるこ
とが可能となり、不規則な帳票内で罫線と文字とが互い
に接触し、文字の一部が罫線候補として抽出された場合
においても、その文字の一部だけに着目して凹凸度と求
めることが可能になることから、帳票が不規則な場合に
おいても、罫線抽出の精度を向上させることが可能とな
る。
は列の投影値に周囲の行又は列の投影値を足し合わせた
値が所定値以上の部分パターンを矩形線分として検出
し、所定の範囲内の複数の矩形線分を統合した結果を罫
線候補とするようにしている。
においても、罫線候補を原画像から精度よく抽出するこ
とが可能となり、罫線抽出の信頼度を向上させることが
可能となる。
内の矩形線分を統合してから、凹凸度を算出するように
している。このことにより、長い距離の探索を行った時
に、探索方向の変化がほとんどなかったパターンは罫線
である確率が高いことから、罫線の抽出を精度よく行う
ことが可能となる。
線候補と異なる長さを有する罫線候補が存在する場合、
その罫線候補の長さの異なる部分についての凹凸度に基
づいて、罫線候補の長さが異なる部分が罫線の一部かど
うかを判定するようにしている。
異なっている部分が、罫線の一部であるのか、罫線に接
触している文字であるのかを精度よく判別することが可
能となり、帳票が長さの不規則な罫線により構成されて
いる場合においても、その帳票から罫線を精度よく抽出
することができる。
パターン抽出装置の機能的な構成を、図面を参照しなが
ら説明する。
ン抽出装置の機能構成を示すブロック図である。図1に
おいて、パターン入力手段1はパターンを入力し、凹凸
度算出手段2は、パターン入力手段1に入力されたパタ
ーンの凹凸度を算出し、パターン判別手段3は、凹凸度
算出手段2で算出された凹凸度に基づいて、パターン入
力手段1に入力されたパターンの属性を判別する。
凸度を算出する場合、例えば、パターンの探索方向の変
化回数に基づいて凹凸度を算出することができる。ま
た、探索方向に対して交差するパターンの数に基づいて
凹凸度を算出するようにしてもよい。
別する場合、例えば、凹凸度が所定値以下のパターンは
罫線を構成するものとし、凹凸度が所定値以上のパター
ンは文字を構成するものとする。
ことにより、凹凸度が小さい罫線や直線などのパターン
と、凹凸度が大きい文字や記号などのパターンとを区別
することが可能となり、帳票内に記入された文字や記号
などを正確に抽出することが可能となることから、文字
認識の精度を向上させることが可能となる。
成を示すブロック図である。図2において、第1探索手
段11は所定方向に画素を探索し、第2探索手段12は
所定方向に隣接画素が存在しない場合、その所定方向と
異なる方向の画素を探索し、計数手段13は第2探索手
段12による画素の探索回数を計数する。
白を無視して画素の探索を行うことにより、パターンの
かすれを吸収するようにしてもよい。計数手段13は、
第2探索手段12による画素の探索回数をパターンの傾
きに対応して補正するようにしてもよく、第2探索手段
による画素の探索回数を探索されたパターンの長さで規
格化するようにしてもよい。
数に基づいて凹凸度を算出することにより、パターンの
両端の探索処理の中でパターンの凹凸を検出することが
可能となり、パターンの両端の探索とパターンの凹凸度
の検出とを同時に行うことが可能となることから、パタ
ーンの凹凸度を効率的に求めることが可能となる。
ン抽出装置の機能構成を示すブロック図である。図3に
おいて、連結パターン抽出部21は、入力された原画像
データから連結した画素で構成される部分パターンを抽
出するものである。
21で抽出された部分パターンに対し、縦長または横長
のマスクでマスク処理を行うことにより、罫線を構成し
ない斜め成分のパターンを除去するものである。 線分
抽出部23は、マスク処理が施された部分パターンに対
し隣接投影を行うことにより、画素密度の高い矩形領域
を罫線候補として抽出するものである。
抽出された矩形領域のうち、互いに近接して存在するも
のを統合することにより、直線を抽出するものである。
罫線判別処理部25は、罫線候補領域内の部分パターン
を探索し、探索方向の変化回数に基づいて、部分パター
ンの凹凸度を算出する。そして、罫線候補領域内の部分
パターンのうち、凹凸度の小さい部分パターンを罫線を
構成するものとみなす。
囲まれた矩形領域をセルとして抽出し、罫線判別処理部
25で罫線と判別された罫線候補から、セルを構成しな
い罫線候補を除外するものである。
れる文字認識システムの構成を示すブロック図である。
図4において、31は全体的な処理を行う中央演算処理
ユニット(CPU)、32はCPU31で実行されるプ
ログラムを格納するプログラムメモリ、33は画像デー
タをビットマップ形式で格納する画像メモリ、34は画
像処理に使用するワークメモリ、35は画像を光学的に
読み取るスキャナ、36はスキャナ35により読み取ら
れた情報を一時的に格納するメモリ、37は各文字画像
の特徴を格納した辞書ファイル、38は認識結果を表示
するディスプレイ、39は認識結果を印刷するプリン
タ、40はディスプレイ38及びプリンタ39の入出力
インターフェース、41はCPU31、プログラムメモ
リ32、画像メモリ33、ワークメモリ34、メモリ3
6、辞書ファイル37、入出力インターフェイス40及
びドライバ44を接続しているバス、42は通信ネット
ワーク43を介してデータやプログラムの送受信を行う
通信インターフェイス、44はドライバ、45はハード
ディスク、46はICメモリカード、47は磁気テー
プ、48はフロッピーディスク、49はCD−ROMや
DVD−ROMなどの光ディスクである。
より読み取った画像データをメモリ36に一時的に格納
し、その画像データをビットマップ形式で画像メモリ3
3に展開する。そして、画像メモリ33からワークメモ
リ34にコピーされた2値画像データに対してパターン
抽出処理を行う。その結果に基づいて、スキャナ35に
より読み取った画像データから文字画像の切り出しを行
い、切り出された文字画像の特徴と辞書ファイル37に
格納された特徴データとの比較を行い、文字の認識を行
う。その後、その認識結果を、ディスプレイ38又はプ
リンタ39に出力する。
ターン抽出装置は、プログラムメモリ32に格納された
プログラムに従って処理を行うCPU31の機能として
実現される。ここで、パターン抽出処理を行うプログラ
ムは、プログラムメモリ32のROMに予め格納してお
くことが可能である。また、パターン抽出処理を行うプ
ログラムを、ハードディスク32、ICメモリカード3
3、磁気テープ34、フロッピーディスク35まはた光
ディスク36などの記憶媒体からプログラムメモリ32
のRAMにロードした後、このプログラムをCPU31
で実行させるようにしてもよい。
ムを、通信インターフェイス42を介して通信ネットワ
ーク43から取り出すこともできる。通信インターフェ
イス42と接続される通信ネットワーク43として、例
えば、LAN(LocalArea Networ
k)、WAN(Wide Area Networ
k)、インターネット、アナログ電話網、デジタル電話
網(ISDN:Integral Service D
igital Network)、PHS(パーソナル
ハンディシステム)や衛星通信などの無線通信網などを
用いることが可能である。
より具体的に説明する。連結パターン抽出部21は、原
画像の入力パターンに対しラベリングを行い、8連結で
繋がっている各部分パターンにラベルを付し、これらの
部分パターンの中から最も大きな外接矩形を有する部分
パターンを取り出す。ここで、「8連結」で繋がってい
る部分パターンとは、縦、横、斜めの8方向において、
特定画素に関してその隣接画素が存在するとき繋がって
いるとし、存在しないとき繋がっていないとすることに
より形成された一続き(連結)のパターンを言う。な
お、原画像は、極端な傾きのない2値画像である。
リングで抽出することにより、複数の枠が配置されてい
る位置の相対的な関係に依存することなく、連結パター
ンを抽出することができる、例えば、図5(a) に示すよ
うに、帳票51の枠内に「1」、「2」、「3」、
「4」、「5」の数字が記入された画像が、処理対象と
して入力されたものとすると、「1」、「2」、
「3」、「4」の数字に対しては、ラベル1から4がそ
れぞれ付され、「5」の数字は帳票51に接触し、
「5」の数字と帳票51とは1つの連結パターンとみな
されることから、ラベル5が付される。なお、ラベリン
グにより得られた部分パターンのサイズが後の処理で必
要となるので、この部分パターンを矩形近似して得られ
る矩形の角の座標をラベリングの処理中に算出して格納
しておく。
5が付されている部分パターンの中から、最も大きな外
接矩形を有するラベル5が付されている部分パターンを
取り出す。
21で抽出されたある一定の大きさを有する部分パター
ンに対し、画像から極端な斜め成分を省き、枠だけに存
在する長い直線の抽出を容易にするための処理を行う。
抽出する場合、縦×横が1×6画素の矩形範囲を指定す
る横長のマスクM1〜M9を用いる。ここで、マスク処
理の結果得られる線分どうしの隙間が開かないようにす
るために、マスク処理を行う範囲が互いに重なりを持つ
ように設定する。
し、マスクM1〜M9内において黒画素が占める割合を
算出し、その割合がある所定値より大きければそのマス
クM1〜M9内の画素を全て黒画素とみなし、また所定
値以下であれば、マスク内の画素を全て白画素とみな
す。ここで、原画像を横長のマスクで走査する場合、横
方向に並んで存在している画素については、それらの画
素がマスク内で占める割合が大きくなり、斜めの方向に
並んで存在している画素については、それらの画素がマ
スク内で占める割合が小さくなることから、原画像に存
在する極端な斜め成分を除去することが可能となり、横
成分を効率的に抽出することが可能となる。
で示された横成分の画素が抽出され、斜め成分を除去す
るとともに線幅を均一化することが可能となる。なお、
縦成分を抽出する場合、例えば、縦×横が6×1画素の
矩形範囲を指定する縦長のマスクを用いる。
処理の結果を示す図である。図7(a) において、連結パ
ターン抽出部21で抽出されたラベル5の部分パターン
には、帳票51に接触している数字の「5」などの枠を
構成しないパターンも含まれている。この部分パターン
の画像全体に対し、横長、縦長の2種類のマスクによる
走査を行う。そして、マスク内においてパターンが占め
る割合を算出し、その割合がある所定値より大きければ
そのマスク内を全てパターンとみなし、所定値以下であ
れば、マスク内のパターンを削除することにより、縦横
成分を抽出する。そして、複数の行または列が続いて、
マスク内での黒画素が占める割合が所定値より大きくな
った場合、それらをまとめて矩形範囲をつくり、その中
心線を処理結果とする。
分が除去され線幅が均一化されたパターン52が得るこ
とができ、枠の抽出を容易にすることができる。なお、
原画像はマスク処理画像とは別に記憶しておく。
処理を示すフローチャートである。図8において、ま
ず、ステップS1に示すように、連結パターン抽出部2
1で得られた部分パターンの原画像全体に対して、横長
及び縦長の2種類のマスクで走査を行う。
内のパターンの占める割合、すなわち、マスクの面積に
対するマスク内のパターンの面積を算出し、この割合
が、所定値より大きいかどうかの判断を行う。そして、
マスク内のパターンの占める割合が所定値より小さいと
判断された場合、ステップS3に進み、縦成分又は横成
分がないとして処理を終了する。
の占める割合が所定値より大きいと判断された場合、ス
テップS4に進み、マスク内を全てパターンとみなし、
このパターンを全て、縦成分又は横成分とする。
プS4で得られた成分が、上下の成分又は左右の成分と
接しているかどうかの判断を行う。そして、上下の成分
又は左右の成分と接していないと判断された場合、ステ
ップS6に進み、ステップS4で得られた成分を処理結
果として出力する。
の成分と接していると判断された場合、ステップS7に
進み、互いに接している成分を統合する。そして、ステ
ップS8において、ステップS7で統合した成分から矩
形範囲を作成し、ステップS9において、ステップS8
得られた矩形範囲の中心線を処理結果として出力する。
ーンを横方向及び縦方向に複数に分割し、横方向及び縦
方向に分割したそれぞれの範囲内でパターンの隣接投影
を算出し、ある一定の長さの線分又は直線の一部を矩形
近似により検出する。ここで、隣接投影とは、注目行又
は注目列の投影値に周囲の行又は列の投影値を足し合わ
せたものである。また、注目行又は注目列の投影値は、
その行又は列に存在する黒画素の総和をとったものであ
る。この隣接投影により、直線が傾いていて複数の行又
は複数の列に渡ってその直線が存在している場合におい
ても、直線を正確に検出することができる。このため、
ブロック枠などの大きな枠を検出する場合、その枠が傾
いていても、枠を構成する直線を検出することが可能と
なる。
る。図9において、縦方向の長さがLY 、横方向の長さ
がLX の矩形枠61の水平方向jの投影値Ph(i)を
HP(i)、矩形枠61の垂直方向iの投影値Pv
(j)をVP(j)とすると、HP(1)=HP(n)
=m、HP(2)〜HP(n−1)=2、VP(1)=
VP(m)=n、VP(2)〜VP(m−1)=2であ
る。
存在している部分は、その投影値が大きくなるので、こ
の投影値を算出することにより、矩形枠61を構成して
いる直線を抽出することができる。
投影法を説明する図である。図10において、i行の投
影値をp(i)とすると、隣接投影値P(i)は、
(1)式により算出することができる。
i−1行目には黒画素が9個だけ存在しているので、p
(i−1)=9となり、i行目には黒画素が6個だけ存
在しているので、p(i)=6となり、i+1行目には
黒画素が6個だけ存在しているので、p(i+1)=6
となる。この結果、P(i)=p(i−1)+p(i)
+p(i+1)=21となる。
数の行又は複数の列に渡ってその直線が存在している場
合、その傾いた直線の隣接投影値は大きくなることか
ら、枠が傾いている場合においても、枠を構成する直線
を効率的に検出することが可能となる。
投影処理を示すフローチャートである。図11におい
て、まず、ステップS11に示すように、マスク処理部
22で得られた同一のラベルを有する部分パターンを横
方向及び縦方向に複数の部分に分割する。
向及び縦方向のそれぞれの分割範囲内で投影値を算出す
る。次に、ステップS13において、ステップS12で
算出されたそれぞれの投影値に周囲の投影値を加算す
る。
いて、隣接投影値P(i)を算出する。線分抽出部23
は、部分パターンのマスク処理画像に対する隣接投影値
に基づいて、横方向及び縦方向におけるある一定長さの
線分又は直線の一部を、矩形近似により検出する。
投影値と縦横それぞれの分割長との比が所定のしきい値
以上である部分を直線の候補が存在する位置とする。ま
た、連続する複数の行又は列が所定のしきい値値以上と
なった場合は、それらの連続する複数の行又は列をまと
めた矩形範囲を直線の候補が存在する位置とする。な
お、この矩形近似により検出した一定の長さの線分又は
直線の一部を「矩形線分」と呼ぶ。
傾いた横線61を3つの部分に分割し、隣接投影値がし
きい値以上となっている位置を算出する。この結果、図
12(b) に示すように、横方向に分割された3つの矩形
線分62を得ることができる。
法を用いて斜めに傾いている直線61の位置を検出した
場合、その投影値は小さくなってしまうので、直線61
を検出することは不可能となる。一方、斜めに傾いてい
る直線61を通常の投影法で検出するために、部分パタ
ーンの分割数を増やし分割長を短くした場合、文字を構
成している短い直線も多数検出され、文字と枠とを区別
することが困難になる。
より、直線61が斜めに傾いている場合でも、部分パタ
ーンの分割長を極端に小さくすることなく、隣接投影値
を大きくすることが可能となることから、枠を構成する
比較的長い直線を文字を構成している短い直線と区別し
ながら正確に検出することができる。
抽出処理を示すフローチャートである。図13におい
て、まず、ステップ21で、分割された部分パターンの
隣接投影値と縦横それぞれの分割長との比が、所定のし
きい値以上であるかどうかを判定する。そして、隣接投
影値と縦横それぞれの分割長との比が、所定のしきい値
以上でないと判断された場合、ステップS22に進み、
線分が存在しないものとみなす。
それぞれの分割長との比が、所定のしきい値以上である
と判断された場合、ステップS23に進み、線分が存在
するものとみなす。
S23で線分とみなされたパターンが、その上下に存在
する線分と接しているかどうかを判断する。そして、上
記パターンが上下に存在する線分と接していないと判断
された場合、ステップS25に進み、そのパターンを矩
形線分とする。
S23で線分とみなされたパターンがその上下に存在す
る線分と接していると判断された場合、ステップS26
に進み、線分とみなされたパターンとその上下に存在す
る線分とを統合する。そして、ステップS27におい
て、ステップS26で統合した線分を矩形線分として検
出する。
された矩形線分のうち、近隣の矩形線分同士を統合して
長い直線とし、統合された直線を矩形近似する。例え
ば、図14(a) に示すように、途中で途切れていない矩
形線分x、y、zが接触しているか、または繋がってい
る場合、これらの矩形線分x、y、zを統合して長い直
線とする。また、図14(b) に示すように、矩形線分
x、yが繋がっていない場合、矩形線分x、yの垂直方
向の距離が、隣接投影法において加算する行又は列数j
以内ならば、矩形線分x、y、zを統合して長い直線と
する。
ら、検出された直線の傾きを算出し、他の直線の傾きと
比較して異なる傾きを有する直線を、枠の中に書かれた
斜めの消し線等、枠でない部分であるとみなし、直線の
候補から除く。
統合処理を示すフローチャートである。図15におい
て、まず、ステップS31に示すように、線分抽出部2
3で検出された矩形線分に対し、矩形線分同士の距離を
算出する。
ップS31で算出された矩形線分同士の距離が、隣接投
影法において加算する行又は列数j以内であるかどうか
を判定する。そして、矩形線分同士の距離が隣接投影法
において加算する行又は列数j以内でない場合、ステッ
プS33に進み、矩形線分の統合を行わないこととす
る。
同士の距離が隣接投影法において加算する行又は列数j
以内であると判断された場合、ステップS34に進み、
矩形線分の統合を行う。
を矩形近似し、横枠又は縦枠を構成する罫線候補とす
る。例えば、図16において、統合された直線71を矩
形近似することにより、罫線候補72を得ることができ
る。
は、マスク処理を行う以前の元の画像を用いて処理を行
う。図17は、本発明の一実施例に係わる罫線候補領域
の抽出結果を示す図である。
の文字列が記入され、罫線の部分が罫線候補82として
抽出されているとともに、「研」の文字と「究」の文字
と「部」の文字とが互いに近接しているため、「研究
部」の文字列の一部が罫線候補81として抽出されてい
る。
の文字列の一部が、罫線であるとみなされると、「研究
部」の文字列を正しく切り出すことができないため、
「研」の文字、「究」の文字及び「部」の文字を認識す
ることが困難になる。このため、罫線判別処理部25
は、罫線候補81、82内のパターンについて凹凸度を
算出することにより、罫線候補81、82内のパターン
が罫線かどうかを判別する。
候補領域のパターンの探索結果を示す図である。図18
において、罫線の間に「研究部」の文字列が記入され、
「研究部」の文字列は、下方の罫線に接触している。そ
して、上方の罫線が罫線候補91として抽出されている
とともに、下方の罫線が罫線候補93として抽出され、
「研」の文字と「究」の文字と「部」の文字とが互いに
近接しているため、「研究部」の文字列の一部が罫線候
補92として抽出されている。
抽出された横線または縦線の直線について、横線の場合
は左右端、縦線の場合は上下端を正確に検出するため
に、これら罫線候補91、92、93内のパターンにつ
いて探索を行う。この際、探索方向の変化回数を計数す
る。ここで、罫線候補91のパターンは、本来罫線であ
ることから、真っ直ぐに探索され、探索方向の変化回数
の値が小さくなる。一方、罫線候補92のパターンは、
本来文字であることから、文字の形状が反映されて探索
経路が屈曲し、探索方向の変化回数の値が大きくなる。
いパターンを罫線とみなし、探索方向の変化回数の値が
大きいパターンを罫線でないとみなすことにより、罫線
候補91のパターンを罫線であると判定することが可能
となるとともに、罫線候補92のパターンを罫線でない
と判定することが可能となる。
合に限り、斜め方向の画素を探索し、探索方向に隣接画
素が存在している間は、同一方向に探索を行うことによ
り、「研究部」の文字列が接触している罫線候補93の
パターンについても、探索方向の変化回数の値が小さく
なることから、罫線候補93のパターンを罫線であると
判定することが可能となる。
ーンの凹凸度のしきい値の設定例を示す図である。図1
9において、かすれた罫線の上方に「研究部」の文字列
が記入され、かすれた罫線が罫線候補102として抽出
されているとともに、「研」の文字と「究」の文字と
「部」の文字とが互いに近接しているため、「研究部」
の文字列の一部が罫線候補101として抽出されてい
る。
文字列の一部から誤って抽出されたものであり、罫線候
補101の近くには、罫線候補101として抽出された
「研究部」の文字列の残りのパターンが存在している。
このため、罫線候補101の近くに他のパターンが存在
している場合、罫線候補101のパターンの凹凸度のし
きい値TH1を小さく設定する。このことにより、罫線
候補101として抽出された「研究部」の文字列の一部
を罫線候補から除外することを、より正確に行うことが
可能となる。
抽出されたものであり、「研究部」の文字列は罫線から
離れて記入されているため、罫線候補102の近くに
は、文字などの他のパターンは存在しない。このため、
罫線候補102の近くに他のパターンが存在しない場
合、罫線候補102のパターンの凹凸度のしきい値TH
2を大きく設定する。このことにより、罫線候補102
として抽出された罫線がかすれているために、罫線候補
102として正しく抽出された罫線の凹凸度が大きくな
り、罫線候補102として正しく抽出された罫線が罫線
候補でないものとみなされることを防止することが可能
となる。
値は、様々なパターンを用いて実験的求めることが可能
である。図20は、本発明の一実施例に係わる文字の探
索時の探索方向変化回数の遷移を示す図である。
罫線候補として抽出されているものとし、このパターン
は黒画素で構成されているものとする。まず、探索開始
点を黒画素に設定し、横線分の場合は、探索方向を横
方向に設定して、探索を開始する。ここで、右上がりの
変化回数をカウントする変数hup、右下がりの変化回
数をカウントする変数hbl及び垂直方向線横切る回数
をカウントする変数hverを0に設定する。
する黒画素が存在するので、右方向に真っ直ぐに進む。
探索が黒画素の位置に進むと、黒画素の右隣には隣
接する黒画素が存在せず、黒画素の上斜め隣には隣接
する黒画素が存在するので、黒画素の位置で探索方向
を上斜め隣に変え、黒画素から黒画素に進む。ここ
で、変数hupが1だけカウントアップされ、変数hu
pの値が0から1になる。
する黒画素が存在するので、右方向に真っ直ぐに進む。
探索が黒画素の位置に進むと、黒画素の右隣には隣
接する黒画素が存在せず、黒画素の下斜め隣には隣接
する黒画素が存在するので、黒画素の位置で探索方向
を下斜め隣に変え、黒画素から黒画素に進む。ここ
で、変数hblが1だけカウントアップされ、変数hb
lの値が0から1になる。
する黒画素が存在するので、右方向に真っ直ぐに進む。
探索が黒画素の位置に進むと、黒画素の右隣には隣
接する黒画素が存在せず、黒画素の下斜め隣には隣接
する黒画素が存在するので、黒画素の位置で探索方向
を下斜め隣に変え、黒画素から黒画素に進む。ここ
で、変数hblが1だけカウントアップされ、変数hb
lの値が1から2になる。
する黒画素が存在するので、右方向に真っ直ぐに進む。
探索が黒画素の位置に進むと、黒画素の右隣には隣
接する黒画素が存在せず、黒画素の上斜め隣には隣接
する黒画素が存在するので、黒画素の位置で探索方向
を上斜め隣に変え、黒画素から黒画素に進む。ここ
で、変数hupが1だけカウントアップされ、変数hu
pの値が1から2になる。
隣に隣接する黒画素が存在するので、右方向に真っ直ぐ
に進む。探索が黒画素(丸10)の位置に進むと、黒画
素(丸10)の右隣には隣接する黒画素が存在せず、黒
画素(丸10)の上斜め隣及び下斜め隣にも隣接する黒
画素が存在しないので、黒画素(丸10)の上下に隣接
する画素が存在するかどうかを調べる。この結果、黒画
素(丸10)の上下に隣接する画素が存在する場合、探
索方向に対して垂直方向のパターンを横切るものとみな
し、変数hverを1だけカウントアップする。この結
果、変数hverの値が0から1になる。なお、黒画素
(丸10)から黒画素(丸11)までの距離が所定値以
下の場合、その間の空白を無視して、黒画素(丸10)
から黒画素(丸11)に進み、探索を続行する。
て探索が行われた場合、文字の形状を反映して、探索方
向が変化することとなる。図21は、本発明の一実施例
に係わる罫線の探索時の探索方向変化回数の遷移を示す
図である。
が罫線候補として抽出されているものとし、このパター
ンは黒画素で構成されているものとする。まず、探索開
始点を黒画素に設定し、横線分の場合は、探索方向を
横方向に設定して、探索を開始する。ここで、右上がり
の変化回数をカウントする変数hup、右下がりの変化
回数をカウントする変数hbl及び垂直方向線横切る回
数をカウントする変数hverを0に設定する。
の中で最も細い部分に存在する黒画素とする。これは、
パターンの太い部分は、文字が罫線に接触している領域
である可能性があり、この領域から探索を開始すると、
罫線の探索が正確に行うことができない場合があるから
である。
して隣接画素が連続して存在していることから、探索が
真っ直ぐに行われ、変数hup、変数hbl及び変数h
verはいずれも0のままとなる。
いて探索が行われた場合、探索方向の変化はほとんど検
出されないこととなる。図22は、本発明の一実施例に
係わる文字が接触している罫線の探索時の探索方向変化
回数の遷移を示す図である。
が罫線候補として抽出されているものとし、このパター
ンは黒画素で構成されているものとする。また、罫線に
は文字が接触しているものとする。まず、探索開始点を
黒画素に設定し、横線分の場合は、探索方向を横方向
に設定して、探索を開始する。ここで、右上がりの変化
回数をカウントする変数hup、右下がりの変化回数を
カウントする変数hbl及び垂直方向線横切る回数をカ
ウントする変数hverを0に設定する。
の中で最も細い部分に存在する黒画素とする。これは、
パターンの太い部分は、文字が罫線に接触している領域
である場合があり、この領域から探索を開始すると、罫
線の探索が正確に行うことができない場合があるからで
ある。
して隣接画素が連続して存在していることから、探索が
真っ直ぐに行われ、変数hup、変数hbl及び変数h
verはいずれも0のままとなる。このように、探索方
向に対して隣接画素が存在している間は、探索方向が変
化しないため、罫線に文字が接触している場合において
も、罫線自体の凹凸を調べることができ、罫線抽出の精
度を向上させることが可能となる。
の探索方向を示す図である。図23において、右方向の
探索では、現在地の画素111に隣接する画素112の
方向に探索が行われ、現在地の画素113に隣接する画
素が存在しない場合に限り、現在地の画素113の上斜
め隣の画素114aまたは下斜め隣の画素114bの方
向に探索が行われる。
15に隣接する画素116の方向に探索が行われ、現在
地の画素117に隣接する画素が存在しない場合に限
り、現在地の画素117の上斜め隣の画素118aまた
は下斜め隣の画素118bの方向に探索が行われる。
れパターンの探索方法を示す図である。図24におい
て、矩形近似された直線121に対し、直線121を構
成する画素122の検索を行う場合、一定の画素数以下
の空白領域123に対しては画素122があるとみなし
て探索を行う。そして、この検索で得られた画素122
の左右端の座標を矩形近似された直線121の左右端の
代わりに用いる。
探索を行うことにより、パターンがかすれて分離してい
る場合においても、そのパターンの凹凸度を算出するこ
とが可能になる。
係わる凹凸度算出処理を示すフローチャートである。な
お、このフローチャートでは、探索を横方向に行う場合
について示している。
示すように、罫線候補の矩形領域を探索範囲に設定す
る。 次に、ステップS42に示すように、罫線候補の
矩形領域内のパターンのうち、最も細い部分の横方向の
座標を算出し、この最も細い部分の横方向の座標におけ
るパターンの中心点を算出する。そして、このパターン
の中心点を探索の開始点とする。ここで、探索の開始点
をパターンの最も細い部分とするのは、最も細い部分は
罫線である可能性が高く、枠となる直線の探索をより確
実に行うことができるからである。
の探索方向を右に設定する。次に、ステップS44に示
すように、ステップS42で設定した探索開始点を注目
画素として設定する。
領域の長さをカウントする変数Kの初期値を0に設定す
る。次に、ステップS46に示すように、右上がりまた
は左上がりに探索方向が変化した回数をカウントする変
数hupを0に設定する。
がりまたは左下がりに探索方向が変化した回数をカウン
トする変数hblを0に設定する。次に、ステップS4
8に示すように、垂直方向線を横切る回数をカウントす
る変数hverを0に設定する。
の配置関係を示す図である。図27において、×印で示
した注目画素に対し、D1は左上斜め隣に隣接する画
素、D2は左に隣接する画素、D3は左下斜め隣に隣接
するの画素、D4は上に隣接する画素、D5は下に隣接
する画素、D6は右上斜め隣に隣接する画素、D7は右
に隣接する画素、D8は右下斜め隣に隣接するの画素で
ある。そして、探索が注目画素から画素D6に進んだ場
合、探索方向が右上がりに変化し、探索が注目画素から
画素D8に進んだ場合、探索方向が右下がりに変化し、
探索が注目画素から画素D1に進んだ場合、探索方向が
左上がりに変化し、探索が注目画素から画素D3に進ん
だ場合、探索方向が左下がりに変化することとする。
画素が探索を行うパターンの矩形領域の内部であるかど
うかを判定し、注目画素が探索を行うパターンの矩形領
域の内部でない場合、ステップS63に進み、空白領域
の長さをカウントする変数Kの値を0に設定してから、
ステップS64に進む。
行うパターンの矩形領域の内部であると判定された場
合、ステップS50に進み、注目画素に対しD7の位置
に黒画素があるかどうかを判断する。そして、D7の位
置に黒画素がある場合、ステップS51に進み、注目画
素をD7の位置の画素とし、注目画素に対しD7の位置
に黒画素がある間は、右方向に探索を進める。
がない場合、ステップS52に進み、注目画素に対しD
6の位置に黒画素があるかどうかを判断する。そして、
D6の位置に黒画素がある場合、ステップS53に進
み、変数hupの値を1だけ増加させてから、ステップ
S54に進み、注目画素をD6の位置の画素とする。こ
のことにより、探索方向が右上がりに変化するととも
に、探索方向が右上がりに変化した回数がカウントされ
る。注目画素がD6の位置に移った後は、ステップS4
9〜ステップS51の処理が繰り返される。
素がないと判断された場合、ステップS55に進み、注
目画素に対しD8の位置に黒画素があるかどうかを判断
する。そして、D8の位置に黒画素がある場合、ステッ
プS56に進み、変数hblの値を1だけ増加させてか
ら、ステップS57に進み、注目画素をD8の位置の画
素とする。このことにより、探索方向が右下がりに変化
するとともに、探索方向が右下がりに変化した回数がカ
ウントされる。注目画素がD8の位置に移った後は、ス
テップS49〜ステップS51の処理が繰り返される。
素がないと判断された場合、ステップS58に進み、空
白領域の長さをカウントする変数Kがしきい値以下であ
るかどうかを判定する。そして、空白領域の長さをカウ
ントする変数Kがしきい値以下である場合、ステップS
59に進み、注目画素が黒画素であり、かつ、注目画素
に対しD4及びD5の位置に黒画素が存在しているかど
うかを判断する。
注目画素に対しD4及びD5の位置に黒画素が存在して
いる場合、垂直方向線を横切るとみなして、ステップS
60に進み、変数hverを1だけ増加させてから、ス
テップS61に進み、注目画素をD7の位置の画素とす
る。
目画素に対しD4及びD5の位置に黒画素が存在してい
るという条件が成り立たない場合、ステップS61に直
接進み、注目画素をD7の位置の画素とする。
領域の長さをカウントする変数Kを1だけ増加させ、ス
テップS49に移る。一方、ステップS58で空白領域
の長さをカウントする変数Kがしきい値より大きいと判
断された場合、ステップS64に進み、探索方向は右に
設定されているかどうかを判定する。ここで、探索方向
が右に設定されている場合、ステップS65に進み、探
索方向を左に設定してから、ステップS66に進み、ス
テップS42で決定した探索開始点を注目画素に設定す
る。そして、ステップS49に進み、左方向の探索を行
う。
いと判断された場合、ステップS67に進み、変数hu
p及び変数hblの値から画像の傾きに対応する値を減
算することにより、画像の傾きの補正を行う。ここで、
画像の傾きに対応する値は、罫線候補の傾きの平均値か
ら予め算出しておく。
hup、変数hbl及び変数hverの値を、ある一定
長さあたりの値に換算する。次に、ステップS69に示
すように、ある一定長さあたりの値に換算された変数h
up、変数hblまたは変数hverの値がしきい値以
上となった場合、そのパターンを罫線候補から除外す
る。
hverの値を加算し、その結果を直線の長さに対する
割合に換算し、その値を注目している直線の変化量とす
るようにしてもよい。
では、横方向に探索を行う場合について説明したが、探
索方向を左右から上下に変更することにより、縦方向に
探索を行う場合についても同様に行うことが可能であ
る。
の部分パターンの大きさに対応させて変化させるように
してもよく、このことにより、文字線分を枠とみなして
しまう可能性を低くすることができる。
24で抽出された直線に対して、凹凸度を算出する場合
について説明したが、線分抽出部23で抽出された線分
に対して、凹凸度を算出するようにしてもよい。
部25で判別された罫線候補から枠を構成する直線を決
定し、上下左右の四辺が枠で囲まれた矩形範囲をセルと
して抽出する。
抽出処理を説明する図である。図28(a) において、入
力画像から罫線候補を抽出することにより、帳票131
を構成する直線が決定される。
1を構成する直線から、横枠を決定することにより、帳
票131を行単位に分割する。次に、図28(c) に示す
ように、帳票131を構成する直線から、縦枠を決定す
ることにより、帳票131からセルを抽出する。ここ
で、帳票131から抽出されたセルの中に、入れ子構造
132があるかどうかを調べる。
造132を新たな帳票とみなして、入れ子構造132か
らセルを抽出する。このように、帳票131からセルが
抽出された場合、帳票131を構成する直線をセル単位
で分割し、この分割された直線ごとに凹凸度を算出する
ことも可能である。この分割された直線ごとに凹凸度を
算出することにより、罫線とみなされたパターンの一部
から文字だけを取り出すことができ、不規則な構造を有
する帳票131から罫線だけを精度よく抽出することが
可能となる。
決定方法を説明する図である。図29において、帳票1
31に対し、横直線〜及び縦直線(I)〜(VI)
が抽出され、横直線〜を一番上の行から順番に1行
づつ組としていくことにより、横枠を決定する。例え
ば、横直線と横直線とが2本組の横線と判断され、
この横直線と横直線とが横枠とされる。
われる。 1)罫線判別処理部25で罫線候補と判別された横直線
の中から、上から順番に横直線を2本抽出し、これらを
2本の横直線の組の候補とする。
同じ、又は下の直線の方が長ければ、その2本を横直線
の組とする。このとき、2本の横直線の長さが異なる場
合、長い方の横直線を再使用可とする。
の横直線の方が短かければ、さらにその下の横直線を横
枠の候補とし、これらの横直線の長さを比較する。ま
た、下の横直線の方が右方向又は左方向に短かければ、
さらにその下の横直線を組の候補とし、これらの横直線
の長さを比較する。
を満足する横直線が下部にないことが分かれば、この場
合に限り、上の横直線とその下の横直線とを組みとす
る。 5)一番下の横直線の処理後、上部にまだ未処理の横直
線がある場合は、再び上から順に未処理の横直線と再使
用可の横直線とを用いて、上記1)〜4)の処理を行
い、2本の横直線の組を作る。
決定方法を説明する図である。図30において、帳票1
31に対し、横直線〜及び縦直線(I)〜(VI)
が抽出され、組となっている横枠に上下とも達している
縦直線(I)〜(VI)を縦枠と決定する。例えば、縦
直線(I)と縦直線(VI)とが、横枠とみなされた横
直線及び横直線に上下とも達しているので、縦直線
(I)と縦直線(VI)とが縦枠とされる。
抽出方法を説明する図である。図31において、帳票1
31に対し、横直線〜及び縦直線(I)〜(VI)
が抽出され、四方が横枠及び縦枠で囲まれた矩形領域を
セルとして抽出する。例えば、横直線と縦直線(I
V)と横直線と縦直線(I)とで囲まれた矩形領域が
セルとして抽出されるとともに、横直線と縦直線(V
I)と横直線と縦直線(IV)とで囲まれた矩形領域
がセルとして抽出される。
子構造の抽出方法を説明する図である。図32におい
て、横直線と縦直線(III)と横直線と縦直線
(I)とで囲まれた矩形領域がセルとして抽出された場
合、このセルは入れ子構造132となっている。このた
め、入れ子構造132を構成する直線から横枠及び縦枠
を決定し、入れ子構造132内で四方が横枠及び縦枠で
囲まれた矩形領域をセルとして抽出する。例えば、横直
線と縦直線(III)と横直線と縦直線(I)とで
囲まれた矩形領域、横直線と縦直線(II)と横直線
と縦直線(I)とで囲まれた矩形領域、及び横直線
と縦直線(III)と横直線と縦直線(II)とで囲
まれた矩形領域が、セルとして抽出される。 図33
は、本発明の一実施例に係わる横枠決定処理を示すフロ
ーチャートである。
示すように、罫線判別処理部25で罫線候補と判別され
た横直線の中から、最上部の2本を取り出す。次に、ス
テップS72に示すように、取り出した2本の横直線の
うち、上側の横直線をupline、下側の横直線をb
llineとする。
uplineと直線bllineとに縦方向の重なりが
あるかどうかを判定する。そして、直線uplineと
直線bllineとに縦方向の重なりがない場合、ステ
ップS74に進み、直線bllineの下の直線を新た
にbllineとし、この処理を直線uplineと直
線bllineとに縦方向の重なりがあることとなるま
で続ける。
lineと直線bllineとに縦方向の重なりがある
場合、ステップS75に進み、直線uplineと直線
bllineとの長さが同じであるか、または直線up
lineより直線bllineの方が長いかどうかを判
定する。そして、上記条件を満足する直線upline
と直線bllineが存在する場合、ステップS78に
進み、直線uplineと上記直線bllineを2本
の横線の組(2本組の横枠)とする。
lineと直線bllineとの長さが異なっており、
かつ、直線uplineより直線bllineの方が短
い場合、ステップS76に進み、直線bllineより
下方に直線uplineと長さが同じであるか、または
直線uplineより長い直線blline2が存在す
るかどうかを判定する。そして、上記条件を満足する直
線bllineと直線uplineが存在する場合、ス
テップS77に進み、直線bllineを直線blli
ne2に変更してステップS78に進む。
線の配置状態を説明する図である。図34において、直
線uplineと直線bllineとの長さが同じであ
るとは、図34(a) のような状態を示し、直線upli
neより直線bllineの方が短いとは、図34(b)
のような状態を示し、直線uplineより直線bll
ineの方が長いとは、図34(c) のような状態を示
す。
lineより下方に直線uplineと長さが同じであ
るか、または直線uplineより長い直線bllin
e2が存在しない場合、ステップS78に進み、直線u
plineと直線bllineとを2本組の横枠とす
る。
で示す縦枠決定処理及び入れ子処理を行う。次に、ステ
ップS80で、ステップS78で2本組の横枠とした直
線uplineと直線bllineの長さが異なるかど
うかを判定する。そして、直線uplineと直線bl
lineの長さが異なる場合、ステップS81に進み、
右方向へ長い直線又は左方向に長い直線を再利用可とし
て、ステップS82に進む。
(d) に示す直線blline、左方向に長い直線とは、
図34(e) に示す直線bllineである。一方、ステ
ップS80において、直線uplineと直線blli
neとの長さが同じであると判定された場合、ステップ
S82に進み、直線bllineより下方に直線が存在
するかどうかを判定する。そして、直線bllineよ
り下方に直線が存在する場合、ステップS83に進み、
直線bllineとその下の直線を抽出し、ステップS
72に戻る。
lineより下方に直線が存在しないと判定された場
合、ステップS84に進み、再使用可の直線を除いて、
処理済の直線を処理対象からはずす。
存在するかどうかを判定する。そして、未処理の直線が
存在しない場合、処理を終了する、一方、ステップS8
5において、未処理の直線が存在すると判定された場
合、ステップS86に進み、最上部から直線を2本取り
出し、ステップS72に戻る。
決定及び入れ子処理を示すフローチャートである。図3
5において、まず、ステップS91に示すように、最上
位の行の2本組の横枠を選択し、次に、ステップS92
に示すように、罫線判別処理部25で罫線候補と判別さ
れた縦直線の中から、上端と下端との両方が2本組の横
枠に達しているものを選択する。
した縦直線を縦枠と決定する。次に、ステップS94に
示すように、2本組の横枠と2本の縦枠とで囲まれた矩
形領域を抽出する。 次に、ステップS95に示すよう
に、矩形領域の左右2本の縦枠に両端が達している横直
線が存在するかどうか判定する。そして、そのような横
直線が存在しない場合、次の行の横枠を選択する処理を
行い、これにより新たに決定された2本組の横枠に対し
て上記ステップS92〜S97と同様の処理を実行す
る。
の縦枠に両端の達している横直線が存在すると判定され
た場合、ステップS96に進み、その矩形領域を新たに
小さな表(入れ子構造の矩形)とみなし、この入れ子構
造の矩形領域内に存在する小さな矩形領域の横枠を決定
する。
子構造の矩形領域内の縦枠を決定する処理を行う。図3
6は、本発明の一実施例に係わる規則的な帳票と不規則
な帳票の例を示す図である。
36(b) 及び図36(c) は不規則な帳票の例を示してい
る。規則的な帳票は、横枠を構成している横直線が互い
に同じ長さとなっているとともに、縦枠を構成している
縦直線が互いに同じ長さとなっている。一方、不規則な
帳票は、横枠を構成している横直線の長さ、または縦枠
を構成している縦直線の長さが不規則となっている。
候補領域の分割方法を説明する図である。図37(a) に
おいて、帳票141は不規則な構造を有し、帳票141
を構成している横直線142は他の横直線よりも短くな
っているものとする。この帳票141に対し、「文字」
という文字列が、図37(b) に示すように、横直線14
2の横に記入された場合、横直線142と「文字」とい
う文字列の一部とが、罫線候補145として抽出され
る。この罫線候補145に対して、凹凸度を算出した場
合、「文字」という文字列の一部については、凹凸度が
大きいとみなされるが、横直線142については、凹凸
度が小さいとみなされ、罫線候補145全体の凹凸度
は、横直線142の凹凸度がより大きく反映されて、小
さいとみなされる。
は、罫線候補145の一部であるとみなされ、罫線候補
145は、帳票141内で横枠を構成するとみなされる
ことから、罫線とみなされる。このため、帳票141か
ら「文字」という文字列を正確に切り出すことができな
くなり、文字認識の信頼度が低下する。
に分割することにより、罫線候補143、144、14
6を生成し、この罫線候補143、144、146の凹
凸度をそれぞれ独立に算出する。この結果、罫線候補1
43、146については、それぞれ凹凸度が小さいとみ
なされ、罫線候補143、146が罫線であると正しく
決定することが可能となるとともに、罫線候補144に
ついては、凹凸度が大きいとみなされ、罫線候補144
は罫線でないと正しく決定することが可能となる。
ごとに分割し、分割された罫線候補143、144、1
46ごとに凹凸度算出することにより、不規則な帳票内
に記入された文字の一部が、罫線候補145の一部とし
て誤って抽出された場合においても、罫線を構成する横
直線142の部分だけを精度よく抽出することが可能と
なる。
候補の凹凸度を部分的に求める方法を説明する図であ
る。図38(a) において、帳票151は不規則な構造を
有し、帳票151を構成している横直線152〜155
は、外枠の横直線よりも短くなっているものとする。
字列が、図38(b) に示すように、横直線153の横に
記入された場合、横直線153と「文字」という文字列
の一部156とが混在して、罫線候補として抽出され
る。この罫線候補に対して、凹凸度を算出した場合、
「文字」という文字列の一部156については、凹凸度
が大きいとみなされるが、横直線153については、凹
凸度が小さいとみなされ、横直線153と「文字」とい
う文字列の一部156とが混在している罫線候補全体の
凹凸度は、横直線153の凹凸度がより大きく反映され
るため、小さいとみなされる。
56は、罫線候補の一部であるとみなされ、帳票151
から「文字」という文字列を正確に切り出すことができ
なくなり、文字認識の信頼度が低下する。
字列の一部156とが混在している罫線候補の長さを、
他の横直線152、154、155からなる罫線候補の
長さと比較する。そして、他の横直線152、154、
155からなる罫線候補に対し、横直線153と「文
字」という文字列の一部156とが混在している罫線候
補から長さの異なる部分を分割することにより、「文
字」という文字列の一部156に対応した罫線候補を生
成する。
凹凸度を算出することにより、「文字」という文字列の
一部156だけについて凹凸度を算出することができ、
分割された罫線候補については、凹凸度が大きいとみな
して、分割された罫線候補は罫線でないと正しく決定す
ることが可能となる。
候補の凹凸度を部分的に求める方法を説明する図であ
る。図39において、帳票161は不規則な構造を有
し、帳票161を構成している横直線162、164、
165は横直線163よりも短くなっているものとす
る。この帳票161から横直線162〜165が抽出さ
れ、横直線163の長さが他の横直線162、164、
165の長さに比べて長いことが検出された場合、この
横直線163の突き出た部分166について、凹凸度を
算出する。そして、この突き出た部分166の凹凸度が
小さい場合、突き出た部分166は罫線であると決定
し、突き出た長い部分166の凹凸度が大きい場合、突
き出た部分166は罫線でないとみなして、罫線候補か
ら除外する。
が、本発明は上述した実施例に限定されることなく、本
発明の技術的思想に範囲内で他の様々の変更が可能であ
る。例えば、上述した実施例では、罫線候補内のパター
ンの探索により、その罫線候補内のパターンの凹凸度を
算出する場合について説明したが、探索以外の方法で凹
凸度を算出するようにしてもよい。例えば、罫線候補と
して抽出されたパターンを所定の方向に投影し、その罫
線候補の各部分での投影値の変動の大きさを算出するこ
とにより、パターンの凹凸度を求めるようにしてもよ
い。
パターンの凹凸度を算出することにより、凹凸度が小さ
い罫線や直線などのパターンと、凹凸度が大きい文字や
記号などのパターンとを区別することが可能となり、罫
線や直線などが文字や記号などと誤って判別されること
を減らすことが可能となることから、パターンの判別精
度を向上させることが可能となる。
の探索方向の変化回数に基づいて、凹凸度を算出するこ
とにより、パターンの凹凸度を的確に算出することが可
能となることから、凹凸度が小さいパターンと凹凸度が
大きいパターンとを正確に区別することが可能となり、
パターンの判別精度を向上させることが可能となる。
に隣接画素が存在しない場合に限り、所定方向と異なる
方向の画素を探索することにより、文字や記号などの他
のパターンが罫線や直線などに接触している場合におい
ても、罫線や直線などを精度よく抽出することが可能と
なる。
画素の探索回数を計数することにより、パターンの探索
を行いながらパターンの凹凸を効率的に検出することが
可能となる。
の変化回数をパターンの傾きに応じて補正することによ
り、パターンが傾いている場合においても、パターンの
凹凸度を精度よく算出することが可能となる。
下の空白を無視して探索を行うことにより、パターンが
かすれにより分離している場合においても、そのパター
ンの凹凸度を算出することが可能になる。
の変化回数をパターンの長さで規格化することにより、
探索により算出されたパターンの凹凸度から、パターン
の大きさの影響を除去することが可能となり、そのパタ
ーン自体の形状に基づく凹凸度を算出することが可能と
なる。
の交差回数を考慮しながらパターンの凹凸度を算出する
ことにより、パターンの凹凸度をより正確に求めること
が可能となる。
の凹凸度がしきい値以下の場合、そのパターンは罫線を
構成するものとみなすことにより、文字が罫線と誤って
判別されることを防止し、罫線を精度よく抽出すること
が可能となる。
の凹凸度がしきい値以上の場合、そのパターンは文字を
構成するものとみなすことにより、罫線が文字と誤って
判別されることを防止し、文字を精度よく抽出すること
が可能となる。
の配置状況に基づいて、パターンの凹凸度のしきい値を
変化させることにより、罫線をより精度よく抽出するこ
とが可能となる。
の高い矩形領域に存在する連結パターンの凹凸度を算出
することにより、罫線候補として抽出された文字が罫線
かどうかを正しく判別することが可能となる。
ーンを所定の領域ごとに分割して凹凸度を算出すること
により、罫線と文字とが接触している時の罫線の部分と
文字の部分とを分けて別々に凹凸度を算出することが可
能となることから、罫線の凹凸度が文字の凹凸度に影響
されて罫線が文字とみなされたり、文字の凹凸度が罫線
の凹凸度に影響されて文字が罫線とみなされたりするこ
とをなくすことができる。
理を行うことにより、原画像に存在する極端な斜め成分
を除去することが可能となり、罫線候補の抽出を容易に
することが可能となる。
方が囲まれた矩形領域をセルとして抽出し、セルを構成
しない罫線を罫線から除外することにより、罫線を構成
しない直線を罫線から除外することが可能となり、罫線
抽出の信頼度を向上させることが可能となる。
法を用いて罫線候補を抽出することにより、原画像が傾
いている場合においても、罫線候補を原画像から精度よ
く抽出することが可能となり、罫線抽出の信頼度を向上
させることが可能となる。
により検出された矩形線分ごとに凹凸度を算出すること
により、統合前の小さな領域に分かれたままの状態で凹
凸度の算出を行うことが可能となり、罫線と文字とが互
いに接触している場合においても、罫線と文字とを別々
に処理することが可能となる。
を統合してから凹凸度を算出することにより、罫線を精
度よく行うことが可能となる。また、本発明の一態様に
よれば、周辺の罫線候補から突き出ている罫線候補が存
在する場合、その突き出ている部分について凹凸度を算
出することにより、その突き出ている部分が罫線の一部
であるのか、罫線に接触している文字であるのかを精度
よく判別することが可能となり、帳票が長さの不規則な
罫線により構成されている場合においても、その帳票か
ら罫線を精度よく抽出することができる。
の構成を示すブロック図である。
図である。
の構成を示すブロック図である。
システム構成を示すブロック図である。
方法を示す図である。
示す図である。
示す図である。
ローチャートである。
する図である。
すフローチャートである。
明する図である。
すフローチャートである。
明する図である。
すフローチャートである。
明する図である。
出結果を示す図である。
ターンの探索結果を示す図である。
のしきい値の設定例を示す図である。
索方向変化回数の遷移を示す図である。
索方向変化回数の遷移を示す図である。
る罫線の探索時の探索方向変化回数の遷移を示す図であ
る。
示す図である。
探索方法を示す図である。
示すフローチャートである。
示す図である。
明する図である。
明する図である。
明する図である。
明する図である。
方法を説明する図である。
すフローチャートである。
を説明する図である。
子処理を示すフローチャートである。
規則な帳票の例を示す図である。
割方法を説明する図である。
凸度を部分的に求める方法を説明する図である。
凸度を部分的に求める方法を説明する図である。
る。
Claims (27)
- 【請求項1】 パターンを入力するパターン入力手段
と、前記パターンのうちの探索開始点からの探索方向の変化
回数に基づいて凹凸度を算出する変化回数計数手段を備
える凹凸度算出手段と、 前記凹凸度としきい値に基づいて、前記パターンの属性
を判別するパターン判別手段とを備えることを特徴とす
るパターン抽出装置。 - 【請求項2】 前記変化回数計数手段は、所定方向に画
素を探索する第1探索手段と、 前記所定方向に隣接画素が存在しない場合、前記所定方
向と異なる方向の画素を探索する第2探索手段と、 前記第2探索手段による画素の探索回数を計数する計数
手段とを備えることを特徴とする請求項1に記載のパタ
ーン抽出装置。 - 【請求項3】 前記第2探索手段は、前記所定方向に隣
接画素が存在しない場合、斜め隣の画素を探索すること
を特徴とする請求項2に記載のパターン抽出装置。 - 【請求項4】 パターンの傾きを検出する傾き検出手段
と、 前記パターンの傾きに対応した探索方向の変化回数を算
出する算出手段と、 前記算出手段で算出された値に基づいて、前記計数手段
で計数された探索回数を補正する補正手段とをさらに備
えることを特徴とする請求項3に記載のパターン抽出装
置。 - 【請求項5】 前記第1探索手段は、パターンが所定値
以下の空白を介して分離している場合、前記空白には画
素が存在しているものとみなして探索を行うことを特徴
とする請求項2〜4のいずれか1項に記載のパターン抽
出装置。 - 【請求項6】 前記第2探索手段による画素の探索回数
を、探索されたパターンの長さで規格化する規格化手段
をさらに備えることを特徴とする請求項2〜5のいずれ
か1項に記載のパターン抽出装置。 - 【請求項7】 前記凹凸度算出手段は、パターンの交差
回数に基づいて、前記凹凸度を算出する交差回数計数手
段を備えることを特徴とする請求項1〜6のいずれか1
項に記載のパターン抽出装置。 - 【請求項8】 前記交差回数計数手段は、注目画素に対
して、探索方向隣及び斜め隣に画素が存在せず、かつ、
前記探索方向に垂直な方向に隣接する画素が存在する場
合、前記交差回数の値を1だけ増加させることを特徴と
する請求項7に記載のパターン抽出装置。 - 【請求項9】 前記パターン判別手段は、前記パターン
の凹凸度が前記しきい値以下の場合、前記パターンは罫
線を構成するものと判別する罫線判別手段を備えること
を特徴とする請求項1〜8のいずれか1項に記載のパタ
ーン抽出装置。 - 【請求項10】 前記パターン判別手段は、前記パター
ンの凹凸度が前記しきい値以上の場合、前記パターンは
文字を構成するものと判別する文字判別手段を備えるこ
とを特徴とする請求項1〜9のいずれか1項に記載のパ
ターン抽出装置。 - 【請求項11】 前記パターン判別手段は、判別対象と
なるパターンから所定の範囲内に他のパターンが存在す
る場合、前記しきい値を変化させることを特徴とする請
求項9または10に記載のパターン抽出装置。 - 【請求項12】 前記パターン判別手段は、判別対象と
なるパターンから所定の範囲内に他のパターンが存在す
る時のしきい値を、判別対象となるパターンから所定の
範囲内に他のパターンが存在しない時のしきい値より
も、小さく設定することを特徴とする請求項11に記載
のパターン抽出装置。 - 【請求項13】 入力された原画像データから連結した
画素で構成される部分パターンを抽出する連結パターン
抽出手段と、 前記部分パターンから画素密度の高い矩形領域を罫線候
補として抽出する罫線候補抽出手段と、 前記矩形領域内の部分パターンを探索する探索手段と、 前記探索手段の探索結果に基づいて、前記部分パターン
の凹凸度を算出する凹凸度算出手段と、 前記凹凸度に基づいて、前記部分パターンが罫線を構成
するものかどうかを判別する罫線判別手段とを備えるこ
とを特徴とするパターン抽出装置。 - 【請求項14】 前記凹凸度算出手段は、前記部分パタ
ーンを所定の領域ごとに分割して凹凸度を算出すること
を特徴とする請求項13に記載のパターン抽出装置。 - 【請求項15】 前記部分パターンを所定の大きさのマ
スクで走査し、前記部分パターンが前記マスク内で占め
る割合が所定値以上の場合、前記マスク内の画素を全て
前記部分パターンとみなし、前記部分パターンが前記マ
スク内で占める割合が前記所定値より小さい場合、前記
マスク内には前記部分パターンがないものとみなすマス
ク処理手段をさらに備えることを特徴とする請求項13
または14に記載のパターン抽出装置。 - 【請求項16】 前記罫線で四方が囲まれた矩形領域を
セルとして抽出するセル領域抽出手段と、 前記罫線判別手段で判別された罫線から、セルを構成し
ない罫線を除外する罫線除外手段とをさらに備えること
を特徴とする請求項13〜15のいずれか1項に記載の
パターン抽出装置。 - 【請求項17】 前記凹凸度算出手段は、 前記罫線候補を前記セル単位ごとに分割して凹凸度を算
出することを特徴とする請求項16に記載のパターン抽
出装置。 - 【請求項18】 前記罫線候補抽出手段は、 ある行又は列の投影値に周囲の行又は列の投影値を足し
合わせた値が所定値以上の部分パターンを矩形線分とし
て検出する線分検出手段と、 所定の範囲内の複数の矩形線分を統合し、この統合され
た矩形線分を矩形近似することにより直線を検出する直
線検出手段とを備えることを特徴とする請求項13〜1
6のいずれか1項に記載のパターン抽出装置。 - 【請求項19】 前記凹凸度算出手段は、 前記直線検出手段で統合された矩形線分ごとに凹凸度を
算出することを特徴とする請求項18に記載のパターン
抽出装置。 - 【請求項20】 罫線候補の長さを算出する長さ算出手
段と、 罫線候補の長さを周辺の罫線候補の長さと比較する長さ
比較手段と、 罫線候補の長さが周辺の罫線候補と異なる部分について
の凹凸度を取得する凹凸度取得手段と、 罫線候補の長さが異なる部分についての凹凸度が所定値
以上の場合、長さが異なる部分については罫線でないと
みなす罫線削除手段とをさらに備えることを特徴とする
請求項13〜19のいずれか1項に記載のパターン抽出
装置。 - 【請求項21】 前記罫線で構成される帳票が規則的な
帳票か不規則な帳票かを判別する帳票判別手段と、 前記不規則な帳票の不規則性の原因となっている罫線の
一部について、凹凸度を算出する部分凹凸度算出手段と
をさらに備えることを特徴とする請求項13〜19のい
ずれか1項に記載のパターン抽出装置。 - 【請求項22】 パターンを入力するステップと、前記パターンのうちの探索開始点からの探索方向の変化
回数に基づいて凹凸度を算出する ステップと、 前記凹凸度としきい値に基づいて、前記パターンの属性
を判別するステップとを備えることを特徴とするパター
ン抽出方法。 - 【請求項23】 入力されたパターンの画素を所定方向
に探索するステップと、 前記所定方向に隣接画素が存在しない場合、斜め隣の画
素を探索するステップと、 斜め隣の画素を探索した回数を計数するステップと、 斜め隣の画素を探索した回数が所定値以下の場合、前記
パターンを罫線とみなすステップとを備えることを特徴
とするパターン抽出方法。 - 【請求項24】 入力された原画像データから連結した
画素で構成される部分パターンを抽出するステップと、 前記部分パターンから画素密度の高い矩形領域を罫線候
補として抽出するステップと、 前記矩形領域内の部分パターンを探索するステップと、 前記部分パターンの探索結果に基づいて、前記部分パタ
ーンの凹凸度を算出するステップと、 前記凹凸度が所定値以上の場合、前記部分パターンは罫
線を構成するものと判別するステップとを備えることを
特徴とするパターン抽出方法。 - 【請求項25】 パターンを入力する機能と、前記パターンのうちの探索開始点からの探索方向の変化
回数に基づいて凹凸度を算出する 機能と、 前記凹凸度としきい値に基づいて、前記パターンの属性
を判別する機能とをコンピュータに実行させるプログラ
ムを格納した前記コンピュータが読み取り可能な記憶媒
体。 - 【請求項26】 入力されたパターンの画素を所定方向
に探索する機能と、 前記所定方向に隣接画素が存在しない場合、斜め隣の画
素を探索する機能と、 斜め隣の画素を探索した回数を計数する機能と、 斜め隣の画素を探索した回数が所定値以下の場合、前記
パターンを罫線とみなす機能とをコンピュータに実行さ
せるプログラムを格納した前記コンピュータが読み取り
可能な記憶媒体。 - 【請求項27】 入力された原画像データから連結した
画素で構成される部分パターンを抽出する機能と、 前記部分パターンから画素密度の高い矩形領域を罫線候
補として抽出する機能と、 前記矩形領域内の部分パターンを探索する機能と、 前記部分パターンの探索結果に基づいて、前記部分パタ
ーンの凹凸度を算出する機能と、 前記凹凸度が所定値以上の場合、前記部分パターンは罫
線を構成するものと判別する機能とをコンピュータに実
行させるプログラムを格納した前記コンピュータが読み
取り可能な記憶媒体。
Priority Applications (4)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP14147097A JP3411472B2 (ja) | 1997-05-30 | 1997-05-30 | パターン抽出装置 |
| US09/021,540 US6434270B1 (en) | 1997-05-30 | 1998-02-10 | Pattern extraction apparatus |
| KR1019980007810A KR100315531B1 (ko) | 1997-05-30 | 1998-03-10 | 패턴추출장치 |
| CN98108863A CN1202670A (zh) | 1997-05-30 | 1998-05-20 | 模式提取装置 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP14147097A JP3411472B2 (ja) | 1997-05-30 | 1997-05-30 | パターン抽出装置 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH10334185A JPH10334185A (ja) | 1998-12-18 |
| JP3411472B2 true JP3411472B2 (ja) | 2003-06-03 |
Family
ID=15292642
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP14147097A Expired - Fee Related JP3411472B2 (ja) | 1997-05-30 | 1997-05-30 | パターン抽出装置 |
Country Status (4)
| Country | Link |
|---|---|
| US (1) | US6434270B1 (ja) |
| JP (1) | JP3411472B2 (ja) |
| KR (1) | KR100315531B1 (ja) |
| CN (1) | CN1202670A (ja) |
Families Citing this family (16)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP3574584B2 (ja) | 1998-12-16 | 2004-10-06 | 富士通株式会社 | 表画像処理装置及びそのプログラム記憶媒体 |
| FR2788873B1 (fr) * | 1999-01-22 | 2001-03-09 | Intermec Scanner Technology Ct | Procede et dispositif de detection de segments de droites dans un flot de donnees numeriques representatives d'une image, dans lequel sont identifies les points contours de ladite image |
| JP3204245B2 (ja) * | 1999-04-27 | 2001-09-04 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 罫線除去方法および装置 |
| JP4159720B2 (ja) * | 2000-03-15 | 2008-10-01 | 株式会社リコー | 表認識方法と表認識装置と文字認識装置及び表認識プログラムを記録した記憶媒体 |
| JP3925112B2 (ja) * | 2001-06-20 | 2007-06-06 | 富士ゼロックス株式会社 | 画像処理装置 |
| US20060036561A1 (en) * | 2002-09-27 | 2006-02-16 | Carnegie Mellon University | Pattern search algorithm for component layout |
| JP4071701B2 (ja) * | 2003-11-11 | 2008-04-02 | 富士通株式会社 | カラー画像の圧縮方法及びカラー画像圧縮装置 |
| US7752538B2 (en) * | 2006-07-26 | 2010-07-06 | Xerox Corporation | Graphical syntax analysis of tables through tree rewriting |
| US7777751B2 (en) * | 2006-11-27 | 2010-08-17 | Lsi Corporation | Tiled memory array for full search motion estimation |
| US8000535B2 (en) * | 2007-06-18 | 2011-08-16 | Sharp Laboratories Of America, Inc. | Methods and systems for refining text segmentation results |
| JP4491488B2 (ja) * | 2008-03-03 | 2010-06-30 | シャープ株式会社 | 画像処理装置、画像読取装置、画像データ出力処理装置、および画像処理方法 |
| JP5357612B2 (ja) * | 2009-04-13 | 2013-12-04 | 株式会社日立ソリューションズ | 下線除去装置 |
| JP5822865B2 (ja) * | 2013-04-25 | 2015-11-25 | 京セラドキュメントソリューションズ株式会社 | 画像処理装置、罫線判定方法、及び罫線判定プログラム |
| JP6903966B2 (ja) * | 2017-03-16 | 2021-07-14 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置、情報処理システム及びプログラム |
| WO2019021600A1 (ja) * | 2017-07-24 | 2019-01-31 | 京セラドキュメントソリューションズ株式会社 | 画像処理装置 |
| KR102226843B1 (ko) * | 2019-02-26 | 2021-03-12 | 주식회사 핀그램 | 오브젝트 검출 시스템 및 그 방법 |
Family Cites Families (21)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS56103773A (en) * | 1980-01-21 | 1981-08-19 | Agency Of Ind Science & Technol | Feature extracing system of binary pattern |
| JPS5930179A (ja) * | 1982-08-10 | 1984-02-17 | Agency Of Ind Science & Technol | パタ−ンの線分近似方式 |
| JPS5998283A (ja) * | 1982-11-27 | 1984-06-06 | Hitachi Ltd | パターン切出しおよび認識方法、ならびにそのシステム |
| GB2161006B (en) * | 1984-04-27 | 1988-02-10 | Canon Kk | Character recognition apparatus |
| US5109431A (en) * | 1988-09-22 | 1992-04-28 | Hitachi, Ltd. | Pattern discrimination method and apparatus using the same |
| JPH0772861B2 (ja) * | 1990-08-24 | 1995-08-02 | 富士ゼロックス株式会社 | プログラム作成装置 |
| US5590220A (en) * | 1992-08-12 | 1996-12-31 | International Business Machines Corporation | Bending point extraction method for optical character recognition system |
| JP2789971B2 (ja) * | 1992-10-27 | 1998-08-27 | 富士ゼロックス株式会社 | 表認識装置 |
| JP2951814B2 (ja) | 1993-02-25 | 1999-09-20 | 富士通株式会社 | 画像抽出方式 |
| US6005976A (en) * | 1993-02-25 | 1999-12-21 | Fujitsu Limited | Image extraction system for extracting patterns such as characters, graphics and symbols from image having frame formed by straight line portions |
| JP3258122B2 (ja) * | 1993-03-31 | 2002-02-18 | 株式会社東芝 | 画像処理装置 |
| JP3042945B2 (ja) | 1993-07-07 | 2000-05-22 | 富士通株式会社 | 画像抽出装置 |
| JPH07220194A (ja) | 1994-02-07 | 1995-08-18 | Fujitsu Ltd | 道路環境認識装置 |
| JP3298303B2 (ja) | 1994-05-31 | 2002-07-02 | 富士通株式会社 | 連結領域の抽出装置及び方法 |
| JP3368511B2 (ja) | 1994-08-11 | 2003-01-20 | 富士通株式会社 | 連結領域の抽出装置及び方法 |
| JP3358317B2 (ja) | 1994-09-19 | 2002-12-16 | 株式会社明電舎 | 屋外用絶縁高分子材料組成物 |
| JP3345224B2 (ja) * | 1995-03-06 | 2002-11-18 | 富士通株式会社 | パターン抽出装置、パターン再認識用テーブル作成装置及びパターン認識装置 |
| JP3586949B2 (ja) | 1995-11-16 | 2004-11-10 | 松下電器産業株式会社 | 帳票認識装置 |
| US5898795A (en) * | 1995-12-08 | 1999-04-27 | Ricoh Company, Ltd. | Character recognition method using a method for deleting ruled lines |
| JP3830998B2 (ja) * | 1995-12-28 | 2006-10-11 | 株式会社東芝 | 罫線除去方法及びこれを用いた文字認識装置 |
| US5848008A (en) * | 1997-09-25 | 1998-12-08 | Siemens Aktiengesellschaft | Floating bitline test mode with digitally controllable bitline equalizers |
-
1997
- 1997-05-30 JP JP14147097A patent/JP3411472B2/ja not_active Expired - Fee Related
-
1998
- 1998-02-10 US US09/021,540 patent/US6434270B1/en not_active Expired - Fee Related
- 1998-03-10 KR KR1019980007810A patent/KR100315531B1/ko not_active Expired - Fee Related
- 1998-05-20 CN CN98108863A patent/CN1202670A/zh active Pending
Non-Patent Citations (1)
| Title |
|---|
| GIM法による枠接触文字の高品位分離,電子情報通信学会技術研究報告,日本,1993年 7月 8日,第93巻第131号,pp.33−40 |
Also Published As
| Publication number | Publication date |
|---|---|
| KR100315531B1 (ko) | 2002-02-19 |
| CN1202670A (zh) | 1998-12-23 |
| KR19980086524A (ko) | 1998-12-05 |
| JPH10334185A (ja) | 1998-12-18 |
| US6434270B1 (en) | 2002-08-13 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| EP0854434B1 (en) | Ruled line extracting apparatus for extracting ruled line from normal document image and method thereof | |
| JP3904840B2 (ja) | 多値画像から罫線を抽出する罫線抽出装置 | |
| JP3411472B2 (ja) | パターン抽出装置 | |
| JP2951814B2 (ja) | 画像抽出方式 | |
| US20050238257A1 (en) | Form search apparatus and method | |
| JPH0950527A (ja) | 枠抽出装置及び矩形抽出装置 | |
| EP1296283A2 (en) | Half-tone dot elimination method and system thereof | |
| JPH1031716A (ja) | 文字行抽出方法および装置 | |
| JP2868134B2 (ja) | 画像処理方法及び装置 | |
| JP3607753B2 (ja) | 文書画像の領域分割方法および装置、並びに段組種類判別方法および装置 | |
| Nguyen et al. | Enhanced character segmentation for format-free Japanese text recognition | |
| JPH0721817B2 (ja) | 文書画像処理方法 | |
| JPH10154204A (ja) | パターン認識装置及びパターン認識方法 | |
| JP3642615B2 (ja) | パターン領域切り出し方式及びパターン抽出装置 | |
| JPH02116987A (ja) | 文字認識装置 | |
| JP3188580B2 (ja) | 文字切り出し回路、及び文字切り出し方法 | |
| JP3517077B2 (ja) | パターン抽出装置及びパターン領域の切り出し方法 | |
| JP2917427B2 (ja) | 図面読取装置 | |
| US7103220B2 (en) | Image processing apparatus, method and program, and storage medium | |
| JP2003317107A (ja) | 罫線抽出方法及び装置 | |
| JP3344062B2 (ja) | カタカナ手書き文字切り出し回路 | |
| JP3710164B2 (ja) | 画像処理装置及び方法 | |
| JP3565310B2 (ja) | 一般の文書画像から罫線を抽出する罫線抽出装置および方法 | |
| JPH08202822A (ja) | 文字切り出し装置、及び文字切り出し方法 | |
| JP2022019253A (ja) | 情報処理装置、情報処理方法及びプログラム |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20030311 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080320 Year of fee payment: 5 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090320 Year of fee payment: 6 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100320 Year of fee payment: 7 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100320 Year of fee payment: 7 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110320 Year of fee payment: 8 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110320 Year of fee payment: 8 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120320 Year of fee payment: 9 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130320 Year of fee payment: 10 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130320 Year of fee payment: 10 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140320 Year of fee payment: 11 |
|
| LAPS | Cancellation because of no payment of annual fees |