JP3517077B2 - パターン抽出装置及びパターン領域の切り出し方法 - Google Patents

パターン抽出装置及びパターン領域の切り出し方法

Info

Publication number
JP3517077B2
JP3517077B2 JP10998697A JP10998697A JP3517077B2 JP 3517077 B2 JP3517077 B2 JP 3517077B2 JP 10998697 A JP10998697 A JP 10998697A JP 10998697 A JP10998697 A JP 10998697A JP 3517077 B2 JP3517077 B2 JP 3517077B2
Authority
JP
Japan
Prior art keywords
pattern
straight line
frame
line
image data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP10998697A
Other languages
English (en)
Other versions
JPH1040334A (ja
Inventor
敦子 小原
聡 直井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP10998697A priority Critical patent/JP3517077B2/ja
Publication of JPH1040334A publication Critical patent/JPH1040334A/ja
Application granted granted Critical
Publication of JP3517077B2 publication Critical patent/JP3517077B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、パターン抽出装置
及びパターン領域切り出し方法に関し、手書き用文字認
識装置、印刷文字認識装置、図面認識装置等において、
文字や図形や記号などのパターンの範囲を示す枠や矩形
等を抽出する場合に適用して好適なものである。
【0002】
【従来の技術】近年、金融文書、ビジネス文書などの入
力周辺機器として、光学文字読み取り装置OCR(op
tical character reader)など
に代表される手書き文字認識装置の需要が増加してい
る。
【0003】従来の光学文字読み取り装置では、文字認
識を行う前に、入力された画像から文字パターンを1文
字ずつ切り出す文字の切り出し処理が行われる。光学文
字読み取り装置において、個々の文字の高い認識率を実
現するためには、認識の前処理である文字の切り出し処
理を正確に行うことが重要になる。
【0004】このため、従来の光学文字読み取り装置で
文字を読み取る場合、帳票などの文字の記入位置を予め
指定した文書(ドロップアウトカラーではなく黒枠など
の罫線と文字とが同じような色又は濃度で記入された文
書)に対し、指定された範囲内に文字を記入することに
より、高い認識率を実現するようにしていた。
【0005】ところが、従来の光学文字読み取り装置
は、指定範囲を示す罫線や枠に文字が接触したり、指定
範囲を示す罫線や枠から文字がはみ出したりした場合、
文字を正確に切り出すことが困難となり、文字の認識率
が低下するという問題があった。例えば、現在使用され
ている光学文字読み取り装置では、枠を除去する際、文
字枠のわずかな傾きや凹凸に対応することができず、文
字枠の位置や線幅の変動により本来の文字部分の所が欠
けてしまったり、枠が残存したりする。
【0006】これらの問題点に対応するため、本出願人
は、以前、例えば、特開平6−309498号公報や特
開平7−28937号公報に記載されているように、枠
の位置やサイズ等のフォーマット情報の入力を必要とせ
ずに、枠の抽出や除去を行うことが可能な技術を提案し
た。
【0007】ここで、特開平6−309498号公報や
特開平7−28937号公報に記載されている方法によ
り処理可能な帳票は、一文字枠、ブロック枠(横一行枠
またはフリーフォマット枠)、または枠の外形が矩形状
となっており横枠線が規則的に配置されている構造を持
つ表を有するものであった。
【0008】また、本出願人は、先願の特願平7−20
3259において、図45(a)に示すように、枠の外
形が矩形状となっており横枠線が規則的に配置されてい
る構造を持つ表211のほか、図45(b)に示すによ
うに、外形が矩形となっていない表212を有する帳票
や表212の一部分にさらに細かい表構造213(図4
5(b)の網かけ部分)を有する帳票、また点線と実線
とが混在している帳票などに対しても対応することが可
能な技術を提案した。
【0009】さらに、本出願人は、先願の特願平7−2
82171において、図46に示すように、点線215
と実線とが混在し、かすれ217のある線で構成される
表214を有する帳票、また矩形領域内の一部の領域に
存在する入れ子構造216を有する帳票などに対しても
対応することが可能な技術を提案した。
【0010】以下、先願の特願平7−282171の明
細書及び図面に記載されているパターン抽出装置の処理
の概要について説明する。まず、入力された画像にラベ
リングを行い、縦、横及び斜めの8方向のいずれかで繋
がっている8連結の部分パターンを連結パターンとして
抽出する。
【0011】次に、ラベリングにより抽出された連結パ
ターンに対してマスク処理を行うことにより、縦横線分
を細線化し、文字と枠の太さの差を減らす。ここで、マ
スク処理は、連結パターンに対し、画像全体に対して横
長、縦長の2種類のマスクによる走査を行って、パター
ンがマスク内において占める割合を算出し、その割合が
ある所定値より大きければそのマスク内を全てパターン
とみなし、また該所定値以下であれば、マスク内のパタ
ーンを削除することにより、縦横成分を抽出するもので
ある。
【0012】次に、マスク処理されたパターンを横方向
及び縦方向に複数に分割し、横方向及び縦方向に分割し
たそれぞれの範囲内でパターンの隣接投影値を算出し、
この隣接投影値に基づいて、ある一定の長さの線分又は
直線の一部を矩形近似により検出する。ここで、隣接投
影値とは、注目行又は注目列の投影値に周囲の行又は列
の投影値を足し合わせたものである。
【0013】次に、隣接投影法により求めた矩形線分の
うち、近隣の矩形線分同士を統合して長い直線とし、統
合して得られた直線を矩形近似し、横枠又は縦枠を構成
する直線の候補とする。
【0014】次に、矩形近似された横線または縦線の直
線の探索を行い、横線の場合は左右端、縦線の場合は上
下端を検出する。この際、かすれのある直線に対応する
ため、所定の長さ以下の空白は直線が存在するものとみ
なして、探索を行う。
【0015】次に、ある一定の間隔で並んでいる小さい
パターンを検出して点線を抽出し、この点線に対して上
述した直線と同様に矩形近似を行う。次に、探索により
求めた直線のうち、近隣の直線同士を再度統合してかす
れにより分離された直線の統合を行う。
【0016】次に、帳票が規則的な構造であるとわかっ
ている場合、かすれにより短くなった直線を伸長し、そ
のかすれにより短くなった直線を他の直線と長さと一致
させる。
【0017】次に、上述した処理により検出された横線
の中から、各行の横枠を構成している2本の横線の組を
決定する。これは、上から順番に横線を2本抽出し、抽
出した2本の横線の長さが同じ、又は下の直線の方が長
ければ、その2本を横線の組とする。そして、抽出した
2本の横線の長さが同じ、又は下の直線の方が長いこと
とすることができない場合に限り、下の直線の方が短く
ても組にする。
【0018】次に、上述した処理により検出された横線
の中から、横枠の2本組として決定された2本の横線に
上下とも達しているものを縦枠とする。次に、2本組の
横枠と、該2本組の横枠の上下に達している2本の縦枠
とで囲まれた矩形範囲を抽出する。
【0019】次に、上述した処理により決定された横枠
と縦枠によって4辺を囲まれた矩形範囲の内部がさらに
細かく分割されている場合、その矩形範囲を新たに表と
みなして上述した処理を繰り返すことにより、その矩形
範囲をさらに小さな矩形に分割する。
【0020】このように、従来の技術では、枠の形状に
関して、規則的な構造や不規則的な構造のいずれに対し
ても、矩形領域で構成されている表であれば処理可能で
あった。また、処理の対象とする罫線に関して、実線や
点線のいずれに対しても、かすれの有り無しにかかわら
ず、処理可能であった。また、規則的な構造であるとわ
かっている場合、かすれにより短くなった直線を伸長す
ることにより、かすれを補正することも行われていた。
【0021】
【発明が解決しようとする課題】しかしながら、従来の
パターン抽出装置は、図47に示すように、規則的な構
造を有する表220に対して、かすれにより短くなった
直線221、222を伸長することにより、かすれを補
正する際、図48に示すように、表220の傾きがない
ものとして、垂直方向に枠線の範囲223、224が生
成されるようになっていた。このため、かすれにより短
くなった直線221、222を伸長する際に、図48の
「5」の文字は枠線の範囲223に入ってしまい、文字
が枠を構成する直線の一部とみなされて、読み取りが不
可能になる文字が発生するという問題があった。
【0022】また、従来の直線統合処理は、図49
(a)に示すように、「富士山銀行」と書かれている文
字235が印刷の際につぶれてしまい、文字235と枠
236とが接触している場合、「富士山銀行」と書かれ
ている文字235が誤って直線234として抽出され、
この直線234が直線232のすぐ近くに存在するた
め、直線234は直線232と統合されるようになって
いた。このため、図49(b)に示すように、「富士山
銀行」と書かれている文字235が枠237とみなされ
るという問題があった。
【0023】また、従来のパターン抽出装置は、枠を抽
出する際に、投影や画像の探索など時間のかかる処理を
多く行っているため、特に、解像度の高い画像から枠を
抽出するには、多くの処理時間を必要とするという問題
があった。
【0024】そこで、本発明の第1の目的は、傾いてい
る画像にかすれが存在している場合においても、枠を正
確に抽出できるようにすることである。また、本発明の
第2の目的は、つぶれている画像から枠を正確に抽出で
きるようにすることである。
【0025】また、本発明の第3の目的は、解像度の高
い画像から枠の抽出処理を高速に行うことができるよう
にすることである。
【0026】
【課題を解決するための手段】上述した課題を解決する
ために、本発明によれば、入力された原画像データから
連結した画素で構成される部分パターンを抽出する連結
パターン抽出手段と、前記部分パターンから直線を抽出
する直線抽出手段と、原画像の傾きに基づいて、前記直
線のかすれを補正するかすれ補正手段と、前記かすれ補
正手段により補正された直線情報に基づいて、枠を抽出
する枠抽出手段と、前記枠抽出手段により抽出された枠
情報に基づいて、パターン領域を抽出するパターン領域
抽出手段とを備え、前記かすれ補正手段は、前記枠によ
り構成される表が規則的な構造かどうかを判定する規則
性判定手段と、前記表を構成する直線の傾きを検出する
傾き検出手段と、前記表が規則的な構造である場合、か
すれにより短くなった直線を前記直線の傾きを基準にし
て、短冊状の矩形により伸長する直線伸長手段とを備え
ている。
【0027】このことにより、傾いている画像にかすれ
が存在している場合においても、かすれを原画像の傾き
に対応させて補正することができ、枠抽出手段により枠
を正確に抽出できるので、この枠情報に基づいてパター
ン領域を正確に抽出することができる。
【0028】
【0029】しかも、かすれ補正手段が規則性判定手段
を備えることにより、規則的な表を構成する一部の直線
がかすれている場合、表の規則性に基づいて、かすれて
いる直線を他の直線と同じ長さまで伸長することによ
り、かすれが生じる前の元の表を正確に抽出することが
できる。
【0030】また、かすれ補正手段が傾き検出手段を備
えることにより、かすれている直線を原画像の傾きに対
応させて伸長することができ、直線として伸長された範
囲が文字領域に入ってしまい、その範囲の文字が直線と
みなされて、文字の読み取りが不可能になることを防止
できる。
【0031】また、本発明の一態様によれば、前記かす
れ補正手段は、前記直線伸長手段により直線を伸長する
場合、かすれずに残っている直線部分に関しては、その
直線部分をそのまま使用して直線を伸長する優先手段を
備えている。
【0032】このことにより、紙の歪みなどにより傾き
が均一でない箇所についてもかすれ補正処理を正確に行
うことができる。また、本発明の一態様によれば、前記
かすれ補正手段は、かすれずに残っている直線部分の幅
を検出する線幅手段をさらに備え、前記幅を基準にして
かすれにより短くなった直線を伸長する。
【0033】このことにより、かすれている直線を元の
画像に忠実に伸長することができる。また、本発明の一
態様によれば、前記枠により構成される表の構造上の規
則を認識する認識手段と、前記規則に応じて処理の内容
を変更する変更手段をさらに備えている。
【0034】このことにより、必要のない処理を省略す
ることができるため、処理時間を短縮することができ
る。また、本発明の一態様によれば、入力された原画像
データから連結した画素で構成される部分パターンを抽
出する連結パターン抽出手段と、前記部分パターンのつ
ぶれを補正するつぶれ補正手段と、前記部分パターンか
ら直線を抽出する直線抽出手段と、前記直線抽出手段に
より抽出された直線情報に基づいて、枠を抽出する枠抽
出手段と、前記枠抽出手段により抽出された枠情報に基
づいて、パターン領域を抽出するパターン領域抽出手段
とを備えている。
【0035】そして、前記つぶれ補正手段は、使用可能
な罫線パターンを予め登録しておく罫線パターン登録手
段と、前記部分パターンが前記罫線パターンに一致して
いるかどうかを判定する比較判定手段とを備え、前記直
線抽出手段は、前記比較判定手段で前記罫線パターンに
一致していると判定された部分パターンを、枠を構成す
る直線として抽出する。このことにより、画像につぶれ
が存在している場合においても、つぶれを補正すること
ができ、枠抽出手段により枠を正確に抽出できる。しか
も、つぶれが生じた文字パターンと罫線パターンとを区
別することが可能となることから、つぶれが生じた文字
パターンを罫線パターンとして誤って抽出することを防
止することができる。
【0036】
【0037】また、本発明の一態様によれば、前記直線
抽出手段は、ある行又は列の投影値に、周囲の行又は列
の投影値を足し合わせた値を、その行又は列の投影値と
する隣接投影法を用いて、前記部分パターンを構成する
複数の矩形線分を検出する線分検出手段と、前記線分検
出手段によって得られた複数の線分を統合し、この統合
された線分を矩形近似することにより直線を検出する直
線検出手段と、前記部分パターンが前記罫線パターンに
一致している場合、前記直線検出手段により検出された
直線のうち、縦方向の距離が所定の値以下の横線を統合
するとともに、横方向の距離が所定の値以下の縦線を統
合する直線統合手段とを備えている。
【0038】このことにより、つぶれが生じた文字パタ
ーンが罫線パターンと統合され、つぶれが生じた文字パ
ターンが枠とみなされることを防止することができる。
【0039】
【0040】
【0041】
【0042】また、本発明の位置態様によれば、入力さ
れた原画像データを圧縮画像データに変換する画像圧縮
手段と、前記圧縮画像データに基づいて直線抽出処理を
行う直線抽出手段と、前記圧縮画像データの直線情報に
基づいて枠の抽出処理を行う枠抽出手段と、前記圧縮画
像データの枠情報に基づいて、前記原画像データからパ
ターン領域を抽出するパターン領域抽出手段とを備え、
前記パターン領域抽出手段は、前記圧縮画像データにお
ける枠線の内側を文字領域として設定する文字領域設定
手段と、前記圧縮画像データにおける前記文字領域を前
記原画像データにおける文字領域に変換することで前記
パターン領域を抽出する文字領域変換手段と、前記文字
領域変換手段により求めた文字領域の範囲において、文
字が接触している枠の投影処理を原画像データを用いて
行うことにより、文字の補完処理を行う文字補完手段と
を備えている。
【0043】このことにより、枠は文字に比べて単純な
ドット配列から構成され、データ圧縮を行っても枠とし
ての特性は文字に比べて消失しにくいので、原画像デー
タにおける枠情報を消失させることなく、原画像データ
の情報量を減らすことが可能となり、パターン領域を抽
出する際の処理時間や処理に必要な資源を減らすことが
できる。しかも、パターン領域抽出手段が文字領域設定
手段を備えていることにより、枠情報に基づいて、文字
領域を高速に抽出することができる。また、パターン領
域抽出手段が文字領域変換手段を備えていることによ
り、圧縮画像データにおける文字領域に基づいて、原画
像データにおける文字領域を高速に抽出することができ
る。更に、パターン領域抽出手段が文字補完手段を備え
ていることにより、圧縮画像データを用いて文字領域を
高速に抽出した後、源画像データを用いて文字の補完処
理を正確に行うことができる。
【0044】また、本発明の一態様によれば、入力され
た原画像データを圧縮画像データに変換する画像圧縮手
段と、前記圧縮画像データに基づいて直線抽出処理を行
う直線抽出手段と、前記圧縮画像データに基づいて点線
抽出処理を行う点線抽出手段と、前記圧縮画像データの
直線情報又は点線情報に基づいて枠の抽出処理を行う枠
抽出手段と、前記圧縮画像データの枠情報に基づいて、
前記原画像データからパターン領域を抽出するパターン
領域抽出手段とを備え、前記パターン領域抽出手段は、
前記圧縮画像データにおける枠線の内側を文字領域とし
て設定する文字領域設定手段と、前記圧縮画像データに
おける前記文字領域を前記原画像データにおける文字領
域に変換することで前記パターン領域を抽出する文字領
域変換手段と、前記文字領域変換手段により求めた文字
領域の範囲において、文字が接触している枠の投影処理
を原画像データを用いて行うことにより、文字の補完処
理を行う文字補完手段とを備えている。
【0045】このことにより、実線罫線と点線罫線とが
混在している原画像データの情報量を減らしてからパタ
ーン領域を抽出することが可能となり、パターン領域を
抽出する際の処理時間や処理に必要な資源を減らすこと
ができる。しかも、パターン領域抽出手段が文字領域設
定手段を備えていることにより、枠情報に基づいて、文
字領域を高速に抽出することができる。また、パターン
領域抽出手段が文字領域変換手段を備えていることによ
り、圧縮画像データにおける文字領域に基づいて、原画
像データにおける文字領域を高速に抽出することができ
る。更に、パターン領域抽出手段が文字補完手段を備え
ていることにより、圧縮画像データを用いて文字領域を
高速に抽出した後、源画像データを用いて文字の補完処
理を正確に行うことができる。
【0046】また、本発明の一態様によれば、前記パタ
ーン領域抽出手段は、前記圧縮画像データの枠情報に基
づいて、前記原画像データにおける枠情報を算出し、前
記原画像データにおける枠情報に基づいて、前記原画像
データからパターン領域を抽出する。
【0047】このことにより、パターン領域を抽出する
際は、原画像データの情報量を減らしてから処理を行う
ことが可能となるとともに、パターン領域を抽出した後
に行われる文字認識処理においては、原画像データを用
いて処理を正確に行うことが可能となり、文字認識処理
の精度を損なうことなく処理を高速化することができ
る。
【0048】
【0049】また、本発明の一態様によれば、前記パタ
ーン領域抽出手段は、枠線の内側を枠に沿って探索する
ことにより、文字が枠に接触しているかどうかの判定を
行う接触文字判定手段を備えている。
【0050】このことにより、枠に接触している文字を
正確に見つけることができる。また、本発明の一態様に
よれば、前記パターン領域抽出手段は、文字の接触して
いる辺に関して、前記文字領域を所定の距離だけ外側に
拡大する文字領域拡大手段を備えている。
【0051】このことにより、文字の枠からのはみ出し
に対応して、枠に接触している文字の文字領域を外側に
広げることが可能となることから、枠に接触している文
字の文字領域を正確に切りだすことができる。
【0052】
【0053】
【0054】
【0055】
【発明の実施の形態】以下、本発明の第1実施例による
パターン抽出装置の機能的な構成を、図面を参照しなが
ら説明する。
【0056】図1は、本発明の第1実施例によるパター
ン抽出装置の機能構成を示すブロック図である。この第
1実施例によるパターン抽出装置は、規則的な表を構成
する直線の一部がかすれている場合、表の傾きに基づい
て、かすれている直線を他の直線と同じ長さまで伸長
し、その直線により構成される枠に基づいてパターン領
域を抽出するようにしたものである。
【0057】図1において、1は入力された原画像デー
タから連結した画素で構成される部分パターンを抽出す
る連結パターン抽出手段、2は連結パターン抽出手段1
で抽出した部分パターンから直線を抽出する直線抽出手
段、3は原画像の傾きに基づいて、直線のかすれを補正
するかすれ補正手段、4はかすれ補正手段3により補正
された直線情報に基づいて、枠を抽出する枠抽出手段、
5は枠抽出手段4により抽出された枠情報に基づいて、
文字やイメージなどのパターン領域を抽出するパターン
領域抽出手段である。
【0058】かすれ補正手段3は、原画像の傾きに対応
させてかすれを補正することにより、傾いている画像に
かすれが存在している場合においても、枠抽出手段4が
原画像の枠を正確に抽出することが可能となるようにし
ている。
【0059】図2は、図1のかすれ補正手段3の実施例
を示すブロック図である。図2において、11は枠によ
り構成される表が規則的な構造かどうかを判定する規則
性判定手段、12は表を構成する直線の傾きを検出する
傾き検出手段、13はかすれずに残っている直線部分の
幅を検出する線幅手段、14は規則性判定手段11によ
り表が規則的な構造であると判定された場合、かすれず
に残っている直線の傾きを基準にして、線幅手段13で
検出された幅に基づいて、かすれにより短くなった直線
を短冊状の矩形で伸長する直線伸長手段、15はかすれ
ずに残っている直線部分に関しては、その直線部分をそ
のまま使用して直線を伸長する優先手段である。
【0060】規則性判定手段11は表が規則的な構造か
どうかを判定し、規則的な表を構成する一部の直線がか
すれている場合、かすれている直線を他の直線と同じ長
さまで伸長することにより、かすれが生じる前の元の表
を正確に抽出するようにしている。また、傾き検出手段
12は直線の傾きを検出し、かすれている直線をかすれ
ずに残っている直線の傾きに対応させて伸長することに
より、直線として伸長された範囲が文字領域に入ってし
まい、その文字領域に存在する文字が直線とみなされ
て、文字の読み取りが不可能になることを防止してい
る。
【0061】次に、本発明の第2実施例によるパターン
抽出装置の機能的な構成を、図面を参照しながら説明す
る。図3は、本発明の第2実施例によるパターン抽出装
置の機能構成を示すブロック図である。この第2実施例
によるパターン抽出装置は、枠を構成する直線として、
予め登録してある罫線パターンと一致する直線を抽出
し、その直線により構成される枠に基づいてパターン領
域を抽出するようにしたものである。
【0062】図3において、21は入力された原画像デ
ータから連結した画素で構成される部分パターンを抽出
する連結パターン抽出手段、22は連結パターン抽出手
段21により抽出された部分パターンのつぶれを補正す
るつぶれ補正手段、23はつぶれの補正された部分パタ
ーンから直線を抽出する直線抽出手段、24は直線抽出
手段23により抽出された直線情報に基づいて、枠を抽
出する枠抽出手段、25は枠抽出手段24により抽出さ
れた枠情報に基づいて、パターン領域を抽出するパター
ン領域抽出手段である。
【0063】つぶれ補正手段22は部分パターンのつぶ
れを補正することにより、画像につぶれが存在している
場合においても、枠抽出手段24は枠を正確に抽出でき
るようにしている。
【0064】図4は、図3のつぶれ補正手段22の実施
例を示すブロック図である。図4において、26は使用
可能な罫線パターンを予め登録しておく罫線パターン登
録手段、27は連結パターン抽出手段21により抽出さ
れた部分パターンが罫線パターンに一致しているかどう
かを判定する比較判定手段、28は部分パターンが罫線
パターン登録手段26に登録されている罫線パターンに
一致している場合、縦方向の距離が所定の値以下の横線
を統合するとともに、横方向の距離が所定の値以下の縦
線を統合する直線統合手段である。
【0065】罫線パターン登録手段26に使用可能な罫
線パターンを予め登録しておき、比較判定手段27で抽
出された部分パターンと登録されている罫線パターンと
の比較を行うことにより、つぶれが生じた文字パターン
を罫線パターンとして誤って抽出することを防止し、つ
ぶれが生じた文字パターンが罫線パターンと統合され、
つぶれが生じた文字パターンが枠とみなされることを防
止するようにしている。
【0066】次に、本発明の第3実施例によるパターン
抽出装置の機能的な構成を、図面を参照しながら説明す
る。図5は、本発明の第3実施例によるパターン抽出装
置の機能構成を示すブロック図である。この第3実施例
によるパターン抽出装置は、原画像データを圧縮した圧
縮画像データからパターン領域を抽出し、その圧縮画像
データから抽出したパターン領域を原画像データのパタ
ーン領域に変換することにより、原画像データからパタ
ーン領域を抽出するようにしたものである。
【0067】図5において、31は入力された原画像デ
ータを圧縮画像データに変換する画像圧縮手段、32は
圧縮画像データに基づいて直線抽出処理を行う直線抽出
手段、33は圧縮画像データの直線情報に基づいて枠の
抽出処理を行う枠抽出手段、34は圧縮画像データの枠
情報に基づいて、パターン領域を抽出するパターン領域
抽出手段である。
【0068】画像圧縮手段31は、原画像からパターン
領域を抽出する際に、原画像データを圧縮画像データに
変換することにより、原画像データの情報量を減らすよ
うにして、処理時間や処理に必要な資源を減らせるよう
にしている。ここで、枠は文字に比べて比較的単純なド
ット配列により構成されるため、原画像データの圧縮を
行っても、枠としての特性を圧縮画像データに保ったま
まにすることが可能であることから、圧縮画像データに
基づいて枠の抽出処理を行っても、枠の抽出精度を保持
することが可能である。
【0069】図6は、図5のパターン領域抽出手段34
の実施例を示すブロック図である。図6において、41
は枠線の内側を文字領域として設定する文字領域設定手
段、42は枠線の内側を枠に沿って探索することによ
り、文字が枠に接触しているかどうかの判定を行う接触
文字判定手段、43は文字の接触している辺に関して、
文字領域を所定の距離だけ外側に拡大する文字領域拡大
手段、44は圧縮画像データにおける文字領域を原画像
データにおける文字領域に変換する文字領域変換手段、
45は文字領域変換手段44により求めた文字領域の範
囲において、文字が接触している枠の投影処理を行うこ
とにより、文字の補完処理を原画像データを用いて行う
文字補完手段である。
【0070】文字領域設定手段41は枠線の内側を文字
領域として設定することにより、枠情報に基づいて文字
領域を抽出し、接触文字判定手段42は枠線の内側を枠
に沿って探索することにより、文字が枠に接触している
かどうかの判定を行う。そして、文字が枠に接触してい
ない場合、文字領域設定手段41により設定された文字
領域に存在する文字に対して認識処理を行う。また、文
字領域設定手段41により設定された文字領域におい
て、文字が枠に接触している場合、文字領域拡大手段4
3はその文字領域を所定の距離だけ外側に拡大してか
ら、圧縮画像データにおける文字領域を原画像データに
おける文字領域に変換し、原画像データにおける文字領
域の範囲において、文字の補完処理を行うようにしてい
る。
【0071】次に、本発明の一実施例によるパターン抽
出装置の構成について図面を参照しながら説明する。図
7は、本発明の一実施例によるパターン抽出装置の機能
構成を示すブロック図である。
【0072】図7において、51は原画像による入力パ
ターン、52は原画像の圧縮処理を行う縮小処理部、5
3は連結した画素で構成される部分パターンをラベリン
グにより抽出する連結パターン抽出部、54は細線化処
理を行うマスク処理部、55は横直線の抽出を行う横直
線抽出部、56は横方向に隣接投影を行う横隣接投影
部、57は隣接投影に基づいて横線分を検出する横線分
検出部、58は横線分検出部57で求めた横線分を統合
する横線分統合部、59は統合した横線分を矩形近似し
て横直線を検出する横直線検出部、60は横直線の探索
を行う横直線探索部、61は横点線の検出を行う横点線
検出部、62は探索後の横直線を統合する横直線統合
部、63は縦直線の抽出を行う縦直線抽出部、64は縦
方向に隣接投影を行う縦隣接投影部、65は隣接投影に
基づいて縦線分を検出する縦線分検出部、66は縦線分
検出部65で求めた縦線分を統合する縦線分統合部、6
7は統合した縦線分を矩形近似して縦直線を検出する縦
直線検出部、68は縦直線の探索を行う縦直線探索部、
69は縦点線の検出を行う縦点線検出部、70は探索後
の縦直線を統合する縦直線統合部、71は規則的な表に
ついてのかすれている直線の伸長を行う直線伸長部、7
2は抽出された横直線から横枠を決定する横枠決定部、
73は抽出された縦直線から縦枠を決定する縦枠決定
部、74は入れ子構造の矩形範囲を抽出する入れ子構造
処理部、75は矩形内の横枠決定部、76は矩形内の縦
枠決定部、77は横枠及び縦枠から矩形範囲を求める矩
形表現部、78は圧縮画像データから抽出した文字領域
を原画像データの文字領域に変換することにより、原画
像データの文字領域を算出する文字領域算出部、79は
原画像を用いて文字の補完処理を行う文字補完処理部、
80は抽出された文字領域において文字の認識を行う文
字認識部である。
【0073】図8は、図7のパターン抽出装置が適用さ
れる文字認識システムの構成を示すブロック図である。
図8において、81は様々な処理を行う中央演算処理ユ
ニット(CPU)、82はCPU81で実行されるプロ
グラムが格納されているプログラムメモリ、83は画像
データをビットマップ形式で格納する画像メモリ、84
は画像処理に使用するワークメモリ、85は画像を光学
的に読み取るスキャナ、86はスキャナ85により読み
取られた情報を一時的に格納するメモリ、87は各文字
画像の特徴を格納した辞書ファイル、88は認識結果を
表示するディスプレイ、89は認識結果を印刷するプリ
ンタ、90はディスプレイ88及びプリンタ89のイン
ターフェイス回路、91はCPU81、プログラムメモ
リ82、画像メモリ83、ワークメモリ84、メモリ8
6、辞書ファイル87、インターフェイス回路90及び
ドライバ92を接続しているバス、92はハードディス
ク、93はICメモリカード、94は磁気デープ、95
はフロッピーディスク、96はCD−ROMなどの光デ
ィスク、97はドライバである。
【0074】この文字認識システムは、スキャナ85に
より読み取った画像データをメモリ86に一時的に格納
し、その画像データをビットマップ形式で画像メモリ8
3に展開する。そして、画像メモリ83からワークメモ
リ84にコピーされた2値画像データに対してパターン
抽出処理を行う。その結果に基づいて、スキャナ85に
より読み取った画像データから文字画像の切り出しを行
い、切り出された文字画像の特徴と辞書ファイル87に
格納された特徴データとの比較を行い、文字の認識を行
う。その後、その認識結果を、ディスプレイ88又はプ
リンタ89に出力する。
【0075】この文字認識システムにおいて、図7のパ
ターン抽出装置は、プログラムメモリ82などの記憶媒
体に格納されたプログラムに従って処理を行うCPU8
1の機能として実現される。すなわち、画像処理を行う
プログラムがプログラムメモリ82、ハードディスク9
2、ICメモリカード93、磁気デープ94、フロッピ
ーディスク95まはた光ディスク96などの記憶媒体に
格納され、これらの記憶媒体に格納されているプログラ
ムを起動してCPU81を動作させることにより、入力
画像のかすれ補正を行ったり、傾きの検出を行ったり、
つぶれ補正を行ったりする。
【0076】次に、本発明の一実施例によるパターン抽
出装置の動作について図面を参照しながら説明する。こ
の実施例は、かすれの有無にかかわらず、また、実線と
点線とが混在する表であっても、矩形範囲で構成されて
いれば、枠の抽出が可能なもである。以下の例では、枠
が単数又は複数個あり、また、そのサイズや位置や傾き
が分からない枠に対し、その枠に接触している文字やそ
の枠からはみだしている文字が書かれている場合につい
ての処理を述べる。
【0077】図7において、原画像の入力パターン51
が縮小処理部52に入力される。この入力パターン51
は、極端な傾きや回転の補正処理を行った2値画像であ
る。縮小処理部52は、原画像の解像度及び大きさが所
定の値より大きい場合、原画像の画像圧縮処理を行う。
この画像圧縮処理には、例えば、OR処理やAND処理
が用いられる。OR処理は、例えば、原画像の2×2画
素を1画素に圧縮する場合、図9(a)〜(d)に示す
ように、原画像の2×2画素の中に少なくとも1つの黒
画素があれば、原画像の2×2画素を1つの黒画素に変
換し、図9(e)に示すように、原画像の2×2画素の
全てが白画素であれば、原画像の2×2画素を1つの白
画素に変換する。
【0078】図10は、縮小処理部52のOR処理によ
る動作を示すフローチャートである。この例では、縮小
率を1/nとしている。また、画像の各画素に対応して
座標が設定され、画像の横方向にX座標、画像の縦方向
にY座標を設定し、X座標は右向きに増加し、Y座標は
下向きに増加するものとしている。
【0079】図10において、まず、ステップS1に示
すように、原画像を入力する。次に、ステップS2に示
すように、原画像の左上から横n画素×縦n画素の範囲
(左上座標(1,1)、右下座標(X,Y))を設定す
る。
【0080】次に、ステップS3に示すように、設定さ
れた原画像の範囲内に黒画素があるかどうかを判断し、
原画像の範囲内に黒画素がある場合、ステップS4に進
み、縮小画像の座標(X/n,Y/n)の画素を黒画素
とし、原画像の範囲内に黒画素がない場合、ステップS
5に進み、縮小画像の座標(X/n,Y/n)の画素を
白画素とする。
【0081】次に、ステップS6に示すように、原画像
の右下まで処理が終了したかどうかを判断し、原画像の
右下まで処理が終了していない場合、ステップS7に進
み、原画像の右端に達したかどうかを判断する。そし
て、原画像の右端に達していない場合、処理した範囲の
右隣に横n画素×縦n画素の範囲(左上座標(x,
y)、右下座標(X,Y))を設定し(ステップS
8)、原画像の右端に達した場合、処理した範囲の下側
で、かつ、原画像の左端から横n画素×縦n画素の範囲
(左上座標(x,y)、右下座標(X,Y))を設定し
て(ステップS9)、ステップS3に戻り、原画像の全
ての範囲内について縮小処理が終了するまで以上の処理
を繰り返す。
【0082】連結パターン抽出部53は、複数の枠が配
置される位置の相対的な関係に依存することなく、各パ
ターンを安定に抽出するために、縦、横及び斜めの8方
向のいずれかで繋がっている8連結の部分パターンを、
ラベリングにより連結パターンとして抽出する。
【0083】このラベリングにより得られる部分パター
ンは、文字が接触していない枠或いは枠の一部、文字が
接触している枠或いは枠の一部、枠に接触していない文
字或いは文字の一部、または枠に接触している文字のい
ずれかである。そして、これらの部分パターンを判別
し、所定のサイズより大きな連結パターンの集合を表の
候補として抽出する。
【0084】すなわち、連結パターン抽出部53により
抽出された部分パターンのうち、一定以上の大きさを有
する第1の部分パターンを表の候補とする。そして、第
1の部分パターンに対して所定の位置に存在し、且つ所
定のサイズより大きな第2の部分パターンのラベルを第
1の部分パターンのラベルと同一になるように変更し、
この第2の部分パターンを表の候補に追加する。
【0085】このラベルの付け替え処理は、本来枠を構
成するパターンが、かすれにより分離したため、これら
のパターンに異なるラベルが付され、別々のパターンと
して処理されることを防止するためのものである。
【0086】なお、ラベリングで得られた部分パターン
のサイズが後に必要になるので、部分パターンを矩形近
似して得られる矩形の角の座標をラベリングの処理中に
算出しておく。
【0087】図11は、連結パターン抽出部53の動作
の一例を示す図である。連結パターン抽出部53は、図
11(a)に示す画像の入力パターンに対しラベリング
を行い、8連結で繋がっている各部分パターンにラベル
1〜8を付す。「8連結」のパターンとは、縦、横、斜
めの8方向において特定画素に関してその隣接画素が存
在するとき繋がっているとし、存在しないとき繋がって
いないとすることにより形成された一続き(連結)のパ
ターンを言う。図11(a)において、入力パターンは
かすれを有する枠とこの枠内に書かれた「1」、
「1」、「2」、「3」、「8」、「4」、「5」の数
字からなる。ここで、外枠にはラベル1が付され、最初
の「1」の数字にはラベル2が付され、次の「1」の数
字にはラベル3が付され、「2」の数字にはラベル4が
付され、「3」の数字にはラベル5が付され、「8」の
数字にはラベル7が付され、「4」の数字にはラベル8
が付される。また、かすれにより分離している枠の一部
を構成する横線にはラベル6が付され、「5」の数字は
外枠に接触しているので外枠と同一のラベル1が付され
る。
【0088】次に、図11(b)に示すように、ラベル
1が付された部分パターンに対して所定の位置に存在
し、且つ所定のサイズより大きなラベル6が付された部
分パターンのラベルをラベル1に変更する。
【0089】このことにより、本来枠を構成するにもか
かわらず、かすれにより枠と分離して異なるラベルが付
された部分パターンを枠を構成するラベルと同一となる
ように変更することができ、本来枠を構成するラベル6
が付された部分パターンを表の候補として取り扱うこと
が可能となる。
【0090】図12は、連結パターン抽出部53の動作
を示すフローチャートである。図12において、まず、
ステップS11に示すように、連結パターン抽出部53
のラベリング処理により、8連結で繋がっている部分パ
ターンを抽出し、各部分パターンに異なるるラベルを付
す。
【0091】次に、ステップS12に示すように、連結
パターン抽出部53により抽出された部分パターンのう
ち、一定以上の大きさを有する第1の部分パターン
(A)を枠の候補とする。
【0092】次に、ステップS13に示すように、所定
のサイズより大きな第2の部分パターン(B)であっ
て、第2の部分パターン(B)の外接矩形の右辺XRb
が第1の部分パターン(A)の外接矩形の右辺XRaと
が重なっているか又は第2の部分パターン(B)の外接
矩形の右辺XRbが第1の部分パターン(A)の外接矩
形の右辺XRaより左側にあり、且つ第2の部分パター
ン(B)の外接矩形の左辺XLbが第1の部分パターン
(A)の外接矩形の左辺XLaとが重なっているか又は
第2の部分パターン(B)の外接矩形の左辺XRbが第
1の部分パターン(A)の外接矩形の左辺XRaより右
側にあり、且つ第2の部分パターン(B)の外接矩形の
上辺YUPbが第1の部分パターン(A)の外接矩形の
上辺XUPaとが重なっているか又は第2の部分パター
ン(B)の外接矩形の上辺XUPbが第1の部分パター
ン(A)の外接矩形の上辺XUPaより下側にあり、且
つ第2の部分パターン(B)の外接矩形の下辺YBLb
が第1の部分パターン(A)の外接矩形の下辺XBLa
とが重なっているか又は第2の部分パターン(B)の外
接矩形の下辺XBLbが第1の部分パターン(A)の外
接矩形の下辺XBLaより上側にあるものを検出する。
【0093】次に、ステップS14に示すように、ステ
ップS13で検出された第2の部分パターン(B)のラ
ベルを第1の部分パターン(A)のラベルと同一にす
る。例えば、図13(a)に示すように、第2の部分パ
ターン(B)の外接矩形93は第1の部分パターン
(A)の外接矩形92に囲まれており、ステップS13
の条件を満たすので、第2の部分パターン(B)のラベ
ルを第1の部分パターン(A)のラベルと同一にする。
【0094】また、図13(b)に示すように、第2の
部分パターン(B)の外接矩形95は第1の部分パター
ン(A)の外接矩形94からはみ出しており、ステップ
S13の条件を満たさないので、第2の部分パターン
(B)のラベルの付け替えを行わないようにする。
【0095】マスク処理部54は、連結パターン抽出部
53で抽出されたある一定の大きさを有する第1の連結
パターン及び第1の連結パターンと同一ラベルに変更さ
れた第2の連結パターンに対し、画像から極端な斜め成
分を省き、枠だけに存在する長い直線の抽出を容易にす
るための処理を行う。
【0096】例えば、図14(a)に示すように、同一
のラベル1を付された部分パターンには、枠に接触して
いる数字の「5」などの枠を構成しないパターンも含ま
れている。このため、この部分パターンから枠を構成し
ないパターンをできる限り取り除き、枠だけに存在する
長い直線のみを残すようにする。このことにより、図1
4(b)に示すように、斜め成分が除去され線幅が均一
化されたパターン96が得ることができ、枠の抽出を容
易にすることができる。
【0097】具体的には、画像全体に対して横長、縦長
の2種類のマスクによる走査を行う。そして、マスク内
においてパターンが占める割合を算出し、その割合があ
る所定値より大きければそのマスク内を全てパターンと
みなし、また該所定値以下であれば、マスク内のパター
ンを削除することにより、縦横成分を抽出する。
【0098】そして、複数の行または列が続いて、前記
の割合が所定値より大きくなった場合、それらをまとめ
て矩形範囲をつくり、その中心線を処理結果とする。ま
た、該マスク処理の結果得られる線分どうしの隙間が開
かないようにするために、マスク処理を行う範囲が互い
に重なりを持つように設定する。なお、原画像はマスク
処理画像とは別に記憶しておく。
【0099】例えば、縦×横が1×6画素の矩形範囲を
指定するマスクにより横成分を抽出する場合、図15に
示すようにして原画像の処理が行われる。図15(a)
は、互いに重なり合ったマスク「1」〜「9」を示し、
図15(b)の原画像に対してこれらのマスクを用いて
マスク処理を行うことにより、図15(c)において黒
丸で示された横成分の画素が抽出され、斜め成分を除去
するとともに線幅を均一化することが可能となる。
【0100】図16は、マスク処理部54の動作を示す
フローチャートである。同図において、まず、ステップ
S21に示すように、連結パターン抽出部53で得られ
た部分パターンの原画像全体に対して、横長及び縦長の
2種類のマスクで走査を行う。
【0101】次に、ステップS22に示すように、マス
ク内のパターンの占める割合、すなわち、マスクの面積
に対するマスク内のパターンの面積を算出し、この割合
が、所定値より大きいかどうかの判断を行う。そして、
マスク内のパターンの占める割合が所定値より小さいと
判断された場合、ステップS23に進み縦成分又は横成
分がないとして処理を終了する。
【0102】一方、ステップS22でマスク内のパター
ンの占める割合が所定値より大きいと判断された場合、
ステップS24に進み、マスク内を全てパターンとみな
し、該パターンを、全て、縦成分又は横成分とする。
【0103】次に、ステップS25に示すように、ステ
ップS24で得られた成分が、上下の成分又は左右の成
分と接しているかどうかの判断を行う。そして、上下の
成分又は左右の成分と接していないと判断された場合、
ステップS26に進み、ステップS24で得られた成分
を処理結果として出力する。
【0104】一方、ステップS25で上下の成分又は左
右の成分と接していると判断された場合、ステップS2
7に進み、互いに接している成分を統合する。そして、
ステップS28において、ステップS27で統合した成
分から矩形範囲を作成し、ステップS29において、ス
テップS28得られた矩形範囲の中心線を処理結果とし
て出力する。
【0105】横隣接投影部56及び縦隣接投影部64
は、マスク処理されたパターンを横方向及び縦方向に複
数に分割し、横方向及び縦方向に分割したそれぞれの範
囲内でパターンの隣接投影を算出し、ある一定の長さの
線分又は直線の一部を矩形近似により検出する。ここ
で、隣接投影とは、注目行又は注目列の投影値に周囲の
行又は列の投影値を足し合わせたものである。また、注
目行又は注目列の投影値は、その行又は列に存在する黒
画素の総和をとったものである。この隣接投影により、
直線が傾いていて複数の行又は複数の列に渡ってその直
線が存在している場合においても、直線を正確に検出す
ることができる。従って、隣接投影を用いることによ
り、ブロック枠などの大きな枠を検出する場合、その枠
が傾いていても、枠を構成する直線を検出することが可
能となる。
【0106】すなわち、図17において、i行の投影値
をp(i)とすると、隣接投影値P(i)は、(1)式
により算出することができる。 P(i)=p(i−j)+・・・+p(i)+・・・+p(i+j)(1) なお、図17に示す例は、(1)式においてj=1とお
いたものである。
【0107】例えば、i−1行目には黒画素が9個だけ
存在しているので、p(i−1)=9、i行目には黒画
素が6個だけ存在しているので、p(i)=6、i+1
行目には黒画素が6個だけ存在しているので、p(i+
1)=6となり、P(i)=p(i−1)+p(i)+
p(i+1)=21となる。
【0108】図18は、部分パターンの投影値の例を示
す図である。図18において、縦方向の長さがLY 、横
方向の長さがLX の矩形96の水平方向jの投影値Ph
(i)をHP(i)、矩形96の垂直方向iの投影値P
v(j)をVP(j)とすると、HP(1)=HP
(n)=m、HP(2)〜HP(n−1)=2、VP
(1)=VP(m)=n、VP(2)〜VP(m−1)
=2である。
【0109】このように、枠96を構成する直線が存在
している部分は、その投影値が大きくなるので、この投
影値を算出することにより、枠を構成している直線を抽
出することができる。
【0110】図19は、横隣接投影部56及び縦隣接投
影部64の動作を示すフローチャートである。図19に
おいて、まず、ステップS31に示すように、マスク処
理部54で得られた同一のラベルを有する部分パターン
を横方向及び縦方向に複数の部分に分割する。次に、ス
テップS32に示すように、横方向及び縦方向のそれぞ
れの分割範囲内で投影値を算出する。
【0111】次に、ステップS33において、ステップ
S32で算出されたそれぞれの投影値に周囲の投影値を
加算する。次に、ステップS34で、(1)式に基づい
て、隣接投影値P(i)を算出する。
【0112】横線分検出部57及び縦線分検出部65
は、部分パターンのマスク処理画像に対する隣接投影値
に基づいて、横方向及び縦方向におけるある一定長さの
線分又は直線の一部を、矩形近似により検出する。
【0113】すなわち、横隣接投影部56及び縦隣接投
影部64で算出された隣接投影値と縦横それぞれの分割
長との比が所定の閾値以上である部分を直線の候補が存
在する位置とする。また、連続する複数の行又は列が所
定の閾値値以上となった場合は、それらの連続する複数
の行又は列をまとめた矩形範囲を直線の候補が存在する
位置とする。なお、この矩形近似により検出した一定の
長さの線分又は直線の一部を、以後「矩形線分」と呼
ぶ。この線分検出処理により、例えば、図20(a)に
示すような斜めに傾いた横線101から、図20(b)
に示す横方向に分割された3つの矩形線分102が得ら
れる。
【0114】ここで、隣接投影法ではなく、通常の投影
法を用いた場合、図20(a)に示すように、直線10
1が斜めに傾いている場合、その投影値は小さくなって
しまうので、斜めに傾いた直線101を検出することは
不可能である。このため、斜めに傾いた直線101を通
常の投影法で検出するには、部分パターンの分割数を増
やし分割長を短くする必要がある。しかし、部分パター
ンの分割長が短くなると、文字を構成している短い直線
も多数検出され、文字と枠とを区別することが困難にな
る。これに対して、隣接投影法を用いることにより、直
線101が斜めに傾いている場合でも、投影値を大きく
することができるので、枠を構成する比較的長い直線を
文字を構成している短い直線と区別しながら正確に検出
することができる。
【0115】図21は、横線分検出部57及び縦線分検
出部65の動作を示すフローチャートである。図21に
おいて、まず、ステップ41で、横隣接投影部56及び
縦隣接投影部64により算出された隣接投影値と縦横そ
れぞれの分割長との比が所定のしきい値以上であるかど
うかを判定する。そして、隣接投影値と縦横それぞれの
分割長との比が所定のしきい値以上でないと判断された
場合、ステップS42に進み、線分が存在しないものと
みなす。
【0116】一方、ステップS41で隣接投影値と縦横
それぞれの分割長との比が所定のしきい値以上であると
判断された場合、ステップS43に進み、線分が存在す
るものとみなす。
【0117】次に、ステップS44において、ステップ
S43で線分とみなされたパターンが、その上下に存在
する線分と接しているかどうかを判断する。そして、上
記パターンが上下に存在する線分と接していないと判断
された場合、ステップS45に進み、そのパターンを矩
形線分とする。
【0118】一方、ステップS44において、ステップ
S43で線分とみなされたパターンがその上下に存在す
る線分と接していると判断された場合、ステップS46
に進み、上記パターンとその上下に存在する線分とを統
合する。そして、ステップS47で、ステップS46で
統合した線分を矩形線分として検出する。
【0119】なお、矩形線分が検出された以降の処理で
は、マスク処理を行う以前の元の画像を用いて処理を行
う。横線分統合部58及び縦線分統合部66は、横線分
検出部57及び縦線分検出部65で検出された矩形線分
のうち、近隣の矩形線分同士を統合して長い直線とする
ものである。
【0120】例えば、図22(b)に示すように、途中
で途切れていない矩形線分x、y、zが接触しているか
又は繋がっている場合、これらの矩形線分x、y、zを
統合して長い直線とする。また、図22(a)に示すよ
うに、矩形線分x、yが繋がっていない場合、矩形線分
x、yの垂直方向の距離が隣接投影法において加算する
行又は列数j以内ならば、矩形線分x、y、zを統合し
て長い直線とする。
【0121】図23は、横線分統合部58及び縦線分統
合部66の動作を示すフローチャートである。同図にお
いて、まず、ステップS51で、横線分検出部57及び
縦線分検出部65で検出された矩形線分に対し、矩形線
分同士の距離を算出する。次に、ステップS52で、ス
テップS51で算出された矩形線分同士の距離が、隣接
投影法において加算する行又は列数j以内であるかどう
かを判定する。そして、矩形線分同士の距離が隣接投影
法において加算する行又は列数j以内でない場合、ステ
ップS53に進み、矩形線分の統合を行わないようにす
る。
【0122】一方、ステップS52において、矩形線分
同士の距離が隣接投影法において加算する行又は列数j
以内であると判断された場合、ステップS54に進み、
矩形線分の統合を行う。
【0123】横直線検出部59及び縦直線検出部67
は、横線分統合部58及び縦線分統合部66において得
られた直線を矩形近似し、横枠又は縦枠を構成する直線
の候補を検出する。例えば、図24(a)に示す統合さ
れた直線111を矩形近似し、図24(b)で破線によ
り示された直線112を得る。
【0124】また、検出された直線の傾きを統合された
線分の両端の座標から算出し、他の直線の傾きと比較し
て異なる傾きを有する直線を、枠の中に書かれた斜めの
消し線等、枠でない部分であるとみなし、直線の候補か
ら除く。
【0125】横直線探索部60及び縦直線探索部68
は、横直線検出部59及び縦直線検出部67で矩形近似
された横線または縦線の直線について、横線の場合は左
右端、縦線の場合は上下端を正確に検出するために、矩
形近似された直線を構成するパターンの探索を行う。こ
こで、探索の進行方向にパターンのない空白領域が存在
しても、一定の画素数以下の空白領域に対してはパター
ンがあるとみなして探索を行う。このことにより、かす
れのために分離している直線からなる枠の候補を正確に
検出することができる。
【0126】例えば、図25に示すように、横線である
矩形近似された直線121に対して、該直線121を構
成する画素122の検索を行う場合、一定の画素数以下
の空白領域123に対しては画素122があるとみなし
て探索を行う。そして、以後の処理において、この検索
で得られた画素122の左右端の座標を、上記矩形近似
された直線121の左右端の代わりに用いる。
【0127】図26は、横直線探索部60の動作を示す
フローチャートである。図26において、まず、ステッ
プS61に示すように、横直線検出部59で近似した矩
形範囲内のパターンのうち、最も細い部分のX座標を算
出する。
【0128】次に、ステップS62に示すように、ステ
ップS61で算出したX座標におけるパターンの中心点
を算出する。そして、ステップS63に示すように、ス
テップS62で算出したパターンの中心点を探索の開始
点とする。ここで、探索の開始点をパターンの最も細い
部分とするのは、最も細い部分は罫線である可能性が高
く、枠となる直線の探索をより確実に行うことができる
からである。一方、パターンの太い部分は、文字が枠に
接触しているためパターンが太くなった可能性があり、
パターンの太い部分から探索を開始すると、文字部分に
探索方向が進み、枠の探索に失敗する場合があるからで
ある。
【0129】次に、ステップS64で直線の探索方向を
右に設定する。次に、ステップS65に示すように、空
白領域の長さをカウントする変数Kの初期値を0に設定
する。
【0130】次に、ステップS66に示すように、ステ
ップS63で求めた開始点をパターンの探索の現在地と
設定する。次に、ステップS67に示すように、ステッ
プS66で設定した探索の現在地が、直線の探索を行う
矩形範囲の内部であるかどうかの判定を行い、探索の現
在地が矩形範囲の内部でない場合、ステップS76に進
む。
【0131】一方、ステップS67で探索の現在地が矩
形範囲の内部であると判定された場合、ステップS68
に進み、探索の現在地からみて探索方向隣にパターンが
あるかどうか判定する。ここで、探索の現在地からみて
探索方向隣にパターンがあるとは、図27に示すよう
に、パターン131からみて右方向隣の位置にパターン
132が存在していることを意味している。そして、探
索の現在地からみて探索方向隣にパターン132がある
と判定された場合、ステップS71に進み、探索方向隣
にあるパターン132を探索の現在地とする。
【0132】一方、ステップS68で探索の現在地から
みて探索方向隣にパターンがないと判定された場合、ス
テップS69に進み、探索の現在地からみて探索方向斜
め隣にパターンがあるかどうか判定する。ここで、探索
の現在地からみて探索方向斜め隣にパターンがあると
は、図27に示すように、パターン133からみて右方
向斜め隣の位置にパターン134a又はパターン134
bが存在していることを意味している。そして、探索の
現在地からみて探索方向斜め隣にパターン134a、1
34bがあると判定された場合、ステップS73に進
み、探索方向斜め隣にあるパターン134a、134b
を探索の現在地とする。なお、探索方向斜め隣にあるパ
ターン134a、134bが2つある場合はパターン1
34a、134bのどちらか一方を探索の現在地とす
る。
【0133】一方、ステップS69で探索の現在地から
みて探索方向斜め隣にパターン134a、134bがな
いと判定された場合、ステップS70に進み、空白領域
の長さをカウントする変数Kがしきい値以下であるかど
うかを判定する。そして、空白領域の長さをカウントす
る変数Kがしきい値以下である場合、ステップS74に
進み、探索の現在地からみて探索方向隣にありパターン
を構成しない画素を現在地とする。例えば、図25にお
いて、一定の画素数以下の空白領域123に対してはパ
ターンがあるとみなして探索を行う。
【0134】次に、ステップS75に示すように、空白
領域の長さをカウントする変数Kの値を1ドット増や
し、ステップS67に戻る。一方、ステップS70で空
白領域の長さをカウントする変数Kがしきい値以下でな
いと判定された場合、ステップS76に進み、探索方向
は右に設定されているかどうかを判定する。そして、探
索方向は右に設定されていない場合、処理を終了する。
【0135】ステップS76で探索方向は右に設定され
ている場合、ステップS77に進み、探索方向を左に設
定する。そして、探索方向を右に設定して行った処理と
同様に、ステップS65〜ステップS75の処理を繰り
返す。ここで、探索方向を左に設定して処理を行う場
合、探索の現在地からみて探索方向隣にパターンがある
とは、図27に示すように、パターン135からみて左
方向隣の位置にパターン136が存在していることを意
味している。また、探索の現在地からみて探索方向斜め
隣にパターンがあるとは、図27に示すように、パター
ン137からみて左方向斜め隣の位置にパターン138
a又はパターン138bが存在していることを意味して
いる。
【0136】なお、縦直線探索部68の動作は、図26
のフローチャートの処理において、横直線検出部59で
検出されたパターンではなく縦直線検出部67で検出さ
れたパターンを対象とし、また、探索方向を左右から上
下に変更し、さらに、X座標をY座標に変更する以外は
横直線探索部60の動作と同様である。
【0137】なお、許容可能な空白の長さを、それぞれ
の部分パターンの大きさに対応させて変化させるように
してもよく、このことにより、文字線分を枠とみなして
しまう可能性を低くすることができる。
【0138】横点線検出部61及び縦点線検出部69
は、所定の大きさのパターンがある一定の間隔で並んで
いる時、点線が存在するとし、この点線に対して上述し
た直線と同様に矩形近似を行うものである。点線を検出
した後は実線、点線ともに、同じ直線として扱う。
【0139】図28は、横点線検出部61及び縦点線検
出部69の動作を示すフローチャートである。図28に
おいて、まず、ステップS81で、入力された画像の一
部を横方向又は縦方向に短冊状に切り出す。
【0140】次に、ステップS82で、ステップS81
で短冊状に切り出した範囲内で、ある一定の大きさの部
分パターンが存在するかどうかを判定する。そして、あ
る一定の大きさの部分パターンが存在しない場合、処理
を終了する。
【0141】一方、ステップS82において、ある一定
の大きさの部分パターンが存在すると判定された場合、
ステップS83に進み、抽出した部分パターンを含み、
且つステップS81で用いた短冊と垂直な短冊状の画像
を入力画像から切り出す。
【0142】次に、ステップS84で、ステップS83
で切り出した短冊状の画像の内部に、ある一定の大きさ
の部分パターンが存在するかどうかを判定する。そし
て、ある一定の大きさの部分パターンが存在しない場
合、処理を終了する。
【0143】一方、ステップS84において、ある一定
の大きさの部分パターンが存在すると判定された場合、
ステップS85に進み、上記部分パターンを抽出し、該
部分パターンが一定の間隔で並んでいるかどうか判定す
る。そして、該部分パターンが一定の間隔で並んでいな
い場合、処理を終了する。
【0144】一方、ステップS85において、上記抽出
した部分パターンが一定の間隔で並んでいると判定され
た場合、ステップS86に進み、部分パターンの存在す
る範囲を矩形で囲む。
【0145】次に、ステップS87で、点と点との一間
隔分の長さだけステップS86で得られた矩形の両端を
延ばす。そして、ステップS88で、該矩形で囲まれた
範囲を点線の存在範囲とする。
【0146】横直線統合部62及び縦直線統合部70
は、横直線抽出部55及び縦直線抽出部63で抽出され
た直線の再統合を行う。すなわち、横直線統合部62及
び縦直線統合部70は、横直線探索部60及び縦直線探
索部68による探索処理では吸収できないより大きなか
すれの補正を行う。
【0147】例えば、図29(a)のマスク処理後のパ
ターン141から、図29(b)に示すように、横線1
51〜155が横直線抽出部55により抽出される。こ
こで、横線152と横線153との間のかすれ142の
大きさが図26で示したしきい値より大きい場合、横直
線探索部60による探索処理では吸収できないので、横
線152と横線153とが分離したままとなっている。
【0148】この横直線探索部60による探索処理では
吸収できないかすれ142を補正するため、横線の場
合、同じY座標上にあり、且つX方向の距離が所定値以
下であるかどうかを調べる。
【0149】図29(b)の横線152と横線153と
がこの条件を満たす場合、図29(c)に示すように、
横線152と横線153とが統合されて横線156とさ
れる。この結果、かすれ142を補正した横線151、
153、154、156を得ることができる。
【0150】また、縦線の場合、同じX座標上にあり、
且つY方向の距離が所定値以下である場合、分離してい
る直線の統合を行う。また、図30(a)の二重線や図
30(b)の二重線がつぶれによって部分的に繋がって
しまった場合や、本来1本の直線がかすれ等によって重
なりのある2本の線として抽出された場合など2本の線
が近接して並んでいる時にも直線の統合が行われる。こ
の場合、統合の対象となった直線に対し、その直線の統
合前にその直線が罫線とみなすことができるかどうかの
判断を行う。
【0151】この判断は、使用する罫線パターンを特徴
ベクトルを求めるなどの処理を行って枠抽出処理を行う
前に登録しておき、直線統合処理の対象となったパター
ンを登録されている罫線パターンと比較することにより
行う。そして、直線統合処理の対象となったパターンと
登録されている罫線パターンとが一致している場合は統
合処理を行い、直線統合処理の対象となったパターンと
登録されている罫線パターンとが一致していない場合は
統合処理を行わないようにする。
【0152】このことにより、図49の文字を構成する
線分が直線235として抽出され、この直線235と枠
線236との距離が近い場合、直線235が枠線236
と統合されることを防止でき、文字が枠を構成する直線
237とみなされないようにすることができる。
【0153】直線統合処理の対象となったパターンと登
録されている罫線パターンとが一致しているかどうかの
判断は、例えば、パターンの線密度やオイラー数を比較
することにより行う。ここで、線密度とは、矩形内の画
像を所定の方向に沿って走査した際の、白画素から黒画
素又は黒画素から白画素に変化する回数を計数した値で
ある。例えば、図31(a)に示すように、「6」の数
字を垂直方向に走査した際の、縦方向の線密度は3であ
る。また、直線の線密度は1であるため、文字と直線と
を容易に区別することができる。
【0154】また、オイラー数Eとは、画像中で、互い
に連結している連結成分の個数をC、その画像が有する
穴の個数をHとした場合、連結成分の個数Cから穴の個
数Hを引いた値である。例えば、図31(b)に示すパ
ターンでは、連結成分の個数Cは2で、穴の個数Hは1
であるので、オイラー数Eは1である。
【0155】このオイラー数を用いることにより、パタ
ーン内部に空白のない実線やパターン内部に空白のない
点線を罫線パターンとして登録することができ、直線統
合処理の対象となったパターンの内部に空白がある場合
は、そのパターンを文字とみなして統合を行わないよう
にすることが可能となるとともに、直線統合処理の対象
となったパターンの内部に空白がない場合は、罫線パタ
ーンとして、統合処理の対象とすることが可能となる。
【0156】なお、対象としている枠が不規則な枠であ
る場合、直線の長さや位置が様々であるため、極端に距
離が離れた直線の統合を行わないようにする。図32
は、横直線統合部62及び縦直線統合部70の動作を示
すフローチャートである。
【0157】図32において、まず、ステップS90に
示すように、横直線抽出部55又は縦直線抽出部63で
直線を抽出する。次に、ステップS91に示すように、
ステップS90で抽出された直線の距離又は間隔が所定
のしきい値以下であるものを組にして取り出す。
【0158】次に、ステップS92に示すように、ステ
ップS91で取り出された直線を統合処理対象の候補と
する。次に、ステップS93に示すように、ステップS
92で統合処理対象の候補とされた直線の線密度、又は
オイラー数の算出を行う。
【0159】次に、ステップS94に示すように、統合
処理対象の候補とされた直線同士の線密度、又はオイラ
ー数の比較を行い、線密度、又はオイラー数が直線毎に
異なる場合は、処理を終了し、線密度、又はオイラー数
が一致する場合は、ステップS95に進んで、統合処理
対象の候補とされた直線の統合処理を行い、この統合さ
れた直線を1本の直線として扱うようにする。
【0160】なお、以上の処理は点線についても同様に
行われる。このように、横直線抽出部55及び縦直線抽
出部63で抽出された直線を、横直線統合部62及び縦
直線統合部70で登録されている罫線パターンと比較し
ながら再統合を行うことにより、長いかすれのある直線
の抽出を行う際に、文字パターンを直線と誤って統合し
てしまうことを防止することができる。
【0161】直線統合処理を行った後、規則的な構造の
枠の場合、規則性を用いた枠線の決定処理を行う。規則
性を用いた枠線の決定処理として、入れ子内矩形を構成
する直線候補の検出処理、直線候補の生成処理及び直線
の伸長処理を行う。
【0162】入れ子内矩形を構成する直線候補の検出処
理では、縦横の直線を抽出した後、横直線の位置を調べ
る。そして、左右の端点のX座標がほぼ同一の横直線が
所定の数以上存在した場合、これらの横直線は入れ子構
造を構成する直線の候補であると無条件にみなす。
【0163】例えば、図33の表において、左右の端点
のX座標が同一で所定の数以上の横直線1111〜11
16及び横直線1117〜1121を、入れ子構造を構
成する直線の候補であるとみなす。そして、横直線11
11〜1116及び横直線1117〜1121に対して
横枠を決定する処理を行い、長い方の横直線1111〜
1116を表の横枠とみなし、短い方の横直線1117
〜1121を入れ子構造を構成する直線とみなす。
【0164】直線候補の生成処理では、規則的な構造の
枠の縦横の直線を抽出した後、横直線の位置及び長さを
調べる。そして、左右の端点のX座標が同一で且つ長さ
が同じ横直線が所定の数以上存在した場合、その横直線
のY座標方向での間隔を算出する。ここで、隣接する第
1の横直線と第2の横直線との間隔dy2が、他の第3
の横直線と第4の横直線との間隔dyの整数倍である場
合、第1の横直線と第2の横直線との間に間隔dyを有
する第5の横直線を生成する。
【0165】例えば、図34の表において、左右の端点
のX座標が同一で長さが同じ横直線1131〜1136
及び左右の端点のX座標が同一で長さが同じ横直線11
37、1138、1140、1141を、直線の候補で
あるとみなす。そして、所定の数以上の横直線113
7、1138、1140、1141が間隔dyで規則的
に並んでおり、間隔dyの整数倍の間隔dy2を有する
横直線1138、1140が存在する場合、横直線11
38と横直線1140との間に間隔dyを有する横直線
1139を生成する。
【0166】また、左右の端点のX座標が同一で同じ長
さを有する所定の数以上の横直線が同一の間隔で並んで
おり、これらの横直線と異なる間隔を有する不規則な横
直線が存在する場合、この不規則な横直線を削除する。
【0167】さらに、左右の端点のX座標が同一で同じ
長さを有する所定の数以上の横直線が同一の間隔で並ん
でおり、これらの横直線と同一の間隔を有し所定の長さ
以上であって長さが異なる横直線が存在する場合、この
長さが異なる横直線の長さを他の横直線と同一となるよ
うにする。
【0168】また、規則的な構造を有する表であると分
かっており、縦横それぞれについて、同じ長さLを持つ
直線又は点線の候補がある一定の本数以上存在する場
合、所定の値以上の長さを持つ直線又は点線であって長
さLに満たないものを、長さLに伸ばすようにする。
【0169】直線の伸長処理では、規則的な帳票である
と分かっている場合、かすれにより短くなった直線を帳
票の傾きに対応させて直線伸長部71により伸長する。
例えば、図35に示すように、帳票が傾いている場合、
かすれずに残っている直線160から帳票の傾きを求
め、この傾きに沿うように短冊状の矩形をずらして配置
することにより、伸長部分161、162を生成する。
【0170】この際、図35の領域163の部分を図3
6に拡大して示すように、かすれにより部分的に残って
いる直線164が存在し、この部分的に残っている直線
164が伸長部分161の矩形と近接し、且つ平行にな
っている場合、伸長部分161の矩形の代わりにかすれ
により部分的に残っている直線164を優先して使用す
る。これは、紙の歪みにより直線160の傾きが均一で
ない箇所が存在するため、かすれにより部分的に残って
いる直線164が存在する場合には、この直線164を
優先的に使用することにより、原画像における枠をより
忠実に再現できるからである。
【0171】図37は、直線伸長部71における直線の
伸長処理を示すフローチャートである。図37におい
て、まず、ステップS101に示すように、直線統合処
理が行われる。
【0172】次に、ステップS102に示すように、あ
るしきい値以上の長さを持つ直線の両端の座標により直
線の傾きを求める。次に、ステップS103に示すよう
に、ステップS102で算出された直線の傾きの平均値
を計算し、帳票の傾きとする。
【0173】次に、ステップS104に示すように、あ
るしきい値以上の長さを持つ直線を伸長処理の対象とす
る。次に、ステップS105に示すように、伸長処理の
対象となる直線の端点を伸長処理の開始点とする。
【0174】次に、ステップS106に示すように、周
囲の直線の長さを基準にして伸長後の直線の端点を決定
する。次に、ステップS107に示すように、帳票の傾
きに従って、一定の長さの短冊状の矩形で直線を表現
し、伸長処理の対象となる直線を伸長する。この際、伸
長処理により生成される矩形の太さは、伸長処理の対象
となる直線の太さを基準として算出する。
【0175】次に、ステップS108に示すように、か
すれにより途切れた直線の一部であって、伸長処理の対
象とならない短い直線が、伸長処理により生成される矩
形と平行して存在するかどうかを判断し、この条件が成
り立つ場合、ステップS109に進み、かすれにより途
切れた直線の一部を伸長処理により生成される矩形より
も優先して枠線とし、この条件が成り立たない場合、ス
テップS110に進む。
【0176】次に、ステップS110に示すように、矩
形で表現された伸長部分を直線と同様のものとする。次
に、以上の処理により抽出された直線に基づいて、枠を
検出する処理を行う。この枠検出処理は、上述の処理に
より抽出された縦横の直線の中から、枠を構成する直線
を決定し、上下左右の四辺を枠で囲まれた矩形範囲を左
上から順番に抽出することで、枠の構造を検出するもの
である。
【0177】例えば、図38(a)に示す表170の場
合、まず、表170を、図38(b)に示すように、大
枠の複数の行に分割する。次に、図38(c)に示すよ
うに、分割された行をさらに小さい矩形に分割する。な
お、この段階で検出された矩形がさらに細い矩形に分割
されている状態を「入れ子」と呼び、この「入れ子」状
態にある矩形については新たな表とみなして、図38
(d)に示すように、この矩形をさらに小さな矩形に分
割する。
【0178】横枠決定部72は、上記検出された横線の
中から、各行の横枠を構成している2本の横線の組を決
定する処理を実行するものである。この処理は以下のよ
うな規則に従って行われる。
【0179】1)横直線抽出部55で抽出された横直線
(横線)の中から、上から順番に横線を2本取り出し、
これらを2本の横線の組の候補とする。 2)上記取り出した2本の横線が、長さが同じ、又は下
の直線の方が長ければ、その2本を、横線の組とする。
このとき、2本の横線の長さが異なる場合、長い方の横
線を再使用可とする。
【0180】3)上記取り出した2本の横線の内、下の
横線の方が短かければ、さらにその下の横線を横枠の候
補とし、これらの横線の長さを比較する。また、下の横
線の方が右方向又は左方向に短かければ、さらにその下
の直線を組の候補とし、これらの横線の長さを比較す
る。
【0181】4)該比較の結果、上記条件2)を満足す
る直線が下部に無いことが分かれば、この場合に限り、
上記上の横線とその下の横線とを組みとする。 5)一番下の横線の処理後、まだ未処理の直線が上部に
ある場合は、未処理の横線と再使用可の横線とを用いて
再び上から順に、上記1)〜4)の処理を行い、2本の
横線の組を作る。
【0182】以上のようにして決定される組となった2
本の横線は、以後の処理において、行などの矩形枠を構
成する横枠の組(2本組の横枠)として取り扱われる。
図39は、横枠決定部72における上記横線の組みを決
定する処理を示すフローチャートである。
【0183】図39において、まず、ステップS111
に示すように、横直線抽出部55で抽出された横直線の
中から、最上部の2本を取り出す。次に、ステップS1
12で、上記取り出した2本の横直線のうち、上側の横
直線をupline、下側の横直線をbllineとす
る。
【0184】次に、ステップS113で、直線upli
neと直線bllineとに縦方向の重なりがあるかど
うかを判定する。そして、直線uplineと直線bl
lineとに縦方向の重なりがない場合、ステップS1
14に進み、直線bllineの下の直線を新たにbl
lineとし、この処理を直線uplineと直線bl
lineとに縦方向の重なりがあることとなるまで続け
る。
【0185】一方、ステップS113において、直線u
plineと直線bllineとに縦方向の重なりがあ
る場合、ステップS115に進み、直線uplineと
直線bllineとの長さが同じであるか又は直線up
lineより直線bllineの方が長いかどうかを判
定する。そして、上記条件を満足する直線upline
と直線bllineが存在する場合、ステップS118
に進み、上記直線uplineと上記直線blline
を2本の横線の組(2本組の横枠)とする。
【0186】一方、ステップS115において、直線u
plineと直線bllineとの長さが異なってお
り、且つ、直線uplineより直線bllineの方
が短い場合、ステップS116に進み、直線bllin
eより下方に直線uplineと長さが同じであるか又
は直線uplineより長い直線blline2が存在
するかどうかを判定する。そして、上記条件を満足する
直線bllineと直線uplineが存在する場合、
ステップS117に進み、直線bllineを直線bl
line2に変更してステップS118に進む。
【0187】ここで、直線uplineと直線blli
neとの長さが同じであるとは、図40(a)のような
状態を示し、直線uplineより直線bllineの
方が短いとは、図40(b)のような状態を示し、直線
uplineより直線bllineの方が長いとは、図
40(c)のような状態を示す。
【0188】一方、ステップS116において、直線b
llineより下方に直線uplineと長さが同じで
あるか又は直線uplineより長い直線blline
2が存在しない場合、ステップS118に進み、直線u
plineと直線bllineとを2本組の横枠とす
る。
【0189】次に、ステップS119で、後述する縦枠
決定処理と入れ子処理を行う。次に、ステップS120
で、ステップS118で2本組の横枠とした直線upl
ineと直線bllineの長さが異なるかどうかを判
定する。そして、直線uplineと直線blline
の長さが異なる場合、ステップS121に進み、右方向
へ長い直線又は左方向に長い直線を再利用可として、ス
テップS122に進む。
【0190】ここで、上記右方向へ長い直線とは、図4
0(d)に示す直線blline、左方向に長い直線と
は、図40(e)に示す直線bllineである。一
方、ステップS120において、直線uplineと直
線bllineとの長さが同じであると判定された場
合、ステップS122に進み、直線bllineより下
方に直線が存在するかどうかを判定する。そして、直線
bllineより下方に直線が存在する場合、ステップ
S123に進み、直線bllineとその下の直線を抽
出し、ステップS112に戻る。
【0191】一方、ステップS122において、直線b
llineより下方に直線が存在しないと判定された場
合、ステップS124に進み、再使用可の直線を除い
て、処理済の直線を処理対象からはずす。
【0192】次に、ステップS125で、未処理の直線
が存在するかどうかを判定する。そして、未処理の直線
が存在しない場合、処理を終了する、一方、ステップS
125において、未処理の直線が存在すると判定された
場合、ステップS126に進み、最上部から直線を2本
取り出し、ステップS112に戻る。
【0193】縦枠決定部73は、枠の検出処理において
縦枠を決定する処理を行うもので、縦直線抽出部63で
抽出された縦線のうち、横枠決定部72で横枠の2本組
として決定された2本の横線に上下とも達しているもの
を縦枠と決定する。この縦枠の決定では、図38(b)
に示すように、横枠決定部72で横枠の2本組として決
定された横線の間隔、すなわち、一行ごとに処理を行
う。
【0194】なお、2本の横線の長さが異なる場合、短
い方の直線を一時的に長い方の横線と同じ長さであると
仮定して処理を行う。矩形表現部77は、図38(c)
に示すように、横枠決定部72で決定された2本組の横
枠と縦枠決定部73で決定された該2本組の横枠の上下
に達している2本の縦枠とで囲まれた矩形を抽出するも
のである。
【0195】入れ子構造処理部74は、図38(d)に
示すように、矩形表現部77で抽出された矩形の中か
ら、その内部にさらに矩形を含む入れ子構造の矩形を検
出し、この矩形をさらに小さな矩形に分割する。この入
れ子構造の矩形の検出は、矩形表現部77で抽出された
矩形について、その内部に、該矩形の左右の2辺に達し
ている横線が存在するか否かを調べることにより行う。
例えば、図41(a)に示すように、抽出された矩形1
81の内部において、左右の2辺182、183に達し
ている横線184が存在する場合、この矩形181を入
れ子構造の矩形とみなす。
【0196】そして、矩形181内の横枠及び縦枠を決
定し矩形表現を行うことにより、入れ子構造内の矩形1
85〜187を抽出する。また、図41(b)に示す矩
形191のように、矩形191の内部の横線192が存
在し、且つ矩形191の内部の横線192と矩形191
の横枠194又は横枠195との両方に達している縦線
193が存在する場合、矩形191の内部の一部の領域
に存在する矩形196を入れ子構造の矩形とみなす。
【0197】そして、矩形196内の横枠及び縦枠を決
定し矩形表現を行うことにより、入れ子構造内の矩形1
97、198を抽出する。図42は、入れ子構造処理部
74による入れ子処理を示すフローチャートである。
【0198】同図において、まず、ステップS130に
示すように、ある注目矩形内にあり、ある一定以上の長
さを持つ横線を入れ子構造内の横枠とする。次に、ステ
ップS131に示すように、入れ子構造内の横枠が矩形
の左右の枠に達しているかどうか判定する。そして、入
れ子構造内の横枠が矩形の左右の枠に達している場合、
ステップS132に進み、注目矩形を新たに表とみな
す。
【0199】一方、ステップS131で入れ子構造内の
横枠が矩形の左右の枠に達していないと判定された場
合、ステップS133に進み、入れ子構造内の横枠と矩
形の上枠又は下枠との両方に達している縦線(A)があ
るかどうか判定する。そして、入れ子構造内の横枠と矩
形の上枠又は下枠との両方に達している縦線(A)がな
い場合、ステップS134に進み、次の矩形の処理を行
う。
【0200】一方、ステップS133で入れ子構造内の
横枠と矩形の上枠又は下枠との両方に達している縦線
(A)があると判定された場合、ステップS135に進
み、入れ子構造内の横枠と縦線(A)と矩形を構成する
辺とによって囲まれた矩形を新たに表とみなす。
【0201】次に、ステップS136に示すように、ス
テップS136で表とみなした範囲に対し、矩形内の横
枠及び縦枠を決定し矩形表現を行うことにより、入れ子
構造内の矩形を抽出する。
【0202】このように、本発明の一実施例による入れ
子構造処理部74によれば、矩形内に入れ子構造が存在
する場合のほか、矩形内の一部の領域に入れ子構造が存
在する場合においても、入れ子構造の枠を検出すること
ができ、様々な形状を有する帳票から文字や記号などを
正確に切り出すことができる。
【0203】なお、上述した実施例では、規則的な表に
対しての処理について示したが、枡目状の表以外にも、
入れ子状態になった矩形は存在しないなどの規則が予め
分かっている場合、その規則に従って入れ子処理を行う
かどうかなどの処理の内容をその都度変化させるように
して、処理精度を向上させるようにしてもよい。
【0204】文字領域算出部78は、縮小処理部52に
より圧縮された圧縮画像データの枠情報に基づいて算出
した矩形領域の座標を、入力パターン51の原画像デー
タにおける座標に変換する。また、圧縮画像データにお
ける枠線の内側を枠に沿って探索することにより、文字
が枠に接触しているかどうかの判定を行い、文字の接触
している辺に関して、矩形領域を所定の距離だけ外側に
拡大し、この拡大した矩形領域の座標を、入力パターン
51の原画像データにおける座標に変換する。
【0205】例えば、図43(a)に示すように、圧縮
画像データの枠線の範囲200が抽出され、この枠線に
より囲まれた矩形領域内に「4」の文字202が存在
し、この「4」の文字202が下側の枠線201に接触
しているものとする。文字領域算出部78は、図43
(b)に示すように、枠線の内側に沿って真っ直ぐに探
索を行い、探索の途中でパターンと交差した場合、枠線
の近辺に文字が存在し、この文字は枠線に接触している
可能性が高いとみなして、この枠線により囲まれた矩形
領域内に存在する「4」の文字202は枠と接触してい
るものとする。この例の場合、「4」の文字202は下
側の枠201と接触しているものとされる。
【0206】そして、枠線201の内側に沿って探索を
行った結果、文字202が枠線201に接触している場
合、図43(c)に示すように、文字202が接触して
いる枠線201から外側の方向へ枠線により囲まれた矩
形領域を拡大し、この拡大した矩形領域203を文字2
02が存在する文字領域とする。なお、文字が枠線に接
触していないとみなされた場合は、枠の内部をそのまま
文字領域とする。
【0207】圧縮画像データにおける文字領域から原画
像データにおける文字領域を求めるため、図43(c)
の矩形領域203の座標を入力パターン51の原画像デ
ータにおける座標に変換する。このことにより、図43
(e)に示すように、原画像データにおける矩形領域2
06を求めることができ、この矩形領域206に存在す
る文字205に対して認識処理を行うことが可能とな
る。
【0208】ここで、図43(c)に示すように、文字
202が枠線201に接触している場合、図43(d)
に示すように、原画像データの矩形領域206における
枠線204についての投影処理を行い、枠線204の枠
座標を原画像データから算出する。この際、枠線204
を所定の長さの短冊状の矩形によって表現する。そし
て、この原画像データから算出した枠線204の枠座標
に基づいて、枠線204に接触している文字205の補
完処理を行う。
【0209】図44は、文字領域算出部78の動作を示
すフローチャートである。同図において、まず、ステッ
プS141に示すように、圧縮画像データによる矩形表
現を行う。
【0210】次に、ステップS142に示すように、縦
横4本の直線に囲まれた矩形部分を抽出する。次に、ス
テップS143に示すように、直線の内側を示す矩形の
左上及び右下を示す座標をそれぞれ算出する。
【0211】次に、ステップS144に示すように、枠
の内側を示す矩形の4辺(上側横枠、下側横枠、右側縦
枠、左側縦枠)に沿って圧縮画像の探索を行う。次に、
ステップS145に示すように、探索の途中で画像パタ
ーンと交差した場合、探索を行っていた辺に文字が接触
しているものとする。
【0212】次に、ステップS146に示すように、枠
の内側を示す矩形の座標値を原画像上の座標値に変換
し、圧縮画像データにおける矩形領域から原画像データ
における矩形領域を算出する。
【0213】次に、ステップS147に示すように、ス
テップS146で算出された矩形領域を原画像データに
おける文字領域とする。次に、ステップS148に示す
ように、ステップS145の処理により文字が枠に接触
していたかどうかを判断し、文字が枠に接触している場
合、ステップS149〜S153の接触文字範囲獲得処
理が行われる。
【0214】接触文字範囲獲得処理では、ステップS1
49において、文字の接触している辺から外側方向に文
字領域を拡大し、ステップS147で算出された文字領
域位置より一定の距離外側を文字領域の端とする。
【0215】次に、ステップS150に示すように、ス
テップS149で算出された文字領域に含まれる枠線の
位置座標を原画像上の座標値に変換し、圧縮画像データ
における枠線の位置座標から原画像データにおける枠線
の位置座標を算出する。
【0216】次に、ステップS151に示すように、ス
テップS150で算出された原画像データにおける枠線
の位置座標に基づいて獲得した原画像データの枠線領域
について、横枠は横方向、縦枠は縦方向に投影処理を行
う。
【0217】次に、ステップS152に示すように、投
影値が一定値以上の領域を原画像上の枠座標とする。次
に、ステップS153に示すように、算出した原画像上
の文字領域を示す座標値と文字領域内の枠線の位置を示
す座標値とを文字補完処理へ渡す。
【0218】次に、ステップS154に示すように、算
出した原画像上の文字領域を示す座標値を文字領域とす
る。図7の文字補完処理部79は、原画像データに基づ
いて、枠に接触している文字の枠の部分に存在するパタ
ーンの補完を行う。この際、枠に接触している文字及び
文字が接触している枠についての位置情報は、圧縮画像
データに基づいて算出した位置情報が用いられる。この
ことにより、文字と枠とが接触している部分についての
み、原画像データを用いた投影処理を行うことができ、
文字補完処理の精度を損なうことなく、処理を高速に行
うことができる。
【0219】文字認識部80は、文字領域算出部78に
より切り出された文字領域に存在する文字について、文
字認識を行う。この際、文字と枠とが接触している場
合、文字補完処理部79により文字補完処理が行われた
文字について、文字認識を行う。
【0220】このように、圧縮画像データに基づいて文
字領域の抽出を行った後、原画像データに基づいてその
文字領域に存在する文字認識を行うことを可能とするこ
とにより、文字認識の精度を損なうことなく、文字の切
り出しを高速に行うことが可能となる。
【0221】
【発明の効果】以上説明したように、本発明によれば、
原画像の傾きに基づいて、直線のかすれを補正するかす
れ補正手段を備えることにより、傾いている画像にかす
れが存在している場合においても、かすれを原画像の傾
きに対応させて補正することができ、枠を正確に抽出す
ることが可能となるとから、この枠情報に基づいてパタ
ーン領域を正確に抽出することができる。
【0222】また、本発明の一態様によれば、枠により
構成される表が規則的な構造かどうかを判定することに
より、規則的な表を構成する一部の直線がかすれている
場合、かすれている直線を他の直線と同じ長さまで伸長
することができ、かすれが生じる前の元の表を正確に抽
出することができる。
【0223】また、原画像の傾きを検出することによ
り、かすれている直線を原画像の傾きに対応させて伸長
することができ、直線として伸長された範囲が文字領域
に入ってしまい、文字が直線とみなされて、文字の読み
取りが不可能になることを防止できる。
【0224】また、本発明の一態様によれば、かすれて
いる直線を伸長する場合、かすれずに残っている直線部
分に関しては、その直線部分をそのまま使用することに
より、紙の歪みにより傾きが均一でない箇所についても
処理を正確に行うことができる。
【0225】また、本発明の一態様によれば、かすれず
に残っている直線部分の幅を基準にしてかすれにより短
くなった直線を伸長することにより、かすれている直線
を元の画像に忠実に伸長することができる。
【0226】また、本発明の一態様によれば、表の構造
上の規則に応じて処理の内容を変更することにより、必
要のない処理を省略することができ、処理時間を短縮す
ることができる。
【0227】また、本発明の一態様によれば、パターン
のつぶれを補正するつぶれ補正手段を備えることによ
り、画像につぶれが存在している場合においても、つぶ
れを補正することができ、枠を正確に抽出できる。
【0228】また、本発明の一態様によれば、使用可能
な罫線パターンを予め登録しておくことにより、つぶれ
が生じた文字パターンと罫線パターンとを区別すること
が可能となり、つぶれが生じた文字パターンを罫線パタ
ーンとして誤って抽出することを防止することができ
る。
【0229】また、本発明の一態様によれば、抽出され
たパターンが登録された罫線パターンに一致している場
合に限り、それらのパターンの統合を行うことにより、
つぶれが生じた文字パターンを罫線パターンと統合し、
つぶれが生じた文字パターンを枠とみなすことを防止す
ることができる。
【0230】また、本発明の一態様によれば、直線又は
点線のかすれを補正するかすれ補正手段を備えることに
より、傾いている画像にかすれが存在するとともに、罫
線として点線罫線と実線罫線とが混在している場合にお
いても、点線罫線や実線罫線のかすれを原画像の傾きに
対応させて補正することができ、枠を正確に抽出でき
る。
【0231】また、本発明の一態様によれば、内部に空
白のない部分パターンのみを対象として、所定の大きさ
を有し、かつ、一定の間隔で並んでいる部分パターンを
点線として検出することにより、文字列が点線として抽
出されることをなくすことができ、点線抽出処理を正確
に行うことができる。
【0232】また、本発明の一態様によれば、入力され
た原画像データを圧縮画像データに変換して枠の抽出処
理を行うことにより、原画像データにおける枠情報を消
失させることなく、原画像データの情報量を減らすこと
ができ、処理時間や処理に必要な資源を減らすことがで
きる。
【0233】また、本発明の一態様によれば、入力され
た原画像データを圧縮画像データに変換し、圧縮画像デ
ータの直線情報又は点線情報に基づいて枠の抽出処理を
行うことにより、実線罫線と点線罫線とが混在している
原画像データの情報量を減らすことができ、処理時間や
処理に必要な資源を減らすことができる。
【0234】また、本発明の一態様によれば、圧縮画像
データに基づいて枠情報を算出し、その枠情報を原画像
データにおける枠情報に変換することにより、パターン
領域を抽出する際の処理時間や処理に必要な資源を減ら
すことが可能となるとともに、パターン領域を抽出した
後に行われる文字認識処理においては、原画像データを
用いて処理を正確に行うことが可能となる。
【0235】また、本発明の一態様によれば、枠線の内
側を文字領域として設定することにより、枠情報に基づ
いて、文字領域を高速に抽出することができる。また、
本発明の一態様によれば、枠線の内側を枠に沿って探索
することにより、文字が枠に接触しているかどうかの判
定を容易に行うこと可能となり、枠に接触している文字
を正確に見つけることができる。
【0236】また、本発明の一態様によれば、文字の接
触している辺に関して、文字領域を所定の距離だけ外側
に拡大することにより、枠に接触している文字領域をよ
り正確に切り出すことが可能となり、枠に接触している
文字の誤認識を低減させることが可能となる。
【0237】また、本発明の一態様によれば、圧縮画像
データにおける文字領域を原画像データにおける文字領
域に変換することにより、圧縮画像データにおける文字
領域に基づいて、原画像データにおける文字領域を抽出
することができる。
【0238】また、本発明の一態様によれば、圧縮画像
データを用いて求めた文字領域に対応する原画像データ
の文字領域の範囲において、文字の補完処理を行うこと
により、枠に接触している文字領域だけを圧縮画像デー
タを用いて高速に抽出した後、原画像データを用いて文
字の補完処理を正確に行うことができる。
【図面の簡単な説明】
【図1】本発明の第1実施例によるパターン抽出装置の
機能構成を示すブロック図である。
【図2】図1のかすれ補正手段の一実施例の機能構成を
示すブロック図である。
【図3】本発明の第2実施例によるパターン抽出装置の
機能構成を示すブロック図である。
【図4】図3のつぶれ補正手段の一実施例の機能構成を
示すブロック図である。
【図5】本発明の第3実施例によるパターン抽出装置の
機能構成を示すブロック図である。
【図6】図5のパターン領域抽出手段の一実施例の機能
構成を示すブロック図である。
【図7】本発明の一実施例によるパターン抽出装置の機
能構成を示すブロック図である。
【図8】本発明の一実施例によるパターン抽出装置のシ
ステム構成を示すブロック図である。
【図9】本発明の一実施例による画像圧縮方法を示すブ
ロック図である。
【図10】本発明の一実施例による画像縮小処理を示す
フローチャートである。
【図11】本発明の一実施例によるパターン抽出装置の
ラベル付け替え処理を説明する図である。
【図12】本発明の第1実施例によるパターン抽出装置
の連結パターン抽出処理を示すフローチャートである。
【図13】本発明の一実施例によるパターン抽出装置の
ラベル付け替え処理を行うパターンの抽出方法を説明す
る図である。
【図14】本発明の一実施例によるパターン抽出装置の
マスク処理を示す図である。
【図15】本発明の一実施例によるパターン抽出装置の
マスク処理により横線分を抽出する処理を示す図であ
る。
【図16】本発明の一実施例によるパターン抽出装置の
マスク処理を示すフローチャートである。
【図17】本発明の一実施例によるパターン抽出装置の
直線抽出処理における隣接投影法を説明する図である。
【図18】本発明の一実施例によるパターン抽出装置で
のパターンの投影を示す図である。
【図19】本発明の一実施例によるパターン抽出装置の
直線抽出処理における隣接投影法を示すフローチャート
である。
【図20】本発明の一実施例によるパターン抽出装置の
線分抽出処理を示す図である。
【図21】本発明の一実施例によるパターン抽出装置の
線分検出処理を示すフローチャートである。
【図22】本発明の一実施例によるパターン抽出装置の
線分統合処理を説明する図である。
【図23】本発明の一実施例によるパターン抽出装置の
線分統合処理を示すフローチャートである。
【図24】本発明の一実施例によるパターン抽出装置の
直線抽出処理を示す図である。
【図25】本発明の一実施例によるパターン抽出装置の
直線探索処理を示す図である。
【図26】本発明の一実施例によるパターン抽出装置の
横直線探索処理を示すフローチャートである。
【図27】本発明の一実施例によるパターン抽出装置の
横直線探索処理における検索方向を示す図である。
【図28】本発明の一実施例によるパターン抽出装置の
点線抽出処理を示すフローチャートである。
【図29】本発明の一実施例によるパターン抽出装置の
横直線統合処理を説明する図である。
【図30】本発明の一実施例によるパターン抽出装置の
直線統合を行うパターンの例を示す図である。
【図31】本発明の一実施例によるパターン抽出装置に
おける線密度及びオイラー数を説明する図である。
【図32】本発明の一実施例によるパターン抽出装置の
横直線統合処理を示すフローチャートである。
【図33】本発明の一実施例によるパターン抽出装置の
入れ子構造における直線検出方法を示す図である。
【図34】本発明の一実施例によるパターン抽出装置の
直線生成方法を示す図である。
【図35】本発明の一実施例によるパターン抽出装置の
直線伸長処理を説明する図である。
【図36】図36の部分的に拡大した図である。
【図37】本発明の一実施例によるパターン抽出装置の
直線伸長処理を示すフローチャートである。
【図38】本発明の一実施例によるパターン抽出装置の
矩形表現処理を示す図である。
【図39】本発明の一実施例によるパターン抽出装置の
横直線の組の決定処理を示すフローチャートである。
【図40】本発明の一実施例によるパターン抽出装置の
横直線の組の決定処理における横直線の配置状態を示す
図である。
【図41】本発明の一実施例によるパターン抽出装置の
入れ子構造の処理を説明する図である。
【図42】本発明の一実施例によるパターン抽出装置の
入れ子構造における縦枠決定処理を示すフローチャート
である。
【図43】本発明の一実施例によるパターン抽出装置の
文字領域決定処理を説明する図である。
【図44】本発明の一実施例によるパターン抽出装置の
文字領域決定処理を示すフローチャートである。
【図45】従来のパターン抽出装置で抽出可能な枠を示
す図である。
【図46】従来のパターン抽出装置で抽出可能な枠を示
す図である。
【図47】従来のパターン抽出装置で不抽出可能な枠を
示す図である。
【図48】従来のパターン抽出装置で直線伸長処理を行
った結果を示す図である。
【図49】従来のパターン抽出装置で直線統合処理を行
った結果を示す図である。
【符号の説明】
1、21 連結パターン抽出手段 2、23、32 直線抽出手段 3 かすれ補正手段 4、24、33 枠抽出手段 5、25、34 パターン領域抽出手段 11 規則性判定手段 12 傾き検出手段 13 線幅検出手段 14 直線伸長手段 15 優先手段 22 つぶれ補正手段 26 罫線パターン登録手段 27 比較判定手段 28 直線統合手段 31 画像圧縮手段 41 文字領域設定手段 42 接触文字判定手段 43 文字領域拡大手段 44 文字領域変換手段 45 文字補完手段 51 入力パターン 52 縮小処理部 53 連結パターン抽出部 54 マスク処理部 55 横直線抽出部 56 横隣接投影部 57 横線分検出部 58 横線分統合部 59 横直線検出部 60 横直線探索部 61 横点線検出部 62 横直線統合部 63 縦直線抽出部 64 縦隣接投影部 65 縦線分検出部 66 縦線分統合部 67 縦直線検出部 68 縦直線探索部 69 縦点線検出部 70 縦直線統合部 71 直線伸長部 72 横枠決定部 73 縦枠決定部 74 入れ子構造処理部 75 矩形内の横枠決定部 76 矩形内の縦枠決定部 77 矩形表現部 78 文字領域算出部 79 文字補完処理部 80 文字認識部
フロントページの続き (56)参考文献 特開 平5−12489(JP,A) 特開 平7−282193(JP,A) 特開 昭60−126777(JP,A) 特開 平5−166002(JP,A) 特開 平7−249100(JP,A) 特開 平8−77294(JP,A) 特開 平7−152859(JP,A) 特開 平7−141462(JP,A) 特開 平5−73721(JP,A) 特開 平3−122773(JP,A) 文書画像中のけい線・フィールドセパ レータの抽出のための一手法,電子情報 通信学会論文誌,日本,1995年12月25 日,第J78−D−II巻第12号,pp. 1935−1939 PRU90−73 表の構造理解のための 罫線抽出と領域分け,電子情報通信学会 技術研究報告,日本,1990年10月19日, 第90巻第251号,pp.33−38 (58)調査した分野(Int.Cl.7,DB名) G06K 9/00 - 9/82

Claims (13)

    (57)【特許請求の範囲】
  1. 【請求項1】入力された原画像データから連結した画素
    で構成される部分パターンを抽出する連結パターン抽出
    手段と、 前記部分パターンから直線を抽出する直線抽出手段と、 原画像の傾きに基づいて、前記直線のかすれを補正する
    かすれ補正手段と、 前記かすれ補正手段により補正された直線情報に基づい
    て、枠を抽出する枠抽出手段と、 前記枠抽出手段により抽出された枠情報に基づいて、パ
    ターン領域を抽出するパターン領域抽出手段とを備え、 前記かすれ補正手段は、 前記枠により構成される表が規則的な構造かどうかを判
    定する規則性判定手段と、 前記表を構成する直線の傾きを検出する傾き検出手段
    と、 前記表が規則的な構造である場合、かすれにより短くな
    った直線を前記直線の傾きを基準にして、短冊状の矩形
    により伸長する直線伸長手段とを備えることを特徴とす
    るパターン抽出装置。
  2. 【請求項2】前記かすれ補正手段は、前記直線伸長手段
    により直線を伸長する場合、かすれずに残っている直線
    部分に関しては、その直線部分をそのまま使用して直線
    を伸長する優先手段をさらに備えることを特徴とする請
    求項1に記載のパターン抽出装置。
  3. 【請求項3】前記かすれ補正手段は、かすれずに残って
    いる直線部分の幅を検出する線幅手段をさらに備え、前
    記幅を基準にしてかすれにより短くなった直線を伸長す
    ることを特徴とする請求項1に記載のパターン抽出装
    置。
  4. 【請求項4】前記枠により構成される表の構造上の規則
    を認識する認識手段と、 前記規則に応じて処理の内容を変更する変更手段をさら
    に備えることを特徴とする請求項1に記載のパターン抽
    出装置。
  5. 【請求項5】入力された原画像データから連結した画素
    で構成される部分パターンを抽出する連結パターン抽出
    手段と、 前記部分パターンのつぶれを補正するつぶれ補正手段
    と、 前記部分パターンから直線を抽出する直線抽出手段と、 前記直線抽出手段により抽出された直線情報に基づい
    て、枠を抽出する枠抽出手段と、 前記枠抽出手段により抽出された枠情報に基づいて、パ
    ターン領域を抽出するパターン領域抽出手段とを備え、 前記つぶれ補正手段は、 使用可能な罫線パターンを予め登録しておく罫線パター
    ン登録手段と、 前記部分パターンが前記罫線パターンに一致しているか
    どうかを判定する比較判定手段とを備え、 前記直線抽出手段は、前記比較判定手段で前記罫線パタ
    ーンに一致していると判定された部分パターンを、枠を
    構成する直線として抽出することを特徴とするパターン
    抽出装置。
  6. 【請求項6】前記直線抽出手段は、 ある行又は列の投影値に、周囲の行又は列の投影値を足
    し合わせた値を、その行又は列の投影値とする隣接投影
    法を用いて、前記部分パターンを構成する複数の矩形線
    分を検出する線分検出手段と、 前記線分検出手段によって得られた複数の線分を統合
    し、この統合された線分を矩形近似することにより直線
    を検出する直線検出手段と、 前記部分パターンが前記罫線パターンに一致している場
    合、前記直線検出手段により検出された直線のうち、縦
    方向の距離が所定の値以下の横線を統合するとともに、
    横方向の距離が所定の値以下の縦線を統合する直線統合
    手段を備えることを特徴とする請求項5に記載のパター
    ン抽出装置。
  7. 【請求項7】入力された原画像データを圧縮画像データ
    に変換する画像圧縮手段と、 前記圧縮画像データに基づいて直線抽出処理を行う直線
    抽出手段と、 前記圧縮画像データの直線情報に基づいて枠の抽出処理
    を行う枠抽出手段と、 前記圧縮画像データの枠情報に基づいて、前記原画像デ
    ータからパターン領域を抽出するパターン領域抽出手段
    とを備え、 前記パターン領域抽出手段は、 前記圧縮画像データにおける枠線の内側を文字領域とし
    て設定する文字領域設定手段と、 前記圧縮画像データにおける前記文字領域を前記原画像
    データにおける文字領域に変換することで前記パターン
    領域を抽出する文字領域変換手段と 前記文字領域変換手段により求めた文字領域の範囲にお
    いて、文字が接触している枠の投影処理を原画像データ
    を用いて行うことにより、文字の補完処理を行う文字補
    完手段と を備えることを特徴とするパターン抽出装置。
  8. 【請求項8】入力された原画像データを圧縮画像データ
    に変換する画像圧縮手段と、 前記圧縮画像データに基づいて直線抽出処理を行う直線
    抽出手段と、 前記圧縮画像データに基づいて点線抽出処理を行う点線
    抽出手段と、 前記圧縮画像データの直線情報又は点線情報に基づいて
    枠の抽出処理を行う枠抽出手段と、 前記圧縮画像データの枠情報に基づいて、前記原画像デ
    ータからパターン領域を抽出するパターン領域抽出手段
    とを備え、 前記パターン領域抽出手段は、 前記圧縮画像データにおける枠線の内側を文字領域とし
    て設定する文字領域設定手段と、 前記圧縮画像データにおける前記文字領域を前記原画像
    データにおける文字領域に変換することで前記パターン
    領域を抽出する文字領域変換手段と 前記文字領域変換手段により求めた文字領域の範囲にお
    いて、文字が接触している枠の投影処理を原画像データ
    を用いて行うことにより、文字の補完処理を行う文字補
    完手段と を備えることを特徴とするパターン抽出装置。
  9. 【請求項9】前記パターン領域抽出手段は、前記圧縮画
    像データの枠情報に基づいて、前記原画像データにおけ
    る枠情報を算出し、前記原画像データにおける枠情報に
    基づいて、前記原画像データからパターン領域を抽出す
    ることを特徴とする請求項7又は8に記載のパターン抽
    出装置。
  10. 【請求項10】前記パターン領域抽出手段は、枠線の内
    側を枠に沿って探索することにより、文字が枠に接触し
    ているかどうかの判定を行う接触文字判定手段をさらに
    備えることを特徴とする請求項7又は8に記載のパター
    ン抽出装置。
  11. 【請求項11】前記パターン領域抽出手段は、文字の接
    触している辺に関して、前記文字領域を所定の距離だけ
    外側に拡大する文字領域拡大手段をさらに備えることを
    特徴とする請求項10に記載のパターン抽出装置。
  12. 【請求項12】規則的な表を構成する一部の直線がかす
    れている場合、前記表を構成する直線の傾きを検出し、
    かすれにより短くなった直線を前記直線の傾きを基準に
    して、短冊状の矩形により他の直線と同じ長さまで伸長
    し、伸長した後の直線により構成される枠に基づいてパ
    ターン領域を抽出することを特徴とするパターン領域の
    切り出し方法。
  13. 【請求項13】入力された原画像データから連結した画
    素で構成される部分パターンを抽出する機能と、 前記部分パターンから直線を抽出する機能と、 表を構成する直線の傾きを検出する機能と、 前記表が規則的な構造である場合、かすれにより短くな
    った直線を前記直線の傾きを基準にして、短冊状の矩形
    により伸長する補正を行う機能と、 前記かすれを補正された直線情報に基づいて、枠を抽出
    する機能と、 前記枠情報に基づいて、パターン領域を抽出する機能と
    をコンピュータに実行させるプログラムを格納した前記
    コンピュータが読み取り可能な記憶媒体。
JP10998697A 1996-04-26 1997-04-28 パターン抽出装置及びパターン領域の切り出し方法 Expired - Fee Related JP3517077B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10998697A JP3517077B2 (ja) 1996-04-26 1997-04-28 パターン抽出装置及びパターン領域の切り出し方法

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP8-107568 1996-04-26
JP10756896 1996-04-26
JP10998697A JP3517077B2 (ja) 1996-04-26 1997-04-28 パターン抽出装置及びパターン領域の切り出し方法

Publications (2)

Publication Number Publication Date
JPH1040334A JPH1040334A (ja) 1998-02-13
JP3517077B2 true JP3517077B2 (ja) 2004-04-05

Family

ID=26447588

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10998697A Expired - Fee Related JP3517077B2 (ja) 1996-04-26 1997-04-28 パターン抽出装置及びパターン領域の切り出し方法

Country Status (1)

Country Link
JP (1) JP3517077B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020157938A1 (ja) * 2019-01-31 2020-08-06 株式会社Pfu 画像処理装置、制御方法及び制御プログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
PRU90−73 表の構造理解のための罫線抽出と領域分け,電子情報通信学会技術研究報告,日本,1990年10月19日,第90巻第251号,pp.33−38
文書画像中のけい線・フィールドセパレータの抽出のための一手法,電子情報通信学会論文誌,日本,1995年12月25日,第J78−D−II巻第12号,pp.1935−1939

Also Published As

Publication number Publication date
JPH1040334A (ja) 1998-02-13

Similar Documents

Publication Publication Date Title
US6754385B2 (en) Ruled line extracting apparatus for extracting ruled line from normal document image and method thereof
JP3904840B2 (ja) 多値画像から罫線を抽出する罫線抽出装置
US6043823A (en) Document processing system which can selectively extract and process regions of a document
JP3411472B2 (ja) パターン抽出装置
JP2000235619A (ja) 表画像処理装置及びそのプログラム記憶媒体
JPH0950527A (ja) 枠抽出装置及び矩形抽出装置
Winder et al. Extending page segmentation algorithms for mixed-layout document processing
JP3517077B2 (ja) パターン抽出装置及びパターン領域の切り出し方法
JP4281236B2 (ja) 画像認識装置、画像認識方法、および、画像認識プログラムを記憶したコンピュータ読取り可能な記録媒体
JP3642615B2 (ja) パターン領域切り出し方式及びパターン抽出装置
JP3798179B2 (ja) パターン抽出装置及び文字切り出し装置
JP2001109887A (ja) 領域抽出方法、宛名領域抽出方法、宛名領域抽出装置、及び画像処理装置
US7103220B2 (en) Image processing apparatus, method and program, and storage medium
JP3947173B2 (ja) 表画像処理装置、プログラム記録媒体、表画像処理方法
JP3565310B2 (ja) 一般の文書画像から罫線を抽出する罫線抽出装置および方法
JP3534997B2 (ja) 罫線抽出装置および方法
JP2715930B2 (ja) 線分検出方法
JPH0728934A (ja) 文書画像処理装置
JPH11242716A (ja) 画像処理方法および記録媒体
JPH05174179A (ja) 文書画像処理装置
JPH0728933A (ja) 文字認識装置
JPH06195505A (ja) 表認識装置
JPH08235308A (ja) 表認識装置
JPH08227440A (ja) 文書画像処理装置

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040120

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040122

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080130

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090130

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100130

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110130

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110130

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120130

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130130

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130130

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140130

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees