JP2000172782A - 画像抽出装置 - Google Patents

画像抽出装置

Info

Publication number
JP2000172782A
JP2000172782A JP11365345A JP36534599A JP2000172782A JP 2000172782 A JP2000172782 A JP 2000172782A JP 11365345 A JP11365345 A JP 11365345A JP 36534599 A JP36534599 A JP 36534599A JP 2000172782 A JP2000172782 A JP 2000172782A
Authority
JP
Japan
Prior art keywords
frame
character
intersection
line
extracting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11365345A
Other languages
English (en)
Inventor
Satoshi Naoi
聡 直井
Atsuko Asakawa
敦子 浅川
Masanori Yabuki
眞紀 矢吹
Yoshinobu Hotta
悦伸 堀田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP11365345A priority Critical patent/JP2000172782A/ja
Publication of JP2000172782A publication Critical patent/JP2000172782A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】 (修正有) 【課題】 枠に接触する文字画像から枠を抽出し、文字
を高品位に復元する。 【解決手段】 画素と画素が繋がっている部分パターン
を抽出する連結パターン抽出手段40と、一文字枠を抽
出する一文字枠抽出手段46と、一文字枠を除去した部
分パターンから直線を検出する直線抽出手段41,42
と、直線から枠を検出する枠検出手段43と、枠を部分
パターンから分離して文字、図形又は記号を切り出す枠
分離手段44とを備え、直線抽出手段は、一文字枠を除
去した部分パターン毎に、その画像全体に対して横長及
び縦長のマスク内で走査する手段と、マスク内のパター
ンの占める割合を算出する手段と、算出した値が所定値
より大きければそのマスク内を全てパターンとみなし、
所定値以下であればマスク内のパターンを削除すること
により縦横成分の抽出を行う手段とを含む。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は画像抽出装置に係わ
り、特にOCR等の手書き文字認識装置において文字
枠、罫線等に接触した文字、図形等を抽出するための画
像抽出装置に関する。手書き用の入出力装置として、手
書き文字認識装置の需要が増加している。この様な手書
き文字認識装置において個々の文字の高い認識率を実現
するためには、認識の前段階である文字の切出し処理が
正確に行われることが重要である。
【0002】認識の対象となる文書としては、帳票等の
文字を書く位置を予め指定された文書がある。この様な
文書では、文字を書く位置を指定した枠等がドロップ・
アウト・カラーでなく、黒枠等の罫線と文字とが同じ色
や濃度で書かれている。従って、文字が指定した範囲内
にきれいに書かれていれば比較的高い認識率で自動認識
が可能であるが、手書き文字が少しでも指定範囲を越え
て指定範囲を示す枠又は罫線に接触したりはみだしたり
すると、認識率が著しく低下するという問題が生じてい
た。
【0003】本発明は、上記問題に対して、罫線、枠等
に触れている文字、図形、記号等から文字、図形、記号
等だけを正確に抽出するための画像抽出装置に関するも
のである。つまり、本発明は、手書き用文字認識装置だ
けでなく、印刷文字認識装置や図面認識装置における文
字及び記号の切出し、画像中の罫線と物体、図形や文字
との接触部分の分離等のように、直線と広い意味での図
形が重なったパターンから図形だけを切り出す際に適用
することができる画像抽出装置に関する。
【0004】
【従来の技術】本出願人は、先に特願平5‐10325
7号にて図97に示す如き画像抽出方式を提案した。処
理の対象となる入力パターンは、予め極端な傾きや回転
の補正、雑音の除去、かすれの穴埋め等の前処理を施さ
れた2値画像であり、例えば黒枠の帳票から枠を除去す
るものとする。つまり、文字枠に関しては、横に細長い
一行のブロック枠が複数個あり、又、その枠のサイズ、
位置及び傾きが分からないブロック枠に対して手書き文
字が書かれており、文字が枠と接触したり枠からはみ出
していても枠だけを除去する。
【0005】画像抽出方式は、図97に示す如く、連結
パターン抽出部40と、線分検出部41と、直線検出部
42と、枠検出部43と、枠分離部44とからなる。連
結パターン抽出部40は、枠もしくは罫線等の直線部分
と文字、図形もしくは記号とから構成される入力パター
ンから画素と画素が繋がっている部分パターンを抽出す
る。線分検出部41は、細線化処理部を含み、隣接投影
により連結パターン毎に一定長さで線分又は直線の一部
を検出する。直線検出部42は、得られた複数の線分又
は直線の一部を統合して長い直線を検出する。枠検出部
43は、得られた複数の直線の間隔等により、文字枠を
構成する直線を抽出する。枠分離部44は、枠と枠の交
点によりブロック枠を一文字毎の枠に分割して夫々の枠
の幅を算出し、その幅に従って連結パターンから文字枠
を分離する。
【0006】他方、対象となる入力パターンから除去す
るべき枠が上記以外の枠の場合には、例えば特開昭62
‐212888号公報や特開平3‐126186号公報
にて提案されているような枠抽出方法も提案されてい
る。これらの枠抽出方法によれば、位置やサイズ等のフ
ォーマット情報及び傾きに関する情報を予め帳票データ
として入力し、格納しておく。枠の除去は、これらの格
納された情報に基づいて行われる。
【0007】
【発明が解決しようとする課題】ところで、本出願が先
に提案した画像抽出方式では、以下のような問題点があ
り、まだ改善の余地がある。第1に、対象とする枠が一
文字枠及び横一行のブロック枠以外の場合、即ち、表形
式のブロック枠やフリーフォーマット枠の場合には、枠
抽出処理を行うことができなかった。第2に、線分検出
部41は細線化部を含み細線化処理を行うので、処理時
間が非常に長かった。又、細線化処理を行うと、原画像
の直線性が失われてしまうので、例えば図98(a)に
示す原画像が細線化により図98(b)に示す如くな
り、枠の抽出が難しくなってしまった。第3に、一つの
文字が互いに隣合う複数の一文字枠を接続してしまって
いる場合、探索によって直線の途中が途切れていること
が分かった時点で、ブロック枠でも一文字枠でもないと
みなして以降の処理を行わなかった。第4に、一文字枠
を除去する場合、探索を行って枠抽出をするため、探索
が失敗して枠抽出を行うことができないこともあった。
【0008】上記第4の問題点を、図99に示す具体的
な例で説明する。探索の開始点がAの場合は、部分パタ
ーンの探索が、この例では上から下の方向へ、且つ、下
の方向へ進めない場合は左右に例えば枠の幅に対応する
所定の画素数分だけ進むので、探索が図99中矢印で示
す如く良好に行われる。しかし、探索の開始点がBの場
合は、部分パターンの探索を下の方向へ進めることはで
きず、又、左右に所定の画素数分進んでも下の方向には
部分パターンが存在しないので、図99中矢印で示す如
く探索は失敗してしまう。従って、この後者の場合に
は、枠抽出を行うことができない。
【0009】他方、特開昭62‐212888号公報や
特開平3‐126186号公報にて提案されているよう
な枠抽出方法では、対象とする枠が表形式のブロック枠
等であっても、枠の抽出が可能である。しかし、その反
面、位置やサイズ等のフォーマット情報及び傾きに関す
る情報を予め帳票データとして入力し、格納しておくこ
とが前提となっているので、処理が文字枠自体の凹凸や
僅かな傾きの影響を受け易いという第5の問題点があっ
た。つまり、所定の位置からはみ出した文字枠を文字と
みなして文字枠の抽出時に抽出しなかったり、逆に文字
部分を枠として抽出してしまったりすることがあった。
更に、ユーザーによる各枠に関する情報の入力には非常
に時間がかかり、ユーザーに対する負担が大きいという
問題もあった。
【0010】本発明は、上記問題点を改善するためにな
されたものであって、枠、罫線等の直線部分に触れてい
る文字、図形、記号等から枠、罫線等の直線部分を正確
に抽出及び分離して、文字、図形、記号等を正確に切り
出すことにより、枠、罫線等の直線部分に接触した文
字、図形、記号等を高品位で復元することができ、これ
らの認識率を著しく向上させることができる画像抽出装
置を提供することを目的とする。
【0011】
【課題を解決するための手段】上記第2の課題は、第1
の発明である、一文字枠を含む表形式のブロック枠又は
フリーフォーマット枠と、文字、図形もしくは記号とか
ら構成される画像から画素と画素が繋がっている部分パ
ターンを抽出する連結パターン抽出手段40と、該連結
パターン抽出手段40により抽出された部分パターンに
基づいて前記画像から一文字枠を抽出する一文字枠抽出
手段46と、該連結パターン抽出手段40により抽出さ
れ、一文字枠を該一文字枠抽出手段46により除去され
た部分パターンから直線を検出する直線抽出手段41,
42と、該直線抽出手段41,42により検出された直
線から枠を構成する直線を検出する枠検出手段43と、
該枠検出手段43により検出された直線を部分パターン
から分離することにより文字、図形もしくは記号を切り
出す枠分離手段44とを有し、該直線抽出手段41,4
2は、該連結パターン抽出手段40により抽出され該一
文字枠抽出手段46により一文字枠を除去された部分パ
ターン毎に、一文字枠を除去された部分パターンの画像
全体に対して横長及び縦長の2種類のマスク内で走査を
行う手段と、前記マスク内のパターンの占める割合を算
出する手段と、算出された値が所定値より大きければそ
のマスク内を全てパターンとみなすと共に、算出された
値が所定値以下であればマスク内のパターンを削除する
ことにより縦横成分の抽出を行う手段とを含む、画像抽
出装置によって達成される。
【0012】上記第1及び第5の課題は、第2の発明で
ある、一文字枠を含む表形式のブロック枠又はフリーフ
ォーマット枠と、文字、図形もしくは記号とから構成さ
れる画像から画素と画素が繋がっている部分パターンを
抽出する連結パターン抽出手段40と、該連結パターン
抽出手段40により抽出された部分パターンに基づいて
前記画像から一文字枠を抽出する一文字枠抽出手段46
と、該連結パターン抽出手段40により抽出され、一文
字枠を該一文字枠抽出手段46により除去された部分パ
ターンから直線を検出する直線抽出手段41,42と、
該直線抽出手段41,42により検出された直線から枠
を構成する直線を検出する枠検出手段43と、該枠検出
手段43により検出された直線を部分パターンから分離
することにより文字、図形もしくは記号を切り出す枠分
離手段44とを有し、該枠検出手段43は、該直線検出
手段41,42で検出された横枠を構成する直線の候補
のうち所定値以上の長さのものを横枠として検出する手
段と、検出した横枠に基づいて隣接する横枠が2本の場
合には横一行のブロック枠又はフリーフォーマット枠を
検出すると共に、横枠が3本以上の場合には表形式のブ
ロック枠を検出する手段とを含む、画像抽出装置によっ
て達成される。
【0013】上記第3の課題は、第3の発明である、一
文字枠を含む表形式のブロック枠又はフリーフォーマッ
ト枠と、文字、図形もしくは記号とから構成される画像
から画素と画素が繋がっている部分パターンを抽出する
連結パターン抽出手段40と、該連結パターン抽出手段
40により抽出された部分パターンに基づいて前記画像
から一文字枠を抽出する一文字枠抽出手段46と、該連
結パターン抽出手段40により抽出され、一文字枠を該
一文字枠抽出手段46により除去された部分パターンか
ら直線を検出する直線抽出手段41,42と、該直線抽
出手段41,42により検出された直線から枠を構成す
る直線を検出する枠検出手段43と、該枠検出手段43
により検出された直線を部分パターンから分離すること
により文字、図形もしくは記号を切り出す枠分離手段4
4と、該直線抽出手段41,42における横枠検出が失
敗した部分パターンについて枠抽出及び除去処理を行う
枠抽出・除去手段45とを有する画像抽出装置によって
達成される。
【0014】上記第4の課題は、第4の発明である、一
文字枠を含む表形式のブロック枠又はフリーフォーマッ
ト枠と、文字、図形もしくは記号とから構成される画像
から画素と画素が繋がっている部分パターンを抽出する
連結パターン抽出手段40と、該連結パターン抽出手段
40により抽出された部分パターンに基づいて前記画像
から一文字枠を抽出する一文字枠抽出手段46と、該連
結パターン抽出手段40により抽出され、一文字枠を該
一文字枠抽出手段46により除去された部分パターンか
ら直線を検出する直線抽出手段41,42と、該直線抽
出手段41,42により検出された直線から枠を構成す
る直線を検出する枠検出手段43と、該枠検出手段43
により検出された直線を部分パターンから分離すること
により文字、図形もしくは記号を切り出す枠分離手段4
4とを有し、該直線抽出手段41,42は、部分パター
ンから直線を検出するために線分の探索を行う際に、枠
であると判断された矩形線分内で最も細い部分を探索の
開始点とする手段を含む画像抽出装置によって達成され
る。
【0015】第5の発明は、矩形で各矩形が分離した枠
と文字、図形もしくは記号とから構成される画像から、
枠を抽出する画像抽出装置において、画像を構成するパ
ターンから画素と画素が繋がっている部分パターンを抽
出する連結パターン抽出手段21と、抽出された各部分
パターンに基づいて枠を抽出する枠抽出手段22と、抽
出された部分パターン及び枠に基づいて文字と枠との交
点を算出する交点算出手段25−1,25−2と、枠の
線幅に応じて枠を挟む文字線分間の距離及び傾きの連続
性の判定基準を適応的に変化させ、前記距離及び傾きの
連続性に基づいて交点の対応付けを行う交点対応付け手
段55,61と、対応付けられた交点に基づいて枠内の
文字線分を抽出する枠内文字抽出手段56とを有する画
像抽出装置である。
【0016】第1の発明によれば、マスク処理を行うの
で、原画像の直線性を失うことなく、且つ、比較的短い
処理時間で線分を検出できる。第2の発明によれば、フ
ォーマット情報を必要とすることなく、表形式のブロッ
ク枠及びフリーフォーマット枠を抽出することができ
る。第3の発明によれば、直線に途切れが見つかり処理
が終ってしまっても、マッチング処理を行うことにより
一文字範囲を抽出して枠の抽出をすることができる。
【0017】第4の発明によれば、線分の探索の成功率
を向上することができる。第5の発明によれば、枠に接
触している文字の文字幅より枠幅が大きい場合、枠が傾
斜している場合等であっても、交点の対応付け等をより
正確に行って文字の切出し精度を向上できる。
【0018】
【発明の実施の形態】図1は、本発明になる画像抽出装
置の第1実施例を示す図である。処理の対象となる入力
パターンは、予め極端な傾きや回転の補正、雑音の除
去、かすれの穴埋め等の前処理を施された2値画像であ
るものとする。又、本実施例では便宜上黒枠の帳票から
枠を除去するものとする。つまり、サイズ、位置及び傾
きが分からない枠に対して手書き文字が書かれており、
文字が枠と接触したり枠からはみ出していても枠だけを
除去する。処理の対象となる枠は、図18(a)に示す
規則的な表形式のブロック枠、同図(b)に示す不規則
な表形式のブロック枠、同図(c)に示すフリーフォー
マット枠を含む。
【0019】本実施例では、図1に示す如く、連結パタ
ーン抽出部40と、一文字枠抽出部46と、線分検出部
41と、直線検出部42と、枠検出部43と、枠分離部
44と、枠抽出・除去部45とが設けられている。連結
パターン抽出部40は、枠もしくは罫線等の直線部分と
文字、図形もしくは記号とから構成される入力パターン
から画素と画素が繋がっている部分パターンを抽出す
る。一文字枠抽出部46は、部分パターンから一文字枠
を抽出する。線分検出部41は、一文字枠を除去された
パターンに対して、隣接投影により連結パターン毎に一
定長さで線分又は直線の一部を検出する。直線検出部4
2は、得られた複数の線分又は直線の一部を統合して長
い直線を検出する。枠検出部43は、得られた複数の直
線の間隔等により、文字枠を構成する直線を抽出する。
枠分離部44は、枠と枠の交点によりブロック枠を一文
字毎の枠に分割して夫々の枠の幅を算出し、その幅に従
って連結パターンから文字枠を分離する。枠抽出・除去
部45は、直線検出部42における横枠検出が失敗した
部分パターンについて後述する枠抽出・除去処理を行
う。
【0020】尚、枠を分離した後の処理としては、例え
ば後述する図36に示す文字/枠交点算出部25a〜図
37に示す連結パターン統合部34までの処理が考えら
れる。連結パターン抽出部40は、ラベリング部40a
からなる。複数のブロック枠が配置される位置の相対的
な関係に依存することなく各パターンを安定に抽出する
ために、ラベリング部40aでは8連結で繋がっている
パターンをラベリングにより抽出する。このラベリング
により得られた部分パターンは、文字が接触していない
場合の枠、枠に接触していない文字或は文字の一部、文
字の接触している枠のうち、いずれかである。そこで、
これらの部分パターンを判別して枠を抽出する。又、ラ
ベリングで得られた部分パターンのサイズが後で必要と
なるので、部分パターンを矩形近似して得られる矩形の
角の座標をラベリングの処理中に算出しておく。
【0021】本実施例では、一文字枠抽出部56は図2
に示す如く、線分検出部141と、直線検出部142
と、枠検出部143と、枠分離部144とからなる。線
分検出部141は、隣接投影により連結パターン毎に一
定長さで線分又は直線の一部を検出する。直線検出部1
42は、得られた複数の線分又は直線の一部を統合して
長い直線を検出する。枠検出部143は、得られた複数
の直線の間隔等により、文字枠を構成する直線を抽出す
る。枠分離部144は、枠と枠の交点によりブロック枠
を一文字毎の枠に分割して夫々の枠の幅を算出し、その
幅に従って連結パターンから一文字枠を分離する。図2
中、図1と実質的に同じ部分には同一符号を付す。
【0022】線分検出部141は、細線化部41a、隣
接投影部41b、縦横線分検出部41c及び横線分探索
部41dからなる。細線化部41aは、ラベリングで得
られた部分パターン毎に細線化処理を行う。この細線化
処理は、線幅の太さを同じにして、枠だけに存在する長
い直線を抽出し易くするために行うものであり、細線化
処理自体としては、公知の技術を使用し得る。尚、部分
パターンの細線化処理前の原パターンは、細線化された
パターンとは別に記憶しておき、後述する線分の探索時
と枠分離時とに使用する。
【0023】隣接投影部41bは、細線化されたパター
ンを縦横複数に分割し、縦横夫々の分割範囲内で隣接投
影を算出して、ある一定の長さの線分或は直線の一部を
矩形近似により検出する。「隣接投影」とは、注目行又
は列の投影値に周囲の行又は列の投影値を足し合わせた
結果を、投影値とするものである。これにより、直線が
傾きによって複数行又は列にわたっていても、直線を検
出することができる。従って、隣接投影を用いることに
より、ブロック枠等の大きな枠で、かつ、枠が傾いてい
る場合であっても、枠を構成する直線を検出することが
可能である。例えば図3に示すようにi行の投影値をp
(i)とすると、隣接投影値P(i)は次の(1)式に
基づいて算出できる。尚、図3ではj=1である。又、
列の投影値も行の投影値と同様に算出可能である。
【0024】 P(i)=p(i−j)+p(i−j+1)+・・・ +p(i)+・・・+p(i+j) (1) 図4は、隣接投影部41bの処理の一実施例をより詳細
に説明する図であり、処理をソフトウェアで実現する場
合のフローチャートを示す。図4において、ステップS
301は連結パターン抽出部40で得られた部分パター
ンを縦方向及び横方向の複数の部分で分割する。ステッ
プS302は、縦横夫々の分割範囲内で投影を算出す
る。ステップS303は、算出された夫々の投影値に周
囲の投影値を加算する。更に、ステップS304は、上
記(1)式に基づいて隣接投影値を算出する。
【0025】縦横線分検出部41cは、隣接投影部41
bで算出された隣接投影値と縦横夫々の分割長との比が
所定のしきい値以上である部分を直線の候補のある位置
とする。又、例えば図5の部分aのように、複数の行又
は列が続いて所定のしきい値以上となった場合は、それ
らをまとめた矩形範囲に直線があるものとする。検出さ
れた直線又は直線の一部は矩形近似されているため、以
後「矩形線分」と呼ぶ。
【0026】尚、隣接投影でなく通常の投影を用いる
と、傾いている長い直線は検出不能なため、部分パター
ンの分割数を多くし、分割長を短くする必要がある。し
かし、分割長が短くなると、文字を構成している短い直
線も多数検出されてしまう。これに対し、本実施例では
上記隣接投影を用いているので、比較的長い直線をも検
出可能である。
【0027】図6は、縦横線分検出部41cの処理の一
実施例をより詳細に説明する図であり、処理をソフトウ
ェアで実現する場合のフローチャートを示す。図6にお
いて、ステップS311は隣接投影部41bで算出され
た隣接投影値と縦横夫々の分割長との比が所定のしきい
値以上であるか否かを判定する。ステップS311の判
定結果がNOであれば、ステップS312で線分が存在
しないものと判断する。他方、ステップS311の判定
結果がYESであれば、ステップS313で線分が存在
するものと判断する。この場合、ステップS314はは
存在すると判断された線分が、その上下にある線分と接
しているか否かを判定する。ステップS314の判定結
果がNOであれば、ステップS314は存在すると判断
された線分を矩形線分とする。他方、ステップS314
の判定結果がYESであれば、ステップS316は存在
すると判断された線分とその上下にある線分とを統合
し、ステップS317は統合された線分を矩形線分とす
る。
【0028】横線分探索部41dは、縦横線分検出部4
1cで検出された矩形線分のうち、横線分が途中で切れ
ていないかどうかを確かめるための探索を行う。探索の
開始点は、矩形線分のなかで一番細い部分とする。例え
ば図7に「白丸」で示す中点等の一定の場所を開始点と
すると、同図に示す如く開始点が文字の部分であった場
合に探索が失敗する可能性が高いが、「黒丸」で示す一
番細い部分は文字である可能性が低いため、より確実に
探索を行うことができる。
【0029】図8は、横線分探索部41dの処理の一実
施例をより詳細に説明する図であり、処理をソフトウェ
アで実現する場合のフローチャートを示す。図8におい
て、ステップS321は縦横線分検出部41cで検出さ
れた矩形線分のうち、最も線幅の細い部分を算出する。
ステップS322は、算出された最も線幅の細い部分を
開始点として、左右に探索を開始する。ステップS32
3は探索を行い、ステップS324は分岐点が存在する
か否かを判定する。ステップS324の判定結果がYE
Sであれば、ステップS325で分岐点を記憶する。
又、ステップS324の判定結果がNO或はステップS
325の後で、ステップS326が矩形線分の端に達し
たか否か、或は、探索が失敗したか否かを判定する。ス
テップS326の判定結果がNOであれば、処理はステ
ップS323へ戻る。
【0030】他方、ステップS326の判定結果がYE
Sの場合は、ステップS327で探索を終了し、ステッ
プS328で分岐点を記憶したか否かを判定する。ステ
ップS328の判定結果がNOであれば、処理は後述す
るステップS333へ進む。ステップS328の判定結
果がYESであれば、ステップS329で記憶されてい
る分岐点に戻って、ステップS330で探索を行う。ス
テップS331は、矩形線分の端に達したか否か、或
は、探索が失敗したか否かを判定する。ステップS33
1の判定結果がNOであれば、処理はステップS330
へ戻る。他方、ステップS331の判定結果がYESで
あれば、ステップS232で探索を終了し、ステップS
333で探索の終了点が矩形線分の左右の端に達したか
否かを判定する。ステップS333の判定結果がNOで
あれば、ステップS334は矩形線分が横線分ではない
と判断する。又、ステップS333の判定結果がYES
であれば、ステップS335は矩形線分が横線分である
と判断する。
【0031】図2の説明に戻ると、直線検出部142
は、線分統合部42a、直線検出部42b、線分統合部
42c及び直線検出部42bからなる。線分統合部42
a及び直線検出部42bは、横線分に対して設けられて
おり、線分統合部42c及び直線検出部42bは縦線分
に対して設けられている。直線検出部142は、図9
(a)に示す線分y,zのように、途中で途切れていな
い矩形線分同士が接触或は繋がっていれば、これらの矩
形線分を統合して長い直線とする。更に、図9(a)に
示す線分x,yのように、矩形線分が互いに繋がってい
なくても、垂直方向の距離が上記隣接投影の際加える行
又は列数j以内であれば、これらの矩形線分を統合して
長い直線とする。直線検出部42bは、線分統合部42
aで統合された直線の長さと、部分パターンを近似する
矩形の長さとの比が所定のしきい値以上であれば、横枠
を構成する直線の候補であると判断する。尚、直線検出
部42bは、図9(b)に示すように、線分統合部42
aで統合された線分xの左上の座標と線分zの右上の座
標を結んだ直線の傾きから、統合された直線の傾き、即
ち、部分パターンの傾きを求める。この部分パターンの
傾きは、後述する処理において用いられる。縦線分につ
いては、線分統合部42c及び直線検出部42bによ
り、検出された全ての矩形線分について、上記線分統合
部42a及び直線検出部42bと同様な処理を行う。つ
まり、線分統合部42cは矩形線分の統合を行って直線
を検出し、直線検出部42bは検出された直線を矩形近
似して縦枠を構成する直線の候補であると判断する。
【0032】図10は、直線検出部142の線分統合部
42a及び線分統合部42cの処理の一実施例をより詳
細に説明する図であり、処理をソフトウェアで実現する
場合のフローチャートを示す。図10において、ステッ
プS341は検出された矩形線分同士の距離を算出す
る。ステップS342は、算出された距離が隣接投影の
際加える行又は列数以内であるか否かを判定する。ステ
ップS342の判定結果がNOであれば、ステップS3
43で矩形線分の統合は行わないものとする。他方、ス
テップS342の判定結果がYESであれば、ステップ
S344は矩形線分の統合を行う。
【0033】再び図2の説明に戻ると、枠検出部143
は、横枠検出部43a、探索部43b、線間隔算出部4
3c、ヒストグラム作成部43d及び縦枠検出部43e
からなる。横枠検出部43aは、直線検出部42の直線
検出部42bで検出された横枠を構成する直線の候補か
ら、横枠を検出する。本実施例では、横一行、かつ、一
文字ずつ等間隔の枠を持つブロック枠を対象としている
ため、得られた横方向の直線の中で最外郭のものを横枠
とする。探索部43bは、縦枠を検出するため、直線検
出部142の直線検出部42dで検出された縦枠を構成
する直線の候補及び横枠検出部43aで検出された横枠
に基づいて、縦線分の探索を行う。具体的には、縦枠の
候補の直線が、横枠検出部43aで得られた上下の横枠
まで達しているか、或は、途中で途切れていないかを、
探索により調べる。探索方法は、横線の場合と同様に、
矩形範囲内で一番細いところを開始点とする。探索の結
果、上下共に横枠に達している縦直線は縦枠の候補と
し、その他は文字の一部分とみなして省く。次に、線間
隔算出部43cで、縦線の候補に残った縦直線同士の間
隔を算出する。又、ヒストグラム作成部43dは、算出
された線間隔とその出現頻度をヒストグラムに示し、縦
枠検出部43eは、著しく他と異なる間隔を形成する縦
直線を縦枠の候補から除外することにより、縦枠の候補
から除外されなかった縦直線を縦枠であるものとする。
【0034】図11は、探索部43bの処理の一実施例
をより詳細に説明する図であり、処理をソフトウェアで
実現する場合のフローチャートを示す。同図中、図8と
実質的に同じステップには同一符号を付し、その説明は
省略する。図11において、ステップS342は、最も
細い部分を開始点として上下に探索を開始する。ステッ
プS346及びステップS351は、夫々上下の横枠に
達したか、或は、探索が失敗したか否かを判定する。ス
テップS353は、探索終了点が上下の横枠に達したか
否かを判定する。ステップS353の判定結果がNOで
あればステップS354は縦枠の可能性がないと判断
し、判定結果がYESであればステップS355は縦枠
の可能性があると判断する。
【0035】次に、図2の枠分離部144の説明をす
る。枠分離部144は、枠交点算出部44a、一文字範
囲分離部44b、投影部44c、直線検出部44d、枠
探索部44e、辺幅算出部44f、枠除去部44g及び
接触文字補間部44hとからなる。枠交点算出部44a
は、枠検出部143から得られた縦枠及び横枠から、縦
枠と横枠との交点を算出する。図12に示す例では、交
点A1,B1,A2,B2,・・・を算出する。そし
て、一文字範囲分離部44bは、図12に示すように、
算出した交点を用いて(A1,A2,A3,A4)、
(B1,B2,B3,B4)、・・・という具合に、左
から一文字ずつの範囲に分離して行く。この結果、夫々
の分離部分は一文字枠と同様になる。投影部44cは、
各分離部分の投影を算出し、直線検出部44dは、得ら
れた投影から直線を検出する。より具体的には、直線検
出部44dは、各分離部分の各行及び列の投影値と各分
離部分を矩形近似して得た矩形との夫々の比を計算し、
その比より文字枠を構成する直線の候補を求める。枠探
索部44eは、文字枠を構成する直線の候補の中から直
線間の距離を算出し、文字枠を構成する最外郭の直線を
抽出することにより、各文字枠を探索して文字枠の位置
を求める。辺幅算出部44fは、最外郭の直線に隣接す
る候補直線を求め、探索された文字枠の各辺の線幅を算
出する。枠除去部44gは、各辺の最外郭の直線の位置
及び算出された各辺の線幅に基づいての一文字枠を一つ
ずつ除去する。接触文字補間部44hは、文字枠が除去
されることによって欠けてしまった文字部分を補間す
る。これにより、文字枠を除去されて文字が一文字ずつ
切り出されて行く。
【0036】尚、枠が図13のように傾いていると、各
枠の上下に除去されない部分ra,rb,rc,rdが
残ってしまうこともある。そこで、上記直線検出部14
2で求めた傾きが比較的大きい場合は、枠除去部44g
での枠の除去範囲を少し多めにしても良い。図14及び
図15は、本実施例により文字を切り出した場合の一例
を説明する図である。図14(a)は原パターンを示
し、同図(b)は図2の枠分離部44の枠除去部44g
により抽出された枠を示す。図15(a)は枠分離部4
4の枠除去部44gで枠を抽出することにより切り出さ
れた文字を示し、同図(b)は枠分離部44の接触文字
補間部44hにより補間された文字を示す。
【0037】以上説明したように、抽出された部分パタ
ーンのうち一文字ずつ枠で仕切られている一文字枠に対
し、各部分パターンから直線を抽出し、抽出された直線
が枠であるか否かを判断し、文字領域を残して一文字枠
の枠線を消去する。尚、一文字枠の抽出方法は図2の方
法に限定されるものではなく、例えば後述する図29の
連結パターン抽出部1、線幅の太い直線抽出部2、線幅
の細い直線抽出部3及び枠抽出部4からなる部分により
一文字枠の抽出を行っても良い。
【0038】図1に戻って説明すると、線分検出部41
は、マスク処理部41A、隣接投影部41b、縦横線分
検出部41c及び横線分探索部41dからなる。マスク
処理部41Aは、ラベリングで得られた部分パターンか
ら一文字枠を除去した部分パターン毎に以下に説明する
マスク処理を行う。このマスク処理は、一文字枠を除去
された原部分パターンの画像全体に対して横長及び縦長
の2種類のマスク内で走査を行い、マスク内のパターン
の占める割合を算出する。算出された値が所定値より大
きければ、そのマスク内を全てパターンとみなす。他
方、算出された値が所定値以下であれば、マスク内のパ
ターンを削除することにより縦横成分の抽出を行う。複
数の行又は列が続いて上記割合が所定値より大きくなる
と、それらの行又は列をまとめて矩形範囲を作成し、そ
の矩形範囲の中心線を処理結果とする。
【0039】尚、マスク処理の結果に得られる線分間で
隙間が開かないようにするには、マスク処理を行う範囲
に各々重なりを持たせれば良い。図16は、縦×横が1
×6画素の矩形範囲を指定するマスクにより横成分を抽
出する場合を説明する図である。同図中、(a)は互い
に重なり合ったマスク「1」〜「9」を示す。又、同図
(b)は原部分パターンの画像の一例を示し、同図
(c)は(a)に示すマスクを用いてマスク処理を行っ
た場合に抽出される横成分を示す。同図中、黒い丸印が
抽出された横成分の画素を表す。
【0040】図17は、マスク処理部41Aの処理の一
実施例をより詳細に説明する図であり、処理をソフトウ
ェアで実現する場合のフローチャートを示す。図17に
おいて、ステップS1は、原部分パターンの画像全体に
対して横長及び縦長の2種類のマスク内で走査を行う。
ステップS2は、マスク内のパターンの占める割合、即
ち、マスクの大きさに対するマスク内のパターンの面積
を算出し、この割合が所定値より大きいか否かを判断す
る。ステップS2の判断結果がNOであれば、ステップ
S3で縦成分又は横成分がないと判断して処理が終る。
他方、ステップS2の判断結果がYESの場合は、ステ
ップS4でマスク内を全てパターンとみなし、全てを縦
成分又は横成分とする。ステップS5は、得られた成分
が上下の成分又は左右の成分と接しているか否かを判断
する。ステップS5の判断結果がNOであると、ステッ
プS6で得られた成分を処理結果として出力する。
【0041】ステップSS5の判断結果がYESの場合
は、ステップS7で接している成分を統合し、ステップ
S8で統合された成分から矩形範囲を作成する。ステッ
プS9は作成された矩形範囲の中心線を算出し、ステッ
プS10はその中心線を処理結果として出力する。尚、
部分パターンのマスク処理前の原部分パターンは、マス
ク処理されたパターンとは別に記憶しておき、後述する
線分の探索時と枠分離時とに使用する。
【0042】隣接投影部41bは、図2に示す隣接投影
部41bと同様に、マスク処理されたパターンを縦横複
数に分割し、縦横夫々の分割範囲内で隣接投影を算出し
て、ある一定の長さの線分或は直線の一部を矩形近似に
より検出する。これにより、直線が傾きによって複数行
又は列にわたっていても、直線を検出することができ
る。従って、隣接投影を用いることにより、ブロック枠
等の大きな枠で、かつ、枠が傾いている場合であって
も、枠を構成する直線を検出することが可能である。
【0043】縦横線分検出部41cは、図2に示す縦横
線分検出部41cと同様に、隣接投影部41bで算出さ
れた隣接投影値と縦横夫々の分割長との比が所定のしき
い値以上である部分を直線の候補のある位置とする。
又、例えば図5の部分aのように、複数の行又は列が続
いて所定のしきい値以上となった場合は、それらをまと
めた矩形範囲に直線があるものとする。検出された直線
又は直線の一部は矩形近似されているため、「矩形線
分」と呼ぶ。
【0044】尚、隣接投影でなく通常の投影を用いる
と、傾いている長い直線は検出不能なため、部分パター
ンの分割数を多くし、分割長を短くする必要がある。し
かし、分割長が短くなると、文字を構成している短い直
線も多数検出されてしまう。これに対し、本実施例では
上記隣接投影を用いているので、比較的長い直線をも検
出可能である。
【0045】横線分探索部41dは、図2に示す横線分
探索部41dと同様に、縦横線分検出部41cで検出さ
れた矩形線分のうち、横線分が途中で切れていないかど
うかを確かめるための探索を行う。探索の開始点は、矩
形線分のなかで一番細い部分とする。例えば図7に「白
丸」で示す中点等の一定の場所を開始点とすると、同図
に示す如く開始点が文字の部分であった場合に探索が失
敗する可能性が高いが、「黒丸」で示す一番細い部分は
文字である可能性が低いため、より確実に探索を行うこ
とができる。
【0046】図1の説明に戻ると、直線検出部42は、
線分統合部42a、直線検出部42b、線分統合部42
c及び直線検出部42dからなる。線分統合部42a及
び直線検出部42bは、横線分に対して設けられてお
り、線分統合部42c及び直線検出部42bは縦線分に
対して設けられている。直線検出部42は、前記した図
9(a)に示す線分y,zのように、途中で途切れてい
ない矩形線分同士が接触或は繋がっていれば、これらの
矩形線分を統合して長い直線とする。更に、図9(a)
に示す線分x,yのように、矩形線分が互いに繋がって
いなくても、垂直方向の距離が上記隣接投影の際加える
行又は列数j以内であれば、これらの矩形線分を統合し
て長い直線とする。直線検出部42bは、線分統合部4
2aで統合された直線の長さと、部分パターンを近似す
る矩形の長さとの比が所定のしきい値以上であれば、横
枠を構成する直線の候補であると判断する。尚、直線検
出部42bは、図9(b)に示すように、線分統合部4
2aで統合された線分xの左上の座標と線分zの右上の
座標を結んだ直線の傾きから、統合された直線の傾き、
即ち、部分パターンの傾きを求める。この部分パターン
の傾きは、後述する処理において用いられる。縦線分に
ついては、線分統合部42c及び直線検出部42bによ
り、検出された全ての矩形線分について、上記線分統合
部42a及び直線検出部42bと同様な処理を行う。つ
まり、線分統合部42cは矩形線分の統合を行って直線
を検出し、直線検出部42bは検出された直線を矩形近
似して縦枠を構成する直線の候補であると判断する。
【0047】再び図1の説明に戻ると、枠検出部43
は、横枠検出部43a、探索部43b、線間隔算出部4
3c、ヒストグラム作成部43d、縦枠検出部43e及
び隣接横枠選択部43Fからなる。横枠検出部43a
は、直線検出部42の直線検出部42bで検出された横
枠を構成する直線の候補から、横枠を検出する。本実施
例では、一文字枠が除去されている図18に示す如き枠
を対象としているため、得られた横方向の直線の中でラ
ベルサイズと比較して所定値以上の長さのものを横枠と
する。隣接横枠選択部43Fは、横枠検出部43aで検
出した横枠に基づいて、隣接する2本の横枠を選択す
る。例えば、横枠が2本の場合には横一行のブロック枠
又はフリーフォーマット枠であることがわかり、横枠が
3本以上の場合には表形式のブロック枠であることがわ
かる。探索部43bは、縦枠を検出するため、直線検出
部42の直線検出部42dで検出された縦枠を構成する
直線の候補及び横枠検出部43aで検出した横枠に基づ
いて、縦線分の探索を行う。具体的には、縦枠の候補の
直線が、横枠検出部43aで得られた上下の横枠まで達
しているか、或は、途中で途切れていないかを、探索に
より調べる。探索方法は、横線の場合と同様に、矩形範
囲内で一番細いところを開始点とする。探索の結果、上
下共に横枠に達している縦線は縦枠の候補とし、その他
は文字の一部分とみなして省く。次に、線間隔算出部4
3cで、縦線の候補に残った縦線同士の間隔を算出す
る。又、ヒストグラム作成部43dは、算出された線間
隔とその出現頻度をヒストグラムに示し、縦枠検出部4
3eは、処理の対象が図18(a)に示す如き規則的な
表形式のブロック枠の場合、隣接横枠選択部43fによ
り検出された2本の隣合う横枠に挟まれた範囲内の縦線
のうち、著しく他と異なる間隔を形成する縦線を縦枠の
候補から除外することにより、縦枠の候補から除外され
なかった縦線を縦枠であるものとする。
【0048】本実施例では、横枠が2本で縦枠が左端と
右端の2本しかない場合、抽出する枠がフリーフォーマ
ット枠であるとみなす。しかし、枠抽出の際、長い直線
は傾きがある場合に検出しにくいので、図19に示す如
く一定長さの単位に分割する。又、分割された部分がフ
リーフォーマット枠中のどの位置に対応するかで、消去
する枠の本数と位置を変化させる。つまり、分割された
部分がフリーフォーマット枠の左端位置に対応していれ
ば、左、上及び下の枠を消去する。分割された部分がフ
リーフォーマット枠の右端位置に対応していれば、右、
上及び下の枠を消去する。又、分割された部分がフリー
フォーマット枠の中間位置に対応していれば、上及び下
の枠のみをを消去する。
【0049】他方、抽出する枠が表形式のブロック枠で
ある場合、隣接横枠選択部43fは、横枠のうち隣合う
2本ずつを選択し、図20に示す如く各隣合う2本の横
枠を上下の横枠とする一行のブロック枠が縦に重なって
いるものとみなす。従って、この場合は一行ずつ1ブロ
ック枠の場合と同様の処理を行うことが可能である。
尚、処理の対象が図18(b)に示す如き不規則な表形
式のブロック枠の場合、縦枠検出部43eは、縦枠の候
補に残った縦線同士の間隔(距離)が文字サイズと比較
して極端に小さいと、その縦線を縦枠の候補から除外す
ることにより、縦枠の候補から除外されなかった縦線を
縦枠であるものとする。又、処理の対象が図18(a)
に示す如き規則的な表形式のブロック枠の場合、隣接横
枠選択部43fにより検出された2本の隣合う横枠に挟
まれた範囲内の縦線のうち、著しく他と異なる間隔を形
成する縦線を縦枠の候補から除外することにより、縦枠
の候補から除外されなかった縦線を縦枠であるものとす
る。
【0050】図21は、枠検出部43全体の処理の一実
施例をより詳細に説明する図であり、処理をソフトウェ
アで実現する場合のフローチャートを示す。図21にお
いて、ステップS81は、直線検出部42の直線検出部
42bで検出された横枠を構成する直線の候補が所定値
以上の長さを有するか否かを判断する。ステップS81
の判断結果がNOであると、ステップS82は横枠を構
成する直線の候補が横枠でないと判断して処理を終え
る。他方、ステップS81の判断結果がYESの場合
は、ステップS83で横枠を構成する直線の候補から横
枠を検出する。ステップS84は、検出した横枠に基づ
いて、隣接する2本の横枠を選択する。又、ステップS
85は、選択された隣接する2本の横枠に挟まれた範囲
を一つのブロック枠とみなす。
【0051】次に、縦枠を検出するため、ステップS8
6は直線検出部42の直線検出部42dで検出された縦
枠を構成する直線の候補に基づいて縦線を検出し、ステ
ップS87は検出された縦枠及び横枠に基づいて縦線分
の探索を行う。ステップS88は、縦枠の候補の直線が
検出された上下の横枠まで達しているか否かを判断す
る。ステップS88の判断結果がNOであると、ステッ
プS89で検出された縦枠の候補の縦線を縦枠の候補か
ら除外して処理を終える。他方、ステップS88の判断
結果がYESの場合は、ステップS91で検出された縦
枠の候補の縦線を縦枠の候補とする。
【0052】ステップS92は、処理の対象が規則的な
表形式のブロック枠か不規則な表形式のブロック枠であ
るかを判断する。処理の対象が規則的な表形式のブロッ
ク枠である場合は、ステップS93で縦線の候補に残っ
た縦線同士の間隔を算出すると共に、算出された線間隔
とその出現頻度の関係を表すヒストグラムを算出する。
ステップS94は、処理の対象が図18(a)に示す如
き規則的な表形式のブロック枠の場合、検出された2本
の隣合う横枠に挟まれた範囲内の縦線のうち、著しく他
と異なる間隔を形成する縦線を縦枠の候補から除外する
ことにより、縦枠の候補から除外されなかった縦線を縦
枠であるものとする。ステップS95は、以上のように
得られた横枠及び縦枠に基づいて枠を抽出して、枠抽出
処理を終える。
【0053】尚、ステップS92において処理の対象が
不規則な表形式のブロック枠であると判断されると、ス
テップS96で縦枠の候補の縦線を全て縦枠とみなし、
処理はその後ステップS95へ進む。次に、図1の枠分
離部44の説明をする。枠分離部44は、枠交点算出部
44a、分離部44B、投影部44c、枠分割部44
D、直線検出部44d、枠探索部44e、辺幅算出部4
4f、枠除去部44g及び接触文字補間部44hとから
なる。枠交点算出部44aは、枠検出部43から得られ
た縦枠及び横枠から、縦枠と横枠との交点を算出する。
図22に示す例では、交点A1,B1,A2,B2,・
・・を算出する。そして、分離部44Bは、図22に示
すように、算出した交点を用いて(A1,A2,A3,
A4)、(B1,B2,B3,B4)、・・・という具
合に、左から四方を枠線で囲まれた部分を1つずつ分離
して行く。又、図22中、C1及びC2の如く横線と縦
線との長さの比が所定値以下の場合は、各分離部分が一
文字枠と同様になる。投影部44cは、各分離部分の投
影を算出し、直線検出部44dは、得られた投影から直
線を検出する。より具体的には、直線検出部44dは、
各分離部分の各行及び列の投影値と各分離部分を矩形近
似して得た矩形との夫々の比を計算し、その比より文字
枠を構成する直線の候補を求める。尚、投影値の算出方
法については、後述する第2実施例と共により詳細に説
明する。枠探索部44eは、文字枠を構成する直線の候
補の中から直線間の距離を算出し、文字枠を構成する最
外郭の直線を抽出することにより、各文字枠を探索して
文字枠の位置を求める。辺幅算出部44fは、最外郭の
直線に隣接する候補直線を求め、探索された文字枠の各
辺の線幅を算出する。枠除去部44gは、各辺の最外郭
の直線の位置及び算出された各辺の線幅に基づいての文
字枠を一つずつ除去する。接触文字補間部44hは、文
字枠が除去されることによって欠けてしまった文字部分
を補間する。これにより、文字枠を除去されて文字が一
文字ずつ切り出されて行く。
【0054】尚、図22中、C3の如く横線と縦線との
長さの比が所定値より大きい場合は、同図に示すように
各々の分割部分の位置に応じて消去する枠線の本数と位
置を変化させて枠線の消去を行う。具体的には、枠分割
部44Dで枠をフリーフォーマット枠の場合と同様に複
数の分離部分に分割する。更に、投影部44c〜接触文
字補間部44hは、枠分割部44Dから得られる各分離
部分に対して上記処理を施す。
【0055】図23は、枠分離部44全体の処理の一実
施例をより詳細に説明する図であり、処理をソフトウェ
アで実現する場合のフローチャートを示す。図23にお
いて、ステップS101は、枠検出部43から得られた
縦枠及び横枠から縦枠と横枠との交点を算出する。ステ
ップS102は、算出した交点を用いて、左から四方を
枠線で囲まれた部分を1つずつ分離して行く。ステップ
S103は、横線と縦線との長さの比が所定値より大き
いか否かを判断する。横線と縦線との長さの比が所定値
以下の場合はステップS103の判断結果がNOであ
り、各分離部分が一文字枠と同様になるので、ステップ
S104で一文字枠の場合と同様に枠の抽出及び除去を
行い枠分離処理を終える。
【0056】他方、ステップS103の判断結果がYE
Sの場合は、各々の分割部分の位置に応じて消去する枠
線の本数と位置を変化させて枠線の消去を行う。つま
り、ステップS105で枠線で囲まれた部分をフリーフ
ォーマット枠の場合と同様に複数の分離部分に分離し、
ステップS106で分離部分毎に枠の位置を格納する。
又、ステップS107は、この様にして得られた分離部
分毎に、一文字枠の場合と同様に枠の抽出及び除去を行
い枠分離処理を終える。
【0057】次に、図1の枠抽出・除去部45の説明を
する。枠抽出・除去部45は、直線検出部45aと、マ
ッチング処理部45bと、枠処理部45cとからなる。
直線検出部45aは、直線検出部42における横枠探索
が失敗した部分パターンに対して、途中で途切れている
線分も含めて線分の統合を行う。マッチング処理部45
bは、統合後の横線が部分パターンの大きさと比較して
所定値以上の長さを有する場合、その横線を横枠とみな
す。又、2本の隣合う横線の間にある縦線のうち、上下
の横線まで達しているものを縦枠の候補とする。この様
にして得られた枠及び枠の候補によって形成される矩形
範囲と、同一画像にあり上記一文字枠抽出部46により
抽出済の一文字枠とのマッチングをとることにより、一
文字枠範囲を抽出する。枠処理部45cは、マッチング
処理部45bから得られる各一文字枠範囲に対して一文
字枠の場合と同様に枠の抽出及び除去の処理を行う。
【0058】従って、例えば図24(a)に示す如き隣
合う一文字枠が文字によって繋がっている原画像であっ
ても、良好に枠の抽出及び除去を行うことができる。つ
まり、この様な場合には、部分パターンの大きさだけで
は一文字枠とブロック枠との区別がつかないので、線分
検出部41まではブロック枠の場合と同様の処理が行わ
れる。又、直線検出部42は、探索により横線が途中で
途切れていることを検出するので、この途切れた横線は
ブロック枠を構成する直線とは認識されない。このた
め、処理は枠抽出・除去部45へ移り、直線検出部45
aで直線検出部42における横枠探索が失敗した部分パ
ターンに対して、途中で途切れている線分も含めて横線
の統合を行う。又、マッチング処理部45bは、図24
(b)に示すように、上記の如き既に抽出済の一文字枠
とのマッチングを行う。これにより、図24(c)に示
す如き一文字枠への分離が可能となる。
【0059】図25は、枠抽出・除去部45全体の処理
の一実施例をより詳細に説明する図であり、処理をソフ
トウェアで実現する場合のフローチャートを示す。図2
5において、ステップS111は、直線検出部42にお
ける横枠探索が失敗した部分パターンに対して、途中で
途切れている線分も含めて線分の探索を行う。ステップ
S112は、探索の結果、線分が途切れているか否かを
判断する。ステップS112の判断結果がNOであれ
ば、図21と共に説明した枠検出処理が続けられる。他
方、ステップS112の判断結果がYESの場合は、ス
テップS113で直線を検出することにより横線の統合
を行う。ステップS114は、四方を直線で囲まれた部
分を抽出し、ステップS115は抽出された四方を直線
で囲まれた部分が同一画像中の一文字枠の大きさと略同
じであるか否かを判断する。ステップS115の判断結
果がNOであれば、ステップS116で四方を直線で囲
まれた部分が一文字枠ではないと判断して処理を終え
る。他方、ステップS115の判断結果がYESであれ
ば、ステップS117で四方を直線で囲まれた部分を一
文字枠と同等の一文字範囲として認識し、一文字枠の場
合と同様に枠の抽出及び除去の処理を行う。
【0060】ところで、枠検出部43内の探索部43b
で線分の探索を行う場合、図99と共に説明したような
探索の失敗が起こる可能性がある。そこで、例えば図2
1中ステップS87における探索を行う際に、図26に
示す如く枠であると判断された矩形線分内で最も細い部
分を探索の開始点とすることにより、探索の成功率を向
上し得る。図26に示す枠は図99に示した枠と同一で
あるが、図26では線分の探索が成功することがわか
る。
【0061】図27及び図28は、本実施例により文字
を切り出した場合の一例を説明する図である。図27
(a)は図1に示す連結パターン抽出部40から得られ
る原パターンを示し、同図(b)は図1に示す一文字枠
抽出部46により一文字枠を除去した後のパターンを示
す。又、図27(c)は同図(b)のパターンに対して
図1に示す線分検出部41内のマスク処理部41Aでマ
スク処理を行った後のパターンを示す。図28(a)は
図27(c)に示すパターンに基づいて図1に示す枠分
離部44内の枠除去部44gで抽出した枠を示し、図2
8(b)は枠除去部44gで図28(a)に示す枠を除
去することにより切り出した文字を示す。
【0062】以上説明したように、本実施例において
は、次のような特徴1)〜6)を有する。 1)傾きのある表形式のブロック枠やフリーフォーマッ
ト枠であっても、確実に文字枠を抽出し除去することが
できる。 2)細線化処理の代わりにマスク処理を行うので、処理
時間を短縮することができる。
【0063】3)細線化処理の代わりにマスク処理を行
うので、原画像の持つ直線性を保つことができ、これに
より直線検出が容易に行える。 4)フリーフォーマット枠又は表形式のブロック枠のう
ち、4辺を枠で囲まれた矩形部分の中で横の長さの縦の
長さに対する比が所定値以上となった部分を複数の部分
に分割するので、傾きのある場合でも確実に枠を抽出し
除去することができる。
【0064】5)横線の探索が失敗した場合にはマッチ
ング処理を行うので、複数の枠が文字を介して繋がって
いても確実に一文字枠の範囲毎に分離するので、枠を確
実に抽出し除去することができる。 6)枠の抽出の際、枠であると判断された矩形線分の内
部で最も細い部分を枠探索の開始点とすることにより、
より確実に枠を抽出することができる。
【0065】ところで、本出願人は、先に図29に示す
如き画像抽出装置を特願平5‐103257号にて提案
している。同図中、連結パターン抽出部1は、枠もしく
は罫線等の直線部分と文字、図形もしくは記号とから構
成される画像から画素と画素が繋がっている部分パター
ンを抽出する。線幅の太い直線抽出部2は、連結パター
ン抽出部1において抽出された部分パターンの投影を求
めることにより部分パターン毎に連結パターンのサイズ
の縦、横の長さに相当する線幅の太い枠、罫線等の直線
を抽出する。線幅の細い直線抽出部3は、線幅の太い直
線抽出部2で抽出されなかった枠、罫線等の直線を抽出
する。枠抽出部4は、抽出された複数の直線から枠を構
成する4辺を抽出する。つまり、枠抽出部4は、線幅の
太い直線抽出部2或は線幅の細い直線抽出部3で抽出さ
れた直線のうち、部分パターンの最外郭の直線を求める
ことにより枠を検出する。連結パターン属性付加部5
は、連結パターンに枠、罫線等の直線が存在するかどう
かを調べ、存在しなかったら文字、図形もしくは記号又
はその一部から構成されるパターン(ハ)の属性を付加
する。又、連結パターン属性付加部5は、枠、罫線等の
直線分離後、文字、図形もしくは記号又はその一部の部
分パターンが存在するか否かに応じて、枠、罫線等の直
線パターン(ロ)の属性、枠、罫線等の直線に接触した
文字、図形もしくは記号又はその一部のパターン(イ)
の属性を付加する。
【0066】分離部6は、枠、罫線等の直線の幅を算出
し、それに従って連結パターンから枠、罫線等の直線を
分離する。交点算出部7は、文字、図形もしくは記号と
枠、罫線等の直線が接する交点を算出する。交点対応付
け部8は、文字、図形もしくは記号を構成する線分間の
距離、方向に基づく線分の連続性の条件等により交点間
を対応付ける。補間部9は、交点対応付け部8において
対応付けられた交点間を接続することにより、枠、罫線
等の直線内の文字、図形もしくは記号の領域を補間す
る。連結性確認部10は、補間部9において得られたパ
ターンが元々連結していたという情報を逆利用してパタ
ーンの連結性を確認する。
【0067】連結性確認部10で連結性が確認できない
場合には、交点対応付け部8の処理に戻り、交点の対応
付けの条件を拡張して対応付けを行う。そして、対応付
けられた交点について、補間部9で補間を行って、連結
性確認部10で再度連結性の確認を行う。連結パターン
統合部11は、文字、図形もしくは記号又はその一部か
ら構成されるパターン(ハ)の統合を行って、文字、図
形もしくは記号を抽出すると共に、補間部9において補
間された文字、図形もしくは記号のパターンと上記パタ
ーンを統合したときのサイズを考慮して両者を統合す
る。
【0068】これにより、枠もしくは罫線等の直線部分
と文字、図形もしくは記号から構成される画像から、枠
もしくは罫線等の直線を確実に除去し、除去した部分を
正確に補間することにより、高品質の文字、図形もしく
は記号を抽出することができる。このため、文字認識装
置等において、文字、図形、記号等の認識率を著しく向
上させることができる。
【0069】又、文字列抽出部12は、連結パターン統
合部11を介して得られるラベリングされた文字列を抽
出する。平均文字サイズ算出部13は、抽出された文字
列に基づいて平均文字サイズを算出する。小分離ストロ
ーク抽出部14は、平均文字サイズと面積条件と高さ条
件とを用いて、小分離ストロークを抽出する。文字ピッ
チ算出部15は、小分離ストロークと判定されなかった
ものについて、外接矩形間の距離をピッチとして平均文
字ピッチを算出する。平均文字サイズ・ピッチ統合部1
6は、抽出された小分離ストローク、平均文字ピッチ、
平均文字サイズ、サイズ分散値などの情報に基づき文字
の統合を行う。確信度統合部17は、抽出された小分離
ストロークとその左右に位置する文字パターンとの距離
を算出し、それらの距離の比を統合の確信度として定量
化し、確信度が高い場合には統合を行う。又、簡易認識
処理部18は、オーバーハングのある手書き文字(数
字)を対象とした処理を行う。つまり、簡易認識処理部
18は、小分離ストローク及びその左右に位置するパタ
ーン及び更にそれらを統合した場合のパターンに対し
て、線密度、傾き及び文字サイズを簡単に識別して文字
の統合を行う。
【0070】しかし、図29の画像抽出装置では、枠を
除去後に文字と枠との交点を算出して対応付けているの
で、図30(a)に示す如く特に枠に接触している文字
の文字幅より枠幅の方がかなり大きい場合や、図31
(a)に示す如く枠が傾斜している場合などには、文字
に関する情報が極端に減少してしまう。図31(a)の
場合には、同図(b)に示すように、文字の大部分に関
する情報が失われてしまう。又、図31(a)の場合に
は、同図(b)に示すように、抽出される枠は水平及び
/又は垂直方向に本来より大きい領域を占有しているの
で、図30の場合と同様に文字の大部分に関する情報が
失われてしまう。図30及び図31中、枠はハッチング
で示す。
【0071】従って、図29の交点対応付け部8で用い
られている条件だけでは、図32のように「1」が左右
に分離されており対応付けられない交点が生じる場合、
図33のように「1」と「7」が実際には接触していな
いにもかかわらず枠と文字との交点を算出して誤って対
応付けてしまう場合、及び図34のように誤った対応付
けを行ってしまう場合などがある。又、枠の分離後に連
結性が確認されたパターンに対して、図35のように枠
と重なった文字パターンが再結合後も補間されない場合
もあり、連結性の確認だけでは対応付けの条件が不足し
ている。図32〜図35中、(a)は原画像を示し、
(b)は図29の交点対応付け部8での対応付けにより
最終的に切り出される文字を示す。尚、図32及び図3
3中、「黒丸」は枠と文字との交点を示す。又、図34
は「9」の誤った対応付けを示し、図35は「8」が補
間されない場合を示す。
【0072】次に、本発明になる画像抽出装置の第2実
施例について、図36及び図37と共に説明する。本実
施例では、本発明が黒枠の帳票から文字を切り出す処理
に適用されている。つまり、本実施例では、1文字枠の
サイズや位置がわからない矩形で分離した文字枠が複数
個あり、その文字枠に接触或はその文字枠からはみ出し
て手書き文字が書かれた場合に、文字及び文字枠のパタ
ーンから文字部分だけを一文字、一文字切り出す。
【0073】本実施例では、画像抽出装置は図36に示
す連結パターン抽出部21、直線/枠抽出部22、連結
パターン属性付加部23、接触頻度算出部51、枠分離
部24、交点算出部25−1,25−2、図37に示す
交点対応付け部55,61、枠内文字抽出部56、枠内
文字補間部32、文字列抽出部12−1,12−2、平
均文字サイズ・ピッチ統合部16−1,16−2、複数
連結性確認部57−1,57−2、連結パターン統合部
34、再補間判定部63、平均文字サイズ・ピッチ統合
部16−3、確信度統合部17及び簡易認識処理部18
からなる。3交点算出部25−1は、文字/枠交点算出
部25a、枠内文字の交点算出部52−2、枠外文字の
交点算出部53−1及び文字/枠交点判定部54−1と
からなる。2交点算出部25−2は、文字/枠交点算出
部25a、枠外文字の交点算出部53−2及び文字/枠
交点判定部54−2とからなる。
【0074】図36において、連結パターン抽出部21
は、前処理を施された入力パターン信号から8連結で繋
がっているパターンをラベリングにより抽出するラベリ
ング部を有する。「8連結」のパターンとは、縦、横、
斜めの8方向のいずれかで繋がっているパターンを言
う。上記ラベリングには、一般的な手法を用いることが
できる。本実施例では、ラベリング部で得られる部分パ
ターンは、文字が接触していない枠、枠に接触していな
い文字或は文字の一部、又は枠に接触している文字のい
ずれかである。これらの部分パターンを判別して枠に接
触している文字だけに注目するために、枠を抽出する。
又、ラベリングで得られた部分パターンのサイズが後述
する処理で必要となるので、部分パターンを矩形に近似
して得られる矩形の角の座標をラベリングの処理中に算
出しておく。
【0075】直線/枠抽出部22は、線幅の太い直線/
枠及び線幅の細い直線/枠を抽出する。図38に示す如
く、直線/枠抽出部22は、投影部22a、直線検出部
22b、4辺検出部22c、追跡部22d、4辺検出部
22e及び枠抽出部22fを有する。投影部22aは、
連結パターン抽出部21により抽出された部分パターン
を水平方向及び垂直方向に投影する。直線検出部22b
は、投影部22aで得た水平方向の投影及び垂直方向の
投影から水平線及び垂直線を検出する。4辺検出部22
cは、直線検出部22bにより検出された直線からなる
矩形の4辺を検出する。追跡部22dは、直線検出部2
2b及び4辺検出部22cで検出できなかった線幅の細
い直線を求めるため、後述するnランレングス手法によ
り線を追跡する。4辺検出部22eは、追跡部22dに
より求めた線幅の細い直線からなる矩形より4辺を検出
する。枠抽出部22fは、4辺検出部22c,22eで
求めた矩形より枠を抽出する。
【0076】連結パターン属性付加部23は、図36に
示す如く、連結パターン抽出部21により抽出された連
結パターンについて、直線/枠抽出部22の抽出結果に
基づいて、「枠」、「文字パターン又はその一部」及び
「枠と文字パターン又はその一部との接触パターン」の
属性を付加する属性付加部を有する。接触頻度算出部5
1は、枠と文字の幅及び文字と枠の接触の度合から、接
触頻度を算出する。文字幅が枠幅より大きく、文字と枠
とが比較的に接触していない場合は、接触頻度が小さ
い。他方、文字幅と枠幅が略同じであるか、或は文字と
枠との接触が比較的多い場合は、接触頻度が大きい。接
触頻度が小さい場合は、枠分離部24で枠を分離してか
ら、2交点算出部25−2で文字と枠との交点を算出す
る。又、接触頻度が大きい場合は、3交点算出部25−
1で文字と枠との交点を算出する。
【0077】尚、枠分離部24は、連結パターン属性付
加部23で枠或は文字と枠との接触パターンとして属性
が付与された連結パターンから枠を分離する。枠分離部
24は、図39に示すように、枠部分の辺の幅を算出す
る辺幅算出部24a、枠を除去する枠除去部24b、枠
を除去したパターンについて再びラベリングを施し、面
積の小さいパターンを雑音として除去する枠雑音除去部
24c及び属性付加部24dを有する。属性付加部24
dは、連結パターン属性付加部23において属性が付与
されなかったパターンに対して、枠を除去しても残るパ
ターンには接触文字パターンの属性を付加し、枠を除去
したら何も残らないパターンには枠だけの属性を付加す
る。
【0078】接触頻度が大きい場合、枠は分離されず、
3交点算出部25−1内の文字/枠交点算出部25a
は、接触文字パターンについて枠と文字との交点を算出
する。枠内文字の交点算出部52−1は、全ての文字と
枠の交点に関してその位置から枠内方向へ文字線分を探
索して枠内の交点を算出すると同時に、その文字線分の
面積を求めておく。ただし、文字線分の探索中に文字線
分が途切れてしまう場合には、算出された交点が文字と
枠との交点ではないと判定する。次に、枠外文字の交点
算出部53−1は、全ての文字と枠の交点に関してその
位置から枠外方向へ枠幅とある程度文字線分を探索して
枠外の交点を算出すると同時に、その文字線分の面積を
求めておく。枠外方向とは、枠内方向とは反対の方向で
あり、枠から外側へ向かう方向を指し、枠外の交点と
は、枠から遠い交点を指す。文字/枠交点判定部54−
1は、枠内の交点算出部52−1及び枠外の交点算出部
52−2で求めた文字線分の面積の和が所定のしきい値
以下であれば、文字線分を雑音とみなして除去すると共
に、その交点が文字と枠との交点ではないと判定する。
【0079】他方、接触頻度が小さい場合、枠分離部2
4で枠を分離した後、2交点算出部25−2で交点を算
出する。2交点算出部25−2内の文字/枠交点算出部
25aは、接触文字パターンについて枠と文字との交点
を算出する。枠外文字の交点算出部53−2は、全ての
文字と枠の交点に関してその位置から枠外方向へ枠幅と
ある程度文字線分を探索して枠外の交点を算出すると同
時に、その文字線分の面積を求めておく。文字/枠交点
判定部54−2は、枠外の交点算出部52−2で求めた
文字線分の面積が所定のしきい値以下であれば、文字線
分を雑音とみなして除去すると共に、その交点が文字と
枠との交点ではないと判定する。
【0080】接触頻度が大きく交点の算出が3交点算出
部25−1で行われた場合は、図37に示す3交点対応
付け部55で交点の対応付けを行う。他方、接触頻度が
小さく交点の算出が2交点算出部25−2で行われた場
合は、図37に示す2交点対応付け部61で交点の対応
付けを行う。3交点対応付け部55は、3交点算出部2
5−1で得られた枠から遠い交点、文字と枠の交点及び
枠内の3種類の交点に基づいて、その文字線分の方向性
を求める。又、この方向性と枠内の交点における文字線
分間の距離及び方向に基づく文字線分の連続性の条件に
より、文字と枠との交点を対応付ける。枠内文字抽出部
56は、対応する文字と枠との交点間を構成する文字線
分を枠から抽出する。文字列抽出部12−1は、枠内文
字抽出部56を介して得られるラベリングされた文字列
を抽出する。平均文字サイズ・ピッチ統合部16−1
は、抽出された小分離ストローク、平均文字ピッチ、平
均文字サイズ、サイズ分散値などの情報に基づき文字の
統合を暫定的に行う。複数連結性確認部57−1は、連
結線分数、穴の数、オイラー数などに基づいて連結性を
確認し、連結性が確認された場合には処理が連結パター
ン統合部34へ進む。しかし、連結性が確認できない場
合は、3交点対応付け部55の処理に戻って、連結性を
回復するような交点間の対応付けを行い、更に、枠内文
字補間部32で対応付けられた交点等を接続して文字枠
を除去したことにより分離した文字パターンを接続して
枠内の文字領域を補間する補間処理を行う。この枠内文
字補間部32での処理を終えてから、処理が連結パター
ン統合部34へ進む。
【0081】2交点対応付け部61は、2交点算出部2
5−2で得られた文字と枠の交点及び枠内の2種類の交
点に基づいて、その文字線分の方向性を求める。又、こ
の方向性と枠内の交点における文字線分間の距離及び方
向に基づく文字線分の連続性の条件により、文字と枠と
の交点を対応付ける。枠内文字補間部32は、対応付け
られた交点等を接続して文字枠を除去したことにより分
離した文字パターンを接続する補間処理を行う。文字列
抽出部12−2は、枠内文字補間部32を介して得られ
るラベリングされた文字列を抽出する。平均文字サイズ
・ピッチ統合部16−2は、抽出された小分離ストロー
ク、平均文字ピッチ、平均文字サイズ、サイズ分散値な
どの情報に基づき文字の統合を暫定的に行う。複数連結
性確認部57−2は、連結線分数、穴の数、オイラー数
などに基づいて連結性を確認し、連結性が確認された場
合には処理が連結パターン統合部34へ進む。しかし、
連結性が確認できない場合は、2交点対応付け部61の
処理に戻って、連結性を回復するような交点間の対応付
けを行い、更に、枠内文字補間部32で対応付けられた
交点等を接続して文字枠を除去したことにより分離した
文字パターンを接続して枠内の文字領域を補間する補間
処理を行う。この枠内文字補間部32での処理を終えて
から、処理が連結パターン統合部34へ進む。
【0082】再補間判定部63は、再補間された文字パ
ターンの有無を判定し、無い場合にはそのまま確信度統
合部17の処理へ進む。他方、再補間された文字パター
ンが有る場合には、平均文字サイズ・ピッチ統合部16
−3で平均文字サイズ及びピッチを最終的に算出して文
字を統合してから、確信度統合部17の処理へ進む。確
信度統合部17は、抽出された小分離ストロークとその
左右に位置する文字パターンとの距離を算出し、それら
の距離の比を統合の確信度として定量化し、確信度が高
い場合には統合を行う。又、簡易認識処理部18は、オ
ーバーハングのある手書き文字(数字)を対象とした処
理を行う。つまり、簡易認識処理部18は、小分離スト
ローク及びその左右に位置するパターン及び更にそれら
を統合した場合のパターンに対して、線密度、傾き及び
文字サイズを簡単に識別して文字の統合を行う。
【0083】枠内文字補間部32は、交点対応付け部5
5又は61において対応付けられた交点等を接続し、文
字枠を除去したことにより分離した文字パターンを接続
する。枠内文字補間部32は、図40に示す如く、単純
補間部32a、交差点算出部32b、交差点枠内補間部
32c、交差点枠外補間部32d及び直線補間部32e
を有する。単純補間部32aは、一対一対応の交点間を
接続することにより補間する。交差点算出部32bは、
一対多対応の交点及び再対応付けられた交点について、
交点における文字線分の輪郭の方向ベクトルの交差点を
算出する。交差点枠内補間部32cは、求めた交差点が
枠の線幅内の場合に交点間を接続する。交差点枠外補間
部32dは、求めた交差点が枠の線幅外の場合に交点間
を接続する。直線補間部32eは、交差点が算出できな
い場合に、文字線分を枠に沿って直線で補間する。
【0084】連結パターン統合部34は、連結性が確認
された文字パターン或は図36の連結パターン属性付加
部23において文字パターンの属性が付加された文字パ
ターンを統合する。図41に示す如く、連結パターン統
合部34は、連結パターン仮統合部34a、サイズ確認
部34b及び連結パターン統合部34cを有する。連結
パターン仮統合部34aは、連結パターンの仮統合を行
う。サイズ確認部34bは、仮統合された文字パターン
のサイズを確認する。連結パターン統合部34cは、サ
イズ確認部34bにおいて確認されたサイズが適切でな
い場合に連結パターンを更に統合する。
【0085】次に、本実施例における文字の切出し処理
について説明する。 (1)連結パターンの抽出 図36の連結パターン抽出部21には、極端な傾きや回
転の補正、雑音の除去、「かすれ」の穴埋め等の前処理
が施された入力パターンが入力される。連結パターン抽
出部21内のラベリング部は、この入力パターンについ
て、枠の位置に関係なく接触文字の候補を選択するた
め、縦、横、斜め方向の8方向のいずれかで繋がってい
るパターンをラベリングにより抽出する。この様なラベ
リングで得られた部分パターンは、(イ)文字が接触し
ていない場合の枠、(ロ)枠に接触していない文字或は
文字の一部、又は(ハ)枠に接触している文字のいずれ
かである。
【0086】尚、ラベリングで得られた部分パターンの
サイズは上述の如く後の処理で必要となるので、ラベリ
ングの処理中に部分パターンを矩形に近似して得られる
矩形の角の座標を求めておく。 (2)枠の抽出 上記のように抽出された連結パターンのうち、枠に接触
している文字だけに注目するため、枠抽出部22におい
て枠を抽出する。枠を抽出する際、一般に抽出の頻度が
高く、高速に抽出を行う必要があるので、先ず線幅の太
い直線/枠を抽出し、これによって抽出できなかった場
合には次に線幅の細い直線/枠を抽出する。
【0087】(2a)線幅の太い直線/枠の抽出 枠のサイズが未知で、かつ、枠に文字が接触している場
合でも、安定に枠を抽出する必要がある。そこで、図3
8に示す枠抽出部22の投影部22aは、ラベリングで
得られた部分パターン毎に投影をとる。そして、直線検
出部22bにおいて、投影値と部分パターンを矩形に近
似して得られる縦横サイズとの比を計算して、その比が
所定のしきい値以上であれば長い直線であると判断す
る。
【0088】尚、この直線は、枠だけでなく文字のスト
ロークの場合もあるので、できるだけ最外郭の直線で矩
形らしさを満足する4辺に相当する直線を求める。図4
2は、連結パターン抽出部21でのラベリングで得られ
た部分パターンの水平方向の投影と垂直方向の投影とを
示す図である。同図中、ラベリングにより得られた部分
パターン41は、横方向に長さLx、縦方向に長さLy
を有する。又、部分パターンは、垂直方向の投影VP及
び水平方向の投影HPを有する。
【0089】ここで、説明の便宜上、画像のサイズをm
列×n行、座標(i,j)の濃度値をf(i,j)、i
行目の水平方向の投影をPh (i)、j列目の垂直方向
の投影をPv (j)とすると、Ph (i)及びPv
(j)は夫々次の(2)式及び(3)式で表される。
【0090】
【数1】
【0091】直線検出部22bは、投影部22aで求め
た水平方向の投影及び垂直方向の投影について、連結パ
ターン抽出部21で求めた部分パターンの矩形座標の矩
形の縦横の長さLx及びLyを用いて、次の(4)式に
より縦の長さLxと水平方向の投影Ph (i)との比、
又、次の(5)式により横の長さLyと垂直方向の投影
Pv (j)との比を求め、これらの比をしきい値THL
と比較する。
【0092】 [Ph (i)/Lx]≧THL (4) [Pv (j)/Ly]≧THL (5) そして、(4)式と(5)式における比がしきい値TH
L 以上であれば、部分パターンが枠を構成する直線の候
補であるものとする。即ち、図42に示すように、抽出
された部分パターンが矩形である場合には、その直線部
分の水平投影値Ph (i)と垂直投影値Pv (j)が最
も大きくなり、その縦横の長さLxとLyとの比も大き
くなるので、(4)式と(5)式により直線部分を判別
することができる。
【0093】図43及び図44は、直線検出部22bの
処理の一実施例をより詳細に説明する図である。図43
は、枠の構成要素を示し、枠は上枠と下枠と左枠と右枠
とにより構成されている。上枠は、線分(直線)i1及
びi11からなる。下枠は、線分(直線)i2及びi2
2からなる。左枠は、線分(直線)j1及びj11から
なる。右枠は、線分(直線)j2及びj22からなる。
ラベリングにより得られた部分パターンの矩形の縦横の
長さを夫々Lx,Lyとすると、投影と長さとの比が所
定のしきい値THL 以上であれば、枠を構成する線分
(直線)の候補とする。
【0094】図44は、直線検出部22bの処理をソフ
トウェアで実現する場合のフローチャートを示す。同図
中、ステップS1〜S7は、水平線のうち上枠の候補を
検出する。ステップS11〜S17は、水平線のうち下
枠の候補を検出する。ステップS21〜S27は、垂直
線のうち左枠の候補を検出する。又、ステップS31〜
S37は、垂直線のうち右枠の候補を検出する。ここで
は、説明の便宜上、ステップS1〜S7の動作のみを説
明し、他のステップの説明は省略する。
【0095】図44において、ステップS1はi=0に
設定する。ステップS2は、[Ph(i)/Lx]<T
HL であるか否かを判定する。ステップS2の判定結果
がNOであると、ステップS3でiをインクリメントし
てからステップS2へ戻る。他方、スッテップS2の判
定結果がYESであると、ステップS4はi1=iに設
定する。次に、ステップS5は[Ph (i)/Lx]≧
THL であるか否かを判定する。ステップS5の判定結
果がYESであると、ステップS6でiをインクリメン
トしてからステップS5へ戻る。他方、スッテップS5
の判定結果がNOであると、ステップS7でi11=i
−1に設定、これらの動作により上枠の候補が得られ
る。
【0096】下枠、左枠及び右枠の候補も、夫々ステッ
プS11〜S17、ステップS21〜S27及びステッ
プS31〜S37により同様にして得られる。尚、例え
ばステップS13及びS16は、iをデクリメントす
る。4辺検出部22cは、直線検出部22bにより検出
された水平線iの候補と垂直線jの候補の中から、夫々
最外郭の水平線候補i1,i2及び垂直線の候補j1,
j2に着目して、次の(6)式及び(7)式を計算して
しきい値THL'と比較する。
【0097】 |i1−i2|/Ly≧THL' (6) |j1−j2|/Lx≧THL' (7) 図45は、4辺検出部22cの処理の一実施例をより詳
細に説明する図であり、処理をソフトウェアで実現する
場合のフローチャートを示す。同図中、ステップS41
は、上記(6)式が成立するか否かを判定する。ステッ
プS41の判定結果がYESの場合、ステップS42は
上記(7)式が成立するか否かを判定する。ステップS
41又はS42の判定結果がNOであると、処理は追跡
部22dの処理へと進む。他方、ステップS42の判定
結果がYESの場合、ステップS43は部分パターンが
枠を構成する直線部分であるとみなして、直線部分を検
出する。
【0098】枠抽出部22fは、4辺検出部22cの検
出結果に基づいて枠を抽出する。つまり、4辺検出部2
2cで直線部分が検出されるとこれに基づいて枠を抽出
し、直線部分が検出されないと他の候補に着目して上記
処理を繰り返すことにより、枠を抽出する。具体的に
は、候補が上記(6)式、(7)式を満足すれば枠を構
成する直線と見なし、満足しなければ他の候補に着目し
て上記処理を繰り返す。
【0099】上記のように枠の骨格を構成する直線を求
めた後、その骨格線の前後に注目し、骨格線から連続し
て何本水平線の候補i或は垂直線の候補jが存在するか
を計算し、その値を各辺の線幅の基準とする。図46
(a)は、上記のようにして抽出された線幅の太い枠の
一例を示す図である。同図中、抽出された枠151に対
して骨格線152が得られ、各辺の線幅はこの例では2
画素分である。
【0100】(2b)線幅の細い直線/枠の抽出 上記した図46(a)の線幅の太い直線/枠の抽出処理
において算出できなかった部分パターンに注目して、線
幅の細い直線/枠の抽出を行う。図46(b)は線幅の
細い枠の一例を示す図であり、枠153及びその骨格線
154を示す。線幅の細い枠には、同図に示す如く、線
幅が1画素分程度で、かつ、傾き等による凹凸が生じて
いるパターンが含まれる。同図に示す線幅の細い枠を安
定に抽出するために、本実施例では次のようにして枠を
探索する。
【0101】即ち、枠の抽出には、図47に示すよう
に、傾きによる凹凸が生じていても直線を検出できる
「nラインランレングス」と名付ける直線長を定義す
る。通常のランレングスでは、水平或は垂直に連続して
いる画素数を計算するので、図46(b)に示すような
凹凸が生じている長い直線では短い直線に分割されてし
まうが、図47に示すnラインランレングスでは、ある
nラインの間で8連結で接続するランレングスをnライ
ンランレングスとして計算する。nの値は傾きの大きさ
で決定し、傾きが大きければ大きい程nを大きくする。
n=1の場合は、通常のランレングスに相当する。
【0102】図47はn=3の場合を示し、この場合は
凹凸が生じているにもかかわらず、7画素分の水平線と
して直線を抽出することができる。枠抽出部22の追跡
部22dは、連結パターン抽出部21のラベリング部で
得られた部分パターンの矩形座標より矩形を構成する直
線の両端及び中点等の複数の点から枠の内部に垂線を下
ろして部分パターンと接触した位置を開始点として、上
記nラインランレングスにより、開始点より左右或は上
下方向へ部分パターンに沿って探索する。
【0103】この様な手法を用いることにより、枠から
文字がはみ出していても、安定に線幅の細い直線を求め
ることができる。図48及び図49は、追跡部22dの
処理の一実施例をより詳細に説明する図であり、処理を
ソフトウェアで実現する場合のフローチャートを示す。
図48は水平方向のnラインランレングスを求める処理
を示し、図49は垂直方向のnラインランレングスを求
める処理を示す。図48及び図49において、探索開始
点を(ii,jj)、水平線の長さをNhi、垂直線の
長さをNvjで表すものとする。
【0104】図48中、ステップS51は、Nhi=
0、i=ii、j=jjに設定する。ステップS52
は、f(i+1,j)にラベルがあるか否かを判定す
る。ステップS52の判定結果がYESであると、ステ
ップS53でNhi及びiをインクリメントしてから処
理をステップS52へ戻す。他方、ステップS52の判
定結果がNOであれば、ステップS54で(j+1)≦
jj+n/2であるか否かを判定する。ステップS54
の判定結果がYESであると、ステップS55でf(i
+1,j+1)にラベルがあるか否かを判定する。ステ
ップS55の判定結果がYESであれば、ステップS5
6でjをインクリメントしてから処理をステップS53
へ戻す。ステップS54又はS55の判定結果がNOの
場合、ステップS57で(j−1)≧jj−n/2であ
るか否かを判定する。ステップS57の判定結果がYE
Sであると、ステップS58でf(i+1,j−1)に
ラベルがあるか否かを判定する。ステップS58の判定
結果がYESであれば、ステップS59でjをデクリメ
ントしてから処理をステップS53へ戻す。ステップS
57又はS58の判定結果がNOの場合は、水平方向の
nラインランレングスを求める処理は終了する。
【0105】図49中、ステップS61は、Nvj=
0、i=ii、j=jjに設定する。ステップS62
は、f(i,j+1)にラベルがあるか否かを判定す
る。ステップS62の判定結果がYESであると、ステ
ップS63でNvj及びjをインクリメントしてから処
理をステップS62へ戻す。他方、ステップS62の判
定結果がNOであれば、ステップS64で(i+1)≦
ii+n/2であるか否かを判定する。ステップS64
の判定結果がYESであると、ステップS65でf(i
+1,j+1)にラベルがあるか否かを判定する。ステ
ップS65の判定結果がYESであれば、ステップS6
6でiをインクリメントしてから処理をステップS63
へ戻す。ステップS64又はS65の判定結果がNOの
場合、ステップS67で(i−1)≧ii−n/2であ
るか否かを判定する。ステップS67の判定結果がYE
Sであると、ステップS68でf(i−1,j+1)に
ラベルがあるか否かを判定する。ステップS68の判定
結果がYESであれば、ステップS69でiをデクリメ
ントしてから処理をステップS63へ戻す。ステップS
67又はS68の判定結果がNOの場合は、垂直方向の
nラインランレングスを求める処理は終了する。
【0106】4辺検出部22eは、上記のようにして得
られた直線の長さを、水平線の候補iはNhi、垂直線
の候補jはNvjとする。又、連結パターン抽出部21
のラベリング部で求めた部分パターンの矩形座標の矩形
の縦横の長さLx及びLyを用いて、次の(8)式によ
り縦の長さLxと水平線の候補Nhiとの比、又、次の
(9)式により横の長さLyと垂直線の候補Nvjとの
比を求め、これらの比をしきい値THL と比較する。
【0107】 [Nhi/Lx]≧THL (8) [Nvj/Ly]≧THL (9) そして、(8)式と(9)式における比がしきい値TH
L 以上であれば、各候補を、枠を構成する直線の候補で
あるものとする。図50は、4辺検出部22eの処理の
一実施例をより詳細に説明する図であり、処理をソフト
ウェアで実現する場合のフローチャートを示す。同図
中、水平線の候補iはNhi、垂直線の候補jはNvj
であるものとする。又、ラベリングの際に得られた部分
パターンの矩形座標より、矩形の縦横の長さを夫々L
x,Lyとする。同図(a)において、ステップS71
はNhi/Lx≧THL であるか否かを判定する。ステ
ップS71の判定結果がYESであれば、ステップS7
2はこの候補iが枠を構成する直線の候補として適切で
あると判断する。他方、ステップS71の判定結果がN
Oであると、次の水平線の候補に対して処理を開始す
る。又、同図(b)において、ステップS75はNvj
/Ly≧THL であるか否かを判定する。ステップS7
5の判定結果がYESであれば、ステップS76はこの
候補jが枠を構成する直線の候補として適切であると判
断する。他方、ステップS75の判定結果がNOである
と、次の垂直線の候補に対して処理を開始する。
【0108】4辺検出部22cは、直線検出部22bに
より検出された水平線iの候補と垂直線jの候補の中か
ら、夫々最外郭の水平線候補i1,i2及び垂直線の候
補j1,j2に着目して、次の(10)式及び(11)
式を計算してしきい値THL'と比較する。 |i1−i2|/Ly≧THL' (10) |j1−j2|/Lx≧THL' (11) 枠抽出部22fは、前記した場合と同様に、4辺検出部
22eの検出結果に基づいて枠を抽出する。つまり、4
辺検出部22eで直線部分が検出されるとこれに基づい
て枠を抽出し、直線部分が検出されないと他の候補に着
目して上記処理を繰り返すことにより、枠を抽出する。
具体的には、候補が上記(10)式、(11)式を満足
すれば枠を構成する直線と見なし、満足しなければ他の
候補に着目して上記処理を繰り返す。尚、線幅の基準値
は、枠抽出中に得られた最大と最小の位置座標の差とし
て求める。
【0109】この様にして一つの文字枠を求めた後、抽
出された文字枠を全画像にわたってスキャンして、連結
パターン抽出部21により抽出された部分パターンとの
マッチングをとってから新に文字枠を抽出することも可
能である。又、連結パターン抽出部21において求めた
部分パターンを近似した矩形と抽出された文字枠とのサ
イズ比を算出し、算出したサイズ比が所定のしきい値内
の部分パターンだけに絞り込んで、抽出済の文字枠との
マッチングをとってから新に文字枠を抽出することも可
能である。
【0110】更に、抽出された文字枠のサイズ分だけ左
右或は上下の範囲内に存在する部分パターンを抽出し、
抽出した全ての部分パターンが次に説明する属性付加手
段において文字だけからなるパターンであると判定され
ている場合に、上記抽出された文字枠を文字パターンと
判定し直す手段を設けても良い。この様な手段を設けた
場合、例えば「国」という漢字のように枠に相当する矩
形部分を持つ文字であっても、文字の一部を誤って枠と
して判定してしまうことを防ぐことができる。
【0111】(3)連結パターンへの属性付加 連結パターン属性付加部23は、枠抽出部22における
枠抽出の結果に基づいて各連結パターンを次の(イ)〜
(ハ)ように分けて、枠パターンと文字パターン及び文
字の部分パターンとに夫々枠と文字の属性を付加する。 (イ)文字と枠の接触パターン (ロ)枠パターン (ハ)文字及び文字の部分パターン 尚、枠が抽出できなかったパターンは、「文字パター
ン」或は「文字パターンの一部」という属性を付加す
る。又、上記のように属性を付加されたパターンは、後
述する連結パターン統合部34で、そのパターン単独で
切り出すか、或は、文字パターンの一部と見なして他の
パターンと統合するか決められる。
【0112】(4)枠の分離 図39中、枠分離部24の辺幅算出部24aは、枠の外
輪郭の凹凸と内輪郭の凹凸を考慮して、枠抽出時に得ら
れた線幅基準値+2(外輪郭にプラス1、内輪郭にプラ
ス1)を線幅として求め、枠抽出において算出した骨格
線或は抽出中の最大/最小の位置より枠の外輪郭と内輪
郭の座標値を決定する。
【0113】図51は、線幅の太い枠と線幅の細い枠の
骨格線、外輪郭、内輪郭、線幅を示す図であり、「太い
線」は外輪郭、「点線」は内輪郭、「細い線」は骨格線
を示す。同図(a)は線幅の太い枠を示し、同図(b)
は線幅の細い枠を示す。辺幅算出部24aは、同図に示
すように、線幅の太い枠と線幅の細い枠について枠の外
輪郭と内輪郭の座標値を決定する。
【0114】辺幅算出部24aは、座標系を図52に示
すものとすると、上枠の外輪郭の座標が(i1,i1
1)で幅がw1であると、上枠の枠座標を(i1−1,
i11+1)、そして辺の幅をw1+2とする。又、下
枠の外輪郭の座標が(i2,i22)で幅がw2である
と、下枠の枠座標を(i2+1,i22−1)、そして
辺の幅をw2+2とする。同様にして、左枠の外輪郭の
座標が(j1,j11)で幅がw3であると、左枠の枠
座標を(j1−1,j11+1)、そして辺の幅をw3
+2とする。更に、右枠の外輪郭の座標が(j2,j2
2)で幅がw4であると、右枠の枠座標を(j2+1,
j22−1)、そして辺の幅をw4+2とする。
【0115】図39の枠分離部24の説明に戻ると、枠
除去部24bは、辺幅算出部24aにおいて求めた枠の
外輪郭と内輪郭の座標値により、外輪郭と内輪郭の間に
存在するパターンを除去する。枠雑音除去部24cは、
枠を除去したパターンに対して再びラベリングを行い、
各ラベル毎に面積が小さい等の特徴により枠の一部とし
て残存しているパターンを除去する。 属性付加部24
dは、連結パターン属性付加部23で属性が付加されな
かったパターンに着目して、枠を除去してもパターンが
存在しているものは接触文字パターン或は文字の一部で
あることを示すパターンの属性を付加し、枠を除去した
らパターンがなくなるものは枠だけであることを示すパ
ターンの属性を付加する。
【0116】尚、接触文字パターン或は文字の一部は、
後述するように、枠内の文字部分を補間した後、連結パ
ターン統合部34で他の接触文字パターン或は文字の一
部と統合されるか、それとも単独のパターンとするか判
断される。 (5)接触頻度の算出 図36に示す接触頻度算出部51は、平均枠幅、枠の傾
き、及び全文字数に対する接触文字の割合を算出し、算
出された値のうちどれかがあるしきい値より小さい場合
は接触頻度が小さいと判定し、あるしきい値より大きい
場合は接触頻度が大きいと判定する。
【0117】図53は、接触頻度算出部51の処理の一
実施例をより詳細に説明する図であり、処理をソフトウ
ェアで実現する場合のフローチャートを示す。ステップ
S501は、連続パターン属性付加部23からの属性情
報等を受け、ステップS502はこれに基づいて平均枠
幅Waveを算出し、ステップS503は枠の傾きmu
kiを算出する。ステップS504は、Th.Wave
を平均枠幅のしきい値とすると、Wave>Th.Wa
veであるか否かを判断する。ステップS504の判断
結果がYESであると、ステップS505は全文字数z
numを算出する。ステップS506は、Th.muk
iを枠の傾きのしきい値とすると、muki>Th.m
ukiであるか否かを判断する。ステップS506の判
断結果がYESであると、ステップS507は接触文字
数snumを算出する。ステップS508は、接触文字
数の全文字数に対する割合sbaz=snum/znu
mを算出する。ステップS509は、Th.sbazを
割合sbazのしきい値とすると、sbaz>Th.s
bazであるか否かを判断する。ステップS509の判
断結果がYESであると、ステップS510で接触文字
頻度SHが大きいと判断される。他方、ステップS50
4,S506又はS509の判断結果がNOであると、
ステップS511で接触文字頻度SHが小さいと判断さ
れる。
【0118】(6)文字/枠交点の算出 図36の文字/枠交点算出部25aにおいては、接触文
字パターン或は文字の一部を対象として、そのパターン
と枠の交点を算出する。即ち、枠分離部24において求
めた外輪郭と内輪郭を使って、外輪郭には1画素分外側
の直線、内輪郭には1画素分内側の直線を求め、その直
線と接触文字パターン或は文字の一部が交わる点で黒か
ら白、或は、白から黒に変化する点を求め、これを交点
として抽出する。
【0119】図54は、文字/枠交点算出部25aの処
理の一実施例をより詳細に説明する図であり、処理をソ
フトウェアで実現する場合のフローチャートを示す。こ
の場合、図52と同じ座標系を用いて上枠の外輪郭の外
側の座標をis1、内輪郭の内側の座標をiu1とし、
下枠の外輪郭の外側の座標をis2、内輪郭の内側の座
標をiu1とし、左枠の外輪郭の外側の座標をjs1、
内輪郭の内側の座標をju1とし、右枠の外輪郭の外側
の座標をjs2、内輪郭の内側の座標をju1として、
以下の処理を行う。
【0120】図54は上枠の外輪郭と文字の交点を算出
する処理を示す。同図中、ステップS81は交点数Kを
K=0に設定し、ステップS82はjをjs1≦j≦j
s2に設定する。つまり、ステップS82の設定によ
り、以下のステップS83〜S89をj=js1〜js
2について行う。ステップS83は、f(is1,j)
にラベルがないか否かを判定する。f(is1,j)に
ラベルがなくステップS83の判定結果がYESである
と、ステップS84でjを増加させてから処理をステッ
プS83へ戻す。他方、ステップS83の判定結果がN
Oであれば、ステップS85で交点の左側の座標をjに
設定する。又、ステップS86は、f(is1,j)に
ラベルがあるか否かを判定する。ステップS86の判定
結果がNOであると、ステップS87でjを増加させて
から処理をステップS86へ戻す。他方、ステップS8
6の判定結果がYESであれば、ステップS88で交点
の右側の座標をjに設定する。その後、ステップS89
でKを増加させる。ステップS83〜S89をj=js
1〜js2について行った後、上枠の外輪郭と文字の交
点を算出する処理を終了する。
【0121】尚、上枠の内輪郭と文字の交点の算出、下
枠、左枠及び右枠の外輪郭と内輪郭と文字の交点の算出
は、図54と同様の処理により行えるので、本明細書で
はその図示及び説明は省略する。 (7)枠内文字の交点算出 3交点算出部25−1内の枠内文字の交点算出部52−
1は、枠と文字との交点から枠内方向へ文字線分の輪郭
を追跡しながら文字線分の面積を求める。ただし、枠幅
まで追跡する途中で文字線分が存在しなくなる場合に
は、得られる交点は文字と枠との交点ではないと判定す
る。
【0122】図55は、枠内文字の交点算出部52−1
の処理の一実施例をより詳細に説明する図であり、処理
をソフトウェアで実現する場合のフローチャートを示
す。ステップS521は、文字/枠交点算出部25aか
らの交点等を受け、ステップS522で初期設定が行わ
れる。ステップS522では、ww=0、文字と枠との
交点を(A0,B0)、文字幅mw=B0−A0、及び
文字線分の面積Mtikai=mwに設定する。ステッ
プS523は、ww=ww+1とし、ステップS524
は、枠幅をwとすると、ww<wであるか否かを判断す
る。ステップS524の判断結果がNOであると、ステ
ップS525で処理が枠外文字の交点算出部53−1の
処理へと進む。他方、ステップS524の判断結果がY
ESの場合は、ステップS526でww地点の交点を追
跡する。又、ステップS527は、枠内の交点(Aw
w,Bww)が存在するか否かを判断する。
【0123】図56は枠内の交点の追跡例を示し、追跡
は図中矢印で示すように行われる。図56中、「黒丸」
は枠と文字との交点、「黒四角形」は枠内の交点、ハッ
チングは黒画素を表す。ステップS527の判断結果が
NOの場合は、ステップS528で(A0,B0)が文
字と枠の交点ではないと判定し、処理はステップS52
5へ進む。つまり、図57に示すように枠内に交点が存
在しない場合は、得られた交点(A0,B0)は文字と
枠の交点ではないと判定する。他方、ステップS527
の判断結果がYESの場合は、ステップS529でmw
≒Bww−Wwwであるか否かを判断する。ステップS
529の判断結果がNOであれば、処理はステップS5
25へ進む。しかし、ステップS529の判断結果がY
ESの場合は、ステップS530でmw=Bww−Ww
w及びMtikai=Mtikai+mwとして、処理
をステップS523へ戻す。
【0124】(8)枠外文字の交点算出 3交点算出部25−1内の枠外文字の交点算出部53−
1は、枠と文字との交点から枠外方向へ文字線分の輪郭
を追跡しながら文字線分の面積を求める。ただし、枠幅
まで追跡する途中で文字線分が存在しなくなる場合に
は、その地点の交点を枠から遠い交点であると判定す
る。
【0125】図58は、枠外文字の交点算出部53−1
の処理の一実施例をより詳細に説明する図であり、処理
をソフトウェアで実現する場合のフローチャートを示
す。ステップS541−1は、枠内文字の交点算出部5
3−1を介して交点等を受け、ステップS542で初期
設定が行われる。ステップS542では、ww=0、文
字と枠との交点を(A0,B0)、文字幅mw=B0−
A0、及び文字線分の面積Mtooi=mwに設定す
る。ステップS543は、ww=ww+1とし、ステッ
プS544は、枠幅をwとすると、ww<wであるか否
かを判断する。ステップS544の判断結果がNOであ
ると、ステップS545で処理が文字/枠交点判定部5
4−1の処理へと進む。他方、ステップS544の判断
結果がYESの場合は、ステップS546でww地点の
交点を追跡する。又、ステップS547は、枠外の交点
(Aww,Bww)が存在するか否かを判断する。
【0126】図59は枠外の交点、即ち、枠から遠い交
点の追跡例を示し、追跡は図中矢印で示すように行われ
る。図59中、「黒丸」は枠と文字との交点、「黒三角
形」は枠外の交点、ハッチングは黒画素を表す。ステッ
プS547の判断結果がNOの場合は、処理はステップ
S545へ進む。しかし、図60に示すように追跡途中
で文字線分が存在しなくなる場合は、その地点の交点
(A0,B0)が枠から遠い交点であると判定する。他
方、ステップS547の判断結果がYESの場合は、ス
テップS548でmw≒Bww−Wwwであるか否かを
判断する。ステップS548の判断結果がNOであれ
ば、処理はステップS545へ進む。しかし、ステップ
S548の判断結果がYESの場合は、ステップS54
9でmw=Bww−Www及びMtooi=Mtooi
+mwとして、処理をステップS543へ戻す。
【0127】尚、2交点算出部25−2内の枠外文字の
交点算出部53−2の処理の場合は、図58においてス
テップS541−1の代わりにステップS541−2が
行われる以外は枠外文字の交点算出部53−1の処理と
同じである。又、ステップS541−2は、枠内文字の
交点算出部53−1ではなく、2交点算出部25−2内
の文字/枠交点算出部25aを介して交点等を受ける。
【0128】(9)文字/枠交点の判定 3交点算出部25−1内の文字/枠交点判定部54−1
又は2交点算出部25−2内の文字/枠交点判定部54
−2は、枠内及び枠外の文字線分の面積の和があるしき
い値以下であると、得られた交点は文字と枠の交点では
ないと判定する。
【0129】図61は、文字/枠交点判定部54−1又
は文字/枠交点判定部54−2の処理の一実施例をより
詳細に説明する図であり、処理をソフトウェアで実現す
る場合のフローチャートを示す。ステップS551は、
枠外文字の交点算出部53−1又は53−2から交点等
を受け、ステップS552は、枠内及び枠外の文字線分
の面積の和をMwaとすると、Mwa=Mtikai+
Mtooiに設定する。ステップS553は、面積の和
のしきい値をTh.mensekiとすると、Mwa>
Th.mensekiであるか否かを判断する。ステッ
プS553の判断結果がNOであると、ステップS55
4で交点(A0,B0)は枠と文字の交点ではないと判
定され、処理はステップS556へ進む。他方、ステッ
プS553の判断結果がYESであると、ステップS5
55で交点(A0,B0)は枠と文字の交点であると判
定され、処理はステップS556へ進む。ステップS5
56は、得られた交点に関する情報を文字/枠交点算出
部25aへ供給する。
【0130】(10)3交点の対応付け 図37に示す3交点対応付け部55は、対応付ける交点
の候補間を、枠から遠い交点、枠内の交点及び文字と枠
との交点からパターンの方向性を算出し、略同じ方向が
算出されればこれらの交点を対応付ける。方向性が一致
しない場合であっても、枠内の交点間の距離及び連続性
対応の条件を満足する場合は、その文字と枠の交点を対
応付ける。枠内の交点に対して対応付けの条件判定を行
うので、正しい対応付けを行うことができる。
【0131】図62は、方向性が一致する場合の交点の
対応付けを示す図であり、同図中、ハッチングが黒画
素、「黒丸」は枠と文字との交点、「黒三角形」は枠か
ら遠い交点、矢印は方向性を表す。他方、図63は方向
性が一致しない場合の交点の対応付けを示す図であり、
同図中、ハッチングが黒画素、「黒丸」は枠と文字との
交点、「黒三角形」は枠から遠い交点、矢印は方向性を
表す。
【0132】図64は、3交点対応付け部55の処理の
一実施例をより詳細に説明する図であり、処理をソフト
ウェアで実現する場合のフローチャートを示す。ステッ
プS561は、3交点算出部25−1からの交点等に関
する情報を受け、ステップS562は、枠幅をwに設定
する。ステップS563は、文字と枠との交点1(A,
B)と、その枠内の交点1(An,Bn)と、枠から遠
い交点1(At,Bt)とから、パターンの方向性H1
を求める。ステップS564は、文字と枠との交点2
(C,D)と、その枠内の交点2(Cn,Dn)と、枠
から遠い交点2(Ct,Dt)とから、パターンの方向
性H2を求める。ステップS565は、H1≒H2であ
るか否かを判断する。従って、ステップS563〜S5
65で、方向性の対応を確認する。
【0133】ステップS565の判断結果がNOである
と、ステップS566は枠内の交点1の中点T1をT1
=(An+Bn)/2より求める。又、ステップS56
7は、枠内の交点2の中点T2をT2=(Cn+Dn)
/2より求める。ステップS568は、枠内の交点間の
距離KNをKN=ABS(T1−T2)より求める。ス
テップS569は、KN<wであるか否かを判断する。
ステップS569の判断結果がNOであると、ステップ
S570は交点間の距離L1,L2をL1=(Cn−B
n)及びL2=(An−Dn)より求める。ステップS
571はL1>0であるか否かを判断し、ステップS5
71の判断結果がYESであると、ステップS572で
L1<w/2であるか否かを判断する。ステップS57
1或はステップS572の判断結果がNOの場合は、ス
テップS573でL2>0であるか否かを判断する。ス
テップS573の判断結果がYESであると、ステップ
S574でL2<w/2であるか否かを判断する。従っ
て、ステップS566〜S574で、距離対応の確認を
する。
【0134】ステップS573或はステップS574の
判断結果がNOの場合は、ステップS575でAn<C
n<Bnであるか否かを判断する。ステップS575の
判断結果がNOの場合は、ステップS576でAn<D
n<Bnであるか否かを判断する。ステップS576の
判断結果がNOであると、処理はステップS563に戻
る。従って、ステップS575及びステップS576
で、連続性対応の確認をする。
【0135】尚、ステップS565、S569、S57
2、S574又はS576の判断結果がYESの場合
は、ステップS577で処理を枠内文字抽出部56の処
理へ移す。枠内の交点に対して対応付けの条件判定を行
うので、図65及び図66に示すように正しい対応付け
を行うことができる。図65は、枠内の交点により対応
付けが行われる場合を示し、ハッチングが黒画素、「黒
丸」は枠と文字との交点、「黒四角形」は枠内の交点を
示す。図65中、(a)は実際のパターンを示し、
(b)は文字と枠との交点では対応付けられれないこと
を示し、(c)は枠内の交点により対応付けが行われる
ことを示す。又、図66は枠内の交点により対応付けが
行われない場合を示し、ハッチングが黒画素、「黒丸」
は枠と文字との交点、「黒四角形」は枠内の交点を示
す。図66中、(a)は実際のパターンを示し、(b)
は枠内の交点により対応付けが行われないことを示す。
(11)2交点の対応付け 図37に示す2交点対応付け部61は、対応付ける交点
の候補間を、枠から遠い交点、枠内の交点及び文字と枠
との交点からパターンの方向性を算出し、略同じ方向が
算出されればこれらの交点を対応付ける。方向性が一致
しない場合であっても、文字と枠の交点間の距離及び連
続性対応の条件を満足する場合は、その交点を対応付け
る。
【0136】図67は、2交点対応付け部61の処理の
一実施例をより詳細に説明する図であり、処理をソフト
ウェアで実現する場合のフローチャートを示す。ステッ
プS581は、2交点算出部25−2からの交点等に関
する情報を受け、ステップS582は、枠幅をwに設定
する。ステップS583は、文字と枠との交点1(A,
B)と、枠から遠い交点1(At,Bt)とから、パタ
ーンの方向性H1を求める。ステップS584は、文字
と枠との交点2(C,D)と、枠から遠い交点2(C
t,Dt)とから、パターンの方向性H2を求める。ス
テップS585は、H1≒H2であるか否かを判断す
る。従って、ステップS583〜S585で、方向性の
対応を確認する。
【0137】ステップS585の判断結果がNOである
と、ステップS586は文字と枠との交点1の中点T1
をT1=(A+B)/2より求める。又、ステップS5
87は、文字と枠との交点2の中点T2をT2=(C+
D)/2より求める。ステップS588は、交点間の距
離KをKN=ABS(T1−T2)より求める。ステッ
プS589は、K<wであるか否かを判断する。ステッ
プS589の判断結果がNOであると、ステップS59
0は交点間の距離L1,L2をL1=(C−B)及びL
2=(A−D)より求める。ステップS591はL1>
0であるか否かを判断し、ステップS591の判断結果
がYESであると、ステップS592でL1<w/2で
あるか否かを判断する。ステップS591或はステップ
S592の判断結果がNOの場合は、ステップS593
でL2>0であるか否かを判断する。ステップS593
の判断結果がYESであると、ステップS594でL2
<w/2であるか否かを判断する。従って、ステップS
586〜S594で、距離対応の確認をする。
【0138】ステップS593或はステップS594の
判断結果がNOの場合は、ステップS595でA<C<
Bであるか否かを判断する。ステップS595の判断結
果がNOの場合は、ステップS596でA<D<Bであ
るか否かを判断する。ステップS596の判断結果がN
Oであると、処理はステップS583に戻る。従って、
ステップS595及びステップS596で、連続性対応
の確認をする。
【0139】尚、ステップS585、S589、S59
2、S594又はS596の判断結果がYESの場合
は、ステップS597で処理を枠内文字補間部32の処
理へ移す。 (12)枠内文字の抽出 図37に示す枠内文字抽出部56は、対応付けた交点と
枠内に囲まれた範囲を文字成分であると判断する。文字
成分と判断されたものは抽出され、それ以外は枠である
ため除去する。つまり、図68(a)に示すパターンの
場合、(b)に示す文字成分が抽出される。尚。図68
中、ハッチングは黒画素、黒丸は文字と枠との交点、梨
地は抽出された文字成分を示す。
【0140】図69は、枠内文字抽出部56の処理の一
実施例をより詳細に説明する図であり、処理をソフトウ
ェアで実現する場合のフローチャートを示す。ステップ
S601は、3交点対応付け部55からの対応付けられ
た交点等に関する情報を受け、ステップS602は、対
応付けた交点1(A1,B1)と交点2(A2,B2)
間を通る直線L1,L2を算出する。ステップS603
は、交点1のある枠の直線L3を算出し、ステップS6
04は、交点2のある枠の直線L4を算出する。ステッ
プS605は、枠内の黒画素で4本の直線L1,L2,
L3,L4で囲まれているものがあるか否かを判断す
る。ステップS605の判断結果がYESの場合は、ス
テップS606で文字線分の抽出を行い、処理は文字列
抽出部12−1の処理へ移る。他方、ステップS605
の判断結果がNOの場合は、ステップS607で枠を除
去し、処理がステップS608へ進む。
【0141】(13)枠内文字の補間 図37及び図40に示す枠内文字補間部32において
は、交点が一対一に対応している場合と、一対多に対応
している場合とに分け、接触文字パターン或はその一部
の交点間を滑らかに接続して、枠を分離したことにより
欠けた文字部分を補間する。
【0142】図40に示す単純補間部32aは、一対一
に対応付けられた接触文字パターン或はその一部の交点
間を滑らかに接続する手段である。一対一の補間の場合
には、基本的には各交点間での文字線分の輪郭の方向ベ
クトルを算出して、方向ベクトルに従って各交点から直
線を引き、その直線と直線が交わる点で文字線分を結合
する。又、方向ベクトルを算出する手間を省くため、各
対応付けた交点間を接続し補間することもできる。
【0143】図70は一対一の単純補間の例を示す図で
あり、補間する文字線分101a,101b、枠102
及び補間された文字線分103を示す。ここでは、各対
応付けた交点間を接続し補間する場合を示している。同
図に示すように、文字線分101aと文字線分101b
の交点間を直線で接続し、その間を黒画素で埋めること
により、補間された文字線分103を得ることができ
る。
【0144】図71は、単純補間部32aの処理の一実
施例をより詳細に説明する図であり、処理をソフトウェ
アで実現する場合のフローチャートを示す。図71にお
いて、ステップS131は、図70中、交点ak とa’
k を結ぶ直線la及び交点bk とb’k を結ぶ直線lb
を求める。ステップS132は、図70において、枠1
02より1画素分文字側の座標c,c’について、cc
をc≦cc ≦c’に設定する。直線laと枠102の交
点をpa、直線lbと枠102の交点をpbとすると、
ステップS134はpa≦p≦pbに設定すると共に、
f(cc ,p)を文字にする。尚、ステップS133及
びS134は、cc がc≦cc ≦c’の範囲内で繰り返
される。
【0145】一対多の交点の補間の場合には、先ず、対
応直線の交差点算出部32bにおいて、各交点での文字
線分の輪郭の方向ベクトルを算出し、方向ベクトルに従
って各交点から直線を引き、その直線と直線が交わる交
差点を算出する。尚、方向ベクトルを算出する手間を省
くため、各対応付けた交点間を結ぶ直線で方向ベクトル
を代用することもできる。
【0146】交差点算出部32bにおいて交差点を算出
した後、その交差点が枠内にある場合には、交差点枠内
補間部32cにより補間を行う。図72は、交差点枠内
補間の例を示す図であり、補間前の文字線分111a,
111b,111c、枠112及び補間された文字線分
113を示す。ここでは、各対応付けた交点間を結ぶ直
線で方向ベクトルを代用した例を示している。対応付け
た交点間を直線で結び、その交差点が枠112内にある
場合には、同図に示すように、交点を結ぶ直線間を黒画
素で埋めることにより、文字線分を補間する。
【0147】図73は、対応直線の交差点算出部32b
の処理の一実施例をより詳細に説明する図であり、処理
をソフトウェアで実現する場合のフローチャートを示
す。図73において、ステップS141は、一対多の交
点の補間であるか否かを判定する。ステップS141の
判定結果がYESの場合は、ステップS142で図72
中、各対応付けた交点間を結ぶ直線l1〜l4を算出す
る。他方、ステップS141の判定結果がNOの場合
は、ステップS143で各交点での文字線分の輪郭の方
向ベクトルl1〜l4を算出する。ステップS142又
はS143の後、ステップS144は交差点が枠112
内にあるか否かを判定する。ステップS144の判定結
果がYESの場合、ステップS145で後述する交差点
枠内補間部32cの処理へ進む。他方、ステップS14
4の判定結果がNOの場合、ステップS146で交差点
が枠112外にあるか否かを判定する。ステップS14
6の判定結果がYESであれば、ステップS147で後
述する交差点枠外補間部32dの処理へ進む。又、ステ
ップS146の判定結果がNOであれば、ステップS1
48で直線補間部32eの処理へ進む。
【0148】図74は、交差点枠内補間部32cの処理
の一実施例をより詳細に説明する図であり、処理をソフ
トウェアで実現する場合のフローチャートを示す。尚、
図30及び後述する図75〜図78においては、図72
中交差点と直線l1とl2の交点を(ik ,jk )、枠
112の内輪郭の座標をin 、枠112の外輪郭の座標
をig 、文字線幅をw、枠112の外輪郭より文字線幅
w分内側の座標をig-w とする。
【0149】図74において、ステップS161は、i
をin ≦i<ik に設定する。ステップS162はl
1,l2とiとの交点をPa,Pbに設定し、ステップ
S163はPがPa≦P≦Pbであればf(i,P)は
文字とする。又、ステップS162及びS163と平行
してステップS164及びS165が行われる。ステッ
プS164はl3,l4とiとの交点をPa,Pbに設
定し、ステップS165はPがPa≦P≦Pbであれば
f(i,P)は文字とする。上記ステップS162〜S
165は、in ≦i<ik の範囲内で繰り返される。
又、ステップS166は、iをik ≦i<ig に設定す
る。ステップS167はl1,l4とiとの交点をP
a,Pbに設定し、ステップS168はPがPa≦P≦
Pbであればf(i,P)は文字とする。上記ステップ
S167及びS168は、ik ≦i<ig の範囲内で繰
り返され、その後処理を終了する。
【0150】図75は、交差点枠外補間部32dの処理
の一実施例をより詳細に説明する図であり、処理をソフ
トウェアで実現する場合のフローチャートを示す。同図
中、図30と同一ステップには同一符号を付し、その説
明は省略する。図75において、ステップS161Aが
iをin ≦i<ig-w に設定し、ステップS166Aが
iをig-w ≦i<ig に設定する点を除けば、処理は図
74の場合とほぼ同様である。
【0151】図76は、直線補間部32eの処理の一実
施例をより詳細に説明する図であり、処理をソフトウェ
アで実現する場合のフローチャートを示す。同図中、図
74と同一ステップには同一符号を付し、その説明は省
略する。図76において、ステップS161がなく、ス
テップS166Bがiをis ≦i<is+w に設定する点
を除けば、処理は図74の場合とほぼ同様である。
【0152】尚、対応付けが不可能な交点に対しては、
図77の如きソフトウェア処理を行えば良い。同図中、
図74と同一ステップには同一符号を付し、その説明は
省略する。図77において、ステップS161がなく、
ステップS166Cがiをis ≦i<ig に設定する点
を除けば、処理は図74の場合とほぼ同様である。
【0153】(14)連結パターンの統合 図37及び図41に示す連結パターン統合部34におい
ては、枠内文字補間部32で補間した接触文字パターン
と、連結パターン属性付加部23において属性を付加さ
れた文字パターン或はその一部と、後述する複数連結性
確認部57−1,57−2からのパターンとを統合す
る。
【0154】枠が一文字枠である場合には、補間パター
ンと属性付けした文字パターン或はその一部でも同じ文
字枠に属する場合には、統合することを考えて、図41
に示す連結パターン仮統合部34aにおいて統合し、両
者の統合により得られたパターンのサイズをサイズ確認
部34bで確認する。そして、そのサイズが適切であれ
ば連結パターン統合部34cで統合し、適切でなければ
統合しない。
【0155】即ち、抽出した一文字枠の位置に基づき、
部分パターンの一部が一文字枠の内部にあれば、それら
の部分パターンを一つの文字構成要素として統合し、統
合時に統合したパターンのサイズを求めて、それと一文
字枠のサイズとのサイズ比を計算し、計算値が所定のし
きい値の範囲内か否かを判定する。そして、サイズ比が
所定のしきい値内の場合には採用したパターンをそのま
ま採用し、所定のしきい値外の場合には、統合せずに元
の部分パターン毎に文字を切り出す。
【0156】本実施例においては、上記のようにして文
字を切り出しているので、従来において正確に切り出す
ことができなかった文字をも正確に切り出すことができ
る。尚、図78は連結パターン統合部34の処理の一実
施例をより詳細に説明する図であり、処理をソフトウェ
アで実現する場合のフローチャートを示す。図78にお
いて、ステップS181は補間した文字パターンと属性
付けられた文字パターンを統合し、ステップS182は
統合した文字パターンのサイズを示すTOUGOUを設
定する。ステップS183は、TOUGOUが一文字枠
サイズ以下であるか否かを判定する。ステップS183
の判定結果がNOであれば、ステップS184は統合を
行わず、処理を終了する。他方、ステップS183の判
定結果がYESであれば、ステップS185で統合を行
ってから、処理を終了する。
【0157】(15)文字列の抽出 図37に示す文字列抽出部12−1は、枠内文字抽出部
56から得られる文字に関する情報に基づいてラベリン
グされた文字列を抽出する。又、図37に示す文字列抽
出部12−2は、枠内文字補間部32から得られる文字
に関する情報に基づいて、文字列抽出部12−1と同様
に、ラベリングされた文字列を抽出する。
【0158】(16)平均文字サイズ・ピッチの統合部 図37に示す平均文字サイズ・ピッチ統合部16−1
は、文字列抽出部12−1を介して得られる情報に基づ
いて抽出した小分離ストロークと平均文字ピッチ、平均
文字サイズ、サイズ分散値、ピッチ分散値の情報とに基
づき文字の統合を行う。
【0159】この平均文字サイズの算出処理フローを図
5に示す。図5に示すように、まずステップS151で
夫々の矩形の縦(横)方向の長さのヒストグラムを算出
する。そして、ステップS152で、そのヒストグラム
に基づき縦(横)の平均文字サイズを算出し、このサイ
ズを暫定平均文字サイズとする。このとき、文字がカナ
文字である場合には、図80(a)に示すように、ヒス
トグラムは濁点やハ,リ,クなどから生ずる小分離スト
ロークによって双峰性になる。また、数字である場合に
は5や7などから生ずる小分離ストローク,あるいは英
字である場合にはAやEなどから生ずる小分離ストロー
クによってヒストグラムは、双峰性になる。このため、
算出された暫定平均文字サイズは、平均文字サイズより
も小さく算出される。そこで、ステップS153は、暫
定平均文字サイズより右の領域でヒストグラムが最大値
MAXをとる文字サイズを算出し、その文字サイズの左
右方向にヒストグラムがMAX/2以上をとる領域を決
定する。尚、図80(b)に示すように、ヒストグラム
の山に偏りがある場合には、暫定文字サイズにおけるヒ
ストグラムを最大値MAXとし、ヒストグラムがMAX
/2以上をとる領域を決定する。そして、ステップS1
54は、その領域で再度、平均文字サイズを算出する。
この方法により、濁点等の小分離ストロークの影響を受
けずに、また、図80に示すようにヒストグラムの分布
に依存せずに、平均的な文字サイズの算出を行うことが
できる。
【0160】次に、小分離ストロークの抽出処理を説明
する。先ず、既にストローク毎に抽出された外接矩形を
用いて、その外接矩形の面積が平均文字サイズの面積の
1/2以下か否か、又、外接矩形の高さが平均文字サイ
ズの高さの4/5以下か否かを判定する。そして、面積
比及び高さ比の条件を満たす場合にはその外接矩形の部
分パターンを小分離ストロークとして抽出する。ここ
で、横サイズ(幅)について考慮しないのは、5の小分
離ストロークのように小分離ストロークではあっても、
サイズ的に平均サイズと変わらないものが存在するから
である。
【0161】次に、文字ピッチの算出処理を説明する。
小分離ストロークの抽出処理において小分離ストローク
と判定されなかったもの(それ自体で一文字とみなされ
たもの)については、図81に示すように夫々の外接矩
形間の距離pをピッチとし、ピッチのヒストグラムを算
出し、その結果に基づき平均文字ピッチの算出とその分
散値の算出を行う。
【0162】この平均文字ピッチの算出処理を次に説明
する。先ず、夫々の矩形間のピッチのヒストグラムを算
出する。次に、前記ヒストグラムに基づき平均文字ピッ
チを算出し、そのピッチを暫定平均文字ピッチとする。
又、例えば暫定平均文字ピッチより右の領域でヒストグ
ラムが最大値MAXをとる文字ピッチを算出し、その文
字ピッチの左右方向にヒストグラムがMAX/2以上を
とる領域を決定し、その領域で再度、平均文字ピッチを
算出する。 次に、平均文字サイズ・ピッチ統合部16
−1は評価関数F
【0163】
【数2】
【0164】に関してFが零以上であるか否かを判定
し、Fが零以上のとき、サイズ・ピッチ平均,サイズ・
ピッチ分散を用いた統合を行う。ここで、MPはピッチ
平均であり、MWはサイズ平均である。VPはピッチ分
散であり、αは1.6であり、βは0.5である。これ
らのパラメータの値は一例である。即ち、文字間の空白
の度合(ピッチ平均/サイズ平均)とのピッチ分散値の
値に応じた統合判定を行う。ここで、文字の統合幅w
は、図82(a)に示すような統合すべき部分パターン
と統合されるべき部分パターンとの幅である。
【0165】尚、図37に示す平均文字サイズ・ピッチ
統合部16−2は、文字列抽出部12−2を介して得ら
れる情報に基づいて抽出した小分離ストロークと平均文
字ピッチ、平均文字サイズ、サイズ分散値、ピッチ分散
値の情報とに基づき、上記平均文字サイズ・ピッチ統合
部16−1と同様に文字の統合を行う。 (17)複数連続性の確認 図37において、複数連続性確認部57−1は、抽出し
た枠の位置と文字線分の位置との位置ずれから、再補間
する枠の範囲を算出する。又、算出した範囲内で、原画
像と現在の処理された画像の連結成分の数、穴の数及び
オイラー数を各々比較する。比較結果が一致しない場合
は、上記接触頻度算出部51で算出した接触頻度の大小
に応じて3交点対応付け部55で原画像と同じ文字成分
の連結性を保つための交点の再対応付けを行う。従っ
て、再対応付けられた交点間を枠内文字補間部32で補
間すると、例えば図83に示すように「0」を抽出する
ことができる。図83は、原画像と処理された画像と
で、連結成分の数は変化しないが穴の数及びオイラー数
が変化した場合を示す。図83中、(a)は原画像、
(b)は枠内文字抽出部56で抽出された文字、(c)
は複数連続性確認部57−1での比較結果に基づいて3
交点対応付け部55で交点の再対応付けを行ってから上
記枠内文字補間部32で補間をすることにより得られる
補間された文字を示す。
【0166】図84は、複数連続性確認部57−1の処
理の一実施例をより詳細に説明する図であり、処理をソ
フトウェアで実現する場合のフローチャートを示す。図
84において、ステップS651は、平均文字サイズ・
ピッチ統合部16−1からの統合結果を受け、ステップ
S652は、枠の位置と抽出した文字の位置との位置す
れを算出する。ステップS653は、再補間を行う枠の
位置を設定する。ステップS654は、原画像の連結成
分の数Roを算出する。ステップS655は、現在の処
理された画像の連結成分の数Rnを算出する。ステップ
S656は、原画像の穴の数Aoを算出する。ステップ
S657は、現在の処理された画像の穴の数Anを算出
する。ステップS658は、原画像のオイラー数Ooを
Oo=Ro−Aoから算出する。又、ステップS659
は、現在の処理された画像のオイラー数OnをOn=R
n−Anから算出する。ステップS660は、Ro≠R
nであるか否かを判断する。ステップS660の判断結
果がNOであれば、ステップS661でAn≠Aoであ
るか否かを判断する。ステップS661の判断結果がN
Oであれば、ステップS662でOo≠Onであるか否
かを判断する。ステップS662の判断結果がNOであ
れば、ステップS663で処理が連結パターン統合部3
4の処理へ移る。他方、ステップS660、S661又
はS662の判断結果がYESであると、ステップS6
64で処理が3交点対応付け部55へ移り、交点の再対
応付けが行われる。
【0167】尚、複数連続性確認部57−2の処理は、
複数連続性確認部57−1の処理と実質的に同じである
が、複数連続性確認部57−2の場合は、図84におい
てステップS651が平均文字サイズ・ピッチ統合部1
6−2からの統合結果を受ける。更に、ステップS66
0、S661又はS662の判断結果がYESである
と、ステップS665で処理が2交点対応付け部61へ
移り、交点の再対応付けが行われる。
【0168】(18)再補間の判定 図37の再補間判定部63は、再補間が必要ない場合や
再補間後も前と処理結果が変わらない場合は、前回のピ
ッチ及び平均文字サイズを用いて確信度統合部17の処
理へ移るか、そうでない場合は、再度ピッチ及び平均文
字サイズを平均文字サイズ・ピッチ統合部16−3で求
めるかの判定を行う。尚、平均文字サイズ・ピッチ統合
部16−3の処理は、実質的に上記平均文字サイズ・ピ
ッチ統合部16−1,16−2の処理と同じであるの
で、その説明は省略する。
【0169】図85は、再補間判定部63の処理の一実
施例をより詳細に説明する図であり、処理をソフトウェ
アで実現する場合のフローチャートを示す。図85にお
いて、ステップS671は、連結パターン統合部34を
介して情報を受け、ステップS672は再補間された部
分があるか否かを判断する。ステップS672の判断結
果がYESであれば、再度ピッチ及び平均文字サイズを
求めるために、処理を平均文字サイズ・ピッチ統合部1
6−3へ移す。他方、ステップS672の判断結果がN
Oの場合は、再補間後も前と処理結果が変わらないの
で、前回のピッチ及び平均文字サイズを用いて処理を確
信度統合部17へ移す。
【0170】(19)確信度による統合 図37に示す確信度統合部17は、抽出された小分離ス
トロークとその左右に位置する文字パターンとの距離を
算出して、それらの距離に比を統合の確信度として定量
化することにより、確信度が高い場合には統合を行う。
つまり、平均文字サイズ・ピッチ統合部16−1で算出
した評価関数Fが零よりも小さい場合で、例えばピッチ
平均をサイズ平均で割った値が1よりも大きい場合に
は、確信度統合部17が、抽出された小分離ストローク
とその左右に位置するパターンとの距離を算出し、それ
らの距離の比を統合の確信度として定量化し、確信度が
高い場合には統合を行う。確信度統合部17は、例え
ば、図82(b)及び図82(c)に示すような距離
a,b,c,dを用いて、bがaの2.6倍よりも大き
く、cがdの2.6倍よりも大きい場合には(ステップ
110)、確信度による部分パターンの統合を行う。そ
して、bがaの2.6倍よりも小さく、cがdの2.6
倍よりも小さい場合には、小分離ストロークの横/縦比
が2.6より大きければ後述する簡易認識処理部18が
数字に限定して小分離ストローク統合を行う。
【0171】(20)簡易認識による統合 図37の簡易認識処理部18は、オーバーハングのある
手書き数字を対象とした処理を行うもので、小分離スト
ローク及びその左右に位置するパターン、更にそれらを
統合した場合のパターンに対して、線密度、傾き及び文
字サイズを簡単に識別して文字の統合を行っていく。つ
まり、小分離ストロークに対して、パターンマッチング
的手法を用いずにそれが一文字かあるいは文字の部分パ
ターンかを判別する。これによれば、複雑な処理を行う
必要がないので、高速に処理を行なえる。
【0172】図86は、簡易認識処理部18の処理の一
実施例をより詳細に説明する図であり、処理をソフトウ
ェアで実現する場合のフローチャートを示す。図86に
おいて、先ずステップS121は、小分離ストロークの
横/縦比が2.6より大きいか否かを判断し、判断結果
がNOの場合にはステップS122で小分離ストローク
を5として統合する。ステップS121の判断結果がY
ESの場合には、ステップS123で小分離ストローク
の横/縦比が1/3より小さいか否かを判定する。ステ
ップS123の判断結果がYESの場合には、後述する
ステップS132以降の7のルーチンに進む。他方、ス
テップS123の判断結果がNOの場合には、ステップ
S124以降で線密度の算出を行う。
【0173】数字の場合、小分離ストロークとして抽出
されるものは、小さく書かれた文字か5あるいは7の小
分離ストロークに限定される。このため、先ず、小さく
書かれた1文字と5か7の分離ストロークとを判別する
ために小分離ストロークに対して線密度を算出する。線
密度の算出方法の一例としては、図87に示すように、
外接矩形が横長か縦長かを調べ、横長である場合には外
接矩形を縦に4等分し、同図(a)に示す如く真中以外
の2ラインで線密度を算出する。縦長である場合には、
図87(b)に示す如く外接矩形を横に4等分して同様
の処理を行う。 尚、線密度算出方法として、この他に
外接矩形をn等分し、nライン目からn−mライン目ま
でにカウントした線密度の最大値を接密度にとるように
しても良い。
【0174】ここで、図88に示すような横長のストロ
ークに対して横方向に線密度を算出した場合、誤った線
密度が算出されてしまうため、線密度の算出方法を外接
矩形の形に応じて変える。これによれば、パターンの凹
凸の影響を受けずに正確な線密度を算出できる。そし
て、ステップS124は、線密度の縦方向が2以下で、
横方向が1以下であるか否かを判断する。ステップS1
24の判断結果がNOの場合には、ステップS125で
小分離ストロークではないとして拒絶する。他方、ステ
ップS124の判断結果がYESの場合は、ステップS
126で小分離ストロークの縦/横比が1以上か否かを
判定する。ステップS126の判断結果がYESの場合
には、ステップS127で小分離ストロークのX方向の
傾きを算出する。しかし、ステップS126の判断結果
がNOであると、ステップS128で小分離ストローク
のY方向の傾きを算出する。
【0175】傾きの算出方法については、図89
(a),(b),(c)に示すように、外接矩形を4等
分して、1本目と3本目の線とストロークとの2交点間
での傾きを算出する。実際には、交点が点ではなく、あ
る幅をもつので、その中点を選ぶ。線密度の算出方法と
同様に、傾きについても外接矩形が横長か縦長かによっ
て算出方法を区別する。横長矩形に対して、横方向に傾
きを算出した場合に誤りを生ずる可能性があるからであ
る。
【0176】このように、外接矩形が縦長か横長かによ
って、傾きの算出方向を変えることにより、適切傾きが
算出できる。次に、ステップS129はは、算出された
傾きを基にその傾きが5の分離ストロークの角度範囲
(−40°〜28°)であるか、7の分離ストロークの
角度範囲であるかを判断する。手書きで5及び7を書い
たときの分離ストロークの角度については、図90
(a),(b)に示すように、両者はほぼ排反の関係に
あるからである。
【0177】ここで、5の小分離ストロークの角度分布
よりも7の小分離ストロークの角度分布のほうが広い。
そこで、ステップS130は、5と7との識別にあたっ
て、確実に5の角度として算出されたものに対して、左
矩形との距離が右矩形との距離の1.5倍よりも小さい
か否かを判断し、判断結果がYESの場合にはステップ
S131で5として統合する。尚、ステップS130の
判断結果がNOの場合には、ステップS132の7のル
ーチンに進む。
【0178】一方、ステップS129において、文字サ
イズで拒絶されたもの及び7の角度として算出されたも
のは、以下の処理を行う。先ず、小分離ストロークの右
のストロークの線密度を算出し、右ストロークが7の右
の部分かどうかを判別する。ここでの線密度の算出方法
は、図91に示すように、7の右の部分と2や9を区別
するために、縦と横の両方向の線密度を調べる。
【0179】そして、ステップS132は、右ストロー
クの線密度の縦方向が2以下で横方向が1以下か否かを
判断する。ステップS132の判断結果がNOの場合に
は、ステップS133で左ストロークとの距離が平均横
サイズの1.8倍より小さく、分離ストロークの傾きが
−80°〜51.6°か否かを判断する。ステップS1
33の判断結果がYESの場合には、ステップS131
で5として統合し、判断結果がNOの場合には、ステッ
プS134で拒絶する。
【0180】一方、ステップS132の判断結果がYE
Sであり、ステップS135での線密度の算出の結果、
縦方向が2であって、横方向が1となる場合には、7の
可能性があるとして、小分離ストロークと統合したとき
の文字サイズを調べる。つまり、ステップS135の判
断結果がNOであると、ステップS136でその文字サ
イズが平均文字サイズのある閾値倍以下である場合、7
として統合する。他方、この方法で線密度を算出した場
合、ステップS135において、線密度の縦方向が1
で、横方向が1と算出されたものは、7の右パターンで
あるかどうかを確認するために、以下の方法で線密度を
再度算出する。
【0181】具体的には、ステップS137は、図92
(a),(b)に示す縦線密度1,横線密度1に対し
て、図92(c)に示すように、外接矩形の横幅中心か
ら縦方向に線密度を見ていき、線密度がカウントされた
時点で、横方向に線密度を見ていき、直角線密度が2か
否かを判定する。ステップS137の判断結果がYES
であり直角線密度が2となったものは、ステップS13
6で7として統合する。尚、図92(d)に示す縦線密
度1,横線密度1に対して複数方向線密度は1となる。
【0182】このような直角方向に線密度を見ていくこ
とにより、従来、一方向だけの探索では判別できなかっ
たパターンの判別が行える。更に、図92(f)に示す
文字“ク”、図92(g)に示す“L”に対しては、直
角線密度2となる。図92(h)に示す“4”の場合に
複数方向は直角方向でなくとも良い。又、ステップS1
36において、直角線密度が2以外の線密度である場合
や、文字サイズで拒絶されたものについては、5の小分
離ストロークの可能性もあるので、5のルーチンに戻
り、5として統合したときの文字サイズを調べる。つま
り、ステップS137の判断結果がNOであれば、処理
はステップS130へ戻る。そして、条件を満たす場合
には文字を統合し、条件を満たさない場合には拒絶す
る。
【0183】このように、不定ピッチや文字サイズの変
動のある文字列に対して文字の平均サイズ及びピッチを
厳密に算出し、統合の際にそれらの平均値と分散値に応
じて統合条件を適応的に変えているので、文字の精度の
高い切り出しが行える。特に、手書き数字文字列に対し
ては、パターンマッチング的手法を用いずに小分離スト
ロークに注目した簡易認識処理部18を用いているの
で、正確で高速な処理が行える。即ち、文字列中の全て
のパターンに一様な処理を施すのではなく、小分離スト
ロークに注目した処理を施すことにより、切り出し処理
全体での処理の高速化を図れる。
【0184】又、文字列中の全ての外接矩形の幅のヒス
トグラムを算出し、まず暫定的に平均文字サイズを算出
し、その値に基づき正確に文字サイズを算出するので、
文字列中の文字サイズの変動が激しい場合やオーバハン
グのある文字列の場合でもより正確な平均文字サイズが
算出できる。その結果、文字の統合を的確に行うことが
できる。
【0185】更に、文字列中の文字サイズ,ピッチの平
均値,分散値に応じて、小分離ストローク統合の際の条
件を適応的に変えることにより文字サイズ,ピッチの変
動に依存せずに、より正確な統合が行える。又、カナ文
字中の濁点や数字の分離ストローク等が存在するとき、
それらのパターンも含めて文字間のピッチを算出する
と、実際のピッチ間隔より小さいピッチが算出される。
それらの小分離ストロークを予め除外して考えることに
より、より正確なピッチの算出が可能となる。
【0186】文字列中の文字の並び方の規則性により分
離ストロークを統合する際の閾値を適応的に変えるた
め、より正確な文字の統合が行える。さらに、文字列中
の文字の並び方に規則性がないが、分離ストロークとそ
の左右に位置するパターンとの距離比を確信度として定
量化し、その値に応じて統合を行うため、正確な統合を
行える。
【0187】次に、本実施例で切り出される文字の一例
を図93〜96と共に説明する。図93〜図96は、各
々先に説明した図32〜図35に対応している。図93
中、ハッチングは黒画素、梨地は補間又は抽出された黒
画素、「黒丸」は枠と文字との交点、「黒三角形」は枠
から遠い交点、「黒四角形」は枠内の交点を表す。この
場合、「1」が左右に分離しており図32で説明した方
法では対応付けができなかったが、本実施例では図93
(a)に示す原画像に対して正しい対応付けを行って最
終的に(b)に示す如き文字「1」を切り出すことがで
きる。
【0188】図94中、ハッチングは黒画素、「黒丸」
は枠と文字との交点、「白丸」は枠と文字との交点では
ないと判定された交点を表す。この場合、図33で説明
した方法では「1」と「7」が誤って対応付けられた
が、本実施例では図94(a)に示す原画像に対して正
しい対応付けを行って最終的に(b)に示す如き文字
「1」及び「7」を切り出すことができる。
【0189】図95中、ハッチングは黒画素、梨地は補
間された黒画素を表す。この場合、図34で説明した方
法では「9」の誤った対応付けが行われたが、本実施例
では図95(a)に示す原画像に対して正しい対応付け
を行って最終的に(b)に示す如き文字「9」を切り出
すことができる。図96中、ハッチングは黒画素、梨地
は補間された黒画素を表す。この場合、図35で説明し
た方法では「8」の再補間が行われなかったが、本実施
例では図96(a)に示す原画像に対して正しい再対応
付けを行って最終的に(b)に示す如き文字「8」を切
り出すことができる。
【0190】以上説明したように、本実施例では次のよ
うな特徴1)〜23)を有する。 1)本実施例によれば、枠内の文字線分を抽出した後、
それ以外の枠を除去するので、文字枠の線幅を算出して
文字線分の方向等の連続性と連結性を評価して高品質の
文字を切りだすことができるため、接触文字の認識率が
向上する。 2)枠、罫線等内の文字線分を探索し、枠、罫線等と文
字との接触部分をより正確に把握るため、枠、罫線等の
傾いている場合、枠、罫線等に雑音が多く含まれる場合
や、文字幅と比較して枠、罫線等の幅が太い場合にも、
接触した文字部分を復元し、正解の文字パターンを抽出
できる。
【0191】3)枠内の文字線分を探索し、枠と文字と
の接触部分ではないことを把握する手段を設けているた
め、誤って文字パターンを復元しない。 4)交点側から枠、罫線等の中心方向へ探索した文字線
分の面積を得る手段を備えたことにより、文字線分に含
まれる雑音を区別することができる。 5)枠、罫線等と文字線分との交点側から枠、罫線等の
中心方向と逆方向へ文字線分を探索することにより対応
付ける交点がより正確になるため不要な文字パターンを
復元しない。
【0192】6)交点側から枠、罫線等の中心方向と逆
方向へ探索した文字線分の面積を得る手段を備えたこと
により、文字線分に含まれる雑音を区別することができ
る。 7)枠、罫線等と文字線分との交点側から枠、罫線等の
中心方向と逆方向へ探索した文字線分の面積と面積の閾
値とを比較することにより雑音を除去できる。 8)枠、罫線等と文字線分との交点側から枠、罫線等の
中心方向及び逆方向へ探索した各々の文字線分の面積の
和と面積の閾値とを比較することにより、雑音を除去で
きる。
【0193】9)ある枠、罫線等と文字線分との交点の
文字線分の面積の和がある閾値以上である場合に関し
て、枠、罫線等から遠い交点は、それが存在しなくなる
直前の値に決定する手段を備えたことにより、雑音でな
い文字線分との交点を算出するので正確なパターンを復
元できる。 10)枠、罫線等と文字線分との交点と枠、罫線等から
遠い交点とからこの文字線分の方向性が分かる。
【0194】11)枠、罫線等内の交点と枠、罫線等か
ら遠い交点の2交点からこの文字線分の方向性が分か
る。 12)枠、罫線等内の交点、枠、罫線等と文字線分との
交点及び枠、罫線等から遠い交点の3交点からこの文字
線分の方向性が分かる。 13)枠、罫線等に接触している文字パターンの枠、罫
線等と文字線分との交点算出後、交点間を対応付ける手
段に関して、枠、罫線等を構成する2つの輪郭のうちの
どちらか、又は、両側に枠、罫線等と文字線分との交点
が存在する場合に、この枠、罫線等及びこれと水平方向
に隣接する枠、罫線等、又はそれに隣接する枠、罫線等
とそれぞれに隣接するすべての枠、罫線等において、こ
れと反対側に存在する枠、罫線等と文字線分との交点を
対応付け候補点とすることにより、角に接触しているパ
ターンや表中の複数の一文字枠に接触するパターンの復
元ができる。
【0195】14)枠、罫線等に接触している文字パタ
ーンの枠、罫線等と文字線分との交点算出後、交点間を
対応付ける手段に関して、枠、罫線等を構成する2つの
輪郭のうちのどちらか、又は、両側に枠、罫線等と文字
線分との交点が存在した場合に、この枠、罫線等及びこ
れと垂直方向に隣接する全ての枠、罫線等の両側の輪郭
に存在する枠、罫線等と文字線分との交点対応付け候補
点とすることにより、角に接触しているパターンや表中
の複数の一文字枠に接触するパターンの復元ができる。
【0196】15)方向性が一致した場合にこれらの交
点間を対応付けることを特徴とする交点の対応付け装置
により、ほぼ直線である文字線分のパターンの復元がで
きる。 16)枠、罫線等内の交点が存在した場合にこれを候補
点として、候補点間の距離と枠、罫線等の線幅から候補
点間の距離の近さを調べ、対応付けられた場合にこの
枠、罫線等と文字線分との交点を対応付けることによ
り、より正確なパターンを復元できる。
【0197】17)枠、罫線等内の交点が存在した場合
にはこれを候補点として、候補点間の距離と、候補点間
の枠、罫線等と垂直方向の距離とから交点間の距離の近
さを調べ、対応付けられた場合にこの枠、罫線等と文字
線分との交点を対応付けることにより、より正確なパタ
ーンを復元できる。 18)連結性が確認できないパターンに対して文字列の
抽出後に算出した文字サイズ及びピッチ情報を用いるこ
とにより、1パターン毎の再連結を行う範囲を指定する
ことにより正確な再補間をおこないパターンの候補を復
元できる。
【0198】19)文字列の抽出後に算出した文字サイ
ズ及びピッチ情報に基づいてパターンの統合を決定する
ので正確なパターンを復元でき、不要なパターンを復元
しない。 20)連結性が確認されたパターンに対して、切りだす
前後の穴の数が変化した場合に、対応付けて再補間し、
候補のパターンを復元できる。
【0199】21)連結性が確認されたパターンに対し
て、切りだす前後のオイラー数が変化した場合に、対応
付けて再補間し、候補のパターンを復元できる。 22)連結性が確認されたパターンに対して、切りだす
前後の穴の数又はオライー数が変化した場合に、対応付
けて再補間し、候補のパターンを復元できる。 23)枠、罫線等の幅及びそのばらつき、傾斜角度、記
述された文字及び図形パターンの線幅、枠、罫線等との
接触の程度を得る手段、これらの情報から接触文字の頻
度を算出する手段、これを基に、枠、罫線等を除去後に
対応付け補間する手段か、又は、枠、罫線等抽出後に対
応付け文字線分を抽出した後に枠を除去する手段かを選
択することにより、接触頻度が小さいパターンに対して
は、高速に、接触頻度が大きいパターンに対しては、よ
り慎重に、各々正確なパターンを復元できる。
【0200】以上本発明を実施例により説明したが、本
発明はこれらの実施例に限定されることなく、様々な変
形又は改良が本発明の範囲内で可能であることは、言う
までもない。
【0201】
【発明の効果】以上説明したように、請求項1記載の発
明によれば、マスク処理を行うので、原画像の直線性を
失うことなく、且つ、比較的短い処理時間で線分を検出
できる。請求項4記載の発明によれば、フォーマット情
報を必要とすることなく、表形式のブロック枠及びフリ
ーフォーマット枠を抽出することができる。
【0202】請求項9記載の発明によれば、直線に途切
れが見つかり処理が終ってしまっても、マッチング処理
を行うことにより一文字範囲を抽出して枠の抽出をする
ことができる。請求項11の発明によれば、線分の探索
の成功率を向上することができる。請求項12の発明に
よれば、枠に接触している文字の文字幅より枠幅が大き
い場合、枠が傾斜している場合等であっても、交点の対
応付け等をより正確に行って文字の切出し精度を向上で
きる。
【図面の簡単な説明】
【図1】本発明になる画像抽出装置の第1実施例を示す
ブロック図である。
【図2】一文字枠抽出部の一実施例を示すブロック図で
ある。
【図3】隣接投影方を説明する図である。
【図4】隣接投影部41bの処理を説明するフローチャ
ートである。
【図5】矩形線分の検出を説明する図である。
【図6】縦横線分検出部41cの処理を説明するフロー
チャートである。
【図7】探索の開始点を説明する図である。
【図8】横線分選択部41dの処理を説明するフローチ
ャートである。
【図9】矩形線分の連結及び直線の傾きを説明する図で
ある。
【図10】線分統合部42a,42cの処理を説明する
フローチャートである。
【図11】探索部43bの処理を説明するフローチャー
トである。
【図12】一文字枠への分離を説明する図である。
【図13】枠の除去範囲を説明する図である。
【図14】枠の抽出を説明する図である。
【図15】文字の切出し及び補間を説明する図である。
【図16】マスクにより横成分を抽出する場合を説明す
る図である。
【図17】マスク処理部41Aの処理を説明するフロー
チャートである。
【図18】処理の対象となる枠の種類を示す図である。
【図19】フリーフォーマット枠の分割を説明する図で
ある。
【図20】表形式のブロック枠におけるブロック枠の重
なりを説明する図である。
【図21】枠検出部43全体の処理を説明するフローチ
ャートである。
【図22】ブロック枠の四辺を枠で囲まれた矩形部分へ
の分離を説明する図である。
【図23】枠分離部44全体の処理を説明するフローチ
ャートである。
【図24】隣合う一文字枠が文字によって繋がっている
場合の処理を説明する図である。
【図25】枠抽出・除去部45全体の処理を説明するフ
ローチャートである。
【図26】線分の探索を説明する図である。
【図27】第1実施例により文字を切出した場合の一例
を示す図である。
【図28】第1実施例により文字を切出した場合の一例
を示す図である。
【図29】先に提案された画像抽出装置を示すブロック
図である。
【図30】枠幅が文字幅よりかなり大きい場合の処理を
説明する図である。
【図31】枠が傾斜している場合の処理を説明する図で
ある。
【図32】1が左右に分離して対応付けができない例を
説明する図である。
【図33】1と7とが誤って対応付けられる例を説明す
る図である。
【図34】9の誤った対応付けの例を説明する図であ
る。
【図35】8が再補間されない例を説明する図である。
【図36】本発明になる画像抽出装置の第2実施例を示
すブロック図である。
【図37】本発明になる画像抽出装置の第2実施例を示
すブロック図である。
【図38】直線/枠抽出部22の一実施例を示すブロッ
ク図である。
【図39】枠分離部24の一実施例を示すブロック図で
ある。
【図40】枠内文字補間部32の一実施例を示すブロッ
ク図である。
【図41】連結パターン統合部34の一実施例を示すブ
ロック図である。
【図42】部分パターンの水平方向と垂直方向の投影を
示す図である。
【図43】枠の構成要素を示す図である。
【図44】直線検出部22bの処理を説明するフローチ
ャートである。
【図45】4辺検出部22cの処理を説明するフローチ
ャートである。
【図46】線幅の太い枠及び線幅の細い枠の一例を示す
図である。
【図47】枠探索の手法を説明する図である。
【図48】水平方向のnラインランレングスを求める処
理を説明するフローチャートである。
【図49】垂直方向のnラインランレングスを求める処
理を説明するフローチャートである。
【図50】4辺検出部22eの処理を説明するフローチ
ャートである。
【図51】線幅の太い枠と線幅の細い枠の骨格線、外輪
郭等を示す図である。
【図52】辺幅算出部24aで用いる座標を示す図であ
る。
【図53】接触頻度算出部51の処理の一実施例を示す
フローチャートである。
【図54】交点算出部25aの処理を説明するフローチ
ャートである。
【図55】枠内文字の交点算出部52−1の処理の一実
施例を説明するフローチャートである。
【図56】枠内の交点の追跡例を示す図である。
【図57】枠内に交点が存在しない場合の処理を説明す
る図である。
【図58】枠外文字の交点算出部25−1の処理の一実
施例を説明するフローチャートである。
【図59】枠から遠い交点の追跡例を示す図である。
【図60】追跡途中で文字線分がなくなる場合の処理を
説明する図である。
【図61】文字/枠交点判定部54−1又は54−2の
処理の一実施例を説明するフローチャートである。
【図62】方向性が一致する場合の交点の対応付けを示
す図である。
【図63】方向性が一致しない場合の交点の対応付けを
示す図である。
【図64】3交点対応付け部55の処理の一実施例を説
明するフローチャートである。
【図65】枠内の交点により対応付けが行われる場合を
示す図である。
【図66】枠内の交点により対応付けが行われない場合
を示す図である。
【図67】2交点対応付け部61の処理の一実施例を説
明するフローチャートである。
【図68】枠内文字の抽出例を示す図である。
【図69】枠内文字抽出部56の処理の一実施例を説明
するフローチャートである。
【図70】一対一の単純補間の例を示す図である。
【図71】単純補間部32aの処理を説明するフローチ
ャートである。
【図72】交差点枠内補間の一例を示す図である。
【図73】対応直線の交差点算出部32bの処理を説明
するフローチャートである。
【図74】交差点枠内補間部32cの処理を説明するフ
ローチャートである。
【図75】交差点枠外補間部32dの処理を説明するフ
ローチャートである。
【図76】直線補間部32eの処理を説明するフローチ
ャートである。
【図77】対応付けが不可能な交点に対する処理を説明
するフローチャートである。
【図78】連結パターン統合部34の処理を説明するフ
ローチャートである。
【図79】平均文字サイズ算出処理を説明するフローチ
ャートである。
【図80】平均文字サイズ算出方法を説明する図であ
る。
【図81】ピッチの算出方法を説明する図である。
【図82】統合を説明する図である。
【図83】原画像と処理された画像とで連結成分の数は
変化しないが穴の数及びオイラー数が変化した場合を示
す図である。
【図84】複数連続性確認部57−1の処理の一実施例
を説明するフローチャートである。
【図85】再補間判定部63の処理の一実施例を説明す
るフローチャートである。
【図86】簡易認識処理部18の処理の一実施例を説明
するフローチャートである。
【図87】線密度の算出方法を説明する図である。
【図88】横長のストロークに対して横方向線密度を算
出した場合の失敗例を示す図である。
【図89】傾きの算出方法を説明する図である。
【図90】5及び7の分離ストロークの角度を示す図で
ある。
【図91】線密度の算出方法を説明する図である。
【図92】複数方向の線密度の算出方法を説明する図で
ある。
【図93】第2実施例を図32の場合に適用した結果を
説明する図である。
【図94】第2実施例を図33の場合に適用した結果を
説明する図である。
【図95】第2実施例を図34の場合に適用した結果を
説明する図である。
【図96】第2実施例を図35の場合に適用した結果を
説明する図である。
【図97】先に提案されている画像抽出方式を示すブロ
ック図である。
【図98】細線化の問題を説明する図である。
【図99】線分の探索の問題を説明する図である。
【符号の説明】
40 連結パターン抽出部 41 線分検出部 42 直線検出部 43 枠検出部 44 枠分離部 45 枠抽出・除去部 46 一文字枠抽出部 21 連結パターン抽出部 22 直線/枠抽出部 23 連結パターン属性付加部 24 枠分離部 25−1 3交点算出部 25−2 2交点算出部 55 3交点対応付け部 56 枠内文字抽出部 32 枠内文字補間部 12−1,12−2 文字列抽出部 16−1,16−2,16−3 平均文字
サイズ・ピッチ統合部 57−1,57−2 複数連結性確認部 34 連結パターン統合部 63 再補間判定部 17 確信度統合部 18 簡易認識統合部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 矢吹 眞紀 神奈川県川崎市中原区上小田中1015番地 富士通株式会社内 (72)発明者 堀田 悦伸 神奈川県川崎市中原区上小田中1015番地 富士通株式会社内

Claims (27)

    【特許請求の範囲】
  1. 【請求項1】 一文字枠を含む表形式のブロック枠又は
    フリーフォーマット枠と、文字、図形もしくは記号とか
    ら構成される画像から画素と画素が繋がっている部分パ
    ターンを抽出する連結パターン抽出手段(40)と、 該連結パターン抽出手段(40)により抽出された部分
    パターンに基づいて前記画像から一文字枠を抽出する一
    文字枠抽出手段(46)と、 該連結パターン抽出手段(40)により抽出され、一文
    字枠を該一文字枠抽出手段(46)により除去された部
    分パターンから直線を検出する直線抽出手段(41,4
    2)と、 該直線抽出手段(41,42)により検出された直線か
    ら枠を構成する直線を検出する枠検出手段(43)と、 該枠検出手段(43)により検出された直線を部分パタ
    ーンから分離することにより文字、図形もしくは記号を
    切り出す枠分離手段(44)とを有し、 該直線抽出手段(41,42)は、該連結パターン抽出
    手段(40)により抽出され該一文字枠抽出手段(4
    6)により一文字枠を除去された部分パターン毎に、一
    文字枠を除去された部分パターンの画像全体に対して横
    長及び縦長の2種類のマスク内で走査を行う手段と、前
    記マスク内のパターンの占める割合を算出する手段と、
    算出された値が所定値より大きければそのマスク内を全
    てパターンとみなすと共に、算出された値が所定値以下
    であればマスク内のパターンを削除することにより縦横
    成分の抽出を行う手段とを含む、画像抽出装置。
  2. 【請求項2】 前記直線抽出手段(41,42)は、複
    数の行又は列が続いて前記割合が所定値より大きくなる
    と、それらの行又は列をまとめて矩形範囲を作成し、そ
    の矩形範囲の中心線を処理結果とする手段を含む、請求
    項1の画像抽出装置。
  3. 【請求項3】 前記直線抽出手段(41,42)は、マ
    スク処理を行う範囲に各々重なりを持たせる手段を含
    む、請求項1又は2の画像抽出装置。
  4. 【請求項4】 一文字枠を含む表形式のブロック枠又は
    フリーフォーマット枠と、文字、図形もしくは記号とか
    ら構成される画像から画素と画素が繋がっている部分パ
    ターンを抽出する連結パターン抽出手段(40)と、 該連結パターン抽出手段(40)により抽出された部分
    パターンに基づいて前記画像から一文字枠を抽出する一
    文字枠抽出手段(46)と、 該連結パターン抽出手段(40)により抽出され、一文
    字枠を該一文字枠抽出手段(46)により除去された部
    分パターンから直線を検出する直線抽出手段(41,4
    2)と、 該直線抽出手段(41,42)により検出された直線か
    ら枠を構成する直線を検出する枠検出手段(43)と、 該枠検出手段(43)により検出された直線を部分パタ
    ーンから分離することにより文字、図形もしくは記号を
    切り出す枠分離手段(44)とを有し、 該枠検出手段(43)は、該直線検出手段(41,4
    2)で検出された横枠を構成する直線の候補のうち所定
    値以上の長さのものを横枠として検出する手段と、検出
    した横枠に基づいて隣接する横枠が2本の場合には横一
    行のブロック枠又はフリーフォーマット枠を検出すると
    共に、横枠が3本以上の場合には表形式のブロック枠を
    検出する手段とを含む、画像抽出装置。
  5. 【請求項5】 前記枠検出手段(43)は、前記直線検
    出手段(41,42)で検出された縦枠を構成する直線
    の候補及び前記検出された横枠に基づいて、縦枠の候補
    の直線が検出された上下の横枠まで達しているか、或
    は、途中で途切れていないかを探索により調べる手段
    と、探索の結果上下共に横枠に達している縦線は縦枠の
    候補とし、その他は文字の一部分とみなして省く手段と
    を含む、請求項5の画像抽出装置。
  6. 【請求項6】 前記枠検出手段(43)は、枠抽出の際
    に所定の長さを越える直線は一定長さの単位に分割する
    手段を含む、請求項4又は5の画像抽出装置。
  7. 【請求項7】 前記枠検出手段(43)は、分割された
    部分がフリーフォーマット枠中のどの位置に対応するか
    で消去する枠の本数と位置を変化させる手段を含む、請
    求項6の画像抽出装置。
  8. 【請求項8】 前記枠検出手段(43)は、左から四方
    を枠線で囲まれた部分を1つずつ分離して行き、横線と
    縦線との長さの比が所定値以下の場合は各分離部分を一
    文字枠として扱う手段を含む、請求項4、5、6又は7
    の画像抽出装置。
  9. 【請求項9】 一文字枠を含む表形式のブロック枠又は
    フリーフォーマット枠と、文字、図形もしくは記号とか
    ら構成される画像から画素と画素が繋がっている部分パ
    ターンを抽出する連結パターン抽出手段(40)と、 該連結パターン抽出手段(40)により抽出された部分
    パターンに基づいて前記画像から一文字枠を抽出する一
    文字枠抽出手段(46)と、 該連結パターン抽出手段(40)により抽出され、一文
    字枠を該一文字枠抽出手段(46)により除去された部
    分パターンから直線を検出する直線抽出手段(41,4
    2)と、 該直線抽出手段(41,42)により検出された直線か
    ら枠を構成する直線を検出する枠検出手段(43)と、 該枠検出手段(43)により検出された直線を部分パタ
    ーンから分離することにより文字、図形もしくは記号を
    切り出す枠分離手段(44)と、 該直線抽出手段(41,42)における横枠検出が失敗
    した部分パターンについて枠抽出及び除去処理を行う枠
    抽出・除去手段(45)とを有する画像抽出装置。
  10. 【請求項10】 前記枠抽出・除去手段(45)は、前
    記直線抽出手段(41,42)における横枠探索が失敗
    した部分パターンに対して途中で途切れている線分も含
    めて線分の統合を行う手段と、統合後の横線が部分パタ
    ーンの大きさと比較して所定値以上の長さを有する場合
    にその横線を横枠とみなすと共に、2本の隣合う横線の
    間にある縦線のうち上下の横線まで達しているものを縦
    枠の候補とする手段と、この様にして得られた枠及び枠
    の候補によって形成される矩形範囲と同一画像にあり前
    記一文字枠抽出手段(46)により抽出済の一文字枠と
    のマッチングをとることにより一文字枠範囲を抽出し、
    各一文字枠範囲に対して一文字枠の場合と同様に枠の抽
    出及び除去の処理を行う手段とを含む、請求項9の画像
    抽出装置。
  11. 【請求項11】 一文字枠を含む表形式のブロック枠又
    はフリーフォーマット枠と、文字、図形もしくは記号と
    から構成される画像から画素と画素が繋がっている部分
    パターンを抽出する連結パターン抽出手段(40)と、 該連結パターン抽出手段(40)により抽出された部分
    パターンに基づいて前記画像から一文字枠を抽出する一
    文字枠抽出手段(46)と、 該連結パターン抽出手段(40)により抽出され、一文
    字枠を該一文字枠抽出手段(46)により除去された部
    分パターンから直線を検出する直線抽出手段(41,4
    2)と、 該直線抽出手段(41,42)により検出された直線か
    ら枠を構成する直線を検出する枠検出手段(43)と、 該枠検出手段(43)により検出された直線を部分パタ
    ーンから分離することにより文字、図形もしくは記号を
    切り出す枠分離手段(44)とを有し、 該直線抽出手段(41,42)は、部分パターンから直
    線を検出するために線分の探索を行う際に、枠であると
    判断された矩形線分内で最も細い部分を探索の開始点と
    する手段を含む画像抽出装置。
  12. 【請求項12】 矩形で各矩形が分離した枠と文字、図
    形もしくは記号とから構成される画像から、枠を抽出す
    る画像抽出装置において、 画像を構成するパターンから画素と画素が繋がっている
    部分パターンを抽出する連結パターン抽出手段(21)
    と、 抽出された各部分パターンに基づいて枠を抽出する枠抽
    出手段(22)と、 抽出された部分パターン及び枠に基づいて文字と枠との
    交点を算出する交点算出手段(25−1,25−2)
    と、 枠の線幅に応じて枠を挟む文字線分間の距離及び傾きの
    連続性の判定基準を適応的に変化させ、前記距離及び傾
    きの連続性に基づいて交点の対応付けを行う交点対応付
    け手段(55,61)と、 対応付けられた交点に基づいて枠内の文字線分を抽出す
    る枠内文字抽出手段(56)とを有する画像抽出装置。
  13. 【請求項13】 前記交点算出手段(25−1,25−
    2)は、算出された枠と文字との全ての交点について、
    交点側から枠の中心方向へ文字線分を探索する手段と、
    探索した結果の枠内の交点が文字線分の延長であるか否
    かを判定する手段とを含む、請求項11の画像抽出装
    置。
  14. 【請求項14】 前記交点算出手段(25−1,25−
    2)は、枠と文字線分との交点側から枠の中心方向へ文
    字線分を探索する過程で枠内の交点が存在しなくなる
    と、その交点は枠と文字線分との交点ではないと判断す
    る手段を含む、請求項13の画像抽出装置。
  15. 【請求項15】 前記交点算出手段(25−1,25−
    2)は、枠と文字線分との交点側から枠の中心方向へ文
    字線分を探索する過程で、交点側から枠の中心方向へ探
    索した文字線分の面積を求める手段を含む、請求項13
    又は14の画像抽出装置。
  16. 【請求項16】 前記交点算出手段(25−1,25−
    2)は、枠と文字線分との交点側から枠の中心方向とは
    逆方向へ文字線分を探索する過程で、交点側から前記逆
    方向へ探索した文字線分の面積を求める手段を含む、請
    求項12〜15のうちいずれか一項記載の画像抽出装
    置。
  17. 【請求項17】 前記交点算出手段(25−1,25−
    2)は、枠と文字線分との交点側から枠の中心方向と逆
    方向へ文字線分を探索する過程で枠外の交点が存在しな
    くなると、前記中心方向と逆方向とへ探索した各々の文
    字線分の面積の和が所定のしきい値より小さい場合はそ
    の文字線分を雑音であると判断する手段を含む、請求項
    16の画像抽出装置。
  18. 【請求項18】 枠と文字の幅及び文字と枠との接触の
    度合から文字と枠との接触頻度を算出し、文字幅が枠幅
    より大きく比較的に文字と枠とが接触していない接触頻
    度が小さい場合と、文字幅と枠幅とが略同じか或は文字
    と枠との接触が比較的多い接触頻度が大きい場合とを判
    別する接触頻度算出手段(51)を更に有する、請求項
    12〜17のうちいずれか一項記載の画像抽出装置。
  19. 【請求項19】 前記交点対応付け手段(55,61)
    は、前記接触頻度算出手段(51)が算出した接触頻度
    が大きい場合、枠外の交点と、文字と枠との交点と、枠
    内の交点との3種類の交点から文字線分の方向性を求
    め、枠内の交点における文字線分間の距離及び方向に基
    づく文字線分の連続性の条件と前記方向性とに基づいて
    文字と枠との交点を対応付ける手段を含む、請求項18
    の画像抽出装置。
  20. 【請求項20】 前記交点対応付け手段(55,61)
    は、略同じ方向性を持つ交点同士を対応付ける、請求項
    19の画像抽出装置。
  21. 【請求項21】 前記3種類の交点に基づいて文字と枠
    との交点を対応付ける手段によって対応付けた交点と、
    枠内とに囲まれた範囲を文字成分として抽出する枠内文
    字抽出手段(56)を更に有する、請求項19又は20
    の画像抽出装置。
  22. 【請求項22】 前記交点対応付け手段(55,61)
    は、前記接触頻度算出手段(51)が算出した接触頻度
    が小さい場合、枠外の交点と、文字と枠との交点との2
    種類の交点から文字線分の方向性を求め、前記方向性に
    基づいて文字と枠との交点を対応付ける手段を含む、請
    求項18〜21のうちいずれか一項記載の画像抽出装
    置。
  23. 【請求項23】 前記交点対応付け手段(55,61)
    は、略同じ方向性を持つ交点同士を対応付ける、請求項
    22の画像抽出装置。
  24. 【請求項24】 前記2種類の交点に基づいて文字と枠
    との交点を対応付ける手段によって対応付けた交点間を
    接続することにより枠内の文字領域を補間する枠内文字
    補間手段(32)を更に有する、請求項22又は23の
    画像抽出装置。
  25. 【請求項25】 前記交点対応付け手段(55,61)
    による交点の対応付けの後に文字列を抽出する文字列抽
    出手段(12−1,12−2)と、少なくとも平均文字
    ピッチ及び平均文字サイズに関する情報に基づいて文字
    の統合を行う統合手段(16−1,16−2)と、抽出
    した枠の位置と文字線分の位置との位置ずれに基づいて
    文字成分の連結性を確認して再補間する枠の範囲を算出
    する連結性確認手段(57−1,57−2)とを更に有
    する、請求項12〜24のうちいずれか一項記載の画像
    抽出装置。
  26. 【請求項26】 前記交点対応付け手段(55,61)
    は、連結性確認手段(57−1,57−2)により文字
    成分の連結性が確認できない場合に連結性を回復するよ
    うな交点の再対応付けを行う、請求項25の画像抽出装
    置。
  27. 【請求項27】 少なくとも平均文字ピッチ及び平均文
    字サイズに関する情報に基づいて文字の統合を行う統合
    手段(16−1,16−2,16−3)と、再補間され
    た文字パターンの有無に応じて前記統合を行わせる再補
    間判定手段(63)とを更に有する、請求項12〜26
    のうちいずれか一項記載の画像抽出装置。
JP11365345A 1999-01-01 1999-12-22 画像抽出装置 Pending JP2000172782A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11365345A JP2000172782A (ja) 1999-01-01 1999-12-22 画像抽出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11365345A JP2000172782A (ja) 1999-01-01 1999-12-22 画像抽出装置

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP5168253A Division JP3042945B2 (ja) 1993-07-07 1993-07-07 画像抽出装置

Publications (1)

Publication Number Publication Date
JP2000172782A true JP2000172782A (ja) 2000-06-23

Family

ID=18484038

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11365345A Pending JP2000172782A (ja) 1999-01-01 1999-12-22 画像抽出装置

Country Status (1)

Country Link
JP (1) JP2000172782A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002079671A (ja) * 2000-09-06 2002-03-19 Canon Inc インクジェット記録ヘッド
JP2009245036A (ja) * 2008-03-31 2009-10-22 Fujitsu Frontech Ltd 文字認識装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002079671A (ja) * 2000-09-06 2002-03-19 Canon Inc インクジェット記録ヘッド
JP2009245036A (ja) * 2008-03-31 2009-10-22 Fujitsu Frontech Ltd 文字認識装置
US8189921B2 (en) 2008-03-31 2012-05-29 Fujitsu Frontech Limited Character recognition device

Similar Documents

Publication Publication Date Title
JP3042945B2 (ja) 画像抽出装置
JP2951814B2 (ja) 画像抽出方式
Song et al. An object-oriented progressive-simplification-based vectorization system for engineering drawings: model, algorithm, and performance
EP0385009A1 (en) Apparatus and method for use in image processing
US20030198386A1 (en) System and method for identifying and extracting character strings from captured image data
JP6472218B2 (ja) 文字認識システム及び文字認識方法
JPH08305796A (ja) パターン抽出装置、パターン再認識用テーブル作成装置及びパターン認識装置
US6005976A (en) Image extraction system for extracting patterns such as characters, graphics and symbols from image having frame formed by straight line portions
Randriamahefa et al. Printed music recognition
JPH08167000A (ja) 文字認識装置および方法
CN111192346A (zh) 电子菜单生成方法、装置和设备
Yang et al. Semi-automatic ground truth generation for chart image recognition
JP2007058882A (ja) パターン認識装置
US6671417B1 (en) Character recognition system
JP3299519B2 (ja) 画像抽出装置
JPH0950527A (ja) 枠抽出装置及び矩形抽出装置
JP2000172782A (ja) 画像抽出装置
JP4176175B2 (ja) パターン認識装置
JPH0981740A (ja) 線図形入力装置
Mitchell et al. Newspaper layout analysis incorporating connected component separation
Bai et al. Object Boundary Encoding—a new vectorisation algorithm for engineering drawings
JP3415342B2 (ja) 文字切り出し方式
JP2009116520A (ja) 画像認識装置、画像認識方法及びプログラム
Nielson et al. Consensus-based table form recognition of low-quality historical documents
JP2000231602A (ja) 特徴抽出装置

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20011023