JPH0728937A - 画像抽出装置 - Google Patents
画像抽出装置Info
- Publication number
- JPH0728937A JPH0728937A JP5168253A JP16825393A JPH0728937A JP H0728937 A JPH0728937 A JP H0728937A JP 5168253 A JP5168253 A JP 5168253A JP 16825393 A JP16825393 A JP 16825393A JP H0728937 A JPH0728937 A JP H0728937A
- Authority
- JP
- Japan
- Prior art keywords
- frame
- character
- intersection
- extracting
- pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/28—Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/146—Aligning or centring of the image pick-up or image-field
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/155—Removing patterns interfering with the pattern to be recognised, such as ruled lines or underlines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Character Input (AREA)
Abstract
に抽出し、文字等を高品位に復元する。 【構成】 一文字枠を含む表形式のブロック枠又はフリ
ーフォーマット枠及び、文字、図形又は記号で構成され
る画像から画素と画素が繋がっている部分パターンを抽
出する連結パターン抽出手段40、抽出された部分パタ
ーンに基づいて前記画像から一文字枠を抽出する一文字
枠抽出手段46、(一文字枠を除去された部分パターン
から直線を検出する直線抽出手段41,42と)、枠を
構成する直線を検出する枠検出手段43、及び検出され
た直線を部分パターンから分離することにより文字、図
形又は記号を切り出す枠分離手段44を備える。
Description
特にOCR等の手書き文字認識装置において文字枠、罫
線等に接触した文字、図形等を抽出するための画像抽出
装置に関する。
認識装置の需要が増加している。この様な手書き文字認
識装置において個々の文字の高い認識率を実現するため
には、認識の前段階である文字の切出し処理が正確に行
われることが重要である。
文字を書く位置を予め指定された文書がある。この様な
文書では、文字を書く位置を指定した枠等がドロップ・
アウト・カラーでなく、黒枠等の罫線と文字とが同じ色
や濃度で書かれている。従って、文字が指定した範囲内
にきれいに書かれていれば比較的高い認識率で自動認識
が可能であるが、手書き文字が少しでも指定範囲を越え
て指定範囲を示す枠又は罫線に接触したりはみだしたり
すると、認識率が著しく低下するという問題が生じてい
た。
に触れている文字、図形、記号等から文字、図形、記号
等だけを正確に抽出するための画像抽出装置に関するも
のである。つまり、本発明は、手書き用文字認識装置だ
けでなく、印刷文字認識装置や図面認識装置における文
字及び記号の切出し、画像中の罫線と物体、図形や文字
との接触部分の分離等のように、直線と広い意味での図
形が重なったパターンから図形だけを切り出す際に適用
することができる画像抽出装置に関する。
7号にて図97に示す如き画像抽出方式を提案した。処
理の対象となる入力パターンは、予め極端な傾きや回転
の補正、雑音の除去、かすれの穴埋め等の前処理を施さ
れた2値画像であり、例えば黒枠の帳票から枠を除去す
るものとする。つまり、文字枠に関しては、横に細長い
一行のブロック枠が複数個あり、又、その枠のサイズ、
位置及び傾きが分からないブロック枠に対して手書き文
字が書かれており、文字が枠と接触したり枠からはみ出
していても枠だけを除去する。
パターン抽出部40と、線分検出部41と、直線検出部
42と、枠検出部43と、枠分離部44とからなる。連
結パターン抽出部40は、枠もしくは罫線等の直線部分
と文字、図形もしくは記号とから構成される入力パター
ンから画素と画素が繋がっている部分パターンを抽出す
る。線分検出部41は、細線化処理部を含み、隣接投影
により連結パターン毎に一定長さで線分又は直線の一部
を検出する。直線検出部42は、得られた複数の線分又
は直線の一部を統合して長い直線を検出する。枠検出部
43は、得られた複数の直線の間隔等により、文字枠を
構成する直線を抽出する。枠分離部44は、枠と枠の交
点によりブロック枠を一文字毎の枠に分割して夫々の枠
の幅を算出し、その幅に従って連結パターンから文字枠
を分離する。
るべき枠が上記以外の枠の場合には、例えば特開昭62
‐212888号公報や特開平3‐126186号公報
にて提案されているような枠抽出方法も提案されてい
る。これらの枠抽出方法によれば、位置やサイズ等のフ
ォーマット情報及び傾きに関する情報を予め帳票データ
として入力し、格納しておく。枠の除去は、これらの格
納された情報に基づいて行われる。
に提案した画像抽出方式では、以下のような問題点があ
り、まだ改善の余地がある。第1に、対象とする枠が一
文字枠及び横一行のブロック枠以外の場合、即ち、表形
式のブロック枠やフリーフォーマット枠の場合には、枠
抽出処理を行うことができなかった。第2に、線分検出
部41は細線化部を含み細線化処理を行うので、処理時
間が非常に長かった。又、細線化処理を行うと、原画像
の直線性が失われてしまうので、例えば図98(a)に
示す原画像が細線化により図98(b)に示す如くな
り、枠の抽出が難しくなってしまった。第3に、一つの
文字が互いに隣合う複数の一文字枠を接続してしまって
いる場合、探索によって直線の途中が途切れていること
が分かった時点で、ブロック枠でも一文字枠でもないと
みなして以降の処理を行わなかった。第4に、一文字枠
を除去する場合、探索を行って枠抽出をするため、探索
が失敗して枠抽出を行うことができないこともあった。
な例で説明する。探索の開始点がAの場合は、部分パタ
ーンの探索が、この例では上から下の方向へ、且つ、下
の方向へ進めない場合は左右に例えば枠の幅に対応する
所定の画素数分だけ進むので、探索が図99中矢印で示
す如く良好に行われる。しかし、探索の開始点がBの場
合は、部分パターンの探索を下の方向へ進めることはで
きず、又、左右に所定の画素数分進んでも下の方向には
部分パターンが存在しないので、図99中矢印で示す如
く探索は失敗してしまう。従って、この後者の場合に
は、枠抽出を行うことができない。
特開平3‐126186号公報にて提案されているよう
な枠抽出方法では、対象とする枠が表形式のブロック枠
等であっても、枠の抽出が可能である。しかし、その反
面、位置やサイズ等のフォーマット情報及び傾きに関す
る情報を予め帳票データとして入力し、格納しておくこ
とが前提となっているので、処理が文字枠自体の凹凸や
僅かな傾きの影響を受け易いという第5の問題点があっ
た。つまり、所定の位置からはみ出した文字枠を文字と
みなして文字枠の抽出時に抽出しなかったり、逆に文字
部分を枠として抽出してしまったりすることがあった。
更に、ユーザーによる各枠に関する情報の入力には非常
に時間がかかり、ユーザーに対する負担が大きいという
問題もあった。
されたものであって、枠、罫線等の直線部分に触れてい
る文字、図形、記号等から枠、罫線等の直線部分を正確
に抽出及び分離して、文字、図形、記号等を正確に切り
出すことにより、枠、罫線等の直線部分に接触した文
字、図形、記号等を高品位で復元することができ、これ
らの認識率を著しく向上させることができる画像抽出装
置を提供することを目的とする。
項1記載の、一文字枠を含む表形式のブロック枠又はフ
リーフォーマット枠と、文字、図形もしくは記号とから
構成される画像から画素と画素が繋がっている部分パタ
ーンを抽出する連結パターン抽出手段40と、該連結パ
ターン抽出手段40により抽出された部分パターンに基
づいて前記画像から一文字枠を抽出する一文字枠抽出手
段46と、該連結パターン抽出手段40により抽出さ
れ、一文字枠を該一文字枠抽出手段46により除去され
た部分パターンから直線を検出する直線抽出手段41,
42と、該直線抽出手段41,42により検出された直
線から枠を構成する直線を検出する枠検出手段43と、
該枠検出手段43により検出された直線を部分パターン
から分離することにより文字、図形もしくは記号を切り
出す枠分離手段44とを有し、該直線抽出手段41,4
2は、該連結パターン抽出手段40により抽出され該一
文字枠抽出手段46により一文字枠を除去された部分パ
ターン毎に、一文字枠を除去された部分パターンの画像
全体に対して横長及び縦長の2種類のマスク内で走査を
行う手段と、前記マスク内のパターンの占める割合を算
出する手段と、算出された値が所定値より大きければそ
のマスク内を全てパターンとみなすと共に、算出された
値が所定値以下であればマスク内のパターンを削除する
ことにより縦横成分の抽出を行う手段とを含む、画像抽
出装置によって達成される。
の、 一文字枠を含む表形式のブロック枠又はフリーフ
ォーマット枠と、文字、図形もしくは記号とから構成さ
れる画像から画素と画素が繋がっている部分パターンを
抽出する連結パターン抽出手段40と、該連結パターン
抽出手段40により抽出された部分パターンに基づいて
前記画像から一文字枠を抽出する一文字枠抽出手段46
と、該連結パターン抽出手段40により抽出され、一文
字枠を該一文字枠抽出手段46により除去された部分パ
ターンから直線を検出する直線抽出手段41,42と、
該直線抽出手段41,42により検出された直線から枠
を構成する直線を検出する枠検出手段43と、該枠検出
手段43により検出された直線を部分パターンから分離
することにより文字、図形もしくは記号を切り出す枠分
離手段44とを有し、該枠検出手段43は、該直線検出
手段41,42で検出された横枠を構成する直線の候補
のうち所定値以上の長さのものを横枠として検出する手
段と、検出した横枠に基づいて隣接する横枠が2本の場
合には横一行のブロック枠又はフリーフォーマット枠を
検出すると共に、横枠が3本以上の場合には表形式のブ
ロック枠を検出する手段とを含む、画像抽出装置る画像
抽出装置によって達成される。
字枠を含む表形式のブロック枠又はフリーフォーマット
枠と、文字、図形もしくは記号とから構成される画像か
ら画素と画素が繋がっている部分パターンを抽出する連
結パターン抽出手段40と、該連結パターン抽出手段4
0により抽出された部分パターンに基づいて前記画像か
ら一文字枠を抽出する一文字枠抽出手段46と、該連結
パターン抽出手段40により抽出され、一文字枠を該一
文字枠抽出手段46により除去された部分パターンから
直線を検出する直線抽出手段41,42と、該直線抽出
手段41,42により検出された直線から枠を構成する
直線を検出する枠検出手段43と、該枠検出手段43に
より検出された直線を部分パターンから分離することに
より文字、図形もしくは記号を切り出す枠分離手段44
と、該直線抽出手段41,42における横枠検出が失敗
した部分パターンについて枠抽出及び除去処理を行う枠
抽出・除去手段45とを有する画像抽出装置によって達
成される。
文字枠を含む表形式のブロック枠又はフリーフォーマッ
ト枠と、文字、図形もしくは記号とから構成される画像
から画素と画素が繋がっている部分パターンを抽出する
連結パターン抽出手段40と、該連結パターン抽出手段
40により抽出された部分パターンに基づいて前記画像
から一文字枠を抽出する一文字枠抽出手段46と、該連
結パターン抽出手段40により抽出され、一文字枠を該
一文字枠抽出手段46により除去された部分パターンか
ら直線を検出する直線抽出手段41,42と、該直線抽
出手段41,42により検出された直線から枠を構成す
る直線を検出する枠検出手段43と、該枠検出手段43
により検出された直線を部分パターンから分離すること
により文字、図形もしくは記号を切り出す枠分離手段4
4とを有し、該直線抽出手段41,42は、部分パター
ンから直線を検出するために線分の探索を行う際に、枠
であると判断された矩形線分内で最も細い部分を探索の
開始点とする手段を含む画像抽出装置によって達成され
る。
した枠と文字、図形もしくは記号とから構成される画像
から、枠を抽出する画像抽出装置において、画像を構成
するパターンから画素と画素が繋がっている部分パター
ンを抽出する連結パターン抽出手段21と、抽出された
各部分パターンに基づいて枠を抽出する枠抽出手段22
と、抽出された部分パターン及び枠に基づいて文字と枠
との交点を算出する交点算出手段25−1,25−2
と、枠の線幅に応じて枠を挟む文字線分間の距離及び傾
きの連続性の判定基準を適応的に変化させ、前記距離及
び傾きの連続性に基づいて交点の対応付けを行う交点対
応付け手段55,61と、対応付けられた交点に基づい
て枠内の文字線分を抽出する枠内文字抽出手段56とを
有する画像抽出装置である。
うので、原画像の直線性を失うことなく、且つ、比較的
短い処理時間で線分を検出できる。
ト情報を必要とすることなく、表形式のブロック枠及び
フリーフォーマット枠を抽出することができる。
れが見つかり処理が終ってしまっても、マッチング処理
を行うことにより一文字範囲を抽出して枠の抽出をする
ことができる。
成功率を向上することができる。
いる文字の文字幅より枠幅が大きい場合、枠が傾斜して
いる場合等であっても、交点の対応付け等をより正確に
行って文字の切出し精度を向上できる。
施例を示す図である。処理の対象となる入力パターン
は、予め極端な傾きや回転の補正、雑音の除去、かすれ
の穴埋め等の前処理を施された2値画像であるものとす
る。又、本実施例では便宜上黒枠の帳票から枠を除去す
るものとする。つまり、サイズ、位置及び傾きが分から
ない枠に対して手書き文字が書かれており、文字が枠と
接触したり枠からはみ出していても枠だけを除去する。
処理の対象となる枠は、図18(a)に示す規則的な表
形式のブロック枠、同図(b)に示す不規則な表形式の
ブロック枠、同図(c)に示すフリーフォーマット枠を
含む。
ーン抽出部40と、一文字枠抽出部46と、線分検出部
41と、直線検出部42と、枠検出部43と、枠分離部
44と、枠抽出・除去部45とが設けられている。連結
パターン抽出部40は、枠もしくは罫線等の直線部分と
文字、図形もしくは記号とから構成される入力パターン
から画素と画素が繋がっている部分パターンを抽出す
る。一文字枠抽出部46は、部分パターンから一文字枠
を抽出する。線分検出部41は、一文字枠を除去された
パターンに対して、隣接投影により連結パターン毎に一
定長さで線分又は直線の一部を検出する。直線検出部4
2は、得られた複数の線分又は直線の一部を統合して長
い直線を検出する。枠検出部43は、得られた複数の直
線の間隔等により、文字枠を構成する直線を抽出する。
枠分離部44は、枠と枠の交点によりブロック枠を一文
字毎の枠に分割して夫々の枠の幅を算出し、その幅に従
って連結パターンから文字枠を分離する。枠抽出・除去
部45は、直線検出部42における横枠検出が失敗した
部分パターンについて後述する枠抽出・除去処理を行
う。
ば後述する図36に示す文字/枠交点算出部25a〜図
37に示す連結パターン統合部34までの処理が考えら
れる。
40aからなる。複数のブロック枠が配置される位置の
相対的な関係に依存することなく各パターンを安定に抽
出するために、ラベリング部40aでは8連結で繋がっ
ているパターンをラベリングにより抽出する。このラベ
リングにより得られた部分パターンは、文字が接触して
いない場合の枠、枠に接触していない文字或は文字の一
部、文字の接触している枠のうち、いずれかである。そ
こで、これらの部分パターンを判別して枠を抽出する。
又、ラベリングで得られた部分パターンのサイズが後で
必要となるので、部分パターンを矩形近似して得られる
矩形の角の座標をラベリングの処理中に算出しておく。
に示す如く、線分検出部141と、直線検出部142
と、枠検出部143と、枠分離部144とからなる。線
分検出部141は、隣接投影により連結パターン毎に一
定長さで線分又は直線の一部を検出する。直線検出部1
42は、得られた複数の線分又は直線の一部を統合して
長い直線を検出する。枠検出部143は、得られた複数
の直線の間隔等により、文字枠を構成する直線を抽出す
る。枠分離部144は、枠と枠の交点によりブロック枠
を一文字毎の枠に分割して夫々の枠の幅を算出し、その
幅に従って連結パターンから一文字枠を分離する。図2
中、図1と実質的に同じ部分には同一符号を付す。
接投影部41b、縦横線分検出部41c及び横線分探索
部41dからなる。
部分パターン毎に細線化処理を行う。この細線化処理
は、線幅の太さを同じにして、枠だけに存在する長い直
線を抽出し易くするために行うものであり、細線化処理
自体としては、公知の技術を使用し得る。尚、部分パタ
ーンの細線化処理前の原パターンは、細線化されたパタ
ーンとは別に記憶しておき、後述する線分の探索時と枠
分離時とに使用する。
ンを縦横複数に分割し、縦横夫々の分割範囲内で隣接投
影を算出して、ある一定の長さの線分或は直線の一部を
矩形近似により検出する。「隣接投影」とは、注目行又
は列の投影値に周囲の行又は列の投影値を足し合わせた
結果を、投影値とするものである。これにより、直線が
傾きによって複数行又は列にわたっていても、直線を検
出することができる。従って、隣接投影を用いることに
より、ブロック枠等の大きな枠で、かつ、枠が傾いてい
る場合であっても、枠を構成する直線を検出することが
可能である。例えば図3に示すようにi行の投影値をp
(i)とすると、隣接投影値P(i)は次の(1)式に
基づいて算出できる。尚、図3ではj=1である。又、
列の投影値も行の投影値と同様に算出可能である。
に説明する図であり、処理をソフトウェアで実現する場
合のフローチャートを示す。
ターン抽出部40で得られた部分パターンを縦方向及び
横方向の複数の部分で分割する。ステップS302は、
縦横夫々の分割範囲内で投影を算出する。ステップS3
03は、算出された夫々の投影値に周囲の投影値を加算
する。更に、ステップS304は、上記(1)式に基づ
いて隣接投影値を算出する。
bで算出された隣接投影値と縦横夫々の分割長との比が
所定のしきい値以上である部分を直線の候補のある位置
とする。又、例えば図5の部分aのように、複数の行又
は列が続いて所定のしきい値以上となった場合は、それ
らをまとめた矩形範囲に直線があるものとする。検出さ
れた直線又は直線の一部は矩形近似されているため、以
後「矩形線分」と呼ぶ。
と、傾いている長い直線は検出不能なため、部分パター
ンの分割数を多くし、分割長を短くする必要がある。し
かし、分割長が短くなると、文字を構成している短い直
線も多数検出されてしまう。これに対し、本実施例では
上記隣接投影を用いているので、比較的長い直線をも検
出可能である。
実施例をより詳細に説明する図であり、処理をソフトウ
ェアで実現する場合のフローチャートを示す。
影部41bで算出された隣接投影値と縦横夫々の分割長
との比が所定のしきい値以上であるか否かを判定する。
ステップS311の判定結果がNOであれば、ステップ
S312で線分が存在しないものと判断する。他方、ス
テップS311の判定結果がYESであれば、ステップ
S313で線分が存在するものと判断する。この場合、
ステップS314はは存在すると判断された線分が、そ
の上下にある線分と接しているか否かを判定する。ステ
ップS314の判定結果がNOであれば、ステップS3
14は存在すると判断された線分を矩形線分とする。他
方、ステップS314の判定結果がYESであれば、ス
テップS316は存在すると判断された線分とその上下
にある線分とを統合し、ステップS317は統合された
線分を矩形線分とする。
1cで検出された矩形線分のうち、横線分が途中で切れ
ていないかどうかを確かめるための探索を行う。探索の
開始点は、矩形線分のなかで一番細い部分とする。例え
ば図7に「白丸」で示す中点等の一定の場所を開始点と
すると、同図に示す如く開始点が文字の部分であった場
合に探索が失敗する可能性が高いが、「黒丸」で示す一
番細い部分は文字である可能性が低いため、より確実に
探索を行うことができる。
施例をより詳細に説明する図であり、処理をソフトウェ
アで実現する場合のフローチャートを示す。
分検出部41cで検出された矩形線分のうち、最も線幅
の細い部分を算出する。ステップS322は、算出され
た最も線幅の細い部分を開始点として、左右に探索を開
始する。ステップS323は探索を行い、ステップS3
24は分岐点が存在するか否かを判定する。ステップS
324の判定結果がYESであれば、ステップS325
で分岐点を記憶する。又、ステップS324の判定結果
がNO或はステップS325の後で、ステップS326
が矩形線分の端に達したか否か、或は、探索が失敗した
か否かを判定する。ステップS326の判定結果がNO
であれば、処理はステップS323へ戻る。
Sの場合は、ステップS327で探索を終了し、ステッ
プS328で分岐点を記憶したか否かを判定する。ステ
ップS328の判定結果がNOであれば、処理は後述す
るステップS333へ進む。ステップS328の判定結
果がYESであれば、ステップS329で記憶されてい
る分岐点に戻って、ステップS330で探索を行う。ス
テップS331は、矩形線分の端に達したか否か、或
は、探索が失敗したか否かを判定する。ステップS33
1の判定結果がNOであれば、処理はステップS330
へ戻る。他方、ステップS331の判定結果がYESで
あれば、ステップS232で探索を終了し、ステップS
333で探索の終了点が矩形線分の左右の端に達したか
否かを判定する。ステップS333の判定結果がNOで
あれば、ステップS334は矩形線分が横線分ではない
と判断する。又、ステップS333の判定結果がYES
であれば、ステップS335は矩形線分が横線分である
と判断する。
は、線分統合部42a、直線検出部42b、線分統合部
42c及び直線検出部42bからなる。線分統合部42
a及び直線検出部42bは、横線分に対して設けられて
おり、線分統合部42c及び直線検出部42bは縦線分
に対して設けられている。直線検出部142は、図9
(a)に示す線分y,zのように、途中で途切れていな
い矩形線分同士が接触或は繋がっていれば、これらの矩
形線分を統合して長い直線とする。更に、図9(a)に
示す線分x,yのように、矩形線分が互いに繋がってい
なくても、垂直方向の距離が上記隣接投影の際加える行
又は列数j以内であれば、これらの矩形線分を統合して
長い直線とする。直線検出部42bは、線分統合部42
aで統合された直線の長さと、部分パターンを近似する
矩形の長さとの比が所定のしきい値以上であれば、横枠
を構成する直線の候補であると判断する。尚、直線検出
部42bは、図9(b)に示すように、線分統合部42
aで統合された線分xの左上の座標と線分zの右上の座
標を結んだ直線の傾きから、統合された直線の傾き、即
ち、部分パターンの傾きを求める。この部分パターンの
傾きは、後述する処理において用いられる。縦線分につ
いては、線分統合部42c及び直線検出部42bによ
り、検出された全ての矩形線分について、上記線分統合
部42a及び直線検出部42bと同様な処理を行う。つ
まり、線分統合部42cは矩形線分の統合を行って直線
を検出し、直線検出部42bは検出された直線を矩形近
似して縦枠を構成する直線の候補であると判断する。
42a及び線分統合部42cの処理の一実施例をより詳
細に説明する図であり、処理をソフトウェアで実現する
場合のフローチャートを示す。
された矩形線分同士の距離を算出する。ステップS34
2は、算出された距離が隣接投影の際加える行又は列数
以内であるか否かを判定する。ステップS342の判定
結果がNOであれば、ステップS343で矩形線分の統
合は行わないものとする。他方、ステップS342の判
定結果がYESであれば、ステップS344は矩形線分
の統合を行う。
は、横枠検出部43a、探索部43b、線間隔算出部4
3c、ヒストグラム作成部43d及び縦枠検出部43e
からなる。横枠検出部43aは、直線検出部42の直線
検出部42bで検出された横枠を構成する直線の候補か
ら、横枠を検出する。本実施例では、横一行、かつ、一
文字ずつ等間隔の枠を持つブロック枠を対象としている
ため、得られた横方向の直線の中で最外郭のものを横枠
とする。探索部43bは、縦枠を検出するため、直線検
出部142の直線検出部42dで検出された縦枠を構成
する直線の候補及び横枠検出部43aで検出された横枠
に基づいて、縦線分の探索を行う。具体的には、縦枠の
候補の直線が、横枠検出部43aで得られた上下の横枠
まで達しているか、或は、途中で途切れていないかを、
探索により調べる。探索方法は、横線の場合と同様に、
矩形範囲内で一番細いところを開始点とする。探索の結
果、上下共に横枠に達している縦直線は縦枠の候補と
し、その他は文字の一部分とみなして省く。次に、線間
隔算出部43cで、縦線の候補に残った縦直線同士の間
隔を算出する。又、ヒストグラム作成部43dは、算出
された線間隔とその出現頻度をヒストグラムに示し、縦
枠検出部43eは、著しく他と異なる間隔を形成する縦
直線を縦枠の候補から除外することにより、縦枠の候補
から除外されなかった縦直線を縦枠であるものとする。
をより詳細に説明する図であり、処理をソフトウェアで
実現する場合のフローチャートを示す。同図中、図8と
実質的に同じステップには同一符号を付し、その説明は
省略する。
も細い部分を開始点として上下に探索を開始する。ステ
ップS346及びステップS351は、夫々上下の横枠
に達したか、或は、探索が失敗したか否かを判定する。
ステップS353は、探索終了点が上下の横枠に達した
か否かを判定する。ステップS353の判定結果がNO
であればステップS354は縦枠の可能性がないと判断
し、判定結果がYESであればステップS355は縦枠
の可能性があると判断する。
る。枠分離部144は、枠交点算出部44a、一文字範
囲分離部44b、投影部44c、直線検出部44d、枠
探索部44e、辺幅算出部44f、枠除去部44g及び
接触文字補間部44hとからなる。枠交点算出部44a
は、枠検出部143から得られた縦枠及び横枠から、縦
枠と横枠との交点を算出する。図12に示す例では、交
点A1,B1,A2,B2,・・・を算出する。そし
て、一文字範囲分離部44bは、図12に示すように、
算出した交点を用いて(A1,A2,A3,A4)、
(B1,B2,B3,B4)、・・・という具合に、左
から一文字ずつの範囲に分離して行く。この結果、夫々
の分離部分は一文字枠と同様になる。投影部44cは、
各分離部分の投影を算出し、直線検出部44dは、得ら
れた投影から直線を検出する。より具体的には、直線検
出部44dは、各分離部分の各行及び列の投影値と各分
離部分を矩形近似して得た矩形との夫々の比を計算し、
その比より文字枠を構成する直線の候補を求める。枠探
索部44eは、文字枠を構成する直線の候補の中から直
線間の距離を算出し、文字枠を構成する最外郭の直線を
抽出することにより、各文字枠を探索して文字枠の位置
を求める。辺幅算出部44fは、最外郭の直線に隣接す
る候補直線を求め、探索された文字枠の各辺の線幅を算
出する。枠除去部44gは、各辺の最外郭の直線の位置
及び算出された各辺の線幅に基づいての一文字枠を一つ
ずつ除去する。接触文字補間部44hは、文字枠が除去
されることによって欠けてしまった文字部分を補間す
る。これにより、文字枠を除去されて文字が一文字ずつ
切り出されて行く。
枠の上下に除去されない部分ra,rb,rc,rdが
残ってしまうこともある。そこで、上記直線検出部14
2で求めた傾きが比較的大きい場合は、枠除去部44g
での枠の除去範囲を少し多めにしても良い。
を切り出した場合の一例を説明する図である。図14
(a)は原パターンを示し、同図(b)は図2の枠分離
部44の枠除去部44gにより抽出された枠を示す。図
15(a)は枠分離部44の枠除去部44gで枠を抽出
することにより切り出された文字を示し、同図(b)は
枠分離部44の接触文字補間部44hにより補間された
文字を示す。
ーンのうち一文字ずつ枠で仕切られている一文字枠に対
し、各部分パターンから直線を抽出し、抽出された直線
が枠であるか否かを判断し、文字領域を残して一文字枠
の枠線を消去する。
定されるものではなく、例えば後述する図29の連結パ
ターン抽出部1、線幅の太い直線抽出部2、線幅の細い
直線抽出部3及び枠抽出部4からなる部分により一文字
枠の抽出を行っても良い。
は、マスク処理部41A、隣接投影部41b、縦横線分
検出部41c及び横線分探索部41dからなる。
れた部分パターンから一文字枠を除去した部分パターン
毎に以下に説明するマスク処理を行う。このマスク処理
は、一文字枠を除去された原部分パターンの画像全体に
対して横長及び縦長の2種類のマスク内で走査を行い、
マスク内のパターンの占める割合を算出する。算出され
た値が所定値より大きければ、そのマスク内を全てパタ
ーンとみなす。他方、算出された値が所定値以下であれ
ば、マスク内のパターンを削除することにより縦横成分
の抽出を行う。複数の行又は列が続いて上記割合が所定
値より大きくなると、それらの行又は列をまとめて矩形
範囲を作成し、その矩形範囲の中心線を処理結果とす
る。
隙間が開かないようにするには、マスク処理を行う範囲
に各々重なりを持たせれば良い。図16は、縦×横が1
×6画素の矩形範囲を指定するマスクにより横成分を抽
出する場合を説明する図である。同図中、(a)は互い
に重なり合ったマスク「1」〜「9」を示す。又、同図
(b)は原部分パターンの画像の一例を示し、同図
(c)は(a)に示すマスクを用いてマスク処理を行っ
た場合に抽出される横成分を示す。同図中、黒い丸印が
抽出された横成分の画素を表す。
実施例をより詳細に説明する図であり、処理をソフトウ
ェアで実現する場合のフローチャートを示す。
パターンの画像全体に対して横長及び縦長の2種類のマ
スク内で走査を行う。ステップS2は、マスク内のパタ
ーンの占める割合、即ち、マスクの大きさに対するマス
ク内のパターンの面積を算出し、この割合が所定値より
大きいか否かを判断する。ステップS2の判断結果がN
Oであれば、ステップS3で縦成分又は横成分がないと
判断して処理が終る。他方、ステップS2の判断結果が
YESの場合は、ステップS4でマスク内を全てパター
ンとみなし、全てを縦成分又は横成分とする。ステップ
S5は、得られた成分が上下の成分又は左右の成分と接
しているか否かを判断する。ステップS5の判断結果が
NOであると、ステップS6で得られた成分を処理結果
として出力する。
は、ステップS7で接している成分を統合し、ステップ
S8で統合された成分から矩形範囲を作成する。ステッ
プS9は作成された矩形範囲の中心線を算出し、ステッ
プS10はその中心線を処理結果として出力する。
パターンは、マスク処理されたパターンとは別に記憶し
ておき、後述する線分の探索時と枠分離時とに使用す
る。
部41bと同様に、マスク処理されたパターンを縦横複
数に分割し、縦横夫々の分割範囲内で隣接投影を算出し
て、ある一定の長さの線分或は直線の一部を矩形近似に
より検出する。これにより、直線が傾きによって複数行
又は列にわたっていても、直線を検出することができ
る。従って、隣接投影を用いることにより、ブロック枠
等の大きな枠で、かつ、枠が傾いている場合であって
も、枠を構成する直線を検出することが可能である。
線分検出部41cと同様に、隣接投影部41bで算出さ
れた隣接投影値と縦横夫々の分割長との比が所定のしき
い値以上である部分を直線の候補のある位置とする。
又、例えば図5の部分aのように、複数の行又は列が続
いて所定のしきい値以上となった場合は、それらをまと
めた矩形範囲に直線があるものとする。検出された直線
又は直線の一部は矩形近似されているため、「矩形線
分」と呼ぶ。
と、傾いている長い直線は検出不能なため、部分パター
ンの分割数を多くし、分割長を短くする必要がある。し
かし、分割長が短くなると、文字を構成している短い直
線も多数検出されてしまう。これに対し、本実施例では
上記隣接投影を用いているので、比較的長い直線をも検
出可能である。
探索部41dと同様に、縦横線分検出部41cで検出さ
れた矩形線分のうち、横線分が途中で切れていないかど
うかを確かめるための探索を行う。探索の開始点は、矩
形線分のなかで一番細い部分とする。例えば図7に「白
丸」で示す中点等の一定の場所を開始点とすると、同図
に示す如く開始点が文字の部分であった場合に探索が失
敗する可能性が高いが、「黒丸」で示す一番細い部分は
文字である可能性が低いため、より確実に探索を行うこ
とができる。
線分統合部42a、直線検出部42b、線分統合部42
c及び直線検出部42dからなる。線分統合部42a及
び直線検出部42bは、横線分に対して設けられてお
り、線分統合部42c及び直線検出部42bは縦線分に
対して設けられている。直線検出部42は、前記した図
9(a)に示す線分y,zのように、途中で途切れてい
ない矩形線分同士が接触或は繋がっていれば、これらの
矩形線分を統合して長い直線とする。更に、図9(a)
に示す線分x,yのように、矩形線分が互いに繋がって
いなくても、垂直方向の距離が上記隣接投影の際加える
行又は列数j以内であれば、これらの矩形線分を統合し
て長い直線とする。直線検出部42bは、線分統合部4
2aで統合された直線の長さと、部分パターンを近似す
る矩形の長さとの比が所定のしきい値以上であれば、横
枠を構成する直線の候補であると判断する。尚、直線検
出部42bは、図9(b)に示すように、線分統合部4
2aで統合された線分xの左上の座標と線分zの右上の
座標を結んだ直線の傾きから、統合された直線の傾き、
即ち、部分パターンの傾きを求める。この部分パターン
の傾きは、後述する処理において用いられる。縦線分に
ついては、線分統合部42c及び直線検出部42bによ
り、検出された全ての矩形線分について、上記線分統合
部42a及び直線検出部42bと同様な処理を行う。つ
まり、線分統合部42cは矩形線分の統合を行って直線
を検出し、直線検出部42bは検出された直線を矩形近
似して縦枠を構成する直線の候補であると判断する。
は、横枠検出部43a、探索部43b、線間隔算出部4
3c、ヒストグラム作成部43d、縦枠検出部43e及
び隣接横枠選択部43Fからなる。横枠検出部43a
は、直線検出部42の直線検出部42bで検出された横
枠を構成する直線の候補から、横枠を検出する。本実施
例では、一文字枠が除去されている図18に示す如き枠
を対象としているため、得られた横方向の直線の中でラ
ベルサイズと比較して所定値以上の長さのものを横枠と
する。隣接横枠選択部43Fは、横枠検出部43aで検
出した横枠に基づいて、隣接する2本の横枠を選択す
る。例えば、横枠が2本の場合には横一行のブロック枠
又はフリーフォーマット枠であることがわかり、横枠が
3本以上の場合には表形式のブロック枠であることがわ
かる。探索部43bは、縦枠を検出するため、直線検出
部42の直線検出部42dで検出された縦枠を構成する
直線の候補及び横枠検出部43aで検出した横枠に基づ
いて、縦線分の探索を行う。具体的には、縦枠の候補の
直線が、横枠検出部43aで得られた上下の横枠まで達
しているか、或は、途中で途切れていないかを、探索に
より調べる。探索方法は、横線の場合と同様に、矩形範
囲内で一番細いところを開始点とする。探索の結果、上
下共に横枠に達している縦線は縦枠の候補とし、その他
は文字の一部分とみなして省く。次に、線間隔算出部4
3cで、縦線の候補に残った縦線同士の間隔を算出す
る。又、ヒストグラム作成部43dは、算出された線間
隔とその出現頻度をヒストグラムに示し、縦枠検出部4
3eは、処理の対象が図18(a)に示す如き規則的な
表形式のブロック枠の場合、隣接横枠選択部43fによ
り検出された2本の隣合う横枠に挟まれた範囲内の縦線
のうち、著しく他と異なる間隔を形成する縦線を縦枠の
候補から除外することにより、縦枠の候補から除外され
なかった縦線を縦枠であるものとする。
右端の2本しかない場合、抽出する枠がフリーフォーマ
ット枠であるとみなす。しかし、枠抽出の際、長い直線
は傾きがある場合に検出しにくいので、図19に示す如
く一定長さの単位に分割する。又、分割された部分がフ
リーフォーマット枠中のどの位置に対応するかで、消去
する枠の本数と位置を変化させる。つまり、分割された
部分がフリーフォーマット枠の左端位置に対応していれ
ば、左、上及び下の枠を消去する。分割された部分がフ
リーフォーマット枠の右端位置に対応していれば、右、
上及び下の枠を消去する。又、分割された部分がフリー
フォーマット枠の中間位置に対応していれば、上及び下
の枠のみをを消去する。
ある場合、隣接横枠選択部43fは、横枠のうち隣合う
2本ずつを選択し、図20に示す如く各隣合う2本の横
枠を上下の横枠とする一行のブロック枠が縦に重なって
いるものとみなす。従って、この場合は一行ずつ1ブロ
ック枠の場合と同様の処理を行うことが可能である。
不規則な表形式のブロック枠の場合、縦枠検出部43e
は、縦枠の候補に残った縦線同士の間隔(距離)が文字
サイズと比較して極端に小さいと、その縦線を縦枠の候
補から除外することにより、縦枠の候補から除外されな
かった縦線を縦枠であるものとする。又、処理の対象が
図18(a)に示す如き規則的な表形式のブロック枠の
場合、隣接横枠選択部43fにより検出された2本の隣
合う横枠に挟まれた範囲内の縦線のうち、著しく他と異
なる間隔を形成する縦線を縦枠の候補から除外すること
により、縦枠の候補から除外されなかった縦線を縦枠で
あるものとする。
施例をより詳細に説明する図であり、処理をソフトウェ
アで実現する場合のフローチャートを示す。
検出部42の直線検出部42bで検出された横枠を構成
する直線の候補が所定値以上の長さを有するか否かを判
断する。ステップS81の判断結果がNOであると、ス
テップS82は横枠を構成する直線の候補が横枠でない
と判断して処理を終える。他方、ステップS81の判断
結果がYESの場合は、ステップS83で横枠を構成す
る直線の候補から横枠を検出する。ステップS84は、
検出した横枠に基づいて、隣接する2本の横枠を選択す
る。又、ステップS85は、選択された隣接する2本の
横枠に挟まれた範囲を一つのブロック枠とみなす。
6は直線検出部42の直線検出部42dで検出された縦
枠を構成する直線の候補に基づいて縦線を検出し、ステ
ップS87は検出された縦枠及び横枠に基づいて縦線分
の探索を行う。ステップS88は、縦枠の候補の直線が
検出された上下の横枠まで達しているか否かを判断す
る。ステップS88の判断結果がNOであると、ステッ
プS89で検出された縦枠の候補の縦線を縦枠の候補か
ら除外して処理を終える。他方、ステップS88の判断
結果がYESの場合は、ステップS91で検出された縦
枠の候補の縦線を縦枠の候補とする。
表形式のブロック枠か不規則な表形式のブロック枠であ
るかを判断する。処理の対象が規則的な表形式のブロッ
ク枠である場合は、ステップS93で縦線の候補に残っ
た縦線同士の間隔を算出すると共に、算出された線間隔
とその出現頻度の関係を表すヒストグラムを算出する。
ステップS94は、処理の対象が図18(a)に示す如
き規則的な表形式のブロック枠の場合、検出された2本
の隣合う横枠に挟まれた範囲内の縦線のうち、著しく他
と異なる間隔を形成する縦線を縦枠の候補から除外する
ことにより、縦枠の候補から除外されなかった縦線を縦
枠であるものとする。ステップS95は、以上のように
得られた横枠及び縦枠に基づいて枠を抽出して、枠抽出
処理を終える。
不規則な表形式のブロック枠であると判断されると、ス
テップS96で縦枠の候補の縦線を全て縦枠とみなし、
処理はその後ステップS95へ進む。
枠分離部44は、枠交点算出部44a、分離部44B、
投影部44c、枠分割部44D、直線検出部44d、枠
探索部44e、辺幅算出部44f、枠除去部44g及び
接触文字補間部44hとからなる。枠交点算出部44a
は、枠検出部43から得られた縦枠及び横枠から、縦枠
と横枠との交点を算出する。図22に示す例では、交点
A1,B1,A2,B2,・・・を算出する。そして、
分離部44Bは、図22に示すように、算出した交点を
用いて(A1,A2,A3,A4)、(B1,B2,B
3,B4)、・・・という具合に、左から四方を枠線で
囲まれた部分を1つずつ分離して行く。又、図22中、
C1及びC2の如く横線と縦線との長さの比が所定値以
下の場合は、各分離部分が一文字枠と同様になる。投影
部44cは、各分離部分の投影を算出し、直線検出部4
4dは、得られた投影から直線を検出する。より具体的
には、直線検出部44dは、各分離部分の各行及び列の
投影値と各分離部分を矩形近似して得た矩形との夫々の
比を計算し、その比より文字枠を構成する直線の候補を
求める。尚、投影値の算出方法については、後述する第
2実施例と共により詳細に説明する。枠探索部44e
は、文字枠を構成する直線の候補の中から直線間の距離
を算出し、文字枠を構成する最外郭の直線を抽出するこ
とにより、各文字枠を探索して文字枠の位置を求める。
辺幅算出部44fは、最外郭の直線に隣接する候補直線
を求め、探索された文字枠の各辺の線幅を算出する。枠
除去部44gは、各辺の最外郭の直線の位置及び算出さ
れた各辺の線幅に基づいての文字枠を一つずつ除去す
る。接触文字補間部44hは、文字枠が除去されること
によって欠けてしまった文字部分を補間する。これによ
り、文字枠を除去されて文字が一文字ずつ切り出されて
行く。
長さの比が所定値より大きい場合は、同図に示すように
各々の分割部分の位置に応じて消去する枠線の本数と位
置を変化させて枠線の消去を行う。具体的には、枠分割
部44Dで枠をフリーフォーマット枠の場合と同様に複
数の分離部分に分割する。更に、投影部44c〜接触文
字補間部44hは、枠分割部44Dから得られる各分離
部分に対して上記処理を施す。
施例をより詳細に説明する図であり、処理をソフトウェ
アで実現する場合のフローチャートを示す。
検出部43から得られた縦枠及び横枠から縦枠と横枠と
の交点を算出する。ステップS102は、算出した交点
を用いて、左から四方を枠線で囲まれた部分を1つずつ
分離して行く。ステップS103は、横線と縦線との長
さの比が所定値より大きいか否かを判断する。横線と縦
線との長さの比が所定値以下の場合はステップS103
の判断結果がNOであり、各分離部分が一文字枠と同様
になるので、ステップS104で一文字枠の場合と同様
に枠の抽出及び除去を行い枠分離処理を終える。
Sの場合は、各々の分割部分の位置に応じて消去する枠
線の本数と位置を変化させて枠線の消去を行う。つま
り、ステップS105で枠線で囲まれた部分をフリーフ
ォーマット枠の場合と同様に複数の分離部分に分離し、
ステップS106で分離部分毎に枠の位置を格納する。
又、ステップS107は、この様にして得られた分離部
分毎に、一文字枠の場合と同様に枠の抽出及び除去を行
い枠分離処理を終える。
する。枠抽出・除去部45は、直線検出部45aと、マ
ッチング処理部45bと、枠処理部45cとからなる。
直線検出部45aは、直線検出部42における横枠探索
が失敗した部分パターンに対して、途中で途切れている
線分も含めて線分の統合を行う。マッチング処理部45
bは、統合後の横線が部分パターンの大きさと比較して
所定値以上の長さを有する場合、その横線を横枠とみな
す。又、2本の隣合う横線の間にある縦線のうち、上下
の横線まで達しているものを縦枠の候補とする。この様
にして得られた枠及び枠の候補によって形成される矩形
範囲と、同一画像にあり上記一文字枠抽出部46により
抽出済の一文字枠とのマッチングをとることにより、一
文字枠範囲を抽出する。枠処理部45cは、マッチング
処理部45bから得られる各一文字枠範囲に対して一文
字枠の場合と同様に枠の抽出及び除去の処理を行う。
合う一文字枠が文字によって繋がっている原画像であっ
ても、良好に枠の抽出及び除去を行うことができる。つ
まり、この様な場合には、部分パターンの大きさだけで
は一文字枠とブロック枠との区別がつかないので、線分
検出部41まではブロック枠の場合と同様の処理が行わ
れる。又、直線検出部42は、探索により横線が途中で
途切れていることを検出するので、この途切れた横線は
ブロック枠を構成する直線とは認識されない。このた
め、処理は枠抽出・除去部45へ移り、直線検出部45
aで直線検出部42における横枠探索が失敗した部分パ
ターンに対して、途中で途切れている線分も含めて横線
の統合を行う。又、マッチング処理部45bは、図24
(b)に示すように、上記の如き既に抽出済の一文字枠
とのマッチングを行う。これにより、図24(c)に示
す如き一文字枠への分離が可能となる。
の一実施例をより詳細に説明する図であり、処理をソフ
トウェアで実現する場合のフローチャートを示す。
線検出部42における横枠探索が失敗した部分パターン
に対して、途中で途切れている線分も含めて線分の探索
を行う。ステップS112は、探索の結果、線分が途切
れているか否かを判断する。ステップS112の判断結
果がNOであれば、図21と共に説明した枠検出処理が
続けられる。他方、ステップS112の判断結果がYE
Sの場合は、ステップS113で直線を検出することに
より横線の統合を行う。ステップS114は、四方を直
線で囲まれた部分を抽出し、ステップS115は抽出さ
れた四方を直線で囲まれた部分が同一画像中の一文字枠
の大きさと略同じであるか否かを判断する。ステップS
115の判断結果がNOであれば、ステップS116で
四方を直線で囲まれた部分が一文字枠ではないと判断し
て処理を終える。他方、ステップS115の判断結果が
YESであれば、ステップS117で四方を直線で囲ま
れた部分を一文字枠と同等の一文字範囲として認識し、
一文字枠の場合と同様に枠の抽出及び除去の処理を行
う。
で線分の探索を行う場合、図99と共に説明したような
探索の失敗が起こる可能性がある。そこで、例えば図2
1中ステップS87における探索を行う際に、図26に
示す如く枠であると判断された矩形線分内で最も細い部
分を探索の開始点とすることにより、探索の成功率を向
上し得る。図26に示す枠は図99に示した枠と同一で
あるが、図26では線分の探索が成功することがわか
る。
を切り出した場合の一例を説明する図である。図27
(a)は図1に示す連結パターン抽出部40から得られ
る原パターンを示し、同図(b)は図1に示す一文字枠
抽出部46により一文字枠を除去した後のパターンを示
す。又、図27(c)は同図(b)のパターンに対して
図1に示す線分検出部41内のマスク処理部41Aでマ
スク処理を行った後のパターンを示す。図28(a)は
図27(c)に示すパターンに基づいて図1に示す枠分
離部44内の枠除去部44gで抽出した枠を示し、図2
8(b)は枠除去部44gで図28(a)に示す枠を除
去することにより切り出した文字を示す。
は、次のような特徴1)〜6)を有する。
ーフォーマット枠であっても、確実に文字枠を抽出し除
去することができる。
うので、処理時間を短縮することができる。
うので、原画像の持つ直線性を保つことができ、これに
より直線検出が容易に行える。
ロック枠のうち、4辺を枠で囲まれた矩形部分の中で横
の長さの縦の長さに対する比が所定値以上となった部分
を複数の部分に分割するので、傾きのある場合でも確実
に枠を抽出し除去することができる。
ング処理を行うので、複数の枠が文字を介して繋がって
いても確実に一文字枠の範囲毎に分離するので、枠を確
実に抽出し除去することができる。
矩形線分の内部で最も細い部分を枠探索の開始点とする
ことにより、より確実に枠を抽出することができる。
如き画像抽出装置を特願平5‐103257号にて提案
している。同図中、連結パターン抽出部1は、枠もしく
は罫線等の直線部分と文字、図形もしくは記号とから構
成される画像から画素と画素が繋がっている部分パター
ンを抽出する。線幅の太い直線抽出部2は、連結パター
ン抽出部1において抽出された部分パターンの投影を求
めることにより部分パターン毎に連結パターンのサイズ
の縦、横の長さに相当する線幅の太い枠、罫線等の直線
を抽出する。線幅の細い直線抽出部3は、線幅の太い直
線抽出部2で抽出されなかった枠、罫線等の直線を抽出
する。枠抽出部4は、抽出された複数の直線から枠を構
成する4辺を抽出する。つまり、枠抽出部4は、線幅の
太い直線抽出部2或は線幅の細い直線抽出部3で抽出さ
れた直線のうち、部分パターンの最外郭の直線を求める
ことにより枠を検出する。連結パターン属性付加部5
は、連結パターンに枠、罫線等の直線が存在するかどう
かを調べ、存在しなかったら文字、図形もしくは記号又
はその一部から構成されるパターン(ハ)の属性を付加
する。又、連結パターン属性付加部5は、枠、罫線等の
直線分離後、文字、図形もしくは記号又はその一部の部
分パターンが存在するか否かに応じて、枠、罫線等の直
線パターン(ロ)の属性、枠、罫線等の直線に接触した
文字、図形もしくは記号又はその一部のパターン(イ)
の属性を付加する。
し、それに従って連結パターンから枠、罫線等の直線を
分離する。交点算出部7は、文字、図形もしくは記号と
枠、罫線等の直線が接する交点を算出する。交点対応付
け部8は、文字、図形もしくは記号を構成する線分間の
距離、方向に基づく線分の連続性の条件等により交点間
を対応付ける。補間部9は、交点対応付け部8において
対応付けられた交点間を接続することにより、枠、罫線
等の直線内の文字、図形もしくは記号の領域を補間す
る。連結性確認部10は、補間部9において得られたパ
ターンが元々連結していたという情報を逆利用してパタ
ーンの連結性を確認する。
場合には、交点対応付け部8の処理に戻り、交点の対応
付けの条件を拡張して対応付けを行う。そして、対応付
けられた交点について、補間部9で補間を行って、連結
性確認部10で再度連結性の確認を行う。連結パターン
統合部11は、文字、図形もしくは記号又はその一部か
ら構成されるパターン(ハ)の統合を行って、文字、図
形もしくは記号を抽出すると共に、補間部9において補
間された文字、図形もしくは記号のパターンと上記パタ
ーンを統合したときのサイズを考慮して両者を統合す
る。
と文字、図形もしくは記号から構成される画像から、枠
もしくは罫線等の直線を確実に除去し、除去した部分を
正確に補間することにより、高品質の文字、図形もしく
は記号を抽出することができる。このため、文字認識装
置等において、文字、図形、記号等の認識率を著しく向
上させることができる。
合部11を介して得られるラベリングされた文字列を抽
出する。平均文字サイズ算出部13は、抽出された文字
列に基づいて平均文字サイズを算出する。小分離ストロ
ーク抽出部14は、平均文字サイズと面積条件と高さ条
件とを用いて、小分離ストロークを抽出する。文字ピッ
チ算出部15は、小分離ストロークと判定されなかった
ものについて、外接矩形間の距離をピッチとして平均文
字ピッチを算出する。平均文字サイズ・ピッチ統合部1
6は、抽出された小分離ストローク、平均文字ピッチ、
平均文字サイズ、サイズ分散値などの情報に基づき文字
の統合を行う。確信度統合部17は、抽出された小分離
ストロークとその左右に位置する文字パターンとの距離
を算出し、それらの距離の比を統合の確信度として定量
化し、確信度が高い場合には統合を行う。又、簡易認識
処理部18は、オーバーハングのある手書き文字(数
字)を対象とした処理を行う。つまり、簡易認識処理部
18は、小分離ストローク及びその左右に位置するパタ
ーン及び更にそれらを統合した場合のパターンに対し
て、線密度、傾き及び文字サイズを簡単に識別して文字
の統合を行う。
除去後に文字と枠との交点を算出して対応付けているの
で、図30(a)に示す如く特に枠に接触している文字
の文字幅より枠幅の方がかなり大きい場合や、図31
(a)に示す如く枠が傾斜している場合などには、文字
に関する情報が極端に減少してしまう。図31(a)の
場合には、同図(b)に示すように、文字の大部分に関
する情報が失われてしまう。又、図31(a)の場合に
は、同図(b)に示すように、抽出される枠は水平及び
/又は垂直方向に本来より大きい領域を占有しているの
で、図30の場合と同様に文字の大部分に関する情報が
失われてしまう。図30及び図31中、枠はハッチング
で示す。
られている条件だけでは、図32のように「1」が左右
に分離されており対応付けられない交点が生じる場合、
図33のように「1」と「7」が実際には接触していな
いにもかかわらず枠と文字との交点を算出して誤って対
応付けてしまう場合、及び図34のように誤った対応付
けを行ってしまう場合などがある。又、枠の分離後に連
結性が確認されたパターンに対して、図35のように枠
と重なった文字パターンが再結合後も補間されない場合
もあり、連結性の確認だけでは対応付けの条件が不足し
ている。図32〜図35中、(a)は原画像を示し、
(b)は図29の交点対応付け部8での対応付けにより
最終的に切り出される文字を示す。尚、図32及び図3
3中、「黒丸」は枠と文字との交点を示す。又、図34
は「9」の誤った対応付けを示し、図35は「8」が補
間されない場合を示す。
施例について、図36及び図37と共に説明する。本実
施例では、本発明が黒枠の帳票から文字を切り出す処理
に適用されている。つまり、本実施例では、1文字枠の
サイズや位置がわからない矩形で分離した文字枠が複数
個あり、その文字枠に接触或はその文字枠からはみ出し
て手書き文字が書かれた場合に、文字及び文字枠のパタ
ーンから文字部分だけを一文字、一文字切り出す。
す連結パターン抽出部21、直線/枠抽出部22、連結
パターン属性付加部23、接触頻度算出部51、枠分離
部24、交点算出部25−1,25−2、図37に示す
交点対応付け部55,61、枠内文字抽出部56、枠内
文字補間部32、文字列抽出部12−1,12−2、平
均文字サイズ・ピッチ統合部16−1,16−2、複数
連結性確認部57−1,57−2、連結パターン統合部
34、再補間判定部63、平均文字サイズ・ピッチ統合
部16−3、確信度統合部17及び簡易認識処理部18
からなる。3交点算出部25−1は、文字/枠交点算出
部25a、枠内文字の交点算出部52−2、枠外文字の
交点算出部53−1及び文字/枠交点判定部54−1と
からなる。2交点算出部25−2は、文字/枠交点算出
部25a、枠外文字の交点算出部53−2及び文字/枠
交点判定部54−2とからなる。
は、前処理を施された入力パターン信号から8連結で繋
がっているパターンをラベリングにより抽出するラベリ
ング部を有する。「8連結」のパターンとは、縦、横、
斜めの8方向のいずれかで繋がっているパターンを言
う。上記ラベリングには、一般的な手法を用いることが
できる。本実施例では、ラベリング部で得られる部分パ
ターンは、文字が接触していない枠、枠に接触していな
い文字或は文字の一部、又は枠に接触している文字のい
ずれかである。これらの部分パターンを判別して枠に接
触している文字だけに注目するために、枠を抽出する。
又、ラベリングで得られた部分パターンのサイズが後述
する処理で必要となるので、部分パターンを矩形に近似
して得られる矩形の角の座標をラベリングの処理中に算
出しておく。
枠及び線幅の細い直線/枠を抽出する。図38に示す如
く、直線/枠抽出部22は、投影部22a、直線検出部
22b、4辺検出部22c、追跡部22d、4辺検出部
22e及び枠抽出部22fを有する。
により抽出された部分パターンを水平方向及び垂直方向
に投影する。直線検出部22bは、投影部22aで得た
水平方向の投影及び垂直方向の投影から水平線及び垂直
線を検出する。4辺検出部22cは、直線検出部22b
により検出された直線からなる矩形の4辺を検出する。
追跡部22dは、直線検出部22b及び4辺検出部22
cで検出できなかった線幅の細い直線を求めるため、後
述するnランレングス手法により線を追跡する。4辺検
出部22eは、追跡部22dにより求めた線幅の細い直
線からなる矩形より4辺を検出する。枠抽出部22f
は、4辺検出部22c,22eで求めた矩形より枠を抽
出する。
示す如く、連結パターン抽出部21により抽出された連
結パターンについて、直線/枠抽出部22の抽出結果に
基づいて、「枠」、「文字パターン又はその一部」及び
「枠と文字パターン又はその一部との接触パターン」の
属性を付加する属性付加部を有する。
文字と枠の接触の度合から、接触頻度を算出する。文字
幅が枠幅より大きく、文字と枠とが比較的に接触してい
ない場合は、接触頻度が小さい。他方、文字幅と枠幅が
略同じであるか、或は文字と枠との接触が比較的多い場
合は、接触頻度が大きい。接触頻度が小さい場合は、枠
分離部24で枠を分離してから、2交点算出部25−2
で文字と枠との交点を算出する。又、接触頻度が大きい
場合は、3交点算出部25−1で文字と枠との交点を算
出する。
加部23で枠或は文字と枠との接触パターンとして属性
が付与された連結パターンから枠を分離する。枠分離部
24は、図39に示すように、枠部分の辺の幅を算出す
る辺幅算出部24a、枠を除去する枠除去部24b、枠
を除去したパターンについて再びラベリングを施し、面
積の小さいパターンを雑音として除去する枠雑音除去部
24c及び属性付加部24dを有する。属性付加部24
dは、連結パターン属性付加部23において属性が付与
されなかったパターンに対して、枠を除去しても残るパ
ターンには接触文字パターンの属性を付加し、枠を除去
したら何も残らないパターンには枠だけの属性を付加す
る。
3交点算出部25−1内の文字/枠交点算出部25a
は、接触文字パターンについて枠と文字との交点を算出
する。枠内文字の交点算出部52−1は、全ての文字と
枠の交点に関してその位置から枠内方向へ文字線分を探
索して枠内の交点を算出すると同時に、その文字線分の
面積を求めておく。ただし、文字線分の探索中に文字線
分が途切れてしまう場合には、算出された交点が文字と
枠との交点ではないと判定する。次に、枠外文字の交点
算出部53−1は、全ての文字と枠の交点に関してその
位置から枠外方向へ枠幅とある程度文字線分を探索して
枠外の交点を算出すると同時に、その文字線分の面積を
求めておく。枠外方向とは、枠内方向とは反対の方向で
あり、枠から外側へ向かう方向を指し、枠外の交点と
は、枠から遠い交点を指す。文字/枠交点判定部54−
1は、枠内の交点算出部52−1及び枠外の交点算出部
52−2で求めた文字線分の面積の和が所定のしきい値
以下であれば、文字線分を雑音とみなして除去すると共
に、その交点が文字と枠との交点ではないと判定する。
4で枠を分離した後、2交点算出部25−2で交点を算
出する。2交点算出部25−2内の文字/枠交点算出部
25aは、接触文字パターンについて枠と文字との交点
を算出する。枠外文字の交点算出部53−2は、全ての
文字と枠の交点に関してその位置から枠外方向へ枠幅と
ある程度文字線分を探索して枠外の交点を算出すると同
時に、その文字線分の面積を求めておく。文字/枠交点
判定部54−2は、枠外の交点算出部52−2で求めた
文字線分の面積が所定のしきい値以下であれば、文字線
分を雑音とみなして除去すると共に、その交点が文字と
枠との交点ではないと判定する。
部25−1で行われた場合は、図37に示す3交点対応
付け部55で交点の対応付けを行う。他方、接触頻度が
小さく交点の算出が2交点算出部25−2で行われた場
合は、図37に示す2交点対応付け部61で交点の対応
付けを行う。
5−1で得られた枠から遠い交点、文字と枠の交点及び
枠内の3種類の交点に基づいて、その文字線分の方向性
を求める。又、この方向性と枠内の交点における文字線
分間の距離及び方向に基づく文字線分の連続性の条件に
より、文字と枠との交点を対応付ける。枠内文字抽出部
56は、対応する文字と枠との交点間を構成する文字線
分を枠から抽出する。文字列抽出部12−1は、枠内文
字抽出部56を介して得られるラベリングされた文字列
を抽出する。平均文字サイズ・ピッチ統合部16−1
は、抽出された小分離ストローク、平均文字ピッチ、平
均文字サイズ、サイズ分散値などの情報に基づき文字の
統合を暫定的に行う。複数連結性確認部57−1は、連
結線分数、穴の数、オイラー数などに基づいて連結性を
確認し、連結性が確認された場合には処理が連結パター
ン統合部34へ進む。しかし、連結性が確認できない場
合は、3交点対応付け部55の処理に戻って、連結性を
回復するような交点間の対応付けを行い、更に、枠内文
字補間部32で対応付けられた交点等を接続して文字枠
を除去したことにより分離した文字パターンを接続して
枠内の文字領域を補間する補間処理を行う。この枠内文
字補間部32での処理を終えてから、処理が連結パター
ン統合部34へ進む。
5−2で得られた文字と枠の交点及び枠内の2種類の交
点に基づいて、その文字線分の方向性を求める。又、こ
の方向性と枠内の交点における文字線分間の距離及び方
向に基づく文字線分の連続性の条件により、文字と枠と
の交点を対応付ける。枠内文字補間部32は、対応付け
られた交点等を接続して文字枠を除去したことにより分
離した文字パターンを接続する補間処理を行う。文字列
抽出部12−2は、枠内文字補間部32を介して得られ
るラベリングされた文字列を抽出する。平均文字サイズ
・ピッチ統合部16−2は、抽出された小分離ストロー
ク、平均文字ピッチ、平均文字サイズ、サイズ分散値な
どの情報に基づき文字の統合を暫定的に行う。複数連結
性確認部57−2は、連結線分数、穴の数、オイラー数
などに基づいて連結性を確認し、連結性が確認された場
合には処理が連結パターン統合部34へ進む。しかし、
連結性が確認できない場合は、2交点対応付け部61の
処理に戻って、連結性を回復するような交点間の対応付
けを行い、更に、枠内文字補間部32で対応付けられた
交点等を接続して文字枠を除去したことにより分離した
文字パターンを接続して枠内の文字領域を補間する補間
処理を行う。この枠内文字補間部32での処理を終えて
から、処理が連結パターン統合部34へ進む。
ターンの有無を判定し、無い場合にはそのまま確信度統
合部17の処理へ進む。他方、再補間された文字パター
ンが有る場合には、平均文字サイズ・ピッチ統合部16
−3で平均文字サイズ及びピッチを最終的に算出して文
字を統合してから、確信度統合部17の処理へ進む。確
信度統合部17は、抽出された小分離ストロークとその
左右に位置する文字パターンとの距離を算出し、それら
の距離の比を統合の確信度として定量化し、確信度が高
い場合には統合を行う。又、簡易認識処理部18は、オ
ーバーハングのある手書き文字(数字)を対象とした処
理を行う。つまり、簡易認識処理部18は、小分離スト
ローク及びその左右に位置するパターン及び更にそれら
を統合した場合のパターンに対して、線密度、傾き及び
文字サイズを簡単に識別して文字の統合を行う。
5又は61において対応付けられた交点等を接続し、文
字枠を除去したことにより分離した文字パターンを接続
する。枠内文字補間部32は、図40に示す如く、単純
補間部32a、交差点算出部32b、交差点枠内補間部
32c、交差点枠外補間部32d及び直線補間部32e
を有する。単純補間部32aは、一対一対応の交点間を
接続することにより補間する。交差点算出部32bは、
一対多対応の交点及び再対応付けられた交点について、
交点における文字線分の輪郭の方向ベクトルの交差点を
算出する。交差点枠内補間部32cは、求めた交差点が
枠の線幅内の場合に交点間を接続する。交差点枠外補間
部32dは、求めた交差点が枠の線幅外の場合に交点間
を接続する。直線補間部32eは、交差点が算出できな
い場合に、文字線分を枠に沿って直線で補間する。
された文字パターン或は図36の連結パターン属性付加
部23において文字パターンの属性が付加された文字パ
ターンを統合する。図41に示す如く、連結パターン統
合部34は、連結パターン仮統合部34a、サイズ確認
部34b及び連結パターン統合部34cを有する。連結
パターン仮統合部34aは、連結パターンの仮統合を行
う。サイズ確認部34bは、仮統合された文字パターン
のサイズを確認する。連結パターン統合部34cは、サ
イズ確認部34bにおいて確認されたサイズが適切でな
い場合に連結パターンを更に統合する。
について説明する。
転の補正、雑音の除去、「かすれ」の穴埋め等の前処理
が施された入力パターンが入力される。連結パターン抽
出部21内のラベリング部は、この入力パターンについ
て、枠の位置に関係なく接触文字の候補を選択するた
め、縦、横、斜め方向の8方向のいずれかで繋がってい
るパターンをラベリングにより抽出する。この様なラベ
リングで得られた部分パターンは、(イ)文字が接触し
ていない場合の枠、(ロ)枠に接触していない文字或は
文字の一部、又は(ハ)枠に接触している文字のいずれ
かである。
サイズは上述の如く後の処理で必要となるので、ラベリ
ングの処理中に部分パターンを矩形に近似して得られる
矩形の角の座標を求めておく。
している文字だけに注目するため、枠抽出部22におい
て枠を抽出する。枠を抽出する際、一般に抽出の頻度が
高く、高速に抽出を行う必要があるので、先ず線幅の太
い直線/枠を抽出し、これによって抽出できなかった場
合には次に線幅の細い直線/枠を抽出する。
合でも、安定に枠を抽出する必要がある。そこで、図3
8に示す枠抽出部22の投影部22aは、ラベリングで
得られた部分パターン毎に投影をとる。そして、直線検
出部22bにおいて、投影値と部分パターンを矩形に近
似して得られる縦横サイズとの比を計算して、その比が
所定のしきい値以上であれば長い直線であると判断す
る。
ロークの場合もあるので、できるだけ最外郭の直線で矩
形らしさを満足する4辺に相当する直線を求める。
ベリングで得られた部分パターンの水平方向の投影と垂
直方向の投影とを示す図である。同図中、ラベリングに
より得られた部分パターン41は、横方向に長さLx、
縦方向に長さLyを有する。又、部分パターンは、垂直
方向の投影VP及び水平方向の投影HPを有する。
列×n行、座標(i,j)の濃度値をf(i,j)、i
行目の水平方向の投影をPh (i)、j列目の垂直方向
の投影をPv (j)とすると、Ph (i)及びPv
(j)は夫々次の(2)式及び(3)式で表される。
た水平方向の投影及び垂直方向の投影について、連結パ
ターン抽出部21で求めた部分パターンの矩形座標の矩
形の縦横の長さLx及びLyを用いて、次の(4)式に
より縦の長さLxと水平方向の投影Ph (i)との比、
又、次の(5)式により横の長さLyと垂直方向の投影
Pv (j)との比を求め、これらの比をしきい値THL
と比較する。
L 以上であれば、部分パターンが枠を構成する直線の候
補であるものとする。即ち、図42に示すように、抽出
された部分パターンが矩形である場合には、その直線部
分の水平投影値Ph (i)と垂直投影値Pv (j)が最
も大きくなり、その縦横の長さLxとLyとの比も大き
くなるので、(4)式と(5)式により直線部分を判別
することができる。
処理の一実施例をより詳細に説明する図である。図43
は、枠の構成要素を示し、枠は上枠と下枠と左枠と右枠
とにより構成されている。上枠は、線分(直線)i1及
びi11からなる。下枠は、線分(直線)i2及びi2
2からなる。左枠は、線分(直線)j1及びj11から
なる。右枠は、線分(直線)j2及びj22からなる。
ラベリングにより得られた部分パターンの矩形の縦横の
長さを夫々Lx,Lyとすると、投影と長さとの比が所
定のしきい値THL 以上であれば、枠を構成する線分
(直線)の候補とする。
トウェアで実現する場合のフローチャートを示す。同図
中、ステップS1〜S7は、水平線のうち上枠の候補を
検出する。ステップS11〜S17は、水平線のうち下
枠の候補を検出する。ステップS21〜S27は、垂直
線のうち左枠の候補を検出する。又、ステップS31〜
S37は、垂直線のうち右枠の候補を検出する。ここで
は、説明の便宜上、ステップS1〜S7の動作のみを説
明し、他のステップの説明は省略する。
設定する。ステップS2は、[Ph(i)/Lx]<T
HL であるか否かを判定する。ステップS2の判定結果
がNOであると、ステップS3でiをインクリメントし
てからステップS2へ戻る。他方、スッテップS2の判
定結果がYESであると、ステップS4はi1=iに設
定する。次に、ステップS5は[Ph (i)/Lx]≧
THL であるか否かを判定する。ステップS5の判定結
果がYESであると、ステップS6でiをインクリメン
トしてからステップS5へ戻る。他方、スッテップS5
の判定結果がNOであると、ステップS7でi11=i
−1に設定、これらの動作により上枠の候補が得られ
る。
プS11〜S17、ステップS21〜S27及びステッ
プS31〜S37により同様にして得られる。尚、例え
ばステップS13及びS16は、iをデクリメントす
る。
より検出された水平線iの候補と垂直線jの候補の中か
ら、夫々最外郭の水平線候補i1,i2及び垂直線の候
補j1,j2に着目して、次の(6)式及び(7)式を
計算してしきい値THL'と比較する。
細に説明する図であり、処理をソフトウェアで実現する
場合のフローチャートを示す。同図中、ステップS41
は、上記(6)式が成立するか否かを判定する。ステッ
プS41の判定結果がYESの場合、ステップS42は
上記(7)式が成立するか否かを判定する。ステップS
41又はS42の判定結果がNOであると、処理は追跡
部22dの処理へと進む。他方、ステップS42の判定
結果がYESの場合、ステップS43は部分パターンが
枠を構成する直線部分であるとみなして、直線部分を検
出する。
出結果に基づいて枠を抽出する。つまり、4辺検出部2
2cで直線部分が検出されるとこれに基づいて枠を抽出
し、直線部分が検出されないと他の候補に着目して上記
処理を繰り返すことにより、枠を抽出する。具体的に
は、候補が上記(6)式、(7)式を満足すれば枠を構
成する直線と見なし、満足しなければ他の候補に着目し
て上記処理を繰り返す。
めた後、その骨格線の前後に注目し、骨格線から連続し
て何本水平線の候補i或は垂直線の候補jが存在するか
を計算し、その値を各辺の線幅の基準とする。
れた線幅の太い枠の一例を示す図である。同図中、抽出
された枠151に対して骨格線152が得られ、各辺の
線幅はこの例では2画素分である。
において算出できなかった部分パターンに注目して、線
幅の細い直線/枠の抽出を行う。
図であり、枠153及びその骨格線154を示す。線幅
の細い枠には、同図に示す如く、線幅が1画素分程度
で、かつ、傾き等による凹凸が生じているパターンが含
まれる。同図に示す線幅の細い枠を安定に抽出するため
に、本実施例では次のようにして枠を探索する。
に、傾きによる凹凸が生じていても直線を検出できる
「nラインランレングス」と名付ける直線長を定義す
る。
連続している画素数を計算するので、図46(b)に示
すような凹凸が生じている長い直線では短い直線に分割
されてしまうが、図47に示すnラインランレングスで
は、あるnラインの間で8連結で接続するランレングス
をnラインランレングスとして計算する。nの値は傾き
の大きさで決定し、傾きが大きければ大きい程nを大き
くする。n=1の場合は、通常のランレングスに相当す
る。
凹凸が生じているにもかかわらず、7画素分の水平線と
して直線を抽出することができる。
ーン抽出部21のラベリング部で得られた部分パターン
の矩形座標より矩形を構成する直線の両端及び中点等の
複数の点から枠の内部に垂線を下ろして部分パターンと
接触した位置を開始点として、上記nラインランレング
スにより、開始点より左右或は上下方向へ部分パターン
に沿って探索する。
文字がはみ出していても、安定に線幅の細い直線を求め
ることができる。
の一実施例をより詳細に説明する図であり、処理をソフ
トウェアで実現する場合のフローチャートを示す。図4
8は水平方向のnラインランレングスを求める処理を示
し、図49は垂直方向のnラインランレングスを求める
処理を示す。図48及び図49において、探索開始点を
(ii,jj)、水平線の長さをNhi、垂直線の長さ
をNvjで表すものとする。
0、i=ii、j=jjに設定する。ステップS52
は、f(i+1,j)にラベルがあるか否かを判定す
る。ステップS52の判定結果がYESであると、ステ
ップS53でNhi及びiをインクリメントしてから処
理をステップS52へ戻す。他方、ステップS52の判
定結果がNOであれば、ステップS54で(j+1)≦
jj+n/2であるか否かを判定する。ステップS54
の判定結果がYESであると、ステップS55でf(i
+1,j+1)にラベルがあるか否かを判定する。ステ
ップS55の判定結果がYESであれば、ステップS5
6でjをインクリメントしてから処理をステップS53
へ戻す。ステップS54又はS55の判定結果がNOの
場合、ステップS57で(j−1)≧jj−n/2であ
るか否かを判定する。ステップS57の判定結果がYE
Sであると、ステップS58でf(i+1,j−1)に
ラベルがあるか否かを判定する。ステップS58の判定
結果がYESであれば、ステップS59でjをデクリメ
ントしてから処理をステップS53へ戻す。ステップS
57又はS58の判定結果がNOの場合は、水平方向の
nラインランレングスを求める処理は終了する。
0、i=ii、j=jjに設定する。ステップS62
は、f(i,j+1)にラベルがあるか否かを判定す
る。ステップS62の判定結果がYESであると、ステ
ップS63でNvj及びjをインクリメントしてから処
理をステップS62へ戻す。他方、ステップS62の判
定結果がNOであれば、ステップS64で(i+1)≦
ii+n/2であるか否かを判定する。ステップS64
の判定結果がYESであると、ステップS65でf(i
+1,j+1)にラベルがあるか否かを判定する。ステ
ップS65の判定結果がYESであれば、ステップS6
6でiをインクリメントしてから処理をステップS63
へ戻す。ステップS64又はS65の判定結果がNOの
場合、ステップS67で(i−1)≧ii−n/2であ
るか否かを判定する。ステップS67の判定結果がYE
Sであると、ステップS68でf(i−1,j+1)に
ラベルがあるか否かを判定する。ステップS68の判定
結果がYESであれば、ステップS69でiをデクリメ
ントしてから処理をステップS63へ戻す。ステップS
67又はS68の判定結果がNOの場合は、垂直方向の
nラインランレングスを求める処理は終了する。
られた直線の長さを、水平線の候補iはNhi、垂直線
の候補jはNvjとする。又、連結パターン抽出部21
のラベリング部で求めた部分パターンの矩形座標の矩形
の縦横の長さLx及びLyを用いて、次の(8)式によ
り縦の長さLxと水平線の候補Nhiとの比、又、次の
(9)式により横の長さLyと垂直線の候補Nvjとの
比を求め、これらの比をしきい値THL と比較する。
L 以上であれば、各候補を、枠を構成する直線の候補で
あるものとする。
施例をより詳細に説明する図であり、処理をソフトウェ
アで実現する場合のフローチャートを示す。同図中、水
平線の候補iはNhi、垂直線の候補jはNvjである
ものとする。又、ラベリングの際に得られた部分パター
ンの矩形座標より、矩形の縦横の長さを夫々Lx,Ly
とする。同図(a)において、ステップS71はNhi
/Lx≧THL であるか否かを判定する。ステップS7
1の判定結果がYESであれば、ステップS72はこの
候補iが枠を構成する直線の候補として適切であると判
断する。他方、ステップS71の判定結果がNOである
と、次の水平線の候補に対して処理を開始する。又、同
図(b)において、ステップS75はNvj/Ly≧T
HL であるか否かを判定する。ステップS75の判定結
果がYESであれば、ステップS76はこの候補jが枠
を構成する直線の候補として適切であると判断する。他
方、ステップS75の判定結果がNOであると、次の垂
直線の候補に対して処理を開始する。
より検出された水平線iの候補と垂直線jの候補の中か
ら、夫々最外郭の水平線候補i1,i2及び垂直線の候
補j1,j2に着目して、次の(10)式及び(11)
式を計算してしきい値THL'と比較する。
22eの検出結果に基づいて枠を抽出する。つまり、4
辺検出部22eで直線部分が検出されるとこれに基づい
て枠を抽出し、直線部分が検出されないと他の候補に着
目して上記処理を繰り返すことにより、枠を抽出する。
具体的には、候補が上記(10)式、(11)式を満足
すれば枠を構成する直線と見なし、満足しなければ他の
候補に着目して上記処理を繰り返す。尚、線幅の基準値
は、枠抽出中に得られた最大と最小の位置座標の差とし
て求める。
出された文字枠を全画像にわたってスキャンして、連結
パターン抽出部21により抽出された部分パターンとの
マッチングをとってから新に文字枠を抽出することも可
能である。
た部分パターンを近似した矩形と抽出された文字枠との
サイズ比を算出し、算出したサイズ比が所定のしきい値
内の部分パターンだけに絞り込んで、抽出済の文字枠と
のマッチングをとってから新に文字枠を抽出することも
可能である。
右或は上下の範囲内に存在する部分パターンを抽出し、
抽出した全ての部分パターンが次に説明する属性付加手
段において文字だけからなるパターンであると判定され
ている場合に、上記抽出された文字枠を文字パターンと
判定し直す手段を設けても良い。この様な手段を設けた
場合、例えば「国」という漢字のように枠に相当する矩
形部分を持つ文字であっても、文字の一部を誤って枠と
して判定してしまうことを防ぐことができる。
枠抽出の結果に基づいて各連結パターンを次の(イ)〜
(ハ)ように分けて、枠パターンと文字パターン及び文
字の部分パターンとに夫々枠と文字の属性を付加する。 (イ)文字と枠の接触パターン (ロ)枠パターン (ハ)文字及び文字の部分パターン 尚、枠が抽出できなかったパターンは、「文字パター
ン」或は「文字パターンの一部」という属性を付加す
る。又、上記のように属性を付加されたパターンは、後
述する連結パターン統合部34で、そのパターン単独で
切り出すか、或は、文字パターンの一部と見なして他の
パターンと統合するか決められる。
輪郭の凹凸と内輪郭の凹凸を考慮して、枠抽出時に得ら
れた線幅基準値+2(外輪郭にプラス1、内輪郭にプラ
ス1)を線幅として求め、枠抽出において算出した骨格
線或は抽出中の最大/最小の位置より枠の外輪郭と内輪
郭の座標値を決定する。
骨格線、外輪郭、内輪郭、線幅を示す図であり、「太い
線」は外輪郭、「点線」は内輪郭、「細い線」は骨格線
を示す。同図(a)は線幅の太い枠を示し、同図(b)
は線幅の細い枠を示す。辺幅算出部24aは、同図に示
すように、線幅の太い枠と線幅の細い枠について枠の外
輪郭と内輪郭の座標値を決定する。
すものとすると、上枠の外輪郭の座標が(i1,i1
1)で幅がw1であると、上枠の枠座標を(i1−1,
i11+1)、そして辺の幅をw1+2とする。又、下
枠の外輪郭の座標が(i2,i22)で幅がw2である
と、下枠の枠座標を(i2+1,i22−1)、そして
辺の幅をw2+2とする。同様にして、左枠の外輪郭の
座標が(j1,j11)で幅がw3であると、左枠の枠
座標を(j1−1,j11+1)、そして辺の幅をw3
+2とする。更に、右枠の外輪郭の座標が(j2,j2
2)で幅がw4であると、右枠の枠座標を(j2+1,
j22−1)、そして辺の幅をw4+2とする。
除去部24bは、辺幅算出部24aにおいて求めた枠の
外輪郭と内輪郭の座標値により、外輪郭と内輪郭の間に
存在するパターンを除去する。
ーンに対して再びラベリングを行い、各ラベル毎に面積
が小さい等の特徴により枠の一部として残存しているパ
ターンを除去する。 属性付加部24dは、連結パター
ン属性付加部23で属性が付加されなかったパターンに
着目して、枠を除去してもパターンが存在しているもの
は接触文字パターン或は文字の一部であることを示すパ
ターンの属性を付加し、枠を除去したらパターンがなく
なるものは枠だけであることを示すパターンの属性を付
加する。
後述するように、枠内の文字部分を補間した後、連結パ
ターン統合部34で他の接触文字パターン或は文字の一
部と統合されるか、それとも単独のパターンとするか判
断される。
き、及び全文字数に対する接触文字の割合を算出し、算
出された値のうちどれかがあるしきい値より小さい場合
は接触頻度が小さいと判定し、あるしきい値より大きい
場合は接触頻度が大きいと判定する。
実施例をより詳細に説明する図であり、処理をソフトウ
ェアで実現する場合のフローチャートを示す。ステップ
S501は、連続パターン属性付加部23からの属性情
報等を受け、ステップS502はこれに基づいて平均枠
幅Waveを算出し、ステップS503は枠の傾きmu
kiを算出する。ステップS504は、Th.Wave
を平均枠幅のしきい値とすると、Wave>Th.Wa
veであるか否かを判断する。ステップS504の判断
結果がYESであると、ステップS505は全文字数z
numを算出する。ステップS506は、Th.muk
iを枠の傾きのしきい値とすると、muki>Th.m
ukiであるか否かを判断する。ステップS506の判
断結果がYESであると、ステップS507は接触文字
数snumを算出する。ステップS508は、接触文字
数の全文字数に対する割合sbaz=snum/znu
mを算出する。ステップS509は、Th.sbazを
割合sbazのしきい値とすると、sbaz>Th.s
bazであるか否かを判断する。ステップS509の判
断結果がYESであると、ステップS510で接触文字
頻度SHが大きいと判断される。他方、ステップS50
4,S506又はS509の判断結果がNOであると、
ステップS511で接触文字頻度SHが小さいと判断さ
れる。
字パターン或は文字の一部を対象として、そのパターン
と枠の交点を算出する。即ち、枠分離部24において求
めた外輪郭と内輪郭を使って、外輪郭には1画素分外側
の直線、内輪郭には1画素分内側の直線を求め、その直
線と接触文字パターン或は文字の一部が交わる点で黒か
ら白、或は、白から黒に変化する点を求め、これを交点
として抽出する。
理の一実施例をより詳細に説明する図であり、処理をソ
フトウェアで実現する場合のフローチャートを示す。こ
の場合、図52と同じ座標系を用いて上枠の外輪郭の外
側の座標をis1、内輪郭の内側の座標をiu1とし、
下枠の外輪郭の外側の座標をis2、内輪郭の内側の座
標をiu1とし、左枠の外輪郭の外側の座標をjs1、
内輪郭の内側の座標をju1とし、右枠の外輪郭の外側
の座標をjs2、内輪郭の内側の座標をju1として、
以下の処理を行う。
する処理を示す。同図中、ステップS81は交点数Kを
K=0に設定し、ステップS82はjをjs1≦j≦j
s2に設定する。つまり、ステップS82の設定によ
り、以下のステップS83〜S89をj=js1〜js
2について行う。ステップS83は、f(is1,j)
にラベルがないか否かを判定する。f(is1,j)に
ラベルがなくステップS83の判定結果がYESである
と、ステップS84でjを増加させてから処理をステッ
プS83へ戻す。他方、ステップS83の判定結果がN
Oであれば、ステップS85で交点の左側の座標をjに
設定する。又、ステップS86は、f(is1,j)に
ラベルがあるか否かを判定する。ステップS86の判定
結果がNOであると、ステップS87でjを増加させて
から処理をステップS86へ戻す。他方、ステップS8
6の判定結果がYESであれば、ステップS88で交点
の右側の座標をjに設定する。その後、ステップS89
でKを増加させる。ステップS83〜S89をj=js
1〜js2について行った後、上枠の外輪郭と文字の交
点を算出する処理を終了する。
枠、左枠及び右枠の外輪郭と内輪郭と文字の交点の算出
は、図54と同様の処理により行えるので、本明細書で
はその図示及び説明は省略する。
1は、枠と文字との交点から枠内方向へ文字線分の輪郭
を追跡しながら文字線分の面積を求める。ただし、枠幅
まで追跡する途中で文字線分が存在しなくなる場合に
は、得られる交点は文字と枠との交点ではないと判定す
る。
の処理の一実施例をより詳細に説明する図であり、処理
をソフトウェアで実現する場合のフローチャートを示
す。ステップS521は、文字/枠交点算出部25aか
らの交点等を受け、ステップS522で初期設定が行わ
れる。ステップS522では、ww=0、文字と枠との
交点を(A0,B0)、文字幅mw=B0−A0、及び
文字線分の面積Mtikai=mwに設定する。ステッ
プS523は、ww=ww+1とし、ステップS524
は、枠幅をwとすると、ww<wであるか否かを判断す
る。ステップS524の判断結果がNOであると、ステ
ップS525で処理が枠外文字の交点算出部53−1の
処理へと進む。他方、ステップS524の判断結果がY
ESの場合は、ステップS526でww地点の交点を追
跡する。又、ステップS527は、枠内の交点(Aw
w,Bww)が存在するか否かを判断する。
は図中矢印で示すように行われる。図56中、「黒丸」
は枠と文字との交点、「黒四角形」は枠内の交点、ハッ
チングは黒画素を表す。ステップS527の判断結果が
NOの場合は、ステップS528で(A0,B0)が文
字と枠の交点ではないと判定し、処理はステップS52
5へ進む。つまり、図57に示すように枠内に交点が存
在しない場合は、得られた交点(A0,B0)は文字と
枠の交点ではないと判定する。他方、ステップS527
の判断結果がYESの場合は、ステップS529でmw
≒Bww−Wwwであるか否かを判断する。ステップS
529の判断結果がNOであれば、処理はステップS5
25へ進む。しかし、ステップS529の判断結果がY
ESの場合は、ステップS530でmw=Bww−Ww
w及びMtikai=Mtikai+mwとして、処理
をステップS523へ戻す。
1は、枠と文字との交点から枠外方向へ文字線分の輪郭
を追跡しながら文字線分の面積を求める。ただし、枠幅
まで追跡する途中で文字線分が存在しなくなる場合に
は、その地点の交点を枠から遠い交点であると判定す
る。
の処理の一実施例をより詳細に説明する図であり、処理
をソフトウェアで実現する場合のフローチャートを示
す。ステップS541−1は、枠内文字の交点算出部5
3−1を介して交点等を受け、ステップS542で初期
設定が行われる。ステップS542では、ww=0、文
字と枠との交点を(A0,B0)、文字幅mw=B0−
A0、及び文字線分の面積Mtooi=mwに設定す
る。ステップS543は、ww=ww+1とし、ステッ
プS544は、枠幅をwとすると、ww<wであるか否
かを判断する。ステップS544の判断結果がNOであ
ると、ステップS545で処理が文字/枠交点判定部5
4−1の処理へと進む。他方、ステップS544の判断
結果がYESの場合は、ステップS546でww地点の
交点を追跡する。又、ステップS547は、枠外の交点
(Aww,Bww)が存在するか否かを判断する。
点の追跡例を示し、追跡は図中矢印で示すように行われ
る。図59中、「黒丸」は枠と文字との交点、「黒三角
形」は枠外の交点、ハッチングは黒画素を表す。ステッ
プS547の判断結果がNOの場合は、処理はステップ
S545へ進む。しかし、図60に示すように追跡途中
で文字線分が存在しなくなる場合は、その地点の交点
(A0,B0)が枠から遠い交点であると判定する。他
方、ステップS547の判断結果がYESの場合は、ス
テップS548でmw≒Bww−Wwwであるか否かを
判断する。ステップS548の判断結果がNOであれ
ば、処理はステップS545へ進む。しかし、ステップ
S548の判断結果がYESの場合は、ステップS54
9でmw=Bww−Www及びMtooi=Mtooi
+mwとして、処理をステップS543へ戻す。
交点算出部53−2の処理の場合は、図58においてス
テップS541−1の代わりにステップS541−2が
行われる以外は枠外文字の交点算出部53−1の処理と
同じである。又、ステップS541−2は、枠内文字の
交点算出部53−1ではなく、2交点算出部25−2内
の文字/枠交点算出部25aを介して交点等を受ける。
又は2交点算出部25−2内の文字/枠交点判定部54
−2は、枠内及び枠外の文字線分の面積の和があるしき
い値以下であると、得られた交点は文字と枠の交点では
ないと判定する。
は文字/枠交点判定部54−2の処理の一実施例をより
詳細に説明する図であり、処理をソフトウェアで実現す
る場合のフローチャートを示す。ステップS551は、
枠外文字の交点算出部53−1又は53−2から交点等
を受け、ステップS552は、枠内及び枠外の文字線分
の面積の和をMwaとすると、Mwa=Mtikai+
Mtooiに設定する。ステップS553は、面積の和
のしきい値をTh.mensekiとすると、Mwa>
Th.mensekiであるか否かを判断する。ステッ
プS553の判断結果がNOであると、ステップS55
4で交点(A0,B0)は枠と文字の交点ではないと判
定され、処理はステップS556へ進む。他方、ステッ
プS553の判断結果がYESであると、ステップS5
55で交点(A0,B0)は枠と文字の交点であると判
定され、処理はステップS556へ進む。ステップS5
56は、得られた交点に関する情報を文字/枠交点算出
部25aへ供給する。
の候補間を、枠から遠い交点、枠内の交点及び文字と枠
との交点からパターンの方向性を算出し、略同じ方向が
算出されればこれらの交点を対応付ける。方向性が一致
しない場合であっても、枠内の交点間の距離及び連続性
対応の条件を満足する場合は、その文字と枠の交点を対
応付ける。枠内の交点に対して対応付けの条件判定を行
うので、正しい対応付けを行うことができる。
対応付けを示す図であり、同図中、ハッチングが黒画
素、「黒丸」は枠と文字との交点、「黒三角形」は枠か
ら遠い交点、矢印は方向性を表す。他方、図63は方向
性が一致しない場合の交点の対応付けを示す図であり、
同図中、ハッチングが黒画素、「黒丸」は枠と文字との
交点、「黒三角形」は枠から遠い交点、矢印は方向性を
表す。
一実施例をより詳細に説明する図であり、処理をソフト
ウェアで実現する場合のフローチャートを示す。ステッ
プS561は、3交点算出部25−1からの交点等に関
する情報を受け、ステップS562は、枠幅をwに設定
する。ステップS563は、文字と枠との交点1(A,
B)と、その枠内の交点1(An,Bn)と、枠から遠
い交点1(At,Bt)とから、パターンの方向性H1
を求める。ステップS564は、文字と枠との交点2
(C,D)と、その枠内の交点2(Cn,Dn)と、枠
から遠い交点2(Ct,Dt)とから、パターンの方向
性H2を求める。ステップS565は、H1≒H2であ
るか否かを判断する。従って、ステップS563〜S5
65で、方向性の対応を確認する。
と、ステップS566は枠内の交点1の中点T1をT1
=(An+Bn)/2より求める。又、ステップS56
7は、枠内の交点2の中点T2をT2=(Cn+Dn)
/2より求める。ステップS568は、枠内の交点間の
距離KNをKN=ABS(T1−T2)より求める。ス
テップS569は、KN<wであるか否かを判断する。
ステップS569の判断結果がNOであると、ステップ
S570は交点間の距離L1,L2をL1=(Cn−B
n)及びL2=(An−Dn)より求める。ステップS
571はL1>0であるか否かを判断し、ステップS5
71の判断結果がYESであると、ステップS572で
L1<w/2であるか否かを判断する。ステップS57
1或はステップS572の判断結果がNOの場合は、ス
テップS573でL2>0であるか否かを判断する。ス
テップS573の判断結果がYESであると、ステップ
S574でL2<w/2であるか否かを判断する。従っ
て、ステップS566〜S574で、距離対応の確認を
する。
判断結果がNOの場合は、ステップS575でAn<C
n<Bnであるか否かを判断する。ステップS575の
判断結果がNOの場合は、ステップS576でAn<D
n<Bnであるか否かを判断する。ステップS576の
判断結果がNOであると、処理はステップS563に戻
る。従って、ステップS575及びステップS576
で、連続性対応の確認をする。
2、S574又はS576の判断結果がYESの場合
は、ステップS577で処理を枠内文字抽出部56の処
理へ移す。
行うので、図65及び図66に示すように正しい対応付
けを行うことができる。図65は、枠内の交点により対
応付けが行われる場合を示し、ハッチングが黒画素、
「黒丸」は枠と文字との交点、「黒四角形」は枠内の交
点を示す。図65中、(a)は実際のパターンを示し、
(b)は文字と枠との交点では対応付けられれないこと
を示し、(c)は枠内の交点により対応付けが行われる
ことを示す。又、図66は枠内の交点により対応付けが
行われない場合を示し、ハッチングが黒画素、「黒丸」
は枠と文字との交点、「黒四角形」は枠内の交点を示
す。図66中、(a)は実際のパターンを示し、(b)
は枠内の交点により対応付けが行われないことを示す。
(11)2交点の対応付け 図37に示す2交点対応付け部61は、対応付ける交点
の候補間を、枠から遠い交点、枠内の交点及び文字と枠
との交点からパターンの方向性を算出し、略同じ方向が
算出されればこれらの交点を対応付ける。方向性が一致
しない場合であっても、文字と枠の交点間の距離及び連
続性対応の条件を満足する場合は、その交点を対応付け
る。
一実施例をより詳細に説明する図であり、処理をソフト
ウェアで実現する場合のフローチャートを示す。ステッ
プS581は、2交点算出部25−2からの交点等に関
する情報を受け、ステップS582は、枠幅をwに設定
する。ステップS583は、文字と枠との交点1(A,
B)と、枠から遠い交点1(At,Bt)とから、パタ
ーンの方向性H1を求める。ステップS584は、文字
と枠との交点2(C,D)と、枠から遠い交点2(C
t,Dt)とから、パターンの方向性H2を求める。ス
テップS585は、H1≒H2であるか否かを判断す
る。従って、ステップS583〜S585で、方向性の
対応を確認する。
と、ステップS586は文字と枠との交点1の中点T1
をT1=(A+B)/2より求める。又、ステップS5
87は、文字と枠との交点2の中点T2をT2=(C+
D)/2より求める。ステップS588は、交点間の距
離KをKN=ABS(T1−T2)より求める。ステッ
プS589は、K<wであるか否かを判断する。ステッ
プS589の判断結果がNOであると、ステップS59
0は交点間の距離L1,L2をL1=(C−B)及びL
2=(A−D)より求める。ステップS591はL1>
0であるか否かを判断し、ステップS591の判断結果
がYESであると、ステップS592でL1<w/2で
あるか否かを判断する。ステップS591或はステップ
S592の判断結果がNOの場合は、ステップS593
でL2>0であるか否かを判断する。ステップS593
の判断結果がYESであると、ステップS594でL2
<w/2であるか否かを判断する。従って、ステップS
586〜S594で、距離対応の確認をする。
判断結果がNOの場合は、ステップS595でA<C<
Bであるか否かを判断する。ステップS595の判断結
果がNOの場合は、ステップS596でA<D<Bであ
るか否かを判断する。ステップS596の判断結果がN
Oであると、処理はステップS583に戻る。従って、
ステップS595及びステップS596で、連続性対応
の確認をする。
2、S594又はS596の判断結果がYESの場合
は、ステップS597で処理を枠内文字補間部32の処
理へ移す。
枠内に囲まれた範囲を文字成分であると判断する。文字
成分と判断されたものは抽出され、それ以外は枠である
ため除去する。つまり、図68(a)に示すパターンの
場合、(b)に示す文字成分が抽出される。尚。図68
中、ハッチングは黒画素、黒丸は文字と枠との交点、梨
地は抽出された文字成分を示す。
実施例をより詳細に説明する図であり、処理をソフトウ
ェアで実現する場合のフローチャートを示す。ステップ
S601は、3交点対応付け部55からの対応付けられ
た交点等に関する情報を受け、ステップS602は、対
応付けた交点1(A1,B1)と交点2(A2,B2)
間を通る直線L1,L2を算出する。ステップS603
は、交点1のある枠の直線L3を算出し、ステップS6
04は、交点2のある枠の直線L4を算出する。ステッ
プS605は、枠内の黒画素で4本の直線L1,L2,
L3,L4で囲まれているものがあるか否かを判断す
る。ステップS605の判断結果がYESの場合は、ス
テップS606で文字線分の抽出を行い、処理は文字列
抽出部12−1の処理へ移る。他方、ステップS605
の判断結果がNOの場合は、ステップS607で枠を除
去し、処理がステップS608へ進む。
は、交点が一対一に対応している場合と、一対多に対応
している場合とに分け、接触文字パターン或はその一部
の交点間を滑らかに接続して、枠を分離したことにより
欠けた文字部分を補間する。
に対応付けられた接触文字パターン或はその一部の交点
間を滑らかに接続する手段である。一対一の補間の場合
には、基本的には各交点間での文字線分の輪郭の方向ベ
クトルを算出して、方向ベクトルに従って各交点から直
線を引き、その直線と直線が交わる点で文字線分を結合
する。又、方向ベクトルを算出する手間を省くため、各
対応付けた交点間を接続し補間することもできる。
あり、補間する文字線分101a,101b、枠102
及び補間された文字線分103を示す。ここでは、各対
応付けた交点間を接続し補間する場合を示している。同
図に示すように、文字線分101aと文字線分101b
の交点間を直線で接続し、その間を黒画素で埋めること
により、補間された文字線分103を得ることができ
る。
施例をより詳細に説明する図であり、処理をソフトウェ
アで実現する場合のフローチャートを示す。
70中、交点ak とa’k を結ぶ直線la及び交点bk
とb’k を結ぶ直線lb を求める。ステップS132
は、図70において、枠102より1画素分文字側の座
標c,c’について、cc をc≦cc ≦c’に設定す
る。直線laと枠102の交点をpa、直線lbと枠1
02の交点をpbとすると、ステップS134はpa≦
p≦pbに設定すると共に、f(cc ,p)を文字にす
る。尚、ステップS133及びS134は、cc がc≦
cc ≦c’の範囲内で繰り返される。
応直線の交差点算出部32bにおいて、各交点での文字
線分の輪郭の方向ベクトルを算出し、方向ベクトルに従
って各交点から直線を引き、その直線と直線が交わる交
差点を算出する。尚、方向ベクトルを算出する手間を省
くため、各対応付けた交点間を結ぶ直線で方向ベクトル
を代用することもできる。
した後、その交差点が枠内にある場合には、交差点枠内
補間部32cにより補間を行う。
あり、補間前の文字線分111a,111b,111
c、枠112及び補間された文字線分113を示す。こ
こでは、各対応付けた交点間を結ぶ直線で方向ベクトル
を代用した例を示している。対応付けた交点間を直線で
結び、その交差点が枠112内にある場合には、同図に
示すように、交点を結ぶ直線間を黒画素で埋めることに
より、文字線分を補間する。
の処理の一実施例をより詳細に説明する図であり、処理
をソフトウェアで実現する場合のフローチャートを示
す。
対多の交点の補間であるか否かを判定する。ステップS
141の判定結果がYESの場合は、ステップS142
で図72中、各対応付けた交点間を結ぶ直線l1〜l4
を算出する。他方、ステップS141の判定結果がNO
の場合は、ステップS143で各交点での文字線分の輪
郭の方向ベクトルl1〜l4を算出する。ステップS1
42又はS143の後、ステップS144は交差点が枠
112内にあるか否かを判定する。ステップS144の
判定結果がYESの場合、ステップS145で後述する
交差点枠内補間部32cの処理へ進む。他方、ステップ
S144の判定結果がNOの場合、ステップS146で
交差点が枠112外にあるか否かを判定する。ステップ
S146の判定結果がYESであれば、ステップS14
7で後述する交差点枠外補間部32dの処理へ進む。
又、ステップS146の判定結果がNOであれば、ステ
ップS148で直線補間部32eの処理へ進む。
の一実施例をより詳細に説明する図であり、処理をソフ
トウェアで実現する場合のフローチャートを示す。尚、
図30及び後述する図75〜図78においては、図72
中交差点と直線l1とl2の交点を(ik ,jk )、枠
112の内輪郭の座標をin 、枠112の外輪郭の座標
をig 、文字線幅をw、枠112の外輪郭より文字線幅
w分内側の座標をig-w とする。
をin ≦i<ik に設定する。ステップS162はl
1,l2とiとの交点をPa,Pbに設定し、ステップ
S163はPがPa≦P≦Pbであればf(i,P)は
文字とする。又、ステップS162及びS163と平行
してステップS164及びS165が行われる。ステッ
プS164はl3,l4とiとの交点をPa,Pbに設
定し、ステップS165はPがPa≦P≦Pbであれば
f(i,P)は文字とする。上記ステップS162〜S
165は、in ≦i<ik の範囲内で繰り返される。
又、ステップS166は、iをik ≦i<ig に設定す
る。ステップS167はl1,l4とiとの交点をP
a,Pbに設定し、ステップS168はPがPa≦P≦
Pbであればf(i,P)は文字とする。上記ステップ
S167及びS168は、ik ≦i<ig の範囲内で繰
り返され、その後処理を終了する。
の一実施例をより詳細に説明する図であり、処理をソフ
トウェアで実現する場合のフローチャートを示す。同図
中、図30と同一ステップには同一符号を付し、その説
明は省略する。
をin ≦i<ig-w に設定し、ステップS166Aがi
をig-w ≦i<ig に設定する点を除けば、処理は図7
4の場合とほぼ同様である。
施例をより詳細に説明する図であり、処理をソフトウェ
アで実現する場合のフローチャートを示す。同図中、図
74と同一ステップには同一符号を付し、その説明は省
略する。図76において、ステップS161がなく、ス
テップS166Bがiをis ≦i<is+w に設定する点
を除けば、処理は図74の場合とほぼ同様である。
図77の如きソフトウェア処理を行えば良い。同図中、
図74と同一ステップには同一符号を付し、その説明は
省略する。
く、ステップS166Cがiをis ≦i<ig に設定す
る点を除けば、処理は図74の場合とほぼ同様である。
ては、枠内文字補間部32で補間した接触文字パターン
と、連結パターン属性付加部23において属性を付加さ
れた文字パターン或はその一部と、後述する複数連結性
確認部57−1,57−2からのパターンとを統合す
る。
ンと属性付けした文字パターン或はその一部でも同じ文
字枠に属する場合には、統合することを考えて、図41
に示す連結パターン仮統合部34aにおいて統合し、両
者の統合により得られたパターンのサイズをサイズ確認
部34bで確認する。そして、そのサイズが適切であれ
ば連結パターン統合部34cで統合し、適切でなければ
統合しない。
部分パターンの一部が一文字枠の内部にあれば、それら
の部分パターンを一つの文字構成要素として統合し、統
合時に統合したパターンのサイズを求めて、それと一文
字枠のサイズとのサイズ比を計算し、計算値が所定のし
きい値の範囲内か否かを判定する。そして、サイズ比が
所定のしきい値内の場合には採用したパターンをそのま
ま採用し、所定のしきい値外の場合には、統合せずに元
の部分パターン毎に文字を切り出す。
字を切り出しているので、従来において正確に切り出す
ことができなかった文字をも正確に切り出すことができ
る。
理の一実施例をより詳細に説明する図であり、処理をソ
フトウェアで実現する場合のフローチャートを示す。
した文字パターンと属性付けられた文字パターンを統合
し、ステップS182は統合した文字パターンのサイズ
を示すTOUGOUを設定する。ステップS183は、
TOUGOUが一文字枠サイズ以下であるか否かを判定
する。ステップS183の判定結果がNOであれば、ス
テップS184は統合を行わず、処理を終了する。他
方、ステップS183の判定結果がYESであれば、ス
テップS185で統合を行ってから、処理を終了する。
56から得られる文字に関する情報に基づいてラベリン
グされた文字列を抽出する。又、図37に示す文字列抽
出部12−2は、枠内文字補間部32から得られる文字
に関する情報に基づいて、文字列抽出部12−1と同様
に、ラベリングされた文字列を抽出する。
は、文字列抽出部12−1を介して得られる情報に基づ
いて抽出した小分離ストロークと平均文字ピッチ、平均
文字サイズ、サイズ分散値、ピッチ分散値の情報とに基
づき文字の統合を行う。
5に示す。図5に示すように、まずステップS151で
夫々の矩形の縦(横)方向の長さのヒストグラムを算出
する。そして、ステップS152で、そのヒストグラム
に基づき縦(横)の平均文字サイズを算出し、このサイ
ズを暫定平均文字サイズとする。このとき、文字がカナ
文字である場合には、図80(a)に示すように、ヒス
トグラムは濁点やハ,リ,クなどから生ずる小分離スト
ロークによって双峰性になる。また、数字である場合に
は5や7などから生ずる小分離ストローク,あるいは英
字である場合にはAやEなどから生ずる小分離ストロー
クによってヒストグラムは、双峰性になる。このため、
算出された暫定平均文字サイズは、平均文字サイズより
も小さく算出される。そこで、ステップS153は、暫
定平均文字サイズより右の領域でヒストグラムが最大値
MAXをとる文字サイズを算出し、その文字サイズの左
右方向にヒストグラムがMAX/2以上をとる領域を決
定する。尚、図80(b)に示すように、ヒストグラム
の山に偏りがある場合には、暫定文字サイズにおけるヒ
ストグラムを最大値MAXとし、ヒストグラムがMAX
/2以上をとる領域を決定する。そして、ステップS1
54は、その領域で再度、平均文字サイズを算出する。
この方法により、濁点等の小分離ストロークの影響を受
けずに、また、図80に示すようにヒストグラムの分布
に依存せずに、平均的な文字サイズの算出を行うことが
できる。
する。先ず、既にストローク毎に抽出された外接矩形を
用いて、その外接矩形の面積が平均文字サイズの面積の
1/2以下か否か、又、外接矩形の高さが平均文字サイ
ズの高さの4/5以下か否かを判定する。そして、面積
比及び高さ比の条件を満たす場合にはその外接矩形の部
分パターンを小分離ストロークとして抽出する。ここ
で、横サイズ(幅)について考慮しないのは、5の小分
離ストロークのように小分離ストロークではあっても、
サイズ的に平均サイズと変わらないものが存在するから
である。
小分離ストロークの抽出処理において小分離ストローク
と判定されなかったもの(それ自体で一文字とみなされ
たもの)については、図81に示すように夫々の外接矩
形間の距離pをピッチとし、ピッチのヒストグラムを算
出し、その結果に基づき平均文字ピッチの算出とその分
散値の算出を行う。
する。先ず、夫々の矩形間のピッチのヒストグラムを算
出する。次に、前記ヒストグラムに基づき平均文字ピッ
チを算出し、そのピッチを暫定平均文字ピッチとする。
又、例えば暫定平均文字ピッチより右の領域でヒストグ
ラムが最大値MAXをとる文字ピッチを算出し、その文
字ピッチの左右方向にヒストグラムがMAX/2以上を
とる領域を決定し、その領域で再度、平均文字ピッチを
算出する。 次に、平均文字サイズ・ピッチ統合部16
−1は評価関数F
し、Fが零以上のとき、サイズ・ピッチ平均,サイズ・
ピッチ分散を用いた統合を行う。ここで、MPはピッチ
平均であり、MWはサイズ平均である。VPはピッチ分
散であり、αは1.6であり、βは0.5である。これ
らのパラメータの値は一例である。
サイズ平均)とのピッチ分散値の値に応じた統合判定を
行う。ここで、文字の統合幅wは、図82(a)に示す
ような統合すべき部分パターンと統合されるべき部分パ
ターンとの幅である。
統合部16−2は、文字列抽出部12−2を介して得ら
れる情報に基づいて抽出した小分離ストロークと平均文
字ピッチ、平均文字サイズ、サイズ分散値、ピッチ分散
値の情報とに基づき、上記平均文字サイズ・ピッチ統合
部16−1と同様に文字の統合を行う。
た枠の位置と文字線分の位置との位置ずれから、再補間
する枠の範囲を算出する。又、算出した範囲内で、原画
像と現在の処理された画像の連結成分の数、穴の数及び
オイラー数を各々比較する。比較結果が一致しない場合
は、上記接触頻度算出部51で算出した接触頻度の大小
に応じて3交点対応付け部55で原画像と同じ文字成分
の連結性を保つための交点の再対応付けを行う。従っ
て、再対応付けられた交点間を枠内文字補間部32で補
間すると、例えば図83に示すように「0」を抽出する
ことができる。図83は、原画像と処理された画像と
で、連結成分の数は変化しないが穴の数及びオイラー数
が変化した場合を示す。図83中、(a)は原画像、
(b)は枠内文字抽出部56で抽出された文字、(c)
は複数連続性確認部57−1での比較結果に基づいて3
交点対応付け部55で交点の再対応付けを行ってから上
記枠内文字補間部32で補間をすることにより得られる
補間された文字を示す。
理の一実施例をより詳細に説明する図であり、処理をソ
フトウェアで実現する場合のフローチャートを示す。
均文字サイズ・ピッチ統合部16−1からの統合結果を
受け、ステップS652は、枠の位置と抽出した文字の
位置との位置すれを算出する。ステップS653は、再
補間を行う枠の位置を設定する。ステップS654は、
原画像の連結成分の数Roを算出する。ステップS65
5は、現在の処理された画像の連結成分の数Rnを算出
する。ステップS656は、原画像の穴の数Aoを算出
する。ステップS657は、現在の処理された画像の穴
の数Anを算出する。ステップS658は、原画像のオ
イラー数OoをOo=Ro−Aoから算出する。又、ス
テップS659は、現在の処理された画像のオイラー数
OnをOn=Rn−Anから算出する。ステップS66
0は、Ro≠Rnであるか否かを判断する。ステップS
660の判断結果がNOであれば、ステップS661で
An≠Aoであるか否かを判断する。ステップS661
の判断結果がNOであれば、ステップS662でOo≠
Onであるか否かを判断する。ステップS662の判断
結果がNOであれば、ステップS663で処理が連結パ
ターン統合部34の処理へ移る。他方、ステップS66
0、S661又はS662の判断結果がYESである
と、ステップS664で処理が3交点対応付け部55へ
移り、交点の再対応付けが行われる。
複数連続性確認部57−1の処理と実質的に同じである
が、複数連続性確認部57−2の場合は、図84におい
てステップS651が平均文字サイズ・ピッチ統合部1
6−2からの統合結果を受ける。更に、ステップS66
0、S661又はS662の判断結果がYESである
と、ステップS665で処理が2交点対応付け部61へ
移り、交点の再対応付けが行われる。
再補間後も前と処理結果が変わらない場合は、前回のピ
ッチ及び平均文字サイズを用いて確信度統合部17の処
理へ移るか、そうでない場合は、再度ピッチ及び平均文
字サイズを平均文字サイズ・ピッチ統合部16−3で求
めるかの判定を行う。尚、平均文字サイズ・ピッチ統合
部16−3の処理は、実質的に上記平均文字サイズ・ピ
ッチ統合部16−1,16−2の処理と同じであるの
で、その説明は省略する。
施例をより詳細に説明する図であり、処理をソフトウェ
アで実現する場合のフローチャートを示す。
結パターン統合部34を介して情報を受け、ステップS
672は再補間された部分があるか否かを判断する。ス
テップS672の判断結果がYESであれば、再度ピッ
チ及び平均文字サイズを求めるために、処理を平均文字
サイズ・ピッチ統合部16−3へ移す。他方、ステップ
S672の判断結果がNOの場合は、再補間後も前と処
理結果が変わらないので、前回のピッチ及び平均文字サ
イズを用いて処理を確信度統合部17へ移す。
トロークとその左右に位置する文字パターンとの距離を
算出して、それらの距離に比を統合の確信度として定量
化することにより、確信度が高い場合には統合を行う。
6−1で算出した評価関数Fが零よりも小さい場合で、
例えばピッチ平均をサイズ平均で割った値が1よりも大
きい場合には、確信度統合部17が、抽出された小分離
ストロークとその左右に位置するパターンとの距離を算
出し、それらの距離の比を統合の確信度として定量化
し、確信度が高い場合には統合を行う。確信度統合部1
7は、例えば、図82(b)及び図82(c)に示すよ
うな距離a,b,c,dを用いて、bがaの2.6倍よ
りも大きく、cがdの2.6倍よりも大きい場合には
(ステップ110)、確信度による部分パターンの統合
を行う。そして、bがaの2.6倍よりも小さく、cが
dの2.6倍よりも小さい場合には、小分離ストローク
の横/縦比が2.6より大きければ後述する簡易認識処
理部18が数字に限定して小分離ストローク統合を行
う。
手書き数字を対象とした処理を行うもので、小分離スト
ローク及びその左右に位置するパターン、更にそれらを
統合した場合のパターンに対して、線密度、傾き及び文
字サイズを簡単に識別して文字の統合を行っていく。つ
まり、小分離ストロークに対して、パターンマッチング
的手法を用いずにそれが一文字かあるいは文字の部分パ
ターンかを判別する。これによれば、複雑な処理を行う
必要がないので、高速に処理を行なえる。
実施例をより詳細に説明する図であり、処理をソフトウ
ェアで実現する場合のフローチャートを示す。
は、小分離ストロークの横/縦比が2.6より大きいか
否かを判断し、判断結果がNOの場合にはステップS1
22で小分離ストロークを5として統合する。ステップ
S121の判断結果がYESの場合には、ステップS1
23で小分離ストロークの横/縦比が1/3より小さい
か否かを判定する。ステップS123の判断結果がYE
Sの場合には、後述するステップS132以降の7のル
ーチンに進む。他方、ステップS123の判断結果がN
Oの場合には、ステップS124以降で線密度の算出を
行う。
されるものは、小さく書かれた文字か5あるいは7の小
分離ストロークに限定される。このため、先ず、小さく
書かれた1文字と5か7の分離ストロークとを判別する
ために小分離ストロークに対して線密度を算出する。
に示すように、外接矩形が横長か縦長かを調べ、横長で
ある場合には外接矩形を縦に4等分し、同図(a)に示
す如く真中以外の2ラインで線密度を算出する。縦長で
ある場合には、図87(b)に示す如く外接矩形を横に
4等分して同様の処理を行う。 尚、線密度算出方法と
して、この他に外接矩形をn等分し、nライン目からn
−mライン目までにカウントした線密度の最大値を接密
度にとるようにしても良い。
ークに対して横方向に線密度を算出した場合、誤った線
密度が算出されてしまうため、線密度の算出方法を外接
矩形の形に応じて変える。
けずに正確な線密度を算出できる。
方向が2以下で、横方向が1以下であるか否かを判断す
る。ステップS124の判断結果がNOの場合には、ス
テップS125で小分離ストロークではないとして拒絶
する。他方、ステップS124の判断結果がYESの場
合は、ステップS126で小分離ストロークの縦/横比
が1以上か否かを判定する。ステップS126の判断結
果がYESの場合には、ステップS127で小分離スト
ロークのX方向の傾きを算出する。しかし、ステップS
126の判断結果がNOであると、ステップS128で
小分離ストロークのY方向の傾きを算出する。
(a),(b),(c)に示すように、外接矩形を4等
分して、1本目と3本目の線とストロークとの2交点間
での傾きを算出する。実際には、交点が点ではなく、あ
る幅をもつので、その中点を選ぶ。
も外接矩形が横長か縦長かによって算出方法を区別す
る。横長矩形に対して、横方向に傾きを算出した場合に
誤りを生ずる可能性があるからである。
って、傾きの算出方向を変えることにより、適切傾きが
算出できる。
傾きを基にその傾きが5の分離ストロークの角度範囲
(−40°〜28°)であるか、7の分離ストロークの
角度範囲であるかを判断する。手書きで5及び7を書い
たときの分離ストロークの角度については、図90
(a),(b)に示すように、両者はほぼ排反の関係に
あるからである。
よりも7の小分離ストロークの角度分布のほうが広い。
そこで、ステップS130は、5と7との識別にあたっ
て、確実に5の角度として算出されたものに対して、左
矩形との距離が右矩形との距離の1.5倍よりも小さい
か否かを判断し、判断結果がYESの場合にはステップ
S131で5として統合する。尚、ステップS130の
判断結果がNOの場合には、ステップS132の7のル
ーチンに進む。
イズで拒絶されたもの及び7の角度として算出されたも
のは、以下の処理を行う。先ず、小分離ストロークの右
のストロークの線密度を算出し、右ストロークが7の右
の部分かどうかを判別する。ここでの線密度の算出方法
は、図91に示すように、7の右の部分と2や9を区別
するために、縦と横の両方向の線密度を調べる。
クの線密度の縦方向が2以下で横方向が1以下か否かを
判断する。ステップS132の判断結果がNOの場合に
は、ステップS133で左ストロークとの距離が平均横
サイズの1.8倍より小さく、分離ストロークの傾きが
−80°〜51.6°か否かを判断する。ステップS1
33の判断結果がYESの場合には、ステップS131
で5として統合し、判断結果がNOの場合には、ステッ
プS134で拒絶する。
Sであり、ステップS135での線密度の算出の結果、
縦方向が2であって、横方向が1となる場合には、7の
可能性があるとして、小分離ストロークと統合したとき
の文字サイズを調べる。つまり、ステップS135の判
断結果がNOであると、ステップS136でその文字サ
イズが平均文字サイズのある閾値倍以下である場合、7
として統合する。他方、この方法で線密度を算出した場
合、ステップS135において、線密度の縦方向が1
で、横方向が1と算出されたものは、7の右パターンで
あるかどうかを確認するために、以下の方法で線密度を
再度算出する。
(a),(b)に示す縦線密度1,横線密度1に対し
て、図92(c)に示すように、外接矩形の横幅中心か
ら縦方向に線密度を見ていき、線密度がカウントされた
時点で、横方向に線密度を見ていき、直角線密度が2か
否かを判定する。ステップS137の判断結果がYES
であり直角線密度が2となったものは、ステップS13
6で7として統合する。尚、図92(d)に示す縦線密
度1,横線密度1に対して複数方向線密度は1となる。
とにより、従来、一方向だけの探索では判別できなかっ
たパターンの判別が行える。更に、図92(f)に示す
文字“ク”、図92(g)に示す“L”に対しては、直
角線密度2となる。図92(h)に示す“4”の場合に
複数方向は直角方向でなくとも良い。
度が2以外の線密度である場合や、文字サイズで拒絶さ
れたものについては、5の小分離ストロークの可能性も
あるので、5のルーチンに戻り、5として統合したとき
の文字サイズを調べる。つまり、ステップS137の判
断結果がNOであれば、処理はステップS130へ戻
る。そして、条件を満たす場合には文字を統合し、条件
を満たさない場合には拒絶する。
動のある文字列に対して文字の平均サイズ及びピッチを
厳密に算出し、統合の際にそれらの平均値と分散値に応
じて統合条件を適応的に変えているので、文字の精度の
高い切り出しが行える。特に、手書き数字文字列に対し
ては、パターンマッチング的手法を用いずに小分離スト
ロークに注目した簡易認識処理部18を用いているの
で、正確で高速な処理が行える。即ち、文字列中の全て
のパターンに一様な処理を施すのではなく、小分離スト
ロークに注目した処理を施すことにより、切り出し処理
全体での処理の高速化を図れる。
トグラムを算出し、まず暫定的に平均文字サイズを算出
し、その値に基づき正確に文字サイズを算出するので、
文字列中の文字サイズの変動が激しい場合やオーバハン
グのある文字列の場合でもより正確な平均文字サイズが
算出できる。その結果、文字の統合を的確に行うことが
できる。
均値,分散値に応じて、小分離ストローク統合の際の条
件を適応的に変えることにより文字サイズ,ピッチの変
動に依存せずに、より正確な統合が行える。
ーク等が存在するとき、それらのパターンも含めて文字
間のピッチを算出すると、実際のピッチ間隔より小さい
ピッチが算出される。それらの小分離ストロークを予め
除外して考えることにより、より正確なピッチの算出が
可能となる。
離ストロークを統合する際の閾値を適応的に変えるた
め、より正確な文字の統合が行える。さらに、文字列中
の文字の並び方に規則性がないが、分離ストロークとそ
の左右に位置するパターンとの距離比を確信度として定
量化し、その値に応じて統合を行うため、正確な統合を
行える。
を図93〜96と共に説明する。図93〜図96は、各
々先に説明した図32〜図35に対応している。
間又は抽出された黒画素、「黒丸」は枠と文字との交
点、「黒三角形」は枠から遠い交点、「黒四角形」は枠
内の交点を表す。この場合、「1」が左右に分離してお
り図32で説明した方法では対応付けができなかった
が、本実施例では図93(a)に示す原画像に対して正
しい対応付けを行って最終的に(b)に示す如き文字
「1」を切り出すことができる。
は枠と文字との交点、「白丸」は枠と文字との交点では
ないと判定された交点を表す。この場合、図33で説明
した方法では「1」と「7」が誤って対応付けられた
が、本実施例では図94(a)に示す原画像に対して正
しい対応付けを行って最終的に(b)に示す如き文字
「1」及び「7」を切り出すことができる。
間された黒画素を表す。この場合、図34で説明した方
法では「9」の誤った対応付けが行われたが、本実施例
では図95(a)に示す原画像に対して正しい対応付け
を行って最終的に(b)に示す如き文字「9」を切り出
すことができる。
間された黒画素を表す。この場合、図35で説明した方
法では「8」の再補間が行われなかったが、本実施例で
は図96(a)に示す原画像に対して正しい再対応付け
を行って最終的に(b)に示す如き文字「8」を切り出
すことができる。
うな特徴1)〜23)を有する。
抽出した後、それ以外の枠を除去するので、文字枠の線
幅を算出して文字線分の方向等の連続性と連結性を評価
して高品質の文字を切りだすことができるため、接触文
字の認識率が向上する。
枠、罫線等と文字との接触部分をより正確に把握るた
め、枠、罫線等の傾いている場合、枠、罫線等に雑音が
多く含まれる場合や、文字幅と比較して枠、罫線等の幅
が太い場合にも、接触した文字部分を復元し、正解の文
字パターンを抽出できる。
の接触部分ではないことを把握する手段を設けているた
め、誤って文字パターンを復元しない。
索した文字線分の面積を得る手段を備えたことにより、
文字線分に含まれる雑音を区別することができる。
枠、罫線等の中心方向と逆方向へ文字線分を探索するこ
とにより対応付ける交点がより正確になるため不要な文
字パターンを復元しない。
方向へ探索した文字線分の面積を得る手段を備えたこと
により、文字線分に含まれる雑音を区別することができ
る。
枠、罫線等の中心方向と逆方向へ探索した文字線分の面
積と面積の閾値とを比較することにより雑音を除去でき
る。
枠、罫線等の中心方向及び逆方向へ探索した各々の文字
線分の面積の和と面積の閾値とを比較することにより、
雑音を除去できる。
文字線分の面積の和がある閾値以上である場合に関し
て、枠、罫線等から遠い交点は、それが存在しなくなる
直前の値に決定する手段を備えたことにより、雑音でな
い文字線分との交点を算出するので正確なパターンを復
元できる。
枠、罫線等から遠い交点とからこの文字線分の方向性が
分かる。
ら遠い交点の2交点からこの文字線分の方向性が分か
る。
文字線分との交点及び枠、罫線等から遠い交点の3交点
からこの文字線分の方向性が分かる。
ーンの枠、罫線等と文字線分との交点算出後、交点間を
対応付ける手段に関して、枠、罫線等を構成する2つの
輪郭のうちのどちらか、又は、両側に枠、罫線等と文字
線分との交点が存在する場合に、この枠、罫線等及びこ
れと水平方向に隣接する枠、罫線等、又はそれに隣接す
る枠、罫線等とそれぞれに隣接するすべての枠、罫線等
において、これと反対側に存在する枠、罫線等と文字線
分との交点を対応付け候補点とすることにより、角に接
触しているパターンや表中の複数の一文字枠に接触する
パターンの復元ができる。
ーンの枠、罫線等と文字線分との交点算出後、交点間を
対応付ける手段に関して、枠、罫線等を構成する2つの
輪郭のうちのどちらか、又は、両側に枠、罫線等と文字
線分との交点が存在した場合に、この枠、罫線等及びこ
れと垂直方向に隣接する全ての枠、罫線等の両側の輪郭
に存在する枠、罫線等と文字線分との交点対応付け候補
点とすることにより、角に接触しているパターンや表中
の複数の一文字枠に接触するパターンの復元ができる。
点間を対応付けることを特徴とする交点の対応付け装置
により、ほぼ直線である文字線分のパターンの復元がで
きる。
にこれを候補点として、候補点間の距離と枠、罫線等の
線幅から候補点間の距離の近さを調べ、対応付けられた
場合にこの枠、罫線等と文字線分との交点を対応付ける
ことにより、より正確なパターンを復元できる。
にはこれを候補点として、候補点間の距離と、候補点間
の枠、罫線等と垂直方向の距離とから交点間の距離の近
さを調べ、対応付けられた場合にこの枠、罫線等と文字
線分との交点を対応付けることにより、より正確なパタ
ーンを復元できる。
して文字列の抽出後に算出した文字サイズ及びピッチ情
報を用いることにより、1パターン毎の再連結を行う範
囲を指定することにより正確な再補間をおこないパター
ンの候補を復元できる。
ズ及びピッチ情報に基づいてパターンの統合を決定する
ので正確なパターンを復元でき、不要なパターンを復元
しない。
て、切りだす前後の穴の数が変化した場合に、対応付け
て再補間し、候補のパターンを復元できる。
て、切りだす前後のオイラー数が変化した場合に、対応
付けて再補間し、候補のパターンを復元できる。
て、切りだす前後の穴の数又はオライー数が変化した場
合に、対応付けて再補間し、候補のパターンを復元でき
る。
傾斜角度、記述された文字及び図形パターンの線幅、
枠、罫線等との接触の程度を得る手段、これらの情報か
ら接触文字の頻度を算出する手段、これを基に、枠、罫
線等を除去後に対応付け補間する手段か、又は、枠、罫
線等抽出後に対応付け文字線分を抽出した後に枠を除去
する手段かを選択することにより、接触頻度が小さいパ
ターンに対しては、高速に、接触頻度が大きいパターン
に対しては、より慎重に、各々正確なパターンを復元で
きる。
発明はこれらの実施例に限定されることなく、様々な変
形又は改良が本発明の範囲内で可能であることは、言う
までもない。
明によれば、マスク処理を行うので、原画像の直線性を
失うことなく、且つ、比較的短い処理時間で線分を検出
できる。
ト情報を必要とすることなく、表形式のブロック枠及び
フリーフォーマット枠を抽出することができる。
れが見つかり処理が終ってしまっても、マッチング処理
を行うことにより一文字範囲を抽出して枠の抽出をする
ことができる。
成功率を向上することができる。
いる文字の文字幅より枠幅が大きい場合、枠が傾斜して
いる場合等であっても、交点の対応付け等をより正確に
行って文字の切出し精度を向上できる。
ブロック図である。
ある。
ートである。
チャートである。
ャートである。
ある。
フローチャートである。
トである。
る図である。
チャートである。
ある。
なりを説明する図である。
ャートである。
の分離を説明する図である。
ャートである。
場合の処理を説明する図である。
ローチャートである。
を示す図である。
を示す図である。
図である。
説明する図である。
ある。
説明する図である。
る図である。
る。
すブロック図である。
すブロック図である。
ク図である。
ある。
ク図である。
ロック図である。
示す図である。
ャートである。
ャートである。
図である。
理を説明するフローチャートである。
理を説明するフローチャートである。
ャートである。
郭等を示す図である。
る。
フローチャートである。
ャートである。
施例を説明するフローチャートである。
る図である。
施例を説明するフローチャートである。
説明する図である。
処理の一実施例を説明するフローチャートである。
す図である。
示す図である。
明するフローチャートである。
示す図である。
を示す図である。
明するフローチャートである。
するフローチャートである。
ャートである。
するフローチャートである。
ローチャートである。
ローチャートである。
ャートである。
するフローチャートである。
ローチャートである。
ャートである。
る。
変化しないが穴の数及びオイラー数が変化した場合を示
す図である。
を説明するフローチャートである。
るフローチャートである。
するフローチャートである。
出した場合の失敗例を示す図である。
ある。
ある。
説明する図である。
説明する図である。
説明する図である。
説明する図である。
ック図である。
サイズ・ピッチ統合部 57−1,57−2 複数連結性確認部 34 連結パターン統合部 63 再補間判定部 17 確信度統合部 18 簡易認識統合部
Claims (28)
- 【請求項1】 一文字枠を含む表形式のブロック枠又は
フリーフォーマット枠と、文字、図形もしくは記号とか
ら構成される画像から画素と画素が繋がっている部分パ
ターンを抽出する連結パターン抽出手段(40)と、 該連結パターン抽出手段(40)により抽出された部分
パターンに基づいて前記画像から一文字枠を抽出する一
文字枠抽出手段(46)と、 該連結パターン抽出手段(40)により抽出され、一文
字枠を該一文字枠抽出手段(46)により除去された部
分パターンから直線を検出する直線抽出手段(41,4
2)と、 該直線抽出手段(41,42)により検出された直線か
ら枠を構成する直線を検出する枠検出手段(43)と、 該枠検出手段(43)により検出された直線を部分パタ
ーンから分離することにより文字、図形もしくは記号を
切り出す枠分離手段(44)とを有し、 該直線抽出手段(41,42)は、該連結パターン抽出
手段(40)により抽出され該一文字枠抽出手段(4
6)により一文字枠を除去された部分パターン毎に、一
文字枠を除去された部分パターンの画像全体に対して横
長及び縦長の2種類のマスク内で走査を行う手段と、前
記マスク内のパターンの占める割合を算出する手段と、
算出された値が所定値より大きければそのマスク内を全
てパターンとみなすと共に、算出された値が所定値以下
であればマスク内のパターンを削除することにより縦横
成分の抽出を行う手段とを含む、画像抽出装置。 - 【請求項2】 前記直線抽出手段(41,42)は、複
数の行又は列が続いて前記割合が所定値より大きくなる
と、それらの行又は列をまとめて矩形範囲を作成し、そ
の矩形範囲の中心線を処理結果とする手段を含む、請求
項1の画像抽出装置。 - 【請求項3】 前記直線抽出手段(41,42)は、マ
スク処理を行う範囲に各々重なりを持たせる手段を含
む、請求項1又は2の画像抽出装置。 - 【請求項4】 一文字枠を含む表形式のブロック枠又は
フリーフォーマット枠と、文字、図形もしくは記号とか
ら構成される画像から画素と画素が繋がっている部分パ
ターンを抽出する連結パターン抽出手段(40)と、 該連結パターン抽出手段(40)により抽出された部分
パターンに基づいて前記画像から一文字枠を抽出する一
文字枠抽出手段(46)と、 該連結パターン抽出手段(40)により抽出され、一文
字枠を該一文字枠抽出手段(46)により除去された部
分パターンから直線を検出する直線抽出手段(41,4
2)と、 該直線抽出手段(41,42)により検出された直線か
ら枠を構成する直線を検出する枠検出手段(43)と、 該枠検出手段(43)により検出された直線を部分パタ
ーンから分離することにより文字、図形もしくは記号を
切り出す枠分離手段(44)とを有し、 該枠検出手段(43)は、該直線検出手段(41,4
2)で検出された横枠を構成する直線の候補のうち所定
値以上の長さのものを横枠として検出する手段と、検出
した横枠に基づいて隣接する横枠が2本の場合には横一
行のブロック枠又はフリーフォーマット枠を検出すると
共に、横枠が3本以上の場合には表形式のブロック枠を
検出する手段とを含む、画像抽出装置。 - 【請求項5】 前記枠検出手段(43)は、前記直線検
出手段(41,42)で検出された縦枠を構成する直線
の候補及び前記検出された横枠に基づいて、縦枠の候補
の直線が検出された上下の横枠まで達しているか、或
は、途中で途切れていないかを探索により調べる手段
と、探索の結果上下共に横枠に達している縦線は縦枠の
候補とし、その他は文字の一部分とみなして省く手段と
を含む、請求項5の画像抽出装置。 - 【請求項6】 前記枠検出手段(43)は、処理の対象
が規則的な表形式のブロック枠の場合、検出された2本
の隣合う横枠に挟まれた範囲内の縦線のうち著しく他と
異なる間隔を形成する縦線を縦枠の候補から除外するこ
とにより縦枠の候補から除外されなかった縦線を縦枠で
あるものとする手段を含む、請求項4又は5の画像抽出
装置。 - 【請求項7】 前記枠検出手段(43)は、枠抽出の際
に所定の長さを越える直線は一定長さの単位に分割する
手段を含む、請求項4、5又は6の画像抽出装置。 - 【請求項8】 前記枠検出手段(43)は、分割された
部分がフリーフォーマット枠中のどの位置に対応するか
で消去する枠の本数と位置を変化させる手段を含む、請
求項7の画像抽出装置。 - 【請求項9】 前記枠検出手段(43)は、左から四方
を枠線で囲まれた部分を1つずつ分離して行き、横線と
縦線との長さの比が所定値以下の場合は各分離部分を一
文字枠として扱う手段を含む、請求項4、5、6、7又
は8の画像抽出装置。 - 【請求項10】 一文字枠を含む表形式のブロック枠又
はフリーフォーマット枠と、文字、図形もしくは記号と
から構成される画像から画素と画素が繋がっている部分
パターンを抽出する連結パターン抽出手段(40)と、 該連結パターン抽出手段(40)により抽出された部分
パターンに基づいて前記画像から一文字枠を抽出する一
文字枠抽出手段(46)と、 該連結パターン抽出手段(40)により抽出され、一文
字枠を該一文字枠抽出手段(46)により除去された部
分パターンから直線を検出する直線抽出手段(41,4
2)と、 該直線抽出手段(41,42)により検出された直線か
ら枠を構成する直線を検出する枠検出手段(43)と、 該枠検出手段(43)により検出された直線を部分パタ
ーンから分離することにより文字、図形もしくは記号を
切り出す枠分離手段(44)と、 該直線抽出手段(41,42)における横枠検出が失敗
した部分パターンについて枠抽出及び除去処理を行う枠
抽出・除去手段(45)とを有する画像抽出装置。 - 【請求項11】 前記枠抽出・除去手段(45)は、前
記直線抽出手段(41,42)における横枠探索が失敗
した部分パターンに対して途中で途切れている線分も含
めて線分の統合を行う手段と、統合後の横線が部分パタ
ーンの大きさと比較して所定値以上の長さを有する場合
にその横線を横枠とみなすと共に、2本の隣合う横線の
間にある縦線のうち上下の横線まで達しているものを縦
枠の候補とする手段と、この様にして得られた枠及び枠
の候補によって形成される矩形範囲と同一画像にあり前
記一文字枠抽出手段(46)により抽出済の一文字枠と
のマッチングをとることにより一文字枠範囲を抽出し、
各一文字枠範囲に対して一文字枠の場合と同様に枠の抽
出及び除去の処理を行う手段とを含む、請求項10の画
像抽出装置。 - 【請求項12】 一文字枠を含む表形式のブロック枠又
はフリーフォーマット枠と、文字、図形もしくは記号と
から構成される画像から画素と画素が繋がっている部分
パターンを抽出する連結パターン抽出手段(40)と、 該連結パターン抽出手段(40)により抽出された部分
パターンに基づいて前記画像から一文字枠を抽出する一
文字枠抽出手段(46)と、 該連結パターン抽出手段(40)により抽出され、一文
字枠を該一文字枠抽出手段(46)により除去された部
分パターンから直線を検出する直線抽出手段(41,4
2)と、 該直線抽出手段(41,42)により検出された直線か
ら枠を構成する直線を検出する枠検出手段(43)と、 該枠検出手段(43)により検出された直線を部分パタ
ーンから分離することにより文字、図形もしくは記号を
切り出す枠分離手段(44)とを有し、 該直線抽出手段(41,42)は、部分パターンから直
線を検出するために線分の探索を行う際に、枠であると
判断された矩形線分内で最も細い部分を探索の開始点と
する手段を含む画像抽出装置。 - 【請求項13】 矩形で各矩形が分離した枠と文字、図
形もしくは記号とから構成される画像から、枠を抽出す
る画像抽出装置において、 画像を構成するパターンから画素と画素が繋がっている
部分パターンを抽出する連結パターン抽出手段(21)
と、 抽出された各部分パターンに基づいて枠を抽出する枠抽
出手段(22)と、 抽出された部分パターン及び枠に基づいて文字と枠との
交点を算出する交点算出手段(25−1,25−2)
と、 枠の線幅に応じて枠を挟む文字線分間の距離及び傾きの
連続性の判定基準を適応的に変化させ、前記距離及び傾
きの連続性に基づいて交点の対応付けを行う交点対応付
け手段(55,61)と、 対応付けられた交点に基づいて枠内の文字線分を抽出す
る枠内文字抽出手段(56)とを有する画像抽出装置。 - 【請求項14】 前記交点算出手段(25−1,25−
2)は、算出された枠と文字との全ての交点について、
交点側から枠の中心方向へ文字線分を探索する手段と、
探索した結果の枠内の交点が文字線分の延長であるか否
かを判定する手段とを含む、請求項13の画像抽出装
置。 - 【請求項15】 前記交点算出手段(25−1,25−
2)は、枠と文字線分との交点側から枠の中心方向へ文
字線分を探索する過程で枠内の交点が存在しなくなる
と、その交点は枠と文字線分との交点ではないと判断す
る手段を含む、請求項14の画像抽出装置。 - 【請求項16】 前記交点算出手段(25−1,25−
2)は、枠と文字線分との交点側から枠の中心方向へ文
字線分を探索する過程で、交点側から枠の中心方向へ探
索した文字線分の面積を求める手段を含む、請求項14
又は15の画像抽出装置。 - 【請求項17】 前記交点算出手段(25−1,25−
2)は、枠と文字線分との交点側から枠の中心方向とは
逆方向へ文字線分を探索する過程で、交点側から前記逆
方向へ探索した文字線分の面積を求める手段を含む、請
求項13〜16のうちいずれか一項記載の画像抽出装
置。 - 【請求項18】 前記交点算出手段(25−1,25−
2)は、枠と文字線分との交点側から枠の中心方向と逆
方向へ文字線分を探索する過程で枠外の交点が存在しな
くなると、前記中心方向と逆方向とへ探索した各々の文
字線分の面積の和が所定のしきい値より小さい場合はそ
の文字線分を雑音であると判断する手段を含む、請求項
17の画像抽出装置。 - 【請求項19】 枠と文字の幅及び文字と枠との接触の
度合から文字と枠との接触頻度を算出し、文字幅が枠幅
より大きく比較的に文字と枠とが接触していない接触頻
度が小さい場合と、文字幅と枠幅とが略同じか或は文字
と枠との接触が比較的多い接触頻度が大きい場合とを判
別する接触頻度算出手段(51)を更に有する、請求項
13〜18のうちいずれか一項記載の画像抽出装置。 - 【請求項20】 前記交点対応付け手段(55,61)
は、前記接触頻度算出手段(51)が算出した接触頻度
が大きい場合、枠外の交点と、文字と枠との交点と、枠
内の交点との3種類の交点から文字線分の方向性を求
め、枠内の交点における文字線分間の距離及び方向に基
づく文字線分の連続性の条件と前記方向性とに基づいて
文字と枠との交点を対応付ける手段を含む、請求項19
の画像抽出装置。 - 【請求項21】 前記交点対応付け手段(55,61)
は、略同じ方向性を持つ交点同士を対応付ける、請求項
20の画像抽出装置。 - 【請求項22】 前記3種類の交点に基づいて文字と枠
との交点を対応付ける手段によって対応付けた交点と、
枠内とに囲まれた範囲を文字成分として抽出する枠内文
字抽出手段(56)を更に有する、請求項20又は21
の画像抽出装置。 - 【請求項23】 前記交点対応付け手段(55,61)
は、前記接触頻度算出手段(51)が算出した接触頻度
が小さい場合、枠外の交点と、文字と枠との交点との2
種類の交点から文字線分の方向性を求め、前記方向性に
基づいて文字と枠との交点を対応付ける手段を含む、請
求項19〜22のうちいずれか一項記載の画像抽出装
置。 - 【請求項24】 前記交点対応付け手段(55,61)
は、略同じ方向性を持つ交点同士を対応付ける、請求項
23の画像抽出装置。 - 【請求項25】 前記2種類の交点に基づいて文字と枠
との交点を対応付ける手段によって対応付けた交点間を
接続することにより枠内の文字領域を補間する枠内文字
補間手段(32)を更に有する、請求項23又は24の
画像抽出装置。 - 【請求項26】 前記交点対応付け手段(55,61)
による交点の対応付けの後に文字列を抽出する文字列抽
出手段(12−1,12−2)と、少なくとも平均文字
ピッチ及び平均文字サイズに関する情報に基づいて文字
の統合を行う統合手段(16−1,16−2)と、抽出
した枠の位置と文字線分の位置との位置ずれに基づいて
文字成分の連結性を確認して再補間する枠の範囲を算出
する連結性確認手段(57−1,57−2)とを更に有
する、請求項23〜25のうちいずれか一項記載の画像
抽出装置。 - 【請求項27】 前記交点対応付け手段(55,61)
は、連結性確認手段(57−1,57−2)により文字
成分の連結性が確認できない場合に連結性を回復するよ
うな交点の再対応付けを行う、請求項26の画像抽出装
置。 - 【請求項28】 少なくとも平均文字ピッチ及び平均文
字サイズに関する情報に基づいて文字の統合を行う統合
手段(16−1,16−2,16−3)と、再補間され
た文字パターンの有無に応じて前記統合を行わせる再補
間判定手段(63)とを更に有する、請求項23〜25
のうちいずれか一項記載の画像抽出装置。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP5168253A JP3042945B2 (ja) | 1993-07-07 | 1993-07-07 | 画像抽出装置 |
KR1019940016318A KR970001916B1 (ko) | 1993-07-07 | 1994-07-07 | 화상추출장치 |
US08/697,501 US5907630A (en) | 1993-07-07 | 1996-08-26 | Image extraction system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP5168253A JP3042945B2 (ja) | 1993-07-07 | 1993-07-07 | 画像抽出装置 |
Related Child Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP15291299A Division JP3299519B2 (ja) | 1999-05-31 | 1999-05-31 | 画像抽出装置 |
JP11365345A Division JP2000172782A (ja) | 1999-01-01 | 1999-12-22 | 画像抽出装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0728937A true JPH0728937A (ja) | 1995-01-31 |
JP3042945B2 JP3042945B2 (ja) | 2000-05-22 |
Family
ID=15864589
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP5168253A Expired - Fee Related JP3042945B2 (ja) | 1993-07-07 | 1993-07-07 | 画像抽出装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US5907630A (ja) |
JP (1) | JP3042945B2 (ja) |
KR (1) | KR970001916B1 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6434270B1 (en) | 1997-05-30 | 2002-08-13 | Fujitsu Limited | Pattern extraction apparatus |
US7133558B1 (en) | 1998-12-16 | 2006-11-07 | Fujitsu Limited | Device processing a table image, a memory medium storing a processing program, and a table management processing method |
US7355957B2 (en) | 2003-04-11 | 2008-04-08 | Nec Corporation | Optical disc medium having a system information recording area of low recording density |
JP2014191719A (ja) * | 2013-03-28 | 2014-10-06 | Brother Ind Ltd | 画像処理装置、および、コンピュータプログラム |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6351558B1 (en) * | 1996-11-13 | 2002-02-26 | Seiko Epson Corporation | Image processing system, image processing method, and medium having an image processing control program recorded thereon |
US6226402B1 (en) | 1996-12-20 | 2001-05-01 | Fujitsu Limited | Ruled line extracting apparatus for extracting ruled line from normal document image and method thereof |
US6142374A (en) * | 1997-01-20 | 2000-11-07 | Matsushita Electric Industrial Co., Ltd. | Optical character reader |
JP3476185B2 (ja) * | 1999-12-27 | 2003-12-10 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 情報抽出システム、情報処理装置、情報収集装置、文字列抽出方法及び記憶媒体 |
US7038681B2 (en) * | 2000-03-29 | 2006-05-02 | Sourceprose Corporation | System and method for georeferencing maps |
US7148898B1 (en) * | 2000-03-29 | 2006-12-12 | Sourceprose Corporation | System and method for synchronizing raster and vector map images |
US7167187B2 (en) * | 2000-03-29 | 2007-01-23 | Sourceprose Corporation | System and method for georeferencing digital raster maps using a georeferencing function |
US7242806B2 (en) * | 2002-01-23 | 2007-07-10 | Honeywell International Inc. | Methods, functional Data, and Systems for image feature translation |
US7366978B1 (en) * | 2003-02-13 | 2008-04-29 | Microsoft Corporation | Method and system for creating a grid-like coordinate system for addressing data contained in an irregular computer-generated table |
US7707488B2 (en) * | 2006-02-09 | 2010-04-27 | Microsoft Corporation | Analyzing lines to detect tables in documents |
TWI401670B (zh) * | 2006-05-22 | 2013-07-11 | Hitachi High Tech Corp | 檢測圓周方向之刮傷缺陷的方法、及磁碟驗證器 |
US20080019669A1 (en) * | 2006-07-18 | 2008-01-24 | Sahra Reza Girshick | Automatically editing video data |
US8244036B2 (en) * | 2007-01-24 | 2012-08-14 | Bluebeam Software, Inc. | Method for emphasizing differences in graphical appearance between an original document and a modified document with annotations |
US8358852B2 (en) * | 2008-03-31 | 2013-01-22 | Lexmark International, Inc. | Automatic forms identification systems and methods |
JP2013500527A (ja) * | 2009-07-30 | 2013-01-07 | オセ−テクノロジーズ・ベー・ヴエー | 文書内の表の自動的な位置特定 |
US10725650B2 (en) * | 2014-03-17 | 2020-07-28 | Kabushiki Kaisha Kawai Gakki Seisakusho | Handwritten music sign recognition device and program |
US10235585B2 (en) * | 2016-04-11 | 2019-03-19 | The Nielsen Company (US) | Methods and apparatus to determine the dimensions of a region of interest of a target object from an image using target object landmarks |
GB2584340B (en) * | 2019-05-31 | 2021-07-14 | Autocoding Systems Ltd | Systems and methods for printed code inspection |
US20240312231A1 (en) * | 2023-03-17 | 2024-09-19 | L&T Technology Services Limited | Method and system of determining shape of a table in a document |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5235653A (en) * | 1984-08-31 | 1993-08-10 | Hitachi, Ltd. | Document analysis system |
JPS63289306A (ja) * | 1987-05-22 | 1988-11-25 | 日本特殊陶業株式会社 | 摺動部品の製造法 |
JPH06101049B2 (ja) * | 1988-03-25 | 1994-12-12 | インターナシヨナル・ビジネス・マシーンズ・コーポレーシヨン | 文字列検出方法 |
JP2822189B2 (ja) * | 1988-05-19 | 1998-11-11 | ソニー株式会社 | 文字認識装置及び方法 |
US5129012A (en) * | 1989-03-25 | 1992-07-07 | Sony Corporation | Detecting line segments and predetermined patterns in an optically scanned document |
US5253305A (en) * | 1991-06-25 | 1993-10-12 | Industrial Technology Research Institute | Character boundary identification method and system |
US5384864A (en) * | 1993-04-19 | 1995-01-24 | Xerox Corporation | Method and apparatus for automatic determination of text line, word and character cell spatial features |
-
1993
- 1993-07-07 JP JP5168253A patent/JP3042945B2/ja not_active Expired - Fee Related
-
1994
- 1994-07-07 KR KR1019940016318A patent/KR970001916B1/ko not_active IP Right Cessation
-
1996
- 1996-08-26 US US08/697,501 patent/US5907630A/en not_active Expired - Lifetime
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6434270B1 (en) | 1997-05-30 | 2002-08-13 | Fujitsu Limited | Pattern extraction apparatus |
US7133558B1 (en) | 1998-12-16 | 2006-11-07 | Fujitsu Limited | Device processing a table image, a memory medium storing a processing program, and a table management processing method |
US7355957B2 (en) | 2003-04-11 | 2008-04-08 | Nec Corporation | Optical disc medium having a system information recording area of low recording density |
JP2014191719A (ja) * | 2013-03-28 | 2014-10-06 | Brother Ind Ltd | 画像処理装置、および、コンピュータプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP3042945B2 (ja) | 2000-05-22 |
US5907630A (en) | 1999-05-25 |
KR970001916B1 (ko) | 1997-02-19 |
KR950004054A (ko) | 1995-02-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3042945B2 (ja) | 画像抽出装置 | |
JP2951814B2 (ja) | 画像抽出方式 | |
US5583949A (en) | Apparatus and method for use in image processing | |
US5410611A (en) | Method for identifying word bounding boxes in text | |
EP1519302B1 (en) | System and method for detecting a hand-drawn object in electronic ink input | |
US20030198386A1 (en) | System and method for identifying and extracting character strings from captured image data | |
JPH05242292A (ja) | 分離方法 | |
JPH08305796A (ja) | パターン抽出装置、パターン再認識用テーブル作成装置及びパターン認識装置 | |
US6005976A (en) | Image extraction system for extracting patterns such as characters, graphics and symbols from image having frame formed by straight line portions | |
US6941030B2 (en) | Character-recognition pre-processing apparatus and method, and program recording medium | |
US7146047B2 (en) | Image processing apparatus and method generating binary image from a multilevel image | |
US20230065041A1 (en) | Geometric pattern matching method and device for performing the method | |
JPH09311905A (ja) | 行検出方法および文字認識装置 | |
JPH0950527A (ja) | 枠抽出装置及び矩形抽出装置 | |
JP3299519B2 (ja) | 画像抽出装置 | |
JP4867894B2 (ja) | 画像認識装置、画像認識方法及びプログラム | |
JP2000172782A (ja) | 画像抽出装置 | |
JP2827960B2 (ja) | 宛名行抽出装置 | |
JP3466899B2 (ja) | 文字認識装置及び方法並びにプログラム記憶媒体 | |
JP3077929B2 (ja) | 文字切出し方式 | |
JP2007026470A (ja) | パターン認識装置 | |
JPH07141465A (ja) | 文書画像の傾き検出方法 | |
JPH07118016B2 (ja) | 図形認識装置 | |
Sarkar et al. | Classifying foreground pixels in document images | |
JP2000207491A (ja) | 文字列読取方法及び装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 19991026 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20000222 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080310 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090310 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100310 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100310 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110310 Year of fee payment: 11 |
|
LAPS | Cancellation because of no payment of annual fees |