JPH1055408A - 接触パターンを分離するパターン分離装置および方法 - Google Patents

接触パターンを分離するパターン分離装置および方法

Info

Publication number
JPH1055408A
JPH1055408A JP9146666A JP14666697A JPH1055408A JP H1055408 A JPH1055408 A JP H1055408A JP 9146666 A JP9146666 A JP 9146666A JP 14666697 A JP14666697 A JP 14666697A JP H1055408 A JPH1055408 A JP H1055408A
Authority
JP
Japan
Prior art keywords
pattern
area
separation
contact
histogram
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP9146666A
Other languages
English (en)
Other versions
JP3409993B2 (ja
Inventor
Hiroaki Takebe
浩明 武部
Yutaka Katsuyama
裕 勝山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP14666697A priority Critical patent/JP3409993B2/ja
Publication of JPH1055408A publication Critical patent/JPH1055408A/ja
Application granted granted Critical
Publication of JP3409993B2 publication Critical patent/JP3409993B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】 【課題】 文字等のパターンが存在する領域を画像から
切り出す際に、接触パターンを精度良く分離することが
課題である。 【解決手段】 CPU21は、メモリ24に格納された
各プログラムを用いて、文書画像内の接触文字を検出
し、適切な分離点でそれを分割する。CPU21は、ま
ず、文字列をブロック毎にまとめ、各ブロック内の平均
文字サイズを算出し、それを用いて接触文字を検出す
る。次に、接触文字の上層部および下層部に句読点等が
あるかどうかを調べて、分離点候補を求め、文字列に垂
直な方向の黒画素のヒストグラムから分離点候補の確か
らしさを判定する。また、文字列方向のヒストグラムを
用いて、接触文字の上下両方向から分離点を探索し、相
対的に良い方の分離点を求める。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、例えば、OCR
(optical character recognition )を利用した文字認
識装置、図面読取装置、ナンバプレートの認識等を行う
画像認識装置など、画像中の文字等を認識する装置に係
り、文字等のパターンが存在する領域を画像から切り出
す際に、互いに接触した2つ以上のパターンを分離する
パターン分離装置およびその方法に関する。
【0002】
【従来の技術】パーソナルコンピュータやワークステー
ションの普及とともに、イメージスキャナ等の光電変換
装置で読み込んだ画像データを処理して、画像に含まれ
る文字を認識するソフトウェアが、様々な分野で用いら
れている。特に、印刷された文書を一文字ずつ認識する
処理においては、黒画素の集まりである画像から、認識
対象となる文字領域を正確に切り出すことが重要とな
る。
【0003】一般に、印刷文書には、文字と文字とが接
触して、2つ以上の異なる文字が同一の黒画素連結成分
に属してしまう場合がある。このように2つ以上の異な
るパターンが接触してできるパターンは、接触パターン
または接触文字と呼ばれる。接触文字に対応する黒画素
連結成分を対象に認識処理を行っても、正しい文字候補
が生成されることはない。
【0004】従来、この接触文字の問題への対処方法と
しては次のようなものがある。まず、ラベリング処理を
行って黒画素連結成分に外接する外接矩形を求め、画像
に含まれる外接矩形の高さの平均値を求めて、それを平
均文字サイズとする。この平均値の求め方には、全文書
の外接矩形の高さの平均をとる方法と、一行毎の外接矩
形の高さの平均をとる方法とがある。
【0005】次に、外接矩形の高さと平均文字サイズを
比較するなどして接触文字を検出し、文字列方向の軸上
への黒画素の射影ヒストグラムを作成する。そして、そ
のヒストグラムの値の極小値のうち、ある閾値よりも小
さい値を持つ位置で矩形を分割する。
【0006】図19は、接触文字の例とこのような分離
方法を示している。図19において、矩形1、2、3は
黒画素連結成分の外接矩形に適当な統合処理を施した後
の外接矩形を表す。図19の文字列“指示を”に含まれ
る文字“示”のように、複数の分離した黒画素連結成分
から成る文字は、分離文字と呼ばれる。
【0007】ここでは、統合処理により、文字“示”の
文字列方向に重複する黒画素連結成分は1つの矩形3に
まとめられ、文字列方向に重複していない部分は別の矩
形2として分離している。また、文字“示”の下端と次
の文字“を”の上端が接触しているため、矩形3は接触
文字の外接矩形になっている。
【0008】この矩形3内の黒画素の数を文字列方向の
軸上に射影し、黒画素のヒストグラムを作成する。この
とき、文字列に垂直な方向に黒画素が密に重なっている
ところほどヒストグラム値は大きくなり、逆に、黒画素
がまばらなところほどその値は小さくなる。このため、
射影ヒストグラム上にはいくつかの極大値や極小値が現
れる。
【0009】現れた極小値のうち、あらかじめ決められ
た閾値より小さい値のところを分離点とし、その位置で
矩形3を分割すれば、2つの接触した文字“示”と
“を”を分離することができる。
【0010】また、多数の文字が接触してできた接触文
字を分離するために、平均文字サイズを用いて矩形を上
から順に区切っていき、区切った位置の周辺に分離範囲
(探索範囲)を設けて、そこでの射影ヒストグラムの最
小値を分離点とする方法もある。
【0011】あるいは、接触文字の矩形の高さが平均文
字サイズのおよそ何倍になるかを計算して、接触文字に
含まれる文字数(接触文字数)を推論し、矩形をその数
で等分割する方法もある。
【0012】
【発明が解決しようとする課題】しかしながら、従来の
接触文字の分離方法には次のような問題がある。文書に
含まれる各行によって文字の大きさが著しく異なる場
合、全文書の外接矩形の高さの平均を求めたのでは、有
効な平均文字サイズとはいえない。これに対して、一行
毎に外接矩形の高さの平均を求めれば、各行の文字の大
きさが正確に反映されるように思われる。
【0013】しかし、サンプル数が少ないために、行に
よっては有効な平均文字サイズが得られないことがあ
る。例えば、一行に含まれる文字の多くが接触している
ような場合、その接触文字の高さによって平均文字サイ
ズが左右されるため、実際の数文字分の平均文字サイズ
が算出されることになる。
【0014】また、一般に、文書中の文字の大きさや文
字ピッチ(文字間隔)が一定ではない場合、接触文字数
が多い場合、図19に示すように分離文字の一部が他の
文字と接触して接触文字を構成している場合、接触文字
内に括弧や句読点が含まれる場合には、接触文字の検出
および分離が難しくなる。このため、平均文字サイズを
用いて上から順に分離範囲を設定する方法や等分割する
方法では、誤った分離を行ったり、精度良く分離できな
いことが多い。
【0015】例えば、印刷文書では漢字の方が仮名より
多少大きいため、等分割を行っても正しい分離点は得ら
れない。また、図19のような接触文字の場合、平均文
字サイズが正確に1文字の高さに相当していたとして
も、矩形3の上端から1文字分隔たった位置は実際の文
字の境界より下にずれてしまう。このため、その位置の
周辺に分離範囲を設定しても正しい分離点が得られると
は限らず、接触文字数が多ければ、下方に行くほどずれ
が大きくなるという問題もある。
【0016】本発明は、文字等のパターンが存在する領
域を画像から切り出し、切り出された領域についての認
識処理を行う情報処理装置において、接触パターンを精
度良く分離することが可能なパターン分離装置およびそ
の方法を提供することを目的とする。
【0017】
【課題を解決するための手段】図1は、本発明のパター
ン分離装置の原理図である。図1のパターン分離装置
は、平均サイズ算出手段11、接触判定手段12、分離
手段13、および記憶手段14を備える。このパターン
分離装置は、画像から抽出されたパターン列からパター
ン領域を切り出し、そのパターン領域についての認識処
理を行う情報処理装置等において使用される。
【0018】平均サイズ算出手段11は、黒画素連結領
域を含むパターン領域の複数の列を表す複数のパターン
列領域を、各パターン列領域の大きさにしたがって1つ
以上のブロックに分け、各ブロック内に含まれるパター
ン領域の平均サイズを算出する。
【0019】記憶手段14は、上記パターン領域および
平均サイズを記憶する。接触判定手段12は、各ブロッ
ク内の各パターン領域の大きさを上記平均サイズと比較
して、パターン同士が接触してできる接触パターンに対
応する接触領域を検出する。
【0020】画像に含まれるパターンには、例えば、文
字、記号、図形等があり、これらが互いに接触すると、
接触パターンが形成される。また、1つのパターンの画
像は、黒画素が互いに連結した黒画素連結領域(黒画素
連結成分)から成り、その画像を含む領域がパターン領
域となる。このパターン領域としては黒画素連結領域に
外接する矩形等が用いられ、それが平均サイズ算出手段
11に入力される。
【0021】また、例えば文書中の文字列のように、パ
ターンが一定の方向に並んでできるパターン列の画像か
らは、対応するパターン領域の列を含むパターン列領域
が抽出され、平均サイズ算出手段11に入力される。
【0022】平均サイズ算出手段11は、画像から抽出
された複数のパターン列領域の大きさを調べ、類似した
大きさのパターン列領域をまとめてブロック化する。そ
して、各ブロック内に含まれるパターン領域の平均サイ
ズを算出して、各パターン領域の座標情報等とともに記
憶手段14に格納する。パターン列領域の大きさとして
は、例えばパターン列領域の幅等が用いられる。
【0023】このように、大きさの類似したパターン列
領域のブロック内で、パターン領域の平均サイズを算出
すれば、画像全体で平均する場合よりも正確な平均パタ
ーンサイズあるいは平均文字サイズを得ることができ
る。
【0024】接触判定手段12は、各ブロック毎に、パ
ターン領域の大きさとそのブロックの平均サイズとを比
較し、例えば、平均サイズより一定値以上大きいパター
ン領域を接触パターンに対応する接触領域として検出す
る。この接触領域は、例えば接触文字に外接する矩形に
相当する。
【0025】接触領域の判定に用いる平均サイズは、平
均サイズ算出手段11により比較的正確に求められてい
るので、接触判定手段12により高い精度で接触領域が
検出される。
【0026】また、分離手段13は、上記接触領域の末
端部分を2つの領域に区分し、それらの2つの領域の黒
画素数を比較することで、その接触領域からその末端部
分を分離するか否かを判断する。
【0027】例えば、縦書きの文書から抽出された文字
列の場合、句読点は文字列の中心線より右側に位置す
る。そこで、接触領域の上下の末端部分を左右2つの領
域に区分し、右側に黒画素が集中している場合にそれを
句読点とみなして、末端部分を分離することができる。
同様にして、左右どちらかに偏っている他の任意のパタ
ーンを切り離すことが可能である。
【0028】横書きの文書から抽出された文字列の場合
は、接触領域の左右の末端部分を上下2つの領域に区分
して、それらの領域の黒画素数を比較すればよい。この
ような分離手段13を備えることで、接触領域の末端部
分に含まれる比較的小さなパターンを分離することが容
易になり、パターン分離処理の精度が向上する。さら
に、末端部分の大きさを上記平均サイズをもとにして決
定し、それを記憶手段14に格納しておけば、分離手段
13による処理の精度がより向上する。
【0029】また、分離手段13は、上記接触領域内に
設定された分離点候補の周辺領域において、黒画素を上
記パターン列に垂直な方向の軸上へ射影してヒストグラ
ムを作成し、そのヒストグラムの分散に基づいて、その
分離点候補の位置で接触領域を分離するか否かを決定す
る。
【0030】例えば、縦書きの文書から検出された接触
領域に、文字“し”のような縦に細い線を有するパター
ンが含まれる場合、従来のようにパターン列の方向の射
影ヒストグラムのみでは、その線上に分離点が設定さ
れ、その位置で接触領域が分割される可能性が高くな
る。
【0031】そこで、分離点候補の上下に周辺領域を設
定し、パターン列に垂直な方向の射影ヒストグラムを作
成することで、その分離点候補が上述のような線上の点
に対応するかどうかを判定することができる。例えば、
このヒストグラム上で黒画素が一点に集中しているよう
な場合、すなわち、分散が極めて小さい場合は、その分
離点候補を細い線上の点とみなして、そこでは分離せ
ず、分散が比較的大きい場合に、その分離点候補の位置
で分離するようにすればよい。
【0032】このような分離手段13を備えることで、
本来分割してはならない位置で接触領域を分割する危険
性が低くなり、パターン分離処理の精度が向上する。さ
らに、周辺領域の大きさを上記平均サイズをもとにして
決定し、それを記憶手段14に格納しておけば、分離手
段13による処理の精度がより向上する。
【0033】また、分離手段13は、上記接触領域の2
つの方向から上記平均サイズを用いて2つの分離範囲を
設定し、各分離範囲内の黒画素を上記パターン列の方向
の軸上へ射影してヒストグラムを作成し、各分離範囲に
おけるヒストグラムの最小値のうち小さい方に対応する
位置で、その接触領域を分離する。
【0034】従来のように、接触領域を一方の端から平
均文字サイズで区切って、その境界の周りの射影ヒスト
グラムを作成するだけでは、始点となった末端部分に平
均文字サイズと大きく異なる文字等が含まれる場合や文
字ピッチ等が不揃いな場合に対処することができない。
【0035】そこで、接触領域を2つの方向から平均サ
イズで区切って、それらの境界の周りに2つの分離範囲
を設定し、各分離範囲について射影ヒストグラムを作成
する。これらの各射影ヒストグラムの最小値に対応する
位置が分離点候補となるが、ここでは、2つの分離点候
補のうち、より小さい最小値を持つ方を分離点として採
用する。
【0036】このように、2つの方向から分離範囲を設
定し、それらの範囲でのヒストグラム値の最小値を比較
することで、2つの方向から生成した分離点候補のうち
相対的に良い方を採用することができる。したがって、
接触領域に平均文字サイズと大きく異なる文字等が含ま
れる場合や文字ピッチ等が不揃いな場合でも、その接触
領域をより正確に分割することが可能になる。
【0037】さらに、分離範囲の大きさを上記平均サイ
ズをもとにして決定し、それを記憶手段14に格納して
おけば、分離手段13による処理の精度がより向上す
る。また、分離手段13は、上記接触領域内に設定され
た分離範囲内の黒画素を上記パターン列の方向の軸上へ
射影してヒストグラムを作成し、その分離範囲における
ヒストグラムの最小値が分離範囲の端に対応するとき、
その分離範囲を拡大してヒストグラムを延長し、拡大さ
れた分離範囲におけるヒストグラムの最小値に対応する
位置を、接触領域の分離点候補とする。
【0038】ヒストグラムの最小値が分離範囲の端にあ
る場合、その方向にヒストグラムを延長すれば、さらに
小さい最小値が見つかる可能性が高い。したがって、多
くの場合、分離範囲の端で接触領域を分割することは好
ましくない。そこで、最小値に対応する端点を越えて分
離範囲を拡大し、拡大された分離範囲におけるヒストグ
ラムの最小値を探して、それが端に対応しなければ分離
点候補として採用する。
【0039】このように、分離点の探索対象となる分離
範囲を可変にすることで、分離範囲の外側にパターン同
士の接触点があるような場合でも、それを探し出すこと
ができる。したがって、文字ピッチ等が不揃いな場合で
あっても、接触領域をより正確に分割することが可能に
なる。さらに、分離範囲の拡大部分の大きさを上記平均
サイズをもとにして決定し、それを記憶手段14に格納
しておけば、分離手段13による処理の精度がより向上
する。
【0040】分離手段13が、以上説明したような各分
離方法を単独で、または、互いに組み合わせて用いるこ
とで、接触領域の分離点を精度良く求めることができ
る。分離手段13は、求めた分離点を記憶手段14に格
納し、接触領域をそれらの分離点でいくつかのパターン
領域に分割する。こうして、パターン領域が更新され
て、認識処理を行う装置に渡される。
【0041】例えば、図1の平均サイズ算出手段11、
接触判定手段12、および分離手段13は、実施形態の
図7におけるCPU(中央処理装置)21とメモリ24
の組み合わせに対応し、記憶手段14はメモリ24に対
応する。
【0042】
【発明の実施の形態】以下、図面を参照しながら、本発
明の実施の形態を詳細に説明する。本発明の実施の形態
では、文書画像中の黒画素連結成分の外接矩形(文字矩
形)を求め、平均文字サイズをもとにそれらの矩形の可
能な組み合わせを考え、それらの中で文字認識値が最も
良い組み合わせを動的計画法で探索するという認識手法
を用いる。
【0043】まず、文字列内の文字の大きさに従って、
複数の文字列をブロック毎にまとめ、各ブロック内で平
均文字サイズを求める。このように、文字の大きさを基
準にしてブロック化することで、例えば見出しと本文の
ように、大きさの異なる文字から成る行を別々のブロッ
クに分けることができる。また、複数の行を1つのブロ
ックにすることで十分な数のサンプルが得られ、1行毎
に平均するよりも正確な平均文字サイズが得られる。
【0044】次に、求めた平均文字サイズをもとに接触
文字を検出し、接触文字の上層部と下層部について左右
の黒画素数の比を求める。例えば、図2(a)に示すよ
うな接触文字の矩形の場合、図2(b)に示すように、
矩形の上端および下端から一定の高さの領域を、それぞ
れ上層部および下層部とする。次に、各領域を左右に2
等分して、左右の各部分領域内の黒画素の数を求め、黒
画素数の比を計算する。
【0045】こうして求めた黒画素数の比がある範囲内
に収まらなければ、対応する境界位置を分離点とする。
図2(b)の場合、上層部では左右の部分領域の両方に
黒画素が含まれているが、下層部では右の部分領域にし
か黒画素が含まれていない。このため、下層部における
黒画素数の比は極端に大きな値あるいは小さな値にな
り、下層部の上端の境界線が分離点に決定する。こうし
て、図2(a)における文字“3”から読点“、”がう
まく分離される。
【0046】このように、下層部において左右の黒画素
数を比較することで、右側に黒画素が集中する句読点
や、左側に黒画素が集中する括弧などが文字の下端に接
触しているかどうかを的確に判断することができる。ま
た、上層部において左右の黒画素数を比較することで、
右側に黒画素が集中する括弧などが文字の上端に接触し
ているかどうかを判断することができる。
【0047】次に、図19に示したように、文字列方向
の軸上への射影ヒストグラムを作成し、そのヒストグラ
ム値をもとに分離点候補を定める。そして、その分離点
候補の周辺で文字列方向に垂直な軸上への射影ヒストグ
ラムを作成し、そのヒストグラムの分散が大きければ、
対応する分離点候補を分離点に決定する。
【0048】図3は、このような射影ヒストグラム値の
絶対値判定の例を示している。図3(a)に示す接触文
字の矩形において、文字列方向の軸上への射影ヒストグ
ラムを作成した結果、図3(b)に示すような2つの分
離点候補が得られたとする。このとき、図3(c)に斜
線で示すように、各分離点候補の上下の一定領域の黒画
素を対象にして、その数を文字列に垂直な軸上へ射影す
ると、図3(d)に示すような2つのヒストグラムが得
られる。
【0049】これらのヒストグラムを見ると、上のヒス
トグラムでは黒画素が中央の一点に集中しており、分散
が小さいことが分かる。これに対して、下のヒストグラ
ムでは黒画素が左右の2つの位置に分散しており、分散
が大きくなっている。そこで、上のヒストグラムに対応
する分離点候補は分離点とせず、下のヒストグラムに対
応する分離点候補を分離点に決定する。こうして、文字
“予”の途中で分離することなく、接触文字の下端の括
弧のみが切り離される。
【0050】このように、文字列方向に垂直な軸上への
射影ヒストグラムの分散を調べることで、例えば漢字の
“予”、“子”やひらがなの“し”など比較的細い部分
のある文字に関して、その途中で分離することが防止さ
れる。
【0051】次に、平均文字サイズをもとに接触文字の
上下両方向から分離範囲を設定し、各分離範囲におい
て、文字列方向の軸上への射影ヒストグラムを作成す
る。そして、各分離範囲におけるヒストグラム値の最小
値に対応する位置を分離点候補とし、2つの最小値のう
ち小さい方の分離点候補を分離点に決定する。
【0052】図4は、このような射影ヒストグラム値の
相対値判定の例を示している。図4(a)に示す接触文
字の矩形において、上下両端から平均文字サイズだけ隔
たった位置が、図4(b)の破線に示す位置になったと
する。このとき、図4(b)の矢印で示すような分離範
囲を設定し、各分離範囲における黒画素の射影ヒストグ
ラムを作成すると、図4(c)のようになる。
【0053】図4(c)では、上のヒストグラムの最小
値の方が下のヒストグラムの最小値よりも小さいので、
上のヒストグラムの最小値に対応する位置が分離点とな
る。この分離点の位置はヒストグラムの最小値に対応し
ており、必ずしも図4(b)の破線の位置に一致すると
は限らない。
【0054】この分離点より下の領域に対して、同様
に、上下両方向から平均文字サイズだけ離れた位置の周
辺に、図4(d)に矢印で示すような分離範囲を設定
し、各分離範囲における射影ヒストグラムを作成する
と、図4(e)のようになる。ここで、再び上のヒスト
グラムの最小値に対応する位置が分離点となる。
【0055】さらに、その分離点より下の領域に対して
同様の分離点探索を繰り返すことで、最終的に図4
(f)に示すような3つの分離点が得られる。これらの
分離点は、接触文字内の文字同士の正しい境界を与えて
いることが分かる。
【0056】ここで重要なのは、この相対値判定の方法
が、上から分離点を探索する場合と下から分離点を探索
する場合とのうち、結果の良い方を選択する方法と同等
ではないことである。
【0057】図5は、平均文字サイズと射影ヒストグラ
ムを用いた従来の探索方法と本発明の相対値判定による
探索方法との違いを示している。図5(a)に示す接触
文字の矩形において、従来の探索方法により上から分離
範囲を設定していくと、図5(b)に示すような分離点
が得られ、下から分離範囲を設定していくと、図5
(c)に示すような分離点が得られる。
【0058】これに対して、相対値判定を行いながら上
下両方向から分離範囲を絞り込んでいくと、図5(d)
に示すような分離点が得られる。この場合、明らかに図
5(d)の分離点の方が図5(b)、(c)の分離点よ
りも良い結果を与えていることが分かる。
【0059】このように、上下両方向から分離範囲を設
定し、それらの範囲でのヒストグラム値の最小値を比較
することで、2つの分離点候補のうち相対的に良い方を
採用することができ、接触文字をより正確に分離するこ
とが可能になる。
【0060】さらに、射影ヒストグラム値の相対値判定
において、分離範囲を可変にすることができる。ここで
は、設定した分離範囲内のヒストグラム値の最小値が、
その分離範囲の上端または下端に対応するとき、分離範
囲をその方向に拡大する。図6は、このような分離範囲
の拡大例を示している。図6(a)に示す接触文字の矩
形において、上端から平均文字サイズだけ離れた位置の
周辺に斜線で示すような分離範囲を設定し、その射影ヒ
ストグラムが図6(b)に示すようになったとする。こ
のとき、ヒストグラム値の最小値は、図6(a)に記号
*で示されるように、分離範囲の下端に対応している。
【0061】そこで、図6(c)に示すように、分離範
囲を下方に少し拡大し、新たに拡大された範囲について
も探索を行う。この結果、分離範囲の射影ヒストグラム
は図6(d)に示すようになり、拡大された範囲内で極
小値が生成される。この極小値は図6(b)における最
小値より小さく、分離範囲の端には対応しないので、こ
の位置を分離点候補に決定して、拡大操作を終了する。
【0062】このように、分離点の探索対象となる分離
範囲を可変にすることで、分離範囲の外側に文字同士の
接触点があるような場合でも、それを探し出すことがで
きる。したがって、文字ピッチが不定な文書画像であっ
ても、精度良く切り出しが行われる。
【0063】上述したように、本実施形態では、射影ヒ
ストグラムを利用した分離点の探索処理として、絶対値
判定および相対値判定の2段階の処理を行う。絶対値判
定を行うことで、特に接触文字数が多い場合に誤った切
り出しを防ぐことができ、相対値判定を行うことで、文
字ピッチが不定である場合や括弧が接触している場合な
どに対処することができる。これらの2つの処理を組み
合わせれば、さらに精度の高い切り出しが可能になる。
【0064】次に、図7から図9までを参照しながら、
本実施形態の文字分離装置の構成およびその処理の概要
について説明する。図7は、コンピュータを用いた文字
分離装置の構成図である。図7の文字分離装置は、CP
U21、入力部22、出力部23、メモリ24、外部記
憶装置25、媒体駆動装置26、およびネットワーク接
続装置27を備え、それらはバス28により互いに結合
されている。
【0065】メモリ24には、ブロック化プログラム、
平均文字サイズ算出プログラム、接触文字検出プログラ
ム、上層部/下層部分析プログラム、射影ヒストグラム
値の絶対値判定プログラム、射影ヒストグラム値の相対
値判定プログラム、および処理に用いられるデータが格
納されている。メモリ24としては、例えばROM(re
ad only memory)、RAM(random access memory)等
が用いられる。
【0066】CPU21は、メモリ24を利用してこれ
らのプログラムを実行することにより、上述したような
処理を行って画像から文字等の領域を切り出し、切り出
した領域についての認識処理を行う。
【0067】入力部22は、例えば、イメージスキャナ
等の光電変換装置を含み、画像データを読み取って、メ
モリ24または外部記憶装置25に格納する。外部記憶
装置25に格納された画像データは、必要に応じてメモ
リ24にロードされ、認識処理が施される。出力部23
は、例えば、ディプレイ装置やプリンタ等の出力装置を
含み、認識結果を出力する。
【0068】外部記憶装置25は、例えば、磁気ディス
ク装置、光ディスク装置、光磁気ディスク装置等であ
る。この外部記憶装置25に上述の各プログラムとデー
タを保存しておき、必要に応じて、それらをメモリ24
にロードして使用することができる。
【0069】媒体駆動装置26は、可搬記録媒体29を
駆動し、その記録内容にアクセスする。可搬記録媒体2
9としては、メモリカード、フロッピーディスク、CD
−ROM(compact disk read only memory )、光ディ
スク、光磁気ディスク(magneto-optical disk)等、任
意のコンピュータ読み取り可能な記録媒体が用いられ
る。この可搬記録媒体29に上述の各プログラムとデー
タを格納しておき、必要に応じて、それらをメモリ24
にロードして使用することもできる。
【0070】ネットワーク接続装置27は、LAN(lo
cal area network)等の任意のネットワーク(回線)を
介して外部の情報提供者の装置30と通信する。これに
より、必要に応じて、上述の各プログラムとデータを装
置30からネットワークを介して受け取り、それらをメ
モリ24にロードして使用することもできる。図8は、
図7の文字分離装置により行われる文字分離処理のフロ
ーチャートである。図8において処理が開始されると、
CPU21は、まず文書領域内の各行に対応する文字列
を表す矩形の座標値等の文字列情報と、文字列内の各文
字を表す矩形の座標値等の矩形情報とを、ブロック化プ
ログラムの処理対象として入力し(ステップS1)、文
字列をブロック化する(ステップS2)。
【0071】次に、平均文字サイズ算出プログラムを用
いて各ブロックの平均文字サイズを算出し(ステップS
3)、平均文字サイズをもとに、接触文字検出プログラ
ムを用いて接触文字を検出する(ステップS4)。
【0072】ステップS3で平均文字サイズを求める方
法としては、ブロック内の矩形の高さの合計を矩形数で
割って平均値を求める方法以外に、矩形の高さのヒスト
グラムを作成して、最も頻度の高い矩形高さを平均文字
サイズとする方法がある。また、ステップS4では、例
えば平均文字サイズより一定値以上大きな高さを持つ矩
形が、接触文字の矩形とみなされる。
【0073】次に、検出された接触文字の矩形が倍文字
に対応するかどうかを判定する(ステップS5)。ここ
で、倍文字とは、接触文字数が2個であるような接触文
字を意味する。
【0074】例えば、文字列内に図9に示すような矩形
が含まれており、矩形31の高さが平均文字サイズに相
当する場合、次の矩形32は倍文字とみなされる。しか
し、実際には、矩形32には2つの文字“し”、“た”
と句点“。”が含まれている。このように、倍文字に
は、接触した2つの文字にさらに句読点や括弧などが接
触しているものも含まれる。
【0075】したがって、ある接触文字が倍文字かどう
かを調べるには、その矩形高さを平均文字サイズと比較
し、矩形高さが平均文字サイズの2倍前後である場合
に、その矩形を倍文字と判定すればよい。
【0076】接触文字が倍文字でないと判定した場合、
次に、上層部/下層部分析プログラムを用いて矩形の上
層部と下層部の分析を行い(ステップS6)、絶対値判
定プログラムを用いて射影ヒストグラム値の絶対値判定
を行う(ステップS7)。そして、相対値判定プログラ
ムを用いて射影ヒストグラム値の相対値判定を行い(ス
テップS8)、最終的に決定した各分離点で接触文字の
矩形を分割して矩形情報を更新し(ステップS9)、処
理を終了する。
【0077】また、ステップS5において接触文字が倍
文字であると判定した場合は、ステップS6、S7の処
理を省略して、ステップS8以降の処理を行う。ステッ
プS6、S7の処理は、接触文字数が多い矩形を正確に
分割するために必要な処理であって、倍文字の場合は、
これらを適用しなくても十分に正確に分割することがで
きる。
【0078】こうして、図8の文字分離処理により文字
矩形の切り出しが行われた後、更新された矩形情報に基
づいて、各矩形の認識処理が行われる。次に、図10か
ら図18までを参照しながら、図8におけるステップS
2、S6、S7、S8の処理の詳細を説明する。
【0079】図10は、ステップS2における文字列の
ブロック化処理のフローチャートである。この処理で
は、注目している行とその前後の行の間で、行幅および
行の先頭位置の関係を調べ、それらの関係から注目して
いる行が前の行と同じブロックに属するかどうかを決め
る。このとき、各行の行幅を、その行に含まれる文字の
大きさとみなして処理を行う。
【0080】図10において処理が開始されると、CP
U21は、まず注目している行を表す制御変数iを2と
おく(ステップS11)。次に、第i行の文字列矩形の
幅、左上頂点のy座標をそれぞれw(i)、y(i)と
し、第i行の前の行の幅、左上頂点のy座標をそれぞれ
w(i−1)、y(i−1)とし、第i行の後の行の
幅、左上頂点のy座標をそれぞれw(i+1)、y(i
+1)として、次式により、パラメータdiff1、d
iff2、diff3、diff4を計算する(ステッ
プS12)。 diff1=|w(i)−w(i−1)| (1) diff2=|w(i+1)−w(i)| (2) diff3=|w(i+1)−w(i−1)| (3) diff4=|y(i)−y(i−1)| (4) ここで、diff1は第i行と第(i−1)行の幅の差
を表し、diff2は第i行と第(i+1)行の幅の差
を表し、diff3は第(i+1)行と第(i−1)行
の幅の差を表す。また、diff4は第i行と第(i−
1)行の先頭位置の差を表している。
【0081】図11は、ブロック化処理において用いら
れるパラメータの例を示している。図11のxy平面に
は、7個の文字列41、42、43、44、45、4
6、47が対応付けられており、文字列41と42は、
比較的大きな文字で書かれた見出しに相当する。また、
他の文字列は、通常の大きさの文字で書かれた本文に相
当する。
【0082】今、第i行に相当する文字列を文字列43
とすると、第(i−1)行、第(i+1)行はそれぞれ
文字列42、44に相当し、パラメータw(i)、y
(i)、w(i−1)、y(i−1)、w(i+1)、
y(i+1)は、それぞれ図11に示すようになる。
【0083】次に、ステップS13、S14、S15に
おいて、次の3つの条件のいずれかが満たされるかどう
かを判定する。 diff1<th1 (5) diff2<th2 かつ diff3<th3 (6) diff1<th1′ かつ diff4<th4 (7) ただし、閾値th1、th1′、th2、th3、th
4は、平均文字サイズの相対値としてあらかじめ決めら
れた値で、th1<th1′である。例えば、適当な正
の実数をrとすると、平均文字サイズのr倍の値がその
相対値として用いられる。
【0084】条件(5)は、第i行と第(i−1)行の
幅の差が閾値th1より小さいことを表し、条件(6)
は、第i行と第(i+1)行の幅の差が閾値th2より
小さく、かつ、第(i+1)行と第(i−1)行の幅の
差が閾値th3より小さいことを表す。また、条件
(7)は、第i行と第(i−1)行の幅の差が閾値th
1′より小さく、かつ、第i行と第(i−1)行の先頭
位置の差が閾値th4より小さいことを表す。
【0085】ここでは、まず条件(5)が成り立つかど
うかを判定し(ステップS13)、成り立たなければ、
次に条件(6)が成り立つかどうかを判定する(ステッ
プS14)。条件(6)も成り立たなければ、次に条件
(7)が成り立つかどうかを判定する(ステップS1
5)。そして、条件(7)も成り立たなければ、新たに
ブロックを設けて、第i行をそのブロックに組み込む
(ステップS16)。
【0086】また、ステップS13、S14、S15の
いずれかにおいて、対応する条件が成り立つ場合は、第
i行をその前の第(i−1)行が属するブロックに組み
込む。
【0087】次に、未処理の行が残っているかどうかを
調べ(ステップS18)、残っていればi=i+1とお
いて(ステップS19)、ステップS12以降の処理を
繰り返す。そして、すべての行をブロック化すると処理
を終了する。
【0088】こうして各行を前から順に処理して行け
ば、前の行と行幅があまり変わらない行は自動的に前の
行と同じブロックに組み込まれ、前の行と行幅がある程
度異なる行であっても、先頭位置があまり変わらなけれ
ば前の行と同じブロックに組み込まれる。
【0089】図11の場合は、文字列41、42は行幅
が近似しているので1つのブロックにまとめられ、文字
列43〜47も行幅が近似しているので1つのブロック
にまとめられる。しかし、文字列42と文字列43とで
は行幅が大きく異なり、先頭位置のy座標もかなり異な
るので、文字列43のために新たなブロックが設けられ
る。その結果、文字列41、42から成るブロックと、
文字列43〜47から成るブロックの2つのブロックが
生成されることになる。
【0090】このようなブロック化処理によれば、文字
の大きさに従って文字列がブロック化されるので、ブロ
ック毎に平均文字サイズを計算することで、精度の高い
平均文字サイズを得ることができる。したがって、平均
文字サイズを基準にして行われる接触文字の検出処理や
分離処理の精度が大きく向上する。
【0091】次に、図12は、図8のステップS6にお
ける上層部/下層部の分析処理のフローチャートであ
る。この処理では、接触文字の矩形の上層部および下層
部において、左右における黒画素数の比を求め、それが
ある範囲内に収まらなければ、対応する上層部の下端ま
たは下層部の上端を分離点とする。上層部と下層部の高
さは、例えば平均文字サイズの相対値としてあらかじめ
決めておく。
【0092】図12において処理が開始されると、CP
U21は、図2(b)に示すように、まず矩形の上端か
ら一定の高さの領域を上層部とし(ステップS21)、
それを左右に2等分して、それぞれの部分領域の黒画素
の比γを求める(ステップS22)。このγの値として
は、(左の部分領域の黒画素数)/(右の部分領域の黒
画素数)を用いてもよく、逆に、(右の部分領域の黒画
素数)/(左の部分領域の黒画素数)を用いてもよい。
【0093】次に、あらかじめ決められた2つの閾値を
tha、thbとして、tha<γ<thbが成り立つ
かどうかを判定する(ステップS23)。この条件が成
り立たなければ上層部の下端を分離点とし(ステップS
24)、それが成り立てば分離点を設定せずに、ステッ
プS25以降の処理を行う。
【0094】図2(b)の上層部においては、γが0や
無限大などの極端な値を取らないので、上層部の下端は
分離点とはならない。次に、矩形の下端から一定の高さ
の領域を下層部とし(ステップS25)、ステップS2
2と同様にして、左右の部分領域の黒画素の比γ′を求
める(ステップS26)。
【0095】次に、tha<γ′<thbが成り立つか
どうかを判定し(ステップS27)、この条件が成り立
たなければ下層部の上端を分離点とし(ステップS2
8)、それが成り立てば分離点を設定せずに、処理を終
了する。
【0096】図2(b)の下層部においては、左の部分
領域に黒画素がないため、γ′は0または無限大になっ
てしまい、tha<γ′<thbの範囲には収まらなく
なる。このため、下層部の上端が分離点に指定される。
また、図9の接触文字の矩形32の場合、適当な下層部
を設定して同様の分析を行うことで、下端部分に含まれ
ている句点“。”を分離することが可能になる。
【0097】このような分析処理によれば、接触文字の
上層部や下層部に、句読点や括弧等の左右に偏った文字
や記号がある場合に、それを接触文字から分離すること
ができる。したがって、接触文字の上下両方向から、平
均文字サイズを用いて分離点を探索する処理の効率が良
くなる。
【0098】次に、図13は、図8のステップS7にお
ける射影ヒストグラム値の絶対値判定処理のフローチャ
ートである。この処理では、まず接触文字の文字列方向
の軸上への射影ヒストグラムを作成し、ヒストグラム値
がある閾値よりも小さいところを分離点候補とする。さ
らに、分離点候補の周りについて、文字列に垂直な方向
の軸上への射影ヒストグラムを作成し、その分散を計算
して、分散がある閾値より大きいところを分離点とす
る。
【0099】図13において処理が開始されると、CP
U21は、例えば図19に示すような、文字列方向の軸
上への射影ヒストグラムを作成し(ステップS31)、
ヒストグラム値が閾値thcより小さい点を擬分離点候
補として数え上げる(ステップS32)。
【0100】次に、複数の擬分離点候補をいくつかのグ
ループに分ける(ステップS33)。擬分離点候補をグ
ループ化するには、接触文字の矩形を文字列方向にいく
つかの部分領域に区分し、各部分領域内の擬分離点候補
を1つのグループとみなせばよい。これらの部分領域の
高さは、平均文字サイズの相対値としてあらかじめ決め
られている。
【0101】次に、各グループ内でヒストグラム値が最
小となる擬分離点候補を算出し、それを分離点候補とす
る(ステップS34)。このように、擬分離点候補をグ
ループ化して、グループ内の最小値に対応する点を求め
ることで、分離点候補を絞り込むことができる。
【0102】例えば、文字“し”のように上下に細い部
分が連続する文字の場合、ステップS32では、近接す
る多数の擬分離点候補が生成される。しかし、ステップ
S33、S34でグループ毎に1つの擬分離点候補を取
り出すことにより、ある程度離れた少数の分離点候補を
得ることができる。
【0103】図3(b)は、このようにして求められた
分離点候補の例を示している。上の分離点候補は文字
“予”の途中で線が細くなった位置に対応し、下の分離
点候補は文字“定”と括弧“)”の接触点に対応してい
る。
【0104】次に、1つの分離点候補の周辺領域の黒画
素を、文字列に垂直な方向の軸上へ射影してヒストグラ
ムを作成する(ステップS35)。周辺領域の高さは、
平均文字サイズの相対値としてあらかじめ決めておく。
図3(b)の分離点候補に対しては、例えば図3(c)
に斜線で示すような周辺領域が設定され、それらの射影
ヒストグラムは図3(d)に示すようになる。
【0105】次に、得られたヒストグラムの分散δを算
出し(ステップS36)、それが閾値thdより大きい
かどうかを判定する(ステップS37)。δがthdよ
り大きければ、そのヒストグラムに対応する分離点候補
を分離点に決定し(ステップS38)、δがthd以下
であれば対応する分離点候補を棄却する(ステップS3
9)。
【0106】次に、他の分離点候補が残っているかどう
かを調べ(ステップS40)、残っていればステップS
35以降の処理を繰り返す。そして、すべての分離点候
補について判定を終えると、処理を終了する。
【0107】図3(d)の例では、上のヒストグラムは
分散が小さく、下のヒストグラムは分散が大きいことが
分かる。このため、図3(b)の2つの分離点候補のう
ち、上の分離点候補は分離点とならずに棄却され、下の
分離点候補のみが分離点に指定される。実際、上の分離
点候補は文字“予”の途中の位置にあるため、分離点に
すべきではなく、下の分離点候補は文字“定”と括
弧“)”の接触位置にあるため、分離点とすべき点であ
る。
【0108】このような射影ヒストグラム値の絶対値判
定処理によれば、従来の文字列方向の軸上への射影ヒス
トグラムだけでは除外できなかった、図3(b)の文字
“予”の途中にあるような分離点候補の確からしさを判
定し、それを分離点から除外することができる。したが
って、文字“予”、“し”、“子”のように、比較的細
い部分を有する文字の途中で誤って分割することが防止
され、より精度の高い分離処理が行われる。
【0109】次に、図14は、図8のステップS8にお
ける射影ヒストグラム値の相対値判定処理のフローチャ
ートである。この処理は、さらに分離点を探索する必要
があるときなどに行われ、接触文字の上下両方向から平
均文字サイズを用いて分離範囲を絞り込み、上下2つの
分離範囲の中でヒストグラム値の最小値を求め、2つの
最小値のうち小さい方に対応する位置を分離点とする処
理である。
【0110】分離範囲を絞り込むとき、基本的には、接
触文字の矩形の先頭または最後尾から平均文字サイズだ
け離れたところを中心とし、その周りを分離範囲に設定
する。このとき、分離範囲の高さは平均文字サイズの相
対値としてあらかじめ決めておく。
【0111】図14において処理が開始されると、CP
U21は、まず接触文字の矩形の先頭位置を決定し(ス
テップS41)、次に接触文字の矩形の最後尾位置を決
定する(ステップS42)。先頭位置と最後尾位置の決
定方法については、図15から図18までを参照しなが
ら後述する。
【0112】次に、決定された接触文字の矩形の先頭位
置および最後尾位置から、平均文字サイズだけ離れた点
を中心とする、一定の高さの分離範囲を設定し(ステッ
プS43)、分離範囲内の黒画素を文字列方向の軸上へ
射影して、ヒストグラムを作成する(ステップS4
4)。
【0113】例えば、図4(b)の破線で示した位置を
中心として、その上下に矢印で示すような分離範囲を設
定した場合、2つの分離範囲のヒストグラムは図4
(c)のようになる。
【0114】次に、上下両方向から設定した2つの分離
範囲のヒストグラムから、それぞれの最小値を与える点
を分離点候補として算出し(ステップS45)、その点
が分離範囲の端に位置するかどうかを判定する(ステッ
プS46)。
【0115】そして、分離点候補が分離範囲の端点に対
応する場合は、その分離範囲をその端点の方向に拡大し
て、最小値の探索範囲を広げ(ステップS47)、ステ
ップS45以降の処理を繰り返す。拡大する高さは、平
均文字サイズの相対値としてあらかじめ決めておく。こ
の拡大処理は、分離点候補が分離範囲の端点でなくなる
まで繰り返される。
【0116】例えば、図6(b)に示すようなヒストグ
ラムの場合、そのヒストグラム値は、図6(a)に斜線
で示す分離範囲の上端から下端に向かって単調に減少し
ており、記号*で示す下端において最小となっている。
【0117】そこで、図6(c)に示すように、分離範
囲を下方に拡大し(ステップS47)、図6(d)に示
すようにヒストグラムを更新して、その最小値を探す
(ステップS45)。図6(d)のヒストグラムでは、
最小値が分離範囲の下端から離れた位置に見つかるの
で、それ以上分離範囲を拡大する必要はない。
【0118】ヒストグラムの最小値が分離範囲の端にあ
る場合でも、そのヒストグラムは必ずしも図6(b)の
ように単調減少とは限らず、最小値より大きないくつか
の極大値や極小値を持つ場合もある。
【0119】このような拡大処理を行うことで、文字同
士の接触点が最初に設定した分離範囲に収まらない場合
でも、その位置を発見して分離点候補に含めることがで
きる。したがって、従来の方法では見落していたような
接触点を発見する可能性が高くなる。
【0120】こうして、上下2つの分離範囲の最小値を
与える点がそれらの端点でなくなると、得られた2つの
最小値を比較し(ステップS48)、小さい方に対応す
る点を分離点として決定する(ステップS49)。
【0121】図4(c)の2つのヒストグラムでは、上
のヒストグラムの最小値の方が下のヒストグラムの最小
値より小さいので、上のヒストグラムの最小値を与える
点、すなわち、文字“思”と“想”の接触点を分離点と
決定する。
【0122】次に、新たな分離範囲を上下両方向から設
定可能かどうかを調べ(ステップS50)、可能であれ
ばステップS43以降の処理を繰り返す。例えば、接触
文字の矩形の上下両端から順に分離点を決定していくと
きに、残された領域の高さが平均文字サイズより一定値
以上大きければ、新たに分離範囲を設定することができ
る。しかし、残された領域の高さが平均文字サイズ以下
となった場合には、新たな分離範囲の設定はできなくな
る。そこで、新たな分離範囲が設定できなくなれば、処
理を終了する。
【0123】文字“思”と“想”の接触点に分離点が設
定された図4(d)の矩形では、まだ、平均文字サイズ
の2倍以上の高さの領域が残されている。そこで、再び
上下両方向から、矢印で示すような分離範囲を設定し
(ステップS43)、図4(e)に示すようなヒストグ
ラムを作成する(ステップS44)。
【0124】図4(e)の2つのヒストグラムでは、上
のヒストグラムの最小値の方が下のヒストグラムの最小
値より小さいので、上のヒストグラムの最小値を与える
点、すなわち、文字“想”と“史”の接触点を分離点と
決定する(ステップS49)。
【0125】それでも、なお平均文字サイズ以上の高さ
の領域が残されているので、同様の処理を繰り返し、文
字“史”と括弧“」”の接触点を分離点と決定する(ス
テップS49)。そして、この時点で新たな分離範囲の
設定は不可能となったので、処理を終了する。
【0126】このような射影ヒストグラム値の相対値判
定処理によれば、上下両方向から分離範囲を設定する度
に、どちらの分離範囲の方が接触点を含んでいる可能性
が高いかを相対的に判定することができる。したがっ
て、文字の大きさやピッチが不定であるような接触文字
に対しても、常に両方向から求めた分離点候補を比較す
ることができ、その結果、精度の高い分離点が得られ
る。
【0127】次に、図15および図16を参照しなが
ら、図14のステップS41における接触文字の先頭位
置決定処理について説明する。図15は、先頭位置決定
処理のフローチャートであり、図16は、この処理にお
いて用いられるパラメータを示している。
【0128】接触文字の先頭位置は、注目している矩形
と、その前の矩形と、さらにその前の矩形との間の関係
により決められる。そこで、まずこれらの矩形の各頂点
の座標の表記法を説明する。
【0129】矩形の左上頂点、右上頂点、左下頂点、右
下頂点を、それぞれlp、rp、ld、rdと表すこと
にし、i番目の矩形の左上頂点のx座標、y座標をそれ
ぞれlpx(i)、lpy(i)とし、右上頂点のx座
標、y座標をそれぞれrpx(i)、rpy(i)と
し、左下頂点のx座標、y座標をそれぞれldx
(i)、ldy(i)とし、右下頂点のx座標、y座標
をそれぞれrdx(i)、rdy(i)とする。
【0130】例えば、注目している矩形がi番目の矩形
である場合、その前の(i−1)番目の矩形の左上頂点
のx座標、y座標はそれぞれlpx(i−1)、rpx
(i−1)となり、さらにその前の(i−2)番目の矩
形の左上頂点のx座標、y座標はそれぞれlpx(i−
2)、rpx(i−2)となる。他の頂点の座標につい
ても同様である。
【0131】図15において処理が開始されると、CP
U21は、まず接触文字の矩形を注目するi番目の矩形
に指定し(ステップS51)、次式により、パラメータ
diffy1(i)、diffy2(i)、diffl
eft(i)、diffright(i)の値を計算す
る(ステップS52)。 diffy1(i)=|lpy(i)−ldy(i−2)| (8) diffy2(i)=|ldy(i−1)−lpy(i−2)| (9) diffleft(i)=|lpx(i−1)−lpx(i)| (10) diffright(i)=|rpx(i)−rpx(i−1)| (11) 図16には、(i−2)番目、(i−1)番目、i番目
の各矩形と、上記のパラメータが示されている。図16
において、diffy1(i)は(i−2)番目の矩形
の下端のy座標とi番目の矩形の上端のy座標の差を表
し、diffy2(i)は(i−2)番目の矩形の上端
のy座標と(i−1)番目の矩形の下端のy座標の差を
表している。
【0132】また、diffleft(i)はi番目の
矩形の左端のx座標と(i−1)番目の矩形の左端のx
座標の差を表し、diffright(i)はi番目の
矩形の右端のx座標と(i−1)番目の矩形の右端のx
座標の差を表している。
【0133】次に、ステップS53、S54、S55に
おいて、次の3つの条件のすべてが満たされるかどうか
を判定する。 diffy1(i)<thy1 (12) diffleft(i)<thleft かつ diffright(i)<thright (13) diffy2(i)>thy2 (14) ただし、閾値thy1、thy2、thleft、th
rightは、平均文字サイズの相対値としてあらかじ
め決められているものとする。
【0134】条件(12)は、(i−2)番目の矩形の
下端とi番目の矩形の上端との距離が閾値thy1より
小さいことを表し、条件(14)は、(i−2)番目の
矩形の上端と(i−1)番目の矩形の下端との距離が閾
値thy2より大きいことを表している。
【0135】また、条件(13)は、i番目の矩形の左
端と(i−1)番目の矩形の左端との距離が閾値thl
eftより小さく、かつ、i番目の矩形の右端と(i−
1)番目の矩形の右端との距離が閾値thrightよ
り小さいことを表している。
【0136】ここでは、ステップS53、S54、S5
5において、それぞれ条件(12)、(13)、(1
4)が成り立つかどうかを判定する。もし、これらの条
件がすべて成り立てば、注目している矩形の前の矩形で
ある(i−1)番目の矩形の先頭を接触文字の先頭とみ
なして(ステップS56)、処理を終了する。
【0137】また、ステップS53、S54、S55の
いずれかにおいて、対応する条件が成り立たなければ、
注目しているi番目の矩形の先頭を接触文字の先頭とみ
なして(ステップS57)、処理を終了する。
【0138】これらの条件(12)、(13)、(1
4)は、(i−1)番目の矩形が、分離文字の一部に相
当する高さおよび位置関係を持つかどうかを判断するも
のであり、矩形とその前後の空白部分が1文字に相当す
るかどうかを判断するものではない。
【0139】条件(12)が成り立つ場合とは、(i−
1)番目の矩形自身の高さが低く、かつ、その前後の矩
形までの距離が短い場合に相当し、このような(i−
1)番目の矩形を分離文字の一部の候補とする。
【0140】また、条件(13)が成り立つ場合とは、
(i−1)番目の矩形が左右のいずれにも偏らない場合
に相当する。この条件を課すことで、条件(12)を満
たす(i−1)番目の矩形から、句読点や括弧等の外接
矩形が除外される。
【0141】さらに、条件(14)が成り立つ場合と
は、(i−1)番目の矩形がその前の(i−2)番目の
矩形から離れている場合に相当する。この条件を課すこ
とで、(i−1)番目の矩形と(i−2)番目の矩形が
同じ分離文字の一部である場合が除外される。
【0142】例えば、図16の(i−2)番目、(i−
1)番目、i番目の矩形は、図19の矩形1、2、3に
それぞれ対応させて、先頭位置決定処理を行うことで、
文字“示”の一部である矩形2を接触文字の先頭に指定
することが可能になる。
【0143】矩形2の先頭から平均文字サイズだけ離れ
た位置は、文字“示”と“を”の接触点に近い位置にな
るため、図14のステップS43で、より適切な分離範
囲が設定される。したがって、図19のように分離文字
の一部が接触しているような場合でも、正しい分離点を
見つけることができるようになる。
【0144】尚、上述の条件(12)、(13)、(1
4)は一例に過ぎず、例えば注目している矩形とその前
の矩形との距離が閾値より小さい場合に、前の矩形の先
頭を接触文字の先頭とみなすようにしてもよい。
【0145】次に、図17および図18を参照しなが
ら、図14のステップS42における接触文字の最後尾
位置決定処理について説明する。図17は、最後尾位置
決定処理のフローチャートであり、図18は、この処理
において用いられるパラメータを示している。
【0146】接触文字の最後尾位置は、注目している矩
形と、その次の矩形と、さらにその次の矩形との間の関
係により決められる。これらの矩形の各頂点の座標の表
記法については、上述の先頭位置決定処理と同様であ
る。
【0147】図17において処理が開始されると、CP
U21は、まず接触文字の矩形を注目するi番目の矩形
に指定し(ステップS61)、次式により、パラメータ
diffy1(i)、diffy2(i)、diffl
eft(i)、diffright(i)の値を計算す
る(ステップS62)。 diffy1(i)=|ldy(i)−lpy(i+2)| (15) diffy2(i)=|lpy(i+1)−ldy(i+2)| (16) diffleft(i)=|lpx(i+1)−lpx(i)| (17) diffright(i)=|rpx(i)−rpx(i+1)| (18) 図18には、i番目、(i+1)番目、(i+2)番目
の各矩形と、上記のパラメータが示されている。図18
において、diffy1(i)はi番目の矩形の下端の
y座標と(i+2)番目の矩形の上端のy座標の差を表
し、diffy2(i)は(i+1)番目の矩形の上端
のy座標と(i+2)番目の矩形の下端のy座標の差を
表している。
【0148】また、diffleft(i)はi番目の
矩形の左端のx座標と(i+1)番目の矩形の左端のx
座標の差を表し、diffright(i)はi番目の
矩形の右端のx座標と(i+1)番目の矩形の右端のx
座標の差を表している。
【0149】次に、ステップS63、S64、S65に
おいて、上述の3つの条件(12)、(13)、(1
4)のすべてが満たされるかどうかを判定する。ここで
は、条件(12)は、i番目の矩形の下端と(i+2)
番目の矩形の上端との距離が閾値thy1より小さいこ
とを表し、条件(14)は、(i+1)番目の矩形の上
端と(i+2)番目の矩形の下端との距離が閾値thy
2より大きいことを表している。
【0150】また、条件(13)は、i番目の矩形の左
端と(i+1)番目の矩形の左端との距離が閾値thl
eftより小さく、かつ、i番目の矩形の右端と(i+
1)番目の矩形の右端との距離が閾値thrightよ
り小さいことを表している。
【0151】これらの条件の判定にあたっては、図15
の先頭位置決定処理と同様に、ステップS63、S6
4、S65において、それぞれ条件(12)、(1
3)、(14)が成り立つかどうかを判定する。もし、
これらの条件がすべて成り立てば、注目している矩形の
次の矩形である(i+1)番目の矩形の最後尾を接触文
字の最後尾とみなして(ステップS66)、処理を終了
する。
【0152】また、ステップS63、S64、S65の
いずれかにおいて、対応する条件が成り立たなければ、
注目しているi番目の矩形の最後尾を接触文字の最後尾
とみなして(ステップS67)、処理を終了する。
【0153】これらの条件(12)、(13)、(1
4)の意味は、先頭位置決定処理の場合と同様である。
このような最後尾位置決定処理により、分離文字の一部
が接触しているような接触文字に対しても、正しい最後
尾位置を見つけることができるようになる。
【0154】しかし、条件(12)、(13)、(1
4)は一例に過ぎず、例えば注目している矩形とその次
の矩形との距離が閾値より小さい場合に、次の矩形の最
後尾を接触文字の最後尾とみなすようにしてもよい。
【0155】以上の実施形態において、認識対象の文書
を縦書きの日本語文書として説明したが、本発明の文字
分離処理は、横書きの文書や中国語、英語等の外国語文
書に対しても同様に適用できる。また、本発明の分離方
法を用いれば、文字同士の接触した接触文字のみなら
ず、記号、図形などの任意のパターン同士が接触した接
触パターンを分離することもできる。
【0156】このような接触パターンは、イメージスキ
ャナ等で読み取った文書や図面の画像、カメラ等で撮影
した看板広告や自動車のナンバプレートの画像など、様
々な画像中に現れる可能性があり、本発明は、これらの
画像の認識装置において認識精度の向上に寄与する。
【0157】
【発明の効果】本発明によれば、文字等のパターンが存
在する領域を画像から切り出し、切り出された領域につ
いての認識処理を行う情報処理装置において、互いに接
触したパターン同士を精度良く分離することが可能にな
る。
【0158】特に、新聞や雑誌の見出しと本文のよう
に、文字の大きさが異なる文書において、文字の大きさ
の揃ったブロック毎に平均文字サイズを求めることで、
接触文字の判定を正しく行うことができ、また接触文字
の分離も正しく行うことができる。
【0159】また、文字ピッチが不定の文書における接
触文字や、接触文字数が3文字以上の長い接触文字に対
しても、その分離を精度良く行うことができ、括弧や句
読点等の記号が接触した接触文字や、分離文字の一部が
接触した接触文字に対しても、それを正しく分離するこ
とができる。
【図面の簡単な説明】
【図1】本発明のパターン分離装置の原理図である。
【図2】上層部と下層部を示す図である。
【図3】射影ヒストグラム値の絶対値判定方法を示す図
である。
【図4】射影ヒストグラム値の相対値判定方法を示す図
である。
【図5】複数の探索方法を示す図である。
【図6】分離範囲の拡大方法を示す図である。
【図7】文字分離装置の構成図である。
【図8】文字分離処理のフローチャートである。
【図9】倍文字を示す図である。
【図10】文字列のブロック化処理のフローチャートで
ある。
【図11】ブロック化処理のパラメータを示す図であ
る。
【図12】上層部/下層部の分析処理のフローチャート
である。
【図13】射影ヒストグラム値の絶対値判定処理のフロ
ーチャートである。
【図14】射影ヒストグラム値の相対値判定処理のフロ
ーチャートである。
【図15】接触文字の先頭位置決定処理のフローチャー
トである。
【図16】先頭位置決定処理のパラメータを示す図であ
る。
【図17】接触文字の最後尾位置決定処理のフローチャ
ートである。
【図18】最後尾位置決定処理のパラメータを示す図で
ある。
【図19】従来の分離点の求め方を示す図である。
【符号の説明】
1、2、3、31、32 矩形 11 平均サイズ算出手段 12 接触判定手段 13 分離手段 14 記憶手段 21 CPU 22 入力部 23 出力部 24 メモリ 25 外部記憶装置 26 媒体駆動装置 27 ネットワーク接続装置 28 バス 29 可搬記録媒体 30 情報提供者の装置 41、42、43、44、45、46、47 文字列

Claims (29)

    【特許請求の範囲】
  1. 【請求項1】 画像から抽出されたパターン列からパタ
    ーン領域を切り出し、該パターン領域についての認識処
    理を行う情報処理装置のためのパターン分離装置であっ
    て、 黒画素連結領域を含むパターン領域の複数の列を表す複
    数のパターン列領域を、各パターン列領域の大きさにし
    たがって1つ以上のブロックに分け、各ブロック内に含
    まれるパターン領域の平均サイズを算出する平均サイズ
    算出手段と、 前記パターン領域および平均サイズを記憶する記憶手段
    と、 前記各ブロック内の各パターン領域の大きさを前記平均
    サイズと比較して、パターン同士が接触してできる接触
    パターンに対応する接触領域を検出する接触判定手段と
    を備えることを特徴とするパターン分離装置。
  2. 【請求項2】 前記平均サイズ算出手段は、第1のパタ
    ーン列領域と、該第1のパターン列領域に隣接する第2
    のパターン列領域との間の関係から、該第1のパターン
    列領域が属するブロックを決定することを特徴とする請
    求項1記載のパターン分離装置。
  3. 【請求項3】 前記平均サイズを用いて前記接触領域の
    分離点を求め、該分離点で該接触領域を分割する分離手
    段をさらに備え、前記記憶手段は、前記分離点の位置を
    記憶することを特徴とする請求項1記載のパターン分離
    装置。
  4. 【請求項4】 前記分離手段は、前記接触領域の末端部
    分を2つの領域に区分し、該2つの領域の黒画素数を比
    較することで、該接触領域から該末端部分を分離するか
    否かを判断することを特徴とする請求項3記載のパター
    ン分離装置。
  5. 【請求項5】 前記記憶手段は、前記平均サイズをもと
    にして決められた前記末端部分の大きさを記憶すること
    を特徴とする請求項4記載のパターン分離装置。
  6. 【請求項6】 前記分離手段は、前記接触領域が上下方
    向に長いとき、該接触領域の上層部または下層部を前記
    末端部分とし、該末端部分の左右の黒画素数を比較する
    ことを特徴とする請求項4記載のパターン分離装置。
  7. 【請求項7】 前記分離手段は、前記接触領域内の黒画
    素をパターン領域の列方向の軸上へ射影して第1のヒス
    トグラムを作成し、該第1のヒストグラムから得られる
    分離点候補の周辺領域において、黒画素を前記パターン
    領域の列に垂直な方向の軸上へ射影して第2のヒストグ
    ラムを作成し、該第2のヒストグラムの分散に基づい
    て、該分離点候補を前記分離点とするか否かを決定する
    ことを特徴とする請求項3記載のパターン分離装置。
  8. 【請求項8】 前記記憶手段は、前記平均サイズをもと
    にして決められた前記周辺領域の大きさを記憶すること
    を特徴とする請求項7記載のパターン分離装置。
  9. 【請求項9】 前記分離手段は、前記接触領域の2つの
    方向から前記平均サイズを用いて2つの分離範囲を設定
    し、各分離範囲内の黒画素をパターン領域の列方向の軸
    上へ射影して第3のヒストグラムを作成し、該各分離範
    囲におけるヒストグラムの最小値のうち小さい方に対応
    する位置を分離点とすることを特徴とする請求項3記載
    のパターン分離装置。
  10. 【請求項10】 前記分離手段は、前記接触領域が上下
    方向に長いとき、該接触領域の上下両方向から前記2つ
    の分離範囲を設定することを特徴とする請求項9記載の
    パターン分離装置。
  11. 【請求項11】 前記記憶手段は、前記平均サイズをも
    とにして決められた前記分離範囲の大きさを記憶し、前
    記分離手段は、前記接触領域の2つの端から前記平均サ
    イズだけ離れた点の周辺に、前記分離範囲の大きさに相
    当する探索領域を設定し、該探索領域を前記分離範囲と
    することを特徴とする請求項9記載のパターン分離装
    置。
  12. 【請求項12】 前記分離手段は、前記接触領域に隣接
    する第1のパターン領域と該接触領域との間の関係か
    ら、該第1のパターン領域を前記接触パターンの一部と
    みなすか否かを判定し、該第1のパターン領域が該接触
    パターンの一部とみなされる場合、該第1のパターン領
    域の端から前記平均サイズだけ離れた点の周辺に前記分
    離範囲を設定することを特徴とする請求項9記載のパタ
    ーン分離装置。
  13. 【請求項13】 前記分離手段は、前記第1のパターン
    領域に隣接する第2のパターン領域と、該第1のパター
    ン領域または前記接触領域との間の関係から、該第1の
    パターン領域を前記接触パターンの一部とみなすか否か
    を判定し、該第1のパターン領域が該接触パターンの一
    部とみなされる場合、該第1のパターン領域の端から前
    記平均サイズだけ離れた点の周辺に前記分離範囲を設定
    することを特徴とする請求項9記載のパターン分離装
    置。
  14. 【請求項14】 前記分離手段は、前記最小値が前記分
    離範囲の端に対応するとき、該分離範囲を拡大して前記
    第3のヒストグラムを延長し、拡大された分離範囲にお
    けるヒストグラムの最小値を求めることを特徴とする請
    求項9記載のパターン分離装置。
  15. 【請求項15】 前記記憶手段は、前記平均サイズをも
    とにして決められた前記分離範囲の拡大部分の大きさを
    記憶することを特徴とする請求項14記載のパターン分
    離装置。
  16. 【請求項16】 画像から抽出されたパターン列からパ
    ターン領域を切り出し、該パターン領域についての認識
    処理を行う情報処理装置のためのパターン分離装置であ
    って、 パターン領域の平均サイズを記憶する記憶手段と、 各パターン領域の大きさを前記平均サイズと比較して、
    接触パターンに対応する接触領域を検出する接触判定手
    段と、 前記接触領域の末端部分を2つの領域に区分し、該2つ
    の領域の黒画素数を比較することで、該接触領域から該
    末端部分を分離するか否かを判断する分離手段とを備え
    ることを特徴とするパターン分離装置。
  17. 【請求項17】 画像から抽出されたパターン列からパ
    ターン領域を切り出し、該パターン領域についての認識
    処理を行う情報処理装置のためのパターン分離装置であ
    って、 パターン領域の平均サイズを記憶する記憶手段と、 各パターン領域の大きさを前記平均サイズと比較して、
    接触パターンに対応する接触領域を検出する接触判定手
    段と、 前記接触領域内に設定された分離点候補の周辺領域にお
    いて、黒画素を前記パターン列に垂直な方向の軸上へ射
    影してヒストグラムを作成し、該ヒストグラムの分散に
    基づいて、該分離点候補の位置で該接触領域を分離する
    か否かを決定する分離手段とを備えることを特徴とする
    パターン分離装置。
  18. 【請求項18】 画像から抽出されたパターン列からパ
    ターン領域を切り出し、該パターン領域についての認識
    処理を行う情報処理装置のためのパターン分離装置であ
    って、 パターン領域の平均サイズを記憶する記憶手段と、 各パターン領域の大きさを前記平均サイズと比較して、
    接触パターンに対応する接触領域を検出する接触判定手
    段と、 前記接触領域の2つの方向から前記平均サイズを用いて
    2つの分離範囲を設定し、各分離範囲内の黒画素を前記
    パターン列の方向の軸上へ射影してヒストグラムを作成
    し、該各分離範囲におけるヒストグラムの最小値のうち
    小さい方に対応する位置で、該接触領域を分離する分離
    手段とを備えることを特徴とするパターン分離装置。
  19. 【請求項19】 画像から抽出されたパターン列からパ
    ターン領域を切り出し、該パターン領域についての認識
    処理を行う情報処理装置のためのパターン分離装置であ
    って、 パターン領域の平均サイズを記憶する記憶手段と、 各パターン領域の大きさを前記平均サイズと比較して、
    接触パターンに対応する接触領域を検出する接触判定手
    段と、 前記接触領域内に設定された分離範囲内の黒画素を前記
    パターン列の方向の軸上へ射影してヒストグラムを作成
    し、該分離範囲におけるヒストグラムの最小値が該分離
    範囲の端に対応するとき、該分離範囲を拡大して該ヒス
    トグラムを延長し、拡大された分離範囲におけるヒスト
    グラムの最小値に対応する位置を、該接触領域の分離点
    候補とする分離手段とを備えることを特徴とするパター
    ン分離装置。
  20. 【請求項20】 画像から抽出されたパターン列からパ
    ターン領域を切り出し、該パターン領域についての認識
    処理を行うコンピュータのためのプログラムを記録した
    記録媒体であって、 黒画素連結領域を含むパターン領域の複数の列を表す複
    数のパターン列領域を、各パターン列領域の大きさにし
    たがって1つ以上のブロックに分け、各ブロック内に含
    まれるパターン領域の平均サイズを算出する機能と、 前記各ブロック内の各パターン領域の大きさを前記平均
    サイズと比較して、接触パターンに対応する接触領域を
    検出する機能とを前記コンピュータに実現させるための
    プログラムを記録したコンピュータ読み取り可能な記録
    媒体。
  21. 【請求項21】 画像から抽出されたパターン列からパ
    ターン領域を切り出し、該パターン領域についての認識
    処理を行うコンピュータのためのプログラムを記録した
    記録媒体であって、 各パターン領域の大きさをパターン領域の平均サイズと
    比較して、接触パターンに対応する接触領域を検出する
    機能と、 前記接触領域の末端部分を2つの領域に区分し、該2つ
    の領域の黒画素数を比較することで、該接触領域から該
    末端部分を分離するか否かを判断する機能とを前記コン
    ピュータに実現させるためのプログラムを記録したコン
    ピュータ読み取り可能な記録媒体。
  22. 【請求項22】 画像から抽出されたパターン列からパ
    ターン領域を切り出し、該パターン領域についての認識
    処理を行うコンピュータのためのプログラムを記録した
    記録媒体であって、 各パターン領域の大きさをパターン領域の平均サイズと
    比較して、接触パターンに対応する接触領域を検出する
    機能と、 前記接触領域内に設定された分離点候補の周辺領域にお
    いて、黒画素を前記パターン列に垂直な方向の軸上へ射
    影してヒストグラムを作成し、該ヒストグラムの分散に
    基づいて、該分離点候補の位置で該接触領域を分離する
    か否かを決定する機能とを前記コンピュータに実現させ
    るためのプログラムを記録したコンピュータ読み取り可
    能な記録媒体。
  23. 【請求項23】 画像から抽出されたパターン列からパ
    ターン領域を切り出し、該パターン領域についての認識
    処理を行うコンピュータのためのプログラムを記録した
    記録媒体であって、 各パターン領域の大きさをパターン領域の平均サイズと
    比較して、接触パターンに対応する接触領域を検出する
    機能と、 前記接触領域の2つの方向から前記平均サイズを用いて
    2つの分離範囲を設定し、各分離範囲内の黒画素を前記
    パターン列の方向の軸上へ射影してヒストグラムを作成
    し、該各分離範囲におけるヒストグラムの最小値のうち
    小さい方に対応する位置で、該接触領域を分離する機能
    とを前記コンピュータに実現させるためのプログラムを
    記録したコンピュータ読み取り可能な記録媒体。
  24. 【請求項24】 画像から抽出されたパターン列からパ
    ターン領域を切り出し、該パターン領域についての認識
    処理を行うコンピュータのためのプログラムを記録した
    記録媒体であって、 各パターン領域の大きさをパターン領域の平均サイズと
    比較して、接触パターンに対応する接触領域を検出する
    機能と、 前記接触領域内に設定された分離範囲内の黒画素を前記
    パターン列の方向の軸上へ射影してヒストグラムを作成
    し、該分離範囲におけるヒストグラムの最小値が該分離
    範囲の端に対応するとき、該分離範囲を拡大して該ヒス
    トグラムを延長し、拡大された分離範囲におけるヒスト
    グラムの最小値に対応する位置を、該接触領域の分離点
    候補とする機能とを前記コンピュータに実現させるため
    のプログラムを記録したコンピュータ読み取り可能な記
    録媒体。
  25. 【請求項25】 画像から抽出されたパターン列からパ
    ターン領域を切り出すためのパターン分離方法であっ
    て、 黒画素連結領域を含むパターン領域の複数の列を表す複
    数のパターン列領域を、各パターン列領域の大きさにし
    たがって1つ以上のブロックに分け、 各ブロック内に含まれるパターン領域の平均サイズを算
    出し、 前記各ブロック内の各パターン領域の大きさを前記平均
    サイズと比較して、接触パターンに対応する接触領域を
    検出し、 前記平均サイズを用いて前記接触領域を分割することを
    特徴とするパターン分離方法。
  26. 【請求項26】 画像から抽出されたパターン列からパ
    ターン領域を切り出すためのパターン分離方法であっ
    て、 各パターン領域の大きさをパターン領域の平均サイズと
    比較して、接触パターンに対応する接触領域を検出し、 前記接触領域の末端部分を2つの領域に区分し、 前記2つの領域の黒画素数を比較することで、前記接触
    領域から前記末端部分を分離するか否かを判断すること
    を特徴とするパターン分離方法。
  27. 【請求項27】 画像から抽出されたパターン列からパ
    ターン領域を切り出すためのパターン分離方法であっ
    て、 各パターン領域の大きさをパターン領域の平均サイズと
    比較して、接触パターンに対応する接触領域を検出し、 前記接触領域内に設定された分離点候補の周辺領域にお
    いて、黒画素を前記パターン列に垂直な方向の軸上へ射
    影してヒストグラムを作成し、 前記ヒストグラムの分散に基づいて、前記分離点候補の
    位置で前記接触領域を分離するか否かを決定することを
    特徴とするパターン分離方法。
  28. 【請求項28】 画像から抽出されたパターン列からパ
    ターン領域を切り出すためのパターン分離方法であっ
    て、 各パターン領域の大きさをパターン領域の平均サイズと
    比較して、接触パターンに対応する接触領域を検出し、 前記接触領域の2つの方向から前記平均サイズを用いて
    2つの分離範囲を設定し、 各分離範囲内の黒画素を前記パターン列の方向の軸上へ
    射影してヒストグラムを作成し、 前記各分離範囲におけるヒストグラムの最小値のうち小
    さい方に対応する位置で、前記接触領域を分離すること
    を特徴とするパターン分離方法。
  29. 【請求項29】 画像から抽出されたパターン列からパ
    ターン領域を切り出すためのパターン分離方法であっ
    て、 各パターン領域の大きさをパターン領域の平均サイズと
    比較して、接触パターンに対応する接触領域を検出し、 前記接触領域内に設定された分離範囲内の黒画素を前記
    パターン列の方向の軸上へ射影してヒストグラムを作成
    し、 前記分離範囲におけるヒストグラムの最小値が該分離範
    囲の端に対応するとき、該分離範囲を拡大して該ヒスト
    グラムを延長し、 拡大された分離範囲におけるヒストグラムの最小値に対
    応する位置を、前記接触領域の分離点候補とすることを
    特徴とするパターン分離方法。
JP14666697A 1996-06-06 1997-06-04 接触パターンを分離するパターン分離装置および方法 Expired - Fee Related JP3409993B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP14666697A JP3409993B2 (ja) 1996-06-06 1997-06-04 接触パターンを分離するパターン分離装置および方法

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP14454296 1996-06-06
JP8-144542 1996-06-06
JP14666697A JP3409993B2 (ja) 1996-06-06 1997-06-04 接触パターンを分離するパターン分離装置および方法

Publications (2)

Publication Number Publication Date
JPH1055408A true JPH1055408A (ja) 1998-02-24
JP3409993B2 JP3409993B2 (ja) 2003-05-26

Family

ID=26475928

Family Applications (1)

Application Number Title Priority Date Filing Date
JP14666697A Expired - Fee Related JP3409993B2 (ja) 1996-06-06 1997-06-04 接触パターンを分離するパターン分離装置および方法

Country Status (1)

Country Link
JP (1) JP3409993B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014127161A (ja) * 2012-12-27 2014-07-07 Nidec Sankyo Corp 文字切り出し装置、文字認識装置、文字切り出し方法、およびプログラム
JP2021005315A (ja) * 2019-06-27 2021-01-14 キヤノン株式会社 情報処理装置、プログラム及び制御方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014127161A (ja) * 2012-12-27 2014-07-07 Nidec Sankyo Corp 文字切り出し装置、文字認識装置、文字切り出し方法、およびプログラム
JP2021005315A (ja) * 2019-06-27 2021-01-14 キヤノン株式会社 情報処理装置、プログラム及び制御方法

Also Published As

Publication number Publication date
JP3409993B2 (ja) 2003-05-26

Similar Documents

Publication Publication Date Title
JPS61267177A (ja) 文書画像追加情報の蓄積方法
JP2933801B2 (ja) 文字の切り出し方法及びその装置
US20060018544A1 (en) Method and apparatus for detecting an orientation of characters in a document image
US20110274354A1 (en) Segmentation of a word bitmap into individual characters or glyphs during an ocr process
JPH0713995A (ja) 自動テキスト特徴決定装置
JP5600723B2 (ja) 様々な文字幅を有するテキスト行の文字を分割するための方法及びシステム
JP5906788B2 (ja) 文字切り出し方法、およびこの方法を用いた文字認識装置およびプログラム
JP2000235619A (ja) 表画像処理装置及びそのプログラム記憶媒体
JP3409993B2 (ja) 接触パターンを分離するパターン分離装置および方法
JP5794154B2 (ja) 画像処理プログラム、画像処理方法、及び画像処理装置
JP3947173B2 (ja) 表画像処理装置、プログラム記録媒体、表画像処理方法
JP3009078B2 (ja) 文字認識装置
JPH1153539A (ja) 円形パターン判定方法および記録媒体
JP2006277149A (ja) 文字画像切出装置、文字画像切出方法およびプログラム
JP3100825B2 (ja) 線認識方法
JP4263089B2 (ja) 情報処理装置、情報処理方法、プログラム及び記録媒体
JP3052438B2 (ja) 表認識装置
JP2000285237A (ja) 画像処理装置、画像処理方法及び画像処理プログラムを記録した記録媒体
JPH0830725A (ja) 画像処理装置及び方法
JP2003317107A (ja) 罫線抽出方法及び装置
JPH1153467A (ja) 文書画像領域分割装置並びにこれを用いた文書画像の領域分割方法及び文書画像の領域属性の指定方法
JPH04260980A (ja) 図形認識装置
JP3024234B2 (ja) 文書画像の罫線抽出装置
JPH09269970A (ja) 文字認識方法とその装置
JP3071479B2 (ja) 行間スペース検出方法

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20030304

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080320

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090320

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100320

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100320

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110320

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110320

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120320

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130320

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130320

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140320

Year of fee payment: 11

LAPS Cancellation because of no payment of annual fees