JP2565150B2 - 文字切り出し方法 - Google Patents

文字切り出し方法

Info

Publication number
JP2565150B2
JP2565150B2 JP7109774A JP10977495A JP2565150B2 JP 2565150 B2 JP2565150 B2 JP 2565150B2 JP 7109774 A JP7109774 A JP 7109774A JP 10977495 A JP10977495 A JP 10977495A JP 2565150 B2 JP2565150 B2 JP 2565150B2
Authority
JP
Japan
Prior art keywords
character
width
extracted
standard
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP7109774A
Other languages
English (en)
Other versions
JPH07319998A (ja
Inventor
三喜男 青木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP7109774A priority Critical patent/JP2565150B2/ja
Publication of JPH07319998A publication Critical patent/JPH07319998A/ja
Application granted granted Critical
Publication of JP2565150B2 publication Critical patent/JP2565150B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、紙面上に書かれた文宇
を画像として入力することにより、文字画像から文字領
域を捜し出し、コード番号に変換する文字認識装置の文
字切り出し方法に関する。
【0002】
【従来の技術】近年、文字認識装置の急激なる進歩によ
り、さまざまな文書画像から文字領域を自動的に抽出
し、さらに一つ一つの文字を切り出し、認識し、自動的
に文字ファイルが作成できるようになってきており、文
字の切り出し方法はさまざまな方法が考え出されてきて
いる。
【0003】例えば一般に多く用いられている方法に抽
出文字行の縦方向の周辺分布を計数する方法がある。
【0004】例えば、図4(a)に示す様な抽出文字行
の縦方向の周辺分布を計数すると図4(b)に示すよう
な分布を得る。(図4(b)は、文字画像の存在か否か
のみを示す)該分布の値により、文字の存在位置を知る
ことが可能となり、一文字一文字の文字の切り出しを行
っていた。また、抽出文字行が図4(c)に示す様な周
辺分布の重なった文字においては、複数文字と判断した
場合に文字ピッチにより文字の切れ目を推定して、強制
的に文字の切り出しを行っていた。
【0005】
【発明が解決しようとする課題】しかしながら、この様
な方法で文字の切り出しを行う場合、対象文字画像が、
図4(a)に示す様な定ピッチの文字画像においては正
確に文字の切り出しが可能であるが、図4(C)に示し
た様な文字画像、図5(a)に示した様な文字画像、図
l1(a)に示した様な文字画像においては、正確な文
字の切り出しは不可能である。図4(C)の文字画像、
図5(a)の文字画像、図l1(a)の文字画像、どれ
も文字ピッチ不定のプロポーシヨナル文字である。従っ
て、従来の方法の様に単に縦方向の周辺分布より文字位
置及び文字ピッチを推定することができない。
【0006】図4(C)により従来の方法にて文字の切
り出しを行おうとした場合について述べる。図4(C)
は、図4(a)と同ーフォントの文字画像である。図4
(a)が文字ピッチー定なのに対し、図4(c)は文字
ピッチ不定のプロポーシヨナル文字である。既文字画像
の縦方向の周辺分布図4(d)に着目すると、殆どの部
分で図4(a)の周辺分布図4(b)とほぼ同じである
が、YOの周辺分布に相当する部分が異なる。図4
(d)は、Yの周辺分布と0の周辺分布が重なってしま
っている。従って該周辺分布からは、Yと0を一つの文
字として判断してしまうか、あるいは実際と異った場所
で切り離してしまう。今、仮に二つの文字と判断して強
制的に二つの文字に分けようとした場合、文字ピッチに
着目すると、図12に示す1201で文字画像を分離
し、周辺分布の形状に着目すると、1202で文字画像
を分離してしまう。1201、1202どちらの位置で
文字画像を分離しても、Yか0の文字の途中で切れ、別
の文字と一緒に抽出されてしまい、正確な文字の抽出は
不可能である。
【0007】次に図5(a)に示した文字画像より、従
来の方法により文字の切り出しを行う場合について述べ
る。図5(a)はmillionという7つの文字によ
り構成される単語である。該単語の縦方向の周辺分布を
計数すると図5(b)に示す様に、m,i,l,l,i
の5つの文字の周辺分布501、502、503、50
4、505は連なって一つの周辺分の固まりとなってい
る。従って、該周辺分布からは簡単に文字の切れ目を推
定することは不可能である。文字ピッチにより文字の切
り離しを行おうとすると、i,l等の文字は標準文字幅
の半分の大きさであるので、二つの文字で一つの文字と
判断して一緒に切り出される可能性が大きい。また、周
辺分布の形状で判断して切り離すと、i,l等の文字は
うまく切り離せるかもしれないが、文字mを分解する可
能性が大であり、文字の切り出しの信頼性が極めて小さ
い。
【0008】また、図11(a)に示した文字画像の場
合も、図5の場合と同様に周辺分布の形状のみからは文
字の正確な切り出しは不可能である。
【0009】そこで本発明は、以上のような課題を解決
するもので、その目的とするところは、紙面等に書かれ
た欧米文字画像において、隣どうしの文字が接触した文
字画像、周辺分布が重なった文字画像、文字ピッチが一
定でない文字画像から一つ一つの文字を切り出す方法を
提供することにある。
【0010】
【課題を解決するための手段】本発明は、光学的画像入
力手段により紙面等に書かれた欧米文字画像を読み取
り、入力された画像データ中の文字を認識する文字認識
装置の文字切り出し方法において、行方向の周辺分布よ
り無視する線幅の値を決定し、前記行方向と垂直な方向
の周辺分布と前記無視する線幅の値とにより標準文字幅
及び文字切り出し候補位置を推定し、文字の切り出し
は、連結成分の輪郭を抽出するとともに、文字幅を抽出
し、抽出した文字幅と前記標準文字幅とを比較して、前
記文字幅が許容できる大きさの場合は一文字と判断し、
前記輪郭に囲まれた領域の内側のみを抽出することによ
り文字切り出しを行ない、前記抽出した文字幅と前記標
準文字幅とを比較して、前記文字幅が許容できない大き
さの場合は、前記文字切り出し候補位置が存在するかど
うかを確認し、文字切り出し候補位置が存在する場合
は、文字切り出し候補位置の範囲内にて再度輪郭の抽出
を行ない、再度抽出した輪郭に囲まれた領域の内側のみ
を抽出することにより文字切り出しを行ない、前記抽出
した文字幅と前記標準文字幅とを比較して、前記文字幅
が許容できない大きさの場合であって、前記文字切り出
し候補位置が存在しない場合は、行方向と垂直な方向の
前記周辺分布の極小値の位置と前記標準文字幅とにより
文字切り出し範囲を決め、その範囲で再度輪郭の抽出を
行ない、再度抽出した輪郭に囲まれた領域の内側のみを
抽出することにより文字切り出しを行なうことを特徴と
するものである。
【0011】
【0012】
【0013】
【0014】
【0015】
【0016】
【0017】
【0018】
【0019】
【0020】
【0021】
【実施例】以下本発明について実施例に基づいて詳細に
説明する。
【0022】本発明の文字切り出し手段が構成要素とな
る文字認識装置は、図1のプロック図に示す様に、CP
U101、画像入力装置102、認識文字表示装置10
3、ROM104、RAM105により横成されてい
る。
【0023】以下、画像入力装置l02によりRAMl
05に読み込まれた文字画像中よリーつ一つの文字を切
り出す本発明の文字切り出し方法を図2に示すフローチ
ャー卜に基づいて詳細に説明する。
【0024】画像入力装置102によりRAM105に
読み込まれた文字画像を図3(a)とする。本発明にお
いては、まず最初に行方向の周辺分布を計数する。文字
画像図3(a)の行方向の周辺分布を計数すると、図3
(b)の301の様な形状の周辺分布を得る。欧米文字
は、図3(a)のdに相当する文字高の大きな文字、e
に相当する文字高の小さな文字、yに相当する文字高は
大きいが文字位置が低い文字の3種類の文字から構成さ
れている。従って、該3種類の文字から構成されている
文字画像の行方向の周辺分布を計数すると、通常図3
(b)に示す301の様な周辺分布となる。該周辺分布
301は、311,312,313の3つの領域が合わ
さってできており、文字画像によっては、312の領域
あるいは313の領域が存在しない場合がある。しかし
ながら、311の領域は常に存在をし、該領域の幅30
4は、文字高の小さな文字の高さ(以下、標準文字高と
呼ぶ)に相当する。従って、行方向の周辺分布の形状に
着目することにより標準文字高304を知ることが可能
になる。例えば、普通の印刷欧米活字では、標準文字高
と文字線の太さとの間に、通常 標準文字高:文字線の太さ≧16:1 の関係が成り立つ。従って、普通の印刷欧米活字による
文字では、文字画像の垂直方向の周辺分布に着目した場
合、周辺分布の値が文字高の1/16より低い値の部分
は、文字のひげ部分であり、あるいは、文字が接触して
いる部分であると判断できる。この部分を無視すること
により、後述するように、文字のひげ部分や、文字が接
触している部分を除外できる。このように、普通の欧米
活字による文字では、判断の基準となる標準文字高の1
/16を最低線幅とし、無視する値として求めておく。
この無視する値は、フォントに応じて決まるもので、必
ずしも、1/16に限られるものではない。
【0025】次の段階として、文字行の垂直方向の周辺
分布により標準文字間隔、単語間隔及び標準文字幅を求
める。まず最初に、文字行と垂直な方向に投影した場
合、文字画像が存在するか否かのデータを求める。文字
画像を図4(a)とした場合、文字画像が存在するか否
かのデータすなわち文字画像と垂直の方向に投影したデ
ータは図4(b)である。領域401は文字画像が存在
する部分、領域402は文字画像が存在しない部分、す
なわち文字間隔に相当する部分である。該文字が存在し
ない部分402の統計をとると図6(a)の様になる。
同様に、文字画像図4(c)の投影したデータ図4
(d)の文字画像が存在しない部分402の統計をとる
と図6(b)の様になる。図6(a)、図6(b)の実
線で示されたデータは、図4(b)、図4(d)のデー
タをそれぞれ示すが、一般に文字間隔のヒストグラムは
図6(a)、図6(b)に示した点線で示される傾向に
なる。該2つのヒストグラムは、それぞれ2つの固まり
に分けることが可能である。該固まりは一つは文字間隔
の固まり、もう一つは単語間隔の固まりと判断すること
ができる。従って、文字間隔の統計により標準文字間隔
及び単語間隔を推定することが可能となる。一般に文字
間隔のヒストグラムは図6の様なヒストグラムになるが
時として図8の様なヒス卜グラムを得ることがある。該
ヒス卜グラムにはデータの固まりがいくつもある。この
様に固まりが多く存在する場合には、次の方法にて固ま
りを分類する。印刷欧米文字は通常規則正しく並んで印
刷されている。
【0026】したがって、文字間隔はほぼ等しいはずで
あるが時として文字の形により文字間隔が異なる場合が
生じる。しかしながらその問隔は、標準文字高に比例し
たある値以上にちらばることは無い。したがって、本発
明では、標準文字高の1/16を固まりと固まりの距離
のしきい値805とした。該しきい値805と、固まり
811、812、813、814、815の間隔80
1、802、803、804とを比較することにより、
固まり811と8l2は同一の固まり、固まり813と
814と8l5は同一の固まりと判断でき、標準文字問
隔及び単語間隔の推定が可能となる。
【0027】次に文字画像の標準文字幅を推定する。標
準文字幅を推定できれば、文字の切り出し時において連
結文字かの判断及び、切り出し候補位置を推定する手掛
りとなる。標準文字幅の推定は、標準文字間隔及び単語
間隔の推定と同様に文字領域の統計をとる。仮に文字画
像が図4(a)及び図4(C)の場合、文字幅の統計は
図7(a)及び図7(b)の実線の様になり、一般的に
点線で示した傾向のデー夕を得る。図7(a)に示した
データは固まりが一つであるため該固まりの最大値を標
準文字幅とすることができる。図7(b)に示したデー
タにおいては、固まり702と固まり703の2つの固
まりが存在する。通常印刷欧米文字は標準文字幅は標準
文字高に非常に近い値であるので、標準文字高701の
付近の固まり702の最大値を標準文字幅とすることが
可能となる。また文字間隔の推定時と同様に時としてヒ
ス卜グラムが多くの固まりからなる場合図9において
は、固まりと固まりの距離901、902、903とし
きい値904とを比較することにより固まり9ll、固
まり912及び固まり913は同一の固まりと判断する
ことが可能である。さらに、固まりと固まりの間のしき
い値でもって多くの固まりを分類しても、図10の様な
3つの固まりになることがある。統計の結果が図10の
様になるのは、文字画像中にiやl等の文字が含まれて
いるからである。そこで、本発明では、iやl等の固ま
り1001の最大値を標準文字幅と判断しない様に、標
準文字幅の75%の位置1004よりも大きい領域にお
いて固まりの最大値を捜す。こうすることにより標準文
字幅の約半分の大きさのiやlの固まりを除外し、正確
に標準文字幅を推定することを可能にした。以上の様に
して通常の文字画像の文字幅の推定は可能となるが、文
字画像の中には図5(a)に示した様な文字画像が存在
する。該文字画像は、m,i,l,l,i,O,nの7
つの文字より横成されており、そのうちm,i,l,
l,iの5の文字が接触している。従って、標準文字幅
の推定のために縦方向の周辺分布を計数しても、標準文
字幅の推定は不可能である。そこで本発明では、印刷欧
米文字において、文字線幅は標準文字高に比例したある
値以上の太さを持ち、図5(a)に見られる底辺部のひ
げの部分は該ある値よりも細い線であることに着目し、
縦方向の周辺分布図5(b)を計数した後、標準文字高
に比例したある値508でもって周辺分布を切り捨てる
過程を設ける。該過程により、ある値508よりも周辺
分布の値が大きくなる部分のみを文字領域と判断して、
文字領域を表示すると図5(c)に示す様になる。51
1、512、513、514、515、5l6、5l7
はそれぞれm,i,l,l,i,o,nの文字位置及び
文字幅を示す。5l1〜5l7の7つのデータは、実際
の文字幅よりも多少小さめではあるが、文字として必要
な情報の部分は必ず含んでおり、これらの領域を文字領
域と判断することが可能となる。従って、該データ図5
(c)の文字領域の統計をとることにより、標準文字幅
の推定が可能となる。
【0028】次に文字画像より単語の抽出を行う。単語
の抽出は前記標準文字間隔及び単語間隔と、文字行の垂
直方向の周辺分布とを比較する(文字画像が図4(a)
の場合周辺分布は図4(b)rすることにより、その文
字の存在していない部分の大きさから単語間隔を見つけ
ることが可能となり、文字画像中からの単語の抽出が可
能となる。
【0029】次に該抽出単語から一文字一文字の抽出を
連結成分を抽出することにより行うわけであるが、ここ
でまた一つ問題がある。今仮に抽出単語が図5(a)の
様な文字画像であるとする。この場合、連結成分の抽出
を行うとmilliの5つの文字を抽出してしまう。該
抽出文字はその文字幅から連結文字と判断し、途中で強
制的に切り離さなければならない。該切り離し位置は、
通常、標準文字幅付近の周辺分布の値の小さいところで
行われる。ところが、図5(a)の場合、mやi,lと
いった文字が含まれている。この様な文字においては、
iやlの文字は標準文字幅の半分の幅であるため、二文
字連なると一文字分の幅となり二文字一緒に切り出され
てしまい、またmの場合、標準文字幅の付近において一
度周辺分布の値がかなり小さくなっているため文字の切
れ目と判断され途中で切り離されてしまう可能性が非常
に大きい。そこで本発明は、図5(b)の周辺分布で標
準文字高に比例したある値508以上の領域図5(c)
の文字位置511一5l7の文字と文字の中間点521
〜526を求める。切り出し候補位置とする。該切り出
し候補位置521〜526は図5からも明らかな様に文
字と文字の境を表わしている。従って、文字の切り出し
時において、文字の大きさが標準文字幅から許容できる
大きさよりも大きい場合には該位置を用いることにより
文字の切り出しが可能となり、間違った位置での文字の
切り出しが極めて滅少する。
【0030】次に一文字一文字の文字の抽出を行う。本
発明においては、文字の抽出は連結成分を抽出すること
によって行っている。欧米文字は、殆どの文字が一つの
連結成分であり、連結成分が一つでない文字において
も、主な連結成分のみでたいていの文字は判断できるた
め該方法は効果的である。連結成分の抽出は、最初に連
結成分の輪郭を抽出する。輪郭を抽出することにより、
文字の位置及び大きさの情報が得られる。輪郭の抽出が
行われると既に求められた標準文字幅と、該抽出文字幅
とを比較する。抽出文字幅が標準文字幅より許容できる
大きさである場合には、該抽出文字を一文字と判断1文
字を抽出する。抽出文字幅が標準文字幅より許容できな
い大きさの場合には、先ず、該抽出領域中に切り出し候
補位置が存在するか否かを調べる。もし、切り出し候補
位置が存在していれば、該位置において文字を切り出す
のが最も適切であるため該位置の範囲内において再度連
結成分の文字の輪郭の抽出を行う。また、文字画像が図
11(a)の様な文字画像であった場合、(この文字画
像においては、標準文字高に対する一定の大きさll1
0よりも周辺分布の小さい領域の中問点は1121〜1
125の5箇所しか存在しない。しかしながら、文字は
9文字存在する。)文字画像l152の輪郭抽出を行う
と、標準文字幅より許容できない文字幅と判断される。
そこで、切り出し候補位置の存在を確認する。しかし文
字画像1152の周辺分布1142は最低線幅1110
よりも小さくなる値を文字の途中にもっていないので切
り出し候補位置は存在しない。この場合、抽出文字の周
辺分布l142の標準文字幅付近の値に着目する。それ
により、文字pとrの接触部分1131を捜すことが可
能となリー文字一文字の文字の切り出しが可能となる。
同様に切り出しを繰り返して図11においては、l12
1〜1l25の5箇所の切り出し候補位置の他に、11
31〜1133の3箇所の切り出し位置を抽出し、9つ
の文字を正確に切り出すことが可能となる。また本発明
は、文字の連結成分の輪郭を抽出した後、抽出文字幅が
一文字幅である場合には文字の抽出を行う方法であるの
で、例えば図l2(a)の様な文字画像においても何の
問題も無く文字の抽出を行える。該文字画像はY,o,
uという3つの無接触の文字である。しかしながら周辺
分布図12(b)においては、Yと0の周辺分布が重な
って1つの周辺分布1203を形成している。ここで従
来の様に該周辺分布l203の形状から文字を強制的に
切り離そうとするとl202の位置で切り離すことにな
り、また、周辺分布の大きさにより切り離そうとすると
l201の位置で切り離すことになってしまう。いずれ
の位置にせよ、文字を不適切な位置で切り離してしまう
結果になるが、本発明において全く問題は生じない。
【0031】文字の連結成分の輪郭抽出が適当な大きさ
で行われた後は、文字の連結成分の抽出を行う。本発明
においては、字画像と同じ大きさの領域をもう一つ設け
てある,図13(a)の文字画像1301よりPという
文字を抽出するにあたって先ず図13(a)のPという
文字の輪郭を別の領域1302に描く。次に該輪郭によ
って囲まれた領域をぬりつぶし、図13(b)を得る。
この後、原画像図13(a)と抽出文字領域の現像図1
3(b)との共通部分を抽出することにより図13
(C)に示した画像を得る。該画像図13(C)を見て
わかる様に、位置的に重なっているPとeの画像から、
Pの画像のみをきれいに抽出することが可能となってい
る。
【0032】以上述べたように、本発明によれば、行方
向の周辺分布により標準文字高の値及び無視する線幅の
値を求め、これらの値を参考にして、行方向と垂直な方
向の周辺分布より文字切り出し候補位置を求めるので、
ひげ部分により繋がった文字において、ひげ部分に影響
を受けることなく、文字切り出し候補位置を求めること
ができる。さらに、文字の切り出しにおいて、連結成分
の輪郭に囲まれた領域の画像を抽出するので、周辺分布
は重なって切り出し位置がわからない文字画像からで
も、一文字のみを抽出することが可能となった。
【0033】以上のように本発明により、今まで困難と
されていた一文字一文字の文字の切り出しをより正確に
行うことを可能にしたので、該方法を構成要素に用いる
文字認識装置の信頼性を大幅に向上させることが可能と
なった。
【0034】また本発明は、標準文字高及び文字の連結
成分の抽出を用いているので、特に印刷欧米文字等に適
したものである。
【0035】
【発明の効果】以上述べた様に本発明は次にあげる多く
の効果を有し、文字認識装置の信頼性を多いに向上させ
るものである。
【0036】行方向の周辺分布を計数し、該周辺分布の
形状より標準文字高及び無視する線幅の値を得ることに
より、行方向と垂直な方向の文字領域をより正確に求め
ることを可能にし、文字切り出し候補位置を求めること
を可能とした。また、標準文字間隔及び単語間隔、標準
文字長を求めることを可能とした。
【0037】行方向と垂直な方向の周辺分布で文字の存
在しない部分の統計をとることにより正確な標準文字間
隔及び単語間隔が求まりその結果正確な単語の抽出を可
能にした。
【0038】行方向と垂直な方向の周辺分布で、標準文
字高に比例したある大きさ以下の領域の統計をとること
により正確な標準文字長が求まり、また該領域の中心を
切り出し候補位置とすることにより、正確な位置での文
字の切り離しを可能にした。
【0039】標準文字幅の推定時においては、標準文字
高の75%より大きい領域の固まりの最大値を求めるこ
とによって、文字幅が半分の文字の固まりを誤って選ぶ
可能性を無くし、また、固まりと固まりとの間隔が標準
文字高に比例したある値以下であれば同一の固まりとみ
なすので正確に固まりの分類ができ、その結果正確に標
準文字幅、標準文字間隔及び単語間隔が推定できる。
【0040】文字の切り出しは、文字の輪郭の内側の領
域のみを抽出するので、縦方向の周辺分布においては切
り出し位置のわからない文字画像であっても正確に対象
の文字のみを抽出することが可能である。
【0041】文字抽出時において、抽出文字幅が標準文
字幅の許容できる大きさを越えている場合、先ず切り出
し候捕位置を確認し、切り出し候補位置が存在しない場
合のみ周辺分布の値より切り出し位置を求めているの
で、周辺分布の値のみでは間違った位置で切り離してし
まう文字画像においても、より正確な文字の抽出が可能
となった。
【0042】以上述べた様に本発明は、隣どおしの文字
が接触した文字画像、周辺分布が重なった文字画像、文
字ピッチが一定でない文字画像から一つ一つの文字を正
確に切り出すことを可能にした。その結果、該文字切り
出し方法を構成要素とする文字認識装置の信頼性を大き
く向上させるという効果を有している。
【図面の簡単な説明】
【図1】本発明の文字切り出し手段の用いられる文字認
識装置のブロック図。
【図2】本発明の文字切り出し手段のフローチャートを
示す。
【図3】(a)、(b)は本発明の標準文字高の抽捧方
法を説明した図。
【図4】(a)〜(d)は本発明の標準文字間隔及び単
語間隔、標準文字長、切り出し候補位置の推定の様子を
説明した図。
【図5】(a)〜(c)は本発明の標準文字間隔及び単
語間隔、標準文字長、切り出し候補位置の推定の様子を
説明した図。
【図6】(a)、(b)は本発明の標準文字間隔及び単
語間隔、標準文字長、切り出し候補位置の推定の様子を
説明した図。
【図7】(a)、(b)は本発明の標準文字間隔及び単
語間隔、標準文字長、切り出し候補位置の推定の様子を
説明した図。
【図8】本発明の標準文字間隔及び単語間隔、標準文字
長、切り出し候補位置の推定の様子を説明した図。
【図9】本発明の標準文字間隔及び単語間隔、標準文字
長、切り出し候補位置の推定の様子を説明した図。
【図10】本発明の標準文字間隔及び単語間隔、標準文
字長、切り出し候補位置の推定の様子を説明した図。
【図11】(a)、(b)本発明の文字抽出の様子を説
明した図。
【図12】(a)、(b)本発明の文字抽出の様子を説
明した図。
【図13】(a)〜(C)本発明の文字抽出の様子を説
明した図。
【符号の説明】
101・・・・・・CPU 102・・・・・・画像人力装置 103・・・・・・認識文字表示装置 104・・・・・・ROM l05・・・・・・RAM 301・・・・・・行方向周辺分布 304・・・・・・標準文字高 401・・・・・・文字領域 402・・・・・・文字間隔 50l〜507・・文字周辺分布 5l1〜517・・文字領域 521〜526・・文字切り出し候補位置 508・・・・・・最低文字線幅 70l・・・・・・標準文字高 80l〜804・・固まりの間隔 805・・・・・・固まりの間隔のしきい値 90l〜903・・固まりの問隔 904・・・・・・固まりの問隔のしきい値 1004・・・・・標準文字高の75% 1l10・・・・・最低文字線幅 1131〜1l33・・・文字切り出し位置 120l〜1202・・・文字切り出し位置
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 昭62−74184(JP,A) 特開 昭61−196381(JP,A) 特開 昭58−1274(JP,A) 特開 昭58−78267(JP,A) 特開 昭61−201384(JP,A) 特開 昭60−132281(JP,A) 特開 昭62−187987(JP,A) 特開 昭57−62466(JP,A) 特開 昭59−121589(JP,A) 特開 昭62−133585(JP,A) 特開 昭60−48582(JP,A) 電子通信学会技術研究報告「文字分 離」PRL83−66P.1−8 1984年2 月

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】 光学的画像入力手段により紙面等に書か
    れた欧米文字画像を読み取り、入力された画像データ中
    の文字を認識する文字認識装置の文字切り出し方法にお
    いて、 行方向の周辺分布より無視する線幅の値を決定し、 前記行方向と垂直な方向の周辺分布と前記無視する線幅
    の値とにより標準文字幅及び文字切り出し候補位置を推
    定し、 文字の切り出しは、連結成分の輪郭を抽出するととも
    に、文字幅を抽出し、抽出した文字幅と前記標準文字幅
    とを比較して、前記文字幅が許容できる大きさの場合は
    一文字と判断し、前記輪郭に囲まれた領域の内側のみを
    抽出することにより文字切り出しを行ない、 前記抽出した文字幅と前記標準文字幅とを比較して、前
    記文字幅が許容できない大きさの場合は、前記文字切り
    出し候補位置が存在するかどうかを確認し、 文字切り出し候補位置が存在する場合は、文字切り出し
    候補位置の範囲内にて再度輪郭の抽出を行ない、再度抽
    出した輪郭に囲まれた領域の内側のみを抽出することに
    より文字切り出しを行ない、 前記抽出した文字幅と前記標準文字幅とを比較して、前
    記文字幅が許容できない大きさの場合であって、前記文
    字切り出し候補位置が存在しない場合は、行方向と垂直
    な方向の前記周辺分布の極小値の位置と前記標準文字幅
    とにより文字切り出し範囲を決め、その範囲で再度輪郭
    の抽出を行ない、再度抽出した輪郭に囲まれた領域の内
    側のみを抽出することにより文字切り出しを行なうこと
    を特徴とする文字切り出し方法。
JP7109774A 1988-04-28 1995-05-08 文字切り出し方法 Expired - Lifetime JP2565150B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7109774A JP2565150B2 (ja) 1988-04-28 1995-05-08 文字切り出し方法

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
JP10608688 1988-04-28
JP11191388 1988-05-09
JP63-106086 1988-12-27
JP63-111913 1988-12-27
JP32965088 1988-12-27
JP63-329650 1988-12-27
JP7109774A JP2565150B2 (ja) 1988-04-28 1995-05-08 文字切り出し方法

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP1014416A Division JP2570415B2 (ja) 1988-04-28 1989-01-24 文字切り出し方法

Publications (2)

Publication Number Publication Date
JPH07319998A JPH07319998A (ja) 1995-12-08
JP2565150B2 true JP2565150B2 (ja) 1996-12-18

Family

ID=27469393

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7109774A Expired - Lifetime JP2565150B2 (ja) 1988-04-28 1995-05-08 文字切り出し方法

Country Status (1)

Country Link
JP (1) JP2565150B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5245088B2 (ja) * 2008-05-30 2013-07-24 日本電産サンキョー株式会社 磁気文字認識方法及び磁気文字認識装置
US8345978B2 (en) 2010-03-30 2013-01-01 Microsoft Corporation Detecting position of word breaks in a textual line image
JP6458351B2 (ja) * 2014-04-15 2019-01-30 コニカミノルタ株式会社 電子文書生成システム、画像形成装置、通信端末およびプログラム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5762466A (en) * 1980-10-03 1982-04-15 Canon Inc Original reader
JPS581274A (ja) * 1981-06-26 1983-01-06 Fujitsu Ltd 文字切出し方式
JPS5878267A (ja) * 1981-11-04 1983-05-11 Toshiba Corp 文字切出方式
JPS59121589A (ja) * 1982-12-28 1984-07-13 Nec Corp 文字ピッチ識別装置
JPS6048582A (ja) * 1983-08-25 1985-03-16 Fujitsu Ltd 文字認識装置の文字切出し方法
JPS60132281A (ja) * 1983-12-20 1985-07-15 Nec Corp 文字分離装置
JPS61196381A (ja) * 1985-02-27 1986-08-30 Oki Electric Ind Co Ltd 文字切出し方式
JPS61201384A (ja) * 1985-03-04 1986-09-06 Toyota Central Res & Dev Lab Inc 刻印文字認識装置
JPS6274184A (ja) * 1985-09-27 1987-04-04 Sony Corp 文字認識装置
US5046114A (en) * 1985-10-01 1991-09-03 The Palantir Corporation Method and structure for separating joined patterns for use in pattern and character recognition system
JPS62133585A (ja) * 1985-12-05 1987-06-16 Ricoh Co Ltd 単語切出方式

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
電子通信学会技術研究報告「文字分離」PRL83−66P.1−8 1984年2月

Also Published As

Publication number Publication date
JPH07319998A (ja) 1995-12-08

Similar Documents

Publication Publication Date Title
US6754385B2 (en) Ruled line extracting apparatus for extracting ruled line from normal document image and method thereof
Tang et al. A spatial-temporal approach for video caption detection and recognition
Antonacopoulos Page segmentation using the description of the background
Liang et al. Performance evaluation of document layout analysis algorithms on the UW data set
JP2565150B2 (ja) 文字切り出し方法
JP2728086B2 (ja) 文字切り出し方法
JP3835652B2 (ja) 文書画像の日本語英語判定方法および記録媒体
JP2728085B2 (ja) 文字切り出し方法
JP2570415B2 (ja) 文字切り出し方法
JP3344062B2 (ja) カタカナ手書き文字切り出し回路
JP3220226B2 (ja) 文字列方向判別方法
JP2630261B2 (ja) 文字認識装置
JP4079333B2 (ja) 文書画像の日本語英語判定方法および記録媒体
JPH10214308A (ja) 文字判別方法
JP3197441B2 (ja) 文字認識装置
JP3193573B2 (ja) かぎかっこ付文字認識装置
JP2993252B2 (ja) 同形異文字判別方法および装置
JP2003030585A (ja) 画像処理装置、方法、プログラム及び記憶媒体
JP3665435B2 (ja) 文字認識装置および文字認識方法
JP2987462B2 (ja) 文字方向判定装置及び文字方向判定方法
JP2001266070A (ja) 文字認識装置、文字認識方法および記憶媒体
Green et al. Layout analysis of book pages
JPH06162266A (ja) オンライン手書き文字認識の方法及びその装置
JPH05233877A (ja) 単語読み取り方法
JPH08212301A (ja) 文字切出装置及びその切出方法

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081003

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091003

Year of fee payment: 13

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091003

Year of fee payment: 13