JP2728086B2 - 文字切り出し方法 - Google Patents

文字切り出し方法

Info

Publication number
JP2728086B2
JP2728086B2 JP8136479A JP13647996A JP2728086B2 JP 2728086 B2 JP2728086 B2 JP 2728086B2 JP 8136479 A JP8136479 A JP 8136479A JP 13647996 A JP13647996 A JP 13647996A JP 2728086 B2 JP2728086 B2 JP 2728086B2
Authority
JP
Japan
Prior art keywords
character
width
standard
image
characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP8136479A
Other languages
English (en)
Other versions
JPH096916A (ja
Inventor
三喜男 青木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP8136479A priority Critical patent/JP2728086B2/ja
Publication of JPH096916A publication Critical patent/JPH096916A/ja
Application granted granted Critical
Publication of JP2728086B2 publication Critical patent/JP2728086B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、紙面上に書かれた
文宇を画像として入力することにより、文字画像から文
字領域を捜し出し、コード番号に変換する文字認識装置
に用いられる文字切り出し方法に関する。
【0002】
【従来の技術】近年、文字認識装置の急激なる進歩によ
り、さまざまな文書画像から文字領域を自動的に抽出
し、さらに1つ1つの文字を切り出し、認識し、自動的
に文字ファイルが作成できるようになってきており、文
字の切り出し方法はさまざまな方法が考え出されてきて
いる。
【0003】例えば、一般に多く用いられている方法に
抽出文字行の行方向と垂直な方向の周辺分布を計数する
方法がある。
【0004】例えば、図4(A)に示すような抽出文字
行の行方向と垂直な方向の周辺分布を計数する。この計
数において、計数値があった否か、すなわち、文字画像
が存在するか否かのみを図に示すと、図4(B)に示す
ような周辺分布が得られ、この周辺分布の値により、文
字の存在位置を知ることが可能となり、一文字一文字の
文字の切り出しを行なうことができる。しかしながら、
抽出文字行が図4(C)に示すように、周辺分布の重な
った文字においては、「Y]と「o」のように、重なっ
た文字の部分は文字幅が大きくなる。そこで、複数文字
と判断した場合には、文字ピッチにより文字の切れ目を
推定して、強制的に文字の切り出しを行なっていた。
【0005】
【発明が解決しようとする課題】しかしながら、このよ
うな方法で文字の切り出しを行なう場合、対象文字画像
が、図4(A)に示すような定ピッチの文字画像におい
ては、正確に文字の切り出しが可能であるが、図4
(C)に示した様な文字画像、図5(A)に示したよう
な文字画像、図l1(A)に示したような文字画像にお
いては、正確な文字の切り出しは不可能である。図4
(C)の文字画像、図5(A)の文字画像、図l1
(A)の文字画像は、どれも文字ピッチ不定のプロポー
シヨナル文字である。したがって、従来の方法のよう
に、単に行方向と垂直な方向の周辺分布によるだけで
は、文字位置および文字ピッチを推定することができな
い。
【0006】図4(C)のような文字について、従来の
方法にて文字の切り出しを行なう場合について述べる。
図4(C)は、図4(A)と同ーのフォントの文字画像
である。図4(A)が文字ピッチがー定であるのに対
し、図4(C)は文字ピッチ不定のプロポーショナル文
字である。図4(C)の文字画像の行方向と垂直な方向
の周辺分布を示した図4(D)に着目すると、ほとんど
の部分で図4(A)の周辺分布である図4(B)とほぼ
同じであるが、「Yo」の周辺分布に相当する部分が異
なる。図4(D)は、「Y」の周辺分布と「o」の周辺
分布が重なってしまっている。したがってこのような周
辺分布からは、「Y」と「o」を1つの文字として判断
してしまうか、あるいは、実際と異った場所で切り離し
てしまう。今、仮に2つの文字と判断して強制的に2つ
の文字に分けようとした場合、文字ピッチに着目する
と、図12に示す1201で文字画像を分離し、周辺分
布の形状に着目すると、1202で文字画像を分離して
しまう。1201,1202のどちらの位置で文字画像
を分離しても、「Y」か「o」の文字の途中で切れ、別
の文字と一緒に抽出されてしまい、正確な文字の抽出は
不可能である。
【0007】次に、図5(A)に示した文字画像より、
従来の方法により文字の切り出しを行なう場合について
述べる。図5(A)は「million」という7つの
文字により構成される単語である。この単語の行方向と
垂直な方向の周辺分布を計数して計数値を図示すると図
5(B)に示すように、「m」,「i」,「l」,
「l」,「i」の5つの文字の周辺分布501,50
2,503,504,505は連なって一つの周辺分布
の固まりとなっている。したがって、この周辺分布から
は簡単に文字の切れ目を推定することは不可能である。
文字ピッチにより文字の切り離しを行なうようにする
と、「i」,「l」等の文字は標準文字幅の半分の大き
さであるので、2つの文字で1つの文字と判断してしま
い、一緒に切り出される可能性が大きい。また、周辺分
布の形状で判断して切り離すと、「i」,「l」等の文
字はうまく切り離せるかもしれないが、「m」を分解す
る可能性が大であり、文字の切り出しの信頼性が極めて
小さい。
【0008】また、図11(A)に示した文字画像の場
合も、図5の場合と同様に周辺分布の形状のみからは文
字の正確な切り出しは不可能である。
【0009】本発明は、上述したような問題を解決する
もので、その目的とするところは、隣同士の文字が接触
した文字画像から1つ1つの文字を正確に切り出す方法
を提供することにある。
【0010】
【課題を解決するための手段】請求項1に記載の発明
は、光学的画像入力手段により紙面等に書かれた欧米文
字画像を読み取り、入力された画像データ中の文字を認
識する文字認識装置の文字切り出し方法において、行方
向の周辺分布より無視する線幅の値を決定し、前記行方
向と垂直な方向の周辺分布で、該周辺分布の値が前記無
視する線幅の値より小さい部分の各々の中間部分を文字
切り出し候補位置とすることを特徴とするものである。
【0011】
【発明の実施の形態】以下、本発明について実施の形態
に基づいて詳細に説明する。
【0012】文字切り出しの全体プロセスの概要の一例
は、光学的画像入力手段により紙面等に書かれた文字画
像を読み取り、入力された画像デー夕中の文字を認識し
てコード番号に置き換える文字認識装置に用いられるも
のであり、 行方向の周辺分布より文字の標準文字高を推定し、無
視する線の太さ決める。 行方向と垂直な方向の周辺
分布より、標準文字間隔、単語間隔および標準文字幅を
推定し、単語の抽出を行ない、 前記周辺分布より文字切り出し候補位置を推定し、 前記抽出単語中の文字の切り出しは文字の連結成分の
輪郭を抽出するとともに、文字高および文字幅を抽出
し、 文字幅が標準文字幅から許容できる大きさを越える場
合には、前記文字切り出し候補位置の範囲内にて再度輪
郭の抽出を行ない、 前記文字切り出し候補位置が存在しない場合いには、
行方向と垂直な方向の周辺分布により文字切り出しの範
囲を決め再度輪郭の抽出を行ない、 該輪郭に囲まれた領域の内側のみを抽出することによ
り文字の切り出しを行なう。
【0013】文字の標準文字高は、行方向の周辺分布の
形に着目し、周辺分布が急激に変化して大きくなってい
る部の幅を標準文字高とし、該標準文字高の大きさよ
り、文字線の最低線幅を推定することができる。
【0014】行方向と垂直な方向の周辺分布で文字の存
在しない部分の大きさの統計をとることにより、標準文
字間隔および単語間隔を推定することができる。
【0015】行方向と垂直な方向の周辺分布で、周辺分
布の値が前記最低線幅より大きい部分の大きさの統計を
とることにより、標準文字幅を推定することができる。
【0016】標準文字幅の惟定は、前記統計で、標準文
字高の75%よりも大きい領域において、標準文字高に
最も近い固まりの最大値とすることができる。
【0017】前記統計中の固まりの分類は、固まりと固
まりとの距離が、標準文字高に比例したある値以下であ
れば同一の固まりとみなすことができる。
【0018】前記標準文字間隔および単語間隔と、行方
向と垂直な方向の周辺分布とを比較することにより単語
の位置の抽出を行なうことができる。
【0019】行方向と垂直な方向の周辺分布で、周辺分
布の値が前記最低線幅より小さい部分の、各々の中間部
分を文字切り出し候補位置とすることができる。
【0020】抽出文字幅より連結文字と判断した場合、
前記文字切り出し候補位置を優先に切り出すことができ
る。
【0021】周辺分布の値より文字切り出し位置を推定
する場合、1/2文字幅付近およびl文字幅付近で最も
周辺分布の値の小さいところを求めることができる。
【0022】文字の輪郭に囲まれた領域の抽出は、原画
像と同じ大きさの画像領域を設け、該画像領域に文字の
輪郭を描き、輪郭の内側を塗りつぶした後に原画像との
共通部分をとることにより、対象文字のみを抽出するが
できる。
【0023】文字切り出し手段が構成要素となる文字認
識装置は、図1のブロック図に示すように、CPU10
1、画像入力装置102、認識文字表示装置103、R
OM104、RAM105により横成されている。
【0024】以下、画像入力装置l02によりRAMl
05に読み込まれた文字画像中よリ1つ1つの文字を切
り出す文字切り出し方法を、図2に示すフローチャー卜
に基づいて詳細に説明する。
【0025】画像入力装置102によりRAM105に
読み込まれた文字画像を図3(A)とする。まず最初
に、行方向の周辺分布を計数する。文字画像図3(A)
の行方向の周辺分布を計数すると、図3(B)の301
のような形状の周辺分布を得る。欧米文字は、図3
(A)の「d」に相当する文字高の大きな文字、「e」
に相当する文字高の小さな文字、「y」に相当する文字
高は大きいが文字位置が低い文字の3種類の文字から構
成されている。したがって、この3種類の文字から構成
されている文字画像の行方向の周辺分布を計数すると、
通常図3(B)に示す301の様な形状の周辺分布とな
る。周辺分布301は、311,312,3l3の3つ
の領域が合わさってできており、文字画像によっては、
312の領域あるいは313の領域が存在しない場合が
ある。しかしながら、311の領域は常に存在し、この
領域の上限302と下限303との間の幅304は、文
字高の小さな文字の高さ(以下、「標準文字高」と呼
ぶ。)に相当する。したがって、行方向の周辺分布の形
状に着目することにより、標準文字高を知ることが可能
となる。
【0026】また、印刷欧米活字は、標準文字高と文字
線の太さとの間に、通常、 標準文字高:文字線の太さ≧16:1 の関係が成り立つ。したがって、文字画像の垂直方向の
周辺分布に着目した場合、周辺分布の値が標準文字高の
1/16よりも低い値の部分は文字のひげ部分であり、
あるいは、文字が接触している部分であると判断でき
る。ここで、判断の基準となる標準文字高の1/16の
値を無視する線幅として求めておく。
【0027】次の段階として、文字行の垂直方向の周辺
分布により標準文字間隔、単語間隔および標準文字幅を
求める。まず最初に、文字行と垂直な方向に投影した場
合、文字画像が存在するか否かのデータを求める。文字
画像を図4(A)とした場合、文字画像が存在するか否
かのデータすなわち文字画像と垂直の方向に投影したデ
ータは図4(B)である。領域401は文字画像が存在
する部分、領域402は文字画像が存在しない部分、す
なわち文字間隔に相当する部分である。文字が存在しな
い部分402の統計をとると、図6(A)のようにな
る。同様に、文字画像を図4(C)とした場合の投影し
たデータ図4(D)の文字画像が存在しない部分402
の統計をとると、図6(B)のようになる。図6
(A)、図6(B)の実線で示されたデータは、図4
(B)、図4(D)のデータをそれぞれ示すが、一般に
文字間隔のヒストグラムは、図6(A)、図6(B)に
示した点線で示される傾向になる。この2つのヒストグ
ラムは、それぞれ2つの固まりに分けることが可能であ
る。この固まりは、1つは文字間隔の固まり、もう1つ
は単語間隔の固まりと判断することができる。したがっ
て、文字間隔の統計により標準文字間隔および単語間隔
を推定することが可能となる。一般に文字間隔のヒスト
グラムは、図6のようなヒストグラムになるが、時とし
て図8のようなヒス卜グラムを得ることがある。ヒス卜
グラムには、データの固まりがいくつもある。このよう
に固まりが多く存在する場合には、次の方法にて固まり
を分類する。印刷欧米文字は通常規則正しく並んで印刷
されている。
【0028】したがって、文字間隔はほぼ等しい筈であ
るが、時として文字の形により文字間隔が異なる場合が
生じる。しかしながら、その問隔は、標準文字高に比例
したある値以上にちらばることはない。したがって、標
準文字高の1/16を固まりと固まりの距離のしきい値
805とした。しきい値805と、固まり811,81
2,813,814,815の間隔801,802,8
03,804とを比較することにより、固まり811と
8l2は同一の固まり、固まり813と814と8l5
は同一の固まりと判断でき、標準文字問隔および単語間
隔の推定が可能となる。
【0029】次に、文字画像の標準文字幅を推定する。
標準文字幅を推定できれば、文字の切り出し時において
1文字か連結文字かの判断、および、切り出し候補位置
を推定する手掛りとなる。標準文字幅の推定は、標準文
字間隔および単語間隔の推定と同様に文字領域の統計を
とる。仮に、文字画像が図4(A)および図4(C)の
場合、文字幅の統計は図7(A)および図7(B)の実
線のようになり、一般的に点線で示した傾向のデー夕を
得る。図7(A)に示したデータは、固まりが1つであ
るため、この固まりの最大値を標準文字幅とすることが
できる。図7(B)に示したデータにおいては、固まり
702と固まり703の2つの固まりが存在する。通
常、印刷欧米文字は、標準文字幅が標準文字高に非常に
近い値であるので、標準文字高701の付近の固まり7
02の最大値を標準文字幅とすることが可能となる。ま
た、文字間隔の推定時と同様に、時としてヒス卜グラム
が多くの固まりからなる場合、図9においては、固まり
と固まりの距離901,902,903としきい値90
4とを比較することによって、固まり9ll,固まり9
12および固まり913は同一の固まりと判断すること
が可能である。さらに、固まりと固まりの間のしきい値
でもって多くの固まりを分類しても、図10の様な3つ
の固まりになることがある。統計の結果が図10のよう
になるのは、文字画像中に「i」や「l」等の文字が含
まれているからである。
【0030】そこで、「i」や「l」等の固まり100
1の最大値を標準文字幅と判断しないように、標準文字
幅の75%の位置1004よりも大きい領域において固
まりの最大値を探す。こうすることにより、標準文字幅
の約半分の幅の「i」や「l」の固まりを除外し、正確
に標準文字幅を推定することを可能にした。以上のよう
にして、通常の文字画像の文字幅の推定は可能となる
が、文字画像の中には図5(A)に示したような文字画
像が存在する。この文字画像は、「m」,「i」,
「l」,「l」,「i」,「o」,「n」の7つの文字
より横成されており、そのうち「m」,「i」,
「l」,「l」,「i」の5の文字が接触している。し
たがって、標準文字幅の推定のために行方向と垂直な方
向の周辺分布を計数しても、標準文字幅の推定は不可能
である。
【0031】そこで本発明では、印刷欧米文字におい
て、文字線幅は標準文字高に比例したある値以上の太さ
を持ち、図5(A)に見られる底辺部のひげの部分は、
ある値よりも細い線であることに着目し、行方向と垂直
な方向の周辺分布図5(B)を計数した後、標準文字高
に比例したある値508でもって無視する線幅を決め
て、周辺分布を切り捨てる過程を設ける。この過程によ
り、ある値508よりも周辺分布の値が大きくなる部分
のみを文字領域と判断して、文字領域を表示すると、図
5(C)に示すようになる。511,512,513,
514,515,5l6,5l7はそれぞれ「m」,
「i」,「l」,「l」,「i」,「o」,「n」の文
字位置および文字幅を示す。5l1〜5l7の7つのデ
ータは、実際の文字幅よりも多少小さめではあるが、文
字として必要な情報の部分は必ず含んでおり、これらの
領域を文字領域と判断することが可能となる。したがっ
て、このデータ図5(C)の文字領域の統計をとること
により、標準文字幅の推定が可能となる。
【0032】次に、文字画像より単語の抽出を行なう。
単語の抽出は、前記標準文字間隔および単語間隔と、文
字行の垂直方向の周辺分布とを比較する。文字画像が図
4(A)の場合、周辺分布は図4(B)であることによ
り、その文字の存在していない部分の大きさから単語間
隔を見つけることが可能となり、文字画像中からの単語
の抽出が可能となる。
【0033】次に、抽出単語から1文字ごとの抽出を連
結成分を抽出することにより行なうわけであるが、ここ
でまた問題がある。今仮に、抽出単語が図5(A)のよ
うな文字画像であるとする。この場合、連結成分の抽出
を行なうと「milli」の5つの文字を1文字として
抽出してしまう。この抽出文字はその文字幅から連結文
字と判断し、途中で強制的に切り離さなければならな
い。切り離し位置は、通常、標準文字幅付近の周辺分布
の値の小さいところで行なわれる。ところが、図5
(A)の場合、「m」や「i」,「l」といった文字が
含まれている。このような文字においては、「i」や
「l」の文字は標準文字幅の半分の幅であるため、2文
字連なると1文字分の幅となり2文字が一緒に切り出さ
れてしまい、また「m」の場合、標準文字幅の付近にお
いて一度周辺分布の値がかなり小さくなっているため文
字の切れ目と判断され、途中で切り離されてしまう可能
性が非常に大きい。
【0034】そこで、図5(B)の周辺分布で標準文字
高に比例したある値508以上の領域図5(C)の文字
位置511〜5l7の文字と文字の中間点521〜52
6を求めて切り出し候補位置とする。この切り出し候補
位置521〜526は図5からも明らかなように文字と
文字の境を表わしている。したがって、文字の切り出し
時において、文字の大きさが標準文字幅から許容できる
大きさよりも大きい場合にはこのような切り出し位置を
用いることにより文字の切り出しが可能となり、間違っ
た位置での文字の切り出しが極めて滅少する。
【0035】次に、一文字一文字の文字の抽出を行な
う。文字の抽出は、連結成分を抽出することによって行
なっている。欧米文字は、殆どの文字が1つの連結成分
であり、連結成分が1つでない文字においても、主な連
結成分のみでたいていの文字は判断できるため、この方
法は効果的である。連結成分の抽出は、最初に連結成分
の輪郭を抽出する。輪郭を抽出することにより、文字の
位置および大きさの情報が得られる。輪郭の抽出が行な
われると、すでに求められた標準文字幅と、抽出した文
字幅とを比較する。
【0036】抽出した文字幅が標準文字幅より許容でき
る大きさである場合には、抽出した文字を1文字と判断
して1文字を抽出する。抽出した文字幅が標準文字幅よ
り許容できない大きさの場合には、先ず、抽出領域中に
切り出し候補位置が存在するか否かを調べる。もし、切
り出し候補位置が存在していれば、その位置において文
字を切り出すのが最も適切であるためその位置の範囲内
において再度連結成分の文字の輪郭の抽出を行なう。
【0037】また、文字画像が図11(A)のような文
字画像であった場合(この文字画像においては、標準文
字高に対する一定の大きさll10よりも周辺分布の小
さい領域の中問点は1121〜1125の5箇所しか存
在しない。しかしながら、文字は9文字存在する。)、
文字画像l152の輪郭抽出を行なうと、標準文字幅よ
り許容できない文字幅と判断される。そこで、切り出し
候補位置の存在を確認する。しかし文字画像1152の
周辺分布1142は無視する線幅1110よりも小さく
なる値を文字の途中にもっていないので切り出し候補位
置は存在しない。この場合、抽出文字の周辺分布l14
2の標準文字幅付近の値に着目する。それにより、文字
「a」と「r」の接触部分1131を探すことが可能と
なり、一文字一文字の文字の切り出しが可能となる。同
様に切り出しを繰り返して、図11においては、l12
1〜1l25の5箇所の切り出し候補位置の他に、11
31〜1133の3箇所の切り出し位置を抽出し、9つ
の文字を正確に切り出すことが可能となる。
【0038】また、文字の連結成分の輪郭を抽出した
後、抽出した文字幅が1文字幅である場合には文字の抽
出を行なう方法であるので、例えば図l2(A)のよう
な文字画像においても何の問題も無く文字の抽出を行な
える。この文字画像は「Y」,「o」,「u」という3
つの無接触の文字である。しかしながら、周辺分布図1
2(B)においては、「Y」と「o」の周辺分布が重な
って1つの周辺分布1203を形成している。ここで従
来のように周辺分布l203の形状から文字を強制的に
切り離そうとすると、l202の位置で切り離すことに
なる。また、周辺分布の大きさにより切り離そうとする
と、l201の位置で切り離すことになってしまう。い
ずれの位置にせよ、文字を不適切な位置で切り離してし
まう結果になるが、この方法によれば、全く問題は生じ
ない。
【0039】文字の連結成分の輪郭抽出が適当な大きさ
で行なわれた後は、文字の連結成分の抽出を行なう。文
字画像と同じ大きさの領域をもう1つ設けてある。図1
3(A)の文字画像1301より「P」という文字を抽
出するにあたって、先ず図13(A)の「P」という文
字の輪郭を別の領域1302に描く。次に、この輪郭に
よって囲まれた領域を塗りつぶし、図13(B)を得
る。この後、原画像図13(A)と抽出文字領域の画像
図13(B)との共通部分を抽出することにより、図1
3(C)に示した画像を得る。この画像図13(C)を
見てわかるように、位置的に重なっている「P」と
「e」の画像から、「P」の画像のみをきれいに抽出す
ることが可能となっている。
【0040】以上述べたように、本発明によれば、行方
向の周辺分布により標準文字高および無視する線幅を求
め、この値を参考に標準字間隔および単語間隔、標準文
字幅を求めるので、正確な標準文字間隔および単語間
隔、標準文字幅が求まる。その結果、正確な単語切り出
しが可能となる。また、文字切り出し時においては、標
準文字幅と比較しながら、切り出し候補位置および周辺
分布を参考に文字の切り出しを行なうので、正確な位置
での文字の切り出しが可能となった。さらに、文字の切
り出しは、文字の連結成分の輪郭に囲まれた領域の画像
を抽出するので、周辺分布では重なって切り出し位置が
わからない文字画像からでも正確に1文字のみを抽出す
ることが可能となった。
【0041】以上のように本発明により、今まで困難と
されていた一文字一文字の文字の切り出しをより正確に
行なうことを可能にしたので、この方法を構成要素に用
いる文字認識装置の信頼性を大幅に向上させることが可
能となった。
【0042】また本発明は、標準文字高および文字の連
結成分の抽出を用いているので、特に印刷欧米文字等に
適したものである。
【0043】
【発明の効果】以上述べたように、本発明によれば、行
方向の周辺分布より無視する線幅の値を決定し、前記行
方向と垂直な方向の周辺分布で、該周辺分布の値が前記
無視する線幅の値より小さい部分の各々の中間部分を文
字切り出し候補位置とすることによって、ひげ部分でつ
ながった文字も分離でき、より正確な位置での文字の切
り離しを可能にし、文字認識装置の信頼性を大きく向上
させるという効果を有している。
【図面の簡単な説明】
【図1】 本発明の文字切り出し手段の用いられる文字
認識装置のブロック図である。
【図2】 本発明の文字切り出し手段のフローチャート
を示す。
【図3】 (A),(B)は、本発明の標準文字高の抽
出方法を説明した図である。
【図4】 (A)〜(D)は、本発明の標準文字間隔お
よび単語間隔、標準文字幅、切り出し候補位置の推定の
様子を説明した図である。
【図5】 (A)〜(C)は、本発明の標準文字間隔お
よび単語間隔、標準文字幅、切り出し候補位置の推定の
様子を説明した図である。
【図6】 (A),(B)は、本発明の標準文字間隔お
よび単語間隔、標準文字幅、切り出し候補位置の推定の
様子を説明した図である。
【図7】 (A),(B)は、本発明の標準文字間隔お
よび単語間隔、標準文字幅、切り出し候補位置の推定の
様子を説明した図である。
【図8】 本発明の標準文字間隔および単語間隔、標準
文字幅、切り出し候補位置の推定の様子を説明した図で
ある。
【図9】 本発明の標準文字間隔および単語間隔、標準
文字幅、切り出し候補位置の推定の様子を説明した図で
ある。
【図10】 本発明の標準文字間隔および単語間隔、標
準文字幅、切り出し候補位置の推定の様子を説明した図
である。
【図11】 (A),(B)は、本発明の文字抽出の様
子を説明した図である。
【図12】 (A),(B)は、本発明の文字抽出の様
子を説明した図である。
【図13】 (A)〜(C)は、本発明の文字抽出の様
子を説明した図である。
【符号の説明】
101…CPU、102…画像人力装置、103…認識
文字表示装置、104…ROM、l05…RAM、30
1…行方向周辺分布、304…標準文字高、401…文
字領域、402…文字間隔、50l〜507…文字周辺
分布、5l1〜517…文字領域、521〜526…文
字切り出し候補位置、508…最低文字線幅、70l…
標準文字高、80l〜804…固まりの間隔、805…
固まりの間隔のしきい値、90l〜903…固まりの問
隔、904…固まりの問隔のしきい値、1004…標準
文字高の75%、1l10…最低文字線幅、1131〜
1l33…文字切り出し位置、120l〜1202…文
字切り出し位置。

Claims (1)

    (57)【特許請求の範囲】
  1. 【請求項1】 光学的画像入力手段により紙面等に書か
    れた欧米文字画像を読み取り、入力された画像データ中
    の文字を認識する文字認識装置の文字切り出し方法にお
    いて、行方向の周辺分布より無視する線幅の値を決定
    し、前記行方向と垂直な方向の周辺分布で、該周辺分布
    の値が前記無視する線幅の値より小さい部分の各々の中
    間部分を文字切り出し候補位置とすることを特徴とする
    文字切り出し方法。
JP8136479A 1988-04-28 1996-05-30 文字切り出し方法 Expired - Lifetime JP2728086B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8136479A JP2728086B2 (ja) 1988-04-28 1996-05-30 文字切り出し方法

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
JP10608688 1988-04-28
JP11191388 1988-05-09
JP32965088 1988-12-27
JP63-111913 1988-12-27
JP63-106086 1988-12-27
JP63-329650 1988-12-27
JP8136479A JP2728086B2 (ja) 1988-04-28 1996-05-30 文字切り出し方法

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP1014416A Division JP2570415B2 (ja) 1988-04-28 1989-01-24 文字切り出し方法

Publications (2)

Publication Number Publication Date
JPH096916A JPH096916A (ja) 1997-01-10
JP2728086B2 true JP2728086B2 (ja) 1998-03-18

Family

ID=27469395

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8136479A Expired - Lifetime JP2728086B2 (ja) 1988-04-28 1996-05-30 文字切り出し方法

Country Status (1)

Country Link
JP (1) JP2728086B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9430703B2 (en) * 2014-12-19 2016-08-30 Konica Minolta Laboratory U.S.A., Inc. Method for segmenting text words in document images using vertical projections of center zones of characters
US9384409B1 (en) * 2015-01-29 2016-07-05 Konica Minolta Laboratory U.S.A., Inc. Word segmentation for document image using recursive segmentation

Also Published As

Publication number Publication date
JPH096916A (ja) 1997-01-10

Similar Documents

Publication Publication Date Title
US7519226B2 (en) Form search apparatus and method
US6754385B2 (en) Ruled line extracting apparatus for extracting ruled line from normal document image and method thereof
JP2728086B2 (ja) 文字切り出し方法
JP2728085B2 (ja) 文字切り出し方法
JP2565150B2 (ja) 文字切り出し方法
JP3835652B2 (ja) 文書画像の日本語英語判定方法および記録媒体
JPH0410087A (ja) 基本ライン抽出方法
JP2570415B2 (ja) 文字切り出し方法
JP3344062B2 (ja) カタカナ手書き文字切り出し回路
JP4079333B2 (ja) 文書画像の日本語英語判定方法および記録媒体
JP3197441B2 (ja) 文字認識装置
JP3220226B2 (ja) 文字列方向判別方法
JPH05174185A (ja) 日本語文字認識装置
JPH0950488A (ja) 異サイズ混在文字列の読取り方法
JP2001266070A (ja) 文字認識装置、文字認識方法および記憶媒体
JP3665435B2 (ja) 文字認識装置および文字認識方法
JPH0528301A (ja) 文書認識装置
JPH05135204A (ja) 文字認識装置
JPH09297817A (ja) 文字切り出し方法
JPH08161430A (ja) 文字種識別方法
JPH04211884A (ja) 文字切り出し方法
JPH09231317A (ja) 文書認識装置
JPH05233877A (ja) 単語読み取り方法
JPH05210759A (ja) 文字認識装置
JPH05282487A (ja) 文字認識装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081212

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081212

Year of fee payment: 11

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091212

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091212

Year of fee payment: 12