JPH056459A - 単語間スペース検出方法 - Google Patents

単語間スペース検出方法

Info

Publication number
JPH056459A
JPH056459A JP3165100A JP16510091A JPH056459A JP H056459 A JPH056459 A JP H056459A JP 3165100 A JP3165100 A JP 3165100A JP 16510091 A JP16510091 A JP 16510091A JP H056459 A JPH056459 A JP H056459A
Authority
JP
Japan
Prior art keywords
space
width
space width
character
inter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP3165100A
Other languages
English (en)
Other versions
JP2915175B2 (ja
Inventor
Yasuo Hongo
保夫 本郷
Masatoshi Okada
正年 岡田
Ichiro Ogura
一郎 小倉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuji Electric Co Ltd
Fuji Facom Corp
Original Assignee
Fuji Electric Co Ltd
Fuji Facom Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Electric Co Ltd, Fuji Facom Corp filed Critical Fuji Electric Co Ltd
Priority to JP3165100A priority Critical patent/JP2915175B2/ja
Publication of JPH056459A publication Critical patent/JPH056459A/ja
Application granted granted Critical
Publication of JP2915175B2 publication Critical patent/JP2915175B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】 【目的】 英文書を認識する際に前後の文字の組合せに
よって異なる文字間スペースを補正することにより、単
語間スペースを高精度に検出する。 【構成】 入力された英文書画像から個々の文字を切り
出して文字間のスペース幅を算出するとともに(S11
〜13)、切り出された個々の文字を認識し(S1
4)、さらに、各文字間スペースの前後に位置する文字
の組合せに応じた補正係数を用いて、文字間スペース幅
を補正する(S15)。次に、得られた各スペース幅の
頻度分布をクラス幅ごとのヒストグラムとして表し(S
16)、ヒストグラム中にあらわれた谷から文字間と単
語間とのスペース幅を区分するしきい値を決定すること
により(S17)、単語間スペースを検出して空白記号
を挿入する(S18)。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、文字読み取り方法、
特にプロポーショナル印字された英文の文書画像から単
語間のスペース(単語間スペース)を検出する方法に関
する。なお、プロポーショナル印字とは、英文の複数単
語が1行内に納まるように行毎に調整して印字する手法
をいう。
【0002】
【従来の技術】従来、プロポーショナル印字された英文
の単語間スペースを検出する方法としては、行毎に文字
間のスペース(文字間スペース)の頻度を求め、頻度分
布の文字間スペースを表わすピークと単語間スペースを
表わすピークとの間の谷に相当する頻度0の個所を検出
のためのしきい値とするものが知られている(例えば、
特開昭63−158678号公報参照)。すなわち、ス
ペースの1ドット刻みの頻度分布が、例えば図13のよ
うに、文字間スペースの群M1と単語間スペースの群M
2の2つの群の間に、頻度0の個所(谷V)が存在する
ことを想定してしきい値を決定するものである。また、
図13のように頻度分布を1ドット刻みでとるのではな
く、予め文字サイズにより定められた幅(クラス幅とも
いう)を持ったヒストグラムとすることによりスペース
のばらつきによる不適切な谷の発生を防止する方法も本
出願人により考案されている。すなわち、図14に示す
ように標準文字サイズの5%(数ドット)をクラス幅と
する頻度ヒストグラムを作成して文字間スペースの群M
1と単語間スペースの群M2の2つの群の間に、頻度0
の個所(谷V)が存在することを想定してしきい値を決
定するものである。
【0003】
【発明が解決しようとする課題】しかし、このような従
来の方法は、図13、図14に示されているようにスペ
ース幅の頻度が文字間スペースの群と単語間スペースの
群の2つの群を持つ双方性の分布をなしていることを前
提として、群と群との間の谷に相当するしきい値として
単語間スペースを検出するものであった。しかし、実際
の文書では、図15のように群が3つ以上存在する頻度
分布、すなわち文字間スペースの群M1と単語間スペー
スの群M2の2つの群以外に、文字間スペースか単語間
スペースかを明確に確定できないスペースの群M3(つ
まり未確定スペース群)が発生する場合がある。
【0004】このような群が発生する原因として、次の
2つがあげられる。 (1)単語内でカーニング(くい込み)が発生してしま
うような文字の組合せ(例えば、fとt)の間にある単
語間スペースは通常の単語間スペースよりも小さくな
る。 (2)ゴシック、ボールド等のサンセリフのフォントの
uとm、mとp等の間の文字間スペースは通常の文字間
スペースよりも小さくなる。 このような文字組ルール上の傾向が実際の文書にあるた
め、小さめの単語間スペースや大きめの文字間スペース
が独立した群を作ってしまう。
【0005】このように頻度分布の群が3つ以上存在し
ている場合には、しきい値が正しく決定できず、図16
の「*」印に示すような単語の誤統合や図17の「*」
印に示すような誤分割を起こしてしまうことがある。ま
た、英文書は字体の種類が多く、しかも印字の形態につ
いてもタイプライタや写植というように各種のものがあ
るため、単一の方法だけでは単語間スペースの検出を誤
ることがあった。本発明は上記の問題点を解決するため
になされたもので、その目的とするところは、字体や印
字の形態にかかわらず単語間のスペースを常に的確に検
出することができる単語間スペース検出方法を提供する
ことにある。
【0006】
【課題を解決するための手段】上記目的を達成するため
に、第1の発明は、入力された英文書画像から個々の文
字を切り出して文字間のスペース幅を算出し、得られた
各スペース幅の頻度分布をクラス幅ごとのヒストグラム
として表し、ヒストグラム中に形成された文字間を表す
スペース幅の山部とそれよりも上位に位置して単語間を
表すスペース幅の山部との中間に形成された谷部に該当
するスペース幅を、文字間のスペース幅と単語間のスペ
ース幅を区分するしきい値とし、算出された文字間スペ
ース幅がしきい値よりも大きい場合はその文字間スペー
ス幅を単語間スペースとして検出する単語間スペース検
出方法において、切り出された個々の文字を認識した後
に、文字間スペースの前後に位置する文字についての文
字組ルールにより決定される補正係数を用いて、算出し
た文字間スペース幅を補正し、その後にヒストグラムを
作成するようにしたことを特徴とする。
【0007】第2の発明は、第1の発明において、文字
間スペース幅の頻度分布を表すヒストグラムの谷部のい
ずれにも頻度分布値が0のクラスがない場合は、クラス
幅を順次狭くしていき谷部に頻度分布値0のクラスが出
現したところでそのクラス内のスペース幅をしきい値と
するようにしたことを特徴とする。
【0008】第3の発明は、第1の発明または第2の発
明において、谷部に位置するクラス内のスペース幅から
しきい値を求める際に、そのクラスの中央値となるスペ
ース幅をしきい値とするようにしたことを特徴とする。
【0009】第4の発明は、入力された英文書画像から
個々の文字を切り出して文字間のスペース幅を算出し、
得られた各スペース幅の頻度分布をクラス幅ごとのヒス
トグラムとして表し、ヒストグラム中に形成された文字
間を表すスペース幅の山部とそれよりも上位に位置して
単語間を表すスペース幅の山部との中間に形成された谷
部に該当するスペース幅を、文字間のスペース幅と単語
間のスペース幅を区分するしきい値とし、算出された文
字間スペース幅がしきい値よりも大きい場合はその文字
間スペース幅を単語間スペースとして検出する単語間ス
ペース検出方法において、予め、各種の字体および印字
形態からなる学習用の英文書画像を入力し、その画像か
ら個々の文字を切り出して文字間のスペース幅を算出
し、それらの頻度分布をヒストグラムとして表し、ヒス
トグラム中に形成された単語間を表すスペース幅の山部
および文字間を表すスペース幅の山部それぞれのピーク
となるスペース幅を検出し、ピークのスペース幅とそれ
ぞれピーク以外のスペース幅との比を算出して補正係数
とし、得られた各補正係数から各文字の前後組合せごと
に文字間のスペース幅をピークのスペース幅に修正する
ための補正係数テーブルを学習用英文書画像ごとに作成
しておき、次いで、検出対象として切り出された個々の
文字を認識し、文字間スペースの前後に位置する文字の
組合せごとに予め作成した複数の補正係数テーブルを参
照し算出した文字間のスペース幅を補正し、参照した補
正係数テーブルごとにスペース幅の頻度分布を示すヒス
トグラムを作成して比較し、最適な補正結果を選択しそ
の補正結果を用いて算出した文字間スペース幅を補正す
るようにしたことを特徴とする。
【0010】
【作用】第1の発明においては、切り出された個々の文
字を認識した後に、文字間スペースの前後に位置する文
字についての文字組ルールにより決定される補正係数を
用いて、算出した文字間スペース幅が補正され、その後
にヒストグラムが作成されてから単語間スペースが検出
される。
【0011】第2の発明においては、文字間スペース幅
の頻度分布を表すヒストグラムの谷部のいずれにも頻度
分布値が0のクラスがない場合に、クラス幅を順次狭く
して頻度分布を求め、谷部に頻度分布値0のクラスが出
現したところでそのクラス内のスペース幅がしきい値と
されてヒストグラムが作成されて単語間スペースが検出
される。
【0012】第3の発明においては、谷部に位置するク
ラス内のスペース幅からしきい値を求める際に、そのク
ラスの中央値となるスペース幅がしきい値とされてヒス
トグラムが作成されて単語間スペースが検出される。
【0013】第4の発明においては、予め各種の字体お
よび印字形態からなる学習用の英文書画像が入力される
と、その画像から個々の文字が切り出されて文字間のス
ペース幅が算出される。それらの頻度分布はヒストグラ
ムとして表され、ヒストグラム中に形成された単語間を
表すスペース幅の山部および文字間を表すスペース幅の
山部それぞれのピークとなるスペース幅が検出される。
さらに、ピークのスペース幅とピーク以外の各スペース
幅との比が算出されて補正係数が求められ、得られた補
正係数から各文字の前後組合せごとに文字間のスペース
幅をピークのスペース幅に修正するための補正係数テー
ブルが学習用英文書画像ごとに作成される。次いで、検
出対象として切り出された個々の文字が認識され、文字
間スペースの前後に位置する文字の組合せごとに予め作
成しておいた複数の補正係数テーブルを参照して算出し
た文字間のスペース幅が補正され、参照した補正係数テ
ーブルごとにスペース幅の頻度分布を示すヒストグラム
が作成・比較されて最適な補正結果が選択され、その補
正結果を用いて算出した文字間スペース幅が補正されて
から単語間スペースが検出される。
【0014】
【実施例】以下、図に沿って本発明の実施例を説明す
る。図1は第1ないし第3の発明の実施例による単語間
スペース検出処理を含む文字認識処理を示すフローチャ
ートである。図2は処理対象となる文字列の一例を説明
するための説明図である。図3は図2の文字列から得ら
れるスペース幅の頻度を示すヒストグラムであり、予め
定められている標準文字サイズの5%(数ドット)をク
ラス幅としてヒストグラムを作成した。図4は図3に示
す頻度ヒストグラムに対して補正係数による補正を行な
った場合の補正されたスペース幅の頻度を示すヒストグ
ラムである。図5は図2に示す文字列を処理した場合の
最終的な認識結果を示す図である。
【0015】次に、図1ないし図5により単語間スペー
ス検出方法の実施例を説明する。図1において、プロポ
ーショナル印字された英文の文書画像が入力されると
(S11)、各文字が外接矩形によって切り出される
(S12)。この文字切出し方法は周知の方法を用いる
ことができるので、詳細な説明は省略する。この外接矩
形の座標をもとに、文字間のスペース幅が計算され、文
字間スペース情報の配列SP[]に格納される(S1
3)。ここで、SP[i]は文字番号iと文字番号(i
+1)の間の文字間スペース(ドット数)を表わし、次
式により定義される。
【0016】SP[i]=ST[i+1]−ED[i] 但し、ST[i],ED[i]はそれぞれ文字番号iの
文字開始座標、終了座標を示している。従って、上式の
着目文字の文字間スペースは、次の文字の開始座標から
着目文字の終了座標値を引いたもの(ドット数)で表わ
されることを示している。図2に示す文字列からS13
の処理により算出された文字間スペースを、標準文字サ
イズの5%をクラス幅としてヒストグラムをとった場合
の頻度ヒストグラムは図3のようになり、3つの群が存
在してしまう。スペース幅が20〜25%の個所に群が
生じているのは、文字‘f’と‘f’、‘f’と‘t’
の間のスペースによるものである。
【0017】次に、切り出された各文字に対して認識が
行なわれる(S14)。この処理は、通常の認識処理で
ある。ここで得られた認識結果に基づき、S13の処理
において算出された文字間スペースの幅を、その前後の
文字についての文字組ルールにより決定される補正値に
より補正する(S15)。このスペース幅の補正は次式
により行なわれる。 SP’[i]=H(ch[i],ch[i+1])×SP[i] 但し、ch[i]は文字番号iの文字の認識結果、H
(a,b)は前の文字a,後ろの文字bのスペースに対
する補正係数、SP’「i」は補正されたスペース幅で
ある。
【0018】補正係数としては、例えば実験により表1
のような値が求められる。なお、表1に記載されていな
い文字の補正係数は1.0である。
【0019】
【表1】
【0020】補正係数により補正されたスペースに基づ
いて図4に示す頻度ヒストグラムが作成される(S1
6)。図4からも明らかなように、補正により図3の2
0〜25%の群M3が30〜35%の群M2に移動し
て、群M3がなくなる。このように、頻度ヒストグラム
を2つの群に変更した後、2つの群の間の谷の中で頻度
が0となるクラスを検出し、このクラスの中でスペース
のしきい値THを決定する(S17)。頻度が0となる
クラスが存在しない場合は、クラス幅を小さくして再度
詳細な頻度ヒストグラムを作成し、頻度が0となるクラ
スを求める。それでも頻度0のクラスが見い出されない
場合は、さらにクラス幅を小さくしていき最終的には画
素単位まで小さくする。このようにして頻度0のクラス
を見つけてから、そのクラスの中でスペースのしきい値
THを決定する。
【0021】このしきい値THの決定は、次のようにし
て行なわれる。図4の例では、頻度0のクラスは文字サ
イズの15〜20%(7〜8ドット),20〜25%
(9〜10ドット),25〜30%(10〜12ドッ
ト)の3つのクラスとなるので、これらのクラスの中の
中央値10ドットをしきい値THとして決定する。この
ようにしてしきい値THが決定されると、しきい値TH
と補正されたスペース長SP’[i]とを比較して、T
H<SP’[i]であれば単語間スペース、そうでない
場合は文字間スペースと判定し、単語間スペースと判定
された個所にスペース文字を挿入する(S18)。
【0022】これらの処理を図2の文字列に対しておこ
ない、単語間スペースを検出し、単語間スペースにスペ
ース文字を挿入した場合の最終的な認識結果が図5とな
る。図5では、各単語間に空白が正しく挿入されたこと
が示されている。このようにして、各単語間空白が正し
く挿入された文字列に対し、誤読文字の修正、大文字・
小文字の変更等の後処理が行なわれる(S19)。
【0023】次に第4の発明の実施例について説明す
る。図6は、サンプル文書から学習により補正係数テー
ブルを作成するまでの処理を示すフローチャートであ
る。図において、初めに学習用として英文書画像が入力
されると(S61)、図1の処理と同様に、文字の切出
し、文字間スペース幅の算出および文字の認識がなされ
る(S62〜S64)。次に、算出された文字間スペー
スの頻度分布からヒストグラムを作成し、ヒストグラム
中にあらわれた文字間スペースの山と単語間スペースの
山それぞれのピーク値を検出する(S65)。図7は作
成されたヒストグラムの一例を示す。さらに図8は、図
7にあらわれた文字間スペースの山からピーク値Sc
を、単語間スペースの山からピーク値Swそれぞれ求め
たことを示す。
【0024】次いで、検出された各ピーク値Sc,Sw
を基準値として、文字間スペースの山および単語間スペ
ースの山にそれぞれ属するスペース幅SP[i]から、
文字の組合せごとに補正係数Kiを求める(S66)。
すなわち、文字間スペースの山については、次式、 Ki=Sc/SP[i] により求め、単語間スペースの山については、次式、 Ki=Sw/SP[i] により求める。
【0025】ここで得られた補正係数Kiを、スペース
前後の文字の組合せごとに集計して平均値を求め補正係
数テーブルを作成する(S67)。このようにして、プ
ロポーショナル印字された英文書、またはそうでない英
文書も含めて、各種字体のサンプル文書を入力してこれ
らの処理を繰り返し実行させることにより、複数の補正
係数テーブルが作成される。なお、テーブルの初期値は
1.0である。表2はタイプライター文書をサンプルと
した場合に作成された補正係数テーブルの一部を示す。
【0026】
【表2】
【0027】表3は字体がモダンである英文雑誌をサン
プルとした場合に作成された補正係数テーブルの一部を
示す。
【0028】
【表3】
【0029】図9は、入力された英文文書画像について
認識した後に補正係数テーブルを用いてスペース幅を補
正し、単語間スペースを検出する処理についてのフロー
チャートである。図において、初めに文書画像が入力さ
れると(S91)、図1の処理と同様に、文字の切出
し、文字間スペースの算出および文字の認識がなされる
(S92〜S94)。
【0030】次に、文字の認識結果を用いて、予め作成
した各補正係数テーブルごとに、スペース前後に位置す
る文字の組合せに応じて空白すなわちスペース幅を補正
する(S95)。次いで、補正されたスペース幅につい
ての頻度分布を表すヒストグラムを、補正係数テーブル
ごとに作成し、さらにヒストグラム中にあらわれた文字
間スペースの山と単語間スペースの山それぞれの拡がり
が最も少ないヒストグラムを最適な補正として決定する
(S96)。図10〜図12は、同一の入力英文書に対
してそれぞれ異なる3種類の補正係数テーブルを用い
て、スペース幅を補正し、その頻度分布をヒストグラム
として表したものである。
【0031】これらの図のなかでは、図12の文字間ス
ペースの山の幅hcおよび単語間スペースの山の幅hw
が最も小さいものとなり、図12のヒストグラムが最も
適した補正として選択される。こうして得られた最適な
ヒストグラムを用い、文字間スペースと単語間スペース
を区分するしきい値を決定し、しきい値により大きいス
ペース幅についてのみを単語間スペースと判定する(S
97)。次いで、単語間スペースとして判定されたスペ
ースの位置には空白記号を挿入する(S98)。なお、
S97以降の処理は、図1のS17以降と同じである。
【0032】第4の発明の実施例では、英文書を入力す
ると、その文書固有の補正係数テーブルが学習により自
動作成されるため、新規な英文書を入力して認識しよう
とする場合にも、常に精度の良い単語間空白の検出がで
きるようになる。なお、この実施例では、最適なヒスト
グラムが決定されると、それに用いられた補正係数テー
ブルに付随する文書の字体、文字組情報が得られるの
で、以後の処理にも好都合である。このようにして、本
発明の各実施例では、従来、一律に判定することが適切
でなかった文字間と単語間のスペースについてを、その
入力された英文書ごとに最も適当なしきい値が自動的に
設定されるようになり、認識した文字行ごとに的確な単
語間空白が挿入されるようになる。
【0033】
【発明の効果】以上述べたように第1の発明によれば、
切り出された個々の文字を認識した後に、文字間スペー
スの前後に位置する文字についての文字組ルールにより
決定される補正係数を用いて、算出した文字間スペース
幅が補正され、その後にヒストグラムが作成されてから
単語間スペースが検出されるので、文字間スペースの中
から誤りなく単語間スペースを検出することができるよ
うになる。第2の発明によれば、文字間スペース幅の分
布を表すヒストグラムの谷部のいずれにも分布値が0の
クラスがない場合に、クラス幅を順次狭くして、谷部に
分布値0のクラスが出現したところでそのクラス内のス
ペース幅がしきい値とされるので、文字切り出しの精度
等が悪い場合でもその状態で最も的確なしきい値が得ら
れて検出精度の低下を防ぐことができる。
【0034】第3の発明によれば、谷部に位置するクラ
ス内のスペース幅からしきい値を求める際に、そのクラ
スの中央値となるスペース幅がしきい値とされるので、
クラス幅が広い場合でも最も妥当な値がしきい値とな
り、その分、検出精度を向上させることができる。第4
の発明によれば、予め各種の字体および印字形態からな
る学習用の英文書画像を入力して、各種の補正係数テー
ブルを作成しておき、算出した文字間のスペース幅をそ
れぞれの補正係数テーブルにより補正して比較し、その
結果から最適な補正結果を選択するようにしたので、検
出対象の英文書が各種の字体や印字形態であってもそれ
らに応じて正確に単語間スペースを検出することができ
る。
【図面の簡単な説明】
【図1】第1ないし第3の発明の実施例の処理動作を示
すフローチャートである。
【図2】処理対象の英文文字列の一例を示す図である。
【図3】スペース幅の頻度分布を示すヒストグラムであ
る。
【図4】スペース幅を補正した後のヒストグラムであ
る。
【図5】再現された英文文字列の一例を示す図である。
【図6】第4の発明の実施例の処理動作の一部を示すフ
ローチャートである。
【図7】同じく実施例におけるスペース幅の頻度分布を
示すヒストグラムである。
【図8】スペース幅の頻度分布を示すヒストグラムであ
る。
【図9】処理動作の一部を示すフローチャートである。
【図10】スペース幅の頻度分布を示すヒストグラムで
ある。
【図11】スペース幅の頻度分布を示すヒストグラムで
ある。
【図12】スペース幅の頻度分布を示すヒストグラムで
ある。
【図13】従来方法により作成されたヒストグラムであ
る。
【図14】従来方法により作成されたヒストグラムであ
る。
【図15】従来方法により作成されたヒストグラムであ
る。
【図16】従来方法において発生する誤統合の一例を示
す図である。
【図17】従来方法において発生する誤分割の一例を示
す図である。
【符号の説明】
M1 文字間スペース群 M2 単語間スペース群 M3 未確定スペース群 V 頻度0の部分(谷) Sc 文字間スペースの山のピーク値 Sw 単語間スペースの山のピーク値 hc 文字間スペースの山の幅 hw 単語間スペースの山の幅
フロントページの続き (72)発明者 小倉 一郎 東京都日野市富士町1番地 富士フアコム 制御株式会社内

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 入力された英文書画像から個々の文字を
    切り出して文字間のスペース幅を算出し、得られた各ス
    ペース幅の頻度分布をクラス幅ごとのヒストグラムとし
    て表し、ヒストグラム中に形成された文字間を表すスペ
    ース幅の山部とそれよりも上位に位置して単語間を表す
    スペース幅の山部との中間に形成された谷部に該当する
    スペース幅を、文字間のスペース幅と単語間のスペース
    幅を区分するしきい値とし、算出された文字間スペース
    幅がしきい値よりも大きい場合はその文字間スペース幅
    を単語間スペースとして検出する単語間スペース検出方
    法において、切り出された個々の文字を認識した後に、
    文字間スペースの前後に位置する文字についての文字組
    ルールにより決定される補正係数を用いて、算出した文
    字間スペース幅を補正し、その後にヒストグラムを作成
    するようにしたことを特徴とする単語間スペース検出方
    法。
  2. 【請求項2】 請求項1記載の単語間スペース検出方法
    において、文字間スペース幅の頻度分布を表すヒストグ
    ラムの谷部のいずれにも頻度分布値が0のクラスがない
    場合は、クラス幅を順次狭くしていき谷部に頻度分布値
    0のクラスが出現したところでそのクラス内のスペース
    幅をしきい値とするようにしたことを特徴とする単語間
    スペース検出方法。
  3. 【請求項3】 請求項1または請求項2記載の単語間ス
    ペース検出方法において、谷部に位置するクラス内のス
    ペース幅からしきい値を求める際に、そのクラスの中央
    値となるスペース幅をしきい値とするようにしたことを
    特徴とする単語間スペース検出方法。
  4. 【請求項4】 入力された英文書画像から個々の文字を
    切り出して文字間のスペース幅を算出し、得られた各ス
    ペース幅の頻度分布をクラス幅ごとのヒストグラムとし
    て表し、ヒストグラム中に形成された文字間を表すスペ
    ース幅の山部とそれよりも上位に位置して単語間を表す
    スペース幅の山部との中間に形成された谷部に該当する
    スペース幅を、文字間のスペース幅と単語間のスペース
    幅を区分するしきい値とし、算出された文字間スペース
    幅がしきい値よりも大きい場合はその文字間スペース幅
    を単語間スペースとして検出する単語間スペース検出方
    法において、予め、各種の字体および印字形態からなる
    学習用の英文書画像を入力し、その画像から個々の文字
    を切り出して文字間のスペース幅を算出し、それらの頻
    度分布をヒストグラムとして表し、ヒストグラム中に形
    成された単語間を表すスペース幅の山部および文字間を
    表すスペース幅の山部それぞれのピークとなるスペース
    幅を検出し、ピークのスペース幅とそれぞれピーク以外
    のスペース幅との比を算出して補正係数とし、得られた
    各補正係数から各文字の前後組合せごとに文字間のスペ
    ース幅をピークのスペース幅に修正するための補正係数
    テーブルを学習用英文書画像ごとに作成しておき、次い
    で、検出対象として切り出された個々の文字を認識し、
    文字間スペースの前後に位置する文字の組合せごとに予
    め作成した複数の補正係数テーブルを参照し算出した文
    字間のスペース幅を補正し、参照した補正係数テーブル
    ごとにスペース幅の頻度分布を示すヒストグラムを作成
    して比較し、最適な補正結果を選択しその補正結果を用
    いて算出した文字間スペース幅を補正するようにしたこ
    とを特徴とする単語間スペース検出方法。
JP3165100A 1990-10-01 1991-06-10 単語間スペース検出方法 Expired - Fee Related JP2915175B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3165100A JP2915175B2 (ja) 1990-10-01 1991-06-10 単語間スペース検出方法

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2-263461 1990-10-01
JP26346190 1990-10-01
JP3165100A JP2915175B2 (ja) 1990-10-01 1991-06-10 単語間スペース検出方法

Publications (2)

Publication Number Publication Date
JPH056459A true JPH056459A (ja) 1993-01-14
JP2915175B2 JP2915175B2 (ja) 1999-07-05

Family

ID=26489961

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3165100A Expired - Fee Related JP2915175B2 (ja) 1990-10-01 1991-06-10 単語間スペース検出方法

Country Status (1)

Country Link
JP (1) JP2915175B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008171400A (ja) * 2006-12-13 2008-07-24 Canon Inc 文書処理方法及び文書処理装置
US20130034302A1 (en) * 2011-08-03 2013-02-07 Sharp Kabushiki Kaisha Character recognition apparatus, character recognition method and program
JP2013097561A (ja) * 2011-10-31 2013-05-20 Fujitsu Ltd 単語間空白検出装置、単語間空白検出方法及び単語間空白検出用コンピュータプログラム
JP2014021533A (ja) * 2012-07-12 2014-02-03 Fuji Xerox Co Ltd 情報処理装置及び情報処理プログラム
CN113780265A (zh) * 2021-09-16 2021-12-10 平安科技(深圳)有限公司 英文单词的空格识别方法、装置、存储介质及计算机设备

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008171400A (ja) * 2006-12-13 2008-07-24 Canon Inc 文書処理方法及び文書処理装置
US20130034302A1 (en) * 2011-08-03 2013-02-07 Sharp Kabushiki Kaisha Character recognition apparatus, character recognition method and program
US8861862B2 (en) * 2011-08-03 2014-10-14 Sharp Kabushiki Kaisha Character recognition apparatus, character recognition method and program
JP2013097561A (ja) * 2011-10-31 2013-05-20 Fujitsu Ltd 単語間空白検出装置、単語間空白検出方法及び単語間空白検出用コンピュータプログラム
JP2014021533A (ja) * 2012-07-12 2014-02-03 Fuji Xerox Co Ltd 情報処理装置及び情報処理プログラム
CN113780265A (zh) * 2021-09-16 2021-12-10 平安科技(深圳)有限公司 英文单词的空格识别方法、装置、存储介质及计算机设备
CN113780265B (zh) * 2021-09-16 2023-12-15 平安科技(深圳)有限公司 英文单词的空格识别方法、装置、存储介质及计算机设备

Also Published As

Publication number Publication date
JP2915175B2 (ja) 1999-07-05

Similar Documents

Publication Publication Date Title
US5664027A (en) Methods and apparatus for inferring orientation of lines of text
US7054485B2 (en) Image processing method, apparatus and system
US6944344B2 (en) Document search and retrieval apparatus, recording medium and program
CN1276077A (zh) 用于多种语言光字符识别的自动语言识别系统
JPH10116340A (ja) ビットマップ比較装置及び方法
JP2000315247A (ja) 文字認識装置
US8787702B1 (en) Methods and apparatus for determining and/or modifying image orientation
US8526744B2 (en) Document processing apparatus and computer readable medium
JPH0634256B2 (ja) 接触文字切出し方法
JP2915175B2 (ja) 単語間スペース検出方法
Baird Global-to-local layout analysis
US5150108A (en) Method for slanting a generic font format while inserting corrective pixels to improve print quality
JP3537570B2 (ja) 日英混在文書のスペース検出方法、ピッチ書式判定方法及び定ピッチ英数文字列のスペース検出方法
JPH04352295A (ja) 文字列方向判別装置
KR100577722B1 (ko) 터치스크린에서의 속도감지에 의한 글자체 처리방법
JP3086264B2 (ja) 文字間スペース認識方法
CN118262362A (en) High-precision character segmentation method and system
Spitz Tilting at windmills: Adventures in attempting to reconstruct Don Quixote
JPH04139594A (ja) 単語間スペース検出方法
JP3093397B2 (ja) 文字認識方法
JP2730996B2 (ja) 日本語文書の接触文字の切出し方法
JPH07225812A (ja) 自動テキスト特徴決定システム
JP2851102B2 (ja) 文字切出し方法
JP4107659B2 (ja) 手書き風文字フォント出力システム
JPS6139172A (ja) 文字検出切出方式

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19990406

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080416

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090416

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100416

Year of fee payment: 11

LAPS Cancellation because of no payment of annual fees