JPH056459A

JPH056459A - 単語間スペース検出方法

Info

Publication number: JPH056459A
Application number: JP3165100A
Authority: JP
Inventors: Yasuo Hongo; 保夫本郷; Masatoshi Okada; 正年岡田; Ichiro Ogura; 一郎小倉
Original assignee: Fuji Electric Co Ltd; Fuji Facom Corp
Current assignee: Fuji Electric Co Ltd; Fuji Facom Corp
Priority date: 1990-10-01
Filing date: 1991-06-10
Publication date: 1993-01-14
Anticipated expiration: 2014-07-05
Also published as: JP2915175B2

Abstract

(57)【要約】【目的】英文書を認識する際に前後の文字の組合せに
よって異なる文字間スペースを補正することにより、単
語間スペースを高精度に検出する。【構成】入力された英文書画像から個々の文字を切り
出して文字間のスペース幅を算出するとともに（Ｓ１１
〜１３）、切り出された個々の文字を認識し（Ｓ１
４）、さらに、各文字間スペースの前後に位置する文字
の組合せに応じた補正係数を用いて、文字間スペース幅
を補正する（Ｓ１５）。次に、得られた各スペース幅の
頻度分布をクラス幅ごとのヒストグラムとして表し（Ｓ
１６）、ヒストグラム中にあらわれた谷から文字間と単
語間とのスペース幅を区分するしきい値を決定すること
により（Ｓ１７）、単語間スペースを検出して空白記号
を挿入する（Ｓ１８）。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】この発明は、文字読み取り方法、
特にプロポーショナル印字された英文の文書画像から単
語間のスペース（単語間スペース）を検出する方法に関
する。なお、プロポーショナル印字とは、英文の複数単
語が１行内に納まるように行毎に調整して印字する手法
をいう。

【０００２】

【従来の技術】従来、プロポーショナル印字された英文
の単語間スペースを検出する方法としては、行毎に文字
間のスペース（文字間スペース）の頻度を求め、頻度分
布の文字間スペースを表わすピークと単語間スペースを
表わすピークとの間の谷に相当する頻度０の個所を検出
のためのしきい値とするものが知られている（例えば、
特開昭６３−１５８６７８号公報参照）。すなわち、ス
ペースの１ドット刻みの頻度分布が、例えば図１３のよ
うに、文字間スペースの群Ｍ１と単語間スペースの群Ｍ
２の２つの群の間に、頻度０の個所（谷Ｖ）が存在する
ことを想定してしきい値を決定するものである。また、
図１３のように頻度分布を１ドット刻みでとるのではな
く、予め文字サイズにより定められた幅（クラス幅とも
いう）を持ったヒストグラムとすることによりスペース
のばらつきによる不適切な谷の発生を防止する方法も本
出願人により考案されている。すなわち、図１４に示す
ように標準文字サイズの５％（数ドット）をクラス幅と
する頻度ヒストグラムを作成して文字間スペースの群Ｍ
１と単語間スペースの群Ｍ２の２つの群の間に、頻度０
の個所（谷Ｖ）が存在することを想定してしきい値を決
定するものである。

【０００３】

【発明が解決しようとする課題】しかし、このような従
来の方法は、図１３、図１４に示されているようにスペ
ース幅の頻度が文字間スペースの群と単語間スペースの
群の２つの群を持つ双方性の分布をなしていることを前
提として、群と群との間の谷に相当するしきい値として
単語間スペースを検出するものであった。しかし、実際
の文書では、図１５のように群が３つ以上存在する頻度
分布、すなわち文字間スペースの群Ｍ１と単語間スペー
スの群Ｍ２の２つの群以外に、文字間スペースか単語間
スペースかを明確に確定できないスペースの群Ｍ３（つ
まり未確定スペース群）が発生する場合がある。

【０００４】このような群が発生する原因として、次の
２つがあげられる。（１）単語内でカーニング（くい込み）が発生してしま
うような文字の組合せ（例えば、ｆとｔ）の間にある単
語間スペースは通常の単語間スペースよりも小さくな
る。（２）ゴシック、ボールド等のサンセリフのフォントの
ｕとｍ、ｍとｐ等の間の文字間スペースは通常の文字間
スペースよりも小さくなる。このような文字組ルール上の傾向が実際の文書にあるた
め、小さめの単語間スペースや大きめの文字間スペース
が独立した群を作ってしまう。

【０００５】このように頻度分布の群が３つ以上存在し
ている場合には、しきい値が正しく決定できず、図１６
の「＊」印に示すような単語の誤統合や図１７の「＊」
印に示すような誤分割を起こしてしまうことがある。ま
た、英文書は字体の種類が多く、しかも印字の形態につ
いてもタイプライタや写植というように各種のものがあ
るため、単一の方法だけでは単語間スペースの検出を誤
ることがあった。本発明は上記の問題点を解決するため
になされたもので、その目的とするところは、字体や印
字の形態にかかわらず単語間のスペースを常に的確に検
出することができる単語間スペース検出方法を提供する
ことにある。

【０００６】

【課題を解決するための手段】上記目的を達成するため
に、第１の発明は、入力された英文書画像から個々の文
字を切り出して文字間のスペース幅を算出し、得られた
各スペース幅の頻度分布をクラス幅ごとのヒストグラム
として表し、ヒストグラム中に形成された文字間を表す
スペース幅の山部とそれよりも上位に位置して単語間を
表すスペース幅の山部との中間に形成された谷部に該当
するスペース幅を、文字間のスペース幅と単語間のスペ
ース幅を区分するしきい値とし、算出された文字間スペ
ース幅がしきい値よりも大きい場合はその文字間スペー
ス幅を単語間スペースとして検出する単語間スペース検
出方法において、切り出された個々の文字を認識した後
に、文字間スペースの前後に位置する文字についての文
字組ルールにより決定される補正係数を用いて、算出し
た文字間スペース幅を補正し、その後にヒストグラムを
作成するようにしたことを特徴とする。

【０００７】第２の発明は、第１の発明において、文字
間スペース幅の頻度分布を表すヒストグラムの谷部のい
ずれにも頻度分布値が０のクラスがない場合は、クラス
幅を順次狭くしていき谷部に頻度分布値０のクラスが出
現したところでそのクラス内のスペース幅をしきい値と
するようにしたことを特徴とする。

【０００８】第３の発明は、第１の発明または第２の発
明において、谷部に位置するクラス内のスペース幅から
しきい値を求める際に、そのクラスの中央値となるスペ
ース幅をしきい値とするようにしたことを特徴とする。

【０００９】第４の発明は、入力された英文書画像から
個々の文字を切り出して文字間のスペース幅を算出し、
得られた各スペース幅の頻度分布をクラス幅ごとのヒス
トグラムとして表し、ヒストグラム中に形成された文字
間を表すスペース幅の山部とそれよりも上位に位置して
単語間を表すスペース幅の山部との中間に形成された谷
部に該当するスペース幅を、文字間のスペース幅と単語
間のスペース幅を区分するしきい値とし、算出された文
字間スペース幅がしきい値よりも大きい場合はその文字
間スペース幅を単語間スペースとして検出する単語間ス
ペース検出方法において、予め、各種の字体および印字
形態からなる学習用の英文書画像を入力し、その画像か
ら個々の文字を切り出して文字間のスペース幅を算出
し、それらの頻度分布をヒストグラムとして表し、ヒス
トグラム中に形成された単語間を表すスペース幅の山部
および文字間を表すスペース幅の山部それぞれのピーク
となるスペース幅を検出し、ピークのスペース幅とそれ
ぞれピーク以外のスペース幅との比を算出して補正係数
とし、得られた各補正係数から各文字の前後組合せごと
に文字間のスペース幅をピークのスペース幅に修正する
ための補正係数テーブルを学習用英文書画像ごとに作成
しておき、次いで、検出対象として切り出された個々の
文字を認識し、文字間スペースの前後に位置する文字の
組合せごとに予め作成した複数の補正係数テーブルを参
照し算出した文字間のスペース幅を補正し、参照した補
正係数テーブルごとにスペース幅の頻度分布を示すヒス
トグラムを作成して比較し、最適な補正結果を選択しそ
の補正結果を用いて算出した文字間スペース幅を補正す
るようにしたことを特徴とする。

【００１０】

【作用】第１の発明においては、切り出された個々の文
字を認識した後に、文字間スペースの前後に位置する文
字についての文字組ルールにより決定される補正係数を
用いて、算出した文字間スペース幅が補正され、その後
にヒストグラムが作成されてから単語間スペースが検出
される。

【００１１】第２の発明においては、文字間スペース幅
の頻度分布を表すヒストグラムの谷部のいずれにも頻度
分布値が０のクラスがない場合に、クラス幅を順次狭く
して頻度分布を求め、谷部に頻度分布値０のクラスが出
現したところでそのクラス内のスペース幅がしきい値と
されてヒストグラムが作成されて単語間スペースが検出
される。

【００１２】第３の発明においては、谷部に位置するク
ラス内のスペース幅からしきい値を求める際に、そのク
ラスの中央値となるスペース幅がしきい値とされてヒス
トグラムが作成されて単語間スペースが検出される。

【００１３】第４の発明においては、予め各種の字体お
よび印字形態からなる学習用の英文書画像が入力される
と、その画像から個々の文字が切り出されて文字間のス
ペース幅が算出される。それらの頻度分布はヒストグラ
ムとして表され、ヒストグラム中に形成された単語間を
表すスペース幅の山部および文字間を表すスペース幅の
山部それぞれのピークとなるスペース幅が検出される。
さらに、ピークのスペース幅とピーク以外の各スペース
幅との比が算出されて補正係数が求められ、得られた補
正係数から各文字の前後組合せごとに文字間のスペース
幅をピークのスペース幅に修正するための補正係数テー
ブルが学習用英文書画像ごとに作成される。次いで、検
出対象として切り出された個々の文字が認識され、文字
間スペースの前後に位置する文字の組合せごとに予め作
成しておいた複数の補正係数テーブルを参照して算出し
た文字間のスペース幅が補正され、参照した補正係数テ
ーブルごとにスペース幅の頻度分布を示すヒストグラム
が作成・比較されて最適な補正結果が選択され、その補
正結果を用いて算出した文字間スペース幅が補正されて
から単語間スペースが検出される。

【００１４】

【実施例】以下、図に沿って本発明の実施例を説明す
る。図１は第１ないし第３の発明の実施例による単語間
スペース検出処理を含む文字認識処理を示すフローチャ
ートである。図２は処理対象となる文字列の一例を説明
するための説明図である。図３は図２の文字列から得ら
れるスペース幅の頻度を示すヒストグラムであり、予め
定められている標準文字サイズの５％（数ドット）をク
ラス幅としてヒストグラムを作成した。図４は図３に示
す頻度ヒストグラムに対して補正係数による補正を行な
った場合の補正されたスペース幅の頻度を示すヒストグ
ラムである。図５は図２に示す文字列を処理した場合の
最終的な認識結果を示す図である。

【００１５】次に、図１ないし図５により単語間スペー
ス検出方法の実施例を説明する。図１において、プロポ
ーショナル印字された英文の文書画像が入力されると
（Ｓ１１）、各文字が外接矩形によって切り出される
（Ｓ１２）。この文字切出し方法は周知の方法を用いる
ことができるので、詳細な説明は省略する。この外接矩
形の座標をもとに、文字間のスペース幅が計算され、文
字間スペース情報の配列ＳＰ［］に格納される（Ｓ１
３）。ここで、ＳＰ［ｉ］は文字番号ｉと文字番号（ｉ
＋１）の間の文字間スペース（ドット数）を表わし、次
式により定義される。

【００１６】ＳＰ［ｉ］＝ＳＴ［ｉ＋１］−ＥＤ［ｉ］但し、ＳＴ［ｉ］，ＥＤ［ｉ］はそれぞれ文字番号ｉの
文字開始座標、終了座標を示している。従って、上式の
着目文字の文字間スペースは、次の文字の開始座標から
着目文字の終了座標値を引いたもの（ドット数）で表わ
されることを示している。図２に示す文字列からＳ１３
の処理により算出された文字間スペースを、標準文字サ
イズの５％をクラス幅としてヒストグラムをとった場合
の頻度ヒストグラムは図３のようになり、３つの群が存
在してしまう。スペース幅が２０〜２５％の個所に群が
生じているのは、文字‘ｆ’と‘ｆ’、‘ｆ’と‘ｔ’
の間のスペースによるものである。

【００１７】次に、切り出された各文字に対して認識が
行なわれる（Ｓ１４）。この処理は、通常の認識処理で
ある。ここで得られた認識結果に基づき、Ｓ１３の処理
において算出された文字間スペースの幅を、その前後の
文字についての文字組ルールにより決定される補正値に
より補正する（Ｓ１５）。このスペース幅の補正は次式
により行なわれる。ＳＰ’［ｉ］＝Ｈ（ｃｈ［ｉ］，ｃｈ［ｉ＋１］）×ＳＰ［ｉ］但し、ｃｈ［ｉ］は文字番号ｉの文字の認識結果、Ｈ
（ａ，ｂ）は前の文字ａ，後ろの文字ｂのスペースに対
する補正係数、ＳＰ’「ｉ」は補正されたスペース幅で
ある。

【００１８】補正係数としては、例えば実験により表１
のような値が求められる。なお、表１に記載されていな
い文字の補正係数は１．０である。

【００１９】

【表１】

【００２０】補正係数により補正されたスペースに基づ
いて図４に示す頻度ヒストグラムが作成される（Ｓ１
６）。図４からも明らかなように、補正により図３の２
０〜２５％の群Ｍ３が３０〜３５％の群Ｍ２に移動し
て、群Ｍ３がなくなる。このように、頻度ヒストグラム
を２つの群に変更した後、２つの群の間の谷の中で頻度
が０となるクラスを検出し、このクラスの中でスペース
のしきい値ＴＨを決定する（Ｓ１７）。頻度が０となる
クラスが存在しない場合は、クラス幅を小さくして再度
詳細な頻度ヒストグラムを作成し、頻度が０となるクラ
スを求める。それでも頻度０のクラスが見い出されない
場合は、さらにクラス幅を小さくしていき最終的には画
素単位まで小さくする。このようにして頻度０のクラス
を見つけてから、そのクラスの中でスペースのしきい値
ＴＨを決定する。

【００２１】このしきい値ＴＨの決定は、次のようにし
て行なわれる。図４の例では、頻度０のクラスは文字サ
イズの１５〜２０％（７〜８ドット），２０〜２５％
（９〜１０ドット），２５〜３０％（１０〜１２ドッ
ト）の３つのクラスとなるので、これらのクラスの中の
中央値１０ドットをしきい値ＴＨとして決定する。この
ようにしてしきい値ＴＨが決定されると、しきい値ＴＨ
と補正されたスペース長ＳＰ’［ｉ］とを比較して、Ｔ
Ｈ＜ＳＰ’［ｉ］であれば単語間スペース、そうでない
場合は文字間スペースと判定し、単語間スペースと判定
された個所にスペース文字を挿入する（Ｓ１８）。

【００２２】これらの処理を図２の文字列に対しておこ
ない、単語間スペースを検出し、単語間スペースにスペ
ース文字を挿入した場合の最終的な認識結果が図５とな
る。図５では、各単語間に空白が正しく挿入されたこと
が示されている。このようにして、各単語間空白が正し
く挿入された文字列に対し、誤読文字の修正、大文字・
小文字の変更等の後処理が行なわれる（Ｓ１９）。

【００２３】次に第４の発明の実施例について説明す
る。図６は、サンプル文書から学習により補正係数テー
ブルを作成するまでの処理を示すフローチャートであ
る。図において、初めに学習用として英文書画像が入力
されると（Ｓ６１）、図１の処理と同様に、文字の切出
し、文字間スペース幅の算出および文字の認識がなされ
る（Ｓ６２〜Ｓ６４）。次に、算出された文字間スペー
スの頻度分布からヒストグラムを作成し、ヒストグラム
中にあらわれた文字間スペースの山と単語間スペースの
山それぞれのピーク値を検出する（Ｓ６５）。図７は作
成されたヒストグラムの一例を示す。さらに図８は、図
７にあらわれた文字間スペースの山からピーク値Ｓｃ
を、単語間スペースの山からピーク値Ｓｗそれぞれ求め
たことを示す。

【００２４】次いで、検出された各ピーク値Ｓｃ，Ｓｗ
を基準値として、文字間スペースの山および単語間スペ
ースの山にそれぞれ属するスペース幅ＳＰ［ｉ］から、
文字の組合せごとに補正係数Ｋｉを求める（Ｓ６６）。
すなわち、文字間スペースの山については、次式、Ｋｉ＝Ｓｃ／ＳＰ［ｉ］により求め、単語間スペースの山については、次式、Ｋｉ＝Ｓｗ／ＳＰ［ｉ］により求める。

【００２５】ここで得られた補正係数Ｋｉを、スペース
前後の文字の組合せごとに集計して平均値を求め補正係
数テーブルを作成する（Ｓ６７）。このようにして、プ
ロポーショナル印字された英文書、またはそうでない英
文書も含めて、各種字体のサンプル文書を入力してこれ
らの処理を繰り返し実行させることにより、複数の補正
係数テーブルが作成される。なお、テーブルの初期値は
１．０である。表２はタイプライター文書をサンプルと
した場合に作成された補正係数テーブルの一部を示す。

【００２６】

【表２】

【００２７】表３は字体がモダンである英文雑誌をサン
プルとした場合に作成された補正係数テーブルの一部を
示す。

【００２８】

【表３】

【００２９】図９は、入力された英文文書画像について
認識した後に補正係数テーブルを用いてスペース幅を補
正し、単語間スペースを検出する処理についてのフロー
チャートである。図において、初めに文書画像が入力さ
れると（Ｓ９１）、図１の処理と同様に、文字の切出
し、文字間スペースの算出および文字の認識がなされる
（Ｓ９２〜Ｓ９４）。

【００３０】次に、文字の認識結果を用いて、予め作成
した各補正係数テーブルごとに、スペース前後に位置す
る文字の組合せに応じて空白すなわちスペース幅を補正
する（Ｓ９５）。次いで、補正されたスペース幅につい
ての頻度分布を表すヒストグラムを、補正係数テーブル
ごとに作成し、さらにヒストグラム中にあらわれた文字
間スペースの山と単語間スペースの山それぞれの拡がり
が最も少ないヒストグラムを最適な補正として決定する
（Ｓ９６）。図１０〜図１２は、同一の入力英文書に対
してそれぞれ異なる３種類の補正係数テーブルを用い
て、スペース幅を補正し、その頻度分布をヒストグラム
として表したものである。

【００３１】これらの図のなかでは、図１２の文字間ス
ペースの山の幅ｈｃおよび単語間スペースの山の幅ｈｗ
が最も小さいものとなり、図１２のヒストグラムが最も
適した補正として選択される。こうして得られた最適な
ヒストグラムを用い、文字間スペースと単語間スペース
を区分するしきい値を決定し、しきい値により大きいス
ペース幅についてのみを単語間スペースと判定する（Ｓ
９７）。次いで、単語間スペースとして判定されたスペ
ースの位置には空白記号を挿入する（Ｓ９８）。なお、
Ｓ９７以降の処理は、図１のＳ１７以降と同じである。

【００３２】第４の発明の実施例では、英文書を入力す
ると、その文書固有の補正係数テーブルが学習により自
動作成されるため、新規な英文書を入力して認識しよう
とする場合にも、常に精度の良い単語間空白の検出がで
きるようになる。なお、この実施例では、最適なヒスト
グラムが決定されると、それに用いられた補正係数テー
ブルに付随する文書の字体、文字組情報が得られるの
で、以後の処理にも好都合である。このようにして、本
発明の各実施例では、従来、一律に判定することが適切
でなかった文字間と単語間のスペースについてを、その
入力された英文書ごとに最も適当なしきい値が自動的に
設定されるようになり、認識した文字行ごとに的確な単
語間空白が挿入されるようになる。

【００３３】

【発明の効果】以上述べたように第１の発明によれば、
切り出された個々の文字を認識した後に、文字間スペー
スの前後に位置する文字についての文字組ルールにより
決定される補正係数を用いて、算出した文字間スペース
幅が補正され、その後にヒストグラムが作成されてから
単語間スペースが検出されるので、文字間スペースの中
から誤りなく単語間スペースを検出することができるよ
うになる。第２の発明によれば、文字間スペース幅の分
布を表すヒストグラムの谷部のいずれにも分布値が０の
クラスがない場合に、クラス幅を順次狭くして、谷部に
分布値０のクラスが出現したところでそのクラス内のス
ペース幅がしきい値とされるので、文字切り出しの精度
等が悪い場合でもその状態で最も的確なしきい値が得ら
れて検出精度の低下を防ぐことができる。

【００３４】第３の発明によれば、谷部に位置するクラ
ス内のスペース幅からしきい値を求める際に、そのクラ
スの中央値となるスペース幅がしきい値とされるので、
クラス幅が広い場合でも最も妥当な値がしきい値とな
り、その分、検出精度を向上させることができる。第４
の発明によれば、予め各種の字体および印字形態からな
る学習用の英文書画像を入力して、各種の補正係数テー
ブルを作成しておき、算出した文字間のスペース幅をそ
れぞれの補正係数テーブルにより補正して比較し、その
結果から最適な補正結果を選択するようにしたので、検
出対象の英文書が各種の字体や印字形態であってもそれ
らに応じて正確に単語間スペースを検出することができ
る。

【図面の簡単な説明】

【図１】第１ないし第３の発明の実施例の処理動作を示
すフローチャートである。

【図２】処理対象の英文文字列の一例を示す図である。

【図３】スペース幅の頻度分布を示すヒストグラムであ
る。

【図４】スペース幅を補正した後のヒストグラムであ
る。

【図５】再現された英文文字列の一例を示す図である。

【図６】第４の発明の実施例の処理動作の一部を示すフ
ローチャートである。

【図７】同じく実施例におけるスペース幅の頻度分布を
示すヒストグラムである。

【図８】スペース幅の頻度分布を示すヒストグラムであ
る。

【図９】処理動作の一部を示すフローチャートである。

【図１０】スペース幅の頻度分布を示すヒストグラムで
ある。

【図１１】スペース幅の頻度分布を示すヒストグラムで
ある。

【図１２】スペース幅の頻度分布を示すヒストグラムで
ある。

【図１３】従来方法により作成されたヒストグラムであ
る。

【図１４】従来方法により作成されたヒストグラムであ
る。

【図１５】従来方法により作成されたヒストグラムであ
る。

【図１６】従来方法において発生する誤統合の一例を示
す図である。

【図１７】従来方法において発生する誤分割の一例を示
す図である。

【符号の説明】

Ｍ１文字間スペース群Ｍ２単語間スペース群Ｍ３未確定スペース群Ｖ頻度０の部分（谷）Ｓｃ文字間スペースの山のピーク値Ｓｗ単語間スペースの山のピーク値ｈｃ文字間スペースの山の幅ｈｗ単語間スペースの山の幅

フロントページの続き (72)発明者小倉一郎東京都日野市富士町１番地富士フアコム制御株式会社内

Claims

【特許請求の範囲】

【請求項１】入力された英文書画像から個々の文字を
切り出して文字間のスペース幅を算出し、得られた各ス
ペース幅の頻度分布をクラス幅ごとのヒストグラムとし
て表し、ヒストグラム中に形成された文字間を表すスペ
ース幅の山部とそれよりも上位に位置して単語間を表す
スペース幅の山部との中間に形成された谷部に該当する
スペース幅を、文字間のスペース幅と単語間のスペース
幅を区分するしきい値とし、算出された文字間スペース
幅がしきい値よりも大きい場合はその文字間スペース幅
を単語間スペースとして検出する単語間スペース検出方
法において、切り出された個々の文字を認識した後に、
文字間スペースの前後に位置する文字についての文字組
ルールにより決定される補正係数を用いて、算出した文
字間スペース幅を補正し、その後にヒストグラムを作成
するようにしたことを特徴とする単語間スペース検出方
法。
【請求項２】請求項１記載の単語間スペース検出方法
において、文字間スペース幅の頻度分布を表すヒストグ
ラムの谷部のいずれにも頻度分布値が０のクラスがない
場合は、クラス幅を順次狭くしていき谷部に頻度分布値
０のクラスが出現したところでそのクラス内のスペース
幅をしきい値とするようにしたことを特徴とする単語間
スペース検出方法。
【請求項３】請求項１または請求項２記載の単語間ス
ペース検出方法において、谷部に位置するクラス内のス
ペース幅からしきい値を求める際に、そのクラスの中央
値となるスペース幅をしきい値とするようにしたことを
特徴とする単語間スペース検出方法。
【請求項４】入力された英文書画像から個々の文字を
切り出して文字間のスペース幅を算出し、得られた各ス
ペース幅の頻度分布をクラス幅ごとのヒストグラムとし
て表し、ヒストグラム中に形成された文字間を表すスペ
ース幅の山部とそれよりも上位に位置して単語間を表す
スペース幅の山部との中間に形成された谷部に該当する
スペース幅を、文字間のスペース幅と単語間のスペース
幅を区分するしきい値とし、算出された文字間スペース
幅がしきい値よりも大きい場合はその文字間スペース幅
を単語間スペースとして検出する単語間スペース検出方
法において、予め、各種の字体および印字形態からなる
学習用の英文書画像を入力し、その画像から個々の文字
を切り出して文字間のスペース幅を算出し、それらの頻
度分布をヒストグラムとして表し、ヒストグラム中に形
成された単語間を表すスペース幅の山部および文字間を
表すスペース幅の山部それぞれのピークとなるスペース
幅を検出し、ピークのスペース幅とそれぞれピーク以外
のスペース幅との比を算出して補正係数とし、得られた
各補正係数から各文字の前後組合せごとに文字間のスペ
ース幅をピークのスペース幅に修正するための補正係数
テーブルを学習用英文書画像ごとに作成しておき、次い
で、検出対象として切り出された個々の文字を認識し、
文字間スペースの前後に位置する文字の組合せごとに予
め作成した複数の補正係数テーブルを参照し算出した文
字間のスペース幅を補正し、参照した補正係数テーブル
ごとにスペース幅の頻度分布を示すヒストグラムを作成
して比較し、最適な補正結果を選択しその補正結果を用
いて算出した文字間スペース幅を補正するようにしたこ
とを特徴とする単語間スペース検出方法。