JPH04139594A - 単語間スペース検出方法 - Google Patents
単語間スペース検出方法Info
- Publication number
- JPH04139594A JPH04139594A JP2260560A JP26056090A JPH04139594A JP H04139594 A JPH04139594 A JP H04139594A JP 2260560 A JP2260560 A JP 2260560A JP 26056090 A JP26056090 A JP 26056090A JP H04139594 A JPH04139594 A JP H04139594A
- Authority
- JP
- Japan
- Prior art keywords
- frequency
- class
- character
- space
- threshold
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title description 7
- 238000001514 detection method Methods 0.000 claims abstract description 5
- 230000010354 integration Effects 0.000 abstract description 2
- 239000006185 dispersion Substances 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 7
- 230000011218 segmentation Effects 0.000 description 2
- 238000005520 cutting process Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
Landscapes
- Character Input (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔産業上の利用分野〕
この発明は、文字読み取り方法、特にプロポーショナル
印字された英文の文書画像から単語間のスペース(単語
間スペース)を検出する方法に関する。なお、プロポー
ショナル印字とは、英文の複数単語が1行内に納まるよ
う行毎に調整して印字する手法をいう。
印字された英文の文書画像から単語間のスペース(単語
間スペース)を検出する方法に関する。なお、プロポー
ショナル印字とは、英文の複数単語が1行内に納まるよ
う行毎に調整して印字する手法をいう。
従来、プロポーショナル印字された英文の単語間スペー
スを検出する方法としては、行毎に文字間のスペース(
文字間スペース)の頻度を求め、頻度分布の文字間スペ
ースを表わすピークと単語間スペースを表わすピークと
の間の谷に相当する頻度0の箇所を、検出のためのしき
い値とするものが知られている(例えば、特開昭63−
158678号公報参照)。
スを検出する方法としては、行毎に文字間のスペース(
文字間スペース)の頻度を求め、頻度分布の文字間スペ
ースを表わすピークと単語間スペースを表わすピークと
の間の谷に相当する頻度0の箇所を、検出のためのしき
い値とするものが知られている(例えば、特開昭63−
158678号公報参照)。
すなわち、スペースの頻度分布が例えば第6図のように
、文字間スペースの山M1と単語間スペースの山M2の
2つの山の間に、頻度0の箇所(谷■)が存在すること
を想定してしきい値を決定するものである。
、文字間スペースの山M1と単語間スペースの山M2の
2つの山の間に、頻度0の箇所(谷■)が存在すること
を想定してしきい値を決定するものである。
しかしながら、実際の文書ではスペースのばらつきがあ
るため、単語間スペース群または文字間スペース群の中
に頻度Oの箇所が発生してしまうことがある。その結果
、しきい値が正しく決定できず、単語同士がくっついて
しまったり、1つの単語が互いに分離してしまう、など
の問題が発生する。
るため、単語間スペース群または文字間スペース群の中
に頻度Oの箇所が発生してしまうことがある。その結果
、しきい値が正しく決定できず、単語同士がくっついて
しまったり、1つの単語が互いに分離してしまう、など
の問題が発生する。
第7図に単語間スペース群中に頻度0の箇所(■1参照
)が発生した場合の例を示し、第8図(イ)に誤統合さ
れた場合の例、同図(ロ)に誤分割された場合の例をそ
れぞれ示している(「*」印の箇所参照)。
)が発生した場合の例を示し、第8図(イ)に誤統合さ
れた場合の例、同図(ロ)に誤分割された場合の例をそ
れぞれ示している(「*」印の箇所参照)。
したがって、この発明の課題は単語分割のためのしきい
値を正しく決定し得る方法を提供することにある。
値を正しく決定し得る方法を提供することにある。
(課題を解決するための手段〕
プロポーショナル印字された英文の文書画像から個々の
文字を切り出し、その各々の座標から算出される文字間
スペースを予め定められたクラス幅で分けて頻度ヒスト
グラムを作成し、そのヒストグラムの谷に相当する頻度
最小のクラスを求め、そのクラスの頻度が0の場合はそ
のクラスの中央値をしきい値とし、またそのクラスの頻
度が0でない場合は、そのクラスの中でさらに詳細な頻
度ヒストグラムを作成して頻度が0となる点を求めてし
きい値とし、このしきい値よりも大きな幅を有するスペ
ースを単語間スペース、小さな幅を有するスペースを文
字間スペースとする。
文字を切り出し、その各々の座標から算出される文字間
スペースを予め定められたクラス幅で分けて頻度ヒスト
グラムを作成し、そのヒストグラムの谷に相当する頻度
最小のクラスを求め、そのクラスの頻度が0の場合はそ
のクラスの中央値をしきい値とし、またそのクラスの頻
度が0でない場合は、そのクラスの中でさらに詳細な頻
度ヒストグラムを作成して頻度が0となる点を求めてし
きい値とし、このしきい値よりも大きな幅を有するスペ
ースを単語間スペース、小さな幅を有するスペースを文
字間スペースとする。
1ドツト刻みの頻度分布ではなく、予め定められたクラ
ス幅をもった頻度ヒストグラムを作成することでスペー
スのばらつきを吸収し、スペース群の中に頻度Oの箇所
が発生することによるしきい値の検出誤りをなくす。
ス幅をもった頻度ヒストグラムを作成することでスペー
スのばらつきを吸収し、スペース群の中に頻度Oの箇所
が発生することによるしきい値の検出誤りをなくす。
(実施例〕
第1図はこの発明の実施例を示すフローチャートであり
、第2図に処理対象となる文字列の一例を示す。
、第2図に処理対象となる文字列の一例を示す。
l)文字間スペースの算出
まず、適宜な撮像装置を介して入力され(第1図■参照
)、プロポーショナル印字された英文字列の画像から、
切り出し処理(同■参照)によって得られた各文字の外
接矩形座標をもとに、文字間スペースの幅を計算しく同
■参照)、所定のメモリにSP[]情報として格納する
。ここに、SP [i]は文字番号iと文字番号(i+
1)の間の文字間スペース(ドツト数)を表わし、次式
により定義する。
)、プロポーショナル印字された英文字列の画像から、
切り出し処理(同■参照)によって得られた各文字の外
接矩形座標をもとに、文字間スペースの幅を計算しく同
■参照)、所定のメモリにSP[]情報として格納する
。ここに、SP [i]は文字番号iと文字番号(i+
1)の間の文字間スペース(ドツト数)を表わし、次式
により定義する。
SP [i] =ST [i+1] −ED (i]た
だし、ST [i] 、ED [i]はそれぞれ文字番
号jの文字の開始座標1?了座標を示す。したがって、
上式は着目文字の文字間スペースは、次の文字の開始座
標値から着目文字の終了座標値を引いたもの(ドツト数
)で表わされることを示している。
だし、ST [i] 、ED [i]はそれぞれ文字番
号jの文字の開始座標1?了座標を示す。したがって、
上式は着目文字の文字間スペースは、次の文字の開始座
標値から着目文字の終了座標値を引いたもの(ドツト数
)で表わされることを示している。
第2図の文字列に対する文字番号iとSP [i]を第
3図に示す。同図において、第1番目の文字[a−1と
第2番目の文字[C」との文字間スペース5PE1]は
「4 J 、第2番目の文字と第3番目の文字とのそれ
は「5」で、・・・以下同様であり、最終文字「i−1
のSPf、4.4E=6はハイフン「とのスペースを示
している。
3図に示す。同図において、第1番目の文字[a−1と
第2番目の文字[C」との文字間スペース5PE1]は
「4 J 、第2番目の文字と第3番目の文字とのそれ
は「5」で、・・・以下同様であり、最終文字「i−1
のSPf、4.4E=6はハイフン「とのスペースを示
している。
ii )ヒストグラムの作成
)項にて求めたSP Vi]をもとに、予め定められた
幅(クラス幅ともいう)のヒストグラムを作成する(同
■参照)。
幅(クラス幅ともいう)のヒストグラムを作成する(同
■参照)。
第4図に、第2図において標準文字サイズの5%(数ド
ツト)をクラス幅とするヒストグラムの例を示す。ここ
でのクラス幅は数ドツトであり、これを1ドツトずつに
したのが第7図であるので、大まかにヒストグラムをと
る場合の方が、スペースのばらつきにより発生する不適
当な谷の部分(頻度Oの部分)を無<シ得ることが分か
る。
ツト)をクラス幅とするヒストグラムの例を示す。ここ
でのクラス幅は数ドツトであり、これを1ドツトずつに
したのが第7図であるので、大まかにヒストグラムをと
る場合の方が、スペースのばらつきにより発生する不適
当な谷の部分(頻度Oの部分)を無<シ得ることが分か
る。
iii )谷の検出としきい値の決定
このように作成されたヒストグラムから、文字間スペー
スの山(文字間スペース群)と単語間スペースの山(単
語間スペース群)との間の谷に相当する頻度が最小とな
るクラスを検出し、そのクラスの頻度がOであればその
クラスの例えば中央値をしきい値とし、頻度がOでない
場合はそのりラスの中で再度詳細な(1ドツトずつの)
頻度分布を作成し、頻度がOとなる点をしきい値とする
(同■参照)。
スの山(文字間スペース群)と単語間スペースの山(単
語間スペース群)との間の谷に相当する頻度が最小とな
るクラスを検出し、そのクラスの頻度がOであればその
クラスの例えば中央値をしきい値とし、頻度がOでない
場合はそのりラスの中で再度詳細な(1ドツトずつの)
頻度分布を作成し、頻度がOとなる点をしきい値とする
(同■参照)。
第4図の例では、頻度最小のクラスは文字サイズの25
〜30%(11〜12ドツト)、30〜35%(13〜
14ドツト)、35〜40%(15〜17ドツト)の3
つのクラスで、これらの中央値すなわちしきい値は14
となる。なお、この例では頻度の最小値がOなので、ク
ラス内でさらに詳細な頻度分布をとる処理は実行されな
いことになる。
〜30%(11〜12ドツト)、30〜35%(13〜
14ドツト)、35〜40%(15〜17ドツト)の3
つのクラスで、これらの中央値すなわちしきい値は14
となる。なお、この例では頻度の最小値がOなので、ク
ラス内でさらに詳細な頻度分布をとる処理は実行されな
いことになる。
iv)単語間空白の挿入
iii )項で得られたしきい値をTHで表わしてこれ
をSP ril と比較し、 SP ril >TH の場合に、文字番号iの文字の次に空白文字を挿入する
(■参照)。しきい値−14とし、第3図の各SP U
irに対してかかる操作を行なった結果を第5図に示す
。この第5図を見れば、各単語間に単語間空白が正しく
挿入されていることが分かる。
をSP ril と比較し、 SP ril >TH の場合に、文字番号iの文字の次に空白文字を挿入する
(■参照)。しきい値−14とし、第3図の各SP U
irに対してかかる操作を行なった結果を第5図に示す
。この第5図を見れば、各単語間に単語間空白が正しく
挿入されていることが分かる。
この発明によれば、スペース頻度を大まかにとることに
より、スペースのばらつきによる文字間スペース群また
は単語間スペース群の中の頻度Oの箇所の発生を防止す
ることができ、その結果、しきい値の誤りによる単語の
誤統合、誤分割を無くすことができる利点が得られる。
より、スペースのばらつきによる文字間スペース群また
は単語間スペース群の中の頻度Oの箇所の発生を防止す
ることができ、その結果、しきい値の誤りによる単語の
誤統合、誤分割を無くすことができる利点が得られる。
第1図はこの発明の実施例を示すフローチャート、第2
図は処理対象となる英文文字列の一例を説明するための
説明図、第3図は第2図の文字番号および文字間スペー
スを説明するための説明図、第4図は第2図に対応する
ヒストグラムを説明するための説明図、第5図は第2図
の処理結果を説明するための説明図、第6図はヒストグ
ラムの他の例を説明するための説明図、第7図は単語間
スペース群に谷が生じた例を説明するための説明図、第
8図は文字列の誤結合、誤分割例を説明するための説明
図である。 Ml・・・文字間スペース群、 M2・・・単語間スペー ス群、 ■ ■1・・・頻度0の部分 (谷)
図は処理対象となる英文文字列の一例を説明するための
説明図、第3図は第2図の文字番号および文字間スペー
スを説明するための説明図、第4図は第2図に対応する
ヒストグラムを説明するための説明図、第5図は第2図
の処理結果を説明するための説明図、第6図はヒストグ
ラムの他の例を説明するための説明図、第7図は単語間
スペース群に谷が生じた例を説明するための説明図、第
8図は文字列の誤結合、誤分割例を説明するための説明
図である。 Ml・・・文字間スペース群、 M2・・・単語間スペー ス群、 ■ ■1・・・頻度0の部分 (谷)
Claims (1)
- 1)プロポーショナル印字された英文の文書画像から個
々の文字を切り出し、その各々の座標から算出される文
字間スペースを予め定められたクラス幅で分けて頻度ヒ
ストグラムを作成し、そのヒストグラムの谷に相当する
頻度最小のクラスを求め、そのクラスの頻度が0の場合
はそのクラスの中央値をしきい値とし、またそのクラス
の頻度が0でない場合は、そのクラスの中でさらに詳細
な頻度ヒストグラムを作成して頻度が0となる点を求め
てしきい値とし、このしきい値よりも大きな幅を有する
スペースを単語間スペース、小さな幅を有するスペース
を文字間スペースとすることを特徴とする単語間スペー
ス検出方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2260560A JPH04139594A (ja) | 1990-10-01 | 1990-10-01 | 単語間スペース検出方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2260560A JPH04139594A (ja) | 1990-10-01 | 1990-10-01 | 単語間スペース検出方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH04139594A true JPH04139594A (ja) | 1992-05-13 |
Family
ID=17349653
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2260560A Pending JPH04139594A (ja) | 1990-10-01 | 1990-10-01 | 単語間スペース検出方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH04139594A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013097561A (ja) * | 2011-10-31 | 2013-05-20 | Fujitsu Ltd | 単語間空白検出装置、単語間空白検出方法及び単語間空白検出用コンピュータプログラム |
-
1990
- 1990-10-01 JP JP2260560A patent/JPH04139594A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013097561A (ja) * | 2011-10-31 | 2013-05-20 | Fujitsu Ltd | 単語間空白検出装置、単語間空白検出方法及び単語間空白検出用コンピュータプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5664027A (en) | Methods and apparatus for inferring orientation of lines of text | |
US6333994B1 (en) | Spatial sorting and formatting for handwriting recognition | |
US7555711B2 (en) | Generating a text layout boundary from a text block in an electronic document | |
US7705848B2 (en) | Method of identifying semantic units in an electronic document | |
JP2822189B2 (ja) | 文字認識装置及び方法 | |
US8861862B2 (en) | Character recognition apparatus, character recognition method and program | |
US7680329B2 (en) | Character recognition apparatus and character recognition method | |
US5923782A (en) | System for detecting and identifying substantially linear horizontal and vertical lines of engineering drawings | |
US9049400B2 (en) | Image processing apparatus, and image processing method and program | |
JPH04139594A (ja) | 単語間スペース検出方法 | |
JP5041775B2 (ja) | 文字切出方法及び文字認識装置 | |
JP2915175B2 (ja) | 単語間スペース検出方法 | |
JP3090342B2 (ja) | 文字列方向判別装置 | |
JPH0410087A (ja) | 基本ライン抽出方法 | |
JP2569103B2 (ja) | 文字検出方法 | |
JP2000090194A (ja) | 画像処理方法および画像処理装置 | |
JPH0728935A (ja) | 文書画像処理装置 | |
US10878271B2 (en) | Systems and methods for separating ligature characters in digitized document images | |
US9047535B2 (en) | Image processing apparatus, image processing method, and computer readable medium | |
JPH04130979A (ja) | 文字画像切出し方法 | |
JP3093397B2 (ja) | 文字認識方法 | |
JPS6139172A (ja) | 文字検出切出方式 | |
JP3880091B2 (ja) | 情報処理装置及び方法 | |
JPH0950488A (ja) | 異サイズ混在文字列の読取り方法 | |
JP2022169754A (ja) | 多モデル深層学習による文書のデジタル化アーキテクチャ、文書画像処理プログラム |