JPH041881A

JPH041881A - 文字読取り装置

Info

Publication number: JPH041881A
Application number: JP2103664A
Authority: JP
Inventors: Ichiro Ogura; 一郎小倉; Yasuo Hongo; 本郷　保夫
Original assignee: Fuji Electric Co Ltd; Fuji Facom Corp
Current assignee: Fuji Electric Co Ltd; Fuji Facom Corp
Priority date: 1990-04-19
Filing date: 1990-04-19
Publication date: 1992-01-07
Anticipated expiration: 2013-05-18
Also published as: JP2752499B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】（産業上の利用分野）本発明は、英数文字が混在する日本語文書を光学的に読
取る文字読取り装置に関する。

（従来の技術）半角サイズの英数文字が混在する日本語文書を読取るた
め、第３図に示す文字切出し方法が特願昭６３−２９２
４４５号として本出願人により出願されている。

この方法は図示されるように、全角サイズ文字と半角サ
イズの英数字が混在する日本語文書の画像をスキャナ等
により入力し、入力された画像データから行を切出し、
さらに各行を行の直角方向に投影して得られた投影デー
タをもとに黒画素のかたまりである仮文字の切出しを行
う（Ｓｌ−Ｓ２）。

次に、行切り出しの際に得られた標準文字サイズをもと
に、全角文字を選出する（Ｓ３）。

その後に全角文字と確定できなかった残りの仮文字の中
で、隣合う細い仮文字は別々の文字または記号であるこ
とがほとんどないので一つの仮文字として統合し、半角
サイズの文字を作成する。

さらに、残りの未確定の半角サイズ仮文字について、未
確定の文字同士を統合した、いわゆる統合文字、および
統合せずに単独の半角文字とみなした方がよい分離文字
とを作成する（Ｓ４）。

そして、これらの組合せ、つまり全角に確定した文字、
統合文字２分離文字を０ＣＲ（光学式文字読取装置）に
て認識させ、文字コードとの類似度を得る（Ｓ５）。

次にその認識結果に対して矛盾処理を行う（Ｓ６）。

最後に、相対類似度ｘ′（類似度Ｘと、その文字と認識
した場合の平均の類似度ｍとの比）により、全角の統合
文字か、半角の分離文字の組合せかを判定していた。（
Ｓ７）（発明が解決しようとする課題）しかしながら、上述の従来方法において文字切出しを行
うと、プロポーショナルピッチまたは可変ピッチの英単
語に対して第４図のように誤った切出しがなされるとい
う問題点があった。第４図中の各上段は文書画像を、各
下段は従来方式によ・り文字切出しを行った結果を示し
ている。

すなわち、第４図（ａ）では、′１１”と細い文字が連
続したため、細い文字同士の結合が行われ、“ｌｌｏ、
”が１１Ｎｏ、＃と誤って切出される。また、第４図（
ｂ）では接触している文字“ｎ”が“則”と切出された
り、くい込んでいる文字（カーニング文字）“ｇｅ”が
“よ”と切出され、本来半角文字２個であるべきものが
、全角の文字として誤って切出されしまう、更に、第４
図（ｃ）では、相対類似度の比較だけでは正しく切出せ
ず、　”ｃｉｎ”が“血”のように誤って切出されてし
まう。

すなわち、従来の切出し方法によれば、半角の英数字を
切出す場合１次のような問題点があった。

（１）例えば“１１”のように細い文字が連続する場合
、それを仮文字として結合し、全角１文字としていた。

（２）例えば“口”のような接触文字や、Ｍ　ｇｅ”の
ようなくい込み文字（カーニング文字）を全角文字とし
ていた。

（３）相対類似度の判定では、半角文字であるにもかか
わらず娯って全角文字とすることがあった。

本発明は上記問題点を解決するためになされたもので、
その目的とするところは、日本語文書中に混在する英数
字を高精度に切出して認識することのできる文字読取り
装置を提供することにある。

（課題を解決するための手段）上記目的を達成するため、第１の発明は、半角の英数文
字を有する画像データから文字行を切出すとともにその
行幅より標準文字サイズを検出する手段と、切出された
文字行を投影し、得られる画素のかたまりから抜文字を
切出す手段と、切出された抜文字の幅サイズに応じてＯ
ＣＲにより抜文字の特徴を抽出し、文字コードとの類似
度により文字を認識する手段と、認識手段により文字コ
ードが認識されない抜文字を分離文字または統合文字と
して再び文字認識手段を用いて認識させる手段と、分離
文字または統合文字として認識された文字コードが文字
サイズ上矛盾しているか否かを判定する手段と、を有す
る文字読取り装置において、全角文字と判別されない抜
文字について、そのサイズ情報、位置情報にもとづき英
数字の種類であるショートレター、アセンダレター、デ
ィセンダレターに分類するとともに、前記種類に分類で
きなかった半角サイズ仮文字の前後が英数字である場合
はその抜文字を英数字に分類する手段と、全角文字と判
別されるとともにその前後が英数字である抜文字をくい
込み文字または接触文字とみなして半角文字サイズに分
割する手段とを有することを特徴とする。

また、第２の発明は、半角の英数文字を有する画像デー
タから文字行を切出すとともにその行幅より標準文字サ
イズを検出する手段と、切出された文字行を投影し、得
られる画素のかたまりから抜文字を切出す手段と、切出
された抜文字の幅サイズに応じてＯＣＲにより抜文字の
特徴を抽出し、文字コードとの類似度により文字を認識
する手段と、認識手段により文字コードが認識されない
抜文字を分離文字または統合文字として再び文字認識手
段を用いて！！！識させる手段と、分離文字または統合
文字として認識された文字フードが文字サイズ上矛盾し
ているか否かを判定する手段とを有する文字読取り装置
において、全角文字と判別されない抜文字について、そ
のサイズ情報、位置情報にもとづき英数字の種類である
ショートレターアセンダレター、ディセンダレターに分
類するとともに、前記種類に分類できなかった半角サイ
ズ仮文字の前後が英数字である場合はその抜文字を英数
字に分類する手段と、全角文字と判別されるとともにそ
の前後が英数字である抜文字をくい込み文字または接触
文字とみなして半角文字サイズに分割する手段と、文字
配列に関する言語的ルールを格納した記憶手段と、この
記憶手段に内蔵された言語的ルールにもとづいて、前記
認識手段により選ばれた文字コード候補から最適な文字
コードを決定する手段とを備えたことを特徴とする。

（作用）第１の発明においては、画像データから切出された抜文
字のうち半角サイズのものをそのサイズ情報１忙置情報
にもとづき英数字の種類であるショートレター、アセン
ダレター、ディセンダレターに分類し、また、前記種類
に分類できなかった半角仮文字でその前後が英数字に分
類されていればその半角仮文字も英数字に分類し、同様
に全角サイズの抜文字であってもその前後が英数字に分
類されていればその全角板文字をくい込み文字または接
触文字とみなして半角文字に分割し１文字認識がなされ
る。

第２の発明においては、第１の発明に加えて、認識した
文字コード候補について言語的ルールを用いて最適なも
のが選択、決定される。

（実施例）以下、図に沿って本発明の詳細な説明する。

第１図は実施例のフローチャートであり、第２図は英数
字の寸法構成を示す説明図である。

第１図において、まず、英数字列が混在する日本語横書
き文書画像を大刀し、第１段階の前処理部にて、文章の
投影データから文字行を切出す。

このとき文字行の開始位ｖｌ　ｙ　ｓ　ｏ　（第２図参
照）等の位置情報や行寸法を得る。更に、この行寸法か
ら、全角文字を判定するための標準文字サイズＢ）を求
める（ステップＳｌ）。

次に、切出された行ごとに文字行に垂直な方向の投影デ
ータを求め、黒画素のかたまりを仮文字として切呂す。

このとき、これら仮文字の＠Ｗ。

高さＨ等のサイズ情報や、隣の仮文字とのスペースＳＰ
、ピッチＰＴ、仮文字の高さ方向の開始位置ＹＳ、終了
位置ＹＥ等の位置情報を得る（ステップＳ２）。

第２段階の判定部では、まず、サイズ情報や位置情報を
もとに、全角文字と確定できる仮文字を選出する。この
条件は、第３図に示した従来の切出法と同一である。こ
のとき、全角文字同士が隣合うところのピッチＰＴを抽
出し、これを平均したものをＰＴｍとする（ステップＳ
３）。

次に、本段階までに得られたサイズ情報２忙置情報を用
いて英数字の判定を行う（ステップＳ４）。

このステップＳ４と８５が第１の発明に相当する処理で
ある。ところで、英文字は、ショートレター（ａ、Ｃ，
ｅなど）、アセンダレター（ｂ　、ｄ　、　１など）、
ディセンダレター（ｇ　ｖ　Ｐ　ｖ　ｑ＋　ｙ）の３種
類に分類できる。また、数字については（２）のアセン
ダレターに分類できる。なお、アルファベットの大文字
については、文字幅が半角サイズよりも大きいものもあ
るがこれらサイズの大きな仮文字は単独で切り出すこと
が可能であり、半角の英文字と判定しなくても正しく認
識されるため、英数字判定の対象から外しておく。

これらの英文字の種類ごとの判定条件は以下の通りであ
る。

（１）ショートレター（ｉ）幅Ｗ≦Ｋ　１（＝０．６）　Ｂ　）１すなわち、
半角サイズの仮文字であること。ここで、に工は定数（
以下のに、、に、、・・・も同様）、Ｂａは前述の標準
文字サイズである。

（ｆｉ）Ｓ　Ｐ、＜Ｋ、（＝０．３）Ｂｉ、またはＳＰ
、＜Ｋ２ＢＭすなわち、前後共にある程度のスペースが
あると英文字と判定しない。これは、英数字以外の幅の
狭い文字に誤るためである（例：“日”など）。

（ｎ＋　）　Ｐ　Ｔ　−＜　Ｋ　３（＝０．６）　Ｐ　
Ｔ−すなわち、前後とも半角ピッチ以下であること。

なお、ＰＴｍは前述の平均ピッチである。

（ｔｖ）ＰＴ、＜Ｋ、ＰＴ璽すなわち、前後とも半角ピッチ以下であること。

（ｖ）ＩＹｓ−ＹＳ、ｌ≧に、（＝０．３）Ｂｉすなわ
ち、仮文字の開始位置が文字行の開始位置より下、つま
り、文字がほぼ中心付近に存在すること。

（ｖｉ）Ｈ≦Ｋ　、　（＝０．６）　Ｂ　ｕすなわち、
高さが標準サイズの約半分であること。

以上の条件のうち（ｖ）、　（ｖｉ）がショートレター
固有の条件である。

（２）アセンダレター（ｉ）〜（短）については、ショートレターの場合と同
様である。

（ｖ）ＩＹｓ−ＹＳｏｌ＜Ｋ、（＝０．３）ＢＨすなわ
ち、仮文字の開始位置が、文字行の開始位置に近いこと
。

（ｖｉ）Ｈ≧Ｋ　７（＝０．７）　Ｂ　Ｈすなわち、高
さが標準サイズに近いこと。

以上の条件のうち、（ｖ）、　（ｖｉ）がアセンダレタ
ー固有の条件である。

（３）ディセンダレター（ｉ）〜（ｉｖ）については、ショートレターの場合と
同様である。

（ｖ　）ＩＹ　Ｓ　　Ｙ　Ｓｏｌ≧Ｋ　、　Ｂ　１４す
なわち、仮文字の開始位置が、文字行の開始位置より下
にあること。

（ｖｉ）Ｈ≧Ｋｓ　（二〇−７）　Ｂ　ａすなわち、高
さは標準サイズに近いこと。

以上の条件のうち（ｖ）、　（ｖｉ）がディセンダレタ
ー固有の条件である。

さらに、英文字と確定された仮文字の間に挾まれ、その
幅がＷ≦によりｕである半角サイズの仮文字も、英文字
と判定できるので、これを第４番目の条件として英文字
の判定に用いる。

次に、プロポーショナルピッチで印字された文書におい
て、発生するくい込み文字や接触文字の切出し処理を行
う（ステップＳ５）、ここでは、ステップＳ４にて確定
した英文字の間に挾まれた全角サイズの文字について、
切出し処理を行う。

その後で、英数字に確定しなかった細い文字について結
合処理を行い（ステップＳ６）、全角文字とも英数字と
も確定できなかった未確定仮文字について、隣合った未
確定文字同士の統合文字と。

それ自身の分離文字の組合せを作成する（ステップＳ７
）。

第３段階では、全角確定文字、英数字確定文字と未確定
仮文字の統合文字９分離文字の全てをＯＣＲにて認識し
１文字コードおよび文字属性と。

その相対類似度を得る（ステップＳ８）。

第４段階の後処理部では、まず、矛盾処理を行い、未確
定統合文字つまり全角文字と、分離文字つまり半角文字
の中で条件の合わない仮文字とを採用しないようにする
（ステップＳ９）、なお、この条件は第３図に示した従
来の切出法と同一である。

次に、相対類似度を使用して統合文字と分離文字のうち
、点数の高い方を正しい文字として採用する（ステップ
１０）。

最後に文字コードを文字属性と言語的性質により全角統
合文字か半角の英数字かを判定する（ステップ１１）、
この判定処理が第２の発明に相当するものである。

ここで、英数字と判定する条件の具体例を以下に述べる
。

（１）相対類似度で統合文字が採用された場合でも、分
離文字の一方が“−＃（ハイフン）で他方が英数ならば
、英数を“−”に入れ替える。

（２）前後が英字または数字で挾まれた統合文字の漢字
は、分離文字が英数字ならば英数字の分類に入れ替える
。

（３）前が英文字である統合文字の記号は、分離文字が
英数字なら英数字の分類に入れ替える等である。

以上の処理を行い、日本語文書中の英数字列の切出しを
終了する。

これらの処理が実行されることにより、細い仮文字同士
を結合する前に英数字の判定が行われるので、細い英数
字が並んだ部分、例えば“１１”等を英数字として確定
できるため、誤って結合することがなくなり正しい切出
しが可能となる。また、英数字と確定した文字に前後を
挾まれた全角サイズの文字に対して、くい込み文字や接
触文字の判定を行い、半角サイズの文字に分割するよう
にしたので、プロポーショナルピッチ及び可変ピッチの
英単語に対しても正しい切出しが可能となる。

さらに、ＯＣＲにて認識できた、複数の文字コードを言
語的性質（ルール）にもとづいて、全角統合文字かある
いは半角の英数字かを判定することにより、相対類似度
だけによる誤判定を防止することができる。

（発明の効果）以上述べたように第１の発明によれば１画像データから
切出された仮文字のうち半角サイズのものをそのサイズ
情報、位置情報にもとづき英数字の３種類のタイプに分
類し、更に、前後が英数字である仮文字は全角、半角に
かかわらず英数字として判別して、それぞれ文字コード
の認識が行われるため、高精度の認識が可能になり、特
にプロポーショナルピッチ、可変ピッチにより印字され
た英数字についての認識能力が向上する。

また、第２の発明によれば、更に、認識した文字コード
候補について言語的ルールを用いて最適なものを選択し
て決定するため、より高精度の認識が可能になる。

【図面の簡単な説明】

第１図は本発明の実施例を示すフローチャート。第２図は各サイズによる英数字の種類を示す説明図、第
３図は従来例を示すフローチャート、第４図は従来にお
ける誤認識例を示す説明図である。第図第３図

Claims

【特許請求の範囲】

（１）半角の英数文字を有する画像データから文字行を
切出すとともにその行幅より標準文字サイズを検出する
手段と、切出された文字行を投影し、得られる画素のかたまりか
ら仮文字を切出す手段と、切出された仮文字の幅サイズに応じてＯＣＲにより仮文
字の特徴を抽出し、文字コードとの類似度により文字を
認識する手段と、認識手段により文字コードが認識されない仮文字を分離
文字または統合文字として再び文字認識手段を用いて認
識させる手段と、分離文字または統合文字として認識された文字コードが
文字サイズ上矛盾しているか否かを判定する手段と、を有する文字読取り装置において、全角文字と判別されない仮文字について、そのサイズ情
報、位置情報にもとづき英数字の種類であるショートレ
ター、アセンダレター、ディセンダレターに分類すると
ともに、前記種類に分類できなかった半角サイズ仮文字
の前後が英数字である場合はその仮文字を英数字に分類
する手段と、全角文字と判別されるとともにその前後が
英数字である仮文字をくい込み文字または接触文字とみ
なして半角文字サイズに分割する手段と、を備えたこと
を特徴とする文字読取り装置。
（２）半角の英数文字を有する画像データから文字行を
切出すとともにその行幅より標準文字サイズを検出する
手段と、切出された文字行を投影し、得られる画素のかたまりか
ら仮文字を切出す手段と、切出された仮文字の幅サイズに応じてＯＣＲにより仮文
字の特徴を抽出し、文字コードとの類似度により文字を
認識する手段と、認識手段により文字コードが認識されない仮文字を分離
文字または統合文字として再び文字認識手段を用いて認
識させる手段と、分離文字または統合文字として認識された文字コードが
文字サイズ上矛盾しているか否かを判定する手段と、を有する文字読取り装置において、全角文字と判別されない仮文字について、そのサイズ情
報、位置情報にもとづき英数字の種類であるショートレ
ター、アセンダレター、ディセンダレターに分類すると
ともに、前記種類に分類できなかった半角サイズ仮文字
の前後が英数字である場合はその仮文字を英数字に分類
する手段と、全角文字と判別されるとともにその前後が
英数字である仮文字をくい込み文字または接触文字とみ
なして半角文字サイズに分割する手段と、文字配列に関
する言語的ルールを格納した記憶手段と、この記憶手段に内蔵された言語的ルールにもとづいて、
前記認識手段により選ばれた文字コード候補から最適な
文字コードを決定する手段と、を備えたことを特徴とす
る文字読取り装置。