JP2752499B2 - 文字読取り装置 - Google Patents

文字読取り装置

Info

Publication number
JP2752499B2
JP2752499B2 JP2103664A JP10366490A JP2752499B2 JP 2752499 B2 JP2752499 B2 JP 2752499B2 JP 2103664 A JP2103664 A JP 2103664A JP 10366490 A JP10366490 A JP 10366490A JP 2752499 B2 JP2752499 B2 JP 2752499B2
Authority
JP
Japan
Prior art keywords
character
size
provisional
width
alphanumeric
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2103664A
Other languages
English (en)
Other versions
JPH041881A (ja
Inventor
一郎 小倉
保夫 本郷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuji Electric Co Ltd
Fuji Facom Corp
Original Assignee
Fuji Electric Co Ltd
Fuji Facom Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Electric Co Ltd, Fuji Facom Corp filed Critical Fuji Electric Co Ltd
Priority to JP2103664A priority Critical patent/JP2752499B2/ja
Publication of JPH041881A publication Critical patent/JPH041881A/ja
Application granted granted Critical
Publication of JP2752499B2 publication Critical patent/JP2752499B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は、英数文字が混在する日本語文書を光学的に
読取る文字読取り装置に関する。
(従来の技術) 半角サイズの英数文字が混在する日本語文書を読取る
ため、第3図に示す文字切出し方法が特願昭63−292445
号として本出願人により出願されている。
この方法は図示されるように、全角サイズ文字と半角
サイズの英数文字が混在する日本語文書の画像をスキャ
ナ等により入力し、入力された画像データから行を切出
し、さらに各行を行の直角方向に投影して得られた投影
データをもとに黒画素のかたまりである仮文字の切出し
を行う(S1〜S2)。
次に、行切り出しの際に得られた標準文字サイズをも
とに、全角文字を選出する(S3)。
その後に全角文字と確定できなかった残りの仮文字の
中で、隣合う細い仮文字は別々の文字または記号である
ことがほとんどないので一つの仮文字として統合し、半
角サイズの文字を作成する。さらに、残りの未確定の半
角サイズ仮文字について、未確定の文字同士を統合し
た、いわゆる統合文字、および総合せずに単独の半角文
字とみなした方がよい分離文字とを作成する(S4)。
そして、これらの組合せ、つまり全角に確定した文
字,統合文字,分離文字をOCR(光学式文字読取装置)
にて認識させ、文字コードとの類似度を得る(S5)。
次にその認識結果に対して矛盾処理を行う(S6)。
最後に、相対類似度x′(類似度xと、その文字と認
識した場合の平均の類似度mとの比)により、全角の統
合文字か、半角の分離文字の組合せかを判定していた。
(S7) (発明が解決しようとする課題) しかしながら、上述の従来方法において文字切出しを
行うと、プロポーショナルピッチまたは可変ピッチの英
単語に対して第4図のように誤った切出しがなされると
いう問題点があった。第4図中の各上段は文書画像を、
各下段は従来方式により文字切出しを行った結果を示し
ている。
すなわち、第4図(a)では、“11"と細い文字が連
続したため、細い文字同士の結合が行われ、“11o,"が
“No."と誤って切出される。また、第4図(b)では接
触している文字 が“則”と切出されたり、くい込んでいる文字(カーニ
ング文字)“ge"が“よ”と切出され、本来半角文字2
個であるべきものが、全角の文字として誤って切出され
てしまう。更に、第4図(c)では、相対類似度の比較
だけでは正しく切出させず、“cin"が“血”のように誤
って切出されてしまう。
すなわち、従来の切出し方法によれば、半角の英数字
を切出す場合、次のような問題点があった。
(1)例えば、“11"のように細い文字が連続する場
合、それを仮文字として結合し、全角1文字としてい
た。
(2)例えば のような接触文字や、“ge"のようなくい込み文字(カ
ーニング文字)を全角文字としていた。
(3)相対類似度の判定では、半角文字であるにもかか
わらず誤って全角文字とすることがあった。
本発明は上記問題点を解決するためになされたもの
で、その目的とするところは、日本語文書中に混在する
英数字を高精度に切出して認識することのできる文字読
取り装置を提供することにある。
(課題を解決するための手段) 上記目的を達成するため、第1の発明は、半角の英数
文字を有する画像データから文字行を切出すとともにそ
の行幅より標準文字サイズを検出する手段と、切出され
た文字行を投影し、得られる画素のかたまりから仮文字
を切出す手段と、切出された仮文字の幅サイズに応じて
OCRにより仮文字の特徴を抽出し、文字コードとの類似
度により文字を認識する手段と、認識手段により文字コ
ードが認識されない仮文字を分離文字または統合文字と
して再び文字認識手段を用いて認識させる手段と、分離
文字または統合文字として認識された文字コードが文字
サイズ上矛盾しているか否かを判定する手段と、を有す
る文字取り装置において、全角文字と判別されない仮文
字について、そのサイズ情報、位置情報にもとづき英数
字の種類であるショートレター,アセンダレター,ディ
センダレターに分類するとともに、前記種類に分類でき
なかった半角サイズ仮文字の前後各1文字が英数字であ
る場合はその仮文字を英数字に分類する手段と、全角文
字と判別されるとともにその前後各1文字が英数字であ
る仮文字をくい込み文字または接触文字とみなして半角
文字サイズに分割する手段とを有することを特徴とす
る。
また、第2の発明は、半角の英数文字を有する画像デ
ータから文字行を切出すとともにその行幅より標準文字
サイズを検出する手段と、切出された文字行を投影し、
得られる画素のかたまりから仮文字を切出す手段と、切
出された仮文字の幅サイズに応じてOCRにより仮文字の
特徴を抽出し、文字コードとの類似度により文字を認識
する手段と、認識手段により文字コードが認識されない
仮文字を分離文字または統合文字として再び文字認識手
段を用いて認識させる手段と、分離文字または統合文字
として認識された文字コードが文字サイズ上矛盾してい
るか否かを判定する手段とを有する文字取り装置におい
て、全角文字と判別されない仮文字について、そのサイ
ズ情報、位置情報にもとづき英数字の種類であるショー
トレター,アセンダレター,ディセンダレターに分類す
るとともに、前記種類に分類できなかった半角サイズ仮
文字の前後各1文字が英数字である場合はその仮文字を
英数字に分類する手段と、全角文字と判別されるととも
にその前後各1文字が英数字である仮文字をくい込み文
字または接触文字とみなして半角文字サイズに分割する
手段と、文字配列に関する言語的ルールを格納した記憶
手段と、この記憶手段に内蔵された言語的ルールにもと
づいて、前記認識手段により選ばれた文字コード候補か
ら最適な文字コードを決定する手段とを備えたことを特
徴とする。
(作用) 第1の発明においては、画像データから切出された仮
文字のうち半角サイズのものをそのサイズ情報、情報位
置にもとづき英数字の種類であるショートレター、アセ
ンダレター、ディセンダレターに分類し、また、前記種
類に分類できなかった半角仮文字でその前後各1文字が
英数字に分類されていればその半角仮文字も英数字に分
類し、同様に全角サイズの仮文字であってもその前後各
1文字が英字数に分類されていればその全角仮文字をく
い込み文字または接触文字とみなして半角文字に分割
し、文字認識がなされる。
第2の発明においては、第1の発明に加えて、認識し
た文字コード候補について言語的ルールを用いて最適な
ものが選択、決定される。
(実施例) 以下、図に沿って本発明の実施例を説明する。
第1図は実施例のフローチャートであり、第2図は英
数字の寸法構成を示す説明図である。
第1図において、まず、英数字列が混在する日本語横
書き文書画像を入力し、第1段階の前処理部にて、文章
の投影データから文字行を切出す。このとき文字行の開
始位置YS0(第2図参照)等の位置情報や行寸法を得
る。更に、この行寸法から、全角文字を判別するための
標準文字サイズBHを求める(ステップS1)。
次に、切出された行ごとに文字行に垂直な方向の投影
データを求め、黒画素のかたまりを仮文字として切出
す。このとき、これら仮文字の幅W,高さH等のサイズ
や、隣の仮文字とのスペースSP,ピッチPT,仮文字の高さ
方向の開始位置YS,終了位置YE等の位置情報を得る(ス
テップS2)。
第2段階の判定部では、まず、サイズ情報や位置情報
をもとに、全角文字と確定できる仮文字を選出する。こ
の条件は、第3図に示した従来の切出法と同一である。
このとき、全角文字同士が隣合うところのピッチPTを抽
出し、これを平均したものをPTmとする(ステップS
3)。
次に、本段階までに得られたサイズ情報,位置情報を
用いて英数字の判定を行う(ステップS4)。このステッ
プS4とS5が第1の発明に相当する処理である。ところ
で、英文字は、ショートレター(a,c,eなど)、アセン
ダレター(b,d,lなど)、ディセンダレター(g,p,q,y)
の3種類に分類できる。また、数字について(2)のア
センダレターに分類できる。なお、アルファベットの大
文字については、文字幅が半角サイズよりも大きいもの
があるがこれらのサイズの大きな仮文字は単独で切り出
すことが可能であり、半角の英文字と判定しなくても正
しく認識されるため、英数字の判定の対象から外してお
く。
これらの英文字の種類ごとの判定条件は以下の通りで
ある。
(1)ショートレター (i)幅 W≦K1(=0.6)BH すなわち、半角サイズの仮文字であること。ここで、
K1は定数(以下のK2,K3,…も同様)、BHは前述の標準文
字サイズである。
(ii)SP0<K2(=0.3)BH、またはSP1<K2BH すなわち、前後共にある程度のスペースがあると英数
字と判別しない。これは、英整数字以外の幅の狭い文字
に誤るためである(例:“日”など)。
(iii)PT0<K3(=0.6)PTm すなわち、前後とも半角ピッチ以下であること。な
お、PTmは前述の平均ピッチである。
(iv)PT1<K3PTm すなわち、前後とも半角ピッチ以下であること。
(v)|YS−YS0|≧K4(=0.3)BH すなわち、仮文字の開始位置が文字行の開始位置より
下、つまり、文字がほぼ中心付近に存在すること。
(vi)H≦K5(=0.6)BH すなわち、高さが標準サイズの約半分であること。
以上の条件のうち(v),(vi)がショートレター固
有の条件である。
(2)アセンダレター (i)〜(iv)については、ショートレターの場合と
同様である。
(v)|YS−YS0|≧K6(=0.3)BH すなわち、仮文字の開始位置が、文字行の開始位置に
近いこと。
(vi)H≦K7(=0.7)BH すなわち、高さが標準サイズに近いこと。
以上の条件のうち、(v),(vi)がアセンダレター
固有の条件である。
(3)ディセンダレター (i)〜(iv)については、ショートレターの場合と
同様である。
(v)|YS−YS0|≧K6BH すなわち、仮文字の開始位置が、文字行の開始位置よ
り下にあること。
(vi)H≦K8(=0.7)BH すなわち、高さは標準サイズに近いこと。
以上の条件のうち(v),(vi)がディセンダレター
固有の条件である。
さらに、英文字と確定された仮文字の間に挾まれ、そ
の幅がW≦K1BHである半角サイズの仮文字も、英文字と
判定できるので、これを第4番目の条件として英文字の
判定に用いる。
次に、プロポーショナルピッチで印字された文書にお
いて、発生するくい込み文字や接触文字の切出し処理を
行う(ステップS5)。ここでは、ステップS4にて確定し
た英文字の間に挾まれた全角サイズの文字について、切
出し処理を行う。
その後で、英数字に確定しなかった細い文字について
結合処理を行い(ステップS6)、全角文字とも英数字と
も確定できなかった未確定仮文字について、隣合った未
確定文字同士の統合文字と、それ自身の分離文字の組合
せを作成する(ステップS7)。
第3段階では、全角確定文字,英数字確定文字と未確
定仮文字の統合文字,分離文字の全てをOCRにて認識
し、文字コードおよび文字属性と、その相対類似度を得
る(ステップS8)。
第4段階の後処理部では、まず、矛盾処理を行い、未
確定統合文字つまり全角文字と、分離文字つまり半角文
字の中で条件の合わない仮文字とを採用しないようにす
る(ステップS9)。なお、この条件は、第3図に示した
従来の切出法と同一である。
次に、相対類似度を使用して統合文字と分離文字のう
ち、点数の高い方を正しい文字として採用する(ステッ
プ10)。
最後に文字コードを文字属性と言語的性質により全角
統合文字か半角の英数文字かを判別する(ステップ1
1)。この判定処理が第2の発明に相当するものであ
る。
ここで、英数字と判定する条件の具体例を以下に述べ
る。
(1)相対類似度で統合文字が採用された場合でも、分
離文字の一方が“−”(ハイフン)で他方が英数なら
ば、英数を“−”に入れ替える。
(2)前後が英字または数字で挾まれた統合文字の漢字
は、分離文字が英数字ならば英数字の分類に入れ替え
る。
(3)前が英文字である統合文字の記号は、分離文字が
英数字なら英数字の分類に入れ替える等である。
以上の処理を行い、日本語文書中の英数字列の切出し
を終了する。
これらの処理が実行されることにより、細い仮文字同
士を結合する前に英数字の判定が行われるので、細い英
数字が並んだ部分、例えば“11"等を英数字として確定
できるため、誤って結合することがなくなり正しい切出
しが可能となる。また、英数字と確定した文字に前後を
挾まれた全角サイズの文字に対して、くい込み文字や接
触文字の判定を行い、半角サイズの文字に分割するよう
にしたので、プロポーショナルピッチ及び可変ピッチの
英単語に対しても正しい切出しが可能となる。
さらに、OCRにて認識できた、複数の文字コードを言
語的性質(ルール)にもとづいて、全角統合文字かある
いは半角の英数字かを判定することにより、相対類似度
だけによる誤判定を防止することができる。
(発明の効果) 以上述べたように第1の発明によれば、画像データか
ら切出された仮文字のうち半角サイズのものをそのサイ
ズ情報、位置情報にもとづき英数字の3種類のタイプに
分類し、更に、前後が英数字である仮文字は全角、半角
にかかわらず英数字として判別して、それぞれ文字コー
ドの認識が行われるため、高精度の認識が可能になり、
特にプロポーショナルピッチ、可変ピッチにより印字さ
れた英数字についての認識能力が向上する。
また、第2の発明によれば、更に、認識した文字コー
ド候補について言語的ルールを用いて最適なものを選択
して決定するため、より高精度の認識が可能になる。
【図面の簡単な説明】
第1図は本発明の実施例を示すフローチャート、第2図
は各サイズによる英数字の種類を示す説明図、第3図は
従来例を示すフローチャート、第4図は従来における誤
認識例を示す説明図である。
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平1−246682(JP,A) 特開 昭63−83889(JP,A) 特開 平2−100189(JP,A) 特開 平1−171080(JP,A) (58)調査した分野(Int.Cl.6,DB名) G06K 9/62 G06K 9/72 PATOLIS

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】半角の英数文字を有する画像データから文
    字行を切出すとともにその行幅より標準文字サイズを検
    出する手段と、 切出された文字行を投影し、得られる画像のかたまりか
    ら仮文字を切出す手段と、 切出された仮文字の幅サイズに応じてOCRにより仮文字
    の特徴を抽出し、文字コードとの類似度により文字を認
    識する手段と、 認識手段により文字コードが認識されない仮文字を分離
    文字または統合文字として再び文字認識手段を用いて認
    識させる手段と、 分離文字または統合文字として認識された文字コードが
    文字サイズ上矛盾しているか否かを判定する手段と、 を有する文字取り装置において、 全角文字と判別されない仮文字について、そのサイズ情
    報、位置情報にもとづき英数字の種類であるショートレ
    ター,アセンダレター,ディセンダレターに分類すると
    ともに、前記種類に分類できなかった半角サイズ仮文字
    の前後各1文字が英数字である場合はその仮文字を英数
    字に分類する手段と、 全角文字と判別されるとともにその前後各1文字が英数
    字である仮文字をくい込み文字または接触文字とみなし
    て半角文字サイズに分割する手段と、 を備えたことを特徴とする文字読取り装置。
  2. 【請求項2】半角の英数文字を有する画像データから文
    字行を切出すとともにその行幅より標準文字サイズを検
    出する手段と、 切出された文字行を投影し、得られる画素のかたまりか
    ら仮文字を切出す手段と、 切出された仮文字の幅サイズに応じてOCRにより仮文字
    の特徴を抽出し、文字コードとの類似度により文字を認
    識する手段と、 認識手段により文字コードが認識されない仮文字を分離
    文字または統合文字として再び文字認識手段を用いて認
    識させる手段と、 分離文字または統合文字として認識された文字コードが
    文字サイズ上矛盾しているか否かを判定する手段と、 を有する文字取り装置において、 全角文字と判別されない仮文字について、そのサイズ情
    報、位置情報にもとづき英数字の種類であるショートレ
    ター,アセンダレター,ディセンダレターに分類すると
    ともに、前記種類に分類できなかった半角サイズ仮文字
    の前後各1文字が英数字である場合はその仮文字を英数
    字に分類する手段と、 全角文字と判別されるとともにその前後各1文字が英数
    字である仮文字をくい込み文字または接触文字とみなし
    て半角文字サイズに分割する手段と、 文字配列に関する言語的ルールを格納した記憶手段と、 この記憶手段に内蔵された言語的ルールにもとづいて、
    前記認識手段により選ばれた文字コード候補から最適な
    文字コードを決定する手段と、 を備えたことを特徴とする文字読取り装置。
JP2103664A 1990-04-19 1990-04-19 文字読取り装置 Expired - Lifetime JP2752499B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2103664A JP2752499B2 (ja) 1990-04-19 1990-04-19 文字読取り装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2103664A JP2752499B2 (ja) 1990-04-19 1990-04-19 文字読取り装置

Publications (2)

Publication Number Publication Date
JPH041881A JPH041881A (ja) 1992-01-07
JP2752499B2 true JP2752499B2 (ja) 1998-05-18

Family

ID=14360054

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2103664A Expired - Lifetime JP2752499B2 (ja) 1990-04-19 1990-04-19 文字読取り装置

Country Status (1)

Country Link
JP (1) JP2752499B2 (ja)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5680536U (ja) * 1979-11-22 1981-06-30
JPS61173452U (ja) * 1985-04-16 1986-10-28
JPS62105847A (ja) * 1985-10-31 1987-05-16 Canon Inc シ−ト検出装置
JPS62108359U (ja) * 1985-12-27 1987-07-10
JPS6363452U (ja) * 1986-10-17 1988-04-26

Also Published As

Publication number Publication date
JPH041881A (ja) 1992-01-07

Similar Documents

Publication Publication Date Title
EP1016033B1 (en) Automatic language identification system for multilingual optical character recognition
EP1052593B1 (en) Form search apparatus and method
JP4280355B2 (ja) 文字認識装置
JPH04195692A (ja) 文書読取装置
JP2752499B2 (ja) 文字読取り装置
JP4194020B2 (ja) 文字認識方法、該方法の実行に用いるプログラム及び文字認識装置
JP2008084105A (ja) 文字切出方法及び文字認識装置
JP3159087B2 (ja) 文書照合装置および方法
JP2917427B2 (ja) 図面読取装置
JP3197441B2 (ja) 文字認識装置
JP2931485B2 (ja) 文字切出し装置及び方法
JP3151866B2 (ja) 英文字認識方法
JP2001147990A (ja) 画像データ処理装置及び方法並びにこれに利用される記憶媒体
JP2851102B2 (ja) 文字切出し方法
JP3071048B2 (ja) 文字認識装置及び方法
Leishman Shape-free statistical information in optical character recognition
JP3374762B2 (ja) 文字認識方法及びその装置
JPH02230484A (ja) 文字認識装置
JP2993533B2 (ja) 情報処理装置及び文字認識装置
JPH08297720A (ja) 一般文書読み取り装置
JP3420853B2 (ja) 文字切り出し方法
JPH04282789A (ja) 文字読取り装置
JPH0944604A (ja) 文字認識処理方法
JPH04211884A (ja) 文字切り出し方法
JPH09218921A (ja) 一般文書読取装置