JPH041881A - 文字読取り装置 - Google Patents

文字読取り装置

Info

Publication number
JPH041881A
JPH041881A JP2103664A JP10366490A JPH041881A JP H041881 A JPH041881 A JP H041881A JP 2103664 A JP2103664 A JP 2103664A JP 10366490 A JP10366490 A JP 10366490A JP H041881 A JPH041881 A JP H041881A
Authority
JP
Japan
Prior art keywords
character
characters
temporary
width
alphanumeric
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2103664A
Other languages
English (en)
Other versions
JP2752499B2 (ja
Inventor
Ichiro Ogura
一郎 小倉
Yasuo Hongo
本郷 保夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuji Electric Co Ltd
Fuji Facom Corp
Original Assignee
Fuji Electric Co Ltd
Fuji Facom Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Electric Co Ltd, Fuji Facom Corp filed Critical Fuji Electric Co Ltd
Priority to JP2103664A priority Critical patent/JP2752499B2/ja
Publication of JPH041881A publication Critical patent/JPH041881A/ja
Application granted granted Critical
Publication of JP2752499B2 publication Critical patent/JP2752499B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は、英数文字が混在する日本語文書を光学的に読
取る文字読取り装置に関する。
(従来の技術) 半角サイズの英数文字が混在する日本語文書を読取るた
め、第3図に示す文字切出し方法が特願昭63−292
445号として本出願人により出願されている。
この方法は図示されるように、全角サイズ文字と半角サ
イズの英数字が混在する日本語文書の画像をスキャナ等
により入力し、入力された画像データから行を切出し、
さらに各行を行の直角方向に投影して得られた投影デー
タをもとに黒画素のかたまりである仮文字の切出しを行
う(Sl−S2)。
次に、行切り出しの際に得られた標準文字サイズをもと
に、全角文字を選出する(S3)。
その後に全角文字と確定できなかった残りの仮文字の中
で、隣合う細い仮文字は別々の文字または記号であるこ
とがほとんどないので一つの仮文字として統合し、半角
サイズの文字を作成する。
さらに、残りの未確定の半角サイズ仮文字について、未
確定の文字同士を統合した、いわゆる統合文字、および
統合せずに単独の半角文字とみなした方がよい分離文字
とを作成する(S4)。
そして、これらの組合せ、つまり全角に確定した文字、
統合文字2分離文字を0CR(光学式文字読取装置)に
て認識させ、文字コードとの類似度を得る(S5)。
次にその認識結果に対して矛盾処理を行う(S6)。
最後に、相対類似度x′(類似度Xと、その文字と認識
した場合の平均の類似度mとの比)により、全角の統合
文字か、半角の分離文字の組合せかを判定していた。(
S7) (発明が解決しようとする課題) しかしながら、上述の従来方法において文字切出しを行
うと、プロポーショナルピッチまたは可変ピッチの英単
語に対して第4図のように誤った切出しがなされるとい
う問題点があった。第4図中の各上段は文書画像を、各
下段は従来方式によ・り文字切出しを行った結果を示し
ている。
すなわち、第4図(a)では、′11”と細い文字が連
続したため、細い文字同士の結合が行われ、“llo、
”が11No、#と誤って切出される。また、第4図(
b)では接触している文字“n”が“則”と切出された
り、くい込んでいる文字(カーニング文字)“ge”が
“よ”と切出され、本来半角文字2個であるべきものが
、全角の文字として誤って切出されしまう、更に、第4
図(c)では、相対類似度の比較だけでは正しく切出せ
ず、 ”cin”が“血”のように誤って切出されてし
まう。
すなわち、従来の切出し方法によれば、半角の英数字を
切出す場合1次のような問題点があった。
(1)例えば“11”のように細い文字が連続する場合
、それを仮文字として結合し、全角1文字としていた。
(2)例えば“口”のような接触文字や、M ge”の
ようなくい込み文字(カーニング文字)を全角文字とし
ていた。
(3)相対類似度の判定では、半角文字であるにもかか
わらず娯って全角文字とすることがあった。
本発明は上記問題点を解決するためになされたもので、
その目的とするところは、日本語文書中に混在する英数
字を高精度に切出して認識することのできる文字読取り
装置を提供することにある。
(課題を解決するための手段) 上記目的を達成するため、第1の発明は、半角の英数文
字を有する画像データから文字行を切出すとともにその
行幅より標準文字サイズを検出する手段と、切出された
文字行を投影し、得られる画素のかたまりから抜文字を
切出す手段と、切出された抜文字の幅サイズに応じてO
CRにより抜文字の特徴を抽出し、文字コードとの類似
度により文字を認識する手段と、認識手段により文字コ
ードが認識されない抜文字を分離文字または統合文字と
して再び文字認識手段を用いて認識させる手段と、分離
文字または統合文字として認識された文字コードが文字
サイズ上矛盾しているか否かを判定する手段と、を有す
る文字読取り装置において、全角文字と判別されない抜
文字について、そのサイズ情報、位置情報にもとづき英
数字の種類であるショートレター、アセンダレター、デ
ィセンダレターに分類するとともに、前記種類に分類で
きなかった半角サイズ仮文字の前後が英数字である場合
はその抜文字を英数字に分類する手段と、全角文字と判
別されるとともにその前後が英数字である抜文字をくい
込み文字または接触文字とみなして半角文字サイズに分
割する手段とを有することを特徴とする。
また、第2の発明は、半角の英数文字を有する画像デー
タから文字行を切出すとともにその行幅より標準文字サ
イズを検出する手段と、切出された文字行を投影し、得
られる画素のかたまりから抜文字を切出す手段と、切出
された抜文字の幅サイズに応じてOCRにより抜文字の
特徴を抽出し、文字コードとの類似度により文字を認識
する手段と、認識手段により文字コードが認識されない
抜文字を分離文字または統合文字として再び文字認識手
段を用いて!!!識させる手段と、分離文字または統合
文字として認識された文字フードが文字サイズ上矛盾し
ているか否かを判定する手段とを有する文字読取り装置
において、全角文字と判別されない抜文字について、そ
のサイズ情報、位置情報にもとづき英数字の種類である
ショートレターアセンダレター、ディセンダレターに分
類するとともに、前記種類に分類できなかった半角サイ
ズ仮文字の前後が英数字である場合はその抜文字を英数
字に分類する手段と、全角文字と判別されるとともにそ
の前後が英数字である抜文字をくい込み文字または接触
文字とみなして半角文字サイズに分割する手段と、文字
配列に関する言語的ルールを格納した記憶手段と、この
記憶手段に内蔵された言語的ルールにもとづいて、前記
認識手段により選ばれた文字コード候補から最適な文字
コードを決定する手段とを備えたことを特徴とする。
(作用) 第1の発明においては、画像データから切出された抜文
字のうち半角サイズのものをそのサイズ情報1忙置情報
にもとづき英数字の種類であるショートレター、アセン
ダレター、ディセンダレターに分類し、また、前記種類
に分類できなかった半角仮文字でその前後が英数字に分
類されていればその半角仮文字も英数字に分類し、同様
に全角サイズの抜文字であってもその前後が英数字に分
類されていればその全角板文字をくい込み文字または接
触文字とみなして半角文字に分割し1文字認識がなされ
る。
第2の発明においては、第1の発明に加えて、認識した
文字コード候補について言語的ルールを用いて最適なも
のが選択、決定される。
(実施例) 以下、図に沿って本発明の詳細な説明する。
第1図は実施例のフローチャートであり、第2図は英数
字の寸法構成を示す説明図である。
第1図において、まず、英数字列が混在する日本語横書
き文書画像を大刀し、第1段階の前処理部にて、文章の
投影データから文字行を切出す。
このとき文字行の開始位vl y s o (第2図参
照)等の位置情報や行寸法を得る。更に、この行寸法か
ら、全角文字を判定するための標準文字サイズB)を求
める(ステップSl)。
次に、切出された行ごとに文字行に垂直な方向の投影デ
ータを求め、黒画素のかたまりを仮文字として切呂す。
このとき、これら仮文字の@W。
高さH等のサイズ情報や、隣の仮文字とのスペースSP
、ピッチPT、仮文字の高さ方向の開始位置YS、終了
位置YE等の位置情報を得る(ステップS2)。
第2段階の判定部では、まず、サイズ情報や位置情報を
もとに、全角文字と確定できる仮文字を選出する。この
条件は、第3図に示した従来の切出法と同一である。こ
のとき、全角文字同士が隣合うところのピッチPTを抽
出し、これを平均したものをPTmとする(ステップS
3)。
次に、本段階までに得られたサイズ情報2忙置情報を用
いて英数字の判定を行う(ステップS4)。
このステップS4と85が第1の発明に相当する処理で
ある。ところで、英文字は、ショートレター(a、C,
eなど)、アセンダレター(b 、d 、 1など)、
ディセンダレター(g v P v q+ y)の3種
類に分類できる。また、数字については(2)のアセン
ダレターに分類できる。なお、アルファベットの大文字
については、文字幅が半角サイズよりも大きいものもあ
るがこれらサイズの大きな仮文字は単独で切り出すこと
が可能であり、半角の英文字と判定しなくても正しく認
識されるため、英数字判定の対象から外しておく。
これらの英文字の種類ごとの判定条件は以下の通りであ
る。
(1)ショートレター (i)幅W≦K 1(=0.6) B )1すなわち、
半角サイズの仮文字であること。ここで、に工は定数(
以下のに、、に、、・・・も同様)、Baは前述の標準
文字サイズである。
(fi)S P、<K、(=0.3)Bi、またはSP
、<K2BMすなわち、前後共にある程度のスペースが
あると英文字と判定しない。これは、英数字以外の幅の
狭い文字に誤るためである(例:“日”など)。
(n+ ) P T −< K 3(=0.6) P 
T−すなわち、前後とも半角ピッチ以下であること。
なお、PTmは前述の平均ピッチである。
(tv)PT、<K、PT璽 すなわち、前後とも半角ピッチ以下であること。
(v)IYs−YS、l≧に、(=0.3)Biすなわ
ち、仮文字の開始位置が文字行の開始位置より下、つま
り、文字がほぼ中心付近に存在すること。
(vi)H≦K 、 (=0.6) B uすなわち、
高さが標準サイズの約半分であること。
以上の条件のうち(v)、 (vi)がショートレター
固有の条件である。
(2)アセンダレター (i)〜(短)については、ショートレターの場合と同
様である。
(v)IYs−YSol<K、(=0.3)BHすなわ
ち、仮文字の開始位置が、文字行の開始位置に近いこと
(vi)H≧K 7(=0.7) B Hすなわち、高
さが標準サイズに近いこと。
以上の条件のうち、(v)、 (vi)がアセンダレタ
ー固有の条件である。
(3)ディセンダレター (i)〜(iv)については、ショートレターの場合と
同様である。
(v )IY S  Y Sol≧K 、 B 14す
なわち、仮文字の開始位置が、文字行の開始位置より下
にあること。
(vi)H≧Ks (二〇−7) B aすなわち、高
さは標準サイズに近いこと。
以上の条件のうち(v)、 (vi)がディセンダレタ
ー固有の条件である。
さらに、英文字と確定された仮文字の間に挾まれ、その
幅がW≦によりuである半角サイズの仮文字も、英文字
と判定できるので、これを第4番目の条件として英文字
の判定に用いる。
次に、プロポーショナルピッチで印字された文書におい
て、発生するくい込み文字や接触文字の切出し処理を行
う(ステップS5)、ここでは、ステップS4にて確定
した英文字の間に挾まれた全角サイズの文字について、
切出し処理を行う。
その後で、英数字に確定しなかった細い文字について結
合処理を行い(ステップS6)、全角文字とも英数字と
も確定できなかった未確定仮文字について、隣合った未
確定文字同士の統合文字と。
それ自身の分離文字の組合せを作成する(ステップS7
)。
第3段階では、全角確定文字、英数字確定文字と未確定
仮文字の統合文字9分離文字の全てをOCRにて認識し
1文字コードおよび文字属性と。
その相対類似度を得る(ステップS8)。
第4段階の後処理部では、まず、矛盾処理を行い、未確
定統合文字つまり全角文字と、分離文字つまり半角文字
の中で条件の合わない仮文字とを採用しないようにする
(ステップS9)、なお、この条件は第3図に示した従
来の切出法と同一である。
次に、相対類似度を使用して統合文字と分離文字のうち
、点数の高い方を正しい文字として採用する(ステップ
10)。
最後に文字コードを文字属性と言語的性質により全角統
合文字か半角の英数字かを判定する(ステップ11)、
この判定処理が第2の発明に相当するものである。
ここで、英数字と判定する条件の具体例を以下に述べる
(1)相対類似度で統合文字が採用された場合でも、分
離文字の一方が“−#(ハイフン)で他方が英数ならば
、英数を“−”に入れ替える。
(2)前後が英字または数字で挾まれた統合文字の漢字
は、分離文字が英数字ならば英数字の分類に入れ替える
(3)前が英文字である統合文字の記号は、分離文字が
英数字なら英数字の分類に入れ替える等である。
以上の処理を行い、日本語文書中の英数字列の切出しを
終了する。
これらの処理が実行されることにより、細い仮文字同士
を結合する前に英数字の判定が行われるので、細い英数
字が並んだ部分、例えば“11”等を英数字として確定
できるため、誤って結合することがなくなり正しい切出
しが可能となる。また、英数字と確定した文字に前後を
挾まれた全角サイズの文字に対して、くい込み文字や接
触文字の判定を行い、半角サイズの文字に分割するよう
にしたので、プロポーショナルピッチ及び可変ピッチの
英単語に対しても正しい切出しが可能となる。
さらに、OCRにて認識できた、複数の文字コードを言
語的性質(ルール)にもとづいて、全角統合文字かある
いは半角の英数字かを判定することにより、相対類似度
だけによる誤判定を防止することができる。
(発明の効果) 以上述べたように第1の発明によれば1画像データから
切出された仮文字のうち半角サイズのものをそのサイズ
情報、位置情報にもとづき英数字の3種類のタイプに分
類し、更に、前後が英数字である仮文字は全角、半角に
かかわらず英数字として判別して、それぞれ文字コード
の認識が行われるため、高精度の認識が可能になり、特
にプロポーショナルピッチ、可変ピッチにより印字され
た英数字についての認識能力が向上する。
また、第2の発明によれば、更に、認識した文字コード
候補について言語的ルールを用いて最適なものを選択し
て決定するため、より高精度の認識が可能になる。
【図面の簡単な説明】
第1図は本発明の実施例を示すフローチャート。 第2図は各サイズによる英数字の種類を示す説明図、第
3図は従来例を示すフローチャート、第4図は従来にお
ける誤認識例を示す説明図である。 第 図 第3 図

Claims (2)

    【特許請求の範囲】
  1. (1)半角の英数文字を有する画像データから文字行を
    切出すとともにその行幅より標準文字サイズを検出する
    手段と、 切出された文字行を投影し、得られる画素のかたまりか
    ら仮文字を切出す手段と、 切出された仮文字の幅サイズに応じてOCRにより仮文
    字の特徴を抽出し、文字コードとの類似度により文字を
    認識する手段と、 認識手段により文字コードが認識されない仮文字を分離
    文字または統合文字として再び文字認識手段を用いて認
    識させる手段と、 分離文字または統合文字として認識された文字コードが
    文字サイズ上矛盾しているか否かを判定する手段と、 を有する文字読取り装置において、 全角文字と判別されない仮文字について、そのサイズ情
    報、位置情報にもとづき英数字の種類であるショートレ
    ター、アセンダレター、ディセンダレターに分類すると
    ともに、前記種類に分類できなかった半角サイズ仮文字
    の前後が英数字である場合はその仮文字を英数字に分類
    する手段と、全角文字と判別されるとともにその前後が
    英数字である仮文字をくい込み文字または接触文字とみ
    なして半角文字サイズに分割する手段と、を備えたこと
    を特徴とする文字読取り装置。
  2. (2)半角の英数文字を有する画像データから文字行を
    切出すとともにその行幅より標準文字サイズを検出する
    手段と、 切出された文字行を投影し、得られる画素のかたまりか
    ら仮文字を切出す手段と、 切出された仮文字の幅サイズに応じてOCRにより仮文
    字の特徴を抽出し、文字コードとの類似度により文字を
    認識する手段と、 認識手段により文字コードが認識されない仮文字を分離
    文字または統合文字として再び文字認識手段を用いて認
    識させる手段と、 分離文字または統合文字として認識された文字コードが
    文字サイズ上矛盾しているか否かを判定する手段と、 を有する文字読取り装置において、 全角文字と判別されない仮文字について、そのサイズ情
    報、位置情報にもとづき英数字の種類であるショートレ
    ター、アセンダレター、ディセンダレターに分類すると
    ともに、前記種類に分類できなかった半角サイズ仮文字
    の前後が英数字である場合はその仮文字を英数字に分類
    する手段と、全角文字と判別されるとともにその前後が
    英数字である仮文字をくい込み文字または接触文字とみ
    なして半角文字サイズに分割する手段と、文字配列に関
    する言語的ルールを格納した記憶手段と、 この記憶手段に内蔵された言語的ルールにもとづいて、
    前記認識手段により選ばれた文字コード候補から最適な
    文字コードを決定する手段と、を備えたことを特徴とす
    る文字読取り装置。
JP2103664A 1990-04-19 1990-04-19 文字読取り装置 Expired - Lifetime JP2752499B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2103664A JP2752499B2 (ja) 1990-04-19 1990-04-19 文字読取り装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2103664A JP2752499B2 (ja) 1990-04-19 1990-04-19 文字読取り装置

Publications (2)

Publication Number Publication Date
JPH041881A true JPH041881A (ja) 1992-01-07
JP2752499B2 JP2752499B2 (ja) 1998-05-18

Family

ID=14360054

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2103664A Expired - Lifetime JP2752499B2 (ja) 1990-04-19 1990-04-19 文字読取り装置

Country Status (1)

Country Link
JP (1) JP2752499B2 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5680536U (ja) * 1979-11-22 1981-06-30
JPS61173452U (ja) * 1985-04-16 1986-10-28
JPS62105847A (ja) * 1985-10-31 1987-05-16 Canon Inc シ−ト検出装置
JPS62108359U (ja) * 1985-12-27 1987-07-10
JPS6363452U (ja) * 1986-10-17 1988-04-26

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5680536U (ja) * 1979-11-22 1981-06-30
JPS61173452U (ja) * 1985-04-16 1986-10-28
JPS62105847A (ja) * 1985-10-31 1987-05-16 Canon Inc シ−ト検出装置
JPS62108359U (ja) * 1985-12-27 1987-07-10
JPS6363452U (ja) * 1986-10-17 1988-04-26

Also Published As

Publication number Publication date
JP2752499B2 (ja) 1998-05-18

Similar Documents

Publication Publication Date Title
US6970601B1 (en) Form search apparatus and method
EP0195779A1 (en) Cryptographic analysis system
JPH04195692A (ja) 文書読取装置
JP2023511791A (ja) テキスト分類
WO2007070010A1 (en) Improvements in electronic document analysis
US20020186885A1 (en) Verifying results of automatic image recognition
JPH041881A (ja) 文字読取り装置
JPS63146187A (ja) 文字認識装置
JP2004046723A (ja) 文字認識方法、該方法の実行に用いるプログラム及び文字認識装置
JPH10134141A (ja) 文書照合装置および方法
JP3071048B2 (ja) 文字認識装置及び方法
JP3197441B2 (ja) 文字認識装置
JP2931485B2 (ja) 文字切出し装置及び方法
JPH02230484A (ja) 文字認識装置
Leishman Shape-free statistical information in optical character recognition
JP3420853B2 (ja) 文字切り出し方法
JP2000207491A (ja) 文字列読取方法及び装置
JP2677271B2 (ja) 文字認識装置
JP3151866B2 (ja) 英文字認識方法
JPH02219190A (ja) 文字認識方法
JPH04211884A (ja) 文字切り出し方法
JP2851102B2 (ja) 文字切出し方法
JPH08241378A (ja) 低品質文字の認識方法
JPH0528301A (ja) 文書認識装置
JPH05128303A (ja) 日本語文書読み取り装置