JP2675303B2 - 文字認識方法 - Google Patents

文字認識方法

Info

Publication number
JP2675303B2
JP2675303B2 JP62103008A JP10300887A JP2675303B2 JP 2675303 B2 JP2675303 B2 JP 2675303B2 JP 62103008 A JP62103008 A JP 62103008A JP 10300887 A JP10300887 A JP 10300887A JP 2675303 B2 JP2675303 B2 JP 2675303B2
Authority
JP
Japan
Prior art keywords
character
data
dimensions
dictionary
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP62103008A
Other languages
English (en)
Other versions
JPS63269267A (ja
Inventor
敏明 矢ケ崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP62103008A priority Critical patent/JP2675303B2/ja
Publication of JPS63269267A publication Critical patent/JPS63269267A/ja
Application granted granted Critical
Publication of JP2675303B2 publication Critical patent/JP2675303B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】 [産業上の利用分野] 本発明は文字画像から文字を認識する文字認識方法に
関するものである。 [従来の技術] 従来、この種の装置は、文章の中から1文字ずつの文
字に切り出し、切り出された文字に対して大きさ・位置
を補正する前処理が実行される。更に、前処理により正
規化された文字は、情報収縮の形で特徴ベクトル空間が
作られる。このベクトル空間と予め作られている辞書デ
ータとのマツチング処理が実行され、認識結果を出力す
る。 このように、構成されている文字認識装置において
は、前処理の正規化の段階で小文字,大文字,特殊文字
もすべて同じ大きさになつてしまうため、 (1)特殊文字(ex.。)はアルフアベツトの“O"と間
違えやすい。 (2)入力文字データと辞書に対して全てアクセスする
ため時間がかかる。 (3)対象する辞書データが多いことで、誤認識も増え
る傾向にある。 [発明が解決しようとする課題] 本発明は、上記の欠点を除去し、文字の複雑度と認識
処理の深さとを対応させることにより、精度良く認識率
を向上させることができると共に、認識処理の高速化も
可能となる文字認識方法を提供する。 [課題を解決するための手段] この課題を解決するために、本発明の文字認識方法
は、文字画像を入力し、前記入力した文字画像の文字を
形成する画素を計数し、前記計数した画素数に従って選
択される次元数の特徴情報を、該文字画像から抽出し、
前記選択された次元数の特徴情報と辞書とを比較するこ
とにより、前記文字画像を認識することを特徴とする。 [作用] かかる構成において、文字画像の文字部の画素数に従
って選択される次元数の特徴情報を抽出して、文字画像
の認識を行うので、精度良く認識率を向上させることが
でき、認識処理の高速化も可能となる。 [実施例] 第2図(a)は従来の文字認識装置の構成を示すブロ
ツク図、第2図(b)は従来の文字認識装置の処理フロ
ーチヤートである。 従来の文字認識装置は、入力部21とCPU22とROM23とRA
M24と認識辞書25と出力部26とを備え、入力部21より文
書をイメージデータで入力すると、CPU22によりROM23に
格納された処理プログラムに従つて、RAM24をイメーデ
データの記憶及び補助記憶として使いながら、文字の切
り出し,正規化,認識を行い、表示装置や記憶装置等の
出力部26より出力する。 その動作を第2図(b)のフローチヤートに従つて説
明する。ステツプS200で入力部21から入力文書データが
入力される。ここではスキヤナで入力する。このスキヤ
ナは入力文書をイメージデータに変換するが、一般的に
CCD等のセンサを使うと、イメージデータはアナログ値
を示す。該アナログ値を2値化(0,1のパターン)する
のが、ステツプS201である。2値化されたイメージデー
タはイメージメモリのRAM24に格納され、ステツプS202
で文字の切り出しが行われる。 文字の切り出しを第3図の入力文書例に従つて説明す
る。イメージデータをX方向にスキヤンして、Y方向ヒ
ストグラムを求める。これが“HY”であり、ライン毎に
発生するパルス波形毎に文字列の判別を行う。第3図で
は〜が文字列とみなされる。さらに文字列毎に分離
して、それぞれに対してX方向ヒストグラムをとる。第
3図では列に関して示してあり、これが“HX”であ
る。これにより、1文字単位に文字が切り出される。
〜がその結果である。 該結果を文字毎に表わしたのが第4図に示される。第
4図に示されるようにHY、つまりY方向の幅はすべて同
一の間隔であることがわかる。一方、HXに関しては文字
の幅の大きさで変化する。つまり、402,403はほぼ文字
外形によつて切り出され、402はHYの中心に位置し、外
形としては401とほぼ同じになる。一方、404〜407に関
して細長のデータが作られる。 ステツプS203では切り出された第4図のようなデータ
に関して平滑化処理がなされる。特にここでは孤立画像
の除去(ノイズ除去)が中心である。ステツプS204では
短形図形の抽出が行われ、第5図に示されるようにす
る。ここでは、これをf(i)とする。ステツプS205で
はステツプS204で抽出された短形図形に関して、大きさ
の正規化をするための変倍率gがF′/f(i)により計
算される。ただし、F′は特徴抽出される画像パターン
の大きさである。つまり、第5図で求められた図形が32
×32の画素からなつていて、特徴抽出されるべき画像パ
ターンが64×64のときは、変倍率gとして2が得られ
る。このgから、F(i)(正規化される最終の画像パ
ターン)がg*f(i)によりステツプS206で作り出さ
れる。 ステツプS207ではこのパターンの特徴抽出が実行さ
れ、ステツプS208で認識辞書25に基づいて識別処理がな
され、ステツプS209で認識結果が出力部26に出力され
る。この場合、候補文字という形で複数個出力すること
が多い。 第1図(a)は本発明の一実施例の文字認識装置のブ
ロツク図であり、第1図(b)は処理フローチヤートで
ある。本実施例の文字認識装置は、入力部11と、CPU1
2、ROM13、RAM14、辞書15a、辞書15bと出力部16とを備
えている。よつて、入力部11より文書イメージデータを
入力すると、CPU12によりROM13に格納された処理プログ
ラムに従つて、RAM14にロードされたイメージデータよ
り文字の切り出し等の処理が実行される。該切り出され
た文字は、その黒画素の量によつて文字の特徴ベクトル
空間の作成手順を制御し、該手順に応じた辞書をアクセ
スして識別を行い、結果を出力部16にデイスプレイす
る。 それらの動作を第1図(b)の処理フローチヤートに
従つて説明する。ステツプS101〜S104は、前述のステツ
プS200〜S203と同一の処理を行う。ステツプS107では、
切り出し文字データの文字を形成する黒画素データをカ
ウントする。つまり、上記データのアドレスf(x,y)
をすべてアクセスし、f(x,y)=1のとき、和:sumを
カウントアツプしていく。 このように計算されたsumは、ステツプS108aで所定量
n1と比較する。つまり、sumの値は、切り出された文字
の複雑さに応じて変化する。つまり、特殊文字“。”、
“,"、“;"、“."などは、sumの値が小さくなる。この
特徴を利用することで、特殊文字であると判断できる。
n1に対応して、辞書15bには特殊文字のデータ及び簡単
な文字のデータを格納しておく。一方、辞書15aには文
字データと、濃度に応じてn1の上下に変化しそうな特殊
文字とを格納して、誤認識の軽減を図る。ここでは図示
されていないが、ステツプS108aのn1値を複数設けるこ
とで、特殊文字,非漢字(一部の漢字),漢字データ等
と分けることも可能となる。つまり、黒画素データによ
る大分類を実行する。 次にステツプS109,ステツプS113ではそれぞれの文字
の大きさ,位置合わせなどの正規化を行い、ステツプS1
10では該文字の64次元の特徴ベクトル空間を求める。つ
まり、ステツプS110へ行く文字については、より詳細な
ベクトル空間を算出する。 一方、ステツプS114では、文字の単純性からベクトル
空間を16次元として処理の高速性を得る。そして、これ
らの結果よりステツプS112,116で、それぞれの辞書15a,
15bをアクセスして識別処理を実行後、ステツプS117で
結果を出力部16に出力する。 第2の実施例として、黒画素の密度により辞書15a,15
bを分けた例を説明する。第1図(c)は第2の実施例
の処理フローチヤートであり、第1図(b)と同じ部分
は除いてある。 ステツプS103の文字の切り出しステツプS104の平滑化
の後は、ステツプS105で上記切り出された文字、つまり
第5図で求められた文字エリアを算出し、このデータに
よりステツプS106でx,yの平均値の算出が行われ、x×
y×16(16本/mmのとき)の結果を短形領域の平均値Ave
に代入する。ステツプS107では、第5図で求められたデ
ータより黒画素データが求められる。その結果をSum
(j)(j=1,…k:kは文字の個数)とする。 ステツプS108bでSum(j)をAveで割り、黒画素デー
タの密度が算出される。そして、所定値n2と大小比較す
ることで、ステツプS113に進むかステツプS109に進むか
が決定される。つまり、ここで文字形成画素データの少
ない文字“。”、“,"、“;"、“."などは、ステツプS1
13に進むことになる。以下は、辞書15a,15bの内容が変
るだけで、第1図(b)と同様に、ステツプS111,ステ
ツプS115では、それぞれの辞書15a,15bをアクセスして
識別処理がなされ、ステツプS117で出力されることにな
る。 尚、特徴抽出のステツプS114,S110を処理フローチヤ
ートに従つて変えることで、処理スピードの改善が更に
図れる。これは、ステツプS109に進む処理は、密度が高
いということで文字の複雑性が推定できるので、次元数
を増やすことが必要であり、ステツプS113側は次元数の
低減を図る。 ここで、本発明で用いたベクトル空間について説明す
る。第6図(a)が16次元であり、第6図(b)は64次
元でもとめる方法である。第6図(a)は、“。”に関
する特徴抽出であり、上記フローチヤートではステツプ
S114で特徴抽出を行う。この特徴抽出では、正規化後図
示されるように4等分に分けられる。それぞれの領域で
→成分, ↑成分, により、データの輪郭線を追跡してベクトル空間を求め
る。よつて、ベクトル空間は、A領域では(a1,a2
a3,a4)、B領域では(b1,b2,b3,b4)、C,Dも同様
に4次元空間として求まり、トータルでは16次元とな
る。第6図(b)では、4×4×4で64次元となる。 尚、第1図(b),(c)のステツプS108a,bの判別
を多段階設けることで、文字の複雑性による大分類を達
成することが容易となる。このとき多数の辞書で辞書デ
ータを1つしかもつていないと、データの濃度などで誤
つた辞書をアクセスする可能性があるので、データは複
数の辞書にわたつて格納する必要がある。 本実施例では黒画素数を見たが、白画素によつても実
現できる。 [発明の効果] 本発明により、文字を形成する画素数によって適切な
次元数で文字認識を行なうので、文字の複雑度と認識処
理の深さとが対応するため、精度良く認識率を向上させ
ることができる。更に、認識処理の高速化も可能とな
る。
【図面の簡単な説明】 第1図(a)は本実施例の文字認識装置のブロツク図、 第1図(b),(c)は本実施例の文字認識装置の処理
フローチヤート、 第2図(a)は従来の文字認識装置のブロツク図、 第2図(b)は従来の文字認識装置の処理フローチヤー
ト、 第3図は入力文書例を示す図、 第4図は文字の切り出しを示す図、 第5図は第4図の文字に対応する矩形図形を示す図、 第6図(a),(b)はベクトル空間を説明する図であ
る。 図中、11…入力部、12…CPU、13…ROM、14…RAM、15a,1
5b…辞書、16…出力部である。

Claims (1)

  1. (57)【特許請求の範囲】 1.文字画像を入力し、 前記入力した文字画像の文字を形成する画素を計数し、 前記計数した画素数に従って選択される次元数の特徴情
    報を、該文字画像から抽出し、 前記選択された次元数の特徴情報と辞書とを比較するこ
    とにより、前記文字画像を認識することを特徴とする文
    字認識方法。 2.前記抽出する特徴情報の次元数は、前記計数される
    画素数と該文字画像の面積とから判断される文字画像の
    画素密度に従って選択されることを特徴とする特許請求
    の範囲第1項に記載の文字認識方法。
JP62103008A 1987-04-28 1987-04-28 文字認識方法 Expired - Fee Related JP2675303B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP62103008A JP2675303B2 (ja) 1987-04-28 1987-04-28 文字認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP62103008A JP2675303B2 (ja) 1987-04-28 1987-04-28 文字認識方法

Publications (2)

Publication Number Publication Date
JPS63269267A JPS63269267A (ja) 1988-11-07
JP2675303B2 true JP2675303B2 (ja) 1997-11-12

Family

ID=14342626

Family Applications (1)

Application Number Title Priority Date Filing Date
JP62103008A Expired - Fee Related JP2675303B2 (ja) 1987-04-28 1987-04-28 文字認識方法

Country Status (1)

Country Link
JP (1) JP2675303B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5351314A (en) * 1991-10-04 1994-09-27 Canon Information Systems, Inc. Method and apparatus for image enhancement using intensity dependent spread filtering
US7110596B2 (en) 2002-04-25 2006-09-19 Microsoft Corporation System and method facilitating document image compression utilizing a mask
US7043079B2 (en) 2002-04-25 2006-05-09 Microsoft Corporation “Don't care” pixel interpolation

Also Published As

Publication number Publication date
JPS63269267A (ja) 1988-11-07

Similar Documents

Publication Publication Date Title
EP0543593B1 (en) Method for determining boundaries of words in text
US5048107A (en) Table region identification method
JPH0772905B2 (ja) 記号列の認識方法
EP0432937B1 (en) Hand-written character recognition apparatus
JP2675303B2 (ja) 文字認識方法
JP2812391B2 (ja) パターン処理方法
JPH03126188A (ja) 文字認識装置
JPH05346974A (ja) 文字認識装置
JPS6089290A (ja) パタ−ン認識方法
JP2974396B2 (ja) 画像処理方法及び装置
JP2925303B2 (ja) 画像処理方法及び装置
JPS63126082A (ja) 文字認識方式
JPH01201789A (ja) 文字読取装置
JPH02166583A (ja) 文字認識装置
JP2977244B2 (ja) 文字認識方法及び文字認識装置
JP2963474B2 (ja) 類似文字識別方法
JPS61220081A (ja) パタ−ン切り出し及び認識方式
JPH0792819B2 (ja) パターン切出しおよび認識方法とそのシステム
JPH03217993A (ja) 文字サイズ認識装置
JPH03219384A (ja) 文字認識装置
JPH05108882A (ja) 文字認識装置
JPH05114047A (ja) 文字切り出し装置
JPH04156694A (ja) 文字認識方式
JPH0535856A (ja) 指紋特徴抽出装置
JPH0344788A (ja) 文書画像の領域抽出方法

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees