JPH0573723A - 文字分類方法及び文字認識装置 - Google Patents

文字分類方法及び文字認識装置

Info

Publication number
JPH0573723A
JPH0573723A JP3236305A JP23630591A JPH0573723A JP H0573723 A JPH0573723 A JP H0573723A JP 3236305 A JP3236305 A JP 3236305A JP 23630591 A JP23630591 A JP 23630591A JP H0573723 A JPH0573723 A JP H0573723A
Authority
JP
Japan
Prior art keywords
character
classification
line
temporary
classification value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP3236305A
Other languages
English (en)
Other versions
JP2918363B2 (ja
Inventor
Hiroshi Yoshida
浩史 吉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP3236305A priority Critical patent/JP2918363B2/ja
Publication of JPH0573723A publication Critical patent/JPH0573723A/ja
Application granted granted Critical
Publication of JP2918363B2 publication Critical patent/JP2918363B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02EREDUCTION OF GREENHOUSE GAS [GHG] EMISSIONS, RELATED TO ENERGY GENERATION, TRANSMISSION OR DISTRIBUTION
    • Y02E60/00Enabling technologies; Technologies with a potential or indirect contribution to GHG emissions mitigation
    • Y02E60/30Hydrogen technology
    • Y02E60/50Fuel cells

Landscapes

  • Character Discrimination (AREA)

Abstract

(57)【要約】 【目的】 文字の並びに凸凹や傾斜が有るような文字行
からも高速かつ正確に文字を分類する文字分類方法及び
この文字分類方法による文字分類装置を備えた高速処理
可能な高精度の文字認識装置を提供する。 【構成】 文字切り出し部130から切り出された各文
字パタンの文字高さ方向の位置の変位を隣接する文字に
ついて比較することにより、位置の変位が所定範囲内の
文字について同一の仮の分類値が仮分類部152により
付与される。集計部153は仮の分類値の度数を集計
し、分類部154は仮の分類値の集計結果に基づいて各
文字群の文字高さ方向の位置を予め設定されている複数
の基準線の一つに割当てることにより、同一の仮の分類
値を有する文字群を再分類する。この文字分類の結果に
基づいて、辞書部160の辞書マスクが選択され文字認
識部170で認識される。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、文字分類方法及び文
字認識装置に関するものである。
【0002】
【従来の技術】機械が文字図形を自動的に識別できれ
ば、例えばコンピュータへのデータ入力を人間が行うよ
り効率よくかつ正確に行うことが出来る等、種々の利点
が得られる。このため、文字認識装置に関する研究が従
来から盛んに行われている。
【0003】従来の文字認識装置は、一般に、以下のよ
うな手順で行われていた。
【0004】まず、文字、図形等が記載されている媒体
例えば帳票を走査して得られた光信号を光電変換し、さ
らに文字線部を例えば黒ビット、背景部を白ビットで表
した2値の入力文字行データを得る。次に、この入力文
字行データより文字パタンを切り出す。さらにこの文字
パタンより特徴抽出を行い、この特徴を予め用意してあ
る標準文字の特徴と比較し最も類似度の高い標準文字パ
タンの文字名を被認識文字の認識結果文字名として出力
する。
【0005】しかし、このような文字認識装置で英語の
文書、或いは英字で記された氏名、住所等の文字行を認
識する場合、この文字行中にはカンマ「,」とアポスト
ロフィ「’」、また大文字「P」と小文字「p」等のよ
うに形状の全く等しい文字が混在しているため、字形の
みでは文字認識を精度よく行うことが出来ないと言う問
題点があった。
【0006】そこでこの問題点を解決するために、文字
パタンの字形に加え文字パタンの大きさ及び文字パタン
の文字行中の相対的位置を用いて文字認識を行う方法が
用いられていた。この種の方法としては例えば文献;昭
和63年電子情報通信学会春期全国大会D448に開示
されているものがあった。
【0007】この方法によれば、まず、文字行から文字
に外接する矩形枠が抽出される。次に、文字行中の各文
字の外接矩形枠が比較され、最も大きい文字に比して極
端に小さい文字が除去される。次に、残った文字の外接
矩形枠の上端及び下端の高さの位置によるヒストグラム
が作成される。次に、このヒストグラムより、矩形上端
で最も低い位置にあるピークと、矩形下端で最も高い位
置にあるピークとが検出されこれらピーク間の距離とほ
ぼ同じ大きさの文字の上下端の座標を用いて最小二乗法
により文字行の傾きを与える直線が求められる。次に、
得られた直線の傾きよりスキューによる文字高さのズレ
が補正された後再び先に説明したと同様な方法でヒスト
グラムが作成される。次に、このヒストグラムより、先
に説明したと同様に2つのピークが検出されこれらピー
クが上側基準線及び下側基準線とされる。次に、これら
上側及び下側基準線間の距離が基準サイズの文字とさ
れ、文字行の各文字パタンの大きさがこの基準サイズ文
字の大きさと比較され、また各文字パタンの位置が上側
及び下側基準線と比較される。そしてこの比較結果に基
づき文字行の各文字が複数のカテゴリに分類され、これ
により認識精度の向上が図られていた。
【0008】
【発明が解決しようとする課題】しかしながら、上述し
た方法では、矩形情報の入力、微小文字の除去、行傾き
補正、さらに基準線算出等の一連の処理を行う必要があ
るため認識速度が著しく低下していた。また、傾きの補
正等に最小二乗法により計算を用いるので少しでも傾斜
した文字行については各文字の分類処理に著しく時間が
かかると同時に、例えばFAX画像等に頻出するよう
に、単純な傾斜ではなく、基準線が凹凸状に成っている
場合には正しく基準線が算出できず、前記分類方法が有
効に機能しないと言う問題があった。従って高精度に、
かつ高速処理可能な文字認識装置の実現が困難なものと
なっていた。
【0009】この発明は以上述べた分類速度が遅くなる
という問題点や、文字の並びが凹凸しているような文書
画像からは正しく基準線を検出できず、従って文字を正
しく分類できないので、高精度な認識が実現できないと
言う問題点を除去し、簡単な処理で、高速に、また文字
の並びに凹凸や傾斜が有るような文字行からも文字の分
類が正確に行えるような文字分類方法を提供すると共に
当該文字分類方法を用いた認識精度が高く、高速処理可
能な文字認識装置を提供することを目的とする。
【0010】
【課題を解決するための手段】この発明は上記課題を解
決する為に、文字行より切り出された文字を分類する文
字分類方法を、文字行の先頭の文字に対して所定の仮の
分類値を付与し、2番目以降の文字については当該文字
と直前の文字の文字高さ方向の位置の変位を求め、変位
量と変位方向及び直前の文字に付与された仮の分類値と
に基づいて当該文字に仮の分類値を付与する仮分類ステ
ップと、当該文字行中の各文字に付与された前記仮の分
類値を集計して分類値毎の度数を求める集計ステップ
と、当該文字行中の各文字を文字高さ方向に予め設定さ
れた複数の基準線によって分類する為に、前記度数が最
大となる仮の分類値を有する文字群の位置を、前記基準
線のうち最も出現頻度の高い文字群に対して予め設定さ
れた基準線に割当て、残りの仮の分類値を有する各文字
群の位置を、当該仮の分類値に基づいて残りの基準線に
割当てることにより再分類するステップにより構成した
ものである。
【0011】実施態様としては、前記仮分類ステップ
は、隣接する文字の外接枠の上辺位置の差及び下辺位置
の差をそれぞれ算出し、該位置の差の絶対値と符号によ
り前記変位量及び変位方向を求め、1文字に対して外接
枠の上辺位置の差に基づく仮の分類値と外接枠の下辺位
置の差に基づく仮の分類値の2種類の分類値を付与し、
前記集計ステップは前記2種類の仮の分類値の各々につ
いての度数を集計し、前記再分類ステップは、前記基準
線として、アッセンダーライン、キャップライン、ミー
ンライン、ベースライン、ディセンダーラインに準じた
基準線を設けると共に各基準線を番号により識別し、各
文字の外接枠上辺位置及び外接枠下辺位置を其々独立に
前記基準線の番号を付与して分類した後、外接枠上辺位
置による分類番号と外接枠下辺位置による分類番号の組
合せに対して新たな分類番号を付与することにより再分
類することを特徴とする。
【0012】更に、前記再分類ステップにおける文字の
外接枠上辺による分類は、最大度数の仮の分類値が付与
された文字群の外接枠上辺位置をミーンラインに準ずる
基準線に割当て、その他の文字群については、該基準線
よりも上に外接枠上辺がある文字群か、或いは該基準線
よりも下に外接枠上辺がある文字群に分類することであ
り、前記再分類ステップにおける文字の外接枠下辺によ
る分類は、最大度数の仮の分類値が付与された文字群の
外接枠下辺位置をベースラインに準ずる基準線に割当
て、その他の文字群については、該基準線よりも上に外
接枠下辺がある文字群か、或いは該基準線よりも下に外
接枠下辺がある文字群に分類することであることを特徴
とするものである。
【0013】また、前記課題を解決する為の本発明の文
字認識装置は、画像データを入力する画像入力部と、入
力された画像データより文字行を切り出す文字行切り出
し部と、文字行内から文字パタンを切り出す文字切り出
し部と、切り出した文字パタンを認識する文字認識部
と、文字認識の為の辞書マスクを格納した辞書部を具え
る文字認識装置において、前記文字分類方法により文字
を分類する文字分類部を具え、文字分類結果に基づいて
選択された辞書を用いて文字認識を行うことを特徴とす
る。
【0014】
【作用】本発明の文字分類方法によれば、仮分類ステッ
プに於いて、例えば当該文字と直前の文字の外接枠位置
の差及び直前の文字の仮の分類値に基づいて位置の変位
が所定範囲内の文字に対して同一の仮の分類値が付与さ
れ、集計ステップにおいて、仮の分類値毎の度数が求め
られる。再分類ステップにおいては、度数が最大となる
仮の分類値を有する文字群の位置(例えば、外接枠の上
辺位置)を最も出現頻度の高い文字群に対して予め設定
されている基準線(例えば、ミーンラインに準ずる基準
線)に割当てることにより当該文字群を一つのグループ
に分類すると共に、残りの文字群の位置を仮の分類値に
応じて前記基準線の上方位置または下方位置の基準線に
割当てることにより分類する。従って、文字の並びに凸
凹や傾斜が有るような文字行からも簡単な処理で正確に
文字を分類することが可能となる。
【0015】また、本発明の文字認識装置によれば、こ
の文字分類方法を用いた文字分類部を備えており、分類
結果に基づいて辞書を選択する。従って認識精度が高く
高速処理の可能な文字認識装置が提供される。
【0016】
【実施例】以下図1〜図6を参照してこの発明の文字分
類方法、及び文字認識装置につき説明をする。
【0017】図1は本発明の文字分類方法を用いた文字
認識装置の一実施例を示す構成図である。文字認識装置
100は、画像入力部110、文字行切り出し部12
0、文字切り出し部130、パタンメモリ140、本発
明の文字分類方法を用いた文字分類部150、辞書部1
60、文字認識部170、出力端子180、制御部19
0とを具えてなる。また、文字分類部150は、記憶部
151、仮分類部152、集計部153、分類部154
から成る構成である。
【0018】画像入力部110は、文字、図形、記号等
(以下、文字と言う)が記憶された例えば図2に示すよ
うな帳票からの光信号Sを光電変換し、例えば文字線部
を黒画素、背景部を白画素で表現した、白黒2値に量子
化された電気信号(以下、帳票画像データと言う)を生
成し、文字行切り出し部120に出力する。
【0019】文字行切り出し部120は、画像入力部1
10より入力された帳票画像データを、文字行方向を主
走査方向として、また文字列方向を副走査方向として順
次走査し、黒画素の分布を作成し、該黒画素の分布が
「0」から「1」以上に変化する位置から、「1」以上
から「0」に変化する位置の直前の位置までを文字行と
して切り出し当該文字行データを順次文字切り出し部1
30に出力する。
【0020】文字切り出し部130においては、文字行
切り出し部120より入力された文字行データより、1
文字づつの文字パタンを切り出し、該文字パタンデータ
をパタンメモリ140に順次格納すると共に、当該文字
パタンの位置情報を文字分類部150内の記憶部151
及び、仮分類部152に出力する。この1文字づつの文
字パタンの切り出しは、前記文字行切り出し部120よ
り入力された文字行データを、文字列方向を主走査方
向、文字行方向を副走査方向として走査し、黒画素の分
布を作成し、該黒画素の分布が「0」から「1」以上に
変化する位置から、「1」以上から「0」に変化する直
前の位置までを切り出すことにより行う。また、前記切
り出された文字パタンの位置情報とは、本実施例では当
該文字パタンの外接枠上辺座標及び下辺座標とし、図2
に示すような文字行方向をx軸方向、文字列方向をy軸
方向としたxy座標系にて表した帳票上における絶対座
標値とする。
【0021】パタンメモリ140は、文字切り出し部1
30によって切り出された文字パタンデータを順次格納
しておく記憶部であり、ICメモリ等で容易に構成でき
る。本実施例では、該パタンメモリは1文字あたり12
8×128画素の容量を有し、当該文字パタンデータを
2次元形式で再現可能なように格納できる構成とする。
【0022】文字分類部150内の記憶部151におい
ては、文字切り出し部130より入力された切り出され
た文字パタンの外接枠上辺y座標、及び外接枠下辺y座
標よりなる位置情報、及び後述する仮分類部152によ
り各文字パタン毎に付与された仮の分類値を、文字行単
位に、当該文字行を構成している文字パタン各々につい
て記憶しておく記憶部である。例えば、図2に示す帳票
の第1行目については、文字切り出し部130において
1文字づつの文字パタンが切り出されるが、その場合、
図3に示すように該文字行の各文字に対応した外接枠上
辺位置及び外接枠上辺に対する仮の分類値、及び外接枠
下辺位置及び外接枠下辺に対する仮の分類値が記憶部1
51に表形式で記憶される。
【0023】仮分類部152は、文字切り出し部130
より入力された文字行単位の文字パタンの位置情報に基
づいて、各文字パタンを分類して仮の分類値を付与し、
各文字パタンに対応させて記憶部151に記憶すると共
に、前記付与した仮の分類値を集計部153に出力す
る。
【0024】前記、仮の分類値の付与方法は以下によ
る。
【0025】 まず、当該文字行先頭文字パタンに対
しては仮の分類値5を付与する。
【0026】 次に、当該文字行の2番目以降の文字
に対しては、直前の文字パタンと当該文字パタンの外接
枠上辺位置の差、または下辺位置の差からy軸方向の変
位の大きさと方向を求め、(1)式により仮の分類値を
決定する。
【0027】
【数1】
【0028】但し、ys =yn −yn-1 であり、yn
当該文字パタンの外接枠上辺または下辺のy座標値、y
n-1 は当該文字パタンの直前の文字パタンの外接枠上辺
または下辺のy座標値である。また、Cn は当該文字パ
タンの仮の分類値であり、Cn-1 は当該文字パタンの直
前の文字パタンの仮の分類値である。
【0029】Tの値は認識対象文字の画像メモリ上の大
きさ及び認識対象文字フォントのデザインに応じて設定
される予め定めた閾値であり、後述のボディハイトの1
/2よりも大きくディセンダー高さよりも小さい任意の
値を設定して差し支えない。本実施例ではT=15であ
る。
【0030】図2に示したような帳票の第1行目の文字
行からは、図3に示すような仮の分類値が外接枠上辺位
置及び下辺位置の各々について求められる。
【0031】集計部153においては、仮分類部152
から入力された当該文字行の各文字パタンの仮の分類値
を集計し、各仮の分類値の文字パタンが当該行中に何パ
タン存在するかを計数し、該計数結果を分類部154に
出力するものである。図3に示したような仮の分類値か
らは、図4に示すような外接枠上辺及び下辺の各々につ
いての仮の分類値の計数結果が得られる。
【0032】分類部154においては、記憶部151に
記憶されている当該文字行の各文字パタンの仮の分類
値、及び集計部153より入力された集計結果に基づい
て、当該文字を再分類し、該分類結果を辞書部160に
出力する。
【0033】再分類は、まず外接枠上辺位置及び下辺位
置の各々について、該位置を表す分類値を求め、次に上
辺位置及び下辺位置の分類値に基づいて当該文字パタン
を分類するという方法により行う。
【0034】外接枠上辺位置及び下辺位置の各々につい
ての分類値を得る方法について以下で説明する。
【0035】図5(b)の1から5までの番号を付与し
て示した各ラインは英文等に於いて用いられる基準線で
あるアッセンダーライン、キャップライン、ミーンライ
ン、ベースライン、ディッセンダーラインに準ずる位置
に設けられており、文字パタンの外接枠上辺位置及び下
辺位置を此等の1から5までの各ラインによって分類す
るための基準線である。ここで、前述のボディハイトと
は図5(b)におけるライン2からライン4までの間
隔、即ち英小文字の標準高さを意味しており、また、デ
ィセンダー高さとはライン4とライン5との間のディセ
ンダー部の高さのことである。
【0036】外接枠上辺位置については、前記集計部よ
り入力された集計結果、最も度数の多い仮の分類値を持
つ文字パタンの分類値を2とし、当該仮の分類値より小
さい値の仮の分類値を持つ文字パタンには分類値1を、
当該仮の分類値より大きな値の仮の分類値を持つ文字パ
タンには分類値3を付与する。
【0037】ここで、上述の最も頻度の多い仮の分類値
を持つ文字パタンの分類値を2とする根拠は、通常の英
語文書において、出現頻度の高い文字がe,s,r,
n,a,o,i,u,p,y等であり此等の文字の外接
枠上辺位置がライン2の近傍に位置する頻度が極めて高
いことによる。
【0038】図4の場合、最も度数の大きな仮の分類値
は6であるため、図3において仮の分類値6を有する文
字パタンは分類値2を、仮の分類値5以下を有する文字
パタンは分類値1を、仮の分類値7以上を有する文字パ
タンは分類値3を、各々付与する。
【0039】外接枠下辺位置については、前記集計部よ
り入力された集計結果、最も度数の多い仮の分類値を持
つ文字パタンの分類値を4とし(これは、前述の場合と
同様に出現頻度の高い文字の外接枠下辺位置がベースラ
イン即ちライン4の近傍に位置する頻度が最も高いこと
による)、当該仮の分類値より小さい値の仮の分類値を
持つ文字パタンには分類値3を、当該仮の分類値より大
きな値の仮の分類値を持つ文字パタンには分類値5を付
与する。
【0040】図4の場合、最も度数の大きな仮の分類値
は5であるため、図3において仮の分類値5を有する文
字パタンは分類値4を、仮の分類値4以下を有する文字
パタンは分類値3を、仮の分類値6以上を有する文字パ
タンは分類値5を、各々付与する。
【0041】外接枠上辺、及び下辺についての分類値が
得られたら、本実施例ではさらに、図5(a)に示すテ
ーブルに従って、当該文字パタンの分類値を得る。例え
ば、上辺の分類値が1であり下辺の分類値が4である文
字[M]には分類値3が付与され、また上辺の分類値が
「2」であり下辺の分類値が5である文字[y]には分
類値7が付与される。
【0042】このような処理により、分類部154にお
いては、図3に示したような各々の文字パタンについて
の分類結果が得られる。
【0043】辞書部160は、後述する文字認識部17
0において用いる標準文字パタンの特徴マトリクスが格
納されているものであり、図6に示すような(A)〜
(F)なる6の各カテゴリに分類された6の辞書より構
成されており、文字分類部150内の分類部154から
入力される各文字パタンについての分類値に基づいて照
合を行う辞書を選択し、当該選択された辞書の標準文字
マスクを文字認識部170に出力するものである。
【0044】前記辞書の選択は、図5(a)に示すよう
なテーブルに基づいて決定される。例えば図3の第1文
字目の文字パタン[M]については、分類値3が入力さ
れるので、辞書(A)及び(F)の辞書の辞書マトリク
スを文字認識部170に出力する。
【0045】文字認識部170においては、パタンメモ
リ140より文字パタンデータを順次読み込み、当該文
字パタンデータより特徴マトリクスを抽出し、辞書部1
60より入力された当該文字パタンデータに対応した照
合対象の辞書マトリクスデータと前記特徴マトリクスの
照合を行い、1以上の候補文字を得、外候補文字を認識
結果として出力端子180に出力するものである。
【0046】文字パタンデータからの特徴マトリクスの
抽出は以下のように行う。
【0047】まず、対象文字パタンデータよりサブパタ
ンを抽出する。文字パタンデータを複数の方向に走査
し、各走査線上で予め定めた特定の値h(本実施例では
h=5)以上連続している黒画素列を検出し、該連続し
た黒画素列をサブパタンの黒画素成分として抽出するこ
とにより、文字パタンより各走査方向別のサブパタンを
抽出する。
【0048】前記走査方向は、本実施例では、文字行方
向(以下、X軸方向)に垂直な方向(垂直方向)、及び
平行な方向(水平方向)、X軸から反時計方向45°の
方向(左斜め方向)及び時計方向45°の方向(左斜め
方向)とし、これら各方向毎に文字パタンを走査して各
方向別に4個のサブパタンを抽出する。
【0049】例えば垂直方向のサブパタンの抽出では垂
直方向を主走査方向とし、パタンレジスタの垂直方向の
走査線上で連続する黒画素(黒ラン)を検出し、1≧h
となる長さ1の黒ランを垂直方向のサブパタンの黒画素
部分として抽出することにより垂直方向サブパタンを抽
出する。
【0050】垂直方向のサブパタン抽出と同様にして、
残りの他の方向を主走査方向としたときのサブパタンの
抽出も行う。
【0051】次に、前記抽出された各方向のサブパタン
上に、文字パタンの文字外接枠に対応する方形領域を設
定し、該方形領域をN×M個(N、Mは任意好適な自然
数)の小領域に分割し、各小領域に含まれる各サブパタ
ンの文字線の長さを表す特徴量を抽出し、該特徴量を文
字外接枠の大きさで正規化し、特徴量fi からなる特徴
マトリクスFを作成する。
【0052】尚、本実施例では、前記分割数はN、M=
8とし、また前記特徴量は(dX+dY)/2なる値で
正規化するものとする。但し、dXは文字外接枠の水平
方向の長さ及びdYは文字外接枠の垂直方向の長さであ
る。また特徴量fi は、各小領域に1〜N×Mまでの番
号i(i=1、2、…、N×M)を順次に付して小領域
を表したときに、番号iの小領域の特徴量を表し、特徴
マトリクスFの要素値である。
【0053】前記特徴マトリクスと辞書マトリクスの照
合は、特徴マトリクスFと、辞書マトリクスGとの類似
度Rを、次式(2)に基づき求め、類似度Rが予め定め
た値P以上である辞書マトリクスの文字名を候補文字名
とし、さらに類似度の高い順に第1位候補文字、第2位
候補文字と順位付けを行い、候補文字列を得ることによ
り行う。
【0054】
【数2】
【0055】但し、giは辞書マトリクスの要素を表
す。
【0056】制御部190は、図示せぬ制御信号線を通
して、文字認識装置100を構成する各部の制御、各部
の動作やデータの同期の制御、外部とのインターフェイ
ス等のコントロールを行うものである。
【0057】出力端子109は、認識結果を外部に出力
するためのデータ出力端子であり、その他のシステム
や、認識結果を記録する媒体、通信網、その他の情報処
理システム等を接続するものである。
【0058】尚、本発明は上述した実施例にのみ限定さ
れるものではなく、各構成成分の動作、処理の仕方、入
出力信号の流れ、配設個数、位置、形状及び個数その他
の条件を任意好適に変更できる。
【0059】例えば、本実施例においては文字分類部に
おいては、文字パタンの外接枠上辺座標、及び下辺座標
各々よりまず分類を行い、さらに両者を併せて当該文字
パタンの分類を行う構成としたが、これに限られるもの
ではなく、上辺座標のみによる分類、或いは下辺座標の
みによる分類をそのまま当該文字パタンの分類としても
何等差し支えない。
【0060】また、本実施例の文字認識装置において
は、本発明の文字分類方法による分類結果に基づいて辞
書を切り替える構成としたが、これに限られるものでは
なく、文字認識部の認識方法の切り替え、また文字パタ
ンの切り出し方法の切り替え等に前記分類結果を用いる
構成としても何等差し支えない。
【0061】また前記画像入力部は帳票からの光信号を
光電変換して、帳票画像データを得る構成としたが、こ
れに限られるものではなく、例えばFAX等で送信され
てきた圧縮画像データを展開して該帳票画像データを得
るようなデコード部としての機能を持った画像入力部で
も良い。
【0062】そのほか、文字行の切り出し方法、文字の
切り出し方法、パタンメモリの構成方法、文字認識方
法、辞書部の構成等も、本発明の範囲内で適宜自由な構
成として良いことは明かである。
【0063】
【発明の効果】以上詳細に説明したように、文字行より
切り出された文字を分類する文字分類方法において、当
該文字行中において隣接する文字の文字高さ方向の位置
を比較することにより文字高さ方向の位置の変位が所定
範囲内の文字に仮の分類値を付与して分類し、仮の分類
値の度数を集計し、集計結果に基づいて各文字パタン群
の位置を予め設定した基準線に割当てることにより再分
類するようにしたので、簡単な処理で文字を分類するこ
とが可能となり、また傾斜している文字行や、基準線が
凹凸しているような文字行から切り出した文字パタンに
ついても正確に分類できる。
【0064】従ってこの文字分類方法を文字認識装置に
適用した場合には、文字の分類が正確に行われるので、
認識精度が高く、処理速度が速く従って高性能な文字認
識装置を実現できる。
【図面の簡単な説明】
【図1】本発明の文字分類装置を用いた文字認識装置の
一実施例を示す構成図である。
【図2】帳票の一例を示す図である。
【図3】文字分類部の説明に供する図である。
【図4】集計部の説明に供する図である。
【図5】分類部の説明に供する図である。
【図6】辞書部の説明に供する図である。。
【符号の説明】
100 文字認識装置 110 画像入力部 120 文字行切り出し部 130 文字切り出し部 140 パタンメモリ 150 文字分類部 151 記憶部 152 仮分類部 153 集計部 154 分類部 160 辞書部 170 文字認識部 180 出力端子 190 制御部

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 文字行より切り出された文字を分類する
    文字分類方法において、 文字行の先頭の文字に対して所定の仮の分類値を付与
    し、2番目以降の文字については当該文字と直前の文字
    の文字高さ方向の位置の変位を求め、変位量と変位方向
    及び直前の文字に付与された仮の分類値とに基づいて当
    該文字に仮の分類値を付与する仮分類ステップと、 当該文字行中の各文字に付与された前記仮の分類値を集
    計して分類値毎の度数を求める集計ステップと、 当該文字行中の各文字を文字高さ方向に予め設定された
    複数の基準線によって分類する為に、前記度数が最大と
    なる仮の分類値を有する文字群の位置を、前記基準線の
    うち最も出現頻度の高い文字群に対して予め設定された
    基準線に割当て、残りの仮の分類値を有する各文字群の
    位置を、当該仮の分類値に基づいて残りの基準線に割当
    てることにより再分類するステップとから成る文字分類
    方法。
  2. 【請求項2】 請求項1に記載の文字分類方法におい
    て、 前記仮分類ステップは、隣接する文字の外接枠の上辺位
    置の差及び下辺位置の差をそれぞれ算出し、該位置の差
    の絶対値と符号により前記変位量及び変位方向を求め、
    1文字に対して外接枠の上辺位置の差に基づく仮の分類
    値と外接枠の下辺位置の差に基づく仮の分類値の2種類
    の分類値を付与し、 前記集計ステップは前記2種類の仮の分類値の各々につ
    いての度数を集計し、 前記再分類ステップは、前記基準線として、アッセンダ
    ーライン、キャップライン、ミーンライン、ベースライ
    ン、ディセンダーラインに準じた基準線を設けると共に
    各基準線を番号により識別し、各文字の外接枠上辺位置
    及び外接枠下辺位置を其々独立に前記基準線の番号を付
    与して分類した後、外接枠上辺位置による分類番号と外
    接枠下辺位置による分類番号の組合せに対して新たな分
    類番号を付与することにより再分類することを特徴とす
    る文字分類方法。
  3. 【請求項3】 請求項2に記載の文字分類方法におい
    て、 前記再分類ステップにおける文字の外接枠上辺による分
    類は、最大度数の仮の分類値が付与された文字群の外接
    枠上辺位置をミーンラインに準ずる基準線に割当て、そ
    の他の文字群については、該基準線よりも上に外接枠上
    辺がある文字群か、或いは該基準線よりも下に外接枠上
    辺がある文字群に分類することであり、 前記再分類ステップにおける文字の外接枠下辺による分
    類は、最大度数の仮の分類値が付与された文字群の外接
    枠下辺位置をベースラインに準ずる基準線に割当て、そ
    の他の文字群については、該基準線よりも上に外接枠下
    辺がある文字群か、或いは該基準線よりも下に外接枠下
    辺がある文字群に分類することであることを特徴とする
    文字分類方法。
  4. 【請求項4】 画像データを入力する画像入力部と、 入力された画像データより文字行を切り出す文字行切り
    出し部と、 文字行内から文字パタンを切り出す文字切り出し部と、 切り出した文字パタンを認識する文字認識部と、 文字認識の為の辞書マスクを格納した辞書部を具える文
    字認識装置において、 請求項1から請求項3の何れか1項に記載の文字分類方
    法により文字を分類する文字分類部を具え、文字分類結
    果に基づいて選択された辞書を用いて文字認識を行うこ
    とを特徴とする文字認識装置。
JP3236305A 1991-09-17 1991-09-17 文字分類方法及び文字認識装置 Expired - Fee Related JP2918363B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3236305A JP2918363B2 (ja) 1991-09-17 1991-09-17 文字分類方法及び文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3236305A JP2918363B2 (ja) 1991-09-17 1991-09-17 文字分類方法及び文字認識装置

Publications (2)

Publication Number Publication Date
JPH0573723A true JPH0573723A (ja) 1993-03-26
JP2918363B2 JP2918363B2 (ja) 1999-07-12

Family

ID=16998831

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3236305A Expired - Fee Related JP2918363B2 (ja) 1991-09-17 1991-09-17 文字分類方法及び文字認識装置

Country Status (1)

Country Link
JP (1) JP2918363B2 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS55112687A (en) * 1979-02-22 1980-08-30 Nec Corp Character recognition system
JPS62187988A (ja) * 1985-10-01 1987-08-17 ザ パランチ−ル コ−ポレ−シヨン 光学的文字認識方式において使用する処理手段
JPH01108691A (ja) * 1987-10-21 1989-04-25 Sharp Corp キャラクタ画像処理方法
JPH03126188A (ja) * 1989-10-11 1991-05-29 Oki Electric Ind Co Ltd 文字認識装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS55112687A (en) * 1979-02-22 1980-08-30 Nec Corp Character recognition system
JPS62187988A (ja) * 1985-10-01 1987-08-17 ザ パランチ−ル コ−ポレ−シヨン 光学的文字認識方式において使用する処理手段
JPH01108691A (ja) * 1987-10-21 1989-04-25 Sharp Corp キャラクタ画像処理方法
JPH03126188A (ja) * 1989-10-11 1991-05-29 Oki Electric Ind Co Ltd 文字認識装置

Also Published As

Publication number Publication date
JP2918363B2 (ja) 1999-07-12

Similar Documents

Publication Publication Date Title
US4903312A (en) Character recognition with variable subdivisions of a character region
Wang et al. Classification of newspaper image blocks using texture analysis
JP3925971B2 (ja) 統合同値類の作成方法
US5321770A (en) Method for determining boundaries of words in text
US5335290A (en) Segmentation of text, picture and lines of a document image
US6970601B1 (en) Form search apparatus and method
EP0629078A1 (en) Apparatus for processing and reproducing image information
US4556985A (en) Pattern recognition apparatus
EP1017011A2 (en) Block selection of table features
JP2890482B2 (ja) 文書画像再配置ファイリング装置
US5841905A (en) Business form image identification using projected profiles of graphical lines and text string lines
US20030012438A1 (en) Multiple size reductions for image segmentation
JP3977468B2 (ja) シンボル分類装置
US5228095A (en) Apparatus for recognizing printed characters
JP2926066B2 (ja) 表認識装置
EP0652532A2 (en) Character recognition apparatus
US6088478A (en) Method and apparatus for distinguishing bold face characters
JPH0573723A (ja) 文字分類方法及び文字認識装置
JP3607753B2 (ja) 文書画像の領域分割方法および装置、並びに段組種類判別方法および装置
JP7283756B2 (ja) 情報処理装置、及びプログラム
Viswanathan et al. Characteristics of digitized images of technical articles
JPH03126188A (ja) 文字認識装置
JP2993533B2 (ja) 情報処理装置及び文字認識装置
JPH08305804A (ja) 文字認識用辞書作成装置及び文字認識装置
JP4439054B2 (ja) 文字認識装置及び文字枠線の検出方法

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 19990406

LAPS Cancellation because of no payment of annual fees