JP2788506B2 - 文字認識装置 - Google Patents

文字認識装置

Info

Publication number
JP2788506B2
JP2788506B2 JP1264734A JP26473489A JP2788506B2 JP 2788506 B2 JP2788506 B2 JP 2788506B2 JP 1264734 A JP1264734 A JP 1264734A JP 26473489 A JP26473489 A JP 26473489A JP 2788506 B2 JP2788506 B2 JP 2788506B2
Authority
JP
Japan
Prior art keywords
character
line
name
pattern
recognized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP1264734A
Other languages
English (en)
Other versions
JPH03126188A (ja
Inventor
浩史 吉田
融 石川
浩一 樋口
義征 山下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP1264734A priority Critical patent/JP2788506B2/ja
Publication of JPH03126188A publication Critical patent/JPH03126188A/ja
Application granted granted Critical
Publication of JP2788506B2 publication Critical patent/JP2788506B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Description

【発明の詳細な説明】 (産業上の利用分野) この発明は、高い認識精度を得ることが出来る文字認
識装置に関するものである。
(従来の技術) 機械が文字図形を自動的に識別出来れば、例えばコン
ピュータへのデータ入力を人間が行なうより効率良くか
つ正確に行なうことが出来る等、種々の利点が得られ
る。このため、文字認識装置に関する研究が従来から盛
んに行なわれている。
従来の文字認識装置は、一般に、以下の〜に示す
ような構成成分を具えていた。
…文字、図形等が記載されている媒体例えば帳票を走
査して得られた光信号を光電変換し、さらに文字線部を
例えば黒ビット、背景部を白ビットで表わした2値の入
力文字行データを得る光電変換部。
…この入力文字行データより文字パタンを切り出す文
字切り出し部。
…この文字パタンより特徴量を抽出し、この特徴量を
予め用意してある標準文字の特徴量と比較し最も類似度
の高い標準文字パタンの文字名を被認識文字の認識結果
文字名として出力する認識部。
しかし、このような文字認識装置で外国語例えば英語
の文書、或いは英字で記された氏名、住所等の文字行を
認識する場合、この文字行中にはカンマ「,」とアポス
トロフィ「’」、また、大文字「P」と小文字「p」等
のように形状の全く等しい文字が混在しているため、文
字パタンの字形のみでは文字認識を精度良く行なうこと
が出来ないという問題点があった。
そこでこの問題点を解決するために、文字パタンの字
形に加え文字パタンの大きさ及び文字パタンの文字行中
の相対的位置を用いて文字認識を行なう方法が用いられ
ていた。
この種の方法としては例えば文献(昭和63年電子情報
通信学会春季全国大会(昭和63年3.15)D−448)に開
示されているものがあった。
この文献に開示された方法によれば、先ず、文字行か
ら文字に外接する矩形枠が抽出される。次に、文字行中
の各文字の外接矩形枠が比較され、最も大きい文字に比
し極端に小さい文字が除去される。次に、残った文字の
外接矩形枠の上端及び下端の高さの位置によるヒストグ
ラムが作成される。次に、このヒストグラムより、矩形
上端で最も低い位置にあるピークと、矩形下端で最も高
い位置にあるピークとが検出されこれらピーク間の距離
とほぼ同じ大きさの文字の上下端の座標を用いて最小二
自乗法により文字行の傾きを与える直線が求められる。
次に、得られた直線の傾きよりスキューにより文字高さ
のずれが補正された後再び先に説明したと同様な方法で
ヒストグラムが作成される。次に、このヒストグラムよ
り、先に説明したと同様に2つのピークが検出されこれ
らピークが上側基準線及び下側基準線とされる。次に、
これら上側及び下側基準線間の距離が基準サイズの文字
とされ、文字行の各文字パタンの大きさがこの基準サイ
ズ文字の大きさと比較されまた、各文字パタンの位置が
上側及び下側基準線と比較される。そしてこの比較結果
に基づき文字行の各文字が複数のカテゴリに分類され、
これにより認識精度の向上が図られていた。
(発明が解決しようとする課題) しかしながら、上述した文献に開示されている従来の
文字認識方法は、文字行中の全文字を対象として、矩形
情報の入力、微小文字の除去、行傾き補正、さらに基準
線算出等の一連の処理を行なう必要があるため、認識速
度が著しく低下してしまうという問題点があった。
また、1文字や2文字程度の文字で構成されている短
い文字行の場合、ヒストグラムを作成するためのデータ
が非常に少ないので、基準線になるピークを正確に検出
出来ない。従って従来の方法は短い文字行には適用出来
ず、また適用したとしても認識精度はかえって低下して
しまうという問題点があった。
また、ほとんどが同じ大きさの文字で構成されている
文字行の場合は、ヒストグラムにおける凹凸が小さいた
め、基準線及び基準サイズが検出出来ず、従って正確な
文字認識を行なうことが出来ないという問題点があっ
た。
この発明はこのような点に鑑みなされたものであり、
従ってこの発明の目的、上述の問題点を解決し、形状の
等しい文字も正確に然も高速に認識出来る文字認識装置
を提供することにある。
(課題を解決するための手段) この目的の達成を図るため、この出願に係る発明者は
種々の検討を重ねた。その結果、文字行の各文字を認識
をする際に文字行の先頭からn文字目までの認識結果に
基づいてこの文字行の基準線を決定し、n+1文字目以
降の文字を認識するに当たっては該文字の字形及び該文
字の量子化パタン(文字パタン)の前記基準線との相対
的な位置関係に基づいて認識を行なえば、この発明の目
的が達成出来るという結論を得た。
従ってこの発明によれば、媒体からのを光を光電変換
し量子化して媒体上の文字行の入力文字行データを得る
光電変換部、該入力文字行データより文字パタンを切り
出す字切り出し部及び該文字パタンの特徴を抽出し被認
識文字の認識結果文字名を出力する認識部を具える文字
認識装置において、 前述の認識部を、下記(A)、(B)に従い認識結果
文字名を決定する構成としたことを特徴とする。
(A)文字行の先頭からn番目までの認識文字について
は、1文字づつ、当該被認識文字の文字パタンの字形に
起因する特徴を含む特徴に基づいて認識結果文字名を決
定する(但しnは任意の正の整数である)。
(B)前述の文字行の先頭からn+1番目以降の被認識
文字については、1文字づつ、 …当該被認識文字の文字パタンの字形に起因する特
徴を含む特徴、並びに …前述のn番目までの文字の認識結果文字名夫々に
対する予め定めた係数の一部又は全部の係数及び該用い
る係数に対応する文字パタンの入力文字行データにおけ
る座標を用いて算出した前述の入力文字行データの基準
線座標と、当該被認識文字の文字パタンの入力文字行デ
ータにおける座標との相対位置 に基づいて認識結果文字名を決定する。
ここで、当該被認識文字の文字パタンの字形に起因す
る特徴を含む特徴とは、例えば、被認識文字の字形のみ
の特徴、被認識文字の大きさによる特徴、被認識文字の
字形及び大きさのそれぞれの特徴等のことである。
なおこの発明の実施に当たり、前述の認識部を、 被認識文字の文字パタンの字形に起因する特徴に基づ
いて候補文字名を抽出する候補文字名抽出部と、前述の
抽出された候補文字名から以下の(a)、(b)に従い
認識結果文字名を決定する文字名決定部とで構成するの
が好適である。
(a)前述のn番目までの文字については候補文字名の
うちの被認識文字に対する類似度が最も大きい候補文字
名を認識結果文字名とする。
(b)前述のn+1番目以降の被認識文字については、 前述の基準線座標と、被認識文字の文字パタンの座標
とに基づいて該文字パタンの入力文字行データにおける
位置の特徴を算出し、 該位置の特徴を被認識文字の候補文字名に関連する所
定の値と比較して予め定めた条件を満足した場合該候補
文字名を認識結果文字名とし、一方、満足しなかった場
合は第二位以下の候補文字名につき該候補文字名に関連
する所定の値及び前述の位置の特徴間の比較行ない、第
二位以下の候補文字名のうちの前述の予め定めた条件を
満足した候補文字名を認識結果文字名とする。
(作用) この発明の文字認識装置によれば、文字号の先頭から
n番目までの被認識文字の認識結果を用いて、n+1番
目以降の被認識文字の候補文字名が認識結果文字名とし
て適切か否かの判定に用いる文字位置の基準線を算出
し、この基準線と被認識文字の文字パタンから得られる
データとに基づいて認識結果文字名を決定出来る。こと
ため、n+1番目以降の被認識文字中に、例えば大文字
「P」、小文字「p」等のように字形が同じ大きさが異
なる文字が含まれていても、両者を正確に識別出来る。
このため文字行全体における認識精度の向上が図れる。
然も、基準線の算出は文字行中の先頭部分の1又は複
数文字を用いて行なうだけであるので、基準線の算出時
間は従来に比し極めて短時間で行なえる。従って、認識
時間の短縮が図れる。
(実施例) 以下、図面を参照してこの発明の文字認識装置の実施
例につき説明する。
文字認識装置の構成の説明 第1図は、実施例の文字認識装置の構成を概略的に示
したブロック図である。
第1図において、100は文字認識装置、111は媒体(例
えば帳票)からの光信号、112は媒体からの光信号111を
光電変換し量子化して媒体上の文字行の入力文字行デー
タを得る光電変換部、113はこの入力文字行データを格
納するためのラインバッファ、114はラインバッファ内
の入力文字行データより文字パタンを切り出す文字切り
出し部、115は切り出した文字パタンを格納するパタン
レジスタをそれぞれ示す。これら光電変換部112、ライ
ンバッファ113、文字切り出し部114及びパタンレジスタ
115は、それぞれ従来公知の回路で構成してある。また
この実施例の場合、ラインバッファ113は128×4096画素
の容量を有するメモリで構成してあり、パタンレジスタ
115は128×512画素の容量を有するメモリで構成してあ
る。
さらに第1図において116は、この発明に係る認識部
を示す。この認識部116は、下記(A)、(B)に従い
認識結果文字名を決定する構成としてある。
(A)文字行の先頭からn番目までの被認識文字につい
ては、1文字づつ、被認識文字の文字パタンの字形に起
因する特徴を含む特徴に基づいて認識結果文字名を決定
する。
(B)前記文字行の先頭からn+1番目以降の被認識文
字については、 …1文字づつ、当該被認識文字の文字パタンの字形
に起因する特徴、並びに …前記n番目までの文字の認識結果文字名夫々に対
応する予め定めた係数の一部又は全部の係数及び該用い
る係数に対応する文字パタンの入力文字行データにおけ
る座標を用いて算出した前記入力文字行データの基準線
座標と、当該被認識文字の文字パタンの入力文字行デー
タにおける座標との相対位置 に基づいて認識結果文字名を決定する。
そして、上述の(A)及び(B)の処理を容易にする
ため、この実施例の認識部116は、被認識文字の文字パ
タンの字形に起因する特徴に基づいて候補文字名を抽出
する候補文字名抽出部117と、前記抽出された候補文字
名から以下の(a)、(b)に従い認識結果文字名を決
定するために文字位置判定部118a、文字位置特徴テーブ
ル118b、基準線算出部118c及び基準線記憶部118dを具え
る文字名決定部118とで構成してある。
(a)文字行の先頭からn番目までの被認識文字につい
ては候補文字名のうちの被認識文字に対する類似度が最
も大きい候補文字名を認識結果文字名とする。
(b)前述の文字行の先頭からn+1番目以降の被認識
文字については、 前記基準線座標と、被認識文字の文字パタンの座標と
に基づいて該文字パタンの入力文字行データにおける位
置の特徴を算出し、 該位置の特徴を被認識文字の候補文字名に関連する所
定の値と比較して予め定めた条件を満足した場合該候補
文字名を認識結果文字名とし、一方、満足しなかった場
合は第二位以下の候補文字名につき該候補文字名に関列
する所定の値及び前記位置の特徴間の比較を行ない、第
二以下の候補文字名のうちの前記予め定めた条件を満足
した候補文字名を認識結果文字名とする。
ここで、基準線算出低物118cは、認識結果文字名夫々
に対応する上述した予め定めた係数を格納している。ま
た、文字位置特徴テーブル118bは、被認識文字の候補文
字名に関連する上述の所定の値を格納している。
さらに第1図において119は文字名決定部118で決定さ
れた文字名を例えば外部コンピュータ、表示装置等に主
力するための文字名出力端子を示す。
文字認識装置の動作説明 次に、実施例の文字認識装置の理解を深めるために、
第1図、別表1、別表2、第2図(A)及び(B)並び
に別表3を参照して実施例の文字認識装置の動作説明を
行なう。ここで、別表1は、基準線算出テーブル118cの
説明に供する表、別表2は、文字位置特徴テーブル118b
の説明に供する表、第2図(A)は、ラインバッファに
記憶されている入力文字行データ21の説明に供する図、
第2図(B)は、入力文字行データ21における基準線23
の説明に供する図、別表3は、被認識文字が小文字
「p」である場合における候補文字名及び認識結果文字
名の説明に供する表である。
先ず、文字、図形等(以下、単に文字と称する)が記
載された帳票からの光信号111は光電変換部112に入力さ
れる。光電変換部112は、この光信号111を光電変換し文
字線部が例えば黒ビットで表現され背景部が白ビットで
表現される2値のディジタル信号(この信号が入力文字
行データに相当する。)に変換し、この入力文字行デー
タをラインバッファ113に格納する。
ラインバッファ113は、光電変換部112から入力された
入力文字行データを2次元座標が再現出来る形式で記憶
する。第2図(A)は、ラインバッファ113に記憶させ
た入力文字行データ21の様子を可視的に示したものであ
る。
次に文字切り出し部114は、ラインバッファ113より入
力文字行データを読み込みこれを文字行と垂直な方向
(第2図(A)中Yで示す方向(Yと逆の方向でも良
い。)以下列方向と称する。)を主走査方向としかつ左
端より右端に順次に走査をし、各列毎の黒ビット数を係
数して黒ビットによるヒストグラムを作成する。さらに
文字切り出し部114は、作成したヒストグラムを調べ、
黒ビット数が予め定めた第1の閾値B以上である列が予
め定めた第2の閾値L以上連続している領域を文字パタ
ン合データとして抽出し、これをパタンレジスタ115に
格納する。さらに、文字切り出し部114は、パタンレジ
スタ115に文字パタンデータを格納する際に、該文字パ
ターンデータが文字行中の先頭から何番目の文字である
かを示す文字パタン番号m(第2図(A)参照)と、該
文字パタンのラインバッファ113上における最上点の座
標Yt及び最下点の座標Ybとを文字位置判定部118aに出力
する。なお、この実施例の場合、第1の閾値Bを1と
し、第2の閾値Lを5として文字パタンデータを抽出し
た。また、座標Yt及びYbは、ラインバッファ113内に付
された絶対座標(第2図(A)のY座標)で示されるも
のとしている。
文字切り出し部114から出力された文字パタンデータ
を受け取ったパタンレジスタ115は、文字パタンデータ
をその2次元座標が再現出来る形式で格納する。
次に認識部116の候補文字名抽出部117は、パタンレジ
スタ115に記憶されている文字パタンデータを読み取
り、これの特徴を所定の方法により抽出して特徴マトリ
クスを作成する。さらに、この特徴マトリクスと、予め
用意されている標準文字パタンの辞書マトリクスとの類
似度を算出し類似度の大きい順にK個までの辞書マトリ
クスの文字名を候補文字名として文字決定部118の文字
位置判定部118aに出力する。なお、この実施例の場合、
K=5としている。ここで、文字パタンデータからの特
徴の抽出は、従来公知の種々の方法により行なうことが
出来るが、この実施例の場合以下に説明するような方法
で行なった。
先ず、文字パタンデータについてその文字線部に外接
する例えば矩形の枠を検出する。
次に、この文字パタンの線幅Wを下記(1)式で示さ
れる周知の近似式を用いて算出する。
W=1/(1−Q/A) …(1) ここで(1)式において、Qは、文字パタンを2×2
ビットの窓からのぞいた場合この窓内の4画素全てが黒
ビットとなる窓の数であり、Aは、文字パタン中の全黒
ビットの個数である。
次に、この文字パタンを複数の方向に走査を行なって
各走査列毎の黒ビットの連続個数を検出し、この黒ビッ
トの連続個数と、上述の線幅Wとに基づいて上述の複数
の方向毎に対応したサブパターンをそれぞれ抽出する。
そして、この文字パタンの上述の外接枠内を各サブパタ
ンについて(N×M)個の領域(N,Mは定数)にそれぞ
れ分割し、さらに各分割領域内の文字線を表わす特徴量
を各分割領域毎に計算し、この特徴量を文字枠の大きさ
で正規化して特徴マトリクスを得る。この実施例では、
特徴量を(ΔX+ΔY)/2なる値で除することによって
正規化する。ここでΔXは外接枠の水平方向の長さ、Δ
Yは外接枠の垂直方向の長さである。
また、このようにして求めた特徴マトリクスと、予め
用意されている標準文字パタンの辞書マトリクスとの類
似度の算出は、この実施例では、下記(2)式に従い求
めている。
但し、(2)式中、Rは類似度、fiは被認識文字の文
字パタンデータの特徴マトリクスの要素値、giは辞書マ
トリクスの要素値、N×Mは被認識文字の特徴マトリク
ス及び辞書マトリクスの次元数をそれぞれ示す。
次に、文字名決定部118の動作につき説明する。な
お、この説明の理解を用意にするために、第2図(A)
に示した入力文字行データ21を処理する例により動作説
明を行なう。
文字名決定部118の文字位置判定部118aは、文字切り
出し部114から入力された文字パタン番号mを予め定め
た特定の値nと比較しこの比較結果に応じ以下に説明す
るように動作する。ここで、nは所定の正の整数であり
この実施例の場合n=1としている。
(a)n≦mであった場合即ち被認識文字が文字行の先
頭からn番目までの文字である場合、第2図(A)の例
で云うと第1番目の文字「I」の場合、文字位置判定部
118aは、候補文字名抽出部117から出力されたK個の候
補文字名のうちの被認識文字に対する類似度が最も大き
い文字名を認識結果文字名として文字名出力端子119に
出力する。またさらに文字位置判定部118aは、基準線算
出テーブル118c(別表1)から、上述の認識結果文字名
(「I」の文字名)に対応した所定の係数α(以下、基
準線算出係数と称することもある。)を基準線算出テー
ブル118cから読出し、この係数αと、この認識結果文字
名に対応する文字パタン「I」の入力文字行データにお
ける座標この例では文字切り出し部114から入力される
最上点座標Yt及び最下点座標Ybとを用い下記(3)式に
従い入力文字行データの基準線座標Ysを算出する。
Ys=Yb+α(Yt−Yb) …(3) 次に、文字位置判定部118aは、算出した基準線座標Ys
を基準線記憶部118dに格納する。
なお、基準線算出テーブル118cは、英大文字及び英小
文字用のもので考えると例えば別表1のような構成とな
っており、各英字の文字名と、基準線算出係数αとを予
め対応づけて登録することで構成してある。
第2図(A)の入力文字行データ21の基準線座標Ys
ついて考えると、第1番目の文字パタン「I」の基準線
算出係数α、最上点座標Yt及び最下点座標Ybそれぞれ
が、 α=0.0 Yt=98 Yb=30 であるので、基準線座標Ysは、 Ys=30+0×(98−30)=30 となる。
(b)一方m>Nであった場合即ち被認識文字が文字行
の先頭からN+1番目以降の文字である場合、文字位置
判定部118aは以下に説明するように認識結果文字名を決
定する。この動作説明を、第2図(A)の第3番目の文
字である小文字「P」の例で行なう。
文字位置判定部118aは、文字切り出し部114から入力
された文字パタン「P」の最上点座標Yt及び最下点座標
Ybと、基準線記憶部118dに記憶されている基準線座標Ys
とを用い、下記(4)式に従い文字パタン「P」の位置
を表わす特徴eを算出する。
但し(4)式中Zは定数であり、この実施例の場合Z
=10としている。
次に、文字位置判定部118aは、候補文字名抽出部117
から入力されているK個の候補文字名について被認識文
字に対する類似度の大きいものから順次該文字名に対応
する所定の値(文字位置特徴gL及びgHと称する。)を文
字位置特徴テーブル118bから読出す。
なお、文字位置特徴テーブル118bは、英大文字及び英
小文字用のもので考えると例えば別表2のような構成と
なっており、各英字の文字名と、当該文字の基準線の位
置(下限座標gL及び上限座標gH)とを予め対応づけて登
録することで構成してある。
次に、文字位置判定部118aは、文字位置特徴テーブル
118bから読出した文字位置特徴gL及びgHと、文字パタン
の(4)式に従い算出した位置の特徴eとを比較する。
そして、比較結果が、 gL≦e≦gH を満足した場合は、当該候補文字名を認識結果文字名と
して文字名出力端子119に出力する。
これに対し比較結果が、 gL>e または e>gH である場合は、当該候補文字名は認識結果文字名ではな
いと判定し、当該候補文字名の次に類似度が大きい候補
文字名に対して上述したと同様な処理を行なう。
小文字「P」のに認識結果文字名を決定する例につい
て考えると、この文字の文字パタンの最上点座標Yt及び
最下点座標Ybが、 Yt=50 Yb=15 であり、 入力文字行データの基準線座標Ysが、先に求めたよう
に、 Ys=30 であるので、小文字「P」の文字パタンの位置の特徴e
は、(4)式より、 となる。
また、小文字「P」の候補文字名は、類似度順位順に
別表3に示すよういに「P」、「P」、「o」、「b」
及び「c」となっている。
そこで、文字位置判定部118aは、先ず、第1位の候補
文字名「P」の文字位置特徴gL及びgHを文字位置特徴テ
ーブル118bから読出し、これらgL及びgHと、算出した位
置の特徴eとを比較する。しかし、第1位の候補文字名
「P」は、第別表2からも明らかなように、gL=O及び
gH=1であるので、文字パタン「P」の位置の特徴e=
4.2との関係においてgH<eとなってしまう。従って、
文字位置判定部118aは、第1位の候補文字名「P」は認
識結果文字名ではないと判定する。
次に文字位置判定部118aは、第2位の候補文字名
「P」について、第1位の候補文字名の場合と同様な処
理を行なう。この際、第2位の候補文字名「P」は、別
表2に示すように、gL=4及びgH=6であるので、文字
パタン「P」の位置の特徴e=4.2との関係においてgL
≦e≦gHを満足する。従って、文字位置判定部118aは、
第2位の候補文字名「P」を認識結果文字名として決定
し、文字名出力端子119を出力する。
以上がこの発明の文字認識装置の実施例の説明であ
る。しかし、この発明は上述の実施例にのみ限定される
ものではなく以下に説明するような種々の変更を加える
ことが出来る。
上述の実施例は、文字行の先頭にある被認識文字と、
2文字目以降にある被認識文字とで認識処理を異ならせ
た例であった。即ち文字行の先頭からの文字数nをn=
1と設定した例であった。しかしこのnの数は設計に応
じ変更出来ることは明らかである。ただし、nを2以上
の値にした場合の入力文字行データにおける基準線座標
Ysは、例えば以下のように算出するのが好適である。
<第1の算出法> 第1の方法としては、先頭からn番目までの文字毎で
夫々算出した基準線座標の平均値を基準線座標Ysとする
方法がある。
例えば第2図(A)の入力文字行データ21に対し、n
=2を設定した場合の例で説明すると、先ず第1番目の
文字「I」について(3)式に従いYs1を算出し、次に
第2番目の文字「n」について(3)式に従いYs2を算
出し、これらの平均値(Ys1+Ys2)/2を、n=2の場合
における基準線座標Ysとする。
<第2の算出法> 第2の方法としては、先頭からn番目までの文字夫々
の認識結果文字名のうちで最も類似度の大きい認識結果
文字名に対応する予め定めた係数と、該認識結果文字名
を得た文字パタンの座標とを用いて算出した基準線座標
を基準線座標Ysとする方法がある。
第2の算出法に具体例について第1の算出方法の場合
と同じ例で説明すると、第1番目の文字「I」の認識時
の第1位候補文字名の類似度と、第2番目の文字「n」
の認識時の第1位候補文字名の類似度とを比較し、類似
度が大きい方の文字の第1位候補文字名について(3)
式に従い基準線座標を算出しこれを、n=2の場合の基
準線座標Ysとする。
なお、nが3以上の場合の第1及び第2の算出方法の
実施は、n=2の場合と同様な手順で行なえる。
また、上述の実施例は、基準線は1本でありかつ基準
線をベースラインとした例であった。しかしこの発明の
実施例に当たって基準線はベースラインに限られるもの
ではなく、他のもの例えばディッセンダーライン、ミー
ンライン、キャップラインまたはアッセンダーライン等
としても良い。さらに基準線は2本以上設定しても良
い。
(発明の効果) 上述した説明からも明らかなように、この発明の文字
認識装置によれば、文字行の先頭からn番目までの被認
識文字の認識結果を用いて文字行データの基準線を算出
し、n+1番目以降の被認識文字については当該文字の
字形と、当該文字のパタンの文字行データにおける座標
及び前記文字行データの基準座標の相対的な位置関係と
に基づき認識を行なう。このため、n+1番目以降の被
認識文字中に、例えば大文字「P」、小文字「p」等の
ように字形が同じ大きさが異なる文字が含まれていて
も、両者を正確に識別出来る。
然も、基準線の算出は文字行中の先頭部分の1又は複
数文字を用いて行なうだけであるので、基準線の算出時
間は従来に比し極めて短時間で行なえる。また、基準線
は1又は複数の文字を用いて算出するので、少ない文字
数で構成された文字行や同じような大きさの文字で構成
された文字行からも基準線が算出出来、この結果これら
文字行の認識も制度良く行なえる。
これがため、形状の等しい文字も正確に然も高速に認
識出来る装置を提供することが出来る。
【図面の簡単な説明】 第1図は、実施例の文字認識装置の構成を示すブロック
図、 第2図(A)及び(B)は、実施例の説明に供する図で
ある。 100……文字認識装置、111……光信号 112……光電変換部、113……ラインバッファ 114……文字切り出し部、115……パタンレジスタ 116……認識部、117……候補文字名抽出部 118……文字名決定部、118a……文字位置判定部 118b……文字位置特徴テーブル 118c……基準線算出テーブル 118d……基準線記憶部、119……文字名出力端子 21……入力文字行データ 23……基準線。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 山下 義征 東京都港区虎ノ門1丁目7番12号 沖電 気工業株式会社内 (56)参考文献 特開 平1−108691(JP,A) 特開 平1−171080(JP,A) 特開 昭59−109979(JP,A) 特開 昭62−187988(JP,A) 特開 昭55−112687(JP,A) 「英文文書認識処理における文字の大 きさと位置に着目した文字分類方式」、 昭和63年電子情報通信学会春季全国大 会,D−448,1−191 (58)調査した分野(Int.Cl.6,DB名) G06K 9/62 G06K 9/46 JICSTファイル(JOIS) 特許ファイル(DATOLIS)

Claims (5)

    (57)【特許請求の範囲】
  1. 【請求項1】媒体からの光を光電変換し量子化して媒体
    上の文字行の入力文字行データを得る光電変換部、該入
    力文字行データより文字パタンを切り出す文字切り出し
    部及び該文字パタンの特徴を抽出し被認識文字の認識結
    果文字名を出力する認識部を具える文字認識装置におい
    て、 前記認識部を、下記(A)、(B)に従い認識結果文字
    名を決定する構成としたことを特徴とする文字認識装
    置。 (A)文字行の先頭からn番目までの被認識文字につい
    ては、1文字づつ、当該被認識文字の文字パタンの字形
    に起因する特徴を含む特徴に基づいて認識結果文字名を
    決定する(但しnは正の任意の整数である)。 (B)前記文字行の先頭からn+1番目以降の被認識文
    字については、1文字づつ、 ……当該被認識文字の文字パタンの字形に起因する特
    徴を含む特徴、並びに ……前記n番目までの文字の認識結果文字名夫々に対
    応する予め定めた係数の一部又は全部の係数及び該用い
    る係数に対応する文字パタンの入力文字行データにおけ
    る座標を用いて算出した前記入力文字行データの基準線
    座標と、当該被認識文字の文字パタンの入力文字行デー
    タにおける座標との相対位置 に基づいて認識結果文字名を決定する。
  2. 【請求項2】請求項1に記載の文字認識装置において、 前記認識部を、被認識文字の文字パタンの字形に起因す
    る特徴に基づいて候補文字名を抽出する候補文字名抽出
    部と、前記抽出された候補文字名から以下の(a)、
    (b)に従い認識結果文字名を決定する文字名決定部と
    で構成したことを特徴とする文字認識装置。 (a)前記n番目までの文字については候補文字名のう
    ちの被認識文字に対する類似度が最も大きい候補文字名
    を認識結果文字名とする。 (b)前記n+1番目以降の被認識文字については、 前記基準線座標と、被認識文字の文字パタンの座標とに
    基づいて該文字パタンの入力文字行データにおける位置
    の特徴を算出し、 該位置の特徴を被認識文字の候補文字名に対応する所定
    の値と比較して予め定めた条件を満足した場合該候補文
    字名を認識結果文字名とし、一方、満足しなかった場合
    は第二位以下の候補文字名につき該候補文字名に関連す
    る所定の値及び前記位置の特徴間の比較を行ない、第二
    位以下の候補文字名のうちの前記予め定めた条件を満足
    した候補文字名の認識結果文字名とする。
  3. 【請求項3】請求項1又は2に記載の文字認識装置にお
    いて、 前記基準線座標を、先頭からn番目までの文字毎で夫々
    算出した基準線座標の平均値としたことを特徴とする文
    字認識装置。
  4. 【請求項4】請求項1又は2に記載の文字認識装置にお
    いて、 前記基準線座標を、先頭からn番目までの文字夫々の認
    識結果文字名のうちで最も類似度の大きい認識結果文字
    名に対応する予め定めた係数と、該認識結果文字名を得
    た文字パタンの座標とを用いて算出した基準線座標とし
    たこと を特徴とする文字認識装置。
  5. 【請求項5】請求項1〜4のいずれか1項に記載の文字
    認識装置において、 前記基準線をディッセンダーライン、ベースライン、ミ
    ーンライン、キャップライン及びアッセンダーラインの
    中から選ばれた1以上のラインとしたことを特徴とする
    文字認識装置。
JP1264734A 1989-10-11 1989-10-11 文字認識装置 Expired - Lifetime JP2788506B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1264734A JP2788506B2 (ja) 1989-10-11 1989-10-11 文字認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1264734A JP2788506B2 (ja) 1989-10-11 1989-10-11 文字認識装置

Publications (2)

Publication Number Publication Date
JPH03126188A JPH03126188A (ja) 1991-05-29
JP2788506B2 true JP2788506B2 (ja) 1998-08-20

Family

ID=17407431

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1264734A Expired - Lifetime JP2788506B2 (ja) 1989-10-11 1989-10-11 文字認識装置

Country Status (1)

Country Link
JP (1) JP2788506B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2918363B2 (ja) * 1991-09-17 1999-07-12 沖電気工業株式会社 文字分類方法及び文字認識装置
JP6310155B2 (ja) * 2015-07-17 2018-04-11 楽天株式会社 文字認識装置、文字認識方法及び文字認識プログラム
JP5913763B1 (ja) * 2015-07-17 2016-04-27 楽天株式会社 基準線設定装置、基準線設定方法及び基準線設定プログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS55112687A (en) * 1979-02-22 1980-08-30 Nec Corp Character recognition system
JP2697790B2 (ja) * 1985-10-01 1998-01-14 ザ パランチール コーポレーション 文字タイプ決定方法
JPH083827B2 (ja) * 1987-10-21 1996-01-17 シャープ株式会社 キャラクタ画像処理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
「英文文書認識処理における文字の大きさと位置に着目した文字分類方式」、昭和63年電子情報通信学会春季全国大会,D−448,1−191

Also Published As

Publication number Publication date
JPH03126188A (ja) 1991-05-29

Similar Documents

Publication Publication Date Title
US6643401B1 (en) Apparatus and method for recognizing character
JP3453134B2 (ja) 複数の記号ストリングの等価性を判定する方法
JP3259993B2 (ja) 語形測定方法及び画像信号処理方法
JPH05242292A (ja) 分離方法
JP2788506B2 (ja) 文字認識装置
JPH0516632B2 (ja)
JP2917427B2 (ja) 図面読取装置
JP2902097B2 (ja) 情報処理装置及び文字認識装置
JP3052438B2 (ja) 表認識装置
JP2827288B2 (ja) 文字認識装置
JP2918363B2 (ja) 文字分類方法及び文字認識装置
JP2697790B2 (ja) 文字タイプ決定方法
JP2612383B2 (ja) 文字認識処理方式
JP3060248B2 (ja) 表認識装置
JP2993533B2 (ja) 情報処理装置及び文字認識装置
JP2972443B2 (ja) 文字認識装置
JP2963474B2 (ja) 類似文字識別方法
JP3502130B2 (ja) 表認識装置および表認識方法
JPH05114047A (ja) 文字切り出し装置
JP2878327B2 (ja) 文字切り出し装置
JP3127413B2 (ja) 文字認識装置
JP2832035B2 (ja) 文字認識装置
JP2974167B2 (ja) 文字の大分類認識方法
JPH04311283A (ja) 行方向判定装置
JPH03136181A (ja) 文字切り出し方法