JPH0580711B2 - - Google Patents

Info

Publication number
JPH0580711B2
JPH0580711B2 JP60038309A JP3830985A JPH0580711B2 JP H0580711 B2 JPH0580711 B2 JP H0580711B2 JP 60038309 A JP60038309 A JP 60038309A JP 3830985 A JP3830985 A JP 3830985A JP H0580711 B2 JPH0580711 B2 JP H0580711B2
Authority
JP
Japan
Prior art keywords
character
name
pattern
candidate word
names
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP60038309A
Other languages
English (en)
Other versions
JPS61198385A (ja
Inventor
Hirohisa Goto
Koichi Higuchi
Yoshuki Yamashita
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP60038309A priority Critical patent/JPS61198385A/ja
Publication of JPS61198385A publication Critical patent/JPS61198385A/ja
Publication of JPH0580711B2 publication Critical patent/JPH0580711B2/ja
Granted legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Description

【発明の詳細な説明】 (産業上の利用分野) 本発明は、文字認識方式に関する。
(従来の技術) 文字認識、特に漢字認識においては、認識対象
に字形の酷似した類似文字が多く含まれている。
たとえば「大」、「犬」、「太」のように点の有無
や、位置の異なる文字、「未」、「末」や「人」、
「入」のように文字線の長さが異なる文字などで
ある。ところで、手書文字では筆者の違いによる
局所的な文字線の位置移動や傾き、また、印刷文
字では活字の傾き等により、入力文字の字形が変
形すると、抽出される特徴が不安定となり、その
認識が難しくなるが、前記類似文字間ではその影
響が顕著でありわずかな変形でも誤認識する。
前記問題点を解決する方法として、連続した入
力文字を単語として扱い、各入力文字の候補文字
名から得られる文字名列があらかじめ用意した単
語辞書に存在するか調べることにより、誤認識を
防止する方法が考案されている(例えば、昭和57
年度電子通信学会全国大会、P5−326、1341、
「手書漢字認識における単語情報の利用」)。
例えば、住所を認識対象とする認識装置におい
て、第2図aに示すように手書文字「東」、「京」、
「都」が入力され、それぞれの文字の第1位候補
が「束」、「京」、「都」であつた場合について説明
する。あらかじめ、第2図bに示すように住所単
語が格納された単語辞書を用意しておき、入力文
字に対して得られた候補文字名を組合せた文字名
列「束京都」、「束京群」、「束京部」、「東京都」な
どが、前記単語辞書内に存在するか照合する。こ
の場合、存在する文字名列は「東京都」だけであ
り、第2図cに示すように認識結果「東京都」が
得られる。このように、入力文字の第1位候補は
「束」、「京」、「都」であり、第1文字目が誤認識
している場合でも、単語辞書を利用することによ
り正しい認識結果が得られる。
(発明が解決しようとする問題点) しかしながら、上記従来の方式にあつては、単
語辞書内に互いに異なる文字が類似文字である複
数の単語(類似単語と呼ぶ)が存在する場合に
は、先に述べたように類似文字間では僅かな変形
でも誤認識が起こるため単語照合でも類似した単
語に誤認識するという問題があつた。その対策と
して文字単位の認識辞書文字マスクを多数用意し
なければならず、辞書が増大し、ひいては、処理
速度も低下するという問題点があつた。
本発明は、以上述べた類似単語間の誤認識とい
う問題点と、認識辞書文字マスクの増大および処
理速度の低下という問題点を除去し、認識精度が
良く処理速度の速い優れた文字認識方式を提供す
ることを目的とする。
(問題点を解決するための手段) 本発明は、文字図形パターンの特定方向のスト
ロークをあらわすサブパターンにおける任意の分
割単位領域の黒ビツト数を、文字線幅とストロー
ク方向に対応した文字枠の大きさとで正規化して
得られる量を特徴要素として、ストローク方向の
異なる複数の各サブパターン毎に且つ文字枠内を
分割することによつて得られる前記各分割単位領
域毎に当該文字図形パターンから前記特徴要素を
抽出してサブパターン特徴マトリクスを作成し、
標準文字マスクが当該サブパターン特徴マトリク
スと同形式で記述されているマトリクス辞書を参
照して当該文字図形パターンの認識を行う文字認
識方式を対象とする。
本発明によれば、この文字認識方式において、
以下に述べる3つの識別段階が設けられる。
第1の識別段階は、前記文字図形パターンのサ
ブパターン特徴マトリクスと前記標準文字マスク
との照合を行い、両者の距離の小さなものから標
準文字マスクの文字名を所定個取出し、これを文
字図形パターンの候補文字名グループとして保存
する。
第2の識別段階は、連続する文字図形パターン
にそれぞれ対応する候補文字名グループから1文
字ずつ取出して組合せた文字数L個の文字名列が
予め用意した単語辞書内に存在するかどうかを調
べ、存在していれば前記文字名列を候補単語名と
して出力する。
第3の識別段階は、前記候補単語名がND
(NDは2以上の整数)ある場合にND個の前記候
補単語名から2個取出し、この2個の候補単語名
を比較しi文字目(1≦i≦L、iは整数)の文
字名が異なるとき、それぞれの候補単語名のi文
字目の文字名のマトリクス辞書の各要素の差の絶
対値を要素とする差分辞書のマトリクスを作成
し、当該差分辞書マトリクスでサブパターン特徴
マトリクスと前記i文字目の文字名の標準文字マ
スクとの距離に重み付けを行い、その重み付距離
の小さい方の文字名を含む候補単語名に対して所
定の得点を与え、L文字目まで比較が終つた後の
得点の和が大きい方の候補単語名に対して改めて
所定の得点を与えることを、ND個の候補単語名
から2個取出して得られる全ての組合せに対して
行い、最も得点の高い候補単語名を識別結果とし
て出力する。
(作用) 第1の識別段階は入力された文字図形パターン
に対し、複数の候補文字を提供する作用を呈す
る。第2の識別段階はこれらの候補文字の組合せ
の文字名列のうち、所定の単語に該当するものの
みを候補単語名として選択する作用を呈する。第
3の識別段階は候補単語名が第2の識別段階にお
いて複数個得られた場合、これらのうち最も適切
なものを1つ決定する作用を呈する。この場合、
差分辞書マトリクスはサブパターン特徴マトリク
スと標準文字マスクとの距離を重み付けする作用
をもつ、すなわち、両者の差違部分を強調する作
用をもつ。従つて、高精度の認識を行うことがで
きる。
(実施例) 以下、本発明を実施例に基づき図面を参照して
詳細に説明する。
まず、文字図形パターン(以下、入力パターン
とする)と各サブパターンの例を第3図に示す。
同図aは入力パターン、bは垂直サブパターン
(VSP)、cは水平サブパターン(HSP)、dは右
斜めサブパターン(RSP)、eは左斜めサブパタ
ーン(LSP)である。
第1図は、本発明の一実施例を示すブロツク図
である。同図において、文字の光信号は、光信号
入力1より光電変換部2において2値の量子化さ
れたデイジタル電気信号に変換され、パターンレ
ジスタ3に格納される。それと同時に線幅計算部
4において入力パターンの線幅(W)が計算される。
サブパターン抽出部5はパターンレジスタ3につ
いて垂直スキヤンを全面に行つて黒点(文字線部
を黒点とする)の連続の長さと線幅計算部4にお
いて計算された線幅との関係より垂直サブパター
ン(VSP)を抽出し垂直サブパターンレジスタ
に格納する。同様に水平スキヤンにより水平サブ
パターン(HSP)を、右斜め45°スキヤンにより
右斜めサブパターン(RSP)を左斜め45°スキヤ
ンにより左斜めサブパターン(LSP)、を抽出し、
各サブパターンレジスタに格納する。
文字枠検出部6はパターンレジスタ3内の入力
パターンに外接する方形枠を検出し、その結果を
文字枠分割決定部7へ送る。この方形枠を文字枠
と呼ぶ。
文字枠分割決定部7は文字枠検出部6で検出さ
れた文字枠内をM×N個の領域(M、Nは整数、
本実施例ではM=N=5)に分割するためのX
軸、Y軸上の分割座標を決定する。ここでX軸、
Y軸はそれぞれ水平方向及び垂直方向の座標軸を
示す。
特徴マトリクス抽出部8は文字枠分割決定部に
より決定された分割点座標をうけてVSP、HSP、
RSP、LSPの各サブパターンレジスタ上の文字
枠内領域をM×N個の部分領域に分割し、各領域
内の特徴量を計算して、M×N×4次元の特徴マ
トリクスを抽出する。以下、特徴量の計算方法を
説明する。
まず、それぞれのサブパターンについて各部分
領域内の黒点数Bijを計数し、線幅計算部4で計
算した線幅Wを用いて式(1)により文字線長をあら
わす特徴量を計算し、M×N次元のマトリクスを
それぞれのサブパターンごとに作成する。
Lij=Bij/W ……(1) さらにVSP特徴マトリクスは文字枠のY軸方
向の長さΔYで、HSP特徴マトリクスは文字枠の
X軸方向の長さΔXで、RSP及びLSP特徴マトリ
クスは(ΔX+ΔY)/2でそれぞれ正規化を行
い最終的にM×N×4次元の特徴マトリクスを作
成する。
マトリクス識別部9は、特徴マトリクス抽出部
8で抽出した特徴マトリクス(Fm)とあらかじ
めマトリクス辞書10に用意されている辞書マト
リクス(Fd)との間に式(2)で定義されいる距離
(D)を適用し、Dの値が小さなものから順に対応す
る辞書マトリクスの文字名をNA個取出す。この
NA個の文字名を入力文字の候補文字名グループ
と呼び、候補文字名バツフア11に出力する(本
実施例ではNA=10)。
D=√ 〓k (Fmk−Fdk2 ……(2) ここで、Fmk、Fdkは特徴マトリクス及び辞書
マトリクスの各要素を表わし1≦k≦(M×N×
4)である。
候補文字名バツフア11は前記マトリクス識別
部9から出力された候補文字名グループを貯えて
いく。また、候補文字名として空白を得た場合
は、貯えている候補文字名グループを単語照合部
13へ出力し、バツフア内をクリアする。すなわ
ち、本実施例では空白を区切りとして単語の取出
しを行う。但し、貯えている候補文字名グループ
があらかじめ規定した数値NB(NB:単語最大文
字数と空白以外の文字の最大連続数、本実施例で
は10)に達した場合にも、貯えている候補文字名
グループを出力し、バツフア内をクリアする。
特徴マトリクスバツフア12は、特徴マトリク
ス抽出部8で抽出した特徴マトリクスを貯える。
そして、貯えた特徴マトリクスを差分識別部16
の要求により出力し、出力した後はバツフア内を
クリアする。
単語照合部13はまず、前記候補文字名バツフ
ア11から出力された候補文字名グループ(入力
文字数L文字、各文字について候補文字名NA個)
より入力文字1文字について1個の候補文字名を
取り出し、長さLの文字名列を作る。次に、単語
照合部13はこの文字名列と同一の単語が単語辞
書14内に存在するか検策し、存在する場合は当
該単語を候補単語として差分識別部16及び差分
辞書作成部15に出力する。この処理を候補文字
名グループ内の全ての候補文字名を組合せた文字
名列について行つて得られた候補単語を全て出力
する。以上の処理について、第4図を例に説明す
る。同図aは入力文字「太」、「田」、「市」とぞれ
ぞれの入力文字に対する候補文字名である。この
例では説明を簡単にするためNA=3、L=3と
する。入力文字「太」に対しては候補文字名グル
ープ{大、太、犬}が得られており、同様に入力
文字「田」に対しては{田、由、国}、入力文字
「市」にしては{市、布、中}が候補文字名グル
ープとして得られている。次に、前記3つの候補
文字名グループからそれぞれ1個づつの候補文字
名を取出す。例えば「大田市」という文字名列を
取出して、この文字名列と同一の単語が単語辞書
14内に存在するか検索する。この例の場合は住
所を認識対象としているので、単語辞書14には
あらかじめ住所単語を格納しておく。前記の文字
名列「大田市」は住所単語として存在するので、
単語照合部13は文字名列「大田市」を候補単語
として差分識別部16及び差分辞書作成部15に
出力する。さらに、前記3つの候補文字名グルー
プからそれぞれ1個づつ候補文字名を取出して作
ることのできる全ての文字名列について、前記の
単語辞書との照合を行う。この例では、「大田市」
の他に「太田市」、「犬田市」、「大由市」など27個
(=NA

Claims (1)

    【特許請求の範囲】
  1. 1 文字図形パターンの特定方向のストロークを
    あらわすサブパターンにおける任意の分割単位領
    域の黒ビツト数を文字線幅とストローク方向に対
    応した文字枠の大きさとで正規化して得られる量
    を特徴要素として、ストローク方向の異なる複数
    の各サブパターン毎に且つ文字枠内を分割するこ
    とによつて得られる前記各分割単位領域毎に当該
    文字図形パターンから前記特徴要素を抽出してサ
    ブパターン特徴マトリクスを作成し、標準文字マ
    スクが当該サブパターン特徴マトリスクと同形式
    で記述されているマトリクス辞書を参照して当該
    文字図形パターンの認識を行う文字認識方式にお
    いて、前記文字図形パターンのサブパターン特徴
    マトリクスと前記標準文字マスクとの照合を行
    い、両者の距離の小さなものから標準文字マスク
    の文字名を所定個取出し、これを文字図形パター
    ンの候補文字名グループとして保存する第1の識
    別段階と、任意のL個の連続する文字図形パター
    ンにそれぞれ対応する候補文字名グループから1
    文字ずつ取出して組合せた文字数L個の文字名列
    が予め用意した単語辞書内に存在するかどうかを
    調べ、存在していれば前記文字名列を候補単語名
    として出力する第2の識別段階と、前記候補単語
    名がND個(NDは2以上の整数)ある場合にND
    の前記候補単語名から2個取出し、この2個の候
    補単語名を比較しi文字目(1≦i≦L、iは整
    数)の文字名が異なるとき、それぞれのi文字目
    の文字名のマトリクス辞書の各要素の差の絶対値
    を要素とする差分辞書マトリクスを作成し、当該
    差分辞書マトリクスでサブパターン特徴マトリク
    スと前記それぞれの候補単語名のi文字目の文字
    名の標準文字マスクとの距離に重み付けを行い、
    その重み付距離の小さい方の文字名を含む候補単
    語名に対して所定の得点を与え、L文字目まで比
    較が終つた後の得点の和が大きい方の候補単語名
    に対して改めて所定の得点を与えることを、ND
    個の候補単語名から2個取出して得られる全ての
    組合せに対して行い、最も得点の高い候補単語名
    を識別結果として出力する第3の識別段階とを有
    することを特徴とする文字認識方式。
JP60038309A 1985-02-27 1985-02-27 文字認識方式 Granted JPS61198385A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60038309A JPS61198385A (ja) 1985-02-27 1985-02-27 文字認識方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60038309A JPS61198385A (ja) 1985-02-27 1985-02-27 文字認識方式

Publications (2)

Publication Number Publication Date
JPS61198385A JPS61198385A (ja) 1986-09-02
JPH0580711B2 true JPH0580711B2 (ja) 1993-11-10

Family

ID=12521694

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60038309A Granted JPS61198385A (ja) 1985-02-27 1985-02-27 文字認識方式

Country Status (1)

Country Link
JP (1) JPS61198385A (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0769932B2 (ja) * 1987-07-31 1995-07-31 株式会社豊田中央研究所 文字認識装置
JP3360513B2 (ja) * 1996-01-16 2002-12-24 三菱電機株式会社 オンライン文字認識方法およびオンライン文字認識装置

Also Published As

Publication number Publication date
JPS61198385A (ja) 1986-09-02

Similar Documents

Publication Publication Date Title
EP0564827A2 (en) A post-processing error correction scheme using a dictionary for on-line handwriting recognition
WO1995027954A1 (en) Pattern recognition method and system
JPH0580711B2 (ja)
US6859556B2 (en) Word recognizing apparatus for dynamically generating feature amount of word and method thereof
JP2788506B2 (ja) 文字認識装置
JP2697790B2 (ja) 文字タイプ決定方法
JP2671984B2 (ja) 情報認識装置
JP2930996B2 (ja) 画像認識方法および画像認識装置
JP3419251B2 (ja) 文字認識装置及び文字認識方法
JPS60181884A (ja) 文字認識方式
JP3115139B2 (ja) 文字切り出し方法
JPH0147835B2 (ja)
JPS62125485A (ja) 文字認識方式
JP2904517B2 (ja) 文字認識装置
JPH0656625B2 (ja) 特徴抽出方式
JP2918363B2 (ja) 文字分類方法及び文字認識装置
JPH0545992B2 (ja)
JPS63136286A (ja) オンライン文字認識方式
JP2972443B2 (ja) 文字認識装置
JPH0547871B2 (ja)
JPH0632080B2 (ja) 文字認識方式
JP3352467B2 (ja) オンライン文字認識装置
JP2851865B2 (ja) 文字認識装置
JPS63234372A (ja) 特徴抽出方式
JPS62154079A (ja) 文字認識方式