JP2682203B2 - 文字認識方法 - Google Patents

文字認識方法

Info

Publication number
JP2682203B2
JP2682203B2 JP2154085A JP15408590A JP2682203B2 JP 2682203 B2 JP2682203 B2 JP 2682203B2 JP 2154085 A JP2154085 A JP 2154085A JP 15408590 A JP15408590 A JP 15408590A JP 2682203 B2 JP2682203 B2 JP 2682203B2
Authority
JP
Japan
Prior art keywords
feature
parameter
neural network
vector
certainty factor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2154085A
Other languages
English (en)
Other versions
JPH0447486A (ja
Inventor
敬嗣 山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2154085A priority Critical patent/JP2682203B2/ja
Publication of JPH0447486A publication Critical patent/JPH0447486A/ja
Application granted granted Critical
Publication of JP2682203B2 publication Critical patent/JP2682203B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、文字画像から特徴量を求めた後に、多層神
経回路網を用いて識別を行う文字認識方法に関するもの
である。
〔従来の技術〕
従来、多層神経回路網を用いた文字認識では、文字画
像から特徴抽出を行い、その特徴量を多層神経回路網に
入力し、文献(“A Neural Network Digit Recogn
ition"by D.J.Burr:IEEE International Conference
on System,Man and Cybernetics:1986,pp1621−16
25)に示されるように、各要素がカテゴリへの類似度を
表現するようなベクトル量として出力信号を得る。多く
の場合、出力信号の要素は、0から1の数値または−1
から1の数値として表現されている。ベクトル量の要素
の中で最大の値を取る要素が表すカテゴリを認識結果と
するものである。さらに、出力信号から認識結果に対す
る確信度が計算され、その確信度がしきい値よりも高い
場合には、その認識結果を出力し、しきい値よりも低い
場合には、その認識結果を棄却して認識結果を出力しな
いことにより、誤った認識結果を出力することを避け、
認識結果の信頼性を高めている。
〔発明が解決しようとする課題〕
手書き文字の特徴としては、文字線のかすれによる欠
落やにじみによる穴つぶれが多いことや、非線形や文字
の位相構造が変化することが挙げられる。前述のような
特徴抽出を行った後に、識別を行うような従来手法で
は、特徴抽出段階でパラメータが用いられており、その
パラメータは予め決定され固定されている。文字認識の
実行時において、認識結果が棄却された場合に、多くの
場合に人間がみると明確に認識できることがある。これ
は特徴抽出の段階でパラメータが固定されているため
に、文字パターンの変形に特徴抽出処理が追従できず、
正しく特徴が抽出できないために、識別も正しく行えず
に認識結果が棄却されてしまうためである。
本発明の目的は、文字線の途切れや穴のつぶれ、非線
形な局所位置の変化、位相構造の変化という多様な文字
パターンの変形に、従来の文字認識方法が追従できない
という欠点を除去せしめ、入力された文字の変形が大き
い場合にも、その変化に追従できる文字認識方法を提供
することにある。
〔課題を解決するための手段〕
第1の発明は、文字画像から特徴を計算して多層神経
回路網により識別処理を行う文字認識方法において、 文字画像から複数のパラメータ値を用いて特徴抽出を
行うステップと、 それによって得られた特徴ベクトルを入力して、各カ
テゴリ毎のスコアを出力する多層神経回路網を計算する
ステップと、 多層神経回路網の出力から出力結果の確信度を計算
し、その確信度をしきい値と比較して、しきい値よりも
高ければ認識結果をそのまま出力するステップと もししきい値よりも低ければ、各パラメータを一定値
増減させて確信度を求め、確信度が高くなった場合のパ
ラメータの変更量を求めるステップと、 全パラメータについて変更量を求めた後に、全パラメ
ータを変更して特徴抽出から再試行することを制御する
ステップとを、 含むことを特徴とする。
第2の発明は、文字画像から特徴を計算して多層神経
回路網により識別処理を行う文字認識方法において、 文字画像から複数のパラメータ値を用いて特徴抽出を
行うステップと、 それによって得られた特徴ベクトルを入力して、各カ
テゴリ毎のスコアを出力する多層神経回路網を計算する
ステップと、 多層神経回路網の出力から出力結果の確信度を計算
し、その確信度をしきい値と比較して、しきい値よりも
高ければ認識結果をそのまま出力するステップと もししきい値よりも低ければ、確信度を高めるように
多層神経回路網に入力する特徴ベクトルが変化すべき量
を求めるステップと、 1つのパラメータが影響を与える特徴ベクトル内の要
素の変更量の和を求めるステップと、 特徴ベクトルの変化量の和に基づいて特徴抽出でのパ
ラメータ値を変更するステップと、 変更したパラメータ値を用いて特徴抽出から再試行す
ることを制御するステップとを、 含むことを特徴とする。
第3の発明は、文字画像から特徴を計算して多層神経
回路網により識別処理を行う文字認識方法において、 文字画像から複数のパラメータ値を用いて特徴抽出を
行うステップと、 それによって得られた特徴ベクトルを入力して、各カ
テゴリ毎のスコアを出力する多層神経回路網を計算する
ステップと、 多層神経回路網の出力から出力結果の確信度を計算
し、その確信度をしきい値と比較して、しきい値よりも
高ければ認識結果をそのまま出力するステップと もししきい値よりも低ければ、確信度を高めるように
多層神経回路網に入力する特徴ベクトルが変化すべき量
を求めるステップと、 1つのパラメータを増減させた場合の特徴ベクトルの
変化量を求め、全パラメータに対する特徴ベクトルの変
化量の組による行列の擬逆行列と特徴ベクトルが変化す
べき量を表すベクトルとの積から各パラメータを変更す
る量を求めるステップと、 変更したパラメータ値を用いて特徴抽出から再試行す
ることを制御するステップとを、 含むことを特徴とする。
〔作用〕
第1の発明では、文字画像から特徴抽出,識別を行っ
た後に、各カテゴリのスコアから認識結果の確信度を計
算し、その確信度がしきい値より低い場合には、特徴抽
出でのパラメータを少量変化させて特徴抽出,識別を行
ってみて、認識結果の確信度の高い方を選択することに
より徐々に高い確信度を持つ認識結果を得る。
この第1の発明では特徴抽出の方法に依存せず、ここ
では特徴抽出でのパラメータ集合を{θj|1≦j≦パラ
メータ数}として、抽出された特徴ベクトルを[fi
(1≦i≦特徴次元)とする。特徴ベクトルを多層神経
回路網に入力し、各カテゴリ毎のスコアを計算する。多
層神経回路網での計算は、3層の場合を例にとると、以
下のように計算できる。
特徴ベクトル値を多層神経回路網に入力し第0層のベ
クトル値として、第0層ベクトル値から第1層のマトリ
クス積を計算する。第0層のベクトル値をoi 0(1≦i
≦NO)とし、第1層重みマトリクス値をwij 1(1≦i≦
N0,1≦j≦N1)、計算結果のベクトル値をoj 1(1≦j
≦N1)とすると、 となる。ただし、これでθj 1はバイアス値である。次に
oj 1(1≦j≦N1)の各々に対して以下の式に従ってs
関数を計算する。
o′j 1=1/2{1+tanh(oj 1)} (2) さらに、第2層重みマトリクスをwjk 2(1≦j≦N1,1
≦k≦N2)とし、バイアス値をθk 2とすると、 なる計算を行う。続いて、ok 2(1≦k≦N2)は各々、
以下のようにs関数が計算され、各カテゴリのスコアと
して出力される。
o′k 2=1/2{1+tanh(ok 2)} (4) 次に多層神経回路網の出力値から確信度を計算する。
確信度の計算方法はどのようなものでも良いが、例えば
以下のような確信度Rの定義式を用いることができる。
この式では、認識対象のカテゴリ数をNとして、神経
回路網からの出力ベクトルをPi(1≦i≦N,0≦Pi
1)、α,βを係数とする。この確信度の値は、カテゴ
リのスコアのうち1つの値だけが上限値1に近く、他の
全ての値が下限値0に近いときに最大値を取り、最大値
を持つ要素Piが1から離れたり、第2位以下の要素が最
大値に接近した場合に、Rは小さくなる。
確信度が予め定めたしきい値より大きい場合には、識
別結果は充分な確信度が得られたものと見なし、その結
果を認識結果として出力する。確信度Rがしきい値より
も小さい場合には、特徴抽出でのパラメータ値を調節し
て認識処理を再試行する。パラメータ値の調節方法を以
下に述べる。
まず、特徴抽出段階での第i番目のパラメータ値θ
だけを一定量大きくして、特徴抽出・識別をした場合の
認識結果の確信度Ri +と、一定量小さくした場合の認識
結果の確信度Ri -を求める。パラメータ変更前の確信度
をR0として、R0,Ri +,Ri -を比較し、高い確信度を得た場
合の変更量を、第i番目のパラメータの変更量Δθ
して定めることができる。全パラメータに対して変更量
を求めた後に、それらを元のパラメータ値に加えて全パ
ラメータを変更して、認識処理を行うことにより、少し
高い確信度の認識結果を得ることができる。
これを繰り返し行うことにより、徐々に最適なパラメ
ータへと変更して、確信度がしきい値を超えたところで
繰り返し処理を終了すれば、確信度の高い認識結果を得
ることができる。一定回数の繰り返し後も、確信度がし
きい値を越えない場合には、入力文字画像を認識できな
いものとして棄却する。
第2の発明では、文字画像から特徴抽出,識別を行っ
た後に、各カテゴリのスコアから認識結果の確信度を計
算し、その確信度がしきい値より低い場合には、第1の
発明と同様の確信度の規範に基づいて、多層神経回路網
に入力する特徴量が変化すべき値を求めた後に、それを
実現させるための特徴抽出でのパラメータの変更量を求
めることにより、徐々に確信度の高い認識結果を得るこ
とができる。確信度Rを大きくするための入力特徴量の
変更量を求めるには、以下の式に従って計算できる。
Δfi=γdR/dfi (6) これは、確信度Rの計算式を定める式の偏微分により
Δfiの計算式は得られることを示している。例えば、第
1の発明で説明したような式(1)から式(4)で表さ
れる3層の神経回路網によって識別を行うとし、さらに
確信度の定義式として、式(5)を用いて、係数α,β
をそれぞれ1とした場合には、特徴ベクトルの変更量は
Δfiは、 となり、実際の値を代入して計算することにより、特徴
ベクトルの要素の変更量Δfiは計算できる。ここで、γ
は0.1などの適当な小さな値でよい。また、uは式
(2),式(4)でのシグモイド関数の傾き制御のパラ
メータであり、hjは多層神経回路網での第1層ユニット
の第j番目のユニット出力値で、式(2)でのo′j 1
同一であり、qkは第2層の第k番目のユニットの出力値
で、式(4)でのo′k 2と同一とする。
次に特徴ベクトルの変更を実現するための特徴抽出で
のパラメータの変更量を求める。これは特徴抽出でのパ
ラメータが影響する特徴ベクトルの要素の変更量を足し
合わせることにより、パラメータを変更すべき値を求め
る。第j番目のパラメータθを増加させた時に、増加
する特徴ベクトルの要素の集合Fj +と減少する特徴ベク
トルの要素の集合Fj -を予め定めておき、1つのパラメ
ータが影響する特徴ベクトルの要素の変更量Δfiの総和
からパラメータの変更量を求める。Fj +に属する要素の
変更量Δfiの総和をΔθj +とし、Fj -に属する要素の変
更量のΔfiの総和をΔθj -とした場合に、パラメータの
変更量Δθは、 Δθ=Δθj +−Δθj - (8) によって求められる。Δθj +の方がΔθj -より大きい場
合には、パラメータθを増加させた場合に増加する特
徴ベクトルの要素の方を大きく変更すべきであることが
わかり、パラメータθをΔθに従って増加させれば
よく、逆にΔθj -の方が大きい場合には、パラメータθ
を減少させたときに増加する特徴ベクトルの方を大き
く変更すべきであることがわかり、パラメータθをΔ
θに従って減少させる。
これを全パラメータに対して計算して、全パラメータ
を変更すれば、確信度を少し高めるための特徴ベクトル
の変更量を実現できる。その後には認識処理を再試行し
て、少し確信度の高い認識結果を得ることができる。こ
れを繰り返し行って、徐々に最適なパラメータへと変更
して、確信度がしきい値を超えたところで繰り返し処理
を終了することにより、確信度の高い結果を得ることが
できる。一定回数の繰り返し後も、確信度がしきい値を
超えない場合には、入力文字画像を認識できないものと
して棄却する。
第3の発明では、文字画像から特徴抽出,識別を行っ
た後に、各カテゴリのスコアから認識結果の確信度を計
算し、その確信度がしきい値より低い場合には、第2の
発明と同様の確信度の規範に基づいて、式(6)と式
(7)に従って確信度を高めるために特徴ベクトルの要
素の変更量[Δfi]を求め、それを列ベクトルAとす
る。次に特徴抽出での第i番目のパラメータθを一定
量増減させた場合の特徴ベクトルをそれぞれ[fi j+]と
[fi j-]として、その差分ベクトルを、 [Δfi j]=[Δfi j+]−[Δfi j-] (9) に従って求め、それを全パラメータに対して行って得た
ベクトル集合を行列Bとする。パラメータの変更量の列
ベクトル[Δθ]をCとすると、 A=BC (10) なる線形変換を仮定すれば、BtをBの擬逆行列とする
と、パラメータの変更量のベクトルCは、 C=BtA (11) で求められる。これにより、確信度を高めるように求め
た特徴ベクトルの変更量を実現するパラメータの変更量
[Δθ]を求めることができる。これを基に全パラメ
ータを変更して認識処理を再試行すれば、少し確信度の
高い認識結果を得ることができる。これを繰り返し行っ
て徐々に最適なパラメータへと変更して、確信度がしき
い値を超えたところで繰り返し処理を終了することによ
り、確信度の高い結果を得ることができる。
〔実施例〕
以下、図面を用いて本発明の文字認識方法の実施例を
説明する。
第1図は第1の発明の文字認識方法の処理の流れ図を
示す。
文字入力ステップ102では、粒状雑音が除去された後
の文字画像を1文字ずつ二値画像として入力する。初期
パラメータ設定ステップ103では、特徴抽出のためのパ
ラメータを初期的に設定する。本実施例では、後述のよ
うに特徴ベクトルとして輪郭線の曲率と方向を用いるの
で、輪郭線の疑似方向と疑似曲線を求めるための輪郭線
追跡の画素数を第1のパラメータθとし、曲率を5種
類に分類するためのパラメータ{θ234}を
4つ用意する。初期的なパラメータ値として、それぞれ
{5,1.2,0.2,−0.2,−1.2}と設定する。ここで説明す
る特徴抽出方法とそのパラメータは、本発明を説明する
上で便宜的なもので本質的な問題ではない。
特徴ベクトル計算ステップ104では、第2図に示すよ
うに局所構造解析ステップ201を実施する。局所構造解
析の内容を第3図を用いて説明する。まず、文字サイズ
の正規化ステップ301では、2値の文字パターンを一定
の大きさに正規化する。次に、その2値画像の黒画像と
白画像との隣接する位置を順に探索することにより輪郭
抽出ステップ302を行い、ステップ303では、その輪郭上
の各点から両方向に長さθの触手をのばし、両方向の
触手のなす角度を曲率とすることにより輪郭点の曲率を
計算し、さらに両方向にのばした触手の方向の平均を輪
郭点の方向とする。続くステップ304では、連続するL
個の曲率のデータから曲率平滑化をする。ここでは、正
規化処理は横30画素,縦40画素程度になるようにし、曲
率平滑化の画素数Lを5画素とする。上記の平滑化され
た曲率データを基に、ステップ305で局所構造への分割
を行う。ここで、局所構造として5種類のものを用い
る。局所構造の抽出には、曲率φ(s)(sは起点から
の輪郭上の距離)と4つのパラメータ(θ〜θ)を
用いる。
(0)直線分(θ>φ(s)>θなるsの区間) (1)正曲率の曲線分(θ>φ(s)>θなるsの
区間) (2)負曲率の曲線分(θ>φ(s)>θなるsの
区間) (3)正曲率の屈曲点(φ(s)>θなるsの区間) (4)負曲率の屈曲点(φ(s)<θなるsの区間) ステップ306では、近接する同種の局所構造のうち、
それらの間隔がしきい値以下の場合には該当する2つの
局所構造を統合し1つにする。このしきい値は、実施例
では2画素とした。また、ステップ307では局所構造の
うち曲線分は、局所構造の部分における曲率の総和が、
π/2を超えないように分割される。屈曲点では、同様に
3π/2を超えないように分割される。このようにして求
められた局所構造は、ステップ308において、その始
点,終点の座標と方向が5種類の局所構造ごとに記憶さ
れる。このようにして抽出された局所構造の例を第4図
に示す。第4図(a)は、抽出された文字の輪郭線401
を示し、第4図(b)は抽出された局所構造の例を示
す。第4図(b)において白丸から白丸までを結んだ実
線分が1つの局所構造である。402は直線分であり、403
は正曲率の曲線分、404は負曲率の曲線分、405は正曲率
の屈曲点、406は負曲率の屈曲点の例である。
次に第2図の特徴ベクトル計算ステップ202の手順に
ついて、第5図を用いて説明する。ステップ501におけ
る局所構造の位置計算では、局所構造の始点と終点の座
標の平均を局所構造の位置として定め、さらに文字をn
×mの粗メッシュで区切り、局所構造の属するメッシュ
の位置(i,j)(0≦i≦n−1,0≦j≦m−1)を求め
る。ステップ502では、局所構造の始点の方向ベクトル
と終点の方向ベクトル平均ベクトルにより局所構造の方
向を定め、これを45゜おきの8方向に量子化し、方向コ
ードq(0≦q≦7)を求める。以上局所構造の種類番
号q(上記の0から4)、メッシュの位置(i,j),方
向dを用いて、特徴ベクトルの要素番号 k=5(8(i×m+j)+q)+p+1 (12) を求め、特徴ベクトル[fk](k=1〜D、D=n×m
×5×8)に特徴量を加算する。ステップ503で局所構
造が屈曲点か否かを判定し、屈曲点の場合にはステップ
506に進み、特徴ベクトルの要素に特徴量として1を加
算し、屈曲点でなければステップ504に進み局所構造の
大きさとして、局所構造の始点から終点までの輪郭線上
の距離を特徴量として求め、ステップ505において特徴
ベクトルの要素に加算する。全局所構造についての処理
を完了するまで、ステップ501からステップ507までの処
理を繰り返して、入力文字データの特徴ベクトル[fk
を求める。
以上の特徴ベクトル計算ステップ104で求められた特
徴ベクトルは、第1図の多層神経回路網計算ステップ10
5において、各カテゴリ毎のスコアに変換される。多層
神経回路網計算ステップ105での処理手順の詳細な説明
を第6図を用いて行う。第6図では、第0層から第2層
までの3層構造の神経回路網の計算方法を説明している
が、本発明では、3層構造に限るものではなく、2層の
ものや4層以上のものにも拡張が可能である。
第6図のステップ601では、第1図のステップ104によ
って抽出された特徴ベクトル値を多層神経回路網に入力
し第0層のベクトル値として、式(1)に従って第0層
ベクトル値から第1層のマトリクス積oj 1(1≦j≦
N1)を計算する。次にステップ602でoj 1の各々に対し
て、式(2)に従ってs関数を計算する。
次にステップ603では、式(3)に従って第2層のマ
トリクス積ok 2(1≦k≦N2)を求める。さらにステッ
プ604において、ok 2は各々の式(4)に従ってs関数が
計算され、各カテゴリのスコアとして出力される。
ここで用いられる第1層および第2層の重みマトリク
スは、文献(“An Introduction to computing wit
h Neural Nets"by R.P.Lippmann:IEEE.ASSP:April
1987,pp.4−22)に示されるような方法で予め学習によ
り決定してあるものとする。
次に第1図の確信度計算ステップ106では、以下の式
を用いて確信度を計算する。ここで、認識対象のカテゴ
リ数をNとして、神経回路網からの出力ベクトルをP
i(1≦i≦N,0≦Pi≦1)、α,βを係数とすると、確
信度Rは、式(5)によって定義することができる。こ
の確信度の定義は、本発明においては本質的なものでは
なく、確信度を他の方法で定義した場合にも適用が可能
である。
この文字認識方法を、数字認識のために用いる場合に
は、10個の文字を認識対象とするためNの値は10と設定
し、英数字を認識対象とする場合には、大文字26文字,
小文字26文字,数字10文字を認識するため、Nの値を62
に設定する。また、式(5)の係数α,βをそれぞれ1
とした。これは、本質的な問題ではなく他の値を取るこ
とも可能である。また、式(5)では、出力データの各
要素が0から1までの値を仮定したが、−1から1の場
合や、さらに一般的に出力データの各要素がaからbま
での値をとる場合にも容易に拡張できる。
第1図のステップ107では、確信度Rとしきい値を比
較し、Rの方が大きい場合には、多層神経回路網計算ス
テップ106の出力結果は、信頼できる結果として、その
出力信号から最大値カテゴリ検出113を行い、その結果
カテゴリを出力して(ステップ114)、1文字の認識処
理を終了する。
確信度としきい値との比較ステップ107で、確信度が
小さい場合には、今までの繰り返し数をカウントし(ス
テップ108)、繰り返し回数としきい値とを比較(ステ
ップ109)して、繰り返し回数が多くなると、認識処理
を中断して、棄却信号出力を行い(ステップ112)、入
力された文字画像はどのカテゴリに属するかは明確には
判断できないものであると出力する。
もし繰り返し回数が一定回数以下である場合には、ス
テップ110に進み、特徴抽出でのパラメータの変更量を
計算する。
パラメータの変更量の計算方法を第7図を用いて説明
する。ステップ701では確信度計算ステップ106で得られ
た値をR0として保存する。ステップ702では、第i番目
のパラメータをθとして、ステップ703では第i番目
のパラメータだけを、一定量増やして、θ+Δθ
して、他のパラメータは元の値を用いて、特徴抽出と多
層神経回路網による識別を行い、その出力結果から式
(5)に従って確信度Ri +を求める。次にステップ704で
は、第i番目のパラメータだけを、一定量減らして、θ
−Δθとして、他のパラメータは元の値を用いて、
特徴抽出と多層神経回路網による識別を行い、その出力
結果から式(5)に従って確信度Ri -を求める。
ステップ705では、Ri +,Ri -,R0を比較して、もしRi +
最大値をとるならば、ステップ706に進みaiを1とし
て、ステップ710に進む。もし、Ri -が最大値をとるなら
ば、ステップ708に進みaiを−1として、ステップ710に
進む。もしR0が最大値をとるならば、ステップ709に進
みaiを0として、ステップ710に進む。以上のステップ7
02からステップ710までの処理を、全パラメータに対し
て実行した後に、ステップ712において全パラメータの
変更量{aiΔθ}(1≦i≦パラメータ数)を求め
る。
この変更量を基に、第1図のステップ111でパラメー
タの変更を行い、ステップ104から認識処理を再試行
し、確信度がしきい値以上になり、認識結果が得られる
か、繰り返し回数がしきい値以上になり棄却されるま
で、以上のステップ104からステップ110の処理を繰り返
して行う。
次に第2の発明の文字認識方法の実施例を説明する。
全体の処理の流れは、第1の発明の文字認識方法と同様
に第1図の流れにしたがう。その内容は、ステップ110
のパラメータ変更量の計算を除いて第1図の内容と同様
であり説明を省略する。本実施例の文字認識方法のパラ
メータ変更量の計算ステップ110の詳細な説明を第8図
を用いて行う。
まず、ステップ801では確信度Rを高めるため特徴ベ
クトルfi(1≦i≦N0)の変更量Δfiを計算する。Rを
式(5)として定義して、α,βをそれぞれ1とする
と、式(7)を用いて実際の値を代入して計算すること
により、特徴ベクトルの要素の変更量Δfiは計算でき
る。ここで、γは0.1などの適当な小さな値でよい。ま
たuは式(2),式(4)でのシグモイド関数の傾き制
御のパラメータで、hjは多層神経回路網での第1層ユニ
ットの第j番目のユニットの出力値で、qkは第2層の第
k番目のユニット出力値とする。
次に、ステップ802からステップ807では、各パラメー
タの変更量を求める。この処理をパラメータの数だけ繰
り返す。
まず、1つのパラメータが影響を与える特徴ベクトル
の要素の総和を求める。実施例では、文字の輪郭線の方
向と、曲率を求める触手長θと、曲率を5つの種類に
分類するためのしきい値(θ〜θ)を利用している
が、例えばθは局所構造を、正曲率の曲線分と直線分
を分類するためのしきい値であり、θを大きくすると
正曲率の曲線分に関する特徴量は減少し、直線分に関す
る特徴量は増加する。よって、ステップ803では直線分
に関する特徴ベクトルの要素の変更量の総和を以下の式
で求める。
メッシュの位置(x,y) (0≦X≦n−1,0≦y≦m−1) 方向コード q(0≦q≦7) 局所構造の種類番号 p(1≦p≦5) ただし、正曲率の曲線分の局所構造種類番号を3とす
ると、p=3として、x,y,qに関して、Δfkの総和を計
算し、Δθj +とする。また、ステップ804では、パラメ
ータθを大きくした場合に、減少する特徴ベクトル要
素の総和を求める。θの場合には式(13)でp=2と
して、Δfkの総和を求め、Δθj -とする。
つぎに、ステップ805では、パラメータθの変更量
Δθを式(8)に従った計算により求める。ステップ
806では、パラメータ変更量Δθがあまり大きくなら
ないように、小さな値の定数δと−δとの間になるよう
に修正する。もし、δより大きい場合にはΔθをδに
置換し、もし−δより小さい場合には、−δに置換す
る。
以上のステップ802からステップ808までの処理を、全
パラメータに対して実行した後に、ステップ809におい
て全パラメータの変更量{Δθ}(1≦j≦パラメー
タ数)を求める。
この変更量を基に、第一図のステップ111でパラメー
タの変更を行い、ステップ104から認識処理を再試行
し、確信度がしきい値以上になり、認識結果が得られる
か、繰り返し回数がしきい値以上になり棄却されるま
で、以上のステップ104からステップ110の処理を繰り返
して行う。
次に第3の発明の文字認識方法の実施例を説明する。
全体の処理の流れは、第1の発明の文字認識方法と同様
に第1図の流れに従う。その内容は、ステップ110のパ
ラメータ変更量の計算を除いて第1図の内容と同様であ
り説明を省略する。本実施例の文字認識方法パラメータ
変更量の計算ステップ110の詳細な説明を第9図を用い
て行う。
まず、ステップ901では、第8図の場合と同様に、確
信度Rを高めるための特徴ベクトルfi(1≦i≦N0)の
変更量Δfiを式(7)に従った計算により求める。
次にステップ902からステップ904で、パラメータθ
による特徴ベクトルの要素fiの変化量Δfi jを求める。
ステップ902では、パラメータθを少量増加させてθ
+Δとして特徴抽出を行い、その結果の特徴ベクト
ルを[fi j+]を求める。次に同様にして、ステップ903
において、パラメータθを少量減少させてθ−Δθ
として特徴抽出を行い、その結果の特徴ベクトルを
[fi j-]を求める。その後、ステップ904において、パ
ラメータθが特徴ベクトルに与える影響量として、列
ベクトル[Δfi j]を式(9)に従った計算により求め
る。
ステップ902からステップ904までの処理を全パラメー
タに対して行うことにより、パラメータ数の特徴量の変
更ベクトル[Δfi j]が得られる。これらを行方向に並
べることにより、行列[Δfi j]が得られ、これを行列
Bとする。Bの擬逆行列Btは、ステップ905で以下の式
に従って計算される。
Bt=B(BB-1 (14) ここでBは、行列Bの随伴行列を表し、X-1はXの
逆行列を表す。
ステップ906では、ステップ901で求められている特徴
量の変更量の列ベクトル[Δfi]をAとし上記のBtとか
ら、式(11)に従ってパラメータの変更量の列ベクトル
[Δθ′]であるCが求められる。
ステップ907では、パラメータの変更量Δθ′があ
まり大きくならないように、小さな値の定数δと−δと
の間に入るように修正する。もし、δより大きい場合に
はΔθ′をδに置換し、もし−δより小さい場合に
は、−δに置換する。
この変化量を基に、第1図ステップ111でパラメータ
変更を行い、ステップ104から認識処理を再試行し、確
信度がしきい値以上になり、認識結果得られるか、繰り
返し回数がしきい値以上になり棄却されるまで、以上の
ステップ104からステップ110の処理を繰り返して行う。
ここでは、文字輪郭線の方向と曲線に関する特徴量を
用いて本発明の実施例を述べたが、他の特徴抽出方法に
ついてもいくつかのパラメータへの拡張は容易に行え
る。
〔発明の効果〕
以上の説明から明らかなように、本発明の文字認識方
法では、認識結果の信頼性を評価する確信度を定義した
上で、文字認識での特徴抽出で用いられるパラメータを
認識結果の確信度を高めるという規範に基づいて、入力
文字の変形に適応的にしかも自動的に調節を行い、その
結果の確信度の高い認識結果のみを出力する。これによ
ってパラメータの設定が微妙に影響して、本来充分認識
できる程度の質の文字画像であるにも拘わらず、認識結
果を棄却して、認識結果が得られなかったものを、本発
明の文字認識方法を用いることによって、特徴抽出のパ
ラメータが調節され、正しい認識を得ることができる。
また、非常に質が悪く人間がみても認識できないような
文字画像は、何度パラメータを調節しても高い確信度が
得られないために、従来と同様に棄却される。よって、
誤認識率を増加させることなく、棄却率を減少させ、認
識率を増加させて、全体的に認識性能を向上させること
ができる。
【図面の簡単な説明】
第1図は、本発明の文字認識方法の処理全体の流れ図、 第2図は、特徴ベクトルの計算方法の流れ図、 第3図は、特徴ベクトル計算での局所構造を抽出する処
理を示す流れ図、 第4図は、抽出された文字の輪郭線の局所構造の例を示
す図、 第5図は、抽出された局所構造から特徴ベクトルに変換
する方法を示す流れ図、 第6図は、多層神経回路網の計算方法を示す図、 第7図は、第1の発明の文字認識方法での特徴抽出での
パラメータの変更量を計算する方法を示す図、 第8図は、第2の発明の文字認識方法での特徴抽出での
パラメータの変更量を計算する方法を示す図、 第9図は、第3の発明の文字認識方法での特徴抽出での
パラメータの変更量を計算する方法を示す図である。

Claims (3)

    (57)【特許請求の範囲】
  1. 【請求項1】文字画像から特徴を計算して多層神経回路
    網により識別処理を行う文字認識方法において、 文字画像から複数のパラメータ値を用いて特徴抽出を行
    うステップと、 それによって得られた特徴ベクトルを入力して、各カテ
    ゴリ毎のスコアを出力する多層神経回路網を計算するス
    テップと、 多層神経回路網の出力から出力結果の確信度を計算し、
    その確信度をしきい値と比較して、しきい値よりも高け
    れば認識結果をそのまま出力するステップと、 もししきい値よりも低ければ、各パラメータを一定値増
    減させて確信度を求め、確信度が高くなった場合のパラ
    メータの変更量を求めるステップと、 全パラメータについて変更量を求めた後に、全パラメー
    タを変更して特徴抽出から再試行することを制御するス
    テップとを、 含むことを特徴とする文字認識方法。
  2. 【請求項2】文字画像から特徴を計算して多層神経回路
    網により識別処理を行う文字認識方法において、 文字画像から複数のパラメータ値を用いて特徴抽出を行
    うステップと、 それによって得られた特徴ベクトルを入力して、各カテ
    ゴリ毎のスコアを出力する多層神経回路網を計算するス
    テップと、 多層神経回路網の出力から出力結果の確信度を計算し、
    その確信度をしきい値と比較して、しきい値よりも高け
    れば認識結果をそのまま出力するステップと、 もししきい値よりも低ければ、確信度を高めるように多
    層神経回路網に入力する特徴ベクトルが変化すべき量を
    求めるステップと、 1つのパラメータが影響を与える特徴ベクトル内の要素
    の変更量の和を求めるステップと、 特徴ベクトルの変化量の和に基づいて特徴抽出でのパラ
    メータ値を変更するステップと、 変更したパラメータ値を用いて特徴抽出から再試行する
    ことを制御するステップとを、 含むことを特徴とする文字認識方法。
  3. 【請求項3】文字画像から特徴を計算して多層神経回路
    網により識別処理を行う文字認識方法において、 文字画像から複数のパラメータ値を用いて特徴抽出を行
    うステップと、 それによって得られた特徴ベクトルを入力して、各カテ
    ゴリ毎のスコアを出力する多層神経回路網を計算するス
    テップと、 多層神経回路網の出力から出力結果の確信度を計算し、
    その確信度をしきい値と比較して、しきい値よりも高け
    れば認識結果をそのまま出力するステップと、 もししきい値よりも低ければ、確信度を高めるように多
    層神経回路網に入力する特徴ベクトルが変化すべき量を
    求めるステップと、 1つのパラメータを増減させた場合の特徴ベクトルの変
    化量を求め、全パラメータに対する特徴ベクトルの変化
    量の組による行列の擬逆行列と特徴ベクトルが変化すべ
    き量を表すベクトルとの積から各パラメータを変更する
    量を求めるステップと、 変更したパラメータ値を用いて特徴抽出から再試行する
    ことを制御するステップとを、 含むことを特徴とする文字認識方法。
JP2154085A 1990-06-14 1990-06-14 文字認識方法 Expired - Fee Related JP2682203B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2154085A JP2682203B2 (ja) 1990-06-14 1990-06-14 文字認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2154085A JP2682203B2 (ja) 1990-06-14 1990-06-14 文字認識方法

Publications (2)

Publication Number Publication Date
JPH0447486A JPH0447486A (ja) 1992-02-17
JP2682203B2 true JP2682203B2 (ja) 1997-11-26

Family

ID=15576565

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2154085A Expired - Fee Related JP2682203B2 (ja) 1990-06-14 1990-06-14 文字認識方法

Country Status (1)

Country Link
JP (1) JP2682203B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6057112B1 (ja) * 2016-04-19 2017-01-11 AI inside株式会社 文字認識装置、方法およびプログラム

Also Published As

Publication number Publication date
JPH0447486A (ja) 1992-02-17

Similar Documents

Publication Publication Date Title
US5475768A (en) High accuracy optical character recognition using neural networks with centroid dithering
CN111191583A (zh) 基于卷积神经网络的空间目标识别系统及方法
CN111898621B (zh) 一种轮廓形状识别方法
CN112990097A (zh) 一种基于对抗消除的人脸表情识别方法
US5832108A (en) Pattern recognition method using a network and system therefor
EP0511668A2 (en) Image recognition device and image recognition method
EP0450522B1 (en) A learning method for a data processing system
EP0459276A2 (en) Data processing system
US5689584A (en) Method of and apparatus for pattern recognition and method of creating pattern recognition dictionary
EP0604687A1 (en) Method for deriving character features in a character recognition system
Chi et al. Separation of single-and double-touching handwritten numeral strings
CN113191361A (zh) 一种形状识别方法
JP2682203B2 (ja) 文字認識方法
Foggia et al. Combining statistical and structural approaches for handwritten character description
JP2778194B2 (ja) パターン認識方法および装置
CN112560824A (zh) 一种基于多特征自适应融合的人脸表情识别方法
EP0450521B1 (en) A learning method for a data processing system
JP2950023B2 (ja) パターン認識辞書生成装置およびパターン認識装置
Mohammad et al. An offline writer-independent signature verification system using autoembedder
Singh et al. Neuro-fuzzy model based classification of handwritten Hindi modifiers
JPH0773276A (ja) 文字認識装置
Miyamot A rotation and scale robust texture recognition using moment features and neural network
EP0457909B1 (en) Data processing system
Chhabra Neural network based text recognition for engineering drawing conversion
Ritter et al. Noise tolerant dendritic lattice associative memories

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070808

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080808

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080808

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090808

Year of fee payment: 12

LAPS Cancellation because of no payment of annual fees