JPH0241588A

JPH0241588A - 未知パターン認織結果のリジェクト方法

Info

Publication number: JPH0241588A
Application number: JP63190640A
Authority: JP
Inventors: Kazuyuki Yoshida; 收志吉田
Original assignee: Fuji Electric Co Ltd
Current assignee: Fuji Electric Co Ltd
Priority date: 1988-08-01
Filing date: 1988-08-01
Publication date: 1990-02-09

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は、パターン認識における未知パターン認識結果
のリジェクト方法に関するものである。

〔従来の技術〕

第３図は従来の文字パターン認識のアルゴリズムを示す
流れ図である。同図に示すように、認識の対象とする文
書が入力されると、該文書を走査して光電変換した後、
文字切り出し、ベクトル化、大きさの正規化、停止・伝
播処理、類似度計算を行い、類似度の最大値を検出し、
該最大値を持つ標準文字パターンの属する文字カテゴリ
ーを認識結果（読取結果）として出力していた。

〔発明が解決しようとする課題〕

以上説明した如き従来のパターン認識技術においては、
上述のアルゴリズムを満足する限り、必ず読取結果を出
力していた。しかしこの方法だと、切り出した文字が人
間が見ても認識できないような汚れた文字とか、かすれ
たような文字であっても、恰も正しく認識できたかのよ
うにして実際には間違っている読取結果を出力すること
になるという問題点があった。

本発明の目的は、文字パターンの認識において、認識対
象とする文字パターンが、上述のように人間が見ても認
識できないような汚れた文字とか、かすれたような文字
である場合には、そのことを識別して認識結果（読取結
果）をリジェクトすることのできる未知パターン認識結
果のりジエクト方法を提供することにある。

〔課題を解決するための手段〕

上記目的達成のため、本発明では、未知パターンと標準
文字パターンとの比較を行い、未知パターンと最も類似
度の高い標準文字パターンを定め、その標準文字パター
ンの属する文字カテゴリーを認識結果とするパターン認
識において、各標準文字パターン毎に、認識対象とする
サンプルパターンを所要個数集めてそれぞれの類似度を
求めて正規分布に近似した類似度の度数分布を得た後、
該分布における或る類似度の発生確率が或る所与の％を
満たす如き、当該類似度を選択して予めしきい値と定め
ておき、未知パターンの当該標準文字パターンに対する
類似度が前記しきい値に達しないとき、該未知パターン
の認識結果をリジェクトすることとした。

〔作用〕

標準文字パターンが例えば「あ」という文字であるとす
ると、認識対象とするサンプルパターンは、同じ文字「
あ」でも、子供の書いた文字とか大人の書いた文字、或
いは習字の先生が書いた文字などのように、色々のサン
プルがあるので、−方に偏することのないようにそれら
サンプルをなるべく多数集め、それぞれの標準文字パタ
ーン「あ」に対する類似度を求めて統計処理すると、正
規分布に近似した類似度の度数分布を得ることができる
。

この度数分布（正規分布）において、或る類似度の発生
確率が１％なら１％となる如き当該類似度を求め、これ
をしきい値とし、従来技術における前述のアルゴリズム
を満たした認識結果であっても、そのとき得られた類似
度がこのしきい値に達しない場合はこれをリジェクトす
るのである。

発生確率のとりがた次第でリジェクトのしきい値を自由
に変え得るようにしておけば、ケース・パイ・ケースで
確実な読取結果を得ることができる。

またこのようにして自動的なりジエクトが行われれば人
間がそのことに気付いてその個所を修正することが容易
になる。

〔実施例〕

以下、必要に応じて図を参照しながら本発明の詳細な説
明する。

類似度計算を行うためには、辞書（標準）パターンが必
要である。Ｓ　（ｉ）（ｉ＝１．・・・、ｎ：但しｎは
辞書を構成する標準文字パターンの総数）を辞書パター
ンとする。ｎ個の標準文字パターンのそれぞれに対して
、ｍ個ずつのサンプルパターンを用意し、対応する標準
文字パターンについて、ｍ個のサンプルパターンの各類
似度を求めＸ　（ｉ。

ｊ）（但し、ｉは標準文字パターンを表わしていてｉ＝
１．・・・、ｎＨｊはサンプルパターンを表わしていて
ｊ＝１．・・・、ｍ）とする。

さらに、このようにして１個の標準文字パターンについ
てｍ個得られる類似度の平均値をとってＸ　（ｉ）（ｉ
＝１．・・・、ｎ）とし、これを基準点とする。また、
各標準文字パターン毎のｍ個の類似度の度数分布から標
準偏差σ（ｉ）（ｉ＝１゜・・・、ｎ）を求める。サン
プル数ｍを十分大きな値とすれば、ｍ個の類似度の度数
分布は正規分布とみなせるようになる。

第４図はかかるｍ個の類イ以度の度数分布（正規分布）
を示したグラフである。同図において、横軸に類似度を
とり縦軸にその頻度（度数）をとっている。サンプルパ
ターンの数ｍを適切に多数とればかかる正規分布に近い
度数分布が得られる。

なお類似度の最高点（満点）を１０００としている。

次にリジェクトのしきい値の決め方を説明する。

例えば第４図の度数分布において、下位から全体個数の
１％に相当する個数に対応した類似度Ｙは幾らであるか
を求め、それをしきい値とすれば、下位から発生確率１
％以下をリジェクトすることができる。

以下、このように下位から発生確率１％以下をリジェク
トする場合について考える。

各標準文字パターン毎の類似度の度数分布におと置いて
標準化して考えると、分布関数Φ（Ｚ）は次式（１）の
様に表わされる。

Φ　（ｚ）＝　　Ｓ　　　φ（ｚ）ｄｚ・・・・・・　
（１）従ってリジェクトしきい値を求めるためには次式（２）
を解けばよい。

φ（ｚ）ｄｚ＝ｏ、ｏｌこれを解くとＺ＃−２，３３となる。従ってこれに対す
る類似度Ｘ　（ｉ）の値は（３）式から得られる。

Ｘ　（ｉ）＝Ｘ　（ｉ）　　２．３３・σ（ｉ）・・・
・・・（３）従って、各標準文字パターン毎のリジェクトしきい値Ｒ
（ｉ）は次の（４）式で求められる。

Ｒ（ｉ）　−Ｘ　（ｉ）　−２，３３・σ（ｉ）（ｉ−
１，・・・、ｎ）　　　　・・・・・・（４）これによ
り例えばある未知パターンＰに対しての認識結果がＱで
あり、その標準文字パターン５（Ｋ）に対する当該未知
パターンＰの類似度がＹであったとして、ｙ＜Ｒ（Ｋ）　＝Ｘ　（Ｋ）　−２，３３・σ（Ｋ）・
・・・・・　（５）が成り立つ時は、その認識結果Ｑはリジェクトされる。

この方法によれば、各標準文字パターンごとにあらかじ
め類似度の平均値Ｘ　（ｉ）、類似度の度数分布の標準
偏差σ（ｉ）を求めておくことにより、下位から発生確
率何％を満たす類似度の所にリジェクトのしきい値を設
定するかによりリジェクトの強度を自由に変更できる。

例えば、１％の所にしきい値を設定していたものを１０
％の所に変更すればりジェツトの強度は強くなるわけで
ある。具体的な数値をもとに計算してみる。

今「あ」という文字の標準文字パターンがあり、１００
文字の「あ」　（サンプルパターン）に対し、類似度計
算をした結果、その平均点Ｘ＝８５０、標準偏差σ＝８
０であったとする。下位から１％の発生確率を満たす類
似度の所でリジェクトする場合のリジェクトしきい値Ｒ
１はＲ１＝８５０−２．３３Ｘ８０＝６６３．６・・・・・
・（６）であり、下位から１０％の所でリジェクトする場合のリ
ジェクトしきい値Ｒ２はＲ２＝８５０−１．２８Ｘ８０＝７４７．６・・・・・
・　（７）となる。

従って、ある未知パターンに対して認識結果がこの「あ
」になった場合、類似度ＸがＸ＜Ｒ１（＜Ｒ２）の場合、しきい値をＲ１，Ｒ２のどちらに選んでいても
リジェクトされ、Ｒ１≦　Ｘ　＜Ｒ２の場合、しきい値をＲ２に選んだ場合にのみリジェクト
される。また、Ｒ１＜Ｒ２≦Ｘの場合には、しきい値をＲ１，Ｒ２のどちらに選んだ場
合にもリジェクトされることはない。

第１図は、以上説明した動作原理に対応する本発明の一
実施例を示す概念図である。

同図において、１１は或る標準文字パターン（その属す
るカテゴリーをＫｉとする）に対する或る未知パターン
の類似度を演算する類似度演算器、１２は演算器１１に
おける演算の結果得られた類似度Ｘｋｉを格納しておく
レジスタ、１３は予め求めである様々なリジェクトしき
い値（Ｒ（ｉ）・・・Ｒ（ｉ）・・・Ｒ（ｎ））を記憶
しておくことのできるテーブル、１４は比較演算を行う
ＣＰＵ、１５，１６はそれぞれ出力、である。

今テーブル１３においてリジェクトしきい値としてＲ（
ｉ）が記憶されているものとする。ＣＰＵ１４は、レジ
スタ１２から取り込んだ類似度Ｘｋｉをテーブル１３か
ら取り込んだリジェクトしきい値Ｒ（ｉ）と比較し、そ
の結果、類似度Ｘｋｉがリジェクトしきい値Ｒ（ｉ）以
下であれば、リジェクト出力１６を出力し、そうでなけ
れば認識結果出力１５としてカテゴリーＫｉを出力する
。

テーブル１３に記憶するリジェクトしきい値を書き変え
ることによりリジェクトの範囲を様々に可変できること
は述べるまでもないであろう。

以上はリジェクトしきい値として類似度を用いる例であ
った。リジェクトしきい値として類似度を用いる代わり
に発生確率を用いることも勿論可能である。この場合の
動作原理について以下説明する。

カテゴリーＫをもつ或る標準文字パターンに対する所要
数のサンプルパターンの各類似度の度数分布Ω（Ｋ）を
正規分布Ｎｋ（Ｘｋ、　　σｋ）で近似することにより
（但し−Ｘｋは平均値、σには標準偏差）、未知文字パ
ターンＵの前記標準文字パターンに対する類似度ＹＵが
カテゴリーにである確率Ｐｋ　　（Ｕ）を次式の発生確
率として定義する。

σに未知文字パターンの候補文字Ｕｌ、Ｕ２・・・ＵＩＯの
各類似度ＹＵＩ、　ＹＯ２，・・・・・・Ｙ　ＵＩＯか
ら前記（８）式で、発生確率を求めて、Ｐｋｌ、　　Ｐ
ｋ２．・・・・・・Ｐ　ｋｌ。

とし、これらが予め定めたりジェツトのしきい値ＰＲよ
り小さいとき、リジェクトし、そうでないときはリジェ
クトしない。

この様子を第２図に示す。第２図において、カテゴリー
に１に対応する正規分布に対して候補文字Ｕ１の類似度
から求めた発生確率Ｐｋｌが図示せざるリジェクトしき
い値ＰＲより小さければリジェクトされる。カテゴリー
に２に対応する正規分布に対して候補文字Ｕ２の類似度
から求めた発生確率Ｐｋ２が図示せざるリジェクトしき
い値ＰＲより大きければリジェクトされず、ＯＫとなる
。

同様にカテゴリーに３に対応する正規分布に対して候補
文字Ｕ３の類似度から求めた発生確率Ｐｋ３がリジェク
トしきい値ＰＲより大きければリジェクトされず、ＯＫ
となる。

〔発明の効果〕

この発明によれば、あらかじめ求めておいた各カテゴリ
ーに属する標準文字パターンの類似度の度数分布を近似
した正規分布（文字パターンごとの基準点（平均点）、
標準偏差）をもとに発生確率で決定したりジェツトのし
きい値により、類似度の低いものをリジェクトする様に
したので、入力画像の汚れ、かすれ、或るいは辞書に全
くない様なパターンを認識し、点数が低くなった場合リ
ジェクトできる様になり、安定した確実な認識結果が得
られ、さらにリジェクトされたことを知ることにより修
正箇所が即座に認知でき、人手による修正が容易になっ
た。

また、リジェクトのしきい値（範囲）を自由に設定でき
るので、より確実な認識結果をその都度得られる様にな
った。

【図面の簡単な説明】

第１図は本発明の一実施例を示す概念図、第２図は本発
明によるリジェクト方法の一例を示す説明図、第３図は
従来の文字パターン認識のアルゴリズムを示す流れ図、
第４図はｍ個の類似度の度数分布（正規分布）を示した
グラフ、である。符号の説明１１・・・類似度演算器、１２・・・レジスタ、１３・
・・しきい値記憶テーブル、１４・・・ＣＰＵ、１５．
１６・・・出力代理人　弁理士　並　木　昭　夫代理人　弁理士　松　崎　　　清第１Ｃ１地０ル「レウｍ７）圧し！ナル［ｊ：！正ＩしＩＬｉ「ｉ易］ｊ」Ｎ石ｉ図１１４　　図

Claims

【特許請求の範囲】１）未知パターンと標準文字パターンとの比較を行い、
未知パターンと最も類似度の高い標準文字パターンを定
め、その標準文字パターンの属する文字カテゴリーを認
識結果とするパターン認識において、各標準文字パターン毎に、認識対象とするサンプルパタ
ーンを所要個数集めてそれぞれの類似度を求めて正規分
布に近似した類似度の度数分布を得た後、該分布におけ
る或る類似度の発生確率が或る所与の％を満たす如き、
当該類似度を選択して予めしきい値と定めておき、未知
パターンの当該標準文字パターンに対する類似度が前記
しきい値に達しないとき、該未知パターンの認識結果を
リジェクトすることを特徴とする未知パターン認識結果
のリジェクト方法。